• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于詞典、規(guī)則的斯拉夫蒙古文詞切分系統(tǒng)的研究

      2015-04-25 09:57:39史建國(guó)侯宏旭
      中文信息學(xué)報(bào) 2015年1期
      關(guān)鍵詞:詞干斯拉夫蒙古文

      史建國(guó),侯宏旭,飛 龍

      (內(nèi)蒙古大學(xué) 計(jì)算機(jī)學(xué)院,內(nèi)蒙古 呼和浩特 010021)

      ?

      基于詞典、規(guī)則的斯拉夫蒙古文詞切分系統(tǒng)的研究

      史建國(guó),侯宏旭,飛 龍

      (內(nèi)蒙古大學(xué) 計(jì)算機(jī)學(xué)院,內(nèi)蒙古 呼和浩特 010021)

      斯拉夫蒙古文是蒙古國(guó)現(xiàn)行的文字,又稱為西里爾蒙古文或新蒙古文。蒙古文詞干和詞綴包含著大量信息,斯拉夫蒙古文詞切分是斯拉夫蒙古文信息處理眾多后續(xù)工作的基礎(chǔ)。該文嘗試了將詞典和規(guī)則結(jié)合的方法對(duì)斯拉夫蒙古文進(jìn)行詞切分。首先預(yù)處理部分蒙古文詞,然后基于詞典切分高頻和部分不符合規(guī)則的詞。最后對(duì)剩余的詞,用切分規(guī)則生成多個(gè)候選的詞切分方案,然后在這些方案中選出最優(yōu)方案。通過兩種方法的有機(jī)結(jié)合,發(fā)揮各自的優(yōu)點(diǎn),得到了性能較好的斯拉夫蒙古文詞切分系統(tǒng)。

      斯拉夫蒙古文;詞切分;詞典;規(guī)則

      1 引言

      蒙古語(yǔ)是黏著性語(yǔ)言,黏著語(yǔ)語(yǔ)言是一種有時(shí)態(tài)變化的語(yǔ)言類型,通過在單詞的詞尾綴接不同的詞綴來(lái)實(shí)現(xiàn)語(yǔ)法功能。蒙古語(yǔ)、維吾爾語(yǔ)、滿語(yǔ)、日語(yǔ)、韓語(yǔ)、芬蘭語(yǔ)、土耳其語(yǔ)、匈牙利語(yǔ)等為典型的黏著語(yǔ)。

      蒙古語(yǔ)的構(gòu)詞和構(gòu)形都是以詞根、詞干上綴接不同詞綴來(lái)完成的。每一個(gè)詞的構(gòu)成和其語(yǔ)法意義的表示都是依賴于不同詞綴的綴接,所以只有正確切分詞干和詞綴才能揭示其詞類屬性和語(yǔ)法關(guān)系。另一方面,蒙古語(yǔ)中存在大量的構(gòu)詞、構(gòu)形詞綴,而且它們往往有同形或兼類現(xiàn)象,這使蒙古語(yǔ)詞干和詞綴的切分更加復(fù)雜化[1]。

      每個(gè)黏著語(yǔ)言的形態(tài)結(jié)構(gòu)、構(gòu)形詞綴和詞綴連接規(guī)則具有較大的差異,因此詞切分必須針對(duì)每個(gè)具體語(yǔ)言來(lái)設(shè)計(jì)與實(shí)現(xiàn)。詞切分算法在黏著語(yǔ)言的自然語(yǔ)言處理技術(shù)中占重要地位,所以斯拉夫蒙古文詞切分是斯拉夫蒙古文信息處理眾多后續(xù)工作的基礎(chǔ)。其他的研究,例如,斯拉夫蒙古文機(jī)器翻譯、信息檢索、文本分類、篇章處理等都是在斯拉夫蒙古文詞切分的基礎(chǔ)上進(jìn)行的。所以設(shè)計(jì)一個(gè)高查準(zhǔn)率、高查全率、運(yùn)行速度快的斯拉夫蒙古文詞切分系統(tǒng),對(duì)斯拉夫蒙古文信息處理的研究具有重要的意義。

      詞切分長(zhǎng)時(shí)間以來(lái)一直是被研究的課題,典型的詞切分方法有Porter[2]算法,基于詞典方法,有限狀態(tài)轉(zhuǎn)錄機(jī),有限自動(dòng)機(jī),基于HMM的方法[3],基于同現(xiàn)概率的方法等。目前傳統(tǒng)蒙古文詞切分研究已經(jīng)做了很多工作,而且取得了比較好的結(jié)果,但是斯拉夫蒙古文的詞綴切分還沒取得很好的結(jié)果。傳統(tǒng)蒙古文詞切分方法一般有3種: (1)基于切分詞典的切分方法[4]; (2)基于規(guī)則的切分方法[5]; (3)基于統(tǒng)計(jì)的切分方法[6]。此外也有人嘗試了結(jié)合多種方法對(duì)傳統(tǒng)蒙古文切分[7]。和傳統(tǒng)蒙古文有很大的不同,斯拉夫蒙古文基本上怎么讀就怎么寫的,讀與寫統(tǒng)一,在傳統(tǒng)蒙古文中的一個(gè)詞綴可能對(duì)應(yīng)多種變形的詞綴,同時(shí),詞庫(kù)、正字法等也存在混亂和無(wú)固定標(biāo)準(zhǔn)的現(xiàn)象,所以切分也相對(duì)較難,目前國(guó)內(nèi)外還沒有一部實(shí)用的斯拉夫蒙古文詞切分系統(tǒng)。本文對(duì)斯拉夫蒙古文構(gòu)詞從理論到實(shí)踐做了深入分析,提出了切合實(shí)際的切分方法,結(jié)合基于切分詞典的切分方法和基于規(guī)則的切分方法,對(duì)斯拉夫蒙古文詞進(jìn)行詞綴切分,取得了比較好的結(jié)果。

      2 斯拉夫蒙古文詞切分的特點(diǎn)

      蒙古國(guó)現(xiàn)行的斯拉夫蒙古文有35個(gè)字母,其中7個(gè)基本元音,6個(gè)輔助元音,7個(gè)帶元音輔音,4個(gè)借詞輔音,9個(gè)殘缺輔音,這些都屬于音素,還有1個(gè)隔音符號(hào)和1個(gè)前化符號(hào)。一個(gè)詞由一個(gè)或多個(gè)音節(jié)組成,一個(gè)音節(jié)一般由幾個(gè)音素組成,詞與詞之間用空格分開。

      斯拉夫蒙古文是個(gè)語(yǔ)法信息特別豐富的語(yǔ)言文字。不僅存在著眾多規(guī)律和規(guī)則,而且每種規(guī)律或規(guī)則都有特殊的情況,除此之外還有違反規(guī)律規(guī)則及特殊規(guī)則的情況。這些使得斯拉夫蒙古文的語(yǔ)法變得更加復(fù)雜。

      斯拉夫蒙古文在語(yǔ)音方面有嚴(yán)格的元音和諧律。蒙語(yǔ)詞的第一個(gè)音節(jié)的元音是要影響后續(xù)音節(jié)的元音。一般是第一個(gè)音節(jié)的元音是陽(yáng)性,那么后續(xù)音節(jié)的元音只能是陽(yáng)性,第一個(gè)音節(jié)的元音是陰性,那么后續(xù)音節(jié)的元音只能是陰性,只有中性元音不受這種限制,可以跟陽(yáng)性元音或陰性元音同時(shí)出現(xiàn)在一個(gè)詞里[8]。

      蒙語(yǔ)是一種連續(xù)語(yǔ),因此,蒙古語(yǔ)詞從構(gòu)造上可以分為: 詞根、詞干、附加成分。在形態(tài)學(xué)方面以詞根或詞干為基礎(chǔ),后接詞綴派生新詞和進(jìn)行詞形變化。詞干上綴接詞綴時(shí)有時(shí)在其中間增加字符、有時(shí)減少字符,也有時(shí)增加一個(gè)音節(jié)。詞根,表示蒙古語(yǔ)詞的最基本意義的部分,也就是詞的原來(lái)詞素叫做詞根。詞干,表示蒙古語(yǔ)的有意義的部分叫做詞干,詞干可以分為第一詞干、第二詞干、第三詞干等,詞根就是第一詞干。附加成分,單獨(dú)沒有意義,只在詞干下附加后產(chǎn)生詞匯意義和語(yǔ)法意義的部分叫做附加成分[8]。例如,

      Yйлдвэрлэл(生產(chǎn))這個(gè)詞由Yйл(行為)—Yйлд(制作)—Yйлдвэр(工廠)—Yйлдвэрлэ(生產(chǎn)<動(dòng)>)—Yйлдвэрлэл(生產(chǎn)<名>)的順序構(gòu)成的。這里Yйл為詞根(第一詞干),它后面接加《д》之后產(chǎn)生第二詞干Yйлд,再接加《вэр》時(shí)產(chǎn)生第3詞干Yйлдвэр,后面再接加《лэ》產(chǎn)生第4詞干Yйлдвэрлэ,最后又接加《л》之后產(chǎn)生Yйлдвэрлэл這個(gè)詞。

      附加成分有構(gòu)形附加成分和構(gòu)詞附加成分,我們?cè)诖颂幚順?gòu)形附加成分,它并沒有改變?cè)~匯的意義,這在后續(xù)工作中都是很有用的,我們?cè)诖硕挤Q為詞綴。

      3 基于詞典的詞切分

      這里說(shuō)的基于詞典的切分只是對(duì)高頻和部分不符合規(guī)則的斯拉夫蒙古文詞進(jìn)行的切分,是用來(lái)提高本詞切分系統(tǒng)的效率和準(zhǔn)確率。

      對(duì)訓(xùn)練語(yǔ)料進(jìn)行詞頻統(tǒng)計(jì)后分析發(fā)現(xiàn),有些高頻詞在短詞處理階段就能處理掉,所以不需要編入切分詞典。整理后得到出現(xiàn)頻率高的200個(gè)詞,對(duì)其進(jìn)行人工詞切分編入詞切分詞典,用來(lái)進(jìn)行基于詞典詞切分使用。高頻詞進(jìn)行基于詞典的詞切分對(duì)于斯拉夫蒙古文詞切分的準(zhǔn)確率和速度的提高有很大的幫助。此外,斯拉夫蒙古文中少量詞不符合切分規(guī)則,我們也把這些詞放入切分詞典中,可以避免詞切分的錯(cuò)誤,提高切分的準(zhǔn)確率。

      詞切分詞典格式為: 索引——原詞——切分結(jié)果。其中,索引指的是該詞的首字母。

      從表1中看出這200個(gè)高頻詞在語(yǔ)料中共出現(xiàn)了55 719 379次,所占的比例為 22.44%。最高出現(xiàn)頻率為623 782次,最低也有28 941次。所以對(duì)這200個(gè)高頻詞的準(zhǔn)確處理意義非常大。

      表1 高頻詞統(tǒng)計(jì)結(jié)果

      4 基于規(guī)則的詞切分

      雖然斯拉夫蒙古文和傳統(tǒng)蒙古文在形態(tài)分析方面并沒有本質(zhì)的差異,但兩者在綴接詞綴時(shí)有很多不同的地方,因此詞綴切分規(guī)則有很大區(qū)別,傳統(tǒng)蒙古文的切分規(guī)則很多并不適用于斯拉夫蒙古文,相對(duì)于傳統(tǒng)蒙古文,斯拉夫蒙古文詞綴切分要復(fù)雜的多。

      斯拉夫蒙古文是一個(gè)語(yǔ)法規(guī)則特別豐富的文字,有構(gòu)詞詞綴和構(gòu)形詞綴。在詞干上綴接詞綴時(shí),不是簡(jiǎn)單的連接,詞干詞尾發(fā)生變化,詞干末尾部分從詞尾形式變?yōu)樵~中形式。有時(shí)二者之間還需要添加連接字符,而連接字符也分一般情況和特殊情況;有時(shí)二者之間還需要去掉字符,也分一般情況和特殊情況。斯拉夫蒙古文詞還分為陽(yáng)性詞、陰性詞和中性詞。

      завилгаа(盤腿坐)

      該詞中гаа不是詞綴,不能切。

      Байцаагаа

      該詞中гаа是詞綴,切分結(jié)果為байцаагаа: байцаа(白菜)+гаа。

      由于斯拉夫蒙古文詞綴情況非常復(fù)雜,所以處理好斯拉夫蒙古文的這些規(guī)則和變化對(duì)于蒙古文的詞綴切分意義重大。根據(jù)斯拉夫蒙古文的特點(diǎn),我們總結(jié)出了下面一些規(guī)則,并設(shè)計(jì)了算法。

      4.1 通用切分規(guī)則

      斯拉夫蒙古文詞通用切分規(guī)則指切分詞干、詞綴時(shí)普遍的切分規(guī)則??梢远x如下,假設(shè)一個(gè)斯拉夫蒙古文詞“WS”,S∈Ts其中Ts為詞綴詞典,W為詞干,S為詞綴。如果S詞綴為某個(gè)詞綴表中的詞綴,且W詞干滿足該詞綴表對(duì)詞干的要求,那么可以直接切分為WS: W+S的形式。例如,

      авьяастай: авьяас+тай

      тай為詞綴詞典的詞綴表MK_AE_GEIGUULEGC_DSR中的詞綴,該詞綴表對(duì)詞干的要求是詞干為靜態(tài)詞詞干,且為AE(含有а、э、у、Y字母)型詞干,詞干以DSR(д、с、р)字母結(jié)尾。

      авьяастай滿足該詞綴表的要求,所以可以直接切分為авьяас+тай。

      應(yīng)用通用切分規(guī)則進(jìn)行詞切分時(shí),我們切分的詞綴為多個(gè)詞綴的疊加,即,一個(gè)詞后面如果綴接了多個(gè)詞綴,那么我們將這多個(gè)詞綴看成一個(gè)整體,然后從單詞中切分。

      4.2 脫落元音的恢復(fù)

      斯拉夫蒙古文中有些情況單詞后綴加詞綴時(shí)會(huì)出現(xiàn)元音脫落現(xiàn)象,當(dāng)出現(xiàn)這樣的情況時(shí),切分詞綴后要將脫落的字符恢復(fù)。例如,以輔音結(jié)尾的詞干后接加以長(zhǎng)元音開頭的詞綴時(shí)該結(jié)尾輔音前面的元音要脫落。除и以外,其他元音結(jié)尾的詞干后接加以長(zhǎng)元音開頭的詞綴時(shí)該結(jié)尾的元音要脫落。以輔音結(jié)尾的詞干后接加以輔音開頭的詞綴時(shí)需要加元音時(shí),該輔音前面的元音要脫落。例如,

      олон+оос: олноос

      олон以輔音結(jié)尾的詞干,后面綴接以長(zhǎng)元音開頭的詞綴оос時(shí),脫落掉олон結(jié)尾輔音字符н前的元音о。

      м?нг?+ийг: м?нгийг

      м?нг?為非и的元音結(jié)尾的詞干,后面綴接以長(zhǎng)元音開頭的詞綴ийг時(shí),脫落掉м?нг?末尾的元音?。

      боловсор+л: боловсрол

      боловсор后面綴接л時(shí),боловсор末尾需要加元音о,所以脫落掉боловсор結(jié)尾的輔音字符р前的元音о。

      但是,有些情況下元音不能脫落,例如,不能把帶元音輔音脫落成沒有元音,不能把殘缺輔音后接加殘缺輔音時(shí)加寫的元音脫落等。

      斯拉夫蒙古文的元音有陽(yáng)性、陰性和中性之分。一個(gè)詞里邊存在前后元音之間互相制約關(guān)系的元音和諧律。元音和諧律可用表2表示。

      表2 元音和諧律

      脫落元音恢復(fù)時(shí)可以考慮元音和諧律,根據(jù)元音和諧律恢復(fù)脫落的元音。例如,上面例子中,олноос為原詞干綴接詞綴時(shí)脫落掉了元音,所以олноос切掉詞綴оос后,詞干為олн恢復(fù)元音,根據(jù)元音和諧律,олн第一個(gè)音節(jié)的元音為о,所以原來(lái)脫落掉的元音為о,所以олноос切掉詞綴оос后,詞干為олно。

      4.3 前化符號(hào)的恢復(fù)

      在斯拉夫蒙古文中詞首音節(jié)的陽(yáng)性元音受其后續(xù)音節(jié)и的影響而前化,最后成為獨(dú)立音位的叫做前化元音。前化元音在斯拉夫蒙古文里用前化符號(hào)ь表示。換句話說(shuō)前化元音是陽(yáng)性詞第一音節(jié)的а、о、у受到前元音и的影響,發(fā)音部位逐漸前移,成為一種獨(dú)立的前元音。

      有些情況,前化符號(hào)后面接加附加成分時(shí)把前化符號(hào)轉(zhuǎn)換成и,如,前化符號(hào)后面接加以帶元音輔音開頭的詞綴時(shí)把前化符號(hào)轉(zhuǎn)換成и,前化符號(hào)后面接加以元音開頭的附加成分時(shí)把前化符號(hào)轉(zhuǎn)換成и等等。對(duì)于這樣的詞,在詞切掉詞綴后,要將前后符號(hào)恢復(fù)。例如,

      соль+вол: соливол

      соль以前化符號(hào)ь結(jié)尾,后面綴接以帶元音輔音開頭的詞綴вол時(shí),前化符號(hào)ь轉(zhuǎn)換成и,所以соль后綴接詞綴вол后為соливол。相應(yīng)的當(dāng)соливол切掉詞綴вол時(shí),詞干為соль。

      而有些情況前化符號(hào)不轉(zhuǎn)換成и,所以切分詞綴時(shí),如果需要將前化符號(hào)恢復(fù)時(shí)就得恢復(fù)。而前化符號(hào)后面接加以殘缺輔音開頭的詞綴時(shí)把前化符號(hào)不轉(zhuǎn)換成и,前化符號(hào)后面接加第一人稱意愿式附加成分я、ё時(shí)前化符號(hào)不轉(zhuǎn)換成и等等。對(duì)于這些情況,我們對(duì)詞直接切掉詞綴即為詞干了,不用考慮前化符號(hào)的恢復(fù)。

      4.4 基于規(guī)則的詞切分算法

      (1) 將詞與詞綴詞典各詞綴表中的詞綴進(jìn)行匹配。

      (2) 若沒有匹配,則返回結(jié)果;若有匹配且詞干符合該詞綴表中詞綴對(duì)其的要求,則轉(zhuǎn)入第(3)步。

      (3) 若詞去掉詞綴后,剩下部分是否一個(gè)有意義詞或詞干,且可以綴接詞綴。若是真,則切分成功,若是假,則轉(zhuǎn)入第(4)步。

      (4) 該詞是否屬于詞干綴接詞綴后脫落了元音情況,若不屬于,則轉(zhuǎn)入第(5)步,否則將脫落元音恢復(fù),然后看恢復(fù)后是否一個(gè)有意義詞或詞干,且可以綴接詞綴。若是真,則切分成功;若是假,則該詞不屬于“詞干和詞綴結(jié)構(gòu)”。

      (5) 若不屬于第(4)步情況,則看該詞是否屬于詞干綴接詞綴后前化符號(hào)被轉(zhuǎn)換情況,若屬于,則將前化符號(hào)恢復(fù),然后看恢復(fù)后是否一個(gè)有意義詞或詞干,且可以綴接詞綴。若是真,則切分成功;若是假,則該詞不屬于“詞干和詞綴結(jié)構(gòu)”。

      5 數(shù)據(jù)準(zhǔn)備

      5.1 關(guān)于語(yǔ)料的說(shuō)明

      我們參閱了很多文獻(xiàn)和論文沒有發(fā)現(xiàn)公開公認(rèn)的斯拉夫蒙古文訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料,因此我們整理了一個(gè)訓(xùn)練語(yǔ)料和一個(gè)測(cè)試語(yǔ)料。其中,訓(xùn)練語(yǔ)料為我們整理網(wǎng)絡(luò)孔子學(xué)院等多個(gè)網(wǎng)站的斯拉夫蒙古文文本所得語(yǔ)料集,共1G多。訓(xùn)練語(yǔ)料沒有詞性信息,也沒有詞綴切分信息,如圖1所示。測(cè)試語(yǔ)料為我們精心挑選的具有代表性的200句斯拉夫蒙古文語(yǔ)料,對(duì)測(cè)試語(yǔ)料切分后進(jìn)行了人工校對(duì)。

      5.2 人工編寫詞綴詞典

      1. 詞綴

      斯拉夫蒙古文和傳統(tǒng)蒙古文一樣,通過在詞干上綴接詞綴,有時(shí)層層綴接,變成一個(gè)結(jié)構(gòu)相當(dāng)復(fù)雜的蒙古文詞,所以構(gòu)建詞綴詞典是蒙古文切分必須完成且重要的任務(wù)。

      圖1 斯拉夫蒙古文原始語(yǔ)料

      2. 詞綴詞典的設(shè)計(jì)

      根據(jù)情況的不同,我們對(duì)詞綴總結(jié)整理,共分為30類詞綴表,這些詞綴表之間存在重復(fù)詞綴,而且詞綴表中的詞綴不是斯拉夫蒙古文語(yǔ)法上的詞綴,而是多個(gè)詞綴的疊加,即,一個(gè)詞后面如果綴接了多個(gè)詞綴,那么我們將這多個(gè)詞綴看成一個(gè)整體作為詞綴。詞綴表分類的依據(jù)是前面詞干的不同,如詞干是靜態(tài)詞詞干,還是動(dòng)態(tài)詞詞干,詞干的陰陽(yáng)性、末尾元音等,每一個(gè)詞綴表對(duì)詞干都有相應(yīng)的要求,例如,MK_TYN_AE_GEIGUULEGC_DSR這個(gè)詞綴表要求詞干為靜態(tài)詞詞干,且為AE(含有а、э、у、Y字母)型詞干,詞干以DSR(д、с、р)字母結(jié)尾。

      下面為詞綴表MK_TYN_AE_GEIGUULEGC_DSR的截圖如圖2所示。

      圖2 詞綴表MK_TYN_AE_GEIGUULEGC_DSR

      所有詞綴表統(tǒng)計(jì)如表3所示,其中,長(zhǎng)度為斯拉夫蒙古文字母?jìng)€(gè)數(shù)。

      表3 詞綴詞典統(tǒng)計(jì)結(jié)果

      5.2 人工編寫詞干詞典

      我們統(tǒng)計(jì)并切分校正,生成5萬(wàn)詞級(jí)的詞干詞典,其中有7千詞級(jí)的動(dòng)態(tài)詞詞干。

      6 詞切分流程

      對(duì)語(yǔ)料進(jìn)行分析,發(fā)現(xiàn)斯拉夫蒙古文詞切分在真正開始切分之前,進(jìn)行詞信息分析工作,將會(huì)大幅度提高詞切分效率和準(zhǔn)確率。

      6.1 切分過程

      本系統(tǒng)對(duì)斯拉夫蒙古文詞切分的詞切分過程如圖3所示。

      圖3 詞切分過程

      首先,如果當(dāng)前為斯拉夫蒙古文詞標(biāo)點(diǎn)符號(hào)或非斯拉夫蒙古文詞,則直接輸出。

      其次,第一步?jīng)]有得到處理的,如果該詞長(zhǎng)度小于等于3,則直接輸出。

      最后,前兩步中沒得到處理的,如果該詞在詞切分詞典中,則按詞典方法將該詞的切分結(jié)果輸出。剩余部分按后面介紹的基于規(guī)則的方法切分。如果都處理不掉,則直接輸出。

      6.2 長(zhǎng)度小于等于3的斯拉夫蒙古文詞

      對(duì)于長(zhǎng)度小于等于3的斯拉夫蒙古文詞的分析發(fā)現(xiàn)它們基本上為詞干。從表4中可以看到3 491個(gè)短詞在語(yǔ)料中占的比例高達(dá)17.93%。所以對(duì)這些詞的預(yù)處理,對(duì)詞切分的貢獻(xiàn)很大。

      表4 訓(xùn)練語(yǔ)料中長(zhǎng)度小于等于3的詞的統(tǒng)計(jì)結(jié)果

      7 實(shí)驗(yàn)

      我們精心選取了200句具有代表性的斯拉夫蒙古文長(zhǎng)句子,對(duì)其單詞進(jìn)行詞綴切分。實(shí)驗(yàn)結(jié)果如表5所示。

      表5 實(shí)驗(yàn)結(jié)果

      從上面結(jié)果看出,只是簡(jiǎn)單基于切分詞典和通用切分規(guī)則的詞綴切分,準(zhǔn)確率不高,而加上其它規(guī)則和預(yù)處理,則明顯的提高了詞綴切分的準(zhǔn)確率。因?yàn)楦鶕?jù)通用切分規(guī)則所得詞干,很多需恢復(fù)脫落的元音或前化符號(hào)等;預(yù)處理也會(huì)減少錯(cuò)誤切分,如短詞,它們基本沒有詞綴,不需切分。另外,如果詞干詞典的覆蓋率比較小時(shí)會(huì)影響切分的準(zhǔn)確率。而且,當(dāng)出現(xiàn)多種滿足條件的情況時(shí),就不能保證輸出正確結(jié)果了,例如,бартаа為“障礙、險(xiǎn)阻、麻煩”的意思,沒有詞綴,但是在切分時(shí)卻切分成бар+таа了,詞干為бар,詞綴為таа,這是因?yàn)樵~綴表MK_AE_GEIGUULEGC_DSR中含有詞綴таа,而且бар為AE型,以DSR(д、с、р)字符結(jié)尾,詞干詞典中存在,為靜態(tài)詞詞干,滿足了規(guī)則和設(shè)定的條件,所以切分得到的結(jié)果就不正確了。

      8 總結(jié)及展望

      本文對(duì)斯拉夫蒙古文詞采用基于詞典和規(guī)則結(jié)合的方法進(jìn)行詞綴切分,實(shí)現(xiàn)了一個(gè)實(shí)用的切分系統(tǒng)。實(shí)驗(yàn)表明,通過詞典和規(guī)則兩方法的結(jié)合,對(duì)斯拉夫蒙古文詞切分取得了比較好的結(jié)果。但是,由于斯拉夫蒙古文是一個(gè)很靈活的語(yǔ)言,規(guī)則不能完全覆蓋所有的單詞,有些特殊情況,而且隨著新詞的不斷出現(xiàn),可能會(huì)出現(xiàn)更多的特殊情況,有些詞處理結(jié)果存在問題,系統(tǒng)還需要進(jìn)一步完善。接下來(lái)的工作,進(jìn)一步完善切分規(guī)則、詞綴詞典和詞干詞典,而且,我們考慮利用統(tǒng)計(jì)方法對(duì)大的詞切分語(yǔ)料根據(jù)斯拉夫蒙古文的特點(diǎn)進(jìn)行機(jī)器學(xué)習(xí),通過結(jié)合語(yǔ)言模型對(duì)該系統(tǒng)進(jìn)一步改進(jìn)。

      [1] 那順烏日?qǐng)D.蒙古文詞根、詞干、詞尾自動(dòng)切分系統(tǒng)[J].內(nèi)蒙古大學(xué)學(xué)報(bào),1997,29(2):53-67.

      [2] M F Porter. An algorithm for suffix stripping [J].Program, 1980, 14(3): 130-137.

      [3] Massimo M and Nicola O. A Novel Method for Stemmer Generation Based on Hidden Markov Models[C]//Conference on Information and Knowledge Management Archive Proceedings of the twelfth International Conference on Information and Knowledge Management, 2003: 131 134.

      [4] 淑琴.“蒙古語(yǔ)語(yǔ)法信息詞典附加成分分庫(kù)”的設(shè)計(jì)與實(shí)現(xiàn)[D],內(nèi)蒙古大學(xué)碩士學(xué)位論文,2005.6.

      [5] 葉嘉明,基于規(guī)則的蒙古語(yǔ)詞法分析研究與實(shí)現(xiàn)[D],北京: 北京大學(xué)碩士學(xué)位論文,2005.

      [6] 侯宏旭,劉群,那順烏日?qǐng)D等.基于統(tǒng)計(jì)語(yǔ)言模型的蒙古文詞切分[J].模式識(shí)別與人工智能,2009,22(1):108-112.

      [7] 明玉.基于詞典、規(guī)則與統(tǒng)計(jì)的蒙古文詞切分系統(tǒng)的研究[D],內(nèi)蒙古大學(xué)碩士學(xué)位論文,2011.

      [8] 薩仁都拉嘎.新蒙文自學(xué)入門[M],內(nèi)蒙古: 天馬出版有限公司,2005.1.

      [9] 清格爾泰.蒙古語(yǔ)語(yǔ)法[M],內(nèi)蒙古: 內(nèi)蒙古人民出版社,1991.5.

      [10] 嘎拉桑朋斯格.蒙古國(guó)基立爾蒙古文正字法[M],內(nèi)蒙古: 內(nèi)蒙古人民出版社,2001.11.

      [11] 舍·卻瑪.蒙古文、基里爾文正字法比較研究[M],內(nèi)蒙古教育出版社,2010.9.

      [12] 古麗拉·阿東別克,米吉提·阿布力米提. 維吾爾語(yǔ)詞切分方法初探[J]. 中文信息學(xué)報(bào),2004,18:61-65.

      [13] 那順烏日?qǐng)D,雪艷,葉嘉明.現(xiàn)代蒙古文語(yǔ)料庫(kù)加工技術(shù)的新進(jìn)展——新一代蒙古文詞語(yǔ)自動(dòng)切分與標(biāo)注系線[C]//第十屆少數(shù)民族語(yǔ)言文字信息處理學(xué)術(shù)研討會(huì),2005

      [14] 米海濤,熊德意,劉群. 中文詞法分析與句法分析融合策略研究[J]. 中文信息學(xué)報(bào),2008,22:10-17.

      [15] 包薩日娜. 傳統(tǒng)蒙古文到新蒙文轉(zhuǎn)換中名詞及其格附加成分轉(zhuǎn)換的研究[D]. 內(nèi)蒙古大學(xué)碩士學(xué)位論文,2009.6.

      [16] 趙偉,侯宏旭,從偉,宋美娜.基于條件隨機(jī)場(chǎng)的蒙古語(yǔ)詞切分研究[J].中文信息學(xué)報(bào),2010,24(5):31-35.

      Research on Slavic Mongolian Word Segmentation Based on Dictionary and Rule

      SHI Jianguo ,HOU Hongxu, BAO Feilong

      (College of Computer Science, Inner Mongolia University, Hohhot, Inner Mongolia 010021,China)

      Slavic Mongolian is the daily language in Mongolia, which is also known as Cyrillic Mongolian or new Mongolian. This paper explores the Slavic Mongolian word segmentation by combining the dictionary with rules. We first preprocess with the dictionary for the words of high-frequency or not consistent with rulesm then deal with the rest words with rules to generate n-best candidates for final decision We combine the two different methods, taking bothadvantages and achieving excellent performance in the Slavic Mongolian word segmentation.

      Slavic Mongolian; word segmentation; dictionary; rule

      史建國(guó)(1984—),碩士研究生,主要研究領(lǐng)域?yàn)橹形男畔⑻幚?。E?mail:tieshushjg@163.com飛龍(1985—),助教,主要研究領(lǐng)域?yàn)槊晒盼男畔⑻幚?、語(yǔ)音識(shí)別與合成。E?mail:csfeilong@imu.edu.cn侯宏旭(1972—),通訊作者,教授,博士生導(dǎo)師,主要研究領(lǐng)域?yàn)橹形男畔⑻幚?、信息檢索。E?mail:cshhx@imu.edu.cn

      1003-0077(2015)01-0197-06

      2012-10-08 定稿日期: 2013-02-03

      工業(yè)與信息化部電子信息產(chǎn)業(yè)發(fā)展基金“蒙古文軟件開發(fā)和產(chǎn)業(yè)化”項(xiàng)目子課題“蒙古文輔助翻譯與電子辭典軟件”,內(nèi)蒙古自然科學(xué)基金項(xiàng)目(2010ZD18)

      TP391

      A

      猜你喜歡
      詞干斯拉夫蒙古文
      早期斯拉夫派宗教哲學(xué)家對(duì)德國(guó)唯心主義的闡釋與批判
      論柯爾克孜語(yǔ)詞干提取方法
      維吾爾語(yǔ)詞綴變體搭配規(guī)則研究及算法實(shí)現(xiàn)
      關(guān)于新發(fā)現(xiàn)的《字母匯編》(蒙古文)
      關(guān)于蒙古文在各種瀏覽器上顯示方法的探討
      略論Khandjamts夫人(基里爾蒙古文)
      東斯拉夫諸語(yǔ)言
      西斯拉夫諸語(yǔ)言
      斯拉夫諸語(yǔ)言
      融合多策略的維吾爾語(yǔ)詞干提取方法
      观塘区| 津市市| 武安市| 呈贡县| 淮北市| 阜阳市| 云阳县| 华坪县| 正定县| 乌兰县| 潍坊市| 宜城市| 佛教| 台前县| 得荣县| 章丘市| 红桥区| 清苑县| 资阳市| 石楼县| 黑水县| 莲花县| 屏南县| 图们市| 宝丰县| 双牌县| 阿尔山市| 娄底市| 镇安县| 金秀| 远安县| 祁连县| 柯坪县| 舟曲县| 定襄县| 兴文县| 策勒县| 永顺县| 隆回县| 临澧县| 收藏|