• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于信息處理的烏茲別克語語音變化現(xiàn)象自動還原技術(shù)研究

      2017-03-17 09:13帕提古麗·艾合買提艾孜爾古麗阿不
      電腦知識與技術(shù) 2016年32期

      帕提古麗·艾合買提++艾孜爾古麗++阿不都熱依木++玉素甫·艾白都拉

      摘要:語音變化現(xiàn)象的自動還原是詞干提取的基礎(chǔ)。為了提高詞干提取的準(zhǔn)確率,本文深入研究烏茲別克語中的語音變化現(xiàn)象,并提出音變現(xiàn)象的自動還原模型。分析烏茲別克語中發(fā)生語音變化的詞干本身的特征,設(shè)計音變現(xiàn)象的還原模型,并結(jié)合了詞干庫配對方法來實現(xiàn)自動還原。實驗以烏茲比克斯坦的官方網(wǎng)站(www.kutubxona.com)截取的語料為實驗對象,驗證處理模型的有效性。

      關(guān)鍵詞:烏茲別克語;語音脫落;語音同化;增音

      中圖分類號:TP393 文獻標(biāo)識碼:A 文章編號:1009-3044(2016)32-0177-03

      烏茲別克語屬于阿爾泰語系突厥語族,是個典型的黏著性語言。語法特征名詞跟不同詞綴連接表示不同的語法意義。烏茲別克語中常見的音變現(xiàn)象有音的同化、脫落、增音等[3],上述三種變化已體現(xiàn)在文字上。語音變化是指因發(fā)音器官的制約和發(fā)音方便的需要,在連續(xù)發(fā)音中會受前后音的影響而發(fā)生的變化。所以語音變化的處理是烏茲別克語文字信息處理、烏-維機器翻譯、跨語言信息檢索等自然語言處理的重要環(huán)節(jié)。語音脫落是指名詞詞干末尾連接固有的構(gòu)形詞綴時,詞干中的元音或輔音會脫落。如:“shahar城市”這個名詞詞干末尾連接名詞的領(lǐng)屬詞綴時詞干“shahar”中第二個音節(jié)里的元音“a”會脫落,即shahar+i=shahri(他的城市)。語音同化是指有些固有的名詞末未連接構(gòu)形詞綴時,詞干末尾的輔音換另一個輔音。如:tilak+im = tilagim(我的愿望)。增音是指部分名詞末未連接構(gòu)形詞綴時,詞干和詞綴之間會增多一個音,這種現(xiàn)象叫做增音。如:orzu+ing=orzuying(你的夢想)。這種語音變化現(xiàn)象對烏茲別克語名詞詞干提取增加難度,降低詞干提取的準(zhǔn)確率。所以,在處理烏茲別克語中發(fā)生的語音變換現(xiàn)象是烏茲別克語名詞詞干提取的基礎(chǔ)、重點,也是最基本的前提。

      1 相關(guān)工作

      在音變還原的研究領(lǐng)域上,屬于突厥語族的維吾爾語進行的工作比較廣闊。文獻[1]中指出,維吾爾語詞干在接詞綴時按維吾爾語語音和諧規(guī)律有些語音會發(fā)生弱化、脫落、增音等現(xiàn)象。該論文提出了一種自動還原模型,此模型中我們把音變現(xiàn)象泛化,先假設(shè)維吾爾語中所有語音都有音變現(xiàn)象,從而將還原問題轉(zhuǎn)化為類似于詞性標(biāo)注問題,再利用標(biāo)注的方法解決了還原操作。思路是:維吾爾語詞被看作是所包含語音的線性序列,先假設(shè)音變現(xiàn)象會發(fā)生在每個語音上,那么構(gòu)成一個詞的語音序列中每 一個語音就可以有 n ( 0≤ n ≤31)個原形候選,找到它們的原形就類似于詞序列自動標(biāo)注,再利用序列標(biāo)注的方法即可解決還原問題。文獻[4],重點研究維吾爾語中弱化現(xiàn)象及處理算法,并分析了維吾爾語詞法結(jié)構(gòu)、音節(jié)結(jié)構(gòu)、詞干—詞綴連接形式等技術(shù)。處理弱化問題時,要根據(jù)詞干庫檢查弱化屬性,并根據(jù)語音和諧規(guī)律分析是否正確連接。該算法在文本檢索、詞頻統(tǒng)計、文本校對等研究領(lǐng)域得到很好的應(yīng)用。運行結(jié)果表明該算法具有可行性和有效性,并在實踐中不斷完善。

      2 烏茲別克語語音變化現(xiàn)象分析

      2.1烏茲別克語語音脫落、同化、增音現(xiàn)象的分析

      1)語音脫落

      ①元音脫落:有些以輔音字母結(jié)尾的雙音節(jié)名詞詞干末尾連接領(lǐng)屬詞綴“i,im,imiz,ingiz,ing”時,第二個音節(jié)里的元音字母會脫落。這種脫落字母有“u,i,a”等三個。如:

      Burun(鼻子)+i=burni(他的鼻子), shahar(城市)+im=shahrim(我的城市),qorin(肚子)+im=qornim(我的肚子)

      ②輔音脫落:烏茲別克語里的“men”和“sen”等兩個人稱代詞末尾連接賓格詞綴“ni”、領(lǐng)屬格詞綴“ning”和詞綴“niki”時,這些人稱代詞詞尾的輔音“n”就會脫落。如:

      Sen(你)+ni=seni(把你),men(我)+ni=meni(把我),men(我)+niki=meniki(我的)

      2)語音同化

      ①以“q”結(jié)尾的多音節(jié)名詞詞干末尾連接元音開頭的領(lǐng)屬詞綴“i,im,imiz,ingiz,ing”時,詞干末尾的“q”同化為“g”,然后繼續(xù)連接詞綴。如:

      Quloq(耳朵)+im=qulogim(我的耳朵),barmoq(手指)+ing=barmoging(你的手指),oyoq(鞋子)+i=oyogi(他的鞋子)

      ②以“k”結(jié)尾的多音節(jié)名詞詞干末尾連接元音開頭的領(lǐng)屬詞綴“i,im,imiz,ingiz,ing”時,詞干末尾的“k”同化為“g”,然后繼續(xù)連接詞綴。如:

      Ertak(童話)+ing=ertaging(你的童話),istak(欲望)+im=istagim(我的欲望),tilak(希望)+i=tilagi)(他的希望)

      注:單音節(jié)詞、外來借詞和少數(shù)一部分多音節(jié)詞不會發(fā)生同化現(xiàn)象。如xalq(xalqim我的人民),bank(bankimiz我們的銀行)[4]。

      3)增音

      以元音字母開頭的部分名詞詞干末尾連接元音開頭的領(lǐng)屬詞綴“i,im,imiz,ingiz,ing”時,詞干和詞綴之間增多一個輔音“y”。比如parvo+i=parvoyi。Orzu(愿望)+im=orzuyim(我的愿望)

      注:發(fā)生增音的這些詞里還有部分詞的末尾連接第一、第二人稱領(lǐng)屬詞綴是增加輔音“y”,但是連接第三人稱領(lǐng)屬詞綴時直接連接“si”。比如:(Orzu+im=orzuyim我的夢想),(Orzu+si=orzusi他的夢想)。

      2.2語音脫落、同化、增音的還原分析

      1)語音脫落還原

      (1)元音脫落的還原:首先去掉發(fā)生元音脫落的詞匯末尾的領(lǐng)屬詞綴“i,im,imiz,ingiz,ing”,即詞干提取。然后分析該詞干中出現(xiàn)的第一個元音字母。詞干中出現(xiàn)的第一個元音字母有“u”“o”“a”三種。下面分別討論以上三種情況:

      ①如果詞匯中出現(xiàn)的第一個元音字母為“u”的話,那么在該詞干的最后一個輔音字母前面加元音字母“u”,即詞干還原。

      ②如果詞匯中出現(xiàn)的第一個元音字母為“o、o、i”的話,那么在該詞干的最后一個輔音字母前面加元音字母“i”,即詞干還原。

      ③如果詞匯中出現(xiàn)的第一個元音字母為“a”的話,那么在該詞干的最后一個輔音字母前面加元音字母“a”,即詞干還原。

      (2)輔音脫落的還原:第一步,切取詞綴“ning、niki”,其次在剩下的詞干末尾增加一個“n”。

      2)語音同化還原

      語音同化的還原:首先去掉詞匯末尾的 “i,im,imiz,ingiz,ing”等詞綴,其次分析剩下詞干的末尾的字母。若詞干末尾的字母是“g”,那么還原為“q”。如果是“g”,那么還原為“k”。

      3)增音的還原

      增音的還原:首先切取詞匯末尾的 “i,im,imiz,ingiz,ing”等詞綴,然后再一次與詞干庫進行配對。如果能配對直接輸出結(jié)果,如果不能配對就繼續(xù)判斷是否以“y”結(jié)尾。如果是,就切取最后的輔音“y”即可。此時還原已完成。

      3 語音變化現(xiàn)象的還原方法研究

      3.1語音變化的還原模型的研究

      烏茲別克語音變分析模型的建立是實現(xiàn)還原的關(guān)鍵。此模型根據(jù)烏茲別克語中發(fā)生音變現(xiàn)象的詞匯本身的特征來設(shè)計的。

      3.2烏茲別克語語音變化自動還原過程

      烏茲別克語語音變化的自動還原利用上述設(shè)計的分析模型,并結(jié)合詞干庫查找方法來實現(xiàn)的。利用烏茲別克斯坦的官方網(wǎng)站(www.kutubxona.com)截取的烏茲別克語文本信息作為實驗對象,內(nèi)容主要是短篇小說。首先對這些文本進行統(tǒng)計和人工處理準(zhǔn)備了由“i,im,imiz,ingiz,ing”等名詞詞綴結(jié)尾的8177個名詞。利用詞干庫配對方法的原因是:部分詞干的詞尾與以上的構(gòu)形詞綴相似。比如(yangi新的)是以“i”結(jié)尾,這里的“i”不是構(gòu)形詞綴而是一個詞干的詞尾。不需要進行還原,直接輸出結(jié)果即可。

      步驟一:詞干庫配對。若能配對直接輸出結(jié)果;若不能配對,去除構(gòu)形詞綴。

      步驟二:再次進行詞干庫配對。

      步驟三:根據(jù)表1中的六種模型來實現(xiàn)語音脫落、同化、增音的還原。

      4 實驗及分析

      4.1實驗結(jié)果

      實驗利用已篩選的8177個以“i,im,imiz,ingiz,ing”等構(gòu)形詞綴結(jié)尾的名詞進行測試。采用計算準(zhǔn)確率P來評測實驗結(jié)果。計算公式如下:

      P = A / B * 100 %

      其中,A表示自動切分正確的詞數(shù);B表示語料中的詞匯總數(shù);P衡量的是切分方法的準(zhǔn)確度。

      測試結(jié)果如下:

      4.2實驗結(jié)果分析

      本測試中,發(fā)生語音脫落和增音現(xiàn)象的詞匯還原的準(zhǔn)確率一律達到100%。詞干庫未登錄詞干的出現(xiàn)直接影響同化還原的測試結(jié)果。比如:“bargi”這一詞去除構(gòu)形詞綴“i”得出“barg”,這個詞已經(jīng)是正確的詞干,但是是詞典未登錄詞,所以根據(jù)規(guī)則自動還原,還原成這個沒有意義的詞。這樣,導(dǎo)致了發(fā)生語音同化的詞匯還原準(zhǔn)確率為96%。下面舉例實驗結(jié)果:

      1)脫落還原 shahri shahr+i shahar

      2)同化還原 istagimiz istag+imiz istak g→k

      3)增音還原 parvoyim parvo+y+imiz parvo

      本次研究可知,在8177個詞中發(fā)生語音變化的詞的頻率為21.3%。提高烏茲別克語名詞詞干提取的準(zhǔn)確率,首先處理其中的語音變化極其重要。試驗中,沒有進行還原的詞干都不是準(zhǔn)確的詞干、不表示任何意義。應(yīng)用規(guī)則和詞典查找的混合方法進行還原才可以得到正確的詞干。由此可知,語音變化處理方案的可靠性和實驗結(jié)果的準(zhǔn)確率直接影響詞干提取的準(zhǔn)確率。本次試驗因出現(xiàn)未登錄詞而降低了實驗結(jié)果的準(zhǔn)確率,在今后的研究過程中進一步的完善規(guī)則庫,擴建詞干庫,提出更科學(xué)、可行的處理方案為自動提取烏茲別克語名詞詞干提取和還原研究打下基礎(chǔ)。

      參考文獻:

      [1] 麥熱哈巴·艾力,姜文武,吐爾根·依不拉音. 維吾爾語詞法中音變現(xiàn)象的自動還原模型[J].科技信息,2013(11):222.

      [2]A.nurmonov,Asobirov,N.qosimova,等.Hozirgi ozbek adabiy tili[M].Toshkent,2013:1-592.

      [3]古麗巴努木·克拜吐里,古麗巴霍爾·伊斯坎達洛娃.烏茲別克語教程[M].北京:中央民族大學(xué)出版社,2016:1-348.

      [4]OZBEK TILI.[M/OL].http://n.ziyouz.com/#.OZBEKISTON.TOSHKANT.2010.

      [5] 米熱古麗·艾力,米吉提·阿不力米提,艾斯卡爾·艾木都拉.基于詞法分析的維吾爾語元音弱化算法研究[J].中文信息處理學(xué)報,2008,22(4):43-47.

      [6]艾尼瓦爾·艾合買提江.初談維吾爾語與烏茲別克語元音區(qū)別[J].科技信息,2013,11:222.

      [7]胡振華.中亞五國及其語言文字(上)[J].中央民族大學(xué)學(xué)報,1996(4):85-89.

      [8]胡振華.中亞五國及其語言文字(下)[J].中央民族大學(xué)學(xué)報,1996(5):79-87.

      [9]早克熱·卡德爾,艾山·吾買爾,吐爾根·依布拉音,帕里旦·吐爾遜,吳小川.混合策略的維吾爾語名詞詞干提取系統(tǒng)[J].計算機工程與應(yīng)用,2013:49(1).

      [10]買力坎·蘇來曼.現(xiàn)代維吾爾語元音弱化的實驗分析[J].計算機應(yīng)用研究,北民族大學(xué)學(xué)報,2012(6).

      [11]早克熱·卡德爾,艾山·吾買爾,吐爾根·依布拉音,艾斯卡爾·艾木都拉.維吾爾語名詞構(gòu)形詞綴有限狀態(tài)自動機的構(gòu)造[J].中文信息學(xué)報,2009(1):23-6.

      [12]阿達來提 . 烏茲別克語的傳據(jù)范疇初探[J].民族翻譯,2013(1):82-88.

      [13]力提甫·托乎提.電腦處理維吾爾語語音和諧律的可能性[J].中央民族大學(xué)學(xué)報,2004(5):108-113.

      开江县| 崇礼县| 岚皋县| 大足县| 郴州市| 云林县| 阳信县| 罗江县| 珠海市| 辽阳市| 陆河县| 城口县| 克拉玛依市| 临潭县| 资溪县| 南城县| 横山县| 进贤县| 鲁甸县| 彩票| 天等县| 夏邑县| 通渭县| 广河县| 东明县| 新田县| 小金县| 台山市| 宕昌县| 怀宁县| 延吉市| 博爱县| 登封市| 南充市| 城固县| 南昌县| 安国市| 铁岭市| 阜新| 塔河县| 林州市|