• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      利用詞性標(biāo)注語(yǔ)料庫(kù)自動(dòng)推斷維吾爾語(yǔ)詞綴變體的研究

      2016-12-21 12:07阿布都哈力力·阿布都熱依木鄒帥余長(zhǎng)江
      電腦知識(shí)與技術(shù) 2016年28期
      關(guān)鍵詞:詞根詞綴

      阿布都哈力力·阿布都熱依木+鄒帥+余長(zhǎng)江

      摘要:即對(duì)詞根和詞綴以維吾爾語(yǔ)語(yǔ)法為基礎(chǔ),作出語(yǔ)法和詞匯定義,通過(guò)現(xiàn)代信息處理事業(yè)廣泛運(yùn)用的機(jī)器學(xué)習(xí)方法,計(jì)算詞綴和詞根聚合概率,將概率意義為主,自動(dòng)推斷文本中的單詞聚合失誤和符合詞根的詞綴自動(dòng)選擇原理。

      關(guān)鍵詞:維吾爾語(yǔ)詞法分析;詞根;詞綴;語(yǔ)音和諧律;MeCab-uyghur

      中圖分類(lèi)號(hào):N945.23 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)28-0171-03

      1 背景

      維吾爾語(yǔ)在內(nèi)的阿勒泰語(yǔ)系語(yǔ)言中詞根與詞綴相互聚合時(shí),詞根和詞綴含有的元音和輔音之間存在相互限制和被限制關(guān)系,此種現(xiàn)象通稱(chēng)語(yǔ)音和諧律(1999.竹內(nèi).現(xiàn)代維吾爾語(yǔ))?,F(xiàn)代維吾爾語(yǔ)共有32個(gè)字母,其中有8個(gè)元音,24個(gè)輔音。元音按發(fā)音位置分為前元音、中元音、后元音。

      語(yǔ)音和諧律一個(gè)詞根粘附的詞綴有選擇性和若干種變體。例如:符合漢語(yǔ)中“向”詞的與格維吾爾語(yǔ)中有著“?a, qa, g?,k?” 等4中變體。這些變體根據(jù)跟前的獨(dú)立詞在內(nèi)的元音和輔音類(lèi)型選擇。即舉例“bazar”這一詞,由于該詞屬于尾部由響音結(jié)尾的舌面前元音,連接開(kāi)頭由響音開(kāi)始的舌面前元音變體“?a”,構(gòu)成“bazar + ?a =bazar?a”。詞綴不僅按照詞根元音和輔音類(lèi)型選擇,有時(shí)在詞綴的影響下詞根語(yǔ)音發(fā)生變化。例如:“imla+ing=imlaying”是以元音結(jié)束的詞連接以元音開(kāi)頭的詞綴時(shí)中間將會(huì)加上輔音,“bar+ip=berip”是以元音開(kāi)頭的詞綴對(duì)詞根產(chǎn)生壓力,將會(huì)引起語(yǔ)音的弱化,“orun+i=orni”是以元音開(kāi)頭的詞綴影響詞根的元音引起元音的減音。由于記錄維吾爾語(yǔ)的文字屬于有聲文字,以上變化也在文字直接表達(dá)。

      2 目前信息化處理情況

      上述語(yǔ)音和諧和變化現(xiàn)象在書(shū)面語(yǔ)發(fā)生的比較明顯。有些人在書(shū)面材料上把語(yǔ)音拼寫(xiě),影響意念的正確表達(dá)。這些問(wèn)題此前未突出明顯,但在信息技術(shù)上屬必須解決的重要問(wèn)題。

      至于信息技術(shù)領(lǐng)域如何解決以上問(wèn)題,主要采取兩種方法。其一,對(duì)詞根和詞綴未作出任何語(yǔ)法或詞匯范疇定義的情況下,分別作為單位編寫(xiě)詞典,自動(dòng)聚合方法。雖通過(guò)這個(gè)方式所形成的詞庫(kù)能解決錯(cuò)字問(wèn)題,但無(wú)法解決像沒(méi)有語(yǔ)音和諧律的漢語(yǔ)等語(yǔ)言與維吾爾語(yǔ)之間機(jī)器翻譯系統(tǒng)和詞典中的一對(duì)一問(wèn)題(UyghurEdit, n.d.)。其二,將詞根和詞綴的構(gòu)形作為一個(gè)單詞編入詞典的處理方法。雖方法簡(jiǎn)單,維吾爾語(yǔ)的詞綴為數(shù)較多,文本中的聚合情況復(fù)雜,無(wú)法將全部構(gòu)形編入詞典。

      在這里我們要提出不同與上述方法的另一種方法。即對(duì)詞根和詞綴以維吾爾語(yǔ)語(yǔ)法為基礎(chǔ),作出語(yǔ)法和詞匯定義,通過(guò)現(xiàn)代信息處理事業(yè)廣泛運(yùn)用的機(jī)器學(xué)習(xí)方法,計(jì)算詞綴和詞根聚合概率,將概率意義為主,推斷文本中的單詞聚合失誤和符合詞根的詞綴自動(dòng)選擇原理。

      3 詞性標(biāo)注和處理方法

      用維吾爾語(yǔ)形態(tài)分析工具M(jìn)ecab-uyghur 把給予的文章分成單詞和詞綴。

      3.1 語(yǔ)音的和諧類(lèi)型的處理

      首先把詞根和詞綴分為合適的部類(lèi),并人工匹配語(yǔ)音和諧律的單詞大義上歸屬于和諧類(lèi)型范疇。第二階段,區(qū)別元音和諧類(lèi)型,輔音和諧類(lèi)型,元音和輔音和諧類(lèi)型等三個(gè)類(lèi)型。

      語(yǔ)音的和諧法列入到1至3的表格里,詞法形式表示詞根的語(yǔ)法形式。 詞根和詞綴類(lèi)型進(jìn)一步細(xì)化到下一列詞典形里。作為附加信息, 詞音和諧類(lèi)型列入下一個(gè)列里。詞根和詞綴的元音和輔音作為一個(gè)和諧因素列入到下一個(gè)相對(duì)應(yīng)的列里。 最后, 與詞音和諧法無(wú)關(guān)的部分標(biāo)記為Null.

      3.2 語(yǔ)音的變化類(lèi)型的處理

      將語(yǔ)音變化大義上歸屬于語(yǔ)音變化類(lèi)型范疇。作為小分類(lèi)分別為語(yǔ)音弱化類(lèi)型,語(yǔ)音増音類(lèi)型,語(yǔ)音減音類(lèi)型等三個(gè)類(lèi)型。

      語(yǔ)音的變化規(guī)律列入到4至6的表格里,其中語(yǔ)音上有變化詞語(yǔ)的詞典型和本文形分別列入到詞典形該列里。語(yǔ)音的和諧法作為一個(gè)附加信息列入到下一列里,而詞根的結(jié)束語(yǔ)音和附加詞的字首語(yǔ)音作為一個(gè)影響語(yǔ)音變化規(guī)律的因素列入到一個(gè)列里。最后要列入語(yǔ)音的變化原因。

      4 實(shí)驗(yàn)

      4.1 計(jì)算方式

      本研究上我們使用維吾爾語(yǔ)詞法分析Mecab-uyghur系統(tǒng)。Mecab-uyghur系統(tǒng)是由日語(yǔ)的開(kāi)源詞法分析系統(tǒng)Mecab添加維吾爾語(yǔ)詞典及語(yǔ)法規(guī)則開(kāi)發(fā)演變而來(lái),此系統(tǒng)具體使用方法及其他情況不在此做詳細(xì)說(shuō)明;Mecab-uyghur 系統(tǒng)的計(jì)算方式:以最小開(kāi)銷(xiāo)法,利用了單詞的產(chǎn)生權(quán)重,以及連接權(quán)重這兩個(gè)概念。單詞的產(chǎn)生權(quán)重是從語(yǔ)料庫(kù)出現(xiàn)的單詞頻度獲取,連接權(quán)重是從語(yǔ)法概念獲取。

      4.2 訓(xùn)練

      把上述介紹的語(yǔ)法范疇用于傳統(tǒng)語(yǔ)言學(xué)詞類(lèi)的附加識(shí)別因素(區(qū)別性特征), 并通過(guò)人工匹配建立1萬(wàn)句的詞性標(biāo)注語(yǔ)料庫(kù)。

      利用Mecab-uyghur訓(xùn)練法,獲取單詞的產(chǎn)生權(quán)重、語(yǔ)法范疇的連接概率。此連接概率是通過(guò)維吾爾語(yǔ)語(yǔ)法作為基礎(chǔ)作推斷。

      5 測(cè)試

      為驗(yàn)證上述方法的準(zhǔn)確性及可靠性,利用在訓(xùn)練階段推斷出的模型,將詞根與詞綴分別進(jìn)行聚合,例如:bazar + ?a =bazar?a,bazar + qa =bazarqa, bazar + g ?= bazarg ?, bazar + k ?= bazark ?;將此四種詞型利用Mecab-Uyghur系統(tǒng)進(jìn)一步分析,具體分析結(jié)果如下圖所示:

      bazar?a,bazarqa, bazarg ?, bazark ?從左到左開(kāi)始讀取,從詞典里面獲取有記錄的詞典序列。上圖為分解圖,其中方框內(nèi)的藍(lán)色數(shù)字表示該詞的產(chǎn)生權(quán)重,紅色數(shù)字表示連接權(quán)重,連接線上的咖啡色數(shù)字表示該文法段和它的左端文法段的連接權(quán)重。

      由上圖可知,bazar?a 這一個(gè)序列,bazar 的產(chǎn)生權(quán)重為10,?a 的產(chǎn)生權(quán)重為40," ?a 詞綴-和諧類(lèi)型-前元音-清輔音"的連接權(quán)重為200。在四種序列中第一個(gè)序列的總共成本是10+700+40+200=950;第二個(gè)序列的總共成本是10+4500+38+150=4698;第三個(gè)序列的總共成本是 10+6000+70+250=6330;第四個(gè)序列的總共成本是10+4000+29+190=4229;這些序列里第一個(gè)序列的成本最小。因此,正確的是第一個(gè)序列。

      6 結(jié)束語(yǔ)

      論文主要闡述利用傳統(tǒng)語(yǔ)言規(guī)則及現(xiàn)代信息技術(shù)處理方法將維吾爾語(yǔ)詞根與詞綴聚合的辦法。以多次試驗(yàn)舉例驗(yàn)證了此猜想的正確性,以上舉例為其中以典型案例,此方法的研究證實(shí)不僅為維吾爾語(yǔ)和其他語(yǔ)言的機(jī)器翻譯、詞典學(xué)開(kāi)辟了一條先河,而且為維吾爾語(yǔ)正字法的校對(duì)工作提供了基礎(chǔ)。

      參考文獻(xiàn):

      [1] 吐?tīng)栠d·卡得. 維吾爾語(yǔ)柯坪土語(yǔ)研究[D]. 北京: 中央民族大學(xué), 2011.

      [2] 祖木拉提·阿扎提. 多語(yǔ)環(huán)境下伊犁維吾爾族人群語(yǔ)言使用狀況調(diào)查研究[D]. 新疆: 新疆大學(xué), 2012.

      [3] 木哈拜提·哈斯木. 從來(lái)源方面來(lái)看維吾爾語(yǔ)方言詞的特點(diǎn)[J]. 新疆大學(xué)學(xué)報(bào):哲學(xué)社會(huì)科學(xué)版, 2005(1).

      [4] 李經(jīng)緯. 試論現(xiàn)代維吾爾語(yǔ)方言詞的類(lèi)型及其對(duì)劃分方言的意義[J]. 語(yǔ)言與翻譯, 1986(3).

      [5] 陳宗振. 維語(yǔ)方言研究的回顧與展望[J]. 語(yǔ)言與翻譯, 2000(4).

      [6] 楊雅婷, 馬博, 王磊, 等. 維吾爾語(yǔ)語(yǔ)音識(shí)別中發(fā)音變異現(xiàn)象[C]// 第十一屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集(一). 2011.

      [7] 楊雅婷, 馬博, 王磊, 等. 多發(fā)音字典在維吾爾語(yǔ)方言語(yǔ)音識(shí)別中的應(yīng)用[C]//第十一屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集(一). 2011.

      [8] 楊雅婷, 馬博, 王磊, 等. 維吾爾語(yǔ)語(yǔ)音識(shí)別中發(fā)音變異現(xiàn)象[C]//第十一屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集(二). 2011.

      [9] 楊雅婷, 馬博, 王磊, 等. 多發(fā)音字典在維吾爾語(yǔ)方言語(yǔ)音識(shí)別中的應(yīng)用[C]// 第十一屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集(二). 2011.

      猜你喜歡
      詞根詞綴
      藏在英文里的希臘詞根(二十四)
      藏在英文里的希臘詞根(二十三)
      藏在英文里的希臘詞根(二十二)
      藏在英文里的希臘詞根(十八)
      藏在英文里的希臘詞根(九)
      從網(wǎng)絡(luò)語(yǔ)“X精”看“精”的類(lèi)詞綴化
      詞尾與詞綴的區(qū)別研究
      釋西夏語(yǔ)詞綴wji2
      試析否定詞綴在漢維語(yǔ)中的不同表現(xiàn)
      類(lèi)詞綴與詞綴的共性特點(diǎn)分析
      裕民县| 内黄县| 来安县| 新野县| 诸暨市| 桃江县| 若羌县| 昆山市| 永济市| 常州市| 定州市| 盘山县| 嫩江县| 广平县| 卓尼县| 长子县| 太湖县| 龙川县| 扶绥县| 江陵县| 通渭县| 辽阳市| 扎囊县| 梓潼县| 陵川县| 秦皇岛市| 广河县| 革吉县| 皋兰县| 丹巴县| 凤阳县| 华坪县| 襄樊市| 洞口县| 双牌县| 横山县| 福安市| 航空| 上蔡县| 道孚县| 安福县|