古麗尼格爾·阿不都外力 買合木提·買買提 吐爾根·依布拉音 早克熱·卡德爾 西熱艾力·海如拉 王路路
摘 ?要: 詞干提取是形態(tài)豐富語言信息處理中的基礎任務,對其他自然語言處理任務有著重要的影響。該文將詞干提取任務看作序列標注問題,以字符為切分粒度來表征維吾爾語單詞的構(gòu)成機制,結(jié)合條件隨機場模型,實現(xiàn)基于字符序列標注的維吾爾語詞干提取方法。首先使用詞典查詢方法進行詞干提取,然后結(jié)合字符的弱化發(fā)音特征、音類特征以及語音特征,針對受限數(shù)據(jù)和非受限數(shù)據(jù)采用條件隨機場訓練模型及預測結(jié)果。實驗結(jié)果表明,該方法在非受限數(shù)據(jù)集上效果較佳,且能廣泛應用到其他語言。
關(guān)鍵詞: 詞干提取; 序列標注; 條件隨機場; 特征提取; 模型訓練; 預測結(jié)果
中圖分類號: TN912.34?34; TP391 ? ? ? ? ? ? ? ?文獻標識碼: A ? ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)12?0151?04
Abstract: Stemming is a fundamental task in the morphologically rich language information processing and has an important influence on other natural language processing (NLP) tasks. Taking the task for stemming as the process of character sequence labeling in this paper, and using the character as the segmentation unit to represent the formation mechanism of Uyghur word, the method of Uyghur stemming based on character sequence labeling is realized in combination with the conditional random field model. The dictionary query method is used to stemming, and then the model training with the conditional random field and the results′prediction are performed for the restricted data and unrestricted data by combining with the weak pronunciation features, sound class features and speech features of characters. The experimental results this method has well effect on unrestricted datasets and can be widely used in other languages.
Keywords: stemming; sequence labeling; conditional random field; feature extraction; model training; prediction results
0 ?引 ?言
維吾爾語是典型的形態(tài)復雜的黏著性語言。黏著性語言的主要特點是沒有詞內(nèi)部的屈折,每個語法范疇都由一類詞綴來表示?[1]。由于詞干連接的詞綴不同,因此會構(gòu)成不同的單詞,將造成嚴重的數(shù)據(jù)稀疏問題。如“Biz(我們)”與“ni?(的)”相連接會構(gòu)成“Bizni?(我們的)”,與“ni(把)”相連接會構(gòu)成“Bizni(把我們)”,而詞干提取是去除詞綴獲取詞干的過程,使單詞的不同形態(tài)變體還原成一種統(tǒng)一形式,從而有效地提高自然語言處理?[2]以及信息檢索??[3]等任務的性能。
由于維吾爾語構(gòu)詞方法較為豐富,因此,利用相關(guān)技術(shù)深入研究詞干提取才能有效解決維吾爾語形態(tài)復雜問題。目前主要采用基于規(guī)則的方法和基于統(tǒng)計的方法,其中,基于規(guī)則的方法是根據(jù)形態(tài)構(gòu)成中的規(guī)律進行詞綴刪除、詞干還原,其嚴重依賴于形態(tài)構(gòu)成規(guī)律,局限性較強;基于統(tǒng)計的方法主要借助詞干在單詞中的分布進行概率統(tǒng)計,但是針對維吾爾語而言,目前的研究結(jié)果還不夠理想。
基于以上分析,本文將詞干提取問題看作是序列標注問題,以字符為序列標注單元,提出一種基于條件隨機場模型的維吾爾語詞干提取方法,且能廣泛應用到其他語言。
1 ?相關(guān)工作
目前為止,國內(nèi)外流行的詞干提取方法主要有基于詞典和規(guī)則的方法[4?5]、基于統(tǒng)計的方法[6?7]和基于混合的方法[8?9]。20世紀六七十年代,研究者們使用基于詞典的方法和基于規(guī)則的方法對文本進行詞干提取。孫漢博等人利用改進的Porter Stemmer算對英文詞干提取并應用于垃圾郵件的過濾上??[5]。基于詞典/規(guī)則的方法準確率很高,但基于詞典的方法只能提取詞典中存在的詞干,不能處理詞典中不存在的單詞;而基于規(guī)則的方法只能處理普遍存在的語言規(guī)則,不能處理特殊的情況。Gupta等人提出了基于無監(jiān)督的詞干提取方法?[6]。
隨著詞干提取技術(shù)的不斷發(fā)展,國內(nèi)少數(shù)民族語言的詞干提取技術(shù)也發(fā)展起來了。趙偉等通過分析蒙古語詞的構(gòu)形特點,提出一種有效的蒙古語詞標注方法,并基于條件隨機場模型構(gòu)建了一個蒙古語詞切分系統(tǒng)?[7]。吾蘭等人提出了基于N?gram語言模型的哈薩克語詞干提取方法?[9]。維吾爾語詞干提取研究處于起步階段?[10],文獻?[8]提出了融合詞性特征和上下文詞干信息的維吾爾語詞干提取模型。文獻?[11]提出基于雙向門限遞歸單元神經(jīng)網(wǎng)絡的維吾爾語形態(tài)切分方法,將維吾爾詞自動切分為語素序列,從而緩解數(shù)據(jù)稀疏問題。
2 ?基于CRF的維吾爾語詞干提取
本文利用少數(shù)民族語言分詞技術(shù)評測(MLWS2017)語料,以字符(字母)為切分粒度,構(gòu)建一種結(jié)合特征的條件隨機場模型。首先利用詞干/詞綴詞典對評測語料進行過濾,然后使用受限CRF模型和非受限CRF模型分別進行預測,最終評估結(jié)果。整體流程圖如圖1所示。
2.1 ?預處理
訓練集是在官方提供的數(shù)據(jù)集基礎上抽取的詞對(Kursantlarda|Kursant),再對其進行字符切分和標記;而測試集使用新疆多語種信息技術(shù)實驗室自然語言處理組維吾爾語自然語言處理工具包,將進行詞例、詞性標注等預處理操作,詞性標注集如表1所示。本文根據(jù)詞性進行篩選,僅保留部分詞性的單詞,保留單詞的詞性見表中的加粗部分。
2.2 ?問題描述
詞干提取問題可視為一個序列標注問題,維吾爾語詞干最少由兩個字符構(gòu)成,本文以字符為切分粒度,利用條件隨機場模型對單詞進行標注,將每個單詞作為一個字符串的觀測序列,目標是獲取對應的標記序列 。
為了更好地提高詞干提取效果,本文采用“SF標記符號”對單詞進行標注,其中S表示當前單詞的詞干部分,F(xiàn)表示當前單詞非詞干部分,如“d?wirl?rg? (時代)”標注模型如圖2所示。
2.3 ?條件隨機場模型
2.4 ?特征選擇
條件隨機場序列標注算法中,特征選擇關(guān)系到訓練模型對維吾爾語詞干提取的性能。本文主要選取字符(C)、弱化發(fā)音特征(WP)、音類特征(S)、語音特征作(P)為特征?[13]。
2.4.1 ?字符(C)
由于單詞主要由字符構(gòu)成,一個字符代表一個維吾爾語字母,而這些字符構(gòu)成單詞存在一些規(guī)律,因此字符本身具有信息,可以作為有效的特征。
2.4.2 ?弱化發(fā)音特征(WP)
在維吾爾語中,當詞干與詞綴相連接時一般會發(fā)生弱化發(fā)音現(xiàn)象,這將會影響詞干提取的過程,如“a,?,o,u”弱化成“e,i,?,ü”。如果發(fā)生此現(xiàn)象,則取弱化后的字符,如果沒有弱化則填寫NL。
2.4.3 ?音類特征(S)
維吾爾語單詞由一個或者一個以上音節(jié)構(gòu)成,而音節(jié)是由元音和輔音組成,其中元音8個,輔音24個。判斷當前字符的音類(元音或者輔音)作為特征,若當前字符是元音,則表示V;如果是輔音,則音類特征為C。
2.4.4 ?語音特征(P)
根據(jù)音類特征,本文按照文獻?[13]分別將元音和輔音劃分為3類特征,元音和輔音都具有各自的語音(音系)特征,如下:
1) 元音
① 縱向舌位位置
按照發(fā)音時縱向舌位的位置分為高位元音(VH)、中位元音(VM)、低位元音(VL),以當前字符發(fā)音時縱向舌位的位置作為特征。
② 橫向舌位位置
如果按照發(fā)音時橫向舌位的位置分為前位元音(VR)、后位元音(VF)、前后自由浮動性元音(VB),以當前字母發(fā)音時縱向舌位的位置作為特征。
③ 展圓情況
維吾爾語元音發(fā)音時根據(jù)嘴唇的展圓情況分為展唇元音(OV)和圓唇元音(RV),判別當前元音發(fā)音時的嘴唇展圓情況作為特征。
2) 輔音
① 振動情況
輔音根據(jù)發(fā)音時聲帶的振動情況,分為濁輔音和清輔音,因此本文考慮該特征,如果是濁輔音,則表示為CT,否則表示為CC。
②發(fā)音部位
維吾爾語的24個輔音發(fā)音時會受到氣流阻力的部位不同,分為雙唇(PA1)、唇齒(PA2)、舌尖前(PA3)、舌尖中(PA4)、舌尖后(PA5)、舌面中(PA6)、舌面后(PA7)、小舌音(PA8)、喉音(PA9),故本文將當前字符的發(fā)音部位作為特征。
③ 發(fā)音方式
輔音發(fā)音時氣流受阻和除阻的方式也不同,并分為塞音(MA1)、塞擦音(MA2)、擦音(MA3)、鼻音(MA4)、顫音(MA5)、邊擦音(MA6)、半元音(MA7)等,本文將不同的發(fā)音方式作為當前字符的考慮特征。
2.5 ?特征模板
維吾爾語形態(tài)的豐富性造成了詞干提取的復雜性。如果單一地從字符特征出發(fā),難以達到理想的結(jié)果。條件隨機場模型的關(guān)鍵是利用選取的特征構(gòu)建特征模板,因此,選擇具有代表性的特征模版能夠充分利用相關(guān)信息且能減少信息冗余,同時還能提高詞干提取性能。本文在特征模板的設計中不僅定義了原子特征模板,還定義了復合特征模板。假設C是字符特征,F(xiàn)為非字符特征,則特征模板定義如表2 所示。
3 ?實 ?驗
3.1 ?數(shù)據(jù)集
目前,針對維吾爾語詞干提取公開語料庫未見報道,因此,本文使用兩種數(shù)據(jù)進行訓練,分別是受限數(shù)據(jù)和非受限數(shù)據(jù)。受限數(shù)據(jù)中的訓練語料來自MLWS2017評測語料;非受限數(shù)據(jù)中的訓練集是由MLWS2017評測語料和新疆大學建立的詞干提取語料組成。兩種數(shù)據(jù)的測試語料是來自MLWS2017評測語料的測試語料,具體的語料統(tǒng)計如表3所示。
3.2 ?實驗結(jié)果與分析
在維吾爾語詞干提取中,本文共提供了兩個實驗結(jié)果,分別為受限結(jié)果和非受限結(jié)果,各系統(tǒng)描述如下:
受限實驗主系統(tǒng)(UY?2017?U1?primary?a):首先根據(jù)評測舉辦方發(fā)布的語料進行詞對提取,其次構(gòu)建一個詞干/詞綴詞典,最后按字符串的序列標注,提取單詞特征,為CRF模型準備數(shù)據(jù)并訓練受限系統(tǒng)模型。
非受限實驗主系統(tǒng)(UY?2017?U1?primary?b):此系統(tǒng)與上述受限系統(tǒng)唯一區(qū)別在于詞典的構(gòu)建,在構(gòu)建非受限系統(tǒng)的詞典時,加入了內(nèi)部數(shù)據(jù)集,擴大了詞典的規(guī)模。兩個系統(tǒng)測試結(jié)果如表4所示。
從總體的實驗結(jié)果可以發(fā)現(xiàn),非受限系統(tǒng)的實驗結(jié)果比受限系統(tǒng)的實驗結(jié)果較好一些。從準確率上看,當擴大詞典的規(guī)模時準確度比較高;從召回率上看,非受限系統(tǒng)中有些詞干沒有召回或錯誤提取。通過分析實驗結(jié)果發(fā)現(xiàn),如果構(gòu)詞詞綴與構(gòu)形詞綴一樣時,模型可能沒有準確區(qū)分;將序列標注的方法應用于以字符構(gòu)成的語言進行詞干提取時,對實驗結(jié)果還是有效的。以上的實驗結(jié)果是參加MLWS2017的評測結(jié)果,并在評測中獲得了第三名。
4 ?結(jié) ?論
本文從維吾爾語形態(tài)豐富的特點出發(fā),提出一種基于字符序列標注的維吾爾語詞干提取方法。以MLWS2017評測數(shù)據(jù)作為受限數(shù)據(jù),融合新疆大學建立的詞干提取語料作為非受限數(shù)據(jù)。結(jié)合字符的弱化發(fā)音特征、音類特征以及語音特征,對兩種數(shù)據(jù)使用基于字符序列的條件隨機場模型預測提取結(jié)果。實驗結(jié)果表明,該方法在非受限數(shù)據(jù)結(jié)果較佳,且能夠廣泛應用于其他語言。以后,將進一步采用神經(jīng)網(wǎng)絡的方法實現(xiàn)維吾爾語詞干提取,提高準確率。
注:本文通訊作者為吐爾根·依布拉音。
參考文獻
[1] 葉蜚聲,徐通鏘.語言學綱要[M].北京:北京大學出版社,2006.
[2] 吳思竹,錢慶,胡鐵軍,等.詞干提取方法及工具的對比分析研究[J].圖書情報工作,2012,56(15):109?115.
[3] FLORES F N, MOREIRA V P. Assessing the impact of stemming accuracy on information retrieval?a multilingual perspective [J]. Information processing & management, 2016, 52(5): 840?854.
[4] 塔依爾·阿不都外力,艾山·吾買爾,吐爾根·伊布拉音,等.基于標注詞典和規(guī)則的維吾爾文動詞詞干提取方法[J].新疆大學學報(自然科學版),2013(1):6?12.
[5] 孫漢博,馮國燦.基于改進的Porter Stemmer詞干提取與核方法的垃圾郵件過濾算法[J].計算機科學,2017,44(z1):61?67.
[6] GUPTA D, KUMAR Y R, SAJAN N. Improving unsupervised stemming by using partial lemmatization coupled with data?based heuristics for Hindi [J]. International journal of computer applications, 2012, 38(8): 1?8.
[7] 趙偉,侯宏旭,從偉,等.基于條件隨機場的蒙古語詞切分研究[J].中文信息學報,2010,24(5):31?36.
[8] 賽迪亞古麗·艾尼瓦爾,向露,宗成慶,等.融合多策略的維吾爾語詞干提取方法[J].中文信息學報,2015,29(5):204?210.
[9] 吾蘭·努魯別克,熱木土拉·麥麥提,艾斯卡爾·艾木都拉.基于N?gram模型的哈薩克詞干提取方法[J].電腦知識與技術(shù),2017(12):160?162.
[10] 吐爾根·依布拉音,袁保社.新疆少數(shù)民族語言文字信息處理研究與應用[J].中文信息學報,2011,25(6):149?156.
[11] 哈里旦木·阿布都克里木,程勇,劉洋,等.基于雙向門限遞歸單元神經(jīng)網(wǎng)絡的維吾爾語形態(tài)切分[J].清華大學學報(自然科學版),2017(1):1?6.
[12] LAFFERTY J D, MCCALLUM A, PEREIRA F C N. Conditional random fields: probabilistic models for segmenting and labeling sequence data [C]// 18th International Conference on Machine Learning. San Francisco: Morgan Kaufmann Publishers, 2001: 282?289.
[13] 力提甫·托乎提.現(xiàn)代維吾爾語參考語法[M].北京:中國社會科學出版社,2012.