艾孜麥提·艾尼瓦爾,董 軍,李 曉
(1. 中國科學(xué)院 新疆理化技術(shù)研究所,新疆 烏魯木齊 830011;2. 中國科學(xué)院大學(xué),北京 100049;3. 新疆民族語音語言信息處理實驗室,新疆 烏魯木齊 830012)
本文以現(xiàn)有的研究成果為基礎(chǔ),從維吾爾語詞干結(jié)構(gòu)特征和詞綴結(jié)構(gòu)特征出發(fā),歸納總結(jié)維吾爾語語音和諧律。在充分考慮基本搭配規(guī)則和特殊規(guī)則的前提下,提出一種通用的維吾爾語變體搭配算法。結(jié)合大規(guī)模詞庫,一方面驗證已有規(guī)則是否覆蓋詞庫中所有單詞,另一方面篩選出所有具有詞綴特殊使用方法的單詞。更深入地研究這些詞綴特殊使用方法,揭示其內(nèi)在規(guī)律奠定基礎(chǔ)。
目前已有眾多文獻(xiàn)對語音和諧律做了總結(jié)[1-3, 9-13],其中《正字法詞典》對規(guī)則的總結(jié)最全面?!墩址ㄔ~典》針對單音節(jié)和多音節(jié)詞,結(jié)合其詞性分別從元音和諧律、輔音和諧律兩方面對規(guī)則進(jìn)行了總結(jié)。但正字法詞典中的規(guī)則以自然語言方式描述,并不適合計算機(jī)處理。為了便于計算機(jī)處理語音和諧律,我們對正字法詞典中的規(guī)則進(jìn)行了進(jìn)一步歸納,以形式化的語言對其進(jìn)行了描述。
維吾爾語有8個元音字母。根據(jù)發(fā)音時舌面發(fā)音部位的不同,可以分為前元音、中元音、后元音三種類型,根據(jù)發(fā)音時嘴唇形狀的不同,又可分為圓唇元音和展唇元音。表1列出了維吾爾語元音字母按發(fā)音方法的分類。
表1 維吾爾文元音字母按發(fā)音方法分類
維吾爾語有24個輔音字母。根據(jù)發(fā)音時聲帶是否震動,這24個輔音字母可以分為清輔音和濁輔音兩種類型。表2列出了維吾爾文24個輔音字母的分類。
表2 維吾爾文輔音字母分類
根據(jù)詞干末音節(jié)字母結(jié)構(gòu)特點,維吾爾文詞干可以分為4種不同的類。按詞干末音節(jié)中元音字母發(fā)音時舌面發(fā)音部位的不同可分為前詞干和后詞干;按詞干末尾字母分類,可分為開詞干和閉詞干或清詞干和濁詞干;按詞干末音節(jié)中元音字母發(fā)音時嘴唇形狀的不同可分為圓詞干和展詞干[2]。為計算機(jī)處理語音和諧律的方便性,我們對4種分類法的定義進(jìn)行了一定的擴(kuò)充,其中我們對分類定義進(jìn)行擴(kuò)展的部分用*表示,具體的結(jié)構(gòu)分類定義如表3所示。
表3 維吾爾語詞干結(jié)構(gòu)分類
續(xù)表
根據(jù)詞綴首音節(jié)字母的結(jié)構(gòu)特點,維吾爾文詞綴也有4種不同的分類。按詞綴首音節(jié)中元音字母發(fā)音時發(fā)音部位的不同可分為前詞綴和后詞綴;按詞綴首字母分類,可分為開詞綴和閉詞綴或清詞綴和濁詞綴;按詞綴首音節(jié)中元音字母發(fā)音時嘴唇形狀的不同可分為圓詞綴和展詞綴[2]。同樣,我們也對詞綴分類部分定義進(jìn)行了擴(kuò)展,具體定義如表4所示。
表4 維吾爾語詞綴結(jié)構(gòu)分類
表5 維吾爾語詞綴結(jié)構(gòu)分布
維吾爾語語音和諧是指元音或輔音或元輔音之間在發(fā)音部位和發(fā)音方法上的相互協(xié)同一致性。維吾爾語的和諧分為元音和諧和輔音和諧,元音和諧中起決定性作用的是詞干末尾音節(jié)中元音的前后和圓展,輔音和諧中起決定性作用的是詞干末尾音節(jié)中元音的前后以及末尾輔音的清濁[10]?!墩址ㄔ~典》從語言學(xué)的角度出發(fā),分別針對靜詞、動詞、單音節(jié)詞干、多音節(jié)詞干詳細(xì)介紹了元音和諧和輔音和諧分,指出維吾爾語詞干附加詞綴變體時遵循4個語音和諧基本規(guī)則,即前后和諧、圓展和諧、開閉和諧、清濁和諧,并舉例說明了不符合這基本規(guī)則的特殊情況[2]。由于規(guī)則描述過于詳細(xì),存在一定的冗余,缺少形式化描述,并不適合直接用計算機(jī)處理。因此,根據(jù)前文定義的詞干及詞綴的結(jié)構(gòu)特征,介紹如下維吾爾語語音和諧律詞綴變體搭配的基本規(guī)則和特殊規(guī)則以及形式化描述:
1.4.1 詞綴變體搭配的基本規(guī)則
1) 前詞干搭配前詞綴,表示為Sf+Af=>(Sf,Af):
2) 后詞干搭配后詞綴;表示為Sb+Ab=>(Sb,Ab):
3) 圓詞干搭配圓詞綴,表示為Sr+Ar=>(Sr,Ar):
4) 展詞干搭配展詞綴, 表示為Snr+Anr=> (Snr,Anr):
5) 清詞干搭配清詞綴,表示為Sv+ Av=> (Sv, Av):
6) 濁詞干搭配濁詞綴, 表示為Svl+ Avl=> (Svl, Avl):
7) 開詞干搭配閉詞綴,表示為So+Ac=> (So, Ac):
8) 閉詞干搭配開詞綴, 表示為Sc+Ao=> (Sc, Ao):
1.4.2 詞綴變體搭配特殊規(guī)則:
根據(jù)維吾爾語語音和諧律,在充分考慮基本規(guī)則和特殊規(guī)則的前提下,本文提出了基于規(guī)則的維吾爾語詞綴變體搭配算法。其中,基本搭配規(guī)則用算法實現(xiàn)。由于特殊搭配規(guī)則需要考慮特殊詞干或詞綴,我們建立對應(yīng)的特殊規(guī)則搭配庫來實現(xiàn)詞綴搭配的功能。
1) 輸入詞干、詞性及詞綴對應(yīng)的多個變體;
2) 若詞綴只要一個變體,則返回該變體,否則轉(zhuǎn)下一步;
3) 提取詞干結(jié)構(gòu)特征,形式為1x4的一位數(shù)組,記錄詞干前后、圓展、清濁、開閉特征;
4) 提取詞綴結(jié)構(gòu)特征,形式為nx4的二位數(shù)組(n為詞綴變體數(shù)),記錄每個詞綴變體前后、圓展、清濁、開閉特征;
5) 若詞干/詞綴符合特殊規(guī)則搭配庫,則根據(jù)特殊規(guī)則處理庫對詞干詞綴進(jìn)行處理并轉(zhuǎn)一下步;
6) 根據(jù)詞綴基本搭配規(guī)則,對詞綴變體結(jié)構(gòu)特征和詞干變體結(jié)構(gòu)特征進(jìn)行匹配性計算返回計數(shù)最大的詞綴變體轉(zhuǎn)下一步;
7) 若詞干、詞綴符合特殊規(guī)則五,對詞綴進(jìn)行字母替換處理并返回。否則,詞綴作為最終輸出直接返回。
根據(jù)詞干結(jié)構(gòu)特征和詞綴結(jié)構(gòu)特征, 每個詞綴變體結(jié)構(gòu)特征跟詞干結(jié)構(gòu)特征進(jìn)行前后、圓展、清濁、開閉特征的匹配性計算,計數(shù)最大的詞綴變體作為最終的搭配變體返回。具體搭配算法如下:
若(Sf并且Af)或(Sb并且Ab):
則 計數(shù)+1,否則 計數(shù)-1;
若(Sr并且Ar)或(Snr并且Anr):
則 計數(shù)+1,否則 計數(shù)-1;
若(Sv并且Av)或(Svl并且Avl):
則 計數(shù)+1,否則 計數(shù)-1;
若(So并且Ac)或(Sc并且Ao):
則 計數(shù)+4,否則 計數(shù)-4;
處理特殊規(guī)則的總原則是,結(jié)合特殊規(guī)則搭配庫對特殊規(guī)則進(jìn)行處理,使特殊規(guī)則可以用基本搭配算法處理,具體處理方法如下:
特殊規(guī)則一: 收集符合此類規(guī)則的詞干,提取詞干結(jié)構(gòu)特征時標(biāo)記為前詞干。
特殊規(guī)則二、三: 由于此類詞干附加詞綴時需要判斷所附加詞綴類型,若名詞構(gòu)形詞綴則詞干被標(biāo)記為后詞干,若動詞構(gòu)詞詞綴則詞干被標(biāo)記為前詞干。
特殊規(guī)則四: 由于缺乏歷史背景,盡看此類詞綴本身無法判斷屬于前詞干還是后詞干,但根據(jù)現(xiàn)代維吾爾語中對這類詞干所附加的詞綴的前后類型可以判斷其前后特征。因此,首先通過程序篩選這類詞干,依據(jù)所附詞綴的前后類型進(jìn)行人工標(biāo)注。
準(zhǔn)確提取詞干、詞綴結(jié)構(gòu)特征是正確搭配詞綴變體的前提。為了驗證維吾爾語語音和諧律的正確性和完整性,首先對詞干結(jié)構(gòu)特征提取的正確性進(jìn)行驗證;其次,對詞綴變體搭配的正確性進(jìn)行驗證。
表6 維吾爾語詞干結(jié)構(gòu)分布
為了驗證詞綴變體搭配的正確性,本文收集了378個維吾爾語詞綴(構(gòu)詞詞綴104個,構(gòu)形詞綴274個),總變體為887個。其中,單變體詞綴124個(無變體詞綴),兩變體詞綴120個,三變體詞綴27個,四變體詞綴100個,六變體詞綴7個[1, 12]。由于單變體詞綴無需選擇變體即可搭配,因此,本文對其余254個多變體詞綴進(jìn)行詞綴結(jié)構(gòu)特征提取,經(jīng)人工驗證其提取結(jié)果,發(fā)現(xiàn)全部提取正確。
實驗說明:
1) 維吾爾語中,構(gòu)詞詞綴改變詞干的語義,而構(gòu)形詞綴則使詞干發(fā)生形態(tài)變化,具有更加豐富的語法信息。雖然本文提出的搭配算法對兩種類型的詞綴都有效,但詞干是維吾爾語自然語言處理的基本單元,本次實驗只考慮構(gòu)形詞綴;
2) 據(jù)統(tǒng)計,維吾爾語13種詞性中名詞和動詞在總詞匯量中所占的比例最高,本次實驗只針對名詞和動詞詞干;
3) 名詞可以附加復(fù)數(shù)、人稱、格等構(gòu)形詞綴,動詞也可以附加時態(tài)、語態(tài)、體、人稱等多種構(gòu)形詞綴,且這些詞綴按照一定的規(guī)則連續(xù)出現(xiàn),可以產(chǎn)生詞綴串。但本算法驗證的重點是詞干搭配詞綴變體的正確性。因此,本實驗考慮詞干附加一個詞綴的情況;
4) 本文從《正字法詞典》[2]中搜集了25 919個常用詞干,從中隨機(jī)抽取500個名詞詞干和300個動詞詞干進(jìn)行詞綴變體搭配;
5) 維吾爾語詞干和對應(yīng)的詞綴變體相結(jié)合時發(fā)生音變現(xiàn)象,本次試驗中我們按照文獻(xiàn)[12]中的音系現(xiàn)象處理方法,對詞干進(jìn)行音變現(xiàn)象的處理;
6) 試驗結(jié)果采用機(jī)器驗證和人工驗證結(jié)合的方式進(jìn)行。搭配算法產(chǎn)生的單詞首先通過維吾爾語文字校對工具進(jìn)行機(jī)器驗證,而校對工具無法判斷的未登錄詞,則進(jìn)行人工驗證判斷其正確性。
研究維吾爾語構(gòu)形詞綴的語法特征可知,一個維吾爾語名詞詞干分別與18個構(gòu)形詞綴搭配,可以產(chǎn)生18個單詞;一個維吾爾語動詞詞根分別與126個構(gòu)形詞綴搭配,可以產(chǎn)生126個單詞,如表7所示。
表7 詞根、詞綴變體搭配
為了驗證詞綴變體搭配算法的正確性和完整性,本文從《正字法詞典》[2]中搜集了25 919個常用詞干。從中隨機(jī)抽取500個名詞詞干和300個動詞詞干進(jìn)行詞綴變體搭配,分別生成9 000個名詞和37 800個動詞。借助維吾爾語文字校對系統(tǒng)和人工驗證的方法,對生成的所有單詞進(jìn)行詞綴變體搭配準(zhǔn)確性驗證。實驗結(jié)果表明,名詞和動詞詞干搭配詞綴準(zhǔn)確率分別為98.40%和96.49%,整體搭配準(zhǔn)確率為96.86%,實驗結(jié)果如表8所示。
表8 實驗結(jié)果
導(dǎo)致詞綴變體搭配錯誤的原因主要以下兩種:
(2) 未標(biāo)注特殊單詞: 雖然本文從388 692個拼寫正確的維吾爾語單詞中的8 000多個只包含中元音的特殊單詞進(jìn)行了人工的前后特征標(biāo)注,生成特殊單詞標(biāo)注詞典。但在實際應(yīng)用中若遇到未標(biāo)注單詞,在搭配詞綴前后變體時仍出現(xiàn)盲目搭配的情況。因此,在使用中遇到此類情況,需要對其進(jìn)行人工標(biāo)注并加入已標(biāo)注詞詞典。
本文介紹了維吾爾語字母分類,維吾爾語詞干結(jié)構(gòu)特征和詞綴結(jié)構(gòu)特征,歸納總結(jié)了維吾爾語語音和諧律,闡述了詞干搭配詞綴的基本搭配規(guī)則和特殊規(guī)則。以此為基礎(chǔ),充分考慮基本搭配規(guī)則和特殊規(guī)則的前提下,提出一種基于詞干、詞綴結(jié)構(gòu)特征的維吾爾語詞綴變體搭配算法。結(jié)合大規(guī)模詞庫和詞綴庫,分別從詞干、詞綴結(jié)構(gòu)特征提取的正確性和完整性及詞干搭配詞綴的準(zhǔn)確性等方面進(jìn)行驗證。對實驗結(jié)果的分析可知,出現(xiàn)搭配錯誤的主要原因為部分外來詞和未標(biāo)注特殊單詞的出現(xiàn)。