王斯日古楞,王春榮,斯琴圖,阿 榮,玉 霞
(1. 內(nèi)蒙古師范大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,內(nèi)蒙古 呼和浩特 010022;2. 內(nèi)蒙古師范大學(xué) 網(wǎng)絡(luò)中心,內(nèi)蒙古 呼和浩特 010022)
漢蒙機(jī)器翻譯中譯文動(dòng)詞后處理研究
王斯日古楞1,王春榮1,斯琴圖2,阿 榮1,玉 霞1
(1. 內(nèi)蒙古師范大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,內(nèi)蒙古 呼和浩特 010022;2. 內(nèi)蒙古師范大學(xué) 網(wǎng)絡(luò)中心,內(nèi)蒙古 呼和浩特 010022)
蒙古文的形態(tài)變化非常豐富,在動(dòng)詞詞類上該特點(diǎn)更為明顯。我們對(duì)蒙古文的動(dòng)詞自動(dòng)生成方法進(jìn)行了系統(tǒng)的研究。該文利用生成的蒙古語(yǔ)動(dòng)詞庫(kù),給出了對(duì)基于層次短語(yǔ)的漢蒙統(tǒng)計(jì)機(jī)器翻譯譯文中句尾錯(cuò)誤詞形動(dòng)詞進(jìn)行糾正處理的方法。實(shí)驗(yàn)表明,該方法可以提高漢蒙機(jī)器翻譯的性能和流利度。
蒙古文動(dòng)詞;漢蒙機(jī)器翻譯;后處理;錯(cuò)誤詞形
蒙古語(yǔ)是黏著型語(yǔ)言,其形態(tài)變化非常豐富。這一特點(diǎn)在蒙古文動(dòng)詞上更為明顯。我們?cè)谘芯繚h蒙統(tǒng)計(jì)機(jī)器翻譯過(guò)程中發(fā)現(xiàn),在機(jī)器翻譯譯文中,蒙古文動(dòng)詞在句尾以句中形式出現(xiàn)的情況很多。
蒙古文動(dòng)詞的形態(tài)變化非常豐富,原語(yǔ)言當(dāng)中的一個(gè)漢語(yǔ)動(dòng)詞對(duì)應(yīng)很多不同詞形的蒙古語(yǔ)動(dòng)詞,這嚴(yán)重影響了統(tǒng)計(jì)機(jī)器翻譯效果。研究人員在蒙古文的形態(tài)變化上做過(guò)一些研究,文獻(xiàn)[1]在基于規(guī)則的漢蒙機(jī)器翻譯研究中指出:蒙古文中的一個(gè)動(dòng)詞可以有850個(gè)確定的變化形式,如果只考慮理論上的“詞”, 一個(gè)蒙古文動(dòng)詞至少可以有1 710個(gè)不同選擇項(xiàng),在機(jī)器翻譯中如何正確地選擇和生成這些形式,是蒙古文機(jī)器翻譯的關(guān)鍵所在。在統(tǒng)計(jì)機(jī)器翻譯研究中,研究人員[2-3]對(duì)蒙古文訓(xùn)練語(yǔ)料進(jìn)行詞法分析,在漢蒙統(tǒng)計(jì)機(jī)器翻譯中引入蒙古文形態(tài)信息,提高了漢蒙統(tǒng)計(jì)機(jī)器翻譯的性能。但是,目前還沒(méi)有研究在漢蒙統(tǒng)計(jì)機(jī)器翻譯中如何正確選擇蒙古文動(dòng)詞詞形,使得生成的句子符合蒙古文的詞法句法規(guī)則,進(jìn)一步提高漢蒙統(tǒng)計(jì)機(jī)器翻譯的譯文質(zhì)量。
我們對(duì)漢蒙機(jī)器翻譯譯文分析發(fā)現(xiàn),在400條句子的測(cè)試集當(dāng)中,句尾出現(xiàn)的動(dòng)詞比例約占10%,其中,漢蒙機(jī)器翻譯譯文中以錯(cuò)誤形式出現(xiàn)的動(dòng)詞約有20%。所以我們嘗試處理了蒙古文譯文中由于形態(tài)變化而出現(xiàn)的錯(cuò)誤動(dòng)詞。本文針對(duì)蒙古文譯文中句尾以句中形式出現(xiàn)的動(dòng)詞,利用蒙古文動(dòng)詞庫(kù),將譯文中句尾以句中形式出現(xiàn)的動(dòng)詞進(jìn)行了糾正處理。
蒙古文的構(gòu)詞、構(gòu)形都是通過(guò)在詞干后綴接不同的詞尾而實(shí)現(xiàn),而且可以層層綴接,層層派生。文獻(xiàn)[4]中給出了297個(gè)蒙古文構(gòu)形附加成分。其中我們選擇了142個(gè)動(dòng)詞構(gòu)形附加成分。 蒙古語(yǔ)動(dòng)詞構(gòu)形附加成分分為三類,分別為:第一類:祈使式、陳述式、副動(dòng)詞和形動(dòng)詞附加成分,共113條;第二類:態(tài)附加成分,共20條;第三類:體附加成分,共9條。我們?cè)诿晒盼膭?dòng)詞詞干庫(kù)基礎(chǔ)上,按綴接規(guī)則,在詞干后面綴接動(dòng)詞構(gòu)形附加成分,生成了蒙古文動(dòng)詞庫(kù)。
針對(duì)句尾出現(xiàn)的錯(cuò)誤詞形動(dòng)詞,我們?cè)O(shè)計(jì)了動(dòng)詞后處理算法。具體步驟如下。
(1) 利用自己開(kāi)發(fā)的蒙古文動(dòng)詞自動(dòng)生成程序,生成蒙古文動(dòng)詞庫(kù),從中抽取出句尾形式動(dòng)詞,得到句尾形式動(dòng)詞庫(kù);
(2) 利用蒙古文單語(yǔ)語(yǔ)料庫(kù),統(tǒng)計(jì)出句尾形式動(dòng)詞庫(kù)中每個(gè)詞在句尾出現(xiàn)的詞頻;
(3) 從機(jī)器翻譯譯文中找出句尾出現(xiàn)的錯(cuò)誤詞形動(dòng)詞,構(gòu)成錯(cuò)誤形式動(dòng)詞表;
(4) 切分錯(cuò)誤形式動(dòng)詞表中的每個(gè)詞,得到最小動(dòng)詞詞干;
(5) 以頻率最高的句尾形式動(dòng)詞,替換錯(cuò)誤形式詞表中有共同最小動(dòng)詞詞干的詞。下面介紹每一步的具體實(shí)現(xiàn)方法。
3.1 構(gòu)建句尾形式動(dòng)詞庫(kù)
本文中使用的機(jī)器翻譯語(yǔ)料都是日常用語(yǔ)語(yǔ)料。我們選取了內(nèi)蒙古大學(xué)蒙古學(xué)學(xué)院研發(fā)的“蒙古語(yǔ)語(yǔ)法信息詞典動(dòng)詞分庫(kù)”中的13 871條蒙古文動(dòng)詞詞干構(gòu)成了基本動(dòng)詞詞干庫(kù),其包含了所有現(xiàn)代蒙古文動(dòng)詞詞干。對(duì)譯文進(jìn)行錯(cuò)誤動(dòng)詞后處理時(shí),我們使用自己開(kāi)發(fā)的基于規(guī)則的蒙古文動(dòng)詞自動(dòng)生成程序,在該動(dòng)詞庫(kù)基礎(chǔ)上連接構(gòu)型附加成分生成了蒙古文動(dòng)詞庫(kù)。從翻譯譯文中對(duì)句尾以句中形式出現(xiàn)的動(dòng)詞糾正處理角度來(lái)看,我們需要從蒙古文動(dòng)詞庫(kù)中抽取句尾形式動(dòng)詞。
本文在13 871條蒙古文動(dòng)詞詞干基礎(chǔ)上,生成了580MB規(guī)模的蒙古文動(dòng)詞庫(kù)。從該動(dòng)詞庫(kù)中抽取的蒙古文句尾詞形動(dòng)詞庫(kù)的規(guī)模為39.2MB。
3.2 計(jì)算句尾形式動(dòng)詞頻率
得到句尾形式動(dòng)詞庫(kù)之后,需要計(jì)算其在蒙古語(yǔ)語(yǔ)料庫(kù)中句尾出現(xiàn)的頻率,生成句尾形式動(dòng)詞頻率庫(kù),以便為譯文中每個(gè)句尾錯(cuò)誤詞形動(dòng)詞找到與其對(duì)應(yīng)的頻率最高的動(dòng)詞。
3.3 找出句尾以句中形式出現(xiàn)的錯(cuò)誤詞形動(dòng)詞
對(duì)蒙古文譯文中句尾錯(cuò)誤詞形動(dòng)詞后處理時(shí),需要從譯文中找出動(dòng)詞,本文中即找出句尾以句中形式出現(xiàn)的動(dòng)詞。查找錯(cuò)誤詞形動(dòng)詞流程如圖1所示。
根據(jù)蒙古文構(gòu)形附加成分庫(kù)中的動(dòng)詞構(gòu)形附加成分,判斷一個(gè)蒙古文詞是否為動(dòng)詞的方法,有時(shí)候可能將非動(dòng)詞詞類也識(shí)別為動(dòng)詞。為了減少錯(cuò)誤識(shí)別情況,本文利用蒙古文詞性標(biāo)注語(yǔ)料庫(kù),統(tǒng)計(jì)識(shí)別錯(cuò)誤詞形動(dòng)詞的不同詞類標(biāo)注情況。如果有多個(gè)詞類,則看是否按動(dòng)詞類標(biāo)注的情況最多;如果識(shí)別出的動(dòng)詞在蒙古文詞性標(biāo)注語(yǔ)料庫(kù)中僅標(biāo)注成動(dòng)詞或者標(biāo)注成動(dòng)詞的頻率比其他詞類標(biāo)注頻率高,就可以確定該詞為動(dòng)詞。
圖1 查找句尾以句中形式出現(xiàn)的錯(cuò)誤詞形動(dòng)詞的流程
3.4 獲取句尾錯(cuò)誤詞形動(dòng)詞的最小動(dòng)詞詞干
從漢蒙機(jī)器翻譯譯文中找到句尾錯(cuò)誤詞形動(dòng)詞之后,對(duì)這些動(dòng)詞進(jìn)行切分,得到最小動(dòng)詞詞干。最小動(dòng)詞詞干指的是把一個(gè)蒙古文動(dòng)詞的構(gòu)形附加成分切割后剩下的詞干。例如,“UILEDBURILEHU”,該詞的最小動(dòng)詞詞干是“UILEDBURILE”,而不是“UILE”或“UILEDBURI”等。在該模塊中,利用動(dòng)詞構(gòu)形附加成分及構(gòu)形附加成分綴接規(guī)則、重疊規(guī)則及還原規(guī)則,對(duì)動(dòng)詞進(jìn)行切分。匹配切分基本過(guò)程如圖2所示。
圖2 獲取錯(cuò)誤詞形動(dòng)詞的最小動(dòng)詞詞干的流程
3.5 錯(cuò)誤詞形動(dòng)詞的替換
利用句尾形式動(dòng)詞頻率庫(kù),對(duì)每個(gè)句尾錯(cuò)誤詞形動(dòng)詞找到與之有相同最小動(dòng)詞詞干的句尾形式動(dòng)詞;然后,使用搜索到的頻率最高的句尾形式動(dòng)詞,將譯文中對(duì)應(yīng)的錯(cuò)誤詞形動(dòng)詞進(jìn)行替換。
我們進(jìn)行了兩組實(shí)驗(yàn),分別為基準(zhǔn)實(shí)驗(yàn)和句尾錯(cuò)誤詞形動(dòng)詞后處理實(shí)驗(yàn)。
基準(zhǔn)實(shí)驗(yàn)進(jìn)行了基于層次短語(yǔ)的漢蒙統(tǒng)計(jì)機(jī)器翻譯,其訓(xùn)練數(shù)據(jù)為CWMT2009提供的語(yǔ)料,語(yǔ)言模型設(shè)置成4-gram,語(yǔ)言模型訓(xùn)練語(yǔ)料庫(kù)使用100萬(wàn)詞的蒙古文語(yǔ)料及訓(xùn)練語(yǔ)料中67 288條句子的蒙古文語(yǔ)料組成的單語(yǔ)語(yǔ)料。兩組實(shí)驗(yàn)的譯文評(píng)測(cè)結(jié)果如表1所示。
表1 評(píng)測(cè)結(jié)果
本文機(jī)器翻譯譯文中出現(xiàn)了五個(gè)句尾錯(cuò)誤動(dòng)詞,利用蒙古文動(dòng)詞庫(kù)對(duì)基準(zhǔn)實(shí)驗(yàn)的譯文結(jié)果進(jìn)行錯(cuò)誤動(dòng)詞后處理后,其評(píng)測(cè)結(jié)果在NIST值上提高了0.42%。在BLEU值上提高了0.02%。 我們從實(shí)驗(yàn)結(jié)果看到BLEU值提高不多,主要原因是蒙古文動(dòng)詞的詞形變化非常豐富,即使句尾詞形,對(duì)于同一個(gè)語(yǔ)義也有不同詞形可以對(duì)應(yīng),我們選取的詞形與參考答案不同的話對(duì)BLEU值提高不會(huì)有貢獻(xiàn)。我們對(duì)譯文進(jìn)行錯(cuò)誤動(dòng)詞后處理之后,五個(gè)句尾錯(cuò)誤動(dòng)詞中,有一個(gè)錯(cuò)誤動(dòng)詞的處理與參考答案一致,其余錯(cuò)誤動(dòng)詞處理之后,雖然與四個(gè)參考答案不一致,但是我們看到對(duì)于譯文句末動(dòng)詞校正后會(huì)明顯提高譯文句子的流利度。因此,從提高譯文可讀性角度來(lái)說(shuō),在漢蒙統(tǒng)計(jì)機(jī)器翻譯中譯文動(dòng)詞的這種后處理是非常有意義的。
本文只對(duì)句尾以句中形式出現(xiàn)的錯(cuò)誤詞形動(dòng)詞進(jìn)行了糾正處理,而沒(méi)有對(duì)句中錯(cuò)誤詞形動(dòng)詞進(jìn)行處理。我們下一步將對(duì)漢蒙機(jī)器翻譯系統(tǒng)譯文中的句中錯(cuò)誤詞形動(dòng)詞進(jìn)行后處理研究。
[1] 那順烏日?qǐng)D,劉群,巴達(dá)瑪放德斯?fàn)?面向機(jī)器翻譯的蒙古語(yǔ)生成,自然語(yǔ)言理解與機(jī)器翻譯[M].清華大學(xué)出版社,2001.
[2] 楊攀,張建,李淼等.漢蒙統(tǒng)計(jì)機(jī)器翻譯中的形態(tài)學(xué)方法研究[J].中文信息學(xué)報(bào),2009,23(1):50-57.
[3] 寶美榮.融入形態(tài)學(xué)分析的漢蒙統(tǒng)計(jì)機(jī)器翻譯研究[D].內(nèi)蒙古師范大學(xué),2012.
[4] 淑琴.《蒙古語(yǔ)語(yǔ)法信息詞典構(gòu)形附加成分庫(kù)》的設(shè)計(jì)與實(shí)現(xiàn)[D].內(nèi)蒙古大學(xué),2005.
[5] 內(nèi)蒙古大學(xué)蒙古學(xué)學(xué)院蒙古語(yǔ)文研究所.現(xiàn)代蒙古語(yǔ)[M].內(nèi)蒙古人民出版社,1964.
[6] 內(nèi)蒙古大學(xué)蒙古學(xué)研究院蒙古語(yǔ)文研究所.蒙漢詞典(增訂版)[M].內(nèi)蒙古大學(xué)出版社,2011.
[7] 淑琴,艷花.蒙古語(yǔ)構(gòu)形附加成分重疊使用特征及其模型[C]//第十屆全國(guó)少數(shù)民族語(yǔ)言文字信息處理學(xué)術(shù)研討會(huì)論文集,2005.
Post-processing for Verbs in Chinese-Mongolian Machine Translation
Wangsiriguleng1,Wang Chunrong1,Siqintu2,Arong1,Yuxia1
(1. Computer and Information Engineering College, Inner Mongolia Normal University, Hohhot, Inner Mongolia 010022, China; 2. Network Center of Inner Mongolia Normal University, Hohhot,Inner Mongolia 010022, China)
Mongolian is rich in morphological variation, especially for the verb. Based on a given Mongolian verb dictionary, we corrected the wrong verb form appeared in the end of hierarchical phrase based Chinese-Mongolian machine translation sentence. The experiments show that this method can improve the translation quality.
Mongolian verbs; Chinese-Mongolian Machine Translation; post-processing; word’s wrong form
王斯日古楞(1970—),博士,教授,主要研究領(lǐng)域?yàn)槊晒盼男畔⑻幚砗蜋C(jī)器翻譯。E?mail:siriguleng@imnu.edu.cn王春榮(1989—),碩士,助教,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言信息處理。E?mail:wangchunrong.zmd@163.com斯琴圖(1972—),碩士,高級(jí)工程師,主要研究領(lǐng)域?yàn)槊晒盼男畔⑻幚砗陀?jì)算機(jī)網(wǎng)絡(luò)。E?mail:siqintu@imnu.edu.cn
1003-0077(2016)02-0213-04
2013-11-14 定稿日期: 2014-05-15
國(guó)家自然科學(xué)基金(61063014);內(nèi)蒙古自治區(qū)自然科學(xué)基金(2012MS0918);內(nèi)蒙古師范大學(xué)計(jì)算機(jī)與信息工程學(xué)院科技創(chuàng)新團(tuán)隊(duì)資助項(xiàng)目
TP391
A