張利峰 胡其吐
摘 要: 本文主要研究面向蒙語授課小學(xué)生學(xué)習(xí)的英蒙機(jī)器翻譯軟件的設(shè)計與實(shí)現(xiàn)。本研究試圖通過計算機(jī)自然語言處理技術(shù)給出解決方案,以期對蒙授學(xué)生的英語學(xué)習(xí)和輔導(dǎo)具有輔助支持作用。本軟件的實(shí)現(xiàn)為蒙古語授課小學(xué)生改進(jìn)學(xué)習(xí)外語起到輔助作用。關(guān)于蒙古語授課學(xué)生學(xué)習(xí)方面的網(wǎng)絡(luò)資源很少,尤其是外語方面的,所以本翻譯系統(tǒng)豐富了蒙古語授課學(xué)生學(xué)習(xí)外語的渠道與方法。
關(guān)鍵詞: 機(jī)器翻譯;小學(xué)英語;蒙古語;教學(xué)
中圖分類號:TP391.2 文獻(xiàn)標(biāo)識碼:A
本論文獲得內(nèi)蒙古自治區(qū)蒙古語言文字信息化專項扶持項目"英蒙機(jī)器翻譯及教學(xué)平臺建設(shè)"資助,項目編號:MW-MGYWXXH-009
本項目獲得內(nèi)蒙古自治區(qū)蒙古語言文字科研資助項目“蒙漢文牌匾翻譯標(biāo)準(zhǔn)與規(guī)范化網(wǎng)絡(luò)平臺研究”資助,項目編號:MW-YB-2016025
1 蒙英機(jī)器翻譯研究現(xiàn)狀:
因為國內(nèi)蒙古文普遍使用的是傳統(tǒng)蒙古文,與蒙古國使用的蒙古文有所區(qū)另,因此本研究著眼于傳統(tǒng)蒙古文的英蒙翻譯軟件開發(fā)問題。相對中英機(jī)器翻譯系統(tǒng)研究而言,英蒙機(jī)器翻譯系統(tǒng)研究起步較晚,從業(yè)專業(yè)人員很少,但近年來也取得了一些重要的成果。2000年,以內(nèi)蒙古大學(xué)敖其爾教授《英一蒙機(jī)器翻譯系統(tǒng)的研究》著作發(fā)表為標(biāo)志,著作中,介紹了基于模板的英蒙機(jī)器翻譯相關(guān)理論,給出了基于模型的蒙古文生成方法。另外還有吉日木圖先生和王斯日古楞老師同樣使用基于模板的方法并綜合其它研究方法討論了英蒙機(jī)器翻譯系統(tǒng)相關(guān)問題。以上學(xué)者進(jìn)行的研究及給出的解決方案主要針對的是一般的英蒙機(jī)器翻譯系統(tǒng),所涉及的面較廣,語境的復(fù)雜度也相當(dāng)高。從面向英語教學(xué)的專業(yè)翻譯角度上看,由于學(xué)習(xí)中有其需要考慮的一些特殊問題,這些研究對解決蒙語授課學(xué)生學(xué)習(xí)英語軟件的開發(fā)盡管有其重要的指導(dǎo)借鑒作用,但不能完全照搬。從發(fā)展水平上看,基于學(xué)習(xí)需求的英蒙機(jī)器翻譯軟件研制,國內(nèi)開展的相關(guān)工作尚在起步階段,還有許多深入細(xì)致的研究工作要做。
本軟件旨在面向蒙語授課學(xué)生的英文學(xué)習(xí)提供工具性的支持,是學(xué)習(xí)者和指導(dǎo)者傳統(tǒng)的查閱詞典學(xué)習(xí)方式的一個補(bǔ)充。軟件開發(fā)先從面向蒙語授課小學(xué)生學(xué)習(xí)的英蒙機(jī)器翻譯工具的設(shè)計與實(shí)現(xiàn)(以小學(xué)三年級為例)起步,待積累經(jīng)驗、試用評價、軟件成熟,可后繼研發(fā)面向蒙語授課其他學(xué)段學(xué)生的英蒙機(jī)器翻譯系統(tǒng)。
2 研究思路
基本思路:收集并查閱相關(guān)文獻(xiàn);在課程專家的支持下,到蒙語授課小學(xué)進(jìn)行現(xiàn)場調(diào)研;以小學(xué)生英語課程標(biāo)準(zhǔn)和學(xué)習(xí)需求為依據(jù)整理翻譯系統(tǒng)所需語料并開發(fā)軟件。軟件的研究和開發(fā)主要涉及三個組成部分,一是;語料整理部分,二是;機(jī)器翻譯研究部分,分別說明如下。
2.1 語料整理
語料的整理是機(jī)器翻譯研究中最基本也是最重要的工作,語料整理的質(zhì)量直接影響下一步機(jī)器翻譯軟件開發(fā)的質(zhì)量。語料的整理分為二步來完成:
①在具有多年英語教學(xué)經(jīng)驗的教師(課程專家)的指導(dǎo)協(xié)助下,收集和整理所需課本、課外資料和相關(guān)信息,并將這些資料根據(jù)幼兒、小學(xué)各年級不同種類進(jìn)行劃分。
②將劃分好的資料錄入計算機(jī)。
2.2 機(jī)器翻譯軟件
借鑒中英等其它大語種的機(jī)器翻譯理論和開發(fā)經(jīng)驗,參考已有英蒙機(jī)器翻譯軟件的研究成果,規(guī)劃英蒙機(jī)器翻譯系統(tǒng)。具體實(shí)現(xiàn)方法。
①準(zhǔn)備語料(此步在上一個工作中完成),對語料進(jìn)行一些必要的處理。
②使用SRILM訓(xùn)練語言模型。
③用Giza++生成翻譯模型:詞語對齊;詞典概率評分,既利用MLE計算詞語的翻譯概率;短語抽取;短語評分,既生成phrace-table,亦即翻譯模型。
④訓(xùn)練重排序模型。
⑤訓(xùn)練生成模型。
⑥創(chuàng)建解碼器所需的相應(yīng)配置文件。
⑦使用Moses進(jìn)行解碼,生成小學(xué)三年級英——蒙翻譯軟件。
3 雙語語料庫的結(jié)構(gòu)設(shè)計
雙語平行語料庫是指用A語言寫成的源語文本和用B語言翻譯的譯文組成的文本集合。雙語對齊即“在雙語文本中找到互為翻譯的源文和譯文片斷”。語料庫的結(jié)構(gòu)設(shè)計較為簡單,無需定義復(fù)雜的數(shù)據(jù)字段以及數(shù)據(jù)的約束、安全性與完整性,只需定義相互對齊的英語句子字段和蒙古語句子字段即可。
4 蒙古文相關(guān)關(guān)鍵技術(shù)
因為蒙古文是一種黏著性語言,其形態(tài)變化、動詞時態(tài)變化等都較豐富,構(gòu)詞和構(gòu)形基本上在詞根或詞干后加不同的附加成分來實(shí)現(xiàn)的,所以蒙語的詞匯量可以說是非常大的,因為同一個詞在不同上下文中可能會有十幾種甚至幾十種的形態(tài)變化。這對雙語語料的建立帶來了非常大的挑戰(zhàn),因為語料再多也不可能涵蓋蒙古文的所以詞匯,所以我們在建立雙語語料時也盡量考慮蒙語變形所帶來的影響及如何提高語料的使用率。另外,因為蒙語有第4,5元音和第6,7元音等的形相同音不同的現(xiàn)象,除了元音以外還有一些輔音也有這種情況,這導(dǎo)致了雖然某些詞外形看起來一樣,但實(shí)際上音不同的現(xiàn)象,而且這些音的機(jī)器內(nèi)碼是不一樣的,這導(dǎo)致了計算機(jī)在識別這些詞時會認(rèn)為是兩個詞,但實(shí)際上有可能就是一個詞。比如 這個詞輸入成urluge和orluge形都一樣,但是內(nèi)碼確不同。這種現(xiàn)象因為錄入人員對蒙語正確讀音的掌握程度和錄入習(xí)慣不同而不同,尤其內(nèi)蒙古東西部蒙古語的讀音差距較大也導(dǎo)致這種現(xiàn)象非常普遍。這也對語料庫建立產(chǎn)生很大的影響,而且在后續(xù)的查詢與翻譯當(dāng)中也會產(chǎn)生非常大的影響而降低翻譯準(zhǔn)確率。為此本文提出一些改善英蒙機(jī)器翻譯方法,以此可以提高翻譯的準(zhǔn)確率,具體做法如下:
4.1 建立規(guī)范的英蒙對齊語料庫
標(biāo)點(diǎn)符號的處理:將設(shè)計好的對齊語料庫中所有符號前后都要增加空格,以便于在訓(xùn)練語料時能夠區(qū)分符號與前后詞是否為一個詞還是兩個詞。特別注意的是,有些字符是由兩個符號組成,如“《”,此類符號原則上不可拆分,所以對兩個挨著的字符不做空格增加處理。
空格的處理:對語料庫中多余的空格全部刪掉,保證語料中不會出現(xiàn)連續(xù)的兩個空格。另外,由于蒙文語料中可能會存在蒙文空格。蒙文空格是將蒙古文詞與各助詞相連接的一種符號,主要是為了表現(xiàn)蒙古文的詞與格助詞之間的空格不與詞與詞之間的空格不同。事實(shí)上,為了更準(zhǔn)確的進(jìn)行翻譯,保留蒙文空格存是一種正確的選擇,這樣的話匹配出來的文本更接近自然翻譯結(jié)果,但是由于蒙文格助詞眾多,如果接在蒙古文的所有符合條件的詞后面,那將大大地增加未登錄詞(因為每加一個格助詞即可認(rèn)為是一種新的單詞),這樣一來將對語料庫量的要求將會非常的高所以在較少的語料庫下能夠獲得更高的翻譯質(zhì)量需要將所有蒙文空格轉(zhuǎn)變成普通空格,之后再把全部的連續(xù)兩個空格簡化為單空格。
4.2 蒙古文的校對
因為本次針對的是較小范圍的語料庫,所以校對工作全部由人工完成。
4.3 蒙古文的音與形的統(tǒng)一化處理
為了在小的語料下獲得最大的翻譯能力,本文使用了蒙古文音形統(tǒng)一化處理方法來解決蒙古文形同音不同的問題。也就是把第4,5元音和第6,7元音等同形字全部統(tǒng)一成一種形,這樣處理后即有助于相對擴(kuò)大語言模型量,也容易處理蒙古文的查詢問題。
4.4 語言模型的建立方法
語言模型對于一個基于統(tǒng)計規(guī)則的翻譯系統(tǒng)來說至關(guān)重要,所以具有豐富而涵蓋面廣的語言模型才能夠大力提高翻譯質(zhì)量。語言模型的建立包括蒙古文語言模型的建立與英文語言模型的建立。因為英語的語料庫非常多,而且比較重要的語料庫均已開放,所以我們只要將此語料庫下載后使用訓(xùn)練軟件進(jìn)行訓(xùn)練后生成英語語言模型即可,所以不作詳細(xì)介紹,本文中將較詳細(xì)地說明蒙古語言模型的相關(guān)理論基礎(chǔ)及建立方法。
本翻譯系統(tǒng)采用n-gram方法建立了蒙古文語言模型,n-gram方法又稱為N元模型。此方法適用廣泛且技術(shù)較為成熟。N元模型指的是在計算語言學(xué)領(lǐng)域和概率模型中使用的一種方法,N元就是在一條句子中連續(xù)的N個元素。一個N元可以是任何字符的組合。然而,我們蒙古語中所指的N元以一個詞為界限,也就是以空格為一個界限,獲取N個元素。此時獲取的N個元素不一定全部是詞,也可以是標(biāo)點(diǎn)符號或格助詞等其它形式。N元一般都是從文本或語料中獲取。一個N元的元素值為1的可稱為“一元模型”,元素值為2的可稱為“二元模型”,元素值為3的可稱為“三元模型”,以此類推可有“四元模型”,“五元模型”,本系統(tǒng)選用了“三元模型”作為語言模型。
5 搭建英蒙互譯機(jī)器翻譯輔助教學(xué)系統(tǒng)
雖然基于短語的機(jī)器翻譯系統(tǒng)并不要求雙語語料中語言的特性,任何兩種語言均可被訓(xùn)練成機(jī)器翻譯系統(tǒng)。但是由于蒙古文本身的特性,在建立語言模型和翻譯模型時均與其它語言有所不同。
軟件的搭建核心部分是利用了Moses機(jī)器翻譯軟件,Moses是法老軟件的升級版本,所以在原有版本的基礎(chǔ)上增加了許多新的功能。是由基于短語統(tǒng)計方法的機(jī)器翻譯系統(tǒng),是由亞深工業(yè)大學(xué)(德國)、愛丁堡大學(xué)(英國)等八家單位合作開發(fā)的。2006年這八家單位在約翰霍普金斯大學(xué)召開研究會進(jìn)行研討并且花費(fèi)了六周的時間共同開發(fā)了這一系統(tǒng)。系統(tǒng)框架和核心部分全部用C++語言寫成,而且開發(fā)完后將軟件源代碼公開了,以便其它研究人員可以研究與利用,此軟件可以運(yùn)行在Linux平臺和Windows平臺上,目前領(lǐng)導(dǎo)者是Philipp Koehn。Moses軟件最初是在Linux系統(tǒng)上開發(fā)的,但它可實(shí)現(xiàn)跨平臺運(yùn)行。所以我們?yōu)榱说玫阶畲蟮募嫒菪?,將操作系統(tǒng)選用Linux內(nèi)核的Ubuntu12系統(tǒng)。如果要在Windows上安裝,需要安裝Windows下的Cygwin系統(tǒng),并在Cygwin下進(jìn)行編譯即可獲得Wiindows下可運(yùn)行的軟件。
5.1 語料的準(zhǔn)備
雙料語料庫在建立翻譯平臺時使用,庫中文本必須是蒙文與英文對齊的句子。
此處我們將利用前面準(zhǔn)備好的英蒙對齊語料庫。雖然語料庫已經(jīng)錄入完成,但是為了適用于Moses軟件,我們還需要對這個語料庫進(jìn)行相應(yīng)的整理,具體整理過程為:
a)標(biāo)記化:此步驟的功能是為詞和符號之間添加空格。雖然英文的標(biāo)點(diǎn)符號很容易被判斷,但是蒙文的標(biāo)點(diǎn)符號較難判斷,因為庫函數(shù)中均不存在標(biāo)點(diǎn)符號判斷的函數(shù),所以在開發(fā)標(biāo)記化工具時需要對蒙文進(jìn)行特殊處理,通過內(nèi)碼一個字一個字地判斷其是否為標(biāo)點(diǎn)符號,是否需要增加空格等。
b)大小字母的統(tǒng)一化:此步驟主要針對的是英文,因為蒙文沒有大小寫之分。大小寫統(tǒng)一化的目的是降低數(shù)據(jù)稀疏,以便從較小的數(shù)據(jù)中獲得更多的對齊短語等
c)清理數(shù)據(jù):較長的句子和空的句子將被刪掉,因為它們在語料訓(xùn)練中導(dǎo)致程序錯誤,另外將非對齊的句子也被刪掉。
5.2 訓(xùn)練語言模型
語言模型是用于較流暢地輸出,所以要建立在目標(biāo)語言上,此處為蒙古文。我們使用IRSTLM建立語言模型。但是由IRSTLM是面向大語種,或者可以說是研宄者或使用較多的語種的,但是由于使用傳統(tǒng)蒙古文的人較少,而且語料也較難獲得,所以此軟件中并沒有對傳統(tǒng)蒙古文進(jìn)行優(yōu)化,所以我們需要對此軟件進(jìn)行一定的修改,從而使語言模型的建立更為優(yōu)化。
5.3 訓(xùn)練翻譯模型
翻譯系統(tǒng)的最核心工程是進(jìn)行翻譯模型的訓(xùn)練。翻譯模型必要通過“詞對齊”詞組抽取及評價” “創(chuàng)建詞匯化的重新排序表”和“建立Moses的配置文件”等過程后才能夠達(dá)到正常使用的程度。雖然這些過程比較多,但是我們可以通過GIZA++一步完成所有過程。
6 結(jié)論
(1)為蒙古語授課小學(xué)生改進(jìn)學(xué)習(xí)外語習(xí)慣起到輔助作用。
(2)本翻譯系統(tǒng)實(shí)現(xiàn)了在線翻譯,所以豐富了蒙古語授課學(xué)生學(xué)習(xí)外語的網(wǎng)絡(luò)資源。因為關(guān)于蒙古語授課學(xué)生學(xué)習(xí)方面的網(wǎng)絡(luò)資源很少,尤其是外語方面的。
由于本人的理論水平有限,實(shí)踐經(jīng)驗的不足,以及受研發(fā)時間的限制,本翻譯系統(tǒng)有待于補(bǔ)存與完善。本人將在以后的工作與學(xué)習(xí)中從以下幾點(diǎn)繼續(xù)迸行探討與研究:
(1)語料庫的局限性:語料庫的規(guī)模小。只可滿足小學(xué)三年級學(xué)生的學(xué)習(xí)范圍,且對于基于統(tǒng)計規(guī)則的翻譯模型而言,語料的規(guī)模會影響系統(tǒng)的翻譯質(zhì)量。所以擴(kuò)大語料庫是一項長期而基礎(chǔ)的工作,應(yīng)將語料庫完善至可滿足小學(xué)其他年級、中學(xué)各年級、以至于到大學(xué)。
(2)軟件功能的局限性:翻譯系統(tǒng)實(shí)現(xiàn)了核心功能,即在線翻譯。在此基礎(chǔ)上軟件應(yīng)增加以下提高學(xué)習(xí)質(zhì)量與興趣的功能,如語音功能、游戲功能等,語音功能可使系統(tǒng)發(fā)出標(biāo)準(zhǔn)的讀音(包括蒙古語與英語),而增設(shè)一些猜字詞的小游戲可提高學(xué)生的學(xué)習(xí)興趣。
參考文獻(xiàn)
[1] 敖其爾,從英文到蒙文的機(jī)器翻譯.內(nèi)蒙古大學(xué)學(xué)報(哲學(xué)版),1988,第三期:39-50.
[2] 王斯日古楞.基于混合策略的漢蒙機(jī)器翻譯及相關(guān)技術(shù)研究[D].呼和浩特:內(nèi)蒙古大學(xué)(博士學(xué)位),2009.