趙亞平 蘇依拉 牛向華 仁慶道爾吉
(內(nèi)蒙古工業(yè)大學(xué)信息工程學(xué)院 內(nèi)蒙古 呼和浩特 010080)
機(jī)器翻譯(Machine Translation,MT)是自然語言處理領(lǐng)域中最早的研究分支之一,機(jī)器翻譯的基本原理是利用計(jì)算機(jī)自動把一種自然語言轉(zhuǎn)變成具有完全相同含義的另一種自然語言的過程[1]。神經(jīng)機(jī)器翻譯(Neural Machine Translation,NMT)是近年來出現(xiàn)的機(jī)器翻譯方法[2-3],神經(jīng)機(jī)器翻譯表現(xiàn)顯著,逐漸超過傳統(tǒng)的統(tǒng)計(jì)機(jī)器翻譯,成為目前最受歡迎的機(jī)器翻譯方法[4-5]。神經(jīng)機(jī)器翻譯實(shí)現(xiàn)的基本原理是利用編碼器將源語言句子編碼成一個代表源語言句子語義信息的實(shí)數(shù)向量,然后在解碼階段解碼器將該向量解碼出對應(yīng)的目標(biāo)語言句子。在神經(jīng)機(jī)器翻譯方法剛被提出來時,其表現(xiàn)性能并沒有超過統(tǒng)計(jì)機(jī)器翻譯[6]。隨著注意力機(jī)制的加入,神經(jīng)機(jī)器翻譯模型能有效緩解長句子依賴問題[7]。目前神經(jīng)機(jī)器翻譯在英漢、英德等多語言對上的機(jī)器翻譯性能超過了統(tǒng)計(jì)機(jī)器翻譯(Statistical Machine Translation,SMT)方法。
蒙古語是我國少數(shù)民族語種之一,蒙古語是蒙古族所持有的語種。為了保護(hù)和發(fā)展蒙古語,內(nèi)蒙古自治區(qū)內(nèi)政府重要文獻(xiàn)、新聞網(wǎng)站等都是采用漢、蒙兩種語言書寫的。機(jī)器翻譯是突破人類語言障礙的重要的科學(xué)手段。隨著經(jīng)濟(jì)全球化不斷發(fā)展蒙古語被使用的地方越來越多,實(shí)現(xiàn)高質(zhì)量的蒙漢機(jī)器翻譯對我國內(nèi)蒙古地區(qū)信息化發(fā)展有重要現(xiàn)實(shí)意義。將下面蒙語翻譯成對應(yīng)漢語句子:
對應(yīng)正確的漢語句子:“解決這些問題需要幾周的時間。”但是,如果只是機(jī)械地將蒙古語句子從左到右逐個詞譯成漢語,得到的漢語句子是“這些問題解決幾周時間需要?!庇纱丝芍晒耪Z和漢語在語法上存在很大的差異。目前包括蒙語、藏語和維吾爾語在內(nèi)的小語種可用于實(shí)驗(yàn)的平行語料庫存在嚴(yán)重不足問題,實(shí)現(xiàn)高水平的蒙漢機(jī)器翻譯譯文的難度很大。
蒙古語屬于黏著語,在蒙古語中語素有較強(qiáng)的結(jié)合性,理論上來說有限的詞干和詞綴有很多種結(jié)合的方法。在蒙古語的構(gòu)詞法中通常是在詞干后連接相應(yīng)的詞綴,產(chǎn)生時間、形態(tài)的變化,從而達(dá)到豐富語法的目的[8]。由于蒙古語詞匯豐富形態(tài)變化多,部分的蒙古語詞語在訓(xùn)練語料中出現(xiàn)次數(shù)可能只有一次,這就容易造成蒙漢機(jī)器翻譯過程出現(xiàn)嚴(yán)重的未登錄詞現(xiàn)象,加上蒙古語本身語法的復(fù)雜性,使得想要獲得高性能的蒙漢機(jī)器翻譯模型相對較困難。本文實(shí)驗(yàn)利用BPE技術(shù)[9]對蒙漢平行語料進(jìn)行處理操作,用來緩解蒙漢機(jī)器翻譯中未登錄詞現(xiàn)象。對應(yīng)的系統(tǒng)為subword-nmt,BPE技術(shù)在機(jī)器翻譯方法中得到較為廣泛的應(yīng)用[4]。
不論是基于統(tǒng)計(jì)的機(jī)器翻譯模型還是神經(jīng)機(jī)器翻譯模型,都需要大量的語料數(shù)據(jù)來驅(qū)動,翻譯的性能高度依賴平行語料的規(guī)模大小、質(zhì)量和領(lǐng)域覆蓋面。然而,蒙漢平行語料資源的不足使得機(jī)器翻譯譯文質(zhì)量不盡如人意。如何有效解決平行語料庫不足問題帶來的翻譯過程出現(xiàn)的未登錄詞或集外詞現(xiàn)象成為蒙漢機(jī)器翻譯的一個重要的研究課題。本文基于字節(jié)編碼技術(shù)和遷移學(xué)習(xí)策略就緩解蒙漢機(jī)器翻譯過程出現(xiàn)嚴(yán)重的未登錄詞問題以及提高蒙漢翻譯譯文質(zhì)量進(jìn)行了相關(guān)實(shí)驗(yàn)。
從語法形態(tài)上劃,分蒙古語屬于阿爾泰語系,采用主-賓-謂的語法結(jié)構(gòu)。漢語屬于漢藏語系,采用主-謂-賓句式結(jié)構(gòu)。所以,在進(jìn)行蒙漢機(jī)器翻譯過程中需要處理長句子調(diào)序問題。如果對蒙漢平行語料不進(jìn)行任何預(yù)處理操作直接進(jìn)行機(jī)器翻譯,模型訓(xùn)練會存在嚴(yán)重的未登錄詞現(xiàn)象,翻譯譯文質(zhì)量不理想。
本次實(shí)驗(yàn)的語料庫規(guī)模包括166 455句的蒙漢平行語料和120萬句的英漢平行語料。其中,蒙漢平行語料劃分如下:訓(xùn)練集163 955句、開發(fā)集1 500句和測試集1 000句。中文的詞是包含語義信息的最小單元,但是中文的詞與詞間沒有天然的分隔符。本文的中文分詞和英文預(yù)處理工具分別采用斯坦福大學(xué)開源分詞工具stanford-segmenter和stanford-ner,其基本的分詞原理基于條件隨機(jī)場(Conditional Random Field,CRF)。
Sennrich等基于字節(jié)對編碼(byte pair encoding,BPE)技術(shù),提出了子詞方法。該方法基本實(shí)現(xiàn)原理是:在平行語料庫中出現(xiàn)次數(shù)較高的詞匯相比低頻詞在翻譯譯文時作為完整詞匯的概率一般會較高,只對語料庫中低頻詞語進(jìn)行分詞操作,從而達(dá)到提高低頻詞的子詞的共現(xiàn)次數(shù)[10]。本文利用subword-nmt系統(tǒng)對分詞后的蒙漢平行語料進(jìn)行BPE預(yù)處理,下面就具體實(shí)例對BPE技術(shù)進(jìn)行介紹。
蒙文語料:
BPE預(yù)處理后的蒙文語料:
神經(jīng)機(jī)器翻譯模型相關(guān)參數(shù)數(shù)量十分龐大,文獻(xiàn)[11]中進(jìn)行的神經(jīng)機(jī)器翻譯實(shí)驗(yàn)結(jié)果表明只有當(dāng)雙語平行語料具有較大的規(guī)模后,神經(jīng)機(jī)器翻譯性能才有可能超過傳統(tǒng)的統(tǒng)計(jì)機(jī)器翻譯譯文質(zhì)量。遷移學(xué)習(xí)的核心思想是把訓(xùn)練源任務(wù)獲取的知識存儲下來,應(yīng)用于新的(不同,但相近任務(wù))任務(wù)中[11-12]。遷移學(xué)習(xí)允許將大量有標(biāo)記數(shù)據(jù)學(xué)習(xí)到的知識應(yīng)用到標(biāo)記數(shù)據(jù)較少的模型訓(xùn)練中。遷移學(xué)習(xí)不再要求必須滿足如下在以往的機(jī)器學(xué)習(xí)中的基本前提條件[12]:
(1) 用來訓(xùn)練模型的樣本和測試樣本必須是獨(dú)立同分布的;
(2) 訓(xùn)練模型的樣本集必須是大規(guī)模的才能夠獲得合格的模型。
在遷移學(xué)習(xí)中,域(Domain)是由數(shù)據(jù)特征和特征分布組成,是學(xué)習(xí)的主體。源域(Source Domain)是已有知識的域。目標(biāo)域(Target Domain)是將要學(xué)習(xí)的域。遷移學(xué)習(xí)的主要任務(wù)是研究如何把在源域中已學(xué)到的知識遷移到目標(biāo)域中。遷移學(xué)習(xí)按照遷移方法不同可以分為基于實(shí)例的遷移(Instance Based TL)、基于特征的遷移(Feature Based TL)、基于模型的遷移(Parameter Based TL)以及基于關(guān)系的遷移(Relation Based TL)。本文是基于遷移學(xué)習(xí)策略的蒙漢神經(jīng)機(jī)器翻譯,研究方法屬于遷移學(xué)習(xí)中基于模型的遷移學(xué)習(xí)方法又稱參數(shù)遷移。
圖1所示為遷移學(xué)習(xí)示意圖,在傳統(tǒng)機(jī)器學(xué)習(xí)模型,如果要為某個任務(wù)/域B來訓(xùn)練模型,必須獲取任務(wù)/域B里標(biāo)記過的足夠多的數(shù)據(jù)。如果沒有大量的標(biāo)記數(shù)據(jù)就不能得到滿意的模型B,而遷移學(xué)習(xí)可以實(shí)現(xiàn)在少量的標(biāo)記數(shù)據(jù)條件下得到滿意的模型B。遷移學(xué)習(xí)將訓(xùn)練模型A獲取的知識存儲下來,應(yīng)用于模型B的訓(xùn)練中,以達(dá)到提高模型B性能的目的。
圖1 遷移學(xué)習(xí)示意圖
在遷移學(xué)習(xí)中,域是由數(shù)據(jù)特征和特征分布組成,是學(xué)習(xí)的主體。源域是已有知識的域。目標(biāo)域是將要學(xué)習(xí)的域。遷移學(xué)習(xí)按照遷移方法不同可以分為基于實(shí)例的遷移、基于特征的遷移、基于模型的遷移以及基于關(guān)系的遷移。
本文根據(jù)Zoph等[11]基于遷移學(xué)習(xí)在機(jī)器翻譯中應(yīng)用的思想,利用大規(guī)模的英漢平行語料訓(xùn)練獲得英漢神經(jīng)翻譯模型。在訓(xùn)練蒙漢神經(jīng)機(jī)器翻譯模型時,不再是隨機(jī)初始化翻譯模型網(wǎng)絡(luò)參數(shù),而是采用英漢翻譯模型參數(shù)權(quán)重初始化蒙漢翻譯模型網(wǎng)絡(luò)參數(shù),利用蒙漢平行語料進(jìn)行翻譯模型訓(xùn)練。本文采用相對簡單的遷移學(xué)習(xí)方法,即利用英漢神經(jīng)翻譯模型所有參數(shù)權(quán)重對蒙漢神經(jīng)機(jī)器翻譯模型進(jìn)行參數(shù)初始化。本文是在Tensorflow深度學(xué)習(xí)框架中利用導(dǎo)入預(yù)訓(xùn)練模型來實(shí)現(xiàn)的翻譯模型參數(shù)權(quán)重遷移的工作。由于Tensorflow中神經(jīng)網(wǎng)絡(luò)模型圖和網(wǎng)絡(luò)相關(guān)參數(shù)分開存儲的,所以導(dǎo)入模型包括構(gòu)造網(wǎng)絡(luò)圖和加載參數(shù)權(quán)重兩步來完成。
利用蒙漢平行語料進(jìn)行神經(jīng)機(jī)器翻譯模型訓(xùn)練時,需要將平行雙語語料中的詞語進(jìn)行詞向量化表示,真正參與翻譯模型訓(xùn)練的是代表蒙漢句子語義信息的向量組,而非蒙漢語料中的整個句子。所以,高質(zhì)量、更強(qiáng)表達(dá)能力的雙語詞向量對最終的翻譯譯文質(zhì)量有較大影響。Word2vec是一款開源的可以很高效地進(jìn)行詞向量訓(xùn)練的工具,Google公司在2013年時向機(jī)器翻譯研究者們開源了該系統(tǒng)。Mikolov等基于C&W[13]詞向量模型提出了兩種目前最常用的詞向量訓(xùn)練模型即連續(xù)詞袋子模型(Continuous Bag Of Words,CBOW)和Skip-gram模型。本文利用Word2vec進(jìn)行詞向量訓(xùn)練時采用的詞向量模型為Skip-gram。
本文利用Word2vec工具對蒙、漢語料分別進(jìn)行了蒙、漢詞向量的預(yù)訓(xùn)練工作,得到對應(yīng)的蒙、漢詞向量預(yù)訓(xùn)練文件vectors.mn、vectors.zh;然后利用Python腳本文件,實(shí)現(xiàn)從詞向量文件中提取詞匯生成對應(yīng)的詞表文件;最后利用命令——embed_prefix將預(yù)訓(xùn)練的蒙、漢詞向量文件和對應(yīng)的雙語詞表嵌入到蒙漢神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行訓(xùn)練。本文中預(yù)訓(xùn)練詞向量的維度和神經(jīng)機(jī)器翻譯模型訓(xùn)練時詞向量的維度是一致。本文通過實(shí)驗(yàn)驗(yàn)證了將預(yù)訓(xùn)練的詞向量嵌入到蒙漢神經(jīng)機(jī)器翻譯模型中最終的翻譯譯文質(zhì)量得到了一定提高。
神經(jīng)機(jī)器翻譯是一種使用神經(jīng)網(wǎng)絡(luò)直接獲取自然語言之間的映射關(guān)系的機(jī)器翻譯方法,神經(jīng)機(jī)器翻譯利用連接編碼器和解碼器的狀態(tài)向量來描述雙語語義的等價(jià)關(guān)系。2013年由英國牛津大學(xué)Kalchbrenner和Blunsom教授提出的一種用于機(jī)器翻譯的新型編碼-解碼結(jié)構(gòu)模型標(biāo)志著神經(jīng)機(jī)器翻譯的時代的開始[14]。隨著端到端的編碼器-解碼器框架(Encoder-Decoder)提出以及將注意力機(jī)制引入到神經(jīng)機(jī)器翻譯框架中,使得神經(jīng)機(jī)器翻譯的表現(xiàn)得到顯著提升并且逐漸確定了神經(jīng)機(jī)器翻譯框架主要的構(gòu)成架構(gòu)[15-17]。
編碼器-解碼器模型是目前神經(jīng)機(jī)器翻譯模型主要組成部分之一。以蒙漢神經(jīng)機(jī)器翻譯為例,神經(jīng)網(wǎng)絡(luò)中編碼器模型用于讀取源語言端的蒙古語句子,將蒙古語句子編碼成固定維數(shù)的實(shí)數(shù)向量,該向量代表了源語言語義信息;解碼器部分獲取代表源語言語義信息的實(shí)數(shù)向量,然后依次生成對應(yīng)的漢語詞語序列,直到遇到句尾結(jié)束符標(biāo)志著翻譯過程的結(jié)束。本文利用Thang Luong等設(shè)計(jì)的Tensorflow/nmt[18]開源神經(jīng)機(jī)器翻譯框架進(jìn)行蒙漢神經(jīng)機(jī)器翻譯模型實(shí)驗(yàn),其中神經(jīng)網(wǎng)絡(luò)類型采用長短時記憶(Long Short-Term Memory,LSTM)神經(jīng)網(wǎng)絡(luò),由于Tensorflow/nmt系統(tǒng)提供了多個類型的注意力機(jī)制方案,本文選擇的是scaled_luong。圖2所示為基于編碼器-解碼器構(gòu)架的翻譯模型,其中a表示神經(jīng)網(wǎng)絡(luò)初始化向量,x表示神經(jīng)網(wǎng)絡(luò)的輸入序列,y表示神經(jīng)網(wǎng)絡(luò)的輸出序列。
處理自然語言相關(guān)任務(wù)最常使用的神經(jīng)網(wǎng)絡(luò)類型就是遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent neural networks,RNN),LSTM神經(jīng)網(wǎng)絡(luò)就是RNN的一種特殊形式[17]。從圖2不難看出,神經(jīng)機(jī)器翻譯在解碼階段不僅源語言端輸入的向量信息,而且前一時刻生成的目標(biāo)詞匯也參與目標(biāo)詞的預(yù)測工作。“The dog, which already ate …, was full.”這個英語句子充分體現(xiàn)了長句子存在嚴(yán)重的語義依賴現(xiàn)象,神經(jīng)網(wǎng)絡(luò)是否可以長距離保持單詞“dog”和“ate”語義信息直接影響了后面序列“was full”的正確性。
圖3所示為長短時記憶神經(jīng)網(wǎng)絡(luò)隱藏層單元結(jié)構(gòu),LSTM結(jié)構(gòu)強(qiáng)大、靈活,因?yàn)長STM神經(jīng)網(wǎng)絡(luò)包括三個門單元,即更新門、遺忘門和輸出門,但是,進(jìn)行LSTM神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練時耗費(fèi)的計(jì)算成本相比普通循環(huán)神經(jīng)網(wǎng)絡(luò)會增加。
LSTM單元在每個時間步長將用一個候選值重寫記憶單元,其中,C
更新門:
Γu=σ(Wu[a
(1)
遺忘門:
Γf=σ(Wf[a
(2)
輸出門:
Γo=σ(Wo[a
(3)
式中:t時刻門控單元激活輸出a
a
(4)
C
(5)
圖3 長短時記憶神經(jīng)網(wǎng)絡(luò)隱藏層單元結(jié)構(gòu)示意圖
隨著用于機(jī)器翻譯的端到端編碼器-解碼器框架提出以及將注意力機(jī)制引入到神經(jīng)機(jī)器翻譯框架中,神經(jīng)機(jī)器翻譯譯文質(zhì)量得到顯著提升并且逐漸成為目前最為常用的機(jī)器翻譯方法。
注意力機(jī)制為源語言端每個詞生成包含全局信息的向量表示[17],解碼時根據(jù)注意力向量計(jì)算當(dāng)前目標(biāo)端詞最相關(guān)的上下文信息。相比普通的編碼器將源語言句子壓縮成固定維度的向量表示,注意力機(jī)制模型(見圖4)有效地利用源語言端句子信息相關(guān)性,一定程度提高了神經(jīng)機(jī)器翻譯譯文的質(zhì)量。
圖4 基于注意力機(jī)制的神經(jīng)機(jī)器翻譯模型
如圖4所示,注意力機(jī)制參與了所有目標(biāo)語言詞匯的產(chǎn)生,在解碼階段注意力機(jī)制主要完成以下幾個操作:
(1) 利用當(dāng)前目標(biāo)端隱藏狀態(tài)與所有源狀態(tài)計(jì)算得到注意力權(quán)重。
(2) 根據(jù)注意力權(quán)重得到上下文向量。
(3) 利用上下文向量和當(dāng)前目標(biāo)端隱藏狀態(tài)得到注意力向量。
(4) 注意力向量作為輸入提供給下一個遞歸神經(jīng)網(wǎng)絡(luò)的時間步長。
注意力對齊權(quán)重計(jì)算式表示為:
(6)
上下文對齊向量計(jì)算式表示為:
(7)
注意力對齊向量計(jì)算式表示為:
at=f(ct;ht)=tanh(Wc[ct;ht])
(8)
本文進(jìn)行蒙漢機(jī)器翻譯實(shí)驗(yàn)所采用的硬件環(huán)境:操作系統(tǒng)是Ubuntu16.04;CPU是I5主頻2.5 GHz。本文利用Tensorflow/nmt開源的神經(jīng)機(jī)器翻譯框架進(jìn)行蒙漢神經(jīng)機(jī)器翻譯模型訓(xùn)練,經(jīng)過多次實(shí)驗(yàn)比對找到了蒙漢翻譯模型最優(yōu)的相關(guān)參數(shù),下面進(jìn)行具體描述。對蒙漢平行訓(xùn)練語料最長的句子設(shè)置為50個詞,雙語詞向量維度為512,解碼階段采用集束搜索策略,Beam width設(shè)置為10。如圖5為系統(tǒng)模型訓(xùn)練的具體流程,英漢翻譯模型和蒙漢翻譯模型同為Tensorflow/nmt,首先利用大規(guī)模英漢語料訓(xùn)練得到英漢翻譯模型,然后對蒙漢平行語料進(jìn)行BPE技術(shù)預(yù)處理,其次將英漢翻譯模型參數(shù)遷移到蒙漢翻譯模型中,最后,將預(yù)訓(xùn)練的詞向量嵌入翻譯模型,利用蒙漢語料進(jìn)行蒙漢機(jī)器翻譯模型的訓(xùn)練。本神經(jīng)翻譯模型采用隨機(jī)梯度下降方法(Stochastic Gradient Descent,SGD)優(yōu)化模型參數(shù),訓(xùn)練樣本batch size大小為128句,網(wǎng)絡(luò)丟棄率Dropout[20]設(shè)置為0.2。由于本實(shí)驗(yàn)中蒙漢平行語料太少,容易造成翻譯譯文出現(xiàn)大量未登錄詞現(xiàn)象,為了提高譯文翻譯質(zhì)量,蒙古語、漢語詞典大小設(shè)置為40 000。
圖5 系統(tǒng)模型流程圖
本文對蒙漢平行語料利用Sennrich等開發(fā)的subword-nmt開源系統(tǒng)進(jìn)行BPE技術(shù)處理,利用C語言版本的Word2vec開源工具實(shí)現(xiàn)的詞向量的預(yù)訓(xùn)練。本文采用的翻譯基線系統(tǒng)為Tensorflow/nmt神經(jīng)機(jī)器翻譯開源系統(tǒng),循環(huán)單元采用LSTM長短時記憶網(wǎng)絡(luò)。本文采用BLEU值作為翻譯譯文質(zhì)量的評測指標(biāo),默認(rèn)每個系統(tǒng)超參數(shù)的值是最優(yōu)狀態(tài)的值。
表1 機(jī)器翻譯模型對比
本文分別進(jìn)行了基于神經(jīng)機(jī)器翻譯模型訓(xùn)練、神經(jīng)網(wǎng)絡(luò)+字節(jié)編碼翻譯模型訓(xùn)練以及利用遷移學(xué)習(xí)策略訓(xùn)練神經(jīng)翻譯模型。在神經(jīng)機(jī)器翻譯模型訓(xùn)練中,對平行語料進(jìn)行一次完整的訓(xùn)練稱為一個訓(xùn)練周期(Epoch),在具有大規(guī)模的雙語平行訓(xùn)練語料情況下,通常經(jīng)過20~30個訓(xùn)練周期就能得到穩(wěn)定的翻譯模型[21]。由于本次試驗(yàn)中蒙漢平行語料規(guī)模太小,在第30個訓(xùn)練周期下,并沒有得到相對穩(wěn)定的結(jié)果??紤]到模型訓(xùn)練中迭代周期太多可能出現(xiàn)過擬合現(xiàn)象,本文實(shí)驗(yàn)訓(xùn)練最多50個周期。圖6為本系統(tǒng)四種翻譯框架下BLEU值隨著訓(xùn)練周期增加而變化的情況。
圖6 模型訓(xùn)練周期與BLEU值關(guān)系圖
機(jī)器翻譯模型對比結(jié)果如表1所示,可以看出,對蒙漢平行語料進(jìn)行BPE技術(shù)處理的神經(jīng)機(jī)器翻譯系統(tǒng)(用“NMT+BPE”表示)相比未進(jìn)行BPE技術(shù)處理翻譯系統(tǒng)(用“NMT”表示)譯文提高了1.3 BLEU值,應(yīng)用BPE技術(shù)預(yù)處理和Word2vec預(yù)訓(xùn)練詞向量的蒙漢神經(jīng)機(jī)器翻譯系統(tǒng)(用“NMT+BPE+Word2vec”表示)相比BPE技術(shù)處理的神經(jīng)機(jī)器翻譯系統(tǒng)BLEU值提高了0.6,應(yīng)用BPE技術(shù)預(yù)處理和遷移學(xué)習(xí)的蒙漢神經(jīng)機(jī)器翻譯系統(tǒng)(用“NMT+BPE+Trans”表示)相比BPE技術(shù)處理的神經(jīng)機(jī)器翻譯系統(tǒng)BLEU值提高了1.6,采用BPE技術(shù)預(yù)處理加遷移學(xué)習(xí)的神經(jīng)機(jī)器翻譯相比普通神經(jīng)機(jī)器翻譯BLEU值提高了2.9。表2是本文進(jìn)行三個翻譯系統(tǒng)測試集的翻譯譯文的示例對比,“UNK”表示未登錄詞。通過LSTM翻譯模型譯文和基于遷移學(xué)習(xí)的翻譯模型譯文對比發(fā)現(xiàn),遷移學(xué)習(xí)的確對蒙漢神經(jīng)翻譯譯文質(zhì)量有一定的提高。
表2 機(jī)器翻譯譯文示例對比
續(xù)表2
從翻譯示例對比表中可以看到蒙漢神經(jīng)翻譯譯文存在過度翻譯(部分短語被多次翻譯)的現(xiàn)象[22]以及對原文部分詞翻譯不準(zhǔn)確等缺點(diǎn)。但是,從整體上看BPE與遷移學(xué)習(xí)翻譯結(jié)果較為流暢,對原文語義理解能力更強(qiáng),譯文質(zhì)量整體上優(yōu)于普通神經(jīng)機(jī)器翻譯方法。
由于蒙古語語言本身的復(fù)雜性以及蒙古語語料相對匱乏,蒙古語相關(guān)機(jī)器翻譯發(fā)展始終沒有大的突破。為了緩解蒙漢機(jī)器翻譯過程中出現(xiàn)的嚴(yán)重的數(shù)據(jù)稀疏問題,提高蒙漢機(jī)器翻譯質(zhì)量,本文利用BPE技術(shù)對蒙漢平行語料進(jìn)行數(shù)據(jù)預(yù)處理操作,同時一定程度上增大了蒙漢雙語詞典規(guī)模。通過實(shí)驗(yàn)結(jié)果對比發(fā)現(xiàn)BPE技術(shù)對蒙漢機(jī)器翻譯過程中的數(shù)據(jù)稀疏問題有明顯緩解,有效減少了未登錄詞的發(fā)生。應(yīng)用遷移學(xué)習(xí)策略的蒙漢神經(jīng)機(jī)器翻譯系統(tǒng)BLEU值提升不是很明顯,分析其原因可能是遷移學(xué)習(xí)過程存在一定的語言相關(guān)性,本文的實(shí)驗(yàn)結(jié)果和文獻(xiàn)[11]中的實(shí)驗(yàn)結(jié)論也是相符合的。本文遷移學(xué)習(xí)的父模型(英漢機(jī)器翻譯模型子模型(蒙漢機(jī)器翻譯模型)中兩模型源語言,即英語與蒙古語語法上存在一定差異,理論上父模型中源語言端采用與蒙古語語法相近的日語等可能會實(shí)現(xiàn)更好的翻譯效果,但是目前大規(guī)模的日漢平行語料不易獲得。同時,蒙漢平行語料較少成為阻礙蒙漢機(jī)器翻譯一大障礙,所以,接下來我們力求收集得到大規(guī)模、高質(zhì)量以及廣覆蓋率的蒙漢平行語料,同時將嘗試采用其他方法來提高蒙漢機(jī)器翻譯效果。