• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      單語數(shù)據(jù)訓(xùn)練在蒙漢神經(jīng)機(jī)器翻譯中的應(yīng)用

      2020-06-16 10:40:54牛向華蘇依拉趙亞平仁慶道爾吉
      關(guān)鍵詞:蒙漢編碼器語料庫

      牛向華 蘇依拉 高 芬 趙亞平 張 振 仁慶道爾吉

      (內(nèi)蒙古工業(yè)大學(xué)信息工程學(xué)院 內(nèi)蒙古 呼和浩特 010080)

      0 引 言

      隨著“一帶一路”經(jīng)濟(jì)帶的發(fā)展以及國家的大力支持,蒙漢機(jī)器翻譯的市場需求日趨增大。而神經(jīng)機(jī)器翻譯是一種需要數(shù)據(jù)驅(qū)動的方法,其性能很大程度上取決于平行語料庫的規(guī)模、質(zhì)量和領(lǐng)域覆蓋面。由于神經(jīng)網(wǎng)絡(luò)的參數(shù)數(shù)量巨大,只有當(dāng)訓(xùn)練數(shù)據(jù)滿足一定的條件時,神經(jīng)機(jī)器翻譯的性能才會顯著超過統(tǒng)計(jì)機(jī)器翻譯[1]。由于平行語料在質(zhì)量、數(shù)量和覆蓋面等方面非常有限,特別是對于像蒙古語這樣的低資源語言,因此利用大量單語數(shù)據(jù)來改善蒙漢神經(jīng)機(jī)器翻譯的性能是很有必要的。人類在進(jìn)行翻譯時,首先是理解一句話,然后在腦海里形成對這句話的語義表示,最后再把這個語義表示轉(zhuǎn)化到另一種語言。單語數(shù)據(jù)訓(xùn)練的思想正是考慮如何縮小人工智能翻譯系統(tǒng)和人類翻譯之間的鴻溝?;谏鲜霰尘?,本文提出將單語數(shù)據(jù)應(yīng)用到蒙漢機(jī)器翻譯中。

      一般而言,如果沒有雙語平行數(shù)據(jù),而又要實(shí)現(xiàn)機(jī)器翻譯,是非常困難的,主要難點(diǎn)在于如何將目標(biāo)語言和源語言關(guān)聯(lián)起來。為實(shí)現(xiàn)基于單語數(shù)據(jù)[2-8]訓(xùn)練的蒙漢機(jī)器翻譯,本文首先通過預(yù)訓(xùn)練生成跨語言詞嵌入[9];然后利用對抗學(xué)習(xí)算法[10]構(gòu)建蒙漢雙語字典;接著在訓(xùn)練過程中通過去噪自編碼器結(jié)合蒙漢單語語料庫訓(xùn)練語言模型,并將學(xué)習(xí)到的雙語字典和語言模型相結(jié)合初始化蒙漢翻譯系統(tǒng);最后使用回譯[11]的方法逐步迭代優(yōu)化初始翻譯系統(tǒng),使其性能逐漸增強(qiáng)。通過搭建基于單語數(shù)據(jù)的蒙漢機(jī)器翻譯系統(tǒng),并將其性能與基于LSTM[12]神經(jīng)網(wǎng)絡(luò)在平行語料庫上訓(xùn)練的蒙漢機(jī)器翻譯系統(tǒng)的性能進(jìn)行比較,使用BLEU[13]值作為評價指標(biāo),實(shí)驗(yàn)結(jié)果顯示,使用123萬句對單語數(shù)據(jù)訓(xùn)練20輪的蒙漢機(jī)器翻譯系統(tǒng)的性能和使用10萬句對蒙漢平行語料庫在開源系統(tǒng)OpenNMT上訓(xùn)練8輪的結(jié)果相當(dāng)。本文基于單語語料庫訓(xùn)練的蒙漢機(jī)器翻譯的總體技術(shù)路線圖如圖1所示。

      圖1 總體技術(shù)路線圖

      1 相關(guān)技術(shù)

      1.1 跨語言詞嵌入表示

      在端到端的神經(jīng)機(jī)器翻譯模型[14]中,如果存在大量的平行數(shù)據(jù),只要將數(shù)據(jù)輸入神經(jīng)網(wǎng)絡(luò)就能得到兩種語言之間的一種對應(yīng)關(guān)系,然而,只有單語數(shù)據(jù)的情況下,因兩種語言的語料之間是毫無關(guān)聯(lián)的,那么使它們產(chǎn)生聯(lián)系便是實(shí)現(xiàn)互譯的最重要的一步。本文通過跨語言詞嵌入模型將蒙漢兩種語言的詞向量映射至同一空間,利用對抗訓(xùn)練學(xué)習(xí)蒙漢兩種語言的詞向量空間的線性映射,使得蒙漢兩種語言的詞向量分布在同一空間中時很相似。據(jù)此可以假設(shè)目標(biāo)函數(shù)為:

      (1)

      式中:d表示詞向量的維度;Md(R)表示實(shí)數(shù)矩陣空間;M表示蒙古語詞向量空間;Z表示漢語詞向量空間。通過訓(xùn)練需要學(xué)習(xí)源語言M和目標(biāo)語言Z之間的映射關(guān)系W,使得兩種語言在同一向量空間的分布表示很接近。將任意一個蒙語詞S的翻譯定義為t=arg maxtcos(Wms,zt)。在實(shí)踐中,有其他研究者發(fā)現(xiàn)如果在W上強(qiáng)制執(zhí)行正交性約束能夠更好地學(xué)習(xí)到這種映射關(guān)系[15],因此式(1)就可以歸結(jié)為Procrustes問題,從而能夠?qū)ζ渥銎娈愔档姆纸猓郧竽芨唵蔚剡M(jìn)行求解。

      (2)

      式中:UVT=SVD(MZT)。

      在本文只擁有蒙漢單語語料的情況下,學(xué)習(xí)映射W過程為:首先通過對抗性訓(xùn)練來學(xué)習(xí)W的初始值;然后使用兩個語料中共享的一些單詞作為錨點(diǎn)來進(jìn)一步對齊向量空間,修正W的值;最后,通過改變向量空間的度量來提高錨點(diǎn)的數(shù)量,進(jìn)一步提高W的準(zhǔn)確性。學(xué)習(xí)映射W的過程如圖2所示。

      圖2 學(xué)習(xí)映射W的過程

      圖2(a)表示蒙漢兩個詞向量分布空間,M表示蒙古語詞向量空間,Z表示漢語詞向量空間,點(diǎn)代表每一個詞向量表示,點(diǎn)的大小表示詞在語料庫中出現(xiàn)的頻率,越大表示出現(xiàn)的次數(shù)越多。圖2(b)中表示使用對抗訓(xùn)練學(xué)習(xí)旋轉(zhuǎn)矩陣W,它使得兩個分布空間大致對齊,星點(diǎn)表示隨機(jī)選擇的單詞,用來被反饋至鑒別器來確定兩個詞嵌入是否來自同一個詞向量分布中。圖2(c)中映射W通過Procrustes算法最小化所選擇的標(biāo)點(diǎn)之間的度量系數(shù)來進(jìn)一步修正W,使得兩個詞向量空間進(jìn)一步對齊。圖2(d)中使用W和空間距離度量擴(kuò)展錨點(diǎn)數(shù)量,進(jìn)一步提高W的準(zhǔn)確性。

      1.2 構(gòu)造蒙漢雙語字典

      通過預(yù)訓(xùn)練跨語言詞嵌入模型,本文將蒙漢兩種語言映射到了同一詞向量分布空間,且學(xué)習(xí)得到了一個旋轉(zhuǎn)矩陣W。而學(xué)習(xí)旋轉(zhuǎn)矩陣對齊蒙漢詞向量空間的目的就是為了能得到一個蒙漢雙語字典,本節(jié)主要介紹構(gòu)造蒙漢雙語字典的方法。首先使用最近鄰搜索來為一個詞找到與之對應(yīng)的最近鄰詞,然后使用對抗訓(xùn)練來確保找到的這個對應(yīng)詞是和源詞來自不同的詞向量分布空間,而不是和它來自同一分布空間的近義詞。

      1.2.1最近鄰搜索

      最近鄰算法即K最近鄰(k-Nearest Neighbor,kNN)算法,是數(shù)據(jù)挖掘分類算法中最常用的算法之一[16]。本文為緩解在高維空間中尋找最近鄰時出現(xiàn)的hubness問題,使用跨域相似性局部縮放(cross-domain similarity local scaling,CSLS)的方法,以期提升互為最近鄰的雙語詞對。計(jì)算過程如下:

      首先,對于蒙漢任意語言中的任意一個詞,都可以在與之對應(yīng)的另外一個語言中通過余弦相似度和旋轉(zhuǎn)矩陣W知道K近鄰,假設(shè)其為NT(s)和NS(t),則對于蒙漢兩種語言可以定義距離rT和rS,計(jì)算公式如下:

      (3)

      rS的計(jì)算過程與rT類似,這個距離就是評估每個詞的hubness的標(biāo)準(zhǔn),r值越大表示一個詞和對應(yīng)語言中的很多詞都比較接近。

      然后可定義評價來自蒙漢兩種語言中兩個單詞的相似度的CSLS距離如下:

      CSLS(s,t)=2cos(Wms,zt)-rT(s)-rS(t)

      (4)

      從式(4)中可以看出,在計(jì)算出Wms和zt的距離之后還對其加入了s和t的hubness懲罰,這樣就能緩解某一個詞是其對應(yīng)語言的很多個詞的最近鄰。因?yàn)閗NN算法的結(jié)果很大程度上取決于K的選擇。本文將K設(shè)置為5,這樣就面臨同樣分類不精確的問題,所以為了構(gòu)造一個相對準(zhǔn)確的蒙漢雙語字典,還使用了對抗訓(xùn)練來區(qū)分一個詞來自哪一個向量分布空間。

      1.2.2生成式對抗網(wǎng)絡(luò)

      生成式對抗網(wǎng)絡(luò)(Generative Adversarial Networks,GANs)是Goodfellow等在2014年提出的一種無監(jiān)督學(xué)習(xí)的訓(xùn)練方法。GANs由生成器和判別器兩部分組成,兩者都在與對方的對抗中不斷提升。生成器和判別器均可以采用深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)。GANs的優(yōu)化過程是一個極小極大博弈問題,優(yōu)化目標(biāo)是達(dá)到納什均衡[17],使生成器估測到數(shù)據(jù)樣本的分布。在對抗網(wǎng)絡(luò)經(jīng)過對抗過程訓(xùn)練之后,生成網(wǎng)絡(luò)可以生成接近真實(shí)的數(shù)據(jù),即接近于訓(xùn)練數(shù)據(jù),但又不完全一樣。所以,生成網(wǎng)絡(luò)學(xué)習(xí)了訓(xùn)練數(shù)據(jù)的一個近似分布。對于判別網(wǎng)絡(luò),也能將其進(jìn)行訓(xùn)練以達(dá)到對數(shù)據(jù)較好區(qū)分的效果。圖3展示了對抗學(xué)習(xí)的過程。

      圖3 對抗學(xué)習(xí)過程

      設(shè)M={m1,m2,…,mn}和Z={z1,z2,…,zn}分別是蒙古語和漢語的詞嵌入表示,通過對抗學(xué)習(xí)來得到一個模型,用來區(qū)分隨機(jī)取出的詞是來自WM={Wm1,Wm2,…,Wmn}還是Z={z1,z2,…,zn},這個模型就被稱為判別器,而W的目的是使得WM和Z盡可能的相似,所以W就是生成器。因此可將判別器的損失函數(shù)和生成器的損失函數(shù)定義為:

      (5)

      (6)

      式中:θD為鑒別器參數(shù);W為旋轉(zhuǎn)矩陣;PθD(source=1|z)表示源語言詞嵌入和目標(biāo)語言詞嵌入是相互映射的概率。在實(shí)際訓(xùn)練中,本文使用隨機(jī)梯度下降法迭代訓(xùn)練判別器和映射矩陣W,使得目標(biāo)函數(shù)LD和LW分別最小化。

      2 蒙漢機(jī)器翻譯

      為了將單語數(shù)據(jù)應(yīng)用到蒙漢機(jī)器翻譯中,本文將給定單語語料,使用對抗學(xué)習(xí)的算法預(yù)訓(xùn)練跨語言詞嵌入來對齊蒙漢兩種語言的詞向量空間,引入去噪自編碼器結(jié)合多頭自注意力機(jī)制使用蒙漢單語和雙語語料庫預(yù)訓(xùn)練跨蒙漢語言模型。最后,將迭代回譯應(yīng)用于基于詞典逐字翻譯的初始化系統(tǒng),并結(jié)合已經(jīng)訓(xùn)練好的語言模型優(yōu)化蒙漢翻譯模型。

      2.1 訓(xùn)練蒙漢語言模型

      在無監(jiān)督機(jī)器學(xué)習(xí)[18-19]中,最常使用的一類神經(jīng)網(wǎng)絡(luò)就是自編碼器(Autoencoder),其作用就是通過訓(xùn)練輸入無標(biāo)簽的數(shù)據(jù)X=(x(1),x(2),…,x(n)),得到一個降維后的特征表達(dá)H=(h(1),h(2),…,h(n)),就像主成分分析一樣。簡而言之,自編碼器就是一種盡可能復(fù)現(xiàn)輸入信號的神經(jīng)網(wǎng)絡(luò),目的是通過這種復(fù)現(xiàn)過程來學(xué)習(xí)輸入數(shù)據(jù)的重要特征。自編碼器的實(shí)現(xiàn)過程如圖4所示。其中,將原數(shù)據(jù)輸入一個編碼器中,就會得到這個輸入的一個特征表示為了判斷這個特征表示的是否為輸入的數(shù)據(jù)。本文通過添加一個解碼器來實(shí)現(xiàn)解碼器輸出一個信息,如果輸出的這個信息和一開始的輸入信息是很像的,那么就證明這個特征表示是可用的。所以,通過調(diào)整編碼器和解碼器的參數(shù),使得重構(gòu)誤差最小,就能得到輸入信號的一個準(zhǔn)確的特征表示。因?yàn)槭菬o標(biāo)簽數(shù)據(jù),所以誤差的來源就是直接重構(gòu)后的數(shù)據(jù)與原輸入數(shù)據(jù)相比得到的。

      圖4 自編碼器實(shí)現(xiàn)過程

      而降噪自編碼器(Denoising AutoEncoders,DAE)是自編碼器的一個變體,它是在自編碼器的基礎(chǔ)上,給輸入的訓(xùn)練數(shù)據(jù)加入噪聲,此時自編碼器就會學(xué)習(xí)怎么去除噪聲而重構(gòu)出原來沒有噪聲的數(shù)據(jù),從而使得編碼器能學(xué)習(xí)到更加魯棒的表達(dá),同時也增加了泛化能力。降噪自編碼器的工作原理如圖5所示。

      圖5 降噪自編碼器工作原理

      本節(jié)使用DAE的工作原理來訓(xùn)練得到蒙漢語言模型。定義DAE的目標(biāo)函數(shù)為:

      (7)

      Llm=Ez~T[-logPt→t(z|C(z))]+

      Em~S[-logPs→s(m|C(m))]

      (8)

      綜上所述,使用降噪自編碼器可訓(xùn)練一個不錯的語言模型,本文首先輸入無噪聲的嵌入表示記錄位置信息,再添加噪聲通過DAE學(xué)習(xí)噪聲特征和有用信息特征,最后得到表達(dá)流暢的語言模型。以中文訓(xùn)練語言模型的過程為例,具體訓(xùn)練過程示例如圖6所示。

      圖6 降噪自編碼器訓(xùn)練過程示例

      2.2 初始化蒙漢機(jī)器翻譯模型

      實(shí)現(xiàn)兩種語言之間的互譯,最簡單的方法就是當(dāng)這兩種語言間存在一個字典時,對照字典,把每一個源語言的字翻譯出來,即使基于這種方法翻譯得到的結(jié)果會很差,但是至少保證了翻譯的實(shí)現(xiàn)。通過對抗網(wǎng)絡(luò)學(xué)習(xí)到一個蒙漢對照的字典,通過搭建一個端到端的神經(jīng)網(wǎng)絡(luò)模型,得到了一個最原始的蒙漢翻譯模型,但它翻譯出來的句子不是很流暢,因?yàn)橹皇菃卧~互譯的堆疊。本文通過DAE學(xué)習(xí)到了蒙漢語言模型,可以緩解翻譯出的句子不流暢的問題。所以將語言模型加入最初的蒙漢翻譯模型,完成了初始化蒙漢機(jī)器翻譯系統(tǒng)。

      2.3 迭代回譯

      回譯,也稱為反向翻譯,這是緩解平行數(shù)據(jù)缺乏的最有效的方法之一,其本質(zhì)上是為了構(gòu)造偽平行數(shù)據(jù),將無監(jiān)督學(xué)習(xí)的方法轉(zhuǎn)化為有監(jiān)督學(xué)習(xí)的方法。本文假設(shè)目標(biāo)語言句子z是目標(biāo)語言單語語料庫Z中的任意句子,即z∈Z,用u*(z)來表示從目標(biāo)語言中推斷出的源語言句子,則u*(z)=arg maxPt→s(u|z)。同樣,可以用v*(m)表示從m∈S中推斷出目標(biāo)語言句子,則v*(m)=arg maxPt→s(v|m)。如此一來,(u*(z),z)和(m,v*(m))就可以構(gòu)成偽平行句子,那么遵循反向翻譯原則,可定義回譯算法的損失函數(shù)為:

      Lback=Ez~T[-logPs→t(z|u*(z))]+

      Em~S[-logPt→s(m|v*(m))]

      (9)

      迭代的目標(biāo)是使得式(8)和式(9)之和最小。使用隨機(jī)梯度下降算法進(jìn)行多次迭代,以此來更新每個模型的參數(shù)使得初始化的翻譯模型的性能逐漸增強(qiáng)。

      3 實(shí) 驗(yàn)

      本文主要以“基于深度學(xué)習(xí)的蒙漢統(tǒng)計(jì)機(jī)器翻譯的研究與實(shí)現(xiàn)”中構(gòu)建的123萬句的蒙漢對齊語料庫中的蒙古語作為源語言端單語數(shù)據(jù),以全球AI挑戰(zhàn)賽(AI Changer)中給出的1 000萬句英漢對齊語料庫中的漢語作為目標(biāo)語言端單語數(shù)據(jù)為實(shí)驗(yàn)數(shù)據(jù),驗(yàn)證基于單語語料庫訓(xùn)練的蒙漢機(jī)器翻譯方法的可行性。訓(xùn)練集為123萬句對蒙漢單語數(shù)據(jù),驗(yàn)證集為3千句對,測試集為1千句對。

      首先融合不同粒度的方法對語料庫進(jìn)行預(yù)處理,使用詞級粒度的方法對中文語料進(jìn)行切分,再使用BPE[20]進(jìn)行子詞級切分,BPE操作數(shù)設(shè)為60 000,初始化共享查找表。模型使用基于LSTM和Transformer的基本架構(gòu),編碼器和解碼器都設(shè)置為4層,共享其中3層的參數(shù)。給語料添加噪聲時,隨機(jī)丟棄單詞的概率為2%,每6個詞之間調(diào)換順序,學(xué)習(xí)率設(shè)為0.000 1,epoch_size設(shè)置為500 000,batch_size設(shè)置為32,使用Adam優(yōu)化算法進(jìn)行優(yōu)化。

      3.1 實(shí)驗(yàn)結(jié)果

      實(shí)驗(yàn)經(jīng)過20個epoch實(shí)驗(yàn)自動停止,統(tǒng)計(jì)到翻譯模型在測試集上的BLEU值如表1所示,相應(yīng)的BLEU值的變化趨勢如圖7所示。

      表1 翻譯模型BLEU值

      圖7 BLEU值的變化趨勢3.2對比實(shí)驗(yàn)

      表1中:Mn-zh表示蒙漢翻譯模型的結(jié)果;Zh-mn表示漢蒙翻譯模型的結(jié)果;Test表示在測試集上的結(jié)果;Valid表示在驗(yàn)證集上的結(jié)果。

      從圖7可以看出,基于單語語料庫訓(xùn)練的蒙漢機(jī)器翻譯模型的BLEU值在20個epoch上呈現(xiàn)增長趨勢,在測試集上蒙漢翻譯性能在epoch17時表現(xiàn)最好,此時BLEU值為9.18,在驗(yàn)證集上蒙漢翻譯性能在epoch17時表現(xiàn)最好,此時BLEU值為14.28。

      3.2 對比實(shí)驗(yàn)

      對比實(shí)驗(yàn)直接使用了哈佛大學(xué)開源的神經(jīng)機(jī)器翻譯系統(tǒng)OpenNMT。這是一個使用平行語料庫在基于LSTM神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制上實(shí)現(xiàn)機(jī)器翻譯的系統(tǒng),主要包括四個步驟:語料預(yù)處理,翻譯模型訓(xùn)練,使用訓(xùn)練好的翻譯模型翻譯測試集以及對翻譯結(jié)果的BLEU值評測。

      對比實(shí)驗(yàn)同樣使用了10萬句對的蒙漢平行數(shù)據(jù)作為訓(xùn)練集,3千句對作為驗(yàn)證集,3千句對作為測試集。實(shí)驗(yàn)環(huán)境為Ubuntu16.04 Linux系統(tǒng),利用pytorch 0.4.3進(jìn)行神經(jīng)網(wǎng)絡(luò)的搭建,在OpenNMT中參數(shù)做如下設(shè)定:蒙古語詞典大小為50 002,漢語詞典大小為50 004。編碼器和解碼器中LSTM神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)設(shè)置為4層,詞向量維度設(shè)置為500,解碼器中全局注意力機(jī)制中輸入特征設(shè)置為500,輸出特征設(shè)置為500,歸一化函數(shù)選擇Tanh()。Dropout設(shè)置為0.3,迭代輪數(shù)epoch設(shè)置為20輪,學(xué)習(xí)率設(shè)置0.1,學(xué)習(xí)率衰減速率設(shè)置為1。

      為了和本文的主體實(shí)驗(yàn)做對比,統(tǒng)計(jì)出了基于LSTM神經(jīng)網(wǎng)絡(luò)的蒙漢機(jī)器翻譯模型的20個epoch上的BLEU值以及其變化趨勢,如表2和圖8所示。

      表2 基于LSTM神經(jīng)網(wǎng)絡(luò)的蒙漢機(jī)器翻譯模型的BLEU值

      圖8 LSTM機(jī)器翻譯模型BLEU值變化趨勢

      3.3 對比分析

      實(shí)驗(yàn)將基于單語語料庫訓(xùn)練的蒙漢機(jī)器翻譯模型和基于LSTM神經(jīng)網(wǎng)絡(luò)的蒙漢機(jī)器翻譯模型進(jìn)行了對比。采用BLEU值作為翻譯模型的評測指標(biāo),通過一輪輪迭代訓(xùn)練,模型學(xué)習(xí)到的參數(shù)越來越好,包含越來越豐富的語義信息,從而提高了翻譯模型的表達(dá)能力,最終導(dǎo)致測試集上譯文評測值的不斷提升。對比實(shí)驗(yàn)的結(jié)果如表3和圖9所示。

      表3 對比兩種蒙漢機(jī)器翻譯模型的BLEU值

      圖9 兩種翻譯模型在測試集上的BLEU值對比

      表3中,單語表示基于單語數(shù)據(jù)的蒙漢機(jī)器翻譯模型在測試集上的BLEU值;雙語表示使用平行數(shù)據(jù)基于LSTM神經(jīng)網(wǎng)絡(luò)的蒙漢機(jī)器翻譯模型在測試集上的BLEU值。

      實(shí)驗(yàn)表明,使用123萬句對單語數(shù)據(jù)訓(xùn)練20輪的蒙漢機(jī)器翻譯系統(tǒng)的性能和使用10萬句對蒙漢平行數(shù)據(jù)在開源系統(tǒng)OpenNMT上訓(xùn)練8輪的結(jié)果相當(dāng)。

      由于單語語料庫比雙語語料庫容易得到,所以基于單語語料庫訓(xùn)練的方法在提升蒙漢機(jī)器翻譯系統(tǒng)性能方面有一定的優(yōu)勢。但因?yàn)榛趩握Z數(shù)據(jù)訓(xùn)練的方法依賴于一個好的語言模型,所以應(yīng)用單語數(shù)據(jù)訓(xùn)練的方法不適用單語數(shù)據(jù)較少的情況,需要大量的單語數(shù)據(jù)才能保證語言模型性能良好。

      4 結(jié) 語

      本文對如何構(gòu)建基于單語語料庫訓(xùn)練的蒙漢機(jī)器翻譯系統(tǒng)做了介紹,提出基于單語語料庫訓(xùn)練實(shí)現(xiàn)蒙漢機(jī)器翻譯的三大步驟:語言模型,初始化翻譯系統(tǒng)和迭代回譯進(jìn)行優(yōu)化。對預(yù)訓(xùn)練跨語言詞嵌入表示的方法、使用去噪自編碼器訓(xùn)練語言模型以及回譯算法做了詳細(xì)的描述。最后,采用機(jī)器翻譯常用的評測標(biāo)準(zhǔn)BLEU值,對基于單語語料庫訓(xùn)練的蒙漢機(jī)器翻譯模型與基于平行語料庫在LSTM神經(jīng)網(wǎng)絡(luò)上訓(xùn)練的蒙漢機(jī)器翻譯模型進(jìn)行了對比實(shí)驗(yàn)。實(shí)驗(yàn)表明,基于單語語料庫訓(xùn)練的蒙漢機(jī)器翻譯模型的BLEU值增長緩慢,而使用平行語料庫基于LSTM神經(jīng)網(wǎng)絡(luò)的蒙漢機(jī)器翻譯模型的BLEU值增長較快。從模型的測試效果來看,兩種方法使用的語料數(shù)量相差10倍之多。前者的整體翻譯效果依賴于兩個方向上翻譯模型的性能和兩種語言的回譯能力,但是漢語的回譯效果和蒙古語的回譯效果相差較大,這應(yīng)該是蒙漢兩種語言之間差異較大而同一種語言模型訓(xùn)練方法不能完全匹配導(dǎo)致的。所以緩解此問題的方法之一就是預(yù)訓(xùn)練一個跨蒙漢的語言模型,使得一個語言模型可以匹配蒙漢兩種語言。下一步擬研究如何預(yù)訓(xùn)練一個跨蒙漢的語言模型。

      猜你喜歡
      蒙漢編碼器語料庫
      《語料庫翻譯文體學(xué)》評介
      《內(nèi)蒙古藝術(shù)》(蒙漢刊)首屆作者培訓(xùn)班掠影
      簡論蒙漢蛇文化比較研究
      基于FPGA的同步機(jī)軸角編碼器
      淺析關(guān)于蒙漢章回小說的結(jié)構(gòu)
      把課文的優(yōu)美表達(dá)存進(jìn)語料庫
      基于PRBS檢測的8B/IOB編碼器設(shè)計(jì)
      清代歸化城土默特地區(qū)的草廠糾紛與蒙漢關(guān)系
      JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
      電子器件(2015年5期)2015-12-29 08:42:24
      基于JAVAEE的維吾爾中介語語料庫開發(fā)與實(shí)現(xiàn)
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      潜江市| 武功县| 石景山区| 鄢陵县| 威远县| 嵩明县| 浑源县| 元氏县| 肃北| 湟中县| 苗栗市| 伊吾县| 沙湾县| 丹巴县| 连江县| 景洪市| 镇平县| 万年县| 哈密市| 贵定县| 利津县| 平安县| 紫阳县| 铜鼓县| 和平区| 雷波县| 揭阳市| 汝城县| 清流县| 满洲里市| 台北县| 肥乡县| 柳江县| 五大连池市| 会昌县| 辽阳县| 永宁县| 德安县| 佛坪县| 泽州县| 庆元县|