朱順樂
(浙江海洋大學(xué),浙江 舟山 316000)
隨著經(jīng)濟全球化的不斷深入,國家與國家之間、民族與民族之間交流時的語言障礙突顯,已成為經(jīng)濟發(fā)展、文化交流的不利因素。機器翻譯技術(shù)的發(fā)展為緩解這一障礙提供了契機。統(tǒng)計機器翻譯(statistical machine translation,SMT)是目前學(xué)術(shù)界研究的主流方法。它是非限定領(lǐng)域機器翻譯中性能較佳的一種方法。其基本思想,是通過對大量的平行語料進行統(tǒng)計分析,構(gòu)建翻譯模型(translation model,TM),對目標(biāo)語言單語語料進行統(tǒng)計建模,構(gòu)建語言模型(language model,LM),進而使用上述模型對輸入源語言句子進行翻譯。
統(tǒng)計機器翻譯模型又分為基于詞的翻譯模型、基于短語的翻譯模型以及基于句法的翻譯模型三類。其中,基于短語的翻譯模型既在翻譯過程中考慮到了局部上下文信息,又不需要句法標(biāo)注語料,并且能取得較好的翻譯效果,因而廣受學(xué)術(shù)界與工業(yè)界的青睞。
(1)
漢維翻譯模型訓(xùn)練架構(gòu)如圖1所示。
圖1 漢維翻譯模型訓(xùn)練架構(gòu)
作為基于短語機器翻譯模型框架的核心部分,翻譯模型提供短語表、調(diào)序規(guī)則表等重要知識。短語表中包含雙語短語的互譯信息,其質(zhì)量直接影響機器翻譯模型的性能。然而,以下兩個因素會對短語表的質(zhì)量以及后期解碼效率產(chǎn)生影響。(1)短語表抽取位于統(tǒng)計機器翻譯框架的中間環(huán)節(jié),前期的詞對齊階段產(chǎn)生的錯誤會延續(xù)到短語表生成階段;(2)統(tǒng)計機器翻譯模型性能很大程度上依賴于雙語句子平行語料。目前,日益豐富的網(wǎng)絡(luò)資源使得大規(guī)模語言資源的獲取成為可能,然而大規(guī)模語料使得雙語短語表規(guī)模呈指數(shù)級增長,從而減緩了解碼速度。因此,對短語表中的噪音短語進行過濾,增大了解碼階段解碼器檢索到更為準確的翻譯片段的概率;非法短語對的過濾可以減小短語表的規(guī)模,一定程度上提升了解碼效率。
針對短語表過濾這一任務(wù),國內(nèi)外學(xué)者進行了一些研究。Nishino等提出一種基于子模函數(shù)最大化的短語表過濾方法,采用貪心的啟發(fā)式算法策略實現(xiàn)[1];Wang等提出一種面向短語表過濾的相對熵模型,并用其衡量用小概率的翻譯事件推導(dǎo)出短語對表示翻譯事件的概率[2];Azadi等使用主題模型進行短語表的剪枝[3];Zens等首先比較了多種短語表過濾方法,并提出了基于語音理論的短語表過濾框架[4];Torr提出了一種基于句法的短語表過濾模型,該模型依賴于句法分析的結(jié)果[5]。
針對漢維機器翻譯的相關(guān)研究開展較晚,前期的研究主要集中在語言的分析[6-8]、語料庫建設(shè)[9]、命名實體識別[10-12]以及翻譯系統(tǒng)構(gòu)建[13-16]等方面。對于短語表的過濾及其相關(guān)工作的研究較少。
前期的研究工作并沒有考慮短語的上下文信息以及雙語的語義關(guān)系,即使有基于句法的模型,也要依賴于大規(guī)模的句法標(biāo)注語料。文中提出一種新穎的漢維短語表過濾方法,將短語表的過濾看作分類問題:基于樸素貝葉斯(Na?ve Bayes,NB)模型,融合了短語對循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)特征、上下文特征等深度學(xué)習(xí)特征,以及平均詞共現(xiàn)特征等淺層特征,獲得漢維短語對是否保留的概率值,并通過實驗對其進行驗證。
基于短語翻譯模型中的短語表依賴于詞對齊階段產(chǎn)生的對齊文件以及漢維平行語料構(gòu)建。因此短語表的創(chuàng)建可分為兩個階段:詞對齊矩陣生成和短語表抽取。
統(tǒng)計機器翻譯中的詞對齊,是基于統(tǒng)計學(xué)習(xí)的相關(guān)算法,從大規(guī)模的雙語句子平行語料中自動獲取詞語共現(xiàn)等信息的過程。使用較多的詞對齊算法包括IBM Model 1-5[16-17]以及基于(hidden Markov model,HMM)的詞對齊模型[18]。Och基于上述模型,設(shè)計開發(fā)了廣泛使用的詞對齊開源工具GIZA++[19]。詞對齊矩陣[20-21]即是根據(jù)詞對齊結(jié)果生成的,見圖2。
圖2 漢維機器翻譯詞對齊矩陣
漢維短語抽取是短語表創(chuàng)建的基礎(chǔ)?;谠~對齊矩陣獲取漢維雙語短語對的方法如下:若與矩形所在行范圍內(nèi)的漢語詞對齊的維吾爾語詞也在當(dāng)前子矩形內(nèi),提取對齊矩陣中所有以對齊點為頂點矩形區(qū)域所表示的漢維短語對。其核心思想,即是首先窮舉漢語句子中所有可能的短語,根據(jù)詞對齊矩陣,檢索對應(yīng)維吾爾語句子中的短語。抽取的部分漢維短語表如圖3所示。
上述過程抽取到的只是候選短語。在添加至短語表之前,還應(yīng)對其進行校驗。校驗遵循的原則有兩個:
圖3 漢維短語表(局部)
(1)候選漢語端的單詞在漢語句子中的位置必須連續(xù);
統(tǒng)計詞對齊模型基于大規(guī)模的平行語料。然而,由于平行語料規(guī)模的局限性以及漢語、維吾爾語的差異性,漢維詞對齊過程中會出現(xiàn)數(shù)據(jù)稀疏問題,影響了詞對齊的準確性,進而導(dǎo)致漢維短語抽取過程中出現(xiàn)偏差,影響后續(xù)的翻譯模型訓(xùn)練以及機器翻譯系統(tǒng)的解碼效率。
為了對漢維短語表進行過濾,從雙語短語對循環(huán)神經(jīng)網(wǎng)絡(luò)特征(RNN)、上下文特征(BIT)以及短語對中平均詞共現(xiàn)次數(shù)(ACC)等特征出發(fā),分別構(gòu)建相應(yīng)的特征函數(shù)。
為了最大限度獲取漢維短語表中候選雙語短語的對應(yīng)關(guān)系,以便更好地對短語表進行過濾,基于RNN[21-22]獲取維吾爾語和漢語短語之間的互譯概率。RNN的主要優(yōu)勢在于處理序列數(shù)據(jù)。與以往的模型不同,基于RNN處理序列預(yù)測問題時,該序列當(dāng)前的輸出與之前的輸出也有關(guān)系,即網(wǎng)絡(luò)會對前面的信息進行記憶并應(yīng)用于當(dāng)前序列輸出的計算中;RNN網(wǎng)絡(luò)中,隱藏層之間的節(jié)點是有連接的,當(dāng)前隱藏層的輸入不僅包括輸入層的內(nèi)容,還包括上一時刻隱藏層的輸出。
根據(jù)短語表過濾這一應(yīng)用,文中使用RNN的編碼器-解碼器架構(gòu)。基于該網(wǎng)絡(luò)結(jié)構(gòu)可以同步獲得短語表中漢維短語對的對齊及翻譯概率值,將其作為該短語是否保留的重要特征之一。
將雙語短語之間的對應(yīng)概率進行轉(zhuǎn)換,用以預(yù)測漢維短語詞之間的對應(yīng)關(guān)系。使用RNN方法預(yù)測i時刻的詞對應(yīng)概率可形式化地表示如下:
(2)
其中,si表示RNN模型時刻t的隱藏狀態(tài);上下文向量ci依賴于輸入短語映射的標(biāo)記序列,ci可被定義為對標(biāo)記hi的加權(quán)求和,標(biāo)記的權(quán)值計算如下:
(3)
統(tǒng)計機器翻譯模型訓(xùn)練過程中存在較為嚴重的數(shù)據(jù)稀疏問題。造成數(shù)據(jù)稀疏的原因是復(fù)雜的,即使使用超大規(guī)模的語料庫也不能獲取每個詞組成的所有字符串。訓(xùn)練過程中的數(shù)據(jù)稀疏問題也會對短語表的過濾產(chǎn)生影響。針對該問題,提出一種緩解數(shù)據(jù)稀疏的策略,即基于Skip-gram[23-24]獲取雙語短語中的上下文特征,計算相應(yīng)的概率值,并將其作為短語表過濾模型的特征之一。
Skip-gram是n-gram的泛化。與n-gram類似,也是使用n-gram的方式對語言建模,但允許n-gram語法中跳過若干詞。Skip-gram可定義如下:
文中的當(dāng)前詞設(shè)定為詞對齊階段準確率較高的詞,根據(jù)該漢維詞對,預(yù)測其上下文信息,進而獲得雙語上下文信息中存在的有對齊關(guān)系詞對的對齊概率。將此概率作為最終的雙語短語上下文特征。
(4)
其中,C和E是根據(jù)Skip-gram算法得到的對應(yīng)位置元素有語義關(guān)系的子短語集合;c'*e'表明兩個單詞的對齊概率大于某個閾值t(經(jīng)驗值)。
漢維雙語平行語料包含大量的詞對應(yīng)信息。文中提出的短語表過濾模型中第三個重要的特征即是充分利用漢維平行語料中的詞共現(xiàn)信息,提取漢維短語之間的對應(yīng)關(guān)系。具體做法如下:根據(jù)詞對齊階段統(tǒng)計的漢維詞共現(xiàn)信息,計算得到當(dāng)前漢語短語對中有互譯關(guān)系詞在短語對中所占比例。
(5)
其中,CoNUM(ci,ej)表示根據(jù)漢維詞共現(xiàn)信息,短語對中的漢語詞c和維吾爾語詞ej之間存在對應(yīng)關(guān)系;Lens表示漢語短語長度;Lent表示維吾爾語短語長度。
根據(jù)上述短語對循環(huán)神經(jīng)網(wǎng)絡(luò)特征、漢維雙語短語上下文特征以及漢維短語對平均詞共現(xiàn)特征以及樸素貝葉斯分類模型,構(gòu)建面向漢維機器翻譯的短語表過濾模型。
樸素貝葉斯分類模型[25]是一種基于特征獨立假設(shè)貝葉斯定律的簡單概率分類器。該分類器可以更加精確地描述特征之間潛在的概率關(guān)系。樸素貝葉斯模型基于概率推理過程,即各個條件均存在一定概率的不確定性,在僅僅知道其出現(xiàn)概率的情況下,如何完成分類過程。樸素貝葉斯分類模型基于獨立假設(shè),即分類假設(shè)樣本特征之間是相互獨立的。
樸素貝葉斯模型依賴精確的概率推理,因此,與其他分類算法相比,其在有監(jiān)督學(xué)習(xí)的樣例集合上能獲得較好的分類效果,廣泛應(yīng)用于文本分類、數(shù)據(jù)挖掘等領(lǐng)域。
通過對漢維短語表中抽取出的三個特征進行分析,發(fā)現(xiàn)三個特征之間不存在直接的相關(guān)性,短語對循環(huán)神經(jīng)網(wǎng)絡(luò)特征依賴于當(dāng)前短語所在句子的全局信息;短語上下文特征考慮當(dāng)前短語對中詞在大規(guī)模單語語料中的語義關(guān)系;平均詞共現(xiàn)特征僅僅考慮當(dāng)前短語對中詞之間的對齊信息。因此,文中選擇樸素貝葉斯模型作為短語對過濾模型的基線算法。
文中提出的漢維短語表過濾模型主要由以下三部分組成:原始漢維短語表獲??;漢維短語對特征抽??;漢維短語對平均詞共現(xiàn)特征。
漢維短語表過濾模型的輸入為特征向量f,輸出為類標(biāo)記c。其中,特征向量包括三類特征:漢維短語對循環(huán)神經(jīng)網(wǎng)絡(luò)特征、漢維短語對上下文特征以及漢維短語對平均詞共現(xiàn)特征。文中提出的短語表過濾模型構(gòu)成的特征向量可以形式化地表示為:T={(f1,c1),(f2,c2),…,(fn,cn)},其中的特征由三元組組成:
5.1.1 實驗數(shù)據(jù)
為了驗證提出的短語表過濾模型的有效性,實驗使用了三類語料:漢維雙語句子平行語料(訓(xùn)練集:300 000,開發(fā)集:700,測試集:1 500)、漢維詞典(24萬詞)以及人工篩選的漢維短語對正反例(正例1 000短語對,反例1 000短語對)。其中雙語句子平行語料主要用于統(tǒng)計機器翻譯模型訓(xùn)練及其雙語特征抽取;漢維詞典用于雙語短語特征獲取;漢維短語對正反例用于訓(xùn)練短語對過濾模型。
5.1.2 實驗裝置
漢維機器翻譯實驗使用開源的機器翻譯工具集Moses,分別在基于短語模型以及基于層次短語模型上進行實驗。語言模型選用SRLM,使用五元語言模型。參數(shù)調(diào)整使用MERT算法[26]。機器翻譯性能打分使用BLEU[27]。漢語端分詞工具使用NLPIR。漢維短語對循環(huán)神經(jīng)網(wǎng)絡(luò)特征抽取基于開源的工具集DeepLearning4j實現(xiàn)。短語對上下文特征抽取,使用word2vec工具實現(xiàn)。漢維短語表過濾模型采用自主實現(xiàn)的naivebayes4j訓(xùn)練。
首先,對漢語和維吾爾語語料進行全半角轉(zhuǎn)換、分詞、Tokenization操作;其次,采用雙語語料獲取原始短語表;再次,抽取漢維正反例語料中的漢維短語對循環(huán)神經(jīng)網(wǎng)絡(luò)特征、漢維短語對上下文特征以及漢維雙語短語平均詞共現(xiàn)特征,將其作為輸入進行短語表過濾模型訓(xùn)練;最后,采用訓(xùn)練得到的模型在不同短語長度限制下進行短語表過濾實驗。
分別從對短語表規(guī)模、翻譯解碼效率以及翻譯性能的影響進行分析。
5.3.1 對漢維短語表的影響
根據(jù)提出的短語表過濾模型,基于短語漢維機器翻譯短語表的規(guī)模在最大短語長度分別取7,9,11時均有較大幅度減小(見表1)。為了驗證文中方法的泛化功能,也在漢維層次短語模型上進行了實驗,在最大規(guī)則長度分別取上述值時,規(guī)則表規(guī)模也有所減小。分析原因,提出的方法過濾了大量的不合理短語(規(guī)則)對。
表1 對漢維短語表(規(guī)則表)規(guī)模的影響
5.3.2 對機器翻譯效率的影響
從表1可以看出,由于大量不合理短語(規(guī)則)對被文中提出的模型過濾,短語(規(guī)則)表規(guī)模有了明顯減小。因此,解碼的效率也有所提高(見表2)。
表2 對漢維翻譯解碼效率的影響
s
5.3.3 對模型性能的影響
由于提出的短語表過濾模型一定程度上減少了不合理短語對的數(shù)量,過濾后的漢維機器翻譯質(zhì)量總體高于過濾前。對比短語模型和層次短語模型,在規(guī)則長度不少于9時,層次短語模型翻譯質(zhì)量高于短語翻譯模型。其中,最大規(guī)則長度為9時,基于層次短語的漢維機器翻譯模型在過濾后翻譯性能達到最優(yōu)(見表3)。分析原因,與基于短語的模型相比,層次短語模型中的非終結(jié)符有一定的泛化能力及局部調(diào)序能力。
表3 對漢維機器翻譯模型性能的影響
由于漢語和維吾爾語在構(gòu)詞及形態(tài)上存在較大差異性,模型訓(xùn)練過程中存在較嚴重的數(shù)據(jù)稀疏問題,致使?jié)h維詞對齊出現(xiàn)偏差;這一偏差又會傳遞至短語表生成階段,產(chǎn)生不合理的短語對,最終影響翻譯質(zhì)量機器解碼效率。綜合考慮漢、維吾爾語言特征及漢維短語表中存在的問題,提出了一種融合深度學(xué)習(xí)特征的漢維短語表過濾模型,該模型基于短語對循環(huán)神經(jīng)網(wǎng)絡(luò)特征、上下文特征以及平均詞共現(xiàn)特征,并將各個特征概率及訓(xùn)練實例輸入到基于樸素貝葉斯分類器的短語表過濾模型進行訓(xùn)練。該模型結(jié)合了漢維候選短語之間更為豐富的語義及上下文信息。實驗結(jié)果表明,該方法有效提升了漢維機器翻譯性能,解碼效率也有了顯著提高。
在下一步的工作中,將在該模型的基礎(chǔ)上融入更多的語言學(xué)信息,如詞性標(biāo)注、句法標(biāo)注等,以更大幅度地改善漢維機器翻譯質(zhì)量及其翻譯效率。