席紅旗,蔣亞平
(1.河南財(cái)政金融學(xué)院 計(jì)算機(jī)與信息技術(shù)學(xué)院,河南 鄭州 450000;2.鄭州輕工業(yè)大學(xué) 計(jì)算機(jī)與通信工程學(xué)院,河南 鄭州 450000)
隨著機(jī)器學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)的不斷發(fā)展,神經(jīng)機(jī)器翻譯(neural machine translation,NMT)由于其較強(qiáng)的翻譯能力得到了廣泛的應(yīng)用[1,2]。NMT最廣泛采用的框架是編碼器-解碼器模型,該模型首先將源語(yǔ)句映射到分布式表示中,然后通過(guò)利用軟注意機(jī)制循環(huán)生成目標(biāo)詞[3]。先前研究中的大多數(shù)編碼器都使用雙向遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNNs)來(lái)編碼源端順序的上下文[4]。Sennrich等指出,這類(lèi)模型的不足之處是缺乏對(duì)語(yǔ)法信息的考慮,即沒(méi)有對(duì)長(zhǎng)距離單詞之間的依賴(lài)關(guān)系進(jìn)行完整的建模[5]。為解決該問(wèn)題,學(xué)者們提出了幾種語(yǔ)法感知的NMT模型[6-9]。從模型架構(gòu)的角度來(lái)看,可以將這些基于語(yǔ)法的NMT模型分為兩種方法:通過(guò)線(xiàn)性化結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò)或樹(shù)型結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò)對(duì)語(yǔ)法結(jié)構(gòu)進(jìn)行建模。
樹(shù)型結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò)根據(jù)句子的語(yǔ)法結(jié)構(gòu)對(duì)句子進(jìn)行編碼。在這種背景下,Socher等證明,在順序RNN層上按照語(yǔ)法結(jié)構(gòu)對(duì)源語(yǔ)句進(jìn)行進(jìn)一步編碼有益于捕獲更多源端語(yǔ)言信息。盡管基于樹(shù)形方法已在多個(gè)翻譯任務(wù)中獲得了較好效果,但該類(lèi)別下的方法仍面臨一些問(wèn)題:
①詞匯信息在構(gòu)成結(jié)構(gòu)的內(nèi)部節(jié)點(diǎn)的構(gòu)成中被過(guò)度使用。Yang等指出,使用短語(yǔ)結(jié)構(gòu)編碼器可能會(huì)導(dǎo)致過(guò)度翻譯問(wèn)題[10]。此外,隨著語(yǔ)法結(jié)構(gòu)的使用,模型參數(shù)數(shù)量會(huì)不斷增加,且其中的短語(yǔ)節(jié)點(diǎn)可能并不總是有益于神經(jīng)翻譯模型。②樹(shù)形RNN模型采用子和架構(gòu),該架構(gòu)依賴(lài)于預(yù)定義數(shù)量的子節(jié)點(diǎn)。因此,基于成分的模型通常用二叉樹(shù)進(jìn)行處理,在某種程度上,這限制了它在計(jì)算短語(yǔ)表示時(shí)考慮遠(yuǎn)程上下文之間的依賴(lài)關(guān)系,從而忽略了對(duì)于正確解釋源語(yǔ)句語(yǔ)義至關(guān)重要的單詞依存關(guān)系。③Socher等證明單一的權(quán)重參數(shù)集不足以完全捕獲解析和文本分類(lèi)任務(wù)中語(yǔ)言短語(yǔ)的語(yǔ)法和語(yǔ)義豐富性,因此NMT也無(wú)法適應(yīng)翻譯過(guò)程中存在的語(yǔ)法語(yǔ)義豐富性。
針對(duì)樹(shù)形神經(jīng)機(jī)器翻譯方法存在的局限性,提出了一種動(dòng)態(tài)詞匯化依賴(lài)編碼的樹(shù)形神經(jīng)機(jī)器翻譯方法。實(shí)例驗(yàn)證了所提出的模型在參數(shù)更少的情況下優(yōu)于兩個(gè)先前的模型,對(duì)于機(jī)器翻譯、領(lǐng)域知識(shí)庫(kù)自動(dòng)構(gòu)建等領(lǐng)域具有較大應(yīng)用價(jià)值。
樹(shù)形序列神經(jīng)機(jī)器翻譯系統(tǒng)的思想是建立一個(gè)考慮源語(yǔ)句的語(yǔ)法結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)。給定一個(gè)源語(yǔ)句X=(x1,…,xN) 及其語(yǔ)法樹(shù)T, 對(duì)模型進(jìn)行訓(xùn)練,從而在并行訓(xùn)練語(yǔ)料庫(kù)上實(shí)現(xiàn)目標(biāo)值Y=(y1,…,yM) 的條件翻譯概率p(Y|X,T) 最大化。
(1)
(2)
(3)
圖1 傳統(tǒng)的樹(shù)形編碼翻譯器
(4)
(5)
目標(biāo)句子由RNN順序預(yù)測(cè),使用非線(xiàn)性函數(shù)fsoftmax計(jì)算第j個(gè)目標(biāo)詞yj的條件概率
(6)
上下文向量dj是由注意力模型計(jì)算的,該注意力模型用于將每個(gè)解碼的隱藏狀態(tài)與源端表示形式進(jìn)行軟對(duì)齊
(7)
(8)
(9)
其中,Va、Ua、Wa和ba是模型參數(shù)。
如圖1所示,成分表示向量是從其子節(jié)點(diǎn)表示得到的,成分節(jié)點(diǎn)下面的葉節(jié)點(diǎn)處的詞匯信息會(huì)被重復(fù)使用,并傳播到根路徑上的所有內(nèi)部節(jié)點(diǎn)。這導(dǎo)致以下情況:無(wú)論成分節(jié)點(diǎn)是否參與解碼,在目標(biāo)詞的預(yù)測(cè)中始終考慮相同的詞法信息。Yang等和Chen等指出,對(duì)短語(yǔ)表示進(jìn)行條件限制時(shí),如果沒(méi)有適當(dāng)?shù)目刂?,可能?huì)導(dǎo)致翻譯過(guò)度的問(wèn)題,即部分源句被多次翻譯[12,13]。解決此問(wèn)題的另一種方法是要么將成分結(jié)構(gòu)的內(nèi)部節(jié)點(diǎn)詞匯化,要么使用依賴(lài)關(guān)系結(jié)構(gòu)對(duì)句子的語(yǔ)法建模,在這種依賴(lài)性結(jié)構(gòu)中,每個(gè)節(jié)點(diǎn)自然都被詞匯化。此外,對(duì)于正確地解釋源句子的語(yǔ)義至關(guān)重要的單詞之間的依賴(lài)關(guān)系可能無(wú)法直接體現(xiàn)在連續(xù)的短語(yǔ)結(jié)構(gòu)中。在一個(gè)句子中,頭詞和它的依存詞之間可能有很大的距離。圖2顯示了一個(gè)句子依賴(lài)結(jié)構(gòu)的示例,其中單詞對(duì)之間的頭部依賴(lài)關(guān)系被直接鏈接。與依賴(lài)關(guān)系圖相比,信息流更直接,同時(shí),它給出了更簡(jiǎn)單的網(wǎng)絡(luò)體系結(jié)構(gòu),與其中引入了附加節(jié)點(diǎn)來(lái)代表句子成分的成分結(jié)構(gòu)相反。使用依賴(lài)結(jié)構(gòu)對(duì)句子的語(yǔ)法進(jìn)行建模能夠緩解上述問(wèn)題。
圖2 單詞之間的頭部依賴(lài)關(guān)系在依賴(lài)關(guān)系樹(shù)中表示
研究表明,自上向下的編碼方法可以更好地傳播和捕獲全局語(yǔ)法和語(yǔ)義信息[14]。為了攜帶語(yǔ)法信息并減少相應(yīng)單詞之間的距離,提出從核心詞到其依存詞的對(duì)源句子進(jìn)行遞歸編碼。如圖3所示,其中灰線(xiàn)表示單詞嵌入的輸入,黑線(xiàn)表示頭部依賴(lài)關(guān)系,左和右直線(xiàn)表示從頭到右依存和從頭到左依存順序編碼的方向。以h0作為根節(jié)點(diǎn)的隱藏狀態(tài),首先將核心詞“l(fā)ive”編碼為h1, 然后再編碼其左、右依存詞“We”和“places”分別變成h2和h3。 帶箭頭的黑線(xiàn)表示依賴(lài)性。首先對(duì)核心詞(最重要的信息)和其依存詞(補(bǔ)充信息)建模。表1中說(shuō)明了編碼過(guò)程,“Current”,“Head”和“Sibling”表示當(dāng)前編碼的單詞、父單詞和兄弟單詞,其表示在每個(gè)時(shí)間步都輸入到變體GRU中?!癐NIT”表示初始隱藏狀態(tài)為的根節(jié)點(diǎn)。
圖3 詞匯化依賴(lài)編碼器
表1 每個(gè)時(shí)間步的編碼過(guò)程
在一個(gè)普通的基于樹(shù)形模型中,樹(shù)節(jié)點(diǎn)的表示是在二叉化的成分樹(shù)之后遞歸構(gòu)建的,這增加了結(jié)構(gòu)的深度,并沒(méi)有充分考慮順序上下文。依賴(lài)樹(shù)是一個(gè)有序圖,它包含頭部依賴(lài)關(guān)系以及依存詞到其頭部的相對(duì)位置。在所提出的方法中,為了對(duì)順序信息進(jìn)行建模,將共享相同頭部的依存詞在中心以圓形方式順序編碼,即從頭到左的依賴(lài)和從頭到右的依賴(lài)。以頭節(jié)點(diǎn)h3為例,h4和h5是左依存詞,而h6是右依存詞。箭頭指示遞歸計(jì)算依賴(lài)關(guān)系的方向,如圖3所示。
(10)
(11)
(12)
為了用全局信息豐富源表示,僅將初始隱藏狀態(tài)h0視為根節(jié)點(diǎn)的表示,并通過(guò)提供其下層的平均值,即由雙向RNN生成的表示,對(duì)其進(jìn)行初始化,即
(13)
由于源側(cè)隱藏狀態(tài)是以詞匯化的方式計(jì)算的,因此很容易將提出的模型與標(biāo)準(zhǔn)的NMT解碼器組合在一起。根據(jù)文獻(xiàn)[15],將源端隱藏狀態(tài)的平均值定義為解碼器的初始隱藏狀態(tài)
(14)
然后,將源隱藏狀態(tài)傳遞給標(biāo)準(zhǔn)注意力模型以預(yù)測(cè)目標(biāo)詞的條件概率。
傳統(tǒng)方法的另一個(gè)缺點(diǎn)是它在整個(gè)合成過(guò)程中遞歸地使用相同的共享合成函數(shù),并且由于無(wú)法捕獲語(yǔ)言短語(yǔ)的語(yǔ)法和語(yǔ)義豐富性而缺乏表達(dá)能力。Liu等提到在所有語(yǔ)義組成規(guī)則之間共享的相同參數(shù)可能無(wú)法捕獲文本分類(lèi)和語(yǔ)義匹配任務(wù)上語(yǔ)義結(jié)構(gòu)的豐富性。為了處理由文獻(xiàn)[16]啟發(fā)的語(yǔ)義組合中的多樣性所引起的擬合不足問(wèn)題,進(jìn)一步采用了由元網(wǎng)絡(luò)生成的低維潛在向量z, 以動(dòng)態(tài)調(diào)節(jié)上下文特定的參數(shù)。
(15)
圖4 依賴(lài)模型框架
(16)
(17)
本文進(jìn)行了一組關(guān)于英漢翻譯任務(wù)的實(shí)驗(yàn)。使用LDC語(yǔ)料庫(kù)的并行數(shù)據(jù)訓(xùn)練模型,使用NIST 08數(shù)據(jù)集進(jìn)行開(kāi)發(fā),并在NIST 06測(cè)試集上進(jìn)行評(píng)估。使用NiuTrans的中文分詞工具包對(duì)中文句子進(jìn)行了分段。此外還在WMT14上針對(duì)英語(yǔ)-德語(yǔ)翻譯任務(wù)中更為突出的數(shù)據(jù)集上對(duì)提出的模型進(jìn)行了訓(xùn)練,其中使用newstest13數(shù)據(jù)集開(kāi)發(fā)模型并在newstest14數(shù)據(jù)集上進(jìn)行檢查。對(duì)于傳統(tǒng)的基于樹(shù)形模型和本文提出的模型,使用基于Shift-Reduce算法的Stanford Parser解析英語(yǔ)句子,并分別獲得二進(jìn)制成分樹(shù)和依賴(lài)樹(shù)。該解析器在各種解析任務(wù)上均取得了較好的效果,在English Penn Treebank(PTB)上的準(zhǔn)確度達(dá)到92.0%。出于計(jì)算效率的原因,超過(guò)50個(gè)單詞的句子被排除在訓(xùn)練集中。通過(guò)最常用的30K(英語(yǔ)-漢語(yǔ))和50K(英語(yǔ)-德語(yǔ))單詞作為源詞匯和目標(biāo)詞匯,在兩個(gè)平行語(yǔ)料庫(kù)的源端和目標(biāo)端分別覆蓋了約99.8%/97.9%和97.6%/94.5%。所有詞匯量以外的詞都映射到特殊標(biāo)記“UNK”。表2展示了過(guò)濾后的數(shù)據(jù)集的句子數(shù)。
表2 實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)
為了實(shí)現(xiàn)可比性,在本研究中,所有比較的NMT模型都是基于廣泛使用的NMT源代碼dl4mt實(shí)現(xiàn)的。NMT的參數(shù)設(shè)置如下:模型使用500維單詞嵌入和隱藏單元。為了進(jìn)行公平的比較,建立了一個(gè)額外的順序模型,該模型的維數(shù)為700,該模型需要有與提出的模型相當(dāng)數(shù)量的參數(shù)。為了防止過(guò)度擬合,在每個(gè)時(shí)期之后對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行混洗。最小批量大小設(shè)置為50個(gè)句子。在解碼過(guò)程中,采用波束搜索算法來(lái)預(yù)測(cè)每一步的輸出單詞,并且波束搜索的大小為5。盡早停止對(duì)每個(gè)模型的訓(xùn)練,以最大程度地減少開(kāi)發(fā)集上的疑慮。此外,使用Adadelta優(yōu)化模型參數(shù),其中學(xué)習(xí)率根據(jù)梯度的變化進(jìn)行調(diào)整。使用BLEU度量標(biāo)準(zhǔn)評(píng)估相對(duì)于參考文獻(xiàn)的翻譯準(zhǔn)確性,對(duì)比系統(tǒng)為:
(1)順序編碼器:一種廣泛使用的逐序列基線(xiàn),沒(méi)有對(duì)句子的語(yǔ)法結(jié)構(gòu)進(jìn)行任何顯式建模。
(2)成分編碼器:傳統(tǒng)的樹(shù)形序列基線(xiàn),它使用基于雙向樹(shù)形編碼器。
(3)順序依賴(lài)編碼器:具有源方依賴(lài)性信息的順序到順序框架的表示。該模型用兩個(gè)附加的RNNs擴(kuò)展了原始的順序編碼器,以對(duì)源依賴(lài)結(jié)構(gòu)派生的頭富集和子富集序列進(jìn)行建模。
(4)詞匯化的依賴(lài)編碼器:立即將源依賴(lài)結(jié)構(gòu)利用到編碼器中。
4.2.1 詞匯化依賴(lài)
實(shí)驗(yàn)結(jié)果總結(jié)見(jiàn)表3?!?00 d”和“700 d”表示順序編碼器的隱藏大小,分別設(shè)置為500和700。第三列表示每個(gè)編碼器的參數(shù)數(shù)量?!坝?xùn)練”和“解碼”表示在一個(gè)GeForce GTX 1080 GPU上檢查的訓(xùn)練和解碼速度。最后一欄是通過(guò)BLEU分?jǐn)?shù)評(píng)估的英漢測(cè)試集的翻譯準(zhǔn)確性。粗體表示動(dòng)態(tài)詞匯化依賴(lài)編碼器明顯優(yōu)于普通的基于成分的編碼器(模型#3)(p<0.01)?;谝蕾?lài)的編碼器(模型#6和#8)均優(yōu)于傳統(tǒng)的順序編碼器(模型#1和#2)和傳統(tǒng)的成分模型(模型#3)。這揭示了依賴(lài)方法在結(jié)構(gòu)上下文中對(duì)源端表示進(jìn)行建模的有效性。關(guān)于依賴(lài)模型對(duì)比,所提出的詞匯化依賴(lài)模型(模型#8)優(yōu)于其線(xiàn)性化依賴(lài)模型(模型#6)。分析可知提高的原因是:后者按順序構(gòu)建依賴(lài)關(guān)系,但仍然僅限于捕獲長(zhǎng)距離依賴(lài)關(guān)系,而所提出的模型能夠通過(guò)層次結(jié)構(gòu)直接對(duì)依賴(lài)關(guān)系進(jìn)行建模。
表3 英漢翻譯結(jié)果
進(jìn)一步評(píng)估了捕獲順序上下文信息能力的模型。如前文所述,通過(guò)刪除雙向順序編碼層,它對(duì)成分模型(模型#4)的翻譯質(zhì)量產(chǎn)生了巨大影響。英漢翻譯任務(wù)中的6.73 BLEU得分大幅下降,表明成分模型的成功取決于順序RNNs所學(xué)習(xí)的上下文。相反,在不使用顯式單詞序列的情況下,基于依賴(lài)關(guān)系的方法(模型#7和模型#10)的性能優(yōu)于常規(guī)樹(shù)方法(模型#4),產(chǎn)生的結(jié)果要高得多。這證實(shí)了提出的理論,即在某種程度上,所提出的依賴(lài)模型能夠通過(guò)對(duì)兄弟節(jié)點(diǎn)的相對(duì)位置進(jìn)行建模來(lái)捕獲順序上下文。
4.2.2 動(dòng)態(tài)參數(shù)
潛在向量z控制基本網(wǎng)絡(luò)的性能,其維數(shù)確定模型參數(shù)的數(shù)量。本文研究了25、50、75、100、150和200不同維度模型的動(dòng)態(tài)組成機(jī)制,而文獻(xiàn)[14]的工作只評(píng)估了25以下小維度的z。 圖5中的實(shí)驗(yàn)結(jié)果表明,即使向量z的大小減小到25,該模型仍然可以在編碼器中以少2倍的參數(shù)獲得可觀的性能。通過(guò)研究翻譯質(zhì)量和模型大小的組合,將z的維數(shù)設(shè)置為100。x軸表示的維數(shù)。圖5(a)的y軸報(bào)告編碼器所需的參數(shù)數(shù)量,圖5(b)的y軸顯示在英漢驗(yàn)證集上評(píng)估的BLEU得分。
圖5 實(shí)驗(yàn)結(jié)果
如圖5所示,通過(guò)利用動(dòng)態(tài)參數(shù),成分模型和提出的依賴(lài)模型(模型#5和模型#10)都可以用更少的參數(shù)實(shí)現(xiàn)漸進(jìn)式改進(jìn)。從結(jié)果可知,以潛在向量為組成函數(shù)的動(dòng)態(tài)參數(shù)有助于捕獲各種語(yǔ)法模式,因此可以更準(zhǔn)確地對(duì)源端信息進(jìn)行建模。另外,順序依賴(lài)性編碼器(模型#6)由于其元網(wǎng)絡(luò)體系結(jié)構(gòu)的不兼容性問(wèn)題而無(wú)法從元網(wǎng)絡(luò)帶來(lái)的優(yōu)勢(shì)中受益。此外,每個(gè)編碼器所需參數(shù)的統(tǒng)計(jì)數(shù)據(jù)表明,與傳統(tǒng)的基于樹(shù)形模型相比,提出的模型所需的模型參數(shù)更少,并且得到的處理速度更快。
順序編碼器(模型#1)和基于成分的編碼器(模型#3)在相同數(shù)據(jù)上均勝過(guò)報(bào)告的結(jié)果。通過(guò)將所有上述改進(jìn)集成到NMT系統(tǒng)中,提出的動(dòng)態(tài)詞匯化依賴(lài)編碼器(模型#10)在參數(shù)尺寸較小的情況下,明顯優(yōu)于基于成分的編碼器(模型#3)(+0.84 BLEU評(píng)分)。所提出的模型展示了從順序和結(jié)構(gòu)性上下文對(duì)源端表示進(jìn)行有效建模的能力。
在大型訓(xùn)練數(shù)據(jù)(4.5 M)上評(píng)估基于樹(shù)形NMT模型并進(jìn)行英語(yǔ)-德語(yǔ)翻譯。如表4所示,動(dòng)態(tài)詞匯化依賴(lài)編碼器明顯優(yōu)于成分編碼器(p<0.01),在英語(yǔ)-德語(yǔ)翻譯任務(wù)中,所提出的模型始終優(yōu)于成分編碼器和順序編碼器,顯示了提出方法的有效性和普遍性。但是,相對(duì)于順序模型,本文提出的方法在英語(yǔ)-德語(yǔ)翻譯任務(wù)中獲得了+0.52的BLEU分?jǐn)?shù),這與英語(yǔ)-漢語(yǔ)實(shí)驗(yàn)相比是微不足道的(+1.05 的BLEU分?jǐn)?shù)),原因一方面可能是德語(yǔ)屬于一種語(yǔ)義更為豐富的語(yǔ)言,其次在英語(yǔ)到德語(yǔ)的翻譯中,只使用了有限的詞匯,經(jīng)常使用50k個(gè)單詞,它僅覆蓋了德國(guó)訓(xùn)練數(shù)據(jù)上94.5%的詞匯量,因此存在模型訓(xùn)練期間引入詞匯不足的問(wèn)題。
表4 英語(yǔ)-德語(yǔ)翻譯任務(wù)的翻譯結(jié)果
根據(jù)等式(3),短語(yǔ)表示僅從其子節(jié)點(diǎn)的隱藏狀態(tài)中得出,并考慮了單詞的語(yǔ)法和語(yǔ)義關(guān)系。隨著子樹(shù)深度的增加,可以認(rèn)為上層短語(yǔ)表示的隱藏狀態(tài)很難較好地學(xué)習(xí)語(yǔ)法信息。為了深入評(píng)估各個(gè)級(jí)別的短語(yǔ)表示形式對(duì)翻譯質(zhì)量的影響,對(duì)英漢翻譯任務(wù)進(jìn)行了多次實(shí)驗(yàn)。模型允許在不同層次的組成樹(shù)上公開(kāi)參與限制短語(yǔ)表示。通過(guò)控制方程(7)的變量i來(lái)訓(xùn)練這些模型。
如表5所示的實(shí)驗(yàn)結(jié)果,考慮了組成樹(shù)中靠近根(上層)的節(jié)點(diǎn)表示的模型(模型#5、模型#6、模型#7),其翻譯質(zhì)量比那些上層短語(yǔ)向量的模型(模型#1、模型#2、模型#3、模型#4)要稍差一些。此外,忽略葉表示的模型(模型#8)可能會(huì)比其它同樣受葉節(jié)點(diǎn)約束的模型表現(xiàn)差。這表明在解碼過(guò)程中考慮源側(cè)高級(jí)短語(yǔ)表示會(huì)明顯損害翻譯質(zhì)量。
表5 驗(yàn)證集上的翻譯結(jié)果對(duì)比
關(guān)于較低節(jié)點(diǎn)例如葉節(jié)點(diǎn)及其直接父節(jié)點(diǎn)的表示,在提出的詞匯化模型與模型#1、模型#2之間僅存在少量改進(jìn)??梢詫⒖s小的差距歸因于以下事實(shí):用語(yǔ)法信息更新詞法表示時(shí),該信息從上層節(jié)點(diǎn)通過(guò)自上而下的編碼傳播。通過(guò)對(duì)組成樹(shù)進(jìn)行詞匯化,傳統(tǒng)的基于樹(shù)形模型能夠獲得與依賴(lài)編碼器可比的結(jié)果,從而驗(yàn)證了詞匯化形式在神經(jīng)機(jī)器翻譯上下文中的有效性。但是基于依賴(lài)的模型和基于成分的模型之間仍然存在差距,原因是前者直接捕獲單詞的長(zhǎng)距離依賴(lài),而后者則不能。
進(jìn)一步評(píng)估了所提出的依賴(lài)模型對(duì)長(zhǎng)句子的影響。如圖6所示,根據(jù)句子的長(zhǎng)度將句子分成10個(gè)不相交的組,并對(duì)其BLEU分?jǐn)?shù)進(jìn)行評(píng)估,Y軸表示提出的模型和成分編碼器之間的BLEU得分差距。所提出的方法在幾乎所有長(zhǎng)度段中都優(yōu)于成分模型。結(jié)果表明,所提出的依賴(lài)編碼器在對(duì)長(zhǎng)距離依賴(lài)進(jìn)行建模時(shí)表現(xiàn)更好,從而對(duì)長(zhǎng)句實(shí)現(xiàn)了更好的翻譯質(zhì)量。
圖6 輸入句子的長(zhǎng)度對(duì)翻譯性能的影響
在沒(méi)有適當(dāng)?shù)乜刂苼?lái)自結(jié)構(gòu)表示形式的信息流的比例的情況下,成分模型往往會(huì)過(guò)度翻譯句子,尤其是構(gòu)成要素的翻譯。從對(duì)翻譯結(jié)果的觀察進(jìn)一步驗(yàn)證了這一現(xiàn)象。選擇并檢查由兩個(gè)或多個(gè)連續(xù)的相同短語(yǔ)或片段組成的句子。如圖7所示,根據(jù)重復(fù)短語(yǔ)的長(zhǎng)度,將統(tǒng)計(jì)數(shù)據(jù)分為5個(gè)不相交的組。顯然,與連續(xù)模型相比,成分模型產(chǎn)生較多的過(guò)度翻譯,尤其是在較短的短語(yǔ)上(N<4)。所提出的依賴(lài)模型能夠減輕這個(gè)問(wèn)題,并且比其順序?qū)?yīng)模型產(chǎn)生更少的過(guò)度翻譯。
圖7 重復(fù)翻譯結(jié)果
5.5.1 歧義表現(xiàn)分析
在表6的第一個(gè)示例中,順序編碼模型錯(cuò)誤地將“signed up”轉(zhuǎn)換為“署名(signature)”,這在上下文中是不正確的,而兩個(gè)樹(shù)模型都給出了正確的翻譯“簽約(sign a contract)”。可以將其歸因于樹(shù)模型的能力,該樹(shù)模型在某種程度上能夠捕獲“sign”和“up”的關(guān)系并消除詞義的歧義,表明在NMT中對(duì)語(yǔ)法結(jié)構(gòu)進(jìn)行建模對(duì)翻譯是有效的。關(guān)于第二個(gè)翻譯錯(cuò)誤,順序編碼模型和成分編碼模型都不能很好地解釋“play”,“music”和“piano”之間的關(guān)系,從而導(dǎo)致錯(cuò)誤的翻譯“play...with a music player(播放)”,而不是“perform piano(演奏)”。但是,在依賴(lài)編碼模型中,這些詞的依賴(lài)關(guān)系以更直接的方式連接在一起,而不管它們?cè)诰渥又械奈恢萌绾?,從而產(chǎn)生了更加可靠的翻譯“演奏”。
5.5.2 過(guò)度翻譯問(wèn)題
如表6中的第二個(gè)示例所示。成分編碼模型將短語(yǔ)“the same aspiration working in the same industry”翻譯了兩次??梢酝茢鄦?wèn)題主要是由句子的遞歸結(jié)構(gòu)引起的。它允許注意力模型對(duì)不同層次的成分施加條件,這些成分可能攜帶共同的詞匯信息。在提出的依賴(lài)編碼模型中,遞歸結(jié)構(gòu)隱含在依賴(lài)結(jié)構(gòu)中,因此自然緩解了過(guò)度翻譯的問(wèn)題。
表6 不同模型生成的翻譯示例
本文針對(duì)樹(shù)形神經(jīng)機(jī)器翻譯方法存在的局限性,提出了一種動(dòng)態(tài)詞匯化依賴(lài)編碼的樹(shù)形神經(jīng)機(jī)器翻譯方法。通過(guò)實(shí)例數(shù)據(jù)分析可知:
(1)解碼過(guò)程中考慮源側(cè)高級(jí)短語(yǔ)表示會(huì)明顯損害翻譯質(zhì)量,動(dòng)態(tài)詞匯化編碼在神經(jīng)機(jī)器翻譯上下文中能夠兼顧順序模型與依賴(lài)模型的優(yōu)點(diǎn)。從而對(duì)長(zhǎng)句實(shí)現(xiàn)了更好的翻譯質(zhì)量。所提出的依賴(lài)模型能夠減輕這個(gè)問(wèn)題,并且比其順序?qū)?yīng)模型產(chǎn)生更少的過(guò)度翻譯。
(2)潛在向量動(dòng)態(tài)調(diào)節(jié)每個(gè)節(jié)點(diǎn)表示的組成參數(shù),能夠更加準(zhǔn)確地捕捉語(yǔ)言短語(yǔ)的語(yǔ)法和語(yǔ)義豐富性。
(3)提出的模型有效地提高了翻譯質(zhì)量與效率,對(duì)于多語(yǔ)義詞匯有較好的翻譯效果,并且有效地解決了基于樹(shù)形模型中的過(guò)度翻譯問(wèn)題。所提出的動(dòng)態(tài)詞匯化依賴(lài)關(guān)系模型在參數(shù)大小較小的情況下,顯著優(yōu)于英語(yǔ)-漢語(yǔ)和英語(yǔ)-德語(yǔ)翻譯任務(wù)中基于樹(shù)形傳統(tǒng)模型。