• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      用預(yù)定義雙語(yǔ)對(duì)增強(qiáng)神經(jīng)機(jī)器翻譯

      2022-08-02 05:15:32熊德意
      中文信息學(xué)報(bào) 2022年6期
      關(guān)鍵詞:源端語(yǔ)料雙語(yǔ)

      王 濤,熊德意

      (蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)

      0 引言

      隨著深度學(xué)習(xí)的發(fā)展,基于深度學(xué)習(xí)的神經(jīng)機(jī)器翻譯(NMT)成為機(jī)器翻譯的主流方法[1-3]。與傳統(tǒng)的基于統(tǒng)計(jì)的統(tǒng)計(jì)機(jī)器翻譯不同,神經(jīng)機(jī)器翻譯沒有特征工程、隱藏結(jié)構(gòu)設(shè)計(jì)等方面的困擾,而是簡(jiǎn)單地通過(guò)訓(xùn)練一個(gè)大型的神經(jīng)網(wǎng)絡(luò)對(duì)輸入的句子產(chǎn)生合適的翻譯。盡管神經(jīng)機(jī)器翻譯在翻譯質(zhì)量上有著當(dāng)前最好的結(jié)果,但其端到端的特性使得想要在翻譯的過(guò)程中進(jìn)行顯式的干預(yù)是一件很困難的事情。

      在許多使用場(chǎng)景中,我們需要神經(jīng)機(jī)器翻譯系統(tǒng)使用來(lái)自外部數(shù)據(jù)庫(kù)的預(yù)先定義的翻譯。例如,在跨語(yǔ)言電子商務(wù)場(chǎng)景中,許多產(chǎn)品的品牌名稱是明確的,并且可以直接翻譯成目標(biāo)語(yǔ)言。這些品牌名稱的錯(cuò)誤翻譯將導(dǎo)致糾紛。如表1所示,“舒膚佳”在第一句中被直接音譯為“Shufujia”,而在第二個(gè)例子中被意譯為“good for skin”,而正確的品牌名稱翻譯應(yīng)該是“Safeguard”。這個(gè)例子說(shuō)明面對(duì)這種情況,當(dāng)前的神經(jīng)機(jī)器翻譯不僅無(wú)法保證結(jié)果的準(zhǔn)確性,而且缺乏一致性。

      表1 品牌名稱錯(cuò)誤翻譯樣例

      通常,給定源句中一句話s=w1,w2,…,wn,其中出現(xiàn)了存儲(chǔ)在雙語(yǔ)詞典中的雙語(yǔ)對(duì)(p,q)中的源端p,其中p=wk,…,wl,p應(yīng)該被翻譯系統(tǒng)直接翻譯為q。 這對(duì)當(dāng)前的神經(jīng)機(jī)器翻譯系統(tǒng)是一個(gè)不小的挑戰(zhàn)。一方面,神經(jīng)機(jī)器翻譯是在連續(xù)空間向量,而非離散空間中運(yùn)行;另一方面,神經(jīng)機(jī)器翻譯以逐詞生成的方式生成目標(biāo)翻譯,而雙語(yǔ)詞典中指定的翻譯通常包含多個(gè)詞。

      為了解決上述問(wèn)題,我們分別從數(shù)據(jù)和模型角度提出了幾種方法,其中模型上的方法是為了配合數(shù)據(jù)方法的使用。數(shù)據(jù)上的方法包括標(biāo)簽標(biāo)注、混合短語(yǔ)替換;模型上的方法包括部分詞向量共享和額外向量增強(qiáng)。具體來(lái)說(shuō),在數(shù)據(jù)處理階段,我們用特殊標(biāo)簽將訓(xùn)練數(shù)據(jù)中對(duì)來(lái)自外部詞典的文本段的開始和結(jié)束的位置打上標(biāo)記,讓模型學(xué)習(xí)到關(guān)于特殊標(biāo)簽的翻譯模式。同時(shí),我們將和源端p等價(jià)的q添加到源端,讓模型可以同時(shí)看到兩種語(yǔ)言的信息。因?yàn)榇藭r(shí)源端和目標(biāo)端同時(shí)包含了q,模型可以同時(shí)學(xué)習(xí)q到q的拷貝,以及p到q翻譯,并且學(xué)習(xí)了跨語(yǔ)言的信息。為了增強(qiáng)標(biāo)簽以及混合短語(yǔ)替換的作用,我們共享了編碼器和解碼器詞向量的標(biāo)簽和目標(biāo)端部分。此外,我們使用了額外的向量來(lái)進(jìn)一步區(qū)分預(yù)先定義的詞和其他正常需要翻譯的詞,將在第2節(jié)中詳細(xì)介紹。

      我們?cè)?個(gè)語(yǔ)言對(duì)上進(jìn)行了實(shí)驗(yàn),包括中文到英語(yǔ)、英語(yǔ)到德語(yǔ),以及阿拉伯語(yǔ)到中文。實(shí)驗(yàn)結(jié)果表明,本文方法在外部詞典翻譯的準(zhǔn)確率上獲得了極大的提高。其中,我們?cè)谥杏⒄Z(yǔ)言對(duì)上進(jìn)行了細(xì)致的分析實(shí)驗(yàn),成功翻譯詞典中預(yù)定義短語(yǔ)的概率從基準(zhǔn)模型的73.8%增加到98.4%。此方法還在45.70的基準(zhǔn)之上實(shí)現(xiàn)了1.58個(gè) BLEU的改進(jìn)。在英語(yǔ)到德語(yǔ)以及阿拉伯語(yǔ)到中文的翻譯中,使用本文方法,翻譯的成功率也分別從91.2%、95.0%(基準(zhǔn))提高到99.3%、99.5%。進(jìn)一步的實(shí)驗(yàn)分析說(shuō)明了本文方法的泛化性和魯棒性。

      1 相關(guān)工作

      旨在將外部定義的翻譯融入神經(jīng)機(jī)器翻譯的方法一般通過(guò)修改模型或解碼算法來(lái)實(shí)現(xiàn)。此外,也有一些通過(guò)數(shù)據(jù)進(jìn)行學(xué)習(xí)的方法。

      Stahlberg等人[4]使用基于層次化統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)產(chǎn)生的短語(yǔ)作為解碼器的硬解碼約束,從而使神經(jīng)機(jī)器翻譯能夠生成更多的符合語(yǔ)法的短語(yǔ)。Tang等人[5]提出了短語(yǔ)網(wǎng)絡(luò),使得解碼器可以根據(jù)外部短語(yǔ)表生成翻譯。 Wang等人[6]嘗試將存儲(chǔ)目標(biāo)短語(yǔ)的短語(yǔ)存儲(chǔ)記憶集成到編碼器-解碼器框架中。Zhang等人[7]嘗試將先驗(yàn)知識(shí)表示為對(duì)數(shù)線性模型中的特征,并集成到神經(jīng)機(jī)器翻譯之中。這些工作側(cè)重于修改神經(jīng)機(jī)器翻譯模型,從而支持翻譯外部指定的短語(yǔ)。

      將預(yù)定義雙語(yǔ)詞典融入神經(jīng)機(jī)器翻譯的另一種方法是修改解碼時(shí)的集束搜索算法。Hokamp等人[8]提出了一種基于網(wǎng)格的集束搜索算法,該算法允許在模型的輸出中出現(xiàn)特定的子序列,其中子序列可以是單字或多字。Chatterjee等人[9]進(jìn)一步提出了一種“引導(dǎo)”機(jī)制,用于增強(qiáng)解碼器處理帶有推薦翻譯文本(以XML注釋形式存在)的能力。上面剛剛提到的幾種方法,盡管它們不會(huì)改變神經(jīng)機(jī)器翻譯模型的結(jié)構(gòu),但必須在正常解碼以及使用外部翻譯中進(jìn)行決策和切換,從而嚴(yán)重降低了解碼速度。

      還有幾種從數(shù)據(jù)上進(jìn)行增強(qiáng)的方法。Crego等人[10]提出用置位符替換雙語(yǔ)詞典中定義好的詞對(duì),從而讓模型學(xué)習(xí)對(duì)置位符的翻譯,這樣模型在進(jìn)行翻譯時(shí)就可以通過(guò)將源端匹配到的詞組替換為置位符,翻譯完成后再替換回去。使用置換符的方式簡(jiǎn)單有效,但是由于將詞語(yǔ)替換成了無(wú)意義的置位符,源端句子丟失了一定語(yǔ)義,往往會(huì)造成BLEU下降。Song等人[11]通過(guò)將源短語(yǔ)替換為目標(biāo)翻譯,并使用指針網(wǎng)絡(luò)來(lái)增強(qiáng)對(duì)替換短語(yǔ)的拷貝。此方法類似于我們的混合短語(yǔ)替換方法,但是由于指針網(wǎng)絡(luò)方法較為間接,短語(yǔ)被正確翻譯的正確率相對(duì)較低。

      與以前的工作相比,本文方法成功率高,且不需要引入復(fù)雜的解碼算法,很容易復(fù)現(xiàn)。

      2 用預(yù)定義雙語(yǔ)對(duì)增強(qiáng)神經(jīng)機(jī)器翻譯

      為了用外部詞典中預(yù)定義的雙語(yǔ)對(duì)(p,q)增強(qiáng)神經(jīng)機(jī)器翻譯,我們嘗試通過(guò)標(biāo)簽標(biāo)注以及混合短語(yǔ)替換來(lái)實(shí)現(xiàn)目標(biāo)。為了進(jìn)一步增強(qiáng)數(shù)據(jù)上的方法,我們使用了額外向量并且共享了部分詞向量。幾種不同的數(shù)據(jù)處理方法如表2所示,對(duì)模型的修改如圖1所示。下面將詳細(xì)介紹這幾種方法。

      表2 幾種不同的數(shù)據(jù)處理方法

      2.1 方法

      2.1.1 標(biāo)簽標(biāo)注

      標(biāo)簽標(biāo)注方法(縮寫為“T”)十分直接。在訓(xùn)練數(shù)據(jù)集中,源端短語(yǔ)p及其對(duì)應(yīng)的目標(biāo)端短語(yǔ)q均被兩個(gè)標(biāo)簽包圍,即。 一個(gè)具體的例子可見表2中的第2行。隨著神經(jīng)機(jī)器翻譯模型的訓(xùn)練,這兩個(gè)標(biāo)簽將自動(dòng)學(xué)習(xí)到自己的詞向量,就像源端句子和目標(biāo)端句子中的其他單詞一樣。由于p和q出現(xiàn)在相同的模式下,因此可以在它們之間建立連接。當(dāng)我們使用共享詞向量時(shí),這種聯(lián)系被進(jìn)一步增強(qiáng)。

      2.1.2 混合短語(yǔ)替換

      短語(yǔ)替換(R)的方法源自于一個(gè)符合常識(shí)的直覺: 對(duì)于深度神經(jīng)模型來(lái)說(shuō),學(xué)習(xí)拷貝要比翻譯容易得多。因此,我們提出用目標(biāo)端的q來(lái)擴(kuò)展源端的p。 如表2中的第4行所示,我們同時(shí)使用了標(biāo)簽標(biāo)注和混合短語(yǔ)替換。在這種情況下,將存在第三個(gè)標(biāo)記,即標(biāo)記,在混合短語(yǔ)中分開p與q。 通過(guò)在訓(xùn)練數(shù)據(jù)中引入標(biāo)簽標(biāo)注以及混合短語(yǔ)替換的數(shù)據(jù),神經(jīng)機(jī)器翻譯模型有望學(xué)習(xí)一種模式,即將這些包含在標(biāo)簽中的片段翻譯為其中的子片段。

      混合短語(yǔ)替換和之前的工作[11]提出的短語(yǔ)替換(R)有相似之處,即用q直接替換掉源端的p。 表2中的第3行給出了一個(gè)樣例。相較于直接替換,我們的混合短語(yǔ)替換方法使用了混合的源端短語(yǔ)和目標(biāo)端短語(yǔ)。我們傾向于在源句中添加更多信息,而不是替換它們,因?yàn)樘鎿Q可能會(huì)導(dǎo)致丟棄一些重要信息,包括和替換短語(yǔ)之間的雙語(yǔ)信息。此外,混合短語(yǔ)替換對(duì)錯(cuò)誤的替換也有一定的抗干擾能力。我們將在 3.5節(jié)進(jìn)行分析。

      2.1.3 部分詞向量共享

      由于標(biāo)簽和混合短語(yǔ)的存在,源端和目標(biāo)端都存在標(biāo)簽詞以及目標(biāo)端的詞。為了增強(qiáng)源端和目標(biāo)端標(biāo)簽的聯(lián)系,我們共享標(biāo)簽和目標(biāo)端詞向量。如圖1所示,編碼器的詞向量包含三塊內(nèi)容,分別是標(biāo)簽向量、源端詞向量和目標(biāo)端詞向量。而解碼器的詞向量和最后的輸出線性映射部分使用和編碼器相同的標(biāo)簽和目標(biāo)端部分向量。我們不共享全部的詞向量是為了減少目標(biāo)端的計(jì)算量以及出現(xiàn)輸出錯(cuò)誤語(yǔ)言的情況。

      圖1 共享部分詞向量并使用額外向量增強(qiáng)的神經(jīng)機(jī)器翻譯模型

      2.1.4 額外向量增強(qiáng)

      為了進(jìn)一步增強(qiáng)拷貝信號(hào)并區(qū)分p和q,我們使用額外向量。對(duì)于給定的輸入詞,其對(duì)應(yīng)的表示是通過(guò)將其詞向量、位置向量[3]和我們稱之為額外向量的三個(gè)向量相加得到的。同樣以“我喜歡在蘇州 Suzhou 旅游?!睘槔?,其對(duì)應(yīng)的標(biāo)簽序列就是“n n n n s n t n n”。其中“s”和“t”對(duì)應(yīng)于外部雙語(yǔ)詞典中的源端和目標(biāo)端,而“n”對(duì)應(yīng)于其他的詞。這個(gè)想法來(lái)自BERT[12]的句子嵌入,用“A”和“B”區(qū)分單個(gè)序列中拼接在一起的句子。值得注意的是,與使用標(biāo)簽標(biāo)注相比,使用額外向量進(jìn)行增強(qiáng)是一種較為軟的方法,因?yàn)樗鼘⑿畔⒅苯蛹傻捷斎胄蛄兄?,而無(wú)須更改訓(xùn)練文本。

      2.2 從平行語(yǔ)料中自動(dòng)挖掘雙語(yǔ)對(duì)

      預(yù)定義的雙語(yǔ)對(duì)可以由專家總結(jié)構(gòu)建,也可以從雙語(yǔ)平行語(yǔ)料庫(kù)中自動(dòng)提取。但在訓(xùn)練過(guò)程中,專家總結(jié)的雙語(yǔ)對(duì)并不能充分覆蓋語(yǔ)料庫(kù),所以我們?cè)诒竟?jié)簡(jiǎn)要介紹從雙語(yǔ)語(yǔ)料庫(kù)中自動(dòng)挖掘雙語(yǔ)對(duì)的方法。

      整體的流程如圖2所示。我們專注于命名實(shí)體(NE),并使用LTP[13]和spaCy工具對(duì)中文和其他語(yǔ)言進(jìn)行實(shí)體識(shí)別。我們使用Moses[14]生成短語(yǔ)表,并從短語(yǔ)表中查找抽取的實(shí)體詞,并將大于一定概率的短語(yǔ)對(duì)添加到候選列表。如果一個(gè)實(shí)體詞對(duì)應(yīng)短語(yǔ)表中的多個(gè)翻譯,則過(guò)濾最大概率小于p的。實(shí)驗(yàn)中設(shè)置p為0.8。之后,再根據(jù)短語(yǔ)對(duì)的長(zhǎng)度、重合度進(jìn)行二次過(guò)濾,得到最后的預(yù)定義雙語(yǔ)對(duì)。相較于使用詞對(duì)齊工具,短語(yǔ)表提供了評(píng)估質(zhì)量的概率度量,能抽取更高質(zhì)量的預(yù)定義雙語(yǔ)對(duì)。

      圖2 從平行語(yǔ)料庫(kù)自動(dòng)挖掘雙語(yǔ)對(duì)的流程

      3 實(shí)驗(yàn)

      3.1 實(shí)驗(yàn)配置

      我們采用1.25M大小規(guī)模的LDC部分語(yǔ)料作為中英數(shù)據(jù)集。我們選擇NIST06作為開發(fā)集,并選擇NIST03、NIST04、NIST05作為測(cè)試集且還在4.5M 規(guī)模的WMT2017英語(yǔ)到德語(yǔ)語(yǔ)料庫(kù)進(jìn)行了實(shí)驗(yàn)。我們選擇newstest2014作為開發(fā)集,選擇newstest2016作為測(cè)試集。同時(shí),聯(lián)合國(guó)語(yǔ)料被用于阿拉伯語(yǔ)到中文的翻譯。

      我們使用不區(qū)分大小寫的4-元BLEU分?jǐn)?shù)作為評(píng)價(jià)尺度,并且使用“multi-bleu.perl”腳本去計(jì)算BLEU分?jǐn)?shù)。我們使用字節(jié)對(duì)編碼(BPE)[15]處理所有這些數(shù)據(jù),并將合并操作限制為3萬(wàn)。

      我們使用了目前最主流的基于注意力機(jī)制的Transformer模型[3]。給定輸入序列x1,x2,…,xn,Transformer會(huì)將其編碼為一系列連續(xù)表示,然后依次生成輸出序列y1,y2,…,ym。 我們?cè)O(shè)置編碼器和解碼器的層數(shù)都為6,隱藏層維數(shù)設(shè)置為512,前饋層維數(shù)設(shè)置為2 048。我們使用了8頭注意力機(jī)制。在訓(xùn)練過(guò)程中,本文使用隨機(jī)梯度下降算法Adam來(lái)訓(xùn)練NMT模型。Adam的β1和β2分別被設(shè)置為0.9和0.999,學(xué)習(xí)率被設(shè)置為0.001。訓(xùn)練期間,一次迭代處理32 000個(gè)詞。解碼期間,我們使用集束搜索算法并將束搜索大小設(shè)置為6。

      3.2 數(shù)據(jù)處理和質(zhì)量評(píng)估

      給定訓(xùn)練數(shù)據(jù)和預(yù)定義的雙語(yǔ)對(duì),對(duì)于訓(xùn)練數(shù)據(jù)的每一句,我們遍歷其中的n-元短語(yǔ),如果匹配到預(yù)定義的雙語(yǔ)對(duì),則根據(jù)第2節(jié)中的方法進(jìn)行處理。

      如表3所示,我們從中英語(yǔ)料庫(kù)中提取了169 142個(gè)預(yù)定義雙語(yǔ)對(duì),中英訓(xùn)練集中有39.2%的句子至少包含一個(gè)雙語(yǔ)對(duì)。在測(cè)試集中,這個(gè)比例類似。對(duì)英語(yǔ)到德語(yǔ),阿拉伯語(yǔ)到中文,這兩個(gè)數(shù)據(jù)分別是109 759、29.2%和182 105、24.9%。

      表3 實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)

      我們可以看到,盡管中英LDC語(yǔ)料庫(kù)規(guī)模較小,但由于其新聞?lì)I(lǐng)域特性,所以包含更多的專有名詞,訓(xùn)練集以及測(cè)試集中也包含更多的可替換短語(yǔ)。

      在解碼階段,我們對(duì)源端進(jìn)行相同的處理后解碼。除了使用BLEU對(duì)翻譯質(zhì)量進(jìn)行評(píng)估,我們同樣評(píng)估被替換短語(yǔ)被成功翻譯的概率。

      3.3 整體實(shí)驗(yàn)結(jié)果

      表4展示了作為基準(zhǔn)的Transformer模型和我們的方法在三個(gè)語(yǔ)料庫(kù)上的結(jié)果,表5展示了不同方法的組合在中英數(shù)據(jù)集上的結(jié)果。模型對(duì)應(yīng)的兩列數(shù)據(jù)分別表示BLEU值和預(yù)定義短語(yǔ)被成功翻譯對(duì)的概率(句子級(jí)別)。表格中的T、M、E分別對(duì)應(yīng)于第2節(jié)中所描述的標(biāo)簽標(biāo)記、混合短語(yǔ)替換、額外向量增強(qiáng)。我們將Song[11]等人之前的工作用“R”表示,與我們的混合短語(yǔ)替換(M)方法進(jìn)行對(duì)比。在Song[11]等人的論文中,已經(jīng)論述其方法基本優(yōu)于之前的方法,所以本文僅和其方法進(jìn)行比較。部分詞向量共享在使用了“M”或者“R”的所有方法上都進(jìn)行了使用?!癟&M&E”表示結(jié)合了所有提出的方法的結(jié)果。

      表4 總體實(shí)驗(yàn)結(jié)果

      從表4的結(jié)果我們可以看到,我們的方法在不同的語(yǔ)種上都有一定的性能提升。特別是對(duì)于中英LDC語(yǔ)料,在基準(zhǔn)模型上BLEU提高了1.58,預(yù)定義雙語(yǔ)對(duì)翻譯的成功率提高了24.6%。

      相較于中英,英德和阿中提升相對(duì)較小。英德和阿中的BLEU幾乎沒有變化,預(yù)定義雙語(yǔ)對(duì)翻譯的成功率分別提高了8.1%和4.5%。一方面,英德和阿中的語(yǔ)料規(guī)模較大,訓(xùn)練出的模型對(duì)于特定的短語(yǔ)翻譯成功率較高;另一方面,英德語(yǔ)料和阿中語(yǔ)料中包含預(yù)定義短語(yǔ)的句子占比較少。如表3所示,在中英數(shù)據(jù)集中,大約40%的句子包含至少一個(gè)預(yù)定義短語(yǔ),而在英德和阿中數(shù)據(jù)集上,占比僅有30%和25%左右。如果僅計(jì)算包含預(yù)定義短語(yǔ)的句子,英德數(shù)據(jù)集的BLEU提高了0.36。

      3.4 不同方法組合的結(jié)果對(duì)比

      表5展示了不同方法的組合在中英數(shù)據(jù)集上的具體結(jié)果。我們同時(shí)將不同方法組合的結(jié)果和基準(zhǔn)模型以及在語(yǔ)料中加入短語(yǔ)表的模型進(jìn)行對(duì)比。其中基準(zhǔn)模型是標(biāo)準(zhǔn)的Transformer模型,加入短語(yǔ)表的模型則是在原有的語(yǔ)料的基礎(chǔ)上,把提取的預(yù)定義雙語(yǔ)對(duì)直接加入到語(yǔ)料中一起訓(xùn)練。

      表5 不同方法組合在中英數(shù)據(jù)集上的結(jié)果

      我們可以看到,在訓(xùn)練語(yǔ)料中加入雙語(yǔ)對(duì)并不會(huì)對(duì)BLEU和短語(yǔ)翻譯成功率帶來(lái)明顯的影響。這是由于短語(yǔ)本身就是從語(yǔ)料中抽取獲得的,因此語(yǔ)料包含了相關(guān)信息。

      單獨(dú)使用標(biāo)簽標(biāo)注方法(T)不能給預(yù)定義短語(yǔ)翻譯成功率帶來(lái)明顯收益,單獨(dú)使用短語(yǔ)替換方法(R)將平均成功率提高到了92.7%,相對(duì)來(lái)說(shuō)是一個(gè)很大的提升。但是當(dāng)標(biāo)簽標(biāo)注方法(T)和短語(yǔ)替換或者混合短語(yǔ)替換方法結(jié)合時(shí),可以獲得最好的效果,成功率達(dá)到了98.4%。我們認(rèn)為這是因?yàn)楫?dāng)使用M或者R方法時(shí),我們共享了部分詞向量,從而為句子源端和目標(biāo)端的標(biāo)簽標(biāo)注提供了更強(qiáng)的連接。結(jié)合了所有方法的T&M&E同樣達(dá)到了最好效果。

      從BLEU值來(lái)看,T&M方法相較于T&R有一定的優(yōu)勢(shì),而結(jié)合了E方法后性能得到了進(jìn)一步的提升。正如我們?cè)诘?節(jié)中描述的,相較于直接替換(R),混合短語(yǔ)替換(M)保留了原始的預(yù)定義短語(yǔ)信息,增強(qiáng)模型對(duì)跨語(yǔ)言信息的學(xué)習(xí),并帶來(lái)了一定的抗噪能力。額外向量增強(qiáng)(E)在增強(qiáng)了對(duì)替換短語(yǔ)拷貝信號(hào)的同時(shí),提供了對(duì)源端語(yǔ)塊的區(qū)分,從而幫助模型更好區(qū)分正常翻譯部分、被替換短語(yǔ)部分,以及可以直接拷貝的部分。

      3.5 詞典外短語(yǔ)以及錯(cuò)誤替換短語(yǔ)的翻譯

      為了進(jìn)一步評(píng)估本文方法的作用以及運(yùn)作機(jī)制,我們針對(duì)預(yù)定義雙語(yǔ)詞典外的短語(yǔ)以及錯(cuò)誤替換短語(yǔ)兩種情況進(jìn)行分析。

      同樣以“我喜歡在蘇州 Suzhou 旅游?!睘槔褂妙A(yù)定義雙語(yǔ)詞典外的短語(yǔ)可以將“蘇州”和“Suzhou”替換為不在詞典中的其他雙語(yǔ)對(duì),這測(cè)試了模型的泛化能力,同時(shí)也和實(shí)際場(chǎng)景中實(shí)時(shí)擴(kuò)充詞典的需求符合;而錯(cuò)誤替換短語(yǔ)指“蘇州”保留不變,“Suzhou”修改為其他的詞,這在一定程度上可以檢驗(yàn)保留的源端部分對(duì)翻譯產(chǎn)生的影響。針對(duì)這兩種情況,我們分別人工構(gòu)造了200個(gè)樣例,并進(jìn)行評(píng)估,結(jié)果如表6所示。

      表6 詞表外短語(yǔ)及錯(cuò)誤替換短語(yǔ)的翻譯結(jié)果

      從表6中可以看到,模型對(duì)詞表外的短語(yǔ)有很好的泛化性能,能達(dá)到98%成功率,錯(cuò)誤的往往是那些替換了無(wú)意義稀有詞的句子。這說(shuō)明我們的模型在臨時(shí)擴(kuò)充的雙語(yǔ)對(duì)上依然有良好的適應(yīng)能力。翻譯錯(cuò)誤替換句子時(shí),模型在大部分情況下仍然傾向于直接拷貝源端的替換部分,特別是替換的是類似的詞,如不同代詞替換、不同人名替換。令人驚訝的是有6%的錯(cuò)誤替換樣例會(huì)被正確的翻譯源端部分代替,而丟棄錯(cuò)誤的替換。經(jīng)過(guò)人工分析,我們發(fā)現(xiàn)翻譯模型會(huì)盡量讓拷貝的結(jié)果合理出現(xiàn)在翻譯句子中。當(dāng)替換為一些不可能出現(xiàn)的詞(特別是稀有詞),模型經(jīng)常會(huì)丟棄掉那部分錯(cuò)誤替換,退化為翻譯被替換部分。還有4%的句子會(huì)被錯(cuò)誤替換嚴(yán)重影響,翻譯出隨機(jī)的詞。

      4 分析

      4.1 針對(duì)詞向量的分析

      由于使用了混合短語(yǔ)替換方法,部分共享的詞向量在訓(xùn)練中學(xué)習(xí)到了跨語(yǔ)言的信息。這一點(diǎn)我們可以通過(guò)提取翻譯模型中的詞向量并計(jì)算其中一些詞的鄰近詞來(lái)觀察到。

      表7中展示了在詞向量空間中和“india”/“印度”以及“beijing”/“北京”最為鄰近的5個(gè)詞。距離通過(guò)計(jì)算cosine距離獲得??梢钥吹?,和“beijing”最為靠近的詞是其對(duì)應(yīng)的中文“北京”,同時(shí)“beijing”也是其對(duì)應(yīng)中文的最鄰近的詞?;旌隙陶Z(yǔ)替換方法中的混合短語(yǔ),成為了詞向量空間中的錨點(diǎn),讓翻譯模型的詞向量學(xué)習(xí)到了更多跨語(yǔ)言的信息。同時(shí),跨語(yǔ)言的詞向量可以進(jìn)一步幫助提高翻譯的質(zhì)量[16-17]。

      表7 詞向量空間中的鄰近詞

      4.2 針對(duì)注意力機(jī)制的分析

      Transformer模型使用多頭注意力機(jī)制[3],讓不同的頭注意到不同語(yǔ)義空間的信息。圖3是句子“丹麥danish首相拉斯@@ 穆@@ 森ras@@ mus@@ sen星期二在首@@ 相@@ 府舉行新聞發(fā)布會(huì)?!苯獯a過(guò)程中的交叉注意力矩陣圖,即解碼器對(duì)編碼器的注意力圖,顏色越深注意力權(quán)重越大。我們使用最后一層的輸出并對(duì)多頭注意力取平均。

      圖3 句子樣例的交叉注意力示意圖

      當(dāng)關(guān)注被標(biāo)簽標(biāo)記的預(yù)定義短語(yǔ)時(shí),我們可以看到無(wú)論是“danish”還是“ras@@ mus@@ sen”都同時(shí)對(duì)源端的中文和英語(yǔ)部分有一定的注意力權(quán)重,這展示了混合短語(yǔ)替換的作用,即同時(shí)為目標(biāo)端提供翻譯和拷貝的信息。同時(shí),我們注意到像“danish”這種在語(yǔ)料中經(jīng)常出現(xiàn)的詞,注意力矩陣在中文部分的權(quán)重會(huì)更大,因?yàn)槟P洼^為確認(rèn)這種翻譯。而對(duì)于“ras@@ mus@@ sen”這種人名,由于數(shù)據(jù)中出現(xiàn)次數(shù)較少,翻譯模型不能充分學(xué)習(xí)到,所以傾向于直接拷貝,從而對(duì)源端的英文部分有更高的權(quán)重。

      4.3 針對(duì)具體樣例的分析

      表8中的樣例體現(xiàn)了本文方法的優(yōu)勢(shì)。由于數(shù)據(jù)存在偏置,我們的字典中“南韓”對(duì)應(yīng)“korea”,所以原文中的“南韓”被默認(rèn)替換為了“korea”。在直接替換的+R方法下,翻譯模型傾向于直接拷貝,翻譯為“the korea and north korea”。但是考慮到“north korea”也在上下文中,“南韓”翻譯為“korea”不夠準(zhǔn)確。我們的T&M&E方法可以依靠保留的“南韓”,同時(shí)參考了原始信息以及替換信息,輸出更為準(zhǔn)確的翻譯“south korea and north korea”。從這個(gè)例子看,本文方法對(duì)類似情況有更好的魯棒性。

      表8 翻譯樣例比較

      5 總結(jié)

      本文提出使用簡(jiǎn)單的數(shù)據(jù)預(yù)處理,包含標(biāo)簽標(biāo)注、混合短語(yǔ)替換,以及對(duì)應(yīng)的模型修改,包括共享部分詞向量和額外向量增強(qiáng),從而將外部的預(yù)定義雙語(yǔ)對(duì)融入神經(jīng)機(jī)器翻譯。三個(gè)語(yǔ)對(duì)上的實(shí)驗(yàn)證明了本文方法的有效性。各種方法的組合對(duì)比實(shí)驗(yàn)說(shuō)明了不同方法的作用。通過(guò)進(jìn)一步分析,我們從詞向量和注意力角度分析了方法為何有效。在未來(lái)的工作中,我們希望考慮一詞多義的情況,即如何將控制不同含義的外部詞融入神經(jīng)機(jī)器翻譯中。

      猜你喜歡
      源端語(yǔ)料雙語(yǔ)
      融合源端句法和語(yǔ)義角色信息的AMR解析
      基于仿真分析的傳輸線電路特性研究
      基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
      飛機(jī)燃油系統(tǒng)對(duì)多路輸入信號(hào)源選擇的方法
      科技視界(2016年22期)2016-10-18 15:53:02
      華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
      《苗防備覽》中的湘西語(yǔ)料
      快樂(lè)雙語(yǔ)
      新晨(2013年7期)2014-09-29 06:19:50
      快樂(lè)雙語(yǔ)
      新晨(2013年5期)2014-09-29 06:19:50
      快樂(lè)雙語(yǔ)
      新晨(2013年10期)2014-09-29 02:50:54
      國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
      西华县| 鲁甸县| 仙居县| 浪卡子县| 六枝特区| 怀来县| 庄浪县| 民权县| 松原市| 郁南县| 察雅县| 瑞安市| 延川县| 泰顺县| 木兰县| 正镶白旗| 和顺县| 玉山县| 南汇区| 西贡区| 屏南县| 永顺县| 上杭县| 内江市| 岫岩| 泰宁县| 山东| 萍乡市| 彰化市| 通州区| 鸡东县| 龙门县| 万年县| 云林县| 平谷区| 山阴县| 锦州市| 鸡西市| 汕尾市| 琼海市| 仙桃市|