• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于跨語種預(yù)訓(xùn)練語言模型XLM-R的神經(jīng)機(jī)器翻譯方法

      2022-02-21 05:14:34王倩李茂西吳水秀王明文
      關(guān)鍵詞:源語言目標(biāo)語言解碼器

      王倩 李茂西 吳水秀 王明文

      基于跨語種預(yù)訓(xùn)練語言模型XLM-R的神經(jīng)機(jī)器翻譯方法

      王倩 李茂西?吳水秀 王明文

      江西師范大學(xué)計(jì)算機(jī)信息工程學(xué)院, 南昌 330022; ?通信作者, E-mail: mosesli@jxnu.edu.cn

      探索將 XLM-R 跨語種預(yù)訓(xùn)練語言模型應(yīng)用在神經(jīng)機(jī)器翻譯的源語言端、目標(biāo)語言端和兩端, 提高機(jī)器翻譯的質(zhì)量。提出 3 種網(wǎng)絡(luò)模型, 分別在 Transformer 神經(jīng)網(wǎng)絡(luò)模型的編碼器、解碼器以及兩端同時(shí)引入預(yù)訓(xùn)練的 XLM-R 多語種詞語表示。在 WMT 英語?德語、IWSLT 英語?葡萄牙語以及英語?越南語等翻譯中的實(shí)驗(yàn)結(jié)果表明, 對雙語平行語料資源豐富的翻譯任務(wù), 引入 XLM-R 可以很好地對源語言句子進(jìn)行編碼, 從而提高翻譯質(zhì)量; 對雙語平行語料資源匱乏的翻譯任務(wù), 引入 XLM-R 不僅可以很好地對源語言句子進(jìn)行編碼, 還可以對源語言端和目標(biāo)語言端的知識同時(shí)進(jìn)行補(bǔ)充, 提高翻譯質(zhì)量。

      跨語種預(yù)訓(xùn)練語言模型; 神經(jīng)機(jī)器翻譯; Transformer網(wǎng)絡(luò)模型; XLM-R模型; 微調(diào)

      近年來, 預(yù)訓(xùn)練上下文語言模型(如 ELMo[1]、BERT[2]和 GPT[3?4]等)在自然語言處理領(lǐng)域引起越來越多的關(guān)注。它們在大量未標(biāo)注的語料上進(jìn)行預(yù)訓(xùn)練, 獲得通用的語言表示, 然后應(yīng)用到下游任務(wù)中, 并根據(jù)任務(wù)的特點(diǎn)進(jìn)行微調(diào)[5]。這種預(yù)訓(xùn)練加微調(diào)的方式不僅極大地提升下游任務(wù)的性能, 而且大幅度地降低下游任務(wù)所需標(biāo)注語料的規(guī)模[6]。

      通常, 有監(jiān)督的機(jī)器翻譯僅利用雙語平行語料進(jìn)行訓(xùn)練, 會(huì)導(dǎo)致大規(guī)模的單語語料不能被充分利用。為了將在大規(guī)模單語語料上訓(xùn)練獲取的通用語言知識應(yīng)用于機(jī)器翻譯中, 一些學(xué)者提出利用微調(diào)或知識蒸餾等方法, 將 BERT 預(yù)訓(xùn)練上下文語言模型應(yīng)用于神經(jīng)機(jī)器翻譯源語言端輔助源語言句子編碼, 或應(yīng)用于目標(biāo)語言端指導(dǎo)譯文生成[7?14]。但是, 這些方法僅在神經(jīng)機(jī)器翻譯模型的一端(源語言端或目標(biāo)語言端)使用 BERT (或mBERT[15])預(yù)訓(xùn)練上下文語言模型, 而未在兩端同時(shí)使用。近年, 跨語種預(yù)訓(xùn)練語言模型 XLM[16]和 XLM-R[17]蓬勃發(fā)展。與 BERT (mBERT)相比, XLM 和 XLM-R 模型在多種語言間共享詞表, 在同一嵌入空間對多種語言的詞語進(jìn)行編碼, 并針對多語言環(huán)境進(jìn)行優(yōu)化, 在多項(xiàng)多語言理解任務(wù)中的應(yīng)用刷新了相應(yīng)任務(wù)的最好性能記錄。

      受上述工作啟發(fā), 本文嘗試將 XLM-R 跨語種預(yù)訓(xùn)練語言模型引入機(jī)器翻譯模型中, 進(jìn)一步提高翻譯的質(zhì)量。本文提出 3 種網(wǎng)絡(luò)模型, 將 XLM-R 模型應(yīng)用在當(dāng)前主流的神經(jīng)機(jī)器翻譯框架 Transfor-mer[18]中。這 3 種網(wǎng)絡(luò)模型如下: 1)在源語言端引入 XLM-R 模型, 對待翻譯的句子進(jìn)行編碼, 替代Transformer 編碼器; 2)在目標(biāo)語言端引入 XLM-R模型, 通過額外的解碼器模塊(包括注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)), 與源語言端信息進(jìn)行關(guān)聯(lián); 3)在源語言端和目標(biāo)語言端同步引入 XLM-R 模型。本文還對比 3 種模型優(yōu)化策略對系統(tǒng)性能的影響, 包括凍結(jié) XLM-R 模型參數(shù)的訓(xùn)練方法、在凍結(jié) XLM-R 模型參數(shù)訓(xùn)練的基礎(chǔ)上再進(jìn)行微調(diào)的方法以及直接優(yōu)化整個(gè)模型參數(shù)的方法。

      1 相關(guān)工作

      如何將預(yù)訓(xùn)練模型整合到機(jī)器翻譯中, 前人的工作主要分為兩類。

      一類是探索如何充分利用 BERT 預(yù)訓(xùn)練上下文語言模型, 輔助機(jī)器翻譯。Imamura 等[7]直接使用BERT 模型作為神經(jīng)機(jī)器翻譯的編碼器, 并提出兩階段訓(xùn)練策略來減輕預(yù)訓(xùn)練模型的災(zāi)難性遺忘問題。Weng 等[10]、Yang 等[11]和 Chen 等[12]提出使用知識蒸餾技術(shù), 將 BERT 模型預(yù)訓(xùn)練知識遷移到神經(jīng)機(jī)器翻譯的編碼器或者解碼器中。Zhu 等[13]提出BERT 融合模型, 先使用 BERT 模型提取輸入句子的表示, 然后通過額外的注意力模塊, 將 BERT 模型表示與機(jī)器翻譯系統(tǒng)中編碼器和解碼器的每一層融合。Guo 等[14]提出并設(shè)計(jì)不同的輕量級神經(jīng)網(wǎng)絡(luò)組件, 插入 BERT 模型的每一層(如前饋神經(jīng)網(wǎng)絡(luò)模塊和注意力模塊等), 將預(yù)訓(xùn)練參數(shù)和特定任務(wù)的參數(shù)解耦, 從而繞過災(zāi)難性遺忘問題, 同時(shí)引入并行序列解碼算法 Mask-Predict, 以便充分利用 BERT模型, 保持訓(xùn)練和解碼過程的一致性。

      由于預(yù)訓(xùn)練上下文語言模型通常針對語言理解任務(wù)而設(shè)計(jì)——使用遮擋語言模型進(jìn)行建模, 與機(jī)器翻譯自回歸方式(從一端逐步生成目標(biāo)語言詞語的下一詞)預(yù)測任務(wù)存在差異, 因此第二種方法旨在設(shè)計(jì)適用于機(jī)器翻譯的自回歸式預(yù)訓(xùn)練模型。Song 等[19]提出 MASS 預(yù)訓(xùn)練模型, 它是一個(gè)基于Transformer 的序列到序列單語預(yù)訓(xùn)練框架, 其中編碼器將帶有隨機(jī)遮擋單詞(幾個(gè)連續(xù)標(biāo)記)的句子作為輸入, 解碼器則根據(jù)編碼器的表示來預(yù)測這些被遮擋單詞, 其輸入是編碼器中被遮擋的單詞, 該模型顯著地提升了無監(jiān)督機(jī)器翻譯的性能。Lewis 等[20]提出 BART 預(yù)訓(xùn)練模型, 其架構(gòu)與 MASS 相同, 但訓(xùn)練方式有所不同, 編碼器輸入被破壞的文本(使用 5 種噪聲函數(shù)對文本進(jìn)行破壞), 解碼器根據(jù)編碼器的表示來恢復(fù)原始文本, 該模型在語言理解和文本生成任務(wù)中都取得較好的結(jié)果。Liu 等[21]提出mBART 多語言預(yù)訓(xùn)練模型, 旨在將 BART 應(yīng)用于多種語言的大規(guī)模單語語料庫, 其模型架構(gòu)和預(yù)訓(xùn)練方式與 BART 相同, 該模型能夠在句子級和文檔級別上顯著地改善有監(jiān)督和無監(jiān)督的機(jī)器翻譯。

      本文與上述工作不同, 我們分別在 Transformer的編碼器、解碼器以及兩端同時(shí)引入最新的 XLM-R 跨語種預(yù)訓(xùn)練上下文語言模型, 通過 XLM-R 語言模型初始化表示源語言句子或目標(biāo)語言句子中的詞語, 使用適用的網(wǎng)絡(luò)結(jié)構(gòu)提高機(jī)器翻譯的質(zhì)量。

      2 背景知識

      2.1 Transformer 網(wǎng)絡(luò)模型

      Transformer 模型采用編碼器?解碼器架構(gòu)(Encoder-Decoder), 其中編碼器和解碼器均由 6 個(gè)堆疊的編碼器層和解碼器層組成。編碼器將輸入序列=(1,2, …,)抽象成源語言句子的中間表示張量=(1,2, …,), 解碼器根據(jù), 以自回歸的方式從左向右逐步生成目標(biāo)語言句子=(1,2, …,), 計(jì)算公式如下:

      其中,為模型的未知參數(shù), 在雙語平行語料上訓(xùn)練獲取。

      2.2 XLM-R 跨語種預(yù)訓(xùn)練語言模型

      XLM-R 跨語種預(yù)訓(xùn)練語言模型是在 Common Crawl 大型語料上過濾的 2.5TB 文本數(shù)據(jù)上訓(xùn)練形成, 支持 100 種語言。其網(wǎng)絡(luò)上層采用 Transformer編碼器架構(gòu)(層數(shù)為 12 或 24), 因此它與 Transfor-mer 模型具有天然的兼容性, 可以方便地引入神經(jīng)機(jī)器翻譯中。

      XLM-R 模型的架構(gòu)如圖 1 所示, 與一般預(yù)訓(xùn)練上下文語言模型的差異表現(xiàn)在以下 3 個(gè)方面。1)它的輸入是任意數(shù)量的句子組成的文本流(同種語言), 而不是兩個(gè)句子組成的文本對(如 BERT 模型); 2)訓(xùn)練時(shí), 每一步涵蓋所有語言, 每種語言為一個(gè)批次; 3)它的訓(xùn)練目標(biāo)是多語種遮擋語言模型, 根據(jù)當(dāng)前詞的上下文預(yù)測當(dāng)前詞, 類似完型填空任務(wù), 與機(jī)器翻譯任務(wù)中目標(biāo)語言句子詞語的從左向右自回歸生成方式不同。

      3 引入 XLM-R 知識的 Transformer 網(wǎng)絡(luò)模型

      為了引入 XLM-R 模型在多種語言文本的大規(guī)模語料上訓(xùn)練獲取的單語知識, 本文提出 3 種方式改進(jìn)傳統(tǒng)的 Transformer 模型, 在編碼端、解碼端以及兩端逐步引入源語言句子的 XLM-R 模型和目標(biāo)語言句子的 XLM-R 模型, 并引入源語言句子和目標(biāo)語言句子的 XLM-R 模型, 分別簡稱為 XLM-R_ ENC 模型、XLM-R_DEC 模型和 XLM-R_ENC& DEC 模型。

      3.1 XLM-R_ENC 模型

      XLM-R 模型采用 Transformer 編碼器的結(jié)構(gòu)對文本進(jìn)行抽象表示, 其輸入文本和輸出張量格式與Transformer 編碼器相同。為了將源語言端預(yù)訓(xùn)練的 XLM-R 模型引入 Transformer 編碼器, 我們嘗試過兩種方式: 1)將 XLM-R 模型作為特征提取器放在 Transformer 編碼器的底部, 用來初始化表示源語言句子中的詞語; 2)用 XLM-R 模型替代 Transfomer編碼器。第一種方式不僅擴(kuò)大了模型的規(guī)模, 增加訓(xùn)練成本, 且容易造成預(yù)訓(xùn)練知識的災(zāi)難性遺忘。因此, 本文采用第二種方式, 改進(jìn)的編碼器結(jié)構(gòu)如圖 2 左側(cè)所示, 解碼器采用原始的 Transformer 解碼器結(jié)構(gòu), 改進(jìn)的編碼器形式化表示如下:

      , (3)

      XLM-R_ENC 模型的編碼器與原始 Transformer編碼器的主要區(qū)別在于, XLM-R_ENC 模型使用預(yù)先訓(xùn)練好的 XLM-R 模型作為編碼器, 可提供額外的通用知識, 并且所有語言統(tǒng)一采用基于一元文法語言模型的子詞切分方法[22]對多語種文本進(jìn)行切分, 以便在多語種文本間共享詞表。因此, 在將XLM-R 模型應(yīng)用于編碼端時(shí), 使用相同的子詞切分方法對源語言句子進(jìn)行子詞切分。

      3.2 XLM-R_DEC模型

      為了將目標(biāo)語言端的預(yù)訓(xùn)練知識引入神經(jīng)機(jī)器翻譯, 本文探索將目標(biāo)語言 XLM-R 模型引入Transformer 解碼端。XLM-R 模型使用多語種遮擋語言模型進(jìn)行訓(xùn)練, 其多頭注意力中的詞語遮擋矩陣如圖 3(a)所示。我們用數(shù)字 1 表示信息可見,0表示信息不可見。在神經(jīng)機(jī)器翻譯中, 翻譯當(dāng)前詞時(shí)只能看到前面已經(jīng)翻譯的詞語, 不能看到未翻譯的詞語, 因此對 XLM-R 模型中的遮擋矩陣進(jìn)行修改(圖 3(b)), 以便模擬翻譯時(shí)從左向右自回歸的生成譯文中詞語。

      圖1 XLM-R模型架構(gòu)

      圖2 XLM-R_ENC&DEC模型架構(gòu)

      圖3 兩種不同的遮擋方式

      在模型架構(gòu)方面, 我們嘗試直接使用改進(jìn)遮擋方式的 XLM-R 模型作為解碼器; 或者在其基礎(chǔ)上引入源語言信息的 XLM-R 模型作為解碼器, 如圖 2右側(cè)所示, 在 XLM-R 模型頂部構(gòu)建額外的 6 層解碼器子網(wǎng)絡(luò) Add_Dec, 包括編碼器-解碼器融合層和前饋神經(jīng)網(wǎng)絡(luò)層, 以便將目標(biāo)語言句子知識與源語言句子知識關(guān)聯(lián)。初步實(shí)驗(yàn)結(jié)果表明, 在解碼時(shí)關(guān)聯(lián)源語言信息可以更好地生成譯文, 故采用第二種方式改進(jìn)解碼器結(jié)構(gòu), 編碼器則采用原始的 Trans-former 編碼器結(jié)構(gòu)。改進(jìn)的解碼器形式化表示如下:

      3.3 XLM-R_ENC&DEC 模型

      為了在源語言端和目標(biāo)語言端同步引入 XLM-R 模型, 我們聯(lián)合 XLM-R_ENC 模型以及 XLM-R_ DEC 模型, 同時(shí)改進(jìn) Transformer 編碼器和解碼器, 模型的整體結(jié)構(gòu)如圖 2 所示。Add_Dec 子網(wǎng)絡(luò)第一個(gè)子層編碼器?解碼器融合層會(huì)將經(jīng)過 XLM-R 模型編碼過的源語言句子與經(jīng)過 XLM-R 模型編碼過的目標(biāo)語言句子相互關(guān)聯(lián), 以便更好地軟對齊源語言句子中詞語與目標(biāo)語言句子中詞語, 最終生成機(jī)器譯文。

      3.4 模型訓(xùn)練

      3 個(gè)模型均采用多分類交叉熵?fù)p失函數(shù)作為優(yōu)化目標(biāo), 在雙語平行語料上進(jìn)行訓(xùn)練。由于網(wǎng)絡(luò)部分子結(jié)構(gòu)的參數(shù)權(quán)值已將 XLM-R 模型作為初始值。在進(jìn)行模型整體參數(shù)訓(xùn)練時(shí), 我們探索 3 種網(wǎng)絡(luò)參數(shù)訓(xùn)練策略: 1)直接微調(diào)(DirectFine-tuning), 即所有的模型參數(shù)一起更新, 反向傳播, 應(yīng)用于所有層; 2)固定 XLM-R 模型參數(shù)(Freeze), 將 XLM-R模型視為特征提取器, 不參與翻譯任務(wù)的訓(xùn)練; 3)先固定, 再微調(diào)(+Fine-tuning), 即先固定 XLM-R模型參數(shù), 使用雙語平行語料訓(xùn)練剩余的未知參數(shù), 直到模型在驗(yàn)證集上損失最小, 再聯(lián)合微調(diào)所有模型, 即同時(shí)更新模型中的所有參數(shù)。

      除非特殊說明, 本文實(shí)驗(yàn)中均采用直接微調(diào)的方法優(yōu)化網(wǎng)絡(luò)整體參數(shù)。后續(xù)的消融實(shí)驗(yàn)中將對 3種參數(shù)調(diào)整策略進(jìn)行對比, 用于驗(yàn)證直接微調(diào)參數(shù)優(yōu)化策略對系統(tǒng)性能的提升幅度最大。

      4 實(shí)驗(yàn)

      4.1 實(shí)驗(yàn)設(shè)置

      我們分別在雙語平行語料資源豐富和資源匱乏的翻譯任務(wù)中評價(jià)本文模型。在資源豐富的任務(wù)中采用 WMT2014 英語?德語語料(WMT14 En-De), 使用 newstest2013 作為驗(yàn)證集, newstest2014 作為測試集。在資源匱乏的任務(wù)中采用 IWSLT2017 英語?葡萄牙語(IWSLT17 En-Pt)和 IWSLT2015 英語?越南語語料(IWSLT15 En-Vi), 分別使用 tst2016 和 tst2012作為驗(yàn)證集, tst2017 和 tst2013 作為測試集。各任務(wù)中訓(xùn)練集、驗(yàn)證集和測試集的語料規(guī)模見表 1。對于 WMT14 En-De 和 IWSLT15 En-Vi 翻譯任務(wù), 使用來自斯坦福大學(xué)的自然語言處理小組(The Stanford NLP Group)預(yù)處理后的語料; 對于 IWSLT17 En-Pt翻譯任務(wù), 使用開源工具包 mosesdecoder (https:// github.com/moses-smt/mosesdecoder)中的預(yù)處理工具, 對句子使用標(biāo)點(diǎn)符號規(guī)范化、移除非打印字符和標(biāo)記化等預(yù)處理, 所有語料均使用基于一元文法語言模型子詞切分方法進(jìn)行子詞切分。

      表1 實(shí)驗(yàn)語料規(guī)模統(tǒng)計(jì)

      利用開源工具包 fairseq[23]實(shí)現(xiàn) 3 種基于 XLM-R 模型的 Transformer 網(wǎng)絡(luò)結(jié)構(gòu)。XLM-R 模型使用XLM-Roberta-Base 預(yù)訓(xùn)練模型, 層數(shù)為 12, 注意力頭數(shù)為 12, 隱藏層大小為 768, 前饋神經(jīng)網(wǎng)絡(luò)內(nèi)置隱藏層大小為 3072; Transformer 模型和 Add_Dec 子網(wǎng)絡(luò)均只使用 6 層, 隱藏層大小、注意力頭數(shù)和前饋神經(jīng)網(wǎng)絡(luò)內(nèi)置隱藏層的參數(shù)設(shè)置與 XLM-R 模型相同。

      對比的基線模型包括 Transformer base 模型、Transformer big 模型[18]和 NMT with BERT 模型[7]。其中, Transformer base 模型的層數(shù)為 6, 注意力頭數(shù)為 8, 隱藏層大小為 512, 前饋神經(jīng)網(wǎng)絡(luò)內(nèi)置隱藏層大小為 2048; Transformer big 模型層數(shù)為 6, 注意力頭數(shù)為 16, 隱藏層大小為 1024, 前饋神經(jīng)網(wǎng)絡(luò)內(nèi)置隱藏層大小為 4096; NMT with BERT 模型通過直接用 BERT 替換 Transformer 的編碼端來引入預(yù)訓(xùn)練知識。

      用 BLEU[24]作為譯文評價(jià)指標(biāo), 利用開源工具mosesdecoder 中的腳本 multi-bleu.perl 進(jìn)行打分。打分時(shí), 機(jī)器譯文均進(jìn)行符號化(tokenize)處理, 并區(qū)分大小寫。

      4.2 實(shí)驗(yàn)結(jié)果

      4.2.1 3個(gè)模型性能對比的實(shí)驗(yàn)結(jié)果

      表 2 給出本文提出的 3 個(gè)模型和對比的基線系統(tǒng)在 WMT 英語?德語和 IWSLT 英語?葡萄牙語、英語?越南語等翻譯方向上的實(shí)驗(yàn)結(jié)果。在所有翻譯方向上, XLM-R_ENC 模型都優(yōu)于基線模型, 特別是在資源匱乏的翻譯任務(wù)中, 引入預(yù)訓(xùn)練知識能夠大幅度提升模型的翻譯性能。再對比 Transformer base 與 Transformer big 模型可以看出, 當(dāng)模型的參數(shù)量增大時(shí), 其翻譯性能并不一定會(huì)提升, 進(jìn)一步說明是預(yù)訓(xùn)練知識提升了翻譯的性能。對比 NMT with BERT 模型, 使用在多種大規(guī)模單語語料上預(yù)訓(xùn)練獲取的通用語言知識, 翻譯性能優(yōu)于使用僅在單語語料上預(yù)訓(xùn)練獲取的通用語言知識。最后, 我們嘗試對 XLM-R_ENC 模型進(jìn)行集成, 在開發(fā)集上取翻譯性能最優(yōu)的 5 組模型的參數(shù)進(jìn)行平均, 以期進(jìn)一步提高模型的翻譯性能, 集成的結(jié)果見表 2 中XLM-R_ENCensemble一行。

      表2 不同模型的翻譯性能對比

      說明: 粗體數(shù)字表示在該翻譯方向上翻譯性能最佳, 下同。

      對于僅在解碼端引入 XLM-R 模型的翻譯方法XLM-R_DEC, 在所有翻譯方向上的性能大幅度劣于基線模型, 可能是 XLM-R 模型的多語種遮擋語言模型的訓(xùn)練目標(biāo)與 Transformer 的自回歸訓(xùn)練目標(biāo)不同所致。Lample 等[16]在解碼端的有效嘗試, 并未修改解碼端的模型架構(gòu), 只是用 XLM 模型預(yù)訓(xùn)練好的模型參數(shù)去初始化 Transformer 解碼端相應(yīng)的模型參數(shù)。

      對于在編碼端和解碼端同步引入 XLM-R 模型的 XLM-R_ENC&DEC 方法, 在資源豐富的 WMT英語?德語翻譯任務(wù)中, 其性能并沒有得到提升, 而在資源匱乏的 IWSLT 英語?葡萄牙語和英語?越南語翻譯任務(wù)中, 不論是單系統(tǒng)還是集成系統(tǒng), 其性能均超過基線模型。這表明對于資源匱乏的翻譯任務(wù), 在源語言端和目標(biāo)語言端同步引入 XLM-R 模型也可以提高翻譯質(zhì)量。我們猜測, 在資源匱乏的翻譯任務(wù)中, 目標(biāo)語言端引入的額外通用語言知識可以克服 XLM-R 模型與 Transformer 模型訓(xùn)練目標(biāo)不一致的弊端, 后續(xù)的實(shí)驗(yàn)分析中將進(jìn)一步挖掘這種情況產(chǎn)生的原因。

      4.2.2 不同訓(xùn)練方式的實(shí)驗(yàn)結(jié)果

      我們在 WMT 英語?德語以及 IWSLT 英語?葡萄牙語和英語?越南語翻譯任務(wù)中對比不同參數(shù)調(diào)整策略下的系統(tǒng)性能, 結(jié)果如表 3 所示。在 XLM-R_ ENC 和 XLM-R_ENC&DEC 方法中, 對于資源豐富的翻譯任務(wù), 直接微調(diào)的方法(DirectFine-tuning)與先固定再微調(diào)的方法(+ Fine-tuning)性能相當(dāng); 對于資源匱乏的翻譯任務(wù), 直接微調(diào)的方法遠(yuǎn)遠(yuǎn)優(yōu)于先固定再微調(diào)的方法。在 XLM-R_DEC 方法中, 先固定再微調(diào)的方法優(yōu)于直接微調(diào)的方法, 但是兩種訓(xùn)練方式都未能提高翻譯性能。因此, 本文實(shí)驗(yàn)中均采用直接微調(diào)的方法優(yōu)化網(wǎng)絡(luò)整體參數(shù)。

      表3 不同訓(xùn)練方式對翻譯性能的影響

      Table 3 Impact of different training methods on translation performance

      4.2.3 不同層數(shù)預(yù)訓(xùn)練模型的實(shí)驗(yàn)結(jié)果

      為了比較使用不同層預(yù)訓(xùn)練模型對翻譯性能的影響, 我們對比兩種 XLM-R 模型層數(shù)使用策略: 1)在 3 個(gè)模型中使用預(yù)訓(xùn)練模型 XLM-R 的全部層(12層)表示張量; 2)僅使用其底部 6 層表示張量。在WMT 英語?德語以及 IWSLT 英語?葡萄牙語和英語?越南語翻譯任務(wù)中的實(shí)驗(yàn)結(jié)果如表 4 所示。在源語言端使用 XLM-R 模型全部層的表示或在源語言端和目標(biāo)語言端同時(shí)使用 XLM-R 模型全部層的表示優(yōu)于使用底部 6 層的表示, 僅在目標(biāo)語言端使用XLM-R 模型底部 6 層的表示優(yōu)于使用全部層的表示, 但仍未提高翻譯質(zhì)量。因此, 本文的默認(rèn)模型設(shè)置為使用 XLM-R 模型全部層的表示。

      表4 不同層數(shù)預(yù)訓(xùn)練模型對翻譯性能的影響

      Table 4 Impact of different layers of pre-training models on translation performance

      4.2.4 Add_Dec 子網(wǎng)絡(luò)不同層數(shù)的實(shí)驗(yàn)結(jié)果

      表 2 列出的實(shí)驗(yàn)結(jié)果表明, 對于雙語平行語料資源匱乏的翻譯任務(wù), 引入 XLM-R 可以很好地對源語言端和目標(biāo)語言端知識同時(shí)進(jìn)行補(bǔ)充, 提高翻譯質(zhì)量。因此, 我們在 IWSLT 英語?葡萄牙語和英語?越南語翻譯方向上探索不同 Add_Dec 子網(wǎng)絡(luò)的層數(shù)對 XLM-R_ENC&DEC 模型的影響, 實(shí)驗(yàn)結(jié)果如表 5 所示, 使用 3 層或 6 層 Add_Dec 子網(wǎng)絡(luò)的翻譯性能最佳??紤]到在性能相差不大的情況下, 3 層的模型參數(shù)量會(huì)更小, 訓(xùn)練速度更快, 因此建議在XLM-R_ENC&DEC 模型解碼端僅使用 3 層 Add_Dec子網(wǎng)絡(luò)。

      4.2.5 實(shí)驗(yàn)分析

      為了證明在資源匱乏的翻譯任務(wù)中, 源語言端和目標(biāo)語言端同步引入 XLM-R 模型也能提高翻譯質(zhì)量, 我們對 3 個(gè)模型在 IWSLT 英語?越南語的翻譯任務(wù)中生成的譯文示例進(jìn)行分析。表 6 給出一個(gè)英語源語言句子及其越南語人工參考譯文, 以及 3個(gè)模型的翻譯結(jié)果。通過在雙語語料上查找, 我們發(fā)現(xiàn)源語言句子中 rehabilitates 一詞在雙語平行語料的英語端沒有出現(xiàn)過, 但是 XLM-R_ENC&DEC模型能將其正確地翻譯成越南語中的詞語 ph?c h?i, 說明這個(gè)翻譯知識是由 XLM-R 模型引入的。在更多的翻譯示例中還發(fā)現(xiàn), 盡管某個(gè)越南語的詞語在雙語平行語料的目標(biāo)端沒有出現(xiàn), 但在機(jī)器譯文中有時(shí)也能正確地翻譯該詞語(示例略), 同樣說明這個(gè)知識是由 XLM-R 模型引入的。上述分析均說明, 在資源匱乏的環(huán)境下, 在源語言端和目標(biāo)語言端同時(shí)引入 XLM-R 模型, 可以將雙語語料中沒有出現(xiàn)的詞語正確地翻譯成目標(biāo)語言中詞語, 提高了翻譯質(zhì)量。

      表5 Add_Dec 子網(wǎng)絡(luò)層數(shù)對 XLM-R_ENC&DEC 模型性能的影響

      5 結(jié)論

      本文探索跨語種預(yù)訓(xùn)練語言模型 XLM-R 在神經(jīng)機(jī)器翻譯系統(tǒng) Transformer 中的應(yīng)用, 提出并對比3 種模型來實(shí)現(xiàn)在源語言或目標(biāo)語言中, 利用在多種大規(guī)模單語語料上預(yù)訓(xùn)練獲取的通用語言知識。在多個(gè)翻譯任務(wù)中的實(shí)驗(yàn)結(jié)果表明, 對于資源豐富的翻譯任務(wù), XLM-R 模型可以更好地對源語言句子進(jìn)行編碼表示, 從而提高翻譯質(zhì)量, 但由于 XLM-R模型的多語種遮擋語言模型的訓(xùn)練目標(biāo)與 Transfor-mer 模型的自回歸訓(xùn)練目標(biāo)不一致, 導(dǎo)致其應(yīng)用在解碼端時(shí)不能提高翻譯質(zhì)量; 對于資源匱乏的翻譯任務(wù), 目標(biāo)端引入額外的通用語言知識可以克服兩個(gè)模型訓(xùn)練不一致的弊端, 促使在源語言端和目標(biāo)語言端同步引入 XLM-R 模型, 也能提高翻譯質(zhì)量。

      表6 不同模型的譯文示例對比

      說明: 粗體字示意 XLM-R_ENC&DEC 模型可以將雙語語料中沒有出現(xiàn)的詞語正確地翻譯成目標(biāo)語言中詞語。

      [1]Peters M, Neumann M, Iyyer M, et al.Deep contex-tualized word representations // Proceedings of the NAACL-HLT.New Orleans, 2018: 2227?2237

      [2]Devlin J, Chang M W, Lee K, et al.BERT: pre-training of deep bidirectional transformers for lang-uage understanding // Proceedings of the NAACL-HLT.Minneapolis, 2019: 4171?4186

      [3]Radford A, Narasimhan K, Salimans T, et al.Improv-ing language understanding by generative pre-training [R/OL].(2018) [2020?11?05].https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/langua ge-unsupervised/language_understanding_paper.pdf

      [4]Brown T B, Mann B, Ryder N, et al.Language models are few-shot learners // Proceedings of the NeurIPS.Vancouver, 2020: 1877?1901

      [5]翟煜錦, 李培蕓, 項(xiàng)青宇, 等.基于 QE 的機(jī)器翻譯重排序方法研究.江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版), 2020, 44(1): 46?50

      [6]黃民烈, 唐杰, 文繼榮.超大規(guī)模預(yù)訓(xùn)練模型的優(yōu)勢、局限與未來趨勢.中國計(jì)算機(jī)學(xué)會(huì)通訊, 2021, 17(2): 88?89

      [7]Imamura K, Sumita E.Recycling a pre-trained BERT encoder for neural machine translation // Proceedings of the EMNLP & NGT.Hong Kong, 2019: 23?31

      [8]Kim Y, Rush A M.Sequence-level knowledge distilla-tion // Proceedings of the EMNLP.Austin, 2016: 1317?1327

      [9]Hinton G, Vinyals O, Dean J.Distilling the know-ledge in a neural network [EB/OL].(2015?03?09) [2020?11?05].https://arxiv.org/abs/1503.02531

      [10]Weng R, Yu H, Huang S, et al.Acquiring knowledge from pre-trained model to neural machine translation // Proceedings of the AAAI.New York, 2020: 9266? 9273

      [11]Yang J, Wang M, Zhou H, et al.Towards making the most of bert in neural machine translation // Procee-dings of the AAAI.New York, 2020: 9378?9385

      [12]Chen Y C, Gan Z, Cheng Y, et al.Distilling know-ledge learned in BERT for text generation // Procee-dings of the ACL.Washington, 2020: 7893?7905

      [13]Zhu J, Xia Y, Wu L, et al.Incorporating BERT into neural machine translation [C/OL] // Proceedings of the ICLR.(2020?03?11) [2020?10?20].https://openre view.net/forum?id=Hyl7ygStwB

      [14]Guo J, Zhang Z, Xu L, et al.Incorporating BERT into parallel sequence decoding with adapters [EB/OL].(2020?08?13) [2020?10?20].https://arxiv.org/abs/2010.06138

      [15]Karthikeyan K, Wang Z, Mayhew S, et al.Cross-lingual ability of multilingual BERT: an empirical stu-dy [C/OL] // Proceedings of the ICLR.(2020?03?11) [2020?10?20].https://openreview.net/forum?id=HJeT 3yrtDr

      [16]Lample G, Conneau A.Cross-lingual language model pretraining // Proceedings of the NeurIPS.Vancouver, 2019: 7059?7069

      [17]Conneau A, Khandelwal K, Goyal N, et al.Unsu-pervised cross-lingual representation learning at scale // Proceedings of the ACL.Washington, 2020: 8440? 8451

      [18]Vaswani A, Shazeer N, Parmar N, et al.Attention is all you need // Proceedings of the NeurIPS.Long Beach, CA, 2017: 6000?6010

      [19]Song K, Tan X, Qin T, et al.MASS: masked sequence to sequence pre-training for language generation // Proceedings of the ICML.Long Beach, CA, 2019: 5926?5936

      [20]Lewis M, Liu Y, Goyal N, et al.BART: denoising sequence-to-sequence pre-training for natural langu-age generation, translation, and comprehension // Pro-ceedings of the ACL.Washington, 2020: 7871?7880

      [21]Liu Y, Gu J, Goyal N, et al.Multilingual denoising pre-training for neural machine translation.Transac-tions of the Association for Computational Lingui-stics, 2020, 8: 726?742

      [22]Kudo T.Subword regularization: improving neural network translation models with multiple subword candidates // Proceedings of the ACL.Melbourne, 2018: 66?75

      [23]Ott M, Edunov S, Baevski A, et al.Fairseq: a fast, extensible toolkit for sequence modeling // Procee-dings of the NAACL.Minneapolis, 2019: 48?53

      [24]Papineni K, Roukos S, Ward T, et al.BLEU: a method for automatic evaluation of machine translation // Proceedings of the ACL.Philadelphia, 2002: 311?318

      Neural Machine Translation Based on XLM-R Cross-lingual Pre-training Language Model

      WANG Qian, LI Maoxi?, WU Shuixiu, WANG Mingwen

      School of Computer and Information Engineering, Jiangxi Normal University, Nanchang 330022; ? Corresponding author, E-mail: mosesli@jxnu.edu.cn

      The authors explore the application of XLM-R cross-lingual pre-training language model into the source language, into the target language and into both of them to improve the quality of machine translation, and propose three neural network models, which integrate pre-trained XLM-R multilingual word representation into the Transformer encoder, into the Transformer decoder and into both of them respectively.The experimental results on WMT English-German, IWSLT English-Portuguese and English-Vietnamese machine translation benchmarks show that integrating XLM-R model into Transformer encoder can effectively encode the source sentences and improve the system performance for resource-rich translation task.For resource-poor translation task, integrating XLM-R model can not only encode the source sentences well, but also supplement the source language knowledge and target language knowledge at the same time, thus improve the translation quality.

      cross-lingual pre-training language model; neural machine translation; Transformer neural network; XLM-R model; fine-tuning

      10.13209/j.0479-8023.2021.109

      2021-06-12;

      2021-08-09

      國家自然科學(xué)基金(61662031)資助

      猜你喜歡
      源語言目標(biāo)語言解碼器
      科學(xué)解碼器(一)
      科學(xué)解碼器(二)
      科學(xué)解碼器(三)
      線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
      林巍《知識與智慧》英譯分析
      淺析日語口譯譯員素質(zhì)
      教材插圖在英語課堂閱讀教學(xué)中的運(yùn)用及實(shí)例探討
      跨文化視角下對具有修辭手法諺語英譯漢的研究
      速讀·下旬(2016年7期)2016-07-20 08:50:28
      以口譯實(shí)例談雙語知識的必要性
      考試周刊(2015年36期)2015-09-10 15:03:38
      二語習(xí)得過程中的石化現(xiàn)象分析
      得荣县| 凌源市| 碌曲县| 微博| 夏邑县| 永寿县| 胶南市| 安徽省| 曲周县| 德清县| 惠安县| 海口市| 田东县| 西盟| 洛阳市| 兰考县| 柳河县| 徐闻县| 民权县| 凤阳县| 年辖:市辖区| 永嘉县| 渑池县| 黎城县| 甘谷县| 翁源县| 乌审旗| 湛江市| 灵璧县| 元谋县| 特克斯县| 铜梁县| 大厂| 石嘴山市| 故城县| 和平县| 前郭尔| 闸北区| 铁岭市| 永昌县| 丁青县|