• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向神經(jīng)機器翻譯的樞軸方法研究綜述

      2022-08-19 08:20:18黎家全王麗清蔣曉敏徐永躍
      計算機工程與應(yīng)用 2022年16期
      關(guān)鍵詞:樞軸源語言目標語言

      黎家全,王麗清,李 鵬,蔣曉敏,徐永躍

      1.云南大學 信息學院,昆明 650091

      2.云南廣播電視臺,昆明 650500

      近年來,神經(jīng)機器翻譯(neural machine translation,NMT)發(fā)展迅速[1-4],已替代統(tǒng)計機器翻譯(statistical machine translation,SMT)成為機器翻譯領(lǐng)域的主流方法。但神經(jīng)機器翻譯過度依賴于大量的平行訓練數(shù)據(jù),在低資源語言的翻譯任務(wù)上,神經(jīng)機器翻譯的性能會急劇下降[5-6]。因此,低資源神經(jīng)機器翻譯(low-resource neural machine translation)一直是神經(jīng)機器翻譯領(lǐng)域的一項重大挑戰(zhàn)[7]。

      針對低資源機器翻譯的數(shù)據(jù)匱乏問題,基于樞軸的方法(pivot-based methods)為此提供了思路?;跇休S的方法曾經(jīng)在SMT 中得以應(yīng)用[8-11],目前也作為零資源NMT的一個強基線存在。它通過引入一種語料資源豐富的第三方語言作為樞軸,利用樞軸語言的平行語料來橋接源語言和目標語言[12],在一定程度上緩解了因數(shù)據(jù)匱乏帶來的機器翻譯質(zhì)量差的問題。

      最經(jīng)典的樞軸策略也就是樞軸翻譯(pivot translation),是先從源語言翻譯到樞軸語言,再從樞軸語言翻譯到目標語言,最終得到目標語言的翻譯結(jié)果。雖然該方法簡單有效,但需要經(jīng)過兩步翻譯,既造成了錯誤傳遞問題[13],又增倍了解碼時間。

      因而,又有了將樞軸思想應(yīng)用于擴充訓練數(shù)據(jù)的偽平行數(shù)據(jù)生成(pivot-based pseudo-parallel data generation),以及應(yīng)用到模型訓練和構(gòu)建中的遷移學習和多語言翻譯模型構(gòu)建的方法。

      根據(jù)樞軸思想在神經(jīng)機器翻譯中的不同應(yīng)用,本文從直接取得翻譯結(jié)果的樞軸翻譯、基于樞軸的偽平行數(shù)據(jù)生成和基于樞軸的模型構(gòu)建三方面,通過對不同方法的概述、總結(jié)、比較和分析,歸納不同方法的優(yōu)點、局限性和應(yīng)用場景,并對未來可能的研究趨勢和關(guān)鍵技術(shù)問題進行展望,為相關(guān)研究提供參考。

      1 樞軸翻譯

      樞軸翻譯,也被稱為級聯(lián)方法(cascaded approach)[14]。如圖1所示,該方法使用一種語料豐富的語言作為中間橋梁,通過樞軸語言將源-樞軸和樞軸-目標翻譯模型連接起來。這樣,就可以借助于樞軸語言的平行語料間接地實現(xiàn)源語言到目標語言的翻譯,進而達到提高低資源語言翻譯質(zhì)量的目的。

      圖1 樞軸翻譯Fig.1 Pivot translation

      樞軸翻譯從結(jié)構(gòu)上,屬于間接方式,并沒有得到源和目標之間的直接翻譯模型,也因此導致錯誤傳遞問題。尤其是在樞軸語言的平行語料缺乏的情況下,錯誤傳遞問題會更加突出,此時樞軸翻譯的質(zhì)量甚至比直接翻譯的更差[15]。同時,這種兩步翻譯的方式也增倍了解碼時間。針對這個問題,目前的主要解決方法可分為三種。

      (1)減少源-樞軸的翻譯錯誤

      一方面,通過增加源-樞軸一側(cè)的訓練數(shù)據(jù)[16-17],提高源-樞軸模型的翻譯質(zhì)量。另一方面,還可以利用樞軸翻譯與模型結(jié)構(gòu)無關(guān)的特點,將樞軸-目標模型擴展為多源NMT[18-20],盡可能地消除在源-樞軸翻譯中所帶來的翻譯歧義。但在上述兩種方法中,兩個翻譯模型仍然是分開訓練的,而且在訓練期間沒有任何關(guān)聯(lián)。

      (2)增加源-樞軸與樞軸-目標兩個模型的關(guān)聯(lián)

      為了進一步緩解錯誤傳遞問題,提出了對源-樞軸和樞軸-目標模型進行聯(lián)合優(yōu)化的方法[21-23],以加強兩個翻譯模型在訓練期間的關(guān)聯(lián)。Cheng[22]通過共享樞軸語言的詞嵌入,聯(lián)合訓練兩個模型,使得兩個模型在訓練過程中相互促進。相對于傳統(tǒng)的樞軸翻譯方法,聯(lián)合訓練方法減少了錯誤累積,翻譯質(zhì)量有所提升。Ren 等[23]在此基礎(chǔ)上,又提出了一種雙向的期望最大化(expectationmaximization,EM)算法,來直接訓練源-目標模型,并在四個翻譯方向上進行聯(lián)合的迭代訓練,進一步提高了質(zhì)量。

      (3)選擇相似度更高的樞軸語言

      除了平行語料規(guī)模外,語言相似性也會影響樞軸翻譯的質(zhì)量。一般而言,樞軸語言跟源語言和目標語言的語言相似性越高,對樞軸翻譯就越有利[24-25]。Leng 等[26]綜合平行語料規(guī)模和語言相似性兩個因素,設(shè)計了一種學習路由算法,該算法可以自動選擇一種或多種樞軸語言來進行多跳翻譯,有效地改善了無監(jiān)督翻譯在遠程語言之間的翻譯質(zhì)量。

      總體來說,樞軸翻譯由于本質(zhì)上依賴于所選樞軸語言與源和目標之間的語料數(shù)據(jù)、語言相似度,以及兩個模型本身的性能,其間接生成結(jié)果的方式是導致錯誤傳遞問題的根本原因。因此,提出了利用樞軸思想進行數(shù)據(jù)增強以及直接構(gòu)建模型的方法。

      2 基于樞軸的偽平行數(shù)據(jù)生成

      基于樞軸的偽平行數(shù)據(jù)生成是以樞軸語言作為中間橋梁,生成源語言和目標語言之間的偽平行數(shù)據(jù),用于數(shù)據(jù)增強。通過訓練數(shù)據(jù)的擴充,實現(xiàn)對翻譯系統(tǒng)進一步的改進。但不足在于偽平行數(shù)據(jù)的質(zhì)量不能保證,當偽平行數(shù)據(jù)包含過多的數(shù)據(jù)噪聲時,反而會損害翻譯的質(zhì)量。

      從分類上,主要有利用平行語料和利用單語語料的生成方法。

      2.1 基于平行語料的生成

      按照生成方向的不同,利用樞軸語言的平行語料庫來生成偽平行數(shù)據(jù)可以分為:源端偽數(shù)據(jù)生成和目標端偽數(shù)據(jù)生成。源端偽數(shù)據(jù)生成是利用回譯方法(backtranslation)[27],將樞軸-目標平行語料的樞軸語言一側(cè)反向翻譯為源語言[28]。

      目標端偽數(shù)據(jù)生成是將源-樞軸平行語料的樞軸語言一側(cè)正向翻譯為目標語言[29]。最后將翻譯結(jié)果與原有語料組合,進而形成源語言-目標語言的偽平行數(shù)據(jù)。利用平行語料的生成方法如圖2所示。

      圖2 利用平行語料的生成方法Fig.2 Generation method based on parallel corpus

      偽平行數(shù)據(jù)給低資源語言的機器翻譯帶來了一定程度的質(zhì)量提升。文獻[30-31]將樞軸語言回譯到源語言,擴充了大量的偽平行語料,并與原有語料混合,提高了低資源語言對的翻譯質(zhì)量。Park 等[32]生成源端和目標端的偽數(shù)據(jù)并混合,同時增強了編碼器和解碼器的能力,相比只生成源端或目標端偽數(shù)據(jù)的方法取得了更好的數(shù)據(jù)增強效果。

      但利用平行語料的生成方法需要依賴一個翻譯模型,因此該翻譯模型的質(zhì)量越高,生成的偽平行數(shù)據(jù)質(zhì)量就越高,對源-目標翻譯模型的質(zhì)量提升也就越大[33]。如果該翻譯模型的質(zhì)量較低,生成的偽數(shù)據(jù)會包含過多的數(shù)據(jù)噪聲,以致?lián)p害最終翻譯系統(tǒng)的性能[34-35]。因此,選擇生成源端還是目標端的偽數(shù)據(jù),主要根據(jù)生成偽平行數(shù)據(jù)的翻譯模型質(zhì)量來選擇。

      盡管利用平行語料的生成方法避免了錯誤傳遞問題,但受數(shù)據(jù)噪聲的影響,可能會取得比樞軸翻譯更差的翻譯性能。為了減弱數(shù)據(jù)噪聲對源-目標翻譯模型的影響,可以在數(shù)據(jù)生成階段進行優(yōu)化。通過最大期望似然估計(maximum expected likelihood estimation)方法最大化合成源語言句子的期望[36],或者加強在單詞級別的數(shù)據(jù)生成[37-38],均可有效減少偽數(shù)據(jù)生成過程中產(chǎn)生的翻譯錯誤,比直接生成偽數(shù)據(jù)的方法及樞軸翻譯方法獲得更高的BLEU分數(shù)。

      2.2 基于單語語料的生成

      與基于平行語料的生成方法類似,基于單語語料的生成方法也有兩個生成方向,即分別基于反向和正向的樞軸翻譯方法,生成源端偽數(shù)據(jù)和目標端偽數(shù)據(jù)。除此之外,由于樞軸語言的單語語料在三種語言中往往是資源最豐富并且質(zhì)量最高的,Currey等[39]還將樞軸語言分別翻譯到源語言和目標語言,生成了更多高質(zhì)量的偽平行數(shù)據(jù)。

      同樣是利用目標語言的單語語料,直接回譯的方法沒有足夠的源-目標平行語料訓練回譯模型,而經(jīng)過樞軸語言間接回譯到源語言,則可利用樞軸語言的平行語料訓練兩個質(zhì)量較高的回譯模型,得到比直接回譯更好的結(jié)果[40-41]。

      一般而言,單語語料比平行語料更容易獲取,因此利用單語語料的生成方法可以擴充更多的偽平行數(shù)據(jù),給翻譯模型帶來更大的增益[39,42]。然而,利用單語語料的生成方法需要依賴于兩個翻譯模型,只要存在一個模型的質(zhì)量較低時,生成的偽平行數(shù)據(jù)就會存在大量的數(shù)據(jù)噪聲,反而導致結(jié)果質(zhì)量更差[43]。

      因此,無論是利用平行語料還是單語語料的生成方法,都對生成偽數(shù)據(jù)的翻譯模型質(zhì)量有著較高的要求。相對于利用平行語料的生成方法,由于單語語料規(guī)模更大,利用單語語料可以生成更多的偽平行數(shù)據(jù)。但也因為利用單語語料的生成方法需要依賴于兩個翻譯模型,所以生成的偽平行數(shù)據(jù)質(zhì)量也更差。

      3 基于樞軸的模型構(gòu)建

      基于樞軸的模型構(gòu)建(pivot-based model construction)是將樞軸思想與遷移學習或多語言神經(jīng)機器翻譯等技術(shù)結(jié)合起來,直接對源-目標翻譯模型進行訓練,省去了生成偽平行數(shù)據(jù)的步驟,弱化了數(shù)據(jù)噪聲的影響,最終得到的是源-目標的翻譯模型。

      基于樞軸的遷移學習和樞軸結(jié)合多語言神經(jīng)機器翻譯方法均可利用源-樞軸和樞軸-目標翻譯模型的參數(shù),將樞軸語言的翻譯知識遷移到源-目標的翻譯中。兩者的不同在于,前者采取遷移參數(shù)的方式,將兩個預(yù)訓練模型的參數(shù)遷移到最終的模型上并進行微調(diào)。后者則采取共享參數(shù)的方式,為所有的語言對聯(lián)合訓練一個通用的模型,省略了微調(diào)的步驟。

      3.1 基于樞軸的遷移學習

      在低資源語言翻譯中,遷移學習技術(shù)是將高資源語言對的模型參數(shù)遷移到低資源語言對上[44],使低資源語言對獲取到高資源語言對的翻譯知識。

      與基于樞軸的方法類似,遷移學習也引入了一種第三方語言(稱為輔助語言)。但兩者的不同在于,遷移學習通常只利用源語言-輔助語言和輔助語言-目標語言平行語料庫中的一個[45-46],并沒有同時使用兩個平行語料庫來對源語言和目標語言進行橋接。

      為了能同時利用源-樞軸和樞軸-目標平行語料,Kim等[47]將樞軸策略應(yīng)用到遷移學習中,提出了基于樞軸的遷移學習方法,如圖3所示。該方法首先預(yù)訓練源-樞軸和樞軸-目標翻譯模型,然后直接將源語言編碼器和目標語言編碼器組合起來,最后經(jīng)過微調(diào)得到最終模型。

      圖3 基于樞軸的遷移學習方法Fig.3 Pivot-based transfer learning method

      這種方法的優(yōu)勢體現(xiàn)在:源-樞軸翻譯模型的編碼器和解碼器不是隨機初始化的,而是分別從兩個預(yù)訓練模型遷移過來,這為源-目標翻譯模型提供了一個良好的訓練起點,使編碼器和解碼器在微調(diào)之前就學習到了一些翻譯知識。因此,無論是低資源語言對還是高資源語言對,都能從樞軸語言的知識遷移中獲益,并取得比直接翻譯更高的翻譯質(zhì)量[48-49]。Yu等[50]還研究了語言相關(guān)性對遷移學習的影響,結(jié)果表明樞軸語言與源語言或目標語言之間的相似性越高,對遷移學習也越有利。

      然而,源-目標翻譯模型的編碼器和解碼器分別來自兩個不同的預(yù)訓練模型,這會導致編碼器和解碼器之間的輸入/輸出不一致,從而放大了預(yù)訓練模型與最終模型之間的差異。

      為了減小差異,主要的改進思路是讓源語言和樞軸語言共享同一個編碼器,使得樞軸語言能更平滑地橋接預(yù)訓練的源語言編碼器和目標語言解碼器。一種方法是凍結(jié)源語言編碼器,并使用源語言和樞軸語言的聯(lián)合詞表,使得編碼器能有效地表示這兩種語言[47]。另一種方法是利用源-樞軸平行語料和源語言單語語料,通過跨語言預(yù)訓練技術(shù),直接預(yù)訓練一個源語言和樞軸語言的通用編碼器[51]。結(jié)果表明,以上兩種方法均比圖3 的方法取得了更好的遷移效果。

      3.2 樞軸語言結(jié)合多語言神經(jīng)機器翻譯

      多語言神經(jīng)機器翻譯(multilingual neural machine translation,MNMT)是通過參數(shù)共享,在一個通用模型上實現(xiàn)多個語言對的翻譯[52-54]。在低資源語言翻譯中,由于缺乏可用的平行語料,MNMT中的源語言和目標語言采用了樞軸語言實現(xiàn)橋接。本文僅從MNMT的樞軸語言機制,以及如何更好地利用樞軸語言的角度進行分析。

      MNMT 可以看作一個隱式的樞軸系統(tǒng),因為在多語言翻譯模型訓練和翻譯的期間,樞軸語言都是不可見的。因此,這種利用樞軸語言的方式也被稱為隱式橋接(implicit bridging)[55]。隱式橋接通過共享編碼器、解碼器以及中間的注意力機制來實現(xiàn)[56-57]。這樣,受益于跨語言的知識遷移[58],低資源語言可以從高資源語言中學習翻譯知識,從而提高低資源語言對的翻譯質(zhì)量。在樞軸語言選擇上,現(xiàn)有研究大多采用英語作為樞軸語言[59-60],使用以英語為中心的語料庫訓練多語言翻譯模型。

      與傳統(tǒng)的樞軸翻譯方法相比,MNMT 可以直接實現(xiàn)未經(jīng)訓練的語言對之間的翻譯,即零樣本翻譯,避免了錯誤傳遞和時間增倍的問題。但有研究表明,MNMT在零樣本翻譯場景下的性能不佳,而且通常落后于樞軸翻譯方法[61-62]。

      為了提高MNMT 的零樣本翻譯質(zhì)量,研究者們提出了一種多橋模型(mutil-bridge models)[63]。該模型加入了非英語語言對的平行語料訓練,利用多種樞軸語言的數(shù)據(jù)來改善低資源語言翻譯的質(zhì)量。例如,Rios等[64]僅添加了少量的非英語平行語料,就使6個零樣本翻譯方向的BLEU 平均提高了3.1 個百分點。Fan 等[65]利用語言相似性對語言進行分組,在使用英語作為樞軸語言的同時,又在每個語言組中選取1~3種高資源語言來橋接組內(nèi)之間的語言,提高了多個非英語低資源語言對的翻譯質(zhì)量。

      4 主要樞軸方法的對比分析

      針對樞軸思想在神經(jīng)機器翻譯領(lǐng)域的應(yīng)用,表1從不同方法的機制、適用場景、優(yōu)點、局限性等方面進行了分析和比較。

      從表1中可以看出,樞軸翻譯和基于樞軸的偽平行數(shù)據(jù)生成都屬于間接建模的方法,這分別帶來了錯誤傳遞問題和數(shù)據(jù)噪聲問題。雖然樞軸翻譯方法簡單方便,但其兩步翻譯的過程既造成了錯誤傳遞問題,又增倍了解碼時間。

      表1 主要樞軸方法對比Table 1 Comparison of pivot-based methods

      基于樞軸的偽平行數(shù)據(jù)生成則利用偽平行數(shù)據(jù)訓練源-目標翻譯模型,避免了錯誤傳遞。但生成的偽平行數(shù)據(jù)質(zhì)量不能保證,如果存在過多的數(shù)據(jù)噪聲,反而會對翻譯模型的質(zhì)量產(chǎn)生負面影響。

      基于樞軸的模型構(gòu)建則通過利用源-樞軸與樞軸-目標翻譯模型的參數(shù),直接對源-目標翻譯模型建模,在避免錯誤傳遞的同時,也弱化了數(shù)據(jù)噪聲的影響。但此類方法在零樣本翻譯場景下性能不佳,甚至比不過傳統(tǒng)的樞軸翻譯方法。基于樞軸的遷移學習由于沒有可用的源-目標平行語料用于微調(diào),使得遷移后的最終模型難以適應(yīng)源-目標翻譯任務(wù)。樞軸結(jié)合多語言神經(jīng)機器翻譯則共享所有語言的參數(shù),因此可以從更多的語言中獲取知識,一定程度上提高了零樣本翻譯的性能。

      盡管如此,樞軸結(jié)合多語言神經(jīng)機器翻譯方法仍然成為了目前的研究熱點,并擁有著廣闊的研究前景。主要原因有:第一,能在單個通用模型上進行多個語言對之間的翻譯,因此被廣泛應(yīng)用于谷歌翻譯等多語種翻譯引擎中;第二,可以有效利用多種語言的數(shù)據(jù),進一步解決了平行語料匱乏的問題。

      5 結(jié)束語

      基于樞軸的方法為解決目前低資源語言的機器翻譯問題提供了思路,有效地緩解了訓練語料匱乏的問題,提高了低資源語言神經(jīng)機器翻譯的質(zhì)量。然而,基于樞軸的方法仍然存在一些問題和挑戰(zhàn),需要未來進一步研究和探索。

      (1)錯誤傳遞問題

      樞軸翻譯在零樣本翻譯場景下仍然具有競爭力,但錯誤傳遞問題限制了其性能提升。因此,如何更好地減少錯誤傳遞來改善樞軸翻譯,仍有待進一步的研究。

      (2)非真實數(shù)據(jù)建模

      受限于生成偽平行數(shù)據(jù)的翻譯模型質(zhì)量,基于樞軸生成的偽平行數(shù)據(jù)的質(zhì)量不能得到保證,還可能面臨生成數(shù)量較少的問題。因此,考慮提升偽平行數(shù)據(jù)的質(zhì)量,以及將基于樞軸的偽平行數(shù)據(jù)生成方法與其他數(shù)據(jù)增強方法結(jié)合使用,擴大偽平行數(shù)據(jù)的數(shù)量,是非常有意義的研究方向。

      (3)源語言編碼器與目標語言解碼器不匹配問題

      在基于樞軸的遷移學習中,由于源語言編碼器與目標語言解碼器來自兩個不同的預(yù)訓練模型,導致兩者在輸入/輸出方面的不一致性。研究樞軸語言與源語言或目標語言之間通用空間表示的可能性,或者研究選用相似性高的樞軸語言,為這個問題的研究提供了思路。

      (4)樞軸語言語料匱乏

      對于一些資源極度匱乏的低資源語言而言,與樞軸語言之間的平行語料也將變得難以獲取。因此,結(jié)合多語言NMT 利用多種樞軸語言的數(shù)據(jù),或者考慮利用圖像和音譯等多模態(tài)數(shù)據(jù)作為樞軸[66-69],有待進一步研究和探索。

      總之,未來如何將樞軸思想應(yīng)用在更多渠道、更大規(guī)模、更高質(zhì)量的數(shù)據(jù)生成和增強,以及基于模型的生成和泛化方面,仍有待學者們進一步地創(chuàng)新和研究,以期為低資源神經(jīng)機器翻譯的研究提供更多的思路和參考。

      猜你喜歡
      樞軸源語言目標語言
      WK-35 電鏟中央樞軸液氮冷裝工藝研究
      探討參數(shù)區(qū)間估計中樞軸量的選取——以單個正態(tài)總體均值為例
      礦用卡車廂斗樞軸銷外竄原因分析及加固措施
      林巍《知識與智慧》英譯分析
      淺析日語口譯譯員素質(zhì)
      北方文學(2018年18期)2018-09-14 10:55:22
      教材插圖在英語課堂閱讀教學中的運用及實例探討
      文理導航(2017年25期)2017-09-07 15:38:18
      跨文化視角下對具有修辭手法諺語英譯漢的研究
      速讀·下旬(2016年7期)2016-07-20 08:50:28
      抽水蓄能電站球閥樞軸軸套故障分析及改造
      以口譯實例談雙語知識的必要性
      考試周刊(2015年36期)2015-09-10 15:03:38
      二語習得過程中的石化現(xiàn)象分析
      七台河市| 绥德县| 长海县| 青铜峡市| 陕西省| 云和县| 获嘉县| 哈尔滨市| 邛崃市| 成都市| 西安市| 朝阳县| 油尖旺区| 体育| 荃湾区| 胶州市| 阜康市| 合作市| 离岛区| 且末县| 兴安盟| 盘山县| 兴和县| 张家口市| 陵川县| 本溪市| 康定县| 博白县| 衡南县| 霍邱县| 昌吉市| 亳州市| 武清区| 渭源县| 油尖旺区| 嘉祥县| 金山区| 河津市| 施甸县| 义乌市| 元朗区|