• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向低資源神經(jīng)機(jī)器翻譯的回譯方法

      2021-06-22 09:08:00張文博張新路楊雅婷
      關(guān)鍵詞:蒙漢目標(biāo)語(yǔ)言語(yǔ)料

      張文博,張新路,楊雅婷,董 瑞,李 曉*

      (1.中國(guó)科學(xué)院新疆理化技術(shù)研究所,新疆 烏魯木齊 830011;2.中國(guó)科學(xué)院大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,北京 100049;3.新疆民族語(yǔ)音語(yǔ)言信息處理實(shí)驗(yàn)室,新疆 烏魯木齊 830011)

      端到端的神經(jīng)機(jī)器翻譯方法已經(jīng)成為目前主流的機(jī)器翻譯方法[1-3].在高資源語(yǔ)言對(duì)之間的翻譯任務(wù)上,神經(jīng)機(jī)器翻譯已經(jīng)取得令人滿意的效果;但對(duì)大多數(shù)領(lǐng)域或語(yǔ)言對(duì)來(lái)說,足夠數(shù)量的高質(zhì)量平行語(yǔ)料往往難以獲取.相對(duì)于平行語(yǔ)料而言,單語(yǔ)數(shù)據(jù)廣泛地存在于互聯(lián)網(wǎng)上,往往更容易獲取,因此利用單語(yǔ)數(shù)據(jù)提高低資源神經(jīng)機(jī)器翻譯質(zhì)量成為一種常用的手段[4-8].

      下一個(gè)目標(biāo)語(yǔ)言單詞可通過平行語(yǔ)料訓(xùn)練得到的神經(jīng)機(jī)器翻譯模型,根據(jù)源語(yǔ)言句子和之前的目標(biāo)語(yǔ)言單詞預(yù)測(cè)得到;而語(yǔ)言模型可以根據(jù)之前的目標(biāo)語(yǔ)言單詞給出下一個(gè)目標(biāo)語(yǔ)言單詞的概率分布,并且其只需要單語(yǔ)數(shù)據(jù)訓(xùn)練得到.因此,通過語(yǔ)言模型來(lái)利用大規(guī)模的單語(yǔ)數(shù)據(jù)是一個(gè)自然的方式.Gulcehre等[4]提出通過淺融合和深融合的方式將語(yǔ)言模型整合到神經(jīng)機(jī)器翻譯模型中,在預(yù)測(cè)下一個(gè)目標(biāo)語(yǔ)言單詞時(shí),該模型可以綜合語(yǔ)言模型和翻譯模型的打分;Skorokhodov等[5]利用大量的源語(yǔ)言和目標(biāo)語(yǔ)言單語(yǔ)數(shù)據(jù)分別訓(xùn)練源語(yǔ)言和目標(biāo)語(yǔ)言的語(yǔ)言模型,然后利用語(yǔ)言模型初始化翻譯模型的參數(shù),在預(yù)測(cè)下一個(gè)目標(biāo)語(yǔ)言單詞時(shí),合并目標(biāo)語(yǔ)言模型的打分.雖然語(yǔ)言模型可以提高低資源神經(jīng)機(jī)器翻譯的質(zhì)量,但是通常需要對(duì)翻譯模型進(jìn)行大量的修改來(lái)整合語(yǔ)言模型和翻譯模型,這使神經(jīng)機(jī)器翻譯模型變得更加復(fù)雜.Sennrich等[7]提出一個(gè)基于回譯的數(shù)據(jù)增強(qiáng)方法.該方法通過一個(gè)反向的翻譯模型將目標(biāo)語(yǔ)言單語(yǔ)數(shù)據(jù)翻譯成源語(yǔ)言數(shù)據(jù),并和原始目標(biāo)語(yǔ)言單語(yǔ)數(shù)據(jù)聯(lián)合形成偽平行語(yǔ)料;合并偽平行語(yǔ)料和真實(shí)的平行語(yǔ)料可以提升語(yǔ)料規(guī)模,從而提升翻譯效果.Hoang等[8]提出通過迭代回譯,同時(shí)利用源語(yǔ)言單語(yǔ)數(shù)據(jù)和目標(biāo)語(yǔ)言單語(yǔ)數(shù)據(jù)進(jìn)一步提升翻譯效果.

      基于回譯的方法可以不用修改神經(jīng)機(jī)器翻譯模型就能有效地利用單語(yǔ)數(shù)據(jù);但是當(dāng)平行語(yǔ)料規(guī)模較小時(shí),通過回譯生成的偽平行語(yǔ)料質(zhì)量往往較差,而且大規(guī)模的偽數(shù)據(jù)和較小規(guī)模的平行語(yǔ)料混合使得真實(shí)的平行語(yǔ)料難以被有效地利用.針對(duì)這些問題,本文提出一種針對(duì)較小規(guī)模平行語(yǔ)料下的解決方案.該方法通過調(diào)節(jié)字節(jié)對(duì)編碼(BPE)[9]融合數(shù)以及失活率(dropout)[10]參數(shù)來(lái)訓(xùn)練一個(gè)盡可能好的低資源神經(jīng)機(jī)器翻譯系統(tǒng),從而提升偽平行語(yǔ)料的質(zhì)量;將漢語(yǔ)單語(yǔ)按照詞覆蓋率劃分成不同領(lǐng)域相似的單語(yǔ)數(shù)據(jù),從而通過回譯利用漢語(yǔ)單語(yǔ)數(shù)據(jù)生成偽平行語(yǔ)料和高領(lǐng)域相似的偽平行語(yǔ)料;通過分段訓(xùn)練分別利用偽平行語(yǔ)料和領(lǐng)域相似的偽平行語(yǔ)料進(jìn)行預(yù)訓(xùn)練和微調(diào);使用模型平均和模型集成提升系統(tǒng)的魯棒性,進(jìn)一步提升翻譯質(zhì)量.

      1 數(shù)據(jù)及預(yù)處理

      本文使用第16屆全國(guó)機(jī)器翻譯大會(huì)(CCMT 2020)提供的維吾爾語(yǔ)-漢語(yǔ)(維漢)、蒙古語(yǔ)-漢語(yǔ)(蒙漢)平行語(yǔ)料以及漢語(yǔ)單語(yǔ)語(yǔ)料搭建翻譯系統(tǒng),并進(jìn)行對(duì)比實(shí)驗(yàn).其中維漢平行語(yǔ)料是新聞?lì)I(lǐng)域數(shù)據(jù),蒙漢平行語(yǔ)料是日常用語(yǔ)數(shù)據(jù),漢語(yǔ)單語(yǔ)語(yǔ)料是新聞?lì)I(lǐng)域數(shù)據(jù).

      1.1 預(yù)處理

      數(shù)據(jù)預(yù)處理階段,過濾平行語(yǔ)料中重復(fù)的句對(duì),將語(yǔ)料中的字母和數(shù)字的全角形式轉(zhuǎn)換成半角形式.在維漢翻譯和蒙漢翻譯兩個(gè)任務(wù)中,分別使用moses腳本(https:∥github.com/moses-smt/mosesdecoder)處理維吾爾語(yǔ)和蒙古語(yǔ),使用Jieba分詞工具(https:∥github.com/fxsjy/jieba)對(duì)漢語(yǔ)分詞.

      1.2 子詞化處理

      BPE[9]是目前緩解機(jī)器翻譯任務(wù)中未登錄詞問題[11]的一種普遍方法.本文使用fastBPE工具(https:∥github.com/glample/fastBPE)處理維漢翻譯和蒙漢翻譯這兩個(gè)任務(wù),融合數(shù)分別為1 000和5 000.并聯(lián)合源語(yǔ)言和目標(biāo)語(yǔ)言進(jìn)行BPE切分處理,而不是分別處理源語(yǔ)言和目標(biāo)語(yǔ)言.相應(yīng)地,神經(jīng)機(jī)器翻譯模型中源語(yǔ)言和目標(biāo)語(yǔ)言也共享同一個(gè)嵌入(embedding)矩陣.同時(shí),本文都只使用平行語(yǔ)料作為BPE的詞頻統(tǒng)計(jì)語(yǔ)料,因此對(duì)漢語(yǔ)單語(yǔ)語(yǔ)料,分別采用維漢平行語(yǔ)料和蒙漢平行語(yǔ)料學(xué)習(xí)得到的模型進(jìn)行漢語(yǔ)單語(yǔ)切分.

      2 神經(jīng)機(jī)器翻譯模型的訓(xùn)練方法

      回譯[7]是一種能夠有效地利用目標(biāo)端單語(yǔ)數(shù)據(jù)的數(shù)據(jù)增強(qiáng)方法.針對(duì)回譯的研究有很多,如Gra?a等[12]和Edunov等[13]通過研究生成偽平行語(yǔ)料的方式對(duì)回譯進(jìn)行改進(jìn),Hoang等[8]提出同時(shí)利用源語(yǔ)言單語(yǔ)數(shù)據(jù)和目標(biāo)語(yǔ)言單語(yǔ)數(shù)據(jù)的回譯方法.基于回譯的方法中一般都使用和平行語(yǔ)料數(shù)量相差不大的單語(yǔ)數(shù)據(jù),本文也通過回譯利用漢語(yǔ)單語(yǔ)數(shù)據(jù)提升維漢和蒙漢翻譯質(zhì)量;但為了能在低資源情況下利用盡可能多的漢語(yǔ)單語(yǔ)數(shù)據(jù),本文采用首先在大規(guī)模偽平行語(yǔ)料上預(yù)訓(xùn)練,再在高領(lǐng)域相似的偽平行語(yǔ)料上微調(diào)這樣分段式的訓(xùn)練方法來(lái)訓(xùn)練翻譯模型.除此之外,本文在生成偽平行語(yǔ)料時(shí),還采用隨機(jī)采樣(sampling)[13]和過濾質(zhì)量較差的偽平行句對(duì)來(lái)提升翻譯質(zhì)量.回譯所用模型為Transformer_big.

      2.1 偽平行語(yǔ)料生成

      首先訓(xùn)練一個(gè)目標(biāo)端到源端的翻譯模型,利用翻譯模型將篩選到的目標(biāo)端單語(yǔ)語(yǔ)料翻譯成源端單語(yǔ)語(yǔ)料,翻譯得到的源端單語(yǔ)語(yǔ)料和原來(lái)的目標(biāo)端單語(yǔ)語(yǔ)料聯(lián)合構(gòu)成偽平行語(yǔ)料.在解碼過程中,為了增強(qiáng)數(shù)據(jù)多樣性,本文設(shè)集束大小(beam size)為1,并使用隨機(jī)采樣[13]的方式生成源端數(shù)據(jù).迭代回譯[8]可以同時(shí)利用源端單數(shù)數(shù)據(jù)和目標(biāo)端單語(yǔ)數(shù)據(jù)獲得更好的效果,但是本次評(píng)測(cè)只提供漢語(yǔ)單語(yǔ)數(shù)據(jù),因此本文中的偽平行語(yǔ)料由在平行語(yǔ)料訓(xùn)練得到的反向翻譯模型和漢語(yǔ)單語(yǔ)數(shù)據(jù)一次生成.為了過濾噪聲數(shù)據(jù),本文刪除偽平行語(yǔ)料中長(zhǎng)度(BPE之后)小于5或大于250以及長(zhǎng)度比大于2的句對(duì).

      2.2 高領(lǐng)域相似偽平行語(yǔ)料

      與Zhang等[14]的研究類似,本文根據(jù)單語(yǔ)句子中所有詞在平行語(yǔ)料詞典中出現(xiàn)的比例挑選和平行語(yǔ)料領(lǐng)域接近的單語(yǔ)數(shù)據(jù).為了降低平行語(yǔ)料中低頻詞的干擾,在統(tǒng)計(jì)完平行語(yǔ)料的詞典(BPE之前)之后,刪除詞典中頻率小于3的詞.對(duì)維漢翻譯和蒙漢翻譯,本文均挑選比例大于0.9的漢語(yǔ)單語(yǔ)句子用來(lái)生成偽平行語(yǔ)料.同時(shí)本文還從比例等于1的漢語(yǔ)單語(yǔ)數(shù)據(jù)中額外提取一份作為高領(lǐng)域相似的單語(yǔ)數(shù)據(jù),并通過回譯生成高領(lǐng)域相似偽平行語(yǔ)料,即高領(lǐng)域相似偽平行語(yǔ)料的漢語(yǔ)部分句子中所有詞都在平行語(yǔ)料詞典中出現(xiàn)過.生成的偽平行語(yǔ)料和高領(lǐng)域相似偽平行語(yǔ)料主要用于下面的分段式訓(xùn)練方法.

      2.3 分段式訓(xùn)練方法

      回譯常見的做法是將偽平行語(yǔ)料和平行語(yǔ)料合并作為新的平行語(yǔ)料,用來(lái)直接訓(xùn)練翻譯模型或者微調(diào)[7].由于單語(yǔ)語(yǔ)料的規(guī)模要遠(yuǎn)大于平行語(yǔ)料,所以直接合并訓(xùn)練并不能有效地利用平行語(yǔ)料.過采樣雖然可以使平行語(yǔ)料和偽平行語(yǔ)料保持接近的比例,但是對(duì)平行語(yǔ)料采樣次數(shù)過多也容易使得模型對(duì)平行語(yǔ)料過擬合.因此本文使用兩段式的訓(xùn)練方法:第一階段只使用所有偽平行語(yǔ)料訓(xùn)練翻譯模型;第二階段將高領(lǐng)域相似的偽平行語(yǔ)料(由經(jīng)過篩選得到的高領(lǐng)域相似的漢語(yǔ)單語(yǔ)生成)和平行語(yǔ)料結(jié)合,繼續(xù)訓(xùn)練翻譯模型,并且在訓(xùn)練過程中使用過采樣使偽平行語(yǔ)料和平行語(yǔ)料保持1∶1的比例.對(duì)于維漢翻譯任務(wù),本文在第二階段訓(xùn)練完成之后,進(jìn)一步使用平行語(yǔ)料微調(diào).

      3 模型平均和集成

      模型平均和集成都可以提升模型的魯棒性,有助于進(jìn)一步提升翻譯質(zhì)量.前者將同一個(gè)模型在訓(xùn)練階段不同時(shí)刻保存的參數(shù)平均作為最后的模型參數(shù);后者使用多個(gè)模型同時(shí)解碼,在生成候選詞概率表時(shí),將多個(gè)模型生成的概率詞表平均作為用于生成下一個(gè)詞的概率表.本文對(duì)翻譯模型進(jìn)行多次訓(xùn)練和微調(diào),在每個(gè)訓(xùn)練階段之后,根據(jù)在驗(yàn)證集上的表現(xiàn),選擇平均最后5或10個(gè)模型或最佳模型作為該階段的輸出模型.對(duì)維漢和蒙漢本文分別使用3個(gè)不同的隨機(jī)種子訓(xùn)練3個(gè)模型(這3個(gè)模型中的每個(gè)模型都是平均之后的模型或best模型),最后集成這3個(gè)模型對(duì)測(cè)試集進(jìn)行解碼.

      4 實(shí) 驗(yàn)

      4.1 參數(shù)設(shè)置

      使用開源工具fairseq(https:∥github.com/pytorch/fairseq)在兩塊32 G英偉達(dá)V100顯卡上進(jìn)行機(jī)器翻譯模型的訓(xùn)練.本文采用transformer_big模型[3]作為翻譯模型,并且使用GELU激活函數(shù).在訓(xùn)練中,使用fairseq的update-freq將每個(gè)批次(batch)的最大標(biāo)記(token)設(shè)置為64 000.為了節(jié)省時(shí)間,在CCMT 2020評(píng)測(cè)時(shí)使用Transformer_base測(cè)試dropout和BPE參數(shù),最終將維漢翻譯任務(wù)的dropout(d1)設(shè)置為0.3,activation-dropout(d2)設(shè)置為0.3,attention-dropout(d3)設(shè)置為0.2,BPE融合數(shù)設(shè)為1 000;蒙漢翻譯任務(wù)的d1設(shè)置為0.3,d2和d3都設(shè)置為0,BPE融合數(shù)設(shè)為5 000.所有模型都采用Adam優(yōu)化器,在訓(xùn)練過程中,維漢第一階段使用0.000 5的學(xué)習(xí)率,蒙漢第一階段使用0.000 7的學(xué)習(xí)率,warmup設(shè)置為4 000;第二階段,warmup都設(shè)置為1 000,學(xué)習(xí)率為0.000 3.對(duì)維漢翻譯,最后使用固定學(xué)習(xí)率0.000 1在平行語(yǔ)料進(jìn)一步微調(diào).本文所有系統(tǒng)在解碼時(shí),beam size均為12.

      4.2 評(píng)測(cè)結(jié)果

      對(duì)維漢翻譯和蒙漢翻譯,都分別提交了3個(gè)結(jié)果,其中主系統(tǒng)primary-a為通過3個(gè)隨機(jī)種子利用漢語(yǔ)單語(yǔ)料分段式訓(xùn)練得到的模型進(jìn)行集成的結(jié)果.對(duì)比系統(tǒng)contrast-c為使用單語(yǔ)語(yǔ)料但沒有進(jìn)行集成的單個(gè)模型的結(jié)果,contrast-b為只使用平行語(yǔ)料訓(xùn)練得到的單個(gè)模型的結(jié)果.表1為這3個(gè)系統(tǒng)在CCMT 2020評(píng)測(cè)結(jié)果中的雙語(yǔ)互譯評(píng)估(BLEU5-SBP)分?jǐn)?shù).

      表1 不同系統(tǒng)在測(cè)試集的測(cè)試結(jié)果Tab.1 Test results of different systems on test sets

      由表1可以看出使用漢語(yǔ)單語(yǔ)語(yǔ)料可以顯著提升翻譯質(zhì)量,在維漢翻譯和蒙漢翻譯上分別提升了6.12 和7.35個(gè)百分點(diǎn).最后使用模型集成可以進(jìn)一步分別提升約0.91和2.23個(gè)百分點(diǎn).

      4.3 重要參數(shù)對(duì)比

      低資源神經(jīng)機(jī)器翻譯往往具有容易過擬合以及存在較多集外詞[11]的問題,因此本文使用transformer_big模型在平行語(yǔ)料上,通過對(duì)dropout[10,15]和BPE[9]融合數(shù)這兩個(gè)參數(shù)的調(diào)節(jié)來(lái)緩解這兩個(gè)問題.考慮到Transformer_big與Transformer_base的最佳參數(shù)可能不一樣,故對(duì)Transformer_big的dropout和BPE參數(shù)進(jìn)行驗(yàn)證.表2是在維漢翻譯和蒙漢翻譯上使用30 000融合數(shù)時(shí)不同dropout的測(cè)試結(jié)果.表3是dropout為表2中的最佳取值時(shí),在維漢翻譯和蒙漢翻譯任務(wù)中,不同BPE融合數(shù)的測(cè)試結(jié)果.

      表2 不同dropout參數(shù)在驗(yàn)證集的測(cè)試結(jié)果Tab.2 Test results of different dropoutparameters on validation sets

      表3 不同BPE融合數(shù)參數(shù)在驗(yàn)證集的測(cè)試結(jié)果Tab.3 Test results of different BPEparameters on validation sets

      從表2和3中可以看出,Transformer_big與Transformer_base的最佳dropout參數(shù)并不同,但最佳BPE融合數(shù)一致.該結(jié)果還表明dropout和BPE融合數(shù)這兩個(gè)超參數(shù)對(duì)維漢翻譯和蒙漢翻譯在低資源神經(jīng)機(jī)器翻譯中均有不同程度的影響.對(duì)低資源神經(jīng)機(jī)器翻譯,合適的dropout可以顯著提升翻譯質(zhì)量,合適的融合數(shù)也有利于提高翻譯質(zhì)量.表明通過調(diào)整dropout和BPE參數(shù)可以進(jìn)一步提高系統(tǒng)的翻譯性能.

      4.4 其他實(shí)驗(yàn)結(jié)果與分析

      為了驗(yàn)證分段式訓(xùn)練方法的有效性,本文使用multi-bleu.perl(https:∥github.com/moses-smt/mosesdecoder/scripts/generic/multi-bleu.perl)在驗(yàn)證集上計(jì)算不同系統(tǒng)基于字的BLEU[16]值.表4展現(xiàn)本文在本次評(píng)測(cè)中篩選之后得到的數(shù)據(jù)規(guī)模.表5對(duì)比了不同訓(xùn)練方式在驗(yàn)證集上的實(shí)驗(yàn)結(jié)果.

      表4 不同類型語(yǔ)料的規(guī)模Tab.4 The scales of different types of corpus

      表5 不同訓(xùn)練策略在驗(yàn)證集的結(jié)果Tab.5 The results of different training strategies on validation sets

      由表5可以看出語(yǔ)料規(guī)模對(duì)翻譯結(jié)果有著重要的影響:只使用大量的偽平行語(yǔ)料就可以獲得比只使用平行語(yǔ)料更好的性能;在偽平行語(yǔ)料的基礎(chǔ)上加上平行語(yǔ)料雖然可以獲得進(jìn)一步的提升,但是提升幅度并不大;而分段式地訓(xùn)練可以在只使用偽平行語(yǔ)料的基礎(chǔ)上獲得更顯著的提升.

      5 結(jié) 論

      本文通過調(diào)節(jié)dropout和BPE融合數(shù)兩個(gè)參數(shù),緩解了低資源神經(jīng)機(jī)器翻譯易過擬合以及存在較多低頻詞和集外詞的問題;并借助回譯,通過分段式訓(xùn)練同時(shí)有效地利用單語(yǔ)語(yǔ)料和平行語(yǔ)料資源,較大地提升了低資源情況下維漢翻譯和蒙漢翻譯的質(zhì)量.

      猜你喜歡
      蒙漢目標(biāo)語(yǔ)言語(yǔ)料
      《內(nèi)蒙古藝術(shù)》(蒙漢刊)首屆作者培訓(xùn)班掠影
      簡(jiǎn)論蒙漢蛇文化比較研究
      淺析關(guān)于蒙漢章回小說的結(jié)構(gòu)
      教材插圖在英語(yǔ)課堂閱讀教學(xué)中的運(yùn)用及實(shí)例探討
      基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
      清代歸化城土默特地區(qū)的草廠糾紛與蒙漢關(guān)系
      華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
      二語(yǔ)習(xí)得過程中的石化現(xiàn)象分析
      《苗防備覽》中的湘西語(yǔ)料
      國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
      长子县| 青海省| 龙岩市| 元氏县| 开化县| 连江县| 新沂市| 梨树县| 开化县| 龙游县| 大城县| 上杭县| 庐江县| 樟树市| 偃师市| 葵青区| 焉耆| 横山县| 台湾省| 建德市| 炎陵县| 沾益县| 清远市| 宝应县| 峨眉山市| 南平市| 新密市| 云梦县| 印江| 万盛区| 信阳市| 玉田县| 长寿区| 三河市| 灌南县| 南华县| 广水市| 剑川县| 江西省| 陆良县| 塔河县|