• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      利用循環(huán)翻譯提高維漢機(jī)器翻譯性能實(shí)踐探究

      2022-05-30 10:48:04敖乃翔郭銳宜年艾山·吾買爾
      電腦知識(shí)與技術(shù) 2022年22期
      關(guān)鍵詞:相似度篩選

      敖乃翔 郭銳 宜年 艾山·吾買爾

      摘要:目前通常使用反向翻譯來(lái)提升翻譯模型的性能。因?yàn)橥ㄟ^(guò)反向翻譯獲得的偽造數(shù)據(jù)質(zhì)量參差不齊,一般需要篩選反向翻譯得到的句子,然后與真實(shí)數(shù)據(jù)混合使用。因此,該文在維漢機(jī)器翻譯任務(wù)中,對(duì)利用BLEU值、MAS、BERT及多種相似度計(jì)算方法融合等進(jìn)行深入對(duì)比分析,并提供詳細(xì)的統(tǒng)計(jì)分析。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)循環(huán)翻譯在很大程度上可以隱式地區(qū)分不同領(lǐng)域的數(shù)據(jù)。CCMT19維漢翻譯任務(wù)上,通過(guò)將不同篩選方法的融合,翻譯性能有1.95個(gè)bleu的提升。

      關(guān)鍵詞:反向翻譯;循環(huán)翻譯;篩選;相似度

      中圖分類號(hào):TP183? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

      文章編號(hào):1009-3044(2022)22-0001-04

      1 引言

      在擁有大規(guī)模數(shù)據(jù)的語(yǔ)言對(duì)上,神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯(NMT) [1-2]獲得了令人矚目的巨大成功。但是,由于神經(jīng)網(wǎng)絡(luò)翻譯的翻譯質(zhì)量在很大程度上依賴于訓(xùn)練數(shù)據(jù)的規(guī)模、質(zhì)量以及與待翻譯數(shù)據(jù)的相關(guān)性,導(dǎo)致了其在低資源語(yǔ)言對(duì)上難以達(dá)到與資源豐富的語(yǔ)言對(duì)上的相同效果。因此如何在低資源的情況下得到高質(zhì)量的翻譯性能仍然是急需解決的問(wèn)題。Sennrich等[3]提出反向翻譯方法,利用翻譯模型將目標(biāo)端單語(yǔ)數(shù)據(jù)翻譯成偽造源端數(shù)據(jù)以獲取額外的偽造平行數(shù)據(jù)來(lái)提升翻譯模型的性能。該方法雖然可以帶來(lái)一定的提升,但是對(duì)于低資源語(yǔ)言對(duì)來(lái)說(shuō),由于其翻譯模型的翻譯精度比較低,所得到的偽造語(yǔ)料的質(zhì)量也比較差。

      為了更好地提升神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯在低資源語(yǔ)言對(duì)上的翻譯質(zhì)量。一些研究人員在反向翻譯的基礎(chǔ)上通過(guò)過(guò)濾偽造語(yǔ)料來(lái)獲取高質(zhì)量的偽造語(yǔ)料。在這篇文章中,為了解決維漢翻譯中數(shù)據(jù)缺失的問(wèn)題,文章沿用Sennrich等人的方法,不過(guò)在篩選數(shù)據(jù)時(shí),文章利用不同的相似度計(jì)算方法去評(píng)價(jià)偽造語(yǔ)料庫(kù)中數(shù)據(jù)的質(zhì)量高低。然后根據(jù)評(píng)價(jià)的結(jié)果設(shè)置不同的閾值對(duì)偽造數(shù)據(jù)庫(kù)進(jìn)行過(guò)濾,獲取不同程度質(zhì)量的數(shù)據(jù)。并根據(jù)這些數(shù)據(jù)訓(xùn)練翻譯模型。通過(guò)模型的翻譯質(zhì)量來(lái)評(píng)價(jià)循環(huán)翻譯對(duì)模型的影響。

      文章研究的主要貢獻(xiàn)有以下幾點(diǎn):

      1) 通過(guò)實(shí)驗(yàn),驗(yàn)證利用sent-bleu和循環(huán)翻譯過(guò)濾偽造語(yǔ)料來(lái)提升維漢翻譯模型性能的可行性。

      2) 通過(guò)利用不同的相似度計(jì)算方法來(lái)過(guò)濾偽造語(yǔ)料庫(kù),從而驗(yàn)證利用循環(huán)翻譯對(duì)維漢翻譯模型的影響。

      3) 通過(guò)實(shí)驗(yàn),推測(cè)循環(huán)翻譯可以隱式地區(qū)分不同領(lǐng)域的數(shù)據(jù)。

      2 相關(guān)工作

      為了解決數(shù)據(jù)稀缺問(wèn)題,Ond?ej Bojar等[4]將目標(biāo)端單語(yǔ)數(shù)據(jù)通過(guò)使用目標(biāo)端到源端的翻譯模型翻譯成偽造源端數(shù)據(jù),然后利用對(duì)齊工具進(jìn)行詞對(duì)齊獲取新的翻譯短語(yǔ)從而獲得新的翻譯信息。他們將這些新生成的翻譯信息添加到翻譯模型中以提升模型性能。Sennrich等提出反向翻譯的方法,利用目標(biāo)端到源端的基線翻譯模型將目標(biāo)端單語(yǔ)數(shù)據(jù)翻譯為偽造源端數(shù)據(jù),從而獲得偽造平行數(shù)據(jù)。然后用偽造平行數(shù)據(jù)與人工標(biāo)注的平行數(shù)據(jù)融合后的新數(shù)據(jù)來(lái)訓(xùn)練翻譯模型,取得了比較客觀的提升。

      在低精度機(jī)器翻譯系統(tǒng)中,單純地使用反向翻譯得到的偽造數(shù)據(jù)與人工標(biāo)注的平行數(shù)據(jù)合并后訓(xùn)練得到翻譯模型的性能比只利用平行數(shù)據(jù)訓(xùn)練得到的翻譯模型性能要低一些。Imankulova等[5]提出來(lái)一種過(guò)濾偽造數(shù)據(jù)庫(kù)的方法:利用反向翻譯將目標(biāo)端單語(yǔ)數(shù)據(jù)翻譯為源端數(shù)據(jù),然后再將偽造的源端數(shù)據(jù)翻譯為目標(biāo)端數(shù)據(jù)。通過(guò)sent-bleu[6]計(jì)算偽造的目標(biāo)端數(shù)據(jù)與真實(shí)的目標(biāo)端數(shù)據(jù)的相似度來(lái)進(jìn)行過(guò)濾。Guanghao等[7]利用平行數(shù)據(jù)構(gòu)建詞向量,利用源端目標(biāo)端詞向量得到雙語(yǔ)詞向量,最后利用雙語(yǔ)詞向量構(gòu)建偽造的源端句子的句子向量和目標(biāo)端句子的句子向量。通過(guò)余弦相似度計(jì)算偽造語(yǔ)料的相似度。Aizhan等[8]通過(guò)迭代的使用翻譯和反向翻譯來(lái)不斷地優(yōu)化翻譯結(jié)果。Moore等[9]通過(guò)語(yǔ)言模型對(duì)數(shù)據(jù)進(jìn)行篩選,Axelrod等[10]在源端利用領(lǐng)域內(nèi)的數(shù)據(jù)和領(lǐng)域外的數(shù)據(jù)訓(xùn)練得到源端的領(lǐng)域內(nèi)語(yǔ)言模型和源端的領(lǐng)域外語(yǔ)言模型。

      3 偽造語(yǔ)料過(guò)濾方法

      利用平行數(shù)據(jù)[Dparallel=Xparallel|,|Yparallel]訓(xùn)練維漢和漢維基線模型,利用漢維翻譯模型將大量漢語(yǔ)單語(yǔ)數(shù)據(jù)[Ymonolingual]通過(guò)反向翻譯的方式來(lái)得到偽造的維語(yǔ)數(shù)據(jù)[Xpseudo],并與漢語(yǔ)單語(yǔ)數(shù)據(jù)[Ymonolingual]整合得到大量的偽造平行數(shù)據(jù)[Dpseudo=Xpseudo|,|Ymonolingual]。為了提高相似度篩選的精確度,利用同種語(yǔ)言進(jìn)行篩選,因此通過(guò)循環(huán)翻譯的方式將通過(guò)反向翻譯得到的維語(yǔ)數(shù)據(jù)[Xpseudo],利用維漢翻譯模型翻譯為偽造的漢語(yǔ)數(shù)據(jù)[Ypseudo]。之后,利用不同的方法計(jì)算[Ymonolingual]和[Ypseudo]的相似度。通過(guò)設(shè)置一個(gè)相似度閾值來(lái)保留質(zhì)量較高的偽造數(shù)據(jù)。其中sent-bleu計(jì)算方式通過(guò)mteval工具計(jì)算獲得。

      相似度計(jì)算方法。由于sent_bleu依據(jù)n-gram的方式判斷字詞是否相同來(lái)評(píng)價(jià)兩個(gè)文本的相似程度,這使得某些長(zhǎng)句子在缺失一定字詞之后也有相當(dāng)高的sent_bleu值。而缺失是關(guān)鍵性字詞,就會(huì)導(dǎo)致句子的含義發(fā)生較大的變化。因此利用MAS(Maximum Alignment Similarity) 和ASS(Average Alignment Similarity) [11]這兩種相似度計(jì)算方法對(duì)[Ymonolingual]和[Ypseudo]進(jìn)行評(píng)價(jià)。在此次工作中,MAS的公式1所示。

      [MAStureymonolingual,i|,|ypseudo,i=1nwjymonolingual,imaxwkypseudo,iwj|,|wk]? ? ?(1)

      其中漢語(yǔ)句子[ymonolingual,i∈Ymonolingual];漢語(yǔ)偽造句子[ypseudo,i∈Ypseudo];[wj,wk]分別為句子[ymonolingual,i]和[ypseudo,i]中的字詞;n為句子[ymonolingual,i]中字詞數(shù)量。通過(guò)對(duì)[ymonolingual,i]中所有單詞的余弦相似度的累加得到這對(duì)平行句子的相似程度。而單詞的余弦相似度則是通過(guò)該單詞的詞向量與偽造漢語(yǔ)句子[ypseudo,i]中的最相近單詞之間的余弦相似度。同樣地也需要計(jì)算偽造目標(biāo)句中所有單詞與真實(shí)目標(biāo)句中的最相近單詞余弦相似度,之后求這些值的和后進(jìn)行平均來(lái)得到最后的評(píng)估。

      [MASymonolingual,i|,|ypseudo,i=12MAStrueymonolingual,i|,|ypseudo,i+12MASpseudoypseudo,i|,|ymonolingual,i] (2)

      AAS計(jì)算方式是通過(guò)求漢語(yǔ)單語(yǔ)句子[ymonolingual,i]中所有單詞的詞向量與偽造漢語(yǔ)句子[ypseudo,i]中所有單詞的詞向量,都求一個(gè)余弦相似度累加之后求一個(gè)平均,其公式為:

      [AASymonolingual,i|,|ypseudo,i=1nn'wkymonolingual,iwlypseudo,icoswk|,|wl]? (3)

      其中[n,n']分別為[ymonolingual,i]和[ypseudo,i]句子中字詞個(gè)數(shù);[wk]和[wl]分別為句子[ymonolingual,i]和[ypseudo,i]中的第k個(gè)和第l個(gè)字詞。

      由于MAS和AAS都是基于詞向量進(jìn)行計(jì)算句子相似度,這種方法沒(méi)有辦法關(guān)注到詞與詞之間的關(guān)系。那么便無(wú)法得到句子的相對(duì)完整的語(yǔ)義信息。因此利用預(yù)訓(xùn)練的bert[12]模型來(lái)獲得相對(duì)完整的語(yǔ)義信息。將漢語(yǔ)單語(yǔ)數(shù)據(jù)[Ymonolingual]輸入到預(yù)訓(xùn)練的bert模型中,對(duì)bert模型中最后一層輸出的向量進(jìn)行平均作為整個(gè)句子的分布式表示。同理,對(duì)[Ypseudo]也進(jìn)行相同的操作。之后通過(guò)余弦相似度計(jì)算這兩偽造平行句子的相似程度。并設(shè)置閾值過(guò)濾偽造語(yǔ)料[Dpseudo]。

      文章還對(duì)不同相似度計(jì)算得到值進(jìn)行了不同方式的整合:1) 在合并不同相似度篩選的數(shù)據(jù)時(shí),每一對(duì)平行句子計(jì)算的相似度值必須大于某一閾值的同時(shí)另一種相似度值也必須大于某一閾值。2) 利用線性差值將不同的相似度結(jié)合起來(lái)。

      4 實(shí)驗(yàn)數(shù)據(jù)以及參數(shù)設(shè)置

      4.1 實(shí)驗(yàn)數(shù)據(jù)

      本文實(shí)驗(yàn)所用數(shù)據(jù)為CCMT2019機(jī)器翻譯評(píng)測(cè)提供的維-漢平行語(yǔ)料和漢語(yǔ)單語(yǔ)語(yǔ)料。其中訓(xùn)練集17萬(wàn)條平行句對(duì),驗(yàn)證集1000條平行句對(duì)。以及727萬(wàn)條漢語(yǔ)單語(yǔ)數(shù)據(jù)。

      4.2 數(shù)據(jù)預(yù)處理

      對(duì)維-漢平行語(yǔ)料和單語(yǔ)數(shù)據(jù)進(jìn)行了編碼轉(zhuǎn)換、全角半角轉(zhuǎn)換、亂碼過(guò)濾等基礎(chǔ)處理。利用哈工大LTP工具對(duì)平行數(shù)據(jù)和單語(yǔ)數(shù)據(jù)進(jìn)行分詞。除此之外對(duì)于單語(yǔ)數(shù)據(jù),進(jìn)行了簡(jiǎn)單的句長(zhǎng)篩選。從727萬(wàn)條單語(yǔ)數(shù)據(jù)中篩選出句子長(zhǎng)度在4個(gè)單詞以上、140單詞以下的句子。其次通過(guò)句子的單詞頻率之和進(jìn)行篩選。具體操作為,計(jì)算17萬(wàn)數(shù)據(jù)的單詞和頻率,利用17萬(wàn)數(shù)據(jù)的單詞和頻率對(duì)700萬(wàn)數(shù)據(jù)進(jìn)行計(jì)算相似度。用700萬(wàn)數(shù)據(jù)中每行的單詞頻率之和除以句子長(zhǎng)度得到其與17萬(wàn)數(shù)據(jù)的相似程度。篩選后的單語(yǔ)數(shù)據(jù)有478萬(wàn)條。

      在這篇文章中,對(duì)于維到漢方向翻譯,使用BPE字符到char字符的對(duì)應(yīng)關(guān)系,即維語(yǔ)用BPE處理,漢語(yǔ)使用char字符進(jìn)行處理。而對(duì)于漢到維方向,源端和目標(biāo)端都使用BPE字符進(jìn)行訓(xùn)練。通過(guò)對(duì)比兩種不同的處理方式得到的結(jié)果,如表1所示。選定在訓(xùn)練維到漢方向時(shí),通過(guò)BPE到char的方法進(jìn)行訓(xùn)練。其中源語(yǔ)言和目標(biāo)語(yǔ)言詞表大小均為32K,BPE粒度的迭代論述均為24K。本實(shí)驗(yàn)以bleu[13]為主要的評(píng)價(jià)指標(biāo)。具體為基于字符的評(píng)價(jià)方式。

      4.3 實(shí)驗(yàn)環(huán)境和參數(shù)

      所有實(shí)驗(yàn)都是在centos7操作系統(tǒng)上進(jìn)行的。使用openNMT搭建的transformer模型進(jìn)行所有實(shí)驗(yàn)。其具體參數(shù)如下:每個(gè)模型只在一塊V100上進(jìn)行訓(xùn)練,每個(gè)batch大約含有4096個(gè)token,詞向量維度為768,隱層狀態(tài)維度為768,全連接隱狀態(tài)維度為4096,編碼器與解碼器均為6層,多頭注意力機(jī)制使用16個(gè)頭,dropout設(shè)為0.3,使用Adam梯度優(yōu)化算法來(lái)訓(xùn)練模型,其中[β1=0.90,β2=0.998]。初始學(xué)習(xí)率為1.0,warmup步數(shù)設(shè)定為4000。

      4.4 實(shí)驗(yàn)結(jié)果

      從CCMT提供的700多萬(wàn)單語(yǔ)數(shù)據(jù)中篩選478萬(wàn)數(shù)據(jù)做了一系列新的實(shí)驗(yàn)。

      其中表2、表3和表4分別是通過(guò)MAS、sent-BLEU與bert篩選得到的數(shù)據(jù)混合真實(shí)數(shù)據(jù)得到的結(jié)果。這些實(shí)驗(yàn)結(jié)果都比未過(guò)濾的實(shí)驗(yàn)結(jié)果好。之所以bert的閾值之間設(shè)置的比較緊,是因?yàn)橥ㄟ^(guò)余弦相似度計(jì)算BERT得到的文本向量后的相似度值都比較相近。

      表5過(guò)濾的三個(gè)實(shí)驗(yàn)里,Mix_2是將MAS相似度大于0.9的數(shù)據(jù)與sent-bleu大于0.5的數(shù)據(jù)合并之后與17萬(wàn)數(shù)據(jù)整合而成的訓(xùn)練數(shù)據(jù)。Mix_3是將MAS、AAS和sent-bleu得到最好結(jié)果時(shí)的數(shù)據(jù)合并后與17萬(wàn)數(shù)據(jù)整合。Mix_and也是MAS與sent-bleu最好結(jié)果時(shí)用的數(shù)據(jù)的整合,但是在整合過(guò)程中,MAS相似度大于0.9的數(shù)據(jù)的sent-bleu值必須大于0.4,sent-bleu相似度大于0.5的數(shù)據(jù)的MAS值必須大于0.8。之所以不使用兩者的交集,是因?yàn)閮烧呓患髷?shù)據(jù)丟失太多。這也從側(cè)面表明,使用MAS相似度過(guò)濾的數(shù)據(jù)與sent-bleu過(guò)濾的數(shù)據(jù)差別還是挺大的。表6的實(shí)驗(yàn)是使用不同相似度進(jìn)行線性差值之后進(jìn)行過(guò)濾的。其中Line_2表示使用MAS和sent-bleu兩個(gè)相似值進(jìn)行線性差值。Line_3表示使用MAS、sent-bleu和AAS這三個(gè)相似度值進(jìn)行線性差值。之所以不使用AAS與sent-bleu進(jìn)行線性差值,是因?yàn)锳AS的結(jié)果比起sent-bleu的結(jié)果差距比較大。從所用實(shí)驗(yàn)來(lái)看,使用AAS、MAS和sent-bleu合并的數(shù)據(jù)結(jié)果最好。比基線模型高出3.59個(gè)bleu,比未篩選數(shù)據(jù)的實(shí)驗(yàn)高出1.95個(gè)bleu。

      4.5 分析

      實(shí)驗(yàn)結(jié)果表明,面對(duì)維漢這種低資源語(yǔ)言對(duì),利用循環(huán)翻譯結(jié)合數(shù)據(jù)過(guò)濾的方法能有效地提升翻譯的性能。為了能了解到在循環(huán)翻譯的過(guò)程中損失的高質(zhì)量數(shù)據(jù)的數(shù)量,利用sent-bleu分別計(jì)算了將漢語(yǔ)翻譯成維語(yǔ)再翻譯成漢語(yǔ)時(shí),真實(shí)漢語(yǔ)與循環(huán)翻譯得到漢語(yǔ)sent-bleu值。將它與維語(yǔ)翻譯成漢語(yǔ)與真實(shí)漢語(yǔ)計(jì)算sent-bleu值進(jìn)行對(duì)比,得到在不同sent-bleu值區(qū)間里句子的個(gè)數(shù),如圖1所示,其中zh2uy2zh為將漢語(yǔ)翻譯成維語(yǔ)再翻譯成漢語(yǔ)的循環(huán)翻譯,uy2zh為將維語(yǔ)翻譯成漢語(yǔ),橫坐標(biāo)為sent-bleu值的不同區(qū)間,縱坐標(biāo)為句子個(gè)數(shù)。通過(guò)圖1可以清晰地看到循環(huán)翻譯相對(duì)于翻譯來(lái)說(shuō),損失了一部分質(zhì)量比較高的數(shù)據(jù)。但是換個(gè)思路,在循環(huán)翻譯時(shí),將漢語(yǔ)翻譯成維語(yǔ)后,再將維語(yǔ)翻譯成漢語(yǔ)時(shí),漢語(yǔ)仍能保持較好的結(jié)果,那么中間產(chǎn)生的維語(yǔ)的質(zhì)量也不會(huì)太差。因此循環(huán)翻譯可以在某種程度上起到一些篩選的作用。這種篩選不能直接使用,而是需要結(jié)合數(shù)據(jù)過(guò)濾的方法。而且這種過(guò)濾并不僅僅針對(duì)數(shù)據(jù)的質(zhì)量進(jìn)行的,而且對(duì)于真實(shí)訓(xùn)練數(shù)據(jù)所屬領(lǐng)域不同的數(shù)據(jù)也有一定的篩選作用。因?yàn)閿?shù)據(jù)領(lǐng)域的不同,在循環(huán)翻譯的前半部分即漢語(yǔ)翻譯成維語(yǔ)時(shí),由于缺少相應(yīng)的領(lǐng)域知識(shí),使得翻譯結(jié)果會(huì)丟失領(lǐng)域相關(guān)的詞匯和信息。因此在循環(huán)翻譯的后半部分即將翻譯的維語(yǔ)變?yōu)闈h語(yǔ)時(shí),由于缺少信息和詞匯,使得句子信息不完整從而翻譯成漢語(yǔ)的質(zhì)量比較低。同時(shí)也可以觀察到,在對(duì)于低資源語(yǔ)言對(duì),翻譯時(shí)產(chǎn)生的質(zhì)量較低的數(shù)據(jù)占整體數(shù)據(jù)的比較較高。因此過(guò)濾是一種必要的方法去提升反向翻譯后數(shù)據(jù)的質(zhì)量。

      同時(shí)為了進(jìn)一步說(shuō)明低資源數(shù)據(jù)過(guò)濾的必要性,將反向翻譯的結(jié)果(即中文翻譯成維文) 與真實(shí)的維語(yǔ)進(jìn)行了sent-bleu計(jì)算。其結(jié)果如圖2所示,其中zh2uy為將漢語(yǔ)翻譯成維語(yǔ),橫坐標(biāo)為sent-bleu值的不同區(qū)間,縱坐標(biāo)為句子個(gè)數(shù)。結(jié)果顯示,翻譯質(zhì)量低的數(shù)據(jù)占了整體數(shù)據(jù)的一半以上。

      為了驗(yàn)證循環(huán)翻譯是否可以過(guò)濾掉與訓(xùn)練數(shù)據(jù)領(lǐng)域不同數(shù)據(jù)。做了以下的工作,根據(jù)Shiqi[14]中使用的方法,將利用bert將訓(xùn)練集中所有的句子向量化后,將所有的句子向量的求和后平均,以得到的向量作為整個(gè)訓(xùn)練集的特征。把478萬(wàn)條句子里sent-bleu值在0.5以上的句子利用bert獲得向量后,與整個(gè)訓(xùn)練集的特征做余弦相似度計(jì)算。從而獲得每句話與訓(xùn)練集的相似程度。如圖3所示,其中橫坐標(biāo)維句子個(gè)數(shù),縱坐標(biāo)為相似度。從統(tǒng)計(jì)的柱狀圖可以看出,在篩選后的數(shù)據(jù)與訓(xùn)練數(shù)據(jù)相似度在0.8以上的占絕大部分。由此相信,循環(huán)翻譯確實(shí)可以隱式地篩選不同領(lǐng)域的數(shù)據(jù)。其效果類似領(lǐng)域自適應(yīng)里面語(yǔ)言模型的作用。

      5 結(jié)束語(yǔ)

      本文中,為了解決維漢翻譯中數(shù)據(jù)缺失的問(wèn)題,沿用了Imankulova等人的方法,通過(guò)利用不同的相似度計(jì)算方法去驗(yàn)證循環(huán)翻譯對(duì)翻譯模型的影響。實(shí)驗(yàn)也表明利用循環(huán)翻譯結(jié)合數(shù)據(jù)過(guò)濾可以有效地提升模型效果。除此之外,根據(jù)實(shí)驗(yàn)結(jié)果和數(shù)據(jù)信息統(tǒng)計(jì),推測(cè)這種方法可以隱式地過(guò)濾掉領(lǐng)域外的數(shù)據(jù),從而在篩選高質(zhì)量數(shù)據(jù)時(shí),這些高質(zhì)量數(shù)據(jù)很大程度上是與訓(xùn)練數(shù)據(jù)所屬領(lǐng)域相近的數(shù)據(jù)。因此之后的工作會(huì)深入研究循環(huán)翻譯對(duì)領(lǐng)域自適應(yīng)的影響。除此之外,會(huì)進(jìn)一步研究通過(guò)bert提取句子特征進(jìn)行數(shù)據(jù)篩選的方法。在這篇文章中,對(duì)bert的使用過(guò)于簡(jiǎn)單,可能并將句子的信息完全利用。另外,還希望利用不同粒度的信息去篩選數(shù)據(jù)。

      參考文獻(xiàn):

      [1]Bahdanau D,Cho K H,Bengio Y.Neural machine translation by jointly learning to align and translate[EB/OL].[2021-11-15].https://arxiv.org/pdf/1409.0473.pdf.

      [2] Sutskever I,Vinyals O,Le Q V.Sequence to sequence learning with neural networks[C]//Advances in Neural Information Processing Systems,2014,27.

      [3] Sennrich R,Haddow B,Birch A.Improving Neural Machine Translation Models with Monolingual Data[C]//Annual Meeting of the Association for Computational Linguistics(Volume 1:Long Papers),2016:86-96.

      [4] Bojar O,Tamchyna A.Improving translation model by monolingual data[C]//Proceedings of the Sixth Workshop on Statistical Machine Translation,2011:330-336.

      [5] Imankulova A,Sato T,Komachi M.Improving low-resource neural machine translation with filtered pseudo-parallel corpus[C]//Workshop on Asian Translation(WAT2017),2017:70-78.

      [6] Chen B,Cherry C.A systematic comparison of smoothing techniques for sentence-level bleu[C]//Proceedings of the ninth workshop on statistical machine translation,2014:362-367.

      [7] Xu G H,Ko Y J,Seo J Y.Improving neural machine translation by filtering synthetic parallel data[J].Entropy,2019,21(12):1213.

      [8] Imankulova A,Sato T,Komachi M.Filtered pseudo-parallel corpus improves low-resource neural machine translation[J].ACM Transactions on Asian and Low-Resource Language Information Processing(TALLIP),2019,19(2):1-16.

      [9] Moore R C,Lewis W.Intelligent Selection of Language Model Training Data[C]//meeting of the association for computational linguistics,2010:220-224.

      [10] Axelrod A,He X,Gao J,et al.Domain Adaptation via Pseudo In-Domain Data Selection[C]//empirical methods in natural language processing,2011:355-362.

      [11] Song Y,Roth D.Unsupervised Sparse Vector Densification for Short Text Similarity[C]//Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies,2015.

      [12] Kenton J D M W C,Toutanova L K.BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding[C]//Proceedings of NAACL-HLT,2019:4171-4186.

      [13] Papineni K,Roukos S,Ward T,et al.Bleu:a Method for Automatic Evaluation of Machine Translation[C]//meeting of the association for computational linguistics,2002:311-318.

      [14] Zhang S,Xiong D.Sentence weighting for neural machine translation domain adaptation[C]//Proceedings of the 27th International Conference on Computational Linguistics,2018:3181-3190.

      【通聯(lián)編輯:謝媛媛】

      猜你喜歡
      相似度篩選
      改進(jìn)的協(xié)同過(guò)濾推薦算法
      馬鈴薯晚疫病防治農(nóng)藥篩選試驗(yàn)報(bào)告
      模糊Petri網(wǎng)在油田開(kāi)發(fā)設(shè)計(jì)領(lǐng)域的應(yīng)用研究
      水稻中后期病害藥劑篩選試驗(yàn)初探
      初識(shí)轉(zhuǎn)基因植物篩選試劑
      晉北豇豆新品種鑒定篩選與評(píng)價(jià)
      不同西瓜嫁接砧木的篩選與研究
      相似度算法在源程序比較中的應(yīng)用
      基于灰度的圖像邊緣檢測(cè)與匹配算法的研究
      影響母線負(fù)荷預(yù)測(cè)的因素及改進(jìn)措施
      科技視界(2016年10期)2016-04-26 11:40:14
      昂仁县| 东乡县| 兴国县| 沁阳市| 青州市| 乡宁县| 肇东市| 沁水县| 长治县| 花垣县| 庆元县| 封丘县| 政和县| 晋州市| 蚌埠市| 晋宁县| 汽车| 房产| 泊头市| 儋州市| 新乐市| 富蕴县| 洛隆县| 体育| 那曲县| 门源| 大渡口区| 长寿区| 那坡县| 青神县| 临漳县| 株洲市| 襄城县| 博客| 城固县| 丹江口市| 乳源| 巴彦淖尔市| 枣庄市| 轮台县| 溧阳市|