• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于改進(jìn)編碼/解碼模型的中英機(jī)器翻譯方法?

      2021-06-29 08:42:12
      關(guān)鍵詞:源語(yǔ)言目標(biāo)語(yǔ)言解碼器

      董 斌

      (西北工業(yè)大學(xué)明德學(xué)院 西安 710124)

      1 引言

      隨著我國(guó)對(duì)外開(kāi)放程度的不斷提高,英語(yǔ)已經(jīng)成為對(duì)外交流場(chǎng)合的主要語(yǔ)言。傳統(tǒng)人工翻譯成本高昂,且受環(huán)境限制嚴(yán)重。近年來(lái),借助于計(jì)算機(jī)的中英語(yǔ)言機(jī)器自動(dòng)翻譯成為了一個(gè)重要研究方向[1~3]。

      基于規(guī)則翻譯和基于例子翻譯是早期機(jī)器翻譯主要采用的方法,但翻譯的準(zhǔn)確性和自適應(yīng)性均難以滿足實(shí)際翻譯需要[4]。隨著機(jī)器學(xué)習(xí)技術(shù)的產(chǎn)生與發(fā)展,研究人員提出了基于機(jī)器學(xué)習(xí)的機(jī)器翻譯模型[5]。文獻(xiàn)[6]構(gòu)建一種基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯模型,該模型采用的端到端框架成為了后續(xù)機(jī)器翻譯研究的基本結(jié)構(gòu)。該框架的基本思路是采用機(jī)器學(xué)習(xí)方法搭建一個(gè)能夠連接源語(yǔ)言序列和目標(biāo)語(yǔ)言序列的編碼/解碼結(jié)構(gòu),實(shí)現(xiàn)兩種語(yǔ)言之間的映射?;诰幋a/解碼框架,支持向量機(jī)、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等各種機(jī)器學(xué)習(xí)智能技術(shù)被用于構(gòu)建機(jī)器翻譯模型[7~8]。

      本文基于編碼-解碼框架,構(gòu)建了一種新的用于中英翻譯的機(jī)器翻譯模型。該模型采用長(zhǎng)短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)生成詞向量,在編碼階段和解碼階段分別加入組嵌入技術(shù)和權(quán)值衰減方法,在提高機(jī)器翻譯模型準(zhǔn)確性的同事,降低了模型達(dá)到收斂的迭代次數(shù),仿真實(shí)驗(yàn)結(jié)果驗(yàn)證了所提方法的有效性。

      2 機(jī)器翻譯模型

      為了能夠使機(jī)器自動(dòng)地捕獲語(yǔ)言特征,實(shí)現(xiàn)基于計(jì)算機(jī)的自然語(yǔ)言高效映射,首先需要建立一個(gè)能夠連接兩種自然語(yǔ)言的機(jī)器翻譯模型。編碼/解碼結(jié)構(gòu)是一種十分廣泛的機(jī)器翻譯模型,結(jié)構(gòu)如圖1所示。編碼器部分接收帶翻譯語(yǔ)言的輸入,輸出編碼序列,解碼器接收編碼序列,輸出翻譯結(jié)果。

      圖1 編解碼器結(jié)構(gòu)

      如圖1所示,編解碼器的輸入是一個(gè)任意長(zhǎng)度的源語(yǔ)言序列,然后利用編碼器將其捕獲到能夠表征其句子的特征序列,最后利用解碼器實(shí)現(xiàn)特征到語(yǔ)言序列的轉(zhuǎn)換。因此,編碼階段是將輸入源自然語(yǔ)言映射為一個(gè)碼向量,而解碼階段是編碼階段的逆過(guò)程,將碼向量映射為目標(biāo)語(yǔ)言序列,編解碼映射的理論基礎(chǔ)是最大化預(yù)測(cè)序列概率準(zhǔn)則。

      令A(yù)={a1,a2,…,an}表示源語(yǔ)言的輸入序列,B={b1,b2,…,bm}表示目標(biāo)語(yǔ)言的輸出序列,則目標(biāo)語(yǔ)言編解碼器生成的概率可以表示為

      式中,c為編碼器輸出的編碼向量,該向量能夠有效表征源語(yǔ)言序列的特征。式(1)等號(hào)右邊表示各個(gè)目標(biāo)語(yǔ)言詞匯的生成概率,計(jì)算方法為

      式中,φ(·)表示基于當(dāng)前目標(biāo)語(yǔ)言序列和源語(yǔ)言序列生成當(dāng)前詞向量的概率,vb為解碼器輸出的目標(biāo)語(yǔ)言詞向量,cs為編碼器輸入源語(yǔ)言的上下文向量,ct為解碼器輸出目標(biāo)語(yǔ)言的上下文向量。綜合式(1)和式(2)可知,編解碼器的機(jī)器翻譯就是不斷利用輸入源語(yǔ)言的和輸出目標(biāo)語(yǔ)言來(lái)對(duì)當(dāng)前的詞向量進(jìn)行預(yù)測(cè),最終輸出預(yù)測(cè)概率最大的目標(biāo)語(yǔ)言詞向量組合。

      編解碼器是機(jī)器翻譯的基本結(jié)構(gòu),具體實(shí)現(xiàn)機(jī)器翻譯還需要對(duì)編解碼器結(jié)構(gòu)進(jìn)行具體設(shè)計(jì)。文中基于編解碼器機(jī)器翻譯設(shè)計(jì)原則,結(jié)合當(dāng)前中英機(jī)器翻譯的實(shí)際需要,對(duì)機(jī)器翻譯結(jié)構(gòu)進(jìn)行了具體設(shè)計(jì),主要包括詞向量生成、基于組嵌入的編碼器和基于權(quán)值衰減的解碼器。

      3 詞向量生成算法

      基于符號(hào)的自然語(yǔ)言數(shù)字化表示是機(jī)器能夠理解并處理自然語(yǔ)言的基礎(chǔ)。自然語(yǔ)言符號(hào)化過(guò)程就是將自然語(yǔ)言自動(dòng)地轉(zhuǎn)化為詞向量的過(guò)程,進(jìn)而利用計(jì)算機(jī)的強(qiáng)大計(jì)算能力提取自然語(yǔ)言特征[9~10]。常見(jiàn)的詞向量生成算法如One-Hot編碼方法和分布式表示方法需要對(duì)自然語(yǔ)言詞數(shù)據(jù)進(jìn)行標(biāo)注,不適用于當(dāng)前大規(guī)模自然語(yǔ)言機(jī)器翻譯的場(chǎng)合,文中采用一種基于RNN的自然語(yǔ)言詞向量生成方法。

      RNN詞向量生成結(jié)構(gòu)包括輸入層、隱藏層和輸出層,隱藏層隨時(shí)間的迭代計(jì)算方式為

      其中,xt表示t時(shí)刻輸入向量,f(·)表示神經(jīng)網(wǎng)絡(luò)激活函數(shù),U和W均為神經(jīng)網(wǎng)絡(luò)的權(quán)值矩陣,b為網(wǎng)絡(luò)偏置向量。

      傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法是誤差反向傳播算法(BP算法),但是在自然語(yǔ)言詞向量生成過(guò)程中,面對(duì)源語(yǔ)言序列的長(zhǎng)距離依賴問(wèn)題,BP算法可能會(huì)出現(xiàn)梯度衰減或者梯度爆炸的情況,即使采用了梯度裁剪后也難以徹底解決問(wèn)題。為了更好地解決源語(yǔ)言長(zhǎng)距離依賴的梯度爆炸問(wèn)題,本文采用長(zhǎng)短時(shí)記憶(LSTM)神經(jīng)網(wǎng)絡(luò)。

      LSTM網(wǎng)絡(luò)的基本原理是在經(jīng)過(guò)預(yù)訓(xùn)練的RNN上,增加LSTM記憶單元形成新的網(wǎng)絡(luò)[11~12]。LSTM記憶單元網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,共包含四個(gè)門:輸入門、遺忘門、記憶細(xì)胞和輸出門,各部分功能介紹如下。輸入門和輸出門可以有效解決RNN網(wǎng)絡(luò)權(quán)值更新的沖突,基本屬性為控制門,其中輸入門負(fù)責(zé)記憶細(xì)胞的數(shù)據(jù)傳入。記憶細(xì)胞能夠存儲(chǔ)網(wǎng)絡(luò)中的內(nèi)容,是LSTM的存儲(chǔ)單元。遺忘門的作用是控制記憶細(xì)胞的狀態(tài)。輸出門綜合當(dāng)前的輸入數(shù)據(jù)和記憶細(xì)胞數(shù)據(jù)給出LSTM網(wǎng)絡(luò)的輸出結(jié)果。LSTM單元的各個(gè)門均需要設(shè)置激活函數(shù),文中輸入門、遺忘門和輸出門均采用Sigmoid激活函數(shù),而記憶細(xì)胞采用Tanh激活函數(shù)。

      圖2 LSTM單元結(jié)構(gòu)

      圖2中LSTM單元中各個(gè)門的計(jì)算公式為

      式中,⊙表示矩陣或向量的點(diǎn)乘運(yùn)算。

      LSTM計(jì)算過(guò)程表明,如果遺忘門接近于1并且輸入門接近于0,此時(shí)前一時(shí)刻數(shù)據(jù)就會(huì)一直被存儲(chǔ)在記憶細(xì)胞中,實(shí)現(xiàn)了源語(yǔ)言序列長(zhǎng)距離依賴關(guān)系的捕獲,舊狀態(tài)數(shù)據(jù)能夠參與到當(dāng)前時(shí)刻輸出門的計(jì)算中。這說(shuō)明,通過(guò)遺忘門和記憶細(xì)胞能夠有效融合當(dāng)前輸入信息和前一時(shí)刻輸入信息,這樣能夠有效避免采用BP算法訓(xùn)練RNN網(wǎng)絡(luò)的梯度衰減問(wèn)題,提升機(jī)器翻譯性能。

      4 組嵌入編碼器

      傳統(tǒng)機(jī)器翻譯編碼器模型的輸入是經(jīng)過(guò)詞向量生成算法生成的詞向量,只含有訓(xùn)練語(yǔ)料之內(nèi)的信息,缺乏情感信息和上下文信息不能描述表征源語(yǔ)言序列特點(diǎn)。為此,本節(jié)構(gòu)建了一種基于組嵌入的機(jī)器翻譯編碼器模型。

      組嵌入的基本思想是將源語(yǔ)言序列中的每個(gè)詞按照一種或多種方式進(jìn)行分組劃分,使得源語(yǔ)言序列中每個(gè)詞對(duì)應(yīng)一個(gè)或者多個(gè)分組。對(duì)于中英機(jī)器翻譯模型,中英文最小單元集合可以定義為

      其中,subword表示在英文單詞中具有單獨(dú)含義的一部分,例如superman中的super。如果按照一種分組方式對(duì)源語(yǔ)言序列中的詞進(jìn)行分組,序列中所有詞經(jīng)過(guò)劃分后將生成一個(gè)組集GUint={組 別};如果分組的方式為多種,源語(yǔ)言序列中的詞將生成多個(gè)組。

      假設(shè)輸入的源語(yǔ)言序列S生成的詞向量集合為

      其中wi∈WUint表示經(jīng)過(guò)詞向量生成的詞序列。假設(shè)分組劃分方式為φ,則分組后的組集為

      其中g(shù)i∈GUint表示經(jīng)過(guò)劃分后的組別。例如對(duì)于源語(yǔ)言序列“I am a student”,w1=I,w2=am,w3=a,w4=student,如果采用的分組方式是單詞詞性,則分組后為g1=pron,g2=vi,g3=art,g4=n。在中英文機(jī)器翻譯組嵌入過(guò)程中,常用的劃分規(guī)則包括詞性、上下文語(yǔ)義、褒貶程度、大小寫等。

      源語(yǔ)言序列經(jīng)過(guò)分組劃分后,需要進(jìn)行嵌入處理,具體的嵌入方式就是利用one-hot方法將分組后的詞向量轉(zhuǎn)化為多維連續(xù)向量。假設(shè)WUint經(jīng)過(guò)one-hot嵌入生成的結(jié)果可以表示為

      其中eWi表示嵌入后的m維向量。同理,GUint經(jīng)過(guò)one-hot嵌入生成的結(jié)果可以表示為

      其中eGi表示嵌入后的n維向量,這個(gè)過(guò)程稱為組嵌入。

      相比傳統(tǒng)嵌入模型,源語(yǔ)言序列經(jīng)過(guò)組嵌入后,能夠?qū)⒍嗑S詞語(yǔ)屬性和原始詞向量一起作為編碼器的輸入,豐富了源語(yǔ)言序列輸入特征,能夠提高機(jī)器翻譯的準(zhǔn)確性。

      5 權(quán)值衰減解碼器

      機(jī)器翻譯過(guò)程中,源語(yǔ)言序列中詞語(yǔ)對(duì)應(yīng)的目標(biāo)語(yǔ)言序列詞語(yǔ)經(jīng)常會(huì)受到前文翻譯結(jié)果的影響,并且這種影響還會(huì)隨著距離的長(zhǎng)短的變化而變化。然而,傳統(tǒng)機(jī)器翻譯模型沒(méi)有充分考慮大前后文詞語(yǔ)含義的影響,容易出現(xiàn)前后文翻譯不一致的情況,且影響機(jī)器翻譯準(zhǔn)確性。針對(duì)這個(gè)問(wèn)題,本節(jié)設(shè)計(jì)了一種基于權(quán)值衰減的解碼器模型。

      權(quán)值衰減解碼的基本思路是在機(jī)器翻譯解碼的過(guò)程中,給先出現(xiàn)的詞賦予較高權(quán)值,而后出現(xiàn)的詞賦予較低權(quán)值。這與實(shí)際翻譯的過(guò)程是相符的,這是由于先出現(xiàn)的詞會(huì)影響后續(xù)詞語(yǔ)的翻譯,而最后出現(xiàn)的詞對(duì)整個(gè)翻譯過(guò)程的影響最小,因此權(quán)值最小。

      機(jī)器翻譯是一種未知條件下的自動(dòng)翻譯,因此機(jī)器無(wú)法獲取源語(yǔ)言序列的真實(shí)長(zhǎng)度[13]。為此對(duì)每一句帶翻譯語(yǔ)句均首先采用最大句子長(zhǎng)度,待檢測(cè)到句尾結(jié)束符再清除空字符。整個(gè)待處理源語(yǔ)言序列的損失函數(shù)定義為

      其中t表示待翻譯語(yǔ)言序列的實(shí)際長(zhǎng)度。加權(quán)后的損失函數(shù)可以表示為

      式中fa為權(quán)值衰減影響因子。經(jīng)過(guò)式(15)的加權(quán)后,越是靠后的詞語(yǔ)對(duì)整個(gè)翻譯的影響就越小,實(shí)現(xiàn)了解碼器損失函數(shù)的權(quán)值衰減,增強(qiáng)了機(jī)器翻譯的準(zhǔn)確性。

      6 實(shí)驗(yàn)結(jié)果與分析

      為了驗(yàn)證本文構(gòu)建的中英機(jī)器翻譯模型的性能,本節(jié)采用實(shí)驗(yàn)數(shù)據(jù)對(duì)其進(jìn)行性能測(cè)試,并與常用機(jī)器翻譯模型進(jìn)行對(duì)比分析。測(cè)試數(shù)據(jù)集選取國(guó)際口語(yǔ)機(jī)器翻譯大賽中的中英機(jī)器翻譯數(shù)據(jù),測(cè)試環(huán)境為英偉達(dá)公司的GTX1660顯卡,處理器為Intel i7-9700,內(nèi)存8G,操作系統(tǒng)為Windows7。為了達(dá)到快速檢驗(yàn)機(jī)器翻譯模型性能,實(shí)驗(yàn)中僅處理數(shù)據(jù)集中長(zhǎng)度小于12的句子,且RNN模型訓(xùn)練的batch設(shè)置為40。

      為了能夠在機(jī)器翻譯模型測(cè)試過(guò)程中及時(shí)有效地評(píng)價(jià)翻譯性能,需要采用翻譯性能自動(dòng)評(píng)價(jià)指標(biāo)。綜合考慮已有機(jī)器翻譯性能評(píng)價(jià)方法,文中選取應(yīng)用較為廣泛的BLEU評(píng)價(jià)方法[14~15]。BLEU評(píng)價(jià)是一種對(duì)翻譯質(zhì)量自動(dòng)評(píng)估的方法,具體計(jì)算方式為

      其中,BP表示一個(gè)與句子長(zhǎng)度相關(guān)的衰減系數(shù),wn表示翻譯過(guò)程中n元詞的權(quán)值,pn表示翻譯模型對(duì)n元詞翻譯的準(zhǔn)確率。

      首先對(duì)加入權(quán)值衰減的解碼器性能進(jìn)行實(shí)驗(yàn)分析,表1為不同權(quán)值衰減影響因子對(duì)機(jī)器翻譯模型BLEU指標(biāo)的影響。

      表1 不同權(quán)值衰減因子性能測(cè)試

      實(shí)驗(yàn)結(jié)果表明,在解碼器中加入權(quán)值衰減后,能夠有效提升機(jī)器翻譯模型的翻譯性能,相比無(wú)權(quán)值衰減的模型,BLEU指標(biāo)提升十分明顯。這是因?yàn)橥ㄟ^(guò)在解碼器中加入權(quán)值衰減因子,能夠?qū)υ凑Z(yǔ)言序列中的各個(gè)詞賦予不同權(quán)重,使得越靠前翻譯的詞權(quán)值越高,這樣能夠極大地提升后續(xù)語(yǔ)句翻譯的準(zhǔn)確性。由表1可知,權(quán)值因子的大小對(duì)機(jī)器翻譯性能具有一定影響,隨著權(quán)值衰減因子的增大,解碼器損失函數(shù)將會(huì)近似于各個(gè)詞語(yǔ)的權(quán)值均相等,逐漸失去權(quán)值衰減的作用;當(dāng)權(quán)值衰減因子設(shè)置過(guò)小時(shí),機(jī)器翻譯模型對(duì)排序靠前詞語(yǔ)的權(quán)值過(guò)大,也會(huì)導(dǎo)致當(dāng)前詞語(yǔ)翻譯不準(zhǔn)確,影響模型翻譯性能。為此,針對(duì)具體的翻譯數(shù)據(jù)集,需要經(jīng)過(guò)實(shí)驗(yàn)選取合適的權(quán)值衰減因子。

      詞嵌入能夠有效提升機(jī)器翻譯模型的準(zhǔn)確性,且能夠提高模型訓(xùn)練效率,表2為機(jī)器翻譯模型有無(wú)組嵌入時(shí)模型的收斂速度和翻譯BLEU實(shí)驗(yàn)結(jié)果,組嵌入為單一分組,分組方式為按照詞性。實(shí)驗(yàn)結(jié)果表明,加入組嵌入后,不但能夠有效提升機(jī)器翻譯模型的訓(xùn)練效率,用更少的迭代次數(shù)使模型達(dá)到收斂狀態(tài),還能進(jìn)一步提升翻譯準(zhǔn)確性。

      表2 組嵌入性能測(cè)試

      為了進(jìn)一步測(cè)試本文構(gòu)建的機(jī)器翻譯模型性能,采用準(zhǔn)確率、召回率和F1對(duì)模型翻譯性能進(jìn)行測(cè)試,實(shí)驗(yàn)中權(quán)值衰減因子設(shè)置為2,組嵌入方式分別選擇詞性、上下文語(yǔ)義、褒貶程度,多分組綜合三種分組方式,實(shí)驗(yàn)結(jié)果如表3所示。表3測(cè)試結(jié)果表明,組嵌入能夠有效提升機(jī)器翻譯模型翻譯性能,各個(gè)角度的單一分組方式均對(duì)模型收斂速度和翻譯準(zhǔn)確性具有很大提高,并且綜合多種分組方式能夠進(jìn)一步提高模型翻譯性能。

      表3 綜合測(cè)試結(jié)果

      7 結(jié)語(yǔ)

      隨著機(jī)器學(xué)習(xí)等人工智能技術(shù)的不斷發(fā)展,機(jī)器翻譯性能取得了顯著提升。本文研究了基于編碼解碼模型的中英文機(jī)器翻譯問(wèn)題,提出了一種改進(jìn)的機(jī)器翻譯方法。該方法在編碼階段通過(guò)組嵌入提高模型收斂速度,在解碼階段通過(guò)權(quán)值衰減提高翻譯準(zhǔn)確性,實(shí)現(xiàn)結(jié)果驗(yàn)證了改進(jìn)方法具有優(yōu)良的收斂速度和翻譯準(zhǔn)確性。

      猜你喜歡
      源語(yǔ)言目標(biāo)語(yǔ)言解碼器
      科學(xué)解碼器(一)
      科學(xué)解碼器(二)
      科學(xué)解碼器(三)
      線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
      林巍《知識(shí)與智慧》英譯分析
      淺析日語(yǔ)口譯譯員素質(zhì)
      教材插圖在英語(yǔ)課堂閱讀教學(xué)中的運(yùn)用及實(shí)例探討
      跨文化視角下對(duì)具有修辭手法諺語(yǔ)英譯漢的研究
      速讀·下旬(2016年7期)2016-07-20 08:50:28
      以口譯實(shí)例談雙語(yǔ)知識(shí)的必要性
      考試周刊(2015年36期)2015-09-10 15:03:38
      二語(yǔ)習(xí)得過(guò)程中的石化現(xiàn)象分析
      临朐县| 桓台县| 玉溪市| 宜兴市| 永康市| 宽甸| 呼伦贝尔市| 寿光市| 岳普湖县| 图们市| 富顺县| 民乐县| 临猗县| 天峨县| 沅江市| 平邑县| 井陉县| 玛纳斯县| 博乐市| 昂仁县| 三江| 新昌县| 鄱阳县| 武冈市| 如皋市| 荣成市| 顺平县| 汉中市| 株洲县| 镇康县| 青神县| 林周县| 修文县| 泰兴市| 平谷区| 乐东| 马公市| 太白县| 大渡口区| 林周县| 临江市|