多注意力機(jī)制的藏漢機(jī)器翻譯方法研究

2021-06-28 17:10劉賽虎珠杰

電腦知識(shí)與技術(shù) 2021年10期

劉賽虎珠杰

摘要：互聯(lián)互通時(shí)代了解和掌握不同語言的區(qū)域文化和信息十分重要，機(jī)器翻譯是目前廣泛應(yīng)用的交流媒介。本文以藏漢機(jī)器翻譯為研究對(duì)象，利用Transformer框架和模型，研究了基于Transformer多注意力機(jī)制的藏漢機(jī)器翻譯方法。經(jīng)過實(shí)驗(yàn)，評(píng)估了多語料融合實(shí)驗(yàn)、語料雙切分實(shí)驗(yàn)對(duì)比效果，得到了BLEU值 32.6的實(shí)驗(yàn)結(jié)果。

關(guān)鍵詞：藏漢;Transformer;機(jī)器翻譯;注意力機(jī)制;多語料

中圖分類號(hào)：TP399? ? ? 文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1009-3044（2021）10-0004-04

Abstract： It is very important to understand and master regional culture and information in different languages in the age of interconnection. Machine translation is a widely used communication medium. This paper takes Tibetan-Chinese machine translation as the research object， and uses the Transformer framework and model to study the Tibetan-Chinese machine translation method based on Transformermechanism. Through experiments， the comparison effect of multi-corpus fusion experiment and corpus double-segmentation experiment was evaluated， and the experimental results of BLEU 32.6 were obtained.

Key words： Tibetan-Chinese; Transformer; machine translation; attention mechanism; multilingual corpus

機(jī)器翻譯（Machine Translation，MT）是借助機(jī)器的高計(jì)算能力，自動(dòng)地將一種自然語言（源語言）翻譯為另外一種自然語言（目標(biāo)語言）[1]。藏文機(jī)器翻譯技術(shù)經(jīng)過了數(shù)十年的發(fā)展，已從傳統(tǒng)基于規(guī)則、統(tǒng)計(jì)等機(jī)器翻譯技術(shù)轉(zhuǎn)變成基于神經(jīng)網(wǎng)絡(luò)架構(gòu)的新技術(shù)，藏文機(jī)器翻譯技術(shù)發(fā)展可分為基于規(guī)則的藏文機(jī)器翻譯、基于統(tǒng)計(jì)的藏文機(jī)器翻譯、基于神經(jīng)網(wǎng)絡(luò)的藏文機(jī)器翻譯3個(gè)階段。

早在21世紀(jì)初期就開始了藏文機(jī)器翻譯技術(shù)，以基于規(guī)則的方法中，才藏太[2]結(jié)合詞項(xiàng)信息和藏文語法規(guī)則，提出了以動(dòng)詞為中心的二分語法分析技術(shù)，基于此技術(shù)開發(fā)的藏文機(jī)器翻譯系統(tǒng)具有詞典、公文、科技三個(gè)方面翻譯功能，其詞典量達(dá)18.6萬條，經(jīng)評(píng)測分析，譯文的可讀性高達(dá)80%。

近年來基于統(tǒng)計(jì)方法的藏文機(jī)器翻譯技術(shù)也得到了一定的發(fā)展，臧景才等[3]基于短語統(tǒng)計(jì)模型利用翻譯訓(xùn)練工具M(jìn)oses實(shí)現(xiàn)了藏漢的在線翻譯系統(tǒng)。群諾等[4]提出了對(duì)基于中介語言詞語翻譯模型進(jìn)行改進(jìn)，融合基于中介語言的統(tǒng)計(jì)翻譯模型和直接翻譯模型到現(xiàn)有的訓(xùn)練過程中，改善統(tǒng)計(jì)機(jī)器翻譯模型訓(xùn)練過程的盲目性、低效性、冗余性和表面性等缺陷的方法。

目前主流的藏文機(jī)器翻譯技術(shù)集中在基于神經(jīng)網(wǎng)絡(luò)的方法研究中，仁青東主等[5]采用50萬藏漢平行語料結(jié)合基于雙向RNN的LSTM（長短時(shí)記憶網(wǎng)絡(luò)）神經(jīng)網(wǎng)絡(luò)模型開發(fā)出的藏漢機(jī)器翻譯技術(shù)取得了BLEU值31的效果;李亞超等[6]提出采用遷移學(xué)習(xí)解決藏漢語料稀缺問題的方法，并通過對(duì)比短語統(tǒng)計(jì)機(jī)器翻譯實(shí)驗(yàn)得出該方法可提高3個(gè)BLEU值。目前尼瑪扎西團(tuán)隊(duì)、東北大學(xué)“小牛翻譯在線開放平臺(tái)”以及騰訊公司等開發(fā)的藏漢機(jī)器翻譯系統(tǒng)均采用了基于神經(jīng)網(wǎng)絡(luò)的方法。

2017年，Google發(fā)表論文《Attention Is All You Need》[7]正式提出了完全基于注意力機(jī)制的Transformer，并在兩項(xiàng)拉丁語系機(jī)器翻譯任務(wù)中取得了最高BLEU值41.8的成績，2019年，桑杰端珠[8]采用Transformer模型研究了稀缺資源條件下的藏漢機(jī)器翻譯回譯方法，通過93萬藏漢平行語料取得了BLEU值最高為27.6的效果。相較之下藏文機(jī)器翻譯效果提升還有很大的進(jìn)步空間，因此本文從Transformer理論架構(gòu)出發(fā)，利用多注意力機(jī)制，研究多種語料融合、兩種不同藏漢文切分方法下的藏漢機(jī)器翻譯效果。

1 Transformer機(jī)器翻譯模型

目前主流基于NMT任務(wù)的模型均采用Seq2Seq（編碼器-解碼器）[9]框架，在Seq2Seq下編碼器將表征輸入序列X=（X1，X2，…，Xn）映射到連續(xù)表征Z=（Z1，Z2，…，Zm），解碼器從連續(xù)表征Z生成輸出序列Y=（Y1，Y2，…，Ym）。Transformer框架的設(shè)計(jì)是通過注意力機(jī)制將序列上下文關(guān)聯(lián)，并行處理序列中的單詞。Transformer對(duì)比LSTM以及Fairseq不同之處是它完全基于注意力機(jī)制，沒有使用RNN或CNN進(jìn)行序列對(duì)齊操作。完全基于注意力機(jī)制使得Transformer不僅可以做到訓(xùn)練上并行化，并在實(shí)際翻譯效果上相較LSTM更勝一籌。

1.1 Transformer注意力模型

Transformer模型中采用了經(jīng)典的Encoder-Decoder架構(gòu)，結(jié)構(gòu)相比于其它Attention更加復(fù)雜，初始Transformer采用了由6個(gè)Encoder、Decoder層堆疊在一起，單個(gè)Encoder和Decoder的內(nèi)部結(jié)構(gòu)如圖1所示。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

多注意力機(jī)制的藏漢機(jī)器翻譯方法研究