融合雙向依存自注意力機制的神經(jīng)機器翻譯

2022-12-18 08:10:42李治瑾文永華高盛祥

計算機應用 2022年12期

李治瑾，賴華*，文永華，高盛祥

（1.昆明理工大學信息工程與自動化學院，昆明 650504；2.云南省人工智能重點實驗室（昆明理工大學），昆明 650504）

0 引言

近年來神經(jīng)機器翻譯方法取得了重要的進展，在主要語種間的翻譯質(zhì)量已經(jīng)接近人工翻譯水平。神經(jīng)機器翻譯主要依賴大規(guī)模的語料，在低資源情況下，神經(jīng)機器翻譯模型的翻譯質(zhì)量會出現(xiàn)明顯下降。為解決資源稀缺的問題，神經(jīng)機器翻譯一般采用融合句法信息的方法。Eriguchi 等［1］率先提出了一種端到端的語法神經(jīng)機器翻譯模型，該模型是基于注意力機制的編解碼模型并融合了成分句法信息，使解碼器生成的單詞與短語以及源句子的單詞進行軟對齊。Aharoni等［2］提出了一種融合目標語言成分句法的方法，通過翻譯得到線性化或詞匯化的成分句法結構，將目標語言的句法信息融入神經(jīng)機器翻譯模型；但該方法不針對低資源神經(jīng)機器翻譯。Gū 等［3］提出在神經(jīng)機器翻譯模型中增加具有語法識別解碼的成分句法結構，利用具有語法感知的注意力模型和對句子結構敏感的語言模型，提升翻譯質(zhì)量，該方法在句子語義流暢度上取得了較好的效果。以上研究主要基于循環(huán)神經(jīng)網(wǎng)絡（Recurrent Neural Network，RNN）［4］和長短期記憶（Long Short-Term Memory，LSTM）［5］模型框架。目前Transformer 模型已經(jīng)成為了基線模型，因此本文的研究基于Transformer 模型。目前在依存句法融合方面一般只融合依存句法中的父詞信息，利用子詞到父詞的方向能夠確定句子中父詞的位置信息，得到父詞位置向量，增強句子中父詞對機器翻譯的影響；而父詞到子詞的方向較少被融合到機器翻譯模型中。本文認為父詞到子詞方向能夠提供句子中子詞的位置信息，通過遍歷得到句子中的全部子詞位置信息，構建子詞權重矩陣，增強子詞對機器翻譯的影響。這種明確的父詞到子詞和子詞到父詞的雙向關聯(lián)關系對機器翻譯可能更加有效。由此本文提出了將這兩種雙向信息融合到翻譯模型中的方法，通過更全面的結構信息融合提升機器翻譯的性能。參照Bugliarello 等［6］的方法，本文提出了雙向依存自注意力機制（Bidirectional-Dependency self-attention mechanism，Bi-Dependency），將雙向依存知識融合到Transformer 編碼器的多頭注意力機制中，不僅利用了依存句法中子詞到父詞的信息也利用了父詞到子詞的信息，利用雙向依存知識指導神經(jīng)機器翻譯。

本文的主要工作包括以下兩個方面：

1）提出了基于雙向依存自注意力機制的神經(jīng)機器翻譯模型，通過融合子詞到父詞和父詞到子詞的雙向依存信息，提升了神經(jīng)機器翻譯的翻譯效果。

2）提出了雙向依存自注意力機制，將雙向依存信息融合到Transformer 模型編碼器的多頭注意力機制中；將句法結構信息有效地融入到了Transformer 模型中。

1 相關工作

1.1 依存信息融合方法

針對神經(jīng)機器翻譯任務中資源稀缺的問題，目前的解決方法主要分為融合成分句法和融合依存句法兩種方式，本文主要討論融合依存句法的方式。融合依存句法知識利用句子中的詞生成依存句法樹，得到句子中詞與詞間的關系，這種明確的句法信息的引入有助于翻譯模型更好地學習句子中的句法結構，緩解資源稀缺的問題。

Wu 等［7］率先在基于RNN 的翻譯模型中引入了依存句法知識并提出了一種具有語法知識融合的方法，該方法有3 個編碼器和兩個解碼器同時需要提供目標語言的依存句法信息。該方法在解碼端融合目標語言的依存句法信息，通過依存句法知識的指導，得到解碼端的輸出，但該方法不針對低資源條件下的神經(jīng)機器翻譯。Zhang 等［8］通過將依存解析器的中間表示與單詞嵌入進行級聯(lián)，從而集成源語言端的語法，該方法由解析模型和神經(jīng)機器翻譯模型構成，將解析模型編碼器生成的隱狀態(tài)作為翻譯模型的輸入，在翻譯的同時可以得到源語言句子的依存解析結果；但該方法不允許在源語言端學習字詞單元。Saunders 等［9］利用語法表示法對單詞進行交織，提出了一種基于派生的表示形式，可以從序列中直接復制原始樹，從而保持結構信息；但這樣會導致更長的序列出現(xiàn)，且需要利用梯度累計的方式才能進行有效的訓練。Choshen 等［10］提出了一種基于生成轉換序列的基于Transformer 的樹和圖解碼的通用方法，實驗表明該方法的性能優(yōu)于標準Transformer 解碼器。安靜［11］利用依存句法將英文長句分割并證明了基于長句分割機器翻譯的有效性。王振晗等［12］將源語言句法解析樹融合到卷積神經(jīng)網(wǎng)絡中，在漢-越翻譯中取得了很好的效果。

以上融合依存句法知識的研究主要基于RNN 和LSTM模型框架進行研究，只有少量的研究是在Transformer 模型框架下進行的。目前Transformer 模型框架在許多雙語的翻譯上都取得了最佳的翻譯效果，因此，本文將雙向依存知識融合到Transformer 模型中，以提升翻譯質(zhì)量。

1.2 基于Transformer模型的句法信息融合方法

Wang等［13］提出了一種隱式的集成源端語法的方法，使用端到端依存解析器的中間隱藏表示，將其隱藏為具有語法感知的單詞表示。之后，將具有語法感知的單詞表示形式與普通的詞嵌入連接起來，以增強基本的神經(jīng)機器翻譯模型。該方法無需外部解析工具，但該方法并不針對低資源情況。Nguyen 等［14］提出了一種具有層級累積的樹結構注意力機制，將源語言句子序列解析為成分樹結構后，先利用自下向上的檢索累積，再進行自左向右的權重累積得到4 個向量，輸入到Transformer 模型中，將葉子節(jié)點和非終端節(jié)點分別編碼并輸入到解碼端。Zhang 等［15］提出了通過基于互信息最大化的自監(jiān)督神經(jīng)深度建模的源-目標雙語對齊的方法，基于神經(jīng)機器翻譯的詞對齊，對齊源句和目標句的句法結構，通過互信息最大化源句和目標句的相互依賴性，結果顯示了句法對齊的有效性和通用性。Slobodkin 等［16］利用通用概念認知注解（Universal Conceptual Cognitive Annotation，UCCA）解析的方式獲取源語言的解析數(shù)據(jù)，分別融入編碼器或解碼器并取得了較好的結果，證明了融合語義知識的有效性。張海玲等［17］提出利用句法層次化分析識別短語及句子框架并在中-英翻譯上取得了較好的效果。Bugliarello 等［6］提出了父母規(guī)模自注意力（Parent-scaled self-attention，Pascal）機制和一種將語法知識融入Transformer 模型的方法，將依存信息中子詞到父詞的信息融合到多頭注意力機制中，該方法是一種新穎的、無需參數(shù)的、具有依賴性的自注意力機制，可提高翻譯質(zhì)量。

以上基于Transformer 模型的句法信息融合方法大多只融合子詞到父詞方向的信息，并未融合父詞到子詞方向的信息。本文提出了融合雙向信息的方法，通過更全面的結構信息融合提升神經(jīng)機器翻譯的性能。

2 融合雙向依存知識的神經(jīng)機器翻譯

本文模型基于Transformer 框架，利用雙向依存自注意力機制對Transformer 編碼器的多頭注意力機制進行改進。雙向依存自注意力機制的輸入由源語言句子的嵌入矩陣、源語言父詞位置向量P∈RL和源語言子詞權重矩陣C∈RL×L構成，輸出為雙向依存自注意力機制的最終表示Mh。圖1 展示了雙向依存自注意力機制的結構。

2.1 雙向依存信息

對于源語言中的父詞信息，本模型利用外部解析工具得到父詞位置序列，對于子詞，本模型無需提供額外的依存解析工具，僅使用父詞位置向量即可構建子詞權重矩陣。對于根詞，本文將其父詞和子詞定義為根詞本身。

本文首先利用外部依存解析工具得到依存解析中的父詞位置標記序列，從而得到句子序列中的父詞位置向量P∈RL，根據(jù)圖1 中的句子依存關系圖可知句子中詞與詞間關系，箭頭指向的詞為子詞，箭尾指向的詞為父詞，由此可知每個子詞所屬的父詞在句子中的位置，從而得到父詞位置向量P∈RL。如圖1 中的句子，“兩者”的父詞為“出現(xiàn)”，“出現(xiàn)”在句子中的第3 個位置，因此父詞位置向量中第1 個位置為3。以此類推，可得到圖中的父詞位置向量P∈RL。

根據(jù)父詞位置向量P∈RL可得到源語言句子中的子詞權重矩陣C∈RL×L。式（1）給出了子詞權重矩陣C的定義，假設xi是可能的父詞，則當xj是xi的子詞時，元素Cij為1；否則為0。對于每個句子，使句子中的每個詞與其本身對應。由于每個句子中的父詞可能存在多個子詞，因此本文將這些子詞進行權重平均。對于根詞，將其子詞作為它本身并記錄權重。通過這種方式，每個單詞都會被告知其修飾語。

其中：ni是xi的子詞個數(shù)。同樣根據(jù)圖1 中的依存關系圖可知，每個父詞擁有幾個子詞，例如，句子中的“出現(xiàn)”擁有包括其本身在內(nèi)的4 個子詞，在子詞權重平均后，子詞權重矩陣第3 行中的每個子詞所在的位置均為1/4，其余沒有子詞的詞語所在的行均為0，即可得到圖1中的子詞權重矩陣C∈RL×L。

圖1 雙向依存自注意力機制的結構Fig.1 Structure of bidirectional-dependency self-attention mechanism

2.2 雙向依存自注意力機制

在圖1 中，對于長度為L的源語言句子序列，雙向依存自注意力機制中每個頭的輸入分別是嵌入矩陣、源語言句子的父詞位置向量P∈RL和源語言句子的子詞權重矩陣C∈RL×L。根據(jù)Vaswani 等［18］的研究，在每一個注意力機制的頭中，為每個標記進行計算可得到3 個向量，分別是查詢、鍵和值，從而得到3 個矩陣Kh∈RL×d、Qh∈RL×d和Vh∈RL×d，其中d=dmodel/H，H為注意力機制中頭的數(shù)量。之后計算每個查詢、鍵和值，給出在給定位置編碼時，要在輸入的其他位置上設定的焦點分數(shù)，再將分數(shù)除以可以緩解點積較大時出現(xiàn)的梯度消失問題，如式（2）所示：

其中：T 表示矩陣的轉置。根據(jù)每個標記與位置t的依存父詞位置pt之間的距離，得到在位置t處的標記得分st：

其中：是父詞融合矩陣Nh∈RL×L的第t行，代表與第t個父詞接近度的歸一化分數(shù)；是父詞距離矩陣DP∈RL×L的第(t，j)個位置，其中dtj包含每個標記j與依存知識中每個父詞位置間的距離關系，此距離計算定義為以pt為中心且方差為σ2、正態(tài)分布為N(pt，σ2)的概率密度值：

根據(jù)分數(shù)矩陣Sh∈RL×L和父詞距離矩陣Dp∈RL×L可得到父詞融合矩陣Nh∈RL×L：

利用解析完成的父詞信息，構建子詞權重矩陣C∈RL×L，此權重矩陣根據(jù)輸入序列中每個詞擁有子詞的數(shù)量構建，式（1）給出了子詞權重矩陣C的定義。

由圖1 可知，子詞權重矩陣C∈RL×L中存在過多的零元素，本文利用加入高斯噪聲的方式處理這些零元素。為子詞權重矩陣C∈RL×L中的元素添加高斯噪聲，此高斯噪聲是以ct為中心且方差為σ2、正態(tài)分布為N(ct，σ2)的概率密度的公式，(t，j)表示子詞權重矩陣中的每個元素，利用這種方式可得到子詞高斯權重矩陣Cg∈RL×L：

得到子詞高斯權重矩陣Cg∈RL×L后，為提高模型的收斂速度，利用Softmax 函數(shù)對矩陣進行歸一化處理，得到子詞依存矩陣Cs∈RL×L：

根據(jù)父詞融合矩陣Nh∈RL×L和子詞依存矩陣Cs∈RL×L，可得到子詞融合矩陣Zh∈RL×L：

最后，應用Softmax 函數(shù)為句子中的每個標記生成權重分配，再將得到的子詞融合矩陣Zh∈RL×L與值矩陣Vh∈RL×d相乘，獲得雙向依存自注意力機制頭的最終表示Mh。

由于本文模型將依存標記融合到了翻譯模型中，因此在計算損失L時，使用交叉熵損失函數(shù)，如式（10）所示：

其中：li表示第i個父詞的標記，正類為1，負類為0；pi表示第i個樣本為正的概率。

本文同時利用子詞到父詞和父詞到子詞方向的信息且無需配置其他額外的訓練參數(shù)。Dp∈RL×L的距離僅取決于父詞的位置向量，子詞權重矩陣Cs∈RL×L只取決于每個詞在句子中擁有的子詞數(shù)量。本文模型在構建子詞權重矩陣時，無需使用外部解析器，可以在訓練模型前節(jié)省大量對源語言進行解析的時間。雙向依存自注意力機制模型是Bugliarello 等［6］的父母規(guī)模自注意力機制的擴展，本文加入了父詞到子詞方向的依存信息，增強神經(jīng)機器翻譯中子詞對機器翻譯的影響。

2.3 多頭注意力機制

雙向依存自注意力機制是對多頭注意力機制中點積注意力機制的擴展，圖2 展示了雙向依存自注意力機制在多頭注意力機制中的融合方法。本文在多頭注意力機制中的融合方法進行了設計上的選擇，實驗結果將在3.5.2 節(jié)介紹。本文的雙向依存自注意力機制僅在多頭注意力機制的第1層的8 個頭中進行融合，如圖2 所示，編碼器的整體結構并未更改，輸入句子x進行詞嵌入和位置編碼后輸入到多頭注意力機制中，在多頭注意力機制中，經(jīng)過線性化的查詢Q、鍵K、值V，父詞位置向量P∈RL和子詞權重矩陣C∈RL×L作為輸入，輸入到雙向依存自注意力機制中，得到每個頭的最終表示Mh。其余處理過程與基本的Transformer 模型相同，未對編碼器其他位置進行改變。雙向依存自注意力機制融合到了多頭注意力機制的8 個頭中，且只在第1 層融合雙向依存自注意力機制取得最好的效果，這在本文隨后的實驗中得以驗證，證明了雙向依存自注意力機制的有效性。

圖2 多頭注意力機制Fig.2 Multi-head attention mechanism

2.4 雙向依存信息忽略

根據(jù)Bugliarello 等［6］的方法，由于缺乏與標準解析工具平行的語料庫，因此本模型的父詞依存知識依賴于外部依存解析工具的結果；但根據(jù)Dredze 等［19］的研究，對域外數(shù)據(jù)進行評估時，依存解析工具的性能會下降。為防止本文模型過度擬合到嘈雜的依賴性，本文為雙向依存自注意力機制引入了兩種正則化的技術，分別是父詞信息忽略和子詞信息忽略的方法。這種方法與Srivastava 等［20］的dropout 方法類似，會在模型訓練階段忽略一定的父詞和子詞信息。通過以一定的概率q，將父詞距離矩陣DP∈RL×L和子詞依存矩陣Cs∈RL×L中的每一行隨機設置為1 ∈RL來忽略父詞的位置信息和子詞的依存信息。這兩種正則化技術的引入可以生成不同父詞距離矩陣和子詞依存矩陣，使模型學習不同的矩陣形式，最終通過取平均的策略，防止過擬合的問題。

3 實驗與結果分析

3.1 實驗數(shù)據(jù)

為驗證本文提出的基于雙向依存自注意力機制的神經(jīng)機器翻譯融合方法，本文分別在漢-泰、漢-英，英-德上進行了雙向翻譯實驗，并壓縮了漢-泰和漢-英的訓練數(shù)據(jù)進行了雙向翻譯實驗，其中：漢-泰語料是通過互聯(lián)網(wǎng)爬取的106萬的平行語料，分成訓練集、驗證集和測試集；漢-英語料為CWMT 語料庫，該語料庫由801 萬個句子對組成，作為訓練集，使用newsdev2017 作為驗證集，使用newstest2017 作為測試集；英-德語料為IWSLT14 的英德語料庫，該語料庫由17.4 萬個句子對組成，作為訓練集和驗證集，使用newstest2015 作為測試集。壓縮后的漢-泰和漢-英訓練數(shù)據(jù)為20 萬的平行語料，用漢-泰小和漢-英小表示，如表1 所示。

表1 數(shù)據(jù)集詳情Tab.1 Details of datasets

3.2 數(shù)據(jù)預處理

本文模型采用和Vaswani 等［18］相同的預處理步驟，使用Koehn 等［21］提出的Moses 模型對數(shù)據(jù)進行標記，并從源語言端和目標語言端刪除了超過80 個標記的句子，步驟如下：

1）數(shù)據(jù)篩選。首先刪除超過80 個標記的句子，之后刪除存在亂碼的數(shù)據(jù)，最后通過人工篩選刪除存在錯誤的句子。

2）分詞。對于漢語本文使用jieba 分詞，對于泰語使用JointCut 進行分詞，對于英語和德語，本文不將其分為字符級。

3）依存句法解析。漢語使用LTP 語言云平臺進行分詞和依存解析，泰語利用spaCy-Thai 進行分詞和依存解析，英語和德語使用Stanford CoreNLP 進行依存解析。為保證分詞結果與依存解析的結果可以一一對應，本文在進行依存解析前，不對源語言句子進行分詞，直接利用依存解析工具的分詞結果來保證模型的輸入不會發(fā)生錯誤。

4）字節(jié)對編碼（Byte Pair Encoding，BPE）。本文采用BPE 大小均為1.6 萬的詞表。

3.3 模型參數(shù)設置

本文模型是基于Transformer 模型的擴展，使用Fairseq 工具包中的PyTorch0.4.1 實現(xiàn)本文的模型。根據(jù)Papineni等［22］提出的通過小格網(wǎng)絡搜索的方法，利用BLEU 值作為本文的評價指標。本文選擇Transformer 和Pascal 作為對比實驗的基準模型，實驗分別基于Transformer 架構。所有實驗均在單個NVIDIA RTX 2070 SUPER GPU 上進行。本文使用Vaswani 等［18］最新的Tensor2Tensor 中的超參數(shù)設置，按照Vaswani 等［18］的學習時間表進行了4 000 個warm-up 優(yōu)化。類似于Szegedy 等［23］的研究，在訓練過程中使用的標簽平滑率為0.1。在驗證時使用和Wu 等［24］類似的波束大小為4 且長度罰分為0.6 的波束搜索。本文采用的學習率為0.000 7，批次大小max-tokens 為4 096，dropout 為0.3。在壓縮數(shù)據(jù)的實驗中，本文采用了8 000 個warm-up 優(yōu)化。

3.4 實驗結果

本文分別在漢泰數(shù)據(jù)集、CWMT 漢英數(shù)據(jù)集、IWSLT14英德數(shù)據(jù)集和壓縮后的漢泰、漢英數(shù)據(jù)集上進行了實驗，實驗結果如表2 所示。

表2 不同模型雙向翻譯的BLEU結果Tab.2 BLEU results of bidirectional translation among different models

由表2 可見，Bi-Dependency 在漢-泰雙向翻譯中，BLEU相較于Transformer 的翻譯結果提升了1.07 和0.86；在漢-英翻譯任務上，Bi-Dependency 的BLEU 也顯著提升了0.79 和0.68；在英-德上，Bi-Dependency 的翻譯結果與Transformer相比雖有提升但不顯著。在壓縮數(shù)據(jù)集后，Bi-Dependency在漢-泰雙向翻譯中，BLEU 與Transformer 模型相比分別有0.51 和1.06 的提升。在漢-英翻譯任務中，BLEU 分別提升了1.04 和0.40。從表2 可進一步分析出，漢-泰的翻譯整體效果較差，這可能是由于在泰語和漢語進行分詞時，漢語和泰語的詞無法較好地對應，使得模型在學習時存在較大的偏差；而英-德上，Bi-Dependency 的翻譯結果提升并不明顯，這可能由于目前的Transformer 模型在英德上的翻譯比較成熟，Transformer 模型可以較好地學習到英語和德語的句法結構，從而使得融合雙向依存知識的方式翻譯效果不顯著。本文通過融合雙向依存知識，在富資源和低資源情況下的翻譯質(zhì)量均有一定的提升，說明本文提出的雙向依存自注意力機制是有效的。

3.5 實驗分析

為驗證本文提出的基于雙向依存自注意力機制的漢泰神經(jīng)機器翻譯方法的合理性，分別設計了雙向依存信息、多頭注意力機制不同的層中融合雙向依存信息和高斯權重函數(shù)對模型翻譯效果的影響實驗。

3.5.1 雙向依存信息對翻譯結果的影響分析

為驗證融合源語言雙向依存信息的作用，本文在漢-英數(shù)據(jù)集上進行了融合雙向依存信息的有效性實驗。定義“Transformer+CWord（Child Word）”表示只融合依存知識中父詞到子詞方向的信息；定義“Pascal”表示只融合依存知識中子詞到父詞方向的信息；定義“Bi-Dependency”表示本文模型框架，實驗結果如表3 所示。

表3 融合單/雙向依存信息的BLEU值對比Tab.3 BLEU values comparison of fusing with unidirectional-/bidirectional-dependency information

由表3 的實驗結果可以看出，Bi-Dependency 取得了最好的結果：在漢-英的翻譯任務上，與Transformer+CWord 模型相比，BLEU 分別提升了0.44 和0.81，與Pascal 模型相比，BLEU 分別提升了0.41 和0.29。在壓縮數(shù)據(jù)集上，Bi-Dependency 的BLEU 值同樣有較大的提升。根據(jù)以上的結果可以看出，在源語言端融合依存知識與基本的Transformer模型相比均有顯著的提升，說明在源語言端融合依存句法知識對翻譯任務是有幫助的。Transformer+CWord 和Pascal 的BLEU 值差距很小，說明在源語言端融合依存知識中的父詞或子詞的翻譯效果無明顯差距。這可能是由于在機器翻譯任務中，融合子詞到父詞的單向信息和父詞到子詞的單向信息屬于相同類型的融合方式；因此，在源語言端，只融合子詞到父詞信息與只融合父詞到子詞信息的效果大致相同。本文提出的Bi-Dependency 翻譯模型在漢-英的雙向翻譯任務上取得了最高BLEU 值，獲得了最好的翻譯效果，說明在源語言端融合雙向依存知識對神經(jīng)機器翻譯任務具有較大的幫助。

3.5.2 多頭注意力機制不同的層中融合雙向依存信息對翻譯結果的影響分析

根據(jù)Bugliarello 等［6］的研究，本文也在漢-英數(shù)據(jù)集上，在多頭注意力機制不同的層上進行了雙向依存自注意力機制層實驗，以驗證在第幾層融合雙向依存知識是更加有效的，實驗結果如表4 所示。

表4 不同注意力層中融合雙向依存信息的BLEU值對比Tab.4 BLEU values comparison of fusing bidirectional-dependency information in different attention layers

表4 展示了雙向依存自注意力機制在多頭注意力機制不同層上的實驗結果。通過表4 可知，Bi-Denpendency 模型在多頭注意力機制的第一層融合雙向依存句法知識取得了最好的效果。與最低的結果相比，在漢-英的翻譯任務上，分別提升了0.65 和1.01 個BLEU 值。壓縮數(shù)據(jù)后，分別提升了1.48 和0.40 個BLEU 值。當Bi-Dependency 放置在較低層時，模型在測試集上的性能會明顯降低。這樣的結果證實了Raganato 等［25］的發(fā)現(xiàn)：在第一層中更多的注意力僅集中在需要翻譯的單詞本身上，而不是其上下文。由此可以推斷出，在第一層融合句法相關性可以有效地學習單詞表示，從而進一步提高Transformer 模型的翻譯準確性。

3.5.3 高斯權重矩陣對翻譯結果的影響分析

為了驗證在子詞權重矩陣中添加高斯噪聲的作用，本文在漢-英數(shù)據(jù)集上進行了高斯權重矩陣實驗，定義“Bi-Dependency-GWF（Gaussian Weight Function）”表示子詞權重矩陣中不添加高斯權重函數(shù)，實驗結果如表5 所示。

表5 添加高斯噪聲前后的BLEU值對比Tab.5 Comparison of BLEU values before and after adding Gaussian noise

根據(jù)表5 可知，Bi-Dependency 取得了最好的效果。在漢-英的翻譯任務上，與Bi-Dependency-GWF 相比，分別提高了1.26 和0.87 個BLEU 值。在壓縮數(shù)據(jù)集上，分別提高了2.01 和1.37 個BLEU 值。而Bi-Dependency-GWF 模型與基本的Transformer 模型相比同樣存在較大的差距，分別下降了0.47 和0.19 個BLEU 值，壓縮數(shù)據(jù)集后同樣出現(xiàn)了明顯的下降。因此在雙向依存自注意力機制中不添加高斯噪聲的翻譯結果有明顯的下降，結果低于Bi-Dependency 和Transformer模型。由此可以證明高斯噪聲的添加是必要且有效的。不添加高斯噪聲時，翻譯結果出現(xiàn)下降，本文認為這可能是由于子詞權重矩陣中過多的0 元素在與父詞融合矩陣Nh∈RL×L進行點乘時，使得生成的子詞融合矩陣Zh∈RL×L中出現(xiàn)了過多的0 元素，從而對原本的父詞融合矩陣產(chǎn)生了大量的噪聲，使得翻譯效果出現(xiàn)了明顯的下降。

4 結語

本文針對神經(jīng)機器翻譯任務，提出了雙向依存自注意力機制（Bi-Dependency）。實驗結果表明，通過在多頭注意力機制中融合雙向依存知識的方式，對神經(jīng)機器翻譯任務的質(zhì)量有一定的提升；通過對比實驗證明，利用雙向依存知識可以給翻譯模型提供更豐富的依存信息，同時這種方式對低資源翻譯任務同樣是有效的。通過實驗結果也可看出，目前漢泰神經(jīng)機器翻譯的總體效果較差，這可能是由于泰語分詞效果較差和實驗設備限制導致的，因此，如何更好地針對漢語和泰語的特性將會是未來的研究重點。