• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于最長(zhǎng)名詞短語(yǔ)分治策略的神經(jīng)機(jī)器翻譯

      2018-05-04 07:26:15張學(xué)強(qiáng)蔡?hào)|風(fēng)
      中文信息學(xué)報(bào) 2018年3期
      關(guān)鍵詞:語(yǔ)料雙語(yǔ)短語(yǔ)

      張學(xué)強(qiáng),蔡?hào)|風(fēng),葉 娜,吳 闖

      (沈陽(yáng)航空航天大學(xué) 人機(jī)智能研究中心,遼寧 沈陽(yáng) 110136)

      0 引言

      神經(jīng)機(jī)器翻譯(neural machine translation,NMT)作為一種全新的機(jī)器翻譯方法,近年來(lái)獲得迅速發(fā)展。然而,神經(jīng)機(jī)器翻譯僅僅使用一個(gè)非線性的神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)自然語(yǔ)言之間的轉(zhuǎn)換[1],相比統(tǒng)計(jì)機(jī)器翻譯,譯文質(zhì)量對(duì)句子長(zhǎng)度更為敏感[2]。如何在神經(jīng)機(jī)器翻譯中將一個(gè)句子在盡量不損失語(yǔ)義信息的前提下,進(jìn)行長(zhǎng)度上的縮減和結(jié)構(gòu)上的簡(jiǎn)化是一個(gè)值得探究的方向。

      一般認(rèn)為,自然語(yǔ)言中語(yǔ)義的基本單位是短語(yǔ)。因此,將句子級(jí)別的對(duì)齊和翻譯進(jìn)行到亞句子(sub-sentence)的短語(yǔ)一級(jí)顯得尤為重要。句子中的實(shí)體和概念通常可由名詞短語(yǔ)(noun phrase,NP)來(lái)描述,其捆綁了一個(gè)相對(duì)完整的語(yǔ)義信息,具有豐富的句法功能,可在句中充當(dāng)主語(yǔ)和賓語(yǔ)等成分。最長(zhǎng)名詞短語(yǔ)[3](maximal-length noun phrase,MNP)指不被其他任何名詞短語(yǔ)嵌套的名詞短語(yǔ)。與一般名詞短語(yǔ)相比,MNP具有更大的粒度,邊界特征較為明顯,有利于句子的整體結(jié)構(gòu)分析。采用分治策略處理MNP,既能在亞句子一級(jí)上獲得更精準(zhǔn)的翻譯,也在一定程度上將句子縮短為包含主干信息的句子框架。因此,準(zhǔn)確識(shí)別和翻譯MNP,是利用分治策略提升機(jī)器翻譯性能的一個(gè)有力手段。

      針對(duì)神經(jīng)機(jī)器翻譯在長(zhǎng)句翻譯任務(wù)上的不足,考慮到MNP的處理可以在一定程度上簡(jiǎn)化句子結(jié)構(gòu),本文提出一種基于MNP分治策略的神經(jīng)機(jī)器翻譯方法。該方法基于一個(gè)“抽取—翻譯—重組”的MNP處理框架,旨在將MNP獨(dú)立處理帶來(lái)更高質(zhì)量的MNP和句子框架譯文的優(yōu)勢(shì),與神經(jīng)機(jī)器翻譯學(xué)習(xí)能力強(qiáng)、譯文具有較高準(zhǔn)確度和流暢度等優(yōu)勢(shì)相結(jié)合,以達(dá)到提升譯文整體質(zhì)量的目的。

      1 相關(guān)研究

      1.1 短語(yǔ)知識(shí)在機(jī)器翻譯中的應(yīng)用

      在自然語(yǔ)言中,短語(yǔ)作為語(yǔ)義的基本單位,具有重要的意義。將雙語(yǔ)短語(yǔ)等語(yǔ)言學(xué)知識(shí)融入機(jī)器翻譯中,一直是研究人員孜孜追求的目標(biāo)。

      針對(duì)基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯方法未充分利用語(yǔ)言學(xué)知識(shí)、長(zhǎng)距離調(diào)序效果不好的問(wèn)題,丁鵬[4]等提出一種基于雙語(yǔ)句法短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯方法。首先,采用一種基于期望最大化(expectation maximization,EM)的算法來(lái)抽取雙語(yǔ)句法短語(yǔ)。然后,通過(guò)三種方法將短語(yǔ)應(yīng)用到統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中: (1)將雙語(yǔ)句法短語(yǔ)加入訓(xùn)練語(yǔ)料中,訓(xùn)練翻譯模型; (2)將其加入短語(yǔ)表中,計(jì)算短語(yǔ)的特征值; (3)增加一個(gè)句法短語(yǔ)特征到短語(yǔ)表中,表征其是否為句法短語(yǔ)。實(shí)驗(yàn)結(jié)果表明,這三種方法得到的譯文BLEU分值分別比基線系統(tǒng)提升了0.23、0.41和0.64。丁鵬等人的方法盡管利用了雙語(yǔ)句法短語(yǔ),但整體框架仍然是基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯方法,長(zhǎng)距離調(diào)序效果不佳。

      針對(duì)上述問(wèn)題,Ren X等[5]提出一種簡(jiǎn)化專(zhuān)利句子結(jié)構(gòu)以提高翻譯性能和后處理效率的方法。首先,采用一種基于統(tǒng)計(jì)方法的識(shí)別器,對(duì)句中的MNP進(jìn)行識(shí)別。在中文樹(shù)庫(kù)CTB 5.1的專(zhuān)利語(yǔ)料上識(shí)別結(jié)果的F值達(dá)到62.28%。然后,對(duì)MNP進(jìn)行分析,在識(shí)別正確與錯(cuò)誤的MNP中,分別有97.92%和38.94%,有利于后續(xù)的翻譯過(guò)程。最后,在統(tǒng)計(jì)機(jī)器翻譯方法上分別使用自動(dòng)方法和人工方法對(duì)系統(tǒng)進(jìn)行評(píng)價(jià)。與基線系統(tǒng)相比,該系統(tǒng)得到的譯文BLEU分值提升了0.62;語(yǔ)義準(zhǔn)確度和流暢度分別提升0.18和0.17,翻譯效率提升了約100字/小時(shí)。該方法的不足在于,沒(méi)有使用雙語(yǔ)MNP擴(kuò)展語(yǔ)料,以訓(xùn)練短語(yǔ)表、翻譯模型和調(diào)序模型。MNP作為句子的一部分,翻譯規(guī)則卻與句子不盡相同。導(dǎo)致訓(xùn)練得到的模型能較好地翻譯簡(jiǎn)化后的句子,卻不能準(zhǔn)確翻譯MNP。

      1.2 神經(jīng)機(jī)器翻譯

      統(tǒng)計(jì)機(jī)器翻譯(statistical machine translation,SMT)主要存在三個(gè)挑戰(zhàn)[10]*實(shí)際上,引文中作者給出了六個(gè)挑戰(zhàn),這里只列舉其三。: (1)線性不可分; (2)缺乏合適的語(yǔ)義表示; (3)難以設(shè)計(jì)特征。而深度學(xué)習(xí)可以較好地緩解上述問(wèn)題,因此完全基于深度學(xué)習(xí)的端到端神經(jīng)機(jī)器翻譯應(yīng)運(yùn)而生,并獲得迅速發(fā)展。

      研究人員通過(guò)將現(xiàn)有的方法和策略引入端到端的神經(jīng)網(wǎng)絡(luò),以實(shí)現(xiàn)翻譯性能的不斷提升。Sutskever等[11]首次將長(zhǎng)短期記憶[12](long short-term memory,LSTM)引入到神經(jīng)機(jī)器翻譯,以緩解遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)訓(xùn)練時(shí)“梯度消失”的問(wèn)題,并且在“編碼—解碼”(encoder-decoder)框架兩端同時(shí)采用遞歸神經(jīng)網(wǎng)絡(luò)。圖1給出了Sutskever等人提出的神經(jīng)機(jī)器翻譯模型。

      圖1 端到端神經(jīng)機(jī)器翻譯,隱狀態(tài)e3作為句子向量c

      在源端,對(duì)于句子X(jué)={x0,x1,x2,x3},編碼器遞歸地依據(jù)前一時(shí)刻隱狀態(tài)et-1和詞xt計(jì)算當(dāng)前時(shí)刻隱狀態(tài)et。直到掃描尾詞xn隨即完成了編碼過(guò)程,并將最后一個(gè)隱狀態(tài)en作為表示源語(yǔ)言句子的向量c,指導(dǎo)并約束后續(xù)解碼過(guò)程。et的計(jì)算如式(1)所示。

      et=g(et-1,xt)

      (1)

      在目標(biāo)端,解碼器遞歸地依據(jù)向量c和已生成的目標(biāo)詞yt-1以及上一時(shí)刻隱狀態(tài)dt-1共同作用于當(dāng)前時(shí)刻隱狀態(tài)dt,如式(2)所示。

      dt=h(dt-1,yt-1,c)

      (2)

      得到解碼器隱狀態(tài)dt后,目標(biāo)詞yt的概率分布可由式(3)得到。

      p(yt|y

      (3)

      其中,g、h和f為非線性函數(shù)。通過(guò)解碼器遞歸地從左至右逐一生成目標(biāo)詞,最終得到完整譯文Y={y0,y1,y2,y3}。盡管引入長(zhǎng)短期記憶的神經(jīng)機(jī)器翻譯在性能上獲得大幅提升,卻面臨著實(shí)現(xiàn)準(zhǔn)確編碼的挑戰(zhàn)。因?yàn)椴徽摼渥娱L(zhǎng)短,編碼器都要將其映射為一個(gè)固定維度的向量。

      針對(duì)上述問(wèn)題,Bengio等[13]提出了基于注意力(attention)的神經(jīng)機(jī)器翻譯。解碼器在生成目標(biāo)詞yi時(shí),動(dòng)態(tài)地注意源語(yǔ)言句中與之相關(guān)的上下文ci,而不再關(guān)注整個(gè)源語(yǔ)言句子。圖2給出了引入注意力機(jī)制的神經(jīng)機(jī)器翻譯模型。

      圖2 基于注意力機(jī)制的神經(jīng)機(jī)器翻譯,動(dòng)態(tài)生成上下文向量c

      引入注意力的神經(jīng)機(jī)器翻譯的關(guān)鍵在于基于注意力的上下文向量c的生成。當(dāng)前時(shí)刻待生成詞yt在源端對(duì)應(yīng)的上下文向量ct由源語(yǔ)言隱狀態(tài)序列e={e0,e1,e2,e3}和注意力權(quán)重at加權(quán)求和得到,而注意力權(quán)重at由上一時(shí)刻解碼器隱狀態(tài)dt-1和源端隱狀態(tài)ej共同作用產(chǎn)生。如式(4)~(6)所示。

      其中,m為非線性函數(shù)。得到當(dāng)前時(shí)刻上下文向量ct后,當(dāng)前時(shí)刻解碼器隱狀態(tài)dt與待生成詞yi的條件概率分布分別可由式(2)和式(3)求解。

      盡管長(zhǎng)短期記憶和注意力機(jī)制的引入能夠更好地處理長(zhǎng)距離依賴,從而提升神經(jīng)機(jī)器翻譯的性能。然而,自然語(yǔ)言中句子長(zhǎng)短不一、結(jié)構(gòu)復(fù)雜,通過(guò)單一神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)翻譯知識(shí)的方法受到限制。如何利用語(yǔ)言學(xué)知識(shí)結(jié)合分治策略對(duì)句子的各部分進(jìn)行分治與整合,是一個(gè)值得研究的問(wèn)題。

      2 基于MNP分治策略的神經(jīng)機(jī)器翻譯

      盡管神經(jīng)機(jī)器翻譯近年來(lái)獲得了迅速發(fā)展,但目前的方法主要是從數(shù)據(jù)中自動(dòng)學(xué)習(xí)翻譯知識(shí),沒(méi)有充分利用語(yǔ)言學(xué)知識(shí)顯式地指導(dǎo)翻譯過(guò)程。并且,神經(jīng)機(jī)器翻譯使用固定維度的向量表示變化長(zhǎng)度的詞句,造成結(jié)構(gòu)復(fù)雜的長(zhǎng)句翻譯效果不佳。

      針對(duì)上述問(wèn)題,本文提出一種基于MNP分治策略的神經(jīng)機(jī)器翻譯。該方法主要基于分治法的思想,采用一個(gè)“抽取—翻譯—重組”的MNP處理框架,將單個(gè)復(fù)雜長(zhǎng)句的翻譯問(wèn)題,轉(zhuǎn)化為一個(gè)或多個(gè)攜帶子句信息的MNP和維系主干信息的句子框架的翻譯問(wèn)題,以實(shí)現(xiàn)翻譯性能的整體提升。

      2.1 “抽取—翻譯—重組”框架

      在分治策略中,通常將單個(gè)復(fù)雜問(wèn)題轉(zhuǎn)化為多個(gè)相對(duì)簡(jiǎn)單的問(wèn)題,并分而治之。鑒于MNP在句中使用頻率高、句法功能豐富以及邊界易于識(shí)別等事實(shí),本文主要基于 “抽取—翻譯—重組”的MNP處理框架以實(shí)現(xiàn)分治策略的神經(jīng)機(jī)器翻譯。表1給出了該方法的完整示例。

      表1 “抽取—翻譯—重組”框架示例

      在示例中,抽取MNP時(shí)在句子框架中保留特殊標(biāo)識(shí)“MNPi”(i=1,2,)。作為對(duì)比,本文還使用了在句子框架中保留MNP核心詞的方法。將在2.3節(jié)、2.4節(jié)和2.5節(jié)中逐一說(shuō)明“抽取—翻譯—重組”框架的三個(gè)步驟,并對(duì)抽取MNP時(shí)保留特殊標(biāo)識(shí)或MNP核心詞的方法作出詳細(xì)論述。

      2.2 雙語(yǔ)MNP語(yǔ)料庫(kù)的構(gòu)建

      本文采用神經(jīng)機(jī)器翻譯系統(tǒng)分別對(duì)MNP和句子框架進(jìn)行翻譯。因此,雙語(yǔ)MNP語(yǔ)料庫(kù)的構(gòu)建是其中重要的一個(gè)環(huán)節(jié)。為保證訓(xùn)練和測(cè)試過(guò)程中MNP的抽取規(guī)則一致,本文沒(méi)有采用雙語(yǔ)MNP對(duì)齊算法進(jìn)行抽取,而是采用一個(gè)“抽取+查表”的方法。步驟描述如下:

      (1) 使用分析器對(duì)源語(yǔ)言句子進(jìn)行短語(yǔ)結(jié)構(gòu)句法分析,依據(jù)標(biāo)記匹配和括號(hào)對(duì)齊等規(guī)則抽取MNP。

      (2) 訓(xùn)練并查找短語(yǔ)表,匹配其中與源語(yǔ)言MNP對(duì)齊分值最高的目標(biāo)語(yǔ)言MNP。

      上述方法的優(yōu)勢(shì)在于每一步都可以加入規(guī)則條件,以獲得較高質(zhì)量的雙語(yǔ)MNP。本文在抽取源語(yǔ)言MNP以及查找短語(yǔ)表匹配其對(duì)應(yīng)的目標(biāo)語(yǔ)言MNP時(shí),過(guò)濾掉長(zhǎng)度小于2或包含符號(hào)、標(biāo)點(diǎn)等特殊字符的MNP。得到雙語(yǔ)MNP后,神經(jīng)機(jī)器翻譯系統(tǒng)的訓(xùn)練和測(cè)試過(guò)程如下:

      首先,將雙語(yǔ)MNP分別加入訓(xùn)練數(shù)據(jù)集和開(kāi)發(fā)數(shù)據(jù)集中,利用擴(kuò)展后的數(shù)據(jù)集訓(xùn)練神經(jīng)機(jī)器翻譯模型。這一做法旨在得到能同時(shí)翻譯句子和MNP的神經(jīng)機(jī)器翻譯模型。

      其次,對(duì)測(cè)試數(shù)據(jù)集進(jìn)行同樣的短語(yǔ)結(jié)構(gòu)句法分析,抽取MNP的同時(shí)在句子框架中保留特殊標(biāo)識(shí)或MNP核心詞。

      最后,分別對(duì)句子框架和MNP進(jìn)行翻譯,將譯文重新組合以得到原句的完整翻譯。

      圖3給出了基于“抽取—翻譯—重組”框架的神經(jīng)機(jī)器翻譯系統(tǒng)翻譯的過(guò)程。考慮到短句子譯文質(zhì)量原本較高,本文只對(duì)長(zhǎng)度超過(guò)閾值L且可成功抽取MNP的句子采用基于“抽取—翻譯—重組”框架的分治策略進(jìn)行處理。

      圖3 神經(jīng)機(jī)器翻譯系統(tǒng)的“抽取—翻譯—重組”過(guò)程

      2.3 抽取

      抽取過(guò)程的核心任務(wù)是對(duì)句子進(jìn)行短語(yǔ)結(jié)構(gòu)句法分析??紤]到抽取較短的MNP對(duì)縮減句子長(zhǎng)度、降低句子結(jié)構(gòu)復(fù)雜度影響較小。因此,本文只對(duì)長(zhǎng)度不小于2的MNP進(jìn)行抽取。

      抽取過(guò)程的另一個(gè)重要問(wèn)題是,抽取MNP時(shí)在句子框架中保留何種標(biāo)記以實(shí)現(xiàn)更好的分治效果。本文主要嘗試以下兩種保留標(biāo)記的方法。

      方法一采用“MNPi”(i=1,2,)作為句子框架中的特殊標(biāo)識(shí),以保留MNP與句子框架中標(biāo)記的對(duì)齊關(guān)系。

      方法二將MNP的核心詞保留在句子框架中。通常,MNP的尾詞為其核心詞。

      兩種方法各有其優(yōu)勢(shì)和不足: 方法一盡管可以保留MNP和句子框架譯文的對(duì)齊關(guān)系,為后續(xù)的譯文重組過(guò)程帶來(lái)積極影響,但是將“MNPi”保留在句子框架中破壞了句子的流暢度,甚至改變了原本含義。相反地,方法二在句子框架中保留核心詞,保證了流暢度和語(yǔ)義完整性,從而能夠獲得較好的句子框架譯文。然而,核心詞卻無(wú)法直接對(duì)齊到句子框架譯文中的相應(yīng)位置。為此,需額外訓(xùn)練詞對(duì)齊信息,以在句子框架譯文中匹配核心詞譯文,對(duì)其進(jìn)行替換。

      2.4 翻譯

      采用雙語(yǔ)MNP擴(kuò)展后的平行語(yǔ)料可訓(xùn)練得到神經(jīng)機(jī)器翻譯模型。圖4給出了神經(jīng)機(jī)器翻譯模型采用分治策略,對(duì)句法樹(shù)中的句子框架和MNP進(jìn)行“分治”翻譯的過(guò)程。其中,下側(cè)虛線方框表示神經(jīng)機(jī)器翻譯模型對(duì)MNP“流離失所 家庭”與“現(xiàn)金 救助”的翻譯,上側(cè)虛線方框給出了對(duì)保留特殊標(biāo)識(shí)或核心詞的句子框架的翻譯。

      圖4 神經(jīng)機(jī)器翻譯模型對(duì)MNP及句子框架的“分治”翻譯

      2.5 重組

      重組過(guò)程主要是對(duì)句子框架和MNP的譯文進(jìn)行重新組合,即將MNP譯文替換到句子框架譯文中的相應(yīng)位置,以獲得完整譯文。根據(jù)MNP抽取時(shí)保留的特殊標(biāo)識(shí)不同,重組過(guò)程中也包含以下兩種方法。

      方法一使用第i個(gè)MNP譯文替換句子框架譯文中的特殊標(biāo)識(shí)“MNPi”;

      方法二通過(guò)預(yù)先訓(xùn)練得到的詞對(duì)齊信息查找MNP核心詞的可能譯文,當(dāng)譯文出現(xiàn)在句子框架譯文中時(shí),對(duì)其進(jìn)行替換。

      3 實(shí)驗(yàn)

      3.1 語(yǔ)料說(shuō)明

      本文實(shí)驗(yàn)主要針對(duì)中英翻譯任務(wù),語(yǔ)料來(lái)源于聯(lián)合國(guó)語(yǔ)料庫(kù)*https: //conferences.unite.un.org/UNCorpus中的中英雙語(yǔ)平行語(yǔ)料。其中,訓(xùn)練數(shù)據(jù)集共15 886 041句,實(shí)驗(yàn)過(guò)程只隨機(jī)抽取部分語(yǔ)料。官方開(kāi)發(fā)數(shù)據(jù)集和測(cè)試數(shù)據(jù)集各4 000句。

      針對(duì)雙語(yǔ)MNP語(yǔ)料庫(kù)的構(gòu)建問(wèn)題,本文隨機(jī)從訓(xùn)練語(yǔ)料中抽取150 000句中英雙語(yǔ)平行句對(duì)。首先,采用Berkeley Parser*https: //github.com/slavpetrov/berkeleyparser對(duì)長(zhǎng)度超過(guò)閾值L=15的中文句子進(jìn)行句法分析,采用NiuTrans*http: //www.niutrans.com/niutrans/NiuTrans.html開(kāi)源系統(tǒng)訓(xùn)練短語(yǔ)表。然后,依據(jù)2.2節(jié)所述抽取方法和過(guò)濾規(guī)則,抽取中文MNP,并在短語(yǔ)表中查找其對(duì)應(yīng)英文MNP,對(duì)不符合條件的雙語(yǔ)MNP進(jìn)行過(guò)濾。最后,使用雙語(yǔ)MNP擴(kuò)展訓(xùn)練數(shù)據(jù)集和開(kāi)發(fā)數(shù)據(jù)集。表2給出了實(shí)驗(yàn)數(shù)據(jù)的相關(guān)信息。

      表2 訓(xùn)練數(shù)據(jù)集與開(kāi)發(fā)數(shù)據(jù)集

      針對(duì)測(cè)試語(yǔ)料,同樣采用Berkeley Parser對(duì)長(zhǎng)度超過(guò)閾值L=15的句子進(jìn)行句法分析,并使用標(biāo)記匹配和括號(hào)對(duì)齊等規(guī)則的方法抽取MNP。表3給出了測(cè)試語(yǔ)料的相關(guān)信息。

      表3 測(cè)試語(yǔ)料信息

      從表3可以看出,相比于成功抽取出MNP的句子平均長(zhǎng)度,MNP和句子框架的平均長(zhǎng)度分別縮短了19.64和27.10。

      3.2 參數(shù)設(shè)置

      本文主要在深度學(xué)習(xí)框架Theano上采用DL4MT*https: //github.com/nyu-dl/dl4mt-tutorial/開(kāi)源代碼,搭建基于注意力機(jī)制的神經(jīng)機(jī)器翻譯系統(tǒng)。表4給出了實(shí)驗(yàn)中神經(jīng)網(wǎng)絡(luò)的主要參數(shù)設(shè)置及部分說(shuō)明。

      表4 網(wǎng)絡(luò)參數(shù)設(shè)置及說(shuō)明

      表4中,eos和UNK是置于詞表首位的特殊詞。將eos追加在句尾,表示句子結(jié)束。當(dāng)編碼器掃描到eos時(shí)結(jié)束編碼,同樣地,當(dāng)解碼器生成目標(biāo)詞eos時(shí),終止解碼過(guò)程。由于網(wǎng)絡(luò)訓(xùn)練過(guò)程中softmax函數(shù)的計(jì)算復(fù)雜度較高,而其與詞表規(guī)模成正相關(guān),因此詞表大小受到限制。考慮到集外詞對(duì)神經(jīng)機(jī)器翻譯系統(tǒng)的性能影響較大[14],本文將集外詞統(tǒng)一替換為特殊詞UNK。

      在網(wǎng)絡(luò)訓(xùn)練過(guò)程中,采用隨機(jī)梯度下降(stochastic gradient descent,SGD)算法進(jìn)行參數(shù)更新。模型測(cè)試時(shí),本文采用束搜索(beam search)算法生成最終譯文,束大小設(shè)置為10。

      3.3 結(jié)果與分析

      3.3.1 MNP抽取

      本文采用一種基于MNP分治策略的神經(jīng)機(jī)器翻譯方法,因此,能否準(zhǔn)確識(shí)別MNP直接影響到系統(tǒng)的翻譯性能。本文從成功抽取MNP的1 924個(gè)句子中隨機(jī)抽取200句,并對(duì)句中的MNP進(jìn)行人工標(biāo)注。通過(guò)比對(duì)系統(tǒng)的MNP抽取結(jié)果和人工標(biāo)注結(jié)果,可計(jì)算得到系統(tǒng)MNP識(shí)別的準(zhǔn)確率、召回率、F值,如表5所示。

      表5 MNP識(shí)別結(jié)果

      由表5可以看出,約27%的MNP識(shí)別存在錯(cuò)誤。但邊界錯(cuò)誤的MNP并不全都給后續(xù)的翻譯過(guò)程造成消極影響[5]。

      3.3.2 句長(zhǎng)敏感度

      為驗(yàn)證句子長(zhǎng)度對(duì)于譯文質(zhì)量的影響,本文分別在基線系統(tǒng)和MNP分治系統(tǒng)上,對(duì)測(cè)試數(shù)據(jù)集中的句子按照不同的長(zhǎng)度分布進(jìn)行測(cè)試。其中,基線系統(tǒng)指未采用“抽取—翻譯—重組”的MNP處理框架的神經(jīng)機(jī)器翻譯系統(tǒng)。MNP分治系統(tǒng)包含兩種方法,即抽取MNP時(shí)在句子框架中保留特殊標(biāo)識(shí)“MNPi”與保留MNP核心詞。

      本文采用NiuTrans①開(kāi)源系統(tǒng)中集成的大小寫(xiě)不敏感的4-gram BLEU方法對(duì)譯文質(zhì)量進(jìn)行自動(dòng)評(píng)價(jià)。如圖5所示,橫坐標(biāo)表示不同句長(zhǎng)分布,縱坐標(biāo)表示譯文BLEU分值。

      圖5 系統(tǒng)在不同句長(zhǎng)分布上的翻譯性能

      由圖5可以看出,隨著句子長(zhǎng)度的增加,譯文質(zhì)量呈明顯下降趨勢(shì)。特別地,當(dāng)句子長(zhǎng)度超過(guò)20后譯文質(zhì)量顯著下降,基線系統(tǒng)的譯文BLEU分值下降了7.23,保留特殊標(biāo)識(shí)“MNPi”方法和MNP核心詞方法的譯文BLEU分值分別下降了6.55和6.31。

      具體來(lái)看,主要有三點(diǎn)結(jié)論: (1)當(dāng)句長(zhǎng)小于20時(shí),基線系統(tǒng)略優(yōu)于MNP分治系統(tǒng)。原因分析如下: 首先,神經(jīng)機(jī)器翻譯方法原本在短句上翻譯性能較好。其次,MNP分治系統(tǒng)在“抽取—翻譯—重組”框架的三個(gè)步驟中都存在一定的損失,當(dāng)這種損失與分治方法帶來(lái)的提升持平時(shí),分治系統(tǒng)的優(yōu)勢(shì)表現(xiàn)得并不明顯。(2)當(dāng)句長(zhǎng)超過(guò)20后,隨著句子長(zhǎng)度的增大,MNP分治系統(tǒng)越來(lái)越表現(xiàn)出更優(yōu)的翻譯性能。尤其當(dāng)句長(zhǎng)在80和100之間時(shí),相比于基線系統(tǒng),保留特殊標(biāo)識(shí)“MNPi”和保留MNP核心詞的方法,譯文BLEU分值分別提升了3.10和5.75。(3)保留MNP核心詞的方法在翻譯性能上優(yōu)于保留特殊標(biāo)識(shí)“MNPi”的方法,且隨著句長(zhǎng)的增大,優(yōu)勢(shì)愈發(fā)明顯。

      3.3.3 翻譯性能

      本文采用“抽取—翻譯—重組”的MNP處理框架,對(duì)句子進(jìn)行短語(yǔ)結(jié)構(gòu)句法分析后抽取MNP,并保留特殊標(biāo)識(shí)或MNP核心詞與其他部分組成句子框架。表6給出了基線系統(tǒng)、保留特殊標(biāo)識(shí)“MNPi”以及保留MNP核心詞的三種神經(jīng)機(jī)器翻譯系統(tǒng)的譯文質(zhì)量。

      表6 譯文質(zhì)量對(duì)比

      由表6可以看出,基于“抽取—翻譯—重組”的MNP處理框架,抽取MNP時(shí)保留特殊標(biāo)識(shí)“MNPi”和保留MNP核心詞的方法在基線系統(tǒng)的基礎(chǔ)上,都獲得一定的提升。相比于基線系統(tǒng),保留“MNPi”的方法BLEU分值提升了0.36,保留MNP核心詞的方法BLEU分值提升了0.89。

      在分治系統(tǒng)中,由于抽取MNP時(shí)在句子框架中保留了MNP的核心詞,在一定程度上提高了句子框架的流暢度和語(yǔ)義完整性,從而相比于保留“MNPi”,表現(xiàn)出更好的性能,譯文的BLEU分值提升了0.53。

      4 總結(jié)與展望

      本文針對(duì)當(dāng)前神經(jīng)機(jī)器翻譯方法的譯文質(zhì)量對(duì)句子長(zhǎng)度敏感的問(wèn)題,提出一種基于MNP分治策略的神經(jīng)機(jī)器翻譯方法。依據(jù)組塊分析和分治法的思想,對(duì)長(zhǎng)句進(jìn)行MNP識(shí)別和抽取,進(jìn)一步對(duì)MNP和句子框架進(jìn)行獨(dú)立翻譯,從而在一定程度上緩解了神經(jīng)機(jī)器翻譯對(duì)句子長(zhǎng)度敏感的問(wèn)題。

      實(shí)驗(yàn)結(jié)果表明,該方法通過(guò)對(duì)訓(xùn)練數(shù)據(jù)的擴(kuò)展、翻譯前對(duì)MNP的識(shí)別和抽取、翻譯中對(duì)MNP和句子框架的分而治之、翻譯后對(duì)譯文的重組等策略給神經(jīng)機(jī)器翻譯帶來(lái)積極的影響。相對(duì)基線系統(tǒng)的方法,BLEU分值提升了0.89。

      然而,該方法在MNP抽取,句子框架與MNP的譯文重組等方面都存在一定的損失,并且,諸如目標(biāo)語(yǔ)言MNP的單復(fù)數(shù)等問(wèn)題尚待解決。下一步研究工作的重心擬定在以下兩個(gè)方面: 首先,將該方法泛化到其他類(lèi)型的短語(yǔ)結(jié)構(gòu),以對(duì)目前方法做進(jìn)一步擴(kuò)充;其次,因?yàn)檫^(guò)程中涉及對(duì)句子的拆分與整合,應(yīng)更多地從語(yǔ)言學(xué)角度重新思考“抽取—翻譯—重組”的分治策略,以采取更優(yōu)的方法。

      [1] Zhang J, Zong C. Deep neural networks in machine translation: An overview[J]. IEEE Intelligent Systems, 2015, 30(5): 16-25.

      [2] Cho K, Merrienboer B V, Bahdanau D, et al. On the properties of neural machine translation: Encoder-decoder approaches[J]//arXio: 1409.1259.2014.

      [3] 蔡?hào)|風(fēng),趙奇猛,饒齊,等. 基于馬爾科夫邏輯網(wǎng)的中文專(zhuān)利最大名詞短語(yǔ)識(shí)別[J]. 中文信息學(xué)報(bào), 2016, 30(4): 21-28.

      [4] 丁鵬. 基于雙語(yǔ)句法短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯研究[D]. 大連: 大連理工大學(xué)碩士學(xué)位論文, 2013.

      [5] Ren X, Wei Y, Hu R. Simplify sentence structure for improving human post-editing efficiency on Chinese-to-English patent machine translation[C]//Proceedings of 6th Workshp on Patent and Scientific Literature Translation (PSLT6) Miami, 2015: 33-43.

      [6] Luong M T, Pham H, Manning C D. Effective Approaches to Attention-based Neural Machine Translation[C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, Lisbon, Portugal, 2015: 1412-1421.

      [7] Sennrich R, Haddow B, Birch A. Neural Machine Translation of Rare Words with Subword Units[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, Berlin, Germany, 2016: 1715-1725.

      [8] Wu Y, Schuster M, Chen Z, et al. Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation[J]. arXiv: 1609.08144

      [9] Zhang J, Zong C. Bridging Neural Machine Translation and Bilingual Dictionaries[J]. arXiv: 1610.07272

      [10] 劉洋. 基于深度學(xué)習(xí)的機(jī)器翻譯研究進(jìn)展[J]. 中國(guó)人工智能學(xué)會(huì)通訊, 2015: 28-32.

      [11] Sutskever I, Vinyals O, Le Q V. Sequence to sequence learning with neural networks[J]. Advances in Neural Information Processing Systems, 2014(4): 3104-3112.

      [12] Graves A. Long short-term memory[M]. Supervised Sequence Labelling with Recurrent Neural Networks. Springer Berlin Heidelberg, 2012: 1735-1780.

      [13] Bahdanau D, Cho K, Bengio Y. Neural Machine Translation by Jointly Learning to Align and Translate[J]. arXiv: 1409.0473

      [14] Li X, Zhang J, Zong C. Towards zero unknown word in neural machine translation[C]//Proceedings of the International Joint Conference on Artificial Intelligence. AAAI Press, 2016: 2852-2858.

      猜你喜歡
      語(yǔ)料雙語(yǔ)短語(yǔ)
      基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
      華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
      《苗防備覽》中的湘西語(yǔ)料
      快樂(lè)雙語(yǔ)
      新晨(2013年7期)2014-09-29 06:19:50
      快樂(lè)雙語(yǔ)
      新晨(2013年5期)2014-09-29 06:19:50
      快樂(lè)雙語(yǔ)
      新晨(2013年10期)2014-09-29 02:50:54
      國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類(lèi)型與收集方法
      雙語(yǔ)秀
      普兰店市| 文山县| 苍梧县| 青冈县| 阳东县| 高雄市| 新竹县| 抚州市| 丹凤县| 东宁县| 华蓥市| 固阳县| 铜鼓县| 澄江县| 蛟河市| 来凤县| 尼玛县| 青河县| 汪清县| 阳信县| 彭山县| 满城县| 化德县| 民丰县| 甘德县| 马公市| 汉沽区| 运城市| 土默特右旗| 栖霞市| 郎溪县| 苍南县| 岱山县| 宁津县| 界首市| 遂昌县| 阿拉善左旗| 正镶白旗| 杂多县| 吉木萨尔县| 德格县|