• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      融合翻譯知識(shí)的機(jī)器翻譯質(zhì)量估計(jì)算法

      2019-05-16 01:40:12朱聰慧趙鐵軍
      關(guān)鍵詞:編碼器語(yǔ)句語(yǔ)料庫(kù)

      孫 瀟,朱聰慧,趙鐵軍

      (哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,哈爾濱150001)

      0 引 言

      隨著經(jīng)濟(jì)的發(fā)展,國(guó)際交流合作日益頻繁,對(duì)機(jī)器翻譯的需求逐漸增大。而機(jī)器翻譯譯文質(zhì)量的自動(dòng)評(píng)價(jià),對(duì)機(jī)器翻譯的研究非常重要。其中,廣泛使用的BLEU評(píng)價(jià)指標(biāo)就推動(dòng)了機(jī)器翻譯的進(jìn)步與發(fā)展。

      目前常用的BLEU評(píng)價(jià)指標(biāo)存在2個(gè)主要問(wèn)題。首先是指標(biāo)的計(jì)算要求有參考譯文作為輸入,其次指標(biāo)在句子級(jí)別上對(duì)譯文的評(píng)分效果比較差。而句子級(jí)別的機(jī)器翻譯質(zhì)量估計(jì)(Sentence-Level Translation Quality Estimation,Sentence-Level QE)則可顯著改善這類現(xiàn)象。Sentence-Level QE是指在沒(méi)有參考譯文的情況下,只根據(jù)源語(yǔ)句,來(lái)對(duì)機(jī)器翻譯譯文的質(zhì)量進(jìn)行估計(jì)。定義中的質(zhì)量可以指:adequate(和源語(yǔ)句的意思相近程度)、fluency(翻譯的流暢程度)、HTER(Human-targeted Translation Edit Rate)等等。其中,HTER最為常用。HTER是機(jī)器翻譯的譯文和人工修改的參考譯文(Humantargeted Translation)之間的編輯距離除以所有參考譯文的平均長(zhǎng)度。

      以往的基于特征工程的翻譯質(zhì)量估計(jì)方法的研究中,一些用神經(jīng)網(wǎng)絡(luò)提取特征的方法并沒(méi)有考慮引入翻譯知識(shí)。

      本文中,研究提出一種原創(chuàng)的用神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型來(lái)為QE任務(wù)提取特征的方法,該方法利用了NMT模型,比以往的用神經(jīng)網(wǎng)絡(luò)提取的QE特征包含了更多的語(yǔ)義信息。

      1 相關(guān)工作

      對(duì)句子級(jí)別的機(jī)器翻譯質(zhì)量估計(jì)的研究,一般是將其歸作為一個(gè)有監(jiān)督的回歸問(wèn)題,此前的研究主要是應(yīng)用傳統(tǒng)的統(tǒng)計(jì)模型,比如SVR、線性回歸模型等等,研究均重點(diǎn)致力于特征提?。╢eature extraction)和特征選擇(feature selection)方面。其中,特征提取指的是從源語(yǔ)句和對(duì)應(yīng)的機(jī)器翻譯的譯文以及一些外部的資源或工具中提取構(gòu)造和譯文質(zhì)量相關(guān)的特征,也就是針對(duì)這個(gè)機(jī)器學(xué)習(xí)任務(wù)做特征工程(feature engineering)。而特征選擇是指,從已經(jīng)提取的特征集合中選擇預(yù)測(cè)效果最好的特征子集,這可以看作是一個(gè)搜索尋優(yōu)問(wèn)題,并被證明是一個(gè)NP問(wèn)題,無(wú)法在多項(xiàng)式的時(shí)間復(fù)雜度內(nèi)得到準(zhǔn)確解。因此機(jī)器譯文質(zhì)量估計(jì)的特征選擇一般包括產(chǎn)生候選子集和對(duì)特征子集進(jìn)行評(píng)價(jià)這2個(gè)要素,機(jī)器譯文質(zhì)量估計(jì)領(lǐng)域常用的特征選擇算法包括高斯過(guò)程[1]、啟發(fā)式[2]。 在之前句子級(jí)別機(jī)器譯文質(zhì)量估計(jì)的研究中,至關(guān)重要的即是特征提取,也就是人工設(shè)計(jì)合適的特征[3-6]。常見(jiàn)的人工提取的特征包括源語(yǔ)句長(zhǎng)度、目標(biāo)語(yǔ)句長(zhǎng)度、特殊字符匹配率等等。這些人工提取的特征,大多數(shù)是一些語(yǔ)法特征,很少涉及到語(yǔ)句的深層次語(yǔ)義信息。

      隨著深度學(xué)習(xí)的發(fā)展,有些研究者將神經(jīng)網(wǎng)絡(luò)用于特征提取的過(guò)程中,然后將提取到的特征單獨(dú)或者和其它傳統(tǒng)特征一同輸入到機(jī)器學(xué)習(xí)模型中;常見(jiàn)的神經(jīng)網(wǎng)絡(luò)提取的特征包括源語(yǔ)句和目標(biāo)語(yǔ)句在神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型中的分?jǐn)?shù)、在神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯下的分?jǐn)?shù)、語(yǔ)句的所有單詞對(duì)應(yīng)的詞向量的平均值等等[7-10]。這些特征和之前傳統(tǒng)的特征相比,包含了較多的語(yǔ)義信息。

      除了用神經(jīng)網(wǎng)絡(luò)提取特征,然后應(yīng)用傳統(tǒng)的統(tǒng)計(jì)模型外,有的研究更進(jìn)一步提出了基于多層神經(jīng)網(wǎng)絡(luò)的端到端的機(jī)器譯文質(zhì)量估計(jì)模型[11-14]。而且,研究中QE任務(wù)的數(shù)據(jù)集比較小,因此直接訓(xùn)練端到端的模型,將存在過(guò)擬合的風(fēng)險(xiǎn)。目前,效果較好的此類方法,一般都是直接或間接地利用了大量的平行語(yǔ)料來(lái)提高模型的泛化能力。

      2 模型詳述

      2.1 基本模型簡(jiǎn)述

      本文利用神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型來(lái)為機(jī)器翻譯譯文質(zhì)量估計(jì)問(wèn)題(QE)提取特征,是對(duì)直接將語(yǔ)句的單詞詞向量的平均作為特征的方法的有效改進(jìn)。在本文第一節(jié)中提到,QE領(lǐng)域的研究中,對(duì)特征的提取非常關(guān)鍵;在特征提取方面,之前的研究主要是對(duì)源語(yǔ)句和機(jī)器翻譯的譯文提取語(yǔ)法相關(guān)的特征,也有一些研究探討了語(yǔ)義問(wèn)題。隨著近些年深度學(xué)習(xí)的興起,一些研究使用神經(jīng)網(wǎng)絡(luò)來(lái)提取和句子的語(yǔ)義相關(guān)的特征。其中一個(gè)方法是,用詞袋模型對(duì)句子建立模型,也就是將句子看成是單詞的集合,不考慮詞語(yǔ)間的先后順序,用該語(yǔ)句的所有單詞對(duì)應(yīng)的詞向量的平均值作為對(duì)該語(yǔ)句的編碼。對(duì)源語(yǔ)句和譯文用上述方法編碼之后,得到2個(gè)向量,對(duì)這2個(gè)向量進(jìn)行拼接,作為QE模型的輸入特征。

      這種直接對(duì)句子中的單詞的詞向量求平均的方法,沒(méi)有考慮詞語(yǔ)間的先后順序和聯(lián)系,很難提取到語(yǔ)句深層次的語(yǔ)義信息。因此可以考慮用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)對(duì)句子進(jìn)行編碼,本文采用的是 GRU(Gated Recurrent Unit)。GRU是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種,不僅可以適用于如自然語(yǔ)言語(yǔ)句這種變長(zhǎng)的序列研究,同時(shí)也可以如長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)一樣處理較長(zhǎng)距離的依賴關(guān)系,但與LSTM相比結(jié)構(gòu)更加簡(jiǎn)單,因此本文在循環(huán)神經(jīng)網(wǎng)絡(luò)的變體中選用GRU作為編碼器(和解碼器)。同時(shí),針對(duì)已有研究的分析表明,GRU每一步的隱狀態(tài)包含了輸入序列中當(dāng)前輸入以及之前所有輸入的信息,因此本文采用GRU最后一步輸出的隱狀態(tài)作為對(duì)整個(gè)語(yǔ)句的編碼向量。

      此外,因?yàn)镼E任務(wù)的數(shù)據(jù)集一般比較小,比如本文實(shí)驗(yàn)選用的訓(xùn)練集只有2萬(wàn)個(gè)標(biāo)注數(shù)據(jù);而機(jī)器翻譯領(lǐng)域的常見(jiàn)語(yǔ)言對(duì)的數(shù)據(jù)集一般比較大,因此本文考慮通過(guò)引入2個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯(Neural Machine Translation,NMT) 模型,來(lái)充分利用大量的平行語(yǔ)料。引入的2個(gè)NMT模型翻譯方向相反,一個(gè)是源端到目標(biāo)端語(yǔ)言,另一個(gè)是目標(biāo)端語(yǔ)言到源端語(yǔ)言。這2個(gè)NMT模型的編碼器分別對(duì)源語(yǔ)句和目標(biāo)語(yǔ)句進(jìn)行編碼得到編碼向量,然后2個(gè)NMT模型的解碼器再分別對(duì)編碼向量解碼得到目標(biāo)語(yǔ)句和源語(yǔ)句;其中,2個(gè)NMT模型對(duì)源語(yǔ)句和目標(biāo)端語(yǔ)句編碼得到的編碼向量理論上就分別包含了源語(yǔ)句和目標(biāo)語(yǔ)句的信息。本文利用2個(gè)NMT模型的編碼器分別對(duì)源語(yǔ)句和機(jī)器翻譯的譯文進(jìn)行編碼,得到的向量就作為QE模型的輸入特征。

      整個(gè)模型由2部分構(gòu)成。第一部分是2個(gè)翻譯方向相反的NMT模型,第二部分是QE模型,輸出最終的質(zhì)量HTER。輸入的是從源語(yǔ)句和目標(biāo)語(yǔ)句提取得到的特征向量,在這里是2個(gè)NMT模型編碼得到的編碼向量,特征向量中除此之外也可以包含通過(guò)其它途徑提取到的特征。整體的模型結(jié)構(gòu)如圖1所示。

      2.1.1 NMT 子模型

      整個(gè)算法中一共包括2個(gè)翻譯方向相反的NMT模型,分別是源端到目標(biāo)端和目標(biāo)端到源端。2個(gè)NMT模型結(jié)構(gòu)完全相同,共享詞向量參數(shù)。下面即以源端到目標(biāo)端的NMT模型為例展開(kāi)論述。源端的語(yǔ)句X={x1,x2, …,xS},xi(1≤i≤S) 是源語(yǔ)句中的單詞的one-hot編碼,S為源端語(yǔ)句的長(zhǎng)度;目標(biāo)端語(yǔ)句Y={y1,y2, …,yT},yj(1 ≤j≤T)是目標(biāo)語(yǔ)句中的單詞的one-hot編碼,T為目標(biāo)端語(yǔ)句的長(zhǎng)度。源端和目標(biāo)端的詞向量矩陣為ES和ET,其中詞向量矩陣的每一列代表一個(gè)單詞的詞向量。選用的NMT模型由編碼器和解碼器2部分組成,編碼器和解碼器使用的神經(jīng)網(wǎng)絡(luò)模型都是GRU。編碼器的功能是將源端語(yǔ)句X編碼為固定向量C。然后解碼器對(duì)C進(jìn)行解碼得到目標(biāo)端語(yǔ)句Y。 整個(gè)NMT模型可以表示為P(Y|X;θ),該條件概率可以用概率的乘法法則分解,數(shù)學(xué)公式可見(jiàn)如下:

      其中,編碼器主要由GRU構(gòu)成,GRU初始的隱狀態(tài)為零向量。在每一步的實(shí)際計(jì)算中,需先將該步的單詞的one-hot表示xi用詞向量矩陣ES映射為詞向量ES×xi,然后和上一步的隱狀態(tài)一起作為輸入,進(jìn)行GRU當(dāng)前步的計(jì)算。并且將最后一步輸出的隱狀態(tài)hS作為對(duì)整個(gè)源語(yǔ)句的編碼向量C。第t步的計(jì)算公式可表示為:

      圖1 模型整體結(jié)構(gòu)Fig.1 The structure of the model

      解碼器對(duì)源語(yǔ)句的編碼向量C進(jìn)行解碼。采用的神經(jīng)網(wǎng)絡(luò)模型是GRU,初始的隱狀態(tài)是C,C包含了源語(yǔ)句的信息。每一步最終的輸出是對(duì)這一步的詞表中所有單詞的概率分布,而輸入?yún)s是上一步的預(yù)測(cè)的單詞的詞向量,訓(xùn)練過(guò)程中的輸入則是上一步中目標(biāo)語(yǔ)句對(duì)應(yīng)的單詞的詞向量。第t步的隱狀態(tài)ht的計(jì)算公式和編碼器部分相似。這里采用的是一個(gè)單隱層的前向神經(jīng)網(wǎng)絡(luò),第t步的目標(biāo)詞概率分布的計(jì)算公式具體如下:

      2.1.2 QE 模型

      QE模型的輸入是特征向量V,在基本模型中特征向量是源端句子編碼向量CS和目標(biāo)端句子編碼向量CT的拼接 [CS:CT]。 模型采用的是單隱層的前向神經(jīng)網(wǎng)絡(luò),權(quán)重分別是W1和W2,偏置向量分別是b1和b2。隱層的激活函數(shù)采用relu,輸出層因?yàn)橐敵?~1的分?jǐn)?shù),因此采用sigmoid作為激活函數(shù)。公式表述如下:

      2.2 加入其他特征

      對(duì)源語(yǔ)句和機(jī)器翻譯譯文的編碼向量分別包含了源語(yǔ)句和譯文的語(yǔ)義語(yǔ)法信息,但是向量的每個(gè)維度都具有不可解釋性。因此本文將其它一些人工提取的特征和這2個(gè)用神經(jīng)網(wǎng)絡(luò)提取的特征進(jìn)行連接,作為QE模型的輸入特征。這些特征都具有高度直觀、且容易理解的含義。添加的特征有 17個(gè)[15],對(duì)其含義可闡釋解析如下。

      (1)源語(yǔ)句中的單詞數(shù)量。

      (2)機(jī)器翻譯語(yǔ)句中的單詞數(shù)量。

      (3)源語(yǔ)句長(zhǎng)度。

      (4)源語(yǔ)句的語(yǔ)言模型概率。

      (5)機(jī)器翻譯語(yǔ)句的語(yǔ)言模型概率。

      (6)機(jī)器翻譯語(yǔ)句內(nèi)單詞出現(xiàn)次數(shù)的平均值。

      (7)源語(yǔ)句中每個(gè)單詞對(duì)應(yīng)的翻譯數(shù)量的平均值(使用 IBM 模型 1, 閾值設(shè)置為prob(t|s)>0.2)。

      (8)源語(yǔ)句中每個(gè)單詞對(duì)應(yīng)的翻譯數(shù)量(使用IBM 模型 1, 閾值設(shè)置為prob(t|s)>0.01) 的加權(quán)平均值,權(quán)重為源語(yǔ)言語(yǔ)料庫(kù)中每個(gè)詞的逆頻率。

      (9)源語(yǔ)句中的單詞占源語(yǔ)言語(yǔ)料庫(kù)(SMT訓(xùn)練平行語(yǔ)料庫(kù))中頻率四分位數(shù)1(頻率較低的單詞)的百分比。

      (10)源語(yǔ)句中的單詞占源語(yǔ)言語(yǔ)料庫(kù)中頻率四分位數(shù)4(頻率較高的單詞)的百分比。

      (11)源語(yǔ)句中的bigrams占源語(yǔ)言語(yǔ)料庫(kù)中頻率四分位數(shù)1的百分比。

      (12)源語(yǔ)句中的bigrams占源語(yǔ)言語(yǔ)料庫(kù)中頻率四分位數(shù)4的百分比。

      (13)源語(yǔ)句中的trigrams占源語(yǔ)言語(yǔ)料庫(kù)中頻率四分位數(shù)1的百分比。

      (14)源語(yǔ)句中的trigrams占源語(yǔ)言語(yǔ)料庫(kù)中頻率四分位數(shù)4的百分比。

      (15)在語(yǔ)料庫(kù)(SMT訓(xùn)練平行語(yǔ)料庫(kù))中可以看到的源語(yǔ)句中的單詞所占的百分比。

      (16)源句子中標(biāo)點(diǎn)符號(hào)的數(shù)量。

      (17)目標(biāo)語(yǔ)句中標(biāo)點(diǎn)符號(hào)的數(shù)量。

      3 實(shí)驗(yàn)

      3.1 實(shí)驗(yàn)設(shè)置

      本文為了對(duì)用NMT模型提取的特征的效果進(jìn)行驗(yàn)證,在2個(gè)不同的數(shù)據(jù)集上分別進(jìn)行了4組實(shí)驗(yàn),每組實(shí)驗(yàn)的不同點(diǎn)主要在于輸入的特征。這4組實(shí)驗(yàn)采用的特征,分別是:17個(gè)人工提取的特征、詞向量特征、NMT模型提取的特征、NMT提取的特征加上17個(gè)人工提取的特征。其中,第一組實(shí)驗(yàn)采用SVR作為模型,其它組的模型采用前向神經(jīng)網(wǎng)絡(luò)。這里,關(guān)于本次實(shí)驗(yàn)中的數(shù)值指標(biāo)設(shè)計(jì),對(duì)其可概述如下。

      (1)模型和訓(xùn)練的參數(shù)設(shè)置。SVR的核函數(shù)采用徑向基,其他超參數(shù)使用交叉驗(yàn)證確定。源端和目標(biāo)端詞表大小為74 000,詞向量的維度設(shè)置為512,神經(jīng)網(wǎng)絡(luò)(包括GRU、全連接神經(jīng)網(wǎng)絡(luò))的隱層神經(jīng)元個(gè)數(shù)為1 024。神經(jīng)網(wǎng)絡(luò)的優(yōu)化算法采用adam,batch的大小為64,訓(xùn)練NMT模型的學(xué)習(xí)率為3e-4,訓(xùn)練QE模型的學(xué)習(xí)率為5e-5。

      (2)實(shí)驗(yàn)所使用的數(shù)據(jù)集描述。用于訓(xùn)練NMT的數(shù)據(jù)集來(lái)自于WMT 2017 shared task的en-de翻譯任務(wù),語(yǔ)料包括 Europarl v7、Common Crawl corpus、News Commentary v12、Rapid corpus of EU press releases等,總共3 M個(gè)句對(duì)。研究采用的NMT模型結(jié)構(gòu)比較簡(jiǎn)單,因此從所有3 M個(gè)句對(duì)中隨機(jī)抽取90 w個(gè)句對(duì)。再加上對(duì)應(yīng)的QE數(shù)據(jù)集(源語(yǔ)句加上被人工post edit后的譯文)中的2 w個(gè)句對(duì),組成訓(xùn)練本文所需的NMT模型的平行語(yǔ)料。

      用于訓(xùn)練QE的數(shù)據(jù)集來(lái)自于WMT17 Shared Task:Quality Estimation任務(wù)一,包括德語(yǔ)到英語(yǔ)和英語(yǔ)到德語(yǔ)2個(gè)方向的數(shù)據(jù)集,并且分別屬于2個(gè)不同的領(lǐng)域。數(shù)據(jù)集信息詳見(jiàn)表1。

      表1 QE數(shù)據(jù)集Tab.1 QE data set

      3.2 實(shí)驗(yàn)結(jié)果

      實(shí)驗(yàn)運(yùn)行結(jié)果參見(jiàn)表2、表3。

      表2 de-en數(shù)據(jù)集Pearson相關(guān)系數(shù)Tab.2 The Pearson of de-en

      表3 en-de數(shù)據(jù)集Pearson相關(guān)系數(shù)Tab.3 The Pearson of en-de

      綜上結(jié)果分析可知,在2個(gè)方向上,可以看到相比于人工提取的17個(gè)特征,即使使用詞向量直接相加提取的特征,效果也會(huì)更好。這說(shuō)明詞向量包含的單詞帶有大量的語(yǔ)義信息,即使不考慮單詞之間的順序和關(guān)系,也可以對(duì)最終譯文的質(zhì)量的預(yù)測(cè)有所幫助。然后本文使用了NMT模型中的編碼器對(duì)句子的單詞序列進(jìn)行了非線性變換,最終的實(shí)驗(yàn)結(jié)果表明,這種非線性變換和直接求平均相比,對(duì)機(jī)器翻譯譯文質(zhì)量的預(yù)測(cè)能力更強(qiáng)。最后,編碼器得到的編碼向量雖然包含了語(yǔ)義信息,但是每個(gè)維度都具有不可解釋性,將其和人工提取的17個(gè)具有直觀含義的特征拼接起來(lái)作為輸入特征,效果有所提升,說(shuō)明編碼向量特征和這17個(gè)特征在一定程度上實(shí)現(xiàn)了互補(bǔ)。

      4 結(jié)束語(yǔ)

      針對(duì)機(jī)器翻譯譯文質(zhì)量估計(jì)問(wèn)題,本文提出了一個(gè)融合了翻譯知識(shí)的特征提取算法,該算法首先訓(xùn)練2個(gè)翻譯方向相反的NMT模型,然后利用2個(gè)編碼器編碼得到向量作為特征。實(shí)驗(yàn)表明,利用NMT編碼器提取的特征比直接對(duì)語(yǔ)句中單詞詞向量平均的特征預(yù)測(cè)效果更好。并且,該特征和本文提到的17個(gè)手工提取的特征一定程度上具有互補(bǔ)性,2類特征的結(jié)合可以進(jìn)一步提升QE模型的效果。

      猜你喜歡
      編碼器語(yǔ)句語(yǔ)料庫(kù)
      重點(diǎn):語(yǔ)句銜接
      《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
      基于FPGA的同步機(jī)軸角編碼器
      精彩語(yǔ)句
      把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
      基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
      JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
      電子器件(2015年5期)2015-12-29 08:42:24
      基于JAVAEE的維吾爾中介語(yǔ)語(yǔ)料庫(kù)開(kāi)發(fā)與實(shí)現(xiàn)
      多總線式光電編碼器的設(shè)計(jì)與應(yīng)用
      如何搞定語(yǔ)句銜接題
      庐江县| 察哈| 仙游县| 麻栗坡县| 贵州省| 侯马市| 黑山县| 富宁县| 井冈山市| 连城县| 黄龙县| 靖安县| 景东| 杭锦后旗| 重庆市| 阜城县| 定远县| 义马市| 美姑县| 凯里市| 莱州市| 炉霍县| 天水市| 台中市| 财经| 军事| 海南省| 张北县| 承德市| 平遥县| 铜鼓县| 南城县| 梅州市| 利辛县| 神池县| 长宁县| 来凤县| 石台县| 封丘县| 山西省| 广西|