• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      多領(lǐng)域機(jī)器翻譯中的非參貝葉斯短語歸納

      2017-11-22 08:47:34劉宇鵬馬春光朱曉寧喬秀明
      關(guān)鍵詞:貝葉斯語料基線

      劉宇鵬,馬春光,朱曉寧,喬秀明

      (1.哈爾濱理工大學(xué) 軟件學(xué)院,黑龍江 哈爾濱 150001; 2.哈爾濱工程大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150001; 3.哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,黑龍江 哈爾濱 150001)

      多領(lǐng)域機(jī)器翻譯中的非參貝葉斯短語歸納

      劉宇鵬1,2,馬春光2,朱曉寧3,喬秀明3

      (1.哈爾濱理工大學(xué) 軟件學(xué)院,黑龍江 哈爾濱 150001; 2.哈爾濱工程大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150001; 3.哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,黑龍江 哈爾濱 150001)

      多領(lǐng)域機(jī)器翻譯一直以來都是機(jī)器翻譯領(lǐng)域研究的重點(diǎn),而短語歸納是重中之重。傳統(tǒng)加權(quán)的方法并沒有考慮到整個(gè)歸約過程,本文提出了一種使用層次化的Pitman Yor過程進(jìn)行短語歸約,同時(shí)把多通道引入到模型中,使得在短語歸約的過程中平衡各領(lǐng)域的影響;從模型角度,本文的方法為生成式模型,模型更有表現(xiàn)力,且把對齊和短語抽取一起建模,克服了錯(cuò)誤對齊對原有短語抽取性能的影響。從復(fù)雜度上來說,該模型獨(dú)立于解碼,更易于訓(xùn)練;從多領(lǐng)域融合來說,對短語歸約過程中進(jìn)行融合,更好地考慮到整個(gè)歸約過程。在兩種不同類型的語料上驗(yàn)證了機(jī)器翻譯的性能,相對于傳統(tǒng)的單領(lǐng)域啟發(fā)式短語抽取和多領(lǐng)域加權(quán),BLEU分?jǐn)?shù)有所提高。

      多領(lǐng)域機(jī)器翻譯; 非參貝葉斯; 短語歸納; Pitman Yor過程; 生成式模型; 塊采樣; 中餐館過程; BLEU分?jǐn)?shù)

      隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,信息增長的速度越來越快,更加凸顯出了自然語言處理和機(jī)器翻譯任務(wù)的重要性。領(lǐng)域自適應(yīng)作為機(jī)器翻譯任務(wù)的一個(gè)重要應(yīng)用,一直吸引著很多研究者投入其中,關(guān)于這個(gè)方面的研討會也是數(shù)不勝數(shù)。近幾年來非參數(shù)貝葉斯模型已成為統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)等領(lǐng)域內(nèi)研究的熱點(diǎn),其基本方法為將一個(gè)復(fù)雜分布分解為簡單分布(有限或無限個(gè))的加權(quán)平均,根據(jù)訓(xùn)練數(shù)據(jù)來確定訓(xùn)練模型中簡單分布的個(gè)數(shù)。非參數(shù)貝葉斯模型是常用的數(shù)據(jù)分布擬合工具之一,需要假設(shè)參數(shù)服從先驗(yàn)分布,為了后驗(yàn)概率推斷方便,一般采用共軛先驗(yàn)。非參數(shù)貝葉斯模型解決了參數(shù)學(xué)習(xí)的隨著數(shù)據(jù)增長模型參數(shù)個(gè)數(shù)不變,也解決了非貝葉斯學(xué)習(xí)無參數(shù)先驗(yàn)信息的問題。流行的非參數(shù)貝葉斯模型很多,如Beta過程、高斯過程、狄利克雷過程(dirichlet process, DP)等[1-3]。這些模型在自然語言處理諸多領(lǐng)域都有應(yīng)用,如語言模型[4]、詞性標(biāo)注[5]、短語歸納等[6-10]。狄利克雷過程作為一種隨機(jī)過程(stochastic process,SP)是有限維狄利克雷分布的推廣,是無限維分布上的分布;從另一個(gè)角度來說,狄利克雷過程也是一種隨機(jī)度量,每一種劃分都會得到一種狄利克雷分布。由于作為無限維的狄利克雷過程描述起來和構(gòu)造相對困難,有幾種等價(jià)形式來解決這些問題,如中餐館過程(chinese restaurant process)、波利亞罐子模型(polya urn scheme)和截棒過程構(gòu)造(stick breaking construction)等。狄利克雷過程有很多變形,如PYP[10]、層次化的狄利克雷過程(hierachical dirichlet process,HDP)[11-12]、依存DP[13]和非參樹模型[14]等,這些模型面向于不同的任務(wù),很好的符合了任務(wù)的建模過程。

      短語歸納[6-10]作為機(jī)器翻譯系統(tǒng)的重要組成部分,一直是研究的重點(diǎn)。傳統(tǒng)的方法是把單詞對齊和短語抽取看成兩個(gè)過程,而這樣會把對齊錯(cuò)誤引入到短語抽取過程中,且抽取過程無法考慮到對齊信息。本文主要把非參數(shù)貝葉斯模型中的狄利克雷過程應(yīng)用到機(jī)器翻譯的短語歸納中。本文的方法可以歸為從不同領(lǐng)域的數(shù)據(jù)出發(fā)基于實(shí)例權(quán)重的翻譯模型融合方法[11]。本文主要?jiǎng)?chuàng)新是在多個(gè)領(lǐng)域歸約短語表時(shí)候進(jìn)行模型級融合。

      1 機(jī)器翻譯概率模型

      整個(gè)機(jī)器翻譯過程為先進(jìn)行訓(xùn)練以獲得翻譯過程使用的短語對,接著使用這些短語對進(jìn)行解碼,兩個(gè)過程是息息相關(guān)的。翻譯過程為給定訓(xùn)練語料和原句f生成目標(biāo)句e概率中最大的翻譯結(jié)果:

      (1)

      本文認(rèn)為在解碼過程中隱含著訓(xùn)練過程中的參數(shù)集Θ(包括翻譯模型的權(quán)重,扭曲模型和語言模型的權(quán)重等),即貝葉斯框架為

      P(e|f,)=

      (2)

      式中:P(Θ|)是整個(gè)訓(xùn)練過程的目標(biāo)函數(shù),即通過貝葉斯公式把參數(shù)集Θ移到結(jié)果側(cè)然后積分掉。通過貝葉斯法則可以把隱參數(shù)Θ的后驗(yàn)概率進(jìn)一步分解,可以描述為

      P(Θ|)∝P(|Θ)P(Θ)

      (3)

      式中:P(|Θ)為語料的似然概率,P(Θ)為隱參數(shù)的先驗(yàn)概率。從這個(gè)公式可以看出非參數(shù)主要是指參數(shù)Θ服從概率分布P(Θ),相對于傳統(tǒng)模型參數(shù)模型,參數(shù)數(shù)量是隨著訓(xùn)練實(shí)例的增加而增加的,貝葉斯法則是通過貝葉斯公式對于后驗(yàn)概率P(Θ|)進(jìn)行計(jì)算。訓(xùn)練語料中包含了很多句子,語料的似然概率表示含義為對訓(xùn)練語料中的每個(gè)句子的似然進(jìn)行相乘可以得到整個(gè)語料的似然。這里主要是對句子似然概率P(|Θ)和隱參數(shù)先驗(yàn)P(Θ)進(jìn)行建模:

      P(|Θ)=∏P(|Θ)

      (4)

      2 翻譯模型描述

      2.1短語歸約的產(chǎn)生式模型

      在機(jī)器學(xué)習(xí)中,按照建模對象的不同,可以分為產(chǎn)生式模型(聯(lián)合概率建模)和判別式模型(條件概率建模)。本文采用產(chǎn)生式模型,可以根據(jù)產(chǎn)生式模型得到判別式模型的條件概率。同步上下文無關(guān)文法(synchronous context-free grammar, SCFG)的規(guī)則不是都可以轉(zhuǎn)換成反向轉(zhuǎn)錄語法(inversion transduction grammar, ITG),但是使用轉(zhuǎn)換后的文法對于機(jī)器翻譯性能幾乎沒有影響[16]?;谶@點(diǎn),本文采用ITG進(jìn)行短語歸約。傳統(tǒng)方法對于最小短語對進(jìn)行建模,忽略了更大粒度的短語,本文采用文獻(xiàn)[9]的方法,可生成各種粒度的短語,不需要通過小粒度短語啟發(fā)式的生成大粒度的短語,同時(shí)相對文獻(xiàn)[7]中的方法有更少生成操作,模型訓(xùn)練起來更加容易。

      從形式化上,句子似然概率P(|Θ)可以分解成短語似然概率P(|θt,θx),其中隱參數(shù)集Θ中包含了兩種隱參數(shù),分別為短語對隱參數(shù)θt和規(guī)則類型隱參數(shù)θx。圖1描述了部分推導(dǎo)樹的圖模型,通過這些部分推導(dǎo)樹可以獲得整個(gè)推導(dǎo),其中有向箭頭表示變量之間的依存關(guān)系,菱形表示超參數(shù)。

      由于規(guī)則類型的不同,左右子節(jié)點(diǎn)的情況也不一樣,所以把子節(jié)點(diǎn)用橢圓圈起來。按照無限維的HMM[17],本文把一個(gè)規(guī)則的生成過程拆分成3個(gè)部分: 1)根據(jù)短語對隱參數(shù)θt產(chǎn)生該規(guī)則的根節(jié)點(diǎn)短語; 2)根據(jù)規(guī)則隱參數(shù)θx生成該規(guī)則類型; 3)根據(jù)規(guī)則類型和短語對隱參數(shù)θt生成當(dāng)前父節(jié)點(diǎn)短語zi的子節(jié)點(diǎn)短語lzi和rzi。ITG文法中的一元規(guī)則和二元規(guī)則對應(yīng)了3種規(guī)則類型:一元規(guī)則的發(fā)射類型、二元規(guī)則的正向調(diào)序和反向調(diào)序。規(guī)則類型隱參數(shù)θx服從于Dirichlet分布,θt服從于無限維的PYP。 PYP相對于Dirichlet過程來說更加泛化,除了含有Dirichlet過程中兩個(gè)參數(shù):基分布超參H(用于獲得概率分布的位置)和強(qiáng)度超參s(用于控制分布和基分布擬合情況),還增加了打折超參d(使得聚類特性滿足冪律,雖然原來的Dirichlet過程中的參數(shù)會讓富有的聚類更加富有,但無法滿足冪律)。具體的算法如下:

      θt~PYP(s,d,H)

      θx~Dirichlet(α)

      for each nodezi= in the derivation tree

      generatezi|θt~θt

      generate a symbolxi|θx~θx

      Ifxi=Emission then

      zi|θt~θt, generateanewphrase

      Ifxi=Monotone then

      lzi|θt~θt,rzi|θt~θt, concatenatelziandrziwithmonotone

      Ifxi=Reordering then

      lzi|θt~θt,rzi|θt~θt, concatenatelzianrziwithreordering

      圖1 部分推導(dǎo)樹的圖模型Fig.1 The graph model of partial derivation tree

      2.2多領(lǐng)域短語歸約模型

      參照文獻(xiàn)[18],假設(shè)不同領(lǐng)域的數(shù)據(jù)來自于不同數(shù)據(jù)分布,因此需要不同的通道來處理不同的數(shù)據(jù)分布,每個(gè)通道對應(yīng)一個(gè)領(lǐng)域。進(jìn)行多通道融合的時(shí)候,整個(gè)多領(lǐng)域短語歸約的過程相當(dāng)于分就餐區(qū)域的中餐館過程。中餐館過程刻畫了多領(lǐng)域短語歸約模型的聚類特性,只列出一個(gè)層次的,圖2給出了多領(lǐng)域短語歸約的圖模型,圖3為多領(lǐng)域歸約的中餐館過程。

      圖2 多領(lǐng)域的短語歸約模型Fig.2 Multi-domain phrase induction model

      圖3 多領(lǐng)域短語歸約的CRP過程Fig.3 CRP procedure of multi-domain phrase induction

      在圖2中描述了不同領(lǐng)域的部分推導(dǎo)樹共享同一個(gè)短語對隱參數(shù)θt,這里共有J個(gè)領(lǐng)域,每個(gè)領(lǐng)域中的短語對都根據(jù)共享參數(shù)生成。在圖3中上一層相當(dāng)于菜單(用于共享),下一層相當(dāng)于顧客(表示短語,以黑點(diǎn)進(jìn)行表示)進(jìn)行就餐的過程,同一短語可以在同一就餐區(qū)域的不同桌子,也可以在不同的就餐區(qū)域。就餐區(qū)域相當(dāng)于通道。θi是按照概率分布θt取出來的原子,而每個(gè)原子在下一層可以看成菜單。菜單中的每道菜為θi(1≤i≤n,表示上一層共生成了n道菜,注意建模過程是無限維,但生成的結(jié)果是固定維數(shù)的),下一層沒有確定桌子的數(shù)量表示還沒有完成所有的短語聚類。

      3 歸納語約訓(xùn)練

      對于單通道情況來說,每個(gè)短語對zi的后驗(yàn)預(yù)測概率為

      (5)

      式(5)可以描述為當(dāng)一個(gè)顧客來到餐館時(shí)有兩種選擇:

      基礎(chǔ)分布的概率定義如下:

      (6)

      本文提出的方法是在多通道下進(jìn)行的,在計(jì)算總的后驗(yàn)預(yù)測概率的時(shí)候,需要對于每個(gè)通道中的后驗(yàn)預(yù)測概率進(jìn)行加權(quán)平均

      (7)

      (8)

      1)從所有含有推導(dǎo)的雙語句對中選出一個(gè)句對,減少當(dāng)前推導(dǎo)的短語對;

      2)自底向上的對于句對進(jìn)行雙語分析并計(jì)算源語言的跨度概率;

      3)根據(jù)跨度概率自底向上的采樣一個(gè)推導(dǎo);

      4)增加新推導(dǎo)的短語對;

      最終翻譯的條件概率可以通過公式(8)計(jì)算。采樣過程中需要對于每個(gè)桌子上的顧客數(shù)進(jìn)行調(diào)整(顧客等可能的離開中餐館),當(dāng)桌子空時(shí)就把桌子取消掉。

      4 翻譯實(shí)驗(yàn)和分析

      4.1翻譯系統(tǒng)配置

      實(shí)驗(yàn)中分別從口語翻譯任務(wù)和常規(guī)文本翻譯任務(wù)出發(fā),采用兩個(gè)數(shù)據(jù)集進(jìn)行驗(yàn)證該方法的有效性,訓(xùn)練語料分別是來自IWSLT2012語料和LDC語料。其中IWLST2012含有HIT部分和BETC部分。LDC語料包括LDC2003E14、LDC2003E07、LDC2005T10、LDC2005E83、LDC2006E34、LDC2006E85、 LDC2006E92(總共含有500k的句對)。使用隱藏狄利克雷分配模型(LDA)對于LDC語料進(jìn)行劃分[20],劃分時(shí)把中英文句子連接在一起共同反應(yīng)同一領(lǐng)域。不需要對IWLST2012劃分。在口語翻譯任務(wù)中,語言模型的訓(xùn)練語料采用訓(xùn)練語料中的英文;翻譯模型采用IWSLT2012提供的開發(fā)集(含有3k中英文句對)和測試集(含有1k中英文句對)。在常規(guī)文本翻譯任務(wù)中,語言模型的訓(xùn)練語料采用英文GigaWord語料中xinhua部分和訓(xùn)練語料的英文句子;為了更好的度量翻譯結(jié)果,在標(biāo)準(zhǔn)集NIST03(含有919中英文句對),NIST05(含有1 082中英文句對)和NIST06(含有1 664中英文句對)上進(jìn)行,這些測試集即作為開發(fā)集又作為測試集,互相衡量的翻譯性能,更加全面考慮機(jī)器翻譯的性能。

      為了更好的度量不同歸約方法對于翻譯系統(tǒng)的影響,翻譯系統(tǒng)采用開源的Moses中的短語翻譯系統(tǒng)[21],選用短語翻譯系統(tǒng)的好處為忽略掉句法結(jié)構(gòu)帶來的影響。語言模型采用加入Kneser-Ney平滑的Srilm訓(xùn)練的五元模型[22]。翻譯質(zhì)量的度量采用大小寫不敏感的BLEU[23],訓(xùn)練時(shí)采用20輪迭代的間隔注入的松弛算法(margin infused relax algorithm, MIRA),為了獲得最好的參數(shù)權(quán)重,獨(dú)立運(yùn)行MIRA 10次,把獲得最高BLEU分?jǐn)?shù)的調(diào)參結(jié)果用到測試集上。采用文獻(xiàn)[24]方法,所有的顯著性測試在顯著性水平為0.05下進(jìn)行。

      4.2不同短語歸約方法的比較

      在兩種訓(xùn)練語料(不分領(lǐng)域)上進(jìn)行比較,主要是體現(xiàn)本文歸約方法的優(yōu)越性。為了更好的比較采用3個(gè)基線系統(tǒng):第一個(gè)基線系統(tǒng)為采用GIZA++ Model 4詞對齊后,使用Grow-Diag-Final-And啟發(fā)式獲得兩個(gè)方向的對齊,最后再抽取短語,該基線系統(tǒng)表示為Heu-Model4。第二個(gè)基線系統(tǒng)為選用文獻(xiàn)[9]中方法,同本文相比使用了相似的調(diào)序建模,但是沒有對于非終結(jié)符號中的短語進(jìn)行建模;這個(gè)基線方法也使用了啟發(fā)式方法抽取短語,只是在計(jì)算短語翻譯概率的時(shí)候,利用了采樣器獲得的短語對分布;該基線系統(tǒng)表示為Ali-Phr-Heu-Com。本文提出的方法表示為Ali-Phr-Mod-Com,短語歸約模型的最大短語長度為7。選用這3個(gè)基線系統(tǒng)的原因?yàn)椋旱谝粋€(gè)基線系統(tǒng)是傳統(tǒng)的短語抽取方法;第二個(gè)基線系統(tǒng)使用了相似的非參數(shù)貝葉斯方法,但是沒有本文模型表現(xiàn)能力強(qiáng)(不同粒度的短語,層次化的PYP相對于非層次的DP)。

      通過和Heu-Model4基線系統(tǒng)比較,發(fā)現(xiàn)Ali-Phr-Heu-Com系統(tǒng)提高了0.8;通過和Ali-Phr-Heu-Com基線系統(tǒng)比較,發(fā)現(xiàn)Ali-Phr-Mod-Com系統(tǒng)提高了0.42??傮w來說,實(shí)驗(yàn)結(jié)果說明了Ali-Phr-Heu-Com系統(tǒng)好于傳統(tǒng)的啟發(fā)式方法。表1給出了在常規(guī)文本上的實(shí)驗(yàn)結(jié)果,使用典型的NIST翻譯任務(wù)中語料作為開發(fā)集和測試集。

      表1 在常規(guī)文本翻譯任務(wù)上不同短語規(guī)約方法的比較表

      表1的性能比較見表2。

      總體來說,在3個(gè)測試集合上Ali-Phr-Heu-Com系統(tǒng)好于Heu-Model4系統(tǒng),Ali-Phr-Mod-Com系統(tǒng)好于Ali-Phr-Heu-Com系統(tǒng)。

      表2 表1系統(tǒng)的性能比較表Table 2 The performance comparison of table 1

      4.3多領(lǐng)域短語歸約的實(shí)驗(yàn)

      在多領(lǐng)域?qū)嶒?yàn)中,除了對于第一個(gè)基線系統(tǒng)進(jìn)行簡單加權(quán)外,使用了經(jīng)典翻譯系統(tǒng)Moses的基于混淆度最小的自適應(yīng)方法[25],該基線系統(tǒng)表示為Moses-Per。

      表1和表3的性能比較見表4,在每個(gè)開發(fā)集上性能的提高說明了本文方法在更大規(guī)模的常規(guī)文章翻譯任務(wù)的有效性。表3的性能比較見表5,說明本文方法的有效性。總體來說,通過不同多領(lǐng)域歸約方法的比較,Ali-Phr-Mod-Com-DA系統(tǒng)相對于Ali-Phr-Heu-Com-DA提高的性能高于Ali-Phr-Heu-Com-DA系統(tǒng)相對于Heu-Model4-DA系統(tǒng)提高的性能,說明了本文方法對于強(qiáng)大基線系統(tǒng)的有效性。

      不管是在多領(lǐng)域之間,還是在單領(lǐng)域和多領(lǐng)域之間,本部分的實(shí)驗(yàn)結(jié)果與在IWSLT2012的實(shí)驗(yàn)結(jié)果比較起來提高的性能較少,可能的原因是IWSLT2012中的2個(gè)領(lǐng)域比較明顯的區(qū)別,而在常規(guī)文本中劃分的領(lǐng)域區(qū)分性不大。從表1、2中可以看出Moses_Per好于Heu-Model4,但性能不多,可能的原因是本文已經(jīng)嘗試了很多種權(quán)重配置方案;本文的文本是正規(guī)化文本,從語言模型的角度區(qū)別性不是很大,所以導(dǎo)致基于語言模型評價(jià)標(biāo)準(zhǔn)的混淆度不能捕捉到更多領(lǐng)域間的信息。本文方法超過了Moses_Per,可能是因?yàn)楦每紤]了每個(gè)短語生成過程中領(lǐng)域間相互影響,Moses_Per雖然考慮到了每個(gè)領(lǐng)域中實(shí)例情況,但沒有考慮到每個(gè)實(shí)例生成過程。本文提出的單領(lǐng)域歸約方法Ali-Phr-Mod-Com和多領(lǐng)域歸約方法Ali-Phr-Mod-Com-DA超過了所有基線系統(tǒng)。

      表3 在常規(guī)文本翻譯任務(wù)上多領(lǐng)域歸約的比較表

      表4 表1和表3系統(tǒng)性能比較表

      表5 表3系統(tǒng)的性能比較表

      4 結(jié)論

      1)本模型把傳統(tǒng)對齊和短語抽取過程進(jìn)行一起建模,在采樣的過程中獲得對齊;

      2)本模型中含有ITG歸約過程中每一層的短語,而且可以分治的回退到下一層從而生成粒度更細(xì)的短語。對于短語歸約過程中每層產(chǎn)生規(guī)則和短語進(jìn)行了詳細(xì)的模型描述,并給出了進(jìn)行采樣估計(jì)概率時(shí)的后驗(yàn)預(yù)測概率;為了更好地理解多領(lǐng)域模型使用中餐館過程進(jìn)行描述;

      3)在2種類型的語料上進(jìn)行了驗(yàn)證,通過實(shí)驗(yàn)發(fā)現(xiàn)本文方法超過了經(jīng)典的基線系統(tǒng)(包括傳統(tǒng)方法和沒有對于短語建模的非參數(shù)貝葉斯短語歸約),且做了顯著性測試以證明方法的統(tǒng)計(jì)意義。

      從實(shí)驗(yàn)結(jié)果中可以看出,本文的建模方法對于SMT性能的提高起到了一定作用。

      [1] THIBAUX R, JORDAN M I. Hierarchical beta processes and the indian buffet process[C]//Proceedings International Conference on Artificial Intelligence and Statistics.New York, USA, 2007: 564-571.

      [2] RASMUSSEN C E, WILLIAMS C K I. Gaussian processes for machine learning[M]. USA: MIT Press, 2006.

      [3] NEAL R M. Bayesian mixture modeling[C]//Proceedings of the Workshop on Maximum Entropy and Bayesian Methods of Statistical Analysis. Philadelphia, USA, 1992: 197-211.

      [4] GOLDWATER S, GRIFFITHS T. A Fully Bayesian approach to unsupervised part-of-speech tagging[C]//Proceedings of the Annual Meeting of the Association for Computational Linguistics. Czech Republic, 2007: 744-751.

      [5] BLUNSOM P, COHN T. Inducing synchronous grammars with slice sampling[C]//In Proceedings of the Human Language Technology: The 11th Annual Conference of the North American Chapter of the Association for Computational Linguistics. Los Angeles, California, USA, 2010: 238-241.

      [6] BLUNSOM P, COHN T, DYER C, et al. A gibbs sampler for phrasal synchronous grammar induction[C]//Proceedings of the 47th Annual Meeting of the Association for Computational Linguistics. Singapore, 2009: 782-790.

      [7] DENERO J, BOUCHARD-COTE A, KLEIN D. Sampling alignment structure under a bayesian translation model[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Waikiki, Honolulu, Hawaii, 2008: 314-323.

      [8] KAMIGAITO H, WATANABE T, TAKAMURA H, et al. Hierarchical back-off modeling of hiero grammar based on non-parametric bayesian model[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Lisbon, Portugal, 2015: 1217-1227.

      [9] NEUBIG G, WATANABE T, SUMITA E, et al. An unsupervised model for joint phrase alignment and extraction[C]//The 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies (ACL-HLT). Portland, Oregon, USA, 2011: 632-641.

      [10] TEH Y W. A hierarchical bayesian language model based on pitman-yor processes[C]//Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics. New York, USA, 2006: 985-992.

      [11] LIANG P, PETROV S, JORDAN M I, et al. The infinite pcfg using hierarchical dirichlet processes[C]//In Proceedings of the Conference on Empirical Methods in Natural Language Processing. Prague, Czech REpublic, 2007: 688-697.

      [12] TEH Y W, JORDAN M I, BEAL M J, et al. Hierarchical dirichlet processes[J]. Journal of the American statistical association, 2006, 1(101): 1566-1581.

      [13] MACEACHERN S, KOTTAS A, GELFAND A. Spatial nonparametric bayesian models[C]//Proceedings of the 2001 Joint Statistical Meetings. New York, USA, 2001: 1-12.

      [14] BLEI D M, GRIFFITHS T L, JORDAN M I, et al. Hierarchical topic models and the nested Chinese restaurant process[C]//Advances in Neural Information Processing Systems.New York,USA, 2004: 17-24.

      [15] ZHU Conghui, WATANABE T, SUMITA E, et al. Hierarchical phrase table combination for machine translation[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. Sofia, Bulgaria, 2013: 802-810.

      [16] ZHANG Hao, HUANG Liang, GILDEA D. Synchronous binarization for machine translation[C]//Proceedings of the 2006 Meeting of the North American Chapter of the Association for Computational Linguistics (NAACL-06). New York, USA, 2006: 256-263.

      [17] XU Z, TRESP V, YU K, et al. Infinite hidden relational models[C]//Proceedings of the Conference on Uncertainty in Artificial Intelligence. Cambridge, MA, USA,2006: 53-62.

      [18] BRODY S, LAPATA M. Bayesian word sense induction[C]//Proceeding of the 12th Conference of the European Chapter of the Association for Computational Linguistics Association for Computational Linguistics. Singapore, 2009: 103-111.

      [19] KAMIGAITO H, WATANAB T, TAKAMURA H. Hierarchical back-off modeling of hiero grammar based on non-parametric bayesian model[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Lisbon, Portugal, 2015: 1217-122.

      [20] LIU Zhiyuan, ZHANG Yuzhou, CHANG E Y, et al. Plda+: parallel latent dirichlet allocation with data placement and pipeline processing[C]//ACM Transactions on Intelligence Systems and Technology. New York, 2011: 1-18.

      [21] KOEHN P, HOANG H, BIRCH A, et al. Moses: open source toolkit for statistical machine translation[C]//Proceedings of the 45th Annual Meeting of the ACL on Interactive Poster and Demonstration Sessions. ACL, Stroudsburg, USA, 2007: 177-180.

      [22] STOLCKE A. Srilm-an extensible language modeling toolkit[C]//Proceeding of The International Conference on Spoken Language Processing 2002. Denver, USA, 2002: 332-330.

      [23] PAPINENI K, ROUKOS S,TODDWARD D, et al. Bleu: a method for automatic evaluation of machine translation[C]//Proceedings of 40th Annual Meeting of the Association for Computational Linguistics.Philadelphia, Pennsylvania, USA, 2002: 311-318.

      [24] KOEHN P. Statistical significance tests for machine translation Evaluation[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Barcelona, Spain,2004: 231-239.

      [25] SENNRICH R. Perplexity minimization for translation model domain adaptation in statistical machine translation[C]//Proceedings of The European Chapter of the Association for Computational Linguistic. Avignon, France, 2012: 539-549.

      本文引用格式:劉宇鵬,馬春光,朱曉寧,等. 機(jī)器翻譯中多領(lǐng)域的非參貝葉斯短語歸納[J]. 哈爾濱工程大學(xué)學(xué)報(bào), 2017, 38(10): 1616-1622.

      LIU Yupeng, MA Chunguang, XIAONING Zhu, et al. Bayesian non-parametric phrasal induction of domain adaptation in machine translation[J]. Journal of Harbin Engineering University, 2017, 38(10): 1616-1622.

      Multi-domainbayesiannon-parametricphrasalinductioninmachinetranslation

      LIU Yupeng1,2, MA Chunguang2, Zhu Xiaoning3, Qiao Xiuming3

      (1. School of Software, Harbin University of Science and Technology, Harbin 150001, China; 2.College of Computer Science and Technology, Harbin Engineering University, Harbin 150001, China; 3.School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)

      Domain adaptation has always been a key research field of machine translation, in which phrase induction is a top priority. The traditional weighted method did not take into account the entire phrase induction process. This paper proposed a method that uses hierarchical Pitman-Yor process to extract phrase pairs. Multiple channels were introduced into the model to balance the weight of various fields in the phrase induction process. From the point of the model, the generative model was expressive, and the alignment and phrase extraction were modeled together, which overcame the effect of wrong alignment on the original phrase extraction performance. From the view of complexity, the model is independent of decoding and easy to train. From the perspective of multi-domain combination, the process of phrase reduction combination takes into account the entire reduction process better. Machine translation performance was validated on two different types of corpus. Compared with the traditional method of weighted multi-domain and heuristic phrase extraction in single domain, the performance measured by BLEU score was improved.

      multi-domain machine translation; Bayesian non-parameter; phrasal induction; Pitman-Yor process (PYP); generative model; block sampling; Chinese restaurant process; BLEU score

      10.11990/jheu.201605081

      http://www.cnki.net/kcms/detail/23.1390.U.20170816.1550.038.html

      TP391.2

      A

      1006-7043(2017)10-1616-08

      2016-05-24. < class="emphasis_bold">網(wǎng)絡(luò)出版日期

      日期:2016-08-16.

      國家自然科學(xué)青年基金項(xiàng)目(61300115);中國博士后科學(xué)基金項(xiàng)目(2014M561331);黑龍江省教育廳科技研究項(xiàng)目(12521073).

      劉宇鵬(1978-),教授.

      劉宇鵬,E-mail:flyeagle99@126.com.

      猜你喜歡
      貝葉斯語料基線
      適用于MAUV的變基線定位系統(tǒng)
      航天技術(shù)與甚長基線陣的結(jié)合探索
      科學(xué)(2020年5期)2020-11-26 08:19:14
      貝葉斯公式及其應(yīng)用
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      一種改進(jìn)的干涉儀測向基線設(shè)計(jì)方法
      基于貝葉斯估計(jì)的軌道占用識別方法
      一種基于貝葉斯壓縮感知的說話人識別方法
      電子器件(2015年5期)2015-12-29 08:43:15
      華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
      《苗防備覽》中的湘西語料
      國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
      海城市| 昭通市| 海南省| 且末县| 吴桥县| 麦盖提县| 汉中市| 辉南县| 嘉鱼县| 如皋市| 吴江市| 喀喇沁旗| 丁青县| 秀山| 达日县| 丰县| 广南县| 绿春县| 灵璧县| 南皮县| 成武县| 拜泉县| 衡阳县| 鹰潭市| 威信县| 买车| 隆化县| 招远市| 五原县| 普安县| 平度市| 基隆市| 阳信县| 清徐县| 香格里拉县| 云和县| 阿拉善盟| 上饶市| 惠州市| 阿克苏市| 台江县|