劉 群
(中國(guó)科學(xué)院 計(jì)算技術(shù)研究所 中國(guó)科學(xué)院 智能信息處理重點(diǎn)實(shí)驗(yàn)室,北京 100190)
自從IBM在20世紀(jì)90年代初正式提出統(tǒng)計(jì)機(jī)器翻譯方法以來(lái),統(tǒng)計(jì)機(jī)器翻譯的發(fā)展經(jīng)歷了一個(gè)從沉寂到復(fù)蘇再到迅猛發(fā)展的過(guò)程。在2003年前后,基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯方法已經(jīng)成熟,并超越了早前IBM提出的基于詞的方法。但基于短語(yǔ)的方法缺陷也是很明顯的: 泛化能力差,短語(yǔ)中的詞不能被相近的詞替換;調(diào)序能力差,短語(yǔ)內(nèi)調(diào)序還可以,但短語(yǔ)間調(diào)序和更遠(yuǎn)距離調(diào)序效果都不好。因此,研究者普遍意識(shí)到需要針對(duì)句子結(jié)構(gòu)進(jìn)行直接建模,才有可能解決上述問(wèn)題。為此出現(xiàn)了各種各樣的基于句法的統(tǒng)計(jì)機(jī)器翻譯方法。
基于句法的統(tǒng)計(jì)機(jī)器翻譯模型可以分為兩大類(lèi): 第一大類(lèi)是形式上基于句法的模型。這類(lèi)模型利用了某種形式的句子結(jié)構(gòu),但這種結(jié)構(gòu)是通過(guò)語(yǔ)料庫(kù)學(xué)習(xí)自動(dòng)獲得的,而不是語(yǔ)言學(xué)意義上的句法結(jié)構(gòu);第二大類(lèi)是語(yǔ)言學(xué)上基于句法的模型,這類(lèi)模型需要利用語(yǔ)言學(xué)意義上的句法結(jié)構(gòu)。第二大類(lèi)又可分為三小類(lèi): 第一小類(lèi)是樹(shù)到串模型,這類(lèi)模型只在源語(yǔ)言端利用語(yǔ)言學(xué)意義上的句法結(jié)構(gòu);第二小類(lèi)是串到樹(shù)模型,這類(lèi)模型只在目標(biāo)語(yǔ)言端利用語(yǔ)言學(xué)意義上的句法結(jié)構(gòu);第三小類(lèi)是樹(shù)到樹(shù)模型,要在源語(yǔ)言端和目標(biāo)語(yǔ)言端同時(shí)利用語(yǔ)言學(xué)意義上的句法結(jié)構(gòu)。
我們從2006年開(kāi)始,在基于句法的統(tǒng)計(jì)機(jī)器翻譯模型方法方面開(kāi)展了一系列深入的研究工作,提出了三個(gè)不同形式的翻譯模型: 最大熵括號(hào)轉(zhuǎn)錄語(yǔ)法模型、樹(shù)到串模型*為了簡(jiǎn)明:從此以下,“樹(shù)到串模型”特指“短語(yǔ)結(jié)構(gòu)樹(shù)到串模型”。和依存到串模型。其中,對(duì)于樹(shù)到串模型,根據(jù)解碼時(shí)輸入形式的不同,我們又提出了三種不同形式的翻譯方法: 基于樹(shù)的翻譯方法、基于森林的翻譯方法和基于串的翻譯方法(句法分析與解碼一體化方法),這三種翻譯方法由簡(jiǎn)單到復(fù)雜,時(shí)空復(fù)雜度逐漸增加,性能越來(lái)越高。
在基于短語(yǔ)的翻譯模型中,翻譯知識(shí)的基本表示形式是雙語(yǔ)短語(yǔ)表,也就是一個(gè)源語(yǔ)言短語(yǔ)翻譯成一個(gè)目標(biāo)語(yǔ)言短語(yǔ),如表1所示:
表1 雙語(yǔ)短語(yǔ)示例
這種雙語(yǔ)短語(yǔ)無(wú)法表現(xiàn)句子的內(nèi)部結(jié)構(gòu)。要引入句子的內(nèi)部結(jié)構(gòu),最直觀的做法就是引入上下文無(wú)關(guān)規(guī)則,在機(jī)器翻譯中,就是需要引入同步上下文無(wú)關(guān)語(yǔ)法,如表2所示:
表2 同步上下文無(wú)關(guān)語(yǔ)法規(guī)則示例
由于同步上下文無(wú)關(guān)語(yǔ)法形式較為復(fù)雜,而且訓(xùn)練這類(lèi)模型需要雙語(yǔ)句子結(jié)構(gòu)對(duì)齊的語(yǔ)料庫(kù),在實(shí)現(xiàn)上面臨很多問(wèn)題,目前還達(dá)不到預(yù)期的效果。因此目前研究較多的各種基于句法的統(tǒng)計(jì)翻譯模型都采用同步上下文無(wú)關(guān)語(yǔ)法的某種簡(jiǎn)化形式。
Dekai Wu提出了一種簡(jiǎn)化的同步上下文無(wú)關(guān)語(yǔ)法——反向轉(zhuǎn)錄語(yǔ)法(Inversion Transduction Grammar,ITG)[33], 這是同步上下文無(wú)關(guān)語(yǔ)法的二叉化形式,類(lèi)似于喬姆斯基范式是上下文無(wú)關(guān)語(yǔ)法的二叉化形式。ITG只有三種類(lèi)型的規(guī)則,如表3所示:
在ITG基礎(chǔ)上建立統(tǒng)計(jì)翻譯模型,還會(huì)面臨一個(gè)問(wèn)題,就是如何獲得各個(gè)短語(yǔ)的短語(yǔ)標(biāo)記。為了回避這個(gè)問(wèn)題,Dekai Wu對(duì)ITG進(jìn)一步簡(jiǎn)化成了括號(hào)轉(zhuǎn)錄語(yǔ)法(Bracketing Transduction Grammar,BTG)[25]。BTG就是在ITG中只定義一個(gè)標(biāo)記(通常用X表示)。于是,在BTG中,上述三類(lèi)規(guī)則簡(jiǎn)化為表4:
表3 反向轉(zhuǎn)錄語(yǔ)法(ITG)的規(guī)則類(lèi)型
表4 括號(hào)轉(zhuǎn)錄語(yǔ)法(BTG)的規(guī)則類(lèi)型
實(shí)際上,由于只有唯一的短語(yǔ)標(biāo)記X,所以這里的兩類(lèi)短語(yǔ)規(guī)則就是兩條規(guī)則,并無(wú)其他形式。這兩條短語(yǔ)規(guī)則分別表示兩個(gè)小短語(yǔ)在組合成一個(gè)大短語(yǔ)的情況下,翻譯時(shí)是否要交換位置。Dekai Wu 1996提出了一種用于統(tǒng)計(jì)機(jī)器翻譯的隨機(jī)括號(hào)轉(zhuǎn)錄語(yǔ)法模型(SBTG),在這個(gè)模型中,BTG的兩條短語(yǔ)規(guī)則被賦予不同的概率。可以想象,這個(gè)模型的描述能力太弱,很難準(zhǔn)確刻畫(huà)短語(yǔ)的語(yǔ)序調(diào)整規(guī)律。
針對(duì)SBTG描述能力弱的確定, 我們?cè)赟BTG的基礎(chǔ)上引入最大熵模型[1],采用最大熵方法來(lái)計(jì)算兩個(gè)短語(yǔ)組合翻譯時(shí)順序或逆序的概率,我們稱該模型為最大熵括號(hào)轉(zhuǎn)錄語(yǔ)法模型(MEBTG),如圖1所示。
在MEBTG模型中,任何兩個(gè)短語(yǔ)組合時(shí),順序翻譯和逆序翻譯的概率之和為1,具體這兩個(gè)概率的計(jì)算由一個(gè)最大熵模型來(lái)決定,這個(gè)最大熵模型的特征來(lái)自于這兩個(gè)短語(yǔ)本身和這兩個(gè)短語(yǔ)出現(xiàn)的上下文。MEBTG模型的訓(xùn)練也很簡(jiǎn)單。從詞語(yǔ)對(duì)齊的雙語(yǔ)語(yǔ)料庫(kù)中即可獲得大規(guī)模的訓(xùn)練數(shù)據(jù),無(wú)需任何額外的人工標(biāo)注。
MEBTG模型是一種形式上基于句法的模型。該模型一方面在短語(yǔ)模型的基礎(chǔ)上引入了二叉化的形式化句法結(jié)構(gòu),克服了短語(yǔ)模型的固有缺陷,又可以跟短語(yǔ)模型很好地兼容,同時(shí)與SBTG模型相比又大大增強(qiáng)了模型的區(qū)分能力,取得了很好的效果,模型性能超過(guò)了基于短語(yǔ)的模型。我們基于該模型開(kāi)發(fā)的一個(gè)系統(tǒng),在NIST2006評(píng)測(cè)中作為一個(gè)對(duì)比系統(tǒng)取得了與第四名主系統(tǒng)完全相同的成績(jī)。
圖1 最大熵括號(hào)轉(zhuǎn)錄語(yǔ)法模型中規(guī)則概率示例
樹(shù)到串模型[2]建立在樹(shù)到串規(guī)則的基礎(chǔ)上,樹(shù)到串規(guī)則也可以看作是同步短語(yǔ)結(jié)構(gòu)語(yǔ)法規(guī)則的一種變化形式: 其源語(yǔ)言端是一棵句法樹(shù)片段(對(duì)應(yīng)多條上下文無(wú)關(guān)語(yǔ)法規(guī)則),目標(biāo)語(yǔ)言端是一個(gè)詞語(yǔ)和變量組成的序列,目標(biāo)端的每個(gè)變量對(duì)應(yīng)于源端句法樹(shù)片段的某個(gè)非終結(jié)符葉子節(jié)點(diǎn),如圖2所示:
圖2 樹(shù)到串規(guī)則示例
樹(shù)到串模型建立在源語(yǔ)言端句法分析和雙語(yǔ)詞語(yǔ)對(duì)齊的基礎(chǔ)上,要求對(duì)雙語(yǔ)語(yǔ)料庫(kù)的源語(yǔ)言進(jìn)行完整的句法分析,并進(jìn)行雙語(yǔ)句子的詞語(yǔ)對(duì)齊。在這樣處理以后的語(yǔ)料庫(kù)上,就可以抽取出所有可能的規(guī)則,并統(tǒng)計(jì)出每條規(guī)則出現(xiàn)的次數(shù)。模型的定義采用與短語(yǔ)翻譯模型類(lèi)似的方法,通過(guò)對(duì)數(shù)線性模型將多個(gè)概率進(jìn)行對(duì)數(shù)線性疊加而得到。
樹(shù)到串模型可以有效地利用源語(yǔ)言端的句法結(jié)構(gòu)信息,在句法分析正確的情況下,對(duì)于翻譯中的長(zhǎng)距離調(diào)序問(wèn)題可以取得較好的效果。
但簡(jiǎn)單采用樹(shù)到串模型效果并不太好,一個(gè)主要的問(wèn)題是樹(shù)到串模型無(wú)法兼容非句法短語(yǔ)(不具有完整句法結(jié)構(gòu)的短語(yǔ))。實(shí)驗(yàn)表明,在短語(yǔ)模型中,非句法短語(yǔ)的作用是非常明顯的,如果刪掉所有非句法短語(yǔ),短語(yǔ)模型的性能將大大下降。在樹(shù)到串模型中,所有規(guī)則的源語(yǔ)言端都是一棵完整的句法樹(shù)片段,由此導(dǎo)致無(wú)法引入非句法短語(yǔ),這會(huì)導(dǎo)致單純的樹(shù)到串模型的實(shí)際性能低于短語(yǔ)模型。解決這一問(wèn)題的辦法有多種[2,5],最簡(jiǎn)單的辦法是[2]把非句法短語(yǔ)用在樹(shù)到串模型翻譯結(jié)果的后處理中,替換掉相應(yīng)源語(yǔ)言短語(yǔ)的譯文。更復(fù)雜一些的方法[5]是引入樹(shù)序列到串(tree sequence to string)翻譯規(guī)則。后面介紹的基于森林的翻譯方法也可以一定程度上緩解這一問(wèn)題。
利用樹(shù)到串模型進(jìn)行翻譯解碼,最簡(jiǎn)單的做法就是首先對(duì)源語(yǔ)言句子進(jìn)行句法分析,然后自底向上對(duì)句法樹(shù)上的每個(gè)節(jié)點(diǎn)進(jìn)行規(guī)則匹配,記錄所有可能的翻譯結(jié)果,一直到根節(jié)點(diǎn)處理結(jié)束,就得到整個(gè)句子的翻譯結(jié)果。當(dāng)然每個(gè)節(jié)點(diǎn)上都需要進(jìn)行剪枝。這種翻譯方法稱為基于樹(shù)的翻譯方法[2]。
基于樹(shù)的翻譯方法簡(jiǎn)單直觀,在不考慮句法分析的情況下,翻譯解碼速度極快,時(shí)間復(fù)雜度正比于句子長(zhǎng)度。加上源語(yǔ)言句法分析的時(shí)間,復(fù)雜度是句子長(zhǎng)度的三次方。
我們采用基于樹(shù)的翻譯方法,結(jié)合非句法短語(yǔ)進(jìn)行后處理,取得了較好的效果。基于該方法開(kāi)發(fā)的機(jī)器翻譯系統(tǒng),在NIST2006評(píng)測(cè)中作為我們的基本系統(tǒng)取得了第五名的成績(jī)。
但這種方法的缺陷也是很明顯的,由于句法分析正確率不高,句法分析錯(cuò)誤將傳遞給翻譯解碼,造成翻譯錯(cuò)誤。為解決這一問(wèn)題,我們提出了基于森林的翻譯方法。
基于樹(shù)的翻譯方法中,句法分析錯(cuò)誤會(huì)傳遞到翻譯解碼節(jié)點(diǎn),使得翻譯準(zhǔn)確率嚴(yán)重下降。為了克服這一問(wèn)題,直觀的做法是在句法分析過(guò)程輸出多個(gè)最優(yōu)句法分析結(jié)果,并利用這多個(gè)句法分析結(jié)果進(jìn)行句法分析,這種方法稱為K-best方法。
但K-best方法帶來(lái)的機(jī)器翻譯性能提高是很有限的,其原因在于K-best結(jié)果中存在大量的冗余。簡(jiǎn)單地理解,一個(gè)句子中如果有三處歧義,那么互相組合,就會(huì)得到八個(gè)不同的句法分析結(jié)果。實(shí)際上,如果有n處歧義,可以組合得到2n個(gè)。也就是說(shuō),即使我們?nèi)?024-best的句法分析結(jié)果,花1 024倍的解碼時(shí)間,也只能多考慮10處句法分析歧義。這無(wú)疑是非常大的浪費(fèi),因?yàn)檫@1024-best個(gè)句法分析產(chǎn)生的句法樹(shù)中,絕大部分樹(shù)片段結(jié)構(gòu)都是重復(fù)的。以圖3為例,這個(gè)句子有兩個(gè)分析結(jié)果,兩個(gè)句法結(jié)構(gòu)樹(shù)上,陰影部分是不同的,其他部分都完全一樣。
為了解決這一問(wèn)題,我們提出了基于森林的機(jī)器翻譯方法[3]。其核心思想,就是在統(tǒng)計(jì)機(jī)器翻譯中引入句法壓縮森林的結(jié)構(gòu)表示形式。圖3所示的兩個(gè)句法分析樹(shù)就可以表示為圖4所示的句法壓縮森林。
圖3 N-best句法樹(shù)的冗余
圖4 句法壓縮森林示例
句法壓縮森林很早就在句法分析中得到應(yīng)用,Liang Huang[26]提出了基于句法壓縮森林的K-best句法分析方法。我們的工作[3]最早把句法壓縮森林用在了統(tǒng)計(jì)機(jī)器翻譯中。
句法壓縮森林的采用,可以在多項(xiàng)式規(guī)模的壓縮森林中,保留指數(shù)級(jí)別的K-best句法分析結(jié)果,使得機(jī)器翻譯的搜索空間大大增加,很大程度上緩解了句法分析錯(cuò)誤帶來(lái)的影響。
圖5給出了采用句法壓縮森林和采用K-best句法分析方法的機(jī)器翻譯系統(tǒng)性能對(duì)比。
圖5 基于森林的解碼和K-best句法樹(shù)解碼性能的比較
可以看到,采用K-best方法,當(dāng)K超過(guò)10以后,機(jī)器翻譯系統(tǒng)的性能隨著平均解碼時(shí)間的增加上升得非常緩慢,而采用句法壓縮森林解碼,翻譯系統(tǒng)的性能隨著平均解碼時(shí)間的增加迅速提高。兩種方法的差別是非常明顯的。
我們可以從另外一個(gè)角度來(lái)看采用句法壓縮森林的優(yōu)勢(shì)。句法壓縮森林是一種非常緊湊的數(shù)據(jù)結(jié)構(gòu),句法壓縮森林展開(kāi)后得到的句法樹(shù)的數(shù)量,為句法壓縮森林結(jié)點(diǎn)數(shù)的指數(shù)級(jí)別。圖6說(shuō)明了在一個(gè)基于句法壓縮森林的機(jī)器翻譯系統(tǒng)中,如果把句法壓縮森林展開(kāi)成K-best句法樹(shù)序列,那么實(shí)際輸出的評(píng)分最高的機(jī)器翻譯譯文所對(duì)應(yīng)的句法分析樹(shù),在這個(gè)K-best句法分析樹(shù)序列中的位置。
圖6 解碼器輸出的譯文在K-best句法樹(shù)序列中的分布
從圖中我們可以看到,32%的機(jī)器翻譯譯文對(duì)應(yīng)的句法分析樹(shù)位于100-best以外,20%的機(jī)器翻譯譯文對(duì)應(yīng)的句法分析樹(shù)位于1000-best以外。
基于森林的翻譯方法使得樹(shù)到串模型的性能有了大幅度提高。但如果我們仔細(xì)分析,還是會(huì)發(fā)現(xiàn)一個(gè)問(wèn)題。在基于樹(shù)和基于森林的翻譯方法中,句法分析和翻譯解碼的過(guò)程是割裂的。這種割裂不僅是指過(guò)程的割裂,而且包括翻譯模型的割裂。源語(yǔ)言的句法分析采用的是獨(dú)立的句法分析器,這個(gè)句法分析器所采用句法分析模型(如詞匯化概率上下文無(wú)關(guān)語(yǔ)法模型[27])通常需要利用一個(gè)人工標(biāo)注的句法樹(shù)庫(kù)訓(xùn)練得到。而翻譯解碼采用的是樹(shù)到串模型,這個(gè)模型是利用雙語(yǔ)對(duì)齊語(yǔ)料庫(kù)得到的。人工標(biāo)注的句法樹(shù)庫(kù)通常規(guī)模較小,一般只有幾萬(wàn)個(gè)句子的規(guī)模,而雙語(yǔ)語(yǔ)料庫(kù)規(guī)模大得多,在漢英機(jī)器翻譯研究中通常達(dá)到數(shù)百萬(wàn)句子對(duì)的規(guī)模。這兩個(gè)模型的訓(xùn)練語(yǔ)料不僅規(guī)模上嚴(yán)重不匹配,實(shí)際上所涉及的領(lǐng)域通常也是差別很大的,也就是說(shuō),通過(guò)句法分析模型得到的高概率句法樹(shù),在樹(shù)到串翻譯模型中,概率可能很低,反之亦然。這就會(huì)使得我們?cè)诰浞ǚ治鲋兴阉鞯降母吒怕示浞?shù)的實(shí)際翻譯效果并不好,反之,在樹(shù)到串翻譯模型中高概率的翻譯結(jié)果對(duì)應(yīng)的句法樹(shù),在句法分析中因?yàn)楦怕侍陀炙阉鞑坏健?/p>
為了解決這一問(wèn)題,我們提出了句法分析和解碼一體化的翻譯方法[4]。其基本思想是,樹(shù)到串翻譯規(guī)則的源語(yǔ)言端是一棵句法樹(shù)片段,可以把這棵句法樹(shù)片段理解成一條句法分析規(guī)則,可以把翻譯規(guī)則的概率就理解為這條句法分析規(guī)則的概率,這樣,我們就得到了一部可以用于句法分析的概率語(yǔ)法(嚴(yán)格的說(shuō),是概率樹(shù)替換語(yǔ)法)。在翻譯解碼過(guò)程中,我們并不采用獨(dú)立的句法分析器,而是直接利用這部概率樹(shù)替換語(yǔ)法進(jìn)行句法分析,句法分析的概率就是翻譯的概率,這樣就避免了句法分析和翻譯解碼的概率不一致問(wèn)題,甚至可以在句法分析的同時(shí)就完成翻譯解碼。
在這種翻譯方法中,翻譯解碼的起點(diǎn)既不是句法分析的1-best樹(shù),也不是句法壓縮森林,而是源語(yǔ)言句子本身,在句法分析的同時(shí)完成翻譯解碼,所以我們又把這種方法稱為基于串的翻譯方法。
假設(shè)我們用兩個(gè)圓形分別表示句法分析模型和樹(shù)到串翻譯模型的概率分布,其中顏色越深表示搜索空間中該處的概率越大。通常情況下,由于這兩個(gè)模型來(lái)自于不同的訓(xùn)練數(shù)據(jù),因此二者概率分布通常并不一致,如圖7所示:
圖7 句法分析模型和樹(shù)到串翻譯模型的概率分布差異
在基于樹(shù)的翻譯方法中,句法分析得到的是句法分析模型中概率最大的點(diǎn)(不考慮搜索誤差),而這個(gè)點(diǎn)在樹(shù)到串翻譯模型中并不是概率最大的點(diǎn)(圖8)。
圖8 基于樹(shù)的翻譯方法中句法分析與翻譯解碼的搜索空間比較
而在基于森林的方法中,句法分析得到的森林可以覆蓋句法分析模型中概率最大的一片區(qū)域,因此相對(duì)于基于樹(shù)的翻譯方法,可以找到更接近樹(shù)到串模型中最優(yōu)位置的點(diǎn)(圖9)。
圖9 基于森林的翻譯方法中句法分析與翻譯解碼的搜索空間比較
而在句法分析與解碼一體化方法中,句法分析模型與樹(shù)到串翻譯模型共享相同的概率空間,句法分析搜索得到的最優(yōu)點(diǎn)就是翻譯模型的最優(yōu)點(diǎn)(圖10)。
圖10 基于串的翻譯方法中句法分析與翻譯解碼的搜索空間比較
實(shí)驗(yàn)表明,采用基于樹(shù)的方法、基于森林的方法和基于串的方法,翻譯系統(tǒng)的性能可以穩(wěn)步提高,如圖11所示:
圖11 樹(shù)到串模型的三種解碼方法的性能對(duì)比
不過(guò),這三種方法的搜索空間也是逐步增大的,因此帶來(lái)的時(shí)空消耗也增長(zhǎng)非常明顯。特別是句法分析和翻譯解碼一體化方法,由于得到的規(guī)則數(shù)量遠(yuǎn)遠(yuǎn)大于傳統(tǒng)的基于小規(guī)模樹(shù)庫(kù)訓(xùn)練出來(lái)的句法分析器,因此解碼搜索空間非常大而且解碼時(shí)間也會(huì)大大延長(zhǎng)。
依存樹(shù)是一種有效的句法結(jié)構(gòu)表現(xiàn)形式,與短語(yǔ)結(jié)構(gòu)樹(shù)相比,依存樹(shù)具有表達(dá)簡(jiǎn)潔、冗余信息少、分析速度快等優(yōu)點(diǎn),因此在自然語(yǔ)言處理的很多問(wèn)題中得到了成功的應(yīng)用。但在統(tǒng)計(jì)機(jī)器翻譯中,基于依存樹(shù)的模型一直不是很成功。
在基于短語(yǔ)結(jié)構(gòu)樹(shù)的翻譯模型中,我們所定義的規(guī)則的源語(yǔ)言端都要求是完整的句法樹(shù)片段,也就是所每一個(gè)節(jié)點(diǎn)或者作為葉節(jié)點(diǎn)出現(xiàn),或者必須帶上其所有的子節(jié)點(diǎn)出現(xiàn)。這對(duì)于基于短語(yǔ)結(jié)構(gòu)樹(shù)的翻譯模型是合適的,但由于依存樹(shù)的每一個(gè)節(jié)點(diǎn)都是句子中的一個(gè)詞,因此這個(gè)規(guī)定對(duì)于依存樹(shù)來(lái)說(shuō)就太嚴(yán)格了,如圖12所示。
圖12 包含所有子節(jié)點(diǎn)的依存到串規(guī)則抽取示例
在這個(gè)例子中,如果根節(jié)點(diǎn)“舉行”帶上其所有子節(jié)點(diǎn)作為一條規(guī)則,那么這樣的規(guī)則只能翻譯類(lèi)似“*世界杯*在*成功*舉行*”這樣的句子,可以看到,這樣的規(guī)則過(guò)于具體,泛化能力太差,很難匹配到實(shí)際的句子。
我們?cè)?007年提出的模型[28]采用了基于依存樹(shù)杈(treelet)建模的方法,也就是不要求每個(gè)非葉子節(jié)點(diǎn)都必須帶上其子節(jié)點(diǎn),只要是依存樹(shù)上任何一個(gè)聯(lián)通子圖都可以用于建模,如圖13所示。
圖13 依存樹(shù)杈到串規(guī)則抽取示例
這種模型的好處是非常靈活,但帶來(lái)的問(wèn)題是規(guī)則之間的組合形式會(huì)變得非常復(fù)雜,不同的規(guī)則組合后譯文如何排序沒(méi)有合理的描述方法,另外一條規(guī)則的譯文內(nèi)部會(huì)形成多個(gè)間隔(gap),而這些間隔的填充任意性太強(qiáng),也無(wú)法在模型中進(jìn)行準(zhǔn)確的刻畫(huà),這都大大影響了翻譯的效果。
我們最近提出的依存到串模型[29],依據(jù)以下兩個(gè)原則提取規(guī)則。
(1) 每條規(guī)則只有一個(gè)層次,也就是說(shuō)規(guī)則沒(méi)有嵌套結(jié)構(gòu);
(2) 提取規(guī)則時(shí)根節(jié)點(diǎn)的所有子節(jié)點(diǎn)都必須出現(xiàn)在規(guī)則中,這一點(diǎn)明顯區(qū)別于基于依存樹(shù)杈的模型。
提取初始規(guī)則后,我們還需要對(duì)每一條初始規(guī)則進(jìn)行泛化。每條初始規(guī)則的節(jié)點(diǎn)分為三類(lèi): 根節(jié)點(diǎn)、帶結(jié)構(gòu)的葉節(jié)點(diǎn)、不帶結(jié)構(gòu)的葉節(jié)點(diǎn),對(duì)這三類(lèi)節(jié)點(diǎn)可以分別用詞性標(biāo)記進(jìn)行泛化,一共可以組合出八類(lèi)泛化規(guī)則。
采用前面的例子給出規(guī)則提取過(guò)程,如圖14所示,我們把方框中的樹(shù)片段結(jié)構(gòu)提取出一條規(guī)則。
圖14 抽取帶詞性標(biāo)記的依存到串規(guī)則的一個(gè)翻譯實(shí)例
對(duì)這條規(guī)則中的三類(lèi)節(jié)點(diǎn)進(jìn)行泛化以后,我們可以得到八條規(guī)則,如圖15所示。
圖15 依存到串規(guī)則的抽取和泛化示例注圖中帶下劃線的節(jié)點(diǎn)表示該節(jié)點(diǎn)在匹配時(shí)不能被擴(kuò)展
實(shí)驗(yàn)表明,我們采用這種依存到串翻譯模型實(shí)現(xiàn)的機(jī)器翻譯系統(tǒng)效果非常好,性能超過(guò)了層次短語(yǔ)模型[29]。
在最大熵括號(hào)轉(zhuǎn)錄語(yǔ)法模型方面,熊德意博士在本研究組畢業(yè)后,在新加坡I2R研究所后繼續(xù)在該模型基礎(chǔ)上做了一系列改進(jìn)工作[19-22]。ACM Computing Surveys上一篇機(jī)器翻譯綜述也引用了這項(xiàng)工作[23]。
樹(shù)到串翻譯模型我們最早發(fā)表在COLING-ACL2006上[2],該論文獲得了大會(huì)頒發(fā)的Meritorious Asian NLP Paper Award。國(guó)際上與我們這項(xiàng)工作相關(guān)的研究有: 賓州大學(xué)Liang Huang比我們稍晚提出了與我們非常類(lèi)似的模型[8];新加坡I2R研究所Jun Sun等人將樹(shù)到串模型擴(kuò)展為不連續(xù)的樹(shù)序列對(duì)齊形式[12];新加坡I2R研究所Hui Zhang等人對(duì)樹(shù)到串規(guī)則匹配的索引結(jié)構(gòu)進(jìn)行了改進(jìn)[13];微軟亞洲研究院Dongdong Zhang改進(jìn)了我們的調(diào)序方法[14];IBM的Bing Zhao在我們的工作基礎(chǔ)上提出放寬樹(shù)到串規(guī)則匹配的約束條件來(lái)改進(jìn)翻譯的效果[15];南加州大學(xué)Liang Huang和本研究組Haitao Mi在EMNLP2010提出了一種高效的樹(shù)到串增量式解碼算法[7];東京大學(xué)XianchaoWu等人在ACL2010上發(fā)表論文[30],在一種更復(fù)雜的語(yǔ)法形式HPSG下實(shí)現(xiàn)了更高精度的樹(shù)到串規(guī)則提取,等等。
我們提出的基于森林的翻譯方法[3]是首次將句法壓縮森林應(yīng)用在統(tǒng)計(jì)機(jī)器翻譯中,這一做法后來(lái)在統(tǒng)計(jì)機(jī)器翻譯中被普遍采用。與之相關(guān)的工作有: 新加坡I2R研究所Hui Zhang等人對(duì)我們的工作進(jìn)行了擴(kuò)展,將句法森林應(yīng)用到樹(shù)序列到串的翻譯模型[11];本研究組Yang Liu等人將句法森林用于樹(shù)到樹(shù)模型[6];約翰霍普金斯大學(xué)(JHU)Zhifei Li等人為翻譯森林結(jié)構(gòu)及其上面定義的運(yùn)算提供了更加理論化的形式描述[16];南加州大學(xué)信息科學(xué)研究所USC-ISI的John DeNero等人將翻譯森林應(yīng)用于系統(tǒng)融合[17];Google的Kumar等人將詞格和翻譯森林應(yīng)用于最小錯(cuò)誤率訓(xùn)練和最小貝葉斯風(fēng)險(xiǎn)解碼[18]。其中,前兩項(xiàng)工作是對(duì)我們的工作的直接擴(kuò)展,后三項(xiàng)工作主要是建立在目標(biāo)語(yǔ)言端的翻譯森林基礎(chǔ)上,與我們?cè)谠凑Z(yǔ)言端句法森林的工作略有不同,但采用森林作為機(jī)器翻譯中的數(shù)據(jù)表示形式,也是受到了我們的工作的啟發(fā)。用句法森林取代單一句法樹(shù)作為機(jī)器翻譯的中間數(shù)據(jù)表示形式已經(jīng)成為研究界經(jīng)常采用的做法。
在統(tǒng)計(jì)機(jī)器翻譯中較早引入依存樹(shù)的是微軟研究院Quirk等人的工作[31],由于他們的工作非常復(fù)雜,其他研究者很難跟進(jìn)。我們?cè)?007年提出了另一個(gè)簡(jiǎn)單的基于依存樹(shù)杈(treelet)的模型[28],這個(gè)模型的性能也不是很理想。近年來(lái)統(tǒng)計(jì)機(jī)器翻譯領(lǐng)域利用依存樹(shù)信息比較有影響的工作是Libin Shen的工作[32],他是在層次短語(yǔ)模型的基礎(chǔ)上加上了目標(biāo)段的依存樹(shù)信息。雖然這個(gè)工作比較成功,但它不是一個(gè)單純的模型,而是在層次短語(yǔ)模型上的一個(gè)擴(kuò)展,并且是在一個(gè)依存語(yǔ)言模型的輔助下才能取得較好的效果。另一方面,這個(gè)模型利用的是目標(biāo)端的依存樹(shù)信息,而不是源端的依存樹(shù)信息。這與我們的工作也有較大差別。
本文介紹了近年來(lái)我們提出的多個(gè)基于句法的統(tǒng)計(jì)機(jī)器翻譯模型以及相關(guān)的多種機(jī)器翻譯方法。其中一些工作,如最大熵括號(hào)轉(zhuǎn)錄語(yǔ)法模型、樹(shù)到串模型、基于森林的機(jī)器翻譯方法等,都已經(jīng)產(chǎn)生了較大影響。依存到串模型是我們最近提出的新模型,該模型簡(jiǎn)潔而且效果很好,我們認(rèn)為還有較大潛力,有可能成為通向基于語(yǔ)義的翻譯模型的一個(gè)橋梁。
另外在統(tǒng)計(jì)機(jī)器翻譯中起重要作用的一個(gè)模型是語(yǔ)言模型。目前在統(tǒng)計(jì)機(jī)器翻譯中采用的主流語(yǔ)言模型還是N-gram模型。雖然N-gram模型簡(jiǎn)單并且效果不錯(cuò),但畢竟該模型無(wú)法考慮句子的結(jié)構(gòu)信息,無(wú)法評(píng)價(jià)一個(gè)句子是否是一個(gè)語(yǔ)言學(xué)上合法的句子,其缺陷是非常明顯的。目前在這方面已經(jīng)有了一些工作,但都還沒(méi)有普遍采用。我們期待在這方面能有進(jìn)一步的進(jìn)展。
本文是對(duì)本研究組多年來(lái)部分工作的一個(gè)綜述[1-6],所有這些工作都是在這些文章上共同署名的我的同事、學(xué)生和我共同完成的,其中做出主要貢獻(xiàn)的幾個(gè)人包括: 劉洋、熊德意、米海濤、黃亮、謝軍、呂雅娟。雖然他們?cè)谶@篇綜述文章上不作為共同作者署名,但我必須向他們表示衷心的感謝。
[1] Deyi Xiong, Qun Liu, Shouxun Lin. Maximum Entropy Based Phrase Reordering Model for Statistical Machine Translation[C]//Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL (COLING-ACL2006), Sydney, Australia, July 17-21. 2006: 521-528.
[2] Yang Liu, Qun Liu, Shouxun Lin. Tree-to-String Alignment Template for Statistical Machine Translation[C]//Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL (COLING-ACL2006), Sydney, Australia, July 17-21. 2006: 609-616.
[3] Haitao Mi, Liang Huang, Qun Liu. Forest-Based Translation[C]//Proceedings of ACL-08:HLT, Columbus, Ohio, USA. 2008: 192-199.
[4] Yang Liu, Qun Liu. Joint Parsing and Translation[C]//Proceedings of COLING 2010, Beijing, August, 2010 .
[5] Yang Liu, Yun Huang, Qun Liu, et al. Forest-to-String Statistical Translation Rules[C]//ACL2007, Prague, Czech,June 2007 .
[6] Yang Liu, Yajuan Lü, Qun Liu. Improving Tree-to-Tree Translation with Packed Forests[C]//Proceedings of ACL-IJCNLP 2009. Singapore, August. 2009: 558-566.
[7] Liang Huang, Haitao Mi. Efficient Incremental Decoding for Tree-to-String Translation[C]//Proceedings of EMNLP 2010, Boston, USA, October.
[8] Liang Huang, Kevin Knight, Aravind Joshi. Statistical Syntax-Directed Translation with Extended Domain of Locality[C]//Proceedings of AMTA, 2006.
[9] Min Zhang, Hongfei Jiang, Aiti Aw, et al. A Tree Sequence Alignment-based Tree-to-Tree Translation Model[C]//ACL08:HLT.
[10] Min Zhang, Hongfei Jiang, Ai Ti Aw, et al. 2007. A Tree-to-Tree Alignment-based Model for Statistical Machine Translation[C]//MT-Summit-07. 535-542.
[11] Hui Zhang, Min Zhang, Haizhou Li, et al. Forest-based Tree Sequence to String Translation Model[C]//The 47th Annual Meeting of Association for Computational Linguistics and the 4th International Joint Conference of Natural Language Processing (full paper, ACL-IJCNLP 2009), August 2-7 2009, Singapore.
[12] Jun Sun, Min Zhang, Chew Lim Tan. A non-contiguous Tree Sequence Alignment-based Model for Statistical Machine Translation[C]//Proceedings of ACL-IJCNLP 2009.
[13] Hui Zhang, Min Zhang, Haizhou Li, et al. Fast Translation Rule Matching for Syntax-based Statistical Machine Translation[C]//EMNLP 2009,August 6-7 2009, Singapore.
[14] Dongdong Zhang, Mu Li, Chi-Ho Li, et al. Phrase reordering model integrating syntactic knowledge for SMT[C]//EMNLP-CoNLL-2007: Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Prague, Czech Republic; 2007: 533-540.
[15] Bing Zhao, Yaser Al-Onaizan, Generalizing local and non-local word-reordering patterns for syntax-based machine translation[C]//EMNLP 2008: Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing, 25-27 October 2008, Honolulu, Hawaii, USA 2008: 572-581.
[16] Zhifei Li, Jason Eisner, First- and Second-Order Expectation Semirings with Applications to Minimum-Risk Training on Translation Forests[C]//EMNLP2009.
[17] John DeNero, David Chiang, Kevin Knight. Fast Consensus Decoding over Translation Forests[C]//ACL-IJCNLP 2009.
[18] Shankar Kumar, Wolfgang Macherey, Chris Dyer, et al. Efficient Minimum Error Rate Training and Minimum Bayes-Risk Decoding for Translation Hypergraphs and Lattices[C]//ACL-IJCNLP2009.
[19] Deyi Xiong, Min Zhang, Aiti Aw, et al. Refinements in BTG-based Statistical Machine Translation[C]//IJCNLP2008.
[20] Deyi Xiong, Min Zhang, Ai Ti Aw. Linguistically Annotated BTG for Statistical Machine Translation[C]//Proceedings of COLING 2008.
[21] Deyi Xiong, Min Zhang, Ai Ti Aw, et al. A Linguistically Annotated Reordering Model for BTG-based Statistical Machine Translation[C]//Proceedings of ACL 2008.
[22] Deyi Xiong, Min Zhang, Aiti Aw et al. A Syntax-Driven Bracketing Model for Phrase-Based Translation[C]//Preceedings of ACL-IJCNLP 2009.
[23] Adam Lopez. Statistical machine translation[J]. ACM Computing Surveys, 2008, 40(3).
[24] Xianchao Wu, Takuya Matsuzaki, Jun’ichi Tsujii. Fine-grained Tree-to-String Translation Rule Extraction[C]//Proceedings of ACL 2010. Uppsala, Sweden, 2010: 325-334.
[25] Dekai Wu. A polynomial-time algorithm for statistical machine translation[C]//ACL-96: 34th Annual Meeting of the Assoc. for Computational Linguistics. Santa Cruz, CA: Jun. 1996.
[26] Liang Huang, David Chiang. Better k-best Parsing[C]//Proceedings of the 9th International Workshop on Parsing Technologies, Vancouver, B.C, October 2005.
[27] Michael John Collins, Mitchell P. Marcus. Head-driven statistical models for natural language parsing[J]. Journal of Computational Linguistics, 2003, 29(4).
[28] Deyi Xiong, Qun Liu, Shouxun Lin. A Dependency Treelet String Correspondence Model for Statistical Machine Translation[C]//Second Workshop on Statistical Machine Translation, Prague, Czech, June 2007.
[29] Jun Xie, Haitao Mi, Qun Liu. A novel dependency-to-string model for statistical machine translation[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing, July 27-31, 2011, Edinburgh, Scotland, UK.
[30] Wu, Xianchao and Matsuzaki, Takuya and Tsujii, Jun’ichi. Fine-Grained Tree-to-String Translation Rule Extraction[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, Uppsala, Sweden, 2010: 325-334.
[31] Chris Quirk, Arul Menezes, Colin Cherry. Dependency treelet translation: syntactically informed phrasal SMT[C]//Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics, Stroudsburg, PA, USA.
[32] Libin Shen, Jinxi Xu, Ralph M. Weischedel: String-to-Dependency Statistical Machine Translation[J]. Computational Linguistics, 36(4): 649-671.
[33] Dekai Wu. Grammarless Extraction of Phrasal Translation Examples from Parallel Texts[C]//TMI-95, Sixth International Conference on Theoretical and Methodological Issues in Machine Translation, v2. Leuven, Belgium, 1995: 354-372.