基于句法的統(tǒng)計(jì)機(jī)器翻譯模型與方法

2011-06-28 07:33:36劉群

中文信息學(xué)報(bào) 2011年6期

劉群

(中國(guó)科學(xué)院計(jì)算技術(shù)研究所中國(guó)科學(xué)院智能信息處理重點(diǎn)實(shí)驗(yàn)室,北京 100190)

1 引言

自從IBM在20世紀(jì)90年代初正式提出統(tǒng)計(jì)機(jī)器翻譯方法以來(lái)，統(tǒng)計(jì)機(jī)器翻譯的發(fā)展經(jīng)歷了一個(gè)從沉寂到復(fù)蘇再到迅猛發(fā)展的過(guò)程。在2003年前后，基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯方法已經(jīng)成熟，并超越了早前IBM提出的基于詞的方法。但基于短語(yǔ)的方法缺陷也是很明顯的：泛化能力差，短語(yǔ)中的詞不能被相近的詞替換；調(diào)序能力差，短語(yǔ)內(nèi)調(diào)序還可以，但短語(yǔ)間調(diào)序和更遠(yuǎn)距離調(diào)序效果都不好。因此，研究者普遍意識(shí)到需要針對(duì)句子結(jié)構(gòu)進(jìn)行直接建模，才有可能解決上述問(wèn)題。為此出現(xiàn)了各種各樣的基于句法的統(tǒng)計(jì)機(jī)器翻譯方法。

基于句法的統(tǒng)計(jì)機(jī)器翻譯模型可以分為兩大類(lèi)：第一大類(lèi)是形式上基于句法的模型。這類(lèi)模型利用了某種形式的句子結(jié)構(gòu)，但這種結(jié)構(gòu)是通過(guò)語(yǔ)料庫(kù)學(xué)習(xí)自動(dòng)獲得的，而不是語(yǔ)言學(xué)意義上的句法結(jié)構(gòu)；第二大類(lèi)是語(yǔ)言學(xué)上基于句法的模型，這類(lèi)模型需要利用語(yǔ)言學(xué)意義上的句法結(jié)構(gòu)。第二大類(lèi)又可分為三小類(lèi)：第一小類(lèi)是樹(shù)到串模型，這類(lèi)模型只在源語(yǔ)言端利用語(yǔ)言學(xué)意義上的句法結(jié)構(gòu)；第二小類(lèi)是串到樹(shù)模型，這類(lèi)模型只在目標(biāo)語(yǔ)言端利用語(yǔ)言學(xué)意義上的句法結(jié)構(gòu)；第三小類(lèi)是樹(shù)到樹(shù)模型，要在源語(yǔ)言端和目標(biāo)語(yǔ)言端同時(shí)利用語(yǔ)言學(xué)意義上的句法結(jié)構(gòu)。

我們從2006年開(kāi)始，在基于句法的統(tǒng)計(jì)機(jī)器翻譯模型方法方面開(kāi)展了一系列深入的研究工作，提出了三個(gè)不同形式的翻譯模型：最大熵括號(hào)轉(zhuǎn)錄語(yǔ)法模型、樹(shù)到串模型*為了簡(jiǎn)明：從此以下，“樹(shù)到串模型”特指“短語(yǔ)結(jié)構(gòu)樹(shù)到串模型”。和依存到串模型。其中，對(duì)于樹(shù)到串模型，根據(jù)解碼時(shí)輸入形式的不同，我們又提出了三種不同形式的翻譯方法：基于樹(shù)的翻譯方法、基于森林的翻譯方法和基于串的翻譯方法(句法分析與解碼一體化方法)，這三種翻譯方法由簡(jiǎn)單到復(fù)雜，時(shí)空復(fù)雜度逐漸增加，性能越來(lái)越高。

在基于短語(yǔ)的翻譯模型中，翻譯知識(shí)的基本表示形式是雙語(yǔ)短語(yǔ)表，也就是一個(gè)源語(yǔ)言短語(yǔ)翻譯成一個(gè)目標(biāo)語(yǔ)言短語(yǔ)，如表1所示：

表1 雙語(yǔ)短語(yǔ)示例

這種雙語(yǔ)短語(yǔ)無(wú)法表現(xiàn)句子的內(nèi)部結(jié)構(gòu)。要引入句子的內(nèi)部結(jié)構(gòu)，最直觀的做法就是引入上下文無(wú)關(guān)規(guī)則，在機(jī)器翻譯中，就是需要引入同步上下文無(wú)關(guān)語(yǔ)法，如表2所示：

表2 同步上下文無(wú)關(guān)語(yǔ)法規(guī)則示例

由于同步上下文無(wú)關(guān)語(yǔ)法形式較為復(fù)雜，而且訓(xùn)練這類(lèi)模型需要雙語(yǔ)句子結(jié)構(gòu)對(duì)齊的語(yǔ)料庫(kù)，在實(shí)現(xiàn)上面臨很多問(wèn)題，目前還達(dá)不到預(yù)期的效果。因此目前研究較多的各種基于句法的統(tǒng)計(jì)翻譯模型都采用同步上下文無(wú)關(guān)語(yǔ)法的某種簡(jiǎn)化形式。

2 基于最大熵括號(hào)轉(zhuǎn)錄語(yǔ)法的翻譯模型(最大熵括號(hào)轉(zhuǎn)錄語(yǔ)法模型)

Dekai Wu提出了一種簡(jiǎn)化的同步上下文無(wú)關(guān)語(yǔ)法——反向轉(zhuǎn)錄語(yǔ)法(Inversion Transduction Grammar，ITG)[33]，這是同步上下文無(wú)關(guān)語(yǔ)法的二叉化形式，類(lèi)似于喬姆斯基范式是上下文無(wú)關(guān)語(yǔ)法的二叉化形式。ITG只有三種類(lèi)型的規(guī)則，如表3所示：

在ITG基礎(chǔ)上建立統(tǒng)計(jì)翻譯模型，還會(huì)面臨一個(gè)問(wèn)題，就是如何獲得各個(gè)短語(yǔ)的短語(yǔ)標(biāo)記。為了回避這個(gè)問(wèn)題，Dekai Wu對(duì)ITG進(jìn)一步簡(jiǎn)化成了括號(hào)轉(zhuǎn)錄語(yǔ)法(Bracketing Transduction Grammar，BTG)[25]。BTG就是在ITG中只定義一個(gè)標(biāo)記(通常用X表示)。于是，在BTG中，上述三類(lèi)規(guī)則簡(jiǎn)化為表4：

表3 反向轉(zhuǎn)錄語(yǔ)法(ITG)的規(guī)則類(lèi)型

表4 括號(hào)轉(zhuǎn)錄語(yǔ)法(BTG)的規(guī)則類(lèi)型

實(shí)際上，由于只有唯一的短語(yǔ)標(biāo)記X，所以這里的兩類(lèi)短語(yǔ)規(guī)則就是兩條規(guī)則，并無(wú)其他形式。這兩條短語(yǔ)規(guī)則分別表示兩個(gè)小短語(yǔ)在組合成一個(gè)大短語(yǔ)的情況下，翻譯時(shí)是否要交換位置。Dekai Wu 1996提出了一種用于統(tǒng)計(jì)機(jī)器翻譯的隨機(jī)括號(hào)轉(zhuǎn)錄語(yǔ)法模型(SBTG)，在這個(gè)模型中，BTG的兩條短語(yǔ)規(guī)則被賦予不同的概率。可以想象，這個(gè)模型的描述能力太弱，很難準(zhǔn)確刻畫(huà)短語(yǔ)的語(yǔ)序調(diào)整規(guī)律。

針對(duì)SBTG描述能力弱的確定，我們?cè)赟BTG的基礎(chǔ)上引入最大熵模型[1]，采用最大熵方法來(lái)計(jì)算兩個(gè)短語(yǔ)組合翻譯時(shí)順序或逆序的概率，我們稱該模型為最大熵括號(hào)轉(zhuǎn)錄語(yǔ)法模型(MEBTG)，如圖1所示。

在MEBTG模型中，任何兩個(gè)短語(yǔ)組合時(shí)，順序翻譯和逆序翻譯的概率之和為1，具體這兩個(gè)概率的計(jì)算由一個(gè)最大熵模型來(lái)決定，這個(gè)最大熵模型的特征來(lái)自于這兩個(gè)短語(yǔ)本身和這兩個(gè)短語(yǔ)出現(xiàn)的上下文。MEBTG模型的訓(xùn)練也很簡(jiǎn)單。從詞語(yǔ)對(duì)齊的雙語(yǔ)語(yǔ)料庫(kù)中即可獲得大規(guī)模的訓(xùn)練數(shù)據(jù)，無(wú)需任何額外的人工標(biāo)注。

MEBTG模型是一種形式上基于句法的模型。該模型一方面在短語(yǔ)模型的基礎(chǔ)上引入了二叉化的形式化句法結(jié)構(gòu)，克服了短語(yǔ)模型的固有缺陷，又可以跟短語(yǔ)模型很好地兼容，同時(shí)與SBTG模型相比又大大增強(qiáng)了模型的區(qū)分能力，取得了很好的效果，模型性能超過(guò)了基于短語(yǔ)的模型。我們基于該模型開(kāi)發(fā)的一個(gè)系統(tǒng)，在NIST2006評(píng)測(cè)中作為一個(gè)對(duì)比系統(tǒng)取得了與第四名主系統(tǒng)完全相同的成績(jī)。

圖1 最大熵括號(hào)轉(zhuǎn)錄語(yǔ)法模型中規(guī)則概率示例

3 基于源語(yǔ)言短語(yǔ)結(jié)構(gòu)樹(shù)的翻譯模型(樹(shù)到串模型)

樹(shù)到串模型[2]建立在樹(shù)到串規(guī)則的基礎(chǔ)上，樹(shù)到串規(guī)則也可以看作是同步短語(yǔ)結(jié)構(gòu)語(yǔ)法規(guī)則的一種變化形式：其源語(yǔ)言端是一棵句法樹(shù)片段(對(duì)應(yīng)多條上下文無(wú)關(guān)語(yǔ)法規(guī)則)，目標(biāo)語(yǔ)言端是一個(gè)詞語(yǔ)和變量組成的序列，目標(biāo)端的每個(gè)變量對(duì)應(yīng)于源端句法樹(shù)片段的某個(gè)非終結(jié)符葉子節(jié)點(diǎn)，如圖2所示：

圖2 樹(shù)到串規(guī)則示例

樹(shù)到串模型建立在源語(yǔ)言端句法分析和雙語(yǔ)詞語(yǔ)對(duì)齊的基礎(chǔ)上，要求對(duì)雙語(yǔ)語(yǔ)料庫(kù)的源語(yǔ)言進(jìn)行完整的句法分析，并進(jìn)行雙語(yǔ)句子的詞語(yǔ)對(duì)齊。在這樣處理以后的語(yǔ)料庫(kù)上，就可以抽取出所有可能的規(guī)則，并統(tǒng)計(jì)出每條規(guī)則出現(xiàn)的次數(shù)。模型的定義采用與短語(yǔ)翻譯模型類(lèi)似的方法，通過(guò)對(duì)數(shù)線性模型將多個(gè)概率進(jìn)行對(duì)數(shù)線性疊加而得到。

樹(shù)到串模型可以有效地利用源語(yǔ)言端的句法結(jié)構(gòu)信息，在句法分析正確的情況下，對(duì)于翻譯中的長(zhǎng)距離調(diào)序問(wèn)題可以取得較好的效果。

但簡(jiǎn)單采用樹(shù)到串模型效果并不太好，一個(gè)主要的問(wèn)題是樹(shù)到串模型無(wú)法兼容非句法短語(yǔ)(不具有完整句法結(jié)構(gòu)的短語(yǔ))。實(shí)驗(yàn)表明，在短語(yǔ)模型中，非句法短語(yǔ)的作用是非常明顯的，如果刪掉所有非句法短語(yǔ)，短語(yǔ)模型的性能將大大下降。在樹(shù)到串模型中，所有規(guī)則的源語(yǔ)言端都是一棵完整的句法樹(shù)片段，由此導(dǎo)致無(wú)法引入非句法短語(yǔ)，這會(huì)導(dǎo)致單純的樹(shù)到串模型的實(shí)際性能低于短語(yǔ)模型。解決這一問(wèn)題的辦法有多種[2，5]，最簡(jiǎn)單的辦法是[2]把非句法短語(yǔ)用在樹(shù)到串模型翻譯結(jié)果的后處理中，替換掉相應(yīng)源語(yǔ)言短語(yǔ)的譯文。更復(fù)雜一些的方法[5]是引入樹(shù)序列到串(tree sequence to string)翻譯規(guī)則。后面介紹的基于森林的翻譯方法也可以一定程度上緩解這一問(wèn)題。

3.1 基于樹(shù)的翻譯方法

利用樹(shù)到串模型進(jìn)行翻譯解碼，最簡(jiǎn)單的做法就是首先對(duì)源語(yǔ)言句子進(jìn)行句法分析，然后自底向上對(duì)句法樹(shù)上的每個(gè)節(jié)點(diǎn)進(jìn)行規(guī)則匹配，記錄所有可能的翻譯結(jié)果，一直到根節(jié)點(diǎn)處理結(jié)束，就得到整個(gè)句子的翻譯結(jié)果。當(dāng)然每個(gè)節(jié)點(diǎn)上都需要進(jìn)行剪枝。這種翻譯方法稱為基于樹(shù)的翻譯方法[2]。

基于樹(shù)的翻譯方法簡(jiǎn)單直觀，在不考慮句法分析的情況下，翻譯解碼速度極快，時(shí)間復(fù)雜度正比于句子長(zhǎng)度。加上源語(yǔ)言句法分析的時(shí)間，復(fù)雜度是句子長(zhǎng)度的三次方。

我們采用基于樹(shù)的翻譯方法，結(jié)合非句法短語(yǔ)進(jìn)行后處理，取得了較好的效果。基于該方法開(kāi)發(fā)的機(jī)器翻譯系統(tǒng)，在NIST2006評(píng)測(cè)中作為我們的基本系統(tǒng)取得了第五名的成績(jī)。

但這種方法的缺陷也是很明顯的，由于句法分析正確率不高，句法分析錯(cuò)誤將傳遞給翻譯解碼，造成翻譯錯(cuò)誤。為解決這一問(wèn)題，我們提出了基于森林的翻譯方法。

3.2 基于森林的翻譯方法

基于樹(shù)的翻譯方法中，句法分析錯(cuò)誤會(huì)傳遞到翻譯解碼節(jié)點(diǎn)，使得翻譯準(zhǔn)確率嚴(yán)重下降。為了克服這一問(wèn)題，直觀的做法是在句法分析過(guò)程輸出多個(gè)最優(yōu)句法分析結(jié)果，并利用這多個(gè)句法分析結(jié)果進(jìn)行句法分析，這種方法稱為K-best方法。

但K-best方法帶來(lái)的機(jī)器翻譯性能提高是很有限的，其原因在于K-best結(jié)果中存在大量的冗余。簡(jiǎn)單地理解，一個(gè)句子中如果有三處歧義，那么互相組合，就會(huì)得到八個(gè)不同的句法分析結(jié)果。實(shí)際上，如果有n處歧義，可以組合得到2n個(gè)。也就是說(shuō)，即使我們?nèi)?024-best的句法分析結(jié)果，花1 024倍的解碼時(shí)間，也只能多考慮10處句法分析歧義。這無(wú)疑是非常大的浪費(fèi)，因?yàn)檫@1024-best個(gè)句法分析產(chǎn)生的句法樹(shù)中，絕大部分樹(shù)片段結(jié)構(gòu)都是重復(fù)的。以圖3為例，這個(gè)句子有兩個(gè)分析結(jié)果，兩個(gè)句法結(jié)構(gòu)樹(shù)上，陰影部分是不同的，其他部分都完全一樣。

為了解決這一問(wèn)題，我們提出了基于森林的機(jī)器翻譯方法[3]。其核心思想，就是在統(tǒng)計(jì)機(jī)器翻譯中引入句法壓縮森林的結(jié)構(gòu)表示形式。圖3所示的兩個(gè)句法分析樹(shù)就可以表示為圖4所示的句法壓縮森林。

圖3 N-best句法樹(shù)的冗余

圖4 句法壓縮森林示例

句法壓縮森林很早就在句法分析中得到應(yīng)用，Liang Huang[26]提出了基于句法壓縮森林的K-best句法分析方法。我們的工作[3]最早把句法壓縮森林用在了統(tǒng)計(jì)機(jī)器翻譯中。

句法壓縮森林的采用，可以在多項(xiàng)式規(guī)模的壓縮森林中，保留指數(shù)級(jí)別的K-best句法分析結(jié)果，使得機(jī)器翻譯的搜索空間大大增加，很大程度上緩解了句法分析錯(cuò)誤帶來(lái)的影響。

圖5給出了采用句法壓縮森林和采用K-best句法分析方法的機(jī)器翻譯系統(tǒng)性能對(duì)比。

圖5 基于森林的解碼和K-best句法樹(shù)解碼性能的比較

可以看到，采用K-best方法，當(dāng)K超過(guò)10以后，機(jī)器翻譯系統(tǒng)的性能隨著平均解碼時(shí)間的增加上升得非常緩慢，而采用句法壓縮森林解碼，翻譯系統(tǒng)的性能隨著平均解碼時(shí)間的增加迅速提高。兩種方法的差別是非常明顯的。

我們可以從另外一個(gè)角度來(lái)看采用句法壓縮森林的優(yōu)勢(shì)。句法壓縮森林是一種非常緊湊的數(shù)據(jù)結(jié)構(gòu)，句法壓縮森林展開(kāi)后得到的句法樹(shù)的數(shù)量，為句法壓縮森林結(jié)點(diǎn)數(shù)的指數(shù)級(jí)別。圖6說(shuō)明了在一個(gè)基于句法壓縮森林的機(jī)器翻譯系統(tǒng)中，如果把句法壓縮森林展開(kāi)成K-best句法樹(shù)序列，那么實(shí)際輸出的評(píng)分最高的機(jī)器翻譯譯文所對(duì)應(yīng)的句法分析樹(shù)，在這個(gè)K-best句法分析樹(shù)序列中的位置。

圖6 解碼器輸出的譯文在K-best句法樹(shù)序列中的分布

從圖中我們可以看到，32%的機(jī)器翻譯譯文對(duì)應(yīng)的句法分析樹(shù)位于100-best以外，20%的機(jī)器翻譯譯文對(duì)應(yīng)的句法分析樹(shù)位于1000-best以外。

3.3 基于串的翻譯方法(句法分析與解碼一體化翻譯方法)

基于森林的翻譯方法使得樹(shù)到串模型的性能有了大幅度提高。但如果我們仔細(xì)分析，還是會(huì)發(fā)現(xiàn)一個(gè)問(wèn)題。在基于樹(shù)和基于森林的翻譯方法中，句法分析和翻譯解碼的過(guò)程是割裂的。這種割裂不僅是指過(guò)程的割裂，而且包括翻譯模型的割裂。源語(yǔ)言的句法分析采用的是獨(dú)立的句法分析器，這個(gè)句法分析器所采用句法分析模型(如詞匯化概率上下文無(wú)關(guān)語(yǔ)法模型[27])通常需要利用一個(gè)人工標(biāo)注的句法樹(shù)庫(kù)訓(xùn)練得到。而翻譯解碼采用的是樹(shù)到串模型，這個(gè)模型是利用雙語(yǔ)對(duì)齊語(yǔ)料庫(kù)得到的。人工標(biāo)注的句法樹(shù)庫(kù)通常規(guī)模較小，一般只有幾萬(wàn)個(gè)句子的規(guī)模，而雙語(yǔ)語(yǔ)料庫(kù)規(guī)模大得多，在漢英機(jī)器翻譯研究中通常達(dá)到數(shù)百萬(wàn)句子對(duì)的規(guī)模。這兩個(gè)模型的訓(xùn)練語(yǔ)料不僅規(guī)模上嚴(yán)重不匹配，實(shí)際上所涉及的領(lǐng)域通常也是差別很大的，也就是說(shuō)，通過(guò)句法分析模型得到的高概率句法樹(shù)，在樹(shù)到串翻譯模型中，概率可能很低，反之亦然。這就會(huì)使得我們?cè)诰浞ǚ治鲋兴阉鞯降母吒怕示浞?shù)的實(shí)際翻譯效果并不好，反之，在樹(shù)到串翻譯模型中高概率的翻譯結(jié)果對(duì)應(yīng)的句法樹(shù)，在句法分析中因?yàn)楦怕侍陀炙阉鞑坏健?/p>

為了解決這一問(wèn)題，我們提出了句法分析和解碼一體化的翻譯方法[4]。其基本思想是，樹(shù)到串翻譯規(guī)則的源語(yǔ)言端是一棵句法樹(shù)片段，可以把這棵句法樹(shù)片段理解成一條句法分析規(guī)則，可以把翻譯規(guī)則的概率就理解為這條句法分析規(guī)則的概率，這樣，我們就得到了一部可以用于句法分析的概率語(yǔ)法(嚴(yán)格的說(shuō)，是概率樹(shù)替換語(yǔ)法)。在翻譯解碼過(guò)程中，我們并不采用獨(dú)立的句法分析器，而是直接利用這部概率樹(shù)替換語(yǔ)法進(jìn)行句法分析，句法分析的概率就是翻譯的概率，這樣就避免了句法分析和翻譯解碼的概率不一致問(wèn)題，甚至可以在句法分析的同時(shí)就完成翻譯解碼。

在這種翻譯方法中，翻譯解碼的起點(diǎn)既不是句法分析的1-best樹(shù)，也不是句法壓縮森林，而是源語(yǔ)言句子本身，在句法分析的同時(shí)完成翻譯解碼，所以我們又把這種方法稱為基于串的翻譯方法。

假設(shè)我們用兩個(gè)圓形分別表示句法分析模型和樹(shù)到串翻譯模型的概率分布，其中顏色越深表示搜索空間中該處的概率越大。通常情況下，由于這兩個(gè)模型來(lái)自于不同的訓(xùn)練數(shù)據(jù)，因此二者概率分布通常并不一致，如圖7所示：

圖7 句法分析模型和樹(shù)到串翻譯模型的概率分布差異

在基于樹(shù)的翻譯方法中，句法分析得到的是句法分析模型中概率最大的點(diǎn)(不考慮搜索誤差)，而這個(gè)點(diǎn)在樹(shù)到串翻譯模型中并不是概率最大的點(diǎn)(圖8)。

圖8 基于樹(shù)的翻譯方法中句法分析與翻譯解碼的搜索空間比較

而在基于森林的方法中，句法分析得到的森林可以覆蓋句法分析模型中概率最大的一片區(qū)域，因此相對(duì)于基于樹(shù)的翻譯方法，可以找到更接近樹(shù)到串模型中最優(yōu)位置的點(diǎn)(圖9)。

圖9 基于森林的翻譯方法中句法分析與翻譯解碼的搜索空間比較

而在句法分析與解碼一體化方法中，句法分析模型與樹(shù)到串翻譯模型共享相同的概率空間，句法分析搜索得到的最優(yōu)點(diǎn)就是翻譯模型的最優(yōu)點(diǎn)(圖10)。

圖10 基于串的翻譯方法中句法分析與翻譯解碼的搜索空間比較

實(shí)驗(yàn)表明，采用基于樹(shù)的方法、基于森林的方法和基于串的方法，翻譯系統(tǒng)的性能可以穩(wěn)步提高，如圖11所示：

圖11 樹(shù)到串模型的三種解碼方法的性能對(duì)比

不過(guò)，這三種方法的搜索空間也是逐步增大的，因此帶來(lái)的時(shí)空消耗也增長(zhǎng)非常明顯。特別是句法分析和翻譯解碼一體化方法，由于得到的規(guī)則數(shù)量遠(yuǎn)遠(yuǎn)大于傳統(tǒng)的基于小規(guī)模樹(shù)庫(kù)訓(xùn)練出來(lái)的句法分析器，因此解碼搜索空間非常大而且解碼時(shí)間也會(huì)大大延長(zhǎng)。

4 基于源語(yǔ)言依存樹(shù)的翻譯模型(依存到串模型)

依存樹(shù)是一種有效的句法結(jié)構(gòu)表現(xiàn)形式，與短語(yǔ)結(jié)構(gòu)樹(shù)相比，依存樹(shù)具有表達(dá)簡(jiǎn)潔、冗余信息少、分析速度快等優(yōu)點(diǎn)，因此在自然語(yǔ)言處理的很多問(wèn)題中得到了成功的應(yīng)用。但在統(tǒng)計(jì)機(jī)器翻譯中，基于依存樹(shù)的模型一直不是很成功。

在基于短語(yǔ)結(jié)構(gòu)樹(shù)的翻譯模型中，我們所定義的規(guī)則的源語(yǔ)言端都要求是完整的句法樹(shù)片段，也就是所每一個(gè)節(jié)點(diǎn)或者作為葉節(jié)點(diǎn)出現(xiàn)，或者必須帶上其所有的子節(jié)點(diǎn)出現(xiàn)。這對(duì)于基于短語(yǔ)結(jié)構(gòu)樹(shù)的翻譯模型是合適的，但由于依存樹(shù)的每一個(gè)節(jié)點(diǎn)都是句子中的一個(gè)詞，因此這個(gè)規(guī)定對(duì)于依存樹(shù)來(lái)說(shuō)就太嚴(yán)格了，如圖12所示。

圖12 包含所有子節(jié)點(diǎn)的依存到串規(guī)則抽取示例

在這個(gè)例子中，如果根節(jié)點(diǎn)“舉行”帶上其所有子節(jié)點(diǎn)作為一條規(guī)則，那么這樣的規(guī)則只能翻譯類(lèi)似“*世界杯*在*成功*舉行*”這樣的句子，可以看到，這樣的規(guī)則過(guò)于具體，泛化能力太差，很難匹配到實(shí)際的句子。

我們?cè)?007年提出的模型[28]采用了基于依存樹(shù)杈(treelet)建模的方法，也就是不要求每個(gè)非葉子節(jié)點(diǎn)都必須帶上其子節(jié)點(diǎn)，只要是依存樹(shù)上任何一個(gè)聯(lián)通子圖都可以用于建模，如圖13所示。

圖13 依存樹(shù)杈到串規(guī)則抽取示例

這種模型的好處是非常靈活，但帶來(lái)的問(wèn)題是規(guī)則之間的組合形式會(huì)變得非常復(fù)雜，不同的規(guī)則組合后譯文如何排序沒(méi)有合理的描述方法，另外一條規(guī)則的譯文內(nèi)部會(huì)形成多個(gè)間隔(gap)，而這些間隔的填充任意性太強(qiáng)，也無(wú)法在模型中進(jìn)行準(zhǔn)確的刻畫(huà)，這都大大影響了翻譯的效果。

我們最近提出的依存到串模型[29]，依據(jù)以下兩個(gè)原則提取規(guī)則。

(1) 每條規(guī)則只有一個(gè)層次，也就是說(shuō)規(guī)則沒(méi)有嵌套結(jié)構(gòu)；

(2) 提取規(guī)則時(shí)根節(jié)點(diǎn)的所有子節(jié)點(diǎn)都必須出現(xiàn)在規(guī)則中，這一點(diǎn)明顯區(qū)別于基于依存樹(shù)杈的模型。

提取初始規(guī)則后，我們還需要對(duì)每一條初始規(guī)則進(jìn)行泛化。每條初始規(guī)則的節(jié)點(diǎn)分為三類(lèi)：根節(jié)點(diǎn)、帶結(jié)構(gòu)的葉節(jié)點(diǎn)、不帶結(jié)構(gòu)的葉節(jié)點(diǎn)，對(duì)這三類(lèi)節(jié)點(diǎn)可以分別用詞性標(biāo)記進(jìn)行泛化，一共可以組合出八類(lèi)泛化規(guī)則。

采用前面的例子給出規(guī)則提取過(guò)程，如圖14所示，我們把方框中的樹(shù)片段結(jié)構(gòu)提取出一條規(guī)則。

圖14 抽取帶詞性標(biāo)記的依存到串規(guī)則的一個(gè)翻譯實(shí)例

對(duì)這條規(guī)則中的三類(lèi)節(jié)點(diǎn)進(jìn)行泛化以后，我們可以得到八條規(guī)則，如圖15所示。

圖15 依存到串規(guī)則的抽取和泛化示例注圖中帶下劃線的節(jié)點(diǎn)表示該節(jié)點(diǎn)在匹配時(shí)不能被擴(kuò)展

實(shí)驗(yàn)表明，我們采用這種依存到串翻譯模型實(shí)現(xiàn)的機(jī)器翻譯系統(tǒng)效果非常好，性能超過(guò)了層次短語(yǔ)模型[29]。

5 研究工作影響及相關(guān)工作

在最大熵括號(hào)轉(zhuǎn)錄語(yǔ)法模型方面，熊德意博士在本研究組畢業(yè)后，在新加坡I2R研究所后繼續(xù)在該模型基礎(chǔ)上做了一系列改進(jìn)工作[19-22]。ACM Computing Surveys上一篇機(jī)器翻譯綜述也引用了這項(xiàng)工作[23]。

樹(shù)到串翻譯模型我們最早發(fā)表在COLING-ACL2006上[2]，該論文獲得了大會(huì)頒發(fā)的Meritorious Asian NLP Paper Award。國(guó)際上與我們這項(xiàng)工作相關(guān)的研究有：賓州大學(xué)Liang Huang比我們稍晚提出了與我們非常類(lèi)似的模型[8]；新加坡I2R研究所Jun Sun等人將樹(shù)到串模型擴(kuò)展為不連續(xù)的樹(shù)序列對(duì)齊形式[12]；新加坡I2R研究所Hui Zhang等人對(duì)樹(shù)到串規(guī)則匹配的索引結(jié)構(gòu)進(jìn)行了改進(jìn)[13]；微軟亞洲研究院Dongdong Zhang改進(jìn)了我們的調(diào)序方法[14]；IBM的Bing Zhao在我們的工作基礎(chǔ)上提出放寬樹(shù)到串規(guī)則匹配的約束條件來(lái)改進(jìn)翻譯的效果[15]；南加州大學(xué)Liang Huang和本研究組Haitao Mi在EMNLP2010提出了一種高效的樹(shù)到串增量式解碼算法[7]；東京大學(xué)XianchaoWu等人在ACL2010上發(fā)表論文[30]，在一種更復(fù)雜的語(yǔ)法形式HPSG下實(shí)現(xiàn)了更高精度的樹(shù)到串規(guī)則提取，等等。

我們提出的基于森林的翻譯方法[3]是首次將句法壓縮森林應(yīng)用在統(tǒng)計(jì)機(jī)器翻譯中，這一做法后來(lái)在統(tǒng)計(jì)機(jī)器翻譯中被普遍采用。與之相關(guān)的工作有：新加坡I2R研究所Hui Zhang等人對(duì)我們的工作進(jìn)行了擴(kuò)展，將句法森林應(yīng)用到樹(shù)序列到串的翻譯模型[11]；本研究組Yang Liu等人將句法森林用于樹(shù)到樹(shù)模型[6]；約翰霍普金斯大學(xué)(JHU)Zhifei Li等人為翻譯森林結(jié)構(gòu)及其上面定義的運(yùn)算提供了更加理論化的形式描述[16]；南加州大學(xué)信息科學(xué)研究所USC-ISI的John DeNero等人將翻譯森林應(yīng)用于系統(tǒng)融合[17]；Google的Kumar等人將詞格和翻譯森林應(yīng)用于最小錯(cuò)誤率訓(xùn)練和最小貝葉斯風(fēng)險(xiǎn)解碼[18]。其中，前兩項(xiàng)工作是對(duì)我們的工作的直接擴(kuò)展，后三項(xiàng)工作主要是建立在目標(biāo)語(yǔ)言端的翻譯森林基礎(chǔ)上，與我們?cè)谠凑Z(yǔ)言端句法森林的工作略有不同，但采用森林作為機(jī)器翻譯中的數(shù)據(jù)表示形式，也是受到了我們的工作的啟發(fā)。用句法森林取代單一句法樹(shù)作為機(jī)器翻譯的中間數(shù)據(jù)表示形式已經(jīng)成為研究界經(jīng)常采用的做法。

在統(tǒng)計(jì)機(jī)器翻譯中較早引入依存樹(shù)的是微軟研究院Quirk等人的工作[31]，由于他們的工作非常復(fù)雜，其他研究者很難跟進(jìn)。我們?cè)?007年提出了另一個(gè)簡(jiǎn)單的基于依存樹(shù)杈(treelet)的模型[28]，這個(gè)模型的性能也不是很理想。近年來(lái)統(tǒng)計(jì)機(jī)器翻譯領(lǐng)域利用依存樹(shù)信息比較有影響的工作是Libin Shen的工作[32]，他是在層次短語(yǔ)模型的基礎(chǔ)上加上了目標(biāo)段的依存樹(shù)信息。雖然這個(gè)工作比較成功，但它不是一個(gè)單純的模型，而是在層次短語(yǔ)模型上的一個(gè)擴(kuò)展，并且是在一個(gè)依存語(yǔ)言模型的輔助下才能取得較好的效果。另一方面，這個(gè)模型利用的是目標(biāo)端的依存樹(shù)信息，而不是源端的依存樹(shù)信息。這與我們的工作也有較大差別。

6 總結(jié)和未來(lái)工作

本文介紹了近年來(lái)我們提出的多個(gè)基于句法的統(tǒng)計(jì)機(jī)器翻譯模型以及相關(guān)的多種機(jī)器翻譯方法。其中一些工作，如最大熵括號(hào)轉(zhuǎn)錄語(yǔ)法模型、樹(shù)到串模型、基于森林的機(jī)器翻譯方法等，都已經(jīng)產(chǎn)生了較大影響。依存到串模型是我們最近提出的新模型，該模型簡(jiǎn)潔而且效果很好，我們認(rèn)為還有較大潛力，有可能成為通向基于語(yǔ)義的翻譯模型的一個(gè)橋梁。

另外在統(tǒng)計(jì)機(jī)器翻譯中起重要作用的一個(gè)模型是語(yǔ)言模型。目前在統(tǒng)計(jì)機(jī)器翻譯中采用的主流語(yǔ)言模型還是N-gram模型。雖然N-gram模型簡(jiǎn)單并且效果不錯(cuò)，但畢竟該模型無(wú)法考慮句子的結(jié)構(gòu)信息，無(wú)法評(píng)價(jià)一個(gè)句子是否是一個(gè)語(yǔ)言學(xué)上合法的句子，其缺陷是非常明顯的。目前在這方面已經(jīng)有了一些工作，但都還沒(méi)有普遍采用。我們期待在這方面能有進(jìn)一步的進(jìn)展。

致謝

本文是對(duì)本研究組多年來(lái)部分工作的一個(gè)綜述[1-6]，所有這些工作都是在這些文章上共同署名的我的同事、學(xué)生和我共同完成的，其中做出主要貢獻(xiàn)的幾個(gè)人包括：劉洋、熊德意、米海濤、黃亮、謝軍、呂雅娟。雖然他們?cè)谶@篇綜述文章上不作為共同作者署名，但我必須向他們表示衷心的感謝。

[1] Deyi Xiong, Qun Liu, Shouxun Lin. Maximum Entropy Based Phrase Reordering Model for Statistical Machine Translation[C]//Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL (COLING-ACL2006), Sydney, Australia, July 17-21. 2006: 521-528.

[2] Yang Liu, Qun Liu, Shouxun Lin. Tree-to-String Alignment Template for Statistical Machine Translation[C]//Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL (COLING-ACL2006), Sydney, Australia, July 17-21. 2006: 609-616.

[3] Haitao Mi, Liang Huang, Qun Liu. Forest-Based Translation[C]//Proceedings of ACL-08:HLT, Columbus, Ohio, USA. 2008: 192-199.

[4] Yang Liu, Qun Liu. Joint Parsing and Translation[C]//Proceedings of COLING 2010, Beijing, August, 2010 .

[5] Yang Liu, Yun Huang, Qun Liu, et al. Forest-to-String Statistical Translation Rules[C]//ACL2007, Prague, Czech，June 2007 .

[6] Yang Liu, Yajuan Lü, Qun Liu. Improving Tree-to-Tree Translation with Packed Forests[C]//Proceedings of ACL-IJCNLP 2009. Singapore, August. 2009: 558-566.

[7] Liang Huang, Haitao Mi. Efficient Incremental Decoding for Tree-to-String Translation[C]//Proceedings of EMNLP 2010, Boston, USA, October.

[8] Liang Huang, Kevin Knight, Aravind Joshi. Statistical Syntax-Directed Translation with Extended Domain of Locality[C]//Proceedings of AMTA, 2006.

[9] Min Zhang, Hongfei Jiang, Aiti Aw, et al. A Tree Sequence Alignment-based Tree-to-Tree Translation Model[C]//ACL08:HLT.

[10] Min Zhang, Hongfei Jiang, Ai Ti Aw, et al. 2007. A Tree-to-Tree Alignment-based Model for Statistical Machine Translation[C]//MT-Summit-07. 535-542.

[11] Hui Zhang, Min Zhang, Haizhou Li, et al. Forest-based Tree Sequence to String Translation Model[C]//The 47th Annual Meeting of Association for Computational Linguistics and the 4th International Joint Conference of Natural Language Processing (full paper, ACL-IJCNLP 2009), August 2-7 2009, Singapore.

[12] Jun Sun, Min Zhang, Chew Lim Tan. A non-contiguous Tree Sequence Alignment-based Model for Statistical Machine Translation[C]//Proceedings of ACL-IJCNLP 2009.

[13] Hui Zhang, Min Zhang, Haizhou Li, et al. Fast Translation Rule Matching for Syntax-based Statistical Machine Translation[C]//EMNLP 2009,August 6-7 2009, Singapore.

[14] Dongdong Zhang, Mu Li, Chi-Ho Li, et al. Phrase reordering model integrating syntactic knowledge for SMT[C]//EMNLP-CoNLL-2007: Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Prague, Czech Republic; 2007: 533-540.

[15] Bing Zhao, Yaser Al-Onaizan, Generalizing local and non-local word-reordering patterns for syntax-based machine translation[C]//EMNLP 2008: Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing, 25-27 October 2008, Honolulu, Hawaii, USA 2008: 572-581.

[16] Zhifei Li, Jason Eisner, First- and Second-Order Expectation Semirings with Applications to Minimum-Risk Training on Translation Forests[C]//EMNLP2009.

[17] John DeNero, David Chiang, Kevin Knight. Fast Consensus Decoding over Translation Forests[C]//ACL-IJCNLP 2009.

[18] Shankar Kumar, Wolfgang Macherey, Chris Dyer, et al. Efficient Minimum Error Rate Training and Minimum Bayes-Risk Decoding for Translation Hypergraphs and Lattices[C]//ACL-IJCNLP2009.

[19] Deyi Xiong, Min Zhang, Aiti Aw, et al. Refinements in BTG-based Statistical Machine Translation[C]//IJCNLP2008.

[20] Deyi Xiong, Min Zhang, Ai Ti Aw. Linguistically Annotated BTG for Statistical Machine Translation[C]//Proceedings of COLING 2008.

[21] Deyi Xiong, Min Zhang, Ai Ti Aw, et al. A Linguistically Annotated Reordering Model for BTG-based Statistical Machine Translation[C]//Proceedings of ACL 2008.

[22] Deyi Xiong, Min Zhang, Aiti Aw et al. A Syntax-Driven Bracketing Model for Phrase-Based Translation[C]//Preceedings of ACL-IJCNLP 2009.

[23] Adam Lopez. Statistical machine translation[J]. ACM Computing Surveys, 2008, 40(3).

[24] Xianchao Wu, Takuya Matsuzaki, Jun’ichi Tsujii. Fine-grained Tree-to-String Translation Rule Extraction[C]//Proceedings of ACL 2010. Uppsala, Sweden, 2010: 325-334.

[25] Dekai Wu. A polynomial-time algorithm for statistical machine translation[C]//ACL-96: 34th Annual Meeting of the Assoc. for Computational Linguistics. Santa Cruz, CA: Jun. 1996.

[26] Liang Huang, David Chiang. Better k-best Parsing[C]//Proceedings of the 9th International Workshop on Parsing Technologies, Vancouver, B.C, October 2005.

[27] Michael John Collins, Mitchell P. Marcus. Head-driven statistical models for natural language parsing[J]. Journal of Computational Linguistics, 2003, 29(4).

[28] Deyi Xiong, Qun Liu, Shouxun Lin. A Dependency Treelet String Correspondence Model for Statistical Machine Translation[C]//Second Workshop on Statistical Machine Translation, Prague, Czech, June 2007.

[29] Jun Xie, Haitao Mi， Qun Liu. A novel dependency-to-string model for statistical machine translation[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing, July 27-31, 2011, Edinburgh, Scotland, UK.

[30] Wu, Xianchao and Matsuzaki, Takuya and Tsujii, Jun’ichi. Fine-Grained Tree-to-String Translation Rule Extraction[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, Uppsala, Sweden, 2010: 325-334.

[31] Chris Quirk, Arul Menezes, Colin Cherry. Dependency treelet translation: syntactically informed phrasal SMT[C]//Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics, Stroudsburg, PA, USA.

[32] Libin Shen, Jinxi Xu, Ralph M. Weischedel: String-to-Dependency Statistical Machine Translation[J]. Computational Linguistics， 36(4): 649-671.

[33] Dekai Wu. Grammarless Extraction of Phrasal Translation Examples from Parallel Texts[C]//TMI-95, Sixth International Conference on Theoretical and Methodological Issues in Machine Translation, v2. Leuven, Belgium, 1995: 354-372.