劉夢(mèng)眙,姚 亮,洪 宇,劉 昊,姚建民
(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
譯文語(yǔ)序的領(lǐng)域性思考:一種融合主題信息的領(lǐng)域自適應(yīng)調(diào)序模型
劉夢(mèng)眙,姚 亮,洪 宇,劉 昊,姚建民
(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
領(lǐng)域自適應(yīng)研究的目標(biāo)是建立一種動(dòng)態(tài)調(diào)整翻譯模型,使翻譯模型對(duì)目標(biāo)領(lǐng)域的語(yǔ)言特征具備較強(qiáng)的學(xué)習(xí)和處理能力,借以保證翻譯系統(tǒng)在不同領(lǐng)域獲得平衡可靠的翻譯能力。現(xiàn)有翻譯模型的自適應(yīng)研究已經(jīng)取得顯著進(jìn)展,但調(diào)序過(guò)程的領(lǐng)域適應(yīng)性研究相對(duì)較少。在該文前期工作中通過(guò)對(duì)大規(guī)模源語(yǔ)言和目標(biāo)語(yǔ)言的真實(shí)互譯樣本統(tǒng)計(jì)發(fā)現(xiàn),在語(yǔ)義等價(jià)的短語(yǔ)級(jí)互譯對(duì)子中,36.17%的樣本在不同領(lǐng)域中的語(yǔ)序存在顯著差異。針對(duì)這一問(wèn)題,該文從主題角度出發(fā),探索不同主題分布下的短語(yǔ)調(diào)序差異,提出一種融合主題信息的領(lǐng)域自適應(yīng)調(diào)序模型。實(shí)驗(yàn)結(jié)果顯示,嵌入調(diào)序適應(yīng)性模型的翻譯系統(tǒng)取得了較為明顯的性能優(yōu)勢(shì)。
統(tǒng)計(jì)機(jī)器翻譯;領(lǐng)域適應(yīng)性;調(diào)序模型;主題模型
通常認(rèn)為,統(tǒng)計(jì)機(jī)器翻譯(statistical machine translation,SMT)系統(tǒng)的性能很大程度上依賴于語(yǔ)料的規(guī)模和質(zhì)量[1]。一般地,訓(xùn)練語(yǔ)料的規(guī)模越大、質(zhì)量越好,則有效的翻譯知識(shí)越多,涵蓋的語(yǔ)言現(xiàn)象越充分,因而更有助于提升翻譯系統(tǒng)中統(tǒng)計(jì)模型(翻譯模型、語(yǔ)言模型、調(diào)序模型)的訓(xùn)練效果。
然而,當(dāng)訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)所屬領(lǐng)域不一致時(shí),機(jī)器翻譯系統(tǒng)的性能往往偏低。造成這一問(wèn)題的核心原因是,語(yǔ)言現(xiàn)象在特定領(lǐng)域中具有一定的獨(dú)立性,換言之,語(yǔ)義的收斂性和語(yǔ)用的多樣性促成了不同領(lǐng)域文字表述的本質(zhì)的差異,文法、修辭、術(shù)語(yǔ)、語(yǔ)序和慣用規(guī)則,都在特定領(lǐng)域有著明顯的獨(dú)立性,而在不同領(lǐng)域間有著可見(jiàn)的差異,這對(duì)雙語(yǔ)之間的互譯造成了一定影響。本文研究的主要對(duì)象,即為語(yǔ)序的領(lǐng)域特性,尤其是如何識(shí)別、模擬和應(yīng)用這一特性,改進(jìn)現(xiàn)有的機(jī)器翻譯模型。
本文側(cè)重研究利用主題信息提升調(diào)序模型領(lǐng)域適應(yīng)性的可行性及方法學(xué)。這一探索源于如下經(jīng)驗(yàn)性的發(fā)現(xiàn): 主題的分布往往能夠表現(xiàn)領(lǐng)域的特性,比如,法律領(lǐng)域的主題往往集中于“審判”“拘捕”和“罪行”等,自然科學(xué)領(lǐng)域則集中于“發(fā)現(xiàn)”“方法學(xué)”和“實(shí)驗(yàn)”等。而語(yǔ)言的組織(如語(yǔ)用形式、語(yǔ)序關(guān)系和語(yǔ)義表示形式等)往往與主題有著更為直接的聯(lián)系。因此,我們提出一種基本的直推式假設(shè): 領(lǐng)域→主題→語(yǔ)言組織→語(yǔ)序。通過(guò)這一間接推理,語(yǔ)序作為語(yǔ)言組織的重要組成部分,可通過(guò)與主題的關(guān)聯(lián)程度和形式,決定其與特定領(lǐng)域的關(guān)系。這一點(diǎn)將成為支持本文方法學(xué)的核心,即利用主題信息調(diào)整翻譯過(guò)程中的語(yǔ)序結(jié)果,以適應(yīng)特定領(lǐng)域的文字特點(diǎn)。為了便于理解上述例子,下面給出了一對(duì)源語(yǔ)言(中文)和目標(biāo)語(yǔ)言(英文)的語(yǔ)序樣例,及其關(guān)聯(lián)的主題和領(lǐng)域:
源語(yǔ)言: 保安 司 可 隨時(shí) 指示 將 一個(gè) 根據(jù) 羈留 令 被 羈留 的 人 釋放。
目標(biāo)語(yǔ)言: the secretary for security may at any time direct that a person detained under a detention warrant be released.
[例1]
源語(yǔ)言: 可以 隨時(shí) 根據(jù) 偏好 重新 排列 搜索 規(guī)則。
目標(biāo)語(yǔ)言: you can reorder the search rules according to the preference at any time.
[例2]
上述是“at any time”在法律和科技領(lǐng)域下調(diào)序的一個(gè)實(shí)例。例1來(lái)源于法律條文,從例句中可以看出,“at any time”相對(duì)于前一個(gè)短語(yǔ)“may”,在源語(yǔ)言端對(duì)應(yīng)的短語(yǔ)相對(duì)位置保持不變。此時(shí)短語(yǔ)“at any time”的調(diào)序類型是單調(diào)調(diào)序(M)。例2來(lái)源于科技文獻(xiàn),從例句中可以看出,“at any time”相對(duì)于前一個(gè)短語(yǔ)“preference”,在源語(yǔ)言端對(duì)應(yīng)的短語(yǔ)相對(duì)位置進(jìn)行了交換且間隔開(kāi)了。此時(shí)短語(yǔ)“at any time”的調(diào)序類型是不連續(xù)調(diào)序(D)?;诖苏{(diào)序現(xiàn)象,本文利用法律和科技領(lǐng)域較大規(guī)模的平行文本進(jìn)行統(tǒng)計(jì)分析,結(jié)果發(fā)現(xiàn),“隨時(shí) at any time”在法律領(lǐng)域下單調(diào)調(diào)序(M)的概率為62%,而在科技領(lǐng)域下不連續(xù)調(diào)序(D)的概率為97%。從統(tǒng)計(jì)中可以發(fā)現(xiàn),該短語(yǔ)對(duì)在法律領(lǐng)域下更傾向于單調(diào)調(diào)序,而在科技領(lǐng)域下更傾向于不連續(xù)調(diào)序。
從上述分析可以看出,短語(yǔ)調(diào)序受領(lǐng)域影響,在不同領(lǐng)域下短語(yǔ)調(diào)序的傾向不同。龐弘燊等[2]指出: 通過(guò)對(duì)某一領(lǐng)域文獻(xiàn)的主題進(jìn)行分析,是了解和評(píng)價(jià)學(xué)科領(lǐng)域發(fā)展的歷史、現(xiàn)狀和趨勢(shì)的一種有效途徑??梢钥闯?,主題能夠表現(xiàn)領(lǐng)域特性,上述法律領(lǐng)域的主題多集中于“失職”“釋放”“審判”等;科技領(lǐng)域的主題多集中于“軟件”“服務(wù)器”“計(jì)算機(jī)”等。因而本文猜測(cè)具有與特定領(lǐng)域?qū)?yīng)性的主題分布,能夠間接反映該領(lǐng)域中調(diào)序的特點(diǎn),這就構(gòu)成了本文通過(guò)捕捉主題信息,將其引入調(diào)序模型,讓調(diào)序具備領(lǐng)域特點(diǎn)的基本動(dòng)機(jī)。
基于上述現(xiàn)象,本文提出一種融合主題信息的調(diào)序模型領(lǐng)域自適應(yīng)方法。其核心思想如下: 首先,利用主題模型估計(jì)不同領(lǐng)域下雙語(yǔ)文檔的主題分布;其次,利用極大似然估計(jì)的方法,獲取不同主題下短語(yǔ)對(duì)的調(diào)序分布。最終在解碼時(shí),該方法借助待測(cè)文本的主題信息對(duì)短語(yǔ)對(duì)的調(diào)序概率進(jìn)行加權(quán),從而優(yōu)化短語(yǔ)對(duì)的調(diào)序分布,以提升特定領(lǐng)域機(jī)器翻譯系統(tǒng)的性能?;贜IST標(biāo)準(zhǔn)測(cè)試集的實(shí)驗(yàn)表明,本文所提優(yōu)化調(diào)序模型的方法改進(jìn)了機(jī)器翻譯系統(tǒng)的性能,相比于基準(zhǔn)系統(tǒng),BLEU值提升了0.76%。
本文章節(jié)組織如下: 第二節(jié)介紹相關(guān)工作;第三節(jié)介紹傳統(tǒng)調(diào)序模型;第四節(jié)描述融合主題信息的調(diào)序模型領(lǐng)域自適應(yīng)方法;第五節(jié)給出實(shí)驗(yàn)結(jié)果和分析;第六節(jié)總結(jié)工作并提出展望。
調(diào)序問(wèn)題是統(tǒng)計(jì)機(jī)器翻譯中的重要問(wèn)題,常見(jiàn)的詞匯化調(diào)序模型主要出現(xiàn)在短語(yǔ)模型中,包括基于詞、基于短語(yǔ)、基于層次化短語(yǔ)的調(diào)序。近年來(lái)在調(diào)序模型上的探索不乏一些值得借鑒的工作: 馮洋等[3]認(rèn)為正確地對(duì)介詞短語(yǔ)進(jìn)行調(diào)序?qū)μ岣叻g質(zhì)量至關(guān)重要,在層次短語(yǔ)模型基礎(chǔ)上,利用條件隨機(jī)場(chǎng)模型識(shí)別出介詞短語(yǔ),然后抽取帶有介詞短語(yǔ)的規(guī)則,構(gòu)建新的同步上下文無(wú)關(guān)文法;何鐘豪等[4]針對(duì)最大熵調(diào)序模型中短語(yǔ)調(diào)序?qū)嵗龢颖痉植疾黄胶獾膯?wèn)題,引入集成學(xué)習(xí)多分類器融合的模型訓(xùn)練方法,發(fā)現(xiàn)通過(guò)性能加權(quán)投票融合的無(wú)放回欠采樣的方法,相比于基線系統(tǒng)提升最為顯著;肖欣延等[5]提出面向?qū)哟味陶Z(yǔ)模型的詞匯化調(diào)序方法,定義變量與鄰接詞語(yǔ)的調(diào)序關(guān)系,并使用變量所泛化短語(yǔ)片段的邊界詞信息來(lái)指導(dǎo)調(diào)序,解碼時(shí)將此調(diào)序模型作為新特征融入基準(zhǔn)系統(tǒng)中;Cao等[6]提出一種直接構(gòu)建在同步文法規(guī)則上的詞匯化的調(diào)序模型,對(duì)包含在文法規(guī)則里的每個(gè)目標(biāo)端短語(yǔ),計(jì)算其在文法規(guī)則下的調(diào)序概率,在解碼時(shí)將該調(diào)序模型融入翻譯解碼器,提高了系統(tǒng)系能。
當(dāng)訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)所屬領(lǐng)域不一致時(shí),機(jī)器翻譯系統(tǒng)的性能往往偏低。統(tǒng)計(jì)機(jī)器翻譯領(lǐng)域自適應(yīng)研究大致包括如下兩種思路:
(1) 領(lǐng)域相關(guān)數(shù)據(jù)選擇
平行句對(duì)選擇是翻譯模型適應(yīng)性研究中簡(jiǎn)單而有效的實(shí)施方法。當(dāng)前,面向特定領(lǐng)域的雙語(yǔ)文本往往比較匱乏,從大規(guī)模通用領(lǐng)域句對(duì)中選擇與目標(biāo)領(lǐng)域相關(guān)的平行句對(duì),可作為擴(kuò)充特定領(lǐng)域翻譯模型訓(xùn)練數(shù)據(jù)的重要來(lái)源。Yasuda等[7]利用小規(guī)模目標(biāo)領(lǐng)域雙語(yǔ)語(yǔ)料,分別在源端和目標(biāo)端訓(xùn)練語(yǔ)言模型,利用語(yǔ)言模型困惑度衡量通用領(lǐng)域平行句對(duì)和目標(biāo)領(lǐng)域的領(lǐng)域相關(guān)性,進(jìn)而選擇相關(guān)程度較高的平行句對(duì)擴(kuò)充目標(biāo)領(lǐng)域訓(xùn)練數(shù)據(jù),提升特定領(lǐng)域機(jī)器翻譯系統(tǒng)的性能;Axelrod等[1]改進(jìn)基于語(yǔ)言模型困惑度的句對(duì)選擇方法,分別計(jì)算特定領(lǐng)域和通用領(lǐng)域的語(yǔ)言模型困惑度,并利用其差值評(píng)價(jià)句對(duì)的領(lǐng)域相關(guān)性;Duh等[8]首次應(yīng)用深度神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型代替?zhèn)鹘y(tǒng)的N-gram語(yǔ)言模型評(píng)價(jià)平行句對(duì),進(jìn)而選擇句對(duì)擴(kuò)充目標(biāo)領(lǐng)域訓(xùn)練數(shù)據(jù),取得較好的性能;王星等[9]提出基于分類的平行語(yǔ)料選擇方法,特征采用雙語(yǔ)詞典翻譯質(zhì)量、翻譯模型概率、語(yǔ)言模型、句子長(zhǎng)度及未對(duì)齊詞數(shù)量,利用少數(shù)句對(duì)特征差異較大的句對(duì)構(gòu)建分類器,從而對(duì)其他未分類句對(duì)進(jìn)行分類;Liu等[10]提出融合特定領(lǐng)域翻譯模型和語(yǔ)言模型評(píng)價(jià)雙語(yǔ)句對(duì)質(zhì)量,有效地解決了基于語(yǔ)言模型方法選取的領(lǐng)域相關(guān)句對(duì)中存在翻譯質(zhì)量較差的問(wèn)題。
(2) 統(tǒng)計(jì)特征優(yōu)化。
Foster等[11]提出從短語(yǔ)特征層次出發(fā),對(duì)來(lái)自不同領(lǐng)域的翻譯模型進(jìn)行線性或?qū)?shù)線性融合;Matsoukas等[12]通過(guò)計(jì)算通用領(lǐng)域句對(duì)和目標(biāo)領(lǐng)域的領(lǐng)域相似程度,給句對(duì)賦予不同的權(quán)重值;曹杰等[13]提出一種基于上下文信息的翻譯概率計(jì)算模型。該模型利用上下文相關(guān)的領(lǐng)域特征,重新估計(jì)雙語(yǔ)短語(yǔ)的翻譯概率,實(shí)現(xiàn)了領(lǐng)域信息和翻譯知識(shí)的有效融合;Foster等[14]在前人的基礎(chǔ)上從短語(yǔ)實(shí)例粒度考慮,為領(lǐng)域相關(guān)的短語(yǔ)實(shí)例賦予較高的權(quán)重,并重新估計(jì)翻譯模型,提升了翻譯性能;Su等[15]借助領(lǐng)域單語(yǔ)語(yǔ)料訓(xùn)練主題模型,并通過(guò)構(gòu)建目標(biāo)領(lǐng)域和通用領(lǐng)域主題映射,重新估計(jì)通用翻譯模型的參數(shù);Hewavitharana等[16]將測(cè)試文本與訓(xùn)練文檔的主題相似度作為額外的翻譯特征,以提升口語(yǔ)的翻譯性能。Hasler等[17]通過(guò)改進(jìn)LDA模型,提出推理雙語(yǔ)主題模型的方法,并將其應(yīng)用于計(jì)算主題適應(yīng)的短語(yǔ)翻譯特征。Chen等[18]首次進(jìn)行了調(diào)序模型領(lǐng)域適應(yīng)性的研究,提出將線性混合模型技術(shù)運(yùn)用到調(diào)序模型領(lǐng)域適應(yīng)性中,該方法為不同領(lǐng)域的子語(yǔ)料賦予不同的權(quán)重,以獲取適應(yīng)目標(biāo)領(lǐng)域的調(diào)序模型。此外,Chen等[18]還通過(guò)平滑領(lǐng)域內(nèi)語(yǔ)料和文檔頻率加權(quán)的方法提高了翻譯系統(tǒng)性能。
上述研究仍存在以下不足: 首先,依據(jù)語(yǔ)料來(lái)源標(biāo)簽人工劃分語(yǔ)料領(lǐng)域(例如,若語(yǔ)料標(biāo)簽為news-wire(新聞專線),則將其劃分為新聞?lì)I(lǐng)域)。但新聞?wù)Z料可能包含各種主題(體育、娛樂(lè)、政治等)的文本,因此,該方法在劃分時(shí)過(guò)于泛化,缺乏對(duì)文本內(nèi)容的分析。其次,該方法并不適用于測(cè)試文本來(lái)源未知的情況,即無(wú)法根據(jù)測(cè)試文本的變化動(dòng)態(tài)優(yōu)化調(diào)序模型。
針對(duì)上述問(wèn)題,Wang等[19]在判別相鄰短語(yǔ)的調(diào)序方向時(shí),融入短語(yǔ)對(duì)所在文檔的主題信息作為特征,將該特征加入最大熵分類器中,此外,還使用邊界單詞及單詞主題作為特征。在解碼時(shí),將該調(diào)序模型融入統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中,提升了翻譯性能;Zhang等[20]提出一種基于結(jié)構(gòu)化學(xué)習(xí)的判別式調(diào)序模型(discriminative reordering model,DRM),用以探索不同領(lǐng)域中調(diào)序特征的關(guān)聯(lián)性,以使從通用領(lǐng)域中學(xué)習(xí)的調(diào)序規(guī)律更適應(yīng)于目標(biāo)領(lǐng)域,該模型挖掘不同領(lǐng)域共有的調(diào)序特征,并將這些特征融入翻譯解碼過(guò)程中。
受上述工作鼓勵(lì),本文嘗試強(qiáng)化調(diào)序模型的適應(yīng)性,但區(qū)別于將主題作為特征維間接干涉調(diào)序過(guò)程,本文利用主題分布概率計(jì)算調(diào)序概率,直接影響調(diào)序結(jié)果。
利用不同語(yǔ)言對(duì)同一語(yǔ)義進(jìn)行表述時(shí),語(yǔ)序往往存在較大差異。就句子級(jí)的表述形式而言,句子結(jié)構(gòu)迥異。調(diào)序模型用于對(duì)譯文片段的相對(duì)位置進(jìn)行建模,以生成符合常用語(yǔ)言表述習(xí)慣的譯文。例如,中文“樹(shù)上有只小鳥(niǎo)”,對(duì)應(yīng)的英文譯文為“there is a bird in the tree”。由此可見(jiàn),互譯的短語(yǔ)中“樹(shù)(tree)”和“小鳥(niǎo)(bird)”的相對(duì)位置發(fā)生了變化。調(diào)序模型旨在將目標(biāo)端譯文短語(yǔ)重新排序,以滿足目標(biāo)語(yǔ)言的表述習(xí)慣。同樣地,調(diào)序模型的訓(xùn)練也包括調(diào)序表的抽取和調(diào)序概率計(jì)算,表1所示為調(diào)序表樣例。
表1 調(diào)序表樣例
調(diào)序模型包括以下三部分: 源端短語(yǔ)(如上“上海 浦東 發(fā)展”)、目標(biāo)端短語(yǔ)(如上“and pudong development”)、短語(yǔ)對(duì)調(diào)序特征得分(如上“-0.51 -1.61 -1.61 -0.51 -1.65 -1.63”)。其中,調(diào)序特征常根據(jù)具體情況而定,此處特征為短語(yǔ)模型中常用的MSD調(diào)序特征。詞匯化調(diào)序模型由Tillmann等[21]首次提出,對(duì)任意一個(gè)短語(yǔ)對(duì),這種調(diào)序模型考慮三種調(diào)序類型: 單調(diào)調(diào)序(M);交換調(diào)序(S);非連續(xù)調(diào)序(D)。
其中oi為M、S或D,概率以ai-1和ai為條件來(lái)確保方向oi與短語(yǔ)對(duì)齊一致,如式(2)所示。
因此,可以用以下三個(gè)特征函數(shù)對(duì)調(diào)序方向構(gòu)建模型,每個(gè)函數(shù)對(duì)應(yīng)一個(gè)調(diào)序方向。此處的短語(yǔ)對(duì)調(diào)序方向是相對(duì)于前一個(gè)短語(yǔ)對(duì)來(lái)確定的,分別對(duì)應(yīng)表1中短語(yǔ)對(duì)的前三個(gè)特征,如式(3)~(5)所示。
除了上述的三種特征,也可以融入另外三個(gè)相似的特征(fM-b,fS-b和fD-b,分別對(duì)應(yīng)表1中短語(yǔ)對(duì)的后三個(gè)特征)。這三個(gè)特征中的短語(yǔ)對(duì)調(diào)序方向是相對(duì)于后一個(gè)短語(yǔ)對(duì)來(lái)確定的,其中oi以(ai,ai+1) 為條件,而不是(ai-1,ai)。
本文提出一種融合主題信息的調(diào)序模型領(lǐng)域自適應(yīng)方法,該方法旨在解決測(cè)試文本領(lǐng)域未知的翻譯問(wèn)題,并利用文檔主題分布動(dòng)態(tài)優(yōu)化調(diào)序模型。核心思想如下: 首先,利用主題模型估計(jì)包含不同主題的雙語(yǔ)文檔的主題分布;其次,統(tǒng)計(jì)短語(yǔ)對(duì)在每篇文檔中以M、S或D為調(diào)序方向的次數(shù),利用文檔的主題分布對(duì)調(diào)序次數(shù)進(jìn)行加權(quán),從而獲取不同主題下短語(yǔ)對(duì)的調(diào)序分布;最終在解碼時(shí),該方法借助待測(cè)文本的主題信息對(duì)不同主題下短語(yǔ)對(duì)的調(diào)序概率進(jìn)行加權(quán),從而優(yōu)化短語(yǔ)對(duì)的調(diào)序分布,以提升跨領(lǐng)域機(jī)器翻譯系統(tǒng)的性能。方法框架如圖1所示。
圖1 融合主題信息的調(diào)序模型自適應(yīng)方法框架
4.1 估計(jì)不同主題下短語(yǔ)對(duì)的調(diào)序分布
本文這一部分內(nèi)容旨在量化同一短語(yǔ)對(duì)在不同主題下調(diào)序的差異性。借助于Latent Dirichlet Allocation(LDA)[22]主題模型,本文從規(guī)模較大的領(lǐng)域混雜平行文檔中學(xué)習(xí)短語(yǔ)對(duì)的調(diào)序分布,并借助文檔主題對(duì)調(diào)序進(jìn)行優(yōu)化。
4.2 利用測(cè)試集文檔主題分布優(yōu)化調(diào)序模型
本文分別對(duì)部分調(diào)序特征及全部調(diào)序特征進(jìn)行優(yōu)化,旨在驗(yàn)證本文所提方法的有效性。部分調(diào)序特征包括: 短語(yǔ)對(duì)相對(duì)于前一個(gè)短語(yǔ)的調(diào)序方向(fM-f,fS-f和fD-f)、短語(yǔ)對(duì)相對(duì)于后一個(gè)短語(yǔ)的調(diào)序方向(fM-b,fS-b和fD-b)。
5.1 語(yǔ)料配置
為了驗(yàn)證不同領(lǐng)域下的短語(yǔ)調(diào)序分布存在差異,本文對(duì)法律和科技語(yǔ)料進(jìn)行統(tǒng)計(jì)。其中法律語(yǔ)料來(lái)源于LDC香港平行文本法律部分(規(guī)模為: 400k句);科技語(yǔ)料來(lái)源于中國(guó)科學(xué)技術(shù)信息研究所英漢科技文獻(xiàn)句子級(jí)對(duì)齊語(yǔ)料庫(kù)(規(guī)模為: 600k句)。統(tǒng)計(jì)分析語(yǔ)料如表2所示。
表2 統(tǒng)計(jì)分析語(yǔ)料
①香港平行文本400k科技中信所英漢科技文獻(xiàn)句子級(jí)對(duì)齊語(yǔ)料庫(kù)600k①LDC2004T08香港平行文本法律部分。
本文實(shí)驗(yàn)使用NiuTrans[25]機(jī)器翻譯引擎搭建漢英短語(yǔ)翻譯系統(tǒng)。翻譯模型訓(xùn)練語(yǔ)料是由LDC官方提供的英漢雙語(yǔ)平行語(yǔ)料,本文過(guò)濾句子數(shù)少于10或大于50的文檔(規(guī)模為: 933k句);語(yǔ)言模型訓(xùn)練語(yǔ)料取自LDC2005T12英語(yǔ)單語(yǔ)語(yǔ)料(規(guī)模為: 11m句);翻譯系統(tǒng)的開(kāi)發(fā)集使用2002年NIST MT公開(kāi)測(cè)試集(NIST02),包含878個(gè)中文句子和對(duì)應(yīng)4個(gè)英文翻譯結(jié)果;翻譯系統(tǒng)的測(cè)試集1使用NIST03,包含919個(gè)中文句子和對(duì)應(yīng)4個(gè)英文翻譯結(jié)果;翻譯系統(tǒng)的測(cè)試集2使用NIST04,包含1 788個(gè)中文句子和對(duì)應(yīng)4個(gè)英文翻譯結(jié)果。機(jī)器翻譯系統(tǒng)的語(yǔ)料如表3所示。
表3 機(jī)器翻譯系統(tǒng)語(yǔ)料
5.2 系統(tǒng)配置
本文實(shí)驗(yàn)采用NiuTrans開(kāi)源機(jī)器翻譯系統(tǒng),該系統(tǒng)融合GIZA++[26]工具實(shí)現(xiàn)雙語(yǔ)句對(duì)詞對(duì)齊,并從詞對(duì)齊的平行句對(duì)中抽取短語(yǔ)翻譯規(guī)則。本文采用SRILM[27]工具訓(xùn)練4-gram語(yǔ)言模型,并以傳統(tǒng)MSD調(diào)序模型作為基線系統(tǒng)的調(diào)序模型,翻譯系統(tǒng)模型權(quán)重采用最小錯(cuò)誤率[28]訓(xùn)練方法獲得,系統(tǒng)輸出結(jié)果采用大小寫不敏感的BLEU-4[29]值進(jìn)行評(píng)價(jià)。本文設(shè)置如下五個(gè)翻譯系統(tǒng),以驗(yàn)證本文所提方法的有效性:
(1) Baseline: 搭建基于短語(yǔ)的翻譯系統(tǒng),包含翻譯模型、語(yǔ)言模型、調(diào)序模型等特征。
(2) Hybrid: 實(shí)現(xiàn)文獻(xiàn)[18]提出的基于混合模型的調(diào)序模型領(lǐng)域適應(yīng)性方法,并搭建基于短語(yǔ)的翻譯系統(tǒng)。
(3) LDA_a: 利用主題信息優(yōu)化調(diào)序模型的全部調(diào)序特征,作為新特征融入短語(yǔ)翻譯系統(tǒng)。
(4) LDA_f: 利用主題信息優(yōu)化相對(duì)于前一個(gè)短語(yǔ)的調(diào)序特征(fM-f,fS-f和fD-f),將得到的調(diào)序模型作為新特征融入短語(yǔ)翻譯系統(tǒng)。
(5) LDA_b: 利用主題信息優(yōu)化相對(duì)于后一個(gè)短語(yǔ)的調(diào)序特征(fM-b,fS-b和fD-b),將得到的調(diào)序模型作為新特征融入短語(yǔ)翻譯系統(tǒng)。
為了訓(xùn)練融入主題信息的調(diào)序模型,本文選用吉布斯采樣方法推斷LDA模型的參數(shù),使用GibbsLDA++*http://sourceforge.net/projects/gibbslda/。開(kāi)源工具來(lái)進(jìn)行主題的估計(jì)和推斷。本文在進(jìn)行主題估計(jì)前去除了中文停用詞(共558個(gè)),主題數(shù)目取20,超參數(shù)均設(shè)為0.05,迭代次數(shù)設(shè)為1 000。
5.3 實(shí)驗(yàn)結(jié)果及分析5.3.1 統(tǒng)計(jì)現(xiàn)象
為驗(yàn)證不同領(lǐng)域中短語(yǔ)調(diào)序分布存在差異這一猜想,本文對(duì)法律和科技領(lǐng)域的語(yǔ)料進(jìn)行統(tǒng)計(jì)。本文只保留在兩個(gè)領(lǐng)域下共現(xiàn)次數(shù)大于20的短語(yǔ)對(duì),并分別計(jì)算兩個(gè)領(lǐng)域下的調(diào)序分布RDlaw和RDtech。 本文用KL距離來(lái)衡量同一個(gè)短語(yǔ)對(duì)在兩個(gè)領(lǐng)域下調(diào)序分布的差異性,KL距離計(jì)算如式(9)所示。
對(duì)符合條件的10 661個(gè)短語(yǔ)對(duì)根據(jù)其KL距離從大到小進(jìn)行編號(hào)排序,做出如圖2所示折線圖,為了折線圖顯示效果,編號(hào)5000以后的點(diǎn)不在圖中顯示。其中,橫坐標(biāo)表示短語(yǔ)對(duì)的編號(hào),縱坐標(biāo)表示短語(yǔ)對(duì)的兩個(gè)調(diào)序分布RDlaw與RDtech之間的KL距離。
圖2 短語(yǔ)對(duì)的調(diào)序分布差異——KL距離折線圖
其中,編號(hào)3856的短語(yǔ)對(duì)為“效果 effect”,其在兩個(gè)領(lǐng)域下的調(diào)序分布如表4所示,分布的KL距離為0.157 1,三個(gè)概率值分別表示短語(yǔ)對(duì)以M、S或D進(jìn)行調(diào)序的概率。從表中可以看出,該短語(yǔ)對(duì)在法律領(lǐng)域下更傾向于單調(diào)調(diào)序(M),而在科技領(lǐng)域下更傾向于不連續(xù)調(diào)序(D)。KL距離越大,短語(yǔ)對(duì)在兩個(gè)領(lǐng)域下的調(diào)序分布差異越大。那么,KL距離大于0.157 1的短語(yǔ)對(duì)調(diào)序分布差異更加明顯,所占比重為36.17%(3 856/10 661),故至少36.17%的短語(yǔ)對(duì)在不同領(lǐng)域的調(diào)序存在差異。
表4 短語(yǔ)對(duì)“效果 effect”在兩個(gè)領(lǐng)域下的調(diào)序分布
此外,從語(yǔ)料中也可以發(fā)現(xiàn)短語(yǔ)對(duì)“效果 effect”在兩個(gè)領(lǐng)域下的不同調(diào)序現(xiàn)象,如表5所示。目標(biāo)端短語(yǔ)“effect”相對(duì)于其前一個(gè)短語(yǔ)“possible”,在源語(yǔ)言端對(duì)應(yīng)的短語(yǔ)(“可能”“效果”)相對(duì)位置保持不變,故此時(shí)的調(diào)序類型是單調(diào)調(diào)序(M);而在科技領(lǐng)域下,目標(biāo)端短語(yǔ)“effect”相對(duì)于其前一個(gè)短語(yǔ)“display”,在源語(yǔ)言端對(duì)應(yīng)的短語(yǔ)(“顯示”“效果”)相對(duì)位置發(fā)生了改變,不再保持連續(xù),故此時(shí)調(diào)序類型是不連續(xù)調(diào)序(D)。
表5 短語(yǔ)對(duì)“效果 effect”在不同領(lǐng)域下的調(diào)序現(xiàn)象
綜上所述,至少36.17%的短語(yǔ)對(duì)在不同領(lǐng)域的調(diào)序存在差異性,本文針對(duì)這部分短語(yǔ)對(duì)的調(diào)序分布進(jìn)行優(yōu)化,融入短語(yǔ)所在文檔的主題信息,以期提高翻譯系統(tǒng)的性能。
5.3.2 實(shí)驗(yàn)結(jié)果與分析
本文搭建漢英機(jī)器翻譯系統(tǒng),并基于最小錯(cuò)誤率訓(xùn)練方法調(diào)節(jié)特征權(quán)重,最終解碼得到翻譯結(jié)果。本文構(gòu)建的五個(gè)翻譯系統(tǒng)(Baseline、Hybrid、LDA_a、LDA_f、 LDA_b)性能如表6所示。實(shí)驗(yàn)結(jié)果表明, 優(yōu)化調(diào)序模型的翻譯系統(tǒng)相比于原始的翻譯系統(tǒng)(Baseline),在測(cè)試集上性能均有提升。其中優(yōu)化
全部調(diào)序特征的翻譯系統(tǒng)(LDA_a)性能最好,相比于基準(zhǔn)系統(tǒng)(Baseline),在NIST03上提升了0.76%,在NIST04上提升了0.38%;而優(yōu)化部分調(diào)序特征的翻譯系統(tǒng)性能則不如優(yōu)化全部調(diào)序特征的翻譯系統(tǒng)(LDA_a),其中優(yōu)化相對(duì)于前一個(gè)短語(yǔ)對(duì)的調(diào)序特征的翻譯系統(tǒng)(LDA_f),相比于基準(zhǔn)系統(tǒng)(Baseline),在NIST03上提升了0.55%,在NIST04上提升了0.33%;優(yōu)化相對(duì)于后一個(gè)短語(yǔ)對(duì)的調(diào)序特征的翻譯系統(tǒng)(LDA_b),相比于基準(zhǔn)系統(tǒng)(Baseline),在NIST03上提升了0.38%,在NIST04上提升了0.28%。綜上所述,本文提出的利用主題信息優(yōu)化調(diào)序模型的方法是有效的。原因在于,本文方法能充分考慮不同主題下調(diào)序的差異性,并根據(jù)測(cè)試文檔的主題分布動(dòng)態(tài)地進(jìn)行優(yōu)化,以獲得最佳的調(diào)序效果。同時(shí),調(diào)序的性能會(huì)最終影響整體的翻譯效果,達(dá)到提升翻譯性能的目的。
表6 機(jī)器翻譯系統(tǒng)性能
另一方面,與Chen(2013)提出的基于混合模型方法優(yōu)化調(diào)序模型搭建的翻譯系統(tǒng)(Hybrid)相比,性能也有一定的提升。從表6可以看出,LDA_a在NIST03上比Hybrid提升了0.39%,在NIST04上提升了0.14%;而優(yōu)化部分調(diào)序特征的翻譯系統(tǒng)(LDA_f、LDA_b)在測(cè)試集上性能也有所提升。該部分實(shí)驗(yàn)結(jié)果表明,人工粗略地根據(jù)語(yǔ)料來(lái)源和文體進(jìn)行領(lǐng)域劃分并不是最優(yōu)的,借助主題模型進(jìn)而利用主題信息進(jìn)行領(lǐng)域的區(qū)分相比于人工的方法更加的精確,且減少了人工標(biāo)注需要的工作量。 表7為一個(gè)中到英的翻譯實(shí)例,分別由本文所搭建的Baseline和LDA_a翻譯所得。
表7 一個(gè)中英翻譯實(shí)例
從表中可以看出,“海牙 法庭 醫(yī)療 小組”的翻譯,LDA_a與參考譯文基本一致,“海牙 法庭”的英文翻譯調(diào)序到“醫(yī)療 小組”的后面。從詞匯化調(diào)序模型的觀點(diǎn)來(lái)看,調(diào)序方向是交換調(diào)序(S)。而在Baseline中,對(duì)“海牙 法庭”進(jìn)行了順序翻譯,沒(méi)做任何調(diào)序,反而將人名“波貝特克”錯(cuò)誤地調(diào)序到“醫(yī)療 小組”前面。此外,對(duì)于“確認(rèn) 波貝特克 的 病情”的翻譯,LDA_a與參考譯文都進(jìn)行了順序翻譯,從詞匯化調(diào)序模型的觀點(diǎn)來(lái)看,調(diào)序方向是單調(diào)調(diào)序(M)。而在Baseline中,“確認(rèn) 波貝特克 的 病情”對(duì)應(yīng)的翻譯片段及順序是“波貝特克”、“the conditions of”、“confirm”,Baseline對(duì)短語(yǔ)“確認(rèn)”進(jìn)行了錯(cuò)誤的調(diào)序。從以上分析可以看出,利用本文所提方法搭建的翻譯系統(tǒng)對(duì)短語(yǔ)進(jìn)行了正確的調(diào)序,證實(shí)了本文所提方法的有效性。
本文驗(yàn)證了短語(yǔ)調(diào)序分布在不同的領(lǐng)域下存在差異,并提出了一種融合主題信息的調(diào)序模型領(lǐng)域自適應(yīng)方法,利用文檔的主題信息優(yōu)化短語(yǔ)的調(diào)序分布。本文所提優(yōu)化調(diào)序模型的方法改進(jìn)了機(jī)器翻譯系統(tǒng)的性能,相比于基準(zhǔn)系統(tǒng),BLEU值提升了0.76%。這證實(shí)了在短語(yǔ)調(diào)序中融入文檔主題信息的有效性。最后,本文分析了融入主題信息能夠提升調(diào)序性能的原因。
[1] Axelrod A, He Xiaodong, Gao Jianfeng. Domain adaptation via pseudo in-domain data selection[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processins. Edingburg, Scotland, United Kingdom: Association for Computational Linguistics, 2011, 355-362.
[2] 龐弘燊, 方曙, 楊志剛, 等. 研究領(lǐng)域的主題發(fā)展趨勢(shì)分析方法研究: 基于多重共現(xiàn)的視角[J].情報(bào)理論與實(shí)踐, 2012, 35(8): 44-47,73.
[3] 馮洋, 張冬冬, 劉群. 層次短語(yǔ)翻譯模型的介詞短語(yǔ)調(diào)序[J]. 中文信息學(xué)報(bào), 2012, 26(1): 31-36.
[4] 何鐘豪, 蘇勁松, 史曉東, 等. 引入集成學(xué)習(xí)的最大熵短語(yǔ)調(diào)序模型[J]. 中文信息學(xué)報(bào), 2014, 28(1): 87-93.
[5] 肖欣延, 劉洋, 劉群, 等. 面向?qū)哟味陶Z(yǔ)翻譯的詞匯化調(diào)序方法研究[J]. 中文信息學(xué)報(bào), 2012, 26(1): 37-41,50.
[6] Cao Hailong, Zhang Dongdong, Li Mu, et al. A lexicalized reordering model for hierarchical phrase-based translation[C]//Proceedings of the 25th International Conference on Computational Linguistics. Dublin, Ireland: Technical Papers, 2014: 1144-1153.
[7] Yasuda K, Zhang Ruiqiang, Hirofumi Y, et al.Method of selecting training data to build a compact and efficient translation model[C]//Proceedings of the 3rd International Joint Conference on Natural Language Processing. Hyderabad, India: The Association for Computer Linguistics, 2008: 655-660.
[8] Duh K, Neubig G, Sudoh K, et al. Adaptation data selection using neural language models: experiment in machine translation[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. Sofia, Bulgaria: Association for Computational Linguistics, 2013: 678-683.
[9] 王星, 涂兆鵬, 謝軍, 等. 一種基于分類的平行語(yǔ)料選擇方法[J]. 中文信息學(xué)報(bào), 2013, 27(6): 144-150.
[10] Liu Le, Hong Yu, Liu Hao, et al. Effective selection of translation model training data[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. Baltimore, Maryland, USA: Association for Computational Linguistics, 2014: 569-573.
[11] Foster G, Kuhn R. Mixture-model adaptation for SMT[C]//Proceedings of the 2nd Workshop on Statistical Machine Translation. Prague, Czech Republic: Association for Computational Linguistics, 2007: 128-135.
[12] Matsoukas S, Rosti A V I, Zhang B. Discriminative corpus weight estimation for machine translation[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Singapore: Association for Computational Linguistics, 2009: 708-717.
[13] 曹杰, 呂雅娟, 蘇勁松, 等. 利用上下文信息的統(tǒng)計(jì)機(jī)器翻譯領(lǐng)域自適應(yīng)[J]. 中文信息學(xué)報(bào), 2010, 24(6): 50-56.
[14] Foster G, Goutte C, Kuhn R. Discriminative instance weighting for domain adaptation in statistical machine translation[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Massachusetts, USA: Association for Computational Linguistics, 2010: 451-459.
[15] Su Jinsong, Wu Hua, Wang Haifeng, et al. Translation model adaptation for statistical machine translation with monolingual topic information[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics. Jeju, Republic of Korea: Association for Computational Linguistics, 2012: 459-468.
[16] Hewavitharana S, Mehay D N, Ananthakrishnan S, et al. Incremental topic-based translation model adaptation for conversational spoken language translation[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. Sofia, Bulgaria: Association for Computational Linguistics, 2013: 697-701.
[17] Hasler E, Blunsom P, Koehn P, et al. Dynamic Topic Adaptation for Phrase-based MT[C]//Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics. Gothenburg, Sweden: Association for Computational Linguistics, 2014: 328-337.
[18] Chen B, Foster G, Kuhn R. Adaptation of reordering models for statistical machine translation[C]//Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology. Atlanta, Georgia: Association for Computational Linguistics, 2013: 938-946.
[19] Wang X, Xiong D, Zhang Min, et al.A topic-based reordering model for statistical machine translation[M]. Berlin Heidelberg: Springer, 2014.
[20] Zhang B, Su J, Xiong D, et al. Discriminative reordering model adaptation via structural learning[C]//Proceedings of the 24th International Conference on Artificial Intelligence. Buenos Aires, Argentina: AAAI Press, 2015: 1040-1046.
[21] Tillmann C, Zhang T. A localized prediction model for statistical machine translation[C]//Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics. Ann Arbor, Michigan: Association for Computational Linguistics, 2005: 557-564.
[22] Blei D M, Andrew Y Ng, Michael I J. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022.
[23] Koehn P, Och F, Marcu D. Statistical phrase-based translation[C]//Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology. Edmonton, Canada: Association for Computational Linguistics, 2003: 48-54.
[24] Koehn P, Hoang H, Birch A, et al. Moses: open source toolkit for statistical machine translation[C]//Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics on Interactive Poster and Demonstration Sessions. Prague, Czech Republic: Association for Computational Linguistics, 2007: 177-180.
[25] Xiao T, Zhu J, Zhang H, et al. NiuTrans: an open source toolkit for phrase-based and syntax-based machine translation[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics. Jeju, Republic of Korea: Association for Computational Linguistics, 2012: 19-24.
[26] Franz J O, Hermann N. A systematic comparison of various statistical alignment models[J]. Computational Linguistics, 2003, 29(Jan): 19-51.
[27] Andreas S. SRILM-an extensible language modeling toolkit[C]//Proceedings of the 7th International Conference on Spoken Language Processing. Denver, Colorado, USA: Interspeech, 2002: 901-904.
[28] Franz J O. Minimum error rate training in statistical machine translation[C]//Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics. Sapporo, Japan: Association for Computational Linguistics, 2003: 160-167.
[29] Kishore P, Salim R, Todd W, et al. BLEU: a method for automatic evaluation of machine translation[C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. Philadelphia, Pennsylvania: Association for Computational Linguistics, 2002: 311-318.
劉夢(mèng)眙(1993—),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、機(jī)器翻譯。
E-mail: lmysd2015@163.com
姚亮(1993—),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、機(jī)器翻譯。
E-mail: yaoliang310@163.com
洪宇(1978—),通信作者,副教授,研究生導(dǎo)師,主要研究領(lǐng)域?yàn)樵掝}檢測(cè)、信息檢索和信息抽取。
E-mail: tianxianer@gmail.com
DomainAdaptationofReorderingModelviaTopicInformation:WordOrderinTranslatedTextacrossDomains
LIU Mengyi, YAO Liang, HONG Yu, LIU Hao, YAO Jianmin
(School of Computer Science amp; Technology, Soochow University, Suzhou, Jiangsu 215006, China)
The research on domain adaptation (DA) for statistical machine translation (SMT) aims at dynamically adjusting the translation model to ensure balanced and reliable translation quality in different domains. Existing researches on adaptation of translation model have made remarkable progress, but neglect the reordering issue. This paper investigates the translation samples in a large scale source bilingual corpus, revealing that 36.17% samples exhibits clear word order differences in phrase level translation pairs. Therefore, we propose a domain adaptive reordering model based on fusing topic information, to explore the reordering differences of phrases under different topic distribution. Experimental results show that translation systems with adaptive reordering model yield obvious performance improvements.
statistical machine translation; domain adaptation; reordering model; topic model
1003-0077(2017)05-0050-09
TP391
A
2016-08-16定稿日期2017-04-26
國(guó)家自然科學(xué)基金(61373097,61672368,61672367, 61331011);江蘇省科技計(jì)劃(SBK2015022101);教育部—中國(guó)移動(dòng)科研基金(MCM20150602)