楊振新,李 淼,陳 雷,衛(wèi)林鈺,陳 晟,孫 凱
(1. 中國(guó)科學(xué)技術(shù)大學(xué) 自動(dòng)化系,安徽 合肥 230027;2. 中國(guó)科學(xué)院 合肥智能機(jī)械研究所,安徽 合肥 230031)
一種基于詞素媒介的漢蒙統(tǒng)計(jì)機(jī)器翻譯方法
楊振新1,2,李 淼2,陳 雷2,衛(wèi)林鈺1,2,陳 晟1,孫 凱1
(1. 中國(guó)科學(xué)技術(shù)大學(xué) 自動(dòng)化系,安徽 合肥 230027;2. 中國(guó)科學(xué)院 合肥智能機(jī)械研究所,安徽 合肥 230031)
漢蒙語(yǔ)形態(tài)差異性及平行語(yǔ)料庫(kù)規(guī)模小制約了漢蒙統(tǒng)計(jì)機(jī)器翻譯性能的提升。該文將蒙古語(yǔ)形態(tài)信息引入漢蒙統(tǒng)計(jì)機(jī)器翻譯中,通過(guò)將蒙古語(yǔ)切分成詞素的形式,構(gòu)造漢語(yǔ)詞和蒙古語(yǔ)詞素,以及蒙古語(yǔ)詞素和蒙古語(yǔ)的映射關(guān)系,彌補(bǔ)漢蒙形態(tài)結(jié)構(gòu)上的非對(duì)稱(chēng)性,并將詞素作為中間語(yǔ)言,通過(guò)訓(xùn)練漢語(yǔ)—蒙古語(yǔ)詞素以及蒙古語(yǔ)詞素-蒙古語(yǔ)統(tǒng)計(jì)機(jī)器翻譯系統(tǒng),構(gòu)建出新的短語(yǔ)翻譯表和調(diào)序模型,并采用多路徑解碼及多特征的方式融入漢蒙統(tǒng)計(jì)機(jī)器翻譯。實(shí)驗(yàn)結(jié)果表明,將基于詞素媒介構(gòu)建出的短語(yǔ)翻譯表和調(diào)序模型引入現(xiàn)有統(tǒng)計(jì)機(jī)器翻譯方法,使得譯文在BLEU值上比基線系統(tǒng)有了明顯提高,一定程度上消解了數(shù)據(jù)稀疏和形態(tài)差異對(duì)漢蒙統(tǒng)計(jì)機(jī)器翻譯的影響。該方法是一種通用的方法,通過(guò)詞素和短語(yǔ)兩個(gè)層面信息的結(jié)合,實(shí)現(xiàn)了兩種語(yǔ)言在形態(tài)結(jié)構(gòu)上的對(duì)稱(chēng),不僅適用于漢蒙統(tǒng)計(jì)機(jī)器翻譯,還適用于形態(tài)非對(duì)稱(chēng)且低資源的語(yǔ)言對(duì)。
中間語(yǔ)言;詞素;統(tǒng)計(jì)機(jī)器翻譯;短語(yǔ)翻譯表;調(diào)序模型
Abstract: To deal with the morphological difference between Chinese and Mongolian, this paper proposes a method of adopting morpheme of Mongolian as the pivot to Chinese-Mongolian statistical machine translation (SMT). First, we segment Mongolian word into morphemes, achieving a balance in the morphology of the language pair. Then, we treat Mongolian morpheme as pivot language and construct two new SMT systems: Chinese-Morpheme SMT and Morpheme-Mongolian SMT. New translation knowledge including phrase translation table and reordering model is introduced for these two SMT systems. Finally, we use multiple decoding paths and multiple features to incorporate the new translation knowledge. Experimental results demonstrate our method can improve the translation quality significantly.
Key words: pivot language; morpheme; statistical machine translation; phrase translation table; reordering model
收稿日期: 2015-9-18 定稿日期: 2016-2-24
基金項(xiàng)目: 國(guó)家自然科學(xué)基金(61502445,61572462);中國(guó)科學(xué)院信息化專(zhuān)項(xiàng)(XXH12504-1-10)
我國(guó)作為一個(gè)歷史悠久的多民族國(guó)家,民族語(yǔ)言之間的相互翻譯對(duì)促進(jìn)民族間的文化交流、經(jīng)濟(jì)發(fā)展具有重要意義。漢語(yǔ)和少數(shù)民族語(yǔ)言之間的形態(tài)差異性以及平行語(yǔ)料庫(kù)規(guī)模小使得漢蒙統(tǒng)計(jì)機(jī)器翻譯面臨挑戰(zhàn)。
對(duì)于漢蒙統(tǒng)計(jì)機(jī)器翻譯來(lái)說(shuō),漢語(yǔ)和蒙古語(yǔ)在形態(tài)方面差異極大。漢語(yǔ)屬于沒(méi)有形態(tài)變化的孤立語(yǔ),蒙古語(yǔ)是形態(tài)豐富的黏著語(yǔ),蒙古語(yǔ)的詞由詞干和詞綴組成。根據(jù)所表達(dá)的不同意思,蒙古語(yǔ)的詞干后面可以層層綴接不同的詞綴。因此,在漢蒙統(tǒng)計(jì)機(jī)器翻譯中,需要大規(guī)模語(yǔ)料才能覆蓋復(fù)雜多變的蒙古語(yǔ)。
目前,漢蒙雙語(yǔ)語(yǔ)料庫(kù)需要依靠語(yǔ)言學(xué)專(zhuān)家人工構(gòu)造,費(fèi)時(shí)費(fèi)力,在短時(shí)間里無(wú)法得以大量擴(kuò)充。漢蒙雙語(yǔ)語(yǔ)料資源稀缺,使得以統(tǒng)計(jì)為基礎(chǔ)的機(jī)器翻譯面臨嚴(yán)重的數(shù)據(jù)稀疏問(wèn)題,加之漢蒙語(yǔ)言在形態(tài)方面差異較大,進(jìn)一步制約了漢蒙統(tǒng)計(jì)機(jī)器翻譯性能的提升[1]。
兩種語(yǔ)言在形態(tài)方面的差異使得統(tǒng)計(jì)機(jī)器翻譯面臨嚴(yán)峻挑戰(zhàn)[2]。相關(guān)研究證實(shí)融入形態(tài)信息對(duì)于提高統(tǒng)計(jì)機(jī)器翻譯譯文質(zhì)量有很大幫助。Al-Haj和Lavie[3]在阿拉伯語(yǔ)到英語(yǔ)的翻譯中對(duì)阿拉伯語(yǔ)進(jìn)行形態(tài)切分,有效提高了阿拉伯語(yǔ)-英語(yǔ)機(jī)器翻譯質(zhì)量;Kholy和Habash[4]比較了三種不同的方法將形態(tài)信息融入英語(yǔ)-阿拉伯語(yǔ)統(tǒng)計(jì)機(jī)器翻譯中;Luong等[5]在翻譯模型訓(xùn)練和解碼過(guò)程中采用混合的詞素級(jí)、詞級(jí)策略,提高了英語(yǔ)-芬蘭語(yǔ)的翻譯質(zhì)量;Goldwater和McClosky[6]在捷克語(yǔ)-英語(yǔ)的翻譯中對(duì)捷克語(yǔ)進(jìn)行形態(tài)分析;Singh和Habash[7]在希伯來(lái)語(yǔ)-英語(yǔ)翻譯中使用形態(tài)信息改善未登錄詞的翻譯;Salameh等[8]針對(duì)形態(tài)豐富的目標(biāo)語(yǔ)言翻譯,將形態(tài)信息融入詞格解碼過(guò)程,顯著提高了譯文質(zhì)量。
在漢蒙機(jī)器翻譯方面,引入蒙古語(yǔ)形態(tài)信息可以顯著提高譯文質(zhì)量[1,9,10,19,20]。楊攀等[1]將蒙古語(yǔ)形態(tài)信息引入統(tǒng)計(jì)機(jī)器翻譯因子化模型中,在一定程度上消除了漢蒙形態(tài)差異及譯文選詞混亂等問(wèn)題;駱凱等[9]將漢語(yǔ)依存句法信息及蒙古語(yǔ)形態(tài)信息融入因子化模型,并采用LOP對(duì)模型參數(shù)進(jìn)行調(diào)整;但因子化模型翻譯解碼時(shí)間較長(zhǎng),且受生成模型影響。Li等[10]分兩步完成漢蒙機(jī)器翻譯,首先將漢語(yǔ)翻譯成蒙古語(yǔ)詞素,再將蒙古語(yǔ)詞素翻譯成蒙古語(yǔ),但兩次機(jī)器翻譯也會(huì)產(chǎn)生相關(guān)誤差。
與上述工作不同的是,本文將蒙古語(yǔ)形態(tài)信息引入統(tǒng)計(jì)機(jī)器翻譯,將蒙古語(yǔ)詞素視為中間語(yǔ)言,訓(xùn)練漢語(yǔ)-蒙古語(yǔ)詞素和蒙古語(yǔ)詞素-蒙古語(yǔ)統(tǒng)計(jì)機(jī)器翻譯系統(tǒng),通過(guò)基于蒙古語(yǔ)詞素為媒介的統(tǒng)計(jì)機(jī)器翻譯方法構(gòu)建出有用的翻譯知識(shí),并將其融入漢語(yǔ)-蒙古語(yǔ)統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中,以此消解漢蒙語(yǔ)形態(tài)差異及數(shù)據(jù)稀疏對(duì)統(tǒng)計(jì)機(jī)器翻譯的影響。
漢語(yǔ)屬于孤立語(yǔ),詞語(yǔ)幾乎沒(méi)有形態(tài)變化,同時(shí)也沒(méi)有表示語(yǔ)法意義的附加成分。然而,蒙古語(yǔ)屬于黏著語(yǔ),有著豐富的形態(tài),在構(gòu)詞和構(gòu)形上與漢語(yǔ)不同。蒙古語(yǔ)的構(gòu)詞、構(gòu)形都是通過(guò)在詞干后綴接不同的詞尾實(shí)現(xiàn)的,并且根據(jù)需求還可以層層綴接,這使得蒙古語(yǔ)形態(tài)豐富且復(fù)雜。在英語(yǔ)或漢語(yǔ)中必須用詞表達(dá)的意義,在蒙古語(yǔ)中用構(gòu)形詞綴表示就可以。表1是蒙古語(yǔ)形態(tài)變化豐富的例子。
表1 蒙古語(yǔ)形態(tài)學(xué)示例
根據(jù)《蒙古語(yǔ)語(yǔ)法信息詞典》中的統(tǒng)計(jì),蒙古語(yǔ)中有超過(guò)3萬(wàn)多個(gè)詞干、297個(gè)構(gòu)形詞綴,由此派生出來(lái)的蒙古語(yǔ)詞理論上是呈指數(shù)級(jí)增長(zhǎng)的,這需要大規(guī)模語(yǔ)料才能覆蓋蒙古語(yǔ)可能的表面詞形[1]。相對(duì)于漢語(yǔ)而言,蒙古語(yǔ)屬于低資源語(yǔ)言,漢蒙雙語(yǔ)平行語(yǔ)料稀缺,加之蒙古語(yǔ)形態(tài)變化豐富,語(yǔ)法、句法表達(dá)能力強(qiáng),在形態(tài)非對(duì)稱(chēng)的漢蒙機(jī)器翻譯系統(tǒng)中,語(yǔ)料稀疏問(wèn)題更加嚴(yán)重,統(tǒng)計(jì)翻譯模型的建模能力受到了很大的挑戰(zhàn)。蒙古語(yǔ)形態(tài)信息中蘊(yùn)含了豐富的知識(shí),從直觀上看,充分利用蒙古語(yǔ)形態(tài)信息,對(duì)于消解統(tǒng)計(jì)機(jī)器翻譯中面臨的數(shù)據(jù)稀疏問(wèn)題有很大幫助。
需要說(shuō)明的是,形態(tài)學(xué)中的詞素包含“詞根”、“詞干”、“構(gòu)詞詞綴”和“構(gòu)形詞綴”等多個(gè)概念。但由于蒙古語(yǔ)自動(dòng)詞法分析技術(shù)目前只能做到詞干、構(gòu)形詞綴的自動(dòng)識(shí)別和標(biāo)注,因此本文中的詞素包括詞干和構(gòu)形詞綴。
3.1 短語(yǔ)翻譯表 短語(yǔ)翻譯表作為基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯中的重要組成部分[11],由以下4部分組成: 正向短語(yǔ)翻譯概率、正向詞匯化加權(quán)、反向短語(yǔ)翻譯概率、反向詞匯化加權(quán)。
反向短語(yǔ)翻譯概率的計(jì)算方式如式(1)。
(1)
詞匯化加權(quán)作為一種有效的平滑方式,可以反映短語(yǔ)對(duì)的可靠性,通過(guò)將短語(yǔ)分解為詞,可獲得更多的統(tǒng)計(jì)數(shù)據(jù),反向詞匯化加權(quán)計(jì)算方式如式(2)。
(2)
3.2 中間語(yǔ)言策略的短語(yǔ)翻譯表構(gòu)建
漢蒙語(yǔ)料資源稀缺,加之漢蒙語(yǔ)形態(tài)差異大,因此漢蒙統(tǒng)計(jì)機(jī)器翻譯建模困難極大。本文對(duì)蒙古語(yǔ)進(jìn)行形態(tài)切分[19],將蒙古語(yǔ)詞表示成詞素形式,即蒙古語(yǔ)詞表示為“詞干+詞綴”。通過(guò)將蒙古語(yǔ)詞素作為中間語(yǔ)言,訓(xùn)練漢語(yǔ)—蒙古語(yǔ)詞素翻譯系統(tǒng)和蒙古語(yǔ)詞素—蒙古語(yǔ)翻譯系統(tǒng),并構(gòu)建出新的短語(yǔ)翻譯表,以此豐富翻譯模型。
本文將構(gòu)建出的短語(yǔ)翻譯表添加到原始基線系統(tǒng)中,通過(guò)多路徑解碼策略和基線短語(yǔ)翻譯表相結(jié)合,提升翻譯效果。具體而言,我們?cè)O(shè)置兩條翻譯路徑獨(dú)立解碼,每條翻譯路徑包含一個(gè)短語(yǔ)表,擇優(yōu)選擇最佳譯文。
4.1 調(diào)序模型 詞匯化調(diào)序模型[12]可以顯著提高機(jī)器翻譯質(zhì)量,在統(tǒng)計(jì)機(jī)器翻譯中廣泛使用。在基于詞的詞匯化調(diào)序模型中,當(dāng)前短語(yǔ)對(duì)與目標(biāo)語(yǔ)言前方詞的位置關(guān)系稱(chēng)為前向關(guān)系,與后方詞的位置關(guān)系稱(chēng)為后向關(guān)系。根據(jù)當(dāng)前短語(yǔ)對(duì)與前后上下文的位置關(guān)系,使用三種調(diào)序方向: 單調(diào)(monotone)、交換(swap)、非連續(xù)(discontinuous)。因此,考慮前后向關(guān)系,基于詞的調(diào)序模型一共有六種特征。
調(diào)序方向的識(shí)別如圖1所示。
圖1 調(diào)序方向識(shí)別示意圖
在詞對(duì)齊矩陣中,對(duì)于每一個(gè)抽取出的短語(yǔ)對(duì),識(shí)別其與前后詞之前的位置關(guān)系。(i,j)是源語(yǔ)言短語(yǔ)位置,(m,n)是目標(biāo)語(yǔ)言短語(yǔ)位置。對(duì)于抽取出的短語(yǔ)對(duì)bp,前向關(guān)系的調(diào)序方向識(shí)別如下:
? 單調(diào)調(diào)序: 如果(i-1,m-1)存在詞對(duì)齊,且(j+1,m-1)沒(méi)有對(duì)齊點(diǎn);
? 交換調(diào)序: 如果(i-1,m-1)沒(méi)有詞對(duì)齊,且(j+1,m-1)存在對(duì)齊點(diǎn);
? 非連續(xù)調(diào)序: 單調(diào)調(diào)序和交換調(diào)序以外的情況。
后向關(guān)系的調(diào)序方向識(shí)別如下:
? 單調(diào)調(diào)序: 如果(j+1,n+1)存在詞對(duì)齊,且(i-1,n+1)沒(méi)有對(duì)齊點(diǎn);
? 交換調(diào)序: 如果(j+1,n+1)沒(méi)有詞對(duì)齊,且(i-1,n+1)存在對(duì)齊點(diǎn);
? 非連續(xù)調(diào)序: 單調(diào)調(diào)序和交換調(diào)序以外情況。
(7)
為了避免零概率出現(xiàn)對(duì)機(jī)器翻譯解碼造成的干擾,本文將Count(o,bp)加0.5平滑??紤]前、后向調(diào)序關(guān)系,對(duì)于每個(gè)給定短語(yǔ)對(duì),本文根據(jù)式(7)計(jì)算六個(gè)不同概率。
4.2 中間語(yǔ)言策略的調(diào)序模型構(gòu)建
(8)
本文將構(gòu)建出的調(diào)序模型作為特征融入統(tǒng)計(jì)機(jī)器翻譯對(duì)數(shù)線性框架。需要注意的是,由于采用多個(gè)短語(yǔ)翻譯表,在機(jī)器翻譯解碼過(guò)程中,翻譯候選可能在調(diào)序模型中找不到相應(yīng)調(diào)序概率。針對(duì)這種情況,本文采用默認(rèn)概率的方法,即分別對(duì)兩個(gè)調(diào)序模型求出相應(yīng)的調(diào)序概率平均值。解碼過(guò)程中如果某
個(gè)翻譯候選無(wú)法在調(diào)序模型中找到調(diào)序概率,則將調(diào)序概率平均值作為翻譯選項(xiàng)的調(diào)序概率。
在漢蒙統(tǒng)計(jì)機(jī)器翻譯中,翻譯的任務(wù)是給定漢語(yǔ)句子f=f1…fn,搜索使得條件概率p(e|f)最大的蒙古語(yǔ)句子e=e1…em作為譯文的輸出。在對(duì)數(shù)線性模型框架下,最優(yōu)的蒙古語(yǔ)翻譯可以定義為:
(9)
其中,h(f,e)統(tǒng)計(jì)機(jī)器翻譯所采用特征,λ是特征參數(shù)。對(duì)數(shù)線性模型允許添加任意多的特征,每個(gè)特征對(duì)應(yīng)一個(gè)參數(shù),參數(shù)的調(diào)節(jié)采用最小錯(cuò)誤率算法。
基于詞素媒介的漢蒙統(tǒng)計(jì)機(jī)器翻譯框圖如圖2所示。
圖2 基于詞素的漢蒙統(tǒng)計(jì)機(jī)器翻譯框圖
5.1 實(shí)驗(yàn)數(shù)據(jù)
實(shí)驗(yàn)采用的訓(xùn)練集是第五屆全國(guó)機(jī)器翻譯研討會(huì)提供的漢蒙日常用語(yǔ)訓(xùn)練語(yǔ)料,開(kāi)發(fā)集為500句,測(cè)試集也為500句。開(kāi)發(fā)集和測(cè)試集中每句漢語(yǔ)都有四句由語(yǔ)言學(xué)專(zhuān)家獨(dú)立翻譯的蒙古語(yǔ)譯文。蒙古語(yǔ)語(yǔ)料均進(jìn)行了傳統(tǒng)蒙文到拉丁蒙文的轉(zhuǎn)換。實(shí)驗(yàn)數(shù)據(jù)信息如表2所示,其中500×4指的是500句源語(yǔ)言句子,每一句源語(yǔ)言對(duì)應(yīng)四句目標(biāo)語(yǔ)言參考譯文。
5.2 實(shí)驗(yàn)設(shè)置
本文首先采用HMM方法[19]將蒙古語(yǔ)詞切分成詞素形式,不考慮詞干還原現(xiàn)象。構(gòu)造出詞素中間語(yǔ)言所需的三種不同形式語(yǔ)料: 漢語(yǔ)、蒙古語(yǔ)詞素、蒙古語(yǔ)。
表2 實(shí)驗(yàn)數(shù)據(jù)
本文使用開(kāi)源工具GIZA++[13]并采用grow-diag-final-and[11]啟發(fā)式策略進(jìn)行雙語(yǔ)詞對(duì)齊。但是在蒙古語(yǔ)詞素—蒙古語(yǔ)機(jī)器翻譯系統(tǒng)中,本文根據(jù)蒙古語(yǔ)詞干、詞綴的規(guī)律生成了雙語(yǔ)詞對(duì)齊結(jié)果,并沒(méi)有使用GIZA++。使用SRILM[14]訓(xùn)練3元語(yǔ)言模型,并采用改進(jìn)的KN平滑算法[15]。漢語(yǔ)使用ICTCLAS[16]進(jìn)行中文分詞。采用最小錯(cuò)誤率算法[17]對(duì)參數(shù)進(jìn)行調(diào)整。短語(yǔ)抽取時(shí)最大短語(yǔ)長(zhǎng)度設(shè)為7。
5.3 基于詞素媒介的短語(yǔ)表分析
基于詞素媒介的漢蒙統(tǒng)計(jì)翻譯方法本質(zhì)上是利用蒙古語(yǔ)形態(tài)信息,構(gòu)建出新的短語(yǔ)對(duì),以此豐富翻譯模型。基線系統(tǒng)的短語(yǔ)表有1 872 336個(gè)短語(yǔ)對(duì),基于詞素媒介的短語(yǔ)表有1 305 651個(gè)短語(yǔ)對(duì),其中有35%的短語(yǔ)對(duì)沒(méi)有出現(xiàn)在基線短語(yǔ)表中。
直觀上,基于中間語(yǔ)言構(gòu)造出來(lái)的短語(yǔ)表規(guī)模會(huì)很大,而本文詞素短語(yǔ)表比基線短語(yǔ)表規(guī)模小。這是因?yàn)樵诿晒耪Z(yǔ)詞素—蒙古語(yǔ)機(jī)器翻譯系統(tǒng)中,我們使用規(guī)則方法生成詞對(duì)齊,不存在空對(duì)齊,抽取出來(lái)的蒙古語(yǔ)詞素-蒙古語(yǔ)短語(yǔ)表規(guī)模較小。
5.4 實(shí)驗(yàn)結(jié)果與分析
為了驗(yàn)證本文提出方法的有效性,本文設(shè)計(jì)了4組系統(tǒng)。
(1) 系統(tǒng)A: 基線系統(tǒng),使用的是漢蒙機(jī)器翻譯領(lǐng)域研究最廣泛的基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng);
(2) 系統(tǒng)B: 將詞素中間語(yǔ)言構(gòu)建出的短語(yǔ)翻譯表以多路徑解碼策略融入基線系統(tǒng)中;
(3) 系統(tǒng)C: 針對(duì)系統(tǒng)B中構(gòu)建出的短語(yǔ)翻譯表可能無(wú)法在基線調(diào)序模型中找到相關(guān)調(diào)序概率的情況,設(shè)置默認(rèn)概率;
(4) 系統(tǒng)D: 在系統(tǒng)C的基礎(chǔ)上,將詞素中間語(yǔ)言的調(diào)序模型以特征的方式融入統(tǒng)計(jì)機(jī)器翻譯對(duì)數(shù)線性模型,對(duì)于在調(diào)序模型中找不到概率信息的翻譯選項(xiàng),采用默認(rèn)概率。
本文采用BLEU[18]對(duì)譯文進(jìn)行打分,所有實(shí)驗(yàn)均重復(fù)三次取平均值,以此消解調(diào)參過(guò)程對(duì)實(shí)驗(yàn)結(jié)果的影響。實(shí)驗(yàn)結(jié)果如表3所示。
通過(guò)表3可以看出,本文所提出的基于詞素中間語(yǔ)言策略的統(tǒng)計(jì)機(jī)器翻譯方法可以有效地提高機(jī)器翻譯譯文質(zhì)量。系統(tǒng)B、C、D都比基線系統(tǒng)有提升,系統(tǒng)C通過(guò)采用默認(rèn)調(diào)序概率的方法比系統(tǒng)B又有所提高,加入基于詞素中間語(yǔ)言的調(diào)序模型雖然取得了最好的效果,但是和系統(tǒng)C相比并沒(méi)有太多提高,我們分析原因可能是雙調(diào)序模型產(chǎn)生了特征冗余現(xiàn)象,在開(kāi)發(fā)集上調(diào)得的參數(shù)不能有效地發(fā)揮雙調(diào)序模型的優(yōu)勢(shì)。
表3 實(shí)驗(yàn)結(jié)果
為了從直觀上理解本文方法的有效性,本文將表現(xiàn)最好的系統(tǒng)D和基線系統(tǒng)翻譯出的譯文進(jìn)行比較,分析兩個(gè)系統(tǒng)譯文的差異性。翻譯結(jié)果如表4所示。
表4 翻譯結(jié)果
表4是不同系統(tǒng)的機(jī)器翻譯結(jié)果,源語(yǔ)言是漢語(yǔ),系統(tǒng)A和系統(tǒng)D輸出結(jié)果是機(jī)器翻譯出來(lái)的蒙古語(yǔ),ref0、ref1、ref2、ref3是語(yǔ)言學(xué)家對(duì)源語(yǔ)言進(jìn)行翻譯的結(jié)果。對(duì)于表4的兩個(gè)例子,系統(tǒng)D的結(jié)果明顯優(yōu)于系統(tǒng)A。
例1是譯文時(shí)態(tài)選擇的例子,系統(tǒng)A和系統(tǒng)D中不同的地方在于HIDEG和HIHU。HI是動(dòng)詞的詞干,表示“干什么”,其后面綴加不同的詞綴表示不同的時(shí)態(tài),DEG是表示經(jīng)常體的形動(dòng)詞詞綴,它充當(dāng)述語(yǔ)時(shí)表示動(dòng)作的經(jīng)常性或習(xí)慣性,多用在現(xiàn)在時(shí);而HU是表示將來(lái)的詞綴,它充當(dāng)述語(yǔ)時(shí)表示絕對(duì)的或相對(duì)的將來(lái)時(shí)。因此,系統(tǒng)D對(duì)于譯文時(shí)態(tài)的選擇有幫助。
例2是詞匯精確翻譯的例子,系統(tǒng)A翻譯結(jié)果不完整,系統(tǒng)A譯文結(jié)果沒(méi)有“幣”,而J0G0S在蒙古語(yǔ)中表示“幣”的意思。因此,系統(tǒng)D可以使譯文的詞匯翻譯更加準(zhǔn)確。
本文針對(duì)漢蒙統(tǒng)計(jì)機(jī)器翻譯面臨的數(shù)據(jù)稀疏和形態(tài)差異大的問(wèn)題,將蒙古語(yǔ)進(jìn)行形態(tài)切分,一定程度上消解了漢蒙形態(tài)結(jié)構(gòu)不一致問(wèn)題,同時(shí)將蒙古語(yǔ)詞素看作中間語(yǔ)言,訓(xùn)練漢語(yǔ)-蒙古語(yǔ)詞素、蒙古語(yǔ)詞素-蒙古語(yǔ)翻譯系統(tǒng),并以此構(gòu)建出兩類(lèi)新的翻譯知識(shí): 短語(yǔ)翻譯表和調(diào)序模型,改善了數(shù)據(jù)稀疏對(duì)漢蒙機(jī)器翻譯系統(tǒng)的影響。另外,本文采用了多路徑解碼和多特征方法將以詞素為媒介構(gòu)建出來(lái)的翻譯知識(shí)集成到現(xiàn)有機(jī)器翻譯系統(tǒng)中,集成方式簡(jiǎn)單有效。實(shí)驗(yàn)結(jié)果表明,本文方法是有效的,而且具有通用性,不僅適用于漢蒙統(tǒng)計(jì)機(jī)器翻譯,同時(shí)也適用于其他形態(tài)非對(duì)稱(chēng)且平行語(yǔ)料規(guī)模較小的語(yǔ)言對(duì)。然而,本文采用的雙調(diào)序模型會(huì)產(chǎn)生特征冗余。因此,下一步工作將考慮如何對(duì)特征冗余進(jìn)行消解,如何將本文方法用在其他形態(tài)非對(duì)稱(chēng)語(yǔ)言對(duì)的統(tǒng)計(jì)機(jī)器翻譯中。
[1] 楊攀, 張建, 李淼,等.漢蒙統(tǒng)計(jì)機(jī)器翻譯中的形態(tài)學(xué)方法研究[J]. 中文信息學(xué)報(bào), 2009, 23(1): 50-57.
[2] Ke Tran, Arianna Bisazza, Christof Monz. Word translation prediction for morphologically rich languages with bilingual neural networks[C]//Proceedings of EMNLP, 2014: 1676-1688.
[3] Hassan Al-Haj, Alon Lavie. The impact of Arabic morphological segmentation on broad-coverage English-to-Arabic statistical machine translation[J]. Machine translation, 2012, 26(1-2): 3-24.
[4] Ahmed El Kholy, Nizar Habash. Translate, predict or generate: modeling rich morphology in statistical machine translation[C]//Proceedings of EAMT, 2012: 27-34.
[5] Minh-Thang Luong, Preslav Nakov, Min-Yen Kan. A hybrid morpheme-word representation for machine translation of morphologically rich languages[C]//Proceedings of EMNLP, 2010: 148-157.
[6] Sharon Goldwater, David McClosky. Improving statistical MT through morphological analysis[C]//Proceedings of HLT-EMNLP, 2005: 676-683.
[7] Nimesh Singh, Nizar Habash. Hebrew morphological preprocessing for statistical machine translation[C]//Proceedings of EAMT, 2012: 43-50.
[8] Mohammad Salameh, Colin Cherry, Greg Kondrak. Lattice desegmentation for statistical machine translation[C]//Proceedings of ACL, 2014: 100-110.
[9] 駱凱, 李淼, 烏達(dá)巴拉,等.漢蒙翻譯模型中的依存語(yǔ)法與形態(tài)信息應(yīng)用研究[J]. 中文信息學(xué)報(bào), 2009, 23(6): 98-104.
[10] Wen Li, Lei Chen, Miao Li, et al. Chained machine translation using morphemes as pivot language[C]//Proceedings of COLING, 2010: 169-177.
[11] Philipp Koehn, Franz Josef Och, Daniel Marcu. Statistical phrase-based translation[C]//Proceedings of NAACL-HLT, 2003: 48-54.
[12] Philipp Koehn, Hieu Hoang, Alexandra Birch, et al. Moses: open source toolkit for statistical machine translation[C]//Proceedings of ACL, 2007: 177-180.
[13] Franz Josef Och, Hermann Ney. Improved statistical alignment models[C]//Proceedings of ACL, 2000: 440-447.
[14] Andreas Stolcke. SRILM-an extensible language modeling toolkit.[C]//Proceedings of International Conference on Spoken Language Processing, 2002: 901-904.
[15] Stanley F Chen, Joshua Goodman. An empirical study of smoothing techniques for language modeling[C]//Proceedings of ACL, 1996: 310-318.
[16] 劉群, 張華平, 俞鴻魁,等.基于層疊隱馬模型的漢語(yǔ)詞法分析[J]. 計(jì)算機(jī)研究與發(fā)展, 2004, 41(8): 1421-1429.
[17] Franz Josef Och. Minimum error rate training in statistical machine translation[C]//Proceedings of ACL, 2003: 160-167.
[18] Kishore Papineni, Salim Roukos, Todd Ward,et al. BLEU: a method for automatic evaluation of machine translation[C]//Proceedings of ACL, 2002: 311-318.
[19] Miantao He, Miao Li, Lei Chen. Mongolian morphological segmentation with hidden Markov model[C]//Proceedings of IALP, 2012: 117-120.
[20] Hui Liu, Miao Li, Jian Zhang, et al. Morpheme Segmentation Using Bilingual Features[C]//Proceedings of IALP, 2012: 209- 212.
楊振新(1990—),博士研究生,主要研究領(lǐng)域?yàn)榻y(tǒng)計(jì)機(jī)器翻譯。
E-mail: xinzyang@mail.ustc.edu.cn
李淼(1955—),通信作者,研究員,博士生導(dǎo)師,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言語(yǔ)言處理。
E-mail: mli@iim.ac.cn
陳雷(1981—),副研究員,碩士生導(dǎo)師,主要研究領(lǐng)域?yàn)闄C(jī)器學(xué)習(xí)與自然語(yǔ)言處理。
E-mail: chenlei@iim.ac.cn
A Morpheme-Based Approach for Chinese-Mongolian SMT
YANG Zhenxin1,2, LI Miao2, CHEN Lei2, WEI Linyu1,2, CHEN Sheng1, SUN Kai1
(1. Department of Automation, University of Science and Technology of China, Hefei, Anhui 230027, China;2. Institute of Intelligent Machines, Chinese Academy of Sciences, Hefei, Anhui 230031, China)
1003-0077(2017)04-0057-06
TP301
A