羅 凌,陳毅東,史曉東,蘇勁松
(1. 廈門大學(xué) 智能科學(xué)與技術(shù)系, 福建 廈門 361005;2. 廈門大學(xué) 軟件學(xué)院,福建 廈門 361005)
?
基于復(fù)述技術(shù)的漢語成語翻譯方法研究
羅 凌1,陳毅東1,史曉東1,蘇勁松2
(1. 廈門大學(xué) 智能科學(xué)與技術(shù)系, 福建 廈門 361005;2. 廈門大學(xué) 軟件學(xué)院,福建 廈門 361005)
漢語成語是漢語的精華,擁有特有的語言形式,并經(jīng)常出現(xiàn)在漢語中。但是由于漢英統(tǒng)計機器翻譯訓(xùn)練語料中成語的稀疏性和現(xiàn)今大多機器翻譯系統(tǒng)并沒有對成語進(jìn)行特殊的處理和研究,在漢英機器翻譯中成語的翻譯并不理想。針對該問題,本文提出了基于復(fù)述技術(shù)的兩種方法來提高漢英統(tǒng)計機器翻譯系統(tǒng)中成語翻譯的能力。方法1: 測試集成語復(fù)述替換;方法2: 訓(xùn)練集成語復(fù)述替換。實驗結(jié)果表明,方法1可以解決成語未登錄詞問題,提高成語翻譯能力。方法2可以解決訓(xùn)練語料中成語稀疏問題,改善翻譯訓(xùn)練模型。
統(tǒng)計機器翻譯;成語翻譯;復(fù)述
漢語成語是漢語特有的語言形式,是一個固定短語,一般表達(dá)一個固定的語義,它簡短精辟,大多是約定俗成的四字結(jié)構(gòu),并且富有深刻的思想內(nèi)涵。漢語成語是漢語詞匯系統(tǒng)的重要組成部分,在漢語書面或者日常會話中經(jīng)常出現(xiàn),特別是在文學(xué)作品中尤為頻繁, 而在新聞領(lǐng)域中成語的使用頻率相對較低。盡管如此,經(jīng)劉長征等人[1]調(diào)查,2005年全年15種報紙的語料共使用四字格成語915 533次,文本總數(shù)為591 315個,平均每個文本使用成語1.5次。由此可見成語在漢語語句中出現(xiàn)地相當(dāng)頻繁。而在現(xiàn)今漢英統(tǒng)計機器翻譯研究中,漢語成語在統(tǒng)計機器翻譯系統(tǒng)中存在的問題并沒有引起太多的關(guān)注,事實上,由于成語在翻譯訓(xùn)練語料中的稀疏性導(dǎo)致了翻譯系統(tǒng)對包含成語的句子的翻譯質(zhì)量比較糟糕。本文分別對Google在線機器翻譯系統(tǒng)*http://translate.google.cn/和使用開源工具M(jìn)oses自行訓(xùn)練的短語機器翻譯系統(tǒng)進(jìn)
表1 成語翻譯出錯實例
行了包含成語句子的翻譯測試,測試結(jié)果表明現(xiàn)今漢英統(tǒng)計機器翻譯系統(tǒng)對漢語成語這部分的翻譯還是存在不少問題。
具體地,測試一,從成語詞典*http://cy.5156edu.com/中隨機抽取400條成語,并從網(wǎng)絡(luò)上爬取包含該成語的句子作為測試集,對Google在線機器翻譯系統(tǒng)進(jìn)行測試,人工對翻譯結(jié)果進(jìn)行評測,結(jié)果表明,400句測試集中,共143句成語翻譯存在問題,占句子總數(shù)的35.75%;測試二,從NIST04,05,06中抽取包含成語的句子共352句作為使用FBIS訓(xùn)練的Moses短語系統(tǒng)測試集,人工對翻譯結(jié)果進(jìn)行評測,結(jié)果表明,86句成語翻譯存在問題,占句子總數(shù)的24.43%。根據(jù)觀察,這些問題主要是: 第一,成語作為未登錄詞致使翻譯系統(tǒng)無法翻譯;第二,訓(xùn)練數(shù)據(jù)中部分成語比較稀疏,導(dǎo)致對齊和翻譯錯誤。一些問題實例可見表1,調(diào)查結(jié)果表明,現(xiàn)今的統(tǒng)計機器翻譯系統(tǒng)對成語的翻譯并不理想,并且這個問題普遍存在。
針對該問題,本文提出了基于復(fù)述技術(shù)的兩種方法來提高漢英統(tǒng)計機器翻譯系統(tǒng)中漢語成語的翻譯能力,方法1: 測試集成語復(fù)述替換,用以解決成語作為未登錄詞的問題。方法2: 訓(xùn)練集成語復(fù)述替換,用以解決訓(xùn)練集中成語稀疏問題。
本文其他部分安排如下: 第二節(jié)闡述使用復(fù)述解決成語翻譯問題的原因以及總體思路;第三節(jié)介紹如何獲取成語復(fù)述,并提出了復(fù)述替換選擇的方法;第四節(jié)提出了兩種將成語復(fù)述替換應(yīng)用到實際的漢英統(tǒng)計機器翻譯系統(tǒng)中的方法,并進(jìn)行了詳細(xì)描述;第五節(jié)給出相應(yīng)的實驗結(jié)果及分析;第六節(jié)給出相關(guān)結(jié)論以及未來的研究方向。
對于成語翻譯問題首先最容易想到的解決辦法是構(gòu)建一個漢英成語翻譯詞典,當(dāng)待譯的語句中出現(xiàn)成語時,直接通過查找詞典來進(jìn)行成語翻譯。
但是這樣的做法有以下三個弊端: 第一,現(xiàn)今并沒有一個公開免費的漢英成語翻譯型電子詞典,要編寫一個這樣的漢英成語詞典需要大量的人力和物力;第二,詞典翻譯基本都是一對一,這樣相同的成語在不同句子中的翻譯都是同樣一個結(jié)果,結(jié)果單調(diào),也會影響句子的通順度;第三,如果要做漢語除英語以外其他語言的翻譯,那么又需要構(gòu)建其他語言的成語翻譯詞典。
在語言學(xué)界,漢語成語的翻譯已經(jīng)有不少研究,如果我們將語言學(xué)中的一些理論借鑒到機器翻譯中的成語翻譯問題上,那么在很大程度上可以解決以上弊端。
從20世紀(jì)60年代起,國外已逐漸形成了較為系統(tǒng)的翻譯語言學(xué)理論。對等翻譯就是西方翻譯理論中的一個核心概念[2]。其中尤金奈達(dá)是西方語言學(xué)派翻譯理論的主要代表,提出了許多有著深遠(yuǎn)影響的翻譯理論,功能對等就是其中之一[3]。
功能對等理論主張翻譯時不求文字表面的死板對應(yīng),而要在兩種語言間達(dá)成功能上的對等。他強調(diào)譯文最基本的要求是使目標(biāo)語的讀者能理解和欣賞原文讀者對原文的理解和欣賞[4]。
在語言學(xué)界,已經(jīng)有不少研究證明了功能對等理論對漢語成語翻譯的適用性[2,5-6]。受功能對等理論的啟發(fā),我們可以在成語翻譯中利用自然語言處理領(lǐng)域中的復(fù)述技術(shù)來解決成語翻譯問題。所謂復(fù)述(Paraphrases),主要是研究短語或者句子的同義現(xiàn)象[7]。本文使用復(fù)述來替換源語言端的成語,以達(dá)到功能對等的效果,再進(jìn)行翻譯。
這種做法有三大優(yōu)點:第一,將成語替換成了更常見的短語,降低了翻譯難度;第二,獲取了成語復(fù)述庫后,對于漢語到其他語言的成語翻譯同樣可以進(jìn)行;第三,替換源語言端,翻譯結(jié)果仍依賴訓(xùn)練語料的統(tǒng)計結(jié)果,以致翻譯結(jié)果不至于單一。
由于復(fù)述現(xiàn)象的普遍性,在統(tǒng)計機器翻譯的各個階段復(fù)述研究已經(jīng)有著重要的應(yīng)用[8]。前人研究表明,復(fù)述可在多個方面改進(jìn)統(tǒng)計機器翻譯。首先,復(fù)述改善翻譯模型訓(xùn)練[9-12];其次,復(fù)述可以提高調(diào)參效果[13-15];再次,通過復(fù)述改寫待譯語句來提高翻譯質(zhì)量,解決未登錄詞問題[16-21];另外,復(fù)述還可以改善機器翻譯自動評測[22-24]。
根據(jù)對等理論以及前人在機器翻譯中復(fù)述應(yīng)用的研究,本文提出了兩種基于復(fù)述技術(shù)的漢語成語翻譯方法。方法1: 測試集成語復(fù)述替換,將測試集中未登錄的成語進(jìn)行復(fù)述替換,再進(jìn)行解碼翻譯;方法2: 訓(xùn)練集成語復(fù)述替換,將訓(xùn)練集中分布稀疏的成語替換成相應(yīng)復(fù)述,改善翻譯訓(xùn)練模型。
3.1 成語復(fù)述的獲取
要進(jìn)行成語復(fù)述的替換首先要構(gòu)建成語復(fù)述庫,成語復(fù)述的獲取自然成為了首先要解決的問題,它為后面的工作奠定了重要的基礎(chǔ)。近些年來,復(fù)述作為自然語言處理的一個重要研究方向得到了學(xué)術(shù)界越來越多的重視,研究者們相繼提出了多種獲取復(fù)述的方法和模型[25-28]。本文對前人提出的最有效也最具代表性的幾種方法加以實現(xiàn)和改進(jìn)來獲取漢語成語復(fù)述,這其中包括:
方法1: 基于單語平行語料庫的成語復(fù)述抽取方法。
方法2: 基于雙語平行語料庫的成語復(fù)述抽取方法。
方法3: 基于詞典的成語復(fù)述抽取方法。
對于每種方法抽取出的成語復(fù)述,我們都進(jìn)行了人工評測,并且計算了準(zhǔn)確率,本文還對每種方法的優(yōu)缺點進(jìn)行了分析和比較,特別注明,本文中的成語識別均基于在線詞典②中的成語匹配。
抽取復(fù)述短語的一個最直觀的想法便是從一個含有大規(guī)模復(fù)述句對的單語平行語料中提取復(fù)述短語。Barzilay和McKeown首先提出了利用單語平行語料獲取復(fù)述短語[25],他們獲得的復(fù)述對經(jīng)過人工評測準(zhǔn)確率達(dá)到85%。借鑒他們的研究,我們首先從網(wǎng)上收集了小說《鋼鐵是怎樣煉成的》的兩本不同中文譯本。篩選出包含成語的句子,然后通過計算句對間同現(xiàn)詞的個數(shù)進(jìn)行句對齊,構(gòu)建平行句對,總共748對。接著計算成語和相應(yīng)平行句中短語的上下文相似度,取其左右各四個詞作為上下文,最后取相似度最高的短語作為其復(fù)述。相似度計算均根據(jù)詞重疊率計算而得。
但由于可用的單語平行語料的規(guī)模限制以及單語文本類型領(lǐng)域的限制,Bannard和Callison-Burch[27]提出了基于“樞軸法(pivot approach)”從雙語平行語料庫中抽取復(fù)述短語,他們使用了統(tǒng)計機器翻譯的短語表,若采用自動詞對齊,準(zhǔn)確率可達(dá)到64.5%。該方法的基本假設(shè)是:若兩個短語e1和e2對齊相同的外文翻譯短語f,則e1和e2便是一對復(fù)述短語。本文重現(xiàn)了該方法,具體地,本文使用了FBIS約20萬句對雙語平行語料,首先經(jīng)過Giza++[29]對齊,并根據(jù)基于短語的統(tǒng)計機器翻譯方法[30]獲取了短語表。然后從短語表中查找與成語擁有相同外文翻譯的短語,并取其中最大概率的短語作為該成語的復(fù)述。
由于上述兩種方法的資源比較有限,獲取的成語復(fù)述的數(shù)量較少,所以本文提出從成語詞典注釋中提取成語復(fù)述的方法,該方法可以得到大規(guī)模的成語復(fù)述?,F(xiàn)在網(wǎng)絡(luò)上電子成語詞典資源比較豐富并且容易獲取,經(jīng)過比較和分析,本文最終選擇在線成語詞典②用來抽取復(fù)述。該詞典與其他同類詞典相比,收集的成語相對全面,現(xiàn)已經(jīng)收錄41 843條成語,而且該詞典注釋簡明扼要,更利于成語復(fù)述的抽取。經(jīng)過分析,本文編寫了一些句子規(guī)則模板來從成語解釋中提取成語復(fù)述。
對于上述三種方法獲得的成語復(fù)述,我們都從中隨機抽出了200對,進(jìn)行人工評測標(biāo)注,并計算了準(zhǔn)確率,為了更好地對每種方法加以比較,我們將各種方法使用的語料資源、抽取得到的成語復(fù)述規(guī)模及其準(zhǔn)確率進(jìn)行了總結(jié),詳見表2。
表2 成語復(fù)述獲取方法對比表
其中‘K’表示的是單位“千”
基于前人的復(fù)述抽取方法對于成語這個特殊短語來說還是存在不少問題。從語料資源獲取的難度上看,由于網(wǎng)絡(luò)上相同名著的不同漢語譯本比較少,基本都是同一版本,所以單語平行語料獲取的難度比雙語平行語料和成語詞典大得多;從獲取的成語復(fù)述規(guī)模來看,由于單語平行語料和雙語平行語料的規(guī)模、領(lǐng)域受限,從中獲取到的成語復(fù)述規(guī)模自然受限,而成語詞典包含了大量成語,可以得到大規(guī)模的成語復(fù)述;從抽取成語復(fù)述結(jié)果的準(zhǔn)確率來看,由于單語平行語料中句子意思并不一定完全一致,所以獲取的成語復(fù)述準(zhǔn)確率比較低,雙語平行語料由于成語的稀疏性等問題,導(dǎo)致成語對齊結(jié)果不準(zhǔn)確,由此獲得的成語復(fù)述準(zhǔn)確率也不高,而成語的解釋就是成語的意思,所以基于詞典方法準(zhǔn)確率可達(dá)到98.5%。
3.2 成語復(fù)述的替換選擇
通過上述不同方法,我們將獲取的復(fù)述整合成一個復(fù)述庫。表3展示了復(fù)述庫的一些實例。同一個成語可能會有多個不同的復(fù)述,這樣在進(jìn)行復(fù)述替換時就需要進(jìn)行復(fù)述選擇。
表3 成語復(fù)述實例
其中,1指基于單語平行語料的方法,2是基于雙語平行語料的方法,3是基于詞典的方法
通過對復(fù)述實例的觀察發(fā)現(xiàn)基于單語和基于雙語的方法抽取出來的復(fù)述基本是詞級別,而基于詞典的方法抽取出來的復(fù)述基本是短句級別。根據(jù)這些特點我們可以制定一些規(guī)則來進(jìn)行復(fù)述選擇。首先我們對待譯的句子進(jìn)行句法分析,然后根據(jù)句中的依存關(guān)系將成語進(jìn)行分類,再根據(jù)我們制定的規(guī)則進(jìn)行成語復(fù)述替換選擇。
由句法分析我們將成語分成四類: 名詞性成語、修飾性成語、動詞性成語和其他成語。這里我們使用哈工大的依存句法分析工具LTP來進(jìn)行成語的分類,將滿足表4相應(yīng)依存關(guān)系的成語分到相應(yīng)的成語類別中。
將成語進(jìn)行分類后,我們使用如下的規(guī)則進(jìn)行復(fù)述替換選擇:
? 不選擇包含訓(xùn)練集中未登錄詞的復(fù)述。
表4 成語分類規(guī)則表
? 對于動詞性成語和其他成語,我們使用基于詞典的方法抽取出來的復(fù)述。
? 對于名詞性成語和修飾性成語,我們使用基于單語平行語料的方法和基于雙語平行語料的方法抽取出來的復(fù)述。如果同一個成語存在多個詞級別的復(fù)述時,我們使用N元語言模型進(jìn)行打分,選取得分最高的作為該成語最終的復(fù)述替換。
由于基于詞典的方法抽取出來的復(fù)述多為短句級別,而且比較全面,準(zhǔn)確率也比較高,這樣適合作為獨立分句的動詞性成語和其他成語的復(fù)述替換。而基于單語平行語料和雙語平行語料的方法抽取出來的復(fù)述基本都是詞級別,根據(jù)名詞性成語和修飾性成語在句子中充當(dāng)?shù)某煞?,詞級別的復(fù)述進(jìn)行替換比較合適。后面實驗要進(jìn)行的成語復(fù)述替換選擇都是使用本節(jié)的方法。
受前人在機器翻譯中復(fù)述應(yīng)用的研究啟發(fā),針對成語在統(tǒng)計機器翻譯中存在的問題,本文提出了兩種方法來提高漢英統(tǒng)計機器翻譯系統(tǒng)中成語的翻譯能力,方法1: 測試集成語復(fù)述替換;方法2: 訓(xùn)練集成語復(fù)述替換。
下文將分別介紹兩種方法,包括方法的流程圖、詳細(xì)研究方法以及該方法的優(yōu)勢與不足。
4.1 方法1: 測試集成語復(fù)述替換
將測試集中的成語替換成相應(yīng)的復(fù)述,改寫待譯語句,再進(jìn)行機器翻譯解碼。其流程圖如圖1所示。其中,機器翻譯訓(xùn)練部分包括獲取短語表和訓(xùn)練語言模型;解碼部分首先對待譯的測試集進(jìn)行成語復(fù)述的替換,然后再進(jìn)行統(tǒng)計機器翻譯解碼,得到譯文。
圖1 方法1流程圖
由于獲取的成語復(fù)述一般都是些常用詞匯,所以替換后可以解決未登錄詞的問題,起到了降低翻譯難度的作用。但這樣的替換存在的缺陷是,由于沒有對替換后的句子進(jìn)行處理,在一些情況下,會影響句子的通順度。
4.2 方法2: 訓(xùn)練集成語復(fù)述替換
數(shù)據(jù)稀疏問題一直是統(tǒng)計機器翻譯中的一個重要問題,經(jīng)實驗,有一定數(shù)量的成語在訓(xùn)練集中比較稀疏,這對詞語對齊和短語概率計算都會有一定的影響。本文將對訓(xùn)練集中稀疏的成語進(jìn)行復(fù)述的替換,試圖改善模型訓(xùn)練,在解碼時,為了防止產(chǎn)生未登錄詞,因此對測試集也做了相應(yīng)替換。其流程圖如圖2所示。其中,在訓(xùn)練模塊,把成語用它的所有
圖2 方法2流程圖
復(fù)述進(jìn)行替換,形成的句對集全部加入訓(xùn)練集(為了讓頻率不失真,我們將所有句子都統(tǒng)一放大相同倍數(shù)),得到新的訓(xùn)練語料,再進(jìn)行訓(xùn)練獲取短語表;在解碼模塊,首先對待譯的測試集做成語復(fù)述的選擇替換,然后再進(jìn)行解碼翻譯,得到譯文。
大部分成語由于稀疏性問題在進(jìn)行詞對齊時,常常會對空或者對錯,而成語復(fù)述大多是由常見的通俗詞語組成,經(jīng)過成語復(fù)述的替換,由訓(xùn)練過程來自動選優(yōu),對詞對齊和短語概率計算會起到糾正作用,改善翻譯模型訓(xùn)練。
5.1 實驗設(shè)置
我們把本文提出的方法應(yīng)用到實際的漢英統(tǒng)計機器翻譯系統(tǒng)中來驗證它們的有效性。本文實驗中用到的系統(tǒng)都是基于開源工具M(jìn)oses中的短語統(tǒng)計機器翻譯系統(tǒng)。
實驗中我們使用的訓(xùn)練語料為FBIS語料,開發(fā)集使用的是NIST MT 2002的測試集,測試集有使用到NIST MT 2005、NIST MT 2006的測試集,還有從NIST MT 2004~2006測試集中提取出包含成語的句子作為一個測試集,下面稱作NIST-Idiom。實驗中使用的語言模型是通過SRILM工具根據(jù)Gigaword語料訓(xùn)練出的四元語言模型。詞語對齊工具采用的是GIZA++。對于實驗結(jié)果,我們采用大小寫不敏感的BLEU[31]、GTM[32]、Meteor[33]和人工評測來評價翻譯質(zhì)量,其中人工評測是根據(jù)譯文結(jié)果按0~5分打分,然后將每句的得分相加除以測試集中句子總數(shù)作為該測試集譯文結(jié)果的分?jǐn)?shù),由三個不同的人打分最后取平均值作為最終分?jǐn)?shù)。表5展示了我們所用的實驗數(shù)據(jù)。
表5 實驗數(shù)據(jù)
其中‘K’表示的是單位“千”,‘M’表示的是單位“百萬”
根據(jù)上一節(jié)提到的成語復(fù)述在統(tǒng)計機器翻譯中的應(yīng)用,本文分別對方法1和方法2設(shè)置了性能測試實驗,具體實驗結(jié)果和分析將在下面詳細(xì)介紹。
5.2 方法1性能測試實驗
由于網(wǎng)絡(luò)上漢英資源相對比較豐富,我們找到了一部英漢漢英詞典(73 003詞對),為了和利用詞典的方法進(jìn)行比較,我們設(shè)置了兩個Baseline(BL1和BL2)。BL1只用了FBIS進(jìn)行訓(xùn)練,BL2使用了FBIS和詞典資源進(jìn)行訓(xùn)練。我們將方法1在兩個Baseline上都進(jìn)行了實驗。實驗中不僅替換了測試集中的未登錄成語,還根據(jù)成語在訓(xùn)練集中出現(xiàn)的次數(shù)進(jìn)行相應(yīng)的測試集成語復(fù)述替換對比實驗。首先我們使用NIST05和NIST06作為測試集。但是由于NIST05和NIST06中包含成語的句子占整個測試集的比例太小,評測結(jié)果基本不變,表6給出了方法1在BL1上的結(jié)果,這樣的結(jié)果無法驗證方法1的有效性。所以我們又構(gòu)建了NIST-Idiom測試集來進(jìn)行測試。實驗結(jié)果見表7。
表6 方法1在NIST05和NIST06上的結(jié)果
“Tn”表示將測試集里在訓(xùn)練集中出現(xiàn)次數(shù)小于等于n的成語替換成相應(yīng)復(fù)述。其中T0表示替換未登錄詞,TAll表示替換測試集中全部成語。
表7 方法1在NIST-Idiom上的結(jié)果
“Tn”表示將測試集里在訓(xùn)練集中出現(xiàn)次數(shù)小于等于n的成語替換成相應(yīng)復(fù)述。其中T0表示替換未登錄詞,TAll表示替換測試集中全部成語?!?”表示是在BL2上的實驗結(jié)果。
從表7可以看出,無論是在BL1還是BL2上,使用方法1替換測試集中的未登錄詞,在GTM、Meteor和人工評測上都有所提升,在BLEU上略微有些下降。原因可能是BLEU方法是基于N元匹配,而替換成語復(fù)述后,替換部分往往會比原句長,導(dǎo)致得分偏低。通過對翻譯結(jié)果的查看分析發(fā)現(xiàn),盡管BL2中加入了詞典,但是該詞典包含的成語還是比較少,并未解決成語翻譯的問題,方法1在BL2上也還是有效的。從實驗結(jié)果還可以看出,對于訓(xùn)練集中出現(xiàn)次數(shù)小于等于10的成語,在測試集中做相應(yīng)的替換,得到的Meteor和人工評測分?jǐn)?shù)最高。說明方法1不僅能解決成語未登錄詞的問題,還可以在一定程度上提高訓(xùn)練集中稀疏成語的翻譯能力。
表8展示了翻譯結(jié)果對比的一些示例,包括兩個正例和一個反例。從第一個正例來看,替換成語未登錄詞不僅可以解決未登錄詞無法翻譯的問題,還對未登錄詞周邊的部分翻譯有所改進(jìn)。從第二個“1s”表示替換前的源語言句子,“1t”表示“1s”對應(yīng)的系統(tǒng)翻譯結(jié)果;“2s”表示成語復(fù)述替換后的源語言句子,“2t”表示“2s”對應(yīng)的系統(tǒng)翻譯結(jié)果。其中前兩個是正例,后一個是反例。
表8 方法1翻譯結(jié)果對比示例
正例可以看出,由于訓(xùn)練集中部分成語過于稀疏,對齊結(jié)果常常出錯或者對空,該類成語即使不是未登錄詞,也是無法正確翻譯,替換這類成語可以提高其翻譯能力。但從反例可以看出,有些替換后的待譯句子并不通順或者出現(xiàn)句法錯誤,這種情況下翻譯效果并沒有得到改善。
5.3 方法2性能測試實驗
本實驗將方法2用在BL1基線系統(tǒng)上,對 NIST05、NIST06和NIST-Idiom測試集進(jìn)行測試。我們根據(jù)成語在訓(xùn)練集中出現(xiàn)次數(shù)來對訓(xùn)練集中該成語進(jìn)行復(fù)述替換,并按不同出現(xiàn)次數(shù)做了實驗對比,實驗結(jié)果見表9。
從表9中可以看出,盡管在不同的測試集,幾種評測方法并不完全一致,每個測試集的最佳替換效果也不是同一個頻數(shù)的替換,不過替換訓(xùn)練集中出現(xiàn)次數(shù)在20以下的成語,在三個測試集上的翻譯結(jié)“Rn”表示將訓(xùn)練集中出現(xiàn)次數(shù)小于等于n的成語替換成相應(yīng)的成語復(fù)述。其中RAll表示替換訓(xùn)練集中全部成語。BL2是加入詞典資源的基線系統(tǒng)。
表9 方法2在NIST05、NIST06和NIST-Idioms上的結(jié)果
果相比基線系統(tǒng)各項指標(biāo)上都有所提高。和加入詞典資源的BL2相比,方法2在測試集上的最佳效果要優(yōu)于BL2。
對比方法2和方法1,方法2從訓(xùn)練集角度改善了翻譯模型訓(xùn)練,提高了模型的翻譯質(zhì)量,方法1從測試集的角度解決了未登錄成語的翻譯,在NIST-Idiom測試集上,方法2在自動評測方法的優(yōu)勢比方法1大,方法1在人工評測上會有更大的優(yōu)勢。
實驗結(jié)果表明,將訓(xùn)練集中出現(xiàn)次數(shù)較少的成語替換成其復(fù)述,使其轉(zhuǎn)換成了較常見的詞語組合,對詞對齊和短語計算概率有所影響,可以改善翻譯模型訓(xùn)練。相比之下,替換出現(xiàn)次數(shù)較高的成語,翻譯結(jié)果概率相比基線系統(tǒng)有所下降,說明出現(xiàn)次數(shù)較高的成語在訓(xùn)練時大多已經(jīng)能形成正確的對齊,而替換后產(chǎn)生了噪聲,反而影響了翻譯效果。
本文針對漢英統(tǒng)計機器翻譯中成語翻譯存在的問題,引入了復(fù)述的方法,根據(jù)獲取復(fù)述的特點提出了復(fù)述替換擇優(yōu)的方法,并分別應(yīng)用在漢英統(tǒng)計機器翻譯測試集和訓(xùn)練集中,來改善成語翻譯問題。實驗結(jié)果表明,利用復(fù)述技術(shù)能夠有效提高漢英統(tǒng)計機器翻譯系統(tǒng)中的成語翻譯質(zhì)量。
由于現(xiàn)在基于詞典的成語復(fù)述抽取獲取的復(fù)述大多是短句級別,比較難擴展,并且其他方法獲取的成語復(fù)述又很少,所以現(xiàn)在的成語復(fù)述庫比較單一,使得在復(fù)述替換時并沒有較多的復(fù)述進(jìn)行選擇。在未來的研究工作中,我們將研究如何改進(jìn)基于詞典的成語復(fù)述抽取,使該方法抽取的成語復(fù)述更為簡潔扼要,這樣就可以使用一些基于語義的方法來擴展成語復(fù)述,使其更加豐富而不至于單一。同時,在成語復(fù)述的應(yīng)用研究中,除了在機器翻譯中的應(yīng)用,如何在自然語言處理其他領(lǐng)域有更好的應(yīng)用,也是我們下一步研究的方向。
[1] 劉長征,秦鵬. 基于中國主流報紙動態(tài)流通語料庫(DCC)的成語使用情況調(diào)查[J]. 語言文字應(yīng)用,2007, 8(3): 78-86.
[2] 衡孝軍. 從社會符號學(xué)翻譯法看漢語成語英譯過程中的功能對等[J]. 中國翻譯,2003,24(4): 23-25.
[3] 譚載喜. 新編奈達(dá)論翻譯[M]. 北京: 中國對外翻譯出版公司,1999.
[4] Eugene A Nida. Language, Culture and Translating[M]. Shanghai: Shanghai Foregin Language Education Press,1999.
[5] 謝媛媛. 功能對等和漢語成語翻譯[J]. 安徽農(nóng)業(yè)大學(xué)學(xué)報,2007,16(2): 137-139.
[6] 王俊義. “功能對等”理論對成語翻譯的適用性[J]. 河北理工學(xué)院學(xué)報,2001,1(3): 87-89.
[7] 劉挺,李維剛,張宇,等. 復(fù)述技術(shù)研究綜述[J]. 中文信息學(xué)報,2006,20(4): 25-32.
[8] 胡金銘,史曉東,蘇勁松,等. 引入復(fù)述技術(shù)的統(tǒng)計機器翻譯研究綜述[J]. 智能系統(tǒng)學(xué)報,2013,8(3): 199-207.
[9] F Bond,E Nichols,DS Appling,et al. Improving statistical machine translation by paraphrasing the training data[C]//Proceedings of the International Workshop on Spoken Language Translation. Waikiki,USA,2008: 150-157.
[10] P Nakov. Improved statistical machine translation using monolingual paraphrases[C]//Proceedings of the 18th Biennial European Conference on Artificial Intelligence. Patras,Greece,2008: 338-342.
[11] R Kuhn,B Chen,G Foster,et al. Phrase clustering for smoothing TM probabilities-or,how to extract paraphrases from phrase tables[C]//Proceedings of the 23rd International Conference on Computational Linguistics. Beijing,China,2010: 608-616.
[12] A Max. Example-based paraphrasing for improved phrase based statistical machine translation[C]//Proceedings of the 2010 Conference in Empirical Methods in Natural Language Processing. MIT,USA,2010: 656-666.
[13] N Madnani,NF Ayan,P Resnik,et al. Using paraphrases for parameter tuning in statistical machine translation[C]//Proceedings of the Second Workshop on Statistical Machine Translation. Prague,The Czech Republic,2007: 120-127.
[14] N Madnani,P Resnik,BJ Dorr,et al. Are multiple reference translations necessary? Investigating the value of paraphrased reference translations in parameter optimization[C]//Proceedings of the 8th Conference of the Association for Machine Translation in the Americas,Waikiki,USA,2008: 993-1000.
[15] N Madnani,BJ Dorr. Generating targeted paraphrases for improved translation[J]. ACM Transactions on Intelligent Systems and Technology,2013,4(3): 1-26.
[16] T Mitamura,E Nyberg. Automatic rewriting for controlled language translation[C]//Proceedings of the NLPRS 2002 Workship on Automatioc Paraphrasing: Theories and Applications,Tokyo,Japan,2001: 1-12.
[17] K Yamamoto. Machine translation by interaction between paraphraser and transfer[C]//Proceedings of the 19th International Conference on Computational Linguistics,Taipei,China,2002: 1107-1113.
[18] Y Zhang,K Yamamoto. Paraphrasing of Chinese utterances[C]//Proceedings of the 19th International Conference on Computational Linguistics,Taipei,China,2002: 1163-1169.
[19] M Shimohata,E Sumita,Y Matsumoto. Building a paraphrase corpus for speech translation [C]//Proceedings of the 4th International Conference on Language Resources and Evaluation,Lisbon, Portugal,2004: 1407-1410.
[20] T Onishi,M Utiyama,E Sumita. Paraphrase lattice for statistical machine translation [C]//Proceedings of the ACL 2010 Conference Short Papres,Uppsala,Sweden,2010: 1-5.
[21] J Du,J Jiang,A Way. Facilitating translation using source language paraphrase lattices[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing,MIT,USA,2010: 420-429.
[22] Y Lepage,E Denoual. Automatic generation of paraphrases to be used as translation references in objective evaluation measures of machine translation[C]//Proceedings of the 2nd International Joint Conference on Natural Language Processing,Jeju Island,Korea,2005: 57-64.
[23] L Zhou,CY Lin,E Hovy. Re-evaluating machine translation results with paraphrase support[C]//Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing,Sydney,Australia,2006: 77-84.
[24] G Russo-Lassner,J Lin,P Resnik. A paraphrased- based approach to machine translation evaluation[R]. College Park,USA: University of Maryland,2005.
[25] R Barzilay,K R McKeown. Extracting Paraphrases from a Parallel Corpus[C]//Proceedings of ACL/EACL. 2001:: 50-57.
[26] 李維剛,劉挺,李生. 基于雙語語料庫的短語復(fù)述實例獲取[J]. 中文信息學(xué)報,2007,21(5): 112-117.
[27] C Bannard,C Callison-Burch. Paraphraseing with Bilingual Paraller Corpora[C]//Proceedings of ACL,2005: 597-604.
[28] R Higashinaka,K Nagao. Interactive Paraphrasing Based on Linguistic Annotation[C]//Proceedings of COLING,2002: 1218-1222.
[29] Franz Josef Och,Hermann Ney. Improved statistical alignment models[C]//Proceedings of the 38th Annual Meeting of the Association for Computational Linguistics,Hong Kong,2000: 440-447.
[30] Philipp Koehn,F(xiàn)ranz Josef Och,,Daniel Marcu. Statistical phrase-based translation[C]//Proceedings of HLT-NAACL,2003: 127-133.
[31] Kishore Papineni,Salim Roukos,Todd Ward. BLEU: a Method for Automatic Evaluation of Machine Translation[C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics,Philadelphia,2002: 311-318.
[32] Joseph P.Turian,Luke Shen,I Dan Melamed. Evaluation of Machine Translation and its Evaluation[C]//Proceedings of MT Summit IX,New Orleans,LA. 2003: 386-393.
[33] Satanjeev Banerjee,Alon Lavie. METEOR: An automatic metric for MT evaluation with improved correlation with human judgement[C]//Proceedings of Workshop on Intrinsic and Extrinsic Evaluation Measures for MT and/or Summarization at the 43th Annual Meeting of the Association of Computational Linguistics, Ann Arbor, Michigan, 2005: 65-72.
Chinese Idiom Translation Based on Paraphrasing
LUO Ling1, CHEN Yidong1*, SHI Xiaodong1, SU Jinsong2
(1. Cognitive Science Department, Xiamen University, Xiamen, Fujian 361005, China;2. Software School, Xiamen University, Xiamen, Fujian 361005, China)
Chinese idioms are frequently used in all kinds of Chinese texts. However, since Chinese idioms are relatively sparse in most training corpora for Chinese-English SMT systems, translation quality of the idioms are not satisfactory. And to the best of our knowledge, there is very little research on handling the translation of Chinese idioms. This paper proposes two methods to improve the translation of Chinese idioms by paraphrases in Chinese-English SMT. In the first method, we paraphrase the Chinese idioms in the test set, while in the second method, we paraphrase the Chinese idioms in the training set. The experimental results show that both methods could significantly improve the performance of the Chinese-English SMT system.
statistical machine translation; idioms; paraphrases
羅凌(1988—),碩士研究生,主要研究領(lǐng)域為自然語言處理與機器翻譯。E-mail:robert_ai_xmu@163.com陳毅東(1977—)博士,副教授,主要研究領(lǐng)域為自然語言處理與機器翻譯。E-mail:ydchen@xmu.edu.cn史曉東(1966—),博士,教授,主要研究領(lǐng)域為自然語言處理與機器翻譯。E-mail:mandel@xmu.edu.cn
1003-0077(2015)04-0166-09
2013-08-15 定稿日期: 2014-03-13
國家自然科學(xué)基金(61005052);國家科技支撐計劃(2012BAH14F03);中央高校基本科研業(yè)務(wù)費專項資金(2010121068);福建省自然科學(xué)基金(2011J01369)
TP
A