于 恒,凃兆鵬,劉 群,劉 洋
(1.中國科學院 計算技術(shù)研究所 智能信息重點實驗室,北京100190;2.清華大學 計算機科學與技術(shù)系,北京100084)
音譯作為一種按照文字讀音進行近似翻譯的方法,在人名翻譯中有著廣泛的應用[1]。人名音譯接受一個源語言的人名作為輸入,在保證發(fā)音基本不變的原則下,輸出與該人名以目標語言表示的翻譯。例如,“Julianne”→“朱麗安”。由于音譯從讀音角度處理翻譯問題,在處理未登錄詞翻譯問題上有著良好的效果,因此在很多跨語言任務如機器翻譯、跨語言檢索以及跨語言問答系統(tǒng)中有著廣泛的應用。
由于語言習慣的不同,人名音譯過程中,應當適當調(diào)整源語言的序列結(jié)構(gòu)(即切分),以使之符合目標語言的語言習慣。因此翻譯粒度一直是音譯研究的重點之一。Knight和Graehl[2]在日英人名音譯中,以英文音素和日文音素為單位,通過發(fā)音相似性尋求轉(zhuǎn)換。Al-Onaizan和 Knight[3],Sherif[4]提出以字母為單位,跳過發(fā)音過程,直接進行翻譯。Wei-Hao Lin和 Hsin-His Chen[5]使用音節(jié)相似度模型進行人名音譯。鄒波、趙軍[6]將音節(jié)切分問題轉(zhuǎn)換為序列標注問題,采用機器學習的方法進行人名音譯。以上方法從不同角度處理音譯粒度問題,取得了良好的效果,但每種方法均存在不足之處,主要有以下幾個方面。
(1)以字母為粒度的方法能夠生成較為廣泛的音譯規(guī)則,但規(guī)則錯誤率較高,無法充分利用發(fā)音信息輔助切分。
(2)以音節(jié)為粒度的方法利用發(fā)音信息進行音節(jié)切分,生成準確度較高的音譯規(guī)則,但模型魯棒性較差,對一些特例或歧義性音譯無法得到正確切分。
(3)采用機器學習方法的音譯策略能夠從語料中自主學習音譯知識。但對標注語料的依賴性較強,對語料外的切分問題處理能力不佳。
因此,本文提出基于多粒度的英漢人名音譯方法。通過詞圖融合各種粒度的切分,從而緩解了因切分錯誤而導致的音譯錯誤,在充分利用語言學知識的同時又提高了模型的魯棒性和音譯規(guī)則的多樣性。實驗結(jié)果表明,在英漢人名音譯中基于多粒度音譯方法效果好于單一粒度的音譯方法,在準確率上提高3.1%,在翻譯BLEU值上提高2.2個百分點。
音譯問題可以應用P Br own[7]提出的噪聲信道模型進行建模。當觀察到噪聲信道的信號為O時,我們可以得到一個可能的輸入序列集合F(O),其中的每組輸入序列f都能得到對應的輸出序列e。我們的目標是找到概率最高的作為輸出。
在人名音譯問題中,O即為輸入英文人名,f為可能的音節(jié)切分序列,e為人名翻譯。模型的目標是從O中獲取最佳的切分序列f,然后利用音譯規(guī)則進行解碼,得到正確的音譯結(jié)果e。理論上,我們可以簡單地通過窮舉F(O)集合中的所有可能序列f來得到最佳翻譯,但這樣做會帶來巨大的計算開銷。實際上,許多可能的序列都具有相同的子片段,因此通過詞圖對這些可能的序列進行表示并在此基礎(chǔ)上進行解碼會大大提升系統(tǒng)的性能。
詞圖G=<V,E>為一個由點和有向邊構(gòu)成的有向無環(huán)圖,其中V為點集合,E為有向邊集合。形式上是一種帶權(quán)有限自動機。如圖1所示。
圖1 詞圖示意圖
詞圖可以表示各種輸入序列,并且支持相同子序列的共享,從初始節(jié)點0到終止節(jié)點的每條路徑都代表一組可能的序列,因此能夠?qū)⒉煌斎肴诤显谕粋€圖結(jié)構(gòu)中。
在音譯問題中,假設源端為n個字母的詞,詞圖上的每個節(jié)點為源端的跨度(從0到n),連接節(jié)點的邊為該跨度下可能的翻譯。我們的目標即為找到一條概率最大的路徑,路徑上的邊即為生成的目標翻譯。
如圖2所示,音譯“Julianne”的最佳路徑為紅線標出的“0-2-4-7-8”,生成的結(jié)果為“朱麗安”。
圖2 實例Julianne的詞圖及最優(yōu)翻譯路徑
Chiang[8]提出了基于上下文無關(guān)文法(SCFG)的層次短語翻譯模型。在解碼過程中,不斷使用翻譯規(guī)則匹配源端輸入串,生成翻譯片段,同時在目標端生成基于SCFG的樹結(jié)構(gòu)。本文采用類似方法,從對齊語料中抽取符合上下文無關(guān)文法的音譯規(guī)則進行解碼。
在我們的解碼算法中包含兩種元素。
1.[X→α·β,i,j]表示在跨度(i,j)上未匹配完成規(guī)則,“·”為位點,指示當前需要匹配的符號位置。
2.[X,i,j]表示在跨度(i,j)上為非終結(jié)符X。解碼的目標為找到一組覆蓋整個詞圖跨度[S,0,|V|-1]的規(guī)則推導。
在解碼中,我們定義如下兩種規(guī)則推導。
1.匹配一個終結(jié)符β,位點前進一位,同時覆蓋相應詞圖上的一條邊。規(guī)則跨度變?yōu)椋踚,j+1],生成新的翻譯片段 wj,j+1
2.匹配一個非終結(jié)符X,位點移位,并找到其對應后繼,將兩者的翻譯片段合并為w1×w2。
基于以上兩種推導規(guī)則,我們使用CKY算法,按照自底向上的順序,對詞圖進行解碼。
為了進行多粒度的融合,需要獲得各種粒度的英文切分。本節(jié)主要介紹三種切分方法。
基于字母的切分方法[3-4]以英文字母為單位,采用統(tǒng)計的方法學習源端和目標端的對應關(guān)系。
Wei-Hao Lin和 Hsin-His Chen[5]提出以英文音節(jié)為單位的切分方法。從發(fā)音的角度來尋找符合目標端語言習慣的最佳切分。如圖3所示。
圖3 音譯的切分獲取方法
首先英文部分利用CMU pronouncing dict①http://www.speech.cs.c mu.edu/cgi-bin/c mudict將英文序列拆分成相應的音節(jié),再通過音節(jié)詞典轉(zhuǎn)換為國際通用發(fā)音序列Inter national Phonetic Alphabet(IPA)。同時中文端將漢字轉(zhuǎn)化為拼音,再轉(zhuǎn)化為IPA序列。這樣源端和目標端通過IPA序列進行語音比較,從而找到源端正確的切分。
我們將英文音節(jié)的切分看成一個序列標注的問題:以L(音節(jié)首),M(音節(jié)中),R(音節(jié)尾),S(獨立音節(jié))來標識英文字母在所在音節(jié)中的位置。這四個類別可以覆蓋英文字母位置的所有情況。給定一個人工切分好音節(jié)的訓練集,我們可以很容易得到英文字母的標注序列。
在估計字母位置標注的概率分布時,我們使用最大熵模型。假設h為該標注的上下文特征集合,t為可能的標注集,則最終標注的概率可以表示為H和T的聯(lián)合概率分布,如式(2)所示。
其中π為歸一化常數(shù),{μ,a1,…,ak}為模型參數(shù),{f1,…,fk}為最大熵模型中定義的特征,fj(h,t)∈{0,1}。對于每一個特征fj,都有一個參數(shù)aj與之對應,作為該特征的權(quán)重。在訓練過程中,給定一個英文字母序列{c1,…,cn}和它們的標注集{t1,…,tn},訓練的目的是找到一組最佳的參數(shù){μ,a1,…,ak},使訓練數(shù)據(jù)的P的似然值L(P)最大。
最大熵模型的效果在很大程度上取決于選擇合適的特征。在(h,t)給定的條件下,所選特征必須包含對預測t有用的信息。我們在實驗中使用特征見表1。
表1 切分特征模板
如上列表所示,我們定義了三類特征,第一類是基于當前和上下文字母的特征(12345 第二類是基于前一二個字母的標注特征(6),第三類是默認特征(7),用來捕捉前兩類無法表示的情況。當訓練完成時,特征和它們的對應權(quán)重將可以用作計算未知數(shù)據(jù)中各種標記的出現(xiàn)概率,如式(4)所示。
給定一個序列{c1,…,cn},通過viter bi算法可以得到概率最大的標注序列{t1,…,tn},進而得到切分序列。
實驗的語料來源于Chinese-English Name Entity Lists v1.0(LDC2005 T34),該語料庫包括565935音譯對。我們從中過濾掉一些其他語種音譯對,得到4萬英漢人名對。從中隨機挑選500對作為開發(fā)集,500對作為測試集,其余作為訓練集。漢語語言模型以漢字為單位使用訓練集進行訓練。
我們分別使用第4節(jié)所述的三種切分方法獲得不同粒度的英文切分,再使用GIZA++工具對中英文兩端進行對齊。音譯規(guī)則抽取及詞匯化模型的訓練在生成的對齊數(shù)據(jù)上進行。
我們使用最小錯誤率訓練方法來優(yōu)化線性模型的參數(shù)。所使用的解碼器是層次短語解碼的C++重實現(xiàn)版本。該解碼器采用CKY方式進行解碼,并使用cube-pr uning的方法進行剪枝,以減少搜索空間。實驗所使用的棧大小為100。
我們使用層次短語的經(jīng)典特征進行解碼:
1.英文序列e音譯為漢語序列c的概率P(c|e)
2.漢語序列c音譯為英文序列e的概率P(e|c)
3.英文序列e音譯為漢語序列c的詞匯化概率lex(c|e)
4.漢語序列c音譯為英文序列e的詞匯化概率lex(e|c)
5.語言模型特征l m(c)
6.漢語譯文長度L(c)
7.音譯規(guī)則使用數(shù)量n
8.黏著規(guī)則使用數(shù)量m
在實驗中,我們比較了基于各種粒度的音譯效果,評價的標準如下。
部分管理者甚至認為有了先進的設備就可以忽略人的作用,將人與設備對立了起來,導致設備的無人看管和缺少維護。完全依靠先進設備進行電網(wǎng)調(diào)度的做法使得很多具體情況不能夠得到充分認識和考慮,使工作中出現(xiàn)顧此失彼的現(xiàn)象。
1.準確率:音譯結(jié)果完全匹配的結(jié)果百分比。
2.BLEU:機器翻譯中常用評價指標,表征音譯結(jié)果片段的準確率。
由于準確率只考慮完全匹配的情況,從而忽視了某些音譯片段的效果提升。因此我們加入BLEU作為評價標準,從更細的粒度來考察音譯的準確率。
如表2所示,以字母為粒度的音譯方法準確率為49.2%,BLEU值為0.5325,在所有方法中效果較差。主要原因是因為以字母為粒度導致對齊邊的增多,從而引入了很多對齊錯誤,導致許多錯誤的切分。在沒有其他發(fā)音信息的輔助下,生成過多無用的音譯規(guī)則,使規(guī)則表達到29 MB。而以音節(jié)為粒度的方法充分利用發(fā)音信息,系統(tǒng)性能有所提升準確率為54.2%,BLEU值為0.5513。但此方法生成的音譯規(guī)則過少,導致覆蓋率不足,并且不具備處理音譯歧義現(xiàn)象的能力。通過機器學習方法得到切分的音譯模型在性能上有了進一步的提升,準確率為61.2%,BLEU值為0.5721。該方法通過標注語料自動學習切分,但由于人工標注語料較為稀少,所以覆蓋率有限。
表2 不同粒度實驗效果比較
本文采用詞圖的方法混合以上三種粒度進行音譯規(guī)則抽取。實驗結(jié)果如表3所示。
ch+sy:融合字母和音節(jié)粒度
ch+ml:融合字母和機器學習粒度
sy+ml:融合音節(jié)和機器學習粒度
ch+sy+ml:同時融合三種粒度
表3 不同粒度融合實驗效果比較
從表3中可以發(fā)現(xiàn),基于詞圖的多粒度融合方法取得了明顯的性能提升。值得注意的是字母粒度雖然自身的性能較差,但是和其他兩種粒度融合都取得了明顯的效果。而音節(jié)粒度和機器學習粒度的融合卻沒有取得明顯的效果提升。造成這種現(xiàn)象的原因是音節(jié)粒度和機器學習粒度生成規(guī)則的相似性較高,且粒度都較大,因此規(guī)則數(shù)量較少。所以兩者融合后規(guī)則表數(shù)量并無明顯提升,性能上也沒有顯著增長。而字母為粒度的方法生成規(guī)則和其他兩種方法差異較大,從某種意義上提升了規(guī)則的多樣性,從而在融合中取得了良好的效果。最終,我們將三種粒度進行混合,得到最佳的性能,準確率為64.3%,BLEU值為0.594,比單粒度的最好性能準確率提升3.1%,BLEU 提升2.2%。
表4列出了不同音譯粒度下英文人名,“Julianne”的音譯結(jié)果。我們可以發(fā)現(xiàn)單粒度的結(jié)果都存在著不同程度上的問題。而多粒度融合的方法能夠得到正確的結(jié)果。
表4 不同粒度方法音譯“Julianne”的結(jié)果
近些年來,研究者們在人名音譯領(lǐng)域進行了廣泛的研究,Knight和Graehl[2]在日英人名音譯中,提出以英文音素為粒度,通過發(fā)音相似性尋求轉(zhuǎn)換的方法。Al-Onaizan 和 Knight[3],Sherif[4]提出以字母為單位,跳過發(fā)音過程,直接進行翻譯。Wei-Hao Lin和 Hsin-His Chen[5]使用音節(jié)相似度模型進行人名音譯。Long Jiang[10]通過人工定義規(guī)則的方法進行了有益的嘗試,將英文字母劃分為元音和輔音,在切分時遵循元音和輔音配對的原則。鄒波,趙軍[6]將音節(jié)切分問題轉(zhuǎn)換為序列標注問題,將機器學習和統(tǒng)計機器翻譯模型用于音譯。本文的模型融合以上方法的優(yōu)勢,通過詞圖融合生成多粒度的音譯規(guī)則,緩解了因切分錯誤帶來的翻譯錯誤,提高了系統(tǒng)的魯棒性。
在使用機器學習方法進行切分時,本文使用了最大熵模型[11]。該方法在NLP其他領(lǐng)域都有廣泛的應用,如Ratnaparkni[12]將其用于處理詞性標注問題,Nianwen Xue 在處理中文分詞問題時也用到類似方法,取得良好的效果。
在詞圖解碼算法上,Christopher Dyer[14]將其使用在機器翻譯上,融合源端的多種分詞結(jié)果,提升機器翻譯的性能。
本文提出了一種基于多粒度的英漢人名音譯方法,融合多種粒度的切分信息,生成更魯棒的音譯規(guī)則。實驗結(jié)果在準確率上比單粒度效果提升3.1%,BLEU提升2.2%。在后續(xù)的研究中,我們將探索更多的切分方法的融合,并改進解碼算法,爭取進一步提升音譯系統(tǒng)的性能。
[1]Li Haizhou,Zhang Min,Su Jian.A Joint Source-Channel Model f or Machine Transliteration[C]//Proceedings of ACL,2004:159-166.
[2]Kevin Knight,J.Graehl.Machine Transliteration[J],Co mputational Linguistics,1998,24(4):599-612.
[3]Yaser Al-Onaizan,Kevin Knight.Translating named entities using monolingual and bilingual resources[C]//Proceedings of ACL,2002:400-408.
[4]Tarek Sherif,Grzegorz Kondrak.Bootstrapping a stochastic transducer f or Arabic-English transliteration extraction[C]//Proceedings of ACL,2007:864-871.
[5]Wei-Hao Lin,Hsin-His Chen.Back ward Machine Transliteration by Lear ning Phonetic Si milarity[C]//Pr oceedings of the 6th Co NLL,2002:139-145.
[6]鄒波,趙軍.英漢人名音譯方法研究[C]//第四屆全國學生計算語言學研討會論集,2008:24-30.
[7]Brown P F,Pietra S A D,Pietra V J D.The mathematics of statistical machine translation:parameter esti mation[J].Co mputational Linguistics,1993:19(2):263-311.
[8]David Chiang. Hierarchical phrase-based translation[J].Co mputational Linguistics,2007,33(2):201-288.
[9]Franz Josef Och,Her mann Ney.A Systematic Comparison of Various Statistical Align ment Models[J].Co mputational Linguistics,2003,29(1):19-51.
[10]Long Jiang,Ming Zhou,Lee-Feng Chien,et al.Na med entity translation with web mining and transliteration[C]//Proceedings of IJCAI,2007:1629-1634.
[11]Adam L Berger,Stephen A.Della Pietra,Vincent J.Della Pietra.A Maxi mu m Entropy appr oach to Natural Language Processing[J].Computational Linguistics,1996,22:156-242.
[12]Ratnapar khi,Ad wait,A maxi mu m entropy part of speech tagger[C]//Proceedings of EMNLP,1996:133-124.
13 Nian wen Xue.Chinese Wor d Seg mentation as Character Tagging[J].Computational Linguistics and Clinese Language Processing,2003,8(1):29-48.
[14]Christopher Dyer,Muresan,Philip Resnik.Generalizing Wor d Lattice Transltion[C]//Proceedings of ACL,2008:1012-1020.