諾明花,吳 健,劉匯丹,丁治明
(1. 中國(guó)科學(xué)院 軟件研究所,北京 100190;2. 中國(guó)科學(xué)院 研究生院,北京 100049)
本文工作核心是要針對(duì)特定領(lǐng)域漢藏多策略機(jī)器輔助翻譯系統(tǒng)(MSCT_CAT)構(gòu)建短語(yǔ)對(duì)齊庫(kù)的需求,獲取藏文譯文。MSCT_CAT是基于實(shí)例的輔助翻譯系統(tǒng),它通過(guò)檢索實(shí)例句子庫(kù),短句庫(kù)和短語(yǔ)庫(kù)來(lái)提供相似的參考譯文。
基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯的優(yōu)勢(shì)在于短語(yǔ)能夠抓住局部上下文的依賴關(guān)系。迄今為止,已經(jīng)出現(xiàn)了多種短語(yǔ)抽取方法[1-8]。其中,有些計(jì)算復(fù)雜度太高,代價(jià)很高;有些模型依賴于詞對(duì)齊的結(jié)果,有些依賴于句法分析結(jié)果,對(duì)資源的要求很高。本文要從漢藏對(duì)齊語(yǔ)料中抽取互譯短語(yǔ)對(duì)。由于藏文自身的繁雜性及使用范圍相對(duì)較小的特點(diǎn),加之當(dāng)前藏文信息處理技術(shù)還在起步階段,藏語(yǔ)語(yǔ)料庫(kù)建設(shè),自動(dòng)分詞標(biāo)注等與機(jī)器翻譯相關(guān)的基礎(chǔ)研究尚未形成系統(tǒng)。GIZA++等開源詞對(duì)齊工具對(duì)訓(xùn)練語(yǔ)料庫(kù)規(guī)模有一定要求,特定領(lǐng)域漢藏句對(duì)齊語(yǔ)料規(guī)模有限,漢藏詞對(duì)齊正確率為進(jìn)一步做短語(yǔ)抽取而言不可取。因此,考慮目前還沒(méi)有詞性、句法層面上加工過(guò)的語(yǔ)料,漢藏短語(yǔ)獲取方法一定擺脫對(duì)詞對(duì)齊、句法分析等資源的依賴。
本文獲取的短語(yǔ)是廣義上的,它是由若干個(gè)單詞組成的語(yǔ)塊。MSCT_CAT的短語(yǔ)庫(kù)只要有漢語(yǔ)短語(yǔ)以及它的藏文譯文即可以轉(zhuǎn)成TMX庫(kù),以供檢索和返回短語(yǔ)譯文用。本文的思路是先從句對(duì)齊雙語(yǔ)語(yǔ)料中獲取有效漢語(yǔ)語(yǔ)塊,對(duì)包含待譯語(yǔ)塊的句對(duì)求交集,得到候選譯文,最后經(jīng)過(guò)后處理得到漢藏互譯語(yǔ)塊并保持到短語(yǔ)庫(kù)中。
王辰[9]提出了一種基于序列相交的短語(yǔ)譯文獲取方法,該方法不依賴于額外資源信息的特點(diǎn)正符合目前藏文資源匱乏,可以借鑒到MSCT_CAT的短語(yǔ)庫(kù)構(gòu)建模型中。
本節(jié)先分析藏文短語(yǔ)類型,再介紹TIA譯文獲取模型。為了使用詞序列相交方法,漢藏兩種語(yǔ)言的文本都需要分詞。本文使用斯坦福的中文分詞開源項(xiàng)目和中國(guó)科學(xué)院軟件研究所多語(yǔ)言信息處理研究室開發(fā)的藏文分詞模塊分別對(duì)漢藏單語(yǔ)語(yǔ)料進(jìn)行分詞。
在藏文實(shí)際文本中,從不同層面來(lái)分析短語(yǔ)特性時(shí)可以得出以下結(jié)論。
? 其次,漢藏互譯對(duì)之間對(duì)應(yīng)關(guān)系有兩種形式;經(jīng)過(guò)分析收集的漢藏句對(duì)齊語(yǔ)料發(fā)現(xiàn)雙語(yǔ)短語(yǔ)中的漢語(yǔ)單詞既有只有一種譯文的,也有兩個(gè)或以上的譯文的。一個(gè)原文短語(yǔ)對(duì)應(yīng)一個(gè)譯文較常見,這里不舉例說(shuō)明,這種現(xiàn)象本文稱為一詞一譯,簡(jiǎn)稱一對(duì)一(1-1)。由于翻譯機(jī)構(gòu)的地域性或者上下文意譯,同一個(gè)中文有不同譯法,類似一詞多義,這種現(xiàn)象本文稱為一詞多譯,簡(jiǎn)稱一對(duì)多(1-n)。
漢藏雙語(yǔ)句對(duì)詞序列相交的示例見表1。
表1 漢藏雙語(yǔ)句對(duì)詞序列相交示例表
從以上分析可以得出兩個(gè)句對(duì)SPr與SPt相交公式,表示如下:
Q={Q1,Q2, …,Qk} 為句對(duì)SPr和SPt中漢語(yǔ)句子CSr和CSt的交集,Q中包含Qi(1≤i≤k)待翻譯的中文短語(yǔ);T={T1,T2, …,Tg} 為SPr和SPt中藏文句子TSr和TSt的交集,T中肯定包含Qi的譯文,可以通過(guò)漢藏詞典確定 (Qi,Tj)漢藏互譯對(duì)。
待翻譯中文短語(yǔ)由多個(gè)漢語(yǔ)單詞構(gòu)成,表示如公式(2):
Qi中任意單詞Qi+θ(1≤θ≤l)在詞典中查找,如果詞典中有譯項(xiàng)計(jì)數(shù)并保存到一個(gè)鏈結(jié)構(gòu)L中,一定會(huì)存在某個(gè)Tj+ω能夠滿足Tj+ω∩L≠ Ф的條件,保留為候選譯文。當(dāng)Qi中有未找到譯項(xiàng)的Qi+θ時(shí),設(shè)定一個(gè)閾值(本文取0.66),對(duì)待譯漢語(yǔ)語(yǔ)塊中查詞典成功率大于閾值的保留譯文,對(duì)小于閾值的候選譯文進(jìn)一步計(jì)算其在序列相交過(guò)程中累計(jì)的頻次權(quán)值,保留權(quán)值高的候選,丟棄權(quán)值低的候選譯文。最終保留的Tj+ω(1≤ω≤g)構(gòu)成Qi的譯文Tj。Tj可以是連續(xù)的,也可以是非連續(xù)的。
本文提出藏文詞串頻率統(tǒng)計(jì)算法(簡(jiǎn)稱TSM)和藏文詞串序列相交算法(簡(jiǎn)稱TIA)兩種方法獲取短語(yǔ)譯文。TSM可以滿足短語(yǔ)連續(xù)性,但是只能抽取1-1的短語(yǔ)對(duì)。而TIA可以彌補(bǔ)TSM的不足,能夠抽取1-n的漢藏短語(yǔ)對(duì)。TIA使用的語(yǔ)料為漢藏句對(duì)齊雙語(yǔ)語(yǔ)料庫(kù),將通過(guò)漢藏詞序列相交模型,獲取1-n的漢藏互譯短語(yǔ)對(duì)。
先簡(jiǎn)單描述一下詞串頻率統(tǒng)計(jì)算法思想。給定一個(gè)待翻譯漢語(yǔ)語(yǔ)塊Q,TSM需要解決怎樣確定Q的譯文P。TSM算法目標(biāo)是獲取1-1的互譯對(duì)。為了算法描述便利,先假定部分符號(hào)表示。
?SP表示語(yǔ)料中所有包含Q的句對(duì)集合;
?Sn表示SP中句對(duì)數(shù);
?TSS表示SP中藏文句子集;
?CS表示公共子串。
以上符號(hào)通用于3.1節(jié)和3.2節(jié)。TSM算法生成公共子串CS過(guò)程描述如下:
1. 從TSS中,任選一個(gè)藏文句子TS。
2. 為TS建立一個(gè)單詞列表WL,并保留TS中的詞序。
3.WL中詞在TSS范圍內(nèi)以句子為單位做詞頻統(tǒng)計(jì)。
4. 標(biāo)記所有滿足詞頻為Sn的單詞,獲取CS的集合,用ICS來(lái)表示。
5. 使用雙語(yǔ)詞典過(guò)濾ICS中與Q不相關(guān)的公共子串,用UCS表示。
6. 按照WL中詞序恢復(fù)CS的鄰接性和連續(xù)性。
7. 使用TSW過(guò)濾模塊過(guò)濾CS邊界高頻干擾信息得到譯文P。
藏文詞串頻率統(tǒng)計(jì)算法抽取到的1-1互譯對(duì)(Q,P)能夠很好地滿足MSCT_CAT構(gòu)建短語(yǔ)庫(kù)的需求。TSM算法只適合1-1的連續(xù)和非連續(xù)短語(yǔ)抽取,然而以下兩個(gè)因素導(dǎo)致漢藏語(yǔ)料中存在漢語(yǔ)短語(yǔ)有多種譯法的情況,降低TSM的召回率。
? 短語(yǔ)中部分漢語(yǔ)單詞可以對(duì)應(yīng)意義相同的多個(gè)藏文單詞,不同的譯者選擇不一致。
? 根據(jù)上下文意譯時(shí),藏文格特征和后修飾特征[12]引起中心詞之外的部分不一致。
為了提高召回率,TIA重點(diǎn)解決1-n的短語(yǔ)對(duì)抽取問(wèn)題。漢藏詞序列相交模型中提到,對(duì)包含Q的漢藏句對(duì)計(jì)算公共子串確定P后可以獲取漢藏短語(yǔ)對(duì)(Q,P)。從公式(1)得知,句對(duì)的序列相交由若干個(gè)藏文公共子串CS組成。將為每個(gè)CS構(gòu)造一個(gè)樹結(jié)構(gòu)T的話,句對(duì)的序列相交可以組成一個(gè)森林。T由中心節(jié)點(diǎn)和修飾節(jié)點(diǎn)兩種節(jié)點(diǎn)組成。表2給出兩種節(jié)點(diǎn)各個(gè)字段及功能,以便后續(xù)算法描述。
表2中的中心節(jié)點(diǎn)用來(lái)存儲(chǔ)藏文句子取交后的CS的所有中心語(yǔ),用ITN表示,修飾節(jié)點(diǎn)記錄與其相關(guān)聯(lián)的中心節(jié)點(diǎn)的修飾語(yǔ),用SYN表示。因此,T的根節(jié)點(diǎn)是tag域?yàn)?的ITN節(jié)點(diǎn),T的葉子是next域?yàn)榭盏腎TN節(jié)點(diǎn)。對(duì)某個(gè)ITN來(lái)說(shuō),syn域指向左節(jié)點(diǎn),next域指向右節(jié)點(diǎn)。CS中某個(gè)中心節(jié)點(diǎn)的左子樹是由其在語(yǔ)料中出現(xiàn)的所有格特征和后修飾特征通過(guò)SYN的next域鏈接而成的鏈表SL。
表2 公共子串樹節(jié)點(diǎn)各個(gè)域及功能表
由公式(2),Q由若干個(gè)詞Qi(1≤i≤l) 組成。取交過(guò)程中Q的所有候選譯文均保存為表2的節(jié)點(diǎn),生成樹T或森林F。T或F中并不是所有節(jié)點(diǎn)組成最終譯文,通過(guò)確認(rèn)過(guò)程滿足以下兩個(gè)條件的節(jié)點(diǎn)才會(huì)被選為最終譯文的一部分。
1) 譯文中一定包含任意Qi(1≤i≤l)的譯文;
2) 所有候選譯文的支持度和等于Sn。
TIA算法核心是為已知的漢語(yǔ)語(yǔ)塊Q構(gòu)建公共子串森林F,以及遍歷F來(lái)確認(rèn)Q的最終譯文P。構(gòu)建F的過(guò)程描述如下:
TIA構(gòu)建F的過(guò)程
1. Choose any two sentencesTS1andTS2fromTSSat random.
2. CalculateTS1∩TS2results, denote asIL.
3. FilterILby dictionary (D) in terms ofQ, get sublist ofIL, denotes asSL.
4. Construct forestFofSL, based on table 3.
5. for eachTSinTSS-{TS1,TS2}
6. for each treeTinF
7. ifTScontainsTthen
8. plus 1 tofreqfor all nodes inTand exit.
9. if (TScontains parts ofT) & (TScontains qualifierSfor the rest parts ofT)& (S?SL) then
10. newly-built aSYNand assign theSto field syn and exit.
11. end for
12. end for
以上取交過(guò)程生成一個(gè)森林F。下一步是通過(guò)遍歷F確認(rèn)Q的譯文P。P是CS的集合,藏語(yǔ)譯文確認(rèn)過(guò)程描述如下。其中用A,B,C,D分別將P標(biāo)記為1-1,1-n,,連續(xù)或非連續(xù)短語(yǔ)等短語(yǔ)類型。
TIA藏語(yǔ)譯文確認(rèn)過(guò)程
1. inttn=0,i=0.
2. for eachTinF
3. for eachtwinT
4. iffreqequalsSn
5. addtwto{Pi} andi++.
6. else if sum offreqinSLequalsSn
7. add sy_tw ofSLto {Pi} and
i++.
8. else
9. discardT.
10. end for
11.tn++
12. end for
13. iftn==1
14. (Q,P) are marked asA
15. Iftn>1
16. (Q,P) are marked as B
17. Ifi==1
18.Pis marked asC
19.elseifi> 1 then
20.Pis marked asD
可以示例說(shuō)明藏文譯文確認(rèn)過(guò)程。假設(shè),在漢藏平行語(yǔ)料中有50個(gè)句對(duì)包含待翻譯語(yǔ)塊Q,取交后獲取兩個(gè)公共子串CS1和CS2。為CS1和CS2構(gòu)建樹結(jié)構(gòu),分別用T1和T2表示,如圖1。
圖1 譯文確認(rèn)過(guò)程
待譯語(yǔ)塊Qi的譯文Tj的確認(rèn)過(guò)程是對(duì)由T1和T2組成的森林的搜索過(guò)程。在圖1 中,T1的根節(jié)點(diǎn)W11的freq域值等于50,因此被標(biāo)記為最終譯文的組成部分。W12_sy1是W12的修飾語(yǔ),同時(shí)W12_sy1和W12的freq域值的和等于50,因此詞組[W12,W12_sy1] 被接受。W13的freq域?yàn)?0,它被接受為最終譯文的組成部分。W14的freq域值小于50,從而被丟棄。同樣原理,W21和W22被接受。Qi的最終翻譯譯文Tj是由兩棵樹T1和T2對(duì)應(yīng)的字符串中所有被接受并標(biāo)記的節(jié)點(diǎn)序列的集合,P={W11[W12|W12_sy1]W13,W21W22}。
因?yàn)槭褂昧斯沧哟畼浜蜕纸Y(jié)構(gòu),TIA既能抽取1-1短語(yǔ),又能抽取1-n短語(yǔ)。同時(shí)TIA也不會(huì)遺漏非連續(xù)短語(yǔ),能夠滿足藏文短語(yǔ)的連續(xù)性。從而可以滿足MSCT_CAT的短語(yǔ)庫(kù)構(gòu)建需求。
實(shí)驗(yàn)數(shù)據(jù)是漢藏法律法規(guī)和公文報(bào)告等特定領(lǐng)域語(yǔ)料。漢語(yǔ)語(yǔ)料通過(guò)網(wǎng)上下載處理得到,藏文語(yǔ)料由西藏翻譯局提供。收集到的原始語(yǔ)料通過(guò)篇章對(duì)齊和句子對(duì)齊后,最終形成短語(yǔ)對(duì)抽取模塊可以處理的五份漢藏語(yǔ)料,語(yǔ)料的統(tǒng)計(jì)數(shù)據(jù)見表3。表中,最后一列短語(yǔ)對(duì)數(shù)為計(jì)算召回率時(shí)人工確認(rèn)的平行語(yǔ)料中所含的短語(yǔ)對(duì)數(shù)量。
表3 語(yǔ)料信息
在實(shí)驗(yàn)中,對(duì)五組語(yǔ)料分別用TSM和TIA進(jìn)行短語(yǔ)抽取之后,采用計(jì)算機(jī)輔助人工的方法判斷互譯對(duì)正確與否,實(shí)驗(yàn)的準(zhǔn)確率(P)定義為:
召回率(R)定義為:
TSM算法簡(jiǎn)單,容易實(shí)現(xiàn)。它抽取的連續(xù)短語(yǔ)準(zhǔn)確率較高。TSM抽取的1-1連續(xù)短語(yǔ)(C)和非連續(xù)短語(yǔ)(D)統(tǒng)計(jì)結(jié)果見表4。TIA算法因?yàn)榭紤]到同一個(gè)中文單詞的不同表示以及藏文的格特征和后修飾特征,準(zhǔn)確率沒(méi)有TSM好,但也能滿足系統(tǒng)需求。TIA抽取的連續(xù)短語(yǔ)和非連續(xù)短語(yǔ)統(tǒng)計(jì)結(jié)果見表5。表4和表5中D表示不連續(xù)(Discontinuous),C表示連續(xù)(Continuous)。
表4 TSM抽取結(jié)果
表5 TIA抽取結(jié)果的連續(xù)性統(tǒng)計(jì)表
數(shù)據(jù)表明,兩種算法抽取的短語(yǔ)召回率都很低,TIA與TSM比較召回率明顯提高,原因有以下幾點(diǎn): (1)漢藏詞典數(shù)據(jù)稀疏問(wèn)題。雖然算法中采用閾值和短語(yǔ)頻次權(quán)值來(lái)保留部分候選譯文,無(wú)法徹底解決數(shù)據(jù)稀疏問(wèn)題。(2)漢藏分詞粒度不一致,一些漢語(yǔ)兩詞組成的短語(yǔ)在藏文中對(duì)應(yīng)一個(gè)詞,不再是短語(yǔ)。(3)漢語(yǔ)有效語(yǔ)塊是從單語(yǔ)語(yǔ)料中抽取的,只要有實(shí)際意義就可取。藏文是SOV型語(yǔ)言,其中部分漢語(yǔ)語(yǔ)塊在平行語(yǔ)料中失去了句法特征,所以很難找到譯文。(4)語(yǔ)料中1-n短語(yǔ)對(duì)的存在造成TSM的召回率明顯不如TIA的好。
為了證明TIA算法抽取1-n短語(yǔ)對(duì)的有效性,分析TIA從五組語(yǔ)料中抽取到的短語(yǔ)對(duì)的漢藏對(duì)應(yīng)關(guān)系。表6給出漢藏短語(yǔ)對(duì)應(yīng)關(guān)系分布情況及準(zhǔn)確率和召回率。
表6 TIA抽取結(jié)果的對(duì)應(yīng)關(guān)系統(tǒng)計(jì)表
很顯然,語(yǔ)料中非連續(xù)藏文短語(yǔ)和1-n的藏文短語(yǔ)均不能忽略不計(jì)。TIA可以抽取連續(xù)和非連續(xù)的短語(yǔ)。同時(shí),它能抽取1-1和1-n的漢藏短語(yǔ)對(duì)。TIA算法獲取的短語(yǔ)譯文準(zhǔn)確率達(dá)81%。
實(shí)驗(yàn)結(jié)果分析得知,由于數(shù)據(jù)稀疏問(wèn)題,語(yǔ)料1和語(yǔ)料4中低頻短語(yǔ)對(duì)(在語(yǔ)料中出現(xiàn)次數(shù)很少)較頻繁出現(xiàn),從而導(dǎo)致語(yǔ)料1和語(yǔ)料4的準(zhǔn)確率在同組試驗(yàn)中低于其他語(yǔ)料。低頻短語(yǔ)在序列相交過(guò)程中攜帶了額外的與譯文無(wú)關(guān)內(nèi)容,這些干擾信息使準(zhǔn)確率降低。設(shè)定頻率限度可以提高準(zhǔn)確率,但會(huì)損失召回率。從表3可以看出,語(yǔ)料5在五組語(yǔ)料中句對(duì)數(shù)最多;每組實(shí)驗(yàn)結(jié)果中,語(yǔ)料5的準(zhǔn)確率最佳,這表明通常語(yǔ)料變大可以提高覆蓋率,較高的覆蓋率能提高準(zhǔn)確率。
在目前漢藏語(yǔ)料資源匱乏、語(yǔ)料處理技術(shù)不成熟的前提下,本文提出獲取藏語(yǔ)譯文的方法。依據(jù)包含待翻譯漢語(yǔ)語(yǔ)塊的漢藏句對(duì)公共子串的思想,分別嘗試藏文詞串頻率統(tǒng)計(jì)算法和藏文詞串序列相交算法獲取待譯漢語(yǔ)語(yǔ)塊的譯文。
然而,文章提出的方法召回率太低,這是下一步研究的重點(diǎn)。提高召回率后,可以將抽取的短語(yǔ)融入翻譯模型中進(jìn)行實(shí)際翻譯工作。目前收集的漢藏平行語(yǔ)料中存在數(shù)據(jù)稀疏問(wèn)題,TSM和TIA都是依賴于統(tǒng)計(jì)的,對(duì)數(shù)據(jù)稀疏問(wèn)題無(wú)可奈何。改進(jìn)語(yǔ)料覆蓋率有利于擴(kuò)建漢藏短語(yǔ)庫(kù)。
[1] Daniel Marcu, William Wong. A Phrase-based, Joint Probability Module for Statistical Machine Translation [C]//Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing. Morristown, NJ, USA. Association for Computational Linguistics, 2002:133-139.
[2] Dekai Wu.Stochastic inversion transduction grammars and bilingual parsing of parallel corpora [J].Computational Linguistics, 1997,23(3):377-403.
[3] Ying Zhang,Stephan Vogel, and Alex Waibel.Integrated phrase segmentation and alignment algorithm for statistical machine translation [C]//Proceeding of International Conference on Natural Language Processing and Knowledge Engineering.Beijing,2003:567-573.
[4] Ying Zhang, Stephan Vogel. Competitive Grouping in Integrated Phrase Segmentation and Alignment Model [C]//Proceeding of ACL Workshop on Building and Using Parallel Texts. Ann Arbor.2005:159-162.
[5] H Kaji, Y Kida, and Y Morimoto. Learning Translation Templates from Bilingual Text[C]//Proceedings of the 14th International Conference on Computational Linguistics. Nantes, France. 1992:672-678.
[6] Franz Josef Och,Hermann Ney.The alignment template approach to statistical machine translation[J].Computational Linguistics,2004,30(4):417-449.
[7] David Chiang. A Hierarchical Phrase-Based Model for Statistical Machine Translation[C]//Proceedings of the 43th Annual Meeting of the Association for Computational Linguistics. Ann Arbor.2005:263-270.
[8] 何彥青,周玉,宗成慶,等.基于“松弛尺度”的短語(yǔ)翻譯對(duì)抽取方法[J].中文信息學(xué)報(bào),2007,21(5):91-95.
[9] 王辰,宋國(guó)龍,吳宏林,等.基于序列相交的短語(yǔ)譯文獲取[J].中文信息學(xué)報(bào),2009,23(1):39-43.
[10] 周季文,傅同和.藏漢互譯教程[M].北京:民族出版社,1999.
[11] 張怡蓀.藏漢大辭典[M].北京:民族出版社,1993.
[12] 陳玉忠,李保利,俞士汶,蘭措吉. 基于格助詞和接續(xù)特征的藏文自動(dòng)分詞方案[C]//第一屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集.北京,2002.