漢藏短語(yǔ)對(duì)抽取中短語(yǔ)譯文獲取方法研究

2011-06-14 03:34:54諾明花劉匯丹丁治明

中文信息學(xué)報(bào) 2011年3期

諾明花，吳健，劉匯丹，丁治明

(1. 中國(guó)科學(xué)院軟件研究所，北京 100190；2. 中國(guó)科學(xué)院研究生院，北京 100049)

1 引言

本文工作核心是要針對(duì)特定領(lǐng)域漢藏多策略機(jī)器輔助翻譯系統(tǒng)(MSCT_CAT)構(gòu)建短語(yǔ)對(duì)齊庫(kù)的需求，獲取藏文譯文。MSCT_CAT是基于實(shí)例的輔助翻譯系統(tǒng)，它通過(guò)檢索實(shí)例句子庫(kù)，短句庫(kù)和短語(yǔ)庫(kù)來(lái)提供相似的參考譯文。

基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯的優(yōu)勢(shì)在于短語(yǔ)能夠抓住局部上下文的依賴關(guān)系。迄今為止，已經(jīng)出現(xiàn)了多種短語(yǔ)抽取方法[1-8]。其中，有些計(jì)算復(fù)雜度太高，代價(jià)很高；有些模型依賴于詞對(duì)齊的結(jié)果，有些依賴于句法分析結(jié)果，對(duì)資源的要求很高。本文要從漢藏對(duì)齊語(yǔ)料中抽取互譯短語(yǔ)對(duì)。由于藏文自身的繁雜性及使用范圍相對(duì)較小的特點(diǎn)，加之當(dāng)前藏文信息處理技術(shù)還在起步階段，藏語(yǔ)語(yǔ)料庫(kù)建設(shè)，自動(dòng)分詞標(biāo)注等與機(jī)器翻譯相關(guān)的基礎(chǔ)研究尚未形成系統(tǒng)。GIZA++等開源詞對(duì)齊工具對(duì)訓(xùn)練語(yǔ)料庫(kù)規(guī)模有一定要求，特定領(lǐng)域漢藏句對(duì)齊語(yǔ)料規(guī)模有限，漢藏詞對(duì)齊正確率為進(jìn)一步做短語(yǔ)抽取而言不可取。因此，考慮目前還沒(méi)有詞性、句法層面上加工過(guò)的語(yǔ)料，漢藏短語(yǔ)獲取方法一定擺脫對(duì)詞對(duì)齊、句法分析等資源的依賴。

本文獲取的短語(yǔ)是廣義上的，它是由若干個(gè)單詞組成的語(yǔ)塊。MSCT_CAT的短語(yǔ)庫(kù)只要有漢語(yǔ)短語(yǔ)以及它的藏文譯文即可以轉(zhuǎn)成TMX庫(kù)，以供檢索和返回短語(yǔ)譯文用。本文的思路是先從句對(duì)齊雙語(yǔ)語(yǔ)料中獲取有效漢語(yǔ)語(yǔ)塊，對(duì)包含待譯語(yǔ)塊的句對(duì)求交集，得到候選譯文，最后經(jīng)過(guò)后處理得到漢藏互譯語(yǔ)塊并保持到短語(yǔ)庫(kù)中。

2 翻譯基本模型

王辰[9]提出了一種基于序列相交的短語(yǔ)譯文獲取方法，該方法不依賴于額外資源信息的特點(diǎn)正符合目前藏文資源匱乏，可以借鑒到MSCT_CAT的短語(yǔ)庫(kù)構(gòu)建模型中。

本節(jié)先分析藏文短語(yǔ)類型，再介紹TIA譯文獲取模型。為了使用詞序列相交方法，漢藏兩種語(yǔ)言的文本都需要分詞。本文使用斯坦福的中文分詞開源項(xiàng)目和中國(guó)科學(xué)院軟件研究所多語(yǔ)言信息處理研究室開發(fā)的藏文分詞模塊分別對(duì)漢藏單語(yǔ)語(yǔ)料進(jìn)行分詞。

2.1 藏文短語(yǔ)類型

在藏文實(shí)際文本中，從不同層面來(lái)分析短語(yǔ)特性時(shí)可以得出以下結(jié)論。

? 其次，漢藏互譯對(duì)之間對(duì)應(yīng)關(guān)系有兩種形式；經(jīng)過(guò)分析收集的漢藏句對(duì)齊語(yǔ)料發(fā)現(xiàn)雙語(yǔ)短語(yǔ)中的漢語(yǔ)單詞既有只有一種譯文的，也有兩個(gè)或以上的譯文的。一個(gè)原文短語(yǔ)對(duì)應(yīng)一個(gè)譯文較常見，這里不舉例說(shuō)明，這種現(xiàn)象本文稱為一詞一譯，簡(jiǎn)稱一對(duì)一(1-1)。由于翻譯機(jī)構(gòu)的地域性或者上下文意譯，同一個(gè)中文有不同譯法，類似一詞多義，這種現(xiàn)象本文稱為一詞多譯，簡(jiǎn)稱一對(duì)多(1-n)。

2.2 藏文短語(yǔ)譯文獲取模型

漢藏雙語(yǔ)句對(duì)詞序列相交的示例見表1。

表1 漢藏雙語(yǔ)句對(duì)詞序列相交示例表

從以上分析可以得出兩個(gè)句對(duì)SPr與SPt相交公式，表示如下：

Q={Q1,Q2, …,Qk} 為句對(duì)SPr和SPt中漢語(yǔ)句子CSr和CSt的交集，Q中包含Qi(1≤i≤k)待翻譯的中文短語(yǔ)；T={T1,T2, …,Tg} 為SPr和SPt中藏文句子TSr和TSt的交集，T中肯定包含Qi的譯文，可以通過(guò)漢藏詞典確定 (Qi,Tj)漢藏互譯對(duì)。

待翻譯中文短語(yǔ)由多個(gè)漢語(yǔ)單詞構(gòu)成，表示如公式(2)：

Qi中任意單詞Qi+θ(1≤θ≤l)在詞典中查找，如果詞典中有譯項(xiàng)計(jì)數(shù)并保存到一個(gè)鏈結(jié)構(gòu)L中，一定會(huì)存在某個(gè)Tj+ω能夠滿足Tj+ω∩L≠ Ф的條件，保留為候選譯文。當(dāng)Qi中有未找到譯項(xiàng)的Qi+θ時(shí)，設(shè)定一個(gè)閾值(本文取0.66)，對(duì)待譯漢語(yǔ)語(yǔ)塊中查詞典成功率大于閾值的保留譯文，對(duì)小于閾值的候選譯文進(jìn)一步計(jì)算其在序列相交過(guò)程中累計(jì)的頻次權(quán)值，保留權(quán)值高的候選，丟棄權(quán)值低的候選譯文。最終保留的Tj+ω(1≤ω≤g)構(gòu)成Qi的譯文Tj。Tj可以是連續(xù)的，也可以是非連續(xù)的。

3 藏文短語(yǔ)譯文獲取

本文提出藏文詞串頻率統(tǒng)計(jì)算法(簡(jiǎn)稱TSM)和藏文詞串序列相交算法(簡(jiǎn)稱TIA)兩種方法獲取短語(yǔ)譯文。TSM可以滿足短語(yǔ)連續(xù)性，但是只能抽取1-1的短語(yǔ)對(duì)。而TIA可以彌補(bǔ)TSM的不足，能夠抽取1-n的漢藏短語(yǔ)對(duì)。TIA使用的語(yǔ)料為漢藏句對(duì)齊雙語(yǔ)語(yǔ)料庫(kù)，將通過(guò)漢藏詞序列相交模型，獲取1-n的漢藏互譯短語(yǔ)對(duì)。

3.1 藏文詞串頻率統(tǒng)計(jì)算法

先簡(jiǎn)單描述一下詞串頻率統(tǒng)計(jì)算法思想。給定一個(gè)待翻譯漢語(yǔ)語(yǔ)塊Q，TSM需要解決怎樣確定Q的譯文P。TSM算法目標(biāo)是獲取1-1的互譯對(duì)。為了算法描述便利，先假定部分符號(hào)表示。

?SP表示語(yǔ)料中所有包含Q的句對(duì)集合;

?Sn表示SP中句對(duì)數(shù);

?TSS表示SP中藏文句子集;

?CS表示公共子串。

以上符號(hào)通用于3.1節(jié)和3.2節(jié)。TSM算法生成公共子串CS過(guò)程描述如下：

1. 從TSS中，任選一個(gè)藏文句子TS。

2. 為TS建立一個(gè)單詞列表WL，并保留TS中的詞序。

3.WL中詞在TSS范圍內(nèi)以句子為單位做詞頻統(tǒng)計(jì)。

4. 標(biāo)記所有滿足詞頻為Sn的單詞，獲取CS的集合，用ICS來(lái)表示。

5. 使用雙語(yǔ)詞典過(guò)濾ICS中與Q不相關(guān)的公共子串，用UCS表示。

6. 按照WL中詞序恢復(fù)CS的鄰接性和連續(xù)性。

7. 使用TSW過(guò)濾模塊過(guò)濾CS邊界高頻干擾信息得到譯文P。

藏文詞串頻率統(tǒng)計(jì)算法抽取到的1-1互譯對(duì)(Q,P)能夠很好地滿足MSCT_CAT構(gòu)建短語(yǔ)庫(kù)的需求。TSM算法只適合1-1的連續(xù)和非連續(xù)短語(yǔ)抽取，然而以下兩個(gè)因素導(dǎo)致漢藏語(yǔ)料中存在漢語(yǔ)短語(yǔ)有多種譯法的情況，降低TSM的召回率。

? 短語(yǔ)中部分漢語(yǔ)單詞可以對(duì)應(yīng)意義相同的多個(gè)藏文單詞，不同的譯者選擇不一致。

? 根據(jù)上下文意譯時(shí)，藏文格特征和后修飾特征[12]引起中心詞之外的部分不一致。

3.2 藏文詞串序列相交算法

為了提高召回率，TIA重點(diǎn)解決1-n的短語(yǔ)對(duì)抽取問(wèn)題。漢藏詞序列相交模型中提到，對(duì)包含Q的漢藏句對(duì)計(jì)算公共子串確定P后可以獲取漢藏短語(yǔ)對(duì)(Q，P)。從公式(1)得知，句對(duì)的序列相交由若干個(gè)藏文公共子串CS組成。將為每個(gè)CS構(gòu)造一個(gè)樹結(jié)構(gòu)T的話，句對(duì)的序列相交可以組成一個(gè)森林。T由中心節(jié)點(diǎn)和修飾節(jié)點(diǎn)兩種節(jié)點(diǎn)組成。表2給出兩種節(jié)點(diǎn)各個(gè)字段及功能，以便后續(xù)算法描述。

表2中的中心節(jié)點(diǎn)用來(lái)存儲(chǔ)藏文句子取交后的CS的所有中心語(yǔ)，用ITN表示，修飾節(jié)點(diǎn)記錄與其相關(guān)聯(lián)的中心節(jié)點(diǎn)的修飾語(yǔ)，用SYN表示。因此，T的根節(jié)點(diǎn)是tag域?yàn)?的ITN節(jié)點(diǎn)，T的葉子是next域?yàn)榭盏腎TN節(jié)點(diǎn)。對(duì)某個(gè)ITN來(lái)說(shuō)，syn域指向左節(jié)點(diǎn)，next域指向右節(jié)點(diǎn)。CS中某個(gè)中心節(jié)點(diǎn)的左子樹是由其在語(yǔ)料中出現(xiàn)的所有格特征和后修飾特征通過(guò)SYN的next域鏈接而成的鏈表SL。

表2 公共子串樹節(jié)點(diǎn)各個(gè)域及功能表

由公式(2)，Q由若干個(gè)詞Qi(1≤i≤l) 組成。取交過(guò)程中Q的所有候選譯文均保存為表2的節(jié)點(diǎn)，生成樹T或森林F。T或F中并不是所有節(jié)點(diǎn)組成最終譯文，通過(guò)確認(rèn)過(guò)程滿足以下兩個(gè)條件的節(jié)點(diǎn)才會(huì)被選為最終譯文的一部分。

1) 譯文中一定包含任意Qi(1≤i≤l)的譯文；

2) 所有候選譯文的支持度和等于Sn。

TIA算法核心是為已知的漢語(yǔ)語(yǔ)塊Q構(gòu)建公共子串森林F，以及遍歷F來(lái)確認(rèn)Q的最終譯文P。構(gòu)建F的過(guò)程描述如下：

TIA構(gòu)建F的過(guò)程

1. Choose any two sentencesTS1andTS2fromTSSat random.

2. CalculateTS1∩TS2results, denote asIL.

3. FilterILby dictionary (D) in terms ofQ, get sublist ofIL, denotes asSL.

4. Construct forestFofSL, based on table 3.

5. for eachTSinTSS-{TS1,TS2}

6. for each treeTinF

7. ifTScontainsTthen

8. plus 1 tofreqfor all nodes inTand exit.

9. if (TScontains parts ofT) & (TScontains qualifierSfor the rest parts ofT)& (S?SL) then

10. newly-built aSYNand assign theSto field syn and exit.

11. end for

12. end for

以上取交過(guò)程生成一個(gè)森林F。下一步是通過(guò)遍歷F確認(rèn)Q的譯文P。P是CS的集合，藏語(yǔ)譯文確認(rèn)過(guò)程描述如下。其中用A，B，C，D分別將P標(biāo)記為1-1，1-n,，連續(xù)或非連續(xù)短語(yǔ)等短語(yǔ)類型。

TIA藏語(yǔ)譯文確認(rèn)過(guò)程

1. inttn=0,i=0.

2. for eachTinF

3. for eachtwinT

4. iffreqequalsSn

5. addtwto{Pi} andi++.

6. else if sum offreqinSLequalsSn

7. add sy_tw ofSLto {Pi} and

i++.

8. else

9. discardT.

10. end for

11.tn++

12. end for

13. iftn==1

14. (Q,P) are marked asA

15. Iftn>1

16. (Q,P) are marked as B

17. Ifi==1

18.Pis marked asC

19.elseifi> 1 then

20.Pis marked asD

可以示例說(shuō)明藏文譯文確認(rèn)過(guò)程。假設(shè)，在漢藏平行語(yǔ)料中有50個(gè)句對(duì)包含待翻譯語(yǔ)塊Q，取交后獲取兩個(gè)公共子串CS1和CS2。為CS1和CS2構(gòu)建樹結(jié)構(gòu)，分別用T1和T2表示，如圖1。

圖1 譯文確認(rèn)過(guò)程

待譯語(yǔ)塊Qi的譯文Tj的確認(rèn)過(guò)程是對(duì)由T1和T2組成的森林的搜索過(guò)程。在圖1 中，T1的根節(jié)點(diǎn)W11的freq域值等于50，因此被標(biāo)記為最終譯文的組成部分。W12_sy1是W12的修飾語(yǔ)，同時(shí)W12_sy1和W12的freq域值的和等于50，因此詞組[W12,W12_sy1] 被接受。W13的freq域?yàn)?0，它被接受為最終譯文的組成部分。W14的freq域值小于50，從而被丟棄。同樣原理，W21和W22被接受。Qi的最終翻譯譯文Tj是由兩棵樹T1和T2對(duì)應(yīng)的字符串中所有被接受并標(biāo)記的節(jié)點(diǎn)序列的集合，P={W11[W12|W12_sy1]W13,W21W22}。

因?yàn)槭褂昧斯沧哟畼浜蜕纸Y(jié)構(gòu)，TIA既能抽取1-1短語(yǔ)，又能抽取1-n短語(yǔ)。同時(shí)TIA也不會(huì)遺漏非連續(xù)短語(yǔ)，能夠滿足藏文短語(yǔ)的連續(xù)性。從而可以滿足MSCT_CAT的短語(yǔ)庫(kù)構(gòu)建需求。

4 實(shí)驗(yàn)

實(shí)驗(yàn)數(shù)據(jù)是漢藏法律法規(guī)和公文報(bào)告等特定領(lǐng)域語(yǔ)料。漢語(yǔ)語(yǔ)料通過(guò)網(wǎng)上下載處理得到，藏文語(yǔ)料由西藏翻譯局提供。收集到的原始語(yǔ)料通過(guò)篇章對(duì)齊和句子對(duì)齊后，最終形成短語(yǔ)對(duì)抽取模塊可以處理的五份漢藏語(yǔ)料，語(yǔ)料的統(tǒng)計(jì)數(shù)據(jù)見表3。表中，最后一列短語(yǔ)對(duì)數(shù)為計(jì)算召回率時(shí)人工確認(rèn)的平行語(yǔ)料中所含的短語(yǔ)對(duì)數(shù)量。

表3 語(yǔ)料信息

4.1 藏文短語(yǔ)連續(xù)性驗(yàn)證

在實(shí)驗(yàn)中，對(duì)五組語(yǔ)料分別用TSM和TIA進(jìn)行短語(yǔ)抽取之后，采用計(jì)算機(jī)輔助人工的方法判斷互譯對(duì)正確與否，實(shí)驗(yàn)的準(zhǔn)確率(P)定義為：

召回率(R)定義為：

TSM算法簡(jiǎn)單，容易實(shí)現(xiàn)。它抽取的連續(xù)短語(yǔ)準(zhǔn)確率較高。TSM抽取的1-1連續(xù)短語(yǔ)(C)和非連續(xù)短語(yǔ)(D)統(tǒng)計(jì)結(jié)果見表4。TIA算法因?yàn)榭紤]到同一個(gè)中文單詞的不同表示以及藏文的格特征和后修飾特征，準(zhǔn)確率沒(méi)有TSM好，但也能滿足系統(tǒng)需求。TIA抽取的連續(xù)短語(yǔ)和非連續(xù)短語(yǔ)統(tǒng)計(jì)結(jié)果見表5。表4和表5中D表示不連續(xù)(Discontinuous)，C表示連續(xù)(Continuous)。

表4 TSM抽取結(jié)果

表5 TIA抽取結(jié)果的連續(xù)性統(tǒng)計(jì)表

數(shù)據(jù)表明，兩種算法抽取的短語(yǔ)召回率都很低，TIA與TSM比較召回率明顯提高，原因有以下幾點(diǎn)： (1)漢藏詞典數(shù)據(jù)稀疏問(wèn)題。雖然算法中采用閾值和短語(yǔ)頻次權(quán)值來(lái)保留部分候選譯文，無(wú)法徹底解決數(shù)據(jù)稀疏問(wèn)題。(2)漢藏分詞粒度不一致，一些漢語(yǔ)兩詞組成的短語(yǔ)在藏文中對(duì)應(yīng)一個(gè)詞，不再是短語(yǔ)。(3)漢語(yǔ)有效語(yǔ)塊是從單語(yǔ)語(yǔ)料中抽取的，只要有實(shí)際意義就可取。藏文是SOV型語(yǔ)言，其中部分漢語(yǔ)語(yǔ)塊在平行語(yǔ)料中失去了句法特征，所以很難找到譯文。(4)語(yǔ)料中1-n短語(yǔ)對(duì)的存在造成TSM的召回率明顯不如TIA的好。

4.2 藏文短語(yǔ)對(duì)應(yīng)關(guān)系驗(yàn)證

為了證明TIA算法抽取1-n短語(yǔ)對(duì)的有效性，分析TIA從五組語(yǔ)料中抽取到的短語(yǔ)對(duì)的漢藏對(duì)應(yīng)關(guān)系。表6給出漢藏短語(yǔ)對(duì)應(yīng)關(guān)系分布情況及準(zhǔn)確率和召回率。

表6 TIA抽取結(jié)果的對(duì)應(yīng)關(guān)系統(tǒng)計(jì)表

很顯然，語(yǔ)料中非連續(xù)藏文短語(yǔ)和1-n的藏文短語(yǔ)均不能忽略不計(jì)。TIA可以抽取連續(xù)和非連續(xù)的短語(yǔ)。同時(shí)，它能抽取1-1和1-n的漢藏短語(yǔ)對(duì)。TIA算法獲取的短語(yǔ)譯文準(zhǔn)確率達(dá)81%。

實(shí)驗(yàn)結(jié)果分析得知，由于數(shù)據(jù)稀疏問(wèn)題，語(yǔ)料1和語(yǔ)料4中低頻短語(yǔ)對(duì)(在語(yǔ)料中出現(xiàn)次數(shù)很少)較頻繁出現(xiàn)，從而導(dǎo)致語(yǔ)料1和語(yǔ)料4的準(zhǔn)確率在同組試驗(yàn)中低于其他語(yǔ)料。低頻短語(yǔ)在序列相交過(guò)程中攜帶了額外的與譯文無(wú)關(guān)內(nèi)容，這些干擾信息使準(zhǔn)確率降低。設(shè)定頻率限度可以提高準(zhǔn)確率，但會(huì)損失召回率。從表3可以看出，語(yǔ)料5在五組語(yǔ)料中句對(duì)數(shù)最多；每組實(shí)驗(yàn)結(jié)果中，語(yǔ)料5的準(zhǔn)確率最佳，這表明通常語(yǔ)料變大可以提高覆蓋率，較高的覆蓋率能提高準(zhǔn)確率。

5 結(jié)束語(yǔ)

在目前漢藏語(yǔ)料資源匱乏、語(yǔ)料處理技術(shù)不成熟的前提下，本文提出獲取藏語(yǔ)譯文的方法。依據(jù)包含待翻譯漢語(yǔ)語(yǔ)塊的漢藏句對(duì)公共子串的思想，分別嘗試藏文詞串頻率統(tǒng)計(jì)算法和藏文詞串序列相交算法獲取待譯漢語(yǔ)語(yǔ)塊的譯文。

然而，文章提出的方法召回率太低，這是下一步研究的重點(diǎn)。提高召回率后，可以將抽取的短語(yǔ)融入翻譯模型中進(jìn)行實(shí)際翻譯工作。目前收集的漢藏平行語(yǔ)料中存在數(shù)據(jù)稀疏問(wèn)題，TSM和TIA都是依賴于統(tǒng)計(jì)的，對(duì)數(shù)據(jù)稀疏問(wèn)題無(wú)可奈何。改進(jìn)語(yǔ)料覆蓋率有利于擴(kuò)建漢藏短語(yǔ)庫(kù)。

[1] Daniel Marcu, William Wong. A Phrase-based, Joint Probability Module for Statistical Machine Translation [C]//Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing. Morristown, NJ, USA. Association for Computational Linguistics, 2002:133-139.

[2] Dekai Wu.Stochastic inversion transduction grammars and bilingual parsing of parallel corpora [J].Computational Linguistics， 1997，23(3):377-403.

[3] Ying Zhang,Stephan Vogel, and Alex Waibel.Integrated phrase segmentation and alignment algorithm for statistical machine translation [C]//Proceeding of International Conference on Natural Language Processing and Knowledge Engineering.Beijing,2003：567-573.

[4] Ying Zhang, Stephan Vogel. Competitive Grouping in Integrated Phrase Segmentation and Alignment Model [C]//Proceeding of ACL Workshop on Building and Using Parallel Texts. Ann Arbor.2005:159-162．

[5] H Kaji, Y Kida, and Y Morimoto. Learning Translation Templates from Bilingual Text[C]//Proceedings of the 14th International Conference on Computational Linguistics. Nantes, France. 1992:672-678.

[6] Franz Josef Och,Hermann Ney.The alignment template approach to statistical machine translation[J].Computational Linguistics,2004,30(4):417-449.

[7] David Chiang. A Hierarchical Phrase-Based Model for Statistical Machine Translation[C]//Proceedings of the 43th Annual Meeting of the Association for Computational Linguistics. Ann Arbor.2005:263-270.

[8] 何彥青,周玉,宗成慶，等.基于“松弛尺度”的短語(yǔ)翻譯對(duì)抽取方法[J].中文信息學(xué)報(bào),2007,21(5):91-95.

[9] 王辰,宋國(guó)龍,吳宏林，等.基于序列相交的短語(yǔ)譯文獲取[J].中文信息學(xué)報(bào),2009,23(1):39-43.

[10] 周季文,傅同和.藏漢互譯教程[M].北京:民族出版社,1999.

[11] 張怡蓀.藏漢大辭典[M].北京:民族出版社,1993.

[12] 陳玉忠，李保利，俞士汶，蘭措吉. 基于格助詞和接續(xù)特征的藏文自動(dòng)分詞方案[C]//第一屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集.北京，2002.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看