熊 維,吳 健,劉匯丹,張立強(qiáng)
(1. 中國科學(xué)院 軟件研究所,北京 100190; 2. 中國科學(xué)院大學(xué),北京 100049)
藏語作為藏文化的最主要和最基本的載體,它在廣大的藏區(qū)發(fā)揮著無可估量的作用[1]。藏語是藏族地區(qū)主要的交流語言,漢藏翻譯在藏族地區(qū)信息傳播中起著重要作用。據(jù)統(tǒng)計(jì),西藏目前有100多個(gè)藏語文翻譯單位,近1 000人專門從事各類翻譯和藏文工作,每年漢藏翻譯工作量約5 000多萬漢字[2]。面對(duì)如此巨大的翻譯需求,傳統(tǒng)的純?nèi)斯さ姆g方式無法滿足漢藏翻譯的需要。因此,需要借鑒一些成熟的機(jī)器翻譯技術(shù),加快漢藏翻譯的研究,提高漢藏翻譯人員的工作效率。
由于藏語自身的原因以及研究投入的不夠,國內(nèi)針對(duì)漢藏機(jī)器翻譯的研究進(jìn)展相對(duì)緩慢。藏語的基礎(chǔ)資源庫以及相應(yīng)信息處理工具相對(duì)匱乏。在此,本文提出一種基于短語串實(shí)例的漢藏輔助翻譯方法,主要利用現(xiàn)有的詞語對(duì)齊技術(shù),充分地挖掘漢藏平行語料中任意長度的翻譯實(shí)例串,進(jìn)而為輔助翻譯人員提供最優(yōu)的候選譯文。
本文接下來將從以下幾個(gè)方面進(jìn)行介紹,第2節(jié)主要對(duì)機(jī)器翻譯研究背景和現(xiàn)狀進(jìn)行介紹。第3節(jié)對(duì)漢藏輔助翻譯系統(tǒng)框架進(jìn)行介紹。第4節(jié)主要介紹漢藏平行語料的整理和預(yù)處理等相關(guān)技術(shù)。第5節(jié)主要介紹漢藏輔助翻譯系統(tǒng)中的句子級(jí)別的相似度計(jì)算和實(shí)例匹配以及短語串級(jí)別的實(shí)例匹配和譯文組合方法。第6節(jié)提出輔助翻譯實(shí)驗(yàn)的評(píng)價(jià)策略,以及翻譯實(shí)驗(yàn)結(jié)果和分析。文章最后將對(duì)本文的相關(guān)工作進(jìn)行總結(jié)。
機(jī)器翻譯的研究主要包括: 基于規(guī)則的翻譯、基于實(shí)例的翻譯和基于統(tǒng)計(jì)的機(jī)器翻譯等。目前研究熱點(diǎn)主要集中在基于統(tǒng)計(jì)的機(jī)器翻譯方法上。基于統(tǒng)計(jì)的方法通常需要構(gòu)建較大的平行語料庫,如漢英機(jī)器翻譯實(shí)驗(yàn)通常有幾十萬到百萬級(jí)的平行語料。而少數(shù)民族語言資源相對(duì)匱乏,主要的研究還是基于規(guī)則的方法上[3-6],基于統(tǒng)計(jì)語料庫的方法[7-10]還處于研究的初級(jí)階段。
目前,針對(duì)少數(shù)民族語言機(jī)器翻譯的研究還主要集中在基于規(guī)則的方法上,如侯宏旭等[11]提出了一種基于規(guī)則的漢蒙機(jī)器翻譯方法,即對(duì)獲取的翻譯實(shí)例句子,利用翻譯規(guī)則進(jìn)行后續(xù)譯文處理。姜柄圭等[12]提出了一種基于漢語語塊抽取的機(jī)器翻譯方法,即利用翻譯規(guī)則模版進(jìn)行輔助翻譯。
基于規(guī)則的翻譯方法通常需要維護(hù)一個(gè)較大的翻譯規(guī)則庫。構(gòu)建大規(guī)模的語言規(guī)則庫需要大量的人工資源和語言知識(shí),這個(gè)對(duì)于漢藏輔助翻譯項(xiàng)目的工作量太大?;诰渥訉?shí)例的翻譯方法則不需要較多的人工操作和語言知識(shí),優(yōu)點(diǎn)在于能夠利用不斷增加的翻譯句子實(shí)例。但是如果不能在實(shí)例庫中找到相似度較高的翻譯實(shí)例,翻譯的效果就會(huì)變得很差,句子實(shí)例利用率較低。基于統(tǒng)計(jì)機(jī)器翻譯方法依賴于大規(guī)模的平行語料,短語翻譯對(duì)有長度限制,如Moses[13]默認(rèn)設(shè)置為7。隨著短語長度的增大,需要更多的空間來存儲(chǔ)這些翻譯對(duì),數(shù)據(jù)稀疏問題也隨之凸現(xiàn)。
國際上比較有影響的輔助翻譯系統(tǒng)有Trados*Trades http://www.trados.com/en/、DéjVu X*Déj Vu X http://www.atril.com/等。輔助翻譯開源的軟件有OmegaT*OmegaT http://www.omegat.org。我國的目前影響較大的輔助翻譯產(chǎn)品包括雅信CAT系統(tǒng)*雅信CAT http://www.yxcat.com/Html/index.asp,華建集團(tuán)的智能輔助翻譯系統(tǒng)IAT*華健IAT http://www.hjtek.com/Products/等。上述輔助翻譯產(chǎn)品以及開源軟件采用的技術(shù)主要包括翻譯記憶、術(shù)語管理、人機(jī)交互等,翻譯方法主要采用的是基于句子實(shí)例的翻譯,它并不能很好解決漢藏語料資源相對(duì)匱乏條件下的輔助翻譯。
國內(nèi)針對(duì)漢藏翻譯的研究主要集中在基于規(guī)則方法上。如才藏太等[4]構(gòu)建的班智達(dá)漢藏公文規(guī)則翻譯系統(tǒng),提出了一種詞條和語法規(guī)則模版相結(jié)合的方法。德蓋才郎等[3]構(gòu)建了一種基于規(guī)則知識(shí)庫的漢藏機(jī)器翻譯系統(tǒng)。扎洛等[5]提出的漢藏翻譯中復(fù)句的翻譯規(guī)則,是從漢藏句子特點(diǎn)出發(fā)研究翻譯規(guī)則的??醋坎诺┑萚6]提出的漢藏翻譯中動(dòng)詞處理的方法,是從藏語特性出發(fā)研究漢藏句子中動(dòng)詞的翻譯規(guī)則。
漢藏機(jī)器翻譯在基于統(tǒng)計(jì)語料庫方向的研究如才讓加[7]提出的藏語語料庫加工方案。趙維納等[8]提出的藏文句子邊界識(shí)別方法。Yu Xin等[14]提出的基于詞典的漢藏句子對(duì)齊的方法。諾明花等[9-10]提出的基于序列相交的漢藏短語抽取方法。這些語料庫的建設(shè)、句子邊界識(shí)別、句子對(duì)齊、短語抽取等技術(shù)的研究都是漢藏機(jī)器翻譯在基于統(tǒng)計(jì)語料庫的方法上的基礎(chǔ)性研究。
漢藏機(jī)器翻譯在語言層面上主要存在以下問題: 一是語序上的不同。漢語的主語(Subject)、謂語(Verb)、賓語(Object)三者之間的語序都是SVO形式的。但是藏語不同,藏語的謂語部分通常位于句子的末尾,它的語序是SOV形式的。與漢英翻譯不同,漢藏翻譯中存在動(dòng)詞的長距離調(diào)序問題。二是詞語形態(tài)上的區(qū)別。漢語是沒有形態(tài)變化的,而藏語有豐富的形態(tài)變化。在統(tǒng)計(jì)機(jī)器翻譯中存在翻譯詞形錯(cuò)誤的問題。
本文研究的主要工作在于將基于統(tǒng)計(jì)的機(jī)器翻譯技術(shù)應(yīng)用到漢藏輔助翻譯系統(tǒng)中。在漢藏平行語料資源相對(duì)較少的情況下,利用現(xiàn)有的詞語對(duì)齊技術(shù)充分地挖掘漢藏平行語料信息,檢索出平行語料中任意長度的短語串翻譯實(shí)例,從而提高漢藏輔助翻譯系統(tǒng)在短語串級(jí)別的召回率,改善漢藏輔助翻譯質(zhì)量。
漢藏輔助翻譯系統(tǒng)主要提供三個(gè)層面的機(jī)器翻
譯結(jié)果: 句子級(jí)別的匹配翻譯、短語串級(jí)別的匹配翻譯和詞語級(jí)別的翻譯。首先對(duì)于一個(gè)待翻譯句子,先在翻譯實(shí)例庫中利用編輯距離的方法查找最相似的翻譯實(shí)例。如沒有,則進(jìn)行基于短語串的匹配翻譯,并對(duì)各個(gè)短語串的譯文進(jìn)行組合提供最終翻譯。最后對(duì)于那些未翻譯出來的詞語利用詞典提供候選藏文翻譯。
漢藏輔助翻譯系統(tǒng)的翻譯流程圖如圖1所示。
其中,翻譯記憶庫(TMX格式),主要是為了整個(gè)翻譯記憶庫的可擴(kuò)展性。漢藏翻譯對(duì)齊平行語料庫,主要用于基于短語串的匹配翻譯。
圖1 漢藏輔助翻譯系統(tǒng)框架圖
漢藏輔助翻譯實(shí)驗(yàn)中共收集到613篇句子對(duì)齊文檔,主要分為三類: 法律法規(guī)54篇、工作報(bào)告253篇、領(lǐng)導(dǎo)人文選306篇。最終整理收集到約7萬條平行句對(duì)。整個(gè)語料預(yù)處理部分主要包括兩個(gè)部分: 分詞處理、詞語對(duì)齊等。
在漢藏輔助翻譯實(shí)驗(yàn)中,漢語分詞采用Stanford開發(fā)的Chinese-Segmenter分詞系統(tǒng)[15],該中文分詞系統(tǒng)采用的是基于條件隨機(jī)場的方法。藏語分詞采用了藏文分系統(tǒng)SegTibetan[16]。該系統(tǒng)采用格助詞分塊并識(shí)別臨界詞,然后采用最大匹配方法分詞,并進(jìn)行緊縮詞識(shí)別。
詞語對(duì)齊,采用的是開源的詞語對(duì)齊工具GIZA++[17]。利用Moses自帶的訓(xùn)練腳本,只做Moses基于短語訓(xùn)練的前三個(gè)步驟,其中所有的參數(shù)采用Moses訓(xùn)練時(shí)的默認(rèn)參數(shù)設(shè)置。最后,提取出GIZA++訓(xùn)練出來的詞語對(duì)齊文件。
為了方便對(duì)待翻譯句子進(jìn)行實(shí)例檢索和匹配,需要對(duì)已經(jīng)獲取的翻譯記憶庫和詞語對(duì)齊的漢藏平行語料庫進(jìn)行倒排索引。倒排索引具體結(jié)構(gòu)如圖2所示。
圖2 倒排索引結(jié)構(gòu)圖
在此,將上面獲取的詞語對(duì)齊的漢藏平行語料進(jìn)行了三維的倒排索引,包括詞語序列、出現(xiàn)該詞語句子序號(hào)序列、該詞語在句子中的位置序列。
三維的倒排索引主要是為了實(shí)現(xiàn)短語串級(jí)別的實(shí)例檢索和匹配。利用它和詞語對(duì)齊信息能抽取實(shí)例庫中任意長度的短語串實(shí)例對(duì)應(yīng)的譯文翻譯。
實(shí)驗(yàn)中使用的雙語對(duì)照詞典主要包括《藏漢大辭典》[18]、《漢藏對(duì)照詞典》[19]等。雙語對(duì)照詞典主要是為基于句子的實(shí)例匹配和基于短語串的實(shí)例匹配中未能成功翻譯的詞語提供候選藏文翻譯的。
實(shí)例匹配主要包括句子級(jí)別的實(shí)例匹配和短語串級(jí)別的實(shí)例匹配。
句子級(jí)別的實(shí)例匹配中相似度計(jì)算主要采用編輯距離的方法。考慮到實(shí)際效率的要求,首先將待翻譯句子進(jìn)行停用詞過濾,然后利用詞語的倒排索引進(jìn)行預(yù)處理,得到那些包含待翻譯句子中詞語的實(shí)例句子集合,計(jì)算這些實(shí)例句子與待翻譯句子的編輯距離的公式如式(1)。
(1)
其中Dis見下面式(2)。
根據(jù)上述編輯距離的公式,定義如下的句子相似度計(jì)算公式(3):
如果上述句子實(shí)例匹配句子相似度大于閾值,則返回該實(shí)例翻譯。否則進(jìn)行下面的基于短語串級(jí)別的實(shí)例匹配。
在傳統(tǒng)的基于短語的統(tǒng)計(jì)機(jī)器翻譯實(shí)驗(yàn)中,抽取的短語翻譯對(duì)通常有一定的長度限制?;诙陶Z串實(shí)例方法的優(yōu)勢(shì)在于短語串的長度是不受限的,不需要為由短語串長度帶來的存儲(chǔ)與計(jì)算問題耗費(fèi)資源。只需要存儲(chǔ)漢藏平行語料中的詞語對(duì)齊信息。
基于短語串的實(shí)例匹配與譯文生成包括兩個(gè)關(guān)鍵步驟: 一、查找待翻譯句子的所有子串并依據(jù)詞語對(duì)齊信息獲取所有子串對(duì)應(yīng)的藏文翻譯。二、尋找一條最優(yōu)翻譯路徑,并將這條翻譯路徑上的所有子串對(duì)應(yīng)的藏文翻譯組合成譯文。
(1) 子串候選譯文的查找
這里的待翻譯句子的子串是指經(jīng)過分詞處理后的待翻譯句子,中文分詞器采用前文所述的Stanford開發(fā)的Chinese-Segmenter分詞系統(tǒng)。子串的最小單位即為分詞后的單個(gè)詞語。
待翻譯句子的子串譯文查找算法如圖3。
Input: 待翻譯漢語句子的子串fifi+1…fj
1. 利用上文所述的倒排索引,查找子串中的每一個(gè)詞語,獲取包含子串fifi+1…fj所有詞語的的句子集合VS1{S1、S2、…Sn};
2. 如果句子集合VS1不為空,則轉(zhuǎn)3,否則轉(zhuǎn)6;
3. 對(duì)于集合VS1{S1、S2、…Sn}中的每一個(gè)句子Si,判斷詞語fi、fi+1、…、fj是否在句子Si中連續(xù)。如果連續(xù)則保留該句子,將該句子加入句子集合VS2,同時(shí)將詞語fi、fi+1、…、fj是在句子Si中的對(duì)應(yīng)的位置信息保存;
4. 如果集合VS2不為空,則轉(zhuǎn)5,否則轉(zhuǎn)6;
5. 對(duì)于集合VS2{S1、S2、…Sm}中的每一個(gè)句子Si,依據(jù)詞語fi、fi+1、…、fj是在句子Si中的位置信息和預(yù)處理中的詞語對(duì)齊信息,抽取出該子串對(duì)應(yīng)的所有可能的藏文翻譯。依據(jù)投票原則*這里的投票原則分為兩種情況,1. 相同的藏文翻譯次數(shù)超過一定閾值; 2. 藏文長度大于漢語子串長度。確定該子串對(duì)應(yīng)的藏文翻譯,并return;
6. 將漢語句子子串對(duì)應(yīng)的藏文翻譯置空,并return;
Output: 漢語句子子串對(duì)應(yīng)的藏文翻譯emem+1…en
圖3 子串譯文查找算法
子串的枚舉主要采用從左至右,從短到長的方式。對(duì)于給定待翻譯句子S:f1f2f3…fn(其中fi表示句子S中的第i個(gè)詞語)。子串的查找順序如下:f1、f1f2、f1f2f3、…、f1f2f3…fn、f2、f2f3、f2f3…fn、… 、fn。這樣查找主要是為了減少查找的次數(shù),例如,如果對(duì)于子串fifi+1…fj在實(shí)例庫中沒有查找到與之相匹配的實(shí)例句子,那么以子串fifi+1…fj為前綴的其他子串也就沒有必要繼續(xù)查找了,可以直接跳躍到查找子串fi+1開始后續(xù)查找。
經(jīng)過上述對(duì)待翻譯句子的所有子串的翻譯的查找,可以獲得如下一個(gè)待翻譯的候選項(xiàng)如圖4。
圖4 子串翻譯候選項(xiàng)以及譯文
(2) 查找最優(yōu)翻譯路徑并進(jìn)行譯文組合
在第一步獲取的翻譯選項(xiàng)表后,如何查找一條最優(yōu)的從頭到尾的翻譯路徑。在此我們共提出并實(shí)驗(yàn)三種解決方法。分別是正向最大子串匹配的翻譯方法、反向最大子串匹配的翻譯方法以及路徑概率最大的翻譯方法。
以圖4的待翻譯句子為例,對(duì)于每個(gè)子串都只提供了一個(gè)候選翻譯選項(xiàng),即概率最大的翻譯候選項(xiàng)。正向最大子串匹配的翻譯方法的翻譯路徑為{(加強(qiáng) 民族 地區(qū))(的 干部 隊(duì)伍 建設(shè) )(。)}。反向最大子串匹配的翻譯方法的翻譯路徑為{(加強(qiáng))(民族 地區(qū) 的) (干部 隊(duì)伍 建設(shè) 。)}。以上這兩種翻譯翻譯路徑的選擇主要基于最長子串來考慮的,這樣就可以充分地利用語料庫中的與待翻譯句子具有最大相同子串的翻譯實(shí)例。
同時(shí),也進(jìn)行了基于路徑概率最大的翻譯方法的實(shí)驗(yàn)。這個(gè)方法不同于基于短語的統(tǒng)計(jì)機(jī)器翻譯在獲取了所有候選翻譯表后進(jìn)行的基于堆棧的柱搜索方法,傳統(tǒng)的基于短語的方法翻譯路徑的代價(jià)包括語言模型、翻譯模型、調(diào)序模型等因素。在此,我們只考慮了語言模型、翻譯模型兩個(gè)因素。
對(duì)于漢語子串對(duì)應(yīng)的候選譯文的評(píng)分主要采用以下五個(gè)特征:
? 語言模型概率pLM(ei|e1…ei-1)
? 長度懲罰
對(duì)于一個(gè)待翻譯句子f,找到一個(gè)目標(biāo)語言的翻譯句子e,使得該句子p(e|f)的概率最大,在此我們使用如下的對(duì)數(shù)線性模型公式(4)。
(4)
其中λφ、λLM參數(shù)采用默認(rèn)值1。以圖4為例,系統(tǒng)依照基于路徑概率最大方法獲得的翻譯路徑為{(加強(qiáng)) (民族 地區(qū) 的)(干部 隊(duì)伍 建設(shè) )(。)}。
翻譯實(shí)驗(yàn)使用Moses基于短語的翻譯作為對(duì)比系統(tǒng),總共5個(gè)實(shí)驗(yàn)系統(tǒng),分別是基于正向最大匹配的翻譯系統(tǒng)、基于反向最大匹配的翻譯系統(tǒng)、基于路徑概率最大的翻譯系統(tǒng)、基于句子實(shí)例的翻譯系統(tǒng)和Moses基于短語的翻譯系統(tǒng)。
漢藏輔助翻譯實(shí)驗(yàn)中,共搜集整理69 756句對(duì)的漢藏平行語料庫,對(duì)于漢語句子相同的已做刪除處理。數(shù)據(jù)分布如表1。
隨機(jī)從各個(gè)不同領(lǐng)域的文檔中按比例共抽取429句對(duì)用作測試語料,測試語料只有一個(gè)翻譯候選譯文,余下67 327句對(duì)用作訓(xùn)練語料。其中測試語料漢語部分共8 547個(gè)詞匯,平均約20詞語/句子。評(píng)測工具使用的NIST評(píng)測腳本mteval-v11b.pl 評(píng)測實(shí)驗(yàn)結(jié)果如表2。
表1 數(shù)據(jù)分布表
表2 各系統(tǒng)評(píng)測得分以及總耗時(shí)
實(shí)驗(yàn)中,同時(shí)也統(tǒng)計(jì)了測試集中所有能在實(shí)例庫中查找到的短語串實(shí)例的個(gè)數(shù)占測試集中所有短語串的個(gè)數(shù)的比率。具體數(shù)據(jù)表如圖5~6。
圖5 測試短語串分布圖
測試語料中所有的短語串共98 706個(gè)。其中能在訓(xùn)練語料中查找到的短語實(shí)例共25 512個(gè),抽取出長度大于7的短語翻譯實(shí)例共2 258個(gè),這個(gè)較Moses基于短語的方法在短語翻譯實(shí)例的召回率上提高了約9.71%。
圖6中的長度為N的短語實(shí)例個(gè)數(shù)是指測試集中長度為N的短語串出現(xiàn)在訓(xùn)練集中的個(gè)數(shù)。整個(gè)測試集中,找到最長的翻譯實(shí)例串長度為33個(gè)詞語。
圖6 測試集實(shí)例串比率
基于正向和反向的最大子串匹配的方法是純粹的基于短語串實(shí)例的翻譯,兩者的翻譯效果大致相同,主要原因在于兩者采用了相同的基于實(shí)例串的翻譯,只是翻譯路徑選擇順序略有不同。而基于路徑概率最大的方法則采用了簡單的翻譯模型在翻譯效果上比前面兩種方法有一定的提高,這個(gè)主要原因在于翻譯路徑的選擇存在差異,基于路徑概率最大的方法在選擇短語實(shí)例串時(shí),通常會(huì)選擇出現(xiàn)頻度較大的實(shí)例串,比如名詞短語串等。這個(gè)比單純的正向最大匹配和反向最大匹配方法的效果要好,本次測試集中BULE值提高了0.02。
以上三個(gè)方法相對(duì)于基于句子實(shí)例的方法都有極大的提高?;诰渥訉?shí)例的翻譯方法,第一,測試語料在訓(xùn)練語料庫中沒有相同的實(shí)例。第二,考慮到翻譯效率,基于實(shí)例的方法只是尋找與待翻譯句子相近的漢語句子并返回相近句子對(duì)應(yīng)的譯文,并沒有做局部調(diào)整如近義詞替換等??梢钥闯?,在語料庫規(guī)模較小的情況下,單純的基于句子實(shí)例的方法并不能獲得較好的效果,在本次試驗(yàn)中效果BULE值都沒有達(dá)到0.1,這個(gè)結(jié)果相對(duì)基于統(tǒng)計(jì)的機(jī)器翻譯來說效果很差。
本文提出的基于短語串實(shí)例的方法與開源系統(tǒng)Moses基于短語的翻譯還有一定差距,在本測試集中BULE值比Moses低0.06。翻譯效果基本達(dá)到了Moses基于短語翻譯方法的80%左右,這個(gè)主要原因在于,上述實(shí)驗(yàn)的三種翻譯方法,前兩個(gè)只是基于短語串實(shí)例的翻譯,并沒有涉及到翻譯模型、語言模型。而基于路徑概率最大的方法也只是依照候選譯文的概率尋找一條最優(yōu)的翻譯路徑,無調(diào)序模型(可以看到例子中的動(dòng)詞“加強(qiáng)”對(duì)應(yīng)的翻譯只是直譯出來,并沒有調(diào)到藏語句子的末尾)。翻譯速度上單句的平均翻譯時(shí)間約0.175s,這個(gè)翻譯速度基本達(dá)到輔助翻譯實(shí)時(shí)性的要求。
總的來說,在語料規(guī)模較小的情況下,基于句子實(shí)例的翻譯并不能為輔助翻譯人員提供較好的譯文選擇,而基于短語串實(shí)例的翻譯能夠充分的挖掘現(xiàn)有的平行語料資源,可以將任意長度的漢藏翻譯實(shí)例串和候選譯文提供給輔助翻譯人員。
本文主要提出了一種簡單的基于短語串實(shí)例的漢藏輔助翻譯方案,翻譯效果與傳統(tǒng)的基于句子實(shí)例的方法相比有極大的提高。在平行語料資源較少的情況下,基于短語串實(shí)例的機(jī)器翻譯方法能利用詞語對(duì)齊方法充分挖掘現(xiàn)有平行語料資源,能夠檢索出任意長度的短語串翻譯實(shí)例,提高了漢藏輔助翻譯系統(tǒng)在短語級(jí)別的召回率,為輔助翻譯人員提供訓(xùn)練語料庫中任意長度的翻譯實(shí)例串。改善了漢藏輔助翻譯系統(tǒng)的譯文質(zhì)量。下一步,我們將在基于短語串實(shí)例的翻譯方法上,對(duì)短語調(diào)序做進(jìn)一步的研究。
致謝
本文中使用的語料由益西桑布老師校對(duì),特此感謝。
[1] 陳玉忠,俞士汶.藏文信息處理技術(shù)的研究現(xiàn)狀與展望[J].中國藏學(xué),2003,(4):97-107.
[2] 羅愛軍,格朗,伍金加參等.西藏漢藏翻譯隊(duì)伍狀況調(diào)查與分析[J].西藏科技,2010,(5):21-23.
[3] 德蓋才郎,李延福,項(xiàng)青朝加,等.實(shí)用化漢藏機(jī)器翻譯系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[C]//863計(jì)劃智能計(jì)算機(jī)主題學(xué)術(shù)會(huì)議論文集.2001:405-411.
[4] 才藏太,華關(guān)加.班智達(dá)漢藏公文翻譯系統(tǒng)中基于二分法的句法分析方法研究[J].中文信息學(xué)報(bào),2005,19(6):7-12.
[5] 扎洛,索南仁欠.漢藏機(jī)器翻譯中復(fù)句的翻譯規(guī)則研究[C]//中文信息處理前沿進(jìn)展——中國中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議.2006:454-460.
[6] 看卓才旦,金為勛,李延福,等.漢藏翻譯系統(tǒng)中的動(dòng)詞處理研究[J].術(shù)語標(biāo)準(zhǔn)化與信息技術(shù),2006,(3):28-32.
[7] 才讓加.藏語語料庫加工方法研究[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(6):138-139,146.
[8] 趙維納,劉匯丹,等. 面向漢藏輔助翻譯系統(tǒng)的平行語料庫建設(shè)[C]//第三屆全國少數(shù)民族青年自然語言信息處理暨第二屆全國多語言知識(shí)庫聯(lián)合學(xué)術(shù)研討會(huì), 2010:43-46.
[9] 諾明花,張立強(qiáng),劉匯丹,等.漢藏短語抽取[J].中文信息學(xué)報(bào),2011,25(2):105-110,121.
[10] 諾明花,吳健,劉匯丹,等.漢藏短語對(duì)抽取中短語譯文獲取方法研究[J].中文信息學(xué)報(bào),2011, 25(3):112-117.
[11] 侯宏旭,劉群,那順烏日?qǐng)D,等.基于實(shí)例的漢蒙機(jī)器翻譯[J].中文信息學(xué)報(bào),2007,21(4):65-72.
[12] 姜柄圭,張秦龍,諶貽榮,等.面向機(jī)器輔助翻譯的漢語語塊自動(dòng)抽取研究[J].中文信息學(xué)報(bào), 2007,21(1):9-16.
[13] Koehn P, H Hoang, et al. Moses: open source toolkit for statistical machine translation, Association for Computational Linguistics[C].2007.
[14] Xin Yu, Weina Zhao, Jian Wu. Dictionary-based Chinese-Tibetan sentence alignment[C]//The 2010 IEEE International Conference on Intelligent Computing and Integrated Systems. 2010
[15] Pi-Chuan Chang, Michel Galley and Chris Manning. Optimizing Chinese Word Segmentation for Machine Translation Performance[C]//ACL Third Workshop on Statistical Machine Translation, 2008.
[16] Huidan Liu, Weina Zhao, Minghua Ruo, et al. Tibetan Number Identification Based on Classification of Number Components in Tibetan Word Segmentation[C]//International Conference on Computational Linguistics. 2010.
[17] Franz Josef Och, Hermann Ney. A Systematic Comparison of Various Statistical Alignment Models[J]. Computational Linguistics, 2003,29(1): 19-51.
[18] 張怡蓀. 藏漢大辭典[M]. 民族出版社.1993.12.
[19] 民族出版社,漢藏對(duì)照詞典[M]. 民族出版社. 2002.7