漢語-維吾爾語的一對一詞對齊研究

2012-11-14 07:17:06張亞軍賀琛琛

昌吉學(xué)院學(xué)報(bào) 2012年6期

張亞軍賀琛琛

（1.昌吉學(xué)院計(jì)算機(jī)工程系新疆昌吉 831100；2.昌吉學(xué)院人事處新疆昌吉 831100）

1 引言

詞語的對齊（簡稱詞對齊，Word Alignment）研究是自然語言處理的一個重要組成部分，詞對齊分為三類：一對一、多對一、多對多。其目的是要找出從源語言的字符串和目標(biāo)語言的字符串之間的詞對齊。詞對齊對于平行語料庫、語料數(shù)據(jù)挖掘等方面尤為重要。同時(shí)，詞對齊還可以為雙語詞典、語音識別、信息檢索提供源材料。英語和漢語詞對齊研究相對成熟，基本精度在90%以上，取得的召回率約88%。然而漢語-維吾爾語（簡稱漢維）詞對齊的研究，處于前期研究階段。

研究詞對齊方法主要有兩類：

(1)基于語言學(xué)的方法：充分使用各種語言學(xué)的資源進(jìn)行詞對齊研究。例如利用統(tǒng)計(jì)和詞典相結(jié)合的方法進(jìn)行的詞對齊［1］；或者利用語言學(xué)比較的方法進(jìn)行詞對齊等［2］。

（2)基于統(tǒng)計(jì)的研究方法：其思路是通過對平行語料庫的統(tǒng)計(jì)性訓(xùn)練，取得雙語對應(yīng)詞的同現(xiàn)概率作為詞對齊的基礎(chǔ)，主要方法有Brown提出的基于信源信道模型方法實(shí)現(xiàn)的詞對齊［3］；Dagan等人對Brown的模型進(jìn)行改進(jìn)的詞對齊［4］；Gale、Piao、Okita都使用互信息和X2檢驗(yàn)方法進(jìn)行詞對齊［5］［6］［7］等。

基于統(tǒng)計(jì)方法實(shí)現(xiàn)漢維一對一的詞對齊是本文研究的重點(diǎn)內(nèi)容。

2 詞對齊模型描述

2.1 基于信源信道模型的統(tǒng)計(jì)方法

信源信道思想應(yīng)用于統(tǒng)計(jì)機(jī)器翻譯，實(shí)際上可以理解為一個解碼的過程，此時(shí)把翻譯系統(tǒng)視為信源信道，即對于一個目標(biāo)語言字串S，將尋找一個最大可能的源語言句子T，搜索概率P(T|S)最大值的過程。由貝葉斯公式：

其中P(T)為語言模型，P(S|T)為翻譯模型。

由于式(1)右邊P(S)與T無關(guān)，因此，求上式的最大值等同于求等式右邊分子的最大值即：

2.2 IBM模型1和模型2

大量的參數(shù)訓(xùn)練是詞對齊的基礎(chǔ)工作，由此可以計(jì)算出源語言詞語和目標(biāo)語言詞對齊的概率，從而搜索出概率最大值。本文采用EM(期望最大化)算法實(shí)現(xiàn)的IBM模型1和模型2。

IBM模型1-2的單詞翻譯概率公式相同，計(jì)算公式如(3)所示：

其中c(s|t;S(z),T(z))表示目標(biāo)語言的單詞t在翻譯句對(S|T)中與源語言的單詞s對齊的期望次數(shù)，s表示源語句中的詞語，t表示目標(biāo)語句中的詞語。Z表示語料庫中句對個數(shù)。

IBM模型1-2不同的是目標(biāo)語言的單詞t在翻譯句對(S|T)中與源語言的單詞s對齊的期望次數(shù)。模型一對齊期望次數(shù)如(4)式所示：

其中m表示源語言長度即源語言中詞語的個數(shù)；len表示目標(biāo)語言長度即目標(biāo)語言中詞語的個數(shù)；p(s|t)是目標(biāo)語言單詞與源語言單詞翻譯概率；δ是Kronecker函數(shù)，當(dāng)它的兩個參數(shù)相同時(shí)，δ=1，否則δ=0。

由于模型1忽略了單詞出現(xiàn)在句子中的位置，模型2在模型1基礎(chǔ)上不再假設(shè)每一個源語言詞語與目標(biāo)語言詞語之間有相同的對齊概率，而是考慮了目標(biāo)語言句子的不同位置和不同句對長度的影響，可能導(dǎo)致任意兩個對位存在不同的概率，由此引入對位概率p(aj|j,m,l)。模型二對齊次數(shù)如(5)式所示：

3 漢維一對一詞對齊

3.1 系統(tǒng)處理流程

系統(tǒng)流程如圖1所示，模型1和模型2是研究的重點(diǎn)。

圖1 漢維一對一詞對齊流程

3.2 語料預(yù)處理

實(shí)驗(yàn)要求選取平行語料庫中的語料，本文選取漢語語料和維吾爾語語料。具體要求有：將漢語語料和維吾爾語語料分別存放于格式為txt的兩個文本，文本中的每一行都是一個獨(dú)立的句子，且漢語文本及維吾爾語文本的相同行為互相對應(yīng)的一個句對。

例如：

中文文件

維文文件

漢語詞語切分利用中國科學(xué)院計(jì)算技術(shù)研究所提供的中文分詞工具ICTCLAS處理。維吾爾語切分工具由新疆大學(xué)多語種信息重點(diǎn)實(shí)驗(yàn)室提供。在詞語對齊訓(xùn)練過程當(dāng)中發(fā)現(xiàn)對齊結(jié)果受到個別拉丁維文字符的影響，采取的方案是將其轉(zhuǎn)化為無歧義可以識別的字符來處理。例如é轉(zhuǎn)化為E、ü轉(zhuǎn)化為U、?轉(zhuǎn)化為O等。例如：

拉丁維文：

轉(zhuǎn)換個別字符后的拉丁維文：

3.3 一對一對齊步驟與算法

3.3.1 一對一對齊步驟

(1)語料預(yù)處理：將漢文詞語分詞，維文轉(zhuǎn)化為拉丁維文并將個別字符轉(zhuǎn)化為無歧義可以識別的字符；

(2)IBM模型1實(shí)現(xiàn)漢維詞對齊：以源語言文本和目標(biāo)語言文本作為輸入文件，初始化單詞概率分布P(S|T)，計(jì)算目標(biāo)語言的單詞t在翻譯句對(S|T)中與源語言的單詞s對齊的期望次數(shù)，迭代修正單詞翻譯概率。

(3)IBM模型2實(shí)現(xiàn)漢維詞對齊：在考慮了目標(biāo)語言句子的不同位置和不同句對長度因素下，以模型1最終修正的單詞翻譯概率為初始值，計(jì)算對位概率a(i|j),不斷迭代修正單詞翻譯概率。

3.3.2 對齊算法

算法主要步驟如下

St1：設(shè)輸入預(yù)處理后的維吾爾語文本S=S1S2S3…Si… SZ,Si為源文件,漢文文本 T1T2T3…Ti…TZ，Ti為目標(biāo)文件；

St2：初始化單詞概率分布p(s|t)；

St3：對于每一個句對（S(Z),T(Z)），計(jì)算期望次數(shù)c(s|t;S(Z),T(Z))；

St4：對于每一個至少出現(xiàn)在一個目標(biāo)語言句子中的單詞t計(jì)算同時(shí)對每一個至少在一個源語言句子出現(xiàn)的單詞s,計(jì)算得出新的單詞對位概率值p(s|t)；

St5：重復(fù)St3和St4，直到迭代完畢，結(jié)束模型1算法；

St6：將模型1修正后的單詞對位概率值作為模型2的初始值，并引入對位概率a(i|j,m,l)賦予初始值；

St7：對于每一個句對（S(Z),T(Z)），計(jì)算期望次數(shù)c(s|t;S(Z),T(Z))和 c(i|j,m,l;S,T)；

St8：對于每一個至少出現(xiàn)在一個目標(biāo)語言句子中的單詞t計(jì)算同時(shí)對每一個至少在一個源語言句子出現(xiàn)的單詞s,計(jì)算得出新的單詞對位概率值p(s|t)和新的對位概率值a(i|j,m,l)；

St9：重復(fù)St7和St8，直到迭代完畢，結(jié)束模型2算法。

4 對齊結(jié)果與分析

本文平行語料庫由新疆大學(xué)信息學(xué)院多語種信息技術(shù)重點(diǎn)實(shí)驗(yàn)室提供。語料庫中整理了漢維相對應(yīng)的10000句對。從中抽出本實(shí)驗(yàn)所需的漢維相對應(yīng)331個句對，其中這331個句對中的詞都是一對一的對齊方式。

4.1 模型實(shí)現(xiàn)

(1)通過上述一對一漢維詞對齊步驟，本文實(shí)現(xiàn)了一個可以在windows下運(yùn)行的漢維詞語對齊模型系統(tǒng)。本系統(tǒng)的核心代碼是采用visual studio 2010平臺下的C#編寫，主要采用數(shù)據(jù)庫訪問的方式存取數(shù)據(jù)，運(yùn)行界面如圖所示。

圖2 運(yùn)行界面

(2)為對比該系統(tǒng)的評測指標(biāo)，在相同語料下，利用Giza++［7］進(jìn)行了的漢維詞語對齊，其中從模型1到模型2。如圖3所示：

圖3 Giza++詞對齊結(jié)果

4.2 系統(tǒng)評價(jià)指標(biāo)

將漢維331句對進(jìn)行詞對齊的人工校對，同時(shí)從Giza++結(jié)果中找出一對一的漢維詞對齊作為標(biāo)準(zhǔn)測試語料。按照規(guī)定，引入了三種評測指標(biāo)：

正確率=正確的對齊總數(shù)/對齊總數(shù)*100%

召回率=正確的對齊總數(shù)/實(shí)有對齊總數(shù)*100%

可以得到以下幾個結(jié)論：

（1）兩個模型運(yùn)行測試結(jié)果

表1：Model 1和Model 2的對齊結(jié)果

(2)本系統(tǒng)同Giza++的詞對齊相比，各項(xiàng)評測指標(biāo)如表2所示。

表2：與Giza++對齊結(jié)果比較

4.3 實(shí)驗(yàn)結(jié)果分析

從上述兩個表中可以發(fā)現(xiàn)，正確率和召回率不高，經(jīng)過總結(jié)分析，影響因素如下：

1.漢語和維吾爾語在切分過程中容易出現(xiàn)切分錯誤，在詞對齊時(shí)會導(dǎo)致錯誤放大。

2.漢語和維吾爾語的句法結(jié)構(gòu)不同。漢語屬于SVO語言，而維吾爾語是SOV語言。

3.漢語無形態(tài)語言，而維吾爾語為形態(tài)豐富的語言。維吾爾語中有明顯形態(tài)標(biāo)志的格，大部分出現(xiàn)在句子的末尾，最多可能出現(xiàn)四種形態(tài)標(biāo)記。

4.本實(shí)驗(yàn)中選取的語料規(guī)模較小，部分詞語可能未能夠覆蓋。

5.模型2的效果比模型1好。但是同Giza++相比較，若使用基于信源信道模型的統(tǒng)計(jì)方法來解決一對一詞對齊，后者的效果較好。

5 總結(jié)

論文的主要研究工作是基于統(tǒng)計(jì)機(jī)器翻譯的一對一漢維詞對齊方面。通過測試，本方法基本達(dá)到實(shí)驗(yàn)效果，同時(shí)也為后續(xù)其他詞語級對齊打下基礎(chǔ)。

目前，本系統(tǒng)設(shè)計(jì)主要考慮了IBM模型1-2實(shí)現(xiàn)了一對一詞對齊。但是當(dāng)我們觀察一些實(shí)際翻譯例子時(shí)發(fā)現(xiàn)，很多情況下句對中的詞語為一對多、多對一、多對多。因此，在今后的工作中，首要研究如何實(shí)現(xiàn)漢語和維吾爾語一對多、多對一和多對多的對位關(guān)系；其次要考慮兩種句法結(jié)構(gòu)相差大的語言上的句子結(jié)構(gòu)。

［1］鄧丹,劉群,俞鴻魁.基于雙語詞典的漢英詞對齊算法研究［J］.計(jì)算機(jī)工程，2005,(8)：31-16.

［2］［Huang,2000］Jin-Xia Huang,and Key-Sun Choi.C-hinese-Korean word alignment based on linguistic c-omparison［C］.In：Annual Meeting of the Association for Computational Linguistics,2000.392-399.

［3］Brown P F,Della Pietra S A,Della Pietra V J,et al.The Mathematics of Statistical Machine Translation：Parameter Estimation［J］.Computational Linguistics,1993,19(2)：263

［4］［Dagan,1993］Dagan L,Chunch K,et al.Robust bilingual word alignment for machine aided translation［A］.Proceedings of the W orkshop on Very Large corpora：Academic and Industrial Perspectives［C］,C olumbus,1993.1-8.

［5］［Gale,1991］Gale,W.and Church,K.Identifying W ord Correspondences in Parallel Texts［A］.Proceedings of the 4th DARPA Speech and Natural LanguageWorkshop［C］,Pacific Grove,CA,1991.152-157.

［6］Piao,Scott.Word alignment in English-Chinese parallel corpora.Literary and Linguistic Computing,2002,17(2).pp.207-230.

［7］Okita,Tsuyoshi.Word alignment and smoothing methods in statistical machine translation：Noise,prior knowledge and overfitting.Dublin City University School of Computing,2012.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看