• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      漢語-維吾爾語的一對一詞對齊研究

      2012-11-14 07:17:06張亞軍賀琛琛
      昌吉學(xué)院學(xué)報(bào) 2012年6期
      關(guān)鍵詞:漢維源語言目標(biāo)語言

      張亞軍 賀琛琛

      (1.昌吉學(xué)院計(jì)算機(jī)工程系 新疆 昌吉 831100;2.昌吉學(xué)院人事處 新疆 昌吉 831100)

      1 引言

      詞語的對齊(簡稱詞對齊,Word Alignment)研究是自然語言處理的一個重要組成部分,詞對齊分為三類:一對一、多對一、多對多。其目的是要找出從源語言的字符串和目標(biāo)語言的字符串之間的詞對齊。詞對齊對于平行語料庫、語料數(shù)據(jù)挖掘等方面尤為重要。同時(shí),詞對齊還可以為雙語詞典、語音識別、信息檢索提供源材料。英語和漢語詞對齊研究相對成熟,基本精度在90%以上,取得的召回率約88%。然而漢語-維吾爾語(簡稱漢維)詞對齊的研究,處于前期研究階段。

      研究詞對齊方法主要有兩類:

      (1)基于語言學(xué)的方法:充分使用各種語言學(xué)的資源進(jìn)行詞對齊研究。例如利用統(tǒng)計(jì)和詞典相結(jié)合的方法進(jìn)行的詞對齊[1];或者利用語言學(xué)比較的方法進(jìn)行詞對齊等[2]。

      (2)基于統(tǒng)計(jì)的研究方法:其思路是通過對平行語料庫的統(tǒng)計(jì)性訓(xùn)練,取得雙語對應(yīng)詞的同現(xiàn)概率作為詞對齊的基礎(chǔ),主要方法有Brown提出的基于信源信道模型方法實(shí)現(xiàn)的詞對齊[3];Dagan等人對Brown的模型進(jìn)行改進(jìn)的詞對齊[4];Gale、Piao、Okita都使用互信息和X2檢驗(yàn)方法進(jìn)行詞對齊[5][6][7]等。

      基于統(tǒng)計(jì)方法實(shí)現(xiàn)漢維一對一的詞對齊是本文研究的重點(diǎn)內(nèi)容。

      2 詞對齊模型描述

      2.1 基于信源信道模型的統(tǒng)計(jì)方法

      信源信道思想應(yīng)用于統(tǒng)計(jì)機(jī)器翻譯,實(shí)際上可以理解為一個解碼的過程,此時(shí)把翻譯系統(tǒng)視為信源信道,即對于一個目標(biāo)語言字串S,將尋找一個最大可能的源語言句子T,搜索概率P(T|S)最大值的過程。 由貝葉斯公式:

      其中P(T)為語言模型,P(S|T)為翻譯模型。

      由于式(1)右邊P(S)與T無關(guān),因此,求上式的最大值等同于求等式右邊分子的最大值即:

      2.2 IBM模型1和模型2

      大量的參數(shù)訓(xùn)練是詞對齊的基礎(chǔ)工作,由此可以計(jì)算出源語言詞語和目標(biāo)語言詞對齊的概率,從而搜索出概率最大值。本文采用EM(期望最大化)算法實(shí)現(xiàn)的IBM模型1和模型2。

      IBM模型1-2的單詞翻譯概率公式相同,計(jì)算公式如(3)所示:

      其中c(s|t;S(z),T(z))表示目標(biāo)語言的單詞t在翻譯句對(S|T)中與源語言的單詞s對齊的期望次數(shù),s表示源語句中的詞語,t表示目標(biāo)語句中的詞語。Z表示語料庫中句對個數(shù)。

      IBM模型1-2不同的是目標(biāo)語言的單詞t在翻譯句對(S|T)中與源語言的單詞s對齊的期望次數(shù)。模型一對齊期望次數(shù)如(4)式所示:

      其中m表示源語言長度即源語言中詞語的個數(shù);len表示目標(biāo)語言長度即目標(biāo)語言中詞語的個數(shù);p(s|t)是目標(biāo)語言單詞與源語言單詞翻譯概率;δ是Kronecker函數(shù),當(dāng)它的兩個參數(shù)相同時(shí),δ=1,否則δ=0。

      由于模型1忽略了單詞出現(xiàn)在句子中的位置,模型2在模型1基礎(chǔ)上不再假設(shè)每一個源語言詞語與目標(biāo)語言詞語之間有相同的對齊概率,而是考慮了目標(biāo)語言句子的不同位置和不同句對長度的影響,可能導(dǎo)致任意兩個對位存在不同的概率,由此引入對位概率p(aj|j,m,l)。模型二對齊次數(shù)如(5)式所示:

      3 漢維一對一詞對齊

      3.1 系統(tǒng)處理流程

      系統(tǒng)流程如圖1所示,模型1和模型2是研究的重點(diǎn)。

      圖1 漢維一對一詞對齊流程

      3.2 語料預(yù)處理

      實(shí)驗(yàn)要求選取平行語料庫中的語料,本文選取漢語語料和維吾爾語語料。具體要求有:將漢語語料和維吾爾語語料分別存放于格式為txt的兩個文本,文本中的每一行都是一個獨(dú)立的句子,且漢語文本及維吾爾語文本的相同行為互相對應(yīng)的一個句對。

      例如:

      中文文件

      維文文件

      漢語詞語切分利用中國科學(xué)院計(jì)算技術(shù)研究所提供的中文分詞工具ICTCLAS處理。維吾爾語切分工具由新疆大學(xué)多語種信息重點(diǎn)實(shí)驗(yàn)室提供。在詞語對齊訓(xùn)練過程當(dāng)中發(fā)現(xiàn)對齊結(jié)果受到個別拉丁維文字符的影響,采取的方案是將其轉(zhuǎn)化為無歧義可以識別的字符來處理。例如é轉(zhuǎn)化為E、ü轉(zhuǎn)化為U、?轉(zhuǎn)化為O等。例如:

      拉丁維文:

      轉(zhuǎn)換個別字符后的拉丁維文:

      3.3 一對一對齊步驟與算法

      3.3.1 一對一對齊步驟

      (1)語料預(yù)處理:將漢文詞語分詞,維文轉(zhuǎn)化為拉丁維文并將個別字符轉(zhuǎn)化為無歧義可以識別的字符;

      (2)IBM模型1實(shí)現(xiàn)漢維詞對齊:以源語言文本和目標(biāo)語言文本作為輸入文件,初始化單詞概率分布P(S|T),計(jì)算目標(biāo)語言的單詞t在翻譯句對(S|T)中與源語言的單詞s對齊的期望次數(shù),迭代修正單詞翻譯概率。

      (3)IBM模型2實(shí)現(xiàn)漢維詞對齊:在考慮了目標(biāo)語言句子的不同位置和不同句對長度因素下,以模型1最終修正的單詞翻譯概率為初始值,計(jì)算對位概率a(i|j),不斷迭代修正單詞翻譯概率。

      3.3.2 對齊算法

      算法主要步驟如下

      St1:設(shè)輸入預(yù)處理后的維吾爾語文本S=S1S2S3…Si… SZ,Si為源文件,漢文文本 T1T2T3…Ti…TZ,Ti為目標(biāo)文件;

      St2:初始化單詞概率分布p(s|t);

      St3:對于每一個句對(S(Z),T(Z)),計(jì)算期望次數(shù)c(s|t;S(Z),T(Z));

      St4:對于每一個至少出現(xiàn)在一個目標(biāo)語言句子中的單詞t計(jì)算同時(shí)對每一個至少在一個源語言句子出現(xiàn)的單詞s,計(jì)算得出新的單詞對位概率值p(s|t);

      St5:重復(fù)St3和St4,直到迭代完畢,結(jié)束模型1算法;

      St6:將模型1修正后的單詞對位概率值作為模型2的初始值,并引入對位概率a(i|j,m,l)賦予初始值;

      St7:對于每一個句對(S(Z),T(Z)),計(jì)算期望次數(shù)c(s|t;S(Z),T(Z))和 c(i|j,m,l;S,T);

      St8:對于每一個至少出現(xiàn)在一個目標(biāo)語言句子中的單詞t計(jì)算同時(shí)對每一個至少在一個源語言句子出現(xiàn)的單詞s,計(jì)算得出新的單詞對位概率值p(s|t)和新的對位概率值a(i|j,m,l);

      St9:重復(fù)St7和St8,直到迭代完畢,結(jié)束模型2算法。

      4 對齊結(jié)果與分析

      本文平行語料庫由新疆大學(xué)信息學(xué)院多語種信息技術(shù)重點(diǎn)實(shí)驗(yàn)室提供。語料庫中整理了漢維相對應(yīng)的10000句對。從中抽出本實(shí)驗(yàn)所需的漢維相對應(yīng)331個句對,其中這331個句對中的詞都是一對一的對齊方式。

      4.1 模型實(shí)現(xiàn)

      (1)通過上述一對一漢維詞對齊步驟,本文實(shí)現(xiàn)了一個可以在windows下運(yùn)行的漢維詞語對齊模型系統(tǒng)。本系統(tǒng)的核心代碼是采用visual studio 2010平臺下的C#編寫,主要采用數(shù)據(jù)庫訪問的方式存取數(shù)據(jù),運(yùn)行界面如圖所示。

      圖2 運(yùn)行界面

      (2)為對比該系統(tǒng)的評測指標(biāo),在相同語料下,利用Giza++[7]進(jìn)行了的漢維詞語對齊,其中從模型1到模型2。如圖3所示:

      圖3 Giza++詞對齊結(jié)果

      4.2 系統(tǒng)評價(jià)指標(biāo)

      將漢維331句對進(jìn)行詞對齊的人工校對,同時(shí)從Giza++結(jié)果中找出一對一的漢維詞對齊作為標(biāo)準(zhǔn)測試語料。按照規(guī)定,引入了三種評測指標(biāo):

      正確率=正確的對齊總數(shù)/對齊總數(shù)*100%

      召回率=正確的對齊總數(shù)/實(shí)有對齊總數(shù)*100%

      可以得到以下幾個結(jié)論:

      (1)兩個模型運(yùn)行測試結(jié)果

      表1:Model 1和Model 2的對齊結(jié)果

      (2)本系統(tǒng)同Giza++的詞對齊相比,各項(xiàng)評測指標(biāo)如表2所示。

      表2:與Giza++對齊結(jié)果比較

      4.3 實(shí)驗(yàn)結(jié)果分析

      從上述兩個表中可以發(fā)現(xiàn),正確率和召回率不高,經(jīng)過總結(jié)分析,影響因素如下:

      1.漢語和維吾爾語在切分過程中容易出現(xiàn)切分錯誤,在詞對齊時(shí)會導(dǎo)致錯誤放大。

      2.漢語和維吾爾語的句法結(jié)構(gòu)不同。漢語屬于SVO語言,而維吾爾語是SOV語言。

      3.漢語無形態(tài)語言,而維吾爾語為形態(tài)豐富的語言。維吾爾語中有明顯形態(tài)標(biāo)志的格,大部分出現(xiàn)在句子的末尾,最多可能出現(xiàn)四種形態(tài)標(biāo)記。

      4.本實(shí)驗(yàn)中選取的語料規(guī)模較小,部分詞語可能未能夠覆蓋。

      5.模型2的效果比模型1好。但是同Giza++相比較,若使用基于信源信道模型的統(tǒng)計(jì)方法來解決一對一詞對齊,后者的效果較好。

      5 總結(jié)

      論文的主要研究工作是基于統(tǒng)計(jì)機(jī)器翻譯的一對一漢維詞對齊方面。通過測試,本方法基本達(dá)到實(shí)驗(yàn)效果,同時(shí)也為后續(xù)其他詞語級對齊打下基礎(chǔ)。

      目前,本系統(tǒng)設(shè)計(jì)主要考慮了IBM模型1-2實(shí)現(xiàn)了一對一詞對齊。但是當(dāng)我們觀察一些實(shí)際翻譯例子時(shí)發(fā)現(xiàn),很多情況下句對中的詞語為一對多、多對一、多對多。因此,在今后的工作中,首要研究如何實(shí)現(xiàn)漢語和維吾爾語一對多、多對一和多對多的對位關(guān)系;其次要考慮兩種句法結(jié)構(gòu)相差大的語言上的句子結(jié)構(gòu)。

      [1]鄧丹,劉群,俞鴻魁.基于雙語詞典的漢英詞對齊算法研究[J].計(jì)算機(jī)工程,2005,(8):31-16.

      [2][Huang,2000]Jin-Xia Huang,and Key-Sun Choi.C-hinese-Korean word alignment based on linguistic c-omparison[C].In:Annual Meeting of the Association for Computational Linguistics,2000.392-399.

      [3]Brown P F,Della Pietra S A,Della Pietra V J,et al.The Mathematics of Statistical Machine Translation:Parameter Estimation[J].Computational Linguistics,1993,19(2):263

      [4][Dagan,1993]Dagan L,Chunch K,et al.Robust bilingual word alignment for machine aided translation[A].Proceedings of the W orkshop on Very Large corpora:Academic and Industrial Perspectives[C],C olumbus,1993.1-8.

      [5][Gale,1991]Gale,W.and Church,K.Identifying W ord Correspondences in Parallel Texts[A].Proceedings of the 4th DARPA Speech and Natural LanguageWorkshop[C],Pacific Grove,CA,1991.152-157.

      [6]Piao,Scott.Word alignment in English-Chinese parallel corpora.Literary and Linguistic Computing,2002,17(2).pp.207-230.

      [7]Okita,Tsuyoshi.Word alignment and smoothing methods in statistical machine translation:Noise,prior knowledge and overfitting.Dublin City University School of Computing,2012.

      猜你喜歡
      漢維源語言目標(biāo)語言
      林巍《知識與智慧》英譯分析
      現(xiàn)代漢維茶俗茶禮對比研究
      淺析日語口譯譯員素質(zhì)
      教材插圖在英語課堂閱讀教學(xué)中的運(yùn)用及實(shí)例探討
      維吾爾語人稱代詞的用法及翻譯方法探析
      跨文化視角下對具有修辭手法諺語英譯漢的研究
      速讀·下旬(2016年7期)2016-07-20 08:50:28
      少數(shù)民族聚居城市雙語公示語翻譯規(guī)范化探析——以新疆烏魯木齊市漢維公示語為例
      以口譯實(shí)例談雙語知識的必要性
      考試周刊(2015年36期)2015-09-10 15:03:38
      二語習(xí)得過程中的石化現(xiàn)象分析
      漢維詞匯文化聯(lián)想意義之對比
      語言與翻譯(2014年1期)2014-07-10 13:06:11
      黄梅县| 文山县| 兴城市| 高安市| 无棣县| 额尔古纳市| 平阴县| 哈巴河县| 南华县| 丹江口市| 宜州市| 昭平县| 长乐市| 土默特左旗| 宁夏| 卢湾区| 嵊泗县| 牟定县| 抚顺市| 如东县| 亚东县| 宜阳县| 赤壁市| 东乡| 东兰县| 普安县| 临泽县| 漳平市| 平陆县| 灌云县| 高清| 海兴县| 肇东市| 东兴市| 稷山县| 肥城市| 洛浦县| 侯马市| 商南县| 白银市| 二连浩特市|