• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于關(guān)聯(lián)度的漢藏多詞單元等價(jià)對(duì)抽取方法

      2012-06-29 05:53:30諾明花劉匯丹丁治明
      中文信息學(xué)報(bào) 2012年3期
      關(guān)鍵詞:漢藏等價(jià)語(yǔ)料

      諾明花,劉匯丹,吳 健,丁治明

      (1. 中國(guó)科學(xué)院 軟件研究所,北京100190;2. 中國(guó)科學(xué)院 研究生院,北京 100049)

      1 引言

      長(zhǎng)尾真(Nagao,M.)[1]提出:計(jì)算機(jī)輔助翻譯的過(guò)程一般是首先將輸入句子分解為片段,接著把這些片段譯成目標(biāo)語(yǔ)言,最后把這些片段合并成長(zhǎng)句,其中每個(gè)片段采取類比的原則進(jìn)行翻譯。這些片段可以是詞、短語(yǔ)或其他由多個(gè)詞組合而成的語(yǔ)言單位,我們將這些語(yǔ)言單位統(tǒng)稱為多詞單元。多詞單元是單詞的擴(kuò)展,單詞和多詞單元一起構(gòu)成了翻譯的基本單位。在漢藏翻譯過(guò)程中,從翻譯人員的實(shí)踐來(lái)看,僅僅把詞作為翻譯的基本單位并不合適,將多詞單元作為一個(gè)整體來(lái)翻譯更能夠保證譯文的準(zhǔn)確度和流利度,這種整體性的翻譯對(duì)于提高全文翻譯的質(zhì)量是大有好處的。

      本文將要構(gòu)建漢藏輔助翻譯系統(tǒng)的多詞單元翻譯詞典,其中每條記錄包含漢語(yǔ)有效多詞單元以及對(duì)應(yīng)的藏文譯文?;陔p語(yǔ)語(yǔ)料庫(kù)進(jìn)行翻譯詞典編纂,國(guó)內(nèi)外很多研究者都做了大量工作[2-3]。在漢藏短語(yǔ)對(duì)抽取方面,國(guó)內(nèi)已經(jīng)有了一些研究。文獻(xiàn)[4]中提出藏文詞串頻率統(tǒng)計(jì)算法(簡(jiǎn)稱TSM)和藏文詞串序列相交算法(簡(jiǎn)稱TIA)兩種方法進(jìn)行漢藏短語(yǔ)對(duì)抽取。TIA算法使用藏文詞序列相交短語(yǔ)譯文獲取模型(Sequence Intersection Based Phrase Translation Extraction Model,SIBPTM),對(duì)句對(duì)齊雙語(yǔ)語(yǔ)料庫(kù)中包含待翻譯漢語(yǔ)語(yǔ)塊的句對(duì)集合求交集來(lái)抽取譯文。為了提高準(zhǔn)確率,SIBPTM模型以漢藏詞典為輔助資源,并設(shè)定閾值解決部分未登錄現(xiàn)象。由于使用的漢藏雙語(yǔ)詞典覆蓋率較低,未登錄現(xiàn)象較突出,所以,這種方法能夠抽取的短語(yǔ)對(duì)規(guī)模有限。如果用大規(guī)模語(yǔ)料庫(kù)進(jìn)行訓(xùn)練以擴(kuò)大覆蓋率,一定程度上可以彌補(bǔ)召回率低的缺陷,但是漢藏機(jī)器翻譯的研究還處于起步階段,平行語(yǔ)料庫(kù)規(guī)模十分有限。因此,在當(dāng)前形勢(shì)下,相對(duì)而言,準(zhǔn)確率顯得不是特別重要,如何提高召回率是當(dāng)前更需要考慮的問(wèn)題。

      本文重點(diǎn)研究如何提高基于漢藏對(duì)齊語(yǔ)料庫(kù)的多詞單元等價(jià)對(duì)抽取方法召回率的問(wèn)題。

      2 基于關(guān)聯(lián)度的多詞單元等價(jià)對(duì)獲取模型

      本文提出CMWEPM(Collocation Based Multi-Word Equivalence Pair Extraction Model)模型來(lái)抽取漢藏多詞單元等價(jià)對(duì)。與SIBPTM類似,CMWEPM模型同樣分兩步完成翻譯等價(jià)對(duì)的抽取,但是它在獲取有效漢語(yǔ)語(yǔ)塊及確定譯文方法上均與SIBPTM模型不同。

      為了識(shí)別漢語(yǔ)多詞單元,本文使用Ying Zhang和Ralf Brown等人[5]提出的關(guān)聯(lián)度(Collocation)度量指標(biāo)。下面簡(jiǎn)要介紹這個(gè)度量指標(biāo)。

      2.1 關(guān)聯(lián)度

      Collocation可以比較全面地衡量事件關(guān)聯(lián)度,其定義如下:

      (1)

      其中,VMI是平均互信息;w1,w2是待衡量的兩個(gè)事件,在本文中指單詞的出現(xiàn)。VMI定義如下:

      VMI(w1,w2)

      (2)

      H是一個(gè)詞的平均信息量,是指每個(gè)詞所含的信息量的統(tǒng)計(jì)。N個(gè)離散消息源的平均信息量定義如式(3),在本文中離散消息源指漢語(yǔ)單詞。

      (3)

      本文使用的平均互信息VMI值是建立在相鄰兩個(gè)詞共現(xiàn)概率的基礎(chǔ)之上的,但不僅僅是兩個(gè)詞的互信息MI值。可以看出,在VMI的計(jì)算公式中,前兩項(xiàng)分別是兩個(gè)詞同時(shí)出現(xiàn)、同時(shí)不出現(xiàn)的情況,表現(xiàn)了對(duì)兩個(gè)詞共現(xiàn)有貢獻(xiàn)的互信息;后兩項(xiàng)是一個(gè)詞出現(xiàn)而另一個(gè)詞不出現(xiàn)的情況,表現(xiàn)了對(duì)共現(xiàn)有抵消作用的互信息。平均互信息能夠綜合考慮整個(gè)語(yǔ)料庫(kù)的情況,可以全面地衡量?jī)蓚€(gè)詞之間的關(guān)聯(lián)度。

      然而,平均互信息值也只是說(shuō)明了兩個(gè)詞共現(xiàn)的趨勢(shì)大小,該值高只能表明w1、w2同時(shí)出現(xiàn)的趨勢(shì)大,可能它們其中一個(gè)或者兩個(gè)都是高頻詞,因此,這兩個(gè)詞出現(xiàn)的頻率應(yīng)該被考慮進(jìn)去。式中分母即是w1、w2的平均信息量,對(duì)平均互信息值起到歸一化的作用。

      假設(shè)句子片段包含三個(gè)詞w1,w2,w3.將w1與w2的Collocation值記為x,w2與w3的Collocation值記為y,則BindingDegree(x,y)計(jì)算方法如下:

      (4)

      在這里,BindingDegree(x,y) 用于衡量多詞單元中詞語(yǔ)的結(jié)合度并確定多詞單元的邊界。以下將BindingDegree(x,y)稱為結(jié)合度,它計(jì)算出的值簡(jiǎn)稱BD值。

      2.2 約束多詞單元

      CMWEPM模型是基于詞對(duì)齊的,利用關(guān)聯(lián)度和結(jié)合度確定漢語(yǔ)多詞單元邊界后,通過(guò)詞對(duì)齊優(yōu)化結(jié)果選擇漢語(yǔ)多詞單元的譯文。利用 GIZA++獲得詞對(duì)齊矩陣是等價(jià)對(duì)抽取的起點(diǎn)。

      Koehn[6]提出了一個(gè)基于詞對(duì)齊的短語(yǔ)翻譯模型。下面先給出短語(yǔ)定義。設(shè):f=f1…fm,e=e1…en分別為源語(yǔ)言和目標(biāo)語(yǔ)言句子,α是兩個(gè)句子上的對(duì)齊,則短語(yǔ)互譯對(duì)是與α一致的,當(dāng)且僅當(dāng)有下列條件成立:

      (1) ?j?i′(i′,j′)∈α,i′?{i1,…,im},j∈{j1,…,jn};

      (2) ?i?j′(i′,j′)∈α,i∈{i1,…,im},j′?{j1,…,jn};

      (3) ?k,l(ik,jl)∈α,1≤k≤m,1≤l≤n。

      Koehn抽取方法是嚴(yán)格按照詞對(duì)齊進(jìn)行的,因此本文稱此類多詞單元為嚴(yán)格多詞單元。它要求完全相容,因此抗噪聲能力不強(qiáng)。本文從漢藏多詞單元等價(jià)對(duì)抽取實(shí)際問(wèn)題出發(fā),采用基于詞匯結(jié)合度約束的抽取策略來(lái)減小錯(cuò)誤詞對(duì)齊結(jié)果造成的精度損失。放寬一致性條件,使得等價(jià)對(duì)中的詞對(duì)齊到多詞單元內(nèi)的某個(gè)詞的同時(shí)可以對(duì)齊到該多詞單元之外,可以避免抽取到不完整的多詞單元等價(jià)對(duì)。只要這個(gè)詞能夠滿足式(5)的對(duì)齊約束條件,避免破壞等價(jià)對(duì)的完整性。

      (5)

      滿足式(5)的詞串為約束多詞單元,其中,sim(ei,fj)是詞匯結(jié)合度度量函數(shù),θ是閾值。

      3 漢藏多詞單元等價(jià)對(duì)識(shí)別流程

      CMWEPM模型構(gòu)建多詞單元詞典中漢語(yǔ)多詞單元自動(dòng)獲取是關(guān)鍵。假設(shè)句子為W1,W2…Wi,Wi+1…Wn, 將W1和W2的Collocation值記為x,若通過(guò)了閾值過(guò)濾,則將這兩個(gè)詞作為一個(gè)多詞單元;計(jì)算W2和W3的Collocation值,記為y,若BindingDegree(x,y) 值通過(guò)了閾值過(guò)濾,則將這三個(gè)詞作為一個(gè)多詞單元,依此類推。

      3.1 多詞單元分類與閾值選取

      對(duì)于高頻多詞單元和低頻多詞單元設(shè)定同一個(gè)閾值并不合理,本文應(yīng)用四點(diǎn)法則弱化主觀影響且不失多詞單元的全面性,從而降低閾值本身所帶來(lái)的對(duì)精確度的影響,提高準(zhǔn)確度和效率。為了使計(jì)算更有針對(duì)性,本文將多詞單元分為以下四類:(1)短高頻多詞單元; (2)短低頻多詞單元;(3)長(zhǎng)高頻多詞單元; (4)長(zhǎng)低頻多詞單元 。表1給出多詞單元類型趨向與關(guān)聯(lián)度和結(jié)合度對(duì)應(yīng)情況。

      表1 多詞單元分類表

      設(shè)定四種閾值與多詞單元類型對(duì)應(yīng),保證閾值的選取對(duì)多詞單元類型具有更好的分辨力。閾值選取以關(guān)聯(lián)度和提取出的多詞單元的長(zhǎng)度作為參考因素,基本上權(quán)衡這兩方面就可以。約定橫坐標(biāo)表示Collocation值,縱坐標(biāo)表示BindingDegree值;本文實(shí)驗(yàn)所使用的短高頻、短低頻、長(zhǎng)高頻和長(zhǎng)低頻對(duì)應(yīng)的一組參考閾值用坐標(biāo)形式表示如下:A(0.38,0.6),B(0.1,0.6),C(0.38,0.3),D(0.1,0.3);其中Collocation值和BindingDegree值的高值和低值的閾值分別設(shè)定為thresh_col1=0.38、thresh_col2=0.1、thresh_sim1=0.3、thresh_sim2=0.6。需要說(shuō)明的是,這些值都無(wú)須非常精確,只要結(jié)果大體符合以上分類的標(biāo)準(zhǔn)就可以,在后面的處理中還會(huì)有進(jìn)一步的調(diào)整。

      3.2 識(shí)別多詞單元等價(jià)對(duì)實(shí)例

      本節(jié)舉例說(shuō)明提取多詞單元等價(jià)對(duì)的流程。首先,預(yù)處理雙語(yǔ)語(yǔ)料;得到的漢藏句對(duì)如圖1,分詞后的漢語(yǔ)和藏文句子分別用CS和TS表示,句子中的詞用空格隔開。

      第二步,計(jì)算漢語(yǔ)多詞單元。圖2給出CS中相鄰詞的關(guān)聯(lián)度計(jì)算結(jié)果。

      圖1 實(shí)例詞對(duì)齊結(jié)果

      圖2 例句關(guān)聯(lián)度直方圖

      在圖2中,“提高”和“農(nóng)業(yè)”的Collocation值0.043,小于閾值thresh_col1=0.38;因此“提高”和“農(nóng)業(yè)”不是多詞單元?!稗r(nóng)業(yè)”與“機(jī)械化”的Collocation值0.337,大于閾值thresh_col2=0.1;“機(jī)械化”與“水平”的Collocation值0.264,這兩個(gè)關(guān)聯(lián)度的BD(0.264/0.337)=0.783,大于閾值thresh_sim1=0.3;“水平”與“?!钡腃ollocation值0.076,BD(0.076/0.264)=0.288;小于thresh_sim1=0.3;因此“農(nóng)業(yè)”、“機(jī)械化”和“水平”是一個(gè)長(zhǎng)低頻多詞單元。依此類推,“適用”和“農(nóng)機(jī)具”是個(gè)短高頻多詞單元。實(shí)驗(yàn)以三個(gè)詞為長(zhǎng)短多詞單元的界限,根據(jù)多詞單元分類及閾值設(shè)定可以得到用“//”號(hào)分割的漢語(yǔ)句子CS的多詞單元?jiǎng)澐纸Y(jié)果如下。

      CS多詞單元?jiǎng)澐郑和茝V //先進(jìn) //適用 農(nóng)機(jī)具 //, //提高 //農(nóng)業(yè) 機(jī)械化 水平//。 //

      第三步,應(yīng)用Giza++得到詞對(duì)齊結(jié)果。圖1表示CS與TS詞對(duì)齊信息:1-5 2-4 3-1 4-3 6-12 7-9 8-9 9-11 10-14。

      4 實(shí)驗(yàn)

      文獻(xiàn)[4]中提出的SIBPTM模型和本文提出的CMWEPM模型抽取漢藏多詞單元等價(jià)對(duì)的流程均先抽取漢語(yǔ)有效語(yǔ)塊,二者的不同之處在于確定漢語(yǔ)語(yǔ)塊邊界及獲取藏語(yǔ)譯文過(guò)程。本文將比較兩個(gè)模型抽取效果,證明本文的CMWEPM模型的有效性。

      在實(shí)驗(yàn)中,SIBPTM和CMWEPM兩個(gè)模型從訓(xùn)練語(yǔ)料抽取多詞單元等價(jià)對(duì)之后,采用人工抽樣檢查的方法判斷互譯對(duì)正確與否,實(shí)驗(yàn)準(zhǔn)確率(P)定義為:

      (6)

      召回率(R)定義為:

      (7)

      通常將P和R兩個(gè)指標(biāo)綜合為二者的調(diào)和平均值F-Score來(lái)反映一個(gè)系統(tǒng)的整體性能。F-Score可以有不同的定義公式,通常采用:F=2PR/(P+R) ;本文用此定義。

      4.1 語(yǔ)料信息

      表2給出實(shí)驗(yàn)所采用的雙語(yǔ)語(yǔ)料庫(kù),其內(nèi)容主要是漢藏法律法規(guī)和公文報(bào)告等特定領(lǐng)域語(yǔ)料。語(yǔ)料1是訓(xùn)練語(yǔ)料,包括7萬(wàn)余對(duì)已經(jīng)對(duì)齊的雙語(yǔ)句子,長(zhǎng)句占多數(shù)。為了提高詞對(duì)齊準(zhǔn)確度,將雙語(yǔ)詞典追加在語(yǔ)料1上,獲取22萬(wàn)余句對(duì)的語(yǔ)料2,用于詞對(duì)齊。目前只選擇378句對(duì)的語(yǔ)料3用于人工測(cè)試。

      表2 語(yǔ)料信息

      4.2 漢語(yǔ)多詞單元規(guī)模

      SIBPTM模型抽取漢藏多詞單元等價(jià)對(duì)過(guò)程中用N-gram統(tǒng)計(jì)算法計(jì)算出漢語(yǔ)語(yǔ)料中所有2-gram到6-gram多詞單元作為候選漢語(yǔ)連續(xù)串。再根據(jù)文獻(xiàn)[7]中算法,通過(guò)子串歸并刪除同一頻度的子串。

      本文嘗試CMWEPM模型應(yīng)用關(guān)聯(lián)度和結(jié)合度計(jì)算漢語(yǔ)多詞單元。兩種模型抽取的多詞單元統(tǒng)計(jì)結(jié)果見表3。

      表3 漢語(yǔ)多詞單元信息

      分析語(yǔ)料結(jié)果表明,其中數(shù)據(jù)稀疏問(wèn)題十分突出。SIBPTM模型用n-gram統(tǒng)計(jì)算法抽取漢語(yǔ)多詞單元時(shí)候,為了避免太多的干擾信息,過(guò)濾掉頻次少于8的所有多詞單元,進(jìn)一步過(guò)濾掉左右邊界處包含的停用詞和標(biāo)點(diǎn)符號(hào)后保留包含兩個(gè)或以上詞的多詞單元,因此SIBPTM模型抽取的漢語(yǔ)多詞單元數(shù)量很少,這也是下一步實(shí)驗(yàn)中造成此模型召回率低的主要原因。

      4.3 多詞單元抽取

      SIBPTM模型中TIA算法在不依賴于額外資源的前提下,對(duì)句對(duì)齊雙語(yǔ)語(yǔ)料庫(kù)中包含待翻譯漢語(yǔ)多詞單元Q的句對(duì)求交集,通過(guò)后處理得到Q的譯文。

      本文嘗試CMWEPM模型應(yīng)用關(guān)聯(lián)度和結(jié)合度先獲取源語(yǔ)的多詞單元,再通過(guò)Giza++優(yōu)化詞對(duì)齊結(jié)果采用Koehn方法獲取嚴(yán)格多詞單元互譯對(duì)或應(yīng)用Phi平方系數(shù)方法計(jì)算詞匯結(jié)合度約束條件的約束多詞單元等價(jià)對(duì)。表4給出SIBPTM模型抽取多詞單元互譯對(duì)結(jié)果、CMWEPM模型獲取的嚴(yán)格多詞單元和約束多詞單元等價(jià)對(duì)抽取結(jié)果。

      表4 多詞單元抽取結(jié)果

      表4結(jié)果表明,CMWEPM模型的召回率比SIBPTM模型有明顯提高。SIBPTM模型算法用雙語(yǔ)詞典作為輔助資源進(jìn)行機(jī)械匹配來(lái)篩選漢藏多詞單元,由于自然語(yǔ)言翻譯的靈活性和雙語(yǔ)詞典的有限性,詞典譯項(xiàng)對(duì)真實(shí)文本的覆蓋率很低,導(dǎo)致召回率過(guò)低。而CMWEPM模型嚴(yán)格多詞單元抽取方法算法簡(jiǎn)單,容易實(shí)現(xiàn),因?yàn)槭褂昧顺墒斓拈_源詞對(duì)齊工具進(jìn)行漢藏詞對(duì)齊,它抽取的多詞單元準(zhǔn)確率較高。CMWEPM模型不再依賴漢藏詞典,避免了因詞典覆蓋率低帶來(lái)的問(wèn)題,能夠提高召回率。

      但同時(shí),嚴(yán)格多詞單元由于限定條件苛刻會(huì)丟失一些信息,影響召回率;與嚴(yán)格條件的多詞單元結(jié)果相比,約束條件的召回率有所提高,這對(duì)于處理漢藏語(yǔ)料庫(kù)有著十分重要的意義。

      5 結(jié)束語(yǔ)

      為了提高漢藏多詞單元等價(jià)對(duì)召回率,本文提出了CMWEPM模型。該模型應(yīng)用關(guān)聯(lián)度和結(jié)合度抽取源語(yǔ)言的多詞單元,并定義嚴(yán)格條件和約束條件,抽取出符合條件的多詞單元等價(jià)對(duì)。實(shí)驗(yàn)結(jié)果表明,新模型在未經(jīng)分析語(yǔ)言特征的前提下,取得了令人滿意的正確率。與SIBPTM模型相比,新模型明顯提高了召回率。這對(duì)于處理漢藏語(yǔ)料庫(kù)有著十分重要的意義。

      由于藏文形態(tài)變化豐富,并且漢語(yǔ)、藏語(yǔ)兩種語(yǔ)言差異很大,下一步的工作將考慮加入形態(tài)學(xué)信息來(lái)優(yōu)化詞對(duì)齊的準(zhǔn)確率,抽取出更為合理的漢藏多詞單元等價(jià)對(duì)。為已經(jīng)獲取的等價(jià)對(duì)計(jì)算翻譯概率,用于翻譯解碼也是論文下一步工作之一。

      漢藏多詞單元對(duì)抽取研究,理論上需要極大語(yǔ)料支持,實(shí)驗(yàn)所用資源規(guī)模有限,漢藏對(duì)齊語(yǔ)料正在建設(shè)中,因此進(jìn)一步工作中還需在更大資源上驗(yàn)證本文方法的有效性。

      [1] Nagao M. A framework of a mechanical translation between Japanese and English by analogy principle[C]// Proceedings of the international NATO symposium on Artificial and human intelligence, New York,USA, PublisherElsevier North-Holland, 1984:173-180.

      [2] J?rg Tiedemann. Automatical Lexicon Extraction from Aligned Bilingual Corpora [D]. Magdeburg University, Department of Computer Science, 1997.

      [3] 常寶寶.基于漢英雙語(yǔ)語(yǔ)料庫(kù)的翻譯等價(jià)單位自動(dòng)獲取研究[J].術(shù)語(yǔ)標(biāo)準(zhǔn)化與信息技術(shù),2002,(2):24-29.

      [4] 諾明花,張立強(qiáng),劉匯丹,等. 漢藏短語(yǔ)抽取 [J]. 中文信息學(xué)報(bào),2011,25(2):105-110.

      [5] Ying Zhang, Ralf Brown, Robert Frederking, et al. Pre-processing of Bilingual Corpora for Mandarin-English EBMT[C]//Proceedings of the MT Summit 8.Santinago de Compostela,Spain, 2001.

      [6] Koehn P,Och F J,Marcu D.Statistical phrase based translation[C]//Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology. Morristown NJ: Association for Computational Linguistics, 2003: 48-54.

      [7] Xueqiang Lv, Le Zhang, Junfeng Hu. Statistical Substring Reduction in Linear Time[C]//Proceedings of IJCNLP-2004, Springer, 2004: 320-327.

      猜你喜歡
      漢藏等價(jià)語(yǔ)料
      n次自然數(shù)冪和的一個(gè)等價(jià)無(wú)窮大
      中文信息(2017年12期)2018-01-27 08:22:58
      2《步輦圖》:初唐漢藏關(guān)系圖錄
      基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
      漢藏姐妹一家親
      民族大家庭(2016年3期)2016-03-20 14:52:24
      華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
      收斂的非線性迭代數(shù)列xn+1=g(xn)的等價(jià)數(shù)列
      《苗防備覽》中的湘西語(yǔ)料
      國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
      環(huán)Fpm+uFpm+…+uk-1Fpm上常循環(huán)碼的等價(jià)性
      關(guān)于環(huán)Fpm+uFpm上常循環(huán)碼的等價(jià)性
      报价| 桃园县| 沽源县| 富蕴县| 辽宁省| 霍邱县| 江都市| 土默特左旗| 依安县| 边坝县| 朔州市| 营山县| 东港市| 桐梓县| 襄垣县| 绥宁县| 五家渠市| 邢台市| 星子县| 鲁甸县| 泊头市| 肥城市| 石泉县| 包头市| 常德市| 牟定县| 秦皇岛市| 龙陵县| 甘孜| 江源县| 绩溪县| 阳谷县| 新密市| 肥城市| 伊金霍洛旗| 淅川县| 咸宁市| 定远县| 新乐市| 彩票| 平塘县|