• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于雙語對(duì)齊的漢語–新蒙古文命名實(shí)體翻譯

      2016-10-13 04:28:28楊萍侯宏旭蔣玉鵬申志鵬杜健
      關(guān)鍵詞:蒙古文語料命名

      楊萍 侯宏旭 蔣玉鵬 申志鵬 杜健

      ?

      基于雙語對(duì)齊的漢語–新蒙古文命名實(shí)體翻譯

      楊萍1,2侯宏旭1,?蔣玉鵬1申志鵬1杜健1

      1.內(nèi)蒙古大學(xué)計(jì)算機(jī)學(xué)院, 呼和浩特010021; 2.臨汾職業(yè)技術(shù)學(xué)院計(jì)算機(jī)系, 臨汾041000; ?通信作者, E-mail: cshhx@imu.edu.cn

      漢語–新蒙古文命名實(shí)體翻譯在跨漢語–新蒙古文信息處理中具有重要意義, 而直接使用機(jī)器翻譯的方法不能達(dá)到滿意的結(jié)果。針對(duì)上述問題, 提出一種從漢語–新蒙古文平行語料中自動(dòng)抽取漢語–新蒙古文命名實(shí)體翻譯對(duì)的方法。該方法只需對(duì)漢語端進(jìn)行命名實(shí)體標(biāo)注; 然后基于雙語HMM詞對(duì)齊結(jié)果, 利用滑動(dòng)窗口的方法抽取所有候選命名實(shí)體翻譯對(duì); 最后基于融合5種特征的最大熵模型, 對(duì)所有候選翻譯單位進(jìn)行過濾, 選取與漢語端命名實(shí)體相對(duì)應(yīng)的置信度最高的新蒙古文命名實(shí)體翻譯單位。實(shí)驗(yàn)結(jié)果表明, 該方法優(yōu)于基于HMM的方法, 在對(duì)齊模型只是部分準(zhǔn)確的情況下, 也獲得較高準(zhǔn)確率的漢語–新蒙古文命名實(shí)體翻 譯對(duì)。

      命名實(shí)體; 識(shí)別; 翻譯; 雙語對(duì)齊

      命名實(shí)體在人類語言中傳遞著非常重要的信息[1]。命名實(shí)體可以指出文檔里“何人(何組織)……何時(shí)……何地……”等主要內(nèi)容, 因此識(shí)別命名實(shí)體是準(zhǔn)確理解文檔的基礎(chǔ)。命名實(shí)體的識(shí)別在網(wǎng)絡(luò)信息抽取、網(wǎng)絡(luò)內(nèi)容管理和知識(shí)工程等領(lǐng)域都具有非常重要的地位[2]。命名實(shí)體翻譯對(duì)機(jī)器翻譯、跨語言信息檢索等多語言信息處理領(lǐng)域意義重大, 因此有很多學(xué)者致力于命名實(shí)體識(shí)別和翻譯的研究。最早的命名實(shí)體翻譯研究開始于英語與阿拉伯語之間, Al-Onaizan等[3]使用音譯模型以及詞典查找的方法進(jìn)行英語與阿拉伯語之間的命名實(shí)體翻譯。隨后越來越多的命名實(shí)體翻譯研究在不同的語種之間開展。Knight等[4]和Tsuji[5]進(jìn)行了日語和英語命名實(shí)體翻譯的研究。韓語和英語的命名實(shí)體翻譯主要有Lee等[6]的工作。近年來, 漢語和英語命名實(shí)體之間的翻譯也受到越來越多的關(guān)注。Huang等[7]提出基于多特征代價(jià)最小的自動(dòng)抽取漢語–英語命名實(shí)體翻譯對(duì)的方法。Wan等[8]和Feng等[9]也分別提出不同的漢語–英語命名實(shí)體翻譯方法。

      近年來, 我國與蒙古國的經(jīng)濟(jì)、政治、文化交流日益深入, 對(duì)新蒙古文信息處理技術(shù)的發(fā)展起到極大的促進(jìn)作用, 同時(shí)也提出更高的要求。在傳統(tǒng)蒙古文的命名實(shí)體識(shí)別方面, 那順烏日?qǐng)D等[10]采用基于規(guī)則的方法進(jìn)行人名的自動(dòng)識(shí)別, 召回率達(dá)到89%, 準(zhǔn)確率為86%。通拉嘎[11]采用最大熵的數(shù)學(xué)模型, 實(shí)現(xiàn)蒙古語人名自動(dòng)識(shí)別系統(tǒng), 封閉測(cè)試的值為89.61%。這些研究只針對(duì)傳統(tǒng)蒙古文的人名識(shí)別, 未涉及傳統(tǒng)蒙古文地名及機(jī)構(gòu)名的識(shí)別。在新蒙古文的命名實(shí)體識(shí)別和翻譯方面, 尚無相關(guān)論述。

      采用音譯或意譯命名實(shí)體直接翻譯的方法進(jìn)行漢語–新蒙古文命名實(shí)體的翻譯缺乏對(duì)命名實(shí)體自身組成結(jié)構(gòu)以及上下文信息的考慮, 必然會(huì)影響翻譯結(jié)果。如果使用命名實(shí)體對(duì)齊的方法, 則需要對(duì)命名實(shí)體的識(shí)別和命名實(shí)體間的對(duì)齊都能很好地處理。目前, 需要懂得新蒙古文的人員在語料上進(jìn)行命名實(shí)體的標(biāo)注, 工作量大, 周期長。新蒙古文語料相對(duì)于英語、漢語等其他語言規(guī)模尚小, 必然會(huì)影響新蒙古文命名實(shí)體識(shí)別的效果。在命名實(shí)體識(shí)別中的部分識(shí)別、識(shí)別錯(cuò)誤等問題在對(duì)齊過程中不能很好地糾正。

      針對(duì)上述問題, 本文提出一種從只在漢語端標(biāo)注了命名實(shí)體的漢語–新蒙古文平行語料中抽取漢語–新蒙古文命名實(shí)體翻譯對(duì)的方法。我們先用HMM詞對(duì)齊模型對(duì)雙語語料進(jìn)行對(duì)齊, 然后基于對(duì)齊模型, 利用相關(guān)短語抽取技術(shù)[12], 抽取出與漢語端相對(duì)應(yīng)的新蒙古文端的候選命名實(shí)體翻譯單位。用融合5種特征的最大熵模型對(duì)所有候選命名實(shí)體翻譯單位進(jìn)行過濾, 得到與漢語端命名實(shí)體最匹配的新蒙古文端命名實(shí)體翻譯單位。實(shí)驗(yàn)結(jié)果表明, 我們的實(shí)驗(yàn)結(jié)果優(yōu)于HMM模型, 在語料庫上得到的命名實(shí)體翻譯對(duì)的正確率為86.51%, 召回率為87.32%,值為86.91%。

      1 詞對(duì)齊模型

      IBM信源信道翻譯模型[13]包括語言模型和翻譯模型。其中, 翻譯模型可建模為

      是一個(gè)表示源語言和目標(biāo)語言句子中詞與詞對(duì)齊情況的隱含變量,=12…a, 其中a表示源語言句子里第個(gè)詞對(duì)應(yīng)的目標(biāo)語言句子中詞的位置。在一對(duì)句子的所有對(duì)齊方式中, 其訓(xùn)練對(duì)齊模型中最大可能的對(duì)齊方式通常稱為最大近似對(duì)齊。

      在IBM對(duì)齊模型中,

      在HMM對(duì)齊模型下, 用Viterbe算法實(shí)現(xiàn)最大近似對(duì)齊, 即對(duì)齊a滿足

      (a|a-1,)表示源語言句子當(dāng)前詞對(duì)齊位置a對(duì)前一個(gè)詞對(duì)齊位置a-1的依賴關(guān)系,表示源語言的句長(s|t)表示詞的翻譯概率。

      與IBM詞對(duì)齊模型相比, HMM 對(duì)齊模型考慮了當(dāng)前詞對(duì)齊位置a對(duì)前一個(gè)詞對(duì)齊位置a-1的依賴關(guān)系, HMM模型比IBM模型更有利于對(duì)平行語料庫中的局部化現(xiàn)象進(jìn)行有效的建模。因此, 我們?cè)贖MM詞對(duì)齊結(jié)果上來抽取候選漢語–新蒙古文命名實(shí)體翻譯對(duì)。

      2 基于對(duì)齊模型的候選漢語–新蒙古文命名實(shí)體翻譯對(duì)的抽取

      本文命名實(shí)體翻譯對(duì)的抽取經(jīng)過3個(gè)步驟: 1) 漢語端命名實(shí)體的識(shí)別; 2)基于詞對(duì)齊模型, 生成與漢語端命名實(shí)體對(duì)應(yīng)的新蒙古文端候選的翻譯單位; 3)對(duì)新蒙古文端的候選翻譯單位進(jìn)行置信度估計(jì), 從中選出置信度最高的漢語–新蒙古文命名實(shí)體翻譯對(duì)。

      本文使用CRF模型進(jìn)行漢語端命名實(shí)體識(shí)別。因?yàn)闈h語命名實(shí)體識(shí)別不屬于本文重點(diǎn)討論的內(nèi)容, 不再贅述。下面重點(diǎn)介紹漢語–新蒙古文候選命名實(shí)體翻譯等價(jià)對(duì)的生成和候選翻譯等價(jià)對(duì)的置信度估計(jì)。

      2.1 候選漢語–新蒙古文翻譯對(duì)的生成

      平行句對(duì)中, 源語言句子S與目標(biāo)語言句子T中詞與詞之間的對(duì)應(yīng)情況可以用詞對(duì)齊圖表示。在圖1中, 叉線所在的單元表示由最大近似對(duì)齊得到的詞對(duì)齊結(jié)果。在一個(gè)平行句對(duì)中, 可以用一個(gè)四元組假設(shè)H(c,c,m,m)來表示一個(gè)翻譯等價(jià)對(duì)。其中,cc分別表示漢語命名實(shí)體的起始位置和結(jié)束位置;mm分別表示與漢語端對(duì)應(yīng)的新蒙古文端候選翻譯單位的起始位置和結(jié)束位置。例如, 在圖1中(2, 3, 2, 4)就可以表示一個(gè)翻譯等價(jià)對(duì), 即漢語端由詞(2,3)組成的命名實(shí)體與新蒙古文端由詞(2,3,4)組成的候選翻譯單位對(duì)應(yīng)。本文的翻譯等價(jià)對(duì)抽取任務(wù)就是找出合適的漢語與新蒙古文之間的翻譯對(duì)。

      采用滑動(dòng)窗口的方法, 從對(duì)齊圖中找出與漢語端對(duì)應(yīng)的新蒙古文端的所有候選命名實(shí)體翻譯單位。如圖1所示, 如果(2,3)是漢語端的一個(gè)命名實(shí)體, 那么圖中粗線框選的所有對(duì)齊點(diǎn)所對(duì)應(yīng)的新蒙古文端的詞就構(gòu)成一個(gè)候選翻譯單位。即2, (2,3)和(2,3,4)就是與(2,3)對(duì)應(yīng)的所有候選翻譯單位。利用這樣的方法可以產(chǎn)生較大數(shù)量的候選翻譯等價(jià)單位, 即使在對(duì)齊模型只是部分準(zhǔn)確的情況下, 依然可能抽取到正確的命名實(shí)體翻譯對(duì)。

      2.2 候選漢語–新蒙古文命名實(shí)體翻譯對(duì)的置信度估計(jì)

      考慮到最大熵模型可以很好地融合不同的特征, 我們?cè)诖丝蚣芟聦?duì)所有候選翻譯對(duì)進(jìn)行置信度估計(jì)。對(duì)于漢語端命名實(shí)體nec和與之對(duì)應(yīng)的所有候選新蒙古文端命名實(shí)體nem, 假設(shè)有個(gè)特征方程H(nec, nem),=1, 2, …, 對(duì)于每個(gè)特征函數(shù), 都有一個(gè)對(duì)應(yīng)的模型參數(shù),=1, 2, …。漢語端與新蒙古文端命名實(shí)體對(duì)齊的概率可以定義為式(5)[14]:

      選擇出與漢語端命名實(shí)體對(duì)應(yīng)的最有可能的新蒙古文端命名實(shí)體翻譯單位, 如式(6)[14]所示:

      結(jié)合命名實(shí)體翻譯的特點(diǎn), 我們采用5個(gè)特征: 對(duì)齊一致性得分、翻譯得分、語言模型得分、共現(xiàn)得分、邊界得分。下面分別詳細(xì)介紹。

      2.2.1 對(duì)齊一致性得分

      任意一個(gè)漢語端的命名實(shí)體與它所對(duì)應(yīng)的新蒙古文端的任何一個(gè)候選翻譯單位, 都在詞對(duì)齊圖中劃分了一個(gè)范圍。我們以這個(gè)劃分是否與最大近似對(duì)齊中的對(duì)齊點(diǎn)一致來對(duì)候選翻譯對(duì)進(jìn)行對(duì)齊一致性置信度估計(jì)。對(duì)齊點(diǎn)A(,)與H(c,c,m,m)定義的劃分一致是指這個(gè)對(duì)齊點(diǎn)所對(duì)應(yīng)的源語言端詞的位置與目標(biāo)語言端詞的位置均在H所劃分的范圍內(nèi)。對(duì)齊點(diǎn)A(,)與H(c,c,m,m)定義的劃分被認(rèn)為不一致, 當(dāng)且僅當(dāng)滿足

      每個(gè)H(c,c,m,m)都包括一個(gè)與該劃分一致的對(duì)齊點(diǎn)的集合和不一致的對(duì)齊點(diǎn)的集合。例如在圖1中, H(2, 3, 2, 4)就包括與其一致的對(duì)齊點(diǎn){(2,2), (3,3), (3,4)}和與其不一致的對(duì)齊點(diǎn)集合{(1,4), (4,4), (2,6)}。用式(9)計(jì)算任意一個(gè)H(c,c,m,m)的對(duì)齊一致性得分:

      其中, num(cons)和num(incons)分別表示與四元假設(shè)H(c,c,m,m)劃分范圍一致的對(duì)齊點(diǎn)的個(gè)數(shù)和不一致的對(duì)齊點(diǎn)的個(gè)數(shù)。在漢語-新蒙古文命名實(shí)體候選翻譯對(duì)的四元假設(shè)的劃分中, 如果一致的對(duì)齊點(diǎn)越多, 不一致的對(duì)齊點(diǎn)越少, 則該翻譯對(duì)的對(duì)其一致性得分就越高。

      2.2.2 翻譯得分

      組成漢語命名實(shí)體中的詞與組成新蒙古文命名實(shí)體的詞之間的翻譯概率, 對(duì)于考察漢語端命名實(shí)體與新蒙古文端命名實(shí)體的相近程度具有非常重要的作用。假設(shè)漢語端命名實(shí)體由個(gè)詞組成nec={1,2, …c}, 新蒙古文端候選命名實(shí)體翻譯單位由個(gè)新蒙古文詞組成nem={1,2, …m}, 則這個(gè)候選雙語命名實(shí)體對(duì)的翻譯得分可以由cm之間的翻譯概率計(jì)算得到:

      式(10)給出候選雙語命名實(shí)體對(duì)中的詞互譯的概率??梢钥闯? 該特征傾向于給含有詞數(shù)更多的命名實(shí)體翻譯單位以更高的分?jǐn)?shù)。

      2.2.3 語言模型得分

      為了使與漢語端命名實(shí)體對(duì)應(yīng)的新蒙古文端的翻譯單位最大程度地符合新蒙古文的語法, 在新蒙古文語料庫上進(jìn)行語言模型的訓(xùn)練LM(mn), 對(duì)候選新蒙古文端命名實(shí)體翻譯單位進(jìn)行語言模型打分, 如式(11)所示:

      對(duì)應(yīng)于漢語端同一個(gè)命名實(shí)體, 在新蒙古文端包含詞數(shù)較多的命名實(shí)體翻譯單位傾向于獲得更高的翻譯得分, 這樣容易在新蒙古文命名實(shí)體翻譯單位中引入一些多余的詞。加入對(duì)語言模型得分的估計(jì)后, 候選命名實(shí)體翻譯單位中多余詞的存在會(huì)使該翻譯單位獲得很低的語言模型得分, 避免了翻譯得分帶來的偏差。例如, 在未加入語言模型得分之前, 我們獲得“孔子學(xué)院–К?нзийнИнститутулсын”的對(duì)應(yīng)關(guān)系, 包含多余的詞“улсын”。但加入語言模型得分后, 我們得到準(zhǔn)確的命名實(shí)體翻譯對(duì)“孔子學(xué)院–К?нзийнИнститут”。

      2.2.4 共現(xiàn)得分

      漢語端命名實(shí)體與候選新蒙古文端的命名實(shí)體翻譯單位在雙語語料庫中常常是同時(shí)出現(xiàn)的, 那么它們?yōu)榉g等價(jià)對(duì)的可能性就非常大。從整個(gè)語料庫中得到的知識(shí)可以作為對(duì)句對(duì)間局部對(duì)齊信息特征的一個(gè)有效補(bǔ)充。用式(12)計(jì)算源漢語端命名實(shí)體與候選新蒙古文端命名實(shí)體的共現(xiàn)得分:

      其中, num(nec, nem)是nec和nem共同出現(xiàn)的次數(shù), num(*, nec)是nec出現(xiàn)的次數(shù)。

      2.2.5 邊界得分

      新蒙古文命名實(shí)體詞的開頭字母是大寫字母, 這是新蒙古文命名實(shí)體的一個(gè)重要特征。這一特征對(duì)于新蒙古文命名實(shí)體邊界的確定具有重要的作用。但在實(shí)際語料庫中存在著部分不規(guī)范的現(xiàn)象, 部分首字母應(yīng)大寫的命名實(shí)體詞并未大寫。為了盡量減少上述錯(cuò)誤對(duì)計(jì)算邊界得分的影響, 我們不直接考察組成命名實(shí)體的首詞或尾詞是否為首字母大寫。邊界得分是在該翻譯單位中首字母大寫的詞的個(gè)數(shù)占所有詞的個(gè)數(shù)的比例:

      其中, num(CapWords)指在新蒙古文命名實(shí)體翻譯單位中, 首字母是大寫的詞的個(gè)數(shù), num(words)代表在該翻譯單位中包括的所有詞的個(gè)數(shù)。

      2.2.6 基于最大熵模型的漢–新蒙命名實(shí)體候選翻譯對(duì)的過濾

      前面定義了5個(gè)特征函數(shù)。對(duì)于在漢語端標(biāo)注出的每個(gè)命名實(shí)體, 需要計(jì)算與之對(duì)應(yīng)的每個(gè)候選新蒙古文端命名實(shí)體翻譯單位的特征分?jǐn)?shù), 從而得到與漢語端命名實(shí)體對(duì)應(yīng)的最佳的新蒙古文端翻譯單位。根據(jù)式(5), 使用MEM建模工具YASMET①進(jìn)行最大熵模型的訓(xùn)練。由于沒有漢語–新蒙古文命名實(shí)體翻譯對(duì)的標(biāo)準(zhǔn)訓(xùn)練集, 采用bootstr-apping[15]方法指導(dǎo)訓(xùn)練過程。首先在包括所有的候選漢語–新蒙古文命名實(shí)體翻譯對(duì)的訓(xùn)練集上對(duì)模型進(jìn)行訓(xùn)練, 然后根據(jù)訓(xùn)練得到的對(duì)各個(gè)候選翻譯對(duì)的概率估計(jì), 對(duì)初始訓(xùn)練集進(jìn)行精簡(jiǎn), 得到剪裁后的訓(xùn)練集, 并且對(duì)候選翻譯對(duì)進(jìn)行排序。反復(fù)進(jìn)行上述步驟, 直至模型收斂或得到的實(shí)體翻譯對(duì)變化不明顯為止。

      3 實(shí)驗(yàn)結(jié)果及分析

      3.1 實(shí)驗(yàn)設(shè)置

      為了驗(yàn)證本文提出的漢語–新蒙古文命名實(shí)體翻譯方法的有效性, 我們使用實(shí)驗(yàn)室整理得到的12400句對(duì)的漢語–新蒙古文平行語料, 從中選取出300個(gè)漢–新蒙古文平行句對(duì)作為標(biāo)準(zhǔn)測(cè)試集(每個(gè)句對(duì)中至少包括一個(gè)命名實(shí)體翻譯對(duì)), 并用人工標(biāo)注出這300個(gè)句對(duì)中所有的漢語和新蒙古文命名實(shí)體, 作為命名實(shí)體翻譯對(duì)的標(biāo)準(zhǔn)答案。

      使用基于CRF模型的漢語命名實(shí)體識(shí)別方法, 在剩余的12100平行句對(duì)的漢語端進(jìn)行漢語命名實(shí)體識(shí)別, 并進(jìn)行漢語–新蒙古文命名實(shí)體翻譯對(duì)抽取的訓(xùn)練。訓(xùn)練集和測(cè)試集中各個(gè)實(shí)體類別的數(shù)目如表1所示。

      表1 訓(xùn)練集和測(cè)試集實(shí)體數(shù)目

      3.2 評(píng)價(jià)標(biāo)準(zhǔn)

      假設(shè)*是漢語端標(biāo)注出的所有的命名實(shí)體的集合,是用本文的方法在*基礎(chǔ)上抽取得到的漢語–新蒙古文命名實(shí)體翻譯對(duì)的集合,是雙語語料中基于*的所有的正確的命名實(shí)體翻譯對(duì)。我們用準(zhǔn)確率()、召回率()、值作為評(píng)價(jià)標(biāo)準(zhǔn)。

      3.3 實(shí)驗(yàn)方法與結(jié)果

      首先用實(shí)驗(yàn)室完成的基于CRF模型的漢語命名實(shí)體識(shí)別方法, 對(duì)雙語語料的漢語端進(jìn)行命名實(shí)體的標(biāo)注。采用GIZA++工具包[16]訓(xùn)練得到從漢語–新蒙古文、新蒙古文–漢語單向最大近似對(duì)齊結(jié)果, 并使用GROW-DIAG-FINAL算法[17]對(duì)兩個(gè)方向的對(duì)齊文件進(jìn)行合并, 得到漢語與新蒙古文雙向最大近似詞對(duì)齊結(jié)果。然后用SRILM①訓(xùn)練一個(gè)新蒙古文端的3-gram語言模型。為了考察詞切分對(duì)基本對(duì)齊以及命名實(shí)體翻譯對(duì)抽取的影響, 我們進(jìn)行了兩組實(shí)驗(yàn): 第一組對(duì)漢語端進(jìn)行分詞, 訓(xùn)練漢語–新蒙古文雙向詞對(duì)齊, 在此基礎(chǔ)上, 用本文提出的方法進(jìn)行雙語命名實(shí)體翻譯對(duì)的抽取; 第二組實(shí)驗(yàn)不對(duì)漢語端分詞, 只切分為單個(gè)的字。實(shí)驗(yàn)得到的漢語–新蒙古文命名實(shí)體翻譯對(duì)如表2所示, 實(shí)驗(yàn)結(jié)果如表3所示。

      表2 漢語–新蒙古文命名實(shí)體翻譯對(duì)示例

      表3 實(shí)驗(yàn)結(jié)果

      表2中, HMM是直接在HMM對(duì)齊模型上抽取得到的漢語–新蒙古文命名實(shí)體翻譯對(duì)的實(shí)驗(yàn)結(jié)果, 作為基線系統(tǒng)。HMM+MEM指在HMM對(duì)齊模型上抽取漢語–新蒙古文候選命名實(shí)體翻譯對(duì), 再對(duì)候選翻譯對(duì)融合5種特征的最大熵模型進(jìn)行置信度估計(jì), 選取置信度最高的命名實(shí)體翻譯對(duì)。從實(shí)驗(yàn)結(jié)果可以看到, 無論是HMM還是本文方法, 不對(duì)漢語端進(jìn)行分詞, 抽取出的命名實(shí)體翻譯對(duì)的值都高于分詞后的結(jié)果。最主要的原因是減少了分詞錯(cuò)誤對(duì)句對(duì)間詞對(duì)齊以及命名實(shí)體翻譯對(duì)抽取的錯(cuò)誤傳遞。

      實(shí)驗(yàn)表明, 本文選擇用來刻畫漢語–新蒙古文命名實(shí)體翻譯對(duì)的特征, 對(duì)于命名實(shí)體翻譯對(duì)的抽取是非常有幫助的。對(duì)齊一致性得分為命名實(shí)體翻譯對(duì)的抽取提供了句對(duì)間的上下文信息; 翻譯得分指明了漢語端命名實(shí)體與候選新蒙古文端翻譯單位的相近程度; 語言模型得分使抽取到的新蒙古文端命名實(shí)體單位盡量符合新蒙古文語法; 共現(xiàn)得分為命名實(shí)體翻譯對(duì)的抽取提供了整個(gè)訓(xùn)練語料庫中漢語詞與新蒙古文詞之間的共現(xiàn)知識(shí); 邊界得分則充分考慮了新蒙古文命名實(shí)體詞首字母大寫的特性。

      4 結(jié)束語

      命名實(shí)體翻譯中, 對(duì)稱對(duì)齊的方法需要在源語言端與目標(biāo)語言端都進(jìn)行命名實(shí)體識(shí)別, 且在一端識(shí)別錯(cuò)誤, 即使另一端識(shí)別正確的情況下, 該錯(cuò)誤也無法在對(duì)齊過程中糾正。目前, 可用于新蒙古文命名實(shí)體識(shí)別的標(biāo)注語料規(guī)模尚小, 直接影響新蒙古文命名實(shí)體的識(shí)別效果。針對(duì)上述問題, 本文給出一種只需在漢語端進(jìn)行命名實(shí)體標(biāo)注, 從漢–新蒙古文平行語料中抽取漢–新蒙古文命名實(shí)體翻譯對(duì)的方法, 在HMM詞對(duì)齊模型上抽取候選漢–新蒙古文翻譯單位, 然后用基于最大熵模型對(duì)候選翻譯對(duì)進(jìn)行過濾, 最終得到質(zhì)量較高的實(shí)體翻譯對(duì)。實(shí)驗(yàn)表明, 與基于HMM的方法相比, 本文方法的實(shí)驗(yàn)結(jié)果有了很大提高。本文抽取出的一些實(shí)體翻譯對(duì)還有不正確的地方, 在下一步工作中, 可以考慮新蒙古文命名實(shí)體自身的語言特征, 并可以加入一些規(guī)則, 使得實(shí)驗(yàn)效果更好。

      [1]Bikel D M, Miller S, Schwartz R, et al. Nymble: a high-performance learning name-finder // Proceedings of the Fifth Conference on Applied Natural Language Processing. Stroudsburg, PA: Association for Computa-tional Linguistics, 1997: 194–201

      [2]趙軍. 命名實(shí)體識(shí)別, 排歧和跨語言關(guān)聯(lián). 中文信息學(xué)報(bào), 2009, 23(2): 3–17

      [3]Al-Onaizan Y, Knight K. Translating named entities using monolingual and bilingual resources // Proce-edings of the 40th Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA: Asso-ciation for Computational Linguistics, 2002: 400–408

      [4]Knight K, Graehl J. Machine transliteration. Compu-tational Linguistics, 1998, 24(4): 599–612

      [5]Tsuji K. Automatic extraction of translational Japanese-KATAKANA and English word pairs from bilingual corpora. International Journal of Computer Processing of Oriental Languages, 2002, 15(3): 261–279

      [6]Lee J S, Choi K S. A statistical method to generate various foreign word transliterations in multilingual information retrieval system // Proceedings of the 2nd International Workshop on Information Retrieval with Asian Languages (IRAL’97). New York, 1997: 123–128

      [7]Huang F, Vogel S, Waibel A. Automatic extraction of named entity translingual equivalence based on multi-feature cost minimization // Proceedings of the ACL 2003 Workshop on Multilingual and Mixed-Language Named Entity Recognition—Volume 15. Stroudsburg, PA: Association for Computational Linguistics, 2003: 9–16

      [8]Wan S, Verspoor C M. Automatic English-Chinese name transliteration for development of multilingual resources // Proceedings of the 17th International Conference on Computational Linguistics—Volume 2. Stroudsburg, PA: Association for Computational Linguistics, 1998: 1352–1356

      [9]Feng D, Lü Y, Zhou M. A new approach for English-Chinese named entity alignment // Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP).Stroudsburg, PA, 2004: 372–379

      [10]那順烏日?qǐng)D, 雪艷, 淑琴, 等. 蒙古文人名自動(dòng)識(shí)別研究// 語言計(jì)算與基于內(nèi)容的文本處理: 全國第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集. 北京: 清華大學(xué)出版社, 2003: 97-102

      [11]通拉嘎. 基于蒙古文語料庫的人名自動(dòng)識(shí)別[D]. 北京: 中央民族大學(xué), 2013

      [12]Venugopal A, Vogel S, Waibel A. Effective phrase translation extraction from alignment models // Proceed-ings of the 41st Annual Meeting on Association for Computational Linguistics—Volume 1. Stroudsburg, PA: Association for Computational Linguistics, 2003: 319–326

      [13]Brown P F, Pietra V J D, Pietra S A D, et al. The mathematics of statistical machine translation: para-meter estimation. Computational Linguistics, 1993, 19(2): 263–311

      [14]Och F J, Ney H. Discriminative training and maximum entropy models for statistical machine translation // Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Strouds-burg, PA: Association for Computational Linguistics, 2002: 295–302

      [15]Abney S. Bootstrapping // Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA: Association for Compu-tational Linguistics,2002: 360–367

      [16]Och F J, Ney H. A systematic comparison of various statistical alignment models. Computational Linguis-tics, 2003, 29(1): 19–51

      [17]Koehn P, Hoang H, Birch A, et al. Moses: open source toolkit for statistical machine translation // Proceed-ings of the 45th Annual Meeting of the ACL on Interactive Poster and Demonstration Sessions. Stroudsburg, PA: Association for Computational Linguistics, 2007: 177–180

      Chinese-Slavic Mongolian Named Entity Translation Based on Word Alignment

      YANG Ping1,2, HOU Hongxu1,?, JIANG Yupeng1, SHEN Zhipeng1, DU Jian1

      1. College of Computer Science, Inner Mongolia University, Hohhot 010021; 2. Department of Computing, Linfen Vocational and Technical College, Linfen 041000; ?Corresponding author, E-mail: cshhx@imu.edu.cn

      Chinese to Slavic Mongolian Named Entity Translation in cross Chinese and Slavic Mongolian information processing has a very important significance. However, using the machine translation method directly cannot achieve satisfactory result. In order to solve the above problem, a novel approach was proposed to extract Chinese-Slavic Mongolian Named Entity pairs automatically. Only the Chinese named entities need to be identified, then extracting all of the candidate named entity pairs using sliding window method based on HMM word alignment result. Finally filtering all of the candidate named entity translation units based on Max Entropy Model integrated with five features, and choose the most probable aligned Slavic Mongolian NEsto the Chinese NEs.Experimental results show that this approach outperforms HMM model, achieves high quality of Chinese-Slavic Mongolian named entity pairs with relatively high precision, even though sometimes the word alignment result is partially correct.

      named entity; recognition; translation; bilingual word alignment

      10.13209/j.0479-8023.2016.006

      TP391

      2015-06-07;

      2015-08-18; 網(wǎng)絡(luò)出版日期: 2015-09-29

      國家自然科學(xué)基金(61362028)資助

      ① http://www.fjoch.com/YASMET.html

      ① http://www.speech.sri.com/projects/srilm/

      猜你喜歡
      蒙古文語料命名
      命名——助力有機(jī)化學(xué)的學(xué)習(xí)
      關(guān)于新發(fā)現(xiàn)的《字母匯編》(蒙古文)
      有一種男人以“暖”命名
      東方女性(2018年3期)2018-04-16 15:30:02
      為一條河命名——在白河源
      散文詩(2017年17期)2018-01-31 02:34:08
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      關(guān)于蒙古文在各種瀏覽器上顯示方法的探討
      略論Khandjamts夫人(基里爾蒙古文)
      華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
      《苗防備覽》中的湘西語料
      國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
      登封市| 福贡县| 乌拉特中旗| 青州市| 柘荣县| 安岳县| 桦川县| 铅山县| 旺苍县| 姚安县| 同德县| 得荣县| 武陟县| 理塘县| 牟定县| 尼勒克县| 镇江市| 遵义市| 依兰县| 伊川县| 厦门市| 赤壁市| 渭源县| 靖边县| 牙克石市| 鸡泽县| 达日县| 麻城市| 建水县| 池州市| 和平县| 利辛县| 阳东县| 周至县| 鸡东县| 阿鲁科尔沁旗| 桐城市| 永胜县| 玉田县| 河曲县| 仙游县|