• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于統(tǒng)計(jì)的蒙漢機(jī)器翻譯中詞對齊方法研究

      2018-07-18 02:35:12蘇依拉趙亞平牛向華
      中文信息學(xué)報(bào) 2018年6期
      關(guān)鍵詞:詞干蒙漢蒙古語

      蘇依拉,趙亞平,牛向華

      (內(nèi)蒙古工業(yè)大學(xué) 信息工程學(xué)院,內(nèi)蒙古 呼和浩特 010080)

      0 引言

      蒙古語是內(nèi)蒙古自治區(qū)的地方性官方語言,也是蒙古國的官方語言。隨著全球化的發(fā)展蒙古語被使用的地方越來越多。從機(jī)器翻譯被提出以來,大量的人力、物力被投入到相關(guān)研究當(dāng)中,使機(jī)器翻譯方法由最初的基于規(guī)則發(fā)展到基于統(tǒng)計(jì)的機(jī)器翻譯系統(tǒng)[1]。統(tǒng)計(jì)翻譯能夠從大量的語料中學(xué)習(xí)翻譯知識,翻譯譯文質(zhì)量也有明顯提高。近幾年,深度學(xué)習(xí)技術(shù)在自然語言處理方面得到了廣泛的應(yīng)用,且機(jī)器翻譯譯文的翻譯質(zhì)量較統(tǒng)計(jì)翻譯有顯著的提升。蒙古語本身詞法形態(tài)變化相比英、漢等語言語法較豐富且復(fù)雜,而漢語和蒙古語又屬于不同的語系,故兩種語言不論形態(tài)還是句法結(jié)構(gòu)都存在著很大的不同。因此蒙漢翻譯的難度就更大了。

      詞對齊是蒙漢機(jī)器翻譯關(guān)鍵性的數(shù)據(jù)預(yù)處理工作之一。詞對齊的好壞對翻譯的質(zhì)量起著至關(guān)重要的作用。詞對齊(word alignment)概念最早是在20世紀(jì)90年代,由IBM Watson研究中心的Peter Brown在統(tǒng)計(jì)機(jī)器翻譯模型中被提出的。當(dāng)時(shí),統(tǒng)計(jì)機(jī)器翻譯的譯文質(zhì)量遠(yuǎn)超基于規(guī)則的翻譯模型的譯文質(zhì)量。所以,詞對齊受到許多學(xué)者的關(guān)注[2]。Brown等人通過引入信息論中的噪聲通道原理,把統(tǒng)計(jì)機(jī)器翻譯看成信息傳輸?shù)倪^程即目標(biāo)語言T是噪聲信道模型的輸入,通過噪聲信道編碼后,輸出相應(yīng)的序列,這個(gè)序列即為源語言S。從詞對齊的角度而言,目標(biāo)語言與源語言之間存在著一對一、一對多以及多對多的對齊關(guān)系。為此Brown等人提出了IBM(1-5),該模型是最早提出的統(tǒng)計(jì)詞對齊模型[3]。1999年Och等人根據(jù)Brown提出的IBM詞對齊模型實(shí)現(xiàn)并開源了第一個(gè)基于統(tǒng)計(jì)的無監(jiān)督詞對齊工具GIZA[4]。IBM模型雖在詞對齊方面取得了一定的成果,但也存在一些弊端。因IBM模型采用生成式訓(xùn)練方式,很難向模型中加入新的特征,故導(dǎo)致模型的可擴(kuò)展性較差。于是一些學(xué)者開始探索基于判別式模型的詞對齊研究。判別式詞對齊模型通過加入句法信息很好的擴(kuò)展了基于統(tǒng)計(jì)的詞對齊模型,中國科學(xué)院的劉洋等人針對基于IBM模型3的對數(shù)線性判別式詞對齊模型進(jìn)行了相關(guān)研究[5]。

      蒙古語相關(guān)的詞對齊研究開始較晚,特別是蒙漢機(jī)器翻譯研究早期在各方面的投入遠(yuǎn)遠(yuǎn)跟不上形勢的發(fā)展[6]。目前,蒙漢詞對齊已經(jīng)進(jìn)行了較多的相關(guān)研究。內(nèi)蒙古大學(xué)的員華瑞在進(jìn)行基于串到樹的蒙漢機(jī)器翻譯研究時(shí),也進(jìn)行了基于對數(shù)線性判別式詞對齊模型的相關(guān)研究[7]。最終實(shí)驗(yàn)表明,對數(shù)線性判別式詞對齊模型能夠有效降低蒙漢詞對齊中的對齊錯(cuò)誤率,有利于譯文翻譯質(zhì)量的提高。但因蒙古語屬于拼音文字,有著豐富的形態(tài)變化且規(guī)則復(fù)雜,所以在進(jìn)行蒙漢詞對齊模型訓(xùn)練時(shí)通常會面臨數(shù)據(jù)稀疏和長距離依賴的問題。針對該問題,本文給出了基于詞干詞綴粒度的蒙漢詞對齊方法,并利用IBM模型3和模型4,通過實(shí)驗(yàn)證明了詞干詞綴的切分能夠有效提高蒙漢詞對齊模型的對齊質(zhì)量。

      本文還進(jìn)行了基于對數(shù)線性模型的蒙漢詞對齊研究,并通過融入詞干詞綴切分后的IBM模型特征,實(shí)驗(yàn)證明詞對齊效果明顯提升,并且本文對比了基于交集、并集以及采用啟發(fā)式方法的IBM雙向特征融合方式對蒙漢對數(shù)線性詞對齊模型對齊質(zhì)量的影響。

      本文將在第一節(jié)中介紹蒙古語的特點(diǎn)以及詞對齊模型,并對IBM模型和對數(shù)線性詞對齊模型以及啟發(fā)式IBM模型特征融合方法進(jìn)行分析和總結(jié);第二節(jié)介紹對蒙古語進(jìn)行詞干、詞綴的切分以及蒙漢詞對齊流程;第三節(jié)對實(shí)驗(yàn)進(jìn)行了總結(jié),最終的實(shí)驗(yàn)結(jié)果證明蒙古語進(jìn)行詞干、詞綴的切分對蒙漢詞對齊質(zhì)量是有明顯提高的;第四節(jié)對本文中所做工作進(jìn)行了總結(jié)和對蒙漢機(jī)器翻譯未來相關(guān)工作進(jìn)行說明。

      1 相關(guān)技術(shù)背景

      1.1 蒙古語特點(diǎn)

      首先對漢語句子進(jìn)行中文分詞,可得到漢語詞語集合,而蒙古語句子不需要分詞,則以空格進(jìn)行切分。最后,我們將分別得到漢語及蒙古語句子的詞匯集合。如下所示:

      {<這項(xiàng),1>,<工作,2>,<完成,3>,<我們,4>,<很長,5>,<時(shí)間,6>,<需要,7>,<。,8>}

      然后開始詞對齊過程。即對兩個(gè)句子中存在互譯關(guān)系的詞進(jìn)行連線,最終將得到詞語對齊結(jié)果,如圖1所示。圖1中,可以發(fā)現(xiàn)蒙古語與漢語句子在進(jìn)行詞對齊時(shí),伴隨著很多的位移。

      圖1中是我們列舉的較簡單的蒙漢詞一對一的對應(yīng)關(guān)系。在較復(fù)雜的蒙漢詞對齊過程中可能存在一對多、一對空及遠(yuǎn)距離調(diào)序等問題。

      圖1 蒙—漢詞語對齊示例

      1.2 詞對齊模型

      詞對齊的具體任務(wù)是從雙語文本的句對中找出詞語的對應(yīng)翻譯關(guān)系,這在機(jī)器翻譯中起到了重要的作用。詞對齊的研究方向主要有兩種: 一種是生成式模型的詞對齊方法,另一種是判別式模型的詞對齊方法。

      1.2.1IBM統(tǒng)計(jì)機(jī)器翻譯模型

      Brown等人建立了五個(gè)復(fù)雜程度依次遞增的詞對齊的機(jī)器翻譯模型,我們習(xí)慣上稱為IBM模型1-5(IBM Models 1-5)[9]。IBM1只考慮詞與詞之間互譯的概率。IBM 2考慮了詞的位置信息,提出了詞對齊概率。IBM 3中出現(xiàn)了繁殖數(shù)。IBM 4中有短語的翻譯,在IBM 3的基礎(chǔ)上用一組依賴于對齊位置上的詞匯的形變概率參數(shù)來描述對齊關(guān)系。IBM 3針對詞對齊的一對多情況,引入了繁殖概率,如式(1)所示。

      (1)

      其中,CT,S是常量,直譯概率pr(Sj|Ti)是目標(biāo)語言詞匯Ti直接翻譯成源語言詞Si的概率。繁殖概率pr(l(Sj)|l(Ti))是目標(biāo)語言Ti中的詞語個(gè)數(shù)L(Ti)繁殖成源語言詞Si的個(gè)數(shù)L(Si)的概率。變換概率pr(i|j,m,l)是目標(biāo)語言位置j上的詞翻譯到位置源語言位置i上的概率,其中m和l分別表示與源語言句子以及目標(biāo)語言句子長度。

      1.2.2對數(shù)線性詞對齊模型

      IBM(1-5)模型屬于生成式詞對齊模型,該模型無法將雙語語言學(xué)知識應(yīng)用到模型中,也就不能利用語言學(xué)知識來提高詞對齊的質(zhì)量。本文將開展基于對數(shù)線性模型的蒙漢詞語對齊研究,對數(shù)線性模型屬于判別式詞對齊模型[10]。判別式詞對齊模型認(rèn)為詞對齊是在已知的一系列對齊句對(S,T)的條件下,計(jì)算一系列對齊關(guān)系的條件概率的問題。從而詞對齊模型的訓(xùn)練問題可以轉(zhuǎn)化為在給定源語言S以及目標(biāo)語言T情況下最大化概率P(A|S,T)的問題。對數(shù)線性詞對齊概率具體計(jì)算如式(2)所示。

      (2)

      其中,hm(a,s,t)是特征函數(shù),m= 1,…,M,該模型最多融入M個(gè)特征函數(shù)。每個(gè)特征函數(shù)會存在一個(gè)權(quán)重參數(shù)rm。

      1.2.3啟發(fā)式IBM模型特征融合方法

      本論文針對基于對數(shù)線性模型得到的蒙漢詞對齊結(jié)果偏向于一對一的詞對齊的問題,決定采用啟發(fā)式優(yōu)化思路進(jìn)行雙向IBM模型詞對齊結(jié)果的融合[11]。IBM模型實(shí)現(xiàn)蒙古文到漢語以及漢語到蒙古文雙向的詞對齊訓(xùn)練后,可提取到每個(gè)平行語料句對的詞對齊向量。為了方便描述,用C表示漢語到蒙古語的對齊向量集,對齊關(guān)系((a,x),(b,y),(c,z)),M表示蒙古語到漢語的對齊向量集,對齊關(guān)系((x,a),(y,b),(z,b),(z,d))。CM的交集表示((a,x),(b,y)),CM的并集表示((a,x),(b,y),(z,b),(c,z),(z,d)),則同時(shí)出現(xiàn)在CM并集以及CM交集周圍的詞對齊結(jié)果將被加入到融合后的詞對齊序列中,對齊關(guān)系表示為((a,x),(b,y),(z,b),(c,z)),具體的過程如圖2所示。

      圖2 啟發(fā)式特征融合方法

      1.3 實(shí)驗(yàn)評測指標(biāo)

      在詞對齊實(shí)驗(yàn)中,詞對齊模型的主要評價(jià)指標(biāo)有準(zhǔn)確率(AR)、召回率(RR)和詞對齊錯(cuò)誤率(AER)。其中準(zhǔn)確率指的是詞對齊模型所確定的正確的詞語對齊關(guān)系與其所確定的全部詞匯對齊關(guān)系比值。召回率指的是詞對齊模型所確定的正確的詞對齊關(guān)系與測試語料中全部詞匯對齊關(guān)系的比值[12-14]。具體計(jì)算過程如式(3)~式(5)所示。

      其中,A表示由詞匯對齊模型所確定的詞對齊關(guān)系,B表示由人工標(biāo)注的詞語對齊雙語語料庫所確定的詞對齊關(guān)系。由式(3)可以發(fā)現(xiàn)詞對齊錯(cuò)誤率(AER)能夠同時(shí)反映出詞對齊模型的對齊準(zhǔn)確率和召回率。因此,本文在進(jìn)行詞對齊模型性能評價(jià)時(shí)將主要以對比詞對齊模型的詞對齊錯(cuò)誤率為主。

      2 基于詞干詞綴的蒙漢機(jī)器翻譯

      蒙漢詞對齊的目的是從蒙漢雙語平行語料中找出蒙古文詞匯與漢語詞匯之間的對應(yīng)關(guān)系。

      2.1 蒙古語詞干詞綴切分

      對蒙古語詞匯進(jìn)行詞干詞綴的切分[15],目前主要方法有基于詞干、詞綴詞典的切分,基于語法規(guī)則和基于統(tǒng)計(jì)模型的詞干詞綴切分。中文分詞工具我們選擇了中科院的NLPIR漢語分詞系統(tǒng)[16]。本文基于先前建立的詞干詞典、詞綴詞典和切分規(guī)則庫利用逆向最大匹配算法進(jìn)行了蒙古語詞匯詞干詞綴的切分。采用逆向最大匹配算法進(jìn)行蒙古語詞干詞綴切分時(shí),該算法不會考慮詞干詞綴間組合的可能性,只按照詞干、詞綴的長度在詞干詞綴詞典中尋找相匹配的成分。詞干和詞綴詞典是根據(jù)內(nèi)蒙古自治區(qū)的語言學(xué)家清格爾泰所寫的《現(xiàn)代蒙古語語法》構(gòu)建[17]。在進(jìn)行蒙古語句子詞干詞綴切分時(shí),考慮到蒙古語詞需要進(jìn)行多次切分,本文基于現(xiàn)有的蒙古語雙語詞典[18],詞干詞綴詞典結(jié)合逆向最大匹配算法[19],給出了多層次的蒙古語詞干詞綴切分流程,具體如圖3所示。

      2.2 蒙漢詞對齊流程

      本文首先進(jìn)行了基于IBM 3和IBM 4的蒙漢詞對齊實(shí)驗(yàn)。主要目的是觀察蒙古語詞匯中詞干詞綴切分對蒙漢詞對齊的對齊質(zhì)量的影響,因此采用的訓(xùn)練語料為未切分和切分的蒙漢平行句對。IBM模型特征指的是通過IBM模型所獲取的雙語平行句對間的詞匯對齊概率,詞對齊關(guān)系的概率值直接作為對數(shù)線性判別式詞對齊模型的特征輸入值。IBM模型4將對齊句子的長度、詞類、單詞翻譯順序、互譯詞的數(shù)量等因素全部考慮進(jìn)來,具有較強(qiáng)的表達(dá)能力。本文將分別使用IBM 3和IBM 4所確定的詞對齊概率的對數(shù)值,作為對數(shù)線性詞對齊模型的輸入特征,并將蒙古語到漢語以及漢語到蒙古語兩個(gè)對齊方向上的對齊概率作為不同的特征使用。本文在進(jìn)行蒙漢詞對齊研究時(shí),主要流程如圖4所示。

      圖3 詞干詞綴切分流程

      圖4 蒙漢詞對齊過程

      3 實(shí)驗(yàn)

      3.1 實(shí)驗(yàn)設(shè)置

      圖5 蒙漢詞對齊的結(jié)果

      3.2 實(shí)驗(yàn)數(shù)據(jù)預(yù)處理

      蒙漢詞對齊實(shí)驗(yàn)所采用的訓(xùn)練語料是67 288句對的雙語平行語料。其中包括了日常使用詞匯、部分散文讀物、自治區(qū)政府相關(guān)文獻(xiàn)等多方面的文本。在進(jìn)行蒙漢詞對齊實(shí)驗(yàn)前,對語料進(jìn)行了預(yù)處理工作,篩選出了句子長度小于30的平行語料句對,得到符合要求的平行句對49 239個(gè),作為蒙漢詞對齊實(shí)驗(yàn)的語料。為了對IBM詞對齊模型進(jìn)行實(shí)驗(yàn),我們從蒙漢平行句對中隨機(jī)抽取了100組句對進(jìn)行了人工詞對齊,作為IBM蒙漢詞對齊實(shí)驗(yàn)的測試語料。我們邀請了對蒙古語熟悉的蒙古族的同學(xué)對平行句對進(jìn)行手工的詞對齊工作,最終共得到詞對齊有683個(gè)。實(shí)驗(yàn)相關(guān)數(shù)據(jù)信息如表1所示。在對數(shù)線性蒙漢詞對齊模型的訓(xùn)練中本文選取了800個(gè)蒙漢雙語平行句對,將人工對齊的平行句對的70%作為訓(xùn)練語料,余下30%作為測試語料。

      表1 實(shí)驗(yàn)數(shù)據(jù)信息

      本文在采用IBM模型進(jìn)行蒙漢詞對齊實(shí)驗(yàn)時(shí),需要得到全局的詞對齊概率,蒙漢詞對齊概率的結(jié)果文件具體表示如圖6所示。圖6中第一列為漢語詞匯,第二列為蒙古語詞匯,第三列表示蒙漢平行詞語的對齊概率。本文在進(jìn)行對數(shù)線性詞對齊模型實(shí)驗(yàn)時(shí),將對齊概率的對數(shù)值作為IBM模型特征的輸入值。

      圖6 詞對齊概率表示

      3.3 實(shí)驗(yàn)結(jié)果

      本文進(jìn)行了基于IBM模型3和IBM模型4的蒙漢詞對齊模型相關(guān)實(shí)驗(yàn)。實(shí)驗(yàn)重點(diǎn)對比蒙古語進(jìn)行詞干詞綴切分后對蒙漢詞對齊質(zhì)量的影響。具體實(shí)驗(yàn)結(jié)果數(shù)據(jù)對比如表2所示。

      本文在基于IBM模型蒙漢詞對齊實(shí)驗(yàn)后,還進(jìn)行對數(shù)線性詞對齊模型的相關(guān)實(shí)驗(yàn)。將IBM模型特征融入到對數(shù)線性詞對齊模型中去,并與IBM模型3和IBM模型4的實(shí)驗(yàn)結(jié)果進(jìn)行對比分析。本文進(jìn)行對數(shù)線性蒙漢詞對齊模型的訓(xùn)練,主要目的是對比采用不同IBM特征對對數(shù)線性詞對齊模型的蒙漢詞對齊質(zhì)量的影響,具體實(shí)驗(yàn)結(jié)果數(shù)據(jù)對比如表3所示。實(shí)驗(yàn)中通過控制變量方法可以有效研究蒙古語詞干詞綴切分對詞對齊結(jié)果的影響。

      表2 IBM模型3和模型4詞對齊結(jié)果

      表3 對數(shù)線性模型詞對齊結(jié)果

      表2基于IBM(3-4)模型進(jìn)行詞對齊實(shí)驗(yàn)中,通過對比蒙古語是否進(jìn)行詞干詞綴切分可以發(fā)現(xiàn),蒙古語詞干詞綴切分對蒙漢詞對齊質(zhì)量有明顯的提高。通過對比表2和表3中的實(shí)驗(yàn)數(shù)據(jù)發(fā)現(xiàn),在對數(shù)線性詞對齊模型中,蒙古語進(jìn)行詞干詞綴的切分對蒙漢詞對齊質(zhì)量較IBM模型蒙漢詞對齊結(jié)果有更顯著的提高。對數(shù)線性判別式詞對齊模型普遍取得了比IBM模型特征更好的詞對齊結(jié)果。采用啟發(fā)式方法融合的雙向IBM模型4特征訓(xùn)練得到的對數(shù)線性詞對齊模型取得了0.430 2的詞對齊錯(cuò)誤率。通過實(shí)驗(yàn)數(shù)據(jù)對比發(fā)現(xiàn),在進(jìn)行蒙漢詞對齊模型進(jìn)行訓(xùn)練時(shí),對蒙古語進(jìn)行詞干詞綴的切分有利于提高模型的對齊準(zhǔn)確率。

      4 總結(jié)和未來工作

      由于蒙古語語言本身的復(fù)雜性以及蒙古語語料相對匱乏,蒙古語相關(guān)機(jī)器翻譯發(fā)展始終沒有大的突破。為了提高蒙漢機(jī)器翻譯質(zhì)量,就需要實(shí)現(xiàn)更高質(zhì)量的蒙漢詞對齊。本文提出了一種將蒙古語進(jìn)行詞干詞綴切分后作為蒙漢機(jī)器詞對齊基本單位,且這種方法對蒙漢機(jī)器翻譯過程中的數(shù)據(jù)稀疏問題有明顯緩解作用又有效減少了蒙語詞匯表的規(guī)模。本文基于IBM(1—4)的蒙漢詞對齊和對數(shù)線性模型進(jìn)行了蒙漢詞對齊實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果證明了對蒙古語進(jìn)行詞干詞綴的切分對蒙漢詞對齊質(zhì)量確實(shí)有顯著提高。接下來我們將把對蒙古語進(jìn)行詞干詞綴切分的方法應(yīng)用到整個(gè)機(jī)器翻譯中去,蒙古語切分后的詞干詞綴將作為機(jī)器翻譯的基本輸入單元做進(jìn)一步的相關(guān)研究。

      猜你喜歡
      詞干蒙漢蒙古語
      含有“心”一詞蒙古語復(fù)合詞的語義
      土默特地方蒙古語地名再探
      論柯爾克孜語詞干提取方法
      《內(nèi)蒙古藝術(shù)》(蒙漢刊)首屆作者培訓(xùn)班掠影
      維吾爾語詞綴變體搭配規(guī)則研究及算法實(shí)現(xiàn)
      簡論蒙漢蛇文化比較研究
      論蒙古語中反映心理逆境傾向的某些字的含義
      淺析關(guān)于蒙漢章回小說的結(jié)構(gòu)
      俄語詞“Sherti”在蒙古語中的變義(蒙古文)
      清代歸化城土默特地區(qū)的草廠糾紛與蒙漢關(guān)系
      墨竹工卡县| 囊谦县| 安顺市| 遂宁市| 扶沟县| 新化县| 富川| 浦城县| 新乡县| 通江县| 长兴县| 扎兰屯市| 高碑店市| 菏泽市| 淮安市| 额济纳旗| 台南市| 甘洛县| 沅陵县| 赤峰市| 商水县| 陕西省| 磴口县| 铜梁县| 会泽县| 定边县| 宜良县| 山西省| 建平县| 鹤岗市| 潞城市| 若羌县| 佛坪县| 广丰县| 丹江口市| 绥江县| 临颍县| 慈溪市| 泾阳县| 怀宁县| 民勤县|