王東明,徐金安,陳鈺楓,張玉潔
(北京交通大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,北京 100044)
?
基于單語語料的面向日語假名的日漢人名翻譯對(duì)抽取方法
王東明,徐金安,陳鈺楓,張玉潔
(北京交通大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,北京 100044)
命名實(shí)體的翻譯等價(jià)對(duì)在跨語言信息處理中非常重要。傳統(tǒng)抽取方法通常使用平行語料庫或可比語料庫,此類方法受到語料庫資源的質(zhì)量和規(guī)模的限制。在日漢翻譯領(lǐng)域,一方面,雙語資源相對(duì)匱乏;另一方面,對(duì)于漢字命名實(shí)體,通常使用漢字對(duì)照表;對(duì)于日語純假名的命名實(shí)體,通常采用統(tǒng)計(jì)翻譯模型,此類方法受到平行語料庫的質(zhì)量和規(guī)模的限制,且精度低下。針對(duì)此問題,該文提出了一種基于單語語料的面向日語假名的日漢人名翻譯對(duì)自動(dòng)抽取方法。該方法首先使用條件隨機(jī)場模型,分別從日語和漢語語料庫中抽取日語和漢語人名;然后,采用基于實(shí)例的歸納學(xué)習(xí)法自動(dòng)獲取人名實(shí)體的日漢音譯規(guī)則庫,并通過反饋學(xué)習(xí)來迭代重構(gòu)音譯規(guī)則庫。使用音譯規(guī)則庫計(jì)算日漢人名實(shí)體之間的相似度,給定閾值判定人名實(shí)體翻譯等價(jià)對(duì)。實(shí)驗(yàn)結(jié)果表明,提出的方法簡單高效,在實(shí)現(xiàn)系統(tǒng)高精度的同時(shí),克服了傳統(tǒng)方法對(duì)雙語資源的依賴性。
機(jī)器翻譯;命名實(shí)體;日語假名;歸納學(xué)習(xí)法;音譯
命名實(shí)體是標(biāo)識(shí)某一特定實(shí)體的詞或詞組,其主要包括人名、地名和組織機(jī)構(gòu)名等[1],是自然語言的重要信息載體,在機(jī)器翻譯、信息檢索、問答系統(tǒng)以及跨語言信息處理等研究領(lǐng)域至關(guān)重要。
雙語命名實(shí)體翻譯等價(jià)對(duì)是指來自兩種不同語言的具有互譯關(guān)系的命名實(shí)體對(duì)。在日語中,假名是表音文字?!凹佟奔础敖琛?,“名”即“字”。意即只借用漢字的音和形,而不用它的意義。在日漢機(jī)器翻譯研究領(lǐng)域,由于日語純假名人名所占比例約為27%[2],且日語純假名多為歐美等國的外來語,此類實(shí)體對(duì)漢語而言,同屬于外來語。例如,“伊莎貝拉”和“イサベラ”,來源于西班牙語的外來詞“Isabel”。因此,面向日語純假名的命名實(shí)體的日漢翻譯對(duì)的自動(dòng)獲取,蘊(yùn)含了外來語到日語和漢語的音譯規(guī)則,而由于日語和漢語在構(gòu)詞規(guī)則和發(fā)音上的差異,增加了日語假名的日漢雙語實(shí)體對(duì)自動(dòng)抽取的技術(shù)難度。
雙語命名實(shí)體翻譯等價(jià)對(duì)的自動(dòng)獲取方法很多[3],其中,最直接的方法是用機(jī)器翻譯系統(tǒng)直接進(jìn)行翻譯,即利用已知的源語言命名實(shí)體,通過翻譯直接得到目標(biāo)語言對(duì)應(yīng)的命名實(shí)體。鄒波等[4]對(duì)英漢人名的音譯方法進(jìn)行了研究,詳細(xì)比較了兩種機(jī)器學(xué)習(xí)方法和兩種統(tǒng)計(jì)機(jī)器翻譯模型在英漢人名音譯上的應(yīng)用效果,實(shí)驗(yàn)結(jié)果表明雖然這些方法取得了一定的效果,但仍然有較大的改善空間。體現(xiàn)在基于純統(tǒng)計(jì)的方法對(duì)英漢人名進(jìn)行音譯是遠(yuǎn)遠(yuǎn)不夠的,需要其他技術(shù)手段來獲取更好的音譯結(jié)果。李婷婷等[2]對(duì)日本人名的識(shí)別和翻譯做了研究,針對(duì)日本人名的翻譯,將日本人名分為假名人名和漢字人名,漢字人名的翻譯通過建立日本人名常用漢字翻譯詞典實(shí)現(xiàn),而假名人名的翻譯通過Moses系統(tǒng)訓(xùn)練翻譯模型實(shí)現(xiàn),實(shí)驗(yàn)結(jié)果表明對(duì)于漢字人名部分的翻譯正確率達(dá)到了100%,這是因?yàn)槠渌⒌摹叭毡救嗣S脻h字翻譯字典”質(zhì)量很好,對(duì)日本人名常用漢字的覆蓋率很高,而對(duì)于假名人名部分的翻譯正確率只有47.34%,這說明僅使用統(tǒng)計(jì)機(jī)器翻譯的方法來處理假名人名效果是不理想的。
另一種方法是給定源語言的命名實(shí)體,通過網(wǎng)絡(luò)挖掘輔助翻譯的方法得到目標(biāo)語言對(duì)應(yīng)的命名實(shí)體[5]。此方法屬于直譯方法的一種擴(kuò)展形式。近年來,互聯(lián)網(wǎng)高速發(fā)展,其中的語料資源越來越豐富,很多研究者都在利用互聯(lián)網(wǎng)的語料資源來提取命名實(shí)體等價(jià)對(duì),Jiang 等[6-7]利用音譯模型和網(wǎng)絡(luò)挖掘來得到目標(biāo)語言對(duì)應(yīng)的命名實(shí)體,首先利用音譯模型生成一個(gè)候選翻譯,繼而利用音譯信息配合網(wǎng)絡(luò)挖掘獲得更多的候選翻譯,最后使用最大熵模型綜合考慮源語言和候選的目標(biāo)語言命名實(shí)體的各種特征,得到最終的結(jié)果。實(shí)驗(yàn)結(jié)果顯示該方法取得了一定的成效。
第三種方法是從平行語料庫或可比語料庫里批量抽取命名實(shí)體翻譯等價(jià)對(duì),Huang等[8]提出了一種基于多特征的最小代價(jià)的命名實(shí)體翻譯對(duì)自動(dòng)抽取方法,實(shí)驗(yàn)結(jié)果表明該方法對(duì)命名實(shí)體翻譯等價(jià)對(duì)的抽取取得了較好的效果,但該方法對(duì)平行語料庫有較大依賴,大規(guī)模的雙語資源相對(duì)匱乏,構(gòu)建成本高。
第四種方法是利用漢字對(duì)照表和歸納學(xué)習(xí)方法從單語語料庫中抽取命名實(shí)體翻譯等價(jià)對(duì)[9-10],此類方法對(duì)日漢漢字命名實(shí)體翻譯等價(jià)對(duì)的抽取簡單高效,有效解決了對(duì)日漢雙語資源的依賴性。但是,該方法對(duì)日語純假名的日漢實(shí)體等價(jià)對(duì)的抽取具有一定的局限性。
綜上所述,傳統(tǒng)方法中,基于機(jī)器翻譯的方法對(duì)翻譯系統(tǒng)的性能具有依賴性;基于雙語語料庫或可比語料庫的方法,其性能受限于語料庫的質(zhì)量和規(guī)模。而基于日語和漢語漢字對(duì)照表或詞典的方法,無法有效解決日語純假名的實(shí)體的日漢翻譯等價(jià)對(duì)的自動(dòng)抽取。
為了解決上述問題,本文提出了一種基于單語語料的面向日語假名的日漢人名翻譯等價(jià)對(duì)自動(dòng)抽取方法。首先,該方法使用條件隨機(jī)場模型,分別從日語和漢語語料庫中抽取日語和漢語人名;然后,采用基于實(shí)例的歸納學(xué)習(xí)法[11]自動(dòng)獲取人名實(shí)體的日漢音譯規(guī)則庫,通過反饋學(xué)習(xí)來迭代重構(gòu)音譯規(guī)則庫。然后,使用音譯規(guī)則庫計(jì)算日漢人名實(shí)體之間的相似度,給定閾值判定人名實(shí)體翻譯等價(jià)對(duì)。實(shí)驗(yàn)結(jié)果表明,提出方法簡單高效,抽取的假名人名翻譯等價(jià)對(duì)正確率高,可以達(dá)86%以上。本方法在實(shí)現(xiàn)系統(tǒng)高精度的同時(shí),克服了傳統(tǒng)方法對(duì)雙語資源的依賴性。
本文的組織結(jié)構(gòu)如下: 第二節(jié)介紹歸納學(xué)習(xí)法;第三節(jié)詳細(xì)描述本文提出的方法;包括基于條件隨機(jī)場的單語命名實(shí)體識(shí)別、基于歸納學(xué)習(xí)法的規(guī)則獲取、以及反饋學(xué)習(xí)和校正處理等;第四節(jié),實(shí)驗(yàn)部分,先給出一種基于統(tǒng)計(jì)機(jī)器翻譯模型的日語純假名日漢翻譯等價(jià)對(duì)的抽取方法,作為本論文的基線系統(tǒng),然后給出實(shí)驗(yàn)結(jié)果和分析討論;最后,給出結(jié)論和未來工作。
歸納學(xué)習(xí)法由日本學(xué)者荒木健治等[11]提出,其基本思路主要包括兩個(gè)方面,其一是對(duì)兩個(gè)具有相似性的實(shí)例中的相同部分和差異部分進(jìn)行遞歸式抽取以獲取規(guī)則;其二是通過校正和反饋處理,對(duì)抽取的規(guī)則進(jìn)行篩選,更新規(guī)則庫。該方法通過歸納學(xué)習(xí)獲取實(shí)例間的內(nèi)在規(guī)則,確定字符串之間的對(duì)應(yīng)關(guān)系,表1為從未知字符串抽取對(duì)應(yīng)關(guān)系規(guī)則的例子。
表1的輸入1和輸入2存在著對(duì)應(yīng)關(guān)系,以下劃線的形式將其標(biāo)出。隨后, 將兩邊的不同部分按照先后順序?qū)R。其結(jié)果如表1所示,段1、段2、段3分別構(gòu)成對(duì)應(yīng)關(guān)系。兩個(gè)字符串間不同部分的對(duì)應(yīng)關(guān)系,除表1所示的順序?qū)?yīng)外還有可能是逆序?qū)?yīng)關(guān)系。至于采用順序?qū)?yīng)還是逆序?qū)?yīng),將取決于所研究的具體問題,在本文中,基于如上所述的假名人名的特點(diǎn),我們采用順序?qū)?yīng)。
表1 從未知字符串抽取對(duì)應(yīng)關(guān)系
按照同樣的方法可以從段抽取出共同部分并將段分解為基元。從段中抽取基元的例子如表2所示。將段1、2中用下劃線標(biāo)注的共同部分作為基元2抽取出來,并將其兩側(cè)的不同部分分別看成基元1和基元3。如此,通過分離共同部分和不同部分,可以得到三個(gè)基元。
表2 從段中抽取基元
因?yàn)榭梢酝ㄟ^組合的方式將基元還原成段,所以這三個(gè)基元就成了兩個(gè)段的完全替代品。這種抽取方式通常還需要借助確定對(duì)應(yīng)關(guān)系的經(jīng)驗(yàn)法則。本手法基于實(shí)例分階段地抽取異同部分,從而獲取知識(shí),是一種歸納學(xué)習(xí)的方法。
現(xiàn)有的命名實(shí)體翻譯等價(jià)對(duì)抽取方法,通常使用平行語料庫或可比語料庫,因而,受限于雙語語料庫的質(zhì)量和規(guī)模。本文提出的方法旨在突破此限制,并有效提高日語假名實(shí)體等價(jià)對(duì)的抽取精度。提出的方法的系統(tǒng)架構(gòu)如圖1所示。
首先,我們使用條件隨機(jī)場模型(CRFs),分別從日語和漢語單語語料庫中抽取日語和漢語人名實(shí)體集合,再將其轉(zhuǎn)換成羅馬字[12]音節(jié)列表和漢語拼音列表;然后,使用音譯規(guī)則庫計(jì)算日漢人名實(shí)體之間的相似度,得到相似度列表。針對(duì)相似度高的人名實(shí)體對(duì)實(shí)例,篩選出來,利用歸納學(xué)習(xí)法,通過反饋學(xué)習(xí)來獲取新的人名實(shí)體的日漢音譯規(guī)則,經(jīng)過數(shù)次迭代重構(gòu),得到最終的音譯規(guī)則庫。并根據(jù)規(guī)則庫,通過相似度計(jì)算獲取雙語實(shí)體等價(jià)對(duì)。
圖1 系統(tǒng)架構(gòu)圖
3.1 單語命名實(shí)體抽取
傳統(tǒng)的單語命名實(shí)體抽取方法,主要包括基于規(guī)則、基于詞典和基于統(tǒng)計(jì)的方法[13]。由于所需額外知識(shí)少,移植性好,基于統(tǒng)計(jì)的方法正成為研究者所使用的主流方法?;诮y(tǒng)計(jì)的方法大量使用了機(jī)器學(xué)習(xí)領(lǐng)域的各種算法,主要包括,隱馬爾可夫模型(HMM)、最大熵馬爾科夫模型(MEMM)、條件隨機(jī)場模型(CRFs)等。
條件隨機(jī)場( Conditional Random Fields,簡稱CRFs) 是一種用于序列數(shù)據(jù)標(biāo)注的條件概率模型,由 Lafferty 等[14]于 2001 年提出,它是通過定義標(biāo)記序列和觀察序列的條件概率來預(yù)測最可能的標(biāo)記序列的。條件隨機(jī)場模型(CRFs)是近年來在序列標(biāo)注問題中應(yīng)用的比較多,也是效果最好的一種模型。它沒有隱馬爾可夫模型那樣嚴(yán)格的獨(dú)立性假設(shè),因而可以容納任意的上下文信息。同時(shí),由于CRFs計(jì)算全局最優(yōu)輸出節(jié)點(diǎn)的條件概率,克服了最大熵馬爾科夫模型和其它非生成的有向圖模型所固有的標(biāo)記偏置的缺點(diǎn)。CRFs是在給定需要標(biāo)記的觀察序列的條件下,計(jì)算整個(gè)標(biāo)記序列的聯(lián)合概率分布,而不是在給定當(dāng)前狀態(tài)條件下,定義下一個(gè)狀態(tài)的狀態(tài)分布。
條件隨機(jī)場是以給定的觀察值為條件,從而計(jì)算輸出狀態(tài)的概率的條件概率模型。其中最簡單的CRFs是一個(gè)稱為鏈圖或線圖的無向圖(如圖2所示),稱為線鏈CRFs(linear-chain CRFs),也是最常用的一種條件隨機(jī)場模型。
圖2 線鏈CRFs結(jié)構(gòu)圖
假設(shè)O=o1,o2,……,on是一個(gè)長度為n的觀察序列,線鏈CRFs的參數(shù)Λ={λ1,λ2,……,λk},則此模型輸出詞位序列S=s1,s2,……,sT的條件概率為式(1)。
(1)
其中,Zo是歸一化因子,作用是確保所有可能的詞位標(biāo)記序列的條件概率和為1,其定義如式(2)所示。
(2)
公式(1)中的f通常是一個(gè)二值表征函數(shù),用于表達(dá)上下文可能的語言特征,其定義為式(3)。
(3)
CRFs模型通過特征函數(shù)能夠整合任何特征,包括可觀察序列O在時(shí)刻t時(shí)由當(dāng)前字及其上下文組成的字串序列特征,以及上下文中隱含詞位的轉(zhuǎn)移特征st-1→st,λk。λk是一個(gè)訓(xùn)練過程中需從訓(xùn)練語料中學(xué)習(xí)的參數(shù),表示的是相應(yīng)的特征函數(shù)fk(st-1,st,o,t) 的權(quán)重,其取值范圍可以是-∞到+∞。對(duì)于一個(gè)由公式(1)給定的條件隨機(jī)場模型,對(duì)任意的一個(gè)輸入字串,其最可能的標(biāo)記序列可以由公式(4)求出:
(4)
可以使用Viterbi算法對(duì)公式(4)進(jìn)行解碼,從而求出使得PΔ(S|O)最大的標(biāo)記序列。
本文所采用的命名實(shí)體識(shí)別工具是實(shí)驗(yàn)室獨(dú)自研發(fā)的基于CRFs的單語命名實(shí)體識(shí)別工具,該系統(tǒng)選取較為復(fù)雜的特征模板進(jìn)行識(shí)別,性能較高,其從中日雙語的維基百科數(shù)據(jù)庫的單語語料庫中抽取漢語人名和日語假名人名。
3.2 歸納學(xué)習(xí)
日語假名屬于外來詞,大多是通過音譯得到的,而其對(duì)應(yīng)的漢語人名,同樣屬于外來詞,也是通過音譯而來的。因此,從發(fā)音規(guī)律上來講,彼此之間存在一定的對(duì)應(yīng)關(guān)系[15]。為了探索和發(fā)現(xiàn)其規(guī)律,可以將假名人名對(duì)應(yīng)的漢字和日語假名分別轉(zhuǎn)換為對(duì)應(yīng)的中文拼音和羅馬字,例如,“路易斯恩里克”和“ルイスエンリケ”分別轉(zhuǎn)換為“l(fā)u|yi|si|en|li|ke”和“ru|i|su|e|n|ri|ke”,在這里我們將中文拼音以每個(gè)漢字拼音進(jìn)行分詞,而日語假名對(duì)應(yīng)的羅馬字以其發(fā)音的音節(jié)進(jìn)行分詞,通過分析,我們可以簡單地得到這樣的規(guī)則對(duì),“l(fā)u~ru”,“yi~i”,“si~su”,“en~e|n”,“l(fā)i~ri”,“ke~ke”,如表3中所示,值為“1”的即是漢字拼音和假名羅馬字的規(guī)則對(duì)。我們希望在更多的漢日假名人名對(duì)中得到更多這樣的規(guī)則對(duì),以用來識(shí)別我們未知的漢日假名人名翻譯等價(jià)對(duì)。
表3 漢字拼音和假名羅馬字的對(duì)應(yīng)圖
我們將抽取得到的日漢假名人名分別轉(zhuǎn)換成羅馬字音節(jié)序列和漢語拼音序列。對(duì)于音譯而來的假名人名,它的漢語發(fā)音和日語發(fā)音都是順序的,不會(huì)出現(xiàn)逆序的情況。因此,給出如下處理步驟:
1. 假設(shè)實(shí)體等價(jià)對(duì)之間的首尾發(fā)音音節(jié)具有對(duì)應(yīng)關(guān)系。例如,“l(fā)u|yi|si|en|li|ke”和“ru|i|su|e|n|ri|ke”,它們的首尾有“l(fā)u~ru”,“ke~ke”的對(duì)應(yīng)關(guān)系。
2.為了確定一個(gè)漢字拼音對(duì)應(yīng)幾個(gè)羅馬字音節(jié),給定窗口設(shè)置,在一定范圍內(nèi)獲取候選漢字拼音和羅馬字音節(jié)之間的對(duì)應(yīng)關(guān)系規(guī)則對(duì),例如,設(shè)窗口為2,我們可以從上例中抽取到“l(fā)u~ru”、“l(fā)u~ru|i”、“ke~ke”和“ke~ri|ke”這些規(guī)則對(duì)。
為了提高歸納學(xué)習(xí)法的效率,本文采用一定規(guī)模的既有假名人名翻譯等價(jià)對(duì)作為學(xué)習(xí)數(shù)據(jù),得到候選的漢字拼音和羅馬字音節(jié)的規(guī)則對(duì)的初始集合,然后使用根據(jù)獲取規(guī)則的權(quán)重,設(shè)定閾值過濾部分低置信度的規(guī)則獲取高置信度的漢字拼音和羅馬字音節(jié)規(guī)則表,之后,根據(jù)相似度計(jì)算,獲取實(shí)體等價(jià)對(duì),再進(jìn)行校正處理和反饋學(xué)習(xí),通過迭代生成新的音譯規(guī)則,并更新規(guī)則的權(quán)重。表4給出了一個(gè)規(guī)則庫實(shí)例。
表4 規(guī)則庫實(shí)例
本方法在利用既有假名人名翻譯等價(jià)對(duì)作為學(xué)習(xí)數(shù)據(jù)構(gòu)建初始漢字拼音與羅馬字音節(jié)的規(guī)則庫之后,我們從日漢雙語的單語語料庫中使用基于CRFs的單語命名實(shí)體識(shí)別工具分別進(jìn)行假名人名的識(shí)別,得到兩個(gè)單語的假名人名集合,通過預(yù)處理得到分好“詞”的假名人名拼音列表和羅馬字音節(jié)列表,使用上述初始的漢字拼音和羅馬字音節(jié)規(guī)則庫,計(jì)算候選的假名人名翻譯等價(jià)對(duì)的相似度,相似度計(jì)算如公式(5)所示。
(5)
其中,nac為假名人名拼音序列,naj為假名羅馬字音節(jié)序列,k為候選假名人名對(duì)在規(guī)則庫中找到的規(guī)則對(duì)的個(gè)數(shù),ci為規(guī)則對(duì)中拼音個(gè)數(shù),ji為規(guī)則對(duì)中羅馬音節(jié)個(gè)數(shù),m為假名人名拼音個(gè)數(shù),n為假名羅馬字音節(jié)個(gè)數(shù)。
然后,選取相似度大的候選假名人名翻譯等價(jià)對(duì)進(jìn)行歸納學(xué)習(xí)、人工校正和反饋處理,通過迭代處理得到新的候選規(guī)則,對(duì)規(guī)則給定閾值,獲取可信度大的候選規(guī)則更新規(guī)則庫,再利用更新的規(guī)則庫迭代計(jì)算相似度,直到收斂為止。對(duì)于一對(duì)多或多對(duì)一的規(guī)則情況,本文采用了計(jì)算其之間的編輯距離來進(jìn)行過濾。針對(duì)所產(chǎn)生的新規(guī)則,根據(jù)語言學(xué)知識(shí)進(jìn)行判定和校正處理,以提高規(guī)則的正確性。
4.1 基線系統(tǒng)
本文采用之前在命名實(shí)體翻譯等價(jià)對(duì)中比較常見的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)作為基線系統(tǒng)。如文獻(xiàn)[2]中所述的方法,采用基于短語的統(tǒng)計(jì)機(jī)器翻譯實(shí)現(xiàn)日語假名人名到中文的翻譯。具體使用Moses[16]訓(xùn)練翻譯模型來實(shí)現(xiàn)假名人名的翻譯,基線系統(tǒng)實(shí)驗(yàn)數(shù)據(jù)共包括13 032對(duì)日漢假名人名對(duì),實(shí)驗(yàn)中將數(shù)據(jù)分為訓(xùn)練集、開發(fā)集、測試集三部分,其中測試數(shù)據(jù)與下文實(shí)驗(yàn)中數(shù)據(jù)一致?;€實(shí)驗(yàn)所用的實(shí)驗(yàn)數(shù)據(jù)如表5所示。
表5 基線系統(tǒng)實(shí)驗(yàn)數(shù)據(jù)
如文獻(xiàn)[2]中所述,實(shí)驗(yàn)結(jié)果評(píng)價(jià)指標(biāo)不用BLEU值來估計(jì),直接用翻譯準(zhǔn)確率如公式(6)來測試,表6是測試結(jié)果,這也與文獻(xiàn)[2]中的實(shí)驗(yàn)結(jié)果相近。
正確率 (6) 表 6 實(shí)驗(yàn)結(jié)果
4.2 實(shí)驗(yàn)設(shè)置
4.2.1 實(shí)驗(yàn)語料
實(shí)驗(yàn)中所用的單語語料庫來源于中日雙語的維基百科數(shù)據(jù)庫,本實(shí)驗(yàn)從日語單語篇章和漢語單語篇章中使用本實(shí)驗(yàn)室基于CRFs的命名實(shí)體工具進(jìn)行識(shí)別,共識(shí)別漢語人名88 203個(gè),日語人名73 322個(gè),并從中抽取13 032個(gè)假名人名日語條目,并手工進(jìn)行詞對(duì)齊的校正工作,作為實(shí)驗(yàn)的數(shù)據(jù)。
4.2.2 實(shí)驗(yàn)工具
實(shí)驗(yàn)中用到的工具包括,基于CRFs的單語命名實(shí)體識(shí)別工具,由本實(shí)驗(yàn)室研究小組自主開發(fā),其他還有GIZA++工具[17],漢字轉(zhuǎn)拼音工具[18],假名轉(zhuǎn)羅馬字工具[19]等。
4.2.3 參數(shù)設(shè)定
實(shí)驗(yàn)中的參數(shù)設(shè)定,主要是指對(duì)規(guī)則抽取的閾值的設(shè)定,在迭代過程中,該閾值應(yīng)逐漸放寬,否則,隨著迭代次數(shù)的增加,難以獲取新規(guī)則。然而在初始時(shí),該閾值卻不能選的較低,否則將導(dǎo)致規(guī)則庫過冗余。另外,對(duì)于相似度的閾值設(shè)定,實(shí)驗(yàn)中我們?nèi)〕踔禐?.3,隨著迭代的進(jìn)行,我們進(jìn)行動(dòng)態(tài)的調(diào)整。
4.2.4 評(píng)價(jià)方法
實(shí)驗(yàn)結(jié)果指標(biāo)采用準(zhǔn)確率(P),召回率(R)和F值來作為評(píng)分標(biāo)準(zhǔn),其中P,R和F的計(jì)算方式如公式(7),(8)和(9)所示。
(7)
(8)
(9)
其中,Numcorrect為抽取到的正確的條目,Nummined為抽取到的所有條目,Numttotal為語料中存在的所有正確條目,當(dāng)β=1時(shí),表示準(zhǔn)確率(P)和召回率(R)權(quán)重相同,就是一般所說的F1值。本文我們認(rèn)為準(zhǔn)確率和召回率同等重要取β=1。
4.3 實(shí)驗(yàn)結(jié)果
本實(shí)驗(yàn)從中日雙語的維基百科數(shù)據(jù)庫中的日語單語篇章和漢語單語篇章中,使用本實(shí)驗(yàn)室基于CRFs的命名實(shí)體工具進(jìn)行識(shí)別,共識(shí)別漢語人名88 203個(gè),日語人名73 322個(gè),實(shí)驗(yàn)中基于CRFs的單語命名實(shí)體識(shí)別工具的識(shí)別效果分別如表7和表8所示。并從中抽取13 032個(gè)假名人名日語條目,并手工對(duì)齊,作為實(shí)驗(yàn)的數(shù)據(jù)。其中訓(xùn)練數(shù)據(jù)12 032個(gè),測試數(shù)據(jù)1 000個(gè)。
表7 中文人名識(shí)別效果
表8 日語假名人名識(shí)別效果
在本文中,我們提出了一種基于單語語料的面向日語假名的日漢人名翻譯對(duì)自動(dòng)抽取方法。采用基于實(shí)例的歸納學(xué)習(xí)法自動(dòng)獲取人名實(shí)體的日漢音譯規(guī)則庫,通過反饋學(xué)習(xí)來迭代重構(gòu)音譯規(guī)則庫。使用音譯規(guī)則庫計(jì)算日漢人名實(shí)體之間的相似度判定人名實(shí)體翻譯等價(jià)對(duì)。實(shí)驗(yàn)結(jié)果見表9.
表9 實(shí)驗(yàn)二結(jié)果
表10 實(shí)驗(yàn)三結(jié)果
在表9中,在每次迭代對(duì)所取的相似度閾值不同,通過多次對(duì)比實(shí)驗(yàn),采用貪心算法進(jìn)行參數(shù)優(yōu)化。對(duì)于每次迭代,對(duì)不同相似度閾值下的結(jié)果進(jìn)行比較,取最優(yōu)結(jié)果。實(shí)驗(yàn)中,第一次迭代和第二次迭代的相似度閾值取0.3.第三次迭代取0.4,第四、五、六次迭代取0.5。
由實(shí)驗(yàn)二的結(jié)果,我們可以看出,使用本文所提出的方法,從單語語料中抽取假名人名對(duì)的效果較之使用統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的方法準(zhǔn)確率提高了很多。例如,我們使用機(jī)器翻譯系統(tǒng)翻譯“伊云尼斯域”并不能得到正確的結(jié)果“イワニセビッチ”,而用本文的方法容易抽取到這樣的命名實(shí)體翻譯對(duì)。隨著迭代次數(shù)的增加,經(jīng)迭代重構(gòu)的規(guī)則庫越完備,取得實(shí)驗(yàn)效果越好。實(shí)驗(yàn)證明所提方法簡單高效。當(dāng)然,由于語料的局限性,某些命名實(shí)體對(duì)也可能抽取不出來,例如,“寬”和“クアン”,這種情況下我們可以通過對(duì)規(guī)則庫進(jìn)行人工校正來解決。由于抽取規(guī)則的不確定性,實(shí)驗(yàn)中,我們對(duì)規(guī)則庫做了少量的人工校正,對(duì)于明顯不符的規(guī)則如“dang~mu”,直接剔除,對(duì)于有稍許偏失的規(guī)則予以修正,對(duì)未能提取到的規(guī)則直接加入規(guī)則庫,由表10中可以看到校正后,實(shí)驗(yàn)的效果會(huì)有所提高。
本文提出了一種基于單語語料的面向日語假名的日漢人名翻譯對(duì)自動(dòng)抽取方法。首先,該方法使用條件隨機(jī)場模型,分別從日語和漢語語料庫中抽取日語和漢語人名;然后,采用基于實(shí)例的歸納學(xué)習(xí)法自動(dòng)獲取人名實(shí)體的日漢音譯規(guī)則庫,通過反饋學(xué)習(xí)來迭代重構(gòu)音譯規(guī)則庫。使用音譯規(guī)則庫計(jì)算日漢人名實(shí)體之間的相似度判定人名實(shí)體翻譯等價(jià)對(duì)。實(shí)驗(yàn)結(jié)果表明,提出方法簡單高效,在實(shí)現(xiàn)系統(tǒng)高精度的同時(shí),克服了傳統(tǒng)方法對(duì)雙語資源的依賴性。我們下一步的工作,將考慮利用更多的特征,如詞長度信息,編輯距離,所屬文本的文體等特征來對(duì)單語語料中的命名實(shí)體翻譯等價(jià)對(duì)進(jìn)行自動(dòng)抽取;同時(shí),我們嘗試采用規(guī)則獲取和其他統(tǒng)計(jì)方法相結(jié)合的方法來解決此類問題;使用本方法,我們還將對(duì)地名、組織結(jié)構(gòu)名稱等其他純假名命名實(shí)體對(duì)的自動(dòng)獲取進(jìn)行擴(kuò)展。
[1] D Bikel, S Miller, R Schwartz, et al. A high-performance learning name-finder[C]//Proceedings of Applied Natural Language Processing,Washington DC:1997.
[2] 李婷婷,趙鐵軍,張春越. 基于統(tǒng)計(jì)的日本人名的識(shí)別和翻譯[J]. 智能計(jì)算機(jī)與應(yīng)用, 2012, 2(1) :4-7.
[3] 趙軍. 命名實(shí)體識(shí)別、排歧和跨語言關(guān)聯(lián)[J]. 中文信息學(xué)報(bào),2009,23(2):3-17
[4] 鄒波,趙軍. 英漢人名音譯方法研究[A]. 第四屆全國學(xué)生計(jì)算語言學(xué)研討會(huì)會(huì)議論文集[C],2008:24-30.
[5] Jenq-Haur Wang, Jei-Wen Teng, Pu-Jen Cheng,et al. Translating unknown cross-lingual queries in digital libraries using a web-based approach[C]//Proceedings of the 4th ACM/IEEE-CS Joint Conference on Digital Libraries.ACM,2004:108-116
[6] Jiang L,Zhou M,Chien L F,et al.Named entity translation with web mining and Tansliteration[C]//Proceedings of the IJCAI.2007,7:1629-1634
[7] 蔣龍,周明,簡立峰. 利用音譯和網(wǎng)絡(luò)挖掘翻譯命名實(shí)體[J].中文信息學(xué)報(bào),2007,21(1):23-28.
[8] Huang F, Vogel S, Waibel A. Automatic Extraction of Named Entity Translingual Equivalence Based on Multi-Feature Cost Minimization[C]//Proceeding of Association of Computational Linguistics, Sapporo,Japan,2003.
[9] 茹曠. 日漢雙語命名實(shí)體對(duì)獲取方法及其應(yīng)用研究[D]. 北京交通大學(xué),2014.
[10] Ru K,Xu J,Zhang Y,et al.A Method to Construct Chinese-Japanese Named Entity Translation Equivalents Using Monolingual Corpora[A].Natural Language Processing and Chinese Computing. Springer Berlin Heidelberg,2013:164-175
[11] 荒木健治,高橋祐治,桃內(nèi)佳雄,等.帰納的學(xué)習(xí)を用いたかな漢字変換[C]//電子情報(bào)通信學(xué)會(huì)論文誌,1996,J79-D-Ⅱ(3):391-402.
[12] 羅曉瑩. 日語假名羅馬字標(biāo)記法的歷史及發(fā)展[J]. 鄭州航空工業(yè)管理學(xué)院學(xué)報(bào)(社會(huì)科學(xué)版). 2014.
[13] 孫鎮(zhèn),王惠臨. 命名實(shí)體識(shí)別研究進(jìn)展綜述[J]. 現(xiàn)代圖書情報(bào)技術(shù),2010,(6):42-47.
[14] John Lafferty, Andrew McCallum, Fernando C N Pereira, Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data, 2001.
[15] 何功星. 日語中日漢人名的聲調(diào)規(guī)則[J]. 科技信息,2011,(17).
[16] http://www.statmt.org/moses/
[17] http://code.google.com/p/giza-pp/downloads/detail?name=giza-pp-v1.0.7.tar.gz
[18] http://www.aies.cn/pinyin.htm
[19] http://o-oo.net.cn/katakana-Roman.asp
Monolingual Corpora Based Japanese-Chinese Translation Extraction for Kana Names
WANG Dongming, XU Jin’an, CHEN Yufeng, ZHANG Yujie
(School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044, China)
Named entity translation equivalents play a critical role in cross-language information processing. The traditional method is usually based on large-scale parallel or comparable corpus, which is limited by the size and quality of the corpus resources. In Japanese-Chinese translation, the bilingual corpora resources are relatively scarce: the Chinese Hanzi and Japanese Kanji mapping table is often adopted to deal with Chinese named entity and a SMT model to deal with the Japanese named entities in pure kana. In this paper, we propose a monolingual corpora based approach. Firstly, the conditional random field model is adopted to extract Japanese and Chinese names from monolingual corpus. Then the Japanese-Chinese transliteration rule base is developed by instance based inductive learning in a iterative process employing the feedback learning. Experimental results show that the proposed method is simple and efficient, leverging the severely dependency on bilingual resource by the classical methods.
machine translation;named entities;Japanese kana;inductive learning method;transliteration
王東明(1985—),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z言處理、統(tǒng)計(jì)機(jī)器翻譯。E-mail:13120428@bjtu.edu.cn徐金安(1970—),副教授,主要研究領(lǐng)域?yàn)樽匀徽Z言處理和機(jī)器翻譯。E-mail:jaxu@bjtu.edu.cn陳鈺楓(1981—),副教授,主要研究領(lǐng)域?yàn)樽匀徽Z言處理和機(jī)器翻譯。E-mail:chenyf@bjtu.edu.cn
1003-0077(2015)05-0084-07
2015-08-14 定稿日期: 2015-10-09
國家自然科學(xué)基金 (61370130,61473294);中央高校基本科研業(yè)務(wù)費(fèi)專項(xiàng)資金 (2015JBM033);國家國際科技合作專項(xiàng)資助(2014DFA11350)
TP391
A