趙鐵軍,曹海龍
(哈爾濱工業(yè)大學(xué) 教育部—微軟語(yǔ)言語(yǔ)音重點(diǎn)實(shí)驗(yàn)室,黑龍江 哈爾濱 150001)
隨著互聯(lián)網(wǎng)的迅速發(fā)展和國(guó)際交流的日益頻繁,以機(jī)器翻譯技術(shù)為核心的多語(yǔ)信息處理已成為國(guó)際上的一個(gè)熱點(diǎn)研究領(lǐng)域。中國(guó)、歐美、日本等國(guó)的研究機(jī)構(gòu)和企業(yè)正在這個(gè)研究方向上進(jìn)行著激烈競(jìng)爭(zhēng)。多語(yǔ)信息處理研究主要包括機(jī)器翻譯、跨語(yǔ)言信息檢索和跨語(yǔ)言學(xué)習(xí)等問(wèn)題。本文首先介紹這幾個(gè)問(wèn)題的研究現(xiàn)狀,然后重點(diǎn)介紹本文研究者在統(tǒng)計(jì)機(jī)器翻譯與應(yīng)用、機(jī)器翻譯評(píng)價(jià)、跨語(yǔ)言信息檢索等方面的研究工作。
統(tǒng)計(jì)機(jī)器翻譯領(lǐng)域早期的代表性方法是IBM公司的P. Brown等人提出的基于信源信道思想的統(tǒng)計(jì)翻譯模型[1-2],這種方法以詞作為最小單位對(duì)雙語(yǔ)句子的翻譯過(guò)程進(jìn)行描述。然而,基于詞的翻譯模型在實(shí)用中遭遇到了詞對(duì)齊噪聲的影響且沒(méi)有考慮句子的結(jié)構(gòu)及上下文信息,在兩種語(yǔ)言的語(yǔ)序相差比較大時(shí)翻譯效果不好。為了解決上述問(wèn)題,基于短語(yǔ)的機(jī)器翻譯模型被提出[3],基于短語(yǔ)的模型以較為穩(wěn)定的共現(xiàn)短語(yǔ)對(duì)作為翻譯的基本元素,在一定程度上減弱了詞對(duì)齊噪聲對(duì)翻譯的不利影響,并能夠?qū)⒎g時(shí)需要的上下文信息自然地融入翻譯模型之中?;诙陶Z(yǔ)的統(tǒng)計(jì)機(jī)器翻譯模型在近幾年的統(tǒng)計(jì)機(jī)器翻譯研究中已經(jīng)占據(jù)了主導(dǎo)地位。除了基于信源信道的統(tǒng)計(jì)翻譯模型以外,更為一般化的對(duì)數(shù)線性模型被提出[4],可以較為方便地加入新的特征。
基于短語(yǔ)的模型的規(guī)則為平坦的雙語(yǔ)對(duì)應(yīng)詞串,其調(diào)序能力較為有限。而在實(shí)際應(yīng)用中,源和目標(biāo)兩種語(yǔ)言往往在語(yǔ)序上存在著較大的差異,為了更好地解決翻譯中的調(diào)序問(wèn)題,機(jī)器翻譯的研究人員們提出了基于句法的統(tǒng)計(jì)翻譯模型,從而在模型中引入用于指導(dǎo)調(diào)序的結(jié)構(gòu)化信息。近年來(lái),研究人員將完全句法樹(shù)信息引入翻譯模型,提出了大量的基于語(yǔ)言學(xué)句法分析的翻譯模型[5-7]但是由于基于句法的模型搜索空間十分龐大,翻譯系統(tǒng)的復(fù)雜性高,在模型建立上面臨著更多的挑戰(zhàn)。其中Chiang等人提出基于形式文法的層次短語(yǔ)模型[8],比起以往基于短語(yǔ)的翻譯系統(tǒng)結(jié)果又有所提高。
隨著互聯(lián)網(wǎng)和國(guó)際交流的發(fā)展,跨語(yǔ)言信息檢索的重要性日益增加,也成為近年來(lái)的一個(gè)研究熱點(diǎn)。
在解決跨語(yǔ)言信息檢索的核心問(wèn)題方面,主要有以下幾種方法: (1)基于機(jī)器翻譯系統(tǒng)的方法[9]。該方法主要有僅翻譯用戶(hù)查詢(xún)以檢索目標(biāo)語(yǔ)文檔集和對(duì)目標(biāo)語(yǔ)全文進(jìn)行翻譯兩種方案。由于現(xiàn)有的大多數(shù)機(jī)器翻譯系統(tǒng)的正確率還難以達(dá)到令人滿(mǎn)意的程度,此方法尚未達(dá)到實(shí)用水平。(2)基于中間語(yǔ)言的方法。基本思想是把用不同語(yǔ)言所表示的相同概念的詞語(yǔ)都映射到一個(gè)與語(yǔ)言無(wú)關(guān)的“中間語(yǔ)言”上,然后檢索操作在這個(gè)“中間語(yǔ)言”上進(jìn)行[10]。該方法的不足之處是“一詞多義”現(xiàn)象可能會(huì)更嚴(yán)重。(3)基于雙語(yǔ)語(yǔ)料庫(kù)的方法?;舅枷胧峭ㄟ^(guò)平行語(yǔ)料庫(kù)中不同語(yǔ)種的相同信息的對(duì)應(yīng)關(guān)系,對(duì)用戶(hù)查詢(xún)進(jìn)行翻譯并且過(guò)濾翻譯后產(chǎn)生的非正常翻譯結(jié)果[11]。然而,該方法受到雙語(yǔ)平行語(yǔ)料庫(kù)規(guī)模的限制。(4)基于潛在語(yǔ)義標(biāo)引的方法。潛在語(yǔ)義標(biāo)引是一種基于內(nèi)容概念的檢索技術(shù),文檔和查詢(xún)都由K維的詞語(yǔ)向量表述。文獻(xiàn)[12]把這種方法引入到跨語(yǔ)言信息檢索中,提供了一種不需要翻譯就能對(duì)兩種語(yǔ)言的文本片段進(jìn)行匹配的方法。該方法只要有相應(yīng)的雙語(yǔ)語(yǔ)料作為訓(xùn)練文檔即可,不足之處是計(jì)算量較大。(5)基于雙語(yǔ)詞典的方法。機(jī)器可讀雙語(yǔ)詞典具有簡(jiǎn)單、易用、處理速度快以及易于得到和維護(hù)的特性,這種方法被普遍應(yīng)用于跨語(yǔ)言信息檢索的研究,通過(guò)雙語(yǔ)詞典選擇用戶(hù)查詢(xún)的目標(biāo)語(yǔ)言的譯詞[13]。
研究人員們發(fā)現(xiàn),利用雙語(yǔ)信息,特別是雙語(yǔ)對(duì)齊語(yǔ)料,可以有效地提升單語(yǔ)自然語(yǔ)言處理模型的性能。一些工作利用雙語(yǔ)對(duì)應(yīng)的信息作為約束,在標(biāo)注資源匱乏的語(yǔ)言上進(jìn)行無(wú)監(jiān)督學(xué)習(xí)[14-15]。一些工作希望利用在一種語(yǔ)言上發(fā)展出來(lái)的具有較高性能的自然語(yǔ)言處理模型輔助另一種資源缺乏型語(yǔ)言的自然語(yǔ)言處理任務(wù),這些方法基于雙語(yǔ)對(duì)齊語(yǔ)料進(jìn)行自然語(yǔ)言資源和模型的跨語(yǔ)言傳遞[16-19]。另外一些研究表明,即使在單語(yǔ)已經(jīng)存在充分的訓(xùn)練數(shù)據(jù),利用雙語(yǔ)語(yǔ)料仍然可以進(jìn)一步提高單語(yǔ)自然語(yǔ)言處理模型的性能,并在命名實(shí)體抽取和翻譯、詞法的形態(tài)學(xué)分析以及句法分析等多個(gè)自然語(yǔ)言處理任務(wù)上得到了驗(yàn)證[20-23]。此外,文獻(xiàn)[24]在雙語(yǔ)的信息抽取任務(wù)中,提出了利用Co-Training方法,同時(shí)提高兩種語(yǔ)言信息抽取系統(tǒng)性能的方法。
基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯模型[3,25]是目前使用最廣泛的統(tǒng)計(jì)翻譯模型,它以短語(yǔ)作為基本翻譯單元,從而可以捕捉到一些常見(jiàn)的翻譯現(xiàn)象,如習(xí)慣用語(yǔ)等。但基于短語(yǔ)的翻譯模型沒(méi)有任何結(jié)構(gòu)信息,故而缺乏遠(yuǎn)距離、全局的調(diào)序能力。我們嘗試將句法結(jié)構(gòu)引入基于短語(yǔ)的統(tǒng)計(jì)翻譯模型中,進(jìn)而提高短語(yǔ)翻譯模型的長(zhǎng)距離調(diào)序能力[26-27]。
2.1.1 基于偽句法結(jié)構(gòu)的調(diào)序模型
在短語(yǔ)模型上引入句法結(jié)構(gòu),需要克服句法邊界和短語(yǔ)邊界的不一致性和句法樹(shù)上不同層次的短語(yǔ)具有的交叉性,為此,文獻(xiàn)[26]提出了偽句法結(jié)構(gòu)的概念,并在此基礎(chǔ)上提出了一個(gè)基于句法的短語(yǔ)調(diào)序模型。偽句法結(jié)構(gòu)的表示方法類(lèi)似于短語(yǔ)句法樹(shù),不同的是它引入標(biāo)記X來(lái)表示偽句法結(jié)構(gòu)相對(duì)于完整句法結(jié)構(gòu)缺少的部分。緊接著,文獻(xiàn)[26]在偽句法結(jié)構(gòu)上定義了一種連續(xù)性,并在此基礎(chǔ)上給出了一個(gè)句法樹(shù)分解為多個(gè)偽句法結(jié)構(gòu)的一種分解方式。在定義了偽句法結(jié)構(gòu)和劃分方式之后,就可以像基于短語(yǔ)的統(tǒng)計(jì)翻譯模型那樣對(duì)句法分析樹(shù)進(jìn)行分解。他借用對(duì)數(shù)線性模型[4]來(lái)構(gòu)造翻譯模型,其中特征函數(shù)和文獻(xiàn)[3]的短語(yǔ)統(tǒng)計(jì)翻譯模型采用的特征函數(shù)類(lèi)似,除此之外,他還定義了一種偽句法調(diào)序特征。這種偽句法調(diào)序特征定義為其所包含的各個(gè)節(jié)點(diǎn)的調(diào)序概率之積。進(jìn)一步地說(shuō),它把句法分析樹(shù)中各個(gè)節(jié)點(diǎn)的調(diào)序分成兩種情況: 一種是所有子節(jié)點(diǎn)都重新排序,稱(chēng)為完全調(diào)序;另一種是一部分子節(jié)點(diǎn)重新排序,由于另一部分子節(jié)點(diǎn)順序未定,因此稱(chēng)為部分調(diào)序。相應(yīng)的概率分別稱(chēng)為完全調(diào)序概率和部分調(diào)序概率。當(dāng)一個(gè)節(jié)點(diǎn)的所有子節(jié)點(diǎn)都在偽句法結(jié)構(gòu)中時(shí),就可以推算完全調(diào)序概率;而當(dāng)只有一部分子節(jié)點(diǎn)在偽句法結(jié)構(gòu)中時(shí),由當(dāng)前的偽句法結(jié)構(gòu)就只能推算部分調(diào)序概率。完全調(diào)序概率可以采用相對(duì)頻率直接進(jìn)行估計(jì);而部分調(diào)序概率可以通過(guò)完全調(diào)序概率來(lái)計(jì)算。為了在解碼時(shí)獲得詞對(duì)齊信息來(lái)確定調(diào)序順序,需要在抽取出來(lái)的短語(yǔ)互譯對(duì)中標(biāo)出詞對(duì)齊。對(duì)于抽取出來(lái)的每一個(gè)短語(yǔ)互譯對(duì),采用IBM模型1[28]在源語(yǔ)言到目標(biāo)語(yǔ)言和目標(biāo)語(yǔ)言到源語(yǔ)言?xún)蓚€(gè)方向上進(jìn)行詞對(duì)齊,然后采用上述的diag-and方法[3]得到最終的詞對(duì)齊結(jié)果。翻譯過(guò)程是: 根據(jù)抽取到的短語(yǔ)互譯對(duì)中的源語(yǔ)言短語(yǔ)對(duì)輸入句子進(jìn)行劃分。首先,隨機(jī)選擇一個(gè)偽句法結(jié)構(gòu),給出該偽句法結(jié)構(gòu)對(duì)應(yīng)短語(yǔ)的譯文作為譯文句子中的第一個(gè)短語(yǔ),并計(jì)算相應(yīng)的得分;然后從剩下的偽句法結(jié)構(gòu)中再隨機(jī)選取一個(gè)偽句法結(jié)構(gòu),給出對(duì)應(yīng)的短語(yǔ)譯文作為譯文句子中的后繼短語(yǔ),并計(jì)算該偽句法結(jié)構(gòu)和前一個(gè)偽句法結(jié)構(gòu)合并后的相應(yīng)得分;重復(fù)上述過(guò)程直到整個(gè)句法樹(shù)的偽句法結(jié)構(gòu)都翻譯出來(lái)為止。在偽句法結(jié)構(gòu)內(nèi)部,節(jié)點(diǎn)調(diào)序順序通過(guò)短語(yǔ)互譯對(duì)內(nèi)的詞對(duì)齊來(lái)確定;在偽句法結(jié)構(gòu)之間,節(jié)點(diǎn)的調(diào)序順序通過(guò)短語(yǔ)互譯對(duì)的先后順序以及各短語(yǔ)內(nèi)的詞對(duì)齊來(lái)確定。
2.1.2 融入頭—修飾詞級(jí)別調(diào)序模型
文獻(xiàn)[27]通過(guò)引入源語(yǔ)言端依存句法樹(shù)上詞與詞之間的頭—修飾關(guān)系,提出了一個(gè)面向短語(yǔ)翻譯的詞級(jí)別的調(diào)序模型。源語(yǔ)言端的詞與詞之間的頭—修飾關(guān)系反映了語(yǔ)義上的依賴(lài)關(guān)系,因此,頭詞和修飾詞對(duì)應(yīng)的目標(biāo)語(yǔ)言端的翻譯詞之間的調(diào)序能夠從語(yǔ)義上提高短語(yǔ)翻譯中調(diào)序模型的表達(dá)能力;特別地,頭—修飾關(guān)系可以是長(zhǎng)距離的依賴(lài),因此這個(gè)調(diào)序可以增強(qiáng)短語(yǔ)翻譯調(diào)序模型的長(zhǎng)距離全局調(diào)序能力。目前的翻譯模型都是以短語(yǔ)為最小的翻譯單元(基于顯式句法的翻譯規(guī)則,可以看成具備語(yǔ)言學(xué)表現(xiàn)形式的短語(yǔ)),這些模型中的調(diào)序也通常以短語(yǔ)作為最小的翻譯單元。以詞作為翻譯調(diào)序的模型目前并不多見(jiàn),這主要是由于對(duì)齊情況的復(fù)雜性造成的。在目前基于短語(yǔ)的機(jī)器翻譯系統(tǒng)中,無(wú)指導(dǎo)對(duì)齊算法產(chǎn)生的對(duì)齊質(zhì)量不高;同時(shí),語(yǔ)言之間的對(duì)應(yīng)關(guān)系有時(shí)候是很復(fù)雜的。這些,無(wú)疑是詞級(jí)別模型所面對(duì)的主要問(wèn)題。針對(duì)這個(gè)問(wèn)題,本文首先提出了一個(gè)對(duì)齊前處理方法,該方法主要在本文中起到兩個(gè)作用: 簡(jiǎn)化模型,使本文的調(diào)序模型更為簡(jiǎn)單;迎合解碼算法的需求。簡(jiǎn)化后的詞對(duì)齊滿(mǎn)足: 對(duì)源語(yǔ)言端的每個(gè)詞,在目標(biāo)語(yǔ)言端恰有一個(gè)詞與其對(duì)齊?;诮?jīng)過(guò)簡(jiǎn)化的對(duì)齊結(jié)構(gòu),文中定義了翻譯過(guò)程中的翻譯序進(jìn)而定義了翻譯過(guò)程中的兩種調(diào)序模型。這兩種調(diào)序模型分別從不同角度描述了翻譯過(guò)程中的調(diào)序現(xiàn)象: 基于翻譯序共現(xiàn)的定義和基于相對(duì)翻譯序的定義。這兩種調(diào)序模型需要為每一個(gè)調(diào)序詞指定一個(gè)參照詞,文中這個(gè)調(diào)序參照詞定義為待調(diào)序詞在依存結(jié)構(gòu)中的頭詞。另外,文中還將這兩種調(diào)序模型進(jìn)一步拓展到了高維度的情形。這兩種調(diào)序模型共同構(gòu)成了基于頭—修飾關(guān)系的詞級(jí)別的調(diào)序模型。文中采用極大似然的方法來(lái)估計(jì)調(diào)序模型,其好處在于參數(shù)估計(jì)高效、可擴(kuò)展性強(qiáng),在參數(shù)估計(jì)過(guò)程中,為了降低噪聲對(duì)調(diào)序模型的負(fù)面影響,文中在極大似然估計(jì)中融入 W-B平滑思想[29]。實(shí)驗(yàn)表明這種基于頭—修飾詞的調(diào)序模型可以有效地提高短語(yǔ)翻譯模型的性能。
2.1節(jié)提出的翻譯模型對(duì)語(yǔ)言學(xué)現(xiàn)象進(jìn)行了建模,但并沒(méi)有改變短語(yǔ)翻譯模型的框架。句法模型[5,30]是目前統(tǒng)計(jì)機(jī)器翻譯中的一個(gè)研究熱點(diǎn),我們也開(kāi)展了句法模型的研究。大體上講,目前的句法模型可以分為非語(yǔ)言學(xué)(形式文法)的句法模型[8,31]和基于語(yǔ)言學(xué)句法結(jié)構(gòu)的模型[5,30]。第一類(lèi)模型基于形式文法,文法規(guī)則中的非終結(jié)符沒(méi)有語(yǔ)言學(xué)上的意義,因此這類(lèi)模型沒(méi)有利用語(yǔ)言學(xué)知識(shí),也同樣存在一些局限性。第二類(lèi)模型基于語(yǔ)言學(xué)的句法結(jié)構(gòu)比如短語(yǔ)句法樹(shù)或者依存句法樹(shù)來(lái)建立翻譯模型。受句法限制的影響,對(duì)于結(jié)構(gòu)差異較大的語(yǔ)言之間的翻譯,這類(lèi)模型的表達(dá)能力不夠。目前對(duì)于純句法的翻譯模型研究尚不十分成熟,現(xiàn)有的大多數(shù)句法模型僅僅考慮一端句法樹(shù)結(jié)構(gòu)。
2.2.1 基于同步子圖生成文法的句法結(jié)構(gòu)翻譯模型
文獻(xiàn)[32]提出的多文本文法(Multi-Text Grammar, MTG),是以一系列形式化的定義刻畫(huà)了語(yǔ)言翻譯的過(guò)程。這種文法以多語(yǔ)言單詞組成終結(jié)符向量,以互相對(duì)齊的句法標(biāo)注組成非終結(jié)符矩陣,并用向量記錄結(jié)構(gòu)對(duì)齊信息。但是由于不同語(yǔ)言存在的異構(gòu)問(wèn)題,對(duì)于一些語(yǔ)言現(xiàn)象,MTG文法不能生成相應(yīng)的推導(dǎo)過(guò)程[32]。實(shí)際上,正如前所述,這也是所有基于同步文法的翻譯模型面臨的問(wèn)題。為了彌補(bǔ)廣義MTG文法難以表達(dá)的語(yǔ)言間異構(gòu)現(xiàn)象,文獻(xiàn)[33]提出了一種新的MTG文法模型,其文法的操作符號(hào)是圖的集合?;谠撐姆ǖ姆g模型——基于同步子圖生成文法的句法結(jié)構(gòu)翻譯模型,可以充分利用短語(yǔ)語(yǔ)塊內(nèi)的詞對(duì)齊信息,它在一定程度上可以解決翻譯現(xiàn)象中的結(jié)構(gòu)異構(gòu)問(wèn)題。該翻譯模型的翻譯規(guī)則是雙語(yǔ)句法樹(shù)中的子圖對(duì),子圖對(duì)是在對(duì)齊的短語(yǔ)對(duì)基礎(chǔ)上,從相應(yīng)的雙語(yǔ)句法樹(shù)中抽取而來(lái)的。在確定了短語(yǔ)對(duì)后,可以根據(jù)單語(yǔ)的短語(yǔ)邊界信息和對(duì)應(yīng)的句法分析樹(shù),抽取出短語(yǔ)在句法樹(shù)中對(duì)應(yīng)的子圖。抽取子圖的過(guò)程中需要解決兩個(gè)問(wèn)題,即確定子圖的根節(jié)點(diǎn)與重標(biāo)注集合。文獻(xiàn)[33]也采用對(duì)數(shù)線性模型來(lái)構(gòu)建翻譯模型,其中使用了如下特征: 雙語(yǔ)翻譯概率;雙語(yǔ)詞匯化特征;語(yǔ)言模型特征;懲罰特征,包含詞、短語(yǔ)和規(guī)則的粘貼懲罰特征。解碼方式是CKY方式的柱搜索過(guò)程,解碼過(guò)程可以看作是利用子圖MTG 規(guī)則對(duì)源語(yǔ)言進(jìn)行分析。
2.2.2 基于同步樹(shù)替換文法的翻譯模型
由于基于SCFG文法的模型只允許處于同層次中的兄弟節(jié)點(diǎn)之間進(jìn)行調(diào)序,這也降低了模型的調(diào)序能力,因而此文法在形式上就要求兩種互譯語(yǔ)言間存在結(jié)構(gòu)性的同構(gòu)關(guān)系。而在一般情況下,語(yǔ)言間特別是不同語(yǔ)系的語(yǔ)言間在結(jié)構(gòu)上存在大量的非同構(gòu)對(duì)應(yīng)現(xiàn)象。因此,基于SCFG文法的模型無(wú)法模擬復(fù)雜的結(jié)構(gòu)對(duì)應(yīng)問(wèn)題,故而不能充分的對(duì)語(yǔ)言翻譯現(xiàn)象進(jìn)行建模[34]。基于上述問(wèn)題,文獻(xiàn)[35]提出了一種基于同步樹(shù)替換文法(STSG)的翻譯模型。
基于STSG的翻譯模型可以有效地處理非兄弟節(jié)點(diǎn)之間的調(diào)序,進(jìn)而可以對(duì)翻譯中非同構(gòu)現(xiàn)象進(jìn)行建模。同步樹(shù)替換文法中產(chǎn)生式規(guī)則對(duì)應(yīng)的是一個(gè)源語(yǔ)言句法樹(shù)片段到目標(biāo)語(yǔ)言句法樹(shù)片段的翻譯規(guī)則,兩端的樹(shù)片段(嚴(yán)格地說(shuō)是元樹(shù))包含多層,所以可以容易地對(duì)處在不同層次中的節(jié)點(diǎn)之間進(jìn)行重排序進(jìn)行建模。翻譯規(guī)則可以從雙語(yǔ)對(duì)齊句對(duì)及其完全句法分析樹(shù)開(kāi)始自動(dòng)獲得。翻譯規(guī)則需要滿(mǎn)足兩方面的約束: 詞對(duì)齊約束和句法限制。詞對(duì)齊的約束和短語(yǔ)翻譯模型[3]類(lèi)似,文獻(xiàn)[35]中提出的句法限制保證了規(guī)則的兩端均為句法樹(shù)中的一棵元樹(shù)。這樣做的好處是可以有效的限制翻譯規(guī)則的數(shù)量,進(jìn)而提高翻譯解碼的效率。規(guī)則抽取分為初始規(guī)則的抽取和規(guī)則的泛化兩個(gè)階段。文中借用對(duì)數(shù)線性模型的框架來(lái)構(gòu)造基于STSG文法的翻譯模型。文中為樹(shù)到樹(shù)的翻譯規(guī)則設(shè)計(jì)了如下的特征: 兩個(gè)方向的元樹(shù)翻譯概率;兩個(gè)方向的詞匯化翻譯概率;短語(yǔ)懲罰;詞懲罰;語(yǔ)言模型。解碼過(guò)程是一種自底向上、逐步進(jìn)行節(jié)點(diǎn)擴(kuò)張的柱搜索過(guò)程。在這個(gè)過(guò)程中,對(duì)每個(gè)后續(xù)編號(hào)為i的節(jié)點(diǎn),均存在一個(gè)翻譯選項(xiàng)棧TransOption(i)和一個(gè)假設(shè)棧Hypo(i)與之對(duì)應(yīng)。翻譯選項(xiàng)棧中存放的是翻譯節(jié)點(diǎn)i對(duì)應(yīng)的子樹(shù)所有可用的翻譯規(guī)則,假設(shè)棧中存放的是以節(jié)點(diǎn)i為根的子樹(shù)的翻譯候選。為了控制翻譯過(guò)程的復(fù)雜度,設(shè)置了一個(gè)閾值來(lái)對(duì)假設(shè)棧中包含的翻譯選項(xiàng)數(shù)量進(jìn)行控制。
2.2.3 基于同步樹(shù)序列替換文法的翻譯模型
利用句法結(jié)構(gòu)對(duì)語(yǔ)言翻譯進(jìn)行建模會(huì)遭遇句法限制的問(wèn)題。句法限制是指翻譯規(guī)則的源語(yǔ)言部分和目標(biāo)語(yǔ)言部分都必須為句法樹(shù)中的一個(gè)元樹(shù),正如前面提到的基于STSG文法中的翻譯規(guī)則的限制。元樹(shù)是一棵子樹(shù),但其葉子節(jié)點(diǎn)可以說(shuō)是非終結(jié)符。在現(xiàn)有的一般句法模型中,往往因嚴(yán)格的句法限制導(dǎo)致大量不滿(mǎn)足句法限制的翻譯等價(jià)對(duì)不能得到利用。從理論上講,這些翻譯等價(jià)對(duì)可以增加模型的表達(dá)能力。那么對(duì)現(xiàn)有句法模型進(jìn)行擴(kuò)展和泛化,使之可以利用不滿(mǎn)足句法限制的翻譯等價(jià)對(duì),這是提高句法翻譯模型的一個(gè)重要的研究課題。
文獻(xiàn)[35]提出了基于同步樹(shù)序列替換文法(STSSG)的翻譯模型,這是上面提到的同步樹(shù)替換文法的擴(kuò)展和泛化。與基于短語(yǔ)模型和基于詞模型之間的關(guān)系類(lèi)似,這個(gè)模型中把翻譯單元的元樹(shù)泛化為元樹(shù)序列。這個(gè)模型具有兩個(gè)優(yōu)勢(shì): 首先,帶有句法信息的、不滿(mǎn)足句法限制的翻譯等價(jià)對(duì)也可以被模型利用;其次,它可以繼承并增強(qiáng)一般句法模型的全局調(diào)序能力。這個(gè)的樹(shù)序列為一系列元樹(shù)的集合,但這些元樹(shù)滿(mǎn)足一些限制,例如,它們的跨度互相連續(xù)且互不相交。從句法樹(shù)中抽取一個(gè)跨度的樹(shù)序列的獲取是一個(gè)重要問(wèn)題,需要注意的是一個(gè)跨度對(duì)應(yīng)的樹(shù)序列不是唯一的。樹(shù)序列的抽取過(guò)程是一個(gè)動(dòng)態(tài)規(guī)劃過(guò)程,通過(guò)不斷的把子跨度劃分對(duì)應(yīng)的樹(shù)序列集合進(jìn)行合并來(lái)獲得新的樹(shù)序列集合。樹(shù)序列到樹(shù)序列的翻譯規(guī)則抽取建立在樹(shù)序列抽取之上。與STSG的翻譯規(guī)則抽取相似,STSSG翻譯規(guī)則同樣需要滿(mǎn)足詞對(duì)齊約束和句法限制,STSSG翻譯規(guī)則抽取分為初始規(guī)則的抽取和規(guī)則的泛化兩個(gè)階段;不同的是, STSSG翻譯規(guī)則抽取需要獲得的是樹(shù)序列而不是元樹(shù)。由于每個(gè)跨度對(duì)應(yīng)多個(gè)樹(shù)序列,這樣導(dǎo)致翻譯規(guī)則的數(shù)量爆炸式的增長(zhǎng)(這個(gè)增長(zhǎng)速度遠(yuǎn)大于STSG翻譯規(guī)則的增長(zhǎng)速度),同時(shí)造成規(guī)則具有嚴(yán)重的冗余性,也引起在翻譯過(guò)程中效率低下。一個(gè)簡(jiǎn)單的解決方法是在整個(gè)抽取結(jié)束之后對(duì)規(guī)則去重,但這個(gè)方法在實(shí)際的抽取過(guò)程中并不可行。因?yàn)樵趯?shí)際的算法實(shí)現(xiàn)中,要求在限定的時(shí)間和空間條件下,對(duì)長(zhǎng)句子復(fù)雜句法結(jié)構(gòu)進(jìn)行有效的規(guī)則抽取,因此會(huì)附加一些限制參數(shù)來(lái)進(jìn)行控制。通過(guò)對(duì)冗余規(guī)則的類(lèi)型和產(chǎn)生原因進(jìn)行分析,提出了一個(gè)在在抽取過(guò)程中去掉那些冗余規(guī)則的有效方法,在此不再贅述?;赟TSSG的翻譯模型也定義在對(duì)數(shù)線性模型的基礎(chǔ)之上,它選用的特征和STSG相同。STSSG翻譯的解碼過(guò)程類(lèi)似于CKY句法分析過(guò)程,從實(shí)現(xiàn)上講,它是一個(gè)基于柱搜索的棧式解碼過(guò)程。需要指出的是,解碼中棧的結(jié)構(gòu)安排方式是每個(gè)跨度對(duì)應(yīng)于一個(gè)棧。在搜索過(guò)程中,所有對(duì)應(yīng)于同一個(gè)源語(yǔ)言端跨度的中間翻譯結(jié)果被存放在同一個(gè)棧中。包含一個(gè)詞的跨度最先被處理,然后依次處理更大的跨度,當(dāng)處理一個(gè)大的跨度時(shí),其子跨度的所有已獲得的譯文可以被利用。當(dāng)翻譯完最大的跨度時(shí),算法終止。
2.2.4 基于合成同步文法的翻譯模型
不同的文法決定了不同模型的表達(dá)能力、產(chǎn)生能力以及翻譯系統(tǒng)的計(jì)算效率。雖然每種同步文法都把翻譯過(guò)程映射成為一個(gè)文法推導(dǎo)來(lái)進(jìn)行,但是基于不同文法的翻譯模型有不同的特性。例如,基于同步上下文無(wú)關(guān)文法的層次短語(yǔ)翻譯模型具有更強(qiáng)的泛化能力;而基于語(yǔ)言學(xué)上的同步樹(shù)序列替換文法的模型處理歧義的能力更強(qiáng),即具有更強(qiáng)的表達(dá)能力。那么能否有一種機(jī)制能將這兩種不同文法的優(yōu)點(diǎn)結(jié)合在一起?如果將基于不同同步文法的翻譯模型看成獨(dú)立的模塊,一個(gè)常見(jiàn)的思路就是系統(tǒng)融合。系統(tǒng)融合策略基于單個(gè)系統(tǒng)的輸出進(jìn)行,單個(gè)系統(tǒng)之間的解碼過(guò)程是獨(dú)立的,在翻譯過(guò)程中沒(méi)有考慮彼此之間的相互影響。這種系統(tǒng)融合的策略也稱(chēng)為“后解碼”方式。為了克服“后解碼”方式的缺點(diǎn),文獻(xiàn)[35]采用一種“解碼中”的系統(tǒng)融合方法,并提出了一種基于合成同步文法(SSG)的翻譯模型。和以往的基于同步文法的翻譯模型一樣,在這種模型中,翻譯過(guò)程仍然被看成是文法的推導(dǎo)過(guò)程。但是,最大的不同在于以往的單獨(dú)文法的推導(dǎo)只涉及本文法規(guī)則的應(yīng)用。合成同步文法的文法推導(dǎo)還可能是由來(lái)自不同文法的規(guī)則的應(yīng)用組成,這種文法推導(dǎo)被稱(chēng)為異質(zhì)文法推導(dǎo)。異質(zhì)文法推導(dǎo)的潛在優(yōu)勢(shì)就是能夠擴(kuò)大譯文的搜索空間,以便產(chǎn)生新的譯文候選。文獻(xiàn)[35]提出的基于SSG的翻譯模型融合了上面提到的兩個(gè)模型的文法規(guī)則——層次短語(yǔ)和STSSG的規(guī)則。因此,這種文法規(guī)則的獲取就是上兩種規(guī)則的抽取,然后通過(guò)一種合適的數(shù)據(jù)結(jié)構(gòu)將它們?nèi)诤系揭黄?。翻譯模型同樣是基于對(duì)數(shù)線性模型,解碼方式同STSSG相同。
系統(tǒng)融合技術(shù)是提高機(jī)器翻譯性能的一個(gè)重要的方法。除了上述那些在單個(gè)翻譯模型上提出的技術(shù)外,在系統(tǒng)融合方面,本實(shí)驗(yàn)室也開(kāi)展了若干研究。
文獻(xiàn)[36]提出了增量式的基于詞一級(jí)系統(tǒng)融合中混淆網(wǎng)絡(luò)。由于在“翻譯錯(cuò)誤率”(TER)增量對(duì)齊中,假設(shè)翻譯的順序影響了增量對(duì)齊的結(jié)果,而增量式的混淆網(wǎng)絡(luò)有效的改進(jìn)了對(duì)齊質(zhì)量。通過(guò)引入取詞根和基于WordNet的詞義消歧方法來(lái)進(jìn)行候選翻譯和假設(shè)翻譯中詞語(yǔ)的對(duì)齊,增量式的混淆網(wǎng)絡(luò)可以解決TER算法只匹配同一詞的缺點(diǎn)。在系統(tǒng)融合的訓(xùn)練過(guò)程中,混淆網(wǎng)絡(luò)的骨架翻譯的選擇決定了假設(shè)翻譯的語(yǔ)序,傳統(tǒng)的選擇方法是選擇具有MBR特性的候選翻譯作為對(duì)齊的骨架,這就造成了對(duì)于混淆網(wǎng)絡(luò)只考慮到一種語(yǔ)序形式。由于融合的翻譯結(jié)果是來(lái)自于多種不同文法或是方法,每種翻譯結(jié)果有著不同的語(yǔ)序,為了使得每種翻譯結(jié)果的語(yǔ)序都被考慮到,文獻(xiàn)[36]構(gòu)建了一個(gè)超級(jí)混淆網(wǎng)絡(luò)。通過(guò)在超級(jí)混淆網(wǎng)絡(luò)中加入了基于混淆網(wǎng)絡(luò)的特征,并且對(duì)多個(gè)混淆網(wǎng)絡(luò)生成的候選翻譯進(jìn)行一致性重打分機(jī)制,他證實(shí)了超級(jí)混淆網(wǎng)絡(luò)的有效性。他還研究了利用超圖進(jìn)行系統(tǒng)融合的訓(xùn)練和解碼。為了方便計(jì)算訓(xùn)練階段的量值,在系統(tǒng)融合的訓(xùn)練過(guò)程引入了二階半環(huán)框架來(lái)計(jì)算梯度。在解碼階段為了使得原有Cube-Pruning剪枝的框架被保留下來(lái),使用Cube Growing并采用了三個(gè)階段的訓(xùn)練解碼。其中,第一個(gè)階段是使用Cube Growing進(jìn)行普通解碼;第二個(gè)階段使用N-gram特征來(lái)解決偽歧義和一致性解碼的問(wèn)題;第三個(gè)階段對(duì)于兩個(gè)系統(tǒng)融合模型進(jìn)行融合。由于更大的搜索空間和更好地整合了語(yǔ)言模型,三個(gè)階段都取得了一定的效果,并得到了比較好的結(jié)果。另外,正如前所述,由于每種文法表現(xiàn)能力不同,為了使得每種文法能夠取長(zhǎng)補(bǔ)短,同文獻(xiàn)[35]的方法類(lèi)似,文獻(xiàn)[36]對(duì)層次短語(yǔ)文法和括號(hào)轉(zhuǎn)錄文法在進(jìn)行了“解碼中”融合。不同于系統(tǒng)融合方法,“解碼中”的融合方法并不是對(duì)于生成翻譯結(jié)果進(jìn)行重新訓(xùn)練和解碼,因而減少了整個(gè)過(guò)程的時(shí)間,而且,“解碼中”的融合考慮到了解碼過(guò)程生成的侯選翻譯的互相影響,因此也獲得了比單個(gè)系統(tǒng)更好的翻譯結(jié)果。
(1)
如果可以窮舉出每個(gè)源語(yǔ)言句子fi所有可能的翻譯結(jié)果,則利用公式(2)可以直接計(jì)算出全局最優(yōu)的權(quán)重λ。但由于統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的翻譯規(guī)則規(guī)模龐大,大多數(shù)系統(tǒng)連公式(1)的全局最優(yōu)結(jié)果也不能保證得到。因此學(xué)者們嘗試在每個(gè)句子fi的K-best翻譯結(jié)果上進(jìn)行特征值權(quán)重的調(diào)節(jié)。設(shè)Ci={ei1,ei2,…,eiK}是源語(yǔ)言句子fi的K-best翻譯結(jié)果列表,在這個(gè)列表上進(jìn)行最小錯(cuò)誤率訓(xùn)練的過(guò)程如式(3)所示。
forced decoding的基本思想是,在解碼器中加入一維與參考譯文相關(guān)的特征(式(4))。
其中pn為當(dāng)前翻譯假設(shè)n元的精確率,rn為當(dāng)前翻譯假設(shè)的n元召回率。在翻譯假設(shè)還未覆蓋源語(yǔ)言的全部單詞前,翻譯結(jié)果也只是部分結(jié)果,n元的精確率可以按照常規(guī)的方法計(jì)算,但n元召回率的分母無(wú)法確定,因此這里計(jì)算rn時(shí)所用的分母為當(dāng)前覆蓋的源語(yǔ)言單詞個(gè)數(shù)。hF特征的權(quán)重默認(rèn)為1,在MERT訓(xùn)練中始終不變。因此加入了hF特征的解碼器可以產(chǎn)生更接近參考答案的翻譯結(jié)果,可以彌補(bǔ)傳統(tǒng)MERT算法的不足。
以上介紹了我們?cè)诮y(tǒng)計(jì)翻譯模型方面的探索,下面介紹一下機(jī)器翻譯技術(shù)的實(shí)際運(yùn)用。
在中國(guó)經(jīng)濟(jì)地位日益提升的今天,我國(guó)各類(lèi)企業(yè)信息的對(duì)外發(fā)布成為越來(lái)越迫切的需求。作為國(guó)家權(quán)威的法人信息管理機(jī)構(gòu),全國(guó)組織機(jī)構(gòu)代碼管理中心負(fù)責(zé)收集、存儲(chǔ)、管理國(guó)內(nèi)近1 000萬(wàn)各類(lèi)企業(yè)相關(guān)信息。這些信息的主要字段包括企業(yè)名稱(chēng)、地址等,如果實(shí)現(xiàn)中英自動(dòng)翻譯對(duì)外發(fā)布,將對(duì)未來(lái)國(guó)際商貿(mào)起到積極推動(dòng)作用。因此,這也是機(jī)器翻譯的一個(gè)“秒殺”級(jí)應(yīng)用(killer application),這其中包含了不少技術(shù)挑戰(zhàn),例如,復(fù)雜的包含多個(gè)子結(jié)構(gòu)的名稱(chēng)和地址結(jié)構(gòu)分析,名稱(chēng)中大量專(zhuān)業(yè)術(shù)語(yǔ)識(shí)別以及名稱(chēng)和地址相互嵌套的分析等。
機(jī)構(gòu)名稱(chēng)和地址的翻譯包括命名實(shí)體翻譯(named entity translation),其中命名實(shí)體翻譯的主要方法有2種[37]: 音譯法(transliteration)、音譯法與意譯法的組合。顯然,機(jī)構(gòu)名稱(chēng)和地址的翻譯要采用后一種方法。不同于流行的基于統(tǒng)計(jì)的識(shí)別與翻譯方法,我們采取了基于規(guī)則和詞典的翻譯方法。這一方面是因?yàn)槲覀內(nèi)狈y(tǒng)計(jì)翻譯方法所必需的雙語(yǔ)資源;另一方面也是翻譯高精度的要求。我們的方法面臨的主要問(wèn)題是: 如何在大規(guī)模的開(kāi)放翻譯時(shí)保證術(shù)語(yǔ)和子結(jié)構(gòu)識(shí)別的正確率?也就是如何保證大規(guī)模翻譯時(shí)所需要的知識(shí)(規(guī)則)的覆蓋率。我們有針對(duì)性地提出了解決方案—翻譯錯(cuò)誤的主動(dòng)學(xué)習(xí)和翻譯知識(shí)庫(kù)擴(kuò)展的逐步求精策略。其主要步驟是: (1)翻譯知識(shí)庫(kù)初始構(gòu)造。主要包括企業(yè)名稱(chēng)的分解、地址的分解,分解后各部分的譯文知識(shí)構(gòu)建。如行政區(qū)劃的英譯、常用單位詞(如街street、公司company)的英譯等;(2)翻譯錯(cuò)誤的主動(dòng)學(xué)習(xí)。根據(jù)中文分詞后找不到對(duì)應(yīng)譯文等情況,依據(jù)一定頻率不斷輸出無(wú)譯文(系統(tǒng)開(kāi)發(fā)初始階段)和譯文錯(cuò)誤(系統(tǒng)開(kāi)發(fā)后續(xù)階段)的數(shù)據(jù)對(duì),通過(guò)人工擴(kuò)充翻譯知識(shí)庫(kù),使得翻譯結(jié)果越來(lái)越好;(3)翻譯知識(shí)庫(kù)擴(kuò)展逐步求精。由于翻譯系統(tǒng)構(gòu)造之初知識(shí)庫(kù)規(guī)模小,有大量翻譯錯(cuò)誤,隨著實(shí)驗(yàn)不斷進(jìn)行和手工翻譯知識(shí)的不斷添加,譯文中的常見(jiàn)錯(cuò)誤逐步被消除。隨之而來(lái)是較大規(guī)模的整體測(cè)試和翻譯知識(shí)庫(kù)擴(kuò)充,此時(shí)我們根據(jù)可能出現(xiàn)錯(cuò)誤的候選項(xiàng)出現(xiàn)次數(shù)設(shè)定閾值選擇出待修正的譯文集合,通過(guò)幾次循環(huán)來(lái)改善譯文輸出質(zhì)量。我們采用的方案可以用圖1表示。
圖1 翻譯系統(tǒng)主動(dòng)學(xué)習(xí)和逐步求精以提高翻譯質(zhì)量的過(guò)程示意
我們開(kāi)發(fā)的大規(guī)模中文機(jī)構(gòu)名稱(chēng)和地址的自動(dòng)英譯系統(tǒng)在1 000多萬(wàn)條真實(shí)數(shù)據(jù)上進(jìn)行了翻譯實(shí)驗(yàn),并對(duì)翻譯結(jié)果進(jìn)行抽樣和人工評(píng)價(jià),總規(guī)模超過(guò)14萬(wàn)條。人工評(píng)價(jià)采用百分制,其中沒(méi)有錯(cuò)誤(可接受)為100分,包含1個(gè)錯(cuò)誤為80分,包含2個(gè)錯(cuò)誤為60分,其他情況一律為20分。其測(cè)試的平均結(jié)果如表1所示。
由此可見(jiàn),我們?cè)O(shè)計(jì)實(shí)現(xiàn)的大規(guī)模中文機(jī)構(gòu)名稱(chēng)和地址英譯系統(tǒng)能夠?qū)θ珖?guó)組織機(jī)構(gòu)法人信息數(shù)據(jù)庫(kù)中相關(guān)字段進(jìn)行高精度的翻譯,基本上達(dá)到了實(shí)用。
表1 翻譯系統(tǒng)測(cè)試結(jié)果
機(jī)器翻譯自動(dòng)評(píng)價(jià)旨在自動(dòng)測(cè)定機(jī)器翻譯系統(tǒng)輸出譯文的質(zhì)量,理想狀態(tài)下這種自動(dòng)判定結(jié)果應(yīng)與專(zhuān)家的結(jié)果完全一致。這一技術(shù)可直接用于翻譯模型的優(yōu)化,而對(duì)其的研發(fā)過(guò)程涉及翻譯標(biāo)準(zhǔn)、翻譯認(rèn)知等諸多懸而未決的理論難題。因而隨著機(jī)器翻譯研究的深入,機(jī)器翻譯自動(dòng)評(píng)價(jià)本身也成為一個(gè)令人關(guān)注的研究。
在這一領(lǐng)域,本研究小組首先分析了人類(lèi)評(píng)價(jià)翻譯質(zhì)量時(shí)所使用的詞匯、句法、語(yǔ)義、篇章等方面的譯文特征,發(fā)現(xiàn)人工翻譯評(píng)價(jià)并不完全依賴(lài)于現(xiàn)有可顯示說(shuō)明的各種語(yǔ)言學(xué)特征,甚至某些特定翻譯錯(cuò)誤的出現(xiàn)會(huì)標(biāo)志著翻譯評(píng)分的提高[38]。同時(shí),人工譯文和機(jī)器譯文的評(píng)價(jià)本身并沒(méi)有本質(zhì)區(qū)別,現(xiàn)有自動(dòng)評(píng)價(jià)模型在兩種數(shù)據(jù)上的性能基本相當(dāng)[39]。
在上述分析的基礎(chǔ)上,課題實(shí)現(xiàn)了一種基于關(guān)鍵語(yǔ)言學(xué)特征的翻譯自動(dòng)評(píng)價(jià)方法,采用SVM模型融合了6種關(guān)鍵語(yǔ)言學(xué)特征和各種現(xiàn)有基于字符串相似度的機(jī)器翻譯自動(dòng)評(píng)價(jià)方法,構(gòu)造了高效的翻譯自動(dòng)評(píng)價(jià)模型,其性能在NIST提供的數(shù)據(jù)上能優(yōu)于國(guó)際上的多語(yǔ)言學(xué)特征方法[40]。同時(shí),針對(duì)機(jī)器翻譯評(píng)價(jià)中的多語(yǔ)言需求,提出了一種多粒度融合的語(yǔ)言獨(dú)立的機(jī)器翻譯自動(dòng)評(píng)價(jià)模型,采用字母(字)、詞兩種粒度計(jì)算多種主流基于字符串相似度的機(jī)器翻譯評(píng)價(jià)指標(biāo),進(jìn)而采用SVM排序模型進(jìn)行有效融合[41]。上述研究成果在系列化的國(guó)際公開(kāi)技術(shù)評(píng)測(cè)中取得了優(yōu)異的性能。課題小組分析認(rèn)為,引入語(yǔ)言學(xué)特征的目的不僅在于提高現(xiàn)有機(jī)器翻譯自動(dòng)評(píng)價(jià)性能,而更應(yīng)充分發(fā)揮語(yǔ)言學(xué)知識(shí)的解釋作用,為翻譯結(jié)果的改進(jìn)提供語(yǔ)言理性的指導(dǎo)。為此,設(shè)計(jì)并提出了一種基于雙語(yǔ)信息的翻譯自動(dòng)診斷評(píng)價(jià)方法[42],通過(guò)分析翻譯錯(cuò)誤類(lèi)型和成因,提供了有效的翻譯模型改進(jìn)信息,是對(duì)現(xiàn)有黑箱翻譯自動(dòng)評(píng)價(jià)技術(shù)的一種突破性嘗試。目前研究小組正致力于將上述技術(shù)集成構(gòu)建翻譯自動(dòng)評(píng)價(jià)平臺(tái),將提供網(wǎng)上服務(wù),供機(jī)器翻譯研究和翻譯學(xué)習(xí)者試用。
哈爾濱工業(yè)大學(xué)于2001年開(kāi)展跨語(yǔ)言信息檢索方面的研究。在國(guó)家自然科學(xué)基金及國(guó)家863計(jì)劃的連續(xù)支持下,關(guān)鍵技術(shù)方面,以“用戶(hù)查詢(xún)的譯詞選擇與信息檢索一體化建模方法”為主線,以“語(yǔ)言本體知識(shí)和統(tǒng)計(jì)模型相結(jié)合”為主要研究方法,在領(lǐng)域本體自動(dòng)構(gòu)建技術(shù)方面進(jìn)行了深入探索,在此基礎(chǔ)上構(gòu)造了一部中英文雙語(yǔ)等值本體知識(shí)詞典,提出一體化的跨語(yǔ)言信息檢索模型[43]、研究了基于中英文雙語(yǔ)等值本體知識(shí)詞典的逐級(jí)過(guò)濾的多級(jí)用戶(hù)查詢(xún)的譯詞選擇方法[44]、探索了利用上下文特征的層次隱馬爾科夫模型與基于TBL的后處理技術(shù)相結(jié)合的名實(shí)體識(shí)別方法、研究了利用CRF模型與基于Web信息反饋技術(shù)的未登錄詞識(shí)別與翻譯方法、探索了基于文摘的檢索模型和基于統(tǒng)計(jì)機(jī)器翻譯的查詢(xún)擴(kuò)展方法、實(shí)現(xiàn)了基于k-means方法并結(jié)合雙語(yǔ)等值本體知識(shí)詞典進(jìn)行語(yǔ)義級(jí)相似性計(jì)算,驗(yàn)證了對(duì)檢索結(jié)果進(jìn)行自動(dòng)聚類(lèi)的有效性。同時(shí),本研究主要針對(duì)本體自動(dòng)構(gòu)建中的一些關(guān)鍵技術(shù),從兩個(gè)不同的角度進(jìn)行了領(lǐng)域本體自動(dòng)構(gòu)建的研究,一方面是面向半結(jié)構(gòu)化文本的領(lǐng)域本體構(gòu)建模式;另一方面是基于OWL的領(lǐng)域本體構(gòu)建模式,并將其應(yīng)用于信息檢索的擴(kuò)展查詢(xún)進(jìn)行了驗(yàn)證。
我們使用了NTCIR Work Shop 4,5 中的CLIR評(píng)測(cè)語(yǔ)料測(cè)試本課題的實(shí)際性能,其中文檔集包括Korea Times (KT) 和 MainChiDaily (MCD),NTCIR4中文檔集是1998~1999年份的, NTCIR5中文檔集是2000~2001年份的。課題組依據(jù)會(huì)議主辦方發(fā)布的答案和測(cè)試工具自行測(cè)試,結(jié)果顯示,在兩個(gè)測(cè)試集上,Top1000的召回率在95%以上;Top 10的平均準(zhǔn)確率在95%以上;Top 50的平均準(zhǔn)確率達(dá)到85%以上;Top1000的平均準(zhǔn)確率達(dá)到40%以上,與參加評(píng)測(cè)的成績(jī)相當(dāng),其中,在NTCIR5的DESC評(píng)測(cè)任務(wù)方面,Top1000的平均準(zhǔn)確率為42.04%,超過(guò)了當(dāng)年參加評(píng)測(cè)的最好成績(jī)。
我們處在地球村和信息爆炸的時(shí)代,以機(jī)器翻譯為核心的多語(yǔ)言信息處理具有廣闊的應(yīng)用前景和巨大的經(jīng)濟(jì)價(jià)值,因此為工業(yè)界和研究者普遍重視。本文介紹了哈爾濱工業(yè)大學(xué)教育部—微軟語(yǔ)言語(yǔ)音重點(diǎn)實(shí)驗(yàn)室近年來(lái)在機(jī)器翻譯及其應(yīng)用、機(jī)器翻譯自動(dòng)評(píng)價(jià)、跨語(yǔ)言信息檢索等方面的研究成果,希望就教于國(guó)內(nèi)同行,并為中文信息學(xué)會(huì)成立30周年獻(xiàn)禮!我們期待著與國(guó)內(nèi)同行共同努力,在未來(lái)為我國(guó)中文信息處理事業(yè)做出自己應(yīng)有貢獻(xiàn)。
致謝本文寫(xiě)作過(guò)程中得到了哈爾濱工業(yè)大學(xué)機(jī)器翻譯與智能實(shí)驗(yàn)室楊沐昀副教授、鄭德權(quán)副教授、梁華參、劉樂(lè)茂、于墨、劉宇鵬、劉淋等多位師生的大力幫助,包括查找資料和準(zhǔn)備相關(guān)初稿,在此一并致謝!
[1] P. Brown, S. D. Pietra, V. D. Pietra. The Mathematics of Machine Translation: Parameter Estimation[J]. Computational Linguistics, 1993, 19(2):263-311.
[2] A. Berger, P. Brown, S. D. Pietra, et al. The Candide System for Machine Translation[C]//Proceeding HLT ’94 Proceedings of the workshop on Human Language Technology. 1994.
[3] P. Koehn, F. J. Och, D. Marcu. Statistical Phrase-based Translation[C]//HLT-NAACL. 2003.
[4] F. J. Och, H. Ney. Discriminative Training and Maximum Entropy Models for Statistical Machine Translation[C]//ACL. 2002.
[5] Daniel Marcu, Wei Wang, Abdessamad Echihabi et al. SPMT: Statistical Machine Translation with Syntactified Target Language Phrases[C]//EMNLP. 2006.
[6] D. Liu, D. Gildea. Improved Tree-to-string Transducer for Machine Translation[C]//ACL Workshop on Statistical Machine Translation (ACL08-SMT). 2008.
[7] M. Zhang, H. Jiang, A. T. Aw. A Tree Sequence Alignment-based Tree-to-tree Translation Model[C]//ACL-HLT. 2008.
[8] D. Chiang. A Hierarchical Phrase-based Model for SMT[C].//ACL. 2005.
[9] G. Jones, T. Sakai, N. Collier et al. A Comparison of Query Translation Methods for English-Japanese Cross-Language Information Retrieval[C]//Proceedings of ACM SIGIR’99, 1999: 269-270.
[10] M. E. Ruiz, A. Diekema, P. Sheridan. CINDOR Conceptual Interlingua Document Retrieval: TREC-8 Evaluation[C]//Proceedings of Eighth Text Retrieval Conference, 1999: 597-606.
[11] M. Paul, M. James. Comparing cross-language query expansion techniques by degrading translation resources[C]//Proceedings of SIGIR’02, 2002: 159-166.
[12] S. T. Dumais, T. K. Landauer, M. L. Littman. Automatic cross-linguistic information retrieval using latent semantic indexing[C]//Proceedings of SIGIR’96 Workshop On Cross-Linguistic Information Retrieval, 1996: 113-117.
[13] G. A. Levow, D. W. Oard, P. Resnik. Dictionary-based Techniques for Cross-Language Information Retrieval[J]. Information Processing and Management, 2005, 41(3): 523-547.
[14] Phil Blunsom, Trevor Cohn, Miles Osborne. Bayesian synchronous grammar induction[C]//NIPS. 2009.
[15] Benjamin Snyder, Tahira Naseem, Regina Barzilay. Unsupervised multilingual grammar induction[C]//ACL. 2009.
[16] David Yarowsky, Grace Ngai, Richard Wicentowski. Inducing multilingual text analysis tools via robust projection across aligned corpora[C]//Human Language Technologies. 2001.
[17] David Yarowsky, Grace Ngai. Inducing multilingual pos taggers and np bracketers via robust projection across aligned corpora[C]//NAACL. 2001.
[18] Rebecca Hwa, Philip Resnik, Amy Weinberg et al. Bootstrapping parsers via syntactic projection across parallel texts[J]. Special Issue of the Journal of Natural Language Engineering on Parallel Texts, 2005, 11(3): 311-325.
[19] Kuzman Ganchev, Jennifer Gillenwater, Ben Taskar. Dependency grammar induction via bitext projection constraints[C]//ACL. 2009.
[20] Fei Huang, Stephan Vogel. Improved named entity translation and bilingual named entity extraction[C]//ICMI. 2002.
[21] David A. Smith, Noah A. Smith. Bilingual parsing with factored estimation: using English to parse Korean[C]//EMNLP. 2004.
[22] Benjamin Snyder, Regina Barzilay. Crosslingual propagation for morphological analysis[C]//AAAI. 2008.
[23] David Burkett, Dan Klein. Two languages are better than one (for syntactic parsing)[C]//EMNLP. 2008.
[24] H. Ji. Challenges from Information Extraction to Information Fusion[C]//The 23rd International Conference on Computational Linguistics. 2010.
[25] P. Koehn, H. Hoang, A. Birch. Moses: Open Source Toolkit for Statistical Machine Translation[C]//ACL. 2007.
[26] 薛永增. 統(tǒng)計(jì)機(jī)器翻譯若干關(guān)鍵技術(shù)研究[D]. 哈爾濱工業(yè)大學(xué)博士學(xué)位論文. 2007.
[27] 劉水. 融入頭—修飾詞調(diào)序模型的短語(yǔ)統(tǒng)計(jì)機(jī)器翻譯方法研究[D]. 哈爾濱工業(yè)大學(xué)博士學(xué)位論文. 2011.
[28] P. Brown, J. Cocke, S. Pietra. A Statistical Approach to Machine Translation[J]. Computational Linguistics. 1990,16(2):79-85.
[29] I. H. Witten, T. C. Bell. The Zero-frequency Problem: Estimating the Probailities of Novel Events in Adaptive Text Compression[J]. IEEE Transactions on Information Theory. 1991,37(4):1085-1094.
[30] Yang Liu, Qun Liu, Shouxun Lin. Tree-to-String Alignment Template for Statistical Machine Translation[C]//COLING-ACL. 2006.
[31] Dekai Wu. Stochastic Inversion Transduction Grammars and Bilingual Parsing of Parallel Corpora[J].Computational Linguistics, 1997, 23(3):377-403.
[32] I. D. Melamed. Algorithms for Syntax-aware Statistical Machine Translation[C]//Proceedings of the Conference on Theoretical and Methodological Issues in Machine Translation. 2004.
[33] 孫加?xùn)|. 基于句法結(jié)構(gòu)信息的統(tǒng)計(jì)機(jī)器翻譯模型研究[D].哈爾濱工業(yè)大學(xué)博士學(xué)位論文. 2009.
[34] Michel Galley, Mark Hopkins, Kevin Knight et al. What’s in a Translation Rule?[C]//HLT-NAACL. 2004.
[35] 蔣宏飛. 基于同步樹(shù)替換文法的統(tǒng)計(jì)機(jī)器翻譯方法研究[D]. 哈爾濱工業(yè)大學(xué)博士學(xué)位論文. 2010.
[36] 劉宇鵬. 機(jī)器翻譯中系統(tǒng)融合技術(shù)的研究[D]. 哈爾濱工業(yè)大學(xué)博士學(xué)位論文. 2011.
[37] 趙鐵軍,鄭德權(quán),宗成慶.中國(guó)計(jì)算語(yǔ)言學(xué)研究進(jìn)展[C]//2008中國(guó)計(jì)算機(jī)科學(xué)技術(shù)發(fā)展報(bào)告.中國(guó)計(jì)算機(jī)學(xué)會(huì),機(jī)械工業(yè)出版社,2009: 150-191.
[38] Xiaoning Zhu, Muyun Yang. A Quantitative Analysis of Linguistic Factors in Human Translation Evaluation[C].//2nd International Symposium on Knowledge Acquisition Modeling. 2009.
[39] 朱曉寧. 基于語(yǔ)言學(xué)知識(shí)的機(jī)器翻譯自動(dòng)評(píng)價(jià)研究[D].哈爾濱工業(yè)大學(xué)碩士學(xué)位論文, 2011,6.
[40] Muyun Yang, Shuqi Sun. Improvement of Machine Translation Evaluation by Simple Linguistically Motivated Features[J]. Journal of Computer Science and Technology (JCST), 2011, 26(1):57-67.
[41] Junguo Zhu, Muyun Yang. All in Strings: a Powerful String-based Automatic MT Evaluation Metric with Multiple Granularities[C]//The 23rd International Conference on Computational Linguistics. 2010.
[42] 王博. 機(jī)器翻譯系統(tǒng)的自動(dòng)評(píng)價(jià)及診斷方法研究[D]. 哈爾濱工業(yè)大學(xué)博士學(xué)位論文, 2009.
[43] Dequan Zheng, Hao Yu, Tiejun Zhao et al. Research on a Chinese Language Model Based on Ontology and Statistical Method[J].Journal of Chinese Language and Computing, 2004, 14(4): 305-315.
[44] Honglei Zhu, Dequan Zheng, Tiejun Zhao. Research on query translation for clir based on a combination of statistical method and web information[J].Journal of Computational Information Systems, 2009, 5(3):1115-1122.