構(gòu)建和剖析中英三元組可比語(yǔ)料庫(kù)

2014-02-28 10:27:08胡小鵬袁琦耿鑫輝朱姝

計(jì)算機(jī)工程與應(yīng)用 2014年13期

胡小鵬，袁琦，耿鑫輝，朱姝

中國(guó)電子信息產(chǎn)業(yè)發(fā)展研究院，北京100044

1 引言

自1995年Rapp提出基于矩陣相似度計(jì)算的可比語(yǔ)料庫(kù)雙語(yǔ)詞匯提取算法研究以來(lái)，構(gòu)建和使用可比語(yǔ)料庫(kù)的研究得到不斷發(fā)展。特別是近十幾年，隨著網(wǎng)絡(luò)跨語(yǔ)言資源和跨語(yǔ)言處理需求的劇增，基于可比語(yǔ)料庫(kù)的雙語(yǔ)資源提取研究已從最初的雙語(yǔ)詞匯提取發(fā)展到雙語(yǔ)句對(duì)提取，雙語(yǔ)片斷提取，基于本族語(yǔ)言模型的雙語(yǔ)資源提取，語(yǔ)義知識(shí)庫(kù)建造，以及利用人機(jī)語(yǔ)言特征對(duì)比改進(jìn)機(jī)器翻譯系統(tǒng)等一系列可比語(yǔ)料庫(kù)的數(shù)據(jù)挖掘研究。到目前為止，除本文發(fā)表的研究成果外，國(guó)內(nèi)外尚未發(fā)現(xiàn)基于本族語(yǔ)言模型的可比語(yǔ)料庫(kù)雙語(yǔ)資源提取報(bào)道。隨著可比語(yǔ)料庫(kù)研究與應(yīng)用的不斷發(fā)展，它已成為自然語(yǔ)言處理各種相關(guān)學(xué)術(shù)會(huì)議的一個(gè)中心話題。從2008年起，ACL為該領(lǐng)域的研究創(chuàng)建了專門的學(xué)術(shù)交流平臺(tái)，每年設(shè)定中心議題，召開“構(gòu)建和使用可比語(yǔ)料庫(kù)（BUCC）”專題研討會(huì)。2013年8月召開的第6次研討會(huì)的中心議題，是改進(jìn)和發(fā)展可比語(yǔ)料庫(kù)經(jīng)典的詞匯挖掘技術(shù)，提高數(shù)據(jù)挖掘準(zhǔn)確度，擴(kuò)展應(yīng)用覆蓋面。

本文中，構(gòu)成三元組可比語(yǔ)料庫(kù)的中式英語(yǔ)又稱Chinglish，它有悖于本族英語(yǔ)規(guī)則和英語(yǔ)國(guó)家文化習(xí)慣。根據(jù)拉多（R.Lado）在《跨文化的語(yǔ)言學(xué)》中提出的“語(yǔ)言遷移（language transfer）”理論，中式英語(yǔ)充分表征了中國(guó)人在英語(yǔ)寫作中母語(yǔ)的負(fù)遷移現(xiàn)象。由于受到漢語(yǔ)語(yǔ)言、文化、思維習(xí)慣等各方面的影響和干擾，中國(guó)人按照自己母語(yǔ)的習(xí)慣，主觀編造、生搬硬套構(gòu)造了中式英語(yǔ)，其中在詞匯層面表現(xiàn)出的負(fù)遷移現(xiàn)象尤為嚴(yán)重。人們往往不顧兩種語(yǔ)言的本質(zhì)差異，直接把母語(yǔ)的表達(dá)方式生搬硬套到英語(yǔ)詞匯中去。用包含著詞匯層面負(fù)遷移現(xiàn)象的譯文構(gòu)建的平行語(yǔ)料庫(kù)顯然存在著扭斜的語(yǔ)言模型。圖1中marketizaton reform是國(guó)內(nèi)學(xué)術(shù)期刊上出現(xiàn)的詞匯層面的中式英語(yǔ)典型例子，正確的本族英語(yǔ)表達(dá)是market-oriented reform。

圖1 詞匯層面的中式英語(yǔ)

由于從平行語(yǔ)料庫(kù)提取的雙語(yǔ)數(shù)據(jù)受到中式英語(yǔ)扭斜的語(yǔ)言模型影響，嚴(yán)重影響到跨語(yǔ)言處理應(yīng)用。以Google在線跨語(yǔ)言檢索為例，當(dāng)檢索“英國(guó)電子信息產(chǎn)品”時(shí)，Google的輸出結(jié)果主要是涉及“圖書館服務(wù)和圖書”文獻(xiàn)（見圖2的屏幕截圖）。其原因是，根據(jù)平行語(yǔ)料庫(kù)訓(xùn)練出的應(yīng)用系統(tǒng)包括有扭斜的語(yǔ)言模型，在輸入“電子信息產(chǎn)品”后，系統(tǒng)無(wú)法優(yōu)先生成“electronics and IT products”，而是扭斜的表示電子圖書類的“electronic information products”。

圖2 “英國(guó)電子信息產(chǎn)品”Google跨語(yǔ)言信息檢索結(jié)果

平行語(yǔ)料庫(kù)是跨語(yǔ)言處理的重要資源。為克服平行語(yǔ)料庫(kù)固有的缺陷，本文提出了構(gòu)建和剖析中英三元組可比語(yǔ)料庫(kù)的技術(shù)研究。這項(xiàng)研究使用統(tǒng)計(jì)和規(guī)則相結(jié)合的方法，對(duì)由本族英語(yǔ)、中式英語(yǔ)和標(biāo)準(zhǔn)中文三元素所組成的三元組可比語(yǔ)料庫(kù)中的本族英語(yǔ)和中式英語(yǔ)進(jìn)行統(tǒng)計(jì)分析。在此基礎(chǔ)上，利用n-元詞串、關(guān)鍵詞簇等自動(dòng)抽取技術(shù)挖掘基于本族語(yǔ)言模型的雙語(yǔ)資源，改進(jìn)和發(fā)展機(jī)器翻譯等自然語(yǔ)言處理應(yīng)用。本文提出的研究?jī)?nèi)容不僅對(duì)改進(jìn)和發(fā)展跨語(yǔ)言處理應(yīng)用具有實(shí)用價(jià)值，而且對(duì)外語(yǔ)教學(xué)、詞典編纂、對(duì)外交流與合作也具有重要意義。

2 相關(guān)研究

2.1 國(guó)外相關(guān)研究

近年來(lái)，國(guó)外基于可比語(yǔ)料庫(kù)的數(shù)據(jù)挖掘研究發(fā)展極其迅速。尤其是，基于可比語(yǔ)料庫(kù)的雙語(yǔ)術(shù)語(yǔ)提取成為國(guó)外可比語(yǔ)料庫(kù)研究最為活躍的領(lǐng)域。對(duì)于科技領(lǐng)域，尤其是對(duì)于新興領(lǐng)域，術(shù)語(yǔ)資源往往是短缺的或不是最新的。為了應(yīng)對(duì)新興和迅速發(fā)展的科技領(lǐng)域詞匯短缺和陳舊的瓶頸，以及平行語(yǔ)料庫(kù)固有的時(shí)間滯后和文本稀缺問題，在歐盟第7框架計(jì)劃2010年—2012年期間，英、法、德等國(guó)通過實(shí)施基于可比語(yǔ)料庫(kù)的術(shù)語(yǔ)提?。═TC）項(xiàng)目，實(shí)現(xiàn)了從特定領(lǐng)域（如再生能源）可比語(yǔ)料庫(kù)提取中英、中法等12部詞庫(kù)的研發(fā)計(jì)劃。TTC項(xiàng)目開發(fā)環(huán)境的數(shù)據(jù)工作流如圖3所示，包括文本預(yù)處理、單語(yǔ)術(shù)語(yǔ)提取和雙語(yǔ)術(shù)語(yǔ)對(duì)齊3個(gè)層面的開發(fā)工具模塊。文本預(yù)處理模塊包括詞性還原、詞性標(biāo)注、詞干提取和詞形還原。單語(yǔ)術(shù)語(yǔ)提取模塊用于處理單語(yǔ)語(yǔ)料庫(kù)文件并提取術(shù)語(yǔ)，其處理流程包括識(shí)別并建立單字詞和多字詞的索引，計(jì)算詞語(yǔ)的相對(duì)頻率和領(lǐng)域特殊性，檢測(cè)單個(gè)詞術(shù)語(yǔ)構(gòu)成的新古典復(fù)合詞，以及采用相對(duì)頻率或領(lǐng)域特殊性設(shè)定閾值過濾候選項(xiàng)。雙語(yǔ)術(shù)語(yǔ)對(duì)齊模塊可以根據(jù)術(shù)語(yǔ)不同的性質(zhì)，采用不同的策略。對(duì)于單個(gè)詞的術(shù)語(yǔ)采用基于上下文的預(yù)測(cè)方法，對(duì)于新古典復(fù)合詞和多詞術(shù)語(yǔ)采用基于語(yǔ)意合成性（com positionality）的方法。通過評(píng)估驗(yàn)證，該項(xiàng)目所產(chǎn)生的雙語(yǔ)術(shù)語(yǔ)庫(kù)有效地改進(jìn)了面向特定領(lǐng)域的機(jī)器翻譯性能[1-2]。

圖3 TTC開發(fā)環(huán)境的數(shù)據(jù)工作流

2013年Dhouha等人在深入研究經(jīng)典的可比語(yǔ)料庫(kù)雙語(yǔ)詞匯提取技術(shù)基礎(chǔ)上，觀察到翻譯上下文詞向量中多義詞的語(yǔ)義歧義問題，提出了基于WordNet的語(yǔ)義相似度度量的詞義消歧處理的可比語(yǔ)料庫(kù)雙語(yǔ)詞匯提取方法。

實(shí)驗(yàn)中，在經(jīng)典的雙語(yǔ)詞匯提取3步驟，即建立上下文向量、翻譯上下文向量、比較源語(yǔ)和目標(biāo)語(yǔ)向量中加入了對(duì)上下文向量翻譯的語(yǔ)義消歧步驟（見圖4），使用單義詞作為消除歧義的種子集來(lái)推斷多義詞的翻譯意思，以減少上下文向量中的干擾噪音，提高雙語(yǔ)詞匯提取性能。

圖4 基于Word Net語(yǔ)義相似度的可比語(yǔ)料庫(kù)雙語(yǔ)術(shù)語(yǔ)提取方法架構(gòu)圖

首先，利用雙語(yǔ)詞典中只含有一個(gè)義項(xiàng)的詞條來(lái)構(gòu)造單義詞種子詞典，在Word Net的檢測(cè)中，這種方法的準(zhǔn)確率可以達(dá)到95%。其次，通過基于路徑長(zhǎng)度的語(yǔ)義相似度的WUP算法[3]，在Word Net基礎(chǔ)上，計(jì)算目標(biāo)術(shù)語(yǔ)的上下文詞向量中各單義詞的義項(xiàng)與多義詞的各個(gè)義項(xiàng)之間的語(yǔ)義相似度值。WUP算法利用兩個(gè)詞的同義詞集(s1，s2)在Word Net中的深度和它們的最小公共包含（LCS），計(jì)算出兩個(gè)詞之間的相似度值，公式如下：

實(shí)際中，由于一個(gè)詞可能會(huì)同時(shí)屬多個(gè)同義詞集，最終選取兩個(gè)詞的所有可能的相似度值中的最大值，作為兩個(gè)詞的相似度值，公式如下：

最后，利用上下文詞向量中，多義詞各個(gè)義項(xiàng)與各個(gè)單義詞義項(xiàng)的平均相似度值，為多義詞的每個(gè)義項(xiàng)打分（公式如下），并選取分值最高的義項(xiàng)作為多義詞的最終詞義，以此達(dá)到語(yǔ)義消歧的目的。

實(shí)證實(shí)驗(yàn)結(jié)果表明，該方法明顯優(yōu)于經(jīng)典的方法[4]。

在可比語(yǔ)料庫(kù)雙語(yǔ)句對(duì)提取方面，經(jīng)典的方法是使用信息檢索（IR）技術(shù)，在文檔對(duì)齊的基礎(chǔ)上，使用句子層面模型來(lái)提取平行句對(duì)（或片斷）。IBM Watson實(shí)驗(yàn)室的Tillmann等人提出了一種新的從可比數(shù)據(jù)中提取句對(duì)的算法，使用這種算法可以直接在句子層面打分候選句對(duì)集?；谠撍惴ǖ木鋵?duì)提取，是通過有效執(zhí)行基于IBM模型1翻譯概率的對(duì)稱打分函數(shù)實(shí)現(xiàn)的。該方法適用于無(wú)文檔層面對(duì)齊信息的可比語(yǔ)料庫(kù)句對(duì)提取[5]。在可比語(yǔ)料庫(kù)雙語(yǔ)片斷提取方面，Munteanu等人受信號(hào)處理的啟發(fā)，提出了在句子級(jí)別無(wú)法對(duì)齊的可比語(yǔ)料庫(kù)中提取雙語(yǔ)片斷的算法。以詞對(duì)齊概率（使用GIZA++獲得）和對(duì)數(shù)似然比為統(tǒng)計(jì)量，來(lái)描述詞匯間的相關(guān)性，在這些統(tǒng)計(jì)數(shù)據(jù)基礎(chǔ)上，用過濾器模型從可比語(yǔ)料庫(kù)中提取雙語(yǔ)片斷。他們把從可比語(yǔ)料庫(kù)提取結(jié)果應(yīng)用于統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)，BLEU測(cè)評(píng)值得到顯著提升[6]。在基于可比語(yǔ)料庫(kù)的語(yǔ)義知識(shí)庫(kù)建造方面，Genc等人利用基于Wikipedia的多語(yǔ)可比語(yǔ)料庫(kù)，通過候選實(shí)體匹配標(biāo)題的算法和多條件對(duì)比抽取算法，構(gòu)建中-英對(duì)照知識(shí)本體并發(fā)展了知識(shí)本體的可視化技術(shù)[7]。2013年，Ekaterina等人發(fā)表了“用可比語(yǔ)料庫(kù)分析翻譯變異“的成果，使用相同文本的不同翻譯變體即專業(yè)人工翻譯，基于規(guī)則機(jī)器翻譯（Systran和Linguatec）和基于統(tǒng)計(jì)機(jī)器翻譯（Google和M oses）構(gòu)建可比語(yǔ)料庫(kù)，從人機(jī)語(yǔ)言特征對(duì)比角度，開展單語(yǔ)可比語(yǔ)料庫(kù)的翻譯對(duì)比研究，改善機(jī)器翻譯性能[8]。

2.2 國(guó)內(nèi)相關(guān)研究

在可比語(yǔ)料庫(kù)雙語(yǔ)詞匯提取方面，張永臣等提出了一種從可比語(yǔ)料庫(kù)中抽取特定領(lǐng)域雙語(yǔ)詞典的算法，給出了利用詞間關(guān)系矩陣法從特定領(lǐng)域可比語(yǔ)料庫(kù)中抽取雙語(yǔ)詞典的過程，通過大量實(shí)驗(yàn)分析了種子詞選擇對(duì)詞典抽取結(jié)果的影響，其實(shí)驗(yàn)結(jié)果表明種子詞的數(shù)量和頻率對(duì)詞典抽取結(jié)果有積極作用[9]。孫廣范等采用雙向等價(jià)對(duì)獲取計(jì)算然后求交集等方法提高翻譯等價(jià)對(duì)提取正確率[10]。徐會(huì)芳等使用基于相似度計(jì)算和多特征融合的方法以及最小化樣本風(fēng)險(xiǎn)算法調(diào)節(jié)特征權(quán)重，來(lái)提高從可比語(yǔ)料庫(kù)中抽取雙語(yǔ)術(shù)語(yǔ)互譯對(duì)的準(zhǔn)確率[11]。在可比語(yǔ)料庫(kù)雙語(yǔ)句對(duì)提取方面，F(xiàn)ung等人提出利用通用網(wǎng)絡(luò)爬蟲持續(xù)抓取網(wǎng)絡(luò)資源來(lái)構(gòu)建面向多領(lǐng)域的超大規(guī)?？杀日Z(yǔ)料庫(kù)，從中提取平行句對(duì)改善機(jī)器翻譯性能。項(xiàng)目中使用面向招回和面向精度的算法，基于信息檢索技術(shù)處理網(wǎng)頁(yè)，匹配文檔并提取平行句對(duì)。通過對(duì)網(wǎng)絡(luò)資源的深入挖掘，來(lái)獲取更多的語(yǔ)言資源[12]。胡弘思等在Wikipedia基礎(chǔ)上，統(tǒng)計(jì)詞匯數(shù)據(jù)、構(gòu)建命名實(shí)體詞典，并通過其本身的對(duì)齊機(jī)制構(gòu)建了雙語(yǔ)可比語(yǔ)料，從中抽取對(duì)齊句子[13]?；诒咀逭Z(yǔ)言模型的雙語(yǔ)資源提取方面，肖健等人通過構(gòu)建三元組可比語(yǔ)料庫(kù)，解決了由中式英語(yǔ)導(dǎo)致的語(yǔ)言模型“扭斜”問題，進(jìn)一步提高了MWE的自動(dòng)抽取準(zhǔn)確率，改善機(jī)器翻譯效果[14]。另外雙語(yǔ)資源提取方面，張桂萍等提出了面向單一雙語(yǔ)網(wǎng)頁(yè)的雙語(yǔ)資源挖掘方法[15]。該方法重點(diǎn)采用了以頻繁序列模式為特征的SVM分類方法，實(shí)現(xiàn)了包含雙語(yǔ)資源的單一雙語(yǔ)網(wǎng)頁(yè)的篩選與識(shí)別，并以此為基礎(chǔ)構(gòu)建可比語(yǔ)料庫(kù)，挖掘具有對(duì)譯的雙語(yǔ)資源。

3 研究框架

本文提出的研究框架包括三元組可比語(yǔ)料庫(kù)建設(shè)，關(guān)鍵詞簇自動(dòng)剖析，語(yǔ)義多詞表達(dá)提取，以及翻譯模板自動(dòng)提取4個(gè)模塊。這4個(gè)模塊緊密銜接，三元組可比語(yǔ)料庫(kù)是本項(xiàng)研究的基礎(chǔ)設(shè)施，通過建設(shè)三元組可比語(yǔ)料庫(kù)的研究，將為整個(gè)項(xiàng)目實(shí)施提供數(shù)據(jù)資源。在此基礎(chǔ)上，通過對(duì)三元組可比語(yǔ)料庫(kù)的關(guān)鍵詞簇自動(dòng)剖析的研究，可以發(fā)現(xiàn)和比較本族英語(yǔ)與中式英語(yǔ)語(yǔ)言模型的區(qū)別特征，改進(jìn)和驗(yàn)證所采用的自動(dòng)剖析算法。在對(duì)關(guān)鍵詞簇統(tǒng)計(jì)研究的基礎(chǔ)上，將進(jìn)一步研究從三元組可比語(yǔ)料庫(kù)提取本族英語(yǔ)的語(yǔ)義多詞表達(dá)和翻譯模板的算法與模型，以期實(shí)現(xiàn)改進(jìn)和發(fā)展機(jī)器翻譯等自然語(yǔ)言處理系統(tǒng)性能的研究目標(biāo)。

3.1 三元組可比語(yǔ)料庫(kù)建設(shè)

圖5 三元組可比語(yǔ)料庫(kù)的構(gòu)建流程圖

三元組可比語(yǔ)料庫(kù)是開展本項(xiàng)研究的基礎(chǔ)資源，到目前為止，已經(jīng)累計(jì)構(gòu)建了百萬(wàn)句對(duì)級(jí)的三元組可比語(yǔ)料庫(kù)。構(gòu)建語(yǔ)料庫(kù)的原始語(yǔ)料主要來(lái)自我院每年都要發(fā)布的幾十種，總字?jǐn)?shù)超過200萬(wàn)英語(yǔ)詞語(yǔ)的ICT領(lǐng)域研究報(bào)告。為確保研究報(bào)告譯文的準(zhǔn)確度和可讀性，所有報(bào)告的英文譯文，需經(jīng)本族英語(yǔ)的語(yǔ)言專家嚴(yán)格修改和編輯。每年積累的中式英語(yǔ)和修改后的本族英語(yǔ)文本經(jīng)過圖5所示的流程處理；通過語(yǔ)料庫(kù)比較分析工具，構(gòu)建滿足可比語(yǔ)料庫(kù)取樣框架（sampling frame）要求的三元組可比語(yǔ)料庫(kù)。為了保證定量比較分析的準(zhǔn)確度，利用工具過濾掉中式英語(yǔ)文本和本族英語(yǔ)文本之間差異在10行以上或者每行差異大于10%的句對(duì)。然后，使用我院的句法分析工具（CCID-CESAT）、語(yǔ)料庫(kù)標(biāo)注分析工具（CCID-CTAT）以及英國(guó)Lancaster大學(xué)Wmatrix和USAS語(yǔ)義分析工具，對(duì)三元組可比語(yǔ)料庫(kù)進(jìn)行句法分析、詞性和語(yǔ)義標(biāo)注。通過對(duì)語(yǔ)料庫(kù)所做的這些訓(xùn)練，為后續(xù)的關(guān)鍵詞簇自動(dòng)剖析、語(yǔ)義多詞表達(dá)和翻譯模板自動(dòng)提取的研究奠定了基礎(chǔ)。

3.2 關(guān)鍵詞簇的自動(dòng)剖析

在建立三元組可比語(yǔ)料庫(kù)的基礎(chǔ)上，利用統(tǒng)計(jì)方法研究關(guān)鍵詞簇在詞語(yǔ)、詞性和語(yǔ)義3個(gè)層面上的過使用和欠使用的語(yǔ)言現(xiàn)象，使用對(duì)數(shù)似然值（LL）定量分析關(guān)鍵詞簇的差異顯著性（keyness）。對(duì)數(shù)似然值計(jì)算方式如下：

假設(shè)X為要考察的關(guān)鍵詞簇，a為中式英語(yǔ)語(yǔ)料庫(kù)中出現(xiàn)X的次數(shù)，b為本族英語(yǔ)語(yǔ)料庫(kù)中出現(xiàn)X的次數(shù)，c為中式英語(yǔ)語(yǔ)料庫(kù)中所有關(guān)鍵詞簇的數(shù)目，d為本族英語(yǔ)語(yǔ)料庫(kù)中所有關(guān)鍵詞簇的數(shù)目，其關(guān)系如表1的詞頻列聯(lián)表所示。

表1 詞頻列聯(lián)表

那么對(duì)數(shù)似然值（log-likelihood）計(jì)算方法[16]如下：

Oi為觀察值，即表中的a、b值。Ei為期望值，其計(jì)算方法如下：

中式英語(yǔ)語(yǔ)料庫(kù)中所有關(guān)鍵詞簇的數(shù)目為N1=c，本族英語(yǔ)語(yǔ)料庫(kù)中所有關(guān)鍵詞簇的數(shù)目為N2=d，那么中式英語(yǔ)和本族英語(yǔ)中關(guān)鍵詞簇的期望為：

對(duì)上述公式進(jìn)一步解釋如下：先求某個(gè)詞X在整個(gè)語(yǔ)料庫(kù)（指兩個(gè)語(yǔ)料庫(kù)：（1）中式英語(yǔ)；（2）本族語(yǔ)）中出現(xiàn)的概率（根據(jù)大數(shù)定理，用頻率近似表示概率）。算法步驟是：（1）將X在兩個(gè)語(yǔ)料庫(kù)中的頻次之和(a+b)除以語(yǔ)料庫(kù)中詞的總量(c+d)，也就是Ei等式右邊除了Ni以外的那個(gè)分式。（2）再根據(jù)這個(gè)概率分別計(jì)算在中式英語(yǔ)中該詞的期望出現(xiàn)次數(shù)，即為中式英語(yǔ)總詞量乘以該詞出現(xiàn)的概率。同理計(jì)算E2。

依據(jù)上述公式得到的E1和E2，可以求得LL值：

LL=2×((a×ln(a/E1))+(b×ln(b/E2)))

對(duì)數(shù)似然值最大的關(guān)鍵詞簇排在列表的頂端，表明該詞簇在本族英語(yǔ)和中式英語(yǔ)之間頻次分布差異比較大。比如，某些關(guān)鍵詞簇在中式英語(yǔ)中被過度使用或者欠使用。依據(jù)對(duì)數(shù)似然值的變化差異，可以發(fā)現(xiàn)中式英語(yǔ)與本族英語(yǔ)的區(qū)別特征，為本項(xiàng)目自動(dòng)提取基于本族英語(yǔ)的翻譯模板和語(yǔ)義多詞表達(dá)研究提供重要參考。

4 實(shí)驗(yàn)結(jié)果

本研究利用關(guān)鍵詞簇自動(dòng)剖析技術(shù)（最大為5元詞串）從詞語(yǔ)表達(dá)層面分析了本族英語(yǔ)和中式英語(yǔ)的區(qū)別特征，計(jì)算出三元組可比語(yǔ)料庫(kù)中本族英語(yǔ)和中式英語(yǔ)在詞語(yǔ)表達(dá)層面的差異顯著性。根據(jù)給定的p值和LL值，生成關(guān)鍵詞簇過使用（overused）和欠使用（underused）對(duì)照表。表2僅列出對(duì)數(shù)似然值LL大于20的典型關(guān)鍵詞和關(guān)鍵詞簇。因?yàn)樵谟?jì)算期望值時(shí)，已經(jīng)考慮到兩個(gè)語(yǔ)料庫(kù)的詞次規(guī)模（即c和d），所以在運(yùn)用公式前，不需要做歸一化處理[16]。事實(shí)上，表中給出的頻率可以認(rèn)為是以百萬(wàn)詞次做歸一化處理的，因此對(duì)表中所給數(shù)字可作直接比較。

從表2的中式英語(yǔ)語(yǔ)料庫(kù)與本族英語(yǔ)語(yǔ)料庫(kù)（參考語(yǔ)料庫(kù)）的詞語(yǔ)表達(dá)層差異顯著性剖析結(jié)果可以看出，e-government construction（電子政務(wù)建設(shè)）、second-hand data（二手資料）和im portant significance（重要意義）等均為詞匯負(fù)遷移現(xiàn)象引起的過使用詞語(yǔ)，而e-government development、indirect data和great significance為欠使用詞語(yǔ)。

通過上述分析，可以在三元組可比語(yǔ)料庫(kù)中發(fā)現(xiàn)中式英語(yǔ)與本族英語(yǔ)的區(qū)別特征，實(shí)現(xiàn)自動(dòng)提取基于本族英語(yǔ)模型的多詞表達(dá)（MWEs）和翻譯模板，改進(jìn)和發(fā)展機(jī)器翻譯等自然語(yǔ)言的處理應(yīng)用。

表2 詞語(yǔ)表達(dá)層差異顯著性剖析結(jié)果

5 結(jié)論

目前，構(gòu)建和剖析三元組可比語(yǔ)料庫(kù)的研究已在詞匯表記層面取得有效成果，對(duì)克服中英平行語(yǔ)料庫(kù)存在固有的扭斜的語(yǔ)言模型，建造和挖掘基于本族語(yǔ)言模型的雙語(yǔ)詞庫(kù)，改進(jìn)機(jī)器翻譯等自然語(yǔ)言處理應(yīng)用具有很大的實(shí)用價(jià)值。嵌入本項(xiàng)研究成果的機(jī)譯系統(tǒng)已在國(guó)內(nèi)外得到廣泛使用。今后，按照本文的研究方法，也可以進(jìn)行詞性層面和語(yǔ)義層面的差異顯著性剖析研究。本項(xiàng)研究今后的目標(biāo)，是把基于關(guān)鍵詞和關(guān)鍵詞簇方法的可比文本微觀研究擴(kuò)展到基于關(guān)鍵語(yǔ)義場(chǎng)（key semantic fields）的可比文本宏觀研究，使其支持內(nèi)容分析。這樣，就可以把當(dāng)前對(duì)特定的三元組可比語(yǔ)料庫(kù)的定量分析擴(kuò)大到泛化的基于內(nèi)容的可比文本的定性分析，有效地?cái)U(kuò)展了可比語(yǔ)料庫(kù)的研究與應(yīng)用。2013年8月召開的第6次“可比語(yǔ)料庫(kù)構(gòu)建和應(yīng)用（BUCC）”研討會(huì)的中心議題，是“改進(jìn)和發(fā)展可比語(yǔ)料庫(kù)經(jīng)典的術(shù)語(yǔ)挖掘技術(shù)，提高數(shù)據(jù)挖掘準(zhǔn)確度，擴(kuò)展應(yīng)用覆蓋面”，值此之際發(fā)表本項(xiàng)研究成果更具有現(xiàn)實(shí)意義。最后，感謝英國(guó)Lancaster大學(xué)Paul Rayson博士在本項(xiàng)研究中給予的理論和方法上的指導(dǎo)。

[1]Daille B.Building bilingual term inologies from comparable corpora：the TTC Term Suite[C]//Proceedings of the 5th Workshop on Building and Using Comparable Corpora，2012：29-32.

[2]TTC Annual Public Report 2012[R].2012.

[3]Wu Zhibiao，Palmer M.Verbs semantics and lexical selection[C]//Proceedings of the 32nd Annual Meeting on Association for Computational Linguistics（ACL’94），Association for Computational Linguistics，1994：133-138.

[4]Bouamor D，Semmar N，Zweigenbaum P.Using Word Net and semantic similarity for bilingual terminology Mining from comparable corpora[C]//Proceedings of the 6th Workshop on Building and Comparable Corpora，2013：16-23.

[5]Tillmann C，Xu Jianming.A simple sentence-level extraction algorithm for com parable data[C]//Proceedings of NAACL HLT2009，2009：93-96.

[6]Munteanu D S，Marcu D.Extracting parallel sub-sentential fragments from non-parallel corpora[C]//Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL，Sydney，July 2006：81-88.

[7]Genc Y，Lennon E A，Mason W，et al.Building ontologies from collaborative know ledge bases to search and interpret multilingual corpora[C]//Proceedings of the 9th Workshop on Building and Comparable Corpora，2013：87-94.

[8]Lapshinova-Koltunski E.VARTRA：a comparable corpus for analysis of translation variation[C]//Proceedings of the 6th Workshop on Building and Comparable Corpora，2013：77-86.

[9]張永臣，孫樂，李飛，等.基于Web數(shù)據(jù)的特定領(lǐng)域雙語(yǔ)詞典抽取[J].中文信息學(xué)報(bào)，2006，20（2）：16-23.

[10]孫廣范，宋金平，袁琦，等.中英可比語(yǔ)料庫(kù)中翻譯等價(jià)對(duì)抽取方法研究[J].計(jì)算機(jī)工程與應(yīng)用，2007，43（32）：44-48.

[11]徐會(huì)芳.可比語(yǔ)料中雙語(yǔ)多詞術(shù)語(yǔ)互譯對(duì)抽取方法研究[D].遼寧大連：大連理工學(xué)院，2013.

[12]Fung P，Prochasson E，Shi S.Trillions of comparable documents Pascale Fung，Emmanuel Prochasson and Simon Shi[C]//Proceedings of Workshop on Building and Comparable Corpora，2010：26-34.

[13]胡弘思.基于維基百科的雙語(yǔ)可比語(yǔ)料的句子對(duì)齊[D].上海：上海交通大學(xué)，2013.

[14]肖健，袁琦，宋金平.使用三元組可比語(yǔ)料庫(kù)改進(jìn)和發(fā)展機(jī)器翻譯系統(tǒng)[C]//第十四屆全國(guó)科技翻譯研討會(huì)論文集，2011：102-107.

[15]羅陽(yáng)，季鐸，張桂萍.面向單一雙語(yǔ)網(wǎng)頁(yè)的雙語(yǔ)資源挖掘方法[J].中文信息學(xué)報(bào)，2011（1）：110-115.

[16]Rayson P.From key words to key semantic domains[M].[S.l.]：John Benjamins Publishing Company，2008.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看