• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      構(gòu)建和剖析中英三元組可比語(yǔ)料庫(kù)

      2014-02-28 10:27:08胡小鵬袁琦耿鑫輝朱姝
      關(guān)鍵詞:三元組中式術(shù)語(yǔ)

      胡小鵬,袁琦,耿鑫輝,朱姝

      中國(guó)電子信息產(chǎn)業(yè)發(fā)展研究院,北京100044

      1 引言

      自1995年Rapp提出基于矩陣相似度計(jì)算的可比語(yǔ)料庫(kù)雙語(yǔ)詞匯提取算法研究以來(lái),構(gòu)建和使用可比語(yǔ)料庫(kù)的研究得到不斷發(fā)展。特別是近十幾年,隨著網(wǎng)絡(luò)跨語(yǔ)言資源和跨語(yǔ)言處理需求的劇增,基于可比語(yǔ)料庫(kù)的雙語(yǔ)資源提取研究已從最初的雙語(yǔ)詞匯提取發(fā)展到雙語(yǔ)句對(duì)提取,雙語(yǔ)片斷提取,基于本族語(yǔ)言模型的雙語(yǔ)資源提取,語(yǔ)義知識(shí)庫(kù)建造,以及利用人機(jī)語(yǔ)言特征對(duì)比改進(jìn)機(jī)器翻譯系統(tǒng)等一系列可比語(yǔ)料庫(kù)的數(shù)據(jù)挖掘研究。到目前為止,除本文發(fā)表的研究成果外,國(guó)內(nèi)外尚未發(fā)現(xiàn)基于本族語(yǔ)言模型的可比語(yǔ)料庫(kù)雙語(yǔ)資源提取報(bào)道。隨著可比語(yǔ)料庫(kù)研究與應(yīng)用的不斷發(fā)展,它已成為自然語(yǔ)言處理各種相關(guān)學(xué)術(shù)會(huì)議的一個(gè)中心話題。從2008年起,ACL為該領(lǐng)域的研究創(chuàng)建了專門的學(xué)術(shù)交流平臺(tái),每年設(shè)定中心議題,召開“構(gòu)建和使用可比語(yǔ)料庫(kù)(BUCC)”專題研討會(huì)。2013年8月召開的第6次研討會(huì)的中心議題,是改進(jìn)和發(fā)展可比語(yǔ)料庫(kù)經(jīng)典的詞匯挖掘技術(shù),提高數(shù)據(jù)挖掘準(zhǔn)確度,擴(kuò)展應(yīng)用覆蓋面。

      本文中,構(gòu)成三元組可比語(yǔ)料庫(kù)的中式英語(yǔ)又稱Chinglish,它有悖于本族英語(yǔ)規(guī)則和英語(yǔ)國(guó)家文化習(xí)慣。根據(jù)拉多(R.Lado)在《跨文化的語(yǔ)言學(xué)》中提出的“語(yǔ)言遷移(language transfer)”理論,中式英語(yǔ)充分表征了中國(guó)人在英語(yǔ)寫作中母語(yǔ)的負(fù)遷移現(xiàn)象。由于受到漢語(yǔ)語(yǔ)言、文化、思維習(xí)慣等各方面的影響和干擾,中國(guó)人按照自己母語(yǔ)的習(xí)慣,主觀編造、生搬硬套構(gòu)造了中式英語(yǔ),其中在詞匯層面表現(xiàn)出的負(fù)遷移現(xiàn)象尤為嚴(yán)重。人們往往不顧兩種語(yǔ)言的本質(zhì)差異,直接把母語(yǔ)的表達(dá)方式生搬硬套到英語(yǔ)詞匯中去。用包含著詞匯層面負(fù)遷移現(xiàn)象的譯文構(gòu)建的平行語(yǔ)料庫(kù)顯然存在著扭斜的語(yǔ)言模型。圖1中marketizaton reform是國(guó)內(nèi)學(xué)術(shù)期刊上出現(xiàn)的詞匯層面的中式英語(yǔ)典型例子,正確的本族英語(yǔ)表達(dá)是market-oriented reform。

      圖1 詞匯層面的中式英語(yǔ)

      由于從平行語(yǔ)料庫(kù)提取的雙語(yǔ)數(shù)據(jù)受到中式英語(yǔ)扭斜的語(yǔ)言模型影響,嚴(yán)重影響到跨語(yǔ)言處理應(yīng)用。以Google在線跨語(yǔ)言檢索為例,當(dāng)檢索“英國(guó)電子信息產(chǎn)品”時(shí),Google的輸出結(jié)果主要是涉及“圖書館服務(wù)和圖書”文獻(xiàn)(見圖2的屏幕截圖)。其原因是,根據(jù)平行語(yǔ)料庫(kù)訓(xùn)練出的應(yīng)用系統(tǒng)包括有扭斜的語(yǔ)言模型,在輸入“電子信息產(chǎn)品”后,系統(tǒng)無(wú)法優(yōu)先生成“electronics and IT products”,而是扭斜的表示電子圖書類的“electronic information products”。

      圖2 “英國(guó)電子信息產(chǎn)品”Google跨語(yǔ)言信息檢索結(jié)果

      平行語(yǔ)料庫(kù)是跨語(yǔ)言處理的重要資源。為克服平行語(yǔ)料庫(kù)固有的缺陷,本文提出了構(gòu)建和剖析中英三元組可比語(yǔ)料庫(kù)的技術(shù)研究。這項(xiàng)研究使用統(tǒng)計(jì)和規(guī)則相結(jié)合的方法,對(duì)由本族英語(yǔ)、中式英語(yǔ)和標(biāo)準(zhǔn)中文三元素所組成的三元組可比語(yǔ)料庫(kù)中的本族英語(yǔ)和中式英語(yǔ)進(jìn)行統(tǒng)計(jì)分析。在此基礎(chǔ)上,利用n-元詞串、關(guān)鍵詞簇等自動(dòng)抽取技術(shù)挖掘基于本族語(yǔ)言模型的雙語(yǔ)資源,改進(jìn)和發(fā)展機(jī)器翻譯等自然語(yǔ)言處理應(yīng)用。本文提出的研究?jī)?nèi)容不僅對(duì)改進(jìn)和發(fā)展跨語(yǔ)言處理應(yīng)用具有實(shí)用價(jià)值,而且對(duì)外語(yǔ)教學(xué)、詞典編纂、對(duì)外交流與合作也具有重要意義。

      2 相關(guān)研究

      2.1 國(guó)外相關(guān)研究

      近年來(lái),國(guó)外基于可比語(yǔ)料庫(kù)的數(shù)據(jù)挖掘研究發(fā)展極其迅速。尤其是,基于可比語(yǔ)料庫(kù)的雙語(yǔ)術(shù)語(yǔ)提取成為國(guó)外可比語(yǔ)料庫(kù)研究最為活躍的領(lǐng)域。對(duì)于科技領(lǐng)域,尤其是對(duì)于新興領(lǐng)域,術(shù)語(yǔ)資源往往是短缺的或不是最新的。為了應(yīng)對(duì)新興和迅速發(fā)展的科技領(lǐng)域詞匯短缺和陳舊的瓶頸,以及平行語(yǔ)料庫(kù)固有的時(shí)間滯后和文本稀缺問題,在歐盟第7框架計(jì)劃2010年—2012年期間,英、法、德等國(guó)通過實(shí)施基于可比語(yǔ)料庫(kù)的術(shù)語(yǔ)提?。═TC)項(xiàng)目,實(shí)現(xiàn)了從特定領(lǐng)域(如再生能源)可比語(yǔ)料庫(kù)提取中英、中法等12部詞庫(kù)的研發(fā)計(jì)劃。TTC項(xiàng)目開發(fā)環(huán)境的數(shù)據(jù)工作流如圖3所示,包括文本預(yù)處理、單語(yǔ)術(shù)語(yǔ)提取和雙語(yǔ)術(shù)語(yǔ)對(duì)齊3個(gè)層面的開發(fā)工具模塊。文本預(yù)處理模塊包括詞性還原、詞性標(biāo)注、詞干提取和詞形還原。單語(yǔ)術(shù)語(yǔ)提取模塊用于處理單語(yǔ)語(yǔ)料庫(kù)文件并提取術(shù)語(yǔ),其處理流程包括識(shí)別并建立單字詞和多字詞的索引,計(jì)算詞語(yǔ)的相對(duì)頻率和領(lǐng)域特殊性,檢測(cè)單個(gè)詞術(shù)語(yǔ)構(gòu)成的新古典復(fù)合詞,以及采用相對(duì)頻率或領(lǐng)域特殊性設(shè)定閾值過濾候選項(xiàng)。雙語(yǔ)術(shù)語(yǔ)對(duì)齊模塊可以根據(jù)術(shù)語(yǔ)不同的性質(zhì),采用不同的策略。對(duì)于單個(gè)詞的術(shù)語(yǔ)采用基于上下文的預(yù)測(cè)方法,對(duì)于新古典復(fù)合詞和多詞術(shù)語(yǔ)采用基于語(yǔ)意合成性(com positionality)的方法。通過評(píng)估驗(yàn)證,該項(xiàng)目所產(chǎn)生的雙語(yǔ)術(shù)語(yǔ)庫(kù)有效地改進(jìn)了面向特定領(lǐng)域的機(jī)器翻譯性能[1-2]。

      圖3 TTC開發(fā)環(huán)境的數(shù)據(jù)工作流

      2013年Dhouha等人在深入研究經(jīng)典的可比語(yǔ)料庫(kù)雙語(yǔ)詞匯提取技術(shù)基礎(chǔ)上,觀察到翻譯上下文詞向量中多義詞的語(yǔ)義歧義問題,提出了基于WordNet的語(yǔ)義相似度度量的詞義消歧處理的可比語(yǔ)料庫(kù)雙語(yǔ)詞匯提取方法。

      實(shí)驗(yàn)中,在經(jīng)典的雙語(yǔ)詞匯提取3步驟,即建立上下文向量、翻譯上下文向量、比較源語(yǔ)和目標(biāo)語(yǔ)向量中加入了對(duì)上下文向量翻譯的語(yǔ)義消歧步驟(見圖4),使用單義詞作為消除歧義的種子集來(lái)推斷多義詞的翻譯意思,以減少上下文向量中的干擾噪音,提高雙語(yǔ)詞匯提取性能。

      圖4 基于Word Net語(yǔ)義相似度的可比語(yǔ)料庫(kù)雙語(yǔ)術(shù)語(yǔ)提取方法架構(gòu)圖

      首先,利用雙語(yǔ)詞典中只含有一個(gè)義項(xiàng)的詞條來(lái)構(gòu)造單義詞種子詞典,在Word Net的檢測(cè)中,這種方法的準(zhǔn)確率可以達(dá)到95%。其次,通過基于路徑長(zhǎng)度的語(yǔ)義相似度的WUP算法[3],在Word Net基礎(chǔ)上,計(jì)算目標(biāo)術(shù)語(yǔ)的上下文詞向量中各單義詞的義項(xiàng)與多義詞的各個(gè)義項(xiàng)之間的語(yǔ)義相似度值。WUP算法利用兩個(gè)詞的同義詞集(s1,s2)在Word Net中的深度和它們的最小公共包含(LCS),計(jì)算出兩個(gè)詞之間的相似度值,公式如下:

      實(shí)際中,由于一個(gè)詞可能會(huì)同時(shí)屬多個(gè)同義詞集,最終選取兩個(gè)詞的所有可能的相似度值中的最大值,作為兩個(gè)詞的相似度值,公式如下:

      最后,利用上下文詞向量中,多義詞各個(gè)義項(xiàng)與各個(gè)單義詞義項(xiàng)的平均相似度值,為多義詞的每個(gè)義項(xiàng)打分(公式如下),并選取分值最高的義項(xiàng)作為多義詞的最終詞義,以此達(dá)到語(yǔ)義消歧的目的。

      實(shí)證實(shí)驗(yàn)結(jié)果表明,該方法明顯優(yōu)于經(jīng)典的方法[4]。

      在可比語(yǔ)料庫(kù)雙語(yǔ)句對(duì)提取方面,經(jīng)典的方法是使用信息檢索(IR)技術(shù),在文檔對(duì)齊的基礎(chǔ)上,使用句子層面模型來(lái)提取平行句對(duì)(或片斷)。IBM Watson實(shí)驗(yàn)室的Tillmann等人提出了一種新的從可比數(shù)據(jù)中提取句對(duì)的算法,使用這種算法可以直接在句子層面打分候選句對(duì)集?;谠撍惴ǖ木鋵?duì)提取,是通過有效執(zhí)行基于IBM模型1翻譯概率的對(duì)稱打分函數(shù)實(shí)現(xiàn)的。該方法適用于無(wú)文檔層面對(duì)齊信息的可比語(yǔ)料庫(kù)句對(duì)提取[5]。在可比語(yǔ)料庫(kù)雙語(yǔ)片斷提取方面,Munteanu等人受信號(hào)處理的啟發(fā),提出了在句子級(jí)別無(wú)法對(duì)齊的可比語(yǔ)料庫(kù)中提取雙語(yǔ)片斷的算法。以詞對(duì)齊概率(使用GIZA++獲得)和對(duì)數(shù)似然比為統(tǒng)計(jì)量,來(lái)描述詞匯間的相關(guān)性,在這些統(tǒng)計(jì)數(shù)據(jù)基礎(chǔ)上,用過濾器模型從可比語(yǔ)料庫(kù)中提取雙語(yǔ)片斷。他們把從可比語(yǔ)料庫(kù)提取結(jié)果應(yīng)用于統(tǒng)計(jì)機(jī)器翻譯系統(tǒng),BLEU測(cè)評(píng)值得到顯著提升[6]。在基于可比語(yǔ)料庫(kù)的語(yǔ)義知識(shí)庫(kù)建造方面,Genc等人利用基于Wikipedia的多語(yǔ)可比語(yǔ)料庫(kù),通過候選實(shí)體匹配標(biāo)題的算法和多條件對(duì)比抽取算法,構(gòu)建中-英對(duì)照知識(shí)本體并發(fā)展了知識(shí)本體的可視化技術(shù)[7]。2013年,Ekaterina等人發(fā)表了“用可比語(yǔ)料庫(kù)分析翻譯變異“的成果,使用相同文本的不同翻譯變體即專業(yè)人工翻譯,基于規(guī)則機(jī)器翻譯(Systran和Linguatec)和基于統(tǒng)計(jì)機(jī)器翻譯(Google和M oses)構(gòu)建可比語(yǔ)料庫(kù),從人機(jī)語(yǔ)言特征對(duì)比角度,開展單語(yǔ)可比語(yǔ)料庫(kù)的翻譯對(duì)比研究,改善機(jī)器翻譯性能[8]。

      2.2 國(guó)內(nèi)相關(guān)研究

      在可比語(yǔ)料庫(kù)雙語(yǔ)詞匯提取方面,張永臣等提出了一種從可比語(yǔ)料庫(kù)中抽取特定領(lǐng)域雙語(yǔ)詞典的算法,給出了利用詞間關(guān)系矩陣法從特定領(lǐng)域可比語(yǔ)料庫(kù)中抽取雙語(yǔ)詞典的過程,通過大量實(shí)驗(yàn)分析了種子詞選擇對(duì)詞典抽取結(jié)果的影響,其實(shí)驗(yàn)結(jié)果表明種子詞的數(shù)量和頻率對(duì)詞典抽取結(jié)果有積極作用[9]。孫廣范等采用雙向等價(jià)對(duì)獲取計(jì)算然后求交集等方法提高翻譯等價(jià)對(duì)提取正確率[10]。徐會(huì)芳等使用基于相似度計(jì)算和多特征融合的方法以及最小化樣本風(fēng)險(xiǎn)算法調(diào)節(jié)特征權(quán)重,來(lái)提高從可比語(yǔ)料庫(kù)中抽取雙語(yǔ)術(shù)語(yǔ)互譯對(duì)的準(zhǔn)確率[11]。在可比語(yǔ)料庫(kù)雙語(yǔ)句對(duì)提取方面,F(xiàn)ung等人提出利用通用網(wǎng)絡(luò)爬蟲持續(xù)抓取網(wǎng)絡(luò)資源來(lái)構(gòu)建面向多領(lǐng)域的超大規(guī)??杀日Z(yǔ)料庫(kù),從中提取平行句對(duì)改善機(jī)器翻譯性能。項(xiàng)目中使用面向招回和面向精度的算法,基于信息檢索技術(shù)處理網(wǎng)頁(yè),匹配文檔并提取平行句對(duì)。通過對(duì)網(wǎng)絡(luò)資源的深入挖掘,來(lái)獲取更多的語(yǔ)言資源[12]。胡弘思等在Wikipedia基礎(chǔ)上,統(tǒng)計(jì)詞匯數(shù)據(jù)、構(gòu)建命名實(shí)體詞典,并通過其本身的對(duì)齊機(jī)制構(gòu)建了雙語(yǔ)可比語(yǔ)料,從中抽取對(duì)齊句子[13]?;诒咀逭Z(yǔ)言模型的雙語(yǔ)資源提取方面,肖健等人通過構(gòu)建三元組可比語(yǔ)料庫(kù),解決了由中式英語(yǔ)導(dǎo)致的語(yǔ)言模型“扭斜”問題,進(jìn)一步提高了MWE的自動(dòng)抽取準(zhǔn)確率,改善機(jī)器翻譯效果[14]。另外雙語(yǔ)資源提取方面,張桂萍等提出了面向單一雙語(yǔ)網(wǎng)頁(yè)的雙語(yǔ)資源挖掘方法[15]。該方法重點(diǎn)采用了以頻繁序列模式為特征的SVM分類方法,實(shí)現(xiàn)了包含雙語(yǔ)資源的單一雙語(yǔ)網(wǎng)頁(yè)的篩選與識(shí)別,并以此為基礎(chǔ)構(gòu)建可比語(yǔ)料庫(kù),挖掘具有對(duì)譯的雙語(yǔ)資源。

      3 研究框架

      本文提出的研究框架包括三元組可比語(yǔ)料庫(kù)建設(shè),關(guān)鍵詞簇自動(dòng)剖析,語(yǔ)義多詞表達(dá)提取,以及翻譯模板自動(dòng)提取4個(gè)模塊。這4個(gè)模塊緊密銜接,三元組可比語(yǔ)料庫(kù)是本項(xiàng)研究的基礎(chǔ)設(shè)施,通過建設(shè)三元組可比語(yǔ)料庫(kù)的研究,將為整個(gè)項(xiàng)目實(shí)施提供數(shù)據(jù)資源。在此基礎(chǔ)上,通過對(duì)三元組可比語(yǔ)料庫(kù)的關(guān)鍵詞簇自動(dòng)剖析的研究,可以發(fā)現(xiàn)和比較本族英語(yǔ)與中式英語(yǔ)語(yǔ)言模型的區(qū)別特征,改進(jìn)和驗(yàn)證所采用的自動(dòng)剖析算法。在對(duì)關(guān)鍵詞簇統(tǒng)計(jì)研究的基礎(chǔ)上,將進(jìn)一步研究從三元組可比語(yǔ)料庫(kù)提取本族英語(yǔ)的語(yǔ)義多詞表達(dá)和翻譯模板的算法與模型,以期實(shí)現(xiàn)改進(jìn)和發(fā)展機(jī)器翻譯等自然語(yǔ)言處理系統(tǒng)性能的研究目標(biāo)。

      3.1 三元組可比語(yǔ)料庫(kù)建設(shè)

      圖5 三元組可比語(yǔ)料庫(kù)的構(gòu)建流程圖

      三元組可比語(yǔ)料庫(kù)是開展本項(xiàng)研究的基礎(chǔ)資源,到目前為止,已經(jīng)累計(jì)構(gòu)建了百萬(wàn)句對(duì)級(jí)的三元組可比語(yǔ)料庫(kù)。構(gòu)建語(yǔ)料庫(kù)的原始語(yǔ)料主要來(lái)自我院每年都要發(fā)布的幾十種,總字?jǐn)?shù)超過200萬(wàn)英語(yǔ)詞語(yǔ)的ICT領(lǐng)域研究報(bào)告。為確保研究報(bào)告譯文的準(zhǔn)確度和可讀性,所有報(bào)告的英文譯文,需經(jīng)本族英語(yǔ)的語(yǔ)言專家嚴(yán)格修改和編輯。每年積累的中式英語(yǔ)和修改后的本族英語(yǔ)文本經(jīng)過圖5所示的流程處理;通過語(yǔ)料庫(kù)比較分析工具,構(gòu)建滿足可比語(yǔ)料庫(kù)取樣框架(sampling frame)要求的三元組可比語(yǔ)料庫(kù)。為了保證定量比較分析的準(zhǔn)確度,利用工具過濾掉中式英語(yǔ)文本和本族英語(yǔ)文本之間差異在10行以上或者每行差異大于10%的句對(duì)。然后,使用我院的句法分析工具(CCID-CESAT)、語(yǔ)料庫(kù)標(biāo)注分析工具(CCID-CTAT)以及英國(guó)Lancaster大學(xué)Wmatrix和USAS語(yǔ)義分析工具,對(duì)三元組可比語(yǔ)料庫(kù)進(jìn)行句法分析、詞性和語(yǔ)義標(biāo)注。通過對(duì)語(yǔ)料庫(kù)所做的這些訓(xùn)練,為后續(xù)的關(guān)鍵詞簇自動(dòng)剖析、語(yǔ)義多詞表達(dá)和翻譯模板自動(dòng)提取的研究奠定了基礎(chǔ)。

      3.2 關(guān)鍵詞簇的自動(dòng)剖析

      在建立三元組可比語(yǔ)料庫(kù)的基礎(chǔ)上,利用統(tǒng)計(jì)方法研究關(guān)鍵詞簇在詞語(yǔ)、詞性和語(yǔ)義3個(gè)層面上的過使用和欠使用的語(yǔ)言現(xiàn)象,使用對(duì)數(shù)似然值(LL)定量分析關(guān)鍵詞簇的差異顯著性(keyness)。對(duì)數(shù)似然值計(jì)算方式如下:

      假設(shè)X為要考察的關(guān)鍵詞簇,a為中式英語(yǔ)語(yǔ)料庫(kù)中出現(xiàn)X的次數(shù),b為本族英語(yǔ)語(yǔ)料庫(kù)中出現(xiàn)X的次數(shù),c為中式英語(yǔ)語(yǔ)料庫(kù)中所有關(guān)鍵詞簇的數(shù)目,d為本族英語(yǔ)語(yǔ)料庫(kù)中所有關(guān)鍵詞簇的數(shù)目,其關(guān)系如表1的詞頻列聯(lián)表所示。

      表1 詞頻列聯(lián)表

      那么對(duì)數(shù)似然值(log-likelihood)計(jì)算方法[16]如下:

      Oi為觀察值,即表中的a、b值。Ei為期望值,其計(jì)算方法如下:

      中式英語(yǔ)語(yǔ)料庫(kù)中所有關(guān)鍵詞簇的數(shù)目為N1=c,本族英語(yǔ)語(yǔ)料庫(kù)中所有關(guān)鍵詞簇的數(shù)目為N2=d,那么中式英語(yǔ)和本族英語(yǔ)中關(guān)鍵詞簇的期望為:

      對(duì)上述公式進(jìn)一步解釋如下:先求某個(gè)詞X在整個(gè)語(yǔ)料庫(kù)(指兩個(gè)語(yǔ)料庫(kù):(1)中式英語(yǔ);(2)本族語(yǔ))中出現(xiàn)的概率(根據(jù)大數(shù)定理,用頻率近似表示概率)。算法步驟是:(1)將X在兩個(gè)語(yǔ)料庫(kù)中的頻次之和(a+b)除以語(yǔ)料庫(kù)中詞的總量(c+d),也就是Ei等式右邊除了Ni以外的那個(gè)分式。(2)再根據(jù)這個(gè)概率分別計(jì)算在中式英語(yǔ)中該詞的期望出現(xiàn)次數(shù),即為中式英語(yǔ)總詞量乘以該詞出現(xiàn)的概率。同理計(jì)算E2。

      依據(jù)上述公式得到的E1和E2,可以求得LL值:

      LL=2×((a×ln(a/E1))+(b×ln(b/E2)))

      對(duì)數(shù)似然值最大的關(guān)鍵詞簇排在列表的頂端,表明該詞簇在本族英語(yǔ)和中式英語(yǔ)之間頻次分布差異比較大。比如,某些關(guān)鍵詞簇在中式英語(yǔ)中被過度使用或者欠使用。依據(jù)對(duì)數(shù)似然值的變化差異,可以發(fā)現(xiàn)中式英語(yǔ)與本族英語(yǔ)的區(qū)別特征,為本項(xiàng)目自動(dòng)提取基于本族英語(yǔ)的翻譯模板和語(yǔ)義多詞表達(dá)研究提供重要參考。

      4 實(shí)驗(yàn)結(jié)果

      本研究利用關(guān)鍵詞簇自動(dòng)剖析技術(shù)(最大為5元詞串)從詞語(yǔ)表達(dá)層面分析了本族英語(yǔ)和中式英語(yǔ)的區(qū)別特征,計(jì)算出三元組可比語(yǔ)料庫(kù)中本族英語(yǔ)和中式英語(yǔ)在詞語(yǔ)表達(dá)層面的差異顯著性。根據(jù)給定的p值和LL值,生成關(guān)鍵詞簇過使用(overused)和欠使用(underused)對(duì)照表。表2僅列出對(duì)數(shù)似然值LL大于20的典型關(guān)鍵詞和關(guān)鍵詞簇。因?yàn)樵谟?jì)算期望值時(shí),已經(jīng)考慮到兩個(gè)語(yǔ)料庫(kù)的詞次規(guī)模(即c和d),所以在運(yùn)用公式前,不需要做歸一化處理[16]。事實(shí)上,表中給出的頻率可以認(rèn)為是以百萬(wàn)詞次做歸一化處理的,因此對(duì)表中所給數(shù)字可作直接比較。

      從表2的中式英語(yǔ)語(yǔ)料庫(kù)與本族英語(yǔ)語(yǔ)料庫(kù)(參考語(yǔ)料庫(kù))的詞語(yǔ)表達(dá)層差異顯著性剖析結(jié)果可以看出,e-government construction(電子政務(wù)建設(shè))、second-hand data(二手資料)和im portant significance(重要意義)等均為詞匯負(fù)遷移現(xiàn)象引起的過使用詞語(yǔ),而e-government development、indirect data和great significance為欠使用詞語(yǔ)。

      通過上述分析,可以在三元組可比語(yǔ)料庫(kù)中發(fā)現(xiàn)中式英語(yǔ)與本族英語(yǔ)的區(qū)別特征,實(shí)現(xiàn)自動(dòng)提取基于本族英語(yǔ)模型的多詞表達(dá)(MWEs)和翻譯模板,改進(jìn)和發(fā)展機(jī)器翻譯等自然語(yǔ)言的處理應(yīng)用。

      表2 詞語(yǔ)表達(dá)層差異顯著性剖析結(jié)果

      5 結(jié)論

      目前,構(gòu)建和剖析三元組可比語(yǔ)料庫(kù)的研究已在詞匯表記層面取得有效成果,對(duì)克服中英平行語(yǔ)料庫(kù)存在固有的扭斜的語(yǔ)言模型,建造和挖掘基于本族語(yǔ)言模型的雙語(yǔ)詞庫(kù),改進(jìn)機(jī)器翻譯等自然語(yǔ)言處理應(yīng)用具有很大的實(shí)用價(jià)值。嵌入本項(xiàng)研究成果的機(jī)譯系統(tǒng)已在國(guó)內(nèi)外得到廣泛使用。今后,按照本文的研究方法,也可以進(jìn)行詞性層面和語(yǔ)義層面的差異顯著性剖析研究。本項(xiàng)研究今后的目標(biāo),是把基于關(guān)鍵詞和關(guān)鍵詞簇方法的可比文本微觀研究擴(kuò)展到基于關(guān)鍵語(yǔ)義場(chǎng)(key semantic fields)的可比文本宏觀研究,使其支持內(nèi)容分析。這樣,就可以把當(dāng)前對(duì)特定的三元組可比語(yǔ)料庫(kù)的定量分析擴(kuò)大到泛化的基于內(nèi)容的可比文本的定性分析,有效地?cái)U(kuò)展了可比語(yǔ)料庫(kù)的研究與應(yīng)用。2013年8月召開的第6次“可比語(yǔ)料庫(kù)構(gòu)建和應(yīng)用(BUCC)”研討會(huì)的中心議題,是“改進(jìn)和發(fā)展可比語(yǔ)料庫(kù)經(jīng)典的術(shù)語(yǔ)挖掘技術(shù),提高數(shù)據(jù)挖掘準(zhǔn)確度,擴(kuò)展應(yīng)用覆蓋面”,值此之際發(fā)表本項(xiàng)研究成果更具有現(xiàn)實(shí)意義。最后,感謝英國(guó)Lancaster大學(xué)Paul Rayson博士在本項(xiàng)研究中給予的理論和方法上的指導(dǎo)。

      [1]Daille B.Building bilingual term inologies from comparable corpora:the TTC Term Suite[C]//Proceedings of the 5th Workshop on Building and Using Comparable Corpora,2012:29-32.

      [2]TTC Annual Public Report 2012[R].2012.

      [3]Wu Zhibiao,Palmer M.Verbs semantics and lexical selection[C]//Proceedings of the 32nd Annual Meeting on Association for Computational Linguistics(ACL’94),Association for Computational Linguistics,1994:133-138.

      [4]Bouamor D,Semmar N,Zweigenbaum P.Using Word Net and semantic similarity for bilingual terminology Mining from comparable corpora[C]//Proceedings of the 6th Workshop on Building and Comparable Corpora,2013:16-23.

      [5]Tillmann C,Xu Jianming.A simple sentence-level extraction algorithm for com parable data[C]//Proceedings of NAACL HLT2009,2009:93-96.

      [6]Munteanu D S,Marcu D.Extracting parallel sub-sentential fragments from non-parallel corpora[C]//Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL,Sydney,July 2006:81-88.

      [7]Genc Y,Lennon E A,Mason W,et al.Building ontologies from collaborative know ledge bases to search and interpret multilingual corpora[C]//Proceedings of the 9th Workshop on Building and Comparable Corpora,2013:87-94.

      [8]Lapshinova-Koltunski E.VARTRA:a comparable corpus for analysis of translation variation[C]//Proceedings of the 6th Workshop on Building and Comparable Corpora,2013:77-86.

      [9]張永臣,孫樂,李飛,等.基于Web數(shù)據(jù)的特定領(lǐng)域雙語(yǔ)詞典抽取[J].中文信息學(xué)報(bào),2006,20(2):16-23.

      [10]孫廣范,宋金平,袁琦,等.中英可比語(yǔ)料庫(kù)中翻譯等價(jià)對(duì)抽取方法研究[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(32):44-48.

      [11]徐會(huì)芳.可比語(yǔ)料中雙語(yǔ)多詞術(shù)語(yǔ)互譯對(duì)抽取方法研究[D].遼寧大連:大連理工學(xué)院,2013.

      [12]Fung P,Prochasson E,Shi S.Trillions of comparable documents Pascale Fung,Emmanuel Prochasson and Simon Shi[C]//Proceedings of Workshop on Building and Comparable Corpora,2010:26-34.

      [13]胡弘思.基于維基百科的雙語(yǔ)可比語(yǔ)料的句子對(duì)齊[D].上海:上海交通大學(xué),2013.

      [14]肖健,袁琦,宋金平.使用三元組可比語(yǔ)料庫(kù)改進(jìn)和發(fā)展機(jī)器翻譯系統(tǒng)[C]//第十四屆全國(guó)科技翻譯研討會(huì)論文集,2011:102-107.

      [15]羅陽(yáng),季鐸,張桂萍.面向單一雙語(yǔ)網(wǎng)頁(yè)的雙語(yǔ)資源挖掘方法[J].中文信息學(xué)報(bào),2011(1):110-115.

      [16]Rayson P.From key words to key semantic domains[M].[S.l.]:John Benjamins Publishing Company,2008.

      猜你喜歡
      三元組中式術(shù)語(yǔ)
      基于語(yǔ)義增強(qiáng)雙編碼器的方面情感三元組提取
      軟件工程(2024年12期)2024-12-28 00:00:00
      新年最美中式穿搭
      好日子(2024年1期)2024-02-20 00:43:57
      基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
      關(guān)于余撓三元組的periodic-模
      新·中式生活美學(xué)Chinese NewAge
      最美中式酒店,你去過幾個(gè)?
      金橋(2018年9期)2018-09-25 02:53:24
      中式烹飪營(yíng)養(yǎng)與健康
      三元組輻射場(chǎng)的建模與仿真
      有感于幾個(gè)術(shù)語(yǔ)的定名與應(yīng)用
      從術(shù)語(yǔ)學(xué)基本模型的演變看術(shù)語(yǔ)學(xué)的發(fā)展趨勢(shì)
      西华县| 阿合奇县| 陵水| 宿州市| 宁武县| 泰来县| 陇西县| 广安市| 富蕴县| 饶河县| 获嘉县| 凤台县| 蓝田县| 沛县| 陆丰市| 盐城市| 兴文县| 四会市| 唐山市| 班戈县| 鹰潭市| 兴国县| 太湖县| 乐清市| 赞皇县| 沿河| 上思县| 马公市| 光山县| 万山特区| 长汀县| 江孜县| 邵东县| 伽师县| 双城市| 额济纳旗| 临沂市| 侯马市| 普定县| 临邑县| 许昌市|