• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      英語(yǔ)翻譯軟件翻譯準(zhǔn)確性矯正算法設(shè)計(jì)

      2018-07-27 06:50:48黃登嫻
      現(xiàn)代電子技術(shù) 2018年14期
      關(guān)鍵詞:機(jī)器翻譯

      黃登嫻

      摘 要: 傳統(tǒng)機(jī)器翻譯方法采用管道式逐次操作對(duì)原始語(yǔ)料實(shí)施詞性標(biāo)識(shí)以及句法分析,獲取英語(yǔ)語(yǔ)言的句法結(jié)構(gòu),使得翻譯任務(wù)間存在的錯(cuò)誤迭代傳遞、結(jié)構(gòu)化實(shí)例準(zhǔn)確性降低,導(dǎo)致英語(yǔ)語(yǔ)言文學(xué)翻譯準(zhǔn)確性降低。因此,對(duì)英語(yǔ)語(yǔ)言文學(xué)中的機(jī)器翻譯準(zhǔn)確性方法進(jìn)行校對(duì)研究。設(shè)計(jì)基于知網(wǎng)的詞匯語(yǔ)義相似度以及對(duì)數(shù)線性模型,采用漢英依存樹到串的方式保存對(duì)應(yīng)的雙語(yǔ)語(yǔ)料,對(duì)源語(yǔ)言端實(shí)施依存結(jié)構(gòu)化處理,確保漢英雙語(yǔ)的對(duì)應(yīng)關(guān)系,通過(guò)知網(wǎng)運(yùn)算輸入需要翻譯句子(依存樹結(jié)構(gòu))同實(shí)例庫(kù)內(nèi)源語(yǔ)言(依存樹結(jié)構(gòu))中詞匯的語(yǔ)義相似度。描述了機(jī)器翻譯中相似實(shí)例檢索模塊以及譯文生成模塊的實(shí)現(xiàn)過(guò)程,通過(guò)面向數(shù)據(jù)的翻譯模型進(jìn)一步校對(duì)英語(yǔ)語(yǔ)言的準(zhǔn)確翻譯。實(shí)驗(yàn)結(jié)果表明,所提方法可得到準(zhǔn)確率高的譯文,具有較高的準(zhǔn)確性和穩(wěn)定性。

      關(guān)鍵詞: 英語(yǔ)翻譯軟件; 機(jī)器翻譯; 翻譯準(zhǔn)確性; 語(yǔ)義相似度; 矯正算法; 迭代傳遞; 依存樹結(jié)構(gòu)

      中圖分類號(hào): TN912.3?34; TP391.2 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2018)14?0170?03

      Design of translation accuracy correction algorithm for English translation software

      HUANG Dengxian

      (Civil Aviation Flight University of China, Guanghan 618300, China)

      Abstract: In the traditional machine translation method, the syntactic structure of English language is obtained by using the pipeline?type successive operation to perform part of speech identification and syntactic analysis of the original corpus, as a result, wrong iterative transfers exist, and the accuracy of structured examples is reduced in translation tasks, which reduces the accuracy of English language and literature translation. Therefore, a proofreading study is conducted for the machine translation accuracy method in English language and literature. The HowNet?based lexical semantic similarity and logarithm linear model are designed. The Chinese?English dependency?tree?to?string mode is adopted to store the corresponding bilingual corpus, so as to perform dependent structured processing of the source language terminal, and ensure the corresponding relationship between Chinese and English. The lexical semantic similarity degree between sentences (dependency tree structure) to be translated and the source language (dependency tree structure) in the instance base is operated and input by using the HowNet. The implementation processes of the similar instance retrieval module and translation text generation module in machine translation are described. The accurate translation of English language is further proofread by means of the data?oriented translation model. The experimental results show that the proposed method can obtain translation texts with high accuracy rate, and has high accuracy and stability.

      Keywords: English translation software; machine translation; translation accuracy; semantic similarity degree; correction algorithm; iterative transfer; dependency tree structure

      機(jī)器翻譯是自然語(yǔ)言操作范圍中的關(guān)鍵,具有較高的應(yīng)用價(jià)值。依據(jù)實(shí)例的機(jī)器翻譯是一種經(jīng)驗(yàn)主義的英語(yǔ)語(yǔ)言文學(xué)翻譯策略,其無(wú)需復(fù)雜的深層次語(yǔ)法以及語(yǔ)義的分析,提高了英語(yǔ)語(yǔ)言翻譯的效率。但是基于實(shí)例的機(jī)器翻譯方法對(duì)實(shí)例庫(kù)質(zhì)量的要求較高[1]。傳統(tǒng)機(jī)器翻譯方法采用管道式逐次操作對(duì)原始語(yǔ)料實(shí)施詞性標(biāo)識(shí)以及句法分析,獲取英語(yǔ)語(yǔ)言的句法結(jié)構(gòu),使得翻譯任務(wù)間存在的錯(cuò)誤迭代傳遞、結(jié)構(gòu)化實(shí)例準(zhǔn)確性降低,導(dǎo)致英語(yǔ)語(yǔ)言文學(xué)翻譯準(zhǔn)確性降低。針對(duì)該問(wèn)題,本文研究了英語(yǔ)語(yǔ)言文學(xué)中的機(jī)器翻譯準(zhǔn)確性方法,塑造并實(shí)現(xiàn)基于漢英依存樹串實(shí)例的機(jī)器翻譯系統(tǒng),提高了英語(yǔ)機(jī)器翻譯的準(zhǔn)確性。

      1 基礎(chǔ)算法與模型

      1.1 依存樹到串模型

      依存樹到串的模型為,是一個(gè)翻譯對(duì),D表示源語(yǔ)言的依存樹,S表示源語(yǔ)言的目標(biāo)詞語(yǔ)串,A用于描述D與S間的詞對(duì)齊關(guān)系[2?3],依據(jù)依存樹到串雙語(yǔ)對(duì)齊模型的實(shí)例如圖1所示。

      圖1實(shí)例上端時(shí)源語(yǔ)言的依存樹D,D內(nèi)各街道包括詞語(yǔ)以及詞性兩個(gè)特征,各詞語(yǔ)下的英文表示單詞對(duì)應(yīng)的詞性,如NN表示名詞,VV表示動(dòng)詞,JJ表示形容詞等。單詞中的線段用于描述詞語(yǔ)間的依存關(guān)系。實(shí)例下端時(shí)中文句子對(duì)應(yīng)的英文字符串序列S。上端和下端的虛線用于描述中文單詞節(jié)點(diǎn)同英文單詞間的對(duì)齊關(guān)系[4]。

      1.2 基于知網(wǎng)的詞匯語(yǔ)義相似度

      相似度的取值范圍是[0,1],不同詞語(yǔ)[W1],[W2]間的語(yǔ)義相似度為:

      [Simsemantic(W1,W2)=maxi=1,2,…,n,j=1,2,…,mSim(S1i,S2i)] (1)

      式中,[S1i(i=1,2,…,n)]以及[S2i(i=1,2,…,m)]用于描述詞語(yǔ)[W1],[W2]中存在的n個(gè)以及m個(gè)概念。兩個(gè)詞語(yǔ)的語(yǔ)義相似度是兩詞各概念相似的最高值。

      詞語(yǔ)的概念相似度能夠采用概念的義原相似度進(jìn)行描述,采用式(2)運(yùn)算義原[p1]以及[p2]的相似度:

      [Sim(p1,p2)=αd+α] (2)

      式中:[α]是可調(diào)控參數(shù);[d]是兩個(gè)義原在義原樹中的路徑距離,其值非負(fù)。

      1.3 對(duì)數(shù)線性模型

      對(duì)數(shù)線性模型采用多特征思維的判斷模型[5]。針對(duì)一個(gè)設(shè)定的句子[fJI=fI…,fj…,fJ],形成譯文[eJI=eI…,ej…,eJ],其最大熵的翻譯模型是:

      [eJI=m=1MλmhmeJI,fJI] (3)

      對(duì)數(shù)線性模型可拓展性強(qiáng),能夠針對(duì)不同的目標(biāo)要求設(shè)置對(duì)應(yīng)特征,可將多種多樣的語(yǔ)言學(xué)方法運(yùn)用到機(jī)器翻譯中。正反向翻譯概率以及譯文語(yǔ)言模型等特征函數(shù),是機(jī)器翻譯系統(tǒng)的主要形式[6]。基于翻譯系統(tǒng)的實(shí)際要求自動(dòng)設(shè)置特征函數(shù)以及相應(yīng)的特權(quán)權(quán)重,依據(jù)式(3)獲取對(duì)產(chǎn)生的譯文評(píng)分分?jǐn)?shù)最高的最優(yōu)譯文。

      1.4 機(jī)器翻譯系統(tǒng)的實(shí)現(xiàn)

      采用Sato & Nagao方法對(duì)依存機(jī)構(gòu)描述,將依存樹到串對(duì)齊實(shí)例的源語(yǔ)言依存樹實(shí)施形式化描述,通過(guò)匹配描述式方法對(duì)實(shí)例庫(kù)內(nèi)的實(shí)例片段實(shí)施檢測(cè),獲取輸入句子,實(shí)現(xiàn)相似實(shí)例檢測(cè)。匹配表達(dá)式采用替換、過(guò)濾以及增加三種方式[7?8]。在沒(méi)有依存樹架構(gòu)關(guān)系層的目標(biāo)語(yǔ)詞串中,相應(yīng)的譯文表達(dá)式也隨之改變[9]。以下是源語(yǔ)言依存樹到串實(shí)例D3以及實(shí)例D5在實(shí)例庫(kù)中的結(jié)構(gòu)展示:

      D3:[c2],[購(gòu)入],

      [c22,[她,PN]],

      [c23,[XX]]

      %%我購(gòu)入XX

      S3:[e21,she]

      [e22,buy]

      [e23,XX]

      %%i buy XX

      A3([c21,e22],[c22,e21],[c23,e23])

      %%c21[?]e22,c22[?]e21,c23[?]e23

      D5:[c51,[書NN]],

      [c52,[一,CD]],

      [c53,[英語(yǔ)NN]],

      [c54,本DT]

      %%一本政治書

      S5:[e51,a]

      [e52,english]

      [e53,book]

      %%a english book

      A5([c51,e53],[c52,e51],[c53,e52],[c54,e51])

      %% c51[?]e53,c52[?]e51,c53[?]e52,c54[?]e51

      實(shí)例庫(kù)中,像e21,e51這樣的標(biāo)識(shí)是以單詞順序進(jìn)行標(biāo)號(hào)的,目標(biāo)詞語(yǔ)串S的標(biāo)號(hào)是前標(biāo)中有“e”。針對(duì)例句“她購(gòu)入一本英語(yǔ)書”,融入源語(yǔ)言實(shí)例D3與D5檢測(cè)獲取[c21,[r,c23[c51]]]是其中一個(gè)相應(yīng)的表達(dá)式[10]。通過(guò)該目標(biāo)匹配表達(dá)式獲取輸入語(yǔ)句的目標(biāo)語(yǔ)譯文是:

      I buy a politics book。

      依據(jù)本文對(duì)數(shù)線性模型,運(yùn)用的特征函數(shù)為:

      1) 正反向翻譯概率,當(dāng)單詞量相同,被譯句子和譯句實(shí)例間存在相同的單詞量較多,運(yùn)用的特征函數(shù)會(huì)產(chǎn)生更正確的譯文。

      2) 語(yǔ)言模型。產(chǎn)生譯文的品質(zhì)用該函數(shù)來(lái)衡量,提高譯文的流暢度。本文通過(guò)目標(biāo)語(yǔ)言的語(yǔ)言模型可求出目標(biāo)語(yǔ)言中存在翻譯片段的概率。

      2 實(shí)驗(yàn)分析

      2.1 實(shí)驗(yàn)設(shè)置

      實(shí)驗(yàn)語(yǔ)料為CWMT 2015官方測(cè)評(píng)采用的漢英新聞?wù)Z料,從中采集大約42萬(wàn)句對(duì)英漢平行語(yǔ)料,當(dāng)成雙語(yǔ)實(shí)例庫(kù)的初始語(yǔ)料。將CWMT 2015官方評(píng)測(cè)用的測(cè)試集當(dāng)成測(cè)試集,實(shí)驗(yàn)語(yǔ)料情況如表1所示。

      2.2 實(shí)驗(yàn)結(jié)果及分析

      為了檢測(cè)本文系統(tǒng)的有效性,實(shí)驗(yàn)基于表1的語(yǔ)料庫(kù),對(duì)比分析本文系統(tǒng)、基于語(yǔ)義語(yǔ)言的機(jī)器翻譯系統(tǒng)以及開源的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的翻譯結(jié)果見(jiàn)表2。

      表2中的BLEU是對(duì)待評(píng)估譯文和參考譯文的n?單位片段實(shí)施對(duì)比分析,運(yùn)算出匹配片段的數(shù)量越高,待評(píng)估的譯文質(zhì)量越好。NIST是譯文質(zhì)量評(píng)估的計(jì)量標(biāo)準(zhǔn),用于評(píng)估譯文單位量譯文的質(zhì)量,其值越高,說(shuō)明譯文質(zhì)量越佳。分析表2可得,本文系統(tǒng)BLEU值以及NIST值都高于其他兩種系統(tǒng),說(shuō)明本文機(jī)器翻譯系統(tǒng)的性能更優(yōu),是一種有效的英語(yǔ)語(yǔ)言文學(xué)翻譯方法。

      實(shí)驗(yàn)從三種翻譯系統(tǒng)的譯文結(jié)果中采集局部譯文實(shí)施分析,表3是測(cè)試集中語(yǔ)句“信息產(chǎn)業(yè)呈現(xiàn)快速發(fā)展趨勢(shì)”,采用三種翻譯系統(tǒng)翻譯獲取的譯文情況。

      分析表3中三種翻譯系統(tǒng)的翻譯差異在于對(duì)“快速發(fā)展”一詞,開源的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)翻譯的譯文是“fast change”,基于語(yǔ)義語(yǔ)言的機(jī)器翻譯系統(tǒng)的翻譯的譯文是“keeping the momentum going”同原詞存在較高的偏差,不符合英語(yǔ)的語(yǔ)法和語(yǔ)義。而本文系統(tǒng)對(duì)該詞的翻譯結(jié)果雖然同參考翻譯語(yǔ)序不一致,但是語(yǔ)義卻滿足要求,具有較高的準(zhǔn)確性。

      表4和表5是本文系統(tǒng)和基于語(yǔ)義語(yǔ)言的機(jī)器翻譯系統(tǒng)對(duì)實(shí)驗(yàn)語(yǔ)料庫(kù)中的語(yǔ)句進(jìn)行英譯漢以及漢譯英的翻譯結(jié)果。兩個(gè)表中的首列是兩種系統(tǒng)對(duì)各句子翻譯結(jié)果的平均數(shù),本文系統(tǒng)的平均數(shù)小于基于語(yǔ)義語(yǔ)言的機(jī)器翻譯系統(tǒng),表明本文系統(tǒng)形成不準(zhǔn)確的結(jié)果較少。分析兩個(gè)表中的第2列翻譯結(jié)果中準(zhǔn)確翻譯的召回率,也就是準(zhǔn)確的翻譯數(shù)比重,可以看出,本文系統(tǒng)的召回率更高。分析兩個(gè)表內(nèi)的第3和第4列可得,本文系統(tǒng)的翻譯結(jié)果中首位以及前2位的正確翻譯率,比基于語(yǔ)義語(yǔ)言的機(jī)器翻譯系統(tǒng)高8~9個(gè)百分點(diǎn)以及11~13個(gè)百分點(diǎn)。綜合分析這些結(jié)果可得,本文系統(tǒng)提高了翻譯結(jié)果的準(zhǔn)確性,具有較高的英語(yǔ)語(yǔ)言文學(xué)翻譯性能和穩(wěn)定性。

      3 結(jié) 論

      本文對(duì)英語(yǔ)語(yǔ)言文學(xué)中的機(jī)器翻譯準(zhǔn)確性方法進(jìn)行研究,塑造并實(shí)現(xiàn)基于漢英依存樹串實(shí)例的機(jī)器翻譯系統(tǒng),完成英語(yǔ)語(yǔ)言文學(xué)的準(zhǔn)確翻譯。

      參考文獻(xiàn)

      [1] 汪昆,宗成慶,蘇克毅.統(tǒng)計(jì)機(jī)器翻譯和翻譯記憶的動(dòng)態(tài)融合方法研究[J].中文信息學(xué)報(bào),2015,29(2):87?94.

      WANG Kun, ZONG Chengqing, SU Keyi. Dynamic combination of statistical machine translation and translation memory [J]. Journal of Chinese information processing, 2015, 29(2): 87?94.

      [2] BAKHVALOV P A, KOZUBSKAYA T K. Modification of flux correction method for accuracy improvement on unsteady problems [J]. Journal of computational physics, 2017, 338: 199?216.

      [3] 季鐸,馬斌,葉娜.交互式機(jī)器翻譯中譯文查詢行為的預(yù)測(cè)技術(shù)[J].計(jì)算機(jī)應(yīng)用,2015,35(4):1009?1012.

      JI Duo, MA Bin, YE Na. Prediction technology of translation query behavior in interactive machine translation [J]. Journal of computer applications, 2015, 35(4): 1009?1012.

      [4] ZHANG C, CHENG Y, ZHU L, et al. Accuracy improvement of the immersed boundary: lattice Boltzmann coupling scheme by iterative force correction [J]. Computers & fluids, 2016, 124: 246?260.

      [5] 李英軍.機(jī)器翻譯與翻譯技術(shù)研究的現(xiàn)狀與展望:伯納德·馬克·沙特爾沃思訪談錄[J].中國(guó)科技翻譯,2014,27(1):24?27.

      LI Yingjun. The present situation and prospect of the research on machine translation and translation technology: an interview with Bernard Mark Shuttleworth [J]. Chinese science & technology translators journal, 2014, 27(1): 24?27.

      [6] 劉智穎,郭艷波,晉耀紅.漢英機(jī)器翻譯中格式轉(zhuǎn)換研究[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(6):192?196.

      LIU Zhiying, GUO Yanbo, JIN Yaohong. Format conversion in Chinese?English machine translation [J]. Computer engineering and applications, 2014, 50(6): 192?196.

      [7] 余洪英.基于決策樹的商務(wù)英語(yǔ)實(shí)踐教學(xué)成效評(píng)價(jià)[J].科技通報(bào),2016,32(2):229?232.

      YU Hongying. Business English practice teaching performance evaluation based on decision?making tree [J]. Bulletin of science and technology, 2016, 32(2): 229?232.

      [8] 張冬梅,晉耀紅.面向?qū)@麢C(jī)器翻譯的要素句蛻識(shí)別和轉(zhuǎn)換研究[J].計(jì)算機(jī)科學(xué),2014,41(z1):67?71.

      ZHANG Dongmei, JIN Yaohong. Recognition and transformation for element sub?sentences in patent machine translation [J]. Computer science 2014, 41(S1): 67?71.

      [9] 李強(qiáng),李沐,張冬冬,等.統(tǒng)計(jì)機(jī)器翻譯中實(shí)例短語(yǔ)對(duì)研究[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,52(1):113?119.

      LI Qiang, LI Mu, ZHANG Dongdong, et al. Research on example?based phrase pairs in statistical machine translation [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2016, 52(1): 113?119.

      [10] PAN L, LI S, JIA H, et al. Error correction and evaluation for axis translation test technique [J]. Journal of Shenzhen University, 2017, 34(3): 259?260.

      猜你喜歡
      機(jī)器翻譯
      海量數(shù)據(jù)機(jī)器單詞中關(guān)鍵語(yǔ)義篩選方法研究
      機(jī)器翻譯不可盲取
      青春歲月(2017年1期)2017-03-14 11:28:47
      信息時(shí)代下機(jī)器翻譯的“可譯”與“不可譯”
      互聯(lián)網(wǎng)+新時(shí)代下人機(jī)翻譯模式研究
      考試周刊(2017年2期)2017-01-19 09:13:50
      “語(yǔ)聯(lián)網(wǎng)+行業(yè)” 助力中國(guó)偉大復(fù)興
      考試周刊(2017年2期)2017-01-19 09:12:54
      大數(shù)據(jù)背景下石油科技翻譯
      機(jī)器翻譯不可盲取
      基于免費(fèi)在線翻譯工具的機(jī)器翻譯缺陷探討
      漢哈機(jī)器翻譯中的文字轉(zhuǎn)換技術(shù)研究
      機(jī)器翻譯句法錯(cuò)誤分析
      安宁市| 开化县| 黄浦区| 商都县| 溆浦县| 华容县| 公安县| 宜宾县| 米泉市| 黄石市| 郴州市| 南宁市| 成都市| 长岭县| 凤阳县| 西青区| 永平县| 陆川县| 仁布县| 城固县| 柳江县| 凌源市| 三门峡市| 屏东市| 阿拉善左旗| 尉犁县| 鄂尔多斯市| 崇仁县| 抚远县| 台江县| 苍南县| 乡宁县| 玉环县| 乾安县| 中宁县| 固始县| 宜兰县| 且末县| 武宁县| 怀化市| 遂平县|