• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      機(jī)器翻譯錯(cuò)誤分析研究綜述

      2023-12-25 09:19:30裘白蓮
      關(guān)鍵詞:譯文人工錯(cuò)誤

      裘白蓮

      (華東交通大學(xué) 外國語學(xué)院,南昌 330013)

      一、引言

      近年來,隨著神經(jīng)機(jī)器翻譯(Neural Machine Translation,NMT)性能極大提升,機(jī)器翻譯從相對邊緣的地位逐漸成為翻譯研究中的熱點(diǎn)。為了解機(jī)器翻譯系統(tǒng)的性能,評估機(jī)器翻譯在多大程度上可用,需要對機(jī)器翻譯譯文質(zhì)量進(jìn)行評估。機(jī)器翻譯質(zhì)量評價(jià)主要有人工評價(jià)和自動(dòng)評價(jià)兩種方法。人工評價(jià)一般采用打分和排序的方法。自動(dòng)評價(jià)是使用自動(dòng)評價(jià)指標(biāo)對機(jī)器譯文進(jìn)行評價(jià),一般需要有參考譯文。也有不需要參考譯文的自動(dòng)評價(jià)方法,即機(jī)器翻譯質(zhì)量估計(jì),近年來有不少研究。常用的自動(dòng)評價(jià)指標(biāo)包括基于n元文法準(zhǔn)確率的BLEU、基于一元文法準(zhǔn)確率召回率和額外語言知識(shí)的METEOR、基于編輯距離的TER等。人工評價(jià)的優(yōu)點(diǎn)是準(zhǔn)確性好,但人力和時(shí)間成本較高,周期較長,不易獲得,不利于研究人員快速了解機(jī)器翻譯系統(tǒng)修改后質(zhì)量變化情況;此外,人工評價(jià)還存在評價(jià)者一致性不高的問題。自動(dòng)評價(jià)的優(yōu)點(diǎn)是速度快、成本低,但其準(zhǔn)確性依賴于參考譯文的質(zhì)量。

      人工評價(jià)和自動(dòng)評價(jià)都很重要,都為機(jī)器翻譯系統(tǒng)提供了有用的信息,幫助系統(tǒng)持續(xù)改善,但其都只是對機(jī)器翻譯系統(tǒng)的整體表現(xiàn)做整體評價(jià),無法反映機(jī)器翻譯系統(tǒng)存在的具體問題,無法提供機(jī)器譯文中不同錯(cuò)誤類型和錯(cuò)誤性質(zhì)等的具體信息。而這些信息對于了解和改善機(jī)器翻譯系統(tǒng)大有裨益。要了解這些信息,就需要進(jìn)行機(jī)器翻譯錯(cuò)誤分析。錯(cuò)誤分析可以找到機(jī)器翻譯系統(tǒng)存在的具體問題,了解其不足與短板,為其改進(jìn)找準(zhǔn)方向。近十幾年來,機(jī)器翻譯錯(cuò)誤分析在國外機(jī)器翻譯研究領(lǐng)域受到重視,出現(xiàn)很多相關(guān)研究。本文通過搜集和梳理自然語言處理、機(jī)器翻譯等相關(guān)領(lǐng)域的期刊和會(huì)議論文,介紹錯(cuò)誤分析相關(guān)研究的進(jìn)展情況。機(jī)器翻譯研究成果往往在相關(guān)國際會(huì)議上發(fā)表,主要包括ACL、EMNLP、WMT、EAMT、AMTA、LREC等。本文搜集的文獻(xiàn)主要來源于這些會(huì)議以及其他相關(guān)期刊。本文擬從以下三方面介紹錯(cuò)誤分析相關(guān)研究:錯(cuò)誤分類框架、自動(dòng)錯(cuò)誤標(biāo)注、錯(cuò)誤分析應(yīng)用。

      二、錯(cuò)誤分類

      錯(cuò)誤分析起源于20世紀(jì)60年代中介語相關(guān)研究,主要應(yīng)用于分析學(xué)習(xí)者語言,研究內(nèi)容包括錯(cuò)誤的分類、錯(cuò)誤的描述和解釋、錯(cuò)誤產(chǎn)生的原因等。在機(jī)器翻譯研究領(lǐng)域中,錯(cuò)誤分析指的是識(shí)別機(jī)器譯文中的錯(cuò)誤并對錯(cuò)誤進(jìn)行分類。

      錯(cuò)誤分析的過程一般包括定義錯(cuò)誤類型,識(shí)別錯(cuò)誤并進(jìn)行錯(cuò)誤標(biāo)注,依據(jù)錯(cuò)誤標(biāo)注結(jié)果進(jìn)行分析。定義錯(cuò)誤類型并不容易,原因在于:錯(cuò)誤類型需要反映機(jī)器翻譯系統(tǒng)的優(yōu)缺點(diǎn);需要考慮語言對,不同語言對機(jī)器翻譯的錯(cuò)誤類型有很大不同;錯(cuò)誤分類的粒度問題也很重要,粒度越細(xì),提供的信息越多,但細(xì)粒度錯(cuò)誤類型也更難區(qū)分;最后,錯(cuò)誤類型既要覆蓋語言層面的問題,又要覆蓋翻譯層面的問題。在錯(cuò)誤分類方面,研究者做了很多嘗試,定義了不同的錯(cuò)誤類型。以往的研究中,錯(cuò)誤分類主要基于三種方法:基于詞級別對比的分類、基于語言學(xué)知識(shí)的分類和基于譯后編輯操作的分類。

      (一)基于詞級別對比的錯(cuò)誤分類

      基于詞級別對比的錯(cuò)誤分類建立在機(jī)器譯文與參考譯文在詞級別對比的基礎(chǔ)上。Vilar等首次專門進(jìn)行錯(cuò)誤分析研究,提出一個(gè)人工錯(cuò)誤分類的框架,如表1。[1]該錯(cuò)誤分類影響廣泛,后來很多研究者或直接使用,或在此基礎(chǔ)上修改和擴(kuò)展。

      表1 Vilar等提出的錯(cuò)誤類型[1]

      (二)基于語言學(xué)知識(shí)的錯(cuò)誤分類

      基于語言學(xué)知識(shí)的錯(cuò)誤分類方法從語言學(xué)角度出發(fā),按照不同語言層次對錯(cuò)誤進(jìn)行分類。Farrús等提出語言學(xué)錯(cuò)誤分類,包括正字法、屈折、詞匯、語義和句法錯(cuò)誤,考察語言學(xué)質(zhì)量評價(jià)是否與感知質(zhì)量評價(jià)相一致。[2]Costa等按照錯(cuò)誤所在的語言層次將錯(cuò)誤分為五個(gè)級別:正字法、詞匯、語法、語義和語篇,提出一個(gè)基于語言學(xué)的細(xì)粒度錯(cuò)誤分類,如表2。[3]

      表2 Costa等提出的錯(cuò)誤類型[3]

      國內(nèi)錯(cuò)誤分類通常采用基于語言學(xué)的方法,關(guān)注語言學(xué)層面的錯(cuò)誤,包括詞匯、句法等。[4]羅季美、李梅通過華建英漢翻譯系統(tǒng)獲得汽車技術(shù)文獻(xiàn)的機(jī)器譯文,從近10萬個(gè)句對的機(jī)器譯文和人工譯文中,抽樣1000句,進(jìn)行錯(cuò)誤分類,分為詞匯、句法、符號三個(gè)一級錯(cuò)誤,下面細(xì)分二級錯(cuò)誤。[5]羅季美專門針對機(jī)器譯文中的句法錯(cuò)誤進(jìn)行標(biāo)注和統(tǒng)計(jì),包括名詞短語、動(dòng)詞短語、介詞短語等。[6]

      (三)基于譯后編輯操作的錯(cuò)誤分類

      譯后編輯和錯(cuò)誤分析是高度相關(guān)的工作,錯(cuò)誤分析是識(shí)別錯(cuò)誤,譯后編輯是糾正錯(cuò)誤。每個(gè)譯后編輯操作實(shí)際上都是在糾正錯(cuò)誤,因此可以把譯后編輯操作標(biāo)注為一種錯(cuò)誤類型或編輯類型。Blain等從譯后編輯實(shí)際操作的角度,將譯后編輯過程中所進(jìn)行的一套最小的邏輯編輯單位定義為譯后編輯行為(PEA),其錯(cuò)誤分類見表3,其研究發(fā)現(xiàn)大部分編輯操作產(chǎn)生于名詞意義。[7]

      表3 Blain等提出的錯(cuò)誤(編輯)類型[7]

      還有一些研究使用綜合的錯(cuò)誤分類,如崔啟亮、李聞等。[8]由于研究目的、分類基礎(chǔ)和應(yīng)用場景等不同,錯(cuò)誤分類也有很大的不同。目前還沒有統(tǒng)一的、可以適用于各種語言對和各種應(yīng)用場景的分類框架。

      三、自動(dòng)錯(cuò)誤標(biāo)注

      和機(jī)器翻譯人工評價(jià)一樣,人工錯(cuò)誤標(biāo)注也耗時(shí)耗力,且存在標(biāo)注者一致性不高的問題。因此不少研究者研究以自動(dòng)的方法對錯(cuò)誤進(jìn)行分類和標(biāo)注。自動(dòng)錯(cuò)誤標(biāo)注是按照一定的錯(cuò)誤分類,自動(dòng)識(shí)別和標(biāo)注錯(cuò)誤類型。已有的自動(dòng)錯(cuò)誤分類工具主要基于兩種方法,一種是基于單詞錯(cuò)誤率(WER)和位置無關(guān)單詞錯(cuò)誤率(PER)的自動(dòng)錯(cuò)誤分類,另一種是基于機(jī)器譯文和參考譯文對比的自動(dòng)錯(cuò)誤分類。

      Popovi?等通過WER和PER的差異獲得名詞、形容詞和動(dòng)詞的詞序和屈折錯(cuò)誤信息。[9]Popovi?&Ney 提出基于WER和PER的完全自動(dòng)的錯(cuò)誤分析框架,自動(dòng)識(shí)別屈折錯(cuò)誤、詞序錯(cuò)誤、漏詞、增詞、不正確選詞等五種錯(cuò)誤類型。[10]Popovi?開發(fā)自動(dòng)錯(cuò)誤分類和標(biāo)注工具Hjerson,可以自動(dòng)標(biāo)注五種錯(cuò)誤類型,屈折錯(cuò)誤、詞序錯(cuò)誤、漏詞、增詞和錯(cuò)詞。[11]

      將機(jī)器譯文和參考譯文在詞級別上對齊,將兩者做比較,可以自動(dòng)獲得機(jī)器譯文錯(cuò)誤的信息。Zemen等開發(fā)自動(dòng)錯(cuò)誤識(shí)別和標(biāo)注工具Addicter,將機(jī)器譯文和參考譯文詞對詞對齊,發(fā)現(xiàn)其不同之處。[12]該工具可以自動(dòng)檢測和標(biāo)注六種錯(cuò)誤類型,包括增詞、漏詞、形式錯(cuò)誤、詞匯錯(cuò)誤、標(biāo)點(diǎn)符號錯(cuò)誤、詞序錯(cuò)誤。

      還有一些從不同角度進(jìn)行的自動(dòng)錯(cuò)誤標(biāo)注的研究。Kirchhoff等提出半自動(dòng)錯(cuò)誤分析的方法,通過自動(dòng)或人工的方法提取源文特征,如來源、體裁、風(fēng)格、方言等,在篇章層面計(jì)算源文特征與HTER之間的互信息,研究哪些源文特征更容易引起翻譯問題。[13]Stymne開發(fā)工具BLAST,提供方便使用的圖形界面,輔助人工進(jìn)行錯(cuò)誤標(biāo)注。[14]其他用于錯(cuò)誤標(biāo)注的工具包括PET、Appraise、COSTA、MT-EQuAl等。

      早期的自動(dòng)錯(cuò)誤分類只能對一個(gè)詞給予一個(gè)錯(cuò)誤標(biāo)簽,但實(shí)際上有時(shí)很難判定一個(gè)詞到底屬于什么錯(cuò)誤類型,而且有時(shí)一個(gè)詞存在不止一種錯(cuò)誤,比如錯(cuò)詞可能同時(shí)也是詞序錯(cuò)誤。鑒于此,Popovi?等擴(kuò)展自動(dòng)錯(cuò)誤分類方法,對一個(gè)單詞標(biāo)注多個(gè)錯(cuò)誤類型標(biāo)簽,提高自動(dòng)錯(cuò)誤分類的準(zhǔn)確率。[15]

      自動(dòng)錯(cuò)誤標(biāo)注工具目前還不能識(shí)別細(xì)粒度的錯(cuò)誤類型,而且容易混淆錯(cuò)詞、漏詞和增詞錯(cuò)誤。盡管有這些缺點(diǎn),自動(dòng)標(biāo)注工具仍然很有用,使在短時(shí)間內(nèi)大規(guī)模地進(jìn)行錯(cuò)誤分析成為可能??梢姡詣?dòng)錯(cuò)誤標(biāo)注工具的研究具有很好的實(shí)用價(jià)值,在識(shí)別錯(cuò)誤類型的粒度、精度等方面,還有很大的進(jìn)步空間。

      除了對錯(cuò)誤的詞進(jìn)行分類和標(biāo)注,錯(cuò)誤分析還可以以其他方式進(jìn)行,如分析與參考譯文不匹配的詞、詞性或其他序列,對機(jī)器翻譯的時(shí)態(tài)、體和情態(tài)錯(cuò)誤進(jìn)行錯(cuò)誤分析,定義語言學(xué)范疇并專門針對這些語言學(xué)范疇進(jìn)行錯(cuò)誤分析等。

      四、錯(cuò)誤分析應(yīng)用

      錯(cuò)誤分析產(chǎn)生于機(jī)器翻譯質(zhì)量評價(jià),同時(shí)也被應(yīng)用于其他研究,如錯(cuò)誤類型與人工評價(jià)相關(guān)性研究,譯后編輯相關(guān)研究等。

      (一)評價(jià)機(jī)器翻譯質(zhì)量

      錯(cuò)誤分析最初就是用于診斷目的,在不同語言對和不同領(lǐng)域,對機(jī)器譯文進(jìn)行錯(cuò)誤標(biāo)注,根據(jù)錯(cuò)誤數(shù)量和錯(cuò)誤分布情況,評價(jià)機(jī)器翻譯系統(tǒng)的翻譯質(zhì)量。錯(cuò)誤分析可以用來評價(jià)某一個(gè)機(jī)器翻譯系統(tǒng),也可以對幾個(gè)不同的機(jī)器翻譯系統(tǒng)進(jìn)行對比和評價(jià)。

      2016 年NMT 出現(xiàn)使機(jī)器翻譯性能極大提升,相比傳統(tǒng)的RBMT 和SMT 在哪些方面有提升,NMT 在哪些方面存在不足,這些問題引起了研究者的興趣。Bentivogli 等發(fā)現(xiàn),與PBMT 相比,NMT 整體上需要的譯后編輯努力更少,在詞匯、形態(tài)和詞序錯(cuò)誤方面有了極大改進(jìn),但是其翻譯質(zhì)量隨著句長增加而快速下降。[16]Toral&Sanchez-Cartagena 使用WMT2016 的數(shù)據(jù),對NMT 和PBMT 進(jìn)行多方面的對比和評價(jià),包括六個(gè)語言對的九個(gè)翻譯方向。[17]他們在形態(tài)屈折和詞序方面得到類似的結(jié)論,發(fā)現(xiàn)隨著句長增加,NMT 性能急劇下降。Burchardt等通過人工構(gòu)建的、反映多種語言現(xiàn)象的測試集,對RBMT、PBMT和NMT進(jìn)行比較和評估,發(fā)現(xiàn)NMT 相比于PBMT 有顯著改進(jìn)。[18]Klubicka 等發(fā)現(xiàn),NMT 比表現(xiàn)最差的PBMT 系統(tǒng)錯(cuò)誤減少54%。[19]Calixto&Liu對基于圖像的多模態(tài)神經(jīng)機(jī)器翻譯進(jìn)行錯(cuò)誤分析,發(fā)現(xiàn)多模態(tài)神經(jīng)機(jī)器翻譯相比純文本神經(jīng)機(jī)器翻譯,各種類型的錯(cuò)誤都有減少。[20]Ye&Toral 針對英中翻譯方向,對基于Transformer 和RNN 兩種不同方法的NMT進(jìn)行比較,對WMT2019新聞測試集進(jìn)行細(xì)粒度錯(cuò)誤分析。其研究表明,基于Transformer的NMT比基于RNN的NMT錯(cuò)誤總數(shù)減少31%。[21]

      在錯(cuò)誤分析語料庫的建設(shè)方面也有不少進(jìn)展,出現(xiàn)了一些可公開獲得的錯(cuò)誤分析語料庫。例如,TRACE語料庫包含法英、英法譯后編輯譯文,其中有基本編輯距離錯(cuò)誤類型的標(biāo)注。還有Terra語料庫、TARAXü語料庫等。這些錯(cuò)誤分析語料庫為相關(guān)研究提供了數(shù)據(jù)基礎(chǔ)。

      錯(cuò)誤分析比人工評價(jià)和自動(dòng)評價(jià)提供更多細(xì)節(jié)的信息,能更直觀、準(zhǔn)確地評價(jià)機(jī)器翻譯質(zhì)量,對于深入了解機(jī)器翻譯系統(tǒng)的性能和不同機(jī)器翻譯系統(tǒng)的差異有重要作用。

      (二)錯(cuò)誤類型與人工評價(jià)相關(guān)性

      錯(cuò)誤分析豐富了傳統(tǒng)的機(jī)器翻譯質(zhì)量評價(jià)框架,也產(chǎn)生了一些有趣的研究問題,包括錯(cuò)誤類型與人工評價(jià)的關(guān)系,錯(cuò)誤類型與自動(dòng)評價(jià)指標(biāo)敏感性的關(guān)系。人工評價(jià)和自動(dòng)評價(jià)在很大程度上是“黑盒子”過程,人們對其評價(jià)的機(jī)制還不是很了解。比如,人工評價(jià)和自動(dòng)評價(jià)主要受什么因素的影響,錯(cuò)誤的頻率和錯(cuò)誤的類型哪個(gè)對其影響更大,不同錯(cuò)誤類型或各種錯(cuò)誤組合對其產(chǎn)生什么影響等。

      Farrús等將語言學(xué)質(zhì)量評價(jià)與傳統(tǒng)人工評價(jià)即感知質(zhì)量評價(jià)相比較,考察哪些語言錯(cuò)誤類型對感知質(zhì)量評價(jià)有更多影響。[2]Popovi?&Ney分析了單個(gè)或所有錯(cuò)誤頻率與自動(dòng)評價(jià)分?jǐn)?shù)之間的相關(guān)性。[10]這兩項(xiàng)研究使用兩種不同的錯(cuò)誤分類,兩者都表明錯(cuò)誤的總數(shù)與BLEU和TER值的相關(guān)性高。Kirchhoff等使用聯(lián)合分析法,將錯(cuò)誤類型及其頻率作為特征,研究使用者對機(jī)器翻譯不同類型錯(cuò)誤的直覺或情感偏好問題,研究結(jié)果發(fā)現(xiàn)詞序錯(cuò)誤是最不受喜歡的錯(cuò)誤類型,其次是詞義、形態(tài)和功能詞錯(cuò)誤。[22]

      Lommel 等(2014)從描述的角度探索了不同錯(cuò)誤類型、頻率與人工質(zhì)量判斷之間的關(guān)系。[23]這兩項(xiàng)研究都基于一個(gè)假設(shè),即出現(xiàn)頻率最高的錯(cuò)誤類型對人的質(zhì)量感知的影響最大,但是這種假設(shè)未經(jīng)證實(shí)。Federico等使用線性混合效應(yīng)模型,考察錯(cuò)誤類型與人工質(zhì)量判斷的相關(guān)性。[24]其研究發(fā)現(xiàn),某種特定錯(cuò)誤類型的頻率與人的偏好不相關(guān),漏詞對感知質(zhì)量評價(jià)的影響最大,每種自動(dòng)評價(jià)指標(biāo)對不同錯(cuò)誤類型的敏感性具有顯著差異。

      (三)譯后編輯

      隨著機(jī)器翻譯的發(fā)展,機(jī)器翻譯得到普遍應(yīng)用,對機(jī)器譯文進(jìn)行譯后編輯(MTPE)越來越成為人機(jī)合作翻譯的普遍形式。機(jī)器翻譯的質(zhì)量與譯后編輯努力直接相關(guān),一些研究試圖探究不同錯(cuò)誤類型與譯后編輯努力不同層面的關(guān)系。Krings將譯后編輯努力(post-editing effort)分為三個(gè)層面:(1)時(shí)間努力;(2)認(rèn)知努力;(3)技術(shù)努力。[25]時(shí)間是指譯后編輯所需的總時(shí)間。認(rèn)知努力包括識(shí)別機(jī)器譯文中的錯(cuò)誤、計(jì)劃如何改正錯(cuò)誤的必要步驟。技術(shù)努力即實(shí)際編輯操作,指產(chǎn)生譯后編輯譯文所需的擊鍵操作和復(fù)制粘貼操作。譯后編輯時(shí)間是認(rèn)知努力和技術(shù)努力的總和。這三者之間并不一定是一致的。有的錯(cuò)誤容易識(shí)別,需要的認(rèn)知努力少,但是需要較多技術(shù)努力才能改正。有的錯(cuò)誤需要極大的認(rèn)知努力,但需要的技術(shù)努力可能很少。Koponen使用編輯操作分類,考察各種錯(cuò)誤類型所需譯后編輯技術(shù)努力和認(rèn)知努力不一致的情況,研究發(fā)現(xiàn)句長影響認(rèn)知努力,詞序錯(cuò)誤更難修改,屈折錯(cuò)誤容易修改。[26]

      Popovi?等考察五種編輯操作類型(修改詞形錯(cuò)誤、修改詞序錯(cuò)誤、增加漏詞、刪除增詞、修改選詞錯(cuò)誤)與認(rèn)知努力和譯后編輯時(shí)間的關(guān)系。[27]研究發(fā)現(xiàn),修改錯(cuò)詞和詞序錯(cuò)誤的編輯操作需要的認(rèn)知努力最多,修改錯(cuò)詞所需要的譯后編輯時(shí)間最多,刪除增詞對譯后編輯認(rèn)知努力和時(shí)間影響都很少。Zaretskaya等研究哪些錯(cuò)誤類型更難進(jìn)行譯后編輯,帶給譯后編輯者更多挑戰(zhàn)。[28]Daems 等使用基于產(chǎn)品的譯后編輯工作量指標(biāo)HTER和基于過程的指標(biāo)如注視時(shí)長、注視點(diǎn)數(shù)、(平均)停頓率、譯后編輯時(shí)長、產(chǎn)出單元,識(shí)別對譯后編輯努力影響最大的機(jī)器翻譯錯(cuò)誤類型,發(fā)現(xiàn)不同錯(cuò)誤類型影響不同的譯后編輯努力指標(biāo)。[29]

      還有一些研究關(guān)注到譯后編輯教學(xué)方面。Koponen&Salmi 分析翻譯專業(yè)學(xué)生在沒有源文情況下,對英芬機(jī)器翻譯進(jìn)行譯后編輯的譯文,就PE譯文意思的正確性和語言的正確性進(jìn)行分析。[30]Koponen&Salmi使用五位翻譯專業(yè)學(xué)生對英芬機(jī)器翻譯譯后編輯的譯文,分析譯后編輯操作的正確性和必要性,研究發(fā)現(xiàn),大部分編輯操作是正確的,但是34%的編輯操作是不必要的。[31]Koponen 等分析翻譯專業(yè)學(xué)生對NMT、SMT、RBMT 三種機(jī)器翻譯系統(tǒng)的機(jī)器譯文進(jìn)行譯后編輯的譯文,考察不同機(jī)器翻譯系統(tǒng)所需的編輯操作的差異。[32]Yamada研究谷歌神經(jīng)機(jī)器翻譯對學(xué)生譯員譯后編輯的影響。[33]這些研究有助于了解學(xué)生譯員進(jìn)行譯后編輯時(shí)面臨的問題和困難,提高譯后編輯教學(xué)的針對性。目前這方面的研究還不多,有必要進(jìn)行更多、更深入的探討。

      五、總結(jié)和展望

      通過綜述近十幾年來國外機(jī)器翻譯錯(cuò)誤分析相關(guān)研究成果,相關(guān)研究已經(jīng)初步形成了基本的分析框架,并在這些框架下對相關(guān)問題有了一定程度的研究。整體來看,相關(guān)研究角度多樣,研究內(nèi)容豐富,研究方法新穎,有諸多可借鑒之處,為進(jìn)一步研究提供了很好的參考。但就錯(cuò)誤分析的復(fù)雜性和多樣性而言,當(dāng)前的相關(guān)研究整體上仍然處于探索階段,仍然存在一些不足之處:錯(cuò)誤分析的數(shù)據(jù)有限導(dǎo)致其結(jié)論無法一般化,自動(dòng)錯(cuò)誤標(biāo)注還無法識(shí)別細(xì)粒度錯(cuò)誤類別,錯(cuò)誤分析結(jié)合譯后編輯研究還不夠,對于翻譯教學(xué)的關(guān)注還遠(yuǎn)遠(yuǎn)不夠。通過比較思考,并聯(lián)系當(dāng)下問題的特點(diǎn),筆者認(rèn)為,我們可以從以下四個(gè)方面做出新的探索和突破。

      (一)驗(yàn)證已有研究成果

      由于不同語言之間差異大小不同、雙語資源不均衡,不同語言對機(jī)器翻譯系統(tǒng)發(fā)展程度不同,導(dǎo)致不同語言對機(jī)器翻譯錯(cuò)誤情況存在很大的差異,因此某一個(gè)語言對的錯(cuò)誤分析結(jié)果不一定適用于其他語言對。此外,錯(cuò)誤分析的數(shù)據(jù)通常比較有限,可能無法代表普遍性的問題。因此,后續(xù)研究需要在更豐富的語言對、更大數(shù)據(jù)上進(jìn)行多方驗(yàn)證。機(jī)器翻譯研究發(fā)展迅速,翻譯模型、翻譯技術(shù)更新很快,錯(cuò)誤分析需要緊跟機(jī)器翻譯研究的發(fā)展,以提供及時(shí)、有效的反饋。

      (二)自動(dòng)錯(cuò)誤分析

      錯(cuò)誤分析要及時(shí)為機(jī)器翻譯提供診斷和反饋,就需要提高效率,因此,自動(dòng)錯(cuò)誤識(shí)別和標(biāo)注的研究很有必要。自動(dòng)錯(cuò)誤標(biāo)注工具可以代替或輔助人工來進(jìn)行錯(cuò)誤標(biāo)注,極大提高錯(cuò)誤分析的效率。目前自動(dòng)錯(cuò)誤分析的研究還較少,自動(dòng)識(shí)別和標(biāo)注的錯(cuò)誤類型比較有限,而且局限于對少數(shù)語言對機(jī)器翻譯的錯(cuò)誤分析。未來在自動(dòng)錯(cuò)誤標(biāo)注的粒度、語言對等方面的研究仍然有很大的發(fā)展空間。

      (三)錯(cuò)誤分析與譯后編輯相結(jié)合

      錯(cuò)誤分析和譯后編輯是高度相關(guān)的工作,譯后編輯所需的工作量與MT系統(tǒng)所產(chǎn)生的翻譯錯(cuò)誤之間有明顯關(guān)聯(lián)。不同的MT錯(cuò)誤類型對譯后編輯努力產(chǎn)生什么影響,其對譯后編輯時(shí)間、認(rèn)知努力、技術(shù)努力的影響是否存在差異,不同錯(cuò)誤類型對譯后編輯認(rèn)知資源分配產(chǎn)生什么影響,哪些錯(cuò)誤類型更難進(jìn)行譯后編輯,MT錯(cuò)誤對譯后編輯努力具有多大預(yù)測能力,等等。目前對于這些問題還沒有很充分的研究。

      (四)錯(cuò)誤分析成果應(yīng)用于教學(xué)

      錯(cuò)誤分析能找出機(jī)器譯文存在的問題,發(fā)現(xiàn)錯(cuò)誤類型的數(shù)量和分布情況,有助于譯后編輯人員熟悉和了解機(jī)器翻譯系統(tǒng),總結(jié)錯(cuò)誤模式,總結(jié)改正錯(cuò)誤的技巧和方法,提高譯后編輯工作的效率。其同樣可以為譯后編輯教學(xué)提供參考,培養(yǎng)更了解機(jī)器翻譯的翻譯人員。目前的錯(cuò)誤分析研究很少結(jié)合翻譯教學(xué),很少關(guān)注譯后編輯人員的培養(yǎng),而高校也鮮有專門的譯后編輯課程,造成譯后編輯人才培養(yǎng)與市場需求脫節(jié)。將錯(cuò)誤分析研究的成果應(yīng)用于教學(xué)意義重大,對于培養(yǎng)譯后編輯人員具有很好的指導(dǎo)性,未來需要加強(qiáng)這方面的研究。

      本文旨在通過對機(jī)器翻譯錯(cuò)誤分析研究現(xiàn)狀的總結(jié)和發(fā)展趨勢的展望,為相關(guān)研究提供新視角新方法。與國外機(jī)器翻譯錯(cuò)誤分析研究相比,國內(nèi)的錯(cuò)誤分析研究的范圍和內(nèi)容相對較窄,具有以下幾個(gè)特點(diǎn):通常采用基于語言學(xué)的錯(cuò)誤分類方法;獨(dú)立于機(jī)器翻譯系統(tǒng);以實(shí)例分析、糾錯(cuò)方法探討為主要內(nèi)容;數(shù)據(jù)量較小,觀察的樣本有限。錯(cuò)誤分析是一種重要的機(jī)器翻譯質(zhì)量評價(jià)方法,為機(jī)器翻譯系統(tǒng)開發(fā)提供反饋,推動(dòng)機(jī)器翻譯研究的發(fā)展,并在其他相關(guān)研究中具有很好的應(yīng)用價(jià)值。由于其復(fù)雜性和多樣性,錯(cuò)誤分析研究存在多種發(fā)展和創(chuàng)新的可能,在機(jī)器翻譯研究和應(yīng)用中仍將發(fā)揮重要作用。

      猜你喜歡
      譯文人工錯(cuò)誤
      人工3D脊髓能幫助癱瘓者重新行走?
      軍事文摘(2022年8期)2022-11-03 14:22:01
      Stem cell-based 3D brain organoids for mimicking,investigating,and challenging Alzheimer’s diseases
      在錯(cuò)誤中成長
      人工,天然,合成
      人工“美顏”
      譯文摘要
      I Like Thinking
      新型多孔鉭人工種植牙
      不犯同樣錯(cuò)誤
      《錯(cuò)誤》:怎一個(gè)“美”字了得
      短篇小說(2014年11期)2014-02-27 08:32:41
      隆昌县| 竹北市| 邢台县| 宁陵县| 寻乌县| 九寨沟县| 无为县| 英山县| 雷山县| 晋中市| 磴口县| 山阴县| 黄山市| 安溪县| 垦利县| 新闻| 海南省| 什邡市| 东阿县| 读书| 饶平县| 施甸县| 米易县| 平原县| 浑源县| 广汉市| 普安县| 利津县| 孟津县| 株洲县| 麻城市| 苍山县| 南靖县| 正镶白旗| 道孚县| 德兴市| 尚义县| 曲靖市| 平和县| 水城县| 双辽市|