• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      谷歌神經(jīng)翻譯器英譯漢過程中的詞義排歧問題

      2019-04-29 06:29:18
      福建質(zhì)量管理 2019年9期
      關(guān)鍵詞:信函歧義詞義

      (四川大學(xué) 四川 成都 610207)

      一、背景介紹

      機(jī)器翻譯這個(gè)話題在翻譯界備受關(guān)注,人工智能的應(yīng)用使得機(jī)器翻譯輸出的譯文質(zhì)量大有提升。因此譯者應(yīng)該充分認(rèn)識(shí)到機(jī)器翻譯的重要性,了解機(jī)器翻譯并讓其為我們所用。提升機(jī)器翻譯譯文質(zhì)量面臨的一大挑戰(zhàn)便是詞義排歧,一個(gè)機(jī)器翻譯軟件譯文質(zhì)量的好壞基本取決于其詞義排歧的能力。許多學(xué)者們也著眼于此,期望提升翻譯器的詞義排歧能力。

      功夫不負(fù)有心人,機(jī)器翻譯在某些領(lǐng)域的排歧能力已可媲美人工翻譯,例如實(shí)時(shí)天氣預(yù)報(bào)、金融新聞報(bào)道以及軟件本地化手冊(cè)。于2016年發(fā)布的谷歌神經(jīng)翻譯器也在詞義排歧問題上有了重大突破。據(jù)谷歌發(fā)表的論文稱,比起之前基于短語的翻譯器,谷歌神經(jīng)翻譯器在很多語言對(duì)翻譯中平均減少了60%的錯(cuò)誤率,與人工翻譯結(jié)果越來越接近。雖然它還是會(huì)出現(xiàn)一些人工翻譯不會(huì)出現(xiàn)的問題,在排歧方面也還不盡完美,但考慮到語篇的組成成分,歧義在一定程度總是伴隨著語篇存在的。而且開發(fā)機(jī)器翻譯的初衷是為了輔助譯者更高效地進(jìn)行翻譯工作,而不是為了取而代之。多數(shù)翻譯工作者仍將會(huì)是機(jī)器翻譯詞義排歧能力提升的受益者。

      二、研究目的及方法介紹

      本文選取了數(shù)個(gè)文本來探索谷歌神經(jīng)翻譯器在排歧方面的表現(xiàn)及錯(cuò)誤規(guī)律,通過對(duì)比分析推論出其所擅長翻譯的文本類型,并提出一些可行的方法來提升其詞義排歧的表現(xiàn)?;谠谠擃I(lǐng)域應(yīng)用機(jī)器翻譯的可行性和實(shí)用性的現(xiàn)實(shí)考量,本文所選取文本為商務(wù)信函和商務(wù)合同。商務(wù)文本專業(yè),嚴(yán)謹(jǐn),凝練和實(shí)用的特點(diǎn)奠定了運(yùn)用機(jī)器翻譯的基礎(chǔ)。既然要分析譯文質(zhì)量,便要有一套可量化的分析標(biāo)準(zhǔn),學(xué)界提出了多種用于分析譯文質(zhì)量的標(biāo)準(zhǔn),例如豪斯的翻譯質(zhì)量評(píng)估模式。但考慮到此處是用于分析機(jī)器翻譯譯文質(zhì)量,簡單的分析標(biāo)準(zhǔn)便足夠。因此本文融合了嚴(yán)復(fù)所提出的“信達(dá)雅”以及奈達(dá)所提出的“功能對(duì)等”理論。由于商務(wù)文本的目的是準(zhǔn)確專業(yè)地傳達(dá)譯文信息,因此結(jié)合其翻譯目的,本文用于分析谷歌神經(jīng)翻譯器英文質(zhì)量的標(biāo)準(zhǔn)為“信”,“達(dá)”,以及“術(shù)語對(duì)等”。

      三、歧義與詞義排歧

      歧義是自然語言中存在的普遍現(xiàn)象。對(duì)機(jī)器翻譯來講,如果處理不好詞義排歧問題,那么輸出譯文的質(zhì)量肯定是堪憂的。在英譯漢過程中,我們面對(duì)的歧義主要分為兩大塊:語義歧義和句法歧義(楊良生,1994)。語義歧義主要來源于詞義選擇問題,可進(jìn)一步分為詞匯歧義和語法歧義。而機(jī)器翻譯主要處理的是詞匯層面的歧義。

      機(jī)器翻譯技術(shù)已現(xiàn)世60多年。而詞義排歧問題仍是制約其發(fā)展的瓶頸。詞義排歧這一概念是由Weaver在一場(chǎng)機(jī)器翻譯大會(huì)上首次提出的。他指出,若要使機(jī)器習(xí)得人類辨別詞語歧義的能力,那么機(jī)器必須要會(huì)如何在特定語境下選擇某一詞匯的正確含義。語境是影響機(jī)器詞義排歧性能的最主要因素。國內(nèi)外學(xué)者提出了多種模型來解決詞義排歧問題。有的模型在進(jìn)化過程中被淘汰了,例如最大頻率法(most frequency approach)和選擇限制法(selectional restriction approach),有的模型經(jīng)歷了時(shí)間的考驗(yàn)留存了下來,例如基于語料庫法(corpus-based approach)以及統(tǒng)計(jì)法(statistic methods)(馮志偉,2004)。

      谷歌神經(jīng)翻譯器的詞義排歧模型為監(jiān)督式學(xué)習(xí)法,通過引入人工智能技術(shù),將文本標(biāo)記并經(jīng)過一系列試錯(cuò)過程來提升其譯文質(zhì)量。這便是所謂的深度學(xué)習(xí)。機(jī)器將通過反芻被標(biāo)記的文本,達(dá)到修正輸出譯文質(zhì)量的目的。

      四、結(jié)果及分析

      (一)商務(wù)信函排歧錯(cuò)誤規(guī)律分析

      商務(wù)信函是與商業(yè)伙伴建立聯(lián)系的一種方式。它比日常收發(fā)的電子郵件更為正式。但是,它的正式度又次于商業(yè)合同。商務(wù)信函特點(diǎn)是簡潔凝練,較為專業(yè),使用商業(yè)術(shù)語,但應(yīng)注意其禮貌用法。

      筆者選擇了3封商務(wù)信函,一封用于建立業(yè)務(wù)關(guān)系,一封用于詢盤,一封用于報(bào)價(jià)。對(duì)比譯本為人工翻譯的正確版本和谷歌神經(jīng)翻譯器處理的譯本。收集數(shù)據(jù)階段,本文作者對(duì)所選文本按句子數(shù)量進(jìn)行了標(biāo)注,以便追溯出錯(cuò)之處。但由于本論文篇幅有限,具體的數(shù)據(jù)結(jié)果無法一一列舉。文章將直接呈現(xiàn)總體的錯(cuò)誤數(shù)量及其類別。錯(cuò)誤類別按照英文詞性以及商務(wù)文件術(shù)語劃分為名詞排歧錯(cuò)誤、動(dòng)詞排歧錯(cuò)誤、形容詞排歧錯(cuò)誤、術(shù)語排歧錯(cuò)誤、代詞排歧錯(cuò)誤、介詞排歧錯(cuò)誤以及短語排歧錯(cuò)誤。

      在商務(wù)信函中選出了57個(gè)單詞和短語,谷歌神經(jīng)翻譯正確的為8個(gè),錯(cuò)誤分別為12個(gè)名詞,9個(gè)動(dòng)詞,8個(gè)形容詞,7個(gè)術(shù)語,5個(gè)代詞,4個(gè)介詞,4個(gè)短語。

      名詞排歧錯(cuò)誤與單詞的一詞多義密不可分,谷歌在特定語境中沒有選擇出正確的單詞含義;動(dòng)詞排歧錯(cuò)誤主要與文本本身的流暢性和全面性有關(guān),谷歌翻譯的版本讓人很費(fèi)解;形容詞排歧錯(cuò)誤是由于語境疏忽而造成的;介詞排歧錯(cuò)誤是谷歌無法確定介詞在句中的成分;谷歌由于缺乏商業(yè)知識(shí)背景而造成了商業(yè)領(lǐng)域常見的代詞,術(shù)語和短語的排歧錯(cuò)誤。

      (二)商務(wù)合同排歧錯(cuò)誤規(guī)律分析

      商業(yè)合同具有法律約束力,專業(yè)度和嚴(yán)謹(jǐn)度高,結(jié)構(gòu)復(fù)雜,夾雜各種長難句和復(fù)合句。語言特點(diǎn)正式,使用商業(yè)術(shù)語,古英語,如“hereby,hereunder,and thereafter”。因此,合同翻譯需要大量商務(wù)領(lǐng)域的知識(shí)。出于同樣的原因,如果機(jī)器可以習(xí)得商業(yè)方面的知識(shí),它將有可能比人工翻譯更加高效。

      本文節(jié)選了一些商務(wù)合同片段,對(duì)比譯本為人工翻譯的正確版本和谷歌神經(jīng)翻譯器處理的譯本。收集數(shù)據(jù)階段,本文作者對(duì)所選文本按句子數(shù)量進(jìn)行了標(biāo)注,以便追溯出錯(cuò)之處。但由于篇幅有限,本文將直接呈現(xiàn)總體的錯(cuò)誤數(shù)量及其類別。

      在商務(wù)合同中選擇了82個(gè)單詞和短語,其中谷歌神經(jīng)翻譯正確的為17個(gè)。排歧錯(cuò)誤分別為16個(gè)名詞,9個(gè)動(dòng)詞,8個(gè)術(shù)語,6個(gè)短語,7個(gè)形容詞,5個(gè)副詞,4個(gè)數(shù)字表達(dá),4個(gè)古英語,2個(gè)介詞,2個(gè)連詞和2個(gè)代詞。

      名詞排歧錯(cuò)誤主要與詞語本身一詞多義的特點(diǎn)及其在商業(yè)合同中的恰當(dāng)含義有關(guān),其中谷歌翻譯的版本未能識(shí)別詞語在特定的語境下的正確含義,并且達(dá)不到商業(yè)合同所要求的正式度;動(dòng)詞排歧錯(cuò)誤主要與單詞本身含義不定和文本本身的全面性有關(guān),谷歌翻譯的版本完全錯(cuò)誤,或與商業(yè)合同的背景不符;形容詞排歧錯(cuò)誤也是對(duì)合同背景知識(shí)的缺乏造成的;介詞排歧錯(cuò)誤在于谷歌無法確定介詞在句中的作用,它便直接略譯了此類介詞;商業(yè)合同領(lǐng)域的代詞,術(shù)語,古英語的排歧錯(cuò)誤主要在于谷歌商業(yè)知識(shí)的缺乏。

      (三)分析對(duì)比結(jié)果

      為了便于更直接的對(duì)比兩類文本的排歧錯(cuò)誤,筆者制作了以下圖表:每個(gè)排歧錯(cuò)誤率的計(jì)算方法為該類排歧錯(cuò)誤數(shù)除以詞語及短語總量。

      排歧錯(cuò)誤率(%)名詞 動(dòng)詞 術(shù)語形容詞代詞副詞數(shù)字連詞介詞古英語正確短語商務(wù)信函21.015.812.314.08.80007.0014.07.0商務(wù)合同19.510.89.89.82.46.14.92.42.44.920.77.3總計(jì)20.112.910.810.85.03.62.91.44.32.918.07.2

      通過對(duì)比分析發(fā)現(xiàn),兩種文本類型的排歧錯(cuò)誤存在相似之處:

      商業(yè)信函和合同中名詞和動(dòng)詞排歧錯(cuò)誤率都屬最高;排歧錯(cuò)誤主要出現(xiàn)在實(shí)義詞中:名詞,動(dòng)詞,形容詞和代詞,因?yàn)閷?shí)義詞是文本用于傳達(dá)信息的主要手段。由于缺乏術(shù)語消歧能力,信函和合同的術(shù)語排歧錯(cuò)誤率都相對(duì)較高。例如,商業(yè)信函中的“quote,enquiries 和 By L/C at sight”應(yīng)翻譯成“報(bào)價(jià),詢價(jià),即期信用證”,而在商業(yè)合同中,“documents,negotiation / collection”應(yīng)該翻譯成“單據(jù),議付/托收”。

      兩種類型的排歧錯(cuò)誤也存在差異:

      不同類型的文本中收集的排歧錯(cuò)誤詞表現(xiàn)出不同的特征。商務(wù)信函中的排歧錯(cuò)誤較為簡短,商務(wù)合同出現(xiàn)的排歧錯(cuò)誤較為冗長復(fù)雜,這是兩者現(xiàn)實(shí)句子結(jié)構(gòu)差異造成的,商務(wù)信函用于業(yè)務(wù)往來,清晰和簡潔是關(guān)鍵;商業(yè)合同用于名列法律陳述,需要注重形式和細(xì)節(jié),復(fù)雜的長難句是常態(tài),使得谷歌難以識(shí)別語句序列,從而影響谷歌翻譯在兩類文本中的排歧表現(xiàn)。

      分析上表可知,商業(yè)合同的詞語排歧準(zhǔn)確率為20.7%略高于商業(yè)信函的14.0%,這是因?yàn)楣雀枭瞄L具有一定規(guī)律性的文本的詞義排歧,盡管合同句子結(jié)構(gòu)復(fù)雜,但有規(guī)律可循,所以谷歌神經(jīng)翻譯器能夠在其數(shù)據(jù)庫中找到匹配的語義;與商業(yè)合同相比,商務(wù)信函正式度大大降低,因此谷歌數(shù)據(jù)庫中可能無法查找出完全匹配的語義。

      就術(shù)語排歧而言,谷歌在商業(yè)合同語境中的排歧正確率較高,因?yàn)樯虡I(yè)合同創(chuàng)造了更加商業(yè)化的語境,相比之下,商業(yè)信函的語境更難確定,使谷歌對(duì)術(shù)語的排歧能力降低。因此可以推論,谷歌更擅長專業(yè)性較強(qiáng)文本的語義排歧。

      代詞排歧錯(cuò)誤與商務(wù)信函的禮貌原則有關(guān)。因此,信函中使用的代詞,例如“you,your”應(yīng)該翻譯成“貴公司,貴方”,而不是“您,您的”。相較而言,商業(yè)合同中的代詞錯(cuò)誤沒有這樣的特征。

      就副詞和形容詞排歧錯(cuò)誤而言,多數(shù)錯(cuò)誤是由于谷歌未能識(shí)別單詞在特定語境中的正確含義。這其中仍然有一些規(guī)律可循,例如,單詞“any”的排歧錯(cuò)誤中出現(xiàn)了4次,而形容詞總共的排歧錯(cuò)誤為7個(gè),同一句子中出現(xiàn)的相同錯(cuò)誤不予考慮。多數(shù)情況下,谷歌都無法進(jìn)行有效正確的排歧。

      就介詞排歧錯(cuò)誤而言,谷歌的漏譯便是錯(cuò)誤的根源。在商務(wù)信函中的4個(gè)介詞排歧錯(cuò)誤中,有3個(gè)是由漏譯引起的,而合同中的2個(gè)介詞排歧錯(cuò)誤都是由于漏譯造成的。此外,在排歧錯(cuò)誤中還出現(xiàn)了文本特定的錯(cuò)誤,例如商業(yè)合同特有的古英語詞和數(shù)字錯(cuò)誤。

      五、結(jié)論

      根據(jù)上述論證、比較和分析,本文得出一個(gè)明確的結(jié)論:谷歌神經(jīng)翻譯器更擅長專業(yè)性強(qiáng)的文本語境下的詞義排歧。谷歌在不同詞性詞義排歧中表現(xiàn)出不同的規(guī)律。因此研究者可以通過加強(qiáng)谷歌對(duì)邊緣語境的識(shí)別能力以及增加對(duì)介詞用法訓(xùn)練的語料庫,來提升谷歌神經(jīng)翻譯的詞義排歧性能。

      這項(xiàng)研究仍有其局限性。由于時(shí)間和空間不足,本文的分析樣本受到限制。因此,論文可能不足以用來推翻當(dāng)前的機(jī)器翻譯系統(tǒng)。但是,筆者希望學(xué)界能夠?qū)Υ诉M(jìn)行深入研究,改善商務(wù)文本英譯中的譯本質(zhì)量問題。

      猜你喜歡
      信函歧義詞義
      西夏語“頭項(xiàng)”詞義考
      西夏研究(2020年1期)2020-04-01 11:54:26
      eUCP條款歧義剖析
      中國外匯(2019年12期)2019-10-10 07:26:58
      詞義辨別小妙招——看圖辨詞
      朱自清致逯欽立信函之五(1942.10.28)影印件
      朱自清致逯欽立信函之四(1945.6.25)
      English Jokes: Homonyms
      現(xiàn)代英文商務(wù)信函的個(gè)性化寫作風(fēng)格初探
      “那么大”的語義模糊與歧義分析
      字意與詞義
      語言與翻譯(2014年3期)2014-07-12 10:31:59
      1935年4月4日梅貽琦致劍橋大學(xué)研究生處的信函
      临邑县| 敖汉旗| 内乡县| 安丘市| 丰顺县| 黄大仙区| 务川| 清河县| 太湖县| 扶沟县| 凭祥市| 酒泉市| 夏河县| 育儿| 阜城县| 南康市| 汝城县| 依兰县| 深泽县| 张家口市| 民乐县| 靖边县| 当阳市| 长汀县| 炉霍县| 丹巴县| 锦州市| 武乡县| 新平| 班戈县| 沈丘县| 绥滨县| 阿合奇县| 东兰县| 桃源县| 方正县| 淮滨县| 克什克腾旗| 唐山市| 芜湖市| 蓬安县|