李 梅, 朱錫明
(同濟(jì)大學(xué) 外國(guó)語(yǔ)學(xué)院,上海 200092)
機(jī)器翻譯研究迄今已有50多年歷史[1]。雖然機(jī)器翻譯已從實(shí)驗(yàn)室進(jìn)入市場(chǎng),在人們的工作、 學(xué)習(xí)和生活中發(fā)揮越來(lái)越重要的作用,但是機(jī)器翻譯的質(zhì)量仍飽受詬病,甚至出現(xiàn)了所謂的 “雪線” 現(xiàn)象[2]。為提高機(jī)器譯文質(zhì)量,多年來(lái)人們致力于對(duì)機(jī)器翻譯系統(tǒng)本身的改進(jìn)[3-4]。但機(jī)器翻譯系統(tǒng)規(guī)則結(jié)構(gòu)復(fù)雜,往往牽一發(fā)而動(dòng)全身。修改一項(xiàng)規(guī)則雖能解決現(xiàn)存問(wèn)題,卻又帶來(lái)新問(wèn)題。因此,近年來(lái)國(guó)內(nèi)外學(xué)者另辟蹊徑,開始研究譯后編輯,即對(duì)機(jī)器翻譯系統(tǒng)從源語(yǔ)到目的語(yǔ)處理后生成的譯文進(jìn)行編輯。譯后編輯既可以由人工完成,一般稱為reviser,也可以利用軟件來(lái)實(shí)現(xiàn),一般稱為post-editor。國(guó)外學(xué)者對(duì)譯后編輯的研究有近10年歷史,主要針對(duì)英德、 英法互譯等[5]。近年來(lái),國(guó)內(nèi)也開始專注于對(duì)譯后編輯的研究,而且在譯后編輯器軟件的設(shè)計(jì)與開發(fā)方面已取得一定進(jìn)展[6]。但是,雖有譯后編輯器軟件的幫助,譯后編輯工作的實(shí)施仍大都借助系統(tǒng)內(nèi)置的編輯器[7-8],由譯者在編輯器的提示下實(shí)現(xiàn)修改操作。這種方法在一定程度上減輕了譯者的負(fù)擔(dān),但是最大的問(wèn)題是編輯器不能執(zhí)行自動(dòng)修改。由于機(jī)器翻譯規(guī)則的統(tǒng)一性導(dǎo)致同樣的錯(cuò)誤反復(fù)出現(xiàn),譯者需不斷修正同樣或相似的錯(cuò)誤,這不僅使譯者不堪重負(fù),而且也大大地降低了速度。
鑒于此,陳欣蓉建議系統(tǒng)化地研究機(jī)器譯文的錯(cuò)誤,以提升機(jī)器譯文修改研究之效能[5]。本研究在此基礎(chǔ)上提出了譯后編輯自動(dòng)化的研究設(shè)想[9]: 在完成語(yǔ)料收集加工后,從分析英漢機(jī)器翻譯譯文的錯(cuò)誤入手,通過(guò)在詞法和句法層面進(jìn)行語(yǔ)料對(duì)比分析,確定具有較高頻率和相似度的機(jī)譯錯(cuò)誤典型類型。然后,對(duì)其中的典型句法錯(cuò)誤進(jìn)行深度句法分析并做形式化描述。我們?cè)O(shè)想在不久的將來(lái),將該研究結(jié)果用于研制譯后編輯自動(dòng)化軟件模塊,把該模塊加載于相應(yīng)機(jī)器翻譯系統(tǒng)的下端,對(duì)英漢機(jī)譯譯文進(jìn)行二次加工,讓計(jì)算機(jī)取代人工來(lái)進(jìn)行譯后編輯。這樣的譯后編輯方式會(huì)進(jìn)一步提高機(jī)器翻譯的質(zhì)量,大大加快機(jī)器翻譯譯文人工修改環(huán)節(jié)速度,提高工作效率。需要指出的是,譯后編輯的自動(dòng)化不能處理所有的機(jī)器譯文錯(cuò)誤,但可以解決那些重復(fù)率高、 相似度強(qiáng)的錯(cuò)誤。據(jù)此設(shè)想,筆者與同濟(jì)大學(xué)汽車學(xué)院合作,將研究對(duì)象限定于汽車技術(shù)領(lǐng)域翻譯[10],從已建立的約500萬(wàn)句的汽車技術(shù)翻譯文獻(xiàn)語(yǔ)料中選取了某品牌汽車維修手冊(cè)中的近10萬(wàn)個(gè)英漢翻譯句對(duì),采用華建英漢翻譯系統(tǒng)進(jìn)行所選資料的機(jī)器翻譯,展開了為期5年的機(jī)器翻譯后譯文編輯模式研究[11]。
本文將介紹該項(xiàng)目有關(guān)數(shù)據(jù)處理的過(guò)程以及數(shù)據(jù)統(tǒng)計(jì)結(jié)果。首先,將探討該研究所依據(jù)的機(jī)譯錯(cuò)誤進(jìn)行分類,并以實(shí)例加以說(shuō)明。根據(jù)此標(biāo)準(zhǔn)對(duì)人工標(biāo)準(zhǔn)譯文和機(jī)器譯文進(jìn)行對(duì)比分析后,將機(jī)譯錯(cuò)誤分為詞匯、 句法和其它三大類,重點(diǎn)介紹機(jī)譯錯(cuò)誤分析結(jié)果的數(shù)據(jù)統(tǒng)計(jì)情況。本研究大膽探索機(jī)器翻譯譯后編輯新思路,對(duì)于降低機(jī)器翻譯人工成本、 提高機(jī)譯效率和質(zhì)量具有較高的實(shí)際價(jià)值和理論意義。
首先對(duì)10萬(wàn)個(gè)英漢翻譯句對(duì)(含短語(yǔ))進(jìn)行加工分類,在Excel文檔上將他們分列為英文原文、 標(biāo)準(zhǔn)譯文。該研究的漢語(yǔ)譯文由長(zhǎng)期從事汽車專業(yè)翻譯的專職翻譯人員提供,故被視作標(biāo)準(zhǔn)譯文,再將英文原文輸入機(jī)器翻譯軟件處理形成機(jī)器譯文,于是便有了英語(yǔ)原文、 機(jī)器譯文、 標(biāo)準(zhǔn)譯文的平行對(duì)比語(yǔ)料庫(kù)。在展開大規(guī)模的機(jī)譯錯(cuò)誤語(yǔ)料分析之前,從10萬(wàn)個(gè)句對(duì)的語(yǔ)料庫(kù)中抽取了100個(gè)句對(duì)進(jìn)行機(jī)譯錯(cuò)誤樣本分析,同時(shí),參考 “中國(guó)高校外語(yǔ)專業(yè)多語(yǔ)種語(yǔ)料庫(kù)建設(shè)與研究英語(yǔ)語(yǔ)料庫(kù)” 中的錯(cuò)誤分類標(biāo)準(zhǔn)[12],確定了如表1所示的機(jī)器譯文錯(cuò)誤分類。
表1 機(jī)器譯文錯(cuò)誤分類Tab.1 Categories of MT Errors
如表1所示,將機(jī)器譯文語(yǔ)料中的一級(jí)錯(cuò)誤分成詞匯、 句法和其他三類。其中在詞匯和句法類下分別設(shè)7個(gè)子類的二級(jí)錯(cuò)誤,在其他類下設(shè)5個(gè)子類的二級(jí)錯(cuò)誤?,F(xiàn)舉例說(shuō)明這三類錯(cuò)誤。
1.詞匯類
詞匯類的錯(cuò)誤共分為7個(gè)子類,含術(shù)語(yǔ)、 連詞、 詞性、 縮寫、 漏譯、 替代和不譯等。以下分別舉例時(shí)為方便讀者,凡出錯(cuò)的英語(yǔ)原文以斜體標(biāo)出。
(1) 詞匯術(shù)語(yǔ): 指將專門術(shù)語(yǔ)誤譯為一般意義的詞匯(不限于名詞)。例如: Heaterground被誤譯成了 “加熱器地”,正確的譯文應(yīng)為 “加熱器搭鐵”。
(2) 詞匯連詞: 指將連詞如and等誤譯,見(jiàn)例1。
例1英語(yǔ)原文: Check tire type,pressure,andthe road surface before making your diagnosis.
機(jī)器譯文: 在診斷之前,檢查輪胎類型,壓力并且道路表面。
標(biāo)準(zhǔn)譯文: 在做出診斷之前,檢查輪胎類型、 壓力和路面。
錯(cuò)誤類型: 詞匯連詞
上例中,機(jī)器譯文將連詞 “and” 誤譯為 “并且”,這類錯(cuò)誤歸為詞匯連詞錯(cuò)誤。
(3)詞匯詞性: 指詞性誤譯,如將名詞譯成動(dòng)詞。見(jiàn)例2。
例2英語(yǔ)原文:REARSEATBACK ADJUSTER ASSEMBLY LH[注]在原始語(yǔ)料中有些英文原文顯示為全部字母大寫,為保持原語(yǔ)料風(fēng)格,這里沒(méi)有做出更改。
機(jī)器譯文:養(yǎng)育SEATBACK ADJUSTER會(huì)議LH
標(biāo)準(zhǔn)譯文:后排左側(cè)座椅靠背調(diào)節(jié)器總成
錯(cuò)誤類型: 詞匯詞性
上例中,REAR應(yīng)為名詞,意為 “后面、 后排”,機(jī)器譯文將其視為動(dòng)詞,故誤譯為 “養(yǎng)育”。請(qǐng)注意: 該句機(jī)器譯文出現(xiàn)多處問(wèn)題,在此只重點(diǎn)指出相關(guān)的詞性誤譯,其它錯(cuò)誤暫不討論。在實(shí)際的錯(cuò)誤分析中,如例2中的多類錯(cuò)誤均一一列出。這也說(shuō)明了盡管分析的對(duì)象語(yǔ)料為10萬(wàn)句對(duì),但是實(shí)際錯(cuò)誤總數(shù)為14萬(wàn)多(詳見(jiàn)后面數(shù)據(jù)分析部分)。
(4) 詞匯縮寫: 指原文中的英文縮寫詞在汽車維修領(lǐng)域有特定含義,而機(jī)器將其誤譯成了其他通用縮寫詞,見(jiàn)例3。
例3英語(yǔ)原文: -RR-IG1-1 FUSE
機(jī)器譯文: -雷明頓·蘭德公司-IG1-1 保險(xiǎn)絲
標(biāo)準(zhǔn)譯文:-RR-IG1-1 保險(xiǎn)絲
錯(cuò)誤類型: 詞匯縮寫
該句中RR是汽車維修手冊(cè)語(yǔ)域中通用的詞匯縮寫,具有特定的含義,通常不予翻譯。
(5) 詞匯漏譯: 指原文中的詞語(yǔ)在機(jī)器翻譯中沒(méi)有譯出,見(jiàn)例4。
例4英語(yǔ)原文: Thisisthe display signal circuit from the multi-display to the television display.
機(jī)器譯文: 這顯示信號(hào)巡回從多顯示器到電視展示。
標(biāo)準(zhǔn)譯文: 這是自多功能顯示屏至電視顯示屏的顯示屏信號(hào)電路。
錯(cuò)誤類型: 詞匯漏譯
上例中,英語(yǔ)原文中的動(dòng)詞 “is” 被漏譯了,應(yīng)補(bǔ)充 “是”。
(6) 詞匯替代: 指可以翻譯成漢語(yǔ)但是在汽車維修手冊(cè)這一語(yǔ)域中習(xí)慣不翻譯的專有名詞,見(jiàn)例5。
例5英語(yǔ)原文: Thoroughly mix the repair agent (DuPontpaste No.4817).
機(jī)器譯文: 修理代理人(杜邦粘貼4817號(hào))完全混合。
標(biāo)準(zhǔn)譯文: 充分混合維修劑(產(chǎn)品號(hào)為 4817 的DuPont粘接劑)。
錯(cuò)誤類型: 詞匯替代
上例中的 “DuPont” 雖然翻譯成 “杜邦” 是正確的,但是在汽車維修手冊(cè)這一語(yǔ)域中通常直接使用英語(yǔ)原文。因此為了尊重行業(yè)習(xí)慣,保留原文不譯。需要指出的是,在做分析時(shí),機(jī)器譯文對(duì)錯(cuò)的取舍不是根據(jù)分析員的常識(shí)標(biāo)準(zhǔn),而是嚴(yán)格按照行業(yè)標(biāo)準(zhǔn)譯文。
(7) 詞匯不譯: 指原文中有特定含義的英語(yǔ),如縮略語(yǔ)不需要譯成漢語(yǔ),而在機(jī)器翻譯中卻被錯(cuò)誤地翻譯出來(lái),見(jiàn)例6。
例6英語(yǔ)原文:CANCommunication Line (MS-bus)
機(jī)器譯文:罐裝通信線路(MS 公共汽車)
標(biāo)準(zhǔn)譯文:CAN通信線路(MS 總線)
錯(cuò)誤類型: 詞匯不譯
上例中,按汽車維修手冊(cè)的慣例,“CAN” 本不需要譯出,而在機(jī)器譯文中被誤譯為普通詞語(yǔ) “罐裝”。
2.句法類
句法類的錯(cuò)誤共分為7個(gè)子類,即詞序、 名詞短語(yǔ)、 動(dòng)詞短語(yǔ)、 介詞短語(yǔ)、 被動(dòng)態(tài)、 不定式以及分詞。 以下分別舉例簡(jiǎn)要說(shuō)明。
(1) 句法詞序: 指機(jī)器譯文中出現(xiàn)的詞序錯(cuò)誤,如后置、 前置等,見(jiàn)例7。
例7英語(yǔ)原文: The crank position sensor outputs 34 rotation signalsperenginerevolution.
機(jī)器譯文: 曲柄位置傳感器輸出每發(fā)動(dòng)機(jī)革命34 旋轉(zhuǎn)信號(hào)。
標(biāo)準(zhǔn)譯文:發(fā)動(dòng)機(jī)每轉(zhuǎn)動(dòng)一圈,曲軸位置傳感器輸出 34 個(gè)轉(zhuǎn)角信號(hào)。
錯(cuò)誤類型: 句法詞序
上例中機(jī)器譯文對(duì) “每發(fā)動(dòng)機(jī)革命34 旋轉(zhuǎn)信號(hào)” 這個(gè)時(shí)間狀語(yǔ)和其所修飾的動(dòng)詞短語(yǔ) “曲軸位置傳感器輸出34個(gè)轉(zhuǎn)角信號(hào)” 的詞序處理有誤。
(2) 句法名詞短語(yǔ): 指名詞短語(yǔ)的誤譯,不包括詞匯術(shù)語(yǔ)中由一個(gè)孤立的名詞或動(dòng)詞造成的詞匯術(shù)語(yǔ)誤譯。這里所牽涉到的是多于1個(gè)名詞的名詞組合,這樣的名詞組合所產(chǎn)生的誤譯是由于句法規(guī)則缺失造成。它涉及到的不是單純的術(shù)語(yǔ)問(wèn)題,更是對(duì)詞組組合的方式的錯(cuò)誤判斷,故將此類機(jī)譯錯(cuò)誤歸為句法錯(cuò)誤,見(jiàn)例8。
例8英語(yǔ)原文: CHECKBRAKEFLUIDLEVEL
機(jī)器譯文: 檢查剎車易流動(dòng)的水平
標(biāo)準(zhǔn)譯文: 檢查制動(dòng)液液位
錯(cuò)誤類型: 句法名詞短語(yǔ)
上例中,機(jī)器對(duì)BRAKE FLUID LEVEL這一名詞短語(yǔ)的分析有誤: 機(jī)器將 “FLUID” 的詞性誤判為形容詞,從而導(dǎo)致整個(gè)名詞短語(yǔ)的譯文出錯(cuò)。
(3) 句法動(dòng)詞短語(yǔ): 指動(dòng)詞短語(yǔ)的誤譯,不包括詞匯術(shù)語(yǔ)中的動(dòng)詞性術(shù)語(yǔ)誤譯。與詞匯術(shù)語(yǔ)不同的是,這里的誤譯是由于句法層面的動(dòng)詞中心語(yǔ)理解有誤造成,見(jiàn)例9。
例9英語(yǔ)原文: Idle speedcontinuestovarygreatlyfromtargetspeed
機(jī)器譯文: 無(wú)所事事的速度繼續(xù)從目標(biāo)速度極大地變化
標(biāo)準(zhǔn)譯文: 怠速轉(zhuǎn)速與目標(biāo)轉(zhuǎn)速持續(xù)存在很大偏差
錯(cuò)誤類型: 句法動(dòng)詞短語(yǔ)
上例中,動(dòng)詞短語(yǔ) “continue to vary greatly from target speed” 中的核心成分 “continue to vary”,在機(jī)譯中被介詞短語(yǔ) “從目標(biāo)速度” 割裂開來(lái),造成相關(guān)部分的機(jī)器譯文不知所云。
試比較例10,動(dòng)詞 “放回” 有誤,應(yīng)為 “更換”,這一錯(cuò)誤我們歸為詞匯術(shù)語(yǔ)而非動(dòng)詞短語(yǔ),因?yàn)閯?dòng)詞replace 一般的意義為 “放回”,在汽車維修領(lǐng)域的專業(yè)用語(yǔ)則意為 “替換”。但這里的誤譯不涉及詞組組合方式問(wèn)題。
例10英語(yǔ)原文:REPLACEOUTER REAR VIEW MIRROR ASSEMBLY LH
機(jī)器譯文:放回外部后視鏡會(huì)議LH
標(biāo)準(zhǔn)譯文:更換左側(cè)車外后視鏡總成
錯(cuò)誤類型: 詞匯術(shù)語(yǔ)
(4) 句法介詞短語(yǔ): 指介詞短語(yǔ)的誤譯,主要指介詞單獨(dú)使用時(shí)的誤譯,如 “I did it for you.” 中的for歸為介詞短語(yǔ)。但出現(xiàn)介詞與動(dòng)詞搭配的短語(yǔ)誤譯,則將之統(tǒng)一歸為 “句法動(dòng)詞短語(yǔ)” 類錯(cuò)誤,如在 “I looked after him” 中的after則應(yīng)分析為動(dòng)詞短語(yǔ),見(jiàn)例11。
例11英語(yǔ)原文: Front view of wire harness connector: (toMulti-display)
機(jī)器譯文: 電線馬具連接器的正面圖: (對(duì)多展示來(lái)說(shuō))
標(biāo)準(zhǔn)譯文: 線束連接器前視圖: (至多功能顯示屏)
錯(cuò)誤類型: 句法介詞短語(yǔ)
上例中,英語(yǔ)原文中的介詞短語(yǔ) “to…” 被機(jī)器誤譯為 “對(duì)……來(lái)說(shuō)”。
(5) 句法被動(dòng)態(tài): 指機(jī)器譯文中的主、 被動(dòng)態(tài)的錯(cuò)誤,主要是英語(yǔ)原文的被動(dòng)句在譯成漢語(yǔ)時(shí)應(yīng)還原為主動(dòng),而機(jī)器并未這么處理,還是按照被動(dòng)句處理,見(jiàn)例12。
例12英語(yǔ)原文: When Received Tire PressureDataisDisplayed
機(jī)器譯文: 當(dāng)?shù)玫降妮喬毫?shù)據(jù)是被展示的時(shí)
標(biāo)準(zhǔn)譯文:顯示接收到的輪胎壓力數(shù)據(jù)時(shí)
錯(cuò)誤類型: 句法被動(dòng)態(tài)
上例中,英語(yǔ)原文中的 “Data is Displayed” 這個(gè)被動(dòng)結(jié)構(gòu)被機(jī)器直接翻譯成了 “數(shù)據(jù)是被展示的”,可能是因?yàn)闄C(jī)器把 “displayed” 理解成了一個(gè)形容詞性的過(guò)去分詞(類似于 “She’s very excited” 中的excited)。即使刪除了 “是……的”,剩下的 “數(shù)據(jù)被展示” 讀起來(lái)還是很別扭,遠(yuǎn)沒(méi)有標(biāo)準(zhǔn)譯文中轉(zhuǎn)譯為主動(dòng)態(tài)意思清晰且不失專業(yè)特色。此類誤譯比例較高,筆者認(rèn)為只要在規(guī)則上加以約束就可以改善譯文質(zhì)量。
(6) 句法不定式: 指將動(dòng)詞不定式誤譯,見(jiàn)例13。
例13英語(yǔ)原文: Engage the claw as shown in the illustrationtosettheposition.
機(jī)器譯文: 請(qǐng)爪如確定位置的插圖中所示。
標(biāo)準(zhǔn)譯文: 如圖所示,接合卡爪以設(shè)定位置。
錯(cuò)誤類型: 句法不定式
上例中,英語(yǔ)原文中的動(dòng)詞不定式 “to set the position” 表達(dá)的是目的之意,但被機(jī)器誤處理成了 “illustration” 的定語(yǔ),所以才會(huì)有 “確定位置的插圖” 這樣的錯(cuò)誤譯文。
(7) 句法分詞: 指英語(yǔ)原文中的現(xiàn)在分詞或過(guò)去分詞被錯(cuò)誤翻譯,見(jiàn)例14。
例14英語(yǔ)原文: Component without harnessconnected: (Blower Motor)
機(jī)器譯文:沒(méi)有馬具的零部件連結(jié): (吹風(fēng)機(jī)電動(dòng)機(jī))
標(biāo)準(zhǔn)譯文:未連接線束的零部件: (鼓風(fēng)機(jī)電動(dòng)機(jī))
錯(cuò)誤類型: 句法分詞
上例中,英語(yǔ)原文中的過(guò)去分詞 “connected” 從句法上看是修飾 “harness”,機(jī)器將其處理為動(dòng)詞過(guò)去時(shí),與 “Component without harness” 錯(cuò)誤地割裂了開來(lái)。
3.其他類
對(duì)于詞匯和句法以外的錯(cuò)誤歸為第三類,包括符號(hào)、 標(biāo)點(diǎn)、 括號(hào)、 物理學(xué)單位、 數(shù)字等。由于篇幅關(guān)系,這里只列舉符號(hào)類,見(jiàn)例15。
例15英語(yǔ)原文: 75° to 105°
機(jī)器譯文: 75 ? 對(duì)105嗎?
標(biāo)準(zhǔn)譯文: 75°至 105°
錯(cuò)誤類型: 符號(hào)
上例中,機(jī)器無(wú)法正確識(shí)別溫度符號(hào) “°” 而出錯(cuò)。
按照第一節(jié)中詳細(xì)說(shuō)明的英漢機(jī)譯錯(cuò)誤分類標(biāo)準(zhǔn),參照人工標(biāo)準(zhǔn)譯文對(duì)近10萬(wàn)個(gè)(99 737個(gè))英漢翻譯句對(duì)中的機(jī)譯錯(cuò)誤進(jìn)行了對(duì)比分析(該對(duì)比分析詳情參見(jiàn)文獻(xiàn)[10])。這里主要介紹根據(jù)此分析結(jié)果所做的機(jī)譯錯(cuò)誤數(shù)據(jù)統(tǒng)計(jì)。
首先,如表2所示,在99 737句對(duì)中有12 939個(gè)句對(duì)沒(méi)有出現(xiàn)機(jī)譯錯(cuò)誤(由于篇幅關(guān)系這里略去表2中所列的三種正確類型的說(shuō)明,詳情請(qǐng)見(jiàn)參考文獻(xiàn)[10]),占句對(duì)總數(shù)的12.96%。
表2 機(jī)器譯文無(wú)錯(cuò)句統(tǒng)計(jì)Tab.2 Data Analysis of MT with Few Errors
表2統(tǒng)計(jì)數(shù)據(jù)說(shuō)明,機(jī)器翻譯錯(cuò)誤占所分析句對(duì)總數(shù)的87%。表3展示了不同類型機(jī)譯錯(cuò)誤出現(xiàn)的數(shù)量及其在錯(cuò)誤總數(shù)中所占比例。由于同一句中可能有多于一種類型的錯(cuò)誤,故表3中誤譯總計(jì)為145 231,超過(guò)句對(duì)總數(shù)99 737。
根據(jù)以上數(shù)據(jù),將詞匯、 句法和其他這三類一級(jí)錯(cuò)誤用餅形圖來(lái)表示,可以清楚地看到各類錯(cuò)誤所占的比重,見(jiàn)圖1。
圖1 一級(jí)錯(cuò)誤圖示Fig.1 MT errors at first level
如圖1所示,三大類一級(jí)錯(cuò)誤所占的比例十分懸殊: 詞匯類錯(cuò)誤所占比例高達(dá)70.84%,句法類錯(cuò)誤占26.84%,其他類錯(cuò)誤占2.32%。這些數(shù)字告訴我們?cè)谠撗芯克治龅恼Z(yǔ)料中機(jī)器翻譯的首要問(wèn)題仍是詞匯。如果能在詞匯上加以改進(jìn),則可以大大提高機(jī)譯質(zhì)量。下面來(lái)看表2中1~15子類的錯(cuò)誤在總數(shù)中的占比,見(jiàn)下頁(yè)圖2。
如圖2所示,各種錯(cuò)誤類型在機(jī)器譯文中的分布是極不均勻的: 從占錯(cuò)誤總數(shù)的比例來(lái)看,比例最高的 “詞匯術(shù)語(yǔ)” 類錯(cuò)誤,占42%。造成這一現(xiàn)象的原因是,很多普通的英語(yǔ)單詞在特定的技術(shù)領(lǐng)域中具有特殊的技術(shù)含義,例如: relay block(繼電器盒)這個(gè)汽車維修領(lǐng)域的術(shù)語(yǔ)被翻譯成了通用英語(yǔ)意義上的 “接替塊”。這一事實(shí)也從側(cè)面反映出現(xiàn)有機(jī)器翻譯的一個(gè)突出問(wèn)題,即科技術(shù)語(yǔ)詞庫(kù)的專門化程度不高。上述統(tǒng)計(jì)表明,針對(duì)某一特定技術(shù)領(lǐng)域的術(shù)語(yǔ)對(duì)譯是影響機(jī)器譯文質(zhì)量的最大因素。換個(gè)角度來(lái)看,只要在修改規(guī)則中對(duì)汽車維修領(lǐng)域中的術(shù)語(yǔ)對(duì)譯進(jìn)行必要的處理,就可以快速消除機(jī)器譯文中42%以上的翻譯錯(cuò)誤,譯文的質(zhì)量無(wú)疑將大大提高。
圖2 二級(jí)錯(cuò)誤圖示Fig.2 MT errors at second level
現(xiàn)在來(lái)進(jìn)一步分析詞匯類及句法類機(jī)譯錯(cuò)誤。就詞匯類錯(cuò)誤而言,除比例最高的詞匯術(shù)語(yǔ)之外,其余6種詞匯類錯(cuò)誤,即詞匯連詞、 詞匯詞性、 詞匯縮寫、 詞匯漏譯、 詞匯替代和詞匯不譯占錯(cuò)誤總數(shù)的24.4%,比例也相當(dāng)高。將詞匯層面的各類錯(cuò)誤用餅形圖表示,可直觀地看出各類詞匯錯(cuò)誤的比重,見(jiàn)圖3。
圖3中的數(shù)據(jù)顯示,當(dāng)前的機(jī)器翻譯仍然未能有效地處理好基本的詞匯層面的問(wèn)題,以至于術(shù)語(yǔ)錯(cuò)誤的數(shù)量竟占了全部詞匯錯(cuò)誤數(shù)量的65%以上。換個(gè)角度來(lái)看,這一數(shù)據(jù)也提示研究者,即便在較為簡(jiǎn)單的詞匯層面,只要能投入更多精力進(jìn)行改進(jìn),其實(shí)是可以大幅度提高機(jī)器翻譯的質(zhì)量的。既然以往的研究表明,越是在受控的領(lǐng)域內(nèi),機(jī)器翻譯越是可以達(dá)到較高的翻譯質(zhì)量,典型的如加拿大的TAUM-METEO天氣預(yù)報(bào)翻譯系統(tǒng)[13],那么對(duì)詞匯層面的控制最簡(jiǎn)單也是最高效的做法就是建立精確的雙語(yǔ)對(duì)譯術(shù)語(yǔ)庫(kù)并加載于原有的機(jī)器翻譯軟件上,則輸出的譯文質(zhì)量必會(huì)有明顯提升。
圖3 詞匯類錯(cuò)誤的比例Fig.3 Percentage of lexical errors
再來(lái)分析句法層面的不同錯(cuò)誤,見(jiàn)圖4。
圖4 句法類錯(cuò)誤的比例Fig.4 Percentage of syntactic errors
圖4中的數(shù)據(jù)顯示,在句法層面上詞序占句法類錯(cuò)誤的35.85%、 動(dòng)詞短語(yǔ)占26.86%、 介詞短語(yǔ)占15.10%。據(jù)統(tǒng)計(jì)提示,如果要在句法層面上嘗試通過(guò)修改規(guī)則來(lái)改進(jìn)機(jī)器翻譯的質(zhì)量,重點(diǎn)應(yīng)當(dāng)放在 “詞序”、 “動(dòng)詞短語(yǔ)” 和 “介詞短語(yǔ)” 這三類上,一旦有所突破,即可消除77%以上的句法類錯(cuò)誤。
本研究表明現(xiàn)有機(jī)器翻譯的正確率的確還很低。數(shù)據(jù)顯示,對(duì)英語(yǔ)汽車維修手冊(cè)這一限定語(yǔ)言而言,目前的機(jī)器翻譯正確率只有12.96%。通過(guò)大量的數(shù)據(jù)分析發(fā)現(xiàn),在機(jī)器翻譯出現(xiàn)的各類錯(cuò)誤中,詞匯類錯(cuò)誤占比高達(dá)70%,其中術(shù)語(yǔ)的誤譯占46%。盡管詞匯層面的錯(cuò)誤較之句法層面的錯(cuò)誤更加容易改正,但卻不容忽視。眼下當(dāng)務(wù)之急是對(duì)詞匯類的各種錯(cuò)誤進(jìn)行進(jìn)一步分析并使用相應(yīng)規(guī)則來(lái)加以糾正。如果能盡快改進(jìn)詞匯層面的機(jī)譯,正確率會(huì)大有改觀。此外,研究也揭示,在機(jī)器翻譯出現(xiàn)的各類錯(cuò)誤中,句法類錯(cuò)誤的比例占26%以上,所以句法層面的改進(jìn)雖然困難很大,但仍應(yīng)是今后機(jī)器翻譯研究的一個(gè)重要內(nèi)容。本研究的一個(gè)重要環(huán)節(jié)便是進(jìn)行句法深度分析和形式化描述,也將在生成語(yǔ)言學(xué)框架下對(duì)句法錯(cuò)誤進(jìn)行深度分析。現(xiàn)有的基于規(guī)則的機(jī)器翻譯系統(tǒng)還有很大的改進(jìn)余地,而筆者提出譯后編輯自動(dòng)化設(shè)想,無(wú)需特別復(fù)雜的規(guī)則和計(jì)算就可以顯著提升翻譯質(zhì)量,是一個(gè)非常值得嘗試的。本研究正是沿上述方向邁出的第一步。此后的研究將探討如何根據(jù)本文的數(shù)據(jù)分析修改規(guī)則,并進(jìn)行計(jì)算機(jī)翻譯程序轉(zhuǎn)寫。希望能與感興趣的同行們一起努力,為提高英漢機(jī)器翻譯的質(zhì)量貢獻(xiàn)我們的綿薄之力。
參考文獻(xiàn):
[1] 馮志偉.機(jī)器翻譯研究[M].北京: 中國(guó)對(duì)外翻譯出版公司,2005: 35-64.
[2] 張克亮.面向機(jī)器翻譯的漢英句類及句式轉(zhuǎn)換[M].鄭州: 河南大學(xué)出版社,2007: vi.
[3] 計(jì)麗麗.機(jī)器翻譯系統(tǒng)發(fā)展與研究[J].中國(guó)新技術(shù)新產(chǎn)品,2011(13): 20-21.
[4] 劉群.機(jī)器翻譯技術(shù)的發(fā)展及其應(yīng)用[J].術(shù)語(yǔ)標(biāo)準(zhǔn)化與信息技術(shù),2002(1): 27-30.
[5] 陳欣蓉.評(píng)論現(xiàn)行機(jī)器翻譯譯文修飾研究之缺失并且研擬譯文修飾研究之具體研究步驟[J].國(guó)立編譯館館刊,2007(3): 97-110.
[6] 黃河燕,陳肇雄.一種智能譯后編輯器的設(shè)計(jì)及其實(shí)現(xiàn)算法[J].軟件學(xué)報(bào),1995,6(3): 129-135.
[7] 韓培新.智能譯后編輯器IPE[D].北京: 中國(guó)科學(xué)院計(jì)算技術(shù)研究所,1996.
[8] 陳震明.智能機(jī)器翻譯前后端處理系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)[D].北京: 中國(guó)科學(xué)院計(jì)算技術(shù)研究所,1998.
[9] 李梅.Identifying error patterns in MT post-editing[C].上海: 第十八屆世界翻譯大會(huì),2008.
[10] 羅季美,李梅.機(jī)器翻譯譯文錯(cuò)誤分析[J].中國(guó)翻譯,2012(5): 84-89.
[11] 李梅,朱錫明.譯后編輯自動(dòng)化的英漢機(jī)器翻譯新探[J].中國(guó)翻譯,2013(4): 83-87.
[12] 鄒申.英語(yǔ)專業(yè)寫作教學(xué)語(yǔ)料庫(kù)建設(shè)與研究[M].上海: 復(fù)旦大學(xué)出版社,2011.
[13] 袁亦寧.受控語(yǔ)言: 機(jī)器翻譯的新途徑[J].上??萍挤g,2003(3): 77-80.