吳玲蘭
(中南林業(yè)科技大學(xué),湖南長(zhǎng)沙)
翻譯是一門藝術(shù),更是一門科學(xué)。近些年來(lái),翻譯技術(shù)和自然語(yǔ)言處理技術(shù)的快速發(fā)展,機(jī)器翻譯(Machine Translation)再次成為翻譯科學(xué)中的研究重點(diǎn),在理論和實(shí)踐上都有所突破和發(fā)展,進(jìn)而發(fā)展成一門技術(shù)。
Pushpak Bhattacharrya教授現(xiàn)為印度大學(xué)計(jì)算機(jī)科學(xué)和工程系主任,他的《機(jī)器翻譯》(Machine Translation)(Bhattacharyya,2015)由著名的Taylor&Francis Group出版社2015年出版。該書集作者十余年機(jī)器翻譯的教學(xué)與實(shí)踐經(jīng)驗(yàn),全面歸納和探討MT原理、語(yǔ)言歧義消除、匹配模型數(shù)理以及評(píng)估模型等基礎(chǔ)理論,結(jié)合印地語(yǔ)、馬拉地語(yǔ)等機(jī)譯實(shí)例,闡釋基于短語(yǔ)、基于規(guī)則和基于實(shí)例的三種機(jī)器翻譯模型,并進(jìn)一步提出了MT中面臨的可能挑戰(zhàn)和難題。該書有利于廣大學(xué)者和翻譯專業(yè)學(xué)生深入了解MT的基礎(chǔ)理論,以及機(jī)器翻譯面臨的難題,指明機(jī)器翻譯未來(lái)的研究方向。本文先介紹全書的主要內(nèi)容,后作一簡(jiǎn)評(píng)。
MT是靠數(shù)據(jù)驅(qū)動(dòng)將一種自然語(yǔ)言生成另一種自然語(yǔ)言的計(jì)算機(jī)系統(tǒng)(張政,2006:11),數(shù)據(jù)能推翻假設(shè),也能限制翻譯能力和效率,還能最大限度地闡釋翻譯概率。作者運(yùn)用沃古瓦三角(Vauquois triangle/pyramid)理論,分析和闡述MT雙語(yǔ)翻譯的“分析—轉(zhuǎn)換—生成”過(guò)程,以及該過(guò)程所包括詞匯翻譯、翻譯匹配、詞匯繁衍管理以及短語(yǔ)匹配管理等技術(shù)理論。詞匯翻譯和翻譯匹配是循環(huán)過(guò)程,即在給定的平行語(yǔ)料中,任意詞匯都能被匹配和翻譯。當(dāng)缺乏平行句對(duì)和詞匯翻譯時(shí),計(jì)算機(jī)采用期望最大化理論(Expectation Maximun,EM)的迭代運(yùn)算法降低平均熵,計(jì)算出翻譯概率。EM理論通過(guò)假設(shè)賦值、計(jì)算匹配概率、建立數(shù)學(xué)表達(dá)式和似然表達(dá)式、預(yù)測(cè)參數(shù)和隱藏參數(shù)的迭代等步驟,計(jì)算期望值在概率矩陣中的最佳概率值,結(jié)合翻譯模型中的利益參數(shù),得出新的匹配概率,并更新期望值。雙語(yǔ)映射概率通過(guò)EM公式得到改善,滿足了機(jī)器翻譯的存儲(chǔ)容量和時(shí)間要求。
MT的本質(zhì)問(wèn)題是語(yǔ)言問(wèn)題,需要依靠語(yǔ)言知識(shí)的運(yùn)用來(lái)解決。語(yǔ)言結(jié)構(gòu)和機(jī)器翻譯軟件間的工具性差異導(dǎo)致MT過(guò)程中的上升轉(zhuǎn)換(ascending transfer)和下降轉(zhuǎn)換(descending transfer)的不對(duì)稱。MT輸入過(guò)程的語(yǔ)言問(wèn)題涉及形態(tài)學(xué)分析、詞性標(biāo)記、名詞和動(dòng)詞語(yǔ)塊的辨別、語(yǔ)義分析、篇章回指和語(yǔ)用學(xué)等。信息層面的形態(tài)句法比字形更豐富,組合層次比形態(tài)句法更豐富。詞匯匹配是機(jī)器翻譯研究的基礎(chǔ),檢驗(yàn)機(jī)器在詞匯層面的翻譯。詞匯匹配是指將映射出的詞匯在目標(biāo)語(yǔ)中找到相對(duì)應(yīng)的位置,包括一一位置保留匹配、一一無(wú)位置保留匹配、一對(duì)多、多對(duì)一以及零匹配等種類,任何匹配都必須有兩個(gè)翻譯句對(duì)(translation pair),一個(gè)句子引入映射,另一個(gè)句子篩選出多個(gè)映射中的一個(gè),以確定匹配精準(zhǔn)度。
匹配精準(zhǔn)度受語(yǔ)言間差異的影響,尤其是語(yǔ)言歧義。作者通過(guò)對(duì)印度語(yǔ)和英語(yǔ)的實(shí)例分析,提出MT中的語(yǔ)言歧義包括句法歧義(順序歧義、附屬歧義、零主語(yǔ)歧義等等)和詞匯歧義(合并歧義、類別歧義、語(yǔ)境詞匯歧義等等)。句法結(jié)構(gòu)上的歧義可通過(guò)翻譯法則處理,并存儲(chǔ)在計(jì)算機(jī)中(即基于規(guī)則的機(jī)器翻譯,RBMT)。詞匯語(yǔ)義上的歧義則通過(guò)機(jī)器學(xué)習(xí)處理(基于短語(yǔ)的機(jī)器翻譯,PBMT)。語(yǔ)言歧義的處理好壞直接影響翻譯質(zhì)量,是MT質(zhì)量評(píng)估的重要參照因素,MT的質(zhì)量評(píng)估直接反映MT的實(shí)用價(jià)值。傳統(tǒng)的人工評(píng)估過(guò)于主觀且速度慢,機(jī)器自動(dòng)評(píng)估系統(tǒng)應(yīng)運(yùn)而生,主要檢驗(yàn)句子層面的忠實(shí)性和流暢性,以及附加在文本層面的統(tǒng)一性、連貫性、意向性、可接受性、信息性、情景性和互文性等因素。自動(dòng)評(píng)估系統(tǒng)主要評(píng)估N-元輸出模式和參考譯文之間的匹配,其關(guān)鍵在于參考譯文和人工判斷的關(guān)聯(lián)性,參考譯文數(shù)目越多,自動(dòng)評(píng)估的可信度越高,與人工翻譯的關(guān)聯(lián)性越強(qiáng),機(jī)器翻譯的匹配模型則越好,譯文質(zhì)量隨之提升。
影響翻譯匹配模型的因素主要有詞匯長(zhǎng)度、詞匯匹配以及詞匯翻譯等,這些因素間的相互作用決定了匹配結(jié)果。最初的匹配模型是IBM模型,由語(yǔ)言模型P(e)和翻譯模型P(f|e)組成。IBM模型1中所有詞匯映射都是一對(duì)一,匹配具有高度相似性。模型2中的匹配分配不均勻,需要考慮詞匯位置、詞匯出現(xiàn)頻率、英語(yǔ)句子長(zhǎng)度以及另一語(yǔ)言的句子長(zhǎng)度等因素,用EM運(yùn)算法則計(jì)算出句子間較準(zhǔn)確的短語(yǔ)匹配概率。模型3主要研究翻譯模型的繁衍率,每個(gè)詞匯可能生成或匹配出多個(gè)詞匯,但當(dāng)缺少句法結(jié)構(gòu)和上下文信息時(shí),詞匯匹配無(wú)法建構(gòu)源語(yǔ)輸入和譯文輸出之間的結(jié)構(gòu)差異,譯文則會(huì)失真(distortion)。在這三種模型中,模型1主要聚焦于翻譯概率的模型化,簡(jiǎn)化了詞匯匹配的限制,加快了詞匯迭代速度,因而出現(xiàn)很多匹配錯(cuò)誤。而IBM模型2用“絕對(duì)位置”的概率模型,與模型1相比,模型2的匹配更全面,但實(shí)際操作中很難實(shí)現(xiàn)匹配絕對(duì)化。IBM模式3中P(f|e)模型變得更復(fù)雜,仍無(wú)法解決譯文失真,短語(yǔ)匹配有望解決這一問(wèn)題。IBM模型的翻譯方法極大地推動(dòng)了翻譯技術(shù)的發(fā)展,翻譯質(zhì)量也在不斷的提高。
MT模型的建構(gòu)基于匹配等基礎(chǔ)理論之上。本書中作者著重探討了機(jī)器翻譯的三種基本模式:基于短語(yǔ)的機(jī)器翻譯(Phrase-Based Machine Translation,PBMT)、基于規(guī)則的機(jī)器翻譯(Rule-Based Machine Translation,RBMT)、基于實(shí)例的機(jī)器翻譯(Example-Based Machine Translation,EBMT),以及這三種模式與翻譯記憶(Translation Memory,TM)之間的關(guān)聯(lián)。
(1)基于短語(yǔ)的機(jī)器翻譯(PBMT)
機(jī)器翻譯存在意義表達(dá)、不同數(shù)據(jù)選擇、詞匯組合、詞匯調(diào)序、多義詞以及詞匯定位等跨語(yǔ)言差異,短語(yǔ)匹配的作用日益突顯。PBMT中短語(yǔ)匹配模型中的短語(yǔ)不一定是語(yǔ)言學(xué)意義上的短語(yǔ),而是文本中任意相鄰的成分。平行語(yǔ)料是短語(yǔ)匹配的基礎(chǔ),主要的匹配方法有雙向匹配法、對(duì)稱法和抽取法等。短語(yǔ)匹配圖表利用沃古瓦三角的分析——轉(zhuǎn)換——生成過(guò)程推導(dǎo)出匹配句子成分——理解翻譯單元——組合翻譯單元的短語(yǔ)匹配過(guò)程,短語(yǔ)匹配的質(zhì)量通過(guò)附加的翻譯概率值和語(yǔ)言模型來(lái)衡量。作者沿用Koehn(2010)的數(shù)理知識(shí)計(jì)算短語(yǔ)匹配的概率值和語(yǔ)言模型參數(shù),主要步驟有:理解基于短語(yǔ)的翻譯,派生翻譯模型,計(jì)算翻譯概率和失真概率,給予不同模型參數(shù)(如n-元概率)、短語(yǔ)翻譯概率和失真概率權(quán)值,輸入λ值調(diào)整參數(shù)等。機(jī)器調(diào)整參數(shù)后,對(duì)訓(xùn)練好的模型進(jìn)行解碼,完成翻譯任務(wù)。解碼是生成翻譯的重要步驟。如統(tǒng)計(jì)機(jī)器翻譯(SMT)的解碼器——摩西軟件,它可預(yù)處理軟件、訓(xùn)練語(yǔ)言模型、調(diào)整參數(shù)、實(shí)驗(yàn)數(shù)據(jù)解碼以及評(píng)價(jià)標(biāo)準(zhǔn)等內(nèi)容,譯者可運(yùn)用柱狀搜索和棧式解碼搜索到最有可能的翻譯結(jié)果。
(2)基于規(guī)則的機(jī)器翻譯(RBMT)
RBMT模式主要采納基于中間語(yǔ)和基于轉(zhuǎn)換的概念而建構(gòu)。基于中間語(yǔ)的機(jī)器翻譯旨在呈現(xiàn)獨(dú)立于語(yǔ)言的普遍語(yǔ)義表征,要求在詞匯意義、語(yǔ)義角色、言語(yǔ)活動(dòng)和語(yǔ)篇等方面完全無(wú)歧義。中間語(yǔ)由通用詞匯、語(yǔ)義關(guān)聯(lián)和語(yǔ)義屬性構(gòu)成。由于顆粒度(granularity)不同,以及層次劃分的概念空間、多義詞的非組合性或搭配的固定性與其他語(yǔ)種自然詞位搭配的不確定性,導(dǎo)致通用詞的普遍存貯無(wú)法實(shí)現(xiàn)。因而詞性標(biāo)識(shí)、整體認(rèn)知和詞義消歧的分析直接上升到語(yǔ)義關(guān)聯(lián)和語(yǔ)義屬性的分析,以期探尋從英語(yǔ)到通用網(wǎng)絡(luò)語(yǔ)言(Universal Networking Language,以下簡(jiǎn)稱UNL)的轉(zhuǎn)換系統(tǒng)和從UNL到印地語(yǔ)的生成系統(tǒng),并探討兩個(gè)過(guò)程中的語(yǔ)義選擇、形態(tài)組合和句法規(guī)劃。作者用多語(yǔ)種的翻譯實(shí)例展示了該過(guò)程的不同層次,有利于廣大機(jī)器翻譯研究者更深入地改進(jìn)RBMT模式。
基于轉(zhuǎn)換的RBMT中,相似語(yǔ)種間存在少量轉(zhuǎn)換規(guī)則,不相似語(yǔ)種間需要大量實(shí)用性的轉(zhuǎn)換規(guī)則,而轉(zhuǎn)換語(yǔ)法規(guī)則和同步語(yǔ)法之間有一定關(guān)聯(lián),如馬拉地語(yǔ)機(jī)器翻譯成印地語(yǔ)的核心難題是詞綴和后綴組合的處理?;谵D(zhuǎn)換的規(guī)則源自人工分析,主要包括分析領(lǐng)域的關(guān)聯(lián)和附屬生成規(guī)則以及生成領(lǐng)域的形態(tài)綜合和句法規(guī)劃規(guī)則。
(3)基于實(shí)例的機(jī)器翻譯(EBMT)
PBMT模型和RBMT模型都有各自的優(yōu)劣,主要是翻譯速度和質(zhì)量都不夠理想。一種新的模式適時(shí)而生—EBMT模式,它主要利用規(guī)則進(jìn)行對(duì)齊匹配(alignment match),重組匹配翻譯部分生成譯文,該翻譯模型具有易構(gòu)性,譯文質(zhì)量相對(duì)較高。因其本質(zhì)是建立翻譯實(shí)例對(duì)之匹配,通過(guò)推理進(jìn)行翻譯。EBMT從龐大的平行語(yǔ)料庫(kù)中搜索所有相似的實(shí)例進(jìn)行匹配翻譯。實(shí)例搜索主要有相似度計(jì)算和搜索算法。相似度計(jì)算方法主要有編輯距離、詞袋算法、矢量相似性計(jì)算、術(shù)語(yǔ)頻率矢量以及基于詞匯和結(jié)構(gòu)相似度的計(jì)算等。重組計(jì)算結(jié)果,使匹配翻譯部分地適應(yīng)新的翻譯問(wèn)題,但仍存在邊界摩擦問(wèn)題(the boundary friction problem),可利用句法規(guī)則解決邊界摩擦(諸如妥協(xié),虛詞,形態(tài)等)問(wèn)題,重組自然語(yǔ)言的生成(Natural Langugae Generation,簡(jiǎn)稱NLG)機(jī)制。在實(shí)例和推理的平行語(yǔ)料庫(kù)中,若缺乏占優(yōu)勢(shì)的相似文本和充足的平行語(yǔ)料時(shí),兩者會(huì)產(chǎn)生綜合效應(yīng)。
EBMT和翻譯記憶(translation memory,TM)都是實(shí)例翻譯的存貯,但TM是一種人機(jī)交互式的翻譯過(guò)程,EBMT不是人機(jī)交互,而是分析——轉(zhuǎn)換——生成的全自動(dòng)翻譯過(guò)程。此外,EBMT和SMT都是基于彼此的語(yǔ)料存貯,EBMT系統(tǒng)在分析階段利用統(tǒng)計(jì)匹配探尋合適的匹配項(xiàng),匹配模板不僅僅是句子,可能是分析樹、語(yǔ)義圖標(biāo)等,而SMT的自身語(yǔ)料數(shù)據(jù)也不夠,因此,混合機(jī)譯系統(tǒng)有望解決這些問(wèn)題。
近些年來(lái),機(jī)器翻譯取得了令人鼓舞的成果,翻譯已進(jìn)入電子化時(shí)代??萍嫉慕驘o(wú)限。如果需要成就了創(chuàng)作,那么科技造就了轉(zhuǎn)機(jī)(陳善偉,2014∶332)??茖W(xué)技術(shù)為翻譯帶來(lái)新的研究范式,語(yǔ)言服務(wù)行業(yè)的市場(chǎng)需求實(shí)現(xiàn)了機(jī)器翻譯的應(yīng)用價(jià)值。本書用模式化和經(jīng)驗(yàn)化的方法闡釋翻譯現(xiàn)象,內(nèi)容充實(shí),具有很強(qiáng)的理論指導(dǎo)性和實(shí)踐應(yīng)用性。概括起來(lái),本書的創(chuàng)新特色以及給機(jī)器翻譯研究者帶來(lái)的啟示體現(xiàn)在以下個(gè)方面。
第一,宏微觀結(jié)合,描寫充分。作者站在宏觀角度回顧早期的研究成果,系統(tǒng)地分析現(xiàn)有評(píng)估理論,明確評(píng)估參數(shù)和標(biāo)準(zhǔn),提出自動(dòng)評(píng)估體系的幾大標(biāo)準(zhǔn),為機(jī)器翻譯質(zhì)量評(píng)估研究提供了重要的理論依據(jù)。微觀層面上,作者借鑒著名的沃古瓦三角理論和圖表勾勒出詞匯以及短語(yǔ)匹配的全過(guò)程,提出主要的匹配方式以及需滿足的條件等。匹配是機(jī)器翻譯的基本原理,匹配產(chǎn)出的譯文質(zhì)量是機(jī)器翻譯研究者關(guān)注的焦點(diǎn)。作者對(duì)相關(guān)概念的界定有利于國(guó)內(nèi)學(xué)者進(jìn)一步厘清機(jī)器翻譯的概念內(nèi)涵以及與翻譯技術(shù)之間的關(guān)系,宏微觀相結(jié)合的研究方式有利于國(guó)內(nèi)機(jī)器翻譯理論的建構(gòu)。
第二,覆蓋面廣,內(nèi)容新穎。不同語(yǔ)種間的語(yǔ)言結(jié)構(gòu)差異是機(jī)器翻譯面臨的巨大挑戰(zhàn),本書作者利用豐富的教學(xué)經(jīng)驗(yàn),結(jié)合具體實(shí)例闡釋機(jī)器翻譯系統(tǒng)中的核心語(yǔ)言問(wèn)題、基礎(chǔ)概念以及三種翻譯模型,并對(duì)每種翻譯模型做出評(píng)論,有利于理解機(jī)器翻譯的核心技術(shù),也有利于解決機(jī)器翻譯面臨的一些難題。各種翻譯模型利弊的分析促進(jìn)了機(jī)器翻譯障礙的突破,如詞綴給機(jī)器翻譯帶來(lái)的難題,足夠引起研究者們運(yùn)用語(yǔ)言學(xué)和科學(xué)技術(shù)等知識(shí)理論探尋新的解決路徑。本書還從機(jī)器的存貯和時(shí)間要求等方面闡釋機(jī)器翻譯面臨的困境,拓展機(jī)器翻譯研究的新視野。雖然,目前機(jī)器翻譯研究處于發(fā)展階段,其翻譯質(zhì)量還有待提高,研究者們可積極吸收和借鑒國(guó)內(nèi)外機(jī)器翻譯的最新研究成果和研究思路,深入展開(kāi)國(guó)內(nèi)機(jī)器翻譯研究,如譯后編輯、技術(shù)寫作、人才培養(yǎng)等都是值得深入探討的課題。此外,每章末提供的閱讀資料能拓展機(jī)器翻譯研究者的思維和視野。
第三,跨科研究,實(shí)用性強(qiáng)。機(jī)器翻譯研究涉及語(yǔ)言學(xué)、自然語(yǔ)言工程、計(jì)算機(jī)技術(shù)、統(tǒng)計(jì)學(xué)、社會(huì)學(xué)等多個(gè)學(xué)科領(lǐng)域,旨在揭示機(jī)器、翻譯、技術(shù)、社會(huì)、語(yǔ)言之間的復(fù)雜交互關(guān)系,本書融合多個(gè)學(xué)科領(lǐng)域展開(kāi)研究,有利于人們進(jìn)一步認(rèn)識(shí)機(jī)器翻譯的本質(zhì),理解機(jī)器翻譯的內(nèi)涵和實(shí)用價(jià)值,更好地服務(wù)語(yǔ)言市場(chǎng),實(shí)現(xiàn)產(chǎn)學(xué)研一體化。相對(duì)技術(shù)性章節(jié)而言,第二、三、四章提供了大量研究型問(wèn)題和程序操作練習(xí),如EM公式的推算、短語(yǔ)匹配概率值的計(jì)算和語(yǔ)言模型參數(shù)的推導(dǎo)等,切實(shí)達(dá)到理論指導(dǎo)實(shí)踐,凸顯本書的系統(tǒng)性和科學(xué)性。
第四,理論擴(kuò)展,策略發(fā)展。宏微觀結(jié)合、跨學(xué)科的研究方法有助于國(guó)內(nèi)機(jī)器翻譯研究超越單一的理論視角,形成獨(dú)特的多模態(tài)研究模式,擴(kuò)展了機(jī)器翻譯的研究范疇。機(jī)器翻譯研究的系統(tǒng)建構(gòu)和持續(xù)發(fā)展需要方法論和核心技術(shù)(及其模型)層面上的創(chuàng)新(如統(tǒng)計(jì)或神經(jīng)機(jī)器翻譯模型),而創(chuàng)新的“物質(zhì)基礎(chǔ)”是大數(shù)據(jù)語(yǔ)料庫(kù)的建構(gòu)。然而,與世界一流的互聯(lián)網(wǎng)公司(如Google)相比,高校研究單位在“模型、大數(shù)據(jù)、計(jì)算能力”等方面都處于劣勢(shì)。機(jī)器翻譯研究視野將擴(kuò)充到自然語(yǔ)言處理,由于自然語(yǔ)言研究始于機(jī)器翻譯,機(jī)器翻譯乃自然語(yǔ)言處理的核心成分之一,自然語(yǔ)言處理的發(fā)展歷程與機(jī)器翻譯基本一致(馮志偉,2011),兩者相輔相成。機(jī)器翻譯在自然語(yǔ)言處理中的具體發(fā)展策略應(yīng)視情況而定,如“一帶一路”所涉及的語(yǔ)言幾乎都屬于所謂的“資源貧乏語(yǔ)言”(孫茂松周建設(shè),2016)。研究者對(duì)這些語(yǔ)言知之甚少,通常僅能搜集小規(guī)模雙語(yǔ)語(yǔ)料庫(kù),而且大多是黏著語(yǔ),需要對(duì)其進(jìn)行詞法分析,這種情況無(wú)法采用經(jīng)典的神經(jīng)機(jī)器翻譯模型。將來(lái)我們是否可以在在只有一個(gè)常用雙語(yǔ)詞典、小規(guī)模雙語(yǔ)語(yǔ)料庫(kù)、較大規(guī)模單語(yǔ)語(yǔ)料庫(kù)以及于無(wú)監(jiān)督詞法分析(甚至不做詞法分析)的條件下,設(shè)計(jì)一個(gè)有效的神經(jīng)機(jī)器翻譯模型(孫茂松周建設(shè),2016)。這是機(jī)器翻譯研究者面臨的新課題,值得深入探討,也有利于為“一帶一路”沿線國(guó)家更好地提供語(yǔ)言服務(wù),加速中國(guó)文化“走出去”,推進(jìn)中國(guó)企業(yè)跨境出海的進(jìn)程。
瑕不掩瑜,本書還存在值得我們思考的地方,本書雖然列舉了很多參考書目,但很少引用書目中的相關(guān)背景知識(shí),如Gupta和Chatterjee(2003)、Sinha&Thakur(2005)以及Goyal&Sinha(2009)中語(yǔ)言歧義的例子。其次,本書對(duì)相關(guān)軟件的關(guān)注度不夠,如Lopez(2013)已基于研究生水平設(shè)計(jì)的有關(guān)MT體系的難題??傊?,本書融學(xué)術(shù)性、知識(shí)性、實(shí)用性為一體,為機(jī)器翻譯教學(xué)和研究提供了系統(tǒng)性的思考和導(dǎo)向性的建議,對(duì)建構(gòu)機(jī)器翻譯理論具有重要的參考價(jià)值和啟示意義。