陳銀娣,王秀珍
近年來,隨著大數(shù)據(jù)與人工智能技術(shù)的飛速發(fā)展,機(jī)器翻譯技術(shù)也呈現(xiàn)蓬勃發(fā)展的勢頭,許多在線翻譯軟件的翻譯水平大幅提升,在多個場景下已經(jīng)能夠提供翻譯質(zhì)量可接受的翻譯結(jié)果。但在具體的應(yīng)用過程中(如研究報告翻譯、學(xué)術(shù)論文翻譯、領(lǐng)域?qū)Vg等),現(xiàn)有翻譯軟件在特定領(lǐng)域詞匯翻譯、多重嵌套長句式理解、根據(jù)上下文語境確定詞義等方面還存在較大問題,嚴(yán)重影響了機(jī)器翻譯的多場景應(yīng)用。
提高機(jī)器翻譯的質(zhì)量,首先要解決的是語言問題而不是程序問題[1]。從目前人工智能機(jī)器翻譯的原理來看,僅憑改進(jìn)算法、擴(kuò)大語料庫、采用多種翻譯引擎等技術(shù)很難解決語言表達(dá)多樣化方面的問題。為此,筆者進(jìn)行了長期的思索與研究,提出一種利用降噪簡化、領(lǐng)域矯正等手段提升機(jī)器翻譯質(zhì)量的方案。經(jīng)檢驗,利用該方法可有效解決在機(jī)器翻譯過程中存在的特定領(lǐng)域詞匯句式翻譯不準(zhǔn)確、結(jié)構(gòu)復(fù)雜長句式理解偏差、不能依托上下文靈活用詞等問題,可提升研究報告、學(xué)術(shù)論文、領(lǐng)域?qū)V乳L篇報告的翻譯質(zhì)量,為情報研究工作提供更大助益。
機(jī)器翻譯,又稱為自動翻譯,是利用計算機(jī)將一種自然語言(源語言)轉(zhuǎn)換為另一種自然語言(目標(biāo)語言)的過程。機(jī)器翻譯技術(shù)隨著計算機(jī)技術(shù)的進(jìn)步而發(fā)展,自從1946 年第一臺現(xiàn)代電子計算機(jī)面世,科學(xué)家們就開始研究機(jī)器翻譯的可行性。經(jīng)過70 多年的不斷探索,人們先后開發(fā)了基于規(guī)則機(jī)器翻譯、基于語料庫的機(jī)器翻譯(包括基于統(tǒng)計、基于實例的機(jī)器翻譯)及基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯方法。
20 世紀(jì)90 年代前,機(jī)器翻譯的主流一直是基于規(guī)則的方法[2]。由人類語言學(xué)家將相應(yīng)的翻譯規(guī)則提前編好,包括某一句子中的單詞應(yīng)翻譯成什么,應(yīng)在目標(biāo)句子中何處出現(xiàn)等,均用規(guī)則表示(圖1)。這種方法的優(yōu)點是直接使用語言學(xué)家的專家知識,準(zhǔn)確率高[3]。但缺點也非常明顯:一是成本高,需要大量精通各種語言的語言學(xué)家;二是不夠靈活,規(guī)則不能覆蓋的句子無法進(jìn)行翻譯;三是經(jīng)常面臨規(guī)則沖突,由于語言靈活性強(qiáng)需要撰寫大量規(guī)則,但規(guī)則之間經(jīng)?;ハ嘀萍s和影響,造成混亂[4]。
圖1 基于規(guī)則的翻譯方法
20 世紀(jì)90 年代中期,為破解規(guī)則庫建設(shè)的難題,科學(xué)家們提出了基于語料庫(主要為雙語平行語料庫)的統(tǒng)計機(jī)器翻譯技術(shù),通過模仿實例庫中已有的翻譯句式,或者通過建立和訓(xùn)練統(tǒng)計翻譯模型進(jìn)行翻譯[5-6](圖2)。這種方法具有三大優(yōu)點:一是不需要詞典也無需規(guī)則,可避免深層語言學(xué)分析問題;二是基于實例進(jìn)行翻譯,譯文質(zhì)量高,可讀性強(qiáng);三是系統(tǒng)很容易擴(kuò)展,只需豐富語料庫即可[7]。但由于該方法需要龐大的語料庫作為支撐,在翻譯中經(jīng)常因語料庫覆蓋不全而出現(xiàn)數(shù)據(jù)稀疏等問題。
圖2 基于語料庫的統(tǒng)計機(jī)器翻譯方法
2014 年以來,端到端的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯(簡稱“神經(jīng)機(jī)器翻譯”)迅速發(fā)展[8-9],可通過神經(jīng)網(wǎng)絡(luò)直接實現(xiàn)自然語言之間的自動翻譯[10](圖3)。相較于統(tǒng)計機(jī)器翻譯,神經(jīng)機(jī)器翻譯模型較為簡單,主要包含一個編碼器及一個解碼器。編碼器是將源語言經(jīng)過一系列神經(jīng)網(wǎng)絡(luò)變換后,表示成一個高維的向量;而解碼器負(fù)責(zé)把這個高維向量再重新解碼(翻譯)成目標(biāo)語言[11-12]。由于神經(jīng)機(jī)器翻譯模擬了人腦的翻譯過程,翻譯質(zhì)量顯著提升,目前采用神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的有谷歌、微軟、百度、搜狗等翻譯系統(tǒng)。
圖3 端到端的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯方法
情報研究過程中,需要對大量外文文獻(xiàn)進(jìn)行跟蹤處理,而在當(dāng)前大數(shù)據(jù)時代,開源情報信息海量化趨勢愈演愈烈,如何快速有效地進(jìn)行信息的篩選和處理成為亟須解決的問題。利用機(jī)器輔助翻譯,能夠極大提高對大量文獻(xiàn)進(jìn)行初期篩選和處理的速度,加快情報研究響應(yīng)能力,提升情報研究工作效率。在情報研究與翻譯實踐(尤其是研究報告、學(xué)術(shù)論文、專著翻譯)中,機(jī)器翻譯暴露出的語言問題(如英譯漢)非常復(fù)雜,相同內(nèi)容在不同語境下表述的意義不同,不同的作者表達(dá)方式也多種多樣,經(jīng)常出現(xiàn)大量歧義現(xiàn)象;而且機(jī)器翻譯過程涉及多個環(huán)節(jié),每個環(huán)節(jié)都無法做到完全準(zhǔn)確,導(dǎo)致有時錯誤積累非常嚴(yán)重。因此,在實際應(yīng)用中,無論統(tǒng)計機(jī)器翻譯還是神經(jīng)機(jī)器翻譯,都可能出現(xiàn)翻譯謬誤問題[13-14]。
在情報研究與翻譯實踐(尤其是研究報告、學(xué)術(shù)論文、專著翻譯)中,無論機(jī)器翻譯系統(tǒng)采用何種技術(shù),在面對專業(yè)性長文檔時也很難保證翻譯質(zhì)量。它們存在以下3 個共性問題。
在專業(yè)性英文報告,尤其是政府發(fā)布的文件或科研機(jī)構(gòu)發(fā)布的報告中,經(jīng)常使用多重從句嵌套的長語句模式。翻譯此類句子時,需要弄清源語言句式的語法結(jié)構(gòu)、句式構(gòu)成,并理解源語言的相關(guān)內(nèi)容,然后按照目標(biāo)語言的表達(dá)習(xí)慣進(jìn)行重新搭配、翻譯。但目前使用的機(jī)器翻譯系統(tǒng),不管是建立在語法規(guī)則基礎(chǔ)上的翻譯引擎,還是建立在語料庫基礎(chǔ)之上的統(tǒng)計翻譯引擎,以及建立在神經(jīng)網(wǎng)絡(luò)基礎(chǔ)之上的翻譯引擎,其基礎(chǔ)都是簡單結(jié)構(gòu)的短句式,對復(fù)雜的長句式則多采用類比法在雙語語料庫中尋找相似結(jié)構(gòu)的源語言,然后進(jìn)行類比翻譯,因此在翻譯多重從句嵌套語句結(jié)構(gòu)時,經(jīng)常出現(xiàn)翻譯語序混亂、從句修飾錯誤等問題,導(dǎo)致翻譯結(jié)果與原文意思相差甚遠(yuǎn)。如圖4 所示的長句式,其中嵌套了2 個定語從句、1 個狀語從句、2 個分詞。正確的翻譯應(yīng)為“習(xí)近平進(jìn)一步擴(kuò)大了軍隊的實力,對解放軍進(jìn)行了建軍以來最具雄心的改組,具體目標(biāo)是使中國軍隊能夠在武力統(tǒng)一臺灣地區(qū)所需的兩棲登陸、戰(zhàn)場封鎖、導(dǎo)彈打擊行動中開展聯(lián)合作戰(zhàn),空軍、海軍、陸軍和戰(zhàn)略火箭軍都能無縫融合”。但機(jī)器翻譯將長句式分解成多個短句之后,源語句的結(jié)構(gòu)徹底被打破,其間的修飾關(guān)系出現(xiàn)了混亂,導(dǎo)致翻譯出的文本與源語句的意思出現(xiàn)了較大偏差。
圖4 多重從句嵌套的長語句模式句式結(jié)構(gòu)分析
同一個詞、短語甚至句式在不同領(lǐng)域代表不同的意義,即使在同一個領(lǐng)域中,在不同的應(yīng)用環(huán)境中也會有不同的釋義,翻譯時需要根據(jù)領(lǐng)域、語境進(jìn)行靈活的翻譯。當(dāng)前市面上的機(jī)器翻譯系統(tǒng)在該方面還存在較大問題:一是語料庫、詞庫都是不區(qū)分領(lǐng)域的通用庫,在對特定領(lǐng)域?qū)I(yè)內(nèi)容進(jìn)行翻譯時經(jīng)常用詞錯誤,導(dǎo)致翻譯的語句無法理解;二是無法理解上下文的意思,很難根據(jù)上下文語境進(jìn)行釋義。如圖5 所示的句子,來自國防工業(yè)、軍事領(lǐng)域,其中幾個專業(yè)詞匯,如“Budget Control Act”“the services”及“by services”在軍事領(lǐng)域都有專門的釋義,如果不能理解這些專業(yè)知識或相關(guān)背景,翻譯效果也很難令人滿意。而當(dāng)前的機(jī)器翻譯采用通用詞匯和通用語料庫,無法正確理解文中的專業(yè)詞匯,導(dǎo)致翻譯的語句無法理解。如果翻譯系統(tǒng)具備相關(guān)領(lǐng)域?qū)I(yè)知識,翻譯效果會好一些。
圖5 特定領(lǐng)域內(nèi)容翻譯句式分析
任何一種語言中絕大多數(shù)詞匯都具有多種語義。在不同的語境和上下文中,詞語會呈現(xiàn)不同的語義,因此在翻譯過程中要結(jié)合專業(yè)知識及上下文語境,充分考慮詞匯的具體使用場合。當(dāng)前的機(jī)器翻譯系統(tǒng)已經(jīng)在著力解決上下文語境的問題,如谷歌、百度的翻譯系統(tǒng)通過增加長短期記憶網(wǎng)絡(luò)(LSTM)、注意力機(jī)制等技術(shù)手段來提升對上下文的理解,但這些手段主要考慮的仍是在單一句式中的應(yīng)用,還未擴(kuò)展到一段話中上下語句之間的語境關(guān)聯(lián),而段與段之間的語境關(guān)聯(lián)更是無從涉及。由于缺乏足夠的上下文語境理解工具,導(dǎo)致很多翻譯簡單機(jī)械甚至錯漏百出。如圖6 所示,通過上下文的理解可以判斷原文介紹的是石油鉆探的知識,由此可以確定其中的“well”指的是油井,而“geological picture”是海底巖層的地質(zhì)狀況,但當(dāng)前的機(jī)器翻譯系統(tǒng)很難聯(lián)系上下文確定不同語境下的準(zhǔn)確語義,“picture”一詞很容易被機(jī)械地理解為圖片、圖像。如何處理詞語在不同語境下的含義,是機(jī)器翻譯面臨的一大難題。
圖6 根據(jù)上下文語境的詞義分析
機(jī)器翻譯存在的上述問題僅憑改進(jìn)算法、擴(kuò)大語料庫、采用多種翻譯引擎等手段很難解決,因此我們提出一種利用降噪簡化、領(lǐng)域矯正等人工智能技術(shù)提升情報領(lǐng)域機(jī)器翻譯質(zhì)量的方案,如圖7所示。
圖7 利用降噪簡化、領(lǐng)域矯正技術(shù)的機(jī)器翻譯方法
對一篇專業(yè)研究報告進(jìn)行翻譯時,由于報告中存在大量作者個人語言習(xí)慣方面的表述及領(lǐng)域知識,導(dǎo)致翻譯引擎難以獲得較好效果,因此采取以下步驟:第一步,運(yùn)行英文降噪簡化模塊對英文報告中過于繁雜的表述進(jìn)行適度簡化(圖7),簡化后的文本更容易被機(jī)器翻譯引擎理解;第二步,提取英文術(shù)語表,通過利用詞語的多元模型對報告中的高頻專業(yè)詞匯(去除通用詞匯)和縮略語詞匯進(jìn)行抽取,形成情報專用術(shù)語表;第三步,將簡化后的英文文本輸入翻譯引擎,由于無法確認(rèn)報告的主題和領(lǐng)域,因此調(diào)用通用語料庫進(jìn)行翻譯,形成臨時的中文譯文(簡稱中文草本);第四步,利用N-gram 模型對中文草本全文及每個章節(jié)、段落進(jìn)行統(tǒng)計分析,提取全文主題詞、章節(jié)主題詞、段落主題詞;第五步,利用全文主題詞確定報告所屬領(lǐng)域,對英文術(shù)語表進(jìn)行翻譯;第六步,以中英文術(shù)語對照表、全文主題詞、各個章節(jié)段落主題詞作為參照指標(biāo),將簡化后的英文文本再次輸入翻譯引擎,涉及專業(yè)的章節(jié)、段落需調(diào)用領(lǐng)域語料庫,通用術(shù)語調(diào)用中英文術(shù)語對照表,最后生成中文文本;第七步,對中文文本再次執(zhí)行降噪簡化,將許多影響文本理解、不利于表達(dá)主題的句式結(jié)構(gòu)進(jìn)行簡化處理,形成簡明扼要的翻譯文本。
整個方案包含以下兩個關(guān)鍵過程。
一是英文文本降噪簡化。文本簡化任務(wù)的目標(biāo)是在不顯著改變句子原始語義的前提下,將復(fù)雜句子轉(zhuǎn)換為更容易理解的簡單句子。文本簡化可降低分析和理解難度,大幅提升機(jī)器翻譯對復(fù)雜句式的翻譯質(zhì)量[15]。目前,英文文本降噪簡化領(lǐng)域有許多現(xiàn)成可用的系統(tǒng),包括基于短語表的統(tǒng)計文本簡化系統(tǒng)(PBMT-R)[16]、基于深度強(qiáng)化學(xué)習(xí)的文本簡化系統(tǒng)(DRESS)[17],以及帶有注意力機(jī)制的序列到序列神經(jīng)網(wǎng)絡(luò)模型(NTS)[18]等,本文采用的是開發(fā)時間較長且相對成熟的統(tǒng)計文本簡化模型(圖8)。經(jīng)過降噪簡化,得到簡化的英文文本。其中,絕大多數(shù)難以理解的多重從句嵌套的長語句都經(jīng)過了簡化,許多影響報告主題表達(dá)的內(nèi)容經(jīng)過降噪處理,形成了易于翻譯系統(tǒng)處理的英文文本。
圖8 統(tǒng)計文本簡化模型
二是對特定領(lǐng)域的專業(yè)詞匯和用法進(jìn)行領(lǐng)域矯正。領(lǐng)域矯正是利用機(jī)器翻譯系統(tǒng)對簡化英文文本進(jìn)行初次翻譯,主要包含兩部分。第一部分是對報告中的專用術(shù)語進(jìn)行統(tǒng)一定義。英文研究報告中含有大量縮略語,縮略語可指代的意思較多,機(jī)器翻譯在進(jìn)行通用翻譯時很難識別因此應(yīng)建立縮略語詞匯表;此外,還需對報告中大量多次重復(fù)出現(xiàn)的高頻詞匯(去除通用詞匯)進(jìn)行統(tǒng)一翻譯。第二部分是對專業(yè)領(lǐng)域詞匯或語句進(jìn)行翻譯。專業(yè)領(lǐng)域詞匯或語句存在一些特定的表達(dá)方式,利用通用的翻譯手段容易出現(xiàn)偏差,因此需要對這些詞匯或語句進(jìn)行辨識,并使用專用的領(lǐng)域翻譯模塊進(jìn)行翻譯。領(lǐng)域矯正的主要過程如圖9 所示。
圖9 領(lǐng)域矯正過程
領(lǐng)域矯正有兩個關(guān)鍵。一是利用主題詞提取工具提取全文主題詞和段落主題詞。目前無論中文還是英文,可用的工具都比較多[19-20]。二是確定領(lǐng)域后調(diào)用領(lǐng)域語料庫對術(shù)語表及各個段落的翻譯文本進(jìn)行矯正,這個過程可以通過在翻譯引擎中增加插件的形式來完成,在此不再贅述。
為評判本文所提方法的效果,下面從《美國聯(lián)邦數(shù)據(jù)戰(zhàn)略2020 年行動計劃》中選取一句多重從句嵌套的長語句(縮略語)(圖10),其中有幾個專業(yè)詞匯,如CAP、FDS 等,也涉及到上下文語句環(huán)境。圖10 展示了當(dāng)前機(jī)器翻譯系統(tǒng)翻譯的結(jié)果。
圖10 當(dāng)前機(jī)器翻譯系統(tǒng)翻譯結(jié)果
從圖10 可以看出,現(xiàn)有的機(jī)器翻譯系統(tǒng)不能很好地破解長句式,無法理解上下文環(huán)境,不能明確專業(yè)詞匯的意義,因此很難將語義正確地翻譯出來,該翻譯結(jié)果在句式分析、專業(yè)詞匯理解、縮略語解構(gòu)等方面均不理想。
為此,對上述文本進(jìn)行降噪簡化和領(lǐng)域校正處理,過程如圖11 所示。首先進(jìn)行文本的降噪簡化,將難以理解的從句嵌套長句式轉(zhuǎn)化為4 個簡單句式,然后進(jìn)行術(shù)語提取,將專業(yè)領(lǐng)域詞匯提取出來;其次,調(diào)用翻譯引擎,對4 個簡單句式進(jìn)行翻譯,通過比對提取主題,確定相關(guān)領(lǐng)域并調(diào)用領(lǐng)域詞匯表對前期提取的相應(yīng)術(shù)語進(jìn)行翻譯,最后利用中英文術(shù)語對照表對翻譯初稿進(jìn)行校對,得到最終文本。
圖11 降噪簡化及領(lǐng)域矯正樣例
經(jīng)驗證,算法匹配能夠有效解決情報翻譯過程中存在的特定領(lǐng)域詞匯句式翻譯不準(zhǔn)確、結(jié)構(gòu)復(fù)雜長句式理解偏差、無法根據(jù)上下文靈活用詞等問題,可提升研究報告、學(xué)術(shù)論文、專著等長篇報告的翻譯質(zhì)量,為情報研究工作中的文獻(xiàn)處理提供更大助益。
本文屬于人工智能技術(shù)在機(jī)器翻譯領(lǐng)域的簡單應(yīng)用。2017 年,國務(wù)院發(fā)布了《新一代人工智能發(fā)展規(guī)劃》,將發(fā)展人工智能技術(shù)作為未來重要的國家戰(zhàn)略。未來10-20 年,大數(shù)據(jù)、人工智能技術(shù)將高速發(fā)展,并將在多個新領(lǐng)域大放異彩,機(jī)器翻譯將是一個很有可能取得突破性發(fā)展的領(lǐng)域。當(dāng)前的人工智能技術(shù)已解決許多過去傳統(tǒng)機(jī)器翻譯面臨的技術(shù)障礙,在簡單文本翻譯方面取得較大進(jìn)展,在復(fù)雜文本翻譯方面也為翻譯人員減輕了大量的工作量,大大提升了翻譯效率。