孫茂松?周建設(shè)
提 要 本文試圖從超脫細節(jié)的宏觀角度,對機器翻譯的發(fā)展歷程進行扼要的總結(jié)和深刻的評介,著重于刻畫各個時期在基本方法和核心技術(shù)上的主要特征,從而勾勒出機器翻譯的全過程演進脈絡(luò)。在上述考察和分析的基礎(chǔ)上,文章對國內(nèi)機器翻譯乃至自然語言處理研究的近期發(fā)展策略提出了若干建議。
關(guān)鍵詞 機器翻譯;自然語言處理;發(fā)展歷史;策略
Abstract Machine translation (MT) is one of the major research fields of natural language processing (NLP), and it always spearheads the research frontier in NLP. In this paper, after a systematic survey of the development history of MT from a macroscopic perspective, with particular emphasis on the main development path of underlying methodologies and core technologies in MT, we drew a general picture of the milestones that marked the key points of a long journey for both theoretical study and practical accomplishment for the past seven decades. The latest fruitful development achieved in the area of MT application shows that, the paradigm shift from the traditional linguistic rule-based approaches to the so-called empirical approach, based on increasingly available amounts of “raw data” in the form of massive collections of texts and their translations, compounded by the phenomenal advancement of computer technology, will become the driving force that will potentially lead to the breakthrough in MT. Based on the above observation and analysis, some suggestions on the short-term development strategy for machine translation as well as natural language processing in China are proposed.
Key words machine translation; natural language processing; development history; strategy
一、引言——從機器翻譯談起
2016年9月27日,“谷歌大腦小組”的科學(xué)家Quoc V. Le和Mike Schuster在“谷歌研究博客”上發(fā)表了一條博文:“一個產(chǎn)品規(guī)模的用于機器翻譯的神經(jīng)網(wǎng)絡(luò)”,稱繼十年前谷歌推出基于短語的機器翻譯系統(tǒng)Google Translate之后,谷歌在機器翻譯領(lǐng)域再次取得重大突破,全新推出了神經(jīng)機器翻譯系統(tǒng)GNMT(Le & Schuster 2016)。谷歌公司同時還在arXiv上發(fā)表了一篇論文,從技術(shù)角度詳細報告了GNMT的工作機制(Wu et al. 2016)。以維基百科和新聞?wù)Z料為測試數(shù)據(jù)的實驗結(jié)果顯示,較經(jīng)典的基于短語的統(tǒng)計機器翻譯模型GNMT將若干關(guān)鍵語言對之間的翻譯錯誤率顯著降低了55%到85%。圖1顯示,從法語到英語、英語到西班牙語的機器翻譯質(zhì)量已非常接近人工翻譯質(zhì)量(也可以看到,從漢語到英語以及從英語到漢語的機器翻譯質(zhì)量是最遠離人工翻譯質(zhì)量的)。與前不久谷歌AlphaGo戰(zhàn)勝人類九段圍棋選手相仿,谷歌的這個工作又一次在世界上引起了轟動和熱議。
筆者有針對性地輸入一些頗為復(fù)雜的實際句子給GNMT,以考察其翻譯性能??偟挠∠笫荊NMT表現(xiàn)優(yōu)良,谷歌所言不虛。作為工作于自然語言處理領(lǐng)域的學(xué)者,一方面為機器翻譯取得的如此進步而深感興奮,另一方面又有些失落感:在與國際大公司的核心技術(shù)角逐中,國內(nèi)研發(fā)單位又一次處于下風(fēng)。宏觀來看,機器翻譯的下一個關(guān)鍵步,我們該怎么走?進一步地,機器翻譯是自然語言處理領(lǐng)域一個最為經(jīng)典問題,自然語言處理的下一個關(guān)鍵步又該怎么走呢?
本文試圖通過扼要回顧機器翻譯的發(fā)展過程來部分地回答上述兩個問題。需要說明的是:我們并不關(guān)心機器翻譯發(fā)展歷史的細部,而只是就機器翻譯各發(fā)展階段中最重要的特點(主要關(guān)注在方法論及核心技術(shù)層面上)以及與本話題密切相關(guān)的某些“吉光片羽”,展開“散步式”的討論。這里對機器翻譯發(fā)展階段的劃分,大體上采用了Hutchins(1995)的說法, 但也有所調(diào)整。
二、機器翻譯的發(fā)展歷程:
大波浪式前進
(一)大潮初起(1947—1956)
說到機器翻譯近70年的發(fā)展史,就不能不提“機器翻譯之父”——Warren Weaver。
Warren Weaver是美國著名的科學(xué)家、數(shù)學(xué)家及科學(xué)管理者。他與“信息論之父”香農(nóng)于1949年合作出版了在通信領(lǐng)域具有里程碑意義的著作The Mathematical Theory of Communication,足見他在科學(xué)界的尊崇地位。1947年3月4日,他在寫給 “控制論之父”Norbert Wiener的一封信中,就認真探討了機器翻譯的可能性(雖然他感覺由于語言中“語義困難”的存在,機器翻譯的質(zhì)量不太可能達到“雅”的境界,但對科技文獻達到“信”的程度卻是可能的)。1949年7月15日,他在題為《翻譯》(Weaver 1955)的備忘錄中正式提出了機器翻譯的思想,并在如下四個方面給出了他的真知灼見(以下簡稱為“WW建議”):
(1)意義與上下文:他充分認識到上下文在解決詞匯歧義中的重要作用,由此引出了語言的統(tǒng)計語義性質(zhì)問題(如句子的上下文窗口大小問題)。這與后來的馬爾可夫語言模型有對應(yīng)關(guān)系。
(2)語言與邏輯:他認為書面文本是邏輯性質(zhì)的表達,所以它至少是形式上可解的,盡管語言中確實存在某些非邏輯元素,如關(guān)于風(fēng)格的直覺感受、情感內(nèi)容等很難被計算機處理。其潛臺詞是應(yīng)該對句子進行結(jié)構(gòu)化的句法語義分析,因為這是邏輯推演的基礎(chǔ)。
(3)從密碼學(xué)的角度,他認為可以把“一本用中文寫的書看作是一本用英文寫的書被編碼成中文”,而把翻譯過程看作“解碼”過程。這差不多就是后來廣泛使用的統(tǒng)計機器翻譯模型。他還強調(diào)對語言統(tǒng)計語義性質(zhì)的研究應(yīng)成為機器翻譯初創(chuàng)階段必須下力氣完成的首要任務(wù),隱含著應(yīng)從數(shù)學(xué)和計算角度深入研究語言的統(tǒng)計模型的意思。
(4)針對多語言之間的翻譯問題,他指出應(yīng)研究人類通信的共同基礎(chǔ)——普遍語言(又被稱為語言的邏輯結(jié)構(gòu))問題,以期事半功倍之效。這與后來有學(xué)者提出的機器翻譯“中間語言”思路一脈相承。②
Warren Weaver的備忘錄起到了機器翻譯思想啟蒙的作用,并直接引發(fā)了機器翻譯研究的蓬勃興起。最早開展機器翻譯研究的有美國的麻省理工學(xué)院、喬治城大學(xué)和IBM等,前蘇聯(lián)的列寧格勒大學(xué)、英國的劍橋大學(xué)等也迅速跟進。研究動力不外兩個:(1)機器翻譯由于其所蘊含著的深刻的科學(xué)問題,已成為當(dāng)時計算機科學(xué)研究前沿的排頭兵之一;(2)體現(xiàn)了各自國家的需求(美國和前蘇聯(lián)的研究主要集中在英俄兩種語言對之間的翻譯上)。
這些早期研究在方法論和核心技術(shù)路線上都沒有顧及“WW建議”之(1)和(3)所倡導(dǎo)的基于語言統(tǒng)計語義性質(zhì)的機器翻譯模型研究,而是大體上沿著“WW建議”之(2)的取向,研究基于人工編制規(guī)則的詞法、句法分析的翻譯方法(當(dāng)然,也包括較為初級的基于雙語詞典的直接翻譯方法研究),并初步構(gòu)造了規(guī)模很小的實驗系統(tǒng)(1954年,美國進行了俄英機器翻譯試驗,1955年到1956年,蘇聯(lián)完成了英俄和法俄機器翻譯試驗)。這一點其實并不奇怪:第一,人們對語言和語言學(xué)的認識會使機器翻譯設(shè)計者“自然而然”地首先遵循基于規(guī)則的詞法、句法分析的道路進行探索(雖然理論語言學(xué)研究與這一時期的機器翻譯研究似乎并沒有太多關(guān)聯(lián),只是在后來越來越多地介入進來);第二,那時候機器能力有限,也缺乏機器可讀的大規(guī)模語料庫,所以幾乎沒有滋生統(tǒng)計機器翻譯模型的土壤(雖然有研究者開始利用統(tǒng)計方法從一定規(guī)模的語料庫中提取雙語詞匯和語法信息,但那只是局部的統(tǒng)計方法)。
(二)從第一次波峰跌入波谷(1957—1966)
這個時期的研究是前一個時期工作的延續(xù),并且有新的拓展。哈佛大學(xué)、加州伯克利分校、德州大學(xué)等紛紛投身于這一研究潮流中。美國和歐洲之外也不斷有研究團隊加入。中國的反應(yīng)就相當(dāng)迅速:早在1958年8月,中國科學(xué)院計算技術(shù)研究所就成立了機器翻譯研究組,并與語言研究所密切合作,開展俄漢機器翻譯研究(劉涌泉 1959)。1959年,中國在自制的通用電子計算機上成功進行了俄漢機器翻譯試驗(劉涌泉 1963)。
這個時期美國的研究多集中在句法分析(包括依存分析)的基礎(chǔ)上,理論語言學(xué)日益發(fā)揮作用,機器翻譯模型也漸趨豐滿,如喬治城大學(xué)的自動翻譯系統(tǒng)GAT就配置了三個層次的分析:詞法層(包括成語識別)、組合層(包括名詞和形容詞之間的一致性、動詞的管約、形容詞的修飾等)和句法層(包括主語和謂語、從句關(guān)系等),歐洲和前蘇聯(lián)出于自身多語言環(huán)境的需要,偏重于“WW建議”之(4)涉及的基于“中間語言”(interlingua)的機器翻譯研究。這些研究無疑大大豐富了人們對機器翻譯模型的認識。
對機器翻譯的高度期待和樂觀主義情緒彌漫于20世紀(jì)整個50年代。隨著若干機器翻譯系統(tǒng)被陸續(xù)研制出來并投入使用,人們得以直接觀察和評論機器翻譯系統(tǒng)的輸出結(jié)果。但觀察得到的總體印象是:機器翻譯的質(zhì)量與期望相差甚遠。隨著研究工作的逐步展開,學(xué)者們越來越體會到語言的復(fù)雜性,越來越感受到橫亙在機器翻譯征途上十分困難的“語義屏障”問題。1960年,以色列著名的哲學(xué)家、數(shù)學(xué)家和語言學(xué)家Yehoshua Bar-Hillel發(fā)表了一篇長文,產(chǎn)生了長久的影響(他很早就在麻省理工學(xué)院從事機器翻譯研究,并于1952年組織了第一次機器翻譯國際會議)。他認為由于語義歧義的存在,通用的高質(zhì)量全自動機器翻譯理論上是不可能的(Bar-Hillel 1960)。他通過一個他所謂的再簡單不過的例子來說明其觀點:
The box was in the pen.
“pen”至少有兩個意思:“鋼筆”和“圍欄”。在如下語境中,人可以輕而易舉地確定其中的“pen”的意思應(yīng)該為“圍欄”:
Little John was looking for his toy box. Finally he found it. The box was in the pen.(盒子在圍欄里)John was very happy. (句1)
對比:
The pen was in the box. (鋼筆在盒子里)
他斷言,任何機器翻譯系統(tǒng)對此都會束手無策。原因在于,機器要處理好這個情形,至少需要補充兩個手段:第一,上下文需要從“WW建議”(1)中的句子擴展到篇章,因此而增加的語言分析無窮的復(fù)雜性是機器無法處理的;第二,需要關(guān)于大千世界的系統(tǒng)性的形式化知識,而這在當(dāng)時完全是空白,也是難以想象的。
那時還出現(xiàn)了一個后來廣為流傳的“故事”。1962年,John A. Kouwenhoven在美國的Harpers Magazine上發(fā)表了一篇題目為《翻譯的困擾》的文章,講到當(dāng)時有人將《馬太福音》中的英語成語經(jīng)過機器翻譯成俄文,再將其譯回英語:
The spirit is willing but the flesh is weak. (句2)
(直譯:精神是愿意的,肉體卻是虛弱的。意譯:心有余而力不足)
經(jīng)過機器翻譯成俄文,再把它翻譯回英語,得到了令人啼笑皆非的結(jié)果:
The Vodka is good but the meat is rotten.
(伏特加酒是好的,但肉卻腐爛了)
錯誤的產(chǎn)生來自該成語中存在的詞匯歧義現(xiàn)象,如“flesh”有“肉體,情欲,(動物或人的)肉,果肉”的意思,“rotten”有“腐爛的,惡臭的,墮落的,(巖石等)風(fēng)化的,虛弱的,無用的”等意思。雙語詞典查找策略很容易會被迷惑。
馮志偉(2008)質(zhì)疑并否定了這個“故事”的真實性。但它也確實從一個側(cè)面反映了那個時期人們對機器翻譯任務(wù)艱巨性的某種認識。
接下來發(fā)生的一件事便是上述理性認識合乎邏輯的發(fā)展結(jié)果。1964年,美國科學(xué)院和美國國家研究理事會成立了“語言自動處理咨詢委員會”(Automatic Language Processing Advisory Committee,簡稱ALPAC),對機器翻譯的進展?fàn)顩r,尤其是對過去十余年美國國防部、國家科學(xué)基金會和中央情報局重金資助的相關(guān)項目的執(zhí)行效果,進行了系統(tǒng)的調(diào)研和評估。1966年11月,ALPAC發(fā)布了題為《語言與機器:翻譯和語言學(xué)視角下的計算機》的報告,即著名的ALPAC報告。報告正文不長,只有30來頁,但提供了長達90頁的20個附件,應(yīng)該說態(tài)度是非常嚴(yán)謹(jǐn)?shù)摹蟾妫ㄒ脖环Q為“黑皮書報告”)給出了兩個基本結(jié)論:第一,對全自動機器翻譯持基本否定的態(tài)度,認為在可預(yù)期的將來,不可能達到與人工翻譯相比更為快速、高質(zhì)量、經(jīng)濟的目標(biāo),轉(zhuǎn)而建議應(yīng)該支持更為現(xiàn)實的機器輔助翻譯;第二,機器翻譯遇到了難以克服的“語義屏障”問題,應(yīng)該加強對計算語言學(xué)(Computational Linguistics)的支持。ALPAC報告的影響是深遠的,以致美國政府對機器翻譯的支持幾乎都停止了,而且一停就是十年,世界范圍內(nèi)機器翻譯熱潮也突然消失了,從第一個波峰深深地跌入了波谷。
機器翻譯遇到如此大的挫折,其實是無可避免的:第一,那時的人們過于迷信計算機強大的計算能力和存儲能力,嚴(yán)重低估了人類語言的復(fù)雜性,從“不知深淺”到碰壁而“知深淺”是繞不過去的認識過程;第二,在方法論和核心技術(shù)的大方向上出現(xiàn)了是否具可行性的問題,“WW建議”之(2)和(4)是人類分析之所長,但恰恰是機器分析之所短。機器翻譯研究后來幾乎完全“改弦更張”到“WW建議”之(1)和(3)的方向上,應(yīng)該說是碰壁后深刻反思的必然產(chǎn)物。
(三)波瀾不驚水長流(1967—1989)
這一時期機器翻譯研究的中心從美國轉(zhuǎn)移到了加拿大和歐洲。持續(xù)不衰的動力來自兩者對機器翻譯的強烈需求:加拿大的雙文化政策迫切需要英法翻譯,歐盟官方的所有科學(xué)、技術(shù)和管理文件都應(yīng)翻譯成所屬國家的任何一種語言,迫切需要多語言翻譯。由于沒有新的重大學(xué)術(shù)思想出現(xiàn),所采用的方法論和核心技術(shù)基本上還是在“WW建議”之(2)和(4)的框架下進行,即基于規(guī)則的方法以及基于“中間語言”的方法,當(dāng)然在這個方向上的研究深度仍在不斷增加。研究積淀開始在商業(yè)上產(chǎn)生回報,如1968年成立的SYSTRAN公司,其機器翻譯系統(tǒng)1979年被成功應(yīng)用于美國空軍,實際用于俄英翻譯,1976年被應(yīng)用于歐盟,實際用于英法翻譯,后來還被安裝在北約和國際原子能機構(gòu)等。再如,加拿大蒙特利爾大學(xué)研發(fā)的 METEO英-法機器翻譯系統(tǒng),1977年被成功用于翻譯天氣預(yù)報文檔。值得一提的是,20世紀(jì)80年代機器翻譯在日本掀起了一次“小高潮”。在1982年日本提出“五代機”計劃的大背景下,不少日本大企業(yè)紛紛投資開展機器翻譯的研發(fā)。
期間也有個別新的方法被提出,如Nagao (1984)基于實例的機器翻譯方法(翻譯模型所需要的實例需要從語料庫中獲得)。
(四)兩個連環(huán)沖擊形成的第二次波峰(1990年至今)
1990年在芬蘭赫爾辛基召開的第13屆國際計算語言學(xué)大會提出了處理大規(guī)模真實文本的戰(zhàn)略任務(wù),開啟了語言計算的一個新的歷史階段——基于大規(guī)模語料庫的統(tǒng)計自然語言處理。在此潮流的帶動下,機器翻譯領(lǐng)域先后推出了兩種新的方法論和核心技術(shù),從而涌現(xiàn)了兩個沖擊波,連環(huán)形成了機器翻譯歷程中的第二次波峰。這次波峰的影響是革命性的,導(dǎo)致機器翻譯的性能實現(xiàn)了質(zhì)的飛躍,并且開辟了基于互聯(lián)網(wǎng)的開放式服務(wù)的新天地。
1. 第一個沖擊波——統(tǒng)計機器翻譯模型
其標(biāo)志性方法是著名的IBM模型1-5,與以前的相比,具有顛覆性(Brown et al. 1993)?;舅枷胧腔谙戕r(nóng)信息論中針對編解碼的“噪聲信道模型”,幾乎完全依賴大規(guī)模雙語語料庫,通過詞對齊、短語對齊等手段,來自動構(gòu)造統(tǒng)計機器翻譯模型,而不再需要規(guī)則集(因而與語言學(xué)研究越離越遠)。這種方法具有廣泛的一般性,與具體語種無關(guān),機器翻譯系統(tǒng)的設(shè)計者可以完全不懂相關(guān)的語言,大規(guī)模雙語語料庫成了關(guān)鍵,成了一切。正如著名的機器翻譯學(xué)者(也是后來Google Translate的設(shè)計者)Och模仿阿基米德的口吻所聲稱的那樣,“只要給我充分的并行語言數(shù)據(jù),那么,對于任何兩種語言,我就可以在幾小時之內(nèi)給你構(gòu)造出一個機器翻譯系統(tǒng)”。較之基于規(guī)則的系統(tǒng),機器翻譯的性能得以顯著提升,很快催生了谷歌、百度等公司的互聯(lián)網(wǎng)機器翻譯系統(tǒng)(并且很容易就實現(xiàn)了數(shù)十個語言對之間的翻譯)。
這里淋漓盡致地展示了大數(shù)據(jù)乃至大數(shù)據(jù)思維的力量:人類的翻譯知識和經(jīng)驗其實已經(jīng)最大限度地“隱式”地反映在極大規(guī)模的雙語語料庫中了。統(tǒng)計機器翻譯模型不需要人的任何幫助和介入,就可以有效挖掘和利用這些知識。
2. 第二個沖擊波——神經(jīng)機器翻譯模型
統(tǒng)計機器翻譯模型基本上是回歸到“WW建議”之(1)和(3)的方向上,但就計算模型本身而言,是比較經(jīng)典的。2014年前后,第二個沖擊波——基于深度神經(jīng)網(wǎng)絡(luò)的機器翻譯方法(神經(jīng)機器翻譯模型)接踵而至(Bahdanau et al. 2014;Sutskever et al. 2014)。這一次輪到與統(tǒng)計機器翻譯方法相比較了,前面那句話依然有效:具有顛覆性。機器翻譯的性能再次得以顯著提升,其標(biāo)志是:谷歌、百度已將其互聯(lián)網(wǎng)開放服務(wù)更新?lián)Q代為神經(jīng)機器翻譯系統(tǒng)。這就有了前面說的谷歌的轟動效應(yīng)。
盡管神經(jīng)機器翻譯模型的內(nèi)涵與統(tǒng)計機器翻譯模型已經(jīng)全然不同,其機理初看上去甚至難以理喻,但從外部特性來看,它們的基本點是完全一致的:第一,神經(jīng)機器翻譯模型具有更加廣泛的一般性(與語言學(xué)研究幾乎徹底分道揚鑣);第二,更加體現(xiàn)了大數(shù)據(jù)和大數(shù)據(jù)思維的力量。此外,神經(jīng)機器翻譯模型比統(tǒng)計機器翻譯模型更需要極其強大的計算能力的支持。
三、思考:機器翻譯乃至
自然語言處理的發(fā)展策略
縱觀機器翻譯近70年的歷程,有一種十分強烈的感受:方法論和核心技術(shù)(及其模型)層面上的創(chuàng)新是機器翻譯取得重大進步的根本原因(如統(tǒng)計或神經(jīng)機器翻譯模型),而創(chuàng)新的“物質(zhì)基礎(chǔ)”是一類特殊的大數(shù)據(jù)——雙語語料庫。
在為機器翻譯經(jīng)過一波三折而終于取得驕人成績而感到欣慰的同時,也無可避免地產(chǎn)生了另外一種十分強烈的感受:在獨領(lǐng)風(fēng)騷的互聯(lián)網(wǎng)大公司的壓迫下,高校的相關(guān)研究淪落到了很難有所作為的尷尬境地。這是由于:
第一,神經(jīng)機器翻譯模型是一種通用的計算裝置。它基本上是帶attention機制的循環(huán)神經(jīng)網(wǎng)絡(luò),最適合處理所謂“序列到序列”的問題,如機器翻譯中源語言的句子和對應(yīng)的目標(biāo)語言的句子就構(gòu)成了一個序列對。目前看來,這個模型的性能是極為強大的,蓋過了其他所有模型。我們以往在計算語言學(xué)和語言學(xué)研究上積累起來的經(jīng)驗,變得完全不起作用(至少是暫時),相關(guān)優(yōu)勢喪失殆盡。
第二,雙語語料庫的規(guī)模決定了神經(jīng)機器翻譯模型的性能。高校由于工程能力的限制,其雙語語料庫的獲得能力顯然會遠小于互聯(lián)網(wǎng)大公司。
第三,設(shè)計并訓(xùn)練出一個神經(jīng)機器翻譯模型需要強大無比的計算能力,需要反復(fù)摸索。高校的計算能力通常會比互聯(lián)網(wǎng)大公司低1—2個數(shù)量級,導(dǎo)致高校的相關(guān)試驗手段嚴(yán)重缺失,無法進行高烈度的試驗。
上述各點決定了高校對神經(jīng)機器翻譯模型在技術(shù)上的理解一般來說不會超過互聯(lián)網(wǎng)大公司。加之互聯(lián)網(wǎng)大公司能高薪延攬到全世界的一流人才,并且全天候投身于研發(fā)工作。這一點上顯著優(yōu)越于高校。換言之,高校在“模型、大數(shù)據(jù)、計算能力”這三個關(guān)鍵要素上都處于明顯的劣勢。那么,對國內(nèi)研究單位來說,機器翻譯接下來的出路在哪里呢?
首先,要下大力氣盡快解決基礎(chǔ)條件問題:(1)要建設(shè)一個國家級的大規(guī)模深度學(xué)習(xí)計算平臺,解決計算能力問題;(2)要建設(shè)一個國家級的高質(zhì)量的雙語語料庫(雖然在規(guī)模上不太可能比過互聯(lián)網(wǎng)大公司,但我們可以更多地關(guān)注于搜集高質(zhì)量的雙語語料庫,解決訓(xùn)練用高質(zhì)量大數(shù)據(jù)問題)。
其次,要在有特色的方法創(chuàng)新上下功夫,解決模型問題。這里面又有三層意思:
(1)對通用神經(jīng)機器翻譯模型進行創(chuàng)新或改造。
我們不妨掉過頭看一下谷歌的GNMT對前文提及的歷史上著名例句的翻譯結(jié)果。首先輸入句2:
對句2輸出的漢語譯文:精神是愿意的,但肉體是軟弱的。
從漢語譯文再翻譯成英語:The spirit is willing, but the flesh is weak.
對句2輸出的俄語譯文:Дух бодр, но плоть слаба.
從俄語譯文再翻譯成英語:The spirit indeed is willing, but the flesh is weak.
對句2輸出的苗語譯文:Tus ntsuj plig yog kam, tab sis lub cev nqaij daim tawv yog tsis muaj zog.
從苗語譯文再翻譯成英語:The spirit is willing, but the flesh is weak.
我們無從判斷其相應(yīng)的俄語和苗語譯文是否正確。但從一個翻譯來回得到與原句幾乎完全一致的結(jié)果來看,GNMT的表現(xiàn)確實可圈可點。
接著我們輸入句1,GNMT輸出的譯文為:
約翰正在尋找他的玩具盒。最后他發(fā)現(xiàn)了。箱子在鋼筆。約翰很高興。
“pen”還是翻譯錯了??梢?,GNMT尚沒有考慮篇章分析和對世界知識的處理。在這個方面,我們應(yīng)該還有機會。當(dāng)然,這要取決于我們的模型創(chuàng)新能力到底有多強。
(2)對通用神經(jīng)機器翻譯模型進行完善。
譬如,盡管GNMT對未登陸詞專門進行了處理,但測試下來,感到仍有較大改進空間。
輸入:嚴(yán)肅是個好同志。
輸出的英語譯文:Serious is a good comrade.
再如,譯文一致性也是一個問題。輸入:
他在翻譯泰戈爾的《飛鳥集》。
他在吟誦泰戈爾的《飛鳥集》。
他在翻譯《飛鳥集》。
GNMT輸出的英語譯文分別為:
He translated Tagores Flying Birds collection.
He chanted Tagores Flying Birds.
He is in the translation of “birds”.
這實際上碰到了神經(jīng)網(wǎng)絡(luò)模型的軟肋,是不容易解決的。
(3)對特定條件下的神經(jīng)機器翻譯模型進行全新設(shè)計。
如“一帶一路”所涉及的語言幾乎都屬于所謂的“資源貧乏語言”。通常只能搜集到小規(guī)模的雙語語料庫,并且多為黏著語,都面臨著詞法分析問題,而我們往往不懂這些語言。經(jīng)典的神經(jīng)機器翻譯模型肯定是不適用的。是否可能在只有一個常用雙語詞典、小規(guī)模雙語語料庫、較大規(guī)模單語語料庫以及基于無監(jiān)督詞法分析(甚至不做詞法分析)的條件下,設(shè)計一個有效的神經(jīng)機器翻譯模型,絕對是對我們模型創(chuàng)新能力的一大考驗。
現(xiàn)在我們把視野從機器翻譯擴大到自然語言處理。自然語言處理肇始于機器翻譯,機器翻譯是自然語言處理的核心組成之一,歷史上自然語言處理的發(fā)展歷程與機器翻譯幾乎是一致的(馮志偉 2011),兩者相輔相成。如1990年也是自然語言處理“斷代”的分水嶺,之前是基于規(guī)則的所謂“理性主義”方法論,之后便變成了基于統(tǒng)計的所謂“經(jīng)驗主義”方法論。自然語言處理目前的研究熱點同樣也是基于深度神經(jīng)網(wǎng)絡(luò)的方法。所以本節(jié)針對機器翻譯的一些討論,在原則上對自然語言處理也是管用的。當(dāng)然,具體策略要根據(jù)自然語言處理的具體任務(wù)有所變化。例如:訓(xùn)練基于深度神經(jīng)網(wǎng)絡(luò)的句法分析模型,需要大規(guī)模的句法標(biāo)注語料庫(此時就沒有機器翻譯那么幸運了,在那里從生語料庫中可以天然地得到序列對,而這里必須經(jīng)過人工標(biāo)注才能得到)。所以人工標(biāo)注策略可能有必要進行調(diào)整。標(biāo)記集的設(shè)計不一定很復(fù)雜,應(yīng)足夠簡潔,以方便人工在最短時間內(nèi)標(biāo)注出相當(dāng)規(guī)模的句法標(biāo)注語料庫。
以上構(gòu)成了未來幾年我們在機器翻譯和自然語言處理領(lǐng)域應(yīng)當(dāng)采取的基本策略。
注 釋
① 圖引自Le&Schuster(2016)。
② “WW建議”之(1)和(3)是相關(guān)的,(2)和(4)也是相關(guān)的。
參考文獻
馮志偉 2008 《一個關(guān)于機器翻譯的史料錯誤》,《香港語文建設(shè)通訊》第89期。
馮志偉 2011 《計算語言學(xué)的歷史回顧與現(xiàn)狀分析》,《外國語》第1期。
劉涌泉 1959 《我國機器翻譯工作的進展》,《科學(xué)通報》第17期。
劉涌泉 1963 《機器翻譯和文字改革(上)》,《文字改革》第2期。
Bahdanau, Dzmitry, Kyunghyun Cho, and Yoshua Bengio. 2014. Neural Machine Translation by Jointly Learning to Align and Translate. arXiv:1409.0473v6 [cs.CL] 24 Apr 2015.
Bar-Hillel, Yehoshua. 1960. The Present Status of Automatic Translation of Languages. Advances in Computers 1, 91-163.
Brown, Peter E., Vincent J. Della Pietra, Stephen A. Della Pietra, and Robert L. Mercer. 1993. The Mathematics of Statistical Machine Translation: Parameter Estimation. Computational Linguistics 19(2), 263-311.
Hutchins, W. John. 1995. Machine Translation: A Brief History. In E. F. K. Koerner and R. E Asher (eds.), Concise History of the Language Sciences: From the Sumerians to the Cognitivists. Oxford: Pergamon Press.
Le, Quoc V. and Mike Schuster. 2016. Neural Network for Machine Translation, at Production Scale. n.d. Sep. 27, 2016. https://research.googleblog.com/2016/09/a-neural-network-for-machine.htm.
Nagao, Makoto. 1984. Framework of a Mechanical Translation between Japanese and English by Analogy Principle. Artificial and Human Intelligence. Amsterdam: Elsevier Science Publishers.
Sutskever, Ilya, Oriol Vinyals, and Quoc V. Le. 2014. Sequence to Sequence Learning with Neural Networks. Advances in Neural Information Processing Systems 4, 3104-3112.
Weaver, Warren. 1955. Translation. In William N. Locke and Andrew Donald Booth (eds.), Machine Translation of Languages: Fourteen Essays. Cambridge: MIT Press.
Wu, Yonghui, Mike Schuster, Zhifeng Chen et al. 2016. Googles Neural Machine Translation System: Bridging the Gap between Human and Machine Translation. arXiv:1609.08144v2 [cs.CL] 8 Oct 2016.
責(zé)任編輯:劉玥妍