孫 爽,陳曉曦
(東北林業(yè)大學,黑龍江 哈爾濱 150080)
21世紀中俄機器翻譯現(xiàn)狀對比研究
孫 爽,陳曉曦
(東北林業(yè)大學,黑龍江 哈爾濱 150080)
在回顧機器翻譯產生歷史及發(fā)展歷程的基礎上,對21世紀中國和俄羅斯機器翻譯發(fā)展現(xiàn)狀進行了深入分析,主要包括代表性機器翻譯系統(tǒng)、特點及設計原理,目的在于探討如何加強我國對俄漢/漢俄機器翻譯系統(tǒng)的研究。
機器翻譯;俄漢/漢俄;翻譯系統(tǒng)
機器翻譯 (machine translation)是使用電子計算機把一種語言 (源語言)翻譯成另外一種語言 (目標語言)的一門新學科。這同時也是一種新技術,一種多邊緣的交叉學科,它涉及語言學、計算機科學、數(shù)學等許多學科。機器翻譯即屬于語言學中計算語言學的研究對象,也屬于計算機科學中人工智能的研究范圍,還屬于數(shù)學中數(shù)理邏輯和形式化方法的研究領域。機器翻譯要把不同學科相互結合來進行綜合研究,同時也要求不同學科專家通力合作,相得益彰。
在全球信息化的今天,語言是信息交流的主要工具,如何有效地利用現(xiàn)代化手段突破人們之間的語言障礙成了全人類面臨的重要問題,而機器翻譯正是采用電子計算機來進行不同語言之間自動翻譯的有力手段之一。但是,由于自然語言的極端復雜性,機器翻譯也因其復雜性而成為當代科學技術的十大難題之一。本文將通過對21世紀中國和俄羅斯機器翻譯發(fā)展現(xiàn)狀的深入分析,探討如何加強我國對俄漢/漢俄機器翻譯系統(tǒng)的研究。
從19 世紀巴貝奇 (Ч.Бэббидж)在設計數(shù)字分析機時提出的機器翻譯的設想到1933年發(fā)明家特羅揚斯基用機械方法設計出把一種語言翻譯為另一種語言的機器;從1949年美國洛克菲勒基金會副總裁韋弗 (W/Weaver)發(fā)表的以《翻譯》為題的備忘錄到1954年美國喬治敦大學與國際商用機器公司 (IBM)合作進行的標志機器翻譯歷史真正開端的MT系統(tǒng)公開演示。人們的頭腦中逐漸形成了機器翻譯的概念,利用語法規(guī)則轉換和字典來實現(xiàn)翻譯的方法也被人們所接受,從此便出現(xiàn)了世界范圍內的機器翻譯熱潮。
1954之后,由于各國對機器翻譯項目的大力支持,使人們樂觀地認為機器翻譯可以達到一個完美的程度。但早期的機器翻譯受韋弗思想的影響而把機器翻譯的過程類比為解讀密碼的過程,或借助于查詢詞典的形式來實現(xiàn),譯文的可讀性很差。因此1964年,美國科學院成立語言自動處理咨詢委員會 (簡稱ALPAC)公布了一個ALPAC報告,報告宣稱“機器翻譯研究遇到了難以克服的語義障礙”,表示不再給予機器翻譯支持。在這個報告的影響下,機器翻譯出現(xiàn)了空前蕭條的局面。
從70年代開始,隨著計算機的迅猛發(fā)展,機器翻譯進入了復蘇期,這一時期對語法和語義的研究開始深入,同時也加強了電子詞典的建設,同時研究者也注意到:源語和譯語兩種語言的差異不僅僅表現(xiàn)在詞匯的不同,還表現(xiàn)在句法結構的不同,要使譯文的可讀性加強,必須要將注意力轉移到句法分析上。經過學者們的通力研究,這時期一個完整的機器翻譯過程我們可以概括為以下六個步驟:1)源語詞法分析;2)源語句法分析;3)源語譯語詞匯轉換;4)源語譯語結構轉換;5)譯語句法生成;6)譯語句法生成。[1](P18)經過這幾個步驟,譯文質量較高。
自20世紀90年代以來,互聯(lián)網的發(fā)展將機器翻譯帶入了新的繁榮期,翻譯的需求量加大使機器翻譯成為世界語言處理的熱門。此時主要發(fā)展基于實例和基于統(tǒng)計方法的機器翻譯研究,注重大規(guī)模語料庫的建設以及真實文本的處理,網上的翻譯系統(tǒng)也進入了實用階段,這期間我國也加大了對機器翻譯研究的力度。
從世界范圍內來說,比較常見的機器翻譯類型有兩種:基于規(guī)則的機器翻譯系統(tǒng)和基于語料庫的機器翻譯系統(tǒng)?;谝?guī)則的機器翻譯系統(tǒng)大致又可以分為以下三種類型[1]:
1.直接翻譯系統(tǒng)
該翻譯系統(tǒng)是根據(jù)雙語之間的詞匯單元的對應關系設計的。從原文句子的表層出發(fā),將詞,短語甚至句子直接轉換成目標語言的對應成分,便生成了譯文的句子。這種方法顯然沒有考慮到源語言和目標語言的差異性,對翻譯過程的認識也過于簡單。
2.轉換系統(tǒng)
與直接翻譯系統(tǒng)不同,轉換系統(tǒng)的運行需要建立雙語的對比,還需要一套復雜的映射規(guī)則。源語和目標語的分析是獨立的,一般都要進行詞匯層面和句法層面的分析,轉換時需要一部雙語對應詞典,還要考慮到源語和目標語的結構差別,進行結構轉換。
3.中間語言系統(tǒng)
該類型系統(tǒng)中的源語與目標語是不直接相關的,要先把源語的文本用人工設計出來的沒有歧義的中間語言表示出來,之后再把中間語言所表示的意義用目標語言的詞匯以及句法結構表示出來。由于源語的分析于譯語的生成完全獨立,它克服了轉換法缺乏深層語義分析的弊端。
而基于語料庫的方法可以分為基于統(tǒng)計的機器翻譯方法和基于實例的機器翻譯方法,這兩種都是以語料庫作為翻譯知識的來源。但是它們之間也有明顯的區(qū)別:基于統(tǒng)計的機器翻譯方法是采用數(shù)據(jù)統(tǒng)計的結果來表示,而不是語料庫本身,即翻譯的過程不再需要語料庫;在基于實例的翻譯方法中,雙語語料庫本身就是翻譯知識的一種形式,在翻譯的過程中也要利用語料庫查詢。
雖然機器翻譯方法多種多樣,但筆者認為,可以將以上五種方法歸納為三代機器翻譯系統(tǒng)。首先,直接翻譯法為第一代機器翻譯系統(tǒng),但因為上文提到的弊端,現(xiàn)已很少用。而基于轉換和中間語言的方法可以歸結為第二代機器翻譯系統(tǒng),這兩種方法與語言學有著密不可分的聯(lián)系,尤其是隨著語義學的發(fā)展,語言學與計算機技術的結合,使翻譯可以達到“語義轉換”的層次,因此也是比較完善的機譯系統(tǒng)。而產生于20世紀80年代的基于統(tǒng)計和實例的方法則可歸為第三代機器翻譯系統(tǒng)。筆者認為新一代系統(tǒng)的產生源于兩點變化:第一,人們意識到基于規(guī)則的方法有其不足之處:由于自然語言現(xiàn)象復雜多樣,語法規(guī)則的數(shù)量龐大,制定規(guī)則時難免有主觀性,亦或是無法處理規(guī)則描述外的語句翻譯。第二,統(tǒng)計方法以及語料庫方法的再度興起,大規(guī)模的真實語料成為了研究對象,處理真實文本也成為了一種明顯的趨勢。第三,大規(guī)模的語言資料和測試平臺投入使用,其中包括電子詞典、語料庫、知識庫等,這些都給機器翻譯和自然語言處理的研究提供了便利條件。
當然,雖按照出現(xiàn)時間以及特性將機譯系統(tǒng)分為以上三代,但并非表明第三代一定是最完美的。通過對各種機譯方法的介紹我們也可以看到,諸多方法各有利弊,我們在使用中也應該將各種方法結合起來。比如將基于規(guī)則的方法和基于語料庫的方法結合,或是在基于規(guī)則的方法中加入統(tǒng)計方法以便消除歧義等,都將是以后研發(fā)的主要方向。
俄羅斯的機器翻譯研究起步較早,并有自己獨特的研究方法。進入21世紀,俄羅斯機器翻譯研究不僅將注意力放在具體系統(tǒng)的特殊語言處理上,更注重探討系統(tǒng)設計的一般理論原則。俄羅斯現(xiàn)行的機器翻譯系統(tǒng)大多采用轉換法,比較有影響力的有以下幾個。
ЭТАП-3系統(tǒng)的幾個主要模塊特征可以概括如下[2](P260):
(1)將規(guī)則用作算法的基本單位;
(2)層級構造法;
(3)通過轉換實現(xiàn)翻譯;
(4)采用依存關系句法樹;
(5)詞匯主義方法;
(6)盡可能多地獲取各種翻譯方案;
(7)最近限度地利用語言學資源。
ЭТАП區(qū)別于其他基于轉換的機器翻譯系統(tǒng)的地方在于,它已經進入到了“語義轉換”層次,而并非簡單的“句法轉換”層次。
在新世紀俄羅斯機器翻譯發(fā)展的歷程中,一些大型公司也作出了很大貢獻,比如 АВВYY,ПРОМТ,Rambler等[3]。
АВВYY公司于1989年創(chuàng)立,該公司最著名的產品:АВВYY FineReader(掃描、文字識別及文檔轉換的 OCR軟件),АВВYY Lingvo(電子詞典),АВВYY PDF(pdf文件加工和變換軟件),АВВYY FlexiCapture(智能的、準確的和可擴展的數(shù)據(jù)捕捉軟件)等等。
ПРОМТ公司創(chuàng)立于1991年,現(xiàn)在在機器翻譯加工和歐語詞典領域中處于世界領軍地位。ПРОМТ的機器翻譯程序可以處理25種語言。該公司的程序既包括針對家庭使用的普通翻譯程序,也有以上領域專家所使用的復雜高級的翻譯程序,還有針對小部分客戶以及因特網使用的專業(yè)翻譯方案。
而我國的機器翻譯研究是繼美國、蘇聯(lián)、英國之后的世界上第四個國家。目前中國社會科學院語言研究所、中國科學技術情報研究所、中國科學院計算技術研究所、黑龍江大學、哈爾濱工業(yè)大學等單位都在進行機器翻譯的研究,翻譯的語種有英漢、俄漢、法漢、日漢、德漢等一對一的系統(tǒng),以及漢譯英、法、日、俄、德的一對多系統(tǒng)。目前中國的研究機器翻譯系統(tǒng)的公司日益增多,最著名的公司有中軟國際、華建、雅信、金山等。
中軟國際公司是國家大型高科技企業(yè),從事計算機軟件程序,IT信息服務和外包產品一體化體系的開發(fā)和研制。譯星是最著名的機器翻譯產品之一?,F(xiàn)在譯星可以實現(xiàn)以下語言翻譯:英—漢、漢—英、漢—日、日—漢。中軟國際公司還研發(fā)了新一代筆譯和其他產品的翻譯記憶技術(Transtion Memory),并投入使用。該技術也是基于統(tǒng)計的方法,是近年來中俄機器翻譯研究的一個新趨勢,在翻譯的過程中它和常規(guī)的機器翻譯取長補短,共同協(xié)作,成為最有效的翻譯手段。兩種技術的使用可以保證高質量的翻譯結果。如果在翻譯時系統(tǒng)在“翻譯記憶”中找不到相似的句子,那么“翻譯系統(tǒng)”及其相關的分析和規(guī)則就會起作用。與基于規(guī)則的“翻譯系統(tǒng)”相比,“翻譯記憶”的結果更為通順和易于接受,這源于規(guī)則本身的不完善性。目前俄羅斯的公司和中國的中軟國際都對這項新技術投入了大量的精力并取得了一些成效。
華建集團是從事計算機及相關產品研發(fā)的高科技企業(yè),現(xiàn)今該集團創(chuàng)建了60多種軟件程序和產品,支持以下幾種語言的翻譯:英—漢、漢—英、俄—漢、日—漢、漢—日、中—法等語言的互譯。
金山公司成立于1989年,是中國最著名的公司之一,旗下產品是引進現(xiàn)今外國技術并創(chuàng)新的結果。公司的主要精力集中在程序設計和網絡服務上。PowerWoed可以實現(xiàn)英漢之間的互譯,從它1997年面世的時候起,就成為了翻譯領域的領先者,并占有著超過90%的中國市場。
中國最早的機器翻譯系統(tǒng)就是俄漢機器翻譯系統(tǒng),但近年來我國的機器翻譯研究還是大量的集中在英漢互譯領域,進行俄漢機器翻譯研究的單位主要集中在黑龍江大學和哈爾濱工業(yè)大學,且很多的專業(yè)人員都是精通計算機專業(yè)而對語言學并不精通。在俄漢機器翻譯中我國很多學者也借鑒了俄羅斯的研究成果。
1.消除歧義問題。在編纂詞典時,詞義是簡單羅列出來的,一個詞通常有很多含義,機器自動翻譯的時候不會進行詞義篩選就會造成詞不達意的情況。消除歧義的一種方法是通過在詞典中進行標注,不僅標注出詞形 (名詞、動詞、形容詞等)和詞匯使用范圍 (口語或書面語等),還要標注出該詞通常情況下的搭配范圍。這一點恰恰是莫斯科語義學派倡導的“詞匯函數(shù)”和“詳解詞典”理論。我國的學者也應用了該理論,如張家驊[5]。傅興尚也對“詞匯函數(shù)”在俄漢機器翻譯中的應用前景進行了探討。
2.俄語單詞詞尾識別問題。迄今為止俄語單詞的詞尾仍是俄漢機器翻譯要解決的一個難題,因為俄語屬于屈折語,靠詞形變化來體現(xiàn)邏輯語義關系。因此,應該按照語法變化的規(guī)則制定詞典,有特殊變化的詞需制定出專門的詞典來進行解決。
另外,翻譯中的文化問題在俄漢互譯中也是不可忽視的,正如蘇聯(lián)學者 Швейцер А. Д. 所說,“翻譯不但是兩種語言體系的接觸,而且也是不同程度文明的接觸。翻譯過程不僅僅由語言因素決定,而且還由社會因素和心理因素決定的”。雖然我們可以將機器翻譯比擬人類思維方式進行的翻譯,但是如何令機器翻譯克服文化干擾仍然是個難題。
縱觀21世紀我國和俄羅斯的機器翻譯研究現(xiàn)狀,雖然中俄在機器翻譯領域都取得了巨大的成就,但是仍存在眾多亟待解決的問題。對于語言學家,如何讓計算機更好地理解句子的結構和意義仍是我們研究的核心問題,是我們肩負的重要任務。
[1]馮志偉.機器翻譯研究[M].北京:中國對外翻譯出版公司,2004.
[2]易綿竹.工程語言學[M].上海:上海外語教育出版社,2006.
[4]楊楊.俄漢機器翻譯與人工翻譯結合的必要性[J].安徽文學,2009,(6).
[5]張家驊.俄羅斯當代語義學[M].北京:商務印書館,2003.
[6]傅興尚.基于事格語法的俄語詞匯知識庫[M].哈爾濱:黑龍江人民出版社,2002.
The Comparative Study of Chinese and Russian Machine Translation States inTwenty-first century
SUN Shuang,CHEN Xiao-xi
(Northeast Forestry University,Harbin 150040,China)
Basing on reviewed of generations history and development process of machine translation,the state of machine translation developing in China and Russia by twenty-first century has been deeply analyzed in this article,including the introduction of typical machine translation system,its main characters and designing principle.This paper raises a proposal for discussing on how to enhance the research level of Russian-Chinese/Chinese-Russian machine translation system.
machine translation;Russian-Chinese/Chinese-Russian;translation system
H085
A
2095-0292(2012)02-0074-04
2011-12-17
國家社科基金項目 (11CYY063);國家社科基金項目 (11CYY064);教育部留學人員科技活動擇優(yōu)資助項目 (41311401);中央高校基本科研業(yè)務費資助項目 (DL11CC13)
孫爽,東北林業(yè)大學副教授,博士,主要研究方向為計算語言學、語義學、機器翻譯;陳曉曦,東北林業(yè)大學碩士研究生,主要研究方向為計算語言學、語義學、機器翻譯。
[責任編輯 張 峰]