計(jì)麗麗
(安徽理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,安徽 淮南 232001)
機(jī)器翻譯研究是一項(xiàng)艱巨的研究課題。自1954年美國喬治頓大學(xué)進(jìn)行第一次試驗(yàn)以來,機(jī)器翻譯已經(jīng)發(fā)展了五十余年,經(jīng)歷了幾起幾落的曲折歷程。人們對它的評價(jià)毀譽(yù)兼有。但不容忽視的是,經(jīng)過機(jī)器翻譯工作者的執(zhí)著研究和反復(fù)探索,機(jī)器翻譯無論從理論技術(shù)還是從實(shí)際應(yīng)用方面都取得了長足的進(jìn)步。
機(jī)器翻譯(machine translation),又稱為自動翻譯,是利用計(jì)算機(jī)把一種自然源語言轉(zhuǎn)變?yōu)榱硪环N自然目標(biāo)語言的過程,一般指自然語言之間句子和全文的翻譯。它是自然語言處理(Natural Language Processing)的一個(gè)分支,與計(jì)算語言學(xué)(Computational Linguistics)、自然語言理解(Natural Language Understanding)之間存在著密不可分的關(guān)系。
整個(gè)機(jī)器翻譯的過程可以分為原文分析、原文譯文轉(zhuǎn)換和譯文生成3個(gè)階段。在具體的機(jī)器翻譯系統(tǒng)中,根據(jù)不同方案的目的和要求,可以將原文譯文轉(zhuǎn)換階段與原文分析階段結(jié)合在一起,而把譯文生成階段獨(dú)立起來,建立相關(guān)分析獨(dú)立生成系統(tǒng)。在這樣的系統(tǒng)中,原語分析時(shí)要考慮譯語的特點(diǎn),而在譯語生成時(shí)則不考慮原語的特點(diǎn)。在搞多種語言對一種語言的翻譯時(shí),宜于采用這樣的相關(guān)分析獨(dú)立生成系統(tǒng)。也可以把原文分析階段獨(dú)立起來,把原文譯文轉(zhuǎn)換階段同譯文生成階段結(jié)合起來,建立獨(dú)立分析相關(guān)生成系統(tǒng)。在這樣的系統(tǒng)中,原語分析時(shí)不考慮譯語的特點(diǎn),而在譯語生成時(shí)要考慮原語的特點(diǎn),在搞一種語言對多種語言的翻譯時(shí),宜于采用這樣的獨(dú)立分析相關(guān)生成系統(tǒng)。還可以把原文分析、原文譯文轉(zhuǎn)換與譯文生成分別獨(dú)立開來,建立獨(dú)立分析獨(dú)立生成系統(tǒng)。在這樣的系統(tǒng)中,分析原語時(shí)不考慮譯語的特點(diǎn),生成譯語時(shí)也不考慮原語的特點(diǎn),原語譯語的差異通過原文譯文轉(zhuǎn)換來解決。在搞多種語言對多種語言的翻譯時(shí),宜于采用這樣的獨(dú)立分析獨(dú)立生成系統(tǒng)。
1954年,由Georgetown大學(xué)和IBM公司合作,實(shí)現(xiàn)了第一個(gè)真正的機(jī)器翻譯系統(tǒng),并且在IBM紐約總部進(jìn)行了俄譯英公開演示。他們用IBM-701計(jì)算機(jī),把幾個(gè)簡單的俄語句子翻譯成英語。盡管這個(gè)系統(tǒng)很小,只有250條俄語詞匯,6條語法規(guī)則以及精心挑選的翻譯例句,但是第一次向公眾和科學(xué)界展示了機(jī)器翻譯的可行性。
20世紀(jì)50年代中期,在美國掀起了機(jī)器翻譯研究的高潮。這一時(shí)期的機(jī)器翻譯系統(tǒng)主要采用直接翻譯(Direct Translation)方法,一般都沒有進(jìn)行很好的源語言據(jù)法結(jié)構(gòu)分析,而是主要以詞典為驅(qū)動,利用詞典中的語法和語義特征來實(shí)現(xiàn)翻譯。直接翻譯方法的特點(diǎn)是在源語言分析階段和目標(biāo)語言綜合(即生成)之間沒有明確的區(qū)分,這樣的系統(tǒng)被稱為第一代機(jī)器翻譯系統(tǒng)。
20世紀(jì)70年代,西歐和加拿大開始出現(xiàn)以追求可讀性和忠實(shí)性為目標(biāo)的第二代機(jī)器翻譯系統(tǒng)。這些系統(tǒng)以基于轉(zhuǎn)換的方法為代表,普遍采用以句法分析為主、輔以語義的基于規(guī)則的方法,采用有抽象的轉(zhuǎn)換表示的分層次實(shí)現(xiàn)策略,綜合了多種技術(shù):知識與算法分離,模塊化設(shè)計(jì),多種句法分析策略以及語義分析等等,并且大多引入了人工智能技術(shù),其中許多方法和技術(shù)直到今天仍被沿用。期間比較著名的系統(tǒng)有:SYSTRAN多語言翻譯系統(tǒng)、Weinder系統(tǒng)、EURPOTRA多國語翻譯系統(tǒng)、TAUM-METEO系統(tǒng)等。
20世紀(jì)90年代至今,隨著 Internet的普遍應(yīng)用,世界經(jīng)濟(jì)一體化進(jìn)程的加速以及國際社會交流的日漸頻繁,傳統(tǒng)的人工作業(yè)的方式已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足迅猛增長的翻譯需求,人們對于機(jī)器翻譯的需求空前增長,機(jī)器翻譯迎來了一個(gè)新的發(fā)展機(jī)遇。國際性的關(guān)于機(jī)器翻譯研究的會議頻繁召開,中國也取得了前所未有的成就,相繼推出了一系列機(jī)器翻譯軟件,例如“譯星”、“雅信”、“通譯”、“華建”等。在市場需求的推動下,商用機(jī)器翻譯系統(tǒng)邁入了實(shí)用化階段,走進(jìn)了市場,來到了用戶面前。
中國機(jī)器翻譯研究起步于1957年,是世界上第4個(gè)開始搞機(jī)器翻譯的國家,60年代中期以后一度中斷,70年代中期以來有了進(jìn)一步的發(fā)展?,F(xiàn)在,中國社會科學(xué)院語言研究所、中國科學(xué)技術(shù)情報(bào)研究所、中國科學(xué)院計(jì)算技術(shù)研究所、黑龍江大學(xué)、哈爾濱工業(yè)大學(xué)等單位都在進(jìn)行機(jī)器翻譯的研究;上機(jī)進(jìn)行過實(shí)驗(yàn)的機(jī)器翻譯系統(tǒng)已有十多個(gè),翻譯的語種和類型有英漢、俄漢、法漢、日漢、德漢等一對一的系統(tǒng),也有漢譯英、法、日、俄、德的一對多系統(tǒng)(FAJRA系統(tǒng))。此外,還建立了一個(gè)漢語語料庫和一個(gè)科技英語語料庫。中國機(jī)器翻譯系統(tǒng)的規(guī)模正在不斷地?cái)U(kuò)大,內(nèi)容正在不斷地完善。比較有代表性的系統(tǒng)有:高立英漢翻譯系統(tǒng),IMT/EC英漢翻譯系統(tǒng),Matrix英漢機(jī)器翻譯系統(tǒng),SinoTrans漢外機(jī)器翻譯系統(tǒng)等等。
鑒于機(jī)器翻譯仍具相當(dāng)市場,中國涉足這一領(lǐng)域的廠商也不一而足。目前,國內(nèi)市場上的翻譯軟件產(chǎn)品可以劃分為四大類:全文翻譯(專業(yè)翻譯)、在線翻譯、漢化軟件和電子詞典。全文翻譯軟件以中軟“譯星”以及“雅信CAT2.5”為代表;在線翻譯軟件主要以“金山快譯.net2001”、華建的“翻譯網(wǎng)上通”為代表;漢化類翻譯軟件主要以“東方快車3000”為代表;詞典工具以“金山詞霸.net2001”為主要代表。
由于機(jī)器翻譯在今后需要滿足人們在浩瀚的互聯(lián)網(wǎng)上方便地進(jìn)行信息搜集的需求,于是很多翻譯開發(fā)者在翻譯準(zhǔn)確度上下工夫的同時(shí),開始注重結(jié)合用戶的使用領(lǐng)域并進(jìn)行方向性的開發(fā)。根據(jù)目前的市場發(fā)展看來,在新一輪的競賽中,在線翻譯前景十分看好。目前,中國的網(wǎng)民已超4億,并繼續(xù)以極快速度增長。
根據(jù)實(shí)現(xiàn)機(jī)器翻譯系統(tǒng)的技術(shù)將機(jī)器翻譯系統(tǒng)劃分為直接式,基于規(guī)則式,基于語料庫式(基于統(tǒng)計(jì)式和基于實(shí)例式),以及采用混合策略引擎的系統(tǒng)。
直接式機(jī)譯系統(tǒng)也稱直譯式機(jī)譯系統(tǒng),一般把原句中的詞或句子直接替換成相應(yīng)的譯語的詞或句子,必要時(shí)對詞序進(jìn)行簡單的調(diào)整。這種系統(tǒng)一般難以取得較高的翻譯質(zhì)量,但是實(shí)現(xiàn)技術(shù)相當(dāng)簡單,容易開發(fā)。
基于規(guī)則(rule-based)的系統(tǒng)主要由詞典和規(guī)則庫構(gòu)成知識源,世界上絕大多數(shù)的機(jī)譯系統(tǒng)都采用以規(guī)則為基礎(chǔ)的策略,一般分為語法型,語義型、知識型和智能型。
基于語料庫(corpus-based)的系統(tǒng)是90年代以來發(fā)展起來的新技術(shù),其特點(diǎn)是采用大規(guī)模的雙語語料庫作為機(jī)器翻譯系統(tǒng)的開發(fā)基礎(chǔ)。根據(jù)所采用的具體技術(shù)可以分為基于統(tǒng)計(jì)(statistic-based)系統(tǒng)和基于實(shí)例(example-based)系統(tǒng)。
基于統(tǒng)計(jì)的機(jī)器翻譯方法把機(jī)器翻譯看成是一個(gè)信息傳輸?shù)倪^程,用一種信道模型對機(jī)器翻譯進(jìn)行解釋。這種思想認(rèn)為,源語言句子到目標(biāo)語言句子的翻譯是一個(gè)概率問題,任何一個(gè)目標(biāo)語言句子都有可能是任何一個(gè)源語言句子的譯文,只是概率不同,機(jī)器翻譯的任務(wù)就是找到概率最大的句子。具體方法是將翻譯看做對原文通過模型轉(zhuǎn)換為譯文的解碼過程。因此統(tǒng)計(jì)機(jī)器翻譯又可以分為以下幾個(gè)問題:模型問題、訓(xùn)練問題、解碼問題。所謂模型問題,就是為機(jī)器翻譯建立概率模型,也就是要定義源語言句子到目標(biāo)語言句子的翻譯概率的計(jì)算方法。而訓(xùn)練問題,是要利用語料庫來得到這個(gè)模型的所有參數(shù)。所謂解碼問題,則是在已知模型和參數(shù)的基礎(chǔ)上,對于任何一個(gè)輸入的源語言句子,去查找概率最大的譯文。
與統(tǒng)計(jì)方法相同,基于實(shí)例的機(jī)器翻譯方法也是一種基于語料庫的方法,其基本思想由日本著名的機(jī)器翻譯專家長尾真提出,他研究了外語初學(xué)者的基本模式,發(fā)現(xiàn)初學(xué)外語的人總是先記住最基本的英語句子和對應(yīng)的日語句子,而后做替換練習(xí)。參照這個(gè)學(xué)習(xí)過程,他提出了基于實(shí)例的機(jī)器翻譯思想,即不經(jīng)過深層分析,僅僅通過已有的經(jīng)驗(yàn)知識,通過類比原理進(jìn)行翻譯。其翻譯過程是首先將源語言正確分解為句子,再分解為短語碎片,接著通過類比的方法把這些短語碎片譯成目標(biāo)語言短語,最后把這些短語合并成長句。對于實(shí)例方法的系統(tǒng)而言,其主要知識源就是雙語對照的實(shí)例庫,不需要什么字典、語法規(guī)則庫之類的東西,核心的問題就是通過最大限度的統(tǒng)計(jì),得出雙語對照實(shí)例庫。 基于實(shí)例的機(jī)器翻譯對于相同或相似文本的翻譯有非常顯著的效果,隨著例句庫規(guī)模的增加,其作用也越來越顯著。對于實(shí)例庫中的已有文本,可以直接獲得高質(zhì)量的翻譯結(jié)果。對與實(shí)例庫中存在的實(shí)例十分相似的文本,可以通過類比推理,并對翻譯結(jié)果進(jìn)行少量的修改,構(gòu)造出近似的翻譯結(jié)果。
[1]P.Brown,S.Della Pietra,V.Della Pietra,and R.Mercer(1993).The mathematics of statistical machine translation:parameter estimation.Computational Linguistics,19(2),263-311.
[2]周海中.“機(jī)器翻譯50年”.《語文研究群言集》.中山大學(xué)出版社,1997年.
[3]李志升,于浩.機(jī)器翻譯系統(tǒng).哈爾濱工業(yè)大學(xué)出版社.
[4]機(jī)器翻譯.百度文庫.