谷秾
(吉林建筑大學,吉林 長春 130000)
機器翻譯特點研究及其發(fā)展分析
谷秾
(吉林建筑大學,吉林 長春 130000)
作為兩種完全不同語系的語種,漢語和英語在翻譯過程中,特別是機器在分析轉(zhuǎn)換中會遇到各種不同的問題,自然也會總結(jié)出很多不同的經(jīng)驗。本文用實例分析并介紹了典型的機器翻譯方法,存在的難點等。最后,對機器翻譯在今后的發(fā)展做出了總結(jié),討論和展望。
機器翻譯;基于規(guī)則;難點
隨著科技與經(jīng)濟的快速發(fā)展,人們對于效率的講求日漸升高,這也在翻譯領域有著體現(xiàn)?,F(xiàn)代社會,我國對外交流的需求日益增大,社會方面,各個領域?qū)τ诜g需求也越來越大,翻譯作為文化傳播的重要手段也越來越引起了人們的重視,對于其追求和渴望也日漸增加。然而,翻譯領域在經(jīng)歷了一個快速發(fā)展階段之后,現(xiàn)有的理論方法和技術模型對于翻譯整體性能的提高已開始到了瓶頸階段。從產(chǎn)業(yè)角度和實用角度來看,機器翻譯對于整個社會來說是絕對被需求的,對于人類的翻譯事業(yè)來說呢,目前的機器翻譯與預期中的效果差距仍然非常大。現(xiàn)有的機器翻譯在理論方法和整體性能方面提升的空間呈減小趨勢,對于用戶的實際需求來說更是有很大的提升空間。那么,面對社會和人們的期望、面對日漸增長的需求,機器翻譯之路應該如何走呢?它的特點和難點又是什么呢?本文將一一進行簡要闡述。
人類對機器翻譯的研究已經(jīng)持續(xù)了50多年。追溯到上個世紀40年代電子計算機誕生之日,計算機應用于語言翻譯的探索就不曾被停止探索。在這幾十年的探索過程中,先后出現(xiàn)了各種基于雙語字典的直接翻譯型、基于抽象表達式的中間語言型和基于規(guī)則的轉(zhuǎn)換型翻譯系統(tǒng)?,F(xiàn)代社會,機器翻譯領域的研究主要包括基于語言學的規(guī)則研究、基于語料庫和統(tǒng)計方法(如KDD技術)的研究、基于記憶的方法(translation memory)研究和基于受限語言的研究等方面,這些元素顯示了我國現(xiàn)在的翻譯現(xiàn)狀。作為世界上第5個進行機器翻譯實驗的國家,翻譯事業(yè)從一開始就得到了我國的高度重視,早在1956年,它便以“機器翻譯/自然語言的數(shù)學理論”列入了當時的《科學發(fā)展綱要》以后則列為“六五”、“七五”,以及“863”等重大科研項目,引起了一代又一代政府和人民的高度重視。在這個過程中,我國的翻譯事業(yè)先后集結(jié)了多家科研院所和許多部委的研究人員,大家進行協(xié)同攻關,并與國際上享有盛名的機譯研究機構(gòu)進行過合作和交流,不但加強了人才的培養(yǎng),積累了重要的資源,更使中國機器翻譯研究的總體水平站在了世界的前列,并在不斷地發(fā)展和探索中取得了一個又一個傲人的成績。
從Chomsky提出轉(zhuǎn)換生成文法的方法之后,基于規(guī)則的方法就一直是機器翻譯研究的主流,Chomsky的觀點認為,一種語言中,無限的句子可以通過有限的規(guī)則被推導出來。早期的機器翻譯系統(tǒng),從體系結(jié)構(gòu)上來看,可以分為直譯式、轉(zhuǎn)換式和中間語言式,它們所存在的不同之處就在于對源語言分析的深度,它們的相同點就是都需要很大規(guī)模的雙語詞典、大量的源語言推導規(guī)則、語言轉(zhuǎn)換規(guī)則和目標語言生成規(guī)則。同時,對源語言分析得比較深的是轉(zhuǎn)換式的基于生成方法,它涉及到詞匯結(jié)構(gòu)分析、語法分析、語義分析三種,并完成詞匯、語法、語義三層結(jié)構(gòu)從源語言到目標語言的轉(zhuǎn)換。相對于中間語言方法來講,這種方法更容易獲得高質(zhì)量高水平的翻譯結(jié)果。顯而易見的是,規(guī)則的翻譯機器翻譯的核心問題是如何構(gòu)造構(gòu)造完備的或適應性較強的規(guī)則系統(tǒng)。但是,如果想要建立規(guī)則庫的話就要花費大量的人力物力和財力,即便真的做到了這樣規(guī)則的完備性卻依舊不能得到充分的保證,規(guī)則庫依然很難全面覆蓋所有復雜的語言現(xiàn)象.然而,隨著規(guī)則數(shù)量的不斷增加,各個規(guī)則之間的沖突畢竟難以避免;用系統(tǒng)化的分類規(guī)則也很難。
機器翻譯的存在確實給我們帶來了很多便利,當然,它的發(fā)展前景也足夠吸引人,不得不承認的是,它的翻譯質(zhì)量還是不那么令人滿意的,對于其諷刺性的評價也不在少數(shù)。轉(zhuǎn)眼間,機器翻譯已經(jīng)走過了五十年的風雨艱辛,我們不難發(fā)現(xiàn),它的發(fā)展還是相對遲緩。那么,機器翻譯的難點究竟在何何處呢?
機器翻譯最大的的難點就在于它研究的對象,因為自然語言本身存在復雜性,它的結(jié)構(gòu)和文法也絕非單純的符號堆砌,而是各種語言符號通過復雜的作用結(jié)合到一起。來源于現(xiàn)實世界的語言忠實地反映了客觀世界和人類社會多變得復雜性,如漢語是講究意合的語言,生動形象,不會有太多過于直白的描述。一般都通過使用虛詞、詞序的手段來表示。一些在漢語中有英語所沒有的豐富的量詞(如個、根、只、塊、片等)和語氣詞(如嗎、呢、哩、嘛、了等)。然而,作為綜合和分析參半語言,英語有著多變的數(shù)、格,以及漢語中所沒有的冠詞、關系代詞及關系副詞,包含很廣。同時英語中應用得非常廣泛的引導詞和虛詞在漢語中更是沒有明確對立的譯文或結(jié)構(gòu)。英漢語言不同的特點就使機器在分析轉(zhuǎn)換這兩種語言時遇到很多問題如:漢語同形歧義嚴重、定語從句的語序混亂、英語動詞形態(tài)的生成、省略成分的確定、英語冠詞的生成和英語名詞單復數(shù)的確定等。這些問題嚴重影響了譯文的可讀性,特別是在處理上下文相關聯(lián)的篇章時尤為突出。
近幾年來,機器翻譯在統(tǒng)計方法的推動下,其發(fā)展有了很大的進步,涌現(xiàn)出了很多讓人印象深刻的新理論和新方法。相比從前,翻譯質(zhì)量有了很大提高,遠遠超過傳統(tǒng)方式。同時,因為可以從大規(guī)模語料庫中自動獲取翻譯知識,不再依賴于人工撰寫規(guī)則,使得機器翻譯系統(tǒng)的開發(fā)周期得到了縮短,機器翻譯的應用也得到了很大程度上的拓展,這更大大降低了機器翻譯研究的門檻,以至于更多的研究者愿意投入到機器翻譯研究中來,整個研究領域也充滿充滿了生機與活力。現(xiàn)在看來,統(tǒng)計機器翻譯中用到的語言知識相對來說還是很有限的。基于詞的方法和基于短語的方法幾乎沒有用到任何常見的語言知識,而是采用了一種詞匯化的概率計算方法,使所有的語言知識直接通過對詞語的概率統(tǒng)計表現(xiàn)出來。目前來看,基于句法的統(tǒng)計翻譯方法開始逐漸成為研究的熱點,特別是在基于語言學句法的翻譯模型中,種種句法知識得到了充分的利用,已經(jīng)開始超越單純基于短語的方法或者基于形式化句法的方法。同時,現(xiàn)在還很少有人用基于語義的方法,僅有一些基于詞義排歧的工作。這種種都證明,詞義排歧可以使得現(xiàn)有的機器翻譯性能略有提高。我們應該看到的是,如果不對更復雜的語言知識進行引入,機器翻譯存在的問題是不可能真正得到解決的。這都有待于研究工作者進行更加深入的研究。我們更堅信,隨著研究層次的不斷深入,更多的語言知識將能夠有效地融入到統(tǒng)計機器翻譯之中,使得機器翻譯的水平更上一個臺階。
注:基于機器翻譯平臺的土建類工程翻譯實踐訓練,項目結(jié)項使用。
TP391.2
A
1671-864X(2015)11-0084-01