韓 芳,楊天心,宋繼華
(北京師范大學(xué) 信息科學(xué)與技術(shù)學(xué)院,北京 100009)
?
基于句本位句法體系的古漢語機器翻譯研究
韓 芳,楊天心,宋繼華
(北京師范大學(xué) 信息科學(xué)與技術(shù)學(xué)院,北京 100009)
該文通過構(gòu)建古漢語詞典模型,結(jié)合黎錦熙先生提出的句本位句法相關(guān)規(guī)則構(gòu)造知識庫,使用詞義消歧算法,對古漢語進(jìn)行基于規(guī)則的機器翻譯研究。實驗以基于句本位語法進(jìn)行句法標(biāo)注后的《論語》作為測試語料,以句子為單位進(jìn)行機器翻譯,通過獲取待選義項、構(gòu)建義項選擇模型、調(diào)整句法順序等手段生成翻譯結(jié)果集,并使用二元語法模型對結(jié)果進(jìn)行優(yōu)選,得到機器翻譯最終結(jié)果,最后對翻譯結(jié)果進(jìn)行了分析測評。
關(guān)鍵詞:古漢語;黎氏語法;詞義消歧;機器翻譯
機器翻譯主要分為基于統(tǒng)計和基于規(guī)則兩個陣營,而又以基于統(tǒng)計的機器翻譯為主。目前機器翻譯(Machine Translation, MT)領(lǐng)域主要是針對不同語種間進(jìn)行研究,對古漢語進(jìn)行機器翻譯的研究較少。盡管當(dāng)前已經(jīng)存在著一些古今漢語平行語料資源,為基于統(tǒng)計的古今漢語機器翻譯研究提供了大量支持,但僅利用目前已存的句對齊古今平行語料進(jìn)行基于統(tǒng)計的機器翻譯,數(shù)據(jù)量仍顯不足。由于古今漢語是一脈相承的,本文根據(jù)古漢語所特有的漢語言特點,探討基于規(guī)則和統(tǒng)計相結(jié)合的古今漢語機器翻譯。
本文采用黎氏語法體系作為句法分析及機器翻譯的規(guī)則指導(dǎo),對《比較文法》及《古代漢語》*王力主編,吉常宏等編/1999-05-01/中華書局的部分詞法規(guī)則進(jìn)行了提取和歸納。由于古今漢語的句法體系有較大的差異,本文不能僅利用針對現(xiàn)代漢語所提出的句法體系進(jìn)行句法分析。黎錦熙先生所著的《比較文法》對比古今中外,闡述漢語句法的詞位和句式,對于比較和變換的理論和方法的研究,具有著珍貴的借鑒意義[1]。
本研究的語料以先秦兩漢的作品為主,選取具有典型先秦語言風(fēng)格的《論語》。本文采用基于規(guī)則的機器翻譯方法,首先對詞典構(gòu)造進(jìn)行介紹,然后重點說明機器翻譯的具體實現(xiàn)及算法,最后給出實驗結(jié)果及測評分析。
本文首先構(gòu)造供機器翻譯使用的詞典, 詞典構(gòu)造的流程如圖1所示。
圖1 詞典構(gòu)造基本步驟
2.1 基本來源
本文以國內(nèi)第一部使用現(xiàn)代語言學(xué)和辭書學(xué)的觀點、方法編著的古漢語方面的權(quán)威詞典《古漢語常用字字典》作為詞義庫,構(gòu)造機器翻譯所需詞典。該詞典收錄古漢語常用字4 100余個。一般情況下,每條常用字包含有注音、詞性、釋義以及舉例等屬性項,部分詞語含有【注】【辨】又等詳細(xì)內(nèi)容。
2.2 預(yù)處理
由于機器翻譯時,所需信息為詞性及義項,故而對詞典處理時,首先針對不規(guī)則的詞義項進(jìn)行規(guī)整化預(yù)處理,清除多余標(biāo)記、統(tǒng)一對齊級別、標(biāo)點符號等格式問題,插入Tab鍵以標(biāo)識每個義項。處理詞典文本,生成具體條目形式為[詞 <詞性1>義項1… <詞性n>義項n…],作為機器翻譯的詞語級別的翻譯指導(dǎo)。刪除義項的具體實例,僅保留義項內(nèi)容。去除注音、序號等非必要標(biāo)識。經(jīng)過預(yù)處理后,生成的詞典文本如下所示。
哀<形>悲痛;傷心。<形意動>以……為哀。<動>憐憫;同情。<名>喪事。
2.3 義項形式化
直接使用詞義庫預(yù)處理后的義項集作為字詞翻譯的依據(jù),單個詞語的解釋固然明確了然,但是,由于義項無法組成完整流暢的句子,對于整個句子進(jìn)行翻譯則并不合適。因此,為構(gòu)造機器翻譯的詞典,需對特有描述形式的詞典義項進(jìn)行改造,去除義項中描述性質(zhì)的語言。表1展示了一部分特殊義項進(jìn)行形式化處理的規(guī)則。
表1 部分義項的形式化處理規(guī)則
2.4 詞法規(guī)則引入
文言語法和白話語法之間具有較大差異,文言文在詞序上不規(guī)律,詞類活用現(xiàn)象較多,如助詞的使動用法,名詞的意動用法等,并且文言文中的省略現(xiàn)象較多[2]。故而在構(gòu)造詞典時,應(yīng)針對以上具體情況加以分析,使得詞典義項能反映上述語法規(guī)律。本研究在構(gòu)造詞典過程中,對省略詞及虛詞現(xiàn)象做了規(guī)則總結(jié),具體如下。
2.4.1 省略詞翻譯規(guī)則
根據(jù)句本位句法體系,句子的結(jié)構(gòu)包括三種成分: 主要成分(主語和謂語),謂語可連帶成分(賓語、表語、賓補)以及附加成分(定語、狀語、補語)[3]。古漢語中的詞語省略現(xiàn)象主要體現(xiàn)在主干成分上的主語、謂語和賓語的省略。
主語的省略主要為對話省、自述省、主語承前省三種情況,也有表示時間、天象和氣候等的省略;賓語的省略主要為承前、泛指及對話省。這兩種類型的省略不做翻譯。
謂語省略主要是對話省、承前省和判斷省。其中,對話省和承前省不進(jìn)行翻譯,或者根據(jù)句子結(jié)構(gòu)進(jìn)行承前翻譯。判斷省主要指判斷句中的系動詞省略,一般翻譯為“是”。系動詞最初由上古漢語判斷句發(fā)展而來,隨著語言的發(fā)展,越來越多的副詞先后出現(xiàn)在弱化了的“是”之前,語音停頓逐漸讓位于“是”[4]。
本文把經(jīng)過提煉翻譯現(xiàn)象后的翻譯規(guī)律,轉(zhuǎn)換成形式化語言作為機器翻譯的規(guī)則。如省略詞翻譯規(guī)則轉(zhuǎn)換成可描述語言為“<動>是”。
2.4.2 虛詞翻譯規(guī)則
現(xiàn)代漢語語法著作中,一般多把名詞、動詞、代詞、形容詞、數(shù)詞、量詞、副詞歸為實詞,而把介詞、連詞、嘆詞、語氣詞歸為虛詞。而在古代漢語的語法研究中,對于虛詞的研究特別重視。漢語相較于西方語言,沒有“時”的形態(tài)變化,但“態(tài)”的語法形式很豐富,因此,在語法格局上主要是探討虛詞和語序的問題[5]。
漢語中的虛詞雖然有重要的句法功能,但在很多情況下又可以省略;漢語句子成分和語義關(guān)系之間也沒有明確的一一對應(yīng)關(guān)系[6];如果能把握好對虛詞的翻譯,將會對機器翻譯性能的提高給予極大地幫助。
1) 常用虛詞
本文對19個常用虛詞進(jìn)行翻譯規(guī)則的整理,對虛詞作為不同句法成分時所對應(yīng)的不同詞性以及具體義項進(jìn)行分析歸納,得到作為機器翻譯中虛詞翻譯的規(guī)則。所整理的19個常用虛詞為: 之、其、是、或、末、者、所、于、以、為、與、諸、焉、而、則、也、矣、乎、哉。對經(jīng)過句法分析的《論語》進(jìn)行統(tǒng)計后發(fā)現(xiàn),詞性種類最多的10個虛詞如表2所示。
表2 虛詞的分布
在《論語》中,詞性最多的10個虛詞的平均詞性數(shù)目為3.3個,平均出現(xiàn)頻度為196.6次。而統(tǒng)計所有詞語的平均詞性數(shù)目為1.27個,平均出現(xiàn)頻度為8.6次,由此可見,古漢語翻譯中虛詞的出現(xiàn)頻度之高,以及它對翻譯的重要性。
2) 舉例: “之”字翻譯規(guī)則
根據(jù)句本位語法標(biāo)注體系的詞性標(biāo)注規(guī)范,作為在《論語》中出現(xiàn)詞性種類最多的“之”字,詞性分別為: 語氣詞(y)、動詞(d)、名詞(m)、代詞(i)、的(j1)、介詞(j),在詞義庫中主要有以下幾類用法,如圖2所示。
圖2 “之”字的詞義庫義項
根據(jù)詞義庫義項及《古代漢語》來分析虛詞跟語法功能的關(guān)聯(lián)性,進(jìn)行虛詞翻譯時,加上相關(guān)的句子成分信息,使翻譯更有指導(dǎo)性。作為<代>,“之”可譯作“他”,然而“他”可以在現(xiàn)代漢語中作主語、賓語、定語,而“之”多數(shù)用作賓語,因此加入翻譯規(guī)則,“<賓語><代>之”對應(yīng)翻譯“它、他、它們、他們、自己、你、您”,并根據(jù)義項的先后位置賦以不同權(quán)重。而“<定語><代>之”則一般用來指示, 對應(yīng)
翻譯為“這個、這、這種”。翻譯規(guī)則如表3所示。
表3 “之”字的翻譯規(guī)則集
2.4.3 特殊詞翻譯規(guī)則
詞典中沒有出現(xiàn)而其組成成分全都出現(xiàn)的詞語,如“邦域”,則可綜合“邦”及“域”的解釋。部分嘆詞、語氣詞不做翻譯。另外,在主語、賓語位置上也常出現(xiàn)詞典中不存在的詞語,如人名、地名,這些詞典中不存在而其組成成分也不在詞典中存在的詞語在翻譯時保留原詞。
2.5 詞典生成
經(jīng)過預(yù)處理、形式化及加入部分詞法規(guī)則后,再將詞典條目按詞性劃分不同義項,最終得到了包括7 653個詞語條目的可供古漢語進(jìn)行機器翻譯使用的詞典。以“好”字為例,具體條目的一般形式如圖3所示。
圖3 “好”字的字典條目
本文以句子作為基本單位,利用基于句法樹到樹的翻譯模型,采用全詞消歧與機器翻譯結(jié)合的方法對古漢語進(jìn)行了機器翻譯。翻譯時,將古漢語的句法樹片段理解成一個句法分析規(guī)則,把翻譯路徑的概率理解成句法分析的概率,這樣我們得到用于現(xiàn)代漢語句法分析的概率語法[7]。實驗的工作流程如圖4所示。
圖4 機器翻譯總流程
首先利用《論語》的句法分析結(jié)果,借助詞典進(jìn)行詞語層面上的翻譯,隨后對詞語順序進(jìn)行調(diào)整,針對古漢語的多個義項,利用義項選擇模型以及二元語法模型進(jìn)行消歧,來選取最優(yōu)翻譯結(jié)果。
3.1 句法分析
根據(jù)句本位句法體系,對《論語》進(jìn)行句法分析,不僅能得到分詞、詞性信息,并且句子結(jié)構(gòu)上也有了主干和修飾成分的劃分,也能夠如依存句法一樣反映句中各成分的依存關(guān)系。從“句”著手進(jìn)行句法分析和機器翻譯,無疑能更真實地反映“句子”的內(nèi)涵,提高機器翻譯的準(zhǔn)確性。
為保證本實驗機器翻譯結(jié)果不受自動句法分析器效果的約束,實驗采用的測試語料為已進(jìn)行人工標(biāo)注的《論語》。依照黎錦熙先生的句本位語法標(biāo)注體系,進(jìn)行人工標(biāo)注后的《論語》語料規(guī)模為2 416句、96 109字。
表4 《論語》詞性標(biāo)記及頻次
例如,“其為人也孝悌,而好犯上者,鮮矣”的句法樹如圖5所示。
圖5 句法分析的形式化
圖5的形式化句法結(jié)構(gòu)為主謂結(jié)構(gòu),其中,“者”作為主語,代指特定人,“鮮”為形容性謂語。由“其為人也孝悌,而好犯上”的主謂結(jié)構(gòu)形容句作定語修飾,其中,“孝悌”和“好犯上”分別為形容性和動賓結(jié)構(gòu)的謂語,構(gòu)成復(fù)謂語結(jié)構(gòu)。
3.2 語序調(diào)整
古漢語具有多種變式,變式即是相較于現(xiàn)代漢語語法規(guī)則而言,古漢語所與眾不同的地方。對古漢語的變式進(jìn)行研究,并將此變式規(guī)則置于翻譯句法規(guī)則中,能夠提高翻譯句子的流暢性。
根據(jù)句本位語法體系,古漢語存在六種變式,表5統(tǒng)計了《論語》中出現(xiàn)的變式的統(tǒng)計數(shù)據(jù)。本實驗對其中存在的五種變式進(jìn)行了語序調(diào)整。
表5 《論語》中變式的分布
3.3 義項選擇模型
古漢語在翻譯時,如何進(jìn)行義項取舍,實屬不易,本文根據(jù)黎氏語法的相關(guān)詞法規(guī)則構(gòu)建了義項選擇模型。該模型綜合義項的詞性、詞長等因素,通過計算義項與原詞在詞性、詞長上的相關(guān)度,賦以義項不同權(quán)重值。
3.3.1 詞性權(quán)重
式中: X為酶活大小(U/g); A為樣品測定的吸光度; K為吸光常數(shù)(吸光值為1時酪氨酸的量);6.5為反應(yīng)的總體積(mL);10為反應(yīng)時間10 min;a為稀釋倍數(shù)。
假定待翻譯古漢語句子S 的分詞信息為sw1,sw2,……,swn,對應(yīng)的詞性信息為sp1,sp2,……,spn。在詞典中針對某詞的解釋有m 個不同詞性,詞性集為{tp1,tp2,……,tpm},對應(yīng)于tpi詞性又有k 個不同義項表達(dá)wi, j, 義項集為{wi,1,wi,2,……wi,k},其中,i∈[1,m]。
現(xiàn)在,假設(shè)tpi′與待翻譯詞語的詞性相同,則根據(jù)詞性相關(guān)度,義項wi, j的權(quán)重值為pposi,j,如式(1)所示。
(1)
式(1)中,如果tpi為原分詞對應(yīng)的詞性,此時相應(yīng)詞性下的義項值設(shè)權(quán)重為1,其他詞性義項權(quán)重為0;如果tpi不含有待選詞性,則將所有權(quán)重值設(shè)為1/m。
《論語》中詞語的平均詞性為1.27個,如“好”字,具有三種不同詞性,詞性對翻譯影響較大。而通過對詞典的統(tǒng)計分析,可得到每個詞語在詞典中具有平均詞性個數(shù)2.39,意義差別較大的義項類5.18,表達(dá)個數(shù)8.62個。
3.3.2 詞長權(quán)重
(2)
其中,r為len(wi,j)的一個系數(shù),設(shè)為1/m。
則針對wi,j在長度上的權(quán)重值為:
(3)
考慮到解釋義項一般跟原詞項成一比例,應(yīng)根據(jù)詞長因素附以一個權(quán)重。由上式與平均長度相差越小,給予的權(quán)重值越大。
3.4 實現(xiàn)翻譯
假定待翻譯句子S經(jīng)句法分析后,分詞結(jié)果個數(shù)為m,分別為sw1,sw2,……,swm,針對每個分詞的義項集為Wi={wi,1,wi,2……,wi,n},那么對S進(jìn)行翻譯,可視作從每個分詞結(jié)果swi所對應(yīng)的義項集Wi中選出義項wi(wi∈Wi),組成詞語序列t=w1w2……wm,假如任意的wi有n種選擇,則翻譯過程就是從nm種可能的詞語序列集合T中選擇出一個T#。此時可將古漢語機器翻譯過程轉(zhuǎn)換成字典受限詞義消歧(Word Sense Disambiguation,WSD)過程,待消歧詞義項為每個分詞結(jié)果swi所對應(yīng)的義項集Wi[8]。
根據(jù)n元語法模型的思想,借鑒基元為“詞”的二元語法模型,本文將選擇最佳T#方案的問題轉(zhuǎn)換為求最大概率問題。即在w1w2……wm序列中,假定每個詞出現(xiàn)的概率只與前面相鄰的詞有關(guān)。則方案t的概率為:
(4)
其中,P(w1|w0)為w1作為句首詞語出現(xiàn)的概率。
根據(jù)上下文信息以及義項選擇模型設(shè)定的權(quán)重,確定翻譯結(jié)果,則整個過程可描述為:
(5)
即句子的翻譯結(jié)果與S中詞語的上下文信息C以及詞性pos、詞長Len相關(guān)。
求出某句所有翻譯方案集T中使該句概率p(t)最大的方案T#,具體計算公式為:
(6)
某句所有詞語序列方案T中,P(t)越大,該方案為正確機器翻譯結(jié)果的可能性越大。
具體實現(xiàn)翻譯可采取有向無環(huán)圖的算法,其基本步驟如3.4.1~3.4.3所示。
3.4.1 構(gòu)建轉(zhuǎn)移概率矩陣
假設(shè)該古漢詞典包含有n個不同義項表達(dá),則為此翻譯系統(tǒng)構(gòu)建的同現(xiàn)概率矩陣為一個n×n的馬爾可夫一階轉(zhuǎn)移概率矩陣P=(Pij)。
(7)
這里轉(zhuǎn)移概率的獲取所采用的訓(xùn)練語料主要為已進(jìn)行分詞、詞性標(biāo)注的2000年1月份《人民日報》,同時,隨機抽取《論語》的200句用以4.1小節(jié)的測評,余下的2 216句文本使用《論語譯注》[9]中的譯文進(jìn)行分詞,作為針對古漢語翻譯而言相似度和覆蓋度更高的訓(xùn)練語料[10]。
3.4.2 構(gòu)造有向無環(huán)圖
對于古漢語句子,可根據(jù)句子具體分詞結(jié)果,構(gòu)造出不同義項組成的有向無環(huán)圖w1w2……wm(wi∈Wi),Wi={wi,1,wi,2……wi,n}。圖6所示為圖5句子的一部分“其為人也孝悌”進(jìn)行機器翻譯的有向無環(huán)圖,每個節(jié)點分別表示“義項/詞性權(quán)重/詞長權(quán)重”,每條路徑上是轉(zhuǎn)移概率值,如有向無環(huán)圖中的某條邊(wi,wj)不在轉(zhuǎn)移矩陣中,置轉(zhuǎn)移概率為:
(8)
對于特殊詞義項解釋,如表1<動使動>“使()快慰”,以小括號作為分隔,視為兩個節(jié)點項,并將緊隨此詞后一詞語的義項插入這兩節(jié)點間,形成有向無環(huán)圖。
3.4.3 最短路徑獲取
因概率相乘獲取T#數(shù)值過小,為了防止概率相乘導(dǎo)致浮點溢出情況的出現(xiàn),通常將有向邊的長度定義為:
Cost(wi|wi-1)=
(9)
圖6 翻譯過程的有向無環(huán)圖
容易看出,P(Wi|Wi-1)越大,詞性、詞長權(quán)重越大,Cost(Wi|Wi-1)越小。本文利用Dijkstra算法獲取最短路徑。最終生成的翻譯結(jié)果為: “他的/為人/也/孝悌/,/然而/喜好/觸犯/上面/的人,/少/啊。”(圖7)。
圖7 機器翻譯結(jié)果圖示
4.1 結(jié)果測評 本實驗使用隨機抽取的200句《論語》語句進(jìn)行機器翻譯,采用N元匹配的方式對翻譯結(jié)果進(jìn)行測評。N元匹配的基本思想是: 用機器翻譯結(jié)果中連續(xù)出現(xiàn)的N元組(n個字、詞或者標(biāo)點)與參考譯文中出現(xiàn)的N元組進(jìn)行比較,計算完全匹配的N元組的個數(shù)與機器翻譯結(jié)果中N元組的總個數(shù)的比例[11]。這是一種類似準(zhǔn)確率的計算方法,它允許一個原文有多個參考譯文,當(dāng)譯文較多時,評測的結(jié)果可減小因不同人進(jìn)行翻譯導(dǎo)致的譯文用詞、語序、句型、翻譯風(fēng)格等不同的影響,使得測評更為客觀[12]。
本實驗所采用評測方式為BLEU分值,一種基于N元匹配評測方法中最有代表性的評測指標(biāo)。這里采用一元、二元、三元匹配方式進(jìn)行測評,其中,一元組的基本單位為詞。具體公式為:
(10)
式(10)中,一元組總個數(shù)為機器翻譯結(jié)果詞語個數(shù),完全匹配的一元組的個數(shù)指機器翻譯結(jié)果與參考譯文的結(jié)果相比,完全匹配的個數(shù)。
實驗1直接獲取詞典義項,通過歧義消歧手段實現(xiàn)翻譯,實驗2在此基礎(chǔ)上加入義項選擇模型,實驗3僅加入詞性選擇模型,實驗4加入詞法規(guī)則,實驗5將所有規(guī)則系統(tǒng)加入進(jìn)行翻譯。以楊伯峻編著的《論語譯著》的譯文作為評測參考譯文,將《論語》進(jìn)行機器翻譯的200句與參考譯文進(jìn)行句對齊,并對機器翻譯結(jié)果進(jìn)行評測,具體BLEU分值如表6所示。
表6 翻譯結(jié)果的一元BLEU得分
另外,本文將基于統(tǒng)計的機器翻譯設(shè)為對比實驗6,采用自然語言處理中常用開源語言模型訓(xùn)練工具srilm.tgz、詞語對齊工具giza-pp-v1.0.5.tar.gz以及統(tǒng)計機器翻譯工具moses-2010-08-13.tgz三者作為該實驗統(tǒng)計翻譯系統(tǒng)。訓(xùn)練語料選取詞語級別標(biāo)注句對齊《論語》中的1 916句,選取300句作為測試語料進(jìn)行模型訓(xùn)練,與實驗5相同的200句作為測評語料。
分別對實驗5和對比實驗的翻譯結(jié)果進(jìn)行一元組、二元組和三元組匹配測評,具體的BLEU分值如表7所示。
表7 翻譯對比結(jié)果的BLEU得分
從上述對比實驗的200句測評語料內(nèi)隨機抽取50句進(jìn)行人工測評,分別針對翻譯句子的流暢度、忠實度兩方面進(jìn)行打分,并設(shè)置評分區(qū)間為0(完全不能理解|完全不忠實原文信息)至4(完全易于理解|完全忠實于原文)[13]。
對抽取的每句原文的基于規(guī)則及統(tǒng)計的翻譯結(jié)果進(jìn)行打分,并對所得分?jǐn)?shù)進(jìn)行平均,最終獲得了如下結(jié)果(表8)。
表8 翻譯結(jié)果的人工評價得分
4.2 結(jié)果分析
本文利用基于句本位句法結(jié)構(gòu)進(jìn)行基于規(guī)則和統(tǒng)計相結(jié)合的機器翻譯。由表7可見,在處理古今漢語機器翻譯上,加入詞法規(guī)則信息以及詞性權(quán)重模型更有優(yōu)勢。同時應(yīng)看到,機器翻譯結(jié)果一元BLEU分值并不高,這是由于本實驗僅利用常用詞詞典在相應(yīng)規(guī)則處理下生成供機器翻譯用的詞典義項,詞典義項并非根據(jù)大規(guī)模詞對齊的平行語料獲取,另外,由于基于規(guī)則的翻譯結(jié)果文本較長,而BLEU測評法有著長度懲罰方面的缺陷。
通過表7,可看到基于規(guī)則的古今漢語機器翻譯在二元、三元匹配上效果較好,結(jié)果比較穩(wěn)定,三元組BLEU分值優(yōu)于基于統(tǒng)計的機器翻譯結(jié)果。
并且,在表8中,通過對兩種翻譯方式的結(jié)果進(jìn)行人工對比評分,也可看出基于規(guī)則的翻譯結(jié)果在語句翻譯流暢度和語序穩(wěn)定性上更好。這是由古漢語具有多種變式、語法結(jié)構(gòu)較為復(fù)雜的特點決定,本文采用的基于規(guī)則的機器翻譯能夠通過基于黎氏語法規(guī)則的句法分析,獲得古漢語句法變式,進(jìn)行語序調(diào)整等手段將翻譯結(jié)果語序調(diào)整成符合現(xiàn)代漢語語法規(guī)范的句子。
本文基于“句本位”語法對機器翻譯的實現(xiàn)進(jìn)行了探索,可對傳統(tǒng)語法體系進(jìn)行驗證,有利于古今漢語語法比較研究。在當(dāng)今統(tǒng)計占主流的形勢下,基于規(guī)則的嘗試是對機器翻譯技術(shù)的領(lǐng)域拓展,為自然語言處理領(lǐng)域中機器翻譯技術(shù)提供了新的思路。下一步,如能根據(jù)一個詞對齊的古今漢語進(jìn)行統(tǒng)計,獲取詞對信息,用以修正字典的詞對翻譯信息,或引入完善的同義詞林,并細(xì)化語法規(guī)則庫,將可以有更好的翻譯效果。
[1] 袁本良. 比較與變換——紀(jì)念黎錦熙先生《比較文法》出版 70 周年[J].貴州大學(xué)學(xué)報: 社會科學(xué)版, 2003,21(6): 105-109.
[2] 史存直. 文言語法[M]. 北京: 中華書局,2005.
[3] 黎錦熙. 新著國語文法[M].北京: 商務(wù)印書館,1992.
[4] 馮勝利,汪維輝. 古漢語判斷句中的系詞[J].古漢語研究, 2003,1: 30-36.
[5] 李正栓,孟俊茂. 翻譯專業(yè)本科生系列教材·機器翻譯簡明教程[M].2009年9月1日: 上海外語教育出版社,第1版.
[6] 張政. 機器翻譯——任重而道遠(yuǎn)[C]//國際譯聯(lián)第四屆亞洲翻譯家論壇論文集, 2005,4(1):9-11.
[7] 熊德意, 劉群, 林守勛. 基于句法的統(tǒng)計機器翻譯綜述[J].中文信息學(xué)報, 2008,22(2): 28-38.
[8] 王博. 中文全詞消歧在機器翻譯系統(tǒng)中的性能評測[J].自動化學(xué)報, 2008. 34(5): 7-13.
[9] 楊伯峻. 論語譯注[M].北京: 中華書局,1980.
[10] 姚樹杰, 肖桐, 朱靖波. 基于句對質(zhì)量和覆蓋度的統(tǒng)計機器翻譯訓(xùn)練語料選取[J].中文信息學(xué)報, 2011. 25(2):72-77.
[11] 黃瑾, 劉洋, 劉群. 機器翻譯評測介紹[J].術(shù)語標(biāo)準(zhǔn)與信息技術(shù),2010,16(1):36-40.
[12] Callison-Burch C, M Osborne, and P Koehn. Re-evaluating the role of BLEU in machine translation research[C]//Proceedings of Annual Meeting of European Association Computational Lingustics. 2006,3(1):20-29.
[13] M Eck and C Hori. Overview of the IWSLT 2005 Evaluation Campaign[C]//Proceedings of IWSLT,2005,2(1): 11-32.
Ancient Chinese MT Based on Sentence-focused Syntax
HAN Fang,YANG Tianxin,SONG Jihua
(Shool of Information Science and Technology, Beijing Normal University, Beijing 100009, China)
This paper presents a rule based Machine Translation for Ancient Chinese under the framework of sentence-focused syntax theory by Li Jinxi. The rule base also includes ancient Chinese Dictionary knowledge and word sense disambiguation knowledge. The whole translation process consists of the word sense selection the sentence syntax reordering. Utilizing a bi-gram model, sentences in the “Analects of Confucius” are translated and evaluated in the experment.
ancient Chinese; Li Jinxi grammar; word sense disambiguation; machine translation
韓芳(1987—),碩士研究生,主要研究領(lǐng)域為自然語言處理。E?mail:hfsophie123@qq.com宋繼華(1963—),教授,博士生導(dǎo)師,主要研究領(lǐng)域為語言信息處理、計算機教育應(yīng)用。E?mail:songjh@bnu.edu.cn楊天心(1987—),碩士研究生,主要研究領(lǐng)域為自然語言處理。E?mail:yangtianxin1987@qq.com
1003-0077(2015)02-0103-08
2012-07-22 定稿日期: 2013-01-07
TP391
A