基于統(tǒng)計的蒙漢短語結構分析

2016-12-26 09:47:07內蒙古電子信息職業(yè)技術學院張跟兄富木仁

電子世界 2016年21期

內蒙古電子信息職業(yè)技術學院張跟兄富木仁

基于統(tǒng)計的蒙漢短語結構分析

內蒙古電子信息職業(yè)技術學院張跟兄富木仁

雙語短語對齊是當今雙語信息檢索和輔助機器翻譯研究的熱點和難點問題。詞匯是語言的建筑材料,計算機在處理自然語言時一般都是以詞為單位進行處理的。所謂的雙語對齊是源語言查找對應的目標語言的一項工作。蒙漢雙語短語結構對齊工作在機器翻譯、蒙漢語言之間的檢索、蒙漢詞典的構造等方面有著廣泛的應用。本文對蒙漢詞匯標注和蒙漢短語對齊難點問題分析等方面進行了重點闡述。

蒙漢短語;標注;難點

1.引言

在自然語言的研究處理中,凡涉及到句子、語法、語義等的研究項目,都以詞為單位進行研究處理。在句法研究中詞語組成句子,沒有詞語就沒有詞組詞成句,因而也就沒有句法。還有,在眾多的研究課題中詞匯研究是一項龐大的語言工程,需要我們去投入大批量的人力和物力。

要檢索蒙漢雙語詞語我們須設置對齊詞匯,這需要備好蒙漢雙語詞典。在拆分完詞、標注完相應的詞性后,要對齊蒙文詞語和漢文詞語。檢索對齊詞語往往還會涉及到檢索速度的快與慢的問題,因此我們要設計好數(shù)據(jù)庫。

2.現(xiàn)狀

20世紀80年代以來,語料庫研究受到了各國研究者的重視。 LOB語料庫的研究者利用統(tǒng)計方法設計了一個標注系統(tǒng)。在此標注系統(tǒng)中應用了130個標記,其中標注的700多個詞典詞條是從Brown語料庫中摘取的。LOB語料庫中還建立了700多個詞綴的詞綴表。在此標注系統(tǒng)中首先對部分語料進行了人工標注,其次對標注過的語料進行了統(tǒng)計分析,為得出標記與標記同現(xiàn)的頻率,從而產生一個標記同現(xiàn)的頻率矩陣。標注系統(tǒng)(CLAWS)中還采用了對短語進行標注的方法來修正詞性標注結果。對整個LOB語料庫的標注正確率在96%左右,算法的時間復雜度和空間復雜度是指數(shù)級的。

DeRose等人對統(tǒng)計方法作了一些改進,設計了一個標注系統(tǒng)(VOLSUNGA),在此系統(tǒng)中利用了動態(tài)規(guī)劃算法。此算法主要考慮了語料庫中詞和詞性之間存在的統(tǒng)計關系。VOLSUNGA中即使沒有使用任何規(guī)則正確率也達到了96%以上。DeRose等人主要對二元語法模型下應用了詞性自動標注的動態(tài)規(guī)劃算法,其時間復雜度和空間復雜度是線性的。迄今為止,統(tǒng)計方法主要采用詞性與詞性之間的同現(xiàn)概率和馬爾可夫語言模型來消除歧義。相比之下統(tǒng)計方法可以避免規(guī)則方法的許多缺陷。例如,統(tǒng)計方法主要應用數(shù)據(jù)統(tǒng)計,統(tǒng)計數(shù)據(jù)可以應用有指導或無指導的學習方法從語料庫中得到,從而避免那些人工獲取規(guī)則的繁瑣過程。同時,統(tǒng)計方法獲取的知識具有以下優(yōu)點:客觀性好、一致性強,比起規(guī)則的方法對生詞和不規(guī)范的句子的處理能力有較大的提高。

3.標注蒙漢對齊短語

詞匯是語言的建筑材料,計算機在處理自然語言時一般都是以詞為單位進行處理的。所謂的雙語對齊是源語言查找對應的目標語言的一項工作。我們所研究的對齊是在句子、短語和詞級別的對齊。詞匯對齊是源語言詞匯和目標語言詞匯之間的最高語義相似度的查找。到目前為止我們主要應用的對齊方法有:基于統(tǒng)計的詞匯對齊方法,其主要思想是:對大規(guī)模的雙語語料庫進行統(tǒng)計,獲得對譯詞的翻譯概率?；谠~典的詞匯對齊方法,應用這種方法是因為:雙語詞典中擁有兩種語言的翻譯信息,是獲取雙語對齊詞匯的重要資源庫。但應用這種方法的主要缺點是詞典中所覆蓋的方方面面的內容較少。

源語言-蒙古文詞與詞之間是有空格的,但我們所研究的目標語言-漢語,詞與詞之間并沒有分詞分界標志,所以我們需要分詞軟件對目標語言進行分詞。分完詞的源語言和目標語言需標注詞性。

分完詞、標上詞性后的蒙漢雙語詞匯舉例如下:

2007年/t10月/t15日/t,/wp中國/ns共產黨/nz第十七/m次/q全國/ ng代表/ng大會/ng在/p北京/ns人民大會堂/nz隆重/aq開幕/vi。/wp

4.蒙漢對齊短語的提出及難點問題

(1)提出問題

所謂蒙漢語言詞對齊是在源語言和目標語言中找到詞匯級別的翻譯對。詞匯對齊在機器翻譯、蒙漢語言之間的檢索、蒙漢詞典的構造等方面有著廣泛的應用。如下面例題所示。

(2)難點問題

與此同時,詞語對齊方面的研究課題是公眾認可的難點研究項目。主要存在的問題如下:

①蒙漢雙語詞語之間的對齊不滿足前后順序,經常出現(xiàn)交叉現(xiàn)象,比如:{,電視}和{,看}這兩個詞的前后位置就顛倒了。

②蒙漢雙語詞語之間的對齊模式非常復雜,有一對一、一對多、多對一和多對多等多種復雜的對應關系,如下面例題中我列舉出了一對一和一對多的情況:{,他}屬于一對一的情況;{,買了}屬于一對多情況。

③相同的詞語在同一個句子中出現(xiàn)多次,但是這些詞語在目標語言里的位置是不知道的。

④蒙漢雙語詞語之間的對齊匹配關系很難確定,在人工翻譯的過程中遣詞、造句過于靈便,從而給機器翻譯帶來了很大的不便。例如:把""翻譯成"一錢不值",這種翻譯現(xiàn)象表現(xiàn)出了人工翻譯的典型特色。

⑤蒙古語言的特點以及蒙漢語言之間的固有差異,比如慣用搭配、成語、諺語等。

⑥在蒙漢語言的翻譯過程中有添加詞語、減掉詞語、省略詞語、指代關系不明等多種現(xiàn)象。

[1]王曉龍,關毅。計算機自然語言處理[M]。北京:清華大學出版社,2005:85-95.

[2]劉冬明。漢英雙語平行語料庫中對齊方法的研究[D]。山西大學出版社,2004,4:4-9.

[3]劉冬明,楊爾弘,方瑩。漢英雙語平行語料庫的詞義標注[J]。中文信息學報,2004,19(6):50-51.

[4]嘎日迪,斯日古楞。蒙古文信息處理技術及自然語言理解[M]。呼和浩特:內蒙古大學出版社,2006:121-122.

張跟兄(1980-),講師,研究方向:計算機軟件開發(fā)領域。

富木仁(1980-),助理研究員,研究方向:計算機開發(fā)領域。