李發(fā)杰,余正濤,郭劍毅,李 英,周蘭江
(1.昆明理工大學(xué)信息工程與自動化學(xué)院,云南昆明650500;2.昆明理工大學(xué)智能信息處理重點實驗室,云南昆明650500)
越南與云南山水相連,兩國人民之間的交往歷史悠久,語言溝通在雙方人民友好往來與相處、相互學(xué)習(xí)方面起到了十分重要地作用。因此,針對漢越雙語的研究工作具有重要地現(xiàn)實意義。在越南語和漢語的互譯過程中,越南語的句法分析是十分重要的基礎(chǔ)工作。完全句法分析要求通過一系列分析過程,最終得到句子的完整的句法樹;而淺層句法分析不要求得到完全的句法分析樹,只要求識別其中的某些結(jié)構(gòu)相對簡單的成分,即它將句法分析分解為兩個子任務(wù):語塊的識別和分析;語塊之間的依附關(guān)系分析。由于采用完全句法分析難度相對比較大,因此淺層句法分析成為當(dāng)前句法分析主流[1]。依存句法分析是機器分析語言句法特征非常有效的方法之一,本文對越南語采用依存樹的方法進行句法分析。越南語依存標(biāo)注體系和越南語依存樹庫的構(gòu)建,已經(jīng)成為整個越南語依存分析的核心工作,對該問題加以有效合理的解決,對越南語的句法分析、機器翻譯、信息獲取等上層應(yīng)用可以提供有力支撐。依存句法分析的研究工作以及依存樹庫的建設(shè)工作,在國內(nèi)外都已經(jīng)展開。比較著名的依存樹庫有:捷克語的布拉格樹庫[2],英語的PARC樹庫[3],以及俄語、意大利語等語言的樹庫[4-5]。在中文方面也建立了一些比較有影響力的依存樹庫,如哈爾濱工業(yè)大學(xué)社會計算與信息檢索研究中心漢語樹庫HIT-CIR-CDT,其中包括120萬個詞,六萬個句子。在越南語的依存樹庫建設(shè)方面,P T Nguyen等人開展了依存樹庫的構(gòu)建工作[6],但其規(guī)模較小,共有一萬個句子左右,不能滿足漢-越雙語機器翻譯的需求。
從以上分析可以看出,大語種樹庫的建設(shè)工作已取得了一些成果,但對于越南語而言,其研究工作相對比較少,還缺乏一定規(guī)模的依存樹庫。越南語與中文一樣,已經(jīng)標(biāo)記好的依存句法樹庫資源是統(tǒng)計依存句法結(jié)構(gòu)分析必備資源,如何實現(xiàn)構(gòu)建越南語的依存樹庫也成為本文工作主要解決的問題。
本文針對越南語言特點,提出了借助漢-越雙語詞對齊語料構(gòu)建越南語依存樹庫的方法,實驗結(jié)果表明:本文提出的方法相比采用機器學(xué)習(xí)的方法在依存弧準(zhǔn)確率(Unlabeled Attachment Score,UAS)、標(biāo)識準(zhǔn)確率(Labeled Attachment Score,LAS)和根節(jié)點正確率(Root Accuracy,RA)都有一定的提高。
經(jīng)過對越南語和漢語的對比研究發(fā)現(xiàn),兩種語言在語法結(jié)構(gòu)上存在一些差異:(1)越南語定語位置和漢語不同,越南語定語一般在中心詞后邊,例如,漢語“她是美麗的女孩。”越南語(她是)只有表示數(shù)量的詞語(數(shù)詞、量詞)或指示代詞(各、每等)充當(dāng)定語時,定語排在中心語之前,例如,漢語句子“我吃了一個蘋果。”對應(yīng)的越南語“(一個)(蘋果).”(2)越南語與漢語描寫性定語的位置完全不同,但定語修飾中心語的順序(定語與中心語的遠近距離)一致,越南語描寫性多層定語的結(jié)構(gòu)順序與漢語呈鏡像關(guān)系,漢語中描寫性定語的順序是:1-2-3-4-中心語;與之相反,越南語的順序是:中心語-4-3-2-1。例如,漢語句子“她是我見過的最美麗的女孩?!保瑢?yīng)的越南語(女孩(最美麗的)(我見過)”;(3)越南語狀語成分與漢語大多數(shù)情況下是一致的,但漢語常把表示時間的狀語放在主語之后,而越南人更習(xí)慣把表示時間的狀語放在句首,另外,越南語表示時間的狀語若是由介詞短語充當(dāng),其位置常在句末。例如,漢語“他今天沒來上課。”越南語(他沒來上課)(今天)”(4)越南語表示處所的狀語一般位于謂語動詞之后,與漢語不同。例如,漢語“我常常在食堂吃飯?!痹侥险Z(我常常吃飯)(在食堂).”(5)題語一般放在主語前(若出現(xiàn)賓語前置時即被動式表示時,此賓語越南語也稱為“題語”)。例如,漢語“他寄信走了。”,越南語為(此句中,信是題語);有時放在主語后,稱為“次題語”,如句子,,中,“煙”和“酒”就是次題語。
詞對齊是統(tǒng)計機器翻譯中一個非常重要的概念,圖1給出了一個漢語句子和一個越南語句子詞對齊的例子。在這個實例里有六個需要對齊的詞對:(學(xué)生)。本文中,我們以等人的表示方法為例,那么這個漢語-越南語句對詞對齊的關(guān)系可以表示成如下形式:我(1)是(2)張(6)老師(5)的(4)學(xué)生(3))。其中,漢語單詞后面的數(shù)字表示的是越南語句子中與其對齊的越南語單詞的位置。例如,學(xué)生(3)表示名詞學(xué)生與越南語語句子中的第3個單詞對齊。本文使用開源工具GIZA++[7]來對漢語-越南語的平行句對進行詞對齊處理,得到的詞對齊結(jié)果準(zhǔn)確率為49.32%,所以需要再進行人工調(diào)整校對,詞對齊的語料都是平行句對,校對的時候就是由相關(guān)人員進行一一甄別校對的,這里沒有做統(tǒng)一的規(guī)范,調(diào)整的詞數(shù)量大概是40萬詞,最后得到高質(zhì)量的詞對齊平行句對。GIZA軟件包最早由約翰·霍普金斯大學(xué)的機器翻譯夏令營實現(xiàn)的,后來,Och等人對GIZA軟件包進行了優(yōu)化處理,稱之為GIZA++。GIZA++實現(xiàn)了IBM公司提出的五個機器翻譯模型,它的主要思想是利用雙語平行語料來進行詞對齊訓(xùn)練,由句子對的訓(xùn)練得到詞語的對齊結(jié)果。現(xiàn)今,GIZA++依然是大部分統(tǒng)計機器翻譯系統(tǒng)的核心構(gòu)成部分,在詞對齊方面有著廣泛的應(yīng)用。
圖1 詞對齊的例子
句法分析的任務(wù)是根據(jù)給定的語法,自動推導(dǎo)出句子的語法結(jié)構(gòu)。目前,在句法分析的研究中主要有短語結(jié)構(gòu)語法和依存語法。短語結(jié)構(gòu)樹由終結(jié)符、非終結(jié)符以及短語標(biāo)記這三種符號按照特定的語法規(guī)則構(gòu)成。短語結(jié)構(gòu)語法規(guī)則,若干終結(jié)符構(gòu)成一個短語,作為非終結(jié)符參與下一次歸約,直至將整個句子歸約為根節(jié)點。依存語法認為句子中的述語動詞是支配其他成分的中心,而它本身卻不受其他任何成分的支配,所有的受支配成分都以某種依存關(guān)系從屬于其支配者。可以看出,依存語法以其形式簡潔、易于標(biāo)注、便于應(yīng)用等優(yōu)點,逐漸成為當(dāng)今研究人員的研究主題。因此依存語法的研究在許多種語言中均已開展。本文實驗中采用了依存語法作為句法分析的語法體系[8]。圖2為一棵漢語依存句法樹,從圖中可以看出:依存語法的表示形式簡潔,易于理解。依存語法直接表示詞語之間的關(guān)系,沒有額外增加語法符號。所以即使是非專業(yè)的人也能很容易理解該語法形式,這對樹庫的建設(shè)工作十分有利。
漢語和越南語主要的語義關(guān)系相似,漢語的依存句法分析是建設(shè)越南語依存樹庫的前提。針對越南語的結(jié)構(gòu)特點和語義關(guān)系,同時也為了避免數(shù)據(jù)稀疏問題,本文定義了如表1所示的依存關(guān)系集,實驗主要基于所定義的14種主要依存關(guān)系。
圖2 漢語依存樹的結(jié)構(gòu)
表1 越南語依存關(guān)系表
基于前述的漢語-越南語詞對齊以及針對漢語的句法分析,接下來要做的就是從漢語到越南語的依存關(guān)系映射,即根據(jù)漢語依存句法樹和漢語-越南語詞對齊的關(guān)系,進一步生成越南語的依存句法樹。對兩種語言進行研究發(fā)現(xiàn),雖然越南語句子中的詞序與漢語句子中的詞序不一致,但是依存關(guān)系卻是一致的,所以可以把漢語句子的依存關(guān)系直接映射到越南句子上,具體方法如下例所示:
越南語:
漢語:她的先生在加拿大工作。 (1-2)
經(jīng)過詞對齊處理之后的結(jié)果為:
越南語:
漢語:她(1)的先生(2)在(4)加拿大(5)工作(3) (2-2)
以上括號中數(shù)字代表其前面的詞在本句子中的順序。
對漢語句子進行句法分析得到漢語的句法分析樹,如圖3所示。
接下來我們要做的就是結(jié)合越南語言的語法特點,并基于前面的詞對齊和漢語的依存句法樹來生成越南語句子的依存句法樹,如圖4所示。
圖3 漢語句子的依存樹
圖4 越南語依存樹生成方式一
從圖4中可見,盡管漢語句子中的“工作”和越南語句子中的“c?ngtác”在句子中的前后順序不一致,但是對依存關(guān)系沒有影響。經(jīng)過對越南語和中文語法結(jié)構(gòu)的研究發(fā)現(xiàn)兩種語言的依存結(jié)構(gòu)是存在等價性的。所以,可以直接把漢語句子的依存關(guān)系直接映射到越南語句子上,來生成越南語的依存句法分析樹。然而,由于兩種語言的差異性,映射存在歧義性,本例中,從式(2-1)和(2-2)句對中的詞對齊可以看出,中文句子中的“的”對空了,所以式(2-2)中文句子的“的”相關(guān)的依存關(guān)系沒有映射對象,但從圖中可以看出越南語句子的依存關(guān)系都已經(jīng)分析出來了,因此這并不影響對越南語句子的分析效果[9]。
由于越南語中存在一些詞對應(yīng)一個漢語短語,本文總結(jié)出一個特殊越南語詞典如表2所示。
字典中,有132個越南語詞,每一個越南語詞都對應(yīng)著一個漢語短語,除了這些相對特殊的越南語詞外,其他的越南語詞語與漢語詞語的關(guān)系都是一一對應(yīng)的。實驗中,這些特殊越南語詞的依存關(guān)系我們是根據(jù)漢語短語中的核心詞來判定的,文中規(guī)定:漢語短語的核心詞就是依存樹中短語部分的根節(jié)點。用越南語詞“”來做一個映射實例,”的漢語意思是“打電話”,如圖5所示。
表2 漢語短語——越南語詞的對照表
圖5 越南語依存樹生成方式二
實驗數(shù)據(jù)來自七個新聞網(wǎng)站的國際頻道的新聞。這些網(wǎng)站覆蓋了各大主流的新聞網(wǎng)站,且包含的新聞覆蓋:體育、政治、娛樂、軍事等各個方面,因此,保證了實驗數(shù)據(jù)的多樣性。
整句依存句法分析評測指標(biāo)選擇:依存弧準(zhǔn)確率(Unlabeled Attachment Score,UAS)、標(biāo)識準(zhǔn)確率(Labeled Attachment Score,LAS)和根節(jié)點正確率(Root Accuracy,RA),定義如下:
采用漢語為中介構(gòu)建越南語依存樹庫的方法使用的是三萬條漢語-越南語句子對;漢語的依存句法分析是采用哈爾濱工業(yè)大學(xué)的LTP平臺①http://ir.hit.edu.cn.完成的,LTP工具的標(biāo)注集我們按照實驗的要求和越南語的特點進行了統(tǒng)一的改動;通過漢語-越南語的映射生成三萬條越南句子的依存樹庫。三萬句的語料是第一階段的語料,隨著語料的不斷增加,實驗也會不斷的完善。分別統(tǒng)計數(shù)量為10 000、20 000、30 000條句對的實驗結(jié)果,如表3所示。
表3 漢語為中介構(gòu)建越南語依存樹庫實驗結(jié)果
同時,本文以5 000條人工標(biāo)注的越南語句子為初始集,用MaltParser[10]和MSTParser[11]工具對其進行機器學(xué)習(xí)建模,生成依存樹模型,再用生成的越南語依存樹模型對越南語句子進行擴展。實驗中擴展了30 000句越南語依存樹庫。這樣,我們就有了基于統(tǒng)計機器學(xué)習(xí)方法生成的依存樹庫。使其與采用漢語為中介構(gòu)建的越南語依存樹庫的實驗方法進行比較。實驗結(jié)果如表4所示。
從表3和表4中可以看出,在越南語語料相對比較少的情況下,采用以漢語依存庫為基礎(chǔ),基于規(guī)則的映射方法所生成的越南語依存樹庫,準(zhǔn)確率相比采用機器學(xué)習(xí)的方法明顯提高。
表4 其他方法和本文方法的比較
將5 000句人工標(biāo)注數(shù)據(jù)和30 000句利用中間語轉(zhuǎn)化的數(shù)據(jù)一起訓(xùn)練依存分析模型,然后用來訓(xùn)練新的越南語依存句法樹,得到的依存樹的準(zhǔn)確率會比以5 000句人工標(biāo)注的數(shù)據(jù)低一些,而selftraining之后得到的依存樹的準(zhǔn)確率又低一些。這是由本文提出的方法得到的越南語依存樹庫存在一些錯誤造成的。
分析實驗結(jié)果,由于越南語言結(jié)構(gòu)在一定程度上和中文語言結(jié)構(gòu)類似,但又具有其特殊的語言特點,因此可以采用以漢語依存庫為基礎(chǔ)、基于規(guī)則的映射方法來生成越南語的依存樹庫,這樣可以避免越南語語料的人工標(biāo)注過程;在越南語語料相對少的條件下,可以獲得比機器學(xué)習(xí)高的準(zhǔn)確率。隨著語料的不斷增加,機器學(xué)習(xí)的baseline的準(zhǔn)確率也會得到相應(yīng)的提高。本文對錯誤實例經(jīng)過分析發(fā)現(xiàn),本文提出的方法對短句效果好,而長句的處理效果相對較差。這是由于長句句式復(fù)雜,且兩種語言有很大差異,還需結(jié)合深層次的語言結(jié)構(gòu)分析。還有一部分錯誤是由中文依存自動分析結(jié)果不準(zhǔn)確造成的。另外,通過本文方法得到的依存樹存在有些詞和句中其他詞之間不存在任何依存關(guān)系的情況,而人工標(biāo)注的越南語依存樹不存在這種情況,這也是由兩種語言之間的差異造成的。在下一步的研究中,我們將針對長句依存關(guān)系和兩種語言之間的差異進行研究,同時會對中文的依存結(jié)構(gòu)進行校正調(diào)整,不斷提高中文依存樹庫的準(zhǔn)確率,最后得到準(zhǔn)確率更高的越南語依存樹庫。
本文提出了基于漢-越語言對齊關(guān)系的越南語依存樹庫的構(gòu)建方法,該方法避免了人工標(biāo)注越南語依存樹庫的過程。相對于傳統(tǒng)的統(tǒng)計機器學(xué)習(xí)的方法此方法更加簡單,準(zhǔn)確率得到了一定程度上的提升。解決了越南語依存樹庫資源建設(shè)困難等問題。下一步,我們將基于不同語言與越南語對齊關(guān)系進行越南語依存樹庫的構(gòu)建實驗,并與基于漢-越語言對齊關(guān)系構(gòu)建的越南語依存樹庫進行比較分析,最終實現(xiàn)融合多語-越南語的對齊特性來進行越南語依存樹庫的構(gòu)建實驗。
[1] 馬金山.基于統(tǒng)計方法的漢語依存句法分析研究[D],哈爾濱工業(yè)大學(xué)博士學(xué)位論文,2007.
[2] J Hajic.Building a Syntactically Annotated Corpus:The Prague Dependency Treebank[C]//Proceedings of the Issues of Valency and Meaning,1998:106-132.
[3] Tracy Holloway King,Richard Crouch,Stefan Riezler,et al.The PRAC700dependency bank[C]//Proceedings of the EACL03:4th International Workshop on Linguistically Interpreted Corpora(LINC-03).2003:1-8.
[4] I Boguslavsky,S Grigorieva,N Grigoriev,et al.Dependency treebank for Russian:concept,tools,types of information[C]//Proceedings of the 18th International Conference on Computational Linguistically(COLING),2000:987-991.
[5] C Bosco and V Lombardo.Dependency and relational structure in treebank annotation.[C]//Proceedings of the Workshop on Recent Advances in Dependency Grammar,2004:1-8.
[6] P T Nguyen,L V Xuan,T M H Nguyen,et al.Building a large syntactically-annotated corpus of Vietnamese[C]//Proceeding of the 3rd Linguistic Annotation Workshop,ACL-IJCNLP,Singapore,2009:182-185.
[7] SU Xiang,LI Yu-jian.Computational Performance A-nalysis of GIZA++[J].Computer Engineering &Science,2010.ztyu@bit.edu.cn.
[8] 車萬翔,張梅山,劉挺.基于主動學(xué)習(xí)的中文依存句法分析[J].中文信息學(xué)報,2012,5(6),18-22.
[9] Luong Nguyen Thi,Dalat Univ,Lamdong,et al.Building a Treebank for Vietnamese Dependency Parsing[C]//Proceedings of the IEEE RIVF International Conference on Computing and Communication Technologies-Research,Innovation,and Vision for the Future(RIVF),2013,NOV 10-13.
[10] Joakim Nivre,Johan Hall,Jens Nilsson.MaltParser:A Data-Driven Parser-Generator for Dependency Parsing[C]//Proceedings of the 15th International Conference on Language Resources and Evaluation,2006:2216-2219.
[11] R McDonald,K Lerman,F(xiàn) Pereira.Multilingual Dependency Analysis with a Two-Stage Discriminative Parser[C]//Proceedings of the 12th Conference on Computational Natural Language Learning,2006:216-220.
[12] 陳鑫.基于主動學(xué)習(xí)的漢語依存樹庫構(gòu)建[D],哈爾濱工業(yè)大學(xué)碩士學(xué)位論文,2011.