• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      越南語(yǔ)短語(yǔ)樹到依存樹的轉(zhuǎn)換研究*

      2017-04-17 01:39:15郭劍毅余正濤毛存禮線巖團(tuán)
      計(jì)算機(jī)與生活 2017年4期
      關(guān)鍵詞:越南語(yǔ)語(yǔ)料短語(yǔ)

      李 英,郭劍毅,2+,余正濤,2,毛存禮,2,線巖團(tuán),2

      1.昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,昆明 650500

      2.昆明理工大學(xué) 智能信息處理重點(diǎn)實(shí)驗(yàn)室,昆明 650500

      越南語(yǔ)短語(yǔ)樹到依存樹的轉(zhuǎn)換研究*

      李 英1,郭劍毅1,2+,余正濤1,2,毛存禮1,2,線巖團(tuán)1,2

      1.昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,昆明 650500

      2.昆明理工大學(xué) 智能信息處理重點(diǎn)實(shí)驗(yàn)室,昆明 650500

      依存句法分析是自然語(yǔ)言處理的一個(gè)關(guān)鍵環(huán)節(jié),目前對(duì)于越南語(yǔ)短語(yǔ)結(jié)構(gòu)樹的研究比較多,而依存結(jié)構(gòu)樹的研究就顯得十分薄弱。提出了一種新的方法,嘗試結(jié)合越南語(yǔ)的語(yǔ)言特點(diǎn)和語(yǔ)法特征,利用中心子節(jié)點(diǎn)過濾表的思想與統(tǒng)計(jì)的方法將越南語(yǔ)的短語(yǔ)結(jié)構(gòu)樹轉(zhuǎn)換成依存結(jié)構(gòu)樹。首先依據(jù)中文依存關(guān)系標(biāo)注體系與越南語(yǔ)的語(yǔ)法規(guī)則,制定出依存關(guān)系列表;然后結(jié)合越南語(yǔ)的語(yǔ)言特點(diǎn),制定出中心子節(jié)點(diǎn)過濾表,利用中心子節(jié)點(diǎn)過濾表的思想進(jìn)行初步轉(zhuǎn)化;最后使用依存關(guān)系標(biāo)注器來進(jìn)行依存關(guān)系標(biāo)注。基于轉(zhuǎn)換后得到的依存結(jié)構(gòu)樹,利用MSTParser工具進(jìn)一步訓(xùn)練得到更多的越南語(yǔ)依存結(jié)構(gòu)樹。對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了抽樣評(píng)估,樹庫(kù)轉(zhuǎn)換的準(zhǔn)確率達(dá)到了89.4%,較好地解決了越南語(yǔ)由短語(yǔ)樹到依存樹的轉(zhuǎn)換問題。

      句法分析;中心子節(jié)點(diǎn)過濾表;短語(yǔ)結(jié)構(gòu);依存結(jié)構(gòu);樹庫(kù)

      1 概述

      句法分析是指遵循給定的語(yǔ)法分析出句子的語(yǔ)法結(jié)構(gòu),其在自然語(yǔ)言處理、信息抽取和機(jī)器翻譯等方面的研究中有著至關(guān)重要的作用。目前所使用的句法分析主要有兩種形式:短語(yǔ)結(jié)構(gòu)分析法和依存結(jié)構(gòu)分析法。短語(yǔ)結(jié)構(gòu)分析法就是將句子切分成短語(yǔ),分析出句子短語(yǔ)之間的層次關(guān)系。短語(yǔ)結(jié)構(gòu)樹主要由終結(jié)點(diǎn)、非終結(jié)點(diǎn)和短語(yǔ)標(biāo)記構(gòu)成,其中最基本的成分是句法標(biāo)記,也就是非終結(jié)點(diǎn)(例如名詞短語(yǔ)NP、動(dòng)詞短語(yǔ)VP)。依存結(jié)構(gòu)分析就是分析出句子短語(yǔ)之間的依存關(guān)系[1],其可以明確地表明詞語(yǔ)間的支配關(guān)系(例如“我喜歡喝茶”,我和喜歡之間就是主謂關(guān)系)。由于依存關(guān)系的廣泛應(yīng)用,這些年也越來越受學(xué)者的重視。

      當(dāng)前國(guó)內(nèi)外已有的樹庫(kù)可以分為兩大類:一類是體現(xiàn)句子的語(yǔ)法信息的依存結(jié)構(gòu)樹庫(kù),比較著名的有捷克的布拉格依存樹庫(kù),英語(yǔ)的PARC樹庫(kù)[2]等。另一類是體現(xiàn)句子短語(yǔ)之間的層次關(guān)系的短語(yǔ)結(jié)構(gòu)樹,目前比較著名的是美國(guó)的賓州樹庫(kù)Penn Treebank[3]。賓州樹庫(kù)在句法分析等方面具有較高的準(zhǔn)確性,已經(jīng)成為句法分析所公認(rèn)的訓(xùn)練集合測(cè)試集。雖然目前關(guān)于越南語(yǔ)的樹庫(kù)建設(shè)已經(jīng)有了一些進(jìn)展,如在賓州樹庫(kù)中目前存在有10 000句的越南語(yǔ)短語(yǔ)結(jié)構(gòu)樹[4],但是在規(guī)模和質(zhì)量上,和其他語(yǔ)言例如英語(yǔ)、漢語(yǔ)和德語(yǔ)相比,研究工作基礎(chǔ)較弱,還有許多工作尚待開展。對(duì)于越南語(yǔ)依存樹的研究目前主要包含兩方面的工作:一個(gè)是Ph??ng等人[5]利用MSTParser(maximum spanning tree parser)訓(xùn)練了450句語(yǔ)料庫(kù);另外一個(gè)是詞匯化樹鏈接文法對(duì)越南語(yǔ)樹庫(kù)子集進(jìn)行訓(xùn)練[6]。對(duì)越南語(yǔ)樹庫(kù)建設(shè)來說,標(biāo)注樹庫(kù)是一件費(fèi)時(shí)費(fèi)力的工作,需要完善標(biāo)注體系和規(guī)范標(biāo)注流程,從而保證標(biāo)注的質(zhì)量。

      短語(yǔ)結(jié)構(gòu)和依存結(jié)構(gòu)雖然在表現(xiàn)形式上不同,但是它們都是對(duì)句子語(yǔ)法結(jié)構(gòu)的描述,因此在結(jié)構(gòu)上存在一致性。將短語(yǔ)結(jié)構(gòu)樹庫(kù)轉(zhuǎn)化為依存結(jié)構(gòu)樹庫(kù)的研究方面,國(guó)外已有相關(guān)研究,如Magerman[7]提出了核心節(jié)點(diǎn)映射表,通過優(yōu)先序列來確定一個(gè)組塊中的核心節(jié)點(diǎn);Collins[8]修改了Magerman的規(guī)則,將這種依存關(guān)系作為短語(yǔ)結(jié)構(gòu)句法分析中的中間表示。Yamada和Matsumoto[9]重新定義了一個(gè)核心節(jié)點(diǎn)映射表,并且給出了一套轉(zhuǎn)化程序,現(xiàn)已成為最流行的轉(zhuǎn)化程序,被大量學(xué)者在研究過程中采用。Nivre[10]重新實(shí)現(xiàn)了Yamada和Matsumoto的方法,定義了一套啟發(fā)式規(guī)則來確定弧的依存關(guān)系類型。其程序提供了賓州樹庫(kù)Penn Treebank和賓州中文樹庫(kù)Penn Chinese Treebank的核心節(jié)點(diǎn)映射表。Johansson和Nugues為了充分挖掘Penn Treebank標(biāo)注的信息,提出了一套更加完善、細(xì)致的轉(zhuǎn)化策略。

      上述工作都是直接將短語(yǔ)樹庫(kù)轉(zhuǎn)化為依存結(jié)構(gòu)樹庫(kù),其中依存句法關(guān)系類型一般都根據(jù)短語(yǔ)結(jié)構(gòu)樹庫(kù)中的短語(yǔ)類型獲得。但是由于語(yǔ)言之間存在一定的差異,這種方法在使用的時(shí)候還存在一定的局限性,主要是處理由語(yǔ)言本身帶來的一些語(yǔ)序上的問題,這就需要結(jié)合語(yǔ)言本身制定中心子節(jié)點(diǎn)過濾表。

      Fig.1 Example of dependency tree圖1 依存結(jié)構(gòu)樹示例

      本文提出一種新的方法,首先基于越南語(yǔ)言特點(diǎn)制定中心子節(jié)點(diǎn)過濾表,然后利用中心子節(jié)點(diǎn)過濾表的方法將越南語(yǔ)短語(yǔ)樹庫(kù)轉(zhuǎn)化為依存樹庫(kù),同時(shí)結(jié)合賓州中文樹庫(kù)(CTB)依存關(guān)系標(biāo)注集,制定出越南語(yǔ)依存樹的依存關(guān)系類型,最后利用online算法完成依存關(guān)系的標(biāo)注。這樣做的好處是可以增大目標(biāo)樹庫(kù)的規(guī)模,無需改變句法分析模型學(xué)習(xí)策略,便可以提高依存分析器的能力。這項(xiàng)工作可以看作是利用多種樹庫(kù)學(xué)習(xí)句法知識(shí)的一種方式。經(jīng)驗(yàn)證,本文所提方法在處理越南語(yǔ)樹庫(kù)轉(zhuǎn)換以及越南語(yǔ)依存樹庫(kù)擴(kuò)展上具有不錯(cuò)的實(shí)驗(yàn)效果,很好地解決了越南語(yǔ)依存句法分析的問題。

      2 中心子節(jié)點(diǎn)過濾表

      中心子節(jié)點(diǎn)在短語(yǔ)結(jié)構(gòu)和依存結(jié)構(gòu)中起著非常重要的作用。x-bar理論[5]和管轄約束理論[10]等語(yǔ)言理論認(rèn)為,每個(gè)短語(yǔ)結(jié)構(gòu)中都有一個(gè)中心子節(jié)點(diǎn)決定著這個(gè)短語(yǔ)的主要性質(zhì),短語(yǔ)中的其他節(jié)點(diǎn)都是該中心子節(jié)點(diǎn)的修飾子節(jié)點(diǎn)。而在依存結(jié)構(gòu)中非中心子節(jié)點(diǎn)以某種依存關(guān)系依存于中心子節(jié)點(diǎn)。

      依存結(jié)構(gòu)樹庫(kù)標(biāo)注體系如圖1所示,其標(biāo)注了句子中詞語(yǔ)之間的依存關(guān)系及依存類型。短語(yǔ)結(jié)構(gòu)樹庫(kù)賓州樹庫(kù)中句子的標(biāo)注如圖2所示,其僅標(biāo)出每個(gè)句子的短語(yǔ)層次結(jié)構(gòu)及短語(yǔ)類型,沒有標(biāo)明每個(gè)短語(yǔ)的中心子節(jié)點(diǎn)。確定短語(yǔ)中心子節(jié)點(diǎn)最常用的方法是使用中心子節(jié)點(diǎn)過濾表。

      2.1 中心子節(jié)點(diǎn)過濾表的結(jié)構(gòu)

      Fig.2 Example of phrase structure tree圖2 短語(yǔ)結(jié)構(gòu)樹示例

      Table 1 Head percolation table表1 中心子節(jié)點(diǎn)過濾表

      中心子節(jié)點(diǎn)過濾表的制定是整個(gè)工作中很重要的一部分,表1為部分中心子節(jié)點(diǎn)過濾表,其每一行都由〈短語(yǔ)類型,搜索方向,優(yōu)先級(jí)〉3項(xiàng)組成。其中,短語(yǔ)類型是非終端節(jié)點(diǎn)的短語(yǔ)符號(hào);搜索方向?yàn)樵诜墙K端節(jié)點(diǎn)內(nèi)部搜索中心子節(jié)點(diǎn)的方向,取值為L(zhǎng)時(shí)從短語(yǔ)左側(cè)開始向右搜索,取值為R時(shí)從短語(yǔ)右側(cè)開始向左搜索;優(yōu)先級(jí)為決定短語(yǔ)內(nèi)部各類標(biāo)注子節(jié)點(diǎn)作為中心節(jié)點(diǎn)的優(yōu)先次序。例如,根據(jù)過濾表中的一個(gè)條目<VP,L,VP;V;A;AP;N;NP;S;.*>,可以這樣確定VP短語(yǔ)的中心子節(jié)點(diǎn):從左向右觀察VP的每一個(gè)子節(jié)點(diǎn),最先找到的標(biāo)注為VP的子節(jié)點(diǎn)即為VP的中心子節(jié)點(diǎn);如果沒有找到VP節(jié)點(diǎn),重新從左向右觀察VP的每一個(gè)子節(jié)點(diǎn),最先找到的符號(hào)為V的子節(jié)點(diǎn)即為VP的中心子節(jié)點(diǎn);以此類推,如果這個(gè)VP內(nèi)部沒有任何標(biāo)注為VP、V、A、AP、N、NP、S、.*的子節(jié)點(diǎn),就默認(rèn)最左側(cè)的子節(jié)點(diǎn)為中心子節(jié)點(diǎn)。

      下面舉例來找到中心子節(jié)點(diǎn):(VP(R kh?ng)(V còn)(NP-DOB(Nng??i)(A nghèo))。首先需要在中心子節(jié)點(diǎn)過濾表中找到VP短語(yǔ)類型,可以看到VP所對(duì)應(yīng)的條目是<VP,L,VP;V;A;AP;N;NP;S;.*>。第二步需要從左到右瀏覽VP短語(yǔ)中第一個(gè)標(biāo)記為V就是詞(V còn)。這就意味著“còn”就是這個(gè)VP短語(yǔ)的中心子節(jié)點(diǎn)。

      2.2 基于越南語(yǔ)語(yǔ)言特征的中心子節(jié)點(diǎn)過濾表制定

      2.2.1 越南語(yǔ)言的主要特征

      越南語(yǔ)是一種典型的單音節(jié)、不變形、有聲調(diào)的語(yǔ)言。詞與詞之間的語(yǔ)法關(guān)系不通過詞本身的形態(tài)變化,而是靠詞序和虛詞等手段表示[11]。其主要特征如下:

      (1)詞序排列是越南語(yǔ)語(yǔ)法中最重要的表義手段。詞序的改變會(huì)導(dǎo)致語(yǔ)義的改變,例如ng??i còn、c?a còn不同于còn ng??i、còn c?a。并且越南語(yǔ)句子中的詞序大體上是一種具體性逐漸增強(qiáng)的詞序,即詞義越是概括性強(qiáng)的詞匯在句中的位置就越是靠前,相反,詞義越是具體的詞匯在句中的位置越是靠后。

      (2)語(yǔ)法體系高度穩(wěn)定[12]。越南語(yǔ)受其他語(yǔ)言尤其是漢語(yǔ)的影響很大,這種影響主要體現(xiàn)在詞匯層面,有半數(shù)以上的詞匯是漢語(yǔ)借詞或利用漢語(yǔ)語(yǔ)素創(chuàng)造的詞。但就語(yǔ)法層面而言,漢語(yǔ)對(duì)越南語(yǔ)的影響不大,越南語(yǔ)仍保持自己的特色語(yǔ)法系統(tǒng)不變,例如“前正后偏”的詞組結(jié)構(gòu)規(guī)律就是永恒的。采用“前正后偏”的特色構(gòu)詞方式。名詞性中心語(yǔ)表示性質(zhì)特點(diǎn)的成分后置,或者說形容詞后置,是越南語(yǔ)有別于漢語(yǔ)的最鮮明特點(diǎn)。人們稱這種構(gòu)詞方式是“前正后偏”。這種前正后偏的組詞方式體現(xiàn)在句子上就是“右側(cè)補(bǔ)義”,也就是右面的詞語(yǔ)補(bǔ)充說明左面的詞語(yǔ),越往后越具體[13]。例如對(duì)于下面的句子:

      中文句子:水牛黑色我家的正在吃草 外面田野在村尾。

      越南語(yǔ)句子:Con bò ?en c?a nhà t?i ?ang ?n c?ngoài cánh ??ng ? cu?i th?n.

      漢語(yǔ)恰好相反,是前偏后正,是左側(cè)補(bǔ)義。

      (3)越南語(yǔ)形容詞與動(dòng)詞有許多共同的語(yǔ)法特點(diǎn),常作句子謂語(yǔ),被統(tǒng)稱為“謂詞”[14]。形容詞直接后附補(bǔ)語(yǔ)的現(xiàn)象非常普遍,例如gi?i v?n、kém toán、kh?eng??i、l??i làm、d?tng??i、sángd?等。漢語(yǔ)形容詞也可以帶支配對(duì)象,例如“好色”、“好客”等,但不如越語(yǔ)普遍。

      (4)狀語(yǔ)位置靈活,前狀語(yǔ)較漢語(yǔ)為多,中狀語(yǔ)較少。漢語(yǔ)中的狀語(yǔ)成分的位置比較靈活,前、中、后狀語(yǔ)均很常見,但越南語(yǔ)以前狀語(yǔ)為多,后狀語(yǔ)次之,中狀語(yǔ)較少,例如Ngày maitr?is?m?a。

      (5)越南語(yǔ)被動(dòng)句式比漢語(yǔ)多。由于b?、???c、do、b?i、do b?i等詞的使用,越南語(yǔ)中的被動(dòng)句式比漢語(yǔ)要多。例如:B?n?yyb??m.T?i???cngh?bangày.上述兩個(gè)句子在用漢語(yǔ)表達(dá)時(shí),如果硬把“被”“得”說出來,反倒別扭。

      2.2.2 中心子節(jié)點(diǎn)過濾表制定

      為了能夠更好地找到每一個(gè)短語(yǔ)的中心節(jié)點(diǎn),本文將上面所描述的越南語(yǔ)的特征融入到中心子節(jié)點(diǎn)過濾表的制定中;同時(shí)本文采用了簡(jiǎn)單的依存關(guān)系描述體系,其中包含11種依存關(guān)系類型,如表2所示。非中心子節(jié)點(diǎn)以表中所示依存關(guān)系類型依存于中心子節(jié)點(diǎn)。本文所用的越南語(yǔ)句子中依存關(guān)系的確定,主要是參照賓州樹庫(kù)的標(biāo)注體系,同時(shí)在賓州樹庫(kù)標(biāo)注體系的基礎(chǔ)上,結(jié)合越南語(yǔ)語(yǔ)言特點(diǎn)做了相應(yīng)調(diào)整。具體的依存關(guān)系的定義如表2所示,其中列出了賓州樹庫(kù)標(biāo)注體系中每種短語(yǔ)包含的全部節(jié)點(diǎn)類型。

      Table 2 Dependency types表2 依存關(guān)系類型

      依據(jù)上述依存關(guān)系的定義,同時(shí)結(jié)合越南語(yǔ)的語(yǔ)法特點(diǎn),對(duì)各類節(jié)點(diǎn)作為中心子節(jié)點(diǎn)的優(yōu)先級(jí)進(jìn)行排序,制定中心子節(jié)點(diǎn)過濾表,如表1所示。其核心子節(jié)點(diǎn)過濾表基本涵蓋了所有的越南語(yǔ)短語(yǔ)結(jié)構(gòu)類型,為越南語(yǔ)短語(yǔ)樹到依存樹的轉(zhuǎn)換提供了較好的理論依據(jù)。

      3 短語(yǔ)結(jié)構(gòu)樹到依存結(jié)構(gòu)樹的轉(zhuǎn)換

      3.1 利用中心子節(jié)點(diǎn)過濾表進(jìn)行初步的轉(zhuǎn)換

      制定了中心子節(jié)點(diǎn)過濾表,短語(yǔ)結(jié)構(gòu)樹到依存結(jié)構(gòu)樹的轉(zhuǎn)換就相當(dāng)直接。轉(zhuǎn)換采用遞歸算法,將短語(yǔ)結(jié)構(gòu)樹Tree constituency轉(zhuǎn)換為依存結(jié)構(gòu)樹Tree dependency的轉(zhuǎn)換算法ConvertCToD(Tree constituency,Tree dependency)為:

      步驟1若根節(jié)點(diǎn)constituency為葉子節(jié)點(diǎn),返回根節(jié)點(diǎn)constituency并完成轉(zhuǎn)換。

      步驟2査找根節(jié)點(diǎn)constituency的中心子節(jié)點(diǎn)。

      步驟3轉(zhuǎn)換以中心子節(jié)點(diǎn)為根的子樹,并返回該子樹的中心子節(jié)點(diǎn)headChild。

      步驟4對(duì)于其他非中心子節(jié)點(diǎn):

      (1)轉(zhuǎn)換以非中心子節(jié)點(diǎn)為根的子樹,并返回該子樹的中心子節(jié)點(diǎn)non-headChild;

      (2)將non-headChild依存于headChild,并填入依存結(jié)構(gòu)樹Tree dependency。

      圖3顯示了圖2所示例句從短語(yǔ)結(jié)構(gòu)樹到依存結(jié)構(gòu)樹的轉(zhuǎn)換。首先轉(zhuǎn)換以S為根節(jié)點(diǎn)的短語(yǔ)結(jié)構(gòu)樹Tree IP。S不是葉子節(jié)點(diǎn),查找S短語(yǔ)的中心子節(jié)點(diǎn)。參照表1中心子節(jié)點(diǎn)過濾表,從左向右觀察S的每一個(gè)子節(jié)點(diǎn),最先找到的標(biāo)注為S的子節(jié)點(diǎn)即為S的中心子節(jié)點(diǎn)。由于沒有找到S子節(jié)點(diǎn),重新從左向右查找標(biāo)注為VP的子節(jié)點(diǎn)為S的中心子節(jié)點(diǎn)。然后轉(zhuǎn)換中心子樹Tree VP,VP的中心子節(jié)點(diǎn)(V?n)為葉子節(jié)點(diǎn),將其返回。繼續(xù)轉(zhuǎn)換VP的非中心子樹Tree PP……依次確定句子每個(gè)短語(yǔ)的中心子節(jié)點(diǎn),將短語(yǔ)的非中心子節(jié)點(diǎn)依存到其中心子節(jié)點(diǎn)上。

      Fig.3 Conversion from phrase structure tree to dependency tree圖3 短語(yǔ)結(jié)構(gòu)樹到依存結(jié)構(gòu)樹的轉(zhuǎn)換例句

      3.2 依存關(guān)系標(biāo)注

      在確定依存關(guān)系的過程中,主要采用了基于統(tǒng)計(jì)的方法來進(jìn)行依存關(guān)系標(biāo)注。本文利用online算法[12]來訓(xùn)練特征向量的權(quán)值。online算法不同于SVM,其在整個(gè)訓(xùn)練過程中最大化地提高整個(gè)樹的準(zhǔn)確率。同時(shí)online算法是一種基于距離最大化的學(xué)習(xí)算法,在依存關(guān)系分析、文本分類等方面得到廣泛使用,并且性能很好。在實(shí)驗(yàn)中部分特征的選取如表3所示。

      在表3中,c代表依存節(jié)點(diǎn)或者叫作子節(jié)點(diǎn);h代表中心節(jié)點(diǎn);h-word表示中心節(jié)點(diǎn)對(duì)應(yīng)的短語(yǔ);cword表示依存節(jié)點(diǎn)對(duì)應(yīng)的短語(yǔ);h-pos表示中心節(jié)點(diǎn)的標(biāo)識(shí);c-pos表示依存節(jié)點(diǎn)的標(biāo)識(shí);b-pos表示中心節(jié)點(diǎn)與依存節(jié)點(diǎn)中間的節(jié)點(diǎn)標(biāo)識(shí);h-pos+1表示中心節(jié)點(diǎn)右側(cè)節(jié)點(diǎn)的標(biāo)識(shí);h-pos+1表示中心節(jié)點(diǎn)右側(cè)節(jié)點(diǎn)的標(biāo)識(shí);h-pos-1表示中心節(jié)點(diǎn)左側(cè)節(jié)點(diǎn)的標(biāo)識(shí)。對(duì)于上面的每一類特征都采用回退的方法,將具體的特征進(jìn)行了泛化,如表3所示。

      Table 3 Partial features of dependency relation表3 依存關(guān)系標(biāo)注部分特征集

      為了能夠?qū)σ来骊P(guān)系標(biāo)注結(jié)果有一個(gè)準(zhǔn)確的評(píng)估,本文采用3 000句人工標(biāo)注的越南語(yǔ)依存樹作為實(shí)驗(yàn)數(shù)據(jù),其中前2 000句為訓(xùn)練語(yǔ)料,后1 000句為測(cè)試語(yǔ)料,通過分析標(biāo)注器的訓(xùn)練測(cè)試結(jié)果,發(fā)現(xiàn)標(biāo)注器的準(zhǔn)確率達(dá)到了89.4%。具體的實(shí)驗(yàn)結(jié)果如表4所示。對(duì)依存關(guān)系標(biāo)注器結(jié)果造成影響的因素主要包含兩方面:(1)SBAR、MDP、AP等短語(yǔ)在初步轉(zhuǎn)換時(shí)就發(fā)生了一些錯(cuò)誤,直接導(dǎo)致標(biāo)注器的準(zhǔn)確率下降;(2)訓(xùn)練語(yǔ)料不夠充足也是影響標(biāo)注質(zhì)量的原因之一。

      Table 4 Dependency annotation results表4 依存關(guān)系標(biāo)注結(jié)果

      4 實(shí)驗(yàn)

      4.1 實(shí)驗(yàn)數(shù)據(jù)集的準(zhǔn)備

      整個(gè)實(shí)驗(yàn)過程分為三部分來完成:第一步利用中心子節(jié)點(diǎn)過濾表的思想將短語(yǔ)結(jié)構(gòu)樹轉(zhuǎn)化為依存結(jié)構(gòu)樹,在這個(gè)過程中使用的訓(xùn)練語(yǔ)料是來自賓州樹庫(kù)中的9 000句短語(yǔ)結(jié)構(gòu)樹;第二步以轉(zhuǎn)化之后得到的越南語(yǔ)依存結(jié)構(gòu)樹作為基礎(chǔ)訓(xùn)練集,利用Malt-Parser和MSTParser工具分別進(jìn)行機(jī)器學(xué)習(xí)建模,進(jìn)而生成依存結(jié)構(gòu)樹模型;最后在這個(gè)模型的基礎(chǔ)上對(duì)越南語(yǔ)依存結(jié)構(gòu)樹進(jìn)行擴(kuò)展。為了保證實(shí)驗(yàn)數(shù)據(jù)的多樣性,在進(jìn)行依存結(jié)構(gòu)樹擴(kuò)展的過程中使用的語(yǔ)料如表5所示。表5展示的語(yǔ)料來自于越南國(guó)內(nèi)主要的新聞、百科、學(xué)術(shù)和娛樂等網(wǎng)站。同時(shí)對(duì)獲取的文本信息進(jìn)行處理,在每類文本中各自抽取5 000句,以500句作為一個(gè)子數(shù)據(jù)集。

      Table 5 Scale of Vietnamese dependency treebank expansion corpus表5 越南語(yǔ)依存樹庫(kù)擴(kuò)展語(yǔ)料規(guī)模

      4.2 評(píng)價(jià)方法

      對(duì)于句子依存句法分析的評(píng)測(cè)指標(biāo)主要是從兩方面考慮:依存弧準(zhǔn)確率(unlabeled attachment score,UAS)和標(biāo)識(shí)準(zhǔn)確率(labeled attachment score,LAS),對(duì)應(yīng)定義如下所示:

      4.3 短語(yǔ)結(jié)構(gòu)樹到依存結(jié)構(gòu)樹轉(zhuǎn)換實(shí)驗(yàn)結(jié)果分析

      為了準(zhǔn)確地評(píng)估出實(shí)驗(yàn)結(jié)果的準(zhǔn)確性,首先隨機(jī)選取一個(gè)含有1 000個(gè)越南語(yǔ)句子的子集,用已經(jīng)定義好的依存關(guān)系類型人工標(biāo)注這1 000個(gè)句子的依存關(guān)系。

      然后使用定義的樹庫(kù)轉(zhuǎn)換算法結(jié)合中心子節(jié)點(diǎn)過濾表將這些句子由短語(yǔ)結(jié)構(gòu)樹轉(zhuǎn)化為依存結(jié)構(gòu)樹。為了準(zhǔn)確地評(píng)估中心子節(jié)點(diǎn)過濾表以及轉(zhuǎn)換算法的準(zhǔn)確性,將初步得到的依存結(jié)構(gòu)樹與人工標(biāo)注的依存樹進(jìn)行依存關(guān)系的比對(duì)。得到的實(shí)驗(yàn)結(jié)果為初步轉(zhuǎn)換得到的依存樹的依存關(guān)系的準(zhǔn)確率達(dá)到了98.1%。為了能夠?qū)Ω鞣N短語(yǔ)類型初步轉(zhuǎn)換結(jié)果有一個(gè)準(zhǔn)確的把握,本文統(tǒng)計(jì)了短語(yǔ)結(jié)構(gòu)類型分類的轉(zhuǎn)換結(jié)果如表6所示。通過分析表6中的實(shí)驗(yàn)結(jié)果,可以發(fā)現(xiàn)對(duì)于大多數(shù)需要轉(zhuǎn)換的節(jié)點(diǎn)來講,轉(zhuǎn)換的準(zhǔn)確率是比較高的,總體的轉(zhuǎn)換準(zhǔn)確率也達(dá)到了97.6%。其中WHVP、MDP、SQ的準(zhǔn)確率比較低,這些錯(cuò)誤也會(huì)對(duì)轉(zhuǎn)換得到的依存樹庫(kù)的質(zhì)量有一定的影響。

      Table 6 Preliminary conversion results表6 初步轉(zhuǎn)換結(jié)果

      最后用轉(zhuǎn)換后得到的最終依存樹與人工標(biāo)注的依存樹作對(duì)比,得到了比較好的實(shí)驗(yàn)結(jié)果,其中依存弧準(zhǔn)確率達(dá)到了97.6%,標(biāo)識(shí)準(zhǔn)確率達(dá)到了89.4%。

      4.4 轉(zhuǎn)化樹庫(kù)再利用實(shí)驗(yàn)結(jié)果分析

      目前用于依存句法分析的工具主要包括:數(shù)據(jù)驅(qū)動(dòng)句法分析工具M(jìn)altParser,斯坦福句法分析工具StanfordParser,最大生成樹句法分析工具M(jìn)STParser等。MaltParser[15]是由Hall等人研究開發(fā)的比較實(shí)用的依存句法分析器,在句法分析中包含了兩個(gè)過程:訓(xùn)練過程和分析過程。在訓(xùn)練過程中采用的是支持向量機(jī)算法,在分析過程中采用的是transition-based算法。StanfordParser是斯坦福大學(xué)自然語(yǔ)言處理機(jī)構(gòu)研究開發(fā)的依存句法分析器;StanfordParser[16]基于賓州樹庫(kù)定義了53種英語(yǔ)依存關(guān)系,在英語(yǔ)的依存句法分析上取得了比較高的準(zhǔn)確率。MSTParser[17]是 Mcdonald等人研究開發(fā)的依存句法分析器,主要包括兩個(gè)過程:訓(xùn)練過程和分析過程。在訓(xùn)練過程中采用的是online算法,在分析過程中采用的是graphbased算法。這些分析器在目前大多數(shù)語(yǔ)言的依存句法分析上都取得了比較好的效果。

      在實(shí)驗(yàn)過程中,本文利用MaltParser、Stanford-Parser和MSTParser來訓(xùn)練并解析越南語(yǔ)依存樹,從而對(duì)越南語(yǔ)的依存樹進(jìn)行擴(kuò)展。所用語(yǔ)料來自于新聞、百科、學(xué)術(shù)和娛樂網(wǎng)站各5 000句,以500句作為一個(gè)小的數(shù)據(jù)集進(jìn)行訓(xùn)練。通過比對(duì)分析實(shí)驗(yàn)結(jié)果,挑選出進(jìn)行越南語(yǔ)依存句法分析的分析器為MSTParser,實(shí)驗(yàn)結(jié)果對(duì)比如表7所示。

      Table 7 Comparison of MaltParser and MSTParser on Vietnamese treebank expansion results表7 MaltParser與MSTParser越南語(yǔ)依存樹庫(kù)擴(kuò)展實(shí)驗(yàn)結(jié)果對(duì)比

      由表7可以看出:利用MSTParser進(jìn)行越南語(yǔ)依存樹庫(kù)訓(xùn)練和解析的實(shí)驗(yàn)結(jié)果為UAS=80.13%,LAS= 74.21%;StanfordParser進(jìn)行越南語(yǔ)依存樹庫(kù)訓(xùn)練和解析的實(shí)驗(yàn)結(jié)果為UAS=77.52%,LAS=69.83%;而MaltParser進(jìn)行越南語(yǔ)依存樹庫(kù)訓(xùn)練和解析的實(shí)驗(yàn)結(jié)果為UAS=78.38%,LAS=70.35%。通過對(duì)比發(fā)現(xiàn),在對(duì)于越南語(yǔ)依存句法分析方面,MSTParser的實(shí)用性更強(qiáng)。

      使用MSTParser對(duì)越南語(yǔ)進(jìn)行句法分析的詳細(xì)實(shí)驗(yàn)結(jié)果如表8所示。對(duì)于4類語(yǔ)料,采用隨機(jī)抽取的方式進(jìn)行實(shí)驗(yàn),每次從4類語(yǔ)料中抽取一個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。

      從表8的實(shí)驗(yàn)結(jié)果中會(huì)發(fā)現(xiàn),隨著測(cè)試語(yǔ)料的不斷增加,對(duì)于越南語(yǔ)依存樹的解析的準(zhǔn)確率也都有下降的趨勢(shì)。導(dǎo)致實(shí)驗(yàn)結(jié)果的準(zhǔn)確率并不是太高的原因主要包含兩方面:MSTParser并不是針對(duì)越南語(yǔ)的句法分析器,在進(jìn)行越南語(yǔ)依存句法分析時(shí)難免會(huì)出現(xiàn)偏差;同時(shí)也由于越南語(yǔ)語(yǔ)法規(guī)則的特殊性,雖然對(duì)中心子節(jié)點(diǎn)過濾表做出了改進(jìn),但依然存在不夠完善的地方,需要進(jìn)一步的改進(jìn)來提高對(duì)整個(gè)越南語(yǔ)句法分析的準(zhǔn)確率。

      Table 8 Accuracy of using MSTParser to extend Vietnamese dependency tree表8 利用MSTParser進(jìn)行越南語(yǔ)依存樹擴(kuò)展的準(zhǔn)確率

      5 結(jié)束語(yǔ)

      本文結(jié)合越南語(yǔ)的特點(diǎn)制定了中心子節(jié)點(diǎn)過濾表,同時(shí)利用已有的賓州樹庫(kù)的短語(yǔ)結(jié)構(gòu)樹庫(kù)的語(yǔ)料上進(jìn)行了實(shí)驗(yàn),使得越南語(yǔ)的樹庫(kù)轉(zhuǎn)換的準(zhǔn)確率達(dá)到了89.4%,很好地解決了越南語(yǔ)依存樹短缺的問題。同時(shí)本文也對(duì)越南語(yǔ)的依存樹做了進(jìn)一步的擴(kuò)展,利用MaltParser、StanfordParser和MSTParser進(jìn)行對(duì)比實(shí)驗(yàn),獲取更多的越南語(yǔ)依存樹庫(kù)。下一步,將轉(zhuǎn)換得到的依存結(jié)構(gòu)樹庫(kù)融入到通過雙語(yǔ)映射得到的越南語(yǔ)依存樹庫(kù)中,提高對(duì)越南語(yǔ)依存樹分析的準(zhǔn)確率,進(jìn)而促進(jìn)越南語(yǔ)機(jī)器翻譯的研究。

      [1]Bosco C,Lombardo V.Dependency and relational structure in treebank annotation[C]//Proceedings of the 20th International Conference on Computational Linguistics Workshop on Recent Advances in Dependency Grammar,Geneva, Switzerland,Aug 28-29,2004.Stroudsburg,USA:ACL,2004: 1-8.

      [2]Haji? J.Building a syntactically annotated corpus:the Prague dependency treebank[M]//Issues of Valency and Meaning. Prague:Karolinum Press,1998:106-132.

      [3]Sha F,Pereira F.Shallow parsing with conditional random fields[C]//Proceedings of the North American Chapter of the Association for Computational Linguistics on Human Language Technology,Edmonton,Canada,May 27-Jun 1, 2003.Stroudsburg,USA:ACL,2003:134-141.

      [4]Collins M.Three generative,lexicalised models for statistical parsing[C]//Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and 8th Conference of the European Chapter of the Association for Computational Linguistics,Madrid,Spain,Jul 7-12,1997.Stroudsburg,USA:ACL,1997:16-23.

      [5]Nguyen P T,Vu X L,Nguyen T M H,et al.Building a large syntactically-annotated corpus of Vietnamese[C]//Proceedings of the 3rd Linguistic Annotation Workshop,Singapore, Aug 6-7,2009.Stroudsburg,USA:ACL,2009:182-185.

      [6]Ph??ng L H,Huyên N T M,Roussanaly A,et al.A hybrid approach to word segmentation of Vietnamese texts[C]// LNCS 5196:Proceedings of the 2nd International Conference on Language and Automata Theory and Applications, Tarragona,Spain,Mar 13-19,2008.Berlin,Heidelberg:Springer, 2008:240-249.

      [7]Magerman D M.Natural language parsing as statistical pattern recognition[R].Stanford University,1994.

      [8]Collins M J.Head-driven statistical models for natural language parsing[J].Computational Linguistics,2006,29(4): 589-637.

      [9]Yamada H,Matsumoto Y.Statistical dependency analysis with support vector machines[C]//Proceedings of the 8th International Workshop on Parsing Technologies,Nancy,France, 2003:195-206.

      [10]Nivre J,Scholz M.Deterministic dependency parsing of English text[C]//Proceedings of the 20th International Conference on Computational Linguistics,Geneva,Switzerland,Aug 23-27,2004.Stroudsburg,USA:ACL,2004.

      [11]Xia Fei,Palmer M.Converting dependency structures to phrase structures[C]//Proceedings of the 1st International Conference on Human Language Technology Research, San Diego,USA,Mar 18-21,2001.Stroudsburg,USA:ACL, 2001:1-5.

      [12]?abokrtsky Z,Smr? O.Arabic syntactic trees:from constituency to dependency[C]//Proceedings of the 10th Conference on European Chapter of the Association for Computational Linguistics,Budapest,Hungary,Apr 12-17,2003. Stroudsburg,USA:ACL,2003:183-186.

      [13]Ph??ng L H,Roussanaly A,Huyên N T M,et al.An empirical study of maximum entropy approach for part-of-speechtagging of Vietnamese texts[C]//Proceedings of the 17th Conference on Natural Language Processing,Montreal, Canada,Jul 19-23,2010.

      [14]Ph??ng L H,Nguyen T M H,Nguyen P T,et al.Automated extraction of tree adjoining grammars from a treebank for Vietnamese[C]//Proceedings of the 10th International Conference on Tree Adjoining Grammars and Related Formalisms,New Haven,USA,Jun 10-12,2010.Stroudsburg,USA: ACL,2010:165-173.

      [15]Nivre J,Hall J,Nilsson J,et al.Labeled pseudo-projective dependency parsing with support vector machines[C]//Proceedings of the 10th Conference on Computational Natural Language Learning,New York,Jun 8-9,2006.Stroudsburg, USA:ACL,2006:221-225.

      [16]McDonald R,Lerman K,Pereira F.Multilingual dependency analysis with a two-stage discriminative parser[C]//Proceedings of the 10th Conference on Computational Natural Language Learning,New York,Jun 8-9,2006.Stroudsburg, USA:ACL,2006:216-220.

      [17]Mcdonald R,Crammer K,Pereira F.Online large-margin training of dependency parsers[C]//Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics,Ann Arbor,USA,Jun 25-30,2005.Stroudsburg,USA: ACL,2005:91-98.

      LI Ying was born in 1991.She is an M.S.candidate at Kunming University of Science and Technology.Her research interests include natural language processing and syntactic analysis,etc.

      李英(1991—),女,河南信陽(yáng)人,昆明理工大學(xué)碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理,句法分析等。

      GUO Jianyi was born in 1964.She received the M.S.degree from Xi'an Jiaotong University in 1990.Now she is a professor and M.S.supervisor at Kunming University of Science and Technology,and the member of CCF.Her research interests include natural language processing,information extraction,machine learning and pattern recognition,etc.

      郭劍毅(1964—),女,河南偃師人,1990年于西安交通大學(xué)獲得碩士學(xué)位,現(xiàn)為昆明理工大學(xué)教授、碩士生導(dǎo)師,CCF會(huì)員,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理,信息抽取,機(jī)器學(xué)習(xí),模式識(shí)別等。

      YU Zhengtao was born in 1970.He received the Ph.D.degree from School of Computer Science,Beijing Institute of Technology in 2005.Now he is a professor and Ph.D.supervisor at Kunming University of Science and Technology,and the senior member of CCF.His research interests include natural language processing,information retrieval, machine translation and machine learning,etc.

      余正濤(1970—),男,云南曲靖人,2005年于北京理工大學(xué)獲得博士學(xué)位,現(xiàn)為昆明理工大學(xué)教授、博士生導(dǎo)師,CCF高級(jí)會(huì)員,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理,信息檢索,機(jī)器翻譯,機(jī)器學(xué)習(xí)等。

      MAO Cunli was born in 1977.He received the Ph.D.degree in computer science from Kunming University of Science and Technology in 2013.His research interests include natural language processing,information retrieval,machine translating and machine learning,etc.

      毛存禮(1977—),男,2013年于昆明理工大學(xué)獲得博士學(xué)位,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理,信息檢索,機(jī)器翻譯,機(jī)器學(xué)習(xí)等。

      XIAN Yantuan was born in 1981.He received the M.S.degree in pattern recognition and intelligent system from Shenyang Institute of Automation,Chinese Academy of Sciences in 2006.Now he is a Ph.D.candidate at Kunming University of Science and Technology.His research interests include natural language processing,information extraction,machine translation and machine learning,etc.

      線巖團(tuán)(1981—),男,2006年于中國(guó)科學(xué)院沈陽(yáng)自動(dòng)化研究所獲得碩士學(xué)位,現(xiàn)為昆明理工大學(xué)博士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理,信息抽取,機(jī)器翻譯,機(jī)器學(xué)習(xí)等。

      Constituent-to-Dependency Conversion for Vietnamese*

      LI Ying1,GUO Jianyi1,2+,YU Zhengtao1,2,MAO Cunli1,2,XIAN Yantuan1,2
      1.School of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650500,China
      2.Key Laboratory of Intelligent Information Processing,Kunming University of Science and Technology,Kunming 650500,China
      +Corresponding author:E-mail:gjade86@hotmail.com

      Dependency parsing is a key part of the natural language processing.Currently,there are some researches on Vietnamese phrase structure trees,but few on dependency structure treebank.This paper proposes a novel method, which combines the Vietnamese language features and grammatical features,uses the head percolation table as well as statistical machining learning method to convert the Vietnamese phrase structure treebank into a dependency one. Firstly,according to Chinese dependency annotation system and Vietnamese grammar rules,a list of dependencies are developed;Secondly,integrating the characteristics of Vietnamese language,the head percolation table is worked out;Thirdly,using the head percolation table to carry out preliminary conversion;Finally,using dependency tagger to tag dependency.Vietnamese dependency structure treebank increases by training converted treebank with MSTParser tool.The precision of conversion reaches 89.4%.The experimental results show that the proposed method gives a better solution of converting constituent-to-dependency treebank for Vietnamese.

      10.3778/j.issn.1673-9418.1603057

      A

      TP391

      *The National Natural Science Foundation of China under Grant Nos.61262041,61363044,61472168(國(guó)家自然科學(xué)基金);the Key Project of Natural Science Foundation of Yunnan Province under Grant No.2013FA030(云南省自然科學(xué)基金重點(diǎn)項(xiàng)目).

      Received 2016-02,Accepted 2016-04.

      CNKI網(wǎng)絡(luò)優(yōu)先出版:2016-04-19,http://www.cnki.net/kcms/detail/11.5602.TP.20160419.1144.010.html

      LI Ying,GUO Jianyi,YU Zhengtao,et al.Constituent-to-dependency conversion for Vietnamese.Journal of Frontiers of Computer Science and Technology,2017,11(4):599-607.

      Key words:syntactic analysis;head percolation table;phrase structure;dependency structure;treebank

      猜你喜歡
      越南語(yǔ)語(yǔ)料短語(yǔ)
      納蘇彝語(yǔ)越南語(yǔ)親屬稱謂特征及其文化內(nèi)涵異同研究
      基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
      漢語(yǔ)經(jīng)歷體標(biāo)記“過”及其在越南語(yǔ)中的對(duì)應(yīng)形式
      現(xiàn)代漢語(yǔ)與越南語(yǔ)存在句否定形式與情態(tài)特征的比較研究
      華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
      《苗防備覽》中的湘西語(yǔ)料
      國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
      漢語(yǔ)介詞“跟”和越南語(yǔ)介詞“voi”的異同
      新蔡县| 通渭县| 田东县| 蒲江县| 田林县| 上饶市| 峡江县| 渝中区| 大埔区| 玛纳斯县| 武平县| 平罗县| 琼结县| 昔阳县| 彭水| 江门市| 山东省| 河东区| 澄迈县| 阿坝| 吴江市| 霍城县| 开平市| 务川| 嵊州市| 集安市| 如皋市| 文山县| 钟山县| 宜川县| 镇远县| 海阳市| 阿鲁科尔沁旗| 南靖县| 桑日县| 孝义市| 贵港市| 巴塘县| 抚远县| 上犹县| 呼图壁县|