• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于合一句法和實(shí)體語(yǔ)義樹(shù)的中文語(yǔ)義關(guān)系抽取

      2010-06-19 06:25:42虞歡歡錢(qián)龍華周?chē)?guó)棟朱巧明
      中文信息學(xué)報(bào) 2010年5期
      關(guān)鍵詞:語(yǔ)料庫(kù)實(shí)體語(yǔ)義

      虞歡歡,錢(qián)龍華,周?chē)?guó)棟,朱巧明

      (1.蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006;2.江蘇省計(jì)算機(jī)信息處理技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州 215006)

      1 引言

      信息抽取(IE,Information Extraction)是自然語(yǔ)言處理領(lǐng)域的一個(gè)熱門(mén)研究課題,旨在解決如何從大量的自然語(yǔ)言文本(如Web網(wǎng)頁(yè))中識(shí)別出相關(guān)信息,然后轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)起來(lái)。根據(jù)ACE對(duì)目前信息抽取定義的任務(wù)看,信息抽取主要包括實(shí)體識(shí)別和跟蹤(EDT,Entity Detection and Tracking)、關(guān)系識(shí)別和描述(RDC,Relation Detection and Characterization)以及事件識(shí)別和描述(EDC,Event Detection and Characterization)三個(gè)方面的子任務(wù)。本文的研究重點(diǎn)是關(guān)系識(shí)別和描述,也就是通常所指的命名實(shí)體間語(yǔ)義關(guān)系抽取,有時(shí)候簡(jiǎn)稱(chēng)為語(yǔ)義關(guān)系抽取。

      目前主流的語(yǔ)義關(guān)系抽取方法主要是基于機(jī)器學(xué)習(xí)的有指導(dǎo)方法。根據(jù)關(guān)系實(shí)例的表示方法,它又可分為基于特征向量的方法和基于核函數(shù)的方法。

      典型的基于特征向量的方法包括在英文語(yǔ)料庫(kù)上的最大熵模型(MaxEnt)[1]和支持向量機(jī)(SVM)[2-4]等。在中文語(yǔ)義關(guān)系抽取方面,車(chē)萬(wàn)翔等[5]提取了實(shí)體的類(lèi)型/小類(lèi)、實(shí)體間的位置關(guān)系、實(shí)體前后的詞匯等信息,然后采用SVM方法進(jìn)行訓(xùn)練和分類(lèi)。在ACE RDC 2004中文語(yǔ)料庫(kù)上的七個(gè)大類(lèi)的關(guān)系抽取實(shí)驗(yàn)表明,其最好的F指數(shù)達(dá)到了73.3。董靜等[6]則進(jìn)一步將關(guān)系實(shí)例劃分為包含關(guān)系和非包含關(guān)系,并在詞匯、實(shí)體類(lèi)型和相對(duì)位置等特征的基礎(chǔ)上對(duì)非包含關(guān)系再加入句法結(jié)構(gòu)信息(如兩個(gè)實(shí)體的祖先結(jié)點(diǎn)、實(shí)體之間的路徑、依存動(dòng)詞及實(shí)體到依存動(dòng)詞的路徑等)。采用條件隨機(jī)場(chǎng)(CRF,Conditional Random Fields)方法在ACE RDC 2007中文語(yǔ)料庫(kù)上的關(guān)系抽取測(cè)試中,最佳F指數(shù)達(dá)到了65.8。文獻(xiàn)[7]則進(jìn)一步探索了實(shí)體間的結(jié)構(gòu)關(guān)系(如包含關(guān)系、鄰近關(guān)系和分隔關(guān)系等)對(duì)抽取性能的影響,同時(shí)采用基于字的一元或二元上下文特征以避免中文分詞錯(cuò)誤所帶來(lái)的問(wèn)題。基于特征向量的方法盡管速度很快,然而由于實(shí)體間語(yǔ)義關(guān)系表達(dá)的復(fù)雜性和可變性,要抽取出新的詞匯、句法或語(yǔ)義特征從而進(jìn)一步提高關(guān)系抽取的性能已經(jīng)很困難了。

      另一方面,由于核方法可以充分利用特征方法無(wú)法表示的結(jié)構(gòu)化信息,因此在語(yǔ)義關(guān)系抽取方面獲得了廣泛的應(yīng)用,如淺層句法樹(shù)核[8]、依存樹(shù)核[9]、最短路徑依存樹(shù)核[10]、卷積樹(shù)核[11-13]。在中文語(yǔ)義關(guān)系抽取方面,文獻(xiàn)[14-15]分別采用編輯距離核函數(shù)和字符串核函數(shù)來(lái)比較中文詞串的相似度,并在比較過(guò)程中考慮了一定的詞匯語(yǔ)義相似度,在少量關(guān)系種類(lèi)的抽取實(shí)驗(yàn)中取得了不錯(cuò)的性能。文獻(xiàn)[16]初步探索了卷積樹(shù)核函數(shù)和最短依存樹(shù)核函數(shù)在中文語(yǔ)義關(guān)系抽取中的應(yīng)用,不過(guò)在ACE RDC 2007中文語(yǔ)料庫(kù)上的大類(lèi)關(guān)系抽取測(cè)試結(jié)果表明,其性能極低(F指數(shù)約為30)。當(dāng)然,這并不說(shuō)明核方法本身存在問(wèn)題,而只能說(shuō)明在中文關(guān)系抽取中較難找到能合理和確切表示語(yǔ)義關(guān)系的結(jié)構(gòu)化信息以及結(jié)構(gòu)化信息的相似度計(jì)算方法??偟膩?lái)說(shuō),在中文語(yǔ)義關(guān)系抽取的研究中,由于是研究人員采用的語(yǔ)料庫(kù)、所抽取的關(guān)系類(lèi)別及實(shí)驗(yàn)方法等方面的不同,往往難于判斷抽取方法本身的好壞。

      受卷積樹(shù)核函數(shù)在英文領(lǐng)域的關(guān)系抽取中的成功[13]所啟發(fā),本文深入探討了卷積樹(shù)核函數(shù)在中文語(yǔ)義關(guān)系抽取中的有效性問(wèn)題。在采用最短路徑包含樹(shù)來(lái)表示關(guān)系實(shí)例的基礎(chǔ)上,進(jìn)一步加入實(shí)體類(lèi)型、引用類(lèi)型、GPE角色等與實(shí)體相關(guān)的語(yǔ)義信息,從而生成合一句法和實(shí)體語(yǔ)義關(guān)系樹(shù)。在ACE RDC 2005基準(zhǔn)語(yǔ)料上的測(cè)試表明,該方法能顯著提高中文語(yǔ)義關(guān)系抽取系統(tǒng)的性能,實(shí)驗(yàn)結(jié)果與原型系統(tǒng)相比有了明顯的提高。

      2 基于合一句法和實(shí)體語(yǔ)義樹(shù)的中文語(yǔ)義關(guān)系抽取

      本節(jié)首先介紹了關(guān)系實(shí)例的結(jié)構(gòu)化實(shí)例表示方法,然后描述了合一句法和實(shí)體語(yǔ)義樹(shù)的構(gòu)造方法,最后說(shuō)明本文所使用的樹(shù)相似度計(jì)算方法—卷積樹(shù)核函數(shù)。

      2.1 結(jié)構(gòu)化關(guān)系實(shí)例表示方法

      在語(yǔ)義關(guān)系抽取中最先可用的結(jié)構(gòu)化信息是最小完全句法樹(shù)(Minimum Complete Tree,MCT),即在完全句法樹(shù)中包含關(guān)系的兩個(gè)實(shí)體且未作任何修改的最小部分,如圖1(左)。MCT雖然包含了豐富的結(jié)構(gòu)化信息,有利于語(yǔ)義關(guān)系的抽取,但是對(duì)于關(guān)系的識(shí)別而言,由于其規(guī)模過(guò)于龐大,且包含了太多的與語(yǔ)義關(guān)系無(wú)關(guān)的噪音,并不適合于基于卷積樹(shù)核函數(shù)的語(yǔ)義關(guān)系抽取。

      為了尋找更合適的用于語(yǔ)義關(guān)系抽取的結(jié)構(gòu)化信息,Zhang等[11]中提出了五種句法樹(shù)的擴(kuò)展方法,其中最短路徑包含樹(shù)(Shortest Path-Enclosed Tree,簡(jiǎn)稱(chēng)PT)結(jié)構(gòu)取得的效果最好。這種樹(shù)是以?xún)蓚€(gè)實(shí)體的最近公共父節(jié)點(diǎn)為根,并裁剪掉第一個(gè)實(shí)體左邊和第二個(gè)實(shí)體右邊的所有節(jié)點(diǎn)后所生成的樹(shù),如圖1(右)。雖然對(duì)于英文語(yǔ)義關(guān)系抽取而言,上下文相關(guān)的最短路徑包含樹(shù)[12]和基于依存規(guī)則的動(dòng)態(tài)關(guān)系樹(shù)[13]取得了更好的性能,但是為了便于驗(yàn)證卷積樹(shù)核在中文語(yǔ)義關(guān)系抽取中的作用,本文仍按照最短路徑包含樹(shù)(PT)結(jié)構(gòu)進(jìn)行對(duì)最小完全樹(shù)進(jìn)行裁剪。

      其中MCT樹(shù)和PT樹(shù)是句子“…記者滯留在機(jī)場(chǎng)…”兩個(gè)實(shí)體“記者”和“機(jī)場(chǎng)”之間的關(guān)系實(shí)例的兩種不同表示形式。MCT表示以關(guān)系兩個(gè)實(shí)體的公共父節(jié)點(diǎn)為根節(jié)點(diǎn)并包含兩個(gè)實(shí)體的最小完全樹(shù),PT表示最短路徑包含樹(shù)。

      圖1 一個(gè)關(guān)系實(shí)例的最短路徑包含樹(shù)(PT)表示形式

      2.2 合一句法和實(shí)體語(yǔ)義樹(shù)

      根據(jù)ACE的定義,實(shí)體語(yǔ)義特征(如GPE,引用類(lèi)型①GPE:Geo-Political Entity,實(shí)體的GPE角色(GPE-role)信息主要針對(duì)GPE類(lèi)別的實(shí)體,它反映了在實(shí)體的提及中實(shí)體究竟扮演人物、組織、設(shè)施、GPE中何種角色。引用類(lèi)型:一個(gè)實(shí)體可以通過(guò)名稱(chēng)來(lái)引用,也可以通過(guò)名詞性詞語(yǔ)或代詞來(lái)引用。因此實(shí)引用類(lèi)型可分為名稱(chēng)、名詞性詞語(yǔ)和代詞等三種方式。等)對(duì)實(shí)體間的語(yǔ)義關(guān)系具有很強(qiáng)的約束作用。大多數(shù)的基于卷積樹(shù)核的關(guān)系抽取方法[11-12]都采用復(fù)合核函數(shù)來(lái)集成結(jié)構(gòu)化信息和實(shí)體語(yǔ)義信息,因此需要確定兩者之間的復(fù)合系數(shù),該復(fù)合系數(shù)的最佳值通常采用交叉驗(yàn)證的方法來(lái)確定。為了避免這一問(wèn)題,本文將實(shí)體語(yǔ)義信息作為與結(jié)構(gòu)化信息一樣重要的部分合并到結(jié)構(gòu)化句法信息,即PT樹(shù)中。

      實(shí)體語(yǔ)義信息結(jié)合到PT樹(shù)中的方法有很多,可以把兩個(gè)實(shí)體各自屬性組合加在實(shí)體節(jié)點(diǎn)(E1或E2)上,也可以把屬性作為一個(gè)子節(jié)點(diǎn)掛在實(shí)體節(jié)點(diǎn)(E1或E2)下面,還可以像圖2(右)中那樣把兩個(gè)實(shí)體的屬性作為根節(jié)點(diǎn)的子節(jié)點(diǎn)依次掛在根節(jié)點(diǎn)下面。在ACE RDC 2004英文語(yǔ)料庫(kù)上的實(shí)驗(yàn)表明[13],當(dāng)屬性節(jié)點(diǎn)掛在樹(shù)的根節(jié)點(diǎn)下面時(shí)取得的性能最佳,因此本文在默認(rèn)情況下采用這種配置。同時(shí),文獻(xiàn)[13]探討了屬性節(jié)點(diǎn)之間相結(jié)合的不同方法:特征列表樹(shù)(Bag Of Features,BOF)、特征匹配樹(shù)(Feature-Paired T ree,FPT)和實(shí)體匹配樹(shù)(Entity-Paired T ree,EPT),其中FPT樹(shù)取得的效果最好。本文將FPT樹(shù)加到PT樹(shù)的根節(jié)點(diǎn)上,形成了合一句法和實(shí)體語(yǔ)義樹(shù)(Unified Parse and Entity Semantic T ree,UPEST),如圖2(右)。合一句法和實(shí)體關(guān)系樹(shù)不僅包含了必要的結(jié)構(gòu)化句法信息,還集成了多種與實(shí)體相關(guān)的語(yǔ)義信息,從而試圖同時(shí)捕獲關(guān)系實(shí)例的結(jié)構(gòu)化信息和實(shí)體語(yǔ)義信息。

      圖2 合一句法和實(shí)體語(yǔ)義樹(shù)(UPEST)的形成

      2.3 卷積樹(shù)核函數(shù)

      在確定了關(guān)系實(shí)例的結(jié)構(gòu)化表示方法之后,接下來(lái)就要解決結(jié)構(gòu)樹(shù)之間的相似度計(jì)算問(wèn)題。Collins和 Duffy[17]的卷積樹(shù)核函數(shù)(Convolution Tree Kernel,CTK),為樹(shù)之間的結(jié)構(gòu)相似度計(jì)算提供了一個(gè)合理的方法,在句法分析、語(yǔ)義角色標(biāo)注和關(guān)系抽取等領(lǐng)域中取得了廣泛的應(yīng)用。所謂卷積樹(shù)核函數(shù),即通過(guò)計(jì)算樹(shù)之間的相同子樹(shù)的數(shù)目來(lái)衡量?jī)煽脴?shù)之間的結(jié)構(gòu)相似度,其計(jì)算公式為:

      其中 N1和 N2分別為 T1和 T2的節(jié)點(diǎn)集合,Δ(n1,n2)用來(lái)計(jì)算以n1和n2為根節(jié)點(diǎn)的兩棵子樹(shù)之間的相似度,它可以通過(guò)下列遞歸的方法得出:

      1)如果n1和n2的產(chǎn)生式(采用上下文無(wú)關(guān)文法)不同,則 Δ(n1,n2)=0;否則轉(zhuǎn) 2);

      2)如果n1和 n2是詞性(POS)標(biāo)記,則 Δ(n1,n2)=1×λ;否則轉(zhuǎn)3);

      3)遞歸計(jì)算 Δ(n1,n2)

      其中ch(n)是節(jié)點(diǎn)n的子節(jié)點(diǎn)數(shù)目,ch(n,k)是節(jié)點(diǎn)n的第k個(gè)子節(jié)點(diǎn),而λ(0<λ<1)則是衰減因子,用來(lái)防止子樹(shù)的相似度過(guò)度依賴(lài)于子樹(shù)的大小。

      3 實(shí)驗(yàn)設(shè)置及結(jié)果分析

      本節(jié)首先說(shuō)明實(shí)驗(yàn)所使用的語(yǔ)料庫(kù)及相應(yīng)的實(shí)驗(yàn)方法,然后對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行討論和分析。

      3.1 實(shí)驗(yàn)設(shè)置

      數(shù)據(jù)集:我們使用ACE RDC 2005中文基準(zhǔn)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。ACE 2005語(yǔ)料庫(kù)中包含633篇文檔,其中 BNEWS有 238篇,NWIRE有 298篇,WEBLOG有97篇。我們對(duì)這些文檔進(jìn)行了預(yù)處理,由于其中一些文章中的單句字?jǐn)?shù)過(guò)多或語(yǔ)法不規(guī)范等原因過(guò)濾掉了101篇,最終從中選取了532個(gè)文檔,總共有關(guān)系正例7630 個(gè),負(fù)例83063 個(gè)。ACE 2005數(shù)據(jù)集里總共定義了7大類(lèi)實(shí)體類(lèi)型(Person,Organization,Location,Geo-Political Entity,Facility,Vehicle,Weapon),6個(gè)關(guān)系大類(lèi)(PH YS,PER-SOC,PART-WHOLE,ORG-AFF,ART,GEN-AFF)和36個(gè)關(guān)系子類(lèi)。在本文中,我們假定實(shí)體及其相應(yīng)的語(yǔ)義特征均已知,而且出現(xiàn)在同一個(gè)句子里的所有實(shí)體對(duì)都被視作潛在的關(guān)系實(shí)例進(jìn)行抽取。

      實(shí)驗(yàn)預(yù)處理:從 ACE RDC 2005語(yǔ)料庫(kù)的SGM文件中提取純文本,并對(duì)其進(jìn)行分句、分詞、句法分析,然后再?gòu)腁pf.xml文件中提取實(shí)體和關(guān)系信息添加到句法分析樹(shù)中。

      分類(lèi)器的訓(xùn)練和測(cè)試速度的優(yōu)化:基于卷積樹(shù)核函數(shù)的方法存在著訓(xùn)練和測(cè)試速度慢的問(wèn)題(初步實(shí)驗(yàn)表明在單個(gè)數(shù)據(jù)集上運(yùn)行的時(shí)間將近39個(gè)小時(shí))。鑒于此,本文采用路徑長(zhǎng)度截?cái)嗟姆椒╗18]來(lái)減少訓(xùn)練實(shí)例數(shù),即在構(gòu)造SVM訓(xùn)練集時(shí),去除路徑長(zhǎng)度大于等于某一長(zhǎng)度l的所有正例和負(fù)例,但保留SVM測(cè)試集中的所有實(shí)例;接著在此訓(xùn)練集上得到分類(lèi)模型;在測(cè)試時(shí),對(duì)于所有路徑長(zhǎng)度大于等于l的實(shí)例均自動(dòng)判斷為無(wú)關(guān)系。所謂路徑長(zhǎng)度即該路徑上的語(yǔ)法成分節(jié)點(diǎn)數(shù)(除去實(shí)體節(jié)點(diǎn)本身)。例如在圖1的句法樹(shù)中,“E1”和“E2”的路徑節(jié)點(diǎn)長(zhǎng)度就為6。初步實(shí)驗(yàn)結(jié)果表明,當(dāng)截?cái)嚅L(zhǎng)度l為9時(shí),訓(xùn)練集大大減小了,單個(gè)數(shù)據(jù)集的訓(xùn)練和測(cè)試時(shí)間縮短為2小時(shí)左右,而抽取性能與截?cái)嘀跋啾然疽恢隆?/p>

      分類(lèi)器:本文實(shí)驗(yàn)中選用支持卷積樹(shù)核的SVM分類(lèi)器SVMLight-TK(Moschitti 2004)①http://download.joachims.org/svm_light/current/svm_light.tar.gz并采用五倍交叉驗(yàn)證的方法計(jì)算平均性能。

      評(píng)價(jià)方法:采用召回率(R),精確率(P)和F值(F)的方式評(píng)價(jià)系統(tǒng)的抽取性能。

      3.2 實(shí)驗(yàn)結(jié)果及分析

      我們首先比較不同的實(shí)體語(yǔ)義特征對(duì)中文語(yǔ)義關(guān)系抽取的影響。如圖2所示,在PT樹(shù)的根節(jié)點(diǎn)下面按照潛在重要性的順序加入各個(gè)實(shí)體語(yǔ)義特征節(jié)點(diǎn)。為了體現(xiàn)單一實(shí)體語(yǔ)義特征對(duì)語(yǔ)義關(guān)系抽取的影響,我們采用兩種方法加入語(yǔ)義特征:

      ?獨(dú)立方式:每個(gè)語(yǔ)義特征單獨(dú)加入到PT樹(shù)中;

      ?累加方式:每個(gè)語(yǔ)義特征依次加入到PT樹(shù)中,并根據(jù)加入后的性能變化來(lái)確定是否保留該特征到下一步,這樣最后就形成了合一句法和實(shí)體語(yǔ)義樹(shù)。

      表1列出了每一步過(guò)程得到的關(guān)系探測(cè)和大類(lèi)關(guān)系抽取的性能指標(biāo),其中括號(hào)外的表示獨(dú)立方式的性能,括號(hào)內(nèi)的表示累加方式的性能。特征前面的“+”表明該特征是有效的并且該特征加入到下一輪的關(guān)系抽取中。實(shí)驗(yàn)表明,含有實(shí)體小類(lèi)特征、大類(lèi)特征、GPE角色和實(shí)體類(lèi)別的合一句法和實(shí)體語(yǔ)義樹(shù)在關(guān)系探測(cè)和關(guān)系抽取中取得了最高的性能,其F值分別為71.7和67.0,這說(shuō)明基于合一句法和實(shí)體語(yǔ)義樹(shù)的中文語(yǔ)義關(guān)系抽取是行之有效,同時(shí)它還表明:

      表1 實(shí)體語(yǔ)義特征對(duì)抽取性能的影響

      ?在PT樹(shù)的基礎(chǔ)上單獨(dú)添加實(shí)體小類(lèi)、實(shí)體大類(lèi)屬性和GPE角色等特征后,關(guān)系抽取性能提升很明顯,其F值分別提高了12.1,10.8,2.4,這說(shuō)明在ACE 2005語(yǔ)料庫(kù)上定義的實(shí)體大類(lèi)和小類(lèi)信息對(duì)關(guān)系抽取非常重要,同時(shí)GPE角色也對(duì)關(guān)系類(lèi)型具有很好的指示作用。我們還進(jìn)一步發(fā)現(xiàn)實(shí)體子類(lèi)特征對(duì)中文關(guān)系抽取性能的影響要大于實(shí)體大類(lèi)特征,這是因?yàn)閷?shí)體子類(lèi)特征對(duì)PART-WHOLE類(lèi)的逆向關(guān)系、ART類(lèi)以及GEN-AFF類(lèi)的逆向關(guān)系等關(guān)系類(lèi)別的約束性較實(shí)體大類(lèi)特征更強(qiáng),而這幾類(lèi)在整個(gè)語(yǔ)料庫(kù)中占了很大的比重(約46%);

      ?在PT樹(shù)上單獨(dú)添加入引用類(lèi)型、LDC類(lèi)型,LDC屬性,實(shí)體類(lèi)別后,對(duì)系統(tǒng)的性能不但沒(méi)有提升,性能反而有所下降,這說(shuō)明這些信息要么是過(guò)于稀疏(如實(shí)體的提及)要么是過(guò)于籠統(tǒng)(如實(shí)體類(lèi)別等),以至于對(duì)關(guān)系類(lèi)型的區(qū)分沒(méi)有有益的幫助;

      ?在累加方式中,實(shí)體小類(lèi)、實(shí)體大類(lèi)、GPE角色和實(shí)體類(lèi)別等特征對(duì)系統(tǒng)的性能都有提升作用,F值在上一輪的基礎(chǔ)上分別提高了12.1,0.5,0.2,0.5,而其他三種特征對(duì)系統(tǒng)性能沒(méi)有任何提升作用。比較特殊的是實(shí)體類(lèi)別特征,當(dāng)以獨(dú)立方式加入時(shí)對(duì)性能沒(méi)有提高,而在累加方式中同其他屬性一起加入時(shí)系統(tǒng)性能有所提高,這可能是由于實(shí)體類(lèi)別特征本身區(qū)分性不大,但同其特征結(jié)合組合起來(lái)就具有一定的區(qū)分性。

      為了進(jìn)一步分析實(shí)體語(yǔ)義信息對(duì)不同關(guān)系類(lèi)型的抽取性能的影響,表2按照關(guān)系類(lèi)型比較了最短路徑包含樹(shù)和合一句法和實(shí)體語(yǔ)義樹(shù)這兩種結(jié)構(gòu)化信息在ACE RDC 2005中文語(yǔ)料庫(kù)上的大類(lèi)抽取性能,其中合一句法和實(shí)體語(yǔ)義樹(shù)包含了能有效提高抽取性能的實(shí)體大類(lèi)、實(shí)體小類(lèi)、GPE角色和實(shí)體類(lèi)別等四個(gè)實(shí)體語(yǔ)義特征。由于語(yǔ)義關(guān)系往往是不對(duì)稱(chēng)的,因此每一種關(guān)系類(lèi)型又分為正向和逆向兩種(如 PHSY表示正向物理位置關(guān)系,而 R.PHSY則表示逆向物理位置關(guān)系)。

      表2 最短路徑包含樹(shù)和合一句法和實(shí)體語(yǔ)義樹(shù)的分類(lèi)比較

      續(xù)表

      從表2可以看出:

      ?在大部分關(guān)系類(lèi)型上,合一句法和實(shí)體語(yǔ)義樹(shù)的性能普遍好于PT樹(shù),這進(jìn)一步說(shuō)明了實(shí)體語(yǔ)義特征對(duì)改善關(guān)系抽取性能的作用,且對(duì)于不同的關(guān)系類(lèi)別,性能改善的幅度也不相同。如對(duì)于“R.PER-SOC”類(lèi)型,性能提高最明顯;而對(duì)于“GENAFF”類(lèi)型,則提高很少,這是由于實(shí)體語(yǔ)義特征(如實(shí)體類(lèi)型)對(duì)不同類(lèi)型語(yǔ)義關(guān)系的約束程度不同,因而效果也不一樣。同時(shí),合一句法和實(shí)體語(yǔ)義樹(shù)的F指數(shù)的提高主要來(lái)源于召回率的明顯上升和準(zhǔn)確率的小幅上升,這說(shuō)明實(shí)體語(yǔ)義信息的加入有助于發(fā)現(xiàn)更多的關(guān)系實(shí)例。

      ? 對(duì)于關(guān)系類(lèi)型“PER-SOC”,“PARTWHOLE”和“R.PART-WHOLE”,合一句法和實(shí)體語(yǔ)義樹(shù)的F指數(shù)要略低于PT樹(shù),這說(shuō)明對(duì)于這幾類(lèi)關(guān)系類(lèi)型,實(shí)體語(yǔ)義特征沒(méi)有明顯的區(qū)分作用,不過(guò)由于這幾類(lèi)關(guān)系實(shí)例占總體實(shí)例的比例較小(約28%),因此它們的性能少許下降并不影響總體性能的顯著改善。

      最后,表3比較了幾種在ACE語(yǔ)料庫(kù)上的中文語(yǔ)義關(guān)系抽取方法的大類(lèi)抽取性能,同時(shí)也列出目前在ACE英文語(yǔ)料庫(kù)上取得的最佳性能。需要說(shuō)明的是,由于中英文語(yǔ)料庫(kù)的差異,它們之間的性能比較僅作參考,因?yàn)榧词故窍嗤闹形恼Z(yǔ)料庫(kù),本系統(tǒng)過(guò)濾掉了一些實(shí)例,采用的是ACE RDC 2005部分語(yǔ)料,和Li等[7]所采用的訓(xùn)練實(shí)例數(shù)量和實(shí)驗(yàn)方法也不同。不過(guò),大體可以看出的是,基于樹(shù)核的實(shí)體關(guān)系抽取性能在中文和英文語(yǔ)料庫(kù)上還是存在一定差距的,一般認(rèn)為這是由于現(xiàn)階段中英文的句法分析性能存在較大差距(中文80%左右,英文90%以上)所導(dǎo)致的。另外一點(diǎn)可以肯定的是,同黃瑞紅等[19]采用卷積樹(shù)核方法在ACE 2007語(yǔ)料庫(kù)上的實(shí)驗(yàn)相比,在ACE 2005中文語(yǔ)料庫(kù)上的基于卷積樹(shù)核的方法是行之有效的,盡管離實(shí)用化還有一定的距離。

      表3 與其他關(guān)系抽取系統(tǒng)的性能比較

      4 總結(jié)與展望

      本文描述了采用合一句法和實(shí)體語(yǔ)義樹(shù)的中文語(yǔ)義關(guān)系抽取方法。通過(guò)實(shí)驗(yàn)我們發(fā)現(xiàn),合一句法和實(shí)體語(yǔ)義樹(shù)能有效捕獲實(shí)體的結(jié)構(gòu)化特征和實(shí)體語(yǔ)義特征,因而顯著提高了語(yǔ)義關(guān)系抽取的性能,在大類(lèi)抽取中最佳F值達(dá)到了67.0。具體而言,在句法樹(shù)上有針對(duì)性地添加實(shí)體語(yǔ)義信息,如實(shí)體小類(lèi)、實(shí)體大類(lèi)、GPE角色和實(shí)體類(lèi)別等,抽取性能得到明顯提高,其中實(shí)體子類(lèi)屬性的作用最大,其次是實(shí)體大類(lèi)屬性,GPE角色也有很好的指示作用。當(dāng)與其他屬性組合時(shí),實(shí)體類(lèi)別也能取得一定的效果。

      下一步我們要做的工作是對(duì)用于卷積樹(shù)核的最短路徑包含樹(shù)進(jìn)行改進(jìn),采用英文語(yǔ)義關(guān)系中較成熟的上下文相關(guān)的最短路徑包含樹(shù)[13]或基于成分依存關(guān)系的動(dòng)態(tài)關(guān)系樹(shù),從而進(jìn)一步中文語(yǔ)義關(guān)系抽取的性能。

      [1]Nanda Kambhatla.Combining lexical,syntactic and semantic features with Maximum Entropy models for extracting relations[C]//ACL.Morristown,NJ,USA,2004:178-181.

      [2]Zhou GuoDong,Su Jian,Zhang Jie,et al.Exploring various knowledge in relation extraction[C]//ACL,2005:427-434.

      [3]Zhao S.B.and Grishman R.Extracting relations with integrated information using kernel methods[C]//ACL.Ann Arbor,USA,2005:419-426.

      [4]Wang Ting,Li Yaoyong,Kalina Bontcheva,et al.Automatic Extraction of Hierarchical Relations from Text[C]// Proceedings of the Third European Semantic Web Conference(ESWC 2006),2006:401-416.

      [5]車(chē)萬(wàn)翔,劉挺,李生.實(shí)體關(guān)系自動(dòng)抽取[J].中文信息學(xué)報(bào),2005,19(2):1-6.

      [6]董靜,孫樂(lè),馮元勇,黃瑞紅.中文實(shí)體關(guān)系抽取中的特征選擇研究[J].中文信息學(xué)報(bào),2007:21(4):80-85,91.

      [7]Li W.J.,Zhang P.,Wei F.R.,Hou Y.X.,and Lu Q.A Novel Feature-based Approach to Chinese Entity Relation Extraction[C]//ACL.Columbus,Ohio,USA,2008:89-92.

      [8]Zelenko D,Aone C,Richardella A.Kernel methods for relation extraction [J].Journal of Machine Learning Research,2003,3(2003):1083-1106.

      [9]Culotta A,Sorensen J.Dependency tree kernels for relation extraction[C]//ACL.Barcelona,Spain,2004:423-429.

      [10]Bunescu R.C,Raymond J.M.A Shortest Path Dependency Kernel for Relation Extraction[C]//EM NLP.Vancover,B.C,2005:724-731..

      [11]Zhang M.,Zhang J.,Su J.,and Zhou G.D.A Composite Kernelto Extract Relations between Entities with both Flat and Structured Features[C]//COLING-ACL.Sydney,Australia,2006:825-832.

      [12]Zhou G.D.,Zhang M.,Ji D.H.,and Zhu Q.M.T ree Kernel-based Relation Extraction with Context-Sensitive Structured Parse T ree Information[C]//EMNLP/CoNLL'2007.Prague Czech,2007:728-736.

      [13]Qian L.H.,Zhou G.D.,Zhu Q.M.,et al.Exploiting constituent dependencies for tree kernel based semantic relation extraction[C]//COLING'2008.Manchester,UK,2008:697-704.

      [14]Che W.X.,Jiang,J.M.Su Z.,Pan Y.,and Liu T.Improved-Edit-Distance Kernel for Chinese Relation Extraction[C]//Proceedings of the 2nd international Joint Conference on Natural Language Processing(IJCNLP'05).Jeju Island,Korea,2005:134-139.

      [15]劉克彬,李芳,劉磊,韓穎.基于核函數(shù)中文關(guān)系自動(dòng)抽取系統(tǒng)的實(shí)現(xiàn)[J].計(jì)算機(jī)研究與發(fā)展,2007,44(8):1406-1411.

      [16]Huang R.H.,Sun L.,and Feng Y.Y.Study of Kernel-Based Methods for Chinese Relation Extraction[C]//LNCS(Lecture Notes in Computer Science).Springer Berlin/Heidelberg,2008:598-604.

      [17]Collins M.and Duffy N.Covolution kernels for natural language[C]//NIPS'2001:Cambridge,M A,2001:625-632.

      [18]莊成龍,錢(qián)龍華,周?chē)?guó)棟.基于樹(shù)核函數(shù)的實(shí)體語(yǔ)義關(guān)系抽取方法研究[J].中文信息學(xué)報(bào),2009,23(1):1-8.

      [19]黃瑞紅,孫樂(lè),馮元勇,黃云平.基于核方法的中文實(shí)體關(guān)系抽取研究[J].中文信息學(xué)報(bào),2008,22(5):102-108.

      猜你喜歡
      語(yǔ)料庫(kù)實(shí)體語(yǔ)義
      語(yǔ)言與語(yǔ)義
      《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
      前海自貿(mào)區(qū):金融服務(wù)實(shí)體
      實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
      兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
      振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
      把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
      “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
      基于JAVAEE的維吾爾中介語(yǔ)語(yǔ)料庫(kù)開(kāi)發(fā)與實(shí)現(xiàn)
      認(rèn)知范疇模糊與語(yǔ)義模糊
      棋牌| 治多县| 张家川| 青州市| 礼泉县| 墨玉县| 邯郸县| 南充市| 兴城市| 萍乡市| 太原市| 钟祥市| 上思县| 和林格尔县| 淳化县| 崇阳县| 于都县| 高安市| 巴楚县| 炉霍县| 德庆县| 香港 | 襄垣县| 任丘市| 白朗县| 左云县| 桦川县| 松阳县| 孝感市| 漳浦县| 邮箱| 股票| 邯郸市| 龙州县| 蓬安县| 古交市| 榕江县| 紫阳县| 开鲁县| 东乌| 基隆市|