胡亞楠,舒佳根,錢龍華,朱巧明
(蘇州大學(xué) 自然語言處理實驗室,江蘇 蘇州 215006; 蘇州大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
命名實體間語義關(guān)系抽取(簡稱實體關(guān)系抽取,或關(guān)系抽取)是自然語言處理(NLP)和信息抽取中的一個重要環(huán)節(jié),其任務(wù)是從自然語言文本中提取出兩個命名實體之間所存在的語義關(guān)系。例如,短語“我國 國際 機(jī)場”中的兩個實體“我國”(GPE.Special)和“機(jī)場”(FAC.Airport)之間存在的部分整體關(guān)系(PART-WHOLE.Geographical)。關(guān)系抽取對問題回答、文本摘要、信息融合和知識挖掘等自然語言處理應(yīng)用都具有重要的意義。
主流的關(guān)系抽取研究都采用機(jī)器學(xué)習(xí)的方法,根據(jù)其對標(biāo)注語料庫規(guī)模的不同需求,分為指導(dǎo)性學(xué)習(xí)[1-3]、弱指導(dǎo)學(xué)習(xí)[4]和無指導(dǎo)學(xué)習(xí)[5]等方法。標(biāo)注語料的數(shù)量和質(zhì)量通常決定了抽取性能的好壞,但語料的標(biāo)注費時費力,因此近幾年涌現(xiàn)出一種新的學(xué)習(xí)方法——自指導(dǎo)學(xué)習(xí)方法[6],其特點在于訓(xùn)練語料不是由人工標(biāo)注,而是通過將知識庫中存在的關(guān)系實例自動映射到自然語言相應(yīng)文本的方法來產(chǎn)生。不過,雖然它解決了語料的人工標(biāo)注問題,但由于產(chǎn)生的關(guān)系實例中存在著噪音,因此抽取性能尚不夠理想。
另一方面,目前存在著用多種語言標(biāo)注的關(guān)系抽取語料庫,例如,ACE 2005中的中文和英文語料庫,而不同的語言之間具有一定的相似性與互補(bǔ)性,因此是否可以用一種語言的標(biāo)注語料庫來幫助另一種語言的關(guān)系抽取呢?特別是當(dāng)一種語言的標(biāo)注語料資源較豐富,而另一種語言的標(biāo)注語料資源較貧乏時,這種幫助作用就顯得更為重要。
本文的思想是使用機(jī)器翻譯的方法,將關(guān)系實例從源語言翻譯為目標(biāo)語言,用于幫助目標(biāo)語言進(jìn)行關(guān)系抽取。由于跨語言關(guān)系抽取不僅涉及到實體和實例的翻譯,還涉及到源語言和目標(biāo)語言之間的實體對齊,因而與其他跨語言NLP任務(wù)[7]相比,更為復(fù)雜和困難。在ACE 2005中文和英文語料庫上的實驗表明,盡管機(jī)器翻譯過程中會帶來一定的噪音,但我們的方法仍能提高目標(biāo)語言(中文或英文)的關(guān)系抽取性能。特別是當(dāng)目標(biāo)語言的訓(xùn)練語料較少時,關(guān)系抽取性能的提高就尤為顯著。
本文的第2節(jié)回顧了相關(guān)工作。第3節(jié)介紹了本文使用的中英文關(guān)系抽取的特征集。第4節(jié)提出了基于機(jī)器翻譯的實例映射方法。第5節(jié)說明本文實驗所使用的語料及實驗設(shè)置,并給出實驗結(jié)果和分析。第6節(jié)為總結(jié)和展望。
在關(guān)系抽取研究方面,大量的研究都集中于單語言的關(guān)系抽取,英文方面典型的方法有基于特征的方法[1,8]和基于核函數(shù)的方法[9-10],中文方面也有這兩種方法的具體應(yīng)用[11-12]。
而在跨語言的關(guān)系抽取方面,相關(guān)研究工作還非常少。Kim等[7]提出了一種基于標(biāo)注映射的跨語言關(guān)系抽取方法,它將源語言訓(xùn)練得到的模型應(yīng)用到平行語料庫的源語言部分,那些識別出來的可靠性較高的源語言實例再映射到它們的目標(biāo)語言部分,從而得到目標(biāo)語言的訓(xùn)練實例,最后進(jìn)行目標(biāo)語言的關(guān)系檢測。Kim和Lee[13]則進(jìn)一步使用了一種基于圖的半監(jiān)督學(xué)習(xí)算法,即標(biāo)簽傳播算法,通過迭代方法將源語言中更多的上下文信息映射到目標(biāo)語言中,從而提高從源語言映射到目標(biāo)語言的關(guān)系實例數(shù)量和質(zhì)量。與他們的研究工作不同,我們使用機(jī)器翻譯方法對源語言中已標(biāo)注的關(guān)系實例進(jìn)行直接翻譯,而不是使用平行語料庫進(jìn)行實例映射。并且,我們對ACE語料庫進(jìn)行了通用關(guān)系的抽取,而不僅僅是關(guān)系檢測或少量關(guān)系類型的抽取。
除了機(jī)器翻譯本身,在自然語言處理的其他領(lǐng)域中,跨語言處理也獲得了廣泛的應(yīng)用。早期主要用于詞性標(biāo)注[14]、命名實體識別[15]和動詞分類[16]等簡單任務(wù),近期也逐漸被應(yīng)用到諸如依存分析[17]和語義角色標(biāo)注[18]等復(fù)雜任務(wù)中。其中,與我們工作有相似之處的是Oh等[4]提出的基于雙語協(xié)同訓(xùn)練的名詞上下位關(guān)系分類。該方法通過翻譯一種語言中可信度較高的名詞語義關(guān)系實例來擴(kuò)充另一種語言的訓(xùn)練集,并重復(fù)兩種語言之間的翻譯和訓(xùn)練過程,以期同時提高兩種語言的分類性能。與我們采用機(jī)器翻譯系統(tǒng)進(jìn)行關(guān)系實例翻譯不同,他們只是通過簡單的詞典查找來實現(xiàn)詞匯翻譯。
本文使用基于特征向量的機(jī)器學(xué)習(xí)方法來實現(xiàn)中英文關(guān)系抽取。由于本文著重于跨語言關(guān)系抽取,因此只使用了相對簡單的詞匯和實體信息等特征,而沒有使用復(fù)雜的句法特征。這樣做的另一個原因是翻譯文本的語法較差,不適合用于句法分析。本文使用特征如下。
a) 實體詞匯特征及上下文信息,包括實體本身和兩個實體之間的詞匯。我們沒有使用實體左邊和實體右邊的詞匯,這是由于初步實驗結(jié)果表明,添加這些信息并不能提高關(guān)系抽取的性能,同時也不利于后期的機(jī)器翻譯。詞匯特征包括:
WM1: 實體1的詞包
HM1: 實體1的中心詞
WM2: 實體2的詞包
HM2: 實體2的中心詞
HM12: 實體1中心詞和實體2中心詞的組合
WBNULL: 實體對之間不存在任何單詞
WBFL: 實體對之間僅存在一個單詞
WBF: 當(dāng)實體對之間至少有兩個單詞,實體對之間的第一個單詞
WBL: 當(dāng)實體對之間至少有兩個單詞,實體對之間的最后一個單詞
WBO: 當(dāng)實體對之間至少有三個單詞,實體對之間除第一個和最后一個之外的其他單詞
b) 實體類型及其組合特征,包括:
ET12: 兩個實體的實體大類的組合
EST12: 兩個實體的實體小類的組合
EC12: 兩個實體的實體參照類別的組合
c) 實體參照方式,包括:
ML12: 兩實體參照方式的組合
MT12: 兩實體LDC參照類型的組合
d) 交疊特征,主要用于反映實體之間的位置關(guān)系,屬于結(jié)構(gòu)化信息,包括:
#WB: 兩個實體間詞語的數(shù)目
#MB: 兩個實體間包含其他實體參照的數(shù)目
為了用一種語言(稱為源語言)的標(biāo)注語料幫助另一種語言(稱為目標(biāo)語言)的關(guān)系抽取,本文采用基于機(jī)器翻譯的實例映射方法: 首先將源語言中的關(guān)系實例通過機(jī)器翻譯映射為目標(biāo)語言的關(guān)系實例,然后將這些關(guān)系實例添加到目標(biāo)語言的訓(xùn)練集中,最后采用統(tǒng)計機(jī)器學(xué)習(xí)方法進(jìn)行目標(biāo)語言的關(guān)系抽取。其中,實例映射主要包含以下三個過程:
過程1: 基于五倍交叉的實例過濾
從理論上講,在源語言中標(biāo)注的關(guān)系實例都是正確和可靠的,但實際上在統(tǒng)計機(jī)器學(xué)習(xí)方法中,那些表達(dá)較復(fù)雜且稀疏的關(guān)系實例通常是不能被正確識別的,并且由于機(jī)器翻譯也存在錯誤,因此由這些源語言的實例翻譯所得到的目標(biāo)語言實例也往往是不可靠的,所以在實例翻譯之前我們先過濾掉這些不可靠的源語言關(guān)系實例。
一種簡單的過濾方法是依據(jù)關(guān)系實例的語言表達(dá)形式的復(fù)雜程度,例如,兩個實體之間的詞匯距離、在句法樹中的距離及依存路徑中的距離等,但這些度量值無法準(zhǔn)確反映實例的可靠性。我們采用基于五倍交叉的可靠性度量方法,其原理類似于測試集的五倍交叉驗證法,基本思想是“當(dāng)一個關(guān)系實例能借助自身語言的其他關(guān)系實例正確識別時,它的可靠性較高,反之則可靠性較低”。具體方法是: 首先,源語言的所有標(biāo)注語料被平均分成五份,其中四份用于分類模型的訓(xùn)練,然后對另外一份進(jìn)行測試。這樣每一個關(guān)系實例都有一個預(yù)測結(jié)果,當(dāng)預(yù)測結(jié)果正確時,說明該實例可靠性較高,因而它被保留下來,反之則過濾掉。另一方面,由于關(guān)系抽取中普遍存在著數(shù)據(jù)不平衡的現(xiàn)象,即負(fù)例數(shù)量遠(yuǎn)大于正例數(shù)量,因此源語言中的負(fù)例也被過濾掉。
過程2: 基于Google Translator的實體和實例翻譯
實體和實例翻譯是將源語言的實體參照和關(guān)系實例翻譯成目標(biāo)語言的實體參照和關(guān)系實例。我們不對源語言文本中的整個句子進(jìn)行翻譯,而只針對兩個實體參照之間的短語部分進(jìn)行翻譯。雖然這樣做丟失了關(guān)系實例的上下文信息,但短語翻譯在一定程度上可提高翻譯質(zhì)量,且大部分的關(guān)系實例與上下文信息并不相關(guān),初步的實驗結(jié)果也表明了這一點。我們采用Google Translator*http://translator.google.com.進(jìn)行實體和實例的翻譯,其翻譯結(jié)果也是可接受的。在翻譯完之后,為了便于實體對齊,需要對英文譯文進(jìn)行符號化處理,對中文譯文則采用ICTCLAS*http://ictclas.org/.進(jìn)行分詞處理。
過程3: 基于混合匹配原則的實體對齊
實體對齊的目的是將源語言實體參照匹配到其譯文的實體參照,即在目標(biāo)語言的關(guān)系實例中自動標(biāo)注出相應(yīng)的實體參照,從而實現(xiàn)目標(biāo)語言關(guān)系實例的特征向量構(gòu)造。實體對齊是跨語言關(guān)系抽取中的關(guān)鍵問題,其難點在于實體參照在不同的上下文中可能被翻譯成不同的譯文,即單獨翻譯的實體參照和在關(guān)系實例中翻譯的實體參照有可能不同,這給實體對齊帶來了很大的難度。例如,實體參照“官員”被單獨翻譯成“Officer”,而在關(guān)系實例“敘利亞 官員”中則被翻譯成為“officials”。
針對這一情況,我們提出了基于混合原則的實體對齊方法。首先是完全匹配原則,如果目標(biāo)語言的實體參照(Md)能夠在目標(biāo)語言的關(guān)系實例(Rd)中找到相同內(nèi)容,則實體的完全匹配成功;其二是部分匹配原則,如果從Md的右部開始能夠在Rd中找到部分相同內(nèi)容,則實體的部分匹配成功;最后是基于翻譯詞表的對齊原則,如果上述兩種方法都不能實現(xiàn)實體匹配,則嘗試借助于翻譯詞表直接從源語言的實體參照(Ms)到目標(biāo)語言的關(guān)系實例(Rd)進(jìn)行匹配。翻譯詞表L從中英文平行語料庫FBIS中導(dǎo)出,每項為( si, di, pi),分別表示源語言詞匯、目標(biāo)語言詞匯和翻譯概率。匹配過程為:對于Ms中的任一單詞si和Rd的任意一個單詞dj,如果能在詞表L中找到表項(si,dj,pj)且翻譯概率大于閾值θ(設(shè)為0.002),則認(rèn)為這是一個單詞匹配。如果能夠在Rd中找到Ms的一個連續(xù)匹配,則認(rèn)為Md匹配成功。
本節(jié)首先介紹實驗語料和實驗設(shè)置,包括所使用的語料庫、分類器及性能評估指標(biāo),然后給出實驗結(jié)果和分析。
5.1 實驗語料和設(shè)置
本文采用ACE 2005中英文語料庫作為語義關(guān)系抽取的實驗數(shù)據(jù)。該語料庫定義了實體之間的6個關(guān)系大類,18個關(guān)系小類。為使得中英文實例數(shù)量在同一個級別,我們對中文數(shù)據(jù)進(jìn)行了部分的刪減。最后,我們使用中文語料中的457個文件,來源為廣播新聞和新聞專線,包含6 268個關(guān)系正例及69 047個關(guān)系負(fù)例,其中有3 069個關(guān)系正例被翻譯并對齊到英文;使用英文語料中的498個文件,主要來源為廣播談話、廣播新聞、電話談話等,包含6 253個關(guān)系正例及72 883個關(guān)系負(fù)例,其中有2 679個關(guān)系正例被翻譯并對齊到中文。
語料的預(yù)處理包括從XML格式的ACE數(shù)據(jù)文件中提取出原始文本以及實體和關(guān)系的標(biāo)注信息,并對文本進(jìn)行分段、分句和符號化(中文則為分詞)。然后,對一個句子中出現(xiàn)的實體參照進(jìn)行兩兩配對以產(chǎn)生所有可能的關(guān)系實例。最后,提取所有關(guān)系實例的特征構(gòu)造特征向量。
本文選用SVM-Light作為分類器,采用五倍交叉驗證策略計算抽取性能的平均值。評估標(biāo)準(zhǔn)采用常用的準(zhǔn)確率P、召回率R和F1指數(shù),其中F1指數(shù)即為準(zhǔn)確率P和召回率R的調(diào)和平均。
5.2 實驗結(jié)果和分析
(1) 訓(xùn)練語料規(guī)模對跨語言關(guān)系抽取性能的影響
圖1和圖2分別給出了在不同規(guī)模的目標(biāo)語言訓(xùn)練語料上添加翻譯語料前后,中英文各自的大類關(guān)系抽取性能。其中,圖1的三個子圖(a)、(b)和(c)分別給出了在英文訓(xùn)練語料上添加翻譯語料前后的準(zhǔn)確率P、召回率R和F1值,圖2為中文語料上的實驗性能。橫坐標(biāo)表示目標(biāo)語言語料庫的規(guī)模,如“1/20”表示訓(xùn)練實例數(shù)為總數(shù)的1/20,縱坐標(biāo)表示相應(yīng)的性能。
圖1 不同規(guī)模的英文語料添加翻譯實例前后性能對比
圖2 不同規(guī)模的中文語料添加翻譯實例前后性能對比
從圖1和圖2可以看出:
1) 無論是英文還是中文關(guān)系抽取,添加翻譯語料后,總體性能都隨目標(biāo)語言訓(xùn)練語料規(guī)模的不同而獲得了不同程度的提升,且目標(biāo)語言訓(xùn)練語料規(guī)模越小,總體性能提高幅度越大。這說明增加從另一種語言翻譯過來的關(guān)系實例后,確實有助于目標(biāo)語言的關(guān)系抽取,而且當(dāng)目標(biāo)語言的訓(xùn)練語料越小時(欠資源),數(shù)據(jù)就越稀疏,這種幫助作用也就越大;
2) 總體性能F1的提高主要來源于召回率的提高,而準(zhǔn)確率提高則很小,甚至降低。這說明翻譯得到的關(guān)系實例,除了能彌補(bǔ)目標(biāo)語言中訓(xùn)練實例的不足之外,也帶來了一定的噪音;
3) 中英文的表現(xiàn)稍有不同,翻譯實例對英文關(guān)系抽取的作用大于對中文關(guān)系抽取的作用,且前者的準(zhǔn)確率能維持不變或略有提高,而后者的準(zhǔn)確率則基本上降低。主要原因有三點。首先,由實驗設(shè)置可知中文翻譯并對齊到英文的實例數(shù)量多于英文翻譯并對齊到中文的實例數(shù)量;其次,通常認(rèn)為中文到英文的翻譯質(zhì)量要高于英文到中文的翻譯質(zhì)量,最后,翻譯之后對齊之前需要對中文進(jìn)行分詞處理,對英文進(jìn)行符號化處理,而眾所周知,中文分詞難度大于英文符號化。
(2) 不同類型上的跨語言關(guān)系抽取性能比較
表1和表2分別給出了在五分之一規(guī)模的目標(biāo)語言語料中添加了翻譯語料后,英文和中文在各個不同關(guān)系類型上的抽取性能及變化。兩表的第二列分別表示英文和中文在各個關(guān)系大類上的實例數(shù)目。表1中的“1/5e”和“1/5e+ACE2005c”兩列分別表示采用五分之一規(guī)模的英文語料和在此基礎(chǔ)上加入從ACE2005中文語料庫中翻譯過來的實例,“Delta”表示兩者之間的性能變化,其中各列性能的最大值用粗體表示。表2的各列與表1基本相同,是在中文語料上的實驗結(jié)果。
表1 1/5英文訓(xùn)練語料添加翻譯實例前后不同關(guān)系類型的性能對比
表2 1/5中文訓(xùn)練語料添加翻譯實例前后不同關(guān)系類型的性能對比
從表1和表2中可以看出,添加翻譯語料后大部分關(guān)系類型的抽取性能獲得了不同程度的提高,且這種提高主要來源于召回率,而精度提高不大,甚至有所降低,不過,中英文之間的表現(xiàn)卻不盡相同。具體表現(xiàn)為:
1) 從表1可以看出,添加了翻譯語料后,英文的通用附屬關(guān)系(GEN-AFF)、部分整體關(guān)系(PART-WHOLE)和物理位置關(guān)系(PHYS)的F1值提高幅度最大,分別達(dá)到了5.1、4.6和3.4,而另三種關(guān)系類型則提高幅度較小。
2) 從表2可以看出,添加了翻譯語料后,中文的施事關(guān)系(ART)在準(zhǔn)確率、召回率、F1值上面都有顯著提升,而在其他大類上提高有限,在通用附屬關(guān)系(GEN-AFF)大類上甚至稍有降低。
3) 結(jié)合表1和表2可以看出,添加翻譯語料后英文抽取性能的提升幅度普遍高于中文抽取性能的提升幅度,這是由于中文到英文的翻譯質(zhì)量一般要優(yōu)于英文到中文的翻譯質(zhì)量,且中文的分詞也會帶來一定的噪音。
(3) 與其他中英文關(guān)系抽取系統(tǒng)的比較
表3列出了其他幾個關(guān)系抽取系統(tǒng)在ACE中英文語料庫上的大類抽取性能。由于所采用的語料庫規(guī)模不同,且測試和驗證方法也有所不同,因此實驗結(jié)果僅供參考。不過,還是可以從表中看出,雖然采用特征較為簡單,在相同語料下本文系統(tǒng)的性能與其他系統(tǒng)不相上下。另一個情況是ACE2005英文的抽取性能較ACE2004英文低得多,其主要原因是前者的語料庫包含電話談話文本,文體較為自由,且所定義的關(guān)系類型的一致性沒有后者好。最后是ACE2005英文的抽取性能較ACE2005中文的抽取性能低很多,這與一般認(rèn)為英文抽取性能優(yōu)于中文抽取性能的觀點不符。通過對語料數(shù)據(jù)的觀察我們發(fā)現(xiàn),中文關(guān)系實例的結(jié)構(gòu)較為簡單,具有前修飾結(jié)構(gòu)的中文關(guān)系實例占總數(shù)的60%左右,而在英文關(guān)系實例中,具有前修飾結(jié)構(gòu)的實例不足30%。
表3 與其他關(guān)系抽取系統(tǒng)的性能比較
本文使用基于機(jī)器翻譯的方法實現(xiàn)跨語言關(guān)系抽取,探討了在欠資源目標(biāo)語言的情況下,添加從源語言翻譯過來的語料對目標(biāo)語言關(guān)系抽取結(jié)果的影響。通過實驗發(fā)現(xiàn),添加翻譯語料能在一定程度上提高中英文關(guān)系抽取的性能,并且,目標(biāo)語言的語料越少,翻譯語料所具有的幫助作用就越明顯。值得注意的是,添加目標(biāo)語言語料,準(zhǔn)確率和召回率都有所提升,而添加翻譯語料,總體性能的提升主要得益于召回率的提升,準(zhǔn)確率的增長并不是很明顯,在中文上甚至有所降低。這說明翻譯語料可以補(bǔ)充目標(biāo)語言語料的不足,但也有可能帶來一定的噪音。
下一步的研究工作將從以下二個方面展開: 一是考慮使用更多的特征來捕獲對關(guān)系抽取有用的信息;二是利用雙語平行語料庫來實現(xiàn)實例的映射以減少由機(jī)器翻譯帶來的噪音。
[1] Guodong Zhou, Min Zhang. Extracting relation information from text documents by exploring various types of knowledge[J]. Information Processing and Management, 2007, 43:969-982.
[2] 奚斌, 錢龍華, 周國棟, 等. 語言學(xué)組合特征在語義關(guān)系抽取中的應(yīng)用[J]. 中文信息學(xué)報,2008,22(3):44-63.
[3] Dandan Liu, Zhiwei Zhao, Yanan Hu, et al. Incorporating Lexical Semantic Similarity to Tree Kernel-Based Chinese Relation Extraction[C]//Proceedings of Computer School Center for Study of Language & Information. The 13th Chinese Lexical Semantics Workshop. Wuhan: Wuhan University, 2012:133-139.
[4] Jong-Hoon Oh, Kiyotaka Uchimoto, Kentaro Torisawa. Bilingual Co-Training for Monolingual Hyponymy-Relation Acquisition[C]//Proceedings of ACL, Singapore, 2009:432-440.
[5] Min Zhang, Jian Su, Danmei Wang, et al. Discovering Relations from a Large Raw Corpus Using Tree Similarity-based Clustering[C]//Proceedings of IJCNLP, 2005:378-389.
[6] Fei Wu, Daniel S Weld. Open information extraction using wikipedia[C]//Proceedings of ACL. 2010:118-127.
[7] Seokhwan Kim, Minwoo Jeong, Jonghoon Lee, et al. A Cross-lingual Annotation Projection Approach for Relation Detection[C]//Proceedings of Coling, Beijing, 2010:564-571.
[8] Nanda Kambhatla. Combining lexical, syntactic and semantic features with Maximum Entropy models for extracting relations[C]//Proceedings of ACL. Morristown, NJ, USA, 2004:178-181.
[9] Longhua Qian, Gougong Zhou, Fang Kong, et al. Exploiting constituent dependencies for tree kernel-based semantic relation extraction[C]//Proceedings of COLING. Manchester, 2008:697-704.
[10] Guodong Zhou, Min Zhang, Dong Hong Ji, et al. Tree Kernel-based Relation Extraction with Context-Sensitive Structured Parse Tree Information[C]//Proceedings of EMNLP/CoNLL. Prague, Czech, 2007:728-736.
[11] Wanxiang Che, Jianmin Jiang, Zhong Su, et al. Improved-Edit-Distance Kernel for Chinese Relation Extraction[C]//Proceedings of IJCNLP. 2005: 132-137.
[12] 莊成龍, 錢龍華, 周國棟. 基于樹核函數(shù)的實體語義關(guān)系抽取方法研究[J]. 中文信息學(xué)報. 2009, 23(1):3-9.
[13] Seokhwan Kim, Gary Geunbae Lee. A Graph-based Cross-lingual Projection Approach for Weakly Supervised Relation Extraction[C]//Proceedings of ACL. Jeju, Republic of Korea, 2012:48-53.
[14] David Yarowsky, Grace Ngai. Inducing multilingual POS taggers and NP bracketers via robust projection across aligned corpora[C]//Proceedings of ACL, Pittsburgh, Pennsylvania, 2001:1-8.
[15] David Yarowsky, Grace Ngai, Richard Wicentowski. Inducing multilingual text analysis tools via robust projection across aligned corpora[C]//Proceedings of ACL, San Diego,2001:1-8.
[16] Paola Merlo, Suzanne Stevenson, Vivian Tsang, et al. A multilingual paradigm for automatic verb classification[C]//Proceedings of ACL, Philadelphia, Pennsylvania, 2001:207-214.
[17] Rebecca Hwa, Philip Resnik, Amy Weinberg, et al. Bootstrapping parsers via syntactic projection across parallel texts[J]. Natural Language Engineering, 2005,11(03):311-325.
[18] Sebastian Pado, Mirella Lapata. Cross-lingual annotation projection of semantic roles[J]. Journal of Artificial Intelligence Research, 2009,36(1):307-340.
[19] Wenjie Li, Peng Zhang, Furu Wei, et al. A Novel Feature-based Approach to Chinese Entity Relation Extraction[C]//Proceedings of ACL. Columbus,Ohio,USA. 2008:89-92.
[20] 車萬翔,劉挺,李生.實體關(guān)系自動抽取[J].中文信息學(xué)報. 2005,19(2):1-6.
[21] 虞歡歡,錢龍華,周國棟,等. 基于合一句法和實體語義樹的中文語義關(guān)系抽取[J].中文信息學(xué)報. 2010,24(5):17-23.
[22] 黃瑞紅,孫樂,馮元勇,等.基于核方法的中文實體關(guān)系抽取研究[J].中文信息學(xué)報.2008,22(5):102-108.
[23] Min Zhang, Jie Zhang, Jian Su, et al. A Composite Kernel to Extract Relations between Entities with both Flat and Structured Features[C]//Proceedings of COLING-ACL. Sydney, Australia. 2006:825-832.
[24] Guodong Zhou, Longhua Qian, and Jianxi Fan. Tree kernel-based semantic relation extraction with rich syntactic and semantic information[J]. Information Sciences, 2010:1313-1325.