沈曉衛(wèi),李培峰,朱巧明
(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇省計(jì)算機(jī)信息處理技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州 215006)
?
槽填充中抽取模式的優(yōu)化方法
沈曉衛(wèi),李培峰,朱巧明
(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇省計(jì)算機(jī)信息處理技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州 215006)
在傳統(tǒng)的信息抽取中,模式匹配已經(jīng)被證實(shí)為簡(jiǎn)便而有效的方法,而依存路徑也是最為常用的模式之一。在槽填充任務(wù)中就有眾多的參與者引入了以依存路徑為基礎(chǔ)的模式匹配方法;該文就針對(duì)該方法中存在的包括模式平衡性,模式抽取方式和模式篩選策略等方面的問(wèn)題,提出了模式裁剪、模式轉(zhuǎn)置、模式擴(kuò)展和模式語(yǔ)義定義等主要的優(yōu)化方法并實(shí)現(xiàn)了相關(guān)系統(tǒng),在TAC-KBP2010的目標(biāo)語(yǔ)料上進(jìn)行了測(cè)試。該文提出的方法F值為20.8%,比基準(zhǔn)系統(tǒng)的14.3%提高了6.5%。
槽填充;模式優(yōu)化;信息抽取
傳統(tǒng)的信息抽取評(píng)測(cè)如MUC和ACE主要還是關(guān)注在個(gè)別文檔和領(lǐng)域限定文檔上進(jìn)行的相關(guān)抽取;但在實(shí)際中,很多的應(yīng)用需要從開(kāi)放的,規(guī)模較為龐大的數(shù)據(jù)源里抽取信息,進(jìn)而用抽取到的信息實(shí)現(xiàn)對(duì)現(xiàn)有知識(shí)庫(kù)(Knowledge Base, KB)的補(bǔ)充和擴(kuò)展。這就需要系統(tǒng)能夠正確辨別出數(shù)據(jù)源與知識(shí)庫(kù)里已知實(shí)體間的一一對(duì)應(yīng)關(guān)系,并能抽取出這些實(shí)體的相關(guān)信息。針對(duì)這樣的需求,TAC于2009年提出了知識(shí)庫(kù)填充任務(wù)(Knowledge Base Population, KBP),槽填充(Slot Filling, SF)是它的第二個(gè)子任務(wù)。
到2011年底TAC-KBP已經(jīng)成功舉辦了三屆,有眾多的小組參與了其中的槽填充任務(wù),提出了一些具有針對(duì)性的做法。這些做法主要可以分為兩種,第一種是以傳統(tǒng)的信息抽取方法為主體實(shí)現(xiàn)槽填充;另外一種則是以問(wèn)答系統(tǒng)(Question Answering, QA)為基礎(chǔ),把每一個(gè)槽(SF中把實(shí)體的屬性或信息稱為槽,Slot)解析為對(duì)應(yīng)的問(wèn)題集合來(lái)實(shí)現(xiàn)任務(wù)。在第一種做法中,基于依存路徑的模式匹配方法被較多的參與者所使用。本文即以該方法為基礎(chǔ),提出了方法中部分具有代表性的問(wèn)題,并針對(duì)每一種問(wèn)題提出了相應(yīng)的優(yōu)化策略,使得系統(tǒng)的綜合表現(xiàn)相對(duì)基準(zhǔn)系統(tǒng)有了比較可觀的提高。這不僅說(shuō)明了基準(zhǔn)系統(tǒng)中確實(shí)存在著此類亟待解決的問(wèn)題,也說(shuō)明了本文探討的部分優(yōu)化方法是切實(shí)可行的。
文章的結(jié)構(gòu)安排如下,第2節(jié)介紹了TAC-KBP槽填充任務(wù)的定義和相關(guān)工作;第3節(jié)主要描述了基準(zhǔn)系統(tǒng)的實(shí)現(xiàn)過(guò)程;第4節(jié)探討了系統(tǒng)中的一些問(wèn)題和優(yōu)化策略;第5節(jié)給出了加入相應(yīng)的優(yōu)化策略后系統(tǒng)的表現(xiàn)和對(duì)結(jié)果的分析;最后對(duì)全文進(jìn)行了總結(jié)。
槽填充任務(wù)主要涉及到兩個(gè)數(shù)據(jù)集,一個(gè)是已知的知識(shí)庫(kù)(KB),它是由一個(gè)個(gè)獨(dú)立的節(jié)點(diǎn)(node)組成的XML文件,每一個(gè)節(jié)點(diǎn)包含一個(gè)從維基百科(Wikipedia*http://www.wikipedia.org/)里獲取到的實(shí)體和一段對(duì)該實(shí)體進(jìn)行介紹的文本;另一個(gè)是數(shù)據(jù)源(Source Corpora, SC),是由新聞、博客、對(duì)話、錄音等網(wǎng)絡(luò)文本組成的(TAC-KBP的數(shù)據(jù)源共包含1 777 888份文檔),用
來(lái)作為目標(biāo)語(yǔ)料的文檔集。
槽填充中目標(biāo)實(shí)體分為PER和ORG兩種類型,分別包含了26和16種預(yù)定義的槽。槽有單值和多值之分,單值槽如“per:date_of_birth”只有一個(gè)可能的值;多值槽如“per:siblings”有多個(gè)可能的值。槽的具體數(shù)據(jù)表現(xiàn)類型有Name,Value和String三種。Name表示一個(gè)實(shí)體名稱或是一個(gè)專有名詞,如John、IBM等; Value表示一個(gè)具體的數(shù)值,如時(shí)間、年齡等;String表示一個(gè)可陳述的事實(shí)(通常是一個(gè)短語(yǔ)),如死亡原因等。
從2009到2011平均每年都有20個(gè)以上的小組參與TAC-KBP相關(guān)的評(píng)測(cè),其中對(duì)槽填充的兩種系統(tǒng)實(shí)現(xiàn)方法中,主要以信息抽取方法居多;按照具體做法的不同,又可以分為基于模式匹配的方法和基于分類器的方法。絕大部分的系統(tǒng)都是以其中的某一種方法為主,但也有如CUNY[1]這樣,綜合使用了上述全部三種方法,而在最后對(duì)多個(gè)方法并行得到的備選答案進(jìn)行排序和選擇。相關(guān)系統(tǒng)的具體實(shí)現(xiàn)方法分類如表1[2]。
表1 系統(tǒng)實(shí)現(xiàn)方法
槽填充任務(wù)的評(píng)測(cè)指標(biāo)不是很理想;Stanford[5]在以知識(shí)庫(kù)的2/3為訓(xùn)練數(shù)據(jù),1/3為測(cè)試數(shù)據(jù)時(shí)F值達(dá)到了56.7%,但其在官方評(píng)測(cè)上的F值卻只有14.12%。雖然評(píng)測(cè)中作為TopSystem的IBM[9]系統(tǒng)的F值有28.2%,但多數(shù)系統(tǒng)的表現(xiàn)還是集中在10%~20%之間;如果不引入web知識(shí)庫(kù)(如Wikipedia)或者語(yǔ)料庫(kù)(如Freebase*http://www.freebase.com/, DBpedia*http://blog.dbpedia.org/),F(xiàn)值通常在15%。而IBM相對(duì)出色的表現(xiàn)則主要?dú)w功于他對(duì)于基礎(chǔ)組件性能的提升,例如,IBM就針對(duì)槽填充任務(wù)擴(kuò)展了與ACE并不兼容的命名實(shí)體類型,重新訓(xùn)練了實(shí)體探測(cè)器并且引入了DBpedia以獲得更多的訓(xùn)練數(shù)據(jù),才最終取得了比較優(yōu)異的性能。這也間接表明傳統(tǒng)的在正規(guī)或限定領(lǐng)域的新聞?wù)Z料里訓(xùn)練出來(lái)的抽取組件在噪音較大的web數(shù)據(jù)上遭遇了很大的困境。而對(duì)TAC-KBP2010的訓(xùn)練數(shù)據(jù)的分析顯示只有60.4%[2]的情況實(shí)體和槽是在同一個(gè)句子里出現(xiàn)的,22.8%[2]的情況下需要句子間的共指消解,其余的還包括句子間的推理,關(guān)系的傳遞和世界知識(shí)的輔助。
本文參照了目前常用的一些做法, 實(shí)現(xiàn)了一個(gè)相對(duì)簡(jiǎn)單的基準(zhǔn)系統(tǒng)(這里只選擇了對(duì)兩種目標(biāo)實(shí)體中PER類型實(shí)體的抽取)。訓(xùn)練階段的第一步是對(duì)知識(shí)庫(kù)的處理,通過(guò)計(jì)算不同代詞的個(gè)數(shù)確定性別并把對(duì)應(yīng)的代詞替換為實(shí)體名稱,標(biāo)示出每一個(gè)句子中實(shí)體的所有出現(xiàn)(由于做了替換,一個(gè)句子里同一個(gè)實(shí)體的名稱可能會(huì)多次出現(xiàn))和槽的第一次出現(xiàn);第二步是從同時(shí)存在實(shí)體標(biāo)示和槽標(biāo)示的句子中抽取和選擇出實(shí)體到槽合適的依存路徑完成模式庫(kù)的生成工作。測(cè)試階段就是依據(jù)得到的模式庫(kù)對(duì)測(cè)試數(shù)據(jù)進(jìn)行抽取并給出相應(yīng)的實(shí)驗(yàn)結(jié)果,基準(zhǔn)系統(tǒng)結(jié)構(gòu)如圖1所示。
圖1 基準(zhǔn)系統(tǒng)結(jié)構(gòu)圖
(1) 模式庫(kù)的生成
Stanford*http://nlp.stanford.edu/index.shtml總共定義了53種基本的依存關(guān)系,不同的依存關(guān)系在模式中的作用也是不一樣的,有些表現(xiàn)為冗余成分, 有些則還會(huì)降低模式的有效性
而帶來(lái)錯(cuò)誤,所以抽取之前要對(duì)依存關(guān)系進(jìn)行篩選,具體的篩選方法見(jiàn)表2,表中未列出的依存關(guān)系表示不做篩選,全部保留。
表2 依存關(guān)系篩選方法
模式具體表示為一條從實(shí)體到槽的依存路徑,它是一個(gè)由詞匯節(jié)點(diǎn)和依存關(guān)系節(jié)點(diǎn)組成的字符串,如從“per:spouse”的例句
中得到模式
nsubj_R
其中每一個(gè)節(jié)點(diǎn)結(jié)尾的“_L”和“_R”表示依存關(guān)系的中心詞是在左邊還是右邊,模式最后的“
(2) 目標(biāo)語(yǔ)料上的測(cè)試
對(duì)于槽候選項(xiàng)類型的定義采用命名實(shí)體和WordNet*http://wordnet.princeton.edu/相結(jié)合的方法(具體見(jiàn)表3);由于詞匯存在多義現(xiàn)象,WordNet用編號(hào)(如country, SID-08426193-N)表示某一種明確的語(yǔ)義。具體的測(cè)試實(shí)現(xiàn)過(guò)程可以分為如下的幾個(gè)步驟:
1) 候選文檔的檢索。以目標(biāo)實(shí)體名稱為檢索關(guān)鍵字通過(guò)Lucene*http://lucene.apache.org/從目標(biāo)語(yǔ)料(SC)里獲取候選文檔集;對(duì)于Lucene檢索打分相同的文檔優(yōu)先選擇文本長(zhǎng)度更長(zhǎng)者,以期待獲取更多的信息。
2) 文檔解析。用Stanford對(duì)候選文檔進(jìn)行句法, 依存和指代的解析并在每一個(gè)解析后的文檔里
標(biāo)示出指向目標(biāo)實(shí)體的指代關(guān)系。
3) 預(yù)抽取。對(duì)“per:title”、“per: origin”和“per:religion”三種槽進(jìn)行預(yù)抽??;如: 目標(biāo)實(shí)體和“the driver”之間存在指代關(guān)系,而“driver”又符合“per:title”候選項(xiàng)類型的定義,那么“driver”就是“per:title”的一個(gè)備選答案。
4) 模式抽取和匹配。以目標(biāo)實(shí)體的每一個(gè)指代項(xiàng)作為一個(gè)出現(xiàn)抽取出模式,進(jìn)行匹配。對(duì)于名詞和動(dòng)詞匹配同義和子義關(guān)系,對(duì)于形容詞和副詞,匹配同義,其它諸如冠詞,數(shù)詞等只匹配詞性。
5) 備選答案選擇。這里借用IBM[9]的打分方法,單值槽選擇得分最高的一個(gè),多值槽選擇分?jǐn)?shù)排名前三的(少于三個(gè)的則全部選擇),具體的評(píng)分計(jì)算方法如下:
Score(Si) = count(Si) + 1/n * docCount(Si)
其中count(Si)表示備選答案Si的出現(xiàn)次數(shù),docCount(Si)表示包含Si的文檔的出現(xiàn)次數(shù),n則表示所有備選答案的個(gè)數(shù)。
表3 候選項(xiàng)的實(shí)體類型和抽象語(yǔ)義
上述的基準(zhǔn)系統(tǒng)并不是很理想,F(xiàn)值14.3%也只勉強(qiáng)達(dá)到了現(xiàn)有系統(tǒng)的平均水平;通過(guò)細(xì)致的對(duì)比觀察發(fā)現(xiàn)有些種類槽的模式庫(kù)正確率比較低,這種情況的出現(xiàn)主要和模式生成的基礎(chǔ)理論Distant Supervision[13]有關(guān),Distant Supervision只在相對(duì)比較苛刻的條件下才能有良好的表現(xiàn)。例如,在一個(gè)人和他的出生時(shí)間這樣比較單一的關(guān)系里Distant
Supervision就會(huì)有很優(yōu)異的表現(xiàn),但是在另外一種情況下,如一個(gè)人和他的出生地之間就可能包含多種的關(guān)系,他可能在那里上學(xué)、工作、結(jié)婚等等。所以在使用Distant Supervision時(shí)要對(duì)不同的槽附加相應(yīng)的限制條件,除此之外訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)之間的平衡性、模式的裁剪和泛化等問(wèn)題也同樣急需解決。
(1) 模式的裁剪
模式庫(kù)部分的模式里包含有一些對(duì)抽取沒(méi)有貢獻(xiàn),但是卻嚴(yán)重降低了模式覆蓋率的詞匯和依存關(guān)系,例如從句子:
得到一條“per:children”的模式:
nsubj_R
在這樣的模式中
表4 裁剪方法
(2) 模式的轉(zhuǎn)置
訓(xùn)練數(shù)據(jù)都來(lái)自知識(shí)庫(kù),而知識(shí)庫(kù)和測(cè)試語(yǔ)料在表達(dá)上還是有很大區(qū)別的,這就帶來(lái)了平衡性的問(wèn)題。例如,知識(shí)庫(kù)里在論述一個(gè)人父母的時(shí)候,大都會(huì)是: “他的父親/母親是誰(shuí)”,這樣實(shí)體在前槽在后的形式,而很少出現(xiàn)槽在實(shí)體前面的句子。但測(cè)試數(shù)據(jù)可以認(rèn)為基本是平衡的,也就是說(shuō)可能會(huì)有一半的情況是槽出現(xiàn)在實(shí)體前面,這就是一個(gè)顯而易見(jiàn)的平衡性問(wèn)題之一。模式的轉(zhuǎn)置操作就是解決這個(gè)問(wèn)題一種快速簡(jiǎn)單的方法;例如,抽取父母的模式,把頭尾調(diào)轉(zhuǎn),就變成了抽取子女的模式,而如配偶這樣的對(duì)等關(guān)系,轉(zhuǎn)置后就可以直接作為本身的模式,具體的轉(zhuǎn)置關(guān)系如表5所示。
表5 轉(zhuǎn)置關(guān)系
轉(zhuǎn)置的具體做法是這樣的,例如對(duì)于模式
nsubj_R
首先把
dobj_R
(3) 模式的語(yǔ)義定義
基準(zhǔn)系統(tǒng)只在測(cè)試階段使用了有關(guān)語(yǔ)義的比較,實(shí)際上在系統(tǒng)的每個(gè)階段都可以引入語(yǔ)義的輔助,特別是在模式庫(kù)的生成階段。例如槽“per:place_of_birth”對(duì)應(yīng)的模式庫(kù),如果能在其中的一個(gè)模式中檢測(cè)到表示“生育(bear/birth)”語(yǔ)義的詞匯,那么這個(gè)模式確實(shí)能夠正確表達(dá)槽關(guān)系的可能性就非常大了;但對(duì)于模式庫(kù)中的所有模式而言,能夠表達(dá)這種關(guān)系的并不一定都包含表示“生育”語(yǔ)義的詞,例如,“John’s birthplace is China”,除卻“birthplace”的歧義不談,這個(gè)句子的模式中就沒(méi)有顯式的表示“生育”語(yǔ)義的詞匯。另一個(gè)比較棘手的問(wèn)題是并不是每一個(gè)槽都可以抽象出一個(gè)明確的語(yǔ)義或語(yǔ)義詞匯,或者說(shuō)半數(shù)以上的槽都很難用某一個(gè)語(yǔ)義囊括全部。例如,槽“per:children”,除了表達(dá)“子女(children)”的語(yǔ)義外,“父母(parents)”語(yǔ)義同樣可以表達(dá)“子女”關(guān)系,甚至諸如“領(lǐng)養(yǎng)(adopt)”,“生育(give birth to)”,“懷孕(pregnant)”等也可以表達(dá)“子女”關(guān)系,但這都是建立在一定的世界知識(shí)基礎(chǔ)之上的,而對(duì)于沒(méi)有任何世界知識(shí)的模式而言,簡(jiǎn)單而有效的做法就是人為的為他定義一個(gè)語(yǔ)義集合。對(duì)于“place_of_residence”這樣確實(shí)很難建立一個(gè)語(yǔ)義集合的,可以使用槽之間的語(yǔ)義差集關(guān)系來(lái)間接完成對(duì)語(yǔ)義的限定,即認(rèn)為不包含“生育(bear/birth)”和“死亡(death)”語(yǔ)義的模式就是表達(dá)了“place_of_residence”關(guān)系的模式。
由于詞匯的多義性,如何判斷一個(gè)詞到底表示哪一個(gè)語(yǔ)義又是一個(gè)難題,在模式庫(kù)的生成階段可以根據(jù)WordNet的編號(hào)確定一個(gè)唯一的語(yǔ)義,即如果模式庫(kù)里的一個(gè)模式包含“bear”這個(gè)詞,那么就可以把這個(gè)詞的語(yǔ)義定義為“生育”,它在WordNet里對(duì)應(yīng)一個(gè)唯一的編號(hào)“SID-00056206-V”,當(dāng)然這個(gè)詞也并不一定就表示“出生”,但由于它是出現(xiàn)在實(shí)體和槽之間的路徑上,這是可能性最大的一個(gè)語(yǔ)義。測(cè)試階段的二義性問(wèn)題就比較難解決,折中的方法就是定義一個(gè)“停用詞”表,如“have/deliver”也有表示“生育”的意思,但在系統(tǒng)中就可以認(rèn)為它們是不表示這個(gè)語(yǔ)義的,而被標(biāo)記為“停用詞”。于是對(duì)于每一個(gè)語(yǔ)義都建立這樣的一張?jiān)~匯表最終組成一個(gè)“停用詞”表。模式的語(yǔ)義定義具體如表6。
表6 模式語(yǔ)義定義
(4) 模式的擴(kuò)展
在做如“per:children”和“per:parents”等槽的抽取時(shí),從很多能夠明顯表征關(guān)系的句子中卻無(wú)法得到有效的模式。原因主要是因?yàn)橐恍┓侵鞲尚缘某煞植荒鼙挥行У牟蹲降??;鶞?zhǔn)系統(tǒng)中的模式只表示了實(shí)體和槽之間的主干關(guān)系,這樣雖然可以大大減少無(wú)用的附加開(kāi)銷,但是在做如上述的槽抽取時(shí),非主干性的成分也是非常重要的,有時(shí)候甚至是決定性的。例如從句子
得到的“per:parents”的模式只是一個(gè)簡(jiǎn)單的并列關(guān)系:
conj_and_L
顯然這樣的一個(gè)模式是沒(méi)有任何的關(guān)系表征作用的,這里如果能夠進(jìn)一步地抽取出father和槽之間的“nn”修飾關(guān)系,這個(gè)模式才可以有更好的表現(xiàn)。具體做法是如果能在實(shí)體和槽之間找到表達(dá)模式定義的語(yǔ)義詞匯,并且這個(gè)詞匯和實(shí)體或是槽之間存在某種依存關(guān)系,就做一次模式擴(kuò)展,那么上面的模式擴(kuò)展后就變成了下面的:
conj_and_L<@@>nn_L < father[NN]><##>R
其中“<@@>”之后的部分表示是擴(kuò)展的部分,“<##>”之后的“R”表示是對(duì)槽的擴(kuò)展,相應(yīng)的對(duì)實(shí)體的擴(kuò)展就是“L”。
運(yùn)用上述的四種策略對(duì)基準(zhǔn)系統(tǒng)進(jìn)行了優(yōu)化,在模式生成階段,用人為定義的語(yǔ)義對(duì)模式進(jìn)行了篩選,并對(duì)部分種類的依存關(guān)系進(jìn)行了裁剪,對(duì)有些種類槽的模式做了擴(kuò)展和轉(zhuǎn)置。
在測(cè)試階段,對(duì)于定義有語(yǔ)義的模式,對(duì)語(yǔ)義詞要求同基準(zhǔn)系統(tǒng)相同的匹配規(guī)則,模式其他部分的依存關(guān)系和詞匯節(jié)點(diǎn),只做詞性的匹配。對(duì)于沒(méi)有定義語(yǔ)義的槽則采用和基準(zhǔn)系統(tǒng)相同的匹配規(guī)則。為了檢驗(yàn)方法的效果,在TAC-KBP 2010的數(shù)據(jù)上進(jìn)行了測(cè)試,得到的結(jié)果如表7所示。
表7 實(shí)驗(yàn)結(jié)果
續(xù)表
從表中可以看出,每一種方法的加入,都提高了系統(tǒng)的表現(xiàn)。但是除了語(yǔ)義以外,其他三種方法對(duì)表現(xiàn)的影響比較小,都在2%以內(nèi);轉(zhuǎn)置和擴(kuò)展都只針對(duì)部分種類的槽,而這些槽在TAC-KBP 2010中的總體比重并不是非常大。而且現(xiàn)階段轉(zhuǎn)置和擴(kuò)展的程度都比較低,轉(zhuǎn)置僅僅局限于對(duì)部分槽人為的定義了對(duì)應(yīng)的倒轉(zhuǎn)關(guān)系,而擴(kuò)展的條件也限制的太過(guò)嚴(yán)苛,如句子
中抽取的模式是
conj_and
由于在實(shí)體和槽之間沒(méi)有可供擴(kuò)展的語(yǔ)義詞匯(只有一個(gè)“and”),模式無(wú)法擴(kuò)展而被作為噪音丟棄,這就直接導(dǎo)致系統(tǒng)無(wú)法從目標(biāo)語(yǔ)料里類似表達(dá)的句子中抽取出有效的信息。但是如果對(duì)擴(kuò)展不加限制,那么對(duì)其引入的大量噪音如何消除就是一個(gè)嚴(yán)峻的問(wèn)題,不然最后的結(jié)果可能是得不償失的。
模式語(yǔ)義的加入對(duì)系統(tǒng)性能有了相對(duì)其他方法都大的提高,首先是它能很有效地對(duì)模式進(jìn)行篩選,并且使模式里的不同節(jié)點(diǎn)有了地位高低的區(qū)分,而不再是所有的節(jié)點(diǎn)都同等對(duì)待,例如,“per:children”的一個(gè)模式
nsubj_R
在這個(gè)模式中只有兩個(gè)詞匯節(jié)點(diǎn),分別是“l(fā)ive”和“child”,但是可以看出這兩個(gè)詞匯的作用差別是很大的,其中“l(fā)ive”幾乎可以換成其他任何符合語(yǔ)法的詞匯,而“child”則只能限制在它所表征的特定語(yǔ)義范圍內(nèi)。但本文模式語(yǔ)義的定義仍然是最初級(jí)的人工定義,而模式中的詞匯節(jié)點(diǎn)也只是一刀切的分為了語(yǔ)義詞和非語(yǔ)義詞兩類,如何能更好地解決這些問(wèn)題也是今后工作的內(nèi)容之一。除去上述的原因之外,基礎(chǔ)組件的性能,如句法分析、實(shí)體識(shí)別等的性能也對(duì)系統(tǒng)有著比較大的影響,由于依存路徑在很大程度上還是依賴句法分析的結(jié)果,如果句法分析有誤,那么后面所有的工作都是錯(cuò)誤的。實(shí)體識(shí)別更是如此[14],如果把一個(gè)地名識(shí)別為一個(gè)機(jī)構(gòu)名,結(jié)果也是可想而知的。在很多情況下,槽并不能通過(guò)直接的模式獲得,而是需要不同槽之間的關(guān)系傳遞,例如可能直接抽取一個(gè)人的“per:siblings”并不能得到答案,但是通過(guò)抽取這個(gè)人的“per:parents”的不同于本人的“per:children”槽也可以同樣達(dá)到這個(gè)目的。
傳統(tǒng)的信息抽取如關(guān)系抽取在限定領(lǐng)域中已經(jīng)有了70%以上的優(yōu)秀表現(xiàn),但是在面對(duì)開(kāi)放的如網(wǎng)絡(luò)文本類型的數(shù)據(jù)時(shí)就有了很大的問(wèn)題。原因是多方面的,首先是基礎(chǔ)抽取組件性能的下降,如在傳統(tǒng)新聞?wù)Z料上訓(xùn)練出來(lái)的實(shí)體識(shí)別組件在網(wǎng)頁(yè)、博客之類的文本里表現(xiàn)就很大程度的下降了,同時(shí)下降的還有句法分析、指代消解等組件的表現(xiàn)。除了基礎(chǔ)組件的問(wèn)題,還有就是抽取方法的問(wèn)題,在開(kāi)放的數(shù)據(jù)源中,除了句法、指代等信息外,語(yǔ)義等信息也應(yīng)該給予更多的關(guān)注。
實(shí)驗(yàn)的結(jié)果雖然說(shuō)明我們提出的方法有一定的效果,但是仍然有很多的缺陷,而且這些方法有的只針對(duì)部分類型的槽,對(duì)其余類型的槽我們?nèi)匀粵](méi)有找到很好的改進(jìn)方法。
[1] Zheng Chen, Suzanne Tamang, Adam Lee, et al. CUNY-BLENDER TAC-KBP2010 Entity Linking and Slot Filling System Description[C]//Proceedings of Text Analysis Conference (TAC2010), 2010.
[2] Ralph Grishman, Heng Ji. Knowledge Base Population: Successful Approaches and Challenges[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics (ACL), 2011: 1148-1158.
[3] Ralph Grishman, Bonan Min. New York University KBP 2010 Slot Filling System[C]//Proceedings of Text Analysis Conference (TAC2010), 2010.
[4] Ang Sun, Ralph Grishman, Wei Xu, et al. New York University 2011 System for KBP Slot Filling[C]//Proceedings of Text Analysis Conference (TAC2011), 2011.
[5] Mihai Surdeanu, David McClosky, Julie Tibshirani, et al. A Simple Distant Supervision Approach for the TAC-KBP Slot Filling Task[C]//Proceedings of Text Analysis Conference (TAC2010), 2010.
[6] Mihai Surdeanu, Sonal Gupta, John Bauer, et al. Stanford’s Distantly-Supervised Slot-Filling System[C]//Proceedings of Text Analysis Conference (TAC2011), 2011.
[7] Ander Intxaurrondo, Oier Lopez de Lacalle, Eneko Agirre. UBC at Slot Filling TAC-KBP 2010[C]//Proceedings of Text Analysis Conference (TAC2010), 2010.
[8] Ander Intxaurrondo, Oier Lopez de Lacalle, Eneko Agirre. UBC at Slot Filling TAC-KBP 2011[C]//Proceedings of Text Analysis Conference (TAC2011), 2011.
[9] Dan Bikel, Vittorio Castelli, Radu Florian, et al. Entity Linking and Slot Filling through Statistical Processing and Inference Rules[C]//Proceedings of Text Analysis Conference (TAC2009), 2009.
[10] Vittorio Castelli, Radu Florian, Ding-jung Han. Slot Filling through Statistical Processing and Inference Rules[C]//Proceedings of Text Analysis Conference (TAC2010), 2010.
[11] Yang Song, Zhengyan He, Houfeng Wang. ICL_KBP Approaches to Knowledge Base Population at TAC2010[C]//Proceedings of Text Analysis Conference (TAC2010), 2010.
[12] Lorna Byrne, John Dunnion. UCD IIRG at TAC 2010 KBP Slot Filling Task[C]//Proceedings of Text Analysis Conference (TAC2010), 2010.
[13] Mike Mintz, Steven Bills, Rion Snow, et al. Distant supervision for relation extraction without labeled data[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP, 2009: 1003-1011.
[14] 奚斌, 錢龍華, 周國(guó)棟, 等. 語(yǔ)言學(xué)組合特征在語(yǔ)義關(guān)系抽取中的應(yīng)用. 中文信息學(xué)報(bào), 2008, 22(3): 44-49.
Pattern Optimization for Slot Filling Task
SHEN Xiaowei,LI Peifeng,ZHU Qiaoming
(School of Computer Science and Technology,Soochow University,Suzhou, Jiangsu 215006,China; Key Lab of Computer Information Processing Technology of Jiangsu Province,Suzhou,Jiangsu 215006,China)
Pattern matching has been confirmed to be a simple and effective way in traditional information extraction, and dependency path is one of the most common patterns. There are a large number of researchers apply the pattern matching method based on dependency path in Slot Filling task. Focused on the issues of pattern balance, pattern extraction mode and pattern selection strategy in this task, this paper proposes some optimization strategies of pattern cutting, pattern reversing, pattern expansion and pattern semantic definition, and realizes a complete system. Tested in the TAC-KBP2010 target corpus, the F value of the proposed method achieves 20.8%, leading a 6.5% improvement against the 14.3% of the baseline system.
Slot Filling; pattern optimization; information extraction
沈曉衛(wèi)(1989—),碩士,助理工程師,主要研究領(lǐng)域?yàn)樾畔⒊槿 ?mail:shenxiaowei@suda.edu.cn李培峰(1971—),博士,副教授,主要研究領(lǐng)域?yàn)樾畔⒊槿?、情感分析和機(jī)器學(xué)習(xí)。E?mail:pfli@suda.edu.cn朱巧明(1963—),博士生導(dǎo)師,教授,主要研究領(lǐng)域?yàn)橹形男畔⑻幚砗蜋C(jī)器學(xué)習(xí)。E?mail:qmzhu@suda.edu.cn
1003-0077(2015)02-0199-08
2012-11-01 定稿日期: 2013-01-09
國(guó)家自然科學(xué)基金(61070123);江蘇省自然科學(xué)基金(BK2011282);江蘇省高校自然科學(xué)重大基礎(chǔ)研究項(xiàng)目(11KIJ520003)
TP391
A