• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于規(guī)則推理引擎的實(shí)體關(guān)系抽取研究*

      2016-09-20 09:00:47薛麗娟席夢(mèng)隆王夢(mèng)婕王昊奮
      計(jì)算機(jī)與生活 2016年9期
      關(guān)鍵詞:三元組引擎實(shí)體

      薛麗娟,席夢(mèng)隆,王夢(mèng)婕,王昊奮,阮 彤

      華東理工大學(xué) 信息科學(xué)與工程學(xué)院,上海 200237

      基于規(guī)則推理引擎的實(shí)體關(guān)系抽取研究*

      薛麗娟,席夢(mèng)隆,王夢(mèng)婕,王昊奮,阮彤+

      華東理工大學(xué) 信息科學(xué)與工程學(xué)院,上海 200237

      關(guān)系抽?。魂P(guān)系推理;遠(yuǎn)程監(jiān)督;規(guī)則推理引擎

      1 引言

      實(shí)體關(guān)系抽取是信息抽取的子任務(wù),其主要目的是把無(wú)結(jié)構(gòu)的自然語(yǔ)言文本中所蘊(yùn)含的實(shí)體之間的語(yǔ)義關(guān)系抽取出來(lái),并以結(jié)構(gòu)化的形式表示出來(lái),供用戶查詢和分析使用。遠(yuǎn)程監(jiān)督學(xué)習(xí)(distant supervision learning)是訓(xùn)練大規(guī)模關(guān)系抽取器的主要方法。

      傳統(tǒng)的實(shí)體關(guān)系抽取方法需要針對(duì)預(yù)先定義好的每一類實(shí)體關(guān)系人工標(biāo)注大量的訓(xùn)練語(yǔ)料,然后利用機(jī)器學(xué)習(xí)的方法訓(xùn)練分類器進(jìn)行新的實(shí)體關(guān)系識(shí)別。人工標(biāo)注大量的訓(xùn)練數(shù)據(jù)是非常耗時(shí)和耗力的,因此本文將實(shí)體關(guān)系抽取和實(shí)體關(guān)系推理結(jié)合起來(lái),只需要在少量訓(xùn)練數(shù)據(jù)的情況下就可以訓(xùn)練出大規(guī)模關(guān)系抽取器。另外傳統(tǒng)的實(shí)體關(guān)系抽取只注重一種特定類型的數(shù)據(jù)源,怎樣充分利用不同的數(shù)據(jù)源并沒(méi)有得到充分研究。本文提出的方法將綜合多種數(shù)據(jù)源,不僅從無(wú)結(jié)構(gòu)的文本中可以抽取出實(shí)體關(guān)系,從半結(jié)構(gòu)的實(shí)體屬性中也可以抽取出實(shí)體關(guān)系。

      本文主要從百度知識(shí)圖譜大賽提供的數(shù)據(jù)文件中抽取人物實(shí)體之間的關(guān)系,針對(duì)于此,提出了一種新穎的基于規(guī)則推理引擎的實(shí)體關(guān)系抽取方法。本文的主要貢獻(xiàn)在于:

      (1)綜合多種數(shù)據(jù)源抽取實(shí)體關(guān)系,不僅可以從無(wú)結(jié)構(gòu)文本中抽取出實(shí)體關(guān)系,從半結(jié)構(gòu)的實(shí)體屬性中也可以抽取出實(shí)體關(guān)系。

      (2)將關(guān)系抽取和關(guān)系推理結(jié)合起來(lái)增加訓(xùn)練數(shù)據(jù)的數(shù)量。原始的訓(xùn)練數(shù)據(jù)比較稀疏,使用規(guī)則推理引擎推理出一些關(guān)系作為訓(xùn)練數(shù)據(jù),用來(lái)幫助從無(wú)結(jié)構(gòu)文本中抽取關(guān)系三元組,將從無(wú)結(jié)構(gòu)文本中抽取出的高置信度的關(guān)系三元組再加入到種子集中,因此整個(gè)過(guò)程是不斷迭代進(jìn)行的,在每一輪迭代中,抽取出的高置信度的關(guān)系三元組將作為新的種子。

      (3)本文的實(shí)體關(guān)系抽取主要是人物關(guān)系抽取,關(guān)系抽取時(shí)將實(shí)體本身固有的屬性作為特征將會(huì)大大提高關(guān)系抽取的準(zhǔn)確率,比如實(shí)體的性別屬性以及實(shí)體的姓名特征。

      2 相關(guān)工作

      實(shí)體關(guān)系抽取是信息抽取的一個(gè)應(yīng)用,在過(guò)去幾年里得到了廣泛的研究。封裝器歸納法(wrapper induction)是一種用于從半結(jié)構(gòu)化數(shù)據(jù)中抽取信息的方法。Multi-view learner[1]和Vertex![2]使用監(jiān)督學(xué)習(xí)方法從手動(dòng)標(biāo)注的數(shù)據(jù)中學(xué)習(xí)抽取規(guī)則。信息抽取的另一種方法就是從文本中抽取信息,Snowball[3]和TextRunner[4]就是典型的例子。Snowball的輸入是語(yǔ)料和種子集,通過(guò)總結(jié)語(yǔ)料中種子出現(xiàn)的模式學(xué)習(xí)抽取模式(extraction patterns)。Banko等人構(gòu)建的TextRunner系統(tǒng)在沒(méi)有事先定義規(guī)則和手動(dòng)標(biāo)注種子的情況下從語(yǔ)料中學(xué)習(xí)所有的關(guān)系。Reverb[5]使用句法分析確定關(guān)系短語(yǔ),將出現(xiàn)在兩個(gè)名詞短語(yǔ)之間的動(dòng)詞短語(yǔ)作為關(guān)系短語(yǔ)。Wu等人[6]的WOE系統(tǒng)使用種子式擴(kuò)展方法從Wikipedia的Infoboxes中學(xué)習(xí)抽取patterns。Reverb和WOE只能抽取出所有關(guān)系短語(yǔ)是動(dòng)詞的關(guān)系,同時(shí)它們也忽略了上下文,因此抽取的關(guān)系三元組并不是事實(shí)。為了改善這些缺陷,Mausam等人[7]提出了OLLIE系統(tǒng),OLLIE可以抽取出關(guān)系短語(yǔ)不是動(dòng)詞的短語(yǔ),并且可以抽取出使關(guān)系成立的條件。TextRunner、Reverb、WOE和OLLIE都是在沒(méi)有事先定義規(guī)則和沒(méi)有事先給出目標(biāo)關(guān)系的情況下抽取所有的關(guān)系,因此這些方法都屬于開放域關(guān)系抽?。╫pen information extraction, Open IE)。本文需要從文本中學(xué)習(xí)出給定的目標(biāo)關(guān)系,這是本文工作和Open IE方法很大不同的地方。

      NELL[8]、SOFIE[9]和PROSPERA[10]是需要給定目標(biāo)類別和關(guān)系的信息抽取工具。NELL的輸入數(shù)據(jù)由包含幾百個(gè)類別和關(guān)系的初始本體以及每個(gè)類別和關(guān)系的少量實(shí)例組成。SOFIE通過(guò)將學(xué)習(xí)得到的pattern和文本進(jìn)行匹配,從文本中抽取本體事實(shí),并將這些事實(shí)鏈接到本體知識(shí)庫(kù)中,它在現(xiàn)存的知識(shí)庫(kù)上做本體推理,目的是對(duì)詞義進(jìn)行消歧。因此SOFIE是一個(gè)將模式匹配、詞義消歧和本體推理集合在一起的系統(tǒng)。Nakashole等人提出的PROSPERA 對(duì)SOFIE進(jìn)行了改善。PROSPERA對(duì)pattern做N-gram,目的是對(duì)pattern進(jìn)行泛化以增加召回率。KYLIN[11]使用迭代的方法構(gòu)造訓(xùn)練數(shù)據(jù),用構(gòu)造的訓(xùn)練數(shù)據(jù)學(xué)習(xí)兩種分類器,一種分類器用于識(shí)別,另一種分類器用于過(guò)濾。KOG[12]使用機(jī)器學(xué)習(xí)中的支持向量機(jī)(support vector machine,SVM)和馬爾可夫邏輯網(wǎng)絡(luò)(Markov logic network,MLN)中聯(lián)合推理的方法將Wikipedia的Infoboxes和WordNet結(jié)合起來(lái)建立了一個(gè)豐富的本體。NELL、SOFIE和PROSPERA都需要手動(dòng)定義一些規(guī)則來(lái)幫助pattern的學(xué)習(xí),而在本文的工作中并不需要手動(dòng)地定義規(guī)則。

      信息抽取的一個(gè)趨勢(shì)是從發(fā)布在網(wǎng)上的數(shù)據(jù)中抽取信息,包括網(wǎng)頁(yè)、開放鏈接數(shù)據(jù)和動(dòng)態(tài)網(wǎng)站上的列表和表格。Gentile等人[13]提出多策略學(xué)習(xí)的方法,該方法將文本抽取和包裝器歸納學(xué)習(xí)結(jié)合起來(lái),從列表、表格和網(wǎng)頁(yè)中抽取知識(shí)。雖然這種方法看起來(lái)似乎很好,但是在他們的文章中并沒(méi)有清楚地說(shuō)明實(shí)驗(yàn)評(píng)估結(jié)果。另一方面,遠(yuǎn)程監(jiān)督是利用不同種類數(shù)據(jù)源之間冗余信息的有效方法,文獻(xiàn)[14-15]就是使用遠(yuǎn)程監(jiān)督學(xué)習(xí)的方法抽取關(guān)系。

      3 整體思想

      3.1問(wèn)題定義

      本文的語(yǔ)料集S由實(shí)體描述屬性中的分句構(gòu)成,每個(gè)分句至少包含兩個(gè)實(shí)體。本文的任務(wù)可以描述為:給定關(guān)系類型體系 R={r1,r2,…,rm},實(shí)體集合E={e1,e2,…,en}以及每個(gè)實(shí)體ei的全部屬性和少量的實(shí)體關(guān)系種子集合Seed={(eirkej)|rk∈R,ei,ej∈E},對(duì)于?s∈S,給定句子S中的兩個(gè)實(shí)體ei∈E,ej∈E,預(yù)測(cè)ei、ej在S中的關(guān)系對(duì)應(yīng)于集合R中的一個(gè)或多個(gè)rk。例如,給定句子“姚沁蕾是籃球明星姚明的女兒”以及實(shí)體“姚明”和“姚沁蕾”,本文的任務(wù)就是預(yù)測(cè)出<姚明,姚沁蕾>在句子S中是“女兒”關(guān)系。分析了語(yǔ)料庫(kù)中的數(shù)據(jù)之后可以得到以下的觀察:

      (1)可以從實(shí)體的一些屬性中抽取出實(shí)體關(guān)系,比如從實(shí)體的“parent”屬性中可以抽取出“父母”關(guān)系。

      (2)現(xiàn)有的規(guī)則推理引擎可以推理出新的實(shí)體關(guān)系??梢詫?shí)體關(guān)系文件給出的實(shí)體關(guān)系以及從實(shí)體屬性中抽取的實(shí)體關(guān)系作為輸入,用規(guī)則推理引擎推理出更多的實(shí)體關(guān)系。在本文中,規(guī)則推理引擎還需要實(shí)體性別作為輸入。

      (3)一些關(guān)系類型之間具有層次關(guān)系,如“父母”關(guān)系和“父親”、“母親”這兩個(gè)關(guān)系具有層次關(guān)系。確定了“父母”關(guān)系后,可以根據(jù)實(shí)體的性別進(jìn)一步確定是“父親”關(guān)系還是“母親”關(guān)系,以<姚沁蕾父母姚明>為例,如果可以確定“姚明”的性別為“男”,那么可以將上述關(guān)系三元組細(xì)化為<姚沁蕾父親姚明>。因此識(shí)別出實(shí)體的性別有助于關(guān)系的抽取。

      3.2整體流程

      本文的目標(biāo)是找到一種識(shí)別語(yǔ)料庫(kù)中任意實(shí)體對(duì)之間關(guān)系的方法。實(shí)體關(guān)系文件已經(jīng)給出少量的實(shí)體關(guān)系作為種子,但是這些種子對(duì)于訓(xùn)練抽取器是遠(yuǎn)遠(yuǎn)不夠的。根據(jù)3.1節(jié)的觀察,可以通過(guò)兩種途徑擴(kuò)充種子的數(shù)量:一種是從實(shí)體的屬性中抽取實(shí)體關(guān)系;另一種是用規(guī)則推理引擎推理出新的實(shí)體關(guān)系。將以上實(shí)體關(guān)系作為種子幫助從實(shí)體的“description”屬性中抽取實(shí)體關(guān)系。實(shí)體的“description”屬性可以看作是一種無(wú)結(jié)構(gòu)的文本,因此整個(gè)過(guò)程就是遠(yuǎn)程監(jiān)督學(xué)習(xí)的過(guò)程。本文的工作主要分為3步:實(shí)體性別識(shí)別、規(guī)則引擎推理和實(shí)體關(guān)系抽取。整體流程如圖1所示。

      4 算法設(shè)計(jì)

      4.1實(shí)體性別識(shí)別

      通過(guò)觀察,實(shí)體的性別可以通過(guò)3種途徑獲得:

      Fig.1 Overall workflow of algorithm圖1 算法整體流程圖

      (1)從實(shí)體的“gender”屬性中識(shí)別實(shí)體的性別。對(duì)于一些實(shí)體,它們本身包含“gender”屬性,因此可以直接確定這些實(shí)體的屬性。

      (2)使用一些預(yù)先定義的啟發(fā)式規(guī)則從實(shí)體的“description”屬性中識(shí)別實(shí)體的性別。實(shí)體的“description”屬性由一個(gè)或多個(gè)分句組成,如果“description”屬性的第一個(gè)分句包含“,男,”或者“,女,”,那么就可以直接確定該實(shí)體的性別。

      (3)從實(shí)體關(guān)系文件的三元組中識(shí)別實(shí)體的性別。部分關(guān)系三元組中的關(guān)系謂詞和性別有關(guān),比如三元組<姚明女兒姚沁蕾>,根據(jù)關(guān)系謂詞“女兒”可以確定“姚沁蕾”的性別為“女”。

      以上3條觀察可以識(shí)別一部分實(shí)體的性別,但是大部分實(shí)體的性別還是無(wú)法確定。因?yàn)槭褂蒙鲜?條觀察識(shí)別出的實(shí)體性別準(zhǔn)確率很高,所以把這些實(shí)體作為訓(xùn)練數(shù)據(jù),實(shí)體性別識(shí)別任務(wù)就可以視為一個(gè)二分類問(wèn)題,使用支持向量機(jī)為分類模型。

      使用分類法識(shí)別實(shí)體性別的過(guò)程如下:

      (1)特征抽取

      高頻詞作為特征:用S表示訓(xùn)練數(shù)據(jù)中所有實(shí)體的“description”屬性的分句集合,使用Stanford Parser 對(duì)S分詞,選擇出現(xiàn)次數(shù)超過(guò)50次的詞為高頻詞。

      實(shí)體的“weight”和“heigh”屬性作為特征:因?yàn)槟行院团缘纳砀?、體重具有很明顯的差別,所以“weight”和“height”屬性對(duì)分類具有很大的貢獻(xiàn)。“weight”和“height”的屬性值經(jīng)過(guò)標(biāo)準(zhǔn)化和離散化之后作為特征值。

      建立姓名庫(kù)作為特征:通??梢愿鶕?jù)姓名中的某些字確定實(shí)體的性別,選擇經(jīng)常出現(xiàn)在男性姓名中的字建立一個(gè)男性姓名庫(kù),選擇經(jīng)常出現(xiàn)在女性姓名中的字建立一個(gè)女性姓名庫(kù),然后把男性姓名庫(kù)和女性姓名庫(kù)分別作為特征。

      (2)特征選擇

      并不是所有的特征都對(duì)分類有貢獻(xiàn),在分類之前需要進(jìn)行特征選擇,本文使用信息增益選擇對(duì)分類有貢獻(xiàn)的特征。

      (3)訓(xùn)練分類模型

      使用訓(xùn)練數(shù)據(jù)訓(xùn)練SVM分類模型,用訓(xùn)練好的分類模型對(duì)性別未知的實(shí)體進(jìn)行分類。

      4.2規(guī)則引擎推理

      規(guī)則推理引擎通常有規(guī)則和事實(shí)兩個(gè)輸入,目的是把已知的事實(shí)按照一定的規(guī)則推理出新的事實(shí)。在本文中,事實(shí)是關(guān)系三元組,根據(jù)關(guān)系謂詞的性質(zhì),人工總結(jié)出如下8條規(guī)則。

      (1)關(guān)系謂詞具有反函數(shù)性,則存在規(guī)則:

      ?

      如:?

      (2)關(guān)系謂詞加條件后具有反函數(shù)性,則存在規(guī)則:

      [with conditions]?

      如:[e1(女)]?

      (3)關(guān)系謂詞具有對(duì)稱性,則存在規(guī)則:

      ?

      如:?

      (4)關(guān)系謂詞加條件后具有對(duì)稱性,則存在規(guī)則:

      [with conditions]?

      如:[e1(男)]?

      (5)關(guān)系謂詞具有傳遞性,則存在規(guī)則:

      and?

      如:and?

      (6)關(guān)系謂詞具有多重復(fù)合關(guān)系,則存在規(guī)則:

      andand… and

      [with conditions]?

      如:and?

      (7)關(guān)系謂詞具有層次性,則存在規(guī)則:

      [with conditions]?

      如:[e2(男)]?(上層向下層細(xì)分)

      ?(下層向上層擴(kuò)展)

      (8)關(guān)系謂詞具有互斥性,則存在規(guī)則:

      ??

      如:??

      從實(shí)體的“parent”、“spouse”屬性中可以抽取出實(shí)體關(guān)系,將抽取出的實(shí)體關(guān)系和關(guān)系文件中給出的實(shí)體關(guān)系作為種子用于規(guī)則推理引擎的推理,規(guī)則推理引擎推理出的實(shí)體關(guān)系加入到種子集中。本文使用Drools和Tuffy兩種規(guī)則推理引擎。

      4.3實(shí)體關(guān)系抽取

      實(shí)體的“description”屬性由一個(gè)或多個(gè)句子組成,因此可以將“description”屬性看作是無(wú)結(jié)構(gòu)的文本。使用種子數(shù)據(jù)從實(shí)體的“description”屬性中抽取出至少包含一個(gè)實(shí)體且該實(shí)體不是當(dāng)前實(shí)體的分句,對(duì)于只包含一個(gè)實(shí)體的分句,使用簡(jiǎn)單的規(guī)則加上當(dāng)前實(shí)體,這樣就得到訓(xùn)練數(shù)據(jù)。本文從實(shí)體的上下文、句法、詞性等信息中抽取特征訓(xùn)練分類器,從而完成關(guān)系抽取任務(wù)。每一種關(guān)系的抽取都視為一個(gè)二分類問(wèn)題,為每一種關(guān)系訓(xùn)練一個(gè)分類模型。為某種關(guān)系訓(xùn)練分類模型時(shí),當(dāng)前關(guān)系作為正例,其他所有關(guān)系作為負(fù)例。

      4.3.1最短依賴路徑作為抽取特征

      使用Stanford Parser對(duì)分句做依存關(guān)系分析,從產(chǎn)生的依賴路徑中學(xué)習(xí)出對(duì)關(guān)系抽取有用的patterns。以下面的句子為例:

      姚沁蕾是籃球明星姚明的女兒。

      產(chǎn)生的依賴路徑為:nsubj(女兒-7,姚沁蕾-1),cop(女兒-7,是-2),nn(明星-4,籃球-3),nn(女兒-7,明星-4),assmod(女兒-7,姚明-5),case(姚明-5,的-6),root(ROOT-0,女兒-7)。這些依賴路徑形成一個(gè)有向圖,每一個(gè)詞語(yǔ)是圖的一個(gè)頂點(diǎn)v∈V,E是依賴關(guān)系集。對(duì)于任意兩個(gè)頂點(diǎn),如“姚明”和“姚沁蕾”,使用最短連接路徑表示兩者之間可能存在的關(guān)系:

      這種路徑叫作核心路徑,可以看出核心路徑對(duì)預(yù)測(cè)兩個(gè)實(shí)體之間的關(guān)系是很有用的。

      為了解決數(shù)據(jù)稀疏的問(wèn)題,本文對(duì)核心路徑進(jìn)行泛化,用詞性標(biāo)注取代核心路徑中的詞語(yǔ)。同時(shí),所有的專有名詞都抽象為“NN”,所有的復(fù)合名詞(如“NN nn NN”)都抽象為“NN”。以上述核心路徑為例,泛化后的路徑為,把這種泛化后的核心路徑作為pattern。

      由于產(chǎn)生的pattern比較稀疏,需要對(duì)pattern進(jìn)行合并。pattern的合并分兩種情況:

      (1)對(duì)pattern在一定的編輯范圍內(nèi)進(jìn)行合并。如果一個(gè)pattern和另一個(gè)pattern只有一個(gè)詞性或依賴關(guān)系不同,就把這兩個(gè)pattern合并成“或”的關(guān)系。比如:pattern1為“prnmod VV dobj NN dep”,pattern2為“prnmod VV dobj NN assmod”,這兩個(gè)pattern只有一個(gè)依賴關(guān)系不同,可以合并成“prnmod VV dobj NN dep|assmod”。

      (2)對(duì)pattern進(jìn)行規(guī)約處理。如果一個(gè)pattern是另一個(gè)pattern的一部分,就把這兩個(gè)pattern合并成父子關(guān)系。比如:pattern1為“nsubj VV ccomp VV nsubj”,pattern2為“nsubj VV ccomp VV nsubj NN conj”,pattern1是子pattern,pattern2為父pattern,父pattern可以寫成“子pattern*”。

      4.3.2關(guān)鍵詞作為抽取特征

      分句中的關(guān)鍵詞對(duì)確定實(shí)體之間的關(guān)系非常有用。當(dāng)兩個(gè)分句的句式結(jié)構(gòu)相同時(shí)就需要通過(guò)關(guān)鍵詞語(yǔ)來(lái)確定實(shí)體之間的關(guān)系,以下面兩個(gè)句子為例:

      姚沁蕾是籃球明星姚明的女兒。

      張慕童是港星張智霖的兒子。

      關(guān)鍵詞作為特征的表示形式為:“W1|W2|W3| W4|W5”,其中W1、W2、W3、W4和W5表示同一個(gè)意思的詞語(yǔ),“|”表示或關(guān)系。使用Fudan Natural Language Process中的關(guān)鍵詞抽取方法抽取出每個(gè)分句的關(guān)鍵詞,抽取出的關(guān)鍵詞需要經(jīng)過(guò)詞義統(tǒng)一和詞義擴(kuò)展兩步處理。詞義統(tǒng)一是為了使表示同一個(gè)意思的詞語(yǔ)為同一維特征,如“兒子”和“獨(dú)子”表示同一個(gè)意思;詞義擴(kuò)展是為了使在訓(xùn)練數(shù)據(jù)中沒(méi)有出現(xiàn)但是和抽取的關(guān)鍵詞表示同一個(gè)意思的詞語(yǔ)為同一維特征,如從訓(xùn)練數(shù)據(jù)中抽取的關(guān)鍵詞沒(méi)有“次子”一詞,但“次子”和“兒子”、“獨(dú)子”表示同一個(gè)意思。經(jīng)過(guò)詞義統(tǒng)一和詞義擴(kuò)展之后,表示“兒子”關(guān)系的這一維特征為“兒子|長(zhǎng)子|獨(dú)子|次子|幼子”。

      關(guān)系集R中的部分關(guān)系和實(shí)體的性別有關(guān),如“父親”、“女兒”等關(guān)系。實(shí)體本身具有的屬性對(duì)關(guān)系抽取很有幫助,因此對(duì)于和性別有關(guān)的關(guān)系,抽取特征除了最短依賴路徑和關(guān)鍵詞之外還包括實(shí)體的性別。本文對(duì)“父親”關(guān)系增加了一維其獨(dú)有的特征,就是判斷兩個(gè)實(shí)體的“姓”是否相同,如果相同就置這一維特征為“1”,否則為“0”。

      并不是所有的特征都對(duì)分類有貢獻(xiàn),因此在訓(xùn)練分類器之前要對(duì)特征進(jìn)行特征選擇,本文選用信息增益作為特征選擇方法。雖然本文使用的方法是為每一種關(guān)系都訓(xùn)練一個(gè)分類模型,但是所有的分類模型包含的特征類型都相同。

      5 實(shí)驗(yàn)分析

      5.1實(shí)驗(yàn)數(shù)據(jù)與設(shè)置

      本文所用的語(yǔ)料庫(kù)Corpus是百度知識(shí)圖譜大賽提供的3個(gè)數(shù)據(jù)文件:實(shí)體屬性文件、實(shí)體關(guān)系文件、實(shí)體模式文件。實(shí)體屬性文件(entity)共包含11 445個(gè)實(shí)體,描述的是每個(gè)實(shí)體所包含的屬性以及對(duì)應(yīng)的屬性值,實(shí)體屬性主要包括“name”、“sid”、“weight”、“height”、“description”、“parent”等屬性。實(shí)體關(guān)系文件(relation)用關(guān)系三元組表示兩個(gè)實(shí)體之間的關(guān)系,其中e1,e2∈E,r∈R,本文所有的關(guān)系都是人物關(guān)系。實(shí)體關(guān)系文件中共有964條關(guān)系三元組,其中包含129個(gè)關(guān)系謂詞,覆蓋1 322個(gè)實(shí)體。實(shí)體模式文件(schema)定義每一類實(shí)體包含的屬性。

      雖然本文方法是半監(jiān)督的,但是需要標(biāo)注數(shù)據(jù)去評(píng)估抽取質(zhì)量。本文使用準(zhǔn)確率Precision和召回率Recall作為評(píng)價(jià)標(biāo)準(zhǔn),若A表示抽取出的正確的關(guān)系三元組,B表示抽取出的錯(cuò)誤的關(guān)系三元組,C表示沒(méi)有抽取出的關(guān)系三元組,則準(zhǔn)確率和召回率的定義分別如下:

      5.2實(shí)驗(yàn)結(jié)果與分析

      5.2.1實(shí)體性別識(shí)別的結(jié)果分析

      實(shí)體性別識(shí)別時(shí)所用的特征包括高頻詞(words)、“height”和“weight”屬性(attributes)、男女姓名庫(kù)(names)3類,每一類特征對(duì)實(shí)驗(yàn)結(jié)果的影響如圖2(a)所示。本文在性別識(shí)別時(shí)選擇支持向量機(jī)、決策樹(decision tree,DT)、樸素貝葉斯(Na?ve Bayes,NB)和邏輯回歸(logistic regression,LR)4種不同的學(xué)習(xí)算法訓(xùn)練分類模型,對(duì)這些模型進(jìn)行比較,選擇識(shí)別準(zhǔn)確率最高的模型作為最終的分類模型。不同學(xué)習(xí)算法的比較結(jié)果如圖2(b)所示。

      5.2.2實(shí)體關(guān)系抽取的結(jié)果分析

      Fig.2 Comparison of different feature combinations and models圖2 不同特征組合和模型比較

      本文對(duì)“妻子”、“師生”、“祖孫”、“兄弟”和“父親”5種關(guān)系進(jìn)行了實(shí)驗(yàn)。根據(jù)4.2節(jié)的描述,使用規(guī)則推理引擎對(duì)種子關(guān)系三元組進(jìn)行推理以增加種子的數(shù)量,對(duì)Drools和Tuffy兩種規(guī)則推理引擎的比較如表1所示。由于Tuffy執(zhí)行時(shí)把事實(shí)存放在關(guān)系數(shù)據(jù)庫(kù)中,判斷查詢通過(guò)SQL語(yǔ)句實(shí)現(xiàn),由于用到數(shù)據(jù)庫(kù)技術(shù),所需的內(nèi)存就較小,但是本地I/O頻繁,導(dǎo)致運(yùn)行速度較慢;而Drools執(zhí)行時(shí)把事實(shí)存放在內(nèi)存中,使用Rete算法對(duì)判斷和查詢進(jìn)行優(yōu)化,因此所需的內(nèi)存較大,但是運(yùn)行速度快。本文選擇了Drools作為規(guī)則推理引擎。

      Table 1 Comparison of rule-based inference engines表1 規(guī)則推理引擎的比較

      使用推理前和推理后的種子數(shù)據(jù)分別進(jìn)行實(shí)驗(yàn),這里只使用NaiveBayes作為分類器,對(duì)抽取結(jié)果的影響如表2所示。使用規(guī)則推理引擎推理后,種子數(shù)據(jù)的數(shù)量增加,對(duì)于“妻子”一些關(guān)系的準(zhǔn)確率會(huì)有所降低,但是抽取出的條數(shù)會(huì)大幅度增多,大大提高了召回率。

      Table 2 Reasoning comparison表2 推理前后比較

      本文試圖找到最適合的種子數(shù)量去學(xué)習(xí)最佳的分類模型,這里只使用Na?ve Bayes分類器,不同數(shù)量的種子對(duì)抽取的準(zhǔn)確率和召回率的影響分別如圖3 (a)和圖3(b)所示。本文綜合考慮準(zhǔn)確率和召回率,在保證有較高準(zhǔn)確率的前提下又有較高的召回率。為每一種關(guān)系選擇了一個(gè)最佳的種子數(shù)量,“妻子”、“師生”、“祖孫”、“兄弟”和“父親”5種關(guān)系的最佳種子數(shù)量分別是50、20、30、30和100。但是在關(guān)系文件中5種關(guān)系的種子數(shù)都達(dá)不到上述標(biāo)準(zhǔn),因此需要使用規(guī)則推理引擎推理出更多的關(guān)系三元組加入到種子集中。

      根據(jù)4.3節(jié)的描述,本文對(duì)pattern特征進(jìn)行合并處理,pattern合并前后的準(zhǔn)確率如圖4(a)所示。對(duì)關(guān)鍵詞特征進(jìn)行了合并擴(kuò)展處理,關(guān)鍵詞合并擴(kuò)展前后的準(zhǔn)確率如圖4(b)所示??梢钥闯觯瑢?duì)pattern進(jìn)行合并和對(duì)關(guān)鍵詞進(jìn)行合并擴(kuò)展可以提高抽取的準(zhǔn)確率。

      在對(duì)每一種關(guān)系進(jìn)行分類時(shí),本文同樣選擇了4種不同的學(xué)習(xí)算法SVM、DT、NB和LR訓(xùn)練分類模型,不同學(xué)習(xí)算法對(duì)結(jié)果的影響如表3所示。本文綜合考慮抽取的準(zhǔn)確率和召回率為不同的關(guān)系選擇不同的分類模型,對(duì)于“兄弟”關(guān)系,NB學(xué)習(xí)算法明顯優(yōu)于其他學(xué)習(xí)算法,但對(duì)于“祖孫”關(guān)系,各種學(xué)習(xí)算法沒(méi)有很大區(qū)別。

      6 結(jié)束語(yǔ)

      Fig.3 Precision and recall of different seed amount圖3 不同種子數(shù)下的準(zhǔn)確率和召回率

      Fig.4 Comparison of pattern and keyword圖4 Pattern和關(guān)鍵詞的比較

      Table 3 Comparison for different models表3 不同模型的比較

      本文針對(duì)傳統(tǒng)實(shí)體關(guān)系抽取需要人工標(biāo)注大量數(shù)據(jù)并只注重一種特定類型的數(shù)據(jù)源的問(wèn)題,提出了一種基于規(guī)則推理引擎的從多種數(shù)據(jù)源抽取實(shí)體關(guān)系的方法。從實(shí)體的多種屬性中抽取出實(shí)體關(guān)系,經(jīng)規(guī)則推理引擎推理出更多的實(shí)體關(guān)系作為種子;幫助從無(wú)結(jié)構(gòu)的文本中抽取實(shí)體關(guān)系。本文方法的優(yōu)點(diǎn)在于將實(shí)體關(guān)系推理和實(shí)體關(guān)系抽取結(jié)合起來(lái),大大增加了訓(xùn)練數(shù)據(jù)的數(shù)量,解決了人工標(biāo)注大量數(shù)據(jù)的問(wèn)題。在數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文方法達(dá)到較高的準(zhǔn)確率和召回率。接下來(lái)計(jì)劃將規(guī)則推理引擎應(yīng)用于其他領(lǐng)域的關(guān)系推理中。本文方法在百度知識(shí)圖譜大賽中獲得第一名的成績(jī)。

      References:

      [1]Hao Qiang,Cai Rui,Pang Yanwei,et al.From one tree to a forest:a unified solution for structured Web data extraction [C]//Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval,Beijing,China,Jul 24-28,2011.New York:ACM, 2011:775-784.

      [2]Gulhane P,Madaan A,Mehta R,et al.Web-scale information extraction with vertex[C]//Proceedings of the 2011 IEEE 27th International Conference on Data Engineering,Hannover,Germany,Apr 11-16,2011.Piscataway,USA:IEEE, 2011:1209-1220.

      [3]Agichtein E,Gravano L.Snowball:extracting relations from large plain-text collections[C]//Proceedings of the 5th ACM Conference on Digital Libraries,San Antonio,USA, Jun 2-7,2000.New York:ACM,2000:85-94.

      [4]Banko M,Cafarella M J,Soderland S,et al.Open information extraction from the Web[C]//Proceedings of the 20th International Joint Conference on Artificial Intelligence, Hyderabad,India,Jan 6-12,2007:2670-2676.

      [5]Fader A,Soderland S,Etzioni O.Identifying relations for open information extraction[C]//Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing,Edinburgh,UK,Jul 27-31,2011.Stroudsburg, USA:ACL,2011:1535-1545.

      [6]Wu Fei,Weld D S.Open information extraction using Wikipedia[C]//Proceedings of the 48th Annual Meeting of the AssociationforComputationalLinguistics,Uppsala,Sweden, Jul 11-16,2010.Stroudsburg,USA:ACL,2010:118-127.

      [7]Mausam,Schmitz M,Bart R,et al.Open language learning for information extraction[C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, Jeju Island,Korea,Jul 12-14,2012.Stroudsburg,USA: ACL,2012:523-534.

      [8]Carlson A,Betteridge J,Kisiel B,et al.Toward an architecture for never-ending language learning[C]//Proceedings of the 24th AAAI Conference on Artificial Intelligence,Atlanta, USA,Jul 11-15,2010.Menlo Park,USA:AAAI,2010.

      [9]Suchanek F M,Sozio M,Weikum G.SOFIE:a self-organizing framework for information extraction[C]//Proceedings of the 18th International Conference on World Wide Web,Madrid,Spain,Apr 20-24,2009.NewYork:ACM,2009:631-640.

      [10]Nakashole N,Theobald M,Weikum G.Scalable knowledge harvesting with high precision and high recall[C]//Proceedings of the 4th ACM International Conference on Web Search and Data Mining,Hong Kong,China,Feb 9-12,2011. New York:ACM,2011:227-236.

      [11]Wu Fei,Weld D S.Autonomously semantifying Wikipedia [C]//Proceedings of the 16th ACM Conference on Information and Knowledge Management,Lisbon,Portugal,Nov 6-10,2007.New York:ACM,2007:41-50.

      [12]Wu Fei,Weld D S.Automatically refining the Wikipedia infobox ontology[C]//Proceedings of the 17th International Conference on World Wide Web,Beijing,China,Apr 21-25,2008. New York:ACM,2008:635-644.

      [13]Gentile A L,Zhang Ziqi,Ciravegna F.Web scale information extraction with LODIE[C]//AAAI 2013 Fall Symposium,Semantics for Big Data,Arlington,USA,Nov 15-17, 2013.Menlo Park,USA:AAAI,2013.

      [14]Mintz M,Bills S,Snow R,et al.Distant supervision for relation extraction without labeled data[C]//Proceedings of the 47th Annual Meeting of the Association for Computational Linguistics and the 4th International Joint Conference on Natural Language Processing of the AFNLP,Singapore,Aug 2-7,2009.Stroudsburg,USA:ACL,2009:1003-1011.

      [15]Roth B,Barth T,Wiegand M,et al.Effective slot filling based on shallow distant supervision methods[C]//Proceedings of the 6th Text Analysis Conference,Gaithersburg, USA,Nov 18-19,2013.arXiv:1401.1158.

      XUE Lijuan was born in 1988.She is an M.S.candidate at East China University of Science and Technology. Her research interests include natural language processing,data mining and information extraction,etc.

      薛麗娟(1988—),女,安徽當(dāng)涂人,華東理工大學(xué)碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理,數(shù)據(jù)挖掘,信息抽取等。

      XI Menglong was born in 1991.He is an M.S.candidate at East China University of Science and Technology. His research interests include question answer system,data mining and knowledge graph,etc.

      席夢(mèng)?。?991—),男,河南登封人,華東理工大學(xué)碩士研究生,主要研究領(lǐng)域?yàn)閱?wèn)答系統(tǒng),數(shù)據(jù)挖掘,知識(shí)圖譜等。

      WANG Mengjie was born in 1993.She is an M.S.candidate at East China University of Science and Technology. Her research interests include natural language processing,information extraction and data mining,etc.

      王夢(mèng)婕(1993—),女,安徽亳州人,華東理工大學(xué)碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理,信息抽取,數(shù)據(jù)挖掘等。

      WANG Haofen was born in 1982.He received the Ph.D.degree from Shanghai Jiao Tong University in 2013. Now he is a lecturer at East China University of Science and Technology.His research interests include semantic search,graph database,Web mining and information extraction,etc.

      王昊奮(1982—),男,上海人,2013年于上海交通大學(xué)獲得博士學(xué)位,現(xiàn)為華東理工大學(xué)講師,主要研究領(lǐng)域?yàn)檎Z(yǔ)義搜索,圖數(shù)據(jù)庫(kù),Web挖掘,信息抽取等。

      RUAN Tong was born in 1973.She received the Ph.D.degree from Chinese Academy of Sciences in 2002.Now she is a professor and M.S.supervisor at East China University of Science and Technology.Her research interests include natural language processing,information extraction and data quality,etc.

      阮彤(1973—),女,上海人,2002年于中國(guó)科學(xué)院獲得博士學(xué)位,現(xiàn)為華東理工大學(xué)教授、碩士生導(dǎo)師,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理,信息抽取,數(shù)據(jù)質(zhì)量等。

      Entity Relation Extraction Based on Rule Inference Engine*

      XUE Lijuan,XI Menglong,WANG Mengjie,WANG Haofen,RUAN Tong+
      College of Information Science and Engineering,East China University of Science and Technology,Shanghai 200237,China
      +Corresponding author:E-mail:ruantong@ecust.edu.cn

      XUE Lijuan,XI Menglong,WANG Mengjie,et al.Entity relation extraction based on rule inference engine. Journal of Frontiers of Computer Science and Technology,2016,10(9):1310-1319.

      Entity relation extraction refers to extract semantic relationships between entities from unstructured natural language text and express in a structured form.Traditional entity relation extraction methods only focus on a particular type of data source,and label large numbers of training data by humans to train extraction model.Manually labeling training data are labor-intensive and time consuming.So this paper proposes a method integrating diversity data sources, and combines rule-based inference engine to discover relation triples.More precisely,integrating structured and unstructured data sources,and in the case of having small amount of seeds provided by structured data,a large number of entity relationships are reasoned by rule-based inference engine.The newly entity relationships are fed as seeds to distantly supervise the learning process to extract entity relationships from unstructured text.The final entity relationships are obtained through multiple iterations.The experimental results show the effectiveness of the proposed method.

      relation extraction;relation reasoning;distant supervision;rule-based inference engine

      實(shí)體關(guān)系抽取是指從無(wú)結(jié)構(gòu)的自然語(yǔ)言文本中抽取實(shí)體之間的語(yǔ)義關(guān)系,并以結(jié)構(gòu)化的形式表示出來(lái)。傳統(tǒng)的實(shí)體關(guān)系抽取方法只注重一種特定類型的數(shù)據(jù)源,并需要標(biāo)注大量的訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練抽取模型,人工成本高。因此提出了一種綜合多種數(shù)據(jù)源,并結(jié)合規(guī)則推理引擎的實(shí)體關(guān)系抽取方法,準(zhǔn)確地說(shuō)就是綜合結(jié)構(gòu)化和非結(jié)構(gòu)化兩種數(shù)據(jù)源,在結(jié)構(gòu)化數(shù)據(jù)提供少量種子的情況下用規(guī)則推理引擎推理出更多的實(shí)體關(guān)系。然后使用遠(yuǎn)程監(jiān)督學(xué)習(xí)方法從無(wú)結(jié)構(gòu)的文本中抽取實(shí)體關(guān)系,通過(guò)多次迭代獲得最終的實(shí)體關(guān)系。實(shí)驗(yàn)結(jié)果證明了該方法的有效性。

      2015-08,Accepted 2015-10.

      *The Software and Integrated Circuit Industry Development Special Funds of Shanghai Economic and Information Commission under Grant No.140304(上海市經(jīng)信委“軟件和集成電路產(chǎn)業(yè)發(fā)展專項(xiàng)資金”).

      CNKI網(wǎng)絡(luò)優(yōu)先出版:2015-10-20,http://www.cnki.net/kcms/detail/11.5602.TP.20151020.1042.016.html

      A

      TP391

      猜你喜歡
      三元組引擎實(shí)體
      基于語(yǔ)義增強(qiáng)雙編碼器的方面情感三元組提取
      軟件工程(2024年12期)2024-12-28 00:00:00
      基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
      前海自貿(mào)區(qū):金融服務(wù)實(shí)體
      關(guān)于余撓三元組的periodic-模
      藍(lán)谷: “涉藍(lán)”新引擎
      商周刊(2017年22期)2017-11-09 05:08:31
      實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
      兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
      振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
      無(wú)形的引擎
      河南電力(2015年5期)2015-06-08 06:01:46
      基于Cocos2d引擎的PuzzleGame開發(fā)
      晋宁县| 防城港市| 丰原市| 香河县| 襄汾县| 临沧市| 哈密市| 涞源县| 商城县| 陇川县| 理塘县| 田阳县| 旬邑县| 曲周县| 章丘市| 彰化县| 大冶市| 鹤山市| 海丰县| 汽车| 长兴县| 绩溪县| 潜山县| 安阳县| 滨州市| 微山县| 临安市| 东海县| 霍林郭勒市| 永城市| 上饶县| 肇源县| 阿勒泰市| 东明县| 北宁市| 古浪县| 阜新市| 如皋市| 东乡族自治县| 建阳市| 叶城县|