• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于層次聚類的跨文本中文人名消歧研究

      2014-07-07 01:49:30張菲菲李宗海周曉輝李曉戈
      關(guān)鍵詞:消歧評(píng)測(cè)文檔

      張菲菲,李宗海,周曉輝,李曉戈,

      1.西安郵電大學(xué),西安 710121

      2.濟(jì)南中林信息科技有限公司,濟(jì)南 250100

      基于層次聚類的跨文本中文人名消歧研究

      張菲菲1,李宗海2,周曉輝1,李曉戈1,2

      1.西安郵電大學(xué),西安 710121

      2.濟(jì)南中林信息科技有限公司,濟(jì)南 250100

      人名消歧已經(jīng)成為自然語言處理和信息抽取應(yīng)用中亟待解決的重要問題。運(yùn)用中文自然語言處理和信息抽取系統(tǒng)識(shí)別命名實(shí)體和實(shí)體關(guān)系,生成實(shí)體信息對(duì)象(Entity Profile),采用實(shí)體信息對(duì)象(EP)中的個(gè)人信息特征,實(shí)體關(guān)系和上下文相關(guān)信息在Hadoop平臺(tái)上基于凝聚的層次聚類方法解決了實(shí)體消歧問題。采用哈爾濱工業(yè)大學(xué)整理的全網(wǎng)新聞?wù)Z料作為人名消歧訓(xùn)練和測(cè)試數(shù)據(jù),著重研究了中文人名消歧特征的選取,參數(shù)的確定和驗(yàn)證,在訓(xùn)練集和測(cè)試集上分別取得了91.33%和88.73%的F值。說明提出的方法具有較好的可行性。

      人名消歧;信息抽?。幌嗨贫?;層次聚類

      1 引言

      在互聯(lián)網(wǎng)上搜索人名已經(jīng)十分常見,但人名重名的現(xiàn)象也非常普遍,往往搜索的結(jié)果中會(huì)出現(xiàn)大量相同名字的網(wǎng)頁。曾統(tǒng)計(jì)搜索“李靜”,在結(jié)果去重后選取前43個(gè)搜索結(jié)果,統(tǒng)計(jì)網(wǎng)頁中的“李靜”分別表示了6個(gè)不同的人。

      命名實(shí)體消歧已經(jīng)成為自然語言處理中亟待解決的重要問題,對(duì)問答系統(tǒng),信息檢索[1],網(wǎng)絡(luò)知識(shí)庫和復(fù)雜信息網(wǎng)絡(luò)構(gòu)建有著重要影響。在基本的三大類命名實(shí)體中,人名比地名、組織機(jī)構(gòu)名具有更強(qiáng)的歧義性,解決難度也更高。例如,在不同的文本源中,相同的姓名代表不同的人物實(shí)體,不同的姓名代表相同的人物實(shí)體。這種現(xiàn)象的存在極大地制約著信息抽取應(yīng)用[2]的可靠性與實(shí)用性。本文在自然語言處理和信息抽取技術(shù)的基礎(chǔ)上,針對(duì)由不同文檔抽取出來的人物實(shí)體信息的相似度矩陣進(jìn)行聚類,從而實(shí)現(xiàn)人名消歧。

      2 相關(guān)工作研究

      人名消歧早期主要是針對(duì)新聞?lì)愋偷奈谋拘畔⒓耙恍W(xué)術(shù)中自動(dòng)處理中人名消歧的問題研究。早在1994年,跨文檔指代消解(Cross-Document Co-reference,CDC)作為MUC-6[3]的潛在任務(wù)被首次提出。1998年,Bagga和Baldwin[4]提出用向量空間模型(Vector Space Model,VSM)算法,將實(shí)體信息的比較轉(zhuǎn)換為空間向量的比較,實(shí)現(xiàn)跨文檔人名的指代消解。為了對(duì)他們的系統(tǒng)進(jìn)行評(píng)估,他們還提出了B-CUBED算法對(duì)跨文檔指代消解進(jìn)行性能評(píng)估。2007年,WePS(Web People Search)[5]評(píng)測(cè)研討會(huì)與語義評(píng)測(cè)研討會(huì)組織了針對(duì)英文網(wǎng)頁中的人名消歧的評(píng)測(cè)任務(wù),WePS還分別在2009年與2010年開展了兩屆關(guān)于網(wǎng)絡(luò)人名消歧的評(píng)測(cè)會(huì)議。2008年,ACE評(píng)測(cè)會(huì)議將GEDR(Global Entity Detection and Recognition)和GRDR(Global Relation Detection and Recognition)作為兩項(xiàng)重要的評(píng)測(cè)內(nèi)容,并對(duì)英語和阿拉伯語兩類語種進(jìn)行了評(píng)測(cè)。

      相比于英文,中文人名消歧研究工作開展較晚。2010年,SIGHAN-CIPS聯(lián)合學(xué)術(shù)會(huì)議CLP2010[6]開展了首次設(shè)置了中文跨文本人名消歧任務(wù)評(píng)測(cè),其中東北大學(xué)的周曉[7]等在實(shí)驗(yàn)室開發(fā)的領(lǐng)域知識(shí)庫中,抽取文檔人物的屬性特征建立不同人物之間的互斥關(guān)系,并利用之間的關(guān)系進(jìn)一步聚類。東北大學(xué)的丁海波[8]使用了相類似的方法,抽取人物屬性進(jìn)行初步聚類,之后利用局部上下文特征和全局特征依次進(jìn)行聚類。這些方法都取得了一定的成果,但由于研究過程都非常依賴領(lǐng)域知識(shí)庫,缺少一定的通用性。哈工大的郎君等[9]依據(jù)同名不同人物具有不同網(wǎng)絡(luò)思想,對(duì)搜索結(jié)果有重名的人名進(jìn)行消歧。他們都是從特征選擇方面進(jìn)行人名消歧的研究,而沒有對(duì)聚類方法進(jìn)行改進(jìn)。

      3 系統(tǒng)架構(gòu)與研究方法

      3.1 系統(tǒng)架構(gòu)

      跨文本的命名實(shí)體消歧任務(wù)可分解為命名實(shí)體識(shí)別,篇章內(nèi)命名實(shí)體融合和跨文本的命名實(shí)體消歧。本文提出的人名消歧系統(tǒng)是建立在信息抽取系統(tǒng)之上。圖1給出了信息抽取系統(tǒng)的基本架構(gòu),其中包含的三大功能模塊:(1)基于自然語言處理技術(shù)的信息抽取系統(tǒng);(2)跨文本的實(shí)體信息聚合;(3)信息抽取應(yīng)用系統(tǒng)。為了提高系統(tǒng)運(yùn)行效率,整個(gè)系統(tǒng)運(yùn)行在由6臺(tái)服務(wù)器組成的Hadoop平臺(tái)之上,采用了Map Reduce分布式并行計(jì)算方式。

      信息抽取系統(tǒng)通過對(duì)單一文本進(jìn)行一系列自然語言處理分析,包括實(shí)體、實(shí)體關(guān)系識(shí)別,時(shí)間、地點(diǎn)歸一化分析,別名識(shí)別和指代消解,完成文本內(nèi)的命名實(shí)體的信息

      對(duì)象聚合(Entity Profile merge),并將結(jié)果保存到實(shí)體信息庫??缥谋拘畔⒕酆舷到y(tǒng)在完成了跨文本命名實(shí)體消岐之后,合并相關(guān)的實(shí)體信息存回信息庫。實(shí)體信息庫為其他上層應(yīng)用系統(tǒng),如:?jiǎn)柎鹣到y(tǒng)、信息分析系統(tǒng)、信息網(wǎng)絡(luò)可視化等提供支持。

      圖1 系統(tǒng)框架圖

      實(shí)體信息聚合系統(tǒng)的關(guān)鍵是實(shí)體的消岐,在大規(guī)模的文本語料中大量地存在著相同的名稱表示不同的實(shí)體,不同的名稱代表相同的實(shí)體??缥谋久麑?shí)體消岐工作首先需要進(jìn)行文本中命名實(shí)體的識(shí)別,篇章內(nèi)實(shí)體消岐。本文所用的基于自然語言處理技術(shù)的中文信息抽取系統(tǒng)采用了有限狀態(tài)轉(zhuǎn)換機(jī)(FST)規(guī)則和統(tǒng)計(jì)機(jī)器學(xué)習(xí)相結(jié)合的方法,運(yùn)用多層模塊化設(shè)計(jì)思想實(shí)現(xiàn)了非受限域命名實(shí)體(NE)識(shí)別(時(shí)間、地點(diǎn)、人物、組織機(jī)構(gòu)、產(chǎn)品),實(shí)體關(guān)系(Correlated Entity,CE)識(shí)別,并利用別名和指代消解實(shí)現(xiàn)了命名實(shí)體信息對(duì)象(Entity Profile)聚合,信息抽取系統(tǒng)的具體技術(shù)實(shí)現(xiàn)細(xì)節(jié)將另文介紹。

      3.2 實(shí)體信息抽取

      系統(tǒng)使用最基本的三類命名實(shí)體作為信息抽取的中心:人物實(shí)體(NePer),組織實(shí)體(NeOrg),地點(diǎn)實(shí)體(NeLoc)。其中,與人名消歧密切相關(guān)的是人物實(shí)體和組織實(shí)體。

      人物實(shí)體(NePer)在文本中表現(xiàn)形式主要為人物姓名,以及部分常見別名,簡(jiǎn)稱等,如:

      曾國藩/NePer謚號(hào)是文正,因而也被人稱為文正公/ NePer.

      組織實(shí)體(NeOrg)包括組織機(jī)構(gòu)的全名及簡(jiǎn)稱,如:

      中國聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司/NeOrg(簡(jiǎn)稱“中國聯(lián)通/NeOrg”)于2009年1月6日/NeTIME在原中國網(wǎng)通/NeOrg和原中國聯(lián)通/NeOrg的基礎(chǔ)上合并組建而成,是中國/NeLoc唯一一家在紐約/NeLoc、香港/NeLoc、上海/NeLoc三地同時(shí)上市的電信運(yùn)營企業(yè)。

      實(shí)體信息的主要來源是實(shí)體間的關(guān)系信息,使用規(guī)則進(jìn)行關(guān)系實(shí)體(CE)的抽取,本質(zhì)上是模式匹配的過程。抽取關(guān)系實(shí)體的規(guī)則中主要有兩類要件:實(shí)體與限定詞。定義規(guī)則,即是依照行文語法,將目標(biāo)實(shí)體和限定詞按照特定的順序進(jìn)行排列。當(dāng)計(jì)算機(jī)查找到符合這一排列順序的字符串時(shí),規(guī)則生效,關(guān)系實(shí)體抽取成功。

      實(shí)體關(guān)系定義:R=。ne1是關(guān)系R中在起始位置的命名實(shí)體,feature1是它的詞性,實(shí)體類別等的特征。同理,ne2是關(guān)系R中在結(jié)束位置的命名實(shí)體,feature2是它的特征。比如:

      人物配偶關(guān)系:

      起始位置的命名實(shí)體特征為男性名,結(jié)束位置特征為女性名。

      規(guī)則:ne1/NeMa(的)[妻子]([是])ne2/NeWom。

      規(guī)則定義中,()表示此位置限定詞允許不出現(xiàn),[]表示此位置的限定詞是一類詞。規(guī)則中限定詞[妻子]位置上允許的詞有:妻子、夫人、媳婦、老婆等。()與[]同時(shí)出現(xiàn)表示此位置的限定詞是一類詞且允許其不出現(xiàn)。表1是滿足規(guī)則的示例。

      表1 人物配偶關(guān)系的示例

      本文采用隨機(jī)下載了互聯(lián)網(wǎng)上新浪新聞80篇,對(duì)信息抽取系統(tǒng)進(jìn)行了命名實(shí)體(NE)和實(shí)體關(guān)系(CE)測(cè)試。表2給出了信息抽取系統(tǒng)對(duì)于人物,組織機(jī)構(gòu)和地點(diǎn)三類命名實(shí)體的測(cè)試結(jié)果,其準(zhǔn)確率達(dá)到了89.05%~96.93%,表3為CE關(guān)系測(cè)試結(jié)果,其準(zhǔn)確率達(dá)到了83.33%~100%。

      表2 命名實(shí)體測(cè)試結(jié)果(%)

      表3 實(shí)體關(guān)系測(cè)試結(jié)果(%)

      3.3 實(shí)體信息對(duì)象模型

      在信息抽取系統(tǒng)中,以命名實(shí)體和事件為中心,建立了信息對(duì)象模型Entity Profile(EP)。EP可定義為一個(gè)屬性值矩陣Attribute Value Matrix(AVM),如下:

      每一對(duì)屬性-值通過信息抽取系統(tǒng)的實(shí)體關(guān)系(CE)表示,實(shí)體關(guān)系是由實(shí)體為核心的屬性關(guān)系,如:所屬機(jī)構(gòu),出生地點(diǎn)以及實(shí)體的修飾語等。在非受限領(lǐng)域里,定義了人物,組織機(jī)構(gòu),地點(diǎn),時(shí)間,產(chǎn)品5大類基本實(shí)體信息對(duì)象。表4為一個(gè)文章中人物命名實(shí)體的Profile例子。

      表4 profile結(jié)構(gòu)

      在文檔中,描述實(shí)體特征的關(guān)鍵信息非常重要,比如:人名,別名,組織名,地名,時(shí)間,產(chǎn)品名,聯(lián)系方式(電話號(hào)碼,電子郵件等)等。本文采用空間向量對(duì)profile選取的所有特征進(jìn)行向量表示,以便每個(gè)profile都可以用一組特征向量所表示。一個(gè)文檔的內(nèi)容被看成是它含有特征項(xiàng)所組成的集合,對(duì)于含有n個(gè)特征項(xiàng)的文檔profile=P(t1,t2,…,tn),其中tk是特征項(xiàng),每一個(gè)特征項(xiàng)tk都依據(jù)一定的原則被賦予一個(gè)權(quán)重wk,表示它們?cè)谖臋n中的重要程度。這樣一個(gè)profile可用它含有的特征項(xiàng)及其特征項(xiàng)所對(duì)應(yīng)的權(quán)重所表示:P=P(t1,w1;t2,w2;…;tn,wn),簡(jiǎn)記為P=P(w1,w2,…,wn),1≤k≤n。

      3.4 特征選取及相似度計(jì)算

      本文將人名消歧看作是無監(jiān)督的層次聚類問題。選取的特征采用權(quán)值法和空間向量模型(Vector Space Model,VSM)方法計(jì)算profile間的相似度,得到所有profile的相似度,最后,利用凝聚層次聚類算法對(duì)相似度矩陣進(jìn)行聚類。

      對(duì)相同人名進(jìn)行消歧,最重要的就是需要選出能夠區(qū)別不同人名的一些主要特征,然后通過所選的特征及其之間的相似程度,層次聚類算法可以計(jì)算出每個(gè)人名所屬的類。比如,任意兩個(gè)profileP1=P1(w11,w12,…,w1n)和P2=P2(w21,w22,…,w2n)。本文選取的特征及P1和P2的相似度計(jì)算如下:

      (1)個(gè)人信息特征:個(gè)人信息(Personal Information,PI)是識(shí)別人物身份特征的重要信息,如姓名,別名,出生日期,出生地點(diǎn),居住地,Email,職位,家庭成員等。在計(jì)算個(gè)人信息的相似度時(shí),根據(jù)不同信息對(duì)人物特征反映出的程度不同,分別賦予不同的權(quán)重。個(gè)人信息特征相似度計(jì)算公式:

      其中ce1i和ce2j分別表示P1的第i個(gè)重要信息和P2的第j個(gè)重要信息。

      (2)關(guān)系信息特征:關(guān)系信息(Relationship Information,RI)是與人物有關(guān)的命名實(shí)體(NE),是指和此人在同一篇文檔內(nèi)共同出現(xiàn)的人,地點(diǎn),組織機(jī)構(gòu)等。關(guān)系信息相似度是指由關(guān)系信息構(gòu)成的空間向量的相似度,計(jì)算公式為:

      其中wij=tf×lg,表示由NE構(gòu)成的空間向量。w1j是特征tj在P1中的權(quán)重,w2j是特征tj在P2中的權(quán)重。tf表示特征tj在P中出現(xiàn)的頻率,D表示profile總數(shù),df表示出現(xiàn)該人名的profile總數(shù)。

      (3)文檔上下文信息特征:文檔上下文信息(Document Context Information,DCI)是指在文檔內(nèi)的上下文信息中能夠一定程度反映人物特征的信息。文檔上下文信息相似度是指由文檔上下文信息去除停用詞后構(gòu)成的向量的相似度,計(jì)算公式為:

      詞語構(gòu)成的空間向量。詞組權(quán)重的計(jì)算同樣采用的是TF-IDF方法。

      綜上,兩個(gè)人物之間的相似度為:

      然后根據(jù)兩個(gè)profile的相似度值prfsim(p1,p2)來判斷它們是否為共指關(guān)系:

      其中threshold是共指關(guān)系的置信度,即類與類之間合并的閾值。若CO為1,則它們是共指關(guān)系,即p1和p2指相同的實(shí)體,否則相反。

      3.5 層次聚類算法

      根據(jù)上述相似度計(jì)算方法,計(jì)算出兩個(gè)profile之間的相似度,形成相似度矩陣,然后進(jìn)行聚類。本文采用的是層次凝聚聚類算法進(jìn)行處理人名消歧問題,類間距離計(jì)算采用的是平均距離法。公式如下:

      聚類初始時(shí),將每個(gè)人名對(duì)應(yīng)的profile集P={p1,…,pi,…,pn}中的每一個(gè)profilepi看作是一個(gè)具有單個(gè)成員的類Ci={pi},所以就構(gòu)成了P的一個(gè)聚類C= {c1,c2,…,cn},對(duì)于類(ci,cj)之間采用上面的特征向量進(jìn)行計(jì)算其相似度,然后選取相似度值最大的兩個(gè)簇進(jìn)行合并,形成一個(gè)新的類,即ck=ci∪cj,從而對(duì)于P形成一個(gè)新的聚類C={c1,c2,…,cn-1};重復(fù)上面的步驟,直到所有的簇間的相似度小于某個(gè)閾值或全部成為一個(gè)簇。偽代碼算法如下:

      4 實(shí)驗(yàn)及結(jié)果分析

      4.1 實(shí)驗(yàn)數(shù)據(jù)

      本文使用由哈爾濱工業(yè)大學(xué)整理的基于搜狗全網(wǎng)新聞數(shù)據(jù)的人名消歧語料作為實(shí)驗(yàn)數(shù)據(jù)[10],并選取“李靜”和“李麗”的文本作為訓(xùn)練集,選取“王磊”和“李明”的文本作為測(cè)試集,為了進(jìn)一步驗(yàn)證訓(xùn)練參數(shù)的普遍適用性,對(duì)2012年全年人民日?qǐng)?bào)上的“王剛”進(jìn)行人名消歧,抽取人物profile,對(duì)其進(jìn)行人工標(biāo)注并以Purity& Inverse Purity Metrics方法對(duì)聚類結(jié)果進(jìn)行了評(píng)測(cè)。

      4.2 實(shí)驗(yàn)評(píng)測(cè)標(biāo)準(zhǔn)

      本文采用Purity&Inverse Purity評(píng)測(cè)機(jī)制。評(píng)測(cè)指標(biāo)有三個(gè):Pur、InvP及F值[10]。公式如下:

      為了更好地評(píng)估實(shí)驗(yàn)結(jié)果,取α=0.5,用Fα=0.5對(duì)P和R進(jìn)行綜合評(píng)測(cè)。S={S1,S2,…}是將要進(jìn)行評(píng)測(cè)的聚類集,R={R1,R2,…}是人工標(biāo)注的聚類集。

      4.3 實(shí)驗(yàn)結(jié)果分析

      本文對(duì)實(shí)驗(yàn)數(shù)據(jù)主要從三個(gè)角度分析,即確定最佳參數(shù),不同特征組合的最佳結(jié)果對(duì)比分析和對(duì)最佳參數(shù)驗(yàn)證。

      (1)參數(shù)調(diào)整:實(shí)驗(yàn)采用語料庫中“李靜”和“李麗”的數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù),用信息抽取系統(tǒng)對(duì)測(cè)試集進(jìn)行處理,共抽取出8 847個(gè)人物實(shí)體的profile,其中“李靜”和“李麗”的profile共641個(gè)。實(shí)驗(yàn)利用自動(dòng)測(cè)試程序?qū)€(gè)人信息、關(guān)系信息、文檔上下文信息的參數(shù)及閾值四者的不同組合進(jìn)行循環(huán)測(cè)試,對(duì)不同組合下得出的F值進(jìn)行比較,結(jié)果確定最佳一組參數(shù)為α=0.36,β=1,γ= 0.6,且threshold=0.28,其準(zhǔn)確率、召回率和F值分別為94.65%、88.24%和91.33%。圖2是在最佳參數(shù)下準(zhǔn)確率、召回率和F值改變的曲線圖。

      圖2 P、R和F隨閾值的變化曲線圖

      圖2顯示,閾值在0.2~0.3之間時(shí),F(xiàn)值相對(duì)比較高,在閾值為0.28時(shí),F(xiàn)值達(dá)到最高91.33%。同時(shí)準(zhǔn)確率在逐漸提高時(shí),召回率在逐漸減小。因?yàn)楫?dāng)閾值很低的時(shí)候,profile中每?jī)蓚€(gè)待消歧的人名就會(huì)被聚為一類,所以召回率就比較高。當(dāng)閾值較高時(shí),使原本應(yīng)該聚類的profile沒有聚類,導(dǎo)致沒有正確識(shí)別出待消歧人名。

      (2)特征分析:根據(jù)對(duì)個(gè)人信息(PI)、關(guān)系信息(RI)及文檔上下文信息(DCI)特征選取的不同組合進(jìn)行了不同實(shí)驗(yàn),得到的最佳結(jié)果如表5所示。

      表5 Purity&Inverse Purity評(píng)測(cè)機(jī)制實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)(%)

      以上三種特征組合下的F值如圖3所示。

      圖3 以上三種特征組合下的F值

      從表5可以看出,當(dāng)僅使用個(gè)人信息特征時(shí),準(zhǔn)確率尚可,但召回率較低,說明個(gè)人信息雖能表示一個(gè)人的身份,但由于語料中出現(xiàn)的個(gè)人信息特征比較少,所以造成召回率比較低。在加入實(shí)體關(guān)系特征時(shí),召回率提高了44個(gè)百分點(diǎn),說明語料中使用實(shí)體關(guān)系特征就能夠較好地表示一個(gè)人的身份,且語料中實(shí)體關(guān)系較多。同時(shí),在構(gòu)建社交網(wǎng)絡(luò)時(shí),實(shí)體關(guān)系信息特征會(huì)起著至關(guān)重要的作用。比如:

      (1)四川省出席黨的十八大代表大會(huì)的有丁愛譜、王堅(jiān)、王志強(qiáng)、李靜、劉作明、宋朝華、吳小可等72名成員。

      (2)李靜、宋朝華和吳小可等出席簽約儀式。

      此時(shí)(1)和(2)中的“李靜”并沒有明顯的個(gè)人信息特征,但兩次均與“宋朝華、吳小可”兩人共同出現(xiàn),說明兩個(gè)“李靜”是同一個(gè)人。

      同時(shí)使用三種信息特征時(shí),召回率有所提高,準(zhǔn)確率稍微下降,是因?yàn)樵谡Z料中添加能夠反映人物特征的信息比較多,但這些特征對(duì)于每一個(gè)人不具有普遍性,所以造成提高了召回率,準(zhǔn)確率下降了1.78個(gè)百分點(diǎn),但總體評(píng)測(cè)標(biāo)準(zhǔn)F值還是有所提高。而且圖2也顯示了在三種情況下,F(xiàn)值也是逐漸提高的。

      (3)參數(shù)驗(yàn)證:對(duì)哈爾濱工業(yè)大學(xué)整理全網(wǎng)新聞數(shù)據(jù)語料中,選取“王磊”和“李明”進(jìn)行人名消歧,分別抽取出6 632和14 376個(gè)人物實(shí)體的profile,對(duì)其進(jìn)行聚類,并采用Purity&Inverse Purity進(jìn)行評(píng)測(cè),同時(shí)分別加入維基百科上的“王磊”和“李明”的profile,共6 715和14 407個(gè),用同樣的方法進(jìn)行驗(yàn)證,取得結(jié)果分別如表6和表7所示。

      表6 兩個(gè)人名實(shí)驗(yàn)測(cè)試結(jié)果(%)

      表7 兩個(gè)人名加入百科后實(shí)驗(yàn)測(cè)試結(jié)果(%)

      圖4 (a)王磊在加入百科前后比較

      實(shí)驗(yàn)結(jié)果測(cè)試“王磊”和“李明”的F值分別為88.7%和87.28%,取得相對(duì)比較理想的結(jié)果,在加入維基百科數(shù)據(jù)后,測(cè)試F值分別為89.5%和87.96%,比未加之前分別提高了一個(gè)百分點(diǎn)。維基百科中的數(shù)據(jù)比較規(guī)范,更新比較快,且能夠抽取出更為豐富的個(gè)人信息和關(guān)系信息特征,所以評(píng)測(cè)的結(jié)果顯示召回率提高了2個(gè)百分點(diǎn),如圖4所示。在加入維基百科數(shù)據(jù)以后,評(píng)測(cè)結(jié)果說明采用本文系統(tǒng)訓(xùn)練出的這組參數(shù)具有普遍適用性。

      同時(shí),對(duì)2012年全年的人民日?qǐng)?bào)上的“王剛”進(jìn)行人名消歧,共抽取出54 782個(gè)人物的profile,采用同樣的方法并對(duì)其中533篇“王剛”的profile進(jìn)行了聚類,聚類結(jié)果是6類實(shí)體profile,并且對(duì)聚類結(jié)果進(jìn)行評(píng)測(cè),取得非常好的結(jié)果,如表8所示。

      表8 人民日?qǐng)?bào)實(shí)驗(yàn)測(cè)試結(jié)果(%)

      人民日?qǐng)?bào)的數(shù)據(jù)集是web數(shù)據(jù)集上的一個(gè)子集,數(shù)據(jù)源相對(duì)比較規(guī)范,人物報(bào)道相對(duì)比較集中,多數(shù)profile只通過個(gè)人信息和關(guān)系信息特征就很容易合并。實(shí)驗(yàn)結(jié)果表明,本系統(tǒng)在較為規(guī)范的數(shù)據(jù)集下有非常滿意的測(cè)試結(jié)果。

      5 結(jié)束語

      本文主要解決了自然語言處理中的人名消歧問題,采用了基于凝聚層次聚類的方法,通過對(duì)個(gè)人信息、關(guān)系信息及文檔上下文信息特征提取,這三個(gè)特征基本能夠確定一個(gè)人的身份,實(shí)驗(yàn)通過訓(xùn)練集對(duì)部分?jǐn)?shù)據(jù)測(cè)試,得到一組最佳參數(shù),再用這組參數(shù)去測(cè)試剩下的數(shù)據(jù),為了進(jìn)一步證明本文方法的適用性,還采用了2012年的人民日?qǐng)?bào)進(jìn)行測(cè)試,均取得比較好的實(shí)驗(yàn)結(jié)果。

      圖4 (b)李明在加入百科前后比較

      當(dāng)然,本文的系統(tǒng)還不夠完善,在下一步的研究工作中,打算結(jié)合互聯(lián)網(wǎng)上的知識(shí)數(shù)據(jù)庫進(jìn)行進(jìn)一步研究,改進(jìn)目前的跨文本實(shí)體信息聚合系統(tǒng)。

      [1]Gao Liqi,Zhang Yu,Liu Ting,et al.Word sense language model for information retrieval[C]//AIRS,2006.

      [2]李保利,陳玉忠,俞士汶.信息抽取研究綜述[J].計(jì)算機(jī)工程與應(yīng)用,2003,39(10):1-5.

      [3]McCarthy,Lehnert W.Using decision trees for coreference resolution[C]//Proceedings of the Sixth Message Understanding Conference(MUC-6),1995.

      [4]Bagga A,Baldwin B.Entity-based cross-document coreferencing using the vector space model[C]//Proceeding of the 17th International Conference on Computational Linguistics,Canada,1998:79-85.

      [5]WePS-3 workshop program[EB/OL].(2010-07-10).http:// nlp.uned.es/weps/.

      [6]Task3 Chinese version[EB/OL].(2010-10-16).http://www. clpsc.org.cn/clp2010/task3_ch.htm.

      [7]周曉,李超,胡明涵,等.基于人物互斥屬性的中文人名消歧[C]//第六屆全國信息檢索學(xué)術(shù)會(huì)議(CCIR),2010:333-340.

      [8]丁海波,肖桐,朱靖波.基于多階段的中文人名消歧聚類技術(shù)的研究[C]//第六屆全國信息檢索學(xué)術(shù)會(huì)(CCIR),2010:316-324.

      [9]郎君,秦兵,宋巍,等.基于社會(huì)網(wǎng)絡(luò)的人名檢索結(jié)果重名消解[J].計(jì)算機(jī)學(xué)報(bào),2009(7):1365-1375.

      [10]王鑫.人名消歧關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D].哈爾濱:哈爾濱工業(yè)大學(xué),2012.

      [11]Shingo O,Issei S,Minoru Y.Person name disambiguation in Web pages using social network,compound words and latent topics[C]//LNAI 5012:PAKDD2008,2008:260-271.

      ZHANG Feifei1,LI Zonghai2,ZHOU Xiaohui1,LI Xiaoge1,2

      1.Xi’an University of Posts&Telecommunications,Xi’an 710121,China
      2.Jinan Zhonglin Information Technology Co.,Ltd,Jinan 250100,China

      Cross-document entity disambiguation is the problem of identifying whether mentions from different documents refer to the same or distinct entities.This paper describes a Chinese information extraction system which involves both document-level IE and corpus-level IE,a pipeline and multi-level modular approach to name entity and Entity Profile extraction.It introduces novel features based on document-level entity profiles and study on the influence of feature selection, parameter selection,parameter validation and analysis on results.Disambiguation is performed based on agglomerative hierarchical clustering using Hadoop.Experiments show that F-measure of training set is 91.33%and testing set is 88.73%, using the whole network news corpus dataset from Harbin Institute of Technology.

      entity disambiguation;information extraction;similarity;hierarchical clustering

      A

      TP391.12

      10.3778/j.issn.1002-8331.1309-0423

      ZHANG Feifei,LI Zonghai,ZHOU Xiaohui,et al.Cross-document Chinese personal name entity disambiguation based on hierarchical clustering.Computer Engineering and Applications,2014,50(6):106-111.

      張菲菲(1987—),女,碩士,主要研究方向:命名實(shí)體消歧和文本數(shù)據(jù)挖掘;李宗海(1988—),男,主要研究方向:信息抽取、人工智能;周曉輝(1978—),男,博士,教授,主要研究方向:電子商務(wù)、并行計(jì)算和分布式存儲(chǔ);李曉戈(1962—),男,博士,教授,主要研究方向:自然語言處理、機(jī)器學(xué)習(xí)和文本數(shù)據(jù)挖掘。

      2013-09-27

      2013-11-15

      1002-8331(2014)06-0106-06

      猜你喜歡
      消歧評(píng)測(cè)文檔
      基于關(guān)聯(lián)圖和文本相似度的實(shí)體消歧技術(shù)研究*
      有人一聲不吭向你扔了個(gè)文檔
      次時(shí)代主機(jī)微軟XSX全方位評(píng)測(cè)(下)
      次時(shí)代主機(jī)微軟XSX全方位評(píng)測(cè)(上)
      基于半監(jiān)督集成學(xué)習(xí)的詞義消歧
      攻坡新利器,TOKEN VENTOUS評(píng)測(cè)
      藏文歷史文獻(xiàn)識(shí)別過程中藏文自由虛詞的自動(dòng)識(shí)別及消歧算法的研究
      Canyon Ultimate CF SLX 8.0 DI2評(píng)測(cè)
      中國自行車(2017年1期)2017-04-16 02:54:06
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      庆安县| 宣恩县| 天津市| 徐州市| 镇巴县| 旬阳县| 治多县| 洪雅县| 甘肃省| 宁蒗| 白河县| 武穴市| 沁阳市| 社旗县| 改则县| 金川县| 天门市| 普兰店市| 芮城县| 龙胜| 西充县| 长葛市| 临江市| 铁岭县| 遵化市| 和平县| 嘉兴市| 锦州市| 淳化县| 江西省| 榆树市| 云龙县| 文成县| 紫金县| 右玉县| 宁远县| 北川| 上饶市| 民乐县| 安泽县| 漳州市|