• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于關(guān)聯(lián)圖和文本相似度的實(shí)體消歧技術(shù)研究*

      2022-01-15 06:24:02王章輝呂亞茹張涵婷
      關(guān)鍵詞:消歧全局文檔

      王章輝 呂亞茹 張涵婷

      (遼寧大學(xué)信息學(xué)院 沈陽 110036)

      1 引言

      網(wǎng)絡(luò)中的數(shù)據(jù)通常都是以自然語言的形式存在的,而自然語言存在較多的一詞多義或多詞一義的現(xiàn)象。因此,計(jì)算機(jī)是不能直接理解和處理這些非結(jié)構(gòu)化文本信息的。我們利用實(shí)體鏈接技術(shù)將自然語言中的提及和知識(shí)圖譜中存儲(chǔ)的實(shí)體相關(guān)聯(lián),在進(jìn)行自然語言處理的時(shí)候就可以利用知識(shí)圖譜中的結(jié)構(gòu)化信息,使計(jì)算機(jī)更好地理解文本中的信息。

      實(shí)體消歧任務(wù)是實(shí)體鏈接中最為重要的一個(gè)階段。因?yàn)閷?shí)體識(shí)別后的結(jié)果很難直接加入到知識(shí)圖譜當(dāng)中。必須要對實(shí)體識(shí)別的結(jié)果進(jìn)行消歧,才能找到文檔中實(shí)體指稱在知識(shí)圖譜中所對應(yīng)的實(shí)體。本文對實(shí)體消歧技術(shù)進(jìn)行研究,提出一種文檔級(jí)的實(shí)體消歧技術(shù)。

      本文的主要貢獻(xiàn)如下:

      1)提出一種文檔級(jí)實(shí)體消歧技術(shù),在局部消歧的基礎(chǔ)上,增加了文檔中實(shí)體之間的關(guān)聯(lián)信息。

      2)局部消歧采用BiLSTM+Attention模型提取文本中實(shí)體指稱的上下文特征向量,利用TransE[1]模型來表示知識(shí)圖譜中候選實(shí)體的特征向量,然后利用相似性函數(shù)計(jì)算實(shí)體指稱和候選實(shí)體的之間的相似性得分作為候選實(shí)體的局部消歧得分。

      3)提出一種關(guān)聯(lián)圖的構(gòu)造方法,將候選實(shí)體作為節(jié)點(diǎn),利用知識(shí)圖譜中實(shí)體之間的路徑信息計(jì)算節(jié)點(diǎn)之間的關(guān)聯(lián)度。

      4)利用文檔中的所有實(shí)體指稱之間的關(guān)聯(lián)信息和候選實(shí)體的局部消歧得分,采用基于關(guān)聯(lián)圖和PageRank算法[2]的全局消歧模型進(jìn)行對文檔中的所有實(shí)體指稱協(xié)同消歧。

      5)使用不同的數(shù)據(jù)集,通過局部消歧和全局消歧兩種方法進(jìn)行對比試驗(yàn)和消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明本文的方法具有較好的消歧效果。

      2 相關(guān)工作

      實(shí)體消歧技術(shù)一般分為局部消歧和全局消歧兩種,局部消歧算法是對文檔中的每個(gè)實(shí)體單獨(dú)進(jìn)行消歧,而全局消歧算法是對文檔中所有的實(shí)體指稱進(jìn)行協(xié)同消歧。

      局部消歧技術(shù)通過對文本中實(shí)體指稱的特征進(jìn)行提取來進(jìn)行實(shí)體消歧,關(guān)鍵是選取合適的模型對實(shí)體指稱的信息進(jìn)行表示。從不同粒度來表示實(shí)體比較復(fù)雜,可以采用基于深度學(xué)習(xí)的方法自動(dòng)學(xué)習(xí)實(shí)體以及實(shí)體指稱項(xiàng)的分布式表示。Francis-Landau等[3]分別利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)學(xué)習(xí)文本的表示,根據(jù)余弦相似度對實(shí)體指稱的每一個(gè)候選實(shí)體進(jìn)行局部評(píng)分。Sun等[4]利用卷積神經(jīng)網(wǎng)絡(luò)來表示上下文,使用神經(jīng)張量網(wǎng)絡(luò)對實(shí)體指稱上下文的語義進(jìn)行建模。通常實(shí)體指稱的上下文信息比較多,有些詞和實(shí)體指稱的關(guān)聯(lián)性不大,這樣在訓(xùn)練上下文的表示時(shí)會(huì)產(chǎn)生噪音,影響消歧效果。有學(xué)者提出將注意力機(jī)制與深度神經(jīng)網(wǎng)絡(luò)結(jié)合來訓(xùn)練上下文的語義特征表示。Wei等[5]提出一種基于注意力的深度神經(jīng)網(wǎng)絡(luò)(DNN)的中文實(shí)體鏈接系統(tǒng)。局部消歧技術(shù)每次只處理文檔中單個(gè)實(shí)體指稱,忽略了文檔中所有的實(shí)體指稱所對應(yīng)的目標(biāo)實(shí)體之間所存在的聯(lián)系。而這些信息對于實(shí)體消歧任務(wù)非常重要。

      全局實(shí)體消歧認(rèn)為一篇文檔中的實(shí)體指稱所對應(yīng)的實(shí)體是有關(guān)聯(lián)的,利用實(shí)體之間的關(guān)聯(lián)信息來對所有實(shí)體進(jìn)行全局協(xié)同實(shí)體消歧。Yamada等[6]提出了一種基于單詞和實(shí)體的上下文嵌入的全局實(shí)體消歧模型。該模型基于BERT,為輸入文本中的單詞和實(shí)體生成上下文嵌入。通常全局消歧方法使用基于圖的方法,利用候選實(shí)體之間的關(guān)系構(gòu)建圖,對構(gòu)建的圖進(jìn)行一些運(yùn)算,從中選出最佳匹配實(shí)體。深度學(xué)習(xí)方法發(fā)展迅速,有學(xué)者利用深度神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)圖中的信息,來實(shí)現(xiàn)實(shí)體消歧。Hu等[7]提出一種充分利用全局語義信息的端到端圖神經(jīng)實(shí)體消歧模型GNED。

      基于圖的全局實(shí)體消歧方法進(jìn)行具有較高的準(zhǔn)確率,與局部消歧技術(shù)相結(jié)合進(jìn)行實(shí)體消歧將會(huì)取得更好的消歧效果。本文提出一種文檔級(jí)的實(shí)體消歧技術(shù),首先對單個(gè)實(shí)體指稱進(jìn)行局部消歧,然后利用文檔中的所有實(shí)體指稱之間的關(guān)聯(lián)信息和候選實(shí)體的局部消歧得分進(jìn)行全局消歧。

      3 基于BiLSTM+Attenion模型的局部消歧

      深度神經(jīng)網(wǎng)絡(luò)可以自動(dòng)地學(xué)習(xí)潛在的句子語義特征,因此本文選擇基于深度學(xué)習(xí)的方法進(jìn)行特征提取信息。BiLSTM由正向LSTM和反向LSTM兩個(gè)模塊組成,可以學(xué)習(xí)到句子的雙向信息,能夠更好地捕捉句子的雙向語義依賴。Attention模型在處理序列問題時(shí),可以規(guī)定注意力范圍,防止處理長序列文本時(shí)丟失掉一些重要的信息。

      BiLSTM+Attention模型如圖1所示。

      圖1 BiLSTM+Attention模型圖

      模型由五部分組成:

      輸入層:輸入實(shí)體指稱上下文信息{w1,w2,…,wn};實(shí)體指稱的局部上下文為一個(gè)以實(shí)體指稱為中心的上下文窗口[8]。根據(jù)經(jīng)驗(yàn)[9],本文將待消歧指稱上下文窗口的設(shè)置為對稱窗口,left=right=8。

      嵌入層:將實(shí)體指稱上下文中的每一個(gè)單詞w用一個(gè)低維向量x表示;單詞嵌入向量包括詞嵌入向量和位置嵌入[10]向量。

      BiLSTM層:利用BiLSTM[11]網(wǎng)絡(luò)獲取實(shí)體指稱上下文特征H=[h1,h2,…,hn];

      Attention層:本文在BiLSTM層之后使用Attention[12]機(jī)制,為實(shí)體指稱上下文中每個(gè)單詞的特征賦予不同的權(quán)重,產(chǎn)生一個(gè)權(quán)值向量α,將實(shí)體指稱上下文中每個(gè)單詞的特征與對應(yīng)的權(quán)值相乘,合并為實(shí)體指稱的句子級(jí)特征向量;

      輸出層:輸出實(shí)體指稱的句子級(jí)特征向量Om。

      本文提出的基于BiLSTM+Attention的局部消歧模型如圖2所示。首先在實(shí)體指稱上下文特征表示部分,首先將實(shí)體上下文信息輸入到BiLSTM+Attention模型,采用BiLSTM+Attention模型得到待消歧實(shí)體指稱上下文的特征向量;其次在候選實(shí)體特征表示部分,利用知識(shí)圖譜中實(shí)體之間的結(jié)構(gòu)約束來得到實(shí)體的特征向量。采用TransE模型訓(xùn)練得到實(shí)體嵌入和關(guān)系嵌入,將實(shí)體嵌入作為候選實(shí)體的特征向量;最后使用Cosine函數(shù)對實(shí)體指稱上下文的特征向量和候選實(shí)體的特征向量進(jìn)行相似性計(jì)算得到候選實(shí)體的局部消歧分?jǐn)?shù)。

      圖2 基于BiLSTM+Attention的局部消歧模型

      4 基于關(guān)聯(lián)圖和PageRank算法的全局消歧

      只考慮局部上下文,會(huì)存在信息較少或者出現(xiàn)噪音等問題,可能導(dǎo)致實(shí)體消歧的效果較差。因此在局部消歧的基礎(chǔ)上,利用同一篇文檔中所有實(shí)體指稱所對應(yīng)的實(shí)體之間的關(guān)聯(lián)信息,對文檔中所有實(shí)體指稱進(jìn)行全局協(xié)同消歧。

      文檔中的實(shí)體指稱具有以下兩種特性:如果一個(gè)候選實(shí)體和其他多個(gè)實(shí)體指稱的候選實(shí)體關(guān)聯(lián)程度越緊密,則說明這個(gè)實(shí)體和文檔中的實(shí)體指稱匹配的概率越大;局部消歧得分越高的實(shí)體,和實(shí)體指稱匹配的概率就越大,因此,在知識(shí)圖譜中,與這個(gè)實(shí)體相關(guān)聯(lián)的其他實(shí)體指稱的候選實(shí)體為正確匹配實(shí)體的概率也越大。這與PageRank算法的思想一致[13]。本文使用PageRank算法對構(gòu)建的關(guān)聯(lián)圖進(jìn)行迭代運(yùn)算,對文檔中所有實(shí)體指稱進(jìn)行協(xié)同消歧。

      在構(gòu)造關(guān)聯(lián)圖之前,首先構(gòu)造包含實(shí)體之間所有路徑的實(shí)體連通圖,其次根據(jù)實(shí)體連通圖去構(gòu)建實(shí)體關(guān)聯(lián)圖。

      4.1 實(shí)體連通圖的構(gòu)建

      實(shí)體連通圖是指知識(shí)圖譜中包含不同實(shí)體指稱的候選實(shí)體之間所有路徑的子圖。構(gòu)建實(shí)體連通圖的目的就是找到不同待消歧實(shí)體指稱的所有候選實(shí)體之間的路徑。

      當(dāng)查詢兩個(gè)實(shí)體之間路徑的時(shí)候,可能會(huì)出現(xiàn)連接兩個(gè)不相連的實(shí)體的中間實(shí)體,它被稱為橋接實(shí)體。當(dāng)一條路徑中存在較多橋接實(shí)體時(shí),在知識(shí)圖譜中搜索時(shí),工作量將會(huì)非常大,降低計(jì)算的效率。由于找到兩個(gè)實(shí)體之間路徑的目的是為了計(jì)算兩個(gè)實(shí)體之間的關(guān)聯(lián)度,當(dāng)兩個(gè)實(shí)體之間的路徑過長時(shí)對實(shí)體之間關(guān)聯(lián)度影響不大,所以忽略掉實(shí)體之間長距離的路徑對于計(jì)算結(jié)果沒有太大影響。因此本文設(shè)置一個(gè)路徑長度閾值Q,本文通過實(shí)驗(yàn)分析將Q大小的設(shè)置為6。

      由于在進(jìn)行消歧時(shí)只考慮不同待消歧實(shí)體指稱所匹配在知識(shí)圖譜中的實(shí)體之間的關(guān)聯(lián),故同一待消歧實(shí)體指稱的候選實(shí)體之間的路徑不需要被搜索。

      對于一個(gè)實(shí)體連通圖G(N,E,paths),有以下定義:

      N表示圖中所有節(jié)點(diǎn)的集合,E表示圖中所有邊的集合,EM∪B。其中EM是所有候選實(shí)體的集合,即EM={EM1∪EM2∪…∪EMn}。

      EMi為文檔中一個(gè)實(shí)體指稱的候選實(shí)體集合,n為一篇文檔中實(shí)體指稱的個(gè)數(shù)。B表示屬于不同實(shí)體指稱集合的任意候選實(shí)體對(eij,epq)路徑之間的 橋 接 實(shí) 體 集 合,B={bk,…,bz|{,…,}∈KG}。

      paths為任意實(shí)體指稱的候選實(shí)體之間的路徑。具 體 形 式 為paths={paths(eij,epq)|?eij,epq∈EM}。其中,paths(eij,epq)表示在實(shí)體連通圖中頂點(diǎn)eij和頂點(diǎn)epq之間所有路徑的集合,具體形式為paths(eij,epq)={{,…,}|{,…,}∈KG}。

      實(shí)體連通圖構(gòu)建的方法就是遍歷知識(shí)圖譜得到一個(gè)子圖,從一個(gè)候選實(shí)體eij開始,沿著路徑在知識(shí)圖譜中找到另一個(gè)候選實(shí)體epq為止。其思想和圖的深度優(yōu)先遍歷算法類似,因此本文在實(shí)體連通圖的構(gòu)造過程中,利用基于圖的深度優(yōu)先搜索算法。實(shí)體連通圖的構(gòu)造過程為見算法1和算法2。

      算法1實(shí)體連通圖的構(gòu)造算法

      輸入:EM={EM1∪EM2∪…∪EMn}

      輸出:G(N,E,paths)

      1)初始化N=E=paths=NULL

      2)for EMiin EM do

      3)C=EMi+1∪EMi+2∪…∪EMn

      4)for eijin EMido

      5)path=NULL

      6)CNode=ConnectNode(eij)/*將和eij相鄰的節(jié)點(diǎn)放到集合CNode中*/

      7)While CNode is not NULL do

      8) Get path via CNode.top w.r.t Algorithm2

      9) if len(path)≤Q then

      10) for step=1,len(path)do

      11) Store path[step].Node in N

      12) Store{path[step].Node,path[step+1].Node}in E

      13) end for

      14) Store path in paths(eij,CNode.top)

      15) end if

      16) Delete CNode.top from CNode

      17)end while

      18)end for

      19)end for

      20)return G(N,E,paths)

      算法2圖的深度優(yōu)先搜索算法

      輸入:TNode,path,C,Q

      輸出:path

      1)if TNode in C then

      2)return path

      3)else if len(path)>Q then

      4)return path=NULL

      5)else

      6)Storein path

      7)CNode=ConnectNode(TNode)

      8)while CNode is not NULL do

      9)TNode=CNode.top

      10)Delete TNode from CNode

      11)Depth-First Search of Connected Graph(TNode)

      12)end while

      13)end if

      4.2 實(shí)體關(guān)聯(lián)圖的構(gòu)建

      本節(jié)在實(shí)體連通圖的基礎(chǔ)上,利用各個(gè)實(shí)體之間的關(guān)聯(lián)關(guān)系來構(gòu)造實(shí)體關(guān)聯(lián)圖。實(shí)體關(guān)聯(lián)圖中的節(jié)點(diǎn)為一篇文檔中所有實(shí)體指稱的候選實(shí)體,邊代表兩個(gè)實(shí)體之間有關(guān)聯(lián)。

      對于一個(gè)實(shí)體關(guān)聯(lián)圖R(Nr,Er,Tr),有以下定義:

      Nr表示所有實(shí)體指稱的候選實(shí)體的集合,即Nr=EM={EM1∪EM2∪…∪EMn},n為文檔中實(shí)體指稱的個(gè)數(shù),m為實(shí)體指稱的候選實(shí)體的個(gè)數(shù)。

      Er表示兩個(gè)候選實(shí)體之間的邊,Er={}|i≠p}。

      Tr表示一個(gè)圖的鄰接矩陣,Tr(eij,epq)是實(shí)體eij和實(shí)體epq之間邊的權(quán)值,表示兩個(gè)實(shí)體的關(guān)聯(lián)度。

      實(shí)體關(guān)聯(lián)圖中兩個(gè)候選實(shí)體的關(guān)聯(lián)度利用卡茨相關(guān)性[14]計(jì)算。計(jì)算如式(1)所示:

      實(shí)體關(guān)聯(lián)圖的構(gòu)造過程見算法3。

      算法3實(shí)體關(guān)聯(lián)圖構(gòu)造算法

      輸入:G(N,E,paths),EM,β

      輸出:R(Nr,Er,Tr)

      1)初始化N=EM,Er=NULL,Tr=0

      2)for EMiin M do

      3)C=EMi+1∪EMi+2∪…∪EMn

      4)for eijin EMido

      5)for epqin C do

      6) Get paths(eij,epq)from paths

      7) Storein E

      8) SCS(eij,epq)=0

      9) for p in paths(eij,epq)do

      10) SCS(eij,epq)=SCS(eij,epq)+βlen(p)

      11) end for

      12) Tr(eij,epq)=SCS(eij,epq)

      13)end for

      14)end for

      15)end for

      16)return R(Nr,Er,Tr)

      4.3 PageRank算法消歧

      每個(gè)實(shí)體頂點(diǎn)PageRank初始值利用每個(gè)候選實(shí)體的局部消歧得分,為了平衡局部消歧得分對所有實(shí)體指稱的候選實(shí)體節(jié)點(diǎn)的影響,對同一個(gè)實(shí)體指稱的候選實(shí)體的局部得分進(jìn)行歸一化處理,歸一化之后的得分為實(shí)體頂點(diǎn)的初始得分。

      首先將實(shí)體關(guān)聯(lián)圖中每個(gè)實(shí)體頂點(diǎn)的值作為初始的PageRank得分P0。然后基于所構(gòu)造的鄰接矩陣來構(gòu)造轉(zhuǎn)移矩陣M,將鄰接矩陣Tr每一行的值進(jìn)行歸一化,表示每個(gè)頂點(diǎn)跳轉(zhuǎn)到其他頂點(diǎn)的概率,也表示這個(gè)實(shí)體與和它有關(guān)聯(lián)的實(shí)體之間同為最佳匹配實(shí)體的概率。得到轉(zhuǎn)移矩陣和頂點(diǎn)的初始PageRank得分,就可以對圖采用PageRank算法進(jìn)行運(yùn)算。PageRank迭代公式如公式(3)所示。

      當(dāng)一次迭代完畢,從得到的結(jié)果中選出得分最高的實(shí)體作為所屬待消歧實(shí)體指稱的消歧結(jié)果。然后更新實(shí)體關(guān)聯(lián)圖和實(shí)體關(guān)聯(lián)圖的轉(zhuǎn)移矩陣M。將上次迭代計(jì)算出的每個(gè)實(shí)體的PageRank得分作為下一次PageRank迭代計(jì)算的初始得分;把關(guān)聯(lián)圖中和上一次迭代所得到的得分最高的實(shí)體屬于同一實(shí)體指稱候選列表的實(shí)體頂點(diǎn)刪除,并刪除和它們有關(guān)聯(lián)的邊。繼續(xù)進(jìn)行迭代,直到消歧結(jié)束。

      5 實(shí)驗(yàn)與結(jié)果

      5.1 數(shù)據(jù)集

      本文使用FreeBase(FB5M)的子集作為實(shí)體鏈接的參考知識(shí)圖譜。FB5M在SimpleQuestions數(shù)據(jù)集中發(fā)布,它包含4,904,397個(gè)實(shí)體,752,3個(gè)關(guān)系和22,441,880個(gè)事實(shí)。本文實(shí)驗(yàn)所采用的數(shù)據(jù)集為ACE2004和MSNBC,兩個(gè)數(shù)據(jù)集均為英文新聞數(shù)據(jù)集。

      5.2 參數(shù)設(shè)置

      本文從準(zhǔn)確率P,召回率R,F(xiàn)1值和耗時(shí)TC四個(gè)指標(biāo)對實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)估。

      在構(gòu)建實(shí)體連通圖時(shí),為了減小搜索和計(jì)算的復(fù)雜度而對路徑長度設(shè)置了閾值Q,設(shè)置Q的值為從1~10,在兩個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),通過F1值和耗時(shí)TC兩個(gè)評(píng)價(jià)指標(biāo)對實(shí)驗(yàn)結(jié)果進(jìn)行分析。實(shí)驗(yàn)結(jié)果如圖3所示。由圖可以看出,閾值Q=6是最佳選擇。

      圖3 參數(shù)Q的實(shí)驗(yàn)結(jié)果圖

      對于PageRank公式(3)中的參數(shù)c,本文對其在[0,1]進(jìn)行實(shí)驗(yàn),間隔為0.1,實(shí)驗(yàn)結(jié)果如圖4所示。通過F1值對實(shí)驗(yàn)結(jié)果進(jìn)行分析,可以看出,當(dāng)c=0.5時(shí),F(xiàn)1值達(dá)到最大,消歧效果最好。即對于本文中的PageRank算法,在當(dāng)前節(jié)點(diǎn)停留的概率和轉(zhuǎn)移到其他節(jié)點(diǎn)的概率相同時(shí),得到的實(shí)驗(yàn)效果最好。

      圖4 參數(shù)c的F1值實(shí)驗(yàn)結(jié)果圖

      5.3 消融實(shí)驗(yàn)

      為了更好地對比出加入全局特征對實(shí)體消歧的影響,本小節(jié)首先使用局部消歧模型進(jìn)行實(shí)驗(yàn),選取局部消歧分?jǐn)?shù)最高的實(shí)體作為最佳匹配實(shí)體,然后再與使用了全局特征的整體消歧框架的消歧效果進(jìn)行對比。在兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果分別如表1和表2所示。

      表1 數(shù)據(jù)集ACE2004上的消融實(shí)驗(yàn)結(jié)果

      表2 數(shù)據(jù)集MSNBC上的消融實(shí)驗(yàn)結(jié)果

      通過結(jié)果可以看出,只有局部消歧時(shí)的實(shí)驗(yàn)效果比較差,局部消歧利用實(shí)體指稱的上下文信息進(jìn)行消歧,但當(dāng)利用的信息較少,或者利用的信息有太多噪音時(shí),提取文本特征時(shí)會(huì)出現(xiàn)偏差,影響消歧效果。加入全局特征以后,實(shí)驗(yàn)效果明顯上升,因?yàn)槿窒缰屑尤肓藢?shí)體的全局性特征,對局部消歧中存在的偏差進(jìn)行糾正,提升整體實(shí)驗(yàn)效果。

      5.4 對比實(shí)驗(yàn)

      為了對本文的消歧效果進(jìn)行更好的分析,選取DSMM[15]消歧方法和Graph Ranking[16]方法與本文方法進(jìn)行對比。兩種方法中,DSMM方法屬于基于上下文的局部消歧算法,與本文局部消歧所使用的方法類似,通過和其對比,可以看出本文在局部消歧的基礎(chǔ)上加入全局消歧之后的效果。Graph Ranking方法是基于圖的全局消歧算法,和本文的全局消歧部分處理類似,但節(jié)點(diǎn)初始得分的處理是不一樣的,通過和其對比,可以看出初始得分的處理對實(shí)驗(yàn)結(jié)果的影響。通過和這兩種方法的對比,可以充分對比出本實(shí)驗(yàn)所使用的局部消歧和全局消歧相結(jié)合的方法的效果。DSMM方法、Graph Ranking方法和本文方法在數(shù)據(jù)集ACE2004和數(shù)據(jù)集MSNBC的實(shí)驗(yàn)結(jié)果如表3和表4所示。

      表3 數(shù)據(jù)集ACE2004上的對比實(shí)驗(yàn)結(jié)果

      表4 數(shù)據(jù)集MSNBC上的對比實(shí)驗(yàn)結(jié)果

      通過實(shí)驗(yàn)結(jié)果可以看出,在數(shù)據(jù)集ACE2004和數(shù)據(jù)集MSNBC上本文的方法在準(zhǔn)確率、召回率、F1值等方面取得了較好的效果。DSMM方法只考慮了實(shí)體的上下文信息而忽略了同一篇文檔中實(shí)體之間的關(guān)系,F(xiàn)1值最小,消歧效果不如后面兩種全局消歧的算法。而Graph Ranking方法在構(gòu)建關(guān)聯(lián)圖中使用的實(shí)體流行度作為節(jié)點(diǎn)初始得分,沒有考慮到實(shí)體的下文信息,算法耗時(shí)時(shí)間最短,但F1值低于本文的消歧算法。并且可以看出,Graph Ranking方法和本文方法兩種全局消歧算法在數(shù)據(jù)集MSNBC的實(shí)驗(yàn)效果比在數(shù)據(jù)集ACE2004上的實(shí)驗(yàn)效果要好,這是因?yàn)閿?shù)據(jù)集MSNBC中平均每篇文檔的實(shí)體數(shù)較多,可以提取到實(shí)體之間較多的關(guān)聯(lián)信息,能更好地反映局部消歧和全局消歧性能的對比效果。根據(jù)實(shí)驗(yàn)結(jié)果可以看出,本文方法是一種對文檔中實(shí)體進(jìn)行協(xié)同消歧的有效的方法。

      6 結(jié)語

      本文提出一種文檔級(jí)的實(shí)體消歧技術(shù),將局部消歧技術(shù)與基于圖的全局消歧方法結(jié)合起來進(jìn)行實(shí)體消歧。局部消歧采用基于BiLSTM+Attention模型的消歧算法,全局消歧采用基于關(guān)聯(lián)圖和PageRank算法的全局消歧算法,利用每個(gè)候選實(shí)體局部消歧中得到的局部消歧得分,對文檔中所有實(shí)體指稱進(jìn)行全局消歧。實(shí)驗(yàn)結(jié)果表明本文的方法具有較好的消歧效果。

      猜你喜歡
      消歧全局文檔
      命名實(shí)體消歧研究綜述
      Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
      量子Navier-Stokes方程弱解的全局存在性
      有人一聲不吭向你扔了個(gè)文檔
      基于半監(jiān)督集成學(xué)習(xí)的詞義消歧
      落子山東,意在全局
      金橋(2018年4期)2018-09-26 02:24:54
      藏文歷史文獻(xiàn)識(shí)別過程中藏文自由虛詞的自動(dòng)識(shí)別及消歧算法的研究
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      新思路:牽一發(fā)動(dòng)全局
      如东县| 扶沟县| 军事| 固始县| 襄樊市| 南宫市| 道孚县| 连平县| 武安市| 穆棱市| 克山县| 波密县| 丰城市| 福海县| 鄂托克前旗| 晋宁县| 贵州省| 库车县| 黑山县| 凌海市| 伽师县| 姜堰市| 喀什市| 凤山县| 柞水县| 饶平县| 寻乌县| 阳朔县| 诏安县| 信阳市| 柘城县| 洛宁县| 六盘水市| 桂阳县| 龙门县| 合水县| 栾川县| 吉隆县| 蓬安县| 同江市| 新巴尔虎右旗|