• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于領域知識圖譜的短文本實體鏈接

      2022-01-22 07:48:32黃金杰趙軒偉張昕堯馬敬評史宇奇
      計算機工程與應用 2022年1期
      關鍵詞:知識庫圖譜關聯(lián)

      黃金杰,趙軒偉,張昕堯,馬敬評,史宇奇

      哈爾濱理工大學自動化學院,哈爾濱 150080

      實體鏈接是面向短文本與知識相關聯(lián)的技術手段,分為候選實體的生成和候選實體的消歧[1],旨在將文本中潛在的實體指稱映射到知識庫中若干候選實體集合,并從候選集合中找到最佳目標實體來賦予實體指稱明確的含義[2]。在數(shù)據(jù)稀疏、缺乏豐富的上下文情況下實體語義歧義性給實體鏈接帶來了難題[3];同時對于某些領域,實體鏈接結果受到其他實體語義關聯(lián)影響,這種影響會導致目標對象不是精準的知識信息。所以,短文本實體鏈接在領域圖譜的實現(xiàn)面臨了巨大的挑戰(zhàn)[4]。

      實體鏈接技術主要需要克服指稱檢測和知識庫實體的消歧兩大難題。短文本往往存在語境缺失的特點,使文本特征實體指稱表示比較困難,同時由于指稱與實體的字符相似而忽略語義實體之間的相似度量,也導致最終鏈接效果往往不夠理想。

      當前,對于實現(xiàn)中文文本傳統(tǒng)實體鏈接主要的方法有深度學習法[5]、圖模型法[6]等。針對深度學習方法的實體鏈接的研究,文獻[7]提出基于神經(jīng)網(wǎng)絡(DNN)的堆疊去噪自動編碼器來學習上下文的向量表達,來計算給定文檔與實體描述文本表示的相似性度量。直接計算指稱上下文與候選實體描述文本的相似性會因為描述文本較短、不完整或同義詞情況導致鏈接過程出現(xiàn)錯誤。為了解決此問題,文獻[8]提出利用卷積神經(jīng)網(wǎng)絡對指稱上下文進行建模,并考慮指稱與上下文的語義度量,通過捕捉候選知識庫實體信息與指稱上下文的關系進行鏈接。實體鏈接的結果有時會語義匹配到與指稱不相關的實體,模型鏈接效果不是十分顯示。為更好提高指稱與實體的相似度,文獻[9]利用下文信息和主題信息來消除候選實體歧義問題,并使用在卷積神經(jīng)網(wǎng)絡來捕捉指稱上下文與候選實體之間的語義相似度。但上下文信息的不足易影響實體鏈接的準確性,為此文獻[10]提出利用文本指稱上下文的維基百科作為外部補充知識源,通過長短時記憶網(wǎng)絡擴展指稱特征向量表示,以提高候選實體相似度。雖然通過引入第三方知識庫作為補充知識源,提高了實體鏈接的準確率,但該方法僅僅考慮了維基百科的鏈接關系,忽略了存在于維基百科中的類別關系。在文本內容之外,文獻[11]在實體指稱表示的基礎上研究實體類別層次特征,驗證順序標記指稱的識別精度,提高實體鏈接的整體性能。在文本表層特征的基礎上,增加了文本語義信息的獲取,從文本中可以抽取實體類型特征,豐富了文本信息。為避免單個特征在特征抽取過程中被過濾掉,導致融合特征不起作用。文獻[12]聯(lián)合指稱檢測和深度卷積神經(jīng)網(wǎng)絡實現(xiàn)實體消歧,通過融合指稱上下文、實體類型、實體描述文本信息等多種語義特征,一定程度上減少了單特征過濾的偶然性,更好地體現(xiàn)了文本的語義性。融合文本多種特征很大程度上依賴于輸入短文本,同時只考慮當前實體指稱本文,沒有考慮文本中實體與上下文的局部語義關系。文獻[13]提出增強型字符嵌入神經(jīng)網(wǎng)絡,將指稱位置和信息嵌入到模型以提高鏈接性能。通過預訓練增強輸入文本字符,預測并學習不同詞語之間的關系有效實現(xiàn)了上下文信息的指稱表示。基于以上指稱表示與實體的相似性度量為獲取較好語義實體,使用多特征拼接來增強文本字符語義特征。為此,文獻[14]提出多方法融合的候選生成策略,同時在字符嵌入深度神經(jīng)網(wǎng)絡中加入主題語義學習指稱、上下文、候選實體的表示,提高了鏈接候選實體的準確率。

      上述研究工作往往僅考慮指稱的上下文和實體描述文本信息,忽略了候選實體之間的相互關聯(lián),導致相似度量結果出現(xiàn)多個得分相近或相同的候選實體,無法選取最終的目標實體,為此很多研究者在圖模型的基礎上來探究工作。

      針對圖模型方法的實體鏈接的研究,文獻[15]提出LINDEN算法構造語義相關圖,綜合考慮實體對應的維基百科關聯(lián)和實體間語義相關性,通過指稱上下文與實體文檔共現(xiàn)統(tǒng)計計算相似程度。研究在構造實體語義相關圖時,考量實體之間相關度的程度較低,導致消歧文本很大程度上鏈接到概念相關實體,造成實體鏈接準確率下降。文獻[16]提出將上下文語義、主題等特征融入圖模型的語義相似度度量方法,來實現(xiàn)候選實體的選擇。該方法能夠抽取實體特征,提高了實體相關性,有效地實現(xiàn)歧義文本的實體鏈接,具有較高的精度和召回率。引入外部海量公開數(shù)據(jù),相比文獻[16]的捕捉實體之間特征,提高實體指稱鏈接的精準性。文獻[17]考慮實體相似度、流行度、描述文本信息,以中文維基百科作為知識庫支撐構造圖模型,通過對候選實體進行相似度排序來獲取鏈接實體。該研究充分利用圖模型結構信息,抽取多種語義特征,來計算與指稱文本的語義相似度。然而這種方法依賴實體所在的百科頁面作為知識源,對于領域實體消歧而言,適用性較差,實體鏈接效果不是十分顯著。文獻[18]利用候選實體構造圖譜知識庫,使用PageRank 算法計算知識庫中不同候選實體的權重,選取權重最大實體作為鏈接實體。該方法在實體鏈接時,只是簡單的對候選實體進行等概率平均分配權重,無法得到區(qū)分程度較大的鏈接實體。文獻[19]使用重啟隨機游走算法優(yōu)化實體之間的轉移概率,通過語義推理模型來預測鏈接實體。但該方法在計算候選實體之間的相關度出現(xiàn)負值,導致得到的語義相關度出現(xiàn)錯誤,同時方法沒有有效利用指稱上下文信息,對文本進行消歧。文獻[20]提出深度神經(jīng)網(wǎng)絡語義模型來表示文本指稱,并通過與語義知識圖保持實體一致性,從而在大型知識圖上捕捉語義相似候選實體。該方法通過構造語義知識庫來豐富實體語義信息,同時關聯(lián)語義關系相近的實體,考慮了知識庫內語義相關實體關系特征。通過文本上下文建模表示指稱,實現(xiàn)了指稱到實體的精確鏈接。

      以上提出的圖模型方法的研究,能夠很好地利用圖譜知識庫中實體之間的語義關聯(lián)關系,但由于上下文信息的不充足,不能對實體進行豐富的語義表示,很難獲取語義相似實體。

      基于以上研究方法,本文在實體鏈接過程語義知識缺乏的情況下,指稱會根據(jù)不同環(huán)境具有多種語義。為此本文利用深度神經(jīng)網(wǎng)絡來挖掘文本中指稱及其位置搭配關系,并在預訓練中嵌入候選實體描述文本,從而實現(xiàn)基于領域圖譜的指稱語義表達。為避免關聯(lián)候選實體對實體鏈接的影響,經(jīng)計算指稱實體同一向量空間內相似度來獲取得分最高候選實體。利用Fast-newman算法將知識圖譜中所有實體節(jié)點聚類劃分為N個聚類子圖,定義相似度最高候選實體所在實體簇為候選集合,并為集合下的聚類實體映構建實體關聯(lián)圖。最終構建聚類實體關聯(lián)圖,采用偏向重啟隨機游走算法獲取實體指稱節(jié)點的平穩(wěn)分布,通過實體之間關系權重對候選實體進行排序,得出目標鏈接實體。本文提出的模型有效的將文本指稱鏈接到圖譜知識庫中無歧義實體上,消除了文本指稱歧義問題;同時在鏈接過程中,為拉大相關候選實體和指稱的相似得分,利用圖譜知識庫中聚類實體來構造具有結構化語義關系的關聯(lián)圖,通過提出的偏向重啟隨機游走算法提高了實體鏈接精度。

      1 實體消歧表示

      在語境缺失和不相關文本的條件下,為實現(xiàn)實體指稱在不同的語境中與領域圖譜知識庫中候選實體的鏈接,本文提出字符嵌入的實體消歧模型來挖掘短文本實體語義信息進行實體消歧。模型通過指稱建模與實體描述建模將指稱和所有聚類實體表示連接起來,送入全連接層,再經(jīng)過線性處理對相似度進行評分,輸出得分最大候選實體所在聚類簇。

      實體消歧模型輸入短文本以及實體描述文本詞典,其中實體描述文本詞典還有所有實體描述短文本,該短文本由領域指稱詞Mention與其上下文組成。在模型初始階段使用BMES序列標記方案,預測文本每一個字符序列位置,每個字符將會分配一個對應的的位置標簽。然后通過隨機初始化BERT 參數(shù)對這些序列進行預訓練獲取帶有位置增強信息的字符向量,并將其傳遞給Tree-LSTM編碼層進行編碼。最終,將Tree-LSTM隱藏層的輸出提供給帶有注意力的CNN網(wǎng)絡抽取文本抽象實體特征,并固定實體指稱向量大小,從而對指稱和實體進行表示。另外在實體指稱與候選實體鏈接的過程中,由于候選實體集合缺少背景語料知識,實體指稱難以區(qū)分概念相似同時關聯(lián)度相近的候選實體。在實體建模部分使用Fast-newman 算法對領域實體進行聚類,劃分為不同類別的實體簇。在同一實體簇中通過指稱與實體的一致性得到相似度指標,并選取評分最大實體簇來進行候選目標實體的選取。實體消歧模型如圖1所示。

      圖1 實體消歧模型Fig.1 Entity disambiguation model

      1.1 詞嵌入

      加載實體詞典并使用jieba分詞工具將中文短文本進行分割,進而實現(xiàn)文本序列中實體指稱的完整分割,隨后使用詞向量模型來對單詞序列進行詞向量表達。傳統(tǒng)方法中一般使用word2vec對單詞序列進行訓練來獲得單詞向量,但在缺乏上下文背景知識的情況下word2vec無法表示同一單詞的不同語義,給下游實體指稱鏈接的實現(xiàn)帶來偏差。

      隨后Bert 主要使用Transformer 作為核心結構,其框架具體如圖2 所示。Transformer 完全使用自注意力機制來訓練詞向量,并通過自注意力計算出每一個詞與所有詞之間的關系,由此得出該詞在句子中的權重。通過這樣得到的詞向量能夠有效利用上下文信息,增強了文本語義知識信息。

      圖2 Bert預訓練模型結構Fig.2 Pretraining model structure of Bert

      為了訓練詞表示向量,在預訓練過程中,Bert 使用掩碼[mask]替換文本中部分單詞,讓Transformer編碼器根據(jù)上下文來預測這些單詞。隨機遮住15%的單詞作為訓練樣本,并將其中80%單詞用掩碼代替,10%單詞替換為隨機單詞,另外10%單詞不變。通過Transformer編碼器不斷進行預測,Bert預訓練模型可充分利用詞級上下文信息,獲得了文本中每個單詞的表示向量。

      1.2 TreeLSTM編碼

      為了學習文本深層語義,將位置信息增強的詞向量輸入到TreeLSTM。隨著時間的增加,文本中單詞順序進入網(wǎng)絡中,進行線性拼接,由此完成對上下文信息的編碼表示。模型利用樹形結構學習長距離節(jié)點中的語義搭配關系,根據(jù)分支結構追蹤方向傳播,線性表示節(jié)點隱層輸出。如圖3所示,在“心臟病的治愈患者”的語句中,通過對“心臟病”進行語義增強,這個單詞比其他單詞與上下文的關聯(lián)度更高。

      圖3 TreeLSTM網(wǎng)絡結構Fig.3 Network structure of TreeLSTM

      對樹網(wǎng)絡中的每個節(jié)點生成隱向量,x是文本的輸入序列,經(jīng)過LSTM 預測輸出y。在多層二叉樹部分,xi表示樹型結構中每個節(jié)點i對應單詞的語義向量,當前xi輸入是子節(jié)點傳入父節(jié)點y的隱含值。TreeLSTM的計算流程如圖4所示。

      圖4 TreeLSTM計算流程圖Fig.4 Calculation flowchart of TreeLSTM

      在網(wǎng)絡中記憶模塊由輸入門、輸出們和多個遺忘門組成,在反向傳播過程中通過不斷計算門傳遞來進行權重參數(shù)的更新。其中對于節(jié)點j、r為節(jié)點i的子集合,hkr表示LSTM 的隱藏層,σ為sigmoid 激活函數(shù),⊙表示向量元素依次相乘,b為偏置向量,W和U為權重矩陣,tanh為激活函數(shù)。

      在每一個模塊單元中利用輸入門ij將當前詞xj信息融入到記憶細胞cj中來控制當前信息的加入,判斷當前詞xj對全局文本的重要性:

      TreeLSTM擁有多個遺忘門fj,分別對應當前單元下不同子單元k,由此網(wǎng)絡可以從子節(jié)點中選擇性的獲取語義更加豐富的實體節(jié)點信息。遺忘門fj通過將不同時刻下細胞狀態(tài)ckr融入到記憶細胞cj,來判斷所有時刻單元狀態(tài)對當前時刻的記憶程度:

      再通過tanh 層產(chǎn)生候選記憶細胞狀態(tài)uj,為后續(xù)細胞狀態(tài)cj傳遞記憶候選信息,決定記憶文本中重要信息:

      有了遺忘門產(chǎn)生的控制信號ft,候選細胞狀態(tài)uj,輸入控制信號ij,從而利用所有時刻下記憶細胞狀態(tài)來更新當前時刻細胞狀態(tài)cj:

      利用激活函數(shù)處理細胞狀態(tài),并與輸出相乘得到隱含層的表示:

      TreeLSTM為了捕捉遠距離實體信息實現(xiàn)實體的精準表示,通過對文本中不同位置信息分配權重,從而去除不相關信息的影響。設TreeLSTM 產(chǎn)生短文本的隱藏向量為H=(h1,h2,…,hN),N為序列長度,重新分配第i個隱藏向量權重為α:

      1.3 Fast-newman聚類劃分

      Newman針對網(wǎng)絡社區(qū)結構提出了復雜網(wǎng)絡分裂的凝聚Fast-newman 算法[21]。在本文中選擇Fast-newman算法將領域圖譜知識庫中的實體進行Fast-newman聚類劃分,得到不同類別實體簇,從而縮小鏈接候選實體的選擇范圍,有效區(qū)分實體類型。開始將領域圖譜知識庫初始劃分為n個實體簇(n為實體節(jié)點數(shù)目),即每一個實體節(jié)點可看作一個獨立的實體簇。各實體節(jié)點之間鏈接邊的總數(shù)為m,其對稱矩陣E=(eij)表示為:

      其中ki表示實體節(jié)點i邊數(shù),ai表示與實體節(jié)點i相連邊的數(shù)量占知識庫中所有邊的比重。

      將圖譜數(shù)據(jù)庫聚類劃分成實體簇,每個實體簇由實體節(jié)點組成,為保證實體簇中實體節(jié)點相互連接密切,同時實體簇之間連接稀疏。Newman在文獻[21]中引入模塊度Q值,表示圖譜知識庫劃分后,實體簇之間的連接數(shù)目與實體簇內部的連接數(shù)目的比例,由此來衡量實體簇的劃分質量。模塊度Q的計算公式如式所示:

      其中Ci為實體節(jié)點所屬的實體簇,當Ci=Cj時,?(Ci,Cj)=1,否則為0,Q值范圍為[0,1],Q值越大實體簇聚類效果越好。

      初始將每個實體節(jié)點看作一個實體簇,通過迭代過程不斷合并實體簇,使Q的函數(shù)值最大化。計算合并實體簇所導致的Q值增量ΔQ,使實體簇沿著ΔQ值增大的方向進行更新,直到整個網(wǎng)絡合并劃分為一個實體簇[22]。最后通過選取局部最大Q值,獲得最好的實體聚類簇結構:

      在迭代過程中,隨機選擇兩個實體簇進行合并,選取使ΔQ值最大的兩個實體簇歸于同一實體簇,直到實體簇都合并完畢,這種方式大大減小了網(wǎng)絡聚類的復雜程度。

      1.4 語義相似特征

      通過將給定短文本和候選實體描述文本分別作為模型輸入來獲取候選實體向量表示rm和re,再分別計算指稱表示向量rm與候選實體向量re之間的相似度,并對比實體指稱與候選實體語義特征表示的相似性。

      在實體消歧模型中,通過BERT預訓練將位置特征加入到字符序列中,以增強文本中的實體信息,并傳遞到TreeLSTM-CNN中,輸出具備語義關系的文本隱含狀態(tài)序列H,使用指稱隱藏序列狀態(tài)C來生成指稱表示rm。將池化層和注意力機制作用在序列隱藏狀態(tài)上的結果hpool和hattention,分別連接到指稱隱藏序列狀態(tài)上,生成指稱隱藏狀態(tài)表示G:

      其中q為指稱序列隱藏狀態(tài)的頭位置數(shù),r為稱序列隱藏狀態(tài)總個數(shù)。

      最后使用全連接層將指稱隱藏狀態(tài)表示G輸出為最終指稱表示rm。

      在實體表示的生成上,將隱含狀態(tài)序列輸入到注意力機制的CNN 網(wǎng)絡來發(fā)現(xiàn)文本中實體字符特征,并連接全連接層,輸出實體表示re。

      計算實體表示re的注意得分αej為:

      其中hj表示j時刻的隱含隱含狀態(tài)。

      經(jīng)過訓練得到隱藏狀態(tài)hj的權重αej為:

      其中n為總序列數(shù)。

      最后通過加權輸出實體向量表示re,其中re與rm的向量維度大小相同:

      利用實體指稱與實體表示,對實體表示之間的相似度進行測評并排序得分。衡量實體之間相似特征得分w(rm,re)計算如下。

      從公式可以看出,候選實體越接近真實實體指稱語義表達,則評分越高。

      2 候選實體的選擇

      聚類算法對候選實體劃分為不同類型實體簇,利用式(20)計算指稱與知識庫中所有實體的相似程度,選取相似度得分最大實體的所在實體簇作為候選實體集合。

      所謂目標實體是指能夠區(qū)分候選實體中概念相關實體,并有效擴大聚類候選實體到指稱的相似距離,防止相似度量結果出現(xiàn)多個得分相近或相同的情況,從而精確鏈接到最高語義關聯(lián)實體。

      為更好地關聯(lián)聚類實體,構建聚類實體關聯(lián)圖,根據(jù)聚類候選實體關聯(lián)圖,采用偏向重啟隨機游走算法不斷進行概率轉移。通過算法反復迭代,概率趨于收斂,得出平穩(wěn)概率分布矩陣,由此得到指稱到候選實體的概率得分,并選取得分最高候選實體作為實體鏈接目標實體。若得分低于閾值,則返回NIL。具體過程流圖如圖5所示。

      圖5 候選實體輸出流程圖Fig.5 Flowchart of candidate entity output

      2.1 關聯(lián)圖的構建

      知識圖譜中任意兩個實體節(jié)點之間存在關系,將會拉近實體之間距離,進而提高實體節(jié)點的語義關聯(lián)。定義與實體節(jié)點i連接邊的數(shù)目為實體節(jié)點的度,度包含入度分布和出度分布,隨機選取實體簇中任意實體節(jié)點,計算度分布矩陣。

      實體相關特征反映實體集合之間的相關度,本文通過與實體節(jié)點連接的關系邊及實體間共現(xiàn)得分,來統(tǒng)計聚類實體的關聯(lián)程度。在已存在關系知識的基礎上,僅依靠聚類實體的顯性關系,遠不能反映實體關聯(lián)特征,為此使用關系補全的方法,補全聚類實體的隱性關系。由此構造聚類實體關聯(lián)圖如圖6所示。

      圖6 聚類實體關聯(lián)圖Fig.6 Association graph of cluster entity

      在關聯(lián)圖中先計算實體度分布ki,其中各節(jié)點的度值分別為ka=kb=kc=ke=3,kd=kf=2,贅去度值小于1的實體節(jié)點。網(wǎng)絡節(jié)點鄰接矩陣A的表示如下所示:

      根據(jù)顯性連接信息預測未連接實體間關聯(lián)性,即ea/ed,ea/ee,eb/ee,eb/ef,ec/ed,ec/ef,ed/ef產(chǎn)生隱性關聯(lián)邊的可能性大小。針對無連接邊的情況,如果出現(xiàn)兩個實體與同一個實體相連接,則兩個實體存在語義聯(lián)系;如果兩實體節(jié)點不存在實體關系,則自動補全實體間的關系連線。

      綜上,關聯(lián)圖中候選實體的相關度如式所示:

      其中,Ea與Eb分別表示與實體節(jié)點a、b存在關系的所有實體節(jié)點,|Ea|表示與節(jié)點a存在關系的實體集合數(shù)目,|Eb|表示與節(jié)點b存在關系的實體集合數(shù)目,E表示所有實體節(jié)點集合。

      基于關聯(lián)圖中聚類實體的語義相關性,另外使用openKG公開網(wǎng)絡[23],搜索該關聯(lián)圖中聚類實體。將任意聚類實體及其搜索到的相關實體,組合成實體詞語條目集合t,Occur(e)代表任意聚類候選實體出現(xiàn)的代表集合。

      候選實體間的語義相關度計算如式所示:

      其中Occur(ei)∩Occur(ej)為兩聚類候選實體同現(xiàn)候選代表集合,Occur(ei)∪Occur(ej)為所有聚類候選代表集合。

      根據(jù)上述兩種實體相關性表達式,得出聚類實體相關性線性組合如式所示:

      其中α和β為超參數(shù)。

      本文引入關聯(lián)性特征可以大大減少鏈接過程中關聯(lián)實體的干擾,有效區(qū)分概念相近的候選實體,增大相近候選實體得分距離,提高了實體鏈接的準確性。

      2.2 偏向重啟隨機游走

      解決相似得分最高實體與其他聚類實體的關聯(lián)性影響,本文將指稱實體相似特征、候選實體間語義相關特征融入到聚類實體關聯(lián)圖,實現(xiàn)特征融合的偏向性隨機游走算法,從而獲取指稱鏈接目標實體。利用1.1 節(jié)實體詞典及jieba 分詞方法分割出的字符串指稱,計算算法中任意兩實體間的轉移概率。算法最終通過迭代過程,得到指稱到候選實體的平穩(wěn)概率分布,并由排序學習得出概率排序結果。算法的特點是根據(jù)關聯(lián)圖中實體特征,進行不同概率轉移,實現(xiàn)傾向性隨機游走。算法迭代過程既考慮到指稱相似,又顧及實體關聯(lián)性,從而精確獲取目標實體。實驗算法如下所示:

      算法偏向隨機算法游走

      從當前網(wǎng)絡關聯(lián)圖中初始節(jié)點出發(fā),并以?的概率游走到下一個節(jié)點,或以1-?返回初始狀態(tài),此時節(jié)點的狀態(tài)與周圍鄰居節(jié)點的度k有關。通過鄰居節(jié)點的度比例大小,預測實體節(jié)點的重要程度,并以轉移概率w偏向其比例最大的鄰居節(jié)點,重復上述流程達到平穩(wěn)分布。算法替換任意兩個實體節(jié)點間均勻等概率轉移,通過指稱實體相似度w(rm,rei),以及候選實體的語義相關度Entity(ei,ej),構造線性組合來計算算法轉移概率。

      指稱到實體轉移概率wme如式所示:

      其中Nm表示與指稱節(jié)點相連接的所有候選實體節(jié)點的集合,Ne表示與候選實體相鄰的指稱節(jié)點和其他候選實體節(jié)點的集合,ei表示任意實體,kβ ei表示任意實體節(jié)點的度調節(jié)參數(shù),A、B為超參數(shù)。

      實體到指稱轉移概率wem如式所示:

      其中E、F為超參數(shù)。

      實驗過程收斂后,根據(jù)實體指稱到每個候選實體的轉移概率大小,考查了候選實體的鏈接性能強弱。在t+1 時刻,節(jié)點轉移到實體關聯(lián)圖中其他節(jié)點的概率計算如式所示:

      其中使用T表示關聯(lián)圖的節(jié)點轉移概率矩陣,rt表示第t時刻概率分布情況,?為概率參數(shù),1-?代表重啟隨機概率,s為初始狀態(tài)向量。

      當隨機過程收斂即函數(shù)rt+1 ≈rt時,趨于穩(wěn)態(tài),得到穩(wěn)態(tài)時刻的解如式所示:

      此時根據(jù)指稱指向候選實體的概率分數(shù),選定目標候選實體:

      其中r(e)表示平穩(wěn)概率分布中指向候選實體e的分值。

      3 實驗研究

      3.1 實驗數(shù)據(jù)集及處理

      本文實驗采用的數(shù)據(jù)包括領域圖譜數(shù)據(jù)集和短文本語料數(shù)據(jù)集。領域圖譜數(shù)據(jù)來源于openKG 發(fā)布的OMAHA 七巧板醫(yī)學術語集。該醫(yī)學領域知識庫由實體、關系和屬性組成,抽取數(shù)據(jù)中5 200個疾病類型作為領域圖譜的實體,關系數(shù)量為6 500個,每個實體都含有其疾病概念的描述文本。為便于領域圖譜實體的可視化,將.xml 格式數(shù)據(jù)映射到neo4j 圖形知識庫中。實體領域數(shù)據(jù)圖譜如圖7 所示。通過Fastnewman 聚類對知識庫中候選實體進行劃分,得到每一個實體的類別屬性如表1 所示。其中userID、diseaseID 為實體索引,label為實體標簽,disease_types 為領域實體標簽名稱,rating表示關聯(lián)度。

      圖7 可視化知識庫Fig.7 Visual knowledge base

      表1 聚類實體知識庫Table 1 Cluster entity knowledge base

      根據(jù)CCKS2019&醫(yī)渡云[24]公開的病歷結構化Yidu-S4K數(shù)據(jù)集,采集領域疾病相關數(shù)據(jù)共8 000條(平均字符長度為30),并以比例7∶3 分別作為實體消歧模型的訓練集和測試集。為了解決中文短文本鏈接中的指稱語義模糊的問題,使用深度神經(jīng)網(wǎng)絡模型進行指稱表示。再經(jīng)過特征關聯(lián)圖模型減小實體關聯(lián)性影響,使指稱表示準確鏈接到本地領域圖譜最佳目標實體對象上。

      在實驗訓練前加載候選實體jieba 詞典,使用方案標記法對中字符位置進行標記,處理后能夠完成文本中實體指稱的完整分割。將短文本字符序列輸入到BERT詞模型中生成字符向量。

      3.2 實體鏈接準確性對比

      抽取測試集合中500句短文本,分別進行實體鏈接實驗。為驗證本文模型相似度特征的有效性,進行4種模型的的實驗。模型1(BiLSTM+CNN)為文獻[13]使用聯(lián)合優(yōu)化BERT-ENE 的深度神經(jīng)網(wǎng)絡模型(BiLSTM+CNN)計算指稱與候選實體之間的相似度;模型2(TreeLSTM+CNN)構建字符嵌入的BERT 深度神經(jīng)網(wǎng)絡訓練指稱表示,并計算指稱相似度;模型3(聚類實體+TreeLSTM+CNN)通過Fast-newman 聚類算法構建候選實體簇,并結合實體消歧模型計算指稱相似度;模型4(聚類實體關聯(lián)圖+TreeLSTM+CNN)在實驗3 的基礎上進一步融合候選實體語義相關特征并構建實體關聯(lián)圖,計算指稱相似度。4種模型的的實體鏈接效果如表2所示。

      表2 實體鏈接平均準確率對比Table 2 Average accuracy comparison of entity link

      對于相同測試集,模型2的實體平均鏈接準確率比模型1 高0.3%,實驗表明使用TreeLSTM 網(wǎng)絡在抽取實體指稱特征方面性能更好,這是由于在不同背景知識下網(wǎng)絡更容易對單詞之間的語義關系搭配進行學習,能夠更好地捕捉單詞的語義信息。相比較模型1 而言,在BiLSTM 的方法中,詞向量序列的計算量不斷加大,還由于缺乏指稱與上下文的關系導致實體指稱的歧義性。模型2采用TreeLSTM將隱藏序列表示擴展在樹結構中,使用忘記門機制省略無關子樹。通過捕捉實體指稱與文本中其他單詞的關系來增強位置信息,獲取有用的實體語義信息。

      與模型2 的結果相比,模型3 實體鏈接準確率提高了3.23個百分點,指稱向量表示與模型2得分最高實體所屬實體簇進行相似度計算。結果說明引入Fast-newman 聚類實體關聯(lián)圖,可進一步縮小實體鏈接范圍,并提高實體鏈接準確率。

      與其他3 種模型相比,本文提出的模型4 的實體鏈接平均準確率是最高的,到達了83.98%。在模型4 中,特征關聯(lián)圖結合了實體局部相關性與指稱全局相似性特征,有效解決缺少上下文背景下短文本數(shù)據(jù)中指稱表示及實體關聯(lián)導致鏈接不一致的影響,為實驗模型實體消歧及實體選擇的結果減小了誤差。

      3.3 參數(shù)設置

      在候選實體鏈接實驗過程,實驗參數(shù)設置分為神經(jīng)網(wǎng)絡模型參數(shù)設置與關聯(lián)圖參數(shù)設置。

      在實體消歧模型中,使用Adam 優(yōu)化器對模型進行優(yōu)化,設置學習率為0.01,批量大小為120,訓練次數(shù)epoch 為32 個樣本,定義文本最大長度為40,層的數(shù)目layers 默認為1,初始詞嵌入向量的維度為300,指稱與上下文窗口長度設置為10,并將描述文本與指稱的窗口設置為20。

      根據(jù)聚類實體關聯(lián)性,使用實體邏輯邊距離及實體共現(xiàn)相關距離相組合表示聚類實體相關特征。相關性特征公式(24)包括α、β兩個參數(shù),不斷增大參數(shù)α值通過實驗訓練結果選擇最優(yōu)參數(shù),參數(shù)訓練結果如圖8所示。觀察訓練結果當α=0.52 時,實體間的關聯(lián)程度最大,實體間相關度達到最優(yōu)值。

      圖8 實體相關度參數(shù)設置Fig.8 Parameter setting of entity relevancy

      通過聚類實體關聯(lián)圖隨機節(jié)點間的轉移概率式(25)、(26)和式(27),選取最優(yōu)參數(shù)A、C、E,分別獲取最大轉移概率wme、wem、wij,根據(jù)參數(shù)變化測量概率變化大小,具體情況如圖9所示。

      圖9 關聯(lián)圖轉移概率參數(shù)設置Fig.9 Transfer probability parameter setting of correlation graph

      根據(jù)折線曲線變化選取A=0.40 ,同理選取C=0.50,E=0.52。關聯(lián)圖綜合指稱相似及實體相關特征,考慮實體語義信息,通過偏向重啟隨機算法,最大概率使實體指稱節(jié)點傾向于相似最高候選實體,大大提高了目標實體的預測精準度。

      3.4 評價方法

      為判別實體鏈接的最終效果,實驗指標從精確率P、召回率R、調和平均值F1 三方面評判最終實體鏈接的有效性。利用測量數(shù)據(jù),對基于特征關聯(lián)圖的實體消歧模型進行訓練,鏈接候選實體。若實體指稱在圖譜知識庫中不存在候選實體,則鏈接結果定義為NIL。使用Tnil表示在圖譜知識庫中鏈接到NIL的指稱集合;使用Treal表示在圖譜知識庫中鏈接到候選實體的指稱集合。另一方面,使用人工的方法根據(jù)測量數(shù)據(jù)在圖譜知識庫中對實體指稱進行實體鏈接,以Snil表示人工鏈接到NIL的實體指稱集合;以Sreal表示人工鏈接到圖譜知識庫候選實體的指稱集合。

      分別統(tǒng)計系統(tǒng)與人工鏈接知識庫候選實體的數(shù)目,進而計算指稱鏈接到圖譜知識庫中實體的精確率Preal、召回率Rreal。

      其中Treal∩Sreal表示預測結果與實際實體相一致的實體指稱集合,Snil∪Sreal表示為實際鏈接到圖譜知識庫的實體指稱集合。

      根據(jù)精確率Preal和召回率Rreal,計算指稱鏈接結果為實體的調和平均值Freal為:

      另外針對鏈接結果為NIL,計算準確率Pnil、召回率Rnil:

      其中Tnil∩Snil表示預測結果判定為實際NIL 的實體指稱集合。

      根據(jù)準確率Pnil和召回率Rnil,計算指稱鏈接為NIL的調和平均值Fnil為:

      綜上,根據(jù)調和平均值衡量系統(tǒng)綜合效果,如果精確率越高,系統(tǒng)鏈接到實際候選實體的準確率就越高;如果系統(tǒng)遺失實際候選實體的數(shù)目越少,系統(tǒng)召回率越高。

      3.5 實驗結果及分析

      為驗證實體鏈接的最終效果,設計基于聚類實體關聯(lián)圖的實體語義消歧實驗。文獻[13]在不考慮候選實體相關度的情況下使用長短時記憶網(wǎng)絡來實現(xiàn)實體鏈接。文獻[10]在實體鏈接中使用帶有雙重注意力機制的長短時記憶網(wǎng)絡來完成指稱實體與實體的語義表示,并構建最新本地知識庫,獲取指稱到實體的鏈接。文獻[25]考慮實體稠密及稀疏性定義無向候選實體相關連接圖,通過提出的MINTREE對實體指稱和候選實體形成最小生成樹的語義距離權值,并用生成樹的權值來度量鏈接候選實體的匹配程度。通過上述實驗并于本文方法實驗進行對比,得到的最終性能指標如表3 所示。實驗對比顯示本文提出的模型在準確率、召回率、F1 值都高于其他3種模型實驗結果。

      表3 模型實驗結果對比Table 3 Comparison of model experimental results%

      實驗說明首先在指稱與候選實體相似度特征表示上,與文獻[13]相比較,本文中位置信息增強的TreeLSTM+CNN能夠更好地捕捉實體信息并實現(xiàn)指稱與候選實體的語義關聯(lián)表示。與文獻[10]相比,本文使用聚類算法考慮候選實體的類別特征,在引入候選實體關聯(lián)性的條件下,構建實體關聯(lián)圖,結合實體消歧模型完成實體指稱與候選實體的鏈接。與文獻[25]相比較,本文提出的模型鏈接效果在驗證集下,F(xiàn)指標值上提高了3.1個百分點。在實體鏈接上,本文采用偏向重啟隨機游走算法實現(xiàn)基于聚類實體關聯(lián)圖的實體語義消歧。在隨機轉移過程中實體指稱自動傾向最大相關實體,通過計算圖網(wǎng)絡中各實體的平穩(wěn)概率分布提高實體鏈接匹配程度。綜上比較,實驗結果驗證本文提出的方法具有可行性,能夠有效提高實體鏈接性能。

      4 結束語

      為解決實體鏈接問題,本文提出了深度神經(jīng)網(wǎng)絡與關聯(lián)圖相結合的實體鏈接模型。首先對短文本中的實體進行指稱表示,捕捉實體指稱與實體間的語義相似特征。然后利用Fast-newman 聚類算法對圖譜知識庫中的實體進行劃分,通過相似度計算獲得候選實體集合并在同一空間下構造實體相關特性的實體關聯(lián)圖,減小了候選實體相關性對鏈接的影響。最后,采用偏向轉移隨機游走算法,實現(xiàn)實體指稱的精準鏈接。實驗表明該模型能夠有效減小關聯(lián)性對目標實體鏈接的影響,從而提高實體鏈接的性能。

      猜你喜歡
      知識庫圖譜關聯(lián)
      繪一張成長圖譜
      “一帶一路”遞進,關聯(lián)民生更緊
      當代陜西(2019年15期)2019-09-02 01:52:00
      基于TRIZ與知識庫的創(chuàng)新模型構建及在注塑機設計中的應用
      奇趣搭配
      補腎強身片UPLC指紋圖譜
      中成藥(2017年3期)2017-05-17 06:09:01
      智趣
      讀者(2017年5期)2017-02-15 18:04:18
      高速公路信息系統(tǒng)維護知識庫的建立和應用
      主動對接你思維的知識圖譜
      基于Drupal發(fā)布學者知識庫關聯(lián)數(shù)據(jù)的研究
      圖書館研究(2015年5期)2015-12-07 04:05:48
      雜草圖譜
      雜草學報(2012年1期)2012-11-06 07:08:33
      罗城| 中西区| 东方市| 凤阳县| 宁武县| 南丹县| 泰顺县| 冕宁县| 灯塔市| 隆回县| 略阳县| 大港区| 绍兴县| 遵义市| 新竹县| 五寨县| 景泰县| 花莲市| 红桥区| 托克逊县| 铅山县| 招远市| 新田县| 通道| 梅州市| 闻喜县| 潢川县| 青田县| 正阳县| 庆城县| 盱眙县| 永年县| 噶尔县| 兴宁市| 上饶县| 竹山县| 梁河县| 定襄县| 项城市| 咸宁市| 阿拉尔市|