• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      命名實體消歧研究綜述

      2024-02-21 03:47:28李欣宇
      計算機技術與發(fā)展 2024年2期
      關鍵詞:消歧實體語義

      李欣宇,趙 震

      (渤海大學 信息科學與技術學院,遼寧 錦州 121013)

      0 引 言

      在信息化發(fā)展迅速的今天,眾多通用知識圖譜和特定領域知識圖譜應運而生。但隨著網(wǎng)絡上不斷增加的數(shù)據(jù)量,針對一詞多義和多詞一義的語言現(xiàn)象,如果雙方對于同一事物的理解不一致,就會造成非常多的誤解和問題。如何確定某個實體指向的精確實體概念就變得更加重要,這也就是實體消歧的主要研究內(nèi)容。實體消歧是自然語言處理中的一項基礎環(huán)節(jié),如何提高實體消歧準確率,解決實體消歧的難點問題,已經(jīng)成為各領域當前的研究重點。

      該文主要的工作內(nèi)容如下:

      (1)對國內(nèi)外研究現(xiàn)狀進行分析,并整理了命名實體識別、候選實體生成等實體消歧相關研究理論。

      (2)介紹了實體消歧的具體含義及其研究內(nèi)容,同時以一個新穎的角度對實體消歧方法進行綜述,詳細闡述了基于全局和局部特征的實體消歧、基于上下文特征的實體消歧和基于字符串相似度的實體消歧方法。

      (3)詳細描述了實體消歧領域存在的難點,對實體消歧方法的優(yōu)缺點及評價指標進行了總結(jié),同時對如何提高實體消歧的準確率進行了討論。

      (4)對實體消歧領域的應用及未來發(fā)展進行了總結(jié)。

      總體框架如圖1所示。

      圖1 總體框架

      1 實體消歧研究背景

      在Web of science上對字段“Entity Disambiguation”進行檢索,如圖2所示,分析檢索結(jié)果得到:第一,中國學者們對實體消歧相關研究發(fā)表的文章數(shù)多于外國,說明相比國外,中國對實體消歧的相關研究更加感興趣。第二,國外對實體消歧相關研究的文章最早發(fā)表于2013年,近十年發(fā)表的文章總數(shù)呈上升趨勢,說明實體消歧已經(jīng)成為外國學者們越來越關注的研究內(nèi)容。

      圖2 實體消歧國內(nèi)外研究趨勢

      同時,在中國知網(wǎng)上對關鍵詞“實體消歧”進行檢索,如圖3所示,分析檢索結(jié)果得到:2008年中國發(fā)表首篇實體消歧相關的文章,2020年的發(fā)文量達至頂峰。2008年至今,總體上看中國學者們在實體消歧研究領域的發(fā)文量呈上升趨勢,但近三年文獻數(shù)量顯著減少,說明中國學者們也更加關注實體消歧領域的相關研究,但是近三年對實體消歧領域的研究熱度有所減弱。

      圖3 實體消歧中國研究趨勢

      通過對國內(nèi)外實體消歧研究背景的分析可以看出,近年來,實體消歧技術取得了較大進展。同時,從溫萍梅、段宗濤等一些研究人員在實體消歧方面的綜述文章中可以看出,從文獻全文等長文本到推特、微博、查詢語句等短文本,再到專業(yè)領域語料,針對不同語料特征,學者們提出了對應的消歧策略[1-2]。然而,實體消歧技術還具有一定的提升空間,對于實體消歧技術的各個環(huán)節(jié)中仍存在著的一些問題和挑戰(zhàn),該文主要從命名實體識別、候選實體生成、候選實體排序、實體鏈接四個方面進行總結(jié)。

      1.1 命名實體識別

      命名實體識別是搭建知識庫與自然語言之間的橋梁,它負責從給定文本中準確地識別出人名、地名、機構名、時間等所有類型的實體命名指稱。

      近年來,隨著深度學習的流行,研究人員逐漸利用神經(jīng)網(wǎng)絡進行命名實體識別工作[2]。Lample等[3]介紹了兩種用于序列標記的神經(jīng)結(jié)構,一種基于雙向長短期網(wǎng)絡(Bi-LSTM)和條件隨機場(CRF),另一種使用基于轉(zhuǎn)移的方法,即使與使用外部資源的模型相比,它們也能在標準評估設置中提供最好的NER(Named Entity Recognition)結(jié)果。Kuru等[4]描述了一個采用深度Bi-LSTM架構的字符級標記器,句子不是用單詞表示的,而是用字符序列表示的,評估結(jié)果展示了相同的深度字符級模型能夠在多種語言上獲得良好的NER性能。Rockt?schel等[5]介紹了一個從自然語言文本中提取化學實體的混合系統(tǒng)ChemSpot,該系統(tǒng)使用了將CRF與字典相結(jié)合的混合方法,通過結(jié)合這兩種方法的優(yōu)點,ChemSpot實現(xiàn)了NER性能的大幅提高。

      1.2 候選實體生成

      簡單來說,候選實體生成就是為每個實體指稱在知識庫中生成其可能的候選實體集合的過程。

      Sui等[6]提出一種分層多任務模型,將提取的超細類型信息引入到候選生成任務中,改進了高級零射實體鏈接候選生成任務,實驗結(jié)果證明了該方法的有效性。Fang等[7]通過從多方面檢索候選實體,提高了候選集的質(zhì)量和候選實體生成方法的召回率。Hebert等[8]提出一種密集檢索方法進行候選生成,在Twitter領域該方法通過使用兩個獨立的語言模型分別對推文和實體的語義內(nèi)容進行編碼來實現(xiàn),有效提高了候選生成的召回率。

      1.3 候選實體排序

      候選實體排序問題研究的內(nèi)容是:給定一個查詢q和一個由實體e∈E填充的知識庫(Knowledge Base,KB),找到滿足該查詢q的最佳匹配實體e。

      近年來,學者們對實體排序問題的研究有所增加。Hasibi等[9]建立一個可以插入不同候選實體排名和消歧方法的框架,對于其中的每一個組件都用無監(jiān)督和有監(jiān)督的替代方案進行了實驗,研究結(jié)果表明,在候選實體排序步驟中使用監(jiān)督學習更有益。Cao等[10]提出一種基于二部圖的實體排名方法,該方法利用候選實體之間的Co-List關系來幫助提高實體排名,實驗結(jié)果驗證了該方法尤其在提升那些相關但不受歡迎實體的有效性。Mondal等[11]提出一種基于候選知識庫條目與疾病提及的相似度對候選知識庫條目進行排序的方法,該方法使用三元網(wǎng)絡進行候選人排名,結(jié)果表明其很大程度上優(yōu)于現(xiàn)有的排序系統(tǒng)。

      1.4 實體鏈接

      實體鏈接是自然語言處理中的一項重要技術,它負責把給定文本中的實體指稱鏈接到知識庫中的一個無歧義實體,通常將維基百科作為知識庫[12]。一個準確的實體鏈接系統(tǒng)對于許多與知識相關的任務,如智能問答和信息提取等是至關重要的。

      為了嚴格解決Twitter上幾乎沒有上下文的實體鏈接問題,Guo等[13]提出一種用于實體鏈接的結(jié)構化SVM(Support Vector Machine)算法,通過同時考慮提及檢測和實體消歧,構建了一個優(yōu)于當前最先進系統(tǒng)的端到端實體鏈接系統(tǒng)。Le等[14]使用MIL(Multiple Instance Learning)方法,同時引入一個新的組件,即噪聲檢測分類器,與實體鏈接模型聯(lián)合估計,從而產(chǎn)生更準確的實體鏈接模型。為了解決潛在實體類型常被忽略的問題,Chen等[15]提出將潛在的實體類型信息注入到基于預訓練BERT的實體嵌入中,并將基于BERT的實體相似度評分集成到最新模型的本地上下文模型中,來更好地捕獲潛在的實體類型信息,實驗結(jié)果表明該方法可以有效地改進實體鏈接。

      2 實體消歧定義及研究內(nèi)容

      實體消歧是指將特定文檔中的文本提及鏈接到KB中的正確命名實體的過程,它是自然語言處理的一個基本任務。

      2.1 基于詞典的語義消歧

      基于詞典的語義消歧是對詞的處理,指根據(jù)一個多義詞在特定文本中出現(xiàn)的上下文語義環(huán)境來確定其詞義,通過使用詞典或者類似詞典的知識庫進行消歧?;谠~典的語義消歧是自然語言處理的核心和基礎環(huán)節(jié),有效解決基于詞典的語義歧義問題,也會帶動自然語言處理領域的新發(fā)展。整個基于詞典的語義消歧過程可用公式描述如下:

      S'=argmaxR(Sk|C)

      其中,C表示詞語W所在的特定上下文語言環(huán)境,Sk表示詞語W在特定上下文語言環(huán)境C中的每個詞義,R(Sk|C)表示詞語W的每個詞義Sk和特定上下文語言環(huán)境C存在的不同強弱的關系,S'表示詞語W在N個詞義中的確定詞義。

      形式化地,基于詞典的語義消歧過程就是通過分析和計算詞語W所在的特定上下文語言環(huán)境C與每個詞義Sk間的關系R,找到關系最強的Sk即詞語W的確定語義S'。如“蘋果”在百度百科中共有24個義項,常用的義項有“薔薇科蘋果屬植物”“美國高科技蘋果公司”“2007年李玉執(zhí)導電影”,基于這三個義項,“蘋果”這個多義詞的消歧示例如圖4所示。

      圖4 “蘋果”消歧示例

      2.2 基于實體的語義消歧

      基于實體的語義消歧研究的主要內(nèi)容是解決同一個實體指稱項在不同的上下文中可以對應到不同真實世界實體的語言現(xiàn)象。例如,給定如下兩個包含“Zhang Wei”的句子:

      (1)Zhang Wei is a responsible entrepreneur.

      (2)Zhang Wei is a famous piano player.

      基于實體的語義消歧過程:在給定的特定文本“Zhang Wei won the piano competition.”中,“Zhang Wei”是待消歧實體指稱項,通過將實體指稱項在知識庫中的兩個定義“entrepreneur”,“piano player”和待消歧文本中“piano competition”一詞分別計算并比較其語義相關度得到:特定文本中的“piano competition”與該實體定義中的“piano player”具有較高的語義相關度,所以該實體指稱項“Zhang Wei”應指的是“一個著名的鋼琴演奏家”。

      基于實體的語義消歧研究的角度可以分為如下兩種:

      (1)實體指稱多樣性:一個命名實體可以有多種不同的方式表達。

      (2)實體指稱歧義性:一個實體指稱在不同的上下文語言環(huán)境中可能表示不同的實體含義。

      實體消歧研究內(nèi)容的特點總結(jié)如表1所示。

      表1 實體消歧研究內(nèi)容的特點總結(jié)

      表2 實體消歧方法總結(jié)

      3 實體消歧相關方法

      3.1 基于全局和局部特征的實體消歧

      在局部消歧方面常用基于Bi-LSTM和注意力機制(Attention)相結(jié)合的方法,在全局消歧方面常用基于關聯(lián)圖和PageRank算法相結(jié)合的方法。目前,將局部和全局兩種模型結(jié)合起來的消歧方法可以有效改善實體消歧的準確率。

      例如,NCEL(Neural Collective Entity Linking)[16]方法就是應用圖卷積網(wǎng)絡集成局部上下文特征和全局圖特征進行實體消歧。Yang等[17]第一個使用SGTB(Structured Gradient TreeBoosting)算法,并將全局特征與局部特征聯(lián)合建模,來消除集體實體的歧義。Shahbazi等[18]提出一種新的實體消歧模型,該模型通過LDS(Limited Discrepancy Search)方法結(jié)合了局部上下文信息和全局證據(jù),以從全局角度改進局部解決方案。Hu等[19]采用GNED(Graph Neural Entity Disambiguation)圖神經(jīng)網(wǎng)絡模型,該模型充分利用了在同一文檔中的候選實體之間的全局語義關系,解決實體消歧問題。Tang等[20]使用圖注意網(wǎng)絡捕獲全局主題連貫性,圖注意網(wǎng)絡通過一種特殊的自注意機制,動態(tài)獲取不同鄰居節(jié)點的重要信息。

      3.2 基于上下文特征的實體消歧

      隨著機器學習技術的發(fā)展,卷積神經(jīng)網(wǎng)絡(CNN)和循環(huán)神經(jīng)網(wǎng)絡(RNN)被用于實體消歧任務中,但針對其存在的上下文文本特征提取不充分、語義信息獲取較少的問題,姜麗婷等[21]提出一個新的混合卷積網(wǎng)絡(MCN)模型,該模型融合了CNN和圖卷積網(wǎng)絡(GCN)兩種模型的優(yōu)勢來解決上下文文本特征提取不充分的實體消歧問題,獲得了很好的結(jié)果。

      Wang等[22]提出一個具有多視角注意力的神經(jīng)網(wǎng)絡,以豐富不同視角下的提及和實體表示,捕捉更多信息特征,提高消歧性能。Deng等[23]提出關聯(lián)圖和候選實體關聯(lián)圖,利用圖神經(jīng)網(wǎng)絡(GNNs)獲得同一文檔的多主題相干特征進行消歧。Veloso等[24]提出EAND (Eager Associ-ative Name Disambiguation),LAND (Lazy Associative Name Disambiguation),SLAND(SelfTraining LAND)三種關聯(lián)作者姓名消歧方法,特別是SLAND,它利用引文特征,擴展了LAND的自我訓練能力,大大減少了構建有效消歧函數(shù)所需的示例數(shù)量,從而很好地實現(xiàn)了作者姓名消歧效果。

      3.3 基于字符串相似度的實體消歧

      機器學習用于教機器如何更有效地處理數(shù)據(jù),賦予計算機在沒有明確編程的情況下學習的能力,它依靠不同的算法來解決數(shù)據(jù)問題。孫笑明等[25]使用半監(jiān)督學習算法,以特征向量(如姓名相似度、分類號相似度等)為信息提取源,構造基于決策樹C4.5算法的分類模型,識別姓名歧義問題。

      近年來,神經(jīng)網(wǎng)絡也得到了廣泛的研究,并被證明可以有效地用于各種數(shù)據(jù)挖掘和分析任務。神經(jīng)網(wǎng)絡結(jié)合結(jié)構信息和語義特征的能力對自然語言處理任務中的實體消歧工作至關重要。例如,He等[26]次將深度神經(jīng)網(wǎng)絡引入實體鏈接框架,提出了一種基于深度神經(jīng)網(wǎng)絡(DNN)的實體消歧模型,通過直接優(yōu)化給定相似性度量的文檔和實體表示來消除實體歧義,進一步提高了消歧性能。Phan等[27]提出一種NeuPL(Neural network model combined with Pair-Linking)方法來計算實體之間的語義相似度,進而更好地實現(xiàn)實體消歧。

      另外,DoSeR[28]設計了一種利用實體知識圖上的個性化PageRank值的集體消歧方法,該方法利用語義嵌入來計算實體間的語義相似性從而進行實體消歧。Mingke等[29]提出了一種基于分類語義關聯(lián)和結(jié)構語義關聯(lián)的命名實體消歧方法,該方法綜合考慮了實體之間的顯式和隱式語義關聯(lián),通過計算結(jié)構語義相關度和分類語義相關度顯著提高了實體消歧效果。Zhu等[30]提出了一種基于詞和類別嵌入聯(lián)合學習的Category2Vec嵌入模型,該模型可以更好地計算詞類別的相似性,有效地解決了上下文信息有限的短文本實體消歧問題,改善了實體消歧性能。

      各類實體消歧方法涉及的主要技術和數(shù)據(jù)集如表 2 所示。

      4 實體消歧領域難點

      4.1 中文比英文消歧難度高

      與中文的知識資源相比,英文的知識資源更加成熟和豐富。由于漢語語義知識資源的稀缺,知識獲取瓶頸在漢語中更為嚴重,這也就導致了中文實體消歧的困難性。邵發(fā)等[31]針對開放文本中中文實體關系抽取的一詞多義問題,利用貝葉斯分類器和模式合并法提高實體關系抽取性能。Lu等[32]為了解決中文消歧知識瓶頸的問題,提出一種基于圖的多知識集成中文WSD(Word Sense Disambiguation)方法來消除歧義。

      4.2 短文本比長文本消歧難度高

      短文本的上下文通常是嘈雜和稀缺的,具有信息模糊和不完整的問題。無法提供給實體消歧任務所必需的豐富的上下文信息,這一局限性給實體消歧任務增加了難度。Jiang等[33]提出一種基于神經(jīng)網(wǎng)絡的膠囊網(wǎng)絡和CNN的實體消歧方法,充分利用了短文本數(shù)據(jù)的全部語義信息來執(zhí)行實體消歧任務。Feng等[34]針對短文本信息模糊和不完整的問題,提出一種知識增強的短文本實體消歧方法,可以顯著提高短文本實體消歧任務的性能。

      4.3 跨語言比單語言消歧難度高

      跨語言實體消歧在過去幾年得到了學者們的關注,不同語言之間的翻譯是跨語言信息抽取的難點,而在翻譯過程中自然存在著實體歧義性問題。Barrena等[35]提出一個0-shot XNED(zero-shot cross-Lingual Named Entity Disambiguation)架構,為每個可能的提及字符串提供了一個模型,從而消除了本機先驗概率的需要,而不是一個單一的消歧模型。Maeda等[36]針對基于查詢翻譯的CLIR(Cross Language Information Retrieval)方法所需要的自然語言資源不易獲得的問題,提出一種基于詞典的查詢翻譯的消歧方法,實現(xiàn)足夠的檢索效率。

      4.4 低程度的相關性消歧難度高

      傳統(tǒng)的實體消歧方法通常是基于文檔中提到的所有實體都緊密相關,但研究表明,在一些新聞、推文中也常常存在著一些低相關性的實體。Phan等[37]針對文檔中提及到的實體存在低程度的一致性問題,提出一種新的基于樹的集合鏈接模型MINTREE,該模型利用最小生成樹的權值來度量實體圖中的相干性。Zhang等[38]在同一份文件中的提及通常對應不同的主題,提出一種多主題全局一致性特征提取的全局模型。

      5 提高實體消歧準確率方法

      5.1 改善相似度計算方法

      因為實體間存在著較為復雜的關系,所以應用更優(yōu)異的相似度計算方法能夠更準確地描述出它們之間的關聯(lián)度,進而可以提高實體消歧的準確率。

      汪沛等[39]采用一種基于圖的隨機游走算法輔助計算相似度,可以高效地獲取實體指稱項與目標實體間的相似度,進一步提升了特定領域?qū)嶓w消歧的準確率。Fan等[40]提出一種基于圖的GHOST(abbreviation for GrapHicalframewOrk for name diSambiguaTion)算法,結(jié)合AP(A-ffifinity Propagation)聚類算法進行相似度計算,在人名消歧方面取得了較好的實驗結(jié)果。

      5.2 提升詞間依賴性

      豐富的上下文依賴關系,可以增強實體間的關聯(lián)程度,進而來幫助實現(xiàn)消歧的過程。

      曾維新等[41]提到現(xiàn)有的實體消歧方法大多采用集體排序方法以更好地捕捉實體指稱間的依賴性,進而提升消歧效果。Li等[42]提出一種結(jié)合雙注意機制和分布強化的圖卷積網(wǎng)絡關系提取模型,該方法通過兩個并行注意模塊聚合全局特征語義信息,增強特征全局依賴性。

      5.3 挖掘?qū)嶓w隱藏語義關系

      大多數(shù)關系提取方法都需要足夠的數(shù)據(jù)來實現(xiàn)良好的性能,挖掘?qū)嶓w的隱藏語義可以更準確地提取文本中的實體關系,改善實體消歧性能。

      Guo等[43]提出一種以結(jié)構化數(shù)據(jù)庫為領域知識的連體圖神經(jīng)網(wǎng)絡——傳記神經(jīng)網(wǎng)絡模型,提高了從生物醫(yī)學文獻中提取實體關系的準確性。它還可以在生物醫(yī)學文獻中發(fā)現(xiàn)一些潛在的、未被發(fā)現(xiàn)的關系。Zeng等[44]提出利用潛在文本特征,通過基于雙注意的長短期記憶網(wǎng)絡(LSTM)生成提及和實體的表示,挖掘表面形式下的語義關系,并進一步用于計算提及-實體相似度。

      5.4 解決有效信息利用不足問題

      充分考慮實體特征并綜合提取文檔屬性特征,可以進一步提高實體消歧的精確度。

      Deng等[23]提出一種新的HRFAENE(Heterog-eneous Relation Fusion and Attribute Enhanced Network Embe-dding)模型,該模型通過對網(wǎng)絡結(jié)構和屬性的多次學習,有效地解決了有效信息利用不足的問題,提高消歧效果。賀紫涵[45]針對文檔級實體消歧問題中一致性特征提取不精確的現(xiàn)象,在實體局部一致的前提下,提出一種GN-CED(Graph Neural Collaborative Entity Disambiguation)協(xié)同實體消歧模型,實驗結(jié)果表明,相比于其它方法,應用該模型可以改善實體消歧的準確率。

      前文所介紹的實體消歧方法具有良好的準確率,對它們的優(yōu)缺點和評價指標進行匯總?cè)绫?所示。

      表3 實體消歧方法優(yōu)缺點及評價指標匯總

      6 結(jié)束語

      實體消歧在自然語言處理工作中扮演重要角色,在智能推薦、智能問答、信息檢索、知識庫構建領域都有著廣泛的應用價值。其中,武漢音樂學院構建了智慧型博物館,當人們對某件樂器感興趣,在該樂器前停下來時,VR、AR設備就會展示出該樂器的知識圖譜,參觀者可以根據(jù)自身專業(yè)和興趣提取相關知識。其知識圖譜中存在的非結(jié)構化類型數(shù)據(jù)就需要實體消歧技術做進一步處理。該智慧型博物館旨在實現(xiàn)網(wǎng)絡與實體館的多維度互動,進而探索音樂與科技融合的新模式。

      實體消歧領域未來發(fā)展方向:

      (1)充分考慮消歧特征,提高中文短文本的實體消歧效果。

      (2)優(yōu)化不同語言文本間的相似度計算方法,保證較好的通用性。

      (3)深入研究結(jié)合文本和圖形信息的實體消歧方法,提高消歧準確率。

      (4)將圖卷積網(wǎng)絡應用于實體消歧。應該更多的將圖卷積網(wǎng)絡應用于實體消歧,可以獲得更高的消歧性能。

      未來對實體消歧領域的研究應該更多地結(jié)合卷積神經(jīng)網(wǎng)絡、圖卷積網(wǎng)絡等深度學習方法,更多地應用于文本語言環(huán)境不理想的實體歧義現(xiàn)象中。知識圖譜與自然語言處理關系密切,實體消歧是知識圖譜構建中的一個關鍵技術,期待研究人員更多地關注到實體消歧領域,探索提高實體消歧準確率的方法,從而進一步推動自然語言的發(fā)展。

      猜你喜歡
      消歧實體語義
      基于關聯(lián)圖和文本相似度的實體消歧技術研究*
      基于半監(jiān)督集成學習的詞義消歧
      語言與語義
      前海自貿(mào)區(qū):金融服務實體
      中國外匯(2019年18期)2019-11-25 01:41:54
      藏文歷史文獻識別過程中藏文自由虛詞的自動識別及消歧算法的研究
      實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
      哲學評論(2017年1期)2017-07-31 18:04:00
      兩會進行時:緊扣實體經(jīng)濟“釘釘子”
      振興實體經(jīng)濟地方如何“釘釘子”
      “上”與“下”語義的不對稱性及其認知闡釋
      認知范疇模糊與語義模糊
      定远县| 丽江市| 芒康县| 德清县| 巨鹿县| 石林| 双桥区| 囊谦县| 泰和县| 乌兰县| 蓬溪县| 灌南县| 龙门县| 富民县| 彭州市| 上栗县| 方正县| 深水埗区| 屯昌县| 漠河县| 通化市| 贺兰县| 曲阜市| 萨嘎县| 舞钢市| 梁平县| 武夷山市| 新晃| 襄樊市| 家居| 霍山县| 柏乡县| 清新县| 青川县| 钦州市| 安达市| 辰溪县| 龙胜| 莱阳市| 元阳县| 龙井市|