• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      重疊實體關(guān)系抽取綜述

      2022-01-22 07:50:38杭婷婷
      計算機工程與應(yīng)用 2022年1期
      關(guān)鍵詞:三元組實體方法

      馮 鈞,張 濤,杭婷婷

      河海大學(xué)計算機與信息學(xué)院水利部水利大數(shù)據(jù)重點實驗室,南京 211100

      近年來大數(shù)據(jù)得到快速發(fā)展,使得互聯(lián)網(wǎng)上留存海量的無結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)。如何通過深層次的挖掘這些數(shù)據(jù)得到更有價值的信息,給用戶帶來更好的體驗,成為了這一領(lǐng)域?qū)W者的熱點問題。在這種環(huán)境下,信息抽取技術(shù)也成為了焦點,信息抽取任務(wù)主要包括兩大部分:實體關(guān)系抽?。╡ntity relation extraction)、事件抽?。╡vent extraction)[1]。而實體關(guān)系抽取作為信息抽取技術(shù)關(guān)鍵任務(wù)之一,自然引起了廣大學(xué)者的關(guān)注。

      實體關(guān)系抽取能夠從文本中提取事實知識,是自然語言處理(natural language processing,NLP)領(lǐng)域中重要的任務(wù)之一,對知識圖譜構(gòu)建及其下游應(yīng)用起著支撐作用,例如決策支持、智能問答等?,F(xiàn)階段,實體關(guān)系抽取可以分為兩大類:基于傳統(tǒng)機器學(xué)習(xí)和基于深度學(xué)習(xí)[2]。表1中整理了目前實體關(guān)系抽取方法的優(yōu)缺點。

      表1 實體關(guān)系抽取方法比較Table 1 Comparison of entity relation extraction methods

      (1)基于傳統(tǒng)機器學(xué)習(xí)

      基于傳統(tǒng)機器學(xué)習(xí)的方法主要依賴于自然語言處理工具來提取特征,對提取到的特征采用相對簡單的方法就可以獲得較好的效果?;跈C器學(xué)習(xí)的方法以數(shù)據(jù)集標(biāo)注量又可以劃分為有監(jiān)督、半監(jiān)督和無監(jiān)督的方法。①有監(jiān)督的方法:利用人工標(biāo)注語料構(gòu)建語料庫,將關(guān)系抽取任務(wù)視作分類任務(wù),對識別到的候選實體預(yù)測關(guān)系。常用方法主要分為基于特征向量的方法[3]和基于核函數(shù)的方法[4]。②半監(jiān)督的方法:利用少量人工標(biāo)注的數(shù)據(jù)構(gòu)建種子,通過訓(xùn)練大量未標(biāo)記的語料庫,生成新的實例進而增加新的種子,不斷迭代,擴大種子規(guī)模,從而得到預(yù)期的效果[5]。常用的算法主要有自舉(boost strapping)[6]、協(xié)調(diào)訓(xùn)練(co-training)[7]和標(biāo)注傳播(label propagation)的方法[8]。③無監(jiān)督的方法:雖然半監(jiān)督的方法僅使用少量的語料,但是種子的好壞會極大影響后續(xù)的結(jié)果,在此問題基礎(chǔ)上,研究者采用基于聚類的思想,通過自底向上的方法從語料庫中抽取出具有相似性關(guān)系的實體對,在從句中選取合適的詞語標(biāo)記關(guān)系[9]。

      (2)基于深度學(xué)習(xí)

      由于傳統(tǒng)的機器學(xué)習(xí)方法依賴自然語言處理工具抽取特征,可能會引起特征提取誤差傳播問題,極大影響關(guān)系抽取問題。為了能夠自動化地抽取特征,深度學(xué)習(xí)的方法受到研究者的關(guān)注[10]。深度學(xué)習(xí)關(guān)系抽取目前分為兩大類有監(jiān)督和遠程監(jiān)督。①有監(jiān)督的方法:利用人工標(biāo)注的數(shù)據(jù)集,通過深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型,自動獲取句子特征,進而得到較好的訓(xùn)練效果。按照實體關(guān)系抽取的子任務(wù)完成順序不同可以分為流水線(pipeline)方法[11]和聯(lián)合(joint)學(xué)習(xí)方法[12]。②遠程監(jiān)督的方法:利用遠程知識庫自動化抽取大量的實體對,迅速的擴大知識庫的規(guī)模。自動化抽取假設(shè)句子中實體對的關(guān)系與知識庫中該實體的關(guān)系,但是這種數(shù)據(jù)標(biāo)注的過程會帶來大量的噪聲數(shù)據(jù),在抽取過程會產(chǎn)生誤差傳播[13]。

      基于深度學(xué)習(xí)的聯(lián)合抽取方法很好的解決了機器學(xué)習(xí)方法中存在的誤差傳播問題,并且考慮到實體識別和關(guān)系抽取任務(wù)之間的依賴關(guān)系。但是大部分的模型將任務(wù)限定在單一句子中,并假設(shè)句子中只包含一個實體對。然而,這一假設(shè)是不切合實際的,句子中包含了更為復(fù)雜的事實關(guān)系,不同的關(guān)系三元組在一個句子中可能有重疊。事實上,在WebNLG數(shù)據(jù)集68.2%的句子存在重疊,這會導(dǎo)致模型提取三元組不是很精準(zhǔn)?,F(xiàn)階段可以按照實體重疊程度劃分為三種類型,包括正常類(normal)、單實體重疊(single entity overlap,SEO)和實體對重疊(entity pair overlap,EPO),如圖1所示。S1 是屬于正常類,其中只包含了一個三元組;S2 屬于SEO,句中的實體Tennessee 同時與實體Martha和Monteagle 存在關(guān)系,兩個三元組發(fā)生了重疊;S3 屬于EPO,句子中的實體對發(fā)生了重疊。

      圖1 重疊類型分類Fig.1 Classification of overlapping types

      從圖1 中的實例可以看出,重疊實體關(guān)系抽取相比經(jīng)典關(guān)系抽取更加具備挑戰(zhàn)性,主要包含以下5 個挑戰(zhàn):

      (1)暴露偏差,模型采用Seq2Seq的方法,但是實際上任務(wù)間仍舊存在級聯(lián)關(guān)系。在實際訓(xùn)練階段,級聯(lián)任務(wù)均采用真實數(shù)據(jù)標(biāo)簽輸入進行訓(xùn)練,會導(dǎo)致預(yù)測階段和訓(xùn)練階段的數(shù)據(jù)出現(xiàn)分布偏差,并產(chǎn)生誤差積累。

      (2)交互缺失,模型在建模過程中忽略的內(nèi)在聯(lián)系可以分為:頭實體和尾實體、實體和關(guān)系、關(guān)系和關(guān)系以及三元組間的內(nèi)在聯(lián)系。有效建模三元組內(nèi)在聯(lián)系,可以減少模型對數(shù)據(jù)量的要求,減少模型計算負(fù)擔(dān)。

      (3)實體完全提取,大多數(shù)模型采用部分匹配的方法評估模型性能,當(dāng)頭實體最后一個單詞、尾實體和關(guān)系被識別正確時,則視作三元組正確。這種評估方式不符合事實且無法應(yīng)用到實際場景,如何在提取完整實體的同時不影響模型性能,仍然是要面臨挑戰(zhàn)之一。

      (4)嵌套實體識別,句子中存在嵌套實體以及復(fù)雜的關(guān)系,使得句子十分復(fù)雜且不易解析。如何有效識別實體邊界以及復(fù)雜的關(guān)系是現(xiàn)階段仍面臨的挑戰(zhàn)之一。

      (5)圖模型構(gòu)建,圖模型很適用于實體關(guān)系提取任務(wù),圖的結(jié)構(gòu)在模型整體性能中起著重要作用,而構(gòu)建高質(zhì)量和特定任務(wù)的圖需要具備良好的領(lǐng)域知識。如何動態(tài)構(gòu)建自適應(yīng)圖是極具挑戰(zhàn)性的任務(wù)。

      本文將針對重疊實體關(guān)系抽取任務(wù),梳理從經(jīng)典關(guān)系抽取任務(wù)到重疊實體關(guān)系抽取任務(wù)的脈絡(luò),對其中作者的核心思想、使用的方法以及方法優(yōu)勢和不足點進行總結(jié),進而為接下來的研究方向提出可能性的建議以及未來可能改進的研究方向。據(jù)目前來看,這是針對重疊實體關(guān)系抽取的第一個全面綜述。

      1 重疊實體關(guān)系抽取方法

      2011年,Hoffmann等人[8]首次在模型構(gòu)建過程中考慮到重疊實體關(guān)系問題,并引入基于多實例學(xué)習(xí)的概率圖模型解決此問題。經(jīng)過多年后,重疊實體關(guān)系抽取這一問題重要性逐漸被研究者意識到并采用基于序列到序列(sequence to sequence,Seq2Seq)、基于圖(graphbased)和基于預(yù)訓(xùn)練語言模型(pre-trained language model,PTM)的方法進行深入研究。

      1.1 基于序列到序列的方法

      基于Seq2Seq 的方法最初由Sutskever 等人[14]提出,采用編碼-解碼架構(gòu)解決機器翻譯問題,是自然語言處理領(lǐng)域中運用最廣泛的框架之一,如圖2所示?,F(xiàn)在應(yīng)用到關(guān)系抽取領(lǐng)域,該架構(gòu)將非結(jié)構(gòu)化文本轉(zhuǎn)化為詞向量作為輸入序列,通過編碼獲取上下文表示,再經(jīng)過解碼,將關(guān)系三元組順序輸出。2017年,Zheng等人[15]提出了一種新穎的標(biāo)注策略(novel tagging),標(biāo)注實體信息同時標(biāo)注關(guān)系類型,以此將命名實體識別和關(guān)系抽取任務(wù)轉(zhuǎn)變?yōu)樾蛄袠?biāo)注任務(wù)。采用簡單的端到端神經(jīng)網(wǎng)絡(luò)模型就可以有效的抽取出三元組,提高了實體關(guān)系抽取任務(wù)的F1 值,達到了42.0%。但該模型忽略了SEO 和EPO 的情況,在此之后,學(xué)者對重疊實體關(guān)系抽取任務(wù)展開了進一步研究,現(xiàn)按照任務(wù)解決方案可以劃分為:基于標(biāo)注策略和基于復(fù)制機制。

      圖2 基于序列到序列的經(jīng)典模型框架Fig.2 Traditional model framework based on Seq2Seq

      1.1.1 基于標(biāo)注策略

      基于標(biāo)注策略的解決方案主要是受到novel tagging模型的啟發(fā),將實體關(guān)系抽取兩階段任務(wù)轉(zhuǎn)變?yōu)閷嶓w和關(guān)系開始位置和結(jié)束位置的共同標(biāo)注,從而實現(xiàn)聯(lián)合解碼。后續(xù)學(xué)者經(jīng)過巧妙調(diào)整標(biāo)注策略使得模型可以解決重疊實體關(guān)系抽取任務(wù)?,F(xiàn)階段標(biāo)注多采用BIESO 標(biāo)注實體信息,分別表示{實體開始,實體內(nèi)部,實體結(jié)束,單個實體,無關(guān)詞},關(guān)系類型采用預(yù)定義關(guān)系詞進行標(biāo)記。根據(jù)過往的工作總結(jié),將標(biāo)注策略按照抽取順序分為頭實體優(yōu)先抽取、關(guān)系優(yōu)先抽取、三元組建模抽取。

      Yu等人[16]提出了一種新穎的分解式策略,將抽取任務(wù)分解為頭實體(head entity,HE)提取、尾實體關(guān)系(tail entity relation,TER)提取,兩個任務(wù)共享編碼層。通過引入基于跨度距離的標(biāo)記方案,進一步將兩個子任務(wù)轉(zhuǎn)變?yōu)槎嘈蛄袠?biāo)注問題,對于句子中的HE 標(biāo)記其位置和類型,再根據(jù)HE去預(yù)測TER,TER包括兩個子序列標(biāo)注任務(wù),標(biāo)記尾實體(tail entity,TE)開始位置和關(guān)系類型,標(biāo)記TE結(jié)束位置和關(guān)系類型,最終在WebNLG數(shù)據(jù)集中F1 值達到了83.1%。田佳來等[17]人采用分解策略思想的同時引入了GLU dilated CNN 對句子進行編碼,采用自注意力機制提高模型抽取能力,并成功將模型運用到軍事領(lǐng)域,其F1值達到了80.84%。分解策略,頭實體、尾實體經(jīng)過兩次解碼獲得,并未考慮到頭尾實體間的相互作用,基于此趙等人[18]使用多標(biāo)簽策略處理重疊實體關(guān)系問題,并在編碼層加入了詞性信息和句法依存關(guān)系,以及引入多頭注意力機制,在NYT數(shù)據(jù)集F1值達到了66.7%。頭實體優(yōu)先抽取,再判定實體對之間的關(guān)系,會產(chǎn)生大量的冗余實體,并進行了許多不必要的操作。為了進一步探索更好的抽取方式,部分學(xué)者采用了關(guān)系優(yōu)先抽取。

      (2)關(guān)系優(yōu)先抽取

      Lin等人[19]提出了一種基于關(guān)系矩陣約束下的關(guān)系提取模型RERLC,該模型認(rèn)為在同句子內(nèi),相關(guān)性強的關(guān)系對出現(xiàn)的概率更高。將關(guān)系轉(zhuǎn)變?yōu)橄蛄?,?jīng)過計算關(guān)系向量間的夾角計算相關(guān)度,從而建立關(guān)系矩陣。在序列標(biāo)注的過程中獲取頭實體,再經(jīng)關(guān)系矩陣計算尾實體。但是,該方法缺乏建模關(guān)系和實體間的相互作用,并且模型泛化能力不強;基于此,Zhuang 等人[20]在關(guān)系優(yōu)先的基礎(chǔ)上,將預(yù)測的關(guān)系與文本結(jié)合進行實體識別,結(jié)合實體對和關(guān)系獲得關(guān)系。并分析數(shù)據(jù)集,獲得數(shù)據(jù)中特定的規(guī)則,將規(guī)則加入到三元組解碼層,進一步提升原有模型的性能,該模型結(jié)合文本,引入數(shù)據(jù)增強,提高了模型泛化能力,但是會因為關(guān)系標(biāo)注錯誤引起誤差傳播;在此之上,Yuan 等人[21]構(gòu)建了關(guān)系注意力網(wǎng)絡(luò)提取三元組,首先采用Bi-LSTM對句子進行編碼,再通過關(guān)系注意力網(wǎng)絡(luò)獲取不同關(guān)系下句子特征表示,經(jīng)過關(guān)系門過濾負(fù)樣本關(guān)系后,提取到對應(yīng)的實體。當(dāng)指定關(guān)系識別出多個實體時,采用啟發(fā)式規(guī)則,將距離相近的實體自動結(jié)合成三元組。該方法通過關(guān)系門避免了誤差傳播,但該模型在EPO 問題效果不佳;Liu 等人[22]相較于文獻[21],設(shè)計了一種多頭自注意力網(wǎng)絡(luò),充分獲取不同關(guān)系標(biāo)簽下的關(guān)聯(lián)強度。將檢測到的關(guān)系類型與實體提取模塊的結(jié)果融合,經(jīng)過預(yù)先定義的閾值判斷三元組。Luo等人[23]將SEO進一步劃分為ELS(exclude loop sentences)和ILS(include loop sentences),從而引入了雙向樹標(biāo)記的方案。首先,將句子中具有相同關(guān)系的三元組分組在一起,按照三元組中實體和關(guān)系出現(xiàn)的順序建模成二叉樹結(jié)構(gòu),最后,建立二叉樹結(jié)構(gòu)和序列標(biāo)簽之間的映射,從而取得了良好的效果。雙向二叉樹雖然結(jié)構(gòu)新穎,但是該結(jié)構(gòu)難以處理EPO問題,模型性能受結(jié)構(gòu)限制。Ma等人[24]設(shè)計了一種級聯(lián)雙解碼聯(lián)合提取模型,該模型首先檢測文本中存在的關(guān)系,并將它們視為額外的映射,提取每個關(guān)系相應(yīng)的HE 和TE,結(jié)果有著明顯的提升。不管是頭實體優(yōu)先抽取或者是關(guān)系優(yōu)先抽取,都是將關(guān)系視作離散標(biāo)簽分配給實體。當(dāng)數(shù)據(jù)量不充足情況下,分類器很難準(zhǔn)確分類,這樣會導(dǎo)致模型訓(xùn)練效果不佳。在此問題之上,出現(xiàn)了三元組建模抽取的方式。

      (3)三元組建模抽取

      在2020年ACL會議上,Wei等人[25]設(shè)計了級聯(lián)二進制標(biāo)記框架CaseRel,使模型學(xué)習(xí)給定關(guān)系下HE 到TE之間的映射函數(shù),從而達到對三元組整體建模的效果。主要流程如下:首先,經(jīng)過兩個二進制分類器(開始位置分類器、結(jié)束位置分類器)標(biāo)識句子中所有可能的實體。然后,檢查所有可能的關(guān)系,在指定關(guān)系下用分類器標(biāo)識尾實體,每次標(biāo)記前會將之前標(biāo)記的數(shù)據(jù)清零。該模型在WebNLG數(shù)據(jù)集上F1值達到了91.8%,對比當(dāng)時最好的模型有著30.2%的提升。該模型設(shè)計的通用算法框架,為重疊實體關(guān)系抽取任務(wù)引入新的解決方法,但是該模型需要對實體進行剪枝,避免復(fù)雜度過高;Wang 等人[26]在CaseRel 基礎(chǔ)上使用IDCNN(iterated dilated CNN)和Bi-LSTM對句子進行編碼,并采用注意力機制,以獲得句子中更豐富的語義特征,來提升模型的效果;Wang等人[27]引入了一種新穎的握手標(biāo)記策略,針對句子中的任意一個單詞以及除它以外其他單詞做以下判斷:是否同為一個實體的開始和結(jié)束,給定關(guān)系下是否分別為兩實體的頭部,給定關(guān)系下是否為實體的尾部,根據(jù)以上判斷的結(jié)果進行標(biāo)記。該策略通過回答問題的方式很好的解決了復(fù)雜實體在重疊實體關(guān)系抽取任務(wù)中的影響,在NYT數(shù)據(jù)集F1值達到了92.0%。

      1.1.2 基于復(fù)制機制

      復(fù)制機制模仿人類在背誦課文時,對于難以理解的語句進行死記硬背的方法。在實際應(yīng)用過程中,復(fù)制機制結(jié)合RNN或LSTM等模型獲取到想要復(fù)制片段語義特征,在輸入序列中定位位置,將其直接復(fù)制到輸出序列中,以應(yīng)對特定任務(wù)。基于復(fù)制機制的方法按照復(fù)制內(nèi)容分為單實體識別復(fù)制和多實體識別復(fù)制。單實體識別復(fù)制指的是在復(fù)制的過程中遇到擁有多個單詞的實體時,僅復(fù)制實體的最后一個單詞。而多實體識別在復(fù)制過程中可以完成復(fù)制整個實體。

      產(chǎn)層配方:基漿10m3(密度1.80g·cm-3)+2%細雷特超強堵漏劑+2%雷特隨鉆堵漏劑+2%中酸溶性橋塞堵漏劑+2%細酸溶性橋塞堵漏劑+果殼類材料,總濃度14%。

      (1)單實體識別復(fù)制

      Zeng 等人[28]提出了一種基于復(fù)制機制的端到端模型CopyRe,該模型先提取關(guān)系再提取實體,通過復(fù)制實體讓實體參與到不同的三元組,并針對不同情況采用了不同的解碼策略:使用單解碼器生成所有的三元組序列;使用多解碼器,其中的每一個解碼器對應(yīng)一個三元組,F(xiàn)1 值提高了4.82%;2019 年,Zeng 等人[29]在自己模型的基礎(chǔ)上,認(rèn)為提取句子中三元組順序?qū)Τ槿〗Y(jié)果有著至關(guān)重要的影響。在實際訓(xùn)練過程中,已提取出的三元組作為先驗知識會極大影響剩下三元組提取。考慮到以上問題,在任務(wù)中引入了強化學(xué)習(xí),對解碼過程中產(chǎn)生的三元組與已有標(biāo)記三元組進行比較,以此設(shè)定獎勵機制,對模型進行多次迭代,模型效果得到了提升。

      不管是CopyRe 還是CopyRe-RL 模型,在識別和復(fù)制實體時僅涉及到實體的最后一個單詞,會極大影響關(guān)系類型提取。在NYT數(shù)據(jù)集中77.44%的實體不僅僅包含一個詞匯,僅復(fù)制單實體是不切實際的,有必要將任務(wù)拓展到多實體識別復(fù)制。

      (2)多實體識別復(fù)制

      Bai等人[30]通過多層神經(jīng)網(wǎng)絡(luò)進行編碼并結(jié)合自注意力機制,設(shè)計了雙指針網(wǎng)絡(luò)結(jié)構(gòu)分別識別實體的開始位置和實體的結(jié)束位置,從而讓完整的實體參與到復(fù)制過程中,在NYT 數(shù)據(jù)集上F1 值提升了18.9%,但是,該模型并未考慮實體對和關(guān)系之間的相互作用;此外,Zeng等人[31]從理論層面剖析了CopyRE出現(xiàn)的問題,采用了非線性激活函數(shù)解決首尾實體順序混亂問題,引入多任務(wù)學(xué)習(xí)框架解決實體識別不全的問題,在當(dāng)時的多個數(shù)據(jù)集上達到了SOTA,但是該模型預(yù)測三元組數(shù)量受限制。為了進一步探索,Wang 等人[32]采用RCNN 對句子進行編碼,通過設(shè)定變量閾值避免復(fù)制實體過程中HE和TE相同,并將模型成功的應(yīng)用在了生物領(lǐng)域,F(xiàn)1值提升了14.4%。Nayak等人[33]針對于復(fù)制機制改進了兩種方法:①提出一種新的實體關(guān)系表示方案,三元組內(nèi)采用“;”分隔元組內(nèi)容,三元組間采用“|”分隔。在解碼過程中每步產(chǎn)生一個單詞。但是解碼器在解碼過程中會預(yù)測到不存在于當(dāng)前句子或關(guān)系集的標(biāo)記,為了保證僅僅復(fù)制源句子中的實體,引用了一種排除機制,將沒有特殊標(biāo)記的單詞相應(yīng)的SoftMax分?jǐn)?shù)置為0;②考慮到編碼器每一次只提取一個單詞運行速度較慢且浪費資源,提出了一種基于指針網(wǎng)絡(luò)的解碼框架,該框架用五元組標(biāo)記實體,分別是,并且在解碼過程中每次提取整個元組。

      1.2 基于圖的方法

      雖然Seq2Seq 已經(jīng)成為NLP 中處理各種任務(wù)的主要方法,但是有各種各樣的NLP問題可以用圖形結(jié)構(gòu)來更好地表達。因此,人們對NLP領(lǐng)域中開發(fā)新的圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional network,GCN)技術(shù)興趣激增,其中采用的經(jīng)典模型框架如圖3所示。基于圖的方法按照圖結(jié)構(gòu)又可以劃分為靜態(tài)圖方法和動態(tài)圖方法。靜態(tài)圖指預(yù)定義的圖結(jié)構(gòu),動態(tài)圖指模型在訓(xùn)練過程中通過注意力機制動態(tài)的增加節(jié)點來完善圖。

      圖3 基于圖的經(jīng)典模型框架Fig.3 Traditional model framework based on graph

      (1)靜態(tài)圖

      2018 年,Wang 等人[34]為了解決重疊實體關(guān)系抽取任務(wù),提出了基于圖結(jié)構(gòu)的聯(lián)合抽取模型,該結(jié)構(gòu)包含一個新穎的轉(zhuǎn)換系統(tǒng)識別實體和關(guān)系,并通過權(quán)重?fù)p失函數(shù)建立實體與關(guān)系和關(guān)系與關(guān)系之間的依賴,最終F1值達到了50.9%,該模型最早引入圖結(jié)構(gòu)解決問題,但是提出的轉(zhuǎn)換系統(tǒng)泛化能力不強;Hong 等人[35]利用BILSTM獲取實體和關(guān)系的表示,并設(shè)計了一種新的關(guān)系感知注意力機制和關(guān)系感知GCN,用來獲得兩個實體跨度之間的關(guān)系特征,并利用實體跨度構(gòu)建圖結(jié)構(gòu),模型的F1 值達到了72.8%,但是該模型存在實體跨度識別不全的問題;在此基礎(chǔ)上,Wang等人[36]結(jié)合邊界預(yù)測實體的開始和結(jié)束位置,以加強實體跨度表示,使用注意機制來獲得兩個實體跨度之間關(guān)系的特征,構(gòu)成跨度圖,模型最終的F1 值達到了74.9%;靜態(tài)圖采用預(yù)定義圖結(jié)構(gòu),使得模型性能受限,因此開展了動態(tài)圖的研究。

      (2)動態(tài)圖

      Fu 等人[37]利用依存句法分析將輸入句子轉(zhuǎn)變?yōu)橐来鏄?,將樹的鄰接矩陣輸入到BI-GCN 中獲取局部特征,從而分別提取到實體和關(guān)系,為了形式化計算實體和關(guān)系間的相互作用程度,引入了加權(quán)GCN,對每個已提取到的關(guān)系,計算任意實體對之間邊(關(guān)系)的權(quán)重,從而解決了重疊實體關(guān)系問題,F(xiàn)1 值提高了11.0%,依存樹直接影響模型的性能,并且模型計算負(fù)擔(dān)大。Fei等人[38]通過跨度注意層(span attention)獲取所有候選實體表示并為每個關(guān)系形成跨度圖。另外,將這些跨度圖輸入到圖注意力模型(graph attention model,GAT)以動態(tài)的學(xué)習(xí)實體跨度與其關(guān)系邊的相互作用;此外,Duan 等人[39]提出了一種基于多頭自注意力和緊密連接的圖卷積網(wǎng)絡(luò)MA-DCGCN。在該模型中,多頭自注意力機制專門用于將權(quán)重分配給實體之間的多個關(guān)系類型,以確保多個關(guān)系的概率空間不相互排斥,并自適應(yīng)的提取重疊實體間的多種關(guān)系。上述模型在將句子轉(zhuǎn)換為圖結(jié)構(gòu)時,將實體跨度視為節(jié)點,關(guān)系視為邊,通過GCN 對每個實體對間的關(guān)系進行了量化,也導(dǎo)致模型在EPO問題上表現(xiàn)不佳。

      1.3 基于預(yù)訓(xùn)練語言模型

      在2018 年10 月,谷歌提出預(yù)訓(xùn)練語言模型[40],它經(jīng)過在大規(guī)模未標(biāo)記的語料庫上運行無監(jiān)督學(xué)習(xí)獲得好的特征表示。根據(jù)特定的NLP 任務(wù),對PTM 進行微調(diào)就能提取到很好的特征表示,并且已經(jīng)在NLP 領(lǐng)域中獲得了廣泛的應(yīng)用,基于預(yù)訓(xùn)練語言模型的框架如圖4 所示?,F(xiàn)階段使用最廣泛的預(yù)訓(xùn)練語言模型就是BERT(bidirectional encoder representations from transformers),在微調(diào)過程中BERT 使用預(yù)訓(xùn)練的參數(shù)進行初始化,然后使用來自下游任務(wù)的標(biāo)記數(shù)據(jù)對所有參數(shù)進行微調(diào)。每個下游任務(wù)都有單獨的微調(diào)模型,即使它們使用相同的預(yù)訓(xùn)練參數(shù)進行初始化。

      圖4 基于預(yù)訓(xùn)練語言模型的框架Fig.4 Framework based on pre-training language models

      Li等人[41]利用BERT模型最后兩層輸出的隱藏層信息,構(gòu)建二維矩陣表示特征,在矩陣中掩蓋無關(guān)實體,獲取實體位置信息。對于輸入語句中存在的每種關(guān)系類型,每個實體對,獨立計算實體對是否存在特定關(guān)系的概率,以預(yù)測句子中存在的多種關(guān)系。雖然模型最終的效果良好,但是,該模型時間復(fù)雜度高,應(yīng)考慮引入規(guī)則減少計算負(fù)擔(dān);Sui 等人[42]將聯(lián)合實體關(guān)系抽取任務(wù)轉(zhuǎn)變?yōu)榧项A(yù)測問題,從而使減少模型預(yù)測三元組順序帶來的負(fù)擔(dān),并率先引入了非自回歸編碼器(non-autoregressive decoder)結(jié)合二部圖匹配損失函數(shù)(bipartite match loss),使得模型直接輸出最終的三元組。同樣的,為了直接生成三元組,Liu 等人[43]探索了一種新穎的模型架構(gòu),該模型將transformer和指針網(wǎng)絡(luò)組合以提取實體和關(guān)系。此外,引入了語法引導(dǎo)的網(wǎng)絡(luò)(syntax-guided network)以明確地將句子的語法信息納入編碼器,幫助模型更加關(guān)注句子的重要單詞。直接生成三元組的模型,雖然減少了模型預(yù)測三元組順序帶來的負(fù)擔(dān),但是模型對數(shù)據(jù)需求更高,并且缺少對抽取過程的思考,使結(jié)果顯得并不可靠;在此基礎(chǔ)上,Ye 等人[44]用BERT 對句子編碼解碼,使用部分因果掩蓋區(qū)分開編碼解碼的表示,使用波束搜索算法生成更多的三元組。在此基礎(chǔ)上,提出了一種三元組對抗訓(xùn)練方法,在訓(xùn)練階段捕獲正樣本和負(fù)樣本的特征,學(xué)習(xí)到的校準(zhǔn)算法在驗證階段會過濾掉不符合源句子事實的三元組,提高了結(jié)果的可靠性;Hang等人[45]設(shè)計了三個步驟提取重疊實體關(guān)系,由BERT獲取句子上下文信息共享給下游兩個子任務(wù),命名實體識別任務(wù)將獲取到的參數(shù)轉(zhuǎn)換為對應(yīng)實體標(biāo)簽的概率分布,實體關(guān)系抽取任務(wù)將獲取到的參數(shù)轉(zhuǎn)換為相應(yīng)關(guān)系類型的概率分布,以上步驟使得模型在性能上有了提升。但是,模型通過共享參數(shù)的方法對下游任務(wù)進行訓(xùn)練,更容易產(chǎn)生誤差傳播。

      BERT 通過獲取雙向上下文特征信息,并可以將訓(xùn)練好的模型通過微調(diào)應(yīng)用到下游任務(wù),在原有的基礎(chǔ)上獲得了很大的提升,但是BERT仍存在許多不足之處。

      (1)無法處理長文本,BERT 是由12 層transformer搭建而成,對于長度超過512 字符的句子BERT 處理不了,而在實際應(yīng)用過程中經(jīng)常出現(xiàn)超過字符限制的長句子,會對抽取任務(wù)性能產(chǎn)生影響。

      (2)BERT 在預(yù)訓(xùn)練階段會隨機掩蓋句子中15%的詞,利用上下文對掩蓋掉的詞進行預(yù)測,加深對上下文信息記憶的程度。當(dāng)采用BERT下游任務(wù)進行微調(diào)時,文本中存在噪音數(shù)據(jù),會導(dǎo)致預(yù)訓(xùn)練階段和微調(diào)過程存在偏差,影響模型的性能。

      2 數(shù)據(jù)集和評價指標(biāo)

      近年來,用于重疊關(guān)系抽取任務(wù)實驗評估的數(shù)據(jù)集主要包括NYT紐約時報數(shù)據(jù)集、WebNLG數(shù)據(jù)集。

      2.1 數(shù)據(jù)集

      NYT 數(shù)據(jù)集:NYT 數(shù)據(jù)集最初是由遠程監(jiān)督的方法生成的新聞?wù)Z料庫,廣泛用于重疊實體關(guān)系抽取任務(wù)??偣灿?4中預(yù)定義的關(guān)系,其中長度超過100和不存在三元組的句子被過濾掉,最終訓(xùn)練集、測試集和驗證集分別包含56 195、5 000、5 000。

      WebNLG 數(shù)據(jù)集:最初為自然語言生成任務(wù)而創(chuàng)建,但后來也應(yīng)用于重疊實體關(guān)系抽取任務(wù)。這個數(shù)據(jù)集包含246種預(yù)定義的關(guān)系,數(shù)據(jù)集中的每一個句子都包含多個三元組,其訓(xùn)練集、測試集和驗證集分別包含5019、500、703。

      現(xiàn)階段研究者使用的數(shù)據(jù)集是由文獻[28]預(yù)處理過后發(fā)布出來的。如表2所示,本文統(tǒng)計了NYT和WebNLG數(shù)據(jù)集中分別屬于Normal、SEO和EPO句子數(shù)量。特別注意的是,同一個句子可以即屬于SEO又屬EPO。從表中可以看出,NYT 數(shù)據(jù)集中34.13%的句子存在重疊現(xiàn)象,其中51%的句子屬于EPO,76.8%的句子屬于SEO。WebNLG 數(shù)據(jù)集中68.2%的句子存在重疊現(xiàn)象,其中0.06%的句子屬于EPO,99.5%句子屬于SEO。

      表2 數(shù)據(jù)集統(tǒng)計Table 2 Statistics of datasets

      2.2 評價指標(biāo)

      重疊實體關(guān)系抽取任務(wù)的評價指標(biāo)包括:精準(zhǔn)率(Precision)、召回率(Recall)和F值(FMeasure)。Precision是從查準(zhǔn)率對模型效果進行評估,其公式如下:

      Recall 是從查全率對模型效果進行評估,其公式如下:

      其中Precision和Recall是互補關(guān)系,因此通過F值綜合考慮Precision 和Recall 對模型總體進行評估,其公式如下:

      β是調(diào)節(jié)Precision 和Recall 比重的重要參數(shù),在實際應(yīng)用過程中,認(rèn)為Precision 和Recall 同樣重要,所以β=1。所以上式表示為:

      表3中收集了不同數(shù)據(jù)集下模型表現(xiàn),以及模型優(yōu)勢以及不足點。表中大部分模型在WebNLG 數(shù)據(jù)集都能取得良好的效果,而在NYT 數(shù)據(jù)集則相對不佳。WebNLG數(shù)據(jù)集特點就是SEO,則說明現(xiàn)有的大部分模型都能很好地處理SEO,而在EPO表現(xiàn)不是理想。從另一方面說明,模型需要更加龐大的數(shù)據(jù)去處理多標(biāo)簽實體。從表中可以看出,對三元組整體建模的模型效果一般優(yōu)于缺少三元組內(nèi)在聯(lián)系考慮的模型,采用異質(zhì)圖模型的模型效果要大幅度優(yōu)于同質(zhì)圖。為了進一步展現(xiàn)不同實體重疊程度下模型性能,收集了其中一部分模型進行對比,如圖5 所示。從圖5 中可以看出,在NYT 數(shù)據(jù)集中SEO、EPO 表現(xiàn)最佳的模型分別為TP-Linker[27]、RFTE[20],在WebNLG數(shù)據(jù)集中SEO、EPO表現(xiàn)最佳的模型分別為RFTE[20]、TP-Linker[27]。

      圖5 不同重疊類型句子的F1值Fig.5 F1 score on sentences with different overlapping types

      表3 不同數(shù)據(jù)集及模型性能Table 3 Different performance of datasets and models

      3 未來研究方向

      目前,重疊實體關(guān)系抽取任務(wù)雖然已經(jīng)取得了巨大的成功,但依舊存在著提升空間,值得學(xué)者們進一步探索。通過對現(xiàn)有工作進行總結(jié),未來的研究方向包括以下幾個方面。

      3.1 基于序列到序列的模型

      基于序列到序列的模型,從標(biāo)注策略到復(fù)制機制,本質(zhì)上都是調(diào)整抽取策略帶來性能的提升,并且現(xiàn)有模型的解決思路已經(jīng)達到了一個較高的標(biāo)準(zhǔn),很難獲得性能上的大幅度提升。而強化學(xué)習(xí)不同于現(xiàn)有的有監(jiān)督模型,它通過反饋機制更新模型。但是,目前只是在重疊實體關(guān)系抽取領(lǐng)域進行了簡單的嘗試,擁有著無限可能。

      最初于2018 年,F(xiàn)eng 等人[46]使用強化學(xué)習(xí)有效過濾遠程監(jiān)督數(shù)據(jù)中的噪聲,后經(jīng)文獻[29]轉(zhuǎn)換獎勵機制使得強化學(xué)習(xí)有效解決重疊實體關(guān)系抽取問題。最為典型的是Takanobu 等人[47]于2019 年AAAI 會議上提出的模型,與其他人不同的是該模型引入強化學(xué)習(xí)建模實體和關(guān)系間的交互,利用層次結(jié)構(gòu)解決重疊問題。高層次強化學(xué)習(xí)用于基于句子中的特定關(guān)系令牌來標(biāo)識關(guān)系。在識別了關(guān)系之后,使用低級RL 來利用序列標(biāo)記方法提取與關(guān)系相關(guān)聯(lián)的兩個實體。多次重復(fù)該過程以提取句子中存在的所有關(guān)系三元組。

      總之,強化學(xué)習(xí)在重疊實體關(guān)系抽取領(lǐng)域已經(jīng)進行了初步的嘗試,并且提供了具有可行性的解決方案,但仍然有著很大的提升空間值得學(xué)者探索。

      3.2 圖神經(jīng)網(wǎng)絡(luò)模型

      研究表明,重疊實體關(guān)系抽取任務(wù)在引入圖神經(jīng)網(wǎng)絡(luò)模型后,模型性能有了很不錯的提升。相比于其他傳統(tǒng)模型,圖結(jié)構(gòu)能更好地挖掘句子中的語義特征,但是根據(jù)已有模型的總結(jié),大多數(shù)模型采用同質(zhì)圖建模。傳統(tǒng)的同質(zhì)圖只含有同種類型的邊和節(jié)點,實際任務(wù)中的實體類型多樣、關(guān)系復(fù)雜。在這種情況下,同質(zhì)圖很難學(xué)習(xí)到關(guān)鍵信息,會導(dǎo)致模型在EPO問題上表現(xiàn)不佳。相較于同質(zhì)圖,異質(zhì)圖可以容納更多的節(jié)點和邊的類型,在建模過程中學(xué)習(xí)到潛在的異構(gòu)特征,提升模型性能,所以將同質(zhì)圖擴展異質(zhì)圖是必然選擇。常用的異質(zhì)圖網(wǎng)絡(luò)包括HAN(heterogeneous graph attention network)[48]、HetGNN(heterogeneous graph neural network)[49]。Zhao 等人[50]率先引入異質(zhì)圖神經(jīng)網(wǎng)絡(luò),將關(guān)系和單詞同時視為圖表上的節(jié)點,然后通過消息傳遞機制迭代融合來自不同節(jié)點的信息,在獲得單詞和關(guān)系的節(jié)點表示后,進行關(guān)系提取步驟生成最終的三元組。但是異質(zhì)圖動態(tài)地構(gòu)建圖結(jié)構(gòu)更具有挑戰(zhàn)性,因為更多類型特征需要從數(shù)據(jù)中獲取。因此,圖模型是未來熱門的研究方向之一。

      3.3 預(yù)訓(xùn)練語言模型

      BERT模型在重疊實體關(guān)系抽取領(lǐng)域中已經(jīng)取得了驚人的成績,但仍有著許多可以研究的方向。其中包括:模型精細化調(diào)參、模型結(jié)合知識圖譜和改進模型。

      模型精細化調(diào)參:BERT 模型在通用領(lǐng)域語料庫進行預(yù)訓(xùn)練,如果讓BERT 參與到特定領(lǐng)域的下游任務(wù),需要對其進行精細化的調(diào)參,讓其發(fā)揮更好的性能?,F(xiàn)有的調(diào)參策略包含:長文本處理、層數(shù)選擇、層間學(xué)習(xí)率設(shè)置[51]。

      模型結(jié)合知識圖譜:BERT 通過掩碼策略經(jīng)過預(yù)訓(xùn)練可以學(xué)習(xí)到豐富的語義,但是模型并未學(xué)會如何表示知識,而結(jié)合知識圖譜使模型可以學(xué)習(xí)到知識,并且對知識的表示更加貼合真實世界[52]。

      改進模型:提升預(yù)訓(xùn)練語言模型規(guī)模,其中最為典型的模型是RoBERTa,RoBERTa相較于BERT具有更大的訓(xùn)練數(shù)據(jù),每批次數(shù)據(jù)量更大,并且預(yù)訓(xùn)練過程采用動態(tài)掩碼的方式,與之對應(yīng)的訓(xùn)練時間也更大,但是模型最終也取得了不錯的提升[53]。

      總之,現(xiàn)階段預(yù)訓(xùn)練語言模型改進方法,已經(jīng)有學(xué)者進行了初步的探索,但是在重疊實體關(guān)系抽取領(lǐng)域還未被廣泛利用,改進預(yù)訓(xùn)練語言模型仍然是未來幾年的研究熱點。

      3.4 知識推理

      知識推理的方法是非常具備潛力的研究方向之一,但目前對于重疊關(guān)系抽取任務(wù)的探索還比較少,NYT和WebNLG 數(shù)據(jù)集中都具備著十分復(fù)雜的關(guān)系以及隱式三元組存在,十分符合知識推理的應(yīng)用條件。而現(xiàn)有抽取方法主要專注于可以直接發(fā)現(xiàn)的顯式三元組,但通常忽略缺乏明確表達的隱式三元組,這將導(dǎo)致構(gòu)建的知識圖譜嚴(yán)重不完整。實際上,句子中的其他三元組提供了用于發(fā)現(xiàn)具有隱式關(guān)系的實體對的補充信息。此外,可以在現(xiàn)實世界中以關(guān)系推理模式識別隱式實體對之間的關(guān)系類型。在2021 年ACL 會議上,Chen 等人[54]提出了一個統(tǒng)一的框架,共同提取顯式和隱式關(guān)系三元組。引入了一個二進制指針網(wǎng)絡(luò),探索可以通過關(guān)系隱式連接的實體對,以順序地提取與每個單詞相關(guān)的重疊三元組,并保留在外部存儲器中先前提取的三元組的信息。為了推斷隱式三元組的關(guān)系類型,在模型中引入實際關(guān)系推理模式,并通過關(guān)系網(wǎng)絡(luò)捕獲這些模式。

      總之,研究知識推理在重疊關(guān)系抽取的應(yīng)用,可以使模型發(fā)現(xiàn)更多三元組的存在,讓知識圖譜構(gòu)建的完整度更高,同時大大降低模型對標(biāo)注樣本的依賴程度,在實際應(yīng)用方面具備重大意義。

      4 結(jié)束語

      本文詳細介紹了重疊實體關(guān)系抽取研究的最新進展,包括基于Seq2Seq、基于圖和基于預(yù)訓(xùn)練語言模型的方法,詳細描述了其方法以及核心思想,闡述了模型中出現(xiàn)的問題。此外,本文在總結(jié)了現(xiàn)有模型的優(yōu)缺點的同時,詳細對比了模型在不同問題上表現(xiàn)的性能。雖然現(xiàn)階段重疊實體關(guān)系抽取任務(wù)已經(jīng)具備了很高的F1值,但是仍然存在面臨的挑戰(zhàn);本文進一步總結(jié)了未來的研究方向來推進這一任務(wù)。

      猜你喜歡
      三元組實體方法
      基于語義增強雙編碼器的方面情感三元組提取
      軟件工程(2024年12期)2024-12-28 00:00:00
      基于帶噪聲數(shù)據(jù)集的強魯棒性隱含三元組質(zhì)檢算法*
      前海自貿(mào)區(qū):金融服務(wù)實體
      中國外匯(2019年18期)2019-11-25 01:41:54
      關(guān)于余撓三元組的periodic-模
      實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
      兩會進行時:緊扣實體經(jīng)濟“釘釘子”
      振興實體經(jīng)濟地方如何“釘釘子”
      可能是方法不對
      用對方法才能瘦
      Coco薇(2016年2期)2016-03-22 02:42:52
      四大方法 教你不再“坐以待病”!
      Coco薇(2015年1期)2015-08-13 02:47:34
      砀山县| 宕昌县| 大冶市| 枣庄市| 桂平市| 尚志市| 龙海市| 建始县| 大关县| 资源县| 长沙县| 道孚县| 林芝县| 台中市| 武安市| 阜宁县| 德保县| 谢通门县| 合肥市| 西宁市| 卢湾区| 城步| 乌什县| 民和| 金寨县| 灵山县| 青龙| 内黄县| 岫岩| 五峰| 甘肃省| 水富县| 陵川县| 昆山市| 越西县| 余姚市| 松原市| 揭西县| 临猗县| 武冈市| 柳江县|