• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      圖卷積增強多路解碼的實體關系聯(lián)合抽取模型

      2023-01-30 10:23:52喬勇鵬于亞新劉樹越王子騰夏子芳喬佳琪
      計算機研究與發(fā)展 2023年1期
      關鍵詞:三元組解碼器解碼

      喬勇鵬 于亞新 劉樹越 王子騰 夏子芳 喬佳琪

      (東北大學計算機科學與工程學院 沈陽 110169)

      (醫(yī)學影像智能計算教育部重點實驗室(東北大學) 沈陽 110169)(1901770@stu.neu.edu.cn)

      目前為了構(gòu)建大型結(jié)構(gòu)化的知識圖譜,大量研究致力于從無結(jié)構(gòu)化文本中抽取出實體關系三元組,這樣的三元組通常由一對實體和實體之間的語義關系組成[1],如〈China, capital, Beijing〉,表示“中國的首都是北京”.迄今為止,現(xiàn)有模型主要致力于實現(xiàn)一對實體間語義關系識別的關系抽取或關系抽取任務.Zeng等人[2]和Xu等人[3]提出在識別出實體的基礎上進行關系抽取,但該方法忽略了對實體抽取的研究.為了對文本中的實體和相應關系實現(xiàn)同時抽取,Chan等人[4]提出了一種流水線處理方法,首先對無結(jié)構(gòu)化文本進行命名實體識別,而后在實體被識別的基礎上再進行關系抽取,由于這類方法以命名實體識別和關系抽取的先后順序進行,因此忽略了這2個子任務間的關聯(lián).Li等人[5]和Miwa等人[6]考慮到上述子任務之間存在相關性,提出預先設計并篩選有利于模型訓練的特征,實現(xiàn)將2個子任務聯(lián)系在一起的目標,但這2個子任務嚴重依賴現(xiàn)有自然語言處理工具和復雜特征工程.隨著深度學習技術(shù)[7]在一些自然語言處理任務上的成功應用,實體關系抽取也漸漸與深度學習相結(jié)合.Xu等人[3]將循環(huán)神經(jīng)網(wǎng)絡和卷積神經(jīng)網(wǎng)絡用于關系抽?。籞hang等人[8-9]將關系抽取任務視為一種端到端表格填充問題;Zheng等人[10]則提出一種以循環(huán)神經(jīng)網(wǎng)絡為基礎的序列標注模型并將其應用到實體關系聯(lián)合抽取中.

      實體關系抽取在近些年雖然得到長足發(fā)展,但是當前大量研究忽略了句中三元組存在很多關系重疊的現(xiàn)象,在這種情況下,現(xiàn)階段大量以深度學習為基礎的模型和以傳統(tǒng)特征工程為基礎的實體關系抽取模型,并不能完全抽取到目標文本所含的全部實體關系三元組.Zeng等人[11]根據(jù)句中實體關系三元組的重疊程度,將關系重疊大致分為3類,即無重疊(normal)、實體對重疊(entity pair overlap,EPO)以及單一實體重疊(single entity overlap,SEO).圖1 給出了3類實體關系重疊樣例,其中無重疊類型表示句中含有的三元組中沒有重復出現(xiàn)的實體;實體對重疊類型表示句中包含1個或多個重復出現(xiàn)的實體對,即同一實體對之間存在著多種關系;單一實體重疊表示句子中有部分三元組包含同一實體,不同于實體對重疊.當前研究的模型大都致力于解決無關系重疊的文本[10],由于這些模型建立在“句中每個詞至多只有一個標簽”這一假設之上,導致原文本序列中每個詞在關系抽取時最多只能出現(xiàn)在一個三元組中,因此這些模型在處理含有關系重疊的文本時通常召回率比較低.例如圖1中“單一實體重疊”樣例存在2個三元組,即〈Barack Obama,presidentOf,America〉和〈Barack Obama,liveIn,White House〉 , 其 中 〈 Barack Obama,liveIn,White House〉表示“巴拉克·奧巴馬居住于白宮”, 〈Barack Obama,presidentOf,America〉表示“巴拉克·奧巴馬是美國的總統(tǒng)”.實體“Barack Obama”出現(xiàn)在上述2個三元組中,但目前大多數(shù)實體抽取模型只允許文本中的詞在抽取三元組時最多出現(xiàn)一次,所以該類模型只能抽取到其中一個實體關系三元組,造成實體關系三元組丟失的問題.

      Fig.1 Types of entity relationship overlapping圖1 實體關系重疊類型

      抽取大量含有重疊實體關系語句的方法,其技術(shù)難點在于實體分布密度高以及實體關系交叉互聯(lián),主要表現(xiàn)為單個句子包含多個實體,實體間存在多種關系,同一實體會因交叉出現(xiàn)于1個或多個三元組內(nèi),因此,抽取模型需要更為關注局部特征和非局部特征的捕捉和融合.Peng等人[12]通過自然語言工具解析文本以構(gòu)建原語句中的詞間依賴關系圖,以便根據(jù)詞與詞之間的不同依賴關系賦予不同權(quán)重進行特征融合,其中詞間關系主要是指通過工具解析生成的句中單詞之間的依存關系,依存關系表達了句中各成分之間的語義關系,目標語句中的依存關系構(gòu)成一棵句法樹,樹的根節(jié)點通常是句子的核心謂詞,用來表達句子的核心內(nèi)容.Sahu等人[13]在文獻[12]研究基礎上通過文本中存在的共指關系進一步捕捉詞與詞的依賴關系.其中,共指關系包含實體(entity)和指稱(mention)這 2 個概念,指稱是實體在自然語言文本中存在的別名或者另一種指代形式.例如,實體“奧巴馬”存在“美國總統(tǒng)”“第44任美國總統(tǒng)”“他”等指稱,如果在文本或句子中存在上述指稱并指代同一個實體“奧巴馬”,則它們之間存在共指關系.Dai等人[14]從文本序列先后順序角度出發(fā),通過位置注意力機制捕捉詞與詞之間的相對位置關系以實現(xiàn)特征融合.不同于文獻[12-14]模型對不同依賴關系的相應賦值操作,本文提出了基于圖卷積增強多路解碼的實體關系聯(lián)合抽取模型 (graph convolution-enhanced multi-channel decoding joint entity and relation extraction model, GMCD-JERE),其特征融合是基于雙線性變換計算句中詞之間的依賴權(quán)重,并通過圖卷積網(wǎng)絡的不斷迭代進行特征融合.主流實體關系抽取模型中使用長短期記憶神經(jīng)網(wǎng)絡(long short-term memory network, LSTM), 本 文 引 入 LSTM編碼文本序列的上下文特征,同時在解碼器中融入標注框架[15],定位實體起始、結(jié)束位置.

      本文的主要工作及貢獻為:

      1)提出圖卷積神經(jīng)網(wǎng)絡聚合詞間依賴信息.當前基于編碼器?解碼器的聯(lián)合抽取模型并未充分考慮句中詞間的依賴關系,本文基于語句上下文[16]、依存句法[17]等關系,借助圖卷積神經(jīng)網(wǎng)絡聚合句中具有依賴關系的詞之間的特征信息,提高關系抽取的準確性.

      2)提出多路解碼實體關系三元組機制.針對語句因多個三元組共享同一實體而產(chǎn)生關系重疊的現(xiàn)象,同時為解決傳統(tǒng)解碼器解碼三元組序列過長造成的誤差累積、傳播的問題,本文改進為多路生成含有同一實體的多個三元組,有效解決了關系重疊的問題,提高了模型對重疊實體關系的抽取能力,提升了模型的召回率.

      1 相關工作

      1.1 實體關系抽取相關技術(shù)研究

      從實體關系抽取所依賴的底層原理來看,實體關系抽取從基于統(tǒng)計學方法演變到基于深度學習模型.現(xiàn)有的實體關系抽取研究大多致力于顯式關系抽取,從顯式關系抽取所依賴的技術(shù)上來看,方法可以分為2類:基于特征工程的方法和基于機器學習的方法.

      1)基于特征工程的實體關系抽取方法

      早期的實體關系抽取模型大多基于特征工程和傳統(tǒng)統(tǒng)計學習方法,其中以構(gòu)建有效核函數(shù)[18-19]為基礎的支持向量機模型較為成熟,但是縱觀這一類型的方法雖然理論基礎較為完善,但是前期需要進行大量的特征工程以抽取有效的特征集,如詞性、最短依賴路徑,甚至是設計具體的核函數(shù),具體表現(xiàn)為實際的抽取過程中需要依賴大量的人力去篩選適合當前模型學習的特征,可以說人工特征抽取的質(zhì)量將決定模型性能的上限.

      2)基于機器學習的實體關系抽取方法

      由于傳統(tǒng)特征工程實體關系抽取模型嚴重依賴于人工篩選大量適合相應模型訓練的特征,所以為減少對人工和自然語言處理工具的依賴,一些基于神經(jīng)網(wǎng)絡的模型逐漸成為研究主流方向,其中包括常見的卷積神經(jīng)網(wǎng)絡和循環(huán)神經(jīng)網(wǎng)絡.

      對于已經(jīng)標注出實體的文本語句,Hendrickx等人[20]將關系抽取視為關系抽取任務,其中Zeng等人[2]將卷積神經(jīng)網(wǎng)絡引入關系抽取任務,Xu等人[21]通過卷積神經(jīng)網(wǎng)絡和循環(huán)神經(jīng)網(wǎng)絡學習到最短依存路徑間的關系特征.盡管在關系抽取方面已有大量研究成果,但這些模型僅僅建立在實體已經(jīng)被識別的基礎上,并不能從無任何標注的文本中抽取完整的實體關系三元組.

      1.2 實體關系抽取相關流程研究

      從實體關系抽取具體流程來看,實體關系抽取經(jīng)歷了從傳統(tǒng)的流水線模型到端到端聯(lián)合抽取模型的演變.傳統(tǒng)模型將實體關系抽取這一任務分為命名實體識別和關系抽取兩個子任務,以流水線方式先后進行.其中命名實體識別是指識別文本中具有特定意義的實體,主要包括人名、地名、機構(gòu)名、專有名詞等;關系抽取則是探究句中相關實體之間的關系,但該類方法容易造成誤差在2個子任務之間累計和傳播,影響抽取的準確率.由此,端到端實體關系聯(lián)合抽取的方法應運而生.

      1)基于流水線的實體關系抽取

      命名實體識別[22-23]和關系抽取[24-25]是信息抽取中的2個基本任務[26-27],二者的目的都是為了從無結(jié)構(gòu)化的文本中抽取有結(jié)構(gòu)的信息.在聯(lián)合抽取方法尚未成熟之前,Chan等人[4]基于流水線的方式識別出輸入語句中所有實體,并在此基礎上組合其中任意2個實體并進行關系抽取.除此之外,大部分現(xiàn)有基于神經(jīng)網(wǎng)絡的方法也是以流水線方式實現(xiàn),其中包括全監(jiān)督關系抽取[20]和遠程關系抽取[28].雖然Cai等人[29]對Christopoulou等人[30]提出的基于神經(jīng)網(wǎng)絡的方法[31]不斷地更新優(yōu)化,但是不可否認的是,命名實體識別和關系抽取以流水線先后順序的方式展開所造成的誤差累積和傳播不可避免地降低了此類實體關系抽取模型的準確率和召回率.

      2)基于聯(lián)合學習的實體關系抽取

      由于聯(lián)合抽取模型將命名實體識別和關系抽取2個子任務緊密結(jié)合降低了流水線方法中誤差傳播造成的影響,近些年研究人員大都致力于聯(lián)合抽取模型的研究.

      傳統(tǒng)的聯(lián)合抽取模型[32]主要以特征工程[33]為主,這類方法[34]嚴重依賴人工去篩選適合模型訓練的特征.為了減少人工操作,研究人員將重心轉(zhuǎn)移到以神經(jīng)網(wǎng)絡為基礎的模型上來且這些深度學習模型展現(xiàn)出不俗的性能,但是大量現(xiàn)有的神經(jīng)網(wǎng)絡模型[35]是基于參數(shù)共享進行聯(lián)合學習抽取實體和相應的關系,并沒有實現(xiàn)真正的聯(lián)合解碼,也就是說在抽取實體和關系的過程中以流水線方式先進行實體識別而后對實體進行關系抽取,這樣分離的解碼過程可以看作是2個單獨的訓練目標,在命名實體識別和關系抽取性能指標上表現(xiàn)較好,但在三元組這一整體上并不能得到較高的準確率和召回率.與這些工作不同是,Zheng等人[10]通過引入統(tǒng)一的標注框架將實體關系三元組抽取轉(zhuǎn)化為端到端序列標注問題,從而在不依賴命名實體識別和關系抽取的基礎上實現(xiàn)聯(lián)合解碼同時抽取實體和關系.該方法將實體和關系的信息集成到統(tǒng)一的標注框架中,可以直接在實體關系三元組層面進行建模.

      雖然此類聯(lián)合解碼或者非聯(lián)合解碼模型得到了大量關注和研究,但是當前大多數(shù)工作忽略了重疊關系三元組的問題,Zeng等人[11]引入了3種重疊三元組的模式,試圖通過帶有復制機制的序列到序列模型來解決忽略了重疊關系三元組的問題,F(xiàn)u等人[36]也對該問題進行了研究,提出了一種基于圖卷積神經(jīng)網(wǎng)絡的方法.盡管文獻[11, 36]這2種方法都取得了初步成功,但是他們?nèi)匀粚㈥P系視為實體對的離散標簽,使得模型很難學習具有重疊關系的實體三元組.

      1.3 實體關系抽取研究進展

      Miwa等人[6]在對原序列語句進行句法分析構(gòu)建句法依賴樹的基礎上提出樹形雙向長短期記憶網(wǎng)絡(tree-structured LSTM, T-LSTM)來建模句中詞與詞的依賴關系,模型學習到的特征被序列化實體標注器和最短依存路徑關系抽取器共享作為輸入,但如果要將共享參數(shù)引入實體關系聯(lián)合抽取模型中,則命名實體識別和關系抽取需以先后順序依次進行,即以流水線方式抽取,而流水線方式抽取造成誤差累積和傳播會降低模型抽取的準確率和召回率.

      Zheng等人[10]針對文獻[6]的問題,為避免以命名實體識別–關系抽取流水線方式進行抽取,將關系抽取視為命名實體識別,通常命名實體識別以序列標注方式處理.命名實體識別中序列標注主要包含人(person, PER)、地點(location, LOC)、組織(organization,ORG)這3類標簽,而實體通常由1個或多個單詞組成,在實際抽取過程中,標簽會加上相應的前綴B(begin),I(inside),E(end)來表示單詞在實體中的位置,例如B-LOC,I-LOC,E-LOC.因此在將關系抽取視為命名實體識別后,相應地,實體類標簽變?yōu)殛P系類標簽,例如 B-BI,I-BI,E-BI,其中 BI表示關系“出生于”(born in).Zheng 等人[10]提出的模型忽視了實體關系重疊的情況,且實驗中所使用版本的NYT數(shù)據(jù)集關系重疊類型數(shù)據(jù)量較小,因此模型性能有所提升.相比之下,F(xiàn)u等人[36]提出GraphRel模型,將原序列語句中每個詞看作1個節(jié)點,則該句子視為1個圖,通過2階段圖卷積神經(jīng)網(wǎng)絡進行節(jié)點間的特征融合,推斷節(jié)點之間的關系,而該模型并不能較好地解決圖1所示實體對重疊類型的關系重疊問題.

      Zeng等人[11]為解決關系重疊問題,系統(tǒng)性地提出了圖1所示的3種關系重疊類型,在模型中基于BiLSTM(bi-directional LSTM)對原序列語句進行編碼,利用編碼器最后的隱層狀態(tài)初始化解碼器起始狀態(tài).如圖2所示,CopyRE以LSTM為基礎的解碼器在動態(tài)解碼生成實體關系三元組時,先解碼生成關系,而后從句中復制2個單詞作為該關系的頭實體、尾實體.但該模型解碼有一定的先后順序關系,后生成的實體關系三元組單方向依賴于先生成的實體關系三元組.根據(jù)Fu等人[36]提出GraphRel模型,將原序列語句中每個詞看作1個節(jié)點,則該句子視為1個圖,圖上節(jié)點通過2階段圖卷積網(wǎng)絡進行特征融合并推理節(jié)點之間的關系,從而解決了實體關系三元組的生成序列存在單方向依賴性問題.

      Fig.2 Comparison of related model techniques圖2 相關模型技術(shù)對比

      Zeng等人[37]通過實驗分析CopyRE模型并提出2個問題:1)CopyRE對于實體的抽取是不穩(wěn)定的,需要借助掩碼機制遮蓋已經(jīng)生成的頭實體,防止在抽取尾實體時又抽取到頭實體;2)CopyRE模型僅能抽取出由多個單詞組成的實體的最后1個單詞.因此,Zeng等人[37]在CopyRE模型基礎上提出CopyMTL模型,增加實體標注進行多任務學習,一定程度上解決上述2個問題.

      利用圖卷積神經(jīng)網(wǎng)絡(graph convolution neural network,GCN)來建模文本中各成分之間的依賴關系越來越多地被應用到自然語言處理中,我們將GCN用于促進跨度較大的文本特征融合.Marcheggiani等人[38]將GCN應用到詞序列文本上進行語義屬性標注.Liu等人[39]將GCN用于編碼長文本和文本匹配等任務,Cetoli等人[40]將循環(huán)神經(jīng)網(wǎng)絡和GCN結(jié)合進行命名實體識別,Zhang等人[41]和Luan等人[42]則是利用GCN建模詞序列之間的依賴關系[43],以此進行關系抽取.

      2 變量定義及問題描述

      2.1 變量定義

      本文中變量定義如表1所示:

      Table 1 Variable Definitions for the GMCD-JERE表1 GMCD-JERE模型變量定義

      Table 2 Related Information of NYT and WebNLG Datasets表2 NYT和WebNLG數(shù)據(jù)集相關信息

      Table 3 Performance Comparison of the Models表3 模型性能對比 %

      2.2 問題描述

      1)實體關系重疊問題

      如圖2 所示,例句“Barack Obama who was the President of America lived in White House located in Washington.”中存在2個形式為〈關系,頭實體,尾實體〉的三元組,其中〈presidentOf,Barack Obama,America〉表示“巴拉克·奧巴馬是美國總統(tǒng)”,〈liveIn,Barack Obama,White House〉表示“巴拉克·奧巴馬居住在白宮”,而實體“Barack Obama”出現(xiàn)在上述 2個三元組中.當前模型大都建立在“句中每個詞最多僅有一個標簽”的假設之上,如圖2所示,當前存在的流水線(pipeline)方式按序進行命名實體識別和關系抽取2個過程,當前實體“Barack Obama”和實體“America”被識別存在關系“presidentOf ”后即退出后續(xù)關系抽取過程,因此該類模型在實際抽取過程中只能抽取出其中一個三元組,所以存在實體關系重疊的文本無法得到有效地抽取,模型召回率也通常較低.CopyRE[11]通過復制機制在一定程度上解決關系重疊問題,但該模型并不能抽取含有多個詞的實體.

      2)文本序列詞間依賴特征捕捉問題

      當前主流模型CopyRE[11]和CopyMTL[37]以編碼器?解碼器為基礎,其中編碼器在對原序列語句進行編碼后,缺乏對編碼特征進行融合以捕捉句級特征并傳進解碼器進行三元組解碼.如圖2所示,傳統(tǒng)實體關系抽取模型利用句法依存分析工具解構(gòu)文本中詞之間的語義關系,賦予其相應權(quán)重進行加權(quán)特征統(tǒng)合.而CopyMTL等模型主要依賴自注意力機制,對編碼后的序列基于注意力分數(shù)加權(quán)作為句級特征,但自注意力機制存在一定局限性,主要體現(xiàn)在未充分考慮句中詞與詞之間的相互依賴關系.

      3)長序列解碼下誤差累積、傳播問題

      從圖2顯示的結(jié)構(gòu)來看,CopyRE和CopyMTL是基于Seq2Seq的編碼器?解碼器模型,解碼器解碼順序為〈三元組1,三元組2,…,三元組n〉,其中每個三元組包含關系、頭實體和尾實體這3個組成部分,在存在實體關系重疊的情況下,通常存在3個及以上的三元組,而在句中實體較多的情況下,三元組的個數(shù)能達到5個以上,而且當前主流模型CopyRE和CopyMTL解碼器每次解碼僅能生成三元組中的一個元素,造成解碼序列過長而帶來誤差累積和傳播,導致模型抽取精確率較低.

      3 GMCD-JERE模型

      GMCD-JERE模型主要由以LSTM為基礎的編碼器和解碼器構(gòu)成,如圖3所示,其中LSTM作為編碼器學習文本序列特征,解碼器結(jié)合標注框架定位實體首、尾位置,區(qū)別于傳統(tǒng)解碼器〈三元組1,三元組2,…,三元組n〉這樣的三元組順序解碼機制,本文采用多路解碼實體關系三元組機制,在解碼出1個或多個存在于語句中的關系后,在每一種關系下分別抽取符合當前關系的頭實體和尾實體,以組合成實體關系三元組.

      3.1 模型的編碼層

      1)基于LSTM的雙向編碼

      本文采用BiLSTM對文本進行編碼,如圖3所示,在編碼器中輸入的語句,基于BiLSTM進行編碼從而得到語句的上下文特征為如式(1)~(3)所示:

      其中ei表 示第i個詞的嵌入向量,維度為 1 ×d,為第i個詞的雙向特征向量,維度為 1 ×2d.式(3)由式(1)(2)中LSTM前向、后向編碼輸出拼接而得.

      2)基于GCN的詞間依賴特征融合

      以注意力機制為核心的神經(jīng)網(wǎng)絡框架成為近些年來自然語言處理領域的研究熱點,傳統(tǒng)注意力機制通過學習一組權(quán)重向量來表示句中各詞的重要性,以此來捕捉句中不同成分、句法的特征,但無法推測句中各個詞之間的相互關系,因此本節(jié)引入基于具有關系推理能力的GCN.

      其中Wleft,Wright維度均為d×2d,是2個全連接前向網(wǎng)絡的權(quán)重參數(shù),Wb維度為d×d,是雙線性變換的權(quán)重參數(shù).

      我們將序列長度為n的語句視為有n個節(jié)點的圖,M為圖中每個節(jié)點之間的依賴權(quán)重矩陣,如式(5)所示:

      其中Mij表示第i個詞與第j個詞之間依賴權(quán)重.

      Fig.3 Overall architecture diagram of GMCD-JERE model圖3 GMCD-JERE模型整體架構(gòu)圖

      根據(jù)式(5)得到維度為n×n的鄰接關系矩陣M,將第i個節(jié)點在第l?1層的隱層向量作為輸入,通過式(6)的圖卷積操作更新得到該節(jié)點在第l層的隱層狀態(tài)向量.

      其中Mij是由式(5)計算的圖中第i個節(jié)點與第j個節(jié)點之間的依賴權(quán)重,W l和bl分別是GCN的參數(shù)矩陣和偏置向量,當l=0時,表示進行圖卷積操作前第i個節(jié)點的初始隱層向量.圖卷積網(wǎng)絡主體結(jié)構(gòu)如圖3左側(cè)所示,hG為經(jīng)過圖卷積操作后的上下文特征向量.

      3.2 模型的解碼層

      解碼器以LSTM為基礎,初始輸入為hstart,初始化為0.下面將闡述本文模型在〈關系,頭實體,尾實體〉順序下的抽取過程.

      1)關系抽取

      首先識別句中存在的關系,將編碼器的最終隱狀態(tài)作 為解碼器的初始隱狀態(tài),與hstart一起輸入到解碼器進行第1次解碼,如式(7)所示;接著通過注意力機制獲得融合了卷積層特征的解碼器輸出o;最后送入關系預測層.具體如式(8)~(10)所示.

      其中,初始輸入向量h維度為 1 ×d,o(1)維度為 1 ×d,startWrelation維度為 2d×drelation,drelation為關系集合中關系的種類數(shù).

      2)多路分層解碼實體三元組機制

      假設在上一階段中抽取出某個關系,其在關系集合中的索引為 λ,通過關系嵌入表示為向量hλ,將其和式(7)中的隱狀態(tài)h(1)輸入到LSTM解碼器中,如式(11)所示,通過注意力機制獲得融合卷積層特征的解碼器輸出,最后將其輸入頭實體首、尾位置的預測層,如式(12)~(15)所示.

      其中o(2)的維度為 1 ×d,和的維度均為 1 ×2d.

      假設上一步抽取到的頭實體的首、尾位置分別為i和j,將對應位置上的卷積輸出之和與上一階段的隱狀態(tài)輸入到解碼器中,如式(16)所示,其余過程與頭實體抽取類似,如式(17)~(20)所示.

      其中o(3)的維度為 1 ×d,和的維度均為 1 ×2d.

      3)損失函數(shù)

      本文使用交叉熵損失函數(shù)在訓練過程中最小化頭實體、尾實體和對應關系的代價之和,如式(21)~(23)所示:

      其中l(wèi)osshead,losstail,lossrelation分別為頭實體、尾實體以及對應關系與數(shù)據(jù)集真實值之間的交叉熵代價.

      4 性能測試與分析

      本節(jié)主要在 NYT (New York times)和 WebNLG (Web natural language generation) 這 2 個公開數(shù)據(jù)集上對所提的GMCD-JERE模型進行性能測試,并將其與目前主流模型進行實驗對比.

      4.1 數(shù)據(jù)集與實驗配置

      NYT數(shù)據(jù)集是由遠程監(jiān)督生成的英文數(shù)據(jù)集,包含118萬條英文語句和24種預先定義的關系類型.WebNLG數(shù)據(jù)集最初是由自然語言生成任務產(chǎn)生的數(shù)據(jù)集,而后由Zeng等人[11]改進用于進行實體關系三元組抽取任務,該數(shù)據(jù)集包含了246種預先定義的關系類型.這2個數(shù)據(jù)集中的大部分語句通常包含多個實體關系三元組,所以NYT數(shù)據(jù)集和WebNLG數(shù)據(jù)集非常適合用來評價模型在抽取含有關系重疊的三元組語句的性能.本文使用的數(shù)據(jù)集來源于Zeng等人[11]開源的版本,對于NYT數(shù)據(jù)集,使用56 196條英文語句來訓練、5 000條語句來驗證、5 000條語句來測試;對于WebNLG數(shù)據(jù)集,使用其中5 019條語句來訓練、500條語句來驗證、703條語句來測試.根據(jù)關系重疊類型,將語句劃分成Normal,EPO,SEO這3種類型,表2展示了這2個數(shù)據(jù)集的詳細數(shù)據(jù).

      實驗環(huán)境及配置為:服務器CPU為Intel Xeon E5-1603,顯卡為 Titan Xp,內(nèi)存為 32 GB,硬盤為 1 TB,操作系統(tǒng)為Ubuntu,開發(fā)工具為Pycharm,開發(fā)語言為Python,深度學習框架為Pytorch.

      4.2 測試指標

      與主流模型對比中,使用精確率(Precision)、召回率(Recall)和F1 值作為測試指標,如式(24)~(26)所示.另外,對于抽取的三元組〈關系,頭實體,尾實體〉,當且僅當其中每個元素與數(shù)據(jù)集中的元素相同時視為正確.

      其中TP代表抽取三元組中正確的數(shù)量,F(xiàn)P代表抽取三元組中不正確的數(shù)量,F(xiàn)N代表未抽取出的正確三元組數(shù)量.

      4.3 基準模型相關技術(shù)對比

      選用3種類型共6個具體模型作為基準模型來對比驗證本文所提出模型的性能,其中包含現(xiàn)有研究中性能較好的CopyMTL模型.基準模型與本文所提出模型在數(shù)據(jù)集NYT和WebNLG中的整體性能對比結(jié)果如表3所示:

      1)CopyRE

      Zeng等人[11]基于復制機制和Seq2Seq的結(jié)構(gòu)聯(lián)合抽取關系和實體.其中Seq2Seq結(jié)構(gòu)將目標文本語句作為輸入,經(jīng)一系列處理后輸出實體關系三元組序列〈三元組 1, 三元組 2, …, 三元組n〉,從圖4 中可以看出,該模型結(jié)構(gòu)簡單,通過復制機制在每次解碼過程中按三元組組成順序先抽取關系并在該關系下抽取概率最大的詞作為實體.但該模型存在2個缺點:①由于模型采用統(tǒng)一預測分布,其中頭實體和尾實體沒有本質(zhì)上的區(qū)分,抽取尾實體時如果不對頭實體進行掩蓋可能會再次抽取到頭實體;②只能針對單一詞實體,對于包含多個詞的實體則無法抽取到完整實體.

      2)CopyMTL

      CopyMTL模型與CopyRE模型基本一致,主要組成為編碼器和解碼器.編碼器部分使用BiLSTM建模句子上下文信息,解碼器部分結(jié)合復制機制生成多對三元組,同時解決了CopyRE只能抽取單一詞實體,不能抽取多詞實體的問題,但解碼序列過長帶來的誤差累積和傳播導致模型不易收斂.

      Fig.4 Comparison of baseline model architecture圖4 基準模型框架對比

      3)GraphRel

      GraphRel利用圖卷積網(wǎng)絡來聯(lián)合學習命名實體和實體間關系,從圖4中可以看出其主要分為2個階段:①采用BiLSTM和GCN這2種方法分別進行實體標注和關系推理;②基于階段①的特征融合和關系推理后進行第2輪的實體標注和關系推理,在階段①的基礎上進一步提高模型性能.

      4.4 性能測試與分析

      如表3所示,從精確率、召回率和F1指標上看出GMCD-JERE在NYT和WebNLG數(shù)據(jù)集上的表現(xiàn)優(yōu)于CopyRE模型和GraphRel模型.此外,GMCD-JERE在NYT數(shù)據(jù)集上相較CopyMTLMul模型,各指標分別實現(xiàn)4.3%,5.1%,4.8%的性能提升.

      從模型抽取實體完整性方面看,當前CopyRE模型嚴格按照〈關系,頭實體,尾實體〉先后順序進行解碼,每一步僅能抽取1種關系或1個實體.例如在針對圖4例句三元組〈LiveIn,Barack Obama,White House〉的抽取過程中,由于CopyRE模型利用復制機制,即每一步解碼僅能選出當前序列中概率最大的一個詞,因此對于頭實體“Barack Obama”只能抽取其中的“Obama”,對應的尾實體“White House”也同樣如此,所以抽取結(jié)果可能為〈LiveIn,Obama,House〉,所以該模型不能有效處理含有多個詞的實體.針對該問題CopyMTL在CopyRE基礎上引入命名實體任務進行多任務學習,雖然在一定程度上緩解該問題,但由于CopyMTL仍屬于編碼器?解碼器模型,解碼序列過長帶來的誤差累積與傳播會造成模型抽取精確率的下降.GMCD-JERE模型融合標注框架[15]能定位到實體首、尾位置,有效縮減了解碼序列的長度,一定程度上緩解了誤差累積、傳播的問題,如表3所示,GMCD-JERE在NYT數(shù)據(jù)集上的精確率上較Copy-MTLMul提升4.3%.

      對于關系重疊問題,結(jié)合圖4來看,雖然CopyRE-和CopyMTL在一定程度上解決了該問題,但解碼序列長度會隨文本中三元組數(shù)量的增加而增加,導致模型抽取精確率隨著解碼序列長度的增加而降低.GraphRel利用圖卷積網(wǎng)絡來聯(lián)合學習命名實體識別和關系抽取.如表3所示,GMCD-JERE對NYT數(shù)據(jù)集中含有關系重疊問題的樣例的抽取較CopyREMul在F1上提升了4.8%.GMCD-JERE模型在解碼實體關系三元組過程中,對于原語句序列中詞出現(xiàn)的次數(shù)沒有限制,允許同一實體出現(xiàn)在不同三元組中.如圖4例句所示,其中包含2個三元組〈LiveIn,Barack Obama, White House〉 和 〈 LiveIn, Barack Obama,Washington〉,在關系“LiveIn”下 GMCD-JERE解碼生成頭實體“Barack Obama”,多路解碼機制此時基于關系和頭實體解碼生成“White House”和“Washington”這2個尾實體,由此在一定程度上解決實體關系重疊問題的同時進一步縮短解碼序列長度, GMCDJERE在NYT數(shù)據(jù)集上相較于其他模型各指標均有提升.但在WebNLG上性能并非最佳,通過分析發(fā)現(xiàn),WebNLG數(shù)據(jù)集的訓練樣本數(shù)量不到NYT的10%,而模型需要學習的參數(shù)過多;另一方面,WebNLG數(shù)據(jù)集中每個實體包含的單詞的平均數(shù)量比NYT多,所以GMCD-JERE在該數(shù)據(jù)集上實體抽取的準確性比較低,造成模型整體性能不佳.

      研究中發(fā)現(xiàn),CopyRE和CopyMTL模型都是以〈關系,頭實體,尾實體〉的先后順序進行三元組抽取,為了探究該類模型為何以這種順序進行抽取,同時為進一步驗證模型解碼器的性能,對于〈關系,頭實體,尾實體〉這樣的三元組,調(diào)整三元組內(nèi)元素抽取的先后順序,以驗證多路解碼實體關系三元組機制的有效性,同時確定最佳抽取順序.實驗中以H(head entity)表示頭實體,T(tail entity)表示尾實體,R(relation)表示這2個實體之間關系,實驗結(jié)果如圖5和圖6所示.

      Fig.5 Model performance under different extraction sequences in NYT圖5 NYT不同抽取順序下模型性能

      如圖5所示,當epoch>5,在RHT和RTH抽取順序下GMCD-JERE開始收斂,精確率、召回率和F1指標曲線平穩(wěn),性能穩(wěn)定;而在 TRH,THR,HRT,HTR抽取順序下,模型性能在epoch=5左右雖然能達到上述水平,但在epoch>5后各項性能指標曲線呈現(xiàn)上下振蕩.從圖5中可以直觀地看出在RHT和RTH的抽取順序下,GMCD-JERE比在其他抽取順序下性能更穩(wěn)定,且精確率、召回率和F1這3項數(shù)據(jù)更優(yōu).同樣如圖6中GMCD-JERE在WebNLG數(shù)據(jù)集上的性能曲線所示,模型同樣在RHT和RTH抽取順序下精確率、召回率和F1值能達到最高.在WebNLG數(shù)據(jù)集上,模型在epoch>20后,性能變得平穩(wěn),相較于NYT數(shù)據(jù)集收斂慢,并且根據(jù)圖5和圖6對比可以看出,WebNLG數(shù)據(jù)集下各模型性能遠低于NYT數(shù)據(jù)集,結(jié)合表2從數(shù)據(jù)集本身來看,原因可能依舊是Web-NLG數(shù)據(jù)集樣本量較少,而NYT數(shù)據(jù)集中Normal,EPO,SEO這3類語句比例約為4∶1∶2,不含實體關系重疊樣本與含有實體關系重疊數(shù)據(jù)比例則約為4∶3,樣本充足且均勻分布,利于模型訓練.

      經(jīng)實驗發(fā)現(xiàn)GMCD-JERE模型在以R為優(yōu)先抽取的方式下性能較好,如圖5所示.在RTH和RHT的抽取順序下,當epoch>10,模型收斂穩(wěn)定性能較高,其中精確率維持在80%左右,召回率和F1值最高分別達到73.8%和76.8%,超過當前最優(yōu)CopyMTLMul模型,而在TRH,THR,HRT,HTR抽取順序模型收斂性較差,訓練后期性能曲線振蕩,抽取效果不佳.結(jié)合圖6中模型在WebNLG數(shù)據(jù)集下的表現(xiàn),GMCDJERE仍在以R為優(yōu)先抽取的方式下性能最優(yōu),精確度、召回率和F1值最高實現(xiàn)43.9%,42.7%,43.3%,而在其他4種抽取順序下精確度、召回率和F1值最高分別為39.3%,38.3%,38.8%,如圖5和圖6所示,在RHT和RTH抽取順序下的性能在不同的迭代次數(shù)下普遍優(yōu)于其他抽取順序,因此以R優(yōu)先抽取的方式模型性能高于以H或T優(yōu)先抽取的方式.結(jié)合圖4各模型結(jié)構(gòu)來看,CopyRE和CopyMTL在抽取過程中都是以R優(yōu)先抽取的方式進行,并且Zeng等人[11]并沒有對此進行詳細地闡述.通過模型結(jié)構(gòu)對比和結(jié)果分析發(fā)現(xiàn),以R優(yōu)先的抽取方式較其他方式不易產(chǎn)生冗余實體,如圖4中例句,在H或T優(yōu)先的抽取順序下,模型可能會抽取到“president”作為實體,而從句子整體來看,句中并沒有與之存在關系的另一實體,即不能組成對應的三元組,而在實際抽取過程中模型為了組成三元組可能會強行從句中抽取另一實體并進行關系抽取,由此生成的三元組是存在問題的,因此模型各項性能指標較低,而在以R優(yōu)先的抽取方式下,模型是從句中找出符合該關系的頭實體和尾實體,而前述抽取順序下,模型目標是為某一實體在某種關系下尋找句中的另一實體,顯然以R優(yōu)先的抽取方式更加合理,因此從一定程度上解釋了CopyRE和CopyMTL都是嚴格以R優(yōu)先的抽取方式展開進行研究,所以經(jīng)上述研究與分析,GMCD-JERE模型最優(yōu)抽取順序為RHT或RTH.

      5 結(jié) 論

      本文提出并驗證了GMCD-JERE在數(shù)據(jù)集NYT和WebNLG上進行實體關系抽取任務的有效性,其中,將多路解碼序列機制融入解碼器中,結(jié)合標注框架定位實體首、尾位置,同時在編碼器中通過具有關系推理能力的GCN進行特征融合.通過實驗發(fā)現(xiàn),GMCD-JERE在NYT數(shù)據(jù)集上表現(xiàn)出良好的性能,在精確率、召回率和F1這3項指標上均取得較好效果,相比于CopyMTL,在精確率、召回率和F1上分別提升4.3%,5.1%,4.8%.在對頭實體、關系和尾實體抽取順序進行變換實驗對比后,綜合分析并確定了〈關系,頭實體,尾實體〉或〈關系,尾實體,頭實體〉這樣的抽取順序.相比NYT數(shù)據(jù)集,GMCD-JERE和其他模型在WebNLG數(shù)據(jù)集上表現(xiàn)不佳,所以我們將如何在訓練樣本不足且分布不均的情況下提升模型抽取性能納入未來的研究工作中,同時我們將進一步探索長句或跨句實體關系抽取解決方案,探索文本序列長度以及解碼序列長度對抽取的具體影響,同時文本特征的表征能力也是很有意義的研究方向,對模型性能提升具有一定研究價值.

      作者貢獻聲明:喬勇鵬負責方案設計、模型訓練、數(shù)據(jù)處理和文章撰寫;于亞新指導方案設計,對文章修改并校對;劉樹越參與模型訓練和優(yōu)化;王子騰參與方案可行性討論和模型優(yōu)化;夏子芳參與數(shù)據(jù)分析;喬佳琪負責文獻調(diào)研.

      猜你喜歡
      三元組解碼器解碼
      基于帶噪聲數(shù)據(jù)集的強魯棒性隱含三元組質(zhì)檢算法*
      《解碼萬噸站》
      科學解碼器(一)
      特征標三元組的本原誘導子
      科學解碼器(二)
      科學解碼器(三)
      線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍蜻蜓解碼器
      解碼eUCP2.0
      中國外匯(2019年19期)2019-11-26 00:57:32
      關于余撓三元組的periodic-模
      NAD C368解碼/放大器一體機
      周口市| 海门市| 临汾市| 武穴市| 云龙县| 静宁县| 玉溪市| 黑河市| 汉沽区| 布尔津县| 漳浦县| 祥云县| 英山县| 青海省| 恩施市| 红河县| 金山区| 南城县| 林口县| 比如县| 青海省| 南川市| 宜兰市| 蚌埠市| 江源县| 安陆市| 金秀| 呼和浩特市| 兰坪| 彩票| 哈巴河县| 城固县| 隆化县| 黔西县| 墨竹工卡县| 抚顺市| 资源县| 舞阳县| 和田县| 河津市| 铜陵市|