戴劍鋒,陳星妤,董黎剛,蔣獻(xiàn)
融合混合嵌入與關(guān)系標(biāo)簽嵌入的三元組聯(lián)合抽取方法
戴劍鋒,陳星妤,董黎剛,蔣獻(xiàn)
(浙江工商大學(xué),浙江 杭州 310018)
三元組抽取的目的是從非結(jié)構(gòu)化的文本中獲取實(shí)體與實(shí)體間的關(guān)系,并應(yīng)用于下游任務(wù)。嵌入機(jī)制對(duì)三元組抽取模型的性能有很大影響,嵌入向量應(yīng)包含與關(guān)系抽取任務(wù)密切相關(guān)的豐富語義信息。在中文數(shù)據(jù)集中,字詞之間包含的信息有很大區(qū)別,為了改進(jìn)由分詞錯(cuò)誤產(chǎn)生的語義信息丟失問題,設(shè)計(jì)了融合混合嵌入與關(guān)系標(biāo)簽嵌入的三元組聯(lián)合抽取方法(HEPA),提出了采用字嵌入與詞嵌入結(jié)合的混合嵌入方法,降低由分詞錯(cuò)誤產(chǎn)生的誤差;在實(shí)體抽取層中添加關(guān)系標(biāo)簽嵌入機(jī)制,融合文本與關(guān)系標(biāo)簽,利用注意力機(jī)制來區(qū)分句子中實(shí)體與不同關(guān)系標(biāo)簽的相關(guān)性,由此提高匹配精度;采用指針標(biāo)注的方法匹配實(shí)體,提高了對(duì)關(guān)系重疊三元組的抽取效果。在公開的DuIE數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn),相較于表現(xiàn)最好的基線模型(CasRel),HEPA的1值提升了2.8%。
三元組抽??;關(guān)系嵌入;BERT;注意力機(jī)制;指針標(biāo)注
三元組的自動(dòng)抽取是自然語言處理領(lǐng)域的一個(gè)熱門研究課題,它能夠從非結(jié)構(gòu)化文本中提取結(jié)構(gòu)化信息,并應(yīng)用于各類下游任務(wù),如知識(shí)圖譜、智能問答等。三元組可表示為:<頭實(shí)體,關(guān)系,尾實(shí)體>?,F(xiàn)有的三元組抽取方法按照建模類型主要可分為兩類:流水線法(pipeline)和聯(lián)合抽取法(joint)。流水線法將三元組抽取任務(wù)分割成兩個(gè)獨(dú)立的子任務(wù):命名實(shí)體識(shí)別(named entities recognition,NER)和關(guān)系抽取(relation extraction,RE)。首先進(jìn)行命名實(shí)體識(shí)別,提取文本中的實(shí)體,然后進(jìn)行關(guān)系抽取,使用分類模型匹配各實(shí)體對(duì)之間的關(guān)系。這種串聯(lián)模型在建模難度上相對(duì)簡(jiǎn)單,但將命名實(shí)體識(shí)別和關(guān)系抽取視作兩個(gè)獨(dú)立的任務(wù)處理時(shí),存在實(shí)體冗余、誤差累計(jì)、信息丟失等問題,限制了進(jìn)一步的研究。為了解決流水線法存在的問題,學(xué)者們提出用聯(lián)合抽取法對(duì)三元組進(jìn)行抽取,同時(shí)從輸入文本中抽取實(shí)體及實(shí)體間的對(duì)應(yīng)關(guān)系[1]。與流水線方法相比,聯(lián)合抽取法整合了實(shí)體和關(guān)系信息,有效減少了誤差傳播,取得了更好的效果。
目前,大部分三元組抽取研究不能較好地處理重疊三元組問題。在三元組抽取任務(wù)中,經(jīng)常會(huì)出現(xiàn)同一句子存在多個(gè)三元組共享相同的頭實(shí)體、關(guān)系或尾實(shí)體的情況。例如“鄧超既是《銀河補(bǔ)習(xí)班》這部電影的導(dǎo)演又是主演。”這句話包含<《銀河補(bǔ)習(xí)班》,導(dǎo)演,鄧超>、<《銀河補(bǔ)習(xí)班》,主演,鄧超>兩個(gè)三元組,且“《銀河補(bǔ)習(xí)班》”和“鄧超”兩個(gè)實(shí)體間存在多個(gè)關(guān)系。學(xué)者們將這一類共享實(shí)體關(guān)系的三元組命名為重疊三元組。
重疊三元組按照實(shí)體重疊程度可以分為3種情況,如圖1所示,分別為無重疊(normal)、實(shí)體對(duì)重疊(entity pair overlap,EPO)、單實(shí)體重疊(single entity overlap,SEO)。normal表示文本中的實(shí)體之間只存在一種關(guān)系,不存在關(guān)系重疊三元組;EPO表示相同的兩個(gè)實(shí)體之間存在多個(gè)實(shí)體關(guān)系;SEO表示一個(gè)頭實(shí)體與多個(gè)不同的尾實(shí)體存在實(shí)體關(guān)系。
圖1 重疊三元組類型
在聯(lián)合抽取模型中,對(duì)文本中實(shí)體進(jìn)行識(shí)別往往選用序列標(biāo)注的方法。每個(gè)字詞都會(huì)被標(biāo)注成特有的序列,例如頭實(shí)體開始、頭實(shí)體結(jié)束、無關(guān)詞、關(guān)系、尾實(shí)體開始、尾實(shí)體結(jié)束。這種標(biāo)注方法無法將一個(gè)詞語同時(shí)標(biāo)注成頭實(shí)體和尾實(shí)體,對(duì)重疊三元組問題處理效果較差。流水線抽取模型雖然選用遍歷所有提取的實(shí)體對(duì)的方法來解決重疊三元組的提取問題,但太過依賴命名實(shí)體識(shí)別的準(zhǔn)確性,一旦實(shí)體識(shí)別出錯(cuò),誤差就會(huì)累積到下一個(gè)任務(wù)中,將引入大量錯(cuò)誤、冗余的實(shí)體對(duì),導(dǎo)致提取性能顯著下降。
針對(duì)上述問題,本文在聯(lián)合抽取法的基礎(chǔ)上提出一種融合混合嵌入與關(guān)系標(biāo)簽嵌入的三元組聯(lián)合抽取方法(HEPA),融合詞句間的文本信息,提高對(duì)重疊三元組的抽取精度。本文的主要工作如下:首先針對(duì)嵌入方法中忽視字詞之間潛在語義關(guān)系而導(dǎo)致分詞歧義的問題,設(shè)計(jì)了一種混合嵌入方法,結(jié)合字詞以及位置信息將輸入文本轉(zhuǎn)化為向量,降低由分詞錯(cuò)誤產(chǎn)生的誤差。其次,由于頭實(shí)體和尾實(shí)體間存在位置聯(lián)系,設(shè)計(jì)了實(shí)體位置注意力機(jī)制,賦予實(shí)體位置信息權(quán)重,從多維度獲取文本信息,提高三元組抽取的精度。最后,在DuIE數(shù)據(jù)集上進(jìn)行了測(cè)試,HEPA相較于其他基線模型在1值上有所提升。
本節(jié)主要介紹了三元組抽取中的兩種主流方法:流水線法和聯(lián)合抽取法。
流水線法將三元組抽取的過程分為命名實(shí)體識(shí)別和關(guān)系抽取兩個(gè)子任務(wù),彼此相互獨(dú)立。首先通過命名實(shí)體識(shí)別提取出文本中的實(shí)體,再通過關(guān)系抽取對(duì)每個(gè)候選實(shí)體進(jìn)行關(guān)系預(yù)測(cè),最后以三元組的形式輸出預(yù)測(cè)結(jié)果。
Zeng等[2]首次提出使用具有最大池化(max pooling)的卷積深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)算法提取詞語和句子級(jí)別的特征,將得到的詞向量作為模型的原始輸入,通過隱藏層和softmax層進(jìn)行關(guān)系分類。該模型提出了位置特征來編碼當(dāng)前詞與目標(biāo)詞對(duì)的相對(duì)距離,同時(shí)說明位置特征是比較有效的特征。該方法在SemEval-2010數(shù)據(jù)集上達(dá)到了最佳效果。Xu等[3]在Zeng等[2]的研究基礎(chǔ)上進(jìn)行改進(jìn),使用最短依存路徑長(zhǎng)短期記憶(the shortest dependency path long short-term memory,SDP-LSTM)網(wǎng)絡(luò)進(jìn)行實(shí)體關(guān)系抽取,把路徑節(jié)點(diǎn)表示成向量,將詞本身、詞性信息、句法依存關(guān)系、WordNet上位詞等4種詞信息看作4個(gè)通道,輸入長(zhǎng)短期記憶(long short-term memory,LSTM)網(wǎng)絡(luò)進(jìn)行前向傳播,每一個(gè)通道都有一個(gè)輸出,將所有輸出堆疊處理并進(jìn)行池化操作,最后對(duì)4個(gè)通道輸出的隱向量進(jìn)行拼湊,通過softmax層產(chǎn)生最終輸出。在訓(xùn)練過程中發(fā)現(xiàn)實(shí)體間的距離對(duì)關(guān)系抽取的效果有較大的影響,于是添加了負(fù)實(shí)體采樣策略消除由依存路徑分析引入的噪聲影響。Socher等[4]針對(duì)單個(gè)詞向量模型無法捕獲長(zhǎng)句子合成性信息的問題,設(shè)計(jì)了一種基于矩陣向量循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的抽取模型,提高了模型對(duì)任意長(zhǎng)度的短語和句子詞向量共同表征的學(xué)習(xí)能力。但RNN模型存在長(zhǎng)期依賴問題,容易丟失上下文信息。
為了解決這一問題,改善對(duì)長(zhǎng)難句的建模效果,Li等[5]提出了一種基于低成本序列特征的Bi-LSTM-RNN模型,通過實(shí)體周圍的分段信息獲取更多的語義信息,不需要額外特征幫助。LSTM模型雖然有效解決了長(zhǎng)期依賴問題,但對(duì)關(guān)鍵信息的注意不足,難以處理復(fù)雜的關(guān)系抽取問題。Su等[6]在CNN模型的池化層加入注意力機(jī)制,過濾文本中無關(guān)的噪聲數(shù)據(jù),從而使得模型專注于目標(biāo)實(shí)體特征。Vashishth等[7]在多實(shí)例設(shè)置中使用了圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional neural network,GCN)。他們?cè)谡麄€(gè)句子依賴樹上使用雙向門控循環(huán)單元(bidirectional gate recurrent unit,Bi-GRU)層和GCN層對(duì)句子進(jìn)行編碼。將詞袋中的句子表示進(jìn)行聚合并傳遞給分類器來尋找它們之間的關(guān)系。楊帥等[8]提出了一種基于多通道的邊學(xué)習(xí)GCN,提高了圖學(xué)習(xí)多維邊特征學(xué)習(xí)的能力,拓展了GCN在關(guān)系抽取領(lǐng)域的應(yīng)用。
在中文領(lǐng)域中,為了解決流水線方法存在的誤差累計(jì)問題,李昊等[9]提出一種基于實(shí)體邊界組合的關(guān)系抽取方法,跳過命名實(shí)體識(shí)別,直接對(duì)實(shí)體邊界信息兩兩組合來進(jìn)行關(guān)系抽取。由于邊界信息性能高于實(shí)體性能,所以誤差累計(jì)的問題得到了一定程度緩解,在ACE 2005中文數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),其1值提高了13.95%。Zhong等[10]提出了一種雙編碼器抽取模型,獨(dú)立學(xué)習(xí)兩個(gè)編碼器進(jìn)行實(shí)體識(shí)別和關(guān)系提取,簡(jiǎn)單地在兩個(gè)實(shí)體的前后各插入了開始和結(jié)束標(biāo)簽,獲得了非常好的效果,在多個(gè)數(shù)據(jù)集上都有較大提升,為流水線法提供了新的思路。
雖然流水線方法在建模難度上相對(duì)較低,但是存在3個(gè)主要問題。首先,這種模型容易出現(xiàn)錯(cuò)誤傳播的情況,命名實(shí)體識(shí)別環(huán)節(jié)產(chǎn)生的錯(cuò)誤無法及時(shí)進(jìn)行檢驗(yàn)糾正,而且會(huì)累積到關(guān)系抽取環(huán)節(jié)中,從而影響后續(xù)實(shí)體關(guān)系抽取的效果。其次,不相關(guān)的實(shí)體對(duì)在匹配過程中會(huì)產(chǎn)生大量干擾信息,這些干擾信息也會(huì)影響模型的性能。最后,分割命名實(shí)體識(shí)別與實(shí)體關(guān)系抽取這兩個(gè)子任務(wù)會(huì)造成文本信息丟失的問題,影響模型效果。
為了解決流水線法存在的問題,越來越多的學(xué)者傾向于設(shè)計(jì)聯(lián)合模型對(duì)三元組進(jìn)行整體抽取。
不同于流水線法,聯(lián)合抽取法將命名實(shí)體識(shí)別和關(guān)系抽取兩個(gè)步驟進(jìn)行聯(lián)合建模,在抽取實(shí)體的同時(shí)分類實(shí)體關(guān)系。聯(lián)合抽取法的優(yōu)點(diǎn)是能夠減少誤差累計(jì),增強(qiáng)子任務(wù)之間的聯(lián)系。Miwa等[11]將神經(jīng)網(wǎng)絡(luò)應(yīng)用于聯(lián)合抽取模型,選用雙向序列LSTM-RNN對(duì)句子的詞語順序信息和依存句法樹結(jié)構(gòu)信息進(jìn)行建模,并將兩個(gè)模型組合起來,使得關(guān)系抽取的過程中可以利用與實(shí)體相關(guān)的信息。Katiyar等[12]對(duì)Miwa等[11]設(shè)計(jì)的模型進(jìn)行了改進(jìn),引入注意力機(jī)制和指針網(wǎng)絡(luò),將注意力機(jī)制與實(shí)體指針、關(guān)系指針結(jié)合,能夠更精準(zhǔn)地抽取實(shí)體間關(guān)系,同時(shí)擴(kuò)展了標(biāo)簽關(guān)系類型。Zheng等[13]選用LSTM模型將聯(lián)合關(guān)系抽取任務(wù)轉(zhuǎn)化為序列標(biāo)注任務(wù),選用就近原則進(jìn)行實(shí)體關(guān)聯(lián)。但該模型忽略了句子中存在多個(gè)實(shí)體關(guān)系重疊的問題。
Zeng等[14]注意到實(shí)體關(guān)系抽取過程中的關(guān)系重疊問題,并提出利用Seq2Seq模型進(jìn)行實(shí)體關(guān)系聯(lián)合抽取,在模型中添加了復(fù)制機(jī)制來解決重疊問題,可以從句子中聯(lián)合提取關(guān)系事實(shí)。但該模型太過依賴解碼的準(zhǔn)確率,可能會(huì)導(dǎo)致實(shí)體識(shí)別不全。Fu等[15]用依存句法將句子轉(zhuǎn)化為依存樹,再通過加權(quán)圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)改進(jìn)的方法,計(jì)算實(shí)體對(duì)關(guān)系的權(quán)重,從而解決實(shí)體關(guān)系重疊的問題,效果比Zeng等[14]的模型有所提高。Duan等[16]提出了一種結(jié)合多頭注意力機(jī)制的圖卷積神經(jīng)網(wǎng)絡(luò)(MA-DCGCN)模型。在該模型中,多頭自注意力機(jī)制專門用于將權(quán)重分配給實(shí)體之間的多個(gè)關(guān)系類型,以確保多個(gè)關(guān)系的概率空間不相互排斥,并自適應(yīng)地提取重疊實(shí)體間的多種關(guān)系。Wei等[17]提出一種基于二進(jìn)制指針序列標(biāo)注的模型。首先使用兩個(gè)二進(jìn)制分類器識(shí)別出句子中的所有實(shí)體,然后遍歷所有實(shí)體關(guān)系標(biāo)簽,根據(jù)語義相似度進(jìn)行尾實(shí)體標(biāo)注。該模型為重疊三元組抽取提供了新的思路。Wang等[18]設(shè)計(jì)了握手標(biāo)記策略,通過對(duì)句子中的主語和謂語的首字符建立3種標(biāo)注標(biāo)簽,在給定scheme下進(jìn)行分類訓(xùn)練,通過窮舉存在判斷的解碼實(shí)現(xiàn)對(duì)重疊關(guān)系三元組的抽取。
在中文領(lǐng)域中,聯(lián)合抽取法也有著廣泛的應(yīng)用。田佳來等[19]采用一種新的標(biāo)記方案,將關(guān)系抽取問題轉(zhuǎn)化成序列標(biāo)注問題,同時(shí)針對(duì)三元組重疊問題,采用分層的序列標(biāo)注方式來解決,在某中文數(shù)據(jù)集上1值達(dá)到80.84%。苗琳等[20]設(shè)計(jì)了一種基于圖神經(jīng)網(wǎng)絡(luò)的實(shí)體關(guān)系聯(lián)合抽取模型,將重心放在實(shí)體與關(guān)系間的相互作用,將實(shí)體抽取的范圍擴(kuò)大到每個(gè)實(shí)體的局部特征,結(jié)合圖卷積網(wǎng)絡(luò)對(duì)每個(gè)實(shí)體對(duì)進(jìn)行關(guān)系預(yù)測(cè),在數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),對(duì)比基線模型有5.2%的提升。針對(duì)關(guān)系抽取中存在多跳關(guān)系的情況,王紅等[21]提出了一種基于多跳注意力的實(shí)體關(guān)系聯(lián)合抽取方法,先標(biāo)記頭實(shí)體,輸出其多關(guān)系尾實(shí)體,然后將尾實(shí)體作為下一跳的頭實(shí)體進(jìn)行輸入,迭代執(zhí)行關(guān)系抽取直到輸出最終的實(shí)體關(guān)系。這一方法充分利用了實(shí)體間潛在的隱性關(guān)系,對(duì)復(fù)雜的多跳關(guān)系抽取效果極佳,實(shí)驗(yàn)表明該方法在民航突發(fā)事件數(shù)據(jù)集中有出色表現(xiàn)。
綜上所述,已有較多聯(lián)合抽取模型在不同領(lǐng)域的研究中取得了不錯(cuò)的成果。但聯(lián)合抽取模型仍然存在語義信息缺失、精度要求高等問題,而且大多數(shù)模型不能較好地處理三元組重疊的情況。針對(duì)這些問題,本文提出了一種基于混合關(guān)系嵌入的三元組抽取方法。
HEPA模型結(jié)構(gòu)如圖2所示,模型主要可以分為編碼層、頭實(shí)體標(biāo)注層和關(guān)系匹配層3個(gè)部分。
圖2 HEPA模型結(jié)構(gòu)
編碼層分別編碼輸入文本以及關(guān)系標(biāo)簽。文本輸入到向量混合嵌入層,結(jié)合字嵌入的靈活性與詞嵌入的語義關(guān)系,融合位置信息與關(guān)系標(biāo)簽內(nèi)容進(jìn)行混合嵌入。得到混合向量后將其輸入到采用BERT預(yù)訓(xùn)練模型的編碼層中進(jìn)行編碼,經(jīng)過多頭注意力機(jī)制豐富語義特征。
頭實(shí)體標(biāo)注層解碼由BERT編碼器產(chǎn)生的編碼向量來識(shí)別輸入語句中的所有可能頭實(shí)體,經(jīng)過標(biāo)簽注意力機(jī)制標(biāo)記實(shí)體與關(guān)系之間的關(guān)聯(lián)程度,其中色塊顏色越深,代表標(biāo)簽與實(shí)體間的關(guān)系越緊密。最后用二進(jìn)制標(biāo)注器標(biāo)注出頭實(shí)體的開始位置與結(jié)束位置。
在實(shí)體關(guān)系匹配層中,對(duì)標(biāo)注出來的頭實(shí)體遍歷預(yù)先設(shè)定好的關(guān)系標(biāo)簽,為每個(gè)關(guān)系標(biāo)簽匹配最接近的尾實(shí)體,并用標(biāo)注器標(biāo)注在文本中的位置。對(duì)每個(gè)頭實(shí)體都要進(jìn)行一次實(shí)體關(guān)系匹配,最終為所有頭實(shí)體匹配實(shí)體關(guān)系與尾實(shí)體,并轉(zhuǎn)換為三元組輸出。
編碼層首先從自然語言語句中提取特征信息,對(duì)上下文信息進(jìn)行編碼,將其輸入后續(xù)的編碼模塊中。
2.1.1 字詞混合嵌入
其中,表示第個(gè)混合嵌入向量,表示第個(gè)詞向量,表示變換矩陣,表示第個(gè)字向量?;旌锨度脒^程如圖3所示。
2.1.2 BERT編碼
2018年,Devlin等[22]提出了經(jīng)典的BERT(bidirectional encoder representation from transformers)模型,這是一個(gè)預(yù)訓(xùn)練的雙向編碼表征模型。以往模型訓(xùn)練出來的詞向量是靜態(tài)的,也就是與上下文無關(guān),它們沒有解決歧義問題。例如“王老師剛剛走了?!敝械摹白吡恕笨梢灾复x開的意思,特殊場(chǎng)景下也可以指代去世的意思。BERT的出現(xiàn)解決了這一問題,BERT會(huì)將每個(gè)單詞與句子中其他單詞計(jì)算相關(guān)性,以此來獲得每個(gè)單詞的上下信息,根據(jù)不同上下文生成對(duì)應(yīng)的詞向量,更符合人類的理解邏輯。因此選用BERT預(yù)訓(xùn)練模型來進(jìn)行向量編碼。
2.1.3 關(guān)系嵌入
HEPA模型在對(duì)輸入語句進(jìn)行嵌入的同時(shí),還加入了關(guān)系嵌入機(jī)制。將該機(jī)制隊(duì)的所有關(guān)系標(biāo)簽進(jìn)行編碼嵌入,轉(zhuǎn)化為關(guān)系向量,利用注意力機(jī)制區(qū)分不同關(guān)系標(biāo)簽與句子中實(shí)體的相關(guān)程度,從而將關(guān)系標(biāo)簽信息整合到字詞嵌入中。融合字詞嵌入向量與關(guān)系嵌入向量,可以利用關(guān)系標(biāo)簽信息來豐富給定句子中每個(gè)實(shí)體間關(guān)系,有助于提高對(duì)每個(gè)三元組抽取的精度。
HEPA模型選用的標(biāo)注策略為先標(biāo)注BERT編碼序列中的所有頭實(shí)體,再將頭實(shí)體作為先驗(yàn)條件輸入實(shí)體關(guān)系匹配層中,遍歷所有的實(shí)體關(guān)系標(biāo)簽,找到一個(gè)最匹配的尾實(shí)體。選用分層標(biāo)注的方法對(duì)頭實(shí)體進(jìn)行標(biāo)注,設(shè)計(jì)兩個(gè)完全一樣的二進(jìn)制標(biāo)注器,分別對(duì)應(yīng)實(shí)體的開始與結(jié)束位置,對(duì)于語句中的每個(gè)字符進(jìn)行0/1標(biāo)注,確定字符是否為頭實(shí)體的開始或結(jié)束位置。這樣做的好處是當(dāng)語句中存在多個(gè)頭實(shí)體時(shí)標(biāo)注不會(huì)重疊,避免出現(xiàn)某個(gè)實(shí)體的標(biāo)注結(jié)果既為頭實(shí)體又是尾實(shí)體的情況。頭實(shí)體標(biāo)注的計(jì)算式如下:
對(duì)句子中的主語進(jìn)行抽取的概率函數(shù)如下:
向量序列經(jīng)過頭實(shí)體標(biāo)注層處理后會(huì)產(chǎn)生多個(gè)頭實(shí)體標(biāo)記,如何為頭實(shí)體匹配合適的尾實(shí)體成為提高模型處理效率亟需解決的問題。通常在一段完整的文本中,匹配的頭實(shí)體與尾實(shí)體在距離上不會(huì)相距太遠(yuǎn),因此本文在頭實(shí)體標(biāo)注層中加入實(shí)體位置注意力機(jī)制,將文本當(dāng)前位置信息加入注意力機(jī)制中,篩選合適的實(shí)體關(guān)系進(jìn)行匹配。實(shí)體位置注意力機(jī)制如下:
在給定主語和特征向量情況下對(duì)句子中賓語進(jìn)行抽取的概率計(jì)算式如下:
HEPA模型主要分為頭實(shí)體標(biāo)注與實(shí)體關(guān)系匹配兩個(gè)部分,因此總損失函數(shù)由這兩個(gè)部分的損失函數(shù)之和構(gòu)成,選用二分類交叉熵?fù)p失函數(shù)。計(jì)算過程如計(jì)算式所示:
為了驗(yàn)證HEPA模型的效果,本文選擇在DuIE數(shù)據(jù)集上設(shè)計(jì)實(shí)驗(yàn)進(jìn)行驗(yàn)證。DuIE數(shù)據(jù)集是目前中文關(guān)系抽取領(lǐng)域中規(guī)模最大的數(shù)據(jù)集之一,來自2019年百度舉辦的語言與智能技術(shù)競(jìng)賽。DuIE數(shù)據(jù)集包含48個(gè)已定義的schema約束,其中有43個(gè)簡(jiǎn)單知識(shí)schema,5個(gè)復(fù)雜知識(shí)schema,超過21萬條中文語句和45萬個(gè)三元組實(shí)例,并且包含大量的重疊三元組。DuIE數(shù)據(jù)集的數(shù)據(jù)來自各領(lǐng)域,包括但不限于游戲、影視、教育,對(duì)模型的泛化性有較高要求。
在模型驗(yàn)證過程中,超參數(shù)設(shè)置如下:輸入句子的最大長(zhǎng)度設(shè)置為256字符;頭、尾實(shí)體的標(biāo)注閾值均設(shè)置為0.5;batchsize設(shè)置為32條;學(xué)習(xí)率設(shè)置為1×10-5;epoch設(shè)置為10次;使用Adam優(yōu)化器進(jìn)行自適應(yīng)學(xué)習(xí);BERT預(yù)訓(xùn)練模型使用BERT-base版本。
為了驗(yàn)證HEPA模型在三元組抽取任務(wù)中的有效性,本文選用精確率(precision)、召回率(recall)和1值(1-score)3個(gè)主要指標(biāo)來評(píng)價(jià)模型的效果,計(jì)算式如下:
在DuIE數(shù)據(jù)集上設(shè)計(jì)實(shí)驗(yàn),將HEPA模型在與其他基線模型進(jìn)行對(duì)比,融合混合嵌入與關(guān)系標(biāo)簽的三元組抽取模型與基線模型對(duì)比見表1。
表1 融合混合嵌入與關(guān)系標(biāo)簽的三元組抽取模型與基線模型對(duì)比
(1)CopyMTL是在CopyRE的研究基礎(chǔ)上提出的基于copy+Seq2Seq的三元組抽取模型,針對(duì)CopyRE無法區(qū)分文本中頭、尾實(shí)體的問題進(jìn)行了改進(jìn),通過多任務(wù)學(xué)習(xí)獲取實(shí)體特征。
(2)WDec是一個(gè)標(biāo)準(zhǔn)的Seq2Seq模型,具有動(dòng)態(tài)掩蔽功能,能對(duì)實(shí)體標(biāo)記(token)進(jìn)行逐個(gè)解碼,對(duì)實(shí)體關(guān)系重疊的問題有較大優(yōu)化。
(3)CoType是基于遠(yuǎn)程監(jiān)督和弱監(jiān)督的三元組聯(lián)合抽取模型,充分利用數(shù)據(jù)集中句子級(jí)別的局部信息,降低了人工標(biāo)注的要求,具有較好的泛用性。
(4)MHS是一個(gè)聯(lián)合抽取模型,使用CRF將實(shí)體識(shí)別任務(wù)和關(guān)系提取任務(wù)共同建模,將關(guān)系抽取任務(wù)轉(zhuǎn)化為多頭選擇任務(wù)。該模型的優(yōu)勢(shì)是不需要依賴外部NLP工具進(jìn)行標(biāo)注。
(5)CasRel是一個(gè)二進(jìn)制級(jí)聯(lián)抽取模型,它提出了一種將實(shí)體與關(guān)系建模為映射函數(shù)的三元組抽取方法。
分析表1的結(jié)果可知,HEPA模型在精確率、召回率和1值共3項(xiàng)評(píng)估指標(biāo)中結(jié)果都優(yōu)于最佳基線模型(CasRel),分別有0.7%、4.4%、2.8%的提升,在召回率上有較大提升,說明在處理關(guān)系重疊三元組時(shí)有較好效果。HEPA模型能取得優(yōu)秀的效果依賴于混合嵌入帶來的更多語義信息,模型能夠充分利用上下文信息;加入標(biāo)簽嵌入機(jī)制能夠增強(qiáng)實(shí)體之間的關(guān)聯(lián)度。
為了驗(yàn)證標(biāo)簽嵌入機(jī)制對(duì)模型效果的幫助效果,設(shè)計(jì)了對(duì)三元組中不同元素抽取的對(duì)比實(shí)驗(yàn),各模型提取不同元素的1值對(duì)比見表2。
表2 各模型提取不同元素的F1值對(duì)比
分析表2結(jié)果可知,添加關(guān)系嵌入機(jī)制后能夠加強(qiáng)頭實(shí)體、關(guān)系和尾實(shí)體之間成對(duì)甚至三元組之間的聯(lián)系。首先,在4組實(shí)驗(yàn)(,)、(,)、(,)和(,,)中,HEPA模型在DuIE數(shù)據(jù)集上的表現(xiàn)優(yōu)于所有的對(duì)比模型。其次,當(dāng)HEPA模型去除關(guān)系嵌入機(jī)制后,每組實(shí)驗(yàn)的效果都大幅降低,說明關(guān)系嵌入機(jī)制加強(qiáng)了實(shí)體與關(guān)系間的聯(lián)系。最后,雖然關(guān)系嵌入機(jī)制同時(shí)編碼大量關(guān)系標(biāo)簽存在引入噪聲的問題,但從實(shí)驗(yàn)結(jié)果上看,該機(jī)制的加入對(duì)模型效果改進(jìn)整體上還是利大于弊。
為了進(jìn)一步驗(yàn)證本文創(chuàng)新部分對(duì)模型效果的影響,在DuIE數(shù)據(jù)集上設(shè)計(jì)了消融實(shí)驗(yàn)進(jìn)行對(duì)比,基于混合關(guān)系嵌入的三元組抽取模型消融實(shí)驗(yàn)結(jié)果見表3。
表3 基于混合關(guān)系嵌入的三元組抽取模型消融實(shí)驗(yàn)結(jié)果
HEPA模型在去除字、詞嵌入、實(shí)體位置注意力機(jī)制和關(guān)系嵌入機(jī)制后,在精確率、召回率和1值評(píng)價(jià)指標(biāo)上都有不同程度的下降,證明了本文添加的機(jī)制對(duì)改進(jìn)模型效果有一定幫助。其中,只使用字嵌入或詞嵌入時(shí),模型精確率下降較多,說明字詞混合嵌入對(duì)于模型準(zhǔn)確抽取三元組幫助較大;去除實(shí)體位置注意力機(jī)制后召回率大幅下降,說明實(shí)體位置注意力機(jī)制能夠有效匹配頭實(shí)體與相應(yīng)尾實(shí)體之間的關(guān)系,減少實(shí)體關(guān)系重疊情況對(duì)模型的影響;去除標(biāo)簽嵌入機(jī)制后,精確率下降6.1%,1值下降5.3%。
為了驗(yàn)證HEPA模型在不同重疊三元組中的抽取效果,在DuIE數(shù)據(jù)集上分別對(duì)不同三元組重疊情況normal、EPO和SEO設(shè)計(jì)并進(jìn)行了實(shí)驗(yàn)。不同重疊情況的模型表現(xiàn)如圖4所示。
圖4顯示了在DuIE數(shù)據(jù)集上各模型在不同重疊類型上的精確率、召回率和1值。分析圖4結(jié)果可知,HEPA在normal、EPO和SEO 3種重疊情況下各項(xiàng)評(píng)價(jià)指標(biāo)都取得了最好的效果。與CasRel對(duì)比,HEPA在EPO、SEO情況下有著2.9%和3.6%的提升,但在normal情況下效果不如CasRel。另外,大多數(shù)基線模型在不同的三元組重疊情況下的性能有不同程度的下降,原因是這些基線模型對(duì)實(shí)體關(guān)系的建模是離散的,無法較好地識(shí)別參與多個(gè)關(guān)系的實(shí)體。而HEPA對(duì)EPO和SEO的抽取效果呈現(xiàn)上升的趨勢(shì),原因是指針標(biāo)注將關(guān)系抽取轉(zhuǎn)化為實(shí)體與關(guān)系之間一對(duì)一的映射,無論文本有多復(fù)雜,都能為頭實(shí)體匹配最相近的實(shí)體關(guān)系與尾實(shí)體。此外,注意力機(jī)制能夠從不同的維度提取句子中的關(guān)鍵信息,幫助模型理解復(fù)雜文本。與基線模型對(duì)比HEPA更加適合復(fù)雜文本下的三元組抽取,穩(wěn)定性更佳。
本文設(shè)計(jì)了一種融合混合嵌入與關(guān)系嵌入的三元組聯(lián)合抽取方法HEPA,能夠降低嵌入過程中由分詞錯(cuò)誤引起的語義信息缺失問題,在復(fù)雜的文本環(huán)境中取得較好的效果,同時(shí)對(duì)抽取重疊三元組的效果有顯著提升。該模型通過字嵌入結(jié)合詞嵌入的混合嵌入方法融入更多的語義信息,減少由于分詞錯(cuò)誤造成的誤差,在將標(biāo)簽信息加入文本輸入中,提高了關(guān)系匹配精度,在實(shí)體匹配層中添加了注意力機(jī)制,多維度地捕獲文本語義特征,在實(shí)體關(guān)系匹配過程中加入實(shí)體位置注意力機(jī)制,為頭實(shí)體匹配最合適的尾實(shí)體。將HEPA與其他模型進(jìn)行對(duì)比實(shí)驗(yàn)后,發(fā)現(xiàn)HEPA能夠較好地解決重疊三元組問題,相比于其他基線模型在性能上有較大提升。
[1] 李冬梅, 張揚(yáng), 李東遠(yuǎn), 等. 實(shí)體關(guān)系抽取方法研究綜述[J]. 計(jì)算機(jī)研究與發(fā)展, 2020, 57(7): 1424-1448.
LI D M, ZHANG Y, LI D Y, et al. Overview of entity relationship extraction methods[J]. Computer Research and Development, 2020, 57(7): 1424-1448.
[2] ZENG D J, LIU K, LAI S W, et al. Relation classification via convolutional deep neural network[C]//Proceedings of International Conference on Computational Linguistics. [S.l.:s.n.], 2014.
[3] XU K, FENG Y, HUANG S, et al. Semantic relation classification via convolutional neural networks with simple negative sampling[J]. Computer Science, 2015, 71(7): 941-9.
[4] SOCHER R, HUVAL B, MANNING C D, et al. Semantic compositionality through recursive matrix-vector spaces[C]//Proceedings of Joint Conference on Empirical Methods in Natural Language Processing & Computational Natural Language Learning. Hongkong: EMNLP Press, 2012.
[5] LI F, ZHANG M, FU G, et al. A Bi-LSTM-RNN model for relation classification using low-cost sequence features: 10.48550/arXiv.1608.07720[P]. 2016.
[6] SU Z, JIANG J. Hierarchical gated recu0rrent unit with semantic attention for event prediction[J]. Future Internet, 2020, 12(2): 39.
[7] VASHISHTH S, JOSHI R, PRAYAGA S S, et al. RESIDE: improving distantly-supervised neural relation extraction using side information[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. [S.l.:s.n.], 2018.
[8] 楊帥, 王瑞琴, 馬輝. 基于多通道的邊學(xué)習(xí)圖卷積網(wǎng)絡(luò)[J]. 電信科學(xué), 2022, 38(9): 95-104. YANG S, WANG R Q, MA H. Multi-channel based edge-learning graph convolutional network[J]. Telecommunications Science, 2022, 38(9): 95-104.
[9] 李昊, 陳艷平, 唐瑞雪, 等. 基于實(shí)體邊界組合的關(guān)系抽取方法[J]. 計(jì)算機(jī)應(yīng)用, 2022, 42(6): 6.
LI H, CHEN Y P, TANG R X, et al. Relationship extraction method based on entity boundary combination [J]. Computer Applications, 2022, 42 (6): 6.
[10] ZHONG Z, CHEN D. A frustratingly easy approach for entity and relation extraction[C]//Proceedings of the North American Chapter of the Association for Computational Linguistics. [S.l.:s.n.], 2021.
[11] MIWA M, BANSAL M. End-to-end relation extraction using LSTMs on sequences and tree structures[J]. arXiv preprint, arXiv: 1601.00770, 2016.
[12] KATIYAR A, CARDIE C. Going out on a limb: joint extraction of entity mentions and relations without dependency trees[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). [S.l.:s.n.], 2017: 917-928.
[13] ZHENG S, F WANG, BAO H, et al. Joint extraction of entities and relations based on a novel tagging scheme[J]. arXiv preprint, arXiv:1706.05075, 2017.
[14] ZENG X, ZENG D, HE S, et al. Extracting relational facts by an end-to-end neural model with copy mechanism[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). [S.l.:s.n.], 2018: 506-514.
[15] FU T J, MA W Y. GraphRel: modeling text as relational graphs for joint entity and relation extraction[C]//Meeting of the Association for Computational Linguistics. [S.l.:s.n.], 2019: 1409-1418.
[16] DUAN G, MIAO J, HUANG T, et al. A relational adaptive neural model for joint entity and relation extraction[J]. Frontiers in Neurorobotics, 2021(15): 635492.
[17] WEI Z, SU J, WANG Y, et al. A novel cascade binary tagging framework for relational triple extraction[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. [S.l.:s.n.], 2020: 1476-1488.
[18] WANG Y, YU B, ZHANG Y, et al. TPLinker: single-stage joint extraction of entities and relations through token pair linking[J]. arXiv preprint, arXiv:2010.13415, 2020.
[19] 田佳來, 呂學(xué)強(qiáng), 游新冬, 等. 基于分層序列標(biāo)注的實(shí)體關(guān)系聯(lián)合抽取方法[J]. 北京大學(xué)學(xué)報(bào):自然科學(xué)版, 2021, 57(1): 53-60.
TIAN J L, LYU X Q, YOU X D, et al. A joint extraction method of entity relations based on hierarchical sequence annotation[J]. Journal of Peking University (Natural Science Edition), 2021, 57(1): 53-60
[20] 苗琳, 張英俊, 謝斌紅, 等. 基于圖神經(jīng)網(wǎng)絡(luò)的聯(lián)合實(shí)體關(guān)系抽取[J]. 計(jì)算機(jī)應(yīng)用研究, 2022, 39(2): 424-431.
MIAO L, ZHANG Y J, XIE B H, et al. Joint entity relationship extraction based on graph neural network[J]. Proceedings of the Computer Application Research, 2022, 39 (2): 424-431
[21] 王紅, 吳燕婷. 基于多跳注意力的實(shí)體關(guān)系聯(lián)合抽取方法及應(yīng)用研究[J]. 太原理工大學(xué)學(xué)報(bào), 2022, 53(1): 63-70.
WANG H, WU Y T. Joint extraction of entity relationships based on multi-hop attention and its application [J]. Proceedings of the Journal of Taiyuan University of Technology, 2022, 53(1): 63-70.
[22] DEVLIN J, CHANG M W, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint, arXiv:1810.04805, 2018.
[23] ZENG D, ZHANG H, LIU Q. CopyMTL: copy mechanism for joint extraction of entities and relations with multi-task learning[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(5): 9507-9514.
[24] NAYAK T, NG H T. Effective modeling of encoder-decoder architecture for joint entity and relation extraction[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(5): 8528-8535.
[25] REN X, WU Z, HE W, et al. CoType: joint extraction of typed entities and relations with knowledge bases[J]. Proceedings of the 26th International Conference on World Wide Web. New York: ACM Press, 2017: 1015-1024.
[26] GIANNIS B, JOHANNES D, THOMAS D, et al. Joint entity recognition and relation extraction as a multi-head selection problem[J]. Expert Systems with Application, 2018, 114(11): 34-45.
[27] WEI Z, SU J, WANG Y, et al. A novel hierarchical binary tagging framework for relational triple extraction[J]. arXiv preprint, arXiv:1909.03227v4, 2020.
A triple joint extraction method combining hybrid embedding and relational label embedding
DAI Jianfeng, CHEN Xingyu, DONG Ligang, JIANG Xian
Zhejiang Gongshang University, Hangzhou 310018, China
The purpose of triple extraction is to obtain relationships between entities from unstructured text and apply them to downstream tasks. The embedding mechanism has a great impact on the performance of the triple extraction model, and the embedding vector should contain rich semantic information that is closely related to the relationship extraction task. In Chinese datasets, the information contained between words is very different, and in order to avoid the loss of semantic information problems generated by word separation errors, a triple joint extraction method combining hybrid embedding and relational label embedding (HEPA) was designed, and a hybrid embedding means that combines letter embedding and word embedding was proposed to reduce the errors generated by word separation errors. A relational embedding mechanism that fuses text and relational labels was added, and an attention mechanism was used to distinguish the relevance of entities in a sentence with different relational labels, thus improving the matching accuracy. The method of matching entities with pointer annotation was used, which improved the extraction effect on relational overlapping triples. Comparative experiments are conducted on the publicly available DuIE dataset, and the1 value of HEPA is improved by 2.8% compared to the best performing baseline model (CasRel).
triple extraction, relational embedding, BERT, attention mechanism, pointer annotation
TP393
A
10.11959/j.issn.1000-0801.2023021
戴劍鋒(1997-),男,浙江工商大學(xué)信息與電子工程學(xué)院(薩塞克斯人工智能學(xué)院)碩士生,主要研究方向?yàn)橹腔劢逃?、自然語言處理。
陳星妤(1999-),女,浙江工商大學(xué)信息與電子工程學(xué)院(薩塞克斯人工智能學(xué)院)碩士生,主要研究方向?yàn)橹腔劢逃?、自然語言處理。
董黎剛(1973-),男,博士,浙江工商大學(xué)信息與電子工程學(xué)院(薩塞克斯人工智能學(xué)院)黨委書記、教授、博士生導(dǎo)師,浙江省計(jì)算機(jī)學(xué)會(huì)理事,主要研究方向?yàn)樾乱淮W(wǎng)絡(luò)和分布式系統(tǒng)。
蔣獻(xiàn)(1988-),男,浙江工商大學(xué)信息與電子工程學(xué)院(薩塞克斯人工智能學(xué)院)講師、實(shí)驗(yàn)員,主要研究方向?yàn)橹腔劢逃椭腔劬W(wǎng)絡(luò)。
2022-07-12;
2023-01-20
董黎剛,donglg@zjgsu.edu.cn
國(guó)家社會(huì)科學(xué)基金資助項(xiàng)目(No.17BYY090);浙江省重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(No.2017C03058);浙江省“尖兵”“領(lǐng)雁”研發(fā)攻關(guān)計(jì)劃項(xiàng)目(No.2023C03202)
The National Social Science Foundation of China (No.17BYY090), Zhejiang Province Key Research and Development Program (No.2017C03058), Zhejiang Province “Top Soldiers” and “Leading Geese” Project (No.2023C03202)