李昊,陳艷平*,唐瑞雪,黃瑞章,秦永彬,王國蓉,譚曦
基于實體邊界組合的關系抽取方法
李昊1,2,陳艷平1,2*,唐瑞雪1,2,黃瑞章1,2,秦永彬1,2,王國蓉1,2,譚曦3
(1.貴州大學 計算機科學與技術學院,貴陽 550025; 2.公共大數據國家重點實驗室(貴州大學),貴陽 550025; 3.貴州青朵科技有限公司,貴陽 550025)(*通信作者電子郵箱ypench@gmail.com)
關系抽取旨在從文本中抽取實體與實體之間的語義關系。作為關系抽取的上層任務,實體識別所產生的錯誤將擴散至關系抽取,從而導致級聯錯誤。與實體相比,實體邊界粒度小且具有二義性,更易識別。因此,提出一種基于實體邊界組合的關系抽取方法,通過跳過實體,對實體邊界兩兩組合來進行關系抽取。由于邊界性能高于實體性能,所以錯誤擴散的問題得到了緩解;并且通過特征組合的方法將實體類型特征和位置特征加入模型中,性能得到了進一步提高,再次減輕了錯誤擴散帶來的影響。實驗結果表明,所提方法在ACE 2005英文數據集的宏平均F1值優(yōu)于表格-序列編碼器方法8.61個百分點。
關系抽取;實體識別;級聯錯誤;實體邊界組合;特征組合
在自然語言處理中,關系抽取扮演著一個十分重要的角色,其目的是從句子中識別出兩個不同的實體之間的關系。例如,“……朱婉清目前是從洛杉磯跑到東岸的紐約……”這個句子中,“朱婉清”和“東岸的紐約”分別為該句中不同的兩個實體。實體關系抽取任務就是識別出“朱婉清”和“東岸的紐約”兩個實體間存在的語義關系,即“地理位置關系(PHYS)”。
在實際應用中,關系抽取具有十分重要的意義。例如:蛋白質關系抽取研究對于生命科學各領域的研究具有廣泛的應用價值,從生物醫(yī)學文獻中抽取蛋白質(基因)相互作用關系對蛋白質知識網絡的建立、蛋白質關系的預測、新藥的研制等均具有重要的意義。除此之外,關系抽取對于知識圖譜[1]、問答系統(tǒng)[2]的應用等也具有十分重要的意義。
目前來說,傳統(tǒng)的方法是基于管道方式進行命名實體識別和實體關系抽取,該方式將命名實體識別和實體關系抽取看成兩個獨立的子任務,遵循著先進行命名實體識別,然后進行實體關系抽取的流程。如果命名實體識別階段出現錯誤,可能會導致錯誤擴散,使得實體關系抽取任務無法充分利用兩個任務之間的依存信息,最后影響實體關系抽取的性能。
經研究發(fā)現,Chen等[3]提出了一種基于深度邊界組合的嵌套命名實體識別模型,它在ACE 2005中文數據集上識別開始邊界和結束邊界的宏平均F1值分別達到了94.06%和94.88%,而最終的實體識別宏平均F1值則為80.12%,表明實體邊界識別的性能高于實體識別的性能,識別實體的邊界相對于直接識別實體來說更加容易;并且邊界相對于實體粒度更小,如果接受“B-O(開始邊界-其他)”(或“E-O(結束邊界-其他)”)編碼,不太可能造成它們之間的歧義;其次,邊界更多地依賴于局部特征,自動識別它們將會更加容易:所以使用邊界代替實體進行關系抽取將更有利于預測關系的類別。
對于上文中提出的錯誤傳播等問題,其主要原因在于實體性能較低,導致了錯誤傳播;而邊界性能較實體性能更高,可以很好地緩解錯誤傳播的問題,并且經Chen等[4]提出的方法可知,通過加入特征可以幫助提升關系抽取的性能,從而進一步緩解錯誤。因此,本文將識別出的實體邊界和特征應用在下一步的關系抽取中。
本文的主要工作包括:
1)提出了一種邊界組合的關系抽取方法,跳過實體直接使用實體邊界進行關系抽?。?/p>
2)本文方法結合了Chen等[5]提出的多通道深度神經網絡模型思想以及特征組合的方法以減輕錯誤擴散對關系抽取的影響;
3)在ACE 2005英文數據集上驗證了該方法的宏平均F1值優(yōu)于表格-序列編碼器方法[6]。
有監(jiān)督的關系抽取方法包含了管道學習和聯合學習兩種[7],其中管道學習方法是指在先進行實體識別,再進行關系抽?。宦摵蠈W習方法主要是基于神經網絡的端到端模型,同時完成實體的識別和實體間關系的抽取。
基于管道的方法進行關系抽取的主要流程可以描述為:針對已經標注好目標實體對的句子進行關系抽取,最后把存在實體關系的三元組作為預測結果輸出。Hashimoto等[8]提出了一個基于句法樹的遞歸神經網絡;Zeng等[9]提出了一種使用卷積神經網絡(Convolutional Neural Network, CNN)模型進行關系抽取的方法;Wang等[10]提出的CNN架構依賴于一種新穎的多層次注意力機制來捕獲對指定實體的注意力和指定關系的池化注意力;Li等[11]提出了一種基于低成本序列特征的雙向長短期記憶循環(huán)神經網絡(Bi-directional Long Short-Term Memory-Recurrent Neural Network, Bi-LSTM-RNN)模型。但是,基于管道的方法存在錯誤傳播,忽視了兩個子任務之間存在的關系,會產生冗余信息等問題,影響了最終的分類性能。因此,提高第一個子任務的準確率和宏平均F1值將是減輕錯誤傳播等問題的重要方法。
基于聯合學習的方法能夠利用實體和關系間緊密的交互信息,同時抽取實體并分類實體對的關系,很好地解決了管道方法所存在的問題。Miwa等[12]首次將神經網絡的方法用于聯合表示實體和關系;Li等[13]將Miwa的模型用于提取細菌和細菌位置之間存在的“Live-In”關系;Katiyar等[14]首次將深度雙向長短期記憶(Bi-directional Long Short-Term Memory,Bi-LSTM)神經網絡序列標注的方法用于聯合提取觀點實體和IS-FROM、ISABOUT關系;之后,Katiyar等[15]在自己模型的基礎上,首次將注意力機制與Bi-LSTM一起用于聯合提取實體和分類關系;Zheng等[16]提出了一種基于新的標注策略的實體關系抽取方法;Li等[17]提出了一種增量聯合框架;Zhang等[18]提出了一種基于全局優(yōu)化的端到端關系抽取模型;Li等[19]提出了一種新的實體關系提取任務范式,將任務轉換為多輪問答的問題;Wang等[6]提出了一種新的表序列編碼器。聯合學習方法很好地改善了管道方法中存在的錯誤累積傳播問題、忽視兩個子任務間關系依賴的問題以及冗余實體的問題。
針對傳統(tǒng)關系抽取任務因為命名實體識別任務階段得到的實體錯誤率大導致實體關系抽取任務階段受到錯誤擴散影響大的問題,本文根據關系抽取任務的特點,利用兩實體的開始邊界或結束邊界代替?zhèn)鹘y(tǒng)的兩實體對句子進行切分,跳過實體直接用邊界識別關系,進而獲得更好的實驗性能。
本文中關系抽取分為兩個階段,分別為邊界識別階段和關系抽取階段。其中,邊界識別階段用邊界識別模型來識別實體邊界,關系抽取階段利用邊界識別模型識別出來的實體邊界通過關系抽取模型識別實體間的關系。
在邊界識別階段,本文根據Chen等[3]提出的一種基于深度邊界組合的嵌套命名實體識別模型的方法采用兩個雙向長短期記憶條件隨機場(Bi-directional Long Short-Term Memory-Conditional Random Field,Bi-LSTM-CRF)模型分別識別實體的開始邊界和結束邊界,它們均由字嵌入(Embedding)層、Bi-LSTM層和CRF層組成,其中邊界識別模型如圖1所示。在Embedding層中本文通過BERT(Bidirectional Encoder Representations from Transformers)預訓練技術將每個字轉化為低維稠密向量,以此來克服淺層模型無法有效利用外部資源的缺點;在Bi-LSTM層,為了捕獲上下文信息,本文利用了其可長度依賴和避免梯度消失或爆炸的能力;最后在CRF層,本文在此獲取最大概率轉移路徑,從而得到識別出來的實體邊界以及實體類型,例如“B-PER(開始邊界-人名實體)”。其中Chen等[3]提出的方法主要貢獻在于將邊界識別以及邊界組合用于嵌套實體識別,而本文主要將邊界識別模型用于邊界識別從而進行關系抽取,并借助在該階段得到的實體類型特征提高關系抽取的性能。
圖1 邊界識別模型
圖2 關系抽取模型
2.2.1 實體邊界組合
2.2.2 特征組合
該部分是利用特征組合方法生成帶有句子結構信息的復合特征。在文本中存在著許多能被應用到關系抽取任務上的特征,但經研究發(fā)現,關系抽取時如果只使用某一種特征并不能起到很好的效果,Chen等[4]提出了一種集合空間模型(Set Space Model, SSM),利用語言特征將句子的特征分組到不同的集合中,該研究的實驗表明特征組合對關系抽取任務是有效的。特征組合的方法通過將不同的特征相結合,使之生成呈現偏態(tài)分布的復合特征,會更有利于預測不同的關系類型,因此,特征組合對關系抽取任務有著重要的作用。在邊界識別模型進行實體邊界識別的過程中可以同時得到該實體邊界代表實體的實體類型特征,結合實體邊界的位置可以得到位置特征。
特征對于關系抽取任務來說十分重要,能夠使其達到更好的抽取效果。本文把在句子中不能被再分割的特征稱為原子特征,這些原子特征就包括了實體類型特征;而且這些原子特征可以通過與其他特征組合生成新的復合特征用于關系抽取,以提高關系抽取的性能。
基于以上分組的特征集,本文采用了兩種復合特征:
2.2.3 CNN模型
在CNN模型的卷積層中,卷積運算表示為:
最后再由softmax層輸出預測類別的概率分布,它可以表示為:
總的來說,本文關系抽取模型可以被表示為:
實體邊界組合方法利用命名實體識別階段識別出來的實體邊界,將一個句子中不同的兩個實體的實體開始邊界(或結束邊界)進行組合,再通過組合后的實體邊界將句子分成三個部分作為CNN模型的輸入。在本文的關系抽取模型中,為了有效地融合句子結構和語義特征,復合特征將會被直接映射成對應的向量表示,不會經過卷積層和池化層,而是直接與最大池化層輸出的句子向量表示拼接,拼接后再一起輸入全連接層中。為了防止過擬合,本文將Dropout層添加到了關系抽取模型的全連接層中。在全連接層之后的softmax函數將通過關系類型的概率分布來得到最終的關系預測結果。
實驗的訓練集采用語言數據聯盟(LDC)發(fā)布的ACE 2005語料庫,包括ACE 2005中文數據集和ACE 2005英文數據集。該數據集對實體識別、關系抽取、事件抽取等經典任務進行了標注,目標是開發(fā)自動內容提取技術。
ACE 2005數據集中包含6類實體關系類型:PHYS(地理位置關系)、ART(制造使用關系)、GEN-AFF(類屬關系)、ORG-AFF(組織結構從屬關系)、PART-WHOLE(局部整體關系)、PER-SOC(人物關系)。其中,中文數據集一共包含了633篇文檔,英文數據集一共包含了599篇文檔。
將ACE 2005中文數據集按照6∶2∶2的比例切分為訓練集、驗證集和測試集;將ACE 2005英文數據集根據Miwa等[12]文章中的設置,按照351∶80∶80的比例切分為訓練集、驗證集和測試集。其中訓練集由中文數據集和英文數據集中已標注的關系實例和通過已標注的實體對組合生成的負例組成;測試集和驗證集則采用邊界識別后得到的結果進行邊界組合生成。
3.4.1 實體邊界組合方法的有效性驗證
利用邊界識別的方法得到實體開始邊界、實體結束邊界以及經過邊界組合后的結果如表1所示。
表1 ACE 2005數據集上的邊界識別結果 單位: %
由表1可得知,在ACE 2005中文數據集和ACE 2005英文數據集上,開始邊界和結束邊界的宏平均F1值和準確率遠高于邊界組合后,因此本文將利用邊界識別后的實體邊界代替實體進行關系抽取任務。
表2 ACE 2005數據集不同復合特征對開始邊界和結束邊界性能的影響 單位: %
由表2可知:
1)實體開始邊界與實體結束邊界應用在關系抽取上時,準確率與宏平均F1值相差不大。原因在于邊界識別后開始邊界和結束邊界的邊界識別性能相差不大,并且開始邊界和結束邊界在作用于句子上時,考慮到的結構信息和語義信息也無太大差別。
2)在ACE 2005中文數據集和英文數據集進行同樣操作時,得到的結果相差卻很大,宏平均F1值最大相差達到13.95個百分點。原因在于ACE 2005中文數據集邊界識別的性能高于ACE 2005英文數據集,最重要的是中文的結構是由單個的漢字組成的,能夠為每個漢字構建一個查找表,而英文則是由不同的語法構成的,不能夠為每個單詞構建一個查找表。
3.4.2 不同研究方法的性能對比
采用同樣的實驗設置、通過與同樣使用ACE 2005英文數據集的關系抽取方法進行對比來驗證本文方法的可行性,宏平均F1值對比結果如表3所示,其中:Entity表示實體識別部分性能;Relation則代表的是關系抽取的性能。
表3 不同方法的性能對比 單位: %
針對關系抽取的特點,本文提出了一種邊界組合的關系抽取方法,該方法通過識別得到的實體邊界替代實體進行關系抽取,并結合多通道深度神經網絡模型及特征組合來獲取句子語義信息和結構信息。實驗結果表明本文方法相比基于神經網絡的關系抽取方法有明顯優(yōu)勢。
對于實體邊界方法,本文僅將此用于管道式的關系抽取方法,未來可以嘗試將實體邊界用于聯合學習的方法中,同時進行實體識別和關系抽取的任務,轉換為端到端的模型。
[1] 劉嶠,李楊,段宏,等.知識圖譜構建技術綜述[J]. 計算機研究與發(fā)展,2016,53(3):582-600.(LIU Q, LI Y, DUAN H, et al. Knowledge graph construction techniques[J]. Journal of Computer Research and Development, 2016, 53(3): 582-600.)
[2] 徐健,張智雄,吳振新.實體關系抽取的技術方法綜述[J]. 現代圖書情報技術,2008,24(8):18-23.(XU J, ZHANG Z X, WU Z X. Review on techniques of entity relation extraction[J]. New Technology of Library and Information Service, 2008, 24(8): 18-23.)
[3] CHEN Y P, WU Y F, QIN Y B, et al. Recognizing nested named entity based on the neural network boundary assembling model[J]. IEEE Intelligent Systems, 2020, 35(1): 74-81.
[4] CHEN Y P, WANG G R, ZHENG Q H, et al. A set space model to capture structural information of a sentence[J]. IEEE Access, 2019, 7:142515-142530.
[5] CHEN Y P, WANG K, YANG W Z, et al. A multi-channel deep neural network for relation extraction[J]. IEEE Access, 2020, 8: 13195-13203.
[6] WANG J, LU W. Two are better than one: joint entity and relation extraction with table-sequence encoders[C]// Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2020: 1706-1721.
[7] 鄂海紅,張文靜,肖思琪,等. 深度學習實體關系抽取研究綜述[J]. 軟件學報, 2019, 30(6):1793-1818.(E H H, ZHANG W J, XIAO S Q, et al. Survey of entity relationship extraction based on deep learning[J]. Journal of Software, 2019, 30(6):1793-1818.)
[8] HASHIMOTO K, MIWA M, TSURUOKA Y, et al. Simple customization of recursive neural networks for semantic relation classification[C]// Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2013: 1372-1376.
[9] ZENG D J, LIU K, LAI S W, et al. Relation classification via convolutional deep neural network[C]// Proceedings of the 25th International Conference on Computational Linguistics: Technical Papers. Stroudsburg, PA: ACL, 2014: 2335-2344.
[10] WANG L L, CAO Z, DE MELO G, et al. Relation classification via multi-level attention CNNs[C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: ACL, 2016: 1298-1307.
[11] LI F, ZHANG M S, FU G H, et al. A Bi-LSTM-RNN model for relation classification using low-cost sequence features[EB/OL]. [2021-10-28].https://arxiv.org/pdf/1608.07720.pdf.
[12] MIWA M, BANSAL M. End-to-end relation extraction using LSTMs on sequences and tree structures[C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: ACL, 2016: 1105-1116.
[13] LI F, ZHANG M S, FU G H, et al. A neural joint model for extracting bacteria and their locations[C]// Proceedings of the 2017 Pacific-Asia Conference on Knowledge Discovery and Data Mining, LNCS 10235/LNAI 10235. Cham: Springer, 2017: 15-26.
[14] KATIYAR A, CARDIE C. Investigating LSTMs for joint extraction of opinion entities and relations[C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: ACL, 2016: 919-929.
[15] KATIYAR A, CARDIE C. Going out on a limb: joint extraction of entity mentions and relations without dependency trees[C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: ACL, 2017: 917-928.
[16] ZHENG S C, WANG F, BAO H Y, et al. Joint extraction of entities and relations based on a novel tagging scheme[C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: ACL, 2017: 1227-1236.
[17] LI Q, JI H. Incremental joint extraction of entity mentions and relations[C]// Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: Association for Computational Linguistics, 2014: 402-412.
[18] ZHANG M S, ZHANG Y, FU G H. End-to-end neural relation extraction with global optimization[C]// Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2017: 1730-1740.
[19] LI X Y, YIN F, SUN Z J, et al. Entity-relation extraction as multi-turn question answering[C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2019: 1340-1350.
Relation extraction method based on entity boundary combination
LI Hao1,2, CHEN Yanping1,2*, TANG Ruixue1,2, HUANG Ruizhang1,2, QIN Yongbin1,2, WANG Guorong1,2, TAN Xi3
(1,,550025,;2(),550025,;3,550025,)
Relation extraction aims to extract the semantic relationships between entities from the text. As the upper-level task of relation extraction, entity recognition will generate errors and spread them to relation extraction, resulting in cascading errors. Compared with entities, entity boundaries have small granularity and ambiguity, making them easier to recognize. Therefore, a relationship extraction method based on entity boundary combination was proposed to realize relation extraction by skipping the entity and combining the entity boundaries in pairs. Since the boundary performance is higher than the entity performance, the problem of error propagation was alleviated; in addition, the performance was further improved by adding the type features and location features of entities through the feature combination method, which reduced the impact caused by error propagation. Experimental results on ACE 2005 English dataset show that the proposed method outperforms the table-sequence encoders method by 8.61 percentage points on Macro average F1-score.
relation extraction; entity recognition; cascading error; entity boundary combination; feature combination
This work is partially supported by National Natural Science Foundation of China (62066008), Key Project of Science and Technology Foundation of Guizhou Province (Qianke Hejichu [2020] 1Z055).
LI Hao, born in 1996, M. S. candidate. His research interests include natural language processing, relation extraction.
CHEN Yanping, born in 1980, Ph. D., associate professor. His research interests include artificial intelligence, natural language processing.
TANG Ruixue, born in 1987, Ph. D. candidate. Her research interests include natural language processing.
HUANG Ruizhang, born in 1979, Ph. D., professor, Her research interests include data mining, text mining, machine learning, information retrieval.
QIN Yongbin, born in 1980, Ph. D., professor, His research interests include intelligent computing, machine learning, algorithm design.
WANG Guorong, born in 1995, Ph. D. candidate. Her research interests include natural language processing.
TP391.1
A
1001-9081(2022)06-1796-06
10.11772/j.issn.1001-9081.2021091747
2021?10?12;
2021?11?11;
2021?11?17。
國家自然科學基金資助項目(62066008);貴州省科學技術基金重點項目(黔科合基礎[2020]1Z055)。
李昊(1996—),男,四川成都人,碩士研究生,CCF會員,主要研究方向:自然語言處理、關系抽?。魂惼G平(1980—),男,貴州長順人,副教授,博士,CCF會員,主要研究方向:人工智能、自然語言處理;唐瑞雪(1987—),女,貴州貴陽人,博士研究生,主要研究方向:自然語言處理;黃瑞章(1979—),女,天津人,教授,博士,CCF會員,主要研究方向:數據挖掘、文本挖掘、機器學習、信息檢索;秦永彬(1980—),男,山東招遠人,教授,博士,CCF會員,主要研究方向:智能計算、機器學習、算法設計;王國蓉(1995—),女,貴州甕安人,博士研究生,主要研究方向:自然語言處理。