張玉杰 李勁華 趙俊莉
摘要:針對傳統(tǒng)簡歷實體識別存在一詞多義和訓練時間長的問題,提出了一種新的簡歷命名實體識別模型。通過RoBERTa預訓練模型獲取具有上下文關系的字向量,結合BiGRU和多頭注意力機制(Multi-head Attention, MHA)層提取全局信息和局部相關性信息,采用CRF層修正解碼確定最終標簽,同時裁剪RoBERTa預訓練模型。實驗表明,該模型在中文電子簡歷數據集取得95.97%的F1值,高于其他主流模型,且相較于未剪枝的模型提升0.43%,減少1/5訓練時間。
關鍵詞:命名實體識別;RoBERTa預訓練模型;多頭注意力機制;條件隨機場
中圖分類號:TP391 文獻標志碼:A
隨著信息與科技時代到來,電子簡歷逐步替代紙質簡歷,如何從非結構化文本中提取重要信息成為信息抽取領域亟待解決的關鍵問題[1]。命名實體識別作為自然語言處理的一項基本技術,可從結構化和非結構化數據中提取需要的實體。公司通過命名實體識別技術提取簡歷中學歷、工作單位、職位等個人信息,無需詳看簡歷。命名實體識別相關研究經歷了基于規(guī)則、機器學習和深度學習三個階段[2]?;谝?guī)則的方法依賴人工制定,可根據特定領域字典和句法—詞法模型設計規(guī)則[3]。當字典詳盡時,基于規(guī)則的方法準確率較高,但需要特殊專業(yè)領域專家制定規(guī)則,不容易遷移至其他專業(yè)領域[4]。命名實體識別通過機器學習轉換為序列標注任務,常用方法包括隱馬爾可夫模型[5]、最大熵模型[6]和條件隨機場[7]。機器學習相較于規(guī)則方法,前者實體識別效果明顯提升,但仍需人工提取特征[3]。隨著深度學習興起,使用神經網絡解決命名實體識別問題成為研究熱點。深度學習不依賴人工提取特征和專業(yè)領域知識,能基于神經網絡自主學習和抽取特征。BiLSTM-CRF[8]模型使用雙向LSTM提取長遠距離信息,采用CRF模型修正解碼,成為命名實體識別經典模型之一。由于LSTM不能并行計算,IDCNN[9]改進CNN模型,以跳躍步長方法增大感受野,解決了傳統(tǒng)RNN模型不能并行運算,訓練時間長的問題。相較于單一基于字符的方法,詞匯信息融入基于字符可提升識別效果,如融合LSTM輸入層字符和所匹配到的字符信息[10]、基于單詞—字符圖卷積網絡(WC-GCN)[11]。為獲取多級信息,可建立具有段級信息和詞級信息模塊化交互網絡模型用于NER[12]。以上神經網絡字向量和字符為一一對應,無法解決一詞多義問題。大規(guī)模語料訓練模型如ELMO[13]、BERT[14]、ALBERT[15]、RoBERTa[16]等逐步替代了以Word2vec[17]為主傳統(tǒng)預訓練模型。預訓練模型和深度學習模型相結合,可有效提升命名實體識別準確率[18-20]。針對細粒度實體識別,可基于BERT模型和BiLSTM-CRF模型的結合[21]。但預訓練模型參數過大,造成訓練時間長。綜上,本文基于BiGRU-CRF模型,添加RoBERTa預訓練模型建立上下文關系,引入多頭注意力機制提取局部相關特征,通過裁剪RoBERTa以減少訓練時間,提升識別效果。
1 模型構建
新建模型由RoBERTa嵌入層,BiGRU長遠距離特征提取層,MHA局部特征提取層和CRF特征解碼層構成(圖1)。RoBERTa層通過深層transformer架構獲取動態(tài)字向量;BiGRU層采用帶有重置門和更新門的雙向門控單元提取長遠距離特征;MHA層通過拼接多個子空間的自注意力提取局部相關特征;CRF層通過計算轉移矩陣,增加標簽間約束關系,獲得最終標簽。
1.1 RoBERTa嵌入層
傳統(tǒng)Word2vec和GloVe預訓練模型所得字向量和字符為一一對應,同一字符無法根據不同語境生成不同字向量。但RoBERTa[16]模型采用深層雙向transformer架構能夠充分獲取輸入文本語法和語義信息,根據上下文語境不同,生成動態(tài)字向量。RoBERTa是BERT的變體,基于BERT模型做如下改進:
(1)動態(tài)掩碼。數據預處理過程中,BERT對輸入文本中的單詞隨機掩碼,屬于靜態(tài)掩碼方式。模型訓練階段中RoBERTa的掩碼位置會實時計算,實現動態(tài)掩碼,提高數據復用效率。
(2)舍棄預測下一個句子(Next Sentence Prediction, NSP)任務。兩個句子通過BERT拼接為一個句子對,待輸入模型后,通過NSP任務預測兩個句子關系。由于該方法對于部分下游任務并無關聯(lián),RoBERTa采用“跨文檔的整句輸入”,舍棄NSP任務。
(3)采用更大的預訓練數據、預訓練步數和批次,提升模型泛化能力。由于原始RoBERT模型參數量大,訓練時間過長,深層transformer架構中不同隱藏層在預訓練過程中所學信息不同,對于下游任務影響也不同[15],基于12層RoBERTa-base剪枝RoBERTa,以保證識別準確率同時減少訓練時間。
1.2 BiGRU長遠距離特征提取層
LSTM能夠提取長遠距離特征,且不容易出現梯度彌散現象,但模型結構比較復雜,參數量較大。門控制單元[22](GRU)合并LSTM內部狀態(tài)向量和輸出向量,統(tǒng)一為狀態(tài)向量。由LSTM的輸入門、遺忘門和輸出門減少為重置門和更新門,降低了模型復雜度(圖2)。
重置門通過門控向量gs控制上一個時間戳ht-1進入當前GRU的信息量
其中,sigmoid和tanh為激活函數;Ws和Wh為重置門權重矩陣;bs和bh為偏置項;xt為當前時間戳輸入向量。
更新門控制上一個時間戳ht-1和重置門Ht輸出對于新狀態(tài)向量ht的影響
其中,Wr為更新門權重矩陣,br為偏置項。單向GRU只能捕獲序列歷史信息,而命名實體識別任務中,實體標簽和該實體上下文有關。因此,選取雙向門控單元(BiGRU)提取上下文信息。
1.3 MHA局部特征提取層
命名實體識別過程中,為識別句子局部相關特征,需加入自注意力機制。自注意力機制通過計算輸入文本字符之間關聯(lián)度,獲取字符之間聯(lián)系
其中,AttentionQ,K,V為計算所得注意力值;Q表示查詢向量矩陣;K表示鍵向量矩陣;V表示值向量矩陣;dk表示詞向量維度;由BiGRU的輸出分別乘以狀態(tài)矩陣Wq,Wk,Wv計算得Q,K,V。通過QKT計算查詢向量和鍵向量之間相似度,除dk以防結果過大,添加Softmax歸一化處理,乘以值向量得最終注意力值。
為捕捉多個維度特征,采取多頭注意力機制。將Q,K,V線性映射,形成多個子空間,拼接計算結果
其中,headj表示第j個注意力頭注意力計算結果;Concat表示拼接多個head;W為權重矩陣。
1.4 CRF解碼層
命名實體識別中標簽之間具有連續(xù)關系,如“I-NAME”只能標在“B-NAME”和“I-NAME”之后,而多頭注意力層只能對當前狀態(tài)下最大概率標簽完成輸出。條件隨機場(CRF)通過增加標簽間約束關系,有效提高命名實體識別效率。
假設輸入序列X=x1,x2,…,xn,其對應預測標簽序列Y=y1,y2,…,yn,則預測標簽序列得分函數
其中,M表示轉移矩陣;P表示BiGRU輸出的得分矩陣;Myi,yi+1表示標簽i轉移為標簽i+1分數;Pi,yi表示輸入文本第i個字記為yi標簽的分數。基于維特比算法計算得分最高標簽序列作為最優(yōu)標簽序列
其中,y表示得分最高的標簽序列,Yx表示所有可能標簽序列,表示真實標簽。
2 數據集與評價指標
2.1 數據來源
實驗采用Resume[23]中文電子簡歷數據集,8類實體包括國籍、人名、籍貫、學歷、組織名、專業(yè)名、民族和職位名(表1)。數據集按照8∶1∶1比例劃分為訓練集、驗證集和測試集(表2)。
3 實驗結果與分析
3.1 實驗環(huán)境及參數設置
實驗基于windows11操作系統(tǒng),處理器為R7-4800H@2.9GHz,顯卡為RTX2060(6G),深度學習框架為Pytorch1.5,編譯環(huán)境為python3.6。采用的預訓練模型為RoBERTa-base,輸出向量維度為768維;優(yōu)化器使用Adam,其中學習率為1e-3,Batch_size為64,Dorpout為0.3;最大序列長度為128;MHA頭數為10。
3.2 消融實驗結果與分析
3.2.1 實驗一 為驗證所提原始RoBERTa-BiGRU-MHA-CRF模型有效性以及添加RoBERTa層和MHA層對于模型整體性能的影響,設置BiGRU-CRF、BiGRU-MHA-CRF、RoBERTa-BiGRU-CRF和RoBERTa-BiGRU-MHA-CRF四組消融實驗(表3)。對比BiGRU-CRF模型和BiGRU-MHA-CRF模型,后者F1值提升0.43%,表明添加多頭注意力機制能夠在多個子空間提取局部信息,提升模型性能。對比BiGRU-CRF模型和RoBERTa-BiGRU-CRF模型,后者F1值提升2.99%,表明RoBERTa預訓練模型作為嵌入層字向量表示可充分提取文本間的語義特征,使預訓練所得字向量能夠更好表征不同語境中語義和語法信息。RoBERTa-BiGRU-MHA-CRF模型相較于BiGRU-MHA-CRF模型和RoBERTa-BiGRU-CRF模型F1值分別提升3.30%和0.74%,表明同時添加RoBERTa層和MHA層可提升模型的整體性能。
3.2.2 實驗二 基于RoBERTa-BiGRU-MHA-CRF模型,裁剪RoBERTa預訓練模型,選擇1到12層對比實驗,評價指標見表4。可知,隨著隱藏層數增加,模型識別效果逐步提升,隱藏層數為8時達到最優(yōu),其F1值為95.97%。相較于隱藏層數為12時,單輪訓練時間減少8秒,F1值提升0.42%。相較于RoBERTa-BiGRU-MHA-CRF模型,裁剪模型既可減少訓練時間又能提升性能。由表5可知,國籍、姓名和籍貫這三類實體識別效果最好,P、R和F1值為100%。組織名和職位名識別效果較差,因為這兩類實體邊界過長且存在實體嵌套問題。
3.3 對比實驗
基于Resume數據集,對比新模型和Lattice-lstm、CAN、WC-LSTM等主流模型(表6)。Lattice-lstm模型改進了LSTM模型,可編碼輸入字符序列以及與詞典匹配的所有潛在詞,對比實驗中表現最差,F1值僅為94.46%。CAN模型包括基于字符的CNN和具有全局自注意力的GRU,F1值為94.94%。WC-LSTM模型通過對詞語起始符和結束符添加信息,獲取詞語邊界信息,并編碼詞語信息為固定大小以實現批量訓練,該模型F1值為95.21%。相較于上述模型,本文模型命名實體識別效果最優(yōu),F1值為95.97%。
4 結論
本文提出了一種基于RoBERTa和多頭注意力的簡歷命名實體識別方法。RoBERTa模型作為嵌入層,可生成動態(tài)字向量,解決一詞多義問題;添加多頭注意力機制可提取BiGRU丟失的部分局部相關特征,裁剪RoBERTa模型可減少訓練時間;采用Resume數據集實驗表明,該方法的識別效果高于其他主流模型。由于Resume數據集數據較少,且存在實體嵌套問題,下一步將考慮擴充簡歷數據集研究嵌套實體,提升命名實體識別效果。
參考文獻
[1]王傳濤,丁林楷,楊學鑫,等.基于BERT的中文電子簡歷命名實體識別[J].中國科技論文,2021,16(7):770-775+782.
[2]劉瀏,王東波.命名實體識別研究綜述[J].情報學報,2018,37(3):329-340.
[3]LI J, SUN A X, HAN J L, et al. A survey on deep learning for named entity recognition[J]. IEEE Transactions on Knowledge and Data Engineering, 2020, 34(1): 50-70.
[4]QUIMBAYA A P, MUNERA A S, RIVERA R A G, et al. Named entity recognition over electronic health records through a combined dictionary-based approach[J]. Procedia Computer Science, 2016, 100: 55-61.
[5]俞鴻魁,張華平,劉群,等.基于層疊隱馬爾可夫模型的中文命名實體識別[J].通信學報,2006,27(2):87-94.
[6]陸銘,康雨潔,俞能海.簡約語法規(guī)則和最大熵模型相結合的混合實體識別[J].小型微型計算機系統(tǒng),2012,33(3):537-541.
[7]燕楊,文敦偉,王云吉,等.基于層疊條件隨機場的中文病歷命名實體識別[J].吉林大學學報(工學版),2014,44(6):1843-1848.
[8]HUANG Z H,XU W,YU K. Bidirectional LSTM- CRF models for sequence tagging[DB/OL]. (2015-08-09)[2022-02-26]. https://doi.org/10.48550/arXiv.1508.01991.
[9]STRUBELL E, VERGA P, BELANGER D, et al. Fast and accurate entity recognition with iterated dilated convolutions[C]// 2017 Conference on Empirical Methods in Natural Language Processing. Copenhagen, 2017: 2670-2680.
[10] MA R T, PENG M L, ZHANG Q, et al. Simplify the usage of lexicon in Chinese NER[C]// 58th Annual Meeting of the Association for Computational Linguistics. Online, 2020: 5951-5960.
[11] TANG Z, WAN B Y, YANG L. Word-character graph convolution network for Chinese named entity recognition[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2020, 28: 1520-1532.
[12] LI F, WANG Z, HUI S C, et al. Modularized interaction network for named entity recognition[C]// 59th Annual Meeting of the Association for Computational Linguistics and 11th International Joint Conference on Natural Language Processing. Online, 2021: 200-209.
[13] PETERS M E, NEMANN M, IYYER M, et al. Deep contextualized word representations[C]// 2018 Conference of the North American Chapter of the Association for Computational Linguistics. New Orlean, 2018: 2227-2237.
[14] DEVLIN J, CHANG M W, LEE K, et al. BERT: Pre-traning of deep bidirectional transformers for language understanding[C]// 2019 Conference of the North American Chapter of the Association for Computational Linguistics. Minneapolis, 2019: 4171-4186.
[15] LAN Z Z, CHEN M D, GOODMAN S, et al. ALBERT: A lite bert for self-supervised learning of language representations[DB/OL]. (2019-09-26)[2022-02-26]. https://doi.org/10.48550/arXiv.1909.11942.
[16] LIU Y H, OTT M, GOYAL N, et al. RoBERTa: A robustly optimized bert pretraining approach[DB/OL]. (2019-07-26)[2022-02-26]. https://doi.org/10.48550/arXiv.1907.11692.
[17] MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality[C]// 26th International Conference on Neural Information Processing Systems. New York, 2013: 3111-3119.
[18] 李妮,關煥梅,楊飄,等.基于BERT-IDCNN-CRF的中文命名實體識別方法[J].山東大學學報(理學版),2020,55(1):102-109.
[19] 孫弋,梁兵濤.基于BERT和多頭注意力的中文命名實體識別方法[J/OL].重慶郵電大學學報(自然科學版),2021:1-10[2022-02-26]. http://kns.cnki.net/kcms/detail/50.1181.N.20211209.2010.004.html.
[20] 李正民,云紅艷,王翊臻.基于BERT的多特征融合的醫(yī)療命名實體識別[J].青島大學學報(自然科學版),2021,34(4):23-29.
[21] 任妮,鮑彤,沈耕宇,等.基于深度學習的細粒度命名實體識別研究——以番茄病蟲害為例[J].情報科學,2021,39(11):96-102.
[22] CHUNG J Y, GULCEHRE C, CHO K H, et al. Empirical evaluation of gated recurrent neural networks on sequence modeling[DB/OL]. (2014-12-11)[2022-02-26].https://doi.org/10.48550/arXiv.1412.3555.
[23] ZHANG Y, YANG J. Chinses NER using lattice LSTM[C]// 56th Annual Meeting of the Association for Computational Linguistics. Melbourne, 2018: 1554-1564.
[24] ZHU Y Y, WANG G X. CAN-NER: Convolutional attention network Chinese named entity recognition[C]// 2019 Conference of the North American Chapter of the Association for Computational Linguistics. Minneapolis, 2019: 3384 -3393.
[25] LIU W, XU T G, XU Q H. et al. An encoding strategy based word-character LSTM for Chinese NER[C]// 2019 Conference of the North American Chapter of the Association for Computational Linguistics. Minneapolis, 2019: 2379-2389.
Resume Name Entity Recognition Method Based on
RoBERTa and Multi-head Attention
ZHANG Yu-jie, LI Jin-hua, ZHAO Jun-li
(School of Computer Science and Technology, Qingdao University, Qingdao 266071, China)
Abstract: A new named entity recognition model for resumes was proposed to address the problems of multiple word meanings and long training time in traditional resume entity recognition. The word vectors with contextual relationships were obtained by RoBERTa pre-training model, the global information and local relevance information were extracted by combining BiGRU and Multi-head Attention (MHA) layers. The final labels were determined by corrective decoding using CRF layer, and the RoBERTa pre-training model was cropped at the same time. The experiment shows that the F1 value of the new model in Chinese electronic resume dataset is 95.97%, which is higher than other mainstream models. Compared with the non pruning model, the F1 value of the new model is increased by 0.43% and the training time is reduced by 1/5.
Keywords: named entity recognition; RoBERTa pre-training model; multi-head attention mechanism; conditional random fields
收稿日期:2022-04-14
基金項目:國家自然科學基金(批準號:62172247)資助;山東省重點研發(fā)計劃重大科技創(chuàng)新工程(批準號:2019JZZY020101)資助。
通信作者:李勁華,男,博士,教授,主要研究方向為計算機科學、人工智能等。E-mail: lijh@qdu.edu.cn