李曉騰 勾智楠 高凱
摘 要:針對(duì)傳統(tǒng)命名實(shí)體識(shí)別方法無法有效利用實(shí)體邊界信息的問題,提出一種聯(lián)合實(shí)體邊界檢測(cè)的命名實(shí)體識(shí)別方法,即將實(shí)體邊界檢測(cè)作為輔助任務(wù),增強(qiáng)模型對(duì)實(shí)體邊界的判斷能力,進(jìn)而提升模型對(duì)實(shí)體的識(shí)別效果。首先,利用Bert預(yù)訓(xùn)練語言模型對(duì)原始文本進(jìn)行特征嵌入獲取詞向量,并引入自注意力機(jī)制增強(qiáng)詞對(duì)上下文信息的利用;其次,在命名實(shí)體識(shí)別任務(wù)的基礎(chǔ)上,添加實(shí)體邊界檢測(cè)輔助任務(wù),增強(qiáng)模型對(duì)實(shí)體邊界的識(shí)別能力;再次,對(duì)比聯(lián)合實(shí)體邊界檢測(cè)的命名實(shí)體識(shí)別方法與基線方法的有效性,并對(duì)測(cè)試結(jié)果進(jìn)行消融實(shí)驗(yàn);最后,進(jìn)行樣例分析,分析損失權(quán)重β對(duì)實(shí)體邊界檢測(cè)的影響。實(shí)驗(yàn)結(jié)果表明,在英文社交媒體數(shù)據(jù)集Twitter-2015上,聯(lián)合實(shí)體邊界檢測(cè)的命名實(shí)體識(shí)別方法相較于基線模型取得了更高的精準(zhǔn)率、召回率和F1值,其中F1值達(dá)到了73.57%;并且,邊界檢測(cè)輔助任務(wù)提升了基線方法的檢測(cè)效果。所提方法能有效利用實(shí)體邊界信息,從而獲得更好的實(shí)體識(shí)別效果,促進(jìn)了人機(jī)交互系統(tǒng)的發(fā)展,對(duì)自然語言處理下游任務(wù)有重要意義。
關(guān)鍵詞:自然語言處理;命名實(shí)體識(shí)別;實(shí)體邊界檢測(cè);輔助任務(wù);深度學(xué)習(xí)
Named entity recognition method based on joint entity boundary detection
LI Xiaoteng1,GOU Zhinan2,GAO Kai1
(1.School of Information Science and Engineering, Hebei University of Science and Technology, Shijiazhuang, Hebei 050018, China;2.School of Information Technology, Hebei University of Economics and Business, Shijiazhuang, Hebei 050061, China)
Abstract:To solve the problem that traditional named entity recognition methods cannot effectively utilize entity boundary information, a named entity recognition method based on joint entity boundary detection was proposed. The method took entity boundary detection as an auxiliary task, so that the model can enhance the ability of entity boundary recognition, and then improve the effect of entity recognition. Firstly, the Bert pretraining language model was used to embed the features of the original text to obtain word vectors, and the self-attention mechanism was introduced to enrich the context features of words. Secondly, on the basis of named entity recognition task, an auxiliary entity boundary detection task was added to enhance the recognition ability of the model to the entity boundaries. Thirdly, the effectiveness of the named entity recognition method and the baseline method was compared, and the test results were from ablation experiments. Finally, the influence of loss weight β on entity boundary detection was analyzed by examples. The experimental results show that on the English social media dataset Twitter-2015, the named entity recognition method combined with entity boundary detection achieves higher accuracy, recall rate and F1 value than the baseline model, of which the F1 value can reach 73.57%. In addition, the boundary detection auxiliary task has a certain improvement effect on the baseline method. The proposed method can effectively utilize entity boundary information to obtain better entity recognition effect, and promote the development of human-computer interaction system, which is of great significance for downstream tasks of natural language processing.
Keywords:natural language processing; named entity recognition; entity boundary detection; auxiliary task; deep learning
命名實(shí)體識(shí)別(named entity recognition, NER)是指抽取文本序列中的“人名”、“地名”、“機(jī)構(gòu)名”等實(shí)體,是一項(xiàng)重要的自然語言處理任務(wù)。命名實(shí)體識(shí)別任務(wù)廣泛應(yīng)用于其他自然語言處理任務(wù),如信息抽取、信息檢索、問答系統(tǒng)以及知識(shí)圖譜構(gòu)建等[1]。隨著社交網(wǎng)絡(luò)的快速發(fā)展,人們?cè)谏缃痪W(wǎng)絡(luò)上通過文字來表達(dá)自己的觀點(diǎn),浩如煙海的社交網(wǎng)絡(luò)數(shù)據(jù)亟待處理,命名實(shí)體識(shí)別是結(jié)構(gòu)化處理社交媒體數(shù)據(jù)中的關(guān)鍵技術(shù),命名實(shí)體識(shí)別任務(wù)可以提取出社交網(wǎng)絡(luò)數(shù)據(jù)中的“人名”、“地名”、“機(jī)構(gòu)名”等實(shí)體,對(duì)社交媒體數(shù)據(jù)的歸納分類具有重要意義。
近年來,隨著深度學(xué)習(xí)的不斷發(fā)展,許多深度學(xué)習(xí)方法被應(yīng)用到命名實(shí)體識(shí)別任務(wù)中。YANG等[2]結(jié)合雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(bi-directional long-short term memory,Bi-LSTM)和條件隨機(jī)場(chǎng)[3](conditional random field,CRF)來處理命名實(shí)體識(shí)別問題,目前Bi-LSTM+CRF依然是一種常見的命名實(shí)體識(shí)別處理方法。REI[4]通過添加語言模型的輔助任務(wù),學(xué)習(xí)文本中深層的語義、語法信息,幫助模型獲得更強(qiáng)大的文本特征表示。LIN等[5]提出利用遷移學(xué)習(xí)緩解NER任務(wù)中數(shù)據(jù)不足的問題,利用源域的大量有標(biāo)注數(shù)據(jù)學(xué)習(xí)知識(shí),然后利用遷移學(xué)習(xí)方法,將知識(shí)遷移到目標(biāo)域,緩解目標(biāo)域數(shù)據(jù)不足的問題。YANG等[6]利用遠(yuǎn)監(jiān)督方法產(chǎn)生的數(shù)據(jù)在新領(lǐng)域進(jìn)行命名實(shí)體識(shí)別。ZHOU等[7]提出利用對(duì)抗學(xué)習(xí)處理NER任務(wù),在原始數(shù)據(jù)中添加擾動(dòng)生成對(duì)抗樣本,判別器判斷樣本的正負(fù)性,使得模型可以更好地處理文本中的噪聲,提升了模型的魯棒性。2018年谷歌提出的Bert模型[8],在11項(xiàng)NLP任務(wù)中獲得了最優(yōu)結(jié)果。隨著Bert獲得的巨大成功,涌現(xiàn)了許多對(duì)Bert改進(jìn)的方法,如BERT-WWM[9],SpanBERT[10],UNILM[11],ViLBERT[12] 和K-BERT[13]等。多任務(wù)學(xué)習(xí)在NER任務(wù)中同樣具有廣泛應(yīng)用。多任務(wù)學(xué)習(xí)是指將多個(gè)相關(guān)的任務(wù)聯(lián)合在一起訓(xùn)練,通過共享任務(wù)之間的特征信息,獲得一個(gè)更好的效果[14]。多任務(wù)學(xué)習(xí)中常見的參數(shù)共享方式有2種,一種是硬共享[15],另一種是軟共享。LI等[16]添加情感分類任務(wù)作為立場(chǎng)檢測(cè)的輔助任務(wù),并引入靶向注意力機(jī)制提升立場(chǎng)檢測(cè)效果。多任務(wù)學(xué)習(xí)在命名實(shí)體識(shí)別任務(wù)中也得到了廣泛應(yīng)用。LIN等[17]提出了一種跨語言的多任務(wù)學(xué)習(xí)方式,緩解特定NER領(lǐng)域語料不足的問題。GREENBERG等[18]針對(duì)生物醫(yī)學(xué)領(lǐng)域數(shù)據(jù)不足的問題,提出了使用多類數(shù)據(jù)集來訓(xùn)練網(wǎng)絡(luò)模型,增強(qiáng)模型的泛化能力。ZHAO等[19]通過聯(lián)合實(shí)體規(guī)范化任務(wù),在2個(gè)任務(wù)之間增加反饋鏈路,提升了NER任務(wù)和實(shí)體規(guī)范化任務(wù)的效果。
命名實(shí)體識(shí)別領(lǐng)域雖然已有大量?jī)?yōu)秀的研究成果,但已有方法忽略了對(duì)實(shí)體邊界信息的利用。實(shí)體邊界信息是實(shí)體識(shí)別中的一項(xiàng)重要信息,對(duì)實(shí)體的正確識(shí)別有重要意義。為了充分利用實(shí)體邊界信息,本文提出一種聯(lián)合實(shí)體邊界檢測(cè)的命名實(shí)體識(shí)別方法(joint entity boundary detection named entity recognition,JEBD-NER)。在命名實(shí)體識(shí)別模型的基礎(chǔ)上,通過引入實(shí)體邊界檢測(cè)任務(wù),幫助模型學(xué)習(xí)到實(shí)體邊界信息。此外,相似的實(shí)體有相似的上下文,因此為了增強(qiáng)詞對(duì)上下文信息的利用,引入自注意力機(jī)制來豐富詞的上下文信息,進(jìn)一步提升模型對(duì)實(shí)體的識(shí)別能力。
1 聯(lián)合實(shí)體邊界檢測(cè)的命名實(shí)體識(shí)別模型(JEBD-NER)
1.1 任務(wù)定義
命名實(shí)體識(shí)別任務(wù)需要在一段文本序列S中判斷出其中的實(shí)體,并對(duì)這些實(shí)體分類。同其他研究者一致,本文將該任務(wù)視為序列標(biāo)注任務(wù),模型需要判斷出S中的實(shí)體并對(duì)其分類,且判斷出實(shí)體的邊界信息。本文定義文本序列為S=(s1,s2,…,sn),其中n為文本序列長(zhǎng)度。Y=(y1,y2,…,yn),為文本序列對(duì)應(yīng)的標(biāo)簽。Z=(z1,z2,…,zn),為實(shí)體邊界檢測(cè)任務(wù)的標(biāo)簽。其中標(biāo)簽Y和Z遵循BIO2標(biāo)注原則。B代表實(shí)體的首個(gè)字符,I表示實(shí)體的中間或者結(jié)尾字符,O表示非實(shí)體字符。
1.2 模型結(jié)構(gòu)
JEBD-NER方法的模型結(jié)構(gòu)如圖1所示,整體可分為3部分:Bert編碼層、Self-Att層、多任務(wù)學(xué)習(xí)層。首先,Bert編碼層將原始文本輸入轉(zhuǎn)換成詞向量X供Self-Att層使用;其次,Self-Att層通過自注意力機(jī)制增加詞對(duì)上下文信息的利用,并將融合上下文信息的文本特征向量A傳入多任務(wù)學(xué)習(xí)層;最后,多任務(wù)學(xué)習(xí)層聯(lián)合了命名實(shí)體識(shí)別任務(wù)與實(shí)體邊界檢測(cè)任務(wù),并利用文本特征向量A分別輸出實(shí)體和實(shí)體邊界預(yù)測(cè)結(jié)果。
1.2.1 基于Bert預(yù)訓(xùn)練語言模型的特征嵌入層
如圖1中Bert編碼層所示,為了增強(qiáng)對(duì)原始文本的嵌入能力,Bert采用token嵌入、segment嵌入、position嵌入聯(lián)合表示的方法來增強(qiáng)字符級(jí)、詞級(jí)、句級(jí)的特征信息表示。Bert-Encoder則是使用Transformer的編碼器。定義S′=(s0,s1,…,sn+1),為Bert編碼器的輸入,其中s0和sn+1分別代表文本序列的開始字符[CLS]和結(jié)束字符[SEP]。si由token嵌入、segment嵌入、position嵌入構(gòu)成。X=(x0,x1,…,xn+1),作為Bert編碼器的輸出,即詞的特征向量,xi∈?d是si的特征向量,d是特征向量維度。
1.2.2 基于Self-Attention的上下文語義交互層
對(duì)于文本序列而言,如何有效利用上下文信息是識(shí)別實(shí)體的關(guān)鍵。因?yàn)閷?duì)于相似的上下文而言,其中的實(shí)體類型是相似的。例如,“我的家鄉(xiāng)在河北石家莊”,其中 “河北石家莊”是地點(diǎn)實(shí)體?!拔业募亦l(xiāng)在濟(jì)南”,其中“濟(jì)南”是地點(diǎn)實(shí)體。由上述2個(gè)例子可知,在上下文相似的情況下,實(shí)體類型是相似的。如何有效利用上下文信息是判斷實(shí)體的關(guān)鍵,因此本文引入Self-Attention機(jī)制來增強(qiáng)詞對(duì)上下文信息的利用。
如圖1中Self-Att層所示,為了有效利用上下文信息,引入Self-Attention機(jī)制[20]。Self-Attention機(jī)制是一種自注意力方法,其中注意力模塊計(jì)算公式如式(1)所示:
式中:Q,K,V分別指注意力機(jī)制中的查詢向量、鍵值向量、權(quán)值向量;dk為輸入向量的維度。在使用自注意力機(jī)制時(shí),通常會(huì)使用多個(gè)注意力網(wǎng)絡(luò)并行計(jì)算,每個(gè)注意力稱為一個(gè)注意力頭。第i個(gè)注意力頭計(jì)算公式如式(2)所示:
式中:Wqi,Wki,Wvi為第i個(gè)注意力頭的線性映射變換權(quán)重。最終的h個(gè)注意力頭拼接結(jié)果為[Head1,Head2,…,Headh]。
在本文模型中,文本序列X=(x0,x1,…,xn+1)作為多頭自注意力的輸入,最終經(jīng)過多頭自注意力機(jī)制得到文本序列特征A=(A0,A1,…,An+1)。
1.2.3 聯(lián)合實(shí)體邊界檢測(cè)的多任務(wù)學(xué)習(xí)層
為了更好地利用實(shí)體邊界信息,本文提出聯(lián)合實(shí)體邊界檢測(cè)的命名實(shí)體識(shí)別方法。實(shí)體邊界信息指的是實(shí)體詞組在文本序列中的位置信息,即文本序列中實(shí)體詞組開始到結(jié)束的位置信息。命名實(shí)體識(shí)別任務(wù)需要同時(shí)識(shí)別出實(shí)體詞組的邊界信息和實(shí)體類別信息。因此,提升模型對(duì)實(shí)體詞組的邊界識(shí)別能力可以在一定程度上促進(jìn)命名實(shí)體的識(shí)別效果。受多任務(wù)學(xué)習(xí)策略啟發(fā),在命名實(shí)體識(shí)別任務(wù)基礎(chǔ)上,引入實(shí)體邊界檢測(cè)輔助任務(wù)。實(shí)體邊界檢測(cè)任務(wù)是與命名實(shí)體識(shí)別任務(wù)高度相關(guān)的任務(wù),可以幫助模型有效學(xué)習(xí)實(shí)體邊界信息。在本方法中采用硬共享的方式來共享參數(shù)信息,硬共享是目前應(yīng)用最廣泛的共享機(jī)制,它把多個(gè)任務(wù)的數(shù)據(jù)表示嵌入到同一個(gè)特征語義空間之中,多個(gè)任務(wù)之間共享模型底層參數(shù),從而使得底層參數(shù)學(xué)習(xí)到多個(gè)任務(wù)的知識(shí),提升實(shí)驗(yàn)效果。
如圖1中多任務(wù)學(xué)習(xí)層所示,該層有2個(gè)分支:命名實(shí)體識(shí)別分支和實(shí)體邊界檢測(cè)。命名實(shí)體識(shí)別分支在圖左側(cè),作為主任務(wù),其根據(jù)輸入的文本序列特征A預(yù)測(cè)出實(shí)體結(jié)果;實(shí)體邊界檢測(cè)分支在圖右側(cè),作為輔助任務(wù),其根據(jù)輸入的文本序列特征A預(yù)測(cè)實(shí)體邊界結(jié)果。命名實(shí)體識(shí)別任務(wù)的標(biāo)簽定義為Y=(y1,y2,…,yn),邊界檢測(cè)任務(wù)的標(biāo)簽定義為Z=(z1,z2,…,zn),在訓(xùn)練過程中,根據(jù)預(yù)測(cè)結(jié)果與標(biāo)簽之間的損失來優(yōu)化文本序列特征A。
命名實(shí)體識(shí)別分支 在該分支中,模型將文本序列特征輸入CRF層,輸出對(duì)實(shí)體的預(yù)測(cè)標(biāo)簽序列。將文本序列特征A經(jīng)過線性層(LN)控制維度,得到新序列特征W,具體公式如式(3)所示:
W=LN(A)。(3)
考慮到文本序列標(biāo)簽之間的依賴關(guān)系,本文采用CRF結(jié)構(gòu)學(xué)習(xí)標(biāo)簽之間的依賴關(guān)系。給定特征W,得到預(yù)測(cè)序列標(biāo)簽y′的概率如式(4)-式(6)所示:
式中:Y*是所有可能標(biāo)簽序列集合,每種可能的序列得分score(w,y′)由Tyi′,y′i+1和
Ewi,y′i共2部分構(gòu)成。其中:Tyi′,y′i+1是標(biāo)簽y′i到y(tǒng)′i+1之間的轉(zhuǎn)移得分;
Ewi,y′i是第i個(gè)詞預(yù)測(cè)為y′i的發(fā)射得分;Wy′i是預(yù)測(cè)為y′i時(shí)的權(quán)重參數(shù)。
實(shí)體邊界檢測(cè)分支 在該分支中,模型將文本序列特征輸入CRF層,輸出實(shí)體邊界的預(yù)測(cè)標(biāo)簽序列。首先,將文本序列特征A經(jīng)過線性層(LN)控制維度,得到新序列特征W′。隨后,經(jīng)過CRF層學(xué)習(xí)標(biāo)簽之間的依賴關(guān)系。給定特征W′,得到序列標(biāo)簽z′的概率如式(7)-式(9)所示:
式中:Z*是所有可能標(biāo)簽序列合集,每種可能的序列得分score(w′,z′)由Tz′i,z′i+1和Ew′i,z′i共2部分構(gòu)成。其中:Tz′i,z′i+1是標(biāo)簽z′i到z′i+1之間的轉(zhuǎn)移得分;Ew′i,z′i是第i個(gè)詞預(yù)測(cè)為z′i的發(fā)射得分;Wz′i是預(yù)測(cè)為z′i時(shí)的權(quán)重參數(shù)。
1.3 模型訓(xùn)練
在模型訓(xùn)練過程中,采用命名實(shí)體識(shí)別任務(wù)損失結(jié)合實(shí)體邊界檢測(cè)任務(wù)損失的方式共同來優(yōu)化網(wǎng)絡(luò)參數(shù),其損失函數(shù)如式(10)-式(12)所示:
式中:lossNER是命名實(shí)體識(shí)別任務(wù)損失;lossEDB是實(shí)體邊界檢測(cè)任務(wù)損失;β是實(shí)體邊界檢測(cè)任務(wù)的損失權(quán)重系數(shù)。
2 實(shí)驗(yàn)設(shè)計(jì)
2.1 數(shù)據(jù)集和評(píng)價(jià)指標(biāo)
為了驗(yàn)證聯(lián)合實(shí)體邊界檢測(cè)的命名實(shí)體識(shí)別方法的有效性,本文在國(guó)際公開數(shù)據(jù)集Twitter-2015[21]上進(jìn)行實(shí)驗(yàn)驗(yàn)證。Twitter-2015是命名實(shí)體識(shí)別任務(wù)中經(jīng)典的公開數(shù)據(jù)集,本文選取了Twitter-2015數(shù)據(jù)集中的文本數(shù)據(jù)來驗(yàn)證模型的有效性。Twitter-2015來源于Twitter,包含了“Person”、“Location”、“Organization”、“Misc”共4類實(shí)體。其數(shù)據(jù)劃分具體情況如表1所示,4類實(shí)體在訓(xùn)練集、驗(yàn)證集和測(cè)試集中分布情況如表2所示。
采用精準(zhǔn)率(Precision,P)、召回率(Recall,R)和F1值來評(píng)估命名實(shí)體識(shí)別模型的有效性。
2.2 對(duì)比基線模型與參數(shù)設(shè)置
為了驗(yàn)證JEBD-NER模型的有效性,本文對(duì)比了經(jīng)典的命名實(shí)體識(shí)別基線模型。
BiLSTM-CRF[2]命名實(shí)體識(shí)別任務(wù)中經(jīng)典的基線模型,使用Bi-LSTM提取字特征,并利用CRF層學(xué)習(xí)序列之間轉(zhuǎn)移關(guān)系,提升模型對(duì)實(shí)體識(shí)別效果。
CNN-BiLSTM-CRF[22]使用CNN學(xué)習(xí)字符級(jí)特征,將字符級(jí)特征與詞嵌入拼接后作為Bi-LSTM 的輸入,后接CRF獲得最佳的預(yù)測(cè)標(biāo)簽序列。
HBiLSTM-CRF[23]使用堆疊LSTM層抽取字符級(jí)特征,將字符級(jí)特征和詞嵌入拼接作為Bi-LSTM的輸入,后接CRF層獲得最佳的預(yù)測(cè)標(biāo)簽序列。
Bert-CRF 使用Bert對(duì)原始文本序列進(jìn)行詞嵌入,得到文本序列的詞向量;利用CRF學(xué)習(xí)文本序列之間的轉(zhuǎn)移概率對(duì)最后結(jié)果預(yù)測(cè)輸出。
Bert-Bi-LSTM-CRF[24]使用Bert對(duì)原始文本序列進(jìn)行詞嵌入,得到文本序列的詞向量;添加Bi-LSTM網(wǎng)絡(luò)來學(xué)習(xí)上下文信息,豐富詞向量表征信息;利用CRF層學(xué)習(xí)文本序列的轉(zhuǎn)移概率,對(duì)最后結(jié)果預(yù)測(cè)輸出。
Bert-Self-Att-CRF 使用Bert對(duì)原始文本序列進(jìn)行詞嵌入,得到文本序列的詞向量;使用Self-Attention機(jī)制學(xué)習(xí)上下文信息;利用CRF層學(xué)習(xí)文本序列的轉(zhuǎn)移概率,并對(duì)最后結(jié)果預(yù)測(cè)輸出。
本文代碼均使用Pytorch框架實(shí)現(xiàn),所使用的顯卡為NVIDIA GeForce GTX TITAN X,顯存大小為12 211 MB。實(shí)驗(yàn)中所使用的預(yù)訓(xùn)練語言模型為Bert-base-cased,具體參數(shù)信息如表3所示。
2.3 消融實(shí)驗(yàn)設(shè)計(jì)
為進(jìn)一步說明實(shí)體邊界檢測(cè)輔助任務(wù)對(duì)模型的增益作用,設(shè)計(jì)實(shí)驗(yàn)來驗(yàn)證實(shí)體邊界檢測(cè)輔助任務(wù)對(duì)模型的提升效果。首先,選取3組基線模型,分別是Bert-CRF,Bert-BiLSTM-CRF,Bert-Self-Att-CRF;其次,在基線模型上添加邊界檢測(cè)輔助任務(wù)(使用“+EBD”標(biāo)識(shí));最后,將添加邊界檢測(cè)輔助任務(wù)的基線模型與原始基線模型結(jié)果進(jìn)行對(duì)比,觀察邊界檢測(cè)輔助任務(wù)對(duì)最終實(shí)驗(yàn)結(jié)果的提升效果。
2.4 樣例分析
為了直觀地展示聯(lián)合實(shí)體邊界檢測(cè)的命名實(shí)體識(shí)別方法的效果,選取3組樣例來說明其有效性,選取Bert-Self-Att-CRF(表中記作Bert-Self-Att)與JEBD-NER進(jìn)行對(duì)比分析。
2.5 損失權(quán)重β分析
受文獻(xiàn)[25]啟發(fā),設(shè)置實(shí)驗(yàn)探索實(shí)體邊界檢測(cè)任務(wù)的損失權(quán)重對(duì)JEBD-NER方法的影響。模型中其他參數(shù)固定,實(shí)體邊界檢測(cè)任務(wù)損失權(quán)重是唯一的變量,其變化范圍為(0.1,1.0),按0.1依次遞增。為了細(xì)粒度展示實(shí)體邊界檢測(cè)任務(wù)損失權(quán)重對(duì)實(shí)驗(yàn)結(jié)果的影響,將4類實(shí)體識(shí)別的F1值使用4種不同顏色柱狀圖展示,并將4類實(shí)體綜合F1值(圖中記作Aug-F1)使用藍(lán)色折線圖展示。
3 實(shí)驗(yàn)結(jié)果分析
3.1 對(duì)比基線模型結(jié)果分析
本文提出的模型與上述基線模型在Twitter-2015數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對(duì)比,結(jié)果如表4所示,其中,“各類實(shí)體F1結(jié)果”是指模型在4類實(shí)體上各自的F1值結(jié)果;“4類實(shí)體綜合結(jié)果”是指模型在數(shù)據(jù)集上的整體實(shí)驗(yàn)結(jié)果,包括3部分,分別是精準(zhǔn)率(P)、召回率(R)和F1值。本文以“4類實(shí)體綜合結(jié)果”中F1值為首要評(píng)價(jià)指標(biāo)。
由表4可知,聯(lián)合實(shí)體邊界檢測(cè)命名實(shí)體識(shí)別方法相較于基線方法實(shí)驗(yàn)結(jié)果最優(yōu)。JEBD-NER方法在各類實(shí)體F1值中均表現(xiàn)最優(yōu),在4類實(shí)體綜合結(jié)果中,3個(gè)評(píng)價(jià)指標(biāo)均達(dá)到最優(yōu)。相較于最優(yōu)基線模型Bert-BiLSTM-CRF,精準(zhǔn)率提升了1.04%,召回率提升了0.36%,F(xiàn)1值提升了0.73%,這表明本文方法是有效的,對(duì)實(shí)體識(shí)別能力有提升;相較于Bert-CRF模型,精準(zhǔn)率提升了1.15%,召回率提升了1.27%,F(xiàn)1值提升了1.21%。這表明增加Self-Attention機(jī)制以及實(shí)體邊界檢測(cè)輔助任務(wù)后,模型增強(qiáng)了對(duì)上下文信息和實(shí)體邊界信息的利用,實(shí)體識(shí)別能力有較大的提升;相較于Bert-Self-Att-CRF模型,精準(zhǔn)率提升了1.44%,召回率提升了0.57%,F(xiàn)1值提升了1.03%。這表明增加實(shí)體邊界檢測(cè)輔助任務(wù)后,模型對(duì)實(shí)體邊界信息能夠有效利用,提升了對(duì)實(shí)體的識(shí)別效果。綜上分析可知,本文提出的聯(lián)合實(shí)體邊界檢測(cè)的命名實(shí)體識(shí)別方法是有意義的,模型中的Self-Attention機(jī)制增強(qiáng)了單詞對(duì)上下文信息的利用;實(shí)體邊界檢測(cè)輔助任務(wù),提升了模型對(duì)實(shí)體邊界的識(shí)別能力。
3.2 消融實(shí)驗(yàn)結(jié)果分析
實(shí)驗(yàn)結(jié)果如表5所示。由表5可知,基線模型Bert-CRF在添加邊界檢測(cè)輔助任務(wù)后,精準(zhǔn)率提升了0.73%,召回率提升了0.41%,F(xiàn)1值提升了0.57%;基線模型Bert-BiLSTM-CRF在添加邊界檢測(cè)輔助任務(wù)后,精準(zhǔn)率提升了0.42%,召回率提升了0.7%,F(xiàn)1值提升了0.61%。基線模型Bert-Self-Att-CRF添加邊界檢測(cè)輔助任務(wù),即本文方法JEBD-NER,相較于Bert-Self-Att-CRF精準(zhǔn)率提升了1.44%,召回率提升了0.57%,F(xiàn)1值提升了1.03%。綜上可知,在添加邊界檢測(cè)輔助任務(wù)后,3個(gè)基線模型實(shí)驗(yàn)效果均有不同程度的提升,進(jìn)一步說明了本文提出的邊界檢測(cè)輔助任務(wù)對(duì)于命名實(shí)體識(shí)別模型是有效的,并且對(duì)不同模型的實(shí)驗(yàn)效果均有提升效果。
3.3 樣例結(jié)果分析
如表6所示,每張樣例表中分別有樣例文本、真實(shí)標(biāo)簽、本文方法的預(yù)測(cè)結(jié)果以及Bert-Self-Att方法的預(yù)測(cè)結(jié)果。為直觀對(duì)比,對(duì)預(yù)測(cè)結(jié)果添加底紋,綠色表示預(yù)測(cè)正確,紅色表示預(yù)測(cè)錯(cuò)誤。
由表6可知,樣例1中,對(duì)于“Governor”單詞,本文方法成功預(yù)測(cè)為O,而Bert-Self-Att方法誤將“Governor”識(shí)別為人名實(shí)體,錯(cuò)誤地拓寬了實(shí)體邊界,表明在實(shí)體邊界檢測(cè)輔助任務(wù)的作用下,本文方法對(duì)實(shí)體邊界有更好的判斷能力。樣例2中,對(duì)于“#Stars”單詞,本文方法成功預(yù)測(cè)為B-ORG,正確識(shí)別出該詞為組織實(shí)體,而Bert-Self-Att方法錯(cuò)誤地將該詞識(shí)別為O,識(shí)別為非實(shí)體單詞,表明在增加實(shí)體邊界檢測(cè)任務(wù)后,本文方法對(duì)實(shí)體的識(shí)別效果也有所增強(qiáng)。樣例3中,對(duì)“MH17”單詞,本文方法成功預(yù)測(cè)為B-MISC,正確識(shí)別出該詞為其他類實(shí)體,而Bert-Self-Att方法錯(cuò)誤地將該詞識(shí)別為O,表明本文方法能更好識(shí)別出特殊類實(shí)體,說明在實(shí)體邊界檢測(cè)輔助任務(wù)的幫助下,模型對(duì)實(shí)體的識(shí)別能力也進(jìn)一步得到提升。綜合以上3組樣例分析可知,在添加實(shí)體邊界檢測(cè)輔助任務(wù)后,方法不僅對(duì)實(shí)體邊界的識(shí)別能力有所提升,而且對(duì)實(shí)體識(shí)別效果也同步變好。因此可以驗(yàn)證實(shí)體邊界檢測(cè)輔助任務(wù)對(duì)命名實(shí)體識(shí)別任務(wù)是有增益作用的。
3.4 損失權(quán)重β影響結(jié)果分析
損失權(quán)重β影響結(jié)果如圖2所示。由圖2可知,當(dāng)實(shí)體邊界檢測(cè)損失權(quán)重β為0.9時(shí),可獲得最佳綜合Aug-F1值為73.57%,4類實(shí)體各自的F1值也相對(duì)最優(yōu)。當(dāng)實(shí)體邊界檢測(cè)損失權(quán)重β過大或過小都無法得到最優(yōu)實(shí)驗(yàn)結(jié)果。分析可知,當(dāng)實(shí)體邊界檢測(cè)損失權(quán)重β過大時(shí),實(shí)體邊界檢測(cè)任務(wù)將影響主任務(wù)命名實(shí)體識(shí)別的學(xué)習(xí)過程,導(dǎo)致實(shí)體識(shí)別效果變差;當(dāng)實(shí)體邊界檢測(cè)損失權(quán)重β過小時(shí),將無法起到應(yīng)有的效果,對(duì)主任務(wù)命名實(shí)體識(shí)別效果提升沒有作用。因此,選擇合適的實(shí)體邊界檢測(cè)損失權(quán)重β也是實(shí)驗(yàn)中的重要環(huán)節(jié)。
4 結(jié) 語
本文提出一種聯(lián)合實(shí)體邊界檢測(cè)的命名實(shí)體識(shí)別方法,解決傳統(tǒng)命名實(shí)體識(shí)別方法無法有效利用實(shí)體邊界信息的問題。首先,使用Bert對(duì)原始文本進(jìn)行詞嵌入,獲得詞向量;其次,引入Self-Attention機(jī)制增強(qiáng)對(duì)上下文信息的利用能力,并引入實(shí)體邊界檢測(cè)輔助任務(wù)來提升模型對(duì)實(shí)體邊界的判斷能力,進(jìn)而幫助模型增強(qiáng)實(shí)體識(shí)別效果;再次,對(duì)比了JEBD-NER模型與經(jīng)典的命名實(shí)體識(shí)別基線模型的有效性,并對(duì)測(cè)試結(jié)果進(jìn)行消融實(shí)驗(yàn);最后,進(jìn)行樣例分析,分析了損失權(quán)重β對(duì)實(shí)體邊界檢測(cè)的影響。通過在Twitter-2015數(shù)據(jù)集上的實(shí)驗(yàn)證明了聯(lián)合實(shí)體邊界檢測(cè)的命名實(shí)體識(shí)別方法是有效的。通過樣例分析可知,所提方法不僅可以提升實(shí)體邊界的識(shí)別能力,實(shí)體的識(shí)別效果也同步變好。同時(shí),選擇合適的損失權(quán)重β對(duì)于實(shí)體邊界檢測(cè)也很重要。
所提方法雖然在當(dāng)前數(shù)據(jù)集上的實(shí)體識(shí)別能力有一定提升,但其對(duì)“Misc”類實(shí)體無法很好識(shí)別,因?yàn)椤癕isc”類實(shí)體包含多種類型的實(shí)體。現(xiàn)有方法的實(shí)體識(shí)別能力仍有較大提升空間,下一步將探索利用遷移學(xué)習(xí)來提升模型對(duì)“Misc”類實(shí)體的識(shí)別能力,采用數(shù)據(jù)增強(qiáng)方法緩解數(shù)據(jù)受限問題。
致 謝
在此感謝清華大學(xué)智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室徐華老師對(duì)本項(xiàng)工作給予的建設(shè)性意見及幫助。
參考文獻(xiàn)/References:
[1] LI Jing,SUN Aixin,HAN Jianglei,et al.A survey on deep learning for named entity recognition[J].IEEE Transactions on Knowledge and Data Engineering,2022,34(1):50-70.
[2] YANG Xuemin,GAO Zhihong,LI Yongmin,et al.Bidirectional LSTM-CRF for biomedical named entity recognition[C]//2018 14th International Conference on Natural Computation, Fuzzy Systems and Knowledge Discovery (ICNC-FSKD).Huangshan:IEEE, 2018:239-242.
[3] LAFFERTY J,MCCALLUM A,PEREIRA F C N.Conditional random fields:Probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the Eighteenth International Conference on Machine Learning.Williamstown:Morgan Kaufmann Publishers Inc.,2001:282-289.
[4] REI M.Semi-supervised multitask learning for sequence labeling[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1:Long Papers). Vancouver:Association for Computational Linguistics,2017:2121-2130.
[5] LIN B Y,LU W.Neural adaptation layers for cross-domain named entity recognition[C]// Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing.Brussels:Association for Computational Linguistics,2018:2012-2022.
[6] YANG Yaosheng,CHEN Wenliang,LI Zhenghua,et al.Distantly supervised NER with partial annotation learning and reinforcement learning[C]//Proceedings of the 27th International Conference on Computational Linguistics.Santa Fe:Association for Computational Linguistics,2018:2159-2169.
[7] ZHOU J T,ZHANG H,JIN D,et al.Dual adversarial neural transfer for low-resource named entity recognition[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.Florence:Association for Computational Linguistics,2019: 3461-3471.
[8] DEVLIN J,CHANG M W,LEE K,et al.BERT:Pre-training of deep bidirectional transformers for language understanding[C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies, Volume 1 (Long and Short Papers).Minneapolis:Association for Computational Linguistics,2019:4171-4186.
[9] CUI Yiming,CHE Wanxiang,LIU Ting,et al.Pre-training with whole word masking for Chinese BERT[J].IEEE/ACM Transactions on Audio,Speech,and Language Processing,2021,29: 3504-3514.
[10]JOSHI M,CHEN Danqi,LIU Yinhan,et al.Spanbert:Improving pre-training by representing and predicting spans[J].Transactions of the Association for Computational Linguistics, 2020,8:64-77.
[11]DONG Li,YANG Nan,WANG Wenhui,et al.Unified language model pre-training for natural language understanding and generation[C]//Advances in Neural Information Processing Systems 32.Vancouver:Curran Associates,Inc.,2019:13042-13054.
[12]LU J,BATRA D,PARIKH D,et al.ViLBERT:Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks[C]//Advances in Neural Information Processing Systems 32.Vancouver:Curran Associates,Inc.,2019:13-23.
[13]LIU Weijie,ZHOU Peng,ZHAO Zhe,et al.K-BERT:Enabling language representation with knowledge graph[C]//The Thirty-Fourth AAAI Conference on Artificial Intelligence.New York:AAAI Press,2020:2901-2908.
[14]ZHANG Yu,YANG Qiang.An overview of multi-task learning[J].National Science Review, 2018,5(1):30-43.
[15]CHEN Z,BADRINARAYANAN V,LEE C Y,et al.Gradnorm:Gradient normalization for adaptive loss balancing in deep multitask networks[C]//Proceedings of the 35th International Conference on Machine Learning.Stockholmsm?ssan:PMLR,2018: 794-803.
[16]LI Y J,CARAGEA C.Multi-task stance detection with sentiment and stance lexicons[C]//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP).Hong Kong:Association for Computational Linguistics,2019:6299-6305.
[17]LIN Y,YANG S Q,STOYANOV V,et al.A multi-lingual multi-task architecture for low-resource sequence labeling[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1:Long Papers).Melbourne
: Association for Computational Linguistics,2018:799-809.
[18]GREENBERG N,BANSAL T,VERGA P,et al.Marginal likelihood training of bilstm-crf for biomedical named entity recognition from disjoint label sets[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing.Brussels: Association for Computational Linguistics,2018:2824-2829.
[19]ZHAO Sendong,LIU Ting,ZHAO Sicheng,et al.A neural multi-task learning framework to jointly model medical named entity recognition and normalization[C]//The Thirty-Third AAAI Conference on Artificial Intelligence.Honolulu:AAAI Press,2019:817-824.
[20]VASWANI A,SHAZEER N,PARMAR N,et al.Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems.Long Beach, California:Curran Associates Inc.,2017:6000-6010.
[21]ZHANG Qi,F(xiàn)U Jinlan,LIU Xiaoyu,et al.Adaptive co-attention network for named entity recognition in tweets[C]//Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence and Thirtieth Innovative Applications of Artificial Intelligence Conference and Eighth AAAI Symposium on Educational Advances in Artificial Intelligence.New Orleans:AAAI Press,2018:5674-5681.
[22]MA X Z,HOVY E.End-to-end sequence labeling via bi-directional LSTM-CNNs-CRF[C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1:Long Papers).Berlin:Association for Computational Linguistics, 2016:1064-1074.
[23]LAMPLE G,BALLESTEROS M,SUBRAMANIAN S,et al.Neural architectures for named entity recognition[C]//Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.San Diego:Association for Computational Linguistics,2016:260-270.
[24]顧亦然,霍建霖,楊海根,等.基于BERT的電機(jī)領(lǐng)域中文命名實(shí)體識(shí)別方法[J].計(jì)算機(jī)工程,2021,47(8):78-83.
GU Yiran,HUO Jianlin,YANG Haigen,et al.BERT-based Chinese named entity recognition method in motor field[J].Computer Engineering,2021,47(8):78-83.
[25]AAKERBERG A,JOHANSEN A S,NASROLLAHI K,et al.Single-loss multi-task learning for improving semantic segmentation using super-resolution[C]//Computer Analysis of Images and Patterns.Cham:Springer,2021:403-411.