侯啟真,袁天一,王羅平
(中國(guó)民航大學(xué) 電子信息與自動(dòng)化學(xué)院,天津 300300)
民航安全是民航業(yè)長(zhǎng)久的主題[1],在美國(guó)的航空安全自愿報(bào)告系統(tǒng)(ASRS,aviation safety reporting system)獲得成功后,全世界眾多國(guó)家紛紛開(kāi)始建立適合自身實(shí)際的航空安全自愿報(bào)告系統(tǒng),我國(guó)創(chuàng)建了中國(guó)民用航空安全自愿報(bào)告系統(tǒng)[2]。該系統(tǒng)所收集的報(bào)告中含有報(bào)告人所見(jiàn)所聞的民航安全隱患故障,需要總結(jié)歸納引發(fā)故障的原因和控制故障發(fā)生的措施來(lái)防止重大事故的發(fā)生,從而保障民航系統(tǒng)安全運(yùn)行。隨著時(shí)間積累,報(bào)告數(shù)量不斷增長(zhǎng),每份報(bào)告的非結(jié)構(gòu)文本所含要素信息得不到充分分析,傳統(tǒng)的事件分析方法面對(duì)大量的文本很耗費(fèi)人力也很依賴分析人員的專業(yè)能力。
為了充分利用這些事件報(bào)告,需要檢測(cè)并提取出文本中的事件本質(zhì)要素,這些要素存在于非結(jié)構(gòu)化的文本中,且這些要素正是影響著民航運(yùn)行安全的風(fēng)險(xiǎn)要素,主要是人、機(jī)、環(huán)境的一些狀態(tài)信息。而命名實(shí)體識(shí)別正是能夠做到檢測(cè)和識(shí)別此類文本要素的關(guān)鍵技術(shù),命名實(shí)體識(shí)別是一項(xiàng)序列標(biāo)記任務(wù),中文命名實(shí)體識(shí)別就是將每個(gè)文字或符號(hào)檢測(cè)為其對(duì)應(yīng)的實(shí)體類別。隨著深度學(xué)習(xí)的興起,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN,recurrent neural network)較適用于處理命名實(shí)體識(shí)別這樣的序列標(biāo)注任務(wù)[3]。但是面對(duì)長(zhǎng)文本序列,RNN的梯度消失與梯度爆炸的缺陷嚴(yán)重影響其序列標(biāo)注效果。長(zhǎng)短時(shí)記憶網(wǎng)(LSTM,long short-term memory)是一個(gè)特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)利用輸入門、遺忘門和輸出門來(lái)管理序列化數(shù)據(jù)[4-5],在命名實(shí)體識(shí)別任務(wù)上取得了較為優(yōu)異的效果。在此基礎(chǔ)上有人提出雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(BiLSTM,Bi-directional long short-term memory)來(lái)提高模型效果,同時(shí)結(jié)合在命名實(shí)體識(shí)別任務(wù)上表現(xiàn)較好的機(jī)器學(xué)習(xí)模型——條件隨機(jī)場(chǎng)(CRF,condition random fields),可以使得該任務(wù)在通用領(lǐng)域數(shù)據(jù)集上達(dá)到更好的識(shí)別效果。近幾年也有人在此模型的基礎(chǔ)上引入自注意力機(jī)制,在一定程度上提升了模型識(shí)別能力。
機(jī)場(chǎng)不正常事件是航空安全自愿報(bào)告中描述事件與機(jī)場(chǎng)相關(guān)的文本報(bào)告,經(jīng)過(guò)人工篩選,并進(jìn)行預(yù)處理得到命名實(shí)體識(shí)別模型需求的非結(jié)構(gòu)化文本形式。機(jī)場(chǎng)不正常事件命名實(shí)體識(shí)別技術(shù)的任務(wù)是從非結(jié)構(gòu)化的機(jī)場(chǎng)不正常事件文本中將該領(lǐng)域文本特定的不同類別實(shí)體檢測(cè)識(shí)別出來(lái),以達(dá)到對(duì)機(jī)場(chǎng)不正常事件關(guān)鍵要素提取和分類的目的,得到結(jié)構(gòu)化文本作為開(kāi)展機(jī)場(chǎng)不正常事件分析總結(jié)控制措施的基礎(chǔ)工作。然而由于機(jī)場(chǎng)不正常事件文本在表述方式、事件狀況、專業(yè)用語(yǔ)等文本特點(diǎn)上與通用領(lǐng)域不同,且通用領(lǐng)域主要以人名、地名、機(jī)構(gòu)名等簡(jiǎn)單實(shí)體為命名實(shí)體識(shí)別目標(biāo),所以通用領(lǐng)域常用的命名實(shí)體識(shí)別模型在本領(lǐng)域很難達(dá)到較好效果。
因此,針對(duì)以上問(wèn)題,提出了更適合于機(jī)場(chǎng)不正常事件文本數(shù)據(jù)的命名實(shí)體識(shí)別模型BiLSTM_MSA_CRF(Bi-directional Long Short-Term Memory_Multi-Scale Self-Attention_ Condition Random Fields)模型。此外,為降低人工標(biāo)注成本,根據(jù)模型自身特點(diǎn),設(shè)計(jì)了樣本選擇策略,在降低人工標(biāo)注數(shù)據(jù)量的同時(shí)更高效地提高了模型泛化能力。
機(jī)場(chǎng)不正常事件報(bào)告文本從整個(gè)文本角度,文本長(zhǎng)度偏長(zhǎng),每份報(bào)告300~700字。上下文具有很強(qiáng)的相關(guān)性,長(zhǎng)距離相關(guān)性將影響著命名實(shí)體識(shí)別效果。由于上下文的相關(guān)性也幫助豐富文本中關(guān)鍵要素的語(yǔ)義信息,使其明顯區(qū)別于通用領(lǐng)域文本的結(jié)構(gòu),如“…27號(hào)跑道發(fā)生跑道入侵事件,并未造成…”中“入侵”與“跑道”共同組合成一個(gè)詞語(yǔ)“跑道入侵”有別于通用領(lǐng)域的常規(guī)用法,結(jié)合前文“27號(hào)跑道”這一地點(diǎn)詞可以確定此處詞語(yǔ)語(yǔ)義。
從單個(gè)實(shí)體角度,文中含有一定量的專業(yè)性用語(yǔ),中英文縮寫及其中英文全稱,以及中文、字母、數(shù)字多種字符串組合在文本中交替出現(xiàn),這些字符串可能表達(dá)航路、航班、扇區(qū)等信息(例如A326、SCS8997、ZSSSAR11),實(shí)體長(zhǎng)度不等,實(shí)體間相互影響密切且交錯(cuò)。所需檢測(cè)的實(shí)體種類也較多,多個(gè)實(shí)體種類之間比較相似,比如人的行為狀態(tài)和其他生物的行為狀態(tài)會(huì)有類似,需要結(jié)合語(yǔ)境進(jìn)行區(qū)分。
根據(jù)國(guó)際民航組織(ICAO)9859號(hào)文件[6],并結(jié)合機(jī)場(chǎng)不正常事件文本內(nèi)容特點(diǎn),充分考慮我國(guó)民航安全報(bào)告系統(tǒng)對(duì)故障防控的需求,設(shè)立了14個(gè)命名實(shí)體類別:時(shí)間、地點(diǎn)、方位、天氣元素/能見(jiàn)度、航空器、航空器狀態(tài)、航空器部件、航空器部件狀態(tài)、設(shè)施、設(shè)施狀態(tài)、人物類別、人類行為/狀態(tài)、其他生物(不包括人類)、其他生物的狀態(tài)。每個(gè)實(shí)體對(duì)應(yīng)特定的編號(hào),編號(hào)表如表1所示。
表1 命名實(shí)體類別編號(hào)
本文采用命名實(shí)體識(shí)別常用的BIO標(biāo)注原則[7-8]對(duì)文本數(shù)據(jù)進(jìn)行序列標(biāo)注,即實(shí)體的開(kāi)始標(biāo)為B,實(shí)體的非開(kāi)頭部分標(biāo)為I,非實(shí)體標(biāo)為O。由于每段文本較長(zhǎng),為方便人工標(biāo)注,采用{"text":"S","label":{e1:[Ne1],…,ek:[Nek],…,e|E|:[Ne|E|]}}標(biāo)注方式,這種標(biāo)注方式相對(duì)傳統(tǒng)的BIO人工標(biāo)注更簡(jiǎn)單便捷。其中,S代表文本序列,ek∈E是命名實(shí)體類別,Nek代表在S這一文本序列中屬于ek這一實(shí)體類別的實(shí)體集合,人工標(biāo)注完成的樣本如圖1所示。
圖1 人工標(biāo)注樣本示例
數(shù)據(jù)處理程序中,將進(jìn)行相應(yīng)轉(zhuǎn)換處理,程序經(jīng)過(guò)如圖2所示對(duì)人工標(biāo)注數(shù)據(jù)進(jìn)行相應(yīng)處理,從而得到對(duì)應(yīng)的BIO標(biāo)注形式。
圖2 BIO標(biāo)注處理程序
依據(jù)各個(gè)領(lǐng)域現(xiàn)有命名實(shí)體識(shí)別模型[9-10],并分析機(jī)場(chǎng)不正常事件報(bào)告的構(gòu)造特征,提出的適用于檢測(cè)機(jī)場(chǎng)不正常事件要素信息的命名實(shí)體識(shí)別任務(wù),主要分為4個(gè)部分:文本向量化,雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)和多尺度注意力機(jī)制(MSA,multi-scale self-attention)提取上下文特征信息以獲取文本中每個(gè)字的實(shí)體類別預(yù)測(cè)分?jǐn)?shù),條件隨機(jī)場(chǎng)將獲取的最優(yōu)預(yù)測(cè)序列解碼輸出最終識(shí)別結(jié)果,總體模型框架如圖3所示。
圖3 機(jī)場(chǎng)不正常事件命名實(shí)體識(shí)別的BiLSTM-MSA-CRF模型構(gòu)架
需要將輸入的句子中每個(gè)字表示成字向量,字向量的表示方式主要分為兩種:獨(dú)熱表示和稠密表示。由于獨(dú)熱表示無(wú)法表示字與字之間的相關(guān)關(guān)系,逐漸被新生的稠密表示方式取代,Word2vec[11]正是目前較經(jīng)典的字向量稠密表示方法。Word2vec可以表示字與字之間的相關(guān)關(guān)系,從而含有一定的語(yǔ)法和語(yǔ)義特征表示 ,進(jìn)而從輸入端提升命名實(shí)體識(shí)別模型的泛化能力。已知文本序列S={s1,s2,…,sm}有m個(gè)字,經(jīng)過(guò)Word2vec處理后得到每個(gè)字si相對(duì)應(yīng)的字向量表示形式xi,如式(1)所示:
xi=Ww2vvi
(1)
其中:Ww2v∈Rdx×|V|是由Word2vec訓(xùn)練得到的向量矩陣,dx是字向量的維度,|V|是輸入字表的大小,vi是輸入字si的詞袋表示(獨(dú)熱形式)。由此得到一個(gè)向量序列x={x1,x2,…,xm},作為命名實(shí)體識(shí)別網(wǎng)絡(luò)的字向量輸入。
單向LSTM可隨著序列信息的提取保留前文“值得記憶”的特征信息,而模型最后檢測(cè)出的序列標(biāo)簽是結(jié)合前文的信息預(yù)測(cè)得出的,也就做到了結(jié)合上文的語(yǔ)境信息來(lái)做命名實(shí)體識(shí)別任務(wù)。為解決RNN在長(zhǎng)文本序列標(biāo)注任務(wù)上的缺陷,每個(gè)LSTM均包含著輸入門、遺忘門和輸出門這3個(gè)“門”單元結(jié)構(gòu),以降低梯度消失等問(wèn)題的出現(xiàn)率。LSTM單元結(jié)構(gòu)如圖4所示。
圖4 LSTM單元結(jié)構(gòu)
式(2)描述了LSTM具體計(jì)算過(guò)程。
it=σ[Wi·(ht-1,xt)+bi]
ft=σ[Wf·(ht-1,xt)+bf]
ot=σ[Wo·(ht-1,xt)+bo]
ht=ot⊙tanh[ct]
(2)
(3)
字向量經(jīng)過(guò)BiLSTM提取一定的上下文特征,但并不足以準(zhǔn)確檢測(cè)每個(gè)字的對(duì)應(yīng)標(biāo)簽。
盡管雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)在一定程度上已經(jīng)保留了上下文“重要”信息,已經(jīng)可以做到較全面的處理,但是其依然沒(méi)有對(duì)這些“重要”信息分清主次,即從BiLSTM中得到每個(gè)字向量對(duì)應(yīng)的上下文特征向量,但并沒(méi)有考慮到不同詞語(yǔ)間的不同程度關(guān)系,也沒(méi)有充分考慮到不同的詞語(yǔ)對(duì)模型識(shí)別結(jié)果會(huì)產(chǎn)生不同程度的影響,所以識(shí)別效果更待提升,需要使用自注意力機(jī)制來(lái)幫助分配權(quán)重以解決此問(wèn)題。所以結(jié)合了自注意力機(jī)制的命名實(shí)體識(shí)別模型更能夠提取更加主要且與現(xiàn)有輸出關(guān)聯(lián)度更高的特征信息,避免過(guò)多提取次要關(guān)聯(lián)信息而造成語(yǔ)義偏差,在對(duì)輸入向量施加合適的權(quán)重系數(shù)后,模型識(shí)別結(jié)果會(huì)得到有效提升。
近年來(lái),諸多領(lǐng)域?yàn)榻鉀Q命名實(shí)體識(shí)別的這一問(wèn)題引入了自注意力機(jī)制[14-16],盡管自注意力可以建模非常長(zhǎng)的依賴關(guān)系,但深層的注意力往往過(guò)度集中在單個(gè)字上,且權(quán)重過(guò)于分散,并不能構(gòu)成詞語(yǔ)間的依賴關(guān)系,導(dǎo)致對(duì)局部信息的使用不足,對(duì)短序列自注意力相對(duì)有效,但其難以表示長(zhǎng)序列,隨著句子的長(zhǎng)度增加自注意力的性能逐漸下降,從而導(dǎo)致信息表達(dá)不足,給模型完整地理解數(shù)據(jù)信息帶來(lái)困難,在語(yǔ)境中應(yīng)更主要以詞與詞之間的影響來(lái)作為特征,這樣才更能提高模型識(shí)別效率。且基于自注意力機(jī)制的方法缺乏先驗(yàn)假設(shè),需要很大的樣本數(shù)據(jù)集才能訓(xùn)練出一個(gè)泛化能力較好的模型。本研究數(shù)據(jù)量有限,無(wú)法滿足大樣本數(shù)據(jù)集的要求。多尺度結(jié)構(gòu)可以幫助模型捕捉不同尺度的特征,實(shí)現(xiàn)多尺度的常用方法是采用層次結(jié)構(gòu),通過(guò)層次結(jié)構(gòu),模型可以捕獲較低層次的局部特征和較高層次的全局特征。多尺度多頭注意力[17]的各個(gè)頭具有可變尺度,頭部的大小限制了自注意力的工作范圍:大尺度包含更多上下文信息,小尺度更關(guān)注局部信息。
BiLSTM輸出向量為hi,對(duì)應(yīng)的序列矩陣為H={h1,h2,…,hn},其中H∈Rn×D,n為句子長(zhǎng)度,D是hi的向量維度,式(4)描述了多尺度注意力的計(jì)算過(guò)程。
Cij(A,ωj)={Ai-ωj-1/2,j,…,Ai+ωj-1/2,j}
Q=H·WQ,K=H·WK,V=H·WV
headj(H,ωj)=Concat[headj(H,ωj)1,…,headj(H,ωj)n]
MSMSA(H,Ω)=Concat[head1(H,ω1),…,
headj(H,ωj),…,headN′(H,ωN′)]WO
(4)
其中:WQ,WK,WV,WO是可學(xué)習(xí)的參數(shù)矩陣,ω是每個(gè)頭的尺度大小,ωj即為第j個(gè)頭的尺度,共有N’個(gè)頭,多尺度多頭自注意力的所有頭的尺度集合為Ω=[ω1,…,ωj,…,ωN′],C為給定位置提取上下文特征的函數(shù)。
多頭多尺度注意力機(jī)制,在不同層分配了不同尺度的“頭”,不同層中對(duì)應(yīng)的尺度分配遵循式(5):
(5)
以上公式計(jì)算過(guò)程對(duì)于單個(gè)向量hi可以歸結(jié)為式(6):
(6)
對(duì)應(yīng)注意力計(jì)算結(jié)構(gòu)圖如圖5所示。
圖5 注意力加權(quán)計(jì)算過(guò)程
CRF[18]解碼過(guò)程中,將重新分配權(quán)重后的雙向LSTM概率矩陣輸出結(jié)果作為輸入,獲得預(yù)測(cè)序列標(biāo)簽。CRF模型關(guān)注輸入序列各個(gè)相鄰字的前后依賴關(guān)系,進(jìn)而計(jì)算最優(yōu)預(yù)測(cè)標(biāo)簽序列。借鑒王棟[19]等人使用CRF模型的思路,相關(guān)公式計(jì)算過(guò)程如下:
記句子序列為S={s1,s2,…,sm},其預(yù)測(cè)的標(biāo)簽序列為Y={y1,y2,…,ym},則序列預(yù)測(cè)得分矩陣計(jì)算如式(7):
(7)
其中:T代表狀態(tài)轉(zhuǎn)移矩陣,Tyi-1,yi為yi-1標(biāo)簽轉(zhuǎn)移到y(tǒng)i標(biāo)簽的概率得分,Pi,yi是第i個(gè)字符被標(biāo)記為標(biāo)簽yi的概率得分。文本序列S計(jì)算產(chǎn)生標(biāo)記序列Y的概率如式(8)所示:
(8)
在訓(xùn)練過(guò)程的標(biāo)記序列的似然函數(shù)如式(9)所示,通過(guò)極大似然估計(jì)的方法估計(jì)條件隨機(jī)場(chǎng)的模型參數(shù)。
(9)
使用CRF對(duì)序列進(jìn)行預(yù)測(cè)時(shí)利用維特比(Viterbi)算法求解最可能的序列標(biāo)簽,最終輸出如式(10)所示的最優(yōu)序列Y*。
(10)
由于模型所需標(biāo)注訓(xùn)練樣本數(shù)量較大,人工標(biāo)注成本較高,且已有訓(xùn)練數(shù)據(jù)中各個(gè)類別的實(shí)體數(shù)量不均衡,以至出現(xiàn)比較稀疏的實(shí)體類別,從而導(dǎo)致模型對(duì)這些稀疏實(shí)體識(shí)別不準(zhǔn)確,為檢測(cè)出含有此類實(shí)體的高質(zhì)量訓(xùn)練樣本和提高人工標(biāo)注效率,本文根據(jù)數(shù)據(jù)和模型本身特點(diǎn),設(shè)計(jì)了基于不確定性的樣本選擇策略。該方法既能減低人工標(biāo)注成本又能更高效地提高模型的泛化能力,基于不確定性的樣本選擇策略的核心思想是模型無(wú)法進(jìn)行有效判斷的樣本[20-22]。結(jié)合現(xiàn)有命名實(shí)體識(shí)別模型,本文使用最優(yōu)預(yù)測(cè)序列概率p(Y*|S)作為模型對(duì)未標(biāo)注樣本的不確定性評(píng)判依據(jù),最優(yōu)預(yù)測(cè)序列概率p(Y*|S)越低,模型對(duì)樣本序列的標(biāo)注越不確定,這類樣本與已有訓(xùn)練數(shù)據(jù)相比含有稀疏實(shí)體較多,這類樣本越值得加入訓(xùn)練集?;诓淮_定性的樣本選擇策略如式(11)。
D(Y*)={Y*|p(Y*|S)≤PD}
(11)
其中:D(Y*)是通過(guò)選擇后得到的需人工標(biāo)注的樣本集,PD為模型最優(yōu)預(yù)測(cè)序列概率閾值,當(dāng)樣本S對(duì)應(yīng)的最優(yōu)預(yù)測(cè)序列Y*的概率未達(dá)到閾值時(shí),則將該樣本加入需人工標(biāo)注樣本集,等待人工進(jìn)行標(biāo)注。使用該樣本選擇策略后,構(gòu)成了與模型訓(xùn)練模塊構(gòu)成了閉環(huán)主動(dòng)學(xué)習(xí)框架,如圖6所示。
圖6 融合樣本選擇策略的命名實(shí)體識(shí)別框架
使用的數(shù)據(jù)來(lái)自于ASRS和中國(guó)民用航空安全自愿報(bào)告系統(tǒng)中與機(jī)場(chǎng)相關(guān)的航空安全自愿報(bào)告,選取的報(bào)告包含了2010~2021年間機(jī)場(chǎng)航空安全自愿報(bào)告10 536條,所有文本去除無(wú)效字符并整理格式后組成本實(shí)驗(yàn)機(jī)場(chǎng)不正常事件樣本數(shù)據(jù),數(shù)據(jù)以中文形式呈現(xiàn),每篇報(bào)告500字左右。隨機(jī)選取了7 000條樣本進(jìn)行人工標(biāo)注,標(biāo)注形式如圖1所示,并隨機(jī)將其分為5 000條文本的訓(xùn)練集和2 000條文本的測(cè)試集。剩余的未標(biāo)注樣本作為樣本選擇策略的實(shí)驗(yàn)數(shù)據(jù)。
實(shí)驗(yàn)在Windows10(64位)系統(tǒng)中使用Python3.6作為編程語(yǔ)言,基于Pytorch框架對(duì)本文方法和對(duì)比實(shí)驗(yàn)方法進(jìn)行程序?qū)崿F(xiàn)。所有實(shí)驗(yàn)是在Intel Core i7-8700處理器、16 G內(nèi)存、NVIDIA Quadro P2000 GPU硬件設(shè)備條件下進(jìn)行的。表2是實(shí)驗(yàn)中模型參數(shù)設(shè)置情況。
表2 模型參數(shù)設(shè)置
實(shí)驗(yàn)采用精確率P、召回率R和F1值對(duì)命名實(shí)體識(shí)別結(jié)果進(jìn)行評(píng)價(jià)。3個(gè)評(píng)價(jià)指標(biāo)的計(jì)算如下:
(12)
以下實(shí)驗(yàn)均通過(guò)計(jì)算不同模型在相同數(shù)據(jù)上的精確率P、召回率R和F1值進(jìn)行對(duì)比。
實(shí)驗(yàn)一:加入多尺度注意力機(jī)制的命名實(shí)體識(shí)別模型在機(jī)場(chǎng)不正常事件文本數(shù)據(jù)上的識(shí)別效果需要對(duì)比通用領(lǐng)域的常用方法來(lái)驗(yàn)證,以證明多尺度注意力機(jī)制能夠改善機(jī)場(chǎng)不正常事件文本命名實(shí)體識(shí)別效果。實(shí)驗(yàn)使用3.1節(jié)所提及的訓(xùn)練集和樣本集分別訓(xùn)練BiLSTM_CRF模型、BiLSTM_self-attention_CRF模型以及本文提出的BiLSTM_MSA_CRF模型,為降低選取數(shù)據(jù)的偶然性,經(jīng)過(guò)5次隨機(jī)分配得到的訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)來(lái)分別訓(xùn)練3個(gè)模型,最終將模型得出的評(píng)價(jià)指標(biāo)取平均值,并填寫入表3中。
從表3可以看出,加入自注意力機(jī)制后,模型識(shí)別能力確有提升,但并不明顯,這正是因?yàn)樽宰⒁饬C(jī)制對(duì)于文段較長(zhǎng)且識(shí)別結(jié)果很依賴上下文語(yǔ)境的文本并沒(méi)有很好地發(fā)揮其捕捉上下文重要信息的作用,注意力過(guò)于分散在單個(gè)字上,沒(méi)有充分利用詞語(yǔ)級(jí)別的局部信息。而加入多尺度注意力機(jī)制后,識(shí)別效果有了明顯提升,說(shuō)明多尺度注意力能夠改善自注意力的缺點(diǎn),更適合機(jī)場(chǎng)不正常事件這種長(zhǎng)文段的命名實(shí)體識(shí)別。
表3 固定樣本集條件下不同模型的對(duì)比實(shí)驗(yàn)結(jié)果
為了降低人工標(biāo)注成本且更高效地提升模型泛化能力,使用2.6節(jié)提出的樣本選擇策略進(jìn)行對(duì)比實(shí)驗(yàn)。如圖7所示,是閾值設(shè)為0.9時(shí),提示需要標(biāo)注的樣本示例。
圖7 樣本選擇策略下程序提示需要標(biāo)注的樣本示例
實(shí)驗(yàn)二:分別對(duì)比不同概率閾值PD對(duì)3種命名實(shí)體識(shí)別模型的影響,以尋找一個(gè)更合適的閾值。
實(shí)驗(yàn)步驟為:將前一次實(shí)驗(yàn)訓(xùn)練后的3種模型保存分別命名為BiLSTM_CRF、BiLSTM_self-attention_CRF和BiLSTM_MSA_CRF,選取4種不同最優(yōu)預(yù)測(cè)序列概率閾值PD(分別為0.8、0.85、0.9、0.95),并分為4個(gè)批次逐漸增加選取樣本,每個(gè)批次隨機(jī)選取500條未標(biāo)注樣本,3種模型經(jīng)樣本選擇策略后,挑選未達(dá)閾值的樣本進(jìn)行人工標(biāo)注,加入訓(xùn)練集進(jìn)行模型再訓(xùn)練,將不同閾值各個(gè)批次訓(xùn)練完成的模型區(qū)分開(kāi)命名BiLSTM_CRFm(n),其中m=[0.8,0.85,0.9,0.95]為閾值,n=[1,2,3,4]為挑選樣本批次,如BiLSTM_CRF0.8(1)代表設(shè)定閾值為0.8隨機(jī)選取500條未標(biāo)注樣本,篩選出需要人工標(biāo)注的樣本加入訓(xùn)練集中對(duì)BiLSTM_CRF再訓(xùn)練而得到的模型;BiLSTM_MSA_CRF0.9(3)代表設(shè)定閾值為0.9在未標(biāo)注樣本集里隨機(jī)選取500條未標(biāo)注樣本篩選出需要人工標(biāo)注的樣本累加到訓(xùn)練集中對(duì)BiLSTM_MSA_CRF再訓(xùn)練而得到的模型。對(duì)不同的樣本需要標(biāo)注的內(nèi)容有一定的差異性,為防止因這種“參差不齊”的現(xiàn)象而引起的偏差,在所有未標(biāo)注樣本中隨機(jī)進(jìn)行5次抽選2 000條文本,各進(jìn)行5次實(shí)驗(yàn)取平均值作為最終實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)結(jié)果如圖8~13所示,每組的橫坐標(biāo)為使用樣本選擇策略選取備選樣本的批次,即500(2)意為第二批次隨機(jī)拿出500條未標(biāo)注樣本進(jìn)行樣本選擇,圖8,10,12縱坐標(biāo)為每個(gè)批次篩選出需要人工標(biāo)注的樣本數(shù)量,圖9,11,13縱坐標(biāo)為對(duì)應(yīng)批次訓(xùn)練后模型的F1值。
圖8 不同閾值條件下BiLSTM_CRF模型需人工標(biāo)注樣本量對(duì)比 圖9 不同閾值條件下BiLSTM_CRF模型隨人工標(biāo)記輪次F1值變化情況
圖10 不同閾值條件下BiLSTM_self-attention_CRF模型需人工標(biāo)注樣本量對(duì)比 圖11 不同閾值條件下BiLSTM_self-attention_CRF模型隨人工標(biāo)記輪次F1值變化情況
圖12 不同閾值條件下BiLSTM_MSA_CRF模型需人工標(biāo)注樣本量對(duì)比 圖13 不同閾值條件下BiLSTM_MSA_CRF模型隨人工標(biāo)記輪次F1值變化情況
由圖8~13以及表4可以看出,隨著樣本選擇策略的使用,3個(gè)模型的精確率P、召回率R和F1值均有提升,并且隨著閾值的提升(由0.8到0.85再到0.9)模型的精確率P、召回率R和F1值在以更高的增長(zhǎng)速率提升,并且增長(zhǎng)趨勢(shì)有提前趨于平穩(wěn)的趨勢(shì),這是因?yàn)楦鱾€(gè)模型對(duì)大部分能夠準(zhǔn)確識(shí)別的未標(biāo)注樣本的預(yù)測(cè)分?jǐn)?shù)主要集中在0.9以上,預(yù)測(cè)分?jǐn)?shù)在0.9之下的樣本正是模型不確定性較高的樣本,需要加入訓(xùn)練集來(lái)提升模型的泛化能力。此外,隨著閾值的提升(由0.8到0.85再到0.9)模型所需標(biāo)注樣本量也跟隨著篩選批次逐漸減少,閾值為0.9時(shí)現(xiàn)象尤為明顯。閾值為0.9和0.95時(shí)3個(gè)模型的評(píng)價(jià)指標(biāo)上升趨勢(shì)均幾乎重合,模型所需標(biāo)注樣本量卻有明顯差異,模型預(yù)測(cè)分?jǐn)?shù)能達(dá)到0.95的樣本近乎少數(shù),所以閾值設(shè)為0.95時(shí)3個(gè)模型需人工標(biāo)記的樣本量明顯多于閾值設(shè)為0.9的情況,不過(guò)在閾值為0.95時(shí),BiLSTM_MSA_CRF模型隨著樣本選擇策略批次所需人工標(biāo)記的樣本量下降速度更明顯些,也從一定程度上說(shuō)明該模型預(yù)測(cè)分?jǐn)?shù)高于0.95的樣本數(shù)量要比另兩種模型多。所以4個(gè)閾值相比,閾值0.9更適合作為本文的文本數(shù)據(jù)和本文所使用的命名實(shí)體識(shí)別模型。
表4 不同閾值條件下3種模型評(píng)價(jià)指標(biāo)變化對(duì)比
實(shí)驗(yàn)三:為了更加凸顯樣本選擇策略的作用,在不使用樣本選擇策略的情況下,在上一個(gè)實(shí)驗(yàn)的同一批500條樣本中隨機(jī)選出與該批樣本選擇策略選出的樣本數(shù)目相同的未標(biāo)注樣本加入訓(xùn)練集訓(xùn)練相應(yīng)模型,實(shí)驗(yàn)結(jié)果如圖14所示。
圖14 BiLSTM_CRF、BiLSTM_self-attention_CRF、BiLSTM_MSA_CRF使用和未使用樣本選擇策略實(shí)驗(yàn)結(jié)果對(duì)比
從圖14可以看出,在未使用樣本選擇策略的情況下,人工標(biāo)注與閾值為0.9的樣本選擇策略相同數(shù)量的樣本,模型識(shí)別能力的提升效果很不明顯,與使用了樣本選擇策略差異很大,所以樣本選擇策略明顯幫助我們?cè)谝慌鷺颖局袡z測(cè)出更能提升模型泛化能力的“有用”樣本,人工標(biāo)注后加入訓(xùn)練集,幫助模型“查漏補(bǔ)缺”。
經(jīng)過(guò)上述3個(gè)實(shí)驗(yàn)的對(duì)比,在機(jī)場(chǎng)不正常事件數(shù)據(jù)上,本文提出的BiLSTM_MSA_CRF模型達(dá)到更好的識(shí)別效果,明顯比BiLSTM_CRF、BiLSTM_self-attention_CRF提升了6個(gè)百分點(diǎn)的F1值。樣本選擇策略降低了人工標(biāo)注成本,且?guī)椭P吞暨x了含有稀疏實(shí)體的樣本來(lái)供給人工標(biāo)注后加入訓(xùn)練數(shù)據(jù),實(shí)驗(yàn)得出的F1表明該方法明顯提升了模型識(shí)別效果。實(shí)驗(yàn)證明本文提出的方法是解決海量機(jī)場(chǎng)不正常事件的關(guān)鍵要素檢測(cè)和識(shí)別的有效方法,可作為進(jìn)一步分析大量機(jī)場(chǎng)不正常事件文本的基礎(chǔ)工作,協(xié)助民航相關(guān)人員及時(shí)總結(jié)事故規(guī)律和關(guān)系、制定控制事故的措施。