安 娜,白雄文,王紅艷,張 萌
(中國(guó)航天科工集團(tuán)第二研究院 七〇六所,北京 100854)
事件抽取任務(wù)[1]由事件類型檢測(cè)和事件論元角色識(shí)別兩個(gè)階段子任務(wù)完成,且兩子任務(wù)是相互依賴的?,F(xiàn)有事件抽取技術(shù)分為管道方式抽取模型[2](pipeline method)和聯(lián)合方式抽取模型[3](joint method)兩個(gè)方向。管道式事件抽取模型將觸發(fā)詞識(shí)別或事件類型檢測(cè)和事件元素(又稱論元)信息抽取看作多個(gè)獨(dú)立的子任務(wù)執(zhí)行,而多數(shù)情況下,觸發(fā)詞與論元之間存在依賴關(guān)系,這種流水線式子任務(wù)執(zhí)行方式容易產(chǎn)生關(guān)聯(lián)性錯(cuò)誤,同時(shí)下游任務(wù)的信息也無(wú)法反饋到上游任務(wù)。而聯(lián)合式模型將兩個(gè)子任務(wù)看作一個(gè)結(jié)構(gòu)化任務(wù),解決了管道式模型無(wú)法捕捉不同事件觸發(fā)詞與角色論元依存關(guān)系問(wèn)題,并避免了事件抽取子任務(wù)訓(xùn)練過(guò)程中存在的級(jí)聯(lián)誤差。然而,現(xiàn)有聯(lián)合式事件抽取模型仍然難以挖掘句子的深層特征,導(dǎo)致論元識(shí)別任務(wù)存在角色重疊和論元嵌套問(wèn)題。例如,句子“近日,有媒體報(bào)道,海爾4名員工因午休被解除勞動(dòng)合同”,論元“海爾4名員工”承擔(dān)了“被解雇人員”角色,嵌套論元“海爾”承擔(dān)了“解雇方”角色,屬于典型的論元嵌套問(wèn)題。針對(duì)以上存在的問(wèn)題,本文對(duì)中文事件抽取任務(wù)進(jìn)行了大量研究,并提出了優(yōu)化算法。
目前,事件抽取技術(shù)方向主要包括基于規(guī)則匹配的事件抽取模型和基于機(jī)器學(xué)習(xí)算法的事件抽取模型[4]。基于模式匹配的事件抽取模型在某些特定領(lǐng)域的表現(xiàn)性能較好,但存在模型移植性和泛化能力較差的缺陷?;跈C(jī)器學(xué)習(xí)算法的事件抽取模型是通過(guò)機(jī)器學(xué)習(xí)算法建模事件抽取模型完成事件抽取任務(wù),不會(huì)依賴一些特定規(guī)則,所以相比基于模式匹配的事件抽取模型,系統(tǒng)移植性較好,模型泛化能力也較強(qiáng)。隨著司法文書數(shù)據(jù)日益增加的復(fù)雜性,基于機(jī)器學(xué)習(xí)算法的事件抽取模型越來(lái)越流行。
近年來(lái),研究者對(duì)深度學(xué)習(xí)在事件抽取任務(wù)中的應(yīng)用進(jìn)行了大量研究,進(jìn)一步推動(dòng)了事件抽取任務(wù)的研究和發(fā)展。事件抽取模型根據(jù)子任務(wù)訓(xùn)練方式不同分為管道式和聯(lián)合式事件抽取模型。
管道式事件抽取模型首先進(jìn)行觸發(fā)詞或事件類型檢測(cè),再將其結(jié)果作為輸入進(jìn)行事件論元抽取,這兩個(gè)子任務(wù)模型的訓(xùn)練是分離式進(jìn)行的。文獻(xiàn)[5]提出了一種新的信息抽取管道模型,該模型使用模式學(xué)習(xí)算法提取事件信息特征,然后使用經(jīng)過(guò)訓(xùn)練的隨機(jī)森林分類器進(jìn)行分類,并在時(shí)態(tài)數(shù)據(jù)驗(yàn)證了算法的有效性。文獻(xiàn)[6]使用循環(huán)神經(jīng)網(wǎng)絡(luò)提出一種基于預(yù)訓(xùn)練語(yǔ)言模型的事件抽取模型(pre-trained language model based event extractor,PLMEE),該模型使用LSTM加強(qiáng)文本語(yǔ)義提取能力,并基于多組二分類網(wǎng)絡(luò)實(shí)現(xiàn)事件元素識(shí)別,提升了論元抽取子任務(wù)模型的性能。然而,管道式事件抽取模型的性能仍然受子任務(wù)級(jí)聯(lián)錯(cuò)誤影響。
為了解決管道式事件抽取模型的缺陷,文獻(xiàn)[7]提出一種基于神經(jīng)網(wǎng)絡(luò)的聯(lián)合事件抽取模型(joint event extraction via recurrent neural networks,JRNN),該模型將事件抽取任務(wù)分為事件觸發(fā)詞和事件角色論元識(shí)別兩個(gè)階段,并將這兩個(gè)階段任務(wù)建模端到端式的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練和優(yōu)化,同時(shí)預(yù)測(cè)觸發(fā)詞和事件角色論元。文獻(xiàn)[8]聯(lián)合事件抽取模型(jointly multiple event extraction,JMEE),主要利用圖卷積神經(jīng)網(wǎng)絡(luò)表征單詞向量,并結(jié)合自注意力機(jī)制算法完成觸發(fā)詞檢測(cè)和相應(yīng)事件元素識(shí)別。另外,一種基于條件隨機(jī)場(chǎng)的多任務(wù)融合的事件抽取聯(lián)合模型[9],借助對(duì)事件類型的標(biāo)注任務(wù),解決了事件抽取聯(lián)合模型中的角色重疊問(wèn)題。上述研究工作主要集中于分類思想,隨著研究深入,這種傳統(tǒng)思想逐漸轉(zhuǎn)變?yōu)槠渌妒剿枷搿N墨I(xiàn)[10]引入閱讀理解思想,通過(guò)對(duì)注釋手冊(cè)的語(yǔ)句進(jìn)行增量消化來(lái)消除論元角色識(shí)別存在的詞語(yǔ)歧義問(wèn)題。文獻(xiàn)[11]提出一種基于問(wèn)答模式[12]的事件抽取模型,通過(guò)事件類型和論元角色設(shè)定相應(yīng)問(wèn)題,增強(qiáng)模型對(duì)文本的語(yǔ)義理解,從上下文中推理事件論元。
綜上所述,目前的大量研究工作僅是在一個(gè)方向優(yōu)化事件抽取模型性能,并沒(méi)有同時(shí)處理上述模型存在的所有問(wèn)題。因此,本文提出一種端到端式基于雙流注意力機(jī)制的閱讀理解式事件抽取模型,選擇BERT預(yù)訓(xùn)練模型[13]進(jìn)行字詞表征,利用雙流注意力機(jī)制算法捕捉事件對(duì)應(yīng)句子上下文和問(wèn)題深層語(yǔ)義,并參考文獻(xiàn)[14]進(jìn)行問(wèn)題規(guī)則模板制定,以及采用多層指針網(wǎng)絡(luò)完成問(wèn)題答案的預(yù)測(cè),即事件論元抽取。最終,結(jié)合事件類型檢測(cè)結(jié)果合并作為事件抽取模型的預(yù)測(cè)結(jié)果。本文模型的貢獻(xiàn)在于以下:
(1)將事件類型檢測(cè)任務(wù)和事件論元識(shí)別任務(wù)聯(lián)合訓(xùn)練和優(yōu)化,解決多任務(wù)模型訓(xùn)練中子任務(wù)難以同時(shí)達(dá)到最優(yōu)的問(wèn)題;
(2)使用閱讀理解思想進(jìn)行事件論元識(shí)別,針對(duì)事件類型和論元設(shè)計(jì)相應(yīng)問(wèn)題,有效改善局部詞語(yǔ)歧義等問(wèn)題;
(3)基于雙流注意力機(jī)制加強(qiáng)模型對(duì)事件相關(guān)文本的語(yǔ)義理解能力,從而提升閱讀理解任務(wù)準(zhǔn)確率,進(jìn)一步提升事件抽取模型性能;
(4)基于多層指針網(wǎng)絡(luò)進(jìn)行論元預(yù)測(cè),進(jìn)一步解決事件論元識(shí)別任務(wù)中角色重疊及角色論元嵌套等問(wèn)題。
不同于傳統(tǒng)管道式事件抽取模型,基于雙流注意力機(jī)制的閱讀理解式事件抽取模型由事件類型檢測(cè)和事件角色論元抽取兩個(gè)子任務(wù)組成,并將其構(gòu)建為一個(gè)端到端式的基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型。如表1所示,待抽取事件schema,同一個(gè)事件類型可以對(duì)應(yīng)多個(gè)事件角色,不同事件類型所包含的事件角色有相同部分,這部分相同的事件角色統(tǒng)稱為通用事件角色,其它不同的事件角色統(tǒng)稱為特定類型事件角色。這樣,根據(jù)事件類型和事件角色類別設(shè)計(jì)模型輸入的問(wèn)題對(duì),實(shí)現(xiàn)事件抽取模型訓(xùn)練和優(yōu)化,最終完成事件抽取任務(wù)。
表1 事件schema
本文提出的事件抽取模型總框架如圖1所示。該模型包含問(wèn)題模板設(shè)計(jì)模塊、輸入向量表征模塊、基于多標(biāo)簽分類的事件類型檢測(cè)模塊以及基于雙流注意力機(jī)制和多標(biāo)簽指針網(wǎng)絡(luò)的事件論元抽取模塊。
圖1 事件抽取模型總框架
本文模型實(shí)現(xiàn)流程如下:①根據(jù)表1每個(gè)事件類型對(duì)應(yīng)事件角色制定問(wèn)題生成規(guī)則,生成事件對(duì)應(yīng)問(wèn)題和上下文作為事件抽取模型的輸入;②基于BERT預(yù)訓(xùn)練模型獲取上下文和問(wèn)題的字詞編碼拼接向量;③基于雙流注意力機(jī)制計(jì)算上下文-問(wèn)題注意力和問(wèn)題-上下文注意力,與原始上下文向量及上下文-問(wèn)題的雙向注意力向量進(jìn)行多特征融合并輸入多層指針網(wǎng)絡(luò)完成事件論元預(yù)測(cè);④基于多標(biāo)簽分類方式進(jìn)行事件類型檢測(cè);⑤結(jié)合步驟④事件類型檢測(cè)結(jié)果與步驟③事件論元角色預(yù)測(cè)結(jié)果定義事件抽取模型總損失函數(shù),完成模型訓(xùn)練和優(yōu)化。
由于中文與英文之間存在語(yǔ)言壁壘問(wèn)題,受文獻(xiàn)[14]啟發(fā),本文設(shè)計(jì)了一套問(wèn)題模板生成規(guī)則,專門用于中文事件抽取任務(wù),使得基于閱讀理解方式的事件抽取任務(wù)得到快速實(shí)現(xiàn)。本文的模板規(guī)則以獲取事件論元和事件類型為目標(biāo)進(jìn)行問(wèn)題設(shè)計(jì),將事件類型和論元類型(事件角色)進(jìn)行整合,針對(duì)一種事件類型得到多條標(biāo)簽形態(tài),如司法行為事件的罰款事件類型,對(duì)應(yīng)標(biāo)簽為罰款-時(shí)間、罰款-執(zhí)法機(jī)構(gòu)、罰款-罰款對(duì)象、罰款-罰款金額。通過(guò)分析,將這些標(biāo)簽大致分為以下3種:
(1)通用性標(biāo)簽
這類標(biāo)簽主要涉及事件發(fā)生的時(shí)間、地點(diǎn)、人數(shù)、人物對(duì)象等論元(事件角色),具有一定的通用性,即與不同的事件類型進(jìn)行整合,其表達(dá)含義基本相同,因此這類事件論元對(duì)應(yīng)的問(wèn)題設(shè)計(jì),只需要在不同問(wèn)題之前增加事件類型字符串用于區(qū)分,比如“罰款-時(shí)間”對(duì)應(yīng)問(wèn)題為:找到罰款事件發(fā)生的時(shí)間,包含年、月、日、天、周、時(shí)、分、秒等,“立案-時(shí)間”對(duì)應(yīng)問(wèn)題為:找到立案事件發(fā)生的時(shí)間,包含年、月、日、天、周、時(shí)、分、秒等。
(2)與事件強(qiáng)相關(guān)的標(biāo)簽
這類標(biāo)簽通常與具體事件類型有一定的關(guān)聯(lián),比如罰款-執(zhí)法機(jī)構(gòu)、開庭-開庭法院等。因此,這類事件論元對(duì)應(yīng)的問(wèn)題設(shè)計(jì),可能需要提到事件類型的某些屬性,比如“罰款-執(zhí)法機(jī)構(gòu)”對(duì)應(yīng)問(wèn)題為:擁有相對(duì)獨(dú)立的法律地位和組織機(jī)構(gòu)的行政機(jī)構(gòu)。
(3)無(wú)法生成問(wèn)題的標(biāo)簽
對(duì)于一些標(biāo)簽實(shí)在無(wú)法給出較為合適的問(wèn)題,可以選擇單純保留其原始論元類型,并與事件類型整合,比如“漲停-漲停股票”對(duì)應(yīng)問(wèn)題為:漲停-漲停股票。
本文針對(duì)事件論元和事件類型設(shè)計(jì)的問(wèn)題模板見表2。
采用這種問(wèn)題生成模板規(guī)則可以間接增加模型輸入數(shù)據(jù)量,假設(shè)一個(gè)文本包含m種不同事件類型,每個(gè)事件類型平均包含n個(gè)可提取內(nèi)容的論元,那么一個(gè)文本數(shù)據(jù)可以擴(kuò)充m×n倍,相當(dāng)于間接做了數(shù)據(jù)增強(qiáng),從而在一定程
表2 事件論元角色問(wèn)題模板
度上增強(qiáng)了模型的學(xué)習(xí)能力。
BERT預(yù)訓(xùn)練模型[15]采用基于字粒度的編碼方式,難以完整表示中文詞語(yǔ)之間的語(yǔ)義特征,因此,本文在基于BERT預(yù)訓(xùn)練的字粒度編碼基礎(chǔ)上增加每個(gè)詞的詞性標(biāo)注信息,作為事件抽取模型的輸入向量。具體實(shí)現(xiàn)如下:
(1)利用中文分詞工具進(jìn)行輸入文本詞性標(biāo)注,將每個(gè)詞語(yǔ)標(biāo)注為B-postag,I-postag,E-postag,S-postag(單個(gè)字符)形式作為BERT模型輸入獲取詞表征向量,如“本案由丹陽(yáng)市公安局偵查終結(jié),以被告人謝某某涉嫌盜竊罪,于2021年7月23日向本院起訴”分詞結(jié)果如圖2所示,對(duì)于“公安局”這個(gè)詞,以“B-nt I-nt E-nt”作為BERT輸入進(jìn)行詞向量表征,獲取輸入文本的詞編碼向量hpos。
圖2 詞性標(biāo)注示例
(2)基于BERT預(yù)訓(xùn)練模型獲取輸入文本對(duì)應(yīng)每個(gè)字符的字編碼向量hb;
(3)字編碼和詞編碼拼接作為最終編碼向量h0,該模塊數(shù)學(xué)表達(dá)式如下
h0=Concat([hb,hpos])
(1)
BERT模型的輸入是3種編碼向量直接相加,其中Token編碼表示字符向量或詞向量,Position編碼表示位置信息,因?yàn)樽宰⒁饬C(jī)制的模型無(wú)法感知每個(gè)字之間的位置關(guān)系,所以使用Position編碼給每個(gè)字標(biāo)記其順序信息,Segment編碼表示多個(gè)句子之間的分割向量,本文僅在每個(gè)句子的開頭和結(jié)尾加上[CLS]和[SEP]標(biāo)記。BERT采用微調(diào)的多層雙向Transformer作為編碼器,對(duì)于一段文本中的每個(gè)字向前向后直接和文本中任何一個(gè)字進(jìn)行編碼,使得每個(gè)字都能融合其左右兩邊的語(yǔ)義。每個(gè)編碼器由多頭自注意力機(jī)制(multi-head self-attention)和全連接前饋神經(jīng)網(wǎng)絡(luò)組成,其中,單個(gè)編碼器結(jié)構(gòu)如圖3所示。
圖3 BERT編碼器結(jié)構(gòu)
多頭注意力機(jī)制意味著對(duì)一段相同文本作多次自注意力計(jì)算,而每一次自注意力計(jì)算可以獲取句子的不同信息,并將多次自注意力計(jì)算結(jié)果拼接在一起,如下數(shù)學(xué)表達(dá)式
(2)
上述公式中,q,k,v為詞向量矩陣,wq,wk,wv為投影矩陣,hi為單頭注意機(jī)制層輸出,Wo為權(quán)重矩陣,dk為向量維度。
不同于傳統(tǒng)閱讀理解式事件論元抽取方法,本文提出一種基于雙流注意力機(jī)制的閱讀理解式事件論元抽取方法。該模型主要有:輸入向量表征、基于上下文-問(wèn)題的雙流注意力機(jī)制層以及基于多層指針網(wǎng)絡(luò)的答案預(yù)測(cè)層,其框架結(jié)構(gòu)如圖4所示。上下文-問(wèn)題的雙流注意力機(jī)制層是事件論元抽取模塊的核心,負(fù)責(zé)融合上下文和問(wèn)題之間的語(yǔ)義特征,深層捕捉上下文和問(wèn)題的關(guān)系特征,從而進(jìn)一步提升閱讀理解式事件論元抽取任務(wù)的性能。除此之外,為了解決事件論元抽取任務(wù)中存在的角色重疊和角色論元嵌套問(wèn)題,本文還采用多層指針網(wǎng)絡(luò)堆疊的方式進(jìn)行模型優(yōu)化,即對(duì)于輸入文本中每個(gè)字都可以被預(yù)測(cè)為某一論元角色的起止位置,且任意兩個(gè)字組成的元素也可能被預(yù)測(cè)為任意一個(gè)論元角色,從而改善事件論元抽取任務(wù)中的角色重疊和角色論元嵌套問(wèn)題。
圖4 事件論元抽取模塊模型結(jié)構(gòu)
如圖4所示模型結(jié)構(gòu),首先,模型輸入向量表征層分別從字詞兩個(gè)不同粒度獲取輸入上下文和問(wèn)題的編碼向量,得到矩陣H∈Rd×T和U∈Rd×J,作為上下文-問(wèn)題的雙流注意力機(jī)制層的輸入,d表示向量維度。該層分別從兩個(gè)方向計(jì)算上下文-問(wèn)題注意力和問(wèn)題-上下文注意力,具體實(shí)現(xiàn)步驟如下:
(1)構(gòu)造一個(gè)共享相似度矩陣,其數(shù)學(xué)表達(dá)式如下
(3)
(2)利用步驟(1)構(gòu)造的相似度矩陣P分別計(jì)算兩個(gè)方向的注意力大?。荷舷挛?問(wèn)題注意力(Context-to-Query,C2Q Attention)和問(wèn)題-上下文注意力(Query-to-Context,Q2C Attention)。其中,C2Q Attention計(jì)算的是Context所有詞對(duì)Query中每個(gè)詞的注意力大小(相關(guān)性),包含所有Query信息,計(jì)算方法為:首先對(duì)相似度矩陣P進(jìn)行行方向歸一化,再對(duì)Query進(jìn)行加權(quán)求和得到C2Q Attention,其數(shù)學(xué)表達(dá)式如下
(4)
而Q2C Attention計(jì)算的是Query所有詞對(duì)Context每個(gè)詞的注意力大小,包含所有Context信息,計(jì)算方法為:首先獲取相似度矩陣P每列的最大值,再將其進(jìn)行Softmax歸一化,最后對(duì)Context進(jìn)行加權(quán)并在列方向上迭代T次得到Q2C Attention,其數(shù)學(xué)表達(dá)式如下
(5)
(6)
上述公式中,G中每一列向量包含Context和Query的上下文信息。
(3)對(duì)注意力機(jī)制層的輸出向量G進(jìn)一步進(jìn)行征提取,得到輸出矩陣Hc∈Rd×T, 作為多層指針網(wǎng)絡(luò)的輸入完成論元抽取。不同于傳統(tǒng)機(jī)器閱讀理解任務(wù)預(yù)測(cè)Start和End的方式,本文針對(duì)每個(gè)字符均使用兩個(gè)二分類器進(jìn)行Start和End預(yù)測(cè),其數(shù)學(xué)表達(dá)式如下
(7)
(8)
上述公式中,i,j表示位置對(duì)應(yīng)索引值,取值范圍為[0,n],n為問(wèn)題對(duì)應(yīng)字符長(zhǎng)度。在得到答案對(duì)應(yīng)起止位置集合之后,還需解決論元開始與結(jié)尾位置相匹配問(wèn)題,本文采用一個(gè)二分類模型來(lái)預(yù)測(cè)它們應(yīng)該被匹配的概率,其數(shù)學(xué)表達(dá)式如下
Pistart,jend=sigmoid(W*Concat(Eistart,Ejend)),W∈1×d
(9)
本文基于多標(biāo)簽分類方法進(jìn)行事件類型檢測(cè),具體實(shí)現(xiàn)為:對(duì)輸入向量表征模塊的輸出向量H∈Rd×T進(jìn)行最大池化后接一個(gè)全連接層和Softmax層進(jìn)行多標(biāo)簽分類,其數(shù)學(xué)表達(dá)式如下
Xp=maxpooling(H)Pclass=φ(WbXp+b)
(10)
在本文中,事件抽取模型由事件類型檢測(cè)子任務(wù)和事件角色論元識(shí)別子任務(wù)聯(lián)合構(gòu)建,模型訓(xùn)練并不是對(duì)單個(gè)子任務(wù)進(jìn)行單獨(dú)優(yōu)化和學(xué)習(xí),而是將事件類型檢測(cè)結(jié)果與事件角色論元預(yù)測(cè)結(jié)果進(jìn)行聯(lián)合訓(xùn)練和優(yōu)化,所以獲得事件類型檢測(cè)結(jié)果之后,需要重新定義事件角色論元識(shí)別任務(wù)的起止位置的預(yù)測(cè)概率,其數(shù)學(xué)表達(dá)式為
(11)
如果用ystart,yend表示每個(gè)token對(duì)應(yīng)任意角色論元開始索引和結(jié)束索引的真實(shí)標(biāo)簽序列,則每個(gè)字符被預(yù)測(cè)為開始和結(jié)束索引的損失函數(shù)表達(dá)式為
(12)
同理,如果用yse表示開始和結(jié)束位置相匹配的索引序列,則相應(yīng)損失函數(shù)表達(dá)式如下
(13)
故而,事件抽取聯(lián)合模型的最終損失函數(shù)表達(dá)式如下
Loss=αLstart+βLend+γLstart,end
(14)
式中:ɑ,β,γ作為超參數(shù)來(lái)優(yōu)化模型,取值范圍[0,1]。
本文采用目前中文事件任務(wù)中規(guī)模最大的事件抽取數(shù)據(jù)集DuEE作為實(shí)驗(yàn)數(shù)據(jù),該數(shù)據(jù)集定義了65個(gè)事件類型,每個(gè)事件類型包含相應(yīng)的事件角色,總共有17 000條具有事件信息的句子。其中,表3統(tǒng)計(jì)了數(shù)據(jù)集關(guān)聯(lián)的領(lǐng)域類別及每個(gè)類別對(duì)應(yīng)數(shù)據(jù)數(shù)量。由表3看出,數(shù)據(jù)集所涉及事件類型不僅包含出售/收購(gòu)、結(jié)婚、辭職等傳統(tǒng)中文事件抽取任務(wù)常見的事件類型,而且包含起訴、拘捕、立案等具備特定司法領(lǐng)域的事件類型,可以更好支持后期工作??紤]實(shí)驗(yàn)的合理性,本文選取12 000條數(shù)據(jù)作為訓(xùn)練集,2000條作為驗(yàn)證集,1500條作為測(cè)試集1,1500條作為測(cè)試集2。
表3 DuEE中的事件類型與事件子類型
本文采用Tensorflow[15]深度學(xué)習(xí)框架和Python3編程語(yǔ)言進(jìn)行實(shí)驗(yàn)環(huán)境部署,在CentOS Linux平臺(tái)上使用NVIDIA Tesla V100圖形處理單元(GPU)16 GB顯存。選用BERT預(yù)訓(xùn)練模型,其中模型層數(shù)L為12,隱藏層維度H為768,多頭自注意力機(jī)制頭數(shù)A為12,Dropout丟棄率為0.2,Shuffle_buffer為128,Pre_buffer_size為16,并使用交叉熵?fù)p失函數(shù)進(jìn)行訓(xùn)練,使用優(yōu)化器Adam算法[16]進(jìn)行優(yōu)化。經(jīng)過(guò)多次實(shí)驗(yàn)進(jìn)行參數(shù)調(diào)節(jié),得出本文模型達(dá)到最優(yōu)狀態(tài)時(shí)的其它主要超參數(shù)為:Batchsize為8,學(xué)習(xí)率為2e-6,訓(xùn)練批次Epoch為10,每個(gè)輸入序列最大長(zhǎng)度Seq_length為512。
本文提出的基于雙流注意力機(jī)制的閱讀理解式事件抽取模型的性能評(píng)估由兩部分組成,一部分是事件類型檢測(cè)結(jié)果;一部分是事件論元角色識(shí)別結(jié)果。事件類型檢測(cè)結(jié)果判斷:如果模型預(yù)測(cè)的分類類型與標(biāo)注類型相匹配,就認(rèn)為分類正確。事件角色論元識(shí)別結(jié)果判斷:如果模型識(shí)別出的論元在事件中充當(dāng)?shù)慕巧c標(biāo)注角色一致,并且識(shí)別的論元起止位置與標(biāo)注的起止位置一致,則認(rèn)為論元識(shí)別正確。
本實(shí)驗(yàn)選擇精確度(Precision,P)、召回率(Recall,R)以及F1得分作為模型性能評(píng)估指標(biāo),計(jì)算公式為
(15)
式中:TP、FP和FN分別表示預(yù)測(cè)結(jié)果真的正例值、假的例值和假的負(fù)例值。
為了評(píng)估基于雙流注意力機(jī)制的閱讀理解式事件抽取模型的性能,本文從3個(gè)方面進(jìn)行實(shí)驗(yàn)對(duì)比和結(jié)果分析:①依據(jù)文獻(xiàn)[17],對(duì)比分析了不同網(wǎng)絡(luò)結(jié)構(gòu)對(duì)模型性能的影響,進(jìn)一步驗(yàn)證了BERT動(dòng)態(tài)詞表征模型相比WORD2VEC靜態(tài)詞表征對(duì)模型性能的改善效果;②驗(yàn)證了機(jī)器閱讀理解思想對(duì)事件抽取模型性能的提升效果,對(duì)比分析了管道式模型和聯(lián)合式模型的性能;③對(duì)比分析了本文提出的基于雙流注意力機(jī)制的閱讀理解式事件抽取模型相比其它模型的優(yōu)勢(shì);④對(duì)比分析了采用基于BERT類變體的兩種模型進(jìn)行事件抽取模型的訓(xùn)練過(guò)程,進(jìn)一步分析了BERT類變體模型對(duì)事件檢測(cè)任務(wù)的性能影響,驗(yàn)證了本文模型采用BERT進(jìn)行輸入向量表征的優(yōu)勢(shì)。不同模型得出的性能評(píng)估指標(biāo)結(jié)果見表4。
表4 不同模型性能指標(biāo)比較
由表4可以看出,融合CNN與LSTM網(wǎng)絡(luò)結(jié)構(gòu)并進(jìn)行編碼向量共享的DJEE(WORD2VEC)模型相比NO_CNN(WORD2VEC)模型和NO_CNN(WORD2VEC)模型召回率有很大幅度提升,準(zhǔn)確率也有一定幅度提升,這表明通過(guò)CNN提取字符級(jí)特征,LSTM提取詞級(jí)特征,并融合CNN與LSTM字詞特征的方式可以獲取文本全局和局部特征,并捕捉到更多文本的上下文語(yǔ)義信息,進(jìn)一步提升了模型的整體性能;BERT+CRF模型相比融合字詞特征的DJEE(WORD2VEC)模型準(zhǔn)確率有很大幅度提升,模型整體性能有很大程度改善,這表明基于BERT預(yù)訓(xùn)練模型進(jìn)行輸入向量表征可以獲取文本更深層次語(yǔ)義,并且與基于WORD2VEC進(jìn)行輸入向量表征的模型相比,還可以根據(jù)不同上下文語(yǔ)境動(dòng)態(tài)地獲取詞語(yǔ)語(yǔ)義信息,同時(shí)可以避免LSTM網(wǎng)絡(luò)結(jié)構(gòu)存在的文本序列長(zhǎng)期依賴問(wèn)題。所以,基于BERT預(yù)訓(xùn)練模型進(jìn)行輸入向量表征可以提升模型的整體性能;BERT+SOFTMAX MRC(JOIN)模型相比BERT+CRF在召回率指標(biāo)上有大幅度提升,這表明閱讀理解思想可以提升事件論元識(shí)別任務(wù)的性能,從而改善事件抽取模型的整體性能,在機(jī)器閱讀理解任務(wù)中,首先根據(jù)特定文本進(jìn)行問(wèn)題對(duì)設(shè)計(jì),再讓模型從文本中抽取對(duì)應(yīng)答案,這種方式使模型可以同時(shí)學(xué)習(xí)問(wèn)題和上下文文本的語(yǔ)義信息,加深模型的上下文學(xué)習(xí)能力,解決了局部詞語(yǔ)歧義問(wèn)題。因此,基于閱讀理解方式的事件抽取模型在召回率指標(biāo)上表現(xiàn)更突出,模型的整體性能也較為突出;而管道式模型BERT+SOFTMAX MRC(PIPELINE)相比聯(lián)合式模型BERT+SOFTMAX MRC(JOIN),準(zhǔn)確率、召回率及F1得分均有很大幅度降低,甚至其性能不如上述的其它模型,這表明管道式模型訓(xùn)練過(guò)程中存在子任務(wù)誤差傳遞問(wèn)題,使子任務(wù)無(wú)法同時(shí)達(dá)到最優(yōu)狀態(tài),進(jìn)而影響模型的整體性能。而聯(lián)合式模型是一種端到端式的訓(xùn)練任務(wù),可以避免模型訓(xùn)練過(guò)程中子任務(wù)的誤差傳遞,并在一定程度上更多地捕捉到子任務(wù)之間的依賴關(guān)系,因此具備更強(qiáng)的模型性能;本文提出的ATTENTION+PNet MRC模型相比上述模型,準(zhǔn)確率和召回率都有很大幅度提升,這是因?yàn)榛陔p流注意力機(jī)制獲取上下文和問(wèn)題之間彼此的關(guān)注度向量,并與原始上下文向量進(jìn)行多特征融合,可以有效捕捉到當(dāng)前語(yǔ)境下上下文和問(wèn)題的深層語(yǔ)義信息,加深了模型的語(yǔ)義理解能力。除此之外,基于多層指針網(wǎng)絡(luò)進(jìn)行角色論元抽取,即文本序列的每個(gè)字都有可能被預(yù)測(cè)為一個(gè)論元的起止位置,一定程度上解決了傳統(tǒng)事件論元識(shí)別模型所存在的角色重疊和角色論元嵌套問(wèn)題。
通過(guò)以上實(shí)驗(yàn)分析,本文提出的模型在準(zhǔn)確率和召回率上都有所提升,但模型整體性能還需進(jìn)一步提升。為了充分利用數(shù)據(jù)集,本文將訓(xùn)練集和驗(yàn)證集合并起來(lái)進(jìn)行了六折交叉驗(yàn)證,然后對(duì)結(jié)果進(jìn)行投票融合,其性能見表5。
表5 交叉驗(yàn)證對(duì)模型性能的影響
表5結(jié)果顯示,交叉驗(yàn)證投票融合方式對(duì)模型性能有一定提升,這種方式相當(dāng)于進(jìn)行了數(shù)據(jù)增強(qiáng)。為了進(jìn)一步驗(yàn)證BERT變體預(yù)訓(xùn)練模型對(duì)模型性能的影響,本文還選擇了3種預(yù)訓(xùn)練模型BERT、BERT-wwm以及RoBERTa分別作為輸入向量表征層,使用BERT+SOFTMAX MRC模型進(jìn)行事件類型檢測(cè)子任務(wù)訓(xùn)練,并使用參數(shù)F1作為性能評(píng)估指標(biāo),實(shí)驗(yàn)結(jié)果見表6。同時(shí),圖5展示了3種編碼機(jī)制對(duì)應(yīng)模型訓(xùn)練的收斂過(guò)程。
表6 不同編碼向量對(duì)模型性能的影響
圖5 不同模型訓(xùn)練收斂過(guò)程
由表6和圖5可以看出,不同預(yù)訓(xùn)練模型編碼會(huì)影響事件抽取模型性能及模型訓(xùn)練時(shí)間。從模型性能評(píng)估指標(biāo)來(lái)看,BERT編碼效果最優(yōu),但是與RoBERTa編碼的結(jié)果相差不大,這表明不同編碼對(duì)模型性能確實(shí)有一定影響。同時(shí),從模型收斂時(shí)間來(lái)看,BERT編碼比RoBERTa編碼使模型收斂更快。綜合分析,本文選擇BERT模型編碼,但是RoBERTa編碼模型有著節(jié)省計(jì)算資源,訓(xùn)練參數(shù)少,更輕量級(jí)以及使用更便捷等優(yōu)勢(shì)也可以作為相關(guān)研究者的選擇。
本文提出一種基于雙流注意力機(jī)制的閱讀理解式事件抽取模型,基于BERT預(yù)訓(xùn)練模型獲取模型輸入的語(yǔ)義表征向量,將其與上下文和問(wèn)題的雙向關(guān)注度矩陣進(jìn)行多特征融合,進(jìn)一步捕捉上下文-問(wèn)題文本深層語(yǔ)義信息,并基于多層指針網(wǎng)絡(luò)進(jìn)行問(wèn)題答案預(yù)測(cè),最終完成事件論元抽取。本文提出的模型一定程度上避免了傳統(tǒng)事件論元識(shí)別任務(wù)中出現(xiàn)的角色重疊和角色論元嵌套問(wèn)題,實(shí)現(xiàn)了端到端式的模型訓(xùn)練效果,提升了事件抽取模型整體性能。
由實(shí)驗(yàn)結(jié)果得知,本文提出模型在DuEE數(shù)據(jù)集上性能表現(xiàn)較好。下一步工作將基于司法領(lǐng)域數(shù)據(jù)對(duì)模型進(jìn)行優(yōu)化改進(jìn),以技術(shù)來(lái)支持特定領(lǐng)域事件信息抽取等工作。