融合上下文信息的篇章級事件時序關系抽取方法

2021-11-05 12:04:48史存會俞曉明程學旗

計算機研究與發(fā)展 2021年11期

王俊史存會張瑾俞曉明劉悅程學旗,3

1(中國科學院計算技術研究所數(shù)據(jù)智能系統(tǒng)研究中心北京 100190) 2(中國科學院網(wǎng)絡數(shù)據(jù)科學與技術重點實驗室(中國科學院計算技術研究所) 北京 100190) 3(中國科學院大學北京 100049) (wyswangjun@163.com)

文章如新聞通常描述一系列事件的發(fā)生，這些事件看似離散地被敘述著，其實存在著一定的聯(lián)系，其中最重要的一種事件聯(lián)系為時序關系.時序關系表示事件發(fā)生的先后順序，其串聯(lián)了文章中事件的發(fā)展演化.如果能準確地抽取文章中的事件時序關系，將有助于理解文章信息，梳理事件脈絡.因此，事件時序關系抽取成為了一項重要的自然語言理解任務，受到越來越多的關注.

事件時序關系抽取的目標為抽取文本中包含的事件時序關系，如圖1中的例子，其包含4個事件：刺殺(E1)、暴行(E2)、屠殺(E3)和內戰(zhàn)(E4)，其中可抽取出時序圖中的6對事件時序關系.圖1中時序關系BEFORE表示事件在另一個事件之前發(fā)生；時序關系INCLUDES表示一個事件包含另一個事件；時序關系VAGUE表示兩個事件之間不存在特定的時序關系.

Fig.1 An sample of event temporal relation extraction圖1 事件時序關系抽取樣例

目前，與實體關系抽取[1]類似，已有的事件時序關系抽取方法往往將事件時序關系抽取任務視為句子級事件對的分類問題，以事件對和事件對所在的句子信息作為輸入，使用基于規(guī)則、基于傳統(tǒng)機器學習或基于深度學習的方法識別事件對的時序關系類別.然而，這種句子級的事件時序關系抽取方法使用的事件對所在的句子信息十分有限，往往不足以支持事件時序關系的識別，限制了事件時序關系識別的精度.同時，句子級的事件時序關系抽取方法孤立地識別事件對的時序關系，未考慮文章中其他事件對的時序關系，其抽取的事件時序關系可能與其他事件時序關系沖突(即不滿足時序關系的自反性、傳遞性等)，使得全文的事件時序關系一致性難以得到保證.

為此，本文提出一種融合上下文信息的篇章級事件時序關系抽取方法.該方法使用基于雙向長短期記憶(bidirectional long short-term memory, Bi-LSTM)的神經(jīng)網(wǎng)絡模型學習文章中每個事件對的時序關系表示，再使用自注意力機制學習待識別事件對與其文章上下文中其他事件對的聯(lián)系，利用聯(lián)系結合上下文中其他事件對的信息，得到更優(yōu)的事件對的時序關系表示，從而增強事件時序關系抽取模型的效果.為了驗證模型的性能，本文在TB-Dense(timebank dense)數(shù)據(jù)集[2]和MATRES(multi-axis temporal relations for start-points)數(shù)據(jù)集[3]上進行實驗，實驗結果證明本文方法的有效性.

1 相關工作

按照事件時序關系抽取研究的發(fā)展，其方法主要可以分為3類：基于規(guī)則的事件時序關系抽取方法、基于傳統(tǒng)機器學習的事件時序關系抽取方法和基于深度學習的事件時序關系抽取方法.

1.1 基于規(guī)則的事件時序關系抽取方法

事件時序關系抽取研究發(fā)展的早期，由于缺乏相關的成熟語料庫，主流的事件時序關系抽取方法通常是基于人工制定的規(guī)則展開的.Passonneau[4]提出使用文本中的時態(tài)與體態(tài)信息來構造規(guī)則，用以推斷事件的時序關系.Hitzeman和Moens等人[5]提出的話語時序結構分析方法，考慮了時態(tài)、體態(tài)、時間狀語和修辭結構的影響.

基于規(guī)則的方法實現(xiàn)簡單，但其效果極大地依賴于規(guī)則的數(shù)量和質量，其實用性不高.

1.2 基于傳統(tǒng)機器學習的事件時序關系抽取方法

隨著國際標準化組織制定了TimeML[6](time markup language)標注體系，以及時序關系抽取領域的一些重要標準數(shù)據(jù)集(如TimeBank[7])的構建.傳統(tǒng)的統(tǒng)計機器學習方法開始被廣泛應用于事件時序關系識別研究.Mani與Schiffman等人[8]提出基于決策樹分類模型的新聞事件時序關系識別方法，該方法使用時序關系連接詞、時態(tài)、語態(tài)和時間狀語等特征.之后，Mani等人[9]又提出基于最大熵分類算法的時序關系分類方法，使用數(shù)據(jù)集給定的TimeML特征(如事件類別、時態(tài)、體態(tài)等).Chambers等人[10]在Mani等人提出方法的特征之上，添加了詞性、句法樹結構等詞法和句法特征，以及WordNet中獲得的形態(tài)學特征，較之前的方法有了3%的提升.Ning等人[11]使用手工制作的特征作為輸入，在訓練過程中對全局的事件時序關系結構進行建模，利用結構化學習優(yōu)化時間圖的全局一致性.

基于傳統(tǒng)機器學習的事件時序關系抽取的方法研究重點主要集中在特征工程，方法的有效性極大地依賴于特征工程的設計.

1.3 基于深度學習的事件時序關系抽取方法

隨著深度學習技術的發(fā)展與興起，神經(jīng)網(wǎng)絡模型被引入到事件時序關系抽取任務中來.Meng等人[12]提出一種簡單的基于LSTM(long short-term memory)網(wǎng)絡結構的事件時序關系抽取模型.該模型以事件之間的最短的句法依賴關系路徑作為輸入，識別相同句子或相鄰句子中的事件時序關系類別，在TB-Dense數(shù)據(jù)集上取得不錯效果.類似地，Cheng等人[13]采取最短句法依賴關系路徑作為輸入，構造了一種基于雙向長短期記憶的神經(jīng)網(wǎng)絡模型，同樣取得不錯的效果.之后，Han等人[14]提出了一種結合結構化學習的神經(jīng)網(wǎng)絡模型.該模型包括遞歸神經(jīng)網(wǎng)絡來學習成對事件時序關系的評分函數(shù)，以及結構化支持向量機(structured support vector machine, SSVM)進行聯(lián)合預測.其中神經(jīng)網(wǎng)絡自動學習事件所在情境的時序關系表示，來為結構化模型提供魯棒的特征，而SSVM則將時序關系的傳遞性等領域知識作為約束條件，來做出更好的全局一致決策，通過聯(lián)合訓練提升整體模型性能.

基于深度學習的事件時序關系抽取方法，相較于基于傳統(tǒng)機器學習的方法，能自動學習并表示特征，無需繁雜的特征工程且模型性能更高而泛化性能力更強，如今已經(jīng)成為了事件時序關系抽取領域的研究趨勢.

2 結合上下文的篇章級事件時序關系抽取

現(xiàn)有的事件時序關系抽取方法，無論是基于規(guī)則還是基于傳統(tǒng)機器學習或深度學習，其本質上都是一個句子級的事件對的時序關系分類器.其實現(xiàn)方式為

rij=f(sentij)，

(1)

其中,rij表示任意事件對ei,ej的時序關系，f為時序關系分類器，sentij為事件對所在句子.可以看出時序關系rij僅基于事件對所在的句子信息，而這有限的局部信息導致識別的精度較低且無法保證全文整體的時序關系的一致性.

針對句子級事件時序關系抽取方法的局限性，本文提出結合上下文信息的篇章級事件時序關系抽取模型.可形式化為

rij=f(sentij,contextij)，

(2)

其中，contextij為事件對ei,ej的上下文，即事件對所在文章信息.

2.1 上下文信息增強的事件時序關系抽取模型

本文提出篇章級的事件時序關系抽取模型，稱為上下文信息增強的事件時序關系抽取模型(context information enhanced event temporal relation extraction model, CE-TRE).模型的整體框架如圖2所示，主要包含3個部分：1)事件對的時序關系編碼模塊；2)事件對的上下文增強模塊；3)輸出模塊.其中，我們分別將每個事件對的句子級時序關系表示Sk通過全連接層得到Query：Qk，Key：Kk，Value：Vk.CE-TRE模型以文章作為基本輸入單元.按照事件對分句后，事件對的時序關系編碼模塊使用基于Bi-LSTM的神經(jīng)網(wǎng)絡模型學習事件對的時序關系表示；事件對上下文增強模塊利用自注意力機制結合上下文中其他事件對的信息，得到更完備的事件對時序關系表示；輸出模塊根據(jù)事件對時序關系表示預測事件對的時序關系類別.

Fig.2 Context information enhanced event temporal relation extraction model圖2 上下文信息增強的事件時序關系抽取模型

2.2 時序關系編碼模塊

時序關系編碼模塊用于初步編碼每個事件對的句子級時序關系表示.CE-TRE模型以文章作為輸入單元，對于每個文章輸入，先將其按一個個事件對把文章分為一個個句子(存在一個句子包含多個事件對的情況)，得到所有事件對的所在句子集合.時序關系編碼模塊就以每個事件對的所在句子作為輸入，編碼事件對的句子級時序關系表示.具體如圖3所示.

Fig.3 Temporal relation coding module圖3 時序關系編碼模塊

給定事件對所在的句子(可以是單獨的1個句子或連續(xù)的2個句子)，表示為tk=(tk1,…,tki,…,tkj,…,tkL)，其中k表示該句子是文章按事件對分句后的第k個句子，tki和tkj為事件對應的詞.

首先本文使用預訓練好的BERT[15]模型計算每個詞的詞嵌入vki，得到句子的向量表示sentk.使用BERT計算詞嵌入的目的是為了得到上下文有關的詞向量表示，使得后續(xù)模塊能更好地學習事件對的時序關系表示.因為預訓練的BERT只用于計算詞向量，不參與整體模型的訓練，因此不會影響整體模型的訓練難度.形式化過程為

sentk=(vk1,vk2,…,vkL)=EmbeddingBERT(tk).

(3)

接著，將事件對所在句子sentk通過Bi-LSTM模型，可以得到句子長度的隱藏狀態(tài)序列Hk=(hk1,…,hki,…,hkj,…,hkL).將2個事件的位置(i和j)相對應的隱藏狀態(tài)hki和hkj串聯(lián)起來，得到事件對的句子級時序關系向量表示Sk=(hki;hkj).上述過程可形式化為

(hk1,hk2,…,hkL),hkL=Bi_LSTM(sentk,hk0)，

(4)

最后，1個句子可能包含多個事件對，因此本模塊針對1個句子輸入，可能輸出多個事件對向量表示，一起匯總成文章的事件對表示集合.

2.3 事件對上下文增強模塊

本文將時序關系編碼模塊得到的每個事件對的句子級的時序關系表示，輸入到事件對上下文增強模塊，得到上下文信息增強的事件對時序關系表示.具體如圖4所示:

Fig.4 Context enhancement module for event pairs圖4 事件對上下文增強模塊

Fig.5 Self-Attention diagram圖5 Self-Attention示意圖

(5)

(6)

該過程可簡寫為

(7)

2.4 輸出模塊

本模塊用于輸出事件對的時序關系的分類預測值.如圖6所示，本模塊將上下文增強后的事件對時序關系表示，通過一層全連接層和用于分類的softmax層，得到該事件對的T維的時序關系概率向量Rk.其中第j個元素表示將其判別為第j個時序關系類型的概率值.我們采用真實時序關系類型和預測概率的交叉熵誤差作為損失函數(shù)：

(8)

其中，N為事件對總數(shù)，I為指示函數(shù).

Fig.6 Output module圖6 輸出模塊

3 實驗

本節(jié)主要介紹實驗部分的相關細節(jié).首先介紹本文所使用的公開數(shù)據(jù)集與實驗的評價指標，接著介紹實驗對比的基線方法，隨后介紹實驗的參數(shù)設置，最后對實驗結果進行分析與探討.

3.1 數(shù)據(jù)集與評價指標

本文在公開的TB-Dense和MATRES數(shù)據(jù)集上對模型的效果和性能進行評估，這2個數(shù)據(jù)集的規(guī)模信息如表1所示:

Table 1 Statistics of TB-Dense and MATRES Datasets表1 數(shù)據(jù)集TB-Dense和MATRES的規(guī)模統(tǒng)計

表1詳細說明為：

1) TB-Dense數(shù)據(jù)集是Cassidy等人[2]基于TimeBank數(shù)據(jù)集，通過標注相同或相鄰句子中的所有事件對的時序關系，構建的稠密標注語料，解決了TimeBank的標注稀疏性，近年來已被廣泛應用于事件時序關系抽取研究.TB-Dense包含6類時序關系：VAGUE，BEFORE，AFTER，SIMULTANEOUS，INCLUDES，IS_INCLUDED.

2) MATRES是Ning等人[3]在2018年基于TempRels3數(shù)據(jù)集(TempEval第3次評測任務[17]構建的數(shù)據(jù)集，包括TimeBank，AQUAINT(advanced question-answering for intelligence)，Platinum)構建的新數(shù)據(jù)集.該數(shù)據(jù)集通過使用多軸注釋方案并采用事件起點比較時序來改進注釋者之間的一致性，進一步提高了數(shù)據(jù)質量，成為近幾年來值得關注的一個新數(shù)據(jù)集.MATRES只包含4類時序關系：VAGUE，BEFORE，AFTER，SIMULTANEOUS.

為了與已有相關研究進行對比，本實驗采用2套微平均F1值作為評價指標，具體為：

1) 針對數(shù)據(jù)集TB-Dense，使用全部6個時序關系類別的Micro-F1.

2) 針對數(shù)據(jù)集MATRES，使用除了“VAGUE”外的3個時序關系類別的Micro-F1.

3.2 基準方法

1) CAEVO.Chambers等人[18]于2014年提出的有序篩網(wǎng)式流水線模型.其中每個篩子可以是基于規(guī)則的分類器，也可以是機器學習模型.

2) CATENA.Mirza等人[19]于2016年提出了多重篩網(wǎng)式的事件關系抽取系統(tǒng)，可利用時序關系抽取模型和因果關系抽取模型之間的交互作用，增強時序和因果關系的提取和分類.

3) 文獻[13]方法.Cheng等人[13]于2017年提出了一種基于雙向長短期記憶(Bi-LSTM)的神經(jīng)網(wǎng)絡模型，該模型采取最短句法依賴關系路徑作為輸入，能達到與基于人工特征相當?shù)男阅?

4) 文獻[20]方法.Vashishtha等人[20]于2019年提出了一個用于建模細粒度時序關系和事件持續(xù)時間的新語義框架，該框架將成對的事件映射到實值尺度，以構建文檔級事件時間軸.基于此框架，訓練模型聯(lián)合預測細粒度的時序關系和事件持續(xù)時間.

5) 文獻[21]方法.Meng等人[21]于2018年提出了上下文感知的事件時序關系抽取的神經(jīng)網(wǎng)絡模型，模型以事件最短依存路徑作為輸入，按敘述順序儲存處理過的時序關系，用于上下文感知.

6) 文獻[22]方法.Han等人[22]于2019年提出了一種具有結構化預測的事件和事件時序關系聯(lián)合抽取模型.該模型讓事件抽取模塊和事件時序關系抽取模塊共享相同的上下文嵌入和神經(jīng)表示學習模塊，從而改善了事件表示.利用結構化的推理共同分配事件標簽和時序關系標簽，避免了常規(guī)管道模型中的錯誤傳遞.

3.3 實驗參數(shù)設置

CE-TRE中，Bi-LSTM層的輸出維度為100，線性層的輸入維度為400和100；模型訓練的batch_size大小為1(因為篇章級的事件時序關系抽取以文章為基本單位，一篇文章包含若干的事件對).

此外由于篇章級時序關系抽取以文章為輸入單位，而不同文章包含的事件對的數(shù)目是不同的.這種差異導致不同batch包含的事件對數(shù)目存在明顯差異，如果使用一樣的學習率進行訓練，會使得模型更新不均衡，導致模型優(yōu)化過程不穩(wěn)定.因此，本文使用的解決策略為設置動態(tài)學習率，為包含事件對多的文章樣例增大學習率，即學習率與事件對數(shù)目正相關：

(9)

其中，lr_base為基準學習率，設置為0.000 1；lr_decay為學習率衰減，設置為0.9，每5輪進行1次衰減；rel_num為文本包含的事件對數(shù)目，學習率與其成正比.

3.4 實驗結果與分析

為了驗證本文提出的模型CE-TRE在不同數(shù)據(jù)集上的抽取效果，本文選取了近幾年的主流模型(如3.2節(jié)所述)與CE-TRE在公開的TB-Dense和MATRES數(shù)據(jù)集上進行對比實驗.

3.4.1 驗證CE-TRE模型性能

實驗1.在TB-Dense數(shù)據(jù)集上驗證CE-TRE模型性能.

在數(shù)據(jù)集TB-Dense上實驗的原因是該數(shù)據(jù)是事件時序關系抽取任務的傳統(tǒng)數(shù)據(jù)集，有著充分的前人工作可以對比.實驗結果如表2所示, 與近幾年的主流模型對比，本文提出的CE-TRE模型在TB-Dense取得了最高的Micro-F1評分,這說明CE-TRE模型很有競爭力.

實驗2.在MATRES數(shù)據(jù)集上驗證CE-TRE模型性能.

在數(shù)據(jù)集MATRES上實驗的原因是該數(shù)據(jù)是個新的標注質量更高且數(shù)據(jù)規(guī)模更大的數(shù)據(jù)集，可以進一步驗證本文提出模型的效果.實驗結果如表3所示，在MATRES數(shù)據(jù)集上，本文提出的CE-TRE模型的效果優(yōu)于2019年最優(yōu)的文獻[22]方法[22].

Table 2 Comparative Experiment of CE-TRE and 6 Baselines on TB-Dense

Table 3 Comparative Experiment of CE-TRE and the Best Baseline on MATRES

3.4.2 驗證結合上下文信息對模型的增強效果

實驗3.驗證結合上下文的有效性.

為了驗證結合上下文信息，是否對事件時序關系抽取模型有著增益效果，本實驗對比有無上下文信息增強的模型的效果.實驗結果如表4所示，在2個數(shù)據(jù)集上，結合上下文信息的CE-TRE模型均優(yōu)于未結合上下文信息的TRE(without CE)模型.此結果表明，結合上下文信息確實能夠增強事件對時序關系抽取模型的效果.

Table 4 Comparative Experiment Between CE-TREand TRE (without CE)

此外，通過對比2個數(shù)據(jù)集上的實驗結果可以發(fā)現(xiàn)，CE-TRE模型相比于TRE模型，在數(shù)據(jù)集TB-Dense上的性能提升較為顯著(采用McNemar檢驗，所得p<0.005)，而在數(shù)據(jù)集MATRES上的性能差距較小.本文認為原因是：MATRES數(shù)據(jù)集的標注類別只包含4類，相較于TB-Dense的6類，MATRES中的事件時序關系的識別難度較低.同時，MATRES數(shù)據(jù)集中的句子平均長度長于TB-Dense數(shù)據(jù)集，通常情況下，MATRES的句子包含的時序關系信息也會更多.這2點使得未結合上下文信息的TRE模型在MATRES數(shù)據(jù)集上也能取得較高的得分，從而CE-TRE模型相比TRE模型提升較小.同時，TRE(without CE)模型在2個數(shù)據(jù)集上的性能還優(yōu)于許多基線模型，本文認為：TRE雖未結合上下文信息，但模型的訓練方式和CE-TRE一樣，以文章作為單位輸入，使得模型的每次更新優(yōu)化只針對1篇文本的數(shù)據(jù)，可以集中學習每篇文章所屬文意的時序關系，從而學習出更優(yōu)的模型.

3.4.3 實驗結果樣例分析

如表5中的樣例，需判斷事件E1與事件E2之間的時序關系.對于未結合上下文信息的事件對時序關系識別模型TRE，其預測結果為“VAGUE”，預測錯誤.而結合上下文信息的事件對時序關系識別模型CE-TRE的預測結果為“BEFORE”，預測正確.通過分析樣例可知，TRE預測錯誤的原因是樣例的句子信息不足以判別事件對的時序關系.而CE-TRE通過結合上文中的“1991年，查爾斯·基廷在州法院被判協(xié)助詐騙數(shù)千名投資者，這些投資者購買了基廷在林肯儲蓄貸款公司員工出售的高風險垃圾債券.”的信息可知，基廷于1991年被判協(xié)助詐騙，導致投資者購買了垃圾債券，之后債券變得一文不值.由此推斷1996年基廷的判決被推翻發(fā)生在債券變得一文不值之后.

Table 5 A Sample from TB-Dense Dataset表5 來自TB-Dense數(shù)據(jù)集的樣例

由TRE和CE-TRE在樣例上的預測結果進一步驗證了結合上下文的有效性.

綜合實驗1和實驗2的結果，本文提出的CE-TRE模型在2個數(shù)據(jù)集上均取得優(yōu)于近年來的最新模型，說明了本文方法的有效性.其次通過對比有上下文增強的CE-TRE模型和無上下文增強的TRE(without CE)模型的評分，以及兩者在表5中樣例的預測結果可以看出，結合上下文信息確實能夠增強事件對時序關系抽取模型的效果.

4 總結

事件時序關系抽取技術是一種從文本中獲取事件的時序結構信息的重要手段，有著很高的研究價值和實用價值.現(xiàn)有的事件時序關系抽取方法往往都是句子級的抽取方法，存在時序關系識別精度低且無法保證全文一致性的問題.本文提出了一種融合上下文信息的篇章級事件時序關系抽取方法，并通過TB-Dense數(shù)據(jù)集和MATRES數(shù)據(jù)集上的多組實驗驗證了本文方法的有效性.

目前事件時序關系抽取的數(shù)據(jù)集規(guī)模都較小，限制了神經(jīng)網(wǎng)絡模型的抽取性能.在未來的工作中，我們將進一步研究如何豐富相關數(shù)據(jù)集或如何引入外部資源來進一步提升事件時序關系抽取模型的性能.