• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度學(xué)習(xí)的篇章級(jí)事件抽取研究綜述

      2022-12-22 11:45:50胡瑞娟周會(huì)娟劉海硯

      胡瑞娟,周會(huì)娟,劉海硯,李 健

      戰(zhàn)略支援部隊(duì)信息工程大學(xué),鄭州 450001

      事件抽取主要研究從非結(jié)構(gòu)化文本中抽取出結(jié)構(gòu)化的事件信息,如何人、何時(shí)、在何地、做了何事。事件抽取是一項(xiàng)十分重要且具有挑戰(zhàn)性的課題,可以為知識(shí)圖譜構(gòu)建[1-2]、推薦系統(tǒng)[3-4]、智能問答[5-6]以及其他任務(wù)[7-9]提供有效的結(jié)構(gòu)化信息。按照文本抽取的粒度,事件抽取可分為句子級(jí)事件抽取和篇章級(jí)事件抽取。目前研究較多的是從一個(gè)句子中提取事件信息的句子級(jí)事件抽取,然而,由于事件的異質(zhì)性和事件描述的多樣性,會(huì)存在事件信息(事件數(shù)量、類型、要素)提取不全面、不完整的情況,而篇章級(jí)事件抽取是從文檔級(jí)文本出發(fā),側(cè)重更為全面、完整的事件信息提取,這有助于用戶從大量的信息中快速、準(zhǔn)確地捕獲感興趣的內(nèi)容。篇章級(jí)事件抽取在熱點(diǎn)追蹤、輿情監(jiān)控、軍事情報(bào)、金融投資等領(lǐng)域發(fā)揮著重要作用[10]。

      根據(jù)文本抽取的領(lǐng)域范圍,事件抽取通常分為限定域事件抽取和開放域事件抽取。限定域事件抽取是指在進(jìn)行抽取前,預(yù)先定義好目標(biāo)事件的類型及每種類型的事件元素,通常會(huì)給出一定量的標(biāo)注數(shù)據(jù),不同的領(lǐng)域背景知識(shí)和應(yīng)用需求使得定義的事件類型和事件元素各不相同。開放域事件抽取是指在進(jìn)行事件識(shí)別之前,可能的事件類型以及事件的結(jié)構(gòu)都是未知的,所以這項(xiàng)任務(wù)通常沒有標(biāo)注數(shù)據(jù),主要是基于無監(jiān)督的方法和分布假設(shè)理論,如通過事件實(shí)例中的觸發(fā)詞事件元素進(jìn)行聚類等方式進(jìn)行抽取。由于開放域事件抽取沒有預(yù)定義的事件類型和明確固定的場景,所用文本來自于類似社交媒體等大量復(fù)雜的語料,導(dǎo)致抽取難度大,且相關(guān)研究還不夠深入,目前學(xué)術(shù)界研究較多較深的是限定域事件抽取。下文重點(diǎn)對(duì)篇章級(jí)事件抽取的任務(wù)、挑戰(zhàn)、模型和方法等進(jìn)行闡述。

      1 主要任務(wù)及挑戰(zhàn)

      1.1 主要任務(wù)

      事件抽取的主要任務(wù)包括事件檢測(cè)和論元識(shí)別,此外還包括事件關(guān)系抽取、事件消歧等外延任務(wù),當(dāng)前針對(duì)于篇章級(jí)事件抽取,大部分研究聚焦于事件檢測(cè)和論元識(shí)別兩項(xiàng)主要任務(wù)。其中事件檢測(cè)包括觸發(fā)詞識(shí)別和事件類型發(fā)現(xiàn)兩個(gè)子任務(wù),論元識(shí)別包括論元抽取和角色分配兩個(gè)子任務(wù),根據(jù)自動(dòng)內(nèi)容抽取評(píng)測(cè)會(huì)議(automatic content extraction,ACE)定義的與事件相關(guān)的概念,結(jié)合篇章級(jí)事件抽取的實(shí)際問題,梳理了幾個(gè)任務(wù)之間的關(guān)系如圖1所示。

      圖1 篇章級(jí)事件抽取的主要任務(wù)Fig.1 Main tasks of document-level event extraction

      觸發(fā)詞識(shí)別:識(shí)別事件的觸發(fā)詞,觸發(fā)詞是最能代表或觸發(fā)一個(gè)事件發(fā)生的詞,一般是動(dòng)詞或是名詞,事件觸發(fā)詞確定了事件類型。

      事件類型發(fā)現(xiàn):一個(gè)文檔中通常包含任意數(shù)量、多種類型的事件,發(fā)現(xiàn)文檔中的包含多少個(gè)事件(事件數(shù)量)并明確每個(gè)事件分別是屬于何種事件類型(事件種類)。通常一個(gè)事件類型由觸發(fā)詞觸發(fā),能夠根據(jù)識(shí)別出的觸發(fā)詞確定事件類型,但也會(huì)存在描述事件的文檔中沒有觸發(fā)詞的情況,則可以根據(jù)文檔中描述事件的中心句來確定事件類型。

      論元抽取:抽取事件的論元,論元指事件的參與者,是組成事件的核心部分,它與事件觸發(fā)詞構(gòu)成了事件的整個(gè)框架。一個(gè)事件通常包含多個(gè)論元,這些論元可能分散在文檔的多個(gè)不同句子中,這種現(xiàn)象稱為“論元分散”,文檔中不同的事件類型或相同事件類型可能共享一個(gè)事件論元,這種現(xiàn)象稱為“論元重疊”,因此,篇章級(jí)論元抽取時(shí)會(huì)存在“論元分散”和“論元重疊”的問題。

      角色分配:明確事件論元與事件觸發(fā)詞之間的語義關(guān)系,即論元在相應(yīng)的事件中扮演什么角色。文檔中同一個(gè)論元可能會(huì)出現(xiàn)在不同事件中且擔(dān)任不同的角色,這種現(xiàn)象稱為“角色重疊”,因此,篇章級(jí)事件抽取中會(huì)存在“角色重疊”的問題。

      1.2 面臨的挑戰(zhàn)

      目前很多測(cè)評(píng)和任務(wù)(如ACE)都為事件制定了事件類型[11],每個(gè)類型下又定義類若干子類型并為每個(gè)事件子類別制定了模板,方便事件論元的抽取及角色的分配。然而,從上述對(duì)四個(gè)子任務(wù)的分析可以得出,篇章級(jí)事件抽取面臨的兩個(gè)重大挑戰(zhàn):事件論元分散和多事件問題。

      (1)論元分散問題,即指一個(gè)事件的論元分散在文檔中多個(gè)不同的句子中。假設(shè)一個(gè)文檔doc包含n個(gè)句子,用doc={S1,S2,…,Si,…,Sn}表示,如圖2所示,文檔中共有2個(gè)句子,包含一個(gè)捐贈(zèng)事件,論元分散在兩個(gè)句子中,其中S1中的“中國”“塞爾維亞”“15日”分別扮演捐贈(zèng)方、接收方、時(shí)間的角色,S2中“新冠病毒檢測(cè)試劑盒”“口罩”“呼吸機(jī)”“防護(hù)服”扮演著捐贈(zèng)物的角色。

      圖2 文檔doc1(觸發(fā)詞:“捐贈(zèng)”)Fig.2 Document doc1(trigger word:donation)

      (2)多事件問題,即一個(gè)文檔中通常包含多種類型的事件或同一類型的多個(gè)事件,且存在論元重疊、角色重疊的問題。如“在巴格達(dá),當(dāng)一個(gè)美國坦克對(duì)著巴基斯坦酒店開火時(shí),一個(gè)攝影師死去了”,包含“死亡”和“攻擊”兩種事件類型,“攝影師”這一論元分別在兩個(gè)事件中擔(dān)任著“受害者”和“攻擊目標(biāo)”兩個(gè)不同的角色。很多情況下,論元分散和多事件問題并不是兩個(gè)絕對(duì)獨(dú)立的問題,二者同時(shí)存在于篇章級(jí)事件抽取任務(wù)中,如圖3所示,粗斜體是分散在不同句子中的事件論元,文檔中共有31個(gè)句子,包含兩個(gè)股權(quán)質(zhì)押事件,Event-1的論元分散在S12、S21和S22中,Event-2的論元分散在S18、S21和S22中,且Event-1和Event-2都 包含“塔城國際”這一論元。

      圖3 文檔doc2(無觸發(fā)詞)Fig.3 Document doc2(no trigger words)

      2 限定域事件抽取的模型和方法

      目前研究較多的是句子級(jí)事件抽取,句子級(jí)事件抽取只使用句子內(nèi)部獲取的特征,傳統(tǒng)基于特征工程的方法手工設(shè)計(jì)特征[12],無法適應(yīng)依賴復(fù)雜語義關(guān)系的任務(wù),最近的事件抽取工作基于深度學(xué)習(xí)框架自動(dòng)學(xué)習(xí)特征,主要使用流水線(pipeline)模型[13-16]和聯(lián)合抽?。╦oint)模型[17-20]兩類?;诹魉€模型的方法,不管是用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)還是循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN),均采用流水線的方式將抽取過程拆分為兩個(gè)獨(dú)立的過程,先抽取事件觸發(fā)詞、確定事件類型,根據(jù)事件類型和觸發(fā)詞的預(yù)測(cè)結(jié)果提取論元并分類論元角色。這種方法雖然能使論元識(shí)別部分充分利用事件觸發(fā)詞的語義信息,但也造成了誤差傳播的問題,觸發(fā)詞的預(yù)測(cè)結(jié)果直接影響論元識(shí)別的結(jié)果。為了克服由事件檢測(cè)引起的錯(cuò)誤傳播,研究者提出了聯(lián)合抽取模型,針對(duì)事件觸發(fā)詞之間、事件論元之間、事件觸發(fā)詞和事件論元之間的全局特性,通過聯(lián)合訓(xùn)練事件檢測(cè)和論元識(shí)別任務(wù)來減少誤差的傳播[21-22]。

      這些方法核心思路是從句子級(jí)出發(fā),難以應(yīng)對(duì)“論元分散”和“多事件”等問題。為了應(yīng)對(duì)“論元分散”和“多事件”的挑戰(zhàn),篇章級(jí)事件抽取相關(guān)研究陸續(xù)展開。

      針對(duì)論元分散和多事件問題,可以從以下幾個(gè)方面考慮:首先,從篇章全局感知上下文,通過獲取不同粒度的語義表示(詞語粒度、句子粒度、文檔粒度),擴(kuò)大感受野以更好地識(shí)別分散在多個(gè)句子中的觸發(fā)詞和事件論元;其次,文本序列中的句子結(jié)構(gòu)信息(句法解析樹)、語義信息(語義解析樹)可以用于增強(qiáng)原始序列數(shù)據(jù)的表示,通過建模圖結(jié)構(gòu)來學(xué)習(xí)、捕獲文檔數(shù)據(jù)的獨(dú)特特征,以獲取篇章內(nèi)事件的關(guān)聯(lián);再次,將前兩類方法結(jié)合,融合不同層級(jí)的語義特征和不同粒度的結(jié)構(gòu)特征,獲取全面、完整的事件信息;最后,借鑒閱讀理解、智能問答等自然語言處理任務(wù)或其他任務(wù)的有效解決方案,將事件抽取任務(wù)巧妙地轉(zhuǎn)化為其他任務(wù)來解決。

      鑒于以上考慮,將現(xiàn)有的篇章級(jí)事件抽取方法歸納為四類:獲取不同粒度語義表示的方法、捕獲結(jié)構(gòu)特征的方法、融合語義和結(jié)構(gòu)特征的方法以及任務(wù)轉(zhuǎn)化的方法。

      2.1 獲取不同粒度語義表示的事件抽取方法

      將文本的語義信息表示為低維稠密向量,在固定長度的稠密向量中編碼詞語、句子或文檔,在獲取詞語、句子或文檔的語義表示時(shí),一篇文檔的語義由其各組成部分的語義,以及它們之間的組合方法所確定。因此,從獲取詞語、句子、文檔三種不同粒度的語義表示分析事件抽取典型模型和方法。

      2.1.1 獲取詞語粒度語義表示

      傳統(tǒng)詞袋模型表征文本,依靠統(tǒng)計(jì)每個(gè)詞在句子或文檔里的頻率,無法捕捉詞語之間順序和詞語之間的語義關(guān)系。通過神經(jīng)網(wǎng)絡(luò)將稀疏的離散詞向量表示為分布式的低維稠密向量,通過模型訓(xùn)練使向量包含語義信息,通過距離函數(shù)計(jì)算相似度來表示向量間的語義關(guān)系。2013年Google團(tuán)隊(duì)提出的word2vec[23],映射每一個(gè)詞到一個(gè)固定的向量,包括通過上下文預(yù)測(cè)中心詞(continuous bag of words,CBOW)和通過中心詞預(yù)測(cè)上下文(Skip-gram)兩種方法,word2vec詞向量使相似的文本擁有相似的嵌入,可以較好地表達(dá)不同詞之間的相似和類比關(guān)系,但只考慮了詞的局部信息,且不能有效解決多義詞的問題,Glove利用共現(xiàn)矩陣[24],同時(shí)考慮了局部信息和全局信息,但屬于靜態(tài)詞向量,也不能表示一詞多義,于是產(chǎn)生了根據(jù)上下文隨時(shí)變化詞向量的ELMO模型[25],該模型通過不同的語句對(duì)同一個(gè)詞語訓(xùn)練得到不同的詞向量,有效區(qū)分出同一個(gè)詞在不同語境下表示的不同含義,從而解決了多義詞的問題,但實(shí)質(zhì)也沒有很好地利用上下文。BERT利用雙向transformer語言模型結(jié)合上下文語義采用mask方式訓(xùn)練從而得到語義更加豐富的詞向量[26]。

      Zhu等從詞粒度出發(fā)設(shè)計(jì)高效的離散特征,包括特征詞中包含的所有信息的局部特征,以及將觸發(fā)詞與論元連接起來的全局特征[27]。羅明等針對(duì)中文自然語言的歧義性、多樣性等問題,提出了基于有限狀態(tài)機(jī)驅(qū)動(dòng)的層次化詞匯-語義模式的金融事件抽取模型[28]。Liu等使用論元的局部特征來輔助角色分類,首次將實(shí)體識(shí)別和論元抽取作為聯(lián)合任務(wù)學(xué)習(xí)[29]。

      2.1.2 獲取句子粒度語義表示

      通過訓(xùn)練詞向量或設(shè)計(jì)詞語離散特征的方式可以獲取詞語的語義表示,這促進(jìn)了單一地觸發(fā)詞識(shí)別和論元抽取任務(wù),但對(duì)于句子中論元與觸發(fā)詞之間的語義關(guān)聯(lián)、觸發(fā)詞與事件類型之間的語義關(guān)聯(lián)等,僅僅依賴詞語粒度的語義這種局部特征是遠(yuǎn)遠(yuǎn)不夠的,因此需要獲取句子粒度的上下文語義表示。

      (1)通過CNN獲取句子語義表示

      將事件抽取看做分類任務(wù),使用CNN進(jìn)行事件分類(事件類型發(fā)現(xiàn))和角色分類(論元角色分配)兩個(gè)相對(duì)獨(dú)立的任務(wù)是一種簡單易實(shí)現(xiàn)的方式。CNN以ngram作為基本單位建立句子的表示,通過將多個(gè)卷積核的結(jié)果特征矩陣合并,再利用池化層對(duì)抽取的特征進(jìn)行特征壓縮(取最大或平均),減少模型參數(shù),增強(qiáng)泛化能力。Nguyen等人使用CNN解決事件檢測(cè)任務(wù)[13]。Chen等提出了動(dòng)態(tài)多池化卷積神經(jīng)網(wǎng)絡(luò)模型(dynamic multi-pooling convolutional neural network,DMCNN)[14],在捕獲詞語級(jí)有意義的語義規(guī)則基礎(chǔ)上,采用基于CNN的框架來學(xué)習(xí)句子級(jí)表示,并使用動(dòng)態(tài)多池化策略抽取觸發(fā)詞和事件論元,動(dòng)態(tài)多池化策略與普通最大池化機(jī)制相比,可以更好地保留有效的特征,有效應(yīng)對(duì)句子級(jí)“多事件”和“論元重疊”問題,但卻存在事件分類階段的誤差會(huì)傳播至角色分類階段的問題。

      (2)通過RNN獲取句子語義表示

      將事件抽取視為序列標(biāo)注任務(wù),使用RNN對(duì)序列信息進(jìn)行建模,考慮上下文語義信息,為句子中每個(gè)字標(biāo)注對(duì)應(yīng)的標(biāo)簽,能夠同時(shí)區(qū)分觸發(fā)詞和事件論元,并且避免了CNN方式的誤差傳播問題。但RNN存在梯度爆炸或梯度消失問題,其改進(jìn)的長短時(shí)記憶網(wǎng)絡(luò)(long short term memory networks,LSTM)巧妙地使用遺忘門和記憶門存儲(chǔ)遠(yuǎn)距離信息有效解決了RNN的長期依賴問題,但沒有考慮上文信息,雙向BiLSTM能夠更好地依賴上下文獲取句子的有效表示。Nguyen等基于RNN構(gòu)建了局部特征和全局特征[18],用于觸發(fā)詞識(shí)別和論元分類的聯(lián)合抽??;Feng等采用了添加CNN的RNN模型[15],分別獲取文本的詞語和序列特征,然后將詞語特征和序列特性合并作為最后的特征進(jìn)行事件抽取。游飛使用BiLSTM模型,融合詞向量、詞性、局部特征向量、句法分析結(jié)果和武器裝備實(shí)體等特征,實(shí)現(xiàn)了軍事領(lǐng)域事件抽取[30]。路揚(yáng)使用BiLSTM模擬上下文輸入,利用組合特征完成多任務(wù)的生物醫(yī)學(xué)事件抽取[31-32]。

      (3)注意力機(jī)制獲取句子語義表示

      CNN、RNN在建模句子語義表示時(shí)忽略了句子中不同部分關(guān)注程度的異同,而與事件類型、觸發(fā)詞密切相關(guān)論元分散、角色重疊等問題需要給予句子不同部分不同的關(guān)注度才能更好地表示它們之間的語義關(guān)聯(lián)。注意力機(jī)制能夠?qū)Y(jié)構(gòu)化關(guān)系進(jìn)行建模,通過控制模型對(duì)句子中不同部分的關(guān)注程度,注意力機(jī)制引導(dǎo)模型對(duì)句子中和事件相關(guān)的重要部分賦予更高權(quán)重,而對(duì)不相關(guān)部分賦予較低權(quán)重。Liu等將識(shí)別出的論元的特征添加到觸發(fā)詞抽取模型中[33]。黃細(xì)鳳為了獲取更多的上下文序列之間的信息,在雙向RNN模型中增加了動(dòng)態(tài)掩蔽注意力機(jī)制(DyMAN)[34-35],提升了抽取效果。針對(duì)句子級(jí)多事件,主要利用各種特征、保留更多的上下文特征、引入關(guān)系弧、引入篇章級(jí)的特征等,這些方法沒有考慮到事件之間的關(guān)系。聯(lián)合多事件抽取框架JMEE通過引入語法弧和注意力機(jī)制來實(shí)現(xiàn)詞語之間的信息流聯(lián)系,并利用上下文語法表示聯(lián)合抽取觸發(fā)詞和事件論元,特別保留了多個(gè)事件之間的聯(lián)系[36]。

      Transformer使用注意力機(jī)制結(jié)構(gòu)代替了LSTM對(duì)序列進(jìn)行表示,摒棄了之前傳統(tǒng)的encoder-decoder模型必須結(jié)合CNN或RNN的固有模式,可以綜合考慮句子兩個(gè)方向的信息,在減少計(jì)算量和提高并行效率的同時(shí)取得了更好的效果。預(yù)訓(xùn)練語言模型BERT等采用Transformer進(jìn)行編碼的同時(shí)雙向綜合地考慮上下文特征。針對(duì)多事件中存在論元角色重疊問題,采用預(yù)訓(xùn)練語言模建模句內(nèi)和句間上下文信息,從整體上提高了任務(wù)的準(zhǔn)確度[37]。DYGIE++是一個(gè)基于BERT的框架,它對(duì)文本跨度建模并學(xué)習(xí)句內(nèi)和句間上下文信息[38]。MLBiNET使用基于encoder-decoder模型的多層雙向網(wǎng)絡(luò)同時(shí)識(shí)別篇章內(nèi)的多個(gè)事件,該模型包括語義編碼器、雙向解碼器、信息集成層、多層雙向打標(biāo)器四個(gè)部分[39]。其中,語義編碼層由BiLSTM和自注意力機(jī)制構(gòu)成;雙向解碼層融合前向解碼和后向解碼來捕獲雙向事件依賴關(guān)系;信息集成層基于簡單的LSTM結(jié)構(gòu),將事件標(biāo)簽信息和語義信息集成到句子中;多層雙向打標(biāo)器逐層傳遞相鄰句子信息,最終捕獲較大鄰域中的語義和事件信息,從而實(shí)現(xiàn)跨句子事件的聯(lián)合抽取。

      2.1.3 句子和文檔多粒度混合語義表示

      從詞粒度、句子粒度出發(fā)獲取詞語、句子的有效特征進(jìn)行事件抽取,可以提升句子級(jí)事件抽取的效果,但不能有效解決論元分散和多事件問題。如果將整篇文檔作為輸入,輸出事件元素,是否可以在一定程度上提升篇章級(jí)事件抽取的效果呢?Du等通過實(shí)驗(yàn)證明了這種方法效果并不好。隨著輸入長度的增加,即一次輸入一個(gè)句子、k個(gè)句子(k取2,3,4,5)和整篇文檔,其準(zhǔn)確率先上升后下降,而召回率先下降后上升,最終F1值并沒有得到改善。這表明,篇章級(jí)事件抽取不僅要關(guān)注整個(gè)文檔,還要關(guān)注句子層面的語境[40]。因此,出現(xiàn)了使用句子和文檔多粒度混合的抽取方法。

      思路一是從整體角度將篇章級(jí)事件抽取轉(zhuǎn)換為序列標(biāo)注任務(wù),其輸入是句子級(jí)表示和文檔級(jí)表示的融合特征。如圖4所示,左半部分逐句將句子進(jìn)行編碼,并將其輸入至句子級(jí)BiLSTM,然后拼接產(chǎn)生的編碼以獲取這k個(gè)句子的句子級(jí)表示。右半部分將這k個(gè)句子編碼在一起,同時(shí)將它們輸入到文檔級(jí)BiLSTM,以獲得這k個(gè)句子的文檔級(jí)表示,然后通過門控機(jī)制將兩者融合。實(shí)驗(yàn)表明,與單獨(dú)輸入句子或單獨(dú)輸入文檔相比,使用門控機(jī)制動(dòng)態(tài)結(jié)合來自不同級(jí)別文檔的信息可以獲得更好的效果。

      圖4 句子和文檔多粒度混合方法(思路一)Fig.4 Sentence and document multi-granularity hybrid approach(idea 1)

      思路二是先將句子級(jí)抽取轉(zhuǎn)化為序列標(biāo)注,然后將句子級(jí)抽取的輸入與輸出拼接作為文檔級(jí)別抽取的輸入。一般來說,一個(gè)事件在一個(gè)文本中通常會(huì)有一個(gè)最能表達(dá)該事件的句子,也就是事件的中心句,從語義層面看,該句子包含了該事件的最多的元素和信息,如觸發(fā)詞和較多的論元。如果能在句子識(shí)別的基礎(chǔ)上將論元補(bǔ)充完整,那么論元分散問題就會(huì)得到解決。基于“事件中心句+論元補(bǔ)充”的方法構(gòu)建了一個(gè)DCFEE框架[17],如圖5所示,將事件抽取過程分成了句子級(jí)抽取和文檔級(jí)抽取兩部分。句子級(jí)抽取采用BiLSTM-CRF序列標(biāo)注模型,將句子分割成字符輸入模型抽取觸發(fā)詞和論元。然后,將句子級(jí)抽取的輸入與得到的序列標(biāo)注結(jié)果拼接起來,作為文檔級(jí)抽取的輸入。對(duì)于輸入的句子,判斷其是否為事件的中心句,在中心句基礎(chǔ)上,獲取文檔中該句周圍句子中的論元,對(duì)事件進(jìn)行補(bǔ)充。

      圖5 句子和文檔多粒度混合方法(思路二)Fig.5 Sentence and document multi-granularity hybrid approach(idea 2)

      2.2 捕獲結(jié)構(gòu)特征的事件抽取方法

      語義特征和結(jié)構(gòu)特征是文檔的兩種表示方式,2.1節(jié)從詞語、句子和文檔等不同粒度來獲取語義特征的方式,局限于從詞語本身、句子的語法關(guān)系、前后位置的序列關(guān)系等角度捕獲語義信息,對(duì)于任意位置、更深層次的語義關(guān)系卻無能為力。文檔中的句子結(jié)構(gòu)信息(如句法解析樹)可以增強(qiáng)原始文本序列數(shù)據(jù)的表示,同時(shí),文本序列中的語義信息(如語義解析圖)也可以用來增強(qiáng)原始文本序列數(shù)據(jù)。這些圖結(jié)構(gòu)的數(shù)據(jù)能夠編碼事件元素之間的復(fù)雜關(guān)系,將文本表示成圖后,就不再局限于前后位置的序列關(guān)系,可以捕獲到任意兩個(gè)位置之間的關(guān)系,除了位置關(guān)系、語法關(guān)系,還可以捕獲更深層次的語義關(guān)系。因此,篇章級(jí)事件抽取可以從結(jié)構(gòu)特征考慮,用圖結(jié)構(gòu)捕捉文本元素之間更豐富的關(guān)系進(jìn)行最佳表達(dá)。

      目前,捕獲結(jié)構(gòu)特征的事件抽取解決方法有三種:一是將原始文本的句法、語義等特征轉(zhuǎn)化為圖結(jié)構(gòu)的數(shù)據(jù),以利用底層結(jié)構(gòu)信息使用圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)解決,如構(gòu)建句法依賴圖。圖神經(jīng)網(wǎng)絡(luò)是基于消息傳遞的學(xué)習(xí)框架,通過對(duì)節(jié)點(diǎn)、邊的特征進(jìn)行轉(zhuǎn)換、傳播和聚合,從而學(xué)習(xí)更好的圖表示,可以為任意的圖結(jié)構(gòu)數(shù)據(jù)建模。二是有效地建模復(fù)雜的篇章級(jí)文本序列數(shù)據(jù),學(xué)習(xí)基于圖的輸入和高度結(jié)構(gòu)化的輸出數(shù)據(jù)之間的映射,如構(gòu)建篇章級(jí)事件連通圖。三是進(jìn)行恰當(dāng)?shù)膱D表示學(xué)習(xí),利用專門設(shè)計(jì)的GNN來學(xué)習(xí)不同圖結(jié)構(gòu)數(shù)據(jù)的獨(dú)特特征,如無向、有向、多關(guān)系和異質(zhì)圖,如構(gòu)建句子和實(shí)體提及的異質(zhì)圖。

      2.2.1 構(gòu)建句法與語義圖

      句法表示為事件檢測(cè)提供了一種有效的機(jī)制,根據(jù)句法依存關(guān)系直接將詞語鏈接到上下文,句法依存關(guān)系可以捕捉句子的句法信息,更注重兩個(gè)詞之間的句法關(guān)系,用圖表示整個(gè)文檔,可以結(jié)合連續(xù)邊的信息來表示文檔中句子之間的前后關(guān)系,如圖6所示。語義角色圖(abstract meaning representation parsing,AMR)是有根、有標(biāo)注、有向、無環(huán)的圖,用于表示非結(jié)構(gòu)化的具體自然文本的抽象概念之間的高級(jí)語義關(guān)系,如圖7所示,AMR圖由AMR解析樹衍生出來,在語義上相似的不同句子可能共享相同的AMR解析結(jié)果。

      圖6 句法依存關(guān)系Fig.6 Syntactic dependencies

      圖7 語義依存關(guān)系Fig.7 Semantic dependencies

      DBRNN通過橋接句法依存樹上相關(guān)聯(lián)的詞語來增強(qiáng)表示[41],從依存分析樹中提取依賴關(guān)系,并將其轉(zhuǎn)換為依賴圖,使用GCN融合句法信息以提升模型性能,同時(shí)引入了句法依存邊來增強(qiáng)信息流并結(jié)合注意力機(jī)制和GCN以對(duì)圖進(jìn)行表示學(xué)習(xí)[42-43]。Cao等通過GCN融合句法信息從局部和全局視角更好地融合信息[20],進(jìn)行多事件監(jiān)測(cè)。此外,Ahmad等提出了GATE框架[44],將依賴關(guān)系嵌入到上下文表示中,引入自注意力機(jī)制學(xué)習(xí)不同句法依存距離的關(guān)系表示,該表示和語言無關(guān),在跨語言場景下具有更好的效果。

      2.2.2 構(gòu)造篇章級(jí)連通圖

      將文檔有效建模為篇章級(jí)事件連通圖[45],通過疊加句子級(jí)事件抽取結(jié)果來提取最能代表篇章核心內(nèi)容的事件(不一定是最頻繁發(fā)生的事件,但篇章中的所有事件都一定與核心事件有關(guān)聯(lián)),但由于一篇文章經(jīng)常描述多個(gè)事件,簡單地疊加無法獲取核心事件。同一論元可以對(duì)應(yīng)多個(gè)事件,以論元為橋梁,構(gòu)建篇章事件連通圖,并使用計(jì)算網(wǎng)頁重要度的PageRank方法挖掘連通圖以獲取重要信息。

      篇章級(jí)事件表示基于以句子級(jí)事件,首先利用句法樹結(jié)構(gòu)提取句子級(jí)觸發(fā)詞和事件論元,將其作為節(jié)點(diǎn)構(gòu)造句子級(jí)事件多邊形,然后根據(jù)節(jié)點(diǎn)的共現(xiàn)性和詞語的詞匯相似性或相關(guān)性連接事件多邊形,構(gòu)造篇章級(jí)事件連通圖,然后使用隨機(jī)游走計(jì)算節(jié)點(diǎn)權(quán)重,從而計(jì)算事件相關(guān)度。連通圖的作用僅限于提取權(quán)重較高的節(jié)點(diǎn),而沒有充分利用到圖結(jié)構(gòu)信息來計(jì)算事件相關(guān)度。

      2.2.3 建模事件異質(zhì)圖

      與僅有一類節(jié)點(diǎn)與一類邊構(gòu)成的同質(zhì)圖不同,異質(zhì)圖是由多種節(jié)點(diǎn)和多種邊構(gòu)成的網(wǎng)絡(luò)如AMR圖、知識(shí)圖譜等。將事件抽取轉(zhuǎn)化為構(gòu)建基于實(shí)體的有向無環(huán)圖[46],首先識(shí)別出文檔中所有的事件論元,然后通過文檔級(jí)信息融合解決句子級(jí)抽取造成的信息沒有跨句流通的問題。然后根據(jù)設(shè)定的事件類型,判斷文檔中是否包含某一事件類型的事件,如果是,則逐步生成該事件類型的有向無環(huán)圖。有向無環(huán)圖的生成更類似于表格的填寫,每個(gè)事件類型的論元都是根據(jù)設(shè)定好的一步步填寫的。由于所有設(shè)定的事件類型都是逐個(gè)判斷的,理論上可以提取一個(gè)文檔中的多個(gè)事件,這就解決了單文檔多事件的問題。

      Doc2EDAG忽略了事件之間內(nèi)在關(guān)聯(lián)性,考慮將當(dāng)前篇章中抽取的事件記錄存儲(chǔ)下來,在預(yù)測(cè)時(shí)使用。GIT方法考慮構(gòu)建句子和實(shí)體提及的異質(zhì)圖[47],將實(shí)體之間、句子之間、實(shí)體和句子之間的信息建模構(gòu)圖(節(jié)點(diǎn):句子、候選實(shí)體提及;邊:句-句關(guān)系、句內(nèi)屬性之間關(guān)系、屬性-句關(guān)系、跨句同名屬性關(guān)系),使用GNN網(wǎng)絡(luò)進(jìn)行編碼,增強(qiáng)實(shí)體提及和句子向量表示。GIT方法基于異質(zhì)圖網(wǎng)絡(luò)完成篇章內(nèi)句子、實(shí)體提及之間的交互,并引入tracker跟蹤預(yù)測(cè)事件記錄。

      2.3 融合語義和結(jié)構(gòu)特征的事件抽取方法

      文檔中的語義特征和結(jié)構(gòu)特征并不是孤立地對(duì)事件抽取起作用的,通常會(huì)綜合考慮上下文語義信息和結(jié)構(gòu)特征兩個(gè)方面來共同應(yīng)對(duì)“論元分散”和“多事件”問題[39,46-48]。

      Doc2EDAG模型[46]使用命名實(shí)體識(shí)別模型將所有的事件論元識(shí)別出來,然后在添加位置編碼后,將句子編碼向量與事件論元編碼拼接一起輸入Transformer中,以促進(jìn)文檔級(jí)上下文信息的互通,并獲得文檔級(jí)跨句子信息,然后按照預(yù)定義的事件角色順序?yàn)橛|發(fā)的事件類型創(chuàng)建一個(gè)有向無環(huán)圖,最后轉(zhuǎn)化為事件抽取的二分類問題,一定程度上解決了論元分散和多事件問題。GIT[47]基于異質(zhì)圖網(wǎng)絡(luò)完成篇章內(nèi)句子、實(shí)體提及之間的交互,并引入tracker跟蹤預(yù)測(cè)事件記錄以及論元對(duì)應(yīng)抽取記錄;DE-PPN設(shè)計(jì)了基于編碼器/解碼器結(jié)構(gòu)的端到端模型[48],其中文檔級(jí)編碼器用于獲取對(duì)整個(gè)文檔的感知表示,多粒度解碼器用于并行地生成事件。對(duì)每個(gè)句子分別進(jìn)行編碼,經(jīng)過池化(max-pooling)操作后拼接為文檔編碼,將事件抽取過程劃分為候選論元識(shí)別、事件預(yù)測(cè)、角色填充等多個(gè)步驟。面向新冠新聞的三階段篇章級(jí)事件抽取方法將抽取過程分為事件類型分類、事件句抽取和篇章級(jí)論元抽取三個(gè)階段。

      2.4 任務(wù)轉(zhuǎn)化的事件抽取方法

      一些研究人員試圖借鑒閱讀理解[49-54]、智能問答[55-58]等其他任務(wù)的有效解決方案來應(yīng)對(duì)復(fù)雜的篇章級(jí)事件抽取問題。

      2.4.1 轉(zhuǎn)化為閱讀理解問題

      將論元抽取當(dāng)作機(jī)器閱讀理解任務(wù)[53],把論元角色表述為自然語言描述的問題,通過在上下文中回答這些問題來抽取論元,更好地利用了論元角色類別的先驗(yàn)信息。模型主要包含四個(gè)部分:輸入層、編碼層、跨度預(yù)測(cè)層和論元分配層。其中,輸入層是按照機(jī)器閱讀理解的設(shè)置,利用語料中的事件模式信息生成具有論元表征的問題和原句子作為初始輸入表示;編碼層通過BERT預(yù)訓(xùn)練模型編碼字級(jí)別特征,利用雙向GRU學(xué)習(xí)序列特征;跨度預(yù)測(cè)層根據(jù)編碼層的輸出,對(duì)每個(gè)字進(jìn)行二分類來確定答案的跨度;論元分配層利用實(shí)體提及過濾抽取結(jié)果,最后給實(shí)體提及分配論元角色。如,問題模板見表1。

      表1 問題模板Table 1 Question template

      Du和Cardie采用了模板方法[51],表明構(gòu)建的問題更自然,事件提取性能更好。然而,這些方法都沒有一種直接通過簡化來解決長期依賴問題。針對(duì)長距離依賴問題,通過句子簡化方法研究了基于閱讀理解的事件抽取[56]。

      2.4.2 轉(zhuǎn)化為多輪問答問題

      基于多輪問答范式的事件抽取,充分利用觸發(fā)詞、事件類型和論元之間的交互信息,同時(shí)多輪的策略可以捕捉相同事件類型中不同論元角色之間的依賴。將事件抽取分成三輪遞進(jìn)式問答:第一輪問觸發(fā)詞是什么?第二輪基于觸發(fā)詞問事件類型是什么?第三輪基于事件類型和觸發(fā)詞問論元[58-59]。

      2.4.3 轉(zhuǎn)化為其他任務(wù)

      以前的一些方法試圖從圖像中轉(zhuǎn)移視覺知識(shí)以改進(jìn)純文本事件提取,或者從文本和圖像中聯(lián)合抽取多模態(tài)事件,圖像包含事件的快照,但可能無法在單個(gè)快照中捕獲事件的所有論元或參與者。因此,提出視頻多模體事件抽取,使用多模體Transformer結(jié)構(gòu),利用特定的解碼器進(jìn)行聯(lián)合文本和視頻事件以及論元提取,同時(shí)構(gòu)造了一個(gè)新的數(shù)據(jù)集(包含事件類型、事件論元和角色、論元邊界、文本和視頻中事件的跨模態(tài)共指解析)。文獻(xiàn)[60]認(rèn)為寫作風(fēng)格是文件內(nèi)容組織的一種特殊方式,在具有特殊領(lǐng)域的文件(如財(cái)務(wù)、醫(yī)療文件等)中相對(duì)固定,因此將文檔中的寫作風(fēng)格建模為論元角色的分布,即角色-等級(jí)分布,由此提出了一種基于角色-等級(jí)分布的監(jiān)督機(jī)制的事件抽取模型。

      3 開放域事件抽取的模型和方法

      在事件模式是未知的情況下,開放域事件抽取不拘泥于精確地將事件具體要素全部抽取,其主要目的一般是從開放的文本數(shù)據(jù)中分析、檢測(cè)出事件,其目標(biāo)事件類型和結(jié)構(gòu)不受限制,有更好的事件覆蓋率。大多數(shù)情況下,開放域事件抽取沒有人工標(biāo)注數(shù)據(jù),采用無監(jiān)督的方法,通常假設(shè)當(dāng)事件觸發(fā)詞和事件論元相似時(shí),其表達(dá)的事件類型也相似。開放域事件抽取一般流程是先通過關(guān)鍵詞識(shí)別進(jìn)行事件類型發(fā)現(xiàn),關(guān)鍵詞進(jìn)一步分為觸發(fā)詞和事件論元,然后通過關(guān)鍵詞聚類相似的事件,最后進(jìn)行事件模式歸納,如圖8所示。

      圖8 開放域事件抽取一般流程Fig.8 General process of open domain event extration

      按照特征提取方式,將開放域事件抽取方法分為兩類:基于傳統(tǒng)聚類的方法和基于神經(jīng)網(wǎng)絡(luò)的方法。

      3.1 基于傳統(tǒng)聚類的方法

      基于傳統(tǒng)聚類方法的開放域事件抽取[61-64]主要采用LDA(隱含狄利克雷分別)和基于單詞距離的層次聚類算法進(jìn)行聚類。Sha等采用歸一化割的聚類算法計(jì)算事件論元所屬角色的類別[61],Huang等將觸發(fā)詞和論元的組合表示進(jìn)行譜聚類,同時(shí)發(fā)現(xiàn)事件類型并進(jìn)行事件模式歸納[62],F(xiàn)erguson等采用半監(jiān)督的方法,首先將提及同一事件的文本聚類,然后給每個(gè)聚類中貼上一個(gè)標(biāo)簽,最后,將新示例與原始訓(xùn)練集一起重新訓(xùn)練事件抽取器[63]。這幾種方法都是先識(shí)別出觸發(fā)詞和論元,再為論元進(jìn)行角色分類,Ahn等則采用逆向思維,提出先利用表示學(xué)習(xí)進(jìn)行角色分類,再進(jìn)行事件類別聚類的方法[64]。

      3.2 基于神經(jīng)網(wǎng)絡(luò)的方法

      傳統(tǒng)聚類的方法依賴人工提取特征,且沒有充分利用文本語義信息,事件模式歸納的性能嚴(yán)重依賴依存句法分析、AMR語義分析等工具的性能,而神經(jīng)網(wǎng)絡(luò)及其增強(qiáng)的模型能夠有效利用上下文語義信息進(jìn)行自動(dòng)特征提取[65-70]。Liu等提出一種基于神經(jīng)網(wǎng)絡(luò)的深度隱變量模型,對(duì)開放域新聞數(shù)據(jù)進(jìn)行聚類抽取[65];Wang等提出生成對(duì)抗網(wǎng)絡(luò)的事件抽取模型,使用狄利克雷(Dirichlet)分布對(duì)事件建模,利用生成器網(wǎng)絡(luò)捕獲潛在事件模式,利用鑒別器區(qū)分原始文檔和從潛在事件中重建的文檔[66];文獻(xiàn)[70]嘗試使用對(duì)抗域自適應(yīng)模型采用對(duì)抗訓(xùn)練的方法,按照表示學(xué)習(xí)、事件分類和領(lǐng)域預(yù)測(cè)三個(gè)步驟進(jìn)行觸發(fā)詞識(shí)別。最近的一些研究將零樣本學(xué)習(xí)(zero-shot learning)應(yīng)用于事件抽取[71-72],將其視為分類問題。把帶有標(biāo)簽事件提及的事件類型視為可見類型,將其他事件類型視為不可見類型,利用神經(jīng)網(wǎng)絡(luò)架構(gòu)通過最小化事件類型之間的距離來共同學(xué)習(xí),并將二者的結(jié)構(gòu)表示映射到共享的語義空間中,以此完成事件抽取。隨著prompt技術(shù)的發(fā)展,信息抽取任務(wù)中命名實(shí)體識(shí)別、關(guān)系抽取等使用prompt learning達(dá)到了較好的效果[73-76],同時(shí)也有些學(xué)者開始研究利用prompt進(jìn)行事件抽取。

      4 數(shù)據(jù)集和評(píng)價(jià)指標(biāo)

      4.1 數(shù)據(jù)集

      篇章級(jí)事件抽取常用數(shù)據(jù)集有以下幾種:

      ACE2005數(shù)據(jù)集,包含599篇文檔,18 117個(gè)句子。

      MUC-4數(shù)據(jù)集[77]是在第四次信息理解會(huì)議中提出的,定義了5種事件類型,包含1 700篇發(fā)生在拉丁美洲的恐怖襲擊的新聞報(bào)道。

      Google數(shù)據(jù)集是GDELT[78]事件數(shù)據(jù)庫的一個(gè)子集,與事件相關(guān)的包含30種事件類型,11 909篇新聞文章。

      Twitter數(shù)據(jù)集是從2010年12月發(fā)布的應(yīng)用Twitter流媒體API發(fā)布的推文中收集的,包括20種事件類型和1 000條推文。

      NO.ANN,NO.POS,NO.NEG(DCFEE),在文獻(xiàn)[17]中定義了5種金融事件類型:股權(quán)凍結(jié)、股權(quán)質(zhì)押、股權(quán)回購和股權(quán)增持。通過遠(yuǎn)程監(jiān)督的方法自動(dòng)標(biāo)注了2 976個(gè)公告(文檔)。NO.ANN表示每種事件類型標(biāo)記的公告數(shù)量,NO.POS表示正例數(shù),NO.NEG表示負(fù)例數(shù)。其中91%的事件的論元均分散在多個(gè)句子中。

      ChFinAnn(Doc2EDAG),中文金融領(lǐng)域數(shù)據(jù)集ChFinAnn,共包含32 040篇文檔,5種事件類型同DCFEE定義。

      RAMS數(shù)據(jù)集。跨多個(gè)句子的角色(RAMS)由Ebner等人[79]發(fā)布,用于論元鏈接任務(wù),包含139種事件類型,3 194個(gè)文檔和65個(gè)角色。

      WIKIEVENTS,由Li等人作為文檔級(jí)基準(zhǔn)數(shù)據(jù)集發(fā)布[80]。該數(shù)據(jù)集收集自描述真實(shí)世界事件的英文維基百科文章。

      DuEE是百度發(fā)布的金融領(lǐng)域數(shù)據(jù)集[81],包含13種事件類型,11 700篇文檔。

      CEC是由上海大學(xué)語義智能實(shí)驗(yàn)室構(gòu)建的中文突發(fā)事件數(shù)據(jù)集[82]。共332篇文檔,5類突發(fā)事件(地震、火災(zāi)、交通事故、恐怖襲擊和食物中毒)。

      MAVEN是一個(gè)大規(guī)模通用領(lǐng)域事件檢測(cè)數(shù)據(jù)集[83],包含168種事件類型,4 480篇文檔,49 873個(gè)句子。

      表2列出了常用數(shù)據(jù)集的語種、文檔數(shù)量、句子數(shù)量和事件類型種類。

      表2 篇章級(jí)事件抽取數(shù)據(jù)集Table 2 Datasets of document-level event extraction

      4.2 評(píng)價(jià)指標(biāo)

      事件抽取三個(gè)基本的評(píng)價(jià)指標(biāo)為準(zhǔn)確率P、召回率R和F1值。其中,準(zhǔn)確率是指抽取出的正確個(gè)數(shù)占抽取出總數(shù)的比例,用來衡量抽取的準(zhǔn)確程度;召回率是指正確抽取的個(gè)數(shù)占所有正確總數(shù)的比例,用來衡量抽取的全面程度;F1值是準(zhǔn)確率和召回率的加權(quán)平均值,用于系統(tǒng)性能的總體評(píng)估,F(xiàn)1值越大,模型性能越好。這三個(gè)評(píng)價(jià)指標(biāo)的具體公式如下:

      其中,TP是正確抽取的正例數(shù),F(xiàn)P是錯(cuò)誤抽取的正例數(shù),F(xiàn)N則是錯(cuò)誤抽取負(fù)例數(shù)。

      近年來事件抽取領(lǐng)域部分經(jīng)典模型的效果如表3所示,由于所使用數(shù)據(jù)集和方法的不同評(píng)估指標(biāo)不盡相同,有些只給出了觸發(fā)詞檢測(cè)結(jié)果(T),有些則給出了論元角色分配結(jié)果(Rl),表中P、R、F1均來自對(duì)應(yīng)方法的原文實(shí)驗(yàn)結(jié)果。

      表3 在測(cè)試集上的準(zhǔn)確率(P)、召回率(R)和F1值Table 3 Overall event-level precision(P),recall(R)and F1-score(F1)evaluated on test set

      單事件與多事件評(píng)估結(jié)果見表4。其中S表示一個(gè)句子中只有一個(gè)事件,M代表多事件,S&M表示測(cè)試數(shù)據(jù)中既包含單事件也包含多事件。EF、ER、EU、EO、EP是ChFinAnn數(shù)據(jù)集的5種事件類型。

      表4 所有事件類型在單事件(S.)和多事件(M.)的F1值Table 4 F1-score for all event types on single-event(S.)and multi-event(M.)set 單位:%

      5 未來研究方向

      篇章級(jí)事件抽取從文檔級(jí)文本出發(fā)進(jìn)行事件檢測(cè)和論元識(shí)別,主要面臨“論元分散”和“多事件”問題,相關(guān)研究針對(duì)這兩個(gè)問題陸續(xù)開展。獲取不同粒度語義表示的方法限于從詞本身、語法關(guān)系、前后位置關(guān)系的角度捕獲語義特征,但對(duì)于任意位置、更深層次的語義關(guān)系顯得蒼白無力;通過建模句法語義圖、事件連通圖和異構(gòu)圖等圖模型,利用GCN等來捕獲文檔結(jié)構(gòu)特征的方法能夠有效捕捉文本元素之間更豐富更深層的關(guān)系;融合語義表示和結(jié)構(gòu)特征的方法將兩者有機(jī)結(jié)合進(jìn)行最佳表達(dá)來完成事件抽?。煌瑫r(shí),也可以將抽取任務(wù)轉(zhuǎn)化為閱讀理解、智能問答等其他任務(wù)來有效應(yīng)對(duì)。盡管這些方法一定程度上解決論元分散和多事件的問題,但抽取效果還有很大的上升空間。因此,未來的研究工作可以關(guān)注以下幾個(gè)方面:

      (1)改進(jìn)基于預(yù)訓(xùn)練語言模型的事件抽取。針對(duì)目前采用的預(yù)訓(xùn)練語言模型BERT作為編碼器進(jìn)行事件抽取的方法,由于事件抽取任務(wù)和BERT預(yù)訓(xùn)練階段的任務(wù)存在較大差距,且BERT編碼過程由于文本片段長度的限制導(dǎo)致缺乏片段之間的交互,不能有效地感知篇章全局信息并建模事件間關(guān)系,因而模型學(xué)習(xí)到的特征表示在事件語義層面可能出現(xiàn)偏差。因此,研究如何使用基于transformer的長文本編碼,如Reformer、Longformer等模型作為編碼器,充分利用文檔中事件之間的關(guān)系建模整個(gè)文檔的全局編碼,有利于更好地感知上下文信息有效應(yīng)對(duì)“論元分散”和“多事件”問題。

      (2)小樣本事件抽取。目前的事件抽取方法多是基于深度學(xué)習(xí),需要大量地標(biāo)注數(shù)據(jù),然而,由于標(biāo)注成本高、數(shù)據(jù)來源多樣等問題,導(dǎo)致事件數(shù)據(jù)存在稀疏性問題。現(xiàn)有事件抽取數(shù)據(jù)集大多存在標(biāo)注數(shù)據(jù)少的問題,如最主流的數(shù)據(jù)集ACE2005,只有33種事件類型,599篇文檔,其中有些事件類型的標(biāo)注數(shù)據(jù)少于10條,在深度學(xué)習(xí)時(shí)代,這么小規(guī)模的數(shù)據(jù)集是難以支持訓(xùn)練比較復(fù)雜的模型,測(cè)試結(jié)果也常常不穩(wěn)定。因此,一些學(xué)者開始研究小樣本關(guān)系抽取、小樣本領(lǐng)域知識(shí)抽取等[84-86],未來研究可以更加關(guān)注這項(xiàng)富有研究價(jià)值和高挑戰(zhàn)度的小樣本事件抽取。

      (3)數(shù)據(jù)增強(qiáng)的事件抽取。為了解決事件抽取標(biāo)注數(shù)據(jù)規(guī)模有限的問題,除了研究小樣本學(xué)習(xí)外,還可以從數(shù)據(jù)增強(qiáng)的角度來緩解,對(duì)于文本數(shù)據(jù),常用的數(shù)據(jù)增強(qiáng)方法有回譯法、簡單數(shù)據(jù)增強(qiáng)(easy data augmen‐tation,EDA)?;刈g法是將原來的句子翻譯為其他語言,然后再翻譯回原語言,可以進(jìn)行一到兩次的翻譯,這種方法能夠增加文本數(shù)據(jù)的多樣性,但產(chǎn)生的數(shù)據(jù)依賴于翻譯的質(zhì)量;EDA是通過同義詞替換、隨機(jī)插入、隨機(jī)交換和隨機(jī)刪除的方式產(chǎn)生新數(shù)據(jù),這種方法操作過程中有可能改變句子原來的意思,導(dǎo)致模型性能的降低。2022年最新的研究提出了基于數(shù)據(jù)增強(qiáng)和弱監(jiān)督對(duì)抗訓(xùn)練的中文事件檢測(cè)[87],但文中的數(shù)據(jù)增強(qiáng)采用的是回譯和Mix-Text等常用方法,因此,研究新的數(shù)據(jù)增強(qiáng)方法為模型提供充足的數(shù)據(jù)支撐是一項(xiàng)有意義的工作,基于此深入研究模型結(jié)構(gòu)、性能,比如能否將事件論元與現(xiàn)有知識(shí)圖譜中實(shí)體融合采用知識(shí)增強(qiáng)的方法、能否使用對(duì)比學(xué)習(xí)、多任務(wù)學(xué)習(xí)來訓(xùn)練模型,進(jìn)而提高模型的魯棒性。

      (4)開放域事件抽取?,F(xiàn)有大多數(shù)事件抽取關(guān)注的是預(yù)定義好事件類型的限定域事件抽取,然而預(yù)定義的事件模式畢竟有限,事件類型覆蓋率較低,抽取模型泛化性不理想,不能推廣到新的領(lǐng)域。面對(duì)大數(shù)據(jù)時(shí)代積累并隨時(shí)產(chǎn)生的多源異構(gòu)數(shù)據(jù)和多域多元事件,開放域事件抽取的研究勢(shì)在必行,如何從海量復(fù)雜的數(shù)據(jù)中發(fā)現(xiàn)豐富的事件類型和結(jié)構(gòu),構(gòu)建高質(zhì)量的事件模式,并實(shí)現(xiàn)事件模式自動(dòng)歸納與學(xué)習(xí),是值得進(jìn)一步思考和研究的內(nèi)容。

      襄城县| 军事| 武威市| 饶河县| 建阳市| 水城县| 织金县| 贵港市| 普陀区| 从江县| 济源市| 贡觉县| 冕宁县| 申扎县| 志丹县| 镇安县| 安塞县| 河池市| 白玉县| 老河口市| 康定县| 东平县| 衡南县| 封开县| 监利县| 泸定县| 公主岭市| 马边| 上饶县| 杭锦旗| 宾川县| 河北省| 平远县| 华阴市| 五寨县| 广饶县| 莫力| 伊春市| 徐汇区| 梧州市| 遂平县|