胡志磊, 靳小龍, 陳劍赟, 黃冠利
1. 中國(guó)科學(xué)院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100190;2. 中國(guó)科學(xué)院計(jì)算技術(shù)研究所,北京 100190;
3. 中國(guó)科學(xué)院大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,北京 100049;4. 北京市信息技術(shù)研究所,北京 100091;
5. 北京電子科技職業(yè)學(xué)院,北京 100176
隨著信息技術(shù)的飛速發(fā)展,目前整個(gè)社會(huì)已經(jīng)邁入了大數(shù)據(jù)時(shí)代。大數(shù)據(jù)時(shí)代下每時(shí)每刻都在產(chǎn)生龐大的數(shù)據(jù)。在龐大數(shù)據(jù)的背后,蘊(yùn)含著眾多有價(jià)值的信息。但是由于數(shù)據(jù)種類繁多、數(shù)據(jù)量龐大,難以高效、準(zhǔn)確地獲取有用的信息。為了更加高效地獲取數(shù)據(jù)背后的信息,提高獲取信息的效率,研究人員開(kāi)始研究并使用自動(dòng)化的工具從原始數(shù)據(jù)中抽取有價(jià)值的信息。這種自動(dòng)化的技術(shù)被稱為信息抽取技術(shù)[1],可以極大地提高工作效率,節(jié)省時(shí)間。與此同時(shí),由于信息抽取技術(shù)逐漸走向成熟,一種新的數(shù)據(jù)組織形式逐漸形成,實(shí)現(xiàn)了知識(shí)互聯(lián),適應(yīng)了用戶的認(rèn)知需求,其被稱為知識(shí)圖譜。
知識(shí)圖譜的概念由Google公司在2012年正式提出[2],目的是提高搜索引擎的性能,提供更加友好的搜索結(jié)果。隨后知識(shí)圖譜在學(xué)術(shù)界受到了極大的關(guān)注,其構(gòu)建技術(shù)也在飛速發(fā)展。目前,知識(shí)圖譜已經(jīng)被廣泛地應(yīng)用到知識(shí)問(wèn)答、智能搜索、個(gè)性化推薦、軟件復(fù)用[3]、政府治理[4]等多個(gè)領(lǐng)域。隨著技術(shù)的不斷發(fā)展,現(xiàn)有研究?jī)?nèi)容已經(jīng)從知識(shí)圖譜的實(shí)體識(shí)別[5]、關(guān)系抽取[6]技術(shù)擴(kuò)展到了事件圖譜的構(gòu)建與推理技術(shù)。事件圖譜刻畫了現(xiàn)實(shí)世界中發(fā)生的事件,對(duì)事件信息進(jìn)行了準(zhǔn)確描述。事件圖譜中蘊(yùn)含眾多事件知識(shí),事件知識(shí)的特點(diǎn)是擁有眾多維度,例如時(shí)間維度、邏輯維度、關(guān)系維度等。
本文對(duì)現(xiàn)有的關(guān)于事件知識(shí)的研究做了總結(jié),從事件圖譜的構(gòu)建、推理與應(yīng)用3個(gè)方面闡述了相關(guān)技術(shù)的研究現(xiàn)狀。最后,本文展望了事件圖譜的發(fā)展方向。
知識(shí)圖譜本質(zhì)上是一種語(yǔ)義網(wǎng)絡(luò)[7],包含實(shí)體以及實(shí)體之間的關(guān)系。實(shí)體是知識(shí)圖譜中最基本的概念,一個(gè)實(shí)體代表了現(xiàn)實(shí)世界中的一個(gè)事物或者一個(gè)概念。關(guān)系代表的是實(shí)體和實(shí)體之間的關(guān)聯(lián)。另外,知識(shí)圖譜中的屬性代表的是實(shí)體具有的某個(gè)特征,其描述了實(shí)體的相關(guān)信息。知識(shí)圖譜刻畫了現(xiàn)實(shí)世界中的事物以及事物之間的各種關(guān)系,其主要表示形式是三元組,包括屬性三元組和關(guān)系三元組。知識(shí)圖譜存儲(chǔ)了結(jié)構(gòu)化數(shù)據(jù),適合對(duì)數(shù)據(jù)進(jìn)行搜索和推理,已經(jīng)在知識(shí)問(wèn)答、智能搜索等方面發(fā)揮了重要的作用。
事件是文本中包含的一種信息,其定義為在某個(gè)特定的時(shí)間以及特定的地點(diǎn),由多個(gè)相關(guān)角色參與的一件事情或者一組事情[8]。隨著知識(shí)圖譜技術(shù)的發(fā)展,越來(lái)越多的研究者開(kāi)始關(guān)注一種特殊的基于事件的知識(shí)圖譜,即事件圖譜。在此基礎(chǔ)上,本文將事件圖譜定義為:一種以事件為中心,用來(lái)描述事件信息以及事件之間各種關(guān)系的圖譜。事件圖譜和知識(shí)圖譜主要的不同點(diǎn)是事件圖譜主要的研究對(duì)象是事件,描述了與事件相關(guān)的知識(shí)、事件的演變過(guò)程以及事件間的關(guān)聯(lián)關(guān)系。而知識(shí)圖譜主要的研究對(duì)象是實(shí)體,主要描述的是實(shí)體屬性以及實(shí)體之間的關(guān)系。在事件圖譜中,圖的節(jié)點(diǎn)表示事件,圖上的連邊表示事件之間的時(shí)序、因果、順承、包含等關(guān)系。事件圖譜示例如圖1所示,圖1展示了收購(gòu)事件、股價(jià)上漲事件和股價(jià)下跌事件的事件論元以及事件之間的關(guān)聯(lián)關(guān)系。從圖1中可以看到,收購(gòu)事件的收購(gòu)方是公司A,被收購(gòu)方是公司B,收購(gòu)金額是350億美元,收購(gòu)時(shí)間是2020年10月27日。另外,由于收購(gòu)事件導(dǎo)致了股價(jià)上漲事件和股價(jià)下跌事件的發(fā)生,因此收購(gòu)事件分別與股價(jià)上漲事件、股價(jià)下跌事件之間具有因果關(guān)系以及隱含的時(shí)序關(guān)系。
圖1 事件圖譜示例
在事件圖譜的構(gòu)建、推理與應(yīng)用的過(guò)程中,需要用到多種智能化信息處理技術(shù)[9-10],核心技術(shù)主要包括事件抽取技術(shù)、信息補(bǔ)全技術(shù)、關(guān)系推斷技術(shù)以及事件預(yù)測(cè)技術(shù)。面對(duì)開(kāi)放網(wǎng)絡(luò)上的文本數(shù)據(jù),首先要做的任務(wù)是事件抽取。事件抽取技術(shù)可以從非結(jié)構(gòu)化的文本數(shù)據(jù)中提取出與事件有關(guān)的信息,并將信息以結(jié)構(gòu)化的形式呈現(xiàn)出來(lái)。而信息補(bǔ)全技術(shù)是利用事件圖譜中已有的知識(shí),推理補(bǔ)全事件圖譜中缺失的事件論元知識(shí)。關(guān)系推斷技術(shù)則是利用文本中的信息來(lái)推斷出事件之間的共指、時(shí)序以及因果等關(guān)系。最后,事件預(yù)測(cè)技術(shù)被用來(lái)預(yù)測(cè)未來(lái)可能發(fā)生的事件,分析事件的演變趨勢(shì)。構(gòu)建好的事件圖譜具有廣闊的應(yīng)用場(chǎng)景,主要包括熱點(diǎn)事件檢測(cè)、事件脈絡(luò)分析以及未來(lái)事件預(yù)測(cè)等。
事件是文本中包含的一種特殊信息,事件抽取就是從非結(jié)構(gòu)化的文本數(shù)據(jù)中抽取與事件有關(guān)的各種角色,將信息用結(jié)構(gòu)化數(shù)據(jù)表示。按照確定事件類別的方法,事件抽取可以被分為限定域事件抽取和開(kāi)放域事件抽取。
限定域事件抽取是指在進(jìn)行抽取任務(wù)之前,已經(jīng)確定好了相應(yīng)的目標(biāo)事件類型和相應(yīng)的結(jié)構(gòu)。另外,限定域事件抽取任務(wù)還會(huì)給出一些標(biāo)注數(shù)據(jù)。因?yàn)槭录?biāo)注較為復(fù)雜,需要耗費(fèi)一定的人力物力,所以數(shù)據(jù)集規(guī)模一般較小。在事件抽取領(lǐng)域中較為常用的標(biāo)準(zhǔn)數(shù)據(jù)集是ACE 2005語(yǔ)料庫(kù)。關(guān)于限定域事件抽取的研究較多,目前研究主要采用的是深度學(xué)習(xí)方法,幾種代表性的神經(jīng)網(wǎng)絡(luò)方法如下。
(1)基于注意力機(jī)制的方法
在進(jìn)行事件抽取時(shí),許多研究者使用了注意力機(jī)制,以此來(lái)提升神經(jīng)網(wǎng)絡(luò)模型的效果。注意力機(jī)制是一種仿生技術(shù),借鑒了人類的選擇性注意行為。選擇性注意行為是指人類在進(jìn)行觀察時(shí),視覺(jué)會(huì)快速掃描全局圖像,從而確定要重點(diǎn)關(guān)注的內(nèi)容,抑制或忽略其他無(wú)關(guān)的信息。研究者受此啟發(fā),提出了深度學(xué)習(xí)中的注意力機(jī)制,核心目標(biāo)就是在眾多信息中選擇對(duì)于當(dāng)前任務(wù)來(lái)說(shuō)最關(guān)鍵的信息。
ACE 2005語(yǔ)料庫(kù)給出了每個(gè)事件的事件觸發(fā)詞和事件論元。但是之前的研究者并沒(méi)有充分利用數(shù)據(jù)集中的標(biāo)注信息,更多地依賴句子的語(yǔ)義信息,忽略了被標(biāo)注的論元信息。因此,Liu S等人[11]提出了一種新的方法,利用論元信息來(lái)加強(qiáng)對(duì)觸發(fā)詞的識(shí)別和分類。該方法將句子中的單詞信息、上下文的單詞信息、上下文的實(shí)體信息結(jié)合起來(lái),組成單詞的觸發(fā)詞候選項(xiàng)。他們還采用了一種有監(jiān)督的注意力機(jī)制更加深入地提取句子中的有效信息,句子中的事件觸發(fā)詞會(huì)比其他上下文單詞獲得更多的注意。最后該方法使用了一個(gè)多分類的神經(jīng)網(wǎng)絡(luò)模型完成事件抽取任務(wù),充分利用了語(yǔ)料庫(kù)中被標(biāo)注的論元信息。
上述方法將句子中的多個(gè)事件視為獨(dú)立事件,只是利用單個(gè)句子內(nèi)部的信息來(lái)檢測(cè)事件。但是句子中表達(dá)的事件是相互關(guān)聯(lián)的,單純地利用句子內(nèi)部的信息不能很好地區(qū)分某些事件。因此Chen Y等人[12]提出了一種分層的基于門控注意力機(jī)制的偏差標(biāo)記網(wǎng)絡(luò),目的是融合句子和文檔的信息,從而進(jìn)行多事件識(shí)別和抽取。該方法采用了一種新的思路,將事件抽取看作一種序列標(biāo)注問(wèn)題。模型中首次添加了一個(gè)層次化的基于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的標(biāo)簽層來(lái)捕捉所有事件的依賴關(guān)系,同時(shí)設(shè)計(jì)了一種偏差目標(biāo)函數(shù)來(lái)增強(qiáng)觸發(fā)標(biāo)簽對(duì)模型的影響。除此之外,為了充分利用事件候選項(xiàng)的上下文信息,該方法采用了一種基于門控的多層次注意力機(jī)制,可以自動(dòng)提取句子和文檔中的信息,并進(jìn)行動(dòng)態(tài)的集成。該方法充分利用了事件之間的關(guān)聯(lián)關(guān)系,融合了文檔信息來(lái)增強(qiáng)事件識(shí)別的結(jié)果??梢钥吹剑谧⒁饬C(jī)制的方法實(shí)現(xiàn)了對(duì)信息的有效提取,使得事件識(shí)別更加準(zhǔn)確。
(2)基于預(yù)訓(xùn)練模型的方法
一般來(lái)說(shuō),為了更好地訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,需要為模型提供大規(guī)模的標(biāo)注數(shù)據(jù)。但是構(gòu)建大規(guī)模的標(biāo)注數(shù)據(jù)耗時(shí)耗力,難以滿足要求。相比之下,大規(guī)模未標(biāo)注的語(yǔ)料卻很容易構(gòu)建。為了利用大量的未標(biāo)注數(shù)據(jù),研究人員提出了預(yù)訓(xùn)練模型。預(yù)訓(xùn)練模型可以從大規(guī)模的語(yǔ)料中提取隱含的語(yǔ)義信息,學(xué)習(xí)到更好的通用語(yǔ)義表示向量,從而提高下游任務(wù)的表現(xiàn)。
Yang S等人[13]針對(duì)現(xiàn)有遠(yuǎn)程監(jiān)督事件抽取方法中存在的問(wèn)題,將目光轉(zhuǎn)向預(yù)訓(xùn)練的語(yǔ)言模型,希望利用從大規(guī)模語(yǔ)料庫(kù)中學(xué)習(xí)到的知識(shí)表示向量來(lái)提高模型的性能。其設(shè)計(jì)了一種基于預(yù)訓(xùn)練語(yǔ)言模型的事件抽?。╬re-trained language model based event extractor,PLMEE)模型。該模型的結(jié)構(gòu)如圖2所示[13]。他們將事件抽取看作由兩個(gè)子任務(wù)組成,兩個(gè)子任務(wù)分別是觸發(fā)詞抽取和論元抽取,并提出了以預(yù)訓(xùn)練語(yǔ)言模型為基礎(chǔ)的觸發(fā)詞抽取器和論元抽取器?;陬A(yù)訓(xùn)練模型的方法會(huì)使事件的語(yǔ)義表示更加精確。但是現(xiàn)有的方法將事件抽取看作兩個(gè)子任務(wù),構(gòu)建的是流水線模型,存在明顯的錯(cuò)誤傳遞問(wèn)題。
(3)基于圖神經(jīng)網(wǎng)絡(luò)的方法
圖2 PLMEE模型結(jié)構(gòu)[13]
過(guò)去幾年深度學(xué)習(xí)技術(shù)興起,以神經(jīng)網(wǎng)絡(luò)為代表的技術(shù)被用來(lái)提取歐氏空間中的數(shù)據(jù)特征[14]。但是現(xiàn)實(shí)世界中還有眾多場(chǎng)景使用的是非歐氏空間數(shù)據(jù),其中具有代表性的就是圖數(shù)據(jù)。圖數(shù)據(jù)被廣泛應(yīng)用在多種場(chǎng)景,如電子商務(wù)的推薦系統(tǒng)、知識(shí)圖譜的在線推理等。但是圖數(shù)據(jù)結(jié)構(gòu)復(fù)雜性較高,之前的神經(jīng)網(wǎng)絡(luò)方法無(wú)法直接被使用。因此,研究人員借鑒了卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)以及深度自動(dòng)編碼器的思想,設(shè)計(jì)了一種專門用來(lái)處理圖結(jié)構(gòu)數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),即圖神經(jīng)網(wǎng)絡(luò)。圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional network,GCN)是指在圖數(shù)據(jù)中應(yīng)用卷積操作,其核心思想是學(xué)習(xí)到一種函數(shù)對(duì)節(jié)點(diǎn)進(jìn)行表示。通過(guò)函數(shù)變換,一個(gè)節(jié)點(diǎn)自身的特征可以結(jié)合其臨近節(jié)點(diǎn)的特征,從而生成節(jié)點(diǎn)新的表示。
在事件抽取、關(guān)系抽取等任務(wù)中,一般利用詞嵌入等方法將輸入序列轉(zhuǎn)換為連續(xù)的向量,并沒(méi)有使用句子的結(jié)構(gòu)信息。為了在神經(jīng)網(wǎng)絡(luò)中引入句法結(jié)構(gòu)特征,Nguyen T等人[15]提出了一個(gè)基于句法依存樹(shù)的GCN模型用于事件抽取。在GCN中,每個(gè)節(jié)點(diǎn)的卷積向量是由相鄰節(jié)點(diǎn)的表示向量計(jì)算出來(lái)的,可以作為該節(jié)點(diǎn)的唯一特征進(jìn)行分類。另外,模型中通過(guò)對(duì)當(dāng)前單詞的卷積向量以及句子中提到的實(shí)體進(jìn)行池化操作,克服實(shí)體指稱無(wú)法捕捉的問(wèn)題。池化操作聚合了卷積向量,從而為事件類型預(yù)測(cè)生成了單個(gè)向量表示。該方法在事件抽取中引入了GCN模型,將句法依存樹(shù)上的信息進(jìn)行聚合,首次利用了句子中的結(jié)構(gòu)信息。
除此之外,Liu X等人[16]設(shè)計(jì)了一個(gè)新的聯(lián)合多事件抽?。╦ointly multiple events extraction,JMEE)框架。該框架利用基于注意力機(jī)制的圖卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行建模,并通過(guò)引入句法依存樹(shù)中的句法捷徑弧來(lái)增強(qiáng)信息流,以此來(lái)提升在一個(gè)句子中抽取多個(gè)事件的效果。使用句法捷徑弧可以減少將信息流從一個(gè)節(jié)點(diǎn)轉(zhuǎn)換到目標(biāo)節(jié)點(diǎn)的轉(zhuǎn)換次數(shù)。與基于序列的模型相比,該方法會(huì)使在同一個(gè)句子中從一個(gè)事件觸發(fā)詞跳到另一個(gè)事件觸發(fā)詞的跳數(shù)明顯減少。GCN會(huì)利用輸入的句法捷徑弧,聚合目標(biāo)節(jié)點(diǎn)一階鄰居的信息,為每個(gè)節(jié)點(diǎn)學(xué)習(xí)到其句法上下文的表示。之后,模型通過(guò)自注意力機(jī)制進(jìn)行信息聚合,保留了多個(gè)事件之間的信息,用于抽取事件觸發(fā)詞和論元?;趫D神經(jīng)網(wǎng)絡(luò)的方法有效地利用了句法依存樹(shù)中包含的信息。但是基于圖神經(jīng)網(wǎng)絡(luò)的模型的計(jì)算量比較大,且只適用于對(duì)構(gòu)建好的靜態(tài)圖進(jìn)行處理。
(4)其他神經(jīng)網(wǎng)絡(luò)方法
除了上述方法,還有眾多方法被應(yīng)用到事件抽取任務(wù)中,也取得了良好的效果。例如,Liu J等人[17]設(shè)計(jì)了一種新的基于對(duì)抗模仿的知識(shí)蒸餾方法,目的是從句子中獲取知識(shí)來(lái)進(jìn)行事件抽取。該方法首先構(gòu)建了一個(gè)教師模塊,充分利用標(biāo)注數(shù)據(jù)來(lái)學(xué)習(xí)知識(shí)表示,之后建立相應(yīng)的學(xué)生模塊用于測(cè)試。在訓(xùn)練過(guò)程中,鑒別器通過(guò)檢測(cè)教師模塊和學(xué)生模塊的輸出來(lái)區(qū)分兩者。同時(shí),學(xué)生模塊會(huì)盡可能地模仿教師模塊,生成與教師模塊相似的向量來(lái)迷惑鑒別器。該方法有效地完成了知識(shí)蒸餾,得到的新模型參數(shù)量少,且性能接近復(fù)雜模型。
Hong Y等人[18]利用具有自我調(diào)節(jié)機(jī)制的生成式對(duì)抗網(wǎng)絡(luò)來(lái)完成事件抽取任務(wù),提高事件抽取的性能。一般來(lái)說(shuō),生成模型產(chǎn)生的虛假特征往往來(lái)自語(yǔ)義上的偽相關(guān)上下文,在訓(xùn)練過(guò)程中神經(jīng)網(wǎng)絡(luò)可能會(huì)錯(cuò)誤地、不自覺(jué)地保留記憶,從而產(chǎn)生虛假的特征。因此該模型采用了一種雙通道自調(diào)節(jié)的學(xué)習(xí)策略來(lái)調(diào)節(jié)學(xué)習(xí)過(guò)程,還添加了一對(duì)生成判別模型。在自學(xué)習(xí)過(guò)程中,生成模型被用來(lái)生成虛假特征,而判別模型被用來(lái)消除錯(cuò)誤。該方法減輕了虛假特征對(duì)結(jié)果的影響,提升了事件抽取的效果。
開(kāi)放域事件抽取和限定域事件抽取的不同是事件類型不需要預(yù)先指定。因此,開(kāi)放域事件抽取一般沒(méi)有人工標(biāo)注數(shù)據(jù),主要使用無(wú)監(jiān)督的方法。這種方法主要基于統(tǒng)計(jì)的思想,當(dāng)事件觸發(fā)詞和事件論元相似時(shí),其表達(dá)的事件類型也相似。在此過(guò)程中,聚類方法和概率模型的使用較為廣泛。
開(kāi)放域事件抽取的目標(biāo)是抽取所有類型的事件,不對(duì)事件類型進(jìn)行限定,有更高的事件覆蓋率。Araki J 等人[19]提出了一種基于遠(yuǎn)程監(jiān)督的自動(dòng)生成訓(xùn)練數(shù)據(jù)的方法,不依賴人工標(biāo)注的數(shù)據(jù)。該方法利用WordNet[20]進(jìn)行遠(yuǎn)程監(jiān)督,以此來(lái)生成高質(zhì)量的事件分類數(shù)據(jù)。之后,生成的數(shù)據(jù)被用來(lái)對(duì)事件判別器進(jìn)行訓(xùn)練。該方法可以生成大量的訓(xùn)練數(shù)據(jù),但是訓(xùn)練數(shù)據(jù)的準(zhǔn)確程度無(wú)法保證,會(huì)導(dǎo)致判別器的結(jié)果較差。
除此之外,目前貝葉斯圖形模型(Bayesian graphical model)被用于對(duì)開(kāi)放域事件進(jìn)行結(jié)構(gòu)化的表示,但是這種方法假定所有的單詞都是由單個(gè)事件產(chǎn)生的,具有一定的局限性。因此Wang R等人[21]提出了一種基于生成式對(duì)抗網(wǎng)絡(luò)的事件抽取模型,稱之為對(duì)抗神經(jīng)事件模型(adversarial-neural event model,AEM)。該模型使用狄利克雷分布對(duì)事件進(jìn)行建模,并利用生成器網(wǎng)絡(luò)捕捉潛在事件。該模型可以用來(lái)處理不同長(zhǎng)度的文檔,適用范圍比較廣泛。另外,Naik A 等人[22]將對(duì)抗域自適應(yīng)(adversarial domain adaptation,ADA)框架應(yīng)用到開(kāi)放域的事件觸發(fā)詞識(shí)別任務(wù)中。該方法是一個(gè)無(wú)監(jiān)督的過(guò)程,不需要目標(biāo)域的標(biāo)記數(shù)據(jù),實(shí)驗(yàn)結(jié)果顯示了該框架的有效性。
事件抽取技術(shù)是用于構(gòu)建事件圖譜的基礎(chǔ)技術(shù),影響著后續(xù)任務(wù)的精度,是極其重要的。針對(duì)這一任務(wù),研究者提出了眾多新方法。研究者期望通過(guò)不斷探索,設(shè)計(jì)出更多適合此任務(wù)的神經(jīng)網(wǎng)絡(luò),不斷提高事件抽取的準(zhǔn)確率。雖然目前已有的方法取得了不錯(cuò)的結(jié)果,但是該領(lǐng)域的評(píng)估標(biāo)準(zhǔn)還不是很明確,所使用的標(biāo)準(zhǔn)數(shù)據(jù)集規(guī)模也比較小。未來(lái)需要進(jìn)一步明確評(píng)估標(biāo)準(zhǔn),提出規(guī)模更大的標(biāo)準(zhǔn)數(shù)據(jù)集用于研究。
事件抽取技術(shù)主要用于獲取事件知識(shí),但是事件抽取的結(jié)果往往是不完整的,存在部分論元缺失、論元抽取不準(zhǔn)確等情況。為了對(duì)事件抽取的結(jié)果進(jìn)行補(bǔ)全,就需要用到信息補(bǔ)全技術(shù)。信息補(bǔ)全技術(shù)依托于相應(yīng)的事件圖譜,根據(jù)圖譜中的相關(guān)知識(shí)對(duì)缺失的知識(shí)進(jìn)行補(bǔ)全。目前,信息補(bǔ)全和鏈接預(yù)測(cè)也是知識(shí)圖譜領(lǐng)域的研究熱點(diǎn),但是研究者們主要關(guān)注二元關(guān)系事實(shí)。二元關(guān)系事實(shí)通常表示為三元組,即(頭部實(shí)體,關(guān)系,尾部實(shí)體)。而在事件圖譜當(dāng)中,存在眾多的多元關(guān)系事實(shí)。多元關(guān)系事實(shí)一般通過(guò)引入虛擬實(shí)體分解為多個(gè)三元組,例如Freebase[23]中的復(fù)合值類型(compound value type,CVT)實(shí)體。目前研究者已經(jīng)開(kāi)展了對(duì)多元關(guān)系推理的研究,提出了一些方法。而這些多元關(guān)系推理方法可以應(yīng)用在事件信息補(bǔ)全任務(wù)中,多元關(guān)系事實(shí)的預(yù)測(cè)對(duì)于事件圖譜的補(bǔ)全具有重要意義。
在將實(shí)體轉(zhuǎn)換為多個(gè)三元組實(shí)體的過(guò)程當(dāng)中,Wen J等人[24]認(rèn)為在轉(zhuǎn)換過(guò)程中會(huì)造成結(jié)構(gòu)信息的丟失,可能導(dǎo)致鏈接預(yù)測(cè)不準(zhǔn)確。因此他們提出了一種基于翻譯的方法m-TransH來(lái)對(duì)這些實(shí)例進(jìn)行建模。在該方法中,關(guān)系(二元關(guān)系或多元關(guān)系)是由對(duì)應(yīng)于該類型關(guān)系的一系列角色到其值的映射來(lái)定義的,每個(gè)特定的映射都是此關(guān)系的一個(gè)實(shí)例。但是m-TransH并沒(méi)有考慮在同一多元關(guān)系事實(shí)中各成分之間的相關(guān)性。在此基礎(chǔ)上,Zhang R C等人[25]提出了一種新穎的相關(guān)性關(guān)聯(lián)嵌入(r elatedness affiliated embedding,RAE)模型,還提出了一種可伸縮實(shí)例重構(gòu)(scalable instance reconstruction,SIR)算法。RAE通過(guò)對(duì)各成分之間的相關(guān)性進(jìn)行互補(bǔ)建模,進(jìn)一步改進(jìn)了m-TransH方法。這里的相關(guān)性是指兩個(gè)值在共同實(shí)例中共同參與的可能性。
而Guan S P等人[26]并沒(méi)有對(duì)多元關(guān)系事實(shí)進(jìn)行分解,而是將每個(gè)多元關(guān)系事實(shí)表示為一組角色-值對(duì)。他們提出了一種對(duì)多元關(guān)系數(shù)據(jù)進(jìn)行鏈接預(yù)測(cè)的方法NaLP,該方法對(duì)同一多元關(guān)系事實(shí)中所有角色-值對(duì)的相關(guān)性進(jìn)行了建模。在該方法中,他們認(rèn)為一個(gè)角色與其值是緊密相連的,因此應(yīng)該綁定在一起。同樣地,如果在同一個(gè)組中的所有角色-值對(duì)都緊密相關(guān),就假定這組角色-值對(duì)很有可能構(gòu)成有效的關(guān)系事實(shí)?;谏鲜黾僭O(shè),NaLP方法中包含兩個(gè)關(guān)鍵組件,分別是角色值對(duì)嵌入和相關(guān)性評(píng)估。對(duì)于給定的關(guān)系事實(shí),需要首先學(xué)習(xí)到角色-值對(duì)的嵌入表示,再在相關(guān)性評(píng)估組件中計(jì)算角色-值對(duì)的成對(duì)相關(guān)性。之后還需要估計(jì)關(guān)系事實(shí)的整體相關(guān)性,獲得最終的評(píng)估得分,并用于計(jì)算損失函數(shù)。該方法有效地建模了多元關(guān)系事實(shí)中角色和值之間的相關(guān)性,充分利用了多元關(guān)系事實(shí)中的內(nèi)部信息。另外,由于公開(kāi)可用的多元關(guān)系數(shù)據(jù)集有限,他們基于Wikidata中的原始數(shù)據(jù)構(gòu)建了一個(gè)實(shí)用的多元關(guān)系數(shù)據(jù)集WikiPeople。
Guan S P等人[27]還進(jìn)一步提出了神經(jīng)網(wǎng)絡(luò)模型NeuInfer,用于對(duì)多 元關(guān)系事實(shí)進(jìn)行知識(shí)推斷。NeuInfer不僅可以用于推斷整個(gè)事實(shí)的未知元素,還可以用于新型任務(wù),進(jìn)行靈活知識(shí)推斷。該模型使用的事實(shí)是由主要三元組以及任意數(shù)量的輔助描述組成的。他們假設(shè)一個(gè)有效事件的主三元組是有效的,而不管其有沒(méi)有輔助描述。另外,每個(gè)輔助描述都與主三元組相關(guān),可以作為主三元組的某個(gè)特征。該模型首先對(duì)主三元組的有效性進(jìn)行評(píng)估,得到相應(yīng)的有效性得分。之后再對(duì)主三元組與描述信息的兼容性進(jìn)行評(píng)估,得到兼容性得分。最后,模型將有效性得分和兼容性得分的加權(quán)和作為最終的分?jǐn)?shù)。該方法主要利用了事實(shí)中的主三元組以及輔助描述,可以根據(jù)部分知識(shí)進(jìn)行知識(shí)推理。
在事件信息補(bǔ)全的過(guò)程中,不僅需要對(duì)二元關(guān)系事實(shí)進(jìn)行補(bǔ)全,還需要對(duì)多元關(guān)系事實(shí)進(jìn)行補(bǔ)全。目前多數(shù)研究者認(rèn)為將多元關(guān)系事實(shí)分解為多個(gè)三元組會(huì)導(dǎo)致多元關(guān)系事實(shí)內(nèi)部的關(guān)系信息丟失,可能會(huì)加劇信息補(bǔ)全精度不夠高的問(wèn)題。因此,上述方法都將多元關(guān)系事實(shí)看作一個(gè)整體,保留了原有數(shù)據(jù)的信息。目前用于事件信息補(bǔ)全的方法還比較少,補(bǔ)全精度還不夠高,需要進(jìn)行深入研究。
對(duì)于一篇給定的文本,文本中存在多個(gè)事件。與此同時(shí),事件之間有可能是相互關(guān)聯(lián)的,可能存在多種關(guān)系。事件關(guān)系推斷技術(shù)則利用文本中的信息來(lái)推斷事件之間的關(guān)系,主要包括共指關(guān)系、時(shí)序關(guān)系以及因果關(guān)系等。早期基于規(guī)則的方法實(shí)現(xiàn)簡(jiǎn)單,但依賴于人工制定的規(guī)則,實(shí)用性不高。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,眾多深度學(xué)習(xí)方法被應(yīng)用到關(guān)系推斷任務(wù)中,本文簡(jiǎn)要介紹了相關(guān)的方法。
事件共指關(guān)系指的是給定描述事件的文本,如果兩個(gè)事件指向同一個(gè)事件實(shí)例,則這兩個(gè)事件之間存在共指關(guān)系。當(dāng)文本中的多個(gè)事件指向一個(gè)事件實(shí)例時(shí),則多個(gè)事件組成了一個(gè)共指事件鏈。在共指事件鏈中的任意兩個(gè)事件都具有共指關(guān)系。事件共指關(guān)系可以分為文檔內(nèi)事件共指和跨文檔事件共指。進(jìn)行事件共指關(guān)系的推斷有助于計(jì)算機(jī)更好地理解事件發(fā)展的脈絡(luò),對(duì)于綜合全局信息、推測(cè)事件演變、預(yù)測(cè)未來(lái)事件具有重要的意義。
Zeng Y T等人[28]提出了一種新的基于事件轉(zhuǎn)述和論元感知語(yǔ)義嵌入的EPASE模型。該模型會(huì)在特定事件的上下文中識(shí)別深層次的轉(zhuǎn)述關(guān)系,并且可以涵蓋更多情況的事件轉(zhuǎn)述。另外,由于自變量角色的嵌入被編碼為事件嵌入,無(wú)須依賴固定數(shù)量和類型的自變量,因此該模型具有良好的可伸縮性。該方法首次將轉(zhuǎn)述關(guān)系引入了事件共指任務(wù),通過(guò)句子中的完整語(yǔ)義信息來(lái)識(shí)別句子之間的轉(zhuǎn)述關(guān)系,充分利用了上下文信息。該方法有效地將自注意力機(jī)制和特殊事件的標(biāo)識(shí)結(jié)合起來(lái),只對(duì)選取的特定事件進(jìn)行關(guān)注,排除了文本中噪聲信息的干擾。
事件時(shí)序關(guān)系是指兩個(gè)事件發(fā)生的先后關(guān)系。時(shí)間是事件的一個(gè)天然屬性,事件發(fā)生時(shí)間的不同揭示了事件之間存在的先后關(guān)系。通過(guò)對(duì)時(shí)序關(guān)系的分析可以獲取事件從開(kāi)始到結(jié)束的演化過(guò)程,有助于對(duì)未來(lái)事件進(jìn)行預(yù)測(cè)。事件時(shí)序關(guān)系抽取是自然語(yǔ)言處理領(lǐng)域中的重要研究方向,受到了越來(lái)越多研究者的關(guān)注。
Cheng F等人[29]提出了一個(gè)基于雙向長(zhǎng)短期記憶的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行時(shí)序關(guān)系抽取。該方法使用了句子的依存路徑,將詞向量、詞性向量和依存關(guān)系向量拼接,并將拼接后的向量作為模型輸入的向量。在此基礎(chǔ)上,為了解決跨句子實(shí)體之間不存在依存路徑的問(wèn)題,假設(shè)兩個(gè)相鄰的句子共享一個(gè)根節(jié)點(diǎn)。通過(guò)在模型中加入多種特征,該方法的實(shí)驗(yàn)結(jié)果取得了有效的提升。Han R J等人[30]為了解決在事件抽取和事件時(shí)序關(guān)系識(shí)別兩階段任務(wù)中存在的誤差傳遞問(wèn)題,提出了一種聯(lián)合學(xué)習(xí)方法,同時(shí)進(jìn)行事件抽取以及時(shí)序關(guān)系識(shí)別。他們?cè)趦蓚€(gè)子任務(wù)中共享了事件表達(dá),利用結(jié)構(gòu)化約束和整數(shù)線性規(guī)劃來(lái)優(yōu)化問(wèn)題,提升了事件表達(dá)效果,緩解了誤差傳遞的問(wèn)題。另外,他們還提出了深度結(jié)構(gòu)化學(xué)習(xí)框架[31]的方法,利用遞歸神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)事件的時(shí)序關(guān)系表示,同時(shí)采用結(jié)構(gòu)化支持向量機(jī)(structured support vector machine,SSVM)進(jìn)行預(yù)測(cè)。該方法在多個(gè)數(shù)據(jù)集上取得了優(yōu)秀的結(jié)果,作者還通過(guò)消融實(shí)驗(yàn)進(jìn)行了廣泛的誤差分析。
在此基礎(chǔ)上Han R J等人[32]還指出,之前的方法中只利用了例如硬約束的結(jié)構(gòu)化知識(shí),同時(shí)因?yàn)橛?xùn)練數(shù)據(jù)有限,進(jìn)行時(shí)序關(guān)系分類時(shí)會(huì)引起偏差。因此他們提出了一個(gè)新的框架,通過(guò)概率領(lǐng)域知識(shí)構(gòu)建的分布約束來(lái)增強(qiáng)深度神經(jīng)網(wǎng)絡(luò)的性能。新的方法還將拉格朗日松弛方法應(yīng)用到時(shí)序關(guān)系抽取任務(wù)中,取得了最優(yōu)性能。Wang H Y等人[33]設(shè)計(jì)了一種新的聯(lián)合約束學(xué)習(xí)框架,利用時(shí)間和子事件關(guān)系之間的邏輯約束對(duì)模型進(jìn)行正則化。同時(shí),他們?cè)O(shè)計(jì)了新的事件復(fù)合結(jié)構(gòu),用來(lái)描述事件提及之間的關(guān)系結(jié)構(gòu)。
事件因果關(guān)系是指兩個(gè)事件之間的因果聯(lián)系,是一種復(fù)雜的語(yǔ)義關(guān)系。通過(guò)對(duì)事件因果關(guān)系進(jìn)行分析,事件發(fā)生的前因后果會(huì)更加清晰。清晰的因果關(guān)系有助于進(jìn)一步認(rèn)識(shí)事件發(fā)展的過(guò)程,使得事件推理與事件預(yù)測(cè)更加準(zhǔn)確,可以避免風(fēng)險(xiǎn)、提高收益,為決策者提供有力的支持。事件因果關(guān)系識(shí)別在事件預(yù)測(cè)中的重要性,吸引了眾多學(xué)者對(duì)其進(jìn)行研究。
因?yàn)樵谑录P(guān)系推斷任務(wù)中缺少標(biāo)準(zhǔn)數(shù)據(jù)集,所以Caselli T等人[34]提出了一個(gè)用于事件時(shí)序和因果關(guān)系檢測(cè)的數(shù)據(jù)集ESC(event storyline corpus)。ESC數(shù)據(jù)集的構(gòu)建為之后的研究提供了便利。針對(duì)文檔級(jí)事件因果關(guān)系的識(shí)別任務(wù),Gao L等人[35]建模了粗粒度和細(xì)粒度的文檔級(jí)因果結(jié)構(gòu),在ESC數(shù)據(jù)集上取得了不錯(cuò)的效果。他們?cè)O(shè)計(jì)了豐富的特征進(jìn)行事件因果關(guān)系識(shí)別,包括詞法特征、因果潛在特征、句法特征,還利用事件共指鏈接將效果較差的句間預(yù)測(cè)問(wèn)題轉(zhuǎn)換為句內(nèi)預(yù)測(cè)問(wèn)題。最后,他們使用整數(shù)線性規(guī)劃的方法來(lái)進(jìn)行文檔級(jí)全局推理,用來(lái)抽取文檔中所有事件對(duì)的因果關(guān)系。該方法專門用于對(duì)事件因果關(guān)系進(jìn)行識(shí)別,但是其并沒(méi)有對(duì)因果關(guān)系的方向進(jìn)行區(qū)分。
Liu J等人[36]還利用外部知識(shí)來(lái)提升事件的表示,設(shè)計(jì)了一種事件提及屏蔽機(jī)制來(lái)挖掘歷史數(shù)據(jù)中存在的因果關(guān)系。該方法將ConceptNet[37]的知識(shí)引入了原有文本數(shù)據(jù)中,擴(kuò)展了已有事件,涵蓋了更多的信息。另外,為了處理數(shù)據(jù)中新出現(xiàn)的事件,該方法利用事件提及屏蔽機(jī)制來(lái)發(fā)現(xiàn)因果關(guān)系模式,增加對(duì)上下文信息的關(guān)注。最后,模型對(duì)兩個(gè)組件做了權(quán)衡,用來(lái)充分發(fā)揮兩個(gè)組件的優(yōu)點(diǎn)。實(shí)驗(yàn)結(jié)果顯示,該方法效果顯著,在跨主題應(yīng)用中也展現(xiàn)出很強(qiáng)的魯棒性。
事件關(guān)系推斷用于對(duì)事件之間的關(guān)系進(jìn)行判斷,在此基礎(chǔ)上可以對(duì)事件圖譜進(jìn)行完善,更好地刻畫事件之間的關(guān)系。之前研究者主要利用規(guī)則的方法進(jìn)行事件關(guān)系推斷,現(xiàn)在已經(jīng)引入了深度學(xué)習(xí)的方法,取得了不錯(cuò)的效果。但是總體來(lái)說(shuō),目前對(duì)事件關(guān)系推斷技術(shù)的研究還不夠充分,尤其是事件因果關(guān)系這一方面。在事件因果關(guān)系的研究領(lǐng)域中缺少明確的任務(wù)定義以及足夠的標(biāo)準(zhǔn)數(shù)據(jù)集,這就需要研究人員在此領(lǐng)域中投入更多的精力,廣泛開(kāi)展研究。
事件預(yù)測(cè)主要指的是根據(jù)歷史事件來(lái)預(yù)測(cè)未來(lái)發(fā)生的事件。對(duì)未來(lái)事件進(jìn)行準(zhǔn)確預(yù)測(cè)具有十分重要的意義,既可以減少突發(fā)事件帶來(lái)的損失,也可以針對(duì)未來(lái)事件做出相應(yīng)的應(yīng)對(duì)部署,為整個(gè)社會(huì)帶來(lái)巨大的經(jīng)濟(jì)效益。但與此同時(shí),對(duì)未來(lái)事件進(jìn)行預(yù)測(cè)是十分困難的,需要面臨很多的問(wèn)題。這是因?yàn)閷?duì)于許多事件來(lái)說(shuō),很難知道其發(fā)生的機(jī)制以及其背后的原因。隨著大數(shù)據(jù)時(shí)代的來(lái)臨,相關(guān)數(shù)據(jù)的規(guī)模不斷擴(kuò)大,為事件預(yù)測(cè)的研究提供了基礎(chǔ)。因此,眾多研究者開(kāi)始探索如何進(jìn)行事件預(yù)測(cè),提出了眾多有意義的方法。后文主要介紹腳本事件預(yù)測(cè)技術(shù)和基于圖卷積網(wǎng)絡(luò)的事件預(yù)測(cè)技術(shù)。
腳本事件預(yù)測(cè)技術(shù)根據(jù)給出故事的上下文來(lái)推斷出故事的結(jié)尾。在這一任務(wù)當(dāng)中,事件是用腳本結(jié)構(gòu)描述的,即利用腳本描述事件的參與者、事件類型、事件觸發(fā)詞等多個(gè)元素,之后利用現(xiàn)有腳本對(duì)未來(lái)的事件進(jìn)行預(yù)測(cè)。腳本事件預(yù)測(cè)是由Chambers N等人[38]在2008年提出的,需要在候選事件列表中選擇最有可能發(fā)生的事件,利用填空式的評(píng)估標(biāo)準(zhǔn)來(lái)評(píng)估模型,這種思路被稱為統(tǒng)計(jì)腳本學(xué)習(xí)。Chambers N等人[38]設(shè)計(jì)了點(diǎn)互信息(pointwise mutual information,PMI)來(lái)計(jì)算事件對(duì)之間的關(guān)系。
目前腳本事件預(yù)測(cè)任務(wù)廣泛使用的評(píng)測(cè)方法是多選項(xiàng)完形填空(multiple choice narrative cloze,MCNC),該方法是由Granroth-Wilding M等人[39]提出的。在MCNC任務(wù)中,完整的事件鏈中存在某處缺失,給定多個(gè)候選的后續(xù)事件,模型需要從多個(gè)候選項(xiàng)中選擇最符合邏輯的一項(xiàng)內(nèi)容。Granroth-Wilding M等人[39]采用深度學(xué)習(xí)的方法,設(shè)計(jì)了一種神經(jīng)網(wǎng)絡(luò)來(lái)對(duì)事件鏈進(jìn)行建模。他們?cè)O(shè)計(jì)了一個(gè)EventComp模型,使用孿生神經(jīng)網(wǎng)絡(luò)(siamese network)代替原有的PMI。模型結(jié)構(gòu)包含3層,分別是輸入層、論元組合層和事件組合層。最終,訓(xùn)練后的模型與統(tǒng)計(jì)學(xué)習(xí)方法相比取得了極大的進(jìn)步,證明深度學(xué)習(xí)方法在這一領(lǐng)域是有效的。
上述方法對(duì)事件對(duì)之間的關(guān)系進(jìn)行了建模,并取得了不錯(cuò)的效果,但是文本中事件之間豐富的連接信息并沒(méi)有被充分地利用。正因如此,研究者開(kāi)始利用圖的方法對(duì)事件之間的連接信息進(jìn)行建模。在事件構(gòu)成的圖中,圖的節(jié)點(diǎn)表示單個(gè)事件,節(jié)點(diǎn)之間的邊表示事件之間的關(guān)系。Li B等人[40]提出了一種眾包的構(gòu)建事件圖的方法。另外,Glava? G等人[41]提出了一種從文本中構(gòu)建事件圖的有效方法。在此基礎(chǔ)上,Li Z Y等人[42]提出了一種新的方法來(lái)充分利用事件之間稠密的連接信息。該方法首先構(gòu)建了敘事事理圖譜,之后基于事理圖譜進(jìn)行網(wǎng)絡(luò)表示學(xué)習(xí),最后再利用得到的表示向量預(yù)測(cè)后續(xù)事件,模型結(jié)構(gòu)如圖3所示[42]。具體來(lái)說(shuō),在構(gòu)建敘事事理圖譜的過(guò)程中,首先需要抽取腳本事件鏈條,之后利用抽取出來(lái)的鏈條構(gòu)建圖譜。在構(gòu)建好事理圖譜之后,模型每次會(huì)從中抽取一個(gè)子圖,學(xué)習(xí)并更新所選子圖上的事件表示。其中每個(gè)子圖都包括故事上下文、所有候選事件的節(jié)點(diǎn)以及這些節(jié)點(diǎn)之間的有向邊。該方法通過(guò)構(gòu)建好的事理圖譜來(lái)學(xué)習(xí)事件表示,有效地利用了事件之間的關(guān)系。但是構(gòu)建事理圖譜的過(guò)程較為復(fù)雜,構(gòu)建好的圖譜規(guī)模較大,每次只能選取一個(gè)子圖來(lái)更新子圖上的事件表示。
圖3 SGNN模型結(jié)構(gòu)[42]
基于 圖卷積網(wǎng)絡(luò)的事件預(yù)測(cè)技術(shù)主要指的是在時(shí)序知識(shí)圖譜上利用圖卷積網(wǎng)絡(luò)進(jìn)行推理的技術(shù)。時(shí)序知識(shí)圖譜主要由四元組構(gòu)成,是在原有知識(shí)圖譜的三元組上添加了時(shí)間維度得到的。通過(guò)引入時(shí)間維度,時(shí)序知識(shí)圖譜可以更好地描述事件信息。因此對(duì)時(shí)序知識(shí)圖譜的未來(lái)狀態(tài)進(jìn)行推理就是對(duì)未來(lái)的事件進(jìn)行預(yù)測(cè)。
Han Z等人[43]提出了一種全新的圖霍克斯神經(jīng)網(wǎng)絡(luò)(graph Hawkes neural network,GHNN)。該神經(jīng)網(wǎng)絡(luò)首次利用霍克斯過(guò)程[44]進(jìn)行建模,主要用于捕捉過(guò)去事件對(duì)未來(lái)事件的影響。通過(guò)捕捉時(shí)序知識(shí)圖譜上潛在的動(dòng)態(tài)關(guān)系,該神經(jīng)網(wǎng)絡(luò)可以用于對(duì)大規(guī)模時(shí)序多關(guān)系型數(shù)據(jù)進(jìn)行分析,更加準(zhǔn)確地對(duì)未來(lái)某一時(shí)刻發(fā)生的事件進(jìn)行預(yù)測(cè)。與此同時(shí),Jin W等人[45]提出了一種新的循環(huán)事件網(wǎng)絡(luò)(recurrent event network,RE-NET)來(lái)預(yù)測(cè)將要發(fā)生的事件。該網(wǎng)絡(luò)主要分為兩個(gè)部分,一部分是對(duì)歷史事件的信息進(jìn)行循環(huán)編碼,另一部分是對(duì)時(shí)序相鄰事件的信息進(jìn)行聚合。RE-NET充分利用了歷史事件的信息、時(shí)序相鄰事件的信息以及同時(shí)發(fā)生事件的信息。通過(guò)聚合多種信息,該方法給出了所有事件的聯(lián)合概率分布,用來(lái)預(yù)測(cè)未來(lái)事件發(fā)生的概率?;趫D卷積網(wǎng)絡(luò)的事件預(yù)測(cè)方法可以利用歷史數(shù)據(jù)中蘊(yùn)含的信息,捕捉到歷史事件對(duì)未來(lái)事件的影響。但是目前這種方法的準(zhǔn)確率還比較低,需要開(kāi)展進(jìn)一步的研究。
對(duì)事件預(yù)測(cè)的研究是十分重要的,其具有廣闊的應(yīng)用場(chǎng)景,事件預(yù)測(cè)是對(duì)事件圖譜的高級(jí)應(yīng)用。目前在腳本事件預(yù)測(cè)任務(wù)中已經(jīng)有了相對(duì)清晰的評(píng)測(cè)方法,研究者也提出了許多方法對(duì)事件鏈以及事件圖進(jìn)行建模。除此之外,研究者還提出了基于圖卷積網(wǎng)絡(luò)的事件預(yù)測(cè)方法,采用新的方法對(duì)將來(lái)的事件進(jìn)行預(yù)測(cè)??傮w來(lái)說(shuō),研究者對(duì)事件預(yù)測(cè)的關(guān)注度較高,期待取得更多的研究進(jìn)展。
目前,知識(shí)圖譜已經(jīng)被應(yīng)用到各行各業(yè),成為人工智能技術(shù)的重要組成部分。但是知識(shí)圖譜具有一定的局限性,只能描述與實(shí)體相關(guān)的知識(shí)。而現(xiàn)實(shí)世界中存在著大量的事件,事件是日常生活中不可或缺的一部分,充分利用與事件相關(guān)的知識(shí)會(huì)更加真實(shí)、具體地刻畫現(xiàn)實(shí)世界。因此,事件知識(shí)構(gòu)成的事件圖譜具有廣闊的應(yīng)用前景[9]。將事件圖譜應(yīng)用到人工智能技術(shù)中可以使產(chǎn)品的智能化水平更高,更加方便人們的生產(chǎn)和生活。具體來(lái)說(shuō),事件圖譜主要有熱點(diǎn)事件檢測(cè)、事件脈絡(luò)分析以及未來(lái)事件預(yù)測(cè)等應(yīng)用場(chǎng)景。
事件圖譜可以用于對(duì)熱點(diǎn)事件進(jìn)行檢測(cè)。熱點(diǎn)事件發(fā)生突然,會(huì)在短時(shí)間內(nèi)形成,而且時(shí)時(shí)刻刻在發(fā)生變化,傳統(tǒng)的方法難以應(yīng)對(duì)。而采用與事件圖譜相關(guān)的分析技術(shù)可以對(duì)網(wǎng)絡(luò)上的輿論內(nèi)容進(jìn)行分析,實(shí)時(shí)地捕捉熱點(diǎn)事件。另外,還可以對(duì)行業(yè)熱點(diǎn)、地域熱點(diǎn)事件進(jìn)行檢測(cè),從多個(gè)方面展現(xiàn)熱點(diǎn)事件。該技術(shù)可以被應(yīng)用到媒體機(jī)構(gòu)中,將檢測(cè)到的熱點(diǎn)事件實(shí)時(shí)地推送給用戶,讓用戶在第一時(shí)間獲得更多的熱點(diǎn)資訊。
事件圖譜的另一重要應(yīng)用場(chǎng)景是事件脈絡(luò)分析。針對(duì)特定的事件,事件圖譜可以利用事件之間的關(guān)系,對(duì)事件的前因后果進(jìn)行關(guān)聯(lián),形成事件發(fā)展的脈絡(luò),并展示給用戶。具體來(lái)說(shuō),可以將事件圖譜與搜索引擎結(jié)合,當(dāng)用戶對(duì)感興趣的事件進(jìn)行搜索時(shí),就可以得到事件發(fā)生的來(lái)龍去脈,清晰地反映事件發(fā)展的脈絡(luò),極大地提高知識(shí)檢索的效率,給用戶提供更多的便利。
事件圖譜還可以在未來(lái)事件預(yù)測(cè)方面發(fā)揮重要的作用。通過(guò)分析歷史事件的發(fā)展過(guò)程,可以預(yù)測(cè)未來(lái)可能發(fā)生的事件。在金融領(lǐng)域,可以基于歷史事件掌握行業(yè)動(dòng)態(tài),預(yù)測(cè)行業(yè)發(fā)展的趨勢(shì)。這樣就能夠準(zhǔn)確地把握市場(chǎng)發(fā)展動(dòng)向,針對(duì)市場(chǎng)的變化做出相應(yīng)的調(diào)整。在輿情預(yù)警方面,可以在現(xiàn)階段發(fā)生事件的基礎(chǔ)上預(yù)測(cè)未來(lái)可能會(huì)發(fā)生的事件,對(duì)事件的演化過(guò)程做出預(yù)測(cè)[46]。一旦事件發(fā)生不良演變或者有不可控的趨勢(shì),監(jiān)測(cè)系統(tǒng)可以及時(shí)發(fā)出預(yù)警,由相關(guān)部門第一時(shí)間介入處理。未來(lái)事件預(yù)測(cè)在現(xiàn)實(shí)生活中有重要的作用,可以做到預(yù)測(cè)預(yù)警,及時(shí)規(guī)避風(fēng)險(xiǎn),創(chuàng)造出巨大的社會(huì)價(jià)值。
目前,在研究者的共同努力下,對(duì)事件圖譜的研究取得了不錯(cuò)的進(jìn)展,越來(lái)越多的學(xué)者開(kāi)始關(guān)注這一領(lǐng)域。對(duì)事件圖譜的研究有助于人們進(jìn)一步了解事件的發(fā)展歷程以及事件背后的影響因素,可以更加容易地獲取知識(shí),提高生產(chǎn)效率。雖然事件圖譜具有廣闊的應(yīng)用場(chǎng)景,但是現(xiàn)在對(duì)事件圖譜相關(guān)技術(shù)的研究還不夠深入,距離事件圖譜的大規(guī)模應(yīng)用還有很長(zhǎng)的路要走,還面臨很多新的挑戰(zhàn)。未來(lái)事件圖譜可向以下幾個(gè)方向發(fā)展。
(1)提升事件抽取與事件推理的精度
目前事件抽取的準(zhǔn)確率還不夠高,而事件抽取是事件圖譜構(gòu)建的基礎(chǔ),只有從文本中準(zhǔn)確地抽取出事件知識(shí),才能推動(dòng)后續(xù)技術(shù)的發(fā)展,因此需要進(jìn)一步提升事件抽取的準(zhǔn)確率。之后是事件推理,雖然研究者對(duì)其進(jìn)行了眾多有意義的探索,但是目前提出的方法也存在準(zhǔn)確率低、限制條件多等問(wèn)題。正因如此,需要繼續(xù)進(jìn)行廣泛的研究,不斷提高事件推理的精度,進(jìn)行更加準(zhǔn)確的事件預(yù)測(cè)。
(2)自動(dòng)構(gòu)建事件抽取與事件關(guān)系推斷數(shù)據(jù)集
目前在事件抽取與事件關(guān)系推斷的研究中,缺少數(shù)據(jù)集是一個(gè)嚴(yán)重的問(wèn)題。數(shù)據(jù)集的匱乏制約了事件抽取與事件關(guān)系推斷技術(shù)的發(fā)展。因此,未來(lái)應(yīng)當(dāng)關(guān)注數(shù)據(jù)集的構(gòu)造方法,目標(biāo)是實(shí)現(xiàn)自動(dòng)化地構(gòu)建高質(zhì)量的數(shù)據(jù)集。自動(dòng)構(gòu)建高質(zhì)量的事件抽取、事件關(guān)系推斷數(shù)據(jù)集具有重要的意義,是未來(lái)技術(shù)發(fā)展的重要方向。
(3)廣泛開(kāi)展事件時(shí)序、因果關(guān)系研究
在事件圖譜中,事件之間的時(shí)序關(guān)系和因果關(guān)系占據(jù)重要的地位,但是目前對(duì)其進(jìn)行的研究還不夠多。只有獲取到準(zhǔn)確的時(shí)序關(guān)系以及因果關(guān)系,才能推斷出事件的發(fā)展歷程,實(shí)現(xiàn)對(duì)事件的溯源。另外,事件預(yù)測(cè)的研究也離不開(kāi)事件時(shí)序關(guān)系以及因果關(guān)系的支撐。因此,廣泛開(kāi)展事件時(shí)序、因果關(guān)系研究是十分必要的,也是十分有意義的,需要研究人員的共同努力。
(4)研究事件間關(guān)系可信性的界定方法
事件之間的關(guān)系是事件圖譜的重要組成部分,反映了復(fù)雜事件背后的關(guān)聯(lián)關(guān)系。在事件推理的過(guò)程中,必然要用到事件之間的關(guān)系。而事件之間的關(guān)系是否可信、如何界定事件間關(guān)系的可信性是個(gè)十分重要的問(wèn)題,對(duì)事件推理技術(shù)的發(fā)展有重要的影響。因此事件間關(guān)系的可信性的界定方法值得研究者關(guān)注,需要在深入研究的基礎(chǔ)上提出較為合理的界定方法。
(5)深入研究復(fù)雜事件的推理
目前事件推理研究的內(nèi)容大多是簡(jiǎn)單事件,缺乏對(duì)復(fù)雜事件的研究。為了更好地利用事件圖譜,對(duì)復(fù)雜事件的研究是不可或缺的。因?yàn)楝F(xiàn)實(shí)世界中的事件錯(cuò)綜復(fù)雜,不再是單一的簡(jiǎn)單事件,所以未來(lái)需要開(kāi)展對(duì)復(fù)雜事件的研究,挖掘復(fù)雜事件之間的關(guān)聯(lián)。只有這樣才能不斷提高事件推理技術(shù)的水平,最終實(shí)現(xiàn)對(duì)事件的智能分析。
事件圖譜中包含大量的事件知識(shí),現(xiàn)代社會(huì)智能化水平的提升需要事件圖譜的輔助。事件圖譜中的事件涉及的維度較多,導(dǎo)致事件圖譜的構(gòu)建與推理具有一定的難度?;谑录D譜的重要性,研究人員已經(jīng)開(kāi)始對(duì)這一領(lǐng)域展開(kāi)積極的探索,推動(dòng)著該領(lǐng)域的快速發(fā)展。本文簡(jiǎn)單介紹了知識(shí)圖譜和事件圖譜,從事件圖譜的構(gòu)建、推理與應(yīng)用方面對(duì)事件圖譜的研究現(xiàn)狀做了總結(jié)。之后,本文給出了事件圖譜具體的應(yīng)用場(chǎng)景,并展望了事件圖譜的研究方向。
目前,事件圖譜是自然語(yǔ)言處理領(lǐng)域中的前沿研究方向。為了更好地發(fā)揮事件圖譜的價(jià)值,利用事件圖譜服務(wù)社會(huì),需要更多研究者進(jìn)行深入研究。希望本文可以為事件圖譜相關(guān)的研究提供一些幫助。