王紅斌+郜洪奎
引言
事件提出到現(xiàn)在一直受到學(xué)術(shù)界的關(guān)注,從而引起國(guó)家的重視。2009年,中國(guó)重點(diǎn)支持的科研項(xiàng)目之一是突發(fā)性災(zāi)難事件的研究。中國(guó)是大國(guó),交通事故發(fā)生頻繁;中國(guó)希望通過(guò)相關(guān)研究可以預(yù)防災(zāi)難和減少事故的發(fā)生。事故處理部門(mén)主要關(guān)心事故發(fā)生時(shí)間、地點(diǎn)、人員傷亡以及哪個(gè)路段、哪個(gè)時(shí)間容易發(fā)生事故,從而采取措施來(lái)最大限度的減少傷亡。對(duì)于事件的研究不僅具有理論研究?jī)r(jià)值,還具有實(shí)際的應(yīng)用前景。
事件抽取已有部分研究,并已取得較好的研究成果。國(guó)內(nèi)外對(duì)事件抽取研究大致分為兩類(lèi):基于規(guī)則的方法和機(jī)器學(xué)習(xí)方法。基于規(guī)則的方法是事先制定一個(gè)字典,然后用待選詞與字典進(jìn)行匹配。國(guó)內(nèi)外基于規(guī)則方法的相關(guān)研究如下:Alan D采用二元分類(lèi)器和多元分類(lèi)器方法來(lái)進(jìn)行事件抽取研究,并且在ACE英文語(yǔ)料庫(kù)進(jìn)行了實(shí)驗(yàn),取得較好的結(jié)果;對(duì)于中文事件的抽取研究,吳平博等人采用預(yù)先定義的模版來(lái)制定規(guī)則,從處理的文本中抽取事件信息來(lái)填充句型模板中的槽。張毅采用面向規(guī)約挖掘的事件相關(guān)性分析研究事件。熊宗炬和熊志斌針對(duì)特定領(lǐng)域突發(fā)事件的研究,并給出了原型系統(tǒng)。李超等人針對(duì)音頻事件的研究。上述事件抽取都限定特定領(lǐng)域,缺乏普遍性。
結(jié)合上述國(guó)內(nèi)外事件抽取發(fā)現(xiàn),基于規(guī)則方法在一定范圍內(nèi)效果相當(dāng)不錯(cuò),但是它依賴(lài)具體環(huán)境,可移植性差,對(duì)于一些沒(méi)有統(tǒng)計(jì)到字典的詞,識(shí)別不出來(lái)。而且字典的制定費(fèi)時(shí)費(fèi)力,需要領(lǐng)域?qū)<业闹笇?dǎo)。由于這些突出問(wèn)題導(dǎo)致對(duì)事件抽取研究都轉(zhuǎn)向了機(jī)器學(xué)習(xí),機(jī)器學(xué)習(xí)方法可以解決當(dāng)前這些面臨的問(wèn)題。國(guó)內(nèi)外運(yùn)用機(jī)器學(xué)習(xí)的相關(guān)研究例如:該方法采用以文檔相關(guān)性的研究方法和跨越不同事件的推理演繹方法;楊爾弘根據(jù)中文特點(diǎn),采用語(yǔ)句聚類(lèi)的方法獲得事件的信息結(jié)構(gòu)(事件模板),并以此為標(biāo)準(zhǔn)進(jìn)行抽取事件;趙妍妍等人結(jié)合Ahn等人的工作對(duì)機(jī)器學(xué)習(xí)需要的特征進(jìn)行了改進(jìn);付劍鋒等人采用依存分析進(jìn)行深入的挖掘詞與詞間的句法關(guān)聯(lián)性。但是機(jī)器學(xué)習(xí)方法需要大量的語(yǔ)料和眾多的特征作為支持,現(xiàn)如今語(yǔ)料資源的缺乏和特征的選取也影響了機(jī)器學(xué)習(xí)的提高。而且這兩種抽取方法均沒(méi)有考慮詞語(yǔ)問(wèn)詞性特征以及詞語(yǔ)之間的依賴(lài)性和事件句之間的關(guān)聯(lián)。
針對(duì)以上情況,本文提出了一種新的事件抽取方法充分考慮核心詞和其他詞語(yǔ)的特征、句間關(guān)系和詞語(yǔ)間的依存性。采用本文提出的這種方法實(shí)驗(yàn)發(fā)現(xiàn),在事件識(shí)別和事件要素提取均有明顯提高。
1事件識(shí)別
事件這一概念被提出,且有較多含義,百度百科上定義為產(chǎn)生重大影響,并且對(duì)社會(huì)和人類(lèi)產(chǎn)生深刻影響。事件,反映著自然界中的運(yùn)動(dòng)以及產(chǎn)生和變化的行為,是人類(lèi)進(jìn)行探索和發(fā)掘知識(shí)的基本單位。在自然語(yǔ)言處理和信息檢索領(lǐng)域,檢索的主題被稱(chēng)作事件。美國(guó)國(guó)防高級(jí)研究計(jì)劃委員會(huì)上認(rèn)為事件是比話題小的概念。事件是話題的子集,多個(gè)事件共同組成一個(gè)話題。事件表示為在“特定時(shí)間特定地點(diǎn)發(fā)生”。大會(huì)上指出話題的識(shí)別和跟蹤包括五大步奏,其中最重要的就是事件識(shí)別。國(guó)際上定時(shí)召開(kāi)的ACE評(píng)測(cè)會(huì)議極大促進(jìn)了事件抽取的向前發(fā)展,大會(huì)認(rèn)為事件通常是一種狀態(tài)轉(zhuǎn)向另一種狀態(tài),并把“事件”定義為含有參與者,時(shí)間,地點(diǎn)等特征的集合。綜合以上不同領(lǐng)域?qū)κ录难芯堪l(fā)現(xiàn),盡管事件這一概念在不同領(lǐng)域內(nèi)定義不同。但是,事件的定義都包括行為(一般由動(dòng)詞、名詞或動(dòng)名詞來(lái)描述)、事件的參與者、事件發(fā)生的地點(diǎn)和時(shí)間等要素。下面給出了事件的正式定義。
定義1事件(Event):特定時(shí)間特定地點(diǎn)發(fā)生、由參與者參與、表現(xiàn)出若干動(dòng)作。
例如:
(1)2016年8月14日,在市中心,一輛公交車(chē)與多輛小轎車(chē)發(fā)生追尾,小轎車(chē)司機(jī)當(dāng)場(chǎng)死亡,公交車(chē)司機(jī)受重傷。
定義2事件觸發(fā)詞(Event Denoter):文本中清晰的表示發(fā)生事情的詞語(yǔ),即事件的動(dòng)作要素。文獻(xiàn)表明事件觸發(fā)詞一般為動(dòng)詞,名詞,動(dòng)名詞。
例如:
(2)北京時(shí)間2016年8月16日,澳大利亞發(fā)生了5.7級(jí)地震。
在事件識(shí)別和事件抽取兩大任務(wù)中,關(guān)鍵任務(wù)還是事件識(shí)別,事件的識(shí)別在兩大任務(wù)中起到?jīng)Q定性作用。例如:張三患上了高血壓,癱瘓?jiān)诖病?/p>
(1)小李在工作期間由于大意摔成癱瘓。
(2)強(qiáng)大的暴雪致使公路癱瘓。
(3)黑客攻擊網(wǎng)絡(luò)導(dǎo)致12306癱瘓。
上面三個(gè)例子,觸發(fā)詞都是癱瘓,但是只有句子1才符合要求,才是真正事件。因此,對(duì)于事件識(shí)別,不能孤立考慮句子,要結(jié)合依存分析把觸發(fā)詞以及距離觸發(fā)詞相近的詞以及這些詞的詞性、位置信息、句子間的關(guān)聯(lián)性、依存關(guān)系等作為事件識(shí)別的特征。
2 word2vec和依存關(guān)系
2.1word2vec
計(jì)算機(jī)只認(rèn)識(shí)0和1。因此,進(jìn)行自然語(yǔ)言處理,首先要將現(xiàn)實(shí)世界存在的文本或文檔轉(zhuǎn)化為計(jì)算機(jī)認(rèn)識(shí)的語(yǔ)言。最直觀的方法就是向量模型表示方法。也就是用0和1表示表示文本或文檔,在某一位置存在的用1表示,其余用0。采用該方法可以把對(duì)文本的處理轉(zhuǎn)化為向量空間上的運(yùn)算。Word2vec是2013年谷歌推出的一款高效的將文本語(yǔ)言轉(zhuǎn)化為向量的工具。Word2vec在自然語(yǔ)言處理中可以用于很多用途,例如同義詞、聚類(lèi)等。
本文主要借助word2vec進(jìn)行擴(kuò)展同義詞,該工具具有訓(xùn)練速度快,可以在較短時(shí)間內(nèi)訓(xùn)練出大量數(shù)據(jù)。實(shí)驗(yàn)前,需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理等操作,然后在采用word2vec工具把數(shù)據(jù)轉(zhuǎn)化為向量。采用word2vec進(jìn)行數(shù)據(jù)處理的流程圖如下圖1所示:
在本文實(shí)驗(yàn)中,為了更好的進(jìn)行數(shù)據(jù)訓(xùn)練,需要不斷調(diào)整訓(xùn)練中參數(shù)變化。例如訓(xùn)練中具體的算法和相應(yīng)的模型以及訓(xùn)練窗口的大小等因素。本文中采用的參數(shù)如下圖2所示:
經(jīng)過(guò)訓(xùn)練后得到詞向量模型,然后就可以調(diào)用word2vec提供的方法進(jìn)行相似度計(jì)算,得到同義詞。本文的同義詞擴(kuò)展是根據(jù)ACE定義的8大類(lèi)33小類(lèi)事件出發(fā),根據(jù)初始定義的種子觸發(fā)詞采用該方法進(jìn)行擴(kuò)展。最后,分別使用計(jì)算每個(gè)種子詞相似度較高的詞語(yǔ),再對(duì)每個(gè)種子詞的相似度得分列表進(jìn)行加權(quán)平均,從而得到最終的相似度列表。采用word2vec進(jìn)行挖掘查找同義詞,對(duì)于查找和種子觸發(fā)詞的同義詞可以進(jìn)行加權(quán),而對(duì)于只與其中某個(gè)種子詞相關(guān),與其他種子詞相似度較低的詞將得到相似度得分的打壓和降權(quán)。endprint
2.2依存關(guān)系
依存關(guān)系是進(jìn)行句法分析的重要方法。采用依存分析發(fā)現(xiàn)句子中中心詞和其余詞語(yǔ)的關(guān)系,并且轉(zhuǎn)化為語(yǔ)義依存來(lái)描述。當(dāng)前領(lǐng)域內(nèi)的主流方法是基于短語(yǔ)的句法分析。首次提出基于依存結(jié)構(gòu)句法分析概念是在1984年,由Hudson在提出。依存分析概念提出后,就受到學(xué)者們一致好評(píng)和廣泛的推廣。依存關(guān)系主要包括兩個(gè)部分:一個(gè)是核心詞、另一個(gè)是依賴(lài)詞。依存關(guān)系的基本原理是充分挖掘句子中詞與詞間的關(guān)系,轉(zhuǎn)化為描述自然語(yǔ)言的語(yǔ)法結(jié)構(gòu)。詞語(yǔ)間有聯(lián)系和相互支配,反映出詞語(yǔ)間的不對(duì)等現(xiàn)象,這種相互間具有方向性的關(guān)系就被稱(chēng)為“依存關(guān)系”。依存關(guān)系中,定義箭頭發(fā)出的是支配者,箭頭指向的就是從屬者。例如:2013年6月7日,習(xí)近平和奧巴馬在美國(guó)加州安納伯格莊園會(huì)談,依存分析表示如下圖3所示:
“2013年6月7日,習(xí)近平和奧巴馬在美國(guó)加州安納伯格莊園會(huì)談?!鄙鲜鍪录渲校琑oot是全句核心節(jié)點(diǎn)。HED代表的是核心詞,核心詞是“會(huì)談”;“會(huì)談”也是本事件句的觸發(fā)詞。依存關(guān)系表示中,COO表示并列關(guān)系,LAD表示左附加關(guān)系,SBV表示主謂關(guān)系,ATT表示定中關(guān)系。詞語(yǔ)間的依存關(guān)系是用帶箭頭的有向弧表示。在圖中,箭頭的發(fā)起端代表的詞是依存詞,箭頭的指向端代表的詞是核心詞。在“2013年6月7日,習(xí)近平和奧巴馬在美國(guó)加州安納伯格莊園會(huì)談”事件句中,美國(guó)、加州、安納伯格、莊園都是表示地點(diǎn)的事件要素。經(jīng)過(guò)分析可知,只有莊園是真正的地點(diǎn)要素。首先采用word2vec轉(zhuǎn)為向量,然后采用依存分析詞語(yǔ)之間關(guān)系。依存分析表示地點(diǎn)詞是按照核心詞和依賴(lài)詞順序排列,真正的地點(diǎn)要素是后面的依賴(lài)詞。本例中美國(guó)是加州的核心詞、安納伯格是莊園的核心詞、加州是莊園的核心詞。本文根據(jù)依存關(guān)系只要出現(xiàn)地點(diǎn)詞最終地點(diǎn)要素均是依賴(lài)詞。依存分析是依賴(lài)于分詞之上的,因此分詞的效率直接影響依存分析的結(jié)果。因此本文采用的分詞工具是中科院的ICTCLAS,依存分析采用的是斯坦福大學(xué)Stanford。
3實(shí)驗(yàn)
3.1事件識(shí)別
本實(shí)驗(yàn)先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理等操作,然后在此基礎(chǔ)上運(yùn)用word2vec工具進(jìn)行詞向量處理和依存分析相結(jié)合進(jìn)行事件識(shí)別。實(shí)驗(yàn)所用語(yǔ)料是來(lái)自網(wǎng)絡(luò)上搜集關(guān)于事件的報(bào)道,采用SVM和最大熵作為分類(lèi)器。實(shí)驗(yàn)用的訓(xùn)練語(yǔ)料是80124篇、測(cè)試語(yǔ)料為812篇。采用準(zhǔn)確率(P)、召回率(R)、F值作為評(píng)價(jià)指標(biāo)。實(shí)驗(yàn)進(jìn)行事件識(shí)別選用的特征有詞、詞和詞法、詞和句間關(guān)系。事件識(shí)別對(duì)比實(shí)驗(yàn)如下圖4所示。
(1)以詞(Word)為特征;
(2)以詞和詞法(Word+POS)作為特征;
(3)以詞和句間聯(lián)系(Word+ContacO作為特征;
(4)上述全部特征(AU Features)作為特征
從圖4對(duì)比實(shí)驗(yàn)可知,選擇句間關(guān)系和依存關(guān)系這些特征來(lái)識(shí)別事件效果要好于單獨(dú)用詞作為特征識(shí)別事件。事件識(shí)別中,特征選擇越多,事件識(shí)別的效果越好。
4結(jié)束語(yǔ)
本文提出了一種結(jié)合word2vec和依存分析的事件識(shí)別和事件要素抽取方法。實(shí)驗(yàn)結(jié)果表明,該方法在事件識(shí)別中可以提高事件識(shí)別的準(zhǔn)確率和召回率以及F值。但是對(duì)于事件要素對(duì)象上,存在一些問(wèn)題。例如人稱(chēng)代詞沒(méi)有具體指出指代上下文的哪一個(gè)對(duì)象。因此,下一步是考慮如何解決事件要素中出現(xiàn)的人稱(chēng)指示代詞。endprint