• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      觸發(fā)詞擴展、神經(jīng)網(wǎng)絡(luò)及依存分析相結(jié)合的事件研究

      2018-02-01 00:28王紅斌郜洪奎
      軟件導刊 2018年1期
      關(guān)鍵詞:語料分類器詞語

      王紅斌+郜洪奎

      摘要:

      事件抽取包括兩大任務(wù):識別事件和事件要素抽取。對于事件抽取的傳統(tǒng)方法是模式匹配和機器學習。模式匹配包含規(guī)則有限,機器學習需要大量語料和眾多特征。針對傳統(tǒng)方法的不足,提出了結(jié)合觸發(fā)詞擴展、神經(jīng)網(wǎng)絡(luò)及依存分析相結(jié)合的方法。該方法利用觸發(fā)詞擴展增加觸發(fā)詞數(shù)量,利用神經(jīng)網(wǎng)絡(luò)選擇特征進行事件分類,利用依存分析挖掘詞之間關(guān)系。實驗證明該方法可行,在事件識別和事件要素抽取方面得到了較好結(jié)果。

      關(guān)鍵詞:

      機器學習;事件識別;事件要素抽?。灰来娣治?;神經(jīng)網(wǎng)絡(luò)

      DOIDOI:10.11907/rjdk.172075

      中圖分類號:TP301

      文獻標識碼:A文章編號文章編號:16727800(2018)001001903

      Abstract:Event extraction consists of two tasks: identifying the extraction of events and event elements. Traditionally, pattern matching and machine learning methods are used for event extraction. Pattern matching involves limited rules. Machine learning requires a large number of corpus and many features. In view of the shortcomings of traditional methods, this paper proposes a combination of triggering word extension, neural network and dependency analysis. The method can increase the number of trigger words by using the trigger word extension, use the neural network to select the feature to classify the event, and use the dependency analysis to dig the relationship between the words. Experiments show that this method is feasible and has achieved good results in event recognition and event element extraction.

      Key Words:machine learning; event recognition; event element extraction; dependency analysis; neural network

      0引言

      中國交通事故發(fā)生頻繁,突發(fā)性災(zāi)難事件研究受到重視。事故處理部門關(guān)心事故發(fā)生時間、地點、人員傷亡情況,以及哪個路段、哪個時間容易發(fā)生事故,從而采取措施最大限度地減少傷亡[1]。對事件的研究不僅具有理論價值,還具有實際應(yīng)用前景。

      事件抽取研究已取得較多成果,研究大致分為兩類:基于規(guī)則的方法[24]和機器學習方法。基于規(guī)則的方法是事先制定一個字典,然后用待選詞與字典進行匹配。Ahn D[5]采用二元分類器和多元分類器方法進行事件抽取研究,并在ACE英文語料庫進行了實驗,取得較好結(jié)果;吳平博等[6]采用預(yù)先定義的模版制定規(guī)則,從處理的文本中抽取事件信息來填充句型模板中的槽。結(jié)合上述事件抽取發(fā)現(xiàn),基于規(guī)則方法在一定范圍內(nèi)效果不錯,但它依賴具體環(huán)境,可移植性差,對于一些沒有統(tǒng)計到字典的詞識別不出來,而且字典的制定費時費力,需要領(lǐng)域?qū)<抑笇В瑱C器學習方法則可以解決這些問題。機器學習相關(guān)研究有:文檔相關(guān)性的研究方法 [7],跨越不同事件的推理演繹方法[8]。楊爾弘[9]根據(jù)中文特點,采用語句聚類方法獲得事件的信息結(jié)構(gòu)(事件模板),并以此為標準抽取事件;趙妍妍等[10] 結(jié)合 Ahn等[11] 的工作,對機器學習需要的特征進行了改進;付劍鋒等[12] 采用依存分析,深入挖掘詞與詞間的句法關(guān)聯(lián)性,李培峰等[13]采用語義進行推理,對事件缺失信息進行還原和補充。但是機器學習方法需要大量的語料和眾多特征作為支持,現(xiàn)今語料資源的缺乏和特征的選取影響了機器學習的提高,而且這兩種抽取方法均沒有考慮詞語間詞性特征及詞語之間的依賴性和事件之間的關(guān)聯(lián)。

      針對上述情況,本文提出了一種新的事件抽取方法,充分考慮了上下文、核心詞和其它詞語的特征、觸發(fā)詞擴展和詞語間的依存性。實驗表明本文方法在事件識別和事件要素提取方面均有明顯提高。

      1事件識別和事件要素

      事件反映自然界中的運動以及產(chǎn)生和變化的行為,是人類進行探索和發(fā)掘知識的基本單位。在自然語言處理和信息檢索領(lǐng)域,檢索的主題被稱作事件。事件是話題的子集,多個事件共同組成一個話題。 事件表示為在“特定時間特定地點發(fā)生”。國際ACE評測大會認為,事件通常是一種狀態(tài)轉(zhuǎn)向另一種狀態(tài),并把“事件”定義為含有參與者、時間、地點等特征的集合。事件的定義包括行為(一般由動詞、名詞或動名詞來描述)、事件的參與者、事件發(fā)生的地點和時間等要素。下面給出事件和事件要素的定義。

      定義1事件(Event):特定時間特定地點發(fā)生、由參與者參與、表現(xiàn)出若干動作。

      例如:2016年8月14日,在市中心,一輛公交車與多輛小轎車發(fā)生追尾,小轎車司機當場死亡,公交車司機受重傷。

      定義2事件觸發(fā)詞[14](Event Denoter):文本中清晰表示發(fā)生事情的詞語,即事件的動作要素。文獻表明事件觸發(fā)詞一般為動詞、名詞、動名詞。endprint

      例如:北京時間2016年8月16日,澳大利亞發(fā)生了5.7級地震。

      定義3事件要素(Event Elements):文本中時間、地點、人物等要素,具體描述事件。

      例如:7日夜晚,昆湖高速公路上一輛大巴車與一輛大貨車相撞,截至8日,這起事故已造成8人死亡,2人受傷。

      2觸發(fā)詞擴展和依存關(guān)系

      2.1語料

      本實驗所用語料是ACE2005中文語料資源,其中ACE2005定義的事件共有8大類,每大類下面又分33個小類事件。對語料的2/3標記事件觸發(fā)詞及相應(yīng)的事件類別。

      2.2觸發(fā)詞擴展

      本實驗所用系統(tǒng)是觸發(fā)詞識別抽取系統(tǒng)。根據(jù)標注的訓練語料構(gòu)建一個字典,在此基礎(chǔ)上根據(jù)中文觸發(fā)詞擴展系統(tǒng)及方法進行觸發(fā)詞擴展[15],從而得到含有大量觸發(fā)詞的字典,使觸發(fā)詞不斷擴展。最后,根據(jù)得到的字典把帶有觸發(fā)詞的事件句與字典進行匹配,得到大量候選事件集合。

      2.3事件句

      在事件識別和事件抽取兩大任務(wù)中,事件識別起到?jīng)Q定性作用。例如:張三患上了高血壓,癱瘓在床。

      例①小李在工作期間由于大意摔成癱瘓;②強大的暴雪致使公路癱瘓;③黑客攻擊網(wǎng)絡(luò)導致12306癱瘓。這3個例子,觸發(fā)詞都是癱瘓,但只有句子①才符合要求,才是真正事件。在事件識別中,對于包含觸發(fā)詞的事件統(tǒng)稱為候選事件。針對上述例子,本文所要解決的是從候選事件中選擇真正的事件句。漢語具有結(jié)構(gòu)靈活多變、表達含義多樣性等特點,在事件識別和事件要素抽取中占到很高比例。因此,在中文事件識別和事件要素提取時不能孤立考慮句子,要結(jié)合上下文、依存分析,把觸發(fā)詞以及距離觸發(fā)詞相近的詞以及這些詞的詞性、位置信息、句子間的關(guān)聯(lián)性、依存關(guān)系等作為事件識別特征。

      2.3.1候選事件識別的特征選擇

      ①詞性特征:候選事件中的觸發(fā)詞信息;②上下文特征:觸發(fā)詞左右兩邊3個詞的信息。

      2.3.2神經(jīng)網(wǎng)絡(luò)分類器

      神經(jīng)網(wǎng)絡(luò)(NeuralNetwork,縮寫NN),不僅是一種模仿生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和功能的數(shù)學模型,而且是一種自我學習的神經(jīng)網(wǎng)絡(luò)算法。神經(jīng)網(wǎng)絡(luò)的目的是讓計算機具有和人的大腦一樣的能力。神經(jīng)網(wǎng)絡(luò)由節(jié)點相互連接而成,由輸入層、隱藏層和輸出層組成。神經(jīng)網(wǎng)絡(luò)按照老師教的方式學習,當提供新的特征時,神經(jīng)網(wǎng)絡(luò)的各個神經(jīng)元根據(jù)獲得的輸入產(chǎn)生連接權(quán)值,通過各層進行處理,最后產(chǎn)生輸出結(jié)果。神經(jīng)網(wǎng)絡(luò)組成如圖1所示。

      在用神經(jīng)網(wǎng)絡(luò)進行事件句語義分類中,作為事件句的基本組成,詞向量具有重要作用。把事件句轉(zhuǎn)化為詞向量用于神經(jīng)元的輸入層。神經(jīng)網(wǎng)絡(luò)算法組成如下:

      神經(jīng)網(wǎng)絡(luò)輸入層:Xi、Xi表示輸入特征;

      神經(jīng)網(wǎng)絡(luò)的單元數(shù)量表示:d;

      隱層的輸入表示:netj;隱層單元數(shù)量表示:nH

      神經(jīng)網(wǎng)絡(luò)輸出層:Yi;

      i表示的激活函數(shù)為線性函數(shù);

      最后的輸出用yj表示,激活函數(shù)為非線性函數(shù);

      j的輸出:

      輸入層的相關(guān)信息為:net;單元的數(shù)量為c:

      k的輸出:

      神經(jīng)網(wǎng)絡(luò)算法描述如下:

      (1)給定隱層單元及輸出層單元的激活函數(shù),一個神經(jīng)網(wǎng)絡(luò)就可以實現(xiàn)一個對輸入特征向量x的非線性映射。因此,神經(jīng)網(wǎng)絡(luò)本質(zhì)上是一個非線性函數(shù)。

      (2)給定隱層單元及輸出層單元激活函數(shù),該非線性函數(shù)所對應(yīng)的映射關(guān)系完全由權(quán)系數(shù)決定。不同的權(quán)系數(shù)對應(yīng)不同的非線性映射。

      (3)神經(jīng)網(wǎng)絡(luò)學習的目的,就是根據(jù)已知的訓練樣本,確定神經(jīng)網(wǎng)絡(luò)的權(quán)系數(shù),這一過程稱為訓練過程。在訓練過程結(jié)束后,對于新樣本x,根據(jù)神經(jīng)網(wǎng)絡(luò)的輸出進行判決。

      (4)對于分類問題,輸出結(jié)果為zk(x),k=1,…,c。

      根據(jù)詞向量,采用word2vec工具轉(zhuǎn)換為相應(yīng)詞向量,結(jié)合特征用于神經(jīng)網(wǎng)絡(luò)分類器,最后選出真正的事件句并進行事件分類。

      2.4依存關(guān)系

      依存關(guān)系是進行句法分析的重要方法[17]。采用依存分析發(fā)現(xiàn)句子中心詞和其余詞語的關(guān)系,并且轉(zhuǎn)化為語義依存來描述。當前的主流方法是基于短語的句法分析。基于依存結(jié)構(gòu)句法分析概念1984年由 Hudson首次提出,受到學者一致好評并廣泛推廣。依存關(guān)系主要包括核心詞、依賴詞。依存關(guān)系的基本原理是充分挖掘句子中詞與詞間的關(guān)系,轉(zhuǎn)化為描述自然語言的語法結(jié)構(gòu)。詞語間有聯(lián)系和相互支配關(guān)系,反映出詞語間的不對等現(xiàn)象,這種相互間具有的方向性關(guān)系稱為“依存關(guān)系”。依存關(guān)系中,定義箭頭發(fā)出的是支配者,箭頭指向的就是從屬者。例如2016年9月4日,20國集團在中國杭州國際博覽中心召開峰會,依存分析表示如圖2所示。

      “2016年9月4日,20國集團在中國杭州國際博覽中心召開峰會”的事件句中,Root是全句核心節(jié)點。HED代表核心詞,核心詞是“召開”;“召開”也是本事件句的觸發(fā)詞。依存關(guān)系表示中,COO表示并列關(guān)系,LAD表示左附加關(guān)系,SBV表示主謂關(guān)系,ATT表示定中關(guān)系。詞語間的依存關(guān)系是用帶箭頭的有向弧表示。箭頭的發(fā)起端代表的詞是依存詞,箭頭的指向端代表的詞是核心詞。在這個事件句中,中國、杭州、國家博覽中心都是表示地點的事件要素。經(jīng)過分析可知,只有國際博覽中心是真正的地點要素。依存分析表示地點詞按照核心詞和依賴詞順序排列,真正的地點要素是后面的依賴詞。中國是杭州的核心詞、杭州是國際博覽中心的核心詞。根據(jù)依存關(guān)系,只要出現(xiàn)最終地點要素均是依賴詞。依存分析依賴于分詞之上,因此分詞的效率直接影響依存分析結(jié)果。本文采用的分詞工具是中科院的ICTCLAS,依存分析采用斯坦福大學的Stanford。

      3實驗

      3.1事件識別

      本實驗先進行事件識別,然后在此基礎(chǔ)上進行事件要素抽取。實驗用的訓練語料和測試語料是CEC語料,采用準確率(P)、召回率(R)、F值作為評價指標。事件識別對比實驗結(jié)果如表1所示:①以詞(Word)作為特征;②以詞和詞法(Word+POS)作為特征;③以上下文(Context)作為特征;④上述全部特征(All Features)作為特征。endprint

      從表1可知,選擇觸發(fā)詞及詞法和上下文這些特征來識別事件效果,好于單獨用詞作為特征識別事件。

      將上面選出的事件作為候選事件句,選擇分類器進行真正事件的選擇,表2為不同分類器對事件進行分類的結(jié)果。

      從表2可以得出,采用神經(jīng)網(wǎng)絡(luò)分類器進行事件分類效果好于最大熵和SVM分類器。

      3.2事件要素抽取

      采用準確率(P)、召回率(R)、F值作為評價指標。事件要素抽取對比實驗結(jié)果如表3所示:①以詞(Word)作為特征;②以詞和依存關(guān)系(Word+DR)作為特征;③上述全部特征(All Features)作為特征。

      從上述3組實驗可知,采用依存關(guān)系可以提高事件要素抽取效率。

      4結(jié)語

      本文提出了一種結(jié)合觸發(fā)詞擴展、神經(jīng)網(wǎng)絡(luò)及依存分析的事件識別和事件要素抽取方法。實驗結(jié)果表明,該方法在事件識別和事件要素抽取中可以提高事件識別準確率和召回率以及F值。同時,從分析結(jié)果發(fā)現(xiàn)以下問題:①事件觸發(fā)詞數(shù)量不足,導致事件識別效率不高;②語料資源不足;③事件要素識別的人稱代詞沒有具體指明所屬。因此,下一步將結(jié)合神經(jīng)網(wǎng)絡(luò)對上述問題進行研究。

      參考文獻:

      [1]軒小星.事件及事件要素的提取研究[D].淮南:安徽理工大學,2015.

      [2]RILOFF E. Automatically generating extraction patterns from untagged text[C]. In: Proc. of the AAAI96. Palo Alto: AAAI Press, 1996:10441049.

      [3]STEVENSON M, GREENWOOD M. A semantic approach to IE pattern induction[C]. In: Proc. of the ACL 2005. Stroudsburg: ACL, 2005:379386.

      [4]PATWARDHAN S, RILOFF E. Effective information extraction with semantic affinity patterns and relevant regions[C]. In: Proc. of the EMNLPcoNLL 2007. Stroudsburg: ACL, 2007: 717727.

      [5]AHN D.The stages of event extraction[C].Proceedings of the COLINGACL 2006 Workshop on Annotating and Reasoning About Time and Eyents.2006:18.

      [6]吳平博,陳群秀,馬亮.基于事件框架的事件相關(guān)文檔的智能檢索研究[J].中文信息學報,2003,17(6):2530.

      [7]PATWARDHAN S, RILOFF E. A unified model of phrasal and sentential evidence for information extraction[C]. In: Proc. of the EMNLP Stroudsburg: ACL, 2009:151160.

      [8]JI H, GRISHMAN R. Refining event extraction through crossdocument inference[C]. In: Proc. of the ACL 2008. Stroudsburg: ACL,2008:254262.

      [9]楊爾弘.突發(fā)事件信息提取研究[D].北京:北京語言大學,2005.

      [10]AHN D. The stages of event extraction[C]. In: Proc. of the Workshop on Annotating and Reasoning about Time and Events (ARTE 2006). Stroudsburg: ACL, 2006:18.

      [11]ZHAO YY, QIN B, CHE WX,et al. Research on Chinese event extraction[J]. Journal of Chinese Information Processing, 2008,22(1):38.(in Chinese with English abstract).

      [12]FU JF, LIU ZD, FU XF, et al. Dependency parsing based eventrecognition[J]. Computer Science, 2009,36(11):217219.(in Chinese with English abstract).

      [13]李培峰,周國棟,朱巧明.基于語義的中文事件觸發(fā)詞抽取聯(lián)合模型[J].軟件學報,2016(2):280294.

      [14]軒小星,廖濤,高貝貝.中文事件觸發(fā)詞的自動抽取研究[J].計算機與數(shù)字工程,2015(3):457461.

      [15]李培峰,朱巧明.中文事件觸發(fā)詞的擴展方法及系統(tǒng)[J].北京大學學報:自然科學版,2016(1):156159.

      [16]GROSZ B, ARAVIND J, SCOTT W. Centering: a framework for modeling the local coherence of discourse[J]. Computational Linguistics,1995,21(2):202225.

      [17]高源,李弼程.基于依存句法分析與分類器融合的觸發(fā)詞抽取方法[J].計算機應(yīng)用研究,2016(5):14071410.

      (責任編輯:杜能鋼)endprint

      猜你喜歡
      語料分類器詞語
      容易混淆的詞語
      BP-GA光照分類器在車道線識別中的應(yīng)用
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
      華語電影作為真實語料在翻譯教學中的應(yīng)用
      一枚詞語一門靜
      《苗防備覽》中的湘西語料
      國內(nèi)外語用學實證研究比較:語料類型與收集方法
      基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
      泸州市| 资溪县| 米泉市| 南部县| 浦东新区| 达拉特旗| 河北区| 岗巴县| 安庆市| 靖边县| 诏安县| 喀什市| 北安市| 海南省| 永靖县| 太仓市| 阿坝县| 永靖县| 嘉义县| 许昌市| 独山县| 道孚县| 余庆县| 德昌县| 重庆市| 金昌市| 波密县| 沽源县| 门头沟区| 宁强县| 吉安市| 高阳县| 田东县| 逊克县| 临朐县| 苏州市| 高淳县| 醴陵市| 尼勒克县| 信阳市| 岐山县|