黃 海,張海玉
(1.廣東培正學(xué)院教務(wù)處,廣東 廣州 510830;2.太原理工大學(xué)財經(jīng)學(xué)院信息系,山西 太原 030024)
基于GATE的中文事件抽取方法
黃 海1,張海玉2
(1.廣東培正學(xué)院教務(wù)處,廣東 廣州 510830;2.太原理工大學(xué)財經(jīng)學(xué)院信息系,山西 太原 030024)
事件抽取是信息抽取領(lǐng)域的重要研究方向,針對目前網(wǎng)頁文檔中文事件抽取的關(guān)鍵問題,提出利用開源的通用文本處理框架(GATE)進行中文事件抽取的方法,設(shè)計GATE中文事件處理流程,開發(fā)GATE插件,解決中文分詞與詞性標注、領(lǐng)域詞典、中文抽取規(guī)則設(shè)計等關(guān)鍵技術(shù),實現(xiàn)了中文事件的類型識別和元素抽取。并以四類政治事件為例,進行中文事件抽取實驗。實驗結(jié)果表明,基于GATE的中文事件抽取具有良好的通用性,能夠取得了較好的抽取效果。
信息抽??;GATE;事件抽?。恢形姆衷~;規(guī)則匹配
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)呈現(xiàn)爆炸式的發(fā)展態(tài)勢,大量的信息以文本的形式呈現(xiàn)在人們面前。為了應(yīng)對信息爆炸帶來的挑戰(zhàn),迫切需要一些自動化的技術(shù)幫助人們在海量數(shù)據(jù)中迅速找到其所需要的信息。信息抽取成為了從文本中自動獲取信息的一種重要手段,它是指從一段文本中抽取指定的數(shù)據(jù)、事實等信息,形成結(jié)構(gòu)化的數(shù)據(jù)并存入數(shù)據(jù)庫中,供用戶查詢和使用的過程[1]。事件抽取(Event Extraction)是信息抽取的一個重要研究方向,主要研究如何從含有事件信息的自由文本中抽取出用戶所需要的事件信息,將文本中描述的事件以結(jié)構(gòu)化的形式呈現(xiàn)出來[2]。
事件抽取的常見方法之一是模式匹配法,它利用模式規(guī)則集進行事件類型或事件元素的匹配,事件抽取模式體現(xiàn)了語言知識和領(lǐng)域知識的融合。Chinatsu Aone[3]利用可配置的模式生成模塊和基于模式的標注工具設(shè)計了一個大規(guī)模點對點關(guān)系和事件抽取系統(tǒng);Ernest Arendarenko等[4]利用本體作為GATE詞典,設(shè)計基于JAPE的事件識別規(guī)則,進行了商業(yè)領(lǐng)域的事件抽??;梁晗[5]提出了一種基于框架的信息抽取模式并建立統(tǒng)一的災(zāi)難性事件框架,利用框架的繼承-歸納特性簡化系統(tǒng)實現(xiàn)過程。吳平博[6]等人利用句型模板的抽取規(guī)則從文本中抽取時間短語、空間短語和事件信息,并討論了事件的合并的問題。孫榮[7]等提出一種基于抽取規(guī)則對句子中的事件信息進行抽取的方法,利用本體對動詞與事件角色匹配規(guī)則、事件角色抽取規(guī)則、時間信息抽取規(guī)則和地點信息抽取規(guī)則進行定義,然后應(yīng)用這些規(guī)則抽取句子中的動詞詞義信息、事件角色信息、時間信息和地點信息。
本文提出利用文本工程通用框架GATE來進行中文事件抽取工作,研究自然文本處理框架GATE的基本結(jié)構(gòu)和基于GATE的事件抽取流程,分析GATE在中文事件抽取領(lǐng)域中的不足,并構(gòu)建了基于ICTCLAS的中文分詞組件、領(lǐng)域詞表和事件抽取規(guī)則。以四類國際政治事件為例,進行了中文政治事件抽取實驗。
信息抽取是一種文本處理技術(shù),它通過對非結(jié)構(gòu)化的自由文本數(shù)據(jù)進行處理,獲得結(jié)構(gòu)化的信息數(shù)據(jù)。信息抽取能夠幫助人們快速獲取所需要信息,同時能夠?qū)π畔⑦M行分析和組織,提高文本數(shù)據(jù)的可用性[8]。
人類是以事件為單位認識和理解客觀世界的,事件是隨著時間變化的具體事實,涉及到多方面的事物概念,事件間具有內(nèi)在的聯(lián)系,事件由動作、概念、關(guān)系組成。事件數(shù)據(jù)在國際關(guān)系、地緣政治、地理信息應(yīng)用等領(lǐng)域中有著廣泛的應(yīng)用[9,10],因此從互聯(lián)網(wǎng)文本抽取領(lǐng)域事件數(shù)據(jù)具有重要意義。
GATE(General Architecture for Text Engineering,文本工程通用框架)項目開始于1995年英國的謝菲爾德大學(xué),經(jīng)歷了十多年的不斷發(fā)展,憑借其優(yōu)秀的組織架構(gòu)和開源的優(yōu)勢,GATE已經(jīng)被應(yīng)用于廣泛的研究和項目開發(fā),在科研、教育、商業(yè)等領(lǐng)域獲得廣泛應(yīng)用[11]。
GATE將其框架內(nèi)所有的自然語言處理軟件資源劃分為不同的幾種組件,這些組件是通過Java Beans的形式來實現(xiàn)的,其集合被稱為CREOLE(a Collection of Reusable Objects for Language Engineering)。CREOLE在GATE中分為三種形式:語言組件(LR),處理組件(PR)和可視化組件(VR):語言組件是指僅僅與數(shù)據(jù)相關(guān)的資源,如詞表、文檔和本體等;處理組件指數(shù)據(jù)處理程序或者算法,如產(chǎn)生器、轉(zhuǎn)換器、分析器和語言識別器等??梢暬M件指構(gòu)成GATE的可視化界面GUI的相關(guān)資源。
JAPE(a Java Annotation Patterns Engine,Java標注模式引擎)是GATE的規(guī)則定義語言,它能夠利用GATE生成的Token、LookUp、Person、Date等標注,使得其可以更精確、更廣泛的覆蓋面抽取信息[12]。一個JAPE語法由一系列的語句組成,每個語句都是一個由模式/行為規(guī)則組成的集合。這些語句按順序運行,形成了一組標注有限狀態(tài)機的轉(zhuǎn)換[13]。語句的左側(cè)部分(LHS:Left Hand Side)由一些標注匹配模式組成,右側(cè)部分(RHS:Right Hand Side)是匹配后執(zhí)行的操作,LHS和RHS以-->符號隔開。JAPE的匹配操作能夠使用Java代碼描述,這在很大程度上擴展了JAPE對規(guī)則的復(fù)雜處理能力。
GATE為英文文檔資源提供了信息處理流程實例ANNIE,它是基于規(guī)則的信息抽取系統(tǒng),使用有限狀態(tài)算法和 JAPE語言來實現(xiàn)各種不同的信息抽取任務(wù)[14]。ANNIE采用流水線工作方式,嚴格按照順序經(jīng)過分詞 (Tokeniser)、詞表查詢(Gazetteer Lookup)、 分句 (Sentence Splitter)、 詞性標注(POS Tagger)、 語義標注 (Semantic Tagger)、 共指消解(Ortho Matcher)、代詞消引(Pronominal Coreferencer)之后,實現(xiàn)英文文檔的信息抽取[15]。
但ANNIE并不能有效處理中文文檔,它在解決中文信息抽取有以下不足:1)缺乏對中文分詞處理的良好支持,目前的版本并不能實現(xiàn)真正意義上的中文分詞;2)中文詞表不夠完善,缺少特定領(lǐng)域內(nèi)的專有名詞詞表;3)命名實體識別過程中,針對英文特點的JAPE規(guī)則不能有效支持中文的命名實體識別。
針對以上不足,基于GATE的中文事件抽取系統(tǒng)需要完成以下三項關(guān)鍵技術(shù):1)有效處理中文分詞與詞性標注的問題;2)設(shè)計專業(yè)、完善的中文領(lǐng)域詞表;3)針對中文特點重寫JAPE抽取規(guī)則,提高事件識別和抽取的準確率。
與英文等以空格作為詞間天然分隔符的語言不同,漢語中詞與詞之間不存在明確的分隔標記,而是形成一個連續(xù)的漢字字符串,因此必須對中文文本進行分詞處理。中文分詞就是將連續(xù)的漢字序列按照一定的規(guī)范重新組合成詞序列的過程,中文詞性標注是指為中文文本中的每一個詞增添一個合適的標記,用以說明它的詞性,如名詞、動詞、形容詞等,因此,中文詞法分析是中文信息處理的基礎(chǔ)與關(guān)鍵。
中文分詞是中文事件抽取的基礎(chǔ),目前已有相關(guān)論文[13,16,17]對GATE的中文分詞問題進行了研究,但其解決方法都是使用中文分詞工具提前對文檔進行分詞預(yù)處理,以空格將各個詞分隔,組成英文文本的空格分割格式,然后使用GATE默認的Unicode Tokeniser分詞器根據(jù)空格對文檔重新分詞。這種方法需要提前對文檔進行預(yù)處理,增加了人工操作的復(fù)雜度,而且以空格劃分的分詞文檔無法獲取每個詞的詞性信息,因此無法在抽取規(guī)則中使用詞的POS屬性,影響了信息抽取的精度。
本文基于中科院計算所的中文分詞工具ICTCLAS,開發(fā)了GATE的中文分詞組件來進行中文文檔的分詞與詞性標注。ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)是中國科學(xué)院計算技術(shù)研究所在多年研究工作積累的基礎(chǔ)上研制出的漢語詞法分析系統(tǒng),它由C++編寫,主要功能包括中文分詞、詞性標注、命名實體識別、新詞識別、同時支持用戶詞表,分詞正確率高達97.58%,未登錄詞識別召回率均高于90%,其中中國人名的識別召回率接近98%,處理速度為31.5Kbytes/s。
GATE調(diào)用ICTCLAS進行中文分詞的流程如下:
(1)讀取GATE中的文檔內(nèi)容
GATE中待處理的文本以文檔(Document)對象保存,文檔對象的內(nèi)容(context)以純文本的形式記錄了文檔的原始信息,這些原始文本是分詞軟件輸入的數(shù)據(jù)流。
(2)調(diào)用ICTCLAS庫
ICTCLAS是純C++開發(fā)的庫,為了在Java環(huán)境的GATE中使用,本文使用JNI技術(shù)來調(diào)用ICTCLAS庫,JNI(Java Native Interface)是一個本機編程接口,它允許Java代碼使用以其它語言編寫的代碼和代碼庫。ICTCLAS工具提供了ParagraphProcessing()和FileProcessing()兩個接口,分別處理文本段落或者文件,本文使用ParagraphProcessing()接口來處理GATE中的文檔內(nèi)容。
(3)解析ICTCLAS處理結(jié)果
ICTCLAS的ParagraphProcessing()函數(shù)對輸入的句子進行分詞并輸出,輸出結(jié)果為“單詞/POS”形式。例如句子“中國是世界上人口最多的國家。”的分詞結(jié)果為 “中國/ns是/v世界/n上/f人口/n最/d多/a的/u國家/n。/w”,需要根據(jù)數(shù)據(jù)格式來解析每個分詞的起始位置、結(jié)束位置和POS詞性信息。
(4)增加Token標注和Feature值
GATE的文檔標注集包含起始節(jié)點(start Node)、結(jié)束節(jié)點(end Node)、ID、類型(type)以及特征鍵值對(FeatureMap)等信息,根據(jù)(3)中解析的結(jié)果,利用GATE的接口函數(shù)在Document中增加相應(yīng)的Token標注,并設(shè)置起始節(jié)點、結(jié)束節(jié)點和特征值。
詞表是GATE進行事件抽取的重要資源,詞表的豐富完整影響著抽取的效果。詞表是一組包含了事物名詞的集合,如城市名稱、組織名稱、日期等等。詞表一方面描述了領(lǐng)域內(nèi)的專有名詞,另一方面可以表達各類概念名詞之間的關(guān)系,并將其映射到領(lǐng)域本體中。
詞表是事件抽取的重要元素,詞表的豐富和準確程度直接關(guān)系著事件抽取的效果。事件抽取需要使用的詞表包括命名實體詞表和事件觸發(fā)詞詞表兩類,事件觸發(fā)詞(Event Trigger)是指用來清晰地表示所發(fā)生的事情的詞,通常為動詞。
GATE中的詞表由*.lst文件、mappings.def文件和lists.def文件三類文本文件組成。*.lst文件定義實體,每個*.lst文件代表一個實體類型,以“詞表”的形式對應(yīng)領(lǐng)域知識中的概念實例。mapings.def描述*.lst文件和領(lǐng)域本體概念之間的關(guān)系。lists.def為*.lst文件的索引文件,指明每個*.lst文件所對應(yīng)的主類(majorType)和子類(minorType)類型,以“:”分割。在GATE中進行命名實體標注的時候,這些文件將會被編譯成有限狀態(tài)自動機,有限狀態(tài)自動識別出的文本片段將會以Lookup標簽標注出,并增加相應(yīng)的特征值[18]。
事件抽取主要包含事件類型識別和事件元素抽取兩部分內(nèi)容,其中,事件類型識別是事件元素抽取的基礎(chǔ),事件元素抽取是事件抽取的主要內(nèi)容。事件類別識別是指從文本中檢測出事件句,并依據(jù)一定的特征判斷其所歸屬的類別。事件類別識別是典型的分類問題,其重點在于事件句的檢測和事件句的分類[19]?,F(xiàn)有的檢測事件句的方法主要是基于觸發(fā)詞的方法。觸發(fā)詞是指在文本中清晰的表示事件發(fā)生的詞語。在自然文本中,除句子中的謂語動詞外,其他成分的動詞也有可能作為事件觸發(fā)詞。事件元素抽取是事件抽取的核心任務(wù),它從眾多命名實體(Entity)、時間表達式(Time Expression)和屬性值(Value)中識別出真正的事件元素,并給予其準確的角色標注。事件要素限定在事件范圍(Event Extent)之內(nèi),事件范圍通常以具有完整意義的句子或者分句為邊界。
事件觸發(fā)詞是決定事件類別的重要特征,因此事件類別識別任務(wù)可以轉(zhuǎn)換為事件觸發(fā)詞類別的識別。在抽取事件信息時,根據(jù)觸發(fā)詞確定所屬事件類別,并調(diào)用相應(yīng)的規(guī)則進行匹配。
基于規(guī)則的事件抽取方法的核心是尋找事件模板。模板指自然語言中描述事件的模式特征。在設(shè)計事件規(guī)則時,首先整理出語句的模式特征,然后將模式轉(zhuǎn)換為JAPE規(guī)則描述語言。例如“2014年9月11日,國家主席習(xí)近平在杜尚別會見俄羅斯總統(tǒng)普京。”這一會見事件,其模式為“時間短語+標點符號+名詞+人名+介詞+地名+會見動作+國家+名詞+人名”,其中事件發(fā)生的時間為“2014年9月11日”,地點為“杜尚別”,主語為“習(xí)近平”,賓語為“普京”,按照JAPE語言其匹配規(guī)則表示為:
Rule:MeetingRule1
(
({Date.kind=="date"}):tagdate
{Token.category=="wd"}
({Token.category=="n"})+
({Person}):tagSubject
{Token.category=="p"}
({Location}):tagLoc
{Lookup.majorType==diplomacy}
{Country}
{Token.category=="n"}
({Person}):tagObject
{Token.category=="wj"}
):tag
-->
:tagdate.Politic={element=Date,rule=MeetingRule1},
:tagSubject.Politic={element=Subject,rule=MeetingRule1},
:tagLoc.Politic={element=Location,rule=MeetingRule1},
:tagObject.Politic={element=Object,rule=MeetingRule1},
:tag.Politic={type=Meet,rule=MeetingRule1}
圖1展示了外交部網(wǎng)站新聞“習(xí)近平會見俄羅斯總統(tǒng)普京”一文中的會見事件抽取結(jié)果,事件抽取結(jié)果保存在EVENT標注集中,標注名稱“Politic”表明事件為政治事件,事件子類使用type屬性標識,事件元素使用element屬性標識,共包括時間(Date)、地點(Location)、主體(Object)、客體(Subject)四個元素。
圖1 會見事件抽取結(jié)果Figure1 Meeting Event Extract Result
為了驗證GATE在中文事件抽取中的作用,設(shè)計了國際政治中四類常見事件抽取進行實驗:訪問、會見、抗議、沖突,這四類事件代表了國際關(guān)系中常見的事件,是研究國際關(guān)系、地緣政治的重要數(shù)據(jù)資源。
本文分別從外交部、新華網(wǎng)、鳳凰網(wǎng)等權(quán)威新聞門戶網(wǎng)站收集了訪問、會見、抗議和沖突四類事件數(shù)據(jù)語料,將各類語料數(shù)據(jù)分成標注語料和測試語料兩部分,基于標注語料來總結(jié)整理規(guī)則、設(shè)計觸發(fā)詞詞典。各類事件的語料情況和觸發(fā)詞情況如表1所示。
表1 四類事件語料情況
實驗結(jié)果采用MUC在自然語言處理領(lǐng)域的三大評測指標進行衡量,即準確率(P)、召回率(R)和綜合值(F),具體定義如下:
各類事件抽取的準確率、召回率和綜合值結(jié)果如表3所示。
表2 事件抽取結(jié)果
通過表3可以看出:(1)使用GATE能夠很好地進行中文事件抽取,訪問、會見、抗議三類事件的抽取結(jié)果正確率和召回率都在80%以上;(2)事件抽取的效果主要受規(guī)則的覆蓋程度影響。試驗中的沖突事件比較分散,涉及的規(guī)則模式也比較多,語料中的規(guī)則不能完全覆蓋全部的沖突事件,造成沖突事件的召回率較低。因此在基于規(guī)則的事件抽取中,語法規(guī)則庫的設(shè)計和完善是提高抽取正確率和召回率的關(guān)鍵。
事件抽取是從文本中獲取領(lǐng)域數(shù)據(jù)的重要途徑,本文針對GATE在中文事件抽取中的不足,利用ICTCLAS中文分詞工具開發(fā)了GATE處理組件,進行中文分詞與詞性標注、設(shè)計地緣事件的分類體系和事件詞表、構(gòu)造地緣事件抽取規(guī)則,進行地緣事件信息的抽取?;谀J狡ヅ涞氖录槿》椒ǖ囊粋€主要問題是抽取模式不能完全覆蓋全部句式,本文基于語料中國際政治事件的表達句式總結(jié)了若干條抽取規(guī)則,但這些規(guī)則的覆蓋面仍不能完全覆蓋全部事件。本文的下一步工作是對事件模式進行擴展完善,通過種子規(guī)則來實現(xiàn)啟發(fā)式的規(guī)則擴展,以提高事件抽取的召回率。
[1]Qian Liu.Hui Jiao.Hui-Bo Jia.Research on Approaches of Information Extraction System[J].Application Research of Computers.2007,24(7):6-9.(劉遷、焦慧、賈惠波.信息抽取技術(shù)的發(fā)展現(xiàn)狀及構(gòu)建方法的研究[J].計算機應(yīng)用研究,2007,24(7):6-9.)
[2]Gang Wu.Research and Application on Chinese Topic Event Extraction[D].Suzhou:Soochow University,2009.(吳剛.基于主題的中文事件抽取技術(shù)研究及應(yīng)用[D].蘇州:蘇州大學(xué),2009.)
[3]Aone Chinatsu,Ramos-Santacruz Mila.REES:a largescale relation and event extraction system[C].Association for Computational Linguistics,2000.
[4]Arendarenko Ernest.Kakkonen Tuomo.Ontology-Based Information and Event Extraction for Business Intelligence[C].Varna,Bulgaria:2012.
[5]Han Liang.Qun-Xiu Chen.Ping-Bo Wu.Information Extraction System Based on Event Frame[J].JOURNAL OF CHINESE INFORMATION PROCESSING.2006(02):40-46.(梁晗、陳群秀、吳平博、基于事件框架的信息抽取系統(tǒng)[J].中文信息學(xué)報,2006(02):40-46.)
[6]Ping-Bo Wu、Qun-Xiu Chen、Liang Ma.Research on Extraction and Integration of Developing Event Based on Analysis of Space-time Information[J].JOURNAL OF CHINESE INFORMATION PROCESSING.2006(01):21-28.(吳平博、陳群秀、馬亮.基于時空分析的線索性事件的抽取與集成系統(tǒng)研究[J].中文信息學(xué)報,2006(01):21-28.)
[7]Rong Sun,Wen Zhou,Zong-Tian Liu.Using Rules to Extract Event Information from Sentences[J].Journal of Chinese Computer Systems.2011(11):2309-2314.(孫榮、周文、劉宗田.用規(guī)則抽取句子中事件信息[J].小型微型計算機系統(tǒng),2011(11):2309-2314.)
[8]Li Long,Hongshen Pang.JOURNAL OF LIBRARY SCIENCE.2008,30(5):13-16.(龍麗、龐弘燊.國外Web信息抽取研究綜述[J].圖書館學(xué)刊,2008,30(5):13-16.)
[9]Zhen-Feng Wang.Geographic Event Inofrmaiton Retrieval Based on ontology[D].Wuhan:Wuhan University,2009.(王振峰.基于本體的地理事件信息檢索 [D].武漢:武漢大學(xué),2009.)
[10]Xiaoya An、Ying Li、Qun Sun等.Research on Geographical Event Model for Spatial Data Active Updating[J].Acta Scientiarum Naturalium Universitatis Pekinensis.2011(03):491-498.(安曉亞、李穎、孫群等.面向空間數(shù)據(jù)主動更新的地理事件模型研究 [J].北京大學(xué)學(xué)報 (自然科學(xué)版),2011(03):491-498.)
[11]Dongxing Xu.A Gate-based lnformation Extraction System:Research and Implementation[D].Shanghai:East China Normal University,2007.(徐東興.基于Gate框架的信息抽取系統(tǒng)的研究與實現(xiàn) [D].上海:華東師范大學(xué),2007.)
[12]Lan Chen.Research and Implementation of Ontologybased lnformation Extraction System[D].ChengDu:University of Electronic Science and Technology of China,2004.(陳蘭.基于ontology的信息抽取系統(tǒng)的研究與實現(xiàn)[D].成都:電子科技大學(xué),2004.)
[13]Sa Li.The Implementation of the Chinese Information Extraction System Based on GATE[D].Beijing:Graduate U-niversity of Chinese Academy of Sciences,2006.(李颯.基于GATE的中文信息抽取系統(tǒng)的開發(fā)和實現(xiàn) [D].北京:中國科學(xué)院研究生院,2006.)
[14]Jing Chen.Research of Ontology-based lnformation Extraction[D].Suzhou:Soochow University,2007.(陳靜.基于本體的信息抽取研究[D].蘇州:蘇州大學(xué),2007.)
[15]Cunningham Hamish,Maynard Diana,Bontcheva Kalina,et al.Developing Language Processing Components with GATE[EB/OL].2014.
[16]Analysis of State-of-the-Art Knowledge Extraction Technologies[J].NEW TECHNOLOGY OF LIBRARY AND INFORMATION SERVICE.2008(08):2-11.(張智雄、吳振新、劉建華等.當前知識抽取的主要技術(shù)方法解析[J].現(xiàn)代圖書情報技術(shù),2008(08):2-11.)
[17]Bilong Wen,Yunjing Li,Qichao Wang等.Oil Field Information Extraction Based GATE[J].Computer&Digitial Engineering.2014(07):1223-1227.(文必龍.李云靜.王琪超等.基于GATE的油田信息抽取技術(shù)研究 [J].計算機與數(shù)字工程,2014(07):1223-1227.)
[18]Hui Nie,Guipeng Huang.Automatic Web Information Extraction Based on GATE Semantic Annotation[J].2010(05):110-114.(聶卉、黃貴鵬.基于GATE語義標注的Web信息的自動抽取[J].圖書情報工作,2010(05):110-114.)
[19]Xu-Yang Xu,Yong-Feng Han,Wen-Zheng Song.Overview and Prospect of Event Extraction Technology[J].Journal of Information Engineering University.2011(01):113-118.(許旭陽、韓永峰、宋文政.事件抽取技術(shù)的回顧與展望[J].信息工程大學(xué)學(xué)報,2011(01):113-118.)
Study on the Chinese Event Extraction Method based on GATE
HUANG Hai1,ZHANG Haiyu2
(1.Guangdong peizheng college office,Guangzhou Guangdong 510830;2.Tai Yuan University of Technology,Taiyuan Shanxi 030024)
Event extraction is one of the most important research field in information extraction.Aiming at the key problem of Chinese event extraction in the web page document,a method of Chinese event extraction with General Architecture for Text Engineering (GATE)is proposed.The procedure of GATE Chinese event is designed,several GATE plug-in are developed to solve key technologies of Chinese word segmentation and part of speech tagging,domain dictionary and Chinese extraction rule design.This paper take five category political events extraction for instance,make an events extraction experiment.The result shows that Chinese event extraction method based on GATE can apply universally and have a good result.
information extraction;GATE;event extraction;Chinese tokenizer;rule matching
TP391 文獻標識碼:A 文章編號:2095-7327(2017)-05-0041-06
黃海(1987-),男,江西南昌人,廣東培正學(xué)院教師,研究方向:計算機科學(xué)與技術(shù)。
張海玉(1978-),女,山西臨縣人,太原理工大學(xué)財經(jīng)學(xué)院副教授,碩士,研究方向:人工智能,物聯(lián)網(wǎng)。
編輯:董剛