• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于GATE的中文時間信息抽取方法

      2021-01-08 11:40:30宋國民張三強賈奮勵
      測繪工程 2021年1期
      關鍵詞:詞表分詞組件

      宋國民,張三強,2,賈奮勵

      (1.信息工程大學,河南 鄭州 450001; 2.69340部隊,新疆 伊犁 835000)

      隨著互聯(lián)網(wǎng)技術、信息技術的飛速發(fā)展,人類正逐漸步入信息社會。如何快速、自動地從各類紛繁復雜的媒體數(shù)據(jù)中獲取用戶關注的信息,已成為人類有效利用海量數(shù)據(jù)的關鍵。信息抽取(Information Extraction)作為從文本中自動獲取信息的一種重要手段[1],已成為自然語言處理領域的重要研究內(nèi)容。它是指從自然語言文本中識別并抽取出用戶感興趣的信息[2],多以結構化的形式對抽取結果進行描述和存儲,以便用戶查詢和分析使用。信息抽取利用自然語言處理技術,通過對文本進行一系列處理,從中抽取出相關信息。信息抽取是與領域密切相關的,只能抽取系統(tǒng)預先定義的有限種類的信息[3]。

      時間信息抽取是事件信息抽取的一項重要工作,在時空泛在信息、地理空間情報等信息獲取與處理、關聯(lián)、聚合和內(nèi)容服務中具有重要作用。其作為信息抽取的一個重要研究內(nèi)容,一直受到國內(nèi)外學者的關注。常用抽取方法主要有基于規(guī)則匹配的方法和基于機器學習的方法兩種[3-9]?;谝?guī)則匹配的方法是指在掌握各種時間信息表達規(guī)律的基礎上,通過人工或半自動方式編制時間信息抽取規(guī)則,并基于這些規(guī)則實現(xiàn)時間信息的抽取。這種方法使用簡便,易于理解和擴展,且抽取效率及準確率很高,但這些規(guī)則往往只面向特定語言和文本形式,人工工作量較大;基于機器學習的方法是指通過對標注時間信息的語料庫的學習,訓練各種機器學習模型,并基于該訓練模型實現(xiàn)時間信息的抽取。這種方法可以充分利用語料庫中己標注的上下文信息,獲得較高的召回率,但該方法過分依賴標注語料的質(zhì)量,受訓練語料的范圍和規(guī)模限制。

      本文在分析時間信息抽取常用方法特點的基礎上,提出利用GATE軟件(General Architecture for Text Engineering)進行中文文本的時間信息抽取。介紹GATE的基本框架及各部分的功能作用;分析GATE用于中文時間信息抽取存在的不足,提出具體的改進措施;圍繞基于GATE進行時間信息抽取的主要步驟,具體闡述各項改進內(nèi)容;利用已標注時間信息的實驗數(shù)據(jù),對中文時間信息抽取進行實踐檢驗,并對實驗結果進行分析和總結。

      1 GATE簡介

      GATE是英國謝菲爾德大學于1995年開始開發(fā)的、基于JAVA的、開源的自然語言處理框架,現(xiàn)已廣泛應用于多語言信息抽取。其作為一個自然語言處理框架,將其框架內(nèi)所有的自然語言處理資源劃分為不同功能類型組件。CREOLE(Collection of REusable Objects for Language Engineering)作為GATE的核心組件之一,將可重用的處理資源進行了組合。CREOLE組件主要有三種樣式:語言資源組件(Language Resources,LRs)、處理資源組件(Processing Resources,PRs)和可視化資源組件(Visual Resources,VRs)。語言資源組件是指與信息抽取有關的各種資源,如語料庫、文檔、詞表和本體等;處理資源組件是指信息抽取過程中的不同數(shù)據(jù)處理模塊,如分詞模塊、分句模塊、詞性標注模塊和命名實體識別模塊等;可視化資源組件是指構成GATE可視化操作界面的各種資源。

      GATE除了提供CREOLE組件之外,還提供了一些專項功能組件,如用于英文信息抽取的ANNIE(A Nearly-New Information Extraction system)組件,用于建立信息抽取規(guī)則庫的語法工具JAPE(a Java Annotation Patterns Engine)組件,用于支持不同語言文本(如中文、法語、德語、印度語,等等)信息抽取的組件。ANNIE是一個基于規(guī)則的、用于英文文本資源信息抽取和實體標識的組件,使用JAPE語言及其它處理資源來實現(xiàn)各種不同的信息抽取任務。其按照分詞(tokeniser)、詞表查詢(gazetteer lookup)、分句(sentence splitter)、詞性標注(POS tagger)、語義標注(semantic tagger)、命名實體識別(named entity recognition)、共指消解(ortho matcher)等信息處理順序,實現(xiàn)英文文本的信息抽取[10]。JAPE是GATE的信息抽取規(guī)則定義語言??山Y合不同語言特點編寫JAPE規(guī)則,利用GATE自帶的編譯器,將其編譯成可實現(xiàn)命名實體識別的數(shù)據(jù)處理模塊。一個JAPE文件由若干條語法句子組成,每條語法句子又由一條或若干條規(guī)則構成。

      2 基于GATE的中文時間信息抽取

      GATE提供了中文信息抽取組件,用于中文文本信息的處理和抽取。但直接利用該組件進行中文時間信息抽取,其抽取效果并不理想,主要表現(xiàn)在:①對中文文本分詞處理不夠?qū)I(yè),無法實現(xiàn)真正意義上的中文分詞;②中文時間領域詞表不夠完善,其定義的時間類型不完整,收集的時間詞匯數(shù)量較少;③基于英文語法特點編寫的JAPE規(guī)則沒有結合中文時間表達特點進行改造,不能有效支持中文時間信息的識別和抽取。

      為此,利用GATE進行中文時間信息抽取,需要針對以上三個方面問題分別開展工作:①引入優(yōu)秀的中文分詞軟件,解決中文文本分詞不專業(yè)的問題;②梳理中文時間類型,收集中文時間詞匯,形成專業(yè)、完備的中文時間領域詞表;③圍繞擴展后的中文時間領域詞表,結合中文時間表達特點,重新編寫JAPE抽取規(guī)則,提高中文時間的識別和抽取準確率。

      2.1 抽取流程

      基于GATE 的中文時間信息抽取流程如圖1所示,其主要步驟包括:①利用NLPIR/ICTCLAS 2015分詞軟件對原始中文文本進行分詞和詞性標注;②在第一步文本處理的基礎上,刪除中文文本的詞性標注項;③擴展并完善GATE中的中文時間領域詞表;④針對中文時間信息表達規(guī)律,重新編寫GATE的中文時間信息抽取規(guī)則(JAPE);⑤將處理后的中文文本導入GATE中,利用修改后(擴展詞表、抽取規(guī)則)的中文抽取組件(Chinese NE),識別并抽取中文時間信息。

      圖1 基于GATE的中文時間信息抽取流程

      2.2 分詞及詞性標注

      對文本進行信息抽取,首要工作是對其進行分詞和詞性標注。英文以單詞為基本單元組織的,不存在分詞問題。中文文本的詞匯之間并無明確的分割標識,必須進行分詞處理。詞性標注是指對分詞后的每一個詞增加詞性標記,說明其詞性類型,如名詞、動詞、副詞等,為后續(xù)的命名實體識別和共指消解打下基礎。但GATE對中文分詞處理不夠?qū)I(yè),無法實現(xiàn)真正意義上的中文分詞,故需利用專業(yè)的中文分詞軟件對原始中文文本進行分詞處理。

      本文利用張華平博士團隊的NLPIR/ICTCLAS 2015分詞軟件,對中文文本進行分詞與詞性標注處理。NLPIR/ICTCLAS是張華平博士團隊在自然語言處理領域十多年研究工作積累的基礎上研制出的分詞軟件,具備中英文混合分詞、詞性標注、命名實體識別、新詞識別、關鍵詞提取等功能,同時支持用戶專業(yè)詞表與微博分詞。系統(tǒng)支持多種字符編碼、多種操作系統(tǒng)、多種開發(fā)語言及平臺。2006年推出的ICTCLAS 3.0分詞正確率就高達98.13%。

      基于GATE進行中文信息抽取時并沒有用到詞語的詞性信息。利用NLPIR/ICTCLAS分詞軟件對中文文本進行分詞與詞性標注后,需將文本中的詞性信息刪除,只保留用空格隔開的分詞信息,這樣就與英文的分詞形式保持一致。GATE中文信息抽取組件的chinese tokeniser(中文分詞器)可將分割后的詞語作為一個Token(標記),以進行后續(xù)的信息抽取工作。

      2.3 擴展時間領域詞表

      詞表是GATE進行信息抽取的基本語言資源,詞表類型的完整性及詞表內(nèi)容的完備性直接影響著命名實體的識別效果[11-12]。GATE的詞表由兩類文本文件組成:一類是以lst作為后綴的詞典文件,每個文件代表著一個實體類型,在文件中列舉了該實體類型的各種概念形式[1],如day.lst文件列舉了星期的表達形式;另一類是以def作為后綴的索引文件,其記錄了詞典文件中定義的實體主類(majortype)、子類(minortype)及相互間的關系。

      GATE 8.0提供的中文時間詞表文件主要由century(世紀)、decade(年代)、year(年)、season(季度)、month(月)、date(日期)、day(星期)、festival(節(jié)日)等8個詞典文件及相關附屬文件組成,每個詞典文件分別對應1個時間類型。將其直接用于中文時間信息抽取存在兩方面的問題:一是時間類型不完整,GATE 8.0只能識別上述8種時間類別,無法識別時鐘時間、模糊時間、周期時間、時間段、農(nóng)歷時間、我國朝代及帝王年號時間等比較常用的時間類型;二是時間內(nèi)容不完備,詞典文件中提供的中文時間詞匯較少。為此,在充分分析現(xiàn)有時間詞典文件的基礎上,圍繞其存在的兩方面問題有針對性地開展了以下工作:一是通過調(diào)整、增加中文時間詞典文件,豐富時間類型。GATE 8.0自帶8個中文時間詞典文件,對應了8類中文時間類型。本文在其基礎上,調(diào)整、拆分了個別時間類型,將原有的年、月、日、節(jié)日等4種時間類型分別拆分為公歷和農(nóng)歷兩種形式,形成8種中文時間類型;增加了時鐘時間、模糊時間、周期時間、時間段、我國朝代及帝王年號時間等時間類型及對應的中文時間詞典文件。通過調(diào)整與補充,使得系統(tǒng)可識別的時間類型達到20種,表1是調(diào)整、擴展以后的主要的時間詞典文件及對應的時間類型;二是擴充現(xiàn)有詞典文件的時間詞匯,補充新增加時間詞典文件的時間詞匯,完善了中文時間詞表文件。對于GATE 8.0已有的中文時間類型,通過補充其時間詞匯,豐富了時間詞典文件內(nèi)容,如“月份”這一時間類型,原中文時間詞典文件收錄詞匯75個,通過拆分為公歷月和農(nóng)歷月兩個時間類型,并擴充其時間詞匯后,收錄了與公歷月相關的時間詞匯297個,與農(nóng)歷月相關的時間詞匯204個。對于新增加的中文時間類型,通過收集、分析、整理資料,形成其對應的中文時間詞典文件,如中國朝代詞典文件收錄我國朝代詞匯70個、我國帝王年號詞典文件收錄中國帝王年號詞匯600余個,等等。通過補充與新增,使得中文時間詞典文件收錄的時間詞匯由原來的365個擴充到2 400余個。

      2.4 編寫時間信息抽取規(guī)則

      GATE是基于JAPE規(guī)則進行命名實體識別的。如果規(guī)則設置合理、完備,則可有效提高信息抽取的準確性。GATE的JAPE規(guī)則在后綴為jape的文本文件中進行定義。每個文件定義了一個實體類型的抽取規(guī)則,列舉了在領域詞表中定義的該類實體主類、子類及附屬信息的抽取規(guī)則,如location.jape文件定義了地點的抽取規(guī)則,person.jape文件定義了人物的抽取規(guī)則。

      GATE中文信息抽取組件自帶的date.jape文件定義了中文日期的抽取規(guī)則,基于該文件可抽取出世紀、年代、年、季度、月、日期、星期、節(jié)日等日期實體的信息。但該規(guī)則編寫較為簡單,無法有效支持中文時間的命名實體識別,主要存在兩方面的問題:一是因GATE8.0自帶的時間領域詞表所對應的時間類型有限(只有8種),故只能支持該部分類型的時間實體識別;二是因編寫的時間實體抽取規(guī)則較為簡單,只能對由這8種時間類型定義的基本時間單元實體進行識別(如“2019年9月2日”,系統(tǒng)將其識別為“2019年”“9月”“2日”三個獨立的時間實體,而無法作為一個整體加以識別),且對系統(tǒng)自帶時間領域詞表所定義的時間實體識別率也不高。因此,本文在擴展時間領域詞表、分析中文時間信息表達規(guī)律的基礎上,對GATE中文信息抽取組件自帶的日期抽取規(guī)則文件(date.jape)進行了修改和擴展,主要包括:一是針對擴展的時間類型,增加識別這些時間類型實體的抽取代碼,使得系統(tǒng)可以識別時鐘時間、農(nóng)歷時間、我國朝代及帝王年號時間等各種新增時間類型的時間實體;二是修改、擴展完善原有時間抽取代碼,使其不僅能夠識別由表1所列舉的各種基本時間單元及多個時間單元組合的時間實體,還能識別時間段、周期時間、模糊時間等復雜類型的時間信息。圖2是識別時間段的JAPE規(guī)則節(jié)選,通過該段抽取規(guī)則的定義,系統(tǒng)可識別諸如“今年1到3季度(月)”“2019年5~8月”等多種形式的時間段實體。

      表1 主要的時間詞典文件及時間類型

      Rule: DateSpan( (({Lookup.majorType == date_pre } // 時間前綴,如“前”“后”“最近的” |{Lookup.minorType == year_spec} // 相對時間(年),如“今年”“前年” |{Lookup.minorType == season_spec}// 相對時間(季度),如“上季度”“本季度” |{Lookup.minorType == month_spec} // 相對時間(月),如“當月”“次月” |((YEAR_DIGITS)(YEAR)) // 年 |{Lookup.minorType == month})? // 月 ({Lookup.majorType == number })? // 數(shù)字 {Lookup.majorType == to } // 時間連接詞,如“至”“到”“-” {Lookup.majorType == number } // 數(shù)字 {Lookup.majorType == time_unit} // 時間單位,如“年”“季度”“月” ) … …) :tag→ :tag.DateSpan = {kind = DateSpan, rule = DateSpan}

      3 實驗與分析

      3.1 實驗數(shù)據(jù)

      本文實驗數(shù)據(jù)采用了2010年SemEval-2010測評TempEval-2任務提供的中文訓練語料,該任務訓練語料包含了44篇中文文章和766個中文時間詞,時間詞基本涵蓋表1列舉的時間類型。

      3.2 實驗測評標準

      采用常用的準確率P(Precision)、召回率R(Recall)和F1值(F-measure)作為時間信息抽取的評測標準,三者的計算式如下:

      3.3 實驗結果與分析

      實驗按照圖1所示的流程,對44篇中文文章進行了分詞處理,在對GATE 8.0進行中文時間領域詞表擴展及重寫中文時間信息抽取規(guī)則后,基于修改后的中文抽取組件(Chinese NE),識別并抽取文章中的中文時間信息(圖3)。通過對實驗數(shù)據(jù)中的時間信息抽取結果進行統(tǒng)計分析,可以計算得到準確率P、召回率R和F1值分別為94.9%、93.1%、94%,可見該方法具有較好的時間信息識別和抽取能力。同時,發(fā)現(xiàn)影響時間信息抽取及識別準確率的主要原因有:①時間領域詞表沒有記載的時間詞類型或樣式,系統(tǒng)將無法識別;②時間信息抽取規(guī)則中沒有定義到的、復雜的、特殊的時間表達式,系統(tǒng)可能會將其識別成多個獨立時間詞,如“星期五(四月五日)上午八時”;③對于沒有時間單位的時間詞,系統(tǒng)將無法識別,如歌曲“我的一九九七”中的“一九九七”;④一些即可以作時間詞、又可以作副詞的多義詞語(如一直、同時),被系統(tǒng)錯誤識別為時間詞,如“加工貿(mào)易在廣東外經(jīng)貿(mào)發(fā)展中占有舉足輕重的地位,同時也是粵港澳臺經(jīng)貿(mào)合作的重要內(nèi)容”中的“同時”;⑤語料中將時間段標注為兩個獨立時間詞,本文通過制定時間段抽取規(guī)則,將其標識為時間段,如“一九九六至二○○○年”。

      圖3 中文時間信息抽取示例

      4 結束語

      利用GATE的自然語言處理框架,通過引入外部工具進行中文分詞、擴展中文時間領域詞表、重新編寫中文時間抽取規(guī)則,實現(xiàn)了中文時間信息的識別和抽取,達到較好地抽取效果。由于時間和精力的原因,對事件時間、外國歷史朝代及年號等領域時間尚未建立詞表,也沒有利用中文詞性標注信息抽取時間信息。后續(xù)可圍繞這些方面開展工作,以提高時間命名實體識別、抽取的準確率和召回率。

      猜你喜歡
      詞表分詞組件
      無人機智能巡檢在光伏電站組件診斷中的應用
      能源工程(2022年2期)2022-05-23 13:51:50
      A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項目名稱漢英對照詞表
      英語世界(2021年13期)2021-01-12 05:47:51
      新型碎邊剪刀盤組件
      重型機械(2020年2期)2020-07-24 08:16:16
      U盾外殼組件注塑模具設計
      結巴分詞在詞云中的應用
      智富時代(2019年6期)2019-07-24 10:33:16
      值得重視的分詞的特殊用法
      敘詞表與其他詞表的互操作標準
      風起新一代光伏組件膜層:SSG納米自清潔膜層
      太陽能(2015年11期)2015-04-10 12:53:04
      高考分詞作狀語考點歸納與疑難解析
      國外敘詞表的應用與發(fā)展趨勢探討*
      圖書館建設(2012年3期)2012-10-23 05:16:30
      图片| 宽甸| 镇原县| 炉霍县| 金昌市| 哈巴河县| 丹棱县| 福海县| 桐城市| 黑水县| 平定县| 大邑县| 平谷区| 旌德县| 富民县| 大城县| 上杭县| 赤壁市| 宁晋县| 安图县| 资溪县| 永州市| 永兴县| 东城区| 府谷县| 舒城县| 普格县| 宜川县| 稷山县| 高青县| 西藏| 布尔津县| 满洲里市| 汉中市| 盐池县| 寿光市| 青州市| 女性| 来安县| 应城市| 读书|