• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于半監(jiān)督學習與CRF的應急預案命名實體識別

      2020-05-28 09:36:21劉彤魏靜倪維健陳思源
      軟件導刊 2020年3期
      關鍵詞:應急預案

      劉彤 魏靜 倪維健 陳思源

      摘 要:傳統(tǒng)基于統(tǒng)計的命名實體識別方法存在需要大量人工標注的缺陷,導致識別準確率較低。為了提升識別效果,提出一種基于條件隨機場的半監(jiān)督學習方法(S-CRF)對命名實體進行識別。該方法將實體識別看作序列標注問題,對少量數(shù)據(jù)進行人工標注并構建實體集,通過K-means聚類算法選取有代表性的未標注數(shù)據(jù)文本進行自動標注,采用條件隨機場對語料進行訓練測試。選取中文應急預案文檔進行實驗,該方法在各個標簽上的識別效果分別達到93.52%、93.04%、95.81%。實驗結果表明,該方法優(yōu)于傳統(tǒng)規(guī)則方法,能有效提高應急預案命名實體的識別效果。

      關鍵詞:應急預案;命名實體識別;條件隨機場;半監(jiān)督學習

      DOI:10. 11907/rjdk. 192096

      中圖分類號:TP301 ? 文獻標識碼:A??????????????? 文章編號:1672-7800(2020)003-0035-04

      Entity Identification Based on Semi-supervised Learning and CRF

      LIU Tong, WEI Jing, NI Wei-jian, CHEN Si-yuan

      (College of Computer Science and Engineering,Shandong University of Science and Technology,Qingdao 266590,China)

      Abstract:The traditional statistical-based named entity recognition method requires large number of manual labeling defects, resulting in low recognition accuracy. In order to improve the recognition effect, we propose a method of conditional random field semi-supervised learning method (S-CRF) to identify and extract named entities. This method regards the entity recognition as the sequence labeling problem, manually label small amounts of data and constructed entity set. The K-means clustering algorithm is used to select representative unlabeled data texts for automatic labeling, and the conditional random field is used to sequence the corpus. The Chinese emergency plan document was selected for experiment. The accuracy of the B, M, and O labels reached 93.52%, 93.04% and 95.81%, respectively. The experimental results show that the method is superior to the traditional rules method and can effectively improve the identification effect of named entity of the contingency plan.

      Key Words: emergency plan; named entity identification; conditional random field; semi-supervised learning

      0 引言

      現(xiàn)代社會中出現(xiàn)的各種突發(fā)事件通常具有規(guī)模大、復雜度高等特征,各級政府和單位需要設置合理的機構應對突發(fā)事件。因此,各省都制定了多種類型且精準的應急預案體系。自然語言作為一個應急預案文檔的主要組成成分,其包含命名實體和非命名實體,其中命名實體是指人名、地名、機構名等專有名詞及其它名稱實體(時間、日期等)[1]。命名實體識別是指對這些詞進行識別、整理歸類與分析。命名實體識別是NLP處理領域的問題,在機器翻譯和信息檢索抽取等方面應用廣泛,能否正確識別命名實體決定著信息抽取效率[1]。目前,國內(nèi)外針對命名實體識別的研究方法主要有傳統(tǒng)識別方法和神經(jīng)網(wǎng)絡方法,對諸多領域的命名實體識別研究已較為成熟,并且取得了較好效果,但對中文應急預案文本方面的研究較少。因此,對中文應急預案文本進行命名實體識別,提取出其中的組織機構名,對于后續(xù)組織間關系效率研究具有一定的實際意義。

      本文選擇中文應急預案文本為實例展開研究,采用提出的基于半監(jiān)督學習與傳統(tǒng)規(guī)則的條件隨機場(CRF)方法提取組織機構,將中文命名實體識別任務分為兩步:首先通過NLPIR漢語系統(tǒng)進行分詞,在分詞基礎上人工標注命名實體,獲得少量標注數(shù)據(jù);其次考慮到機構名在文本中出現(xiàn)的頻率與上下文語境不同,導致識別出的組織機構名不準確,因此在提取的基礎上用命名實體詞表對未標注文本進行自動標注,并采用條件隨機場模型(CRF)進行訓練測試。實驗結果表明,本文方法引入自動標注后,對機構名識別的準確率高于傳統(tǒng)基于條件隨機場的方法,可有效提升識別效果。

      1 相關工作

      1995年11月,第六屆 MUC會議(MUC-6,the Sixth Message Understanding Conferences)上首次提出命名實體識別任務。命名實體識別主要是對文中的地名、人名、機構名等進行識別,目前用于命名實體識別的方法主要有基于規(guī)則的方法、基于統(tǒng)計機器學習的方法與基于深度學習的方法。如Collins等[2]提出DL-CoTrain 方法,該方法首先定義規(guī)則集Decision List,然后通過對該集合進行無監(jiān)督訓練獲得更多規(guī)則,其對人名、地名與機構名的分類準確率均達到91%; Cucerzan等[3]基于知識數(shù)據(jù)庫與手動注釋語料庫成本,提出用Bootstrapping 自動進行規(guī)則生成的方法;朱顥東等[1]提出一種將規(guī)則與統(tǒng)計相結合的中文微博命名實體識別方法,該方法首先利用微博主題標簽對數(shù)據(jù)進行篩選,選擇適當?shù)奶卣髂0?,然后利用CRF進行實體識別,有效提高了實體識別效果;孫靜等[4]首先利用詞典對文本進行詞性標注,獲得初始標注語料,然后利用CRFs進行反復訓練,使最終識別準確率提高了1.88%~2.26%;鄔倫等[5]將地名構成與使用特征融入到條件隨機場方法中,通過引入語言學知識,將地名識別問題轉(zhuǎn)化為序列標注問題,使地名識別召回率、準確率和F值分別達到92.69%、96.37%和94.67%,有效提高了識別效果;彭嘉毅等[6]提出一種基于字符特征、雙向長短時記憶網(wǎng)絡(Bi-LSTM)與條件隨機場(CRF)的信息安全領域命名實體識別方法,該方法無需人工提取特征,而是利用CRF對神經(jīng)網(wǎng)絡模型標注的序列進行約束,有效提高了識別準確率?;谝陨戏治?,命名實體識別方法已應用十分廣泛,因此本文考慮到應急預案組織機構名種類繁雜,以及上下文語義和機構名全稱與簡稱,提出一種基于條件隨機場的半監(jiān)督學習方法(S-CRF)對機構名進行識別與提取。

      2 條件隨機場模型介紹

      JohnLafferty 等在2001年首次提出一種判別式概率—條件隨機場模型(Conditional Random Fields,CRF),該模型已被應用于實體識別、信息抽取等相關領域。

      在應急預案命名實體識別任務中,設[P(y|x)]為線性條件隨機場模型,則在給定觀察序列x={x1,x2,…,xi}和預測序列y={y1,y2, …,yi}條件下定義為以下形式:

      式(1)中,[tk]、[sl]為自定義特征模板函數(shù),[λk]、[ul]為學習得到的參數(shù),即特征權值。式(2)中的Z(x)為歸一化函數(shù),使所有可能序列標注和為1。本文采用開源條件隨機場工具包CRF++0.58,在尋找特征后可以自動生成特征函數(shù)。

      3 命名實體識別

      本文將從應急預案中抽取組織機構的過程抽象化為序列標注問題,即對文本中的組織機構附以相應標簽,根據(jù)標簽提取出各個組織機構。序列標注問題采用傳統(tǒng)條件隨機場(Conditional Random Fields,CRF)監(jiān)督屬性實體識別方法。

      3.1 文本序列標注

      本文采用常用的BMO三標注法對組織機構進行標注,B表示當前組織機構的開始;M表示當前組織機構的延續(xù)和結束;O表示任意非實體。圖1為一個文本標注實例,各標簽具體含義如表1所示。

      3.2 基于半監(jiān)督學習的CRF模型

      對于傳統(tǒng)監(jiān)督學習,訓練數(shù)據(jù)模型需要大量已標注數(shù)據(jù),由于文本數(shù)量大且類型繁多,人工標注時間成本有限,因此需要從眾多未標注文本中選擇代表性的文本進行自動標注。如王新建等[7]采用隨機選取的方法獲取所需的自動標注文本集,但隨機選取的方法容易使選出的樣本不具有代表性,使得最終的準確率較低。因此,本文在已有研究基礎上采用K-means聚類算法對未標注文本進行劃分。該算法思想是先采用K-means聚類算法對未標注文本進行聚類,將其分成不同類型的集合,最后從不同類型集合中選取有代表性的文本進行自動標注,獲得自動標注文本集。該算法流程如圖2所示。

      基于以上算法對不同類型文本中經(jīng)常出現(xiàn)的組織機構進行自動標注,以圖1所示的文本標注為例,“市應急委員會辦公室”和“市信息辦”是在各市區(qū)常設的組織機構,在很多應急預案文本中都會出現(xiàn)。已標注實體在一定程度上能反映未標注文本中出現(xiàn)的實體信息,但由于實體所在文本位置中的上下文語義不同,可能導致無法識別,從而使最終準確率較低?;谝陨戏治?,對文本進行自動預標注步驟如下:

      Step 1:構建實體詞表。根據(jù)人工標注結果構建實體詞表。

      Step 2:對應急預案文本進行預處理。

      Step 3:自動預標注。利用構建的實體詞表對未標注文本進行處理,如果文本中的實體出現(xiàn)在實體詞表中,則直接被標注為相應實體標簽。

      Step 4:重復Step 3,直到所有未標注文本全部自動標注完畢。

      3.3 特征模板選取

      特征模板是對自然語言文本結構與規(guī)律的表示,對組織機構進行標注后,需要設計合理的特征模板以生成訓練語料庫。每個應急預案中組織機構名存在的語義環(huán)境不同,因此在定義條件隨機場特征模板時,要考慮上下文特征與詞性特征。上下文特征是指將當前詞位置前n個詞與后n個詞融合的信息,詞性特征是指將實體詞所在當前位置前后詞詞性融合的信息。文本標注實例如表2所示。

      根據(jù)表2的文本標注實例,考慮到上下文語義和詞性特征,設置特征模板如下:

      # Unigram

      U00:%x[-2,0]

      U01:%x[-1,0]

      U02:%x[0,0]

      U03:%x[1,0]

      U05:%x[-1,0]/%x[0,0]

      U07:%x[0,0]/%x[1,0]

      U08:%x[-1,1]/%x[0,1]/%x[1,1]

      U09:%x[0,1]/%x[1,1]/%x[2,1]

      U10: %x[-1,1]/%x[0,1]

      U11: %x[0,1]/%x[1,1]

      U12: %x[-1,1]

      U13: %x[0,1]

      4 實驗部分

      4.1 實驗數(shù)據(jù)

      本文選擇中文應急預案文本為實例展開研究,爬取各省人民政府網(wǎng)站中的應急預案文本共902篇作為實驗數(shù)據(jù)。針對各省不同類型的預案選取50篇文檔,對文本實體進行人工標注,采用K-means聚類算法[9]進行聚類后,選取100篇有代表性的未標注文本進行自動標注,并賦予相應標簽,然后用條件隨機場模型進行訓練測試,并從標注文檔中隨機選取20篇文檔作為測試數(shù)據(jù)用于模型評價。

      4.2 應急預案文檔規(guī)范化

      中文應急預案文本命名實體識別的困難之處主要是預案類型多,包含的實體名比較繁雜,實體所在位置前后語義也會對識別造成干擾。因此,對文本作進一步規(guī)范化處理是十分必要的,如去除文本中的干擾符號。由于文本的多樣化,其包含許多標點符號和其它語言文本(如:市、縣(市、區(qū))抗震救災指揮部等構成),這些標點符號在實體識別過程中會造成一定干擾,因此可以直接刪除。

      4.3 對比實驗

      為了驗證本文方法的有效性,分別對本文提出的實體識別方法(S-CRF)、傳統(tǒng)條件隨機場模型(CRF)與基于規(guī)則(RULL)的方法進行對比分析。

      (1) S-CRF方法:人工標注50篇文檔與自動標注100篇文檔構成訓練實體模型。

      (2) 傳統(tǒng)條件隨機場模型(CRF):人工隨機標注50篇文檔進行CRF模型訓練。

      (3) 基于規(guī)則(RULL)的方法:通過制定相應規(guī)則對機構名進行識別。

      實驗中采用準確率(Precision)、召回率(Re-call)與F值評價識別效果,各方法識別結果分別如表3-表5所示。

      從表中可以看出,在只利用條件隨機場模型與基于規(guī)則進行命名實體識別的情況下,準確率、召回率和F值都較低,而在加入自動標注和條件隨機場模型識別的情況下,準確率和召回率都得到了提升。上述3個實驗結果表明,本文提出的實體識別方法(S-CRF)能夠提高識別效果。

      5 結語

      本文提出采用基于條件隨機場的半監(jiān)督學習方法(S-CRF)提取中文應急預案組織機構名,將該任務視為序列標注問題,利用少量標注文本對未標注文本進行自動標注,并將其應用于中文應急預案組織機構識別中,對收集的數(shù)據(jù)進行規(guī)范化處理。綜合考慮組織機構詞性特征和上下文語義特征,為條件隨機場構建合適的特征模板和訓練語料,采用自動標注彌補了傳統(tǒng)命名實體識別需要大量人工標注數(shù)據(jù)的缺陷。通過對比實驗表明,該方法能有效提高應急預案命名實體識別效果。然而,本文研究還有待完善,下一步研究工作應根據(jù)實際應用進一步優(yōu)化識別算法,將多模型融合與本文提出方法結合應用到命名實體識別中,從而提高識別準確率,同時還可將該方法應用到人名、地名識別中。

      參考文獻:

      [1]朱顥東,楊立志,丁溫雪,等.? 基于主題標簽和 CRF的中文微博命名實體識別[J]. 華中師范大學學報(自然科學版),2018,52(3):316-321.

      [2]COLLINS M, SINGER Y. Unsupervised models for named entity classification[C]. Proceedings of the Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora, 1999: 100-110.

      [3]CUCERZAN S,YAROWSKY D. Language independent named entity recognition combining morphological and contextual evidence[C]. Proceedings of the 1999 Joint SIGDAT Conference on EMNLP and VLC, 1999: 90-99.

      [4]孫靜,李軍輝,周國棟. 基于條件隨機場的無監(jiān)督中文詞性標注[J]. 計算機應用與軟件,2011,28(4):21-23,46.

      [5]鄔倫,劉磊,李浩然,等. 基于條件隨機場的中文地名識別方法[J]. 武漢大學學報(信息科學版),2017, 42(2):150-156.

      [6]彭嘉毅,方勇,黃城,等. 基于深度主動學習的信息安全領域命名實體識別研究[J]. 四川大學學報(自然科學版),2019,56(3):457-462.

      [7]王新建,羅光舂,秦科,等. —種基于SVM和主動學習的圖像檢索方法[J]. 計算機應用研究,2016(12):3836-3838,3846.

      [8]姚明海, 陳志浩.? 基于深度主動學習的磁片表面缺陷檢測[J].? 計算機測量與控制, 2018(9):29-33.

      [9]CSDN. K-means[EB/OL]. https://blog.csdn.net/zengxiantao1994/article/details/73441922.

      [10]孫鎮(zhèn),王惠臨. 命名實體識別研究進展綜述[J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn),2010,26(6):42-47.

      [11]CHADI H,SHADY E. Arabic named entity recognition via deep co-learning[J]. Artificial Intelligence Review,2019,52 (1):197-215.

      [12]閆海磊,施水才. 一種面向時政新聞的命名實體識別方法[J]. 北京信息科技大學學報,2018,33(6):23-43.

      [13]房輝,湯文兵,桂海霞,等. 基于眾包標注的中文微博命名實體識別[J]. 計算機應用與軟件,2019,36(3):255-270.

      [14]張海楠,伍大勇,劉悅,等. 基于深度神經(jīng)網(wǎng)絡的中文命名實體識別[J]. 中文信息學報,2017,31(4): 28-35.

      [15]楊飄,董文永. 基于BERT嵌入的中文命名實體識別方法[J]. 計算機工程:1-7[2019-11-02]. https://doi.org/10.19678/j.issn. 1000-3428.0054272.

      [16]張應成,楊洋,蔣瑞,等. 基于BiLSTM-CRF的商情實體識別模型[J]. 計算機工程,2019,45(5):308-314.

      [17]武惠,呂立,于碧輝. 基于遷移學習和 BiLSTM-CRF 的中文命名實體識別[J]. 小型微型計算機系統(tǒng),2019,40(6):1142-1147.

      [18]陳鵬. 基于多核融合的中文領域?qū)嶓w關系抽取研究[D]. 昆明:昆明理工大學,2014.

      [19]唐釗. 條件隨機場模型在中文人名識別中的研究與實現(xiàn)[J]. 現(xiàn)代計算機,2012,14(7):3-7.

      (責任編輯:黃 健)

      收稿日期:2019-08-02

      基金項目:國家自然科學基金項目(71704096,61602278);青島市社科規(guī)劃項目(QDSKL1801122)

      作者簡介:劉彤(1982-),女,博士,山東科技大學計算機科學與工程學院副教授、碩士生導師,研究方向為數(shù)據(jù)挖掘、人工智能;魏靜(1991-),女,山東科技大學計算機科學與工程學院碩士研究生,研究方向為智能信息處理、信息挖掘;倪維健(1981-),男,博士,山東科技大學計算機科學與工程學院副教授、碩士生導師,研究方向為文本挖掘、過程挖掘;陳思源(1993-),女,山東科技大學計算機科學與工程學院碩士研究生,研究方向為智能信息處理。本文通訊作者:倪維健。

      猜你喜歡
      應急預案
      電視安全播出的應急預案及處置方式
      科技傳播(2016年21期)2017-03-01 12:58:01
      環(huán)城水系施工中靜力切割技術的應用
      制訂應急預案 完善高校安全保障體系探究
      大學教育(2016年12期)2017-01-03 20:32:45
      企業(yè)突發(fā)環(huán)境事件應急預案編寫及注意事項淺談
      ?;髽I(yè)提高現(xiàn)場應急處置能力的對策措施研究
      新形勢下高校網(wǎng)絡文化建設管理機制研究
      網(wǎng)絡大數(shù)據(jù)時代銀行信息安全存在問題及對策
      應急預案工作體系的相關研究
      淺談“雙盲”演練在地質(zhì)災害防治工作中起到的成效
      變電站變電運行管理優(yōu)化措施研究
      深圳市| 巍山| 盘锦市| 兴山县| 景洪市| 四川省| 襄樊市| 瓮安县| 和平区| 昆山市| 灌云县| 肥东县| 吴江市| 五峰| 洛扎县| 和政县| 玛多县| 宽城| 巧家县| 仙桃市| 胶州市| 永康市| 广灵县| 托克逊县| 巫山县| 丰镇市| 罗平县| 元氏县| 新津县| 吐鲁番市| 北票市| 景洪市| 都安| 龙门县| 瓦房店市| 冕宁县| 中超| 平远县| 新源县| 新建县| 大英县|