• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      中文命名實體識別研究方法綜述

      2021-06-29 20:46:32李嘉欣王平
      計算機時代 2021年4期
      關(guān)鍵詞:自然語言處理評價指標

      李嘉欣 王平

      摘? 要: 命名實體是存在于現(xiàn)實世界里的事物,它們與現(xiàn)實世界有著相互作用、相互影響的關(guān)系,因此命名實體在一些場景里是很重要的。文章從命名實體識別的定義著手,逐步闡述它從始初到如今的發(fā)展狀況和識別方法及手段,分析命名實體識別的主要難點,最后通過命名實體識別的三個評價指標來判斷實體的邊界是否正確,以及實體的類型是否標注正確。

      關(guān)鍵詞: 自然語言處理; 命名實體識別; 條件隨機場; 評價指標; 信息抽取

      中圖分類號:TP391? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2021)04-18-04

      Abstract: Named entities are things that exist in the real world. They interact and influence each other with the real world. Therefore, named entities are very important in some scenarios. Starting with the definition of named entity recognition, this paper gradually elaborates its development from the beginning to the present and its recognition methods and means, and analyzes the main difficulties of named entity recognition, and finally judges whether the entity boundary is correct and whether the entity type is marked correctly through three evaluation indexes of named entity recognition.

      Key words: natural language processing; named entity recognition; conditional random fields; evaluation index; information extraction

      0 引言

      隨著大數(shù)據(jù)時代的出現(xiàn)和機器學習的發(fā)展,自然語言處理NLP變得越來越重要,而自然語言處理中的一個熱門的研究方向--命名實體識別NER也發(fā)展了起來。命名實體識別(Namedentityrecognition,NER)是機器翻譯、問答系統(tǒng)、信息抽取和自然語言處理中一項重要的任務[1],它的目的是從給出的一段文本中找出其中所有的實體,并將實體的屬類標注出來。如今,命名實體識別在生物醫(yī)學、警情軍事及農(nóng)業(yè)漁業(yè)等方面均有廣泛應用。

      1 命名實體識別的定義

      在1991年LisaF.Rau[2]研究如何從文本中抽取公司的名稱,論文主要是將人工編寫規(guī)則的方法與啟發(fā)式算法結(jié)合以此來實現(xiàn)公司名稱識別的問題。在1993年宋柔等[3]人出了一本基于規(guī)則庫的識別方法的書用于識別人名。命名實體識別被正式的提出是在1995年的第六屆MUC會議上,在之后的第七屆MUC會議上給出了命名實體識別需要識別的三大類和七小類的實體。后來在CONLL會議上將其定義為包含名稱的短語[5]。SIGHANBakeoff-2006,Bakeoff-2007等也大多采用了這種分類[1]。除了主流的NER評測會議之外,Petasis、Alfonseca、Sekine、Borrega、Marrero等[1]學者也對命名實體的含義和類型進行熱烈的討論。

      2 命名實體識別的研究方法

      早期用來命名實體識別的方法主要是基于規(guī)則的方法和基于字典的方法,但隨著語料的增加制定的規(guī)則也將越來越繁瑣,使用基于規(guī)則的方法和基于字典的方法就會過于費時費力。隨著大數(shù)據(jù)時代的到來,如HMM、SVM和CRF等傳統(tǒng)的機器學習方法也被學者用于命名實體識別的任務上,到后期的深度學習方法,將神經(jīng)網(wǎng)絡模型引入進行命名實體識別和近期開始將注意力機制和遷移學習應用其中,命名實體識別的發(fā)展正受到了各方面的持續(xù)關(guān)注。

      2.1 基于詞典和規(guī)則的方法

      在正式提出命名實體概念后,早期的研究主要是采用規(guī)則和字典的方法[6]?;谝?guī)則的方法和基于字典的方法都是要構(gòu)建大量的規(guī)則集或字典,然后按照需求將需要識別的漢字串放入制定的規(guī)則集中或與所構(gòu)建的字典進行匹配,經(jīng)過多次修正直到匹配成功。但這種方法只能在小數(shù)據(jù)集上得到很好的準確率,而隨著數(shù)據(jù)集中數(shù)據(jù)的增加這種方式變得不再適用。

      由于使用基于詞典和規(guī)則的方法進行命名實體識別存在限制,它只能在特定的語料上識別能夠得到很高的準確度,這樣隨著需要識別的實體多樣化就需要制定更多的規(guī)則和更大的詞典,這樣的工作也會越來越重和越來越復雜。而隨著機器學習的發(fā)展,在進行命名實體識別的任務時也開始考慮基于統(tǒng)計機器學習的方法。

      2.2 基于統(tǒng)計機器學習的方法

      基于統(tǒng)計機器學習的方法有基于隱馬爾可夫模型(HiddenMarkovMode,HMM)的方法、基于最大熵(MaxmiumEntropy)的方法、基于支持向量機(SupportVectorMachine,SVM)的方法和基于條件隨機場(ConditionalRandomFields,CRF)的方法。

      2.2.1 統(tǒng)計機器學習方法在NER的第一步

      第一個基于支持向量機(SVM)的NE系統(tǒng)是由Yamada等人在2001年提出來的。

      2002年HidekiIsozak和HidetoKazawa將支持向量機應用在命名實體識別任務上。同年,McCallum等人將條件隨機場也應用到命名實體識別的任務上。

      在2004年莊明,老松楊,吳玲達[7]等人提出了基于統(tǒng)計的命名實體識別的方法。該方法首先將一段文本切分為幾段較短的句子,再使用自增長統(tǒng)計算法從切分后的句子中生成最初的數(shù)據(jù)集,并利用得到的信息篩選出實體。這個方法不需要建立專業(yè)領(lǐng)域的大規(guī)模語料庫,而是基于文本自身的用詞特點進行統(tǒng)計分析,在實驗中取得了良好的效果。但它的缺點是對帶有前綴的模式的生成過程難以進行有效分析而且自增長生成算法作為一種統(tǒng)計方法對低頻詞條無法有效識別。

      2.2.2 統(tǒng)計機器學習方法在NER的第二步

      繼統(tǒng)計機器學習的方法提出之后,人們嘗試使用統(tǒng)計與規(guī)則結(jié)合的方法用于命名實體識別。如2005年向曉雯等[8]采用了統(tǒng)計與規(guī)則結(jié)合的方法進行命名實體識別,其首先使用HMM模型對文本做詞性標注,然后使用制定好的規(guī)則對已經(jīng)標注的文本再有一個修改的過程,他們采用的這種方法來做命名實體識別時,其三項評價標準均得到較高的數(shù)值。

      2006年張劍[9]主要是對英文文本進行命名實體識別的研究,文中分別利用了改進的隱馬爾可夫模型和條件隨機域模型兩種方法進行英文文本的命名實體識別,這個方法既兼顧了每個句子內(nèi)部的局部特征又兼顧到每個詞在同一文檔中全局特征。同年,Okanohara[10]在生物領(lǐng)域上使用改進的半監(jiān)督條件隨機場模型進行命名實體識別,主要用于識別蛋白質(zhì),DNA和RNA等實體。

      2009年高國洋,戚銀城,潘德鋒[11]等對中文地名識別進行了研究,提出了一種結(jié)合多知識的識別方法,該方法首先以CRF模型為框架,將專家知識與局部特征以及復合特征相融合進行命名實體識別;并利用構(gòu)建的規(guī)則庫對識別結(jié)果進行修正。

      2010年鞠久朋等[12]也提出將條件隨機場與規(guī)則相結(jié)合的方法用于地理空間中的命名實體識別。

      2.3 深度學習下的命名實體識別

      隨著基于神經(jīng)網(wǎng)絡模型的深度學習技術(shù)在機器學習領(lǐng)域的發(fā)展越來越深入[4]。尤其是使用詞向量來表示詞語的方法,一方面解決了由于高緯度向量空間的原因?qū)е碌臄?shù)據(jù)稀疏問題,另一方面詞向量本身也比人工選擇的特征包含更多的語義信息,而且該方法可以從異構(gòu)的文本中獲取統(tǒng)一向量空間下的特征表示,給NER中的命名實體識別問題帶來強大的發(fā)展動力。

      在2011年Collobert[13]等學者首次提出基于神經(jīng)網(wǎng)絡的命名實體識別方法,該方法中每個單詞具有固定大小的窗口,但未能考慮長距離單詞之間的有效信息。

      2015年Yonghuiwu[14]等學者在文中先后使用了兩次深度神經(jīng)網(wǎng)絡,首先是對未標注的文本使用一次深度神經(jīng)網(wǎng)絡進行訓練,然后再使用一次深度神經(jīng)網(wǎng)絡對訓練后的詞向量進行實體識別,該方法在生物學上F值超過了使用統(tǒng)計的方法進行命名實體識別。同時ZhihengHuang[15]等人使用雙向長短期記憶模型用于命名實體,文中采用雙向長短期記憶模型和條件隨機場即BILSTM-CRF模型進行命名實體識別。

      2016年XuezheMal和EdurdHovy[16]提出的BILSTM-CNNs-CRF模型,相比于ZhihengHuang提出的BILSTM-CRF模型來說,文中多一步使用卷積神經(jīng)網(wǎng)絡訓練詞向量,再將訓練后的向量作為雙向長短期記憶模型的輸入,再使用CRF對輸出建立標簽關(guān)系,以此來更有效的實現(xiàn)實體識別。

      MouradGridach,HatemHaddad在2017年先前用于現(xiàn)代標準阿拉伯語(MSA)的命名實體識別(NER)模型在很大程度上依賴于功能和地名詞典的使用,這非常耗時。在文中介紹了一種基于雙向選通遞歸單元(GRU)結(jié)合條件隨機場(CRF)的新型神經(jīng)網(wǎng)絡架構(gòu),這種新穎的體系結(jié)構(gòu)可以消除了對大多數(shù)手工工程功能的需求。

      2.4 近期的命名實體識別研究方法

      近期的命名實體識別方法除了在循環(huán)神經(jīng)網(wǎng)絡模型進行模型改進提出門控GRU模型外,還嘗試使用CNN、SVM、Lattice、BERT等模型進行語言預訓練,并在模型中引入注意力機制、遷移學習等來提高命名實體識別的準確度。

      周曉磊[17]等人提出了使用SVM-BILSTM-CRF的神經(jīng)網(wǎng)絡模型對財產(chǎn)糾紛案件進行命名實體識別。文中提出構(gòu)建一個關(guān)于財產(chǎn)糾紛裁判文書的語料庫,首先使用支持向量機將文本中包含實體的句子篩選出來,然后輸入給BILSTM-CRF模型進行訓練,最后使用訓練好的模型對財產(chǎn)糾紛裁判文書進行命名實體識別王博冉[18]等人方法利用LatticeLSTM模型來提取句子中的詞匯詞,從而將文本中詞信息輸入到基于字符的循環(huán)神經(jīng)網(wǎng)絡-條件隨機場模型中。與基于字符和基于詞的命名實體識別方法相比,本文提出模型的優(yōu)勢是其利用顯性詞匯信息而不是字符序列進行標注,且得到的分詞誤差率也得到了大幅度下降。

      王子牛[19]等人提出了基于BERT的神經(jīng)網(wǎng)絡方法進行命名實體識別。BERT預訓練語言模型具有雙向Transformer結(jié)構(gòu)不僅可以增強字的語義表示,還可以根據(jù)其上下文生成語義向量。文中提出的方法結(jié)合BERT和BILSTM-CRF模型對中文實體進行識別,以無需添加任何特征的方式提升了實體識別的準確率、召回率及F1值,驗證了該方法的有效性。

      武惠[20]等人提出了一種基于遷移學習的命名實體識別模型即TrBILSTM-CRF模型,該模型通過遷移學習算法將源域的信息遷移到所需的目標域中以此可以從其他領(lǐng)域獲取到目前工作任務中所需要的信息。實驗結(jié)果表明,TrBILSTM-CRF模型在小規(guī)模數(shù)據(jù)集上進行中文機構(gòu)名命名實體識別時,其準確率、召回率和F值相比于其他方法,取得了較好的效果。

      3 命名實體識別的研究難點

      由于中文的多樣性且并沒有可以將其劃分開的明顯標注,這導致我們在對中文進行命名實體識時會更加的困難。實體能否被準確的從文本中識別出來主要在這兩個方面:是否可以準確的劃分出實體的邊界;是否可以準確的判斷出實體屬類。

      中文命名實體識別的難點有以下幾個方面。

      ⑴ 命名實體的定義:在對中文進行實體識別時,可以發(fā)現(xiàn)中文實體的數(shù)量龐大且屬類也很模糊,這就導致我們在對中文命名實體進行定義時會有很大的分歧。首先是在對其進行命名實體識別時需要大量的標注數(shù)據(jù)而這恰恰也是我們?nèi)鄙俚模以趯?shù)據(jù)進行標注時還需要有一個命名實體的標準,這也是目前的難點之一。

      ⑵ 歧義的消解:傳統(tǒng)的詞典規(guī)則方法可以很容易召回文本序列中在詞表匹配到的詞,但它的局限在無法解決歧義問題。一種典型的歧義是多種可能劃分的問題,比如下面這個例子。輸入序列:看到良方正在澆花??梢苑譃椋嚎吹?良方/正在/澆花;也能分為:看到/良方正/在/澆花。

      ⑶ 邊界的界定:雖然深度學習對歧義的消解有顯著優(yōu)勢,但它通常會遇到的問題是對新詞的邊界把握模糊。而詞典中包含了大量詞的邊界信息。因此如何把詞典信息融入到深度學習模型中是近幾年研究的主流?,F(xiàn)如今的方法是先對文本進行中文分詞,再對得到的詞進行標注。

      ⑷ 缺少標注數(shù)據(jù):我們在進行命名實體識別的過程中不可缺少的就是已經(jīng)標注好的數(shù)據(jù),這也是在進行機器訓練中不能缺少的一環(huán)。但這些標注好的數(shù)據(jù)都是需要人工去標注的,這樣就需要更多的人力投入到這個過程中,而這個已有的標注數(shù)據(jù)并不完全適用于各個領(lǐng)域,這樣,在我們對特殊領(lǐng)域進行命名實體識別時就必須先人工構(gòu)建這個領(lǐng)域的標注數(shù)據(jù)庫,一旦這個標注數(shù)據(jù)庫不夠準確或者數(shù)據(jù)不夠多,就會使得計算機的學習能力大幅度下降且難以訓練出好的結(jié)果,這也是命名實體識別的難點之一。

      4 展望

      命名實體識別作為機器翻譯、問答系統(tǒng)、信息抽取和自然語言處理的研究熱點之一。通過閱讀,近年來學者們在神經(jīng)網(wǎng)絡模型的基礎上通過引入注意力機制和遷移學習等方法以此取得了大量新的研究成果,而命名實體識別未來的發(fā)展也將圍繞這些方面。如今我們通過構(gòu)建法律、生物、醫(yī)學、軍事等領(lǐng)域的數(shù)據(jù)庫并在該數(shù)據(jù)庫上進行實驗,都取得了不錯的結(jié)果。

      但這里不可避免會遇到未登錄詞的問題,未登錄詞指的是那些沒有被收錄在詞典中但必須切分出來的詞。而如何識別并處理未登錄詞將是命名實體識別未來的一個重要研究方向。因此,后面的工作我們不僅要將已有的命名實體識別方法應用在各個領(lǐng)域上還要通過不斷的改進模型來提高命名實體識別的準確度,并在命名實體識別的基礎上對未登錄詞展開研究。

      參考文獻(References):

      [1] 劉瀏,王東波.命名實體識別研究綜述[J].情報學報,2018.37(3):329-340

      [2] RauLF.Extracting Company Names from Text[C].In:Proceeding softhe 7th IEEE Conference on Artificial Intelligence Applications.1991:29-32

      [3] 宋柔.基于語料庫和規(guī)則庫的人名識別方法[M].計算語言學研究與應用,北京語言學院出版社,1993.

      [4] 陳曙東,歐陽小葉.命名實體識別技術(shù)綜述[J].無線電通信技術(shù),2020.46(3):251-260

      [5] Grishman R,Sundheim B.Message Understanding?Conference-6:ABriefHistory[C].In:Proceeding softhe 16th International Conferenceon Computational Linguistics,1996.

      [6] 隋臣.基于深度學習的中文命名實體識別研究[D].浙江大學碩士學位論文,2017.

      [7] 莊明,老松楊,吳玲達.一種統(tǒng)計和詞性相結(jié)合的命名實體發(fā)現(xiàn)方法[J].計算機應用,2004.1:22-24

      [8] 向曉雯,史曉東,曾華琳.一個統(tǒng)計與規(guī)則相結(jié)合的中文命名實體識別系統(tǒng)[J].計算機應用,2005.10:2404-2406

      [9] 張劍.基于CRF的英文命名實體識別研究[D].哈爾濱工業(yè)大學碩士學位論文,2006.

      [10] Daisuke Okanohara,Yusuke Misyao.Yoshimasa Tsuruka.Improvingthe Scalability of Semi-Markov Conditional Random Fiekds for Named Entity Recognition[C].Proceeding softhe21 "International Conferenceon Computational Linguisticsand 44th Annual Meetingofthe ACL,2006:465-472

      [11] 高國洋,戚銀城,潘德鋒.基于條件隨機場與規(guī)則相結(jié)合的中文地名識別[J].電腦開發(fā)與應用,2009.22(8):26-28

      [12] 鞠久朋,張偉偉,寧建軍,周國棟.CRF與規(guī)則相結(jié)合的地理空間命名實體識別[J].計算機工程,2011.37(7):210-212,215

      [13] COLLOBERTR,WESTONJ,BOTTOUL,etal.Natural Language Processing(almost) from Scratch[J].Journal of Machine Learning Research,2011.12(Aug):2493

      [14] YonghuiW,MinJiang,JianboLei,HuaXu.Named Entity Recognitionin Chinese Clinical Text Using Deep Neural Network.Studiesin Health Technology and Informatics,2015:624-628

      [15] Zhiheng Huang,Wei Xu and Kai Yu.Bidirectional LSTM-CRF Models for Sequence Tagging[J].arXiv,2015.1508.01991

      [16] MAX,HOVYE.End-to-end Sequence Labeling ViaBi-directional LSTM-CNNs-CRF[J].arXivpreprintarXiv:1603.01354,2016.

      [17] 周曉磊,趙薛蛟,劉堂亮,宗子瀟,王其樂,里劍橋.基于SVM-BILSTM-CRF模型的財產(chǎn)糾紛命名實體識別方法[J].計算機系統(tǒng)應用,2019.28(1):245-250

      [18] 王博冉,林夏,朱曉東,朱萬琳,馬學華.LatticeLSTM神經(jīng)網(wǎng)絡法中文醫(yī)學文本命名實體識別模型研究[J].中國衛(wèi)生信息管理雜志,2019.16(1):84-88

      [19] 王子牛,姜猛,高建瓴,陳婭先.基于BERT的中文命名實體識別方法[J].計算機科學,2019.46(S2):138-142

      [20] 武惠,呂立,于碧輝.基于遷移學習和BILSTM-CRF的中文命名實體識別[J].小型微型計算機系統(tǒng),2019.40(6):1142-1147

      猜你喜歡
      自然語言處理評價指標
      基于組合分類算法的源代碼注釋質(zhì)量評估方法
      旅游產(chǎn)業(yè)與文化產(chǎn)業(yè)融合理論與實證分析
      科學與管理(2016年5期)2016-12-01 19:18:45
      中國藥品安全綜合評價指標體系研究
      中國市場(2016年40期)2016-11-28 04:01:18
      第三方物流企業(yè)績效評價研究綜述
      商(2016年33期)2016-11-24 23:50:25
      基于UML的高校思想政治教育工作評價系統(tǒng)的分析與研究
      公共文化服務體系評價指標的國際經(jīng)驗與啟示
      中國市場(2016年38期)2016-11-15 00:01:08
      資源型企業(yè)財務競爭力評價研究
      中國市場(2016年33期)2016-10-18 13:33:29
      面向機器人導航的漢語路徑自然語言組塊分析方法研究
      詞向量的語義學規(guī)范化
      求知導刊(2016年10期)2016-05-01 14:09:25
      漢哈機器翻譯中的文字轉(zhuǎn)換技術(shù)研究
      高密市| 绍兴市| 四子王旗| 阜平县| 富宁县| 璧山县| 仙游县| 彰化县| 日土县| 建平县| 万盛区| 临汾市| 洞口县| 萨嘎县| 满城县| 营山县| 东乡族自治县| 伊春市| 周宁县| 罗定市| 昂仁县| 龙江县| 赣榆县| 肥西县| 登封市| 龙川县| 左贡县| 万山特区| 尼玛县| 沙坪坝区| 长治县| 英吉沙县| 元朗区| 浦县| 济南市| 桦南县| 财经| 三穗县| 瑞昌市| 遵化市| 玉溪市|