• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      中文領(lǐng)域命名實(shí)體識(shí)別綜述

      2021-08-19 10:35:44焦凱楠朱容辰
      關(guān)鍵詞:實(shí)體規(guī)范領(lǐng)域

      焦凱楠,李 欣,2,朱容辰

      1.中國人民公安大學(xué) 信息網(wǎng)絡(luò)安全學(xué)院,北京100038

      2.安全防范技術(shù)與風(fēng)險(xiǎn)評(píng)估公安部重點(diǎn)實(shí)驗(yàn)室,北京100026

      命名實(shí)體識(shí)別(Named Entity Recognition,NER)是自然語言處理(Natural Language Processing,NLP)領(lǐng)域的子任務(wù),通常解釋為從一段非結(jié)構(gòu)化文本中,將那些人類通過歷史實(shí)踐規(guī)律認(rèn)識(shí)、熟知或定義的實(shí)體識(shí)別出來,同時(shí)也代表了具有根據(jù)現(xiàn)有實(shí)體的構(gòu)成規(guī)律發(fā)掘廣泛文本中新的命名實(shí)體的能力。實(shí)體是文本中意義豐富的語義單元,識(shí)別實(shí)體的過程分為兩階段,首先確定實(shí)體的邊界范圍,然后將這個(gè)實(shí)體分配到所屬類型中去[1]。

      1991年Rau[2]隱式地提出了NER任務(wù),需求是從文本中提取公司名稱。在1996年之后,NER作為信息抽取的一項(xiàng)子任務(wù)的屬性在第六屆消息理解會(huì)議(Message Understanding Conference 6,MUC-6)上被正式確立。

      NER的提取對(duì)象隨著相關(guān)評(píng)測會(huì)議的進(jìn)行不斷豐富。最先開始的英文文本實(shí)體集中在三大基本類[3]——person(人物)、organization(組織機(jī)構(gòu))、geographical location(地理位置)上,同時(shí)輔助于currency(貨幣)、time(時(shí)間日期)、percentage expression(百分?jǐn)?shù)表達(dá)式)的識(shí)別,前者屬于實(shí)體類(entity type),后者屬于數(shù)字類(numeric type)。而person類下包含了名字、昵稱、代稱[4]、外文譯名[5]等識(shí)別任務(wù),location類對(duì)城市、道路、區(qū)劃等名詞進(jìn)行識(shí)別。隨著NER研究的推進(jìn),提取實(shí)體范圍更廣,實(shí)體分類更加精細(xì),不同語種、不同學(xué)科領(lǐng)域被包含進(jìn)來。

      NER技術(shù)隨著相關(guān)評(píng)測會(huì)議的舉辦逐漸明確研究目標(biāo)[6]。英文NER技術(shù)對(duì)于中文NER發(fā)展具有借鑒意義,中英文的構(gòu)成差異和中文顯著區(qū)別于英文的特性,促進(jìn)了相關(guān)中文評(píng)測會(huì)議的發(fā)展。英文是單詞和符號(hào)的組合,英文單詞由空格隔開,具有大小寫、詞根詞綴等特性。中文由單個(gè)漢字和符號(hào)組成,因此中文NLP研究最初集中在漢語自動(dòng)化分詞[7]上,中文NER相較于英文文本缺少了一些單詞粒度信息。

      促進(jìn)中文NER發(fā)展的會(huì)議有SigHAN、863中文IP評(píng)測會(huì)議等。NER在SIGHAN Bakeoff-2010之后[6],不再作為評(píng)測任務(wù)出現(xiàn),后續(xù)如命名實(shí)體消歧、命名實(shí)體鏈接任務(wù)被加入信息抽取任務(wù)中,NER最新進(jìn)展被發(fā)表在ACL、AAAI、COLING、EMNLP、NAACL等NLP頂級(jí)會(huì)議中[1]。

      1 中文領(lǐng)域命名實(shí)體識(shí)別

      面向特定領(lǐng)域的NER任務(wù)——領(lǐng)域命名實(shí)體識(shí)別(Domain Named Entity Recognition,DNER)產(chǎn)生于工業(yè)界對(duì)于NER業(yè)務(wù)場景的開放與擴(kuò)展。中文DNER是在中文NER所識(shí)別的基本實(shí)體類別上提出的領(lǐng)域適應(yīng)分類方案。表1列出了部分領(lǐng)域與所識(shí)別實(shí)體的對(duì)應(yīng)關(guān)系。

      表1 特定領(lǐng)域與對(duì)應(yīng)實(shí)體Table 1 Specific domain and corresponding entities

      這些領(lǐng)域的實(shí)體類型不盡相同,卻是組成各自領(lǐng)域文本的基本語義單元。部分實(shí)體也是對(duì)三大類基本實(shí)體的細(xì)粒度在場景下的擴(kuò)充,如訴訟當(dāng)事人、恐怖分子等實(shí)體類型是person類實(shí)體在具體場景下的細(xì)化。

      1.1 中文領(lǐng)域命名實(shí)體識(shí)別分類

      DNER屬于NER面向不同行業(yè)領(lǐng)域的子任務(wù),DNER技術(shù)依賴于NER技術(shù)發(fā)展,DNER廣度取決于我國工業(yè)化場景的集合,依據(jù)2017年國家標(biāo)準(zhǔn)《國民經(jīng)濟(jì)行業(yè)分類》將我國行業(yè)分為20個(gè)門類、97個(gè)大類等。表2分別展示了行業(yè)門類信息和根據(jù)該分類標(biāo)準(zhǔn)統(tǒng)計(jì)所得的DNER研究及論文情況。

      以搜索條件“篇名:實(shí)體識(shí)別”在知網(wǎng)得到的603篇文獻(xiàn)標(biāo)題經(jīng)過jieba分詞、去除論文標(biāo)題常用停用詞作為統(tǒng)計(jì)總數(shù)。因搜索條件嚴(yán)格限制了領(lǐng)域關(guān)鍵詞必須出現(xiàn)在論文標(biāo)題內(nèi),同時(shí)未納入同時(shí)段英文論文發(fā)表數(shù)目,因此所得數(shù)目與實(shí)際研究數(shù)量會(huì)有稍許差異。表2說明了衛(wèi)生和社會(huì)工作類研究比例突出,占所有文獻(xiàn)的70.3%。

      1.2 中文領(lǐng)域命名實(shí)體識(shí)別的作用

      由表2可知,某一個(gè)領(lǐng)域頻繁地被選擇代表該領(lǐng)域?qū)τ贜ER技術(shù)的迫切需求,如通過挖掘日產(chǎn)且數(shù)量巨大的半結(jié)構(gòu)化電子病歷以助力現(xiàn)代化醫(yī)療的建設(shè),通過挖掘日產(chǎn)且龐雜的社交媒體信息反映大眾偏好,通過挖掘涉恐新聞報(bào)道中潛在恐怖組織痕跡對(duì)于維護(hù)現(xiàn)代化社會(huì)的和平穩(wěn)定具有重要意義。

      研究集中的領(lǐng)域使得NER技術(shù)的迭代速度加快,使復(fù)用到其他領(lǐng)域的可能性驗(yàn)證實(shí)驗(yàn)周期縮短。技術(shù)與產(chǎn)業(yè)的結(jié)合作為驅(qū)動(dòng)力,使某個(gè)趨于成熟的DNER形成了一套從數(shù)據(jù)預(yù)處理、模型選擇、領(lǐng)域內(nèi)新實(shí)體的處理框架,復(fù)用至其他DNER中,加快產(chǎn)業(yè)文本的結(jié)構(gòu)化速度。表2隱含的DNER不均衡發(fā)展情況是領(lǐng)域遷移能力不成熟的體現(xiàn),這受限于NER技術(shù)基礎(chǔ)。DNER不僅致力于特定領(lǐng)域?qū)嶓w識(shí)別準(zhǔn)確率的提高,也對(duì)新領(lǐng)域?qū)嶓w提取效率的提高提出了要求。

      表2 行業(yè)門類所對(duì)應(yīng)領(lǐng)域NERTable 2 Industry category corresponding to domain NER

      NER是NLP領(lǐng)域的重要基礎(chǔ)任務(wù),其基礎(chǔ)性正體現(xiàn)在NER任務(wù)性能的提高進(jìn)一步有利于非結(jié)構(gòu)化文本朝結(jié)構(gòu)化文本的轉(zhuǎn)化,有利于大數(shù)據(jù)時(shí)代中分類別大型知識(shí)庫的構(gòu)建,有利于問答對(duì)話系統(tǒng)的精準(zhǔn)意圖識(shí)別,有利于機(jī)器翻譯中正確的槽位填充等。隨著NER識(shí)別自然語言中已有類別的新實(shí)體的能力和新類別的新實(shí)體的能力的提高,現(xiàn)有知識(shí)庫得到了擴(kuò)充,從而推動(dòng)了在此基礎(chǔ)上人工智能與自然語言知識(shí)圖譜的發(fā)展[1]。

      2 中文領(lǐng)域命名實(shí)體識(shí)別構(gòu)成

      2.1 中文領(lǐng)域命名實(shí)體識(shí)別框架

      DNER框架參照NER的一般研究流程,如圖1所示。當(dāng)DNER研究領(lǐng)域確定后,需要完成的NER基礎(chǔ)操作如數(shù)據(jù)源的獲取、評(píng)價(jià)指標(biāo)的確立等,之后在技術(shù)選擇階段根據(jù)領(lǐng)域及數(shù)據(jù)集特點(diǎn)制定相應(yīng)的方法。

      圖1 中文領(lǐng)域命名實(shí)體識(shí)別框架Fig.1 Chinese domain named entity recognition framework

      2.2 領(lǐng)域數(shù)據(jù)源確定

      確定提取領(lǐng)域后,根據(jù)領(lǐng)域數(shù)據(jù)來源的差異來輔助確定實(shí)體類型。當(dāng)數(shù)據(jù)源包含新聞文本時(shí),實(shí)體類型需包含person、location、organization三類基本實(shí)體在領(lǐng)域內(nèi)的細(xì)粒度角色。如在制定影視DNER實(shí)體標(biāo)簽時(shí),明星、電視劇都是構(gòu)建影視知識(shí)圖譜所需的基本實(shí)體單元,明星既是person類實(shí)體在娛樂領(lǐng)域的細(xì)化,亦是娛樂領(lǐng)域的獨(dú)有實(shí)體,即訓(xùn)練好的NER模型會(huì)把娛樂新聞中出現(xiàn)的人名識(shí)別為明星、導(dǎo)演等細(xì)化角色。三類基本實(shí)體的數(shù)據(jù)來源多為評(píng)測會(huì)議數(shù)據(jù)集,多由新聞文本組成,如表3所示。因此當(dāng)研究領(lǐng)域的數(shù)據(jù)源包含新聞時(shí),待識(shí)別實(shí)體類型需包含以上三類基本實(shí)體。

      表3 公開數(shù)據(jù)集與實(shí)體類型Table 3 Exposed data sets and entity types

      領(lǐng)域數(shù)據(jù)源還包括領(lǐng)域?qū)I(yè)文本,此時(shí)需要根據(jù)專業(yè)文本特點(diǎn)制定實(shí)體規(guī)范。如涉恐、軍事領(lǐng)域的數(shù)據(jù)既包含了互聯(lián)網(wǎng)公開數(shù)據(jù),也囊括了保密數(shù)據(jù)如作戰(zhàn)文書、專業(yè)數(shù)據(jù),如GTD[10](Global Terrorism Database)。表4列出了一些領(lǐng)域的專業(yè)文本來源。領(lǐng)域?qū)I(yè)文本有相關(guān)規(guī)范文件予以背書,識(shí)別需求與任務(wù)關(guān)系明確,將專業(yè)相關(guān)術(shù)語、文獻(xiàn)配合以任務(wù)驅(qū)動(dòng),使得實(shí)體規(guī)范不易產(chǎn)生歧義并能迅速投入標(biāo)注過程。

      表4 領(lǐng)域的專業(yè)數(shù)據(jù)來源Table 4 Professional domain data sources

      2.3 領(lǐng)域?qū)嶓w類型及規(guī)范制定

      DNER需要嚴(yán)格實(shí)體標(biāo)簽,也稱為實(shí)體類型。領(lǐng)域內(nèi)實(shí)體各具特點(diǎn),需制定適應(yīng)實(shí)體識(shí)別框架的領(lǐng)域?qū)嶓w規(guī)范。如圖2所示,確定領(lǐng)域后,若領(lǐng)域數(shù)據(jù)包含新聞?lì)悢?shù)據(jù)源,則實(shí)體類型需要包含三大類基本實(shí)體——person、location、organization在領(lǐng)域場景下的細(xì)化角色;若數(shù)據(jù)來源主要為專業(yè)文獻(xiàn)及出版物,則實(shí)體類型根據(jù)業(yè)務(wù)需求制定。細(xì)化角色的確定及具體的實(shí)體類型規(guī)范由領(lǐng)域?qū)<覅⒖济?guī)范類書籍討論或依據(jù)本體構(gòu)建。

      圖2 中文領(lǐng)域?qū)嶓w規(guī)范Fig.2 Chinese domain entity specification

      實(shí)體規(guī)范制定難點(diǎn)之一在于工業(yè)場景對(duì)于實(shí)體的細(xì)粒度化。細(xì)粒度實(shí)體識(shí)別是在基本實(shí)體范疇下的細(xì)化方案,如person類下的明星實(shí)體。OntoNotes[8]數(shù)據(jù)集最早提出細(xì)化實(shí)體粒度方案,在7大類下制定了45個(gè)子類,為相關(guān)領(lǐng)域具體實(shí)體制定提供了解決思路。表5列出了三類基本實(shí)體的細(xì)化方案,當(dāng)前基本實(shí)體的識(shí)別效果出色,但在具體領(lǐng)域下,盡管識(shí)別的實(shí)體屬于三類的子類,但因子類標(biāo)簽固有的一層語義關(guān)系易使識(shí)別產(chǎn)生混淆,從而對(duì)此類DNER提出了挑戰(zhàn)。

      表5 三大類實(shí)體細(xì)化方案列舉Table 5 Enumeration of detailed schemes for three major categories of entities

      難點(diǎn)二是特定領(lǐng)域內(nèi)實(shí)體標(biāo)準(zhǔn)未被唯一確定,領(lǐng)域語料庫無法融合。表6中的軍事實(shí)體類型的制定依據(jù)均為具有軍事意義的實(shí)體,但差異在于實(shí)體類型名、實(shí)體類數(shù)目、細(xì)粒度實(shí)體定義、數(shù)據(jù)來源的確定,這四點(diǎn)差異使得不同學(xué)者構(gòu)建的軍事實(shí)體語料集和提出的相關(guān)算法無法及時(shí)遷移和比較。

      表6 軍事領(lǐng)域?qū)嶓w細(xì)化方案列舉Table 6 Enumeration of detailed schemes for military entities

      領(lǐng)域?qū)嶓w規(guī)范一般由領(lǐng)域?qū)<覅⒖枷嚓P(guān)專業(yè)規(guī)范根據(jù)業(yè)務(wù)聯(lián)合確定。如表4所示,專業(yè)特征極強(qiáng)、區(qū)分力強(qiáng)的實(shí)體領(lǐng)域包括醫(yī)學(xué)、數(shù)學(xué)等學(xué)科領(lǐng)域,橋梁檢測、航天等工業(yè)領(lǐng)域。醫(yī)學(xué)領(lǐng)域的蛋白質(zhì)、疾病等實(shí)體,化學(xué)領(lǐng)域的有機(jī)物等實(shí)體不屬于三大基本類別,不因數(shù)據(jù)源的不同而產(chǎn)生歧義,同時(shí)有權(quán)威出版規(guī)范加以背書,實(shí)體規(guī)范更易制定,標(biāo)注更易進(jìn)行,面對(duì)新實(shí)體的出現(xiàn)也更易進(jìn)行更新和補(bǔ)充。

      在制定領(lǐng)域?qū)嶓w規(guī)范時(shí)參考與之任務(wù)相近領(lǐng)域的實(shí)體規(guī)范,能夠減少實(shí)體類別歧義,如表7所示,軍事、涉恐領(lǐng)域因涉及國際形勢研判,數(shù)據(jù)源存在交叉,制定出的實(shí)體有相似之處。

      表7 反恐領(lǐng)域?qū)嶓w及數(shù)據(jù)來源Table 7 Entities and data sources in field of counter-terrorism

      基于本體理論[17]制定領(lǐng)域?qū)嶓w類型,以文本結(jié)構(gòu)化為目標(biāo),將提取的實(shí)體作為實(shí)例化本體元素并按照本體結(jié)構(gòu)存入知識(shí)庫中,是知識(shí)庫填充的技術(shù)基礎(chǔ)。有學(xué)者[17]歸納總結(jié)領(lǐng)域知識(shí),構(gòu)建了審判文書本體提取司法領(lǐng)域?qū)嶓w。本體推理技術(shù)的發(fā)展如類的一致性檢查[18],可以避免定義本體直接運(yùn)行后出現(xiàn)的類不一致錯(cuò)誤,在理論層面解決實(shí)體類型之間的矛盾。

      較低的領(lǐng)域?qū)嶓w規(guī)范認(rèn)同度使得人類表現(xiàn)低于深度學(xué)習(xí)NER模型的表現(xiàn)。有學(xué)者提出限制性標(biāo)注原則[19],明確了實(shí)體標(biāo)注不重疊、不嵌套、不包含標(biāo)點(diǎn)符號(hào)。強(qiáng)制規(guī)定實(shí)體不會(huì)跨越標(biāo)點(diǎn)符號(hào)有助于標(biāo)注方案的實(shí)際執(zhí)行,從制定實(shí)體規(guī)范到標(biāo)注工程仍然富含挑戰(zhàn),不僅需要培訓(xùn)專業(yè)標(biāo)注人員保證標(biāo)注不能自相矛盾,還需檢驗(yàn)標(biāo)注數(shù)據(jù)集質(zhì)量。醫(yī)學(xué)領(lǐng)域提出了IAA檢測[20],標(biāo)注后由不同專家進(jìn)行交叉檢驗(yàn),根據(jù)指標(biāo)估計(jì)標(biāo)注體系的合理性,該方法逐漸被其他領(lǐng)域采用。

      綜上可知,DNER的第一步是數(shù)據(jù)源的選取,第二步是根據(jù)任務(wù)需求嚴(yán)格制定實(shí)體類型并制定提取標(biāo)準(zhǔn)。健壯的實(shí)體類型規(guī)范有助于領(lǐng)域語料庫匯集,表3中的評(píng)測會(huì)議數(shù)據(jù)集具有質(zhì)量高但覆蓋領(lǐng)域不全面的特點(diǎn),此時(shí)領(lǐng)域語料集的補(bǔ)充顯得尤為重要。

      2.4 領(lǐng)域標(biāo)注數(shù)據(jù)集的標(biāo)注規(guī)范

      數(shù)據(jù)集標(biāo)注規(guī)范即命名實(shí)體輸入模型前的表示。主要標(biāo)準(zhǔn)標(biāo)注規(guī)范由評(píng)測會(huì)議制定,為多數(shù)研究所認(rèn)可,也可根據(jù)實(shí)體類型自行制定。常見標(biāo)注規(guī)范如下:

      (1)BIO,自CoNLL 2003使用。創(chuàng)新性提出以flagcategory方式進(jìn)行標(biāo)注,B代表實(shí)體首部,B-school表示一個(gè)school實(shí)體首部;I代表實(shí)體內(nèi)部或結(jié)束,I-person表示一個(gè)person實(shí)體內(nèi)部或尾部;O代表非命名實(shí)體,標(biāo)注規(guī)范約束了B-school后應(yīng)為I-school而非I-person。根據(jù)模型需要利用的信息以及原始數(shù)據(jù)集是否需預(yù)先分詞,標(biāo)注粒度可分為詞語級(jí)和字級(jí),如圖3所示。

      圖3 BIO標(biāo)注規(guī)范Fig.3 BIO annotation specification

      (2)BIOES,BIO的擴(kuò)展。在BIO的基礎(chǔ)上,使E表示實(shí)體尾部;I僅表示實(shí)體內(nèi)部成分;S表示由一個(gè)詞或字構(gòu)成的單獨(dú)命名實(shí)體,區(qū)別于B(I*)E形式的復(fù)雜實(shí)體;O含義不變。

      (3)Markup標(biāo)注,為OntoNotes[8]使用,是一種類XML規(guī)范。使用字段設(shè)置類型,表示實(shí)體型實(shí)體標(biāo)簽,表示數(shù)字型實(shí)體標(biāo)簽,如圖4所示。

      圖4 Markup標(biāo)注規(guī)范Fig.4 Markup annotation specification

      有學(xué)者使用中文分詞任務(wù)的BMES標(biāo)注規(guī)范[21]進(jìn)行實(shí)體標(biāo)注,BMES字母含義類似于BIOES;在此基礎(chǔ)上有學(xué)者擴(kuò)充了刑事案件文本實(shí)體標(biāo)簽[22],提出含7個(gè)標(biāo)注符號(hào)的bmelros體系,其中b、e是實(shí)體左右邊界,m是實(shí)體內(nèi)部,l、r分別為實(shí)體左、右提示詞,s和o繼承自BIOES。具體標(biāo)注規(guī)范的選擇由數(shù)據(jù)集及訓(xùn)練方式?jīng)Q定,選擇字或詞來標(biāo)注取決于算法利用字級(jí)別或詞級(jí)別信息。BIOES標(biāo)注規(guī)范因更準(zhǔn)確地指代了實(shí)體的內(nèi)部特征,被證明能提高識(shí)別效率[23],但后續(xù)深度學(xué)習(xí)出現(xiàn)的預(yù)訓(xùn)練語言模型使用了BIO標(biāo)注,BIO與BIOES格式可輕松進(jìn)行轉(zhuǎn)化。

      2.5 領(lǐng)域評(píng)價(jià)指標(biāo)確定

      NER常用評(píng)價(jià)指標(biāo)有precision(精確率)、recall(召回率)、F1,有時(shí)以Micro-F1、Macro-F1來輔助評(píng)定識(shí)別效果。

      對(duì)輸入模型句子中的每一個(gè)token進(jìn)行多分類。NER中的gold_tag代表真實(shí)標(biāo)簽,predict_tag代表預(yù)測標(biāo)簽,若需要識(shí)別出N類實(shí)體,則為任一類實(shí)體i,i∈N,計(jì)算:

      TPi:gold_tag與predict_tag均為i的token數(shù)目。

      TNi:predict_tag、gold_tag均非i的token數(shù)目。

      FPi:predict_tag為i、gold_tag非i的token數(shù)目。

      FNi:predict_tag非i、gold_tag為i的token數(shù)目。

      precision:識(shí)別正確的實(shí)體標(biāo)簽數(shù)量占全部predict_tag標(biāo)簽為該實(shí)體標(biāo)簽標(biāo)記數(shù)量的比例。

      recall:識(shí)別正確的實(shí)體標(biāo)簽數(shù)量占全部gold_tag為該實(shí)體標(biāo)簽的比例。

      Micro-F1:將為每一類實(shí)體i計(jì)算precisioni和recalli時(shí)所需的基礎(chǔ)因子TPi、FPi、FNi加權(quán)求和運(yùn)算得到precisionmicro和recallmicro,并代入F1的運(yùn)算公式。

      由公式可以看出,Micro-F1受各類別實(shí)體數(shù)目分布的影響,若數(shù)據(jù)集中實(shí)體分布不均,則Micro-F1能夠客觀描述提取效果。

      Macro-F1:將所有類別的precision總和與recall總和分別求平均值,并代入F1公式進(jìn)行運(yùn)算。

      由公式可以看出,Macro-F1不考慮各類別實(shí)體數(shù)目具體分布的影響,被具有較高precision和recall的實(shí)體類別所影響。

      由上述計(jì)算公式可知,NER評(píng)估指標(biāo)一般在token級(jí)別上計(jì)算,即在逐字標(biāo)注的基礎(chǔ)上,判斷每個(gè)字與對(duì)應(yīng)答案是否一致,而不考慮字前后是否屬于相同實(shí)體等約束條件。但當(dāng)識(shí)別出的命名實(shí)體被用于下游任務(wù)時(shí),在完整實(shí)體級(jí)別計(jì)算上述指標(biāo)會(huì)更有用。實(shí)體級(jí)別即同時(shí)考慮實(shí)體邊界和實(shí)體類型,在表8所示六種情形下,CoNLL[24]、ACE[25]、MUC[3]、SemEval[26]等評(píng)測會(huì)議規(guī)定了細(xì)致的解決方案。如SemEval提出的精確模式規(guī)定只將情形1計(jì)入識(shí)別正確時(shí)會(huì)導(dǎo)致準(zhǔn)確率較低,可以把情形2、情形3也計(jì)入識(shí)別正確[27]以提高相關(guān)指標(biāo)。某些DNER應(yīng)用只需識(shí)別句子中的實(shí)體邊界即可計(jì)入識(shí)別正確,如影視文本將《紅玫瑰與白玫瑰》識(shí)別為書名或電影名均計(jì)為正確,前提是將這7個(gè)字視為完整實(shí)體。

      表8 實(shí)體標(biāo)注結(jié)果Table 8 Entity labeling results

      綜上所示,若領(lǐng)域內(nèi)沒有公開用于評(píng)測的數(shù)據(jù)集,則同領(lǐng)域內(nèi)不同方法的優(yōu)劣很難在不同數(shù)據(jù)集上比較,誤差可能出現(xiàn)在:

      (1)實(shí)體標(biāo)注種類和數(shù)目的不同。

      (2)評(píng)價(jià)指標(biāo)在計(jì)算實(shí)現(xiàn)上的不同。

      3 中文領(lǐng)域命名實(shí)體識(shí)別技術(shù)發(fā)展

      DNER技術(shù)依賴于NER技術(shù)的發(fā)展。NER從基于詞典、規(guī)則的模式匹配方法,到統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法、深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)方法,再到基于融合其他研究方向先進(jìn)技術(shù)的思想,如應(yīng)用計(jì)算機(jī)視覺(Computer Vision,CV)領(lǐng)域取得成功的圖神經(jīng)網(wǎng)絡(luò),或NLP另一個(gè)子任務(wù)“機(jī)器翻譯”提出的Attention機(jī)制,NER技術(shù)發(fā)展路線如圖5所示。

      圖5 NER技術(shù)發(fā)展路線Fig.5 Technical development route of NER

      3.1 基于詞典和規(guī)則的模式匹配方法

      模式匹配方法應(yīng)用最早,也被稱作NER專家系統(tǒng)方法(Expert System,ES)。ES要求包含專業(yè)最高水平知識(shí),提取專家知識(shí)并將其轉(zhuǎn)換為規(guī)則形式?;谠~典和規(guī)則的模式匹配方法需要領(lǐng)域?qū)<矣烧Z法規(guī)則等構(gòu)造大量的規(guī)則模板,符合ES知識(shí)獲取的定義。

      模式匹配方法包括:

      (1)維護(hù)一個(gè)數(shù)量大且全的詞典,如鑒于少數(shù)民族人名特點(diǎn),有學(xué)者構(gòu)建了維吾爾語人名數(shù)據(jù)詞典進(jìn)行維吾爾語NER[28],若文本中有實(shí)體未被詞典收錄,則手動(dòng)錄入詞典以供下一次識(shí)別。

      (2)在詞典基礎(chǔ)上,增加實(shí)體的構(gòu)造規(guī)則,據(jù)此提取實(shí)體。典型的規(guī)則[1]包括關(guān)鍵詞、位置詞、中心詞等元素。如中文譯名NER[29]利用普通人名的構(gòu)成規(guī)律——全稱如[姓+名],代稱如[姓+職位]、[老(?。誡等模式進(jìn)行識(shí)別;化學(xué)物質(zhì)NER利用化學(xué)物質(zhì)的構(gòu)成模式——化學(xué)介詞+化學(xué)詞頭+化學(xué)符號(hào)[30],使用正則表達(dá)式進(jìn)行化學(xué)物質(zhì)名稱提取。

      基于模式匹配方法的NLP系統(tǒng)如University of Sheffield NLP開發(fā)的NLP框架GATE[31],有著清晰 的NER規(guī)范。GATE下的JAPE組件是一種專屬于GATE的模式匹配語言,編寫語法與正則表達(dá)式相似,由實(shí)體在文本中的特征來確定構(gòu)造規(guī)則。不同的構(gòu)造規(guī)則會(huì)產(chǎn)生沖突,如[武漢市長江大橋]能被分成[武漢市長|江大橋]或[武漢市|長江大橋]等兩種合乎語法規(guī)范的實(shí)體,此時(shí)主要使用基于前向匹配或后向匹配或兩者結(jié)合的算法[32]來解決此類沖突。亦可借鑒英文詞干算法原理[33],統(tǒng)計(jì)實(shí)體出現(xiàn)的頻率作為實(shí)體分割優(yōu)先級(jí)的依據(jù),缺點(diǎn)是不易變通。

      模式匹配方法準(zhǔn)確率高,但眾多實(shí)體識(shí)別規(guī)則的制定依賴領(lǐng)域?qū)<?,領(lǐng)域間基本無復(fù)用。此外,領(lǐng)域詞典需定期維護(hù),不斷涌現(xiàn)的新實(shí)體與實(shí)體的不規(guī)則性使得難以構(gòu)造完備的詞典。即使存在缺點(diǎn),模式匹配方法依舊被應(yīng)用,因?yàn)槟承╊I(lǐng)域?qū)嶓w的規(guī)則可以被窮舉95%以上,規(guī)則仍是提取裁判文書部分實(shí)體[17]的首選,同時(shí)在之后的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)NER模型中加入規(guī)則和字典能夠提高準(zhǔn)確率。

      3.2 基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法

      統(tǒng)計(jì)機(jī)器學(xué)習(xí)時(shí)代,NER的發(fā)展基于大規(guī)模有標(biāo)注語料庫(監(jiān)督數(shù)據(jù)集)的出現(xiàn),從編制全面的不易變通的規(guī)則系統(tǒng)到期待機(jī)器通過大規(guī)模語料庫的訓(xùn)練自動(dòng)識(shí)別語言規(guī)律。語料庫中的語言學(xué)知識(shí)體現(xiàn)在用特征模板來解釋實(shí)體上下文的特征,使機(jī)器理解實(shí)體周圍成分的含義,這稱為特征提取,目的是為了提高統(tǒng)計(jì)模型的準(zhǔn)確率。

      文本特征是指將文本的特點(diǎn)轉(zhuǎn)換成數(shù)值[32]。針對(duì)中國人名識(shí)別和性別判斷問題[32],特征定為名字中是否包含某個(gè)特征字,并將名字用特征表示。如“余秋雨”是一位男性作家,名字由“秋”“雨”組成,但許多女性名字中包含了“雨”字,此時(shí)無法直接通過“雨”字判斷性別,因此將名字表示為多個(gè)特征字的組合,從而讓機(jī)器通過大量語料來學(xué)習(xí)。特征的種類不定,數(shù)量不定,若將中國人名的特征字增加到5個(gè),如表9所示,人名中的單字都從特征字中選取,則“余秋雨”可表示為5維向量[1,1,0,0,0]后再輸入機(jī)器學(xué)習(xí)模型。當(dāng)特征條件包括了所有常用漢字后,就可以給常見人名向量化的特征表示。

      表9 特征模板Table 9 Characteristics of template

      特征模板用來自動(dòng)化提取特征,挑選特征并設(shè)計(jì)特征模板的過程是特征工程[32]。統(tǒng)計(jì)機(jī)器學(xué)習(xí)的NER的關(guān)鍵在于特征選取,這些特征來自于反映某類實(shí)體特性的特征集合。特征集合通過統(tǒng)計(jì)分析訓(xùn)練語料反映了待提取實(shí)體的特性,包括具體的漢字特征、上下文特征、詞典及詞性特征等[34]。有學(xué)者[35]為實(shí)體設(shè)計(jì)了包含只考慮單元素原子特征模板和多原子特征模板結(jié)合的組合特征模板的特征工程,并通過原子特征模板的加入順序驗(yàn)證了特征模板的有效性,得出特征模板并非越多越好的結(jié)論。有學(xué)者提出在訓(xùn)練時(shí)應(yīng)優(yōu)先選擇貢獻(xiàn)度大的特征[36],并證明組合特征模板可以提升系統(tǒng)的性能。同時(shí)一些外部資源如分詞結(jié)果[7]、外部知識(shí)庫如知網(wǎng)[37]也被當(dāng)作特征錄入特征集合中。

      隨著將標(biāo)注語料集和選定的特征模板輸入到隱馬爾科夫模型[38](Hidden Markov Model,HMM)、最大熵[39](Maximum Entropy,ME)、支持向量機(jī)[40](Support Vector Machine,SVM)、決策樹[29](Decision Tree,DT)、條件隨機(jī)場[36](Conditional Random Fields,CRF)等統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型中,NER作為序列標(biāo)注任務(wù)的屬性被固定下來,即通過預(yù)測文本中的每個(gè)字的標(biāo)簽判斷其是否為一個(gè)實(shí)體。

      上述機(jī)器模型各有所長,HMM作為概率圖模型以發(fā)射概率、隱藏概率、初始概率對(duì)應(yīng)了中文人名識(shí)別的角色標(biāo)注[4]問題,使用viterbi算法找到最佳標(biāo)記序。ME在給定數(shù)據(jù)集上選擇一個(gè)模型使未知結(jié)果的分布盡可能與現(xiàn)有分布實(shí)現(xiàn)一致均勻分布。CRF作為生成圖模型,吸收了ME綜合有效語言信息的優(yōu)點(diǎn),不依附于HMM嚴(yán)格的獨(dú)立性假設(shè),并排除了其他非生成圖模型的標(biāo)記偏置缺點(diǎn),逐漸成為DNER應(yīng)用的主要模型。針對(duì)上述優(yōu)缺點(diǎn),有學(xué)者利用模型改進(jìn)思想,利用層疊CRF進(jìn)行旅游領(lǐng)域NER[41]。漢語詞法分析系統(tǒng)ICTCLAs采用層疊HMM[4]去識(shí)別三大類基本實(shí)體,底層實(shí)體識(shí)別的結(jié)果為高層實(shí)體識(shí)別提供特征。

      統(tǒng)計(jì)機(jī)器學(xué)習(xí)的NER受限于高質(zhì)量的大規(guī)模標(biāo)注語料庫以及對(duì)豐富的、不畏懼語料變遷挑戰(zhàn)的特征模板的需要,構(gòu)建特征模板開銷巨大但準(zhǔn)確率會(huì)相應(yīng)提高,因此在后續(xù)NER發(fā)展中,特征工程的保留也可助力實(shí)體識(shí)別。

      3.3 基于深度學(xué)習(xí)的方法

      深度學(xué)習(xí)提供了代替復(fù)雜龐大的特征工程的解決方案,讓機(jī)器自動(dòng)找出潛在的特征模板集合。End-to-End解決問題的思路是將數(shù)據(jù)輸入模型,由模型得到結(jié)果,第一步是如何更好地表示文本。

      3.3.1詞向量與預(yù)訓(xùn)練語言模型發(fā)展

      文本中的詞語最初表示為one-hot編碼向量,即僅以該詞在詞典中的位置作為代表詞語的向量,受制于詞典的覆蓋能力,也無法表示詞語之間的聯(lián)系。將文本表示成機(jī)器能理解的向量而非簡單的數(shù)字組合,是詞向量相對(duì)于one-hot編碼所做的貢獻(xiàn)。

      CV領(lǐng)域利用神經(jīng)網(wǎng)絡(luò)從圖像里提取特征的思路被NLP借鑒。神經(jīng)網(wǎng)絡(luò)語言模型[42](Neural Network Language Model,NNLM)被用來訓(xùn)練詞向量,目的是通過無監(jiān)督訓(xùn)練方法得到合理存在的語句。Word2vec[43]是NNLM后提出的詞向量訓(xùn)練方式,包括兩種訓(xùn)練步驟,分別是根據(jù)中心詞推理上下文窗口內(nèi)單詞的skip-gram和根據(jù)上下文窗口推理中心詞的CBOW。GloVe[44]克服Word2vec只能看到窗口內(nèi)上下文信息的缺點(diǎn),由詞向量共現(xiàn)理論通過矩陣分解利用了全局信息。GloVe和Word2vec根據(jù)后續(xù)任務(wù)的不同而各有優(yōu)勢,如有學(xué)者[40]指出GloVe訓(xùn)練出的詞向量后接SVM效果更好。

      文本詞向量表示后,神經(jīng)網(wǎng)絡(luò)被用來提取向量化的文本特征。CV領(lǐng)域的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)被最早應(yīng)用于NER[45],提取句子級(jí)別的特征。CNN卷積運(yùn)算與文本序列輸入的特征不符,具有時(shí)間序列特征的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)被用于深層次的語義特征提取,為了使未來的狀態(tài)也能預(yù)測當(dāng)前時(shí)刻的輸出,雙向RNN如BI-LSTM[46]、BI-GRU[47]被提出。RNN的訓(xùn)練速度受限于其時(shí)間序列性,CNN模型卷積核權(quán)值共享可降低計(jì)算復(fù)雜度、多卷積核可并行計(jì)算的優(yōu)點(diǎn)被重新重視。有學(xué)者[46]提出了空洞迭代卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,通過疊加CNN擴(kuò)大模型的感受野,提高模型的訓(xùn)練和預(yù)測速度。提取特征后的文本輸入至解碼網(wǎng)絡(luò)得到最佳預(yù)測標(biāo)簽序列。

      如表10所示,一系列預(yù)訓(xùn)練語言模型(Pre-trained Language Model,PLM)的產(chǎn)生使得Word2vec和GloVe這兩種詞向量被稱作靜態(tài)詞向量,無法解決一詞多義現(xiàn)象,訓(xùn)練結(jié)果是一個(gè)固定的詞向量矩陣,不能被動(dòng)態(tài)修改,也就無法真正理解文本語義。PLM通過兩階段來訓(xùn)練詞向量,首先使用NNLM來訓(xùn)練,然后根據(jù)下游任務(wù)進(jìn)行微調(diào)。ELMO為了達(dá)到更好的效果,在第一階段使用BILSTM作為特征提取器提取雙向文本信息;GPT則采用Transformer特征提取器[59]提取單向文本信息,Transformer特征抽取器在機(jī)器翻譯任務(wù)上效果顯著,訓(xùn)練的詞向量可以解決一詞多義;BERT使用Transformer提取雙向文本特征,并采用CBOW方式訓(xùn)練雙向語言模型,通過MLM訓(xùn)練方式隨機(jī)去除文本中的一些實(shí)體去訓(xùn)練語言模型,使得訓(xùn)練效果顯著高于GPT。

      表10 文本向量化表示的發(fā)展Table 10 Development of textual vectorization

      BERT的出色表現(xiàn)使一些學(xué)者開始思考如何降低BERT訓(xùn)練所需的資源而達(dá)到同樣效果,因此RoBERTa[53]、AlBERT[52]、TinyBERT[57]、SpanBERT[56]等PLM被相繼提出。BERT類模型的輸入長度偏短,在生成式任務(wù)如文本摘要上表現(xiàn)不佳,因此XLNet[51]提出了自回歸語言模型和自編碼語言模型來貼合生成式文本規(guī)律,并應(yīng)用Transformer-XL解決長文本特征提取問題。百度提出了ERNIE[55]模型專門訓(xùn)練中文的詞向量,GPT模型也已經(jīng)發(fā)展到了GPT-3[60]。

      3.3.2深度學(xué)習(xí)模型解決NER問題架構(gòu)

      PLM動(dòng)態(tài)訓(xùn)練詞向量使文本獲得更好的向量化表示,進(jìn)而利用特征提取器提取文本特征,再通過解碼器獲得預(yù)測的序列標(biāo)簽,具體如下:

      (1)對(duì)輸入文本基于靜態(tài)詞向量或者動(dòng)態(tài)的PLM進(jìn)行向量化表示(Input Representation,IR),具體分為基于字(character)或單詞(word)的方式,或融合兩種方式的信息(hybrid)進(jìn)行向量化。IR階段需要有效地融合詞和字的信息[61],還可輔助以統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法使用的特征工程。

      (2)文本編碼層(Context Encoder,CE)或序列建模層,對(duì)于IR階段輸出的向量化文本采用特征提取器進(jìn)一步提取文本特征。

      (3)標(biāo)簽解碼層(Tag Decoder,TD),將CE層輸出的向量輸入解碼網(wǎng)絡(luò)得到最佳序列標(biāo)簽。

      圖6 展示了根據(jù)領(lǐng)域文本特征選擇不同的文本向量化方法與特征提取器的組合。Word2vec-BILSTMCRF[62]的組合取得了當(dāng)時(shí)英文NER最佳的效果,之后被應(yīng)用到中文NER中,深度學(xué)習(xí)時(shí)代BERT-BILSTM-CRF的組合[63]也成為了性能提升時(shí)的參照。表11列出的論文標(biāo)題展示了DNER的研究趨勢,符合圖6的深度學(xué)習(xí)模型架構(gòu)。深度學(xué)習(xí)準(zhǔn)確率高,但仍需要大規(guī)模的標(biāo)注數(shù)據(jù)集和高資源的算力,PLM的應(yīng)用對(duì)于小模型的訓(xùn)練是一種負(fù)擔(dān)。

      圖6 深度學(xué)習(xí)模型解決NER架構(gòu)Fig.6 Architecture of deep learning models to solve NER

      表11 基于深度學(xué)習(xí)的論文標(biāo)題Table 11 Titles of paper based on deep learning

      3.4 基于多方融合的深度學(xué)習(xí)方法

      一些NLP書籍[74]將分詞放在NER章節(jié)前,產(chǎn)生一種先分詞再進(jìn)行NER的認(rèn)識(shí),但這兩個(gè)任務(wù)并非嚴(yán)格的前驅(qū)后繼關(guān)系。有學(xué)者將這兩個(gè)任務(wù)都看成序列標(biāo)注問題,采用相同模型[61]進(jìn)行訓(xùn)練,同時(shí)提高兩個(gè)任務(wù)的準(zhǔn)確率,這是多任務(wù)方法解決NER的應(yīng)用。多任務(wù)也被用于關(guān)系抽取,先進(jìn)行NER,將NER識(shí)別結(jié)果輸入關(guān)系抽取模型是關(guān)系抽取的pipeline方法[75]。

      有學(xué)者[75]提出閱讀理解式的解決方案,將實(shí)體規(guī)范編碼成問題代入模型查找實(shí)體,在部分?jǐn)?shù)據(jù)集上取得了較好效果。有學(xué)者[76]提出利用詞典信息的深度學(xué)習(xí)NER框架,具有更高的準(zhǔn)確率,不同于模式匹配方法中詞典信息的利用方式——將文本與詞典碰撞,若存在該詞語就以觸發(fā)詞的方式進(jìn)行識(shí)別,這樣會(huì)存在一些規(guī)則沖突問題。此處是在對(duì)輸入文本進(jìn)行編碼時(shí),將詞典信息作為特征融入到輸入表示中,形成Lattice結(jié)構(gòu)[76]或使用基本圖網(wǎng)絡(luò)[77]、多維圖網(wǎng)絡(luò)[78]來融合詞典信息。為了避免對(duì)CE層進(jìn)行繁瑣的設(shè)計(jì),保持CE層繼續(xù)使用BiLSTM,有學(xué)者[21]提出了soft-lexicon,通過設(shè)計(jì)IR層來利用詞典中的所有詞。在此基礎(chǔ)上FLAT結(jié)構(gòu)[79]被提出,為lattice中的每一個(gè)字再編碼其所屬詞中對(duì)應(yīng)的位置信息。

      3.5 中文領(lǐng)域命名實(shí)體識(shí)別技術(shù)框架

      圖7 給出了DNER的技術(shù)解決框架。首先根據(jù)領(lǐng)域獲得的數(shù)據(jù)集規(guī)模及實(shí)體規(guī)律性選擇使用機(jī)器學(xué)習(xí)方法或模式匹配方法;在大數(shù)據(jù)集前提下,根據(jù)工程量確定是否使用特征工程,特征工程與HMM、SVM等機(jī)器學(xué)習(xí)模型聯(lián)合使用;若不使用特征工程,則利用神經(jīng)網(wǎng)絡(luò)訓(xùn)練詞向量或PLM,領(lǐng)域內(nèi)已訓(xùn)練的詞向量可以被微調(diào)復(fù)用;深度學(xué)習(xí)時(shí)代的NER沒有摒棄規(guī)則或者特征工程等方法,在將詞典信息融合至模型的過程中,還可應(yīng)用Attention機(jī)制[80]、圖神經(jīng)網(wǎng)絡(luò)[77]、遷移學(xué)習(xí)[81]等其他領(lǐng)域的新技術(shù)。

      圖7 領(lǐng)域NER解決框架Fig.7 Domain NER solution framework

      4 中文領(lǐng)域命名實(shí)體識(shí)別發(fā)展

      4.1 應(yīng)用發(fā)展

      DNER系列研究體現(xiàn)了NER既是信息抽取的重要子任務(wù),也是業(yè)務(wù)文本結(jié)構(gòu)化的基本步驟這兩大特點(diǎn),DNER有助于完成以下工作:

      (1)構(gòu)建領(lǐng)域高質(zhì)量標(biāo)注語料庫

      目前研究集中在有監(jiān)督數(shù)據(jù)領(lǐng)域的學(xué)習(xí),CLUENER語料[9]構(gòu)建過程中提到了機(jī)器訓(xùn)練的樣本數(shù)多于人類,是人類表現(xiàn)不如機(jī)器理解樣本標(biāo)簽含義從而表現(xiàn)不佳的理由之一。深度學(xué)習(xí)需要質(zhì)量高的標(biāo)注數(shù)據(jù)集,DNER的研究必然會(huì)為領(lǐng)域貢獻(xiàn)一部分語料知識(shí),如何整合語料促進(jìn)語料融合,從而實(shí)現(xiàn)技術(shù)遷移是當(dāng)前DNER的研究趨勢。同屬領(lǐng)域的不同研究因受限于業(yè)務(wù)的細(xì)節(jié),從而決定了在制定規(guī)范時(shí)實(shí)體類型和數(shù)量的差異,造成子業(yè)務(wù)提取指標(biāo)增加的同時(shí)遷移能力減弱。因此在DNER研究之初,需要構(gòu)思數(shù)據(jù)集及標(biāo)注規(guī)范問題,這也是不可避免的步驟。制定優(yōu)秀強(qiáng)壯的標(biāo)注規(guī)范,借鑒該領(lǐng)域前人的標(biāo)注規(guī)范,或是觸類旁通與子任務(wù)相近領(lǐng)域的實(shí)體制定規(guī)范,充分利用有限的語料,能夠?yàn)镹ER后續(xù)任務(wù)提供幫助。

      (2)能夠構(gòu)建領(lǐng)域知識(shí)庫

      涉恐DNER是為了我國網(wǎng)絡(luò)恐怖信息數(shù)據(jù)庫而構(gòu)建[82],因我國目前還沒有自己的網(wǎng)絡(luò)恐怖信息數(shù)據(jù)庫。隨著在本體概念上構(gòu)建知識(shí)庫的觀念的回歸,在領(lǐng)域本體架構(gòu)下,通過DNER方法提取本體架構(gòu)中的各項(xiàng)實(shí)例并錄入數(shù)據(jù)庫中是可選擇的途徑。知識(shí)庫涉及的內(nèi)容龐雜,但其基礎(chǔ)屬性是由本體的基本單元所構(gòu)成,隨著NER技術(shù)的成熟,新涌現(xiàn)實(shí)體被識(shí)別并被自動(dòng)添加到現(xiàn)有知識(shí)庫中,文本中的關(guān)鍵信息也能被挖掘。在反恐領(lǐng)域,恐怖組織的準(zhǔn)確識(shí)別能夠?yàn)榭植佬蝿莸难信刑峁椭?,可以通過關(guān)聯(lián)恐怖組織周圍實(shí)體關(guān)注動(dòng)態(tài),此外通過提取的反恐領(lǐng)域?qū)嶓w內(nèi)在地構(gòu)成了反恐事件的框架,因反恐實(shí)體標(biāo)簽在定義時(shí)就內(nèi)化了一層與事件的語義關(guān)系信息。一些公司將知識(shí)庫應(yīng)用于搜索查詢?nèi)蝿?wù),并通過知識(shí)庫構(gòu)建相關(guān)比賽促進(jìn)了NER的發(fā)展。

      (3)能夠構(gòu)建領(lǐng)域知識(shí)圖譜

      與構(gòu)建知識(shí)庫的原理相似,知識(shí)圖譜更關(guān)注于智能問答,林業(yè)領(lǐng)域植物知識(shí)圖譜[83]的構(gòu)建是為了林業(yè)病蟲害研究,影視知識(shí)圖譜[84]的構(gòu)建是為了展示作品與影視行業(yè)工作人員、影視公司之間的關(guān)系。知識(shí)圖譜中所包含的基本單元就是有意義的實(shí)體,而知識(shí)庫包含實(shí)體及實(shí)體附加的其他屬性。從實(shí)體流轉(zhuǎn)到知識(shí)庫再到知識(shí)圖譜是被認(rèn)可的路徑。知識(shí)圖譜構(gòu)建技術(shù)不僅在于NER技術(shù)的提升,也需要其他NLP子任務(wù)的協(xié)助,如關(guān)系抽取、實(shí)體鏈接技術(shù)等,這也是多任務(wù)進(jìn)行NER的基本目標(biāo),通過訓(xùn)練同一模型在節(jié)約訓(xùn)練資源的同時(shí)提高多重任務(wù)的效率。

      4.2 研究熱點(diǎn)

      NER的發(fā)展汲取了不同階段的優(yōu)點(diǎn),體現(xiàn)在模式匹配方法仍然可以應(yīng)用在實(shí)體規(guī)律性強(qiáng)的領(lǐng)域,如司法領(lǐng)域提取裁判文書中某些實(shí)體的規(guī)則可以被窮舉90%,以及詞典信息也在更好地融入深度模型架構(gòu);統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法提出的特征工程的概念也輔助應(yīng)用于深度學(xué)習(xí)模型框架,選取分詞、上下文等特征對(duì)輸入信息進(jìn)行編碼,從而提取一些固定模板無法提取的特征;深度學(xué)習(xí)End-to-End的特性通過改變神經(jīng)網(wǎng)絡(luò)架構(gòu)捕捉隱含文本信息,提高準(zhǔn)確率卻耗費(fèi)算力。根據(jù)NER不同發(fā)展階段的特點(diǎn),列舉如下研究熱點(diǎn):

      (1)高質(zhì)量領(lǐng)域數(shù)據(jù)集的獲取。當(dāng)前領(lǐng)域NER數(shù)據(jù)語料缺乏,開展一類新的DNER的首要步驟是領(lǐng)域數(shù)據(jù)集的構(gòu)建。標(biāo)注資源匱乏會(huì)導(dǎo)致大型深度學(xué)習(xí)模型無法有效部署和訓(xùn)練,有標(biāo)注的高質(zhì)量的監(jiān)督數(shù)據(jù)集一定能為深度學(xué)習(xí)助力。在資源限制條件下,需采取其他方法來擴(kuò)大領(lǐng)域數(shù)據(jù)集。國內(nèi)對(duì)于無監(jiān)督領(lǐng)域的學(xué)習(xí)較國外少[85],自學(xué)習(xí)算法[86]和主動(dòng)學(xué)習(xí)[86]分別是兩種利用半監(jiān)督學(xué)習(xí)(少量標(biāo)注樣本)和無監(jiān)督學(xué)習(xí)(大量未標(biāo)注樣本)的算法,其概念來源于CV領(lǐng)域,但這兩種方式并未完全解決標(biāo)注資源緊缺帶來的困難。自學(xué)習(xí)算法會(huì)挑選出與初始部分樣本較相近的樣本,則模型學(xué)習(xí)到新的信息速度變慢,還會(huì)有標(biāo)注錯(cuò)誤的累積問題。主動(dòng)學(xué)習(xí)算法依然通過人力來審查每輪的新標(biāo)注樣本,相當(dāng)于減少了人工標(biāo)注量,但可能會(huì)忽略含有其他豐富信息的樣本。

      (2)促進(jìn)現(xiàn)有領(lǐng)域語料庫的融合以實(shí)現(xiàn)技術(shù)遷移。由于目前一些DNER的研究并非使用了統(tǒng)一語料庫,采用了相同的實(shí)體制定規(guī)范,這對(duì)于大規(guī)模語料庫的構(gòu)建提出了難題,已被訓(xùn)練過的資源無法得到有效擴(kuò)展,無法做到資源共享,這從實(shí)體的規(guī)范制定和標(biāo)注工程兩方面對(duì)DNER提出了要求。

      (3)DNER通用實(shí)現(xiàn)框架的構(gòu)建。在3.3.2節(jié)中探討了DNER對(duì)于通用NER技術(shù)的應(yīng)用可行性,說明了一種深度學(xué)習(xí)時(shí)代DNER研究的一般模式,如使用PLM/Word Embedding-Encoder-Decoder(預(yù)訓(xùn)練語言模型或詞向量-文本編碼-解碼)的模式。由于不同領(lǐng)域?qū)嶓w類型分布及標(biāo)注規(guī)范不同,在不考慮以上差異前提下,論證特定領(lǐng)域NER是否可以采用一種通用方法識(shí)別各領(lǐng)域不同類型的實(shí)體,表11列出題目中的技術(shù)正在應(yīng)用這一模式。除此之外,新模式的嘗試需要各領(lǐng)域的反復(fù)實(shí)踐以驗(yàn)證,通用方法的成熟會(huì)使得表2中部分領(lǐng)域DNER的產(chǎn)出速度加快。

      (4)基于多方融合的深度學(xué)習(xí)時(shí)代NER技術(shù)的提高。首先是多任務(wù)進(jìn)行NER的思想,DNER為下游任務(wù)提供所需實(shí)體,如準(zhǔn)確的DNER是主題詞發(fā)現(xiàn)技術(shù)的基礎(chǔ),有助于實(shí)現(xiàn)領(lǐng)域更友好的分詞,有助于關(guān)系抽取中對(duì)于實(shí)體的準(zhǔn)確定位等,多任務(wù)的共同提高能夠節(jié)約訓(xùn)練資源。其次是將Attention機(jī)制、圖神經(jīng)網(wǎng)絡(luò)、遷移學(xué)習(xí)思想等技術(shù)與現(xiàn)有NER模型架構(gòu)融合,分別對(duì)主體架構(gòu)的某些側(cè)面進(jìn)行改進(jìn),及時(shí)記錄結(jié)構(gòu)的改進(jìn)帶來效果的正負(fù)反饋。

      本文從中文領(lǐng)域命名實(shí)體的概念開始,介紹了開展中文領(lǐng)域命名實(shí)體識(shí)別研究的所需基礎(chǔ)條件,如數(shù)據(jù)集的獲取和實(shí)體規(guī)范的確立,以及所需研究框架,如從模式匹配方法至深度學(xué)習(xí)方法,由于神經(jīng)網(wǎng)絡(luò)在深度學(xué)習(xí)中表現(xiàn)出色,著重介紹了深度學(xué)習(xí)時(shí)代從文本向量化到實(shí)體提取所需的一些模型。NER對(duì)于NLP領(lǐng)域重要性同樣體現(xiàn)在中文DNER的發(fā)展促進(jìn)工業(yè)場景化NLP任務(wù)的提高。目前研究熱點(diǎn)和難點(diǎn)集中在多方融合技術(shù)促進(jìn)實(shí)體提取方法的改進(jìn)與已有研究資源的集合上,DNER的自動(dòng)化發(fā)現(xiàn)新實(shí)體的功能能夠讓人們自動(dòng)地監(jiān)視網(wǎng)絡(luò)中指數(shù)式增長的信息,緩解人力資源的配置。NER技術(shù)不斷推陳出新,促進(jìn)非結(jié)構(gòu)化文本的有效信息自動(dòng)結(jié)構(gòu)化。

      猜你喜歡
      實(shí)體規(guī)范領(lǐng)域
      來稿規(guī)范
      來稿規(guī)范
      PDCA法在除顫儀規(guī)范操作中的應(yīng)用
      來稿規(guī)范
      前海自貿(mào)區(qū):金融服務(wù)實(shí)體
      中國外匯(2019年18期)2019-11-25 01:41:54
      領(lǐng)域·對(duì)峙
      青年生活(2019年23期)2019-09-10 12:55:43
      實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
      兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
      振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
      新常態(tài)下推動(dòng)多層次多領(lǐng)域依法治理初探
      桐乡市| 岳阳县| 澄江县| 西盟| 济源市| 竹山县| 苍南县| 逊克县| 河源市| 龙陵县| 措美县| 南川市| 英德市| 科技| 宁陵县| 兴宁市| 石棉县| 鄂州市| 寿阳县| 鹤庆县| 张家港市| 沁水县| 陇西县| 永顺县| 唐河县| 六安市| 商洛市| 内乡县| 陇南市| 禹州市| 阿鲁科尔沁旗| 孟连| 财经| 抚松县| 吉首市| 苏尼特右旗| 丹东市| 宁海县| 洛宁县| 治县。| 板桥市|