• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      中文命名實體識別研究綜述

      2024-01-20 08:14:00趙繼貴錢育蓉侯樹祥陳嘉穎
      計算機工程與應(yīng)用 2024年1期
      關(guān)鍵詞:字符命名實體

      趙繼貴,錢育蓉,王 魁,侯樹祥,陳嘉穎

      1.新疆大學(xué) 軟件學(xué)院,烏魯木齊 830000

      2.新疆大學(xué) 新疆維吾爾自治區(qū)信號檢測與處理重點實驗室,烏魯木齊 830046

      3.新疆大學(xué) 軟件工程重點實驗室,烏魯木齊 830000

      4.中國科學(xué)院大學(xué) 經(jīng)濟與管理學(xué)院,北京 101408

      5.新疆大學(xué) 信息科學(xué)與工程學(xué)院,烏魯木齊 830000

      命名實體識別(named entity recognition,NER)是自然語言處理中的一項重要任務(wù),這項任務(wù)最初是在1987年的信息理解會議[1](Message Understanding Conference,MUC)上作為實體關(guān)系分類的子任務(wù)被提出的。NER 的主要目標是確定實體的邊界和類型。它從自然語言文本中識別出具有特定意義的實體,并能夠準確識別它們的類型,這些實體的類型主要包括人名、組織名、地名等,如圖1 所示是NER 實例。NER 主要從非結(jié)構(gòu)化文本中提取有價值的信息,這些信息可應(yīng)用于許多NLP 下游任務(wù)中,如信息檢索[2]、知識圖譜[3]、問答系統(tǒng)[4]、輿情分析[5]、生物醫(yī)學(xué)[6-7]、推薦系統(tǒng)[8]等任務(wù)。

      圖1 NER實例Fig.1 NER identification example

      大多數(shù)命名實體識別都是在英文基礎(chǔ)上進行研究[9],英文的命名實體具有比較明顯的形式標志,對實體邊界的識別比較容易[10],在英文中,單詞之間存在分隔符來識別邊界,每個單詞都有完整的含義。與英文相比,中文命名實體識別任務(wù)較為困難[11]。中文命名實體識別的難點在于:

      (1)詞邊界模糊。中文沒有像英文等語言一樣使用空格或其他分隔符來表示詞邊界,這種特點導(dǎo)致中文命名實體識別面臨著邊界歧義和識別困難的問題。例如,“計算機科學(xué)與技術(shù)系”中“計算機科學(xué)與技術(shù)”是一個復(fù)合詞,邊界不明確。

      (2)語義多樣化。中文存在大量多義詞,一個詞匯可能會被用于不同的上下文中表示不同的含義,因此,命名實體識別模型需要具備更強的上下文理解能力才能正確地將其分類。

      (3)形態(tài)特征模糊。在英語中,一些指定類型的實體的第一個字母通常是大寫的,例如指定人員或地點的名稱。這種信息是識別一些命名實體的位置和邊界的明確特征。在中文命名實體識別中缺乏漢語形態(tài)的顯式特征,增加了識別的難度。

      (4)中文語料庫內(nèi)容較少。命名實體識別需要大量的標注數(shù)據(jù)來訓(xùn)練模型,但中文標注數(shù)據(jù)數(shù)量及質(zhì)量有限,導(dǎo)致命名實體識別模型的訓(xùn)練更為困難。

      針對以上問題,本研究按照中文命名實體識別研究的發(fā)展歷程從基于規(guī)則的方法、基于統(tǒng)計模型的方法和基于深度學(xué)習(xí)的方法三方面進行總結(jié)。

      1 數(shù)據(jù)集及評價指標

      本章主要介紹CNER 數(shù)據(jù)集,包括公共數(shù)據(jù)集、競賽數(shù)據(jù)集、私有數(shù)據(jù)集;其次詳細介紹NER 的標注方案,最后介紹NER的評估指標。

      1.1 CNER數(shù)據(jù)集

      數(shù)據(jù)集提供標準的實體標注信息,用于評估不同算法和模型在中文命名實體識別任務(wù)上的性能表現(xiàn),從而比較不同算法和模型的優(yōu)劣。數(shù)據(jù)集中包含大量的中文文本和相應(yīng)的實體標注信息,可以作為算法和模型的訓(xùn)練、測試和驗證數(shù)據(jù)。高質(zhì)量的數(shù)據(jù)集往往能夠提高模型訓(xùn)練的質(zhì)量和預(yù)測的準確率。通過使用數(shù)據(jù)集進行訓(xùn)練,使得算法和模型具備識別中文命名實體的能力。目前根據(jù)數(shù)據(jù)集的來源和可用性,一般可以將數(shù)據(jù)集分為公共數(shù)據(jù)集,競賽數(shù)據(jù)集以及私有數(shù)據(jù)集[12]。

      常用的中文公共數(shù)據(jù)集如表1所示,在各類數(shù)據(jù)集中包括社交媒體(Weibo)、電子簡歷(RESUME)、新聞(人民日報)等不同來源的語料庫。MSRA 數(shù)據(jù)集由中國微軟亞洲研究院發(fā)布,包含了多種不同的任務(wù),包括中文分詞、命名實體識別、詞性標注等。該數(shù)據(jù)集的標注質(zhì)量較高,是研究和評估中文自然語言處理技術(shù)的重要資源。Weibo 數(shù)據(jù)集是一個包含微博文本的大規(guī)模中文社交媒體數(shù)據(jù)集,由中國新浪公司提供,Weibo 數(shù)據(jù)集規(guī)模較大,具有很高的噪聲和語言變異性,其標注質(zhì)量較差。MSRA 和Weibo 數(shù)據(jù)集是中文命名實體識別中最廣泛使用的語料庫。Resume數(shù)據(jù)集由上市公司高管簡歷處理而成的,具有多樣性、大規(guī)模和結(jié)構(gòu)化的特點。OntoNotes 數(shù)據(jù)集包含新聞、廣播、對話、文學(xué)作品等多種文本類型,包括大量的文本樣本和標注數(shù)據(jù),具有較大的規(guī)模的信息量。如表2 所示是四個通用數(shù)據(jù)集的數(shù)量統(tǒng)計,標注數(shù)量有限,為此CLUE 組織基于清華大學(xué)開源文本分類數(shù)據(jù)集THUCTC,選取部分數(shù)據(jù)進行NER,發(fā)布了CLUENER2020 數(shù)據(jù)集[13],它包含新聞、論壇、微博等領(lǐng)域的中文文本,并標注了人名、地名、組織機構(gòu)名等10 種不同的實體類型,并已完成多項基線模型評估,有望成為未來通用的CNER數(shù)據(jù)集。

      表1 中文命名實體識別數(shù)據(jù)集Table 1 Chinese named entity recognition datasets

      表2 常用公開數(shù)據(jù)集統(tǒng)計Table 2 Common public dataset statistics

      競賽數(shù)據(jù)集的特點通常是數(shù)據(jù)多,且標注精細。包括SIGHAN Bakeoff 2006 數(shù)據(jù)集、DuEE 2021 數(shù)據(jù)集等。其中,SIGHAN Bakeoff 2006數(shù)據(jù)集由中文信息處理國際會議(SIGHAN)組織的中文分詞和命名實體識別競賽而來,包含新聞、文學(xué)、網(wǎng)絡(luò)等領(lǐng)域的中文文本。DuEE 2021 數(shù)據(jù)集由百度公司組織的中文事件抽取競賽而來,包含新聞、微博等不同領(lǐng)域的中文文本,并標注了實體、事件、關(guān)系等信息。

      1.2 標記方案

      在命名實體識別中,通常使用序列標注的方法對輸入的內(nèi)容進行標注,序列標注的方法一般分為兩類:原始標注和聯(lián)合標注。中文命名實體識別任務(wù)中最常見的四個實體標簽是:PER(人物),LOC(地點),ORG(組織),GPE(地緣政治實體)。實體標注的標簽類型如表3所示。

      表3 實體標注類型Table 3 Entity annotation types

      三種常見的實體識別序列標注方法主要是BIO標注、BMES標注以及BIOSE標注方案。除以上三種常見的標注外,還有其他多種實體標注方式如IOB 標注方案。Reimers等人[14]比較了IOB、BIO、BIOES標記方案,提出標簽方案會影響NER性能,并通過實驗表明BIO和BIOES標注方案在NER任務(wù)中的性能要優(yōu)于IOB標注方案。

      1.3 評價指標

      評估NER的性能主要有精確匹配和寬松匹配兩種方式[15]。精確匹配指的是模型輸出的實體與標注數(shù)據(jù)完全匹配,包括實體類型和邊界位置都與標注數(shù)據(jù)完全一致。寬松匹配指的是模型輸出的實體與標注數(shù)據(jù)部分匹配,但是存在誤判或誤漏的情況。相比之下,使用精確匹配的評估方式更合理。通常使用精確度(Precision)、召回率(Recall)和F1分數(shù)(F1-score)來進行評估。

      Precision 指模型正確預(yù)測出的命名實體數(shù)量與所有預(yù)測出的實體數(shù)量的比例,Recall指模型能夠正確識別的命名實體數(shù)量與文本中所有命名實體數(shù)量的比例,F(xiàn)-score 是準確率和召回率的調(diào)和平均值,平衡的F-score是最常用的評估指標。Precision、Recall、F1-score的具體表達式如下:

      2 傳統(tǒng)的中文命名實體識別方法

      傳統(tǒng)的中文命名實體識別的方法主要有兩類:基于規(guī)則的方法、基于統(tǒng)計模型的方法?;谝?guī)則的方法主要依賴于專家設(shè)計的規(guī)則和模板來識別命名實體,通常需要考慮詞性、語法、上下文信息等多個方面的特征,借助這些特征來解決詞邊界劃分模糊以及語義多樣化問題?;诮y(tǒng)計的方法則是通過機器學(xué)習(xí)算法,從大量的語料庫中學(xué)習(xí)輸入的中文的特征和規(guī)律,使用基于特征工程的方法提取輸入文本的形態(tài)特征以達到命名實體識別的目的。

      2.1 基于規(guī)則的方法

      基于規(guī)則的方法具有簡單易用、可解釋性強、適用范圍廣的優(yōu)點?;谝?guī)則的方法根據(jù)一些匹配規(guī)則從文本中選擇匹配的實體,這些規(guī)則主要基于正則表達式或字典。正則表達式由這些特定字符的預(yù)定義特定字符和組合形成,以表達字符串或文本的過濾邏輯。字典由實體集合建立,一般采用的方法是從已有的知識庫、詞典、語料庫等數(shù)據(jù)源中構(gòu)建,根據(jù)標注好的樣本文本,設(shè)計一些匹配規(guī)則,匹配規(guī)則可以基于詞語、詞性、上下文信息等。

      Hanisch等人[16]為解決所考慮的生物體中大量的歧義同義詞,遵循基于規(guī)則的方法提出ProMiner 系統(tǒng),該系統(tǒng)主要利用預(yù)處理的同義詞詞典識別生物醫(yī)學(xué)文本中的蛋白質(zhì)提及和潛在基因。Akkasi 等人[17]利用從訓(xùn)練數(shù)據(jù)集中提取的規(guī)則提出ChemTok 分詞器,實驗結(jié)果表明,在ChemTok輸出上訓(xùn)練的分類器在分類性能和錯誤分割實體的數(shù)量方面優(yōu)于其他的分類器。Quimbaya等人[18]通過提出基于字典的方法對電子健康記錄進行命名實體識別,對可能組合進行評估,結(jié)果顯示,在命名實體的識別過程中,召回率提高明顯,對精確度的影響有限。

      為減輕人工工作量,研究人員通過機器學(xué)習(xí)來制定和生成規(guī)則,如Collins 等人[19]提出的深度學(xué)習(xí)方法CoTrain,通過根據(jù)語料庫對規(guī)則集應(yīng)用無監(jiān)督訓(xùn)練迭代來獲得更多的規(guī)則。王寧等人[20]在金融領(lǐng)域利用規(guī)則的方法對公司名進行識別,根據(jù)金融新聞文本的深入分析總結(jié)出公司名的結(jié)構(gòu)特征及上下文信息,在封閉的測試環(huán)境和開放的測試環(huán)境中準確率分別為97.13%和62.18%。基于規(guī)則的方法根據(jù)特定的領(lǐng)域來制定規(guī)則,在特定的語料庫中能夠取得較高的精度,但是存在規(guī)則制定成本高、規(guī)則泛化性能弱等局限性。

      2.2 基于統(tǒng)計模型的方法

      基于統(tǒng)計模型的方法通過構(gòu)建概率模型來預(yù)測文本中每個詞的實體標記,將命名實體識別問題向序列標注問題轉(zhuǎn)換。經(jīng)典的基于統(tǒng)計的機器學(xué)習(xí)模型已成功用于NER 任務(wù)中,這些模型通常使用基于特征工程的方法來提取特征,然后通過訓(xùn)練學(xué)習(xí)到的模型來預(yù)測命名實體。常用的機器學(xué)習(xí)方法包括:隱馬爾可夫模型[21](hidden Markov model,HMM)、條件隨機場模型[22](conditional random field,CRF)、最大熵模型[23](maximum entropy model,MEM)、支持向量機[24](support vector machine,SVM)等。

      張華平等人[25]提出基于角色標注的中國人名自動識別的方法,采取HMM 方法對分詞結(jié)果進行角色標注,通過對最佳角色序列的最大匹配來識別和分類命名實體,在人民日報數(shù)據(jù)集上取得了95.20%的準確率。張玥杰等人[26]提出一種融合多特征的MEM中文命名實體識別的模型,該模型將規(guī)則和機器學(xué)習(xí)的方法相結(jié)合,能融合局部與全局多種特征,在SIGHAN2008 NER語料庫中F1值達到了86.31%。陳霄等人[27]針對中文組織機構(gòu)名的識別任務(wù)為解決訓(xùn)練數(shù)據(jù)不足的問題,提出一種基于SVM 的分布遞增式學(xué)習(xí)的方法,利用主動學(xué)習(xí)的策略對訓(xùn)練樣本進行選擇,逐步增加分類器訓(xùn)練樣本的規(guī)模,提高了學(xué)習(xí)器的識別精度,實驗表明采用主動學(xué)習(xí)策略的SVM 算法是有效的,在人民日報數(shù)據(jù)集上準確率為81.7%。Hu 等人[28]使用CRF 作為中文NER模型,比較基于字符級和單詞級的兩個不同層次模型的效果,利用不同的訓(xùn)練尺度和特征集來研究模型與訓(xùn)練語料庫的關(guān)系及其利用不同特征的能力。表4 比較了常用的機器學(xué)習(xí)方法的優(yōu)缺點。

      表4 常用基于統(tǒng)計的機器學(xué)習(xí)方法總結(jié)Table 4 Summary of common statistical-based machine learning methods

      傳統(tǒng)的中文名命名實體識別方法包括基于規(guī)則的方法和基于統(tǒng)計模型的方法,相比之下基于規(guī)則的方法適用于對特定領(lǐng)域的實體識別任務(wù),而基于統(tǒng)計模型的方法適用于處理復(fù)雜的實體識別的任務(wù),尤其是在處理大規(guī)模數(shù)據(jù)時具有優(yōu)勢,能更好地挖掘數(shù)據(jù)之間的關(guān)系,提高預(yù)測的準確率。表5 總結(jié)了主流的傳統(tǒng)的CNER模型,統(tǒng)一使用F1值作為評價指標。

      表5 傳統(tǒng)的CNER模型總結(jié)Table 5 Summary of traditional CNER models

      3 基于深度學(xué)習(xí)的中文命名實體識別方法

      深度學(xué)習(xí)方法在圖像識別[34]、語音識別[35]和自然語言處理[36]領(lǐng)域中廣泛應(yīng)用?;谏疃葘W(xué)習(xí)的方法在中文命名實體識別研究中具有準確性高、魯棒性強、可解釋性強以及處理效率高等優(yōu)點,深度學(xué)習(xí)的方法通過大量的訓(xùn)練提取上下文信息之間的語義聯(lián)系,可以解決語義多樣化問題,結(jié)合分詞工具、長短期神經(jīng)網(wǎng)絡(luò)等方法能夠解決詞邊界劃分問題,對提高自然語言處理的水平和應(yīng)用場景的廣泛性具有重要的作用[37]。

      本文從基于深度學(xué)習(xí)的CNER 框架模型的角度進行研究[15],從嵌入層、編碼層、標簽解碼層三個層面進行分析。嵌入層主要將輸入的文本轉(zhuǎn)換為向量的形式表示,將每個單詞或字符映射到一個固定維度的實數(shù)向量上,使得神經(jīng)網(wǎng)絡(luò)能夠更好地處理文本數(shù)據(jù),在嵌入層中包括基于字符、基于詞、基于字符和詞的混合嵌入。編碼層將嵌入層中的向量進行編碼,轉(zhuǎn)換為一組高層次的特征表示,利用神經(jīng)網(wǎng)絡(luò)進行深度學(xué)習(xí),提取特征。標簽解碼層將上下文相關(guān)的表示作為輸入并生成與輸入序列相對應(yīng)的標簽序列。如圖2所示,是基于深度學(xué)習(xí)的CNER的模型基本架構(gòu)。

      圖2 基于深度學(xué)習(xí)的CNER模型架構(gòu)Fig.2 Deep learning based CNER model architecture

      3.1 嵌入層

      傳統(tǒng)的嵌入方式使用One-Hot編碼[38]的方式對輸入文本進行向量化,使用One-Hot 編碼后,每個特征都被表示為一個向量。但這些向量之間沒有明顯的語義聯(lián)系。由于中文是一種高度歧義的語言,單詞或短語在不同上下文中可能會有不同的含義。因此,不能直接使用這些向量來推斷特征之間的語義聯(lián)系,但是分布式表示[39]是自動從文本中學(xué)習(xí)的,它可以自動捕獲標記的語義和語法屬性,能夠從上下文中獲取更多的信息,提高對實體的識別準確性。按照分布式表示將嵌入層分為基于字符的模型、基于詞的模型和混合模型。

      3.1.1 基于字符的模型

      基于字符的模型將單詞表示為字符序列的方法,它通過輸入文本的字符級別表示,不需要明確的詞邊界信息,可以更好地處理CNER中的邊界模糊問題?;谧址哪P途哂锌梢蕴幚砦粗男略~匯、對于拼音或漢字形式相似的實體具有一定的魯棒性的優(yōu)點。

      為解決相鄰字符之間強聯(lián)系的問題,Zhang 等人[40]提出一種新的動態(tài)嵌入方法,該方法使用注意力機制來組合嵌入層中的字符和單詞向量特征。基于單個字符特征的序列標注方法被廣泛應(yīng)用于中文命名實體識別任務(wù),改善單個字符的表示方法,可提高實體識別的性能。為此,羅輝等人[41]提出了一種面向?qū)嶓w識別任務(wù)的中文字符表示方法,將這種字符表示輸入到BiLSTMCRF實體識別模型中進行實體識別,證明了所提出的字符表示方法有效性?;谧址哪P痛嬖诓荒軘y帶語義信息、難以處理歧義詞的缺點[42]。

      3.1.2 基于詞的模型

      基于詞的模型是將中文數(shù)據(jù)集的文本以詞語的形式作為輸入,借助分詞系統(tǒng)[43]對數(shù)據(jù)集進行分詞?;谠~的模型可以捕捉到詞與詞之間的語義關(guān)系,在處理一些長詞匯的實體時具有良好的效果?;谠~的模型存在分詞錯誤和在處理不規(guī)則的詞以及新詞時比較困難的缺點。

      為解決不能利用長距離語境信息的問題,Chen 等人[44]提出一種用于詞分割的+新型神經(jīng)網(wǎng)絡(luò)模型,該模型采用長短期記憶神經(jīng)網(wǎng)絡(luò),將之前的重要信息保存在記憶單元中,避免了局部上下文窗口大小的限制。Ma等人[45]使用雙向LSTM、CNN 和CRF 的組合,提出一種中性網(wǎng)絡(luò)結(jié)構(gòu),自動從單詞和字符級別的表示中獲益,實現(xiàn)了端到端的NER,不需要特征工程或數(shù)據(jù)預(yù)處理,能適用于廣泛的序列標簽任務(wù)。在中文電子病歷命名實體識別任務(wù)中,張華麗等人[46]為了消除傳統(tǒng)命名實體識別方法高度依賴人工提取特征不足,結(jié)合詞嵌入技術(shù)將電子病歷文本序列進行詞向量化表示,設(shè)計了雙向長短時記憶(Bi-LSTM)網(wǎng)絡(luò)與條件隨機場(CRF)結(jié)合的網(wǎng)絡(luò)模型,并在聯(lián)合網(wǎng)絡(luò)的基礎(chǔ)上添加注意力機制,從而優(yōu)化實體識別準確率。

      3.1.3 混合模型

      混合模型是將基于字符的模型和基于詞的模型結(jié)合起來,由于基于字符的模型存在字與字之間語義提取缺失問題,基于詞的模型存在分詞錯誤的問題,同時將字符和詞作為嵌入表示可以使模型具有較好的魯棒性和識別精度。Zhang 等人[47]提出Lattice LSTM 模型,首次將詞典信息融入到基于字符的模型中,與基于字符的方法相比,該模型明確地利用單詞和單詞序列信息。與基于詞的方法相比,該模型不會受到分割錯誤的影響。Liu 等人[48]提出WC-LSTM 模型,該方法將詞信息添加到詞的起始或結(jié)束字符中,在獲取詞邊界信息的同時減輕分詞錯誤的影響,并且探索出四種不同的策略,將單詞信息編碼為固定大小的表示形式,以實現(xiàn)高效的批量訓(xùn)練。

      隨著預(yù)訓(xùn)練模型[49]的蓬勃發(fā)展,被應(yīng)用于許多研究領(lǐng)域。預(yù)訓(xùn)練的語言模型在NLP 研究中可以捕獲有利于下游任務(wù)的豐富知識,例如長期依賴關(guān)系、層次關(guān)系等。NLP 中預(yù)訓(xùn)練的主要優(yōu)點是預(yù)訓(xùn)練過程中有無限數(shù)量的訓(xùn)練數(shù)據(jù),需要標注的數(shù)據(jù)量大大降低,降低訓(xùn)練成本[50]。其中基于Transformer 的雙向編碼(bidirectional encoder representations from Transformer,BERT)模型[51]是中文命名實體識別中最常用的預(yù)訓(xùn)練模型,BERT 模型可以考慮整個輸入句子的上下文信息,有助于提高模型對命名實體的理解和識別準確性。對于給定的字符,BERT將其字符位置嵌入、句子位置嵌入和字符嵌入作為輸入連接起來,然后使用掩碼語言模型[52]對輸入句子進行深度雙向表示預(yù)訓(xùn)練,以獲得強大的上下文字符嵌入。

      Jia 等人[53]是第一個研究如何利用輸入文檔文本的規(guī)模來增強NER 的人,使用CharEntity-Transformer 將實體信息集成到BERT中,該模型使用字符和實體表示的組合來增強自注意力。Chang 等人[54]提出一種基于BERT 的命名實體識別方法,構(gòu)建一個BERT-BiLSTMIDCNN-CRF模型,使用BERT進行預(yù)訓(xùn)練,將訓(xùn)練好的詞向量輸入雙向長短期記憶網(wǎng)絡(luò)和迭代擴張卷積網(wǎng)絡(luò)進行特征提取。然后結(jié)合兩個神經(jīng)網(wǎng)絡(luò)的輸出特征,最后通過條件隨機場對預(yù)測結(jié)果進行修正,實驗結(jié)果表明了預(yù)訓(xùn)練模型Bert 在處理文本嵌入起著重要作用。楊飄等人[55]利用BERT 預(yù)訓(xùn)練生成詞向量,提出了基于BERT的BERT-BIGRU-CRF模型,在MSRA中文數(shù)據(jù)集上進行測試獲得了不錯的結(jié)果,F(xiàn)1值達到了95.43%。

      表6 是嵌入層的分布式輸入模型的優(yōu)缺點以及一些代表模型的總結(jié)。

      表6 嵌入層輸入分布式模型總結(jié)Table 6 Summary of embedded layer input distributed models

      3.2 編碼層

      編碼層主要是將嵌入層輸入的文本轉(zhuǎn)換成一個高維的特征向量,方便后續(xù)的分類器對文本進行分類。中文命名實體識別的目標是學(xué)習(xí)一個好的特征表示,使得模型能夠?qū)χ形奈谋具M行命名實體識別。在中文命名實體識別的編碼層中通常是采用卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)和Transformer 等其他類型的網(wǎng)絡(luò)來提取特征,建立上下文關(guān)系。

      3.2.1 卷積神經(jīng)網(wǎng)絡(luò)

      卷積神經(jīng)網(wǎng)絡(luò)[60](convolutional neural network,CNN)是一種常用的深度學(xué)習(xí)模型,CNN最初是為計算機視覺研究開發(fā)的,但它已被證明可以有效地捕獲具有卷積運算的n-gram(單詞或字符嵌入)的信息語義特征[61]。CNN 通過卷積操作從局部特征中提取更高級別的特征,能夠有效地處理文本中的依賴關(guān)系。

      Goodfellow等人[62]提出一個具有多個Softmax分類器的CNN 模型,其中每個分類器負責(zé)多位數(shù)輸入圖像中每個順序位置的字符預(yù)測。Jaderberg 等人[63]引入一種新的基于條件隨機場(CRF)的CNN 模型,共同學(xué)習(xí)用于場景文本識別的字符序列預(yù)測和二元生成。為充分利用GPU并行性,Gui等人[64]提出基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的方法,該方法使用重新思考機制結(jié)合詞典對并行匹配的句子進行建模,實驗結(jié)果表明,該方法的識別效率更快。史占堂等人[65]為解決命名實體識別任務(wù)時存在一字多詞、增加額外存儲與詞典匹配時間等問題,提出一種CNN-Head Transformer編碼器(CHTE)模型,利用不同窗口大小的CNN獲取Transformer中6個注意力頭的Value 向量,使CHTE 模型在保留全局語義信息的同時增強局部特征和潛在詞信息表示,提升了Transformer在命名實體識別領(lǐng)域的性能表現(xiàn)。

      3.2.2 循環(huán)神經(jīng)網(wǎng)絡(luò)

      循環(huán)神經(jīng)網(wǎng)絡(luò)[66](recurrent neural network,RNN)是一種用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),它在時間上是有狀態(tài)的,可以利用前面的上下文信息來預(yù)測出當前的輸出,核心思想是通過引入“循環(huán)”來處理序列數(shù)據(jù),使網(wǎng)絡(luò)能夠記住之前的狀態(tài),并將這些狀態(tài)作為輸入影響后續(xù)的輸出。Quyang 等人[67]提出一種用于CNER 的深度學(xué)習(xí)模型,該模型采用雙向RNN-CRF架構(gòu),使用連接的n-gram字符表示來捕獲豐富的上下文信息。但是RNN在處理長序列是容易出現(xiàn)梯度消失或爆炸的問題,導(dǎo)致神經(jīng)網(wǎng)絡(luò)難以學(xué)習(xí)到長期依賴的關(guān)系。為了解決這些問題,后續(xù)研究人員提出一些改進的RNN 結(jié)構(gòu)。Dong等人[37]將雙向LSTM-CRF神經(jīng)網(wǎng)絡(luò)用于CNER,該網(wǎng)絡(luò)同時利用字符級和部首級表示,是第一個研究BLSTMCRF架構(gòu)中的中文部首級表示,并且在沒有精心設(shè)計的功能的情況下獲得更好的性能,在MSRA 數(shù)據(jù)集上F1分數(shù)達到了當時最先進的性能90.95%。

      3.2.3 Transformer

      Transformer是一種深度神經(jīng)網(wǎng)絡(luò)模型,由谷歌團隊在2017 年提出的神經(jīng)網(wǎng)絡(luò)模型[68],它只基于注意力機制,而不是采用循環(huán)和卷積,旨在解決序列到序列的自然語言問題,在中文命名實體識別中取得不錯的性能,且將訓(xùn)練時間大幅度壓縮。

      Transformer的核心組成部分是自注意力機制[69],它能夠在一個序列中計算每個元素與其他元素的關(guān)聯(lián)性,從而為序列中的每個元素賦予權(quán)重,進而實現(xiàn)上下文感知。Transformer由編碼器和解碼器組成,其中編碼器將輸入序列映射到隱藏表示,解碼器則將隱藏表示轉(zhuǎn)化為輸出序列。Yan等人[70]提出TENER模型,這是一種采用自適應(yīng)Transformer Encoder 的NER 架構(gòu),用于對字符級特征和單詞級特征進行建模。Li 等人[71]提出FLAT:FLAT-lattice transformer 模型,將晶格結(jié)構(gòu)轉(zhuǎn)換為由跨度組成的平面結(jié)構(gòu),利用Transformer 的強大功能和精心設(shè)計的位置編碼,可以充分利用晶格信息,并且具有出色的并行化能力。

      3.3 解碼層

      解碼層是NER 模型最后的階段,主要任務(wù)是將上下文表示作為輸入并生成與輸入序列相對應(yīng)的標簽序列,目前主流方法有兩種:MLP+Softmax與CRF。

      3.3.1 多層感知器+歸一化指數(shù)函數(shù)

      多層感知器[72](multilayer perceptron,MLP)是一種由多層感知機或神經(jīng)元組成的神經(jīng)網(wǎng)絡(luò)。當MLP在輸出層使用歸一化指數(shù)函數(shù)(Softmax)[73]作為激活函數(shù)時,通常使用交叉熵[74]損失來訓(xùn)練它,交叉熵損失是輸入的預(yù)測概率分布和真實概率分布之間的差異的度量。MLP使用線性變換和非線性激活函數(shù)的組合來計算輸入文本中每個單詞的每個可能的實體類的分數(shù)。Softmax激活函數(shù)被應(yīng)用于MLP的最后一層的輸出,從而在每個單詞的可能實體類上產(chǎn)生概率分布。在訓(xùn)練期間,訓(xùn)練MLP 以最小化輸入的預(yù)測概率分布和真實概率分布之間的交叉熵損失。目標是調(diào)整MLP神經(jīng)元的權(quán)重和偏差,使每個單詞的預(yù)測實體類概率與真實標簽匹配。在推理過程中,MLP 用于預(yù)測輸入文本中每個單詞最可能的實體類。這可以通過為每個單詞選擇具有最高預(yù)測概率的實體類來實現(xiàn)。然后可以使用得到的實體標簽來提取輸入文本中的命名實體并對其進行分類。

      3.3.2 條件隨機場

      條件隨機場(CRF)模型[75]作為一種判別式概率模型,可以直接建模序列標注任務(wù)中標簽之間的依賴關(guān)系,能夠有效地解決標簽之間的沖突和歧義問題。CRF模型通常會利用已經(jīng)預(yù)測出的局部標簽序列,通過對全局標簽序列的建模,來計算全局最優(yōu)的標簽序列,提高序列標注的準確性和魯棒性。

      在CNER任務(wù)中,通常將經(jīng)過神經(jīng)網(wǎng)絡(luò)輸出的每個單詞的概率分布作為CRF 的輸入特征,并將CRF 輸出的每個標簽分配給相應(yīng)的單詞。CRF 通常使用基于特征的方法來建立輸入和輸出標簽之間的條件概率分布,這些特征可以是當前單詞的特征(如詞性、詞向量等),也可以是前后相鄰單詞之間的特征(如詞性標注、命名實體類型等)。

      基于深度學(xué)習(xí)的中文命名實體識別屬于端到端的模型,模型可以通過參數(shù)自動調(diào)節(jié),規(guī)避多模塊模型中模塊之間相互影響產(chǎn)生偏差的弊端,同時也降低了模型的復(fù)雜度。除了從基于CNER框架模型的結(jié)構(gòu)嵌入層、編碼層、標簽解碼層進行研究之外,基于深度學(xué)習(xí)的中文命名實體識別還從基于神經(jīng)網(wǎng)絡(luò)、序列標注模型、基于前饋和雙向模型、基于注意力機制、引入外部知識,以及直接使用大規(guī)模預(yù)訓(xùn)練模型進行實體識別。常用于命名實體識別領(lǐng)域的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)有:卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)以及它們的變體長短期記憶網(wǎng)絡(luò)、雙向長短期記憶網(wǎng)絡(luò)和門控循環(huán)單元等。為了提高中文命名實體識別的精度,一些模型引入了外部知識,如詞典、知識庫等。這些外部知識可以幫助模型更好地理解文本中的命名實體,并更準確地識別出它們。趙浩新等人[76]直接利用中文筆畫序列生成字向量,旨在模擬筆畫構(gòu)造漢字的規(guī)律,以此來增強漢字的特征表示,從而提升命名實體識別的效果。為將詞匯信息的特征添加到基于字符嵌入的模型中,閆河等人[77]提出了一種結(jié)合詞匯信息特征的中文命名實體識別方法,采用帶有殘差連接的門控空洞卷積網(wǎng)絡(luò)提取序列局部特征來表示詞匯信息特征,并添加句子級注意力機制來增強網(wǎng)絡(luò)的長序列建模能力,通過稀疏注意力機制將得到的全局和局部特征進行結(jié)合,去除特征融合中的冗雜信息,輸出包含詞匯信息特征的文本特征,證明了結(jié)合詞匯信息在中文命名實體識別的精度上提升的有效性。表7 總結(jié)近五年來基于深度學(xué)習(xí)的CNER模型,并統(tǒng)計在MSRA數(shù)據(jù)集和Weibo數(shù)據(jù)集上的表現(xiàn),其中使用F1分數(shù)作為主要評價指標。

      表7 近五年基于深度學(xué)習(xí)的CNER模型總結(jié)Table 7 Summary of CNER model based on deep learning in last five years

      4 CNER的研究趨勢

      4.1 擴充CNER的語料庫

      相比于英文的命名實體識別,中文的命名實體識別的語料庫是比較少的,擴充中文的語料庫是CNER未來研究的趨勢之一[98-99]?,F(xiàn)有的CNER語料庫在規(guī)模上仍然比較有限,需要更多的數(shù)據(jù)來訓(xùn)練更精準的模型,在網(wǎng)絡(luò)上爬取大量的文本數(shù)據(jù),并利用人工標注的方法來構(gòu)建更大規(guī)模的CNER 模型庫。高質(zhì)量的數(shù)據(jù)集對NER模型的訓(xùn)練和測試是至關(guān)重要的,可以通過對現(xiàn)有的CNER 語料庫利用人工智能技術(shù)自動糾錯來改善CNER語料庫的質(zhì)量。對于某些特定領(lǐng)域的命名實體,現(xiàn)有的CNER 語料庫可能不足以提供足夠的訓(xùn)練數(shù)據(jù)??梢钥紤]利用領(lǐng)域?qū)<抑R來構(gòu)建領(lǐng)域特定的CNER語料庫,從而提高模型在該領(lǐng)域的性能。

      4.2 嵌套實體抽取

      NER的任務(wù)通常不考慮嵌套實體問題,但通過對于大量中文文本信息的分析和調(diào)查,發(fā)現(xiàn)嵌套實體出現(xiàn)在具體文本中的概率相當大,每個實體對應(yīng)多個標簽,所以嵌套實體抽取CNER 未來研究的一個熱點和難點。在處理嵌套實體時,通常使用神經(jīng)網(wǎng)絡(luò)模型識別文本中的實體,并預(yù)測它們之間的嵌套關(guān)系。此外,一些基于規(guī)則的方法和基于超圖的方法也被用來解決嵌套實體抽取的問題。未來在處理中文嵌套NER 時,可以考慮利用嵌套實體的內(nèi)部實體和外部實體的信息,從底層文本中獲取更細粒度的語義信息,實現(xiàn)更深入的文本理解。

      4.3 多模態(tài)命名實體識別

      目前信息呈現(xiàn)出多模態(tài)化,如何將這些多模態(tài)化的信息進行實體抽取成為一大研究熱點。多模態(tài)的命名實體識別是指在多個模態(tài)的輸入數(shù)據(jù)中同時識別命名實體。這些模態(tài)可以是文本、圖像、語音或視頻等。多模態(tài)的命名實體識別可以更全面地理解和分析多媒體數(shù)據(jù),從而提高自然語言處理、計算機視覺和語音識別等領(lǐng)域的信息抽取應(yīng)用效果。Arshad 等人[100]提出一個端到端模型,學(xué)習(xí)文本和圖像的聯(lián)合表示。實驗表明,該模型能夠以更高的精度捕獲文本和視覺上下文,在Twitter 多模態(tài)命名實體識別數(shù)據(jù)集上表現(xiàn)出最先進的性能。Zhang 等人[101]為MNER 提出一種基于去偏差對比學(xué)習(xí)的方法,該方法通過跨模態(tài)對比學(xué)習(xí)增強的模態(tài)對齊,對比學(xué)習(xí)采用了硬樣本挖掘策略和去偏差的對比損失來緩解數(shù)量和實體類型的偏向,分別從全局上學(xué)習(xí)對齊文本和圖像的特征空間。多模態(tài)的命名實體識別在實際應(yīng)用中具有廣泛的應(yīng)用前景,在智能語音助手[102]、智能駕駛[103]、智能醫(yī)療[104]等領(lǐng)域中,多模態(tài)的命名實體識別可以幫助系統(tǒng)更好地理解用戶的意圖和需求,提高系統(tǒng)的智能化程度。

      4.4 在垂直領(lǐng)域的應(yīng)用

      隨著中文命名實體識別技術(shù)的不斷提升,中文命名實體識別在垂直領(lǐng)域有著越來越廣泛的應(yīng)用。在金融領(lǐng)域,CNER 可以用于識別金融新聞中的公司名稱、股票代碼等信息,幫助投資者及時獲取最新的市場信息。此外,CNER還能夠用于識別金融交易中的實體及其關(guān)系,幫助風(fēng)險管理和監(jiān)管部門對金融市場進行監(jiān)管。在醫(yī)療領(lǐng)域,CNER 可以用于識別醫(yī)學(xué)文獻中的疾病、藥品、治療方法等實體,幫助醫(yī)生快速獲取最新的醫(yī)學(xué)信息,并進行診斷和治療。同時,CNER 還可以用于識別醫(yī)療記錄中的患者信息、醫(yī)生信息等實體,幫助醫(yī)療機構(gòu)管理和數(shù)據(jù)分析。在法律領(lǐng)域,CNER可以用于識別法律文書中的人名、地名、組織機構(gòu)名等實體,幫助律師和法官快速獲取相關(guān)信息,進行案件分析和裁決。將成熟的中文命名實體模型應(yīng)用到垂直領(lǐng)域能給人們的生活帶來極大的便捷。

      5 結(jié)束語

      近年來,隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,中文命名實體識別算法的精度得到了大幅的提升,并且不斷有新的方法被提出。但是當前中文命名實體識別研究仍然存在著許多挑戰(zhàn)和問題,如語料庫數(shù)據(jù)較少、嵌套實體抽取困難以及多模態(tài)實體抽取等。未來的研究方向應(yīng)該聚焦于解決這些問題,提高中文命名實體識別算法的準確性和效率,同時拓展其應(yīng)用范圍,使其能夠更好地滿足實際應(yīng)用的需求。

      猜你喜歡
      字符命名實體
      尋找更強的字符映射管理器
      命名——助力有機化學(xué)的學(xué)習(xí)
      字符代表幾
      前海自貿(mào)區(qū):金融服務(wù)實體
      中國外匯(2019年18期)2019-11-25 01:41:54
      一種USB接口字符液晶控制器設(shè)計
      電子制作(2019年19期)2019-11-23 08:41:50
      消失的殖民村莊和神秘字符
      有一種男人以“暖”命名
      東方女性(2018年3期)2018-04-16 15:30:02
      為一條河命名——在白河源
      散文詩(2017年17期)2018-01-31 02:34:08
      實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
      振興實體經(jīng)濟地方如何“釘釘子”
      明水县| 临沂市| 富蕴县| 伊宁市| 濉溪县| 扶绥县| 孟村| 宜章县| 台南县| 玉门市| 林口县| 巩义市| 藁城市| 什邡市| 彰武县| 陆河县| 安宁市| 微博| 大厂| 利川市| 宁强县| 沐川县| 桂平市| 河东区| 苏尼特左旗| 仁布县| 芜湖市| 孝昌县| 广河县| 永胜县| 搜索| 海南省| 宁德市| 胶南市| 政和县| 景德镇市| 广南县| 天峻县| 宾川县| 达日县| 宁远县|