• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于自注意力和Lattice-LSTM的軍事命名實(shí)體識別 *

      2021-10-26 02:11:54李鴻飛劉盼雨
      關(guān)鍵詞:命名注意力實(shí)體

      李鴻飛,劉盼雨,魏 勇

      (1.戰(zhàn)略支援部隊(duì)信息工程大學(xué)地理空間信息學(xué)院,河南 鄭州 450052;2.31008部隊(duì),北京 100091;3.國防科技大學(xué)計(jì)算機(jī)學(xué)院,湖南 長沙 410073)

      1 引言

      命名實(shí)體識別NER(Named Entity Recognition)[1]是自然語言處理的基礎(chǔ)任務(wù),研究成果廣泛用于語義提取、關(guān)鍵詞檢索、計(jì)算機(jī)翻譯和智能問答QA(Question Answering)系統(tǒng)[2]。當(dāng)前,軍事領(lǐng)域已進(jìn)入到信息化聯(lián)合作戰(zhàn)階段,基于傳統(tǒng)非格式化文本的指揮方式已不能適應(yīng)現(xiàn)代作戰(zhàn)指揮需要,數(shù)據(jù)化、甚至代碼化支撐驅(qū)動(dòng)的指揮控制功能成為指揮信息系統(tǒng)不可或缺的組成部分,大量由數(shù)據(jù)驅(qū)動(dòng)的、滿足精確作戰(zhàn)需要的難點(diǎn)問題成為打贏未來戰(zhàn)爭的重要研究內(nèi)容。在上述問題中,通過加強(qiáng)軍事命名實(shí)體識別研究,采用人工智能算法可以以較高精度和速度抽取文本中的重要實(shí)體信息,例如軍銜職務(wù)、軍事機(jī)構(gòu)、武器裝備和時(shí)空區(qū)域等,進(jìn)而把非格式化、半格式化數(shù)據(jù)轉(zhuǎn)變?yōu)榭啥攘?、可?jì)算、可分析的格式化數(shù)據(jù),使軍事數(shù)據(jù)的精算、深算、細(xì)算成為現(xiàn)實(shí)。

      通常NER的研究方法分為3大類:(1) 基于詞典和規(guī)則的方法[3]。在缺少數(shù)據(jù)的小樣本情況下,這種方法精度較高且執(zhí)行效率高,但是該方法對詞典規(guī)模及詞典覆蓋率的依賴性較大,并且規(guī)則的生成代價(jià)是大量時(shí)間和精力消耗[4]。當(dāng)前常用的方法是將通用規(guī)則和機(jī)器學(xué)習(xí)融合使用。(2) 利用機(jī)器學(xué)習(xí)算法。其常用算法和模型包括:條件隨機(jī)場CRF(Conditional Random Field)和支持向量機(jī)SVM(Support Vector Machine)等。(3) 利用深度學(xué)習(xí)策略。深度神經(jīng)網(wǎng)絡(luò)是一種提取潛在信息的多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),每一層的提取結(jié)果都是該字句的一種計(jì)算機(jī)表示,而文本字句的最大特點(diǎn)就是對于計(jì)算機(jī)來說是非量化的數(shù)據(jù)。因此,在大量數(shù)據(jù)的支撐下,利用神經(jīng)網(wǎng)絡(luò)訓(xùn)練生成基于向量嵌入的特征表示,進(jìn)而進(jìn)行NER是當(dāng)前學(xué)術(shù)界正在探索的一種方法。

      目前在英文數(shù)據(jù)NER中,通過雙向長短時(shí)記憶BiLSTM(Bidirectional Long Short-Term Memory)網(wǎng)絡(luò)可以較為準(zhǔn)確地識別出字句中的局部信息,而CRF層將標(biāo)簽的依賴關(guān)系信息提取出來,使得標(biāo)注的工作不再是對每個(gè)詞進(jìn)行分類,取得了較好的識別效果[5,6]。與英文不同,對中文命名實(shí)體識別結(jié)果影響貢獻(xiàn)度最大的是中文分詞的準(zhǔn)確性[3],從對文本分詞到命名實(shí)體識別的過程中可能會存在誤差累積的潛在風(fēng)險(xiǎn),并且分詞不準(zhǔn)確的詞語邊界會造成命名實(shí)體識別的不準(zhǔn)確[7],因此需要提取的重要特征包括分詞中未登錄詞[8]。軍事文本屬于特定領(lǐng)域的文本信息,與普通的文本在很多方面存在差距[9]。軍事語言信息中通常有較多的軍事命名實(shí)體,而這些實(shí)體的語法結(jié)構(gòu)區(qū)別于傳統(tǒng)的語言文本,構(gòu)成都比常見的文本特殊[9]。對中文軍事文本進(jìn)行分詞時(shí),字所包含的語義信息在很大程度上沒有詞包含的信息多,所以字級別的分詞容易導(dǎo)致語義信息缺失。利用某種單一的機(jī)器學(xué)習(xí)訓(xùn)練好的模型進(jìn)行命名實(shí)體識別是多數(shù)研究者采用的方法。在獲取字詞融合信息的過程中,首先是將屬于字詞層次的數(shù)據(jù)輸入到設(shè)置好的模型網(wǎng)絡(luò)結(jié)構(gòu)中,然后通過參數(shù)的迭代更新獲取到隱層嵌入向量信息,最后將隱層嵌入向量組裝在對應(yīng)的詞向量后面,從而在詞層次的命名實(shí)體識別準(zhǔn)確率得到提高。另一方面,為了快速記錄信息,在軍事文本中還存在著在形成文本時(shí)只需要展示主要信息數(shù)據(jù)的現(xiàn)象,其中快速記錄數(shù)據(jù)的規(guī)則和記錄格式是一成不變的[9]。在NER提取特征過程中,基于卷積神經(jīng)網(wǎng)絡(luò)的方法一般只提取全文字詞的全局特征,忽視文本的局部特征,這可能會最終限制模型的總體表現(xiàn)。

      為了解決上述問題,本文提出了Lattice長短時(shí)記憶(Lattice-LSTM)神經(jīng)網(wǎng)絡(luò)與自注意力機(jī)制(self-attention)相結(jié)合的神經(jīng)網(wǎng)絡(luò)模型。Lattice-LSTM[10]結(jié)構(gòu)可以對句中專有名詞進(jìn)行有效提取,并將隱含的字詞特征融合到基于字符的LSTM-CRF模型中[3]。本文通過自行標(biāo)注的小規(guī)模樣本集進(jìn)行實(shí)驗(yàn),結(jié)果表明,本文提出的模型相較于幾種基線模型取得了最優(yōu)結(jié)果。

      2 軍事命名實(shí)體識別框架

      2.1 預(yù)訓(xùn)練模型

      近年來,自然語言處理在預(yù)訓(xùn)練語言模型方面取得了巨大的進(jìn)展,極大地促進(jìn)了文本問答、自然語言推論和文本分類等下游任務(wù)的發(fā)展。預(yù)訓(xùn)練語言模型的核心思想是在大規(guī)模無監(jiān)督語料庫上預(yù)訓(xùn)練一個(gè)語言模型,并在下游目標(biāo)任務(wù)中利用該模型的編碼嵌入表示進(jìn)行訓(xùn)練。這類工作是預(yù)訓(xùn)練詞嵌入工作的延續(xù),主要解決了傳統(tǒng)詞嵌入模型在以下2方面的問題:(1) 傳統(tǒng)詞嵌入模型無法有效處理復(fù)雜的詞匯變形;(2) 傳統(tǒng)詞嵌入模型很難獲取到基于上下文的信息表示。預(yù)訓(xùn)練語言模型可以根據(jù)模型結(jié)構(gòu)、訓(xùn)練方法和使用方法等方面進(jìn)行分類。從模型結(jié)構(gòu)角度來看,預(yù)訓(xùn)練語言模型主要分為基于LSTM的模型和基于Transformer[10]的模型。具體來說,Peters等人[11]提出的ELMo嵌入,其實(shí)質(zhì)是一個(gè)深度雙向LSTM語言模型。McCann等人[12]提出的CoVe嵌入,利用機(jī)器翻譯中的編碼器和解碼器架構(gòu)來學(xué)習(xí)嵌入表示,而編碼器和解碼器這2個(gè)組件都是用深度LSTM模型實(shí)現(xiàn)的。但是,基于LSTM的模型無法有效捕捉長程依賴關(guān)系,且由于梯度爆炸/消失問題無法通過增加網(wǎng)絡(luò)深度來增強(qiáng)模型的容量。為了解決這一問題,Vaswani等人[10]提出Transformer模型,該模型不包含任何循環(huán)單元和卷積單元,完全是通過自注意力和前饋連接構(gòu)建。與LSTM類模型相比,Transformer模型具有捕捉長程依賴關(guān)系、并行編碼速度快以及模型容量大等優(yōu)點(diǎn)?;赥ransformer結(jié)構(gòu),Radford等人[13]提出了單向Transformer結(jié)構(gòu)的GPT模型。在此基礎(chǔ)上,Devlin等人[14]提出了BERT模型,該模型是一個(gè)深度雙向Transformer模型。而Yang等人[15]更進(jìn)一步地提出了XLNet,在BERT模型中融入了雙流自注意力機(jī)制、相對位置編碼和段循環(huán)機(jī)制等技術(shù)。Liu等人[16]提出了RoBERTa,其網(wǎng)絡(luò)結(jié)構(gòu)和BERT一致。從使用方法角度來看,預(yù)訓(xùn)練語言模型又可分為固定參數(shù)和微調(diào)參數(shù)2類。固定參數(shù)類方法是在預(yù)訓(xùn)練過程結(jié)束以后,用預(yù)訓(xùn)練模型編碼輸入以獲得編碼嵌入表示,而模型本身參數(shù)固定,不參與后續(xù)訓(xùn)練。該類方法的好處是可以針對不同任務(wù)設(shè)計(jì)更加有針對性的模型結(jié)構(gòu),并且由于參數(shù)固定的原因訓(xùn)練計(jì)算量更低。而微調(diào)參數(shù)類方法是指在預(yù)訓(xùn)練結(jié)束后,還追加了一個(gè)微調(diào)階段,以便在目標(biāo)任務(wù)上進(jìn)一步地訓(xùn)練模型參數(shù)。這類方法的好處是預(yù)訓(xùn)練模型本身充當(dāng)了編碼器,而研究人員只需引入極少的額外參數(shù)和網(wǎng)絡(luò)結(jié)構(gòu),但缺點(diǎn)是訓(xùn)練計(jì)算量更大。

      按照上述分類,固定參數(shù)類方法包括ELMo和CoVe,微調(diào)參數(shù)類方法包括GPT、BERT、XLNet和RoBERTa等。對于一個(gè)指定的文本,模型的輸入一般由3個(gè)標(biāo)識的特征向量相加得到:第1個(gè)是特征標(biāo)識,通常加在文本頭部,用于表示文本整體的特征信息并用于模型的最終分類;第2個(gè)是分隔標(biāo)識,當(dāng)輸入文本包含2個(gè)句子時(shí)添加在2句之間;第3個(gè)是位置標(biāo)識,通常用于表示指定文本在全文中的位置信息。

      本文采用BERT作為字向量嵌入層,字典使用騰訊訓(xùn)練好的詞向量,騰訊詞向量包含了800多萬中國字詞,其中每個(gè)詞用200維的向量表示。

      2.2 BiLSTM 結(jié)構(gòu)

      循環(huán)神經(jīng)網(wǎng)絡(luò)以一列n維向量X=[x1,…,xn]作為輸入,返回另一列與輸入層中每一步的輸入信息相對應(yīng)的n維向量h=[h1,…,hn]。網(wǎng)絡(luò)的隱藏層可以處理不限長度的語言序列信息,達(dá)到對文本特征的長時(shí)間記憶的效果,學(xué)習(xí)長時(shí)間信息的關(guān)聯(lián)關(guān)系。訓(xùn)練過程中一個(gè)最重要的過程是反向傳播,而反向傳播由于采用冪乘方式進(jìn)行計(jì)算,極其容易出現(xiàn)梯度消失和梯度爆炸現(xiàn)象。不同的神經(jīng)網(wǎng)絡(luò)會采用不同的策略避免和解決這種問題,而其中一種重要的網(wǎng)絡(luò)是長短時(shí)記憶LSTM網(wǎng)絡(luò),對于反向傳播過程中梯度消失等問題,LSTM是采用引入門的策略解決的。這種方法常見于很多的自然語言處理任務(wù)中。LSTM在結(jié)構(gòu)組成上和卷積神經(jīng)網(wǎng)絡(luò)類似,這兩者的區(qū)別在于LSTM的每次循環(huán)計(jì)算過程中設(shè)計(jì)和使用了復(fù)雜的網(wǎng)絡(luò)圖,LSTM的網(wǎng)絡(luò)結(jié)構(gòu)主要由4個(gè)以特殊方式互相影響的門控單元組成。其計(jì)算過程如式(1)~式(6)所示:

      (1)

      (2)

      (3)

      (4)

      (5)

      (6)

      2.3 Lattice-LSTM結(jié)構(gòu)

      本文采用Lattice-LSTM來表示句子中的字典單詞(lexicon word)。基于字符的NER的一個(gè)不足是表征的字詞和字詞位置信息未被有效使用,在實(shí)體識別任務(wù)中這些信息是非常重要的,因此需要借助外部信息源進(jìn)行NER任務(wù)處理,通常利用Lattice-LSTM來表示句子中的字典單詞,將隱含的單詞特征融合到基于字符的LSTM中。本文采用一個(gè)自動(dòng)獲取到的詞典來與句子進(jìn)行匹配,進(jìn)而構(gòu)建基于詞的Lattice,如圖1所示,通過組合輸入文本和詞典構(gòu)造單詞-字符的Lattice結(jié)構(gòu)[3]?;谠~的Lattice是由大規(guī)模經(jīng)過分詞后的中文文本使用BERT訓(xùn)練后自動(dòng)得到的,例如“集團(tuán)”“集團(tuán)軍”“指揮”等。訓(xùn)練輸出的詞典可用于解決上下文中深層的命名實(shí)體問題。模型中的潛在詞序列與主干LSTM模型中相應(yīng)的字符連接,例如 “指” 字的潛在詞匯有 “指揮” 和 “指揮所”,因此當(dāng)計(jì)算 “指” 的向量時(shí)除了考慮“指” 字以外還應(yīng)考慮 “指揮” 和 “指揮所”。

      (7)

      (8)

      (9)

      (10)

      Figure 1 Lattice-LSTM structure圖1 Lattice-LSTM 結(jié)構(gòu)圖

      Figure 2 Lattice model圖2 Lattice 模型

      Lattice-LSTM 對字信息的提取同原始結(jié)構(gòu)一樣,但對于詞主要是通過重新設(shè)計(jì)循環(huán)網(wǎng)絡(luò)單元結(jié)構(gòu),在原網(wǎng)絡(luò)的基礎(chǔ)上加入外部詞典來增強(qiáng)模型對于詞信息的獲取。該模型集成了詞序列信息和用于控制信息流的附加門,如圖2所示。

      (11)

      再將當(dāng)前字計(jì)算出的輸入門和所有詞的輸入門進(jìn)行歸一計(jì)算出權(quán)重:

      (12)

      其中,D表示之前構(gòu)建的字典。

      最后和通常計(jì)算注意力特征向量的方式一樣,利用計(jì)算出的權(quán)重進(jìn)行向量加權(quán)融合:

      (13)

      2.4 Self-attention結(jié)構(gòu)

      正如“注意”一詞所表達(dá)的意思,self-attention結(jié)構(gòu)的重點(diǎn)是給予上下文的局部信息,使模型加強(qiáng)對重要信息的捕捉,減少非必要信息的噪聲影響。簡單來說,將重點(diǎn)放在序列的特定部分,而不是整個(gè)序列來預(yù)測該單詞,不會丟棄編碼器狀態(tài)的中間值,而是利用它從所有狀態(tài)生成上下文向量,以便解碼器給出輸出結(jié)果。作為適用于順序數(shù)據(jù)建模的代表性深度學(xué)習(xí)結(jié)構(gòu),LSTM網(wǎng)絡(luò)結(jié)構(gòu)被視為建立關(guān)注機(jī)制的基礎(chǔ)網(wǎng)絡(luò)。 LSTM的作用是對每個(gè)輸出層在其之前的層上施加的影響權(quán)重的時(shí)間歷史進(jìn)行建模,并且注意力機(jī)制會自適應(yīng)地確定每個(gè)輸出層對最終特征性能的影響。

      自注意力(self-attention)機(jī)制是注意力機(jī)制的一個(gè)特例,也被稱為內(nèi)部注意力機(jī)制(Intra Attention)。Self-attention 的獎(jiǎng)勵(lì)策略是點(diǎn)乘注意力(Scaled Dot-Product Attention)函數(shù)[10],如圖3所示。先通過詞向量Q和K的點(diǎn)乘運(yùn)算來得到每2個(gè)詞之間的相關(guān)性,再利用softmax進(jìn)行歸一化處理,最后對V進(jìn)行加權(quán)求和,如式(14)所示:

      (14)

      Figure 3 Scaled dot-product attention function圖3 點(diǎn)乘注意力函數(shù)

      使用單個(gè)注意力策略并一不定可以達(dá)到理想效果,本文使用多頭注意力(Multi-head Attention)策略[10]從多個(gè)方向?qū)ξ谋倦[含信息進(jìn)行提取,以增加文本表達(dá)信息的力度和強(qiáng)度,如圖4所示。

      Figure 4 Multi-head attention mechanism圖4 多頭注意力機(jī)制

      多頭注意力機(jī)制是將Q、K、V分別通過參數(shù)矩陣進(jìn)行轉(zhuǎn)換,再對轉(zhuǎn)換后的參數(shù)矩陣進(jìn)行點(diǎn)乘。將該過程重復(fù)h次后的結(jié)果進(jìn)行拼接,得到最終的特征信息,其計(jì)算公式如式(15)和式(16)所示:

      (15)

      M(Q,K,V)=Concat(head1,…,headi)Wo

      (16)

      2.5 CRF 結(jié)構(gòu)

      對于命名實(shí)體識別模型,給出最終標(biāo)簽預(yù)測結(jié)果的通常是其組成結(jié)構(gòu)中的網(wǎng)絡(luò)輸出層,其功能是對隱含層輸出的非標(biāo)準(zhǔn)化計(jì)算值進(jìn)行歸一化處理。通俗來講就是將模型對于不同文本屬于各個(gè)標(biāo)簽的得分轉(zhuǎn)化為概率,最終給出分類預(yù)測結(jié)果。但是,每個(gè)標(biāo)簽結(jié)果的概率值計(jì)算是相互獨(dú)立的,局部的標(biāo)簽和上下文信息不會被歸一化函數(shù)計(jì)算進(jìn)去,所以使用歸一化函數(shù)并不是最準(zhǔn)確的策略。為了解決上述問題,CRF避免了沒有考慮附近標(biāo)簽的相關(guān)性的缺點(diǎn),通過融合相關(guān)標(biāo)簽數(shù)據(jù)實(shí)現(xiàn)對句子級信息較為準(zhǔn)確的標(biāo)注。CRF的核心模塊是標(biāo)簽的轉(zhuǎn)移獎(jiǎng)勵(lì)矩陣,該矩陣的作用是利用計(jì)算全局的序列最優(yōu)解對結(jié)果進(jìn)行優(yōu)化,計(jì)算出全局最優(yōu)的序列預(yù)測結(jié)果,在一定程度上彌補(bǔ)了獨(dú)立計(jì)算概率方法的不足。

      對于輸入文本向量,LSTM 輸出的結(jié)果是維度為n*k的矩陣P,其中n是輸入序列的長度,k是定義標(biāo)簽的數(shù)目,p(i,j)表示模型將輸入xi分配給標(biāo)簽yj的得分。對于一個(gè)待預(yù)測的文本序列Y=[y1,…,yn], 其得分定義為:

      (17)

      其中,A(yi,yj)表示第i個(gè)標(biāo)簽到第j個(gè)標(biāo)簽的轉(zhuǎn)移獎(jiǎng)勵(lì)矩陣,y0和yn是句子起始和結(jié)束字符,所以在輸入句子為X產(chǎn)生序列標(biāo)記為y的概率為:

      (18)

      其中,y′代表真實(shí)的標(biāo)簽值。

      在模型權(quán)重更新過程中,使用式(19)和式(20)所示的最大化對數(shù)似然函數(shù):

      (19)

      logP(yx|X)=S(X,yx)-T

      (20)

      3 實(shí)驗(yàn)與結(jié)果分析

      3.1 數(shù)據(jù)集

      針對中文命名實(shí)體識別和實(shí)體關(guān)系的分析研究,本文使用的數(shù)據(jù)集來源于聯(lián)合作戰(zhàn)公共數(shù)據(jù)集的軍事數(shù)據(jù)集,該數(shù)據(jù)集為人工新標(biāo)注的特殊軍事領(lǐng)域數(shù)據(jù)集。本文根據(jù)該數(shù)據(jù)集中文本的特殊性,并結(jié)合經(jīng)典ACE 2005[20]中文數(shù)據(jù)集的實(shí)體類型和實(shí)體關(guān)系類型,定義軍事領(lǐng)域文本數(shù)據(jù)集中的命名實(shí)體和實(shí)體關(guān)系,然后使用人工完成標(biāo)注。軍事特定領(lǐng)域文本標(biāo)注數(shù)據(jù)集中命名實(shí)體的類型共有4種:人名PER(Person)、地名LOC(Location)、機(jī)構(gòu)名ORG(Organization)和裝備EQU(Equipment)。為了更全面地驗(yàn)證本文所提方法的效果,本文也在開放數(shù)據(jù)集 Chinese Resume[6]上進(jìn)行了結(jié)果校驗(yàn)。

      3.2 評價(jià)方法

      為了對命名實(shí)體識別模型的準(zhǔn)確率有客觀和全面的評價(jià),本文使用以下3個(gè)指標(biāo)對人名、地名、機(jī)構(gòu)名和裝備的識別結(jié)果進(jìn)行計(jì)算:準(zhǔn)確率P(Precision)、召回率R(Recall)、F1 值(F1-Score)。對于二分類情況,將測試數(shù)據(jù)集的真實(shí)分類和模型計(jì)算得出的分類進(jìn)行比較,4種指標(biāo)如圖5所示,樣本總數(shù)為TP+FP+FN+TN。對比結(jié)果用混淆矩陣表示。

      Figure 5 Comparison of four prediction types圖5 4種預(yù)測類型對比

      (1)準(zhǔn)確率:正確識別的命名實(shí)體數(shù)占全部識別出來的命名實(shí)體數(shù)的比例:

      P=TP/(TP+FP)×100%

      (21)

      (2)召回率:正確識別的命名實(shí)體數(shù)占數(shù)據(jù)集中命名實(shí)體總數(shù)的比例:

      R=TP/(TP+FN)×100%

      (22)

      (3)F1 值:準(zhǔn)確率和召回率相互影響,很多情況下單一指標(biāo)無法準(zhǔn)確衡量,需要將幾個(gè)指標(biāo)綜合計(jì)算,最常見的就是F1值:

      F1=2×P×R/(P+R)

      (23)

      可見F1值綜合了精確率和召回率的結(jié)果,F(xiàn)1值較高時(shí)說明模型的整體性能較好。

      3.3 實(shí)驗(yàn)設(shè)置

      本文在TensorFlow1.11框架基礎(chǔ)上進(jìn)行實(shí)驗(yàn),該深度學(xué)習(xí)框架被研究人員廣泛應(yīng)用于各類機(jī)器學(xué)習(xí)算法的實(shí)現(xiàn)。使用Python實(shí)現(xiàn)模型的構(gòu)建和訓(xùn)練。本文實(shí)驗(yàn)中字向量和詞向量的維度都是768。采用ADMA 作為優(yōu)化器,訓(xùn)練時(shí)的學(xué)習(xí)率(Learning Rate)為0.01。為了預(yù)防訓(xùn)練過程中發(fā)生梯度爆炸,使用梯度裁剪(Gradient Clipping)技術(shù)并設(shè)置參數(shù)為5。使用隨機(jī)丟棄(dropout)技術(shù)來防止過擬合,值設(shè)為0.5。

      3.4 結(jié)果與分析

      在上述軍事領(lǐng)域?qū)嶒?yàn)樣本集和參數(shù)設(shè)置基礎(chǔ)上,本文選擇 4個(gè)模型進(jìn)行對比實(shí)驗(yàn),表1所示為不同模型的對比實(shí)驗(yàn)結(jié)果。

      Table 1 Comparative experimental results of various models in the military field

      為了將詞級、字級的BiLSTM-CRF 模型性能進(jìn)行比較和分析,第1步是對字級BiLSTM-CRF與詞級BiLSTM-CRF進(jìn)行對照實(shí)驗(yàn),實(shí)驗(yàn)數(shù)據(jù)顯示,字級BiLSTM-CRF模型的準(zhǔn)確率、召回率和F1值分別為88.64%,89.38% 和89.00%,對比詞級BiLSTM-CRF模型分別高出了0.42%,0.88% 和0.62%??梢缘贸鼋Y(jié)論,字級BiLSTM-CRF模型由于能夠更好地利用上下文信息,效果要優(yōu)于詞級BiLSTM-CRF模型。此外還可以發(fā)現(xiàn),Lattice-LSTM 模型相比于字級BiLSTM-CRF與詞級BiLSTM-CRF模型的性能都有不小的提升,說明Lattice-LSTM可以捕獲詞級信息融入模型。為了驗(yàn)證使用預(yù)訓(xùn)練模型BERT提取特征的有效性,設(shè)置了BERT-BiLSTM-CRF 模型。BERT-BiLSTM-CRF 模型與BiLSTM-CRF 模型相比,有不低于2%的準(zhǔn)確度的提升,從這里可以看出 BERT 模型對文本數(shù)據(jù)中字符間的關(guān)聯(lián)提取較為精準(zhǔn),對提升模型的精度發(fā)揮了重要作用。本文在模型 5 中加入了自注意力機(jī)制,即表 1中BERT+Lattice-LSTM+self-attention 模型,其準(zhǔn)確率、召回率、F1值分別達(dá)到了 93.02%,96.58% 和94.76%。相較模型4 中未包含 self-attention 層的模型3項(xiàng)指標(biāo)分別提高了0.9%,1.20% 和1.04%??梢钥吹?,自注意力機(jī)制的引入提升了模型性能,表明了多頭注意力機(jī)制能在多個(gè)不同子空間捕獲上下文信息,從而獲取更豐富的文本內(nèi)部特征信息。

      表2為各模型在Chinese Resume數(shù)據(jù)集上的表現(xiàn)。為了比較的公平性,本文沒有采用BERT訓(xùn)練文本的向量表示,而是采用詞嵌入表示[6]。從表2中可以發(fā)現(xiàn),本文所提模型相較于基準(zhǔn)模型,其準(zhǔn)確率、召回率、F1值都達(dá)到最好的結(jié)果,分別為95.60%,94.88% 和95.23%,說明本文模型識別相關(guān)實(shí)體的有效性。對比 Lattice-LSTM模型[11],本文所提模型準(zhǔn)確率、召回率、F1值分別提高了0.79%,0.77% 和0.77%,同樣表明了Lattice-LSTM結(jié)構(gòu)結(jié)合self-attention的有效性。

      Table 2 Comparative experimental results of each model on Chinese Resume dataset

      4 結(jié)束語

      本文針對軍事命名實(shí)體識別任務(wù)的特點(diǎn),提出了一種基于Lattice-LSTM結(jié)合自注意力機(jī)制的軍事命名實(shí)體識別方法,以BiLSTM-CRF為基線模型,分別對字級BiLSTM-CRF、詞級BiLSTM-CRF、BERT+BiLSTM-CRF、BERT+Lattice-LSTM和BERT+Lattice-LSTM+self-attention 在自建數(shù)據(jù)集上進(jìn)行了對比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明了引入Lattice-LSTM 和自注意力機(jī)制的有效性,此外預(yù)訓(xùn)練模型BERT在模型的總體性能提高方面也有重要作用。

      猜你喜歡
      命名注意力實(shí)體
      讓注意力“飛”回來
      命名——助力有機(jī)化學(xué)的學(xué)習(xí)
      前海自貿(mào)區(qū):金融服務(wù)實(shí)體
      中國外匯(2019年18期)2019-11-25 01:41:54
      有一種男人以“暖”命名
      東方女性(2018年3期)2018-04-16 15:30:02
      為一條河命名——在白河源
      散文詩(2017年17期)2018-01-31 02:34:08
      實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      兩會進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
      振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
      A Beautiful Way Of Looking At Things
      射阳县| 科技| 松潘县| 射洪县| 彭阳县| 尼勒克县| 泗阳县| 怀安县| 英吉沙县| 镇坪县| 基隆市| 阿拉尔市| 米林县| 和静县| 砚山县| 潜江市| 连州市| 杭锦旗| 措勤县| 东兰县| 万全县| 吴忠市| 离岛区| 思茅市| 奉新县| 林周县| 宁安市| 江永县| 彝良县| 洛阳市| 平利县| 雷州市| 清镇市| 友谊县| 磐安县| 平阴县| 安福县| 临沭县| 巩义市| 南昌县| 吉林市|