• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于預(yù)訓(xùn)練模型的軍事領(lǐng)域命名實(shí)體識(shí)別研究

      2022-10-27 14:52:52童昭王露笛朱小杰杜一
      關(guān)鍵詞:語料命名軍事

      童昭,王露笛,朱小杰,杜一

      中國科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心,北京 100083

      引言

      近年來,隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,以神經(jīng)網(wǎng)絡(luò)為代表的人工智能算法為部隊(duì)信息化與智能化建設(shè)提供了一種有效的手段。知識(shí)圖譜[1]作為描述真實(shí)世界中實(shí)體和概念以及他們之間關(guān)系的一種工具,能夠?qū)?fù)雜、海量的數(shù)據(jù)整合在一起,利用圖譜中的關(guān)系和節(jié)點(diǎn)描述語義關(guān)聯(lián)信息。知識(shí)圖譜中的實(shí)體是知識(shí)庫中的基本單位,同時(shí)也是構(gòu)建圖譜的核心要素,通過命名實(shí)體識(shí)別任務(wù)中包含的實(shí)體,為知識(shí)圖譜構(gòu)建提供知識(shí)支撐。為了從海量的信息中抽取有價(jià)值的數(shù)據(jù),發(fā)掘隱藏的應(yīng)用價(jià)值,通常需要用到自然語言處理(Natural Language Processing,NLP)技術(shù),而NLP 中應(yīng)用最廣泛的就是命名實(shí)體識(shí)別(Named Entity Recognition,NER)技術(shù)。命名實(shí)體識(shí)別是指從非結(jié)構(gòu)的文本數(shù)據(jù)集中抽取出結(jié)構(gòu)化的信息,并分類到預(yù)先定義的,如人名、地名、組織機(jī)構(gòu)名等特定類別中。傳統(tǒng)的命名實(shí)體識(shí)別任務(wù)主要分為三大類(實(shí)體類、時(shí)間類和數(shù)字類),或者更具體的七小類(人名、地名、機(jī)構(gòu)名、地點(diǎn)、時(shí)間、日期、貨幣和百分比)[2]。命名實(shí)體識(shí)別是實(shí)現(xiàn)信息抽取、搜索推薦等自然語言處理中的基礎(chǔ)任務(wù),命名實(shí)體的準(zhǔn)確識(shí)別可以促進(jìn)智能問答、知識(shí)圖譜構(gòu)建等下游任務(wù)的研究。本文的研究目標(biāo)是以自建的軍事語料作為數(shù)據(jù)支撐,以準(zhǔn)確高效地識(shí)別軍事命名實(shí)體為目標(biāo),利用深度學(xué)習(xí)的算法作為技術(shù)手段,為后續(xù)戰(zhàn)場信息情報(bào)獲取、知識(shí)圖譜構(gòu)建等提供支持,進(jìn)一步加速軍事作戰(zhàn)指揮的智能化轉(zhuǎn)型。

      軍事命名實(shí)體識(shí)別涉及的實(shí)體范疇遠(yuǎn)遠(yuǎn)不止傳統(tǒng)命名實(shí)體識(shí)別的三大類和七小類,由于軍事命名實(shí)體的構(gòu)成有其自己獨(dú)特的命名法則和規(guī)律,對(duì)于這類實(shí)體的識(shí)別需要同時(shí)兼顧語言的規(guī)律性和軍事特征,因此本文的研究重點(diǎn)是識(shí)別帶有軍事領(lǐng)域特色的實(shí)體。相較于開放式傳統(tǒng)三大類和七小類的實(shí)體識(shí)別,需要構(gòu)建模型識(shí)別特定的軍事領(lǐng)域?qū)嶓w。本文將識(shí)別的實(shí)體分為五類:組織機(jī)構(gòu)、型號(hào)、行為、起飛地、目的地。軍事實(shí)體識(shí)別的任務(wù)可以描述為:首先,將軍事文本語料進(jìn)行預(yù)處理;然后,從中提取句子特征;最后,將特征輸入到實(shí)體識(shí)別模型中,從而識(shí)別出具有特定意義的軍事實(shí)體。

      通過調(diào)研已有文獻(xiàn),軍事領(lǐng)域的實(shí)體識(shí)別的通常做法是借鑒通用領(lǐng)域的主流方法和思想,再根據(jù)軍事語料中識(shí)別實(shí)體的特點(diǎn)進(jìn)行一些適應(yīng)性的改進(jìn)。根據(jù)選取主流方法的不同,可以分為:基于模板規(guī)則匹配的方法[2]、基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法[3]和基于深度學(xué)習(xí)的方法[4]。近年來,鑒于深度學(xué)習(xí)強(qiáng)大的學(xué)習(xí)能力和表達(dá)能力,越來越多的研究者開始開展基于深度神經(jīng)網(wǎng)絡(luò)的研究,通用做法之一是將神經(jīng)網(wǎng)絡(luò)模型與CRF 結(jié)合。由于NER 任務(wù)在自然語言處理中屬于序列標(biāo)注模型,所以通常使用BiLSTM[5]作為序列標(biāo)注模型的特征提取網(wǎng)絡(luò)。在處理中文文本時(shí),為了避免分詞造成的語義歧義,常采用以字符向量作為輸入序列。對(duì)軍事領(lǐng)域的命名實(shí)體識(shí)別的優(yōu)化通常是在特征處理階段,例如加入字或者詞的相關(guān)特征即可對(duì)識(shí)別效果有較大的提升[6]。而對(duì)于神經(jīng)網(wǎng)絡(luò)模型的優(yōu)化,文獻(xiàn)[7]提出一種層疊式的識(shí)別方法:該方法首先結(jié)合軍事目標(biāo)及屬性特點(diǎn),采用樹結(jié)構(gòu)定義層級(jí)式目標(biāo)及屬性實(shí)體、活動(dòng)要素及屬性實(shí)體,細(xì)化實(shí)體類別粒度,依據(jù)層級(jí)式特點(diǎn)對(duì)語料進(jìn)行標(biāo)注,然后采用標(biāo)簽約束轉(zhuǎn)移矩陣優(yōu)化后的BiLSTM-CRF 模型進(jìn)行實(shí)體識(shí)別,實(shí)現(xiàn)細(xì)粒度更高的實(shí)體與關(guān)聯(lián)屬性識(shí)別。除此之外,有研究把長短期記憶網(wǎng)絡(luò)模型(Long Short Term Memory,LSTM)結(jié)構(gòu)替換為更容易訓(xùn)練的門循環(huán)控制模型(Gate Recurrent Unit,GRU)結(jié)構(gòu)[8],同時(shí)研究人員加入注意力機(jī)制[9],在一定程度上提升了神經(jīng)網(wǎng)絡(luò)模型的識(shí)別性能。

      本文針對(duì)中文命名實(shí)體識(shí)別準(zhǔn)確率低的問題,提出一種BERT-BiLSTM-CRF 的模型。首先,本文未使用傳統(tǒng)的Word2vec 算法生成詞向量的表示,而使用表達(dá)能力更強(qiáng)的BERT 模型生成詞向量的特征表示,將其得到的表示序列輸入BiLSTM 網(wǎng)絡(luò),獲得上下文的全局特征表示,最終經(jīng)過CRF 模塊進(jìn)行最優(yōu)標(biāo)簽序列的提取。本文在自建的開源軍事語料數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),驗(yàn)證本文提出的方法的有效性,同時(shí)加入多種baseline 實(shí)驗(yàn)進(jìn)行對(duì)比分析,結(jié)果表明,在命名實(shí)體識(shí)別任務(wù)中,本文提出的BERT 模型方法在一定程度上解決了邊界劃分問題,同時(shí)解決了在數(shù)據(jù)集不足的情況下實(shí)體識(shí)別任務(wù)表現(xiàn)不佳的問題。

      1 基于BERT 模型的軍事命名實(shí)體識(shí)別模型

      1.1 實(shí)體分類

      由于軍事語料不同于傳統(tǒng)通用的命名實(shí)體識(shí)別,所以首先需要建立軍事領(lǐng)域內(nèi)的命名實(shí)體的分類體系。結(jié)合開源語料數(shù)據(jù)情況并加入專家經(jīng)驗(yàn)與知識(shí),本文將識(shí)別的目標(biāo)實(shí)體分為五類:國家、型號(hào)、行為、起飛地、目的地。針對(duì)軍事業(yè)務(wù)實(shí)際需求,在對(duì)通用性與軍事領(lǐng)域數(shù)據(jù)的特點(diǎn)深入分析的基礎(chǔ)上,建立了能夠準(zhǔn)確、全面描述各類型軍事知識(shí)的實(shí)體表征模型,可對(duì)復(fù)雜多樣、動(dòng)態(tài)演化、時(shí)空性強(qiáng)的軍事知識(shí)要素進(jìn)行表征。五類軍事領(lǐng)域目標(biāo)實(shí)體具體的類型名稱、代號(hào)和示例如表1所示。

      表1 目標(biāo)實(shí)體分類Table 1 Target Entity Classification

      五類實(shí)體中,組織機(jī)構(gòu)指的是不同國家的軍種簡稱,如美空軍、美海軍;型號(hào)指的是采取行為的主體作戰(zhàn)型號(hào),如KC-135R 加油機(jī);行為是指在每一條非結(jié)構(gòu)化的軍事語料中的主體所采取的行動(dòng),如返回基地;起飛地是指主體起飛地點(diǎn),如南海;目的地是指主體最終所要抵達(dá)的終點(diǎn),如沖繩嘉手納基地。

      1.2 模型架構(gòu)

      本研究中模型構(gòu)建的思路是使用預(yù)訓(xùn)練語言模型獲取中文單字的字向量,利用字向量中的語言規(guī)律和語義知識(shí)輔助軍事實(shí)體的識(shí)別,以提升實(shí)體識(shí)別的性能。同時(shí)融合字的含邊界詞性特征,進(jìn)一步優(yōu)化神經(jīng)網(wǎng)絡(luò)模型的輸入。

      本文結(jié)合BERT 預(yù)訓(xùn)練模型[10]的上下文深層語義編碼、BiLSTM 神經(jīng)網(wǎng)絡(luò)的序列解碼和CRF 的序列標(biāo)注,構(gòu)建BERT-BiLSTM-CRF 實(shí)體識(shí)別框架,整體框架結(jié)構(gòu)如圖1所示,該框架以文本中的字序列、語義塊、字位置及其詞性序列為輸入,輸出為每一個(gè)字對(duì)應(yīng)的目標(biāo)類型的標(biāo)簽序列。下文依次對(duì)模型的各個(gè)模塊進(jìn)行詳細(xì)分析。

      圖1 模型架構(gòu)圖Fig.1 Model architecture

      1.2.1 BERT 層

      傳統(tǒng)使用Word2vec 的方式去訓(xùn)練詞向量,雖然訓(xùn)練得到的向量可以表示詞語之間的關(guān)系,但這種方式的一個(gè)缺點(diǎn)是詞和詞之間的表示是一一對(duì)應(yīng)的靜態(tài)關(guān)系,無法根據(jù)上下文的語境對(duì)輸入序列進(jìn)行動(dòng)態(tài)的表示,也正因?yàn)榇?,使用Word2vec 得到的詞向量會(huì)對(duì)NER 效果產(chǎn)生重要影響。

      BERT 模型作為深度雙向語言表征模型,被視為一種替代靜態(tài)詞向量表示的方案,它通過利用維基百科等大規(guī)模的語料數(shù)據(jù)進(jìn)行自監(jiān)督學(xué)習(xí)的訓(xùn)練,使用一種稱為雙向的Transformer 編碼結(jié)構(gòu),使得模型能夠獲取輸入文本中的語義信息,接下來對(duì)BERT模型做詳細(xì)研究分析。

      1.2.1.1 輸入和輸出層

      根據(jù)下游任務(wù)的不同,BERT 模型的輸入序列可以單句形式出現(xiàn),也可以語句對(duì)的形式成對(duì)出現(xiàn)。在本文中,BERT 的輸入為具有連續(xù)語義的自然文本。在BERT 中首先會(huì)對(duì)輸入文本進(jìn)行預(yù)處理,在文本開頭和句子之間分別插入[CLS]和[SEP]符號(hào)。其次,對(duì)于最終的向量表示,BERT 使用字符的嵌入向量、分割向量和位置向量疊加得到,其中字符的嵌入向量是輸入序列中每個(gè)字符本身的向量表示;分割向量用于區(qū)分每一個(gè)字符屬于句子A 還是句子B。如果輸入序列只有一個(gè)句子,就只是用EA 表示;位置向量編碼了輸入中每個(gè)字符出現(xiàn)的位置。這些向量均在訓(xùn)練過程中通過學(xué)習(xí)得到。對(duì)于BERT 模型的輸出同樣也有兩種形式,一種是字符級(jí)別的向量表示,對(duì)應(yīng)著輸入中的每個(gè)字符;另一種輸出形式是句子級(jí)別的語義向量,即整個(gè)句子的語義表示。在本文的研究中,BERT 模型的輸出采用了第一種形式,即輸入序列的每個(gè)字符都有對(duì)應(yīng)的向量表示,該輸出接著作為輸入傳遞給后序模塊進(jìn)行進(jìn)一步的處理。

      1.2.1.2 Transformer 編碼層

      在BERT 模型中使用了多層雙向的Transformer編碼器對(duì)輸入的序列數(shù)據(jù)進(jìn)行編碼,其模型結(jié)構(gòu)圖如圖2 所示:其中每個(gè)Trm對(duì)應(yīng)一個(gè)單元的編碼器,E1,E2,...,En是模型的輸入,為字符向量,T1,T2,..,Tn為模型的輸出向量。

      圖2 BERT 預(yù)訓(xùn)練語言模型Fig.2 BERT Pre-trained language model

      從結(jié)構(gòu)來說,BERT 是將多個(gè)Transformer 編碼器堆疊進(jìn)行特征提取,而Transformer 編碼器是由Self-Attention 層和前向神經(jīng)網(wǎng)絡(luò)組成。Self-Attention的核心計(jì)算公式如下所示:

      公式中Q,K,V是由矩陣Wq,WK,WV相乘可得,而Wq,WK,WV為可學(xué)習(xí)的模型訓(xùn)練參數(shù)。舉例來說,當(dāng)計(jì)算某個(gè)詞語對(duì)其他詞語的重要度時(shí),讓當(dāng)前單詞的Q向量與其余單詞的K向量進(jìn)行點(diǎn)積數(shù)學(xué)運(yùn)算。對(duì)點(diǎn)積計(jì)算的結(jié)果使用這樣做的目的是減少語句長短對(duì)語句重要度的影響,同時(shí)也為了讓訓(xùn)練時(shí)梯度更加穩(wěn)定。隨后將計(jì)算得到的結(jié)果分值經(jīng)過softmax層得到一維的概率向量。使用Soft-Attention機(jī)制的意義是不僅可以完成對(duì)上下文的重要度進(jìn)行編碼,同時(shí)解決了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)長依賴的問題,加速了模型的計(jì)算能力。

      基于上述的分析,我們可以總結(jié)出BERT 模型具有以下優(yōu)點(diǎn):

      (1)BERT 在進(jìn)行詞向量表示的過程中充分結(jié)合編碼詞的上下文,克服了目前大多數(shù)詞向量生成機(jī)制的單向性問題。

      (2)使用基于Transformer 作為特征提取器,底層使用Attention 機(jī)制編碼,增強(qiáng)了模型的并行計(jì)算能力,縮短了訓(xùn)練時(shí)間。

      1.2.2 BiLSTM 層

      BiLSTM 層是由一個(gè)前向LSTM 網(wǎng)絡(luò)和后向LSTM 組成,相比于LSTM,BiLSTM 可以分別獲得兩個(gè)方向的上下文特征。在得到BERT 層的輸出后,BiLSTM 層會(huì)將句子的字向量序列作為各個(gè)時(shí)間的輸入,通過反向傳播算法,模型自動(dòng)提取句子中的語義特征,學(xué)習(xí)符合上下文語境語義信息,softmax函數(shù)給出當(dāng)前單詞對(duì)預(yù)設(shè)標(biāo)簽的標(biāo)簽概率?;贐iLSTM 的上下文特征抽取模型的結(jié)構(gòu)如圖3 所示。

      圖3 BiLSTM 模型架構(gòu)圖Fig.3 BiLSTM architecture

      LSTM 層的主要結(jié)構(gòu)可以表示公式:

      其中,σ 是sigmod函數(shù),i、f、o和c分別表示輸入門、遺忘門、輸出門和記憶單元;?是點(diǎn)積運(yùn)算,W和B代表輸入門、遺忘門和輸出門的權(quán)重矩陣和偏置向量;Xt指的是t時(shí)刻的輸入,同時(shí)是對(duì)于表示層的輸出。

      1.2.3 CRF 層

      在神經(jīng)網(wǎng)絡(luò)的輸出層,一般是用softmax函數(shù),而對(duì)NER 這種序列任務(wù)建模時(shí),CRF 層的作用是對(duì)BiLSTM 網(wǎng)絡(luò)的輸出進(jìn)行編碼和規(guī)約,得到具有最大概率的合理預(yù)測(cè)序列。CRF 使用的是條件隨機(jī)場,是一種根據(jù)輸入序列預(yù)測(cè)輸出序列的判別式模型。給定輸入X,輸出預(yù)測(cè)結(jié)果y的計(jì)算公式如下所示:

      其中,Ayi, yi+1表示從標(biāo)簽yi轉(zhuǎn)移到y(tǒng)i+1的概率值,yi為y中的元素。pi,y表示第i個(gè)詞語標(biāo)記為yi的概率值。在給定輸入X情況下,輸出預(yù)測(cè)結(jié)果y的概率公式為:

      其中,x表示能夠組成的所有標(biāo)簽,y表示真實(shí)標(biāo)簽。模型的目標(biāo)是最大化p(y|X),在訓(xùn)練時(shí)通過求解似然函數(shù)如下:

      在訓(xùn)練時(shí),根據(jù)公式最大化得分結(jié)果:

      2 實(shí)驗(yàn)結(jié)果和分析

      2.1 實(shí)驗(yàn)數(shù)據(jù)

      針對(duì)軍事領(lǐng)域的命名實(shí)體識(shí)別問題,本文提出了一種基于預(yù)訓(xùn)練模型BERT 的軍事領(lǐng)域命名實(shí)體識(shí)別方法。本文針對(duì)軍事領(lǐng)域中的軍事情報(bào)數(shù)據(jù),以開源數(shù)據(jù)作為訓(xùn)練語料。對(duì)組織機(jī)構(gòu)、型號(hào)、行為、起飛地、目的地等五類目標(biāo)進(jìn)行識(shí)別,驗(yàn)證本文所提出模型的正確性與有效性。

      目前由于軍事語料領(lǐng)域的特殊性,并未有開源的軍事語料以供訓(xùn)練。同時(shí)在軍事語料領(lǐng)域缺乏統(tǒng)一的標(biāo)注方法,本文利用網(wǎng)絡(luò)爬蟲技術(shù)構(gòu)建訓(xùn)練數(shù)據(jù)集,采用開源的工具Doccano[18]和專家知識(shí)進(jìn)行數(shù)據(jù)預(yù)處理與標(biāo)注,構(gòu)建中文軍事領(lǐng)域開源情報(bào)訓(xùn)練數(shù)據(jù)集。

      本實(shí)驗(yàn)利用爬蟲工具從公開權(quán)威的軍事網(wǎng)站上搜集得到開源軍事新聞?wù)Z料,來源包括國防科技信息網(wǎng)、網(wǎng)易軍事、環(huán)球網(wǎng)軍事、新浪軍事等。從新聞網(wǎng)頁上采集語料時(shí)以“軍情動(dòng)態(tài)”、“軍事速遞”為主題詞,在爬取數(shù)據(jù)完成后,首先,對(duì)文本數(shù)據(jù)中不符合主題的“臟數(shù)據(jù)”進(jìn)行數(shù)據(jù)預(yù)處理的操作,以文本的形式保留在本地磁盤。然后,按照統(tǒng)一的數(shù)據(jù)規(guī)范進(jìn)行“數(shù)據(jù)治理”,具體做法是通過正則表達(dá)式將爬蟲獲取后與網(wǎng)頁相關(guān)的符號(hào)、標(biāo)記等刪除,語料爬取完成后,需要對(duì)良莠不齊的文本進(jìn)行分辨,篩選不符合主題的文本將其去除,選取其中高質(zhì)量、相關(guān)度較高的文本,以純文本的格式保存至本地,按照統(tǒng)一的規(guī)范進(jìn)行預(yù)處理,通過代碼編寫正則表達(dá)式將文本內(nèi)容中無用的網(wǎng)頁符號(hào)、網(wǎng)頁標(biāo)簽和特殊字符剔除掉,將繁體字轉(zhuǎn)換為正常的簡體中文字符,以及統(tǒng)一全半角字符,將文本按句進(jìn)行拆分,每一行代表一句,同時(shí)要求長度不得超過LSTM 設(shè)置的最大長度。

      由于軍事領(lǐng)域的命名實(shí)體標(biāo)注尚未確定統(tǒng)一的標(biāo)準(zhǔn),故本文實(shí)驗(yàn)對(duì)已構(gòu)建的小量的數(shù)據(jù)集采取人工標(biāo)注并校正的方法。數(shù)據(jù)的標(biāo)注采用BMEO 四段標(biāo)記法:對(duì)于每個(gè)實(shí)體,將其第一個(gè)字標(biāo)記為“B-實(shí)體類型”,非首位字符標(biāo)記為“M-實(shí)體類型”,結(jié)尾的標(biāo)記為“I-實(shí)體類型”,對(duì)于無關(guān)字一律標(biāo)記為O。本文實(shí)驗(yàn)需要識(shí)別的軍事實(shí)體共包括5種類型,數(shù)據(jù)經(jīng)過BMIO 標(biāo)注處理后共分15 類,如表2 所示:(B-ORG,M-ORG,E-ORG,B-VER,M-VER,E-VER,B-ACT,M-ACT,E-ACT,B-TAF,M-TAF,E-TAF,B-DES,M-DES,E-DES,O,)。同時(shí)為保證訓(xùn)練時(shí)采用的長度一致(均為256×1維),因此需要額外添加了一個(gè)占位符。

      表2 目標(biāo)實(shí)體分類Table 2 Target entity Classification

      2.2 結(jié)果評(píng)價(jià)指標(biāo)

      實(shí)驗(yàn)采用自然語言處理領(lǐng)域3個(gè)通用的評(píng)測(cè)指標(biāo),準(zhǔn)確率P、召回率R 和F1 值(F-score),其中F1 值可以體現(xiàn)整體的測(cè)試結(jié)果,計(jì)算公式如下:

      最終采用以上3種性能評(píng)測(cè)指標(biāo)的加權(quán)平均值作為實(shí)驗(yàn)的性能評(píng)測(cè)指標(biāo)。

      2.3 實(shí)驗(yàn)設(shè)置

      本文基于BERT-BiLSTM-CRF 的實(shí)體識(shí)別模型是使用BERT 進(jìn)行語料字符級(jí)別特征向量的獲取,使用BiLSTM 針對(duì)字向量進(jìn)行上下文的特征提取,借文本中長依賴的問題,最后使用CRF 層進(jìn)行輸出標(biāo)簽的規(guī)約限制,最終獲得全局的最優(yōu)標(biāo)簽序列。基于BERT-BiLSTM-CRF 的參數(shù)設(shè)置如表3 所示。

      表3 參數(shù)配置表Table 3 Parameter Configuration

      2.4 實(shí)驗(yàn)結(jié)果和分析

      為驗(yàn)證模型在軍事語料領(lǐng)域識(shí)別的正確性與有效性,在實(shí)驗(yàn)階段設(shè)計(jì)了對(duì)比實(shí)驗(yàn),在相同數(shù)據(jù)集上針對(duì)不同的模型選取合適的模型超參數(shù)進(jìn)行微調(diào)。選取的對(duì)比模型有:

      CRF:本文以文獻(xiàn)[17]提出的基于CRF 的面向軍事文本的命名實(shí)體識(shí)別模型作為基線對(duì)比實(shí)驗(yàn),建立融合詞特征、詞性特征、英文字母和短橫線以及數(shù)字的組合特征、左右邊界詞特性和中心詞特性的多種特征模板,使用公開的CRF++0.58 訓(xùn)練工具進(jìn)行模型的訓(xùn)練和效果預(yù)測(cè)。

      HMM:本文以文獻(xiàn)[11]提出的基于HMM 作為軍事命名實(shí)體識(shí)別的對(duì)比實(shí)驗(yàn),構(gòu)建狀態(tài)集合、觀測(cè)集合以及狀態(tài)轉(zhuǎn)移矩陣,并使用開源的Scikit-Learn 開源的機(jī)器學(xué)習(xí)框架構(gòu)建。

      BiLSTM:BiLSTM[12]的網(wǎng)絡(luò)模型是使用雙向的LSTM 網(wǎng)絡(luò)構(gòu)建特征提取器,并使用開源的Scikit-Learn[13]開源的機(jī)器學(xué)習(xí)框架構(gòu)建。

      BiLSTM-CRF:本文以文獻(xiàn)[14]提出的基于BiLSTM-CRF 網(wǎng)絡(luò)模型的結(jié)構(gòu)作為對(duì)比實(shí)驗(yàn)。采用Google 開源的詞向量工具Word2vec[15]方法訓(xùn)練的字符界別的特征向量,通過在字嵌入層上進(jìn)行Dropout處理來防止訓(xùn)練模型過擬合,并將該字向量的結(jié)果作為BiLSTM 網(wǎng)絡(luò)模型的輸入,得到基于上下文的特征矩陣,最后將特征矩陣交由CRF 模塊進(jìn)行編碼與規(guī)約,最終得到基于全局的最優(yōu)標(biāo)簽序列。

      2.4.1 對(duì)比實(shí)驗(yàn)結(jié)果分析

      從實(shí)驗(yàn)結(jié)果,如表4 和圖4 可以得到,本文提出的基于BERT-BiLSTM-CRF 網(wǎng)絡(luò)結(jié)構(gòu)的軍事命名實(shí)體識(shí)別模型優(yōu)于其他4 種實(shí)體識(shí)別模型。相較于HMM 和CRF 模型,BiLSTM 模型可以學(xué)到更多的語義特征信息。本文提出的模型相較與CRF 模型在F 值上提高11.04%,召回率提高10.85%,精準(zhǔn)率提高8.32%。相較于不使用BERT的BiLSTM-CRF模型,本文提出的模型在F 值上提高了1.87%,召回率提高了1.71%,精準(zhǔn)率提高了2.64%。實(shí)驗(yàn)表明,實(shí)體識(shí)別任務(wù)中經(jīng)常會(huì)出現(xiàn)標(biāo)簽之間結(jié)果不成立的現(xiàn)象,而CRF 中的轉(zhuǎn)移矩陣能很好地解決標(biāo)簽之間的順序問題。除此之外,BiLSTM-CRF 比CRF 具有更加優(yōu)異的性能表現(xiàn),這是因?yàn)锽iLSTM 考慮了輸入信息之間的雙向語義依賴,可以從前后兩個(gè)方向來捕捉輸入信息的特征,對(duì)于實(shí)體識(shí)別這種序列標(biāo)注問題具有更高的適用性,而結(jié)合字級(jí)別的特征向量僅考慮字的特征而忽略了結(jié)合上下文進(jìn)行實(shí)體識(shí)別的不足,本文模型結(jié)合了字特征、句子特征、位置特征生成字向量,并使用Transformer[16]訓(xùn)練字向量,充分考慮上下文信息對(duì)實(shí)體的影響,實(shí)驗(yàn)取得了更優(yōu)的實(shí)體識(shí)別效果。

      表4 實(shí)驗(yàn)結(jié)果表Table 4 Experiment Result

      圖4 實(shí)驗(yàn)結(jié)果柱狀圖Fig.4 Experimental result graph

      3 展望與下一步工作

      本文以軍事領(lǐng)域目標(biāo)實(shí)體為識(shí)別對(duì)象,預(yù)先設(shè)定國家、型號(hào)、行為、起飛地、目的地等五類需要預(yù)測(cè)的目標(biāo)標(biāo)簽,提出一種將預(yù)訓(xùn)練語言模型BERT和BiLSTM-CRF 模型相結(jié)合應(yīng)用于軍事語料的命名實(shí)體識(shí)別的模型。BERT 模型利用大規(guī)模的語料進(jìn)行,不同于傳統(tǒng)的靜態(tài)語言模型,BERT 模型可以根據(jù)實(shí)際的業(yè)務(wù)場景以及上下文生成動(dòng)態(tài)的中文詞向量,然后與經(jīng)典的BiLSTM-CRF 神經(jīng)網(wǎng)絡(luò)模型進(jìn)行堆疊,生成對(duì)預(yù)先定義的五類實(shí)體的預(yù)測(cè)識(shí)別。由于本文使用的是在維基百科和書籍語料庫中進(jìn)行預(yù)訓(xùn)練的BERT 的雙向結(jié)構(gòu)和動(dòng)態(tài)向量表征,能有效地學(xué)習(xí)更豐富和準(zhǔn)確的語義信息,無需人工定義的特征,因此可以提升識(shí)別模型的上下文雙向特征抽取能力,在相對(duì)較少的標(biāo)注語料成本上也能獲得效果的提升。將人工收集的軍事演習(xí)領(lǐng)域小型語料庫經(jīng)過預(yù)處理作為本次實(shí)驗(yàn)的訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù),通過實(shí)驗(yàn)證明了該方法取得了比其他幾種通用方法更好的效果,在一定程度上解決了命名實(shí)體的邊界劃分問題以及實(shí)體識(shí)別任務(wù)在數(shù)據(jù)集不足的情況下表現(xiàn)不佳的問題。未來,會(huì)考慮使用在軍事領(lǐng)域的語料預(yù)訓(xùn)練的BERT 模型,進(jìn)一步優(yōu)化任務(wù)表現(xiàn),提高在軍事命名實(shí)體識(shí)別領(lǐng)域的性能。

      利益沖突聲明

      所有作者聲明不存在利益沖突關(guān)系。

      猜你喜歡
      語料命名軍事
      命名——助力有機(jī)化學(xué)的學(xué)習(xí)
      有一種男人以“暖”命名
      東方女性(2018年3期)2018-04-16 15:30:02
      為一條河命名——在白河源
      散文詩(2017年17期)2018-01-31 02:34:08
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
      《苗防備覽》中的湘西語料
      國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
      軍事幽默:局
      軍事文摘(2009年9期)2009-07-30 09:40:44
      軍事
      軍事幽默
      軍事文摘(2009年5期)2009-06-30 01:01:04
      咸丰县| 宣化县| 东乌| 沙洋县| 连州市| 北京市| 莱州市| 安岳县| 扶绥县| 大石桥市| 闽清县| 长沙市| 铜鼓县| 吴江市| 惠安县| 尼玛县| 密云县| 本溪市| 临夏市| 崇仁县| 涟源市| 娱乐| 保靖县| 防城港市| 淄博市| 邵阳县| 阿坝| 蓬溪县| 东山县| 云安县| 修水县| 沂南县| 平南县| 合水县| 唐海县| 隆昌县| 常宁市| 临清市| 巴彦县| 高邮市| 上蔡县|