• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于BiLSTM-IDCNN-CRF模型的生態(tài)治理技術(shù)領(lǐng)域命名實(shí)體識(shí)別

      2021-03-16 13:57:56馬建霞
      關(guān)鍵詞:分詞實(shí)體卷積

      蔣 翔 馬建霞 袁 慧

      1(中國(guó)科學(xué)院西北生態(tài)環(huán)境資源研究院 甘肅 蘭州 730000) 2(中國(guó)科學(xué)院蘭州文獻(xiàn)情報(bào)中心 甘肅 蘭州 730000) 3(中國(guó)科學(xué)院大學(xué)經(jīng)濟(jì)與管理學(xué)院圖書(shū)情報(bào)與檔案管理系 北京 100190) 4(中國(guó)移動(dòng)通信集團(tuán)北京有限公司 北京 100007)

      0 引 言

      自然語(yǔ)言處理(Nature Language Processing,NLP)是一門融語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)于一體的交叉學(xué)科。在大數(shù)據(jù)時(shí)代的背景下,自然語(yǔ)言處理已廣泛應(yīng)用于各個(gè)任務(wù)中,如:信息檢索、機(jī)器翻譯、輿情分析、知識(shí)圖譜構(gòu)建等。命名實(shí)體識(shí)別(Named Entity Recognition,NER)是自然語(yǔ)言處理的基本任務(wù)之一,其目的在于從文本中識(shí)別出專有名詞和有意義的短語(yǔ),是上述較高層次自然語(yǔ)言處理任務(wù)中不可缺少的一部分基礎(chǔ)工作。

      在生態(tài)治理技術(shù)領(lǐng)域中,有大量的文獻(xiàn)數(shù)據(jù)沒(méi)有得到充分的開(kāi)發(fā)與利用。對(duì)生態(tài)治理技術(shù)領(lǐng)域的論文數(shù)據(jù)進(jìn)行充分的挖掘和利用,首先需要自動(dòng)、準(zhǔn)確、快速地識(shí)別和抽取生態(tài)治理文獻(xiàn)中的相關(guān)實(shí)體,如生態(tài)治理技術(shù)名稱、實(shí)施時(shí)間、實(shí)施地點(diǎn)等。抽取出的實(shí)體將應(yīng)用于生態(tài)治理技術(shù)領(lǐng)域后續(xù)的自然語(yǔ)言處理任務(wù)(如:關(guān)系抽取、事件抽取、領(lǐng)域知識(shí)圖譜構(gòu)建等)。使用神經(jīng)網(wǎng)絡(luò)技術(shù)從大量文獻(xiàn)中識(shí)別出生態(tài)治理技術(shù)領(lǐng)域的命名實(shí)體,不僅有助于生態(tài)治理技術(shù)領(lǐng)域的研究人員開(kāi)展相關(guān)的科研工作,也促進(jìn)了文本抽取技術(shù)在資源環(huán)境情報(bào)分析方面的應(yīng)用。

      生態(tài)治理技術(shù)領(lǐng)域中的文獻(xiàn)存在書(shū)寫(xiě)規(guī)范不統(tǒng)一、專有名詞較多等問(wèn)題,在分詞時(shí)會(huì)加入大量的噪聲,降低實(shí)體的識(shí)別效果。本文提出BiLSTM-IDCNN-CRF模型,通過(guò)神經(jīng)網(wǎng)絡(luò)抽取出不同粒度的特征進(jìn)行互補(bǔ),使用更加豐富的特征信息提高命名實(shí)體識(shí)別的效果。同時(shí),使用了基于字嵌入的方法以避免加入錯(cuò)誤的分詞信息,緩解上述問(wèn)題。

      1 相關(guān)研究

      命名實(shí)體識(shí)別任務(wù)最早于MUC-6[1]會(huì)議作為信息抽取任務(wù)的子任務(wù)被提出。信息抽取任務(wù)的目標(biāo)是從文本中抽取出結(jié)構(gòu)化的信息,抽取結(jié)構(gòu)化信息的前提是必須將文本中的相關(guān)實(shí)體(如人名、地名、機(jī)構(gòu)名等)準(zhǔn)確地識(shí)別和抽取。之后的MET會(huì)議、ACE評(píng)測(cè)和CoNLL會(huì)議都將命名實(shí)體識(shí)別作為一項(xiàng)重要的測(cè)評(píng)任務(wù)。目前實(shí)現(xiàn)命名實(shí)體識(shí)別的方法主要有基于規(guī)則的方法、基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法等。

      基于規(guī)則的方法需要專家手工構(gòu)建規(guī)則模板,通過(guò)提取相關(guān)文本中的特征(如:詞頻信息、關(guān)鍵詞、指示詞、位置詞、方向詞和中心詞等)構(gòu)造對(duì)應(yīng)的規(guī)則集?;谝?guī)則的方法是根據(jù)某一種具體的語(yǔ)言,在某一特定的領(lǐng)域中提取相關(guān)特征,導(dǎo)致其可移植性較差;而且手工抽取特征模板的過(guò)程十分耗時(shí),抽取的規(guī)則之間可能會(huì)產(chǎn)生干擾?;诮y(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法是利用人工標(biāo)注的訓(xùn)練語(yǔ)料對(duì)模型進(jìn)行訓(xùn)練,通過(guò)使用訓(xùn)練好的模型識(shí)別出文本中命名實(shí)體,包括基于分類模型的方法和基于序列模型的方法?;诮y(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法能夠處理未出現(xiàn)過(guò)的文本,識(shí)別出沒(méi)有標(biāo)注過(guò)的實(shí)體,可移植性強(qiáng)。但是與深度學(xué)習(xí)相比性能較低,需要大量的訓(xùn)練數(shù)據(jù)保證模型的訓(xùn)練質(zhì)量。

      1.1 基于深度學(xué)習(xí)的命名實(shí)體識(shí)別方法

      深度學(xué)習(xí)對(duì)于硬件設(shè)備的運(yùn)算性能要求較高,隨著近年來(lái)硬件設(shè)備的快速發(fā)展,深度學(xué)習(xí)方法逐漸成為主流。深度學(xué)習(xí)早期主要用于圖像處理領(lǐng)域,近年來(lái)在語(yǔ)音識(shí)別、自然語(yǔ)言處理等領(lǐng)域的應(yīng)用也取得了大量成果。Collobert等[2]提出使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)對(duì)文本中的句子進(jìn)行建模,結(jié)合CRF層進(jìn)行序列標(biāo)注實(shí)現(xiàn)命名實(shí)體識(shí)別。Zeng等[3]提出了使用CNN將詞匯向量和詞位置向量作為輸入,通過(guò)卷積層、池化層和分類層得到句子的表示。Huang等[4]使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network)作為文本建模工具,提出了LSTM-CRF模型和BiLSTM-CRF模型,首次將雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)模型(Bi-directional Long Short-Term Memory)結(jié)合CRF層的BiLSTM-CRF模型用于命名實(shí)體識(shí)別任務(wù)。Ma等[5]引入了一種將BiLSTM、CNN和CRF結(jié)合的神經(jīng)網(wǎng)絡(luò)架構(gòu),可以從詞和字符級(jí)別提取文本中的深層特征,不需要特征工程和預(yù)處理。袁慧[6]使用相關(guān)領(lǐng)域論文中的摘要進(jìn)行詞向量訓(xùn)練,結(jié)合BiLSTM-CRF模型對(duì)生態(tài)治理技術(shù)領(lǐng)域進(jìn)行了命名實(shí)體識(shí)別研究,從數(shù)據(jù)集中抽取出了時(shí)間實(shí)體、地點(diǎn)實(shí)體和生態(tài)治理技術(shù)實(shí)體。Zeng等[7]使用LSTM-CRF實(shí)現(xiàn)了生物醫(yī)學(xué)文獻(xiàn)中藥物名稱的準(zhǔn)確識(shí)別。為解決BiLSTM模型無(wú)法充分利用硬件設(shè)備導(dǎo)致訓(xùn)練速度較慢的問(wèn)題,Strubell等[8]提出使用迭代膨脹卷積神經(jīng)網(wǎng)絡(luò)(Iterated Dilated Convolutions,IDCNN)替代BiLSTM,與CRF層結(jié)合組成IDCNN-CRF模型,在提高了訓(xùn)練速度的同時(shí)獲得了更好的性能表現(xiàn)。Qiu等[9]在膨脹卷積神經(jīng)網(wǎng)絡(luò)的每一層中加入原始信息,組成殘差膨脹卷積神經(jīng)網(wǎng)絡(luò)(Residual Dilated Convolutional Neural Networks,RDCNN)對(duì)文本進(jìn)行建模,最后結(jié)合CRF層對(duì)中文病歷進(jìn)行命名實(shí)體識(shí)別。表1對(duì)三種不同類型的命名實(shí)體識(shí)別方法和模型進(jìn)行了整理。

      表1 命名實(shí)體識(shí)別相關(guān)研究

      隨著算法的進(jìn)步以及計(jì)算機(jī)運(yùn)算性能的提高,命名實(shí)體識(shí)別的主流方法從早期的基于規(guī)則的方法轉(zhuǎn)變?yōu)榛诮y(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法,再由基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法轉(zhuǎn)變?yōu)榛谏疃葘W(xué)習(xí)的方法。本文在前人研究的基礎(chǔ)上,將基于字嵌入的BiLSTM-CRF模型和IDCNN-CRF模型應(yīng)用于生態(tài)治理技術(shù)領(lǐng)域的命名實(shí)體識(shí)別任務(wù)中,都超過(guò)了文獻(xiàn)[6]方法在相同數(shù)據(jù)集上所取得的最好成績(jī)。通過(guò)將BiLSTM模型和IDCNN模型分別抽取到的不同粒度的文本特征進(jìn)行融合,再結(jié)合CRF層構(gòu)成BiLSTM-IDCNN-CRF模型,相比前兩個(gè)模型獲得了更好的性能。

      1.2 BiLSTM模型

      循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)由Elman[22]于1990年提出,該模型可以對(duì)序列數(shù)據(jù)進(jìn)行處理,按照時(shí)間序列將數(shù)據(jù)逐條輸入模型。但RNN輸出的語(yǔ)義會(huì)偏向于較為靠后輸入的數(shù)據(jù),而且由于RNN中的權(quán)重矩陣復(fù)用,當(dāng)序列長(zhǎng)度過(guò)長(zhǎng)時(shí)會(huì)出現(xiàn)梯度消失或梯度爆炸的問(wèn)題。為解決上述問(wèn)題,Hochreiter等[23]于 1997年提出了長(zhǎng)短期記憶模型(Long Short-Term Memory,LSTM),以RNN單元為基礎(chǔ),通過(guò)輸入門、輸出門和遺忘門實(shí)現(xiàn)對(duì)歷史信息的選擇性利用,可以有效地捕獲較長(zhǎng)序列數(shù)據(jù)的信息。

      令X=[x1,x2,…,xT]為輸入的文本, LSTM神經(jīng)元內(nèi)部結(jié)構(gòu)的實(shí)現(xiàn)如下:

      it=σ(Wxixt+Whiht-1+Wcict-1+bi)

      (1)

      ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)

      (2)

      ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)

      (3)

      ot=σ(Wxoxt+Whoht-1+Wcoct+bo)

      (4)

      ht=ottanh(ct)

      (5)

      式中:it、ht、ft、ct、ot分別為記憶門、隱藏層、遺忘門、細(xì)胞核和輸出門在輸入第t個(gè)文本時(shí)的狀態(tài);W為模型的參數(shù);b為偏置向量;σ為Sigmoid函數(shù);tanh為雙曲正切函數(shù)。

      雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bidirectional LSTM,BiLSTM)通過(guò)兩層LSTM神經(jīng)元分別從左至右和從右至左對(duì)序列數(shù)據(jù)進(jìn)行學(xué)習(xí),可以學(xué)習(xí)到某一字或詞的歷史信息和未來(lái)信息。將兩種信息進(jìn)行結(jié)合,可以更好地描述上下文內(nèi)容。

      1.3 IDCNN模型

      卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)與RNN相比,能夠充分利用GPU的并行性,從而獲得更快的訓(xùn)練速度。于是越來(lái)越多的研究人員將CNN模型用于NLP領(lǐng)域的任務(wù)中。

      為了使一次卷積能夠獲取更多的上下文信息,同時(shí)避免由于卷積核的窗口過(guò)大導(dǎo)致內(nèi)存溢出和運(yùn)算效率降低等問(wèn)題,Yu等[24]提出了膨脹卷積神經(jīng)網(wǎng)絡(luò)(Dilated Convolutions Neural Network,Dilated CNN)。膨脹卷積神經(jīng)網(wǎng)絡(luò)并不是使用膨脹的卷積核,而是在卷積核中增加了一個(gè)膨脹距離d。令卷積核的權(quán)重矩陣k=[k-l,k-l+1,…,kl],卷積操作可寫(xiě)作:

      (6)

      Strubell等[8]將膨脹卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到命名實(shí)體識(shí)別任務(wù)中,提出了IDCNN-CRF模型。在IDCNN網(wǎng)絡(luò)中包含多個(gè)膨脹卷積塊,一個(gè)膨脹卷積塊為一個(gè)多層的膨脹卷積神經(jīng)網(wǎng)絡(luò)。令X=[x1,x2,…,xT]為輸入的文本,膨脹卷積塊的內(nèi)部結(jié)構(gòu)的實(shí)現(xiàn)如下:

      (7)

      (8)

      (9)

      2 方法設(shè)計(jì)

      2.1 字向量表示

      神經(jīng)網(wǎng)絡(luò)輸入的數(shù)據(jù)格式是向量或者矩陣,所以在訓(xùn)練之前需要將文本中的字或詞使用向量進(jìn)行表示,這個(gè)過(guò)程稱為嵌入。

      由于生態(tài)治理技術(shù)領(lǐng)域?qū)S忻~較多,且不同論文在書(shū)寫(xiě)規(guī)范上不統(tǒng)一,使得分詞工具無(wú)法正確對(duì)實(shí)施地點(diǎn)、技術(shù)名詞等進(jìn)行正確分詞,數(shù)據(jù)被加入了大量的錯(cuò)誤分詞信息。在具有大量錯(cuò)誤分詞信息的數(shù)據(jù)集中使用目前主流的Word2vec模型[25]訓(xùn)練出的詞向量質(zhì)量較低,無(wú)法有效表達(dá)詞語(yǔ)之間的語(yǔ)義聯(lián)系。而且Word2vec默認(rèn)忽略頻次小于5的詞,而大量有效詞匯的出現(xiàn)頻次較少,導(dǎo)致很多詞匯沒(méi)有對(duì)應(yīng)的詞向量生成,無(wú)法準(zhǔn)確獲取大量低頻詞和未登錄詞的上下文語(yǔ)義。經(jīng)測(cè)試,文獻(xiàn)[6]訓(xùn)練的詞向量?jī)H能覆蓋數(shù)據(jù)集中約24%的詞匯。

      Gridach[26]為解決生物醫(yī)學(xué)領(lǐng)域文本的專業(yè)性較強(qiáng)、詞匯復(fù)雜多變導(dǎo)致的低頻詞和未登錄詞等問(wèn)題,提出使用BiLSTM神經(jīng)網(wǎng)絡(luò)獲取單詞的字符級(jí)信息,并與預(yù)訓(xùn)練的詞向量結(jié)合,使得詞向量能同時(shí)包含詞匯的語(yǔ)義學(xué)信息和形態(tài)學(xué)信息,減少了無(wú)法準(zhǔn)確獲取低頻詞和未登錄詞上下文語(yǔ)義所帶來(lái)的影響。本文借鑒其思路,使用字嵌入結(jié)合分詞信息的方式對(duì)生態(tài)治理技術(shù)領(lǐng)域的文本進(jìn)行表示,不僅能減少錯(cuò)誤分詞帶來(lái)的影響,而且也不需要額外的時(shí)間進(jìn)行詞向量的訓(xùn)練。

      2.2 標(biāo)注文本

      在生態(tài)治理技術(shù)領(lǐng)域中,需要抽取的實(shí)體類型包括:技術(shù)實(shí)施時(shí)間、技術(shù)實(shí)施地點(diǎn)和技術(shù)名稱,分別使用Time、Plcae和Tech標(biāo)簽進(jìn)行標(biāo)注。本文使用IOBES標(biāo)注法,相較于目前主流的IOB2標(biāo)注法具有更多的標(biāo)簽信息。實(shí)體分類及標(biāo)注方法如表2所示。

      表2 數(shù)據(jù)集實(shí)體分類及標(biāo)注體系

      本文使用了jieba分詞,將分詞信息作為特征加入數(shù)據(jù)集中輔助實(shí)體識(shí)別,使用0代表單字詞,1代表一個(gè)詞的第一個(gè)字,2代表詞的中間部分,3代表詞的末尾字符。

      以句子“在毛烏素沙漠應(yīng)推行灌草橋相結(jié)合以…” 為例,數(shù)據(jù)集的具體標(biāo)注方法如表3所示。

      將文本的分詞信息映射為低維向量,與文本的字向量進(jìn)行拼接得到每個(gè)字的表示。圖1以一個(gè)字向量為4,分詞信息向量為1的文本矩陣為例,矩陣的每一行是一個(gè)字的向量表示。

      圖1 文本的向量表示

      2.3 BiLSTM-IDCNN-CRF模型

      BiLSTM網(wǎng)絡(luò)和IDCNN網(wǎng)絡(luò)分別對(duì)不同粒度的文本進(jìn)行特征提取,如果將兩種模型獲取的特征進(jìn)行整合,相對(duì)于單一模型而言可以利用更充分的信息用于實(shí)體的識(shí)別。對(duì)每一個(gè)字的標(biāo)簽進(jìn)行預(yù)測(cè)的過(guò)程可以看作是一個(gè)分類任務(wù),即每一個(gè)字或詞應(yīng)該被分為哪個(gè)標(biāo)簽的類。在分類時(shí)需要考慮到文本的上下文特征以及長(zhǎng)距離依賴,一般使用由Lafferty等[21]提出的條件隨機(jī)場(chǎng)(Conditional Random Fields,CRF)實(shí)現(xiàn)序列標(biāo)注任務(wù)。本文提出BiLSTM-IDCNN-CRF模型,首先使用BiLSTM-IDCNN神經(jīng)網(wǎng)絡(luò)對(duì)文本信息中的特征進(jìn)行抽取,將BiLSTM-IDCNN神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得到的結(jié)果作為特征,再使用CRF對(duì)每一個(gè)字或詞進(jìn)行分類。

      (10)

      式中:⊕表示向量的拼接。

      BiLSTM網(wǎng)絡(luò)整體可寫(xiě)作:

      H=fθ(X)

      (11)

      式中:矩陣fθ(X)為BiLSTM網(wǎng)絡(luò)的輸出;θ為BiLSTM網(wǎng)絡(luò)中的參數(shù)。

      由于BiLSTM網(wǎng)絡(luò)和IDCNN網(wǎng)絡(luò)的神經(jīng)元數(shù)量可能不一致,為盡量減少feature map數(shù)量變化導(dǎo)致的分辨率損失,因此將BiLSTM網(wǎng)絡(luò)學(xué)習(xí)到的上下文特征H使用一層卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行卷積(輸入通道數(shù)量為BiLSTM的神經(jīng)元數(shù)量,輸出通道數(shù)量為IDCNN的神經(jīng)元個(gè)數(shù)),將卷積結(jié)果H′=[h′1,h′2,…,h′T]作為IDCNN網(wǎng)絡(luò)的輸入。

      (12)

      gθ′(H′)=gθ′1(H′)⊕gθ′2(H′)⊕…⊕gθ′N(H′)

      (13)

      得到特征gθ′(H′)后再通過(guò)一個(gè)全連接層便可得到每個(gè)標(biāo)簽的打分。

      (14)

      (15)

      (16)

      模型在訓(xùn)練時(shí)使用動(dòng)態(tài)規(guī)劃算法[27]對(duì)[A]i,j以及最佳標(biāo)記序列進(jìn)行計(jì)算和推理。

      圖2以“甘肅省準(zhǔn)備…”為例,展示BiLSTM-IDCNN-CRF模型的結(jié)構(gòu)以及標(biāo)簽預(yù)測(cè)流程。

      圖2 BiLSTM-IDCNN-CRF模型總體結(jié)構(gòu)

      3 實(shí) 驗(yàn)

      3.1 實(shí)驗(yàn)數(shù)據(jù)

      生態(tài)治理技術(shù)數(shù)據(jù)集中共包含6 304個(gè)句子,總共標(biāo)注了實(shí)體11 667個(gè)。其中:時(shí)間實(shí)體有1 687個(gè);地名實(shí)體3 892個(gè)。生態(tài)治理技術(shù)實(shí)體5 894個(gè)。將數(shù)據(jù)集按照18∶1∶1的比例分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,句子數(shù)和實(shí)體數(shù)詳見(jiàn)表4。

      表4 數(shù)據(jù)集詳細(xì)信息

      3.2 實(shí)驗(yàn)流程

      本文首先將基于字嵌入的模型和基于詞嵌入模型的訓(xùn)練時(shí)的損失變化進(jìn)行對(duì)比,分析字嵌入方法對(duì)模型訓(xùn)練速度的影響。然后分別將有無(wú)分詞信息的BiLSTM-IDCNN-CRF模型的訓(xùn)練損失和測(cè)試結(jié)果進(jìn)行對(duì)比,分析分詞信息對(duì)模型的準(zhǔn)確性和訓(xùn)練速度的影響。最后將基于字嵌入的BiLSTM-CRF模型[4]和IDCNN-CRF模型[8]與基于詞嵌入模型[6]的測(cè)試結(jié)果進(jìn)行對(duì)比,以驗(yàn)證基于字嵌入的文本表示方法和IOBES標(biāo)注法帶來(lái)的性能提升。同時(shí),本文將BiLSTM-IDCNN-CRF模型應(yīng)用于生態(tài)治理技術(shù)領(lǐng)域的命名實(shí)體識(shí)別任務(wù),并將其與目前主流模型的識(shí)別結(jié)果進(jìn)行對(duì)比,以驗(yàn)證該模型的有效性。本文實(shí)驗(yàn)的總體框架如圖3所示。

      圖3 實(shí)驗(yàn)總體框架

      訓(xùn)練語(yǔ)料中包含訓(xùn)練集和驗(yàn)證集。首先將訓(xùn)練語(yǔ)料的文本進(jìn)行字嵌入,再將文本矩陣分別輸入BiLSTM-CRF模型、IDCNN-CRF模型或BiLSTM-IDCNN-CRF模型中進(jìn)行訓(xùn)練,經(jīng)過(guò)不斷迭代得到訓(xùn)練好的命名實(shí)體識(shí)別模型;將測(cè)試集語(yǔ)料映射為文本矩陣,使用訓(xùn)練好的命名實(shí)體識(shí)別模型進(jìn)行測(cè)試,得到最終的實(shí)驗(yàn)結(jié)果用于對(duì)比。

      3.3 實(shí)驗(yàn)設(shè)置

      本次實(shí)驗(yàn)使用目前較為常用的準(zhǔn)確率(Precision,P)、召回率(Recall,R)和綜合評(píng)價(jià)指標(biāo)(F1-Measure,F(xiàn)1)作為實(shí)驗(yàn)結(jié)果的評(píng)價(jià)指標(biāo)。

      實(shí)驗(yàn)環(huán)境為Tensorflow[28]1.11.0版本,使用Adam優(yōu)化器進(jìn)行訓(xùn)練。BiLSTM-IDCNN-CRF模型的超參數(shù)設(shè)置如表5所示。膨脹卷積塊層數(shù)、膨脹距離、膨脹卷積塊個(gè)數(shù)等參數(shù)通過(guò)驗(yàn)證集調(diào)參得到。

      表5 BiLSTM-IDCNN-CRF模型超參數(shù)設(shè)置

      3.4 模型訓(xùn)練損失的變化

      將基于詞嵌入的BiLSTM-CRF模型、基于字嵌入的BiLSTM-CRF模型和BiLSTM-IDCNN-CRF模型訓(xùn)練時(shí)的損失變化進(jìn)行對(duì)比。

      詞是一個(gè)或多個(gè)字的組合,因此基于字嵌入模型的每一個(gè)句子的長(zhǎng)度遠(yuǎn)遠(yuǎn)大于基于詞嵌入模型的句子長(zhǎng)度,導(dǎo)致基于字嵌入的模型在訓(xùn)練時(shí)損失的值相對(duì)較大,下降速度也相對(duì)較慢。但總體而言,基于字嵌入模型的訓(xùn)練速度仍然是比較快的。當(dāng)?shù)降?0輪時(shí),兩種基于字嵌入的模型的損失均下降到1以下。訓(xùn)練損失的具體變化如圖4所示。

      圖4 損失變化圖

      為避免過(guò)擬合,同時(shí)提高訓(xùn)練效率,節(jié)約訓(xùn)練時(shí)間,本文將實(shí)驗(yàn)的迭代輪次設(shè)置為600,同時(shí)設(shè)置提前停止機(jī)制:當(dāng)模型在驗(yàn)證集中連續(xù)50輪性能沒(méi)有提升時(shí),停止訓(xùn)練并在測(cè)試集中進(jìn)行測(cè)試。

      3.5 分詞信息的影響

      本節(jié)將無(wú)分詞信息的BiLSTM-IDCNN-CRF模型與有分詞信息的BiLSTM-IDCNN-CRF模型的訓(xùn)練損失和訓(xùn)練結(jié)果進(jìn)行對(duì)比,分析分詞信息的加入對(duì)模型訓(xùn)練時(shí)間和識(shí)別效果的影響。

      首先對(duì)兩種訓(xùn)練策略的損失變化進(jìn)行分析。在前20輪迭代中,有分詞信息的模型在訓(xùn)練時(shí)的損失明顯低于無(wú)分詞信息的模型;在20輪之后兩種模型的損失均下降到較低的水平,但有分詞信息的模型的訓(xùn)練損失仍略低于無(wú)分詞信息的模型。兩種模型的損失變化如圖5所示。

      圖5 分詞信息對(duì)損失的影響

      將兩種模型在測(cè)試集中的表現(xiàn)進(jìn)行對(duì)比。與無(wú)分詞信息的模型相比,有分詞信息模型的準(zhǔn)確率提高了0.025 2,召回率提高了0.002,F(xiàn)1值提高了0.013 6。對(duì)比結(jié)果如表6所示。

      表6 分詞信息對(duì)結(jié)果的影響

      分詞信息的加入豐富了模型可以利用的文本特征,使模型可以在更少的訓(xùn)練輪次中取得更低的訓(xùn)練損失。同時(shí),分詞信息有效地輔助了模型對(duì)實(shí)體的推斷,使實(shí)體識(shí)別的準(zhǔn)確率和召回率得到了提高。

      3.6 實(shí)驗(yàn)結(jié)果及對(duì)比分析

      將基于詞嵌入的BiLSTM-CRF模型、基于字嵌入的BiLSTM-CRF模型、IDCNN-CRF模型和BiLSTM-IDCNN-CRF模型的測(cè)試結(jié)果進(jìn)行對(duì)比(基于字嵌入的模型均包含分詞信息),并對(duì)結(jié)果進(jìn)行分析和討論。對(duì)比結(jié)果如表7所示。

      表7 模型結(jié)果對(duì)比

      基于詞嵌入的BiLSTM-CRF模型在準(zhǔn)確率上取得了較高的成績(jī),其中時(shí)間和地點(diǎn)兩類實(shí)體的識(shí)別準(zhǔn)確率(0.786 3和0.820 2)均高于其他3個(gè)模型。通過(guò)對(duì)模型進(jìn)行分析發(fā)現(xiàn),基于詞嵌入的模型在對(duì)文本進(jìn)行分詞時(shí)加入了外部詞典,包括時(shí)間、地名和實(shí)施技術(shù)等詞匯,使得各個(gè)實(shí)體的邊界更加清晰。但是該模型對(duì)生態(tài)治理技術(shù)實(shí)體識(shí)別的準(zhǔn)確率較低(僅為0.660 2,遠(yuǎn)低于時(shí)間實(shí)體的0.786 3和地點(diǎn)實(shí)體的0.820 2),原因在于文獻(xiàn)中對(duì)于生態(tài)治理技術(shù)的寫(xiě)法標(biāo)準(zhǔn)不統(tǒng)一,加入的實(shí)施技術(shù)詞典無(wú)法有效地對(duì)于技術(shù)實(shí)體進(jìn)行準(zhǔn)確分詞,引入了大量噪聲信息。基于字嵌入的BiLSTM-CRF模型避免了引入噪聲的問(wèn)題,使得模型可以有效地對(duì)文本進(jìn)行特征學(xué)習(xí),結(jié)合上下文信息和分詞信息實(shí)現(xiàn)命名實(shí)體識(shí)別,在召回率上相對(duì)于基于詞嵌入的模型得到了明顯的提升,因此在綜合評(píng)價(jià)指標(biāo)F1值上超過(guò)了基于詞嵌入的模型。

      在基于字嵌入的模型中,BiLSTM-CRF模型對(duì)整個(gè)句子的特征進(jìn)行學(xué)習(xí),從而能從整體上把握實(shí)體的上下文信息,從句子中識(shí)別出更多的實(shí)體,取得了更高的召回率;而IDCNN-CRF模型更關(guān)注于實(shí)體周圍的信息和特征,能夠更好地區(qū)分實(shí)體的邊界,因此在準(zhǔn)確率上獲得了相對(duì)更高的結(jié)果。

      BiLSTM神經(jīng)網(wǎng)絡(luò)和IDCNN神經(jīng)網(wǎng)絡(luò)獲取到的不同粒度的特征可以相互補(bǔ)充,從BiLSTM-IDCNN-CRF模型的實(shí)驗(yàn)結(jié)果中也可以得到驗(yàn)證。BiLSTM-IDCNN-CRF模型雖然在召回率上相對(duì)前兩個(gè)模型得到了一個(gè)折中的結(jié)果,但是由于獲得的特征更加豐富,因此準(zhǔn)確率高于前兩種模型,最后的F1值也超越了前兩種模型。IDCNN網(wǎng)絡(luò)的輸入為BiLSTM網(wǎng)絡(luò)得到的具有上下文語(yǔ)義的特征,因此在對(duì)某一個(gè)字的周圍字符信息進(jìn)行學(xué)習(xí)時(shí)會(huì)同時(shí)得到上下文信息和該字周圍的語(yǔ)義信息。也就是說(shuō),模型在預(yù)測(cè)某個(gè)字是否是實(shí)體的一部分時(shí),不僅會(huì)利用整個(gè)句子的語(yǔ)義特征,還將重點(diǎn)關(guān)注該字周圍字符的語(yǔ)義特征,因此在整體性能上取得了更好的成績(jī)。

      4 結(jié) 語(yǔ)

      命名實(shí)體識(shí)別可以快速、準(zhǔn)確、自動(dòng)地從大規(guī)模文本中抽取出有意義的實(shí)體。本文提出了基于字嵌入的BiLSTM-IDCNN-CRF模型,可以充分學(xué)習(xí)到上下文信息和局部信息中的特征,將兩種特征進(jìn)行互補(bǔ)提高實(shí)體的抽取效果。目前已經(jīng)抽取出的實(shí)體可用于進(jìn)行統(tǒng)計(jì)分析,如:生態(tài)治理實(shí)踐分布分析、生態(tài)治理地域分析和生態(tài)治理技術(shù)名稱分析等。如何得到生態(tài)治理的實(shí)施時(shí)間、實(shí)施地點(diǎn)和生態(tài)治理技術(shù)之間的關(guān)系將是下一步重點(diǎn)探索和研究的方向。

      猜你喜歡
      分詞實(shí)體卷積
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      前海自貿(mào)區(qū):金融服務(wù)實(shí)體
      結(jié)巴分詞在詞云中的應(yīng)用
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
      兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
      振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
      值得重視的分詞的特殊用法
      一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
      壤塘县| 克东县| 汉源县| 茶陵县| 南陵县| 阳高县| 洪洞县| 平安县| 靖州| 怀远县| 南康市| 伊宁市| 常州市| 内江市| 遵化市| 沅江市| 岑溪市| 麦盖提县| 阿瓦提县| 南涧| 双鸭山市| 紫金县| 堆龙德庆县| 宁津县| 腾冲县| 贵南县| 治多县| 黄梅县| 广水市| 阿尔山市| 合肥市| 德安县| 密山市| 高邑县| 玉田县| 大厂| 类乌齐县| 东乡族自治县| 油尖旺区| 八宿县| 万宁市|