• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于ELMo-GCN 的核電領(lǐng)域命名實(shí)體識(shí)別

      2023-01-12 11:49:48荊鑫王華峰劉潛峰羅嗣梧張凡
      關(guān)鍵詞:語(yǔ)料命名核電

      荊鑫, 王華峰,,*, 劉潛峰, 羅嗣梧, 張凡

      (1. 北方工業(yè)大學(xué) 信息學(xué)院, 北京 100144; 2. 北京航空航天大學(xué) 軟件學(xué)院, 北京 100191;3. 清華大學(xué) 核能與新能源技術(shù)研究院, 北京 100084; 4. 太原理工大學(xué) 軟件學(xué)院, 太原 030024)

      新智能時(shí)代向工業(yè)5.0 新形態(tài)演進(jìn)的進(jìn)程已經(jīng)全面啟動(dòng)[1]。 在《中國(guó)能源革命進(jìn)展報(bào)告(2020)》中提出,要加速融合新一代信息技術(shù)與能源技術(shù),推動(dòng)多能互補(bǔ)智慧能源系統(tǒng)建設(shè)步伐[2]。 在這一進(jìn)程中,需要對(duì)數(shù)十年核電發(fā)展所積累的信息進(jìn)行處理、分析和管理,以達(dá)到提升工作效率、優(yōu)化產(chǎn)業(yè)結(jié)構(gòu)的目的。 因此,如何從海量的非結(jié)構(gòu)化文本信息中提取到有用信息,是計(jì)算機(jī)智能技術(shù)在核電領(lǐng)域應(yīng)用的難點(diǎn)。 這里便需要用到自然語(yǔ)言處理(natural language processing,NLP)技術(shù)對(duì)其文本數(shù)據(jù)進(jìn)行語(yǔ)義理解和語(yǔ)義分析。

      NLP 作為人工智能的子領(lǐng)域,是將人類交流所使用的語(yǔ)言通過(guò)某種算法轉(zhuǎn)化為機(jī)器可以理解的機(jī)器語(yǔ)言的技術(shù)。 其中,命名實(shí)體識(shí)別(named entity recognition, NER)是NLP 中一個(gè)重要的文本預(yù)處理工具,其主要作用是識(shí)別出文本中表示命名實(shí)體(named entity, NE)的成分,并對(duì)其進(jìn)行分類,故而也被稱為命名實(shí)體識(shí)別和分類(named entity recognition and classification, NERC)。 而由于核電領(lǐng)域本身的特殊性,NER 任務(wù)缺乏相應(yīng)的研究。

      早期的命名實(shí)體任務(wù)主要針對(duì)以英語(yǔ)為主的印歐語(yǔ)系,該任務(wù)僅限于一個(gè)或多個(gè)嚴(yán)格指示詞的實(shí)體,嚴(yán)格指示詞包括專有名稱及某些自然類術(shù)語(yǔ),如生物物種和物質(zhì)[3]。 隨后,NER 任務(wù)轉(zhuǎn)為一般意義上的“專有名稱”,研究最多的就是“Person”、“Location”與“Organization” 3 種實(shí)體類型,這些類型統(tǒng)稱為“Enamex”。 直到1995 年第六次信息理解會(huì)議(MCU)明確將“命名實(shí)體”定義為研究對(duì)象,此后NER 便成為一項(xiàng)單獨(dú)的研究任務(wù)。 在定義這一任務(wù)時(shí),研究人員發(fā)現(xiàn)某些命名實(shí)體是文本中的重要信息單元,這就誕生了命名實(shí)體最初的7 種實(shí)體類型:“Person”、“Organization”和“Location”,以及“Time”、“Date”、“Currency”、“Percentage”的數(shù)字表達(dá)式[4]。 在實(shí)驗(yàn)過(guò)程中,研究者們發(fā)現(xiàn)以上7 種實(shí)體類型無(wú)法滿足研究需要,因此,結(jié)合實(shí)際添加了一系列細(xì)粒度實(shí)體子類型。 例如,Fleischman[5]與Lee 等[6]將“Location”劃分為多個(gè)細(xì)粒度實(shí)體子類型:“City”、“State”、“Country” 等;Fleischman 與Hovy[7]將“Person” 的細(xì)粒度實(shí)體子類型劃分為“Politician”、“Entertainer” 等;Bodenreider 和Zweigenbaum[8]將“Person”與“Drug”、“Disease”相結(jié)合進(jìn)行命名實(shí)體分類。

      目前,由于NER 技術(shù)在一些開(kāi)放數(shù)據(jù)集中已經(jīng)取得了很高的準(zhǔn)確率,部分學(xué)術(shù)界學(xué)者認(rèn)為NER 技術(shù)并不具備進(jìn)一步的研究?jī)r(jià)值。 但是,在當(dāng)前研究中,NER 研究面臨著諸多問(wèn)題需要解決:

      1) 數(shù)據(jù)來(lái)源與處理問(wèn)題。 核電相關(guān)的大部分資料(如檢查報(bào)告、設(shè)計(jì)方案及日程安排等)均不能進(jìn)行公開(kāi)的研究,因此在數(shù)據(jù)來(lái)源的選擇方面可參考內(nèi)容少,數(shù)據(jù)范圍小,在核能領(lǐng)域中的NER 技術(shù)研究更是稀缺。 同時(shí)在研究中,還需考慮如何有效地對(duì)核安全文本中的命名實(shí)體進(jìn)行分類。

      2) 文本類型對(duì)NER 任務(wù)有著很大的影響。諸如核電、生物醫(yī)學(xué)領(lǐng)域的文本數(shù)據(jù)中,頻繁出現(xiàn)的技術(shù)詞匯、特定術(shù)語(yǔ)及其縮寫(xiě)、不完整句子等,直接導(dǎo)致網(wǎng)絡(luò)模型無(wú)法像通用數(shù)據(jù)集一樣構(gòu)建全面合理的實(shí)體特征,神經(jīng)模型的預(yù)測(cè)結(jié)果與通用數(shù)據(jù)集相差甚遠(yuǎn)[9]。

      3) NER 研究中存在的具有挑戰(zhàn)性的問(wèn)題,如嵌套命名實(shí)體識(shí)別(nested named entity recognition,Nested NER)、歧義文本及標(biāo)注語(yǔ)料數(shù)據(jù)老舊等[10]。 嵌套命名實(shí)體(nested named entity,Nested NE)是一種特殊形式的命名實(shí)體,即在一個(gè)命名實(shí)體的內(nèi)部還存在一個(gè)或多個(gè)其他類型的命名實(shí)體,層次結(jié)構(gòu)較為復(fù)雜,傳統(tǒng)的基于序列標(biāo)注的NER 網(wǎng)絡(luò)模型不能很好地解決Nested NER 任務(wù)。

      針對(duì)現(xiàn)今核電領(lǐng)域NER 研究面臨的挑戰(zhàn),本文主要貢獻(xiàn)如下:

      1) 研究伊始面臨的主要問(wèn)題是缺乏數(shù)據(jù)集。考慮到核安全相關(guān)的大部分資料不能進(jìn)行公開(kāi)的研究,基于數(shù)據(jù)特征具有代表性和數(shù)據(jù)易于搜集2 個(gè)方面,本文以核反應(yīng)堆相關(guān)基礎(chǔ)理論作為基礎(chǔ)文本數(shù)據(jù)。 在命名實(shí)體分類過(guò)程中,本文參考了核反應(yīng)堆方面的相關(guān)研究,對(duì)現(xiàn)有文本數(shù)據(jù)進(jìn)行分類,得到“專有名詞類”、“冷卻與冷卻劑類”、“燃料與材料類”與“反應(yīng)堆類”四大類。 此外,本文還通過(guò)BIO 數(shù)據(jù)標(biāo)注方式對(duì)搜集到的文本數(shù)據(jù)進(jìn)行標(biāo)注,得到標(biāo)記數(shù)據(jù)141 057 條。

      2) 針對(duì)Nested NER 問(wèn)題,本文在現(xiàn)有研究的基礎(chǔ)上,提出了結(jié)合動(dòng)態(tài)、張量的圖卷積神經(jīng)網(wǎng)絡(luò)模型(graph convolutional neural network model with dynamic tensor, DTGCN),模型中加入了句子處理器,通過(guò)提取句中的動(dòng)態(tài)張量并計(jì)算的方式,獲取上下文信息,同時(shí)使用Self-Attention 模型學(xué)習(xí)句子中實(shí)體之間的依賴關(guān)系,獲取句子的內(nèi)部結(jié)構(gòu)信息。 之后經(jīng)由GCN 網(wǎng)絡(luò),利用核電語(yǔ)料中實(shí)體的內(nèi)部關(guān)系與相鄰關(guān)系,完成核電命名實(shí)體的細(xì)粒度識(shí)別,進(jìn)而處理Nested NER 問(wèn)題。

      3) 構(gòu)建校正模塊進(jìn)行后處理,基于命名實(shí)體類型的特征制定規(guī)則,并使用該規(guī)則對(duì)網(wǎng)絡(luò)預(yù)測(cè)結(jié)果中的實(shí)體類型正確而邊界判斷錯(cuò)誤的情況進(jìn)行校正,以提高模型的容錯(cuò)率。

      1 相關(guān)理論與方法

      研究人員在NER 工作中已經(jīng)取得了一定的進(jìn)展。 Goller 和Kucher[11]使用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN),使模型可以變長(zhǎng)輸入且具有長(zhǎng)期記憶,但由于RNN 結(jié)構(gòu)本身的缺陷,存在梯度消失和梯度爆炸的問(wèn)題。Hammerton[12]首次將長(zhǎng)短記憶網(wǎng)絡(luò)(long shortterm memory, LSTM)應(yīng)用于NER,LSTM 網(wǎng)絡(luò)中使用遺忘門(mén)、記憶門(mén)結(jié)合的方式,成功避免了梯度消失和梯度爆炸問(wèn)題。 2015 年,Huang 等[13]在LSTM 的基礎(chǔ)上,使用BiLSTM + CRF 模型,正向LSTM 獲取“過(guò)去特征”,反向LSTM 獲取“未來(lái)特征”,由此對(duì)上下文信息作出進(jìn)一步發(fā)掘。Peters 等[14]利用雙層LSTM,提出基于語(yǔ)言模型的上下文相關(guān)的詞向量表示(embeddings from language model, ELMo),得到的ELMo 詞向量具有更深層次的語(yǔ)義表征,但由于LSTM 本身的結(jié)構(gòu)約束,一旦輸入語(yǔ)句序列過(guò)長(zhǎng),模型的學(xué)習(xí)能力將大幅下降。

      2014 年,Sutskever 等[15]在研究過(guò)程中首次引入Attention 機(jī)制。 2017 年,Vaswani 等[16]提出了Transformer 結(jié)構(gòu),通過(guò)Self-Attention 計(jì)算詞與詞之間的關(guān)系權(quán)重,使每個(gè)詞都有全局的語(yǔ)義信息。 2019 年,Devlin 等[17]提出了基于Transformer的雙向編碼器(bidirectional encoder representation from Transformer, BERT) 模 型。 BERT 在11 項(xiàng)NLP 任務(wù)中表現(xiàn)優(yōu)異,在其他網(wǎng)絡(luò)模型最優(yōu)指標(biāo)的基礎(chǔ)上有了新的突破。 不過(guò),BERT 模型依然存在一定缺陷:①數(shù)據(jù)總量要求高,若總量不夠,則最終訓(xùn)練效果較差;②運(yùn)算量大,BERT 中的BERT-Base 模型參數(shù)為1.1 億,BERT-Large 模型的參數(shù)更是達(dá)到3.4 億,計(jì)算量大,所需成本高。

      在NER 研究中,Nested NE 廣泛存在于多種語(yǔ)料之中。 例如,以蛋白質(zhì)和DNA 等實(shí)體類型標(biāo)記的GENIA 語(yǔ)料庫(kù)[18],Nested NE 占全部命名實(shí)體的17%;西班牙語(yǔ)和加泰羅尼亞語(yǔ)報(bào)紙的AnCora 語(yǔ)料庫(kù)中[19],Nested NE 占50%左右;在ACE-2004 中,42% 的句子包含Nested NE,Nested NE占比達(dá)47%[20]。

      對(duì)于Nested NE 的研究一直在進(jìn)行。 Finkel和Manning[21]提出了一種基于條件隨機(jī)場(chǎng)(conditional random field, CRF)的分區(qū)解析器,將句子作為解析樹(shù),句中單詞和每個(gè)事宜相對(duì)應(yīng)的短語(yǔ)作為解析樹(shù)的葉子,該解析樹(shù)還將詞性包含其中,以此共同對(duì)實(shí)體和詞性進(jìn)行建模;Alex 等[22]提出將多模型級(jí)聯(lián)的方式,分別為多組實(shí)體提供訓(xùn)練。此外,Lu 和Dan[23]提出了一種基于超圖的模型來(lái)解決Nested NER 問(wèn)題,通過(guò)輸入給定的字符序列,獲取內(nèi)部所有的實(shí)體指代關(guān)系,計(jì)算得出分?jǐn)?shù)最高的輸出路徑;Xia[24]提出了多粒度NER 模型來(lái)解決Nested NER 問(wèn)題,該模型分為檢測(cè)器和分類器2 部分,檢測(cè)器負(fù)責(zé)檢測(cè)所有可能的實(shí)體位置,分類器則將檢測(cè)到的實(shí)體進(jìn)行分類;Luo 和Zhao[25]結(jié)合LSTM 與GCN,將LSTM 部分作為最外層實(shí)體信息提取工具,再由GCN 結(jié)合實(shí)體關(guān)系圖抽取實(shí)體信息。

      2 結(jié)構(gòu)模型

      如圖1 所示,DTGCN 模型主要分為2 部分,即外部模塊(OuterModule)和內(nèi)部模塊(InnerModule),分別學(xué)習(xí)外層實(shí)體信息和內(nèi)部實(shí)體信息。 核電語(yǔ)料集中的實(shí)體(Word)和語(yǔ)句(Sentence)分別進(jìn)入外部模塊的字處理器(Word Processor)和句子處理器(Sentence Processor)。 字處理器負(fù)責(zé)提取單個(gè)字的信息及輸入語(yǔ)句中字與字之間的關(guān)系,主要使用BiLSTM 網(wǎng)絡(luò);句子處理器是以整個(gè)句子的層面進(jìn)行信息提取,主要通過(guò)生成動(dòng)態(tài)張量的方式,得到命名實(shí)體在不同語(yǔ)義環(huán)境下不同的張量特征,以此增加網(wǎng)絡(luò)對(duì)實(shí)體上下文信息的提取能力;通過(guò)Self-Attention 模塊獲取實(shí)體之間的相關(guān)度信息。

      圖1 DTGCN 網(wǎng)絡(luò)模型Fig.1 DTGCN network model

      內(nèi)部模塊使用GCN 將實(shí)體與實(shí)體間的關(guān)系建模(其中Adjacency Graph Model 和Entity Graph Model 部分分別對(duì)外部實(shí)體和內(nèi)部實(shí)體進(jìn)行處理),通過(guò)迭代其傳播信息,學(xué)習(xí)內(nèi)部實(shí)體特征。GCN 將其學(xué)習(xí)到的信息輸入到CRF 模塊,對(duì)預(yù)測(cè)結(jié)果進(jìn)行分類。 通過(guò)校正模塊(Corrected Module)對(duì)預(yù)測(cè)結(jié)果中實(shí)體類型正確而邊界判斷錯(cuò)誤的情況進(jìn)行校正。

      2.1 數(shù) 據(jù)

      由于目前沒(méi)有開(kāi)放的核電數(shù)據(jù)集,筆者手動(dòng)構(gòu)建了一個(gè)語(yǔ)料集用于研究。 本文數(shù)據(jù)來(lái)自于核反應(yīng)堆相關(guān)基礎(chǔ)理論分析[26-27],對(duì)實(shí)體分為4 類:“專有名詞類”(NOU)、“冷卻與冷卻劑類”(COO)、“燃料與材料類”(FUE)與“反應(yīng)堆類”(REA)。

      由圖2 和表1 可知,核電語(yǔ)料集共8 023 句141 057 字,所用漢字1 384 個(gè),其中專有名詞類實(shí)體684 個(gè),所用漢字407 字,114 字無(wú)嵌套關(guān)系,占28%;燃料與材料類實(shí)體207 個(gè),所用漢字197 字,54 字無(wú)嵌套關(guān)系,占27%;冷卻與冷卻劑類實(shí)體1 365個(gè),所用漢字491 字,146 字無(wú)嵌套關(guān)系,占30%;反應(yīng)堆類實(shí)體251 個(gè),所用漢字232字,37 字無(wú)嵌套關(guān)系,占16%。 此外,表1 還統(tǒng)計(jì)了每個(gè)實(shí)體的數(shù)量及實(shí)體的出現(xiàn)頻率,出現(xiàn)頻率統(tǒng)計(jì)了對(duì)應(yīng)類型實(shí)體出現(xiàn)的總次數(shù),便于從數(shù)據(jù)方面對(duì)不同網(wǎng)絡(luò)模型中實(shí)體分類結(jié)果進(jìn)行分析。

      圖2 核電語(yǔ)料中嵌套命名實(shí)體比例Fig.2 Proportion of nested named entities in nuclear power corpus

      綜上,核電語(yǔ)料集中Nested NE 占總實(shí)體的68%,遠(yuǎn)高于GENIA[18]、AnCora[19]、ACE-2004[20]等語(yǔ)料庫(kù)中Nested NE 所占比例,因而進(jìn)行NER研究的難度也更高。

      核電語(yǔ)料通過(guò)BIO 實(shí)現(xiàn)對(duì)序列數(shù)據(jù)的聯(lián)合標(biāo)注,如表1 所示,其中,“B-”表示命名實(shí)體中的第1 個(gè)字,“I-”表示命名實(shí)體中間字和結(jié)尾字,“O”表示非實(shí)體字符,核電語(yǔ)料實(shí)體標(biāo)注示例如圖3 所示。

      表1 核電語(yǔ)料實(shí)體標(biāo)注方法及實(shí)體數(shù)量和出現(xiàn)頻率Table 1 Nuclear power corpus labeling methodology,count, and frequency of appearance

      圖3 核電語(yǔ)料命名實(shí)體標(biāo)注示例Fig.3 Example of nuclear power corpus named entity labeling

      2.2 字處理器

      文字中存在著的隱藏信息往往隱含在上下文中,體現(xiàn)在字與字之間的前后關(guān)系上。 因此,本文模型使用BiLSTM 作為字處理器,提取單個(gè)字的信息及輸入語(yǔ)句內(nèi)字與字之間的關(guān)系。

      給定一個(gè)包含N個(gè)字符的輸入語(yǔ)句T=(t1,t2,…,tN),對(duì)每個(gè)字符tk(1≤k≤N)進(jìn)行字嵌入后表示為:xk=[wk],wk為預(yù)訓(xùn)練獲得的字嵌入模型。

      如圖4 所示,結(jié)合式(1) ~式(6),W和b為L(zhǎng)STM 的參數(shù),W為權(quán)重向量,b為偏置向量,σ為激活函數(shù),?表示正交,ik、fk和ok分別代表k時(shí)刻的輸入門(mén)、遺忘門(mén)和輸出門(mén),Ck、hk和gk分別表示LSTM 中的細(xì)胞狀態(tài)、隱藏狀態(tài)和新?tīng)顟B(tài)。xk經(jīng)過(guò)BiLSTM 的輸出得到k時(shí)刻字符的隱藏狀態(tài)hk(其中包含前向隱藏狀態(tài)和后向隱藏狀態(tài)):

      圖4 LSTM 結(jié)構(gòu)Fig.4 Structure of LSTM

      因此,字符信息xk通過(guò)字處理器后得到LSTM輸出特征αLSTM∈RN×dl(dl為BiLSTM 隱藏層大小):

      2.3 句子處理器

      同樣的詞在不同的語(yǔ)境條件下,表達(dá)含義有所不同。 傳統(tǒng)的Word2Vec 或Glove 方式生成的詞向量模型是固定的,這顯然不符合實(shí)際語(yǔ)境的使用情況。 基于此,模型中使用ELMo[14]作為句子處理器,生成動(dòng)態(tài)張量,使實(shí)體在不同語(yǔ)境下生成不同的特征張量,以獲取更加豐富的上下文信息。

      對(duì)于輸入語(yǔ)句T= (t1,t2,…,tN),前向語(yǔ)言模型通過(guò)(t1,t2,…,tk-1)條件下tk(1 <k<N)的概率建模計(jì)算整個(gè)序列的概率:

      后向語(yǔ)言模型也是同理:

      綜上,最大似然函數(shù)為

      式中:θx為字符向量的參數(shù);θs為Softmax 層的參數(shù)。

      ELMo 是BiLSTM 的中間層表示任務(wù)的特定組合,對(duì)于每一個(gè)xk,一個(gè)L層雙向語(yǔ)言模型可以得到2L+1 個(gè)結(jié)果。

      而在通常情況下,查找字符向量的方法僅為查找表中的字符提供一層表示。

      式中:ELMok為字符tk的ELMo 詞向量;u為Softmax 的正則化權(quán)重;γ為縮放因子,允許任務(wù)模型縮放整個(gè)ELMo 向量。

      ELMo 模型輸出含有上下文信息的結(jié)果αELMo:

      2.4 自注意力模塊

      對(duì)上下文字信息建模的方式一般是將所有字符表示形式連接起來(lái)或取平均值,但是當(dāng)存在許多不相關(guān)的上下文詞匯信息時(shí),這一方式的結(jié)果并不理想。 為了選取高度相關(guān)的上下信息,采用Sself-Attention 模型[16]來(lái)獲取上下文與實(shí)體之間的關(guān)聯(lián)性。

      式中:Q、K、V三個(gè)矩陣來(lái)自同一輸入;dk為Q和K向量的維度。

      Self-Attention 計(jì)算后可得

      式中:αcat為將αLSTM與αELMo的拼接結(jié)果;⊕表示將2 個(gè)特征進(jìn)行拼接;αatt為Self-Attention 模型輸出的含有實(shí)體間相關(guān)程度的信息。

      2.5 條件隨機(jī)場(chǎng)

      LSTM 等模型得出的結(jié)果是字符對(duì)應(yīng)各個(gè)類型的分?jǐn)?shù),最高分?jǐn)?shù)對(duì)應(yīng)的類型便是預(yù)測(cè)結(jié)果。然而這樣的分類方式忽略了字符對(duì)應(yīng)于其他類型的分?jǐn)?shù),經(jīng)常會(huì)預(yù)測(cè)出一些非合法實(shí)體類型情況(如“B-ORG I-PER”)。

      CRF 是給定一組輸入序列條件下另一組輸出序列的條件概率分布模型[28]。 通過(guò)CRF 加入一些約束來(lái)保證最終預(yù)測(cè)結(jié)果的正確性,這些約束可以在訓(xùn)練數(shù)據(jù)的過(guò)程中被CRF 自動(dòng)學(xué)習(xí)。CRF 的最終得分是通過(guò)計(jì)算轉(zhuǎn)移特征概率和狀態(tài)特征概率實(shí)現(xiàn)的。 目前,CRF 已經(jīng)廣泛應(yīng)用于諸多NER 模型(如文獻(xiàn)[29-31])。

      輸入特征向量為α=(α1,α2,…,αN),其對(duì)應(yīng)的標(biāo)簽序列(tag)為Y={y1,y2,…,yN},定義分?jǐn)?shù)為

      式中:Ayi,yi+1為轉(zhuǎn)移矩陣,表示從標(biāo)簽yi到標(biāo)簽yi+1的傳輸?shù)梅?Pαi,yi為經(jīng)過(guò)LSTM 編碼后的αi字符的yi標(biāo)簽的得分。

      CRF 定義了在所有可能的標(biāo)簽序列Y上的條件概率p()為

      訓(xùn)練過(guò)程中,使用最大條件似然估計(jì)方法,選擇使對(duì)數(shù)似然L最大化的參數(shù),并使用一階Viterbi 算法在輸入序列上找到得分最高的標(biāo)簽序列,求解最優(yōu)路徑:

      2.6 圖卷積神經(jīng)網(wǎng)絡(luò)

      區(qū)別于日常的圖片,本文的“圖”是一種數(shù)據(jù)格式,可以用于表示各種具有抽象意義的拓?fù)潢P(guān)系網(wǎng)絡(luò),如通信網(wǎng)絡(luò)、蛋白分子網(wǎng)絡(luò)、社交網(wǎng)絡(luò)等,圖中的節(jié)點(diǎn)表示網(wǎng)絡(luò)中的個(gè)體,邊表示個(gè)體間的連接關(guān)系。 傳統(tǒng)的卷積主要針對(duì)歐氏數(shù)據(jù)空間,而在非歐氏數(shù)據(jù)空間無(wú)法保持“平移不變性”。 為了提取和挖掘非歐氏數(shù)據(jù)空間的有效空間關(guān)系進(jìn)行建模學(xué)習(xí),Kipf 和Welling[32]引入了GCN。

      在GCN 中,每個(gè)圖都可以定義為G= (Z,E),Z為節(jié)點(diǎn)(字)的集合,S為邊(關(guān)系)的集合。圖中第l層輸出特征H(l)計(jì)算如下:

      式中:第l層網(wǎng)絡(luò)的輸入為∈(初始輸入為H(0)=X),N為圖中節(jié)點(diǎn)數(shù)量(即句子長(zhǎng)度),每個(gè)節(jié)點(diǎn)使用D維特征向量表示;為添加了自連接的鄰接矩陣,A為鄰接矩陣,IN為單位矩陣;為 度 矩 陣;W(l-1)∈RD×D為 待 訓(xùn) 練 參 數(shù);σ為激活函數(shù)。

      本文中,在這一基礎(chǔ)上加入偏置,可以得圖特征為

      式中:W為權(quán)重,b為偏置,均為可訓(xùn)練參數(shù);α為輸入GCN 網(wǎng)絡(luò)的實(shí)體特征;ReLU 為非線性激活函數(shù)。

      本文中,G1和G2分別為對(duì)于實(shí)體的實(shí)體相鄰圖和關(guān)系圖的圖網(wǎng)絡(luò)(見(jiàn)圖5 和圖6)。G2中,對(duì)于從外部模塊中提取的實(shí)體中的所有節(jié)點(diǎn),在任意2 個(gè)節(jié)點(diǎn)eij=(vi,vj)之間添加邊,start≤i<j≤end,其中包含最外層實(shí)體信息;G1中,主要是對(duì)于句子中相鄰實(shí)體字符,從左到右添加一個(gè)有向邊,從而可以利用局部上下文信息。

      圖5 G1 實(shí)體相鄰圖Fig.5 Entity adjacent graph (G1)

      圖6 G2 實(shí)體關(guān)系圖Fig.6 Entity relationship graph (G2)

      通過(guò)GCN 獲取圖特征F={f1,f2,…,fN}后,可以求得內(nèi)層的實(shí)體得分M∈RN×N×L:

      式中:W1,W2∈,W3∈Rdf×L,L為實(shí)體類型數(shù)量;Mij∈RL表示范圍的類型概率從ti開(kāi)始到tj結(jié)束。 對(duì)于內(nèi)部實(shí)體,將字符(ti,tj)中的真實(shí)實(shí)體定義為,ti為起點(diǎn),tj為終點(diǎn)。 計(jì)算交叉熵(cross entropy)得

      式中:I(O)用來(lái)區(qū)分非實(shí)體“O”和其他實(shí)體類型的損失,定義如下:

      對(duì)于外層實(shí)體,采用CRF 計(jì)算損失,CRFX為外部模塊獲取的最外層實(shí)體損失,CRFXnew為經(jīng)過(guò)GCN 提取后的最外層實(shí)體損失:

      模型預(yù)測(cè)最外層實(shí)體和內(nèi)部實(shí)體,損失定義為

      式中:λ1為外部模塊和內(nèi)部模塊損失之間的權(quán)重。

      2.7 實(shí)體校正模塊

      校正模塊屬于后處理內(nèi)容。 神經(jīng)網(wǎng)絡(luò)最后的輸出結(jié)果一般為字符對(duì)應(yīng)各個(gè)類型的分?jǐn)?shù)。 由于模型預(yù)測(cè)的部分結(jié)果并不準(zhǔn)確,即使經(jīng)過(guò)CRF 處理,也依然會(huì)出現(xiàn)一些實(shí)體類型正確而邊界判斷錯(cuò)誤的情況。 假設(shè)網(wǎng)絡(luò)經(jīng)過(guò)一系列運(yùn)算后,最終得到的是一個(gè)m×n的向量,m為當(dāng)前輸入模型的句子長(zhǎng)度,n為實(shí)體類型數(shù)量,則該m×n的向量是模型對(duì)這一語(yǔ)句每個(gè)字所屬類型的評(píng)分,最高評(píng)分所在列的索引就是模型預(yù)測(cè)的實(shí)體類型。

      實(shí)際預(yù)測(cè)結(jié)果中,會(huì)出現(xiàn)一些實(shí)體類型正確而邊界判斷錯(cuò)誤的情況。 以圖7 中“輕水堆”為例,預(yù)測(cè)結(jié)果為“9 9 9”(對(duì)應(yīng)標(biāo)簽為“I-REA I-REA I-REA”),對(duì)照表2,該實(shí)體屬于“反應(yīng)堆類”,實(shí)體類型判斷正確,但“輕水堆”的實(shí)際類型應(yīng)該是“8 9 9”(對(duì)應(yīng)標(biāo)簽為“B-REA I-REA IREA”)。

      表2 實(shí)體類型編號(hào)對(duì)照Table 2 Table of entity type number

      圖7 核電語(yǔ)料實(shí)體類型對(duì)比Fig.7 Comparison of nuclear power corpus entity types

      3 實(shí)驗(yàn)結(jié)果與分析

      3.1 實(shí)驗(yàn)參數(shù)設(shè)置

      實(shí)驗(yàn)中,隨機(jī)劃分60% 的語(yǔ)料作為訓(xùn)練集,20%作為測(cè)試集,20% 作為開(kāi)發(fā)集。 字向量維度為50 維,迭代次數(shù)epoch 為50 次,梯度下降學(xué)習(xí)率為0.000 1,學(xué)習(xí)率衰減因子為0.8,使用Adam優(yōu)化算法加快收斂速度,以交叉熵計(jì)算模型損失函數(shù)。

      3.2 實(shí)驗(yàn)指標(biāo)

      模型評(píng)價(jià)采用準(zhǔn)確率P、召回率R和F1值作為評(píng)價(jià)指標(biāo),其中F1值綜合了準(zhǔn)確率和召回率,可以體現(xiàn)模型的均衡性,各項(xiàng)指標(biāo)計(jì)算公式為進(jìn)行比較。 結(jié)果表明,本文模型在各項(xiàng)指標(biāo)均優(yōu)于其他模型。 與本文模型相比,常用的LSTM 模型[12]對(duì)于Nested NER 預(yù)測(cè)效果差,無(wú)法對(duì)文中的實(shí)體進(jìn)行準(zhǔn)確識(shí)別;BiFlaG[25]的側(cè)重點(diǎn)偏向于實(shí)體間的關(guān)系,忽略了句子中上下文信息的提取;BiLSTM +CRF[13]對(duì)Nested NER 所占比例大的語(yǔ)料中命名實(shí)體的分詞能力有限,無(wú)法獲取實(shí)體與實(shí)體之間的關(guān)系;MGNER 模型[24]中預(yù)測(cè)實(shí)體后,根據(jù)實(shí)體內(nèi)部關(guān)系進(jìn)行細(xì)粒度判斷,這樣的判斷方式更加適用于英文。

      總的來(lái)看,本文模型相較MGNER,P提高6.31%,R提高7.6%,F1提高6.95%;相較BiFlaG,P提高9.52%,R提高8.51%,F1提高9.02%,網(wǎng)絡(luò)各方面性能均優(yōu)于其他網(wǎng)絡(luò)。

      表4 對(duì)BiFlaG 模型和MGNER 模型在核電數(shù)據(jù)集中的4 種分類進(jìn)行了詳細(xì)比較。 從結(jié)果來(lái)看,3 個(gè)模型對(duì)“專有名詞類”(NOU)的識(shí)別準(zhǔn)確率最高,而“燃料與材料類”(FUE)識(shí)別準(zhǔn)確率較差。 從數(shù)據(jù)的角度分析這一情況,在“專有名詞類”實(shí)體中,Nested NER 在文本中的詞頻較低,因而在訓(xùn)練過(guò)程中對(duì)網(wǎng)絡(luò)判斷造成的干擾不大,結(jié)果正確率普遍較高;“燃料與材料類”的實(shí)體識(shí)別效果不佳,是由于該類命名實(shí)體在文本中,數(shù)量及出現(xiàn)頻率都低于其他3 類,直接導(dǎo)致在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程中,神經(jīng)網(wǎng)絡(luò)對(duì)該類命名實(shí)體類型判斷出現(xiàn)誤判,導(dǎo)致準(zhǔn)確率較低。

      表4 分類結(jié)果對(duì)比Table 4 Comparison of classification results %

      式中:TP 為正類預(yù)測(cè)為正類數(shù);TN 為負(fù)類預(yù)測(cè)為負(fù)類數(shù);FP 為負(fù)類預(yù)測(cè)為正類數(shù)(誤報(bào));FN 為正類預(yù)測(cè)為負(fù)類數(shù)(漏報(bào))。

      3.3 實(shí)驗(yàn)結(jié)果比較

      表3 將本文模型與其他模型在核電數(shù)據(jù)集中

      表3 模型實(shí)驗(yàn)結(jié)果對(duì)比Table 3 Comparison of model experimental results%

      3.4 消融實(shí)驗(yàn)

      本文使用ELMo 從句子的角度獲取實(shí)體信息,用Self-Attention 獲取實(shí)體與句中其他實(shí)體的依賴關(guān)系,校正模塊則將模型預(yù)測(cè)結(jié)果中實(shí)體類型正確而邊界判斷錯(cuò)誤的情況進(jìn)行校正。 本節(jié)進(jìn)行消融實(shí)驗(yàn)驗(yàn)證其有效性。 表5 中,“①”指本文模型本身;“②”指Self-Attention,不含ELMo與校正模塊;“③”指ELMo,不含Self-Attention 與校正模塊;“④” 指校正模塊,不含Self-Attention 與ELMo;“⑤”指Self-Attention 與校正模塊;“⑥”指校正模塊與ELMo;“⑦”指Self-Attention 與ELMo??偟膩?lái)看,自注意力模塊對(duì)網(wǎng)絡(luò)的準(zhǔn)確率P提高為1.03%;ELMo 對(duì)網(wǎng)絡(luò)準(zhǔn)確率P提高為1.81%;校正模塊對(duì)網(wǎng)絡(luò)準(zhǔn)確率P提高為2.96%。

      表5 消融實(shí)驗(yàn)結(jié)果Table 5 Experimental results of ablation %

      4 結(jié) 論

      1) 本文完成了數(shù)據(jù)搜集工作,其主要來(lái)源是反應(yīng)堆熱工分析與反應(yīng)堆物理分析,這些數(shù)據(jù)在很大程度上可以代表核安全文本的數(shù)據(jù)特征,且不涉密、資料多,是理想的研究對(duì)象。

      2) 完成了數(shù)據(jù)的分類工作,主要分為“專有名詞類”、“冷卻與冷卻劑類”、“燃料與材料類”與“反應(yīng)堆類”四大類。 “冷卻與冷卻劑類”實(shí)體數(shù)量最多,有1 365 個(gè),“燃料與材料類”實(shí)體數(shù)量最少,僅207 個(gè)。 同時(shí)完成了語(yǔ)料的標(biāo)注工作,標(biāo)注數(shù)據(jù)8 023 句141 057 條。

      3) 通過(guò)對(duì)比實(shí)驗(yàn),驗(yàn)證多個(gè)網(wǎng)絡(luò)在當(dāng)前數(shù)據(jù)集中的性能。 結(jié)合研究中遇到的嵌套命名實(shí)體問(wèn)題,在現(xiàn)有研究的基礎(chǔ)上進(jìn)行改進(jìn),得到DTGCN網(wǎng)絡(luò)。 網(wǎng)絡(luò)中包含外部模塊和內(nèi)部模塊,2 個(gè)模塊分別學(xué)習(xí)外部實(shí)體信息和內(nèi)部實(shí)體信息,結(jié)合規(guī)則判定的方法對(duì)實(shí)體類型正確而邊界判斷錯(cuò)誤的預(yù)測(cè)結(jié)果進(jìn)行校正。 實(shí)驗(yàn)結(jié)果表明,本文模型對(duì)于嵌套命名實(shí)體的識(shí)別效果優(yōu)于其他模型,在準(zhǔn)確率與召回率指標(biāo)上提升顯著,如較BiFlaG 模型,準(zhǔn)確率提高9.52%,召回率提高8.51%,F1值提高9.02%。

      猜你喜歡
      語(yǔ)料命名核電
      第四代核電 高溫氣冷堆
      百年初心精神 點(diǎn)亮核電未來(lái)
      命名——助力有機(jī)化學(xué)的學(xué)習(xí)
      2020年核電活動(dòng)安排
      有一種男人以“暖”命名
      東方女性(2018年3期)2018-04-16 15:30:02
      為一條河命名——在白河源
      核電鏈接
      基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
      華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
      《苗防備覽》中的湘西語(yǔ)料
      台州市| 二手房| 嘉鱼县| 博白县| 徐水县| 荔浦县| 武邑县| 邵阳市| 勐海县| 长沙县| 新源县| 澜沧| 崇州市| 峨边| 美姑县| 陆河县| 芒康县| 维西| 广汉市| 志丹县| 香港 | 葵青区| 孝感市| 连城县| 公安县| 赤城县| 西华县| 商南县| 萨迦县| 贵州省| 仁怀市| 大悟县| 平谷区| 洛扎县| 巫山县| 兴隆县| 平果县| 南漳县| 五台县| 三原县| 安阳县|