• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      電網(wǎng)故障處置預(yù)案文本中的命名實(shí)體識別研究

      2021-10-11 01:45:36江葉峰孫少華仇晨光王波戴則梅李杰
      電力工程技術(shù) 2021年5期
      關(guān)鍵詞:預(yù)案語料向量

      江葉峰,孫少華,仇晨光,王波,戴則梅,4,李杰

      (1.國網(wǎng)江蘇省電力有限公司,江蘇 南京 210024;2.南瑞集團(tuán)(國網(wǎng)電力科學(xué)研究院)有限公司,江蘇 南京 211106;3.國電南瑞科技股份有限公司,江蘇 南京 211106;4.南瑞集團(tuán)有限公司智能電網(wǎng)保護(hù)和運(yùn)行控制國家重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 211106)

      0 引言

      電網(wǎng)故障處置預(yù)案文本廣泛應(yīng)用于指導(dǎo)設(shè)備故障后電網(wǎng)狀態(tài)監(jiān)測和故障處理。故障發(fā)生后,傳統(tǒng)處置方式通過人工查閱預(yù)案文本,手動處置故障[1—2],難以滿足故障處置的高效性、及時性。隨著電網(wǎng)智能化進(jìn)程的不斷推進(jìn),電網(wǎng)故障處置機(jī)器人[3—4]應(yīng)能結(jié)合調(diào)度系統(tǒng)模型“閱讀”文本內(nèi)容,正確理解故障預(yù)案文本,實(shí)現(xiàn)相關(guān)涉事設(shè)備的自我調(diào)控。而預(yù)案文本由調(diào)度員人工編寫,每條文本質(zhì)量參差不齊[5]。因此,對文本進(jìn)行命名實(shí)體識別(named entity recognition,NER),解析預(yù)案中關(guān)鍵信息序列,對于提升文本的機(jī)器可讀性具有重要意義。

      近年來,國內(nèi)外學(xué)者針對NER任務(wù)展開了大量研究,文獻(xiàn)[6—7]通過建立領(lǐng)域詞典,提升了領(lǐng)域內(nèi)文本實(shí)體詞識別能力。文獻(xiàn)[8]采用統(tǒng)計(jì)分類方法識別實(shí)體詞。隨著詞向量技術(shù)的發(fā)展,專家學(xué)者逐漸將神經(jīng)網(wǎng)絡(luò)引入NER任務(wù)中,文獻(xiàn)[9]采用拓展卷積神經(jīng)網(wǎng)絡(luò)對文本序列建模,關(guān)注了文本局部知識與全局信息。文獻(xiàn)[10]分別利用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)以及長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)標(biāo)注文本,進(jìn)一步提升了NER效果。在電力領(lǐng)域研究中,針對規(guī)范性文本淺層學(xué)習(xí),文獻(xiàn)[11—12]分別以規(guī)范的告警文本、停送電計(jì)劃為研究對象,參考調(diào)度平臺數(shù)據(jù)庫匹配關(guān)鍵字符,實(shí)現(xiàn)了關(guān)鍵實(shí)體詞與變量的識別。文獻(xiàn)[13]基于專家知識庫規(guī)則自動生成工作票安全措施。對于非規(guī)范性電網(wǎng)缺陷文本的深層挖掘,文獻(xiàn)[14—17]基于準(zhǔn)確的分詞庫或者高質(zhì)量的文本數(shù)據(jù),識別近義詞或同義詞,雖實(shí)現(xiàn)了文本分類,但均未詳細(xì)剖析理解文本信息。預(yù)案文本的規(guī)范性因人而異,文本匹配顯然無法滿足實(shí)體詞識別的要求。因此,預(yù)案文本中的關(guān)鍵信息學(xué)習(xí)識別亟待解決。

      文中首先分析了預(yù)案文本特征,采用字向量表征文本中漢字,將注意力(attention,ATT)機(jī)制引入雙向長短期記憶網(wǎng)絡(luò)(bidirectional long short-term memory,BiLSTM),并結(jié)合條件隨機(jī)場(condition random filed,CRF)提出基于ATT+BiLSTM+CRF的電網(wǎng)故障預(yù)案文本NER方法,實(shí)現(xiàn)了文本中涉事電氣設(shè)備、電氣參數(shù)詞等細(xì)粒度的關(guān)鍵實(shí)體識別。之后,以F1值為評價(jià)指標(biāo),對比分析了文中模型與常用NER模型的識別效果。實(shí)驗(yàn)證明,文中所構(gòu)建模型對于預(yù)案文本具有更強(qiáng)的適用性與魯棒性。

      1 電網(wǎng)故障處置預(yù)案文本特點(diǎn)

      電網(wǎng)故障處置預(yù)案文本是電力調(diào)度人員通過離線模擬電網(wǎng)事故,監(jiān)測故障后薄弱點(diǎn)狀態(tài)參數(shù)信息,并結(jié)合電網(wǎng)運(yùn)行狀態(tài)人工制定的故障處理方案,既包含電網(wǎng)故障時涉事的電廠、機(jī)組等電力設(shè)備及其狀態(tài)參數(shù),也包含設(shè)備調(diào)控、負(fù)荷投切等處置操作。圖1為預(yù)案文本及NER標(biāo)注示例。

      圖1 預(yù)案文本及NER標(biāo)注示例Fig.1 Example of preplan text and NER annotation

      根據(jù)故障處置的應(yīng)用需求并結(jié)合調(diào)度系統(tǒng)中模型劃分的實(shí)體對象類型,文中將預(yù)案文本中電壓等級、線路、變電站、開關(guān)、母線編號、分區(qū)、電廠、機(jī)組編號、主變編號作為NER的對象,共計(jì)9類。

      不難發(fā)現(xiàn),預(yù)案文本中的實(shí)體類別是細(xì)粒度的。例如,變電站、電廠和分區(qū)這3類存在很大的相似性,在常規(guī)的NER任務(wù)中通常被粗粒度地劃分為“地名”類,然而粗粒度的識別并不適用于電網(wǎng)故障處置的實(shí)際需求。

      此外,預(yù)案文本的表述存在較大的專業(yè)性和不規(guī)范性,例如電廠名的表述:“華能蘇州燃機(jī)”“中電濱海風(fēng)電”等電廠實(shí)體詞,可細(xì)化為所屬發(fā)電集團(tuán)、電廠所在地名、電廠類型等復(fù)合型電廠實(shí)體詞;或者在并列表達(dá)時僅采用地名代稱電廠,如“射陽、彭城等電廠”,其實(shí)體詞含義及其類別需要結(jié)合上下文來分析理解。

      同樣,線路實(shí)體詞表述的結(jié)構(gòu)也多種多樣,如能量管理系統(tǒng)中標(biāo)準(zhǔn)線路詞:“官丁2569線”,表述為“官塘-丁卯”“官丁線”。同時線路實(shí)體詞可能摻雜數(shù)字、字母以及用于表達(dá)連接的符號“-”、并列的符號“/”等,如“慶安-倪村線”“紅柳4W45/46雙線”等。

      綜上可以看出,電網(wǎng)故障處置預(yù)案文本存在細(xì)粒度類別劃分、實(shí)體詞專業(yè)性強(qiáng)、語言表述不規(guī)范等特點(diǎn),給NER過程帶來巨大的困難。

      2 基于ATT+BiLSTM+CRF的電網(wǎng)故障預(yù)案文本NER

      針對電網(wǎng)故障處置預(yù)案文本中實(shí)體對象的特點(diǎn),文中采用基于ATT+BiLSTM+CRF框架的NER方法來進(jìn)行故障預(yù)案文本實(shí)體詞的辨識與提取。

      2.1 數(shù)據(jù)預(yù)處理及文本標(biāo)注

      預(yù)案樣本數(shù)據(jù)來自于某電網(wǎng)調(diào)度機(jī)構(gòu)140個典型故障的預(yù)案文本,并根據(jù)符號分隔為4 067條短句訓(xùn)練樣本。通過正則表達(dá)式匹配剔除序號、助詞等無關(guān)詞,降低NER過程中的噪聲。

      預(yù)案文本中9類NER對象的標(biāo)簽定義如表1所示。對所有預(yù)案文本采用“BIO”格式進(jìn)行標(biāo)注,標(biāo)注樣例如表2所示。

      表1 9類NER對象的標(biāo)簽定義Table 1 Label definitions of nine NER objects

      表2 BIO標(biāo)注樣例Table 2 Annotated example of BIO

      其中,B為實(shí)體詞起始詞,B-Line為線路名的起始字;I為實(shí)體詞非首字,I-Line為線路名的非首字;O為非實(shí)體詞。

      2.2 字向量

      文本所用的識別框架需要先將語料中的文字表示成向量形式作為模型的輸入,目前學(xué)術(shù)界主要有2種方式:一是詞向量形式,將句子切分成多個詞,對每個詞進(jìn)行向量化;二是字向量形式,直接將句子中的每個字表示成向量。由于通用領(lǐng)域的分詞詞典在電力領(lǐng)域適用性較低,會出現(xiàn)明顯的分詞錯誤,進(jìn)而導(dǎo)致模型的性能指標(biāo)下降,所以文中采用字向量的方式,對語料進(jìn)行向量化。

      字向量化表示的方式有2種:One-Hot方式和分布式方式[18]。但是One-Hot方式生成的字向量沒有融入任何的語義信息,而且字匯表過大,會造成維度爆炸。分布式方式是將字映射為連續(xù)稠密的低維實(shí)值向量,較好地解決了One-Hot的缺陷問題,所以文中采用分布式方式對字進(jìn)行向量化。

      目前,基于通用語料的預(yù)訓(xùn)練模型生成字向量的方式已經(jīng)在多個通用領(lǐng)域中取得了優(yōu)異的成績。但在電力系統(tǒng)領(lǐng)域,由于語料不匹配,效果并不理想。故文中使用目前在NER任務(wù)中最優(yōu)的Bert預(yù)訓(xùn)練模型[19],在某調(diào)度機(jī)構(gòu)的大量相關(guān)電力文檔上進(jìn)行訓(xùn)練,得到適用于電力領(lǐng)域的專用預(yù)訓(xùn)練模型,將字映射為768維的字向量。

      字向量表征的文本可以在模型訓(xùn)練中自動獲取文本的字符級特征,從而提升NER模型在工程領(lǐng)域文本的適用性和準(zhǔn)確率。

      2.3 ATT+BiLSTM+CRF模型

      2.3.1 BiLSTM模塊

      BiLSTM[20]是雙向結(jié)構(gòu)在LSTM上的應(yīng)用,其每個單元結(jié)構(gòu)與常規(guī)LSTM的單元相同,只是整體上多了一個按照反方向處理序列的隱層。BiLSTM模型的結(jié)構(gòu)示意如圖2所示。

      圖2 BiLSTM結(jié)構(gòu)示意Fig.2 Schematic diagram of BiLSTM

      BiLSTM的訓(xùn)練方法也采用通過時間的反向傳播算法,其前向與反向傳播的過程與常規(guī)的RNN類似。在t時刻,BiLSTM的正向計(jì)算過程一般遵循下式:

      σ(x)=1/(1+e-x)

      (1)

      tanhx=(ex-e-x)/(ex+e-x)

      (2)

      (3)

      (4)

      (5)

      (6)

      (7)

      對于序列化文本數(shù)據(jù),BiLSTM通過引入門級控制調(diào)控序列數(shù)據(jù)傳輸,選擇性丟棄和保存前序與后序數(shù)據(jù),用以更新神經(jīng)元,有效地解決了RNN中長文本梯度彌散的問題。

      2.3.2 CRF模塊

      定義每一種預(yù)測序列的得分如式(8)所示。

      (8)

      式中:A為(k+2)×(k+2)的矩陣,加2是為了提升魯棒性,在句子首尾添加了起始狀態(tài)和終止?fàn)顟B(tài);Ayt,yt+1為類別yt到y(tǒng)t+1的轉(zhuǎn)移得分,代表了實(shí)體各標(biāo)簽類別之間的依賴關(guān)系;y0,yn+1分別為起始狀態(tài)和終止?fàn)顟B(tài);P為BiLSTM的輸出矩陣;Ppt,yt為第t時刻的輸出向量pt與yt類對應(yīng)的得分。

      (9)

      訓(xùn)練好的模型對測試數(shù)據(jù)進(jìn)行預(yù)測即可得到最佳標(biāo)簽序列,其計(jì)算公式如下:

      (10)

      目前,BiLSTM+CRF模型在NER領(lǐng)域已經(jīng)取得了廣泛的應(yīng)用,在網(wǎng)絡(luò)開源語料數(shù)據(jù)集上也取得了領(lǐng)先的識別效果。然而電網(wǎng)故障處置預(yù)案文本與一般性文本存在巨大差異,具有很強(qiáng)的專業(yè)性,BiLSTM+CRF模型難以取得理想的識別效果。文中針對目前BiLSTM+CRF模型在電網(wǎng)故障處置預(yù)案文本上識別效果的不足,提出一種引入ATT機(jī)制的ATT+BiLSTM+CRF模型。通過在電網(wǎng)故障處置預(yù)案文本NER中對實(shí)體詞關(guān)鍵部分分配較多的注意力,從而提升電網(wǎng)故障處置預(yù)案的NER效果。

      2.3.3 ATT機(jī)制

      預(yù)案文本的部分內(nèi)容具有關(guān)聯(lián)性的特征,例如:“在徐州西分區(qū)進(jìn)行事故拉限電”,其中“徐州西分區(qū)”的字符間關(guān)聯(lián)性更高,“徐”和“在”字的關(guān)聯(lián)性很弱,這說明對于識別文本中的命名實(shí)體,每個字符的影響程度不同,在數(shù)學(xué)中表示為分配的權(quán)重不同。因此,文中在BiLSTM計(jì)算過程中引入ATT機(jī)制[22]。

      注意力模型對BiLSTM的輸出特征向量序列P進(jìn)行處理,對每個特征向量賦予不同大小的權(quán)重,相加后產(chǎn)生新的特征向量,包含文本全局和局部特征。

      注意力模型的當(dāng)前狀態(tài)ct由P中的所有特征向量加權(quán)后得到,計(jì)算如下:

      (11)

      式(11)中特征向量分配權(quán)重αtj通過式(12)和式(13)計(jì)算得到。

      (12)

      (13)

      2.3.4 ATT+BiLSTM+CRF模型框架

      引入ATT機(jī)制后的模型整體框架如圖3所示。

      圖3 基于ATT+BiLSTM+CRF的NER流程Fig.3 The process of NER based on ATT+BiLSTM+CRF

      CRF模型計(jì)及標(biāo)簽之間的約束以及相關(guān)性,在所有備選標(biāo)簽序列中求得標(biāo)簽序列的最優(yōu)解。最終識別“官丁2569單線”屬于線路“Line”。

      文中模型訓(xùn)練相關(guān)參數(shù)設(shè)置為:優(yōu)化器為Adam;學(xué)習(xí)率取10-4;在 BiLSTM 兩端增加比例為0.2的Dropout;最大迭代次數(shù)限制在100 000次;最大容忍次數(shù)earlystop設(shè)為5;批處理大小為50。

      3 實(shí)驗(yàn)分析

      3.1 實(shí)驗(yàn)數(shù)據(jù)和評價(jià)指標(biāo)

      文中研究的實(shí)驗(yàn)環(huán)境為 Intel(R)Core i7-8700 CPU 3.2 GHz處理器,16 GB內(nèi)存,GPU NVIDIA 1080Ti,Windows10操作系統(tǒng)。字向量與訓(xùn)練語料為某電力調(diào)度機(jī)構(gòu)的各類電力工作文檔,選擇開源Bert模型作為輸入的分布式表示模型;BiLSTM網(wǎng)絡(luò)由Tensorflow實(shí)現(xiàn)。NER語料為某電網(wǎng)故障處置預(yù)案2015年的歷史版本,文本已分句并經(jīng)人工標(biāo)注,共計(jì)5 230條故障預(yù)案例句,按8∶1∶1的比例分為訓(xùn)練集、驗(yàn)證集、測試集。

      電網(wǎng)故障處置預(yù)案中文NER的評價(jià)指標(biāo)采用綜合考慮查準(zhǔn)率、查全率的F1測量值。

      (1)查準(zhǔn)率。查準(zhǔn)率P計(jì)算公式為:

      P=TP/(TP+FP)

      (14)

      式中:TP為正確識別為正樣本的實(shí)體詞數(shù)量;FP為錯誤識別為正樣本的實(shí)體詞數(shù)量。

      (2)查全率。查全率R計(jì)算公式為:

      R=TP/(TP+FN)

      (15)

      式中:FN為正樣本中識別錯誤的實(shí)體詞數(shù)量。

      (3)F1測量值。F1值計(jì)算公式為:

      F1=2TP/(2TP+FP+FN)

      (16)

      F1值綜合考慮了查全率與查準(zhǔn)率,能夠更加全面地分析分類效果。

      3.2 不同模型實(shí)驗(yàn)設(shè)計(jì)及性能對比

      為了驗(yàn)證文中提出的故障預(yù)案文本NER框架的優(yōu)越性,分別設(shè)計(jì)了6組實(shí)驗(yàn)。6組實(shí)驗(yàn)使用了相同的電網(wǎng)故障處置預(yù)案命名實(shí)體語料、字向量輸入。實(shí)驗(yàn)1為基于BiLSTM的模型;實(shí)驗(yàn)2為基于人工特征提取的正則表達(dá)式添加CRF作用的模型;實(shí)驗(yàn)3為將實(shí)驗(yàn)2中的人工特征替換為RNN的RNN+CRF模型;實(shí)驗(yàn)4為將RNN替換為LSTM的LSTM+CRF模型;實(shí)驗(yàn)5為BiLSTM+CRF模型,實(shí)驗(yàn)6為文中模型即基于ATT+LSTM+CRF模型。

      6組實(shí)驗(yàn)中的不同模型分別對電網(wǎng)故障處置預(yù)案中的9類實(shí)體詞進(jìn)行識別,獲得的綜合評價(jià)指標(biāo)F1記錄值見表3。

      表3 各模型F1記錄表Table 3 Record chart of F1 of each model %

      由表3分析可知:

      (1)LSTM+CRF模型的NER實(shí)驗(yàn)效果優(yōu)于RNN+CRF模型,其中線路、變電站、電廠實(shí)體詞識別效果值提高了3.7%,2.0%,0.9%,但是兩者對線路、電壓等級、主變編號等類別的識別效果未能超過基于人工特征提取的CRF模型,沒有很好地體現(xiàn)自動特征提取的優(yōu)勢。而BiLSTM+CRF模型在識別線路、變電站、電廠等類別的實(shí)體詞過程中較LSTM+CRF網(wǎng)絡(luò)模型表現(xiàn)更加優(yōu)異,F(xiàn)1值分別提升了6.7%,4.9%,1.9%,并且實(shí)現(xiàn)了對人工特征+CRF模型的超越。這是因?yàn)锽iLSTM同時考慮了前序和后序內(nèi)容,結(jié)合上下文語義信息更加充分地提取了文本字符特征。

      (2)單獨(dú)的BiLSTM模型取得的識別效果最差,而結(jié)合CRF模型后,識別效果顯著提升,其中線路實(shí)體詞的識別效果提升最高,F(xiàn)1值提高了13.6%,變電站、機(jī)組編號分別提升了12.4%,11.2%。結(jié)合具體文本內(nèi)容分析,這是由于CRF模型計(jì)及了相鄰標(biāo)簽關(guān)聯(lián)性約束,從而能夠更好地識別線路詞中的長距離實(shí)體詞。

      (3)BiLSTM+CRF模型在電網(wǎng)故障處置預(yù)案文本中確實(shí)可以取得較好的識別效果,F(xiàn)1值可以達(dá)到90%以上,而引入了ATT機(jī)制后,實(shí)體詞識別整體效果進(jìn)一步提升,模型識別線路、電廠、變電站的F1值分別提升了2.2%,2.9%,5.1%,更加符合電網(wǎng)處置預(yù)案的識別要求。

      4 結(jié)語

      文中針對電網(wǎng)故障處置預(yù)案文本中關(guān)鍵信息辨識的任務(wù),搭建了基于ATT+BiLSTM+CRF的電網(wǎng)故障處置預(yù)案文本NER模型,實(shí)現(xiàn)了故障處置預(yù)案文本關(guān)鍵信息的NER。

      通過采用字向量特征表征文本,規(guī)避了專業(yè)領(lǐng)域詞向量訓(xùn)練對于人工的依賴以及專業(yè)領(lǐng)域詞向量表達(dá)能力差的缺陷。同時采用字向量可以更好地識別“官塘-丁卯2569單線”“官丁線”“官塘-丁卯”“官丁2569”等不同表述形式的線路實(shí)體詞,提升了模型對于含復(fù)雜實(shí)體詞電力文本的適用性。

      基于ATT+BiLSTM+CRF模型可以綜合考慮電網(wǎng)故障處置預(yù)案文本中的實(shí)體詞長度較長,并列實(shí)體詞的簡寫表達(dá)隨意性大以及文本長距離造成信息丟失的問題,通過引入ATT機(jī)制以及BiLSTM,有所側(cè)重地、自動地學(xué)習(xí)獲取文本特征信息,降低了人工成本,提升了模型的泛化能力。算例表明文中所提模型可以滿足電網(wǎng)故障處置預(yù)案文本的NER任務(wù)要求,為電力文本的NER提供有效路徑。

      通過故障預(yù)案文本中實(shí)體詞序列準(zhǔn)確識別,文本內(nèi)容即可實(shí)現(xiàn)準(zhǔn)確切分和詞義理解,進(jìn)而簡化了文本句法結(jié)構(gòu)和語義分析,為機(jī)器學(xué)習(xí)非結(jié)構(gòu)化故障預(yù)案文本,搭建電力故障處置預(yù)案垂直知識圖譜打下重要基礎(chǔ)。

      猜你喜歡
      預(yù)案語料向量
      啟東市強(qiáng)化預(yù)案演練
      向量的分解
      核電網(wǎng)絡(luò)安全應(yīng)急預(yù)案考慮
      聚焦“向量與三角”創(chuàng)新題
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      2016年版《國家自然災(zāi)害救助應(yīng)急預(yù)案》解讀
      中國民政(2016年9期)2016-05-17 04:51:33
      緊急預(yù)案
      向量垂直在解析幾何中的應(yīng)用
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
      潜江市| 错那县| 泽库县| 乌什县| 民和| 勐海县| 南岸区| 合阳县| 平乐县| 遵化市| 靖边县| 静海县| 大连市| 中阳县| 唐海县| 西贡区| 华亭县| 图木舒克市| 苏尼特右旗| 望奎县| 祁连县| 建水县| 石首市| 灵台县| 闽侯县| 昔阳县| 玛曲县| 全州县| 平谷区| 灌阳县| 葵青区| 昌乐县| 曲沃县| 商都县| 绥阳县| 通州市| 香格里拉县| 乐山市| 娄底市| 梨树县| 吉首市|