• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于多頭注意力循環(huán)卷積神經(jīng)網(wǎng)絡的電力設備缺陷文本分類方法

      2021-07-02 07:44:58陸世豪祝云周振茂
      廣東電力 2021年6期
      關(guān)鍵詞:注意力語義卷積

      陸世豪,祝云,周振茂

      (1.廣西電力系統(tǒng)最優(yōu)化與節(jié)能技術(shù)重點實驗室 (廣西大學),廣西 南寧 530004;2.廣西電網(wǎng)有限責任公司來賓供電局,廣西 來賓 546100)

      電力設備巡檢是保障電力系統(tǒng)安全運行的重要舉措。巡檢發(fā)現(xiàn)的設備缺陷將被記錄到缺陷管理系統(tǒng),包括缺陷發(fā)現(xiàn)時間、缺陷描述、缺陷等級等。判斷設備缺陷等級是消缺的前提,根據(jù)電網(wǎng)公司設備缺陷分類標準[1],將設備缺陷按嚴重程度分為緊急缺陷、重大缺陷和一般缺陷,不同等級的缺陷消除時限也不同,目前缺陷分類工作主要由人工完成。隨著電力系統(tǒng)的規(guī)模越來越龐大,設備的數(shù)量成倍增長,極大地增加了巡檢工作量。同時隨著設備運行時間推移和操作頻次增加,加大了設備缺陷的出現(xiàn)幾率。如果巡檢人員的知識和經(jīng)驗不足,很容易對設備缺陷等級產(chǎn)生誤判,影響消缺的時間和效果。因此,快速、準確地將設備缺陷進行分類對電網(wǎng)安全運行具有重要意義。

      電網(wǎng)缺陷管理系統(tǒng)中存在大量已經(jīng)消缺的歷史缺陷記錄,其中的缺陷描述包含缺陷的具體信息,若使用歷史缺陷描述將新缺陷自動分類,不僅能提高電力系統(tǒng)信息資源利用率,還可降低人工分類的工作量。

      電力設備缺陷描述文本涉及電力專業(yè)領域,與許多日常的中文文本存在不同。首先,每個人的用語習慣不同,描述上存在差異,對同一裝置或者缺陷會出現(xiàn)不同表達;其次,存在相同詞在不同缺陷描述中表達嚴重程度不同的情況,例如表1中的加粗詞語在不同缺陷情況描述中所表達的程度不同;最后,缺陷描述一般會記錄缺陷現(xiàn)象、數(shù)據(jù)、故障推斷等。這類描述的內(nèi)容較多,語義較為復雜,需要結(jié)合上下文理解語義,關(guān)注文中重要信息才能正確判斷。

      表1 缺陷描述例句Tab.1 Example sentences of defect descriptions

      隨著自然語言處理技術(shù)的高速發(fā)展,文本挖掘技術(shù)從早期的貝葉斯、支持向量機等淺層學習算法轉(zhuǎn)向卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)、記憶網(wǎng)絡等深度學習算法。文獻[2]對大量的設備缺陷文本進行分析,通過機器學習實現(xiàn)電力設備故障預測以及系統(tǒng)風險評估。由于中文沒有空格分詞,也沒有固定的句法結(jié)構(gòu),因此中文的理解難度遠大于英文,這也加大了在工業(yè)應用的難度。目前,國內(nèi)電力自然語言處理還屬于探索階段。文獻[3]利用文本挖掘模型輔助電力操作票校驗,提升操作票校驗的效率和準確性。文獻[4]采用CNN對電力設備缺陷描述短句文本分類,相比起傳統(tǒng)機器學習分類方法能有效降低分類錯誤率,但是CNN是通過增強局部感知來獲取文本特征,并不能學習上下文語義,從而影響分類準確度。文獻[5]使用雙向長短期記憶網(wǎng)絡(bidirectional long short-term memory,Bi-LSTM)模型根據(jù)因果關(guān)系對電力設備缺陷句子進行分類,為故障文本下一步挖掘提供條件。文獻[6]將循環(huán)卷積神經(jīng)網(wǎng)絡(recurrent convolutional neural networks,RCNN)分類模型用于電力變壓器缺陷文本分類中。RCNN網(wǎng)絡由RNN和CNN兩種網(wǎng)絡結(jié)合而成,RNN網(wǎng)絡用于處理順序敏感的序列問題,但存在選擇性遺忘信息的不足,隨著時間步長的更新會造成重要信息丟失,并且通過最大池化層提取特征的方法不具備選擇關(guān)注重要單詞的能力。

      注意力機制(attention mechanism)最早起源于視覺領域研究。注意力機制按人類視覺機制理解就是,人類的視覺系統(tǒng)一般會傾向于關(guān)注圖像的重要部分,并且忽略無關(guān)信息[7]。同樣,人們在閱讀一段文字時,也會根據(jù)經(jīng)驗捕捉重要信息。2017年Google將注意力機制應用到機器翻譯當中,并將注意力機制進行完善,提出基于多頭注意力(multi-head attention,MAT)機制的翻譯模型Transformer[8],Transformer打破了傳統(tǒng)翻譯模型基于RNN端到端的框架,在編碼過程和解碼過程完全使用多頭注意力機制,通過在不同子空間下進行自注意力(self-attention)計算挖掘詞與詞內(nèi)部聯(lián)系,使得機器能夠?qū)W習到長距離依賴關(guān)系,并選擇性的關(guān)注重要信息。

      為探索深度學習文本分類模型在電力文本識別中應用,對電力設備缺陷描述文本進行研究。根據(jù)缺陷描述文本的特點,將多頭注意力機制與RCNN結(jié)合,構(gòu)建基于多頭注意力循環(huán)卷積神經(jīng)網(wǎng)絡(MAT-RCNN)的電力設備缺陷描述文本分類模型,并通過實例顯示本文所提模型較傳統(tǒng)的淺層分類模型、深度學習分類模型在電力設備缺陷描述文本分類性能上表現(xiàn)更佳。

      1 預訓練語言模型

      1.1 文本預處理

      a)中文分詞。中文文本和英文文本的不同在于中文每個詞之間沒有空格分隔,所以需要對文本分詞處理。缺陷描述文本中有許多電氣領域?qū)S忻~,為了提升分詞的準確性,根據(jù)缺陷設備定級標準手冊與缺陷描述文本實際,自行建立電力缺陷描述詞典,見表2。

      表2 電氣缺陷描述部分詞匯Tab.2 Vocabularies of electrical defect descriptions

      采用基于漢字成詞能力的隱馬爾可夫模型(hidden Markov model,HMM)并結(jié)合Viterbi算法[9]動態(tài)求解最佳的分詞序列,通過建立詞典保證電力專有名詞切分的正確性。

      b)去停用詞。為了避免將無用詞作為特征,影響文本處理效率。對于無法體現(xiàn)設備缺陷嚴重程度的詞,如人名、變電站名稱、地名等,通過建立停用詞表,在分詞后利用二叉搜索樹將缺陷描述中的停用詞剔除。

      1.2 分布式文本表示

      預處理后的文本并不能直接被任何分類器所識別,必須將其轉(zhuǎn)換成為一個簡潔的、統(tǒng)一的、能夠被學習算法和分類器所識別的形式,才能進一步分析和處理。傳統(tǒng)分類模型采用句向量[10]表示文本,通過詞頻、布爾值等計算方法獲得權(quán)重。但是這種基于詞頻計算的表達方式并不能很好地表達句子語義,例如“電機表面溫度>120 ℃”和“120 ℃>電機表面溫度”在句義上完全不同,但是傳統(tǒng)表示方法會將其表示為相同的句向量。并且傳統(tǒng)方法將每個單詞獨立化,這就無法體現(xiàn)詞語的相關(guān)性,例如 “視窗鏡 破裂”與“視窗鏡 破損”等,會被表示為不同詞組。

      Word2vec[11-12]是Google提出來的一種文本分布式表示方法,通過運用層次Softmax[13]和負采樣2種方式,可以無監(jiān)督地深度學習語義信息,并生成表征語義的低維度稠密詞向量。這種方法在近義詞描述、語義表達以及詞之間關(guān)聯(lián)度方面要優(yōu)于傳統(tǒng)方法。

      本文采用Word2vec中連續(xù)詞袋(continuous bag-of-words,CBOW)模型,CBOW模型是通過上下文的詞語預測中間的詞,從而得到中間詞的向量。以預處理后的電力缺陷描述作為語料,訓練出每個詞的向量表示,選取部分詞向量通過t分布隨機鄰域嵌入(t-distributed stochastic neighbor embedding,T-SNE)降至二維空間展示,如圖1所示。

      圖1每個點代表每個詞所對應的詞向量,語義相近的單詞如“地刀”和“刀閘”、“主變”和“變壓器”在二維空間圖上距離較近。語義相差較大的單詞如“硅膠”與“斷路器”二者距離相差較遠。由此可見,訓練的詞向量能在一定程度上刻畫出詞之間的語義距離。根據(jù)電力設備用語規(guī)范[14]將同義詞向量進行合并,語義存在差別的近義詞向量不合并。

      圖1 二維空間的詞向量Fig.1 Word vector in two-dimensional space

      2 MAT-RCNN網(wǎng)絡分類模型

      2.1 多頭注意力機制

      注意力機制本質(zhì)上是一個查詢(query)到一系列鍵-值對的映射。在計算注意力值時,需要將query和每個key進行相似度計算,得到權(quán)重。多頭注意力采用縮放點積注意力(scaled dot-product attention)求取注意力值[8]:

      (1)

      與傳統(tǒng)注意力機制不同,多頭注意力機制進行了多次注意力計算,從而能在不同子空間表示中多維度學習序列的關(guān)鍵信息,其結(jié)構(gòu)如圖2所示。

      h—多頭注意力頭數(shù)即注意力運算次數(shù);X—輸入文本矩陣。圖2 多頭注意力結(jié)構(gòu)Fig.2 Multi-head attention structure

      首先,對輸入矩陣X進行線性變換;然后,輸入到縮放點積注意力函數(shù)中,重復h次;最后將所有的注意力值進行拼接處理,并進行線性變換。

      ti=fA(XWiQ,XWiK,XWiV),

      (2)

      T=[t1…th]WO.

      (3)

      2.2 GRU結(jié)構(gòu)

      門控循環(huán)單元(gated recurrent unit,GRU)是LSTM的一種變體,適用于分析時間序列數(shù)據(jù)[15-16],其結(jié)構(gòu)如圖3所示。GRU將LSTM中的輸入門和遺忘門合并成更新門,相比LSTM的三門結(jié)構(gòu),GRU的兩門結(jié)構(gòu)參數(shù)更少;因此,在保證效果的同時簡化內(nèi)部結(jié)構(gòu),縮短訓練時長。

      圖3 GRU結(jié)構(gòu)Fig.3 GRU structure

      rt=σ(Wr·[ht-1,xt]),

      (4)

      zt=σ(Wz·[ht-1,xt]),

      (5)

      (6)

      (7)

      式(4)—(7)中:Wz、Wr、W為權(quán)重矩陣;E為單位向量;[…,…]表示2個向量的拼接;“·”表示矩陣相乘。

      2.3 MAT-RCNN網(wǎng)絡模型

      本文根據(jù)多頭注意力機制和RCNN的特點,提出一種MAT-RCNN分類模型,模型由輸入層、注意力層、RCNN層、輸出層組成,模型架構(gòu)如圖4所示。

      圖4 MAT-RCNN模型架構(gòu)Fig.4 MAT-RCNN model structure

      a)輸入層。將預訓練的Word2vec詞向量輸送到文本詞嵌入層,可將句子變換成可以被神經(jīng)網(wǎng)絡處理的文本矩陣。

      以最長文本長度L作為模型輸入大小,文本長度不足的使用零填充。句子中第i個詞向量表示為ci(1≤i≤L),得到L×d的文本矩陣

      (8)

      b)注意力層。按照2.1節(jié)計算出多頭注意力T,將輸入矩陣D與T進行殘差連接,歸一化后輸出文本矩陣:

      D′1=fRC(D,T),

      (9)

      D1=fLN(D′1).

      (10)

      式(9)、(10)中:輸出矩陣D1∈RL×d;fRC為殘差連接操作[8];fLN為層歸一化操作[8]。

      c)RCNN層。注意力層輸出的文本矩陣需要RCNN進一步提取特征。單向GRU網(wǎng)絡對全文信息學習能力較弱,因此采用雙向GRU網(wǎng)絡(Bi-GRU)對文本序列學習,進一步提取特征,如圖5所示。

      圖5 Bi-GRU示意圖Fig.5 Bi-GRU structure

      Bi-GRU網(wǎng)絡由2層GRU網(wǎng)絡和注意力層輸出組成,左右使用GRU網(wǎng)絡分別學習當前詞gi的左上下文表示clt(gi)和右上下文表示cr(gi),再與當前詞的注意力詞向量c(gi)∈D1連接,構(gòu)成后續(xù)卷積層的輸入xi:

      (11)

      (12)

      xi=[clt(gi),c(gi),cr(gi)].

      (13)

      卷積部分使用列數(shù)與xi相同,行數(shù)為1的卷積核W(2)∈R1×3d,步長為1,激活函數(shù)為tanh,將Bi-GRU網(wǎng)絡的輸出通過卷積層進行卷積運算得到卷積結(jié)果

      (14)

      與文獻[6]采用的池化層不同,本模型的池化層采用全局平均池化 (global average pooling,GAP)[17],卷積結(jié)果送入池化層進行特征采樣。通過GAP采樣得到特征信息y(3)∈R3d。

      d)輸出層。將最終提取的特征向量y(3)傳遞到輸出層。采用Softmax函數(shù)計算每類概率Pi,根據(jù)概率最大值確定文本所屬類別。訓練時采用隨機失活率(dropout)機制與L2正則化提高模型泛化能力[18]。

      優(yōu)化算法采用自適應矩估計法(adaptive moment estimation,ADAM)對隨機目標函數(shù)執(zhí)行一階梯度優(yōu)化。模型的目標函數(shù)為交叉熵損失函數(shù)

      (15)

      式中:N為類別個數(shù);Pi為預測類別的概率分布;yi為樣本類別真實分布。

      3 算例分析

      3.1 樣本情況與分類評價指標

      為研究本文模型對電力設備缺陷文本的分類效果,選取廣西電網(wǎng)缺陷管理系統(tǒng)2016至2019年的2 150條一次設備缺陷描述文本進行研究,文本均已全部標注缺陷等級,并逐條核對。隨機選取215條數(shù)據(jù)作為測試集,其余數(shù)據(jù)平均分為5份,每份387條數(shù)據(jù),4份為訓練數(shù)據(jù),1份為驗證數(shù)據(jù),進行5次交叉驗證,以測試集結(jié)果作為模型的最終評價。

      在二分類問題中常采用評價指標為

      (16)

      式中:準確率為P=Tp/(Tp+Fp);TP為正例中預測正確的部分,F(xiàn)P為負例中預測正確的部分;召回率為R=Tp/(Tp+FN),F(xiàn)N為正例中預測錯誤的部分。

      由于電力缺陷文本分類可分為3個缺陷等級,因此屬于多分類問題,為了綜合評價模型對每類的分類情況,采用宏平均綜合指標[5-6]

      (17)

      式中宏準確率MP、宏召回率MR定義如下:

      (18)

      式中n為分類類別個數(shù)。

      3.2 實驗條件及參數(shù)設置

      本文的實驗環(huán)境:CPU為 Intel Core i7-8550U,具有4個處理核心;主頻1.8 GHz;編程語言為Python;模型開發(fā)架構(gòu)為Tensorflow。模型經(jīng)過調(diào)參后,具體參數(shù)見表3。

      表3 模型參數(shù)設置Tab.3 Model parameter setting

      模型評價指標(MF1)如圖6所示,損失值(fLoss)曲線如圖7所示。由圖6、圖7可見,隨著迭代次數(shù)增加,訓練過程趨于平穩(wěn),模型的評價指標與損失值均趨于收斂。當?shù)螖?shù)達到30時,訓練集MF1=97.88%,驗證集MF1=95.91%。

      圖6 訓練評價指標曲線Fig.7 Training evaluation index curves

      圖7 訓練損失值曲線Fig.7 Training loss value curves

      3.3 實驗結(jié)果及分析

      3.3.1 多頭注意力超參數(shù)取值研究

      表4 不同參數(shù)實驗結(jié)果Tab.4 Experimental results of different parameters

      可見,當維度相同時,隨著頭數(shù)h增加,模型的分類效果越好,這也說明了多頭注意力的優(yōu)點,通過增加頭數(shù)h數(shù)量,模型可從多個方面考慮文本序列內(nèi)部信息,深度學習文本語義特征,從而提升模型性能。

      3.3.2 注意力可視化

      多頭注意力機制可通過學習缺陷文本內(nèi)所有詞之間聯(lián)系,以分配不同詞語相應權(quán)重的方式自動捕獲重要信息,將這些權(quán)重進行可視化操作來體現(xiàn)注意力機制的有效性[19-20]。以“遙控合閘時后臺發(fā)控制回路斷線信號現(xiàn)場檢查發(fā)現(xiàn)合閘線圈燒壞”為例,輸出某一子空間的注意力矩陣,其注意力分布如圖8所示。

      圖8 注意力可視化結(jié)果Fig.8 Visualization result of attention mechanism

      圖8中縱坐標為方面詞,橫坐標為文本單詞,色塊的深淺代表兩詞之間的關(guān)聯(lián)程度,關(guān)聯(lián)性越強獲得的權(quán)重也越大,同時注意力對這類信息的關(guān)注程度越高。

      對缺陷分析可知,由于合閘線圈燒壞導致合閘回路斷線,后臺才發(fā)出控制回路斷線信號。因此,合閘線圈燒壞與控制回路斷線信號之間存在內(nèi)在聯(lián)系。圖8中方面詞“合閘線圈”向量中,“回路 斷線 信號”以及“燒壞”所對應色塊很深,說明注意力關(guān)注到了“回路 斷線 信號”,并且捕捉到與“燒壞”這個狀態(tài)詞;同樣,方面詞“燒壞”向量中,“遙控”以及“控制 回路 斷線 信號”對應的色塊很深,說明這些信息和方面詞之間有很強的關(guān)聯(lián)度。在2個方面詞中都同時關(guān)注到了“控制 回路 斷線 信號”這個關(guān)聯(lián)信息,但對應的其余部分顏色相對較淺,說明注意力對其余部分并未過多關(guān)注。

      3.3.3 與傳統(tǒng)模型分類效果對比實驗

      為對比本文模型與傳統(tǒng)文本分類模型分類效果,分別選取詞頻與逆文檔頻率 (term frequency-inverse document frequency,TF-IDF)、潛在語義索引(latent semantic indexing,LSI)、隱含狄利克雷分布主題模型(latent Dirichlet allocation,LDA)3種特征提取方法。分類器選擇樸素貝葉斯(naive Bayesian,NB)、支持向量機(support vector machine,SVM)、決策樹(decision tree,DT)。實驗結(jié)果如圖9所示。

      圖9 傳統(tǒng)文本分類模型實驗結(jié)果Fig.9 Experimental results of traditional text classification models

      從表4和圖9分析可知本文模型在分類效果上優(yōu)于傳統(tǒng)分類模型。因為傳統(tǒng)分類模型的特征提取方法假設每個詞之間是相互獨立,因此無法學習詞之間的關(guān)聯(lián)信息,所采用的分類器僅能淺層分析文本語義。而深度學習模型可以無監(jiān)督地學習詞之間的相關(guān)度,利用神經(jīng)網(wǎng)絡進一步提取語義信息,所以分類效果更佳。

      3.3.4 與CNN、RNN、RCNN模型對比實驗

      對比提出的MAT-RCNN模型與CNN、RNN、RCNN在分類性能上的優(yōu)劣,采用相同方法進行實驗,其中CNN模型為文獻[4]的模型,RNN模型分別采用Bi-GRU和Bi-LSTM[5],RCNN模型選用文獻[6]中的模型。實驗結(jié)果均在每個模型最優(yōu)參數(shù)下獲得,實驗結(jié)果如圖10所示。

      圖10 與CNN、RNN、RCNN模型對比結(jié)果Fig.10 Comparison results of CNN,RNN and RCNN models

      如圖10所示,本文所提出的模型在分類效果上要優(yōu)于其他對比模型。CNN模型的MF1最低,這是由于CNN是通過卷積核逐塊掃描的方法提取特征,因此無法關(guān)注到上下文的語義聯(lián)系。Bi-GRU與Bi-LSTM分類效果相差不大,但Bi-GRU的分類效果要稍好于Bi-LSTM,這種雙向的RNN循環(huán)結(jié)構(gòu)在一定程度上能獲取上下文信息。RCNN在雙向循環(huán)結(jié)構(gòu)的基礎上加入最大池化層,在獲取上下文信息的同時較大程度保留關(guān)鍵語義,在分類效果上優(yōu)于雙向RNN模型。本文所提出的模型利用多次注意力計算獲取文本內(nèi)部聯(lián)系,從而突出文本重要特征,并通過RCNN進一步提取語義信息,因此在語義理解方面要優(yōu)于對比模型。

      對各個模型訓練耗時與測試耗時進行研究,由于詞向量維度大小會對耗時產(chǎn)生影響,詞向量越大耗時越長,詞向量維度在50~150之間變化時,模型的綜合指標MF1變化幅度不超過0.6%。因此,為了客觀地對每個模型訓練耗時與測試耗時進行測試,將輸入詞向量維度設置為128,迭代次數(shù)為30次,分別對每個模型進行實驗,結(jié)果見表5。

      由表5可知,隨著模型的復雜程度增加,模型的耗時也會增加。由于CNN模型采用不同卷積核并行運算,因此耗時最少。Bi-GRU模型訓練耗時少于Bi-LSTM模型,因為GRU模型的兩門設計相比起LSTM的三門設計,結(jié)構(gòu)簡單,訓練耗時少,這也是本文模型的RCNN網(wǎng)絡層采用Bi-GRU網(wǎng)絡的原因。本文模型由于模型結(jié)構(gòu)相比于對比模型復雜,因此訓練耗時較長,但是測試耗時相對于對比模型相差不大,在實際應用中僅需加載訓練好的模型對測試數(shù)據(jù)進行計算,所以實際中僅用考慮測試耗時,模型測試耗時為1.005 s,遠低于人工分類耗時。

      表5 深度學習模型分類性能對比Tab.5 Performance comparisons of deep learning models

      4 結(jié)束語

      采用多頭注意力機制與RCNN對電力設備缺陷描述文本實現(xiàn)自動分類,通過實驗證明多頭注意力機制結(jié)合RCNN在語義學習和缺陷描述文本分類效果上優(yōu)于CNN、RNN、RCNN等模型。所提方法可以通過語義學習有效地識別缺陷的嚴重程度,提升了巡檢效率。

      猜你喜歡
      注意力語義卷積
      讓注意力“飛”回來
      基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
      語言與語義
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標跟蹤算法
      “揚眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      A Beautiful Way Of Looking At Things
      “上”與“下”語義的不對稱性及其認知闡釋
      認知范疇模糊與語義模糊
      一種基于卷積神經(jīng)網(wǎng)絡的性別識別方法
      舞钢市| 新兴县| 青海省| 驻马店市| 丰都县| 宝丰县| 镇江市| 大城县| 于都县| 宜州市| 鹤峰县| 资兴市| 陕西省| 廊坊市| 凯里市| 兴山县| 永登县| 宁津县| 图木舒克市| 宁南县| 澄迈县| 上犹县| 保康县| 寻乌县| 杂多县| 新野县| 康保县| 衡东县| 阳谷县| 方城县| 永城市| 吴桥县| 德保县| 闸北区| 芦溪县| 石景山区| 安阳县| 兖州市| 宜春市| 澜沧| 扎囊县|