裴小鄧,羅 林,陳 帥,王 喬
(遼寧石油化工大學信息與控制工程學院,遼寧撫順113001)
電力變壓器是電力系統(tǒng)中關鍵電氣設備之一,一旦變壓器因故障而停止工作,將會對整個區(qū)域的生產生活造成不可估量的損失。因此,實時識別電力變壓器的運行狀態(tài)是非常必要的[1]。電力變壓器在實際運行條件下受電氣應力、機械應力和熱壓力等因素的影響,其絕緣材料與變壓器油會發(fā)生緩慢的化學變化,進而放出CO2、CO 氣體以及生成某些碳氫化合物(CH4、C2H6等)溶解在油中。當變壓器發(fā)生故障時,將加速這些化學反應的進行,所生成的化合物種類及比例與放電、放熱等故障有著密切的聯系[2]。
基于DGA 的電力變壓器故障診斷方法主要分為傳統(tǒng)診斷方法和人工智能診斷方法。傳統(tǒng)診斷方法主要有特征氣體法和比值法(包括IEC 三比值法、改進的IEC 三比值法)。雖然這些方法便于工程應用,但是編碼并不完備,對于某些故障很難找到與之對應的編碼,因此診斷的準確率較低。人工智能診斷方法主要包括模糊理論[3]、專家系統(tǒng)[4]、神經網絡[5]、支持向量機[6]等。雖然這些方法取得了較好的應用效果,提高了故障識別率,但同時存在著一定不足。模糊理論診斷法隸屬函數難以確定,需要大量的實際故障數據;專家系統(tǒng)診斷法需要大量的專家經驗,獲取到的經驗難以表達,推理能力較弱;神經網絡診斷法存在易陷入局部最優(yōu)、收斂速度慢、泛化能力差等缺點;支持向量機診斷法在本質上屬于二分類問題,處理多分類問題時需要經歷“一對一”或“一對多”等復雜的過程,核函數和正則化參數選擇困難。
隨著機器學習的發(fā)展,深度學習的發(fā)展推動了人工智能技術在變壓器DGA 故障診斷方面的諸多應用,如深度置信網絡(Deep Belief Network,DBN)[7]、深度自編碼網絡(Deep Auto -Encoder Network,DAEN)[8]、卷積神經網絡(Convolutional Neural Network,CNN)[9]。文獻[10]提出了一種基于深度置信網絡構建變壓器故障診斷模型,利用快速歧化算法加快了網絡收斂速度,在診斷的準確率上較BPNN 和SVM 有了提升。文獻[11]提出了一種基于貝葉斯正則化深度信念網絡的電力變壓器故障診斷方法,克服了傳統(tǒng)的DBN 方法在大量無標簽樣本的情況下才能得到較高準確率的缺點。文獻[12]提出了一種基于深度自編碼網絡的電力變壓器故障診斷方法,解決了一些樣本數據缺少標簽的問題,但是該方法需要大量的預訓練樣本,在預訓練樣本數據較少時,診斷的效果并不理想。文獻[13]提出了一種基于卷積神經網絡的變壓器故障診斷方法,雖然克服了一些淺層機器學習方法存在的問題,但是池化類型和網絡深度的選擇并未說明,卷積網絡強大的特征提取能力并未得到展示。
本文提出了一種基于卷積神經網絡的變壓器故障診斷方法,利用卷積層提取特征和池化層強化重要特征的能力來解決特征提取和過擬合的問題,達到提高診斷準確率的目的。
一個完整的卷積神經網絡一般是由輸入層、卷積層、池化層、展開層、全連接層、輸出層組成,其中卷積層和池化層是整個網絡的核心。
卷積層是通過使用卷積核對上一層的部分區(qū)域進行卷積運算,提取出相應的特征信息。卷積層最重要的兩個特點是稀疏連接和權值共享,這兩點也是卷積神經網絡和普通的神經絡本質上的區(qū)別。稀疏連接和全連接的不同之處在于卷積層中的神經元只與上一層的部分神經元相連,權值共享的優(yōu)點在于特征提取時可以不考慮局部特征的位置,同時可以有效地減少卷積層網絡參數的數量,從而降低因參數過多而發(fā)生過擬合的幾率。全連接、稀疏連接、權值共享示意圖如圖1 所示。
圖1 全連接、稀疏連接、權值共享示意圖
卷積層的輸出結果為:
卷積層提取到的特征在傳入下一層之前,可以對其進行處理,池化是最常用的處理方式。通過池化層的處理,卷積層提取到的特征維度得到有效的壓縮,可以減少網絡中參數的數量,網絡的計算量得到降低,同時也降低網絡發(fā)生過擬合的幾率。池化有最大池化和平均池化兩種方式,最大池化是對某個區(qū)域的特征取最大化的操作,可以濾去一些不重要的特征信息。平均池化是對某個區(qū)域的特征進行平均化的操作,對一些不重要的特征信息并不像最大池化那樣完全濾去,而是淡化,以此來強化那些重要的特征信息。由此可見,模型經過池化處理后,其抗干擾能力和穩(wěn)定性都得到加強。
池化層的輸出結果為:
本文采用Softmax 回歸模型。Softmax 回歸模型是Logistic 回歸模型的推廣,常用于求解多分類問題。假設訓練集為{(x(1),y(1)),(x(2),y(2)),…,(x(m),y(m))},其中x(i)∈Rn+1,y(i)∈{1,2,3,4,…,k},當輸入樣本為x 時,可由激勵函數hθ(x)求出樣本屬于任意類別時的概率p(y=j|x)。假設函數將要輸出一個k維的向量來表示k 個估計的概率值,這些向量元素之和為1。激勵函數可表示為:
式中,θ1,θ2,…,θK∈Rn+1為模型參數項是對概率分布進行歸一化處理,使所有概率的和等于1。將θ 用一個K×(n+1)的矩陣可表示為:
接下來對Softmax 回歸代價函數進行分析。代價函數J(θ)見式(5)。在式(5)中,1{·}是指示性函數,運算規(guī)則為:1{表達式的值為真}=1,1{表達式的值為假}=0。
將樣本x 分類,分為第j 類的概率為:
在實現softmax 回歸算法時,通過在式中添加一個權重衰減項對過大的參數值進行懲罰?;貧w代價函數公式將表示為:
增加權重衰減項后,代價函數成為一個凸函數,這樣能防止優(yōu)化過程中陷入局部收斂,得到最優(yōu)解。為對其進行優(yōu)化,需要計算J(θ)的導數,其梯度公式為:
式中,?θjJ(θ)為向量,第l 個元素是J(θ)對θj第l 個分量的偏導數。利用梯度下降法對代價函數J(θ)進行最小化。每次迭代過程中都需要對參數進行更新。
式中,α 為學習率。
根據《變壓器油中溶解氣體分析和判斷導則》可知,變壓器發(fā)生故障狀態(tài)時共有氫氣(H2)、甲烷(CH4)、乙烷(C2H6)、乙烯(C2H4)、乙炔(C2H2)、一氧化碳(CO)、二氧化碳(CO2)七種氣體存在,本文選取其中五種氣體(H2、CH4、C2H6、C2H4、C2H2)作為變壓器故障診斷的輸入特征向量。選取正常N、局部放電PD、低能放電D1、高能放電D2、中低溫過熱T1、高溫過熱T2 作為卷積神經網絡的輸出向量。
本文將每種氣體(共五種)體積與氣體總體積之比作為卷積網絡診斷模型的輸入,按照式(10)做規(guī)范化處理。
對六種變壓器故障類型進行二進制編碼,結果如表1 所示。
卷積神經網絡處理的數據一般是m×n 的二維格式,但是本文用于診斷變壓器故障的數據是m×1 的一維格式,所以采用一維卷積神經網絡搭建診斷模型。由于數據維度小,只搭建了單層和雙層兩種診斷模型。
表1 變壓器故障類型編碼
CNN 模型診斷結構如圖2 所示。輸入層的大小為5×1,因此卷積層C1卷積核的大小有1×1、2×1、3×1、4×1 四種選擇。為了體現卷積層稀疏連接的優(yōu)勢,C1層只選擇卷積核大小為2×1、3×1、4×1三種進行實驗。
圖2 CNN 模型診斷結構
2.4.1 單層卷積診斷模型 當卷積層有K 個大小為m×1(m=2,3,4)的卷積核,可以提取到K 個大小為(6-m)×1 的特征圖。當池化層的大小為2×1,可以得到K 個大小為的 特征圖,經展開后共獲得K(6-m)/2 個特征。
2.4.2 雙層卷積診斷模型
(a)當卷積層C1有K1個大小為2×1 的卷積核,可以提取到K1個大小為4×1 的特征圖。當池化層P1的大小為2×1,可以得到K1個大小為2×1 的特征圖。當卷積層C2有K2個大小為2×1 的卷積核,可以提取到K2個大小為1×1 的特征圖,當池化層P2的大小為1×1,可以得到K2個大小為1×1 的特征圖,經展開后共獲得K2個特征。(b)當卷積層C1有K1個大小為3×1 的卷積核,可以提取到K1個大小為3×1的特征圖。當池化層P1的大小為2×1,可以得到K1個大小為2×1 的特征圖。當卷積層C2有K2個大小為2×1 的卷積核,可以提取到K2個大小為1×1 的特征圖。當池化層P2的大小為1×1,可以得到K2個大小為1×1 的特征圖,經展開后共獲得K2個特征。
全連接層的神經元個數設為32,卷積層和全連接層的激活函數為Relu。為防止過擬合,在全連接層后面使用Dropout 技術,比率設為0.2,學習率設為0.000 1,迭代次數設為2 500。
本文變壓器故障實驗基于python3.7 語言環(huán)境,在操作系統(tǒng)為Windows10 家庭中文版(64 位)、CPU為Intel(R) Core(TM) i5-5200U (2 201 MHz)、內存為8 G 聯想80FA 電腦上完成。
本文從相關文獻中一共獲取了393 條完整的變壓器DGA 數據進行實驗。將故障樣本按照7∶3 的比例劃分為訓練集和測試集。訓練集和測試集的分布狀況如表2 所示。
表2 訓練集和測試集的分布情況
為了保證實驗的準確性,將卷積網絡其他參數的設置保持一致(包括卷積核大小、池化類型的選擇、全連接層單元數目、學習率、Dropout 比率等參數)。卷積核數目對訓練集準確率、測試集準確率以及訓練損失的影響如圖3 所示。
圖3 卷積核數目對訓練集準確率、測試集準確率以及訓練損失的影響
從圖3 可以看出,當卷積核數目從1 增加到3時,訓練集準確率和測試準確率不斷提高,卷積核數目從3 增加到30 時訓練集準確率和測試準確率趨于平穩(wěn)。當卷積核數目從1 增加到4 時,訓練損失大幅減少,卷積核數目從4 增加到17 時總體上為下降趨勢,卷積核數目從17 增加到30 時有小幅度變化,總體是趨于平穩(wěn)的。由此可以得出,隨著卷積核數目的增加,訓練集和測試集的準確率并不會一直增大,訓練損失也不會一直減小。為了使訓練集和測試集準確率高,同時使訓練損失小,卷積核數目為17 時最為合適。
在卷積核數目為17、其他參數保持相同的情況下,選擇卷積核大小為2×1、3×1、4×1 來測試卷積核對模型性能的影響,從訓練損失和訓練準確率兩方面來比較說明。不同卷積核的訓練損失及訓練集準確率迭代圖如圖4 所示。
圖4 不同卷積核的訓練損失及訓練集準確率迭代圖
從圖4 可以看出,當卷積核大小為3×1 時,訓練損失最大,訓練集準確率最低;當卷積核大小為4×1 時,訓練損失最小,訓練準確率最高。該實驗證明,并不是卷積核越小訓練集準確率越高,訓練損失越小。為了使訓練集準確率高同時訓練損失小,卷積核大小為4×1 最為合適。
分別測試最大池化和平均池化對模型性能的影響,選擇卷積核數目為17,卷積核大小為4×1,池化層大小為2×1,其他的參數保持相同。不同池化層下的訓練損失、訓練集準確率、測試集準確率如表3 所示。從表3 可以看出,最大池化的訓練集和測試集準確率更高,訓練損失更小,證明最大池化使模型的診斷性能更為優(yōu)秀。
表3 不同池化層的訓練損失、訓練集準確率、測試集準確率
為了優(yōu)化模型性能,測試學習率和Dropout 比率對變壓器診斷結果的影響,結果如圖5 所示。
圖5 學習率和Dropout 比率對變壓器診斷結果的影響
從圖5 可以看出,當Dropout 比率一定時,診斷的準確率會隨著學習率的減小而增加。當學習率為0.100 0、0.010 0、0.001 0 時,Dropout 比率對診斷結果影響較大,當學習率為0.000 1 時,Dropout 比率對于診斷結果沒有影響。實驗結果表明,當學習率選擇合適時,模型并不會發(fā)生過擬合現象,證明了卷積層的稀疏連接和權值共享能夠有效地防止過擬合,同時也證明了池化層增強了模型的穩(wěn)定性。
為了測試網絡深度對模型診斷性能的影響,本實驗將對單層和雙層(單個卷積層加上單個池化層為一層網絡)卷積診斷模型的性能進行對比。單層模型參數選擇實驗最佳參數,即卷積核數目為17,卷積核大小為4×1,池化層選擇最大池化。雙層模型有2 種方式,單層卷積和雙層卷積診斷模型性能如表4 所示。卷積層中17-4×1 表示卷積核數目為17,卷積核大小為4×1,池化層中2×1表示池化層大小為2×1,池化類型同樣選擇最大池化。其余的參數單層和雙層保持一致(從結構上講,雙層是單層網絡的復制,僅設定單層網絡初始參數)。從表4 可知,單層和雙層的訓練損失、訓練集準確率、測試集準確率幾乎相同,證明了單層和雙層診斷模型的性能相同,這是由于DGA數據結構簡單,受網絡深度影響較小。
表4 單層卷積和雙層卷積診斷模型性能
從混淆矩陣、ROC 曲線、PR 曲線等多個方面來比較CNN、SVM、BPNN 模型診斷性能。CNN、BPNN、SVM 的混淆矩陣如圖6 所示。從圖6 可以看出,CNN 模型對于正常、低能放電、高能放電、中低溫過熱、高溫過熱狀態(tài)預測上效果較好,局部放電狀態(tài)的預測效果一般;BPNN 模型在高能放電、中低溫過熱、高溫過熱狀態(tài)的預測效果較好,在正常、局部放電、低能放電狀態(tài)的預測效果較差;SVM模型在高能放電、中低溫過熱、高溫過熱狀態(tài)的預測效果較好,在局部放電狀態(tài)的預測效果一般,在正常、低能放電狀態(tài)預測效果非常差。尤其是低能放電狀態(tài),SVM 模型預測準確率為0,BPNN 模型預測準確率為50%,而CNN 模型預測準確率為100%。實驗證明了CNN 模型的分類性能要明顯優(yōu)于BPNN 模型和SVM 模型。
圖6 CNN、BPNN、SVM 的混淆矩陣
不同模型的訓練集和測試集準確率如表5所示。
表5 不同模型的訓練集和測試集準確率 %
從表5 可以看出,CNN 模型的訓練集準確率和測試集準確率都超過了90%,明顯高于SVM 模型和BPNN 模型,這是由于CNN 模型特征提取能力要比SVM 和BPNN 強。SVM 模型訓練集和測試集的準確率都不高,說明SVM 模型在多分類問題上分類能力一般。BPNN 模型雖然訓練集準確率高達95.636%,但是訓練集的準確率只有85.593%,說明BPNN 模型的泛化能力較差,容易發(fā)生過擬合。
不同模型的ROC 曲線如圖7 所示。從圖7 可以看出,CNN模型ROC 曲線AUC 值高達0.99,比SVM 模型AUC 值高0.02,比BPNN 模型AUC 值高0.01,AUC 值接近的原因是由于樣本不平衡造成的,AUC 值受樣本數量影響較大,從混淆矩陣中可以看出BPNN、SVM 模型在高能放電、高溫過熱狀態(tài)預測結果非常出色,最終導致AUC 值接近。但是,CNN 模型的分類和泛化能力比SVM 和BPNN模型要優(yōu)秀。
圖7 不同模型的ROC 曲線
PR 曲線跟ROC 曲線相比,AUC 的值受樣本不平衡影響較小。不同模型的PR 曲線如圖8 所示。
圖8 不同模型的PR 曲線
從圖8 可以看出,CNN 模型PR 曲線AUC 值高達0.97,比SVM 模型AUC值高出0.07,比BPNN模型AUC 值高出0.05,證明CNN 模型的泛化和分類能力更為優(yōu)秀。
CNN 模型診斷準確率高的原因之一在于它強大的特征提取能力。為了驗證CNN 模型強大的特征提取能力,采用t-SNE(t-Distributed Stochastic Neighbor Embeding)技術,把CNN 模型提取到的高維特征映射成二維特征,并以散點圖的形式可視化出來。首先把CNN 模型的全連接層提取到的393個樣本的三十二維特征提取出來,然后利用t-SNE技術將393 個樣本的三十二維特征降為二維并展示出來。CNN 模型特征可視化如圖9 所示。從圖9 可以看出,相同的類聚集在一起,不同的類有一定的距離,聚類的準確率在98%以上,說明CNN 模型提取到的特征可分性好,證明CNN 模型有著優(yōu)秀的特征提取能力。
圖9 CNN 模型特征可視化
在變壓器診斷領域,淺層機器學習診斷方法雖然在診斷的精度上較傳統(tǒng)的方法有所提升,但是還存在著一些缺點,為克服這些缺點,構建基于卷積神經網絡的變壓器故障診斷模型。通過混淆矩陣、ROC 曲線、PR 曲線多方面實驗驗證,基于卷積神經網絡的變壓器故障診斷方法跟支持向量機、BP 神經網絡相比,特征提取和泛化能力更強,診斷的準確率更高。實驗結果表明,雙層卷積網絡模型診斷準確率不一定比單層的高,卷積核的數量并不是越多越好,卷積核的尺寸并不是越小越好,因此卷積網絡的深度、核數目、核大小要根據數據的實際情況來選擇。對于池化層的大小和全連接層神經元數目的選擇并未討論,這也是下一步研究的重點。