甘團杰,鄭建涵,張 艷,張 昶,黃 敏,李 中
(1.廣東電網(wǎng)有限責任公司江門供電局,廣東 江門 529000;2.華南理工大學軟件學院,廣東 廣州 510006;3.華北電力大學電子與通信工程系,河北 保定 071003)
變壓器是電網(wǎng)中連接各個區(qū)域輸配電的樞紐,變壓器一旦發(fā)生故障,嚴重影響電力系統(tǒng)的正常運行,造成負荷大面積失電等嚴重事故,并帶來一定的經(jīng)濟損失[1]。識別和監(jiān)測變壓器的狀態(tài),提早發(fā)現(xiàn)變壓器狀態(tài)的惡化趨勢,避免其發(fā)展到故障程度,規(guī)避事故的發(fā)生,有利于降低電力系統(tǒng)的脆弱性[2],因此開展變壓器的狀態(tài)識別研究具有重要的理論意義和工程應(yīng)用價值。
傳統(tǒng)的變壓器狀態(tài)識別方法主要包括貝葉斯網(wǎng)絡(luò)[3]、支持向量機[4]、模糊評判[5]和特征氣體濃度比值法[6]等,傳統(tǒng)方法原理簡單,對數(shù)據(jù)量的要求比較小,但存在特征提取和利用能力不足的問題,導(dǎo)致狀態(tài)識別精度有限。隨著機器學習技術(shù)的發(fā)展,出現(xiàn)了基于隨機森林[7]、卷積神經(jīng)網(wǎng)絡(luò)[8]、深度信念網(wǎng)絡(luò)[9]和自動編碼器[10]等方法,在滿足訓(xùn)練和測試數(shù)據(jù)同來源和同分布情況下,能夠很好地學習特征取得很高的狀態(tài)識別精度。然而,在實際應(yīng)用中,模型訓(xùn)練和測試所用數(shù)據(jù)的來源和分布往往是不一致的,這導(dǎo)致了這些方法存在著泛化能力不足的問題。
遷移學習(Transfer Learning,TL)是近年來發(fā)展迅速的一種方法,它能夠把在一個領(lǐng)域(源域)內(nèi)學習到的知識進行提取,并遷移到新的領(lǐng)域中,以幫助新領(lǐng)域(目標域)中的學習任務(wù),可以有效地解決算法模型泛化能力不足的問題[11]。領(lǐng)域自適應(yīng)(Domain Adaptation,DA)是遷移學習的重要分支,已在機械軸承[12-13]、齒輪箱[14-15]、風力渦輪機[16]等設(shè)備的狀態(tài)識別中應(yīng)用較多,在電力設(shè)備狀態(tài)識別中應(yīng)用前景良好[17]。本文利用一種基于流形嵌入和動態(tài)分布對齊的領(lǐng)域自適應(yīng)方法訓(xùn)練了一個泛化能力強的變壓器狀態(tài)識別分類模型。首先,建立了多尺度的時頻分析方法,利用變分模態(tài)分解對變壓器振動信號進行分解,并且分別提取原始信號和模態(tài)分量的時域、頻域、熵特征,構(gòu)建完備的變壓器狀態(tài)描述特征空間;然后,將特征空間嵌入格拉斯曼流形空間中進行流形特征變換,并對變換后的源域及目標域的流形特征進行動態(tài)分布對齊,量化考慮了流形特征邊緣分布和條件分布對變壓器狀態(tài)識別的重要性;最后,基于結(jié)構(gòu)風險最小化原則迭代訓(xùn)練得到變壓器狀態(tài)識別分類器。
遷移學習是一種機器學習方法,能夠提取源域內(nèi)學習到的知識,并將其遷移到不同但相關(guān)的目標域中,以幫助學習目標任務(wù)。領(lǐng)域是遷移學習的主體,主要由數(shù)據(jù)和數(shù)據(jù)的概率分布構(gòu)成,記為D={X,Y,P(x,y)},其中,x和y分別為數(shù)據(jù)特征和標簽,X和Y分別為數(shù)據(jù)所處的特征空間和標簽空間,P(x,y)為數(shù)據(jù)服從的分布。源域Ds是訓(xùn)練樣本所在的、有豐富標注和知識的領(lǐng)域,目標域Dt是目標測試樣本所在的、待學習的領(lǐng)域。本文記號約定,具有下標s 的量為源域相關(guān),具有下標t 的量為目標域相關(guān)。知識從源域傳遞到目標域的過程即為遷移。當源域和目標域的特征空間及標簽空間均相同,僅有數(shù)據(jù)分布不同(領(lǐng)域偏移)時,遷移學習被稱為領(lǐng)域自適應(yīng)。領(lǐng)域自適應(yīng)的目標是利用源域數(shù)據(jù)去學習目標域上的1 個預(yù)測函數(shù)f:xt?yt,使得f在目標域上擁有最小的預(yù)測誤差O′,即:
遷移學習的核心是找到并充分利用源域和目標域之間的相似性,如何度量這種相似性是首先需要解決的問題。在領(lǐng)域自適應(yīng)中,相似性被刻畫為領(lǐng)域之間的分布差異,則領(lǐng)域自適應(yīng)的目標可以被描述為尋求某種方法,使得領(lǐng)域之間的分布差異最小。
領(lǐng)域偏移會導(dǎo)致源域模型直接應(yīng)用于目標域時精度不高,出現(xiàn)泛化能力弱的問題?;诹餍吻度牒蛣討B(tài)分布對齊的領(lǐng)域自適應(yīng)方法因其具有一系列優(yōu)良性質(zhì)[18],能夠減弱領(lǐng)域偏移的影響,提高模型精度和泛化能力。
基于流形嵌入的領(lǐng)域自適應(yīng)旨在將源域和目標域映射到同一個流形空間中,借助流形空間良好的幾何結(jié)構(gòu),將源域和目標域變換到同一子空間中,能夠簡化領(lǐng)域之間的分布差異的計算。
本文采用測地線流式核(Geodesic Flow Kernel,GFK)方法[19]。首先,利用主成分分析將源域和目標域的特征空間映射到格拉斯曼流形空間G中,分別記為Ss和St,每個嵌入G中的特征子空間被看做是G中的1 個點。GFK 在G中尋找1 條測地線Φ(·),使得源域Ss=Φ(0)可以通過這條測地線經(jīng)由g(·)變換到目標域St=Φ(1)。其計算如式(2)所示:
GFK 提取出流形可遷移特征后,對源域和目標域特征進行分布自適應(yīng),即減小分布之間的差異。然而,邊緣分布和條件分布并不是同等重要的,當源域和目標域數(shù)據(jù)本身存在較大差異時,邊緣分布自適應(yīng)更重要,當兩域數(shù)據(jù)有較高相似性時,條件分布自適應(yīng)更重要。因此,引入動態(tài)平衡因子μ對邊緣分布和條件分布進行量化[18],μ能夠根據(jù)實際數(shù)據(jù)分布的情況,動態(tài)地調(diào)整每個分布的重要性,動態(tài)分布對齊函數(shù)如式(3)所示。
式中:c∈{1,2,...,C},為分類標簽;P和Q分別為數(shù)據(jù)的邊緣分布和條件分布;Df(Ps,Pt)和Df(c)(Qs,Qt)為對應(yīng)的分布自適應(yīng)函數(shù)。
結(jié)合最大均值差異(Maximum Mean Difference),在再生核希爾伯特空間(記為Hk)中,式(3)轉(zhuǎn)化為式(4),即:
但是直接計算Df(c)(Qs,Qt)存在困難,利用ADistance[20]對其進行估算,計算得到的源域目標域之間的邊緣分布差異記作AM,條件分布差異記作AC,則動態(tài)平衡因子μ可以用式(5)估算得到:
最后,基于結(jié)構(gòu)風險最小化原則設(shè)計的領(lǐng)域自適應(yīng)損失函數(shù)L如式(6)所示,其中,首項為交叉熵損失函數(shù)l,即經(jīng)驗風險;第2 項為避免源域訓(xùn)練過擬合的正則化項;第3,4 項為分布差異度量及相應(yīng)的正則化項;Rf為拉普拉斯正則化項;η,λ,ρ為權(quán)衡因子。即:
變壓器的振動復(fù)雜[21]通常由多種模態(tài)疊加而成,包含著大量信息。為了挖掘其中蘊含的變壓器狀態(tài)信息,需要對振動信號進行分解,抽取出有用的模態(tài)信息,削弱噪聲模態(tài)信息和無關(guān)模態(tài)信息的干擾。
作為一種自適應(yīng)、準正交、完全非遞歸的模態(tài)分解方法,變分模態(tài)分解(Variational Mode Decomposition,VMD)[22]旨在將信號分解為指定個數(shù)的本征模函數(shù)(Intrinsic Mode Function,IMF),并且能夠在求解變分問題最優(yōu)解的過程中自適應(yīng)地匹配每個IMF 的最佳中心頻率和有限帶寬。同經(jīng)典的經(jīng)驗?zāi)B(tài)分解[23]相比,VMD 克服了端點效應(yīng)和模態(tài)混疊問題,能夠分解得到包含多個不同頻率尺度且相對平穩(wěn)的IMF。VMD 的算法核心在于構(gòu)建和求解變分問題。式(7)—式(12)為VMD 計算過程。
假設(shè)原始信號f(t)被分解為K個IMF,為了保證第k個(k=1,2,…,K)IMF 分量uk具有中心頻率ωk和有限帶寬,以及IMF 估計帶寬之和最小,并且約束所有IMF 之和等于原始信號,則可以構(gòu)造出如式(7)所示的變分問題,其中δ(t)為狄拉克函數(shù),*為卷積運算符。即:
為了高效地求解式(7),并且降低高斯噪聲的干擾,引入拉格朗日乘子λ和二次懲罰因子α,將約束變分問題轉(zhuǎn)化為非約束變分問題,得到式(8):
利用交替方向乘子迭代算法結(jié)合傅里葉等距變換,優(yōu)化得到IMF,交替尋優(yōu)迭代后更新的uk,ωk,λ的表達式如式(9)—式(11)所示,迭代的終止條件如式(12)所示。其中為對應(yīng)·的傅里葉變換;τ為噪聲容忍度;ε為收斂容差。即:
變壓器狀態(tài)發(fā)生變化時,變壓器的振動特征隨之發(fā)生變化,主要包括時域的振動幅值和概率分布,頻域的不同頻率能量分布,以及熵值反映的結(jié)構(gòu)分布和復(fù)雜度等。為了挖掘變壓器振動信號的狀態(tài)信息和固有屬性,構(gòu)建完備的變壓器狀態(tài)描述特征空間,對變壓器振動的原始信號和經(jīng)過VMD分解后的模態(tài)分量進行了多尺度的特征提取。
使用統(tǒng)計方法提取了15 種時域特征,表達式如表1 所示,其中xi為振動信號時序序列,i=1,2,...,N,x為振動信號時序序列,N為數(shù)據(jù)樣本點數(shù)。特征F1-F8為有量綱的參數(shù),分別為絕對峰值、峰峰值、均值、絕對均值、方根幅值、方差、標準差、均方根值;特征F9-F14為無量綱的參數(shù),分別為峰度、偏度、波形因子、峰值因子、脈沖因子、裕度因子。
表1 時域特征參數(shù)表達式Table 1 Expression of time-domain feature parameters
使用統(tǒng)計方法提取了10 種頻域特征,表達式如表2 所示,其中,s為信號x的頻譜;j=1,2,...,J,J為譜線數(shù);fj為第j條譜線的頻率值。特征F15反映頻域振動能量的大小,特征F16-F19,F23-F24反映頻譜的集中程度,F(xiàn)20-F22反映主頻帶位置的變化。此外,還提取了能夠反映變壓器狀態(tài)動態(tài)變化的近似熵[24]、樣本熵[25]、模糊熵[26]、排列熵[27]。
表2 頻域特征參數(shù)表達式Table 2 Expression of frequency-domain feature parameters
針對現(xiàn)有的變壓器狀態(tài)識別模型泛化能力低的問題,提出了一個基于領(lǐng)域自適應(yīng)的模型,流程如圖1 所示。
圖1 基于領(lǐng)域自適應(yīng)的變壓器狀態(tài)識別模型Fig.1 Transformer condition identification model based on domain adaptation
基于領(lǐng)域自適應(yīng)的變壓器識別模型主要步驟為:(1)數(shù)據(jù)采集與預(yù)處理階段。使用加速度計采集不同來源(包括變壓器型號、工況、采集部位的不同等)的變壓器振動數(shù)據(jù);(2)多尺度特征提取階段。首先將原始振動信號進行變分模態(tài)分解,然后將模態(tài)分量和原始信號分別進行3 個域的特征提取,并且對各特征進行z分數(shù)標準化,構(gòu)建一個完備的狀態(tài)特征空間;(3)領(lǐng)域自適應(yīng)階段。首先將特征空間映射到格拉斯曼流形空間中,然后通過動態(tài)分布對齊,對邊緣分布和條件分布的重要性進行量化評估,基于梯度回傳最小化式(6)迭代訓(xùn)練分類器,最終輸出變壓器狀態(tài)識別分類器f。其中,變分模態(tài)分解(VMD)以及基于流形嵌入和動態(tài)分布對齊(MEDA)的參數(shù)設(shè)置如表3 所示。
表3 模型參數(shù)設(shè)置Table 3 Setting of model parameters
使用振動傳感器采集了某變壓器的振動信號和工況數(shù)據(jù),每5 min 進行1 次采樣,每次采樣時長為1 s,采樣頻率為10 kHz,共采集到238 組樣本。所測變壓器參數(shù)如表4 所示。
表4 所測變壓器的參數(shù)Table 4 Parameters of experimental transformer
在高低壓三相接線柱正下方均安裝了振動傳感器,安裝位置為距離油箱底部1/3 高度處,分別記為測點A,a,B,b,C,c,如圖2 所示。
圖2 振動傳感器測點安裝位置示意圖Fig.2 Installation position of vibration sensor at measuring point
不同測點的數(shù)據(jù)分布如圖3 所示,采集自不同部位的振動數(shù)據(jù)的分布特征有巨大差異,這會導(dǎo)致以單一來源數(shù)據(jù)訓(xùn)練的變壓器狀態(tài)識別模型泛化能力不足。
圖3 不同測點的數(shù)據(jù)分布Fig.3 Data distribution of different measuring points
按照額定電壓的1,+1.5%,+3%和高壓側(cè)額定電流的0,+20%,+40%,+60%對數(shù)據(jù)進行工況劃分,得到6 類工況數(shù)據(jù),如圖4 所示。
圖4 變壓器工況劃分Fig.4 Division of transformer conditions
原始數(shù)據(jù)(黑色線)和經(jīng)過VMD 得到的6 個模態(tài)分量(彩色線)的振動波形圖如圖5 所示,經(jīng)快速傅里葉變換得到的頻譜圖如圖6 所示。VMD 有效地將多模態(tài)疊加的振動信號分解成了頻率成分較為單一的多個分量,利于減少無關(guān)模態(tài)和噪聲的干擾。
圖5 原始信號及經(jīng)VMD分解的模態(tài)分量的振動波形圖Fig.5 Vibration waveforms of original signal and IMFs by VMD
圖6 原始信號及經(jīng)VMD分解的模態(tài)分量的振動頻譜圖Fig.6 Vibration spectrum for original signal and IMFs by VMD
對原始信號和經(jīng)VMD 分解的模態(tài)分量分別進行多尺度特征提取和特征歸一化后,使用基于流形嵌入和動態(tài)分布對齊的領(lǐng)域自適應(yīng)方法進行變壓器狀態(tài)識別實驗,模型識別準確率如表5 所示。
由表5 可知,目標域測點和源域測點相距越近,狀態(tài)識別準確率通常越高,其原因是受到變壓器結(jié)構(gòu)和電力磁力的影響,變壓器的各部位振動特征各異,相距越近的測點可能測得分布越接近的振動數(shù)據(jù),即振動的模態(tài)分量越相似,特征空間越相似。
表5 所提模型狀態(tài)識別準確率Table 5 Condition recognition accuracy of model %
每一遷移任務(wù)記作“源域→目標域”,表6 為對比實驗的準確率結(jié)果。對比方法的參數(shù)設(shè)置為相關(guān)文獻的默認值。
表6 對比實驗準確率Table 6 Result of comparison experiments %
如表6 所示,在多個遷移任務(wù)中,所提方法對于變壓器的狀態(tài)識別準確率的負面影響高于其他算法,說明其在訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)來源不一、數(shù)據(jù)特征分布存在巨大差異的時候,能夠在一定程度上緩解變壓器狀態(tài)識別模型泛化能力不足的問題。所提的方法能夠減少領(lǐng)域偏移的負面影響,動態(tài)量化不同來源數(shù)據(jù)的邊緣分布和條件分布在狀態(tài)識別中的重要程度。此外,在源域和目標域數(shù)據(jù)測點相近時(如a→A),所提方法的性能優(yōu)勢更明顯,這主要是因為利用VMD 分解得到了振動信號中的相似模態(tài),并對其進行多尺度的特征提取,構(gòu)建得到了描述更全面、分布更相似的特征空間。
為了應(yīng)對基于人工智能的變壓器狀態(tài)識別模型在應(yīng)用中存在著模型泛化能力不足的問題,利用領(lǐng)域自適應(yīng)方法在提高模型泛化能力上的優(yōu)勢,建立了一種基于領(lǐng)域自適應(yīng)的變壓器狀態(tài)識別模型,并且根據(jù)變壓器振動信號蘊含信息復(fù)雜的特點,提出了使用信號分解并進行多尺度特征提取的特征方法。通過在變壓器不同位置進行信號采集,得到了具有不同分布的振動數(shù)據(jù),經(jīng)過實驗驗證,基于領(lǐng)域自適應(yīng)的變壓器狀態(tài)識別方法能夠在一定程度上改善當前變壓器狀態(tài)識別模型泛化能力不足的問題。但由于變壓器振動機理復(fù)雜,不同測點之間的數(shù)據(jù)分布差異十分巨大,在提高變壓器狀態(tài)識別模型的泛化性能方面仍有很大的改進空間。