周海陽 趙振剛 于 虹 李英娜 張家洪 張大騁
(1.昆明理工大學(xué)信息工程與自動化學(xué)院;2.云南電網(wǎng)有限責(zé)任公司電力科學(xué)研究院)
我國電力水平在日益提高,泛在電力物聯(lián)網(wǎng)也在不斷發(fā)展、完善,因此實現(xiàn)對電力變壓器的準(zhǔn)確可靠監(jiān)控顯得尤為重要[1]。 油色譜在線監(jiān)測裝置被廣泛用于油浸式變壓器,使用行業(yè)中認(rèn)可的油中溶解氣體分析 (Dissolved Gas Analysis,DGA)方法作為主要的監(jiān)測手段,該方法已成為帶電檢測項目中應(yīng)用最廣泛、 最有效的一種方法。 基于DGA 數(shù)據(jù)診斷的核心思想是根據(jù)油中氣體組分含量確定故障類型。
變壓器在運行中由于受到電應(yīng)力、熱應(yīng)力和機械應(yīng)力的影響發(fā)生異常, 導(dǎo)致變壓器油分解,產(chǎn) 生H2、CH4、C2H4、C2H6和C2H2這 些 典 型 氣 體。傳統(tǒng)的變壓器診斷方法主要利用圖表查詢方式,常見的有IEC 三比值、Rogers 比值及Duval 三角等[2~5]。 由于存在編碼方式有缺失,劃分結(jié)果依賴閾值等情況,傳統(tǒng)的診斷方法誤診率較高,已經(jīng)逐步淪為輔助手段。 電力變壓器結(jié)構(gòu)復(fù)雜,故障類型較多。 支持向量機是針對二分類問題提出的,在多分類方面存在不足之處[6]。神經(jīng)網(wǎng)絡(luò)模型對小樣本問題的分類效果并不是很理想,需要較多樣本數(shù)據(jù)才能取得較好的效果,而變壓器故障樣本數(shù)量一般較少,此外神經(jīng)網(wǎng)絡(luò)存在收斂速度慢、容易陷入局部最優(yōu)值等問題[7]。利用集成學(xué)習(xí)的方法主要有隨機森林(Random Forest,RF)和梯度提升樹(Gradient Boosting Decision Tree,GBDT)兩大分支。 RF 是用決策樹作為其基學(xué)習(xí)器,通過減小方差來提高預(yù)測精度,但處理噪聲較大的分類問題時容易過擬合,文獻(xiàn)[8]利用集成學(xué)習(xí)的思想建立RF 模型, 克服了單分類器的局限性, 并提高了分類器的分類預(yù)測能力。 而GBDT則通過降低偏差來減小總誤差,但由于每一個體學(xué)習(xí)器之間依賴關(guān)系較強,無法并行訓(xùn)練,因此訓(xùn)練速度較慢。 文獻(xiàn)[9]提出采用極限梯度提升(XGBoost)算法來擬合模型,在變壓器故障診斷上取得了較好的效果。 CatBoost 算法類似于常規(guī)的梯度提升算法,但是利用一種全新的梯度提升機制來構(gòu)建模型以減少過擬合,這使模型具有通用性和更強的魯棒性,采用默認(rèn)參數(shù)就可以獲得較好的結(jié)果,減少了對眾多超參數(shù)調(diào)優(yōu)的需求和調(diào)參時間。CatBoost 被用于許多疾病的判別預(yù)測,具有很高的可靠性[10~12]。
基于以上研究, 筆者提出了一種基于CatBoost 的油浸式變壓器故障診斷方法, 該方法對故障中產(chǎn)生的不同特征氣體之間的關(guān)系進行挖掘,利用不同故障情況下各特征氣體之間存在的典型比值、 占比關(guān)系構(gòu)建了一系列新特征;利用Z-score 標(biāo)準(zhǔn)化方法處理所有特征數(shù)據(jù); 將處理后的數(shù)據(jù)分為訓(xùn)練集和測試集,將訓(xùn)練集數(shù)據(jù)輸入CatBoost 模型,并采用貝葉斯優(yōu)化(Bayesian Optimization,BO)對模型超參數(shù)進行優(yōu)化,最終建立基于CatBoost 的變壓器故障診斷模型,實現(xiàn)對變壓器的故障診斷。
BO 是一種被廣泛用于超參數(shù)尋優(yōu)(Hyper-Parameter Optimization,HPO)問題的迭代算法[13]。 與傳統(tǒng)的隨機搜索和網(wǎng)格搜索(Grid Search,GS)不同,BO 是依據(jù)歷史獲得的結(jié)果來不斷更新概率模型,從而有利于找到最優(yōu)的超參數(shù)。 為了確定下一個超參數(shù)配置,BO 使用了代理模型和采集函數(shù)兩個關(guān)鍵部分[14]。 代理模型的目標(biāo)是將所有當(dāng)前觀測的點都擬合到目標(biāo)函數(shù)中。 在得到概率代理模型的預(yù)測分布后,利用采集函數(shù)平衡探索與開發(fā)的關(guān)系。 探索就是在還未取樣的區(qū)域獲取采樣點,而開發(fā)就是根據(jù)后驗分布在有希望出現(xiàn)全局最優(yōu)解的區(qū)域進行采樣。 BO 模型平衡了探索和開發(fā)過程, 以尋找當(dāng)前最可能的最優(yōu)區(qū)域,避免在未探索地區(qū)錯過更好的配置[15],陷入局部最優(yōu)。 圖1 為貝葉斯優(yōu)化流程。
圖1 貝葉斯優(yōu)化流程
TPE(Tree-structured Parzen Estimator)算法是BO 的一種常用代理模型。 TPE 算法先隨機采樣一些超參數(shù),然后將采樣得到的超參數(shù)用于目標(biāo)函數(shù)的評估,從而得到學(xué)習(xí)樣本(x,y),其中x表示設(shè)置的超參數(shù),y表示將所設(shè)參數(shù)代入目標(biāo)函數(shù)所得到的最優(yōu)值。 在隨機采樣得到的樣本滿足一定數(shù)量時,TPE 算法利用已有樣本得到非參數(shù)概率密度函數(shù)。 根據(jù)非參數(shù)概率密度函數(shù),再在超參數(shù)空間內(nèi)采集新的樣本。 重復(fù)整個過程直到發(fā)現(xiàn)能產(chǎn)生較優(yōu)目標(biāo)函數(shù)值的超參數(shù)設(shè)置。
與傳統(tǒng)學(xué)習(xí)方法不同,集成學(xué)習(xí)方法通過訓(xùn)練多個學(xué)習(xí)器來解決問題。 通常集成后的模型比基學(xué)習(xí)器有更強的泛化能力,效果更好。 在集成學(xué)習(xí)中, 集成方式主要有Bagging 和Boosting。Bagging 是一種并行集成方法, 利用基學(xué)習(xí)器之間的獨立性,結(jié)合相互獨立的基分類器來顯著減小誤差。其實現(xiàn)過程為:給定一個樣本數(shù)為m的訓(xùn)練集合, 通過有放回采樣得到有m個訓(xùn)練樣本的采樣集。 原始樣本有的被選中多次,有的未被選中。 重復(fù)過程T次,得到T個樣本數(shù)為m的樣本集。對每個采樣出來的訓(xùn)練集,使用基學(xué)習(xí)算法可以得到一個基學(xué)習(xí)器。 Boosting 是一種串行集成方法,實現(xiàn)過程為:每個訓(xùn)練樣本算法會分配一個權(quán)值,在每一輪的訓(xùn)練中,新分類器標(biāo)注出每一個樣本,分類正確的則降低其權(quán)值,在下一次抽樣中減小它被抽中的概率;分類錯誤的則提高其權(quán)值,增加下一次抽樣被抽中的概率。 樣本權(quán)值越高,在下一次訓(xùn)練中所占的比重就越大,也就是說越難區(qū)分的樣本在訓(xùn)練過程中會變得越來越重要。 整個迭代過程直到錯誤率足夠小或達(dá)到一定次數(shù)才停止。Boosting 算法流程如圖2 所示。
圖2 Boosting 算法流程
CatBoost 是一種以對稱決策樹為基學(xué)習(xí)器,參數(shù)較少、 支持類別型變量和高準(zhǔn)確性的GBDT框架,能夠高效合理地處理類別型特征,解決以往GBDT 框架的機器學(xué)習(xí)算法中常出現(xiàn)的梯度偏差和預(yù)測偏移問題, 從而減少了過擬合的發(fā)生,提高了算法的泛化能力。
CatBoost 與其他梯度提升算法類似, 它每構(gòu)建一棵新樹, 都會近似當(dāng)前模型的梯度。 但在GBDT 的每一步迭代中, 損失函數(shù)使用相同的數(shù)據(jù)集求得當(dāng)前模型的梯度,然后訓(xùn)練得到基學(xué)習(xí)器,但這會導(dǎo)致梯度估計偏差,進而導(dǎo)致模型產(chǎn)生過擬合問題。 CatBoost 通過采用排序提升(Ordered Boosting)的方式替代傳統(tǒng)算法中的梯度估計方法,進而減小梯度估計的偏差,提高模型的泛化能力。
利用從DGA 數(shù)據(jù)中獲得的信息可以識別變壓器的故障類型。 由于變壓器內(nèi)部發(fā)生故障的情況不同,會產(chǎn)生對應(yīng)的H2、CH4、C2H4、C2H6和C2H2這5 種故障氣體,不同的診斷方法就是利用這些氣體之間的比例和占比關(guān)系來判定變壓器故障類型的。
因此筆者參考傳統(tǒng)的三比值法和無編碼比值法[16],在原有的5 種故障氣體特征的基礎(chǔ)上又構(gòu)建了11 種故障特征,現(xiàn)將變壓器的所有16 種故障特征列于表1。
表1 變壓器故障診斷所用特征
圖3 各特征量Pearson 相關(guān)系數(shù)圖
由于不同特征之間存在量級差異,為了避免計算誤差,將各特征進行標(biāo)準(zhǔn)化處理:
其中,x*為標(biāo)準(zhǔn)化后得到的特征量,x為原始數(shù)據(jù),x為原始數(shù)據(jù)的均值,σ為原始數(shù)據(jù)的標(biāo)準(zhǔn)差。
根據(jù)IEC 60599 中對故障類型劃分的標(biāo)準(zhǔn),加上正常運行情況,將變壓器運行狀態(tài)分為以下7 種:
0 低能放電(D1)
1 高能放電(D2)
2 局部放電(PD)
3 低溫過熱(T1)
4 中溫過熱(T2)
5 高溫過熱(T3)
6 正常狀態(tài)(ZC)
從電力數(shù)據(jù)分析中心后臺和文獻(xiàn)中取得已確認(rèn)狀態(tài)的DGA 數(shù)據(jù)1 034 條,隨機抽取樣本的30%作為測試集,故障樣本分布見表2。
表2 故障樣本分布 條
貝葉斯優(yōu)化CatBoost 的具體步驟如下:
a. 對收集到的樣本數(shù)據(jù)進行標(biāo)準(zhǔn)化處理;
b. 選取數(shù)據(jù)的5 個原始特征和新構(gòu)建的特征作為模型的特征輸入, 將樣本數(shù)據(jù)按7∶3 比例隨機分為訓(xùn)練集和測試集;
c. 設(shè)置CatBoost 模型的初始參數(shù)并進行預(yù)訓(xùn)練,利用BO 不斷對模型參數(shù)進行調(diào)整;
d. 判斷是否達(dá)到迭代次數(shù),若是則停止,存儲當(dāng)前得到的訓(xùn)練參數(shù)值作為最優(yōu)參數(shù),否則返回步驟c;
e. 將存儲的最優(yōu)參數(shù)裝載進CatBoost 模型,利用測試集對模型的診斷效果進行測試,輸出故障分類結(jié)果。
雖然CatBoost 在默認(rèn)參數(shù)下表現(xiàn)已很好,但它還包含一些可以調(diào)優(yōu)的參數(shù)。 參數(shù)iterations表示弱學(xué)習(xí)器最多需要迭代的次數(shù),弱學(xué)習(xí)器迭代次數(shù)太少,就很有可能出現(xiàn)欠擬合的現(xiàn)象;相反,如果弱學(xué)習(xí)器迭代次數(shù)過多, 會出現(xiàn)過擬合的現(xiàn)象。 參數(shù)learning_rate代表學(xué)習(xí)率,學(xué)習(xí)率的數(shù)值越小,所需迭代的次數(shù)就越多。 參數(shù)max_depth代表樹的深度。參數(shù)l2_leaf_reg代表L2正則化數(shù)。參數(shù)loss_function是損失函數(shù),多分類時運用MultiClass。 表3 描述了主要參數(shù)、尋優(yōu)范圍和最優(yōu)參數(shù)。
表3 CatBoost 主要參數(shù)
根據(jù)劃分的訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),建立基于貝葉斯優(yōu)化CatBoost 的變壓器故障診斷模型。 每個測試集樣本的診斷結(jié)果如圖4 所示,各類別診斷準(zhǔn)確率見表4。
圖4 BO-CatBoost 故障診斷分類結(jié)果
表4 BO-CatBoost 的診斷結(jié)果
從結(jié)果可以看出,診斷準(zhǔn)確率最高的故障類型為D1、T2、T3 和ZC,D2、PD 和T1 類樣本的準(zhǔn)確率相對來說偏低,主要是因為這3 類故障的樣本數(shù)過少。 BO-CatBoost 將2 條D1 類故障誤診為D2 類故障;將4 條D2 類故障診斷為D1 類和ZC類;PD 類中有1 條診斷為ZC 類;在T1、T2、T3 類故障中,分別有4 條、1 條、6 條故障被識別錯誤;正常樣本中有4 條被識別為故障樣本。
利用相同的數(shù)據(jù)集, 分別建立RF 和支持向量機(SVM)診斷模型,然后對兩個對比模型進行貝葉斯尋優(yōu),尋優(yōu)得到的最優(yōu)參數(shù)見表5。圖5 所示為幾種模型混淆矩陣對比,從中可以看出,BOSVM 模型將10 條ZC 故障診斷為T1 和T2 故障,而將6 條T3 故障診斷為T1 故障,在所有模型中對過熱類故障的診斷效果最差。 而BO-CatBoost診斷正確數(shù)是所有模型中最多的,在T1、T2 和正常類故障中診斷效果比其他模型好。
表5 SVM 和RF 主要參數(shù)
從表6 中可以看出, 經(jīng)過尋優(yōu)后,SVM 準(zhǔn)確率從尋優(yōu)前的82.64%提高到86.17%,RF 準(zhǔn)確率從90.42%提高到92.60%, 且模型的精確率(Precision)、召回率(Recall)、F1 分?jǐn)?shù)(F1-score)與尋優(yōu)前相比均有提升。 對于CatBoost 模型來說,尋優(yōu)前的準(zhǔn)確率為90.68%,利用網(wǎng)格搜索得到的準(zhǔn)確率為91.64%, 與之相比經(jīng)過貝葉斯尋優(yōu)后,準(zhǔn)確率提升到92.93%。由對比可以看出,BO 對各種算法模型均有優(yōu)化作用,雖然CatBoost 算法在默認(rèn)參數(shù)設(shè)置下性能較好, 但在經(jīng)過BO 調(diào)參后性能仍有提升, 說明BO 在集成算法上具有優(yōu)秀的尋優(yōu)能力。
表6 不同模型診斷結(jié)果對比
4.1 DGA 數(shù)據(jù)的比值和占比關(guān)系蘊含不同故障情況下氣體之間的聯(lián)系。
4.2 在采用同樣特征輸入時,CatBoost 比SVM、RF 具有更高的精度和穩(wěn)定性。
4.3 將BO 引入CatBoost 診斷模型, 對模型的4個超參數(shù)進行優(yōu)化,經(jīng)優(yōu)化的CatBoost 模型診斷準(zhǔn)確度為92.93%, 優(yōu)于未經(jīng)優(yōu)化的CatBoost 和GS-CatBoost,同時也優(yōu)于優(yōu)化后的SVM 和RF,有效地提升了模型診斷準(zhǔn)確度。