孫 磊, 吳文海, 柯 堅, 黨帥濤
(西南交通大學 機械工程學院,四川 成都 610031)
絕緣子作為電網系統(tǒng)的重要組成部分,由其表面污穢導致的污閃事故常對整個電網系統(tǒng)造成巨大經濟損失[1,2]。國內外對絕緣子的污穢檢測做出了大量研究,目前主要有:等值鹽密法、紅外圖像檢測法、紫外圖像檢測法、可見光圖像檢測等[3]。圖像檢測方法具有不斷電、非接觸等優(yōu)點,其中可見光圖像檢測受到環(huán)境因素干擾小、工作條件廣、魯棒性好等優(yōu)點備受關注[4,5]。在可見光圖像中,室外絕緣子通過顏色差異描述其等值灰密,可有效表示污穢狀況[6],自動化圖像檢測方法也因準確率高、響應快、安全可靠等優(yōu)點成為該鄰域研究熱點,然而室外環(huán)境條件復雜,機器學習空間中的異常類樣本數量相對較少,致使傳統(tǒng)分類方法得到的分類超平面產生偏移,泛化能力下降。這導致待測絕緣子產生錯誤檢測:非污穢目標檢測為污穢,稱為誤檢;污穢目標檢測為非污穢,稱為漏檢。部分圖像樣本因處于區(qū)分邊緣附近,難以準確分類,然而傳統(tǒng)分類方法強行對其進行分類,導致了檢測結果必然伴隨不可避免的誤檢與漏檢。誤檢與漏檢均降低了絕緣子的污穢檢測精度,實際工作中,應盡可能地降低漏檢率。
支持向量數據描述(support vector data description,SVDD)作為一種經典的單分類方法,以支持向量機和統(tǒng)計學習理論為基礎,具有堅實的理論支持和高效的學習能力[7]。但經典SVDD對離群點及異常點較為敏感,容易產生過學習;且其數據描述邊界間隔為0,魯棒性不高。針對此類問題,許多專家學者取得了諸多研究成果,文獻[8,9]考慮到數據集本身的分布信息,構造了基于樣本本身分布信息的模糊數據描述輪廓,改善了經典SVDD的數據敏感問題;Chen G等人[10]引入不敏感損失函數ε的概念,構造了一個ε間隔,在一定程度上解決了分類間隔為零的問題;Nguyen P等人[11]提出Distant SVDD,在SVDD的最小包圍球的基礎上最大化球心至原點的距離,文獻[12]改進了Nguyen P[11]的方法,推廣構建了最小二乘形式,提高了SVDD的泛化能力。
上述方法均對SVDD的局部缺陷進行改進,但缺乏整體考慮。為了解決典型樣本不足的問題,設計一種雙超球數據域描述模型,在SVDD最小化包圍球的前提下優(yōu)化一個最大超球,使其能夠接收更多的樣本,并把異常樣本排除在外,以此避免對難以區(qū)分的樣本進行分類決策,從而降低絕緣子的誤檢率與漏檢率。
對于n個訓練樣本x,SVDD尋找最小超球R使絕大部分樣本處于該超球體之內,極少部分異常樣本被排除在超球體之外,表達形式
(1)
式中a為超球中心;ε為松弛變量;C為正則化參數。
為改善數據描述性能通常引入核函數把原始數據映射到高維特征空間,并在高維特征空間中最小化包圍球。
傳統(tǒng)的SVDD及其改進算法通過調整正則化參數來改變超球半徑,必然導致更多的樣本位于超球體之外(或內),增加了誤檢率(或漏檢率),這是機器學習中最常見的兩種錯誤。位于決策邊界處的樣本的決策信息與分割閾值相近,難以準確處理,這也是造成SVDD精度不足的主要原因。面對這種情況,嘗試避免做出決策。
(2)
圖1中,虛線輪廓為新生成的大超球輪廓,相比較于傳統(tǒng)SVDD模型,雙超球將原樣本分隔為3個區(qū)域,大超球的存在使得小超球在盡可能包含所有樣本的同時令絕大多數的異常樣本被排除在大超球外,而原本容易造成分類誤差的不確定性樣本則被分隔在兩個超球輪廓之間。
圖1 二維DSHDD
為了進一步改善DSHDD方法的性能,引入一個反映樣本本身分布信息的模糊因子ωi,構造模糊雙超球數據域描述(fuzzy double hyper-sphere data description,FDHSDD),理論公式
(3)
模糊均值聚類(fuzzy means clustering,FMC)是在硬均值聚類的基礎上引入模糊數學的概念,通過聚類的方法對樣本進行軟劃分,建立樣本與類別間的不確定性描述。
為驗證方法的有效性,選取206幅不同污穢情況的絕緣子圖像(正常樣本189幅,異常樣本17幅)進行測試,比較SVDD與DSHDD性能的差異。實驗環(huán)境為:Windows 10操作系統(tǒng),Intel酷睿4核CPU,主頻為3.3 GHZ,4 G內存,運行平臺為MATLAB 2016。核函數選擇高斯核函數,其中σ為核函數寬度
(4)
利用模糊支持向量數據描述(fuzzy SVDD,FSVDD)和FDSHDD對樣本進行學習訓練,通過10次10折交叉驗證的網格搜索算法來獲取優(yōu)化SVDD與本文DSHDD方法的最佳參數。分別得到如圖2、圖3、圖4的模型。
圖2 FSVDD
圖3 調整參數后的FSVDD
圖4 FDSHDD
圖2中,SVDD方法通過在特征空間最小化一個包圍球,將絕緣子樣本分割為兩部分,其中超球邊界內的樣本被認為是無污穢或輕度污穢的正常樣本,超球邊界外的樣本被認為是污染嚴重,需要維護處理的異常樣本。然而0間隔的邊界造成其附近出現大量的樣本錯判,即誤檢與漏檢。為了降低漏檢率,對SVDD參數進行調節(jié)以減小超球輪廓,如圖3所示。漏檢率降低的同時造成了誤檢率上升,導致了無意義的清潔維護工作,造成資源浪費。
DSHDD方法則通過建立雙超球模型,在隔離正常樣本與異常樣本的同時,對部分無法準確分類的樣本設置了“拒絕區(qū)域”,有效地降低了漏檢率與誤檢率,如圖4所示。
由表1可知,傳統(tǒng)SVDD方法無法調和誤檢率與漏檢率,而DSHDD則在犧牲了部分檢測率的前提下,有效降低了誤檢率與漏檢率。就檢測精度而言,DSHDD方法更適用于實際工作的安全性與經濟性,具備良好的分類檢測效果。
表1 原始方法與改進方法性能對比
針對室外污穢絕緣子異常數據較多及SVDD方法魯棒性不強等缺陷,本文提出一種基于SVDD改進的DSHDD模型,在SVDD最小超球外優(yōu)化一個帶參數的大超球邊界使其盡可能地接收更多的樣本,并把絕大部分異常數據排除在外,對于不能準確分類的樣本避免決策,即將樣本分類為正常區(qū)域、異常區(qū)域與拒絕區(qū)域。結果表明:該方法可以有效降低絕緣子污穢檢測中的誤檢與漏檢情況。