第一作者王濤男,博士生,副教授,1977年生
通信作者李艾華男,博士,教授,1966年生
改進決策的帶異常樣本1-SVM算法及應(yīng)用
王濤,李艾華,王旭平,蔡艷平,張敏龍(第二炮兵工程大學(xué)機電工程系, 西安710025)
摘要:針對正常類樣本多、異常類樣本缺乏問題,基于異常樣本加入能提高分類能力及分類精度考慮,提出改進決策的帶異常樣本1-SVM算法,并用于機械設(shè)備異常狀態(tài)檢測。用兩類樣本同時訓(xùn)練1-SVM模型可改善1-SVM算法對異常樣本的描述能力;通過調(diào)整決策邊界提高1-SVM算法的分類精度。柴油機氣閥機構(gòu)故障檢測實驗結(jié)果表明,該算法對正常類及故障類樣本的識別率均高于標準1-SVM算法及帶異常樣本的1-SVM算法。
關(guān)鍵詞:一類支持向量機;異常樣本;改進決策;故障檢測
基金項目:國家自然科學(xué)基金青年科學(xué)
收稿日期:2013-12-19修改稿收到日期:2015-05-10
中圖分類號:TH165.3;TN911.7文獻標志碼:A
An improved decision-making 1-SVM algorithm with abnormal samples and its application
WANGTao,LIAi-hua,WANGXu-ping,CAIYan-ping,ZHANGMin-long(Dept. of Mechanical and Electronic Engineering, The Second Artillery Engineering University, Xi’an 710025, China)
Abstract:Aiming at normal samples abundance and abnormal samples deficiency, as adding abnormal samples could improve classification ability and classification accuracy, an improved decision-making 1-SVM algorithm with abnormal samples was put forward and applied in abnormal condition detection of mechanical equipments. On the one hand, the 1-SVM model was trained with two kinds of samples to improve the description ability of the 1-SVM algorithm for abnormal samples. On the other hand, the decision boundary was adjusted to improve the classification accuracy of the 1-SVM algorithm. The improved 1-SVM algorithm was applied in fault detection of diesel engin valve train. The experimental results showed that recognition rate of the improved algorithm for normal class and fault class samples is higher than that of the standard 1-SVM algorithm and the 1-SVM algorithm only with abnormal samples.
Key words:one-class support vector machine (1-SVM); abnormal samples; improved decision-making; fault detection
由于一類支持向量機(One-Class Support Vector Machine,OC-SVM)在正常狀態(tài)數(shù)據(jù)樣本而無需故障樣本情況下即可建立單值分類器,區(qū)分機器運行狀態(tài),且具有魯棒性強、可有效處理小樣本數(shù)據(jù)等優(yōu)點,已被用于滾動軸承、轉(zhuǎn)子、齒輪箱等機械設(shè)備故障診斷[1-3]。傳統(tǒng)OC-SVM算法的訓(xùn)練樣本不含非目標樣本,但若能獲得非目標樣本并加入OC-SVM訓(xùn)練模型,則會提高分類能力及準確性[4-5]。在機械故障診斷中,故障樣本較難獲得,或需較大代價才能獲得。若已獲取設(shè)備某類故障數(shù)據(jù)樣本對其棄之不用,則會造成較大浪費?;诖?,本文提出一種改進決策的帶異常樣本OC-SVM算法??捎脙深悩颖就瑫r訓(xùn)練OC-SVM模型以改善OC-SVM算法對非目標樣本的描述能力;也可通過調(diào)整決策邊界提高OC-SVM算法的分類精度。
用于異常檢測的OC-SVM方法有兩種,即超平面模型[6]亦稱1-SVM及超球體模型[7]亦稱支持向量域描述(Support Vector Domain Description,SVDD)。選高斯核函數(shù)時,對相同目標樣本1-SVM及SVDD支持向量機相同。作為核方法在一類問題中的兩個分支,兩種方法從不同角度尋找目標類樣本的特征分布,1-SVM與標準SVM的機理更相近,而SVDD的幾何意義更明確。由定性角度,SVDD的懲罰系數(shù)C值含義明確,即C值大小與超球體包圍的目標樣本個數(shù)呈正比關(guān)系。由定量角度,C值本身無確切意義,因此C值設(shè)置較困難。在某些數(shù)據(jù)集實驗中,SVDD計算的超球體范圍過大,降低異常點檢測率[8]。與SVDD相比,1-SVM中參數(shù)v表示對目標樣本誤識率上限,同時也是支持向量占目標樣本比例的下限,定量意義明確,在數(shù)學(xué)形式上采用1-SVM算法有利于參數(shù)設(shè)置。因此,本文主要研究1-SVM算法的改進及在機械設(shè)備異常狀態(tài)檢測中的應(yīng)用。
1帶異常樣本的1-SVM算法
在算法推導(dǎo)中,用i,j作為正常樣本索引,用l,k作為異常樣本索引;分別用m,n表示正常、異常樣本數(shù)量;設(shè)正常樣本類別標記y為+1,異常樣本類別標記y為-1。與標準1-SVM類似[9],訓(xùn)練樣本中含異常樣本1-SVM算法的優(yōu)化目標函數(shù)為
(1)
式中:ξi,ξl分別為對正常、異常樣本錯分的松弛變量。
式(1)對應(yīng)的Lagrange函數(shù)為
(2)
式中:αi,αl,βi,βl為Lagrange乘子。
由函數(shù)極值條件知
(3)
從而可得
(4)
將式(4)各項代入式(2),得
(5)
(6)
2帶異常樣本的1-SVM決策邊界調(diào)整
1-SVM算法與傳統(tǒng)有監(jiān)督SVM算法的最大區(qū)別在于引入?yún)?shù)v。將1-SVM用于分類時受參數(shù)v影響較大。而v∈(0,1],因此無論訓(xùn)練數(shù)據(jù)中是否包含異常樣本,總有一定比例數(shù)據(jù)被判為異常點,使1-SVM的分類精度低于傳統(tǒng)有監(jiān)督的SVM。
由式(6)知,帶異常樣本的1-SVM決策函數(shù)可寫為
(7)
若f(x)≤0,則待測樣本為正常點;若f(x)>0,則待測樣本為異常點。對機械設(shè)備異常狀態(tài)檢測而言,接受異常點(漏檢)較拒絕正常數(shù)據(jù)(虛警)更糟糕,發(fā)生“漏檢”時會嚴重危及設(shè)備運行安全,造成更大損失。由于特征空間中1-SVM的決策曲線(面)為以原點為中心的超球面,閾值為超球面半徑b,為b乘一個系數(shù)可方便調(diào)整決策邊界大小。因此,本文由算法生成決策邊界入手引入決策邊界調(diào)整系數(shù)ρ,對式(7)的判決函數(shù)f(x)進行改進。改進后決策函數(shù)為
(8)
當ρ<1時決策邊界變大,判為異常點比例減?。划敠?1時決策邊界變小,判為異常點比例增大;當ρ=1時即為原1-SVM生成的決策邊界。ρ的取值可據(jù)不同應(yīng)用場合及據(jù)兩類誤判造成損失的不同程度確定。機械設(shè)備異常狀態(tài)檢測時接受異常點(漏檢)較拒絕正常點(虛警)更不利,“漏檢”會嚴重危及設(shè)備的運行安全,損失會更大。因此,此時建議選ρ<1,以增強對異常狀態(tài)(樣本)的敏感性。ρ值不能過小,過小會增大虛警率。據(jù)實驗驗證發(fā)現(xiàn),ρ取0.8~0.9之間時效果較好且結(jié)果相差不大。而ρ的取值與數(shù)據(jù)集有關(guān),數(shù)據(jù)集不同ρ取值范圍會變化。
3應(yīng)用實例
3.1實驗裝置及樣本獲取
以6135G柴油機為實驗對象,將柴油機第2缸氣門機構(gòu)間隙設(shè)成多種不同組合狀態(tài)模擬進、排氣門多種間隙異常故障,實驗工況設(shè)置見表1。由表1看出,氣門正常間隙值為0.30 mm,0.06 mm模擬氣門間隙過小,0.50 mm模擬氣門間隙過大。
實驗中柴油機運行狀態(tài)為空載,轉(zhuǎn)速穩(wěn)定在1 500 r/min時測量缸蓋的振動信號,等時間采樣,采樣頻率25 kHz。以第一缸壓縮上止點為采樣起始點對缸蓋振動信號進行整周期截取,樣本采集工況1為96個,工況2為97個,工況3為95個,工況4為98個,工況5為96個。
表1 實驗工況設(shè)置(單位:mm)
通過對整循環(huán)缸蓋振動信號Hilbert包絡(luò)的幅值域特征參數(shù)、排氣門關(guān)閉段振動信號的時序模型特征參數(shù)及缸蓋振動信號小波包頻帶能量百分比特征參數(shù)進行分析,優(yōu)選均值、均方根值、方根幅值、波形因數(shù)4個幅值域特征參數(shù)及第1、5、9、12、15個小波包頻帶能量百分比參數(shù)構(gòu)成9維原始特征參數(shù)集[10]。
3.2診斷結(jié)果分析
為驗證異常檢測方法的可行性,構(gòu)造兩種訓(xùn)練數(shù)據(jù)集。第一種僅由32個工況1(正常狀態(tài))樣本組成;第二種由32個工況1(正常狀態(tài))樣本及22個工況2(故障)樣本組成。測試數(shù)據(jù)集由22個工況1(正常狀態(tài))及2個工況2(故障工況)樣本組成。針對數(shù)據(jù)集訓(xùn)練三種1-SVM模型,即標準1-SVM模型、帶異常樣本1-SVM模型及改進決策的帶異常樣本1-SVM模型。各種模型參數(shù)設(shè)置見表2。
表2 三種1-SVM模型參數(shù)設(shè)置
單分類實驗中,由于正常、異常樣本數(shù)量不平衡,不宜用錯誤率作為評價標準。本文用針對類別不平衡問題可信度較高的評價標準,即ROC曲線、AUC、查準率(precision)、查全率(recal1)及F分值評價分類器性能[11]。ROC曲線體現(xiàn)出正類識別率與反類誤識率間的平衡,如果一條ROC曲線在另一條曲線左上方,則前者對應(yīng)分類器的性能較后者好。AUC值指ROC曲線下面積,位于0~1之間。有效分類器的AUC值應(yīng)大于0.5,且AUC值越大對應(yīng)的分類器性能越好。在不平衡學(xué)習(xí)及正常類查全率盡量高前提下,查準率及F分值越大分類器性能越優(yōu)。
三種1-SVM算法在測試數(shù)據(jù)集上形成的ROC曲線見圖1。由圖1可知,本文所提改進算法的ROC曲線在標準1-SVM算法ROC曲線左上方,表明改進算法的性能優(yōu)于標準算法;但從直觀上看不出本文算法性能的優(yōu)越性。
圖1 三種1-SVM算法ROC曲線 Fig.1 ROC curves of three kinds of 1-SVM algorithm
為進一步從定量角度評估三種算法,分別對AUC值、查準率、查全率、準確率及F分值進行比較,見表3。由表3知,除查全率,改進決策、帶異常樣本1-SVM算法及帶異常樣本1-SVM算法其它指標均較標準1-SVM算法好。改進決策、帶異常樣本1-SVM算法在查準率、準確率及F分值上較帶異常樣本1-SVM算法好。綜合各項模型評價指標,改進決策的帶異常樣本1-SVM算法性能最好。
表3 三種1-SVM算法性能比較
4結(jié)論
(1)鑒于傳統(tǒng)1-SVM算法存在對訓(xùn)練樣本分布的要求,本文基于異常樣本加入能提高分類能力及分類精度考慮,提出改進決策的帶異常樣本1-SVM故障檢測方法。該方法與標準1-SVM方法形式相同,并據(jù)兩類誤判造成損失的不同程度修改決策邊界。
(2)為驗證本文所提改進算法的有效性,將其用于柴油機氣閥機構(gòu)故障檢測結(jié)果表明,較標準1-SVM算法及帶異常樣本1-SVM算法,改進決策的帶異常樣本1-SVM算法對正常及故障類樣本均有較高識別率,且對樣本數(shù)量依賴程度更小,學(xué)習(xí)及泛化能力更強。
參考文獻
[1]李衛(wèi)鵬,李凌均,孔維峰,等. 正交小波變換支持向量數(shù)據(jù)描述在故障診斷中的應(yīng)用[J]. 機械科學(xué)與技術(shù),2011, 30(3):466-470.
LI Wei-peng, LI Ling-jun, KONG Wei-feng, et al. Support vector data description in orthogonal wavelet transform for fault diagnosis[J]. Mechanical Science and Technology for Aerospace Engineering, 2011,30(3):466-470.
[2]陳斌,閻兆立,程曉斌. 基于SVDD和相對距離的設(shè)備故障程度預(yù)測[J]. 儀器儀表學(xué)報,2011,32(7):1558-1563.
CHEN Bin, YAN Zhao-li, CHENG Xiao-bin. Machinery fault trend prediction based on SVDD and relative distance[J]. Chinese Journal of Scientific Instrument, 2011,32(7):1558-1563.
[3]McBain J,Timusk M. Feature extraction for novelty detection as applied to fault detection in machinery[J]. Pattern Recognition Letters,2011(32):1054-1061.
[4]Tax D M J. One-class classification[D]. Delft: Delft University of Technica1, 2001.
[5]蒲曉豐,雷武虎,湯俊杰,等. 基于帶野值的SVDD 的高光譜圖像異常檢測[J]. 光電工程,2010,37(12):83-87.
PU Xiao-feng, LEI Wu-hu, TANG Jun-jie,et al. Anomaly detection for hyperspectral image based on SVDD with negative examples[J]. Opto-Electronic Engineering, 2010,37(12):83-87.
[6]Scholkopf B, Platt J C, Shawe-Taylor J, Smola,et al. Estimating the support of a high-dimensional distribution [J]. Neural Comput,2001,13(7):1443-1471.
[7]Tax D M J, Duin R P W. Support vector data description [J]. Pattern Recognition Letters, 1999, 20(11/13): 1191-1199.
[8]Chandola V, Banerjee A, Kumar V. Anomaly detection:a survey[J]. ACM Computing Surveys,2009, 41(3):1-58.
[9]Sch?kopf B,Williamson R, Smola A, et al.Support vector method for novelty detection[C]. Advances in Neural Information Processing Systems 12[A]. Solla S A, Leen T K, Müller K R.MIT Press, 2000:582-588.
[10]王濤,李艾華,姚良,等. 采用多層核學(xué)習(xí)機的柴油機氣閥機構(gòu)故障診斷[J]. 振動、測試與診斷,2010, 30(4): 462-464.
WANG Tao, LI Ai-hua, YAO Liang, et al. Fault diagnosis of diesel valve train based on multi-layer kernel learning machine[J]. Journal of Vibration, Measurement & Diagnosis, 2010, 30(4):462-464.
[11]繆志敏,胡谷雨,丁力,等. SVDD在類別不平衡學(xué)習(xí)中的應(yīng)用[J]. 應(yīng)用科學(xué)學(xué)報,2008, 26(1):79-84.
MIAO Zhi-min, HU Gu-yu, DING Li,et al. Support vector date description implemented in class-imbalance learning[J]. Journal of Applied Sciences, 2008, 26(1): 79-84.