樊 芮,陳湘媛,王冠男,崔艷輝
(1.國網(wǎng)湖南省電力有限公司供電服務(wù)中心(計量中心)智能電氣量測與應(yīng)用技術(shù)湖南省重點實驗室,長沙 410004;2.國網(wǎng)征信有限公司,北京 100055)
異常檢測是數(shù)據(jù)挖掘領(lǐng)域中的一個重要研究方向,目標是從數(shù)據(jù)集中自動檢測和識別出有別于其中大部分數(shù)據(jù)的異常部分,在生物醫(yī)學疾病診斷、金融財經(jīng)欺詐檢測、信息安全故障診斷和工業(yè)系統(tǒng)入侵檢測等領(lǐng)域得到了廣泛應(yīng)用[1-2]。
目前國內(nèi)外學者對異常檢測的研究主要分為基于統(tǒng)計理論的方法、基于聚類的方法、基于分類的方法和基于神經(jīng)網(wǎng)絡(luò)的方法4大類。其中,基于統(tǒng)計理論的方法認為自然界中的數(shù)據(jù)集都可以用某種確定的概率分布模型進行建模,集合中與該模型概率分布不符的數(shù)據(jù)點即為異常數(shù)據(jù)[3-4];基于聚類的方法根據(jù)數(shù)據(jù)集的相關(guān)程度將其劃分為不同的簇,與簇中心相關(guān)程度較小的樣本即判決為異常數(shù)據(jù),作為一種無監(jiān)督方法,該類方法不需要訓練集,并且原理簡單,容易實現(xiàn)[5-7];基于分類的方法通過挖掘并提取帶標簽訓練數(shù)據(jù)集內(nèi)不同類別樣本之間的差異性信息,并利用該信息學習得到最優(yōu)分類函數(shù),從而實現(xiàn)對測試數(shù)據(jù)類別屬性的判斷,由于帶標簽訓練樣本集的使用,該類方法得到的檢測性能通常優(yōu)于基于聚類的方法[8-12];基于神經(jīng)網(wǎng)絡(luò)的方法是近年來隨著人工智能和深度學習技術(shù)的發(fā)展而興起的一種新方法,以卷積神經(jīng)網(wǎng)絡(luò)、多層感知機等方法為代表,由于具備自適應(yīng)、自學習和非線性逼近能力,得到了廣泛應(yīng)用[13-14]。
上述研究大都采用單一模型,雖然在面對各自特定問題時獲得了較好的結(jié)果,但是隨著異常檢測問題愈加復(fù)雜及數(shù)據(jù)規(guī)模愈加龐大,并且實際生產(chǎn)生活中異常檢測算法面對的通常是不平衡數(shù)據(jù)集[15],上述單一模型會帶來許多問題。例如K-均值聚類(K-means)方法的聚類性能對聚類個數(shù)的選擇依賴性較大[16],支撐向量機SVM(Support Vector Machine)和神經(jīng)網(wǎng)絡(luò)方法在面對不平衡樣本時性能會出現(xiàn)下降[17]??梢姡瑔我荒P蛻?yīng)用存在局限性,將多個模型進行組合應(yīng)用優(yōu)勢更加明顯。
針對上述問題,本文提出一種SVDD-ImSMOTEMICD-K-means組合模型用于實現(xiàn)不平衡數(shù)據(jù)集條件下的異常數(shù)據(jù)檢測和分類。首先利用正常類樣本訓練支撐向量數(shù)據(jù)描述SVDD(support vector data description)分類器構(gòu)造閉合分類面,從而實現(xiàn)對“異常”數(shù)據(jù)的檢測;然后對“異常”數(shù)據(jù)進行進一步分析,利用所提的改進少數(shù)類樣本合成技術(shù)ImSMOTE(improved syntheticminority over- sampling technique)對少數(shù)類別進行過采樣以構(gòu)建平衡數(shù)據(jù)集;最后利用所提最大類間-類內(nèi)距K-均值聚類MICD-K-means(maximization of inter-intra class distance K-means)對“異?!睌?shù)據(jù)進行自動聚類,得到具體的異常數(shù)據(jù)類別屬性?;诩又荽髮W歐文分校UCI(University of California lrivine)公共數(shù)據(jù)集的實驗結(jié)果表明,相比于傳統(tǒng)方法,所提方法能夠獲得更高的異常檢測和分類性能。
圖1 給出了利用所提組合模型進行異常檢測的流程,包含訓練和測試2個過程。訓練過程的輸入數(shù)據(jù)為正常類樣本,利用主成分分析PCA(principal component analysis)進行特征提取和數(shù)據(jù)降維,進而對SVDD 分類器進行訓練得到最優(yōu)分類面。相對于傳統(tǒng)SVM 等分類器,SVDD 只需要正常類樣本即可構(gòu)造閉合分類面,大大降低了訓練數(shù)據(jù)集的構(gòu)造難度。將測試過程的輸入數(shù)據(jù)分為正常和異常類樣本,同樣利用PCA對輸入數(shù)據(jù)進行特征提取和數(shù)據(jù)降維,然后將提取的特征向量作為輸入,利用訓練階段得到的最優(yōu)SVDD 分類面進行異常檢測,從而將輸入數(shù)據(jù)自動劃分為正常和異常兩類,至此完成了算法的第1 階段,即基于SVDD 的異常數(shù)檢測。第2 階段為基于MICD-K-means 的異常數(shù)據(jù)分類,首先利用所提ImSMOTE 對樣本集中少數(shù)類別進行過采樣以獲得均衡數(shù)據(jù)集;然后利用MICD-K-means 算法對異常數(shù)據(jù)進行聚類分析,自動將其聚集為K個類別,從而實現(xiàn)異常數(shù)據(jù)類別屬性的區(qū)分。
圖1 本文所提方法流程Fig.1 Flow chart of proposed method
異常檢測問題的多樣性和復(fù)雜性決定了研究人員通常會面臨高維、非線性和海量數(shù)據(jù)的處理需求,可能產(chǎn)生維數(shù)災(zāi)難問題。同時,數(shù)據(jù)中往往還存在著大量重復(fù)、冗余信息,不僅會降低算法運行效率,還會影響檢測性能。因此,在進行異常檢測前通常需要對高維數(shù)據(jù)進行降維處理。
PCA 是數(shù)據(jù)分析領(lǐng)域中一種經(jīng)典的數(shù)據(jù)降維和特征提取方法,通過線性變換將原始數(shù)據(jù)中具有相關(guān)性的信息進行組合得到少量相互正交的綜合性特征,這些綜合性特征即為主分量。對于任意D維觀測數(shù)據(jù)s=[s1,s2,…,sD]T,利用PCA 進行數(shù)據(jù)處理的主要步驟如下。
步驟1協(xié)方差矩陣計算,其計算公式為
式中:R為觀測數(shù)據(jù)的協(xié)方差矩陣;E( )表示期望運算;u為觀測數(shù)據(jù)s的均值;上標H 表示矩陣復(fù)共軛運算。
步驟2特征值分解。對協(xié)方差矩陣R進行特征值分解,從而得到特征值和特征向量,即
式中:λi和vi分別為協(xié)方差矩陣的特征值和特征向量,且λ1≥λ2≥…≥δ2=…=δ2,δ2為噪聲方差;W為主分量個數(shù)。
步驟3根據(jù)能量占比大的特征值個數(shù)來確定主分量。將占特征值總能量90%的大特征值對應(yīng)的特征向量作為主分量,其計算公式為
步驟4子空間投影實現(xiàn)數(shù)據(jù)降維。將原始數(shù)據(jù)投影到步驟3 得到的主分量張成的子空間中以實現(xiàn)數(shù)據(jù)降維,即
式中,為PCA降維后的數(shù)據(jù)。
對于自然界的過程,正常是一種長期且穩(wěn)定的狀態(tài),異常是暫時且隨機的狀態(tài)。在采用分類方法進行異常檢測時,通常難以獲得足夠多的異常樣本用于模型訓練,而SVDD分類器只需要正常類樣本即可構(gòu)造閉合覆蓋模型,從而實現(xiàn)對未知樣本的判斷。因此,本文選用SVDD分類器進行異常檢測,實現(xiàn)對測試樣本正?;虍惓5念悇e判決[18]。
設(shè)給定的正常類訓練樣本集Xti=[xt1,xt2,…,xtN]T,其中xtN為Xti中的第N個樣本。SVDD基于閉環(huán)超球體的分類問題可以利用如下優(yōu)化函數(shù)進行描述:
式中:c和r分別為超球體的球心和半徑;ξi和C分別為松弛變量和懲罰因子。當訓練樣本集在原始空間中不符合球狀分布時,SVDD 通過核函數(shù)將其映射到高維空間進行分析。目前常用的核函數(shù)為高斯核函數(shù),可以表示為
式中:K(xti,xtj)為高斯核函數(shù);σ為高斯核參數(shù),σ的取值決定著超球體邊界的緊密性。在高維空間中,結(jié)合拉格朗日乘子和核函數(shù)可以將式(5)轉(zhuǎn)換為如下的對偶形式:
式中,α′i為xti對應(yīng)的指示參數(shù)。當α′i>0 時,xti為最優(yōu)超球體上的支撐向量,利用所有支撐向量可以計算得到最優(yōu)超球體的球心c和半徑r為
式中,‖ ‖2表示歐式距離算子。式(8)即為最優(yōu)SVDD 分類面的表達式。在測試階段,對于任意未知測試樣本x*,SVDD的決策方程為
若f(x*)≤0,則表明x*處于超球體內(nèi)部,將其判決為正常類樣本;若f(x*)>0,則x*處于超球體外部,將其判決為異常類樣本。
根據(jù)圖1 所示流程,在基于SVDD 分類器實現(xiàn)正常類和異常類樣本分類后,需要進一步對異常類樣本進行分析,將其劃分為不同的聚類。由于異常數(shù)據(jù)通常呈現(xiàn)出典型的樣本不平衡現(xiàn)象,如果直接對不平衡樣本集進行分類,多數(shù)類樣本會模糊少數(shù)類樣本的邊界,在類別重疊區(qū)域,分類器會將大部分少數(shù)類樣本判決為多數(shù)類樣本以得到較低的誤分率。為了解決該問題,通常對少數(shù)類樣本進行過采樣以構(gòu)建平衡數(shù)據(jù)集[19],SMOTE是其中的經(jīng)典方法。該算法通過隨機選擇少數(shù)類樣本并在其與近鄰樣本之間插入多個合成樣本的方式,生成無重復(fù)的新的少數(shù)類樣本以實現(xiàn)數(shù)據(jù)集均衡。
SMOTE 算法具有原理簡單、容易實現(xiàn)等優(yōu)點。但是在實際應(yīng)用中,只有分布在不同類別樣本集合邊界處的數(shù)據(jù)才會對分類結(jié)果產(chǎn)生影響,在樣本集內(nèi)部的數(shù)據(jù)不但對分類結(jié)果影響較小,反而會增加算法運算復(fù)雜度[20]?;诖?,本文對SMOTE算法進行改進,只對少數(shù)分布在數(shù)據(jù)集邊界的樣本進行過采樣操作,使得合成后的數(shù)據(jù)集兼顧分類性能和運算效率。本文所提的ImSMOTE算法步驟如下。
步驟1近鄰樣本計算。對少數(shù)類數(shù)據(jù)集中每個樣本hi,根據(jù)歐式距離由近及遠關(guān)系確定其k近鄰樣本集。
步驟2判斷是否為邊界點。對樣本hi的k近鄰樣本集中的樣本比例進行分析,若集合中多數(shù)類樣本比例高于少數(shù)類樣本比例,則將hi判定為邊界樣本,否則將其放回少數(shù)類樣本集。
步驟3對邊界樣本集進行過采樣。對步驟2得到的邊界樣本集進行過采樣操作,合成新的樣本hnew。過采樣操作需滿足如下關(guān)系式:
式中:hj為邊界樣本集中根據(jù)過采樣倍數(shù)n隨機選取的樣本;rand( )1 表示[0,1]范圍內(nèi)的隨機數(shù)。
步驟4重復(fù)步驟1~步驟3,直至構(gòu)建滿足數(shù)量要求的均衡樣本集。
K-均值聚類作為一種經(jīng)典的無監(jiān)督聚類方法,用樣本之間歐式距離的大小來衡量樣本相似程度,從而將距離近的樣本劃分為同一子集實現(xiàn)數(shù)據(jù)聚類,具有簡單高效的優(yōu)點。采用K-均值聚類時首先需要確定聚類個數(shù),常用方法是根據(jù)先驗信息進行設(shè)置,但存在主觀性強和適應(yīng)性差的問題,并且實際中很多應(yīng)用場景都無法獲得先驗信息。針對該問題,本文提出MICD-K-means方法,對異常數(shù)據(jù)進行自動聚類,提升算法的自動化程度和適應(yīng)性。具體步驟如下。
步驟1設(shè)置類別數(shù)K=1。
步驟2從數(shù)據(jù)集中隨機選擇K個樣本g1,g2,…,gK作為初始聚類中心。
步驟3計算每個樣本到K個聚類中心的歐式距離,并將其劃分至與其距離最近聚類中心對應(yīng)的子類中。樣本fi到聚類中心gj的歐式距離可以表示為
步驟4對K個子類的聚類中心進行更新,更新公式為
式中,nk為第k個子類的樣本數(shù)。
步驟5按K個新聚類中心對樣本進行重新劃分,若連續(xù)兩次得到的劃分結(jié)果一致,則算法收斂,否則重復(fù)步驟3~步驟5。
步驟6計算算法收斂后的類間-內(nèi)間距rK,其計算公式為
步驟7K=K+1,轉(zhuǎn)至步驟2。
步驟8將K=1,2,…,n遍歷,得到r1,r2,…,rn。選擇最大類間-內(nèi)間距對應(yīng)的類別數(shù)K作為最終的聚類個數(shù)。
為了驗證所提異常檢測算法在實際工程應(yīng)用中的性能,采用KDD CUP’99入侵檢測標準數(shù)據(jù)集開展驗證實驗。KDD CUP’99是MIT林肯實驗室和美國國防高級研究計劃局合作建立的入侵檢測系統(tǒng)錄取的tcpdump 數(shù)據(jù),被廣泛應(yīng)用于工業(yè)系統(tǒng)異常入侵檢測領(lǐng)域。該數(shù)據(jù)集包含1 類Normal(正常)數(shù)據(jù)及DoS(拒絕服務(wù)攻擊)、R2L(遠程非授權(quán)訪問)、U2R(非法獲得超級用戶權(quán)限)、Probe(探測和掃描)4類攻擊數(shù)據(jù)。,每條數(shù)據(jù)由41維網(wǎng)絡(luò)包基本信息特征構(gòu)成。表1 給出了每種數(shù)據(jù)類別對應(yīng)的樣本分布情況,可以看出,該數(shù)據(jù)集中樣本分布極不均衡,DoS類異常數(shù)據(jù)占總數(shù)據(jù)的80%以上,而U2R和R2L兩類數(shù)據(jù)分別只有52和126條記錄。
表1 KDD CUP’99 數(shù)據(jù)集數(shù)據(jù)分布Tab.1 Data distribution of KDD CUP’99 data set
目前,對異常檢測算法進行評估通常采用異常檢測結(jié)果混淆矩陣,如表2所示。根據(jù)異常檢測結(jié)果混淆矩陣可以計算得到準確率和誤檢率等評估指標。
表2 異常檢測結(jié)果混淆矩陣Tab.2 Confusion matrix of abnormal detection results
由于本文所提方法在常規(guī)異常檢測基礎(chǔ)上進一步具備了異常數(shù)據(jù)類別屬性判斷,即分類能力,異常檢測結(jié)果混淆矩陣(見表2)已不能全面衡量多類分類時不同方法的性能,因此本文對異常檢測結(jié)果混淆矩陣進行擴展得到異常檢測及分類結(jié)果混淆矩陣,如表3 所示,其中TPi_P 為將實際第i類數(shù)據(jù)判決為第i類標簽的樣本數(shù),TPi_N 為將實際第i類數(shù)據(jù)判決為其他K-1類標簽的樣本數(shù)。
表3 異常檢測及分類結(jié)果混淆矩陣Tab.3 Confusion matrix of anomaly detection and classification results
在異常檢測及分類結(jié)果混淆矩陣的基礎(chǔ)上,定義每種類別分類的正確率(ACC)和所有類別分類的平均正確率(ACC_MEAN)兩項指標對所提方法的異常檢測與分類性能進行定量評估。其中,每種類別分類正確率為該類別正確分類樣本數(shù)除以該類別樣本總數(shù);所有類別分類的平均正確率為所有正確分類樣本數(shù)除以總樣本數(shù),可分別表示為
根據(jù)圖1所示流程,首先采用PCA 方法對輸入數(shù)據(jù)進行降維處理。圖2 給出了PCA 分解后得到的輸入數(shù)據(jù)特征值譜圖,可以看出,從序號為8 的特征值開始,對應(yīng)的歸一化特征值已接近于0。根據(jù)式(3)可以計算得到能量占比大的特征值個數(shù)為3。表4 給出了3 個能量占比大的特征值對應(yīng)主分量之間的相關(guān)系數(shù),可以看出,3 個主分量(PC1~PC3)之間及3個主分量與剩余特征向量之間的相關(guān)系數(shù)均很?。ㄐ∮?0-6),這表明特征之間幾乎不存在冗余重復(fù)信息,有效實現(xiàn)了數(shù)據(jù)降維。
表4 不同主分量之間的相關(guān)系數(shù)Tab.4 Correlation coefficients between different principal components
圖2 特征值譜圖Fig.2 Eigenvalue spectrum
利用所提ImSMOTE 方法對U2R 和R2L2 類異常數(shù)據(jù)進行過采樣處理,以實現(xiàn)樣本均衡。根據(jù)表1所示每種類別樣本數(shù)量,對U2R類樣本和R2L類樣本進行50 倍過采樣,使樣本均衡后兩類樣本數(shù)據(jù)分別為2 600 和6 300。在完成樣本均衡后,根據(jù)MICD-K-means 方法得到類內(nèi)-類間距變化曲線如圖3 所示,可以看出,當K=4 時類間-類內(nèi)距最大,則將所提方法自動確定聚類個數(shù)K為4。
圖3 類間-類內(nèi)距隨K 變化曲線Fig.3 Variation curve of inter-intra class distance with K
根據(jù)圖1 所示流程,在完成PCA 降維后,首先需要利用SVDD 分類器進行正?;虍惓n惲信袥Q,因此實驗中取70%的正常樣本作為訓練數(shù)據(jù)集建立最優(yōu)SVDD 分類面,對剩余30%正常樣本和所有異常數(shù)據(jù)(4 類異常數(shù)據(jù)被歸為1 類)進行判決,SVDD 核參數(shù)采用五折交叉驗證的方式進行尋優(yōu)。表5給出了判決結(jié)果混淆矩陣,可以看出,SVDD在實現(xiàn)對所有異常樣本正確判決的同時,僅僅將少量正常樣本(13組)判決為異常,有效實現(xiàn)了異常檢測。
表5 SVDD 異常檢測結(jié)果混淆矩陣Tab.5 Confusion matrix of SVDD anomaly detection results
對表5 判決為異常的數(shù)據(jù)利用MICD-K-means得到的聚類結(jié)果如圖4 所示。為了直觀展示聚類結(jié)果,圖4 給出了4 類類異常數(shù)據(jù)邊界處部分數(shù)據(jù)的二維平面投影結(jié)果,可以看出,每類異常數(shù)據(jù)在二維平面均表現(xiàn)出了較高的聚集性,且4類異常數(shù)據(jù)之間又呈現(xiàn)出了較高的差異性。
圖4 MICD-K-means 聚類結(jié)果二維平面投影Fig.4 Two-dimensional plane projection of MICD-Kmeans clustering results
對圖4 和表5 所示結(jié)果進行綜合分析,得到本文所提異常數(shù)據(jù)檢測及分類結(jié)果混淆矩陣,如表6所示。同時為了對比,表7 和表8 分別給出了在相同條件下采用多步多分類器MSMT(multi-step and multi-type classification)[13]和長短時記憶神經(jīng)網(wǎng)絡(luò)LSTM(long short term memory)[14]進行異常檢測及分類得到結(jié)果混淆矩陣,其中MSMT 分別采用SVM、決策樹和B-Bagging3 種分類器按步驟逐步實現(xiàn)對DoS、Probe、Normal、U2R和R2L的檢測。圖5給出了不同方法異常檢測性能對比。對表5~表8及圖5所示結(jié)果進行對比分析可知,3 種方法對Normal、Probe 和DoS3 類數(shù)據(jù)得到的分類正確率較為接近,其中LSTM 和MSMT 兩種方法對3 類數(shù)據(jù)的正確分類率均高于97%,所提方法對3 類數(shù)據(jù)的正確分類率高于99%,但是由于LSTM沒有進行樣本均衡,對U2R 和R2L 兩類數(shù)據(jù)的正確分類概率分別只有61.5%和60.3%。進一步對表7進行分析可知,為了獲得更高的平均正確分類率,在模型訓練過程中LSTM將大部分U2R類和R2L類數(shù)據(jù)判決為數(shù)據(jù)更多的DoS類和Probe類數(shù)據(jù)。由表8可知,MSMT對U2R 類數(shù)據(jù)的正確分類概率達到80.7%,對R2L 類數(shù)據(jù)的分類正確概率為76.2%,相比于LSTM 有一定提升,但是MSMT在對U2R和R2L兩類數(shù)據(jù)的判決中出現(xiàn)了混淆,將大部分R2L類數(shù)據(jù)判決為U2R類數(shù)據(jù),導(dǎo)致性能出現(xiàn)下降。由圖5 可知,所提方法對U2R 和R2L 兩類數(shù)據(jù)的平均正確分類率高于96%,相對于LSTM 和MSMT 方法分別提升了30%以上和15%以上,性能優(yōu)勢明顯,驗證了所提方法的有效性。
表6 所提異常檢測及分類結(jié)果混淆矩陣Tab.6 Confusion matrix of the proposed anomaly detection and classification result
表7 LSTM 異常檢測及分類結(jié)果混淆矩陣Tab.7 Confusion matrix of LSTM anomaly detection and classification results
表8 MSMT 異常檢測及分類結(jié)果混淆矩陣Tab.8 Confusion matrix of MSMT anomaly detection and classification results
圖5 不同方法異常檢測性能對比Fig.5 Anomaly detection performance of different methods
接收機工作特性ROC(receiver operating characteristic)曲線及接收機工作特性曲線下面積AUC(area under ROC curve)被廣泛應(yīng)用于評估分類模型的性能。ROC曲線最初用于評估兩類分類問題,對于多類分類問題,可以將其轉(zhuǎn)化為多個兩類分類問題,即除正類外其他都作為負類,然后分別構(gòu)建多條ROC 曲線,最后通過對多條ROC 曲線取平均的方式得到最終的ROC曲線。
圖6 給出了對不同方法進行評估得到的ROC曲線,其中橫坐標為根據(jù)分類結(jié)果計算得到的虛警概率FPR,縱坐標為對應(yīng)的檢測概率TPR,可以看出,所提方法的ROC 曲線更靠近于平面的左上方,AUC 值(0.892 4)明顯大于MSMT(0.824 7)和LSTM(0.802 5),這表明所提方法具有更好的分類性能。
圖6 不同方法的ROC 曲線Fig.6 ROC curves of different methods
數(shù)據(jù)采集和存取過程中通常會引入噪聲分量,因此異常檢測算法在低信噪比條件下仍能獲得較好的性能。通過加入高斯白噪聲構(gòu)造低信噪比為0 dB的實驗數(shù)據(jù)來驗證所提方法的泛化能力。圖7給出了低信噪比條件下不同方法的對比結(jié)果,可以看出,低信噪比條件下所提方法對每類數(shù)據(jù)的分類性能仍明顯優(yōu)于LSTM 和MSMT。對比圖5 和圖7可以看出,信噪比降低后LSTM 和MSTM 的ACC_MEAN 指標分別下降了17.7%和13.5%,而所提方法的ACC_MEAN 指標僅下降6.2%,這表明所提方法具有較高的噪聲魯棒性,對低信噪比數(shù)據(jù)具有較強的泛化能力。
圖7 低信噪比條件下不同方法異常檢測性能Fig.7 Anomaly detection performance of different methods at low signal-to-noise ratio
為了進一步驗證所提方法對不同數(shù)據(jù)的泛化能力,采用某地區(qū)異常用電實測數(shù)據(jù)集開展實驗,該數(shù)據(jù)集包含正常用電、竊電、漏電和計量錯誤4類數(shù)據(jù)。圖8 給出了不同方法異常用電實測數(shù)據(jù)檢測性能,可以看出,與前述實驗類似,所提方法對每類數(shù)據(jù)均能獲得最優(yōu)的分類性能,相比于LSTM和MSMT,所提方法的ACC_MEAN 分別提升了13.3%和8.5%,這表明所提方法比LSTM 和MSMT具有更強的數(shù)據(jù)適應(yīng)性和泛化能力。
圖8 異常用電實測數(shù)據(jù)檢測性能Fig.8 Detection performance based on measured data of abnormal power consumption
針對單一模型進行異常檢測的局限性及不平衡樣本導(dǎo)致的檢測性能下降問題,本文提出一種SVDD-ImSMOTE-MICD-K-means 組合模型用于實現(xiàn)不平衡樣本集條件下的異常數(shù)據(jù)檢測和分類。主要結(jié)論如下。
(1)提出了ImSMOTE 方法用于對少數(shù)類樣本進行過采樣以構(gòu)建平衡數(shù)據(jù)集,ImSMOTE 有效解決了SMOTE重復(fù)采樣和無效采樣的問題。
(2)提出了MICD-K-means 方法對異常數(shù)據(jù)進行自適應(yīng)聚類,相比于K-means 方法,MICD-Kmeans 方法能夠自動確定聚類個數(shù),提升算法的自動化程度并降低運算復(fù)雜度。
(3)提出了一種先分類后聚類的層次化異常檢測方法,在有監(jiān)督SVDD 分類器實現(xiàn)異常檢測的基礎(chǔ)上,利用無監(jiān)督MICD-K-means 方法對異常數(shù)據(jù)進行聚類,得到異常屬性,以達到數(shù)據(jù)的精細化管理。
(4)所提方法相比于傳統(tǒng)方法能夠獲得更高的檢測性能,特別是能夠明顯提升少數(shù)類樣本的分類性能,可以更好地滿足實際工程應(yīng)用需求。