陳利躍,沈曉東,何星
電力系統(tǒng)遠動是電力系統(tǒng)調(diào)度服務(wù)的遠距離監(jiān)測控制技術(shù).它將各個廠、所、站的運行情況(包括開關(guān)狀態(tài)、設(shè)備的運行參數(shù)等)轉(zhuǎn)換成便于傳輸?shù)男盘栃问剑由媳Wo措施以防止傳輸過程中的外界干擾,經(jīng)過調(diào)制后,由專門的信息通道傳送到調(diào)度所。在調(diào)度所的中心站經(jīng)過解調(diào),還原成對應(yīng)于廠、所、站信號再顯示出來,供調(diào)度人員監(jiān)控之用。調(diào)度人員的一些控制命令也可以通過類似過程傳送到遠方廠、所、站,驅(qū)動被控對象。遠動通訊的故障通常表現(xiàn)為通訊過程不暢,但要具體判斷是通道本身故障還是通訊規(guī)約使用故障,目前缺乏有效的手段和工具,導(dǎo)致遠動通道故障的修復(fù)常常需要較長的時間,投入較大的力量[1]。本文采用對遠動系統(tǒng)的通信數(shù)據(jù)進行分析,建立判斷遠動故障點判斷方法。
目前比較主流的異常檢測方法是建立模式(特征、條件等)描述,通過比對檢測目標實現(xiàn)異常檢測,稱之為模式匹配法。隨著被研究對象系統(tǒng)復(fù)雜性的增加,狀態(tài)遷移和序列模式被逐漸引入并應(yīng)用在異常檢測系統(tǒng)中。模式匹配法發(fā)展的另一個方向是數(shù)據(jù)挖掘技術(shù)和傳統(tǒng)模式匹配方法的結(jié)合,其中典型代表是Apriori算法[2]。Apriori算法需要一定量的訓(xùn)練樣本,計算時間成本略高。除了模式匹配,還有一種常用異常檢測方法——統(tǒng)計分析法。這類方法的代表是聚類算法。聚類算法能在異常檢測中應(yīng)用的兩個前提是:在數(shù)據(jù)庫中,異常狀態(tài)和正常狀態(tài)有本質(zhì)區(qū)別;異常狀態(tài)在整體數(shù)據(jù)中的比例較小[3]。最典型的聚類算法是K-means算法。由于計算時間成本過高,K-means算法不適合對數(shù)據(jù)流的在線處理。在數(shù)據(jù)流的聚類算法研究過程中,Aggarwal等人提出了雙層框架分析模型CluStream聚類算法,提出簇和時間幀結(jié)構(gòu),對數(shù)據(jù)流進行在線和離線分層次處理[4]。
本文所提出的雙層聚類算法也是基于此框架的一種算法應(yīng)用。該算法主要改進并結(jié)合K-means和DENCLUE兩種聚類算法,以較小的時間復(fù)雜度對非球面分布的數(shù)據(jù)進行聚類分析。本文主要內(nèi)容如下:第二章介紹基于雙層聚類算法;第三章對本文算法仿真結(jié)果進行比較分析,論證本文算法的有效性;第四章對本文進行總結(jié)。
根據(jù)電網(wǎng)遠動監(jiān)測系統(tǒng)的特點和要求,雙層聚類算法對遠動監(jiān)測系統(tǒng)中的異常情況進行檢測。雙層聚類算法的原理是首先利用K-means聚類改進算法將數(shù)據(jù)對象聚攏稱K個簇,然后利用DENCLUE聚類改進算法對得到的K個簇代表點繼續(xù)進行聚類優(yōu)化,最大程度降低K值初始設(shè)定對分類結(jié)果的影響,同時也降低計算復(fù)雜度,得到理想的分類檢測結(jié)果。
DENCLUE是一個基于核密度估計KDE(Kernel Density Esimate)的聚類算法。KDE[5-6]的思路是數(shù)據(jù)集中的每一個對象對其它對象的影響能力可以用一個核函數(shù)來衡量,該核函數(shù)描述了當前對象對鄰居的影響程度。核函數(shù)作用于每個數(shù)據(jù)對象,每個數(shù)據(jù)對象的核密度估計值就是所有其它對象對它的影響之和??梢酝ㄟ^指定密度吸引點來劃分簇。密度吸引點就是一個局部中核密度估計值最大的那個對象,能有效地被希爾爬山程序確定。如果核函數(shù)在每個數(shù)據(jù)對象處連續(xù)并可導(dǎo),則希爾爬山程序就能被核函數(shù)梯度所引導(dǎo),核函數(shù)也允許簇是任意形狀的。
DENCLUE算法主要基于下面的想法[7]:(1)每個數(shù)據(jù)點的影響可以用一個數(shù)學(xué)函數(shù)來形式化地模擬,它描述了1個數(shù)據(jù)點在鄰域內(nèi)的影響,被稱為影響函數(shù);(2)數(shù)據(jù)空間的整體密度可以被模型化為所有數(shù)據(jù)點的影響函數(shù)的總和;(3)然后聚類可以通過確定密度吸引點來得到,這里的密度吸引點是全局密度函數(shù)的局部最大。
假設(shè)x和y是d維特征空間中的對象。數(shù)據(jù)對象y對x的影響函數(shù)是一個函數(shù),它是根據(jù)一個基本的影響函數(shù)來定義的。原則上,影響函數(shù)可以是一個任意的函數(shù),它由某個鄰域內(nèi)的兩個對象之間的距離來決定。距離函數(shù)f(x,y)應(yīng)當是自反的和對稱的,例如歐幾里得距離函數(shù),它用來計算—個方波影響函數(shù),如公式(1):
在一個對象x上的密度函數(shù)被定義為所有數(shù)據(jù)點的影響函數(shù)的和給定n個數(shù)據(jù)對象,在x上的密度函數(shù)定義如公式(2):
根據(jù)密度函數(shù),我們能夠定義該函數(shù)的梯度和密度吸引點。一個點x是被一個密度吸引點x*密度吸引的,如果存在一組點x0,x1,···xk;x0=x;xk=x*,對0
基于這些概念,能夠形式化地定義中心定義的簇和任意形狀的簇。密度吸引點x*的中心定義的簇是一個被x*密度吸引的子集C,在x*的密度函數(shù)值不小于閾值;否則它被認為是孤立點。一個任意形狀的簇是子集C的集合,每個點是密度吸引點且密度函數(shù)值不小于閾值,并從每個區(qū)域到另一個都存在一條路徑P,該路徑上每個點的密度函數(shù)值都不小于閾值。
DENCLUE與其他聚類算法相比主要的優(yōu)點有如下一些:(1)它有一個堅實的數(shù)學(xué)基礎(chǔ),概括了其他的聚類方法,包括基于劃分的、層次的、位置的方法;(2)對于有大量“噪聲”的數(shù)據(jù)集合,它有良好的聚類特征;(3)對高維數(shù)據(jù)集合的任意形狀的聚類,它給出了簡潔的數(shù)學(xué)描述;(4)它使用了網(wǎng)格單元,只保存關(guān)于實際包含數(shù)據(jù)點的網(wǎng)格單元的信息。它以一個基于樹的存取結(jié)構(gòu)來管理這些單元,因此比一些有影響的算法速度要快。但是,這個方法要求對密度參數(shù)和噪聲閾值進行仔細的選擇,因為這樣的參數(shù)選擇可能顯著地影響聚類結(jié)果的質(zhì)量。
本文仿真中使用KDD CUP99數(shù)據(jù)模擬電網(wǎng)遠動系統(tǒng)數(shù)據(jù)。該數(shù)據(jù)為模擬局域網(wǎng)的網(wǎng)絡(luò)環(huán)境下的網(wǎng)絡(luò)連接和系統(tǒng)審計數(shù)據(jù),被廣泛使用在異常檢測領(lǐng)域中。KDD CUP99數(shù)據(jù)集中包括近五百萬條訓(xùn)練數(shù)據(jù)和兩百多萬條測試數(shù)據(jù),本文從中隨機抽取10000條測試數(shù)據(jù)。
為了去除屬性量綱對模型的影響,需要對數(shù)據(jù)進行標準化,包括中心化和無量綱化兩部分處理。中心化是對數(shù)據(jù)進行坐標變換,使得數(shù)據(jù)和數(shù)據(jù)對象中心重合。無量綱化通過將變量的方差歸一,使得每個變量具有等同的權(quán)重。
下面分別從準確性和時間復(fù)雜度兩個角度對本文算法進行分析。針對準確性,使用檢測率和誤報率。檢測率為檢測出的異常數(shù)據(jù)個數(shù)與異??倲?shù)的比率,誤報率為被檢測為異常的正常數(shù)據(jù)個數(shù)與正常數(shù)據(jù)總數(shù)的比率,本文算法仿真結(jié)果檢測率和誤報率的ROC圖,如圖1所示:
圖1 檢測率和誤報率的ROC曲線
在檢測率大于90%時,誤報率隨檢測率的提高大幅升高。從檢測結(jié)果分析可得出,在檢測率大于90%時,部分正常情況不能在第二層聚類過程中完成合并,從而被鑒定為異常情況,造成了誤報率的大幅提高。本文算法比較理想的結(jié)果范圍為檢測率在80%~90%,誤報率在2%~8%之間。
與Apriori算法相比,本文算法在檢測率相近的情況下,誤報率比較低,如表1所示:
表1 異常檢測算法比較
和高檢測率一樣,低誤報率對電網(wǎng)異常檢測系統(tǒng)非常重要。與單獨的K-means聚類算法和DENCLUE聚類算法相比,本文算法的檢測率和誤報率效果都更好。同時較DENCLUE聚類算法,本文對大數(shù)據(jù)的處理速度得到了大幅的提高。
本文分析了電網(wǎng)的遠動系統(tǒng)的特點和當前異常檢測技術(shù),并根據(jù)遠動監(jiān)測系統(tǒng)的特點提出了基于雙層聚類算法進行遠動異常情況檢測。該算法具有以下特點:(1)所需要的樣本訓(xùn)練量??;(2)準確率高,在較高的檢測率情況下有較小的誤報率。本文算法在數(shù)據(jù)極大的情況下,計算時間依然較長。下一步工作是在保證準確性的情況下,進一步縮減計算時間,進而實現(xiàn)遠動系統(tǒng)實時異常檢測。
[1] 楊歡紅,葉海明.電力遠動通道故障的分析檢測[J]. 上海電力學(xué)院學(xué)報,2009,25(4):321-324.
[2] 尚志遠.基于數(shù)據(jù)流挖掘分析的網(wǎng)絡(luò)入侵檢測系統(tǒng)研究[D].山東:山東大學(xué),2012.
[3] Wenke Lee, Salvatore J. Stolfo, Philip K. Chan. Real Time Data Mining based Intrusion Detection[R].Computer Science Department,Columbia University,2001.
[4] Aggarwal C,Han J,Wang J,Yu PS. A Framework for Clustering Evolving Data Streams[A]. 2003: 81-92.
[5] Han Jiawe, Micheline Kamber.Data Mining Concepts and Techniques[M].China Machine Press,Beijing,2004.
[6] Xiaogno Yu,Xiaopeng Yu.An Adaptive Information Grid Architecture for Recommendation System[C].APSCC,06,2006:560-565.
[7] Zhaohui Tang, Jamie Maclennan, Peter Pyungchul Kim.Building Data Mining Solutions with OLE DB for DM and XML for Analysis[J].SIGMOD Record,2005,34(2):3-5.
[8] CUI Guan-xun, LI Liang. Research on an Intrusion Detection System Based on the Improved Apriori Algorithm[J]. Computer Engineering & Science, 2011,33(4):40-44.