杜潔 蘇文偉 彭秋霞
摘 要
電力綜合數(shù)據(jù)網(wǎng)的深化應(yīng)用對異常流量的檢測和分析提出了更高的要求。本文通過對電力綜合數(shù)據(jù)網(wǎng)的流量數(shù)據(jù)結(jié)構(gòu)進(jìn)行分析,驗證了電力綜合數(shù)據(jù)網(wǎng)正常單位流量具有穩(wěn)定的信息熵。在此基礎(chǔ)上,提出了通過對數(shù)據(jù)流量五元組熵值的分析來判斷異常流量的方法,并對綜合數(shù)據(jù)網(wǎng)流量結(jié)構(gòu)進(jìn)行建模,提出應(yīng)用支持向量機的算法對異常流量進(jìn)行識別。
【關(guān)鍵詞】綜合數(shù)據(jù)網(wǎng) 異常流量 支持向量機
1 某電網(wǎng)綜合數(shù)據(jù)網(wǎng)流量分析現(xiàn)狀
目前某電網(wǎng)公司綜合業(yè)務(wù)數(shù)據(jù)網(wǎng)以主數(shù)據(jù)中心和同城災(zāi)備中心為核心,與全省各地供電局的綜合數(shù)據(jù)網(wǎng)絡(luò)核心形成互聯(lián),互聯(lián)鏈路采用萬兆以太網(wǎng)傳輸技術(shù),形成一個電網(wǎng)綜合數(shù)據(jù)業(yè)務(wù)傳輸?shù)某休d網(wǎng)平臺。具體網(wǎng)絡(luò)拓?fù)淙缦滤荆?/p>
該電網(wǎng)公司綜合數(shù)據(jù)網(wǎng)絡(luò)核心日常數(shù)據(jù)流量已超過1GB,流量監(jiān)控使用ARBOR流量分析設(shè)備來完成,通過Netflow的方式監(jiān)測骨干層各中心匯聚設(shè)備連接到省中心的端口。
目前,該電網(wǎng)公司流量分析系統(tǒng)具備的主要功能包括:
(1)能夠得到端到端用戶體檢的量化數(shù)據(jù),包括端到端的全過程響應(yīng)時間。
(2)能夠得到網(wǎng)絡(luò)傳輸時延的數(shù)據(jù),并考慮到不同數(shù)據(jù)包大小情況的網(wǎng)絡(luò)傳輸時延。
(3)能夠得到應(yīng)用系統(tǒng)各個交互過程的響應(yīng)時間的數(shù)據(jù)。
(4)能夠根據(jù)時間迅速定位流量,并根據(jù)地址、端口等信息迅速將所需網(wǎng)絡(luò)流量數(shù)據(jù)包檢索并抽取出來進(jìn)行分析。
由以上功能點的統(tǒng)計分析,可以得知,目前該電網(wǎng)的流量分析系統(tǒng)能做到對網(wǎng)絡(luò)流量的統(tǒng)計及性能分析,但對網(wǎng)絡(luò)流量異常的做不到良好的預(yù)警。
2 流量異常檢測方法
自Denning研究異常檢測模型以來,網(wǎng)絡(luò)異常檢測方法的研究就一直受到學(xué)術(shù)界的極大關(guān)注。白玉峰研究致力于利用流量大?。ㄈ缌鲾?shù)、分組數(shù)或字節(jié)數(shù))來檢測網(wǎng)絡(luò)異常并獲得巨大成功,但是這類方法面臨的問題是:并非所有的異常都會引起流量大小的顯著變化;此外,采用不同的流量測度可能會識別出不同的流量異常,因此僅僅采用一種流量測度并不能識別蘊含在流量數(shù)據(jù)中的所有異常。
近年來的大量研究表明,不管是局域網(wǎng)還是廣域網(wǎng),網(wǎng)絡(luò)流量都具有明顯的突發(fā)性和長相關(guān)性,而網(wǎng)絡(luò)的自相似性特性可以很好地描述流量這些特性,所以,自相似性已成為網(wǎng)絡(luò)流量的重要特性并以此作為流量異常檢測的基礎(chǔ)?,F(xiàn)今已有大量計算機學(xué)科領(lǐng)域的算法和模型被使用在網(wǎng)絡(luò)流量的異常檢測方面,文獻(xiàn)采用小波分析方法利用網(wǎng)絡(luò)流量在時間尺度上的多重分形,在小波域內(nèi)對網(wǎng)絡(luò)流量進(jìn)行分解,通過計算網(wǎng)絡(luò)流量的Hurst指數(shù),根據(jù)正常與異常流量Hurst指數(shù)的偏差來檢測異常,但該方法Hurst指數(shù)與時間尺度緊密相關(guān),只對突發(fā)性的流量具有較好的檢測效果;文獻(xiàn)[1]提出一種融合k-means的聚類檢測算法,該文增量地構(gòu)建流量矩陣,增量地使用PCA主成分進(jìn)行異常檢測,這些方法在全網(wǎng)流量異常時檢測效果非常明顯,但算法相對過于復(fù)雜使其在實時性上較差;文獻(xiàn)[2] 使用一種基于信息熵的特征選擇算法,降低了檢測數(shù)據(jù)的維數(shù),但增量學(xué)習(xí)的限制條件比較多,增量學(xué)習(xí)效率較低。
3 綜合數(shù)據(jù)網(wǎng)流量異常檢測
通過上述分析可以看出,數(shù)據(jù)流五元組的熵值較為穩(wěn)定,可以通過熵值的變化情況來區(qū)分正常流量和異常流量。因此綜合數(shù)據(jù)網(wǎng)異常流量的檢測問題也就是通過對數(shù)據(jù)流量五元組熵值的分析來做出正常或異常的判斷。
3.1 異常流量檢測模型
針對上文中對流量特性的分析,綜合數(shù)據(jù)網(wǎng)異常流量的檢測問題可以理解為通過已有的流量特征據(jù),將現(xiàn)有的流量分類為正?;虍惓?。模式識別理論是利用已有的信息,按照某種特定的規(guī)則確定未知的樣本的類別屬性,模式識別往往被看作是分類問題,讓機器自身從環(huán)境中分離出某種模式并對未知樣本的歸類做出合理的判斷。因此,可以將模式識別應(yīng)用于綜合數(shù)據(jù)網(wǎng)的異常力量檢測,通過對己有的數(shù)據(jù)流量的熵值樣本進(jìn)行學(xué)習(xí),建立規(guī)律模型,利用該模型對未知樣本進(jìn)行分類。
3.2 異常檢測算法
首先使用一定數(shù)量的正常流量和異常流量數(shù)據(jù)作為訓(xùn)練樣本輸入到支持向量機之中,根據(jù)這些訓(xùn)練數(shù)據(jù)輸出一個模型,這個模型實際上就是通過樣本構(gòu)造的決策函數(shù)。然后將測試數(shù)據(jù)輸入該模型進(jìn)行分類。
3.2.1 訓(xùn)練階段
根據(jù)信息熵的定義,對樣本流量的五元組分別求熵,建立樣本流量的五維熵值向量。使用核函數(shù)將向量從五維變換到高位,再將數(shù)據(jù)作為訓(xùn)練樣本輸入到支持向量機之中,根據(jù)這些訓(xùn)練數(shù)據(jù)構(gòu)造的一個決策函數(shù)。
3.2.2 檢測階段
將檢測流量輸入模型進(jìn)行檢測,分類結(jié)果為1則為正常流量,分類結(jié)果為-1即為異常流量。
4 結(jié)束語
本文通過對電力綜合數(shù)據(jù)網(wǎng)的流量數(shù)據(jù)結(jié)構(gòu)進(jìn)行分析,驗證了電力綜合數(shù)據(jù)網(wǎng)正常數(shù)據(jù)符合重尾分布,且正常單位流量具有穩(wěn)定的信息熵。在此基礎(chǔ),對綜合數(shù)據(jù)網(wǎng)流量結(jié)構(gòu)進(jìn)行建模,采用支持向量機的識別算法對異常流量進(jìn)行識別。實驗結(jié)果表明,在異常流量比例大于5%的條件下,算法能夠檢測出網(wǎng)絡(luò)中的異常數(shù)據(jù)。
下一步的工作是深入研究電力綜合數(shù)據(jù)網(wǎng)異常流量的類型以及各種異常流量對流量結(jié)構(gòu)的影響,改進(jìn)檢測算法,進(jìn)一步提升算法的精度。
參考文獻(xiàn)
[1]DENNING D.An intrusion-detection model[J].IEEE Transactions on Software Engineering,1987,13(2):222-232.
[2]TORRES R,HAJJAT M,RAO SG,et al.Inferring undesirable behavior from P2P traffic analysis[A].SIGMETRICS[C].USA,2009,231-242.
[3]GU G,PERDISCI R,ZHANG J,et al.BotMiner:clustering analysis of network traffic for protocol and structure-independent botnet detection[A].USENIX Security[C].USA.,2008,67-76.
作者單位
云南電網(wǎng)公司信息中心 云南省昆明市 650217endprint