基于支持向量數(shù)據(jù)描述的報警融合方法

2015-04-16 08:52:06曹薇薇尹傳環(huán)牟少敏

計算機工程與應(yīng)用 2015年19期

關(guān)鍵詞：漏報模擬退火分類器

曹薇薇，尹傳環(huán)，牟少敏

CAO Weiwei1,YIN Chuanhuan1,MU Shaomin2

1.北京交通大學計算機與信息技術(shù)學院，北京100044

2.山東農(nóng)業(yè)大學信息科學與工程學院，山東泰安271018

1.School of Computer and Information Technology,Beijing Jiaotong University,Beijing 100044,China

2.School of Computer and Information Engineering，Shandong Agriculture University,Tai’an,Shandong 271018,China

1 引言

隨著計算機的普及，網(wǎng)絡(luò)傳播的信息涉及各行各業(yè)，網(wǎng)絡(luò)安全問題逐漸成為人們關(guān)注的一個焦點。防火墻隔離、網(wǎng)絡(luò)訪問控制等靜態(tài)防御手段已經(jīng)不能滿足當前的需要，因此能夠主動檢測并且報告不安全行為的入侵檢測系統(tǒng)應(yīng)運而生。

然而在實際的應(yīng)用過程中，極高的漏報率、誤報率和大量的重復(fù)報警是入侵檢測系統(tǒng)無法避免的缺陷，報警融合技術(shù)就是為此而提出的。報警融合的目的是降低漏報率、誤報率，減少重復(fù)報警，以利于管理員清晰地掌握網(wǎng)絡(luò)的發(fā)展態(tài)勢。然而現(xiàn)今大部分報警融合的方法主要是為了減少重復(fù)報警[1-4]，對于提高檢測率和降低漏報方面很少關(guān)注，但是這些對于改善攻擊的檢測效果也是至關(guān)重要的。本文提出的基于支持向量數(shù)據(jù)描述的報警融合方法，通過局部分類、數(shù)據(jù)融合以及最終的決策分析，既避免了普通支持向量機在處理樣本不均衡問題上的檢測率很低的現(xiàn)象[5]，同時，通過結(jié)合模擬退火的思想，能夠剔除冗余特征，提高參與訓(xùn)練的報警的質(zhì)量，最終通過數(shù)據(jù)融合，能夠在很大程度上提高報警的檢測率，降低漏報率和誤報率，明顯地改善了攻擊的檢測效果。

2 支持向量數(shù)據(jù)描述

支持向量數(shù)據(jù)描述（SVDD）是用于異常檢測的一類分類器。它源于Vapnik[6]提出的支持向量機（SVM），在2004 年由Tax 和Duin[7]提出。一類分類支持向量機包括兩種：一種是普通的一類分類支持向量機（OCSVM）[8]，它尋找的是一個最優(yōu)的分類超平面，將訓(xùn)練數(shù)據(jù)與原點以最大間隔進行劃分；然而在現(xiàn)實中，異常數(shù)據(jù)點也是存在的，只是不足以和正常數(shù)據(jù)構(gòu)成一個樣本均衡的兩類分類器，于是就出現(xiàn)了另外一種一類分類器即本文所采用的SVDD，它尋找的是一個能夠包括所有目標數(shù)據(jù)的最小超球體，而盡可能地將少量異常數(shù)據(jù)點劃分在超球體的外面。

SVDD 的數(shù)學模型如下：

引入拉格朗日乘子，可將上述問題轉(zhuǎn)化為其對偶問題：

根據(jù)文獻[7]，引入核函數(shù)K(xi,xj)=(Φ(xi)·Φ(xj))，可以將上述線性問題轉(zhuǎn)化為非線性問題，具體的引入過程見文獻[7]，轉(zhuǎn)化后的問題表示如下：

決策函數(shù)為：

對于一個待測的樣本z，如果它到球體中心的距離小于超球的半徑，則判斷它為正常數(shù)據(jù)，否則即為異常數(shù)據(jù)。判斷公式如下：

如果f小于等于0，則認為待測樣本屬于正常類，否則即為異常類。其中K(xi,xj)代表核函數(shù)，現(xiàn)在常用的核函數(shù)包括線性核函數(shù)，高斯核函數(shù)，多項式核函數(shù)以及sigmoid 核函數(shù)[9]，本文采用高斯核函數(shù)[10]，其公式如下：

3 模擬退火

模擬退火（SA）的思想源于固體降溫，眾所周知，固體必須緩慢降溫才能使得它在每一個溫度下都能達到熱平衡，最終趨向于平衡狀態(tài)。模擬退火的思想最早是由Metropolis[11]提出的，1983 年，Kirkpatrick[12]等人將其引入到組合化領(lǐng)域，至此得到了許多學者對其更加深入的研究與推廣。

模擬退火的具體過程如下：從選定的初始解開始，借助于溫度控制參數(shù)t，在t緩慢降低時產(chǎn)生的一系列Markov 鏈中，利用一個隨機產(chǎn)生新解的案和Metropolis準則，重復(fù)下面的過程“產(chǎn)生新解→計算目標函數(shù)差→判斷是否接受新解→根據(jù)Metropolis準則判斷是否接受新解”，如此的進行迭代，直到目標函數(shù)達到最優(yōu)。

4 SA-SVDD 算法

將SA 思想引入到SVDD 中是為了尋找最優(yōu)的折中參數(shù)C1、C2，高斯核參數(shù)σ和屬性特征[13]。算法流程如下：

（1）首先設(shè)置一個初始的溫度值T=T0和最大迭代次數(shù)，溫度值是一個很大的數(shù)。

（2）隨機產(chǎn)生一個解決方案x，作為初始的參數(shù)值和屬性特征。

（3）以x為出發(fā)點，產(chǎn)生一個隨機向量作為下一個可行方案y。

（4）分別計算兩個解決方案的目標函數(shù)值，在這里目標函數(shù)值指的是分類準確率，記為X和Y，ΔE=Y-X。

（5）如果ΔE＞0，則用新的解決方案y代替原來的解決方案x，溫度立即減小，轉(zhuǎn)（7）。

（7）判斷是否達到最大迭代次數(shù)，如果沒有達到，則轉(zhuǎn)（3）繼續(xù)執(zhí)行；否則終止算法，輸出最優(yōu)的解決方案。

通過SA-SVDD 算法可以找到SVDD 模型中的參數(shù)C1、C2，高斯核參數(shù)σ和所選擇的屬性特征，之后將這些參數(shù)和屬性特征用于SVDD 模型的訓(xùn)練，不僅可以提高分類的準確率，同時減少了無關(guān)屬性的干擾，既縮短了訓(xùn)練的時間，也進一步提高了模型的分類質(zhì)量。

5 SA-SVDD 在報警融合中的應(yīng)用

報警數(shù)據(jù)的多源性與復(fù)雜性使得傳統(tǒng)的單個分類器檢測效率急劇下降，由此多個分類器同時被用來進行報警數(shù)據(jù)的檢測成為必然趨勢[14]。根據(jù)可能存在的不同攻擊類型分別建立相應(yīng)的分類檢測器，多個檢測器協(xié)同作用，再通過最終的決策中心進行判斷，這樣的結(jié)構(gòu)如圖1 所示，能夠很大程度上提高檢測效率，降低漏報率和誤報率。

圖1 多個分類器協(xié)同檢測結(jié)構(gòu)

5.1 模型的構(gòu)建

1998 年，美國國防部高級規(guī)劃署（DARPA）在林肯實驗室建立了一個模擬美國空軍局域網(wǎng)的一個網(wǎng)絡(luò)環(huán)境，通過仿真各種用戶類型、各種不同的網(wǎng)絡(luò)流量和攻擊手段收集了9 周時間的網(wǎng)絡(luò)連接和系統(tǒng)審計數(shù)據(jù)，形成了KDD CUP 99 數(shù)據(jù)集[15]，隨后來自哥倫比亞大學的Sal Stolfo 教授和來自北卡羅來納州立大學的Wenke Lee 教授采用數(shù)據(jù)挖掘等技術(shù)對以上數(shù)據(jù)集進行特征分析和數(shù)據(jù)預(yù)處理，形成了現(xiàn)在著名的KDD99 數(shù)據(jù)集，這個數(shù)據(jù)集的每個數(shù)據(jù)包含41 種屬性，第42 個是標明數(shù)據(jù)類型的。本文采用KDD99 數(shù)據(jù)集構(gòu)建了一個具體的模型，并且用相關(guān)數(shù)據(jù)對模型進行了測試。

KDD99 數(shù)據(jù)集根據(jù)其攻擊的特征分為4 種類型：拒絕服務(wù)攻擊類型DOS（Denial of Service）、端口檢測和掃描攻擊類型PROBING（probing）、權(quán)限提升攻擊類型U2R（User to Root），遠程登錄攻擊類型R2L（Remote to Local）。本文將4 種攻擊類型與正常數(shù)據(jù)類型分別建立4 個有針對性的分類器，對攻擊類型和正常數(shù)據(jù)進行檢測，然后將局部的檢測結(jié)果發(fā)到?jīng)Q策中心，通過報警融合規(guī)則進行融合以做出最終的決策判斷。與普通分類器不同的是，這4 個分類器采用上述SA-SVDD 算法，分別以4 種攻擊類型為正類，而正常數(shù)據(jù)看成負類，這樣做的目的是每個分類器有針對性的對攻擊類型進行檢測，而且由于每種攻擊類型對于數(shù)據(jù)41 個屬性的需要程度不同，所以結(jié)合SA-SVDD 算法可以自動為每個攻擊類型篩選出適合它自己的數(shù)據(jù)屬性，既減少了無關(guān)屬性對于分類精度的干擾，同時對數(shù)據(jù)進行了約減，大大節(jié)約了訓(xùn)練所需要的時間，因此這樣訓(xùn)練出來的模型能夠明顯地降低漏報率和誤報率。本文選取KDD99的部分子集進行了實驗，分別從4 種攻擊類型的子集中抽取部分作為訓(xùn)練集合，而剩余的數(shù)據(jù)進行測試，4 個訓(xùn)練的數(shù)據(jù)集如下（圖2 左邊）訓(xùn)練結(jié)果分別表示為ui，i∈{1,2,3,4}，ui∈{1,-1}，其中1 表示屬于攻擊類型，-1 表示屬于正常數(shù)據(jù)。然后統(tǒng)一將局部檢測的結(jié)果送到報警數(shù)據(jù)融合決策中心，通過決策融合得到最終的判斷，4 個分類器的決策函數(shù)如圖2 所示。

圖2 融合實現(xiàn)過程的具體結(jié)構(gòu)

5.2 融合規(guī)則算法

由于各個分類器中參與訓(xùn)練的數(shù)據(jù)集大小是不同的，所以每個分類器的分類性能也是不同的，采用一個矩陣Q表示各個分類器的分類性能，針對本文的實驗，這個Q是一個5×4 的矩陣：

矩陣中的每個元素qij表示第j個分類器對于第i個數(shù)據(jù)集的分類準確度，根據(jù)風險最小化準則，融合算法設(shè)計如下：

（1）由U={u1,u2,u3,u4}得到V={v1,v2,v3,v4}={-u1,-u2,-u3,-u4}。

（2）由U和α1,α2,α3,α4計算得到,，由V和α1,α2,α3,α4計算得到，其中i=1,2,3,4，表示對角線元素為αi，其余元素都為0 的i階方陣。

決策的依據(jù)是如果屬于所有攻擊類中概率最大的值都比屬于正常類中概率最小的值還要小，那么這個報警判定為正常類，否則即為攻擊類，實驗結(jié)果記錄這個攻擊類的類型以及被哪個檢測器檢測得到。

6 實驗結(jié)果及分析

本文選取的報警數(shù)據(jù)來自KDD99 數(shù)據(jù)集的一個子集，這個子集帶有正確的分類標簽，以便于對于模型進行驗證，表1展示了這個子集中每種攻擊類型的數(shù)據(jù)條數(shù)。

表1 實驗所用到的各種數(shù)據(jù)的條數(shù)統(tǒng)計

實驗只是選取了一部分數(shù)據(jù)進行建模，剩余的大部分數(shù)據(jù)進行模型的測試，模型的建立過程中需要兩種數(shù)據(jù)同時存在，因此本實驗隨機從KDD99 數(shù)據(jù)集中選取了部分作為建模，表2 展示了參加訓(xùn)練的所有攻擊數(shù)據(jù)的條數(shù)以及形成的各個模型中的支持向量的個數(shù)。

表2 訓(xùn)練數(shù)據(jù)的條數(shù)及各個模型中支持向量的個數(shù)統(tǒng)計

模型的檢測結(jié)果如表3，左側(cè)的一列表示數(shù)據(jù)集，表格的第一行表示各個分類器，中間的數(shù)據(jù)表示各個分類器的檢測準確率。

表3 模型的檢測結(jié)果 %

表3 顯示了各個模型的分類準確率，其中f-U2R 分類器之所以出現(xiàn)對所有數(shù)據(jù)的檢測都是100%的結(jié)果是因為U2R 這種攻擊數(shù)據(jù)的數(shù)據(jù)量太小，從表1 和表2 可以看出，參加訓(xùn)練的數(shù)據(jù)只有25 條，模型中只有4 個支持向量，這就有可能導(dǎo)致形成的超球體半徑很小，而參加測試的數(shù)據(jù)只有5 條，因此當這5 個數(shù)據(jù)點全部恰好位于這個超球體內(nèi)，而剩下的數(shù)據(jù)點全部位于超球體外面，就導(dǎo)致了實驗的結(jié)果是100%的檢測準確率。表3是采用融合算法之前的各個模型對于每個被測數(shù)據(jù)集的測試結(jié)果展示，表4 顯示了采用本文所提融合算法之后的檢測結(jié)果，其中矩陣Q即是表3 中的數(shù)據(jù)值。

表4 經(jīng)過融合決策中心之后的檢測結(jié)果

通過將表4 與表3 對比，發(fā)現(xiàn)融合后對于DOS 和PROBING 兩種攻擊類型的檢測都有了一些提高，而對于U2R 和R2L 兩種數(shù)據(jù)的檢測沒有變化，對于正常數(shù)據(jù)的檢測相比單個分類器有了少許降低，但是從實際情況來看，少許的誤報換來對于頻繁攻擊的更精確檢測還是值得的。

最后本文還統(tǒng)計了融合前后模型的漏報率，漏報率指未被檢測出來的數(shù)據(jù)占其所在數(shù)據(jù)類型的數(shù)據(jù)的百分比。

通過表5 可以很明顯看出融合算法之后各個數(shù)據(jù)集的漏報率都有了明顯的降低，只是正常數(shù)據(jù)的漏報率有了稍許的增加。這意味著可能稍許正常的數(shù)據(jù)被誤判斷為異常數(shù)據(jù)，但是對于像DOS 和PROBING 這兩種非常大量的攻擊，檢測率有了明顯的提升，這里認為少量的誤判還是值得的。

表5 融合前后模型的漏報率比較

7 結(jié)論及展望

本文提出了一種基于支持向量數(shù)據(jù)描述的報警融合方法，并且結(jié)合模擬退火的思想，能夠根據(jù)不同的攻擊類型，選擇適合它本身的數(shù)據(jù)屬性和核參數(shù)，建立的各個小模型再經(jīng)過報警融合決策中心進行判斷，最終確定是屬于哪種攻擊類型。這樣通過分布式檢測，最后經(jīng)過決策融合中心得到最終的報警結(jié)果，不僅增加了報警的檢測率，也在很大程度上減少了漏報率，彌補了普通報警融合算法中很少考慮這兩方面的缺點。

當然，本文所提的方法也還是有缺陷的，由于訓(xùn)練數(shù)據(jù)選取的隨機性以及數(shù)據(jù)本身的限制，所以建立的模型也不是非常完美的，對于像U2R 數(shù)據(jù)的模型，因為數(shù)據(jù)量小，就不是很理想。模擬退火的次數(shù)也是模型中一個人為控制的因素，這個只能通過大量的實驗獲得，沒有統(tǒng)一的標準，并且針對不同的數(shù)據(jù)集可能取值也是不同的。但是無論如何，模型對于大量普遍存在的數(shù)據(jù)集如DOS 攻擊和PROBING 攻擊的檢測還是很有效的。對于其他的數(shù)據(jù)集，將來也可以進行驗證。

[1] Valdes A，Shinner K.Probabilistic alert correlation[C]//Proceedings of the 4th International Symposium on Recent Advances in Intrusion Detection，Davis，2001：54-68.

[2] Giacinto G，Roli F，Didaci L.Fusion of multiple classifiers for intrusion detection in computer networks[J].Pattern Recognit Lett，2003，24（12）：1795-1803.

[3] 穆成坡，黃厚寬，田盛豐.基于模糊綜合評判的入侵檢測報警信息處理[J].計算機研究與發(fā)展，2005，42（10）：1679-1685.

[4] 郭帆，余敏，葉繼華.一種基于分類和相似度的報警聚合方法[J].計算機應(yīng)用，2007，27（10）：2446-2449.

[5] 姚程寬.SVM 在不平衡樣本集中的應(yīng)用研究[J].計算機與數(shù)字工程，2007（10）.

[6] Vapnik V N.The nature of statistical learning theory[M].New York：Springer，1995.

[7] Tax D M J，Duin R.Support vector data description[J].Machine Learning，2004，54：45-66.

[8] Sch?lkopf B，Williamson R，Smola A，et al.Single-class support vector machine，Unsupervised Learning，Dagstuhl-Seminar-Report 235[R].1999：19-20.

[9] Muller K R，Mike S，Ratsch G，et al.An introduction to kernel-based learning algorithms[J].IEEE Trans on Neural Net，2001，12：181-201.

[10] Buhmann M D.Radial basis functions[M].Cambridge：Cambridge University Press，2000：1-38.

[11] Metropolis N，Rosenbluth A W，Rosenbluth M N，et al.Equation of state calculations by fast computing machines[J].The Journal of Chemical Physics，1953，21（6）：1087-1092.

[12] Kirkpatrick S，Gelatt Jr C D，Vecchi M P.Optimization by simulated annealing[J].Science，1983，220：671-680.

[13] 曹薇薇，劉國華，陳國濤，等.模擬退火在支持向量數(shù)據(jù)描述的參數(shù)選取和特征選擇中的應(yīng)用[C]//第五屆中國智能計算大會論文集，2011.

[14] Snapp S R.DIDS（Distributed Intrusion Detection System）-Motivation，architecture，and an early prototype[C]//Proceedings of the 14th National Computer Security Conference，1991：167-176.

[15] KDD Cup 1999 Data[EB/OL].[2013-09-15].http：//kdd.ics.uci.edu/databases/kddcup99/kddcup99.html.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看