蘇健
摘 要:根據(jù)數(shù)據(jù)融合理論,提出了一種基于二級(jí)數(shù)據(jù)融合的入侵檢測(cè)的理論框架。該方法在一級(jí)融合充分利用了多源檢測(cè)信息;進(jìn)行二級(jí)融合的各檢測(cè)方法則利用各自特點(diǎn)彌補(bǔ)單一方法的缺陷,故可在保持較低誤警率的情況下,提高檢測(cè)率,同時(shí)能夠發(fā)現(xiàn)未知類型的攻擊。在該理論框架下建立一種實(shí)現(xiàn)模型,可將一種新的基于聚類(非監(jiān)督學(xué)習(xí))分析方法應(yīng)用于此。在仿真實(shí)驗(yàn)中,通過通用的KDD99數(shù)據(jù)集的測(cè)試結(jié)果表明,其總體檢測(cè)率得到了明顯的提高。文中也對(duì)系統(tǒng)的實(shí)時(shí)性進(jìn)行了分析和總結(jié)。
關(guān)鍵詞:網(wǎng)絡(luò)安全;入侵檢測(cè);數(shù)據(jù)融合;聚類
中圖分類號(hào):TP393.08 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-1302(2015)08-00-03
0 引 言
近年來,互聯(lián)網(wǎng)迅猛發(fā)展,隨之而來的是網(wǎng)絡(luò)入侵事件的數(shù)量也成倍增長(zhǎng);信息安全領(lǐng)域面臨嚴(yán)峻的挑戰(zhàn),而入侵檢測(cè)技術(shù)作為主要的動(dòng)態(tài)防御手段已經(jīng)成為當(dāng)前刻不容緩的重要課題。入侵檢測(cè)是對(duì)計(jì)算機(jī)系統(tǒng)攻擊行為的檢測(cè)。入侵檢測(cè)系統(tǒng)(Intrusion Detection System)能實(shí)時(shí)監(jiān)控系統(tǒng)的活動(dòng)、及時(shí)發(fā)現(xiàn)攻擊行為并采取相應(yīng)的措施以避免攻擊的發(fā)生或盡量減少攻擊造成的危害。
傳統(tǒng)的入侵分析技術(shù)分為濫用檢測(cè)(Misuse Detection)和異常檢測(cè)(Anomaly Detection)兩大類。目前已經(jīng)發(fā)展出的入侵分析技術(shù)已有數(shù)十種,而任何一種單一的入侵分析技術(shù)都存在一定的不足。例如,基于規(guī)則匹配的濫用檢測(cè)方法不能有效檢測(cè)已知攻擊的變種或?yàn)橹构?;基于系統(tǒng)調(diào)用的異常檢測(cè)方法不能適應(yīng)用戶反復(fù)無常的更改其工作習(xí)慣;基于神經(jīng)網(wǎng)絡(luò)的入侵檢測(cè)方法要求訓(xùn)練數(shù)據(jù)集純凈,可移植性差。本文提出的新的入侵檢測(cè)框架能充分利用多源檢測(cè)信息,進(jìn)行融合的各檢測(cè)方法利用各自特點(diǎn)彌補(bǔ)單一方法的缺陷,在保持較低的誤警率的情況下,提高檢測(cè)率,同時(shí)能夠發(fā)現(xiàn)未知類型的攻擊。
1 基于數(shù)據(jù)融合的入侵檢測(cè)
1.1 理論模型
數(shù)據(jù)融合技術(shù)在軍事領(lǐng)域已得到廣泛的應(yīng)用,其定義為:把來自多傳感器和信息源的數(shù)據(jù)和信息加以聯(lián)合(Association)、相關(guān)(Correlation),合并為一種表示形式,以獲得目標(biāo)精確的位置/狀態(tài)估計(jì)、身份識(shí)別,以及對(duì)戰(zhàn)場(chǎng)態(tài)勢(shì)和威脅的綜合評(píng)估。
把網(wǎng)絡(luò)數(shù)據(jù)看作來自多傳感器的多源信息并引入數(shù)據(jù)融合的分析模型,能有效的發(fā)現(xiàn)、分析數(shù)據(jù)之間的內(nèi)在聯(lián)系,并為系統(tǒng)管理員提供有效的風(fēng)險(xiǎn)評(píng)估。在1999年,Tim Bass提出了將數(shù)據(jù)融合應(yīng)用于入侵檢測(cè)的理論模型[1],圖1所示是Tim Bass的基于數(shù)據(jù)融合的入侵檢測(cè)模型圖。
在圖1所示模型中,態(tài)勢(shì)數(shù)據(jù)可通過網(wǎng)絡(luò)傳感器的初步觀測(cè)基元、標(biāo)識(shí)符、次數(shù)和描述獲得。原始數(shù)據(jù)需要校準(zhǔn)過濾,參照?qǐng)D1中的層次0。第1層的對(duì)象提取在時(shí)間(或空間)上相關(guān)聯(lián),其數(shù)據(jù)標(biāo)以公制的權(quán)重。觀測(cè)數(shù)據(jù)可以根據(jù)入侵檢測(cè)基元關(guān)聯(lián)、配對(duì)、分類。對(duì)象通過配位的行為、依賴、共同的源點(diǎn)、共同的協(xié)議、共同的目標(biāo)、相關(guān)的攻擊率或其他高層次的屬性被檢測(cè)出,形成一個(gè)基于對(duì)象的聚集的集合。對(duì)象在這樣的對(duì)象基上的上下文中排列、關(guān)聯(lián)、置位后,態(tài)勢(shì)提取就可以提供態(tài)勢(shì)知識(shí)和識(shí)別。
在該模型的啟發(fā)下,本文提出了一種基于二級(jí)數(shù)據(jù)融合的入侵檢測(cè)的框架。第一級(jí)對(duì)通過多源檢測(cè)信息進(jìn)行融合,提取出有效特征,實(shí)現(xiàn)數(shù)據(jù)融合的目標(biāo)標(biāo)定;第二級(jí)融合對(duì)同一目標(biāo)用不同的檢測(cè)方法進(jìn)行分析,并使用決策器對(duì)各分析結(jié)果進(jìn)行決策融合,得出最終決策并形成反饋控制自適應(yīng)的調(diào)整IDS自身,圖2所示是基于二級(jí)數(shù)據(jù)融合的入侵檢測(cè)框架。
在本模型中,一級(jí)融合從主機(jī)傳感器、網(wǎng)絡(luò)傳感器、網(wǎng)關(guān)傳感器采集數(shù)據(jù),進(jìn)行對(duì)象提取。二級(jí)融合中使用的分析引擎也分為濫用和異常兩大類。前一大類具有檢測(cè)率高但不能發(fā)現(xiàn)未知類型的攻擊的特點(diǎn);后一大類則特點(diǎn)各有不同,如基于時(shí)序異常的IDS可以發(fā)現(xiàn)系統(tǒng)底層的異常,而基于用戶行為異常的IDS 對(duì)用戶的習(xí)慣敏感。通過決策融合可以利用各檢測(cè)引擎的優(yōu)點(diǎn),彌補(bǔ)其他的不足。而決策形成的反饋控制可以對(duì)某些分析引擎進(jìn)行微調(diào),從而使整體具有自適應(yīng)性。在決策融合中可以采用的決策方法有:決策表、能量函數(shù)、D-S證據(jù)理論。
1.2 實(shí)現(xiàn)模型
在現(xiàn)有的試驗(yàn)條件下,不可能將理論模型中所有的分析引擎都加以使用。目前入侵檢測(cè)系統(tǒng)中最大的問題就是不能在較低的誤警率下獲得較高的檢測(cè)率。產(chǎn)生這樣問題的根本原因是入侵檢測(cè)系統(tǒng)根據(jù)單一的檢測(cè)手段得到的信息不完善,根據(jù)這些信息不易得出正確的結(jié)論。著眼于這一點(diǎn),本文從兩大類入侵分析引擎中各選取一種具有代表性的進(jìn)行融合:基于規(guī)則/模式匹配的Intrusion Detection Engine和基于聚類 (非監(jiān)督學(xué)習(xí))的Intrusion Detection Engine?;谝?guī)則/模式匹配的濫用檢測(cè)方法已經(jīng)發(fā)展的比較成熟,市場(chǎng)上的商用IDS多基于此。它是對(duì)數(shù)據(jù)包作基本的協(xié)議解碼后結(jié)合數(shù)據(jù)包數(shù)據(jù)區(qū)的內(nèi)容匹配來檢測(cè)攻擊,其特點(diǎn)是對(duì)已知類型的攻擊檢測(cè)率相當(dāng)高,但具有不能發(fā)現(xiàn)未知類型的攻擊、不易配置更新的不足?;诰垲悾ǚ潜O(jiān)督學(xué)習(xí))的檢測(cè)方法屬于異常檢測(cè),它是通過在數(shù)據(jù)中發(fā)現(xiàn)不同類別的數(shù)據(jù)集合來區(qū)分異常用戶類,進(jìn)而推斷入侵事件發(fā)生,檢測(cè)異常入侵行為。該方法具有在較低誤警率下發(fā)現(xiàn)未知類型攻擊的能力,但是其檢測(cè)率不高。在文獻(xiàn)[2]中給出了一種基于非監(jiān)督學(xué)習(xí)的實(shí)現(xiàn)方法,但其性能不能滿足要求,本文采用另外一種非監(jiān)督學(xué)習(xí)的聚類方法,取得了不錯(cuò)的效果。
實(shí)際的實(shí)現(xiàn)模型如圖3所示,該模型由于檢測(cè)率高、誤警率幾乎為零,故將基于規(guī)則/模式匹配的IDE作為主分析引擎?;诰垲悾ǚ潜O(jiān)督學(xué)習(xí))的IDE作為輔助分析引擎,彌補(bǔ)主分析引擎不能發(fā)現(xiàn)未知攻擊類型的不足。由于在特征空間中反映出的入侵?jǐn)?shù)據(jù)流的分布變化不定,輔分析引擎采用基于一定時(shí)間窗口的在線訓(xùn)練加以擬合。決策融合現(xiàn)簡(jiǎn)單的采用基于檢測(cè)率、誤警率二維因素的決策表,表1所列是其二維的決策表。
當(dāng)最終決策表明當(dāng)前數(shù)據(jù)流中的入侵?jǐn)?shù)據(jù)所占的比例大于2%時(shí)形成反饋控制:關(guān)閉輔分析引擎,通知管理員,只使用主分析引擎檢測(cè)。當(dāng)入侵?jǐn)?shù)據(jù)所占的比例小于2%時(shí)繼續(xù)同步工作。
1.3 基于聚類(非監(jiān)督學(xué)習(xí))的入侵分析方法
將模式識(shí)別中的聚類技術(shù)引入入侵檢測(cè)屬于異常檢測(cè)的方法。與有監(jiān)督學(xué)習(xí)相比,非監(jiān)督學(xué)習(xí)的識(shí)別率要低一些,但具有發(fā)現(xiàn)未知相似類型的能力。該方法提出了一種能處理不帶標(biāo)識(shí)且含異常數(shù)據(jù)樣本的訓(xùn)練集數(shù)據(jù)的入侵檢測(cè)方法。對(duì)網(wǎng)絡(luò)連接數(shù)據(jù)作歸一化處理后,在特征空間中按照一定規(guī)則形成類質(zhì)心,并通過計(jì)算樣本數(shù)據(jù)與各類質(zhì)心的最小距離來對(duì)各樣本數(shù)據(jù)進(jìn)行類劃分,同時(shí)根據(jù)各類中的樣本數(shù)據(jù)動(dòng)態(tài)調(diào)整類質(zhì)心。由于網(wǎng)絡(luò)數(shù)據(jù)一般服從這樣的前提假設(shè):正常行為的數(shù)據(jù)量及其類別數(shù)將遠(yuǎn)遠(yuǎn)大于各種攻擊行為的數(shù)據(jù)量及其類別。一般可以以訓(xùn)練結(jié)果中各個(gè)類劃分的樣本數(shù)來評(píng)判該類是否異常。完成樣本數(shù)據(jù)的類劃分后,根據(jù)異常比例來確定異常數(shù)據(jù)類別并用于網(wǎng)絡(luò)連接數(shù)據(jù)的實(shí)時(shí)檢測(cè)。結(jié)果表明,該方法有效地以較低的系統(tǒng)誤警率從網(wǎng)絡(luò)連接數(shù)據(jù)中檢測(cè)出新的入侵行為,更降低了對(duì)訓(xùn)練數(shù)據(jù)集的要求。
文獻(xiàn)[2]中詳述了該方法的一種具體實(shí)現(xiàn),其核心聚類算法是最鄰近算法。其性能在誤警率平均2.63%的情況下,檢測(cè)率在18.75%到56.25%之間波動(dòng)。為了將這一方法應(yīng)用于我們的框架中,必須進(jìn)一步提高檢測(cè)率。在此方法中,核心聚類算法采用最大最小距離算法[3],同時(shí)加入一些其他的技術(shù)如非線性的歸一化預(yù)處理、非數(shù)值型特征的有效編碼等。最終,在相同的誤警率下,檢測(cè)率提高至31.625%到81.7%之間。并且,將此方法應(yīng)用于入侵檢測(cè)框架時(shí),可以利用上面提及的反饋控制調(diào)整最大最小距離算法的聚類參數(shù),進(jìn)一步提高分類的準(zhǔn)確性,從而提高檢測(cè)率。
2 仿真試驗(yàn)
在試驗(yàn)中,我們采用通用的KDDCup99[4]專用數(shù)據(jù)集進(jìn)行測(cè)試。該數(shù)據(jù)集來源于從一個(gè)模擬的局域網(wǎng)上采集來的9個(gè)星期的網(wǎng)絡(luò)連接數(shù)據(jù)。每條數(shù)據(jù)有41個(gè)特征,包括36個(gè)數(shù)字型特征,5個(gè)字符型特征。數(shù)據(jù)集種共包含4大類22種攻擊。本入侵檢測(cè)系統(tǒng)配置如下:主分析引擎可匹配識(shí)別8種攻擊;輔分析引擎的一次訓(xùn)練集包含10種攻擊,其中2種為主分析引擎不可識(shí)別的攻擊。被檢測(cè)集含有10~12種攻擊。經(jīng)過5組測(cè)試,其平均性能如表2所列。
由此可見,基于融合的檢測(cè)在較低的誤警率下可以識(shí)別一定的未知類型攻擊,從而明顯提高了檢測(cè)率。其平均檢測(cè)時(shí)間在0.011~0.019秒之間,基本可以接受。與傳統(tǒng)的方法相比,以上結(jié)果充分說明了該方法的可行性與實(shí)用性。
同時(shí)經(jīng)過進(jìn)一步分析,還可以看出,雖然基于聚類(非監(jiān)督學(xué)習(xí))的入侵檢測(cè)方法有助于提高基于規(guī)則/模式匹配的入侵檢測(cè)方法的檢測(cè)率,但后者對(duì)降低前者的誤警率沒有絲毫幫助,這也是我們下一步要研究的課題之一。
此外,入侵檢測(cè)系統(tǒng)的一個(gè)非常重要的特性就是對(duì)實(shí)時(shí)性的要求很高。系統(tǒng)的精度再高,事后分析的延遲超過一定的限度對(duì)用戶來說也是無用的。因此,本文對(duì)訓(xùn)練的實(shí)時(shí)性和檢測(cè)的實(shí)時(shí)性也進(jìn)行了相關(guān)的分析。
(1)訓(xùn)練的實(shí)時(shí)性。我們分別對(duì)樣本容量為1 000,2000,5 000的訓(xùn)練集做了整體性測(cè)試,其結(jié)果如圖4所示。
可以看出,樣本容量為1 000時(shí)訓(xùn)練耗時(shí)為2分40秒,而增加到2 000時(shí)已經(jīng)需要16分鐘。訓(xùn)練時(shí)間是隨著樣本容量的增加而呈指數(shù)級(jí)增長(zhǎng)的。就算以最低的樣本容量訓(xùn)練也遠(yuǎn)不能達(dá)到實(shí)時(shí)的要求。進(jìn)一步分析發(fā)現(xiàn)大部分時(shí)間都用來進(jìn)行距離矩陣的運(yùn)算了,實(shí)際核心算法的單次迭代花費(fèi)小于2秒。從程序的編寫角度還可以提升20 %以上的速度,例如:距離在首次使用時(shí)計(jì)算;數(shù)據(jù)庫的查詢速度可以提升;數(shù)值預(yù)處理以后不需要開方運(yùn)算。另外,由以上分析可以想到,在“實(shí)時(shí)采集,實(shí)時(shí)訓(xùn)練,實(shí)時(shí)檢測(cè)”的系統(tǒng)中,訓(xùn)練樣本的采集不要批量而是一條條的采集,采集到一條就立刻計(jì)算相關(guān)的距離值,即將集中計(jì)算距離矩陣的時(shí)間分散開。這樣總體的訓(xùn)練時(shí)間可以降到5秒鐘以下,達(dá)到接近實(shí)時(shí)訓(xùn)練的要求。
(2)檢測(cè)的實(shí)時(shí)性。檢測(cè)時(shí)間主要受規(guī)則集大小和聚類方法最終生成的分類器數(shù)目的多少影響。當(dāng)前條件下一條樣本的平均檢測(cè)時(shí)間一般為0.015~0.019秒,這是可以接受的。
3 結(jié) 語
本文提出了一種基于數(shù)據(jù)融合的入侵檢測(cè)框架,其核心思想是充分利用多源檢測(cè)信息,通過融合與反饋的方法有機(jī)的結(jié)合各種分析引擎。并且一種新的基于聚類(非監(jiān)督學(xué)習(xí))的檢測(cè)方法應(yīng)用于本框架,經(jīng)試驗(yàn)證明了其有效性。
在下一步的工作中,還需要進(jìn)一步完善整個(gè)框架,提高其性能和實(shí)用性,具體方法包括:
(1)提高基于聚類的檢測(cè)方法在線學(xué)習(xí)的穩(wěn)定性;
(2)引入其它類型的分析引擎進(jìn)行融合;
(3)在相同條件下比較分析各種融合方法的結(jié)果;
(4)提高反饋控制的精確性。
參考文獻(xiàn)
[1] Bass,T.,Intrusion Detection Systems and Multisensor Data Fusion:Creating Cyberspace Situational Awareness, Communications of the ACM[J] , April 2000,43(4):223.
[2] Leonid Portnoy, Intrusion detection with unlabeled data using clustering [J]. ACM Workshop on Data Mining Applied to Security, 2001:105.
[3] Jinzong Li, Pattern Recognition Guide [M], China Higher Education Press, Beijing China,1994:313.
[4] Lippmann, R.P. and J. Haines, Analysis and Results of the 1999 DARPA Off-LineIntrusion Detection Evaluation, [A]. Recent Advances in Intrusion Detection, Third International Workshop, RAID 2000 Toulouse, France, October 2000 Proceedings, H.Debar, L. Me, and S.F. Wu, Editors. 2000, Springer Verlag. p. 162-182.
[5] M.C.Fairhurst, A.F.R.Rahman, Enhancing consensus in multiple expert decision fusion, IEE Proc-Vis.ImageSignalProcess [J]. February 2000, 147(1):167
[6] Lee.W, R.Nimbalkar,K.Yee,etc.A Data Miming Mining and CIDF Based Approach for Detecting Novel and Distributed Intrusions. [J]. Proceedings of The Third International Workshop on Recent Advances in Intrusion Detection. Lecture Notes in Computer Science No.1907, Toulouse, France, October 2000:291.