朱韶平
(湖南財政經濟學院信息管理系,湖南 長沙 410205)
基于Boosting半監(jiān)督的網絡安全入侵檢測算法*
朱韶平
(湖南財政經濟學院信息管理系,湖南 長沙 410205)
針對網絡安全入侵行為升級快、隱蔽性強和隨機性高等嚴重的安全問題,提出了一種基于半監(jiān)督的網絡安全入侵檢測算法.該算法利用Boosting建立入侵檢測模糊分類器,采用遺傳算法進行迭代訓練,生成最終的網絡安全入侵檢測模型.仿真結果表明,該算法有效提高了網絡安全入侵檢測的性能和效率.與SVM等先進的入侵檢測方法相比,該算法能更加準確有效地檢測各種類型的入侵,具有良好的檢測效果和應用價值.
網絡安全;入侵檢測;半監(jiān)督學習;模糊分類器
隨著計算機和網絡技術的迅速發(fā)展,計算機及網絡的應用滲入到了社會各領域,然而人們面臨的網絡安全問題也日益嚴峻.入侵檢測技術是一種網絡安全主動保護策略,是近年來網絡信息安全領域的一個研究熱點,倍受國內外專家的關注.該技術通過收集和分析計算機系統(tǒng)或網絡中的審計記錄、安全日志、用戶行為及網絡數據包等信息,檢測網絡或系統(tǒng)中可能存在的違反安全策略的入侵行為與被攻擊的跡象[1].文獻[2]提出了第1個入侵檢測模型;文獻[3]等提出了通用入侵檢測框架CIDF;文獻[4]提出了基于決策樹算法的協議分析方法,提高了入侵檢測系統(tǒng)的性能;文獻[5]提出了基于神經網絡的誤用檢測方法,系統(tǒng)通過在網絡流中搜索攻擊的關鍵碼來檢測入侵;文獻[6]以系統(tǒng)調用執(zhí)行跡來建立檢測模型,提出了基于支持向量機的入侵檢測模型.近年來,盡管研究者提出了各種入侵檢測模型和相關算法,并取得了一些研究成果,但是檢測效果并非十分理想.
隨著網絡安全入侵技術更新速度的加快及隱蔽性的加強,網絡安全入侵技術變得日趨復雜.筆者將半監(jiān)督學習算法引入網絡安全入侵檢測中,提出了一種基于半監(jiān)督學習的網絡安全入侵檢測算法,該算法可在先驗知識不足的情況下仍保證有較好的分類正確率,從而提高入侵檢測的精度.
1.1系統(tǒng)調用頻率特征的提取
系統(tǒng)調用頻率特性是判斷系統(tǒng)進程是否異常的重要特征,當進程異常執(zhí)行時,系統(tǒng)調用頻率會發(fā)生變化甚至產生一些未知的系統(tǒng)調用.每一個進程的系統(tǒng)調用序列分別用一個向量表示,其中每個元素分別表示相應系統(tǒng)調用的發(fā)生頻率.例如,系統(tǒng)調用的集合s={access,audit,chdir,close,creat,exit,fork,ioctl},若進程x由2個access、1個close、1個exit、1個ioctl 組成,則其頻率向量表示為x=(2,0,0,1,0,1,0,1).
1.2系統(tǒng)調用短序列時序特征的提取
系統(tǒng)調用頻率向量不包含系統(tǒng)調用間的時序特征,系統(tǒng)調用短序列包含了時序特征(在程序正常執(zhí)行時所產生的短序列局部連貫,在程序存在安全漏洞運行程序時會產生一些異常的系統(tǒng)調用短序列).因此,進程產生的系統(tǒng)調用短序列是判斷系統(tǒng)進程是否異常的另一項重要依據.文中采用 STIDE滑動窗口方法提取系統(tǒng)調用短序列,窗口從頭到尾每次移動1個系統(tǒng)調用,每次生成窗口內的系統(tǒng)調用短序列[7].實驗中窗口長度取4時性能較好.例如,進程x=close,execve,open,mmap,open,mmap,close,exit,窗口的長度L=4時,提取的系統(tǒng)調用短序列為(close,execve,open,mmap),(execve,open,mmap,open),(open,mmap,open,mmap),…,(open,mmap,close,exit).
半監(jiān)督學習是一種重要的機器學習方法,利用少量的標注樣本和大量的未標注樣本進行訓練和分類,減少了標注代價,提高了學習機器的性能,即在訓練集樣本有限的條件下,也能保證測試集相對獨立,誤差較小[8].在網絡安全入侵檢測中引入半監(jiān)督學習方法,可大大提高入侵檢測的精度和速度.
2.1Boosting半監(jiān)督學習算法
Boosting模糊分類算法是對模糊先驗知識進行建模,是一種典型的半監(jiān)督學習算法.算法具體流程如下:
設樣本集x={x1,x2,…,xn},其中xi表示第i個輸入分量;Anj表示xj的模糊集合,其規(guī)則數j=1,2,…,N;類別cj∈{c1,c2,…,cm};模糊分類器輸入變量x.則產生的模糊規(guī)則為
Rj:ifx1isA1jandx2isA2j…xnisAnjthenC=cj.
對x={x1,x2,…,xn}的模糊集合的隸屬函數μAij(x)為高斯函數,其表達式為
2.2基于Boosting半監(jiān)督的網絡安全入侵檢測
(ⅰ)假設有N個初始學習的網絡數據特征樣本集{(x1,c1),(x2,c2),…,(xi,ci),…,(xN,cN)}.其中ci∈{c1,c2,…,cN},向量xN為網絡數據特征訓練樣本,cN是入侵檢測問題的分類結果,各個樣本的初始權值wi=1/N.
(ⅱ)設置Boosting算法最大迭代次數為T,初始化當前迭代次數t=1,針對N個網絡數據特征樣本集樣本進行T輪訓練.
(1)根據遺傳算法尋找適應度F最大所對應的模糊規(guī)則Rt,即尋找使分類效果最好的模糊規(guī)則.適應度函數定義為
(2)在當前樣本分布下,計算使適應度F最大的模糊規(guī)則Rt所對應的分類錯誤率E(Rt)和Rt對應的權值Ht:
(3)根據分類錯誤率E(Rt)計算wi(t+1),并更新樣本的權值wi(t),得到最優(yōu)的權重值,從而優(yōu)化Boosting模糊分類算法.設zt是歸一化因子,則其權值
基于Boosting半監(jiān)督學習的網絡安全入侵檢測,采用遺傳算法,以迭代方式,通過對樣本權值的調節(jié),獲取使分類效果最好的模糊規(guī)則,從而有效地提升了正確樣本對網絡安全入侵檢測模型的貢獻,降低了錯誤樣本或隨機樣本對網絡安全入侵檢測模型的影響.
為了驗證文中算法的有效性,在Windows XP的操作系統(tǒng)、Pentium 3.0 GHz的處理器、4.0 GB內存的實驗平臺上和Matlab7的語言編程環(huán)境對該算法進行仿真實驗.為保證仿真實驗的權威性,實驗數據采用DARPA’98數據[9].取400萬個連接數據作為訓練樣本集,取298 500個連接數據作為測試樣本集,且使測試樣本集中包含有訓練樣本集中沒有出現過的攻擊.
實驗1 基于半監(jiān)督學習的網絡安全入侵檢測.
從訓練樣本集中抽取包含6 000個Normal、3 500個Neptune、500個Portsweep、200個Satan、10個Buffer_overflow和2 000個Guess-password的41維12 210個網絡數據作為本次實驗的訓練樣本集,從測試機中抽取41維115 200個網絡數據作為本次實驗的測試樣本集,并劃分為5個測試集.利用文中算法進行網絡安全入侵檢測,檢測結果如表1所示.
表1 基于半監(jiān)督學習的網絡安全入侵檢測仿真結果 %
從表1的數據可以看出,采用基于Boosting半監(jiān)督學習算法進行網絡安全入侵檢測,整體檢測效果較好,檢測精度較高.對樣本數較大的Normal和Neptune類型的入侵平均檢測精度分別高達97.7%和95.8%;對樣本數較少的Satan和Buffer_overflow類型的入侵平均檢測精度有所降低,但仍能保證有較高的檢測精度.仿真實驗表明,由于Boosting半監(jiān)督學習算法采用了遺傳算法對模型進行了迭代修正,降低了隨機樣本對模型的影響,減少了小樣本及隨機樣本導致模型精度大幅下降的問題,因此大大提升了整體的檢測精度.
圖1 2種不同檢測算法對網絡安全入侵檢測精度比較
實驗2 2種不同檢測算法對網絡安全入侵檢測精度比較.
為了進一步驗證文中算法的有效性,對同一測試集,分別采用SVM算法和Boosting半監(jiān)督學習算法對6種類型的入侵進行了檢測比較實驗,實驗比較結果如圖1所示,A,B,C,D,E,F分別表示Normal,Neptune,Portsweep,Satan,Buffer_overflow,Guess-password這6種類型的入侵.
由圖1實驗結果可知,文中算法對6種類型的入侵檢測精度均高于SVM算法的檢測精度,同時也驗證了文中的算法優(yōu)于基于SVM算法的檢測效果.
分析了基于Boosting半監(jiān)督模糊分類問題,提出了一種基于Boosting半監(jiān)督學習方法用于網絡安全入侵檢測.該方法采用遺傳算法對模型進行了迭代修正,降低了隨機樣本對模型的影響,解決了小樣本及隨機樣本導致模型精度大幅下降的問題,大大提升了整體的檢測精度.實驗結果表明,該方法能夠較好地提高半監(jiān)督入侵檢測的準確率,性能明顯優(yōu)于基于SVM等的先進算法,具有檢測速度快、精度高、效果好等特性.
[1] 楊宏宇,朱 丹,謝 豐,等.入侵異常檢測研究綜述[J].電子科技大學學報:自然科學版,2009,38(5):587-596.
[2] DENNING D E.An Intrusion Detection Model[J].IEEE Transactions on Software Engineering,1987,13(2):222-232.
[3] CHEN S,TUNG B,SCHNACKENBERG D.The Common Intrusion Detection Framework Data Formats[R].Internet Draft Draft-Ietf-Cidf-Data-Formats-OO.txt,1998.
[4] 李 亮,李漢菊,黎 明.用決策樹改進基于協議分析的入侵檢測技術[J].華中科技大學學報:自然科學版,2004,32(12):37-39.
[5] CUNNINGHAM R,LIPPMANN R.Improving Intrusion Detection Performance Using Keyword Selection and Neural Networks[J].Computer Network,2000,34(4):597-603.
[6] 繞 鮮,董春曦,楊紹全.基于支持向量機的入侵檢測系統(tǒng)[J].軟件學報,2003,14(4):798-803.
[7] HOFMEYR S A,FORREST S,SOMAYAJI A.Intrusion Detect Using Sequences of System Calls[J].JournaI of Computer Security,1998,6(3):151-180.
[8] 高 偉,王中卿,李壽山.基于集成學習的半監(jiān)督情感分類方法研究[J].中文信息學報,2013,27(3):120-126.
[9] 1998 Darpa Intrusion Dectection Evaluation Data Set.[DB/OL].(1998-02-02)[2014-03-20].http://www.ll.mit.edu/mission/communications/ ist/corporayideval/data/index.html.
(責任編輯 陳炳權)
IntrusionDetectionofNetworkSecurityBasedonSemi-Supervision
ZHU Shaoping
(Department of Information Management,Hunan University of Finance and Economics,Changsha 410205,China)
For the features of fast upgrading,strong concealment,and great randomness possessed by net intrusion,a method for intrusion detection of network security based on semi-supervised learning is proposed.The Boosting is used to build the fuzzy classifier of intrusion detection.Genetic algorithm is used to improve the iterative training,and the final the intrusion detection model of network security is thus generated.The results show that this algorithm can effectively improve the performance and efficiency of intrusion detection of network security.Compared with SVM and other advanced methods for intrusion detection,this method can detect the various types of invasion with greater accuracy,better effect and higher application value.
network security;intrusion detection;semi-supervised learning;fuzzy classifier
1007-2985(2014)05-0033-04
2014-04-16
湖南省科技廳科技計劃資助項目(2014FJ3057);湖南省教育廳教育科學“十二五”規(guī)劃課題(XJK012CGD022);湖南省普通高等學校教學改革研究資助課題(湘教通[2012]401號文件);湖南省重點建設學科“計算機應用技術” 建設資助項目
朱韶平(1972—),女,湖南雙峰人,湖南財政經濟學院信息管理系副教授,碩士,主要從事計算機應用技術、網絡安全和模式識別等研究.
TP309
A
10.3969/j.issn.1007-2985.2014.05.009