何新洲
摘要:傳統(tǒng)的網(wǎng)絡入侵行為檢測方法檢測時間長、檢測率低,導致網(wǎng)絡安全受到嚴重威脅,因此基于貝葉斯分類算法對網(wǎng)絡入侵行為檢測方法進行研究。首先設計用戶行為日志采集系統(tǒng),通過采集節(jié)點模塊、數(shù)據(jù)分析與存儲模塊對用戶行為日志數(shù)據(jù)進行采集,其次通過消除冗余數(shù)據(jù)、數(shù)據(jù)規(guī)范化等環(huán)節(jié)預處理采集到的數(shù)據(jù)。針對預處理后的數(shù)據(jù),構建基于樸素貝葉斯分類的網(wǎng)絡入侵行為檢測模型,基于不同的屬性集構建非網(wǎng)絡入侵與網(wǎng)絡入侵分類規(guī)則,實現(xiàn)網(wǎng)絡入侵行為檢測。實驗結果顯示該方法檢測結果準確度在97%以上,檢測過程花費時間與對比方法相比降低4s以上。
關鍵詞:貝葉斯分類;網(wǎng)絡入侵;行為檢測;行為日志;屬性;分類規(guī)則;卡方檢驗法
中圖分類號:TP393
文獻標志碼:A
NetworkIntrusionDetectionMethodBasedonBayesianClassificationAlgorithm
HEXinzhou
(DataandInformationSchool,ChangjiangPolytechnic,Wuhan430074,China)
Abstract:Thetraditionalnetworkintrusiondetectionmethodhasalongdetectiontimeandlowdetectionrate,whichleadstoaseriousthreattothenetworksecurity.ThispaperstudiesthenetworkintrusiondetectionmethodbasedonBayesianclassificationalgorithm.Firstly,theuserbehaviorlogcollectionsystemisdesigned,itcollectstheuserbehaviorlogdatathroughthecollectionnodemodule,dataanalysisandstoragemodule,andthenpreprocessesthecollecteddatabyeliminatingredundantdataanddatanormalization.Accordingtothepreprocesseddata,thenetworkintrusiondetectionmodelbasedonnaiveBayesianclassificationisconstructed,andthenonnetworkintrusionandnetworkintrusionclassificationrulesbasedondifferentattributesetsareconstructedtorealizethenetworkintrusiondetection.Theexperimentalresultsshowthattheaccuracyofthemethodismorethan97%,andthedetectionprocesstakesmorethan4slesstimethanthecomparisonmethod.
Keywords:Bayesianclassification;networkintrusion;behaviordetection;behaviorlog;attributes;classificationrules;Chisquaretest
0引言
隨著互聯(lián)網(wǎng)技術在人們?nèi)粘I钪械钠毡槭褂?,具有復雜性和連通性的開放系統(tǒng)逐漸替代原有的獨立系統(tǒng)[1],隨著而來的不僅是互聯(lián)網(wǎng)強大的使用功能,還有網(wǎng)絡安全與計算機安全問題。在此條件下,高效的網(wǎng)絡入侵行為檢測方法研究對于網(wǎng)絡安全具有重要意義,是網(wǎng)絡信息安全建設的關鍵環(huán)節(jié)[2]。
檢測互聯(lián)網(wǎng)上無授權計算機資源使用情況的行為即網(wǎng)絡入侵行為檢測[3]。目前已有很多學者網(wǎng)絡入侵行為檢測方法進行相關研究。劉強、蔡志平等學者針對入侵檢測框架、特征自動生成、安全檢測理論及方法等問題進行研究,梳理出網(wǎng)絡安全檢測算法和框架、并總結了網(wǎng)絡安全檢測與控制技術發(fā)展趨勢。鄧帥等學者提出使用改進的湯普森采樣方法作為采集函數(shù),基于改進貝葉斯優(yōu)化算法的CNN超參數(shù)優(yōu)化。IDS作為使用最普遍的網(wǎng)絡入侵檢測系統(tǒng),IDS在分析海量數(shù)據(jù)集過程中采用神經(jīng)網(wǎng)絡、模糊邏輯與支持向量機的機器學習方法[4]。但隨著網(wǎng)絡入侵行為的升級,上述方法下的網(wǎng)絡入侵行為檢測方法對于用戶行為的分類效率與精度均有不同程度的下降,無法滿足當前網(wǎng)絡入侵行為檢測的需求。
貝葉斯分類算法是一種概率分類方法[5],是當前未知分類檢測的最佳算法,普遍應用于不同信息領域內(nèi)。在網(wǎng)絡入侵行為檢測中引入貝葉斯分類算法,提出基于貝葉斯分類算法的網(wǎng)絡入侵行為檢測方法,可在短時間內(nèi)準確分類用戶行為日志數(shù)據(jù)集。
1網(wǎng)絡入侵行為檢測方法
1.1用戶行為日志數(shù)據(jù)獲取
用戶行為日志數(shù)據(jù)是網(wǎng)絡入侵行為檢測的基礎[6],利用行為日志采集系統(tǒng)可實現(xiàn)用戶行為日志數(shù)據(jù)的采集。
用戶行為日志采集系統(tǒng)結構框架,如圖1所示。
用戶行為日志采集系統(tǒng)由采集節(jié)點模塊、數(shù)據(jù)分析與存儲模塊、WEB查詢統(tǒng)計與管理模塊、管理員模塊四部分組成。數(shù)據(jù)分析與存儲模塊和WEB查詢統(tǒng)計與管理模塊均選取JAVA語言開發(fā)[7],在開發(fā)工程中使用Spring和Hibernate等框架。以CentOS操作系統(tǒng)為采集節(jié)點模塊運行平臺,該模塊同數(shù)據(jù)分析與存儲模塊和WEB查詢統(tǒng)計與管理模塊相對獨立,具有數(shù)量變化特性[8],滿足數(shù)據(jù)采集過程的動態(tài)擴充需求。
同時,行為日志采集系統(tǒng)具有交換機網(wǎng)絡端口流量鏡像功能,無需額外安裝插件,即可實現(xiàn)目標業(yè)務流量與系統(tǒng)連接網(wǎng)絡端口之間的鏡像,方便用戶行為日志數(shù)據(jù)的處理。
1.2用戶行為日志數(shù)據(jù)的預處理
用戶行為日志數(shù)據(jù)預處理共分為三個環(huán)節(jié)[9],分別是消除冗余數(shù)據(jù)、數(shù)據(jù)規(guī)范化和日志數(shù)據(jù)庫。
在海量的用戶行為日志數(shù)據(jù)內(nèi),存在大量重復的,不必要的信息,為降低網(wǎng)絡入侵行為檢測難度,提升檢測效率,需先消除日志數(shù)據(jù)內(nèi)的冗余數(shù)據(jù),再規(guī)范數(shù)據(jù)形式。
日志數(shù)據(jù)內(nèi)的各信息中均包含部分重要屬性信息與部分次要信息。舉例說明:在某日志數(shù)據(jù)內(nèi)包含的相關內(nèi)容有:用戶IP地址、用戶名、使用時間、請求內(nèi)容以及反饋使用端的狀態(tài)碼與字節(jié)數(shù)等,當此日志數(shù)據(jù)可疑時,其中的請求內(nèi)容與反饋使用端的狀態(tài)碼是重要屬性信息,其余則為次要信息。日志來源有所差異的條件下日志格式也有所差異,因此日志規(guī)范化處理應以完整性、簡潔性與可擴展性為目標[10]。其中完整性和簡潔性是確保日志數(shù)據(jù)處理后其中的不必要信息刪除,而重要屬性信息需完整;可擴展性則是表示規(guī)范后的日志數(shù)據(jù)內(nèi)可容納類型差異的日志數(shù)據(jù)。
日志數(shù)據(jù)庫設計過程中,通過設計同類日志擴展格式,使類型相同系統(tǒng)日志的擴展,利于網(wǎng)絡入侵行為檢測效率的提升。
1.3網(wǎng)絡入侵行為檢測
1.3.1樸素貝葉斯分類下的網(wǎng)絡入侵行為檢測
針對預處理后的用戶行為日志數(shù)據(jù)以WenkeLee入侵檢測理論為基礎[11],構建基于樸素貝葉斯分類的網(wǎng)絡入侵行為檢測模型(以下簡稱為樸素貝葉斯分類檢測模型),模型結果如圖2所示。
樸素貝葉斯分類檢測模型構建過程如下:利用n維特征向量描述用戶行為日志數(shù)據(jù),訓練樣本的類標識可固定模型結構,即類節(jié)點。各訓練樣本內(nèi)包含的全部特征屬性均為存在于根節(jié)點內(nèi)、具有獨立性的子節(jié)點[12],基于此當確定貝葉斯分類模型結構后,基于訓練樣本A節(jié)點的概率即可確定模型參數(shù)。
如圖2所示的模型以預處理后的用戶行為日志數(shù)據(jù)為基礎進行分組,將其分為測試集和訓練集。首先,對訓練集內(nèi)的用戶行為日志數(shù)據(jù)經(jīng)過學習后實施樸素貝葉斯分類,通過類標識標記訓練數(shù)據(jù),來區(qū)分正常記錄和異常記錄,獲取分類結果。測試集內(nèi)的用戶行為日志數(shù)據(jù)與訓練結果均通過樸素貝葉斯分類器去掉數(shù)據(jù)中一些與分類相關性不大甚至不相關的屬性,最后獲得檢測所需結果,實現(xiàn)網(wǎng)絡入侵行為檢測目的。利用該模型進行網(wǎng)絡入侵行為檢測的過程中,訓練過程與檢測過程是重中之重。
上述模型分類原則,如式(1)。
RLjB1,B2,…Bn=max
RLiB1,B2,…Bn(1)
式中,n所表示的是類別總數(shù),R表示訓練樣本的概率,Lj類內(nèi)包含B1,B2,…Bn。
上述模型工作原理如下。
用B={B1,B2,…Bn}和L1,L2,L3,…,Lm分別描述一個n維特征向量和m個類別,維數(shù)n表示特征數(shù)量。
用Y表示一個給定用戶行為日志數(shù)據(jù)樣本,通過上述模型將樣本內(nèi)的數(shù)據(jù)劃分至類Lj內(nèi),
在RLjY>RLiY條件下,
1≤i,j≤m,i≠j。根據(jù)貝葉斯理論,如式(2)。
RLjY=RYLj
R(Lj)R(Y)(2)
1.3.2貝葉斯分類模型優(yōu)化
樸素貝葉斯分類檢測模型內(nèi),特征差異對于分類結果不產(chǎn)生影響。但在實際分類應用過程中,不同特征對于分類結果產(chǎn)生的作用是有所差異的[13]?;诖耍枰獌?yōu)化樸素貝葉斯分類檢測模型,利用卡方檢驗法確定不同分類特征對分類結果產(chǎn)生的不同作用[14],由此獲取某問題的重要特征,利用該特征降低用戶行為日志數(shù)據(jù)分類難度。通過優(yōu)化后的分類檢測模型既能夠確保特征數(shù)據(jù)的正確獲?。ǚ诸惤Y果準確性)又能夠降低數(shù)據(jù)分類難度,提升網(wǎng)絡入侵行為檢測效率。
特征對于分類的關鍵度可通過特征權值描述,特征權值定義,如式(3)。
ej=CH(Bj)∑nj=1CH(Bj)(3)
式中,CH所表示的是關鍵度基數(shù),表示第j個特征數(shù)量的特征向量。
在樸素貝葉斯分類檢測模型內(nèi)引入特征權值進行優(yōu)化后,檢測模型未知樣本的后驗概率可計算過程描述,如式(4)。
RLjB1,B2,…Bn=R(Lj)∏nn=1enr
(BnLj)∑mi=1R(Lj)∏nn=1enr(BnLj)(4)
式中,R(Lj)∏nn=1enr(BnLj)表示對Lj類樣本存在概率
r(BnLj)的最大化處理。
∑mi=1R(Lj)∏nn=1enr(BnLj)
表示在假定類概率為等概率的條件下,對r(BnLj)的最大化處理。
針對給定的未知用戶行為日志數(shù)據(jù)樣本,∑mi=1R(Lj)∏nn=1en
r(BnLj)通常為常數(shù),由于y=lnx函數(shù)為單調遞增函數(shù)[15],因此分類未知用戶行為日志數(shù)據(jù)樣本時僅需對比lnR(Lj)∏nn=1enr(BnLj)即可。
優(yōu)化后的樸素貝葉斯分類檢測模型實現(xiàn)網(wǎng)絡入侵行為檢測的過程如下:
(1)計算各訓練樣本中的不同特征,清除用戶行為日志數(shù)據(jù)內(nèi)冗余特征,獲取新的特征集合。利用式(3)確定分類特征權值,由此定性、定量的判斷不同特征對于數(shù)據(jù)分類的影響。
(2)評估Rj=R(Lj)描述所屬Lj類的樣本在特征集合中存在的概率。
(3)評估用戶行為日志數(shù)據(jù)集合內(nèi)各屬性B的各取值Bi在Lj類樣本內(nèi)存在的概率R(BiLj)。
(4)通過式(5)實現(xiàn)類別劃分,如式(5)。
Lnb=argmaxlnR(Lj)∏nj=1ejr(BjLj)
(5)
通過上述分類過程即可達到網(wǎng)絡入侵行為檢測目的。
2實驗分析
2.1實驗環(huán)境
實驗為測試本文提出的基于貝葉斯分類算法的網(wǎng)絡入侵行為檢測方法性能優(yōu)勢,選取2011年深圳舉辦的第十五屆亞太知識發(fā)現(xiàn)與數(shù)據(jù)挖掘國際會議中檢測網(wǎng)絡入侵檢測系統(tǒng)性能過程中所使用的相關數(shù)據(jù)集為實驗用數(shù)據(jù)集。該數(shù)據(jù)集內(nèi)各數(shù)據(jù)中均包含如持續(xù)時間與協(xié)議類型等不同的39個特征,并對全部數(shù)據(jù)進行正確類型(是否為入侵行為)劃分。在該數(shù)據(jù)中隨機選取十萬條數(shù)據(jù)作為實驗用訓練集,并選取九萬條數(shù)據(jù)作為隨機生成5個測試集,所選數(shù)據(jù)中入侵行為劃分,如表1所示。
各測試集內(nèi)網(wǎng)絡入侵行為數(shù)據(jù)信息情況,如表2所示。
2.2實驗結果
分別采用本文方法、基于模糊邏輯的檢測方法和基于支持向量機的檢測方法對上述三個測試集中的數(shù)據(jù)實施網(wǎng)絡入侵行為檢測,如表3—表5所示。
由表3、表4和表5可得,本文方法檢測三個測試集得到的檢測結果準確度基本控制在97%以上,兩種對比方法檢測結果準確度均顯著低于本文方法,由此可知本文方法在網(wǎng)絡入侵行為檢測過程中具有較高的檢測精度。
各測試集檢測過程中花費的時間,如圖3所示。
分析圖3能夠得到,采用本文方法檢測三個測試集花費的平均時間均控制在11s左右,與兩種對比方法相比降低4s以上,由此可知本文方法具有較高的檢測效率。
3總結
網(wǎng)絡入侵檢測技術隨著計算機技術的發(fā)展與普遍使用受到越來越多的關注。本文針對以往基于支持向量機等的機器學習算法的檢測方法檢測效率與檢測精度無法滿足當前網(wǎng)絡入侵行為檢測需求的問題,提出基于貝葉斯分類算法的網(wǎng)絡入侵行為檢測方法,實驗結果顯示本文方法的檢測精度與檢測效率均優(yōu)于對比方法。
參考文獻
[1]陳惠娟,馮月春,趙雪青.利用SSO的自適應黑名單分組過濾器網(wǎng)絡入侵檢測方法[J].控制工程,2018,25(10):19401945.
[2]劉強,蔡志平,殷建平,等.網(wǎng)絡安全檢測框架與方法研究[J].計算機工程與科學,2017,39(12):22242229.
[3]夏景明,李沖,談玲,等.改進的隨機森林分類器網(wǎng)絡入侵檢測方法[J].計算機工程與設計,2019,40(08):21462150.
[4]鄧帥.基于改進貝葉斯優(yōu)化算法的CNN超參數(shù)優(yōu)化方法[J].計算機應用研究,2019,36(7):19841987.
[5]梁瀟,王海峰,郭進,等.基于貝葉斯網(wǎng)絡的列控車載設備故障診斷方法[J].鐵道學報,2017,39(8):93100.
[6]劉浩然,孫美婷,王海羽,等.基于分類優(yōu)化貝葉斯結構算法的篦冷機參數(shù)狀態(tài)分析及其算法收斂性分析[J].計量學報,2019,40(4):662669.
[7]RifaiChai,GaneshRNaik,TuanNghiaNguyen,etal.DriverFatigueClassificationWithIndependentComponentbyEntropyRateBoundMinimizationAnalysisinanEEGBasedSystem[J].IEEEJournalofBiomedical&HealthInformatics,2017,21(3):715724.
[8]劉彬,范瑞星,劉浩然,等.基于混合樽海鞘差分進化算法的貝葉斯網(wǎng)絡結構學習算法[J].通信學報,2019,40(7):151161.
[9]BrankovicA,F(xiàn)alsoneA,PrandiniM,etal.AFeatureSelectionandClassificationAlgorithmBasedonRandomizedExtractionofModelPopulations[J].IEEETransactionsonCybernetics,2018,48(4):11511162.
[10]王洋,吳建英,黃金壘,等.基于貝葉斯攻擊圖的網(wǎng)絡入侵意圖識別方法[J].計算機工程與應用,2019,55(22):7379.
[11]魏照坤,謝新連,潘偉,等.基于樸素貝葉斯算法的船舶異常行為監(jiān)測[J].交通運輸系統(tǒng)工程與信息,2017,17(6):147154.
[12]李海玲,張昊.卷積邊界擴展研究與實現(xiàn)[J].微型電腦應用,2018,34(10):4749.
[13]石樂義,朱紅強,劉祎豪,等.基于相關信息熵和CNNBiLSTM的工業(yè)控制系統(tǒng)入侵檢測[J].計算機研究與發(fā)展,2019,56(11):23302338.
[14]郭雷.遠程網(wǎng)絡校準測控系統(tǒng)設計[J].微型電腦應用,2018,34(7):4345.
[15]X.Geng,Q.Li,D.Ye,etal.Intrusiondetectionalgorithmbasedonroughweightilyaveragedonedependenceestimators[J].JournalofNanjingUniversityofScience&Technology,2017,41(4):420427.
(收稿日期:2020.04.07)