摘 要: 研究一種基于群智能算法優(yōu)化神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)安全事件分析模型,使用遺傳算法和LMS算法對(duì)常規(guī)RBF神經(jīng)網(wǎng)絡(luò)中的隱含層神經(jīng)元個(gè)數(shù)、基函數(shù)中心以及各層連接閾值和權(quán)值進(jìn)行優(yōu)化,得到最優(yōu)解,從而提高RBF神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練效率和精度,提高基于RBF神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)安全事件分析效率和準(zhǔn)確度。使用KDD CUP99數(shù)據(jù)集中的網(wǎng)絡(luò)入侵事件數(shù)據(jù)對(duì)研究的網(wǎng)絡(luò)安全入侵事件分析模型進(jìn)行實(shí)例研究,測(cè)試結(jié)果表明,該分析模型相比常規(guī)神經(jīng)網(wǎng)絡(luò)算法建立的模型具有更高的識(shí)別準(zhǔn)確率,能夠準(zhǔn)確識(shí)別分析正常事件和四種網(wǎng)絡(luò)攻擊入侵事件。
關(guān)鍵詞: 遺傳算法; LMS算法; RBF神經(jīng)網(wǎng)絡(luò); 入侵識(shí)別; 網(wǎng)絡(luò)安全事件分析
中圖分類號(hào): TN915.08?34; TP393 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2016)21?0123?04
Network security event analysis based on swarm intelligence
algorithm optimizing neural network
GAO Feng
(Software Engineering Institute, Chongqing University of Arts and Sciences, Chongqing 402160, China)
Abstract: A network security event analysis model based on swarm intelligence algorithm optimizing neural network is stu?died. The genetic algorithm and LMS algorithm are used to optimize the hidden layer neurons quantity, basis function center, connection threshold and weight of each layer of the conventional RBF neural network, so as to obtain the optimal solution, improve the training efficiency and accuracy of the RBF neural network model, and the efficiency and accuracy of the network security event analysis based on RBF neural network. The network intrusion event data in KDD CUP99 dataset is used to perform the instance study for the network security intrusion events analysis model. The test results show that the analysis model has more recognition accuracy than the model established by the conventional neural network algorithm, and can accurately identify and analyze the normal events and four network attack events.
Keywords: genetic algorithm; LMS algorithm; RBF neural network; intrusion detection; network security event analysis
隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展和普及,計(jì)算機(jī)網(wǎng)絡(luò)安全日益受到入侵、病毒的威脅,對(duì)網(wǎng)絡(luò)安全事件進(jìn)行及時(shí)有效識(shí)別和分析對(duì)于提高計(jì)算機(jī)網(wǎng)絡(luò)安全具有重要作用[1?3]。目前專家學(xué)者針對(duì)使用神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等機(jī)器學(xué)習(xí)算法建立了網(wǎng)絡(luò)安全事件分析模型。本文通過(guò)遺傳算法對(duì)RBF神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化,再利用LMS算法進(jìn)一步學(xué)習(xí)連接權(quán)值,最后得到基于最小均方差算法以及遺傳算法的RBF神經(jīng)網(wǎng)絡(luò)安全事件分析模型。
1 事件分析及數(shù)據(jù)特征提取
本文主要針對(duì)影響網(wǎng)絡(luò)安全的入侵事件進(jìn)行識(shí)別分類,使用神經(jīng)網(wǎng)絡(luò)建立分析模型,使用已知的正常事件和入侵事件數(shù)據(jù)作為訓(xùn)練樣本對(duì)入侵事件分析模型進(jìn)行訓(xùn)練,提高其泛化能力,然后使用已知的正常事件和入侵事件類型的測(cè)試樣本對(duì)入侵事件分析模型進(jìn)行測(cè)試,檢驗(yàn)其分析效果。
本文研究的影響網(wǎng)絡(luò)安全的入侵事件類型主要有DOS攻擊、U2R攻擊、R2L攻擊以及Probing攻擊四種入侵類型[4?6]。需要從龐大繁雜的采集數(shù)據(jù)中分類識(shí)別網(wǎng)絡(luò)入侵事件,需要對(duì)入侵事件數(shù)據(jù)的特征進(jìn)行提取、處理,以使得識(shí)別模型能夠準(zhǔn)確對(duì)入侵事件進(jìn)行分類和分析。本文使用如下15種入侵事件的特征數(shù)據(jù)[7]:
連續(xù)的服務(wù)持續(xù)時(shí)間:service_continua nce;離散的連續(xù)協(xié)議:continued_protocol;離散的服務(wù)類型:type_service;離散的正常事件或攻擊行為:regular or assault;離散的連接狀態(tài):connection_state;連續(xù)的分片錯(cuò)誤個(gè)數(shù):error_num_fragmentation;連續(xù)的失敗登陸次數(shù):num_failed_attempts;連續(xù)的由數(shù)據(jù)源到目標(biāo)的數(shù)據(jù)比特?cái)?shù):src_dst_bytes;連續(xù)的目前和過(guò)去2 s時(shí)間內(nèi)一樣目標(biāo)地址的連接個(gè)數(shù):same_dst_count;連續(xù)的目前和過(guò)去2 s時(shí)間內(nèi)一樣服務(wù)類型的連接個(gè)數(shù):same_service_count;連續(xù)的目前和過(guò)去2 s時(shí)間內(nèi)一樣目標(biāo)地址中錯(cuò)誤SYN連接的占比:syn_error_proportion;連續(xù)的目前和過(guò)去2 s時(shí)間內(nèi)一樣服務(wù)類型中錯(cuò)誤SYN連接的占比:srv_error_proportion;連續(xù)的目前和過(guò)去2 s時(shí)間內(nèi)一樣服務(wù)類型中不同目標(biāo)地址連接的占比:dst_diff_host_proportion;連續(xù)的前100個(gè)連接中與目前地址和服務(wù)均相同的連接的占比:service_host_same_srv_proportion;連續(xù)的創(chuàng)建文件次數(shù):num_file_operations。
按照文獻(xiàn)[7]中的方法對(duì)離散的數(shù)據(jù)進(jìn)行連續(xù)化,以避免采用兩種衡量標(biāo)準(zhǔn)產(chǎn)生的干擾,主要針對(duì)不同協(xié)議類型、不同網(wǎng)絡(luò)服務(wù)類型和入侵事件進(jìn)行處理,具體連續(xù)化方法如表1所示。
2 事件分析模型
本文在設(shè)計(jì)網(wǎng)絡(luò)安全入侵事件分析模型時(shí)應(yīng)用了RBF神經(jīng)網(wǎng)絡(luò)模型,這種模型能夠應(yīng)用線性學(xué)習(xí)算法完成以往需要采用非線性學(xué)習(xí)算法才能夠完成的工作,而且在精度上和非線性算法一致,具有收斂速度快、全局最優(yōu)以及最佳逼近的優(yōu)勢(shì)。因此在對(duì)一些分類識(shí)別問(wèn)題進(jìn)行解決時(shí),對(duì)于RBF神經(jīng)網(wǎng)絡(luò)的應(yīng)用比較廣泛。但是在應(yīng)用RBF神經(jīng)網(wǎng)絡(luò)時(shí)容易出現(xiàn)學(xué)習(xí)率偏低、中心難以確定以及出現(xiàn)過(guò)擬合的缺點(diǎn),這對(duì)識(shí)別精度以及運(yùn)行效率產(chǎn)生了消極的影響[8?9]。
遺傳算法開(kāi)始于代表問(wèn)題可能潛在解集的一個(gè)種群。一定數(shù)量的經(jīng)過(guò)基因編碼得到的個(gè)體組成了種群,個(gè)體是染色體帶有特征的實(shí)體。在每次迭代過(guò)程中GA都會(huì)保留一組候選解,根據(jù)解的優(yōu)劣進(jìn)行排序,按照相應(yīng)的指標(biāo)進(jìn)行解的選擇,同時(shí)使用遺傳算子進(jìn)行運(yùn)算,得到新的候選解,經(jīng)過(guò)多次的運(yùn)算就能夠達(dá)到相應(yīng)的收斂指標(biāo)[10]。
利用遺傳算法對(duì)RBF神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化,傳統(tǒng)的優(yōu)化方法是對(duì)隱層神經(jīng)元個(gè)數(shù)以及連接權(quán)值進(jìn)行單獨(dú)的優(yōu)化,盡管能夠發(fā)揮較好的作用,但是仍然存在一些需要完善的地方。本文研究使用新的優(yōu)化方法以獲得最優(yōu)的RBF神經(jīng)網(wǎng)絡(luò)模型,同時(shí)優(yōu)化隱層神經(jīng)元格式以及連接權(quán)值。其中采用實(shí)數(shù)對(duì)連接權(quán)值進(jìn)行編碼,使用二進(jìn)制對(duì)隱層神經(jīng)元進(jìn)行編碼。在完成連接權(quán)值學(xué)習(xí)的過(guò)程中自適應(yīng)地對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行調(diào)整。局部高斯函數(shù)是RBF的激活函數(shù),盡管能夠解決局部最小問(wèn)題,但是不具有較強(qiáng)的全局搜索能力。采用遺傳算法進(jìn)行優(yōu)化能夠得到最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu),但是無(wú)法充分的優(yōu)化輸出神經(jīng)元與隱層神經(jīng)元之間的權(quán)值,在經(jīng)過(guò)二次優(yōu)化以后再利用LMS算法進(jìn)一步的學(xué)習(xí)連接權(quán)值。最后就能夠基于最小均方差算法以及遺傳算法得到RBF神經(jīng)網(wǎng)絡(luò)分類算法,簡(jiǎn)稱GA?RBF?LMS[11]。
遺傳算子的構(gòu)造、適應(yīng)度函數(shù)定義以及染色體編碼是采用GA對(duì)RBF網(wǎng)絡(luò)進(jìn)行優(yōu)化的主要內(nèi)容,通過(guò)對(duì)遺傳算法的應(yīng)用,可以自動(dòng)地對(duì)連接權(quán)值以及網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行調(diào)整,進(jìn)而對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化,將神經(jīng)網(wǎng)絡(luò)和遺傳算法有效融合起來(lái)。
(1) 編碼染色體
遺傳算法構(gòu)造出染色體編碼:
[c1c2…csw11w21…ws1w12w22…ws2…w1lw2l…wslθ1θ2…θl] (1)
式中:[l]為神經(jīng)網(wǎng)絡(luò)輸出層的神經(jīng)元個(gè)數(shù);[s]為神經(jīng)網(wǎng)絡(luò)隱含層神經(jīng)元個(gè)數(shù);[ci]為二進(jìn)制編碼隱含層神經(jīng)元個(gè)數(shù),若值為1表示存在神經(jīng)元,若值為0表示不存在該神經(jīng)元;[θj]為第[j]個(gè)輸出層神經(jīng)元的閾值,該閾值使用實(shí)數(shù)方式進(jìn)行編碼;[wpj]為第[p]個(gè)輸出層神經(jīng)元到第[j]個(gè)隱含層使用神經(jīng)元的連接權(quán)值,該權(quán)值使用實(shí)數(shù)方式進(jìn)行編碼。
(2) 構(gòu)造遺傳算子
使用輪盤(pán)賭選擇法進(jìn)行算子的選擇,通常所選擇的大部分個(gè)體具有較高的適應(yīng)度,同時(shí)也可以選擇一些適應(yīng)度低的個(gè)體,采用該選擇方法能夠保證種群的多樣性。
將單點(diǎn)交叉算子作為交叉算子,2 個(gè)新個(gè)體可以通過(guò)交叉操作獲取,并將其放置在新一代的種群中,在重復(fù)進(jìn)行交叉操作的過(guò)程中種群的規(guī)模逐漸增大。利用經(jīng)營(yíng)保留策略能夠避免最優(yōu)個(gè)體在進(jìn)化過(guò)程中丟失。
(3) 計(jì)算適應(yīng)度
染色體的適應(yīng)度通過(guò)訓(xùn)練誤差和神經(jīng)網(wǎng)絡(luò)規(guī)模獲得:
[F=C-ensmax] (2)
式中:[e]為訓(xùn)練誤差;[C]為常數(shù);[n]為網(wǎng)絡(luò)隱含層節(jié)點(diǎn)個(gè)數(shù),其最大節(jié)點(diǎn)數(shù)為[smax。]
(4) 構(gòu)造RBF 神經(jīng)網(wǎng)絡(luò)
根據(jù)經(jīng)驗(yàn)選取均勻分布的[q]個(gè)基函數(shù)中心,則高斯基函數(shù)寬度表示為[12]:
[σ=d2q] (3)
綜上,建立基于GA?RBF?LMS 神經(jīng)網(wǎng)絡(luò)模型的過(guò)程如下:
步驟1:初始RBF神經(jīng)網(wǎng)絡(luò),并對(duì)基函數(shù)寬度進(jìn)行計(jì)算。
步驟2:對(duì)遺傳算法的種群規(guī)模、交叉概率、變異概率以及算子進(jìn)行初始化。
步驟3:對(duì)網(wǎng)絡(luò)中個(gè)體進(jìn)行編碼。
步驟4:對(duì)初始RBF神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到網(wǎng)絡(luò)輸出誤差[e。]
步驟5:通過(guò)訓(xùn)練誤差計(jì)算遺傳算法中的適應(yīng)度值。
步驟6:對(duì)計(jì)算所得適應(yīng)度進(jìn)行排序,如果最優(yōu)適應(yīng)度[Fb]滿足[G≥Gmax,]或者[C-Fbsmaxn 步驟7:選取性能較優(yōu)的個(gè)體遺傳到下一代。 步驟8:通過(guò)反復(fù)單點(diǎn)交叉染色體,使得種群規(guī)模達(dá)到上限。 步驟9:變異操作新生成的種群,跳回步驟4。 步驟10:遺傳優(yōu)化RBF神經(jīng)網(wǎng)絡(luò)結(jié)束,網(wǎng)絡(luò)結(jié)構(gòu)為得到的優(yōu)化解。 步驟11:用LMS方法對(duì)神經(jīng)網(wǎng)絡(luò)中不夠充分的權(quán)值進(jìn)一步學(xué)習(xí)優(yōu)化,完成模型的建立。 3 網(wǎng)絡(luò)入侵事件分析實(shí)例 本文通過(guò)已有的網(wǎng)絡(luò)入侵事件數(shù)據(jù)對(duì)所研究的網(wǎng)絡(luò)入侵事件分析方法進(jìn)行實(shí)例研究。所使用的網(wǎng)絡(luò)入侵事件數(shù)據(jù)來(lái)源于KDD CUP99數(shù)據(jù)集。從KDD CUP99數(shù)據(jù)集選取10 000條包含了正常事件和DOS 攻擊、R2L 攻擊、U2R攻擊、Probing 攻擊這四種入侵事件的數(shù)據(jù)。將10 000條數(shù)據(jù)分為五組,各組數(shù)據(jù)樣本中包含的各類事件數(shù)量如表2所示。 使用常規(guī)RBF神經(jīng)網(wǎng)絡(luò)、常規(guī)GA?RBF神經(jīng)網(wǎng)絡(luò)與本文研究的GA?RBF?LMS 神經(jīng)網(wǎng)絡(luò)進(jìn)行對(duì)比,使用相同的數(shù)據(jù)進(jìn)行訓(xùn)練與測(cè)試。LMS算法中最大迭代次數(shù)為1 500,學(xué)習(xí)率為0.1。遺傳算法的最大迭代次數(shù)為500,種群規(guī)模為100,交叉和變異概率為0.9和0.1。得到針對(duì)五個(gè)測(cè)試樣本中各類事件的識(shí)別準(zhǔn)確率如圖1所示。 測(cè)試結(jié)果表明,本文研究的分析模型相比常規(guī)神經(jīng)網(wǎng)絡(luò)算法建立的模型具有更高的識(shí)別準(zhǔn)確率,能夠準(zhǔn)確識(shí)別分析正常事件和四種網(wǎng)絡(luò)攻擊入侵事件。 4 結(jié) 論 本文研究了一種基于群智能算法優(yōu)化神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)安全事件分析模型,使用遺傳算法和LMS算法對(duì)常規(guī)RBF神經(jīng)網(wǎng)絡(luò)中的隱含層神經(jīng)元個(gè)數(shù)、基函數(shù)中心以及各層連接閾值和權(quán)值進(jìn)行優(yōu)化,得到最優(yōu)解,從而提高RBF神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練效率和精度,提高基于RBF神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)安全事件分析效率和準(zhǔn)確度。 參考文獻(xiàn) [1] 張淑英.網(wǎng)絡(luò)安全事件關(guān)聯(lián)分析與態(tài)勢(shì)評(píng)測(cè)技術(shù)研究[D].長(zhǎng)春:吉林大學(xué),2012. [2] 劉敬,谷利澤,鈕心忻,等.基于神經(jīng)網(wǎng)絡(luò)和遺傳算法的網(wǎng)絡(luò)安全事件分析方法[J].北京郵電大學(xué)學(xué)報(bào),2015,38(2):50?54. [3] 賈偉寬,趙德安,劉曉洋,等.機(jī)器人采摘蘋(píng)果果實(shí)的K?means和GA?RBF?LMS神經(jīng)網(wǎng)絡(luò)識(shí)別[J].農(nóng)業(yè)工程學(xué)報(bào),2015, 31(18):175?183. [4] 王紅艷.一種基于Hadoop架構(gòu)的網(wǎng)絡(luò)安全事件分析方法[J].信息網(wǎng)絡(luò)安全,2013(1):55?57. [5] 彭雪娜,趙宏.一個(gè)融合網(wǎng)絡(luò)安全信息的安全事件分析與預(yù)測(cè)模型[J].東北大學(xué)學(xué)報(bào),2005(3):228?231. [6] 鄔開(kāi)俊,王鐵君.基于RBF神經(jīng)網(wǎng)絡(luò)優(yōu)化的混沌時(shí)間序列預(yù)測(cè)[J].計(jì)算機(jī)工程,2013,39(10):208?211. [7] 宋玲,常磊.變異粒子群優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)在入侵檢測(cè)中的應(yīng)用[J].智能系統(tǒng)學(xué)報(bào),2013,8(6):558?563. [8] 郭蘭平,俞建寧,張旭東,等.基于改進(jìn)RBF神經(jīng)網(wǎng)絡(luò)的混沌時(shí)間序列預(yù)測(cè)[J].云南民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,20(1):63?70. [9] 李冬梅,王正歐.基于RBF神經(jīng)網(wǎng)絡(luò)的混沌時(shí)間序列預(yù)測(cè)[J].模式識(shí)別與人工智能,2001,14(2):231?234. [10] 張濤,費(fèi)樹(shù)岷,李曉東.基于GA?RBF神經(jīng)網(wǎng)絡(luò)及邊界不變特征的車輛識(shí)別[J].智能系統(tǒng)學(xué)報(bào),2009,4(3):278?282. [11] 王晗,楊衛(wèi)國(guó),王湃.基于GA?RBF神經(jīng)網(wǎng)絡(luò)的電梯交通流模式識(shí)別的研究[C]//2007中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集.無(wú)錫:東北大學(xué),2007:307?310. [12] 王靜.基于遺傳算法的板形缺陷識(shí)別的研究[D].鞍山:遼寧科技大學(xué),2012.