肖耿毅
(桂林師范高等專科學(xué)校數(shù)學(xué)與計(jì)算機(jī)技術(shù)系,廣西 桂林 541199)
互聯(lián)網(wǎng)具有開放性和包容性,但是容易受到外部入侵。入侵檢測(cè)是一種及時(shí)檢測(cè)和報(bào)告未經(jīng)授權(quán)的訪問(wèn)或異常的技術(shù),網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)是用于保護(hù)系統(tǒng)免受非法攻擊的重要網(wǎng)絡(luò)防御工具。入侵檢測(cè)系統(tǒng)主要包含三種手段:第一種為基于特征的檢測(cè)方法,這種方法具有較高的預(yù)測(cè)和檢測(cè)精度,但需要入侵和攻擊的先驗(yàn)知識(shí)或經(jīng)驗(yàn);第二種為基于統(tǒng)計(jì)算法的檢測(cè)方法,這種方法對(duì)于常規(guī)網(wǎng)絡(luò)入侵檢測(cè)率高,但其學(xué)習(xí)能力較差;第三種為基于機(jī)器學(xué)習(xí)的檢測(cè)方法,其有效性完全取決于機(jī)器學(xué)習(xí)算法的有效性。建立一個(gè)有效的網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng),充分利用新的機(jī)器學(xué)習(xí)方法是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。從對(duì)象的角度來(lái)看,與正常的網(wǎng)絡(luò)行為相比,不同類型的惡意攻擊具有相當(dāng)不平衡的分布。網(wǎng)絡(luò)入侵行為復(fù)雜的、冗長(zhǎng)的特征給構(gòu)建有效的檢測(cè)系統(tǒng)帶來(lái)了嚴(yán)峻的挑戰(zhàn)。為了解決這些問(wèn)題,本文提出一種新的網(wǎng)絡(luò)入侵檢測(cè)方法,即基于稀疏主成分空間嵌入與加權(quán)核極限學(xué)習(xí)機(jī)的網(wǎng)絡(luò)入侵檢測(cè)方法,它包含了稀疏主成分空間嵌入算法以及加權(quán)核極限學(xué)習(xí)機(jī)。
網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)的較多特征不僅會(huì)影響檢測(cè)速度,還會(huì)影響檢測(cè)精度。由于高維空間的信息數(shù)據(jù)是可以以非常小的信息損失在低維空間中進(jìn)行表示的,因而降維可能會(huì)產(chǎn)生較低維度的數(shù)據(jù),從而可以減少網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)的特征,當(dāng)前的降維算法有主成分分析法、局部線性嵌入法、核主成分分析法等等。由于網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)中有很多是稀疏的,這些降維算法對(duì)網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)處理效果不佳,難以很好地提取稀疏數(shù)據(jù)的信息。因此,本文提出稀疏主成分空間嵌入算法(SPCSE)以約簡(jiǎn)網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)的特征,稀疏主成分空間嵌入算法是基于稀疏主成分的特征約簡(jiǎn)的降維算法,稀疏主成分空間嵌入可以減少特征提取后的數(shù)據(jù)信息丟失,從而不僅提高算法提取的特征準(zhǔn)確度,還能提高算法的效率。
極限學(xué)習(xí)機(jī)(ELM)是一種求解單隱層神經(jīng)網(wǎng)絡(luò)的算法,極限學(xué)習(xí)機(jī)在保證學(xué)習(xí)精度的前提下比傳統(tǒng)的單層神經(jīng)網(wǎng)絡(luò)有著更高的效率。為了改進(jìn)極限學(xué)習(xí)機(jī)的網(wǎng)絡(luò)入侵的檢測(cè)效果,提出一種加權(quán)核極限學(xué)習(xí)機(jī)算法(WKELM),在加權(quán)極限學(xué)習(xí)機(jī)中引入了核函數(shù),通過(guò)采用核函數(shù)代替包含激活函數(shù)的加權(quán)極限學(xué)習(xí)機(jī)隱層隨機(jī)特征映射,這些隱層隨機(jī)特征映射可以提高加權(quán)極限學(xué)習(xí)機(jī)的非線性處理能力和魯棒性。由于粒子群優(yōu)化算法存在局部?jī)?yōu)化等問(wèn)題,提出采用柯西粒子群優(yōu)化算法進(jìn)行加權(quán)核極限學(xué)習(xí)機(jī)的參數(shù)優(yōu)化。采用KDDCUP99數(shù)據(jù)集樣本作為本文的實(shí)驗(yàn)數(shù)據(jù),網(wǎng)絡(luò)入侵類型主要為Dos、Probe、R2L、U2R,通過(guò)實(shí)驗(yàn)測(cè)試基于稀疏主成分空間嵌入與加權(quán)核極限學(xué)習(xí)機(jī)的網(wǎng)絡(luò)入侵檢測(cè)方法用于識(shí)別正常、Dos、Probe、R2L、U2R這5種網(wǎng)絡(luò)狀態(tài)的可行性。
高維空間的信息數(shù)據(jù)是可以以非常小的信息損失在低維空間中進(jìn)行表示的。對(duì)于給定的數(shù)據(jù)集,降維可能會(huì)產(chǎn)生較低維度的數(shù)據(jù),從而可以減少網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)的特征。由于網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)中有很多是稀疏的,這些降維算法對(duì)網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)處理效果不佳,難以很好地提取稀疏數(shù)據(jù)的信息,對(duì)此,本文提出一種稀疏主成分空間嵌入算法以約簡(jiǎn)網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)的特征。稀疏主成分空間嵌入算法是提取稀疏主成分并對(duì)特征約簡(jiǎn)的降維算法,稀疏主成分就是以主成分為基礎(chǔ)將主成分的系數(shù)向量進(jìn)行稀疏化,使絕對(duì)值較小的系數(shù)壓縮為零。
(1)
解決下述優(yōu)化問(wèn)題以產(chǎn)生稀疏回歸系數(shù)
(2)
約束條件:DD
=I
式中:D
,E
是最小化準(zhǔn)則的參數(shù)矩陣,β
是范數(shù)-2懲罰參數(shù)。由稀疏主成分空間嵌入算法構(gòu)造的抽樣誤差遵循關(guān)于零均值的對(duì)稱分布,這導(dǎo)致稀疏主成分空間嵌入在降維后更好地保留了歐氏距離。因此,稀疏主成分空間嵌入可以減少特征提取后的數(shù)據(jù)信息丟失,同時(shí)降低特征提取的計(jì)算復(fù)雜度。
極限學(xué)習(xí)機(jī)是黃廣斌提出的一種求解單隱層前饋神經(jīng)網(wǎng)絡(luò)的算法,其輸入層和隱層之間的連接是隨機(jī)分配的。與傳統(tǒng)的單層神經(jīng)網(wǎng)絡(luò)相比,極限學(xué)習(xí)機(jī)在保證學(xué)習(xí)精度的前提下保證更高的效率。經(jīng)過(guò)訓(xùn)練的極限學(xué)習(xí)機(jī)模型將會(huì)比反向傳播神經(jīng)網(wǎng)絡(luò)具有更高的精度和速度。極限學(xué)習(xí)機(jī)的數(shù)學(xué)模型表達(dá)為
(3)
式中:h
(x
)為特征映射函數(shù)矩陣,H
=[h
(x
),…,h
(x
)]為隱含層特征映射矩陣,T
=[t
,…,t
]為訓(xùn)練目標(biāo)矩陣。對(duì)于加權(quán)極限學(xué)習(xí)機(jī)算法,為了最小化輸出權(quán)重并最小化每個(gè)樣本的加權(quán)累積誤差,非平衡學(xué)習(xí)的加權(quán)極限學(xué)習(xí)機(jī)優(yōu)化問(wèn)題可以描述為
最小化
(4)
約束條件
α
為輸出權(quán)重向量,α
=H
T
,W
是用于加權(quán)的對(duì)角矩陣。對(duì)于加權(quán)極限學(xué)習(xí)機(jī),采用核函數(shù)代替包含激活函數(shù)的加權(quán)極限學(xué)習(xí)機(jī)隱層隨機(jī)特征映射,有利于提高加權(quán)極限學(xué)習(xí)機(jī)的非線性處理能力和魯棒性。
(5)
式中:C
為懲罰因子,I
為單位矩陣。引入核函數(shù)代替特征矩陣HH
,核極限學(xué)習(xí)機(jī)數(shù)學(xué)模型表達(dá)為(6)
加權(quán)極限學(xué)習(xí)機(jī)定義一個(gè)內(nèi)核矩陣,因而,加權(quán)極限學(xué)習(xí)機(jī)分類器的輸出函數(shù)為
(7)
式中:C
是加權(quán)極限學(xué)習(xí)機(jī)算法的正則化系數(shù)。加權(quán)極限學(xué)習(xí)機(jī)的懲罰因子C
以及高斯徑向基核函數(shù)的參數(shù)ε
需要優(yōu)化。粒子群優(yōu)化算法是一種群體智能優(yōu)化算法,它從鳥群在多維搜索空間中的社會(huì)行為演化而來(lái)。一旦找到了食物的來(lái)源,領(lǐng)頭的鳥就會(huì)傳送這些信息,以便其它鳥群也能找到食物。粒子群優(yōu)化算法隨機(jī)生成一組粒子,這些粒子根據(jù)式(8)與式(9)在搜索空間中移動(dòng)以更新每個(gè)粒子的位置和速度以搜索最佳結(jié)果。
v
(t
+1)=λ
·v
(t
)+c
·rand
·(pbest
(t
)-x
(t
))+c
·rand
·(gbest
(t
)-x
(t
))(8)
x
(t
+1)=x
(t
)+v
(t
+1)(9)
式中:λ
是權(quán)重系數(shù),pbest
是單個(gè)粒子的最佳先前經(jīng)驗(yàn),gbest
是所有群中的全局最佳經(jīng)驗(yàn),c
、c
是加速度常數(shù),c
、c
取值為2,rand
是0與1之間的隨機(jī)數(shù)。該算法采用柯西分布進(jìn)行初始粒子的選取,標(biāo)準(zhǔn)柯西密度函數(shù)表示為
(10)
由于加權(quán)核極限學(xué)習(xí)機(jī)的懲罰因子C
以及高斯徑向基核函數(shù)的參數(shù)ε
的選擇對(duì)其的識(shí)別能力有很大的影響,所以應(yīng)用柯西粒子群優(yōu)化算法選擇加權(quán)核極限學(xué)習(xí)機(jī)的懲罰因子C
以及高斯徑向基核函數(shù)的參數(shù)ε
。首先定義一個(gè)粒子,該粒子包括加權(quán)極限學(xué)習(xí)機(jī)的懲罰因子C
以及高斯徑向基核函數(shù)的參數(shù)ε
,利用標(biāo)準(zhǔn)柯西密度函數(shù),產(chǎn)生一組初始的粒子;其次,定義適合度函數(shù),評(píng)估每個(gè)粒子的適合度;再次,根據(jù)式(8)與式(9)更新每個(gè)粒子的位置和速度,評(píng)估當(dāng)前粒子的適合度;最后,如果滿足終止條件,優(yōu)化過(guò)程結(jié)束,同時(shí)獲取加權(quán)核極限學(xué)習(xí)機(jī)的懲罰因子C
以及高斯徑向基核函數(shù)的參數(shù)ε
。圖1描述了基于稀疏主成分空間嵌入與加權(quán)核極限學(xué)習(xí)機(jī)(SPCSE-WKELM)的網(wǎng)絡(luò)入侵檢測(cè)流程,該網(wǎng)絡(luò)入侵檢測(cè)流程中將網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)高維特征集分為訓(xùn)練樣本集與測(cè)試樣本集,通過(guò)稀疏主成分空間嵌入算法分別將訓(xùn)練樣本集與測(cè)試樣本集進(jìn)行降維,從而分別獲取低維特征集訓(xùn)練樣本集與低維特征集測(cè)試樣本集,利用低維特征集訓(xùn)練樣本集以及柯西粒子群優(yōu)化算法對(duì)加權(quán)極限學(xué)習(xí)機(jī)的懲罰因子C以及高斯徑向基核函數(shù)的參數(shù)ε進(jìn)行優(yōu)化,從而獲取稀疏主成分空間嵌入與加權(quán)核極限學(xué)習(xí)機(jī)的網(wǎng)絡(luò)入侵檢測(cè)模型,采用低維特征集測(cè)試樣本集對(duì)稀疏主成分空間嵌入與加權(quán)核極限學(xué)習(xí)機(jī)的網(wǎng)絡(luò)入侵檢測(cè)模型進(jìn)行測(cè)試。
圖1 基于SPCSE-WKELM的網(wǎng)絡(luò)入侵檢測(cè)流程圖
網(wǎng)絡(luò)入侵類型主要為Dos、Probe、R2L、U2R。本文采用500個(gè)KDDCUP99數(shù)據(jù)集樣本作為本文的實(shí)驗(yàn)數(shù)據(jù),該實(shí)驗(yàn)數(shù)據(jù)包含正常、Dos、Probe、R2L、U2R這5種網(wǎng)絡(luò)狀態(tài)。其中300個(gè)KDDCUP99數(shù)據(jù)集樣本作為本文的訓(xùn)練數(shù)據(jù),200個(gè)KDDCUP99數(shù)據(jù)集樣本作為本文的測(cè)試數(shù)據(jù),這200個(gè)KDDCUP99數(shù)據(jù)集樣本包括正常樣本40個(gè),Dos入侵樣本40個(gè),Probe入侵樣本40個(gè),R2L入侵樣本40個(gè)以及U2R入侵樣本40個(gè)。通過(guò)稀疏主成分空間嵌入算法分別降低訓(xùn)練樣本以及測(cè)試樣本的特征維數(shù),選定柯西粒子群優(yōu)化算法參數(shù),采用柯西粒子群優(yōu)化算法選擇加權(quán)核極限學(xué)習(xí)機(jī)的懲罰因子C以及高斯徑向基核函數(shù)的參數(shù)ε,建立SPCSE-WKELM網(wǎng)絡(luò)入侵檢測(cè)模型。分別采用WKELM網(wǎng)絡(luò)入侵檢測(cè)模型、ELM網(wǎng)絡(luò)入侵檢測(cè)模型與網(wǎng)絡(luò)入侵SPCSE-WKELM檢測(cè)模型進(jìn)行比較。WKELM網(wǎng)絡(luò)入侵檢測(cè)模型、ELM網(wǎng)絡(luò)入侵檢測(cè)模型與SPCSE-WKELM網(wǎng)絡(luò)入侵檢測(cè)模型分別對(duì)正常、Dos、Probe、R2L、U2R的識(shí)別率如表1所示。圖2展示了SPCSE-WKELM的網(wǎng)絡(luò)入侵檢測(cè)結(jié)果,SPCSE-WKELM對(duì)正常樣本識(shí)別率100%,Dos入侵樣本識(shí)別率95%,對(duì)Probe入侵樣本識(shí)別率97.5%,對(duì)R2L入侵樣本識(shí)別率100%,對(duì)U2R入侵樣本識(shí)別率100%。圖3展示了WKELM的網(wǎng)絡(luò)入侵檢測(cè)結(jié)果,WKELM對(duì)正常樣本識(shí)別率100%,Dos入侵樣本識(shí)別率95%,對(duì)Probe入侵樣本識(shí)別率87.5%,對(duì)R2L入侵樣本識(shí)別率95%,對(duì)U2R入侵樣本識(shí)別率97.5%。WKELM對(duì)Probe入侵樣本識(shí)別率較低。圖4展示了ELM的網(wǎng)絡(luò)入侵檢測(cè)結(jié)果,ELM對(duì)正常樣本識(shí)別率97.5%,Dos入侵樣本識(shí)別率92.5%,對(duì)Probe入侵樣本識(shí)別率87.5%,對(duì)R2L入侵樣本識(shí)別率90%,對(duì)U2R入侵樣本識(shí)別率92.5%。ELM對(duì)Probe入侵樣本識(shí)別率以及對(duì)R2L入侵樣本識(shí)別率較低。從表2可以看出,SPCSE-WKELM對(duì)于網(wǎng)絡(luò)入侵的檢測(cè)精度98.5%,WKELM對(duì)于網(wǎng)絡(luò)入侵的檢測(cè)精度95%,ELM對(duì)于網(wǎng)絡(luò)入侵的檢測(cè)精度92%??梢钥闯觯琒PCSE-WKELM對(duì)于網(wǎng)絡(luò)入侵的檢測(cè)精度遠(yuǎn)高于WKELM以及ELM對(duì)于網(wǎng)絡(luò)入侵的檢測(cè)精度。
圖2 基于SPCSE-WKELM的網(wǎng)絡(luò)入侵檢測(cè)結(jié)果
圖3 基于WKELM的網(wǎng)絡(luò)入侵檢測(cè)結(jié)果
圖4 基于ELM的網(wǎng)絡(luò)入侵檢測(cè)結(jié)果
表1 各模型對(duì)正常、Dos、Probe、R2L、U2R的識(shí)別率
表2 各模型對(duì)網(wǎng)絡(luò)入侵的檢測(cè)精度
為了解決網(wǎng)絡(luò)入侵行為復(fù)雜的、冗長(zhǎng)的特征給構(gòu)建有效的檢測(cè)系統(tǒng)帶來(lái)的問(wèn)題以及提高網(wǎng)絡(luò)入侵檢測(cè)效果,本文提出一種新的網(wǎng)絡(luò)入侵檢測(cè)方法,即基于稀疏主成分空間嵌入與加權(quán)核極限學(xué)習(xí)機(jī)的網(wǎng)絡(luò)入侵檢測(cè)方法,給出基于稀疏主成分空間嵌入與加權(quán)核極限學(xué)習(xí)機(jī)的網(wǎng)絡(luò)入侵檢測(cè)流程,并通過(guò)實(shí)驗(yàn)結(jié)果表明本文提出的基于稀疏主成分空間嵌入與加權(quán)核極限學(xué)習(xí)機(jī)的網(wǎng)絡(luò)入侵檢測(cè)方法對(duì)于網(wǎng)絡(luò)入侵的檢測(cè)結(jié)果優(yōu)于傳統(tǒng)的極限學(xué)習(xí)機(jī)和加權(quán)核極限學(xué)習(xí)機(jī),從而證明了本文提出的基于稀疏主成分空間嵌入與加權(quán)核極限學(xué)習(xí)機(jī)的網(wǎng)絡(luò)入侵檢測(cè)方法的有效性。本文貢獻(xiàn)在于:
1) 提出一種稀疏主成分空間嵌入算法以約簡(jiǎn)網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)的特征。這種算法是基于稀疏主成分的特征約簡(jiǎn)的降維算法,稀疏主成分空間嵌入可以減少特征提取后的數(shù)據(jù)信息丟失。
2) 提出一種加權(quán)核極限學(xué)習(xí)機(jī)算法,它采用核函數(shù)代替包含激活函數(shù)的加權(quán)極限學(xué)習(xí)機(jī)隱層隨機(jī)特征映射,有利于提高算法的非線性處理能力和魯棒性,采用基于柯西粒子群優(yōu)化算法進(jìn)行加權(quán)核極限學(xué)習(xí)機(jī)的參數(shù)優(yōu)化。