王成滿
(四川外國語大學(xué)重慶南方翻譯學(xué)院,重慶 401120)
科學(xué)技術(shù)的迅速發(fā)展使社交網(wǎng)絡(luò)、交通運輸、通信運營等多個領(lǐng)域均形成著大量的數(shù)據(jù),這些數(shù)據(jù)存在著許多對管理者的決策起助力價值的信息[1]。隨著數(shù)據(jù)規(guī)模的增長,數(shù)據(jù)挖掘方法已變成當(dāng)今社會的重點研究項目之一?;ヂ?lián)網(wǎng)網(wǎng)絡(luò)規(guī)模的擴(kuò)大令越來越多的系統(tǒng)遭受到黑客的入侵,網(wǎng)絡(luò)攻擊的手段日漸復(fù)雜,網(wǎng)絡(luò)安全問題越來越突出[2-3]。
為了保障網(wǎng)絡(luò)的安全運行,相關(guān)專家們展開了大量研究。文獻(xiàn)[4]提出了基于內(nèi)網(wǎng)行為分析的網(wǎng)絡(luò)攻擊檢測數(shù)學(xué)模型,首先需要獲取網(wǎng)絡(luò)中的信息資源,其次對網(wǎng)絡(luò)中的行為異常風(fēng)險要素進(jìn)行分析,最后將信息的節(jié)點及資源獲取途徑當(dāng)作要素,創(chuàng)建一個攻擊檢測模型,利用該模型實現(xiàn)對網(wǎng)絡(luò)攻擊的檢測。文獻(xiàn)[5]提出了基于流量和IP熵特性的DDoS攻擊檢測方法,構(gòu)建M-ATS的網(wǎng)絡(luò)攻擊檢測數(shù)學(xué)模型,將博弈論(M-ATS)與馬爾可夫判決進(jìn)程(MJP)攻擊模式挖掘算法進(jìn)行了結(jié)合,通過M-ATS確定最佳網(wǎng)絡(luò)保護(hù)方法,利用MJP對未來發(fā)生的網(wǎng)絡(luò)攻擊進(jìn)行預(yù)測,根據(jù)預(yù)測結(jié)果設(shè)計相應(yīng)的保護(hù)方案,實現(xiàn)對網(wǎng)絡(luò)攻擊的檢測。文獻(xiàn)[6]提出了基于蟻群算法的網(wǎng)絡(luò)攻擊檢測數(shù)學(xué)模型,將蟻群收斂到的路徑當(dāng)作網(wǎng)絡(luò)異常路徑,求解該異常路徑上各個節(jié)點的O-measure值,通過O-measure值來確定網(wǎng)絡(luò)攻擊所在位置,實現(xiàn)對網(wǎng)絡(luò)攻擊的檢測。
雖然當(dāng)前研究取得一定進(jìn)展,但是依然存在網(wǎng)絡(luò)攻擊檢測率較低、網(wǎng)絡(luò)攻擊誤報率較高以及檢測時效性較差等問題,并不適用當(dāng)前的網(wǎng)絡(luò)攻擊檢測。因為網(wǎng)絡(luò)信息間拓?fù)潢P(guān)系不明確,所以在估算網(wǎng)絡(luò)信息的法向量及曲率時,需構(gòu)建網(wǎng)絡(luò)信息間的拓?fù)潢P(guān)系,提出基于增量式學(xué)習(xí)的網(wǎng)絡(luò)攻擊檢測數(shù)學(xué)模型。
由于網(wǎng)絡(luò)信息間不存在明確的拓?fù)潢P(guān)系,在估算網(wǎng)絡(luò)信息的法向量及曲率時,需要構(gòu)建一個網(wǎng)絡(luò)信息之間的拓?fù)浣Y(jié)構(gòu)關(guān)系[7]。
假設(shè)網(wǎng)絡(luò)信息點pj的k鄰域點集是Nk(pi)構(gòu)造關(guān)于pi的協(xié)方差矩陣
(1)
(2)
將式(2)得到的法矢方向調(diào)成相同的方向。
?pi∈P的k鄰域點集是qi∈Q(i=1,2,…,k),已知pi處的平均曲率是Hi,那么信息點pi在k鄰域下的局部權(quán)值求解公式為
(3)
(4)
模糊C均值聚類算法將包含n個l維向量pi(pi1,…,pil)的集合P={p1,p2,…,pn}分成m個組O={o1,o2,…,om],每個組和一個聚類中心相對應(yīng),求解每一個聚類組的聚類中心oj,(j=1,2,…,m),致使目標(biāo)函數(shù)J最小,目標(biāo)函數(shù)J(U,O)的表達(dá)式如下
(5)
(6)
(7)
(8)
模糊權(quán)重系數(shù)使距離遠(yuǎn)的向量uij對oj的影響變小,距離近的向量對oj的影響變大。這種控制方式有效地擴(kuò)大了離群向量的特征[9]。特征保持權(quán)值求解方式如下
(9)
ωHi用于說明信息點pi的曲率對聚類的影響。
由于x,y,z在信息點附近的信息分布密度較大的情況下,信息點間的距離較近,信息點密度ρi較大,所以構(gòu)建了一個密度影響權(quán)值因子
(10)
ωρi表示信息點pi的密度對聚類的影響。利用模糊C均值聚類的權(quán)重因子能夠獲得目標(biāo)函數(shù),利用該目標(biāo)函數(shù)實現(xiàn)拓?fù)鋷缀螌W(xué)原理信息點的密度求解公式如下
(11)
基于上述分析,構(gòu)建一個網(wǎng)絡(luò)信息之間的拓?fù)浣Y(jié)構(gòu)關(guān)系,其表達(dá)式為
(12)
利用該拓?fù)浣Y(jié)構(gòu)關(guān)系即可實現(xiàn)對網(wǎng)絡(luò)信息的噪聲去除,其公式為
(13)
式中,αH表示特征保持系數(shù),αρ表示密度影響系數(shù),J(U,C,ω)為去噪后的網(wǎng)絡(luò)信息。
φi′=(X″TX″)-1X″TY
(14)
(15)
式(16)與式(17)為AR(2)的參數(shù)估計
(16)
(17)
(18)
二階自回歸模型的參數(shù)X″TY由時間序列數(shù)據(jù)的線性估計得出。利用二階自回歸模型檢測移動網(wǎng)絡(luò)信息樣本et′
(19)
若et′是后移算子,那么
=x″t′-φ1Bx″t′-φ2B2x″t′
=(1-φ1B-φ2B2)
=φ(B)x″t′
(20)
λ<-L′||λ>U
(21)
其中,L′和U是正數(shù)。
在進(jìn)行網(wǎng)絡(luò)攻擊判定實現(xiàn)檢測的基礎(chǔ)上,假設(shè)離散型屬性連續(xù)化后的增量式學(xué)習(xí)網(wǎng)絡(luò)攻擊檢測信息矩陣如式(22)所示。
(22)
其中,n′表示去噪處理后數(shù)據(jù)集中樣本的數(shù)量,M表示去噪后數(shù)據(jù)狀態(tài)節(jié)點隊列,d表示樣本屬性數(shù)量。則均值標(biāo)準(zhǔn)差歸一化方法對數(shù)據(jù)集中每個屬性值做歸一化處理,歸一化求解公式如下
(23)
式(23)中,xmean(i)和xstd(i)分別表示第i列數(shù)據(jù)的平均值和標(biāo)準(zhǔn)差,xij表示歸一化處理后的屬性值。
對去噪處理后的樣本信息采用B-ISVM增量式學(xué)習(xí)算法[10]。利用該算法完成對網(wǎng)絡(luò)攻擊信息的歸一化處理。設(shè)X為增量式學(xué)習(xí)網(wǎng)絡(luò)攻擊檢測矩陣X′歸一化處理后得到的一個矩陣
(24)
將歸一化處理后的樣本信息作為一個滑動時間窗,設(shè)滑動時間窗的大小是N′+1,每次從時間窗中取出N′+1個樣本信息。
時間窗內(nèi)的N′+1個信息樣本利用y1,y2,…yN+1來說明,利用前N′個信息樣本構(gòu)建一個自回歸模型AR,判斷第N′+1個信息樣本是否存在異常。選取恰當(dāng)?shù)腁R階數(shù)q′,時間窗口大小N′應(yīng)該相對小一些,AR(q′)在擬合時間序列時,準(zhǔn)確使用FPE衡量。時間窗口大小N′和階數(shù)q′的約束條件是0≤q′≤0.1N′,利用x″1,x″2,…,x″N′+1對二階自回歸模型AR(2)進(jìn)行擬合,擬合后得到的基于增量式學(xué)習(xí)的網(wǎng)絡(luò)攻擊檢測模型x″t′為
x″t′=φ1x″t′-1+φ2x″t′-2+et′J(U,C,ω)+xij
(25)
最后,完成了對基于增量式學(xué)習(xí)的網(wǎng)絡(luò)攻擊檢測數(shù)學(xué)模型的構(gòu)建。
為了客觀評估實驗結(jié)果,實驗中采用網(wǎng)絡(luò)攻擊檢測率、網(wǎng)絡(luò)攻擊誤報率、網(wǎng)絡(luò)攻擊時效性、抗網(wǎng)絡(luò)攻擊性能四項評估指標(biāo)來驗證本文所提方法的有效性。
假設(shè)網(wǎng)絡(luò)攻擊檢測率為
(26)
其中,A表示網(wǎng)絡(luò)攻擊檢測率,B表示被正確分類的網(wǎng)絡(luò)攻擊樣本數(shù)量,C表示實驗樣本集中網(wǎng)絡(luò)攻擊樣本的總量。
網(wǎng)絡(luò)攻擊誤報率的設(shè)定為
(27)
其中,D表示網(wǎng)絡(luò)攻擊誤報率,E表示被錯誤分類的正常樣本數(shù)量,F(xiàn)表示正常樣本的總量。
實驗環(huán)境:本次實驗在內(nèi)存為2G,操作系統(tǒng)為Windows的計算機上進(jìn)行,實驗測試平臺是Matlab7.0。
實驗從KDDCUP 1999數(shù)據(jù)集中隨機選取實驗樣本,在對實驗樣本進(jìn)行離散化后,形成的實驗樣本集如表1所示。
表1 網(wǎng)絡(luò)攻擊檢測實驗樣本集
數(shù)據(jù)集通常由正常和異常兩種信息構(gòu)成,異常信息分為四種類型,分別是DoS、Probe、R2L和U2R。其中每一種異常信息均包含多個子類型。
為了描述方便,將本文所構(gòu)建的檢測數(shù)學(xué)模型描述為A,基于行為分析的網(wǎng)絡(luò)攻擊檢測數(shù)學(xué)模型描述為B、基于流量和IP熵特性的DDoS攻擊檢測數(shù)學(xué)模型描述為C、基于蟻群算法的網(wǎng)絡(luò)攻擊檢測數(shù)學(xué)模型描述為D。四種網(wǎng)絡(luò)攻擊檢測數(shù)學(xué)模型的檢測結(jié)果,如表2所示。
表2 網(wǎng)絡(luò)攻擊檢測結(jié)果
從表2可以看出,四種網(wǎng)絡(luò)攻擊檢測數(shù)學(xué)模型中,本文所構(gòu)建模型的網(wǎng)絡(luò)攻擊檢測率是最高的,網(wǎng)絡(luò)攻擊誤報率是最低的,幾乎可以忽略不計,且可以檢測出絕大多數(shù)的網(wǎng)絡(luò)攻擊,這是由于所構(gòu)建的數(shù)學(xué)模型在檢測網(wǎng)絡(luò)攻擊之前,對檢測數(shù)據(jù)進(jìn)行了去噪處理,通過上述實驗數(shù)據(jù)可知,本文所構(gòu)建數(shù)學(xué)模型適用于對檢測率和誤報率有較高要求的場合。
3.3.1 網(wǎng)絡(luò)攻擊時效性對比
為了驗證本文所構(gòu)建的檢測數(shù)學(xué)模型的時效性,將檢測模型A與B、C和D三種數(shù)學(xué)模型進(jìn)行了對比分析。四種數(shù)學(xué)模型的網(wǎng)絡(luò)攻擊檢測時效性對比結(jié)果如表3所示。
表3 時效性對比
從表3可以看出,四種網(wǎng)絡(luò)攻擊檢測數(shù)學(xué)模型中,A數(shù)學(xué)模型的時效性最高,其次是B數(shù)學(xué)模型,D數(shù)學(xué)模型的時效性是四種數(shù)學(xué)模型中最差的。以閾值25和閾值100為例,當(dāng)閾值為25時,A模型實現(xiàn)網(wǎng)絡(luò)攻擊檢測所需的時間要比B、C、D三種模型分別縮短17.5%、26.8%、31.58%;當(dāng)閾值為100時,A模型實現(xiàn)網(wǎng)絡(luò)攻擊檢測所需的時間要比B、C、D三種模型分別縮短18.58%、21.03%、22.36%,通過上述實驗數(shù)據(jù)可知,所構(gòu)建數(shù)學(xué)模型A較B模型、C模型和D模型得到了極大的改進(jìn),采用本文所構(gòu)建數(shù)學(xué)模型A能夠高效實現(xiàn)對網(wǎng)絡(luò)攻擊的檢測。
3.3.2 網(wǎng)絡(luò)攻擊時效性對比
為了驗證本文所構(gòu)建網(wǎng)絡(luò)攻擊數(shù)學(xué)模型的抗攻擊能力,將本文所構(gòu)建模型A與B、C和D三種數(shù)學(xué)模型的抗攻擊能力進(jìn)行了對比。對比結(jié)果如圖1所示,其中橫坐標(biāo)為網(wǎng)絡(luò)攻擊數(shù)量,單位是個,縱坐標(biāo)為抗網(wǎng)絡(luò)攻擊性能,單位是百分比(%)。
圖1 四種數(shù)學(xué)模型的抗網(wǎng)絡(luò)攻擊性能對比圖
從圖1可以看出,在相同網(wǎng)絡(luò)攻擊數(shù)量的情況下,四種模型中所構(gòu)建模型A的抗攻擊性能最高,其次是模型C,模型D的抗攻擊性能最低。通過上述實驗數(shù)據(jù)可知,采用所構(gòu)建模型A可以在準(zhǔn)確檢測網(wǎng)絡(luò)攻擊的前提下,提高網(wǎng)絡(luò)的抗攻擊能力。
綜上所述,本文所構(gòu)建的數(shù)學(xué)模型A具有高檢測率、低誤報率、高時效性、高抗攻擊能力的特點。采用本文所構(gòu)建的數(shù)學(xué)模型能夠在高時效、高檢測率、高抗攻擊能力的情況下實現(xiàn)對網(wǎng)絡(luò)攻擊的檢測,且誤報率較低。表明本文所構(gòu)建的模型具有較好的檢測性能。
針對現(xiàn)有網(wǎng)絡(luò)攻擊檢測數(shù)學(xué)模型存在的網(wǎng)絡(luò)攻擊檢測率較低、網(wǎng)絡(luò)攻擊誤報率較高、檢測時效性較差等問題,構(gòu)建了基于增量式學(xué)習(xí)的網(wǎng)絡(luò)攻擊檢測數(shù)學(xué)模型。
所構(gòu)建模型的創(chuàng)新點:
1)噪聲去除;
2)網(wǎng)絡(luò)信息歸一化處理;
經(jīng)上述實驗驗證,所構(gòu)建數(shù)學(xué)模型在網(wǎng)絡(luò)攻擊檢測率、網(wǎng)絡(luò)攻擊誤報率、網(wǎng)絡(luò)攻擊檢測時效性等方面均優(yōu)于基于行為分析的網(wǎng)絡(luò)攻擊檢測數(shù)學(xué)模型、基于流量和IP熵特性的DDoS攻擊檢測數(shù)學(xué)模型和基于蟻群算法的網(wǎng)絡(luò)攻擊檢測數(shù)學(xué)模型,采用本文所構(gòu)建的數(shù)學(xué)模型可以在高網(wǎng)絡(luò)攻擊檢測率、低網(wǎng)絡(luò)攻擊誤報率、高網(wǎng)絡(luò)攻擊檢測時效性的情況下更好的完成對網(wǎng)絡(luò)攻擊的檢測。