(內(nèi)蒙古電力科學(xué)研究院,呼和浩特 010010)
在信息智能化不斷發(fā)展的時(shí)代,許多中小型企業(yè)的各種業(yè)務(wù)系統(tǒng)也在不斷地更新與完善,所產(chǎn)生的數(shù)據(jù)也在迅猛地增長。產(chǎn)業(yè)互聯(lián)網(wǎng)的迅速發(fā)展,帶動(dòng)了各行各業(yè)的生產(chǎn)水平,與此同時(shí),智能網(wǎng)絡(luò)時(shí)代也給企業(yè)的安全帶來了全新的挑戰(zhàn)[1]?;ヂ?lián)網(wǎng)的負(fù)面作用正逐步擴(kuò)大,網(wǎng)絡(luò)安全問題成為了企業(yè)安全的重中之重,其中數(shù)據(jù)安全問題較為突出[2-3]。
針對(duì)上述存在的問題,許多學(xué)者發(fā)表了自己研究的技術(shù)方案。文獻(xiàn)[4]公開了一種基于Hadoop平臺(tái)卷積神經(jīng)網(wǎng)絡(luò)模型[4],雖然能在一定程度上對(duì)網(wǎng)絡(luò)安全檢測(cè)運(yùn)算處理效果比較好,但是處理數(shù)據(jù)過程比較復(fù)雜導(dǎo)致效率低,對(duì)于實(shí)時(shí)數(shù)據(jù)無法快速處理。文獻(xiàn)[5]提出了一種多源異構(gòu)數(shù)據(jù)實(shí)時(shí)處理模型,采用了XML數(shù)據(jù)形式映射數(shù)據(jù)庫的機(jī)制[5],雖然在實(shí)時(shí)數(shù)據(jù)處理上有明顯的優(yōu)勢(shì),但是采集的數(shù)據(jù)容易受到噪聲干擾導(dǎo)致精度下降。本研究研究出一套適用的解決方案,下文將詳述具體方案設(shè)計(jì)。
針對(duì)上述技術(shù)存在的不足,本研究設(shè)計(jì)出新型的智能化網(wǎng)絡(luò)安全檢測(cè)平臺(tái),全面分析網(wǎng)絡(luò)風(fēng)險(xiǎn)因素,以提高對(duì)網(wǎng)絡(luò)風(fēng)險(xiǎn)因素的感知、預(yù)測(cè)和防范能力。本研究采用卡爾曼濾波算法、采用數(shù)據(jù)融合分類算法和模糊推理算法3種方法結(jié)合構(gòu)建出數(shù)據(jù)融合模型來對(duì)網(wǎng)絡(luò)安全檢測(cè)數(shù)據(jù)進(jìn)行運(yùn)算與處理。關(guān)于網(wǎng)絡(luò)安全檢測(cè)平臺(tái)總體框架圖如圖1所示。
圖1 網(wǎng)絡(luò)安全檢測(cè)平臺(tái)總體框架圖
如圖1所示,網(wǎng)絡(luò)安全檢測(cè)平臺(tái)總體框架可分為5大模塊。
1)檢測(cè)數(shù)據(jù)采集與預(yù)處理:
網(wǎng)絡(luò)安全檢測(cè)平臺(tái)主要是通過物聯(lián)網(wǎng)和企業(yè)的業(yè)務(wù)系統(tǒng)中獲取數(shù)據(jù),利用網(wǎng)絡(luò)采集探針在關(guān)鍵網(wǎng)絡(luò)節(jié)點(diǎn)進(jìn)行實(shí)時(shí)檢測(cè)。采集內(nèi)容應(yīng)該包括網(wǎng)絡(luò)流量、日志、系統(tǒng)漏洞和各個(gè)業(yè)務(wù)系統(tǒng)之間交互數(shù)據(jù)等信息,在原始流量中經(jīng)過分析得出已知威脅,將數(shù)據(jù)進(jìn)行預(yù)處理之后通過數(shù)據(jù)采集接口傳輸至數(shù)據(jù)融合模型之中進(jìn)一步進(jìn)行數(shù)據(jù)處理[6-7]。
2)數(shù)據(jù)存儲(chǔ):
數(shù)據(jù)存儲(chǔ)主要是將采集得到的不同結(jié)構(gòu)的數(shù)據(jù)進(jìn)行合理地存儲(chǔ),與數(shù)據(jù)融合模型通過數(shù)據(jù)交互接口進(jìn)行信息交互,便于數(shù)據(jù)融合模型的運(yùn)算。
3)平臺(tái)管理:
包括平臺(tái)的管理、數(shù)據(jù)存儲(chǔ)以及自身安全防護(hù),通過實(shí)時(shí)監(jiān)控來主動(dòng)發(fā)現(xiàn)安全漏洞并及時(shí)預(yù)警,充分運(yùn)維管理網(wǎng)絡(luò)安全檢測(cè)平臺(tái),加強(qiáng)全網(wǎng)安全形勢(shì)意識(shí)和安全監(jiān)控,為平臺(tái)的總體功能實(shí)現(xiàn)提供支撐。
4)數(shù)據(jù)融合模型:
在本研究的數(shù)據(jù)融合模型中,在結(jié)構(gòu)上分為卡爾曼濾波算法、采用數(shù)據(jù)融合分類算法和模糊推理算法,采用多種算法能將復(fù)雜的網(wǎng)絡(luò)安全檢測(cè)大數(shù)據(jù)進(jìn)行融合處理產(chǎn)生最優(yōu)權(quán)重值提高了數(shù)據(jù)有效性,提高了網(wǎng)絡(luò)應(yīng)用效率。最終將處理結(jié)果傳達(dá)至展示與應(yīng)用模塊。
5)展示與應(yīng)用:
在對(duì)顯示單元中存在的隱藏?cái)?shù)據(jù)信息中,依據(jù)決策者、管理人員和運(yùn)維人員對(duì)網(wǎng)絡(luò)應(yīng)用安全的需求側(cè)重點(diǎn),利用可視化分析技術(shù),進(jìn)行多種態(tài)勢(shì)的多維度展示,并且支持預(yù)警通告和應(yīng)急處置[8]。
在對(duì)復(fù)雜的網(wǎng)絡(luò)安全檢測(cè)大數(shù)據(jù)處理方面,通常是采用數(shù)據(jù)融合技術(shù)來將不同結(jié)構(gòu)的網(wǎng)絡(luò)安全檢測(cè)數(shù)據(jù)進(jìn)行互補(bǔ)優(yōu)化,得到更好的數(shù)據(jù)結(jié)果。本研究設(shè)計(jì)了網(wǎng)絡(luò)安全檢測(cè)數(shù)據(jù)融合組合算法模型,采用多種算法將復(fù)雜的網(wǎng)絡(luò)安全檢測(cè)大數(shù)據(jù)進(jìn)行融合處理產(chǎn)生最優(yōu)權(quán)重值提高了數(shù)據(jù)有效性和網(wǎng)絡(luò)利用率。關(guān)于數(shù)據(jù)融合模型如圖2所示。
圖2 網(wǎng)絡(luò)安全檢測(cè)數(shù)據(jù)融合模型
結(jié)合圖2對(duì)網(wǎng)絡(luò)安全檢測(cè)數(shù)據(jù)融合模型進(jìn)行說明。在結(jié)構(gòu)原理上,首先應(yīng)用卡爾曼濾波算法進(jìn)行數(shù)據(jù)融合處理,以提高數(shù)據(jù)的純度,進(jìn)而提高計(jì)算的精度。其次采用數(shù)據(jù)融合分類算法為對(duì)網(wǎng)絡(luò)安全檢測(cè)數(shù)據(jù)進(jìn)行進(jìn)一步的關(guān)聯(lián)融合,通過稀疏自編碼器進(jìn)行自主提取數(shù)據(jù)特征。為了進(jìn)行數(shù)據(jù)聚類,通過K-means聚類算法模型對(duì)接收到的數(shù)據(jù)進(jìn)行聚類處理,并通過softmax函數(shù)輸出分類器,進(jìn)而實(shí)現(xiàn)多種數(shù)據(jù)的融合計(jì)算和處理;最后將處理后的數(shù)據(jù)信息輸出至模糊推理算法,對(duì)接收到的網(wǎng)絡(luò)安全檢測(cè)數(shù)據(jù)從整體上進(jìn)行性能評(píng)估。
在實(shí)際網(wǎng)絡(luò)采集探針在關(guān)鍵網(wǎng)絡(luò)節(jié)點(diǎn)進(jìn)行實(shí)時(shí)檢測(cè)過程中,采集過程和傳輸過程的周邊環(huán)境難免會(huì)受到各種外界因素的干擾。為了降低噪聲干擾提高數(shù)據(jù)的準(zhǔn)確度,本研究將卡爾曼濾波算法進(jìn)行了新型的應(yīng)用,在應(yīng)用過程中對(duì)原始網(wǎng)絡(luò)安全檢測(cè)數(shù)據(jù)進(jìn)行初始化濾波處理[9]。計(jì)算方法的詳解如下文所示:
針對(duì)關(guān)鍵網(wǎng)絡(luò)節(jié)點(diǎn)處首先建立狀態(tài)方程和量測(cè)方程為:
(1)
式(1)中,k表示某一時(shí)刻,取不為0的自然數(shù);xk表示在k時(shí)刻網(wǎng)絡(luò)安全檢測(cè)信號(hào)的狀態(tài)變量,yk分別表示在k時(shí)刻網(wǎng)絡(luò)安全檢測(cè)信號(hào)的量測(cè)變量;Ak和Hk分別表示在k時(shí)刻網(wǎng)絡(luò)安全檢測(cè)信號(hào)的狀態(tài)轉(zhuǎn)移矩陣和量測(cè)系數(shù)矩陣;Wk和Vk分別表示在k時(shí)刻網(wǎng)絡(luò)安全檢測(cè)信號(hào)的動(dòng)態(tài)噪聲和量測(cè)噪聲。
其次,根據(jù)式(1)建立誤差初始化方程為:
(2)
式(2)中,P為計(jì)算誤差初始化方程中對(duì)應(yīng)x的協(xié)方差,E為計(jì)算的誤差值。經(jīng)過卡爾曼濾波遞推,得到:
(3)
(4)
Qw=E[wkwkT]Rv=E[vkvkT]
(5)
其中:Q和R分別表示在k時(shí)刻網(wǎng)絡(luò)安全檢測(cè)信號(hào)的動(dòng)態(tài)噪聲和量測(cè)噪聲各自的協(xié)方差;J表示最終運(yùn)算的濾波值。
綜上式(1)~(5)[10-11]可以看出,卡爾曼濾波算法過程是一個(gè)迭代過程,當(dāng)?shù)玫叫碌木W(wǎng)絡(luò)安全檢測(cè)數(shù)據(jù)時(shí),即可算出新的濾波值,實(shí)現(xiàn)對(duì)原始網(wǎng)絡(luò)安全檢測(cè)數(shù)據(jù)的降噪處理。
本研究的數(shù)據(jù)融合分類算法是在K-means聚類的稀疏自動(dòng)編碼器融合算法的基礎(chǔ)上,應(yīng)用SAE稀疏自動(dòng)編碼器將網(wǎng)絡(luò)安全檢測(cè)數(shù)據(jù)的特征信息自主地提取出來,然后啟動(dòng)K-means聚類算法模型接收上述數(shù)據(jù)信息,對(duì)SAE稀疏自動(dòng)編碼器輸出的數(shù)據(jù)進(jìn)行處理[12-13]。關(guān)于數(shù)據(jù)融合分類算法的具體步驟如下:
1)設(shè)3種不同結(jié)構(gòu)網(wǎng)絡(luò)安全檢測(cè)數(shù)據(jù)集A={a1,a2,…,aN},B={b1,b2…,bN},C={c1,c2,…,cN}均含有N個(gè)樣本,經(jīng)過關(guān)聯(lián)融合后得到數(shù)據(jù)樣本集[14-15]D={a1,a2,…,aN,b1,b2…,bN,c1,c2,…,cN}。
2)通過SAE稀疏自動(dòng)編碼器建立3個(gè)隱藏層,本研究構(gòu)建三次神經(jīng)網(wǎng)絡(luò)模型來提取網(wǎng)絡(luò)安全檢測(cè)數(shù)據(jù)的特征信息。構(gòu)建SAE稀疏自動(dòng)編碼器網(wǎng)絡(luò)模型主要通過編碼和解碼過程。在編碼過程中,提取隱藏層特征第k個(gè)網(wǎng)絡(luò)安全檢測(cè)數(shù)據(jù)樣本編碼公式為[16-17]:
ak=fθ(dk)=f(T1dk+C1)
bk=fθ(dk)=f(T1dk+C1)
ck=fθ(dk)=f(T1dk+C1)
(6)
式(1)中,f(x)為激活函數(shù),θ為SAE稀疏自動(dòng)編碼器的參數(shù)。通常編碼和解碼過程常用的激活函數(shù)為ReLU函數(shù)和sigmoid函數(shù),本研究在編碼過程中使用ReLU函數(shù),而在解碼過程中將兩種激活函數(shù)混合使用[18]。
在解碼過程中,將對(duì)網(wǎng)絡(luò)安全檢測(cè)數(shù)據(jù)進(jìn)行重構(gòu),得到與輸入層的原始網(wǎng)絡(luò)安全檢測(cè)數(shù)據(jù)最接近的輸出量gk,如公式(7)所示[19]:
gk=fθ(x)=f(T2x+C2)
x=ak,bk,ck
(7)
其中:x為3種網(wǎng)絡(luò)安全檢測(cè)數(shù)據(jù)集任意一種,T1=T2T,C1=C2T。
3)對(duì)網(wǎng)絡(luò)安全相關(guān)數(shù)據(jù)進(jìn)行設(shè)置,比如網(wǎng)絡(luò)硬件參數(shù)、損失函數(shù)和優(yōu)化器。神經(jīng)網(wǎng)絡(luò)模型參數(shù)主要由迭代次數(shù)、批處理以及學(xué)習(xí)速率組成,損失函數(shù)則通過調(diào)用PyTorch數(shù)據(jù)庫內(nèi)的均方損失函數(shù)MSELoss,在模型中為了防止數(shù)據(jù)出現(xiàn)過擬合現(xiàn)象,本研究采用Adam優(yōu)化器對(duì)數(shù)據(jù)進(jìn)行優(yōu)化[19-20]。關(guān)于具體實(shí)現(xiàn)程序相關(guān)代碼如下[21]:
迭代次數(shù):nmm_epochs=200
批處理個(gè)數(shù):batch_size=1280
學(xué)習(xí)速率:lerning_rate=1e-3
采用Adam優(yōu)化器:
optimizer=torch.optim.Adam(model.parameters(),lr=learning_rate weight_decay=1e-5)
設(shè)置均方損失函數(shù):criterion=nn.MSELoss
最后一步,通過SAE稀疏自動(dòng)編碼器輸出量作為K-means聚類算法的輸入量。首先要先確立一個(gè)輸入網(wǎng)絡(luò)安全檢測(cè)數(shù)據(jù)的中心點(diǎn);其次每個(gè)網(wǎng)絡(luò)安全檢測(cè)數(shù)據(jù)點(diǎn)通過ou_distance函數(shù)來定義數(shù)據(jù)點(diǎn)與所設(shè)中心點(diǎn)之間的歐式距離;然后通過分析計(jì)算距離所設(shè)中心點(diǎn)最近的數(shù)據(jù)點(diǎn),確定該點(diǎn)歸屬于哪一種網(wǎng)絡(luò)安全檢測(cè)數(shù)據(jù)類別。最后,計(jì)算中心點(diǎn)與所有其他數(shù)據(jù)點(diǎn)之間的距離之和,并計(jì)算每類網(wǎng)絡(luò)安全檢測(cè)數(shù)據(jù)集中每個(gè)點(diǎn)與所有其他點(diǎn)之間的距離之和。如果距離小于當(dāng)前中心點(diǎn)之和,則刪除中心點(diǎn)并再次分割質(zhì)心。經(jīng)過多次循環(huán),得到最終的分類結(jié)果[22]。
通過模糊推理算法對(duì)數(shù)據(jù)融合分類算法的結(jié)果進(jìn)行數(shù)據(jù)融合,根據(jù)結(jié)果決定是否調(diào)整權(quán)值,并將調(diào)整后的權(quán)值隱含在其權(quán)值矩陣中,使數(shù)據(jù)融合更加適宜。關(guān)于具體步驟如下[23]:
(1)對(duì)輸入量進(jìn)行量化,假設(shè)模糊推理結(jié)果為F,數(shù)據(jù)融合分類算法結(jié)果為U1,卡爾曼濾波算法結(jié)果為U2。
(2)從專家級(jí)研究經(jīng)驗(yàn)進(jìn)行推理分析,得出模糊推理結(jié)果F的定義式為:
(8)
其中:i是某個(gè)網(wǎng)絡(luò)安全檢測(cè)數(shù)據(jù)樣本,M是總網(wǎng)絡(luò)安全檢測(cè)數(shù)據(jù)樣本集合,當(dāng)Fi趨近于0時(shí),說明網(wǎng)絡(luò)安全檢測(cè)數(shù)據(jù)損失值小,表明融合性好;當(dāng)Fi趨近于1時(shí),說明網(wǎng)絡(luò)安全檢測(cè)數(shù)據(jù)損失值大,表明融合性差。
為了驗(yàn)證本研究設(shè)計(jì)的數(shù)據(jù)融合模型的適用性與可靠性,下面進(jìn)行實(shí)驗(yàn)。
關(guān)于實(shí)驗(yàn)硬件環(huán)境為Pentium(R)CPU、8核16G內(nèi)存,電腦的硬盤容量為512G的硬件環(huán)境,軟件的操作系統(tǒng)Windows10,JDK5.0,通過MATLAB軟件系統(tǒng)進(jìn)行仿真。
本研究以某企業(yè)近五年來受到網(wǎng)絡(luò)安全威脅情報(bào)作為數(shù)據(jù)樣本對(duì)象,對(duì)每條告警日志進(jìn)行處理與分析,重點(diǎn)關(guān)注源IP地址、目的IP地址、動(dòng)作等字段,分析清楚每個(gè)字段的含義,之后提取威脅IP地址進(jìn)行進(jìn)一步的評(píng)估。關(guān)于網(wǎng)絡(luò)安全檢測(cè)數(shù)據(jù)樣本某個(gè)告警日志重要字段說明如表1所示。
通過輸入威脅IP地址輸出此威脅的評(píng)估值,由上級(jí)管理決定是否采取相應(yīng)措施,從而消除網(wǎng)絡(luò)安全威脅。
為了驗(yàn)證本研究所設(shè)計(jì)的數(shù)據(jù)融合模型的優(yōu)勢(shì),本研究以卷積神經(jīng)網(wǎng)絡(luò)(CNN)方法和交叉映射(CM)方法作為對(duì)比,采用不同方法計(jì)算0~2TB網(wǎng)絡(luò)安全檢測(cè)數(shù)據(jù)量范圍內(nèi)融合損失值。在以下實(shí)驗(yàn)中,本研究所采用的卡爾曼濾波算法參數(shù)Q=10-6,R=10-1。通過MATLAB軟件系統(tǒng)進(jìn)行仿真對(duì)比,對(duì)比結(jié)果圖如圖3所示。
如圖3所示,本研究所采用的數(shù)據(jù)融合模型方法比CNN算法和CM算法的損失值更低,網(wǎng)絡(luò)安全檢測(cè)數(shù)據(jù)融合性更好。因此得出結(jié)論,本研究的數(shù)據(jù)融合模型更加適用。
圖3 損失值對(duì)比結(jié)果圖
為了進(jìn)一步驗(yàn)證本研究的數(shù)據(jù)融合模型高精度和低能耗的優(yōu)點(diǎn),采用不同方法計(jì)算0~2 TB網(wǎng)絡(luò)安全檢測(cè)數(shù)據(jù)量范圍內(nèi)誤差率和網(wǎng)絡(luò)節(jié)點(diǎn)平均剩余能量,得出結(jié)果進(jìn)行對(duì)比如圖4和表2所示。
圖4 節(jié)點(diǎn)平均剩余能量對(duì)比結(jié)果圖
表2 3種方法誤差對(duì)比結(jié)果
通過對(duì)圖4和表2中的結(jié)果分析,本研究本研究的數(shù)據(jù)融合模型不僅誤差數(shù)值最低,而且由于運(yùn)算過程效率高使得網(wǎng)絡(luò)節(jié)點(diǎn)能耗較低。因此得出結(jié)論,本研究數(shù)據(jù)融合模型可靠性要更高。
結(jié)合新時(shí)代智能化網(wǎng)絡(luò)背景下對(duì)企業(yè)網(wǎng)絡(luò)安全保護(hù)的需求,本研究設(shè)計(jì)出新型的智能化網(wǎng)絡(luò)安全檢測(cè)平臺(tái),在數(shù)據(jù)傳輸?shù)倪^程中利用數(shù)據(jù)融合技術(shù)對(duì)網(wǎng)絡(luò)中的數(shù)據(jù)進(jìn)行融合處理,采用卡爾曼濾波算法提高網(wǎng)絡(luò)安全檢測(cè)數(shù)據(jù)的精準(zhǔn)度。通過分析存在的威脅和漏洞,評(píng)估網(wǎng)絡(luò)威脅帶來的危害程度,最后利用某企業(yè)的告警日志數(shù)據(jù)通過實(shí)驗(yàn)驗(yàn)證了本研究網(wǎng)絡(luò)安全檢測(cè)數(shù)據(jù)融合模型的適用性和可靠性。結(jié)果表明,該改進(jìn)算法產(chǎn)生最優(yōu)估計(jì)值提高了數(shù)據(jù)有效性,處理后的數(shù)據(jù)傳輸降低了網(wǎng)絡(luò)能耗。隨著技術(shù)的不斷發(fā)展,對(duì)于智能化網(wǎng)絡(luò)安全檢測(cè)平臺(tái)采集精準(zhǔn)度和全面性要求會(huì)更高,本研究仍舊存在諸多不足,有待進(jìn)一步的研究。