張春琴,謝立春
?
云環(huán)境中改進FCM和規(guī)則參數(shù)優(yōu)化的網(wǎng)絡(luò)入侵檢測方法
張春琴1,2,謝立春1
(1. 浙江工業(yè)職業(yè)技術(shù)學院,浙江 紹興 312000;2. 浙江工業(yè)大學,浙江 杭州 310014)
針對云環(huán)境中的網(wǎng)絡(luò)入侵檢測問題,提出一種基于模糊推理的網(wǎng)絡(luò)入侵檢測方法。首先,利用互信息特征選擇對樣本特征進行降維。然后,利用提出的改進模糊均值聚類(IFCM)方法對訓(xùn)練樣本集進行聚類,根據(jù)各樣本特征與集群的對應(yīng)關(guān)系獲得初始模糊規(guī)則庫。接著,對每個規(guī)則的前件參數(shù)和后件參數(shù)進行調(diào)優(yōu),以此獲得準確的規(guī)則庫。最后,基于規(guī)則庫對輸入連接數(shù)據(jù)進行模糊推理,對其進行分類以實現(xiàn)入侵檢測。在云入侵檢測數(shù)據(jù)集上的實驗結(jié)果表明,該方法能夠準確檢測出網(wǎng)絡(luò)入侵,具有可行性和有效性。
云環(huán)境;網(wǎng)絡(luò)入侵檢測;互信息特征選擇;改進模糊均值聚類;模糊規(guī)則庫優(yōu)化
在云計算環(huán)境中,用戶通過遠程連接來訪問所需的計算、存儲、應(yīng)用等資源,且數(shù)據(jù)通常存放在共享環(huán)境中。在實際情況中可能會存在一些惡意用戶對數(shù)據(jù)進行竊取或篡改。為了提高云環(huán)境中的數(shù)據(jù)安全性,有必要對云平臺中的網(wǎng)絡(luò)用戶訪問數(shù)據(jù)流進行實時主動的監(jiān)控和防御[1]。目前,網(wǎng)絡(luò)入侵檢測系統(tǒng)(intrusion detection system,IDS)主要可分為兩類[2]:基于數(shù)據(jù)挖掘的IDS和基于機器學習的IDS。其中,機器學習方法是基于對數(shù)據(jù)的智能學習來構(gòu)建分類器,其檢測性能較好,但計算量較大,很難滿足實時檢測的要求[3]?;跀?shù)據(jù)挖掘的IDS是通過對歷史數(shù)據(jù)進行數(shù)據(jù)分析,獲得一定的規(guī)律來檢測入侵。其結(jié)構(gòu)簡單、執(zhí)行速度快,然而其基于一些固定的規(guī)則,適應(yīng)能力較差。為此,學者在數(shù)據(jù)挖掘中融入了模糊推理[4],即通過訓(xùn)練數(shù)據(jù)集挖掘出網(wǎng)絡(luò)連接數(shù)據(jù)特征與類別相對應(yīng)的模糊規(guī)則,以此對輸入連接數(shù)據(jù)進行推理來判別是否為入侵行為。
對于基于模糊推理的入侵檢測方法,其有效性很大程度上依賴于模糊規(guī)則庫。模糊規(guī)則庫的構(gòu)建通常分為基于神經(jīng)網(wǎng)絡(luò)和基于聚類技術(shù)的方法[5]。其中,基于神經(jīng)網(wǎng)絡(luò)的方法結(jié)構(gòu)復(fù)雜,且與網(wǎng)絡(luò)表達的規(guī)則存在沖突。基于聚類的方法是通過對樣本數(shù)據(jù)集進行聚類,獲得的每個集群對應(yīng)一個模糊規(guī)則。均值(-means)聚類算法[6]是常用的聚類算法,然而,其聚類中心數(shù)量和位置的初始值直接影響聚類效果。為此,參考文獻[7]提出了一種改進-means聚類算法,用來獲得模糊規(guī)則,其通過一個半徑函數(shù)來自適應(yīng)選擇聚類中心,一定程度上解決了初始值的問題。參考文獻[8]在初始聚類中融入了模糊理論,提出了一種基于模糊均值(fuzzy-means,F(xiàn)CM)聚類算法的規(guī)則構(gòu)建方法,利用模糊均值聚類對訓(xùn)練樣本進行聚類,根據(jù)各集群來生成模糊規(guī)則。然而,傳統(tǒng)FCM仍然存在初始聚類中心選擇的問題。另外,現(xiàn)有的基于聚類技術(shù)獲得模糊規(guī)則的方法中,通常獲得的模糊規(guī)則較為粗糙,為此需要對其進行細化,以提高規(guī)則的準確性。
基于上述分析,提出一種新型的模糊規(guī)則生成方法,并將其應(yīng)用到云環(huán)境的入侵檢測中。首先,根據(jù)訓(xùn)練樣本聚類構(gòu)建規(guī)則庫。然后,基于獲得的模糊規(guī)則庫,對網(wǎng)絡(luò)連接數(shù)據(jù)進行推理,以判定其類別,實現(xiàn)入侵檢測。提出方法的主要創(chuàng)新點在于:提出一種改進型FCM(improved FCM,IFCM)聚類算法,融于一個聚類中心近似度量因子來解決傳統(tǒng)FCM聚類中的初始聚類中心選擇問題,以此對樣本進行精確聚類,構(gòu)建初始模糊規(guī)則集;為了提高規(guī)則的準確性,提出了一種規(guī)則優(yōu)化方法,即通過調(diào)優(yōu)每個規(guī)則的前件參數(shù)和后件參數(shù)來對其進行優(yōu)化。在一個最新的云入侵檢測數(shù)據(jù)集(cloud intrusion detection dataset,CIDD)中的實驗表明,提出方法的檢測率能夠達到98%以上,具有有效性。
本文提出一種用于云環(huán)境中網(wǎng)絡(luò)入侵的檢測系統(tǒng),可部署在實際云平臺中各物理服務(wù)器上,用來監(jiān)控用戶遠程訪問。檢測系統(tǒng)分為訓(xùn)練和測試階段,其基本框架如圖1所示。
訓(xùn)練階段主要用來獲得模糊規(guī)則。首先,由于原始數(shù)據(jù)集中的特征較多且存在冗余,所以先通過基于互信息的特征選擇方法來降低特征維度。然后,利用提出的模糊聚類方法對訓(xùn)練數(shù)據(jù)進行聚類,用來確定模糊輸入/輸出的關(guān)系,從而獲得模糊規(guī)則。接著,通過一個動態(tài)優(yōu)化學習算法,根據(jù)規(guī)則所涉及的前件和后件參數(shù)來優(yōu)化模糊規(guī)則,構(gòu)建最終的模糊規(guī)則庫。
在測試階段中,根據(jù)收集的網(wǎng)絡(luò)連接數(shù)據(jù)和模糊規(guī)則庫,推理輸入數(shù)據(jù)與各類的相似度來進行分類,以此實現(xiàn)入侵檢測。
網(wǎng)絡(luò)連接數(shù)據(jù)具有大量的特征,冗余特征不僅增加了分類器的計算時間,而且還會降低檢測準確率。為此,在輸入分類器進行檢測之前,需要對其進行特征降維。目前,特征選擇方法主要有歐氏距離法、余弦相似度法、互信息(mutual information,MI)法等[9]。其中,互信息法是衡量兩個隨機變量之間相關(guān)性的一種有效方法。
互信息是兩個隨機變量之間關(guān)系的對稱度量,輸出為一個非負值,其中,零表示兩個變量是統(tǒng)計獨立的[10]。
FCM聚類算法是一種考慮樣本模糊歸屬的軟劃分方法,其根據(jù)每個樣本對所有聚類中心的隸屬度進行自動聚類。
在通過聚類技術(shù)生產(chǎn)的規(guī)則中可能存在冗余,且規(guī)則的準確性不高。為此,本文通過細化所涉及的前件和后件參數(shù)提高規(guī)則的精確度。
這個階段最終構(gòu)建一個緊湊的模糊規(guī)則庫。當云用戶請求訪問云服務(wù)時,該系統(tǒng)會將用戶的連接樣本作為模糊推理的輸入,通過模糊規(guī)則推理出該用戶是否為入侵者。
在Intel酷睿i5處理器、2.5 GHz主頻、8 GB內(nèi)存和Windows 7平臺上,通過MATLAB實現(xiàn)提出的入侵檢測方法。由于條件有限,無法在實際云平臺上進行實驗。為此文本選擇了一個云入侵檢測數(shù)據(jù)集[15]進行仿真實驗,其由用戶遠程訪問云平臺時可能存在的攻擊數(shù)據(jù)和正常訪問 數(shù)據(jù)組成。
表1 特征降維后的特征集
CIDD數(shù)據(jù)集中共包含四大類攻擊,即拒絕服務(wù)(denial of service,DoS)攻擊、探測(probe)攻擊、遠程到本地(remote to login,R2L)攻擊和非授權(quán)訪問(user to root,U2R)攻擊。每個連接記錄具有41個特征,用于描述總共24種子攻擊類型。原始數(shù)據(jù)集大小為744 MB,擁有4 940 000條記錄。
隨機選擇了20 000條記錄作為實驗數(shù)據(jù)集,其中,12 000條為正常數(shù)據(jù),8 000條為入侵數(shù)據(jù),入侵數(shù)據(jù)包含了24種子攻擊類型,且每種攻擊的數(shù)據(jù)記錄不少于100條。將其中的60%數(shù)據(jù)作為訓(xùn)練集,剩下的40%數(shù)據(jù)作為測試集?;谟?xùn)練集獲得模糊規(guī)則,并存儲在模糊規(guī)則庫中。在測試階段,對于從用戶發(fā)送到云的服務(wù)請求數(shù)據(jù),基于模糊規(guī)則庫的推理決定是否允許該請求。
若使用網(wǎng)絡(luò)連接數(shù)據(jù)中的所有41個特征構(gòu)建IDS模型,會大大增加計算量。此外,數(shù)據(jù)集中包含不相關(guān)的特征,則會影響入侵檢測的準確性。因此,需要通過特征選擇算法降低特征維度。本文使用MIFS算法將原始特征數(shù)量減少到12個,見表1。
另外,數(shù)據(jù)集中的特征具有不同的數(shù)據(jù)形式,因此需要對特征進行預(yù)處理,將其規(guī)范化到[0,1]。
首先,在整個訓(xùn)練集和測試集上對提出的方法進行驗證性實驗,入侵分類的混淆矩陣見表2和表3(其中normal指正常類),其中所列結(jié)果為3次實驗的平均值??梢钥闯觯岢龅姆椒ㄔ谟?xùn)練集上的平均檢測率達到了98.93%,在測試集上達到了98.48%。其中,平均檢測率為5種攻擊類別正確分類率的平均值。由于檢測模型是根據(jù)訓(xùn)練集訓(xùn)練獲得,所以在訓(xùn)練集上的檢測率略微較高。實驗結(jié)果證明了提出方法的有效性。
表2 訓(xùn)練集上分類的混淆矩陣
此外,為了驗證提出方法在不同樣本數(shù)量下的檢測性能。選擇數(shù)量為5 000~20 000的樣本集,其中各樣本集里都包含與完整樣本集中同比例的各種攻擊樣本,同樣將其中60%作為訓(xùn)練集,其他40%作為測試集。平均檢測率見表4。可以看出,在樣本數(shù)量較小時,檢測率較低,隨著樣本數(shù)量的增加,檢測率有所提高并趨于穩(wěn)定。
表3 測試集上分類的混淆矩陣
表4 不同大小樣本集下的平均檢測率
為了進一步證明提出方法的優(yōu)越性,將其與現(xiàn)有基于聚類技術(shù)構(gòu)建模糊規(guī)則集的入侵檢測方法進行比較。分別為基于傳統(tǒng)均值聚類、參考文獻[7]提出的改進均值聚類和參考文獻[8]提出的模糊均值聚類的入侵檢測方法。為了公平比較,在訓(xùn)練和測試過程中,都采用MIFS進行特征選擇。在樣本集數(shù)量為5 000~20 000的條件下,各種方法在訓(xùn)練集和測試集上的檢測率如圖2和圖3所示。
圖2 各種方法在訓(xùn)練集上的檢測率比較
圖3 各種方法在測試集上的檢測率比較
可以看出,在不同樣本數(shù)量下,提出方法都獲得了最高的檢測率。這是因為,傳統(tǒng)均值聚類算法對初始聚類中心敏感,致使其聚類效果不好,從而在此基礎(chǔ)上獲得的模糊規(guī)則準確性也較差。參考文獻[7]提出的改進型均值聚類算法在一定程度上解決了初始值問題,所以其性能比傳統(tǒng)均值聚類優(yōu)越。然而,均值聚類是一種硬性聚類方法,由于在實際應(yīng)用中,某些對象不是絕對的只屬于某一集群,還可能屬于其他集群,某個對象與某個集群的關(guān)系是模糊的。所以基于均值聚類的方法沒有參考文獻[8]采用的模糊均值聚類的性能好。本文方法同樣采用了模糊均值聚類,但融入了聚類中心相似度量因子,解決了其初始聚類中心選擇問題,所以能夠提高其聚類性能。另外,本文方法還對通過聚類獲得的模糊規(guī)則集進行了優(yōu)化,構(gòu)建了一個更為準確的規(guī)則集,所以獲得了最佳的入侵檢測性能。
本文提出一種基于IFCM和模糊推理的網(wǎng)絡(luò)入侵檢測方法。利用提出的IFCM聚類方法對訓(xùn)練樣本集進行聚類,獲得初始模糊規(guī)則庫。通過對每個規(guī)則的前件參數(shù)和后件參數(shù)進行調(diào)優(yōu)以此優(yōu)化規(guī)則庫?;谝?guī)則庫對輸入連接數(shù)據(jù)進行入侵檢測。在云入侵檢測數(shù)據(jù)集上,將提出的方法與現(xiàn)有的幾種聚類方法進行了比較,結(jié)果表明,提出方法在檢測率方面具有優(yōu)越性。
[1] 羅亮, 吳文峻, 張飛. 面向云計算數(shù)據(jù)中心的能耗建模方法[J].軟件學報, 2014, 25(7): 1371-1387.
LUO L, WU W J, ZHANG F. Energy modeling based on cloud data center[J]. Journal of Software, 2014, 25(7): 1371-1387.
[2] FOSSACECA J M, MAZZUCHI T A, SARKANI S. MARK-ELM: application of a novel multiple kernel learning framework for improving the robustness of network intrusion detection[J]. Expert Systems with Applications, 2015, 42(8): 4062-4080.
[3] 石云, 陳鐘, 孫兵. 基于均值聚類分析和多層核心集凝聚算法相融合的網(wǎng)絡(luò)入侵檢測[J]. 計算機應(yīng)用研究, 2016, 32(2): 518-520.
SHI Y, CHEN Z, SUN B. Networks intrusion detection based on integrating k-mean clustering analysis and multilayer core-set agglomerative algorithm[J]. Computer Applications and Software, 2016, 32(2): 518-520.
[4] 陸婷婷, 韓旭. 面向MANET報文丟棄攻擊的模糊入侵檢測系統(tǒng)[J]. 電信科學, 2016, 32(10): 124-129.
LU T T, HAN X. Fuzzy intrusion detection system for MANET packet dropping attack[J]. Telecommunications Science, 2016, 32(10): 124-129.
[5] SHAMSHIRBAND S, AMINI A, ANUAR N B, et al. D-FICCA: a density-based fuzzy imperialist competitive clustering algorithm for intrusion detection in wireless sensor networks[J]. Measurement, 2014, 55(9): 212-226.
[6] 李洪成, 吳曉平, 陳燕. MapReduce框架下支持差分隱私保護的-means聚類方法[J]. 通信學報, 2016, 37(2): 124-130.
LI H C, WU X P, CHEN Y.-means clustering method preserving differential privacy in MapReduce framework[J]. Journal on Communications, 2016, 37(2): 124-130.
[7] TIAN L, JIANWEN W. Research on network intrusion detection system based on improved-means clustering algorithm[C]//International Forum on Computer Science-Technology and Applications, Dec 25-27, 2009, Chongqing, China. Piscataway: IEEE Press, 2009: 76-79.
[8] XIE L, WANG Y, CHEN L, et al. An anomaly detection method based on fuzzy-means clustering algorithm[J]. Proceedings of the International Symposium on Networking & Netwo, 2014, 24(5): 56-63.
[9] 魏莎莎, 陸慧娟, 金偉, 等. 基于云平臺的互信息最大化特征提取方法研究[J]. 電信科學, 2013, 29(10): 38-42.
WEI S S, LU H J, JIN W, et al. Maximum mutual information feature extraction method based on the cloud platform[J]. Tele
communications Science, 2013, 29(10): 38-42.
[10] 徐峻嶺, 周毓明, 陳林, 等. 基于互信息的無監(jiān)督特征選擇[J].計算機研究與發(fā)展, 2012, 49(2): 372-382.
XU J L, ZHOU Y M, CHEN L, et al. An unsupervised feature selection approach based on mutual information[J]. Journal of Computer Research and Development, 2012, 49(2): 372-382.
[11] AMIRI F, REZAEI YOUSEFI M, LUCAS C, et al. Mutual information-based feature selection for intrusion detection systems[J]. Journal of Network & Computer Applications, 2011, 34(4): 1184-1199.
[12] SONG J, ZHU Z, SCULLY P, et al. Selecting features for anomaly intrusion detection: a novel method using fuzzy C means and decision tree classification[J]. Cyberspace Safety and Security, 2013, 8(3): 299-307.
[13] 琚春華, 鮑福光, 戴俊彥. 一種融入公眾情感投入分析的微博話題發(fā)現(xiàn)與細分方法[J]. 電信科學, 2016, 32(7): 97-105.
JU C H, BAO F G, DAI J Y. Discovery and segmentation method in micro-blog topics based on public emotional engagement analysis[J]. Telecommunications Science, 2016, 32(7): 97-105.
[14] LIU X, QIN Y, WU L. Fast and direct Karnik-Mendel algorithm computation for the centroid of an interval type-2 fuzzy set[C]//IEEE International Conference on Fuzzy Systems, June 10-15, 2012, Brisbane, QLD, Australia. Piscataway: IEEE Press, 2012: 1-8.
[15] KHOLIDY H A, BAIARDI F. CIDD: a cloud intrusion detection dataset for cloud computing and masquerade attacks[C]//Ninth International Conference on Information Technology-New Generations, April l16-18, 2012, Las Vegas, NV, USA. Piscataway: IEEE Press, 2012: 397-402.
Network intrusion detection method based on improved FCM and rule parameter optimization in cloud environment
ZANG Chunqin1,2, XIE Lichun1
1. Zhejiang Industry Polytechnic College, Shaoxing 312000, China 2. Zhejiang University of Technology, Hangzhou 310014, China
Aiming at the network intrusion detection problem in cloud environment, a method of network intrusion detection based on fuzzy inference was proposed. Firstly, it used the mutual information feature selection to reduce the feature of the sample. Then, the improved fuzzy-means clustering method was used to cluster the training sample set, and the initial fuzzy rule base was got by the correspondence between each sample feature and cluster. After that, the refine parameter and consequent parameters of each rule were tuned to obtain an exact rule base. Finally, fuzzy inference was carried out on the input connection data based on the rule base, and it was classified to realize intrusion detection. Experimental results on the cloud intrusion detection dataset show that this method can detect the network intrusion accurately, and it is feasible and effective.
cloud environment, network intrusion detection, mutual information feature selection, improved fuzzy-means clustering, fuzzy rule base optimization
TP393
A
10.11959/j.issn.1000?0801.2018005
2017?06?22;
2017?09?25
國家自然科學基金青年科學基金資助項目(No.61603211)
The Young Science Foundation of National Natural Science Foundation of China (No.61603211)
張春琴(1977?),女,浙江工業(yè)職業(yè)技術(shù)學院副教授,浙江工業(yè)大學訪問學者,主要從事網(wǎng)絡(luò)安全、云計算方面的研究工作。
謝立春(1974?),男,浙江工業(yè)職業(yè)技術(shù)學院副教授,入選浙江省“151人才工程”,主要從事網(wǎng)絡(luò)安全方面的研究工作。