盧權
摘 要: 針對模糊C均值聚類算法受初始聚類中心影響過大以及易于陷入局部極值的問題,采用具有Levy flight模式且具有很強全局搜索能力的布谷鳥搜索算法,對模糊C均值聚類算法初始聚類中心進行優(yōu)化,并把優(yōu)化后的模糊C均值聚類算法應用于網(wǎng)絡入侵檢測。實驗結(jié)果顯示,經(jīng)過優(yōu)化后的模糊C均值聚類算法具有較好的運行速度和聚類效果,對入侵行為的檢測效果良好。
關鍵詞: 布谷鳥算法; 模糊C均值聚類; 全局尋優(yōu); 入侵檢測
中圖分類號:TP309.5 文獻標志碼:A 文章編號:1006-8228(2015)03-07-02
Abstract: The Fuzzy C-means clustering algorithm is influenced by the initial cluster center and is easy to fall into local extremum. The cuckoo search algorithm (CS), which has a levy flight mode and a strong global search capability, can optimize the initial cluster centers of the fuzzy C-means clustering algorithm. And then the optimized algorithm is applied to network intrusion detection. Experimental results show that the optimized algorithm has better operating speeds and clustering effect and has good effect to intrusion detection.
Key words: cuckoo search algorithm; fuzzy C-means algorithm; global optimization; intrusion detection
0 引言
隨著計算機網(wǎng)絡的進一步普及,網(wǎng)絡安全成為人們越來越關注問題之一。入侵檢測是保證網(wǎng)絡安全的一個重要舉措,很多學者把數(shù)據(jù)挖掘中的相關技術用于網(wǎng)絡的入侵檢測中。聚類分析是數(shù)據(jù)挖掘技術中的一種,它是一種無監(jiān)督的挖掘方法,具有良好的泛化能力,因而得到了廣泛的應用[1]。在眾多的聚類分析方法中,模糊C均值聚類[2](fuzzy C-means,F(xiàn)CM)方法應用最為廣泛。但采用梯度下降作為解決問題指導思想的FCM算法還存在著對聚類中心初始值敏感、受樣本噪聲影響大且易于陷入局部極值的問題[3],因而,總體上來說對網(wǎng)絡入侵的檢測準確率偏低,檢測效果不理想。
布谷鳥(cuckoo search,CS)算法[4]是一種仿生類算法,它通過模仿布谷鳥的繁殖策略來實現(xiàn)尋找問題解的過程。CS算法采用隨機性很強的Levy flight模式,因而該算法具有很強的全局搜索能力。CS算法還具有結(jié)構簡單,輸入的參數(shù)少,易于實現(xiàn)等特點。本文把CS算法引入到FCM算法的優(yōu)化中,提出了一種基于CS算法優(yōu)化的FCM混合算法(CS-FCM),并把該算法用于網(wǎng)絡的入侵行為檢測中,以期獲得更好的效果。
2.1 實驗數(shù)據(jù)的選取
我們采用KDD CUP1999數(shù)據(jù)集對算法進行驗證。KDD CUP1999數(shù)據(jù)集包含了大量不同網(wǎng)絡環(huán)境下的網(wǎng)絡入侵數(shù)據(jù),大約有500萬個不同的數(shù)據(jù)記錄,這些記錄囊括了22種不同的攻擊類型。按不同的攻擊手段對這些入侵數(shù)據(jù)進行劃分,可以簡單分為:DoS、R2L、U2R以及Probing等四種不同類型[5]。
為了能反映真實的網(wǎng)絡環(huán)境,我們從KDD CUP1999數(shù)據(jù)集中,根據(jù)4種不同的攻擊類型,分別隨機抽取5000條共2萬筆記錄用于實驗。在抽取的2萬條記錄中,包含了1.6萬條正常連接的記錄,4000條異常連接的記錄。每一筆記錄都包含有41個屬性,這些屬性的數(shù)據(jù)類型主要有兩類:文本型和數(shù)值型。在所有數(shù)值型屬性中,它們之間的值差異過大,為了能在同一單位下進行衡量,必須對它們進行歸一化處理。
這兩種算法所耗費的時間都差不多。當記錄數(shù)達到一定數(shù)量的時候,CS優(yōu)化的效果就顯現(xiàn)出來了,大概在2000筆數(shù)據(jù)附近,CS-FCM算法所耗費的時間就開始明顯比沒有經(jīng)過優(yōu)化的FCM算法要少,檢測的記錄數(shù)越多,CS-FCM算法的效率就越好。
3 總結(jié)
本文將布谷鳥算法和FCM算法相結(jié)合,通過布谷鳥算法對FCM的聚類中心進行優(yōu)化,提高了FCM算法的運算速度和收斂速度。仿真實驗表明,經(jīng)過布谷鳥算法優(yōu)化的FCM算法應用于入侵檢測中,能有效解決聚類中心的初始值對FCM算法影響過大的問題,聚類效果良好。
參考文獻:
[1] 賈志偉,關忠仁,趙建芳.一種基于半監(jiān)督學習的入侵檢測算法[J].成
都信息工程學院學報,2012.27(6):560-563
[2] 羅軍生,李永忠,杜曉.基于模糊C-均值聚類算法的入侵檢測[J].計算
機技術與發(fā)展,2008.18(1):178-180
[3] 姚明海,金喜子,趙連朋等.基于模糊聚類的偵察數(shù)據(jù)分析方法[J].計
算機工程與設計,2009.30(2):404-407
[4] 鄭巧燕,莫愿斌,劉付永等.一種小規(guī)模多種群布谷鳥算法[J].計算機
應用與軟件,2014.31(10):278-280
[5] 李麗娟,唐文紀.基于人工免疫網(wǎng)絡和模糊C-均值聚類的入侵檢測
方法[J].計算機應用與軟件,2011.28(3):282-284
[6] 楊德剛.基于模糊C均值聚類的網(wǎng)絡入侵檢測算法[J].計算機科學,
2005.32(1):86-87