摘要:為了解決網(wǎng)絡(luò)異常數(shù)據(jù)挖掘過程中漏報(bào)率、誤報(bào)率較高的問題,文章提出一種基于改進(jìn)K-means聚類算法的網(wǎng)絡(luò)異常數(shù)據(jù)挖掘與分類方法。文章通過構(gòu)建并行化頻繁項(xiàng)集挖掘環(huán)境加速數(shù)據(jù)處理,利用局部離群點(diǎn)檢測(cè)剔除異常值,同時(shí)引入K-means聚類對(duì)數(shù)據(jù)的最大最小距離展開計(jì)算,融合隸屬度函數(shù)與密度峰值優(yōu)化算法,改進(jìn)聚類初始中心選擇及簇邊界調(diào)整,從而提高異常識(shí)別準(zhǔn)確性和分類效率。通過實(shí)驗(yàn)結(jié)果證明,該方法能夠明顯改善聚類效果與性能。
關(guān)鍵詞:K-means聚類算法;網(wǎng)絡(luò)異常;數(shù)據(jù)挖掘;數(shù)據(jù)分類;離群點(diǎn)檢測(cè)
中圖分類號(hào):TP309 文獻(xiàn)標(biāo)志碼:A
0 引言
在當(dāng)前互聯(lián)網(wǎng)環(huán)境下,數(shù)據(jù)量的急劇增長(zhǎng)使得網(wǎng)絡(luò)異常數(shù)據(jù)的識(shí)別與分析成為維護(hù)網(wǎng)絡(luò)安全性和保障系統(tǒng)穩(wěn)定性的關(guān)鍵。這些異常數(shù)據(jù)通常來源于網(wǎng)絡(luò)攻擊、系統(tǒng)故障、用戶誤操作等,它們對(duì)于網(wǎng)絡(luò)安全、系統(tǒng)穩(wěn)定性和用戶體驗(yàn)都具有重要影響。異常數(shù)據(jù)的存在會(huì)對(duì)用戶體驗(yàn)構(gòu)成嚴(yán)重威脅。在此之前,已有諸多學(xué)者針對(duì)網(wǎng)絡(luò)異常數(shù)據(jù)挖掘展開了研究,其中,周一帆[1]提出了基于關(guān)聯(lián)規(guī)則改進(jìn)的方法,該方法主要依賴專家經(jīng)驗(yàn)和先驗(yàn)知識(shí),但在復(fù)雜多變的網(wǎng)絡(luò)環(huán)境下,其規(guī)則往往難以全面覆蓋,一定程度上降低了判斷的準(zhǔn)確性;段磊等[2]提出了基于抗差估計(jì)與改進(jìn)間隙統(tǒng)計(jì)算法(Gap Statistic Algorithm,GSA)的配網(wǎng)異常數(shù)據(jù)聚類檢測(cè)方法,該方法通過對(duì)歷史數(shù)據(jù)的分析,建立數(shù)據(jù)統(tǒng)計(jì)模型,但其面對(duì)非線性和高維數(shù)據(jù)時(shí)的效果仍有待提升。針對(duì)以上問題,本文基于改進(jìn)K-means聚類算法提出一種網(wǎng)絡(luò)異常數(shù)據(jù)挖掘與分類方法,旨在更有效地識(shí)別和分析網(wǎng)絡(luò)異常數(shù)據(jù),以應(yīng)對(duì)當(dāng)前網(wǎng)絡(luò)安全領(lǐng)域面臨的挑戰(zhàn)。
1 并行化頻繁項(xiàng)集挖掘環(huán)境設(shè)計(jì)
本研究針對(duì)復(fù)雜網(wǎng)絡(luò)中的異常數(shù)據(jù),需要對(duì)其進(jìn)行多次掃描,降低計(jì)算負(fù)荷,采用Spark計(jì)算架構(gòu)進(jìn)行優(yōu)化挖掘。
首先,筆者在變數(shù)儲(chǔ)存區(qū)構(gòu)建頻繁項(xiàng)目集,通過掃描數(shù)據(jù)集合生成頻繁單項(xiàng)集[3],采用廣播變量策略,將頻繁項(xiàng)集緩存至各節(jié)點(diǎn)內(nèi)存,從而減少網(wǎng)絡(luò)傳輸開銷。
其次,輸出頻繁項(xiàng)集k+1。在循環(huán)迭代的過程中,為了高效地計(jì)算節(jié)點(diǎn)k+1的項(xiàng)集及其編碼,實(shí)驗(yàn)采用并行化策略,以加速計(jì)算過程[4]。完成剪枝操作后,根據(jù)預(yù)設(shè)支持度閾值進(jìn)行篩選,獲取符合要求的頻繁k+1項(xiàng)集。
最后,實(shí)驗(yàn)為了保持廣播變量中頻繁項(xiàng)集的最新狀態(tài),將頻繁k+1項(xiàng)集更新到廣播變量中,以替換原有的頻繁k項(xiàng)集。某個(gè)項(xiàng)集在所有數(shù)據(jù)記錄中出現(xiàn)的頻率可以通過下述公式計(jì)算得出:
其中,Support(X)表示支持度,即項(xiàng)集X在所有數(shù)據(jù)記錄中出現(xiàn)的頻率;count(X)表示項(xiàng)集X在數(shù)據(jù)集D中出現(xiàn)的次數(shù);|D|表示數(shù)據(jù)集D的大小。
關(guān)于迭代的終止條件,設(shè)定一個(gè)明確的準(zhǔn)則:在迭代期間,不能再生成深度頻繁項(xiàng)目集,滿足支撐條件,迭代將終止。這意味著算法將不再繼續(xù)生成更高階的頻繁項(xiàng)集,從而節(jié)省計(jì)算資源和時(shí)間[5]。通過這一策略,能夠有效地控制迭代過程,確保算法在最短的時(shí)間內(nèi)找到所有滿足條件的頻繁項(xiàng)集。
通過上述論述,在處理優(yōu)化頻繁項(xiàng)集的過程中,采用了一種高效的編碼策略,這種策略顯著降低了計(jì)算機(jī)存儲(chǔ)空間的占用[6]。通過利用Spark計(jì)算框架的并行處理能力,對(duì)頻繁項(xiàng)集的計(jì)算進(jìn)行了有效的并行化,這不僅加快了關(guān)聯(lián)規(guī)則挖掘的速度,還提高了整體計(jì)算的效率。通過優(yōu)化算法流程和數(shù)據(jù)結(jié)構(gòu),顯著降低了挖掘強(qiáng)關(guān)聯(lián)規(guī)則所需的內(nèi)存開銷和時(shí)間復(fù)雜度[7]。這些改進(jìn)為后續(xù)的K-means算法在網(wǎng)絡(luò)異常數(shù)據(jù)聚類中的應(yīng)用提供了強(qiáng)有力的支持,使其在處理大規(guī)模數(shù)據(jù)集時(shí)更加高效和準(zhǔn)確。
2 網(wǎng)絡(luò)數(shù)據(jù)局部離群點(diǎn)檢測(cè)
網(wǎng)絡(luò)數(shù)據(jù)樣本中那些與其他數(shù)據(jù)顯著不同的點(diǎn)就是離群點(diǎn),需要預(yù)先識(shí)別并剔除。這是為了避免將這些離群點(diǎn)錯(cuò)誤地選作初始聚類中心,從而影響聚類的準(zhǔn)確性和效率。該實(shí)驗(yàn)基于可變網(wǎng)格策略對(duì)網(wǎng)絡(luò)數(shù)據(jù)的局部離群點(diǎn)展開檢測(cè)。
實(shí)驗(yàn)過程中通過計(jì)算每個(gè)網(wǎng)格單元中高頻數(shù)據(jù)點(diǎn)數(shù)量,定義數(shù)據(jù)點(diǎn)數(shù)量為Ne,其中e的取值范圍是從1到l的整數(shù)。接著,算法會(huì)比較每個(gè)網(wǎng)格單元的數(shù)據(jù)點(diǎn)數(shù)量與預(yù)設(shè)的密度閾值。如果一個(gè)網(wǎng)格單元的數(shù)據(jù)點(diǎn)數(shù)量超過了密度閾值,那么該網(wǎng)格中的數(shù)據(jù)點(diǎn)就被認(rèn)為是異常的或離群的。這個(gè)過程會(huì)持續(xù)進(jìn)行,直到所有的高頻數(shù)據(jù)都被計(jì)算了離群因子,所有異常數(shù)據(jù)的結(jié)果都被記錄下來。離群因子的計(jì)算公式可表示為:
其中,LOF(xi)表示離群因子;k表示鄰域集;Nk(xi)表示樣本局部可達(dá)密度均值;xfi表示近鄰樣本;lrdk(xi)表示局部可達(dá)密度。計(jì)算結(jié)果剔除異常數(shù)據(jù)點(diǎn)后還需繼續(xù)迭代運(yùn)行,以進(jìn)一步檢測(cè)并識(shí)別潛在的其他異常數(shù)據(jù)點(diǎn)[8]。
3 基于K-means聚類算法的數(shù)據(jù)最大最小距離計(jì)算
為了將數(shù)據(jù)樣本點(diǎn)劃分為不同的聚類,文章引入基于歐氏距離的最近鄰原則,對(duì)數(shù)據(jù)最大最小距離進(jìn)行計(jì)算。執(zhí)行步驟如下:
從全部的數(shù)據(jù)樣本點(diǎn)中選取一個(gè)點(diǎn),作為第一個(gè)聚類中心的初始點(diǎn),計(jì)算該聚類中心與數(shù)據(jù)集中所有其他數(shù)據(jù)點(diǎn)之間的歐氏距離,計(jì)算方法如式(3)所示:
其中,d(xa,xb)表示空間中2個(gè)樣本的歐氏距離;xa表示樣本a;xb表示樣本b;dak表示樣本a到樣本k的距離;dbk表示樣本b到樣本k的距離;m表示空間維度。選擇一個(gè)數(shù)據(jù)樣本點(diǎn)xi作為初始的聚類中心,按照公式(3)計(jì)算所有剩余樣本點(diǎn)與xi的歐氏距離,記錄距離值。
4 基于改進(jìn)K-means聚類算法的網(wǎng)絡(luò)異常數(shù)據(jù)挖掘與分類
在完成數(shù)據(jù)最大最小距離計(jì)算后,筆者對(duì)網(wǎng)絡(luò)異常數(shù)據(jù)展開挖掘與分類。為此,文章提出基于網(wǎng)格的離群點(diǎn)檢測(cè)方法,通過比對(duì)數(shù)據(jù)點(diǎn)與所在網(wǎng)格特征來識(shí)別和剔除離群點(diǎn)。再利用極大極小準(zhǔn)則確定K-means聚類的初始中心和簇?cái)?shù)K,確保聚類的合理性[9]。實(shí)驗(yàn)執(zhí)行K-means算法對(duì)網(wǎng)絡(luò)異常數(shù)據(jù)進(jìn)行分類,通過迭代將數(shù)據(jù)劃分為K個(gè)簇,每簇代表一種異常類型。最終獲得網(wǎng)絡(luò)異常數(shù)據(jù)的分類結(jié)果,為后續(xù)的異常處理和分析提供了基礎(chǔ)。在挖掘和分類的過程中,通過求解網(wǎng)絡(luò)用戶數(shù)據(jù)到中心點(diǎn)的距離,實(shí)現(xiàn)對(duì)用戶數(shù)據(jù)的分類。其依據(jù)為:
其中,h1,2表示2個(gè)網(wǎng)絡(luò)數(shù)據(jù)之間的距離;c表示特征值。基于所得數(shù)據(jù)點(diǎn)與核心參照點(diǎn)間的距離,評(píng)估網(wǎng)絡(luò)數(shù)據(jù)集異常狀態(tài),大距離指示數(shù)據(jù)點(diǎn)偏離正常行為模式,異常程度高;小距離則表明數(shù)據(jù)點(diǎn)接近正常行為,異常程度低。此評(píng)估方法通過量化距離,客觀判定網(wǎng)絡(luò)行為的異常性,能夠?yàn)榫W(wǎng)絡(luò)監(jiān)控與異常檢測(cè)提供精準(zhǔn)依據(jù)。
由于在實(shí)際的分類過程中,多個(gè)相似的數(shù)據(jù)點(diǎn)難以嚴(yán)格地被劃分到同一個(gè)類別中,卻有可能以不同的隸屬度被劃分到其他類別,這就會(huì)造成分類結(jié)果準(zhǔn)確度的降低。為了解決這一問題,筆者對(duì)文章所應(yīng)用的K-means算法進(jìn)行改進(jìn),引入隸屬度函數(shù)概念,以優(yōu)化聚類結(jié)果,提升異常數(shù)據(jù)識(shí)別的準(zhǔn)確性。定義一個(gè)隸屬度函數(shù)來衡量數(shù)據(jù)點(diǎn)對(duì)于不同簇的歸屬程度,該函數(shù)能夠確保數(shù)據(jù)點(diǎn)以不同的隸屬度被分配到不同的簇中,從而提高分類的靈活性。對(duì)于數(shù)據(jù)點(diǎn)xi和簇中心cj,定義其隸屬度uij為:
其中,d(xi,cj)表示數(shù)據(jù)點(diǎn)xi與簇中心cj之間的距離;m表示一個(gè)大于1的模糊系數(shù),經(jīng)過一系列處理步驟,最終得到一個(gè)主導(dǎo)聚類以及多個(gè)相對(duì)分散的聚類。將主導(dǎo)聚類視為核心參照點(diǎn),接下來,計(jì)算數(shù)據(jù)集中各個(gè)數(shù)據(jù)點(diǎn)與這個(gè)核心參照點(diǎn)之間的距離?;谶@些距離值,能夠評(píng)估當(dāng)前網(wǎng)絡(luò)用于控制隸屬度的模糊程度。
實(shí)驗(yàn)僅靠隸屬度函數(shù)仍難以完全解決邊界點(diǎn)分配的問題,因此進(jìn)一步引入密度峰值概念。密度峰值高的點(diǎn)更有可能成為簇的中心,而密度低的點(diǎn)則更可能是噪聲或邊界點(diǎn)。定義數(shù)據(jù)點(diǎn)xi的局部密度ρi為:
其中,φ(x)表示示性函數(shù),當(dāng)x<0時(shí),φ(x)=1,否則φ(x)=0;dij表示數(shù)據(jù)點(diǎn)xi和xj之間的距離;dc表示一個(gè)截?cái)嗑嚯x,用于確定鄰域的大小。局部密度高的點(diǎn)會(huì)被優(yōu)先選為簇的中心,而局部密度低的點(diǎn)則被標(biāo)記為噪聲或邊界點(diǎn)。
在上述對(duì)于網(wǎng)絡(luò)異常數(shù)據(jù)挖掘與分類過程中,基于局部密度選擇初始簇中心,以改進(jìn)現(xiàn)有的K-means算法。數(shù)據(jù)點(diǎn)迭代過程中,除更新簇中心外,還引入隸屬度概念來優(yōu)化邊界劃分為異常和非異常2個(gè)類別。這一劃分有助于更準(zhǔn)確地識(shí)別出網(wǎng)絡(luò)中的異常行為,采取相應(yīng)的措施進(jìn)行處理。對(duì)于隸屬度與局部密度均低的數(shù)據(jù)點(diǎn),視為噪聲或邊界點(diǎn)并移除;而高隸屬度低局部密度的點(diǎn),則視為新簇中心候選,嘗試重分配。
5 對(duì)比實(shí)驗(yàn)
5.1 實(shí)驗(yàn)準(zhǔn)備
為了驗(yàn)證文章方法在實(shí)際應(yīng)用中的有效性和優(yōu)勢(shì)性,設(shè)置對(duì)比實(shí)驗(yàn),對(duì)比文章方法與文獻(xiàn)[1]和文獻(xiàn)[2]方法的挖掘性能。實(shí)現(xiàn)對(duì)文章方法應(yīng)用有效性和優(yōu)勢(shì)性的驗(yàn)證。在實(shí)驗(yàn)室中完成此次實(shí)驗(yàn),實(shí)驗(yàn)室中有6臺(tái)計(jì)算機(jī)通過交換機(jī)連接,其CPU為Pentium 4 1.8 GHz、總線為DDR SDRAM、時(shí)鐘頻率為133 MHz、帶寬為2133、網(wǎng)絡(luò)適配器為Realtek 8139—series PCI NIC。本次實(shí)驗(yàn)所采用的實(shí)驗(yàn)數(shù)據(jù)包括2類來源,一類為實(shí)驗(yàn)室聯(lián)網(wǎng)計(jì)算機(jī)使用的攻擊工具模擬網(wǎng)絡(luò)攻擊而生成的人為制造異常數(shù)據(jù);另一類為DARPA測(cè)試數(shù)據(jù)集。
5.2 聚類中心選取效果對(duì)比分析
對(duì)文章方法本身聚類中心選取效果進(jìn)行實(shí)驗(yàn)對(duì)比分析,得到實(shí)驗(yàn)結(jié)果如圖1所示。
從圖1可知,通過該研究提出的方法,采用不同實(shí)驗(yàn)確定聚類中心數(shù)量分別為5個(gè)、3個(gè)和2個(gè)。其中,圖1a和圖1b均出現(xiàn)了多個(gè)聚類中心集中排列的現(xiàn)象,說明這2種方法在聚類過程中陷入了局部最優(yōu)。而圖1c得到的聚類效果中聚類中心均勻分布,沒有出現(xiàn)聚集性的聚類中心,可以獲得正確聚類中心,能夠?yàn)楹罄m(xù)異常數(shù)據(jù)挖掘提供保障。
5.3 異常數(shù)據(jù)挖掘性能對(duì)比分析
結(jié)合3種方法的挖掘結(jié)果進(jìn)行對(duì)比。筆者通過對(duì)DARPA測(cè)試數(shù)據(jù)集中5組數(shù)據(jù)的挖掘漏報(bào)B值和誤報(bào)H值進(jìn)行記錄,其中,B值通過漏報(bào)事件數(shù)量與異常事件總數(shù)量之比得出;H值通過誤報(bào)事件數(shù)量與事件總數(shù)量之比得出。得到的實(shí)驗(yàn)結(jié)果如表1所示。
筆者在深入剖析表1中的數(shù)據(jù)時(shí)發(fā)現(xiàn),文章方法的漏報(bào)B值能夠穩(wěn)定地維持在3.00%~4.00%,誤報(bào)H值限制在0.50%~1.50%的狹窄范圍內(nèi),說明在系統(tǒng)或網(wǎng)絡(luò)中存在大量數(shù)據(jù)流動(dòng)的情況下,文章方法能夠精準(zhǔn)區(qū)分正常行為與異常行為,能夠避免因誤報(bào)而導(dǎo)致的資源浪費(fèi)和不必要的干預(yù)。
6 結(jié)語
本文提出的基于K-means聚類算法的網(wǎng)絡(luò)異常數(shù)據(jù)挖掘方法,在理論和實(shí)踐上均取得了一定的成果。本文提出的方法在無須先驗(yàn)知識(shí)的情況下,能夠自動(dòng)確定聚類個(gè)數(shù),有效降低對(duì)初始聚類中心選擇的敏感性,實(shí)現(xiàn)對(duì)噪聲和異常值的有效處理。實(shí)驗(yàn)結(jié)果表明,該方法在網(wǎng)絡(luò)異常數(shù)據(jù)挖掘中具有較高的準(zhǔn)確性和效率,能夠?yàn)榫W(wǎng)絡(luò)安全、系統(tǒng)穩(wěn)定性和用戶體驗(yàn)提供有力支持。
參考文獻(xiàn)
[1]周一帆.基于關(guān)聯(lián)規(guī)則改進(jìn)的網(wǎng)絡(luò)異常數(shù)據(jù)挖掘方法[J].湖南郵電職業(yè)技術(shù)學(xué)院學(xué)報(bào),2024(1):41-44.
[2]段磊,楊超,朱衡,等.基于抗差估計(jì)與改進(jìn)GSA數(shù)據(jù)挖掘的配網(wǎng)異常數(shù)據(jù)聚類檢測(cè)方法[J].電力科學(xué)與工程,2023(12):41-50.
[3]于楚凡,郭大亮,張秋霞,等.基于大數(shù)據(jù)挖掘的發(fā)電系統(tǒng)異常數(shù)據(jù)識(shí)別系統(tǒng)設(shè)計(jì)[J].電子設(shè)計(jì)工程,2022(6):131-135.
[4]劉堯.基于數(shù)據(jù)挖掘的地鐵車輛車門狀態(tài)異常信號(hào)自動(dòng)檢測(cè)研究[J].自動(dòng)化技術(shù)與應(yīng)用,2024(4):78-81,146.
[5]孫立吉,邢偉,郝立波,等.EM分類法在區(qū)域地球化學(xué)數(shù)據(jù)挖掘中的應(yīng)用:以湖南省洞口地區(qū)1∶20萬水系沉積物Pb異常識(shí)別為例[J].科學(xué)技術(shù)與工程,2023(23):9820-9827.
[6]高楊.大環(huán)境數(shù)據(jù)挖掘的網(wǎng)絡(luò)異常數(shù)據(jù)快速采集在環(huán)境保護(hù)管理系統(tǒng)中的應(yīng)用[J].環(huán)境工程,2023(1):348.
[7]趙明明,司紅星,劉潮.基于數(shù)據(jù)挖掘與關(guān)聯(lián)分析的工控設(shè)備異常運(yùn)行狀態(tài)自動(dòng)化檢測(cè)方法分析[J].信息安全與通信保密,2022(4):2-10.
[8]楊婧,石云輝,盧啟芳.基于數(shù)據(jù)挖掘的電量異常數(shù)據(jù)智能識(shí)別方法研究[J].自動(dòng)化儀表,2023(11):64-68.
[9]王宏杰,徐勝超.人工蜂群聯(lián)合入侵雜草優(yōu)化的云平臺(tái)異常行為數(shù)據(jù)挖掘[J].現(xiàn)代電子技術(shù),2023(20):86-90.
Network anomaly data mining and classification method based on improved
K-means clustering algorithm
Abstract: In order to solve the problem of high false positive rate and false positive rate in the process of network abnormal data mining, this paper proposes a method of network abnormal data mining and classification based on improved K-means clustering algorithm. A parallel frequent itemset mining environment is constructed to accelerate data processing,EGeYXR/u8pmPpZLWSgtLzMy0m/H0OQYnVaW7+caZ60o= and local outlier detection is used to eliminate outliers. K-means clustering was introduced to calculate the maximum and minimum distance of the data, and membership function and density peak optimization algorithm were integrated to improve the initial center selection and cluster boundary adjustment of the cluster, so as to improve the accuracy of anomaly recognition and classification efficiency. The experimental results show that the clustering effect and performance of the proposed method are obviously improved.
Key words: K-means clustering algorithm; network anomaly; data mining; data classification; outlier detection