楊軍
摘要: 文章首先簡(jiǎn)要闡述了網(wǎng)絡(luò)流量異常檢測(cè)的重要意義,在此基礎(chǔ)上對(duì)計(jì)算機(jī)網(wǎng)絡(luò)環(huán)境下網(wǎng)絡(luò)流量異常的檢測(cè)算法進(jìn)行論述。期望通過(guò)本文的研究能夠?qū)W(wǎng)絡(luò)運(yùn)行穩(wěn)定性的提升有所幫助。
【關(guān)鍵詞】計(jì)算機(jī)網(wǎng)絡(luò) 網(wǎng)絡(luò)流量 異常檢測(cè)算法
1 網(wǎng)絡(luò)流量異常檢測(cè)的重要意義
對(duì)于計(jì)算機(jī)網(wǎng)絡(luò)而言,網(wǎng)絡(luò)流量是對(duì)整個(gè)網(wǎng)絡(luò)運(yùn)行狀態(tài)進(jìn)行研究的重要前提和基礎(chǔ),在網(wǎng)絡(luò)當(dāng)中,物理層的數(shù)據(jù)單位是比特,而數(shù)據(jù)鏈路層的單位是幀,由于數(shù)據(jù)單位本身的特殊性,使得無(wú)法對(duì)網(wǎng)絡(luò)異常進(jìn)行直觀分析。同時(shí),網(wǎng)絡(luò)層是以數(shù)據(jù)包作為單位,在它的流量特性分析的基礎(chǔ)上,可對(duì)網(wǎng)絡(luò)應(yīng)用及行為進(jìn)行檢測(cè)。在網(wǎng)絡(luò)結(jié)構(gòu)中,可將網(wǎng)絡(luò)流量數(shù)據(jù)用圖1表示。
大體上可將網(wǎng)絡(luò)數(shù)據(jù)異常檢測(cè)的意義歸納為以下幾個(gè)方面:
1.1 反映網(wǎng)絡(luò)性能
對(duì)網(wǎng)絡(luò)流量進(jìn)行檢測(cè)是性能評(píng)估的關(guān)鍵部分,主要包括網(wǎng)絡(luò)中的關(guān)鍵設(shè)備、網(wǎng)絡(luò)鏈路以及服務(wù)器等方面的性能評(píng)估,由此可獲得相關(guān)業(yè)務(wù)的帶寬占用情況,為設(shè)備性能瓶頸的確定提供依據(jù)。當(dāng)網(wǎng)絡(luò)流量超出網(wǎng)絡(luò)的實(shí)際承載能力時(shí),會(huì)使網(wǎng)絡(luò)的性能隨之下降,從而無(wú)法高效完成數(shù)據(jù)的傳輸與處理,為使網(wǎng)絡(luò)的性能得到進(jìn)一步改善,可通過(guò)檢測(cè)流量特性,并從其中對(duì)相關(guān)的參數(shù)進(jìn)行提取,借此來(lái)找出影響網(wǎng)絡(luò)性能的因素,對(duì)網(wǎng)絡(luò)流量進(jìn)行控制,保證網(wǎng)絡(luò)性能始終處于最優(yōu)狀態(tài)。
1.2 為網(wǎng)絡(luò)故障診斷提供依據(jù)
在計(jì)算機(jī)網(wǎng)絡(luò)環(huán)境中,如果數(shù)據(jù)流量正常,則表明網(wǎng)絡(luò)的運(yùn)行穩(wěn)定,而當(dāng)網(wǎng)絡(luò)出現(xiàn)故障時(shí),流量的特征數(shù)據(jù)會(huì)出現(xiàn)異常,基于這一前提,使得數(shù)據(jù)流量成為判斷網(wǎng)絡(luò)異常及故障檢測(cè)的重要依據(jù)。網(wǎng)絡(luò)中某個(gè)設(shè)備出現(xiàn)故障或是配置錯(cuò)誤,均會(huì)使網(wǎng)絡(luò)性能受到一定程度的影響,嚴(yán)重時(shí)可能會(huì)對(duì)整個(gè)網(wǎng)絡(luò)造成致命的破壞,運(yùn)維管理人員通過(guò)對(duì)網(wǎng)絡(luò)流量數(shù)據(jù)的檢測(cè)分析,可以及時(shí)發(fā)現(xiàn)問(wèn)題的根源之所在,為故障解決與處理提供可靠的依據(jù)。同時(shí)網(wǎng)絡(luò)流量異常檢測(cè)算法,能夠提供流量特征,并對(duì)這些特征進(jìn)行組合,還能對(duì)不同的網(wǎng)絡(luò)攻擊進(jìn)行檢測(cè)。
1.3 全面分析應(yīng)用
現(xiàn)如今,在計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)快速發(fā)展的推動(dòng)下,網(wǎng)絡(luò)的規(guī)模進(jìn)一步擴(kuò)大,其中承載的業(yè)務(wù)也隨之具有了復(fù)雜性和多樣性的特點(diǎn),與此同時(shí),各種網(wǎng)絡(luò)應(yīng)用大量出現(xiàn)并隨著網(wǎng)絡(luò)發(fā)展不斷更新和升級(jí)。網(wǎng)絡(luò)帶寬瓶頸、峰值流量以及預(yù)測(cè)流量變化趨勢(shì),是網(wǎng)絡(luò)應(yīng)用設(shè)計(jì)與運(yùn)維人員所面臨的主要問(wèn)題。對(duì)網(wǎng)絡(luò)流量進(jìn)行檢測(cè)分析,能夠使上述問(wèn)題得到解決,并對(duì)網(wǎng)絡(luò)應(yīng)用層的變化情況進(jìn)行確定,由此可準(zhǔn)確掌握應(yīng)用的相關(guān)指標(biāo)。
1.4 為網(wǎng)絡(luò)協(xié)議的優(yōu)化改進(jìn)提供依據(jù)
在網(wǎng)絡(luò)分層結(jié)構(gòu)體系當(dāng)中,各層之間的數(shù)據(jù)傳輸,需要借助相關(guān)的通信協(xié)議來(lái)實(shí)現(xiàn),網(wǎng)絡(luò)協(xié)議會(huì)隨著業(yè)務(wù)需求不斷更新,它的標(biāo)準(zhǔn)則是數(shù)據(jù)傳輸?shù)谋U稀,F(xiàn)如今,隨著帶寬的逐步增加和應(yīng)用層中新業(yè)務(wù)的大量出現(xiàn),對(duì)網(wǎng)絡(luò)通信協(xié)議設(shè)計(jì)提出越來(lái)越高的要求,通過(guò)網(wǎng)絡(luò)流量進(jìn)行檢測(cè)分析,可將檢測(cè)到的數(shù)據(jù)作為模型設(shè)計(jì)的輸入?yún)?shù),由此可為網(wǎng)絡(luò)協(xié)議的優(yōu)化提供依據(jù)。
2 計(jì)算機(jī)網(wǎng)絡(luò)環(huán)境下網(wǎng)絡(luò)流量異常的檢測(cè)算法
2.1 網(wǎng)絡(luò)異常流量分析
對(duì)網(wǎng)絡(luò)異常進(jìn)行檢測(cè)的基本標(biāo)準(zhǔn)是通過(guò)對(duì)實(shí)際流量與正常流量的比較,看是否存在偏差,如果有,則對(duì)異常的流量數(shù)據(jù)進(jìn)行確定,由于這種數(shù)據(jù)具有相應(yīng)的屬性特征,所以可將具體的特征作為異常的判斷依據(jù)。在計(jì)算機(jī)網(wǎng)絡(luò)環(huán)境中,最難檢測(cè)的異常情況為惡意攻擊所產(chǎn)生的流量異常,通過(guò)對(duì)異常的分析,選擇適宜的數(shù)據(jù)屬性特征便可進(jìn)行檢測(cè)。DDOS是計(jì)算機(jī)網(wǎng)絡(luò)中最為常見(jiàn)的一種攻擊,它以DOS為基礎(chǔ),原本的DOS攻擊是一對(duì)一的方式,而DDOS則是分布式的攻擊,通過(guò)對(duì)被控制計(jì)算機(jī)的遠(yuǎn)程操控,可使海量攻擊數(shù)據(jù)入侵目標(biāo)主機(jī),進(jìn)而使主機(jī)的系統(tǒng)崩潰,并使網(wǎng)絡(luò)瞬時(shí)擁塞,由此將會(huì)導(dǎo)致網(wǎng)絡(luò)癱瘓。
2.1.1 DDOS攻擊
在DDOS攻擊發(fā)生時(shí),會(huì)隨之出現(xiàn)一些共同的特征,具體如下:網(wǎng)絡(luò)總會(huì)有大量指向被攻擊主機(jī)的數(shù)據(jù)包;無(wú)用數(shù)據(jù)包在網(wǎng)絡(luò)中的大量分布會(huì)造成網(wǎng)絡(luò)擁塞;如果攻擊者采用的是偽造IP技術(shù)進(jìn)行攻擊,則會(huì)在短時(shí)間內(nèi),使網(wǎng)絡(luò)中出現(xiàn)虛假的源IP地址,而以真實(shí)IP發(fā)動(dòng)攻擊,會(huì)使網(wǎng)絡(luò)中出現(xiàn)分散的IP地址。通常情況下,DDOS只針對(duì)目標(biāo)主機(jī)進(jìn)行集中攻擊,由此使得流量數(shù)據(jù)中IP數(shù)量相對(duì)較少,并且比較集中,被攻擊的網(wǎng)絡(luò)因偽造IP技術(shù)的運(yùn)用,使得流量數(shù)據(jù)呈現(xiàn)出分布、分散、數(shù)量大等特征。
2.1.2 蠕蟲(chóng)病毒
此類(lèi)病毒與常規(guī)的計(jì)算機(jī)病毒有著非常明顯的差別,這種差別具體體現(xiàn)在對(duì)網(wǎng)絡(luò)的攻擊過(guò)程上,具體如圖2所示。
這種病毒可自行運(yùn)行,通過(guò)軟件系統(tǒng)中存在的缺陷和漏洞,獲取對(duì)相應(yīng)系統(tǒng)的控制權(quán),并在計(jì)算機(jī)網(wǎng)絡(luò)中進(jìn)行傳播,由于該病毒本身具有很強(qiáng)的繁殖性,從而使網(wǎng)絡(luò)及系統(tǒng)資源產(chǎn)生巨大的消耗。由蠕蟲(chóng)病毒的攻擊流程可知,它是從一個(gè)IP向網(wǎng)絡(luò)中多個(gè)IP的某個(gè)端口發(fā)起連接請(qǐng)求,隨即對(duì)蠕蟲(chóng)病毒進(jìn)行迅速傳播,從而引起網(wǎng)絡(luò)瞬時(shí)擁塞,嚴(yán)重時(shí)會(huì)造成網(wǎng)絡(luò)癱瘓。一旦蠕蟲(chóng)病毒發(fā)生,源主機(jī)會(huì)對(duì)數(shù)量更多的目標(biāo)機(jī)進(jìn)行感染,在這一過(guò)程中,會(huì)產(chǎn)生出數(shù)量較多的數(shù)據(jù)包,它們之間的源IP地址相同,但目的IP卻較為分散。如果計(jì)算機(jī)網(wǎng)絡(luò)中出現(xiàn)蠕蟲(chóng)病毒,那么流量數(shù)據(jù)會(huì)表現(xiàn)出如下特征源IP地址少但較為集中,目的IP地址多,但較為分散。
2.2 TCM-KNN算法
直推信度機(jī)簡(jiǎn)稱(chēng)TCM,這是一種具體較強(qiáng)適應(yīng)性的機(jī)器學(xué)習(xí)機(jī)制,它以隨機(jī)性的思想理論為依托,能夠?qū)Χ鄠€(gè)類(lèi)別的可信程度進(jìn)行衡量。但由于隨機(jī)性無(wú)法進(jìn)行準(zhǔn)確計(jì)算,所以需要建立一個(gè)能夠計(jì)算,并且還符合隨機(jī)性原理的檢測(cè)函數(shù),對(duì)置信度進(jìn)行評(píng)估。KNN是一種較為典型的分類(lèi)算法,也被稱(chēng)之為K-鄰近算法,它在對(duì)分類(lèi)進(jìn)行建立的過(guò)程中,無(wú)需假定分布結(jié)構(gòu),因該算法的計(jì)算過(guò)程較為簡(jiǎn)單,加之易于實(shí)現(xiàn),從而使其周期網(wǎng)絡(luò)異常流量檢測(cè)中得到廣泛應(yīng)用。但在實(shí)際應(yīng)用中發(fā)現(xiàn),如果樣本處于不平衡的條件時(shí),則可能會(huì)使待分類(lèi)的樣本被分到不是目標(biāo)類(lèi)的大樣本當(dāng)中,由此會(huì)對(duì)檢測(cè)結(jié)果的準(zhǔn)確性造成影響。本文所提出的TCM-KNN算法是上述兩種算法的融合,可也將其稱(chēng)之為結(jié)合算法。下而重點(diǎn)對(duì)該算法在網(wǎng)絡(luò)流量異常檢測(cè)中的應(yīng)用進(jìn)行分析。
在應(yīng)用TCM-KNN算法對(duì)網(wǎng)絡(luò)流量異常進(jìn)行檢測(cè)的過(guò)程中,需要構(gòu)建起一個(gè)正常的行為模型,據(jù)此對(duì)待檢測(cè)的流量數(shù)據(jù)進(jìn)行判定,看是否正常。對(duì)于正常類(lèi)別y而言,待檢測(cè)流量數(shù)據(jù)樣本i的對(duì)應(yīng)奇異值αiy可用下式表示:
通過(guò)式(1)的計(jì)算方法進(jìn)行計(jì)算后,異常流量樣本的奇異值要大于正常樣本奇異值,這樣便于區(qū)分正常與異常流量數(shù)據(jù)。在TCM-KNN算法中,需要對(duì)待測(cè)樣本與簇的中心距進(jìn)行計(jì)算,選取距離最短的簇作為正常訓(xùn)練集。通常情況下,距離越短,表明待測(cè)樣本與簇內(nèi)樣本的相似程度越高,經(jīng)過(guò)計(jì)算,可以得到待測(cè)及正常樣本的奇異值,若是P值比預(yù)先設(shè)定好的閩值小,說(shuō)明置信度較高,可用1-τ作為異常流量數(shù)據(jù)判定的關(guān)鍵性指標(biāo)。
2.3 算法實(shí)驗(yàn)
為對(duì)本文所提出的TCM-KNN算法的可行性及有效性等方而進(jìn)行驗(yàn)證,先對(duì)網(wǎng)絡(luò)中的正常數(shù)據(jù)進(jìn)行聚類(lèi),同時(shí)為使實(shí)驗(yàn)過(guò)程變得更加簡(jiǎn)單和方便,選取DARPA數(shù)據(jù)集進(jìn)行試驗(yàn)驗(yàn)證。具體的實(shí)驗(yàn)方法如下:選取第一周的正常數(shù)據(jù)作為正常數(shù)據(jù)的訓(xùn)練集,同時(shí)選取第二周的數(shù)據(jù)作為待檢測(cè)數(shù)據(jù),第二周的數(shù)據(jù)集當(dāng)中,存在多種不同類(lèi)型的攻擊實(shí)例,因此,可用于對(duì)TCM-KNN算法的驗(yàn)證。檢測(cè)率與誤報(bào)率是目前國(guó)際上通用的兩個(gè)評(píng)價(jià)指標(biāo)。實(shí)驗(yàn)步驟如下:
采用隨機(jī)抽取的方式,從第一周的數(shù)據(jù)中對(duì)正常數(shù)據(jù)進(jìn)行選取,然后從第二周的數(shù)據(jù)中,對(duì)待測(cè)數(shù)據(jù)進(jìn)行選取,再?gòu)牡谌軘?shù)據(jù)中,選取正常數(shù)據(jù)來(lái)完成異常流量檢測(cè)。在對(duì)TCM-KNN算法進(jìn)行應(yīng)用的過(guò)程中,需要對(duì)置信度閩值進(jìn)行設(shè)定,結(jié)合前人的研究成果,該值設(shè)定為0.05。在對(duì)本文提出的TCM-KNN算法進(jìn)行驗(yàn)證的過(guò)程中,為更加直觀地反映出該算法在網(wǎng)絡(luò)流量異常檢測(cè)方而的準(zhǔn)確程度,本次實(shí)驗(yàn)通過(guò)數(shù)據(jù)對(duì)比的方法進(jìn)行具體驗(yàn)證(限于篇幅,數(shù)據(jù)選取及計(jì)算過(guò)程省略)。在算法的驗(yàn)證中,k值的選取是關(guān)鍵性環(huán)節(jié),既不可過(guò)小,也不宜過(guò)大,以免對(duì)算法的準(zhǔn)確性造成影響。需要注意的是,隨著k值的增大,檢測(cè)時(shí)問(wèn)會(huì)隨之延長(zhǎng),因此,在對(duì)該算法進(jìn)行實(shí)際應(yīng)用時(shí),要對(duì)以下因素進(jìn)行綜合考慮:準(zhǔn)確率、有效性以及耗時(shí)等。經(jīng)過(guò)驗(yàn)證,建議在應(yīng)用TCM-KNN算法對(duì)網(wǎng)絡(luò)流量異常進(jìn)行檢測(cè)時(shí),k值可以選擇8,由此能夠獲得理想的檢測(cè)結(jié)果。由此可見(jiàn),本文所提出的TCM-KNN算法在網(wǎng)絡(luò)流量異常檢測(cè)中具有良好的適用性,只要k值選擇的合理,便可以確保檢測(cè)結(jié)果的準(zhǔn)確率。
3 結(jié)論
綜上所述,在計(jì)算機(jī)網(wǎng)絡(luò)環(huán)境當(dāng)中,為確保網(wǎng)絡(luò)運(yùn)行的穩(wěn)定性,就必須保證網(wǎng)絡(luò)流量始終處于正常狀態(tài),然而受到DDOS及蠕蟲(chóng)病毒的攻擊,會(huì)造成網(wǎng)絡(luò)流量異常,對(duì)此,本文提出一中檢測(cè)算法,即TCM-KNN算法,經(jīng)過(guò)該算法在網(wǎng)絡(luò)流量異常檢測(cè)中具有良好的適用性,當(dāng)k值選擇合理時(shí),能確保檢測(cè)結(jié)果的準(zhǔn)確率。
參考文獻(xiàn)
[1]呂軍暉,于龍洋,張瑾.Ntada: -種網(wǎng)絡(luò)流量異常檢測(cè)算法[J].經(jīng)濟(jì)與管理戰(zhàn)略研究,2012( 01):128-146
[2]朱俚治,朱梧 木檀.一種檢測(cè)網(wǎng)絡(luò)流量異常和網(wǎng)絡(luò)攻擊的算法[J].計(jì)算技術(shù)與自動(dòng)化,2017,36 (01):92-97.
[3]葉坤,網(wǎng)絡(luò)流量異常檢測(cè)方法的研究與改進(jìn)[J].南京工業(yè)大學(xué),201 5.
[4]朱俚治,粗糙集與MMTD算法的網(wǎng)絡(luò)流量異常研究[J].計(jì)算機(jī)與數(shù)字工程,2 17( 01):110-114.
[5]呂軍,李星,一種網(wǎng)絡(luò)流量異常檢測(cè)算法[J].計(jì)算機(jī)應(yīng)用研究,2006,23(11):217-219.
[6]米捷,王佳欣,多層次數(shù)據(jù)中心網(wǎng)絡(luò)流量異常檢測(cè)算法[J].河南工程學(xué)院學(xué)報(bào)(自然科學(xué)版),2 01 7,29 (01): 62-66.
[7]曾建華.一種基于核PCA的網(wǎng)絡(luò)流量異常檢測(cè)算法[J].計(jì)算機(jī)應(yīng)用與軟件,2018 (03):140-144.
[8]付強(qiáng),甘亮,李?lèi)?ài)平,吳泉源.一種基于主成分分析算法的網(wǎng)絡(luò)異常檢測(cè)實(shí)現(xiàn)[J].南京師范大學(xué)學(xué)報(bào)(工程技術(shù)版).2008,8 (04):13-16,
[9]侯重遠(yuǎn),江漢紅,芮萬(wàn)智,劉亮.工業(yè)網(wǎng)絡(luò)流量異常檢測(cè)的概率主成分分析法[J],西安交通大學(xué)學(xué)報(bào),2012,46 (02): 70-75.