• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      網(wǎng)絡(luò)流量異常檢測(cè)中的維數(shù)約簡(jiǎn)研究

      2020-02-19 11:26:26陳良臣劉寶旭陶明峰
      計(jì)算機(jī)工程 2020年2期
      關(guān)鍵詞:網(wǎng)絡(luò)流量約簡(jiǎn)特征選擇

      陳良臣,高 曙,劉寶旭,陶明峰

      (1.武漢理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,武漢 430063; 2.中國(guó)科學(xué)院信息工程研究所,北京 100049;3.中國(guó)勞動(dòng)關(guān)系學(xué)院 應(yīng)用技術(shù)學(xué)院,北京 100048; 4.國(guó)網(wǎng)山東省電力公司 淄博供電公司,山東 淄博 255000)

      0 概述

      隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展以及世界各國(guó)對(duì)網(wǎng)絡(luò)信息化進(jìn)程的加速推進(jìn),網(wǎng)絡(luò)通信已滲透到各個(gè)領(lǐng)域,而互聯(lián)網(wǎng)上的攻擊手段也更隱蔽和智能,傳統(tǒng)補(bǔ)丁式的網(wǎng)絡(luò)安全解決方案無(wú)法完全解決日益暴露的安全問(wèn)題[1]。針對(duì)網(wǎng)絡(luò)流量的異常檢測(cè)與監(jiān)控已成為目前安全工具研究的主要方向。

      在高速網(wǎng)絡(luò)環(huán)境中,網(wǎng)絡(luò)異常檢測(cè)過(guò)程需要獲取、處理和傳輸?shù)拇罅烤W(wǎng)絡(luò)流量數(shù)據(jù),可能由大量特征來(lái)描述,通常這些特征中含有許多無(wú)關(guān)特征和冗余特征,會(huì)提高異常檢測(cè)模型的復(fù)雜度,且各特征之間的相互干擾會(huì)導(dǎo)致檢測(cè)性能急劇下降。因此,在對(duì)海量高維網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行異常檢測(cè)建模之前,需要對(duì)數(shù)據(jù)進(jìn)行特征降維約簡(jiǎn)處理。攻擊數(shù)據(jù)集的特征質(zhì)量直接決定入侵檢測(cè)系統(tǒng)的檢測(cè)效率和穩(wěn)定性,因此,分析網(wǎng)絡(luò)流量以確定有助于識(shí)別攻擊的維數(shù)約簡(jiǎn)方法至關(guān)重要。

      針對(duì)基于網(wǎng)絡(luò)流量的網(wǎng)絡(luò)入侵異常檢測(cè)模型,很多學(xué)者從網(wǎng)絡(luò)流量特征選擇和網(wǎng)絡(luò)流量特征提取2個(gè)方面對(duì)維數(shù)約簡(jiǎn)問(wèn)題進(jìn)行研究。本文總結(jié)網(wǎng)絡(luò)流量異常檢測(cè)中流量數(shù)據(jù)常用特征和流量數(shù)據(jù)維數(shù)約簡(jiǎn)研究的最新進(jìn)展,對(duì)網(wǎng)絡(luò)流量異常檢測(cè)中的網(wǎng)絡(luò)流量特征選擇方法和網(wǎng)絡(luò)流量特征提取方法進(jìn)行歸納分類,并列舉常用算法、數(shù)據(jù)集和評(píng)價(jià)指標(biāo)。在此基礎(chǔ)上,闡述網(wǎng)絡(luò)流量異常檢測(cè)中維數(shù)約簡(jiǎn)技術(shù)研究面臨的挑戰(zhàn),同時(shí)對(duì)未來(lái)發(fā)展方向進(jìn)行展望。

      1 網(wǎng)絡(luò)流量異常檢測(cè)與維數(shù)約簡(jiǎn)

      網(wǎng)絡(luò)流量指的是單位時(shí)間內(nèi)網(wǎng)絡(luò)上傳輸?shù)男畔⒘?即2個(gè)終端之間擁有相同通信五元組信息(源IP地址、源端口、目的IP地址、目的端口和傳輸層協(xié)議)的連續(xù)數(shù)據(jù)包[2]。在基于網(wǎng)絡(luò)流量的異常檢測(cè)過(guò)程中,需要對(duì)原始網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行降維,從而有效提高異常檢測(cè)算法的泛化能力[3]。

      1.1 網(wǎng)絡(luò)流量異常檢測(cè)

      入侵檢測(cè)技術(shù)可分為誤用檢測(cè)和異常檢測(cè),其中異常檢測(cè)基于與正常活動(dòng)的顯著偏差發(fā)現(xiàn)入侵[4]。網(wǎng)絡(luò)流量異常檢測(cè)就是分析從網(wǎng)絡(luò)中采集的各種數(shù)據(jù),挖掘結(jié)構(gòu)中復(fù)雜和潛在的關(guān)系,從而推斷出當(dāng)前網(wǎng)絡(luò)的安全狀況,發(fā)現(xiàn)不可預(yù)見(jiàn)的攻擊[5],其中主要包括兩方面:1)提取網(wǎng)絡(luò)流量數(shù)據(jù)中的關(guān)鍵信息作為異常檢測(cè)的數(shù)據(jù)源;2)提取關(guān)鍵信息中的異常行為進(jìn)行檢測(cè)與識(shí)別[6]。通用的異常檢測(cè)方法往往并不適用于網(wǎng)絡(luò)流量?;谔卣骰蛐袨椤⒒跀?shù)理統(tǒng)計(jì)和基于流挖掘的網(wǎng)絡(luò)流量異常檢測(cè)方法已成為網(wǎng)絡(luò)流量異常檢測(cè)的主流和趨勢(shì)。

      網(wǎng)絡(luò)流量異常檢測(cè)過(guò)程如圖1所示,可將其分為5個(gè)步驟,即網(wǎng)絡(luò)流量數(shù)據(jù)獲取、流量數(shù)據(jù)抽樣、流量維數(shù)約簡(jiǎn)、異常檢測(cè)建模以及異常檢測(cè)結(jié)果與評(píng)估。

      圖1 高速網(wǎng)絡(luò)環(huán)境下的網(wǎng)絡(luò)流量異常檢測(cè)過(guò)程

      1.2 網(wǎng)絡(luò)流量維數(shù)約簡(jiǎn)

      維數(shù)約簡(jiǎn)又稱為特征降維,網(wǎng)絡(luò)流量維數(shù)約簡(jiǎn)一般包括網(wǎng)絡(luò)流量特征選擇和網(wǎng)絡(luò)流量特征提取2種方式,兩者都是為了從原始網(wǎng)絡(luò)流量特征中找出最有效的特征[7],針對(duì)高維災(zāi)難都可以達(dá)到降維的目的,但是兩者有所不同。網(wǎng)絡(luò)流量特征選擇是依據(jù)一定的規(guī)則從已有的網(wǎng)絡(luò)流量特征中選取出部分特征來(lái)表示原始網(wǎng)絡(luò)流量數(shù)據(jù),如圖2(a)所示。網(wǎng)絡(luò)流量特征選擇保留了訓(xùn)練樣本的原始物理意義,但是當(dāng)網(wǎng)絡(luò)流量數(shù)據(jù)間相似性很強(qiáng)時(shí),檢測(cè)冗余信息對(duì)計(jì)算要求非常高。網(wǎng)絡(luò)流量特征提取則是按照一定的規(guī)則將原始網(wǎng)絡(luò)流量特征空間變換成一個(gè)維數(shù)更小的空間,是使用數(shù)學(xué)方法對(duì)某些特征進(jìn)行融合產(chǎn)生了新的特征,新的特征只具有數(shù)學(xué)含義,難以找到其現(xiàn)實(shí)意義,如圖2(b)所示。網(wǎng)絡(luò)流量特征提取是在網(wǎng)絡(luò)流量特征選擇的基礎(chǔ)上對(duì)網(wǎng)絡(luò)流量數(shù)據(jù)集做進(jìn)一步簡(jiǎn)化,去除剩余特征的冗余值[8-9]。

      圖2 網(wǎng)絡(luò)流量特征降維的2種方式

      網(wǎng)絡(luò)流量維數(shù)約簡(jiǎn)可以使網(wǎng)絡(luò)流量數(shù)據(jù)集更容易使用,減少數(shù)據(jù)存儲(chǔ)并降低算法的計(jì)算開銷,同時(shí)提高網(wǎng)絡(luò)異常檢測(cè)性能。為生成可靠的IDS模型,維數(shù)約簡(jiǎn)被認(rèn)為是提高網(wǎng)絡(luò)異常檢測(cè)運(yùn)算效率和發(fā)現(xiàn)數(shù)據(jù)模式的一項(xiàng)重要任務(wù)。

      2 網(wǎng)絡(luò)流量維數(shù)約簡(jiǎn)技術(shù)研究進(jìn)展

      維數(shù)約簡(jiǎn)算法中的“降維”,指的是降低特征矩陣中特征的數(shù)量。本節(jié)主要介紹網(wǎng)絡(luò)流量異常檢測(cè)中用到的特征歸類研究和維數(shù)約簡(jiǎn)技術(shù)研究進(jìn)展。

      2.1 網(wǎng)絡(luò)流量特征研究

      網(wǎng)絡(luò)流量異常檢測(cè)中用到的網(wǎng)絡(luò)流量特征大致可分為3類,即基于報(bào)文頭部、基于網(wǎng)絡(luò)流和基于連接圖的網(wǎng)絡(luò)流量特征[10],如圖3所示,其中,基于報(bào)文頭部的網(wǎng)絡(luò)流量特征一般包含IP地址、端口地址等;基于網(wǎng)絡(luò)流的網(wǎng)絡(luò)流量特征主要是使用與網(wǎng)絡(luò)流量相關(guān)的統(tǒng)計(jì)數(shù)據(jù)作為特征,即使用網(wǎng)絡(luò)流的統(tǒng)計(jì)特征來(lái)表示網(wǎng)絡(luò)流量,如包長(zhǎng)、包到達(dá)間隔等,可進(jìn)一步分為單流特征和多流特征;基于連接圖的網(wǎng)絡(luò)流量特征是圖特征與網(wǎng)絡(luò)流量特征相結(jié)合的網(wǎng)絡(luò)流量特征。

      圖3 網(wǎng)絡(luò)流量異常檢測(cè)特征分類

      網(wǎng)絡(luò)流可分為單向流和雙向流,網(wǎng)絡(luò)流量特征也可分為單流特征和雙流特征。單流特征即單個(gè)流的特征,只使用組成該網(wǎng)絡(luò)流的所有報(bào)文集合的統(tǒng)計(jì)特征作為該網(wǎng)絡(luò)流量的特征,通常包括包到達(dá)時(shí)間、報(bào)文大小、報(bào)文大小的均值/方差、網(wǎng)絡(luò)流所包含的數(shù)據(jù)報(bào)文數(shù)量等。多流特征是針對(duì)具有某些相同特性的多條網(wǎng)絡(luò)流量共同形成的一些統(tǒng)計(jì)特征,可在單流特征基礎(chǔ)上表示出更多流量相關(guān)的信息。在網(wǎng)絡(luò)流量異常檢測(cè)過(guò)程中提取多流特征,一般先選擇一個(gè)提取對(duì)象,如將主機(jī)地址作為對(duì)象的網(wǎng)絡(luò)流量,或?qū)⒕W(wǎng)絡(luò)段作為提取對(duì)象的網(wǎng)絡(luò)流量等[10]。

      2.2 網(wǎng)絡(luò)流量維數(shù)約簡(jiǎn)技術(shù)研究

      網(wǎng)絡(luò)流量異常檢測(cè)中的維數(shù)約簡(jiǎn)技術(shù)研究分類如圖4所示。

      圖4 網(wǎng)絡(luò)流量維數(shù)約簡(jiǎn)技術(shù)分類

      網(wǎng)絡(luò)流量維數(shù)約簡(jiǎn)方法可分為網(wǎng)絡(luò)流量特征選擇方法和網(wǎng)絡(luò)流量特征提取方法。網(wǎng)絡(luò)流量特征提取維數(shù)約簡(jiǎn)方法可分為監(jiān)督學(xué)習(xí)(Supervised)特征提取方法和無(wú)監(jiān)督學(xué)習(xí)(Unsupervised)特征提取方法。網(wǎng)絡(luò)流量特征選擇維數(shù)約簡(jiǎn)方法可分為嵌入式(Embedded)特征選擇、過(guò)濾式(Filter)特征選擇和封裝式(Wrapper)特征選擇3種[11]。

      3 網(wǎng)絡(luò)流量特征提取方法

      網(wǎng)絡(luò)流量特征提取是通過(guò)功能映射,從原始網(wǎng)絡(luò)流量特征集中提取一組新特征,該方法能夠通過(guò)轉(zhuǎn)換獲取最小的新特征集[12]。

      3.1 網(wǎng)絡(luò)流量特征提取方法分類

      網(wǎng)絡(luò)流量特征提取方法包括有監(jiān)督特征學(xué)習(xí)方法和無(wú)監(jiān)督特征學(xué)習(xí)方法,其中有監(jiān)督學(xué)習(xí)方法包括監(jiān)督字典學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、多層感知機(jī)、線性判別分析等,無(wú)監(jiān)督學(xué)習(xí)方法包括無(wú)監(jiān)督字典學(xué)習(xí)、局部線性嵌入、等度量映射、主成分分析(Principal Component Analysis,PCA)、獨(dú)立成分分析、深度學(xué)習(xí)和各種形式的聚類算法等。

      文獻(xiàn)[13]提出一種字典學(xué)習(xí)和稀疏特征結(jié)合的入侵檢測(cè)模型,該模型包含數(shù)據(jù)預(yù)處理、稀疏特征提取、入侵分類檢測(cè)和結(jié)果分析評(píng)估的完整數(shù)據(jù)處理流程。文獻(xiàn)[14]提出深度圖特征學(xué)習(xí)框架DeepGFL,在網(wǎng)絡(luò)安全的上下文中提取高階特征,從低階網(wǎng)絡(luò)流特征中導(dǎo)出高階網(wǎng)絡(luò)流特征,然后實(shí)現(xiàn)網(wǎng)絡(luò)攻擊檢測(cè)。文獻(xiàn)[3]提出一種嵌入二次特征選擇的主成分分析特征提取模型。文獻(xiàn)[15]通過(guò)PCA提取表示輸入變量變化的相互獨(dú)立潛在特征,采用基于MI特征選擇方法選擇與模型輸出最相關(guān)的潛在變量。

      3.2 網(wǎng)絡(luò)流量主要特征提取算法

      常用的無(wú)監(jiān)督維數(shù)約簡(jiǎn)技術(shù)包括主成分分析、局部線性嵌入(Locally Linear Embedding,LLE)、等度規(guī)映射(ISOMAP)等降維算法;監(jiān)督維數(shù)約簡(jiǎn)技術(shù)包括線性判別分析(Linear Discriminant Analysis,LDA)以及近年來(lái)比較受關(guān)注的度量學(xué)習(xí)。常用的網(wǎng)絡(luò)流量特征提取算法及其優(yōu)缺點(diǎn)和已有研究文獻(xiàn)如表1所示。

      表1 常用網(wǎng)絡(luò)流量特征提取算法

      4 網(wǎng)絡(luò)流量特征選擇方法

      4.1 網(wǎng)絡(luò)流量特征選擇流程

      網(wǎng)絡(luò)流量特征選擇是從原始網(wǎng)絡(luò)流量特征集中選擇出重要的特征,如何選擇特征子集以及度量特征的重要性是影響特征選擇結(jié)果的2個(gè)重要問(wèn)題。網(wǎng)絡(luò)流量特征選擇的基本流程如圖5所示,其中主要包括4個(gè)環(huán)節(jié):生成特征子集,評(píng)估特征子集,終止條件判斷,驗(yàn)證特征子集。

      圖5 網(wǎng)絡(luò)流量特征選擇基本流程

      在圖5中,原始網(wǎng)絡(luò)流量數(shù)據(jù)集需要按照一定的搜索策略生成一個(gè)備選網(wǎng)絡(luò)流量特征子集,根據(jù)某個(gè)評(píng)價(jià)準(zhǔn)則可判斷選出子集的優(yōu)劣,根據(jù)終止條件決定網(wǎng)絡(luò)流量特征選擇算法何時(shí)停止,保證算法的有窮性[9]。如果評(píng)估結(jié)果滿足終止條件則停止整個(gè)網(wǎng)絡(luò)流量特征選擇過(guò)程,否則重復(fù)生成網(wǎng)絡(luò)流量特征子集,循環(huán)整個(gè)過(guò)程。當(dāng)整個(gè)網(wǎng)絡(luò)流量特征選擇過(guò)程結(jié)束后,需要對(duì)所獲得的網(wǎng)絡(luò)流量特征子集進(jìn)行驗(yàn)證,以證明該網(wǎng)絡(luò)流量特征選擇方法的有效性[30]。

      4.2 網(wǎng)絡(luò)流量特征選擇方法分類

      網(wǎng)絡(luò)流量特征選擇是指選擇最能代表原始網(wǎng)絡(luò)流量數(shù)據(jù)分布特性的最優(yōu)特征子集,根據(jù)特征子集評(píng)價(jià)標(biāo)準(zhǔn)和特征選擇形式又可以將網(wǎng)絡(luò)流量特征選擇方法分為3類:過(guò)濾式(Filter)特征選擇方法,封裝式(Wrapper)特征選擇方法和嵌入式(Embedded)特征選擇方法[31]。

      1)過(guò)濾式特征選擇方法。按照發(fā)散性或相關(guān)性對(duì)各網(wǎng)絡(luò)流量特征進(jìn)行評(píng)分,設(shè)定閾值,選擇特征。先對(duì)網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行特征選擇,然后再訓(xùn)練學(xué)習(xí)模型,特征選擇過(guò)程與后續(xù)學(xué)習(xí)模型無(wú)關(guān)。該方法優(yōu)點(diǎn)是速度快、通用性強(qiáng),而且對(duì)過(guò)擬合問(wèn)題有較高的魯棒性,缺點(diǎn)是特征評(píng)價(jià)結(jié)果有一定的偏差,且模型的組合特征選擇能力較差。

      2)封裝式特征選擇方法。從網(wǎng)絡(luò)流量初始特征集中反復(fù)選擇特征子集,訓(xùn)練學(xué)習(xí)模型,根據(jù)學(xué)習(xí)模型的性能對(duì)選擇出的特征子集進(jìn)行評(píng)價(jià),直至選出最優(yōu)特征子集。該方法優(yōu)點(diǎn)是直接針對(duì)特定學(xué)習(xí)器進(jìn)行優(yōu)化,考慮到特征之間的關(guān)聯(lián)性,可得到較高的分類精度,缺點(diǎn)是計(jì)算復(fù)雜度高、開銷大,并且通用性不強(qiáng)。

      3)嵌入式特征選擇方法。使用機(jī)器學(xué)習(xí)算法和模型進(jìn)行訓(xùn)練,得出網(wǎng)絡(luò)流量各數(shù)據(jù)特征的權(quán)重,根據(jù)權(quán)重大小順序選擇特征。該方法與Filter方法類似,但其通過(guò)機(jī)器學(xué)習(xí)算法和模型訓(xùn)練來(lái)確定網(wǎng)絡(luò)流量特征的優(yōu)劣,而且算法本身作為組成部分嵌入到學(xué)習(xí)算法中。最典型的嵌入式特征選擇算法是決策樹算法,包括ID3、C4.5和CART算法等。

      過(guò)濾式和封裝式網(wǎng)絡(luò)流量特征選擇方法和分類算法可以與各種算法結(jié)合使用,網(wǎng)絡(luò)流量特征選擇過(guò)程與學(xué)習(xí)模型訓(xùn)練過(guò)程有明顯分別,而嵌入式網(wǎng)絡(luò)流量特征選擇是將特征選擇與學(xué)習(xí)模型訓(xùn)練過(guò)程融為一體,在學(xué)習(xí)模型訓(xùn)練過(guò)程中自動(dòng)地進(jìn)行特征選擇。其中,封裝式方法直接將學(xué)習(xí)器性能作為特征子集的評(píng)價(jià)標(biāo)準(zhǔn),搜尋特征子集的分類準(zhǔn)確性一般會(huì)優(yōu)于過(guò)濾式和嵌入式[32]。

      搜索最優(yōu)網(wǎng)絡(luò)流量特征子集是網(wǎng)絡(luò)流量特征選擇過(guò)程中最關(guān)鍵和最具挑戰(zhàn)性的環(huán)節(jié)。基本搜索策略可根據(jù)網(wǎng)絡(luò)流量特征子集的形成過(guò)程分為3類:全局最優(yōu)搜索,隨機(jī)搜索,啟發(fā)式搜索。全局最優(yōu)搜索策略是在所有可能空間中尋找最優(yōu)子集,針對(duì)高維數(shù)據(jù),算法的時(shí)間復(fù)雜度非常高;隨機(jī)搜索策略使用隨機(jī)重采樣,根據(jù)迭代更新特征權(quán)重選擇重要特征訓(xùn)練分類器,利用模擬退火算法可以避免陷入局部最優(yōu)解的特性提高搜索性能;啟發(fā)式搜索策略包括前向選擇方法、后向選擇方法、序列前向浮動(dòng)搜索算法等。啟發(fā)式搜索策略在選擇速度上高于前兩種搜索策略。一個(gè)具體的網(wǎng)絡(luò)流量特征子集搜索算法可能會(huì)采用2種或多種基本搜索策略,例如遺傳算法是一種隨機(jī)搜索算法,同時(shí)也是一種啟發(fā)式搜索算法。對(duì)于不同的搜索策略,網(wǎng)絡(luò)流量特征選擇方法又可被分為窮舉法、啟發(fā)式法、基于信息理論的方法、基于演化計(jì)算方法等[32]。

      4.3 網(wǎng)絡(luò)流量特征選擇算法

      將過(guò)濾式網(wǎng)絡(luò)流量特征選擇方法應(yīng)用于回歸問(wèn)題時(shí),可使用互信息法;應(yīng)用于分類問(wèn)題時(shí),可使用卡方檢驗(yàn)法、Relief方法、方差選擇法、相關(guān)系數(shù)法、互信息法等。封裝式網(wǎng)絡(luò)流量特征選擇方法包括LVW法、遞歸特征消除法、窮舉法、隨機(jī)法等。嵌入式網(wǎng)絡(luò)流量特征選擇方法包括正則化法、隨機(jī)森林、決策樹等。常用的網(wǎng)絡(luò)流量特征選擇算法及其優(yōu)缺點(diǎn)和已有研究文獻(xiàn)如表2所示。

      表2 常用網(wǎng)絡(luò)流量特征選擇算法

      5 網(wǎng)絡(luò)流量維數(shù)約簡(jiǎn)數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

      由于隱私和知識(shí)產(chǎn)權(quán)等原因,用于網(wǎng)絡(luò)流量分析的相關(guān)數(shù)據(jù)集較少,很少有公開可用的數(shù)據(jù)集,且很少提供標(biāo)記信息。

      5.1 網(wǎng)絡(luò)流量維數(shù)約簡(jiǎn)常用數(shù)據(jù)集

      由于網(wǎng)絡(luò)設(shè)備、流量配置和網(wǎng)絡(luò)攻擊的多樣性,任何網(wǎng)絡(luò)流量數(shù)據(jù)集的代表性都會(huì)被質(zhì)疑。因此,找到適的標(biāo)簽數(shù)據(jù)集是很困難的。許多已發(fā)表的網(wǎng)絡(luò)流量異常檢測(cè)和網(wǎng)絡(luò)流量維數(shù)約簡(jiǎn)分析的文章仍在使用DARPA 98和KDD CUP 99。常用來(lái)研究網(wǎng)絡(luò)流量維數(shù)約簡(jiǎn)算法使用的網(wǎng)絡(luò)流量數(shù)據(jù)集,以及針對(duì)該數(shù)據(jù)集的維數(shù)約簡(jiǎn)方法和已有研究文獻(xiàn)如表3所示。

      表3 網(wǎng)絡(luò)流量主要維數(shù)約簡(jiǎn)算法

      5.2 網(wǎng)絡(luò)流量維數(shù)約簡(jiǎn)性能評(píng)價(jià)指標(biāo)

      通常采用分類器準(zhǔn)確率(Overall Accuracy,OA)、特征壓縮率(Feature Compression Rate,FCR)以及運(yùn)行時(shí)間作為網(wǎng)絡(luò)流量維數(shù)約簡(jiǎn)算法性能的評(píng)價(jià)指標(biāo)。采用分類器準(zhǔn)確率評(píng)判網(wǎng)絡(luò)流量維數(shù)約簡(jiǎn)算法效果的好壞,其值為正確樣本數(shù)與全部樣本數(shù)的比值。用特征壓縮率衡量網(wǎng)絡(luò)流量維數(shù)約簡(jiǎn)算法對(duì)特征提取的效率,其值為選擇的特征數(shù)與全部特征數(shù)的比值。運(yùn)行時(shí)間為每種網(wǎng)絡(luò)流量維數(shù)約簡(jiǎn)方法所運(yùn)行的時(shí)間,使用每種算法的運(yùn)行時(shí)間來(lái)考察其運(yùn)行速度。

      6 網(wǎng)絡(luò)流量維數(shù)約簡(jiǎn)存在問(wèn)題及發(fā)展趨勢(shì)

      6.1 存在問(wèn)題分析

      當(dāng)前網(wǎng)絡(luò)流量異常檢測(cè)中的維數(shù)約簡(jiǎn)技術(shù)已有相關(guān)研究,并取得了一定的研究成果,但仍然存在一些尚未解決和完善的問(wèn)題:傳統(tǒng)的維數(shù)約簡(jiǎn)方法無(wú)法保留訓(xùn)練樣本的原始意義,且對(duì)組合特征選擇能力較差;網(wǎng)絡(luò)流量多樣性和網(wǎng)絡(luò)流量數(shù)據(jù)的不平衡問(wèn)題,以及復(fù)合攻擊的普及對(duì)網(wǎng)絡(luò)流量維數(shù)約簡(jiǎn)提出的更高要求;網(wǎng)絡(luò)加密流量的快速增長(zhǎng)需要研究如何從高速網(wǎng)絡(luò)流量中提取反映加密流量?jī)?nèi)在規(guī)律的特征信息對(duì)應(yīng)的特征提取方法;目前缺乏維數(shù)約簡(jiǎn)評(píng)價(jià)標(biāo)準(zhǔn);現(xiàn)有網(wǎng)絡(luò)流量數(shù)據(jù)維數(shù)約簡(jiǎn)方法不能正確反映移動(dòng)無(wú)線網(wǎng)絡(luò)的性能;網(wǎng)絡(luò)流量的高動(dòng)態(tài)性使得網(wǎng)絡(luò)流量數(shù)據(jù)維數(shù)約簡(jiǎn)方法不能滿足網(wǎng)絡(luò)攻擊檢測(cè)的在線實(shí)時(shí)性要求。上述不足都制約了網(wǎng)絡(luò)流量異常檢測(cè)中維數(shù)約簡(jiǎn)技術(shù)的進(jìn)一步發(fā)展。

      6.2 研究方向展望

      基于現(xiàn)階段網(wǎng)絡(luò)流量異常檢測(cè)中維數(shù)約簡(jiǎn)技術(shù)的研究現(xiàn)狀、網(wǎng)絡(luò)流量維數(shù)約簡(jiǎn)所面臨的挑戰(zhàn)和未來(lái)研究方向主要概括以下方面:

      1)在線實(shí)時(shí)網(wǎng)絡(luò)異常檢測(cè)中流量維數(shù)約簡(jiǎn)技術(shù)研究。網(wǎng)絡(luò)特征建立在海量高速網(wǎng)絡(luò)流量數(shù)據(jù)上面,為實(shí)現(xiàn)實(shí)時(shí)在線網(wǎng)絡(luò)異常檢測(cè),需要研究提高網(wǎng)絡(luò)流量在線時(shí)效性的維數(shù)約簡(jiǎn)方法。如何將實(shí)時(shí)多變量維數(shù)約簡(jiǎn)方法應(yīng)用到大規(guī)模網(wǎng)絡(luò)流量數(shù)據(jù)中并對(duì)數(shù)據(jù)進(jìn)行高效處理成為一大難題。

      2)維數(shù)約簡(jiǎn)后流量特征信息丟失問(wèn)題研究。約簡(jiǎn)后的網(wǎng)絡(luò)流量數(shù)據(jù)特征只是全部網(wǎng)絡(luò)流量數(shù)據(jù)特征的一小部分,一些信息會(huì)被丟失。在網(wǎng)絡(luò)流量異常檢測(cè)中,如何選擇維數(shù)約簡(jiǎn)技術(shù)彌補(bǔ)網(wǎng)絡(luò)流量特征在約簡(jiǎn)后的信息丟失,使其能有效地進(jìn)行網(wǎng)絡(luò)流量異常檢測(cè)仍是難點(diǎn)。

      3)移動(dòng)互聯(lián)網(wǎng)應(yīng)用異常檢測(cè)中的網(wǎng)絡(luò)流量特征提取技術(shù)研究。隨著移動(dòng)互聯(lián)網(wǎng)的普及和網(wǎng)絡(luò)技術(shù)的高速發(fā)展,移動(dòng)新應(yīng)用不斷出現(xiàn),攻擊者更青睞于移動(dòng)互聯(lián)網(wǎng)應(yīng)用。如何提取網(wǎng)絡(luò)流量特征,細(xì)分和區(qū)別這些網(wǎng)絡(luò)應(yīng)用,對(duì)攻擊檢測(cè)非常重要。

      4)網(wǎng)絡(luò)流量維數(shù)約簡(jiǎn)評(píng)價(jià)標(biāo)準(zhǔn)研究。針對(duì)網(wǎng)絡(luò)流量進(jìn)行有效降維后的特征子集難以確定,缺乏可用于網(wǎng)絡(luò)流量維數(shù)約簡(jiǎn)的通用和普適的評(píng)價(jià)標(biāo)準(zhǔn)。

      5)網(wǎng)絡(luò)加密流量的特征提取技術(shù)研究。目前缺乏可用于網(wǎng)絡(luò)加密流量異常檢測(cè)的公開標(biāo)記數(shù)據(jù)集,越來(lái)越多的網(wǎng)絡(luò)流量使用加密通信偽裝或隱藏明文流量特征,如何選擇待提取的候選特征集合,需對(duì)惡意軟件加密通信具有全面的知識(shí)積累。

      6)各種網(wǎng)絡(luò)攻擊檢測(cè)場(chǎng)景中網(wǎng)絡(luò)流量數(shù)據(jù)維數(shù)約簡(jiǎn)技術(shù)與方法的普適性問(wèn)題。目前很多網(wǎng)絡(luò)流量數(shù)據(jù)維數(shù)約簡(jiǎn)方法針對(duì)某個(gè)網(wǎng)絡(luò)攻擊檢測(cè)場(chǎng)景的應(yīng)用是最優(yōu)的,但是針對(duì)其他網(wǎng)絡(luò)攻擊檢測(cè)場(chǎng)景的應(yīng)用可能就不是最優(yōu)的。隨著針對(duì)網(wǎng)絡(luò)流量數(shù)據(jù)特征的研究不斷深入,未來(lái)需要設(shè)計(jì)普適的網(wǎng)絡(luò)流量維數(shù)約簡(jiǎn)方法。

      7)多種網(wǎng)絡(luò)流量維數(shù)約簡(jiǎn)方法和技術(shù)相結(jié)合的維數(shù)約簡(jiǎn)方法。將多種網(wǎng)絡(luò)流量數(shù)據(jù)維數(shù)約簡(jiǎn)方法和技術(shù)相結(jié)合,實(shí)現(xiàn)更高效的網(wǎng)絡(luò)流量數(shù)據(jù)維數(shù)約簡(jiǎn)和獲得更準(zhǔn)確的抽樣結(jié)果。在進(jìn)行網(wǎng)絡(luò)流量維數(shù)約簡(jiǎn)時(shí),盡可能地減少對(duì)網(wǎng)絡(luò)的額外影響也是一個(gè)具有挑戰(zhàn)的研究課題。

      7 結(jié)束語(yǔ)

      網(wǎng)絡(luò)流量維數(shù)約簡(jiǎn)能夠用于很多基于網(wǎng)絡(luò)流量的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘場(chǎng)景,是網(wǎng)絡(luò)攻擊檢測(cè)中的重要分支。本文介紹網(wǎng)絡(luò)流量異常檢測(cè)和維數(shù)約簡(jiǎn)原理,分別對(duì)2種流量維數(shù)約簡(jiǎn)方式,即網(wǎng)絡(luò)流量特征選擇和網(wǎng)絡(luò)流量特征提取的現(xiàn)有算法進(jìn)行歸納分類,描述算法特點(diǎn)并分析優(yōu)缺點(diǎn)。在此基礎(chǔ)上,給出目前網(wǎng)絡(luò)流量維數(shù)約簡(jiǎn)研究常用的數(shù)據(jù)集和評(píng)價(jià)指標(biāo),展望網(wǎng)絡(luò)流量異常檢測(cè)中維數(shù)約簡(jiǎn)技術(shù)發(fā)展方向,為研究和發(fā)展網(wǎng)絡(luò)空間安全技術(shù)提供借鑒。

      猜你喜歡
      網(wǎng)絡(luò)流量約簡(jiǎn)特征選擇
      基于多元高斯分布的網(wǎng)絡(luò)流量異常識(shí)別方法
      基于神經(jīng)網(wǎng)絡(luò)的P2P流量識(shí)別方法
      基于二進(jìn)制鏈表的粗糙集屬性約簡(jiǎn)
      實(shí)值多變量維數(shù)約簡(jiǎn):綜述
      AVB網(wǎng)絡(luò)流量整形幀模型端到端延遲計(jì)算
      基于模糊貼近度的屬性約簡(jiǎn)
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
      基于二元搭配詞的微博情感特征選擇
      措美县| 高清| 阜新| 商都县| 柯坪县| 乐平市| 尼勒克县| 怀宁县| 延边| 琼结县| 井冈山市| 嫩江县| 资中县| 黎城县| 集安市| 乌兰察布市| 禹州市| 桐乡市| 米易县| 大丰市| 肇庆市| 沁水县| 宾阳县| 安远县| 曲沃县| 连江县| 民丰县| 济阳县| 玉山县| 昭通市| 海南省| 紫阳县| 冀州市| 确山县| 宜川县| 宁城县| 靖安县| 浦北县| 双流县| 金昌市| 两当县|