• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      網(wǎng)絡(luò)入侵檢測場景下的特征選擇方法對比研究

      2021-05-06 03:06:46楊喜敏
      河南科學(xué) 2021年3期
      關(guān)鍵詞:特征選擇集上流量

      田 野, 唐 菀, 楊喜敏, 張 艷

      (中南民族大學(xué)計算機科學(xué)學(xué)院,武漢 430074)

      5G和物聯(lián)網(wǎng)(Internet of Things,IoT)的發(fā)展使得互聯(lián)網(wǎng)規(guī)模呈現(xiàn)大幅增長,隨之而來的網(wǎng)絡(luò)安全問題也愈發(fā)突出. 零日漏洞、挖礦木馬等攻擊活動愈發(fā)活躍[1-2],僅在2017年每月對于物聯(lián)網(wǎng)設(shè)備的攻擊數(shù)就高達(dá)5200次,這給人們網(wǎng)絡(luò)工作與生活帶來了極大威脅. 入侵檢測系統(tǒng)(Intrusion Detection System,IDS)作為一種積極主動的網(wǎng)絡(luò)安全防護(hù)技術(shù),一直以來都是保衛(wèi)網(wǎng)絡(luò)安全的重要手段[3]. 但是,隨著黑客攻擊手段的不斷升級以及網(wǎng)絡(luò)飛速發(fā)展帶來的海量網(wǎng)絡(luò)數(shù)據(jù)流量,傳統(tǒng)的IDS已遠(yuǎn)遠(yuǎn)不能滿足當(dāng)前網(wǎng)絡(luò)安全需求[4-5].

      近年來,機器學(xué)習(xí)的快速發(fā)展給網(wǎng)絡(luò)入侵檢測帶來了新的發(fā)展契機,基于機器學(xué)習(xí)的網(wǎng)絡(luò)入侵檢測系統(tǒng)擁有傳統(tǒng)IDS難以企及的檢測速度以及檢測精度,并且對于未知攻擊的檢測能力得到大幅度的提高. 但是由于網(wǎng)絡(luò)流量的快速增長,如果不對檢測流量的特征規(guī)模進(jìn)行縮減,那么即使是基于機器學(xué)習(xí)的檢測系統(tǒng)也將難以保證檢測的速度. 因此,采用適當(dāng)?shù)奶卣鬟x擇算法來縮減流量特征規(guī)模對于提高網(wǎng)絡(luò)入侵檢測系統(tǒng)性能來說具有重要意義[6-7].

      特征選擇作為一項數(shù)據(jù)預(yù)處理手段早已發(fā)展多年,它對提高機器學(xué)習(xí)模型的性能起到了重要作用. 然而,面對眾多的特征選擇算法,如mRMR[8]、馬爾科夫毯[9]、卡方檢驗、互信息、梯度下降樹[10]、隨機森林[11]、CART決策樹[12]、最小二乘法[13]等,如何選擇適合于應(yīng)用場景下的算法以及所選特征選擇算法是否能夠有效縮減特征規(guī)模以去除冗余特征,且不會影響入侵檢測系統(tǒng)的性能,這些問題都缺乏相關(guān)的文獻(xiàn)來做參考. 為此,本文設(shè)計一種以入侵檢測系統(tǒng)性能保證為目標(biāo)的特征選擇算法評估方案,以對比分析各類常用的特征選擇算法,從而能夠為用戶在網(wǎng)絡(luò)入侵檢測場景下選擇更為適合的入侵檢測特征選擇算法提供依據(jù).

      1 特征選擇算法

      根據(jù)選擇過程和學(xué)習(xí)器的不同組合方式,特征選擇算法種類可分為過濾式、封裝式、嵌入式和集成式4種[14].

      過濾式特征選擇算法和學(xué)習(xí)算法是兩個相互獨立的過程,特征選擇是學(xué)習(xí)算法的預(yù)處理過程,學(xué)習(xí)算法用來對特征選擇結(jié)果進(jìn)行驗證. 根據(jù)其特征選擇框架的不同,過濾式特征選擇算法又可以分為基于特征排序的和基于搜索策略的兩種算法[14]. 本文選用基于特征排序的過濾式特征選擇算法,采用的特征評價標(biāo)準(zhǔn)有卡方檢驗(CHI2)和互信息(MI)兩種.

      封裝式特征選擇算法方法結(jié)合了特征選擇過程和學(xué)習(xí)過程,學(xué)習(xí)器根據(jù)其在特征子集上的預(yù)測準(zhǔn)確率來評價所選特征,并采用搜索策略調(diào)整子集,最終獲得近似最優(yōu)子集[14]. 本文選擇的是基于遞歸特征消除的特征選擇算法,學(xué)習(xí)器選用邏輯回歸法(LS)和偏最小二乘法(Partial Least Squares,PLS)兩種.

      嵌入式特征選擇算法綜合了過濾式和封裝式的優(yōu)勢[14],特征選擇過程包含在學(xué)習(xí)算法當(dāng)中,當(dāng)算法訓(xùn)練完成時就可以得到對應(yīng)的特征子集. 本文選用的嵌入式的特征選擇算法為基于L1和L2正則項的最小二乘回歸方法(LS_LI)和決策樹(OT).

      集成式特征選擇算法借鑒了集成學(xué)習(xí)思想,通過訓(xùn)練多個特征選擇方法,并整合所有特征選擇方法的結(jié)果,以此來獲得比單個特征選擇方法更好的效果[14]. 本文所選用的集成式特征選擇算法為梯度下降樹算法(GSOT)和隨機森林算法(RF).

      2 算法評估方案

      本文對各類特征選擇算法進(jìn)行評估的主要思路為:選取不同類別的常用特征選擇算法,將選取的特征選擇算法應(yīng)用于幾個不同的數(shù)據(jù)集,然后將處理后的數(shù)據(jù)集用于同一個模型訓(xùn)練和檢測并記錄模型的F1分?jǐn)?shù)以及特征選擇算法的時間消耗,通過從選擇效果和時間消耗兩個層面來評估各特征選擇算法的差異,最后在所選特征選擇算法中選出最通用的特征選擇算法. 綜上,本文的評估方案包括3個方面:①評價指標(biāo);②網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)集;③基于機器學(xué)習(xí)的檢測模型. 整個評估方案的流程如圖1所示.

      圖1 評估方案流程Fig.1 Processing flow of proposed evaluation scheme

      2.1 評價指標(biāo)

      本文評價指標(biāo)的選取從效果和時間消耗兩個維度進(jìn)行.

      1)效果維度評價指標(biāo)

      特征選擇常用的性能指標(biāo)有準(zhǔn)確率Accuracy、F1指標(biāo)、Hamming Loss指標(biāo)和多目標(biāo)指標(biāo)等[15].

      Accuracy 反映了被分類器正確判定分類的樣本總數(shù),一般用于沒有特別需要的數(shù)據(jù)集. Accuracy 的定義如下:

      其中:TP(True Positives)表示檢測模型預(yù)測結(jié)果與標(biāo)簽結(jié)果一致,都是正常流量的樣本數(shù)量;TN(True Negatives)表示檢測模型預(yù)測結(jié)果與標(biāo)簽結(jié)果一致,都是異常流量的樣本數(shù)量;| Data |表示總樣本數(shù).

      F1值同時兼顧了模型的Precision和Recall,能夠更加客觀地反映模型效果的好壞. 其定義如下:

      其中:FP(False Positive)和FN(False Negatives)分別表示檢測模型預(yù)測結(jié)果是正常流量但標(biāo)簽是異常流量的樣本數(shù)量和檢測模型預(yù)測結(jié)果是異常流量但標(biāo)簽是正常流量的樣本數(shù)量.

      Hamming Loss用于考察樣本在單個標(biāo)記上的誤分類情況. 其定義如下:

      其中:yi和y′分別表示第i個樣本的正確類標(biāo)簽和分類器預(yù)測的標(biāo)簽;Δ 用來表示兩個量之間的差異,如果兩者相等則為1,否則為0;C為標(biāo)簽類別的數(shù)目. 本文所選擇的性能指標(biāo)為F1指標(biāo).

      2)時間維度評價指標(biāo)

      在時間維度方面,相關(guān)的時間開銷有兩方面,一是特征選擇算法所用時間,另外一個是模型訓(xùn)練所用時間,本文所關(guān)注的是特征選擇算法所用時間.

      多目標(biāo)指標(biāo)用于同時評價特征選擇的選擇效果以及特征選擇的花費代價,其公式如下:

      其中:Accuracy可以根據(jù)需要替換為其他分類指標(biāo),例如F1或是Hamming Loss等其他指標(biāo);Cost代表特征選擇的時間開銷代價,可以根據(jù)需要替換為 |Xi|,| Xi|表示個體Xi所包含的特征數(shù),用來衡量特征選擇后的特征規(guī)模對于分類器性能的影響.

      本文借用了多目標(biāo)評價的思想,將特征選擇算法的時間消耗也納入到特征選擇算法的評價范圍,同時也考慮了特征規(guī)模對于分類器性能的影響. 最后,本文采用的評價公式如下:

      2.2 數(shù)據(jù)集的選擇依據(jù)

      通常,網(wǎng)絡(luò)流量數(shù)據(jù)集可分為以下3種:

      1)基于分組包的數(shù)據(jù)集——根據(jù)使用協(xié)議或網(wǎng)絡(luò)的不同,包中數(shù)據(jù)項也會有所不同. 此類數(shù)據(jù)集通常從防火墻抓?。?6].

      2)基于流的數(shù)據(jù)集——包含關(guān)于網(wǎng)絡(luò)連接的元信息,通常從交換機抓取. 這類數(shù)據(jù)集的特征數(shù)較少[16].

      3)其他數(shù)據(jù)集——既不是完全基于包也不是完全基于流的數(shù)據(jù)集. 在這類數(shù)據(jù)集中,既會包含包的數(shù)據(jù)特征,也會包含一些主機端的信息,例如:登錄次數(shù)、是否root登錄或登錄失敗原因等等. 這類數(shù)據(jù)集的數(shù)據(jù)特征方面沒有通用的模式,不同的數(shù)據(jù)集可能會包含不同的數(shù)據(jù)特征[16].

      在特征較少的數(shù)據(jù)集上采用特征選擇往往并不能有效縮減數(shù)據(jù)集的規(guī)模,因此,需要選擇有較多特征數(shù)的數(shù)據(jù)集,同時,也要考慮數(shù)據(jù)集的通用性和公開性.

      2.3 網(wǎng)絡(luò)入侵檢測模型的選擇

      常用的機器學(xué)習(xí)模型有多層感知機(Multi-Layer Perceptron,MLP)[17-19]、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)、遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)等. CNN 具備很強的空間特征學(xué)習(xí)能力,通過使用一維的CNN可以提取到流量中各層的時序特征;RNN通過隱藏的狀態(tài)單元將之前時刻的信息傳遞至當(dāng)前時刻. 利用RNN 可以提取流量的時序特征;MLP 能夠通過隱藏層層數(shù)和各層結(jié)點個數(shù)的增加,擬合任意復(fù)雜的非線性函數(shù)[20]. 由于本文重點基于模型檢測數(shù)據(jù)來評估特征選擇算法的效果,也并未考慮數(shù)據(jù)包的時間特性,并且著重于判斷特征選擇算法選出特征之間關(guān)聯(lián)關(guān)系的強弱,所以在實驗部分采用了自建的多層感知機模型用于數(shù)據(jù)集效果的檢驗.

      3 實驗與分析

      3.1 數(shù)據(jù)集

      為了能夠更好地驗證特征選擇結(jié)果的通用性,本文實驗采用KDD CUP99、NSL-KDD、Kyoto 2006+等3 個公開的入侵檢測數(shù)據(jù)集,其中混合了包和主機端的數(shù)據(jù)項. KDD CUP99數(shù)據(jù)集取自于小型的模擬網(wǎng)絡(luò),是網(wǎng)絡(luò)入侵檢測研究鄰域最經(jīng)典的數(shù)據(jù)集,包含DoS、Probe、R2L、U2R攻擊類型的數(shù)據(jù)流;NSL-KDD數(shù)據(jù)集是KDD CUP99 數(shù)據(jù)集的改進(jìn),它消除了冗余記錄,使得分類器不會偏向更頻繁的記錄,包含了DoS、Privilege Escalation以及Probing等類型攻擊;Kyoto 2006+數(shù)據(jù)集取自于真實網(wǎng)絡(luò)環(huán)境下的蜜罐(HoneyPot),主要包含了Backscater、DoS、Exploits以及Port Scans等攻擊類型[14]. 對于KDD CUP99數(shù)據(jù)集,由于其原始數(shù)據(jù)集數(shù)據(jù)量龐大,達(dá)到了4 898 431條,本文對這些數(shù)據(jù)項進(jìn)行了間距為10的采樣,最終將采樣結(jié)果的70%用作訓(xùn)練集,30%用作測試集;對NSL-KDD數(shù)據(jù)集,本文直接使用劃分好的KDDTrain+訓(xùn)練集和KDDTest+訓(xùn)練集;對Kyoto 2006+數(shù)據(jù)集,由于其原始數(shù)據(jù)量較大,達(dá)到了1 223 899條,本文同樣對其進(jìn)行了采樣,采樣間距為3,訓(xùn)練集和測試集的劃分方式同KDD CUP99.

      3.2 檢測模型

      本文在基于sklearn包搭建了一個多層感知機模型. 模型一共由4層組成:第一層為輸入層,節(jié)點數(shù)為特征數(shù);第二層和第三層為隱藏層(經(jīng)過6次實驗,發(fā)現(xiàn)在本實驗中隱藏層的節(jié)點數(shù)為120時,總體訓(xùn)練時間和訓(xùn)練結(jié)果最好);第四層為輸出層,節(jié)點數(shù)為類別數(shù).

      3.3 實驗結(jié)果與分析

      實驗流程包括數(shù)據(jù)預(yù)處理、特征選擇以及模型的訓(xùn)練和檢測三個階段.

      在數(shù)據(jù)預(yù)處理階段,KDD CUP99數(shù)據(jù)集和NSL-KDD數(shù)據(jù)集的標(biāo)簽標(biāo)明了具體的攻擊類型,本文這些標(biāo)簽類型映射為5類,分別為:Normal、DoS、Probe、R2L以及U2R. Kyoto 2006+數(shù)據(jù)集的標(biāo)簽有3種:1代表正常流量,-1代表已知攻擊類型的流量,-2代表未知攻擊類型的流量. 本文將-2和-1類型的標(biāo)簽統(tǒng)一映射為-1,代表攻擊流量. 對數(shù)據(jù)集中的離散數(shù)據(jù)采用One-Hot編碼,歸一化采用Min-Max的方式.

      在特征選擇階段中,本文對特征選擇算法選擇的特征數(shù)進(jìn)行了比例控制,控制比例分別為10%、30%、50%、70%以及100%. 對于決策樹、隨機森林、梯度下降樹這類基于基尼系數(shù)的特征選擇算法,由于其選擇特征數(shù)的不可控性,所以并未對其進(jìn)行比例控制,經(jīng)過前期實驗發(fā)現(xiàn),DT、GBDT、RF 這幾類算法所選擇出的特征數(shù)基本在總特征數(shù)的10%,所以本文僅將這些算法在10%特征數(shù)的水平上和其他特征選擇算法進(jìn)行對比.

      3.3.1 特征選擇算法效果比較 首先根據(jù)采用不同特征選擇算法進(jìn)行預(yù)處理的模型在不同數(shù)據(jù)集上的F1分?jǐn)?shù)來判斷模型表現(xiàn),并以此來檢測數(shù)據(jù)集特征項的冗余程度. 從圖2的結(jié)果可以看出:

      1)隨著特征數(shù)數(shù)量的不斷增加,模型的F1值基本上也呈現(xiàn)不斷上升的趨勢;

      2)在低比例特征數(shù)的情況下,基于基尼指數(shù)的嵌入式和集成式特征選擇算法的效果會比其他類型的特征選擇算法效果好,其中以RF算法表現(xiàn)最為穩(wěn)定,在三個數(shù)據(jù)集上其模型F1分?jǐn)?shù)相較于不進(jìn)行特征選擇的模型結(jié)果差異均在2.5%以內(nèi);

      3)在本文所選中的特征選擇算法中,PLS的效果表現(xiàn)最差,其模型F1分?jǐn)?shù)在KDD CUP99和NSL-KDD數(shù)據(jù)集上相較于不進(jìn)行特征選擇的模型結(jié)果相差13.14%,在Kyoto 2006+上只比不進(jìn)行特征選擇的結(jié)果高3.80%. 其中LS_L1的表現(xiàn)最優(yōu),其模型F1分?jǐn)?shù)在KDD CUP99和NSL-KDD數(shù)據(jù)上相較于不進(jìn)行特征選擇的模型結(jié)果只低了1.5%,在Kyoto 2006+數(shù)據(jù)集上比不進(jìn)行特征選擇的結(jié)果高10.97%;

      4)當(dāng)特征數(shù)比例達(dá)到總特征數(shù)的50%時,在KDD CUP99和NSL KDD兩個數(shù)據(jù)集上,F(xiàn)1的均值相對于全特征情況而言差距在0.6%,在Kyoto 2006+數(shù)據(jù)集上,F(xiàn)1均值相較于全特征情況而言高出2.4%,從整體而言,選取50%特征數(shù)的效果相較于選取30%特征數(shù)高出一倍.

      圖2 基于特征選擇算法的模型在KDD CUP99、NSL-KDD和Kyoto 2006+數(shù)據(jù)集上F1分?jǐn)?shù)Fig.2 F1 scores of detection models based on different feature selections on KDD CUP99,NSL-KDD,and Kyoto 2006+datasets

      3.3.2 特征選擇算法時間開銷比較 在各特征選擇算法時間消耗方面,PLS、LS這類基于封裝式的算法存在遞歸特征消除,導(dǎo)致時間開銷很大(圖3),它們所消耗的時間均值占到了特征選擇算法總時間消耗均值的33.82%和58.80%. 其他類別的特征選擇算法在時間消耗方面基本都處于較低的水平,時間消耗均值占比均在5%以下,其中以LS的時間消耗最大,CHI2的時間消耗最低.

      3.3.3 相似度分析 圖4給出各特征選擇算法在3個數(shù)據(jù)集上選擇50%特征數(shù)下的特征相似度矩陣,圖5展示了選擇50%特征數(shù)下使用不同特征選擇算法的模型在3個數(shù)據(jù)集上的F1分?jǐn)?shù),但這里的基于DT、GBDT和RF的特征選擇算法的特征數(shù)比例都是10%. 從圖5可以看出,CHI2和MI以及LS和LS_L1的模型F1得分很接近,差距都在1%以內(nèi),并且它們所選出的特征相似度也很高,在0.8%左右. 特別是對于DT、GBDT以及RF這三類算法雖然只選取10%的特征,但是它們的模型F1得分均值在0.856 5,與均值最高的LS_L1 相比只有5%左右,這也直接反映了基于DT、GBDT和RF的特征選擇算法對核心特征的提取能力以及核心特征在分類時所起的重要性,這三者和LS_L1的差距則表明了如需要進(jìn)一步提升檢測準(zhǔn)確度還需要深入挖掘更多特征之間的關(guān)聯(lián)性.

      圖3 特征選擇算法在KDD CUP99、NSL-KDD和Kyoto 2006+上所消耗的時間Fig.3 Time consumed of feature selection methods on KDD CUP99,NSL-KDD,and Kyoto 2006+datasets

      圖4 特征選擇算法在不同數(shù)據(jù)集上所選特征的相似度矩陣Fig.4 Similarity Matrixes of features chosen by feature selection algorithm on different datasets

      圖5 選取總特征50%特征數(shù)下模型的F1分?jǐn)?shù)Fig.5 F1 Scores of detection models with 50%of total feature number selected

      3.3.4 結(jié)果分析 經(jīng)過本文的實驗分析發(fā)現(xiàn),基于L1正則項的最小二乘回歸特征選擇算法LS_L1的魯棒性最強,時間消耗也處于較低狀態(tài),在一般流量特征網(wǎng)絡(luò)入侵檢測數(shù)據(jù)集的預(yù)處理階段可以作為首選特征選擇算法;另外基于隨機森林(RF)的特征選擇算法在選取小規(guī)模特征數(shù)的情況下表現(xiàn)最為穩(wěn)定,模型的F1分?jǐn)?shù)相較于全特征的情況差異在1.9%左右,高于DT和GBDT. 在最佳特征數(shù)比例方面,在選取特征數(shù)比例占總比例達(dá)到50%的情況時,整體的結(jié)果表現(xiàn)相較于選取特征比例在30%時有1倍的效果提升. 當(dāng)特征數(shù)達(dá)到70%時,相較于50%的特征數(shù)的情況結(jié)果提升只有0.3%左右,因此可知一般選取50%的特征數(shù)即可.

      4 結(jié)論

      通過實驗發(fā)現(xiàn),在網(wǎng)絡(luò)入侵檢測環(huán)境下,基于L1和L2正則項的最小二乘回歸特征選擇算法(LS_L1)能夠適用于大部分場景. 本文通過選取不同類別下常用的特性選擇算法在3個常用的入侵檢測數(shù)據(jù)集上進(jìn)行了特征選擇,并且使用相同MLP模型用于衡量各特征選擇算法之間的差異. 通過對比分析MLP模型的F1分?jǐn)?shù)以及特征選擇算法消耗的時間可知,LS_L1在選取50%的特征數(shù)的情況下能夠達(dá)到與全特征情況下相差1.5%左右的成績,在所有評測的特征選擇算法中效果最好,某些特征選擇算法選擇的特征相似度比例較高的情況下,模型的F1分?jǐn)?shù)卻相差較大. 未來將對特征選擇算法所選特征的可解釋性以及特征之間的關(guān)聯(lián)做深入的研究,并通過整合不同的特征選擇算法來進(jìn)一步提高特征選擇的魯棒性.

      猜你喜歡
      特征選擇集上流量
      冰墩墩背后的流量密碼
      玩具世界(2022年2期)2022-06-15 07:35:36
      張曉明:流量決定勝負(fù)!三大流量高地裂變無限可能!
      尋找書業(yè)新流量
      出版人(2020年4期)2020-11-14 08:34:26
      Cookie-Cutter集上的Gibbs測度
      鏈完備偏序集上廣義向量均衡問題解映射的保序性
      復(fù)扇形指標(biāo)集上的分布混沌
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      基于特征選擇聚類方法的稀疏TSK模糊系統(tǒng)
      基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
      五位一體流量平穩(wěn)控制系統(tǒng)
      龙江县| 洛南县| 慈溪市| 松溪县| 广安市| 香格里拉县| 黔西| 中山市| 井陉县| 云南省| 正定县| 宁化县| 长宁县| 舒兰市| 江永县| 炉霍县| 福鼎市| 绥江县| 黄陵县| 阳曲县| 左权县| 长宁区| 平顺县| 大城县| 集贤县| 惠东县| 河北省| 和田县| 淳化县| 横山县| 平泉县| 荥经县| 抚松县| 方正县| 黔南| 五河县| 芮城县| 安新县| 霍山县| 贵溪市| 大理市|