• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于機器學(xué)習(xí)的CSE-CIC-IDS2018入侵檢測數(shù)據(jù)集優(yōu)化降維分析*

      2021-08-07 06:19:58劉江豪張安琳黃子奇黃道穎陳孝文
      火力與指揮控制 2021年7期
      關(guān)鍵詞:決策樹分類器準(zhǔn)確率

      劉江豪,張安琳,黃子奇,黃道穎*,陳孝文

      (1.鄭州輕工業(yè)大學(xué)計算機與通信工程學(xué)院,鄭州 450000;2.北方信息控制研究院集團有限公司,南京 211153;3.鄭州輕工業(yè)大學(xué)工程訓(xùn)練中心,鄭州 450000)

      0 引言

      沒有網(wǎng)絡(luò)安全就沒有國家安全。全球大國戰(zhàn)略競爭不斷加劇,隨著大數(shù)據(jù)、人工智能以及物聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)攻擊更加頻繁,攻擊方式日新月異,網(wǎng)絡(luò)安全問題呈現(xiàn)出更為嚴(yán)峻的態(tài)勢。為保障網(wǎng)絡(luò)和信息化的穩(wěn)步發(fā)展,各國逐步完善網(wǎng)絡(luò)空間安全國家戰(zhàn)略,網(wǎng)絡(luò)作戰(zhàn)能力的提升將是國防安全的新重點[1]。入侵檢測作為網(wǎng)絡(luò)安全系統(tǒng)的第二道防線,在識別日益增多的網(wǎng)絡(luò)入侵行為方面引起眾多研究者的關(guān)注。

      入侵檢測系統(tǒng)(Intrusion Detection System,IDS)在部署前要進行大量的測試、評估和調(diào)整,需要對帶有入侵和異常行為的標(biāo)記流量進行系統(tǒng)評估。因此,所用測試數(shù)據(jù)集的質(zhì)量對入侵檢測系統(tǒng)的性能起著至關(guān)重要的作用[2]?;诰W(wǎng)絡(luò)的理想數(shù)據(jù)集應(yīng)該包含最新攻擊行為和正常用戶行為的真實網(wǎng)絡(luò)流量,不僅正確標(biāo)記、公開可用,而且需跨越較長的時間[3]。但理想的入侵檢測數(shù)據(jù)集并不存在,通常研究人員使用的數(shù)據(jù)集都是次優(yōu)的。常用的實驗分析基準(zhǔn)數(shù)據(jù)集有KDD-Cup99 和NSL-KDD 等,目前所做的研究都是基于這些舊數(shù)據(jù)集[4]。但這些數(shù)據(jù)集存在著一些致命問題:沒有考慮到現(xiàn)代入侵檢測需要過濾的更高級的威脅,不能反映最新、最真實的網(wǎng)絡(luò)流量特性,缺乏多樣性[5]。

      CSE-CIC-IDS2018 入侵檢測數(shù)據(jù)集是通信安全機構(gòu)(CSE)和加拿大網(wǎng)絡(luò)安全研究所(CIC)合作項目。研究人員在其早期數(shù)據(jù)集版本CIC-IDS2017上做了大量的研究工作,文獻[6]認為其不僅包含最新的網(wǎng)絡(luò)攻擊,而且滿足現(xiàn)實世界攻擊的所有標(biāo)準(zhǔn),幾乎沒有重大缺陷。CSE-CIC-IDS2018 數(shù)據(jù)集相較于之前的CIC-IDS2017 更為龐大,但其中網(wǎng)絡(luò)流量包含許多與入侵檢測無關(guān)或相關(guān)性很小的特征。當(dāng)分析大量數(shù)據(jù)時,這些冗余特征會增加計算工作量,降低檢測速度,影響入侵檢測系統(tǒng)的整體性能。但目前對CSE-CIC-IDS2018 數(shù)據(jù)集進行的入侵檢測研究還沒有太多的文獻可供參考。本文的目的是通過機器學(xué)習(xí)的特征遞減式訓(xùn)練,分析各分類器與CSE-CIC-IDS2018 數(shù)據(jù)集的特征數(shù)量依賴關(guān)系,嘗試從候選特征中選出少數(shù)“優(yōu)秀”的特征,從而降低數(shù)據(jù)維數(shù),提高系統(tǒng)檢測效率[7]。

      1 CSE-CIC-IDS201 8 數(shù)據(jù)集

      CSE-CIC-IDS2018 入 侵 檢 測 數(shù) 據(jù) 集(https://www.unb.ca/cic/datasets/ids-2018.html)所提供的流量模擬真實網(wǎng)絡(luò)流量,由B-Profile 和M-Profile 兩部分組成[8]。B-Profile 負責(zé)描述用戶交互的抽象行為,生成正常的流量;M-Profile 用于描述和執(zhí)行攻擊場景,生成帶有攻擊行為的流量[9]。該數(shù)據(jù)集共包含7 種攻擊場景:

      1)暴力破解(Brute Force);

      2)心血漏洞(Heartbleed);

      3)僵尸網(wǎng)絡(luò)(Botnet);

      4)拒絕服務(wù)(Denial of Service,DoS);

      5)分布式拒絕服務(wù)(Distributed Denial of Service,DDoS);

      6)萬維網(wǎng)攻擊(Web Attacks);

      7)網(wǎng)絡(luò)滲透(Infiltration of the Network From Inside)。

      CSE-CIC-IDS2018 數(shù)據(jù)集以pcap 文件和csv文件兩種方式被提供。pcap 文件由捕獲的網(wǎng)絡(luò)流量和計算機的系統(tǒng)日志形成,主要用于數(shù)據(jù)挖掘技術(shù)的相關(guān)研究及應(yīng)用。csv 文件多用于人工智能的相關(guān)分析,由CICFlowMeter-V3 流量特征提取工具從捕獲的流量中提取。該工具可獲取流量的83 個統(tǒng)計特征,其中不包含數(shù)據(jù)集的標(biāo)簽,標(biāo)簽為研究人員根據(jù)實驗環(huán)境標(biāo)注。數(shù)據(jù)集的特征及說明如表1所示。

      表1 數(shù)據(jù)集特征

      初步分析可以發(fā)現(xiàn),其中包含許多與入侵檢測無關(guān)或相關(guān)性很小的冗余特征,實驗時可能會影響入侵檢測系統(tǒng)的整體性能。

      2 機器學(xué)習(xí)分類算法

      2.1 K 近鄰

      K 近鄰(k-Nearest Neighbor,KNN)于1968 年由Cover 和Hart 提出,是最簡單的機器學(xué)習(xí)算法之一,同時也是懶惰學(xué)習(xí)的著名代表。KNN 模型依據(jù)給定的訓(xùn)練集樣本,找出其中與之某種距離度量最靠近的k 個樣本,以這k 個臨近的樣本信息為依據(jù)來進行預(yù)測。KNN 模型構(gòu)造簡單,分類精度高,對異常數(shù)據(jù)、噪聲等有較高的容忍度,適用于多分類問題。

      2.2 決策樹

      決策樹(Decision Tree,DT)產(chǎn)生于20 世紀(jì)60年代。決策樹算法可以對數(shù)據(jù)進行擬合,執(zhí)行回歸任務(wù);也可以尋找決策邊界,完成分類問題;此外,也可實現(xiàn)多輸出任務(wù)。其基本思想是從訓(xùn)練的數(shù)據(jù)集中歸納出分類規(guī)則。經(jīng)典的決策樹算法有以信息增益為特征選擇準(zhǔn)則的ID3,以信息增益率為特征選擇準(zhǔn)則的C4.5 和基尼指數(shù)為特征選擇準(zhǔn)則的CART。決策樹模型準(zhǔn)確性高且生成模式簡單,對噪聲數(shù)據(jù)具有良好的魯棒性。

      2.3 隨機森林

      隨機森林(Random Forest,RF)是決策樹的一種集成,是當(dāng)下最強大的機器學(xué)習(xí)算法之一,由Leo Breiman 和Adele Cutler 提出[10]。隨機森林在決策樹生長時引入額外的隨機,降低了決策樹之間的關(guān)聯(lián)性,使模型的準(zhǔn)確性進一步提高。隨機森林模型訓(xùn)練速度較快,能處理高維數(shù)據(jù),且不易產(chǎn)生過擬合,對各類數(shù)據(jù)集有較強的適應(yīng)性。

      2.4 Softmax 回歸

      Softmax 回歸模型是Logistic 回歸模型在多類別分類問題上的一般化歸納,也可稱為多類別Logistic回歸。Softmax 回歸廣泛應(yīng)用于機器學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò),可以將多個神經(jīng)元的輸出映射在(0,1)區(qū)間中,從而得到樣本屬于某類別的分類概率。

      3 數(shù)據(jù)集處理相關(guān)算法

      3.1 特征重要性評估

      越重要的特征對分類器預(yù)測結(jié)果影響越大。通過隨機森林算法進行特征重要性評估,可以計算出每個特征對該樣本的貢獻值,以此進行特征篩選。

      隨機森林主要通過兩種方法來計算特征重要性,分別為平均不純度減少和平均準(zhǔn)確率減少。

      3.1.1 平均不純度減少

      平均不純度減少(Mean Decrease Impurity,MDI)用來說明每個特征對誤差的平均減小程度。底層實現(xiàn)的評分標(biāo)準(zhǔn)依據(jù)基尼重要性(Gini Importance)。基尼重要性評分VIMj通過基尼指數(shù)變化得到,即第j個特征在隨機森林的全部決策樹中節(jié)點分裂不純度的平均改變量。

      基尼指數(shù)計算公式為:

      其中,K 表示特征樣本類別數(shù),pmk表示k 類別在節(jié)點m 中的占比。

      節(jié)點m 處特征Xj的重要性為:

      其中,GIl和GIr表示節(jié)點m 左右分支的新節(jié)點的基尼指數(shù)。

      第i 顆樹中特征Xj的重要性為:

      若在有n 顆樹的隨機森林中,則特征Xj的重要性為:

      將重要性進行歸一化處理,得到基尼重要性評分VIMj,即特征重要性評分:

      3.1.2 平均準(zhǔn)確率減少

      平均準(zhǔn)確率減少(Mean Decrease Accuracy,MDA)核心思想是打亂特征的特征值順序,評估順序變動對模型準(zhǔn)確率的影響程度。該方法主要利用袋外誤差估計(The out-of-bag(OOB)error estimate)進行評估。對于樹Ti,使用OOB 樣本數(shù)據(jù)計算得出基本誤差e1,接著隨機打亂OOB 中特征j 的順序,得到誤差e2。該方法通過計算e1-e2來評估特征j的重要性。重要特征的順序變動會極大降低模型的準(zhǔn)確率,而不重要特征的亂序操作則對準(zhǔn)確率影響較小。

      相較MDI,MDA 計算量更大。通常機器學(xué)習(xí)中多用MDI 進行特征重要性計算。

      3.2 數(shù)據(jù)集平衡

      在使用不平衡數(shù)據(jù)集訓(xùn)練分類系統(tǒng)時,分類器很容易偏向多數(shù)類而忽略少數(shù)類。若選定隨機樣本用于分類器的訓(xùn)練和測試,很可能在訓(xùn)練集中找不到特定攻擊標(biāo)簽的實例,以至于面對此類的攻擊時無法檢測,致使構(gòu)建的檢測模型效果不佳。基于不平衡數(shù)據(jù)的分類模型研究主要分為數(shù)據(jù)層面研究和算法層面研究。

      在數(shù)據(jù)層面對數(shù)據(jù)集進行平衡,核心思想是采樣,主要包括欠采樣和過采樣。

      3.2.1 欠采樣

      欠采樣的基本思想是刪除其中一些多數(shù)類的部分樣本,主要方式是隨機采樣。

      3.2.2 過采樣

      過采樣的基本思想是增加少數(shù)類的樣本數(shù)量。相較于欠采樣,過采樣更加復(fù)雜,通過學(xué)習(xí)少數(shù)類樣本特征生成新的少數(shù)類樣本數(shù)據(jù),是一個生成合成數(shù)據(jù)的過程。

      SMOTE(Synthetic Minority Over-sampling Technique)是應(yīng)用最廣泛的過采樣算法,其基本原理是計算近鄰少數(shù)類樣本之間的線性差值,以此合成新的少數(shù)類樣本[11]。

      其中,i=1,2,…N;xnews表示算法合成的新樣本;x 表示少數(shù)類樣本;rand(0,1)表示0 到1 之間的隨機數(shù);y[i]表示x 的第i 個臨近樣本。

      4 數(shù)據(jù)集預(yù)處理

      在真實的網(wǎng)絡(luò)環(huán)境下,捕獲的數(shù)據(jù)可能含有大量的缺失值、噪聲,以及由于人工錄入而產(chǎn)生的異常信息,因此,需要對數(shù)據(jù)集信息進行預(yù)處理以提高數(shù)據(jù)的質(zhì)量[12]。

      本文主要對CSE-CIC-IDS2018 數(shù)據(jù)集的csv文件進行分析,csv 文件由10 個文件組成,如表2所示。由于文件較大,前期對各文件單獨進行處理,后期整合。預(yù)處理過程主要包括數(shù)據(jù)清洗、數(shù)據(jù)集合并、數(shù)據(jù)集平衡、特征選擇、數(shù)據(jù)歸一化和數(shù)據(jù)集分割等。

      表2 csv 文件信息

      4.1 數(shù)據(jù)清洗

      4.1.1 缺失值

      該數(shù)據(jù)集缺失值均出現(xiàn)在Flow Byts/s 特征下。在處理缺失數(shù)據(jù)問題時,通常采用刪除、補全和忽略等方法。由于該數(shù)據(jù)集十分龐大,且缺失比例較小,本文采用刪除元組的方法將出現(xiàn)缺失值的數(shù)據(jù)行刪除。

      4.1.2 無窮值

      特征Flow Byts/s 和Flow Pkts/s 下存在無窮值。在數(shù)據(jù)處理過程中,無窮值無法正常計算。該數(shù)據(jù)集無窮值基本都出現(xiàn)在正常流量中,對分類無影響,因此,將含有無窮值的信息行直接刪除。

      4.1.3 重復(fù)數(shù)據(jù)

      重復(fù)數(shù)據(jù)對入侵檢測系統(tǒng)的訓(xùn)練幾乎沒有幫助,因此,只保留第一次出現(xiàn)的數(shù)據(jù),將重復(fù)的數(shù)據(jù)刪除。

      4.1.4 異常值

      數(shù)據(jù)集錄入時,錯誤地將表頭信息多次寫入數(shù)據(jù)中,這里將其直接刪除。

      4.2 數(shù)據(jù)集合并

      為了得到完整的入侵檢測數(shù)據(jù)集,將經(jīng)過數(shù)據(jù)清洗的數(shù)據(jù)集文件合并。合并時,按照特征列對各文件進行縱向拼接。

      經(jīng)統(tǒng)計,合并后的數(shù)據(jù)集共有15 種標(biāo)簽,包括1 種正常流量的標(biāo)簽和14 種攻擊流量的標(biāo)簽,各標(biāo)簽分布和占比如表3 所示。

      表3 數(shù)據(jù)集標(biāo)簽分布

      4.3 數(shù)據(jù)集平衡

      通過表3 可以看出,數(shù)據(jù)集的正常流量占比超過85%,部分攻擊流量占比不足0.01%,流量占比嚴(yán)重不平衡。

      因計算機性能限制,從Benign 流量中隨機選取1 000 000 條用于本次實驗。使用SMOTE 算法對數(shù)據(jù)量較少的DDOS attack-LOIC-UDP、Brute Force-Web、Brute Force -XSS、SQL Injection 數(shù)據(jù)進行過采樣操作。數(shù)據(jù)過采樣操作僅在訓(xùn)練集中使用。

      4.4 特征選擇

      本文使用人工選擇和特征重要性分析相結(jié)合的方式進行特征選擇。

      異常檢測系統(tǒng)應(yīng)該根據(jù)網(wǎng)絡(luò)流量的行為特征進行分類,不應(yīng)偏向于IP 地址等具有特定網(wǎng)絡(luò)標(biāo)識的信息[13],因此,將涉及特定網(wǎng)絡(luò)標(biāo)識的5 個特征刪除,見表4 所示。

      表4 具有特定網(wǎng)絡(luò)標(biāo)識的5 個特征

      pandas.describe()方法可以描述數(shù)據(jù)的平均值、標(biāo)準(zhǔn)差、最小值等信息。通過計算發(fā)現(xiàn)文件中存在數(shù)據(jù)全為0 的10 個特征,見表5。在對分類器進行訓(xùn)練時,信息相同的數(shù)據(jù)不會對分類提供有效信息,因此,將這10 個特征刪除。

      表5 數(shù)據(jù)全為0 的10 個特征

      4.5 數(shù)據(jù)歸一化

      不同的指標(biāo)評價體系中,量綱或量綱單位通常是不同的。某些指標(biāo)可能因為不同數(shù)量級的變化區(qū)間而被忽視,因此,需要對數(shù)據(jù)進行歸一化處理以消除數(shù)據(jù)間的量綱影響。歸一化時,通常將數(shù)據(jù)映射到[0,1]區(qū)間內(nèi)。分別對數(shù)據(jù)集的每一特征維度進行歸一化操作,其基本原理可表示為:

      其中,x 為某一特征維度下的數(shù)據(jù)值,x'為經(jīng)過歸一化處理后的數(shù)據(jù)值,xmin為該特征維度下的最小值,xmax為該特征維度下的最大值。

      4.6 數(shù)據(jù)集分割

      將經(jīng)過其他預(yù)處理的數(shù)據(jù)集打亂順序并按照7∶3 的比例隨機拆分為訓(xùn)練集和測試集。設(shè)置固定的隨機數(shù)種子,確保進行不同輪次的分類操作時所使用的訓(xùn)練集和測試集是相同的。數(shù)據(jù)集分割操作可通過scikit-learn 中的train_test_split()方法實現(xiàn)。

      5 實驗與評估

      本文實驗在windows10 操作系統(tǒng),CPU 為Intel Core i5-9400F 2.90 GHz,內(nèi)存16 GB 的計算機上運行,處理過程主要使用python 的pandas、imblearn 和scikit-learn 等相關(guān)庫。

      每種分類器分別進行68 次訓(xùn)練,從訓(xùn)練所有特征開始,依次按照特征重要性評分從低到高刪除一個特征,直至剩余最后一個特征。訓(xùn)練過程中記錄各分類器的準(zhǔn)確率、精確率和訓(xùn)練時間。

      5.1 評估指標(biāo)

      入侵檢測應(yīng)盡量避免將攻擊流量識別為正常流量,即要同時保證具有較高的準(zhǔn)確率和精確率。因此,本文使用準(zhǔn)確率(Accuracy)、精確率(Precise)和訓(xùn)練時間對分類器運行的結(jié)果進行評估。準(zhǔn)確率是分類正確的正樣本和負樣本占樣本總數(shù)的比例,通常情況下,準(zhǔn)確率越高分類器越好;精確率(也稱查準(zhǔn)率)是分類正確的正樣本數(shù)占被分類為正樣本的樣本數(shù)的比例,體現(xiàn)了分類器的精度,在不平衡數(shù)據(jù)集分類中常作為重要評估指標(biāo)。

      其中,TP 表示正確地把正樣本預(yù)測為正,F(xiàn)N 表示錯誤地把正樣本預(yù)測為負,F(xiàn)P 表示錯誤地把負樣本預(yù)測為正,TN 表示正確地把負樣本預(yù)測為負。

      5.2 特征重要性計算

      本文使3.1.1 節(jié)所述平均不純度減少算法計算特征重要性評分。

      對經(jīng)過數(shù)據(jù)清洗和人工選擇特征后的數(shù)據(jù)集進行特征重要性計算,得到剩余68 個特征的特征重要性評分,如下頁圖1 所示。平均不純度減少計算過程中對結(jié)果進行了歸一化處理,所有特征的評分之和為1,其特征評分代表了該特征對數(shù)據(jù)分類的貢獻大小??梢钥吹?,第57 個特征評分最高,為0.150 698 48,說明該特征對分類器的分類貢獻最大;第60 個特征重要性次之,為0.072 224 96;第42個特征貢獻最小,僅為0.000 165 79。

      圖1 特征重要性評分

      根據(jù)特征重要性評分將原特征序號映射為特征重要性評分從小到大的新序號,其映射關(guān)系及特征重要性評分如表6 所示。

      表6 特征映射關(guān)系對照表

      可以看到,原評分最高的第57 個特征在新的排序中序號變?yōu)?8;原評分最低的第42 個特征在新的排序中序號變?yōu)?。按照特征重要性排序后的特征及其評分如下頁圖2 所示。

      圖2 特征重要性排序

      5.3 不同分類算法的優(yōu)化降維結(jié)果分析

      在接下來分類器的訓(xùn)練中,從訓(xùn)練包含所有特征的數(shù)據(jù)開始,按照5.2 節(jié)特征重要性排序,每輪訓(xùn)練依次刪除一個特征,直至剩余最后一個特征。即第1 次訓(xùn)練含有68 個特征的數(shù)據(jù),第2 次訓(xùn)練除了序號1 之外的剩余67 個特征的數(shù)據(jù),第3 次訓(xùn)練除了序號1 和2 之外的剩余66 個特征的數(shù)據(jù)……第67 次訓(xùn)練剩余序號為67 和68 特征的數(shù)據(jù),第68 次訓(xùn)練只包含第68 個特征的數(shù)據(jù)。每個分類器分別完成68 次訓(xùn)練,記錄不同特征個數(shù)對分類器評估指標(biāo)的影響。

      5.3.1 K 近鄰

      如5.1 節(jié)所述,分類器的評估指標(biāo)是通過準(zhǔn)確率、精確率和訓(xùn)練時間來表征的。

      圖3 為K 近鄰分類器評估指標(biāo)(準(zhǔn)確率和精確率)與特征數(shù)量的關(guān)系圖。分析各項指標(biāo)可以發(fā)現(xiàn),特征減少至12 個時,分類器兩指標(biāo)精度有微小的上升,考慮是產(chǎn)生干擾的非關(guān)鍵特征被刪除;特征數(shù)量為8~12 時,K 近鄰分類器取得較好的分類效果;特征少于4 時,準(zhǔn)確率和精確率急劇下降,特征數(shù)量過少,所提供信息不足以進行高精度流量分類。

      圖3 K 近鄰運行結(jié)果

      K 近鄰訓(xùn)練時間與特征數(shù)量關(guān)系如圖4 所示。特征數(shù)量基本和訓(xùn)練時間呈線性關(guān)系,特征數(shù)量越少,訓(xùn)練所用時間越短。K 近鄰算法每預(yù)測一個數(shù)據(jù)點的分類都需要重新進行一次全局的運算,相較于其他幾種分類器,訓(xùn)練時間較長。時間的波動部分,考慮是python 解釋器無法鎖頻導(dǎo)致[14]。

      圖4 K 近鄰訓(xùn)練時間

      5.3.2 決策樹

      決策樹評估指標(biāo)(準(zhǔn)確率和精確率)與特征數(shù)量關(guān)系如圖5 所示。特征數(shù)量為4 時,決策樹分類器取得最高準(zhǔn)確率,但精確率相對較低,有較多攻擊流量被識別為正常流量;特征數(shù)量為5~12 時準(zhǔn)確率較高;特征數(shù)量大于7 時精確率較為穩(wěn)定;特征數(shù)量小于5 時分類器準(zhǔn)確率和精確率急劇下降。

      圖5 決策樹運行結(jié)果

      決策樹訓(xùn)練時間與特征數(shù)量關(guān)系如圖6 所示。決策樹訓(xùn)練時間和特征數(shù)量呈線性關(guān)系,且較為穩(wěn)定,總體時間略高于隨機森林,低于K 近鄰和Softmax。

      圖6 決策樹訓(xùn)練時間

      5.3.3 隨機森林

      隨機森林評估指標(biāo)(準(zhǔn)確率和精確率)與特征數(shù)量關(guān)系如圖7 所示。隨機森林在特征數(shù)量為9-26時取得較好地分類效果;數(shù)量小于5 時準(zhǔn)確率開始大幅下降。

      圖7 隨機森林運行結(jié)果

      隨機森林訓(xùn)練時間與特征數(shù)量關(guān)系如下頁圖8所示。隨機森林訓(xùn)練時間與特征數(shù)量正相關(guān),但具有波動性。相較于其他分類器,隨機森林所需時間最短。

      圖8 隨機森林運行時間

      5.3.4 Softmax 回歸

      Softmax 回歸評估指標(biāo)(準(zhǔn)確率和精確率)與特征數(shù)量關(guān)系如圖9 所示。Softmax 分類器準(zhǔn)確率和精確率與特征數(shù)量正相關(guān)。特征數(shù)量小于6 時,各指標(biāo)具有較大的變化;特征數(shù)量大于6 時,各指標(biāo)數(shù)據(jù)穩(wěn)步提升,正確率最高接近92.8%。相較于其他幾種分類器,softmax 分類更依賴特征數(shù)量,使用中需要耗費更多的時間和計算資源。

      圖9 Softmax 回歸運行結(jié)果

      Softmax 回歸訓(xùn)練時間與特征數(shù)量關(guān)系如圖10所示。特征數(shù)量大于2 時,訓(xùn)練時間與特征數(shù)量呈線性關(guān)系,且較為穩(wěn)定。

      圖10 softmax 回歸運行時間

      6 結(jié)論

      本文對CSE-CIC-IDS2018 入侵檢測數(shù)據(jù)集進行了降維分析,使用平均不純度減少的計算方法對該數(shù)據(jù)集進行了特征重要性計算,通過K 近鄰、決策樹、隨機森林和Softmax 分類器的特征遞減式訓(xùn)練,探究了不同特征維數(shù)對該數(shù)據(jù)集分類效果的影響。

      實驗證明,在保證分類效果的前提下,使用決策樹分類算法最低可以將該數(shù)據(jù)集的依賴特征由83 個縮減至7 個,K 近鄰和隨機森林分類算法可以將依賴特征分別縮減至8 個和9 個,達到了降維、提升模型和計算性能等效果。

      猜你喜歡
      決策樹分類器準(zhǔn)確率
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      決策樹和隨機森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      高速公路車牌識別標(biāo)識站準(zhǔn)確率驗證法
      BP-GA光照分類器在車道線識別中的應(yīng)用
      電子測試(2018年1期)2018-04-18 11:52:35
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
      基于決策樹的出租車乘客出行目的識別
      乐安县| 鄂托克旗| 彭山县| 江阴市| 广丰县| 信宜市| 泽库县| 佛学| 凤庆县| 湾仔区| 桂阳县| 九台市| 章丘市| 清镇市| 渝北区| 邵阳市| 龙川县| 平泉县| 庆云县| 武定县| 古浪县| 平阴县| 巴里| 新巴尔虎左旗| 阳曲县| 嫩江县| 新源县| 商洛市| 米脂县| 新巴尔虎左旗| 建平县| 巴楚县| 米林县| 麦盖提县| 潢川县| 宾阳县| 探索| 延寿县| 河池市| 龙口市| 攀枝花市|