SDN中基于LightGBM算法的入侵檢測研究

2021-09-08 02:06:38馬群胡佳卉于雅靜

中國新通信 2021年14期

關(guān)鍵詞：入侵檢測

馬群胡佳卉于雅靜

【摘要】? ? 針對當前軟件定義網(wǎng)絡中傳統(tǒng)的入侵檢測效率較低，為提高網(wǎng)絡入侵檢測的效率和準確性，本文提出一種基于LightGBM算法的入侵檢測模型。針對LightGBM算法準確性高、速度快可以處理高維數(shù)據(jù)等特點，采用LightGBM算法建模對入侵數(shù)據(jù)特征分析處理，然后與隨機森林、XGBoost、LSTM、SVM和邏輯回歸算法對比效果，最后對網(wǎng)格搜索算法進行改進，提高網(wǎng)格搜索算法優(yōu)化模型參數(shù)的效率。通過實驗分析，在模型的精確率、F1值，AUC值等評估指標上都有較好的效果，驗證了本文所提方法的有效性。

【關(guān)鍵詞】? ? 入侵檢測? ? LightGBM算法? ? 網(wǎng)格搜索算法

引言：

隨著網(wǎng)絡時代的發(fā)展，當前的網(wǎng)絡入侵檢測系統(tǒng)缺乏對頻繁變化的網(wǎng)絡環(huán)境的適應性。不安全的網(wǎng)絡環(huán)境會給人們在工作、生活和科研等方面造成多種損失。因此在網(wǎng)絡安全領(lǐng)域，入侵檢測成為一個重點研究方向。

目前，在網(wǎng)絡安全的研究領(lǐng)域有很多關(guān)于入侵檢測的文獻，其中，在文獻[1]中提出了一種提出了一種自適應集成學習模型。通過調(diào)整訓練數(shù)據(jù)的比例，可建立多棵決策樹。為了提高整體檢測效果，選擇了幾種基分類器，包括決策樹、隨機森林、KNN和DNN算法，并設計了一種集成自適應投票算法。實驗驗證，該方法有較好的檢測效果，而加入自適應投票算法的最終準確率更高。文獻[2]研究了基于深度學習的全方位入侵檢測系統(tǒng) （IDS），用于監(jiān)控和數(shù)據(jù)采集（SCADA）網(wǎng)絡，該系統(tǒng)能夠檢測時間上不相關(guān)和相關(guān)的攻擊，并通過集成方法結(jié)合 LSTM 和 FNN 進一步提高了 IDS 性能。文獻[3]設計了改進遺傳算法（GA）結(jié)合深度置信網(wǎng)絡（DBN）的入侵檢測模型，面對不同類型攻擊通過GA多次迭代，自適應生成最優(yōu)隱藏層數(shù)和神經(jīng)元數(shù)，使基于DBN的入侵檢測模型結(jié)構(gòu)緊湊檢測率高。實驗表明改進的入侵檢測模型有效提高了檢測效果。文獻[4]中通過利用SDN流的概念，采用了分層和重量級入侵檢測系統(tǒng)（IDS）的體系結(jié)構(gòu)，基于流的IDS使用基于受DARPA入侵檢測數(shù)據(jù)集訓練的支持向量機（SVM）的異常檢測算法。第一道防線檢測網(wǎng)絡上的任何入侵。當檢測到攻擊時，惡意流將鏡像到基于數(shù)據(jù)包的IDS，以進行進一步檢查和采取措施。文獻[5]針對當前復雜、高維的網(wǎng)絡環(huán)境給入侵檢測帶來的巨大壓力，分別構(gòu)建了基于主成分分析-BP神經(jīng)網(wǎng)絡（PCA-BP）和深度置信網(wǎng)絡（DBN）的入侵檢測模型，并通過實驗評估兩種檢測模型的效果，結(jié)果表明深度信念網(wǎng)絡在特征學習方面具有獨特的優(yōu)勢和良好的性能。

針對降低入侵檢測的誤報率、入侵數(shù)據(jù)流特征差異性較大等問題，本文提出一種基于LightGBM算法的入侵檢測方法，并對網(wǎng)格搜索算法進行改進，提高網(wǎng)格搜索算法優(yōu)化模型參數(shù)的效率。

一、算法原理

LightGBM（Light Gradient Boosting Machine）是微軟亞洲研究院2017年1月在GitHub上公布的一個開源、快速、高效的基于決策樹算法的提升（GBDT、GBRT、GBM和MART）框架[5]。在各種應用場景和各大競賽中，XGBoost已經(jīng)被證明是一種非常高效熱門的分類算法，但LightGBM是一種更加準確高效的新算法，它在保證準確率的前提下，內(nèi)存占用下降了大約3倍，速度比XGBoost提升了近10倍。

LightGBM是基于 Histogram 的決策樹算法，采用最優(yōu)的按葉子分裂的學習方法（Leaf- wise Learning），然而其它的提升算法分裂樹通常不采用這種方法，而是采用按層分裂的學習方法（Level-wise Learning）。

1. Level-wise Learning處理一次數(shù)據(jù)同時可分裂同一層的葉子，因此可實現(xiàn)多線程優(yōu)化，并能較好控制模型的復雜度，不易過擬合。但實際上因為很多葉子的分裂增益較低，沒必要進行搜索和分裂，而Level-wise又不加區(qū)別的分裂同一層的葉子，這就增加了很多沒必要的計算成本。

2. Leaf- wise Learning是每次從當前所有葉子中，找到分裂增益最大的進行分裂，然后重復此步驟。因此在分裂次數(shù)相同時，Leaf-wise可降低更多誤差，效率更高。但有一個明顯缺點：生成的決策樹可能深度過大，產(chǎn)生過擬合。因此LightGBM在Leaf-wise上增加最大深度限制，保證高效率同時防止過擬合，使算法更快速有效，因此有更高的精度，同時支持并行學習也會占用更小運行內(nèi)存。而其他任何已存在的提升算法都很難做到。

二、改進網(wǎng)格搜索算法

網(wǎng)格搜索算法一般用來優(yōu)化模型的參數(shù)，但對于一些參數(shù)多，取值范圍較大的模型來說，網(wǎng)格搜索會很耗時。因此，本文提出了一種改進的網(wǎng)格搜索算法，保證優(yōu)化模型參數(shù)效果的同時提高效率。

網(wǎng)格搜索算法是網(wǎng)格化處理作為變量的區(qū)域，即將算法參數(shù)可能取值的所有排列組合結(jié)果生成“網(wǎng)格”。然后采用窮舉法計算運行所有的網(wǎng)格點，尋找出滿足約束函數(shù)的目標函數(shù)值，最后通過比較得到最優(yōu)點[6]。由于計算所有的網(wǎng)格點耗費了大量計算時間，因此為提高計算效率，本文提出一種大范圍尋優(yōu)，小范圍求解的方法。

在保證LightGBM算法性能得到提高的前提下，也要考慮到每棵決策樹的準確性和樹的多樣性。在本文中使用改進的網(wǎng)格搜索算法尋求LightGBM最優(yōu)參數(shù)，選用模型的準確率作為目標函數(shù)值。改進網(wǎng)格搜索方法的具體步驟如下：

1.確定需要優(yōu)化的參數(shù)，相應的參數(shù)就是網(wǎng)格上的點，設定較長的網(wǎng)格間距來劃分網(wǎng)格;

2.將網(wǎng)格上的每一組參數(shù)全部遍歷一次，采用LightGBM算法的準確率作為評價標準，進行初步的大范圍尋優(yōu);

3.選擇準確率最高即誤差最小的一組數(shù)據(jù)，繼續(xù)縮短網(wǎng)格間距進行參數(shù)優(yōu)化。若袋外分數(shù)或網(wǎng)格間距滿足要求，則輸出結(jié)果，否則重復上述步驟。

三、實驗

3.1 優(yōu)化參數(shù)

在建模的參數(shù)調(diào)優(yōu)時，采用改進的網(wǎng)格搜索算法快速高效的調(diào)參。以參數(shù)“LightGBM中決策樹最大深度md”和“單棵樹的葉子數(shù)量ml為例”為例，采用改進的網(wǎng)格搜索算法對決策樹參數(shù)進行優(yōu)化。首先在進行大間距初步搜索，md的取值范圍確定為0

由上表可知最優(yōu)結(jié)果為md =11，ml =40時，此時準確率為0.816，成正比例增長，所以繼續(xù)以小間距細分網(wǎng)格，將md的取值范圍確定為9< md <15，網(wǎng)格間距設定為2;ml的取值范圍確定為29

再次細分網(wǎng)格的結(jié)果為md =10，ml =36時，準確率為0.862，已經(jīng)趨于穩(wěn)定。由此可初步確定md和ml兩個參數(shù)的取值，另外模型的其他參數(shù)也通過此方法求得模型的最優(yōu)參數(shù)。

3.2 模型評價指標

在對本文的入侵檢測模型進行評估時，主要采用了模型的精確率（Pre）、AUC（Area under the Curve of ROC）值、F1值和誤報率（FPR）等指標。AUC值可以更直觀的體現(xiàn)出ROC曲線所表達的結(jié)果，ROC曲線表示模型分類能力，AUC值就越大則ROC曲線就越高，說明模型的預測精度高。F1值兼顧了分類模型的準確率和召回率。誤報率表示被錯分到正常樣本類別的負樣本，在全部負樣本的所占比例，是入侵檢測模型的重要評估指標之一。

3.3 實驗結(jié)果分析

本文采用 OpenDaylight作為控制器，Mininet在VMware Workstation pro上運行的 Ubuntul6.04操作系統(tǒng)進行。所有的實驗均在CPU為2 CPU Cores i5-8265U，1.80GHZ，內(nèi)存為8G的計算機上運行，使用Python3.5構(gòu)建代碼進行實驗。同時，為了增加本文方法的說服力和對比性，加入隨機森林（Random Forest，RF）、XGBoost、邏輯回歸（Logistic Regression，LR）、支持向量機（Support Vector Machine，SVM）和長短期記憶人工神經(jīng)網(wǎng)絡（Long Short-Term Memory，LSTM）算法與本文方法進行比較。實驗結(jié)果如表3所示：

由上表各項模型評價指標可知，邏輯回歸模型的整體性能最弱，各項性能指標最低。同屬集成學習的隨機森林、XGBoost和LightGBM模型中，隨機森林模型的整體性能最弱，但強于邏輯回歸和SVM模型;XGBoost模型的性能中等，優(yōu)于邏輯回歸、隨機森林和SVM模型。SVM模型的各項評價指標強于邏輯回歸模型，但比其他模型較差。LSTM模型的性能僅次于LightGBM模型。由此可知，基于LightGBM算法的入侵檢測模型性能最好。

另外，本文分別測試了幾種模型在各種類型攻擊下的入侵檢測精確率，實驗結(jié)果如表4所示：

由表4各種類型檢測結(jié)果可知，LSTM模型和XGBoost模型的入侵檢測水平基本持平，隨機森林模型稍次之，LightGBM模型對Normal、Probe、U2R、R2L和DDos的幾種入侵檢測效果最好，說明本文所提基于LightGBM算法的入侵檢測模型具有良好的實際應用效果。

通過觀察入侵檢測模型的ROC曲線圖和AUC曲線下面積來對比幾種不同模型的分類性能。其中黑色實線為LightGBM算法的ROC曲線，LSTM算法的ROC曲線用黃色虛線表示，綠色實線代表XGBoost算法，黑色虛線代表隨機森林算法，藍色點虛線代表SVM算法，紅色點劃線代表LR算法，從圖1中可以看出基于LightGBM算法的入侵檢測模型ROC曲線明顯高于另外幾種模型的曲線圖，同樣，AUC值（曲線下面積值）最大，效果更優(yōu)，說明模型的分類能力較好。

另外，為了驗證網(wǎng)格搜索算法改進前后的效果，在此額外引入KS（Kolmogorov-Smirnov）值和KS曲線圖（用采用默認參數(shù)值和采用改進網(wǎng)格搜索算法優(yōu)化參數(shù)的C5.0進行對比，此處不加入其他幾種算法做比較的目的是因為C5.0模型的性能最好）。KS值越大，說明模型的預測準確性越好，KS>0.2時，模型就有較好的預測準確性。通過對比KS值和KS曲線圖可以體現(xiàn)出經(jīng)過改進的網(wǎng)格搜索算法的有效性，采用默認參數(shù)值的LightGBM模型的KS值為0.47，采用優(yōu)化參數(shù)后的LightGBM模型的KS值為0.59。圖2為LightGBM模型默認參數(shù)值的KS曲線圖。圖3為KS曲線對比圖，其中藍色虛線和藍色實現(xiàn)為默認參數(shù)值的KS曲線圖，黑色實線和黑色虛線為最優(yōu)參數(shù)值組合的KS曲線圖。

通過實驗結(jié)果對比分析，LightGBM算法的入侵檢測精確率為0.9887，F(xiàn)1值為0.9726，AUC值為0.9837?？傮w檢測效果優(yōu)于其他集成學習算法并且同樣優(yōu)于LSTM、LR和SVM算法。說明了本文所提方法的有效性。

四、結(jié)束語

本文針對降低入侵檢測的誤報率、入侵數(shù)據(jù)流特征差異性較大等問題，提出一種基于LightGBM算法的入侵檢測模型，并通過實驗對比了幾種集成學習算法和其他幾種機器學習算法的檢測效果，另外本文對網(wǎng)格搜索算法進行了改進，實驗證明基于LightGBM算法的入侵檢測模型性能優(yōu)于其他幾種集成學習算法，同樣優(yōu)于其他幾種對比算法，同時提高了優(yōu)化模型參數(shù)的效率，證明了改進網(wǎng)格搜索算法的有效性。

參? 考? 文? 獻

[1] X Gao， Shan C， Hu C， et al. An Adaptive Ensemble Machine Learning Model for Intrusion Detection[J]. IEEE Access， 2019， 7：82512-82521.

[2] Gao J， Gan L， Buschendorf F， et al. Omni SCADA Intrusion Detection Using Deep Learning Algorithms[J]. 2019.

[3] Zhang Y， Li P， Wang X. Intrusion Detection for IoT Based on Improved Genetic Algorithm and Deep Belief Network[J]. IEEE Access， 2019：1-1.

[4] Q. Schueller， K. Basu， M. Younas， M. Patel and F. Ball， “A Hierarchical Intrusion Detection System using Support Vector Machine for SDN Network in Cloud Data Center，” 2018 28th International Telecommunication Networks and Applications Conference （ITNAC）， Sydney， NSW， 2018， pp. 1-6， doi： 10.1109/ATNAC.2018.8615255.

[5] Duan T， Tian Y， Zhang H， et al. Intelligent Processing of Intrusion Detection Data[J]. IEEE Access， 2020， PP（99）：1-1.

[6] Perez-Diaz J A， Valdovinos I A， Choo K， et al. A Flexible SDN-based Architecture for Identifying and Mitigating Low-Rate DDoS Attacks using Machine Learning[J]. IEEE Access， 2020， PP（99）：1-1.