• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于集成學(xué)習(xí)的白流量檢測(cè)過(guò)濾系統(tǒng)

      2023-06-22 14:44:21楊韌盧賢濤
      現(xiàn)代信息科技 2023年3期
      關(guān)鍵詞:機(jī)器學(xué)習(xí)

      楊韌 盧賢濤

      摘? 要:目前主流的惡意流量檢測(cè)方法是對(duì)所有流量都進(jìn)行安全檢測(cè),耗時(shí)長(zhǎng),資源浪費(fèi)大。為節(jié)省資源并提高流量檢測(cè)效率,文章基于機(jī)器學(xué)習(xí)的白流量過(guò)濾算法開發(fā)了一套能快速辨別并過(guò)濾全流量中白流量的過(guò)濾系統(tǒng)。系統(tǒng)包括文件檢測(cè)模塊、算法模塊和可視化模塊三部分。實(shí)驗(yàn)證明,相較于傳統(tǒng)算法,文章提出的算法能在保證安全性的前提下大大提高流量過(guò)濾的效率,節(jié)省大量資源。

      關(guān)鍵詞:機(jī)器學(xué)習(xí);白流量過(guò)濾;惡意流量檢測(cè)

      中圖分類號(hào):TP311? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2096-4706(2023)03-0086-04

      White Traffic Detection and Filtering System Based on Ensemble Learning

      YANG Ren, LU Xiantao

      (School of Computer Science and Information Security, Guilin University of Electronic Technology, Guilin? 541004, China)

      Abstract: The current mainstream malicious traffic detection method is to perform security detection on all traffic, which takes a long time and wastes resources. In order to save resources and improve the efficiency of traffic detection, this paper develops a set of filtering system that can quickly identify and filter white traffic in full traffic based on the white traffic filtering algorithm of machine learning. The system includes three parts: file detection module, algorithm module and visualization module. Experimental results show that, compared with traditional algorithms, the algorithm proposed in this paper can greatly improve the efficiency of traffic filtering and save a lot of resources on the premise of ensuring security.

      Keywords: machine learning; white traffic filtering; detection of malicious traffic

      0? 引? 言

      近年來(lái),互聯(lián)網(wǎng)科技飛速發(fā)展,網(wǎng)絡(luò)安全也越來(lái)越重要,隨著互聯(lián)網(wǎng)的普及,各種各樣層出不窮的網(wǎng)絡(luò)攻擊會(huì)對(duì)網(wǎng)絡(luò)和用戶造成巨大的損失。傳統(tǒng)檢測(cè)惡意流量的方法是對(duì)全流量進(jìn)行檢測(cè),即對(duì)所有流量都進(jìn)行無(wú)差別的檢測(cè),找到并攔截惡意流量。但現(xiàn)階段網(wǎng)絡(luò)中的流量大多數(shù)是DNS、HTTPS、視頻流量等正常流量,惡意流量的占比往往不足千分之一,對(duì)所有流量都進(jìn)行檢測(cè)沒(méi)有必要,并且會(huì)造成大量資源的浪費(fèi),極大地消耗設(shè)備性能。

      針對(duì)傳統(tǒng)流量檢測(cè)方法的缺陷,文章介紹了一種基于集成學(xué)習(xí)的白流量檢測(cè)過(guò)濾系統(tǒng),從白流量的特征出發(fā),在進(jìn)入系統(tǒng)的全流量中,自動(dòng)識(shí)別并過(guò)濾無(wú)害的白流量,然后對(duì)剩下的可疑流量進(jìn)行分類,阻止惡意流量,輔助網(wǎng)絡(luò)運(yùn)維人員進(jìn)行后續(xù)工作,以達(dá)到提高檢測(cè)效率,節(jié)約時(shí)間和資源的目的。

      1? 系統(tǒng)總體框架設(shè)計(jì)

      本系統(tǒng)由文件檢測(cè)模塊、算法模塊、可視化模塊三部分組成,系統(tǒng)結(jié)構(gòu)圖如圖1所示,其中,文件檢測(cè)模塊用于檢測(cè)上傳文件是否為csv格式,以及上傳文件是否包含規(guī)定的流量特征;算法模塊主要作用是通過(guò)對(duì)進(jìn)入系統(tǒng)的流量進(jìn)行檢測(cè),然后判斷該流量是惡意流量還是白流量并對(duì)白流量進(jìn)行過(guò)濾??梢暬K的主要作用是在系統(tǒng)的安全檢測(cè)模塊檢測(cè)出惡意流量后,表格展示被判斷為惡意流量的流量,可視化惡意流量的占比,以及提供表格導(dǎo)出的功能。本系統(tǒng)主要通過(guò)集成學(xué)習(xí)算法——Voting Classifier算法對(duì)網(wǎng)絡(luò)流量進(jìn)行分類預(yù)測(cè),實(shí)驗(yàn)結(jié)果顯示,本系統(tǒng)對(duì)白流量的檢測(cè)準(zhǔn)確率達(dá)到了99.03%。

      2? 具體實(shí)施方法

      2.1? 算法設(shè)計(jì)

      文章設(shè)計(jì)了一種基于集成學(xué)習(xí)的軟件定義網(wǎng)絡(luò)DDOS攻擊協(xié)同防御方法,如圖2所示。

      其具體步驟如下:

      步驟1:?jiǎn)?dòng)SDN控制器進(jìn)行流量數(shù)據(jù)采集,收集正常流量和攻擊流量的數(shù)據(jù),并將數(shù)據(jù)存儲(chǔ)在CSV文件中。需要監(jiān)控和采集的特性和參數(shù)如下:

      (1)IP源的速度:該特性給出了在特定時(shí)間間隔內(nèi)進(jìn)入網(wǎng)絡(luò)的TP源的總數(shù)??s寫為SSIP,定義為式(1):

      (1)

      其中SumIPsrc為每個(gè)流進(jìn)入的IP源總數(shù),T為采樣時(shí)間間隔。檢測(cè)系統(tǒng)每T秒進(jìn)行一次流量監(jiān)控和數(shù)據(jù)采集,并保存在該時(shí)間段內(nèi)的源IP個(gè)數(shù)。控制器需要有足夠的正常流量和攻擊流量數(shù)據(jù),機(jī)器學(xué)習(xí)算法才能預(yù)測(cè)攻擊。對(duì)于普通攻擊,SSIP通常較低,而對(duì)于攻擊,計(jì)數(shù)通常較高。

      (2)流量計(jì)數(shù):每個(gè)進(jìn)入網(wǎng)絡(luò)的流量都有一個(gè)特定的流量計(jì)數(shù)。正常流量比DDOS攻擊流量少。

      (3)流量表項(xiàng)的速度:在一定時(shí)間間隔內(nèi),網(wǎng)絡(luò)中交換機(jī)的流量表項(xiàng)總數(shù)??s寫為SFE,定義為式(2):

      (2)

      這是攻擊流量檢測(cè)的一個(gè)非常相關(guān)的特征,因?yàn)樵贒DOS攻擊的情況下,流量表項(xiàng)的數(shù)量在固定的時(shí)間間隔內(nèi)會(huì)比正常流量的流量表項(xiàng)的速度值顯著增加。

      (4)流量對(duì)比值:指在T個(gè)時(shí)間段內(nèi),交換機(jī)流入的流量條目總數(shù),即交互IP數(shù)除以總流量??s寫為RPF,定義為式(3):

      (3)

      其中SrcIP為網(wǎng)絡(luò)流中協(xié)作IP的總數(shù),N為總IP數(shù)。在正常流量情況下,第i條流的IP源與第j條流的目的IP相同,第j條流的IP源與第i條流的目的IP相同。這說(shuō)明了一個(gè)交互流,而當(dāng)它是DDOS攻擊流量時(shí)就不是這樣了。受到攻擊時(shí),到達(dá)目標(biāo)主機(jī)的時(shí)間T的流表項(xiàng)迅速增加,目標(biāo)主機(jī)無(wú)法響應(yīng)。因此,當(dāng)DDOS攻擊開始時(shí),攻擊流量會(huì)突然減少。將協(xié)作流總數(shù)除以總流量,使該檢測(cè)參數(shù)可擴(kuò)展到不同運(yùn)行條件下的網(wǎng)絡(luò)。

      步驟2:將收集到的數(shù)據(jù)放入檢測(cè)模型進(jìn)行訓(xùn)練,具體如下:

      (1)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理和特征降維。首先進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化,接著進(jìn)行特征降維。通過(guò)結(jié)合過(guò)濾法和嵌入法的降維算法,能夠盡可能地避免出現(xiàn)特征選擇偏差及彌補(bǔ)各單一特征選擇算法的不足。選用過(guò)濾法中的兩種特征選擇算法卡方驗(yàn)證與互信息算法,以及嵌入法中的兩種特征選擇算法輕量級(jí)高校梯度提升樹(LGBM)與極限隨機(jī)樹算法計(jì)算特征貢獻(xiàn)(權(quán)重)的排序。在四個(gè)算法結(jié)果子集中采用Voting投票策略選擇出權(quán)重綜合較高的特征集合作為最優(yōu)特征子集。

      (2)引入集成學(xué)習(xí)中的多樣性度量進(jìn)行基分類器間的組合效果評(píng)估,選擇優(yōu)質(zhì)的異質(zhì)集成學(xué)習(xí)基分類器模型。對(duì)于擬選擇的基分類器模型采用貝葉斯優(yōu)化參數(shù),通過(guò)計(jì)算模型的準(zhǔn)確率(ACC)和曲線下面積(AUC),完成第一次的基分類器過(guò)濾。

      模型ACC的計(jì)算公式如式(4)所示:

      (4)

      式(4)中,TP表示預(yù)測(cè)值與實(shí)際值一致且均為正值的樣本數(shù);FP表示預(yù)測(cè)值為正且真值為負(fù)的樣本數(shù);TN表示預(yù)測(cè)值與實(shí)際值一致且均為負(fù)值的樣本數(shù);FN表示其預(yù)測(cè)值為負(fù)值且其真值為正值的樣本數(shù)。

      AUC使用受試者工作特征ROC曲線,其計(jì)算方法如式(5)所示,AUC為1則對(duì)應(yīng)理想分類器,其表示公式為:

      (5)

      式(5)中M、N分別表示正負(fù)樣本個(gè)數(shù),表示正樣本i的排序編號(hào),M*N表示隨機(jī)從正負(fù)樣本各取一個(gè)情況數(shù)。

      (3)采用基于Bagging集成算法的加權(quán)投票機(jī)制進(jìn)行步驟(2)選擇基分類器模型的集成。系統(tǒng)獲取基分類器的ROC曲線并根據(jù)ROC曲線計(jì)算AUC值,隨后使用準(zhǔn)確率和AUC值作為加權(quán)投票機(jī)制的權(quán)重。分類器間集成賦權(quán)函數(shù)如式(6)所示:

      (6)

      式(6)中,Uaoc,i表示第i個(gè)基學(xué)習(xí)器的ROC曲線未覆蓋的面積(Uaoc,i=1-AUC)和分別為所有基學(xué)習(xí)器中ROC曲線未覆蓋面積的最大值和最小值,ei、eb、ew分別表示第i個(gè)分類器準(zhǔn)確率、集合中準(zhǔn)確率最低的分類器準(zhǔn)確率以及集合中準(zhǔn)確率最高的分類器準(zhǔn)確率。

      步驟3:將步驟(3)生成的集成模型嵌入SDN控制器,啟動(dòng)DDOS攻擊檢測(cè)模塊。當(dāng)正常流量產(chǎn)生時(shí),檢測(cè)模型算法將其預(yù)測(cè)為正常流量,當(dāng)有攻擊流量產(chǎn)生時(shí),立即將其檢測(cè)為DDOS攻擊,并阻斷其進(jìn)入的端口。若某個(gè)端口被阻斷,控制器仍然允許其他端口的正常流量通過(guò)??刂破髟谝欢螘r(shí)間后解除阻塞端口并重新開始檢測(cè),如果攻擊仍然活躍,它會(huì)再次檢測(cè)并阻塞該端口。只要攻擊持續(xù),阻塞就會(huì)持續(xù)下去。

      2.2? 模型的訓(xùn)練

      2.2.1? 數(shù)據(jù)集的選擇

      本系統(tǒng)采用IDS 2017以及Darknet 2020數(shù)據(jù)集用作模型的訓(xùn)練集。數(shù)據(jù)集包含14種現(xiàn)代網(wǎng)絡(luò)攻擊流量類型,包括FTP-Patator、SSH-Patator、DoS GoldenEye等,如表1所示。文章僅使用該數(shù)據(jù)集中第一層中的良性流量作為訓(xùn)練集。

      2.2.2? 數(shù)據(jù)預(yù)處理

      原始流量數(shù)據(jù)是按時(shí)間保存的,實(shí)驗(yàn)中采用Python中的Pandas庫(kù),首先是Label標(biāo)準(zhǔn)化,原始數(shù)據(jù)中標(biāo)簽值是以字符串形式存儲(chǔ),運(yùn)用LabelEncoder()函數(shù)將數(shù)據(jù)的標(biāo)簽進(jìn)行編碼,接著進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化,防止有些特征的方差過(guò)大。最后是數(shù)據(jù)清洗,對(duì)于缺失的數(shù)據(jù)行、數(shù)據(jù)中無(wú)效的數(shù)值(包括NAN值與正負(fù)無(wú)窮大)的數(shù)據(jù)行進(jìn)行剔除,數(shù)據(jù)預(yù)處理過(guò)程如圖3所示。

      2.2.3? 現(xiàn)實(shí)流量采集以及工具使用

      本系統(tǒng)使用Wireshark軟件進(jìn)行流量采集,抓包軟件Wireshark具有非常強(qiáng)大的功能,可以捕獲網(wǎng)卡上的特定流量信息。文章采IDS 2017數(shù)據(jù)集,IDS 2017數(shù)據(jù)集使用CICFlowMeter作為流特征提取工具,能夠根據(jù)提交的.pcap文件生成有多個(gè)特征的csv文件,使用方法有兩種:在線和離線模式。在線模式可以實(shí)時(shí)監(jiān)控并產(chǎn)生特征,監(jiān)聽結(jié)束之后可以保存到本地;離線模式是提交一個(gè).pcap文件,得到一個(gè)包含特征的csv文件。

      2.2.4? 特征重要性及特征降維

      在進(jìn)行現(xiàn)實(shí)流量采集過(guò)程中發(fā)現(xiàn),對(duì)于不同的流量數(shù)據(jù),使用CICFlowMeter特征提取工具,并不都能獲得類似IDS 2017中的78個(gè)完整特征,文章采用SKLearn庫(kù)中的feature_importances_方法進(jìn)行特征降維,采取10次特征重要性提取,對(duì)決策樹、隨機(jī)森林以及極限隨機(jī)數(shù)得出的重要性進(jìn)行排序,如表2所示。分別選擇Destination Port、Fwd Packet Length Max等一共18個(gè)特征進(jìn)行訓(xùn)練。如圖4所示。

      2.3? 模型訓(xùn)練與參數(shù)設(shè)計(jì)

      在實(shí)際數(shù)據(jù)測(cè)試中,發(fā)現(xiàn)對(duì)于音頻流量等RandomForestClassifier的預(yù)測(cè)準(zhǔn)確率會(huì)比ExtraTreesClassifier高,但對(duì)于視頻流量以及broswing流量結(jié)果卻恰恰相反,于是本算法模型加入了集成學(xué)習(xí)算法,對(duì)于上述兩個(gè)分類器的預(yù)測(cè)結(jié)果,VotingClassifier選擇voting='hard'參數(shù)。分類器參數(shù)如表3所示。

      對(duì)于IDS 2017中2 604 998條數(shù)據(jù),使用SKLearn中的train_test_split選用test_size=.20,random_state=42參數(shù)劃分測(cè)試訓(xùn)練集進(jìn)行模型的訓(xùn)練,訓(xùn)練集白流量與惡意流量分別為435 076與429 619條數(shù)據(jù)進(jìn)行模型訓(xùn)練,白流量與惡意流量占比約為1:1。

      3? 實(shí)驗(yàn)測(cè)試

      3.1? 精確值測(cè)試

      文章通過(guò)以下步驟完成精確值測(cè)試:

      (1)首先是準(zhǔn)確率測(cè)試,使用SKLearn中的train_test_split選用test_size=.20,random_state=42參數(shù)劃分測(cè)試訓(xùn)練集進(jìn)行模型的訓(xùn)練,得到的172 654條測(cè)試集。用score()對(duì)預(yù)測(cè)結(jié)果與標(biāo)簽進(jìn)行比較打分,得出RandomForest準(zhǔn)確率為98.89%,ExtraTreesClassifier準(zhǔn)確率為98.91%,集成學(xué)習(xí)準(zhǔn)確率為99.03%。

      (2)使用Darknet中良性流量作為測(cè)試集,精確度如表4所示。

      (3)使用自己采集的真實(shí)數(shù)據(jù)集,運(yùn)用Wireshark捕捉的兩份數(shù)據(jù)集,分別為僅包含http協(xié)議數(shù)據(jù)realtime.csv以及包含視頻流量,音頻流量,Chat以及Email流量等的正常網(wǎng)絡(luò)流量srcdata.csv,兩個(gè)數(shù)據(jù)集的預(yù)測(cè)準(zhǔn)確率都為100%。

      3.2? 時(shí)間與占用內(nèi)存測(cè)試

      RandomForest測(cè)試所消耗時(shí)間為11 ms,ExtraTreesClassifier測(cè)試所消耗時(shí)間為11 ms,集成學(xué)習(xí)測(cè)試所消耗時(shí)間為42 ms。在算法運(yùn)行期間,通過(guò)調(diào)用Windows任務(wù)管理器觀察可知,此算法占用內(nèi)存約為5 GB大小。

      4? 結(jié)? 論

      互聯(lián)網(wǎng)發(fā)展越來(lái)越快,網(wǎng)絡(luò)中的流量也越來(lái)越多,流量檢測(cè)技術(shù)也越來(lái)越智能。傳統(tǒng)的檢測(cè)方法耗時(shí)太長(zhǎng),占用資源太多,檢測(cè)效率也相對(duì)低下。文章基于集成學(xué)習(xí),通過(guò)多種方式,開發(fā)出了安全,高效的白流量檢測(cè)技術(shù),大大節(jié)省了檢測(cè)時(shí)間,解放了大量資源,有很大的應(yīng)用價(jià)值和市場(chǎng)潛力,順應(yīng)了時(shí)代的發(fā)展。

      本系統(tǒng)雖然已經(jīng)實(shí)現(xiàn)了預(yù)期功能,但是仍需在實(shí)踐中繼續(xù)改進(jìn)、完善,比如本系統(tǒng)占用的內(nèi)存達(dá)到了5 GB大小,在后續(xù)開發(fā)中可以通過(guò)改進(jìn)算法等方式進(jìn)一步壓縮。

      參考文獻(xiàn):

      [1] 李中魁.基于動(dòng)態(tài)閾值的網(wǎng)絡(luò)流量異常檢測(cè)方法研究與實(shí)現(xiàn) [D].成都:電子科技大學(xué),2010.

      [2] JIN S,YEUNG D S . A covariance analysis model for DDoS attack detection [C]//IEEE International Conference on Communications.IEEE,2004:1882-1886.

      [3] 孫知信,張玉峰.基于多維支持向量機(jī)的P2P網(wǎng)絡(luò)流量識(shí)別模型 [J].吉林大學(xué)學(xué)報(bào):工學(xué)版,2010,40(5):1298-1302.

      [4] 左進(jìn),陳澤茂.基于改進(jìn)K均值聚類的異常檢測(cè)算法 [J].計(jì)算機(jī)科學(xué),2016,43(8):258-261.

      [5] 張德慧,張德育,劉清云,等.基于粒子群算法的BP神經(jīng)網(wǎng)絡(luò)優(yōu)化技術(shù) [J].計(jì)算機(jī)工程與設(shè)計(jì),2015,36(5):1321-1326.

      作者簡(jiǎn)介:楊韌(2001—),男,漢族,安徽寧國(guó)人,本科在讀,研究方向:網(wǎng)絡(luò)安全技術(shù)。

      收稿日期:2022-09-06

      基金項(xiàng)目:廣西大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃立項(xiàng)項(xiàng)目(202110595169)

      猜你喜歡
      機(jī)器學(xué)習(xí)
      基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
      基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
      基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
      前綴字母為特征在維吾爾語(yǔ)文本情感分類中的研究
      下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
      活力(2016年8期)2016-11-12 17:30:08
      基于支持向量機(jī)的金融數(shù)據(jù)分析研究
      基于Spark的大數(shù)據(jù)計(jì)算模型
      基于樸素貝葉斯算法的垃圾短信智能識(shí)別系統(tǒng)
      基于圖的半監(jiān)督學(xué)習(xí)方法綜述
      機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
      正宁县| 屯昌县| 唐河县| 台江县| 虞城县| 樟树市| 会理县| 龙里县| 神木县| 卓尼县| 交口县| 晋江市| 务川| 黄龙县| 台江县| 台中市| 平昌县| 长葛市| 盘锦市| 澄江县| 厦门市| 班玛县| 津市市| 垣曲县| 原阳县| 尉犁县| 新宁县| 延长县| 鹤庆县| 陆河县| 和田市| 庆城县| 紫阳县| 金山区| 成武县| 鹿邑县| 成都市| 隆林| 阿拉善右旗| 沙坪坝区| 正镶白旗|