• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于半監(jiān)督多視圖特征協(xié)同訓(xùn)練的網(wǎng)絡(luò)惡意流量識別方法*

      2022-05-10 02:20:46盧宛芝丁要軍
      通信技術(shù) 2022年4期
      關(guān)鍵詞:視圖分類器準確率

      盧宛芝,丁要軍

      (甘肅政法大學 網(wǎng)絡(luò)空間安全學院,甘肅 蘭州 730070)

      0 引言

      隨著互聯(lián)網(wǎng)應(yīng)用的快速發(fā)展,加密技術(shù)和偽裝技術(shù)不斷升級,基于傳統(tǒng)深度報文解析(Deep Packet Inspection,DPI)的網(wǎng)絡(luò)流量識別方法準確率下降,使用機器學習和深度學習[1]進行網(wǎng)絡(luò)流量分類是目前較為準確的方法。傳統(tǒng)的有監(jiān)督機器學習需要大量標記樣本來訓(xùn)練分類模型,但獲取準確標記的網(wǎng)絡(luò)惡意流量訓(xùn)練樣本較困難,而現(xiàn)有的網(wǎng)絡(luò)流量采集設(shè)備很容易獲取到大量的未標記樣本,因此使用少量標記樣本和大量未標記樣本共同訓(xùn)練分類模型的半監(jiān)督學習受到了學界的高度重視。

      2007 年Erman 等人[2]首次提出將半監(jiān)督學習應(yīng)用到流量分類領(lǐng)域,解決了傳統(tǒng)流量分類方法無法對未知流量進行提取和分類的問題。Rezaei 等人[3]使用一維卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)模型,通過無監(jiān)督預(yù)訓(xùn)練和有監(jiān)督微調(diào),僅使用流的前幾個包就達到了比監(jiān)督學習更好的識別準確率。協(xié)同訓(xùn)練[4]作為半監(jiān)督領(lǐng)域的重要分支之一,在圖像識別等領(lǐng)域取得了很好的成績。網(wǎng)絡(luò)流量識別領(lǐng)域中,Wu 等人[5]提出了基于Co-training 的入侵檢測算法,在訓(xùn)練過程中可以提高檢測準確率,但訓(xùn)練時間較長且算法穩(wěn)定性有待提高。

      目前網(wǎng)絡(luò)流量的特征表示方式[6]分為字節(jié)流特征、統(tǒng)計特征、數(shù)據(jù)包的時間序列特征和有效載荷數(shù)據(jù),但現(xiàn)有的研究成果大多是基于一種特征表示方式進行網(wǎng)絡(luò)流量識別。本文提出一種融合原始字節(jié)流特征和網(wǎng)絡(luò)流統(tǒng)計特征的多特征視圖,通過協(xié)同訓(xùn)練結(jié)合大量未標記樣本進行網(wǎng)絡(luò)惡意流量識別,來提升模型的魯棒性。

      1 網(wǎng)絡(luò)流量特征表示

      1.1 字節(jié)流特征

      網(wǎng)絡(luò)流指具有相同五元組(源IP、源端口、目的IP、目的端口、傳輸層協(xié)議)的所有包。本文參考Wang 等人[7]對數(shù)據(jù)的處理方法,將原始流量pcap 切分為多個流,只選取每個流的前784 字節(jié),每個字節(jié)對應(yīng)取值范圍在[0~255]之間,輸入堆疊自動編碼器(Stacked Auto Encoder,SAE)進行無監(jiān)督的自動特征提取,編碼器輸出一組編碼后的高級特征作為協(xié)同訓(xùn)練的特征視圖a,如圖1 所示。

      圖1 SAE 生成字節(jié)流特征視圖a

      1.2 統(tǒng)計特征

      數(shù)據(jù)流可以通過IP 數(shù)據(jù)包統(tǒng)計特征[6],如包最小時間間隔、包總數(shù)、平均字節(jié)數(shù)等。定義數(shù)據(jù)集X=[X1,X2,…,XN]T是由N個網(wǎng)絡(luò)流量樣本組成的數(shù)據(jù)集,對于每個流量樣本Xi都有m個統(tǒng)計特征,即Xi=[xi1,xi2,…,xim],向量Y=[y1,y2,…,yN]T表示數(shù)據(jù)集中每個流樣本的類別,如Dos Hulk、Zeus 等。針對數(shù)據(jù)集81 個統(tǒng)計特征,為了降低訓(xùn)練模型對端口信息的依賴,刪除目的端口和源端口兩個特征,用隨機森林算法[8]進行特征選擇,選擇40 個統(tǒng)計特征作為視圖b,其中部分特征如表1 所示。

      表1 部分網(wǎng)絡(luò)流統(tǒng)計特征

      2 基于半監(jiān)督多視圖特征協(xié)同訓(xùn)練的網(wǎng)絡(luò)惡意流量識別方法

      2.1 基分類器

      本文使用極端隨機樹[9](Extremely Randomed Trees)作為協(xié)同訓(xùn)練的基分類器,并作為一種集成算法,在節(jié)點分裂時隨機從M個特征中選擇m個特征,以基尼系數(shù)或信息增益熵選擇最優(yōu)屬性進行分裂,分裂過程中不剪枝,直到生成一個決策樹(基分類器),最后利用投票決策對所有基分類器統(tǒng)計產(chǎn)生最終分類結(jié)果。一般來說,極端隨機樹算法優(yōu)于決策樹,具有更好的平滑性,能有效減小偏差和方差,對于一個z維輸入空間,極端隨機樹的集合可以產(chǎn)生一個連續(xù)的分段多線性逼近樣本lsz,為了證明這一點,考慮大小為Z的樣本數(shù)。

      式中:sz代表樣本z的大小;是一個n維的特征向量;ni為對應(yīng)輸出值

      設(shè)第j個屬性的樣本值通過增序取得,則樣本值可簡化為:

      特征函數(shù)I(i1,i2,…,in)(m)的區(qū)間為:

      基于此得出一個無限極端隨機樹的近似表示(m):

      式中:參數(shù)λM(i1,i2,…,in)由輸入樣本mi和輸出樣本ni決定。

      因此,分別使用原始字節(jié)流特征和網(wǎng)絡(luò)流統(tǒng)計特征兩種特征視圖,訓(xùn)練兩個基分類器,保證了視圖的差異性,能進一步提升最終集成模型的準確率。

      2.2 基于協(xié)同訓(xùn)練的網(wǎng)絡(luò)惡意流量識別

      協(xié)同訓(xùn)練算法最初的思想是在兩個獨立的屬性集上訓(xùn)練兩個分類器,并將其中一個分類器的預(yù)測樣本加入到另一個分類器的訓(xùn)練集中,如此反復(fù)訓(xùn)練,樣本得到擴充,分類界面得到修正。

      如圖2 所示,xi(i=1,2,3,…) 為有標簽數(shù)據(jù),xj(j=1,2,3,…)為無標簽數(shù)據(jù)。首先對標記的數(shù)據(jù)xi進行拆分,得到兩種不同視圖下的數(shù)據(jù)表示xi1,xi2;其次使用基分類器C1、C2 作為初始分類器訓(xùn)練兩種視圖;最后利用初始分類器估計未標記樣本的標簽置信度,將可信樣本加入訓(xùn)練數(shù)據(jù)集進行迭代訓(xùn)練,優(yōu)化分類器,當所有未標記的樣本都完成自我標記時訓(xùn)練結(jié)束。

      圖2 基于半監(jiān)督多視圖特征協(xié)同訓(xùn)練的網(wǎng)絡(luò)惡意流量識別方法結(jié)構(gòu)

      2.3 協(xié)同訓(xùn)練算法描述

      協(xié)同訓(xùn)練算法首先定義標記數(shù)據(jù)集L由x1和x2組成,記為L(x1,x2),并在x1和x2分別訓(xùn)練兩個分類器h1和h2;從未標記數(shù)據(jù)集U隨機選取u個樣本放入集合U中。算法如下:

      (1)有標簽的網(wǎng)絡(luò)流量訓(xùn)練集L,無標簽的網(wǎng)絡(luò)流量訓(xùn)練集U′;

      (2)循環(huán)K次用L的x1部分訓(xùn)練一個分類器h1,用L的x2部分訓(xùn)練一個分類器h2;

      (3)用h1對U′中的所有數(shù)據(jù)進行標記,從中選出p1,p2,p3個正標記和n個負標記,用h2對U′中的所有數(shù)據(jù)進行標記,從中選出p1,p2,p3個正標記和n個負標記;

      (4)選擇置信度(confidence score) 高 的2(p1+p2+p3)+2n個標記加入到L中;

      (5)隨機從U中選取2(p1+p2+p3)+2n個數(shù)據(jù)補充到U′中,直到所有的無標記數(shù)據(jù)全部加標記放入到L中時,結(jié)束循環(huán),訓(xùn)練終止。

      3 實驗結(jié)果及分析

      3.1 數(shù)據(jù)集

      CIC-IDS2017[10]數(shù)據(jù)集由加拿大網(wǎng)絡(luò)安全研究所(Canadian Institute for Cybersecurity,CIC)于2017 年發(fā)布,USTC-TFC2016[11]數(shù)據(jù)集是捷克共和國的捷克理工大學(Czech Technical University,CTU)的研究人員采集,如表2 和表3 所示。

      表2 數(shù)據(jù)集CIC-IDS2017 介紹

      表3 數(shù)據(jù)集USTC-TFC2016 介紹

      3.2 評價指標

      本實驗采用總體準確率、查準率、召回率、F1值來作為評估性能的指標。

      3.3 實驗環(huán)境

      實驗平臺使用的軟件框架是Pytorch 1.3.1,運行在Windows10 系統(tǒng)環(huán)境下,16 GB 內(nèi)存,Intel(R)Core(TM) i5-9300H @ 2.40 GHz 處理器,實現(xiàn)Cotraining 框架。

      3.4 協(xié)同訓(xùn)練雙視圖生成

      本文通過使用網(wǎng)絡(luò)原始流量的兩種特征表示方式,自然地將同一數(shù)據(jù)集分割成兩個相互獨立的視圖,分別作為協(xié)同訓(xùn)練模型的視圖a 和視圖b,詳細過程如下所示。

      (1)視圖a 的生成:本文參考王偉對網(wǎng)絡(luò)流數(shù)據(jù)的處理方法,將原始流量pcap 切分為多個流,只選取每個流的前784 字節(jié),輸入SAE 進行無監(jiān)督的自動特征提取,編碼器輸出一組編碼后的高級特征作為協(xié)同訓(xùn)練的特征視圖a。

      (2)視圖b 的生成:本文選用CICFlowMeter作為流特征提取工具,該工具能夠根據(jù)提交的pcap文件生成有81 個統(tǒng)計特征的字符分隔值(Comma-Separated Values,CSV)文件。由于實驗使用的兩個數(shù)據(jù)集中的CIC-IDS2017 已用CICFlowMeter 提取出了統(tǒng)計特征,本文即不再做相關(guān)的處理。對于數(shù)據(jù)集USTC-TFC2016,用CICFlowMeter 提取出81個統(tǒng)計特征。同時為了降低訓(xùn)練模型對端口信息的依賴,刪除目的端口和源端口兩個特征,按照隨機森林算法特征重要性排序,選擇出最優(yōu)的前40 個統(tǒng)計特征作為視圖a。

      3.5 相關(guān)參數(shù)確定

      3.5.1 SAE 生成特征視圖維數(shù)確定

      實驗從時間效率和準確率兩個角度來考慮,對視圖a 選取的前784 字節(jié),分別選擇10 到100 維的10 種情況進行實驗,確定經(jīng)過SAE 編碼后特征數(shù)目為多少時,SAE 提取到的特征分類效果最佳,實驗結(jié)果如圖3 所示。

      圖3 特征視圖維數(shù)確定

      當特征維數(shù)為70 時,堆疊自動編碼器SAE 模型的準確率最高達到80.2%,此后隨著維數(shù)的增加,模型準確率趨于平緩。因此,視圖a選取特征維數(shù)70 來進行實驗。

      3.5.2 標記樣本比例確定

      選取2.5%、5%、10%和15%的數(shù)據(jù)作為標記樣本,進行對比實驗,剩余的作為未標記樣本。

      如圖4(a)所示,對于數(shù)據(jù)集CIC-IDS2017,在迭代次數(shù)epoch 為20,標記樣本數(shù)為15%時,模型的準確率最高是99.3%;如圖4(b)所示,對于數(shù)據(jù)集USTC-TFC2016,在迭代次數(shù)epoch 為20,標記樣本比例為15%時,模型準確率最高到99.06%。因此確定迭代次數(shù)為20,標記樣本比例為15%,作為后續(xù)實驗的基礎(chǔ)。

      圖4 標記樣本比例確定

      3.5.3 基分類器的選擇

      協(xié)同訓(xùn)練通過兩個學習器之間的相互協(xié)作,在兩個不同的特征視圖上分別訓(xùn)練,提高模型的泛化能力和魯棒性。由于不同模型學習機制的差異,選擇不同的基學習器進行協(xié)同訓(xùn)練可以獲得更全面的數(shù)據(jù)信息。本文通過對比5 種基分類器選擇出最適用于網(wǎng)絡(luò)流量數(shù)據(jù)識別的協(xié)同訓(xùn)練基分類器,表4 和表5 分別介紹了不同基分類器對于模型的分類準確率對比。

      表4 數(shù)據(jù)集CIC-IDS2017 不同基分類器的分類準確率 %

      表5 數(shù)據(jù)集USTC-TFC2016 不同基分類器的分類準確率 %

      如表4 和表5 所示,分類器極端隨機樹(Extra TreesClassifier)的分類效果最好,在準確率、查準率和召回率上都比其他4 種分類器高,因此選擇ExtraTreesClassifier 作為協(xié)同訓(xùn)練框架的基分類器。

      3.6 與其他模型對比結(jié)果

      本文將提出的半監(jiān)督協(xié)同訓(xùn)練(co-training)方法分別與兩種監(jiān)督學習[7-12]和兩種半監(jiān)督學習[13,14]結(jié)果進行對比。監(jiān)督學習使用卷積神經(jīng)網(wǎng)絡(luò)和決策樹;半監(jiān)督學習使用階梯網(wǎng)絡(luò)(Ladder Net-work) 和標簽傳播算法(Lp_SVM 和Lp_Xgboost)。由于協(xié)同訓(xùn)練使用了兩種網(wǎng)絡(luò)流量特征,因此,在與其他半監(jiān)督和監(jiān)督學習對比時分別用兩種視圖進行實驗,選擇實驗結(jié)果最佳的視圖與協(xié)同訓(xùn)練對比,其中卷積神經(jīng)網(wǎng)絡(luò)使用視圖a,決策樹使用視圖b,階梯網(wǎng)絡(luò)和標簽傳播算法選擇視圖b。

      表6 介紹了在數(shù)據(jù)集CIC-IDS2017 和數(shù)據(jù)集USTC-TFC2016 上,協(xié)同訓(xùn)練模型與半監(jiān)督學習模型的對比結(jié)果。在CIC-IDS2017 上,協(xié)同訓(xùn)練模型的準確率、查準率、召回率、F1 值均高于其他半監(jiān)督模型,與階梯網(wǎng)絡(luò)相比,分別提高了1.44%、0.34%、2.32%和2.03%;與標簽傳播算法(LP_SVM)相比,分別提高了1.85%、20.72%、3.12%和13.32%;與標簽傳播算法(LP_Xgboost)相比,分別提高了1.46%、19.12%、2.62%和14.02%。在數(shù)據(jù)集USTC-TFC2016 上,協(xié)同訓(xùn)練模型的準確率、召回率均高于其他半監(jiān)督模型,與階梯網(wǎng)絡(luò)相比,分別提高了0.16%、0.19%;與標簽傳播算法相比,準確率、查準率、召回率和F1 值分別提高了2.4%、2.15%、2.21%和2.28%;與標簽傳播算法(LP_Xgboost)相比,分別提高了1.16%、0.9%、1.52%和1.47%。因此,通過上述對實驗結(jié)果的分析,驗證了本文提出的基于半監(jiān)督協(xié)同訓(xùn)練的網(wǎng)絡(luò)惡意流量識別方法的可行性。

      表6 協(xié)同訓(xùn)練模型與其他模型對比結(jié)果 %

      4 結(jié)語

      本文通過分析當前具有代表性的半監(jiān)督協(xié)同訓(xùn)練算法,結(jié)合協(xié)同訓(xùn)練的運行是建立在同一數(shù)據(jù)集中存在兩個充分冗余且獨立視圖的假設(shè)下,并考慮實際應(yīng)用環(huán)境中受到很多限制等因素,針對網(wǎng)絡(luò)流量數(shù)據(jù)量大且未標記數(shù)據(jù)易獲取等特點,融合字節(jié)流特征和統(tǒng)計特征這兩種特征表示方式,生成協(xié)同訓(xùn)練框架所需的視圖a 和視圖b,實現(xiàn)了基于半監(jiān)督的網(wǎng)絡(luò)惡意流量識別,保證了在少量標記樣本和大量未標記樣本下,半監(jiān)督協(xié)同訓(xùn)練模型仍具有對惡意流量識別的良好效果。然而,文章還存在一些不足之處,如在協(xié)同訓(xùn)練模型中訓(xùn)練兩視圖的分類器時,可以嘗試更多種的組合和更優(yōu)的分類器。下一步工作將在基分類器的選擇上作出更優(yōu)的調(diào)整,以及在網(wǎng)絡(luò)流量的特征工程上開展更深層次的研究。

      猜你喜歡
      視圖分類器準確率
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
      2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
      高速公路車牌識別標識站準確率驗證法
      BP-GA光照分類器在車道線識別中的應(yīng)用
      電子測試(2018年1期)2018-04-18 11:52:35
      5.3 視圖與投影
      視圖
      Y—20重型運輸機多視圖
      SA2型76毫米車載高炮多視圖
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      陕西省| 怀远县| 咸宁市| 霍城县| 额尔古纳市| 邻水| 望奎县| 南丰县| 永川市| 昂仁县| 玉田县| 正蓝旗| 寿阳县| 永宁县| 开远市| 浠水县| 信阳市| 启东市| 托克逊县| 平罗县| 岑巩县| 益阳市| 错那县| 高州市| 峡江县| 丹江口市| 岳普湖县| 太康县| 永仁县| 台州市| 独山县| 寿宁县| 元江| 城口县| 建阳市| 麻城市| 多伦县| 江孜县| 廊坊市| 越西县| 洮南市|