• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種面向類別不平衡SSL VPN加密流量識(shí)別方法

      2024-01-03 06:40:00王宇航姜文剛翟江濤王晰晨戴偉東

      王宇航 姜文剛* 翟江濤 王晰晨 戴偉東 張 帆

      1(江蘇科技大學(xué)電子信息學(xué)院 江蘇 鎮(zhèn)江 212003) 2(南京信息工程大學(xué)智能網(wǎng)絡(luò)與信息系統(tǒng)研究院 江蘇 南京 210000) 3(重慶理工大學(xué)兩江國(guó)際學(xué)院 重慶 400000)

      0 引 言

      互聯(lián)網(wǎng)技術(shù)與應(yīng)用的高速發(fā)展,使得網(wǎng)絡(luò)數(shù)據(jù)呈現(xiàn)出數(shù)據(jù)量大、維度高且不平衡的特性。因此數(shù)據(jù)集的平衡化對(duì)于提升加密流量的識(shí)別效果意義重大。常用的VPN技術(shù)有 MPLS VPN、IPSEC VPN、SSL VPN三種。MPLS VPN主要應(yīng)用在路由器和交換機(jī)等設(shè)備上,IPSEC VPN是 IPSec協(xié)議在VPN上的一種應(yīng)用,SSL VPN屬于應(yīng)用層VPN技術(shù)。相比于前兩種在使用上更加便捷,這使得SSL VPN在安全傳輸中得到了廣泛使用,但這也使得一些惡意流量有了可乘之機(jī)。一些非法應(yīng)用利用SSL VPN來(lái)繞過(guò)防火墻等安全設(shè)施的檢測(cè)。因此,對(duì)SSL VPN加密流量的有效識(shí)別對(duì)網(wǎng)絡(luò)信息安全具有重要意義。目前已有眾多學(xué)者在此方面進(jìn)行了大量研究,其中最流行的是合成少數(shù)過(guò)采樣技術(shù)(SMOTE)[1],通過(guò)將新合成的數(shù)據(jù)樣本或人工數(shù)據(jù)樣本引入到少數(shù)類樣本中,從而提高預(yù)測(cè)模型性能。文獻(xiàn)[2]使用堆疊自動(dòng)編碼器和卷積神經(jīng)網(wǎng)絡(luò)對(duì)網(wǎng)絡(luò)流量進(jìn)行分類,此方法獲得了較高的召回率。文獻(xiàn)[3]先利用SMOTE算法平衡原始數(shù)據(jù)集,再使用K-means聚類算法和支持向量機(jī)建立分類模型分類加密流量,取得了不錯(cuò)的識(shí)別效果。文獻(xiàn)[4]提出過(guò)采樣和隨機(jī)森林的改進(jìn)算法,從數(shù)據(jù)預(yù)處理、算法兩個(gè)方面平衡數(shù)據(jù)集,提升少數(shù)類的識(shí)別率。文獻(xiàn)[5]提出了GAN-SDAE-RF模型,使用生成式對(duì)抗網(wǎng)絡(luò)(GAN)改善樣本集中的不均衡分布,再使用棧式降噪自編碼器(SDAE)和隨機(jī)森林算法(RF)進(jìn)行入侵檢測(cè),雖然提高了少數(shù)類的檢測(cè)率,但該方法復(fù)雜度較高。王琳[6]提出一種將指紋識(shí)別與機(jī)器學(xué)習(xí)方法相結(jié)合識(shí)別SSL VPN 流量,雖然取得了91%以上的識(shí)別率,但是該方法需要手工提取流的特征。文獻(xiàn)[7]提出了一種適用于復(fù)雜網(wǎng)絡(luò)環(huán)境的基于卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)化識(shí)別模型,通過(guò)實(shí)驗(yàn)表明該方法能有效地識(shí)別加密流量的服務(wù)與應(yīng)用,然而,該方法忽略了復(fù)雜網(wǎng)絡(luò)環(huán)境下存在的網(wǎng)絡(luò)流量不平衡問(wèn)題。

      數(shù)據(jù)采樣技術(shù)是解決樣本不平衡問(wèn)題的一種典型方法。到目前為止,大多數(shù)數(shù)據(jù)采樣方法都是基于SMOTE、ADASYN和Borderline-smote的合成方法[8]。但是這些方法會(huì)錯(cuò)誤地?cái)U(kuò)寬少數(shù)類區(qū)域的邊界,導(dǎo)致多數(shù)類樣本被分類器誤分類。此外,由于只考慮最近鄰的樣本,這些方法還會(huì)生成非多樣性的數(shù)據(jù)樣本?;诖?本文提出基于遺傳染色體理論的數(shù)據(jù)集合成過(guò)采樣技術(shù)(NEDIL)對(duì)不平衡數(shù)據(jù)集進(jìn)行處理。再使用基于注意力機(jī)制的雙向GRU網(wǎng)絡(luò)流量識(shí)別模型對(duì)平衡后的數(shù)據(jù)集進(jìn)行應(yīng)用識(shí)別。通過(guò)實(shí)驗(yàn)表明SSL VPN加密流量的識(shí)別具有較高準(zhǔn)確率,取得了良好的實(shí)驗(yàn)效果。

      1 相關(guān)工作

      1.1 過(guò)采樣技術(shù)

      過(guò)采樣技術(shù)的基本思想是增加少數(shù)樣本數(shù)據(jù)的數(shù)量以平衡整個(gè)數(shù)據(jù)集[6]。最簡(jiǎn)單的方法是,隨機(jī)從少數(shù)類樣本中抽取一部分樣本數(shù)據(jù),對(duì)其復(fù)制后再添加到數(shù)據(jù)集中。但該方法只是實(shí)現(xiàn)了不同類別樣本數(shù)量上的平衡,對(duì)分類算法意義不大。甚至反而會(huì)使一些容易產(chǎn)生過(guò)擬合的分類器的性能下降。

      SMOTE算法對(duì)一般的過(guò)采樣方法進(jìn)行了改進(jìn),利用選定的原始樣本點(diǎn)與鄰近的同類樣本生成新的合成樣本,再將生成的新樣本插入數(shù)據(jù)集中。但該方法只是在一定程度上解決了樣本單一造成的過(guò)擬合現(xiàn)象,這是因?yàn)橹豢紤]最近鄰的樣本,會(huì)導(dǎo)致新生成的樣本與選定的原始樣本基本相同。

      為改進(jìn)SMOTE算法,Han等[9]提出了Borderline-SMOTE過(guò)采樣算法。因?yàn)樘幱谶吔缥恢玫臉颖靖菀妆诲e(cuò)分,所以在這個(gè)方法中只使用邊界區(qū)域內(nèi)的少數(shù)類樣本與鄰近的同類樣本來(lái)合成新樣本。但這會(huì)導(dǎo)致新合成的樣本被意外地引入到多數(shù)類的區(qū)域,使得少數(shù)類區(qū)域被錯(cuò)誤地?cái)U(kuò)大。

      1.2 門(mén)控單元GRU

      Cho等[10]提出了基于長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)的改進(jìn)網(wǎng)絡(luò)——門(mén)控循環(huán)單元(GRU)。它可以根據(jù)不同的時(shí)間尺度建立依賴關(guān)系,并決定信息流是否通過(guò)該單元。不同的是,LSTM有遺忘門(mén)、輸入門(mén)和輸出門(mén)三個(gè)門(mén),而GRU只有更新門(mén)和復(fù)位門(mén)。因此相比于LSTM,GRU的訓(xùn)練速度更快,其前向傳播公式如下:

      (1)

      (2)

      (3)

      (4)

      1.3 注意力機(jī)制

      注意力模型最近幾年在語(yǔ)音識(shí)別、自然語(yǔ)言處理等多個(gè)領(lǐng)域得到廣泛應(yīng)用,其核心目的是從眾多信息中選擇出對(duì)當(dāng)前任務(wù)目標(biāo)更關(guān)鍵的信息,增加感興趣區(qū)域,抑制無(wú)用信息。因此,本文將注意力機(jī)制引入到雙向GRU模型當(dāng)中,對(duì)不同特征賦予不同的權(quán)重,使模型能夠?qū)W⒂谟杏锰匦?提升模型分類能力。

      注意力機(jī)制可分為硬注意力和軟注意力兩種。硬注意力是一個(gè)隨機(jī)的預(yù)測(cè)過(guò)程,其核心原理在于直接限制深度學(xué)習(xí)模型當(dāng)中輸入內(nèi)容[10]。因?yàn)橛沧⒁饬Ω鼜?qiáng)調(diào)動(dòng)態(tài)變化,所以在時(shí)序預(yù)測(cè)的相關(guān)領(lǐng)域來(lái)說(shuō)并不是完全適合。而且,它的訓(xùn)練過(guò)程往往是通過(guò)增強(qiáng)學(xué)習(xí)來(lái)完成的,后期模型訓(xùn)練難度較大,導(dǎo)致模型的通用性比較差。軟注意力是一種確定性的注意力,在學(xué)習(xí)完成后,通過(guò)神經(jīng)網(wǎng)絡(luò)得到注意力的權(quán)重,在空間或者通道上,利用該權(quán)重直接加權(quán)全局上的信息作為輸入特征。軟注意力機(jī)制更關(guān)注區(qū)域或者通道?;谝陨戏治?本文將軟注意力機(jī)制引入到雙向GRU網(wǎng)絡(luò)中。

      2 SSL VPN加密流量識(shí)別模型

      考慮到在其他相同條件時(shí),類別平衡數(shù)據(jù)集往往會(huì)比類別不平衡的數(shù)據(jù)集取得更好的實(shí)驗(yàn)效果[6]。因此,本文在對(duì)數(shù)據(jù)集平衡化后,再進(jìn)行應(yīng)用識(shí)別。旨在使用一種基于遺傳染色體理論的數(shù)據(jù)集合成過(guò)采樣技術(shù)NEDIL,產(chǎn)生不同于父類的合成數(shù)據(jù),促進(jìn)少數(shù)類樣本集內(nèi)分布的多樣性。所提的基于遺傳理論的過(guò)采樣算法不同于遺傳算法,它將少數(shù)類樣本集模塊視為個(gè)體,而不是某一特定問(wèn)題的解決方案。與其他過(guò)采樣技術(shù)類似,在生成新的數(shù)據(jù)實(shí)例后,并不會(huì)丟失數(shù)據(jù)集中的少數(shù)類樣本實(shí)例,這與遺傳算法中父樣本或較老的父樣本在生成新的子樣本后死亡形成對(duì)比。

      王偉[11]提出網(wǎng)絡(luò)流量本質(zhì)上是一種時(shí)序數(shù)據(jù),是按照字節(jié)、幀、會(huì)話、整個(gè)流量層次化結(jié)構(gòu)組織起來(lái)的一維字節(jié)流。因此本文選擇基于注意力機(jī)制的雙向GRU網(wǎng)絡(luò)作為識(shí)別模型,可以根據(jù)不同的時(shí)間尺度建立依賴關(guān)系,并決定信息流是否通過(guò)該單元。既能克服RNN建模時(shí)梯度消失和爆炸的問(wèn)題,又比LSTM訓(xùn)練時(shí)間短,且出現(xiàn)的過(guò)擬合問(wèn)題較少。在引入注意力機(jī)制后,能夠提高重要時(shí)序特征的影響權(quán)重,抑制非重要時(shí)序特征,提升模型的分類效果。模型整體框架如圖1所示。

      圖1 SSL VPN流量識(shí)別模型

      2.1 NEDIL算法擴(kuò)充少數(shù)類訓(xùn)練集

      染色體理論揭示了,新后代從父母雙方獲得了50%的染色體,從而使新后代與父母雙方相似,但同時(shí)自身又都是獨(dú)一無(wú)二的。物種的性別有助于選擇兩個(gè)可以繁殖的異性成員,從而保持物種的多樣性。每當(dāng)一條染色體與不同性別的另一條染色體隨機(jī)地結(jié)合在一起,便產(chǎn)生了一個(gè)新的后代。因此,可以將該理論應(yīng)用到不平衡數(shù)據(jù)集,來(lái)生成少數(shù)類樣本集的新樣本,不僅能擴(kuò)充樣本數(shù)量,還能保持少數(shù)類樣本集的多樣性。

      專家們根據(jù)動(dòng)植物所處的環(huán)境和遺傳特征將它們分成不同的群體,以便在動(dòng)植物中產(chǎn)生特定的特征。在選育過(guò)程中,人們采用異交、近交和系交等方法分離動(dòng)植物種群,提升后代質(zhì)量。因此,將選擇動(dòng)物和植物育種背后的基本原則應(yīng)用到不平衡數(shù)據(jù)集,通過(guò)合理地度量相似性來(lái)分離少數(shù)類樣本集,以生成優(yōu)質(zhì)的父類,從而獲得優(yōu)質(zhì)的子類。

      因此,本文提出基于遺傳染色體理論的數(shù)據(jù)合成過(guò)采樣技術(shù)(NEDIL)。NEDIL通過(guò)將少數(shù)類樣本的特征視為染色體,從兩個(gè)不同的少數(shù)類樣本子集中獲取特征,生成既包含少數(shù)類樣本集共有特征,同時(shí)又含有自身特性的合成數(shù)據(jù)。生成合成數(shù)據(jù)主要包含3個(gè)階段。

      在第一階段,將少數(shù)樣本與多數(shù)樣本分開(kāi)后,計(jì)算少數(shù)樣本需要產(chǎn)生的樣本數(shù)T。因?yàn)楫?dāng)兩個(gè)父節(jié)點(diǎn)之間的差異性較大時(shí),往往會(huì)得到更為優(yōu)質(zhì)的后代。所以,先計(jì)算少數(shù)樣本的標(biāo)準(zhǔn)歐氏距離(NED),再根據(jù)樣本的NED值降序排列樣本,最后,將少數(shù)類樣本集中的數(shù)據(jù)與其對(duì)應(yīng)的NED值放在一起,形成距離矩陣。

      在第二階段,根據(jù)標(biāo)準(zhǔn)歐氏距離的大小將少數(shù)類樣本數(shù)據(jù)集分為兩部分。所有標(biāo)準(zhǔn)歐氏距離值大于或等于中間數(shù)據(jù)樣本的數(shù)據(jù)樣本被分到第一個(gè)子集,第二個(gè)子集包含其他數(shù)據(jù)樣本,兩個(gè)子集內(nèi)的單個(gè)樣本被順序標(biāo)記用于配對(duì)。有序取出兩個(gè)子集中標(biāo)簽相同的數(shù)據(jù),搭配作為“夫婦”。這樣保證了父類樣本不重疊,而且后續(xù)生成的樣本會(huì)駐留在少數(shù)邊界內(nèi),并填充分區(qū)過(guò)程形成的兩個(gè)簇之間的空間。

      在最后階段,通過(guò)聚合和計(jì)算每?jī)蓚€(gè)成對(duì)樣本數(shù)據(jù)的均值生成合成數(shù)據(jù)樣本,然后將其添加到少數(shù)類樣本中。與使用k近鄰的SMOTE算法和基于k-NN的技術(shù)來(lái)確定和生成一個(gè)新的合成數(shù)據(jù)的算法不同,該方法通過(guò)將兩個(gè)不太相似的樣本數(shù)據(jù)視為“男性”和“女性”來(lái)生成合成數(shù)據(jù)。使得新生成的數(shù)據(jù)非常獨(dú)特,但同時(shí)又與“父類”樣本數(shù)據(jù)相關(guān),這樣就保證了少數(shù)類數(shù)據(jù)集的多樣性。并且使用第一個(gè)父節(jié)點(diǎn)作為邊界,這樣所有后續(xù)生成的子節(jié)點(diǎn)都自動(dòng)駐留在父類的范圍內(nèi),避免新的合成樣本滲透到大多數(shù)類的區(qū)域。

      算法1給出了完整的過(guò)程,其中階段1在步驟1到步驟6中描述,第二階段從步驟7到步驟9,最后是步驟10到步驟14。

      算法1NEDIL數(shù)據(jù)合成過(guò)采樣技術(shù)

      輸入:由少數(shù)類樣本和多數(shù)類樣本組成的數(shù)據(jù)集N。

      輸出:平衡數(shù)據(jù)集。

      1.將數(shù)據(jù)集N分成少數(shù)類樣本數(shù)據(jù)集Nmin和多數(shù)類樣本數(shù)據(jù)集Nmaj。

      2.計(jì)算所需生成的少數(shù)類樣本的數(shù)目T。

      3.Xnew:合成數(shù)據(jù)的數(shù)組,初始值設(shè)為0。

      4.Xnewn:記錄生成的合成樣本的數(shù)量并輸出。

      5.計(jì)算每個(gè)少數(shù)類樣本與其中心點(diǎn)的標(biāo)準(zhǔn)歐氏距離。

      6.將距離值及其代表的數(shù)據(jù)樣本按降序保存在Nmindist中。

      7.找到中點(diǎn)或中間樣本數(shù)據(jù)Nmid=2/k。

      8.利Nmid用將Nmindist分為兩個(gè)子集,Nbin1={y1,y2,…,ymid},Nbin2={ymid+1,ymid+2,…,yk},yi屬于Nmindist。

      9.對(duì)于每一個(gè)yi屬于Nbin1和yi屬于Nbin2,按順序分配唯一標(biāo)簽Li,其中i=1,2,…,mid。

      10.fori=1,2,…,mid

      11. 分別從子集Nbin1、Nbin2中選擇數(shù)據(jù)ya,yb,它們的標(biāo)簽(Li)相同,即ya(Li)==yb(Li)。

      依據(jù)ya和yb的均值生成新的合成數(shù)據(jù)x。

      將x添加到集合Xnew并使Xnewn增加1。

      12.End for

      13.IfXnewn

      14.IfXnewn>T,將完成所需最終集的剩余數(shù)據(jù)樣本量除以最后一代上的節(jié)點(diǎn)數(shù),平均裁掉多余的合成樣本數(shù)據(jù)。

      2.2 基于注意力機(jī)制的雙向GRU網(wǎng)絡(luò)流量識(shí)別模型

      本文提出的基于注意力機(jī)制的雙向GRU網(wǎng)絡(luò)流量識(shí)別模型如圖2所示。模型包含數(shù)據(jù)預(yù)處理層、雙向GRU層、注意力層和全連接層四個(gè)部分。

      圖2 基于注意力機(jī)制的雙向GRU網(wǎng)絡(luò)流量識(shí)別模型

      (1) 數(shù)據(jù)預(yù)處理層:提取每條會(huì)話前N個(gè)數(shù)據(jù)包,并取每個(gè)數(shù)據(jù)包前M個(gè)字節(jié),若超出長(zhǎng)度則截?cái)?不足則補(bǔ)充0。必須在模型訓(xùn)練前,定義模型的超參數(shù)N和M,在這里取N=14,M=200。對(duì)于每個(gè)會(huì)話,本文共獲取2 800字節(jié)。每個(gè)字節(jié)都可以轉(zhuǎn)換為0到255之間的整數(shù)。GRU網(wǎng)絡(luò)的輸入是在時(shí)間步長(zhǎng)時(shí)固定的線性向量Xt。Xt的維數(shù)設(shè)為140,因此,我們可以推導(dǎo)出20個(gè)向量。將得到的向量組送入雙向GRU網(wǎng)絡(luò)進(jìn)行后續(xù)訓(xùn)練和測(cè)試。

      (5)

      (3) 注意力層:并非所有的向量對(duì)SSL VPN流量的應(yīng)用分類都有同等的貢獻(xiàn),所以應(yīng)該更加注意更有用的向量。因此,對(duì)于GRU_2在時(shí)間步長(zhǎng)t處得到的每個(gè)隱藏狀態(tài)ht,利用注意層為其配置權(quán)重α。因?yàn)榭偣灿?0個(gè)時(shí)間步長(zhǎng),所以t是一個(gè)在[1,20]范圍內(nèi)的整數(shù),得到加權(quán)向量α={α1,α2,…,α20}。注意力層向量s計(jì)算式如下:

      (6)

      權(quán)重因子αt的計(jì)算公式如下:

      (7)

      ut=tanh(Wwht+bw)

      (8)

      式中:Ww和uw表示權(quán)矩陣;bw表示偏差。注意力層的輸出作為全連接層的輸入。

      (4) 全連接層:全連接層中每個(gè)神經(jīng)元與注意力層的所有神經(jīng)元進(jìn)行全連接,整合注意力層中具有類別區(qū)分性的局部信息后,使用Softmax邏輯回歸進(jìn)行分類。

      3 實(shí) 驗(yàn)

      3.1 實(shí)驗(yàn)環(huán)境與設(shè)置

      根據(jù)不同的處理階段,本文實(shí)驗(yàn)環(huán)境有兩種:預(yù)處理階段,在Windows 10系統(tǒng),Python2.7環(huán)境下,基于scapy庫(kù)進(jìn)行流量提取。模型構(gòu)建及訓(xùn)練過(guò)程,Python3.6環(huán)境下,基于TensorFlow2.1完成模型的構(gòu)建以及訓(xùn)練調(diào)優(yōu)。為了防止實(shí)驗(yàn)偶然性,采用十折交叉驗(yàn)證實(shí)驗(yàn)。

      3.2 實(shí)驗(yàn)數(shù)據(jù)集

      本文采用的數(shù)據(jù)集是Lashkari等[12]發(fā)布的VPN-nonVPN數(shù)據(jù)集,共包含28 GB數(shù)據(jù)。該實(shí)驗(yàn)室的官網(wǎng)對(duì)數(shù)據(jù)集進(jìn)行了詳細(xì)介紹,并提供下載。本文選擇了6種應(yīng)用類型進(jìn)行識(shí)別,具體實(shí)驗(yàn)數(shù)據(jù)集如表 1 所示。可見(jiàn)其存在不平衡現(xiàn)象,這符合實(shí)際的網(wǎng)絡(luò)環(huán)境,因此本文實(shí)驗(yàn)采取NEDIL算法為少數(shù)類別樣本合成新樣本,以平衡數(shù)據(jù)集。

      表1 實(shí)驗(yàn)數(shù)據(jù)集

      經(jīng)過(guò)數(shù)據(jù)分析發(fā)現(xiàn),超過(guò)50%的會(huì)話流所含數(shù)據(jù)包數(shù)量不超過(guò)20個(gè),數(shù)據(jù)包平均長(zhǎng)度約為 350 字節(jié),為縮減計(jì)算規(guī)模并保留流量頭部關(guān)鍵信息,本文選取數(shù)據(jù)包個(gè)數(shù)N=20,每個(gè)數(shù)據(jù)包長(zhǎng)度M=140字節(jié)。

      3.3 評(píng)價(jià)方法

      本文選擇精準(zhǔn)率P、召回率R和F1這3項(xiàng)評(píng)分來(lái)評(píng)估基于注意力機(jī)制的雙向GRU網(wǎng)絡(luò)流量識(shí)別模型。其計(jì)算公式為:

      P=Tp/(Tp+Fp)

      (9)

      R=Tp/(Tp+FN)

      (10)

      F1=2PR/(P+R)

      (11)

      式中:Tp表示加密流量的樣本被正確識(shí)別的個(gè)數(shù);Fp表示真實(shí)是加密流量但被錯(cuò)誤標(biāo)識(shí)的個(gè)數(shù);FN表示未加密流量的樣本被正確識(shí)別的個(gè)數(shù)。

      3.4 實(shí)驗(yàn)結(jié)果與分析

      (1) GRU隱藏單元個(gè)數(shù)確定實(shí)驗(yàn)。在GRU網(wǎng)絡(luò)中,隱藏單元個(gè)數(shù)會(huì)影響對(duì)不同特征的關(guān)注度,適當(dāng)?shù)碾[藏單元個(gè)數(shù)可以準(zhǔn)確地學(xué)習(xí)不同尺度上的依賴關(guān)系,過(guò)多或過(guò)少隱藏單元個(gè)數(shù)可能會(huì)造成依賴關(guān)系的缺失或被干擾,從而影響模型分類效果。本文設(shè)置隱藏單元個(gè)數(shù)分別為8、32、64、128和256,實(shí)驗(yàn)結(jié)果如圖3所示。由圖3可見(jiàn),當(dāng)隱藏單元個(gè)數(shù)為128時(shí),平均精確率最高達(dá)到96.4% ,之后并未有明顯提升,考慮到訓(xùn)練時(shí)間和資源開(kāi)銷,本實(shí)驗(yàn)選擇隱藏單元個(gè)數(shù)為128時(shí)能達(dá)到最理想狀況。

      圖3 隱藏單元個(gè)數(shù)對(duì)模型分類效果的影響

      (2) 基于注意力機(jī)制的雙向GRU網(wǎng)絡(luò)流量識(shí)別模型效果分析。為了驗(yàn)證基于注意力機(jī)制的雙向GRU網(wǎng)絡(luò)流量識(shí)別模型的效率,本文開(kāi)展了所提模型與未引入注意力機(jī)制的單向GRU模型和雙向GRU模型對(duì)加密流量六分類對(duì)比實(shí)驗(yàn),結(jié)果如圖4所示。

      圖4 三種GRU模型六分類實(shí)驗(yàn)結(jié)果

      可見(jiàn)基于注意力機(jī)制的雙向GRU網(wǎng)絡(luò)流量識(shí)別模型總體效果最好,其整體的應(yīng)用識(shí)別準(zhǔn)確率為96.4%,分別比未引入注意力機(jī)制的單向GRU模型和雙向GRU模型提升了4.5%和1.7%。進(jìn)一步分析可以發(fā)現(xiàn),單向GRU模型效果最差,說(shuō)明雙向GRU網(wǎng)絡(luò)模型能夠獲得更深層的信息,使得提取的特征更準(zhǔn)確、全面,更有利于流量分類。

      (3) 數(shù)據(jù)集平衡對(duì)比實(shí)驗(yàn)。如表2所示,數(shù)據(jù)集類別不平衡對(duì)本文實(shí)驗(yàn)效果有較大的影響,在訓(xùn)練模型時(shí),由于類別不平衡會(huì)導(dǎo)致算法重視少數(shù)類的差別造成過(guò)擬合,或因?yàn)樯贁?shù)類別樣本太少導(dǎo)致學(xué)習(xí)能力不足造成欠擬合,使得模型沒(méi)有良好的泛化能力。相比于不平衡數(shù)據(jù)集,平衡數(shù)據(jù)集的網(wǎng)絡(luò)流量應(yīng)用識(shí)別效果明顯提升,每種應(yīng)用類型的各項(xiàng)指標(biāo)都超過(guò)了92%,整體的應(yīng)用識(shí)別準(zhǔn)確率為96.4%,相比不平衡數(shù)據(jù)集提高了4.8%。

      表2 不同數(shù)據(jù)集類別的實(shí)驗(yàn)效果

      (4) 過(guò)采樣技術(shù)對(duì)比實(shí)驗(yàn)。基于注意力機(jī)制的雙向GRU網(wǎng)絡(luò)流量識(shí)別模型進(jìn)行應(yīng)用識(shí)別時(shí),發(fā)現(xiàn)在某些應(yīng)用識(shí)別上精準(zhǔn)率較低,但分類器模型整體識(shí)別準(zhǔn)確率卻很高,并且在反復(fù)調(diào)參優(yōu)化后,該現(xiàn)象依然存在。經(jīng)過(guò)多個(gè)影響因素的對(duì)比實(shí)驗(yàn)后,最終將問(wèn)題定位在流量數(shù)據(jù)集,這是因?yàn)閷?shí)驗(yàn)數(shù)據(jù)集存在不平衡現(xiàn)象,部分應(yīng)用占比太低,因此本文NEDIL過(guò)采樣技術(shù)平衡實(shí)驗(yàn)數(shù)據(jù)集。為了驗(yàn)證本文提出的NEDIL數(shù)據(jù)集合成過(guò)采樣技術(shù)的有效性及優(yōu)越性,本文分別選擇了SMOTE過(guò)采樣技術(shù)和SMOTE-Borderline過(guò)采樣技術(shù)進(jìn)行對(duì)比實(shí)驗(yàn)如表3所示??梢钥闯霰疚奶岢龅腘EDIL過(guò)采樣技術(shù)對(duì)實(shí)驗(yàn)數(shù)據(jù)集的平衡的效果最好。

      表3 不同過(guò)采樣技術(shù)的實(shí)驗(yàn)效果(%)

      可以看出,使用NEDIL算法平衡數(shù)據(jù)集后,基于注意力機(jī)制的雙向GRU網(wǎng)絡(luò)流量識(shí)別模型對(duì)于少數(shù)類別的精準(zhǔn)率明顯提高,以在數(shù)據(jù)集中占比最少的Skype為例,對(duì)比實(shí)驗(yàn)結(jié)果如圖5所示??梢钥闯霰疚乃惴ň珳?zhǔn)率提升了16.8%,SMOTE-Borderline提升了12.1%,SMOTE提升了10.3%。召率本文算法提升了13.4%,SMOTE-Borderline提升了11.4%,而SMOTE僅提升了7%。NEDIL技術(shù)在綜合評(píng)價(jià)指標(biāo)上提升了15.1%,SMOTE-Borderline提升了11.6%,SMOTE提升了8.7%。在整體應(yīng)用識(shí)別準(zhǔn)確率方面,本文方法為96.4%,SMOTE技術(shù)為94.5%,SMOTE-Borderline技術(shù)為95.6%,整體識(shí)別精度優(yōu)于SMOTE技術(shù)和SMOTE-Borderline技術(shù)。說(shuō)明本文提出的NEDIL優(yōu)化方法可以有效解決非平衡流量數(shù)據(jù)集問(wèn)題,不只增加了少數(shù)類樣本的數(shù)量,而且還增加了少數(shù)類樣本數(shù)據(jù)集內(nèi)分布的多樣性,能更有效地實(shí)現(xiàn)不平衡數(shù)據(jù)集的平衡化。

      圖5 Skype經(jīng)過(guò)采樣技術(shù)平衡化后的各項(xiàng)指標(biāo)

      (5) 實(shí)驗(yàn)結(jié)果分析。為了驗(yàn)證SSL VPN加密流量識(shí)別模型的有效性,本文基于3種已有的基準(zhǔn)模型進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示。其中:1D-CNN 模型將流量前28×28 字節(jié)的一維序列一并輸入到串聯(lián)的兩層卷積層提取局部空間特征;文獻(xiàn)[7]對(duì)普通的1D-CNN進(jìn)行改進(jìn),通過(guò)在卷積層之后增加一層卷積層,以便更有效地提取數(shù)據(jù)包特征。

      表4 與其他方法對(duì)比實(shí)驗(yàn)分類效果(%)

      在SSL VPN加密流量識(shí)別中,機(jī)器學(xué)習(xí)算法效率較低,部分類型識(shí)別準(zhǔn)確率低于50%。而本文所提的基于注意機(jī)制的雙向GRU網(wǎng)絡(luò)流量識(shí)別模型整體準(zhǔn)確率達(dá)到96.4%,相比經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)提高了6.5%,相比于文獻(xiàn)[7]提高了3%,對(duì)6種流量應(yīng)用類型的識(shí)別率均超過(guò)92%。注意力機(jī)制的引入提高了模型對(duì)于重要時(shí)序特征的關(guān)注,提升了模型的識(shí)別能力,因而能很好地完成SSL VPN加密流量的應(yīng)用識(shí)別任務(wù)。

      4 結(jié) 語(yǔ)

      本文提出一種面向類不平衡的SSL VPN加密流量識(shí)別方法。先利用NEDIL算法對(duì)不平衡數(shù)據(jù)集進(jìn)行平衡化,不僅能夠擴(kuò)充少數(shù)類樣本的數(shù)量,還能增加少數(shù)類樣本數(shù)據(jù)集內(nèi)分布的多樣線性,而且不會(huì)擴(kuò)寬少數(shù)類樣本的邊界。再使用基于注意力機(jī)制的雙向GRU網(wǎng)絡(luò)進(jìn)行SSL VPN流量的應(yīng)用識(shí)別。利用注意力機(jī)制改進(jìn)后的雙向GRU有助于提取多維度、高判別性的會(huì)話特征,提升模型的識(shí)別效果。實(shí)現(xiàn)結(jié)果表明本文方法在F1值、召回率和精準(zhǔn)率方面均有明顯改進(jìn),有效加強(qiáng)了SSL VPN加密流量的識(shí)別效果。

      宜丰县| 清新县| 康保县| 峡江县| 四川省| 汕头市| 论坛| 涿州市| 太仓市| 德兴市| 菏泽市| 柘荣县| 清流县| 金湖县| 克山县| 河津市| 麻阳| 道孚县| 丹江口市| 保康县| 嵊泗县| 屯留县| 略阳县| 大关县| 随州市| 奉贤区| 正宁县| 腾冲县| 铜鼓县| 什邡市| 亚东县| 公安县| 砀山县| 乐都县| 汝阳县| 历史| 淮阳县| 金昌市| 大丰市| 盐亭县| 达尔|