• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于卷積神經(jīng)網(wǎng)絡(luò)的加密流量分類方法

      2022-02-04 07:02:36謝絨娜馬鑄鴻李宗俞田野
      關(guān)鍵詞:網(wǎng)絡(luò)流量數(shù)據(jù)包加密

      謝絨娜,馬鑄鴻,李宗俞,田野

      基于卷積神經(jīng)網(wǎng)絡(luò)的加密流量分類方法

      謝絨娜,馬鑄鴻,李宗俞,田野

      (北京電子科技學(xué)院,北京 100070)

      針對(duì)傳統(tǒng)加密網(wǎng)絡(luò)流量分類方法準(zhǔn)確率較低、泛用性不強(qiáng)、易侵犯隱私等問(wèn)題,提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的加密流量分類方法,避免依賴原始流量數(shù)據(jù),防止過(guò)度擬合特定應(yīng)用程序的字節(jié)結(jié)構(gòu)。針對(duì)網(wǎng)絡(luò)流量的數(shù)據(jù)包大小和到達(dá)時(shí)間信息,設(shè)計(jì)了一種將原始流量轉(zhuǎn)換為二維圖片的方法,直方圖中每個(gè)單元格代表到達(dá)相應(yīng)時(shí)間間隔的具有相應(yīng)大小數(shù)據(jù)包的數(shù)量,不依賴數(shù)據(jù)包有效載荷,避免了侵犯隱私;針對(duì)LeNet-5卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行了優(yōu)化以提高分類精度,嵌入Inception模塊進(jìn)行多維特征提取并進(jìn)行特征融合,使用1*1卷積來(lái)控制輸出的特征維度;使用平均池化層和卷積層替代全連接層,提高計(jì)算速度且避免過(guò)擬合;使用對(duì)象檢測(cè)任務(wù)中的滑動(dòng)窗口方法,將每個(gè)網(wǎng)絡(luò)單向流劃分為大小相等的塊,確保單個(gè)會(huì)話中訓(xùn)練集中的塊和測(cè)試集中的塊沒(méi)有重疊,擴(kuò)充了數(shù)據(jù)集樣本。在ISCX數(shù)據(jù)集上的分類實(shí)驗(yàn)結(jié)果顯示,針對(duì)應(yīng)用流量分類任務(wù),準(zhǔn)確率達(dá)到了95%以上。對(duì)比實(shí)驗(yàn)結(jié)果表明,訓(xùn)練集和測(cè)試集類型不同時(shí),傳統(tǒng)分類方法出現(xiàn)了顯著的精度下降乃至失效,而所提方法的準(zhǔn)確率依然達(dá)到了89.2%,證明了所提方法普適于加密流量與非加密流量。進(jìn)行的所有實(shí)驗(yàn)均基于不平衡數(shù)據(jù)集,如果對(duì)數(shù)據(jù)集進(jìn)行平衡化處理,準(zhǔn)確率可能會(huì)進(jìn)一步提高。

      加密流量;卷積神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí);特征融合;模型優(yōu)化

      0 引言

      網(wǎng)絡(luò)流量中包含眾多有分析價(jià)值的信息,如何智能化地處理和分析網(wǎng)絡(luò)數(shù)據(jù),成為網(wǎng)絡(luò)安全領(lǐng)域的研究熱點(diǎn)[1]。近年來(lái),隱私數(shù)據(jù)和隱私保護(hù)愈發(fā)引起人們重視,數(shù)據(jù)傳輸過(guò)程中普遍使用各種加密技術(shù),加密流量在網(wǎng)絡(luò)流量中占據(jù)越來(lái)越大的比重[2]。加密流量在保護(hù)隱私安全的同時(shí),給流量監(jiān)測(cè)和流量識(shí)別問(wèn)題帶來(lái)了困難。如何高效準(zhǔn)確地分類識(shí)別加密網(wǎng)絡(luò)流量數(shù)據(jù),從而有效檢測(cè)惡意流量,成為網(wǎng)絡(luò)安全領(lǐng)域的研究熱門。

      傳統(tǒng)的網(wǎng)絡(luò)流量分析方法,如負(fù)載分析[3]和基于端口[4]方法,在精度和性能上出現(xiàn)了顯著下降[5]。機(jī)器學(xué)習(xí)(ML,machine learning)方法已經(jīng)普遍應(yīng)用于網(wǎng)絡(luò)流量分析[6]。但是機(jī)器學(xué)習(xí)方法存在的問(wèn)題是識(shí)別效果高度依賴于所提取的特征,基于深度學(xué)習(xí)的方法則可以避免這一問(wèn)題,被逐步應(yīng)用于加密流量識(shí)別領(lǐng)域并取得了一定成果[7-15]。Wei等[7]提出了使用卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行加密流量識(shí)別,將流量數(shù)據(jù)標(biāo)準(zhǔn)化后使用前784字節(jié)作為模型的輸入,在數(shù)據(jù)集上進(jìn)行了評(píng)估,并與決策樹(shù)方法進(jìn)行了比較,結(jié)果顯示精度上有明顯提高。Xiao等[8]設(shè)計(jì)了擴(kuò)展字節(jié)段神經(jīng)網(wǎng)絡(luò)用于網(wǎng)絡(luò)流量分類,將數(shù)據(jù)包分為頭段和負(fù)載端再送入自編碼器中,在數(shù)據(jù)集上的檢驗(yàn)表明其在應(yīng)用程序識(shí)別任務(wù)和網(wǎng)站識(shí)別任務(wù)上性能有顯著提高。朱文斌[9]等提出了一種基于多種構(gòu)圖方式的網(wǎng)絡(luò)流量圖像分類方法,考慮使用不同的構(gòu)圖方式將數(shù)據(jù)包轉(zhuǎn)換為流量圖像。Rezaei等[10]基于時(shí)間序列結(jié)合一維卷積神經(jīng)網(wǎng)絡(luò)對(duì)5種應(yīng)用程序進(jìn)行了分類,結(jié)果表明該方法可應(yīng)用于高帶寬業(yè)務(wù)網(wǎng)絡(luò)。Lotfollahi等[11]使用堆疊式自編碼器和卷積神經(jīng)網(wǎng)絡(luò)對(duì)網(wǎng)絡(luò)流量進(jìn)行分類,在應(yīng)用識(shí)別任務(wù)中,該分類方法的準(zhǔn)確率達(dá)到了98%。Chen等[12]利用核希爾伯特空間的重生成嵌入將時(shí)間序列數(shù)據(jù)轉(zhuǎn)為圖像,在協(xié)議和應(yīng)用分類任務(wù)上取得了較好的效果。Ertam和Avci[13]使用遺傳算法(GA)提取特征,應(yīng)用基于極限學(xué)習(xí)機(jī)在數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果獲得了95%以上的準(zhǔn)確率。Lopez-Martin等[14]和Wang等[15]分別使用了循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)針對(duì)應(yīng)用進(jìn)行識(shí)別,兩項(xiàng)研究的共同之處是使用前6~30個(gè)數(shù)據(jù)包內(nèi)容作為輸入,雖然網(wǎng)絡(luò)模型和數(shù)據(jù)集等不同,但兩者都具有較高的準(zhǔn)確率。

      由于以上方法多數(shù)專注于數(shù)據(jù)包的有效負(fù)載內(nèi)容,這些方法依賴于原始數(shù)據(jù),存在因過(guò)度擬合特定應(yīng)用程序的字節(jié)結(jié)構(gòu),而無(wú)法應(yīng)對(duì)未知應(yīng)用程序的問(wèn)題。同時(shí),這些方法在使用虛擬專用網(wǎng)絡(luò)(VPN,virtual private network)等加密技術(shù)的情況下均出現(xiàn)一定程度的性能下降。此外,這些方法依賴于數(shù)據(jù)包的有效負(fù)載內(nèi)容,一定程度上侵犯了隱私。

      針對(duì)傳統(tǒng)網(wǎng)絡(luò)流量識(shí)別方法的不足,本文對(duì)傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(CNN,convolutional neural network)模型進(jìn)行了改進(jìn)優(yōu)化,提出了一種面向圖片的加密流量識(shí)別方法,主要貢獻(xiàn)包括以下兩個(gè)方面。

      1) 利用深度學(xué)習(xí)中神經(jīng)網(wǎng)絡(luò)可以避免人工特征提取的特點(diǎn),提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的分類模型。針對(duì)當(dāng)前分類方法在特征學(xué)習(xí)方面上的不足,在卷積神經(jīng)網(wǎng)絡(luò)模型中嵌入了Inception模塊,Inception模塊中使用多個(gè)卷積層以不同的感受野分別提取特征,之后將提取到的特征進(jìn)行融合,通過(guò)更多數(shù)量的特征來(lái)更好地學(xué)習(xí)輸入輸出之間非線性的關(guān)系,提高了分類精度。同時(shí),模型使用全局平均池化層和卷積層替代全連接層,在減少網(wǎng)絡(luò)參數(shù)加快計(jì)算速度的同時(shí)避免過(guò)擬合,提高了模型的泛用能力。

      2) 針對(duì)數(shù)據(jù)包的有效負(fù)載內(nèi)容可能會(huì)造成過(guò)擬合和無(wú)法應(yīng)對(duì)未知應(yīng)用程序的問(wèn)題,提出了一種利用數(shù)據(jù)包的到達(dá)時(shí)間以及大小等信息將流量數(shù)據(jù)轉(zhuǎn)換為圖片的方法,避免了人工提取特征,可以處理單向流的短時(shí)間窗口而不是只能應(yīng)用于雙向會(huì)話。同時(shí),所提方法不依賴于數(shù)據(jù)包的有效負(fù)載內(nèi)容,避免了侵犯隱私,且在加密與非加密流量上具有普適性。

      1 基于卷積神經(jīng)網(wǎng)絡(luò)的加密流量識(shí)別方法

      為了提高模型的泛用能力,避免過(guò)擬合于某一特定應(yīng)用程序流量,本文使用數(shù)據(jù)包的時(shí)間和大小相關(guān)信息生成圖像作為模型的輸入,一方面提高模型運(yùn)算速度和模型泛用能力;另一方面確保模型不依賴于數(shù)據(jù)包的有效負(fù)載內(nèi)容,避免了隱私侵犯。為了避免實(shí)際訓(xùn)練中模型不能有效提取到不平衡流量種類的流量特征,進(jìn)而影響模型分類精度,該模型在傳統(tǒng)CNN的基礎(chǔ)上嵌入了Inception模塊以達(dá)到多尺度特征融合的目的,保證少量數(shù)據(jù)特征提取量;使用卷積層和平均池化層的組合取代了傳統(tǒng)的全連接層,降低了運(yùn)算負(fù)擔(dān),提高了模型識(shí)別的速度。

      圖1 卷積神經(jīng)網(wǎng)絡(luò)總體架構(gòu)

      Figure 1 Overall architecture of convolution neural network

      基于上述原則,本文提出的卷積神經(jīng)網(wǎng)絡(luò)總體架構(gòu)如圖1所示,將原始網(wǎng)絡(luò)流量數(shù)據(jù)根據(jù)提出的圖像生成方法轉(zhuǎn)換為圖片作為模型的輸入;在兩次卷積池化操作中插入Inception模塊進(jìn)行多層次提取特征和特征融合,Inception模塊可以復(fù)用更多特征,提高特征張量寬度和對(duì)特征的囊括性;在最終輸出之前,使用一個(gè)卷積層和全局平均池化層的組合代替全連接層,減少網(wǎng)絡(luò)中的訓(xùn)練參數(shù),避免過(guò)擬合。卷積層的卷積核大小為1*1,卷積核的數(shù)量由最終分類的類別數(shù)決定。卷積層的輸出送入平均池化層后最終得到維度為(1,1,)的輸出向量。在模型的最后,使用Softmax激活函數(shù)進(jìn)行最終的分類。

      1.1 基于數(shù)據(jù)包到達(dá)時(shí)間和大小的圖像轉(zhuǎn)換方法

      網(wǎng)絡(luò)流量分類領(lǐng)域的大部分研究專注于數(shù)據(jù)包本身的有效負(fù)載內(nèi)容,造成模型過(guò)擬合于特定數(shù)據(jù)字節(jié)段,無(wú)法識(shí)別網(wǎng)絡(luò)中新出現(xiàn)的應(yīng)用程序流量,也無(wú)法有效識(shí)別加密流量。同時(shí),基于數(shù)據(jù)包本身的有效負(fù)載內(nèi)容在一定程度侵犯了隱私。本文避免從數(shù)據(jù)包自身有效負(fù)載內(nèi)容入手,針對(duì)數(shù)據(jù)包的時(shí)間和大小相關(guān)信息,設(shè)計(jì)了一種將流量數(shù)據(jù)轉(zhuǎn)化為二維直方圖的方法。處理流程如圖2所示,步驟如下。

      1) 網(wǎng)絡(luò)流量劃分:本文將具有相同五元組{源IP地址,源端口號(hào),目的IP地址,目的端口號(hào),協(xié)議}的網(wǎng)絡(luò)數(shù)據(jù)包看作屬于同一種應(yīng)用產(chǎn)生的流量,稱為單向流。以單向流為基本單位將pcap原始文件進(jìn)行拆分,其中pcap文件是正常用的數(shù)據(jù)報(bào)存儲(chǔ)格式。

      圖2 原始數(shù)據(jù)轉(zhuǎn)換成圖片的處理流程

      Figure 2 The process of converting raw data into pictures

      2) 記錄提?。簭拿總€(gè)單向流中提取IP包大小、到達(dá)時(shí)間作為關(guān)鍵記錄輸入神經(jīng)網(wǎng)絡(luò)。關(guān)鍵記錄定義為{IP包大小,到達(dá)時(shí)間}。由于卷積神經(jīng)網(wǎng)絡(luò)需要一個(gè)統(tǒng)一的輸入維度,而實(shí)際中數(shù)據(jù)包的大小往往是不固定的,在輸入神經(jīng)網(wǎng)絡(luò)前關(guān)鍵記錄需要進(jìn)行標(biāo)準(zhǔn)化處理。大部分計(jì)算機(jī)最大傳送單元(MTU)的大小為1 500 byte,因此設(shè)定標(biāo)準(zhǔn)大小為1 500 byte,將大于1 500 byte的數(shù)據(jù)包舍棄(這部分?jǐn)?shù)據(jù)包數(shù)量小于整體數(shù)量的5%),對(duì)大小不足1 500 byte的數(shù)據(jù)包使用0 byte進(jìn)行補(bǔ)齊。

      3) 直方圖生成:將關(guān)鍵記錄中的IP包大小和到達(dá)時(shí)間集成到二維直方圖中,這些二維直方圖可以看作一個(gè)有效載荷大小的數(shù)組。為了方便,將二維直方圖設(shè)置為正方形圖像。定義直方圖的軸為到達(dá)時(shí)間,根據(jù)定義,通過(guò)減去單向流中第一個(gè)包的到達(dá)時(shí)間來(lái)標(biāo)準(zhǔn)化所有數(shù)據(jù)包的到達(dá)時(shí)間值。將后續(xù)包到達(dá)時(shí)間值規(guī)范化處理,歸一化為0到1 500之間(即30 s映射到1 500)。定義直方圖的軸為數(shù)據(jù)包的大小。將所有標(biāo)準(zhǔn)化后的數(shù)據(jù)對(duì)插入二維直方圖中,直方圖中每個(gè)單元格的意義是到達(dá)相應(yīng)時(shí)間間隔的具有相應(yīng)大小數(shù)據(jù)包的數(shù)量。得到的結(jié)果是1 500*1 500的直方圖,直方圖中值的總和等于原始時(shí)間窗口中IP包的總數(shù)(不包括忽略的部分),本文使用直方圖作為神經(jīng)網(wǎng)絡(luò)的最終輸入。

      1.2 基于Inception模塊的特征融合

      傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)在網(wǎng)絡(luò)層次較淺時(shí)難以提取到深層次的特征,對(duì)于網(wǎng)絡(luò)流量分類問(wèn)題,這制約了模型的性能。解決此問(wèn)題的常見(jiàn)方法是增加網(wǎng)絡(luò)深度,即在模型中增加更多的網(wǎng)絡(luò)層,這會(huì)造成網(wǎng)絡(luò)復(fù)雜度大大提升,增加了計(jì)算成本且訓(xùn)練過(guò)程中容易退化。采用Inception模塊,可以在增加網(wǎng)絡(luò)深度和寬度的同時(shí)減少參數(shù),在提取特征的同時(shí)減小計(jì)算負(fù)擔(dān)。

      為了避免數(shù)據(jù)量較小的流量類別在訓(xùn)練中模型提取特征不足而影響最終的分類效果,同時(shí)提高其他類別的識(shí)別精度,在設(shè)計(jì)卷積神經(jīng)網(wǎng)絡(luò)模型時(shí)添加了Inception模塊。Inception模塊通過(guò)對(duì)多個(gè)不同感受野進(jìn)行特征提取,并進(jìn)行多尺度特征融合,提高卷積神經(jīng)網(wǎng)絡(luò)提取到的特征豐富性和完善性。Inception模塊由不同卷積核大小的卷積層和池化層組成,可以通過(guò)不同的局部感受野來(lái)多維度提取特征并進(jìn)行融合。如圖3所示,本文中的Inception模塊由卷積核大小分別為1*1、3*3、5*5的3個(gè)卷積層和1個(gè)最大池化層組成。

      為了提高訓(xùn)練速度,在卷積前和池化后分別使用1*1卷積來(lái)控制輸出的特征維度以便于特征融合。為了控制梯度爆炸,加快網(wǎng)絡(luò)的訓(xùn)練和收斂速度,Inception模塊的卷積層后連接了BN(批量歸一化)層。之后使用ReLu激活函數(shù)對(duì)數(shù)據(jù)進(jìn)行處理,ReLu激活函數(shù)的定義如式(1)所示。

      圖3 Inception模塊結(jié)構(gòu)

      Figure 3 Inception module structure diagram

      2 實(shí)驗(yàn)與結(jié)果分析

      本文實(shí)驗(yàn)設(shè)計(jì)分為3個(gè)部分。第一部分是有效性驗(yàn)證,目的是證明模型未受過(guò)擬合影響,實(shí)驗(yàn)結(jié)果真實(shí)有效。第二部分是性能驗(yàn)證,目的是證明添加Inception模塊的CNN性能優(yōu)于傳統(tǒng)CNN性能。第三部分是泛用性驗(yàn)證,目的是證明所提方法同時(shí)適用于加密流量與非加密流量。

      2.1 實(shí)驗(yàn)數(shù)據(jù)集與數(shù)據(jù)預(yù)處理

      本文實(shí)驗(yàn)所使用的數(shù)據(jù)集為“UNB ISCX VPN-nonVPN 2016”[16]加密流量數(shù)據(jù)集和部分收集的聊天流量,數(shù)據(jù)集中包括兩大類,分別是VPN和非VPN加密流量,流量以pcap文件形式存儲(chǔ)。使用包含足夠樣本數(shù)量的5個(gè)類別的組合數(shù)據(jù)集:Voip、Chat、File、Streaming、Browsing。

      為了增加訓(xùn)練集的樣本數(shù)量,同時(shí)減少過(guò)擬合,將每個(gè)單向流劃分為大小相等的塊,每個(gè)會(huì)話劃分為30 s大小的塊[16],重疊時(shí)間為15 s,該方法來(lái)源于對(duì)象檢測(cè)任務(wù)中滑動(dòng)窗口的使用[17]。例如,5 min(300 s)的會(huì)話可以由10個(gè)非重疊會(huì)話塊組成(10×30=300),也可以由19個(gè)重疊會(huì)話塊組成(19×30?18×15=300)。需要注意的是,擴(kuò)充數(shù)據(jù)集的操作是在將所有會(huì)話劃分為訓(xùn)練集和測(cè)試集之后進(jìn)行的,以確保單個(gè)會(huì)話中訓(xùn)練集中的塊和測(cè)試集中的塊沒(méi)有重疊。最終所使用的數(shù)據(jù)集的各類樣本數(shù)量如表1所示。

      表1 數(shù)據(jù)集樣本分布數(shù)量

      2.2 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)

      本文使用深度學(xué)習(xí)領(lǐng)域常見(jiàn)的評(píng)價(jià)指標(biāo)準(zhǔn)確率(Accuracy)來(lái)對(duì)實(shí)驗(yàn)?zāi)P瓦M(jìn)行評(píng)價(jià),其定義如式(2)所示。

      其中,TP是被模型預(yù)測(cè)為正類的正樣本,TN是被模型預(yù)測(cè)為負(fù)類的負(fù)樣本,F(xiàn)P是被模型預(yù)測(cè)為負(fù)類的負(fù)樣本,F(xiàn)N是被模型預(yù)測(cè)為負(fù)類的正樣本。

      2.3 實(shí)驗(yàn)結(jié)果與分析

      (1)有效性驗(yàn)證

      為了減少過(guò)擬合,本文使用dropout技術(shù)防止對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行復(fù)雜的協(xié)同適應(yīng)。將數(shù)據(jù)集隨機(jī)拆分為占比0.85的訓(xùn)練集和占比0.15的測(cè)試集。訓(xùn)練周期為30個(gè)周期,如圖4所示,網(wǎng)絡(luò)在運(yùn)行VPN中Browsing流量分類任務(wù)時(shí),在10~15個(gè)epoch后達(dá)到了收斂,并且訓(xùn)練曲線和測(cè)試曲線之間的方差較小,表明本文結(jié)果是真實(shí)有效的,模型沒(méi)有受到過(guò)擬合的影響。

      (2)性能驗(yàn)證

      為了體現(xiàn)所提分類模型中所采用的Inception模塊的優(yōu)勢(shì),本文與未添加Inception模塊的傳統(tǒng)CNN分類模型進(jìn)行了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表2所示。由表中數(shù)據(jù)可以看出,5種應(yīng)用程序類別在添加了Inception模塊的網(wǎng)絡(luò)上各項(xiàng)性能指標(biāo)均優(yōu)于未添加Inception模塊的普通CNN,其中樣本數(shù)量較少的Browsing和Chat流量效果提升明顯,5種應(yīng)用類別分別提高了1.8%、1.5%、1.6%、4.2%和4.8%。由實(shí)驗(yàn)結(jié)果可知,添加Inception模塊幫助模型提取到了更豐富的特征,實(shí)現(xiàn)了更優(yōu)的分類性能,特別是面對(duì)少樣本數(shù)據(jù)時(shí),效果提升明顯。

      圖4 準(zhǔn)確率增長(zhǎng)曲線

      Figure 4Accuracy growth curve

      表2 兩種CNN模型準(zhǔn)確率比較

      (3)泛用性驗(yàn)證

      本文提出的方法針對(duì)加密流量與非加密流量具有普適性,為證明模型的普適性,設(shè)計(jì)了對(duì)比實(shí)驗(yàn)。根據(jù)流量是否使用了加密技術(shù),將流量數(shù)據(jù)分為兩個(gè)數(shù)據(jù)集,對(duì)于每一個(gè)應(yīng)用類別,使用模型在一個(gè)訓(xùn)練集上進(jìn)行訓(xùn)練,并分別在兩個(gè)測(cè)試集上進(jìn)行測(cè)試,每個(gè)測(cè)試集都包含特定類別的樣本,實(shí)驗(yàn)結(jié)果如表3所示:對(duì)角線上的值(加粗部分)顯示了當(dāng)測(cè)試集由與訓(xùn)練集相同的流量類別和加密技術(shù)組成時(shí)的準(zhǔn)確率。

      從表3的實(shí)驗(yàn)結(jié)果可以看出(對(duì)角線加粗部分),在訓(xùn)練集和測(cè)試集具有相同的流量類別的情況下,模型具有良好的分類效果,分類準(zhǔn)確率均高于90%,最好效果達(dá)到99.4%。

      從實(shí)驗(yàn)結(jié)果可知(未加粗部分),在訓(xùn)練集和測(cè)試集分別由使用了加密技術(shù)和未使用加密技術(shù)的流量數(shù)據(jù)組成時(shí),模型依然具有良好的分類效果,多數(shù)類別的分類準(zhǔn)確率高于90%。只在Chat這一類別上出現(xiàn)了差異。這可能是因?yàn)榧用芗夹g(shù)改變了Chat流量類別的獨(dú)特特征,其與Browsing流量類別特征在一定程度上具有相似性。在實(shí)驗(yàn)過(guò)程中發(fā)現(xiàn),模型將一部分Chat流量誤識(shí)別為Browsing流量,難以區(qū)分Chat流量和Browsing流量是模型準(zhǔn)確率下降的主要原因。

      表3 不同種類流量在加密與非加密數(shù)據(jù)集上的準(zhǔn)確率比較

      同時(shí),本文設(shè)計(jì)了與部分相近研究工作[7,9]的對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果基于相同的“UNB ISCX VPN-nonVPN 2016”數(shù)據(jù)集,如表4所示:在訓(xùn)練集和測(cè)試集類型相同時(shí),本文提出的方法準(zhǔn)確率為97.6%,高于端到端加密流量分類模型[7]的96.8%和基于多種構(gòu)圖的分類模型[9]的95.4%;且本文所提模型在訓(xùn)練集和測(cè)試集類型不同時(shí)依然可以對(duì)網(wǎng)絡(luò)流量進(jìn)行識(shí)別,而其余兩種模型均出現(xiàn)了顯著的精度下降乃至失效(準(zhǔn)確率在50%左右波動(dòng)),這是本文模型相比其他模型獨(dú)有的優(yōu)勢(shì)。

      表4 不同模型實(shí)驗(yàn)結(jié)果比較

      通過(guò)上述實(shí)驗(yàn),證明所提方法在面對(duì)單一流量分類問(wèn)題上有著極高的準(zhǔn)確率,且同時(shí)普適于加密流量與非加密流量,這是所提方法的優(yōu)勢(shì)。值得一提的是,本文并沒(méi)有對(duì)數(shù)據(jù)集進(jìn)行平衡化處理,所有實(shí)驗(yàn)均是在不平衡數(shù)據(jù)集上進(jìn)行的。如果對(duì)數(shù)據(jù)集進(jìn)行平衡處理,實(shí)驗(yàn)結(jié)果可能會(huì)進(jìn)一步提升。

      3 結(jié)束語(yǔ)

      本文針對(duì)網(wǎng)絡(luò)流量傳統(tǒng)識(shí)別方法準(zhǔn)確率較低、泛用性不強(qiáng)、侵犯隱私且不具備普適性等問(wèn)題,提出了基于卷積神經(jīng)網(wǎng)絡(luò)的加密流量分類方法,利用網(wǎng)絡(luò)流量中時(shí)間和數(shù)據(jù)大小相關(guān)信息,將網(wǎng)絡(luò)流量轉(zhuǎn)換為二維直方圖,設(shè)計(jì)了一個(gè)嵌入Inception模塊的改進(jìn)CNN模型,通過(guò)添加Inception模塊實(shí)現(xiàn)多特征融合,提高了模型的分類精度,相比普通CNN,最大提升效果達(dá)到了4.8%。該方法不會(huì)過(guò)擬合于某一特定應(yīng)用程序流量,避免了侵犯隱私,可以同時(shí)普適用于加密流量與非加密流量,實(shí)驗(yàn)結(jié)果驗(yàn)證了所提方法的有效性,在應(yīng)用程序分類問(wèn)題上準(zhǔn)確率達(dá)到了95%以上。未來(lái)將考慮在模型設(shè)計(jì)中引入注意力模塊,增加流量特征的表征能力,進(jìn)一步提高分類性能。

      [1] 李艷霞, 柴毅, 胡友強(qiáng),等. 不平衡數(shù)據(jù)分類方法綜述[J]. 控制與決策, 2019, 34(4): 673-688.

      LI Y X, CAI Y, HU Y Q, et al. A summary of the classification methods of unbalanced data[J]. Control and decision-making, 2019, 34(4): 673-688.

      [2] 王攀, 陳雪嬌. 基于堆棧式自動(dòng)編碼器的加密流量識(shí)別方法[J]. 計(jì)算機(jī)工程, 2018, 44(11): 140-147.

      WANG P, CHEN X J. Encrypted traffic identification method based on stack automatic encoder[J]. Computer Engineering, 2018, 44 (11): 140-147.

      [3] FINSTERBUSCH M, RICHTER C, ROCHA E, et al. A survey of payload-based traffic classification approaches[J]. IEEE Communications Surveys & Tutorials, 2014, 16(2): 1135-1156.

      [4] DAINOTTI A, PESCAPE A, CLAFFY K C. Issues and future directions in traffic classification[J]. Network IEEE, 2012, 26(1): 35-40.

      [5] 駱子銘, 許書彬, 劉曉東. 基于機(jī)器學(xué)習(xí)的TLS惡意加密流量檢測(cè)方案[J]. 網(wǎng)絡(luò)與信息安全學(xué)報(bào), 2020, 6(1): 77-83.

      LUO Z M, XU S B, LIU X D. TLS malicious encryption traffic detection scheme based on machinelearning[J]. Journal of Network and Information Security, 2020, 6 (1): 77-83.

      [6] REZAEI S, LIU X. Deep learning for encrypted traffic classification: an overview[J]. IEEE Communications Magazine, 2019, 57(5): 76-81.

      [7] WEI W, MING Z, WANG J, et al. End-to-end encrypted traffic classification with one-dimensional convolution neural networks[C]//2017 IEEE International Conference on Intelligence and Security Informatics (ISI). 2017: 43-48.

      [8] XIAO X, XIAO W, LI R, et al. EBSNN: extended byte segment neural network for network traffic classification[J]. IEEE Transactions on Dependable and Secure Computing, 2021, 10(1).

      [9] 朱文斌, 馬秀麗. 多種構(gòu)圖方式下的加密流量分類[J]. 電子測(cè)量技術(shù), 2021, 44(12): 87-92.

      ZHU W B, MA X l. Classification of encrypted traffic under multiple composition methods[J]. Electronic Measurement Technology, 2021, 44 (12): 87-92.

      [10] REZAEI S, LIU X. How to achieve high classification accuracy with just a few labels: a semi-supervised approach using sampled packets[J]. arXiv preprint arXiv:1812.09761, 2018.

      [11] LOTFOLLAHI M, JAFARI SIAVOSHANI M, SHIRALI HOSSEIN ZADE R, et al. Deep packet: a novel approach for encrypted traffic classification using deep learning[J]. Soft Computing, 2020, 24(3): 1999-2012.

      [12] CHEN Z, HE K, LI J, et al. Seq2img: a sequence-to-image based approach towards ip traffic classification using convolutional neural networks[C]//2017 IEEE International Conference on Big Data. 2017: 1271-1276.

      [13] ERTAM F, AVCI E. A new approach for internet traffic classification: GA-WK-ELM[J]. Measurement, 2017, 95:135-142.

      [14] LOPEZ-MARTIN M, CARRO B, SANCHEZ-ESGUEVILLAS A, et al. Network traffic classifier with convolutional and recurrent neural networks for internet of things[J]. IEEE Access, 2017, (99): 1-1.

      [15] WANG W, ZHU M, ZENG X, et al. Malware traffic classification using convolutional neural network for representation learning[C]//2017 International conference on information networking (ICOIN). 2017: 712-717.

      [16] DRAPER-GIL G, LASHKARI A H, MAMUN M S I, et al. Characterization of encrypted and VPN traffic using time-related[C]// Proceedings of the 2nd International Conference on Information Systems Security and Privacy (ICISSP). 2016: 407-414.

      [17] SZEGEDY C, TOSHEV A, ERHAN D. Deep neural networks for object detection[J]. Advances in Neural Information Processing Systems, 2013: 26.

      Encrypted traffic classification method based on convolutional neural network

      XIE Rongna, MA Zhuhong, LI Zongyu, TIAN Ye

      Beijing Electronic Science and Technology Institute, Beijing 100070, China

      Aiming at the problems of low accuracy, weak generality, and easy privacy violation of traditional encrypted network traffic classification methods, an encrypted traffic classification method based on convolutional neural network was proposed, which avoided relying on original traffic data and prevented overfitting of specific byte structure of the application. According to the data packet size and arrival time information of network traffic, a method to convert the original traffic into a two-dimensional picture was designed.Each cell in the histogram represented the number of packets with corresponding size that arrive at the corresponding time interval, avoiding reliance on packet payloads and privacy violations. The LeNet-5 convolutional neural network model was optimized to improve the classification accuracy. The inception module was embedded for multi-dimensional feature extraction and feature fusion. And the 1*1 convolution was used to control the feature dimension of the output. Besides, the average pooling layer and the convolutional layer were used to replace the fully connected layer to increase the calculation speed and avoid overfitting. The sliding window method was used in the object detection task, and each network unidirectional flow was divided into equal-sized blocks, ensuring that the blocks in the training set and the blocks in the test set in a single session do not overlap and expanding the dataset samples. The classification experiment results on the ISCX dataset show that for the application traffic classification task, the average accuracy rate reaches more than 95%.The comparative experimental results show that the traditional classification method has a significant decrease in accuracy or even fails when the types of training set and test set are different. However, the accuracy rate of the proposed method still reaches 89.2%, which proves that the method is universally suitable for encrypted traffic and non-encrypted traffic. All experiments are based on imbalanced datasets, and the experimental results may be further improved if balanced processing is performed.

      encrypted traffic, convolution neural network, deep learning, feature fusion, model optimization

      TP393

      A

      10.11959/j.issn.2096?109x.2022077

      2021?12?27;

      2022?08?14

      田野,674600206@qq.com

      國(guó)家重點(diǎn)研發(fā)計(jì)劃(2017YFB0801803)

      The National Key R&D Program of China(2017YFB0801803)

      謝絨娜, 馬鑄鴻, 李宗俞, 等. 基于卷積神經(jīng)網(wǎng)絡(luò)的加密流量分類方法[J]. 網(wǎng)絡(luò)與信息安全學(xué)報(bào), 2022, 8(6): 84-91.

      XIE R N, MA Z H, LI Z Y, et al. Encrypted traffic classification method based on convolutional neural network[J]. Chinese Journal of Network and Information Security, 2022, 8(6): 84-91.

      謝絨娜(1976?),女,山西永濟(jì)人,北京電子科技學(xué)院教授,主要研究方向?yàn)榫W(wǎng)絡(luò)與系統(tǒng)安全、訪問(wèn)控制、密碼工程。

      馬鑄鴻(1999? ),男,河南鄧州人,北京電子科技學(xué)院碩士生,主要研究方向?yàn)樾畔踩?/p>

      李宗俞(1999? ),女,河南上蔡縣人,北京電子科技學(xué)院碩士生,主要研究方向?yàn)樾畔踩?/p>

      田野(1997? ),男,內(nèi)蒙古赤峰人,北京電子科技學(xué)院碩士生,主要研究方向?yàn)樾畔踩?/p>

      猜你喜歡
      網(wǎng)絡(luò)流量數(shù)據(jù)包加密
      基于多元高斯分布的網(wǎng)絡(luò)流量異常識(shí)別方法
      基于神經(jīng)網(wǎng)絡(luò)的P2P流量識(shí)別方法
      一種基于熵的混沌加密小波變換水印算法
      SmartSniff
      AVB網(wǎng)絡(luò)流量整形幀模型端到端延遲計(jì)算
      認(rèn)證加密的研究進(jìn)展
      基于ECC加密的電子商務(wù)系統(tǒng)
      基于Libpcap的網(wǎng)絡(luò)數(shù)據(jù)包捕獲器的設(shè)計(jì)與實(shí)現(xiàn)
      基于格的公鑰加密與證書基加密
      網(wǎng)絡(luò)流量監(jiān)控對(duì)網(wǎng)絡(luò)安全治理的重要性
      河南科技(2014年23期)2014-02-27 14:18:43
      巴林左旗| 荔波县| 茂名市| 榆林市| 盘锦市| 温州市| 遂川县| 青阳县| 泰来县| 晋中市| 岳阳市| 旬邑县| 福安市| 吉隆县| 乌恰县| 崇义县| 从化市| 正阳县| 大安市| 阿克苏市| 浦江县| 漳平市| 邓州市| 汉源县| 辽阳县| 大宁县| 桂东县| 博罗县| 屏东县| 怀集县| 金湖县| 涟水县| 淮安市| 页游| 澜沧| 盐山县| 榆社县| 元阳县| 长汀县| 池州市| 临漳县|