• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于深度生成對(duì)抗網(wǎng)絡(luò)的惡意TLS流量識(shí)別

      2022-05-05 13:38:08秦鳴樂(lè)
      關(guān)鍵詞:數(shù)據(jù)包類(lèi)別加密

      秦鳴樂(lè),年 梅,張 俊,2

      (1.新疆師范大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,新疆 烏魯木齊 830054; 2.中國(guó)科學(xué)院新疆理化技術(shù)研究所,新疆 烏魯木齊 830011)

      0 引 言

      隨著用戶(hù)隱私保護(hù)和安全意識(shí)的增強(qiáng),TLS、IPSec、SSH和VPN之類(lèi)的技術(shù)應(yīng)用越來(lái)越廣泛,使網(wǎng)絡(luò)傳輸中加密流量的比例越來(lái)越高。據(jù)思科加密流量分析報(bào)告顯示:截止2019年5月,Google網(wǎng)頁(yè)流量中加密流量占比為94%[1];截止2020年7月,使用TLS加密的火狐瀏覽器占比為83%[2]。加密流量已成為互聯(lián)網(wǎng)中的主要流量。流量加密一方面加強(qiáng)了信息通信的保密性和可靠性,另一方面也給不法分子帶來(lái)可趁之機(jī)。很多網(wǎng)絡(luò)攻擊者通過(guò)加密信道和流量加密技術(shù)隱藏自己的惡意行為[3],來(lái)規(guī)避防火墻的檢測(cè),給網(wǎng)絡(luò)安全監(jiān)測(cè)帶來(lái)巨大考驗(yàn)。傳統(tǒng)的基于明文特征的DPI、DFI網(wǎng)絡(luò)流量識(shí)別檢測(cè)方法不再適用[4-5]。經(jīng)典的機(jī)器學(xué)習(xí)方法雖然可以解決基于端口和有效載荷方法無(wú)法解決的許多問(wèn)題,但仍存在一定的局限性,包括:

      1)惡意加密流量類(lèi)別不平衡。使用不平衡的數(shù)據(jù)集訓(xùn)練模型,導(dǎo)致將小樣本應(yīng)用錯(cuò)誤地識(shí)別為類(lèi)似的大樣本應(yīng)用,從而影響分類(lèi)結(jié)果。

      2)數(shù)據(jù)流量的特征需人工提取,依賴(lài)專(zhuān)家經(jīng)驗(yàn),耗時(shí)耗力,特征提取的準(zhǔn)確度受專(zhuān)家主觀性影響。

      1 相關(guān)工作

      目前針對(duì)使用TLS等協(xié)議加密的網(wǎng)絡(luò)流量檢測(cè)和識(shí)別主要分為機(jī)器學(xué)習(xí)和深度學(xué)習(xí)2種。文獻(xiàn)[6]經(jīng)過(guò)深入分析,通過(guò)提取流量元數(shù)據(jù)和TLS頭部大量特征進(jìn)行惡意軟件分類(lèi)。文獻(xiàn)[7]提出從網(wǎng)絡(luò)流數(shù)據(jù)中提取256個(gè)特征,并將其轉(zhuǎn)換為灰度圖像,再將處理后的圖像輸入優(yōu)化的CNN中進(jìn)行相關(guān)訓(xùn)練和分類(lèi)。文獻(xiàn)[8]使用LSTM網(wǎng)絡(luò)在KDD數(shù)據(jù)集中執(zhí)行了5種分類(lèi),分類(lèi)效果較好。

      此外,針對(duì)流量數(shù)據(jù)不平衡問(wèn)題,很多學(xué)者也提出了多種不同的解決方案,主要分為欠采樣和過(guò)采樣2類(lèi)。通過(guò)改變數(shù)據(jù)集中多數(shù)類(lèi)和少數(shù)類(lèi)的樣本比例來(lái)降低不平衡程度。由于從次要類(lèi)別復(fù)制相同的副本,因此過(guò)度擬合始終是過(guò)采樣的主要缺點(diǎn)。為解決過(guò)擬合問(wèn)題,文獻(xiàn)[9]提出SMOTE算法,該算法通過(guò)人工合成少數(shù)類(lèi)樣本來(lái)提升少數(shù)類(lèi)樣本的占比。文獻(xiàn)[10]提出基于單邊選擇的欠采樣算法,該算法通過(guò)單邊采樣去除大類(lèi)數(shù)據(jù)集中的噪聲樣本。文獻(xiàn)[11]提出SBC(Under-sampling Based on Clustering)算法,該算法利用聚簇后正負(fù)比例來(lái)確定抽樣比例。

      綜上可知,使用過(guò)采樣后的數(shù)據(jù)集會(huì)反復(fù)出現(xiàn)一些樣本,訓(xùn)練出的模型會(huì)有一定的過(guò)擬合;欠采樣的數(shù)據(jù)使訓(xùn)練集丟失數(shù)據(jù),模型只學(xué)到了總體模式的一部分,雖然基于SMOTE的合成方法在一定程度上解決了上述問(wèn)題,但SMOTE一方面增加了類(lèi)之間重疊的可能性,另一方面生成一些沒(méi)有提供有益信息的樣本。基于此,本文提出在語(yǔ)言和圖像生成方面有優(yōu)異表現(xiàn)的深度生成對(duì)抗網(wǎng)絡(luò)(Deep Generative Adversarial Networks, DGAN)進(jìn)行小類(lèi)別數(shù)據(jù)樣本的生成和擴(kuò)展,通過(guò)使用DGAN的生成模塊對(duì)少數(shù)類(lèi)別的流量生成指定數(shù)量的加密流量,以此獲得質(zhì)量高且平衡的數(shù)據(jù)集,使不均衡數(shù)據(jù)集中惡意TLS流量識(shí)別效率得到提升。

      此外,針對(duì)平衡后的數(shù)據(jù),本文提出使用雙向門(mén)控循環(huán)單元網(wǎng)絡(luò)(BiGRU)與注意力機(jī)制相融合的惡意加密流量識(shí)別模型,利用雙向GRU(Gate Recurrent Unit)進(jìn)行特征學(xué)習(xí),使用注意力機(jī)制改進(jìn)對(duì)數(shù)據(jù)包重要特征的提取能力,減輕噪音特征影響,最后通過(guò)Softmax分類(lèi)器進(jìn)行惡意加密流量的多分類(lèi)識(shí)別。

      2 相關(guān)知識(shí)

      2.1 GAN

      生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network, GAN)是由Goodfellow等人[12]在2014年提出。受博弈論中2人零和博弈思想的啟發(fā),GAN主要由生成器和鑒別器2部分組成。整個(gè)網(wǎng)絡(luò)模型如圖1所示。

      圖1 生成對(duì)抗網(wǎng)絡(luò)模型圖

      GAN的博弈過(guò)程可以看作是一位數(shù)據(jù)制假者和一位數(shù)據(jù)鑒別者的博弈。在博弈過(guò)程中,數(shù)據(jù)制假者會(huì)一直提高數(shù)據(jù)制假能力,使生成數(shù)據(jù)達(dá)到以假亂真的地步,成功騙過(guò)數(shù)據(jù)鑒別者。而數(shù)據(jù)鑒別者的任務(wù)是提高自己的鑒別能力,找出真假數(shù)據(jù)間的區(qū)別,通過(guò)對(duì)抗訓(xùn)練來(lái)不斷提高各自的能力,最終達(dá)到納什均衡的狀態(tài)[13]。生成對(duì)抗網(wǎng)絡(luò)的目標(biāo)函數(shù)如式(1)所示。

      minGmaxDV(D,G)=Ex~pdata(x)[logD(x)]+

      Ez~pz(z)[log(1-D(G(z)))]

      (1)

      式中G代表生成器,D代表判別器;V為價(jià)值函數(shù),V(D,G)相當(dāng)于表示真實(shí)數(shù)據(jù)和生成數(shù)據(jù)的差異程度,maxDV(D,G)意思是固定住生成器G,盡可能地讓判別器D最大化地判別出樣本來(lái)自于生成數(shù)據(jù)還是真實(shí)數(shù)據(jù)。maxGV(D,G)表示固定住判別器D,訓(xùn)練生成器G,模擬生成類(lèi)似于真實(shí)樣本的模擬數(shù)據(jù)。z是服從高斯分布的隨機(jī)噪聲,pdata(x)表示真實(shí)數(shù)據(jù)的概率分布,pz(z)代表隨機(jī)噪聲的概率分布;x~pdata(x)表示從真實(shí)數(shù)據(jù)的分布中隨機(jī)抽取x;z~pz(z)表示從高斯分布的隨機(jī)噪聲中抽取噪聲z;D(x)和G(z)表示判別器和生成器在接收括號(hào)內(nèi)輸入后所輸出的向量。利用GAN納什平衡時(shí)生成的數(shù)據(jù)擴(kuò)展小樣本數(shù)據(jù)集,提高小類(lèi)別樣本的識(shí)別性能。

      2.2 雙向門(mén)控循環(huán)單元層BiGRU

      圖2 GRU單元結(jié)構(gòu)

      rt=σ(ωr·[ht-1,xt])

      (2)

      zt=σ(ωz·[ht-1,xt])

      (3)

      (4)

      (5)

      GRU雖然能夠很好地捕捉到行為序列的長(zhǎng)距離信息,但是單向的GRU在t時(shí)刻只能捕捉到t時(shí)刻之前的歷史信息[16]。BiGRU(雙向GRU)是由前向GRU與后向GRU組合而成,其基本思想是將每個(gè)訓(xùn)練序列根據(jù)前向和后向表示成2個(gè)獨(dú)立的遞歸神經(jīng)網(wǎng)絡(luò),并連接到同一個(gè)輸出層。BiGRU可以更好地學(xué)習(xí)雙向序列特征,提高預(yù)測(cè)準(zhǔn)確率。

      2.3 注意力機(jī)制

      近兩年,注意力機(jī)制[17](Attention Mechanism)被廣泛應(yīng)用在自然語(yǔ)言處理、圖像識(shí)別及語(yǔ)音識(shí)別等任務(wù)中。Google機(jī)器翻譯團(tuán)隊(duì)[18]在2017年提出使用自注意力及多頭自注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)架構(gòu)在機(jī)器翻譯任務(wù)中取得了較為出色的效果。因此,本文將注意力機(jī)制運(yùn)用在惡意加密流量識(shí)別中,通過(guò)對(duì)不同時(shí)序特征分配不同的權(quán)重值,加強(qiáng)重要特征對(duì)識(shí)別效果的作用。

      3 惡意加密流量識(shí)別方法

      本文提出的惡意加密流量識(shí)別過(guò)程主要包括3個(gè)階段:流量數(shù)據(jù)預(yù)處理、基于小樣本數(shù)據(jù)集擴(kuò)展的數(shù)據(jù)集平衡處理以及惡意加密流量識(shí)別模型構(gòu)建和測(cè)試。

      3.1 數(shù)據(jù)預(yù)處理

      原始數(shù)據(jù)集文件為pcap格式,首先需要進(jìn)行預(yù)處理。即將會(huì)話(huà)作為流量粒度[19],將pcap文件轉(zhuǎn)換為csv文件,轉(zhuǎn)換流程如圖3所示。首先使用Streamdump工具,根據(jù)五元組獲取TCP層非重復(fù)TLS流量,然后進(jìn)行切割,重組為多個(gè)會(huì)話(huà);接著刪除數(shù)據(jù)包數(shù)目少于3的無(wú)效會(huì)話(huà);進(jìn)一步去除MAC地址、IP地址等對(duì)分類(lèi)產(chǎn)生干擾的特定信息;提取每條會(huì)話(huà)前N個(gè)數(shù)據(jù)包的前M個(gè)字節(jié),超出長(zhǎng)度則截?cái)?,不足則補(bǔ)充0,之后將所獲得的字節(jié)序列采用Z-score進(jìn)行歸一化至(0,1),并標(biāo)記該會(huì)話(huà)。Z-score標(biāo)準(zhǔn)化公式如公式(6)所示,其中xmean表示總體樣本空間的分值均值,xstd為總樣本空間的標(biāo)準(zhǔn)差。

      圖3 數(shù)據(jù)預(yù)處理流程圖

      (6)

      3.2 基于生成對(duì)抗網(wǎng)絡(luò)的小樣本數(shù)據(jù)集的擴(kuò)展

      為了獲取質(zhì)量較高且平衡的樣本,本文使用深度生成對(duì)抗網(wǎng)絡(luò),通過(guò)訓(xùn)練少量訓(xùn)練數(shù)據(jù)集,獲取訓(xùn)練數(shù)據(jù)集的特征,模擬生成接近訓(xùn)練數(shù)據(jù)的模擬流量數(shù)據(jù),擴(kuò)充小類(lèi)數(shù)據(jù)集。DGAN模型訓(xùn)練流程如圖4所示。

      圖4 DGAN訓(xùn)練流程

      3.3 惡意加密流量識(shí)別模型

      本文的流量識(shí)別模型的網(wǎng)絡(luò)架構(gòu)如圖5所示。將平衡數(shù)據(jù)集預(yù)處理后的N×M一維字節(jié)序列數(shù)據(jù)送入雙向GRU進(jìn)行特征學(xué)習(xí),同時(shí)使用注意力機(jī)制加強(qiáng)對(duì)會(huì)話(huà)層關(guān)鍵時(shí)序特征提取[20]。為防止過(guò)擬合,采用早停法技術(shù)[21](Early Stopping)提前結(jié)束訓(xùn)練過(guò)程,避免網(wǎng)絡(luò)模型的過(guò)度擬合。最后使用Softmax分類(lèi)器實(shí)現(xiàn)惡意加密流量識(shí)別。本文輸出網(wǎng)元數(shù)量為12個(gè)。假設(shè)輸入函數(shù)為x, Softmax輸出函數(shù)定義如公式(7)所示:

      圖5 模型架構(gòu)圖

      (7)

      4 實(shí)驗(yàn)結(jié)果與分析

      4.1 實(shí)驗(yàn)數(shù)據(jù)及環(huán)境

      實(shí)驗(yàn)中,使用CICIDS2017[22]數(shù)據(jù)集中的流量作為正常流量;Malware-Traffic-Analysis[23]、Stratosphere IPS[24]并集作為惡意流量。實(shí)驗(yàn)環(huán)境為Windows 10系統(tǒng),CPU為i7-6700,主頻3.7 GHz,內(nèi)存8 GB,Python 3.6環(huán)境,基于TensorFlow 2.3完成模型的構(gòu)建以及訓(xùn)練調(diào)優(yōu)。實(shí)驗(yàn)數(shù)據(jù)集的內(nèi)容分布如表1所示。

      表1 不平衡數(shù)據(jù)

      分析發(fā)現(xiàn),使用Streamdump切分并獲取的會(huì)話(huà)大都包含8個(gè)以上的數(shù)據(jù)包,且每個(gè)pcap文件的前8個(gè)數(shù)據(jù)包都包含了TLS的握手信息。為縮減計(jì)算規(guī)模并保留流量關(guān)鍵信息,本文選取數(shù)據(jù)包個(gè)數(shù)N=8,每個(gè)數(shù)據(jù)包的長(zhǎng)度M=100 B。

      4.2 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)

      本文采用準(zhǔn)確率(Accuracy, A)、精確率(Precision, P)、召回率(Recall, R)以及F1值作為模型的評(píng)價(jià)指標(biāo)。準(zhǔn)確率是被分類(lèi)的樣本的正確率,一般正確率越高,分類(lèi)器效果越好,它主要反映分類(lèi)器將正判別為正、負(fù)判別為負(fù)的能力。精確率表示正確預(yù)測(cè)為正的占全部預(yù)測(cè)為正的比例。召回率主要是指被正確分類(lèi)的某類(lèi)樣本占該類(lèi)樣本的比例。準(zhǔn)確率、精確率、召回率分別定義如下:

      (8)

      (9)

      (10)

      其中,TP表示把屬于某個(gè)類(lèi)別的流量正確分類(lèi)為該類(lèi)別,F(xiàn)P表示把不屬于某個(gè)類(lèi)別的流量分類(lèi)為該類(lèi)別,TN表示把不屬于某個(gè)類(lèi)別的流量分類(lèi)為不是該類(lèi)別,F(xiàn)N表示把屬于某個(gè)類(lèi)別的流量分類(lèi)為不是該類(lèi)別。

      F1-score是綜合考慮Precision和Recall的調(diào)和值,用于反映整體指標(biāo),計(jì)算公式為:

      (11)

      4.3 數(shù)據(jù)集平衡實(shí)驗(yàn)

      由表1可知,惡意加密流量中的數(shù)據(jù)是不平衡的,部分惡意類(lèi)別如Dridex類(lèi)別樣本,占總數(shù)據(jù)集的36.14%,而Emotet、Reposfxg、Neris等類(lèi)別的樣本僅占總數(shù)據(jù)集的0.1%~0.4%?;诖?,本文提出使用DGAN解決惡意加密流量分類(lèi)識(shí)別中數(shù)據(jù)不平衡的問(wèn)題。

      基本的GAN網(wǎng)絡(luò)訓(xùn)練不穩(wěn)定,不易收斂,容易出現(xiàn)生成器產(chǎn)生無(wú)意義輸出的現(xiàn)象。Radford等人[25]提出使用深度卷積生成對(duì)抗網(wǎng)絡(luò)(DCGAN),該網(wǎng)絡(luò)創(chuàng)新地將基本的GAN網(wǎng)絡(luò)中生成器的全連接層替換為反卷積層,從而在圖像生成任務(wù)中實(shí)現(xiàn)了出色的性能。但針對(duì)一維字節(jié)序列的數(shù)據(jù),DCGAN的訓(xùn)練效果較差,且生成器訓(xùn)練極不穩(wěn)定,無(wú)法收斂。因此,針對(duì)一維字節(jié)序列數(shù)據(jù),本文選用DNN(深度神經(jīng)網(wǎng)絡(luò))作為GAN中生成器和判別器的基模型,通過(guò)同時(shí)訓(xùn)練生成模型和判別模型以達(dá)到對(duì)數(shù)據(jù)進(jìn)行真假判別的二分類(lèi)識(shí)別。

      4.3.1 生成對(duì)抗模型的參數(shù)設(shè)置

      深度學(xué)習(xí)模型調(diào)試時(shí),調(diào)參技巧對(duì)生成數(shù)據(jù)質(zhì)量的改進(jìn)擁有不錯(cuò)的效果,為此本文采用實(shí)驗(yàn)進(jìn)行參數(shù)設(shè)置。

      1)在判別器進(jìn)行數(shù)據(jù)輸入時(shí),進(jìn)行歸一化處理,該技術(shù)使得非線(xiàn)性變換函數(shù)的輸入值落入到對(duì)輸入比較敏感的區(qū)域,避免梯度消失。同時(shí),可提高學(xué)習(xí)過(guò)程的穩(wěn)定性,并解決權(quán)重值初始化效果差等問(wèn)題。

      2)為獲得較好的結(jié)果進(jìn)行了不同訓(xùn)練比例的嘗試,當(dāng)生成器與判別器的訓(xùn)練比例為1∶2時(shí),生成器Loss值的上升情況會(huì)相較1∶1有所減緩。因此,本文選用在訓(xùn)練1次生成器后訓(xùn)練2次判別器來(lái)平衡2個(gè)網(wǎng)絡(luò)。

      3)在訓(xùn)練數(shù)據(jù)集時(shí),如直接使用0.01的學(xué)習(xí)速率,判別網(wǎng)絡(luò)的損失將會(huì)銳減至很小,導(dǎo)致不能指導(dǎo)生成網(wǎng)絡(luò)的參數(shù)進(jìn)行更新。因此,本文通過(guò)實(shí)驗(yàn)逐步衰減,最終設(shè)置生成器與判別器的學(xué)習(xí)率為0.001和0.004。

      4)激活函數(shù)選擇使用LeakyReLU代替ReLU避免梯度稀疏,增強(qiáng)模型的穩(wěn)定性。

      5)使用隨機(jī)失活技術(shù)DropOut增加網(wǎng)絡(luò)的魯棒性,減少過(guò)擬合。

      圖6為使用上述參數(shù)對(duì)部分小樣本數(shù)據(jù)訓(xùn)練5000次后生成器與判別器的損失情況。由圖6可知,在前1000次迭代中生成器損失一直處于較高水平,此時(shí)生成器還在學(xué)習(xí)真實(shí)樣本數(shù)據(jù)的特征,在迭代1000次后,生成器損失下降并逐漸趨于穩(wěn)定。此時(shí),表明生成器已能夠快速生成與真實(shí)數(shù)據(jù)相似的虛擬樣本??傮w來(lái)說(shuō),2個(gè)函數(shù)震蕩變化,生成器與判別器這2個(gè)網(wǎng)絡(luò)結(jié)構(gòu)相互制約,最終達(dá)到納什均衡。

      (a) Emotet Loss

      利用訓(xùn)練好的深度生成對(duì)抗網(wǎng)絡(luò)模型的生成器生成數(shù)據(jù),使用高斯噪聲觸發(fā)生成器,產(chǎn)生加密流量樣本從而補(bǔ)充小類(lèi)別的樣本。本文選擇5000條數(shù)據(jù)作為基準(zhǔn)值,對(duì)不足5000條的樣本類(lèi)別使用DGAN訓(xùn)練生成。同時(shí),使用隨機(jī)欠抽樣方法,對(duì)超過(guò)5000條的樣本進(jìn)行平衡,從而使整個(gè)數(shù)據(jù)集趨于平衡。

      4.3.2 小樣本數(shù)據(jù)平衡實(shí)驗(yàn)結(jié)果分析

      為驗(yàn)證使用DGAN生成樣本的有效性,分別將平衡前與平衡后的小類(lèi)別樣本數(shù)據(jù)導(dǎo)入到基模型GRU中,并對(duì)數(shù)據(jù)平衡前后的分類(lèi)效果進(jìn)行比較分析。表2為小樣本數(shù)據(jù)在基模型上平衡前后的Precision、Recall以及F1指標(biāo)對(duì)比。由表2可知,在基于GRU的分類(lèi)方法中,幾個(gè)小樣本類(lèi)別的Precision、Recall以及F1指標(biāo)與非平衡數(shù)據(jù)相比提升顯著。該結(jié)果表明,使用深度生成對(duì)抗網(wǎng)絡(luò)對(duì)小樣本數(shù)據(jù)進(jìn)行擴(kuò)充和平衡能有效降低小樣本類(lèi)別被誤判的幾率,從而提高模型整體識(shí)別精度。同時(shí)也表明,本文所提模型DGAN經(jīng)過(guò)不斷訓(xùn)練生成的樣本數(shù)據(jù)對(duì)惡意TLS流量識(shí)別是有效的。

      表2 小樣本數(shù)據(jù)平衡前后各項(xiàng)評(píng)價(jià)指標(biāo)對(duì)比

      4.4 相關(guān)工作對(duì)比實(shí)驗(yàn)

      為了進(jìn)一步驗(yàn)證本文模型A-BiGRU的有效性及可用性,在公開(kāi)數(shù)據(jù)集上選取3種相關(guān)工作的模型1D-CNN、BiLSTM、GRU與本文模型進(jìn)行對(duì)比實(shí)驗(yàn)。在基于1D-CNN的分類(lèi)實(shí)驗(yàn)中,采用文獻(xiàn)[26]提出的模型分類(lèi)結(jié)構(gòu),提取TLS會(huì)話(huà)流前784個(gè)字節(jié),輸入2層一維卷積神經(jīng)網(wǎng)絡(luò)提取字節(jié)序列局部特征組合。BiLSTM模型采用文獻(xiàn)[20]提出的分類(lèi)模型,提取TLS會(huì)話(huà)流前8個(gè)數(shù)據(jù)包與每個(gè)數(shù)據(jù)包前100個(gè)字節(jié),輸入BiLSTM模型。GRU模型使用2層的網(wǎng)絡(luò)結(jié)構(gòu)來(lái)提取字節(jié)序列的時(shí)序特征。

      訓(xùn)練過(guò)程中,將數(shù)據(jù)集隨機(jī)地劃分為訓(xùn)練集與測(cè)試集2部分,分別占比80%與20%。實(shí)驗(yàn)選用categorical_crossentropy(交叉熵函數(shù))作為損失函數(shù),Adam作為優(yōu)化器。各模型在平衡前后測(cè)試集上的評(píng)價(jià)指標(biāo)如表3所示。

      表3 數(shù)據(jù)集平衡前后各模型評(píng)價(jià)指標(biāo)對(duì)比

      由表3可知,雖然各模型在不平衡數(shù)據(jù)集上的準(zhǔn)確率較高,但精度、召回率以及F1值相對(duì)較低。平衡后的數(shù)據(jù)集在模型識(shí)別中的精度、召回率以及F1值等指標(biāo)相較于不平衡數(shù)據(jù)集分別提升了20%~30%。此外,在使用DGAN生成的平衡數(shù)據(jù)集上,本文所提模型A-BiGRU相較于其它基模型在準(zhǔn)確率上提升了2%~3%,召回率和F1提升了1%~3%。這表明該模型能成功從惡意TLS流量中區(qū)分惡意家族,對(duì)于復(fù)雜的網(wǎng)絡(luò)流量具有很好的分類(lèi)效果。同時(shí)也表明,使用雙向GRU與注意力機(jī)制融合的模型效果要優(yōu)于使用單個(gè)模型的分類(lèi)效果。

      5 結(jié)束語(yǔ)

      本文提出使用深度生成對(duì)抗網(wǎng)絡(luò)DGAN來(lái)解決流量識(shí)別中類(lèi)別不平衡的問(wèn)題,利用DGAN數(shù)據(jù)擴(kuò)充的優(yōu)勢(shì),為數(shù)量較小的數(shù)據(jù)類(lèi)別進(jìn)行補(bǔ)充,形成平衡的流量樣本。其次,本文提出使用雙向GRU與注意力機(jī)制相融合的模型對(duì)平衡后的數(shù)據(jù)集進(jìn)行特征學(xué)習(xí),該模型能夠充分利用深度神經(jīng)網(wǎng)絡(luò)挖掘深層數(shù)據(jù)包內(nèi)與包間時(shí)序特征的學(xué)習(xí)能力,有效提升對(duì)惡意TLS流量的識(shí)別分類(lèi)效果。未來(lái)將考慮設(shè)計(jì)一種多類(lèi)別流量數(shù)據(jù)生成的網(wǎng)絡(luò)結(jié)構(gòu),可以滿(mǎn)足一個(gè)網(wǎng)絡(luò)訓(xùn)練多種類(lèi)別流量數(shù)據(jù)生成的任務(wù)。

      猜你喜歡
      數(shù)據(jù)包類(lèi)別加密
      一種基于熵的混沌加密小波變換水印算法
      SmartSniff
      認(rèn)證加密的研究進(jìn)展
      服務(wù)類(lèi)別
      基于ECC加密的電子商務(wù)系統(tǒng)
      基于Libpcap的網(wǎng)絡(luò)數(shù)據(jù)包捕獲器的設(shè)計(jì)與實(shí)現(xiàn)
      論類(lèi)別股東會(huì)
      商事法論集(2014年1期)2014-06-27 01:20:42
      基于格的公鑰加密與證書(shū)基加密
      中醫(yī)類(lèi)別全科醫(yī)師培養(yǎng)模式的探討
      視覺(jué)注意的數(shù)據(jù)包優(yōu)先級(jí)排序策略研究
      河津市| 双柏县| 沙雅县| 新营市| 玛沁县| 弋阳县| 新营市| 乌审旗| 湘西| 上杭县| 广南县| 凤台县| 武邑县| 安达市| 全州县| 将乐县| 贺州市| 海原县| 健康| 苍溪县| 金秀| 荆州市| 句容市| 博罗县| 资源县| 广元市| 泰顺县| 永丰县| 东山县| 南投市| 元谋县| 日照市| 长沙县| 江都市| 冕宁县| 红河县| 太仓市| 湘潭市| 澄江县| 河源市| 合川市|