• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于相關(guān)性特征選擇和深度學(xué)習(xí)的網(wǎng)絡(luò)流分類

      2022-09-20 01:43:14劉會霞董育寧邱曉暉
      關(guān)鍵詞:特征選擇集上運(yùn)算

      劉會霞,董育寧,邱曉暉

      (南京郵電大學(xué)通信與信息工程學(xué)院,江蘇 南京 210003)

      網(wǎng)絡(luò)流量分類(Network traffic classification,NTC)可用來區(qū)分不同業(yè)務(wù)的需求,對網(wǎng)絡(luò)資源管理和網(wǎng)絡(luò)空間安全至關(guān)重要[1],是一個重要的研究領(lǐng)域。

      傳統(tǒng)的NTC方法主要有基于端口[2]、基于深度包檢測[3]和基于統(tǒng)計(jì)特征的方法[4]。 其中,基于端口和深度包檢測的方法僅適用于未加密的流量[5]。機(jī)器學(xué)習(xí)(Machine learning,ML)和深度學(xué)習(xí)(Deep learning,DL)方法依賴于統(tǒng)計(jì)特征或時間序列特征,能夠處理加密和未加密流量[5]。對于基于ML的分類方法,其有效性在很大程度上取決于特征選擇(Feature selection, FS)的準(zhǔn)確性和有效性[6]。Wang等[1]利用公共數(shù)據(jù)集,在基于流的六分類任務(wù)中,使用一維卷積神經(jīng)網(wǎng)絡(luò)(One-dimensional convolutional neural network,1D-CNN)分類準(zhǔn)確率可達(dá) 98.60%;Aswad等[7]使用人工神經(jīng)網(wǎng)絡(luò)(Artificial neural network,ANN)在ISCX數(shù)據(jù)集(簡稱為 ISCX)[8]上準(zhǔn)確率可達(dá) 96.76%;Lotfollahi等[9]將數(shù)據(jù)包字節(jié)特征作為1D-CNN和堆疊自編碼器(Stacked auto-encoder, ASE)的輸入,應(yīng)用和業(yè)務(wù)流分類的平均f1-score都可達(dá)到95.0%。

      在NTC任務(wù)中,有研究者使用了特征融合(Feature fusion, FF)和 FS相結(jié)合的方法。Mcgaughey等[10]提出了用于NTC的FS系統(tǒng)方法,利用二階運(yùn)算(加、減、乘)生成融合特征(Fused feature,fuf),并使用快速正交算法對 fuf進(jìn)行 FS。文獻(xiàn)[11]同樣使用二階運(yùn)算(加、乘、絕對值加)作為FF方法,使用嵌入式FS算法,將FS與隨機(jī)森林(Random forest,RF)相結(jié)合,分類效果優(yōu)于核函數(shù)FF方法[12]。針對現(xiàn)有FF運(yùn)算方法比較單一,且高維特征中存在較多的冗余問題,本文提出了新的FF方法。它在網(wǎng)絡(luò)流特征增加的同時更加多樣化,經(jīng)過FS選出最優(yōu)特征組合,并將序列特征轉(zhuǎn)換成二維灰度圖(Greyscale image,gi),利用 DL模型進(jìn)行分類實(shí)驗(yàn)。實(shí)驗(yàn)表明,該方法的分類準(zhǔn)確度比現(xiàn)有方法有明顯提升。

      本文的主要貢獻(xiàn)如下:

      (1) 設(shè)計(jì)對原始特征(Original feature, orf)做相應(yīng)運(yùn)算,生成高維fuf,將生成的特征矩陣轉(zhuǎn)換成gi,使用CNN模型對gi進(jìn)行流分類;

      (2)設(shè)計(jì)通過計(jì)算皮爾森相關(guān)系數(shù)(Pearson correlation coefficient,pcc),將特征與標(biāo)簽和特征之間的pcc結(jié)合考慮,消除冗余特征,發(fā)現(xiàn)閾值為0.9時,分類性能最優(yōu);

      (3)在兩個實(shí)際網(wǎng)絡(luò)數(shù)據(jù)集上進(jìn)行了方法的分類性能測試,并與現(xiàn)有方法比較。結(jié)果表明,本文方法明顯優(yōu)于文獻(xiàn)方法。

      1 相關(guān)工作

      1.1 FF方法

      典型的FF方法是將多個特征通過某種運(yùn)算融合成一個高維組合特征集,然后使用FS方法對高維特征集進(jìn)行降維[13]。 Sugandhi等[14]將現(xiàn)有統(tǒng)計(jì)特征與新提出的特征做FF,可以提高對人體步態(tài)的識別性能;Zhong等[15]將靜態(tài)和動態(tài)兩個不同尺度的特征融合成一個新的特征,可以完成視頻火焰識別任務(wù);Nguyen-Quoc等[16]將特征進(jìn)行拼接形成單一、增強(qiáng)的fuf,然后使用相關(guān)性分析方法對fuf進(jìn)行降維。在 NTC方向,對于 FF方法也有一些成果。Shen等[12]提出使用核函數(shù)形成 fuf集;Mcgaughey等[10]使用二階加、單向減、乘運(yùn)算和三階乘運(yùn)算融合方法,形成fuf,最后與orf拼接成組合特征,并對網(wǎng)絡(luò)流量進(jìn)行識別;袁夢嬌等[11]使用二階加、乘、絕對值加3種FF方法,實(shí)驗(yàn)結(jié)果證明可以提升視頻流量識別的準(zhǔn)確率和性能?;谝陨涎芯?,本文使用二階運(yùn)算FF方法,除了加、乘、絕對值加3種融合方法外,將單向減改為雙向減運(yùn)算,另外提出乘、開方、線性加(4種)、線性減(4種)共14種融合方法。

      1.2 特征選擇方法

      FS通過搜索最優(yōu)特征子集,一方面,可以降低特征維數(shù),使模型的泛化能力更強(qiáng),減少過擬合;另一方面提升分類的時間性能[17]。 Zhao等[18]指出FS對于NTC有很大的影響。FS方法分為:過濾式、包裹式和嵌入式[17]。 Xue 等[19]提到包裹式通常優(yōu)于過濾式,但其計(jì)算復(fù)雜度較高;嵌入式通常與特定的分類模型有關(guān),特別是決策樹、RF等ML方法;過濾式計(jì)算簡單、快速,且不依賴于分類算法,只與特征本身有關(guān)[20]。因此,在本實(shí)驗(yàn)中采用過濾式FS方法,將特征與標(biāo)簽和特征之間的pcc相結(jié)合,所選擇的最優(yōu)特征組合在兩個數(shù)據(jù)集上都表現(xiàn)出了比較好的分類性能。

      1.3 分類器

      DL在圖像處理和自然語言處理領(lǐng)域已經(jīng)取得了很大的成就。近年來,DL也被廣泛應(yīng)用于NTC。Wang等[1]將流量數(shù)據(jù)以類似于MNIST數(shù)據(jù)集的形式進(jìn)行處理,并利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)對流量進(jìn)行分類,結(jié)果表明,CNN的分類準(zhǔn)確度要高于ML的準(zhǔn)確度;Song等[21]指出網(wǎng)絡(luò)流量數(shù)據(jù)與文本數(shù)據(jù)具有相似的層次結(jié)構(gòu),將網(wǎng)絡(luò)流量數(shù)據(jù)轉(zhuǎn)換為文本數(shù)據(jù),利用文本卷積網(wǎng)絡(luò)進(jìn)行分類,取得了不錯的分類效果;Raikar等[22]應(yīng)用 AlexNet、ResNet和 GoogLeNetDL 三種 DL模型進(jìn)行NTC,結(jié)果發(fā)現(xiàn),ResNet網(wǎng)絡(luò)具有較高的準(zhǔn)確度。本文使用LeNet5[23]模型,對網(wǎng)絡(luò)流量轉(zhuǎn)換的gi進(jìn)行分類,實(shí)驗(yàn)表明可以取得良好的分類效果。

      2 研究方法

      本文方法流程圖如圖1所示。在預(yù)處理階段,首先,把pcap文件轉(zhuǎn)換成txt文件,然后將持續(xù)較長時間(大于5 min)的流數(shù)據(jù)分割成多個30 s的流段。將不足30 s的流刪除。然后,組成網(wǎng)絡(luò)視頻數(shù)據(jù)集(Video dataset,VD)和ISCX。其他信息在下文介紹。

      圖1 方法流程圖

      2.1 數(shù)據(jù)集

      兩個數(shù)據(jù)集中的樣本都是持續(xù)時間為30 s的流。VD是本實(shí)驗(yàn)室使用WireShark通過南京郵電大學(xué)校園網(wǎng)采集的互聯(lián)網(wǎng)視頻數(shù)據(jù),采集時間是2019年10月至2020年3月,包括直播和點(diǎn)播視頻流,詳細(xì)介紹如表1所示。表2為ISCX選擇的4種業(yè)務(wù),分別為語音通話、文字聊天、視頻和IP語音。

      表1 網(wǎng)絡(luò)視頻數(shù)據(jù)集(VD)

      表2 ISCX部分?jǐn)?shù)據(jù)集[8]

      2.2 原始特征提取

      通過對流數(shù)據(jù)進(jìn)行統(tǒng)計(jì)計(jì)算,提取了包括上行、下行和整體的包大小、包到達(dá)時間、字節(jié)效率、有效IP比等56個orf,具體特征描述如表3所示。式(1)Fo所示為56個orf序列。

      表3 原始特征(orf)

      當(dāng)具有相同源地址的包出現(xiàn)時,稱為一個子流[24]。有效IP數(shù)定義為使用TCP/IP協(xié)議的包數(shù),有效IP比為有效IP數(shù)與數(shù)據(jù)包總數(shù)的比值。

      2.3 特征融合

      式(2)至式(15)是本文所采用的14種 FF方法,其中式(2)至式(4)是文獻(xiàn)[11]中的融合方法,式(5)至式(15)是本文提出的新融合方法。

      式中,i<j,abs 為絕對值運(yùn)算,式(8)至式(15)稱為線性加(減)運(yùn)算。

      FF的目的是使特征更加多樣,從而提高分類準(zhǔn)確度??紤]到orf具有數(shù)值大小相差較大的特征,如果直接運(yùn)用,可能會有極大的數(shù)值特征(最大包大小可能為1 500)與一個極小的數(shù)值特征(上下行包個數(shù)比值為0.3)做某種算術(shù)運(yùn)算,比如加,那么fuf為1 500.3與orf幾乎沒有差別,這樣就失去了FF的原本意圖。所以,在進(jìn)行FF之前把所有特征歸一化在[0,1]。 式(16)為歸一化后的 56個 orf序列F′o, 其中;式(17)為采用上述14種融合方法生成的21 560個fuf序列Ff;式(18)為 orf和 fuf拼接成的21 616個全部特征(All features, af)序列F。

      2.4 相關(guān)性特征選擇

      F中包含著大量的冗余特征,會影響分類器的性能。經(jīng)過相關(guān)性FS,可以盡可能地刪除冗余特征,保留重要的特征。本文采用pcc對特征進(jìn)行降維[25]。

      步驟如下:

      (1) 計(jì)算每個特征與標(biāo)簽的 pcc[25],并且按照pcc由強(qiáng)到弱對特征進(jìn)行排序;

      (2)從排在前面的特征開始,計(jì)算特征之間的pcc,如果pcc大于閾值δff,則刪除其中與標(biāo)簽相關(guān)性(Label correlation,lc)較弱的一個特征;

      (3)重復(fù)第2步,直到所有FS完畢。

      式(19)為選擇的特征(Chosen features, cf)序列Fs,n表示cf個數(shù)。

      例如F=[F1,F(xiàn)2,F(xiàn)3,F(xiàn)4,F(xiàn)5], 經(jīng)過特征選擇后,F(xiàn)s=[F5,F(xiàn)2,F(xiàn)1], 圖 2 為特征選擇過程示意圖。

      圖2 特征選擇示意圖

      由于lc相同的特征所占比例<10%,如圖3和圖4所示,所以,當(dāng)lc相同,且特征之間的pcc大于δff時,隨機(jī)刪除其中一個特征。

      圖4 ISCX中fuf與lc分布

      另外,當(dāng)閾值過大會導(dǎo)致冗余特征刪除不充分,閾值過小會導(dǎo)致過度刪除特征,從而導(dǎo)致準(zhǔn)確率下降。所以選擇合適的相關(guān)性閾值δff,是需要考慮的問題。

      最后,將Fo、F、Fs分別歸一化到[0,255],每一個數(shù)值特征對應(yīng)一個像素點(diǎn),生成N×N的gi。

      3 性能評估

      3.1 評價(jià)指標(biāo)

      本文采用4種評價(jià)指標(biāo),分別是總體準(zhǔn)確率(acc)、查準(zhǔn)率(P)、查全率(R)和F1 測度(f1_score),其中acc是指所有分類正確的樣本占全部樣本的比例;P為預(yù)測是正例的結(jié)果中,確實(shí)是正例的比例;R是所有正例樣本中被找出的比例;f1_score是P和R的調(diào)和平均;具體計(jì)算如式(20)至式(23)所示,式中TP和TN分別是真例和假例被正確分類的樣本數(shù),F(xiàn)P和FN分別是真例和假例被錯誤分類的樣本數(shù)[1]。

      3.2 實(shí)驗(yàn)場景和參數(shù)設(shè)置

      圖5 損失函數(shù)收斂曲線圖

      圖6 LeNet5 模型[23]

      4 實(shí)驗(yàn)結(jié)果與分析

      4.1 網(wǎng)絡(luò)視頻數(shù)據(jù)集

      表4所示為設(shè)置不同δff的實(shí)驗(yàn)結(jié)果,隨著δff減小,cf數(shù)目在下降,相對應(yīng)的訓(xùn)練時間(Training time, tt)和識別時間(Inference time, int)也減少;當(dāng)δff=0.90時,在該數(shù)據(jù)集上的acc最高。圖7所示為δff對 acc、int和 tt的影響。

      表4 VD用不同的 δff進(jìn)行 FS后的 acc、tt和 int(orf提取時間=1.36 s,F(xiàn)F 時間=17.2 ms/樣本)

      圖7 δff對 acc、int和 tt的影響

      由圖7可以看出,當(dāng)δff從0.95減小到0.90時,int和 tt下降最大;δff=0.90 時,acc 最高。 所以,δff=0.90最佳;此時 cf的個數(shù)為 2 328個(n=2 328);式(24)為選擇的特征序列Fs1, gi大小為 48×48,acc為 99.80%,int為 0.1 ms/樣本,tt為 0.12 s/epoch。

      圖8顯示Fs1、Fo和F的acc結(jié)果比較。雖然orf所使用的時間最少,但是它的分類結(jié)果最差,只有75.09%;其次,af分類結(jié)果較orf從75.09%提升到了 99.71%,但是 int為 0.58 ms/樣本,耗時最長;經(jīng)過最佳δff的 FS之后,不僅 acc較 af提升了近0.10個百分點(diǎn),為99.80%,而且int也減少了82.76%,減少到0.1 ms/樣本??梢姡?jīng)過FS在保持acc不變(甚至略有提高)的條件下能夠顯著減少運(yùn)行時間。

      圖8 VD的orf、af與cf的acc和int對比

      從圖9混淆矩陣中可以看出,af與orf相比,逐類流的 acc都有所提高,特別是直播 480/1080和點(diǎn)播1 080;cf與 af相比,雖然直播720的acc略有下降,但點(diǎn)播720和直播1 080的acc提高了;綜合考慮,cf的分類結(jié)果較好。圖10為利用Fo、F和Fs1對 VD中逐類別的 f1_score對比,F(xiàn)o序列長度為56,通過在特征尾部補(bǔ)零的方式生成的gi大小為8×8;F序列長度為21 616,生成140×140的 gi。隨著特征個數(shù)的增多和 gi尺寸的增大,每類的 f1_score都明顯增加,最高為99.88%,最低也可以達(dá)到98.83%;其次,F(xiàn)s1序列長度為2 328,生成48×48的 gi;cf與 af相比,不僅 acc增加了 0.1個百分點(diǎn),而且逐類別的f1_score都達(dá)到了99.2%以上,有小幅度提高。

      圖9 VD上orf、af和cf分類的混淆矩陣

      綜上,可以得出如下結(jié)論:

      (1)使用af對視頻流進(jìn)行分類時,int雖然較長,但是acc較orf從75.09%提升到99.71%(提升24.62個百分點(diǎn));逐類別的f1_score(如圖10所示)也明顯提高;

      圖10 VD用orf、af和cf進(jìn)行分類的f1_score比較

      (2)當(dāng)特征之間的δff為0.90時,可以有效刪除冗余特征;FS后的acc可以達(dá)到99.80%,較af提升0.1個百分點(diǎn)左右,int顯著減少(減少了約82%),逐類別的 f1_score也可以達(dá)到 99.2%以上。

      4.2 ISCX數(shù)據(jù)集

      在ISCX上測試本文方法的有效性和通用性,并與文獻(xiàn)[9]和文獻(xiàn)[11]方法作對比。

      由于特征提取(Feature extraction,F(xiàn)E)和FF是在FS之前,所以δff對它們沒有影響。從表5可以看出,當(dāng)δff=0.95和 0.90時,acc最高為 99.84%,其中δff=0.90 運(yùn)行時間較少;而且,由圖 11 可見,δff從0.95變化到0.90時,int和tt的下降最大,所以在該數(shù)據(jù)集上,最佳δff為0.90;這與在VD上的結(jié)果基本一致。圖 12為利用Fo、F和式(25)的Fs2(n=2 463)的acc與int對比;可以看出,F(xiàn)較Fo準(zhǔn)確率從70.35%提升到99.64%(上升29個百分點(diǎn)左右),F(xiàn)s2較F準(zhǔn)確率從99.64%提升到99.84%(提升0.2個百分點(diǎn)),int從 0.58 ms/樣本減少到 0.12 ms/樣本(減少約80%)??梢?,有效的FS可以改善分類的準(zhǔn)確性和時間性能。

      表5 ISCX用不同的 δff進(jìn)行 FS后的 acc、tt和 int(orf提取時間=0.91 s,F(xiàn)F 時間=14.5 ms/樣本)

      圖11 δff對 acc、int和 tt的影響

      圖12 ISCX的orf、af與cf的acc和 int對比

      圖13為利用Fo、F和Fs2進(jìn)行分類的 f1_score結(jié)果對比??梢钥闯觯肍o進(jìn)行分類時f1_score≤80%,分類性能欠佳;利用F進(jìn)行分類的效果明顯優(yōu)于Fo,且f1_score明顯提高。這是因?yàn)?,F(xiàn)擁有更加豐富的特征,對于分類有利,不過如圖12所示int較長;利用Fs2進(jìn)行分類時,f1_score并沒有隨著特征個數(shù)的減少而降低,甚至略微提高。如前文所述,cf的acc較af相比也提升了約0.2個百分點(diǎn),int降低了約80%。圖14為3種特征集合的混淆矩陣,分別為 orf、af和 cf;af與 orf相比,逐類別的acc都有明顯的提高,其中語音通話改善最明顯;cf與af相比,在af的基礎(chǔ)上進(jìn)一步提高了視頻和IP語音的acc;綜合分析,cf的分類結(jié)果最好。

      圖13 用orf、af和cf進(jìn)行分類的f1_score比較

      圖14 ISCX orf、af和cf分類的混淆矩陣

      表6為本文方法使用2 463個cf與文獻(xiàn)[9]和文獻(xiàn)[11]方法在ISCX上的acc對比。可以看出,本方法與文獻(xiàn)[9]相比,acc提升約2個百分點(diǎn),int減少了1.7 ms/樣本左右,但是增加了FE和FF時間。與文獻(xiàn)[11]相比,由于本文方法的orf和fuf個數(shù)更多,所以FE和FF時間相應(yīng)增加了約 0.2 s和12 ms,int增加不到 0.2 ms/樣本,但是acc提升了約4個百分點(diǎn)。從圖15中可以看出,針對逐類別的f1_score,本文方法要明顯優(yōu)于文獻(xiàn)[9]和文獻(xiàn)[11]的方法。

      圖15 ISCX上本文方法與文獻(xiàn)[9]和文獻(xiàn)[11]方法的f1指標(biāo)對比

      表6 本文方法與文獻(xiàn)[9]和文獻(xiàn)[11]方法的性能對比

      探其原因:第一,文獻(xiàn)[9]將字節(jié)特征作為1D-CNN的輸入,要想達(dá)到高acc,需要更多的隱藏層和神經(jīng)元,即需要計(jì)算更多的參數(shù);第二,本文通過從高維特征集里選擇最優(yōu)特征子集,比字節(jié)特征的區(qū)別性更大;第三,文獻(xiàn)[9]通過補(bǔ)零的方式截取1 500個字節(jié),但在像聊天這樣的流中大多數(shù)數(shù)據(jù)包遠(yuǎn)小于1 500個字節(jié),會補(bǔ)充較多的零;第四,本文將NTC轉(zhuǎn)換成 gi識別,從而識別效果更好。

      與文獻(xiàn)[11]方法對比,第一,本文所采用的FF方式比文獻(xiàn)[11]的更加多樣,cf也更多樣;第二,文獻(xiàn)[11]的方法在包含單一網(wǎng)絡(luò)視頻流上的分類結(jié)果具有優(yōu)越性,但是在包含多種應(yīng)用的業(yè)務(wù)分類上的性能會相對降低;第三,文獻(xiàn)[11]所采用的嵌入式FS與模型有關(guān),選出的特征子集中可能存在對模型貢獻(xiàn)相同的冗余特征。盡管文獻(xiàn)[11]方法的運(yùn)行時間最短,但其acc最低。

      5 結(jié)束語

      本文首先對56個orf做加、絕對值加、減、絕對值減等14種運(yùn)算,將56個orf擴(kuò)展到21 560個fuf和21 616個 af。然后使用 pcc方法,對 af進(jìn)行降維,從而有效刪除冗余特征。在VD和ISCX兩個數(shù)據(jù)集上進(jìn)行了方法驗(yàn)證和對比實(shí)驗(yàn);結(jié)果表明,設(shè)置特征之間的δff為0.90時,cf(分別為2 328個和2 463個)在兩個數(shù)據(jù)集上的acc較使用af分別提高了約0.1個百分點(diǎn)和0.2個百分點(diǎn),達(dá)到了99.80%和99.84%;int分別減少約80%。在ISCX上的對比實(shí)驗(yàn)結(jié)果表明,本文方法逐類別的f1_score都優(yōu)于文獻(xiàn)[9]和文獻(xiàn)[11],acc較文獻(xiàn)[9]和文獻(xiàn)[11]的方法分別提高了約2個百分點(diǎn)和4個百分點(diǎn)。

      本文方法的局限性:(1)在acc提升的同時,時間復(fù)雜度有所增加;(2)相關(guān)性FS只對線性相關(guān)敏感,而不能確定是否存在非線性關(guān)系;(3)在兩個數(shù)據(jù)集上都證明,當(dāng)特征之間的δff等于0.90時,所選取的特征可作為最優(yōu)特征子集,但不排除最佳δff的選擇可能會受到不同數(shù)據(jù)集的影響。

      猜你喜歡
      特征選擇集上運(yùn)算
      重視運(yùn)算與推理,解決數(shù)列求和題
      Cookie-Cutter集上的Gibbs測度
      有趣的運(yùn)算
      鏈完備偏序集上廣義向量均衡問題解映射的保序性
      復(fù)扇形指標(biāo)集上的分布混沌
      “整式的乘法與因式分解”知識歸納
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      撥云去“誤”學(xué)乘除運(yùn)算
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
      蒙城县| 镇江市| 太康县| 桦甸市| 常宁市| 临沭县| 双鸭山市| 固安县| 高要市| 汉川市| 苍溪县| 徐水县| 德钦县| 平利县| 嘉荫县| 宁远县| 甘孜| 阳江市| 伽师县| 防城港市| 中超| 甘德县| 始兴县| 景泰县| 北辰区| 九台市| 江达县| 武功县| 龙海市| 建瓯市| 阿克陶县| 崇文区| 玉溪市| 平度市| 砚山县| 东阳市| 洪江市| 遵义县| 外汇| 库伦旗| 美姑县|