• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于過(guò)抽樣技術(shù)的P2P流量識(shí)別方法*

      2014-03-12 05:17:20錢亞冠
      電信科學(xué) 2014年4期
      關(guān)鍵詞:樣本數(shù)數(shù)據(jù)流識(shí)別率

      錢亞冠,張 旻

      (1.浙江科技學(xué)院理學(xué)院 杭州 310023;2.杭州電子科技大學(xué)計(jì)算機(jī)學(xué)院 杭州 310018)

      1 引言

      近年來(lái),P2P技術(shù)已被廣泛應(yīng)用于文件共享、視頻內(nèi)容分發(fā)、即時(shí)通信等網(wǎng)絡(luò)應(yīng)用領(lǐng)域。自2004年以來(lái),P2P流量在整個(gè)互聯(lián)網(wǎng)流量中逐漸占據(jù)主導(dǎo)地位(60%以上)[1,2]。P2P流量的快速增長(zhǎng)給網(wǎng)絡(luò)帶寬帶來(lái)了巨大壓力,其近乎對(duì)稱的流量模式更加劇了網(wǎng)絡(luò)的擁塞。同時(shí),基于P2P技術(shù)的惡意流量也開(kāi)始肆虐互聯(lián)網(wǎng),造成帶寬的過(guò)度消耗,甚至導(dǎo)致拒絕服務(wù)[3]。因此,如何快速正確地識(shí)別P2P流量已經(jīng)成為當(dāng)前網(wǎng)絡(luò)管理者面臨的巨大挑戰(zhàn)。

      互聯(lián)網(wǎng)流量的識(shí)別技術(shù)經(jīng)歷了最初的基于TCP端口、深度分組檢測(cè)(deep packet inspection,DPI)到目前興起的機(jī)器學(xué)習(xí)方法和基于網(wǎng)絡(luò)行為的識(shí)別等技術(shù)[4]。有的P2P應(yīng)用為了躲避檢測(cè),開(kāi)始采用動(dòng)態(tài)端口、數(shù)據(jù)分組加密等技術(shù)手段,使得基于TCP端口與DPI的方法效率越來(lái)越低。而基于統(tǒng)計(jì)學(xué)的機(jī)器學(xué)習(xí)方法卻可以克服上述不足,因而它逐漸顯示出在P2P流量分類中的優(yōu)勢(shì)[5]。

      傳統(tǒng)的機(jī)器學(xué)習(xí)方法通常假設(shè)目標(biāo)類是均勻分布的,而實(shí)際的互聯(lián)網(wǎng)流量中的各種應(yīng)用的分布是不均勻的。尤其是P2P這樣的大象流(elephant traffic),它們按字節(jié)數(shù)統(tǒng)計(jì)在流量上占很大比例,對(duì)網(wǎng)絡(luò)性能的影響很大,但從數(shù)據(jù)流(flow)角度統(tǒng)計(jì)卻占很少比例[6]。目前基于機(jī)器學(xué)習(xí)的流量分類方法通?;跀?shù)據(jù)流的統(tǒng)計(jì)信息,因此占數(shù)據(jù)流比例很小的P2P流量往往難以識(shí)別,分類器傾向于將P2P數(shù)據(jù)流識(shí)別為如WWW這樣的多數(shù)類。這種目標(biāo)類比例嚴(yán)重失衡而導(dǎo)致少數(shù)類識(shí)別誤差增大的問(wèn)題通常稱為類不平衡(class imbalance)問(wèn)題,是目前P2P流量難以識(shí)別的一個(gè)重要原因。

      網(wǎng)絡(luò)流量中的眾多應(yīng)用比例極不均衡,流量分類問(wèn)題面臨的是多類不平衡問(wèn)題[7]。而P2P應(yīng)用本身在數(shù)據(jù)流中所占比重很小,又受到其他應(yīng)用目標(biāo)類的干擾,本文提出將P2P識(shí)別中的多類不平衡問(wèn)題轉(zhuǎn)化為兩類不平衡問(wèn)題的思路,并通過(guò)過(guò)抽樣(over-sampling)方法增加P2P流量的比重,消除分類器在學(xué)習(xí)過(guò)程中的偏倚,提高P2P的識(shí)別率。本文提出改進(jìn)的迭代SMOTE(i-SMOTE)過(guò)抽樣方法來(lái)提高Na觙ve Bayes算法的識(shí)別率,實(shí)驗(yàn)結(jié)果證明本文提出的識(shí)別框架具有良好的識(shí)別性能。

      2 類不平衡問(wèn)題與SMOTE過(guò)抽樣方法

      目前基于機(jī)器學(xué)習(xí)的流量分類方法大多利用數(shù)據(jù)流層面的統(tǒng)計(jì)信息。因此像P2P這類應(yīng)用,盡管在字節(jié)流上占很大比重,在數(shù)據(jù)流層面卻占很小的比例,與WWW應(yīng)用相比存在嚴(yán)重的不平衡性。這種不平衡性將導(dǎo)致P2P很高的誤分類率。傳統(tǒng)的機(jī)器學(xué)習(xí)分類算法旨在最小化全局分類誤差,并假設(shè)假正例與假負(fù)例的錯(cuò)誤代價(jià)是相等的,因此偏向于把少數(shù)類預(yù)測(cè)到多數(shù)類上,如將P2P預(yù)測(cè)為WWW。而實(shí)際網(wǎng)絡(luò)管理過(guò)程中,可能對(duì)于識(shí)別類似P2P這樣的少數(shù)類更有價(jià)值,因此需要有提高P2P識(shí)別率的有效方法。為了克服上述類不平衡問(wèn)題,機(jī)器學(xué)習(xí)界提出重抽樣技術(shù)來(lái)平衡目標(biāo)類的分布,即對(duì)多數(shù)類(majority class)進(jìn)行欠抽樣 (under-sampling),對(duì)少數(shù)類(minority class)進(jìn)行過(guò)抽樣(over-sampling)。

      傳統(tǒng)的欠抽樣與過(guò)抽樣技術(shù)都具有自身的不足:對(duì)多數(shù)類欠抽樣會(huì)導(dǎo)致一些信息的丟失,而對(duì)少數(shù)類的簡(jiǎn)單重復(fù)抽樣在早期的研究中就已發(fā)現(xiàn)對(duì)于提高分類性能并無(wú)太大的幫助[8]。因此,Chawla N V等[9]提出了新的過(guò)抽樣技術(shù)SMOTE算法,其基本思想是通過(guò)人工合成新的少數(shù)類樣本來(lái)減輕類別的不平衡,解決傳統(tǒng)過(guò)抽樣技術(shù)因決策域變小而引起的過(guò)擬合現(xiàn)象。SMOTE算法的基本原理是在相距較近的少數(shù)類樣本之間進(jìn)行線性插值,從而生成新的少數(shù)類樣本。首先根據(jù)過(guò)抽樣倍率N,從每個(gè)少數(shù)類樣本k(默認(rèn)取5)個(gè)同類最近鄰中隨機(jī)選擇N個(gè)樣本;接著將每個(gè)少數(shù)類分別與它的N個(gè)選中的樣本按式(1)合成N個(gè)新的少數(shù)類樣本,并加入到原訓(xùn)練樣本集中,形成新的訓(xùn)練樣本集。

      其中,i=1,2,…,N;rand表示0~1的一個(gè)隨機(jī)數(shù);NewSample表示合成的新樣本;x表示少數(shù)類樣本;y[i]表示x的第i個(gè)近鄰樣本。

      3 P2P流量識(shí)別方法

      整個(gè)P2P流量的分類識(shí)別方法框架如圖1所示。

      圖1 P2P流量的分類識(shí)別方法框架

      步驟1 將訓(xùn)練數(shù)據(jù)進(jìn)行兩分類標(biāo)注,即標(biāo)注所有的P2P數(shù)據(jù)流后,將其他應(yīng)用的數(shù)據(jù)流均標(biāo)注為非P2P(non-P2P)。這樣就可將多標(biāo)簽分類問(wèn)題歸約到相對(duì)簡(jiǎn)單的二分類問(wèn)題求解。

      步驟2 采用i-SMOTE算法,獲得更大的P2P數(shù)據(jù)流樣本。原始的SMOTE算法只是在原有的少數(shù)類樣本的基礎(chǔ)上進(jìn)行線性插值獲得新的樣本,但最新研究表明P2P這樣的流量少數(shù)類具有明顯的概念漂移現(xiàn)象[10],少量的原始樣本不能完全表達(dá)P2P的概念。因此,采用多次迭代SMOTE算法的方法,在前一次迭代獲得的樣本集合上再進(jìn)行插值運(yùn)算,使得SMOTE算法的輸入樣本逐漸豐富,以便獲得更完整的P2P概念表達(dá)。通過(guò)i-SMOTE算法,獲得足夠的P2P樣本數(shù),在此基礎(chǔ)上進(jìn)行步驟 3。

      步驟3 特征提取,去除冗余特征,獲得維度較低的特征空間。具體的特征提取算法可以采用基于相關(guān)性的方法[11]等。

      步驟4 訓(xùn)練分類器,建立預(yù)測(cè)P2P流量的模型。目前已有很多機(jī)器學(xué)習(xí)的分類模型被嘗試用于流量分類,如Na觙ve Bayes[14]、決策樹(shù)[13]、支持向量機(jī)[14]、神經(jīng)網(wǎng)絡(luò)[15]等。這些模型被應(yīng)用于流量分類,具有各自的優(yōu)缺點(diǎn)。如Na觙ve Bayes具有模型簡(jiǎn)單、訓(xùn)練時(shí)間短的優(yōu)點(diǎn),但缺點(diǎn)是對(duì)于少數(shù)類的識(shí)別率低;而支持向量機(jī)與神經(jīng)網(wǎng)絡(luò)的識(shí)別率比較高,但模型復(fù)雜、訓(xùn)練與分類時(shí)間過(guò)長(zhǎng)。本文考慮到實(shí)際環(huán)境中對(duì)P2P流量識(shí)別的實(shí)時(shí)性要求,認(rèn)為選擇簡(jiǎn)單的模型更有利于快速獲得預(yù)測(cè)結(jié)果,因此選擇Na觙ve Bayes模型作為評(píng)估模型。通過(guò)實(shí)驗(yàn)比較分析得出,當(dāng)i-SMOTE方法獲得足夠的 P2P樣本數(shù)時(shí),Na觙ve Bayes模型可以對(duì) P2P獲得很高的識(shí)別率。i-SMOTE算法過(guò)程如下。

      4 實(shí)驗(yàn)評(píng)估策略

      本文提出通過(guò)i-SMOTE過(guò)抽樣的方法來(lái)提高P2P流量的識(shí)別率。利用最簡(jiǎn)單的Na觙ve Bayes模型比較分析SMOTE算法和i-SMOTE算法過(guò)抽樣效果:隨著P2P樣本數(shù)的逐漸增加,考察它們對(duì)識(shí)別率的影響。選擇最簡(jiǎn)單的Na觙ve Bayes模型的原因是:在未進(jìn)行過(guò)抽樣的情況下,它的識(shí)別率非常低。如果過(guò)抽樣技術(shù)能提高這類簡(jiǎn)單模型的識(shí)別效果,則可以證明過(guò)抽樣技術(shù)對(duì)于P2P識(shí)別的有效性。

      評(píng)估指標(biāo)采用召回率(recall)與精度(precision)這兩個(gè)指標(biāo):recall=TP/P,precision=TP/(TP+FP)。其中,P 為測(cè)試集中事先標(biāo)識(shí)為P2P的樣本數(shù),TP為分類器正確預(yù)測(cè)為P2P的樣本數(shù),TP為被分類器錯(cuò)誤地將non-P2P流量預(yù)測(cè)為P2P的樣本數(shù)。

      4.1 實(shí)驗(yàn)數(shù)據(jù)集合

      本文采用的數(shù)據(jù)集1為劍橋大學(xué)Moore等提供的公開(kāi)流量數(shù)據(jù)集[16]。該數(shù)據(jù)集通過(guò)連續(xù)采集24 h的流量數(shù)據(jù),并隨機(jī)抽取10個(gè)約28 min的數(shù)據(jù)塊,在這些數(shù)據(jù)塊上構(gòu)建出數(shù)據(jù)流,構(gòu)成10個(gè)數(shù)據(jù)子集Data1,Data2,…,Data10。筆者在10個(gè)數(shù)據(jù)子集上進(jìn)行的實(shí)驗(yàn)結(jié)果非常相似,因此只列出了Data1的實(shí)驗(yàn)結(jié)果。原始Data1中共有12種流量類型,如WWW、E-mail、FTP等,將它們均表示為non-P2P數(shù)據(jù)流,共計(jì)24524條,P2P數(shù)據(jù)流共計(jì)339條,占總數(shù)的1.36%。

      數(shù)據(jù)集2是從校園網(wǎng)中心的某臺(tái)交換機(jī)上通過(guò)端口映射方法獲得的流量數(shù)據(jù),該交換機(jī)匯聚了某幢男生宿舍訪問(wèn)外網(wǎng)的所有網(wǎng)絡(luò)流量。經(jīng)過(guò)連續(xù)1 h(晚上 21∶30-22∶30)的連續(xù)數(shù)據(jù)采集,共計(jì)獲得325538條數(shù)據(jù)流,其中P2P數(shù)據(jù)流有18632條,占總數(shù)的5.72%。為保護(hù)隱私的需要,只截取數(shù)據(jù)分組的分組頭部分,并通過(guò)Tcpdpriv工具對(duì)IP地址進(jìn)行了匿名化處理。

      4.2 Na觙ve Bayes 模型評(píng)估

      Moore等[12]早在2004年就已深入分析和應(yīng)用Na觙ve Bayes模型到互聯(lián)網(wǎng)流量分類中。通過(guò)選擇合理的流量特征和核估計(jì)方法,Na觙ve Bayes模型在全局正確率(accuracy)上達(dá)到96.29%。但他們的工作只是提高了整體的正確率,并沒(méi)有解決類不平衡的問(wèn)題,因而對(duì)于像P2P這樣的少數(shù)類的識(shí)別率提升有限。Na觙ve Bayes模型具有簡(jiǎn)單、計(jì)算效率高的特點(diǎn),與其他復(fù)雜模型相比更具有實(shí)際應(yīng)用價(jià)值,因此首選它作為評(píng)估過(guò)抽樣技術(shù)的效果。

      對(duì)數(shù)據(jù)集1、數(shù)據(jù)集2的原始P2P數(shù)據(jù)采用如下過(guò)抽樣倍率:N=100%、300%、700%、1500%、3100%,應(yīng)用 SMOTE算法過(guò)抽樣獲得新的P2P樣本集,抽樣結(jié)果分別見(jiàn)表1、表2。為了便于比較,提出的i-SMOTE算法每次迭代采用固定倍率N=100%,這樣獲得的P2P樣本數(shù)可與前述SMOTE算法保持一致。另外,通過(guò)傳統(tǒng)的隨機(jī)過(guò)抽樣方法產(chǎn)生一個(gè)同比例規(guī)模的數(shù)據(jù)集作為比較基準(zhǔn)。

      表1 過(guò)抽樣數(shù)據(jù)集1獲得的結(jié)果(樣本數(shù)/所占比例)

      表2 過(guò)抽樣數(shù)據(jù)集2獲得的結(jié)果(樣本數(shù)/所占比例)

      采用10折交叉驗(yàn)證的方法對(duì)不同P2P樣本數(shù)下 (見(jiàn)表1、表2)的識(shí)別率進(jìn)行評(píng)估。特征選擇采用FCBF算法[17]。圖2給出了隨機(jī)抽樣、SMOTE算法與i-SMOTE算法同比例擴(kuò)大P2P的樣本數(shù)的情況下召回率的對(duì)比。可以明顯發(fā)現(xiàn)P2P樣本數(shù)從開(kāi)始的339條數(shù)據(jù)流增加到2712條數(shù)據(jù)流時(shí),即P2P比例從1.36%增加到9.96%時(shí),Na觙ve Bayes模型在i-SMOTE數(shù)據(jù)集上獲得的P2P召回率明顯高于SMOTE數(shù)據(jù)集與隨機(jī)過(guò)抽樣數(shù)據(jù)集,前者為81.6%,后者分別為31.2%與21.8%。同樣,當(dāng)P2P樣本數(shù)增加至5424條,比例增加到18.11%時(shí),i-SMOTE數(shù)據(jù)集上的召回率達(dá)到98.5%,而SMOTE數(shù)據(jù)集與隨機(jī)過(guò)抽樣數(shù)據(jù)集分別只有78.5%與38.2%。最后當(dāng)P2P的數(shù)量比例達(dá)到30.67%時(shí),SMOTE數(shù)據(jù)集與i-SMOTE數(shù)據(jù)集上的召回率均在97%以上,而隨機(jī)過(guò)抽樣數(shù)據(jù)集僅為47.9%。從上述過(guò)程可以看出,i-SMOTE算法與SMOTE算法及隨機(jī)過(guò)抽樣相比,可以更快速地提高召回率。同樣,可以看到三者在精度上的區(qū)別 (如圖3所示)。隨著P2P樣本數(shù)的增加,3種過(guò)抽樣方法獲得的數(shù)據(jù)集在P2P識(shí)別精度上都得到了提升,但當(dāng)P2P樣本比例到達(dá)30.67%時(shí),i-SMOTE數(shù)據(jù)集上的精度達(dá)到了99.1%,而SMOTE數(shù)據(jù)集上的精度卻從94.7%跌至53.6%,甚至低于隨機(jī)過(guò)抽樣。圖4、圖5給出了數(shù)據(jù)集2的10折交叉驗(yàn)證的結(jié)果,與數(shù)據(jù)集1的驗(yàn)證結(jié)果相似。從圖2~圖5的比較分析中可以得出以下兩個(gè)結(jié)論。

      ·通過(guò)對(duì)P2P樣本的過(guò)抽樣,與原始數(shù)據(jù)相比不論召回率還是精度都可得到提高。

      ·SMOTE算法可以使召回率與精度兩者同時(shí)提高到90%以上,而SMOTE算法在召回率增長(zhǎng)到一定程度時(shí),精度會(huì)出現(xiàn)下降。精度的下降意味著non-P2P樣本被錯(cuò)誤地預(yù)測(cè)為P2P的比例增加,即假陽(yáng)性率增加。傳統(tǒng)的隨機(jī)過(guò)抽樣方法盡管有所提高,但提高程度有限。

      因此,綜合召回率與精度這兩個(gè)評(píng)價(jià)指標(biāo),i-SMOTE算法比SMOTE算法及隨機(jī)過(guò)抽樣技術(shù)更為有效。

      圖2 數(shù)據(jù)集1不同規(guī)模的P2P樣本數(shù)的召回率

      圖3 數(shù)據(jù)集1不同規(guī)模的P2P樣本數(shù)的精度

      圖4 數(shù)據(jù)集2不同規(guī)模的P2P樣本數(shù)的召回率

      圖5 數(shù)據(jù)集2不同規(guī)模的P2P樣本數(shù)的精度

      5 結(jié)束語(yǔ)

      本文通過(guò)過(guò)抽樣技術(shù)提高對(duì)P2P流量的識(shí)別率。提出基于迭代的SMOTE算法可以比原始的SMOTE算法及傳統(tǒng)的隨機(jī)過(guò)抽樣方法具有更好的表達(dá)P2P概念的能力。實(shí)驗(yàn)結(jié)果表明本文提出的基于過(guò)抽樣的方法可以有效地提高 Na觙ve Bayes模型對(duì)于 P2P 的識(shí)別率。Na觙ve Bayes模型由于其簡(jiǎn)單性,在流量分類中不及SVM、神經(jīng)網(wǎng)絡(luò)等復(fù)雜模型的正確率高,通常為研究人員所忽視。但正是Na觙ve Bayes模型的簡(jiǎn)單性,使得它具有很好的算法效率,容易被應(yīng)用到實(shí)際工作環(huán)境。機(jī)器學(xué)習(xí)方法的分類正確率不僅僅取決于分類模型,與數(shù)據(jù)預(yù)處理的質(zhì)量也有重要關(guān)系。本文正是通過(guò)改善數(shù)據(jù)質(zhì)量的思路,使得i-SMOTE方法與簡(jiǎn)單的Na觙ve Bayes模型相結(jié)合實(shí)現(xiàn)對(duì)P2P的高精度識(shí)別。

      1 Mochalski K,Schulze H.Ipoque internet study 2008/2009.http://www.ipoque.com/resources/internet-studies/internet-study-2008_2009,2009

      2 MacManus R.Trend watch:P2P traffic much bigger than Web traffic.http://www.readwriteweb.com/archives/p2p_growth_trend_watch.php,2006

      3 Sun X,Torres R,Rao S.Preventing DDoS attacks on internet servers exploiting P2P systems.Computer Networks,2010,54(15):2756~2774

      4 Dainotti A,Pescapè A,Claffy K C.Issues and future directions in traffic classification.Network,IEEE,2012,26(1):35~40

      5 Gong S F,Chen J.A P2P traffic detection method based on support vector machine.Applied Mechanics and Materials,2012,198:1280~1285

      6 Erman J,Mahanti A,Arlitt M.Byte me:a case for byte accuracy in traffic classification.Proceedings of the 3rd Annual ACM Workshop on Mining Network Data,San Diego,California,USA,2007:35~38

      7 Liu Q,Liu Z.A comparison of improving multi-class imbalance for internet traffic classification.Information Systems Frontiers,2012(7):1~13

      8 Ling C,Li C.Data mining for direct marketing problems and solutions.Proceedings of the Fourth International Conference on Knowledge Discovery and Data Mining(KDD-98),New York,NY,1998

      9 Chawla N V,Bowyer K W,Hall L O,et al.SMOTE:synthetic minority over-sampling technique.Journal of Artificial Intelligence Research,2002(16)

      10 Wang R Y,Zhang L,Liu Z.Classifying imbalanced internet traffic based PCDD:a per concept drift detection method.Smart Computing Review,2013(2)

      11 Hall M A.Correlation-based Feature Selection for Machine Learning.The University of Waikato,1999

      12 Moore A W,Zuev D.Internet traffic classification using bayesian analysis techniques.ACM SIGMETRICS Performance Evaluation Review,2005,33(1):50~60

      13 Xu P,Lin S.Internet traffic classification using C4.5 decision tree.Journal of Software,2009,20(10):2692~2704

      14 Yuan R,Li Z,Guan X,et al.An SVM-based machine learning method for accurate internet traffic classification.Information Systems Frontiers,2010,12(2):149~156

      15 Sun R,Yang B,Peng L,et al.Traffic classification using probabilistic neural networks. Proceedings of Natural Computation (ICNC),2010 Sixth International Conference on IEEE,Valencia,Spain,2010

      16 Moore A W.Dataset.http://www.cl.cam.ac.uk/research/srg/netos/nprobe/data/papers/sigmetrics/

      17 Yu L,Liu H.Feature selection for high-dimensional data:a fast correlation-based filter solution.Proceedings of the Twentieth International Conference on Machine Learning (ICML 2003),Piscataway,NJ,USA,2003

      猜你喜歡
      樣本數(shù)數(shù)據(jù)流識(shí)別率
      勘 誤 聲 明
      汽車維修數(shù)據(jù)流基礎(chǔ)(下)
      基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
      基于真耳分析的助聽(tīng)器配戴者言語(yǔ)可懂度指數(shù)與言語(yǔ)識(shí)別率的關(guān)系
      提升高速公路MTC二次抓拍車牌識(shí)別率方案研究
      一種提高TCP與UDP數(shù)據(jù)流公平性的擁塞控制機(jī)制
      高速公路機(jī)電日常維護(hù)中車牌識(shí)別率分析系統(tǒng)的應(yīng)用
      基于數(shù)據(jù)流聚類的多目標(biāo)跟蹤算法
      三時(shí)間間隔圓錐補(bǔ)償姿態(tài)更新算法性能分析
      北醫(yī)三院 數(shù)據(jù)流疏通就診量
      南靖县| 崇仁县| 汉寿县| 华亭县| 陆川县| 巩义市| 石城县| 永修县| 田阳县| 宝丰县| 岳普湖县| 南岸区| 澄迈县| 始兴县| 施甸县| 大洼县| 西乡县| 汝阳县| 黄陵县| 开鲁县| 防城港市| 揭西县| 醴陵市| 绥芬河市| 岢岚县| 卓尼县| 阿巴嘎旗| 四子王旗| 确山县| 雷山县| 香港| 白银市| 永昌县| 绵竹市| 台前县| 揭东县| 综艺| 常德市| 辽源市| 会昌县| 三穗县|