• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于NetFlow記錄的高速應(yīng)用流量分類方法

      2012-11-06 11:40:12陳亮龔儉
      通信學(xué)報(bào) 2012年1期
      關(guān)鍵詞:樣本空間測度類別

      陳亮,龔儉

      (1. 東南大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,江蘇 南京 210096;

      2. 江蘇省計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210096)

      1 引言

      實(shí)時準(zhǔn)確地識別 Internet流量所使用的應(yīng)用層協(xié)議是網(wǎng)絡(luò)QoS、網(wǎng)絡(luò)流量和用戶行為等監(jiān)控的前提和基礎(chǔ),在網(wǎng)絡(luò)性能管理、計(jì)費(fèi)管理、流量工程和入侵檢測等研究領(lǐng)域有著重要作用。然而由于包括各種P2P協(xié)議在內(nèi)的越來越多的應(yīng)用不遵守默認(rèn)端口約定或使用動態(tài)端口通信等原因,早期以IANA中注冊的常用端口號區(qū)分應(yīng)用協(xié)議流量的方法準(zhǔn)確率已低于50%[1,2],嚴(yán)重影響分析結(jié)果的可信性。依據(jù)報(bào)文負(fù)載內(nèi)容識別應(yīng)用協(xié)議的方法在主干網(wǎng)絡(luò)帶寬增長到10Gbit/s以上后是一個巨大的技術(shù)挑戰(zhàn),且該種方法無法處理流量加密的情況。

      因此,自 2004年開始基于行為特征識別應(yīng)用流量的方法逐漸成為國際上研究的熱點(diǎn)。這類方法首先歸納出各應(yīng)用交互過程中在流/主機(jī)上表現(xiàn)出的不同行為特征,并以此為依據(jù)判別待分類流量所使用的應(yīng)用協(xié)議。由于尚處于起步階段,目前基于行為識別應(yīng)用協(xié)議的方法不能精確識別單一的應(yīng)用協(xié)議,而只能將流量分至大致的應(yīng)用類別中。所謂應(yīng)用類別,是對具有類似功能或行為的應(yīng)用層協(xié)議的抽象概括,如BitTorrent、eDonkey等應(yīng)用協(xié)議都屬于P2P應(yīng)用類別。

      基于行為識別應(yīng)用協(xié)議的方法可分為事先無訓(xùn)練集和有訓(xùn)練集2類,分別對應(yīng)數(shù)理統(tǒng)計(jì)中的聚類分析和判別分析。使用聚類算法方面,A.McGregor[3]和Jeffrey Erman[4,5]等人分別使用EM和AutoClass等方法考慮流之間的相似性將流量分組,而后利用端口號或負(fù)載檢查的方法分析其準(zhǔn)確性。但聚類方法不能解釋為什么流量會進(jìn)行這樣的分類,因此只能使用在對分類沒有先驗(yàn)知識、沒有訓(xùn)練集時,對類別進(jìn)行初步探索上。判別算法方面,Thomas Karagiannis[6]等人分析應(yīng)用類別在空間維上的行為特征(端口分布、鏈接數(shù)等),構(gòu)造主機(jī)交互關(guān)系圖,并以此識別貢獻(xiàn)流量的主機(jī)正在使用的應(yīng)用協(xié)議類別。但該方法須對流量進(jìn)行一定的累積,不僅有滯后性,而且在高速主干網(wǎng)絡(luò)下,如何有效地存儲流量,快速構(gòu)造及匹配圖本身就是一個仍待解決的問題。M. Roughan[7]和 Sebastian Zander[8,9]等人基于k-NN和C4.5等機(jī)器學(xué)習(xí)方法,利用應(yīng)用流在時間維上的傳輸特征(流長、持續(xù)時間等)將流量分至4~8個應(yīng)用類別,然而這些早期方法的精度都不夠高。

      目前,最全面準(zhǔn)確的方法是Andrew W. Moore等人于2005年提出的[11]。該方法使用TCP流的248個測度值[12],通過對稱不確定性推導(dǎo)測度間相關(guān)關(guān)系并進(jìn)行篩選,而后利用基于核密度估計(jì)的 Na?ve Bayes分類法將TCP流分至10個應(yīng)用類別中。雖然該方法較之前研究更多地考慮了測度的選擇和分布,但存在以下很嚴(yán)重的效率問題。1) 所選用的248個流測度過多,且其中一些計(jì)算過于復(fù)雜。2)使用熵和對稱不確定性(SU, symmetric uncertainty)作為兩變量相關(guān)性的度量,計(jì)算變量取值概率、條件概率的時空復(fù)雜度都非常高,樣本空間較大時分類器訓(xùn)練時間過長,而樣本空間較小時不足以代表流量總體行為,影響識別精度。3) 使用核密度估計(jì)(KE, kernel estimation)需要當(dāng)每一個新流到達(dá)時都對樣本空間中的每一個樣本計(jì)算一次密度函數(shù),開銷非常大。由于上述缺點(diǎn),雖然其實(shí)驗(yàn)表明方法準(zhǔn)確率超過90%,但不能用于實(shí)時環(huán)境下,更不可能在線處理10Gbit/s以上的主干帶寬流量。

      國內(nèi)目前對通用應(yīng)用層流量分類的研究還處于匹配應(yīng)用協(xié)議特征串的階段[13]?;谛袨樽R別流量的方法目前只針對于P2P流量的發(fā)現(xiàn)[14,15],這些研究不僅通用性不好,準(zhǔn)確率不高,而且都沒有放在實(shí)際環(huán)境中進(jìn)行識別率及性能的測試與分析。

      故從發(fā)展現(xiàn)狀看,目前基于行為特征的應(yīng)用流量分類算法在精度和速度上都達(dá)不到令人滿意的效果。尤其先前各算法在效率上無法實(shí)時處理吉比特以上的信道流量,并且各算法輸入均為信道原始報(bào)文首部,前期報(bào)文采集、組流、測度計(jì)算的開銷甚至遠(yuǎn)超過算法本身的計(jì)算開銷。因此為了提高應(yīng)用流量分類的效率,滿足10Gbit/s以上高速主干網(wǎng)絡(luò)管理和安全監(jiān)測的需要,必須在保證足夠準(zhǔn)確率的前提下降低當(dāng)前應(yīng)用流量分類前期工作及算法本身各階段的時空開銷,以較以往研究更為簡單有效的計(jì)算方法處理高速流量。

      Cisco公司提出的 NetFlow[16]是目前實(shí)際主要使用的IP流測量系統(tǒng),已實(shí)現(xiàn)在多種路由器中,被業(yè)界廠商廣泛支持。若能利用NetFlow已統(tǒng)計(jì)的流記錄信息進(jìn)行應(yīng)用類別行為特征分析與流量分類,則不僅可以省略應(yīng)用分類前期報(bào)文采集、組流、測度計(jì)算的時空開銷,提高算法效率,而且基于Netflow流記錄的標(biāo)準(zhǔn)性和廣泛可用性,可以使其像SNMP一樣支持現(xiàn)有的網(wǎng)絡(luò)監(jiān)控與管理應(yīng)用,滿足管理者全面了解網(wǎng)絡(luò)活動方式,對各種業(yè)務(wù)流進(jìn)行實(shí)時監(jiān)測與管理的需求。

      據(jù)此,本文提出一種以 NetFlow記錄統(tǒng)計(jì)信息作為輸入的高速應(yīng)用流量分類(FATC, fast application-level traffic classification)算法。算法分為基于簡單相關(guān)系數(shù)的測度選擇算法和基于 Bayes多元判別分析的流量分類算法 2部分。前者衡量測度變量之間的相關(guān)關(guān)系,在實(shí)際分類之前選擇出能揭示網(wǎng)絡(luò)應(yīng)用類別行為特征的測度,刪除對分類無用及相互冗余的測度;后者以測度選擇的結(jié)果作為分類的依據(jù),將流量分類至誤判損失最小的應(yīng)用類別中。FATC算法優(yōu)點(diǎn)在于:1) 僅使用 NetFlow統(tǒng)計(jì)的流測度作為判別的依據(jù),不僅省略采集報(bào)文、組流、測度計(jì)算的巨大開銷,且提高了方法的實(shí)用性;2) 使用相關(guān)系數(shù)作為變量間最本質(zhì)的相關(guān)性判別依據(jù),計(jì)算量小,且事前刪除對判別無效或冗余的測度,優(yōu)化后期分類過程;3) 使用Bayes判別法對應(yīng)用流量分類,時間復(fù)雜度小,且實(shí)踐證明:當(dāng)樣本空間足夠大后,可以克服樣本變量不服從多元正態(tài)分布的事實(shí),使得基本的 Bayes方法能夠達(dá)到很好的效果;4)算法具有超過 95%的分類準(zhǔn)確率,且能實(shí)時處理當(dāng)前10Gbit/s主干網(wǎng)絡(luò)信道的流量。

      2 高速應(yīng)用流量分類(FATC)算法

      2.1 基于相關(guān)系數(shù)的流測度選擇算法

      變量選擇對判別方法的實(shí)施有著重要意義,過多的變量不僅影響判別方法的效率,無效或冗余的變量還會成為噪聲影響判別方法的效果。因此,若能在實(shí)際流量分類前刪除對分類無效的和相互冗余的測度,則不僅可以提高分類的精度和效率,還可以揭示出對流量分類有實(shí)際意義的測度,即那些能表示應(yīng)用類別行為特征的測度。

      目前只有文獻(xiàn)[11]考慮了在實(shí)際分類之前對測度進(jìn)行選擇,但其采用的對稱不確定性作為測度相關(guān)性依據(jù)需計(jì)算測度取值的概率和相互間的條件概率,方法時空復(fù)雜度都很高,訓(xùn)練及重訓(xùn)練分類器所用的時間開銷太大。因此為了提高算法的效率,需采用計(jì)算過程更為簡易的相關(guān)性計(jì)算方法。既然流測度(包括流所屬的應(yīng)用層協(xié)議類別)是隨機(jī)變量,完全可以用經(jīng)典統(tǒng)計(jì)分析中的簡單相關(guān)系數(shù)來表示測度間的相關(guān)程度[17]:

      其中,X和Y為2個待研究流測度,(xi, yi) (i =1,2,…,n)為兩變量的n對觀察值,和分別為n越大表示相關(guān)程度越強(qiáng),反之則越弱。令集合M={M1, M2, …, Mn}為全部可選用的流測度組成的集合,C為流所屬的應(yīng)用層類別。若某流測度Mi與類別C之間的相關(guān)系數(shù)小于某事先設(shè)定的閾值,則認(rèn)為該測度不能提供對分類有用的信息,屬于無效測度;若兩測度之間的相關(guān)系數(shù)大于另一閾值,則認(rèn)為這2個測度相互冗余,需刪除其中貢獻(xiàn)較小的測度。據(jù)此,基于相關(guān)系數(shù)的特征選擇算法如下:

      最終測度集合M={M1,M2,…,Mm}只包含了能對分類提供有用信息且相互獨(dú)立的測度。另外,測度選擇算法中閾值 δ1和 δ2的不同取值會影響入選的測度,繼而影響分類算法的準(zhǔn)確性和效率。二者的設(shè)置依賴于經(jīng)驗(yàn)和實(shí)驗(yàn)的效果,本文第3節(jié)中將進(jìn)一步分析不同閾值取值對 FATC算法準(zhǔn)確率的影響。

      2.2 基于Bayes判別分析的流量分類算法

      在利用相關(guān)系數(shù)對流測度進(jìn)行篩選的基礎(chǔ)上,本節(jié)給出以最終集合 M 中的測度為分類依據(jù)的基于Bayes判別分析的應(yīng)用流量分類算法。

      多元統(tǒng)計(jì)分析的Bayes判別方法建立在Bayes準(zhǔn)則的基礎(chǔ)上,偏重于集群分布的統(tǒng)計(jì)特性,分類原理是假定訓(xùn)練樣本數(shù)據(jù)的光譜空間服從某類分布,做出樣本的概率密度等值線,確定分類,然后通過計(jì)算待判別樣本屬于各類別的概率,將新樣本歸屬于概率最大的一組。Bayes判別方法由于需要對所研究的對象在抽樣前已有一定的認(rèn)識(先驗(yàn)分布),且考慮誤判后的損失,故判別精度往往高于其他線性判別方法[17]。

      令應(yīng)用類別總數(shù)為k,則Bayes判別方程為

      式(1)中qj為第j類別的先驗(yàn)概率,pj(x)為待判別對象x屬于第j類別的概率,C(i|j)稱為損失函數(shù),表示本應(yīng)屬于第j類別的對象誤判給第i類別的損失:當(dāng) i=j時,有 C(i|j)=0;當(dāng) i≠j時,有 C(i|j)>0。顯然式(1)是對損失函數(shù)依概率的加權(quán)平均,即hi(x)為把x判給第i類別的損失期望。式(2)表明以誤判損失最小作為分類的依據(jù),即使得hi(x)最小的i即是對象x應(yīng)屬的類別號。

      原則上說,考慮損失函數(shù)更為合理,誤判損失C(i|j)可以根據(jù)網(wǎng)絡(luò)管理的不同需求來設(shè)置。如若當(dāng)前較為關(guān)注P2P流量情況,則可將P2P流誤判給其他類別的損失相應(yīng)增大。由于本文公平考慮各應(yīng)用類別,此處假定各種誤判的損失皆相等,即

      則判別方程簡化為

      故判別方程等價于

      假設(shè)流對象 X = ( M1, M2,… ,Mm)T服從多元正態(tài)分布(3.5節(jié)將通過實(shí)驗(yàn)說明只要樣本空間足夠大,就可以克服流測度不服從正態(tài)分布的事實(shí)),其中流屬性 M1~ Mm對應(yīng)于應(yīng)用第2.1節(jié)的測度選擇算法所得到的最終測度。X的分布密度函數(shù)為其中,先驗(yàn)概率 qi、均值向量μ和方差陣∑可利用樣本通過無偏估計(jì)得到:

      其中,n為樣本空間大小,即總樣本流個數(shù)。ni為屬于第i類別的樣本流個數(shù)。根據(jù)微分中值定理,有

      由于n和ε為定值,故判別方程可化為

      其中,未知數(shù)只有待判別流對象x。

      據(jù)此,基于Bayes判別分析的流量分類算法如下:

      3 實(shí)驗(yàn)結(jié)果與分析

      3.1 實(shí)驗(yàn)數(shù)據(jù)及流測度

      為便于對比算法效果,本文采用和 Andrew相同的實(shí)驗(yàn)TRACE[11]:采集信道為一條吉比特全雙工以太網(wǎng),在一天內(nèi)隨機(jī)選取了10個持續(xù)時間約為1 680s的時間片,提取其中完整的TCP流,計(jì)算出每個TCP流的248種流測度及所屬的應(yīng)用層協(xié)議類別,作為TRACE中的記錄。表1詳細(xì)列舉了 TRACE中的各應(yīng)用層協(xié)議類別及屬于該類別的流數(shù)。

      表1 應(yīng)用層類別及相應(yīng)流數(shù)

      Andrew使用248種測度作為可用測度集合,從簡單的TCP端口號至復(fù)雜的傅里葉變換。這不僅要求系統(tǒng)采集所監(jiān)聽網(wǎng)絡(luò)上的每個報(bào)文并組流,且需占用很大的資源計(jì)算這些測度。而本文提出的FATC算法的可用測度僅限定為 NetFlow V5統(tǒng)計(jì)可得的(如表2所示),不僅省去采集報(bào)文、組流、計(jì)算測度的前期工作,降低了系統(tǒng)開銷,而且簡化后期測度選擇算法和流量分類算法的輸入,使分類更高效。

      表2 可用流測度集合

      算法測試前期工作還包括將Andrew的TRACE轉(zhuǎn)換至NetFlow V5流記錄格式,其中IP地址、AS號等FATC算法的無用字段可忽略。

      3.2 算法準(zhǔn)確率分析

      首先給出2個評價算法準(zhǔn)確率的標(biāo)準(zhǔn)。

      算法測試時,本文在實(shí)驗(yàn)TRACE的10個時間片內(nèi)任取5個作為訓(xùn)練集,另5個作為測試集,取該類組合共C(10, 5) = 252組中隨機(jī)20組實(shí)驗(yàn)后的均值作為最后結(jié)果。取δ1=0.06,δ2=0.6(第3.4節(jié)將說明二者不同取值對FATC算法的影響),則最終測度集合M={s_port, pkt_size, IAT, duration}。FATC算法準(zhǔn)確率如表3所示。

      表3 算法準(zhǔn)確率比較

      由表3可見,F(xiàn)ATC算法準(zhǔn)確率遠(yuǎn)高于基于端口分類流量的方法,在大多數(shù)類別上也高于Andrew所提出的流分類算法,然而總準(zhǔn)確率略低于Andrew算法。造成差異的原因有2個:1)由于WWW類別流數(shù)量占據(jù)了流總數(shù)的87%,對其略低的識別率將極大地影響總準(zhǔn)確率;2)由于FATC算法的輸入來自NetFlow流統(tǒng)計(jì)信息,相較于Andrew所用的248個測度,極大地減少了所提供的類別行為特征信息。但是,一方面如3.5節(jié)所示,隨著訓(xùn)練集空間的增長FATC算法準(zhǔn)確率上升,9個時間片時準(zhǔn)確率已為95.7%,可以彌補(bǔ)缺少測度信息帶來的不足;更重要的一方面,如3.3節(jié)所示,F(xiàn)ATC算法極大的降低了以往分類算法的時空復(fù)雜度,使得在可接受的精度損失下分類效率有極大的提高。表3還表明兩算法對 GAMES、INTERACTIVE和 P2P、ATTACK的識別率都非常低。Andrew并未對此現(xiàn)象作出解釋。分析如下。1) 由于 INTERACTIVE和GAMES 2種類別的流數(shù)非常少(如表1所示),不足以提供該類別的行為特征信息,造成這2類流量識別率極低。2) 對于 P2P和 ATTACK,由表 1可知這2類應(yīng)用的流數(shù)并不少。是由于這2種應(yīng)用涵蓋范圍很廣,各協(xié)議間行為差異較大,造成算法很難對其進(jìn)行類別的行為特征歸納,致使判別出現(xiàn)偏差。更進(jìn)一步的證據(jù)和處理方法將是下一步研究的重點(diǎn)。

      3.3 算法時空效率分析

      3.3.1 時間效率

      訓(xùn)練算法中,Andrew使用的SU算法需多遍掃描樣本空間或內(nèi)存空間以統(tǒng)計(jì)測度取值概率和條件概率,而FATC算法中的簡單相關(guān)系數(shù)僅需單遍遍歷樣本空間。識別算法中,Andrew使用的KE算法在每個新流到達(dá)時需對樣本空間中的每個樣本計(jì)算一次密度函數(shù),而FATC算法只需計(jì)算應(yīng)用類別數(shù)次的密度函數(shù)。故即使樣本空間中只有104條流記錄,分為10類,則使用KE的Andrew算法在分類過程的時間開銷是FATC算法的103倍。

      由上可見,為了提高Andrew算法的效率必須使用較小的樣本集。而小樣本空間不足以提供完全的行為分布信息,會使算法的結(jié)果產(chǎn)生很大的偏差。因此Andrew算法存在著性能—效率的矛盾。文獻(xiàn)[11]表明,分別使用不足25 000條流記錄訓(xùn)練并測試的情況下,其算法時間開銷約300s,而同樣條件下FATC算法僅需4s。更嚴(yán)重的是,實(shí)際使用時Andrew算法還需采集原始報(bào)文、組流、計(jì)算248個測度,這更使得該算法不可能應(yīng)用于超過1Gbit/s的網(wǎng)絡(luò)環(huán)境中。

      FATC算法現(xiàn)每秒約能處理18 000條流記錄。據(jù)華東(北)地區(qū)網(wǎng)絡(luò)中心日常統(tǒng)計(jì),地區(qū)主干到國家主干的10Gbit/s信道一天內(nèi)的流數(shù)不足800MB,即FATC算法理論上能在不到12h內(nèi)處理完目前該10Gbit/s信道24h的流量。考慮到當(dāng)前實(shí)驗(yàn)為讀取硬盤上的 TRACE,速度較慢,實(shí)際使用直接從路由器接收NetFlow格式的流記錄時FATC算法效率會有更為明顯的提高,完全滿足實(shí)時分類當(dāng)前10Gbit/s主干網(wǎng)絡(luò)流量的需求。

      3.3.2 空間效率

      樣本存儲空間:由于Andrew算法可用測度集合龐大,若樣本數(shù)相同,則其所需的樣本存儲空間約為FATC算法的30倍(248/8)。因此使用同樣的磁盤或內(nèi)存空間,F(xiàn)ATC算法可以較Andrew算法多存儲約30倍的樣本流記錄。

      計(jì)算內(nèi)存空間:在應(yīng)用類別數(shù)目一定的情況下,Andrew的SU算法在統(tǒng)計(jì)樣本取值概率p(xi)和條件概率 p(xi|yj)時所需內(nèi)存空間隨樣本數(shù)和測度數(shù)的增長而增長。同時由于KE算法在每個新流到達(dá)時需對樣本空間中的每個樣本計(jì)算一次密度函數(shù),出于效率考慮顯然應(yīng)將每條樣本記錄都放在內(nèi)存中。文獻(xiàn)[11]表明使用全部測度,在樣本空間不足25 000條流記錄的條件下(僅2/3個時間片大小),其內(nèi)存使用達(dá)到256MB。而 FATC中的測度選擇算法和分類算法所需內(nèi)存空間不隨樣本數(shù)和測度數(shù)的增長而增長,僅需記錄各應(yīng)用類別樣本的均值和方差,運(yùn)行總內(nèi)存不足70kB,為Andrew算法的約1/104。

      3.4 測度選擇閾值對算法的影響

      任何測度選擇算法的效果都和其篩選測度的閾值相關(guān)?;诤唵蜗嚓P(guān)系數(shù)的測度選擇算法的效果好壞也很大程度上取決于2個參數(shù)的取值:有效測度選擇閾值δ1和冗余測度選擇閾值δ2。δ1取值過小會將某些對分類無效的測度引入分類算法中,δ2取值過大會將本身冗余的測度認(rèn)定為彼此獨(dú)立,二者不僅增加分類算法的計(jì)算復(fù)雜度,而且可能影響分類算法的效果;而δ1取值過大可能會淘汰掉某些對分類有用的測度,δ2的取值過小會使本身互相獨(dú)立的測度被認(rèn)定成冗余而被刪除,這更會極大地降低分類算法的準(zhǔn)確率。

      圖1表現(xiàn)了2參數(shù)的不同取值對FATC算法準(zhǔn)確率的影響。由圖1可見FATC算法對2個參數(shù)取值的選擇,即測度的選擇要求很高。選擇不適宜的測度將導(dǎo)致算法的準(zhǔn)確率一直非常低(10%~20%),而合適的參數(shù)取值則能夠選中最能表現(xiàn)應(yīng)用類別行為特征的測度,使算法準(zhǔn)確率有很大提高(大于90%)。另外,由測度選擇算法可知圖中δ1=0,δ2=1的點(diǎn)為未對測度進(jìn)行篩選,使用表2中所有測度進(jìn)行流量分類的效果,其準(zhǔn)確率只有約25%??梢娛褂煤线m的方法在流量分類之前剔除雜音與冗余特征,不僅可以精簡分類器的結(jié)構(gòu),同時也極大提高了分類器的準(zhǔn)確率。然而就如何決定測度的取值,目前的研究還沒有很好的方法,仍只能通過平時的經(jīng)驗(yàn)和實(shí)驗(yàn)得出,這也是今后需要繼續(xù)考慮的內(nèi)容之一。

      圖1 參數(shù)對FATC算法準(zhǔn)確率的影響

      3.5 訓(xùn)練集大小對算法的影響

      圖2 顯示了FATC算法準(zhǔn)確率隨訓(xùn)練集大小的變化情況。由圖可見如下。1) 過小的訓(xùn)練集不能體現(xiàn)各應(yīng)用流量總體分布的情況,導(dǎo)致使用不全面的信息訓(xùn)練判別算法,從而影響FATC算法分類的精度。隨著訓(xùn)練集中樣本數(shù)量的增加,訓(xùn)練集所能提供的流量分布信息增多,分類算法就越能根據(jù)已知的正確信息判斷新流的所屬類別,算法準(zhǔn)確率不斷上升。2) 當(dāng)訓(xùn)練集大小超過4個時間片時,F(xiàn)ATC算法準(zhǔn)確率的增加逐漸緩慢。此時再增加訓(xùn)練樣本的效果并不明顯。同時,較小的訓(xùn)練集不僅可以降低手動構(gòu)造訓(xùn)練集所需的前期工作量,而且可以減少算法在訓(xùn)練及重訓(xùn)練過程的時間開銷。因此實(shí)際中可根據(jù)所要求的準(zhǔn)確率調(diào)整初始訓(xùn)練集大小,以較小的工作量得到所需的精度。當(dāng)精度需求提高時,可以相應(yīng)增大樣本空間,以補(bǔ)充信息。3) 當(dāng)訓(xùn)練集大小達(dá)到8個時間片時,F(xiàn)ATC算法準(zhǔn)確率已超過95%,9個時間片時的準(zhǔn)確率為95.7%,非常接近Andrew所提出的算法。由此可見,只要訓(xùn)練樣本空間滿足一定大小,就可以破除Bayes判別中對樣本正態(tài)分布的假設(shè),達(dá)到Andrew使用KE算法相同的效果;另一方面,實(shí)驗(yàn)表明即使訓(xùn)練集包含9個時間片,F(xiàn)ATC算法在訓(xùn)練階段的時間開銷仍只有 12s,遠(yuǎn)小于訓(xùn)練集只包含 2/3個時間片的Andrew算法,且不影響分類過程的時間復(fù)雜度。

      圖2 FATC算法準(zhǔn)確率隨樣本集大小變化曲線

      3.6 流量行為變化對算法的影響

      基于流量行為特征的應(yīng)用流量分類算法都會面臨網(wǎng)絡(luò)流量行為隨著時間推移發(fā)生變化的問題。其是由新應(yīng)用協(xié)議的加入、網(wǎng)絡(luò)管理策略的改變、用戶習(xí)慣的轉(zhuǎn)變等原因所造成,包括各應(yīng)用類別流量在總體流量中所占比重的變化和流測度分布的改變2個方面。對FATC算法而言,前者改變判別方程中各類別的先驗(yàn)概率,后者影響各類別的均值和方差。故使用舊樣本訓(xùn)練的分類器精度會隨著時間的推移逐漸降低。表4為使用原樣本進(jìn)行訓(xùn)練,并使用12個月之后的另一組TRACE進(jìn)行測試所得的FATC算法準(zhǔn)確率,其中3個類別對應(yīng)的N/A表示該測試TRACE中沒有該類別的流量,同時FATC算法也未將任何其他類別的流量誤分至該類別。由表可見雖然基本各類別準(zhǔn)確率都稍有下降,但總體仍保持有較高的精度,總準(zhǔn)確率在一年之后仍維持在90%以上,只下降了不到3%。實(shí)驗(yàn)結(jié)果表明FATC算法具有很強(qiáng)的時間適應(yīng)性,可以長時間穩(wěn)定的監(jiān)測網(wǎng)絡(luò)流量,在必要時只需稍加新樣本進(jìn)行重訓(xùn)練就可恢復(fù)算法原先的精度。

      表4 使用較晚采集的TRACE對算法的測試結(jié)果

      4 結(jié)束語

      針對目前應(yīng)用流量分類算法效率不高,不能滿足主干網(wǎng)中流量監(jiān)測需求的現(xiàn)狀,本文提出一種以NetFlow統(tǒng)計(jì)信息作為輸入,利用不同應(yīng)用類別在交互過程中表現(xiàn)出的行為測度差異區(qū)分各應(yīng)用類別流量的高速應(yīng)用流量分類算法——FATC。算法使用多元數(shù)理統(tǒng)計(jì)中的簡單相關(guān)系數(shù)作為測度間相關(guān)性依據(jù),在分類之前選擇對分類有效且彼此獨(dú)立的測度,并以這些測度為依據(jù)使用Bayes判別法將流量分至誤判損失最小的應(yīng)用類別。相較于之前的研究,F(xiàn)ATC算法有以下改進(jìn)。1) 首次使用NetFlow記錄信息作為輸入,消除了前期報(bào)文采集、組流、測度計(jì)算的開銷,減少了輸入數(shù)據(jù)量,且使算法更具實(shí)用性。2) 極大降低分類算法在訓(xùn)練及分類過程的時空復(fù)雜度,使算法具有極高的效率。理論分析和實(shí)驗(yàn)結(jié)果表明,F(xiàn)ATC算法具有超過95%的分類準(zhǔn)確率,在保持當(dāng)前最全面準(zhǔn)確的Andrew方法準(zhǔn)確率的基礎(chǔ)上,將其時空開銷降低至少103倍,能實(shí)時穩(wěn)定地分類當(dāng)前10Gbit/s主干信道的流量。

      下一步工作將深入地分析應(yīng)用層協(xié)議分類中流測度的選擇問題,進(jìn)一步借鑒文獻(xiàn)[10]和文獻(xiàn)[18~20]中所述的流量統(tǒng)計(jì)屬性揭示應(yīng)用層流量分類與流記錄詳細(xì)程度之間的關(guān)系,研究流測度的種類、個數(shù)和應(yīng)用類別分類粒度之間的對應(yīng)關(guān)系,以及不同流測度對識別不同應(yīng)用類別流量的重要程度,從而為當(dāng)前流信息統(tǒng)計(jì)系統(tǒng)和網(wǎng)絡(luò)監(jiān)測系統(tǒng)的改進(jìn)提供信息。

      [1] MOORE A W, PAPAGIANNAKI K. Toward the accurate identification of network applications[A]. Proc of PAM 2005[C]. Boston, USA,2005. 41-54.

      [2] KIM M S, WON Y J, HONG J W K. Application-level traffic monitoring and an analysis on IP networks[J]. ETRI Journal, 2005, 27(11): 22-42.

      [3] MCGREGOR A, HALL M, LORIER P, et al. Flow clustering using machine learning techniques[A]. Proc of PAM 2004[C]. Antibes Juan-les-Pins, France, 2004. 205-214.

      [4] ERMAN J, ARLITT M, MAHANTI A. Traffic classification using clustering algorithms[A]. Proc of ACM SIGCOMM Workshop on Mining Network Data 2006[C]. Pisa, Italy, 2006.281-286.

      [5] ERMAN J, MAHANTI A, ARLITT M. Internet traffic identification using machine learning[A]. Proc of 49th IEEE Global Telecommunications Conference[C]. San Francisco, USA, 2006. 1-6.

      [6] KARAGIANNIS T, PAPAGIANNAKI K, FALOUTSOS M. BLINC:multilevel traffic classification in the dark[A]. Proc of ACM SIGCOMM 2005[C]. Philadelphia, USA, 2005.229-240.

      [7] ROUGHAN M, SEN S, SPATSCHECK O, et al. Class-of-service mapping for QoS: a statistical signature-based approach to IP traffic classification[A]. Proc of ACM SIGCOMM IMC 2004[C]. Taormina,Italy, 2004. 135-148.

      [8] ZANDER S, NGUYEN T, ARMITAGE G J. Self-learning IP traffic classification based on statistical flow characteristics[A]. Proc of PAM2005[C]. Boston, USA, 2005. 325-328.

      [9] ZANDER S, WILLIAMS N, ARMITAGE G. Internet archeology:estimating individual application trends in incomplete historic traffic traces[A]. Proc of PAM 2006[C]. Adelaide, Australia, 2006.205-206.

      [10] LI M, ZHAO W. Representation of a stochastic traffic bound[J]. IEEE Transactions on Parallel and Distributed Systems, 2010, 21(9):1368-1372.

      [11] MOORE A W, ZUEV D. Internet traffic classification using bayesian analysis techniques[A]. Proc of ACM SIGMETRICS 2005[C]. Banff,Canada, 2005. 50-60.

      [12] MOORE A W, ZUEV D. Discriminators for Use in Flow-Based Classification[R]. RR-05-13, London: Intel Research, Cambridge, 2005.

      [13] 劉元勛, 徐秋亮, 云曉春. 面向入侵檢測系統(tǒng)的通用應(yīng)用層協(xié)議識別技術(shù)研究[J]. 山東大學(xué)學(xué)報(bào)(工學(xué)版), 2007, 37(1): 65-69.LIU Y X, XU Q L, YUN X C. Research on IDS-faced general-purpose application-level protocol identification technology[J]. Journal of Shandong University(Engineering Science), 2007, 37(1): 65-69.

      [14] 宮婧, 孫知信, 顧強(qiáng). 基于行為特征描述的P2P流識別方法的研究[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2007, 28(1): 48-53.GONG J, SUN Z X, GU Q. Research of identification method based on P2P flow behavior characterization [J]. Journal of Chinese Computer Systems, 2007, 28(1): 48-53.

      [15] 劉斌, 李之棠, 李佳. 一種基于流特征的P2P流量實(shí)時識別方法[J].廈門大學(xué)學(xué)報(bào)(自然科學(xué)版), 2007, 46(2): 132-135.LIU B, LI Z T, LI J. A new method on P2P traffic identification based on flow[J]. Journal of Xiamen University(Natural Science), 2007,46(2): 132-135.

      [16] Cisco. cisco IOS netflow introduction[EB/OL]. http://www.cisco.com/warp/public/ 732/Tech/NetFlow, 2006.

      [17] 朱道元, 吳誠鷗, 秦偉良. 多元統(tǒng)計(jì)分析與軟件SAS[M]. 南京: 東南大學(xué)出版社, 1999.ZHU D Y, WU C O, QIN W L. Multivariate Statistical Analysis and SAS [M]. Nanjing: Southeast University Press,1999.

      [18] LI M, LIM S C. Modeling network traffic using generalized Cauchy process[J]. Physica A, 2008, 387(11): 2584-2594.

      [19] LI M. Change trend of averaged Hurst parameter of traffic under DDOS flood attacks[J]. Computers & Security, 2006, 25(3): 213-220.[20] LI M. An approach to reliably identifying signs of DDOS flood attacks based on LRD traffic pattern recognition [J]. Computers & Security,2004, 23(7): 549-558.

      猜你喜歡
      樣本空間測度類別
      高中數(shù)學(xué)新教材一個探究試驗(yàn)的商榷
      概率統(tǒng)計(jì)中樣本空間芻議
      三個數(shù)字集生成的自相似測度的乘積譜
      R1上莫朗測度關(guān)于幾何平均誤差的最優(yōu)Vornoi分劃
      非等熵Chaplygin氣體測度值解存在性
      Cookie-Cutter集上的Gibbs測度
      淺談高校古典概率的教學(xué)
      全概率公式的教學(xué)方法研究
      考試周刊(2016年26期)2016-05-26 20:19:51
      服務(wù)類別
      新校長(2016年8期)2016-01-10 06:43:59
      論類別股東會
      商事法論集(2014年1期)2014-06-27 01:20:42
      邯郸县| 崇州市| 突泉县| 夏河县| 桐乡市| 郎溪县| 安乡县| 秭归县| 广宗县| 文安县| 上虞市| 广州市| 伊通| 大城县| 界首市| 武鸣县| 静安区| 乌拉特前旗| 巴塘县| 赤峰市| 嵩明县| 白河县| 滦平县| 罗定市| 福建省| 康乐县| 彭山县| 屏东县| 英超| 南开区| 上饶市| 凤山市| 稻城县| 吉林市| 潮安县| 沁阳市| 禄丰县| 高安市| 东山县| 民勤县| 宁安市|