基于NetFlow記錄的高速應(yīng)用流量分類方法

2012-11-06 11:40:12陳亮龔儉

通信學(xué)報(bào) 2012年1期

陳亮，龔儉

(1. 東南大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院，江蘇南京 210096；

2. 江蘇省計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)重點(diǎn)實(shí)驗(yàn)室，江蘇南京 210096)

1 引言

實(shí)時準(zhǔn)確地識別 Internet流量所使用的應(yīng)用層協(xié)議是網(wǎng)絡(luò)QoS、網(wǎng)絡(luò)流量和用戶行為等監(jiān)控的前提和基礎(chǔ)，在網(wǎng)絡(luò)性能管理、計(jì)費(fèi)管理、流量工程和入侵檢測等研究領(lǐng)域有著重要作用。然而由于包括各種P2P協(xié)議在內(nèi)的越來越多的應(yīng)用不遵守默認(rèn)端口約定或使用動態(tài)端口通信等原因，早期以IANA中注冊的常用端口號區(qū)分應(yīng)用協(xié)議流量的方法準(zhǔn)確率已低于50%[1,2]，嚴(yán)重影響分析結(jié)果的可信性。依據(jù)報(bào)文負(fù)載內(nèi)容識別應(yīng)用協(xié)議的方法在主干網(wǎng)絡(luò)帶寬增長到10Gbit/s以上后是一個巨大的技術(shù)挑戰(zhàn)，且該種方法無法處理流量加密的情況。

因此，自 2004年開始基于行為特征識別應(yīng)用流量的方法逐漸成為國際上研究的熱點(diǎn)。這類方法首先歸納出各應(yīng)用交互過程中在流/主機(jī)上表現(xiàn)出的不同行為特征，并以此為依據(jù)判別待分類流量所使用的應(yīng)用協(xié)議。由于尚處于起步階段，目前基于行為識別應(yīng)用協(xié)議的方法不能精確識別單一的應(yīng)用協(xié)議，而只能將流量分至大致的應(yīng)用類別中。所謂應(yīng)用類別，是對具有類似功能或行為的應(yīng)用層協(xié)議的抽象概括，如BitTorrent、eDonkey等應(yīng)用協(xié)議都屬于P2P應(yīng)用類別。

基于行為識別應(yīng)用協(xié)議的方法可分為事先無訓(xùn)練集和有訓(xùn)練集2類，分別對應(yīng)數(shù)理統(tǒng)計(jì)中的聚類分析和判別分析。使用聚類算法方面，A.McGregor[3]和Jeffrey Erman[4,5]等人分別使用EM和AutoClass等方法考慮流之間的相似性將流量分組，而后利用端口號或負(fù)載檢查的方法分析其準(zhǔn)確性。但聚類方法不能解釋為什么流量會進(jìn)行這樣的分類，因此只能使用在對分類沒有先驗(yàn)知識、沒有訓(xùn)練集時，對類別進(jìn)行初步探索上。判別算法方面，Thomas Karagiannis[6]等人分析應(yīng)用類別在空間維上的行為特征(端口分布、鏈接數(shù)等)，構(gòu)造主機(jī)交互關(guān)系圖，并以此識別貢獻(xiàn)流量的主機(jī)正在使用的應(yīng)用協(xié)議類別。但該方法須對流量進(jìn)行一定的累積，不僅有滯后性，而且在高速主干網(wǎng)絡(luò)下，如何有效地存儲流量，快速構(gòu)造及匹配圖本身就是一個仍待解決的問題。M. Roughan[7]和 Sebastian Zander[8,9]等人基于k-NN和C4.5等機(jī)器學(xué)習(xí)方法，利用應(yīng)用流在時間維上的傳輸特征(流長、持續(xù)時間等)將流量分至4～8個應(yīng)用類別，然而這些早期方法的精度都不夠高。

目前，最全面準(zhǔn)確的方法是Andrew W. Moore等人于2005年提出的[11]。該方法使用TCP流的248個測度值[12]，通過對稱不確定性推導(dǎo)測度間相關(guān)關(guān)系并進(jìn)行篩選，而后利用基于核密度估計(jì)的 Na?ve Bayes分類法將TCP流分至10個應(yīng)用類別中。雖然該方法較之前研究更多地考慮了測度的選擇和分布，但存在以下很嚴(yán)重的效率問題。1) 所選用的248個流測度過多，且其中一些計(jì)算過于復(fù)雜。2)使用熵和對稱不確定性(SU, symmetric uncertainty)作為兩變量相關(guān)性的度量，計(jì)算變量取值概率、條件概率的時空復(fù)雜度都非常高，樣本空間較大時分類器訓(xùn)練時間過長，而樣本空間較小時不足以代表流量總體行為，影響識別精度。3) 使用核密度估計(jì)(KE, kernel estimation)需要當(dāng)每一個新流到達(dá)時都對樣本空間中的每一個樣本計(jì)算一次密度函數(shù)，開銷非常大。由于上述缺點(diǎn)，雖然其實(shí)驗(yàn)表明方法準(zhǔn)確率超過90%，但不能用于實(shí)時環(huán)境下，更不可能在線處理10Gbit/s以上的主干帶寬流量。

國內(nèi)目前對通用應(yīng)用層流量分類的研究還處于匹配應(yīng)用協(xié)議特征串的階段[13]?；谛袨樽R別流量的方法目前只針對于P2P流量的發(fā)現(xiàn)[14,15]，這些研究不僅通用性不好，準(zhǔn)確率不高，而且都沒有放在實(shí)際環(huán)境中進(jìn)行識別率及性能的測試與分析。

故從發(fā)展現(xiàn)狀看，目前基于行為特征的應(yīng)用流量分類算法在精度和速度上都達(dá)不到令人滿意的效果。尤其先前各算法在效率上無法實(shí)時處理吉比特以上的信道流量，并且各算法輸入均為信道原始報(bào)文首部，前期報(bào)文采集、組流、測度計(jì)算的開銷甚至遠(yuǎn)超過算法本身的計(jì)算開銷。因此為了提高應(yīng)用流量分類的效率，滿足10Gbit/s以上高速主干網(wǎng)絡(luò)管理和安全監(jiān)測的需要，必須在保證足夠準(zhǔn)確率的前提下降低當(dāng)前應(yīng)用流量分類前期工作及算法本身各階段的時空開銷，以較以往研究更為簡單有效的計(jì)算方法處理高速流量。

Cisco公司提出的 NetFlow[16]是目前實(shí)際主要使用的IP流測量系統(tǒng)，已實(shí)現(xiàn)在多種路由器中，被業(yè)界廠商廣泛支持。若能利用NetFlow已統(tǒng)計(jì)的流記錄信息進(jìn)行應(yīng)用類別行為特征分析與流量分類，則不僅可以省略應(yīng)用分類前期報(bào)文采集、組流、測度計(jì)算的時空開銷，提高算法效率，而且基于Netflow流記錄的標(biāo)準(zhǔn)性和廣泛可用性，可以使其像SNMP一樣支持現(xiàn)有的網(wǎng)絡(luò)監(jiān)控與管理應(yīng)用，滿足管理者全面了解網(wǎng)絡(luò)活動方式，對各種業(yè)務(wù)流進(jìn)行實(shí)時監(jiān)測與管理的需求。

據(jù)此，本文提出一種以 NetFlow記錄統(tǒng)計(jì)信息作為輸入的高速應(yīng)用流量分類(FATC, fast application-level traffic classification)算法。算法分為基于簡單相關(guān)系數(shù)的測度選擇算法和基于 Bayes多元判別分析的流量分類算法 2部分。前者衡量測度變量之間的相關(guān)關(guān)系，在實(shí)際分類之前選擇出能揭示網(wǎng)絡(luò)應(yīng)用類別行為特征的測度，刪除對分類無用及相互冗余的測度；后者以測度選擇的結(jié)果作為分類的依據(jù)，將流量分類至誤判損失最小的應(yīng)用類別中。FATC算法優(yōu)點(diǎn)在于：1) 僅使用 NetFlow統(tǒng)計(jì)的流測度作為判別的依據(jù)，不僅省略采集報(bào)文、組流、測度計(jì)算的巨大開銷，且提高了方法的實(shí)用性；2) 使用相關(guān)系數(shù)作為變量間最本質(zhì)的相關(guān)性判別依據(jù)，計(jì)算量小，且事前刪除對判別無效或冗余的測度，優(yōu)化后期分類過程；3) 使用Bayes判別法對應(yīng)用流量分類，時間復(fù)雜度小，且實(shí)踐證明：當(dāng)樣本空間足夠大后，可以克服樣本變量不服從多元正態(tài)分布的事實(shí)，使得基本的 Bayes方法能夠達(dá)到很好的效果；4)算法具有超過 95%的分類準(zhǔn)確率，且能實(shí)時處理當(dāng)前10Gbit/s主干網(wǎng)絡(luò)信道的流量。

2 高速應(yīng)用流量分類(FATC)算法

2.1 基于相關(guān)系數(shù)的流測度選擇算法

變量選擇對判別方法的實(shí)施有著重要意義，過多的變量不僅影響判別方法的效率，無效或冗余的變量還會成為噪聲影響判別方法的效果。因此，若能在實(shí)際流量分類前刪除對分類無效的和相互冗余的測度，則不僅可以提高分類的精度和效率，還可以揭示出對流量分類有實(shí)際意義的測度，即那些能表示應(yīng)用類別行為特征的測度。

目前只有文獻(xiàn)[11]考慮了在實(shí)際分類之前對測度進(jìn)行選擇，但其采用的對稱不確定性作為測度相關(guān)性依據(jù)需計(jì)算測度取值的概率和相互間的條件概率，方法時空復(fù)雜度都很高，訓(xùn)練及重訓(xùn)練分類器所用的時間開銷太大。因此為了提高算法的效率，需采用計(jì)算過程更為簡易的相關(guān)性計(jì)算方法。既然流測度(包括流所屬的應(yīng)用層協(xié)議類別)是隨機(jī)變量，完全可以用經(jīng)典統(tǒng)計(jì)分析中的簡單相關(guān)系數(shù)來表示測度間的相關(guān)程度[17]：

其中，X和Y為2個待研究流測度，(xi, yi) (i =1,2,…,n)為兩變量的n對觀察值，和分別為n越大表示相關(guān)程度越強(qiáng)，反之則越弱。令集合M={M1, M2, …, Mn}為全部可選用的流測度組成的集合，C為流所屬的應(yīng)用層類別。若某流測度Mi與類別C之間的相關(guān)系數(shù)小于某事先設(shè)定的閾值，則認(rèn)為該測度不能提供對分類有用的信息，屬于無效測度；若兩測度之間的相關(guān)系數(shù)大于另一閾值，則認(rèn)為這2個測度相互冗余，需刪除其中貢獻(xiàn)較小的測度。據(jù)此，基于相關(guān)系數(shù)的特征選擇算法如下：

最終測度集合M={M1,M2,…,Mm}只包含了能對分類提供有用信息且相互獨(dú)立的測度。另外，測度選擇算法中閾值 δ1和 δ2的不同取值會影響入選的測度，繼而影響分類算法的準(zhǔn)確性和效率。二者的設(shè)置依賴于經(jīng)驗(yàn)和實(shí)驗(yàn)的效果，本文第3節(jié)中將進(jìn)一步分析不同閾值取值對 FATC算法準(zhǔn)確率的影響。

2.2 基于Bayes判別分析的流量分類算法

在利用相關(guān)系數(shù)對流測度進(jìn)行篩選的基礎(chǔ)上，本節(jié)給出以最終集合 M 中的測度為分類依據(jù)的基于Bayes判別分析的應(yīng)用流量分類算法。

多元統(tǒng)計(jì)分析的Bayes判別方法建立在Bayes準(zhǔn)則的基礎(chǔ)上，偏重于集群分布的統(tǒng)計(jì)特性，分類原理是假定訓(xùn)練樣本數(shù)據(jù)的光譜空間服從某類分布，做出樣本的概率密度等值線，確定分類，然后通過計(jì)算待判別樣本屬于各類別的概率，將新樣本歸屬于概率最大的一組。Bayes判別方法由于需要對所研究的對象在抽樣前已有一定的認(rèn)識(先驗(yàn)分布)，且考慮誤判后的損失，故判別精度往往高于其他線性判別方法[17]。

令應(yīng)用類別總數(shù)為k，則Bayes判別方程為

式(1)中qj為第j類別的先驗(yàn)概率，pj(x)為待判別對象x屬于第j類別的概率，C(i|j)稱為損失函數(shù)，表示本應(yīng)屬于第j類別的對象誤判給第i類別的損失：當(dāng) i=j時，有 C(i|j)=0；當(dāng) i≠j時，有 C(i|j)＞0。顯然式(1)是對損失函數(shù)依概率的加權(quán)平均，即hi(x)為把x判給第i類別的損失期望。式(2)表明以誤判損失最小作為分類的依據(jù)，即使得hi(x)最小的i即是對象x應(yīng)屬的類別號。

原則上說，考慮損失函數(shù)更為合理，誤判損失C(i|j)可以根據(jù)網(wǎng)絡(luò)管理的不同需求來設(shè)置。如若當(dāng)前較為關(guān)注P2P流量情況，則可將P2P流誤判給其他類別的損失相應(yīng)增大。由于本文公平考慮各應(yīng)用類別，此處假定各種誤判的損失皆相等，即

則判別方程簡化為

故判別方程等價于

假設(shè)流對象 X = ( M1, M2,… ,Mm)T服從多元正態(tài)分布（3.5節(jié)將通過實(shí)驗(yàn)說明只要樣本空間足夠大，就可以克服流測度不服從正態(tài)分布的事實(shí)），其中流屬性 M1～ Mm對應(yīng)于應(yīng)用第2.1節(jié)的測度選擇算法所得到的最終測度。X的分布密度函數(shù)為其中，先驗(yàn)概率 qi、均值向量μ和方差陣∑可利用樣本通過無偏估計(jì)得到：

其中，n為樣本空間大小，即總樣本流個數(shù)。ni為屬于第i類別的樣本流個數(shù)。根據(jù)微分中值定理，有

由于n和ε為定值，故判別方程可化為

其中，未知數(shù)只有待判別流對象x。

據(jù)此，基于Bayes判別分析的流量分類算法如下：

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)數(shù)據(jù)及流測度

為便于對比算法效果，本文采用和 Andrew相同的實(shí)驗(yàn)TRACE[11]：采集信道為一條吉比特全雙工以太網(wǎng)，在一天內(nèi)隨機(jī)選取了10個持續(xù)時間約為1 680s的時間片，提取其中完整的TCP流，計(jì)算出每個TCP流的248種流測度及所屬的應(yīng)用層協(xié)議類別，作為TRACE中的記錄。表1詳細(xì)列舉了 TRACE中的各應(yīng)用層協(xié)議類別及屬于該類別的流數(shù)。

表1 應(yīng)用層類別及相應(yīng)流數(shù)

Andrew使用248種測度作為可用測度集合，從簡單的TCP端口號至復(fù)雜的傅里葉變換。這不僅要求系統(tǒng)采集所監(jiān)聽網(wǎng)絡(luò)上的每個報(bào)文并組流，且需占用很大的資源計(jì)算這些測度。而本文提出的FATC算法的可用測度僅限定為 NetFlow V5統(tǒng)計(jì)可得的(如表2所示)，不僅省去采集報(bào)文、組流、計(jì)算測度的前期工作，降低了系統(tǒng)開銷，而且簡化后期測度選擇算法和流量分類算法的輸入，使分類更高效。

表2 可用流測度集合

算法測試前期工作還包括將Andrew的TRACE轉(zhuǎn)換至NetFlow V5流記錄格式，其中IP地址、AS號等FATC算法的無用字段可忽略。

3.2 算法準(zhǔn)確率分析

首先給出2個評價算法準(zhǔn)確率的標(biāo)準(zhǔn)。

算法測試時，本文在實(shí)驗(yàn)TRACE的10個時間片內(nèi)任取5個作為訓(xùn)練集，另5個作為測試集，取該類組合共C(10, 5) = 252組中隨機(jī)20組實(shí)驗(yàn)后的均值作為最后結(jié)果。取δ1=0.06，δ2=0.6(第3.4節(jié)將說明二者不同取值對FATC算法的影響)，則最終測度集合M={s_port, pkt_size, IAT, duration}。FATC算法準(zhǔn)確率如表3所示。

表3 算法準(zhǔn)確率比較

由表3可見，F(xiàn)ATC算法準(zhǔn)確率遠(yuǎn)高于基于端口分類流量的方法，在大多數(shù)類別上也高于Andrew所提出的流分類算法，然而總準(zhǔn)確率略低于Andrew算法。造成差異的原因有2個：1）由于WWW類別流數(shù)量占據(jù)了流總數(shù)的87%，對其略低的識別率將極大地影響總準(zhǔn)確率；2）由于FATC算法的輸入來自NetFlow流統(tǒng)計(jì)信息，相較于Andrew所用的248個測度，極大地減少了所提供的類別行為特征信息。但是，一方面如3.5節(jié)所示，隨著訓(xùn)練集空間的增長FATC算法準(zhǔn)確率上升，9個時間片時準(zhǔn)確率已為95.7%，可以彌補(bǔ)缺少測度信息帶來的不足；更重要的一方面，如3.3節(jié)所示，F(xiàn)ATC算法極大的降低了以往分類算法的時空復(fù)雜度，使得在可接受的精度損失下分類效率有極大的提高。表3還表明兩算法對 GAMES、INTERACTIVE和 P2P、ATTACK的識別率都非常低。Andrew并未對此現(xiàn)象作出解釋。分析如下。1) 由于 INTERACTIVE和GAMES 2種類別的流數(shù)非常少（如表1所示），不足以提供該類別的行為特征信息，造成這2類流量識別率極低。2) 對于 P2P和 ATTACK，由表 1可知這2類應(yīng)用的流數(shù)并不少。是由于這2種應(yīng)用涵蓋范圍很廣，各協(xié)議間行為差異較大，造成算法很難對其進(jìn)行類別的行為特征歸納，致使判別出現(xiàn)偏差。更進(jìn)一步的證據(jù)和處理方法將是下一步研究的重點(diǎn)。

3.3 算法時空效率分析

3.3.1 時間效率

訓(xùn)練算法中，Andrew使用的SU算法需多遍掃描樣本空間或內(nèi)存空間以統(tǒng)計(jì)測度取值概率和條件概率，而FATC算法中的簡單相關(guān)系數(shù)僅需單遍遍歷樣本空間。識別算法中，Andrew使用的KE算法在每個新流到達(dá)時需對樣本空間中的每個樣本計(jì)算一次密度函數(shù)，而FATC算法只需計(jì)算應(yīng)用類別數(shù)次的密度函數(shù)。故即使樣本空間中只有104條流記錄，分為10類，則使用KE的Andrew算法在分類過程的時間開銷是FATC算法的103倍。

由上可見，為了提高Andrew算法的效率必須使用較小的樣本集。而小樣本空間不足以提供完全的行為分布信息，會使算法的結(jié)果產(chǎn)生很大的偏差。因此Andrew算法存在著性能—效率的矛盾。文獻(xiàn)[11]表明，分別使用不足25 000條流記錄訓(xùn)練并測試的情況下，其算法時間開銷約300s，而同樣條件下FATC算法僅需4s。更嚴(yán)重的是，實(shí)際使用時Andrew算法還需采集原始報(bào)文、組流、計(jì)算248個測度，這更使得該算法不可能應(yīng)用于超過1Gbit/s的網(wǎng)絡(luò)環(huán)境中。

FATC算法現(xiàn)每秒約能處理18 000條流記錄。據(jù)華東(北)地區(qū)網(wǎng)絡(luò)中心日常統(tǒng)計(jì)，地區(qū)主干到國家主干的10Gbit/s信道一天內(nèi)的流數(shù)不足800MB，即FATC算法理論上能在不到12h內(nèi)處理完目前該10Gbit/s信道24h的流量。考慮到當(dāng)前實(shí)驗(yàn)為讀取硬盤上的 TRACE，速度較慢，實(shí)際使用直接從路由器接收NetFlow格式的流記錄時FATC算法效率會有更為明顯的提高，完全滿足實(shí)時分類當(dāng)前10Gbit/s主干網(wǎng)絡(luò)流量的需求。

3.3.2 空間效率

樣本存儲空間：由于Andrew算法可用測度集合龐大，若樣本數(shù)相同，則其所需的樣本存儲空間約為FATC算法的30倍(248/8)。因此使用同樣的磁盤或內(nèi)存空間，F(xiàn)ATC算法可以較Andrew算法多存儲約30倍的樣本流記錄。

計(jì)算內(nèi)存空間：在應(yīng)用類別數(shù)目一定的情況下，Andrew的SU算法在統(tǒng)計(jì)樣本取值概率p(xi)和條件概率 p(xi|yj)時所需內(nèi)存空間隨樣本數(shù)和測度數(shù)的增長而增長。同時由于KE算法在每個新流到達(dá)時需對樣本空間中的每個樣本計(jì)算一次密度函數(shù)，出于效率考慮顯然應(yīng)將每條樣本記錄都放在內(nèi)存中。文獻(xiàn)[11]表明使用全部測度，在樣本空間不足25 000條流記錄的條件下(僅2/3個時間片大小)，其內(nèi)存使用達(dá)到256MB。而 FATC中的測度選擇算法和分類算法所需內(nèi)存空間不隨樣本數(shù)和測度數(shù)的增長而增長，僅需記錄各應(yīng)用類別樣本的均值和方差，運(yùn)行總內(nèi)存不足70kB，為Andrew算法的約1/104。

3.4 測度選擇閾值對算法的影響

任何測度選擇算法的效果都和其篩選測度的閾值相關(guān)?；诤唵蜗嚓P(guān)系數(shù)的測度選擇算法的效果好壞也很大程度上取決于2個參數(shù)的取值：有效測度選擇閾值δ1和冗余測度選擇閾值δ2。δ1取值過小會將某些對分類無效的測度引入分類算法中，δ2取值過大會將本身冗余的測度認(rèn)定為彼此獨(dú)立，二者不僅增加分類算法的計(jì)算復(fù)雜度，而且可能影響分類算法的效果；而δ1取值過大可能會淘汰掉某些對分類有用的測度，δ2的取值過小會使本身互相獨(dú)立的測度被認(rèn)定成冗余而被刪除，這更會極大地降低分類算法的準(zhǔn)確率。

圖1表現(xiàn)了2參數(shù)的不同取值對FATC算法準(zhǔn)確率的影響。由圖1可見FATC算法對2個參數(shù)取值的選擇，即測度的選擇要求很高。選擇不適宜的測度將導(dǎo)致算法的準(zhǔn)確率一直非常低(10%～20%)，而合適的參數(shù)取值則能夠選中最能表現(xiàn)應(yīng)用類別行為特征的測度，使算法準(zhǔn)確率有很大提高(大于90%)。另外，由測度選擇算法可知圖中δ1=0，δ2=1的點(diǎn)為未對測度進(jìn)行篩選，使用表2中所有測度進(jìn)行流量分類的效果，其準(zhǔn)確率只有約25%?？梢娛褂煤线m的方法在流量分類之前剔除雜音與冗余特征，不僅可以精簡分類器的結(jié)構(gòu)，同時也極大提高了分類器的準(zhǔn)確率。然而就如何決定測度的取值，目前的研究還沒有很好的方法，仍只能通過平時的經(jīng)驗(yàn)和實(shí)驗(yàn)得出，這也是今后需要繼續(xù)考慮的內(nèi)容之一。

圖1 參數(shù)對FATC算法準(zhǔn)確率的影響

3.5 訓(xùn)練集大小對算法的影響

圖2 顯示了FATC算法準(zhǔn)確率隨訓(xùn)練集大小的變化情況。由圖可見如下。1) 過小的訓(xùn)練集不能體現(xiàn)各應(yīng)用流量總體分布的情況，導(dǎo)致使用不全面的信息訓(xùn)練判別算法，從而影響FATC算法分類的精度。隨著訓(xùn)練集中樣本數(shù)量的增加，訓(xùn)練集所能提供的流量分布信息增多，分類算法就越能根據(jù)已知的正確信息判斷新流的所屬類別，算法準(zhǔn)確率不斷上升。2) 當(dāng)訓(xùn)練集大小超過4個時間片時，F(xiàn)ATC算法準(zhǔn)確率的增加逐漸緩慢。此時再增加訓(xùn)練樣本的效果并不明顯。同時，較小的訓(xùn)練集不僅可以降低手動構(gòu)造訓(xùn)練集所需的前期工作量，而且可以減少算法在訓(xùn)練及重訓(xùn)練過程的時間開銷。因此實(shí)際中可根據(jù)所要求的準(zhǔn)確率調(diào)整初始訓(xùn)練集大小，以較小的工作量得到所需的精度。當(dāng)精度需求提高時，可以相應(yīng)增大樣本空間，以補(bǔ)充信息。3) 當(dāng)訓(xùn)練集大小達(dá)到8個時間片時，F(xiàn)ATC算法準(zhǔn)確率已超過95%，9個時間片時的準(zhǔn)確率為95.7%，非常接近Andrew所提出的算法。由此可見，只要訓(xùn)練樣本空間滿足一定大小，就可以破除Bayes判別中對樣本正態(tài)分布的假設(shè)，達(dá)到Andrew使用KE算法相同的效果；另一方面，實(shí)驗(yàn)表明即使訓(xùn)練集包含9個時間片，F(xiàn)ATC算法在訓(xùn)練階段的時間開銷仍只有 12s，遠(yuǎn)小于訓(xùn)練集只包含 2/3個時間片的Andrew算法，且不影響分類過程的時間復(fù)雜度。

圖2 FATC算法準(zhǔn)確率隨樣本集大小變化曲線

3.6 流量行為變化對算法的影響

基于流量行為特征的應(yīng)用流量分類算法都會面臨網(wǎng)絡(luò)流量行為隨著時間推移發(fā)生變化的問題。其是由新應(yīng)用協(xié)議的加入、網(wǎng)絡(luò)管理策略的改變、用戶習(xí)慣的轉(zhuǎn)變等原因所造成，包括各應(yīng)用類別流量在總體流量中所占比重的變化和流測度分布的改變2個方面。對FATC算法而言，前者改變判別方程中各類別的先驗(yàn)概率，后者影響各類別的均值和方差。故使用舊樣本訓(xùn)練的分類器精度會隨著時間的推移逐漸降低。表4為使用原樣本進(jìn)行訓(xùn)練，并使用12個月之后的另一組TRACE進(jìn)行測試所得的FATC算法準(zhǔn)確率，其中3個類別對應(yīng)的N/A表示該測試TRACE中沒有該類別的流量，同時FATC算法也未將任何其他類別的流量誤分至該類別。由表可見雖然基本各類別準(zhǔn)確率都稍有下降，但總體仍保持有較高的精度，總準(zhǔn)確率在一年之后仍維持在90%以上，只下降了不到3%。實(shí)驗(yàn)結(jié)果表明FATC算法具有很強(qiáng)的時間適應(yīng)性，可以長時間穩(wěn)定的監(jiān)測網(wǎng)絡(luò)流量，在必要時只需稍加新樣本進(jìn)行重訓(xùn)練就可恢復(fù)算法原先的精度。

表4 使用較晚采集的TRACE對算法的測試結(jié)果

4 結(jié)束語

針對目前應(yīng)用流量分類算法效率不高，不能滿足主干網(wǎng)中流量監(jiān)測需求的現(xiàn)狀，本文提出一種以NetFlow統(tǒng)計(jì)信息作為輸入，利用不同應(yīng)用類別在交互過程中表現(xiàn)出的行為測度差異區(qū)分各應(yīng)用類別流量的高速應(yīng)用流量分類算法——FATC。算法使用多元數(shù)理統(tǒng)計(jì)中的簡單相關(guān)系數(shù)作為測度間相關(guān)性依據(jù)，在分類之前選擇對分類有效且彼此獨(dú)立的測度，并以這些測度為依據(jù)使用Bayes判別法將流量分至誤判損失最小的應(yīng)用類別。相較于之前的研究，F(xiàn)ATC算法有以下改進(jìn)。1) 首次使用NetFlow記錄信息作為輸入，消除了前期報(bào)文采集、組流、測度計(jì)算的開銷，減少了輸入數(shù)據(jù)量，且使算法更具實(shí)用性。2) 極大降低分類算法在訓(xùn)練及分類過程的時空復(fù)雜度，使算法具有極高的效率。理論分析和實(shí)驗(yàn)結(jié)果表明，F(xiàn)ATC算法具有超過95%的分類準(zhǔn)確率，在保持當(dāng)前最全面準(zhǔn)確的Andrew方法準(zhǔn)確率的基礎(chǔ)上，將其時空開銷降低至少103倍，能實(shí)時穩(wěn)定地分類當(dāng)前10Gbit/s主干信道的流量。

下一步工作將深入地分析應(yīng)用層協(xié)議分類中流測度的選擇問題，進(jìn)一步借鑒文獻(xiàn)[10]和文獻(xiàn)[18～20]中所述的流量統(tǒng)計(jì)屬性揭示應(yīng)用層流量分類與流記錄詳細(xì)程度之間的關(guān)系，研究流測度的種類、個數(shù)和應(yīng)用類別分類粒度之間的對應(yīng)關(guān)系，以及不同流測度對識別不同應(yīng)用類別流量的重要程度，從而為當(dāng)前流信息統(tǒng)計(jì)系統(tǒng)和網(wǎng)絡(luò)監(jiān)測系統(tǒng)的改進(jìn)提供信息。

[1] MOORE A W, PAPAGIANNAKI K. Toward the accurate identification of network applications[A]. Proc of PAM 2005[C]. Boston, USA,2005. 41-54.

[2] KIM M S, WON Y J, HONG J W K. Application-level traffic monitoring and an analysis on IP networks[J]. ETRI Journal, 2005, 27(11): 22-42.

[3] MCGREGOR A, HALL M, LORIER P, et al. Flow clustering using machine learning techniques[A]. Proc of PAM 2004[C]. Antibes Juan-les-Pins, France, 2004. 205-214.

[4] ERMAN J, ARLITT M, MAHANTI A. Traffic classification using clustering algorithms[A]. Proc of ACM SIGCOMM Workshop on Mining Network Data 2006[C]. Pisa, Italy, 2006.281-286.

[5] ERMAN J, MAHANTI A, ARLITT M. Internet traffic identification using machine learning[A]. Proc of 49th IEEE Global Telecommunications Conference[C]. San Francisco, USA, 2006. 1-6.

[6] KARAGIANNIS T, PAPAGIANNAKI K, FALOUTSOS M. BLINC:multilevel traffic classification in the dark[A]. Proc of ACM SIGCOMM 2005[C]. Philadelphia, USA, 2005.229-240.

[7] ROUGHAN M, SEN S, SPATSCHECK O, et al. Class-of-service mapping for QoS: a statistical signature-based approach to IP traffic classification[A]. Proc of ACM SIGCOMM IMC 2004[C]. Taormina,Italy, 2004. 135-148.

[8] ZANDER S, NGUYEN T, ARMITAGE G J. Self-learning IP traffic classification based on statistical flow characteristics[A]. Proc of PAM2005[C]. Boston, USA, 2005. 325-328.

[9] ZANDER S, WILLIAMS N, ARMITAGE G. Internet archeology:estimating individual application trends in incomplete historic traffic traces[A]. Proc of PAM 2006[C]. Adelaide, Australia, 2006.205-206.

[10] LI M, ZHAO W. Representation of a stochastic traffic bound[J]. IEEE Transactions on Parallel and Distributed Systems, 2010, 21(9):1368-1372.

[11] MOORE A W, ZUEV D. Internet traffic classification using bayesian analysis techniques[A]. Proc of ACM SIGMETRICS 2005[C]. Banff,Canada, 2005. 50-60.

[12] MOORE A W, ZUEV D. Discriminators for Use in Flow-Based Classification[R]. RR-05-13, London: Intel Research, Cambridge, 2005.

[13] 劉元勛, 徐秋亮, 云曉春. 面向入侵檢測系統(tǒng)的通用應(yīng)用層協(xié)議識別技術(shù)研究[J]. 山東大學(xué)學(xué)報(bào)(工學(xué)版), 2007, 37(1): 65-69.LIU Y X, XU Q L, YUN X C. Research on IDS-faced general-purpose application-level protocol identification technology[J]. Journal of Shandong University(Engineering Science), 2007, 37(1): 65-69.

[14] 宮婧, 孫知信, 顧強(qiáng). 基于行為特征描述的P2P流識別方法的研究[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2007, 28(1): 48-53.GONG J, SUN Z X, GU Q. Research of identification method based on P2P flow behavior characterization [J]. Journal of Chinese Computer Systems, 2007, 28(1): 48-53.

[15] 劉斌, 李之棠, 李佳. 一種基于流特征的P2P流量實(shí)時識別方法[J].廈門大學(xué)學(xué)報(bào)(自然科學(xué)版), 2007, 46(2): 132-135.LIU B, LI Z T, LI J. A new method on P2P traffic identification based on flow[J]. Journal of Xiamen University(Natural Science), 2007,46(2): 132-135.

[16] Cisco. cisco IOS netflow introduction[EB/OL]. http://www.cisco.com/warp/public/ 732/Tech/NetFlow, 2006.

[17] 朱道元, 吳誠鷗, 秦偉良. 多元統(tǒng)計(jì)分析與軟件SAS[M]. 南京: 東南大學(xué)出版社, 1999.ZHU D Y, WU C O, QIN W L. Multivariate Statistical Analysis and SAS [M]. Nanjing: Southeast University Press,1999.

[18] LI M, LIM S C. Modeling network traffic using generalized Cauchy process[J]. Physica A, 2008, 387(11): 2584-2594.

[19] LI M. Change trend of averaged Hurst parameter of traffic under DDOS flood attacks[J]. Computers & Security, 2006, 25(3): 213-220.[20] LI M. An approach to reliably identifying signs of DDOS flood attacks based on LRD traffic pattern recognition [J]. Computers & Security,2004, 23(7): 549-558.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看