• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      SDN網(wǎng)絡(luò)流量分類技術(shù)研究綜述

      2018-03-29 08:26:35蔣海軍郭小帆邱宏瓊
      關(guān)鍵詞:網(wǎng)絡(luò)流量數(shù)據(jù)包端口

      蔣海軍,謝 鈞,郭小帆,邱宏瓊,強 振

      (1.陸軍工程大學(xué) 指揮控制工程學(xué)院,江蘇 南京 210007; 2. 31103部隊,江蘇 南京 210016;3.73127部隊,福建 福州 350003;4.31618部隊,福建 福州 350003)

      0 引言

      當(dāng)前,以互聯(lián)網(wǎng)為代表的信息技術(shù)在全球范圍得到了迅速發(fā)展和普及。據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)第40次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》[1]數(shù)據(jù)顯示:截至2017年6月,我國網(wǎng)民總數(shù)達(dá)到7.51億,互聯(lián)網(wǎng)普及率達(dá)到54.3%。其中移動互聯(lián)網(wǎng)的主導(dǎo)地位進一步加強,手機網(wǎng)民7.24億,占總網(wǎng)民數(shù)的96.3%。截止到2017年6月,我國國際出口帶寬達(dá)到7 975 Gb/s,較2016年12月增長20.1%。網(wǎng)絡(luò)用戶增多,傳輸數(shù)據(jù)流量增大,網(wǎng)絡(luò)應(yīng)用業(yè)務(wù)不斷豐富,使得網(wǎng)絡(luò)資源使用緊張,存在資源分配不均衡、利用率低等問題。

      傳統(tǒng)的互聯(lián)網(wǎng)體系架構(gòu)在最初的設(shè)計理念、方法上存在“先天性的”不足,導(dǎo)致其在網(wǎng)絡(luò)流量的管理控制、網(wǎng)絡(luò)資源的高效使用和網(wǎng)絡(luò)運行的安全性、穩(wěn)定性等方面都遇到了很多問題和挑戰(zhàn)。為了應(yīng)對這些挑戰(zhàn),產(chǎn)業(yè)界和學(xué)術(shù)界很多學(xué)者都展開了對下一代網(wǎng)絡(luò)的研究。在眾多的研究方案中,美國斯坦福大學(xué)的MCKEOWN N教授等提出的基于OpenFlow的軟件定義網(wǎng)絡(luò)(Software Defined Network,SDN)[2]被認(rèn)為是最具前途的技術(shù)之一。SDN作為一種新型的網(wǎng)絡(luò)架構(gòu)[3],很好地解決了傳統(tǒng)網(wǎng)絡(luò)把控制邏輯和數(shù)據(jù)轉(zhuǎn)發(fā)耦合在網(wǎng)絡(luò)設(shè)備上而導(dǎo)致網(wǎng)絡(luò)控制平面管理的復(fù)雜性問題,也使得網(wǎng)絡(luò)控制層面新技術(shù)的更新和發(fā)展具有更好的靈活性和擴展性。

      在基于OpenFlow協(xié)議的SDN網(wǎng)絡(luò)架構(gòu)下,數(shù)據(jù)根據(jù)流表進行轉(zhuǎn)發(fā),雖然控制器可以通過匹配IP地址、通信端口、物理地址等流表項屬性值實現(xiàn)對單個流的管理和控制,但是SDN并沒有提供一種機制來分類數(shù)據(jù)流所對應(yīng)的應(yīng)用和協(xié)議類型。因此在SDN網(wǎng)絡(luò)架構(gòu)下,流量分類仍然是實施精細(xì)化、個性化網(wǎng)絡(luò)管理的重要前提。此外由于SDN具有更強的對全局網(wǎng)絡(luò)態(tài)勢的感知能力和對全局網(wǎng)絡(luò)流量的控制能力,流量分類發(fā)揮的作用更為明顯。目前網(wǎng)絡(luò)流量分類方法主要有4種:基于端口的流量分類技術(shù)、基于深度包檢測(Deep Packet Inspection,DPI)的流量分類技術(shù)、基于流統(tǒng)計特征的機器學(xué)習(xí)(Machine Learning,ML)的流量分類和基于用戶行為特征的流量分類技術(shù)。

      1 傳統(tǒng)網(wǎng)絡(luò)架構(gòu)流量分類主要技術(shù)

      1.1 基于端口的流量分類技術(shù)

      在傳統(tǒng)的網(wǎng)絡(luò)環(huán)境下,互聯(lián)網(wǎng)數(shù)字分配機構(gòu)(IANA)對一些常用的傳輸層服務(wù)端口進行了預(yù)定義,通常在0~1 023之間。例如HTTP協(xié)議使用80端口,DNS域名服務(wù)使用53端口,F(xiàn)TP文件傳輸協(xié)議使用21端口等。此外,注冊協(xié)議主要使用1 024-49 151之間的端口,剩下的49 152-65 535端口不作特殊規(guī)定。早期,各種協(xié)議和網(wǎng)絡(luò)應(yīng)用都遵循該規(guī)則,使用的端口比較固定,因此通過端口映射的方法可以進行網(wǎng)絡(luò)流量分類。這種方法只需要進行端口匹配,因此具有簡單、快速、易于實現(xiàn)、準(zhǔn)確率高等優(yōu)點。但是隨著網(wǎng)絡(luò)應(yīng)用的發(fā)展,出于不同的目的,一部分網(wǎng)絡(luò)應(yīng)用使用了端口變換和偽裝技術(shù),使得基于端口映射的流量分類技術(shù)無法有效應(yīng)用。MADHUKAR A等[4]在實驗中證實了有30%~70%的流量都無法利用端口來進行正確分類。

      1.2 基于DPI的流量分類技術(shù)

      數(shù)據(jù)包的載荷部分含有大量信息,DPI就是利用這些信息進行分類?;贒PI流量分類技術(shù)是依據(jù)特定協(xié)議或應(yīng)用的特征碼來實現(xiàn)的,通過對網(wǎng)絡(luò)流量中的載荷數(shù)據(jù)進行特征碼匹配,來獲取流量的分類。

      基于DPI的分類技術(shù)雖然具有較高的準(zhǔn)確率,但也存在一些缺點:消耗較多的計算資源,對數(shù)據(jù)加密分類能力較弱,各類應(yīng)用特征碼提取和更新比較困難,對載荷數(shù)據(jù)的分析會帶來對用戶隱私權(quán)的侵犯。

      DPI作為一種成熟的流量分類技術(shù),在商業(yè)場合有著廣泛的應(yīng)用。目前很多學(xué)者試圖從硬件、架構(gòu)、多技術(shù)融合、數(shù)據(jù)處理方式等多個方面提高DPI技術(shù)的分類效率和速度。BUJLOW T等[5]通過建立真實標(biāo)簽的可信數(shù)據(jù)集,對流行的商業(yè)和開源DPI軟件進行測試。在提升DPI性能方面,DE SENSI D等[6]提出了一種基于FastFlow庫的DPI框架,以更好地解決DPI對多核硬件平臺的支持。付文亮等[7]基于FPGA硬件和DPI技術(shù)進行實時網(wǎng)絡(luò)流分類,取得了很好的效果。Alcock等[7]利用開源軟件庫Libprotoident,提出一種輕量級的DPI分類方案,只通過數(shù)據(jù)包載荷的前4字節(jié)進行分類,在準(zhǔn)確率和性能上相對于其他基于DPI的開源軟件庫都有很大的優(yōu)勢。GRIMAUDO L等[8]基于DPI技術(shù),采用層次化分類結(jié)構(gòu),結(jié)合多種策略,對DPI進行優(yōu)化。YEGANEH S H等[9]則采用一種加權(quán)“Term”的智能化表達(dá)式代替?zhèn)鹘y(tǒng)的正則表達(dá)式,類似Libprotoident的思想,并且只檢測一個流的前幾個字節(jié),從而提高網(wǎng)絡(luò)流分類的效率。

      1.3 基于流統(tǒng)計特征的機器學(xué)習(xí)方法

      近年來,隨著人工智能技術(shù)的發(fā)展,越來越多的研究者開始利用機器學(xué)習(xí)算法來解決流量分類問題。利用機器學(xué)習(xí)解決流量分類問題,主要有兩個部分:訓(xùn)練數(shù)據(jù)集和機器學(xué)習(xí)算法。訓(xùn)練數(shù)據(jù)集的生成首先需要利用DPI工具、系統(tǒng)進程監(jiān)控或人工的方法標(biāo)注訓(xùn)練樣本,得到樣本標(biāo)簽,然后從網(wǎng)絡(luò)流量中提取數(shù)據(jù)流的特征,最后利用訓(xùn)練集和機器學(xué)習(xí)算法得到分類器,即可用訓(xùn)練好的分類器對網(wǎng)絡(luò)流量進行分類。早在2005年,MOORE A W等人[10]提出的248維特征,就從四層協(xié)議端口號、流的包數(shù)目、包大小、包之間的時間間隔等流屬性進行特征提取,并對這些流屬性進行傅里葉變換等計算,從不同視角提取特征,從而提高特征的維度和層次。文獻(xiàn)[11]對包級別和流級別兩種不同粒度的特征進行融合,提出載荷和流統(tǒng)計信息相結(jié)合的流特征屬性,從而提高流分類的精度。

      基于流統(tǒng)計特征的機器學(xué)習(xí)的流量分類方法主要有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)兩種。

      (1)有監(jiān)督機器學(xué)習(xí)算法

      有監(jiān)督機器學(xué)習(xí)算法在各個領(lǐng)域都有廣泛應(yīng)用,研究者們也將各種機器學(xué)習(xí)算法運用到流量分類中。ESTE A等[12]采用SVM對互聯(lián)網(wǎng)TCP流量進行分類,共使用了3個數(shù)據(jù)集進行實驗,獲得了相當(dāng)高的精度。近年來,為提高大規(guī)模網(wǎng)絡(luò)流的分類效率,也有學(xué)者基于Hadoop、Spark分布式平臺提高SVM的處理性能[13-14]。文獻(xiàn)[15-16]使用C5.0決策樹對流量進行分類,并且都是通過系統(tǒng)守護進程監(jiān)視數(shù)據(jù)包與應(yīng)用程序之間的聯(lián)系,產(chǎn)生真實應(yīng)用標(biāo)簽來產(chǎn)生數(shù)據(jù)集,取得了很好的分類效果。文獻(xiàn)[17-18]將神經(jīng)網(wǎng)絡(luò)算法用與網(wǎng)絡(luò)流分類,對各種神經(jīng)網(wǎng)絡(luò)進行了算法改進和架構(gòu)改進,取得了很好的效果。

      (2)無監(jiān)督機器學(xué)習(xí)算法

      無監(jiān)督機器學(xué)習(xí)主要使用聚類分析方法,與有監(jiān)督的機器學(xué)習(xí)算法不同,在無監(jiān)督機器學(xué)習(xí)中,訓(xùn)練樣本無需標(biāo)注。文獻(xiàn)[19]使用高斯混合模型(GMM)利用數(shù)據(jù)包大小和方向進行加密流量的分類。ZANDER S等[20]提出了基于AutoClass的無監(jiān)督網(wǎng)絡(luò)流量分類方法,是一種基于期望最大化(Expectation maximization,EM)算法的無監(jiān)督貝葉斯分類器。文獻(xiàn)[21-22]都將無監(jiān)督的機器學(xué)習(xí)算法用與流量分類領(lǐng)域,此類算法為處理未知流量提供了很好的解決思路。

      1.4 基于用戶行為特征的流量分類技術(shù)

      隨著流特征加密技術(shù)的涌現(xiàn),給基于流統(tǒng)計特征進行流量分類帶來了一定的局限性。近年來,研究人員開始利用主機不同的通信行為模式進行網(wǎng)絡(luò)流量分類。文獻(xiàn)[23-24]提出了利用用戶連接模式、連接圖、網(wǎng)絡(luò)連接直徑等主機行為特征,對網(wǎng)絡(luò)流量進行分析,開辟了分析網(wǎng)絡(luò)流量分類的新方法?;谛袨樘卣鞯牧髁糠诸惣夹g(shù)主要通過分析網(wǎng)絡(luò)協(xié)議和應(yīng)用的連接特性和行為模式上的固有特性,達(dá)到對不同流量進行分類的目的。這種方法通常建模時間較長,時空復(fù)雜度高,應(yīng)用有一定的局限性。

      1.5 網(wǎng)絡(luò)流量分類技術(shù)優(yōu)缺點比較

      表1對當(dāng)前主流的網(wǎng)絡(luò)流量分類技術(shù)的種類和各自特點和存在的缺點進行了比較,以便在實際工程應(yīng)用中根據(jù)不同需求選擇合適的技術(shù)方案。

      表1 主要網(wǎng)絡(luò)流量分類技術(shù)分類表

      2 未來網(wǎng)絡(luò)SDN架構(gòu)下的流量分類

      SDN對控制層面的集中,強化了對流量實施統(tǒng)一控制和管理的能力。基于SDN的流量分類對于進一步拓展網(wǎng)絡(luò)的功能,實現(xiàn)網(wǎng)絡(luò)流量的精細(xì)化管理和精準(zhǔn)控制具有十分重要的意義,也得到了廣大學(xué)者的關(guān)注。在基于OpenFlow的SDN環(huán)境下,文獻(xiàn)[25]通過前N個數(shù)據(jù)包長度、源目的IP、端口信息作為流特征,將C5.0決策樹算法運用到SDN上進行流量分類,但未能解決數(shù)據(jù)流隨時間發(fā)生變化的問題。文獻(xiàn)[26]通過采樣技術(shù),利用OpenFlow的本地計數(shù)器實現(xiàn)流統(tǒng)計特征采集,但此方法采集流特征的實時性不強,限制了在流早期分類場景下的應(yīng)用。文獻(xiàn)[27]則利用DPI的方法來分類YouTube視頻流進行分類,并通過QoS預(yù)留帶寬。文獻(xiàn)[28]設(shè)計了一個基于DPI和機器學(xué)習(xí)算法的混合流量分類器,但未考慮數(shù)據(jù)流隨時間發(fā)生變化的問題。

      2.1 SDN環(huán)境下的流量分類和控制的特點

      無論是在傳統(tǒng)網(wǎng)絡(luò)環(huán)境下還是在SDN網(wǎng)絡(luò)環(huán)境下,流量分類的對象一直是網(wǎng)絡(luò)流量本身,這一點始終沒有發(fā)生變化,因此能夠適用于傳統(tǒng)網(wǎng)絡(luò)下的流量分類技術(shù)、方法都可以用在SDN網(wǎng)絡(luò)環(huán)境下,但是作為新一代網(wǎng)絡(luò)的SDN,在體系結(jié)構(gòu),運行方式等方面都發(fā)生了很大的變化,因此基于SDN的流量分類在流量采集方式、流量特征提取、流量的控制管理等方面都發(fā)生了新的變化。

      在SDN網(wǎng)絡(luò)環(huán)境中,控制層面邏輯業(yè)務(wù)的集中,使控制器對流量的控制能力大大加強,通過流表項就可以實現(xiàn)數(shù)據(jù)報文的轉(zhuǎn)發(fā)、丟棄和進入隊列操作,其中進入隊列操作就可以實現(xiàn)QoS功能。因此,如果能在流量建立的早期階段就能通過流量分類來感知流量業(yè)務(wù)類型,并根據(jù)業(yè)務(wù)需求進行相應(yīng)的控制,就能在控制器完成流量采集、特征提取、流量分類和流量控制整個閉合的流量控制過程,從而極大地提高流量分類在SDN網(wǎng)絡(luò)環(huán)境下的應(yīng)用價值。

      2.1.1流量獲取方式

      在傳統(tǒng)網(wǎng)絡(luò)環(huán)境中,流量的獲取方式通常有兩個步驟:一是通過端口鏡像或者分光器等手段引出所關(guān)注的流量;二是通過流量捕獲設(shè)備獲得流量數(shù)據(jù)并進行處理。流量捕獲設(shè)備大多是基于Libpcap的包捕獲機制,通過安裝數(shù)據(jù)包捕獲函數(shù)庫(Library of Packet Capture,Libpcap)來實現(xiàn)。這種流量獲取方式缺乏對數(shù)據(jù)進行有效的過濾,只能全盤接收鏡像的所有流量,由于總帶寬受端口速率的限制,在高帶寬、大流量的場景下不可避免地存在丟包現(xiàn)象。

      在基于OpenFlow的SDN網(wǎng)絡(luò)環(huán)境下,數(shù)據(jù)以流為單位進行轉(zhuǎn)發(fā),當(dāng)數(shù)據(jù)進入交換機時,會根據(jù)匹配的流表項中規(guī)定的動作對數(shù)據(jù)包進行操作,若未匹配到流表項,則會將數(shù)據(jù)包以Packet_in的消息形式轉(zhuǎn)發(fā)到控制器,經(jīng)過控制器決策后,決定該數(shù)據(jù)包的操作并下發(fā)該流的流表項,更新交換機流表。由此可知,數(shù)據(jù)流開始的第一個數(shù)據(jù)包會被轉(zhuǎn)發(fā)到控制器中,后面的數(shù)據(jù)會根據(jù)控制器下發(fā)的流表項進行操作,如果控制器在下發(fā)的流表項的動作字段增加轉(zhuǎn)發(fā)到控制器,那么該流的后續(xù)數(shù)據(jù)包都會發(fā)送到控制器中,從而實現(xiàn)了網(wǎng)絡(luò)流量的采集。

      但是,將所有數(shù)據(jù)轉(zhuǎn)發(fā)到控制器并不是OpenFlow協(xié)議設(shè)計的初衷,因為這樣會使控制器處理開銷大大增加而不堪重負(fù),特別是在網(wǎng)絡(luò)流量大的網(wǎng)絡(luò)節(jié)點上,很容易因為控制器的崩潰而導(dǎo)致網(wǎng)絡(luò)癱瘓。如果只將網(wǎng)絡(luò)流的前幾個數(shù)據(jù)包轉(zhuǎn)發(fā)到控制器,這樣發(fā)送到控制器的流量將大大減少,在流量分類這個應(yīng)用場景下,這就要求控制器在只分析流的開始前N個數(shù)據(jù)包情況下,能夠完成流的分類工作,這也決定了SDN網(wǎng)絡(luò)環(huán)境下更適合進行流量的早期分類。

      2.1.2流統(tǒng)計特征提取

      在傳統(tǒng)網(wǎng)絡(luò)環(huán)境中,數(shù)據(jù)流統(tǒng)計特征提取只有一種途徑,那就是先獲取流量,然后將流量按流進行重組、排序,再對流中的每一個數(shù)據(jù)包進行統(tǒng)計,從而得到流的統(tǒng)計信息。從上一節(jié)分析可知,在SDN控制器也可以通過這種方法得到流的統(tǒng)計信息,但是這種方法在流量大的場景下會極大地消耗控制器資源直至崩潰,因此用這種方法來提取數(shù)據(jù)流特征只適合轉(zhuǎn)發(fā)數(shù)據(jù)包數(shù)量不多的場景,比如流量的早期分類。在OpenFlow交換機流表中針對每個流表、流表項和每個交換機端口都有一組計數(shù)器。其中基于流的計數(shù)器有接收的數(shù)據(jù)包數(shù)、接收的字節(jié)數(shù)、秒級持續(xù)時間和納秒級持續(xù)時間。借助OpenFlow的Read-State消息,通過周期性地讀取這些計數(shù)器信息,然后利用這些采樣值,為提取數(shù)據(jù)流的統(tǒng)計信息提供了新的方法[26]。

      假設(shè)以周期性C對SDN交換機的流本地計數(shù)器信息進行n次采樣,得到n個流接收的字節(jié)數(shù)計數(shù)器數(shù)據(jù)記為B={b(1),b(2),…,b(n)},則第t個周期內(nèi)流接收到的字節(jié)數(shù)為:

      B(t)=b(t)-b(t-1)

      (1)

      得到n個流接收的數(shù)據(jù)包數(shù)計數(shù)器記為P={p(1),p(2),…,p(n)},則第t個周期內(nèi)接收到的數(shù)據(jù)包數(shù)為:

      P(t)=p(t)-p(t-1)

      (2)

      則第t個周期內(nèi)平均數(shù)據(jù)包大小為:

      (3)

      該第t個周期內(nèi)平均包到達(dá)時間間隔為:

      (4)

      以S(t)、T(t)作為基本量,進一步計算它們的均值和方差,可以得到S(t)的均值和方差為:

      (5)

      (6)

      可以得到T(t)的均值和方差為:

      (7)

      (8)

      根據(jù)MOORE AW等人[10]的研究,對包時間間隔進行離散傅里葉變換(Discrete Fourier Transform,DFT)可以得到在頻域上的一系列分量,這些分量作為流特征從一定程度上刻畫數(shù)據(jù)流在頻域內(nèi)的變化情況。式(9)是對包時間間隔進行DFT的計算公式。

      (9)

      通過以上采樣數(shù)據(jù)計算,可以得到一系列關(guān)于流的統(tǒng)計特征。由于這些統(tǒng)計特征是依據(jù)采樣數(shù)據(jù)計算的,因此采樣周期C影響著統(tǒng)計數(shù)據(jù)與真實值之間的差異,同時,控制器發(fā)送Read-State消息對計數(shù)器進行采樣的頻率也極大地影響控制器的性能。因此周期C的選擇要綜合考慮統(tǒng)計數(shù)據(jù)的準(zhǔn)確性和控制器性能之間的平衡,在取得可接受的數(shù)據(jù)準(zhǔn)確性的同時盡量減少對控制器的影響。

      3 網(wǎng)絡(luò)流量分類領(lǐng)域主要面臨的挑戰(zhàn)

      3.1 數(shù)據(jù)集的可信標(biāo)注

      無論是用于訓(xùn)練機器學(xué)習(xí)算法分類器的訓(xùn)練數(shù)據(jù)集,還是作為評價各種分類器性能的測試數(shù)據(jù)集,對數(shù)據(jù)集進行可信標(biāo)注都是不可或缺的,但仍然是一個尚未解決的問題。目前對網(wǎng)絡(luò)數(shù)據(jù)集的標(biāo)注一般采用兩種方法,即生成法和經(jīng)驗法。經(jīng)驗法是通過捕獲網(wǎng)絡(luò)數(shù)據(jù)包,并利用已有經(jīng)驗,對數(shù)據(jù)進行標(biāo)注。很多研究者通過DPI工具L7-filter或nDPI等對數(shù)據(jù)包進行標(biāo)注,就是運用了經(jīng)驗法。生成法是在一個受控環(huán)境或?qū)嶒灜h(huán)境中部署目標(biāo)應(yīng)用,模擬各種運行模式,運行生成的日志即標(biāo)注為目標(biāo)運用。如可信標(biāo)注工具GT(Ground Truth),文獻(xiàn)[16]中提到的VBS系統(tǒng)和文獻(xiàn)[29]中運行在移動設(shè)備端的守護進程,都是通過監(jiān)測網(wǎng)絡(luò)套接字的變化狀態(tài)來收集數(shù)據(jù)流對應(yīng)的應(yīng)用,進行可信標(biāo)注。相比于經(jīng)驗法,生成法難以真實反映真實的網(wǎng)絡(luò)環(huán)境,但是其環(huán)境可控,標(biāo)注可信,工作量也相對較少,已經(jīng)越來越得到研究者的認(rèn)可。

      3.2 大規(guī)模實時分類的挑戰(zhàn)

      在線流量分類不同于離線流量分類,特別是高速網(wǎng)絡(luò)環(huán)境下的在線流量分類,對特征提取速度和分類器效率提出了很高的要求,在線流量分類從工程實際角度出發(fā),在數(shù)據(jù)流建立初期就進行分類,為后續(xù)的服務(wù)質(zhì)量管理和流量安全管理提供了先決條件,在線流量分類的重要性不言而喻,從而吸引了大量學(xué)者進行研究。

      在流量的早期分類方面,ACETO G等[30]利用網(wǎng)絡(luò)流的第一個報文的載荷數(shù)據(jù)來進行在線流量分類。BERNAILLE L等[31]利用網(wǎng)絡(luò)流建立初始階段的前n個數(shù)據(jù)包的大小和方向作為流特征,取得了較好的分類效果。彭建芬等[32]發(fā)現(xiàn)在網(wǎng)絡(luò)流建立初始階段的前幾個報文在大小、方向等特征上能夠提取流特征,用于在線流量分類。這些研究說明了通過流的早期部分?jǐn)?shù)據(jù)包進行流分類是可行的,提供了理論依據(jù)。在具體實現(xiàn)方面,文獻(xiàn)[33-34]從提升網(wǎng)絡(luò)流量處理性能角度對網(wǎng)絡(luò)流量的在線分類工作進行改進,以提高在線分類速度和效能。

      實時性的要求包含兩個方面:快速的線上檢測、快速的模型更新。但由于網(wǎng)絡(luò)規(guī)模的日益增大,用戶規(guī)模的不斷增長,傳統(tǒng)的機器學(xué)習(xí)方法在處理大規(guī)模網(wǎng)絡(luò)流量分類問題時,其分類準(zhǔn)確率與模型訓(xùn)練速率等通常難以取得平衡。僅靠使用更多的計算資源,無法滿足現(xiàn)實的發(fā)展,需要從算法方面進行革新。

      3.3 網(wǎng)絡(luò)流量快速演化的挑戰(zhàn)

      網(wǎng)絡(luò)流量數(shù)據(jù)最突出的特點就是其隨時間快速演化,存在概念漂移的現(xiàn)象,并且不同地域、不同網(wǎng)絡(luò)環(huán)境的協(xié)議類型的分布也不一致?,F(xiàn)有方法缺乏對數(shù)據(jù)流中概念漂移的深入研究。一方面,網(wǎng)絡(luò)數(shù)據(jù)流的演化特性,使其不能按照靜態(tài)數(shù)據(jù)的傳統(tǒng)方式多次反復(fù)讀取,并且需要對于增量數(shù)據(jù)能夠快速有效地更新模型。另一方面,還需要將不同地域、不同環(huán)境的網(wǎng)絡(luò)流量統(tǒng)一處理,以獲得良好的泛化能力。

      4 結(jié)語

      在移動互聯(lián)網(wǎng)、大數(shù)據(jù)、云計算等新事物新技術(shù)不斷發(fā)展的今天,流量分類出現(xiàn)了很多新情況,面臨眾多新的挑戰(zhàn)。

      一是面對海量數(shù)據(jù),傳統(tǒng)的單機處理模式已經(jīng)很難滿足計算要求,在這種情況下,利用Hadoop、Spark等并行處理技術(shù)和集群計算模式來處理實時網(wǎng)絡(luò)流已經(jīng)成為一種趨勢,得到很多學(xué)者的關(guān)注。

      二是在線學(xué)習(xí)是近年來廣泛使用的一種解決大規(guī)模機器學(xué)習(xí)問題的方法。將在線學(xué)習(xí)算法用于實時流量分類也是當(dāng)前研究的一個方向。但是一般意義上的在線學(xué)習(xí)算法在使用中并不區(qū)分訓(xùn)練階段與測試階段,模型在對樣本進行預(yù)測后,通過接收正確的樣本類別來決定是否更新模型。而網(wǎng)絡(luò)流量分類問題中,模型在對樣本進行預(yù)測后無法接收真實的樣本類別。這就導(dǎo)致了在網(wǎng)絡(luò)流量分類應(yīng)用中,在線學(xué)習(xí)算法僅能運用于模型的離線訓(xùn)練階段,無法實現(xiàn)模型的實時更新,使用在線算法的優(yōu)點是能大大縮短模型離線訓(xùn)練所需要的時間,以實現(xiàn)模型的快速更新。

      三是未來網(wǎng)絡(luò)SDN控制層面的集中,對大型網(wǎng)絡(luò)的集中管控和統(tǒng)一策略具有很大的實用價值,特別是對于大規(guī)模網(wǎng)絡(luò)環(huán)境,其運行機制的復(fù)雜度會大大增加,因此大規(guī)模復(fù)雜的SDN環(huán)境的流量分類問題值得進一步研究。

      [1] 中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC). 第40次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》.(2017-08-04) http://cnnic.cn/gywm/xwzx/rdxw/201708/t20170804_69449.htm.

      [2] MCKEOWN N. Software-defined networking[J]. INFOCOM Keynote Talk, 2009.

      [3] FEAMSTER N, REXFORD J, ZEGURD E. The road to SDN: an intellectual history of programmable networks[J]. ACM SIGCOMM Computer Communication Review, 2014, 44(2): 87-98.

      [4] MADHUKAR A, WILLIAMSON C. A longitudinal study of P2P traffic classification[C]//14th IEEE International Symposium on Modeling, Analysis, and Simulation. IEEE, 2006: 179-188.

      [6] DE SENSI D, DANELUTTO M, DERI L. DPI over commodity hardware: implementation of a scalable framework using fastflow[D]. University of Pisa, 2013.

      [7] 付文亮, 嵩天, 周舟. RocketTC: 一個基于 FPGA 的高性能網(wǎng)絡(luò)流量分類架構(gòu)[J]. 計算機學(xué)報, 2014, 37(2): 414-422.

      [8] GRIMAUDO L, MELLIA M, BARALIS E. Hierarchical Learning for Fine Grained Internet Traffic Classification[C]//2012 8th International Wireless Communications and Mobile Computing Conference (IWCMC). IEEE, 2012: 463-468.

      [9] YEGANEH S H, EFTEKHAR M, GANJALI Y,et al. CUTE: Traffic Classification Using Terms[C]//2012 21st International Conference on Computer Communications and Networks (ICCCN). IEEE, 2012: 1-9.

      [10] MOOREA W, ZUEV D. Internet Traffic Classification Using Bayesian Analysis Techniques[C]//ACM SIGMETRICS Performance Evaluation Review. ACM, 2005, 33(1): 50-60.

      [11] HJELMVIK E, JOHN W. Breaking and improving protocol obfuscation[R]. Chalmers University of Technology, 2010.

      [12] ESTE A,GRINGOLI F, SALGARELLI L. Support vector machines for TCP traffic classification[J]. Computer Networks, 2009, 53(14): 2476-2490.

      [13] D′ALESSANDRO V, PARK B, ROMANO L, et al. Scalable network traffic classification using distributed support vector machines[C]//2015 IEEE 8th International Conference on Cloud Computing. IEEE, 2015: 1008-1012.

      [14] 劉澤燊, 潘志松. 基于 Spark 的大規(guī)模網(wǎng)絡(luò)流量分類研究[J]. 計算機時代, 2016 (4): 1-5.

      [15] BUJLOW T, RIAZ T, PEDERSEN J M. Classification of HTTP Traffic Based on C5.0 Machine Learning Algorithm[C]// Computers and Communications (ISCC). IEEE, 2012: 882-887.

      [16] QAZI Z A, LEE J, JIN T, et al. Application-awareness in SDN[J]. ACM SIGCOMM Computer Communication Review, 2013, 43(4): 487-488.

      [17] AKILANDESWARI V, SHALINIE S M. Probabilistic neural network based attack traffic classification[C]//2012 Fourth International Conference on Advanced Computing (ICoAC). IEEE, 2012: 1-8.

      [18] SINGH K,AGRAWAL S. Internet traffic classification using RBF neural network[C]//International Conference on Communication and Computing Technologies (ICCCT-2011), Jalandhar, India, 2011: 39-43.

      [19] BERNAILLE L, TEIXEIRA R. Early recognition of encrypted applications[C]//International Conference on Passive and Active Network Measurement. Springer Berlin Heidelberg, 2007: 165-175.

      [20] ZANDER S, NGUYEN T,ARMITAGE G. Automated traffic classification and application identification using machine learning[C]//The IEEE Conference on Local Computer Networks 30th Anniversary (LCN'05) l. IEEE, 2005: 250-257.

      [21] YANG C, WANG F, HUANG B. Internet traffic classification usingdbscan[C]// Information Engineering, 2009. ICIE'09. IEEE, 2009, 2: 163-166.

      [22] FINAMORE A, MELLIA M, MEO M. Mining Unclassified Traffic Using Automatic Clustering Techniques[C]// International Conference on Traffic Monitoring and Analysis. Springer-Verlag, 2011:150-163.

      [23] CONSTANTINOU F, MAVROMMATIS P. Identifying known and unknown peer-to-peer traffic[C]//Fifth IEEE International Symposium on Network Computing and Applications (NCA'06). IEEE, 2006: 93-102.

      [24] 張震, 汪斌強, 陳鴻昶, 等. 互聯(lián)網(wǎng)中基于用戶連接圖的流量分類機制[J]. 電子與信息學(xué)報, 2013, 35(4): 958-964.

      [25] QAZI Z A, LEE J, JIN T, et al. Application-awareness in SDN[J]. ACM SIGCOMM Computer Communication Review, 2013, 43(4): 487-488.

      [26] DA SILVA A S, MACHADO CC, BISOL R V, et al. Identification and selection of flow features for accurate traffic classification in SDN[C]// Network Computing and Applications (NCA). IEEE, 2015: 134-141.

      [27] JARSCHEL M, WAMSER F, HOHN T, et al. SDN-based application-aware networking on the example of youtube video streaming[C]//2013 Second European Workshop on Software Defined Networks. IEEE, 2013: 87-92.

      [28] LI Y, LI J.MultiClassifier: A combination of DPI and ML for application-layer classification in SDN[C]// Systems and Informatics (ICSAI). IEEE, 2014: 682-686.

      [29] Volunteer-Based System for Research on the Internet, 2012. [Online]. Available:http://vbsi.sourceforge.net/.

      [30] ACETO G, DAINOTTI A, DE DONATO W, et al. PortLoad: taking the best of two worlds in traffic classification[C]//INFOCOM IEEE Conference on Computer Communications Workshops, 2010. IEEE, 2010: 1-5.

      [31] BERNAILLE L, TEIXEIRA R, SALAMATIAN K. Early application identification[C]//Proceedings of the 2006 ACM CoNEXT conference. ACM, 2006(6): 1-12.

      [32] 彭建芬, 周亞建, 王樅, 等. TCP 流量早期分類方法[J]. 應(yīng)用科學(xué)學(xué)報, 2011, 29(1): 73-77.

      [33] ALSABAH M, BAUER K, GOLDBERG I. Enhancing Tor's Performance Using Real-time Traffic Classification[C]//Proceedings of The 2012 ACM Conference on Computer and Communications Security. ACM, 2012: 73-84.

      [34] SZAB? G, G?DOR I, VERES A, et al. Traffic classification over Gbit speed with commodity hardware[J]. IEEE Journal of Communications Software and Systems, 2010, 5(3): 93-100.

      猜你喜歡
      網(wǎng)絡(luò)流量數(shù)據(jù)包端口
      基于多元高斯分布的網(wǎng)絡(luò)流量異常識別方法
      一種端口故障的解決方案
      基于神經(jīng)網(wǎng)絡(luò)的P2P流量識別方法
      SmartSniff
      AVB網(wǎng)絡(luò)流量整形幀模型端到端延遲計算
      端口阻塞與優(yōu)先級
      初識電腦端口
      電腦迷(2015年6期)2015-05-30 08:52:42
      生成樹協(xié)議實例探討
      基于Libpcap的網(wǎng)絡(luò)數(shù)據(jù)包捕獲器的設(shè)計與實現(xiàn)
      網(wǎng)絡(luò)流量監(jiān)控對網(wǎng)絡(luò)安全治理的重要性
      河南科技(2014年23期)2014-02-27 14:18:43
      旬邑县| 东港市| 佛学| 古丈县| 杭锦旗| 砚山县| 唐山市| 喀喇沁旗| 南木林县| 桃园市| 中宁县| 张家港市| 渝中区| 阿克| 宁城县| 鞍山市| 禹州市| 梧州市| 迭部县| 德惠市| 梅州市| 思南县| 甘洛县| 澄江县| 丰原市| 临潭县| 晋州市| 伊吾县| 兴海县| 城固县| 古蔺县| 麻江县| 沅陵县| 祁门县| 天祝| 大余县| 扎赉特旗| 怀来县| 田阳县| 黄山市| 湖北省|