盧燦舉
(電子工程學院,安徽 合肥 230037)
基于網(wǎng)絡流量的特征分析
盧燦舉
(電子工程學院,安徽合肥230037)
網(wǎng)絡流量在互聯(lián)網(wǎng)發(fā)展不斷深化的背景下表現(xiàn)出了極為重要的意義,也是對網(wǎng)絡體系進行切入理解的重要渠道,還是設計、規(guī)劃和管理網(wǎng)絡的直接憑據(jù)。在多尺度下對網(wǎng)絡流量的特征進行了針對性探究,以期對相關(guān)工作起到一定參考作用。
網(wǎng)絡流量;多尺度;特征
網(wǎng)絡流量特征分析具有重要價值,是多項工作的支撐基礎(chǔ)。從不同的尺度條件下對網(wǎng)絡流量進行分析,都能發(fā)現(xiàn)其還存在一定缺陷,對相關(guān)工作存在一定制約。因此,需要對相關(guān)的分析工作進行革新,可以通過多階段應用層流量在線識別、Hurst指數(shù)疊加效應以及大尺度流量動態(tài)特征等渠道對網(wǎng)絡流量從不同的尺度展開分析研究。只有依靠合理的手段,才能明確網(wǎng)絡流量的基本特征,進而完善相關(guān)工作。
由于網(wǎng)絡系統(tǒng)的設計和網(wǎng)絡流量的特征具有直接關(guān)聯(lián),那么對網(wǎng)絡流量進行研究,其實質(zhì)也是對網(wǎng)絡系統(tǒng)構(gòu)建的研究。但是,由于網(wǎng)絡系統(tǒng)存在一定區(qū)別,在不同尺度下有著不同的要求和限制,這也就要求相關(guān)的研究工作應該在多尺度的環(huán)境中進行,從不同的角度對網(wǎng)絡流量的特征進行研究,具有不同的作用。
研究網(wǎng)絡流量,首先需要明確測量尺度的定義,由于流量特征研究的直接對象是數(shù)據(jù)包,那么其對應的測量尺度應該從數(shù)據(jù)包的層面進行制定。通過相關(guān)研究顯示,數(shù)據(jù)包可以通過不同的表現(xiàn)形式達到序列,因此可以通過兩種形式對網(wǎng)絡特征分析的尺度進行界定,一種是數(shù)據(jù)包的個數(shù),一般可以記為#pkt,另一種是數(shù)據(jù)包之間的時間間隔,一般記為#time。如果尺度標準是#pkt,在對連續(xù)的s個數(shù)據(jù)包進行匯聚之后,可以得到一個全新的序列,s就是相應的測量尺度。如果將時間間隔作為尺度標準,在固定的間隔t內(nèi)可以獲取一定的匯聚數(shù)據(jù)包,進而得到相關(guān)的新序列,這時t就是對應的尺度標準。
在小尺度條件下,對于全新的應用層業(yè)務,網(wǎng)絡流量的特征分析時比較缺少的。尤其是相關(guān)研究證明在比較寬的時間尺度范圍內(nèi)網(wǎng)絡流量特征具有很高的相似性之后,對小尺度下的網(wǎng)絡流量特征研究就逐漸縮減了。但是,根據(jù)網(wǎng)絡流量在網(wǎng)絡設計不斷發(fā)展中所表現(xiàn)出的實際情況看,在小尺度條件下對網(wǎng)絡流量進行研究其實更具價值。
在大尺度條件下,網(wǎng)絡流量的研究工作開展較多,但是結(jié)合網(wǎng)絡發(fā)展的速度和規(guī)模而言,大尺度條件下的網(wǎng)絡流量研究尚顯不夠,研究內(nèi)容也不全面。在網(wǎng)絡應用不斷復雜化的情況下,大尺度條件的網(wǎng)絡流量特征研究遭遇了更多的阻礙,更加難以得出具有代表性的研究結(jié)論,無法統(tǒng)一具體的研究成果。比如,高速鏈路的研究成果在低速鏈路中不一定適合,大規(guī)模網(wǎng)絡的經(jīng)驗理論也未必符合小規(guī)模網(wǎng)絡的實情,企業(yè)網(wǎng)的結(jié)論也不一定符合校園網(wǎng)。因此,需要在多尺度下對網(wǎng)絡流量的特征展開更加全面的研究,以促進各方面的研究工作。
2.1多階段應用層流量識別
各種新業(yè)務的出現(xiàn)對網(wǎng)絡的發(fā)展起到了積極的促進作用,也對網(wǎng)絡流量的變化和構(gòu)成產(chǎn)生了不小的沖擊。在多階段應用層進行流量識別,其主要包括了4種技術(shù)手段,分別是靜態(tài)端口識別、數(shù)據(jù)包載荷識別、主機連接識別以及統(tǒng)計模型流量識別。
靜態(tài)端口識別主要是對發(fā)生數(shù)據(jù)傳輸通信的雙方進行流量識別,如果發(fā)生通信的兩方是通過缺省端口進行的,那么就可以認為其使用了應用連接,其對應的流量就是該應用的流量。
數(shù)據(jù)包載荷識別主要是對存在于數(shù)據(jù)包中的特殊字符串進行判定,以此識別對應的P2P(Peer to Peer)對等網(wǎng)絡流量。在特殊字符串和P2P應用的某些特征能夠形成匹配時,就可以判定該數(shù)據(jù)包是通過P2P應用形成的,其對應的連接也可以被認定為P2P連接。常用的P2P協(xié)議特殊字符串主要有5種,分別是BitTorrent,Kazaa,DirectConnect,eDonkey以及Gnutella等?;谶@5種常用的字符串形式,就可以對數(shù)據(jù)包載荷中的大部分特殊字符串進行識別,從而判定其性質(zhì)。
主機連接識別主要是對流關(guān)系進行分析,以此對主機連接所表征出的具體協(xié)議類型進行判定?;赑2P應用的連接特點,主機連接識別被提出了兩種啟發(fā)方式,進而實現(xiàn)從3個層面對網(wǎng)絡流量進行深度識別,即從應用層次、功能層次和社會層次這3個方面識別網(wǎng)絡流量的具體特征。
統(tǒng)計模型流量識別是在Bayes理論基礎(chǔ)上提出的,但是這種方法目前僅僅用在分類研究上,還沒有在實際網(wǎng)絡的監(jiān)測工作中進行應用。根據(jù)相關(guān)實踐證明,統(tǒng)計模型流量識別可以準確得到流級66%,字節(jié)級84%的準確度。如果對網(wǎng)絡流量的屬性進行預先處理,對部分低區(qū)分度的屬性進行剔除,那么可以進一步將準確度提升到93%以上。值得注意的是,運用該方法時應該注意兩個基本點,一是區(qū)分度之間必須具有良好的獨立性,二是應該具有一個較大的trace數(shù)據(jù)。
2.2小尺度下的Hurst指數(shù)疊加效應
在小尺度下對網(wǎng)絡流量特征的研究,很長一段時間都處于空白狀態(tài),因此,需要加強小尺度下的網(wǎng)絡流量特征分析,以便對不同應用層業(yè)務所產(chǎn)生的流量進行辨識。Hurst指數(shù)疊加效應就是在小尺度條件下研究網(wǎng)絡流量特征的一種有效手段,其相關(guān)概念提出于20世紀60年代,具體內(nèi)涵為在空間或者時間尺度上,對隨機過程進行縮放,某些過程不會產(chǎn)生變化,其表現(xiàn)出了長相關(guān)的特點。從客觀角度看,并不存在嚴格意義上的自相似,但是在通信領(lǐng)域?qū)ψ韵嗨拼嬖诙喾N不同的定義,這些定義在不同場合所表征的結(jié)果是不一樣的。利用Hurst指數(shù)對網(wǎng)絡流量特征進行分析,需要明確其基本的估計方式,嚴格說來,自相似是一種屬于主觀世界的產(chǎn)物,對客觀世界的規(guī)律和認知不存在較大意義。所以,雖然Hurst指數(shù)具有數(shù)學上的定義和實際形式,但是想要通過它辨識網(wǎng)絡流量的特征還具有一定的困難?;贖urst指數(shù)的網(wǎng)絡流量特征分析手段可以分為3種,一是時域分析,二是頻域分析,三是小波域分析。
而對于Hurst指數(shù)估計手段的準確性和實用性,還需通過一定的手段進行驗證,比如隨機序列、模型自相似序列以及被破壞的自相似序列等。隨機序列的基礎(chǔ)是短相關(guān),其對應的估計值為0.5,通過泊松分布、幾何分布、指數(shù)分布等手段進行考察,明確估計手段的適用性。模型化自相似序列主要包括了分形高斯噪聲(Fractal Gauss Noise,F(xiàn)GN),分數(shù)布朗運動(Fractional Brownian Motion,F(xiàn)BM)和自相似分模(Fractional Auto Regressive Integrated Moving,F(xiàn)ARIM)等模型,其都屬于長相關(guān),具有對應的Hurst指數(shù)。其中FGN過程平穩(wěn),且長相關(guān)。FBM過程非平穩(wěn),屬于自相似。被破壞的自相似序列是進行短相關(guān)加噪處理和周期化處理,這是因為網(wǎng)絡流量表現(xiàn)出了短相關(guān)和周期性的特點,據(jù)此通過破壞性的自相似序列對Hurst指數(shù)的準確性和實用性進行判定。
2.3大尺度條件下的網(wǎng)絡流量特征
雖然大尺度條件下的網(wǎng)絡流量特征研究工作展開較多,但是一直存在不全面的問題,部分研究也不夠深入,因此,必須在大尺度環(huán)境下加強對網(wǎng)絡流量特征的分析,以便促進相關(guān)工作。在大尺度環(huán)境下,網(wǎng)絡流量表現(xiàn)出了一些具體的特征,比如普遍存在非對稱性、出入境差異性、流量速率變化以及數(shù)據(jù)包大小等。
普遍存在非對稱性的結(jié)論是在相關(guān)研究結(jié)果的基礎(chǔ)上得出的,其具體表現(xiàn)在以下幾個方面。一是數(shù)據(jù)包和字節(jié)在出入境方向上存在變化和分布不對稱的特征,二是數(shù)據(jù)包的大小也表現(xiàn)出不對稱的特點。這兩個方面的不對稱性,直接導致網(wǎng)絡流量整體表現(xiàn)出不對稱性。但是其并非完全不對稱,也存在極少數(shù)對稱的情況,因此只能判定其不對稱性是普遍存在,而非絕對存在。
相對平穩(wěn)區(qū)拉長是網(wǎng)絡流量在大尺度環(huán)境下表現(xiàn)出的另一個特點,其相關(guān)協(xié)議在出入境方向上可以對比特率和數(shù)據(jù)包速率的變化趨勢通過曲線表示出來,根據(jù)相關(guān)研究表明,雖然比特率和數(shù)據(jù)包速率在某種程度上表現(xiàn)出了整體相似的流量變化規(guī)律,但是出境方向卻是明顯小于入境方向的。不僅如此,在不同方向上還表現(xiàn)出了極為突出的特性趨勢,即網(wǎng)絡流量的變化情況每天基本上處于相同的情況,用戶數(shù)據(jù)報協(xié)議(User Datagram Protocol,UDP)和傳輸控制協(xié)議(Transmission Control Protocol,TCP)也存在較為明顯的天特性。
對網(wǎng)絡流量的特征進行研究,可以在網(wǎng)絡發(fā)展中起到重要的推動效果。但是,當前的網(wǎng)絡流量特征研究在不少方面都存在一定缺陷。因此,需要結(jié)合實際,從多階段、小尺度和大尺度等方面對網(wǎng)絡流量的特征作出深入分析,以便促進相關(guān)工作發(fā)展。
[1]陽愛民,周詠梅,鄧河.一種網(wǎng)絡流量分類特征的產(chǎn)生及選擇方法[J].山東大學學報(工學版),2010(5):1-7.
[2]賀偉凇,胡光岷.大尺度IP網(wǎng)絡流量異常特征的多時間序列數(shù)據(jù)挖掘方法[J].計算機應用研究,2011(3):1130-1132,1154.
Analysis on feature of network traffic
Lu Canju
(Electronic Eengineering Institute, Hefei 230037, China)
Network traffic under the background of the Internet deepening development shows very important significance and is the important channel to understand the network system, as well as the direct credential of network design, planning and management. This paper pertinently explores the characteristic of network traffic under the multi scale in order to play a certain role in relevant work.
network traffic; multi-scale; feature
盧燦舉(1978— ),男,安徽泗縣,碩士;研究方向:計算機應用。