張艷榮,張治中,姜明志,鄭小平
(重慶郵電大學(xué)通信網(wǎng)與測(cè)試技術(shù)重點(diǎn)實(shí)驗(yàn)室 重慶 400065)
2013年12月4日,工業(yè)和信息化部向三大運(yùn)營(yíng)商發(fā)放了LTE-TDD網(wǎng)絡(luò)商用牌照,LTE正式在國(guó)內(nèi)商用。由于LTE大帶寬、高速率、低時(shí)延的特點(diǎn),加之豐富的移動(dòng)互聯(lián)網(wǎng)內(nèi)容,OTT勢(shì)不可擋,運(yùn)營(yíng)商在傳統(tǒng)的以語(yǔ)音為主的移動(dòng)通信網(wǎng)絡(luò)中的管道優(yōu)勢(shì)已經(jīng)不復(fù)存在。對(duì)于運(yùn)營(yíng)商來(lái)說(shuō),其掌握的核心資源就是用戶和用戶注意力(即內(nèi)容商提供的內(nèi)容,運(yùn)營(yíng)商所謂的“流量”)的傳輸通道。為了避免被管道化和邊緣化,獲取與OTT內(nèi)容商談判的籌碼,運(yùn)營(yíng)商必須發(fā)揮自己在資源上的優(yōu)勢(shì),通過(guò)先進(jìn)的網(wǎng)絡(luò)技術(shù)和網(wǎng)絡(luò)設(shè)備充分掌握網(wǎng)絡(luò)和用戶狀況,有效地管理和控制網(wǎng)絡(luò),制定科學(xué)的網(wǎng)絡(luò)發(fā)展計(jì)劃,實(shí)現(xiàn)運(yùn)營(yíng)模式的轉(zhuǎn)變[1]。
傳統(tǒng)的流量分析都是基于傳輸層的端口號(hào)來(lái)區(qū)分不同業(yè)務(wù)的,通過(guò)識(shí)別這些端口號(hào)對(duì)業(yè)務(wù)流量進(jìn)行分類和統(tǒng)計(jì)。然而,隨著人們對(duì)移動(dòng)互聯(lián)網(wǎng)內(nèi)容需求的急速增長(zhǎng),基于HTTP和P2P的小眾業(yè)務(wù)占據(jù)了移動(dòng)數(shù)據(jù)網(wǎng)絡(luò)的絕大多數(shù)流量,基于端口號(hào)的業(yè)務(wù)識(shí)別技術(shù)無(wú)法識(shí)別這些小眾業(yè)務(wù)。深度分組檢測(cè)(deep packet inspection,DPI)技術(shù)是在傳統(tǒng)的基于IP五元組(源IP地址、源端口號(hào)、目的地IP地址、目的地端口號(hào)和承載協(xié)議)的業(yè)務(wù)識(shí)別的基礎(chǔ)上,對(duì)數(shù)據(jù)應(yīng)用層進(jìn)行進(jìn)一步探測(cè)。采用DPI技術(shù)識(shí)別數(shù)據(jù)流業(yè)務(wù),需建立流量特征庫(kù),通過(guò)采用模式匹配算法匹配特征庫(kù)和待識(shí)別的數(shù)據(jù)流,匹配成功則將數(shù)據(jù)識(shí)別為對(duì)應(yīng)的業(yè)務(wù)。對(duì)于HTTP數(shù)據(jù)流,其業(yè)務(wù)特征可能存在于URL、host、user-agent等信息中;對(duì)于基于P2P的應(yīng)用,其業(yè)務(wù)特征一般都是數(shù)字型的,如基于TCP的微信消息數(shù)據(jù)分組,端口號(hào)為80或8080端口,第一個(gè)上行攜帶payload分組的前3個(gè)字節(jié)為“060104”,最后 4 個(gè)字節(jié)為“04010000”[2]。
DPI技術(shù)有著業(yè)務(wù)識(shí)別率高、原理簡(jiǎn)單等特點(diǎn),但是DPI業(yè)務(wù)識(shí)別技術(shù)的關(guān)鍵在于強(qiáng)大的特征庫(kù),一方面,業(yè)務(wù)特征會(huì)隨著應(yīng)用升級(jí)和新業(yè)務(wù)加入發(fā)生變化,需要隨時(shí)更新特征庫(kù),另一方面,對(duì)于一些加密或者特征不明顯的業(yè)務(wù),DPI技術(shù)就無(wú)法進(jìn)行業(yè)務(wù)識(shí)別。深度流檢測(cè)(deep flow inspection,DFI)技術(shù)就是一種可以和 DPI互補(bǔ)的技術(shù)。DFI是通過(guò)傳輸層宏觀統(tǒng)計(jì)特性來(lái)分析業(yè)務(wù)流量。DFI技術(shù)不需要關(guān)心應(yīng)用層的微觀特征,而是通過(guò)對(duì)數(shù)據(jù)流的持續(xù)時(shí)間、上下行流量、報(bào)文長(zhǎng)度等統(tǒng)計(jì)信息進(jìn)行分析,識(shí)別應(yīng)用類型。通過(guò)建立應(yīng)用類型與報(bào)文數(shù)據(jù)流特征模型的對(duì)應(yīng)關(guān)系,可以識(shí)別出數(shù)據(jù)流的應(yīng)用類型[3]。
本文提出了一種基于DPI的流量分析系統(tǒng),并引入DFI技術(shù)輔助業(yè)務(wù)識(shí)別,最大限度地發(fā)揮DPI和DFI技術(shù)的優(yōu)點(diǎn),同時(shí)合成xDR,用于業(yè)務(wù)統(tǒng)計(jì)優(yōu)化,集流量統(tǒng)計(jì)與業(yè)務(wù)識(shí)別分析于一體。
對(duì)移動(dòng)數(shù)據(jù)業(yè)務(wù)進(jìn)行流量分析,需從現(xiàn)網(wǎng)采集數(shù)據(jù)并預(yù)處理,包括簡(jiǎn)單的解碼和基于端口號(hào)的協(xié)議識(shí)別,然后分別交付DPI業(yè)務(wù)識(shí)別和xDR合成?;贒FI技術(shù)的業(yè)務(wù)識(shí)別流程可以建立在xDR合成的基礎(chǔ)上,通過(guò)以傳輸層數(shù)據(jù)分組合成xDR,統(tǒng)計(jì)數(shù)據(jù)流的上下行流量、傳輸時(shí)延、亂序分組數(shù)、重傳分組數(shù)等信息,一方面可以作為網(wǎng)絡(luò)數(shù)據(jù)業(yè)務(wù)優(yōu)化的信息來(lái)源,另一方面可以為DFI識(shí)別提供識(shí)別上下文?;贒PI技術(shù)的流量分析系統(tǒng)的整體框架如圖1所示,采用模塊化的設(shè)計(jì),將不同協(xié)議解碼合成等封裝成動(dòng)態(tài)庫(kù)/靜態(tài)庫(kù),實(shí)現(xiàn)系統(tǒng)的低耦合性和高重用性,易于管理維護(hù)。
圖1 基于DPI技術(shù)的流量分析系統(tǒng)框架
在DPI業(yè)務(wù)識(shí)別和xDR合成之前,首先要將采集過(guò)來(lái)的原始數(shù)據(jù)進(jìn)行預(yù)處理。將原始的二進(jìn)制數(shù)據(jù)流轉(zhuǎn)換成具有邏輯意義的數(shù)據(jù)結(jié)構(gòu),為業(yè)務(wù)識(shí)別和xDR合成提供上下文環(huán)境。預(yù)處理的主要任務(wù)就是解碼,本文的解碼分為詳細(xì)解碼和簡(jiǎn)單解碼。詳細(xì)解碼是逐字節(jié)地解釋數(shù)據(jù)流;簡(jiǎn)單解碼則根據(jù)需求,只從數(shù)據(jù)流中讀出關(guān)心的內(nèi)容。本文的預(yù)處理方案是封裝詳細(xì)解碼為基礎(chǔ)解碼靜態(tài)庫(kù),協(xié)議棧解碼器依次調(diào)用各個(gè)詳細(xì)解碼接口解碼。解碼器采用依據(jù)協(xié)議棧從底層到上層逐層解碼的方法,解碼完本層協(xié)議數(shù)據(jù)后,如有上層業(yè)務(wù)數(shù)據(jù)單元(service data unit,SDU),根據(jù)上層數(shù)據(jù)類型,調(diào)用相應(yīng)的基礎(chǔ)解碼接口,直到無(wú)上層SDU[4]。
解碼的目的是為DPI和xDR合成提供具有邏輯意義的結(jié)構(gòu)化信息,在交付識(shí)別和合成前,需要對(duì)數(shù)據(jù)流進(jìn)行簡(jiǎn)單的分類。移動(dòng)數(shù)據(jù)網(wǎng)絡(luò)的用戶數(shù)據(jù)一般以TCP/UDP為傳輸層,因此可以根據(jù)第1節(jié)所述的基于端口號(hào)的業(yè)務(wù)識(shí)別方法,將數(shù)據(jù)流粗略地分為以下幾大類:HTTP業(yè)務(wù)、FTP 業(yè) 務(wù) 、DNS 業(yè) 務(wù) 、E-mail (POP3、SMTP)業(yè) 務(wù) 、MMS(WTP、WSP)業(yè)務(wù)、RTSP業(yè)務(wù)和除此之外的通用業(yè)務(wù),包括如即時(shí)通信、P2P業(yè)務(wù)等。
解碼完成后,需要對(duì)數(shù)據(jù)進(jìn)行DPI業(yè)務(wù)識(shí)別和xDR合成,對(duì)于 FTP、DNS、E-mail、RTSP 和 MMS 數(shù)據(jù),在這里是不需要進(jìn)一步進(jìn)行業(yè)務(wù)識(shí)別的,但是所有業(yè)務(wù)都需要進(jìn)行合成xDR,供業(yè)務(wù)分析和優(yōu)化使用。下面詳細(xì)說(shuō)明這兩部分的原理和實(shí)現(xiàn)。
基于DPI的業(yè)務(wù)識(shí)別技術(shù)的關(guān)鍵在于建立一個(gè)全面準(zhǔn)確的業(yè)務(wù)特征庫(kù)。然而由于LTE網(wǎng)絡(luò)數(shù)據(jù)量巨大,加之匹配算法的復(fù)雜度較高,對(duì)服務(wù)器的壓力也非常大。這里采用和DFI類似的處理方法,通過(guò)一種自學(xué)習(xí)的機(jī)制,大大降低了業(yè)務(wù)數(shù)據(jù)和特征庫(kù)匹配的次數(shù)。自學(xué)習(xí)的主要方法是將已經(jīng)識(shí)別出的應(yīng)用類型和該應(yīng)用數(shù)據(jù)的IP五元組添加到統(tǒng)計(jì)表中,在識(shí)別數(shù)據(jù)時(shí),先匹配統(tǒng)計(jì)表,無(wú)法匹配統(tǒng)計(jì)表的數(shù)據(jù)才通過(guò)DPI匹配特征庫(kù)。流程如圖2所示。
DPI業(yè)務(wù)識(shí)別統(tǒng)計(jì)表是一個(gè)以IP五元組為關(guān)鍵字key,以業(yè)務(wù)類型(包括應(yīng)用類型、服務(wù)類型、客戶端類型等信息以及應(yīng)用統(tǒng)計(jì)信息等)為散列值(value)的散列表。本表有自學(xué)習(xí)的功能,能夠?qū)⑼ㄟ^(guò)DPI特征庫(kù)匹配到的業(yè)務(wù)信息,通過(guò)IP五元組學(xué)習(xí)到表中,為以后相同業(yè)務(wù)數(shù)據(jù)省去大量匹配所占用的資源。同時(shí),對(duì)于一部分常見(jiàn)應(yīng)用,比如咪咕音樂(lè),其應(yīng)用數(shù)據(jù)的層三IP地址為218.200.160.29:80或218.200.160.30:80。為了提高識(shí)別率,將這些已知IP三元組的應(yīng)用也配置以IP三元組為關(guān)鍵字key、以業(yè)務(wù)類型為value的散列表,提供業(yè)務(wù)識(shí)別的快速查詢。對(duì)于從以上兩個(gè)散列表中都無(wú)法查詢到應(yīng)用類型的數(shù)據(jù),才通過(guò)特征庫(kù)進(jìn)行匹配識(shí)別。
圖2 DPI業(yè)務(wù)識(shí)別流程
建立特征庫(kù)是DPI業(yè)務(wù)識(shí)別的關(guān)鍵。特征庫(kù)是一個(gè)包括了應(yīng)用類型信息、服務(wù)端口號(hào)、特征值、層三IP地址等信息的可配數(shù)據(jù)庫(kù)。特征值根據(jù)類型可以分為數(shù)字型特征和字符型特征,根據(jù)出現(xiàn)的位置可以分為host key、refer key、URL key、user-agent key、承載層 key 等。匹配時(shí),根據(jù)特征值的優(yōu)先級(jí)從高到底的級(jí)別依次匹配特征值和相應(yīng)字段。識(shí)別統(tǒng)計(jì)結(jié)果表存盤(pán),入庫(kù)后供應(yīng)用層查詢。
DPI業(yè)務(wù)識(shí)別的技術(shù)核心就是匹配算法,通常DPI采用正則表達(dá)式匹配特征值與數(shù)據(jù)流。特征字符串匹配也稱關(guān)鍵詞匹配,它研究從大量數(shù)據(jù)中快速匹配多個(gè)關(guān)鍵詞(多個(gè)模式)的技術(shù)。基于DPI的特征匹配業(yè)務(wù)識(shí)別的特點(diǎn)是需要處理的數(shù)據(jù)量大,待匹配的關(guān)鍵詞集合大,這些對(duì)多關(guān)鍵詞匹配算法的處理能力提出了更高的要求。常見(jiàn)的匹配算法包括Aho-Corasick算法、AC-BM算法等,而正則表達(dá)式的描述有 NFA (non-deterministic finite automata)與DFA(deterministic finite automata)兩種方式。通過(guò)前人大量的研究已經(jīng)證明,采用DFA方式比采用NFA方式具有更強(qiáng)的處理能力與計(jì)算性能。因此,本文采用DFA算法匹配特征值與數(shù)據(jù)流。DFA算法較為復(fù)雜,具體算法實(shí)現(xiàn)參考文獻(xiàn)[5]。
xDR包括詳細(xì)記錄CDR和事務(wù)詳細(xì)記錄TDR。xDR能夠反映出一次信令/數(shù)據(jù)流程的全部過(guò)程。信令面xDR是進(jìn)行網(wǎng)絡(luò)優(yōu)化和網(wǎng)絡(luò)故障快速定位的基礎(chǔ),數(shù)據(jù)面xDR是進(jìn)行移動(dòng)數(shù)據(jù)網(wǎng)絡(luò)流量統(tǒng)計(jì)和分析的基礎(chǔ)。在本文的方案中,xDR也是基于DFI業(yè)務(wù)識(shí)別的必要步驟,通過(guò)xDR合成統(tǒng)計(jì)傳輸流的宏觀特性,如上下行流量、持續(xù)時(shí)間、上下行分組數(shù)、響應(yīng)時(shí)間等。這些統(tǒng)計(jì)信息是進(jìn)行DFI合成的必備上下文環(huán)境。
2.3.1 xDR合成方案
xDR合成的任務(wù)是關(guān)聯(lián)屬于同一個(gè)流程的所有消息。對(duì)于數(shù)據(jù)業(yè)務(wù)合成,有兩個(gè)關(guān)鍵點(diǎn):一是關(guān)聯(lián)哪些消息;二是如何關(guān)聯(lián)這些消息[6]。
對(duì)于第一個(gè)關(guān)鍵點(diǎn),傳統(tǒng)的業(yè)務(wù)合成方法是對(duì)應(yīng)用層消息進(jìn)行關(guān)聯(lián)。這樣的xDR是不能反映出一次HTTP傳輸?shù)娜啃畔⒌?,尤其是?duì)應(yīng)用數(shù)據(jù)的統(tǒng)計(jì)特性所獲甚少。因此根據(jù)xDR的統(tǒng)計(jì)需求,本文提出一種基于完整傳輸流的xDR合成方案。對(duì)于基于TCP的應(yīng)用,以TCP 3次握手消息(tcp_syn)作為xDR合成的起點(diǎn),以 TCP重置消息(tcp_rst)或超時(shí)作為xDR結(jié)束消息。
xDR合成的第二個(gè)關(guān)鍵點(diǎn),就是如何關(guān)聯(lián)屬于同一個(gè)流程的消息。在本方案中,采用了散列的方法關(guān)聯(lián)消息,主要是將網(wǎng)絡(luò)中的消息按照傳輸流進(jìn)行歸類。采用散列算法完成查找功能。利用合成關(guān)鍵信息key作為散列表的關(guān)鍵字,并通過(guò)關(guān)鍵字key值和這些消息聯(lián)系到一起,再現(xiàn)一次數(shù)據(jù)傳輸流的詳細(xì)過(guò)程。因此,關(guān)鍵字key值的選取,將影響到xDR合成的效率和關(guān)聯(lián)的準(zhǔn)確性。
對(duì)于用戶應(yīng)用數(shù)據(jù)流,屬于同一個(gè)傳輸流程的消息,應(yīng)該有相同的IP五元組信息。因此,本文xDR合成方案選擇源IP地址、目的地IP地址、源端口號(hào)、目的地端口號(hào)作為消息關(guān)聯(lián)參數(shù)。通過(guò)這4個(gè)字段,可以唯一確定網(wǎng)絡(luò)上的一個(gè)數(shù)據(jù)傳輸流。特殊的,由于DNS不是基于傳輸流的應(yīng)用層協(xié)議,完整的DNS流程只有請(qǐng)求和響應(yīng)消息,因此DNS需要額外增加DNS事務(wù)ID(Tid)作為消息的關(guān)聯(lián)參數(shù)。
xDR合成狀態(tài)分為創(chuàng)建、更新和結(jié)束:對(duì)于一條數(shù)據(jù),首先查找處于更新?tīng)顟B(tài)中的xDR,xDR未創(chuàng)建,則由xDR創(chuàng)建消息觸發(fā)創(chuàng)建xDR。對(duì)于非xDR創(chuàng)建消息,需要更新統(tǒng)計(jì)信息,并且xDR結(jié)束消息觸發(fā)結(jié)束xDR操作,更新當(dāng)前xDR,從合成xDR列表中移除。具體的合成流程如圖3所示。為了提高核查效率,本文采用散列算法的思想,先建立key值和待關(guān)聯(lián)的合成xDR的存儲(chǔ)地址的映射關(guān)系H(key),使每個(gè)key對(duì)應(yīng)唯一的存儲(chǔ)地址。通過(guò)映射關(guān)系找到key對(duì)應(yīng)的xDR,進(jìn)行xDR的建立、修改和刪除操作。
合成xDR的關(guān)鍵是統(tǒng)計(jì)傳輸流的宏觀特性,包括上下行流量、上下行IP分組數(shù)、上下行TCP亂序分組數(shù)、上下行重傳報(bào)文數(shù)、上下行分片數(shù)、第一個(gè)HTTP響應(yīng)分組時(shí)延、最后一個(gè)HTTP內(nèi)容分組的時(shí)延,最后一個(gè)ACK確認(rèn)分組的時(shí)延等信息。這些統(tǒng)計(jì)信息一方面是移動(dòng)分組網(wǎng)數(shù)據(jù)業(yè)務(wù)管理和優(yōu)化的基本信息,通過(guò)業(yè)務(wù)使用持續(xù)時(shí)間、業(yè)務(wù)連接間隔、上下行速率等方面分析流量業(yè)務(wù)模型。另一方面,這些數(shù)據(jù)流的宏觀統(tǒng)計(jì)信息,將會(huì)作為DFI業(yè)務(wù)識(shí)別的上下文,詳見(jiàn)第2.3.2節(jié)。
2.3.2 DFI業(yè)務(wù)識(shí)別方案
鑒于DPI技術(shù)識(shí)別準(zhǔn)確度高、不適用于P2P業(yè)務(wù)和加密數(shù)據(jù)的特點(diǎn),DFI技術(shù)是對(duì)DPI技術(shù)的很好的補(bǔ)充。DFI技術(shù)基于會(huì)話連接或數(shù)據(jù)流一系列流量的行為特征,建立流量特征模型,通過(guò)分析會(huì)話連接流的分組長(zhǎng)度、連接速率、傳輸字節(jié)量等信息來(lái)與流量模型對(duì)比,從而識(shí)別應(yīng)用程序類型[7]。
圖3 業(yè)務(wù)xDR合成流程
DFI業(yè)務(wù)識(shí)別技術(shù)的關(guān)鍵是建立應(yīng)用流量特征模型。本方案利用機(jī)器學(xué)習(xí)的方法根據(jù)不同業(yè)務(wù)流量間的差異進(jìn)行流量分類模型的建立,生成流量分類器;流量分類器根據(jù)xDR合成統(tǒng)計(jì)出的流量特征對(duì)流量進(jìn)行分類,識(shí)別數(shù)據(jù)流業(yè)務(wù)類型??傮w過(guò)程如圖4所示。
圖4 DFI業(yè)務(wù)識(shí)別流
DFI業(yè)務(wù)識(shí)別技術(shù)的關(guān)鍵在于通過(guò)機(jī)器學(xué)習(xí)監(jiān)督學(xué)習(xí)的方法建立一個(gè)完整的業(yè)務(wù)流量特征模型,即流量分類器。分類器的建立過(guò)程如圖5所示。
數(shù)據(jù)預(yù)處理主要是數(shù)據(jù)流宏觀特征提取,采用第2.3.1節(jié)所述的數(shù)據(jù)關(guān)聯(lián)方法即可提取樣本數(shù)據(jù)流的統(tǒng)計(jì)數(shù)據(jù)。然后需要進(jìn)行特征選擇,特征選擇是指對(duì)預(yù)處理模塊統(tǒng)計(jì)出來(lái)的數(shù)據(jù)進(jìn)行去除冗余的操作。經(jīng)過(guò)篩選的數(shù)據(jù),就可以進(jìn)入學(xué)習(xí)模塊,開(kāi)始學(xué)習(xí)。這里選擇精確度較高的C4.5決策樹(shù)算法作為機(jī)器學(xué)習(xí)算法[8],它是一種貪心算法,實(shí)現(xiàn)過(guò)程不在這里敷述。分類器經(jīng)過(guò)準(zhǔn)確性測(cè)試后,可以根據(jù)數(shù)據(jù)流的統(tǒng)計(jì)特性對(duì)數(shù)據(jù)流進(jìn)行流量分類。為上層應(yīng)用對(duì)業(yè)務(wù)識(shí)別和統(tǒng)計(jì)數(shù)據(jù)入庫(kù)方便,DFI識(shí)別的結(jié)果一樣存儲(chǔ)為業(yè)務(wù)統(tǒng)計(jì)表的格式。
圖5 流量分類器的建立
本文方案首先將采集卡從相關(guān)的網(wǎng)絡(luò)接口采集數(shù)據(jù)通過(guò)匯聚設(shè)備將數(shù)據(jù)匯聚到數(shù)據(jù)處理局域網(wǎng),數(shù)據(jù)處理服務(wù)器接收數(shù)據(jù)后對(duì)數(shù)據(jù)進(jìn)行解碼、xDR合成和業(yè)務(wù)識(shí)別統(tǒng)計(jì)處理,分別將原始數(shù)據(jù)、xDR和業(yè)務(wù)識(shí)別統(tǒng)計(jì)出表,存儲(chǔ)在數(shù)據(jù)存儲(chǔ)服務(wù)器,并入庫(kù)到數(shù)據(jù)庫(kù)服務(wù)器;應(yīng)用服務(wù)器從數(shù)據(jù)存儲(chǔ)服務(wù)器和數(shù)據(jù)庫(kù)服務(wù)器獲取數(shù)據(jù),進(jìn)行再次處理,供業(yè)務(wù)優(yōu)化和決策參考。但是,和傳統(tǒng)的業(yè)務(wù)監(jiān)測(cè)分析系統(tǒng)相比,本方案改進(jìn)了處理流程,增加了業(yè)務(wù)識(shí)別功能。下面對(duì)傳統(tǒng)監(jiān)測(cè)方案和本方案進(jìn)行比較。
傳統(tǒng)監(jiān)測(cè)方案主要是解碼和合成,在數(shù)據(jù)處理服務(wù)器端完成消息的解碼合成工作,應(yīng)用層通過(guò)套接字(socket)接口查詢處理結(jié)果,處理結(jié)果通過(guò)二進(jìn)制文件存在本地處理網(wǎng)絡(luò)。業(yè)務(wù)xDR合成基于應(yīng)用層消息,傳統(tǒng)合成的僅關(guān)聯(lián)帶有應(yīng)用層消息頭的消息,圖6所示為一個(gè)HTTP請(qǐng)求xDR,該xDR僅包含了HTTP請(qǐng)求和HTTP響應(yīng)消息,xDR結(jié)構(gòu)體中亦沒(méi)有統(tǒng)計(jì)信息,對(duì)于流量分析統(tǒng)計(jì)和業(yè)務(wù)優(yōu)化的意義較小。相同數(shù)據(jù)在基于本方案的系統(tǒng)下運(yùn)行結(jié)果如圖7所示。本方案結(jié)合了流量分析技術(shù)的特點(diǎn)和要求,xDR采用CSV文件格式保存并寫(xiě)入數(shù)據(jù)庫(kù)服務(wù)器,上層應(yīng)用通過(guò)數(shù)據(jù)庫(kù)讀取結(jié)果再處理。
本方案的xDR統(tǒng)計(jì)出表結(jié)果如圖8所示,選中行為該xDR的出表文件的統(tǒng)計(jì)部分截圖。與圖6對(duì)比可知,本方案xDR出表文件統(tǒng)計(jì)了上下行流量、上下行IP分組數(shù)、上下行亂序/重傳分組數(shù)、響應(yīng)時(shí)延(第一個(gè)內(nèi)容分組、最后一個(gè)內(nèi)容分組和最后一個(gè)ACK分組時(shí)延)和host、URL等信息,全面地統(tǒng)計(jì)了數(shù)據(jù)流的微觀內(nèi)容和宏觀特性,這些數(shù)據(jù)將是流量統(tǒng)計(jì)和網(wǎng)絡(luò)業(yè)務(wù)優(yōu)化的基礎(chǔ)。
傳統(tǒng)的監(jiān)測(cè)系統(tǒng)主要針對(duì)的是信令數(shù)據(jù),對(duì)于業(yè)務(wù)數(shù)據(jù)沒(méi)有進(jìn)行詳細(xì)的業(yè)務(wù)識(shí)別和深度分組監(jiān)測(cè),無(wú)法滿足運(yùn)營(yíng)商對(duì)業(yè)務(wù)精細(xì)化識(shí)別與統(tǒng)計(jì)的需求。因此,本方案引入DPI/DFI技術(shù)對(duì)流量進(jìn)行深度識(shí)別和分析,結(jié)果形成出表文件入庫(kù),供應(yīng)用層再開(kāi)發(fā)。圖9所示為業(yè)務(wù)識(shí)別出表文件的一段。文件中,C列和D列分別表示數(shù)據(jù)的應(yīng)用主類型號(hào)和子類型號(hào),K 列和 L列為 host和 URL,M、N、O、P列分別為上行分組數(shù)、上行流量、下行分組數(shù)和下行流量。圖中方框標(biāo)識(shí)的兩行的host字段中分別包含微信 (主類型1:即時(shí)通信,子類型 9)特征“weixin.qq.com”和豌豆莢(主類型 7:應(yīng)用市場(chǎng),子類型 8)特征“.wandoujia.com"。通過(guò)excel統(tǒng)計(jì),可知主類型為1(即時(shí)通信)和15(應(yīng)用商店)的業(yè)務(wù)占據(jù)了絕大多數(shù)流量;進(jìn)一步統(tǒng)計(jì)可發(fā)現(xiàn),微信數(shù)據(jù)分組在數(shù)量上占據(jù)整個(gè)網(wǎng)絡(luò)較大份額(197/581)。
圖6 一個(gè)傳統(tǒng)的HTTP請(qǐng)求xDR
圖7 一個(gè)基于本方案的HTTP請(qǐng)求xDR
圖8 xDR結(jié)構(gòu)出表CSV文件(部分)
圖9 業(yè)務(wù)識(shí)別出表文件截圖(部分)
隨著4G網(wǎng)絡(luò)商用拉開(kāi)序幕,數(shù)據(jù)業(yè)務(wù)的分析和優(yōu)化將是運(yùn)營(yíng)商面臨的重要舉措。本文基于傳統(tǒng)的信令監(jiān)測(cè)系統(tǒng)架構(gòu),在其基礎(chǔ)上添加了基于DPI業(yè)務(wù)識(shí)別技術(shù),用于業(yè)務(wù)識(shí)別與統(tǒng)計(jì);設(shè)計(jì)了一種基于傳輸層數(shù)據(jù)流的xDR合成方案,并在xDR合成工程中統(tǒng)計(jì)數(shù)據(jù)流的宏觀統(tǒng)計(jì)特性,使得合成xDR不僅能夠用于傳統(tǒng)的業(yè)務(wù)優(yōu)化和流量統(tǒng)計(jì),也能通過(guò)DFI業(yè)務(wù)識(shí)別技術(shù)識(shí)別P2P業(yè)務(wù)和音視頻相關(guān)應(yīng)用。DFI業(yè)務(wù)識(shí)別和DPI業(yè)務(wù)識(shí)別在技術(shù)上優(yōu)勢(shì)互補(bǔ),本文將合成xDR的統(tǒng)計(jì)特性進(jìn)一步用于DFI業(yè)務(wù)識(shí)別,DFI業(yè)務(wù)識(shí)別作為對(duì)DPI業(yè)務(wù)識(shí)別的一種補(bǔ)充,提高了系統(tǒng)的業(yè)務(wù)識(shí)別率。經(jīng)過(guò)現(xiàn)網(wǎng)數(shù)據(jù)測(cè)試,本方案能夠很好地對(duì)移動(dòng)分組網(wǎng)進(jìn)行業(yè)務(wù)xDR合成和流量識(shí)別統(tǒng)計(jì),具有較高的處理效率和識(shí)別準(zhǔn)確性。
1 羅憶祖.DPI技術(shù)助力運(yùn)營(yíng)商精細(xì)化運(yùn)營(yíng).電信網(wǎng)技術(shù),2009(1):22~24
2 葉文晨,汪敏,陳云寰等.一種聯(lián)合DPI和DFI的網(wǎng)絡(luò)流量檢測(cè)方法.計(jì)算機(jī)工程,2011(10):102~107
3 蔣文龍.基于DPI技術(shù)的P2P流量監(jiān)控系統(tǒng)的研究與設(shè)計(jì).北京郵電大學(xué)碩士學(xué)位論文,2013
4 李娟,雒江濤.用戶感知智能分析系統(tǒng)Abis接口信令監(jiān)測(cè)的研究.電信科學(xué),2012(9):58~62
5 劉胤.深度包檢測(cè)技術(shù)的研究與設(shè)計(jì).貴州大學(xué)碩士學(xué)位論文,2008
6 馬陳澤.移動(dòng)核心網(wǎng)優(yōu)化分析系統(tǒng)——Gn接口信令處理模塊的研究與開(kāi)發(fā).重慶郵電大學(xué)碩士學(xué)位論文,2011
7 桑寅,孟少卿,鹿凱寧.基于DPI和機(jī)器學(xué)習(xí)方法傳輸層檢測(cè)的P2P流量識(shí)別模型.電子測(cè)量技術(shù),2011(10):45~48
8 李國(guó)平,王勇,陶曉玲.基于DPI和機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)流量分類方法.桂林電子科技大學(xué)學(xué)報(bào),2012,32(2):140~144