蔣方強
摘 要:隨著企業(yè)各類業(yè)務(wù)的持續(xù)增長,IT設(shè)施也在不斷完善和擴建。網(wǎng)絡(luò)線路、網(wǎng)絡(luò)設(shè)備和服務(wù)器等基礎(chǔ)設(shè)備不斷增加,整個網(wǎng)絡(luò)結(jié)構(gòu)變得異常龐大且復(fù)雜,一定程度上增加了監(jiān)控和管理的難度。許多關(guān)鍵的業(yè)務(wù)系統(tǒng)往往包括網(wǎng)絡(luò)線路、防火墻、前端應(yīng)用服務(wù)器、負載均衡設(shè)備、中間件、數(shù)據(jù)庫和存儲等各類軟硬件設(shè)施,在傳統(tǒng)管理手段下,對于多段網(wǎng)絡(luò)、多層應(yīng)用的架構(gòu),運維管理關(guān)聯(lián)度不夠高,導(dǎo)致在問題發(fā)生時,分析定位相對比較困難,排障速度相對較慢。部署面向應(yīng)用的網(wǎng)絡(luò)流量分析系統(tǒng),可以建立統(tǒng)一的網(wǎng)絡(luò)流量監(jiān)測分析的底層平臺,自動梳理應(yīng)用系統(tǒng)網(wǎng)絡(luò)訪問路徑,同時建立起面向應(yīng)用的網(wǎng)絡(luò)服務(wù)視圖,實現(xiàn)全網(wǎng)流量監(jiān)測,并且根據(jù)流量特征實現(xiàn)快速故障預(yù)警與故障診斷,更加科學(xué)有效地的管理IT設(shè)施,確保業(yè)務(wù)系統(tǒng)穩(wěn)定運行。
關(guān)鍵詞:面向應(yīng)用;流量特征;網(wǎng)絡(luò)流量分析;流量監(jiān)測
中圖分類號:TP393.18文獻標識碼:A文章編號:1003-5168(2021)10-0009-04
Application Oriented Traffic Visualization System of the Whole Network
JIANG Fangqiang
(Shanghai Pudong Development Bank,Shanghai 200233)
Abstract: With the continuous growth of all kinds of business, it facilities are constantly improving and expanding. With the increase of network lines, network equipment and servers, the whole network structure becomes very large and complex, which increases the difficulty of monitoring and management to a certain extent. Many key business systems often include network lines, firewalls, front-end application servers, load balancing devices, middleware, databases, storage and other software and hardware facilities. Under the traditional management methods, for the multi segment network and multi-layer application architecture, the operation and maintenance management relevance is not high enough, which makes it relatively difficult to analyze and locate problems, the speed of obstacle removal is relatively slow. Deploying the application-oriented network traffic analysis system can establish a unified underlying platform for network traffic detection and analysis, automatically comb the network access path of the application system, establish an application-oriented network service view, realize the visualization of the whole network traffic, and realize rapid fault warning and fault diagnosis according to the traffic characteristics, more scientific and effective management of it facilities to ensure the stable operation of business systems.
Keywords: application oriented;flow characteristics;network traffic analysis;flow monitoring
隨著企業(yè)各類業(yè)務(wù)的持續(xù)增長,IT基礎(chǔ)設(shè)施設(shè)備數(shù)量不斷增加,網(wǎng)絡(luò)、系統(tǒng)、應(yīng)用的關(guān)聯(lián)性日益密切,整個結(jié)構(gòu)變得異常龐大且復(fù)雜。在傳統(tǒng)管理手段下,對于多段網(wǎng)絡(luò)、多層應(yīng)用的架構(gòu),運維管理關(guān)聯(lián)度不夠高,導(dǎo)致在發(fā)生問題時分析定位相對比較困難,排障速度較慢。在運維工作中,應(yīng)用、系統(tǒng)和網(wǎng)絡(luò)管理人員往往需要付出額外的工作量,依靠技術(shù)積累和經(jīng)驗進行人工分析、定位、關(guān)聯(lián)以應(yīng)對多層面聯(lián)動的異常及故障[1]。
運維人員越來越多地使用網(wǎng)絡(luò)流量分析工具,流量數(shù)據(jù)的捕獲與分析,緩解了一部分運維壓力。隨著企業(yè)運維管理精細化程度不斷提升,對網(wǎng)絡(luò)流量分析系統(tǒng)運用的逐步深入化,對運維水平的要求不斷提高,有必要對網(wǎng)絡(luò)流量數(shù)據(jù)的高效分析進行進一步研究和實踐[2]。
1 網(wǎng)絡(luò)流量數(shù)據(jù)的分析與探索
在對各類應(yīng)用系統(tǒng)的異常數(shù)據(jù)流量進行分析的過程中,發(fā)現(xiàn)在應(yīng)用系統(tǒng)出現(xiàn)異常時,數(shù)據(jù)包整體的特征會發(fā)生明顯變化。
1.1 流量特征
目前,行業(yè)主流的網(wǎng)絡(luò)通信主要是基于TCP(Transmission Control Protocol,傳輸控制協(xié)議)/IP(Internet Protocol,網(wǎng)際互連協(xié)議)協(xié)議[3],與人體血液中的各類微觀指標類似,網(wǎng)絡(luò)流量中也蘊含了豐富的流量信息。通過研究發(fā)現(xiàn),流量中TCP的syn數(shù)據(jù)包數(shù)量、fin數(shù)據(jù)包數(shù)量、rst數(shù)據(jù)包數(shù)量及流量中的連接數(shù)、響應(yīng)時間等各種指標的波動,都反映著應(yīng)用系統(tǒng)運行的變化。例如,當應(yīng)用系統(tǒng)的性能遇到瓶頸時,會主動發(fā)送rst數(shù)據(jù)包進行終止會話,此時,網(wǎng)絡(luò)流量數(shù)據(jù)包特征中,就會出現(xiàn)rst數(shù)據(jù)包、零窗口數(shù)據(jù)包數(shù)量突然增大的情況,也可能會出現(xiàn)數(shù)據(jù)包的響應(yīng)時間突然增大的情況。又如,某些應(yīng)用系統(tǒng)如果因某種原因沒有正常關(guān)閉會話,會導(dǎo)致特征數(shù)據(jù)中syn數(shù)據(jù)包、fin數(shù)據(jù)包大量減少。此外,流量中的各類指標與業(yè)務(wù)的訪問量也具有正向或反向的關(guān)系。
1.2 面向應(yīng)用
傳統(tǒng)的以設(shè)備為中心的網(wǎng)絡(luò)性能管理工作中,關(guān)注的重點在于設(shè)備、設(shè)施的運行狀態(tài),而面對復(fù)雜的應(yīng)用環(huán)境,該視角則過于粗放,往往不能快速發(fā)現(xiàn)可用性和性能問題,對于具體的應(yīng)用,沒有信息能直接表明網(wǎng)絡(luò)服務(wù)的運行狀態(tài)。全網(wǎng)流量監(jiān)測的結(jié)構(gòu)初步確立,企業(yè)可以快速有效地從網(wǎng)絡(luò)視角來確認應(yīng)用系統(tǒng)的運行情況,理順網(wǎng)絡(luò)服務(wù)的訪問關(guān)系和數(shù)據(jù)路徑,使網(wǎng)絡(luò)服務(wù)與具體應(yīng)用直接對應(yīng),可以不依賴于專業(yè)人員對網(wǎng)絡(luò)流量進行標準化分析。
1.3 全網(wǎng)可視
能否在整個網(wǎng)絡(luò)中進行網(wǎng)絡(luò)流量分析逐步成為思考的方向。如果在所有網(wǎng)絡(luò)設(shè)備范圍內(nèi)都部署流量收集探針,整體成本過高,然而部署少量區(qū)域,也無法滿足企業(yè)全網(wǎng)流量分析的需求。通過思考與總結(jié),在網(wǎng)絡(luò)匯聚層及網(wǎng)絡(luò)邊界處部署流量收集探針,通過切片的方式進一步降低龐大的網(wǎng)絡(luò)流量數(shù)據(jù),實現(xiàn)涵蓋整個網(wǎng)絡(luò)的全網(wǎng)流量。
2 系統(tǒng)的設(shè)計和實現(xiàn)
建立統(tǒng)一的網(wǎng)絡(luò)流量監(jiān)測和分析的底層平臺,合理規(guī)劃和利用網(wǎng)絡(luò)流量資源,將網(wǎng)絡(luò)流量分析覆蓋至整個網(wǎng)絡(luò),實現(xiàn)全網(wǎng)流量監(jiān)測[4]。同時,通過自動化梳理應(yīng)用系統(tǒng)網(wǎng)絡(luò)訪問路徑,建立面向應(yīng)用的網(wǎng)絡(luò)服務(wù)視圖,形成基于網(wǎng)絡(luò)流量特征分析方法的實踐理論,快速進行故障預(yù)警與故障診斷,便于維護網(wǎng)絡(luò)的穩(wěn)定性。
2.1 部署統(tǒng)一的網(wǎng)絡(luò)流量數(shù)據(jù)監(jiān)測和分析的底層轉(zhuǎn)發(fā)平臺
引入底層流量監(jiān)測數(shù)據(jù)接入設(shè)備,建立統(tǒng)一的網(wǎng)絡(luò)流量收集、監(jiān)測和分析的底層平臺,對數(shù)據(jù)進行過濾、切片和復(fù)制等操作,可以進一步滿足性能分析、入侵檢測、數(shù)據(jù)庫監(jiān)測、事件和日志分析、應(yīng)用監(jiān)測等對網(wǎng)絡(luò)流量的需求,提高基礎(chǔ)資源的利用率,提升數(shù)據(jù)使用安全性,降低流量分析系統(tǒng)探針部署數(shù)量及總體部署成本,增加整個系統(tǒng)的靈活性和魯棒性。整體平臺架構(gòu)如圖1所示。
2.2 合理規(guī)劃實現(xiàn)全網(wǎng)流量監(jiān)控
實現(xiàn)全網(wǎng)流量監(jiān)測,全網(wǎng)的流量采集是一個十分重要的技術(shù)點,需要兼顧成本部署、流量完整性等,越是靠近終端節(jié)點(服務(wù)器、客戶端),采集到的流量越是完整。但是,直接在接入層采集數(shù)據(jù)需要部署的系統(tǒng)規(guī)模太大,需要進行大量的配置、布線工作,同時需要采購大量分流設(shè)備對流量進行匯聚,提高了成本,因此不是一種最優(yōu)的方案。
如果在核心路由網(wǎng)絡(luò)中部署,核心層肩負大流量的高速轉(zhuǎn)發(fā)任務(wù),在這個位置部署分流設(shè)備,對其規(guī)格要求較高,同樣會帶來較高的成本。同時,該位置遠離服務(wù)端和客戶端,許多問題的表征已經(jīng)被丟失,不利于發(fā)現(xiàn)和分析問題。
在各網(wǎng)絡(luò)區(qū)域的匯聚層及網(wǎng)絡(luò)邊界部署探針,能夠合理規(guī)劃和利用網(wǎng)絡(luò)流量資源,降低總體部署成本,增加整個系統(tǒng)的靈活性,分析出鏈路中流量的大小、流量構(gòu)成、各通信對的流量使用情況等,提升突發(fā)網(wǎng)絡(luò)流量分析能力。
因此,考慮網(wǎng)絡(luò)的三層架構(gòu)現(xiàn)狀(如圖2所示),在各網(wǎng)絡(luò)區(qū)域的匯聚層及網(wǎng)絡(luò)邊界部署探針進行數(shù)據(jù)采集是相對平衡、高效的方案,兼顧了靠近末梢采集流量和盡量控制采集點數(shù)量,實現(xiàn)了對重要業(yè)務(wù)網(wǎng)絡(luò)的監(jiān)控覆蓋。
2.3 建立面向應(yīng)用的網(wǎng)絡(luò)服務(wù)視圖,監(jiān)測網(wǎng)絡(luò)流量特征
網(wǎng)絡(luò)中蘊含應(yīng)用系統(tǒng)的流量特征信息是最真實和最客觀的體現(xiàn),可分析網(wǎng)絡(luò)中流量的大小、流量構(gòu)成、各通信對的流量使用情況及整體網(wǎng)絡(luò)響應(yīng)時間。面向應(yīng)用的全網(wǎng)流量監(jiān)測系統(tǒng),依托網(wǎng)絡(luò)流量數(shù)據(jù)自動化梳理應(yīng)用系統(tǒng)網(wǎng)絡(luò)訪問路徑,依此建立面向應(yīng)用的網(wǎng)絡(luò)服務(wù)視圖。其技術(shù)特點是通過記錄全部的網(wǎng)絡(luò)流量,自動發(fā)現(xiàn)其中通過網(wǎng)絡(luò)進行通信的節(jié)點之間的互訪連接信息,并根據(jù)TCP特征,自動判定請求方和服務(wù)方。通過解析應(yīng)用系統(tǒng)的網(wǎng)絡(luò)流量,自動關(guān)聯(lián)流量中的網(wǎng)絡(luò)報文頭部關(guān)鍵信息,例如,源目的IP地址、源目的端口、協(xié)議類型、TCP關(guān)鍵標識等,能準確、直觀地看到最真實的網(wǎng)絡(luò)訪問關(guān)系。
同時,全網(wǎng)流量監(jiān)測系統(tǒng)將網(wǎng)絡(luò)中各個設(shè)備通過面向應(yīng)用的邏輯連接在一起,實現(xiàn)面向應(yīng)用的網(wǎng)絡(luò)監(jiān)控。如圖3所示,路徑上的每個組件都會展示當前網(wǎng)絡(luò)流量的負載量、響應(yīng)性能與告警數(shù)量。
2.4 基于歷史數(shù)據(jù)的機器學(xué)習(xí),實現(xiàn)告警的模擬及流量的自動識別
面向應(yīng)用的全網(wǎng)監(jiān)測系統(tǒng)引入機器學(xué)習(xí)、回歸算法等新技術(shù)[5],用于實現(xiàn)自動化的流量識別與分類功能,便于網(wǎng)絡(luò)運維團隊快速發(fā)現(xiàn)未知流量,并基于業(yè)務(wù)流量快速分析得出結(jié)果,同時根據(jù)得出的結(jié)果及時更新網(wǎng)絡(luò)運維視圖、定義精準告警,變被動預(yù)防為主動預(yù)警。
系統(tǒng)可根據(jù)歷史數(shù)據(jù)自動完成流量的會話特征、IP、端口的聚類,以幫助識別網(wǎng)絡(luò)中未曾定義的業(yè)務(wù)應(yīng)用流量,極大地提高了流量識別的準確性,并為準確地監(jiān)控視圖與異常告警奠定基礎(chǔ)。
2.5 形成基于流量特征監(jiān)測的實踐理論
網(wǎng)絡(luò)流量的采集和分析系統(tǒng)使網(wǎng)絡(luò)具備了實時獲取生產(chǎn)網(wǎng)和重要業(yè)務(wù)系統(tǒng)的網(wǎng)絡(luò)層指標的能力,從海量的指標中提煉出TCP指標運行的模式和特征,能夠形成網(wǎng)絡(luò)流量特征監(jiān)測的實踐理論,進一步使應(yīng)用系統(tǒng)產(chǎn)生的網(wǎng)絡(luò)流量得到有效監(jiān)控,進而從網(wǎng)絡(luò)流量層面感知應(yīng)用系統(tǒng)是否正常運行,快速實現(xiàn)對應(yīng)用的故障預(yù)警與故障診斷。
2.5.1 基于網(wǎng)絡(luò)流量特征的監(jiān)測分析?;诰W(wǎng)絡(luò)流量特征的監(jiān)測分析,其數(shù)據(jù)來源是網(wǎng)絡(luò)流量數(shù)據(jù)包的包頭部分。通過對數(shù)據(jù)包的解碼,提取數(shù)據(jù)包中的關(guān)鍵特征,從而對網(wǎng)絡(luò)流量、流量構(gòu)成和通信情況進行快速分析。通過解碼網(wǎng)絡(luò)流量數(shù)據(jù)包的包頭部分,可獲取數(shù)據(jù)包的大小、源目IP地址、源目端口。對于TCP協(xié)議,可以進一步獲取其網(wǎng)絡(luò)通信的詳細信息。
2.5.2 總結(jié)形成網(wǎng)絡(luò)流量中TCP協(xié)議特征。網(wǎng)絡(luò)中TCP協(xié)議的特征與人體血液中的各類指標有相似之處。不同的TCP特征數(shù)據(jù)包蘊含著豐富的信息,并且會長期處于一個穩(wěn)定范圍,可對不同的TCP特征數(shù)據(jù)包及數(shù)據(jù)包之間的信息變化進行特征總結(jié)。
TCP中的syn包,除了遭受攻擊的場景外,正常業(yè)務(wù)場景下,syn包的數(shù)量通??梢院蛻?yīng)用系統(tǒng)訪問量直接掛鉤。如果短時間內(nèi)產(chǎn)生大量syn包,則會對應(yīng)用系統(tǒng)產(chǎn)生顯著壓力,甚至?xí)谋M系統(tǒng)資源。
TCP中的FIN端發(fā)出fin包后,連接會進入FIN_WAIT_1的等待狀態(tài),此時系統(tǒng)分配給該連接的資源尚未完全釋放,需要及時獲得對方的ACK來進入FIN_WAIT_2狀態(tài),或直接收到FIN+ACK,進入TIME_WAIT狀態(tài),繼而關(guān)閉連接。若因為某些原因?qū)Ψ轿醇皶r響應(yīng),同時還有新的連接請求進來,那么可能會發(fā)生資源耗盡的情況。
TCP中的rst,代表出現(xiàn)了比較嚴重的問題導(dǎo)致必須立刻關(guān)閉連接,但現(xiàn)在有些應(yīng)用會利用rst的特性來達到快速關(guān)閉連接的目的,俗稱暴力斷鏈。長連接出現(xiàn)rst則往往是表示發(fā)生故障。
TCP中的Zero Window,通常表示接收緩沖區(qū)內(nèi)的數(shù)據(jù)沒有被及時取走,這種情況是上層應(yīng)用遇到性能問題或發(fā)生異常,但未關(guān)閉連接。偶發(fā)的Zero Window是隨著業(yè)務(wù)高峰到來而增加的,可作出風(fēng)險預(yù)警。
服務(wù)響應(yīng)時間應(yīng)根據(jù)應(yīng)用的總體規(guī)則和要求而定。如果服務(wù)響應(yīng)時間突增或突降,應(yīng)用系統(tǒng)很有可能發(fā)生異常,需要復(fù)合其他指標如syn數(shù)量、并發(fā)連接數(shù)等進行綜合判定。
2.5.3 網(wǎng)絡(luò)流量特征的分析方法總體框架。本文從流量數(shù)據(jù)采集、解碼分析、特征分析到實現(xiàn)方法四個步驟出發(fā),將網(wǎng)絡(luò)流量特征分析方法自下而上地分為四層,如圖4所示。
第一層為物理層,負責(zé)網(wǎng)絡(luò)流量的分布式采集。第二層應(yīng)用層,通過引入適當?shù)能浖?、硬件產(chǎn)品,實現(xiàn)對網(wǎng)絡(luò)流量的解碼與分析。第三層為特征層,通過對TCP數(shù)據(jù)包的特征進行分析,對各類指標進行解讀,并設(shè)定合理區(qū)間。第四層為方法層,也是論證層,針對不同監(jiān)控目的,采取不同的監(jiān)控策略,例如,運維分析、定位瓶頸、及時預(yù)警、事件驅(qū)動。同時,用特征基線進行輔助,通過不斷循環(huán)進行迭代驗證。利用基線特征指引方法的結(jié)果來進行驗證,形成良性循環(huán)。
2.6 靈活的動態(tài)流量數(shù)據(jù)特征基線
流量特征的基線模型,可以對日常的流量數(shù)據(jù)特征指標進行動態(tài)評估,根據(jù)過去的經(jīng)驗數(shù)據(jù),對未來的變動進行預(yù)警。
面向應(yīng)用的全網(wǎng)流量監(jiān)測系統(tǒng)提供的基線計算是基于采集到的網(wǎng)絡(luò)樣本數(shù)據(jù)(集特定的網(wǎng)絡(luò)流量特征指標)進行的統(tǒng)計學(xué)分析,通過分組計算、比較指定變量(某網(wǎng)絡(luò)指標)的描述性統(tǒng)計量,能夠精確有效地得出結(jié)果。
2.7 具備標準的API(Application Programming Interface,應(yīng)用程序接口)接口并支持SDN
通過全網(wǎng)流量監(jiān)測系統(tǒng)提供的標準REST API接口,與其他運維管理系統(tǒng)對接,實時提供指標數(shù)據(jù),并可向SDN(Software Defined Network,軟件定義網(wǎng)絡(luò))和云遷移,最終實現(xiàn)無人干預(yù)的監(jiān)控創(chuàng)建和修改。同時,提供實時性數(shù)據(jù)給SDN或云控制器,進一步提高SDN和云控制器的容錯率和健壯性,避免性能問題。API可以實現(xiàn)自動構(gòu)建視圖,通過API調(diào)用,系統(tǒng)可以自動在后臺創(chuàng)建配置視圖,實現(xiàn)軟件定義的性能監(jiān)控。
3 結(jié)語
本文以集約化的方式建立面向應(yīng)用的網(wǎng)絡(luò)流量監(jiān)測系統(tǒng),為企業(yè)重要應(yīng)用系統(tǒng)展現(xiàn)了一張完整的網(wǎng)絡(luò)訪問服務(wù)路徑視圖,網(wǎng)絡(luò)流量特征指標客觀反映網(wǎng)絡(luò)、系統(tǒng)、應(yīng)用、業(yè)務(wù)系統(tǒng)運行狀態(tài),精確有效地對應(yīng)用系統(tǒng)的異常進行監(jiān)控、預(yù)警、故障定位,也為不同領(lǐng)域的運維人員提供了溝通的橋梁。基于流量特征監(jiān)測的實踐理論,明確了網(wǎng)絡(luò)流量分析和監(jiān)測的基礎(chǔ),確立了網(wǎng)絡(luò)流量特征數(shù)據(jù)監(jiān)測的意義,從網(wǎng)絡(luò)的視角提供了一種高效、簡潔、快速監(jiān)測應(yīng)用系統(tǒng)運行情況的方法。通過對網(wǎng)絡(luò)指標的監(jiān)測,精確有效地對應(yīng)用系統(tǒng)的異常進行預(yù)警,為提升運維的整體水平做出了重要貢獻,是企業(yè)IT運維工作的重要平臺。
參考文獻:
[1]陶廣.網(wǎng)絡(luò)安全數(shù)據(jù)可視化研究綜述[J].信息與電腦(理論版),2015(8):75-76.
[2]羅齊.基于分布式架構(gòu)的網(wǎng)絡(luò)流量分析系統(tǒng)設(shè)計與實現(xiàn)[D].鄭州:鄭州大學(xué),2019:33-35.
[3]曹瑩,常東,王雪.計算機網(wǎng)絡(luò)管理技術(shù)及發(fā)展趨勢探析[M].北京:清華大學(xué)出版社,2019:25.
[4]范碩.分布式環(huán)境下的實時網(wǎng)絡(luò)流量檢測與分析[D].成都:成都信息工程大學(xué),2019:56.
[5]方洋,李旗,張瑞霞.基于機器學(xué)習(xí)的網(wǎng)絡(luò)異常流量分析系統(tǒng)[J].電腦知識與技術(shù),2020(4):30-31.