張洪凱
【摘要】? ? 面對大規(guī)模、高性能的網(wǎng)絡監(jiān)控需求,用戶需要一種新的網(wǎng)絡監(jiān)控方式。遙測技術可以滿足用戶要求,支持運維系統(tǒng)對監(jiān)控設備的全量指標采集、監(jiān)控數(shù)據(jù)擁有更高精度和更加實時、監(jiān)控過程對設備自身功能和性能影響小,為網(wǎng)絡問題的快速定位、網(wǎng)絡質(zhì)量優(yōu)化調(diào)整提供了最重要的大數(shù)據(jù)基礎,將網(wǎng)絡質(zhì)量分析轉換為大數(shù)據(jù)分析,有力的支撐了云網(wǎng)絡精細和智能運維的需要。通過Telemetry協(xié)議直接從底層硬件秒級獲取豐富的業(yè)務運行狀態(tài)及性能數(shù)據(jù),全景可視化展示云數(shù)據(jù)中心網(wǎng)絡的整體運行情況,豐富的業(yè)務流示圖為云網(wǎng)絡精細運維、敏捷響應及優(yōu)化提供有力數(shù)據(jù)支撐,助力網(wǎng)絡智能運維。
【關鍵字】? ? 遙測技術? ? 網(wǎng)絡? ? 云數(shù)據(jù)中心
一、數(shù)據(jù)中心向云數(shù)據(jù)中心轉變,網(wǎng)絡復雜度不斷增加。
當今,數(shù)字經(jīng)濟蓬勃發(fā)展,信息技術已深度融合到經(jīng)濟社會的各個領域,各種互聯(lián)網(wǎng)應用像支付、打車、外賣等應用,都正在融入并改變?nèi)藗兊墓ぷ骷吧罘绞健_@些互聯(lián)網(wǎng)應用的穩(wěn)定運行越發(fā)顯得重要,作為承載互聯(lián)網(wǎng)應用的云數(shù)據(jù)中心網(wǎng)絡,任何一條線路及系統(tǒng)故障都有可能對用戶產(chǎn)生嚴重影響。電信運營商作為大型云數(shù)據(jù)中心網(wǎng)絡提供商,面對用戶流量需求爆炸式增長和復雜多樣的網(wǎng)絡需求,也以云和數(shù)據(jù)中心為抓手,積極構建支撐數(shù)字經(jīng)濟發(fā)展的穩(wěn)固基礎底座。
然而隨云計算、大數(shù)據(jù)、人工智能等新技術的興起和成熟,也推動了互聯(lián)網(wǎng)數(shù)據(jù)中心產(chǎn)品、規(guī)模和技術的快速升級和轉型。
首先,網(wǎng)絡規(guī)模不斷擴大,云數(shù)據(jù)中心接入帶寬從傳統(tǒng)的10Gbps升級到25Gbps/100Gbps,出口帶寬達到10Tbps以上。
其次,網(wǎng)絡架構復雜度增加,引入SDN(Software Defined Network,軟件定義網(wǎng)絡),實現(xiàn)傳統(tǒng)網(wǎng)絡資源、服務器資源及存儲資源的云網(wǎng)一體化整合。
最后,越來越多的高性能和低時延應用,如GPU、HPC、AI等業(yè)務嚴重依賴數(shù)據(jù)中心網(wǎng)絡傳輸質(zhì)量,對網(wǎng)絡性能提出更高帶寬容量、更低時延的連接要求。
二、云數(shù)據(jù)中心網(wǎng)絡運維面臨的挑戰(zhàn)
云數(shù)據(jù)中心網(wǎng)絡的設備規(guī)模日益增大,承載的業(yè)務越來越多,用戶對網(wǎng)絡運維也提出了更高的要求,包括監(jiān)控數(shù)據(jù)擁有更高的精度以便及時檢測和快速調(diào)整微突發(fā)流量,同時監(jiān)控過程要對設備自身功能和性能影響小,以便提高設備和網(wǎng)絡的利用率,特別是云網(wǎng)一體的融合網(wǎng)絡,對Underlay和Overlay網(wǎng)絡的運維都提出了更高的挑戰(zhàn)。如何保障其穩(wěn)定、可靠及可控運行。
從運維角度,需要更加精細、智能的網(wǎng)絡運維監(jiān)控系統(tǒng),才能實現(xiàn)對網(wǎng)絡高效管理。如何建立端到端的業(yè)務可視運維系統(tǒng),建立智能化的監(jiān)控中心,構建高效、精細地管理云數(shù)據(jù)中心,為業(yè)務提供可靠、穩(wěn)定的網(wǎng)絡服務,成為云數(shù)據(jù)中心網(wǎng)絡運維面臨的一大挑戰(zhàn)。
然而,傳統(tǒng)基于CLI、SNMP機制的被動運維模式,因存在通過拉模式來獲取設備的監(jiān)控數(shù)據(jù),不能監(jiān)控大量網(wǎng)絡節(jié)點,限制了網(wǎng)絡增長;精度是分鐘級別,只能依靠加大查詢頻度來提升獲取數(shù)據(jù)的精度,但是這樣會導致網(wǎng)絡節(jié)點CPU利用率高而影響設備的正常功能;由于網(wǎng)絡傳輸時延的存在,監(jiān)控到的網(wǎng)絡節(jié)點數(shù)據(jù)并不準確。這種被動響應、故障定位遲緩等網(wǎng)絡監(jiān)控系統(tǒng),管理效率越來越低,已無法跟上時代的步伐,無法滿足數(shù)據(jù)中心云網(wǎng)絡運維要求。
因此,面對大規(guī)模、高性能的網(wǎng)絡監(jiān)控需求,用戶需要一種新的網(wǎng)絡監(jiān)控方式。能夠在不影響設備的性能和功能的情況下實現(xiàn)更高精度的網(wǎng)絡數(shù)據(jù)監(jiān)控。能夠快速、精準地掌握全網(wǎng)設備、鏈路和業(yè)務的實時運行狀態(tài),可以通過自動化平臺收集信息,快速對網(wǎng)絡進行適配,提升響應速度和運維效率。
針對影響業(yè)務體驗、用戶感知的性能問題如丟包、卡頓等故障,需快速根據(jù)轉發(fā)路徑時延情況確定故障點。因此,云數(shù)據(jù)中心網(wǎng)絡監(jiān)控系統(tǒng)需快速定位哪臺網(wǎng)絡轉發(fā)設備的哪個端口發(fā)生丟包、實時監(jiān)控每臺設備的Buffer、流量等使用情況、快速定位故障的具體設備、轉發(fā)路徑、故障端口、故障鏈路等信息,迅速找出故障根因并修復。
網(wǎng)絡遙測技術可以滿足這些網(wǎng)絡管理要求,其監(jiān)控數(shù)據(jù)擁有秒級的精度時時檢測和快速調(diào)整微突發(fā)流量,同時監(jiān)控過程對設備自身功能和性能影響小,大大提高設備和網(wǎng)絡的利用率,為智能運維系統(tǒng)管理更多的設備提供了可能,其高效的數(shù)據(jù)獲取方式和海量的運行數(shù)據(jù),為網(wǎng)絡故障的快速定位、網(wǎng)絡運行質(zhì)量優(yōu)化提供了最關鍵的大數(shù)據(jù)基礎,通過對大量網(wǎng)絡運行數(shù)據(jù)的大數(shù)據(jù)分析,可快速定位故障根因,為網(wǎng)絡故障的修復和網(wǎng)絡質(zhì)量的優(yōu)化提供決策依據(jù),為業(yè)務網(wǎng)絡流量實現(xiàn)智能調(diào)度,從而支撐云數(shù)據(jù)中心網(wǎng)絡的智能運維。
三、網(wǎng)絡遙測技術概述
網(wǎng)絡遙測(Network Telemetry)是一種從虛擬設備或物理設備上遠程采集運行狀態(tài)數(shù)據(jù)的技術,并且具有實時、高速、準確的特點。被控設備通過推送模式根據(jù)采集周期、采集表項主動向采集控制器發(fā)送性能和流量數(shù)據(jù)。相對傳統(tǒng)拉取模式的一問一答式交互,網(wǎng)絡遙測技術提供了更實時、更豐富、更高速的數(shù)據(jù)采集功能。不但節(jié)省了問答式網(wǎng)絡鏈路開銷,更是以秒級速度實現(xiàn)對被控設備運行數(shù)據(jù)的高速收集,實時感知網(wǎng)絡運行狀態(tài)。遙測技術是設備交換芯片在處理數(shù)據(jù)包的同時,根據(jù)報文轉發(fā)路徑自行收集性能參數(shù)和流量狀態(tài)的一種帶內(nèi)網(wǎng)絡技術INT(In-band Network Telemetry)。狹義的Telemetry是指設備特性,廣義的為是一個閉環(huán)的監(jiān)控系統(tǒng)事實上,Telemetry并不是新發(fā)明,Netstream和NetFlow早已實現(xiàn)了對網(wǎng)絡流量的采樣推送,但此類技術推送的是原始數(shù)據(jù)流采樣信息,它根據(jù)報文的目的IP、目的端口號、源ip地址、源端口號、協(xié)議號和tos來區(qū)分流信息,并針對不同的流信息進行獨立的數(shù)據(jù)統(tǒng)計。而監(jiān)控用戶期望標準化的數(shù)據(jù)模型。面對海量的云數(shù)據(jù)中心網(wǎng)絡,任意一項分析任務都需要處理大量數(shù)據(jù),對分析工具的性能帶來挑戰(zhàn)。同時,此類技術獲取不了全量網(wǎng)絡狀態(tài)信息,如cpu、內(nèi)存、接口流量及網(wǎng)絡事件日志等,需要snmp類協(xié)議采用查詢應答方式機制實現(xiàn)分鐘級數(shù)據(jù)收集,存在被動響應、效率低下和采集手段復雜等特點。網(wǎng)絡遙測技術和SNMP、NETstream等技術相比,可實現(xiàn)更高的數(shù)據(jù)精度和更豐富的設備監(jiān)控數(shù)據(jù)獲取能力。
四、遙測技術的數(shù)據(jù)中心網(wǎng)絡監(jiān)控系統(tǒng)的應用
基于遙測技術的網(wǎng)絡監(jiān)控系統(tǒng)由被管理的網(wǎng)絡設備、采集器、控制器和分析器組成,采用INT和gRPC(Google Remote Procedure Call,谷歌遠程過程調(diào)用)技術架構方案實現(xiàn)。
采集器主要實現(xiàn)對被管理網(wǎng)絡設備的數(shù)據(jù)收集,常常采用分布式部署,其規(guī)模根據(jù)被管理網(wǎng)絡設備規(guī)模確定。控制器是對采集器及采集對象表項、周期和參數(shù)的統(tǒng)一控制。分析器是對采集器上報的數(shù)據(jù)進行整體的編碼及分析。
INT遙測技術采用訂閱上報機制,通過設備底層芯片秒級收集網(wǎng)絡轉發(fā)運行數(shù)據(jù),不占用設備cpu開銷,隨業(yè)務流轉發(fā)路徑實時檢測。數(shù)據(jù)收集范圍涵蓋了網(wǎng)絡設備的轉發(fā)面、控制面和管理面。但是無法對交換機的Buffer進行全面的管理,包括出、入端口/隊列、緩存、丟包等實時監(jiān)控,顯得有些無力。
于是,采用gRPC框架構建自動化運維接口,實現(xiàn)對交換機Buffer的全面實時管理,基于gRPC的運維接口設計,既滿足運維對單個網(wǎng)絡網(wǎng)元全面的Buffer實時性要求,又實現(xiàn)實現(xiàn)交換機與運維平臺的解耦合,彼此透明、獨立。通過對監(jiān)控對象設備原始數(shù)據(jù)的收集、編碼、傳輸、存儲和分析,基于遙測技術的網(wǎng)絡運維系統(tǒng)實現(xiàn)傳統(tǒng)運維向智能運維的轉變,包括3方面的核心能力:
4.1 Telemetry全場景數(shù)據(jù)監(jiān)控,網(wǎng)絡實時可視
采集器基于Telemetry協(xié)議收集設備、芯片、表項、Buffer、光模塊等網(wǎng)絡全景KPI數(shù)據(jù),網(wǎng)絡狀態(tài)實時感知。各項采集數(shù)據(jù)通過采集器以PUSH+gRPC方式把各種指標結構化的標準數(shù)據(jù)持續(xù)推流分析器,通過數(shù)據(jù)分析,實現(xiàn)云數(shù)據(jù)中心全流量數(shù)據(jù)可視和隨流的路徑、質(zhì)量檢測。
4.2系統(tǒng)亞健康智能分析,主動預防故障
分析器通過采集器收集的設備關鍵KPI指標,從設備、單板、芯片、端口、隊列、光模塊多個維度呈現(xiàn)設備的運行狀況。采用大數(shù)據(jù)算法,基于動態(tài)異?;€監(jiān)測,識別網(wǎng)絡劣化指標。分析器利用大數(shù)據(jù)技術,結合故障特征庫進行跨數(shù)據(jù)領域關聯(lián)分析,對光鏈路進行故障檢修和故障概率測算,先于業(yè)務受影響前識別出異常光鏈路。提前發(fā)現(xiàn)隱患、預測故障。
通過設備、網(wǎng)絡、協(xié)議、overlay、業(yè)務五個維度實時或周期性產(chǎn)生網(wǎng)絡評估報表,全面掌握網(wǎng)絡狀態(tài),實時推送。實現(xiàn)故障的主動防御,在用戶發(fā)覺問題前將問題解決,避免對業(yè)務造成影響。
4.3利用網(wǎng)絡流實現(xiàn)故障根因的快速定位
大型云數(shù)據(jù)中心,往往是一個云網(wǎng)融合的網(wǎng)絡,既又由交換機、路由器等物理硬件組成的物理underlay網(wǎng)絡,也有在underlay網(wǎng)絡上為業(yè)務或用戶構建邏輯隔離的虛擬overlay網(wǎng)絡空間,其網(wǎng)絡架構復雜,技術堆棧層次多,對故障的識別帶來極大困難。特別是一些對網(wǎng)絡延遲要求較高的業(yè)務,如高性能計算、人工智能等微服務軟件和分布式架構,業(yè)務調(diào)研關系更加復雜,數(shù)據(jù)交換更頻繁。出現(xiàn)故障后,對故障的響應和定位要求更高。
通過遙測技術可快速獲取業(yè)務流檢測信息,構建起租戶到資源端到端數(shù)據(jù)流可視系統(tǒng),任何一條數(shù)據(jù)流包括了報文轉發(fā)路徑信息、開始時間和結束時間、傳輸開銷、路徑時延遲、延遲時延等關鍵控制信息。對獲取的大量業(yè)務流信息,根據(jù)業(yè)務overlay路徑搭建模型,實現(xiàn)業(yè)務承載網(wǎng)絡的路徑流向分析,從而實現(xiàn)故障的智能識別。當業(yè)務出現(xiàn)指標劣化、訪問緩慢、交易失敗等性能問題時能及時感知,故障時能在各環(huán)境和節(jié)點快速定位找出根由。通過對故障分析,持續(xù)推動對網(wǎng)絡的迭代優(yōu)化,完善網(wǎng)絡環(huán)境。在各節(jié)點、各服務運行環(huán)境的SLA一覽無余。通過利用業(yè)務流跟蹤計算路徑和時延,系統(tǒng)實現(xiàn)故障快速故定位。
五、總結:
基于帶內(nèi)網(wǎng)絡遙測技術和谷歌遠程調(diào)用框架的遙測技術實現(xiàn)業(yè)務端到端的網(wǎng)絡流量可視化,提升了網(wǎng)絡監(jiān)控數(shù)據(jù)的實時性和精確度,以業(yè)務流的方式實現(xiàn)對云數(shù)據(jù)中心網(wǎng)絡的智能監(jiān)控,保障業(yè)務穩(wěn)定、可靠運行,助力數(shù)字經(jīng)濟蓬勃發(fā)展。