王瑩 王順新 談龍兵
關鍵詞:云平臺、流量分析、自動化測試、業(yè)務保障、可視化
一、引言
近年我國工業(yè)互聯(lián)網(wǎng)平臺發(fā)展迅速,為加快企業(yè)數(shù)字化轉型提供了有力支撐。工信部將進一步加快企業(yè)數(shù)字化智能化轉型,鼓勵大企業(yè)建設跨行業(yè)跨領域和特定行業(yè)區(qū)域工業(yè)互聯(lián)網(wǎng)平臺,同時推動發(fā)布中小企業(yè)數(shù)字化轉型指南等引導性政策文件,支持中小企業(yè)上云用云[1]。
較以往業(yè)務本地化,企業(yè)業(yè)務上云后,在網(wǎng)絡及業(yè)務性能監(jiān)控方面將面臨一系列新問題:
①故障排查處理流程長,處理時效差:故障排查處理,涉及云外運營商網(wǎng)絡、云內(nèi)網(wǎng)絡及軟硬件廠商、云業(yè)務編排等多個環(huán)節(jié)使得故障排查流程變長,故障定界定位時效差。
②缺乏租戶級監(jiān)控:上云后的“虛”環(huán)境使得用戶運維人員無法再對除業(yè)務之外的軟硬件等進行監(jiān)控,宿主機、網(wǎng)絡設備真實的負荷、告警以及可能潛在的安全漏洞等可能導致業(yè)務中斷的情況。
③缺乏實時性監(jiān)控及評估:例行的周報、月報等性能、運行報告難以提前發(fā)現(xiàn)隱患,缺乏整體性、實時性以及可視化的監(jiān)控手段。
業(yè)務上云后面臨的問題對云端業(yè)務保障手段提出了新要求,即“云業(yè)務除了傳統(tǒng)的監(jiān)控/ 保障方式(如SNMP、Zabbix 系統(tǒng)監(jiān)控,架構自帶的高可用)外,還有哪些方式可以完善云業(yè)務的保障體系,保障云業(yè)務的持續(xù)高可用?
二、保障思路
基于不同云架構平臺網(wǎng)絡及業(yè)務保障場景,融合網(wǎng)絡流量分析及探針自動化測試兩個手段,采用流量分析實現(xiàn)租戶及業(yè)務關聯(lián)識別并進行流量建模,利用植入宿主機的軟探針進行自動化測試并收集測試數(shù)據(jù),結合租戶業(yè)務特征及探針測試結果呈現(xiàn)云平臺業(yè)務全景監(jiān)控,通過不間斷采集資源及配置信息。如算力(CPU、內(nèi)存)、存儲、負載等信息,按照訂購信息進行租戶與業(yè)務關聯(lián),配合租戶所屬SLA 等級實現(xiàn)模塊化監(jiān)控及告警,實現(xiàn)主動+ 被動手段有效結合,達到保障云平臺網(wǎng)絡及業(yè)務穩(wěn)健及高可用目的。
三、實現(xiàn)方法
結合本省云平臺網(wǎng)絡拓撲及云上業(yè)務特征,分別制定云內(nèi)外網(wǎng)絡保障和云內(nèi)業(yè)務保障兩個子方案,相關測試及采集數(shù)據(jù)匯總于省內(nèi)云業(yè)務監(jiān)控及保障平臺進行綜合可視化呈現(xiàn),對網(wǎng)絡+ 業(yè)務的綜合性監(jiān)控及告警,呈現(xiàn)云平臺網(wǎng)絡及業(yè)務性能監(jiān)控一體化視圖。
(一)云內(nèi)外網(wǎng)絡監(jiān)控保障
結合云平臺網(wǎng)絡拓撲分別于用戶側、接入PE、省網(wǎng)PE、云平臺入口、云主機等5 個關鍵節(jié)點做為監(jiān)測點部署主動監(jiān)控探針,通過專用的數(shù)據(jù)回傳通道將分段測試數(shù)據(jù)回傳至云業(yè)務監(jiān)控及保障平臺,平臺對5 個關鍵點的測試結果進行分段處理及匯總,得到網(wǎng)絡質(zhì)量全景化視圖。
云外網(wǎng)絡監(jiān)控及保障手段:從用戶接入至云平臺入口之間的專用或公用網(wǎng)絡,在用戶側部署便攜式探針,基于城域網(wǎng)落地PE 及專網(wǎng)入口設備部署機架式高性能探針用于分段測試。
云內(nèi)網(wǎng)絡監(jiān)控及保障手段:對于虛擬化環(huán)境,采用虛擬化探針的方式,將探針部署于宿主機以及租戶虛機等位置進行業(yè)務測試及監(jiān)控,測試宿主機或VPC 至云平臺網(wǎng)關的underlay 網(wǎng)絡質(zhì)量,實現(xiàn)云業(yè)務端到端的故障定界。
1. 監(jiān)測點探針主要功能及測試內(nèi)容
監(jiān)測點1:便攜式探針,置于用戶辦公室模擬同一網(wǎng)絡環(huán)境,支持Ping、Traceroute、TCP/UDP 測試等基礎連通性測試、業(yè)務仿真測試等。實現(xiàn)對落地PE、網(wǎng)絡PE、云入口、云主機4 個監(jiān)測點不間斷Ping 測試以及結合業(yè)務類型對云端業(yè)務進行測試。
監(jiān)測點2、3、4:機架式高性能探針,部署于落地PE、網(wǎng)PE、云入口測試傳輸通道質(zhì)量,支持萬兆網(wǎng)絡,支持高并發(fā)具備應用壓力測試、應用層業(yè)務性能分析等多項高級功能。
監(jiān)測點5:軟探針,以軟件包形式部署于宿主機或作為一個VNF 功能部署于租戶虛機內(nèi),支持操作系統(tǒng)環(huán)境及性能參數(shù)采集。實現(xiàn)對云內(nèi)管理網(wǎng)絡以及租戶的VPC 虛機、私有網(wǎng)絡自動化測試以及實時采集宿主機或虛機的相關性能信息,如主機CPU、內(nèi)存利用率、磁盤存儲性能、進程類占用、網(wǎng)絡資源占用等性能指標。
2. 測試原理
Ping 測試:網(wǎng)絡可達性測試,用于測試IP 網(wǎng)絡的連通性。發(fā)送端周期發(fā)送ICMP Echo 消息給接收端,發(fā)送端根據(jù)收到Reply 消息數(shù)量以及接收Echo Reply 與發(fā)送Echo 的時間差計算丟包率、時延、抖動等指標。
TraceRoute 測試:實現(xiàn)對源和目標的數(shù)據(jù)報傳送中路徑的探測,返回至目的節(jié)點中間的路由信息和默認每跳3 次的Ping 測試結果,通過對兩次測試結果進行路徑比較,將路徑變化情況進行量化,可直觀檢測路由路徑的變化。
DNS 測試:DNS 測試通過發(fā)送Query 消息向指定的域名服務器請求解析某域名,計算域名解析的時間和解析成功率[2]。
TCP 測試:TCP 測試用于測試IP 網(wǎng)絡的數(shù)據(jù)包傳輸質(zhì)量,是端到端測試,使用兩臺探針各自統(tǒng)計收發(fā)雙方根據(jù)收到TCP 數(shù)據(jù)包個數(shù)與時間計算TCP 握手時延、TCP 握手成功率等指標。
HTTP 測試:向Web 服務器發(fā)起HTTP 請求, 對WEB 服務器返回內(nèi)容進行解析并下載相應的頁面元素,獲取每個頁面元素的DNS 解析時延、TCP 連接時延、下載時延、吞吐率,經(jīng)過綜合感知評分后得到用戶訪問整體頁面的綜合質(zhì)量。
綜合質(zhì)量:綜合感知評估體系基于DNS 解析時延(權重20%)、TCP 連接時延( 權重20%)、下載時延(權重30%)和吞吐率(權重30%)四個指標,每個指標根據(jù)測試結果劃分0-50、50-80、80-100 三個線性得分區(qū)間,每項指標的區(qū)間得分乘以指標權重,再求和之后得到的分數(shù)即為綜合質(zhì)量。
(二)云內(nèi)業(yè)務監(jiān)控保障
對業(yè)務監(jiān)測的前提是要識別業(yè)務,在宿主機或vSwich 上部署流量采集設備進行流量采集和流量分析,通過解析流量中的五元組信息或應用特征字段實現(xiàn)租戶流量識別、業(yè)務識別以及業(yè)務關鍵KPI 指標統(tǒng)計。
有兩個虛擬化場景下的云架構資源池,一號資源池是基于VMware 的虛擬化方案,二號資源池是基于華為的虛擬化方案。需要考慮在虛擬環(huán)境下的流量采集問題,譬如流量的獲取方式、環(huán)境中的流量模型、采集點的規(guī)模和可管理性、采集機部署后對現(xiàn)網(wǎng)環(huán)境的影響、流量分析數(shù)據(jù)回傳等多個問題。
目前在虛擬環(huán)境下,虛擬流量采集可行的方案有:
① VM 內(nèi)部署虛擬探針模式;
②在宿主機Hypervisor 上安裝采集探針;
③ vSwitch 鏡像+ 虛機虛擬探針模式(虛擬化);
④ vSwitch 鏡像引出模式。
因此,需要結合不同平臺下的實際環(huán)境采用不同的方案[3]。
1. 一號資源池(華為云環(huán)境)的流量采集方案
根據(jù)實際情況評估,采用在宿主機Hypervisor(如Openstack Hypervisor)上安裝采集探針方式部署。
采用宿主機管理端口做探針管理地址,配置采集探針使用抓包的方式對業(yè)務流量端口進行抓包,部署NPM流量分析模塊到公共管理域虛機上,分配管理地址做平臺的登錄維護地址,探針向平臺進行注冊后,由平臺下發(fā)流量采集任務。
2. 二號資源池(VMware 云環(huán)境)的流量采集方案
根據(jù)實際情況評估,采用vSwitch 鏡像+ 虛機虛擬探針模式(虛擬化)+vSwitch 鏡像引出模式部署。
VMware 分配2 臺虛機部署探針和平臺,配置OVS鏡像到探針所在虛機,先進行探針所在宿主機流量鏡像,完成本機鏡像流量測試后,再配置遠程OVS 鏡像到探針所在虛機進行,OVS 鏡像引出方式實現(xiàn)流量采集。
四、實現(xiàn)效果
(一)租戶資源容量可視化
通過對租戶的宿主機、虛機的資源信息及運行狀態(tài)采集匯聚,租戶可以查看已訂購資源的負載統(tǒng)計,如CPU、內(nèi)存利用率、磁盤分區(qū)利用率、網(wǎng)卡流量利用率等信息以及綜合健康度信息,便于租戶實時了解資源利用情況,通過郵件或短信方式主動提醒租戶資源超限情況,為租戶彈性化的業(yè)務編排和資源訂購提供數(shù)據(jù)依據(jù)。
(二)租戶業(yè)務質(zhì)量可視化
通過部署流量采集與流量分析模塊,基于業(yè)務特征庫識別租戶業(yè)務類型,根據(jù)訂購關系識別租戶流量中關鍵的業(yè)務指標并進行可視化呈現(xiàn),比如TCP 建鏈時延和成功率、DNS 解析成功率、HTTP 業(yè)務響應時延和成功率等,支持下鉆至IP/ 主機維度,當業(yè)務流量或質(zhì)量異常或下降時,快速定位故障主機。
實現(xiàn)對用戶的秒級粒度的會話數(shù)和會話包數(shù)進行采集,匯聚分鐘或小時粒度的會話數(shù)和報文數(shù)建立會話流量監(jiān)控模型,支持告警及可視化呈現(xiàn)。例如:統(tǒng)計某個采樣周期內(nèi),平均會話數(shù)較最近連續(xù)7 個周期的均值偏差,設定偏差閾值產(chǎn)生告警,通知云平臺監(jiān)控部門預先進行定界和定位并積極協(xié)同相關業(yè)務部門或者租戶開展進一步排查與修復,達到先于租戶發(fā)現(xiàn)問題并修復問題,保障租戶業(yè)務連續(xù)性,提升租戶對云平臺服務滿意度。
(三)云端網(wǎng)絡質(zhì)量可視化
基于云內(nèi)以及云外探針不間斷對云業(yè)務網(wǎng)絡分段自動化測試,結合網(wǎng)絡拓撲,統(tǒng)計云主機至用戶側落地PE、云主機至城域網(wǎng)、云主機至云平臺出口的時延、丟包、抖動等網(wǎng)絡性能指標并可視化呈現(xiàn)。
通過統(tǒng)計并監(jiān)控每段網(wǎng)絡的時延和丟包指標波動,重點監(jiān)控租戶端到端網(wǎng)絡時延和丟包率與近7 個周期均值的偏離情況,產(chǎn)生指標偏離告警時,通過分段的探針撥測指標來輔助定界并協(xié)調(diào)相關部門開展排查。
(四)支持定制化SLA 測試及可視化
為滿足租戶上云后業(yè)務對服務質(zhì)量的基本需求,對客戶簽約的SLA 服務級別進行測試驗證:比如通過FTP測試或HTTP 下載測試展現(xiàn)租戶的簽約帶寬保障;通過持續(xù)高頻的Ping 測試呈現(xiàn)租戶簽約的鏈路質(zhì)量服務等級保障;或基于租戶不同業(yè)務需求進行一些定制化測試等,并對測試結果進行可視化呈現(xiàn),提升租戶對云平臺信任度。
(五)性能與感知相關性可視化
業(yè)務關鍵性能指標的高低變化可較為直觀的反映業(yè)務感知的優(yōu)劣,通過將網(wǎng)絡性能指標與業(yè)務關鍵性能指標進行關聯(lián),構建網(wǎng)絡性能與業(yè)務質(zhì)量相關性模型,根據(jù)不同業(yè)務類型與網(wǎng)絡性能指標的相關性,將網(wǎng)絡性能對業(yè)務感知的影響進行量化,以業(yè)務健康度的方式呈現(xiàn)于租戶視圖和專題視圖,租戶可以直觀的一覽資源占用以及業(yè)務感知評分情況,為租戶提供更多增值服務,有利于提升云平臺品牌價值和市場競爭力。
四、結束語
基于云業(yè)務流量分析以及自動化測試的業(yè)務可靠性保障方案是將網(wǎng)絡流量分析工具和基于網(wǎng)絡多層級探針自動化測試手段二者進行有效融合形成的一種保障方案,也是對當前云端業(yè)務保障方案的一次探索和創(chuàng)新。該方案較好地填補了當前在云端業(yè)務單一依靠云內(nèi)設備自身日志和告警進行監(jiān)控的盲區(qū),結合多探針分段定位、云內(nèi)性能主動采集、業(yè)務流量實時分析、輔以實時的大數(shù)據(jù)處理手段并進行可視化呈現(xiàn),手段上實現(xiàn)主動+ 被動、場景上實現(xiàn)云內(nèi)+ 云外、質(zhì)量上實現(xiàn)網(wǎng)絡+ 業(yè)務的有效融合,形成了完整可靠的整體云平臺監(jiān)控與保障體系,提升移動云平臺品牌價值與市場競爭力。