中國移動通信集團江蘇有限公司南京分公司 周 雋
當前服務質(zhì)量優(yōu)化工作,往往依賴于用戶投訴或故障觸發(fā),業(yè)務相關的薄弱環(huán)節(jié)難發(fā)現(xiàn)、難預知。因此,迫切需要建立一套從“服務性能監(jiān)視”到“服務瓶頸發(fā)現(xiàn)”到“主動干預調(diào)整”的依賴流程驅(qū)動的自激勵模式,使得事后維護向事前維護轉(zhuǎn)變,補救性維護向預防性維護轉(zhuǎn)變。
重點滿足互聯(lián)網(wǎng)運維中如下幾個方面的需求:
1)建立全面、科學的寬帶運營維護評估體系,實現(xiàn)服務質(zhì)量可視化;
2)提供基于拓撲管理的設備和鏈路管理手段,實現(xiàn)對網(wǎng)元運行狀態(tài)和故障的實時監(jiān)控;
3)建立預判告警手段,實現(xiàn)對潛在故障點和薄弱環(huán)節(jié)的前發(fā)現(xiàn)、提前改進,并能通過郵件、短信等方式進行告警通知。
4)支持全面應用環(huán)節(jié)監(jiān)控管理,提供DNS(域名系統(tǒng))用戶掉線、認證性能等寬帶業(yè)務及應用相關性能數(shù)據(jù),并進行統(tǒng)計分析;
5)采用客戶端排障與網(wǎng)絡故障排查相結(jié)合的方式,提供直觀快速的故障排查手段,建立用戶維度上網(wǎng)接入設備的級聯(lián)模型,實現(xiàn)故障點的快速定位;
6)系統(tǒng)自動對用戶賬號與IP地址動態(tài)匹配關聯(lián),實現(xiàn)從用戶維度對用戶行為及網(wǎng)服務質(zhì)量的監(jiān)控管理。
系統(tǒng)采用指標集中監(jiān)測、資源級聯(lián)發(fā)現(xiàn)及主動仿真測試相結(jié)合的方式,將用戶感知與網(wǎng)絡質(zhì)量數(shù)據(jù)從用戶維度加以關聯(lián)分析和展現(xiàn)。系統(tǒng)結(jié)構(gòu)如圖1所示。
系統(tǒng)功能包括數(shù)據(jù)采集處理、接入質(zhì)量分析、傳輸質(zhì)量分析、用戶感知分析、寬帶認證分析、流量分析、DNS性能分析、綜合告警管理、智能排障處理、統(tǒng)一資源管理、實時監(jiān)控、系統(tǒng)管理等功能模塊,見圖2。
2.2.1 數(shù)據(jù)采集處理
數(shù)據(jù)采集是所有服務質(zhì)量監(jiān)控與網(wǎng)絡管理的前提。數(shù)據(jù)采集主要包括數(shù)據(jù)的收集、數(shù)據(jù)整理和數(shù)據(jù)預處理(如過濾、對照、豐富等)。為了保證數(shù)據(jù)采集的完整性,系統(tǒng)提供對數(shù)據(jù)采集結(jié)果的瀏覽和手動啟動采集的能力,即通過定制采集的周期和時間,實現(xiàn)對日常數(shù)據(jù)的自動采集,當由于異常情況引起采集失敗的時候,通過啟動手動數(shù)據(jù)采集進行數(shù)據(jù)補采。同時,對采集到的性能數(shù)據(jù)進行高效的數(shù)據(jù)聚合、統(tǒng)計等處理工作,并靈活定義告警門限,及時生成告警信息;對采集到的用戶流量數(shù)據(jù)通過與RADUIS數(shù)據(jù)的比對處理,形成用戶賬號與IP流量對象的邏輯關聯(lián)。
2.2.2 接入質(zhì)量分析
系統(tǒng)定期自動獲取本地網(wǎng)異常掉線用戶的相關信息,提供接入質(zhì)量相關的掉線匯總統(tǒng)計、掉線類型統(tǒng)計、用戶掉線排行、BAS掉線排行。
2.2.3 傳輸質(zhì)量測試分析
對用戶來說,鏈路質(zhì)量的好壞直接關系到整個網(wǎng)絡數(shù)據(jù)傳輸?shù)馁|(zhì)量,同時也會直接影響為客戶提供服務的質(zhì)量。系統(tǒng)提供了完善傳輸性能測試工具,并通過圖表的方式,對所關注的各鏈路性能進行分析。系統(tǒng)可靈活定制測試任務計劃,對各考核路徑的丟包率、延時指標進行統(tǒng)計。
2.2.4 用戶感知分析
鑒于互聯(lián)網(wǎng)業(yè)務日趨多樣、用戶行為復雜等特點,用傳統(tǒng)的網(wǎng)絡質(zhì)量評估方式很難有效反映客戶感知。系統(tǒng)通過仿真探針與客戶端方式實現(xiàn)網(wǎng)頁訪問、在線視頻、網(wǎng)絡游戲等主流業(yè)務端到端的服務質(zhì)量評估,從而指導維護優(yōu)化工作,改善網(wǎng)絡客戶感知,降低網(wǎng)絡客戶投訴。
2.2.5 寬帶認證分析
系統(tǒng)實時采集RADIUS(遠程用戶撥號認證系統(tǒng))計費和認證消息數(shù)據(jù),提供在線用戶分析、RADIUS性能分析、掉線原因分析、多端口用戶分析、用戶認證記錄查詢等功能。
2.2.6 流量與性能分析
系統(tǒng)對路由器、BAS、OLT、ONU的端口流量及性能指標進行周期性采集分析,提供全環(huán)節(jié)的監(jiān)控保障。同時,通過自動采集配置帶寬,實現(xiàn)端口占比及突變預警。
2.2.7 DNS性能分析
系統(tǒng)實時采集用戶的DNS報文分析,提供指定DNS服務器性能分析。
提供指定周期內(nèi),不同DNS服務器、各時段分布的壓力分析。統(tǒng)計數(shù)據(jù)項包括:請求總包數(shù)、回包數(shù)、成功解析包數(shù)、平均響應時長、響應成功率、解析成功率。
提供指定周期內(nèi),不同DNS服務器解析失敗原因分類分析,提供失敗數(shù)、失敗率統(tǒng)計。
2.2.8 綜合告警臺
綜合預警臺通過主動檢測關鍵服務指標、集中展現(xiàn)最新“預警信息”。運維人員可根據(jù)預警級別進行確認和優(yōu)化處理。
告警信息包括:BAS在線人數(shù)告警、接口流量告警、RADIUS告警、DNS服務告警、鏈路質(zhì)量告警、設備故障告警等。
提供依據(jù)事件分類配置不同報警規(guī)則的設置頁面,報警信息將按照事件分類與通知規(guī)則的對應關系通過短信、E-mail兩種方式及時通知到管理員。
2.2.9 智能排障處理
通過自動建立“用戶上網(wǎng)設備級聯(lián)模型”,從“寬帶賬號”維度整合設備告警、流量擁塞、認證失敗、異常掉線、網(wǎng)絡性能,方便運維人員快速定位故障。代維及客服人員可以Web終端方式登錄,通過簡單操作實現(xiàn)報障提前診斷與預處理,簡化后續(xù)流程。
2.2.10 統(tǒng)一資源管理
鑒于傳統(tǒng)資源臺賬人工維護的工作量壓力與準確性差異,資源管理重點實現(xiàn)PON(無源光網(wǎng)絡)資源的自動登記管理,根本解決手工維護信息問題。系統(tǒng)功能包括:設備信息管理、鏈路維護管理、鏈路群維護管理、區(qū)域信息管理、設備級聯(lián)關系查詢、設備資源占用率統(tǒng)計等功能。
2.2.11 系統(tǒng)管理
系統(tǒng)管理提供用戶權(quán)限管理、日志管理、參數(shù)管理等功能。
系統(tǒng)中各種基礎數(shù)據(jù)的獲取,主要通過協(xié)議適配器、測試管理工具、寬帶客戶端、應用接口這4種方式進行采集。
1)協(xié)議適配器:由分布式數(shù)據(jù)采集網(wǎng)關(GW)和適配器模塊組成,支持數(shù)據(jù)的分布式采集、前置預處理、歸一化處理功能。提供基于通用設施(如線程池、數(shù)據(jù)庫連接池,任務隊列、消息緩存和過濾機制等)的各種協(xié)議采集,如SNMP(簡單網(wǎng)絡管理協(xié)議)、NetFlow(一種數(shù)據(jù)交換方式)/NetStream(提供報文統(tǒng)計功能)、RADUIS、NAT(網(wǎng)絡地址轉(zhuǎn)換)、DNS、Syslog(系統(tǒng)操作日志)等,同時協(xié)議適配器可基于新的數(shù)據(jù)采集要求進行靈活的協(xié)議擴充。
2)測試管理框架:實現(xiàn)基于分布式測試服務器的主動測試管理,完成測試任務的統(tǒng)一下發(fā),測試結(jié)果數(shù)據(jù)的集中處理。主要功能包括統(tǒng)一任務管理器、服務通信模塊、多線程探測探針。探測探針可集中于核心服務器,也可根據(jù)測試需要靈活部署在網(wǎng)絡出口、接入層等網(wǎng)絡位置,實現(xiàn)對用戶端、網(wǎng)內(nèi)核心節(jié)點、網(wǎng)外目標網(wǎng)站的雙向測試。
3)寬帶客戶端:寬帶撥號客戶端軟件在提供PPPoE(以太網(wǎng)上的點對點協(xié)議)撥號功能的同時,實現(xiàn)用戶自助的故障診斷功能。同時,客戶端內(nèi)置了應用性能監(jiān)視引擎,可對關鍵網(wǎng)絡業(yè)務進行服務感知測試,并將測試結(jié)果上傳給服務器,供服務器質(zhì)量分析和排障使用。服務感知測試內(nèi)容包括:網(wǎng)絡端到端性能、電子信函、文件傳輸、Web網(wǎng)頁傳輸?shù)取?/p>
4)應用接口:系統(tǒng)一方面可以通過SOAP(簡單對象訪問協(xié)議)、API(應用程序接口)、文件等接口方式實與第三方EMS(網(wǎng)元管理系統(tǒng))和NMS(網(wǎng)絡管理系統(tǒng))的數(shù)據(jù)獲取,如:客戶業(yè)務資料庫、客戶業(yè)務受理單等。同時系統(tǒng)也可以為其他管理系統(tǒng)提供不同層次開放標準的接口,最大限度地充分利用本系統(tǒng)的管理數(shù)據(jù)?;ヂ?lián)網(wǎng)質(zhì)量數(shù)據(jù)獲取見圖3。
完成在基礎數(shù)據(jù)抽象和聚合處理,形成基礎的數(shù)據(jù)源。主要包括數(shù)據(jù)處理引擎和專題分析插件兩部分。
1)數(shù)據(jù)處理引擎:對采集到的數(shù)據(jù)進行抽象和對象化處理,并根據(jù)數(shù)據(jù)進行高效的數(shù)據(jù)聚合、對比關聯(lián)等處理,為保證數(shù)據(jù)處理效率,該部分工作在內(nèi)存中處理完成。系統(tǒng)采用內(nèi)存數(shù)據(jù)庫和高效緩沖池等技術,實現(xiàn)大數(shù)據(jù)量的分析處理。
2)專題分析插件:主要基于專題數(shù)據(jù)源的數(shù)據(jù)處理,如實現(xiàn)多層次數(shù)據(jù)收斂,以及基于歷史數(shù)據(jù)和閥值控制的自動觸發(fā)等。包括接入質(zhì)量分析、寬帶認證性能分析、網(wǎng)絡傳輸質(zhì)量分析、用戶感知性能、用戶流量分析、端口流量分析、DNS專題分析、NAT專題分析等插件。
PON設備的MIB(管理信息庫)消息中可提供ONU端口和MAC(媒體接入控制)的對應關系,而系統(tǒng)同時監(jiān)聽用戶上網(wǎng)的RADIUS報文消息,系統(tǒng)通過MIB消息和RADIUS報文的動態(tài)匹配,可獲取用戶上網(wǎng)級聯(lián)設備信息。該方式優(yōu)點是信息采集并發(fā)獲取,信息獲取效率高。
主要應用于用戶報障的快速處理,運維人員可通過輸入賬號進行相關快捷查詢。系統(tǒng)可集中顯示用戶上網(wǎng)相關節(jié)設備狀態(tài),展現(xiàn)用戶最后認證失敗原因、最后下線原因、級聯(lián)設備及端口信息、用戶上網(wǎng)記錄、用戶客戶端測試結(jié)果、用戶歷史故障等信息,根據(jù)系統(tǒng)給出的相關信息,方便維護人員快速定位故障并響應處理。故障級聯(lián)見圖4。
1)從用戶的角度提升服務:通過對異常掉線、用戶端口性能、寬帶認證性能、網(wǎng)絡傳輸狀態(tài)、用戶感知性能等指標的統(tǒng)計分析,可以建立對應的質(zhì)量指標考核體系和優(yōu)化辦法,從而實現(xiàn)對寬帶服務質(zhì)量的閉環(huán)管理;
2)從經(jīng)營的高度管理用戶:系統(tǒng)可以提供對每個用戶的網(wǎng)內(nèi)網(wǎng)外流量統(tǒng)計分析,進而實現(xiàn)每個用戶流量成本的計算,為用戶評估和差異管理提供決策依據(jù);
3)從端口的粒度細化運維:通過對ONU端口與用戶賬號的動態(tài)關聯(lián)處理,可實現(xiàn)從用戶角度對每個指標的查詢統(tǒng)計,對用戶投訴與故障便于分析管理。
系統(tǒng)的應用重點對互聯(lián)網(wǎng)運維中如下幾個方面工作產(chǎn)生了較好的提升作用:
1)薄弱環(huán)節(jié)提前發(fā)現(xiàn),建立提前預警以及集中整改機制,有效降低萬投比(每月每萬收費用戶中的投訴數(shù)量);
2)提升接入層資源的精細化管理,提高設備利用率,為新增采購提供指導;
3)駐地網(wǎng)裝機質(zhì)量第一時間自動分析,可在業(yè)務正式開通前完成不達標整改。