唐傳廣 陳傳亮
?
通信運(yùn)營商基于業(yè)務(wù)支撐系統(tǒng)的數(shù)據(jù)監(jiān)控
唐傳廣 陳傳亮
中國聯(lián)通軟件研究院,北京 100176
業(yè)務(wù)支撐系統(tǒng)是通信運(yùn)營商的核心系統(tǒng),基于此,論述了輔助業(yè)務(wù)支撐系統(tǒng)的數(shù)據(jù)監(jiān)控系統(tǒng),為業(yè)務(wù)支撐系統(tǒng)的穩(wěn)健運(yùn)行保駕護(hù)航。
通信運(yùn)營商;業(yè)務(wù)支撐系統(tǒng);數(shù)據(jù)監(jiān)控;監(jiān)控系統(tǒng)
隨著運(yùn)營商業(yè)務(wù)支撐系統(tǒng)用戶數(shù)的增加,系統(tǒng)的負(fù)載壓力劇增。隨著社會的發(fā)展,用戶對服務(wù)愈來敏感,要求在辦理業(yè)務(wù)時能輕松、快捷地完成,這給業(yè)務(wù)支撐系統(tǒng)提出了更高的要求。為了保障業(yè)務(wù)支撐系統(tǒng)的健康運(yùn)行,數(shù)據(jù)監(jiān)控系統(tǒng)應(yīng)運(yùn)而生。
經(jīng)過分析,監(jiān)控系統(tǒng)應(yīng)能滿足下面幾點(diǎn)要求:(1)事前預(yù)警。提前發(fā)現(xiàn)業(yè)務(wù)支撐系統(tǒng)交易數(shù)據(jù)異動(比如業(yè)務(wù)量劇減、積壓量劇增等),提前預(yù)測業(yè)務(wù)支撐系統(tǒng)的風(fēng)險,在用戶有所感知前解決系統(tǒng)問題。(2)事中定位。如果業(yè)務(wù)支撐系統(tǒng)發(fā)生故障,通過觀察業(yè)務(wù)支撐系統(tǒng)不同環(huán)節(jié)的業(yè)務(wù)量,快速排查事故原因(比如工單積壓等)。(3)事后分析。保存業(yè)務(wù)支撐系統(tǒng)故障發(fā)生時的歷史數(shù)據(jù),為分析故障原因提供第一手資料,便于問題的跟蹤,防止相同故障再次發(fā)生。(4)易于使用,便于監(jiān)控。使用便捷,人員經(jīng)過簡單培訓(xùn)后,即可使用監(jiān)控系統(tǒng)。[1]
2.1 實時監(jiān)控,提前預(yù)警
數(shù)據(jù)監(jiān)控系統(tǒng)上線前,業(yè)務(wù)支撐系統(tǒng)發(fā)生故障后,一線人員層層上報故障,工作人員接到故障指令后進(jìn)行處置,故障響應(yīng)的周期長,影響用戶感知。數(shù)據(jù)監(jiān)控系統(tǒng)上線后,可以實時監(jiān)控系統(tǒng)運(yùn)行情況,由被動接收一線人員上報故障信息,調(diào)整為主動發(fā)現(xiàn)系統(tǒng)異常,快速處理系統(tǒng)故障。如圖1,如果工單積壓量突然連續(xù)上升,表明系統(tǒng)處理工單的效率在降低,這時候就需要檢查業(yè)務(wù)支撐系統(tǒng)服務(wù)器的資源是否正常,提前介入分析、處理。
圖1 工單監(jiān)控圖
2.2 分類監(jiān)控,快速定位
數(shù)據(jù)監(jiān)控系統(tǒng)上線前,如果業(yè)務(wù)支撐系統(tǒng)發(fā)生故障,需要工作人員對各個服務(wù)、系統(tǒng)日志進(jìn)行排查。數(shù)據(jù)監(jiān)控系統(tǒng)上線后,可以監(jiān)控業(yè)務(wù)支撐系統(tǒng)多項指標(biāo),通過觀察發(fā)生故障的指標(biāo),快速定位問題(比如BO不掃單,IOM積壓量)。
2.3 故障總結(jié),為業(yè)務(wù)支撐系統(tǒng)優(yōu)化提供數(shù)據(jù)支撐
數(shù)據(jù)監(jiān)控系統(tǒng)上線前,系統(tǒng)故障發(fā)生后需要運(yùn)維人員和研發(fā)人員查看系統(tǒng)日志來分析故障原因。日志文件通常體量巨大,分析難度大。數(shù)據(jù)監(jiān)控系統(tǒng)上線后,查看歷史記錄,通過數(shù)據(jù)量的變化軌跡和變化異常,能夠簡捷直觀還原故障場景。
2.4 可視界面,簡捷直觀
數(shù)據(jù)監(jiān)控系統(tǒng)上線前,運(yùn)維人員需要檢查服務(wù)器、數(shù)據(jù)庫進(jìn)行通常的運(yùn)維操作。一方面,直接查詢數(shù)據(jù)庫會增加數(shù)據(jù)庫負(fù)載,增加系統(tǒng)風(fēng)險;另一方面,難以發(fā)現(xiàn)異常數(shù)據(jù),而且操作復(fù)雜。數(shù)據(jù)監(jiān)控系統(tǒng)上線后,運(yùn)維人員將主要系統(tǒng)監(jiān)控指標(biāo)配置到監(jiān)控系統(tǒng)后,通過圖形界面即可監(jiān)控業(yè)務(wù)支撐系統(tǒng),并能形象直觀發(fā)現(xiàn)系統(tǒng)異常。
2.5 日常業(yè)務(wù)量數(shù)據(jù)為經(jīng)營分析提供參考
數(shù)據(jù)監(jiān)控系統(tǒng)上線后,管理人員可以實時準(zhǔn)確掌握當(dāng)前系統(tǒng)的經(jīng)營狀況。實時業(yè)務(wù)量也可以作為經(jīng)營分析數(shù)據(jù)的一部分,為領(lǐng)導(dǎo)決策提供依據(jù),如圖1所示。
圖2 開戶類型監(jiān)控圖
圖3 開機(jī)工單監(jiān)控圖
3.1 數(shù)據(jù)卸載技術(shù)
數(shù)據(jù)監(jiān)控系統(tǒng)基于OGG-KAFKA,而不是傳統(tǒng)意義的關(guān)系型數(shù)據(jù)庫。通過OGG將數(shù)據(jù)庫的變化量同步到KAFKA,數(shù)據(jù)監(jiān)控系統(tǒng)通過分析KAFKA的消息隊列統(tǒng)計監(jiān)控指標(biāo),而不是在數(shù)據(jù)庫通過SQL或存儲過程統(tǒng)計結(jié)果。數(shù)據(jù)監(jiān)控系統(tǒng)實現(xiàn)數(shù)據(jù)卸載,避免直聯(lián)數(shù)據(jù)庫,給數(shù)據(jù)庫造成額外的負(fù)載壓力。
3.2 算法統(tǒng)計
由于數(shù)據(jù)監(jiān)控系統(tǒng)不是基于傳統(tǒng)關(guān)系型數(shù)據(jù)庫,無法通過SQL或存儲過程統(tǒng)計,生成統(tǒng)計指標(biāo)需要將傳統(tǒng)SQL演繹為計算機(jī)算法,通過編程算法得到統(tǒng)計結(jié)果。
3.3 內(nèi)存數(shù)據(jù)存儲
數(shù)據(jù)監(jiān)控系統(tǒng)將統(tǒng)計結(jié)果存儲于內(nèi)存數(shù)據(jù)庫redis,數(shù)據(jù)讀寫效率大幅提升,實現(xiàn)業(yè)務(wù)支撐系統(tǒng)實時監(jiān)控,避免因為數(shù)據(jù)延遲造成數(shù)據(jù)失真并誤導(dǎo)監(jiān)控人員。
后續(xù)計劃歸納多個監(jiān)控指標(biāo)形成監(jiān)控指數(shù),并劃定監(jiān)控指數(shù)的合理區(qū)間,以及不同服務(wù)類別發(fā)生故障時的監(jiān)控指數(shù)區(qū)間,業(yè)務(wù)支撐系統(tǒng)超出設(shè)定的閥值時可以通過短信、手機(jī)客戶端等多種方式進(jìn)行告警,為業(yè)務(wù)支撐系統(tǒng)的穩(wěn)健運(yùn)行保駕護(hù)航。
[1]朱奕健,張正卿.基于通信運(yùn)營商數(shù)據(jù)的大數(shù)據(jù)實時流處理系統(tǒng)[J].中國新通信,2016(3)78.
F626.115
A
1009-6434(2016)04-0003-01