西安銀行的IT運維管理面臨的主要問題是缺少對各業(yè)務(wù)應用交易的運行情況的監(jiān)控,難以全面、準確、及時地掌握業(yè)務(wù)應用系統(tǒng)的運行情況;無法自動發(fā)現(xiàn)應用拓撲關(guān)系和交易訪問路徑,并以此為基礎(chǔ)實現(xiàn)故障應用系統(tǒng)的自動定位。
在業(yè)務(wù)交易監(jiān)控方面,需要能夠?qū)I(yè)務(wù)流程進行梳理,按業(yè)務(wù)交易路徑實時監(jiān)控各業(yè)務(wù)組件的狀態(tài),覆蓋網(wǎng)絡(luò)和業(yè)務(wù)系統(tǒng),真正做到端到端的業(yè)務(wù)交易性能監(jiān)控分析。
圖1 應用監(jiān)控系統(tǒng)功能框架
當故障發(fā)生時,業(yè)務(wù)交易監(jiān)控系統(tǒng)能夠根據(jù)各組件的性能參數(shù),自動化定位故障根源,提供故障處理速度。
針對以上痛點和需求,通過運維開發(fā)、擁抱開源、互聯(lián)網(wǎng)經(jīng)驗借鑒三個歷程,西安銀行結(jié)合天旦BPC產(chǎn)品,成功完成智能運管平臺的建設(shè)。
在本屆論壇中,該項目榮獲“2017中國IT運維最佳技術(shù)突破”大獎。
這一項目的創(chuàng)新點包括如下:集中監(jiān)控、數(shù)據(jù)可視化、開放的IT服務(wù)管理平臺、自動化運維平臺以及數(shù)據(jù)分析平臺。
應用監(jiān)控系統(tǒng)通過純旁路方式(交換機鏡像或分光)在網(wǎng)絡(luò)上獲取業(yè)務(wù)系統(tǒng)的數(shù)據(jù)包,不會對業(yè)務(wù)系統(tǒng)產(chǎn)生任何影響,通過服務(wù)器網(wǎng)卡直接捕獲數(shù)據(jù)包并進行過濾,然后由解碼引擎(Decode Engine)對業(yè)務(wù)數(shù)據(jù)包進行解碼分析和重組分析。系統(tǒng)功能框架如圖1所示。
業(yè)務(wù)交易路徑信息可由服務(wù)路徑自動發(fā)現(xiàn)模塊(SPVD功能)進行應用訪問關(guān)系梳理,包括IP地址/端口號、服務(wù)訪問路徑、協(xié)議類型等。
最終通過應用監(jiān)控系統(tǒng)對業(yè)務(wù)系統(tǒng)進行交易性能可視化呈現(xiàn)、應用異??焖俣ㄎ缓透婢⑦M行多維度統(tǒng)計和單筆交易追蹤。
該系統(tǒng)實現(xiàn)了通過網(wǎng)絡(luò)數(shù)據(jù)進行精確梳理,自動分析同步/異步TCP連接模式;應用組件的交易性能評估,提供交易量、成功率、響應時間、響應率、返回碼、網(wǎng)絡(luò)流量等精細化服務(wù)質(zhì)量指標;支持基準線的生成和呈現(xiàn)等14項核心功能點。
在系統(tǒng)部署方面,支持分布式部署,包括雙中心、多中心部署模式,以及負載分擔部署模式,可以跨多個服務(wù)器對于所收集數(shù)據(jù)進行分布式統(tǒng)計和集中呈現(xiàn)。