摘 要本文論述了基于專用網(wǎng)絡(luò)的應(yīng)用系統(tǒng)跨域集中監(jiān)控系統(tǒng)的設(shè)計與實現(xiàn)技術(shù)。針對機房內(nèi)的網(wǎng)絡(luò)系統(tǒng)具有多安全域、跨網(wǎng)段節(jié)點、傳輸設(shè)備多樣化等特點,從軟件工程角度出發(fā),介紹集中監(jiān)控系統(tǒng)的組成及具體功能、核心技術(shù)及技術(shù)先進性,保證應(yīng)用系統(tǒng)與數(shù)據(jù)的安全性與穩(wěn)定性。
【關(guān)鍵詞】應(yīng)用系統(tǒng) 集中監(jiān)控 跨域 運維
隨著信息化工作的不斷深入,每年都會有一批應(yīng)用系統(tǒng)上線使用,為業(yè)務(wù)工作保駕護航,確保這些應(yīng)用系統(tǒng)安全、穩(wěn)定的運行,成為系統(tǒng)管理人員的日常維護工作的重要內(nèi)容。而這些應(yīng)用系統(tǒng)的系統(tǒng)架構(gòu)與運行狀態(tài)各不相同,其維護工作紛繁復(fù)雜。基于專用網(wǎng)絡(luò)的應(yīng)用系統(tǒng)跨域集中監(jiān)控系統(tǒng)為針對應(yīng)用系統(tǒng)群落多年建設(shè)運維過程中所積累的問題提供全面的解決方案,為及時排除應(yīng)用故障隱患爭取時間,為應(yīng)用系統(tǒng)運維和管理工作提供強有力的技術(shù)支持。
本文第一部分為跨域集中監(jiān)控系統(tǒng)的具體功能介紹,第二部分為核心技術(shù),第三部分為技術(shù)先進性,最后一部分為結(jié)論。
1 具體功能介紹
系統(tǒng)采用B/S架構(gòu)設(shè)計,主要包括如下五大功能模塊:
1.1 綜合監(jiān)控系統(tǒng)
從總體上對系統(tǒng)的整體運行情況給出實時性的分析和報告,包括各類監(jiān)控資源的運行狀態(tài),并以豐富的圖表形式展現(xiàn)各類監(jiān)控資產(chǎn)的報警信息,使系統(tǒng)管理人員可以全面的掌握各類業(yè)務(wù)系統(tǒng)的運行狀況。
1.2 應(yīng)用監(jiān)控系統(tǒng)
主要對應(yīng)用系統(tǒng)各組成部分及整體運行環(huán)境進行全面的實時監(jiān)控和管理,將支撐各應(yīng)用系統(tǒng)運行的網(wǎng)絡(luò)、網(wǎng)絡(luò)設(shè)備、硬件服務(wù)器、操作系統(tǒng)、數(shù)據(jù)庫、中間件等各種軟硬件資源進行監(jiān)控,并將這些組成業(yè)務(wù)系統(tǒng)的IT資源按照其關(guān)聯(lián)關(guān)系組成業(yè)務(wù)邏輯模型進行整體監(jiān)控,同時針對不同的業(yè)務(wù)系統(tǒng),按照具體業(yè)務(wù)系統(tǒng)分類,通過一定的定制開發(fā)形成面向業(yè)務(wù)端到端監(jiān)控管理模式,并設(shè)定預(yù)警/報警閥值,根據(jù)安全策略進行預(yù)警和報警。
1.3 資源管理系統(tǒng)
主要實現(xiàn)對資產(chǎn)的分類管理,實現(xiàn)資產(chǎn)的登記注冊、資產(chǎn)屬性管理、監(jiān)控規(guī)則、報警方式以及監(jiān)控方式等的管理。同時提供對已經(jīng)登記資產(chǎn)的導(dǎo)入、導(dǎo)出功能。
1.4 故障管理系統(tǒng)
智能識別各類不同來源的原始事件,通過內(nèi)建的智能事件分析引擎,對標準化后的原始事件進行可靠過濾、重復(fù)壓縮、對齊歸并與依賴關(guān)聯(lián),自動修正告警記錄,最終形成有效告警與事件記錄,幫助系統(tǒng)管理人員進行后續(xù)維護提供有效的決策依據(jù)。
1.5 數(shù)據(jù)管理系統(tǒng)
主要為系統(tǒng)日常維護提供自動化幫助,按照設(shè)定的時間段以及設(shè)備的備份目錄和清理標志完成操作日志、報警記錄、監(jiān)控記錄的手動備份功能,運維數(shù)據(jù)以不可讀文件的形式備份到指定的目錄下,并支持數(shù)據(jù)還原操作。
2 核心技術(shù)
2.1 自動輪詢監(jiān)控采集
系統(tǒng)提供全面、細顆粒度的主機監(jiān)測指標,通過SNMP、CLI、AGENT方式,能實現(xiàn)對Windows、UNIX、Linux、AIX等各種操作系統(tǒng)的主機的關(guān)鍵資源的自動監(jiān)控,實現(xiàn)對服務(wù)器系統(tǒng)的基本信息和運行狀態(tài)的監(jiān)控,能夠支持各種服務(wù)器系統(tǒng)的32位或64位系統(tǒng)。對于所有監(jiān)控的操作系統(tǒng)均支持對操作系統(tǒng)錯誤日志的監(jiān)測,獲得服務(wù)器的配置信息,并且進行實例化、對象化的處理。
2.2 Arbiter告警平臺
整個運維平臺以事件為驅(qū)動,統(tǒng)一事件平臺實現(xiàn)對各類告警的接收、識別、標準化、過濾、壓縮、豐富、告警等功能,并與服務(wù)流程管理子系統(tǒng)銜接進行工單派發(fā)。對于統(tǒng)一接入的故障,系統(tǒng)根據(jù)預(yù)設(shè)的故障過濾規(guī)則、相關(guān)性處理規(guī)則、關(guān)聯(lián)規(guī)則、歸并規(guī)則,自動對故障進行處理。
2.3 BPM流程引擎
在內(nèi)置標準流程的基礎(chǔ)上,系統(tǒng)還提供了BPM流程引擎供用戶進行“隨需而變”的業(yè)務(wù)流程設(shè)計,滿足個性化的業(yè)務(wù)流程需求。該引擎完全通過Web可視化設(shè)計界面,實現(xiàn)流程、表單、數(shù)據(jù)字典快速建模和拖拽式的流程設(shè)計功能,可實現(xiàn)流程跳轉(zhuǎn)、流程環(huán)節(jié)的執(zhí)行人、流程環(huán)節(jié)的執(zhí)行優(yōu)先級等定義,協(xié)調(diào)組成工作流的四大元素,即人員、資源、事件、狀態(tài),推動流程的發(fā)生、發(fā)展、完成,實現(xiàn)全過程監(jiān)控。
3 技術(shù)先進性
基于專用網(wǎng)絡(luò)的應(yīng)用系統(tǒng)跨域集中監(jiān)控系統(tǒng)采用目前較為流行和領(lǐng)先的自動輪詢監(jiān)控機制和告警機制,同時采用靈活多變的流程引擎控制,其效果比較明顯,適用信息化部門對較大規(guī)模機房設(shè)備及應(yīng)用系統(tǒng)的管理,具有參考借鑒價值。其創(chuàng)新性主要體現(xiàn)在以下幾個方面:
3.1 支持單向隔離設(shè)備的安全域間鏈路傳輸數(shù)據(jù)的采集與監(jiān)控
在網(wǎng)絡(luò)應(yīng)用系統(tǒng)中,不同安全域間的數(shù)據(jù)類型不同,且數(shù)據(jù)間的傳輸在一定范圍內(nèi)是只能單向的、不可逆的過程?;趯S镁W(wǎng)絡(luò)的應(yīng)用系統(tǒng)跨域集中監(jiān)控系統(tǒng)通過部署在單向隔離設(shè)備兩端BCC數(shù)據(jù)庫,一旦鏈路出現(xiàn)故障,可以利用數(shù)據(jù)同步功能將告警信息展現(xiàn)出來,供鏈路維護人員及時判斷故障所在,從而實現(xiàn)單向隔離網(wǎng)閘鏈路運行狀況的監(jiān)控。
3.2 支持跨網(wǎng)段多操作系統(tǒng)運維數(shù)據(jù)的采集與監(jiān)控
網(wǎng)絡(luò)應(yīng)用系統(tǒng)具有多安全域、跨網(wǎng)段節(jié)點、傳輸設(shè)備多樣化等特點,基于專用網(wǎng)絡(luò)的應(yīng)用系統(tǒng)跨域集中監(jiān)控系統(tǒng)通過代理設(shè)置,支持在不同安全域內(nèi)的應(yīng)用系統(tǒng)的監(jiān)控與運維。經(jīng)測試,可充分實現(xiàn)對不同區(qū)域下各種操作系統(tǒng)的監(jiān)控,保證應(yīng)用系統(tǒng)與涉密數(shù)據(jù)的安全性與穩(wěn)定性。
4 結(jié)論
基于專用網(wǎng)絡(luò)的應(yīng)用系統(tǒng)跨域集中監(jiān)控系統(tǒng)對被監(jiān)控的節(jié)點采用探針管理模式,服務(wù)器端可掛載10個采集探針,每個采集探針至少可監(jiān)控100個監(jiān)控資源節(jié)點,每個節(jié)點可添加5到15個檢測器,累計可監(jiān)控數(shù)千個采集節(jié)點,且支持至少50人并發(fā)操作,在不大于100個用戶并發(fā)登錄時,頁面響應(yīng)時間小于5秒,從監(jiān)控系統(tǒng)探測到故障發(fā)生到界面顯示告警信息的時間(指設(shè)備上傳告警到支撐系統(tǒng)顯示告警)小于1分鐘;在網(wǎng)絡(luò)告警風(fēng)暴情況下,該響應(yīng)時間不超過3分鐘,有助于系統(tǒng)管理人員迅速作出判斷,查找故障來源,尋找應(yīng)對策略。目前完全能夠滿足當前機房運行環(huán)境中需要被監(jiān)控的資源數(shù)目,并支持大范圍擴展。
參考文獻
[1]吳超.遠程監(jiān)控集中管理平臺的設(shè)計與實現(xiàn)[J].港口科技,2015.
[2]張先哲.信息系統(tǒng)安全運維管理平臺建設(shè)研究[J].軟件工程師,2015.
[3]李榮華.基于ITIL的IT運維管理系統(tǒng)的設(shè)計與實現(xiàn)[D].北京郵電大學(xué),2010:13-15.
作者簡介
霍勝杰(1985-),男,河南省鶴壁市人。助理工程師。碩士研究生。研究方向為計算機應(yīng)用。
作者單位
上海現(xiàn)代信息技術(shù)研究所 上海市 200000