張婧,韓旸
(中國(guó)科學(xué)技術(shù)信息研究所,北京 100038)
NSTL綜合運(yùn)維管理系統(tǒng)應(yīng)用實(shí)踐
張婧,韓旸
(中國(guó)科學(xué)技術(shù)信息研究所,北京 100038)
隨著信息技術(shù)的發(fā)展,各單位信息系統(tǒng)建設(shè)規(guī)模和復(fù)雜度日益提升,確保信息系統(tǒng)安全和業(yè)務(wù)連續(xù)性成為運(yùn)維工作關(guān)注的核心。如何改變分散的、低水平監(jiān)控和運(yùn)維現(xiàn)狀,借助高水平、安全、高效的統(tǒng)一運(yùn)維技術(shù)實(shí)現(xiàn)信息系統(tǒng)高可靠運(yùn)行,成為當(dāng)前監(jiān)控和運(yùn)維建設(shè)的發(fā)展方向。本文介紹了國(guó)家科技圖書文獻(xiàn)中心(NSTL)信息系統(tǒng)綜合運(yùn)維平臺(tái)的建設(shè)實(shí)例和使用效果。
監(jiān)控;運(yùn)維;信息系統(tǒng);網(wǎng)絡(luò)安全
信息技術(shù)的飛速發(fā)展使各個(gè)行業(yè)的信息服務(wù)系統(tǒng)已經(jīng)深入社會(huì)的方方面面,重要信息系統(tǒng)的安全風(fēng)險(xiǎn)越來越高,中斷或停運(yùn)導(dǎo)致的不良影響和損失不斷加大。各國(guó)政府和標(biāo)準(zhǔn)化機(jī)構(gòu)為提高信息系統(tǒng)的服務(wù)管理水平,陸續(xù)出臺(tái)了一些規(guī)范標(biāo)準(zhǔn)。但是,這些標(biāo)準(zhǔn)多面向流程管理,不能代替信息系統(tǒng)運(yùn)維的技術(shù)解決方案,在使用環(huán)境上也有諸多客觀限制。同時(shí),由于信息系統(tǒng)的規(guī)模越來越大,設(shè)備數(shù)量猛增,從基礎(chǔ)設(shè)施到應(yīng)用架構(gòu)的系統(tǒng)復(fù)雜度也越來越高,使安全風(fēng)險(xiǎn)不斷加劇,給運(yùn)維人員帶來嚴(yán)峻的挑戰(zhàn)。
國(guó)家科技圖書文獻(xiàn)中心(National Science and Technology Library,NSTL)承擔(dān)著國(guó)家科技文獻(xiàn)的在線文獻(xiàn)信息服務(wù)工作。NSTL網(wǎng)絡(luò)服務(wù)系統(tǒng)目前包括文獻(xiàn)服務(wù)、回溯分析、引文、數(shù)據(jù)加工、長(zhǎng)期保存、集成揭示等應(yīng)用系統(tǒng),網(wǎng)絡(luò)覆蓋了中心主站、9個(gè)成員單位和分布在全國(guó)的39個(gè)服務(wù)站及24個(gè)用戶管理平臺(tái)。十多年來,從網(wǎng)絡(luò)基礎(chǔ)設(shè)施、業(yè)務(wù)系統(tǒng)到文獻(xiàn)數(shù)據(jù)資源的規(guī)模都在持續(xù)增加,給運(yùn)維人員帶來巨大的工作壓力,迫切需要改變傳統(tǒng)低效的人工運(yùn)維模式。為此,自2013年開始,NSTL啟動(dòng)IT綜合運(yùn)維管理系統(tǒng)建設(shè),系統(tǒng)覆蓋網(wǎng)絡(luò)、設(shè)備、主機(jī)、虛擬化平臺(tái)、數(shù)據(jù)庫和中間件以及NSTL網(wǎng)絡(luò)服務(wù)系統(tǒng)等業(yè)務(wù),實(shí)現(xiàn)對(duì)日常運(yùn)維管理網(wǎng)絡(luò)、設(shè)備、業(yè)務(wù)的實(shí)時(shí)監(jiān)測(cè)和預(yù)警。其設(shè)計(jì)思想和技術(shù)體系改變了在眾多信息系統(tǒng)運(yùn)維中存在的分散、低水平、低效率的人工監(jiān)控運(yùn)維狀況,形成集中高效、安全可靠的統(tǒng)一運(yùn)維中心,提高運(yùn)維工作效率,縮短故障處理時(shí)間,成效顯著。本文著重介紹NSTL綜合運(yùn)維管理系統(tǒng)的特點(diǎn)和使用效果。
2.1 一體化管理
一體化管理是要建立一套集中、統(tǒng)一的立體監(jiān)控和智能分析平臺(tái),以跟蹤各類核心業(yè)務(wù)的運(yùn)行情況和IT故障的處理狀況,使信息孤島間建立起關(guān)聯(lián)關(guān)系,對(duì)各類IT信息進(jìn)行集中采集、集中處理、集中展現(xiàn)。
集中采集,即實(shí)現(xiàn)對(duì)基礎(chǔ)資源監(jiān)控、環(huán)境監(jiān)控、應(yīng)用監(jiān)控、上層業(yè)務(wù)等各層次被管理對(duì)象的集中采集,實(shí)現(xiàn)對(duì)物理環(huán)境、應(yīng)用、業(yè)務(wù)各層面系統(tǒng)的集中接入和運(yùn)行狀態(tài)的管理,將原本孤立的IT運(yùn)行監(jiān)控手段納入統(tǒng)一的應(yīng)用監(jiān)控平臺(tái)管理架構(gòu)。
集中處理,即通過對(duì)各類被管對(duì)象產(chǎn)生的大量事件進(jìn)行集中監(jiān)控處理,實(shí)現(xiàn)對(duì)各類狀態(tài)、風(fēng)險(xiǎn)的快速定位和分析處理。通過甄別源頭和成因,還原事件的發(fā)生過程,預(yù)計(jì)風(fēng)險(xiǎn)的影響范圍,為IT運(yùn)行監(jiān)控運(yùn)維管理提供可靠的技術(shù)手段。
集中展現(xiàn),即將各類處理信息在統(tǒng)一平臺(tái)上進(jìn)行集中呈現(xiàn),通過業(yè)務(wù)影響視圖展示IT與業(yè)務(wù)的承載關(guān)系,通過性能視圖集中呈現(xiàn)各類異構(gòu)平臺(tái)和環(huán)境的關(guān)鍵性能指標(biāo),幫助運(yùn)維人員一目了然地掌握關(guān)鍵系統(tǒng)健康狀況。
2.2 規(guī)范化管理
從NSTL整個(gè)業(yè)務(wù)狀況來看,系統(tǒng)監(jiān)控的維度涵蓋從應(yīng)用層到業(yè)務(wù)層的各類指標(biāo),需要和各監(jiān)控系統(tǒng)、業(yè)務(wù)系統(tǒng)進(jìn)行集成接口開發(fā)、業(yè)務(wù)指標(biāo)梳理、業(yè)務(wù)模型建立、上層展示功能梳理等多項(xiàng)工作。因此,要定制一套應(yīng)用監(jiān)控接入規(guī)范,內(nèi)容需涵蓋通信協(xié)議規(guī)范、接口數(shù)據(jù)文件內(nèi)容規(guī)范、監(jiān)控詳細(xì)指標(biāo)規(guī)范等,以便不同系統(tǒng)或功能模塊的整合與銜接,從而提升運(yùn)維系統(tǒng)的可擴(kuò)充性。
2.3 精細(xì)化管理
為更好地展示核心業(yè)務(wù)系統(tǒng)關(guān)鍵指標(biāo)的運(yùn)行狀態(tài),采用基于業(yè)務(wù)數(shù)據(jù)儀表盤的展示方式,將核心業(yè)務(wù)關(guān)鍵業(yè)務(wù)點(diǎn)以及相關(guān)關(guān)鍵績(jī)效指標(biāo)(Key Performance Indicator)組織在一起集中分析和展示,同時(shí)結(jié)合各個(gè)維度、各個(gè)細(xì)粒度的統(tǒng)計(jì)分析報(bào)表,包括業(yè)務(wù)指標(biāo)實(shí)時(shí)性能、業(yè)務(wù)占比、業(yè)務(wù)流量、訪問量、檢索量等,使維護(hù)人員能一目了然地查看業(yè)務(wù)系統(tǒng)的當(dāng)前運(yùn)轉(zhuǎn)情況和關(guān)鍵業(yè)務(wù)指標(biāo)的當(dāng)前值和歷史性能趨勢(shì)圖,實(shí)現(xiàn)對(duì)核心業(yè)務(wù)系統(tǒng)的精細(xì)化管理。
3.1 系統(tǒng)架構(gòu)
綜合運(yùn)維管理系統(tǒng)是一個(gè)整合網(wǎng)管、服務(wù)器監(jiān)控和應(yīng)用監(jiān)控并且兼容SNMP、ICMP、syslog等多種標(biāo)準(zhǔn)協(xié)議的統(tǒng)一運(yùn)維平臺(tái)[1],其服務(wù)層面采用B/S結(jié)構(gòu),配置有5臺(tái)物理服務(wù)器,其中2臺(tái)高性能服務(wù)器部署控制中心,3臺(tái)服務(wù)器存放告警和日志收集信息。
綜合運(yùn)維管理系統(tǒng)采用統(tǒng)一的操作界面進(jìn)行維護(hù)管理,統(tǒng)一操作臺(tái)既可以高兼容性地維護(hù)系統(tǒng)的文件、進(jìn)程和服務(wù),還可顯示不同設(shè)備的監(jiān)控曲線、拓?fù)鋱D、監(jiān)控規(guī)則邏輯圖、各類服務(wù)器系統(tǒng)的綜合狀態(tài)等。除安裝主機(jī)代理端和插件外,系統(tǒng)全部為圖形配置界面,日常配置管理和監(jiān)控都是通過Web方式實(shí)現(xiàn)。
綜合運(yùn)維管理系統(tǒng)內(nèi)部由若干控制引擎組成(見圖1),對(duì)應(yīng)管理認(rèn)證、加密、協(xié)議、監(jiān)測(cè)、通告、配置、數(shù)據(jù)、文件等不同應(yīng)用,實(shí)現(xiàn)對(duì)監(jiān)測(cè)對(duì)象的信息采集、分析和告警。
圖1 綜合運(yùn)維管理系統(tǒng)結(jié)構(gòu)示意圖
3.2 監(jiān)測(cè)指標(biāo)體系
綜合運(yùn)維管理系統(tǒng)的監(jiān)測(cè)指標(biāo)包含被監(jiān)測(cè)設(shè)備的硬件、操作系統(tǒng)、資源、進(jìn)程、負(fù)載、端口等關(guān)鍵性參數(shù),通過預(yù)先設(shè)定臨界值和規(guī)則,當(dāng)監(jiān)測(cè)指標(biāo)高于或低于設(shè)定值時(shí),系統(tǒng)就會(huì)根據(jù)預(yù)先設(shè)定的規(guī)則觸發(fā)告警。運(yùn)維工作中,通過協(xié)議監(jiān)測(cè)和仿真監(jiān)測(cè)相結(jié)合,做到設(shè)備與服務(wù)分別監(jiān)測(cè)。例如,在對(duì)全國(guó)幾十個(gè)服務(wù)站的網(wǎng)絡(luò)和服務(wù)監(jiān)測(cè)過程中,系統(tǒng)通過獲取每次訪問的聯(lián)通性、響應(yīng)時(shí)間及錯(cuò)誤響應(yīng)代碼,精準(zhǔn)地實(shí)現(xiàn)了由網(wǎng)絡(luò)、線路、防火墻等原因?qū)е碌囊?guī)模性訪問中斷的故障定位。網(wǎng)絡(luò)具體監(jiān)控指標(biāo)體系見表1。
表1 網(wǎng)絡(luò)具體監(jiān)控指標(biāo)體系
4.1 故障監(jiān)測(cè)
運(yùn)維工作中最常遇見的就是設(shè)備發(fā)生故障,故障監(jiān)測(cè)是網(wǎng)絡(luò)管理最基本的功能,也是不可或缺的內(nèi)容,具體包括故障檢測(cè)、隔離和糾正。它通過檢查錯(cuò)誤日志,跟蹤、辨認(rèn)錯(cuò)誤信息,執(zhí)行診斷測(cè)試,糾正錯(cuò)誤等環(huán)節(jié)實(shí)現(xiàn)故障監(jiān)測(cè)和定位,具體通過對(duì)網(wǎng)絡(luò)組成部件的狀態(tài)監(jiān)測(cè)來實(shí)現(xiàn)。簡(jiǎn)單問題通常被記錄在錯(cuò)誤日志中并不作特別處理;嚴(yán)重故障則需要通知網(wǎng)絡(luò)管理器,即所謂的“警報(bào)”,傳送告警給運(yùn)維人員,并且還會(huì)直觀地反應(yīng)在監(jiān)控對(duì)象的頁面上。告警通過警報(bào)引擎完成[3],具有限時(shí)、延時(shí)、防波動(dòng)、自動(dòng)跟蹤、取消警報(bào)、自動(dòng)越級(jí)上報(bào)、自動(dòng)節(jié)假日警報(bào)特別處置、自動(dòng)區(qū)分對(duì)象差異警報(bào)等功能。
4.2 運(yùn)行監(jiān)測(cè)
運(yùn)行監(jiān)測(cè)指性能監(jiān)測(cè)和管理,評(píng)估系統(tǒng)資源運(yùn)行狀況、通信效率等系統(tǒng)性能,包括監(jiān)視和分析被管網(wǎng)絡(luò)及所提供的各種服務(wù)。性能分析結(jié)果可能會(huì)觸發(fā)某個(gè)診斷測(cè)試過程或重新配置網(wǎng)絡(luò)以維持網(wǎng)絡(luò)的性能。性能管理,指收集分析有關(guān)被管網(wǎng)絡(luò)當(dāng)前狀況的數(shù)據(jù)信息,并維持和分析性能日志,典型功能如收集統(tǒng)計(jì)信息、維護(hù)并檢查系統(tǒng)狀態(tài)日志、確定自然和人工狀態(tài)下系統(tǒng)的性能、改變系統(tǒng)操作模式以進(jìn)行系統(tǒng)性能管理的操作等。此外,這些性能都采用獨(dú)有的防波動(dòng)算法,能有效防止給用戶發(fā)無用或已失效的警報(bào)。
4.3 業(yè)務(wù)監(jiān)測(cè)
因?yàn)闃I(yè)務(wù)系統(tǒng)自身的特殊性,業(yè)務(wù)系統(tǒng)監(jiān)測(cè)相對(duì)硬件故障監(jiān)測(cè)要復(fù)雜得多。在NSTL業(yè)務(wù)監(jiān)測(cè)中,其關(guān)注點(diǎn)主要包括業(yè)務(wù)系統(tǒng)的安全穩(wěn)定性,覆蓋全國(guó)的服務(wù)站和用戶管理平臺(tái)的網(wǎng)絡(luò)連通性,用戶檢索量、文獻(xiàn)瀏覽量、全文訂單量、注冊(cè)用戶數(shù)、在線用戶數(shù)等業(yè)務(wù)統(tǒng)計(jì)數(shù)據(jù)以及相關(guān)網(wǎng)絡(luò)、設(shè)備、中間件、數(shù)據(jù)庫間邏輯關(guān)系和實(shí)時(shí)運(yùn)行狀態(tài)等。業(yè)務(wù)監(jiān)測(cè)不僅需在綜合運(yùn)維平臺(tái)展示這些指標(biāo),還要反映實(shí)時(shí)的系統(tǒng)運(yùn)行狀態(tài)、相關(guān)設(shè)備連接關(guān)系、業(yè)務(wù)邏輯和重要配置管理信息。
4.4 其他功能
除監(jiān)測(cè)功能外,綜合運(yùn)維管理系統(tǒng)還具有一些輔助功能。例如,設(shè)備巡檢、資產(chǎn)管理、ITSM運(yùn)維流程管理、值班記錄等。另外,對(duì)虛擬化平臺(tái)設(shè)備的監(jiān)測(cè)也能提供較好地支持,可以動(dòng)態(tài)呈現(xiàn)每臺(tái)虛擬機(jī)的運(yùn)行狀態(tài)。
(1)基于策略的監(jiān)控?;诓呗缘谋O(jiān)控把常規(guī)網(wǎng)絡(luò)監(jiān)測(cè)提升到網(wǎng)元級(jí)的深度[4-5],使得設(shè)備、線路、路由、拓?fù)洹⒘髁?、配置等環(huán)節(jié)的任一變化都能達(dá)到短信實(shí)時(shí)警報(bào)且具有高精度水平,其維護(hù)操作方式簡(jiǎn)便,只需通過點(diǎn)擊界面選項(xiàng)完成,工作量顯著降低。這些簡(jiǎn)單策略直接覆蓋主機(jī)、虛擬化、數(shù)據(jù)庫、中間件、存儲(chǔ)及所有應(yīng)用監(jiān)控環(huán)節(jié),實(shí)現(xiàn)全監(jiān)控系統(tǒng)的動(dòng)態(tài)跟蹤。同時(shí),集監(jiān)控、運(yùn)維、基礎(chǔ)管理的統(tǒng)一監(jiān)管平臺(tái)徹底消除了信息孤島,實(shí)現(xiàn)機(jī)構(gòu)、人員、權(quán)限、資產(chǎn)、策略、檔案、配置、展示、警報(bào)、故障等全部元素的有機(jī)整合,覆蓋了信息系統(tǒng)各元素的全程。
(2)多種操作系統(tǒng)統(tǒng)一運(yùn)維技術(shù)。在主機(jī)層面對(duì)CPU、內(nèi)存、緩存、文件系統(tǒng)、裸設(shè)備和進(jìn)程等元素的監(jiān)管,直接以統(tǒng)一圖形界面展現(xiàn),兼容于UNIX、Linux、Windows等不同操作系統(tǒng),也無需第三方平臺(tái)支持和代碼開發(fā)工作,從而實(shí)現(xiàn)對(duì)眾多品牌和不同操作系統(tǒng)的集成監(jiān)管,具有較高的安全性和可靠性。
(3)Agent模式。Agent是在被監(jiān)測(cè)服務(wù)器上安裝的客戶端軟件,利用Agent可以對(duì)服務(wù)器內(nèi)存、緩存、CPU、磁盤空間等進(jìn)行深度監(jiān)測(cè),當(dāng)這些重要指標(biāo)超過所設(shè)閾值,系統(tǒng)便會(huì)觸發(fā)報(bào)警。此外,進(jìn)程并發(fā)數(shù)量、進(jìn)程存活、數(shù)據(jù)庫連接數(shù)、Sessions數(shù)、事務(wù)總數(shù)、DB名稱、高速緩沖區(qū)大小、共享池、表空間、管理員賬號(hào)等也可利用Agent模式監(jiān)測(cè)。
(4)層次化通告技術(shù)。為確保故障發(fā)生時(shí),各層級(jí)管理員能及時(shí)收到事故通報(bào)告警信息,綜合運(yùn)維管理系統(tǒng)采用三級(jí)延時(shí)通報(bào)技術(shù)。當(dāng)故障發(fā)生時(shí),系統(tǒng)會(huì)發(fā)送通告給設(shè)定的管理員,20分鐘后若問題未能解決,通告將會(huì)發(fā)送到上一級(jí)管理員;再過30分鐘問題仍未能處理解決,則會(huì)上報(bào)至更高級(jí)管理員或信息主管。警報(bào)延時(shí)發(fā)送的時(shí)間間隔可由管理員根據(jù)自身需要任意設(shè)定。另外,綜合運(yùn)維管理系統(tǒng)還可為不同類別的用戶提供不同的定制通報(bào)信息。實(shí)踐中,這種通報(bào)機(jī)制可以避免告警信息漏報(bào)情況的發(fā)生,從而確保問題和故障能夠及時(shí)得到處理。
(5)安全設(shè)計(jì)。綜合運(yùn)維管理系統(tǒng)在系統(tǒng)級(jí)采用C/S結(jié)構(gòu),除Windows版需要.Net支撐環(huán)境外,不依賴于任何第三方服務(wù)軟件;完全采用加密協(xié)議通道通信;同時(shí)還對(duì)服務(wù)器提供特別保護(hù),當(dāng)系統(tǒng)配置文件或賬號(hào)發(fā)生變動(dòng)時(shí)可觸發(fā)告警。
6.1 網(wǎng)絡(luò)管理由分散轉(zhuǎn)變?yōu)榧?/p>
以前NSTL網(wǎng)絡(luò)服務(wù)系統(tǒng)的各個(gè)業(yè)務(wù)系統(tǒng)都是分散的,業(yè)務(wù)架構(gòu)、業(yè)務(wù)流程比較復(fù)雜,多種軟件分布在一個(gè)或多個(gè)硬件上運(yùn)行,無法統(tǒng)一運(yùn)維管理。通過綜合運(yùn)維管理系統(tǒng),使所有業(yè)務(wù)系統(tǒng)都能實(shí)現(xiàn)可視化、自動(dòng)化管理;網(wǎng)絡(luò)拓?fù)洹⒃O(shè)備自動(dòng)發(fā)現(xiàn);業(yè)務(wù)邏輯關(guān)系、關(guān)鍵技術(shù)指標(biāo)、故障位置清晰可見。可與各業(yè)務(wù)系統(tǒng)接口對(duì)接,自動(dòng)實(shí)現(xiàn)業(yè)務(wù)數(shù)據(jù)的實(shí)時(shí)同步更新,用戶訪問量、文獻(xiàn)檢索量、全文訂單量、下載量、用戶數(shù)等重要業(yè)務(wù)數(shù)據(jù)實(shí)時(shí)顯示,實(shí)現(xiàn)集中統(tǒng)一的自動(dòng)化運(yùn)維管理,工作效率明顯提高。
6.2 業(yè)務(wù)監(jiān)測(cè)由人工轉(zhuǎn)變?yōu)橹悄?/p>
對(duì)于提供文獻(xiàn)檢索服務(wù)的系統(tǒng),網(wǎng)站二級(jí)或三級(jí)頁面與首頁同等重要,以往檢索結(jié)果報(bào)錯(cuò)不易被發(fā)現(xiàn)且響應(yīng)時(shí)間嚴(yán)重滯后[2],現(xiàn)在利用綜合運(yùn)維管理系統(tǒng)直接對(duì)二級(jí)、三級(jí)或特定頁面進(jìn)行監(jiān)測(cè),當(dāng)監(jiān)測(cè)到檢索系統(tǒng)出現(xiàn)403或404一類的故障信息時(shí),系統(tǒng)會(huì)在10分鐘內(nèi)通知管理員處理,縮短故障處理時(shí)間。
NSTL分布在全國(guó)的服務(wù)站和用戶管理平臺(tái)大都采用公網(wǎng)連接,拓?fù)浣Y(jié)構(gòu)復(fù)雜。以往幾乎很難做到對(duì)服務(wù)站、管理平臺(tái)網(wǎng)絡(luò)和系統(tǒng)運(yùn)行情況的實(shí)時(shí)監(jiān)控,但實(shí)施綜合運(yùn)維管理系統(tǒng)后,通過展示中心能夠全面直觀地監(jiān)測(cè)所有服務(wù)站的運(yùn)行情況,并詳細(xì)記錄和統(tǒng)計(jì)每個(gè)服務(wù)站點(diǎn)的聯(lián)通率、超時(shí)連接時(shí)間、累計(jì)應(yīng)答超時(shí)次數(shù)等。這些數(shù)據(jù)對(duì)分析某一階段用戶訪問量、原文訂購量、原文傳遞時(shí)間變化提供參考依據(jù),進(jìn)而可對(duì)NSTL整體網(wǎng)絡(luò)運(yùn)行平穩(wěn)度和文獻(xiàn)服務(wù)質(zhì)量作出評(píng)價(jià)。從近6個(gè)月的監(jiān)測(cè)統(tǒng)計(jì)數(shù)據(jù)看,已開通的39個(gè)服務(wù)站平均聯(lián)通率為94.61%,17個(gè)用戶管理平臺(tái)平均聯(lián)通率為91.96%,網(wǎng)絡(luò)版期刊數(shù)據(jù)庫平均聯(lián)通率為94.00%,數(shù)據(jù)顯示網(wǎng)絡(luò)和服務(wù)系統(tǒng)運(yùn)行情況良好,而這在以前是無法做到的。
應(yīng)用自動(dòng)部署主要用于NSTL主站與全國(guó)服務(wù)站間的系統(tǒng)同步,通過綜合運(yùn)維管理系統(tǒng)文件自動(dòng)發(fā)布和批量處理功能,使得所有服務(wù)站應(yīng)用升級(jí)工作可以自動(dòng)、有序地完成,改變以往人工遠(yuǎn)程登錄對(duì)端系統(tǒng)來更新文件的模式,減輕工作量。
6.3 安全防護(hù)由被動(dòng)轉(zhuǎn)變?yōu)橹鲃?dòng)
以往網(wǎng)絡(luò)安全基本處于被動(dòng)地應(yīng)對(duì),現(xiàn)在NSTL已經(jīng)建立了統(tǒng)一的日志存放中心,積累了大量珍貴的網(wǎng)絡(luò)設(shè)備、安全設(shè)備等各類日志信息,這些日志信息還在持續(xù)增長(zhǎng)。這些對(duì)于分析診斷故障和進(jìn)行安全風(fēng)險(xiǎn)評(píng)估,起著極其重要的作用。綜合運(yùn)維管理系統(tǒng)能夠獲取這些日志并與所收集的告警信息進(jìn)行事件關(guān)聯(lián)分析[6],目前這項(xiàng)工作還在不斷探索,嘗試運(yùn)用大數(shù)據(jù)分析能力和智能學(xué)習(xí)能力開展數(shù)據(jù)關(guān)聯(lián)分析,從而形成態(tài)勢(shì)感知和主動(dòng)預(yù)警,若僅靠人工力量是難以實(shí)現(xiàn)的。
綜合運(yùn)維管理系統(tǒng)投入使用以來,監(jiān)測(cè)網(wǎng)絡(luò)、設(shè)備、業(yè)務(wù)系統(tǒng)等節(jié)點(diǎn)數(shù)量已達(dá)200多個(gè),監(jiān)測(cè)用戶服務(wù)站和用戶管理平臺(tái)節(jié)點(diǎn)63個(gè)、全國(guó)開通現(xiàn)刊數(shù)據(jù)庫節(jié)點(diǎn)51個(gè)、虛擬主機(jī)100余臺(tái)。實(shí)現(xiàn)NSTL網(wǎng)絡(luò)內(nèi)設(shè)備故障精確定位和運(yùn)行狀態(tài)準(zhǔn)確監(jiān)測(cè)及告警,形成網(wǎng)絡(luò)、主機(jī)、應(yīng)用統(tǒng)一的動(dòng)態(tài)監(jiān)測(cè)和展示中心。監(jiān)測(cè)預(yù)警效果顯著,故障告警明顯減少,通過設(shè)定系統(tǒng)預(yù)警閾值,使系統(tǒng)發(fā)生故障的情況逐漸減少,有效地提升運(yùn)維工作效率,保證網(wǎng)絡(luò)和系統(tǒng)的安全穩(wěn)定運(yùn)行。但系統(tǒng)仍存在一些問題和不足,如當(dāng)某些復(fù)雜原因引起多臺(tái)設(shè)備同時(shí)告警時(shí),會(huì)造成系統(tǒng)負(fù)載過大而無法正常發(fā)送告警信息;系統(tǒng)還不能做到智能化關(guān)聯(lián)分析等。針對(duì)存在的問題和不足,下一步將對(duì)系統(tǒng)實(shí)施進(jìn)一步升級(jí)改造。
[1] 呂德奎,崔艷軍.自動(dòng)化綜合運(yùn)維監(jiān)管平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)[J].軟件導(dǎo)刊, 2015,14(6):91-94.
[2] 徐亮,鄒鑫灝.信息系統(tǒng)安全運(yùn)維管理平臺(tái)建設(shè)研究[J].科技傳播,2015, 7(21):123-124.
[3] 朱偉.數(shù)據(jù)中心機(jī)房環(huán)境監(jiān)控系統(tǒng)的研究和應(yīng)用[J].金融電子化, 2008(4):53-55.
[4] 楊達(dá)達(dá).IP網(wǎng)監(jiān)控管理系統(tǒng)的設(shè)計(jì)及實(shí)踐研究[J].信息與電腦(理論版),2015(12):100-101.
[5] 沙永剛,張婧.基于狀態(tài)的應(yīng)用監(jiān)控與恢復(fù)算法與模型[J].信息安全與技術(shù), 2013,4(7):93-96.
[6] 張先哲.信息系統(tǒng)安全運(yùn)維管理平臺(tái)建設(shè)研究[J].軟件工程師,2015(5): 38-39.
NSTL Integrated Operational Management System Application Practice
ZHANG Jing, HAN Yang
(Institute of Science and Technology Information of China, Beijing 100038, China)
With the development of information technology, the scale and complexity of information system are continuously growing. The way to ensure the information system security and business continuity becomes the core of the operation management. How to change the scattered and low levels of monitoring and operational status, and use the unification of a high level, safe and efficient operations technology to make information system running with high reliability, becomes the development direction of the current construction of monitoring and operation. This paper introduces the construction of the National Science and Technology Library information system integrated operational platform and its using effect.
Monitoring; Operation and Maintenance; Information System; Network Security
TP3
10.3772/j.issn.1673-2286.2016.7.012
張婧,女,高級(jí)工程師,研究方向:網(wǎng)絡(luò)信息安全,E-mail:zhangj@istic.ac.cn。
韓旸,男,學(xué)士,助理工程師,研究方向:網(wǎng)絡(luò)管理,E-mail:hany@istic.ac.cn。
2016-07-05)