◆景騰飛
(中國(guó)人民財(cái)產(chǎn)保險(xiǎn)股份有限公司韶關(guān)市分公司 廣東 512000)
隨著“運(yùn)維”系統(tǒng)的不斷增加,很多企業(yè)的“運(yùn)維”管理已經(jīng)跳出了“運(yùn)維”人員人工處理的階段進(jìn)入到計(jì)算機(jī)程序管理,但目前的“運(yùn)維”方式仍需要大量的人工介入,無(wú)法實(shí)現(xiàn)自動(dòng)化運(yùn)維,主要存在以下三點(diǎn)問(wèn)題:
傳統(tǒng)的“運(yùn)維”管理是問(wèn)題驅(qū)動(dòng)制,當(dāng)問(wèn)題或故障已經(jīng)產(chǎn)生后才通知“運(yùn)維”人員進(jìn)行處理。這種“運(yùn)維”方式是一種被動(dòng)的問(wèn)題解決流程,而且“運(yùn)維”人員的日常工作很多是在處理重復(fù)問(wèn)題。同時(shí),由于傳統(tǒng)的“運(yùn)維”管理方式故障預(yù)警機(jī)制不夠完善,使得“運(yùn)維”人員總是在處理緊急情況,更免不了忙中出錯(cuò),進(jìn)一步導(dǎo)致整體運(yùn)維效率低下,“運(yùn)維”質(zhì)量不高,致使業(yè)務(wù)部門普遍對(duì)“運(yùn)維”部門的服務(wù)不夠滿意。
很多企業(yè)在“運(yùn)維”管理過(guò)程中沒(méi)有規(guī)范的管理模式,對(duì)角色定義和職責(zé)劃分不夠明確。在系統(tǒng)產(chǎn)生問(wèn)題后無(wú)法準(zhǔn)確快速地確定問(wèn)題關(guān)鍵點(diǎn),無(wú)法及時(shí)地找到問(wèn)題相關(guān)的責(zé)任人。同時(shí)解決問(wèn)題缺乏標(biāo)準(zhǔn)化的流程處理機(jī)制,沒(méi)有規(guī)范化地解決方案。
隨著信息化建設(shè)的不斷深入,信息系統(tǒng)數(shù)量不斷增多,結(jié)構(gòu)愈加復(fù)雜。不同的設(shè)備不同的系統(tǒng)導(dǎo)致“運(yùn)維”管理越來(lái)越復(fù)雜,尤其是面對(duì)突發(fā)事件,由于“運(yùn)維”方法雜亂導(dǎo)致無(wú)法高效地解決問(wèn)題,難免造成業(yè)務(wù)中斷。運(yùn)維方法、“運(yùn)維”工具的不統(tǒng)一是造成問(wèn)題處理效率低下的一個(gè)重要原因。
高效的自動(dòng)化“運(yùn)維”管理目標(biāo)包括服務(wù)流程、故障診斷、資產(chǎn)配置、安全合規(guī)、運(yùn)營(yíng)管理等各個(gè)方面。
服務(wù)流程自動(dòng)化是指實(shí)現(xiàn)服務(wù)流程的自動(dòng)處理,目標(biāo)是能夠?yàn)椤斑\(yùn)維”人員提供一個(gè)靈活的處理架構(gòu),從而使服務(wù)流程能夠按照預(yù)定的順序進(jìn)行自動(dòng)執(zhí)行,并且能夠?qū)崿F(xiàn)資源的自動(dòng)化管理和開(kāi)通,資源整合標(biāo)準(zhǔn)化處理,服務(wù)需求標(biāo)準(zhǔn)化管理,實(shí)現(xiàn)自動(dòng)化快速部署交付。
故障診斷自動(dòng)化是指通過(guò)提升“運(yùn)維”管理的自動(dòng)化水平,實(shí)現(xiàn)配置變更、故障診斷、檢測(cè)維護(hù)的安全高效運(yùn)行。按照標(biāo)準(zhǔn)化服務(wù)流程和管理工具實(shí)現(xiàn)巡檢排查及故障診斷與修復(fù)的標(biāo)準(zhǔn)化和自動(dòng)化,降低“運(yùn)維”管理成本。
資產(chǎn)配置自動(dòng)化是指能夠通過(guò)自動(dòng)化腳本或工具平臺(tái),實(shí)現(xiàn)資源的自動(dòng)化快速部署,縮短資產(chǎn)上線時(shí)間。目標(biāo)是通過(guò)自主發(fā)現(xiàn)采集資產(chǎn)信息和配置,跟蹤資產(chǎn)的配置信息,實(shí)現(xiàn)資產(chǎn)信息和配置的統(tǒng)一管理,減少重復(fù)管理,提高資產(chǎn)管理效率。
安全合規(guī)自動(dòng)化是指通過(guò)預(yù)定義的方式檢查策略和流程規(guī)則,實(shí)現(xiàn)信息安全流程合規(guī)的自動(dòng)化監(jiān)測(cè)預(yù)警。目標(biāo)是通過(guò)監(jiān)控策略對(duì)業(yè)務(wù)系統(tǒng)的全部流程覆蓋,滿足安全合規(guī)的集中管理要求。
運(yùn)營(yíng)管理自動(dòng)化是指實(shí)現(xiàn)運(yùn)維輔助運(yùn)營(yíng)管理,通過(guò)提供自動(dòng)化智能化的管理建議,提高“運(yùn)維”管理輔助運(yùn)營(yíng)管理能力,并通過(guò)自動(dòng)化技術(shù)提升配置數(shù)據(jù)規(guī)范性和準(zhǔn)確性。同時(shí)能夠分析監(jiān)控預(yù)警系統(tǒng)的數(shù)據(jù),為資源的優(yōu)化配置、資源風(fēng)險(xiǎn)處理提供決策建議。
運(yùn)維數(shù)據(jù)處理包括數(shù)據(jù)采集、匯總、存儲(chǔ)等環(huán)節(jié),由于信息系統(tǒng)復(fù)雜多樣,各系統(tǒng)的“運(yùn)維”數(shù)據(jù)無(wú)法做到格式統(tǒng)一,因此“運(yùn)維”數(shù)據(jù)必須做到數(shù)據(jù)采集獨(dú)立、格式整理統(tǒng)一、數(shù)據(jù)存儲(chǔ)集中的建設(shè)思路。
數(shù)據(jù)采集的是指針對(duì)各系統(tǒng)的運(yùn)行數(shù)據(jù)進(jìn)行收集,由于系統(tǒng)的多樣性,針對(duì)不同的系統(tǒng)采用標(biāo)準(zhǔn)的、可擴(kuò)展的數(shù)據(jù)收集組件,通過(guò)數(shù)據(jù)收集組件將各個(gè)監(jiān)控系統(tǒng)不同類型數(shù)據(jù)進(jìn)行統(tǒng)一匯總。數(shù)據(jù)匯總是指將數(shù)據(jù)收集組件采集到的數(shù)據(jù)進(jìn)行統(tǒng)一的格式調(diào)整,使得不同監(jiān)控系統(tǒng)采集的數(shù)據(jù)達(dá)到規(guī)范和統(tǒng)一,同時(shí)將數(shù)據(jù)提供給巡檢系統(tǒng)實(shí)現(xiàn)系統(tǒng)巡檢自動(dòng)化。當(dāng)數(shù)據(jù)采集并進(jìn)行格式轉(zhuǎn)換之后需要將這些數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)中,數(shù)據(jù)庫(kù)必須具備高可擴(kuò)展性、高并發(fā)性、高可用性等特點(diǎn),必須能夠支撐對(duì)運(yùn)維數(shù)據(jù)的集中分析和處理。
通過(guò)建立統(tǒng)一的“運(yùn)維”事件集中處理平臺(tái),將各類告警事件進(jìn)行集中管理,創(chuàng)建標(biāo)準(zhǔn)事件庫(kù),實(shí)現(xiàn)告警內(nèi)容的自動(dòng)生成自動(dòng)發(fā)送,形成無(wú)人值守的告警事件預(yù)警系統(tǒng)。
維護(hù)監(jiān)測(cè)自動(dòng)化主要包括異常事件自動(dòng)化處置、配置變更自動(dòng)化監(jiān)測(cè)和故障自動(dòng)化診斷,從而提高運(yùn)維效率降低運(yùn)維成本。
異常事件自動(dòng)化處置需要建立一個(gè)事件處置知識(shí)庫(kù)并與“運(yùn)維”工具進(jìn)行聯(lián)動(dòng)執(zhí)行。當(dāng)異常事件發(fā)生時(shí)系統(tǒng)通過(guò)事件特征類型的比對(duì)查找出對(duì)應(yīng)的解決方案,再調(diào)用關(guān)聯(lián)的“運(yùn)維”工具執(zhí)行解決方案,從而減輕“運(yùn)維”人員的負(fù)擔(dān)和縮短異常事件的處理時(shí)間。
配置變更自動(dòng)化監(jiān)測(cè)需要建立配置管理數(shù)據(jù)庫(kù),對(duì)各類資產(chǎn)的配置進(jìn)行實(shí)時(shí)監(jiān)測(cè)并自動(dòng)對(duì)配置管理數(shù)據(jù)庫(kù)的數(shù)據(jù)變化進(jìn)行監(jiān)測(cè)記錄。同時(shí)配置變更自動(dòng)化管理,需要對(duì)監(jiān)控規(guī)則進(jìn)行定義,定期執(zhí)行監(jiān)控任務(wù)采集系統(tǒng)的配置信息,對(duì)配置變更的情況自動(dòng)生成待辦任務(wù),通過(guò)與歷史版本的對(duì)比分析將配置變更的影響范圍和依賴關(guān)系展示出來(lái)。
故障自動(dòng)化診斷需要建立一系列的故障診斷處理策略,故障監(jiān)測(cè)系統(tǒng)實(shí)時(shí)收集系統(tǒng)的日志信息,然后依據(jù)故障診斷策略對(duì)信息進(jìn)行分析處理,并自動(dòng)根據(jù)處理策略判斷故障問(wèn)題提供處理方案。故障診斷通常通過(guò)對(duì)日志信息分析進(jìn)行判斷,因此要實(shí)現(xiàn)故障自動(dòng)化診斷,就要實(shí)現(xiàn)對(duì)系統(tǒng)日志的自動(dòng)化收集和分析,并通過(guò)策略關(guān)聯(lián)處理方案自動(dòng)執(zhí)行,從而實(shí)現(xiàn)對(duì)故障的自動(dòng)化診斷處理。
輔助決策自動(dòng)化是通過(guò)對(duì)系統(tǒng)運(yùn)行數(shù)據(jù)的分析向信息系統(tǒng)改造升級(jí)、性能調(diào)優(yōu)以及運(yùn)營(yíng)管理提供數(shù)據(jù)支持。自動(dòng)化“運(yùn)維”管理應(yīng)當(dāng)具備報(bào)表、報(bào)告的自動(dòng)生成能力,從而減少“運(yùn)維”人員手工生成文檔的工作,提高工作效率。同時(shí)還可以降低人工錯(cuò)誤,提升文檔質(zhì)量。數(shù)據(jù)分析功能還應(yīng)當(dāng)能夠?qū)\(yùn)維報(bào)表數(shù)據(jù)進(jìn)行進(jìn)一步的分析和處理,為輔助決策實(shí)現(xiàn)運(yùn)營(yíng)管理自動(dòng)化處理提供依據(jù)。
綜上所述,信息系統(tǒng)的“運(yùn)維”工作從傳統(tǒng)人工處理轉(zhuǎn)向自動(dòng)化“運(yùn)維”有效提升了運(yùn)維效率,降低了運(yùn)維成本,實(shí)現(xiàn)了“運(yùn)維”管理的流程化和規(guī)范化,同時(shí)加強(qiáng)了“運(yùn)維”工作的安全性與合規(guī)性。輔助決策的加入使“運(yùn)維”工作從基本維護(hù)工作提升到運(yùn)營(yíng)管理的角度,為運(yùn)營(yíng)管理提供自動(dòng)化智能化的管理建議。
隨著信息技術(shù)的高速發(fā)展,人工智能已初步應(yīng)用部分企業(yè)系統(tǒng)內(nèi)。未來(lái)可將大數(shù)據(jù)分析技術(shù)、人工智能神經(jīng)網(wǎng)絡(luò)技術(shù)等應(yīng)用到自動(dòng)化“運(yùn)維”管理中,“運(yùn)維”管理工作必將向著智能化“運(yùn)維”管理方向發(fā)展。