王維沂
在信息技術(shù)高速發(fā)展的今天,數(shù)據(jù)中心在現(xiàn)代企業(yè)運(yùn)行中發(fā)揮著關(guān)鍵的基礎(chǔ)性作用。本文通過論述數(shù)據(jù)中心運(yùn)維管理的改進(jìn)方法,為今后數(shù)據(jù)中心的發(fā)展提出了科學(xué)建議,這對(duì)于企業(yè)選擇合理的IT戰(zhàn)略藍(lán)圖及發(fā)展方向,實(shí)現(xiàn)業(yè)務(wù)的可持續(xù)發(fā)展,具有重要的現(xiàn)實(shí)意義。
一、運(yùn)維管理流程
1.規(guī)劃數(shù)據(jù)中心運(yùn)維體系,提高各流程的集成性和可執(zhí)行性,建立流程改進(jìn)路線圖
回顧運(yùn)維管理流程的繼承性和可執(zhí)行性,和組織角色定義結(jié)合,完善流程的接口和銜接。定義服務(wù)交付管理流程要素,并制定服務(wù)流程建設(shè)和改進(jìn)路線圖,分級(jí)分步的進(jìn)行,使其漸進(jìn)形成可預(yù)測(cè),可用和可度量(級(jí)別,成本等)的服務(wù)管理流程體系。支持未來服務(wù)級(jí)別、服務(wù)目錄等面向服務(wù)的IT技術(shù)設(shè)施運(yùn)營(yíng)模式。
2.建立基于流程的運(yùn)維工作管理辦法,規(guī)范化流程的執(zhí)行和日常工作,平滑流程的銜接
應(yīng)建立運(yùn)維工作管理辦法,達(dá)成面向服務(wù)的數(shù)據(jù)中心運(yùn)維職能和管理模型,形成數(shù)據(jù)中心運(yùn)營(yíng),支持,行政,管理的職能;達(dá)成基于流程的數(shù)據(jù)中心運(yùn)維管理過程,包括事件,問題,變更,發(fā)布,配置等管理流程和日常工作的融合。
運(yùn)維工作管理辦法應(yīng)建立較完善的數(shù)據(jù)中心運(yùn)維管理過程,包括運(yùn)維中的主要工作和管理過程;過程間的接口;運(yùn)維管理服務(wù)過程的關(guān)鍵保障環(huán)節(jié)。
上述職能,模型,過程要以數(shù)據(jù)中心運(yùn)維管理制度和規(guī)范的形式落地,這些制度和規(guī)范包括操作規(guī)程,設(shè)備管理,機(jī)房管理,安全管理,服務(wù)支持,外包管理,行政管理,災(zāi)備管理等等。
3.建立統(tǒng)一的系統(tǒng)的應(yīng)急管理辦法
應(yīng)急管理已經(jīng)是現(xiàn)代企業(yè),特別是金融企業(yè)不可或缺的管理工作。IT運(yùn)維同樣需要應(yīng)急管理流程來提高應(yīng)急處理的有效性和及時(shí)性。IT技術(shù)設(shè)施的應(yīng)急管理,需要把業(yè)務(wù)的應(yīng)急管理要求協(xié)同到IT基礎(chǔ)設(shè)施上。從組織,職責(zé),流程,技術(shù)等方面,建立數(shù)據(jù)中心應(yīng)急管理辦法。應(yīng)急管理辦法總體需求包括:
(1)數(shù)據(jù)中心應(yīng)急管理辦法——規(guī)定總體事件分級(jí),報(bào)告,處理,職責(zé)等;
(2)應(yīng)急預(yù)案——定義具體業(yè)務(wù)系統(tǒng)、設(shè)施、事件應(yīng)急處理過程;
(3)和災(zāi)備管理的銜接。
應(yīng)急管理辦法的主要內(nèi)容應(yīng)包括:事件分級(jí)、處理流程、組織體系和職責(zé)、處理資源、應(yīng)急演練等。最后應(yīng)急管理辦法中還應(yīng)包括實(shí)施貫徹建議,包括培訓(xùn),宣貫,演練等。
二、運(yùn)維管理技術(shù)工具
全面規(guī)劃集中的統(tǒng)一的運(yùn)維監(jiān)控平臺(tái),盡可能覆蓋企業(yè)現(xiàn)有IT基礎(chǔ)設(shè)施,包括主機(jī)設(shè)備、網(wǎng)絡(luò)設(shè)備、存儲(chǔ)設(shè)備、備份設(shè)備、數(shù)據(jù)庫、中間件、應(yīng)用軟件、桌面系統(tǒng)等;盡可能考慮對(duì)現(xiàn)有監(jiān)控系統(tǒng)(包括業(yè)務(wù)監(jiān)控系統(tǒng))的集成;集中化管理提供故障處理、配置數(shù)據(jù)處理、性能監(jiān)控等標(biāo)準(zhǔn)的系統(tǒng)監(jiān)控功能,同時(shí)進(jìn)行數(shù)據(jù)分析和整合,并以適當(dāng)?shù)男问竭M(jìn)行呈現(xiàn),支持維護(hù)人員進(jìn)行的故障定位、診斷和解決,同時(shí)為運(yùn)維管理提供基本信息;統(tǒng)一的平臺(tái)提供統(tǒng)一的配置管理數(shù)據(jù)庫,統(tǒng)一的管控流程;統(tǒng)一展現(xiàn);統(tǒng)一分析處理;統(tǒng)一采集;
監(jiān)控指標(biāo)體系規(guī)劃,分為平臺(tái)和業(yè)務(wù)兩部分,平臺(tái)包括生產(chǎn)系統(tǒng)的網(wǎng)絡(luò)設(shè)備、主機(jī)、中間件、數(shù)據(jù)庫、存儲(chǔ)和備份設(shè)備,業(yè)務(wù)為各類業(yè)務(wù)系統(tǒng);監(jiān)控指標(biāo)需要包含定性的和定量的;反映監(jiān)控對(duì)象工作是否正常的功能指標(biāo);反映監(jiān)控對(duì)象工作性能的指標(biāo);反映監(jiān)控對(duì)象資源使用情況的指標(biāo);反映監(jiān)控對(duì)象安全狀態(tài)的指標(biāo)等。監(jiān)控指標(biāo)體系是對(duì)整個(gè)監(jiān)控對(duì)象技術(shù)狀態(tài)的靜態(tài)和動(dòng)態(tài)的量化描述,通過監(jiān)控指標(biāo)體系的閾值定義,也是刻畫整個(gè)監(jiān)控對(duì)象正常運(yùn)行的范圍;監(jiān)控指標(biāo)體系的規(guī)劃要綜合考慮業(yè)務(wù)要求,技術(shù)特性,設(shè)備配置和業(yè)界最佳實(shí)踐;同時(shí),監(jiān)控指標(biāo)體系也應(yīng)該能隨同事件/問題處理的積累進(jìn)行調(diào)整,逐步加強(qiáng)指標(biāo)體系對(duì)預(yù)測(cè)的支持;
監(jiān)控系統(tǒng)布署規(guī)劃;對(duì)監(jiān)控體系框架中不同的層次(數(shù)據(jù)層、采集層、功能層和展現(xiàn)層)的部署規(guī)劃,包括部署的部件、位置、配置、接口、網(wǎng)絡(luò)配置(需求)等。部署當(dāng)中要考慮到多地區(qū)部署、跨地區(qū)部署、部署變更、配置管理等因素;
自動(dòng)化運(yùn)維監(jiān)控管理技術(shù)建議。根據(jù)一體化信息監(jiān)管平臺(tái)建設(shè)的需要,將運(yùn)維管理系統(tǒng)按功能劃分進(jìn)行現(xiàn)有主流產(chǎn)品及集成分析,推出產(chǎn)品選型原則。這些功能要覆蓋業(yè)務(wù)服務(wù)管理平臺(tái)、網(wǎng)管平臺(tái)、安全管理平臺(tái)、桌面管理平臺(tái);服務(wù)流程管理平臺(tái)及自動(dòng)化運(yùn)維管理平臺(tái);統(tǒng)一的資產(chǎn)配置數(shù)據(jù)庫,資產(chǎn)生命周期管理;服務(wù)交付管理平臺(tái)等主要部分;從集成框架和要求出發(fā),從技術(shù)接口、協(xié)議標(biāo)準(zhǔn)、服務(wù)咨詢、技術(shù)開發(fā)等方面,對(duì)主流產(chǎn)品的集成能力進(jìn)行分析建議,并適時(shí)進(jìn)行一體化監(jiān)控平臺(tái)的建設(shè)路線。
三、運(yùn)維管理組織
1.在IT服務(wù)管理體系中規(guī)劃服務(wù)組織,定義角色,角色職責(zé),接口。整個(gè)服務(wù)組織規(guī)劃中要考慮:
(1)層次化管理功能:在集團(tuán),分支機(jī)構(gòu)營(yíng)業(yè)部,子公司等不同層次上,不同組織特性上,分層組織功能;
(2)集中和分散的平衡:統(tǒng)一指揮,分級(jí)管理;
(3)面向服務(wù)的IT運(yùn)維管理功能結(jié)構(gòu):從面向服務(wù)的IT運(yùn)維架構(gòu)出發(fā),建立運(yùn)行、支持、行政、管理等圍繞服務(wù)提供的組織功能;
(4)流程導(dǎo)向是基于流程管理的運(yùn)維組織架構(gòu):建立組織架構(gòu)和事件管理,問題管理,變更管理,配置管理等服務(wù)管理流程的協(xié)同;
(5)各組織功能描述,各組織間接口定義;溝通與配合渠道;
(6)崗位定義,崗位職責(zé)和工作內(nèi)容,考評(píng),崗位培訓(xùn)計(jì)劃。
2.規(guī)劃數(shù)據(jù)中心運(yùn)維體系,提高各流程的集成性和可執(zhí)行性,建立流程改進(jìn)路線圖。回顧運(yùn)維管理流程的繼承性和可執(zhí)行性,和組織角色定義結(jié)合,完善流程的接口和銜接。定義服務(wù)交付管理流程要素,并制定服務(wù)流程建設(shè)和改進(jìn)路線圖,分級(jí)分步的進(jìn)行,使其漸進(jìn)形成可預(yù)測(cè),可用和可度量(級(jí)別,成本等)的服務(wù)管理流程體系。支持未來服務(wù)級(jí)別、服務(wù)目錄等面向服務(wù)的IT技術(shù)設(shè)施運(yùn)營(yíng)模式。
3.建立基于流程的運(yùn)維工作管理辦法,規(guī)范化流程的執(zhí)行和日常工作,平滑流程的銜接。應(yīng)建立運(yùn)維工作管理辦法,達(dá)成面向服務(wù)的數(shù)據(jù)中心運(yùn)維職能和管理模型,形成數(shù)據(jù)中心運(yùn)營(yíng),支持,行政,管理的職能;達(dá)成基于流程的數(shù)據(jù)中心運(yùn)維管理過程,包括事件,問題,變更,發(fā)布,配置等管理流程和日常工作的融合。運(yùn)維工作管理辦法應(yīng)建立較完善的數(shù)據(jù)中心運(yùn)維管理過程,包括運(yùn)維中的主要工作和管理過程;過程間的接口;運(yùn)維管理服務(wù)過程的關(guān)鍵保障環(huán)節(jié)。上述職能,模型,過程要以數(shù)據(jù)中心運(yùn)維管理制度和規(guī)范的形式落地,這些制度和規(guī)范包括操作規(guī)程,設(shè)備管理,機(jī)房管理,安全管理,服務(wù)支持,運(yùn)維管理,行政管理,災(zāi)備管理等等。
4.建立統(tǒng)一的系統(tǒng)的應(yīng)急管理辦法。應(yīng)急管理已經(jīng)是現(xiàn)代企業(yè),特別是金融企業(yè)不可或缺的管理工作。IT運(yùn)維同樣需要應(yīng)急管理流程來提高應(yīng)急處理的有效性和及時(shí)性。IT技術(shù)設(shè)施的應(yīng)急管理,需要把業(yè)務(wù)的應(yīng)急管理要求協(xié)同到IT基礎(chǔ)設(shè)施上。從組織,職責(zé),流程,技術(shù)等方面,建立數(shù)據(jù)中心應(yīng)急管理辦法。應(yīng)急管理辦法總體需求包括:
(1)數(shù)據(jù)中心應(yīng)急管理辦法——規(guī)定總體事件分級(jí),報(bào)告,處理,職責(zé)等;
(2)應(yīng)急預(yù)案——定義具體業(yè)務(wù)系統(tǒng)、設(shè)施、事件應(yīng)急處理過程;
(3)和災(zāi)備管理的銜接。
應(yīng)急管理辦法的主要內(nèi)容應(yīng)包括:事件分級(jí)、處理流程、組織體系和職責(zé)、處理資源、應(yīng)急演練等。最后應(yīng)急管理辦法中還應(yīng)包括實(shí)施貫徹建議,包括培訓(xùn),宣貫,演練等。
四、運(yùn)維管理體系中的PDCA
為實(shí)現(xiàn)現(xiàn)代企業(yè)數(shù)據(jù)運(yùn)行中心的云計(jì)算及大數(shù)據(jù)技術(shù)的藍(lán)圖規(guī)劃,我們可以從流程、工具、技術(shù)及數(shù)據(jù)的標(biāo)準(zhǔn)化入手,不斷完善IT運(yùn)維管理體系,最終使其滿足企業(yè)業(yè)務(wù)發(fā)展需求,并且完成IT技術(shù)引領(lǐng)業(yè)務(wù)發(fā)展的目標(biāo)。而本文作者想強(qiáng)調(diào)的是,我們完全可以借助PDCA管理方法,縮短優(yōu)化這一改進(jìn)過程。
企業(yè)數(shù)據(jù)中心的建設(shè)管理體系,可分為戰(zhàn)略管理、實(shí)施管理、運(yùn)維管理,這三種管理均可通過PDCA的方法進(jìn)行管理優(yōu)化。
1.數(shù)據(jù)中心戰(zhàn)略管理(P)
數(shù)據(jù)中心建設(shè)管理規(guī)劃是企業(yè)信息化建設(shè)的關(guān)鍵,其必須符合信息化建設(shè)的總體方針和戰(zhàn)略。因此企業(yè)數(shù)據(jù)中心的建設(shè)管理規(guī)劃可涵蓋以下幾點(diǎn):
(1)評(píng)估企業(yè)未來的業(yè)務(wù)發(fā)展戰(zhàn)略目標(biāo);
(2)評(píng)估企業(yè)業(yè)務(wù)流程再造的可能性及具體需求;
(3)分析調(diào)研數(shù)據(jù)中心對(duì)于改進(jìn)業(yè)務(wù)流程的關(guān)鍵支撐點(diǎn);
(4)確定該企業(yè)數(shù)據(jù)中心的戰(zhàn)略目標(biāo);
(5)本企業(yè)數(shù)據(jù)中心技術(shù)發(fā)展現(xiàn)狀以及同業(yè)數(shù)據(jù)中心情況調(diào)研;
(6)確定數(shù)據(jù)中心未來發(fā)展的體系架構(gòu)(包括硬件環(huán)境及應(yīng)用系統(tǒng))和運(yùn)維管理模式;
(7)對(duì)數(shù)據(jù)中心現(xiàn)狀和目標(biāo)的管理模式和技術(shù)架構(gòu)進(jìn)行差異化分析;
(8)分析如何實(shí)現(xiàn)數(shù)據(jù)中心建設(shè)管理目標(biāo),并制定實(shí)施計(jì)劃。
2.數(shù)據(jù)中心實(shí)施管理(D)
企業(yè)數(shù)據(jù)中心的實(shí)施管理應(yīng)包括硬件環(huán)境部署、網(wǎng)絡(luò)環(huán)境部署、業(yè)務(wù)系統(tǒng)實(shí)施、應(yīng)用系統(tǒng)升級(jí)等方面的工作。所有的實(shí)施內(nèi)容都應(yīng)遵循數(shù)據(jù)中心的建設(shè)管理戰(zhàn)略規(guī)劃(P),并嚴(yán)格按照制度流程,規(guī)范化、標(biāo)準(zhǔn)化的進(jìn)行實(shí)施作業(yè)。我們可參照項(xiàng)目管理中通常使用的管理方法,對(duì)數(shù)據(jù)中心的實(shí)施管理進(jìn)行相關(guān)的操作。
3.數(shù)據(jù)中心運(yùn)維管理(C & A)
數(shù)據(jù)中心運(yùn)維管理的重點(diǎn)是確保各業(yè)務(wù)系統(tǒng)的安全穩(wěn)定運(yùn)行,保障應(yīng)用系統(tǒng)的業(yè)務(wù)連續(xù)性,并提供給客戶高效準(zhǔn)確的信息化服務(wù)。生產(chǎn)系統(tǒng)必須具備高可用功能,如雙機(jī)熱備、集群管理等,并且當(dāng)業(yè)務(wù)系統(tǒng)出現(xiàn)故障時(shí),應(yīng)該能夠盡快恢復(fù)正常的生產(chǎn)運(yùn)行。對(duì)應(yīng)于PDCA管理方法,數(shù)據(jù)中心的運(yùn)維管理可分為監(jiān)控管理和變更管理。
PDCA管理方法中的Check,可以看作是運(yùn)維管理中的監(jiān)控管理。數(shù)據(jù)中心應(yīng)具備完備的監(jiān)控管理方法及監(jiān)控手段,當(dāng)監(jiān)控到系統(tǒng)故障或問題時(shí),應(yīng)啟動(dòng)相關(guān)的管理機(jī)制或應(yīng)急流程,以最及時(shí)有效的方法處理相關(guān)故障問題。數(shù)據(jù)中心的監(jiān)控管理可以參考ITIL管理標(biāo)準(zhǔn)中的事件管理和問題管理。
PDCA管理方法中的Action,可以看作是運(yùn)維管理中的變更管理。為解決數(shù)據(jù)中心監(jiān)控管理中遇到的故障與問題,數(shù)據(jù)中心可通過變更管理對(duì)故障或問題進(jìn)行修復(fù)或優(yōu)化,即是PDCA環(huán)中針對(duì)Check出的結(jié)果進(jìn)行Action的響應(yīng),從而杜絕已知風(fēng)險(xiǎn),規(guī)避潛在隱患。此外,結(jié)合內(nèi)外部IT審計(jì)管理,定期對(duì)數(shù)據(jù)中心的管理流程進(jìn)行安全合規(guī)審核,借鑒外部審計(jì)人員的管理技術(shù)經(jīng)驗(yàn),防范安全隱患。(作者單位:國(guó)家開發(fā)銀行)