張翼
關鍵詞:IT;運維;一體化
1引言
近年來,IT運維從被動運維逐步轉(zhuǎn)向主動運維,但在運維體系、運維管理、運維工具等方面還存在差距和不足。集團公司進一步明確了“集中共享的一體化IT運維體系的發(fā)展方向”,同時總部組織統(tǒng)籌規(guī)劃設計了一體化IT運維總體方案,開展了一體化運維平臺建設,旨在通過建立一套“可管、可控、可視、智能”的統(tǒng)一IT運維平臺,將一體化IT運維體系在全集團落地實施,并充分利用自動化運維工具、機器學習、大數(shù)據(jù)分析等技術,提高IT運行的標準化、流程化、集約化、自動化和智能化水平,進而提升風險預警和決策分析能力,實現(xiàn)集團信息化服務卓越運營。因此,圍繞一體化運維平臺建立一套集團公司統(tǒng)一的一體化IT運維體系已成為當下迫切需要解決的時代課題。
2背景
2.1數(shù)字經(jīng)濟時代下業(yè)務變化和新技術廣泛應用,推動IT運維管理模式變革
運維服務在保證基礎設施穩(wěn)定的情況下,更多關注業(yè)務需求、應用系統(tǒng)和服務;云計算等新技術的廣泛應用,驅(qū)動運維服務的對象、方式、工具和服務能力發(fā)生轉(zhuǎn)變:業(yè)務對IT依賴性增強,應用系統(tǒng)復雜度不斷提高,對運維服務效率、質(zhì)量和自動化程度的要求越來越高。以上變革要求IT運維對象的集中化,運維模式的遠程和雙態(tài)化,運維工具的自動化、智能化,從而提高運維效率,實現(xiàn)智能預測分析和輔助運維決策。
2.2IT運營從系統(tǒng)設計開始進行全生命周期管控
ITIL,IS020000和工信部ITSS等標準中均強調(diào)IT服務的全生命周期管理。IT運營的服務能力,以及對業(yè)務的支撐度和用戶滿意度應從系統(tǒng)設計構建階段開始建設,需要建立體系化的IT運維管控機制,以進行全生命周期管理。
2.3IT運維向智能化、集約化方向發(fā)展
在信息系統(tǒng)規(guī)模、復雜程度變化等方面,IT運營管控的發(fā)展經(jīng)歷手工運維,流程化、標準化運維,自動化、平臺運維,DevOps,AIOps五大階段,信息系統(tǒng)規(guī)模及復雜度的提升促使IT運維管理探尋集約化解決方案,以推動IT運維向智能化、集約化方向發(fā)展。
3基于一體化運維平臺的運維管理的主要做法
3.1建立健全一體化IT運維標準體系
3.1.1完善制度標準,滿足一體化IT運維實際需要
為滿足一體化IT運維體系建設需求,在已有標準規(guī)范的基礎上,借鑒ITIL,IS020000,ITSS等標準體系,建立四層三類的IT運維標準規(guī)范體系,主要包括《信息系統(tǒng)運行管理辦法》《信息基礎設施運維維護管理辦法》等3個管理辦法、14個細則/指南,用于指導和規(guī)范運維過程和運維行為。
3.1.2建立CMDB數(shù)據(jù)標準,規(guī)范數(shù)據(jù)配置和變更管理
調(diào)研集團公司和試點企業(yè)需求,全面梳理集團和試點企業(yè)的應用系統(tǒng)和IT基礎設施資源,參考借鑒了電信行業(yè)標準YD/T 1926.5-2010《IT運維服務管理技術要求第5部分:配置管理數(shù)據(jù)庫》,建立統(tǒng)一的配置管理數(shù)據(jù)庫( CMDB),以實現(xiàn)所有IT數(shù)據(jù)資產(chǎn)標準化、透明化、集約化管理。
(1)完成CMDB數(shù)據(jù)標準的設計。由于各企業(yè)管理維度與側(cè)重點不同,配置項屬性要素存在較大差異,依據(jù)信息系統(tǒng)運維中對各技術層次的具體管控要求,并參考行業(yè)標準和成熟經(jīng)驗,通過對原始數(shù)據(jù)的梳理和優(yōu)化,修訂配置項目錄分類,按照“以應用為中心”的原則,圍繞應用自上而下地進行詳細設計,形成了17個一級大類,78個二級分類和596個配置項標準要素,并完成配置項名稱、編碼、類型、數(shù)據(jù)等標準化設計,以形成統(tǒng)一標準模型。設計統(tǒng)一的CMDB屬性庫,既保持了全部屬性的唯一性,又避免了二義性和相同數(shù)據(jù)重復收集的問題,便于信息的統(tǒng)計與消費,進而提升數(shù)據(jù)的可用性和可管性。
(2)明確配置項的約束原則。為確保在推廣實施和運營過程中嚴格保持標準,對配置項進行了明確的規(guī)范與約束,制定了配置項命名標準、字段編碼標準、數(shù)據(jù)填寫規(guī)范、數(shù)據(jù)源采集規(guī)范等,以保障全集團CMDB數(shù)據(jù)的統(tǒng)一維護、治理、查詢、統(tǒng)計、應用,便于對配置項調(diào)整進行集中優(yōu)化調(diào)整,進而維護全集團統(tǒng)一、權威的CMDB模型。
(3)建立CMDB配置流程。打通CMDB全生命周期管理,確定模型建立、修改、數(shù)據(jù)更新、數(shù)據(jù)審計等流程,形成CMDB數(shù)據(jù)消費與CMDB數(shù)據(jù)更新的雙向促進,進而實現(xiàn)配置項模型及數(shù)據(jù)標準化的落地。
(4)為保障數(shù)據(jù)的準確性、可用性、合規(guī)性、安全性,設計配置項數(shù)據(jù)審查規(guī)范和數(shù)據(jù)質(zhì)量報告,以有效避免相關信息存在重復收集的現(xiàn)象,同時提高數(shù)據(jù)收集的完整性,進而對數(shù)據(jù)標準化進行優(yōu)化反哺,為提升數(shù)據(jù)分析能力、實現(xiàn)數(shù)據(jù)深度挖掘能力、完善數(shù)據(jù)消費場景提供了有力支撐。
3.1.3刻畫集團公司統(tǒng)一運維流程,實現(xiàn)IT運維作業(yè)標準化、規(guī)范化
(1)設計了標準化的流程模型。根據(jù)試點企業(yè)服務流程缺乏統(tǒng)一標準規(guī)范的問題,以及企業(yè)流程流轉(zhuǎn)實現(xiàn)方式多樣化、個性化的現(xiàn)狀,并結(jié)合業(yè)內(nèi)最佳實踐,設計制定了流程模型標準,包括命名編碼規(guī)則、標準字段集、表單標準、流程節(jié)點標準,全面覆蓋流程配置各個節(jié)點,有力地支撐后期運營工作的開展和運維服務行為的統(tǒng)一管理。
(2)完成了流程的標準化。隨著一體化運維平臺在試點企業(yè)推廣實施的不斷深入,無論從管理角度還是實施角度,流程的統(tǒng)一標準化日趨重要。為更好地開展企業(yè)實施工作,結(jié)合前期試點企業(yè)流程調(diào)研內(nèi)容和標準模板設計,并通盤考慮企業(yè)的共性和個性化需求,確定了ITIL類、服務請求類、通用類、應用系統(tǒng)類4大類共29個標準流程,實現(xiàn)了具體流程的標準化落地和業(yè)務全覆蓋,加快了實施進度,切實提高了企業(yè)實施質(zhì)量效率,為后續(xù)企業(yè)推廣實施和運營夯實了基礎。
(3)完成了集團和企業(yè)流程的統(tǒng)一融合。企業(yè)端服務流程可分為企業(yè)內(nèi)部閉環(huán)流程和跨總部租戶流程兩類,跨租戶流程涉及企業(yè)、總部兩個租戶,同一個服務流程請求提報需在兩個租戶下進行,操作過程復雜煩瑣,服務過程質(zhì)量管控困難。針對此問題,設計了跨租戶流程協(xié)同機制,企業(yè)用戶只需在本租戶內(nèi)提交申請,系統(tǒng)將企業(yè)工單以遠程工單的形式自動轉(zhuǎn)發(fā)至總部租戶下,企業(yè)表單信息自動寫入,自動觸發(fā)總部租戶相關流程,處理完成后回傳數(shù)據(jù),自動形成完整閉環(huán)??缱鈶袅鞒虆f(xié)同機制打通了總部與企業(yè)、租戶與租戶之間的壁壘,簡化了企業(yè)用戶操作步驟,提高了管控質(zhì)量、客戶體驗和運維效率。
3.1.4建立并落地監(jiān)控告警標準,確保系統(tǒng)穩(wěn)定運行
針對各企業(yè)監(jiān)控對象的指標多樣化、非標化的問題,結(jié)合行業(yè)最佳實踐,開展調(diào)研、配置、驗證,實現(xiàn)了監(jiān)控標準化。
(1)制定監(jiān)控調(diào)研表及核心指標集。依據(jù)企業(yè)特色,結(jié)合廠商及行業(yè)實踐經(jīng)驗,制定了監(jiān)控調(diào)研表及核心指標集,內(nèi)容涵蓋操作系統(tǒng)、數(shù)據(jù)庫、中間件、網(wǎng)絡設備、服務器、存儲、應用系統(tǒng)等7大類、16小類、330余個指標項及閾值。
(2)制定監(jiān)控配置標準流程。根據(jù)反復實踐和總結(jié)提煉總部和試點企業(yè)監(jiān)控配置實施方法,制定了監(jiān)控配置標準流程,內(nèi)容涵蓋環(huán)境準備、監(jiān)控部署、監(jiān)控策略配置、標簽、監(jiān)控視圖等監(jiān)控實施全過程,其規(guī)范了企業(yè)監(jiān)控實施標準過程,提高了實施效率。
(3)制定告警規(guī)則。按照企業(yè)實際業(yè)務線條設置告警通知人,通過短信、郵件、站內(nèi)信等方式實時將告警信息推送給相應運維人員,使企業(yè)能夠?qū)崟r監(jiān)控應用系統(tǒng)和IT基礎設施運行狀態(tài),從而全面有效地掌握重點信息設備和關鍵應用的運行情況,并結(jié)合CMDB、告警策略進行統(tǒng)一告警、故障定位及關聯(lián)分析,及早發(fā)現(xiàn)問題,實現(xiàn)故障快速定位及恢復,以保障系統(tǒng)穩(wěn)定運行以及業(yè)務的連續(xù)性。
3.1.5完善用戶權限標準,實現(xiàn)用戶權限的強管控
一體化運維平臺現(xiàn)有用戶及權限管理缺乏多個組織機構并行的標準化、一致性的權限架構設計,管理模式過于粗放,難以有效支撐企業(yè)內(nèi)控要求的用戶與崗位的權限分配。
(1)梳理系統(tǒng)現(xiàn)有問題。結(jié)合企業(yè)ERP、費用報銷用戶及權限多年運維經(jīng)驗,分析運維系統(tǒng)問題:該系統(tǒng)權限分配是用戶對應角色,缺少用戶崗位及業(yè)務范圍的層級結(jié)構,權限架構層次單一,系統(tǒng)運維人員權限管理的范圍與企業(yè)權限管理員的操作范圍很難細分,在權限分配時容易導致權限過大的情況發(fā)生:該系統(tǒng)擁有權限基礎結(jié)構——角色創(chuàng)建權限的人員范圍過大,其中包括系統(tǒng)運維人員和企業(yè)管理員,在角色維護時,任意增加角色數(shù)量,角色隨意關聯(lián),且角色之間功能交叉,導致權限模塊基礎數(shù)據(jù)量只增不減,冗余數(shù)據(jù)大量產(chǎn)生。
(2)進行系統(tǒng)用戶權限標準化設計和配置。參照ERP大集中權限管理的設計理念,引入風險控制方法,以內(nèi)控制度要求為指引,按照權限最小化原則,從功能和數(shù)據(jù)兩個維度來創(chuàng)建角色,在組織機構的范圍內(nèi)創(chuàng)建用戶組,通過用戶組向用戶賦予系統(tǒng)權限。通過用戶權限的標準化,建立一體化運維平臺的標準化權限矩陣,以確保標準化貫穿于企業(yè)應用的全過程,從而提高系統(tǒng)運行效率,減少企業(yè)上線實施的工作量,實現(xiàn)權限運維與業(yè)務操作的職責分離,以及實現(xiàn)對用戶權限的強管控。
3.2打造集團公司IT運維統(tǒng)一呼叫中心,實現(xiàn)運維統(tǒng)一入口管理
(1)統(tǒng)一了集團IT運維的人口,打造統(tǒng)一人口。一是統(tǒng)一IT運維新平臺門戶提報人口,實現(xiàn)用戶資源申請、問題咨詢等自主提報,二是統(tǒng)一IT運維呼叫中心熱線電話人口,總部、企業(yè)用戶撥打400-XXX-XXXX熱線電話。
(2)建設提升服務工具,呼叫中心業(yè)務平臺與一體化運維平臺工單模塊、客戶信息模塊、報告報表模塊、知識庫模塊四個模塊的集成對接需求確認及開發(fā)提升,完成了呼叫中心業(yè)務系統(tǒng)集成短信平臺、質(zhì)檢模塊、考試模塊、呼損問題等9個主要模塊的29個功能點的需求對接確認及開發(fā)提升。通過平臺集成,實現(xiàn)熱線來電產(chǎn)生工單并可派單流轉(zhuǎn),形成完整運維事件的閉環(huán),從而統(tǒng)一運維管理。
(3)形成完整的呼叫服務管理,通過統(tǒng)一人口提供統(tǒng)一服務,確定了以“接聽率”“滿意率”“解決率”等為核心指標,并接受集團公司及各用戶監(jiān)督,做好內(nèi)部服務管控管理。設立9號投訴與建議專線,暢通用戶反饋問題的渠道,做好投訴與建議、滿意度評價的100%跟蹤回訪,做好問題受理閉環(huán)。
4基于系統(tǒng)完成運營設計,實現(xiàn)IT運維統(tǒng)一協(xié)同和集中管控
按照系統(tǒng)實現(xiàn)集約化、規(guī)模化管理的目標,面向企業(yè)制定了運營工作服務目錄,其中包括用戶及權限、租戶管理、門戶運營、運營分析、CMDB運營、應用支持等工作內(nèi)容。
(1)設立多租戶,租戶內(nèi)部擁有完整獨立的運維系統(tǒng),能夠完全按需實現(xiàn)數(shù)據(jù)隔離,能夠適配自治運維、托管運維等多種運維模式,運營租戶能夠更好地滿足管理者需要,無縫切換到各租戶,支持透視各租戶的關鍵數(shù)據(jù),支持全局策略的統(tǒng)一配置和自動分發(fā),拉通各租戶之間的運維協(xié)同,從而輕松掌控全域運行態(tài)勢。
(2)通過運營租戶全局維護功能,實現(xiàn)對標準角色和用戶組、CMDB模型、流程模型、監(jiān)控指標模型的集中管控,不允許普通用戶進行標準化模型修改,從功能上實現(xiàn)標準化管理。通過全局數(shù)據(jù)查看功能,對全域數(shù)據(jù)進行收集、整合、分析,以可視化和報表報告方式進行展示,從而為管理者決策提供數(shù)據(jù)支持。
(4)對于IT業(yè)務規(guī)模較小的企業(yè),創(chuàng)造性地提出公共租戶概念,支持多個企業(yè)共用同一租戶,主要是針對自身基礎設施、自建應用數(shù)量較少,且不具備獨立運維能力的企業(yè),出于資源集約化、共享化考慮,不單獨設立租戶。使用公共租戶,實現(xiàn)資源監(jiān)控、流程管理、CMDB管理的集中管理,統(tǒng)一服務人口。在技術上,通過設計用戶組和角色,以權限管控實現(xiàn)不同企業(yè)在同一租戶下的數(shù)據(jù)隔離,以滿足企業(yè)數(shù)據(jù)保密需求。
5建立IT運維統(tǒng)計分析和評價機制,增強運維服務質(zhì)量管控
建立信息系統(tǒng)運維評價標準和指標,以客觀反映運維交付團隊的服務質(zhì)量,全面掌握運維實際。通過管理模塊提高服務計量、服務商等精細化管理水平,以推動企業(yè)整體IT運維服務能力和管理能力的提升,從而為集團公司運維數(shù)字化轉(zhuǎn)型、高質(zhì)量發(fā)展助力。
(1)收集、梳理企業(yè)在服務商管理、計量管理、知識管理、服務水平管理、報告與報表、可視化視圖等業(yè)務方面的需求,設計各功能需求和業(yè)務模型、關聯(lián)邏輯、表單模板、報表模型等標準化模板。
(2)結(jié)合ITSS梳理擴充指標庫大類24項,含指標200余個,完成105個指標取數(shù)邏輯,可落人系統(tǒng)自動取數(shù)。
(3)匯總業(yè)務場景,服務報表、報告形成了5個一級大類,20個二級分類服務報表、50個三級分類服務報表,4個服務報告模板。通過標準服務的報告,實現(xiàn)運維數(shù)據(jù)的統(tǒng)一管理、查詢、統(tǒng)計、消費。
(4)完成資源統(tǒng)計、告警統(tǒng)計、工單統(tǒng)計、SLA統(tǒng)計、應用系統(tǒng)狀態(tài)等21個管理可視化視圖,解決了決策層、管理層、執(zhí)行層三個層面的管理需求。
(5)完成了知識庫管理的設計和落地,按照企業(yè)現(xiàn)狀科學劃分了知識分類,形成了68類知識模板,明確了知識來源、知識應用場景、知識審核、知識發(fā)布、知識巡檢、知識共享,有效解決了隱性知識不顯性化、知識沉淀度差、運維人員無法針對性獲取有用知識的問題,實現(xiàn)了知識的有效管理,從而整體提高IT運維人員能力和水平,以及提高運維服務質(zhì)量和服務效率[1-2]。
6主要實踐效果
6.1實時監(jiān)控告警閉環(huán)管理保障業(yè)務連續(xù)性
通過對基礎設施的主動采集和事件接人,結(jié)合告警策略和告警規(guī)則、告警展示和性能展示,分別為各類運維角色提供對應的告警查看視圖,支持告警處置業(yè)務,以確保告警的及時接手、實現(xiàn)告警的閉環(huán)管理。
6.2IT資源管理實現(xiàn)IT資產(chǎn)線上化全生命周期管控
通過對基礎設施和應用系統(tǒng)的資產(chǎn)配置信息管理,提升對IT資源資產(chǎn)的管控能力,結(jié)合流程管理、SLA管理功能,將組織、人員的運維工作電子化,以實現(xiàn)有效透明跟蹤、合理的質(zhì)量管控。
6.3自動化、智能化提高IT運維效率和應急處置能力
通過對基礎設施的納管,構建自動化運維能力基礎,落地自動化場景,逐步解放人力,提高運維效率;結(jié)合智能化運維的能力,初步形成動態(tài)閾值、趨勢預測場景,逐步提升AI運維能力,從而提高IT運維效率和應急處置能力。
6.4服務質(zhì)量管理和評價機制促進IT運維可管可控能力提升
通過對基礎設施和應用系統(tǒng)的資源、性能、運維過程等進行統(tǒng)一管理,結(jié)合統(tǒng)計分析、可視化功能,形成面向管理團隊的決策支持數(shù)據(jù),以提供運維服務考核評價能力,從而提升IT運維的可管可控能力[3]。
6.5線上化、流程化運維管理提升IT運維服務水平
通過服務門戶、服務目錄功能,構建面向用戶的服務門戶提報人口,結(jié)合流程管理響應用戶請求;通過值班管理、知識管理、例會管理,為運維團隊提供日常運維工作的輔助,從而提高IT運維服務水平。