鐵昆,李樂,董斌,程建強
(1.中國電力財務有限公司西北分公司,西安 710004;2.國網(wǎng)匯通金財(北京)信息科技有限公司,北京 100032)
隨著信息化建設(shè)的不斷發(fā)展和深入應用,信息網(wǎng)絡和信息系統(tǒng)的運行維護管理已經(jīng)成為各單位領(lǐng)導和企業(yè)信息服務部門普遍關(guān)注的問題。按發(fā)展時間進度大體上可以分為兩個階段:第一階段是企業(yè)集約化階段,多數(shù)企業(yè)選擇了信息運維外包,既解決了企業(yè)人手不足的問題,又得到了更專業(yè)高效的運維服務;第二階段是企業(yè)數(shù)字化轉(zhuǎn)型階段,黨的十九大以來,大中型企業(yè)加速數(shù)字化轉(zhuǎn)型,運維數(shù)字化技術(shù)的快速發(fā)展更新使得原本的運維的管理跟不上步伐,企業(yè)在零散式、分布式、交叉式等多樣化新型管理轉(zhuǎn)型出現(xiàn)時又引出了一些新的問題,需要進一步從運維管理的基礎(chǔ)面進行分析并開展設(shè)計和實踐。
企業(yè)信息系統(tǒng)運維管理是一個復雜的體系,涉及企業(yè)信息機房、計算、存儲、網(wǎng)絡、數(shù)據(jù)和安全,還有一些其他的網(wǎng)絡元素。加上近年來企業(yè)積極進行數(shù)字經(jīng)濟與實體經(jīng)濟融合,希望運維管理數(shù)字化賦能可以給企業(yè)帶來推動力。然而,面對運維龐大的綜合管理,企業(yè)在信息運維管理方面卻存在以下問題。
隨著企業(yè)數(shù)字化信息系統(tǒng)承載業(yè)務量不斷增高,以及國家對網(wǎng)絡安全管理要求不斷提升,信息安全運行保障、系統(tǒng)運行壓力與風險不斷增大,對運維人員提供的服務要求越來越高。企業(yè)需要深挖運維數(shù)字化數(shù)據(jù)潛力,為企業(yè)數(shù)字化轉(zhuǎn)型作出貢獻與保障。然而現(xiàn)階段,運維人員能力水平、培訓程度參差不齊,提供的服務有高有低,技術(shù)學習跟不上數(shù)字化發(fā)展的腳步,數(shù)字化信息系統(tǒng)安全保障不確定因素變大。企業(yè)信息安全和系統(tǒng)運營帶給運維管理新的挑戰(zhàn),運維服務保障優(yōu)化有待進一步提升。
隨著企業(yè)信息化管理職能的不斷演進,對現(xiàn)行運維工作的管理模式、職責范圍、考核方式等帶來變化和挑戰(zhàn)。信息化管理部門在日常的信息運維工作中,缺少一致有效的管理與匯報的銜接機制,工作的上傳下達效率較低,信息化管理薄弱問題凸顯。
企業(yè)運維標準不統(tǒng)一,難以形成管理合力。企業(yè)現(xiàn)有的信息運維管理制度、流程、標準不統(tǒng)一,難以保障運維服務質(zhì)量,亟需有效整合企業(yè)各類要素資源,開展協(xié)同運維和統(tǒng)一技術(shù)支持,實現(xiàn)業(yè)務與技術(shù)相互配合協(xié)同,成就企業(yè)一體化運營效益的最大化。
工作職責界定不明確,管理范圍責任不清。運維人員與企業(yè)管理人員之間的工作交集重疊,存在多頭管理、越級越權(quán)指揮等現(xiàn)象。為適應新形勢新要求,建設(shè)企業(yè)級標準統(tǒng)一的運維體系,由“管人”為主過渡到“管事”為主,進一步優(yōu)化提升運維管理體制機制就顯得非常必要。
當前我國步入了建設(shè)網(wǎng)絡強國、數(shù)字中國、智慧社會的新發(fā)展階段,在數(shù)字化大發(fā)展的潮流中,企業(yè)應更加重視“網(wǎng)絡與信息安全是信息化建設(shè)生命線”的理念,緊扣新發(fā)展理念和高質(zhì)量發(fā)展要求,持續(xù)增強企業(yè)信息化運維保障能力,不斷優(yōu)化提升信息系統(tǒng)運維體系,強化系統(tǒng)及設(shè)備安全準入、集中監(jiān)視和統(tǒng)一調(diào)度,切實做到“保障業(yè)務信息和客戶數(shù)據(jù)安全”目標,提升本質(zhì)安全和各類要素穩(wěn)定運行水平。
服務接入是企業(yè)應用系統(tǒng)統(tǒng)一對內(nèi)服務的一線客服,負責開展業(yè)務運營相關(guān)工作,對應用系統(tǒng)服務請求和故障進行統(tǒng)一接入受理、統(tǒng)一登記,提供應用系統(tǒng)操作指導、信息發(fā)布、故障跟蹤協(xié)調(diào)等服務。系統(tǒng)運行是企業(yè)應用系統(tǒng)運行維護二線,負責數(shù)字化信息系統(tǒng)巡檢監(jiān)控、故障處理、系統(tǒng)運行管理等,保障信息系統(tǒng)的穩(wěn)定運行。平臺監(jiān)控是保障企業(yè)基礎(chǔ)軟硬件安全穩(wěn)定運行的技術(shù)支撐,負責主機、數(shù)據(jù)庫、中間件、存儲、虛擬化等資源要素的運維。桌面運維是企業(yè)面向桌面辦公系統(tǒng)的技術(shù)支持工作,負責辦公計算機及外設(shè)、桌面終端、操作系統(tǒng)、辦公軟件問題的解決。網(wǎng)絡運維負責保障企業(yè)內(nèi)、外網(wǎng)網(wǎng)絡連接、訪問安全和機房運行管理。
3.3.1 運維操作管理
堅持“安全第一,預防為主”的方針,深入推進現(xiàn)場標準化作業(yè),嚴防誤操作事故,確保數(shù)字化信息系統(tǒng)和網(wǎng)絡安全運行。運維人員進行設(shè)備操作時應嚴格執(zhí)行機房操作兩票制,包括任務派發(fā)工單和具體指導操作的操作票。每張工單只能填寫一個操作任務。操作票的內(nèi)容應包括開始時間、結(jié)束時間、操作對象、操作內(nèi)容、操作步驟、安全保障操作。工作組人員應熟悉操作票上每一步操作,操作時必須按操作票步驟依次進行。
信息化管理部門應充分利用平臺監(jiān)控數(shù)據(jù),派發(fā)主動工單并對工單執(zhí)行情況進行質(zhì)檢,實現(xiàn)人員工單化、工單績效化。工單由發(fā)起人填寫或運維管理系統(tǒng)自動生成,明確工作范圍、執(zhí)行人和時間要求等要素,經(jīng)審核后簽發(fā)并許可實施。運維人員進入工作場所(含信息機房、設(shè)備間、配電間等)需按工單內(nèi)容逐步實施,操作完成后進行驗證確認,最后由主要負責人向工作票簽發(fā)人辦理工作終結(jié)手續(xù),并歸檔相關(guān)資料。
3.3.2 運維應急管理
針對信息網(wǎng)絡及數(shù)字化信息系統(tǒng)事件引起的對企業(yè)正常經(jīng)營、管理構(gòu)成影響和威脅的各類突發(fā)風險事件,按照不同應急事件場景制定現(xiàn)場處置方案。按照現(xiàn)場處置方案規(guī)定的處置流程,對各類突發(fā)事件和安全事件進行處置。應急預案應結(jié)合企業(yè)自身實際情況,聚焦新知識和新技術(shù),制定切實可行的培訓方案,按照企業(yè)應急預案修訂的要求,每年開展一次應急預案修訂工作。
當企業(yè)網(wǎng)絡和數(shù)字化信息系統(tǒng)發(fā)生突發(fā)事件時,運維人員應及時響應。首先,啟動相應的應急響應程序,進行判斷和分析,確定事件造成影響的嚴重性是否存在風險事件。其次,運維人員根據(jù)事件性質(zhì)和緊急程度,制定處置措施,組織相關(guān)人員進行應急搶險,并根據(jù)事件的嚴重性進行事件上報。上報內(nèi)容包括情況描述、影響范圍、風險大小及處理方式等。嚴重事件:第一時間進行事件上報,聯(lián)系所有相關(guān)技術(shù)人員、用戶代表進行快速影響分析,啟動重大故障預案,保證企業(yè)經(jīng)營管理有序進行。重要事件:判斷、分析事件影響,并根據(jù)故障處理所需時間,及時到達現(xiàn)場進行故障處置。普通事件:完整記錄事件,制定改進計劃,組織相關(guān)方進行相應處置。突發(fā)事件得到處理后,立即對整個事件進行評估,形成詳細報告,其內(nèi)容包括:事件現(xiàn)象、事件原因、處理過程、處理結(jié)果、第三方出具的說明等。認真開展網(wǎng)絡與數(shù)字化信息系統(tǒng)隱患排查和治理工作,避免同類事件再次發(fā)生,以閉環(huán)管理劃句號。
3.3.3 運維巡檢管理
企業(yè)各類數(shù)字化信息系統(tǒng)和信息機房一般實行7×24小時不間斷運行,運維人員要負責各類基礎(chǔ)設(shè)施和設(shè)備的監(jiān)控巡檢。信息機房及設(shè)備巡視分為定期巡視和特殊巡視。定期巡視是指運維人員定期巡視檢查機房設(shè)備、電源系統(tǒng)、網(wǎng)絡系統(tǒng)、應用系統(tǒng)的運行狀況及機房溫度和濕度,并做好巡視記錄,發(fā)現(xiàn)異常情況及時報告。特殊巡視是指遇到惡劣天氣、設(shè)備異?;蜻\行中有可疑現(xiàn)象及重大事件時,安排運維人員進行巡視,適當增加巡視頻度。運維人員在巡檢過程中嚴格按照巡檢操作手冊要求進行巡檢操作并填寫巡檢記錄。巡檢排班確定后,運維人員嚴格按值班表規(guī)定的時間進行巡檢工作。
運維人員應充分利用可視化、自動化工具開展監(jiān)控和巡檢工作,對巡檢時發(fā)現(xiàn)的設(shè)備故障和各類告警進行甄別,組織相關(guān)人員及時分析,對影響業(yè)務運營或較為重大的風險應及時進行上報,并有責任督促相關(guān)人員解決,直到故障、隱患排除。巡檢過程中如發(fā)現(xiàn)設(shè)備存在一般故障隱患,如雙電源設(shè)備的電源報警燈閃爍,需填寫事件報告單,遵守事件報告制度及時向信息化管理部門上報。信息化管理部門在收到事件報告后,立即指派人員負責該問題的跟蹤工作,直到問題排除。運維人員除填寫特殊情況記錄表外,應通過電話等通報手段向相關(guān)人員告知。巡檢記錄每月歸檔整理,裝訂成冊后由專人保管,按巡檢內(nèi)容和時間順序碼放,以便后期查閱。
3.3.4 安全隱患管理
為建立隱患發(fā)現(xiàn)、隱患分析、追蹤整改、隱患消缺的閉環(huán)管理機制,提高數(shù)字化信息系統(tǒng)整體安全防護水平,實現(xiàn)系統(tǒng)安全的可控、能控、在控,應建立安全漏洞和隱患發(fā)現(xiàn)機制、信息安全內(nèi)控機制和信息安全督查機制。漏洞和隱患治理工作主要是常態(tài)開展網(wǎng)絡與安全漏洞和隱患發(fā)現(xiàn)工作,互聯(lián)網(wǎng)重大網(wǎng)絡安全事件分析、重大網(wǎng)絡安全事件調(diào)查核查、威脅預警,結(jié)合現(xiàn)有安全防護措施,查找缺陷和漏洞。信息安全內(nèi)控工作通過安全審計和監(jiān)測分析,落實運維合規(guī)性檢查和風險隱患排查工作,分析企業(yè)存在的數(shù)字化安全隱患,對發(fā)現(xiàn)的隱患漏洞開展整改工作。信息安全督查工作主要對安全漏洞的全生命周期進行安全監(jiān)督,是隱患排查通知的發(fā)起工作,并根據(jù)相關(guān)團隊排查反饋結(jié)果判定是否需要繼續(xù)開啟隱患治理工作。
根據(jù)外部機構(gòu)發(fā)布的信息安全首發(fā)漏洞、安全預警通知等,信息化管理部門創(chuàng)建安全隱患排查通知單,明確隱患排查工作的要求和結(jié)辦時間。信息安全內(nèi)控人員協(xié)調(diào)安全專業(yè)機構(gòu)制定隱患漏洞工作整改計劃,開展隱患排查工作,針對不能及時完成整改的部分將遵循“先降風險,后整改”的原則,采取適當?shù)娘L險把控措施,針對已及時整改完畢的隱患漏洞,將整改過程及整改結(jié)果情況反饋至信息安全督查團隊處。督查團隊對信息安全隱患治理通知單進行匯總歸檔,同時對重大和典型隱患進行復查,確保實現(xiàn)相關(guān)流程的閉環(huán)管理。
3.3.5 數(shù)字化資產(chǎn)管理
信息化管理部門應建立資產(chǎn)臺賬,包含固定資產(chǎn)和無形資產(chǎn)。對于固定資產(chǎn),應制定相應的上架流程,包含加電測試、安全基線管理、設(shè)備配置信息等內(nèi)容。軟件產(chǎn)品應做好版本管理、配置管理、用戶管理和數(shù)據(jù)管理工作,運維人員必須在授權(quán)后進行操作。軟硬件資產(chǎn)投產(chǎn)前必須經(jīng)過試運行,運維人員應嚴密監(jiān)控其運行情況,以及對網(wǎng)絡安全造成的影響,當發(fā)現(xiàn)網(wǎng)絡運行不穩(wěn)定或者出現(xiàn)明顯可疑情況時,應立即啟動應急預案。試運行結(jié)束,應開展驗收和資產(chǎn)登記工作,驗收時應核對資產(chǎn)是否與項目合同內(nèi)容一致,及時更新數(shù)字化資產(chǎn)臺賬信息及網(wǎng)絡拓撲圖。對于超過資產(chǎn)使用壽命且無法使用的數(shù)字化資產(chǎn),應按照企業(yè)已有的資產(chǎn)管理規(guī)定進行報廢,報廢須經(jīng)過專業(yè)處理,確保所涉及的軟件、硬件被安全處置,保證數(shù)據(jù)被徹底銷毀。
3.3.6 設(shè)備故障管理
硬件設(shè)備發(fā)生故障或者其他網(wǎng)絡原因影響業(yè)務開展時,信息化管理部門組織開展故障排查、原因分析、制定方案、快速實施和恢復網(wǎng)絡等工作。發(fā)生網(wǎng)絡故障時,運維人員先定位故障設(shè)備或線路,并進行故障隔離,切換至備用設(shè)備或備用線路,恢復網(wǎng)絡正常運行。網(wǎng)絡恢復后,組織相關(guān)團隊對網(wǎng)絡故障原因進行分析、對故障進行定級,制定解決方案、實施方案恢復網(wǎng)絡并形成書面報告。對于3 級故障信息通報:運維團隊負責向信息化管理部門進行通報,以書面形式說明故障情況,分析故障原因,提出整頓措施。對于影響企業(yè)業(yè)務的故障信息通報:運維團隊向信息化管理部門通報有關(guān)情況,包括故障現(xiàn)象、影響范圍、原因分析、規(guī)避手段、整改措施及有關(guān)責任人處理情況。設(shè)備故障應建立從發(fā)現(xiàn)、定位、處理、恢復、維修、記錄全過程的跟蹤流程。與設(shè)備全生命周期形成資料鏈,確保每一步都有據(jù)可查,并形成閉環(huán)管理,持續(xù)更新。
3.3.7 運維考核監(jiān)督機制
信息化管理部門對運維人員進行分級管理和考核,協(xié)同服務商建立聯(lián)合管理考核機制,形成管理合力,強化管控力度,突出管理成效。定期組織開展運維考核評價工作,針對項目費用執(zhí)行、人員管理、運維服務質(zhì)量等方面進行考核評價,并通過通報、溝通等多種方式加強監(jiān)督聯(lián)動。運維團隊每3個月工作結(jié)束時進行工作及指標完成情況匯總上報,工作報告中應有對運維團隊的工作評價及改進意見。信息化管理部門對運維團隊的運維工作進行考核,并在每季度最后一個月的月度例會上,將考核結(jié)果進行通報。由運維負責人將考核結(jié)果落實到本月的人員薪酬績效中。
企業(yè)在數(shù)字化轉(zhuǎn)型的全新發(fā)展階段,信息演變與產(chǎn)業(yè)發(fā)展都在不斷地加速和深化,因此,推動傳統(tǒng)“大統(tǒng)一”的運維體系向“小核心、大外圍”體系轉(zhuǎn)型,偏向借助更專業(yè)的團隊提供精準、精細運維服務將逐步成為趨勢。運維管理的標準化應更加注重對事件和各類要素過程的監(jiān)控與把控,使其為企業(yè)提供高效的服務與安全保障,進一步推動運維工作從“支撐業(yè)務”向“推動服務”轉(zhuǎn)變,實現(xiàn)企業(yè)數(shù)字化運維管理工作再上新臺階,為企業(yè)創(chuàng)新發(fā)展提供堅強保障。