朱曉鵬,華 揚(yáng)
(武漢市水務(wù)集團(tuán)有限公司,湖北武漢 430063)
2020年年初,突如其來的新冠肺炎疫情使武漢市全市各行各業(yè)進(jìn)入一致抗“疫”的特殊時(shí)期。武水集團(tuán)除了保障民生供水生產(chǎn)外,同時(shí)還要保持自身的經(jīng)營管理,并提供市民所需的便民服務(wù)。經(jīng)過多年來的努力和不斷完善,作為特大型水務(wù)企業(yè),武漢市水務(wù)集團(tuán)有限公司(以下簡稱武水集團(tuán))信息化基礎(chǔ)設(shè)施一定程度上已經(jīng)滿足日常生產(chǎn)經(jīng)營的需要,擁有2座數(shù)據(jù)機(jī)房,承載繁雜多樣的對(duì)內(nèi)和對(duì)外服務(wù)的信息系統(tǒng)。其中,包括營業(yè)收費(fèi)系統(tǒng)、GIS及管網(wǎng)巡維系統(tǒng)、遠(yuǎn)傳表系統(tǒng)、生產(chǎn)調(diào)度系統(tǒng)、96510熱線系統(tǒng)等,這些系統(tǒng)使用部門多,覆蓋范圍廣。由于建設(shè)年代不同,系統(tǒng)之間沒有形成統(tǒng)一標(biāo)準(zhǔn)的基礎(chǔ)架構(gòu),運(yùn)行保障工作需要駕馭復(fù)雜多樣的信息系統(tǒng),可謂軟、硬兼顧。近年“網(wǎng)絡(luò)安全法”頒布后,水務(wù)企業(yè)信息系統(tǒng)基本都成為了關(guān)鍵信息基礎(chǔ)設(shè)施,因此,網(wǎng)絡(luò)安全也成為了運(yùn)維保障的重要內(nèi)容之一,但武水集團(tuán)當(dāng)前仍以傳統(tǒng)手動(dòng)為主的運(yùn)維保障模式?jīng)]有改變。
隨著疫情的發(fā)展,為減少人員聚集,公司實(shí)體營業(yè)廳全部關(guān)閉,線下流量轉(zhuǎn)移線上,企業(yè)自身經(jīng)營管理也加大了遠(yuǎn)程協(xié)作的比例,充分利用線上進(jìn)行辦公。上述影響之下,整個(gè)系統(tǒng)訪問負(fù)荷激增,網(wǎng)絡(luò)安全隱患環(huán)節(jié)也隨之增多。加上疫情發(fā)生在春節(jié)期間,系統(tǒng)保障人員存在減員和出行交通困難(封閉、管制)的情況,系統(tǒng)運(yùn)行保障體系和應(yīng)急響應(yīng)處置能力在疫情期間面臨挑戰(zhàn)。本文圍繞疫情期間如何應(yīng)對(duì)運(yùn)行保障壓力和挑戰(zhàn)的經(jīng)驗(yàn)展開討論,通過分析存在的問題,為其他水務(wù)企業(yè)提供一些建議,特別是對(duì)智慧水務(wù)建設(shè)和運(yùn)行保障帶來一些有益的啟示。
疫情對(duì)運(yùn)行保障帶來的影響和挑戰(zhàn)主要表現(xiàn)在以下幾個(gè)方面。
一是按照疫情防控要求關(guān)閉實(shí)體營業(yè)廳,轉(zhuǎn)為以“網(wǎng)上”營業(yè)廳、支付寶生活號(hào)、微信公眾號(hào)等為主的線上服務(wù)形式,提供足不出戶業(yè)務(wù)辦理服務(wù)。線下流量轉(zhuǎn)線上,系統(tǒng)訪問負(fù)荷增加,保障對(duì)外服務(wù)系統(tǒng)穩(wěn)定、安全運(yùn)行成為挑戰(zhàn)。
二是疫情期間企業(yè)的生產(chǎn)運(yùn)行和經(jīng)營管理,既要滿足減少員工聚集,又要保證工作效率。因此,各級(jí)部門都加大了遠(yuǎn)程協(xié)作辦公的比例。在改變之下,如何實(shí)現(xiàn)遠(yuǎn)程協(xié)作,對(duì)保障支持遠(yuǎn)程協(xié)作運(yùn)行環(huán)境的穩(wěn)定提出了更高的要求。
三是疫情發(fā)生在春節(jié)期間,節(jié)假日因素使系統(tǒng)保障隊(duì)伍減員。隨著疫情的加重,城市進(jìn)行封閉管理、交通管制、區(qū)域隔離等強(qiáng)制措施,人員得不到補(bǔ)充,應(yīng)急響應(yīng)、現(xiàn)場(chǎng)處置的難度加大,故障搶修恢復(fù)時(shí)間延長。
四是在線服務(wù)訪問增加和網(wǎng)上遠(yuǎn)程辦公比例增大,以APT攻擊、大量以疫情偽裝的惡意軟件、勒索病毒等為主的攻擊手段通過在線服務(wù)漏洞和遠(yuǎn)程辦公訪問水務(wù)企業(yè)的關(guān)鍵信息基礎(chǔ)設(shè)施,網(wǎng)絡(luò)安全形勢(shì)嚴(yán)峻。
盡管疫情給武水系統(tǒng)運(yùn)行保障工作帶來了影響,但通過以下的經(jīng)驗(yàn)和措施,可最大程度解決上述挑戰(zhàn)。
(1)疫情造成的訪問量激增,通常會(huì)導(dǎo)致系統(tǒng)運(yùn)行資源不足,性能下降。但武水集團(tuán)“網(wǎng)上”營業(yè)廳、支付寶生活號(hào)、微信公眾號(hào)等服務(wù)系統(tǒng)均已遷移部署在成熟的云計(jì)算基礎(chǔ)設(shè)施中,因此,通過云計(jì)算自有的彈性計(jì)算調(diào)整功能進(jìn)行配置,云端服務(wù)器可根據(jù)訪問量高低,自動(dòng)調(diào)整服務(wù)器運(yùn)行計(jì)算資源,有效化解了疫情導(dǎo)致的訪問流量激增所造成的影響。
(2)保障遠(yuǎn)程協(xié)作辦公,要做好兩件事。一是協(xié)作工具的選取。協(xié)作方面部署了基于華為云的Welink協(xié)作工具,通過Welink實(shí)現(xiàn)高效的視頻會(huì)議溝通機(jī)制。疫情期間,企業(yè)管理指令的上傳下達(dá)通過遠(yuǎn)程會(huì)議的形式順利開展,通過云端部署的協(xié)作工具,性能良好,體驗(yàn)流暢,故障問題少,極大地方便了保障人員,并降低了保障工作的強(qiáng)度。二是對(duì)性能和安全性的保證。推廣采用SSL VPN接入企業(yè)內(nèi)部網(wǎng)絡(luò)的方式或通過域名結(jié)合SSL證書的方式遠(yuǎn)程辦公,幫助疫情期間各部門通過互聯(lián)網(wǎng)訪問公司業(yè)務(wù)系統(tǒng),這種方式既保障了訪問的便捷性、靈活可控,又可通過SSL證書的加密,保障通信的安全性,降低保障難度和安全風(fēng)險(xiǎn)。
(3)針對(duì)疫情造成的保障人員減員,一是充分動(dòng)員信息部門自身隊(duì)伍,成立多個(gè)小組,并安排24 h輪流值班,同時(shí)圍繞系統(tǒng)訪問壓力激增,制定多個(gè)應(yīng)急預(yù)案和現(xiàn)場(chǎng)處置預(yù)案。二是為了進(jìn)一步縮短故障發(fā)現(xiàn)的時(shí)間,組織運(yùn)維部門進(jìn)行遠(yuǎn)程預(yù)防性巡檢,根據(jù)分工每日匯報(bào)巡檢監(jiān)控情況。一旦發(fā)現(xiàn)異常,通過Welink視頻會(huì)議與各系統(tǒng)保障單位進(jìn)行協(xié)作。三是有序調(diào)度保障單位,布置可操作的疫情期間保障任務(wù),每天提前安排好故障排查人員調(diào)度和現(xiàn)場(chǎng)運(yùn)維管理計(jì)劃,對(duì)于必須要到機(jī)房應(yīng)急處置的硬件和網(wǎng)絡(luò)故障,按預(yù)案應(yīng)急響應(yīng),既克服了交通管制對(duì)出行人員的限制,又可為修復(fù)緊急故障贏得寶貴的時(shí)間,有效縮短系統(tǒng)故障延時(shí)。
(4)網(wǎng)絡(luò)安全保障,分為兩個(gè)保障重點(diǎn):機(jī)房等關(guān)鍵基礎(chǔ)設(shè)施保障,網(wǎng)上營業(yè)廳、微信公眾號(hào)、支付寶互聯(lián)網(wǎng)入口保障。武水集團(tuán)已按照關(guān)鍵基礎(chǔ)設(shè)施等保障要求建立防御體系,從互聯(lián)網(wǎng)入口到核心機(jī)房,部署了多種高性能安全設(shè)備,包括防火墻、WAF、行為審計(jì)、終端管理和態(tài)勢(shì)感知等。但是,由于外部服務(wù)端和VPN客戶端會(huì)通過加密穿透防火墻到內(nèi)網(wǎng)訪問進(jìn)行數(shù)據(jù)交換,防火墻直接防護(hù)能力被削弱,并不能確定源頭的主機(jī)是否已經(jīng)被病毒攻陷,此時(shí)必須加強(qiáng)內(nèi)部流量過濾和審計(jì)來發(fā)現(xiàn)惡意攻擊行為。疫情期間,對(duì)網(wǎng)上營業(yè)廳、微信公眾號(hào)、支付寶生活號(hào)等通過互聯(lián)網(wǎng)域名轉(zhuǎn)發(fā)的訪問入口增加云端域名防火墻,從源頭阻攔對(duì)網(wǎng)頁的攻擊行為。
總的來看,為保障武水集團(tuán)推行的“不見面服務(wù)”用戶體驗(yàn)承諾,智慧水務(wù)中心克服了疫情帶來的影響和挑戰(zhàn)。截至2020年4月中旬,累計(jì)處置各類信息系統(tǒng)軟、硬件故障110人次,各類軟、硬件遠(yuǎn)程或現(xiàn)場(chǎng)巡檢累計(jì)770多次;針對(duì)疫情期間的網(wǎng)絡(luò)安全形勢(shì),累計(jì)有效監(jiān)測(cè)和攔截針對(duì)“武水在線”網(wǎng)絡(luò)攻擊700多萬次,排查隱患服務(wù)器72人次,發(fā)現(xiàn)和修復(fù)被攻陷主機(jī)5臺(tái)次。疫情期間,武水集團(tuán)未發(fā)生一例重大系統(tǒng)故障和網(wǎng)絡(luò)安全事件,有力地保障了武水各類系統(tǒng)的穩(wěn)定運(yùn)行、機(jī)房網(wǎng)絡(luò)等基礎(chǔ)設(shè)施生產(chǎn)安全和網(wǎng)絡(luò)安全。
疫情給武水集團(tuán)系統(tǒng)運(yùn)行保障工作帶來了較大的影響。數(shù)據(jù)發(fā)現(xiàn),在70多天的運(yùn)維保障工作中,人工投入的比例很高,與平時(shí)相比,人員投入的比例增加了15%。客觀上,由于疫情的影響,系統(tǒng)運(yùn)行的負(fù)荷上升,故障頻率增加,不得不增加人員投入。事實(shí)上,這樣的結(jié)果與武水集團(tuán)信息系統(tǒng)保障模式仍是以手動(dòng)為主、被動(dòng)“救火式”傳統(tǒng)模式密不可分。傳統(tǒng)運(yùn)維保障模式存在著維護(hù)成本高、響應(yīng)被動(dòng)等諸多局限[1],在疫情的沖擊和影響下,這種局限性更加明顯。
另一方面,運(yùn)行保障工作以傳統(tǒng)手動(dòng)為主,缺少必要的工具支撐。對(duì)于運(yùn)行種類繁多的信息系統(tǒng)來說,因無法及時(shí)感知系統(tǒng)故障和收集全局信息,運(yùn)行保障的效率非常低,是突出的短板,是人工投入比例居高不下的重要原因。這個(gè)問題不僅存在于武水集團(tuán),當(dāng)前很多水務(wù)企業(yè)信息系統(tǒng)運(yùn)行保障都有這個(gè)“軟肋”。
系統(tǒng)運(yùn)行保障除以上問題和短板外,還長期存在運(yùn)行保障管理精細(xì)化不足、系統(tǒng)種類多但架構(gòu)不統(tǒng)一等弊端。總的來說,這些問題或弊端并不孤立存在[2],它們之間相互影響,共同加劇運(yùn)維保障工作的復(fù)雜性和困難性。在一定程度上,不僅制約了水務(wù)企業(yè)應(yīng)對(duì)急突發(fā)事件的綜合能力,還會(huì)影響未來智慧水務(wù)建設(shè)的發(fā)展。
通過對(duì)疫情期間系統(tǒng)運(yùn)行保障情況的分析,傳統(tǒng)的系統(tǒng)運(yùn)行保障模式在應(yīng)對(duì)突發(fā)疫情帶來的挑戰(zhàn)時(shí),會(huì)出現(xiàn)較明顯的瓶頸和不適。主流的系統(tǒng)運(yùn)行保障已借助數(shù)字化、網(wǎng)絡(luò)化、智能化的信息技術(shù)發(fā)展浪潮,提升了企業(yè)信息系統(tǒng)運(yùn)維能力,逐漸減少了人工依賴,向態(tài)勢(shì)感知、持續(xù)監(jiān)控、快速感知、智能分析和自動(dòng)化排障方向發(fā)展。系統(tǒng)運(yùn)行保障的進(jìn)步得益于智能化技術(shù),以及在IT運(yùn)維領(lǐng)域的不斷實(shí)踐,諸如風(fēng)險(xiǎn)防控、應(yīng)急處置等。大部分運(yùn)維工作已經(jīng)實(shí)現(xiàn)從“被動(dòng)到主動(dòng)”、“從無序到有序”、“從手工到自動(dòng)”的逐步轉(zhuǎn)變[3]。與此同時(shí),信息系統(tǒng)的自愈能力逐步提升,多數(shù)故障已實(shí)現(xiàn)不停機(jī)、自動(dòng)隔離、自動(dòng)恢復(fù),運(yùn)維逐步走向“無人操作,無人值守”的階段。隨著人工智能、大數(shù)據(jù)等相關(guān)技術(shù)的不斷突破[4],未來的武水集團(tuán)運(yùn)維智能化建設(shè)將向著科技創(chuàng)新價(jià)值目標(biāo)邁進(jìn),即從運(yùn)維中更多地挖掘具有業(yè)務(wù)價(jià)值的信息,以指導(dǎo)生產(chǎn)和經(jīng)營的持續(xù)改進(jìn),從而提高武水集團(tuán)經(jīng)營管理精細(xì)化、智能化整體水平,更好地適應(yīng)未來水務(wù)市場(chǎng)變化和自身業(yè)務(wù)發(fā)展。
疫情擾亂了武水集團(tuán)的工作安排,使業(yè)務(wù)無法正常開展,企業(yè)運(yùn)營面臨嚴(yán)峻挑戰(zhàn)。圍繞武水集團(tuán)在疫情期間的困難以及經(jīng)驗(yàn),著重分析運(yùn)行保障過程中的短板。首先,從轉(zhuǎn)變認(rèn)識(shí)開始,向管理和服務(wù)結(jié)合的運(yùn)維模式轉(zhuǎn)型,完善運(yùn)維保障體系建設(shè)[5],減少異構(gòu)系統(tǒng),提升當(dāng)前的運(yùn)維手段,引入新型工具實(shí)現(xiàn)高效保障。通過以上手段助力正在建設(shè)的智慧水務(wù)系統(tǒng),指導(dǎo)和完善運(yùn)行保障的能力建設(shè),最終提高水務(wù)企業(yè)對(duì)突發(fā)事件的處置效率和能力,從而應(yīng)對(duì)類似新冠疫情的突發(fā)事件對(duì)系統(tǒng)穩(wěn)定性、可靠性和安全性的挑戰(zhàn)。