吳楷 王創(chuàng)
摘 要
隨著電廠信息系統(tǒng)規(guī)模不斷擴(kuò)大,系統(tǒng)運(yùn)行中問題出現(xiàn)的頻率及復(fù)雜度也相應(yīng)增加。為更加高效的監(jiān)控信息系統(tǒng)運(yùn)行狀態(tài)、提升問題預(yù)警、分析、處理水平,筆者梳理重要信息系統(tǒng)拓?fù)溥壿?,設(shè)計(jì)了信息系統(tǒng)運(yùn)行參數(shù)的實(shí)時(shí)數(shù)據(jù)獲取及詳細(xì)信息分析和展示邏輯,基于市場主流參考平臺,設(shè)計(jì)并實(shí)施上線信息系統(tǒng)監(jiān)控平臺。本文描述了信息系統(tǒng)監(jiān)控平臺的主要技術(shù)設(shè)計(jì)方案、實(shí)現(xiàn)及應(yīng)用效果。
關(guān)鍵詞
信息系統(tǒng);監(jiān)控;運(yùn)維工作;技術(shù)設(shè)計(jì)方案
中圖分類號: TP399-C2 ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼: A
DOI:10.19694/j.cnki.issn2095-2457.2020.19.082
0 背景
隨著電廠信息化建設(shè)的持續(xù)進(jìn)行,信息系統(tǒng)的規(guī)模及內(nèi)容均不斷擴(kuò)大,系統(tǒng)運(yùn)行中問題出現(xiàn)的頻率及復(fù)雜度也相應(yīng)增加。然而,一段時(shí)期以來,由于缺乏高效和自動(dòng)化的監(jiān)控手段,對于重要信息系統(tǒng)的運(yùn)行狀態(tài)的監(jiān)控主要靠運(yùn)維人員定期巡檢完成。人工巡檢可能出現(xiàn)對問題檢測的遺漏,往往是用戶告知系統(tǒng)出現(xiàn)了問題,才介入處理故障?;谶@種情況,提出一套完善的解決方案以自動(dòng)化的監(jiān)控重要信息系統(tǒng)運(yùn)行狀態(tài),當(dāng)出現(xiàn)異常時(shí)可及時(shí)通知運(yùn)維人員介入處理變得十分必要。
1 系統(tǒng)選型
經(jīng)深入調(diào)研市場上現(xiàn)有的監(jiān)控系統(tǒng),發(fā)現(xiàn)絕大部分監(jiān)控系統(tǒng)是用于監(jiān)控服務(wù)器硬件或網(wǎng)絡(luò)設(shè)備(如:CPU占用、IO吞吐量、網(wǎng)絡(luò)流量、風(fēng)扇轉(zhuǎn)速、溫度、網(wǎng)絡(luò)數(shù)據(jù)包等),以信息系統(tǒng)為核心的監(jiān)控系統(tǒng)可參考的非常稀少,不能完全滿足核電廠信息系統(tǒng)監(jiān)控的多方面的需求。
最終,我們選擇在服務(wù)器系統(tǒng)監(jiān)控平臺上有一定積累的廠商作為合作方,以項(xiàng)目形式開展合作。該系統(tǒng)監(jiān)控平臺是以硬件及網(wǎng)絡(luò)設(shè)備監(jiān)控為主體構(gòu)建,在合作過程中,我方提出系統(tǒng)的整體設(shè)計(jì)方案、關(guān)聯(lián)邏輯及信息系統(tǒng)結(jié)構(gòu)、數(shù)據(jù)展現(xiàn)、計(jì)算和告警設(shè)計(jì)方案。這些內(nèi)容構(gòu)成了最終成形的信息系統(tǒng)監(jiān)控平臺的核心和基礎(chǔ)設(shè)計(jì)。該平臺整體底層架構(gòu)穩(wěn)定,上層應(yīng)用層支持多樣化的數(shù)據(jù)展現(xiàn),并結(jié)合我方設(shè)計(jì)方案進(jìn)行了全面重構(gòu),增加了部分專用信息系統(tǒng)監(jiān)控的功能模塊。
2 設(shè)計(jì)與實(shí)施
2.1 系統(tǒng)核心功能設(shè)計(jì)
設(shè)計(jì)的整體目標(biāo)是:掌握信息系統(tǒng)的整體健康水平和變化趨勢;通過模擬用戶對信息系統(tǒng)的日常登錄操作的方式,進(jìn)行用戶模擬監(jiān)控,感知信息系統(tǒng)是否正常;實(shí)時(shí)監(jiān)控應(yīng)用所依托的各基礎(chǔ)資源的狀態(tài),實(shí)時(shí)了解業(yè)務(wù)整體運(yùn)行狀態(tài);通過用戶側(cè)模擬和基礎(chǔ)資源兩個(gè)維度的監(jiān)控,依據(jù)對具體監(jiān)測點(diǎn)配置的健康度算法,完成對信息系統(tǒng)的實(shí)時(shí)監(jiān)控。
2.1.1 整體展現(xiàn)結(jié)構(gòu)設(shè)計(jì)
系統(tǒng)設(shè)計(jì)為通過瀏覽器界面展現(xiàn)納入統(tǒng)一監(jiān)控管理的電廠信息系統(tǒng)的全景/分系統(tǒng)結(jié)構(gòu)圖。
該結(jié)構(gòu)圖上,系統(tǒng)與系統(tǒng)之間以線條相連,系統(tǒng)自身以氣泡加英文文字的形式指示系統(tǒng)當(dāng)前的可用性情況,并可根據(jù)系統(tǒng)當(dāng)前運(yùn)行的總體情況顯示系統(tǒng)健康度(系統(tǒng)健康度規(guī)則及相關(guān)權(quán)重可后臺自定義配置)。
系統(tǒng)間關(guān)聯(lián)的線條可展示其互相依賴和關(guān)聯(lián)的特性,并可在后臺將這些關(guān)聯(lián)系統(tǒng)配置為一個(gè)整體的系統(tǒng)進(jìn)行統(tǒng)一的狀態(tài)監(jiān)控。
對于信息系統(tǒng)相關(guān)服務(wù)的詳細(xì)運(yùn)行參數(shù),提供詳細(xì)的信息展現(xiàn)頁面(頁面包含正常運(yùn)行期間的參數(shù)信息展示及異常、告警階段的參數(shù)信息展示及日志記錄入口),可以展現(xiàn)當(dāng)前最新狀態(tài)信息。全景/分系統(tǒng)結(jié)構(gòu)圖界面如圖1所示。
2.1.2 監(jiān)測點(diǎn)設(shè)計(jì)
每個(gè)監(jiān)測點(diǎn)可以自定義設(shè)置在整體業(yè)務(wù)/信息系統(tǒng)中的健康分值。整體業(yè)務(wù)/信息系統(tǒng)的健康度為所有監(jiān)測點(diǎn)健康度總和。監(jiān)測點(diǎn)實(shí)時(shí)健康度的計(jì)算方式為監(jiān)測點(diǎn)實(shí)時(shí)指標(biāo)取值后結(jié)合閾值設(shè)置,判斷當(dāng)前監(jiān)測點(diǎn)是否處于告警狀態(tài)、處于何種告警狀態(tài)(紅、黃、綠三種狀態(tài))。通過預(yù)先設(shè)置的紅、黃、綠三種狀態(tài)對應(yīng)的權(quán)重,進(jìn)行本監(jiān)測點(diǎn)實(shí)時(shí)健康度計(jì)算。業(yè)務(wù)/信息系統(tǒng)實(shí)時(shí)健康度的計(jì)算方式為本業(yè)務(wù)下所有監(jiān)測點(diǎn)實(shí)時(shí)健康度總和除以所有監(jiān)測點(diǎn)設(shè)置健康度分值總和的比值,以百分比顯示。
監(jiān)測點(diǎn)的閾值點(diǎn)一般為三個(gè),代表嚴(yán)重,重要,正常。并設(shè)置當(dāng)前業(yè)務(wù)點(diǎn)的得分占所有應(yīng)得總分的百分比rate,按照如下規(guī)律進(jìn)行判斷,如匹配到判斷邏輯1,則退出,不進(jìn)行邏輯2和3的比較。健康度、實(shí)際取值、獲取時(shí)間,健康度通過實(shí)際取值換算得到,具體邏輯如下:
判斷邏輯1,當(dāng)rate>重要閾值點(diǎn),業(yè)務(wù)點(diǎn)為綠色,當(dāng)前業(yè)務(wù)得分為所有子點(diǎn)的得分總和;判斷邏輯2,當(dāng)重要閾值點(diǎn)=>rate>緊急閾值點(diǎn),業(yè)務(wù)點(diǎn)展示黃色;判斷邏輯3,當(dāng)rate<=緊急閾值點(diǎn),業(yè)務(wù)點(diǎn)展示為紅色。
2.1.3 信息系統(tǒng)狀態(tài)監(jiān)測
采用在監(jiān)控平臺的探針服務(wù)器上部署Python腳本的方式,監(jiān)控平臺服務(wù)器定期調(diào)用腳本模擬用戶對被監(jiān)控信息系統(tǒng)的訪問操作,并根據(jù)返回的HTTP報(bào)文判斷訪問的成功與否。系統(tǒng)同時(shí)根據(jù)訪問時(shí)長及其他關(guān)鍵參數(shù),按照監(jiān)測點(diǎn)配置的分值和權(quán)重計(jì)算得出最終的健康分值。
此種方式為基于我方設(shè)計(jì)實(shí)現(xiàn)的監(jiān)控平臺的擴(kuò)展性開發(fā),具有較為廣泛的可擴(kuò)展性。目前主要監(jiān)控信息系統(tǒng)是否可訪達(dá)以及是否可以登錄,后續(xù)還擬進(jìn)一步擴(kuò)展為可針對具體的業(yè)務(wù)場景監(jiān)控是否可執(zhí)行相應(yīng)的操作,以使對信息系統(tǒng)的監(jiān)控粒度更為具體。
如下為詳細(xì)過程:
利用Firefox瀏覽器插件進(jìn)行Selenium URL腳本錄制,錄制的腳本可以導(dǎo)出成為Python,根據(jù)實(shí)際需求修改完善Python腳本。信息系統(tǒng)監(jiān)控平臺的探針服務(wù)(Probe)啟動(dòng)后,自動(dòng)定期調(diào)用Python腳本。主要監(jiān)測范圍包括:
(1)健康狀態(tài),可告警。
(2)連接時(shí)間,為性能指標(biāo),可告警。
(3)關(guān)鍵指標(biāo)點(diǎn),使用Python采集數(shù)據(jù)進(jìn)行對應(yīng)的抓取分析,可告警。
前文已敘述,基于Selenium錄制的腳本可以定期由信息系統(tǒng)監(jiān)控平臺服務(wù)探針(Probe)調(diào)用,基于探針服務(wù),當(dāng)我們把業(yè)務(wù)信息系統(tǒng)的各種基礎(chǔ)資源都分別加入探針的監(jiān)控范圍后,就可以建立我們的業(yè)務(wù)信息系統(tǒng)模型了,全部的信息系統(tǒng)監(jiān)控即依托這個(gè)模型開展。信息系統(tǒng)監(jiān)控詳情頁面見圖2。
2.1.4 FTP及文件服務(wù)器狀態(tài)監(jiān)測
針對FTP監(jiān)測點(diǎn)的監(jiān)控,本平臺中主要是對FTP可用性、響應(yīng)時(shí)間等進(jìn)行實(shí)時(shí)監(jiān)測。設(shè)計(jì)采用登錄后上傳文件和下載文件對目標(biāo)端進(jìn)行連接,并反映FTP的上傳下載速率,在性能歷史走勢圖反映此FTP的性能。
連接到在遠(yuǎn)程主機(jī)上的FTP服務(wù)器后,監(jiān)控平臺向服務(wù)器程序發(fā)出命令,服務(wù)器程序執(zhí)行所發(fā)出的命令,并將執(zhí)行的結(jié)果返回到客戶機(jī)。例如,向服務(wù)器傳送某一個(gè)文件的一份拷貝,服務(wù)器會(huì)響應(yīng)這條命令,將指定文件送至服務(wù)器的機(jī)器上
對于文件服務(wù)器的掛載狀態(tài),由信息系統(tǒng)監(jiān)控平臺執(zhí)行腳本監(jiān)控,上傳測試文件到掛載點(diǎn)對應(yīng)的文件服務(wù)器,并執(zhí)行定時(shí)任務(wù)登錄目標(biāo)服務(wù)器,監(jiān)測是否可訪問到對應(yīng)的測試文件,并根據(jù)返回的狀態(tài)碼判斷掛載狀態(tài)是否正常。
2.2 報(bào)表設(shè)計(jì)特點(diǎn)
基于信息系統(tǒng)監(jiān)控平臺已有的基本報(bào)表功能,設(shè)計(jì)并實(shí)現(xiàn)了專用于信息系統(tǒng)的運(yùn)行監(jiān)控報(bào)表。可統(tǒng)計(jì)所監(jiān)控信息系統(tǒng)的服務(wù)容器,運(yùn)行狀態(tài)情況,參數(shù)詳細(xì),可精確到日,也可擴(kuò)展到周、月。
2.3 其他功能設(shè)計(jì)特點(diǎn)
信息系統(tǒng)監(jiān)控平臺與短信及郵件關(guān)聯(lián),當(dāng)出現(xiàn)異常告警時(shí),將第一時(shí)間通知對口的信息系統(tǒng)負(fù)責(zé)人及時(shí)干預(yù)處置。
3 管理效益
自設(shè)計(jì)、實(shí)施并上線信息系統(tǒng)監(jiān)控平臺后,信息系統(tǒng)日常運(yùn)維工作得到了信息化手段的有效支撐,運(yùn)維工作效率和效果得到優(yōu)化和提升,體現(xiàn)為:
(1)對于信息系統(tǒng)的運(yùn)行狀態(tài)具備了全局同時(shí)監(jiān)控的能力,節(jié)省人力投入。
(2)信息系統(tǒng)出現(xiàn)異常狀態(tài)時(shí),可及時(shí)通知到對應(yīng)的系統(tǒng)負(fù)責(zé)人,及時(shí)干預(yù)處置,減少信息系統(tǒng)的故障或異常停機(jī)時(shí)間,更加有效的支撐電廠各項(xiàng)生產(chǎn)支持和經(jīng)營管理工作。
(3)報(bào)表功能可詳細(xì)統(tǒng)計(jì)和分析特定信息系統(tǒng)一段時(shí)期內(nèi)的運(yùn)行狀態(tài)和經(jīng)常出現(xiàn)的問題,便于集中識別、分析、處理多發(fā)的難點(diǎn)問題。
4 結(jié)論
通過有效識別信息系統(tǒng)日常運(yùn)維中的痛點(diǎn)和難點(diǎn),并設(shè)計(jì)出契合自身實(shí)際需要的信息系統(tǒng)監(jiān)控綜合方案,電廠將信息系統(tǒng)日常運(yùn)維納入信息系統(tǒng)監(jiān)控平臺進(jìn)行集中管理。通過深入的需求分析、合理的系統(tǒng)設(shè)計(jì),結(jié)合合作單位的開發(fā)和實(shí)施,最終在一定程度上實(shí)現(xiàn)了信息系統(tǒng)監(jiān)控的自動(dòng)化,有效地減少了人工巡檢頻次,提高了運(yùn)維工作效率。