馮 超 全秋浩 楊 鶴 劉星辰
(吉林省氣象信息網(wǎng)絡(luò)中心,吉林長(zhǎng)春 130062)
隨著氣象業(yè)務(wù)系統(tǒng)的新增及觀測(cè)、預(yù)報(bào)的不斷發(fā)展,綜合監(jiān)控運(yùn)維能力已經(jīng)是信息化發(fā)展尤為重要的部分。氣象綜合業(yè)務(wù)實(shí)時(shí)監(jiān)控系統(tǒng)是中國(guó)氣象局基于全國(guó)氣象業(yè)務(wù)系統(tǒng)監(jiān)控現(xiàn)狀,利用邊緣計(jì)算、大數(shù)據(jù)計(jì)算框架、數(shù)據(jù)中臺(tái)和分布式存儲(chǔ)等技術(shù)建設(shè)的統(tǒng)一技術(shù)架構(gòu)的國(guó)、省兩級(jí)氣象綜合業(yè)務(wù)實(shí)時(shí)監(jiān)控系統(tǒng),“天鏡”系統(tǒng)擁有開(kāi)源的監(jiān)控系統(tǒng)框架,監(jiān)控系統(tǒng)實(shí)現(xiàn)了橫向涵蓋觀測(cè)、信息、預(yù)報(bào)、服務(wù)、政務(wù)等業(yè)務(wù)和管理領(lǐng)域,監(jiān)控范圍覆蓋業(yè)務(wù)系統(tǒng)的網(wǎng)絡(luò)、數(shù)據(jù)流程、應(yīng)用狀態(tài)等,實(shí)現(xiàn)國(guó)、省監(jiān)控級(jí)聯(lián),對(duì)監(jiān)視數(shù)據(jù)進(jìn)行采集、存儲(chǔ)、分析和服務(wù)。
2016年中國(guó)氣象局發(fā)布的氣象綜合業(yè)務(wù)實(shí)時(shí)監(jiān)控系統(tǒng)在吉林省進(jìn)行了部署應(yīng)用,目前該系統(tǒng)已經(jīng)實(shí)現(xiàn)了數(shù)據(jù)全流程以及氣象核心業(yè)務(wù)系統(tǒng)的集中監(jiān)控,在中國(guó)氣象局和吉林省本地已有的業(yè)務(wù)建設(shè)基礎(chǔ)上,結(jié)合目前吉林省業(yè)務(wù)實(shí)際需要,進(jìn)一步完善了“天鏡”系統(tǒng)本地化的開(kāi)發(fā)設(shè)計(jì)[1-3],建設(shè)具有本地化實(shí)用性的省級(jí)綜合業(yè)務(wù)實(shí)時(shí)監(jiān)控系統(tǒng)?;凇疤扃R”的吉林省氣象信息網(wǎng)絡(luò)監(jiān)控系統(tǒng),結(jié)合省級(jí)運(yùn)維管理需要及市、縣級(jí)運(yùn)維需求,實(shí)現(xiàn)省級(jí)和市、縣級(jí)氣象信息網(wǎng)絡(luò)本地化集中監(jiān)控,實(shí)現(xiàn)全省信息網(wǎng)絡(luò)可視化實(shí)時(shí)動(dòng)態(tài)顯示,提供一套實(shí)用的網(wǎng)絡(luò)監(jiān)控系統(tǒng)服務(wù),提高業(yè)務(wù)集約化,實(shí)現(xiàn)“全流程、一體化、可視化”能力的吉林省氣象信息網(wǎng)絡(luò)監(jiān)控系統(tǒng)[4-6]。
目前吉林省氣象部門(mén)廣域網(wǎng)絡(luò)實(shí)現(xiàn)了雙線路通信,分別為聯(lián)通MSTP專線和移動(dòng)虛擬隧道VPN線路,其中聯(lián)通線路帶寬省、市為8M,縣級(jí)為4M。移動(dòng)虛擬隧道VPN線路省級(jí)出口帶寬為300M,市級(jí)為50M,縣級(jí)為30M。氣象業(yè)務(wù)網(wǎng)絡(luò)承擔(dān)著吉林省氣象觀測(cè)數(shù)據(jù)的傳輸、預(yù)報(bào)服務(wù)類產(chǎn)品的下載、省市縣三級(jí)全省高清可視頻會(huì)商及所有核心業(yè)務(wù)系統(tǒng)的網(wǎng)絡(luò)支撐工作。一直以來(lái)全省氣象報(bào)文類傳輸是通過(guò)聯(lián)通MSTP專線進(jìn)行的,省、市、縣三級(jí)高清可視頻會(huì)商業(yè)務(wù)和其他業(yè)務(wù)通過(guò)移動(dòng)VPN虛擬互聯(lián)網(wǎng)專線進(jìn)行傳輸,在保證報(bào)文類傳輸?shù)那疤嵯拢瑫r(shí)實(shí)現(xiàn)了聯(lián)通和移動(dòng)雙線路互為備份。當(dāng)有一條線路中斷時(shí),業(yè)務(wù)自動(dòng)切換到另一條線路上。2018年經(jīng)過(guò)全省氣象業(yè)務(wù)網(wǎng)絡(luò)升級(jí)后解決了全省網(wǎng)絡(luò)帶寬瓶頸問(wèn)題,有效緩解了全省網(wǎng)絡(luò)傳輸?shù)膸拤毫?,同時(shí)提高了全省業(yè)務(wù)網(wǎng)的高可用性和穩(wěn)定性。目前全省氣象廣域網(wǎng)拓?fù)鋱D如圖1所示。
圖1 吉林省氣象部門(mén)廣域網(wǎng)絡(luò)拓?fù)鋱D
網(wǎng)絡(luò)升級(jí)后原有的吉林省氣象廣域網(wǎng)絡(luò)核心設(shè)備監(jiān)控系統(tǒng)已無(wú)法滿足全省網(wǎng)絡(luò)監(jiān)控需要,需對(duì)原有監(jiān)控系統(tǒng)進(jìn)行升級(jí)和開(kāi)發(fā),且原有的全省氣象廣域網(wǎng)巡檢方式也無(wú)法滿足處理網(wǎng)絡(luò)故障的實(shí)時(shí)性,從而影響了傳輸質(zhì)量,因此根據(jù)升級(jí)后的網(wǎng)絡(luò)開(kāi)發(fā)了一套基于“天鏡”的吉林省氣象信息網(wǎng)絡(luò)監(jiān)控系統(tǒng)。
針對(duì)目前吉林省廣域網(wǎng)絡(luò)現(xiàn)狀及業(yè)務(wù)實(shí)際所需,基于“天鏡”系統(tǒng)具有良好的監(jiān)控可視化效果及告警功能,已經(jīng)替代CIMISS系統(tǒng)中MCP子系統(tǒng)的全部功能。能夠滿足網(wǎng)絡(luò)設(shè)備的監(jiān)控、報(bào)警以及對(duì)監(jiān)控信息的可視化,完全能夠?qū)崿F(xiàn)網(wǎng)絡(luò)設(shè)備的自動(dòng)發(fā)現(xiàn)、設(shè)備管理、實(shí)時(shí)監(jiān)控、信息查詢、告警等工具模塊[7-9]。能夠?qū)惓P畔⒓皶r(shí)通過(guò)日志、企業(yè)微信群等方式反饋給網(wǎng)絡(luò)管理員,并第一時(shí)間實(shí)時(shí)處理問(wèn)題,從而更好地保證業(yè)務(wù)系統(tǒng)穩(wěn)定運(yùn)行,使全省網(wǎng)絡(luò)運(yùn)維管理人員和值班人員更直觀、更及時(shí)地查看到網(wǎng)絡(luò)故障信息,從而提高全省氣象廣域網(wǎng)的網(wǎng)絡(luò)可用性和穩(wěn)定性,有效保障全省氣象資料的傳輸和業(yè)務(wù)系統(tǒng)的穩(wěn)定運(yùn)行。
系統(tǒng)采用B/S架構(gòu),省級(jí)集中部署,省市縣級(jí)用戶只要連通網(wǎng)絡(luò)即可Web網(wǎng)頁(yè)登錄系統(tǒng)查看本地氣象廣域網(wǎng)絡(luò)的監(jiān)控信息(圖2)。
圖2 吉林省氣象信息網(wǎng)絡(luò)監(jiān)控系統(tǒng)架構(gòu)
3.2.1 監(jiān)控系統(tǒng)管理模塊
監(jiān)控系統(tǒng)包括對(duì)全省廣域網(wǎng)絡(luò)的拓?fù)涔芾?、網(wǎng)絡(luò)設(shè)備管理和網(wǎng)絡(luò)鏈路監(jiān)控、網(wǎng)絡(luò)流量監(jiān)控、網(wǎng)絡(luò)故障、網(wǎng)絡(luò)性能的實(shí)時(shí)監(jiān)控及網(wǎng)絡(luò)事件管理、短信告警等功能,并可以根據(jù)查詢條件生成報(bào)表導(dǎo)出。通過(guò)拓?fù)渥詣?dòng)發(fā)現(xiàn)設(shè)備,根據(jù)設(shè)備類型和廠家類型組織設(shè)備,并根據(jù)設(shè)備類型和廠家顯示相應(yīng)的數(shù)量;用戶可以根據(jù)需要添加或變更設(shè)備的相關(guān)信息,比如網(wǎng)絡(luò)設(shè)備型號(hào)及網(wǎng)絡(luò)設(shè)備報(bào)修電話,設(shè)備的維護(hù)人員以及聯(lián)系方式、行政級(jí)(省、市、縣),設(shè)備所屬地,以便于短信告警。管理員可以使用遠(yuǎn)程管理功能,從Web拓?fù)鋱D中直接打開(kāi)一個(gè)桌面SSH工具(如putty),直接遠(yuǎn)程管理這些設(shè)備,并可以通過(guò)Web頁(yè)面下載網(wǎng)絡(luò)設(shè)備的日志[10]。
3.2.2 網(wǎng)絡(luò)拓?fù)浜玩溌繁O(jiān)控模塊
監(jiān)控系統(tǒng)支持網(wǎng)絡(luò)拓?fù)浣换ィ峁┓糯罂s小全屏展示、刷新節(jié)點(diǎn)狀態(tài)、展示全部等地圖式操作功能,并可以保存拓?fù)鋱D,支持在拓?fù)渖巷@示設(shè)備與鏈路的性能負(fù)荷。用戶通過(guò)IP、設(shè)備名等關(guān)鍵字快速搜索與定位設(shè)備后查看相應(yīng)設(shè)備的信息。并在拓?fù)鋱D上顯示當(dāng)前設(shè)備的節(jié)點(diǎn)數(shù)、在線數(shù)、離線數(shù)。鏈路監(jiān)控上,主要包括可用狀態(tài)、丟包率、丟包延時(shí)的監(jiān)測(cè),將鼠標(biāo)懸浮在鏈路上,可以浮動(dòng)提示鏈路的信息,包括兩端設(shè)備、端口、帶寬、速率等信息,可以直觀地查看鏈路使用率;支持將兩個(gè)設(shè)備間的多條鏈路匯聚顯示。同時(shí)在設(shè)備監(jiān)視上,將鼠標(biāo)懸浮在設(shè)備名稱上,可以浮動(dòng)提示設(shè)備的信息,包括型號(hào)、CPU使用率、RAM使用率等,點(diǎn)擊設(shè)備可以進(jìn)入到設(shè)備的詳情中,可以看到設(shè)備的基本信息以及設(shè)備下的端口信息;通過(guò)一個(gè)設(shè)備概況窗口組件,呈現(xiàn)設(shè)備的基本信息,基本的性能情況,可以呈現(xiàn)設(shè)備在指定時(shí)間段內(nèi)的在線率、Ping響應(yīng)時(shí)間波動(dòng),也可以呈現(xiàn)設(shè)備上所有端口,在指定時(shí)間段內(nèi)的性能情況。
3.2.3 監(jiān)控系統(tǒng)告警模塊
告警關(guān)聯(lián)信息配置,即事件臺(tái)在定義事件時(shí),針對(duì)此事件定義告警規(guī)則。系統(tǒng)支持每次符合條件觸發(fā)、周期內(nèi)發(fā)生多次產(chǎn)生事件、周期內(nèi)一直產(chǎn)生事件3種告警觸發(fā)策略。通過(guò)監(jiān)測(cè)器的配置,可以設(shè)置鏈路帶寬利用率、網(wǎng)絡(luò)設(shè)備的CPU閾值,且能以企業(yè)微信、短信等多種方式發(fā)布告警消息,并根據(jù)設(shè)備的所屬地區(qū)給相應(yīng)的網(wǎng)絡(luò)管理人員發(fā)送告警短信,以便告警得到及時(shí)處理,并在故障恢復(fù)后發(fā)送恢復(fù)狀態(tài)的短信。省級(jí)管理員可以通過(guò)后臺(tái)配置設(shè)備或鏈路的短信告警規(guī)則、告警級(jí)別、告警人員、短信告警內(nèi)容的模板。用戶可以查看告警的發(fā)送記錄[11]。
3.2.4 運(yùn)維管理平臺(tái)模塊
為省市縣三級(jí)建立分權(quán)限的用戶,省級(jí)用戶作為管理員可查看省、市、縣三級(jí)網(wǎng)絡(luò)狀態(tài),查詢?nèi)≡O(shè)備或鏈路的告警信息,包括短信告警信息,并擁有后臺(tái)配置管理權(quán)限,對(duì)告警、統(tǒng)計(jì)等規(guī)則進(jìn)行統(tǒng)一管理。市級(jí)用戶可查看本市整體的拓?fù)淝闆r,可查詢本市設(shè)備或鏈路的告警信息,包括短信告警信息。監(jiān)控系統(tǒng)提供用戶對(duì)設(shè)備歷史數(shù)據(jù)的查詢,可以查看端口的性能指標(biāo)趨勢(shì),支持時(shí)間段的查詢,默認(rèn)統(tǒng)計(jì)12h的數(shù)據(jù),查詢?cè)O(shè)備的性能與屬性數(shù)據(jù)。對(duì)設(shè)備和鏈路監(jiān)控提供對(duì)象統(tǒng)計(jì),比如節(jié)點(diǎn)連通延時(shí)TOP10、端口速率TOP10、CPU使用率TOP10、內(nèi)存使用率TOP10、最新時(shí)間列表等??梢詫?duì)設(shè)備的告警情況進(jìn)行統(tǒng)計(jì)。
監(jiān)控系統(tǒng)主要部署網(wǎng)絡(luò)采集模塊,包括Network、Agent、Metric等。模 塊 主 要 部 署 在4臺(tái)Centos 7.5.1804服務(wù)器上,每臺(tái)服務(wù)器有5塊10K SAS 600GB硬盤(pán),2塊4端口GE網(wǎng)卡,2塊10GE雙端口光口網(wǎng)卡,8通道2GB高性能SAS Raid卡,冗余交流電源,125G內(nèi)存,采集模塊安裝在Opt空間上,“天鏡”網(wǎng)絡(luò)采集系統(tǒng)用兩臺(tái)代理服務(wù)器作信息采集,系統(tǒng)為Centos 7.5,內(nèi)存300G,需要在系統(tǒng)上部署Agent以及相關(guān)采集代理服務(wù)。
在吉林省廣域網(wǎng)絡(luò)聯(lián)通MSTP路由器、移動(dòng)VPN路由器上開(kāi)啟SNMP協(xié)議,首先設(shè)置聯(lián)通MSTP路由器上SNMP參數(shù)及團(tuán)體名,本次設(shè)置的團(tuán)體名為Jlqxwlk。在路由器Config模式下輸入Snmp-server Community 0 Jlqxwlk RW即可開(kāi)啟SNMP協(xié)議。以德惠市氣象局為例,其聯(lián)通MSTP核心路由器操作命令為L(zhǎng)T_dehui_config#snmpserver community 0 Jlqxwlk rw;移動(dòng)VPN核心路由器操作命令為VPN_dehui_config#snmp-server community 0 Jlqxwlk rw。配置成功后保存配置,然后通過(guò)SNMP軟件測(cè)試是否開(kāi)啟成功。
網(wǎng)絡(luò)拓?fù)浔O(jiān)控的目的是監(jiān)控省、市、縣之間的氣象專線網(wǎng)絡(luò)連通情況,網(wǎng)絡(luò)拓?fù)浜途W(wǎng)絡(luò)鏈路監(jiān)控展示情況。展現(xiàn)基于吉林省地圖的內(nèi)外網(wǎng)網(wǎng)絡(luò)架構(gòu),突出地理位置與數(shù)據(jù)流向的關(guān)聯(lián),圍繞總控視角、分控視角聯(lián)動(dòng)呈現(xiàn)、逐層展示。提供決策數(shù)據(jù)可視化呈現(xiàn)的全面態(tài)勢(shì),展現(xiàn)網(wǎng)絡(luò)鏈路類數(shù)據(jù)集合,如網(wǎng)絡(luò)鏈路吞吐、延遲、丟包以及告警等匯總類相關(guān)信息[12]。網(wǎng)絡(luò)拓?fù)浔O(jiān)控通過(guò)獲取配置在省級(jí)“天鏡”通用版中Network模塊里的設(shè)備信息,包括各個(gè)設(shè)備節(jié)點(diǎn)間的連接關(guān)系、各設(shè)備的運(yùn)行狀態(tài)、各線路間的連接狀態(tài)等信息,整理統(tǒng)計(jì)返回給前端,通過(guò)eCharts渲染移動(dòng)、聯(lián)通的拓?fù)鋱D。
網(wǎng)絡(luò)監(jiān)控采用Java語(yǔ)言進(jìn)行開(kāi)發(fā),Java語(yǔ)言具有簡(jiǎn)單性、跨平臺(tái)性、面向?qū)ο?、安全性、多線程性、分布性、可移植性、解釋型、高性能、動(dòng)態(tài)性、簡(jiǎn)單性等特點(diǎn),并且提供JDBC訪問(wèn)數(shù)據(jù)庫(kù)的方式。本系統(tǒng)選擇MySQL作為開(kāi)發(fā)數(shù)據(jù)庫(kù),MySQL是一個(gè)關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng),同時(shí)MySQL是開(kāi)源的支持大型系統(tǒng)的數(shù)據(jù)庫(kù),支持多線程,充分利用CPU資源,使用標(biāo)準(zhǔn)的SQL數(shù)據(jù)語(yǔ)言形式,跨平臺(tái),支持多個(gè)操作系統(tǒng)(Windows、Mac OS、Linux等),支持多種語(yǔ)言,為多種編程語(yǔ)言提供了API。訪問(wèn)MySQL數(shù)據(jù)庫(kù)采用的是JDBC技術(shù),相關(guān)的配置文件為:
通過(guò)上述配置即可建立網(wǎng)絡(luò)監(jiān)控與數(shù)據(jù)庫(kù)之間的數(shù)據(jù)交換,實(shí)現(xiàn)網(wǎng)絡(luò)監(jiān)控對(duì)數(shù)據(jù)庫(kù)的讀寫(xiě)操作,完成網(wǎng)絡(luò)監(jiān)控配置數(shù)據(jù)在數(shù)據(jù)庫(kù)的存儲(chǔ)與讀取。以上配置中Localization為“天鏡”二次開(kāi)發(fā)數(shù)據(jù)庫(kù),存放了二次開(kāi)發(fā)的大部分?jǐn)?shù)據(jù),包含網(wǎng)絡(luò)監(jiān)控模塊的配置信息。
當(dāng)有網(wǎng)絡(luò)故障出現(xiàn)告警時(shí),通過(guò)調(diào)用阿里云短信推送接口,將生成的告警信息推送至配置庫(kù)中的相關(guān)運(yùn)維管理人員(圖3)。
圖3 吉林省氣象信息網(wǎng)絡(luò)監(jiān)控系統(tǒng)告警信息推送界面
網(wǎng)絡(luò)監(jiān)控系統(tǒng)可視化監(jiān)控界面主要分為聯(lián)通MSTP線路和移動(dòng)VPN線路兩個(gè)部分。聯(lián)通MSTP專線其網(wǎng)絡(luò)拓?fù)涫怯煽h局到市局,再由市局到省局;移動(dòng)VPN線路其網(wǎng)絡(luò)拓?fù)錇榭h局、市局均直接到省局。省級(jí)用戶登陸后進(jìn)入本省綜合視圖界面,可查看全省、各地市的網(wǎng)絡(luò)狀態(tài);查詢?nèi)≡O(shè)備或鏈路的告警信息,包括短信告警信息;擁有后臺(tái)配置管理權(quán)限,對(duì)告警、統(tǒng)計(jì)等規(guī)則進(jìn)行統(tǒng)一的管理[13]。地市級(jí)用戶登陸后進(jìn)入本地市網(wǎng)絡(luò)監(jiān)視頁(yè)面,可查看本市整體的拓?fù)淝闆r。
(1)本文依托“天鏡”系統(tǒng),結(jié)合本地業(yè)務(wù)實(shí)際需求,通過(guò)“天鏡”統(tǒng)一的服務(wù)接口實(shí)現(xiàn)本地業(yè)務(wù)監(jiān)控建設(shè),系統(tǒng)采用數(shù)據(jù)中臺(tái)等關(guān)鍵技術(shù)設(shè)計(jì),采用SNMP協(xié)議實(shí)現(xiàn)網(wǎng)絡(luò)設(shè)備的自動(dòng)發(fā)現(xiàn)和監(jiān)控功能。
(2)利用Network模塊關(guān)聯(lián)各個(gè)設(shè)備節(jié)點(diǎn)的連接關(guān)系、運(yùn)行狀態(tài)等信息,最后通過(guò)eCharts渲染廣域網(wǎng)絡(luò)拓?fù)鋱D。開(kāi)發(fā)實(shí)現(xiàn)了企業(yè)微信、短信告警等功能模塊,為全省業(yè)務(wù)網(wǎng)絡(luò)運(yùn)行狀態(tài)提供了及時(shí)、高效的監(jiān)控告警信息。
(3)建立了省、市、縣三級(jí)可視化網(wǎng)絡(luò)監(jiān)控系統(tǒng)界面,實(shí)現(xiàn)了全省網(wǎng)絡(luò)運(yùn)行狀態(tài)可視化動(dòng)態(tài)實(shí)時(shí)顯示,為省、市、縣三級(jí)用戶提供了一套統(tǒng)一規(guī)范化的監(jiān)控服務(wù)系統(tǒng),網(wǎng)絡(luò)管理人員可以通過(guò)監(jiān)控系統(tǒng)實(shí)時(shí)查看網(wǎng)絡(luò)故障所在節(jié)點(diǎn),查看本地網(wǎng)絡(luò)運(yùn)行狀態(tài),及時(shí)判斷網(wǎng)絡(luò)故障和傳輸狀態(tài)。
(4)該系統(tǒng)已投入業(yè)務(wù)使用,解決了網(wǎng)絡(luò)故障處理的實(shí)時(shí)性,為氣象業(yè)務(wù)傳輸提供更穩(wěn)定、更有效的網(wǎng)絡(luò)支撐,為業(yè)務(wù)運(yùn)行保駕護(hù)航。