徐澄宇 王洪飛 黃澤 張超
摘 要:業(yè)務(wù)系統(tǒng)的安全、穩(wěn)定運行,依賴于軟/硬件環(huán)境以及相關(guān)業(yè)務(wù)系統(tǒng)(接口)的安全、穩(wěn)定,運維人員缺少相應(yīng)的工具,能夠以應(yīng)用系統(tǒng)為視角,對應(yīng)用系統(tǒng)涉及的軟/硬件環(huán)境、外部接口進行監(jiān)控、告警、分析。文章從業(yè)務(wù)系統(tǒng)邏輯構(gòu)架層級化方面提出了基于應(yīng)用系統(tǒng)構(gòu)架監(jiān)測的應(yīng)用系統(tǒng),解決了關(guān)鍵問題包含:(1)利用SOA構(gòu)架模型,構(gòu)建業(yè)務(wù)系統(tǒng);(2)面向腳本語言的業(yè)務(wù)指標采集技術(shù)。利用該系統(tǒng)可以解決業(yè)務(wù)運維人員、設(shè)備運維人員、中間件運維人員、數(shù)據(jù)庫運維人員對業(yè)務(wù)應(yīng)用系統(tǒng)的監(jiān)測和展示問題。
關(guān)鍵詞:應(yīng)用系統(tǒng);構(gòu)架;監(jiān)測
1 概述
隨著信息化的逐步深入,各單位/公司使用了越來越多的信息業(yè)務(wù)應(yīng)用系統(tǒng)(簡稱:業(yè)務(wù)系統(tǒng))。一方面業(yè)務(wù)系統(tǒng)的運行情況和企業(yè)部門業(yè)務(wù)的捆綁越來越緊密,其承擔(dān)的責(zé)任越來越重;另一方面業(yè)務(wù)系統(tǒng)也越來越復(fù)雜,對網(wǎng)絡(luò)環(huán)境、軟/硬件系統(tǒng)、以及其他業(yè)務(wù)系統(tǒng)的依賴越來越高。這對公司的信息運行機制、管理水平、人員意識,尤其是技術(shù)保障提供了更高要求。盡管信息運維人員使用《北塔安全運維平臺》(簡稱:北塔系統(tǒng))、《網(wǎng)強安全運維平臺》(簡稱:網(wǎng)強系統(tǒng))來輔助日常運維工作,但仍面臨如下問題。
1.1 缺少面向業(yè)務(wù)系統(tǒng)的系統(tǒng)/工具
業(yè)務(wù)系統(tǒng)的安全、穩(wěn)定運行,依賴于軟/硬件環(huán)境以及相關(guān)業(yè)務(wù)系統(tǒng)(接口)的安全、穩(wěn)定。主機、中間件、數(shù)據(jù)庫運維人員可以通過北塔等系統(tǒng)對相關(guān)軟/硬件設(shè)備進行監(jiān)控,但業(yè)務(wù)系統(tǒng)運維人員缺少相應(yīng)的系統(tǒng)/工具,能夠集中應(yīng)用系統(tǒng)的軟/硬件環(huán)境、外部接口的所有運行數(shù)據(jù),對數(shù)據(jù)進行監(jiān)控、告警、分析。
1.2 監(jiān)控工具缺少靈活、漸進性
業(yè)務(wù)系統(tǒng)依賴的軟/硬件資源,相關(guān)的其他業(yè)務(wù)系統(tǒng)的資源類型、數(shù)量是固定的,大多數(shù)監(jiān)控系統(tǒng)的監(jiān)控的方式、內(nèi)容也是固定的。運行維護過程中,不能針對業(yè)務(wù)系統(tǒng)的特點,動態(tài)的增加/刪除監(jiān)控內(nèi)容,缺少以靈活、漸進的方式持續(xù)集成的手段。
1.3 缺少個性化監(jiān)控手段
運維人員通過北塔、網(wǎng)強等系統(tǒng)提高日常工作效率。但是,隨著科技的進步以及技術(shù)的日新月異,硬件設(shè)備、網(wǎng)絡(luò)環(huán)境、信息系統(tǒng)的多樣性使得僅僅依靠標準接口(如SNMP協(xié)議)取得監(jiān)控信息不能滿足全部需求?,F(xiàn)有監(jiān)控系統(tǒng),缺少對差異化的軟/硬件設(shè)備進行監(jiān)控的手段。
1.4 告警不能集中展示,并且告警信息不易共享
運維人員在日常的工作過程中,通常打開多個監(jiān)控頁面,來實施監(jiān)控。每個頁面通過顏色、聲音的變化,來通知是否有告警。當(dāng)告警信息同時出現(xiàn)在多個頁面上是,運維人員很容易遺漏,造成工作失誤。此外,共享告警信息的方式通常是直接訪問數(shù)據(jù)庫或調(diào)用WebService接口,安全性和實時性都不能得到保證。
1.5 缺少故障定位的手段
當(dāng)業(yè)務(wù)系統(tǒng)出現(xiàn)問題時,業(yè)務(wù)系統(tǒng)運維人員依次檢查相關(guān)軟/硬件環(huán)境及相關(guān)的業(yè)務(wù)系統(tǒng)(接口),并依靠經(jīng)驗來處理問題并且定位故障發(fā)生位置,缺少技術(shù)措施輔助進行定位。此外,運維人員不能有效利用歷史數(shù)據(jù),以應(yīng)用系統(tǒng)為視角,進行趨勢分析、知識積累?;趹?yīng)用系統(tǒng)構(gòu)架監(jiān)測的應(yīng)用研究的設(shè)計研發(fā)旨在構(gòu)建一個平臺,通過該平臺能夠?qū)?yīng)用系統(tǒng)安全穩(wěn)定運行所依賴的軟/硬件、外部接口等資源的進行定義、采集、告警、查詢、分析。該平臺具備靈活性、可擴展性,方便數(shù)據(jù)共享。有利于信息運維人員及時掌握應(yīng)用系統(tǒng)的運行情況,便于發(fā)現(xiàn)問題、處理問題、解決問題,從而提高應(yīng)用系統(tǒng)的安全性和穩(wěn)定性。
2 技術(shù)方案及特點
基于應(yīng)用系統(tǒng)構(gòu)架監(jiān)測的應(yīng)用研究的主要建設(shè)內(nèi)容是構(gòu)建一個平臺,通過該平臺能夠?qū)?yīng)用系統(tǒng)安全穩(wěn)定運行所依賴的軟/硬件、外部接口等資源的進行定義、采集、告警、查詢、分析。該平臺具備靈活性、可擴展性,方便數(shù)據(jù)共享。有利于信息運維人員及時掌握應(yīng)用系統(tǒng)的運行情況,便于發(fā)現(xiàn)問題、處理問題、解決問題,從而提高應(yīng)用系統(tǒng)的安全性和穩(wěn)定性。
2.1 基于SOA構(gòu)架
SOA本身就是一種面向企業(yè)級服務(wù)的系統(tǒng)架構(gòu),簡單來說,SOA就是一種進行系統(tǒng)開發(fā)的新的體系架構(gòu),在基于SOA架構(gòu)的系統(tǒng)中,具體應(yīng)用程序的功能是由一些松耦合并且具有統(tǒng)一接口定義方式的組件(也就是service)組合構(gòu)建起來的。SOA和其它企業(yè)架構(gòu)的不同之處就在于SOA提供的業(yè)務(wù)靈活性。業(yè)務(wù)靈活性是指企業(yè)能對業(yè)務(wù)變更快速和有效地進行響應(yīng)、并且利用業(yè)務(wù)變更來得到競爭優(yōu)勢的能力。對企業(yè)級架構(gòu)設(shè)計師來說,創(chuàng)建一個業(yè)務(wù)靈活的架構(gòu)意味著創(chuàng)建一個可以滿足當(dāng)前還未知的業(yè)務(wù)需求的IT架構(gòu)。使用SOA,正好可以利用SOA的靈活性,把數(shù)據(jù)采集進行封裝,并發(fā)布為服務(wù)。這樣可以降低系統(tǒng)的耦合度,加大對未知業(yè)務(wù)的擴展性。這樣,假如客戶有新需求,需要加入不同的功能,只需添加訂閱的客戶端就可以,不需要修改其他部分,從而使程序具有良好的可擴展性。
2.2 發(fā)布/訂閱消息
在發(fā)布/訂閱系統(tǒng)里,有的進程會訂閱包含某些特定主題信息的消息,另外一些進程則會發(fā)布這樣的消息。發(fā)布者向訂閱者提供更新有多種不同的方式。在push-style notification(推送通知)這種方式里,訂閱者將訂閱消息發(fā)送給發(fā)布者,后者將發(fā)布的消息發(fā)給訂閱者,這使用的是一種回調(diào)的方式。在pull-style notification(拽取通知)這種方式里,訂閱者將訂閱消息發(fā)送給發(fā)布者,后者將發(fā)布的消息發(fā)送到一個訂閱者所知道的pull-point中,訂閱者再從這里取得消息。在brokered notification(代理通知)里,訂閱者將訂閱消息發(fā)送給代理,后者接收從發(fā)布者發(fā)送的消息然后提供給訂閱者。
2.3 遵循MVVM體系規(guī)范
軟件完全基于C#(C Sharp)語言實現(xiàn),安全性好,性能高,易于使用與擴展,軟件展示界面基于Microsoft Silverlight技術(shù)實現(xiàn),使用Silverlight4中的toolkit圖形控件包等技術(shù)實現(xiàn)指標數(shù)據(jù)展示,軟件框架采用MVVM(Model-View-ViewModel)模式,該框架立足于原有MVP框架并且把WPF的新特性揉合進去,以應(yīng)對客戶日益復(fù)雜的需求變化。endprint
2.4 基于IronPython技術(shù)開發(fā)插件
IronPython是一種在NET平臺上實現(xiàn)的Python語言。IronPython即能使用NET平臺類庫,也能使用Python豐富和強大的類庫。作為膠水語言,它能很輕松的把用其他語言制作的各種模塊輕松的聯(lián)接在一起。
3 系統(tǒng)結(jié)構(gòu)
3.1 系統(tǒng)結(jié)構(gòu)
應(yīng)用系統(tǒng)構(gòu)架監(jiān)測的應(yīng)用的核心是“監(jiān)測”,依賴發(fā)布-訂閱機制實現(xiàn)數(shù)據(jù)傳遞,數(shù)據(jù)采集平臺負責(zé)采集并發(fā)布數(shù)據(jù),綜合數(shù)據(jù)展示平臺訂閱數(shù)據(jù)并展示數(shù)據(jù):(1)數(shù)據(jù)采集平臺,負責(zé)各相關(guān)業(yè)務(wù)系統(tǒng)數(shù)據(jù)采集與集成;(2)綜合數(shù)據(jù)展示平臺,用于預(yù)警,并對各業(yè)務(wù)系統(tǒng)業(yè)務(wù)數(shù)據(jù)進行有效利用,形成知識庫。
3.2 邏輯結(jié)構(gòu)
基于應(yīng)用系統(tǒng)構(gòu)架監(jiān)測的應(yīng)用研究在數(shù)據(jù)采集平臺的基礎(chǔ)上,提供了系統(tǒng)綜合管理、業(yè)務(wù)數(shù)據(jù)采集管理、告警綜合管理三個業(yè)務(wù)模塊的業(yè)務(wù)邏輯結(jié)構(gòu)。
3.3 硬件結(jié)構(gòu)
基于應(yīng)用系統(tǒng)構(gòu)架監(jiān)測的應(yīng)用研究在數(shù)據(jù)采集平臺的基礎(chǔ)上,提供了如下的業(yè)務(wù)邏輯結(jié)構(gòu)。
4 系統(tǒng)功能
4.1 系統(tǒng)綜合管理
系統(tǒng)綜合管理模塊是對業(yè)務(wù)應(yīng)用系統(tǒng)的構(gòu)架模型、業(yè)務(wù)應(yīng)用系統(tǒng)涉及的資源(軟件、硬件、平臺、系統(tǒng))進行維護和管理,對業(yè)務(wù)系統(tǒng)資源進行標簽進行維護管理,對業(yè)務(wù)系統(tǒng)的告警信息分類、等級進行管理。該模塊的目的是為整個項目提供基礎(chǔ)管理。
(1)系統(tǒng)綜合管理模塊主要包括:業(yè)務(wù)系統(tǒng)資源管理、業(yè)務(wù)系統(tǒng)管理、告警基礎(chǔ)信息管理、登錄人員管理、業(yè)務(wù)系統(tǒng)管理資源管理標簽管理。(2)業(yè)務(wù)系統(tǒng)資源管理:對業(yè)務(wù)系統(tǒng)涉及的資源(軟件、硬件、平臺、系統(tǒng)),例如F5設(shè)備、服務(wù)器設(shè)備、數(shù)據(jù)庫系統(tǒng)、中間件軟件、進行定義和管理。(3)業(yè)務(wù)系統(tǒng)管理:對業(yè)務(wù)應(yīng)用的構(gòu)架進行維護管理,通過對業(yè)務(wù)應(yīng)用系統(tǒng)涉及的資源進行層級化,形成業(yè)務(wù)系統(tǒng)的邏輯構(gòu)架。(4)告警基礎(chǔ)信息管理:對業(yè)務(wù)系統(tǒng)資源所產(chǎn)生的告警信息定義告警類型、告警等級。(5)資源標簽管理:對業(yè)務(wù)系統(tǒng)涉及的資源進行主題定義,典型的主題可以按業(yè)務(wù)系統(tǒng)(如GIS)、數(shù)據(jù)庫、中間件、服務(wù)器設(shè)備進行定義和管理,從而方便運維人員訂閱相關(guān)主題。(6)登錄人員管理:對登錄人員進行基礎(chǔ)信息、角色和使用權(quán)限進行維護、管理,對登錄人員關(guān)心的主題進行配置,對使用過程中產(chǎn)生的操作行為和日志進行管理。
4.2 業(yè)務(wù)數(shù)據(jù)采集管理
業(yè)務(wù)數(shù)據(jù)采集管理模塊是對已經(jīng)配置業(yè)務(wù)系統(tǒng)資源(軟件、硬件、平臺、系統(tǒng))進行采集策略的配置,包括采集指標定義、采集策略定義、采集節(jié)點定義。該模塊的目的是為整個項目提供數(shù)據(jù)采集管理管理。(1)業(yè)務(wù)數(shù)據(jù)采集管理模塊主要包括:采集指標管理、采集策略管理、采集節(jié)點管理。(2)采集指標管理:根據(jù)業(yè)務(wù)系統(tǒng)涉及資源(軟件、硬件、平臺、系統(tǒng))的特點,定義資源涉及的采集指標,典型的指標包括F5服務(wù)檢查、URL連通性檢查、網(wǎng)絡(luò)連通性檢查、數(shù)據(jù)庫連通性檢查、中間件聯(lián)通性檢查、WebService服務(wù)檢查等;與業(yè)務(wù)系統(tǒng)相關(guān)的指標如ArcGIS服務(wù)檢查、拓撲服務(wù)檢查、數(shù)據(jù)代理服務(wù)檢查、矢量柵格服務(wù)檢查等。(3)采集策略管理:對采集指標的采集周期和采集方式進行配置管理。采集周期基于Calendar-like調(diào)度的,提供了按照年、月、日、周、小時、分鐘、秒的調(diào)度管理。采集方式可以按照業(yè)務(wù)系統(tǒng)的特點對所有的指標提供并行采集的方式,也可以按照業(yè)務(wù)系統(tǒng)的構(gòu)架,按照層次關(guān)系,提供自上向下或自下向上的采集方式,采集可以按照周期來執(zhí)行,也可以按照條件(如當(dāng)檢測出錯誤后執(zhí)行)來執(zhí)行。(4)采集節(jié)點管理:按照采集指標以及采集策略配置采集節(jié)點,進行數(shù)據(jù)采集。.Net環(huán)境最多同時并行5000左右的線程,如果超過并發(fā)限額,可以配置多臺采集節(jié)點進行數(shù)據(jù)采集管理。
4.3 告警綜合管理
告警綜合管理模塊是運維人員最常使用的功能,運維人員使用此模塊監(jiān)控業(yè)務(wù)系統(tǒng)的運行情況,處理業(yè)務(wù)系統(tǒng)產(chǎn)生的告警,對告警執(zhí)行的有效操作記錄的知識庫中,提高應(yīng)急響應(yīng)速度,對告警數(shù)據(jù)進行統(tǒng)計、分析管理。
(1)告警綜合管理模塊主要包括:告警管理、知識庫管理、統(tǒng)計分析管理、數(shù)據(jù)管理。(2)告警管理:通過圖形、文字、聲音等多種手段監(jiān)控業(yè)務(wù)系統(tǒng)的整體、各部分運行狀況,查看業(yè)務(wù)系統(tǒng)指標的運行情況。(3)知識庫管理:記錄應(yīng)用系統(tǒng)恢復(fù)時所采取的措施,便于知識庫的形成。(4)統(tǒng)計分析管理:通過對各資源利用率進行統(tǒng)計(日計、周計、月計、季計、年計),并生成各種表格,曲線圖,全面掌握某個應(yīng)用系統(tǒng)及其相關(guān)資源利用情況。通過對各種統(tǒng)計數(shù)據(jù)進行分析,可以知道是否需要新增硬件資源、網(wǎng)絡(luò)帶寬;可以了解每月哪幾個工作日服務(wù)器資源利用率高、每周哪幾個工作日資源利用率高、每日哪個時段資源利用率高,從而更好的安排人力、設(shè)施設(shè)備等資源情況。(5)數(shù)據(jù)管理:提供數(shù)據(jù)導(dǎo)出功能;可根據(jù)需要自由組合各元素,制作相關(guān)的報表。且可導(dǎo)成Excel表格或PDF文檔格式。
5 結(jié)束語
該系統(tǒng)通過對應(yīng)用系統(tǒng)所涉及資源(軟件、硬件、平臺、系統(tǒng))之間的關(guān)系層次化,對資源的可訪問性、正確性、使用率等關(guān)鍵指標進行監(jiān)控,實現(xiàn)了對業(yè)務(wù)系統(tǒng)的系統(tǒng)架構(gòu)的有效監(jiān)測,進而發(fā)現(xiàn)業(yè)務(wù)系統(tǒng)運行過程中存在的故障,實現(xiàn)對應(yīng)用系統(tǒng)的綜合透明的運維管理。此外,通過對資源進行標簽化管理,使系統(tǒng)運維人員、數(shù)據(jù)庫運維人員、中間件運維人員等不同的運維人員能夠關(guān)注一個或多個業(yè)務(wù)系統(tǒng),一類或多類運維內(nèi)容,實現(xiàn)了對業(yè)務(wù)系統(tǒng)的精細化管理。通過對記錄應(yīng)用系統(tǒng)恢復(fù)時所采取的措施,所形成的知識庫,有利于運維人員快速恢復(fù)問題。該系統(tǒng)需進一步實現(xiàn)對告警數(shù)據(jù)和知識庫的有效利用,利用SOA分布式構(gòu)架的靈活性,在不改變或不大改變原有系統(tǒng)的前提下,對業(yè)務(wù)系統(tǒng)故障恢復(fù)自動化進行研究,研究業(yè)務(wù)系統(tǒng)故障的影響范圍、程度,研究哪些類型的故障可以實現(xiàn)自動恢復(fù),對可以自動恢復(fù)的故障進行自動處理,從而減少業(yè)務(wù)系統(tǒng)故障的人為干預(yù)度,提高業(yè)務(wù)系統(tǒng)運維管理的自動化管理水平,促進業(yè)務(wù)系統(tǒng)的安全、經(jīng)濟、穩(wěn)定的運行。
參考文獻
[1]蔣金楠.wcf全面解析(上、下)[M].北京:電子工業(yè)出版社,2012.endprint
2.4 基于IronPython技術(shù)開發(fā)插件
IronPython是一種在NET平臺上實現(xiàn)的Python語言。IronPython即能使用NET平臺類庫,也能使用Python豐富和強大的類庫。作為膠水語言,它能很輕松的把用其他語言制作的各種模塊輕松的聯(lián)接在一起。
3 系統(tǒng)結(jié)構(gòu)
3.1 系統(tǒng)結(jié)構(gòu)
應(yīng)用系統(tǒng)構(gòu)架監(jiān)測的應(yīng)用的核心是“監(jiān)測”,依賴發(fā)布-訂閱機制實現(xiàn)數(shù)據(jù)傳遞,數(shù)據(jù)采集平臺負責(zé)采集并發(fā)布數(shù)據(jù),綜合數(shù)據(jù)展示平臺訂閱數(shù)據(jù)并展示數(shù)據(jù):(1)數(shù)據(jù)采集平臺,負責(zé)各相關(guān)業(yè)務(wù)系統(tǒng)數(shù)據(jù)采集與集成;(2)綜合數(shù)據(jù)展示平臺,用于預(yù)警,并對各業(yè)務(wù)系統(tǒng)業(yè)務(wù)數(shù)據(jù)進行有效利用,形成知識庫。
3.2 邏輯結(jié)構(gòu)
基于應(yīng)用系統(tǒng)構(gòu)架監(jiān)測的應(yīng)用研究在數(shù)據(jù)采集平臺的基礎(chǔ)上,提供了系統(tǒng)綜合管理、業(yè)務(wù)數(shù)據(jù)采集管理、告警綜合管理三個業(yè)務(wù)模塊的業(yè)務(wù)邏輯結(jié)構(gòu)。
3.3 硬件結(jié)構(gòu)
基于應(yīng)用系統(tǒng)構(gòu)架監(jiān)測的應(yīng)用研究在數(shù)據(jù)采集平臺的基礎(chǔ)上,提供了如下的業(yè)務(wù)邏輯結(jié)構(gòu)。
4 系統(tǒng)功能
4.1 系統(tǒng)綜合管理
系統(tǒng)綜合管理模塊是對業(yè)務(wù)應(yīng)用系統(tǒng)的構(gòu)架模型、業(yè)務(wù)應(yīng)用系統(tǒng)涉及的資源(軟件、硬件、平臺、系統(tǒng))進行維護和管理,對業(yè)務(wù)系統(tǒng)資源進行標簽進行維護管理,對業(yè)務(wù)系統(tǒng)的告警信息分類、等級進行管理。該模塊的目的是為整個項目提供基礎(chǔ)管理。
(1)系統(tǒng)綜合管理模塊主要包括:業(yè)務(wù)系統(tǒng)資源管理、業(yè)務(wù)系統(tǒng)管理、告警基礎(chǔ)信息管理、登錄人員管理、業(yè)務(wù)系統(tǒng)管理資源管理標簽管理。(2)業(yè)務(wù)系統(tǒng)資源管理:對業(yè)務(wù)系統(tǒng)涉及的資源(軟件、硬件、平臺、系統(tǒng)),例如F5設(shè)備、服務(wù)器設(shè)備、數(shù)據(jù)庫系統(tǒng)、中間件軟件、進行定義和管理。(3)業(yè)務(wù)系統(tǒng)管理:對業(yè)務(wù)應(yīng)用的構(gòu)架進行維護管理,通過對業(yè)務(wù)應(yīng)用系統(tǒng)涉及的資源進行層級化,形成業(yè)務(wù)系統(tǒng)的邏輯構(gòu)架。(4)告警基礎(chǔ)信息管理:對業(yè)務(wù)系統(tǒng)資源所產(chǎn)生的告警信息定義告警類型、告警等級。(5)資源標簽管理:對業(yè)務(wù)系統(tǒng)涉及的資源進行主題定義,典型的主題可以按業(yè)務(wù)系統(tǒng)(如GIS)、數(shù)據(jù)庫、中間件、服務(wù)器設(shè)備進行定義和管理,從而方便運維人員訂閱相關(guān)主題。(6)登錄人員管理:對登錄人員進行基礎(chǔ)信息、角色和使用權(quán)限進行維護、管理,對登錄人員關(guān)心的主題進行配置,對使用過程中產(chǎn)生的操作行為和日志進行管理。
4.2 業(yè)務(wù)數(shù)據(jù)采集管理
業(yè)務(wù)數(shù)據(jù)采集管理模塊是對已經(jīng)配置業(yè)務(wù)系統(tǒng)資源(軟件、硬件、平臺、系統(tǒng))進行采集策略的配置,包括采集指標定義、采集策略定義、采集節(jié)點定義。該模塊的目的是為整個項目提供數(shù)據(jù)采集管理管理。(1)業(yè)務(wù)數(shù)據(jù)采集管理模塊主要包括:采集指標管理、采集策略管理、采集節(jié)點管理。(2)采集指標管理:根據(jù)業(yè)務(wù)系統(tǒng)涉及資源(軟件、硬件、平臺、系統(tǒng))的特點,定義資源涉及的采集指標,典型的指標包括F5服務(wù)檢查、URL連通性檢查、網(wǎng)絡(luò)連通性檢查、數(shù)據(jù)庫連通性檢查、中間件聯(lián)通性檢查、WebService服務(wù)檢查等;與業(yè)務(wù)系統(tǒng)相關(guān)的指標如ArcGIS服務(wù)檢查、拓撲服務(wù)檢查、數(shù)據(jù)代理服務(wù)檢查、矢量柵格服務(wù)檢查等。(3)采集策略管理:對采集指標的采集周期和采集方式進行配置管理。采集周期基于Calendar-like調(diào)度的,提供了按照年、月、日、周、小時、分鐘、秒的調(diào)度管理。采集方式可以按照業(yè)務(wù)系統(tǒng)的特點對所有的指標提供并行采集的方式,也可以按照業(yè)務(wù)系統(tǒng)的構(gòu)架,按照層次關(guān)系,提供自上向下或自下向上的采集方式,采集可以按照周期來執(zhí)行,也可以按照條件(如當(dāng)檢測出錯誤后執(zhí)行)來執(zhí)行。(4)采集節(jié)點管理:按照采集指標以及采集策略配置采集節(jié)點,進行數(shù)據(jù)采集。.Net環(huán)境最多同時并行5000左右的線程,如果超過并發(fā)限額,可以配置多臺采集節(jié)點進行數(shù)據(jù)采集管理。
4.3 告警綜合管理
告警綜合管理模塊是運維人員最常使用的功能,運維人員使用此模塊監(jiān)控業(yè)務(wù)系統(tǒng)的運行情況,處理業(yè)務(wù)系統(tǒng)產(chǎn)生的告警,對告警執(zhí)行的有效操作記錄的知識庫中,提高應(yīng)急響應(yīng)速度,對告警數(shù)據(jù)進行統(tǒng)計、分析管理。
(1)告警綜合管理模塊主要包括:告警管理、知識庫管理、統(tǒng)計分析管理、數(shù)據(jù)管理。(2)告警管理:通過圖形、文字、聲音等多種手段監(jiān)控業(yè)務(wù)系統(tǒng)的整體、各部分運行狀況,查看業(yè)務(wù)系統(tǒng)指標的運行情況。(3)知識庫管理:記錄應(yīng)用系統(tǒng)恢復(fù)時所采取的措施,便于知識庫的形成。(4)統(tǒng)計分析管理:通過對各資源利用率進行統(tǒng)計(日計、周計、月計、季計、年計),并生成各種表格,曲線圖,全面掌握某個應(yīng)用系統(tǒng)及其相關(guān)資源利用情況。通過對各種統(tǒng)計數(shù)據(jù)進行分析,可以知道是否需要新增硬件資源、網(wǎng)絡(luò)帶寬;可以了解每月哪幾個工作日服務(wù)器資源利用率高、每周哪幾個工作日資源利用率高、每日哪個時段資源利用率高,從而更好的安排人力、設(shè)施設(shè)備等資源情況。(5)數(shù)據(jù)管理:提供數(shù)據(jù)導(dǎo)出功能;可根據(jù)需要自由組合各元素,制作相關(guān)的報表。且可導(dǎo)成Excel表格或PDF文檔格式。
5 結(jié)束語
該系統(tǒng)通過對應(yīng)用系統(tǒng)所涉及資源(軟件、硬件、平臺、系統(tǒng))之間的關(guān)系層次化,對資源的可訪問性、正確性、使用率等關(guān)鍵指標進行監(jiān)控,實現(xiàn)了對業(yè)務(wù)系統(tǒng)的系統(tǒng)架構(gòu)的有效監(jiān)測,進而發(fā)現(xiàn)業(yè)務(wù)系統(tǒng)運行過程中存在的故障,實現(xiàn)對應(yīng)用系統(tǒng)的綜合透明的運維管理。此外,通過對資源進行標簽化管理,使系統(tǒng)運維人員、數(shù)據(jù)庫運維人員、中間件運維人員等不同的運維人員能夠關(guān)注一個或多個業(yè)務(wù)系統(tǒng),一類或多類運維內(nèi)容,實現(xiàn)了對業(yè)務(wù)系統(tǒng)的精細化管理。通過對記錄應(yīng)用系統(tǒng)恢復(fù)時所采取的措施,所形成的知識庫,有利于運維人員快速恢復(fù)問題。該系統(tǒng)需進一步實現(xiàn)對告警數(shù)據(jù)和知識庫的有效利用,利用SOA分布式構(gòu)架的靈活性,在不改變或不大改變原有系統(tǒng)的前提下,對業(yè)務(wù)系統(tǒng)故障恢復(fù)自動化進行研究,研究業(yè)務(wù)系統(tǒng)故障的影響范圍、程度,研究哪些類型的故障可以實現(xiàn)自動恢復(fù),對可以自動恢復(fù)的故障進行自動處理,從而減少業(yè)務(wù)系統(tǒng)故障的人為干預(yù)度,提高業(yè)務(wù)系統(tǒng)運維管理的自動化管理水平,促進業(yè)務(wù)系統(tǒng)的安全、經(jīng)濟、穩(wěn)定的運行。
參考文獻
[1]蔣金楠.wcf全面解析(上、下)[M].北京:電子工業(yè)出版社,2012.endprint
2.4 基于IronPython技術(shù)開發(fā)插件
IronPython是一種在NET平臺上實現(xiàn)的Python語言。IronPython即能使用NET平臺類庫,也能使用Python豐富和強大的類庫。作為膠水語言,它能很輕松的把用其他語言制作的各種模塊輕松的聯(lián)接在一起。
3 系統(tǒng)結(jié)構(gòu)
3.1 系統(tǒng)結(jié)構(gòu)
應(yīng)用系統(tǒng)構(gòu)架監(jiān)測的應(yīng)用的核心是“監(jiān)測”,依賴發(fā)布-訂閱機制實現(xiàn)數(shù)據(jù)傳遞,數(shù)據(jù)采集平臺負責(zé)采集并發(fā)布數(shù)據(jù),綜合數(shù)據(jù)展示平臺訂閱數(shù)據(jù)并展示數(shù)據(jù):(1)數(shù)據(jù)采集平臺,負責(zé)各相關(guān)業(yè)務(wù)系統(tǒng)數(shù)據(jù)采集與集成;(2)綜合數(shù)據(jù)展示平臺,用于預(yù)警,并對各業(yè)務(wù)系統(tǒng)業(yè)務(wù)數(shù)據(jù)進行有效利用,形成知識庫。
3.2 邏輯結(jié)構(gòu)
基于應(yīng)用系統(tǒng)構(gòu)架監(jiān)測的應(yīng)用研究在數(shù)據(jù)采集平臺的基礎(chǔ)上,提供了系統(tǒng)綜合管理、業(yè)務(wù)數(shù)據(jù)采集管理、告警綜合管理三個業(yè)務(wù)模塊的業(yè)務(wù)邏輯結(jié)構(gòu)。
3.3 硬件結(jié)構(gòu)
基于應(yīng)用系統(tǒng)構(gòu)架監(jiān)測的應(yīng)用研究在數(shù)據(jù)采集平臺的基礎(chǔ)上,提供了如下的業(yè)務(wù)邏輯結(jié)構(gòu)。
4 系統(tǒng)功能
4.1 系統(tǒng)綜合管理
系統(tǒng)綜合管理模塊是對業(yè)務(wù)應(yīng)用系統(tǒng)的構(gòu)架模型、業(yè)務(wù)應(yīng)用系統(tǒng)涉及的資源(軟件、硬件、平臺、系統(tǒng))進行維護和管理,對業(yè)務(wù)系統(tǒng)資源進行標簽進行維護管理,對業(yè)務(wù)系統(tǒng)的告警信息分類、等級進行管理。該模塊的目的是為整個項目提供基礎(chǔ)管理。
(1)系統(tǒng)綜合管理模塊主要包括:業(yè)務(wù)系統(tǒng)資源管理、業(yè)務(wù)系統(tǒng)管理、告警基礎(chǔ)信息管理、登錄人員管理、業(yè)務(wù)系統(tǒng)管理資源管理標簽管理。(2)業(yè)務(wù)系統(tǒng)資源管理:對業(yè)務(wù)系統(tǒng)涉及的資源(軟件、硬件、平臺、系統(tǒng)),例如F5設(shè)備、服務(wù)器設(shè)備、數(shù)據(jù)庫系統(tǒng)、中間件軟件、進行定義和管理。(3)業(yè)務(wù)系統(tǒng)管理:對業(yè)務(wù)應(yīng)用的構(gòu)架進行維護管理,通過對業(yè)務(wù)應(yīng)用系統(tǒng)涉及的資源進行層級化,形成業(yè)務(wù)系統(tǒng)的邏輯構(gòu)架。(4)告警基礎(chǔ)信息管理:對業(yè)務(wù)系統(tǒng)資源所產(chǎn)生的告警信息定義告警類型、告警等級。(5)資源標簽管理:對業(yè)務(wù)系統(tǒng)涉及的資源進行主題定義,典型的主題可以按業(yè)務(wù)系統(tǒng)(如GIS)、數(shù)據(jù)庫、中間件、服務(wù)器設(shè)備進行定義和管理,從而方便運維人員訂閱相關(guān)主題。(6)登錄人員管理:對登錄人員進行基礎(chǔ)信息、角色和使用權(quán)限進行維護、管理,對登錄人員關(guān)心的主題進行配置,對使用過程中產(chǎn)生的操作行為和日志進行管理。
4.2 業(yè)務(wù)數(shù)據(jù)采集管理
業(yè)務(wù)數(shù)據(jù)采集管理模塊是對已經(jīng)配置業(yè)務(wù)系統(tǒng)資源(軟件、硬件、平臺、系統(tǒng))進行采集策略的配置,包括采集指標定義、采集策略定義、采集節(jié)點定義。該模塊的目的是為整個項目提供數(shù)據(jù)采集管理管理。(1)業(yè)務(wù)數(shù)據(jù)采集管理模塊主要包括:采集指標管理、采集策略管理、采集節(jié)點管理。(2)采集指標管理:根據(jù)業(yè)務(wù)系統(tǒng)涉及資源(軟件、硬件、平臺、系統(tǒng))的特點,定義資源涉及的采集指標,典型的指標包括F5服務(wù)檢查、URL連通性檢查、網(wǎng)絡(luò)連通性檢查、數(shù)據(jù)庫連通性檢查、中間件聯(lián)通性檢查、WebService服務(wù)檢查等;與業(yè)務(wù)系統(tǒng)相關(guān)的指標如ArcGIS服務(wù)檢查、拓撲服務(wù)檢查、數(shù)據(jù)代理服務(wù)檢查、矢量柵格服務(wù)檢查等。(3)采集策略管理:對采集指標的采集周期和采集方式進行配置管理。采集周期基于Calendar-like調(diào)度的,提供了按照年、月、日、周、小時、分鐘、秒的調(diào)度管理。采集方式可以按照業(yè)務(wù)系統(tǒng)的特點對所有的指標提供并行采集的方式,也可以按照業(yè)務(wù)系統(tǒng)的構(gòu)架,按照層次關(guān)系,提供自上向下或自下向上的采集方式,采集可以按照周期來執(zhí)行,也可以按照條件(如當(dāng)檢測出錯誤后執(zhí)行)來執(zhí)行。(4)采集節(jié)點管理:按照采集指標以及采集策略配置采集節(jié)點,進行數(shù)據(jù)采集。.Net環(huán)境最多同時并行5000左右的線程,如果超過并發(fā)限額,可以配置多臺采集節(jié)點進行數(shù)據(jù)采集管理。
4.3 告警綜合管理
告警綜合管理模塊是運維人員最常使用的功能,運維人員使用此模塊監(jiān)控業(yè)務(wù)系統(tǒng)的運行情況,處理業(yè)務(wù)系統(tǒng)產(chǎn)生的告警,對告警執(zhí)行的有效操作記錄的知識庫中,提高應(yīng)急響應(yīng)速度,對告警數(shù)據(jù)進行統(tǒng)計、分析管理。
(1)告警綜合管理模塊主要包括:告警管理、知識庫管理、統(tǒng)計分析管理、數(shù)據(jù)管理。(2)告警管理:通過圖形、文字、聲音等多種手段監(jiān)控業(yè)務(wù)系統(tǒng)的整體、各部分運行狀況,查看業(yè)務(wù)系統(tǒng)指標的運行情況。(3)知識庫管理:記錄應(yīng)用系統(tǒng)恢復(fù)時所采取的措施,便于知識庫的形成。(4)統(tǒng)計分析管理:通過對各資源利用率進行統(tǒng)計(日計、周計、月計、季計、年計),并生成各種表格,曲線圖,全面掌握某個應(yīng)用系統(tǒng)及其相關(guān)資源利用情況。通過對各種統(tǒng)計數(shù)據(jù)進行分析,可以知道是否需要新增硬件資源、網(wǎng)絡(luò)帶寬;可以了解每月哪幾個工作日服務(wù)器資源利用率高、每周哪幾個工作日資源利用率高、每日哪個時段資源利用率高,從而更好的安排人力、設(shè)施設(shè)備等資源情況。(5)數(shù)據(jù)管理:提供數(shù)據(jù)導(dǎo)出功能;可根據(jù)需要自由組合各元素,制作相關(guān)的報表。且可導(dǎo)成Excel表格或PDF文檔格式。
5 結(jié)束語
該系統(tǒng)通過對應(yīng)用系統(tǒng)所涉及資源(軟件、硬件、平臺、系統(tǒng))之間的關(guān)系層次化,對資源的可訪問性、正確性、使用率等關(guān)鍵指標進行監(jiān)控,實現(xiàn)了對業(yè)務(wù)系統(tǒng)的系統(tǒng)架構(gòu)的有效監(jiān)測,進而發(fā)現(xiàn)業(yè)務(wù)系統(tǒng)運行過程中存在的故障,實現(xiàn)對應(yīng)用系統(tǒng)的綜合透明的運維管理。此外,通過對資源進行標簽化管理,使系統(tǒng)運維人員、數(shù)據(jù)庫運維人員、中間件運維人員等不同的運維人員能夠關(guān)注一個或多個業(yè)務(wù)系統(tǒng),一類或多類運維內(nèi)容,實現(xiàn)了對業(yè)務(wù)系統(tǒng)的精細化管理。通過對記錄應(yīng)用系統(tǒng)恢復(fù)時所采取的措施,所形成的知識庫,有利于運維人員快速恢復(fù)問題。該系統(tǒng)需進一步實現(xiàn)對告警數(shù)據(jù)和知識庫的有效利用,利用SOA分布式構(gòu)架的靈活性,在不改變或不大改變原有系統(tǒng)的前提下,對業(yè)務(wù)系統(tǒng)故障恢復(fù)自動化進行研究,研究業(yè)務(wù)系統(tǒng)故障的影響范圍、程度,研究哪些類型的故障可以實現(xiàn)自動恢復(fù),對可以自動恢復(fù)的故障進行自動處理,從而減少業(yè)務(wù)系統(tǒng)故障的人為干預(yù)度,提高業(yè)務(wù)系統(tǒng)運維管理的自動化管理水平,促進業(yè)務(wù)系統(tǒng)的安全、經(jīng)濟、穩(wěn)定的運行。
參考文獻
[1]蔣金楠.wcf全面解析(上、下)[M].北京:電子工業(yè)出版社,2012.endprint