田偉 張燏
摘 要:農(nóng)業(yè)信息化建設(shè)不斷深入,農(nóng)業(yè)系統(tǒng)運(yùn)維管理迎來(lái)新一階段挑戰(zhàn)。通過(guò)融入ITIL理念,從提前探知系統(tǒng)運(yùn)行隱患、預(yù)防故障發(fā)生的角度對(duì)應(yīng)用系統(tǒng)運(yùn)維管理新模式進(jìn)行了初步探索,提出了對(duì)IT資源的集中、統(tǒng)一、全面的監(jiān)控和管理,引入了應(yīng)用系統(tǒng)運(yùn)行情況監(jiān)控平臺(tái)的建設(shè)思路,并介紹了監(jiān)控平臺(tái)建設(shè)實(shí)施的相關(guān)經(jīng)驗(yàn),為同行業(yè)系統(tǒng)運(yùn)維工作者提供了借鑒和參考。
關(guān)鍵詞:ITIL理念;應(yīng)用系統(tǒng)運(yùn)維;系統(tǒng)運(yùn)行監(jiān)控;監(jiān)控平臺(tái)
中圖分類號(hào):TP319 文獻(xiàn)標(biāo)志碼:A 論文編號(hào):2013-0888
Preliminary Research on the Monitoring Platform of Application Performance
Tian Wei, Zhang Yu
(Information Center of Ministry of Agriculture, Beijng 100125, China)
Abstract: With the deepening construction of agricultural information, agricultural systems operation and maintenance management meet challenge in a new phase. This article incorporated ITIL operation and maintenance management philosophy. From the perspective of ascertaining system operating hidden dangers in advance and preventing failure, it made a brand new operation and maintenance management mode, which complied the centralized, unified, comprehensive monitoring and management to IT resources. This article introduced the building ideas of the monitoring platform and told how to construct it, provided some reference for the system operation and maintenance industry.
Key words: ITIL Service Management; Application System Operation and Maintenance; Application Performance Monitoring; Monitoring Platform
0 引言
近年來(lái),中國(guó)高度重視農(nóng)業(yè)信息化發(fā)展,面向社會(huì)公眾提供綜合信息服務(wù)的國(guó)家農(nóng)業(yè)數(shù)據(jù)中心初步建成,覆蓋全國(guó)農(nóng)業(yè)各行業(yè)的信息系統(tǒng)相繼投入運(yùn)行,農(nóng)業(yè)應(yīng)用系統(tǒng)規(guī)模逐漸龐大,系統(tǒng)復(fù)雜性逐步提高,作為應(yīng)用系統(tǒng)的建設(shè)和運(yùn)維職能部門,如何更合理的保障系統(tǒng)運(yùn)維的規(guī)范性,提升系統(tǒng)運(yùn)維效率,更有效的降低系統(tǒng)運(yùn)維成本,這些問(wèn)題值得深入探究。
1 ITIL運(yùn)維與系統(tǒng)運(yùn)行監(jiān)控
應(yīng)用系統(tǒng)管理職能部門如何保障系統(tǒng)運(yùn)維規(guī)范性,提升運(yùn)維效率,更有效的降低運(yùn)維成本,這些問(wèn)題值得深入思考。為滿足高標(biāo)準(zhǔn)的農(nóng)業(yè)應(yīng)用系統(tǒng)運(yùn)維體系建設(shè)要求,在充分調(diào)研、考察、分析和討論的基礎(chǔ)上,融合國(guó)際先進(jìn)的ITIL標(biāo)準(zhǔn)規(guī)范,結(jié)合農(nóng)業(yè)應(yīng)用系統(tǒng)運(yùn)維現(xiàn)狀,提出基于ITIL運(yùn)維理念的應(yīng)用監(jiān)控運(yùn)維管理模式。
1.1 ITIL介紹
ITIL,Information Technology Infrastructure Library(信息技術(shù)基礎(chǔ)架構(gòu)庫(kù)),是CCTA(英國(guó)國(guó)家計(jì)算機(jī)和電信局)于20世紀(jì)80年代末開(kāi)發(fā)的一套IT服務(wù)管理標(biāo)準(zhǔn)庫(kù),它把英國(guó)各行業(yè)在IT管理方面的最佳實(shí)踐歸納起來(lái)變成規(guī)范,旨在提高IT資源的利用率和服務(wù)質(zhì)量[1]。目前已成為業(yè)界通用的標(biāo)準(zhǔn)。IT服務(wù)管理是ITIL框架的核心,它是一套流程(process),并通過(guò)服務(wù)級(jí)別協(xié)議(SLA)來(lái)保證IT服務(wù)的質(zhì)量。它融合了系統(tǒng)管理、網(wǎng)絡(luò)管理、系統(tǒng)開(kāi)發(fā)管理等管理活動(dòng)和變更管理、資產(chǎn)管理、問(wèn)題管理等許多流程的理論和實(shí)踐[2]。ITIL把IT管理活動(dòng)歸納為7個(gè)模塊,包括服務(wù)支持、服務(wù)提供、業(yè)務(wù)視野、基礎(chǔ)設(shè)施管理、安全管理、應(yīng)用管理以及規(guī)劃實(shí)施服務(wù)管理[3]。
1.2 ITIL與系統(tǒng)運(yùn)行監(jiān)控
應(yīng)用系統(tǒng)運(yùn)行監(jiān)控運(yùn)維主要是指通過(guò)占用率、閥值、響應(yīng)時(shí)間、連通性等技術(shù)指標(biāo)對(duì)應(yīng)用系統(tǒng)賴以運(yùn)行的網(wǎng)絡(luò)環(huán)境及設(shè)備(路由器、交換機(jī)、安全產(chǎn)品、服務(wù)器與PC等)、數(shù)據(jù)庫(kù)資源、中間件等進(jìn)行實(shí)時(shí)的監(jiān)控和管理。應(yīng)用系統(tǒng)運(yùn)維管理融入ITIL理念,通過(guò)識(shí)別、控制、維護(hù),檢查應(yīng)用系統(tǒng)的IT資源,高效控制與管理不斷變化的IT基礎(chǔ)架構(gòu)與IT服務(wù),使應(yīng)用系統(tǒng)運(yùn)維管理實(shí)現(xiàn)流程化、自動(dòng)化和規(guī)范化,并為其他流程,例如事故管理、問(wèn)題管理、變更管理、發(fā)布管理等流程提供準(zhǔn)確的配置信息[4]。
采用ITIL運(yùn)維理念實(shí)施,有助于提高運(yùn)維效率,降低運(yùn)維風(fēng)險(xiǎn),逐步降低運(yùn)維成本。在整個(gè)系統(tǒng)管理流程鏈中,應(yīng)用運(yùn)行監(jiān)控能夠更快確定需要改善的IT資源,幫助各IT運(yùn)維職能部門明確業(yè)務(wù)需求,有助于各部門之間的良好銜接與理解,迅速解決用戶的各種問(wèn)題及滿足業(yè)務(wù)用戶需求,使得IT運(yùn)維管理部門更主動(dòng)地以解決方案為本,面向業(yè)務(wù)用戶提供及時(shí)高效的系統(tǒng)運(yùn)維管理服務(wù)[5]。
2 系統(tǒng)運(yùn)行監(jiān)控的必要性與可行性
2.1 必要性
伴隨國(guó)家農(nóng)業(yè)信息化發(fā)展戰(zhàn)略的部署和實(shí)施,在農(nóng)業(yè)部及其他有關(guān)部門、社會(huì)各界的大力支持下,信息化在農(nóng)業(yè)現(xiàn)代化發(fā)展中取得顯著成效,農(nóng)業(yè)基礎(chǔ)設(shè)施不斷夯實(shí),農(nóng)業(yè)信息資源建設(shè)水平明顯提高,農(nóng)業(yè)信息服務(wù)體系逐步完善,信息技術(shù)在農(nóng)業(yè)產(chǎn)業(yè)發(fā)展中的應(yīng)用日漸深入[6]。國(guó)家金農(nóng)工程一期建設(shè)項(xiàng)目[7]竣工驗(yàn)收,農(nóng)業(yè)應(yīng)用系統(tǒng)建設(shè)水平及規(guī)模大幅度提升,農(nóng)業(yè)信息化業(yè)務(wù)要求逐年提高,系統(tǒng)管理和運(yùn)維的任務(wù)更加艱巨。
電子政務(wù)系統(tǒng)運(yùn)維管理通常由信息辦或者信息中心來(lái)?yè)?dān)任,這些信息化主管部門往往根據(jù)機(jī)構(gòu)職能分為網(wǎng)絡(luò)部、應(yīng)用部、數(shù)據(jù)庫(kù)部、信息安全部等部門,傳統(tǒng)的維護(hù)模式中沒(méi)有統(tǒng)一的事件匯總節(jié)點(diǎn),而是根據(jù)事件的分類由各部門分別進(jìn)行處理。這樣的組織結(jié)構(gòu)雖然在一定階段一定程度上提高工作職能清晰度,但是隨著電子政務(wù)工作的不斷深入,各類服務(wù)涉及知識(shí)點(diǎn)也逐步深入,受到部門之間的溝通協(xié)調(diào)的牽制,往往會(huì)導(dǎo)致缺乏對(duì)問(wèn)題的綜合分析,或者由于事件類別不清晰出現(xiàn)推諉的現(xiàn)象。另一方面,根據(jù)以往運(yùn)維管理經(jīng)驗(yàn)看,往往是到了用戶使用系統(tǒng)的這一環(huán)節(jié)才發(fā)現(xiàn)系統(tǒng)故障,但這是最后一道“通牒”,由于用戶的工作任務(wù)常具有緊迫的時(shí)效要求,技術(shù)人員就像“救火隊(duì)員”一般,時(shí)常在休息日或者深夜里協(xié)調(diào)各方面人員匆忙趕到機(jī)房,在緊要關(guān)頭充分發(fā)揮技術(shù)知識(shí)能力甚至想象力,想盡各種措施緊急排查,與時(shí)間賽跑,盡力在最短時(shí)間里尋找故障根源,再實(shí)施處理措施。這種“高壓撲救”的局面并不利于業(yè)務(wù)工作的有序進(jìn)行以及應(yīng)用系統(tǒng)的平穩(wěn)運(yùn)行,也不能提高技術(shù)運(yùn)維人員的工作效率,反而使得運(yùn)維工作狀態(tài)狼狽不堪[8]。這就需要采用一種新的運(yùn)維管理模式以解決當(dāng)前運(yùn)維工作中存在的問(wèn)題。
2.2 可行性
應(yīng)用系統(tǒng)的正常運(yùn)轉(zhuǎn)取決于其所在的服務(wù)器、操作系統(tǒng)及網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)、中間件等基礎(chǔ)環(huán)境的良好運(yùn)行[9],經(jīng)過(guò)對(duì)應(yīng)用系統(tǒng)歷次故障分析,系統(tǒng)不能正常運(yùn)行多是源于其底層支撐資源(例如應(yīng)用服務(wù)器、操作系統(tǒng)、網(wǎng)絡(luò)環(huán)境、數(shù)據(jù)庫(kù)、中間件等)運(yùn)轉(zhuǎn)出現(xiàn)了問(wèn)題。如果對(duì)于這些支撐應(yīng)用系統(tǒng)運(yùn)行的底層資源采取實(shí)時(shí)監(jiān)控,一旦發(fā)現(xiàn)問(wèn)題隱患盡可能做到提前預(yù)警、及時(shí)解決,就有機(jī)會(huì)在影響業(yè)務(wù)系統(tǒng)正常運(yùn)轉(zhuǎn)之前將問(wèn)題化解,從而改變緊急“撲救”的運(yùn)維工作模式[10]。
針對(duì)應(yīng)用系統(tǒng)資源環(huán)境進(jìn)行監(jiān)控管理的平臺(tái)應(yīng)具有良好的可擴(kuò)展性,能夠?qū)⑾聦泳W(wǎng)絡(luò)和的復(fù)雜度有效的通過(guò)抽象屏蔽起來(lái),向上層應(yīng)用和運(yùn)維流程開(kāi)放穩(wěn)定的接口[11]。系統(tǒng)運(yùn)行監(jiān)控管理平臺(tái)從融合、開(kāi)放的技術(shù)理念出發(fā),提出了實(shí)時(shí)智能基礎(chǔ)設(shè)施監(jiān)控平臺(tái)的建設(shè)思路,利用基于統(tǒng)一信息模型的融合抽象建模技術(shù)和自動(dòng)發(fā)現(xiàn)技術(shù),實(shí)現(xiàn)對(duì)全I(xiàn)P網(wǎng)絡(luò)中各種應(yīng)用系統(tǒng)基礎(chǔ)設(shè)施的自動(dòng)發(fā)現(xiàn)和資源化,統(tǒng)一信息模型,生成一個(gè)可管理、可重用的實(shí)時(shí)對(duì)象庫(kù),并通過(guò)實(shí)時(shí)事件和同步技術(shù),保持與實(shí)際管理對(duì)象的一致性[12]。由于可以在統(tǒng)一的信息模型定義下針對(duì)多軟、硬件廠商,多技術(shù)的基礎(chǔ)設(shè)施進(jìn)行抽象,從而為解決異構(gòu)基礎(chǔ)設(shè)施的融合難題奠定了關(guān)鍵的基礎(chǔ),解決了對(duì)應(yīng)用系統(tǒng)基礎(chǔ)環(huán)境的總體把握和全局了解的問(wèn)題[13]。
3 系統(tǒng)運(yùn)行監(jiān)控實(shí)現(xiàn)
監(jiān)控管理平臺(tái)用于監(jiān)控應(yīng)用系統(tǒng)所在服務(wù)器(CPU、硬盤、操作系統(tǒng)等)、數(shù)據(jù)庫(kù)、中間件等基礎(chǔ)資源。平臺(tái)服務(wù)器基本配置要求為Windows操作系統(tǒng),8核以上CPU,8 G以上內(nèi)存,500 G以上硬盤,瀏覽器IE 8版本。平臺(tái)服務(wù)器與所有被監(jiān)控設(shè)備網(wǎng)絡(luò)相通,且所有的被管理資源對(duì)系統(tǒng)運(yùn)行監(jiān)控管理平臺(tái)服務(wù)器開(kāi)通相應(yīng)的監(jiān)控端口[14]。
3.1 服務(wù)器資源的監(jiān)控
3.1.1 監(jiān)控原理 監(jiān)控應(yīng)用系統(tǒng)所在服務(wù)器,主要是通過(guò)SNMPv1/v2(簡(jiǎn)單網(wǎng)絡(luò)管理協(xié)議)實(shí)現(xiàn),系統(tǒng)運(yùn)行監(jiān)控管理平臺(tái)的DCS服務(wù)通過(guò)SNMP協(xié)議每5 min輪巡1次,以獲取主機(jī)的CPU、內(nèi)存、分區(qū)等詳細(xì)信息,實(shí)現(xiàn)這種監(jiān)測(cè)的前提是系統(tǒng)運(yùn)行監(jiān)控管理平臺(tái)服務(wù)器與被監(jiān)控主機(jī)的網(wǎng)絡(luò)暢通,系統(tǒng)運(yùn)行監(jiān)控管理平臺(tái)使用Ping命令每隔1 min自動(dòng)監(jiān)測(cè)主機(jī)的聯(lián)通,且須主機(jī)SNMP協(xié)議開(kāi)啟161端口,配置團(tuán)體字[15]。
3.1.2 監(jiān)控指標(biāo)及作用
(1)CPU利用率。服務(wù)器的CPU利用率作為服務(wù)器的核心必須能完全支撐業(yè)務(wù)的正常運(yùn)行,在0%~85%范圍內(nèi)波動(dòng)為正常,如果過(guò)高則CPU可能成為系統(tǒng)的處理瓶頸,系統(tǒng)運(yùn)行監(jiān)控管理平臺(tái)默認(rèn)的閾值大于75%黃色警告、大于90%紅色警告,即CPU利用率大于75%系統(tǒng)會(huì)產(chǎn)生黃色告警,大于90%產(chǎn)生紅色告警。
(2)內(nèi)存利用率。內(nèi)存的大小直接影響系統(tǒng)的運(yùn)行速度,服務(wù)器至少要保持10%的物理剩余可用內(nèi)存,如果該值一直較小說(shuō)明服務(wù)器總的內(nèi)存可能不足或某程序沒(méi)有釋放內(nèi)存;系統(tǒng)運(yùn)行監(jiān)控管理平臺(tái)默認(rèn)的閾值為80%黃色警告、90%紅色嚴(yán)重警告,及時(shí)提醒管理員處理以免影響服務(wù)器運(yùn)行。
(3)分區(qū)利用率。硬盤的各分區(qū)的容量利用率,服務(wù)器的長(zhǎng)時(shí)間運(yùn)行存取刪除數(shù)據(jù)會(huì)產(chǎn)生碎片,會(huì)致使利用率過(guò)大,造成讀取數(shù)據(jù)變慢,影響系統(tǒng)運(yùn)行;系統(tǒng)運(yùn)行監(jiān)控管理平臺(tái)默認(rèn)閾值85%黃色警告、95%紅色嚴(yán)重警告,文件系統(tǒng)分區(qū)一般取值在85%左右,當(dāng)利用率超過(guò)這個(gè)值時(shí),提示管理員及時(shí)釋放空間。
(4)Ping時(shí)延。Ping命令主要用于檢測(cè)網(wǎng)絡(luò)通與不通,時(shí)延越大說(shuō)明網(wǎng)絡(luò)越不通暢,網(wǎng)絡(luò)優(yōu)良:丟包率=0并且延遲小于10 ms,正常:丟包率小于2%或者時(shí)延<100 ms,不正常:丟包率大于2%或者時(shí)延大于100 ms,中斷:丟包率為100%,系統(tǒng)運(yùn)行監(jiān)控管理平臺(tái)默認(rèn)閾值,黃色警告大于500 ms,紅色嚴(yán)重大于1000 ms。當(dāng)該值過(guò)大時(shí)會(huì)影響主機(jī)間的通信,提醒管理員及時(shí)處理保證設(shè)備間的正常通信。
(5)網(wǎng)絡(luò)接口。網(wǎng)絡(luò)接口為服務(wù)器收發(fā)數(shù)據(jù)的門戶,其性能直接影響服務(wù)器的通信效率,系統(tǒng)運(yùn)行監(jiān)控管理平臺(tái)主要通過(guò)監(jiān)控帶寬利用率(閾值黃色大于80%,紅色大于90%)、接收利用率(閾值黃色大于80%,紅色大于90%)、發(fā)送利用率(閾值黃色大于80%,紅色大于90%)、接收速率(黃色大于800000 kbps,紅色大于900000 kbps)、發(fā)送速率(黃色大于800000 kbps,紅色大于900000 kbps)這5個(gè)指標(biāo)來(lái)實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)接口的監(jiān)控,每個(gè)指標(biāo)過(guò)大就會(huì)影響服務(wù)器的通信。
3.2 數(shù)據(jù)庫(kù)資源的監(jiān)控
3.2.1 監(jiān)控原理 對(duì)于SQL Server數(shù)據(jù)庫(kù),需在系統(tǒng)運(yùn)行監(jiān)控管理平臺(tái)中配置數(shù)據(jù)庫(kù)服務(wù)器的IP地址、administrator組用戶的賬戶權(quán)限,且數(shù)據(jù)庫(kù)主機(jī)啟動(dòng)WMI協(xié)議(用來(lái)取服務(wù)器的CPU、內(nèi)存的值),數(shù)據(jù)庫(kù)用戶應(yīng)是具有的服務(wù)器管理員權(quán)限的角色,保持監(jiān)聽(tīng)端口可用,系統(tǒng)運(yùn)行監(jiān)控管理平臺(tái)的DCS通過(guò)JDBC協(xié)議(數(shù)據(jù)庫(kù)連接)每5 min輪巡1次,獲取SQL Server CPU利用率、SQL Server內(nèi)存利用率等指標(biāo)以完成對(duì)數(shù)據(jù)庫(kù)的監(jiān)控。對(duì)于Oracle數(shù)據(jù)庫(kù),與SQL Server監(jiān)控方式基本一樣,也是通過(guò)JDBC協(xié)議實(shí)現(xiàn)監(jiān)控,Oracle在UNIX、Linux等類Unix系統(tǒng)部署時(shí)使用SSH、Telnet協(xié)議監(jiān)控,Windows平臺(tái)用WMI協(xié)議,需要注意的是,數(shù)據(jù)庫(kù)賬戶不能是sys用戶,且數(shù)據(jù)庫(kù)用戶需要有connect, resource, select_catalog_role角色權(quán)限[14]。
3.2.2 監(jiān)控指標(biāo)及作用
(1)SQL Server CPU利用率。CPU性能直接影響到數(shù)據(jù)庫(kù)的運(yùn)行,通過(guò)對(duì)利用率的監(jiān)控可直觀及時(shí)了解數(shù)據(jù)庫(kù)的運(yùn)行是否存在CPU過(guò)小的瓶頸。系統(tǒng)運(yùn)行監(jiān)控管理平臺(tái)默認(rèn)的閾值:大于60%黃色警告,大于80%紅色嚴(yán)重警告。提醒管理員及時(shí)調(diào)整物理資源或性能指標(biāo),以防影響業(yè)務(wù)的運(yùn)轉(zhuǎn)。
(2)SQL Server內(nèi)存利用率。數(shù)據(jù)庫(kù)的利用率關(guān)系到數(shù)據(jù)的存取刪除速度,建議一般不超過(guò)70%,系統(tǒng)運(yùn)行監(jiān)控管理平臺(tái)默認(rèn)閾值:大于80%黃色警告,大于90%紅色嚴(yán)重警告。
高速緩存命中率,指高速緩存命中次數(shù)和查找次數(shù)的比率,直接影響數(shù)據(jù)的存取速率,該指標(biāo)是指所有Cache的命中率,該指標(biāo)的值越高越好,如果該指標(biāo)的值持續(xù)低于90%,就需要增加更多的內(nèi)存。系統(tǒng)運(yùn)行監(jiān)控管理平臺(tái)默認(rèn)閾值:小于95%黃色警告,小于90%紅色嚴(yán)重警告。
(3)PGA命中率。PGA即被一個(gè)進(jìn)程私有使用的緩存區(qū)域,主要包含單個(gè)服務(wù)器進(jìn)程或單個(gè)后臺(tái)進(jìn)程的數(shù)據(jù)和控制信息,命中率越高進(jìn)程或數(shù)據(jù)處理的速度就越快,過(guò)慢致使進(jìn)程運(yùn)行緩慢數(shù)據(jù)處理緩慢。系統(tǒng)運(yùn)行監(jiān)控管理平臺(tái)默認(rèn)閾值:小于95%黃色警告,小于90%紅色嚴(yán)重警告。
(4)當(dāng)前會(huì)話數(shù)??梢岳斫鉃檫B接數(shù)據(jù)庫(kù)的用戶數(shù),數(shù)據(jù)庫(kù)在同一時(shí)間內(nèi)承載的連接數(shù)是有限制的,回話過(guò)多增加資源消耗,嚴(yán)重會(huì)直接致使服務(wù)停止。系統(tǒng)運(yùn)行監(jiān)控管理平臺(tái)默認(rèn)閾值:大于200黃色警告,大于300紅色嚴(yán)重警告。及時(shí)提醒管理員進(jìn)行調(diào)整,預(yù)防服務(wù)停止。
(5)連接時(shí)間。應(yīng)用系統(tǒng)連接數(shù)據(jù)庫(kù)的時(shí)間長(zhǎng),一般在sql2000里面會(huì)出現(xiàn)連接超時(shí)的問(wèn)題,建議連接時(shí)長(zhǎng)不超過(guò)500 ms。系統(tǒng)運(yùn)行監(jiān)控管理平臺(tái)默認(rèn)閾值:大于500 ms黃色警告,大于1000 ms紅色嚴(yán)重警告。
(6)阻塞進(jìn)程數(shù)。阻塞進(jìn)程是指處于等待不處理狀態(tài)的進(jìn)程,數(shù)量過(guò)大會(huì)影響數(shù)據(jù)庫(kù)的進(jìn)程數(shù)據(jù)處理性能。系統(tǒng)運(yùn)行監(jiān)控管理平臺(tái)默認(rèn)閾值:大于5黃色警告,大于10紅色嚴(yán)重警告。
(7)共享池內(nèi)存使用率。共享池是在多處理器的計(jì)算機(jī)系統(tǒng)中,可以被不同中央處理器訪問(wèn)的大容量?jī)?nèi)存區(qū),所以內(nèi)存池直接影響數(shù)據(jù)的處理,該指標(biāo)的值應(yīng)保持在75%~90%,如果這個(gè)值太低,就浪費(fèi)內(nèi)存,如果太高,會(huì)使共享池外部的組件老化,如果SQL語(yǔ)句被再次執(zhí)行,則就會(huì)發(fā)生硬分析。系統(tǒng)運(yùn)行監(jiān)控管理平臺(tái)默認(rèn)的閾值:大于70%黃色警告,大于80%紅色嚴(yán)重警告。
(8)當(dāng)前打開(kāi)的游標(biāo)數(shù)。游標(biāo)是系統(tǒng)為用戶開(kāi)設(shè)的一個(gè)數(shù)據(jù)緩沖區(qū),主要是用于循環(huán)提取數(shù)據(jù)的一種機(jī)制,數(shù)量過(guò)多影響數(shù)據(jù)提取性能。系統(tǒng)運(yùn)行監(jiān)控管理平臺(tái)默認(rèn)閾值:大于1500黃色警告,大于2000紅色嚴(yán)重警告[15]。
3.3 中間件資源的監(jiān)控
3.3.1 監(jiān)控原理 以Apusic AS為例,Apusic AS部署在Windows平臺(tái)上,主機(jī)要開(kāi)啟WMI協(xié)議,并有administrator組用戶的賬戶權(quán)限及金蝶管理權(quán)限的賬戶,系統(tǒng)運(yùn)行監(jiān)控管理平臺(tái)通過(guò)內(nèi)置的插件獲取Apusic AS CPU利用率、Apusic AS內(nèi)存利用率等指標(biāo)的數(shù)據(jù),實(shí)現(xiàn)監(jiān)控。如通過(guò)內(nèi)部插件發(fā)起HTTP請(qǐng)求,依據(jù)URL響應(yīng)時(shí)間來(lái)判斷其可用性及性能;通過(guò)內(nèi)部插件查看端口可用性等。
3.3.2 監(jiān)控指標(biāo)及作用
(1)Apusic AS CPU利用率。CPU是設(shè)備的核心,是設(shè)備正常運(yùn)行的基礎(chǔ)。系統(tǒng)運(yùn)行監(jiān)控管理平臺(tái)現(xiàn)配置的閾值:大于90%黃色警告,大于95%紅色嚴(yán)重警告。
(2)Apusic AS 內(nèi)存利用率。當(dāng)前主機(jī)上Apusic AS占用的內(nèi)存利用率,若占用量過(guò)大超過(guò)90%,就可能成為系統(tǒng)運(yùn)行的瓶頸,需要管理員及時(shí)調(diào)整資源,以避免不必要的損失。系統(tǒng)運(yùn)行監(jiān)控管理平臺(tái)配置的閾值是大于90%黃色警告,大于95%紅色嚴(yán)重警告。
(3)JVM內(nèi)存利用率。JVM為java代碼提供運(yùn)行環(huán)境,器內(nèi)存利用率直接關(guān)系到Apusic AS的運(yùn)行效率,該指標(biāo)比較重要。目前系統(tǒng)運(yùn)行監(jiān)控管理平臺(tái)配置的閾值為大于90%黃色警告,大于95%紅色嚴(yán)重警告。
(4)JDBC連接池。java數(shù)據(jù)庫(kù)連接池,處理執(zhí)行java語(yǔ)句的API,若連接數(shù)過(guò)多會(huì)致使讀取數(shù)據(jù)慢,影響業(yè)務(wù)運(yùn)行。系統(tǒng)運(yùn)行監(jiān)控管理平臺(tái)現(xiàn)配置的閾值為活動(dòng)的連接數(shù)大于85%黃色警告,大于90%紅色嚴(yán)重警告。
(5)JMS,Java信息服務(wù)。消息系統(tǒng)中的Java應(yīng)用程序進(jìn)行消息交換,系統(tǒng)運(yùn)行監(jiān)控管理平臺(tái)判斷其是否可用,不可用則產(chǎn)生告警。
(6)WEB應(yīng)用服務(wù)。即網(wǎng)頁(yè)應(yīng)用服務(wù),系統(tǒng)運(yùn)行監(jiān)控管理平臺(tái)監(jiān)控其可用性,若不可用產(chǎn)生告警。
(7)響應(yīng)時(shí)間。響應(yīng)時(shí)間決定了打開(kāi)網(wǎng)頁(yè)的時(shí)間,時(shí)間越短越好,若過(guò)大會(huì)直接影響網(wǎng)頁(yè)的訪問(wèn)速度。系統(tǒng)運(yùn)行監(jiān)控管理平臺(tái)默認(rèn)閾值:大于500 ms黃色警告,大于1000 ms紅色嚴(yán)重警告。
(8)可用性。通過(guò)Ping命令來(lái)確認(rèn)該端口是否可用。
監(jiān)控平臺(tái)采用B/S架構(gòu),以門戶作為統(tǒng)一入口,方便功能擴(kuò)展,系統(tǒng)的易用性和界面具有直觀的展現(xiàn)和操作,包括監(jiān)控資源的可視化配置和可視化展現(xiàn)。經(jīng)過(guò)近半年時(shí)間的部署與配置,目前平臺(tái)已完成對(duì)42臺(tái)Windows服務(wù)器、8個(gè)Oracle數(shù)據(jù)庫(kù)、2個(gè)SQL Server數(shù)據(jù)庫(kù)、31個(gè)金蝶中間件、11個(gè)URL、26個(gè)PORT等資源的實(shí)時(shí)監(jiān)控,并通過(guò)系統(tǒng)運(yùn)行監(jiān)控管理平臺(tái)后臺(tái)算法對(duì)每個(gè)節(jié)點(diǎn)CPU內(nèi)存性能、宕機(jī)時(shí)長(zhǎng)等指標(biāo)進(jìn)行綜合計(jì)算,導(dǎo)出所關(guān)聯(lián)業(yè)務(wù)的健康度繁忙度,實(shí)現(xiàn)對(duì)整個(gè)業(yè)務(wù)的監(jiān)控,以保障33個(gè)應(yīng)用業(yè)務(wù)系統(tǒng)的運(yùn)維工作。
4 監(jiān)控管理的初步成效
4.1 提升了運(yùn)維監(jiān)控能力
應(yīng)用系統(tǒng)運(yùn)行情況的監(jiān)控管理轉(zhuǎn)變了系統(tǒng)運(yùn)維管理傳統(tǒng)的工作流程,它使應(yīng)用系統(tǒng)和IT資源的工作狀態(tài)明確地顯示出來(lái),在問(wèn)題發(fā)生時(shí)能夠快速定位影響業(yè)務(wù)的資源,提供針對(duì)問(wèn)題的故障分析,使應(yīng)用系統(tǒng)運(yùn)維技術(shù)支持過(guò)程更加標(biāo)準(zhǔn)化、規(guī)劃化,全新的系統(tǒng)運(yùn)維管理工作模式提升了運(yùn)維監(jiān)控能力。
4.2 全面提升系統(tǒng)運(yùn)維效率
系統(tǒng)運(yùn)行情況的監(jiān)控管理實(shí)現(xiàn)了技術(shù)、功能、服務(wù)3個(gè)方面的完整整合,保障了農(nóng)業(yè)信息系統(tǒng)運(yùn)行的穩(wěn)定性,提高了農(nóng)業(yè)應(yīng)用的利用率,極大地增強(qiáng)了系統(tǒng)故障響應(yīng)和處理能力,全面提升了單位信息技術(shù)管理效率和服務(wù)水平。
4.3 顯著提高科學(xué)運(yùn)維水平
系統(tǒng)運(yùn)行實(shí)時(shí)監(jiān)控獲得大量真實(shí)數(shù)據(jù),通過(guò)對(duì)數(shù)據(jù)信息的全面梳理,按照一定的方法進(jìn)行數(shù)據(jù)挖掘再利用,有助于發(fā)現(xiàn)應(yīng)用系統(tǒng)IT資源運(yùn)轉(zhuǎn)規(guī)律,向前延伸監(jiān)控預(yù)警范圍,進(jìn)一步強(qiáng)化監(jiān)控管理在系統(tǒng)運(yùn)維中的提前預(yù)警作用。
5 結(jié)語(yǔ)
系統(tǒng)運(yùn)行監(jiān)控從根本上改變了運(yùn)維工作模式,是運(yùn)維管理工作的一項(xiàng)創(chuàng)新發(fā)展。它將應(yīng)用系統(tǒng)和IT資源的工作狀態(tài)明確地顯示出來(lái),為系統(tǒng)運(yùn)維工作者提供了直觀、準(zhǔn)確的監(jiān)測(cè)數(shù)據(jù)信息,為應(yīng)用系統(tǒng)的運(yùn)行管理提供了更完備的管理手段,大幅提升應(yīng)用運(yùn)維管理水平,提高系統(tǒng)運(yùn)維效率。今后,隨著系統(tǒng)運(yùn)維的不斷進(jìn)步,監(jiān)控管理將成為不可或缺的工作手段。本研究從理論走向?qū)嵺`,為應(yīng)用系統(tǒng)運(yùn)行監(jiān)控的研究者及系統(tǒng)運(yùn)維工作者規(guī)范化、精細(xì)化管理及創(chuàng)新發(fā)展提供了有力參考。
參考文獻(xiàn)
[1] 崔長(zhǎng)鳴.開(kāi)發(fā)應(yīng)用ITIL理念的運(yùn)維系統(tǒng)[D].成都:電子科技大學(xué),2011.
[2] 郭巍.基于ITIL的電子政務(wù)IT運(yùn)維服務(wù)支持流程的設(shè)計(jì)與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2010.
[3] 林曉群.高校基于ITIL思想的IT服務(wù)管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].廣州:華南理工大學(xué),2010.
[4] 悠虎.從案例看ITIL的四個(gè)關(guān)鍵點(diǎn)[J].網(wǎng)絡(luò)與信息,2010(10).
[5] 嚴(yán)波.基于ITIL理論的應(yīng)用系統(tǒng)運(yùn)維部門IT環(huán)境監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2011:21-38.
[6] 陳曉華副部長(zhǎng)在全國(guó)農(nóng)業(yè)信息化工作會(huì)議上的講話[EB/OL].農(nóng)業(yè)部情況通報(bào)第33期.農(nóng)業(yè)部網(wǎng)站.2013.
[7] 金農(nóng)工程一期(農(nóng)業(yè)部本級(jí))項(xiàng)目順利通過(guò)初步驗(yàn)收[EB/OL].農(nóng)業(yè)部網(wǎng)站.2011.
[8] 楊毅.計(jì)算機(jī)系統(tǒng)運(yùn)行監(jiān)控初探[J].華南金融電腦,2007(4).
[9] 王萌,徐毅博.淺談現(xiàn)代應(yīng)用系統(tǒng)運(yùn)維部門信息系統(tǒng)集成應(yīng)用[J].現(xiàn)代經(jīng)濟(jì)信息,2011(10).
[10] 劉錦峰.B/S應(yīng)用系統(tǒng)運(yùn)維部門應(yīng)用系統(tǒng)的運(yùn)行監(jiān)控[J].中國(guó)傳媒科技,2009(6).
[11] 張永欣,.IT資源運(yùn)行監(jiān)控管理系統(tǒng)研究與開(kāi)發(fā)[J].濟(jì)南:山東大學(xué),2012.
[12] 閻偉,劉瑜,郝達(dá)睿.應(yīng)用系統(tǒng)運(yùn)行狀態(tài)監(jiān)管的設(shè)計(jì)與開(kāi)發(fā)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2012(5).
[13] 翁凌宇,柳陽(yáng),韓志偉.遠(yuǎn)程軟件運(yùn)行監(jiān)測(cè)的設(shè)計(jì)與實(shí)現(xiàn)[J].艦船電子工程,2008(6).
[14] 石國(guó)偉,信息運(yùn)維系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].西安:西安電子科技大學(xué),2010.
[15] 李志清,劉小萍.淺談信息一體化管理平臺(tái)[J].探求,2008(7).