趙旭
【摘 要】介紹了IT設(shè)備數(shù)據(jù)管理技術(shù)在通信系統(tǒng)中的應(yīng)用場景和數(shù)據(jù)分析方法,并對IT設(shè)備數(shù)據(jù)管理中設(shè)備性能數(shù)據(jù)采集、告警信息處理、消息處理引擎等方面進行具體分析,最后測試了IT設(shè)備數(shù)據(jù)管理技術(shù)的實用效果。提出將復(fù)雜的IT服務(wù)設(shè)備數(shù)據(jù)處理技術(shù)應(yīng)用到企業(yè)業(yè)務(wù)系統(tǒng)中,通過對IT服務(wù)設(shè)備數(shù)據(jù)的分析處理,能夠及時獲取最準確的故障定位信息,大幅提升了運維管理水平。
【關(guān)鍵詞】IT設(shè)備數(shù)據(jù)管理 輪詢 告警 消息處理引擎
中圖分類號:TP399 文獻標識碼:A 文章編號:1006-1010(2014)-03-
1 背景
伴隨著通信技術(shù)的飛速發(fā)展,2G、3G、4G網(wǎng)絡(luò)勢必并存共生,每個運營商都面臨業(yè)務(wù)支撐系統(tǒng)、內(nèi)部OA系統(tǒng)、用戶數(shù)據(jù)庫、大數(shù)據(jù)信息中心等諸多IT系統(tǒng)的復(fù)雜格局,每個上規(guī)模的企業(yè)也都面臨IT設(shè)備龐雜、亟需與云計算和大數(shù)據(jù)庫連接等情況。IT設(shè)施規(guī)模的強大與復(fù)雜,給信息系統(tǒng)的運行安全、故障定位、信息監(jiān)控帶來了全新的挑戰(zhàn),增加了運維管理的難度。
目前市場上初步具備對主機、網(wǎng)絡(luò)設(shè)備、數(shù)據(jù)庫和業(yè)務(wù)系統(tǒng)進行監(jiān)控管理的能力。但由于監(jiān)控工具眾多而分散,缺乏統(tǒng)一的監(jiān)控數(shù)據(jù)集中展示和管理平臺,導(dǎo)致現(xiàn)有的監(jiān)控手段不能很好地在運維流程中發(fā)揮更大的作用。同時,對于不同的IT服務(wù)設(shè)備產(chǎn)生的告警和性能信息的處理工作日益復(fù)雜,也給通信系統(tǒng)IT運維管理工作提出了新的難題。因此,有必要研究如何提高對IT設(shè)備數(shù)據(jù)處理能力,以切實有效提高IT管理及業(yè)務(wù)服務(wù)能力,確保信息系統(tǒng)的安全穩(wěn)定運行。
鑒于此,本文研究將IT服務(wù)設(shè)備數(shù)據(jù)處理技術(shù)與系統(tǒng)建設(shè)結(jié)合起來,通過分析IT服務(wù)設(shè)備數(shù)據(jù)的特點,提出將復(fù)雜的IT服務(wù)設(shè)備數(shù)據(jù)處理技術(shù)應(yīng)用到企業(yè)業(yè)務(wù)系統(tǒng)中,對企業(yè)的運維管理進行輔助處理,提高企業(yè)IT設(shè)備故障處理的效率,并降低企業(yè)運維管理的難度。
2 IT設(shè)備數(shù)據(jù)處理技術(shù)介紹
2.1 IT設(shè)備數(shù)據(jù)來源和類型的定義
這里IT服務(wù)設(shè)備數(shù)據(jù)的來源主要包含以下類型:
(1)主機設(shè)備,包含小型機、PC服務(wù)器、VM、LPAR等;
(2)軟件實例,包含操作系統(tǒng)類、數(shù)據(jù)庫類、中間件類、用軟件類等;
(3)網(wǎng)絡(luò)安全設(shè)備,包含交換機設(shè)備、路由器設(shè)備、漏洞掃描設(shè)備、審計設(shè)備、入侵檢測設(shè)備、VPN、防火墻設(shè)備、負載均衡等;
(4)存儲設(shè)備,包含磁盤陣列、帶庫、光纖交換機等;
(5)環(huán)境設(shè)備,包含UPS、空調(diào)、機柜、配電柜等;
(6)業(yè)務(wù)服務(wù)類,包含基礎(chǔ)的業(yè)務(wù)系統(tǒng)等。
以上這些設(shè)備在運行當中,最為重要的是性能數(shù)據(jù)和告警數(shù)據(jù)。而這些數(shù)據(jù)一般由不同的監(jiān)控工具獲取,各自獨立存在,數(shù)據(jù)之間缺乏有效關(guān)聯(lián),對IT設(shè)備的故障排查、問題定位造成難題。
2.2 IT設(shè)備數(shù)據(jù)處理的主要方法
(1)列表法
列表法是記錄和處理實驗數(shù)據(jù)的基本方法,也是其他實驗數(shù)據(jù)處理方法的基礎(chǔ)。將實驗數(shù)據(jù)列成適當?shù)谋砀瘢梢郧宄胤从吵鲇嘘P(guān)物理量之間的一一對應(yīng)關(guān)系,既有助于及時發(fā)現(xiàn)和檢查實驗中存在的問題,判斷測量結(jié)果的合理性;又有助于分析實驗結(jié)果,找出有關(guān)物理量之間存在的規(guī)律性。一個好的數(shù)據(jù)表可以提高數(shù)據(jù)處理的效率,減少或避免錯誤。
(2)作圖法
利用實驗數(shù)據(jù)將實驗中物理量之間的函數(shù)關(guān)系用幾何圖線表示出來,這種方法稱為作圖法。它是一種被廣泛用來處理實驗數(shù)據(jù)的方法,不僅能簡明、直觀、形象地顯示物理量之間的關(guān)系,而且有助于研究物理量之間的變化規(guī)律,找出定量的函數(shù)關(guān)系或得到所求的參量。同時,所作的圖線對測量數(shù)據(jù)可起到取平均的作用,從而減小隨機誤差的影響。此外,還可以作出儀器的校正曲線,幫助發(fā)現(xiàn)實驗中的某些測量錯誤等。因此,作圖法不僅是一個數(shù)據(jù)處理方法,而且是實驗方法中不可分割的部分。
(3)逐差法
逐差法是物理實驗中處理數(shù)據(jù)常用的一種方法。凡是自變量作等量變化而引起應(yīng)變量也作等量變化時,便可采用逐差法求出應(yīng)變量的平均變化值。該方法計算簡便,特別是在檢查數(shù)據(jù)時可隨測隨檢,及時發(fā)現(xiàn)差錯和數(shù)據(jù)規(guī)律。更重要的是可以充分地利用已測數(shù)據(jù),并具有對數(shù)據(jù)取平均的效果。還可繞過一些具有定值的求知量而求出所需要的實驗結(jié)果,以減小系統(tǒng)誤差和擴大測量范圍。
(4)最小二乘法
把實驗的結(jié)果畫成圖表固然可以表示出物理規(guī)律,但是圖表的表示往往不如用函數(shù)表示來得明確和方便,所以從實驗的數(shù)據(jù)求經(jīng)驗方程也稱為方程的回歸問題,變量之間的相關(guān)函數(shù)關(guān)系稱為回歸方程。
3 IT設(shè)備數(shù)據(jù)處理系統(tǒng)的總體描述
3.1 IT設(shè)備性能數(shù)據(jù)的處理
IT設(shè)備性能數(shù)據(jù)的采集和處理是IT設(shè)備管理的重要環(huán)節(jié)。IT設(shè)備性能數(shù)據(jù)處理架構(gòu)如圖1所示。首先采集層根據(jù)性能數(shù)據(jù)采集的需求(數(shù)據(jù)量和采集周期),發(fā)出數(shù)據(jù)采集的請求,采用輪詢服務(wù)和參數(shù)拼接對底層數(shù)據(jù)源進行性能數(shù)據(jù)采集。采集結(jié)果通過接口適配器傳輸給處理單元,對采集的性能數(shù)據(jù)進行基本的解析和分類。性能數(shù)據(jù)的采集和分類是周期輪詢式進行的,每次采集的數(shù)據(jù)要經(jīng)過匯總、歸檔,分類存入數(shù)據(jù)庫中。最后,根據(jù)數(shù)據(jù)庫中存儲的性能數(shù)據(jù),采用數(shù)據(jù)分析的各種方法對這些數(shù)據(jù)進行處理,達到監(jiān)控和分析IT設(shè)備性能的作用。
(1)輪詢采集
性能數(shù)據(jù)的輪詢采集方案采用條件判斷的方法,當滿足輪詢公式條件時則采集,不滿足時則等待下一次判斷。
輪詢公式:指標采集頻率+指標最后采集時間VS當前日期
判斷頻率:1分鐘
◆大于:不處理,等待下一次判斷
◆等于:發(fā)出采集請求
◆小于:發(fā)出采集請求
示例:
指標:CPU使用率endprint
采集頻率:5分鐘
最后采集時間:10:01
5+10:01>10:05 等待
5+10:01=10:06 發(fā)出采集請求
5+10:01<10:08 發(fā)出采集請求
(2)數(shù)據(jù)量
IT性能數(shù)據(jù)的采集量很大,估算其數(shù)據(jù)量可以大致了解需要的數(shù)據(jù)資源。
◆數(shù)據(jù)數(shù)量
IT設(shè)備性能數(shù)據(jù)約35個分類,共6.2萬個性能指標,按每5分鐘采集一次數(shù)據(jù),則每年數(shù)據(jù)數(shù)量為:
6.2萬*12次/小時*24小時/天*365天/年≈65億/年
按上限浮動20%計,則:
65億*2年*120%=156億/兩年
◆數(shù)據(jù)大小
按每條性能數(shù)據(jù)的大小為50Byte計,則:
156億*50Byte/條=7800億Byte≈726GByte
◆帶寬要求
每5分鐘取一次數(shù)據(jù),則:
6.2萬÷(60秒/分*5分)*50Byte=10333Byte≈
10KByte/秒
現(xiàn)有網(wǎng)絡(luò)與硬盤帶寬完全可以滿足此速度要求。
(3)歸檔存儲
鑒于當前數(shù)據(jù)量巨大,且早期的明細數(shù)據(jù)對系統(tǒng)本身并無實際意義的情況,系統(tǒng)設(shè)計為只存儲最近3個月的活躍數(shù)據(jù)到數(shù)據(jù)庫,其他18個月的明細數(shù)據(jù)采用文件存儲,供后續(xù)使用。具體的存儲方案設(shè)計如下:
◆活躍數(shù)據(jù)存放在單一表空間內(nèi);
◆明細數(shù)據(jù)按月存放,共3個月的數(shù)據(jù)表;
◆每個月末刪除第3個月的數(shù)據(jù)表,同時新建下個月的空白表;
◆獨立表存放性能指標最近2小時的明細數(shù)據(jù):6.2萬*12*2=148萬;
◆獨立表存放性能指標最近48小時的小時平均數(shù)據(jù):6.2萬*48=297萬;
◆獨立表存放性能指標天的平均數(shù)據(jù):6.2萬*365日/年*2=4500萬;
◆每日凌晨1點計算上一天平均數(shù)據(jù);
◆獨立表存放性能指標周的平均數(shù)據(jù):6.2萬*4*12*2=595萬;
◆每周一凌晨3點計算上一周平均數(shù)據(jù);
◆獨立表存放性能指標月的平均數(shù)據(jù):6.2萬*12*2=148萬條;
◆每月的第一天凌晨4點計算上一個月的平均數(shù)據(jù)。
3.2 IT設(shè)備告警數(shù)據(jù)的處理
IT設(shè)備性能數(shù)據(jù)的監(jiān)控除了為IT設(shè)備運行情況的分析提供數(shù)據(jù)基礎(chǔ)之外,最重要的目的就是能夠?qū)崟r監(jiān)測設(shè)備運行,在問題出現(xiàn)時第一時間發(fā)現(xiàn)故障。通信系統(tǒng)中IT設(shè)備的故障處理是以分鐘甚至秒來計算的,能夠第一時間響應(yīng)設(shè)備故障并迅速作出應(yīng)對,是成熟IT設(shè)備體系所必備的。該方案中設(shè)計的告警系統(tǒng)架構(gòu)如圖2所示。接收層持續(xù)對設(shè)備性能采集的數(shù)據(jù)進行解析和簡單判別,當發(fā)現(xiàn)采集過程中出現(xiàn)了超出閥值的數(shù)據(jù)時,接收層啟動級別映射,對告警級別進行初步判定,并通知持久層啟動相應(yīng)的告警流程。告警流程將告警信息與數(shù)據(jù)庫比對,形成最終告警信息并通過展示層顯示出來。同時,將該次告警信息的備份存入數(shù)據(jù)庫,作為今后告警信息統(tǒng)計的基礎(chǔ)。
(1)級別映射
IT設(shè)備監(jiān)控管理系統(tǒng)的告警信息一般分為四個級別:嚴重、重要、一般、提醒。級別映射環(huán)節(jié)將分別收集整理底層監(jiān)控工作的所有級別告警,并在系統(tǒng)的告警級別映射模塊中搭建系統(tǒng)與底層工具的告警級別映射關(guān)系。該環(huán)節(jié)是獲取原始告警信息后的第一個業(yè)務(wù)處理環(huán)節(jié)。
(2)告警過濾
◆系統(tǒng)支持對對象或?qū)ο蠼M的過濾,比如定制單獨針對小型機或針對小型機、PC機一起的過濾規(guī)則;
◆支持對IP、周期、級別、類型、業(yè)務(wù)系統(tǒng)、采集工具等的過濾;
◆支持對關(guān)鍵字的過濾;
◆支持對不同維度的交集或并集的聯(lián)合過濾。
(3)次數(shù)過濾
◆鑒于底層采集工具中,告警次數(shù)過濾的算法參差不齊,初步確定在本系統(tǒng)中搭建一層次數(shù)過濾機制;
◆提供告警次數(shù)過濾的配置功能,一旦設(shè)定了次數(shù),需要同類型的告警連續(xù)達到此數(shù)字才將告警拋出,否則將丟棄。
(4)壓縮
◆告警數(shù)據(jù)壓縮方式(見表1)
表1 告警數(shù)據(jù)壓縮方式
序號 原告警級別 新告警級別 工具處理方式
1 某級別 相同級別 (1)告警狀態(tài):new→update;
(2)告警ID不變
2 高級別 低級別 (1)高級別告警會發(fā)出清除提示;
(2)在下一個采集頻率,如低級別告警還存在的話,才會拋出
3 低級別 高級別 (1)系統(tǒng)會將告警級別升級,發(fā)出update提示;
(2)告警ID不變
◆對于來自不同的底層監(jiān)控工具的告警數(shù)據(jù),同樣使用上述壓縮方式,并需要分別確認:級別一致,則監(jiān)控管理不需再做告警壓縮策略;級別不一致,則需考慮棄用Tivoli(IBM的基礎(chǔ)設(shè)施管理軟件)內(nèi)部的壓縮機制,重新實現(xiàn)一套壓縮策略,當然不排除根據(jù)個別情況單獨補充。
(5)關(guān)聯(lián)策略
◆對象指標關(guān)聯(lián)
系統(tǒng)提供源指標和目標指標的配置功能。如在某時間段內(nèi),A對象的A1指標和B對象的B1指標均產(chǎn)生告警信息,而兩個指標又存在關(guān)聯(lián)關(guān)系,則報出A1指標告警,同時在告警內(nèi)容中反映B1指標受關(guān)聯(lián)的提示。
◆類型指標關(guān)聯(lián)
在對象指標關(guān)聯(lián)的基礎(chǔ)上,提供根據(jù)主機或業(yè)務(wù)系統(tǒng)泛化功能,即:A對象所屬類型中的A1指標對同屬一臺主機或同屬一個業(yè)務(wù)系統(tǒng)內(nèi)的B對象所屬類型中B1指標存在關(guān)聯(lián)關(guān)系。
(6)告警處理
◆自動處理endprint
支持對不同對象、級別、周期、類型、業(yè)務(wù)系統(tǒng)、采集工具等的并集或交集的處理策略。沒有被處理策略覆蓋到的告警,系統(tǒng)不做處理,可以采用手工處理方式。
◆手動處理
系統(tǒng)提供手工處理的功能。
(7)告警清除
◆自動清除(建議)
系統(tǒng)根據(jù)底層工具傳遞過來的處理標識,做自動清除工作。
◆人工清除
對于人工清除系統(tǒng)有嚴格的限制,在這三種情況之外的才可以手動清除:告警級別為嚴重或重要級別的不能清除;已轉(zhuǎn)工單的告警不能清除;告警單中‘解決方案和‘處理意見為空時,不能清除。
3.3 消息處理引擎
消息處理引擎實質(zhì)上是一個在后臺專門負責處理各種消息的系統(tǒng),如圖3所示。它可以根據(jù)接收到的消息(輪詢指令、告警處理、系統(tǒng)查詢等)按照事先定義的事務(wù)流程(即規(guī)則)進行處理。因此,消息處理引擎包括兩大部分內(nèi)容:一是實時監(jiān)督檢測是否有需要處理的流程;二是按照配置好的規(guī)則處理各類消息。
該IT設(shè)備處理的方案中,采用可編程模型配置消息處理規(guī)則,并形成模塊化結(jié)構(gòu),方便按需搭建各種規(guī)則,其中包括:自我監(jiān)控支持、開發(fā)多線程支持、任務(wù)調(diào)度支持、訪問認證支持、失敗恢復(fù)支持、斷電恢復(fù)支持、靈活部署安裝。
按照消息處理引擎的配置規(guī)則,當整個IT設(shè)備系統(tǒng)出現(xiàn)消息處理請求時,消息處理引擎將處理請求分為自動處理和手動處理。自動處理的在IT設(shè)備管理軟件內(nèi)部完成;需要手動處理的,則會按照指定的規(guī)則分配給相應(yīng)的關(guān)鍵人。具體到實際,表現(xiàn)為能夠及時通知事先設(shè)定好的關(guān)鍵人,并準備好消息處理界面,供關(guān)鍵人作出快速響應(yīng)。
4 測試與分析
針對IT設(shè)備管理系統(tǒng)的測試通常采用隨機抽查的方式,人為造成某個設(shè)備“故障”,檢測管理系統(tǒng)的靈敏度和反饋方式?;诖耍x擇凌晨話務(wù)量最少的時段對某地機房的三個隨機設(shè)備進行人為“誤操作”,測試管理系統(tǒng)。
“誤操作”后,告警信息在一分鐘后及時發(fā)到了相關(guān)關(guān)鍵人的手機上。這其中包括:
(1)輪詢監(jiān)控發(fā)現(xiàn)設(shè)備性能指標異常并定位和上報;
(2)告警系統(tǒng)及時響應(yīng),判定為重要告警,生成告警信息;
(3)消息處理引擎按照配置規(guī)則,將告警信息及時通報給關(guān)鍵人,并建立告警檔案以備查詢。
測試結(jié)果表明,該IT設(shè)備管理系統(tǒng)能夠有效監(jiān)控IT設(shè)備性能并及時完成告警指示。圖4為測試中的系統(tǒng)拓撲圖:
5 總結(jié)與展望
本文主要分析和論述了IT服務(wù)設(shè)備的性能數(shù)據(jù)和告警數(shù)據(jù)的處理方法及基本方案。通過引入先進的IT設(shè)備數(shù)據(jù)處理技術(shù),在IT運維管理上對問題定位和及時響應(yīng)起到?jīng)Q定性作用,大幅提高了整個運維工作效率,提升了運維管理水平,為通信設(shè)備的信息化管理起到了積極促進的作用。
但是,由于IT設(shè)備的復(fù)雜性以及底層監(jiān)控工具的多樣性,目前IT服務(wù)設(shè)備數(shù)據(jù)處理技術(shù)的公用性和通用性還存在著一定的缺陷,如跨平臺監(jiān)控工具之間難以達到互聯(lián)互通、不同平臺監(jiān)控信息處理流程差異導(dǎo)致某些信息不能及時反饋等,這些都是IT設(shè)備數(shù)據(jù)處理技術(shù)有待提升和優(yōu)化的方面。后續(xù)建議業(yè)界考慮對IT服務(wù)設(shè)備的屬性數(shù)據(jù)進行進一步研究,一方面,合并、優(yōu)化數(shù)據(jù)類型;另一方面,考慮性能數(shù)據(jù)、告警數(shù)據(jù)格式和流程的跨平臺整合,為IT運維管理水平的提高起到積極的促進作用。
參考文獻:
[1] 陸冰芳. 虛擬化環(huán)境下的IT資源監(jiān)控與性能提升分析[J]. 廣西電業(yè), 2013(10): 82-88.
[2] 劉桂開,高蕾. 基于彈性定額值的分組輪詢調(diào)度算法[J]. 計算機科學(xué), 2013(8): 72-78.
[3] 王偉,婁一艇. 基于實時數(shù)據(jù)的統(tǒng)一告警平臺的研究[J]. 浙江電力, 2013(10): 66-69.
[4] 呂銘剛,呂佳珩,王瑋. 關(guān)于調(diào)控系統(tǒng)告警信息優(yōu)化的幾點研究[J]. 電子世界, 2013(20): 243-244.
[5] 黃建設(shè). 基于移動互聯(lián)網(wǎng)時代的IT系統(tǒng)與維護實訓(xùn)室的改建方案[J]. 福建電腦, 2013(9): 184-185.★endprint
支持對不同對象、級別、周期、類型、業(yè)務(wù)系統(tǒng)、采集工具等的并集或交集的處理策略。沒有被處理策略覆蓋到的告警,系統(tǒng)不做處理,可以采用手工處理方式。
◆手動處理
系統(tǒng)提供手工處理的功能。
(7)告警清除
◆自動清除(建議)
系統(tǒng)根據(jù)底層工具傳遞過來的處理標識,做自動清除工作。
◆人工清除
對于人工清除系統(tǒng)有嚴格的限制,在這三種情況之外的才可以手動清除:告警級別為嚴重或重要級別的不能清除;已轉(zhuǎn)工單的告警不能清除;告警單中‘解決方案和‘處理意見為空時,不能清除。
3.3 消息處理引擎
消息處理引擎實質(zhì)上是一個在后臺專門負責處理各種消息的系統(tǒng),如圖3所示。它可以根據(jù)接收到的消息(輪詢指令、告警處理、系統(tǒng)查詢等)按照事先定義的事務(wù)流程(即規(guī)則)進行處理。因此,消息處理引擎包括兩大部分內(nèi)容:一是實時監(jiān)督檢測是否有需要處理的流程;二是按照配置好的規(guī)則處理各類消息。
該IT設(shè)備處理的方案中,采用可編程模型配置消息處理規(guī)則,并形成模塊化結(jié)構(gòu),方便按需搭建各種規(guī)則,其中包括:自我監(jiān)控支持、開發(fā)多線程支持、任務(wù)調(diào)度支持、訪問認證支持、失敗恢復(fù)支持、斷電恢復(fù)支持、靈活部署安裝。
按照消息處理引擎的配置規(guī)則,當整個IT設(shè)備系統(tǒng)出現(xiàn)消息處理請求時,消息處理引擎將處理請求分為自動處理和手動處理。自動處理的在IT設(shè)備管理軟件內(nèi)部完成;需要手動處理的,則會按照指定的規(guī)則分配給相應(yīng)的關(guān)鍵人。具體到實際,表現(xiàn)為能夠及時通知事先設(shè)定好的關(guān)鍵人,并準備好消息處理界面,供關(guān)鍵人作出快速響應(yīng)。
4 測試與分析
針對IT設(shè)備管理系統(tǒng)的測試通常采用隨機抽查的方式,人為造成某個設(shè)備“故障”,檢測管理系統(tǒng)的靈敏度和反饋方式。基于此,選擇凌晨話務(wù)量最少的時段對某地機房的三個隨機設(shè)備進行人為“誤操作”,測試管理系統(tǒng)。
“誤操作”后,告警信息在一分鐘后及時發(fā)到了相關(guān)關(guān)鍵人的手機上。這其中包括:
(1)輪詢監(jiān)控發(fā)現(xiàn)設(shè)備性能指標異常并定位和上報;
(2)告警系統(tǒng)及時響應(yīng),判定為重要告警,生成告警信息;
(3)消息處理引擎按照配置規(guī)則,將告警信息及時通報給關(guān)鍵人,并建立告警檔案以備查詢。
測試結(jié)果表明,該IT設(shè)備管理系統(tǒng)能夠有效監(jiān)控IT設(shè)備性能并及時完成告警指示。圖4為測試中的系統(tǒng)拓撲圖:
5 總結(jié)與展望
本文主要分析和論述了IT服務(wù)設(shè)備的性能數(shù)據(jù)和告警數(shù)據(jù)的處理方法及基本方案。通過引入先進的IT設(shè)備數(shù)據(jù)處理技術(shù),在IT運維管理上對問題定位和及時響應(yīng)起到?jīng)Q定性作用,大幅提高了整個運維工作效率,提升了運維管理水平,為通信設(shè)備的信息化管理起到了積極促進的作用。
但是,由于IT設(shè)備的復(fù)雜性以及底層監(jiān)控工具的多樣性,目前IT服務(wù)設(shè)備數(shù)據(jù)處理技術(shù)的公用性和通用性還存在著一定的缺陷,如跨平臺監(jiān)控工具之間難以達到互聯(lián)互通、不同平臺監(jiān)控信息處理流程差異導(dǎo)致某些信息不能及時反饋等,這些都是IT設(shè)備數(shù)據(jù)處理技術(shù)有待提升和優(yōu)化的方面。后續(xù)建議業(yè)界考慮對IT服務(wù)設(shè)備的屬性數(shù)據(jù)進行進一步研究,一方面,合并、優(yōu)化數(shù)據(jù)類型;另一方面,考慮性能數(shù)據(jù)、告警數(shù)據(jù)格式和流程的跨平臺整合,為IT運維管理水平的提高起到積極的促進作用。
參考文獻:
[1] 陸冰芳. 虛擬化環(huán)境下的IT資源監(jiān)控與性能提升分析[J]. 廣西電業(yè), 2013(10): 82-88.
[2] 劉桂開,高蕾. 基于彈性定額值的分組輪詢調(diào)度算法[J]. 計算機科學(xué), 2013(8): 72-78.
[3] 王偉,婁一艇. 基于實時數(shù)據(jù)的統(tǒng)一告警平臺的研究[J]. 浙江電力, 2013(10): 66-69.
[4] 呂銘剛,呂佳珩,王瑋. 關(guān)于調(diào)控系統(tǒng)告警信息優(yōu)化的幾點研究[J]. 電子世界, 2013(20): 243-244.
[5] 黃建設(shè). 基于移動互聯(lián)網(wǎng)時代的IT系統(tǒng)與維護實訓(xùn)室的改建方案[J]. 福建電腦, 2013(9): 184-185.★endprint
支持對不同對象、級別、周期、類型、業(yè)務(wù)系統(tǒng)、采集工具等的并集或交集的處理策略。沒有被處理策略覆蓋到的告警,系統(tǒng)不做處理,可以采用手工處理方式。
◆手動處理
系統(tǒng)提供手工處理的功能。
(7)告警清除
◆自動清除(建議)
系統(tǒng)根據(jù)底層工具傳遞過來的處理標識,做自動清除工作。
◆人工清除
對于人工清除系統(tǒng)有嚴格的限制,在這三種情況之外的才可以手動清除:告警級別為嚴重或重要級別的不能清除;已轉(zhuǎn)工單的告警不能清除;告警單中‘解決方案和‘處理意見為空時,不能清除。
3.3 消息處理引擎
消息處理引擎實質(zhì)上是一個在后臺專門負責處理各種消息的系統(tǒng),如圖3所示。它可以根據(jù)接收到的消息(輪詢指令、告警處理、系統(tǒng)查詢等)按照事先定義的事務(wù)流程(即規(guī)則)進行處理。因此,消息處理引擎包括兩大部分內(nèi)容:一是實時監(jiān)督檢測是否有需要處理的流程;二是按照配置好的規(guī)則處理各類消息。
該IT設(shè)備處理的方案中,采用可編程模型配置消息處理規(guī)則,并形成模塊化結(jié)構(gòu),方便按需搭建各種規(guī)則,其中包括:自我監(jiān)控支持、開發(fā)多線程支持、任務(wù)調(diào)度支持、訪問認證支持、失敗恢復(fù)支持、斷電恢復(fù)支持、靈活部署安裝。
按照消息處理引擎的配置規(guī)則,當整個IT設(shè)備系統(tǒng)出現(xiàn)消息處理請求時,消息處理引擎將處理請求分為自動處理和手動處理。自動處理的在IT設(shè)備管理軟件內(nèi)部完成;需要手動處理的,則會按照指定的規(guī)則分配給相應(yīng)的關(guān)鍵人。具體到實際,表現(xiàn)為能夠及時通知事先設(shè)定好的關(guān)鍵人,并準備好消息處理界面,供關(guān)鍵人作出快速響應(yīng)。
4 測試與分析
針對IT設(shè)備管理系統(tǒng)的測試通常采用隨機抽查的方式,人為造成某個設(shè)備“故障”,檢測管理系統(tǒng)的靈敏度和反饋方式。基于此,選擇凌晨話務(wù)量最少的時段對某地機房的三個隨機設(shè)備進行人為“誤操作”,測試管理系統(tǒng)。
“誤操作”后,告警信息在一分鐘后及時發(fā)到了相關(guān)關(guān)鍵人的手機上。這其中包括:
(1)輪詢監(jiān)控發(fā)現(xiàn)設(shè)備性能指標異常并定位和上報;
(2)告警系統(tǒng)及時響應(yīng),判定為重要告警,生成告警信息;
(3)消息處理引擎按照配置規(guī)則,將告警信息及時通報給關(guān)鍵人,并建立告警檔案以備查詢。
測試結(jié)果表明,該IT設(shè)備管理系統(tǒng)能夠有效監(jiān)控IT設(shè)備性能并及時完成告警指示。圖4為測試中的系統(tǒng)拓撲圖:
5 總結(jié)與展望
本文主要分析和論述了IT服務(wù)設(shè)備的性能數(shù)據(jù)和告警數(shù)據(jù)的處理方法及基本方案。通過引入先進的IT設(shè)備數(shù)據(jù)處理技術(shù),在IT運維管理上對問題定位和及時響應(yīng)起到?jīng)Q定性作用,大幅提高了整個運維工作效率,提升了運維管理水平,為通信設(shè)備的信息化管理起到了積極促進的作用。
但是,由于IT設(shè)備的復(fù)雜性以及底層監(jiān)控工具的多樣性,目前IT服務(wù)設(shè)備數(shù)據(jù)處理技術(shù)的公用性和通用性還存在著一定的缺陷,如跨平臺監(jiān)控工具之間難以達到互聯(lián)互通、不同平臺監(jiān)控信息處理流程差異導(dǎo)致某些信息不能及時反饋等,這些都是IT設(shè)備數(shù)據(jù)處理技術(shù)有待提升和優(yōu)化的方面。后續(xù)建議業(yè)界考慮對IT服務(wù)設(shè)備的屬性數(shù)據(jù)進行進一步研究,一方面,合并、優(yōu)化數(shù)據(jù)類型;另一方面,考慮性能數(shù)據(jù)、告警數(shù)據(jù)格式和流程的跨平臺整合,為IT運維管理水平的提高起到積極的促進作用。
參考文獻:
[1] 陸冰芳. 虛擬化環(huán)境下的IT資源監(jiān)控與性能提升分析[J]. 廣西電業(yè), 2013(10): 82-88.
[2] 劉桂開,高蕾. 基于彈性定額值的分組輪詢調(diào)度算法[J]. 計算機科學(xué), 2013(8): 72-78.
[3] 王偉,婁一艇. 基于實時數(shù)據(jù)的統(tǒng)一告警平臺的研究[J]. 浙江電力, 2013(10): 66-69.
[4] 呂銘剛,呂佳珩,王瑋. 關(guān)于調(diào)控系統(tǒng)告警信息優(yōu)化的幾點研究[J]. 電子世界, 2013(20): 243-244.
[5] 黃建設(shè). 基于移動互聯(lián)網(wǎng)時代的IT系統(tǒng)與維護實訓(xùn)室的改建方案[J]. 福建電腦, 2013(9): 184-185.★endprint