谷 良,段 婕,段 敬(國(guó)網(wǎng)山西省電力公司信息通信分公司,山西 太原 030001)
關(guān)于主機(jī)監(jiān)控中動(dòng)態(tài)基線告警管理的研究與實(shí)現(xiàn)
谷 良,段 婕,段 敬
(國(guó)網(wǎng)山西省電力公司信息通信分公司,山西 太原 030001)
主機(jī)監(jiān)控中動(dòng)態(tài)基線告警管理的研究與實(shí)現(xiàn)以企業(yè)綜合網(wǎng)絡(luò)管理平臺(tái)為基礎(chǔ),通過(guò)在告警管理過(guò)程中應(yīng)用概率及概率分布算法,實(shí)現(xiàn)了利用動(dòng)態(tài)基線管理的方法監(jiān)控服務(wù)器、存儲(chǔ)、路由器等設(shè)備的CPU性能參數(shù)。在完成針對(duì)國(guó)網(wǎng)山西省電力公司變電站生產(chǎn)視頻監(jiān)控系統(tǒng)的服務(wù)器、中間件等設(shè)備的測(cè)試和驗(yàn)證后,該功能已經(jīng)成功部署在國(guó)網(wǎng)山西省電力網(wǎng)絡(luò)信息智能監(jiān)控平臺(tái)系統(tǒng)中。
主機(jī)監(jiān)控;動(dòng)態(tài)基線;高斯過(guò)程
大數(shù)據(jù)、云計(jì)算等[1,2]技術(shù)憑借其優(yōu)秀的數(shù)據(jù)處理能力和高可靠性,成為了企業(yè)信息化改革的大方向。構(gòu)建屬于自己的云平臺(tái)成了現(xiàn)代企業(yè)邁入新型云計(jì)算商業(yè)模型的必要條件。面對(duì)機(jī)房服務(wù)器、存儲(chǔ)設(shè)備數(shù)量的日益增長(zhǎng),如何使設(shè)備安全穩(wěn)定運(yùn)行,降低故障發(fā)生概率,使各類(lèi)主機(jī)高效為企業(yè)服務(wù)成了一個(gè)亟待解決的問(wèn)題。目前,各類(lèi)管理平臺(tái)和監(jiān)控平臺(tái)也隨之進(jìn)入了快速發(fā)展的階段,但是監(jiān)控主機(jī)、中間件和存儲(chǔ)的產(chǎn)品還較少。如何既能不占用系統(tǒng)資源,又能實(shí)時(shí)進(jìn)行監(jiān)控,快速生成告警內(nèi)容成為了主機(jī)設(shè)備管理和監(jiān)控追求的目標(biāo)。為此,本文在公司綜合網(wǎng)絡(luò)管理平臺(tái)上,通過(guò)研究動(dòng)態(tài)基線[3]告警管理的算法,將接入主機(jī)、中間件和存儲(chǔ)的實(shí)時(shí)性能數(shù)據(jù)進(jìn)行處理并生成告警內(nèi)容,成功實(shí)現(xiàn)了關(guān)于主機(jī)監(jiān)控的功能。
基線(base line)即數(shù)據(jù)變化的基準(zhǔn)線,描述了一個(gè)指標(biāo)的正常波動(dòng)范圍,這個(gè)范圍不同于傳統(tǒng)的閾值門(mén)限,傳統(tǒng)的閾值門(mén)限[4]如圖1所示。
圖1 傳統(tǒng)閾值的基線管理
它是根據(jù)設(shè)備運(yùn)行過(guò)程記錄的參數(shù)值給出一個(gè)固定的參考值,在這個(gè)值之上設(shè)定一個(gè)容忍范圍產(chǎn)生相應(yīng)的告警信息。這個(gè)值理論上是不變的,除非人為進(jìn)行調(diào)整。接下來(lái)有研究對(duì)固定不變的閾值門(mén)限作了改進(jìn),改進(jìn)的基線告警管理示意圖如圖2所示。它是在傳統(tǒng)閾值的基礎(chǔ)上,將差異較為明顯的時(shí)候段分別計(jì)算了閾值,但是基線是隨著時(shí)間在不斷變化的,而且這個(gè)變化是連續(xù)的,尤其對(duì)設(shè)備的性能進(jìn)行監(jiān)控時(shí)。因?yàn)樵O(shè)備的運(yùn)行指標(biāo)通常和人的活動(dòng)掛鉤,而人的活動(dòng)是隨著時(shí)間在連續(xù)的有規(guī)律的進(jìn)行變化,如上午剛開(kāi)始工作時(shí)業(yè)務(wù)的仿問(wèn)量有較大地提升,隨著時(shí)間的推移它會(huì)逐漸降低;下午剛開(kāi)始工作時(shí)業(yè)務(wù)的訪問(wèn)量又有較為明顯的提升,夜間的活動(dòng)數(shù)趨近于零。這些都反應(yīng)出了某些指標(biāo)是隨著時(shí)間在連續(xù)變化的,如果應(yīng)用閾值來(lái)作為基線值進(jìn)行告警管理,那么夜間CPU和內(nèi)存應(yīng)用率異常,但還沒(méi)有超過(guò)白天的閾值的話,這個(gè)故障就會(huì)隱藏起來(lái),難以被運(yùn)維人員察覺(jué),因此不適合用傳統(tǒng)的閾值門(mén)限來(lái)判斷設(shè)備是否出現(xiàn)了問(wèn)題。本研究的動(dòng)態(tài)基線管理如圖3所示,它的特點(diǎn)是實(shí)時(shí)采集各類(lèi)被監(jiān)控設(shè)備的性能數(shù)據(jù),對(duì)統(tǒng)計(jì)周期內(nèi)的數(shù)據(jù)進(jìn)行概率分布計(jì)算[5],計(jì)算出未來(lái)性能數(shù)據(jù)的參照值,再輔以相應(yīng)的容忍度,獲得24小時(shí)的正常指標(biāo)值范圍[6]。
圖2 改進(jìn)后的基線管理
圖3 動(dòng)態(tài)的基線管理
動(dòng)態(tài)基線管理算法主要包括三方面的內(nèi)容,分別是基線計(jì)算方法、容忍線計(jì)算方法和產(chǎn)生告警的方法。其中基線計(jì)算是告警產(chǎn)生的基礎(chǔ)[7]。
2.1 基線計(jì)算
目前的基線計(jì)算方法多是針對(duì)采集的性能數(shù)據(jù)直接做告警基線的處理,缺少了噪聲的過(guò)濾,本文采用圖4所示的流程來(lái)實(shí)現(xiàn)基線管理功能。
圖4 數(shù)據(jù)處理流程
如圖4所示,首先進(jìn)行樣本數(shù)據(jù)的采集,其次是對(duì)樣品數(shù)據(jù)進(jìn)行初加工,接下來(lái)進(jìn)行基線的計(jì)算,最后形成基線值。表1是1周內(nèi)每整點(diǎn)的測(cè)試服務(wù)器CPU性能數(shù)據(jù)。
表1 CPU樣本數(shù)據(jù) %
假設(shè)X為不包含噪聲的性能值,σ為噪聲值,Y為采集到的性能參數(shù),那么有式(1)。
在穩(wěn)定情況下,X的值是一個(gè)呈現(xiàn)周期性變化的參數(shù),因此用相鄰兩天的采集樣本作差進(jìn)行Q-Q圖[8]分析,得到如圖5所示的結(jié)果,其中圖a、b、c、d分別為5個(gè)工作日的樣本差值與參考點(diǎn)的QQ圖,圖中的散點(diǎn)都在一條直線附近,因此噪聲參數(shù)呈現(xiàn)高斯分布特性。根據(jù)Q-Q圖的特性,可以得到近似的標(biāo)準(zhǔn)差及均值,本例中均值為3,因此將3納入到基線的計(jì)算中。
圖5 5個(gè)工作日的樣本Q-Q圖特性
監(jiān)控系統(tǒng)所監(jiān)控的應(yīng)用系統(tǒng)是一類(lèi)新構(gòu)建的系統(tǒng),目前的應(yīng)用程序還不高,訪問(wèn)量會(huì)隨著時(shí)間的推移逐步增加,因此本監(jiān)控平臺(tái)目前將采集到的各個(gè)時(shí)間段的最大運(yùn)行性能參數(shù)經(jīng)運(yùn)維人員確定后添加到統(tǒng)計(jì)分析過(guò)程當(dāng)中去,也就是在統(tǒng)計(jì)分析的過(guò)程中不進(jìn)行性能參數(shù)的過(guò)濾。數(shù)據(jù)處理采用概念分布算法,針對(duì)每個(gè)時(shí)間點(diǎn)(最小采樣區(qū)間)都進(jìn)行一次統(tǒng)計(jì)分析。
以20點(diǎn)的數(shù)據(jù)為例,表2中為測(cè)試機(jī)7月1日到30日的20點(diǎn)的CPU使用率數(shù)據(jù),表中最大的值為9.94,因此應(yīng)用9.94確定5個(gè)區(qū)間范圍,如下。
應(yīng)用區(qū)間取數(shù)法,落在3、4、5區(qū)間中的數(shù)據(jù)個(gè)數(shù)最多,將以上3個(gè)區(qū)間中的數(shù)據(jù)作為樣本計(jì)算基線值。設(shè)置置信度為0.8,以上30個(gè)樣本的滑動(dòng)窗口數(shù)據(jù)個(gè)數(shù)為24,因此分別計(jì)算第1到24,2到25,3到26…的標(biāo)準(zhǔn)差,如表3所示。取標(biāo)準(zhǔn)差最小的區(qū)間為第3區(qū)間,因此20點(diǎn)整的上基線值為9.94,下基線值為5.37。
2.2 產(chǎn)生告警
目前,各類(lèi)應(yīng)用系統(tǒng)的運(yùn)行指標(biāo)呈現(xiàn)一個(gè)周期性的規(guī)律,圖6所示為周五的內(nèi)存占用率指標(biāo)圖。一般情況下都是工作時(shí)段內(nèi)存占用率較高,圖6中22時(shí)內(nèi)存占用率高是由于備份策略是每周五晚10點(diǎn)開(kāi)始。
表2 CPU月度樣本數(shù)據(jù)
表3 樣本區(qū)間標(biāo)準(zhǔn)差
圖6 內(nèi)存占用率時(shí)分圖
因此容忍度的設(shè)置可以采用人工方法,分區(qū)段分別設(shè)置不同的比例,靈活進(jìn)行配置。本文中分別將忙時(shí)和閑時(shí)的容忍度設(shè)置為30%和20%,以文中的上下基線值為例,20點(diǎn)為空閑時(shí)間,因此有式(2) 和式(3)。系統(tǒng)的CPU占用率如果超過(guò)這一范圍則會(huì)產(chǎn)生相應(yīng)的基線告警管理。
其中, Bup為上基線,Bdown為下基線。
基線告警功能通過(guò)測(cè)試并作為1個(gè)模塊成功部署在山西電力網(wǎng)絡(luò)智能監(jiān)控平臺(tái)系統(tǒng)中,傳統(tǒng)是針對(duì)主機(jī)、中間件、數(shù)據(jù)庫(kù)等服務(wù)器設(shè)備采用人工巡檢的方式,每天上午1次,基本無(wú)法保證系統(tǒng)故障或缺陷的及時(shí)消除。部署基線告警功能模塊后,如發(fā)生硬盤(pán)故障、內(nèi)存利用率高等影響系統(tǒng)穩(wěn)定運(yùn)行的潛在隱患,都會(huì)以短信及郵件信息的形式通過(guò)運(yùn)維人員,將傳統(tǒng)故障發(fā)現(xiàn)時(shí)間降低到了5 min以?xún)?nèi)。圖7所示為系統(tǒng)中相應(yīng)的告警視圖,圖中所示為變電站生產(chǎn)視頻監(jiān)控系統(tǒng)太原web服務(wù)器內(nèi)存利用率超過(guò)閾值的告警,直接觸發(fā)了內(nèi)存利用率基線告警。另外,它還可以生成周、月、年度報(bào)表,方便運(yùn)維人員全面了解計(jì)周期內(nèi)設(shè)備故障發(fā)生情況,為接下來(lái)的技改大修提供依據(jù)。圖7所示為當(dāng)月該設(shè)備內(nèi)存利用率的實(shí)時(shí)數(shù)據(jù),內(nèi)存隱患為16日告警服務(wù)模塊進(jìn)程卡死。通過(guò)部署基于基線的告警管理功能,極大地增強(qiáng)了主機(jī)、存儲(chǔ)、中間件等設(shè)備的可靠性,縮短了故障恢復(fù)時(shí)間。
圖7 內(nèi)存利用率異常圖示
動(dòng)態(tài)基線告警的實(shí)現(xiàn)為服務(wù)器、中間件及數(shù)據(jù)庫(kù)的CPU、內(nèi)存利用率提供了一種專(zhuān)門(mén)的管理手段,提高了各類(lèi)信息通信支撐系統(tǒng)的可靠性,應(yīng)用以來(lái),將傳統(tǒng)1天2次的人工巡檢升級(jí)為系統(tǒng)7×24小時(shí)智能巡檢,故障巡檢平均發(fā)現(xiàn)時(shí)間由之前的1.5小時(shí)縮短為1 min以?xún)?nèi),不僅增強(qiáng)了系統(tǒng)的可用性,還提高了運(yùn)維人員的工作效率。
參考文獻(xiàn):
[1]李學(xué)龍,龔海剛.大數(shù)據(jù)系統(tǒng)綜述 [J].中國(guó)科學(xué):信息科學(xué),2015(45):1-44.
[2]余江,萬(wàn)勁波.推動(dòng)中國(guó)云計(jì)算技術(shù)與產(chǎn)業(yè)創(chuàng)新發(fā)展的戰(zhàn)略思考 [J].中國(guó)科學(xué)院院刊,2015(30):181-185.
[3]杜占瑋,楊永健.一種基于自適應(yīng)高斯過(guò)程的基線計(jì)算算法[J].計(jì)算機(jī)科學(xué),2012(39):79-82.
[4]諶志華.安全基線管理在企業(yè)中的應(yīng)用 [J].計(jì)算機(jī)安全,2013(3):19-22.
[5]趙淵,郭胤.考慮參數(shù)不確定的電網(wǎng)可靠性概率分布特征[J].電網(wǎng)技術(shù),2013(37):2165-2172.
[6]張巖.一種差異化故障信號(hào)的計(jì)算機(jī)特征還原技術(shù) [J].科技通報(bào),2013(29):150-153.
[7]張成,李元.基于統(tǒng)計(jì)模量分析間歇過(guò)程故障檢測(cè)方法研究[J].儀器儀表學(xué)報(bào), 2013(34):2103-2110.
[8]宗序平,姚玉蘭.利用Q-Q圖與P-P圖快速檢驗(yàn)數(shù)據(jù)的統(tǒng)計(jì)分布 [J].知識(shí)叢林,2010(20):150-152.
Research and Implementation of Dynamic Baseline Alarm Management in Host Monitoring System
GU Liang,DUAN Jie,DUAN Jing
(State Grid Shanxi Electric Power Corporation Information Communication Branch, Taiyuan,Shanxi030001,China)
Based on enterprise comprehensive network management platform,the dynamic baseline alarm management in host monitoring is studied and realized.Through the application of probability and probability distribution algorithm in alarm management process,the CPU's performance parameters of servers,storage devices and routers are realized to be monitored by dynamic baseline management.After test and verification,the achievement of this research has been successfully applied in Shanxi Electric Power Network Information Intelligent Monitoring PlatformSystemsothat host monitoring has been realized successfully.
host monitoring;dynamic baseline;Gaussian process
TP277
A
1671-0320(2017)03-0040-05
2017-01-19,
2017-04-11
谷 良(1987),男,山西朔州人,2013年畢業(yè)于中國(guó)科學(xué)技術(shù)大學(xué)軟件工程專(zhuān)業(yè),碩士,工程師,從事信息通信運(yùn)維工作;
段 婕(1987),女,山西臨汾人,2013年畢業(yè)于北京郵電大學(xué)通信工程專(zhuān)業(yè),碩士,工程師,從事信息通信運(yùn)維工作;
段 敬(1983),男,山西太原人,2006年畢業(yè)于太原理工大學(xué)電子信息工程專(zhuān)業(yè),雙學(xué)士,主任工程師,從事信息通信運(yùn)維工作。