在IT運維領(lǐng)域,有兩個被無數(shù)次提起的詞,一個是“救火隊員”,一個是與之對應(yīng)的“主動運維”。兩個詞匯前后呼應(yīng),旨在說明IT部門為了擺脫前者匆忙、低效的形象,用盡洪荒之力,以求避免IT系統(tǒng)故障。但是,作為國內(nèi)領(lǐng)先的IT運維管理解決方案提供商,北塔軟件在為很多客戶提供運維服務(wù)時卻發(fā)現(xiàn),“主動運維”真正實現(xiàn)起來困難重重。這是因為,在主動運維落地時存在的兩大難題:經(jīng)驗、能力。
在IT管理中,有兩個詞經(jīng)常被混淆在一起用,這就是閾值和閥值。其實,“閥值”這個詞最早是沒有的,后來咬文嚼字工作組通過統(tǒng)計全國人民使用詞語的習(xí)慣,發(fā)現(xiàn)了閥值這個詞。但規(guī)范來講,“閾值”才是主動運維中的正宗血脈。那么,我們?yōu)楹我o緊抓住它呢?
在被動運維中,業(yè)務(wù)部門一般最先發(fā)現(xiàn)故障現(xiàn)象,而主動式IT運維服務(wù)則可以很好地采取預(yù)防手段進行監(jiān)控管理。為此,IT部門需要針對每個系統(tǒng)建立閾值報警體系,通過“基準(zhǔn)線”觀察每個系統(tǒng)可用性、流暢度、安全性的指標(biāo),低于或超過閾值,說明系統(tǒng)無法達到最低要求,則對該系統(tǒng)進行報警提示。
閾值的定義很容易理解,但在運維工具中如何設(shè)定就是一道難題了,這需要“經(jīng)驗”。北塔軟件表示:閾值的設(shè)定要依據(jù)歷史數(shù)據(jù),但一些維護人員往往是依靠運維經(jīng)驗和行業(yè)慣例來設(shè)定,無法按照系統(tǒng)的運行變化特性及時地進行智能調(diào)整,也沒有持續(xù)改進和優(yōu)化的有效方法來改變現(xiàn)狀。鑒于以上難題,北塔BTSO2.5在保留實時閾值告警的基礎(chǔ)上,更著重于對歷史數(shù)據(jù)進行深入挖掘,系統(tǒng)從用戶業(yè)務(wù)環(huán)境中自主學(xué)習(xí)和生成風(fēng)險閾值,這項特性可以幫助管理員解決閾值固化的問題,進而實現(xiàn)自動化的主動運維方式。
建立和實施信息系統(tǒng)的主動式運維管理平臺,需要對運維規(guī)則進行反復(fù)的調(diào)整。因此,如果說“自主學(xué)習(xí)”是主動運維的第一步,接下來就需要實現(xiàn)“智能運維”,這也是從“人治”到“法治”的門檻。
傳統(tǒng)的主動運維思路以事件為核心,側(cè)重對故障的定位,但不負責(zé)解決,這就無法擺脫“人治”的束縛。而BTSO提出的主動運維不僅以數(shù)據(jù)為核心,根據(jù)用戶所屬行業(yè)自動定義正常閾值,還能將運維規(guī)則自動導(dǎo)入,指引用戶按照規(guī)則處理IT預(yù)警信息,直接讓用戶步入中等運維水平。
以高負載主機為例,當(dāng)管理對象加入系統(tǒng)后,BTSO自動啟動各類主機性能監(jiān)控,當(dāng)個別主機出現(xiàn)高負載的表象后,系統(tǒng)不僅可以過濾偶發(fā)的CPU沖高現(xiàn)象,還能橫向擴展分析,結(jié)合歷史數(shù)據(jù)自動判斷,告之用戶這個偶發(fā)現(xiàn)象是否有關(guān)聯(lián)、是否影響了業(yè)務(wù)系統(tǒng)的整體健康。如果被確定為長期高負載主機,系統(tǒng)將提出優(yōu)化處理步驟。
不僅是CPU,管理員最擔(dān)心的內(nèi)存泄露,BTSO也能從增長趨勢的角度,智能分析出這些表像背后的根源,利用72小時或更長時期的分析報告,或是系統(tǒng)將根據(jù)用戶需求自動做出24小時的“進程級”內(nèi)存泄露定位,展現(xiàn)有可能溢出的進程名稱和消耗,更主動地消除故障隱患。另外,網(wǎng)絡(luò)擁堵、數(shù)據(jù)庫指標(biāo)異常波動等,這些很難在短時間處理、必須依靠技術(shù)高手處理的問題,BTSO都提供了智能處理的內(nèi)置規(guī)則,在用戶無需掌握深奧理論的情況下,首先解決實際問題。并且,這些正確處理的步驟會被一一記錄,在企業(yè)內(nèi)部形成運維知識體系的傳承。
在IT運維領(lǐng)域中,“主動運維”刻不容緩。這就如人生病一樣,很多疾病都會造成身體上多處特征的不良反應(yīng),但生活中多數(shù)人都不在意身體不適癥狀,因此導(dǎo)致很多疾病錯過了最佳的治療時機。當(dāng)然,主動運維理念的發(fā)展方向也將迎來改變,智慧運維不僅需要“開刀治病”,更應(yīng)解決運維經(jīng)驗、個人能力等問題,指引業(yè)務(wù)系統(tǒng)“強身健體”。
上海北塔軟件股份有限公司
地址:上海市宜山路700號科創(chuàng)動力3號樓3層
技術(shù)支持熱線:400-820-7719
傳真:021-60740399
網(wǎng)址:www.betasoft.com.cn