覃進(jìn)學(xué)
(成都四方偉業(yè)軟件股份有限公司,成都 610000)
經(jīng)調(diào)查顯示目前全球已經(jīng)有三千多名CIO將數(shù)字化業(yè)務(wù)列為工作重點(diǎn),且預(yù)計(jì)2020年AIOps全球部署率會(huì)由2017年的10%增加至50%[1],覆蓋了電力、金融、航天、HPC及通信多領(lǐng)域,目前對(duì)于所要處理的數(shù)據(jù)量正面臨嚴(yán)峻挑戰(zhàn),不僅表現(xiàn)在海量數(shù)據(jù)上,更表現(xiàn)在運(yùn)維成本的不斷增加。所以實(shí)現(xiàn)數(shù)據(jù)中心智能化運(yùn)維已經(jīng)成為必然所趨,本文對(duì)此展開(kāi)研究。
由于數(shù)據(jù)中心基礎(chǔ)設(shè)施無(wú)法達(dá)到較好的監(jiān)控效果,且未能給客戶帶來(lái)立竿見(jiàn)影回報(bào),因此用戶整體體驗(yàn)較差需求定制已經(jīng)難以交付[2]。但是AIoT+AIOps則正是能夠?qū)@些問(wèn)題有效解決的技術(shù)關(guān)鍵。經(jīng)過(guò)運(yùn)用AIoT可以對(duì)滿足運(yùn)維數(shù)據(jù)的采集、上報(bào),并實(shí)現(xiàn)數(shù)據(jù)融合所需。AIOps即Artif icial Intelligence for IT Operations,不過(guò)Gartner對(duì)它的解釋是AlgorithmicIT Operations,也就是基于AI算法去解決IT運(yùn)維流程中的問(wèn)題,例如性能監(jiān)控、可用性分析、關(guān)聯(lián)事件、自動(dòng)化,以及日志、應(yīng)用狀態(tài)等運(yùn)維數(shù)據(jù)信息。AIOps則可以智能化處理人工處理問(wèn)題,經(jīng)過(guò)專家經(jīng)驗(yàn)結(jié)合數(shù)據(jù)分析模型,共同實(shí)現(xiàn)的智能化運(yùn)維可以對(duì)運(yùn)維效率充分提升。
運(yùn)維人員應(yīng)當(dāng)對(duì)服務(wù)器的主要運(yùn)行狀況實(shí)時(shí)監(jiān)督掌握,包括常規(guī)服務(wù)器配置、資源占用多種信息情況,運(yùn)行業(yè)務(wù)時(shí)會(huì)產(chǎn)生一定異常、日志、狀態(tài)警告等“事件”,通常情況下每一臺(tái)服務(wù)器無(wú)論所處任何時(shí)刻都會(huì)出現(xiàn)大量事件。那么在數(shù)據(jù)中心服務(wù)器規(guī)模愈來(lái)愈大背景下,如何對(duì)這些“事件需求”統(tǒng)一自動(dòng)化處理[3]。通過(guò)基于AIoT+AIOps能夠?qū)崿F(xiàn)對(duì)實(shí)時(shí)、非實(shí)時(shí)、格式化、非格式化、需要引擎以及只需運(yùn)算、全量、抽樣和可視化、告警等數(shù)據(jù)進(jìn)行分類處理。由腳本運(yùn)維至工具運(yùn)維、智能運(yùn)維,主要表現(xiàn)在以下幾方面:大數(shù)據(jù)分析和搜集數(shù)據(jù)源,識(shí)別規(guī)則模式以及AI算法、域算法和自動(dòng)化算法。但是在這個(gè)過(guò)程中需要注意AIOps并沒(méi)有對(duì)AI應(yīng)用本身加以轉(zhuǎn)變,而是更加強(qiáng)調(diào)實(shí)現(xiàn)規(guī)則、流程AI智能化。譬如AIOps能夠由無(wú)至有的逐一擊破單點(diǎn),之后可以形成局部方案逐漸由類推面的解決,這樣一來(lái)多單點(diǎn)模塊組合形成了完整AIOps流程,能夠達(dá)到可知悉、可重用、可升級(jí)的優(yōu)勢(shì)。
處于復(fù)雜的業(yè)務(wù)場(chǎng)景下對(duì)于事件處理,除了需要包括常用時(shí)間、地點(diǎn)及內(nèi)容,多維數(shù)據(jù)還需要包括地區(qū)、服務(wù)池、業(yè)務(wù)線和機(jī)房、接口等服務(wù)數(shù)據(jù)。那么很多情況下數(shù)據(jù)分析人員需要充分運(yùn)用多種維度指標(biāo)生成的數(shù)據(jù)報(bào)告,警告規(guī)則和Dashboard,因此是否可以支持多維度數(shù)據(jù)查詢存儲(chǔ),作為衡量智能化運(yùn)維是否具備靈活性的關(guān)鍵指標(biāo)。那么通過(guò)AIoT+AIOps技術(shù)能夠?qū)崿F(xiàn)多維度數(shù)據(jù)處理,很多時(shí)候作為協(xié)議/模型類似設(shè)計(jì)問(wèn)題,甚至不會(huì)對(duì)具體分析處理框架有所牽扯,通過(guò)設(shè)計(jì)較好的存儲(chǔ)協(xié)議模型,可以確保整體具備多維度和簡(jiǎn)潔性。設(shè)計(jì)理念的不同,需要對(duì)應(yīng)不同的智能運(yùn)維處理模型,因此彼此之間并未存在優(yōu)劣之分。多維數(shù)據(jù)源目前已經(jīng)作為一種比較普遍存在的情況,AIoT+AIOps能夠具備多類數(shù)據(jù)格式/API適配能力的同時(shí),還可以達(dá)到數(shù)據(jù)展現(xiàn)分離,解決展現(xiàn)、數(shù)據(jù)契合度較高極有可能更改前端界面的工作問(wèn)題。
在智能化運(yùn)維中最為典型的事件就是信息過(guò)載“告警”應(yīng)用,幾乎所有運(yùn)維管理員都為所需地方加上告警,以為這樣可以高枕無(wú)憂。但是需要認(rèn)識(shí)到各類型告警信息會(huì)毫無(wú)疑問(wèn)的占滿空間,那么基于AIoT+AIOp能夠?qū)Χ秳?dòng)性、重復(fù)性相關(guān)信息加以過(guò)濾,并且由中可以尋求問(wèn)題的存在根源,在Dashboard達(dá)到數(shù)千上萬(wàn)下,AIoT+AIOp能夠自動(dòng)過(guò)濾滿足智能運(yùn)維靈活性。當(dāng)然身為運(yùn)維AI工程師自身也應(yīng)當(dāng)積極學(xué)習(xí)AIoT+AIOp技術(shù),從而對(duì)運(yùn)維產(chǎn)生數(shù)據(jù)完成整理分析,真正發(fā)揮數(shù)據(jù)本身的價(jià)值。
總而言之,基于AIoT與AIOps技術(shù)的智能運(yùn)維,能夠?qū)崿F(xiàn)告警異常檢測(cè)、告警故障分析、智能能耗等方面的不斷提升改進(jìn)。經(jīng)過(guò)將物聯(lián)網(wǎng)、人工智能和知識(shí)圖譜等技術(shù)引入,能夠?qū)DC機(jī)房和園區(qū)管理工作的整體效率有效提升,還可以提高綜合服務(wù)能力與控制處理突發(fā)事件能力,從而達(dá)到機(jī)房的最優(yōu)化決策控制,最終實(shí)現(xiàn)數(shù)據(jù)中心的智能化運(yùn)維。