冷迪 陳瑞 李英 王旭勇
(深圳供電局有限公司 廣東省深圳市 518000)
海量數(shù)據(jù)時代信息中心的地位越來越高,一個好的信息中心可以為一個企業(yè)帶來非常好的促進(jìn)作用。隨著計(jì)算機(jī)技術(shù)的發(fā)展,各大企業(yè)的信息系統(tǒng)越來越多,數(shù)據(jù)量也越來越大,安全生產(chǎn)對信息預(yù)測的要求也越來越高,面臨種種現(xiàn)實(shí)問題,信息中心必須不斷升級,實(shí)現(xiàn)智能化。信息中心智能化必須要充分考慮大數(shù)據(jù)背景,在利用好現(xiàn)有先進(jìn)技術(shù)的基礎(chǔ)下,極大程度實(shí)現(xiàn)人工的解放,以更加智能化的方式將企業(yè)數(shù)據(jù)展現(xiàn)出來,并未企業(yè)管理與發(fā)展提供良好的覺得數(shù)據(jù)依據(jù)。
信息中心建設(shè)一把來講首先要考慮數(shù)據(jù)中心機(jī)房的建設(shè),建設(shè)在設(shè)么位置,如何建設(shè),目標(biāo)企業(yè)到底需要建設(shè)什么級別的信息中心,如何進(jìn)行信息中心的整體布局,能耗如何達(dá)到最佳效果,如何保障制冷問題。除了硬件相關(guān)問題,異構(gòu)的系統(tǒng)如何整合,數(shù)據(jù)如何存儲,信息如何分析利用與展示,如何用新技術(shù)、新思想進(jìn)行信息業(yè)務(wù)全流程的管理等。對于已經(jīng)建成的信息中心,可能更多的要考慮均衡能耗與環(huán)保、優(yōu)化信息中心布局、信息中心運(yùn)維方面的問題。特別針對運(yùn)維的問題,企業(yè)承受能力之下聘用的運(yùn)維人員在能力與數(shù)量方面可能會跟不上實(shí)際需要,或者說無法將數(shù)據(jù)中心的作用充分發(fā)揮出來,這就需要通過技術(shù)手段將信息中心智能化,通過大數(shù)據(jù)、人工智能等計(jì)算分析方法進(jìn)行短周期一次性建設(shè),解決大部分?jǐn)?shù)據(jù)中心面臨的數(shù)據(jù)雜亂標(biāo)識度低、系統(tǒng)異構(gòu)集成數(shù)據(jù)可融合性低、數(shù)據(jù)共享與分析展示不徹底等一系列軟問題。
Web2.0時代被廣泛使用的tag標(biāo)簽實(shí)際是一種關(guān)鍵詞標(biāo)記,可以方便與更好的索引、瀏覽、查找數(shù)據(jù),與常說的關(guān)鍵詞相仿但又有很大的不同,標(biāo)簽可以是能夠更好的顯示和突出搜索的關(guān)鍵詞條,也可以是文章或日志中沒有出現(xiàn)過的詞條,設(shè)立標(biāo)簽的意義是指向這個文章的內(nèi)容性。標(biāo)簽具有兩個非常明顯的特征,一是數(shù)據(jù)可重復(fù)性標(biāo)記,對于同一個用戶、同一條數(shù)據(jù)信息可以給予多個標(biāo)簽,類似于實(shí)物建模,信息標(biāo)簽越多,就可以更好的組建一個越來越完整用戶受眾畫像信息;標(biāo)簽的另一個特征就是指向明確性,標(biāo)簽前應(yīng)當(dāng)明確的標(biāo)識用戶的一類屬性或行為,對于數(shù)據(jù)信息來講則是指向信息的具體歸類或特征。對于數(shù)據(jù)中心來講,信息系統(tǒng)的用戶、監(jiān)測的設(shè)備都可以看做一種特定的數(shù)據(jù)對象,以進(jìn)行數(shù)據(jù)應(yīng)用分析。標(biāo)簽畫像一般需要經(jīng)過標(biāo)簽梳理、數(shù)據(jù)邏輯構(gòu)建、數(shù)據(jù)倉庫構(gòu)建、標(biāo)簽計(jì)算、標(biāo)簽可視化等過程,最終將雜亂無章的數(shù)據(jù)以一副形象規(guī)整的畫面呈現(xiàn)出來。
傳統(tǒng)數(shù)據(jù)分析流程比較復(fù)雜,特別是需要建模與Cube這兩個操作,這一系列復(fù)雜流程通常要耗費(fèi)數(shù)月的時間。對于數(shù)據(jù)中心來講,更多的時候是需要對實(shí)時信息進(jìn)行快速計(jì)算、分析、呈現(xiàn),特別是一些實(shí)時性要求比較高的行業(yè),如輸配電行業(yè)、化工生產(chǎn)等。敏
捷數(shù)據(jù)分析實(shí)際上是用快速迭代式分析來取代傳統(tǒng)數(shù)據(jù)分析流程,不再糾結(jié)于構(gòu)建大而全的分析指標(biāo)體系,利用短則幾分鐘進(jìn)行低成本快速迭代,利用敏捷數(shù)據(jù)分析工具實(shí)現(xiàn)動態(tài)切換視角,靈活展示數(shù)據(jù),在日常積累過程中行程越來越豐富的指標(biāo),計(jì)算公式在日常過程中不斷優(yōu)化,這一過程有一定的上下文自學(xué)習(xí)性,在一定過程以后再對這些指標(biāo)化后的海量數(shù)據(jù)進(jìn)行體系化。敏捷數(shù)據(jù)分析就是實(shí)現(xiàn)快而有效的數(shù)據(jù)分析結(jié)果交付、數(shù)據(jù)部署、數(shù)據(jù)呈現(xiàn)指標(biāo)變更和數(shù)據(jù)分析結(jié)果查詢。
機(jī)器學(xué)習(xí)本是一門研究如何利用計(jì)算機(jī)模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,讓計(jì)算機(jī)擁有一種獲取新知識的能力,從歷史信息中挖掘出一系列新方法、新內(nèi)容,將已有的知識結(jié)構(gòu)重新組織,不斷完善自身的學(xué)習(xí)能力,從而實(shí)現(xiàn)信息分類達(dá)到準(zhǔn)確預(yù)測的目的。常見的機(jī)器學(xué)習(xí)方法有, 采用非線性變換將的空間高維化實(shí)現(xiàn)線性分類的支持向量機(jī)算法,以一種設(shè)定學(xué)習(xí)準(zhǔn)則為起點(diǎn)不斷進(jìn)行自我學(xué)習(xí)調(diào)整的人工神經(jīng)網(wǎng)絡(luò)算法,通過學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次來不斷加深學(xué)習(xí)能力的深度學(xué)習(xí)。機(jī)器學(xué)習(xí)的應(yīng)用目前非常廣泛,以Siri、小度等為代表的可以協(xié)助信息查詢的虛擬助手,以GPS導(dǎo)航為代表的交通預(yù)測,通過多層感知器與決策樹歸納實(shí)現(xiàn)的垃圾郵件和惡意軟件過濾。
信息中心智能化是信息中心建設(shè)到一定程度后的必然方向,單純的信息采集、存儲于查詢無法更好的發(fā)揮信息中心的潛在作用。信息中心智能化主要是三個方面:
(1)要信息系統(tǒng)用戶界面智能化極大程度解放人工;
(2)實(shí)現(xiàn)數(shù)據(jù)過程智能化與數(shù)據(jù)呈現(xiàn)凸顯化多樣化;
(3)信息反應(yīng)能力智能化。
信息系統(tǒng)用戶界面智能化主要是指對集成后的信息系統(tǒng)優(yōu)化,包含信息系統(tǒng)界面優(yōu)化與信息系統(tǒng)操作優(yōu)化兩個方面,理想的信息系統(tǒng)在顯示與操作界面要充分凸顯重要內(nèi)容,讓操作人員能夠最邊界發(fā)現(xiàn)數(shù)據(jù)內(nèi)容的異樣變化,還要在操作方面讓操作人員基本做到零操作,特別是零誤操作,這就需要深入結(jié)合心理學(xué)、生物學(xué)、人工智能技術(shù)。
數(shù)據(jù)過程智能化就是要從數(shù)據(jù)的接入到輸出整個過程全面智能化,在現(xiàn)場信息采集方面運(yùn)用傳感器技術(shù)、無線自組織網(wǎng)絡(luò)技術(shù)等實(shí)現(xiàn)細(xì)節(jié)數(shù)據(jù)的實(shí)時采集與快速傳遞;在信息系統(tǒng)數(shù)據(jù)集成方面要通過標(biāo)簽畫像技術(shù)將已有的海量數(shù)據(jù)快速整合,規(guī)范化存儲分類;在數(shù)據(jù)分析方面,要采用敏捷數(shù)據(jù)分析與傳統(tǒng)數(shù)據(jù)分析相結(jié)合的方式,保證實(shí)時數(shù)據(jù)能夠被快速分析呈現(xiàn)給操作人員與決策人員,還要盡可能的深層次的挖掘歷史數(shù)據(jù),優(yōu)化數(shù)據(jù)的使用。數(shù)據(jù)呈現(xiàn)凸顯化多樣化,就是要運(yùn)用3D建模、多維度數(shù)據(jù)顯示,使用動態(tài)變化甚至能夠自我學(xué)習(xí)變化的模型來展示數(shù)據(jù),讓數(shù)據(jù)使用者能夠更加直觀、形象化的理解使用數(shù)據(jù)。
信息反應(yīng)能力智能化,將是大多數(shù)企業(yè)所急需的,從智能BI的角度來講,企業(yè)更希望在發(fā)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)發(fā)生凸顯性變化時,信息中心能夠快速的根據(jù)數(shù)據(jù)變化方向給與決策者提供強(qiáng)有力的核心支持。而對于一些基礎(chǔ)性建設(shè)生產(chǎn)的企業(yè)來講,則希望信息中心能夠通過數(shù)據(jù)變化快速發(fā)現(xiàn)安全報警隱患,并對生產(chǎn)現(xiàn)場發(fā)送智能操作指令,在最小人工干預(yù)的情況下將安全隱患消除,或者通過設(shè)備切換,通知人員進(jìn)行問題設(shè)備檢修,避免設(shè)備帶病運(yùn)轉(zhuǎn)。
2016年,Gartner針對IT發(fā)展和運(yùn)維管理的困境,提出了一種全新的運(yùn)維管理方法,以減輕企業(yè)IT的負(fù)擔(dān),提升管理效率,簡稱AIOps。AIOps 即Artificial Intelligence for IT Operations,將人工智能應(yīng)用于運(yùn)維領(lǐng)域,區(qū)別于傳統(tǒng)的人工運(yùn)維和自動化運(yùn)維,通過基于運(yùn)維大數(shù)據(jù)的機(jī)器學(xué)習(xí),用智能決策逐步取代人工決策,提升IT管理效率,因此國內(nèi)業(yè)務(wù)運(yùn)維企業(yè)云智慧把AIOps稱為智能運(yùn)維。自動化運(yùn)維因此應(yīng)運(yùn)而生。用可被自動化觸發(fā)、預(yù)定義規(guī)則的腳本,來執(zhí)行常見的、重復(fù)性的運(yùn)維工作,從而減少人力成本,提供運(yùn)維效率??偟膩碚f,自動化運(yùn)維可認(rèn)為一種基于行業(yè)領(lǐng)域知識和運(yùn)維場景領(lǐng)域知識的專家系統(tǒng)。下面給出一種基于大數(shù)據(jù)方法的數(shù)據(jù)告警自愈方法。
對數(shù)據(jù)中心的系統(tǒng)下所有器件運(yùn)維數(shù)據(jù)進(jìn)行檢測,通過在確定某一器件發(fā)生告警事件時,本方法除了會對該告警事件所對應(yīng)的器件進(jìn)行檢測及處理后,還會對該器件相關(guān)聯(lián)的設(shè)備進(jìn)行檢測,以全面對與該器件相關(guān)聯(lián)的設(shè)備進(jìn)行告警檢測,能夠?qū)⒔咏a(chǎn)生故障或告警(或者即將產(chǎn)生故障或告警)的設(shè)備一同發(fā)送給工作人員進(jìn)行檢測及處理。具體步驟如下所示。
第1步:實(shí)時監(jiān)控數(shù)據(jù)中心的系統(tǒng)下所有器件的運(yùn)維數(shù)據(jù);這個過程是對所有采集到的實(shí)時數(shù)據(jù)進(jìn)行監(jiān)控,只要有新的事件信息傳輸?shù)綌?shù)據(jù)中心,必須要立馬對其處理。一方面觸發(fā)相應(yīng)的服務(wù)器對數(shù)據(jù)進(jìn)行分析,另一方面要根據(jù)相應(yīng)的畫像策略為數(shù)據(jù)打上標(biāo)簽,微數(shù)據(jù)打上標(biāo)簽后進(jìn)行分類有序存儲,為數(shù)據(jù)進(jìn)一步分析堅(jiān)定基礎(chǔ)。
第2步:通過運(yùn)維數(shù)據(jù)判斷該大數(shù)據(jù)中心的系統(tǒng)下的器件是否產(chǎn)生告警事件。這里要用到機(jī)器學(xué)習(xí)的方法,服務(wù)器對新監(jiān)測到的數(shù)據(jù)與歷史數(shù)據(jù)的學(xué)習(xí)結(jié)果進(jìn)行對比,從而判斷新監(jiān)測到的事件數(shù)據(jù)是否屬于告警事件,如果是應(yīng)當(dāng)屬于那一個級別的,具體的再對識別到的告警事件進(jìn)行策略性處理,也就是第3步所描述的。在這一步,主要依賴于對數(shù)據(jù)庫中使用數(shù)據(jù)畫像進(jìn)行了標(biāo)簽化的歷史數(shù)據(jù)進(jìn)行學(xué)習(xí)歸類,生成一定的可參照空間。但對于新收到的數(shù)據(jù)必須要快速的分析,這就要使用到敏捷數(shù)據(jù)分析,這一個敏捷過程就可以將新事件數(shù)據(jù)信息與經(jīng)過機(jī)器學(xué)習(xí)分類過的數(shù)據(jù)空間內(nèi)容進(jìn)行快速的上下文學(xué)習(xí)分析,一方面得出數(shù)據(jù)事件的性質(zhì)定位,另一方面通過這一快速迭代及時的更新事件庫。
第3步:如果是,根據(jù)預(yù)設(shè)屏蔽策略對告警事件進(jìn)行屏蔽,根據(jù)預(yù)設(shè)收斂策略對告警事件進(jìn)行收斂,以獲得最終的有效告警事件。應(yīng)理解,一些告警事件能夠被系統(tǒng)自動處理,因此這些告警事件會屏蔽,而如果屬于多次同樣的告警事件,則對這些同樣的告警事件進(jìn)行收斂。因?yàn)楹芏喱F(xiàn)實(shí)狀況中,采集到的數(shù)據(jù)并不準(zhǔn)確,很多時候用于器件信息采集的傳感器會產(chǎn)生一定的采集誤差,采集到的數(shù)據(jù)通過模數(shù)轉(zhuǎn)換時也會產(chǎn)生一定的誤差,導(dǎo)致事件數(shù)據(jù)有些是偏差型數(shù)據(jù),即便比對成功也不是真正的告警,也就是誤報警。
第4步:獲取有效告警事件所對應(yīng)的器件信息,從器件信息中解析出對應(yīng)的工作人員,并將有效告警事件及器件信息發(fā)送給工作人員。這主要是由于很多涉及到重要生產(chǎn)的行業(yè),告警事件的處理完全依賴于機(jī)器并不能讓管理者、使用這完全放心,主要還是由于機(jī)器學(xué)習(xí)于敏捷數(shù)據(jù)分析還未達(dá)到完全精準(zhǔn)的地步,因此很有必要通知工作人員,一方面如果有需要人工現(xiàn)場處理的工作可以讓人員及時到場,另一方面,如果一些事件告警是誤報或者沒能確定是否是告警的情況下,可以通過人工進(jìn)一步判斷已解決問題。
第5步:獲取與該器件相關(guān)聯(lián)的設(shè)備的信息,并逐一對與該器件相關(guān)聯(lián)的設(shè)備進(jìn)行檢測。應(yīng)理解,該器件與相關(guān)聯(lián)設(shè)備是同一系統(tǒng)下的。這主要考慮到設(shè)備之間具有很強(qiáng)的關(guān)聯(lián)性,一個確定發(fā)生故障告警的器件可能會導(dǎo)致其他器件發(fā)生問題,當(dāng)然發(fā)生故障告警的器件的問題也可能是由其他器件發(fā)生問題導(dǎo)致的,只是由于某些原因沒有被偵測出來。
第6步:判斷與該器件相關(guān)聯(lián)的設(shè)備是否接近產(chǎn)生故障或告警的條件。應(yīng)理解,這里接近是指很靠近故障或告警條件,或者即將產(chǎn)生故障或告警。設(shè)備的故障預(yù)防也是很重要的,這一步操作主要是防患于未然,將安全意識充分體現(xiàn)在事件分析處理上。
第7步:如果是,將接近產(chǎn)生故障或告警(或者即將產(chǎn)生故障或告警)的設(shè)備的信息一同發(fā)送給工作人員,使得工作人員關(guān)注這些關(guān)聯(lián)的設(shè)備,提前預(yù)知這些設(shè)備會產(chǎn)生告警,提前處理。應(yīng)理解,這些工作人員都是處于上班狀態(tài)(可通過查詢打卡的工卡來判斷),且所懂得領(lǐng)域剛好與發(fā)生告警事件的設(shè)備的領(lǐng)域相同。
科學(xué)技術(shù)飛速發(fā)展的時代,信息中心必須在先進(jìn)計(jì)算機(jī)技術(shù)的發(fā)展下不斷完善,朝著更加智能化的方向發(fā)展。大數(shù)據(jù)時代下的標(biāo)簽畫像、敏捷數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等為信息中心朝著用戶界面智能、數(shù)據(jù)過程智能、信息反應(yīng)能力智能帶了眾多空間,為企業(yè)利用好信息中心實(shí)現(xiàn)新的發(fā)展帶來了新的可能。