袁冠云
(廣東寶繹通信科技有限公司 ,廣東 廣州 510660)
信息技術(shù)的發(fā)展日新月異,大數(shù)據(jù)和智能運(yùn)維技術(shù)在各大行業(yè)數(shù)字化轉(zhuǎn)型中不斷引發(fā)新的技術(shù)熱潮。IT運(yùn)維領(lǐng)域涵蓋了各類不同的運(yùn)維管理和監(jiān)控系統(tǒng),在日常運(yùn)行維護(hù)過程中不斷產(chǎn)生大量運(yùn)維數(shù)據(jù),包括日志、指標(biāo)、關(guān)系以及傳感器信息等。這些數(shù)據(jù)格式不一,解讀方式方法各異,卻覆蓋了IT系統(tǒng)運(yùn)行過程中的方方面面。對運(yùn)維數(shù)據(jù)的集中化采集、清洗和挖掘,結(jié)合更多的運(yùn)維場景提升數(shù)據(jù)提煉能力、發(fā)揮數(shù)據(jù)價值將是智能運(yùn)維平臺不可或缺的重要功能。其中的3大要素包括數(shù)據(jù)、算法和平臺。對于數(shù)據(jù),大量且種類繁多的IT基礎(chǔ)設(shè)施提供采集數(shù)據(jù)能力和存儲能力,用于處理歷史和實(shí)時產(chǎn)生的海量數(shù)據(jù);對于算法,用于計算和分析,以產(chǎn)生IT運(yùn)維場景所需要的結(jié)果;對于平臺,運(yùn)維平臺是智能運(yùn)維的基石,既是數(shù)據(jù)的來源之一,也是算法落地的依托。
運(yùn)維大數(shù)據(jù)處理框架如圖1所示。
IT系統(tǒng)數(shù)據(jù)的來源極其廣泛,由于歷史原因,電網(wǎng)企業(yè)中還存在大量的IOE存量系統(tǒng)在數(shù)據(jù)中心運(yùn)行;同時隨著電網(wǎng)數(shù)字化轉(zhuǎn)型加速,信息化建設(shè)如火如荼,大量新上的系統(tǒng)更多采用x86架構(gòu),運(yùn)行在Linux平臺乃至docker中。大量的異構(gòu)軟硬件既有傳統(tǒng)的穩(wěn)態(tài)業(yè)務(wù)也有新的敏態(tài)業(yè)務(wù),技術(shù)體系不一,產(chǎn)生的運(yùn)維數(shù)據(jù)也具備不同的類型和格式,需要不同的采集和解讀方式。隨著時間積累,運(yùn)維數(shù)據(jù)量呈現(xiàn)爆發(fā)性增長趨勢。要發(fā)掘這些數(shù)據(jù)的價值,需要與時俱進(jìn)采用各種新技術(shù)手段,從各個數(shù)據(jù)源及時收集數(shù)據(jù),統(tǒng)一匯聚發(fā)送到數(shù)據(jù)中間件進(jìn)行加工處理。數(shù)據(jù)采集負(fù)責(zé)將智能運(yùn)維所需要的各類數(shù)據(jù)接入至智能運(yùn)維平臺,一般包括但不限于日志數(shù)據(jù)、性能指標(biāo)數(shù)據(jù)、網(wǎng)絡(luò)抓包數(shù)據(jù)、用戶行為數(shù)據(jù)、告警數(shù)據(jù)、配置管理數(shù)據(jù)以及運(yùn)維流程類數(shù)據(jù)等。
數(shù)據(jù)質(zhì)量對數(shù)據(jù)價值具有非常直接的影響。如何確保數(shù)據(jù)準(zhǔn)確性和完整、及時、可靠地進(jìn)行采集處理是關(guān)鍵。常見的IT軟硬件系統(tǒng)產(chǎn)生的運(yùn)維數(shù)據(jù)通常具有多個數(shù)據(jù)源。由于信息化系統(tǒng)不一定具備統(tǒng)一的應(yīng)用規(guī)范、日志規(guī)范,信息系統(tǒng)數(shù)據(jù)源容易受到噪聲數(shù)據(jù)、數(shù)據(jù)值缺失與數(shù)據(jù)沖突等負(fù)面影響。
通過引入數(shù)據(jù)預(yù)處理可以有效提升數(shù)據(jù)質(zhì)量,并提升后繼數(shù)據(jù)分析和可視化的效果。數(shù)據(jù)清理技術(shù)包括數(shù)據(jù)一致性檢測技術(shù)、數(shù)據(jù)過濾技術(shù)、數(shù)據(jù)修正技術(shù)以及數(shù)據(jù)噪聲平滑技術(shù)等。而數(shù)據(jù)歸約技術(shù)可以在確保挖掘結(jié)果準(zhǔn)確性的前提下,降低數(shù)據(jù)集規(guī)模。經(jīng)過數(shù)據(jù)轉(zhuǎn)換處理后,數(shù)據(jù)被變換或統(tǒng)一,不僅簡化處理與分析過程,提升時效性,也使得分析挖掘的算法、模式更容易被理解。數(shù)據(jù)轉(zhuǎn)換處理技術(shù)包括基于規(guī)則或元數(shù)據(jù)的轉(zhuǎn)換技術(shù)、基于模型和學(xué)習(xí)的轉(zhuǎn)換技術(shù)等。數(shù)據(jù)處理流程如圖2所示。
目前電網(wǎng)企業(yè)中主要數(shù)據(jù)存儲介質(zhì)類型包括內(nèi)存和外存(磁盤、磁帶、光盤等)等。根據(jù)運(yùn)維數(shù)據(jù)類型和消費(fèi)場景,可以選擇不同的數(shù)據(jù)存儲方式。主要數(shù)據(jù)組織管理方式包括傳統(tǒng)的塊級存儲方式、NAS級文件存儲方式、結(jié)構(gòu)化數(shù)據(jù)庫組織等。大數(shù)據(jù)特征和應(yīng)用特點(diǎn)恰好和現(xiàn)實(shí)IT環(huán)境中的不同的存儲介質(zhì)和組織管理形式映射。
傳統(tǒng)的獨(dú)占式存儲只能向上擴(kuò)展,很容易達(dá)到性能和容量的天花板。在這個大數(shù)據(jù)和信息爆炸時代,分布式存儲已經(jīng)成為大數(shù)據(jù)存儲的主流技術(shù),其性能與成本呈線性增長關(guān)系;各個節(jié)點(diǎn)相互冗余,可以物理分布在不同的數(shù)據(jù)中心,對外提供統(tǒng)一的存儲能力,借助IP網(wǎng)絡(luò)完成數(shù)據(jù)通信和數(shù)據(jù)傳輸。通過采用通用的標(biāo)準(zhǔn)化硬件,降低了單位容量成本,有效緩解數(shù)據(jù)的存儲的容量和性能挑戰(zhàn),降低管理難度。相對于傳統(tǒng)的SAN存儲和NAS存儲,分布式存儲具有經(jīng)濟(jì)、高效、高可用等特點(diǎn),快速取代了傳統(tǒng)IOE體系的存儲。
文檔存儲以封包KV鍵值對的方式進(jìn)行存儲,是NoSQL存儲的一種方式,相對于傳統(tǒng)關(guān)系模型無需強(qiáng)制架構(gòu),支持嵌套,更加關(guān)注文檔內(nèi)部的結(jié)構(gòu),直接支持二級index高效查詢。文檔存儲支持對結(jié)構(gòu)化數(shù)據(jù)的訪問。應(yīng)用開發(fā)時做好檢索封包等約定,或根據(jù)數(shù)據(jù)特點(diǎn)劃分不同的文檔集合。KV存儲磁盤讀寫次數(shù)相對較少,比起傳統(tǒng)的SQL數(shù)據(jù)庫讀寫性能更加出色,不涉及太多數(shù)據(jù)關(guān)系的業(yè)務(wù)數(shù)據(jù)。
列式存儲將數(shù)據(jù)按行排序,以流的方式在列中存儲所有的數(shù)據(jù)。列式數(shù)據(jù)庫非常適合大數(shù)據(jù)批量處理和即時查詢場景,可以有效減少數(shù)據(jù)量讀取I/O需求,降低系統(tǒng)負(fù)載提高處理效率。
圖形數(shù)據(jù)庫可用于描述真實(shí)世界的各種對象關(guān)系,如社交圖譜建模等。使用傳統(tǒng)關(guān)系數(shù)據(jù)庫技術(shù)無法滿足現(xiàn)實(shí)世界IT系統(tǒng)中錯綜復(fù)雜的關(guān)聯(lián)關(guān)系超大量圖形數(shù)據(jù)的存儲、查詢等需求,而圖形數(shù)據(jù)庫正好滿足了圖形數(shù)據(jù)的查詢、遍歷、求最短路徑等需求。
運(yùn)維大數(shù)據(jù)存儲方式如圖3所示。
數(shù)據(jù)中心大量信息系統(tǒng)以及各類平臺、主機(jī)、服務(wù)器、網(wǎng)絡(luò)設(shè)備、安全設(shè)備、數(shù)據(jù)庫在運(yùn)行過程中會產(chǎn)生大量的運(yùn)行日志、安全日志和行為日志。因此,需要建立相對完善的數(shù)據(jù)模型以便提升分析能力,包括相對成熟的存量數(shù)據(jù)信息的統(tǒng)計分析技術(shù),以及未知數(shù)據(jù)信息挖掘和學(xué)習(xí)預(yù)測技術(shù)。后者發(fā)展非常迅速,在互聯(lián)網(wǎng)行業(yè)應(yīng)用廣泛,但針對電網(wǎng)企業(yè)數(shù)據(jù)中心運(yùn)維場景還存在具體落地應(yīng)用的挑戰(zhàn)。
運(yùn)維數(shù)據(jù)對于專業(yè)IT運(yùn)維有規(guī)律可循,但對于業(yè)務(wù)人員如何簡潔、高效呈現(xiàn)數(shù)據(jù)信息的規(guī)律和價值則更為關(guān)鍵。數(shù)據(jù)信息的傳遞和溝通是數(shù)據(jù)可視化的重要目標(biāo)。借助計算機(jī)圖形圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)化為各類圖表在大屏幕呈現(xiàn)是傳統(tǒng)方式,借助最新的游戲技術(shù)甚至VR技術(shù)還可以實(shí)現(xiàn)人機(jī)數(shù)據(jù)交互處理。數(shù)據(jù)庫中的數(shù)據(jù)項不再是冷冰冰的單個圖元屬性或平面的數(shù)據(jù)圖像,可以多維度檢索、觀測、分析。
構(gòu)建面向業(yè)務(wù)價值的運(yùn)維體系離不開優(yōu)秀的運(yùn)維管理平臺。在智能運(yùn)維落地的過程中,數(shù)據(jù)的來源、算法的實(shí)施與智能運(yùn)維場景落地等都離不開智能運(yùn)維平臺的有效支撐。智能運(yùn)維管理平臺包括以下模塊:
配置管理模塊包含了數(shù)據(jù)中心中各類IT資源的關(guān)鍵屬性和物理、邏輯拓?fù)潢P(guān)聯(lián)關(guān)系,除了資產(chǎn)類應(yīng)用資源管理、基礎(chǔ)資源管理能力,還具備按需靈活拓展、建立與配置運(yùn)維對象之間的關(guān)系的能力。
即運(yùn)維監(jiān)控數(shù)據(jù)的獲取,對業(yè)務(wù)質(zhì)量的監(jiān)控和告警。在構(gòu)建立體化監(jiān)控的過程中,收集數(shù)據(jù)并非最終目標(biāo),挖掘數(shù)據(jù)的價值才能體現(xiàn)運(yùn)維價值所在,一般運(yùn)維對業(yè)務(wù)質(zhì)量保障的定義為幾個維度(圖4)。
(1)監(jiān)控,主要關(guān)注覆蓋率、狀態(tài)反饋、指標(biāo)度量。監(jiān)控需要從底層硬件到上層軟件應(yīng)用全覆蓋。
(2)告警,關(guān)注告警及時性、準(zhǔn)確性、關(guān)聯(lián)性等。業(yè)務(wù)越來越復(fù)雜,每一個監(jiān)控點(diǎn)都會產(chǎn)生數(shù)據(jù)指標(biāo)、一個點(diǎn)狀態(tài)異常可能造成海量重復(fù)告警。通過引入算法有效分級、追蹤、關(guān)聯(lián)、收斂、抑制,是智能告警的重要一環(huán)。結(jié)合CMDB中運(yùn)維對象的關(guān)聯(lián)關(guān)系,以面向業(yè)務(wù)的視角,將低層次的指標(biāo)收斂為高層次的指標(biāo),實(shí)現(xiàn)技術(shù)運(yùn)營數(shù)據(jù)的價值挖掘。
(3)運(yùn)營,根因分析、事件管理、統(tǒng)計報表與考核。通過事件管理機(jī)制保證RCA落地,通過報表和考核推動運(yùn)維優(yōu)化提升。
日常運(yùn)維作業(yè)實(shí)施包括運(yùn)維工具箱、任務(wù)調(diào)度等功能,批量作業(yè)實(shí)現(xiàn)減員增效的同時降低風(fēng)險。其中包括兩個亮點(diǎn)。
(1)故障自愈。根據(jù)告警事件、故障診斷的結(jié)果的輸出,按規(guī)則觸發(fā)標(biāo)準(zhǔn)變更自動化作業(yè)的過程,全程無須人工介入。
(2)基線偏離預(yù)警。不同于傳統(tǒng)的固化的閾值報警體系,通過對各個系統(tǒng)運(yùn)行指標(biāo)采集自動采集,動態(tài)設(shè)定系統(tǒng)正常運(yùn)行的“基準(zhǔn)線”,對于基線偏離主動預(yù)警、防患未然。
大數(shù)據(jù)和智能運(yùn)維技術(shù)在IT運(yùn)維領(lǐng)域的應(yīng)用將開啟IT運(yùn)維的新時代,由數(shù)據(jù)驅(qū)動智慧運(yùn)維,實(shí)現(xiàn)個性化服務(wù),深度挖掘電網(wǎng)企業(yè)業(yè)務(wù)熱點(diǎn)及痛點(diǎn),大大減少對個體依賴,逐步以機(jī)器和算法代替人海戰(zhàn)術(shù),實(shí)現(xiàn)智能監(jiān)控、分析、判斷、決策和操作,從而實(shí)現(xiàn)成本管理、效率提升、質(zhì)量保障的精益化管理。