趙峰 陸宏波
摘 要:文章主要研究AI在電力行業(yè)信息運維領域的探索與實踐,首先論述了電力行業(yè)信息運維存在的困境,介紹了繼遠軟件智能運維方案的核心理念和總體架構,說明了智能運維與自動化運維和運維人員的關系,總結了智能運維平臺演進路線,最后展示了繼遠軟件在智能運維方面的實踐成果。
關鍵詞:AI;電力行業(yè);信息運維;探索;實踐
中圖分類號:TP18 文獻標志碼:A 文章編號:2095-2945(2018)36-0022-02
Abstract: This paper mainly studies the exploration and practice of AI in the field of information operation and maintenance in power industry. Firstly, it discusses the difficult position of information operation and maintenance in power industry, and introduces the core idea and general framework of the intelligent operation and maintenance scheme of Jiyuan software. This paper explains the relationship between intelligent operation and maintenance and automatic operation and maintenance personnel, summarizes the evolution route of intelligent operation and maintenance platform, and finally shows the practical results of Jiyuan software in intelligent operation and maintenance.
Keywords: AI; power industry; information operation and maintenance; exploration; practice
引言
國家電網(wǎng)有限公司經(jīng)過多年的信息化建設,信息化成果顯著。隨著業(yè)務發(fā)展和技術變革,國家電網(wǎng)的信息運維也面臨著一些困境,主要體現(xiàn)在業(yè)務變化對傳統(tǒng)運維管理的沖擊以及運維管理需求的轉變。
在傳統(tǒng)的運維管理架構下,基本實現(xiàn)了質量、效率、成本三者之間的平衡。但隨著業(yè)務不斷變化,導致在新業(yè)務環(huán)境下,質量、效率和成本之間的平衡點失調,即在現(xiàn)有的成本下,無法滿足高質量和高效率的要求,從而使運維管理之間的矛盾不斷升級。因此,為了滿足運維管理中的成本、效率和質量三者重新達到平衡,滿足業(yè)務需求,運維管理也需根據(jù)業(yè)務變化動態(tài)調整。
本文對AI在電力行業(yè)信息運維領域的應用進行了研究和探索,并對研究成果進行了實踐應用,取得了良好的效果,為AI在信息系統(tǒng)運維領域的推廣應用和提升提供了重要的指導意義。
1 智能運維方案
智能運維的核心理念是“決策智能、作業(yè)自動、服務敏捷、遠程交付”,即提供決策智能和作業(yè)自動的運維智能工具集,提供服務敏捷和遠程交付的運維服務集。
本文以自動化和智能化運維技術為核心,以運維工具產(chǎn)品為載體,以服務為交付的總體模式,通過遠程交付、自動作業(yè)和智能決策,來解決當前運維面臨的困境??傮w架構如圖1所示。
(1)工具層:通過利用數(shù)據(jù)采集、場景化腳本、大數(shù)據(jù)存儲、智能學習模型等技術,構建自動采集、智能診斷、智能預測、智能處理的工具集。
(2)服務層:通過將現(xiàn)有的運維服務拆分為細顆粒服務,根據(jù)用戶需求重新組合,結合運維工具,向用戶提供運維解決方案。具體的運維服務包括:咨詢規(guī)劃、駐場運維、專項治理、維保服務等。
(3)管理方面:在開展智能運維方面,在國家電網(wǎng)公司和信通產(chǎn)業(yè)集團運維管理框架下,開展AIOps標準制定、制度流程完善和作業(yè)文件修訂等。
(4)團隊方面:組建多個專業(yè)、三個層次、三個新興崗位的運維團隊。多個專業(yè)包括:網(wǎng)絡、服務器、存儲、數(shù)據(jù)庫、業(yè)務應用和云平臺,三個層次包括:客服、現(xiàn)場二線和遠程三線。此外,增設研發(fā)運維工程師、大數(shù)據(jù)分析師和AI運維工程師三個崗位。
(5)合作方面:智能運維平臺研發(fā)難度較大、服務涉及面廣,需要與多方面開展合作。一是與集團內(nèi)部各單位合作整合其運維服務和工具產(chǎn)品;二是與外部工具產(chǎn)品廠商合作,具體需要與基礎網(wǎng)管工具廠商合作數(shù)據(jù)采集、與性能監(jiān)測廠商合作全鏈路監(jiān)控、與智能平臺廠商合作機器學習算法模型、與大數(shù)據(jù)廠商合作數(shù)據(jù)清洗和建模。
2 智能運維平臺演進路線
智能運維的前提條件是有基礎數(shù)據(jù)和操作腳本,因此,自動化是實現(xiàn)智能運維的基礎?;谝褜崿F(xiàn)自動化運維的基礎上,將智能運維演進路線劃分為5個階段,如表1所示。
3 實踐成果
繼遠軟件自2018年開始,以智能運維理念踐行開展智能運維服務,取得了一定的成果:
(1)決策智能:參加智能運維能力成熟度模型(AIOps)國家標準編制,搶占智能運維的制高點;開展智能運維的場景化梳理,目前已初步梳理智能決策預警閾值、智能選擇故障修復場景、智能客服問答等場景。
(2)作業(yè)自動:研發(fā)數(shù)據(jù)庫運維專用工具實現(xiàn)數(shù)據(jù)庫數(shù)據(jù)自動采集和規(guī)則分析,減少DBA運維人員的巡檢和分析工作量;研發(fā)虛擬流量監(jiān)控工具實現(xiàn)虛擬環(huán)境內(nèi)部流量可視化和透明化,減少網(wǎng)絡和安全運維人員的流量診斷工作量;研發(fā)接口管理工具實現(xiàn)捋順錯綜復雜的業(yè)務系統(tǒng)接口關系,減少業(yè)務系統(tǒng)管理人員的運行方式管理工作量;研發(fā)全鏈路監(jiān)控工具實現(xiàn)讓用戶單位感知并掌控IT全局架構和業(yè)務動態(tài),輔助業(yè)務管理人員和系統(tǒng)管理人員的故障診斷工作量。
(3)服務敏捷:將運維服務拆分為細顆粒度,實現(xiàn)服務的動態(tài)組合,滿足用戶不同需求快速定制;將運維服務與工具結合,提高運維工作效率和服務時效性;各類服務通過工具巡檢、分析、診斷等處理,提升服務敏捷度。
(4)遠程交付:在繼遠軟件云資源數(shù)據(jù)中心搭建遠程運維平臺,面向規(guī)模小、位置偏、人員少、費用不足的單位,提供遠程監(jiān)控、遠程應急、現(xiàn)場處置、客服調查督導的運維服務;在?。ㄊ校┕荆瑓f(xié)助科信部組建遠程運維中心,面向市縣公司開展運維監(jiān)控和遠程應急服務。
4 結束語
智能運維實現(xiàn)的目標就是減少對人的依賴,逐步信任機器,實現(xiàn)機器的自判、自斷和自決。智能運維技術的落地,不是一蹴而就的,是一個漸進和價值普及的過程。智能運維技術已經(jīng)成為新運維演化的一個開端,可以預見在更高效和更多的平臺實踐之后,智能運維還將為整個IT領域注入更多新鮮和活力,在未來發(fā)展和壯大下去,成為引領潮流的重要性力量。
參考文獻:
[1]高效運維社區(qū),AIOps標準工作組.企業(yè)級AIOps實施建議[Z].白皮書V0.6,2018:13.