國(guó)網(wǎng)寧夏電力有限公司電力調(diào)度控制中心 徐建忠 李 桐 蘇 波 楊 宏 孫 原
隨著當(dāng)今信息從發(fā)展過度不斷加快,大數(shù)據(jù)運(yùn)維是各行各業(yè)運(yùn)維管理的重要方向之一,電力企業(yè)也不例外。電力企業(yè)運(yùn)維故障監(jiān)控工作很多時(shí)候需要邀請(qǐng)多位運(yùn)維專家進(jìn)行事故檢測(cè)與根源排查。安全運(yùn)維是整個(gè)運(yùn)維管理工作中非常重要原則之一,如何進(jìn)一步優(yōu)化電力IT運(yùn)維監(jiān)控管理,是電力企業(yè)當(dāng)前需要解決的首要問題。
運(yùn)行監(jiān)控類場(chǎng)景。主要作用是對(duì)應(yīng)用系統(tǒng)具體運(yùn)行狀況進(jìn)行實(shí)時(shí)監(jiān)控。對(duì)網(wǎng)絡(luò)層面、系統(tǒng)層面以及應(yīng)用監(jiān)控層面,電力企業(yè)一般都會(huì)采取運(yùn)維成熟的監(jiān)控產(chǎn)品來實(shí)現(xiàn)企業(yè)的正常運(yùn)轉(zhuǎn)。而大數(shù)據(jù)處理技術(shù)能夠運(yùn)用在業(yè)務(wù)交易級(jí)別對(duì)其實(shí)施監(jiān)控。采用流數(shù)據(jù)處理技術(shù),對(duì)應(yīng)用交易日志開展信息、數(shù)據(jù)的實(shí)時(shí)采集-匯聚-過濾-關(guān)聯(lián)-計(jì)算-發(fā)展。依靠大數(shù)據(jù)彈性分布式構(gòu)架以及強(qiáng)大計(jì)算性能方面,監(jiān)控指標(biāo)可以通過時(shí)間維度、指標(biāo)維度以及業(yè)務(wù)維度的同時(shí)匯集進(jìn)行計(jì)算,實(shí)現(xiàn)大數(shù)據(jù)交易監(jiān)控顆粒由粗獷到細(xì)化的整體監(jiān)控。
性能容量類場(chǎng)景。一般而言,性能數(shù)據(jù)主要通過大數(shù)據(jù)系統(tǒng)監(jiān)控平臺(tái)對(duì)其相關(guān)信息進(jìn)行采集并展現(xiàn)出來,但跟數(shù)據(jù)的交易類型相割裂,很難通過數(shù)據(jù)的交易量的變化對(duì)其性能數(shù)據(jù)開展關(guān)聯(lián)性分析,進(jìn)而找到數(shù)據(jù)運(yùn)營(yíng)的規(guī)律所在。因此,大數(shù)據(jù)系統(tǒng)作為一個(gè)平臺(tái),對(duì)運(yùn)維數(shù)據(jù)進(jìn)行匯集,通過對(duì)數(shù)據(jù)標(biāo)識(shí)資源標(biāo)簽進(jìn)一步實(shí)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)顯示,為進(jìn)一步發(fā)現(xiàn)應(yīng)用數(shù)據(jù)吞吐量跟資源消耗二者存在的規(guī)律提供可行性的數(shù)據(jù)分析依據(jù)。對(duì)于以往歷史性數(shù)據(jù),可充分使用大數(shù)據(jù)技術(shù)對(duì)其應(yīng)用模型進(jìn)行訓(xùn)練與測(cè)算,推測(cè)出性能資源的消耗方向,進(jìn)一步完善歷史數(shù)據(jù)基線的告警信號(hào),為大數(shù)據(jù)下的電力資源配置以及年度信息容量規(guī)劃提供充足依據(jù)。
分析決策類場(chǎng)景。事故前的預(yù)測(cè),一是通過大數(shù)據(jù)處理技術(shù)對(duì)大量運(yùn)維數(shù)據(jù)開展模式化處理,二是數(shù)據(jù)之間的關(guān)聯(lián)度分析。由此找到事故出現(xiàn)的預(yù)兆與發(fā)生的規(guī)律,爭(zhēng)取在下次故障來臨之前做好預(yù)防以及補(bǔ)救措施,盡可能的避免故障的發(fā)生、縮小故障發(fā)生所引起的損害范圍以及降低小故障轉(zhuǎn)化為大故障發(fā)生的機(jī)率等諸多情況,提供可靠、精準(zhǔn)的判斷;事故發(fā)生中的定位,主要發(fā)生在故障發(fā)生過程中,怎樣在告警信號(hào)發(fā)出后及時(shí)、精準(zhǔn)、有效的找出故障的位置以及根源能力。通過數(shù)據(jù)資源之間的匯聚,大數(shù)據(jù)技術(shù)充分運(yùn)用之下高度實(shí)現(xiàn)故障報(bào)警自動(dòng)化識(shí)別的基本定位。通過數(shù)據(jù)的集匯,在大數(shù)據(jù)處理能力的幫助下,高效找到故障告警信號(hào)的自動(dòng)化識(shí)別與定位。能夠大幅度降低故障排除所用的時(shí)間以及各方面資源的投入力度,進(jìn)一步提升業(yè)務(wù)之間的關(guān)聯(lián)性。
科技優(yōu)化類場(chǎng)景。這類場(chǎng)景的立腳點(diǎn)比較高,通過對(duì)運(yùn)行數(shù)據(jù)從整體上進(jìn)行綜合分析,對(duì)生產(chǎn)的環(huán)境以及應(yīng)用框架提出合理化建議。比如:通過對(duì)電子商務(wù)不同物品的交易量進(jìn)行分析,可發(fā)現(xiàn)客戶對(duì)不同商品的喜愛程度,進(jìn)而推測(cè)客戶的喜好,通過對(duì)同類產(chǎn)品不同銷售渠道的處理時(shí)間進(jìn)行研究與分析,根據(jù)分析結(jié)果進(jìn)一步改善客戶體驗(yàn)的方式或者渠道,通過對(duì)多活架構(gòu)主機(jī)交易情況的分析,進(jìn)一步通過對(duì)各種交易鏈接交易所消耗的時(shí)間計(jì)算并發(fā)現(xiàn)數(shù)據(jù)應(yīng)用群體交易處理的難關(guān)等。
就當(dāng)前情況而言,運(yùn)維管理中存在諸多潛在風(fēng)險(xiǎn)點(diǎn)的挖掘以及系統(tǒng)故障預(yù)測(cè)功能方面有待升級(jí)優(yōu)化。其一,現(xiàn)行運(yùn)維的基礎(chǔ)結(jié)構(gòu)隨著時(shí)代的需求越來越復(fù)雜,所涉及到的平臺(tái)逐漸增多,大數(shù)據(jù)的形態(tài)多種多樣,數(shù)據(jù)的存放比較分散,數(shù)據(jù)保存質(zhì)量以及規(guī)范性不足,難以實(shí)現(xiàn)高效整合;其二,不同運(yùn)維數(shù)據(jù)所生成的維度以及顆粒度“井噴”,現(xiàn)行的運(yùn)維平臺(tái)沒有吞吐大量數(shù)據(jù)以及數(shù)據(jù)計(jì)算的能力,各類運(yùn)維數(shù)據(jù)的整合以及數(shù)據(jù)預(yù)測(cè)性分析很難完成,非常容易造成“救火式”運(yùn)維形式的出現(xiàn)。運(yùn)維管理場(chǎng)景監(jiān)控在當(dāng)前還沒有很好的實(shí)現(xiàn)一個(gè)由被動(dòng)向主動(dòng)預(yù)防的轉(zhuǎn)型,需要下一步將數(shù)模型逐漸滲透其中,對(duì)運(yùn)維場(chǎng)景進(jìn)行故障預(yù)測(cè)與檢驗(yàn),構(gòu)建運(yùn)維監(jiān)控管理自身的主動(dòng)預(yù)防能力。
運(yùn)維安全程度高低非常重要,特別是針對(duì)一些電網(wǎng)企業(yè),運(yùn)維安全是其重要生命線,對(duì)運(yùn)行監(jiān)控針對(duì)異常事件以及突發(fā)故障的及時(shí)識(shí)別能力要求非常高。其一,企業(yè)對(duì)運(yùn)維系統(tǒng)分析數(shù)據(jù)結(jié)果的時(shí)效性要求逐漸提高,傳統(tǒng)的離線場(chǎng)景計(jì)算已經(jīng)遠(yuǎn)遠(yuǎn)不能夠滿足當(dāng)下的計(jì)算要求,迫使傳統(tǒng)的離線計(jì)算場(chǎng)景逐漸向當(dāng)下計(jì)算場(chǎng)景靠近;其二,隨著時(shí)代信息化的高速發(fā)展,產(chǎn)生了更多的不同類型、不同顆粒度下的運(yùn)維數(shù)據(jù),企業(yè)所能收集到的運(yùn)維量不斷提高,企業(yè)對(duì)于運(yùn)維數(shù)據(jù)自身的處理能力要求越來越高,對(duì)其重視度有增無減。如何有效借助大數(shù)據(jù)所擁有的處理能力,及時(shí)有效的實(shí)現(xiàn)快速處理多種數(shù)據(jù)的能力,同時(shí)識(shí)別運(yùn)行中存在的風(fēng)險(xiǎn)以及故障,成為企業(yè)運(yùn)維管理工作中一大新的挑戰(zhàn)。
在傳統(tǒng)運(yùn)維管理過程中,面對(duì)負(fù)載多變的監(jiān)控業(yè)務(wù)以及問題診斷,一般都是依靠運(yùn)維人員的技術(shù)以及經(jīng)驗(yàn)來找到事件與指標(biāo)二者之間的關(guān)系,進(jìn)一步對(duì)故障位置進(jìn)行定位。在故障實(shí)施定位中,同時(shí)再集合多為運(yùn)維專業(yè)人士進(jìn)行診斷的時(shí)候,已經(jīng)在時(shí)間上造成了浪費(fèi)。
在實(shí)施診斷的過程中,其一根據(jù)專業(yè)人士的專業(yè)技能與工作經(jīng)驗(yàn)開展對(duì)故障的檢驗(yàn),但是存在一定程度上主管隨意性,面對(duì)當(dāng)今迅速更新變遷的大數(shù)據(jù)時(shí)代,多種多樣的運(yùn)維新型系統(tǒng)以及新故障、新風(fēng)險(xiǎn)不斷出現(xiàn),單純的依據(jù)運(yùn)維專業(yè)人員的技術(shù)與經(jīng)驗(yàn)對(duì)故障位置進(jìn)行定位;其二、隨著當(dāng)今運(yùn)維場(chǎng)景的不斷變化、場(chǎng)景的復(fù)雜程度越來越高,不同系統(tǒng)以及平臺(tái)的高度集成,在傳統(tǒng)運(yùn)維管理情況下,事故的定位精準(zhǔn)度越來越低、定位的及時(shí)性越來越差等缺點(diǎn)逐漸暴露出來。假設(shè)進(jìn)一步提高事故發(fā)生之后根本原因分析的能力,IT運(yùn)維管理必然要由粗放式向精細(xì)化方向發(fā)展,同時(shí)借助大數(shù)據(jù)的處理能力,對(duì)事故發(fā)生后根本原因的分析過程進(jìn)行自動(dòng)化改革,最大限度的節(jié)約人力資源,將事故發(fā)生后根本原因分析的精準(zhǔn)度以及處理速度進(jìn)一步提高。
周期性分析與指標(biāo)性能、故障警報(bào)、日志紀(jì)律等是依據(jù)周期性而發(fā)生的規(guī)律性,主要作用于運(yùn)維實(shí)施挖掘分析以及數(shù)據(jù)中反復(fù)事物的挖掘。周期性分析可充分運(yùn)用在指標(biāo)基線預(yù)測(cè)當(dāng)中。IT運(yùn)維服務(wù)系統(tǒng)的服務(wù)商應(yīng)用周期分析可以在運(yùn)維大數(shù)據(jù)平臺(tái)中根據(jù)已有額程序衍生出更多運(yùn)維大數(shù)據(jù)。例如充分運(yùn)用大數(shù)據(jù)所擁有的自動(dòng)化籌集資料以及學(xué)習(xí)業(yè)務(wù)的運(yùn)行規(guī)律而生成的指標(biāo)動(dòng)態(tài)預(yù)警基本警戒線,能夠擺脫以往“經(jīng)驗(yàn)式”的故障運(yùn)維警戒線模式,有效提高運(yùn)行監(jiān)控的精準(zhǔn)度。
在業(yè)務(wù)高峰期出現(xiàn)階段,為求IT系統(tǒng)的穩(wěn)定,一般運(yùn)行做法是根據(jù)相應(yīng)業(yè)務(wù)部門提交上來的業(yè)務(wù)量以及上漲的預(yù)估值,繼而對(duì)IT系統(tǒng)基本性能增長(zhǎng)的百分比進(jìn)行判斷。舉例來講,假設(shè)預(yù)估下一年第一季度的業(yè)務(wù)上漲量有可能達(dá)到45%,進(jìn)而保障業(yè)務(wù)水平處于高峰期的時(shí)候IT系統(tǒng)的承載能力是多少。這樣的IT運(yùn)維決策嚴(yán)重缺失實(shí)際數(shù)據(jù)支持,存在風(fēng)險(xiǎn)較大,如果IT投入較少,極有可能造成整IT業(yè)務(wù)系統(tǒng)運(yùn)營(yíng)服務(wù)系統(tǒng)的崩潰,反之就會(huì)造成網(wǎng)絡(luò)系統(tǒng)資源的一種浪費(fèi)。如果通過周期性分析為基礎(chǔ)的指標(biāo)基線預(yù)測(cè)的優(yōu)質(zhì)在這里充分體現(xiàn)出來,通過進(jìn)一步對(duì)歷史性運(yùn)維數(shù)據(jù)的了解與分析,預(yù)測(cè)未來一段時(shí)間(一周)內(nèi)有關(guān)數(shù)據(jù)的各項(xiàng)指標(biāo)數(shù)值的變化趨勢(shì)圖,運(yùn)營(yíng)商的運(yùn)維工作人員可以依據(jù)基線預(yù)測(cè)來對(duì)業(yè)務(wù)高峰期的相關(guān)IT數(shù)值指標(biāo)的可能運(yùn)行狀態(tài)進(jìn)行預(yù)測(cè),進(jìn)而做到預(yù)防工作,深層次保障業(yè)務(wù)處理系統(tǒng)的平穩(wěn)性以及安全性。
數(shù)據(jù)是解決運(yùn)維效率,提高運(yùn)維自動(dòng)化、智能化水平的核心所在,電力企業(yè)應(yīng)該致力于調(diào)度、數(shù)據(jù)故障處理以及質(zhì)量調(diào)優(yōu)等多個(gè)場(chǎng)景當(dāng)中,積極實(shí)現(xiàn)大數(shù)據(jù)處理的自動(dòng)化,進(jìn)一步完善大數(shù)據(jù)搭建的平臺(tái)建設(shè),充分發(fā)揮大數(shù)據(jù)平臺(tái)的支撐作用。提升運(yùn)行效率,進(jìn)一步完善運(yùn)維大數(shù)據(jù)本身的自動(dòng)化以及智能化水平,最終達(dá)到運(yùn)維大數(shù)據(jù)的告訴處理,高效應(yīng)對(duì)運(yùn)維故障中數(shù)據(jù)井噴現(xiàn)象的發(fā)生。針對(duì)離線數(shù)據(jù)進(jìn)行分析,Hadoop相關(guān)數(shù)據(jù)云計(jì)算平臺(tái)可以充分利用數(shù)據(jù)挖掘計(jì)算方法高效實(shí)現(xiàn)對(duì)大量數(shù)據(jù)廣域運(yùn)維系統(tǒng)數(shù)據(jù)開展高效處理。實(shí)時(shí)數(shù)據(jù)分析,在流處理模式之下的大數(shù)據(jù)處理技術(shù)的重點(diǎn)在于產(chǎn)生數(shù)據(jù)實(shí)時(shí)計(jì)算同時(shí)可以將結(jié)果充分表現(xiàn)出來。
相關(guān)性分析主要應(yīng)用于跨業(yè)務(wù)軟件系統(tǒng)、跨軟件與硬件設(shè)備以及跨自動(dòng)化數(shù)據(jù)工具等所產(chǎn)生的多個(gè)指標(biāo)之間內(nèi)部存在的關(guān)聯(lián)性,主要應(yīng)用在運(yùn)維故障根本原因的挖掘以及發(fā)現(xiàn)潛在故障原因等模塊。數(shù)據(jù)相關(guān)性分析法可以運(yùn)用在告警根本原因的挖掘方面,有助于專業(yè)運(yùn)維工作人員高效搜索到告警信息具體是從哪里生發(fā)出來的。
例如:A、B兩個(gè)服務(wù)器在某些業(yè)務(wù)上存在關(guān)聯(lián)性,A服務(wù)器Tomcat由于CPU的占據(jù)比例較高,發(fā)出告警信號(hào);B服務(wù)器上面的Oracle死鎖數(shù)不斷增長(zhǎng),進(jìn)而發(fā)出告警信號(hào)。針對(duì)歷史運(yùn)維告警數(shù)據(jù),同時(shí)對(duì)其開展大數(shù)據(jù)關(guān)聯(lián)性研析,發(fā)現(xiàn)這兩個(gè)貌似沒有任何聯(lián)系的指標(biāo)竟然在同一時(shí)刻發(fā)出告警信號(hào)的概率超過90%;在相關(guān)性分析挖下可以發(fā)現(xiàn),可以跟A服務(wù)器上面的Tomcat在同一時(shí)間發(fā)出告警信號(hào)這一指標(biāo)的還有C交換機(jī)上面某個(gè)端口流量與A服務(wù)器上面URL協(xié)同響起的時(shí)間,發(fā)生的幾率分別為85%以及80%。通過成分運(yùn)用大數(shù)據(jù)技術(shù)開展實(shí)時(shí)學(xué)習(xí)、研究與分析的基本特性,運(yùn)維工作人員能夠依據(jù)相關(guān)性發(fā)生的概率在最短的時(shí)間內(nèi)挖掘告警信號(hào)發(fā)出的位置以及原因,從而進(jìn)一步完善運(yùn)維關(guān)系庫與知識(shí)庫,盡可能的降低人工排查過程中人力、物力以及財(cái)力方面的支出,從根本上將潛在的故障風(fēng)險(xiǎn)排除,保障電力系統(tǒng)穩(wěn)定、安全的運(yùn)營(yíng)。
安全性分析:本項(xiàng)目是以計(jì)算機(jī)和數(shù)據(jù)通信網(wǎng)絡(luò)為基礎(chǔ)的應(yīng)用系統(tǒng),不采取安全保密措施與網(wǎng)絡(luò)系統(tǒng)連接的任何終端都可能導(dǎo)致安全隱患,所以管理信息系統(tǒng)安全保障工作對(duì)提高社會(huì)信息化水平具有深遠(yuǎn)的現(xiàn)實(shí)意義。本項(xiàng)目實(shí)施全過程無需現(xiàn)有網(wǎng)絡(luò)設(shè)備及其他電器設(shè)備停電,不影響網(wǎng)絡(luò)設(shè)備運(yùn)行,亦無需采取過渡措施。保證原有系統(tǒng)正常運(yùn)行,采用逐步升級(jí)過渡的方式。
效能與成本分析:本項(xiàng)目的完成,可以對(duì)變電站的設(shè)備運(yùn)行、監(jiān)控?cái)?shù)據(jù)的存儲(chǔ)-分析-可視化展示,進(jìn)一步完善變電站設(shè)備監(jiān)控?cái)?shù)據(jù)相應(yīng)的管理以及分析機(jī)制,提高設(shè)備狀態(tài)評(píng)估和預(yù)測(cè)的準(zhǔn)確性,通過預(yù)警預(yù)判,提高對(duì)設(shè)備運(yùn)行狀態(tài)的認(rèn)知,可有效開展設(shè)備消缺與檢修,同時(shí)電網(wǎng)分析將更具有針對(duì)性,可有效配置系統(tǒng)備用和通過方式調(diào)整,保障電網(wǎng)及百日運(yùn)行安全,確保調(diào)控一體安全高效運(yùn)作,降低設(shè)備事故、電網(wǎng)事故的概率及發(fā)生的后果,為公司帶來不可估量的經(jīng)濟(jì)效益和社會(huì)效益。
政策適應(yīng)性分析:根據(jù)調(diào)監(jiān)2016年出臺(tái)的第57號(hào)《基于監(jiān)控?cái)?shù)據(jù)的變電站設(shè)備運(yùn)行大數(shù)據(jù)分析功能需求規(guī)范(2016版)》以及《216年出版的124號(hào)《基于監(jiān)控?cái)?shù)據(jù)的變電站設(shè)備運(yùn)行大數(shù)據(jù)分析系統(tǒng)功能需求規(guī)范等三項(xiàng)規(guī)范》以及2019年運(yùn)行監(jiān)控場(chǎng)景的大數(shù)據(jù)提出了推廣變電站設(shè)備運(yùn)行大數(shù)據(jù)分析與應(yīng)用,公司“十三五”行動(dòng)計(jì)劃中示范工程單位實(shí)現(xiàn)在所有地調(diào)上線運(yùn)行。因此需要對(duì)國(guó)網(wǎng)寧夏電力調(diào)度控制中心調(diào)度控制系統(tǒng)變電站監(jiān)控大數(shù)據(jù)分析改造,實(shí)現(xiàn)地調(diào)監(jiān)控大數(shù)據(jù)全面覆蓋,從而滿足上述文件的要求。