馬平 徐偉東 沈浩欽 吳杭
(1.國網(wǎng)紹興供電公司,浙江紹興 312000;2.深圳市國電科技通信有限公司北京分公司,廣東深圳 100070)
電力大數(shù)據(jù)應(yīng)用現(xiàn)狀及多源異構(gòu)數(shù)據(jù)分析技術(shù)研究
馬平1徐偉東1沈浩欽1吳杭2
(1.國網(wǎng)紹興供電公司,浙江紹興 312000;2.深圳市國電科技通信有限公司北京分公司,廣東深圳 100070)
智能電網(wǎng)運(yùn)行、檢修和管理過程中會(huì)產(chǎn)生海量異構(gòu)、多態(tài)數(shù)據(jù),如何將它們進(jìn)行高效可靠存儲(chǔ),并實(shí)現(xiàn)快速分析訪問已是當(dāng)前電力系統(tǒng)中重要的研宄課題。本文在分析電力生產(chǎn)各個(gè)環(huán)節(jié)大數(shù)據(jù)的產(chǎn)生來源和特點(diǎn)基礎(chǔ)上,闡述市場已有大數(shù)據(jù)技術(shù)在電力系統(tǒng)應(yīng)用的優(yōu)勢和不足。最后,從電網(wǎng)異構(gòu)多源信息融合及可視化方向提出了一種應(yīng)用方法。
智能電網(wǎng) 大數(shù)據(jù) 異構(gòu)分析 可視化
近年來,隨著全球能源問題日益嚴(yán)峻[1],世界各國都開展了智能電網(wǎng)的研究工作。智能電網(wǎng)的最終目標(biāo)是建設(shè)成為覆蓋電力系統(tǒng)整個(gè)生產(chǎn)過程,包括發(fā)電、輸電、變電、配電、用電及調(diào)度等多個(gè)環(huán)節(jié)的全景實(shí)時(shí)系統(tǒng)。而支撐智能電網(wǎng)的基礎(chǔ)是電網(wǎng)大數(shù)據(jù)全景實(shí)時(shí)數(shù)據(jù)采集、傳輸、存儲(chǔ)以及快速分析。目前智能電網(wǎng)中的大數(shù)據(jù)主要來自以下幾個(gè)方面:
(1)海量電網(wǎng)狀態(tài)信息采集設(shè)備。常規(guī)的調(diào)度自動(dòng)化系統(tǒng)含數(shù)十萬個(gè)采集點(diǎn),配用電、數(shù)據(jù)中心將達(dá)到百萬甚至千萬級。需要監(jiān)測的設(shè)備數(shù)量巨大,每個(gè)設(shè)備都裝有若干傳感器,構(gòu)成了一個(gè)龐大的數(shù)據(jù)網(wǎng)。
(2)高頻電網(wǎng)狀態(tài)信息捕獲技術(shù)。為滿足上層應(yīng)用需求,設(shè)備的采樣頻率逐漸提高。在輸變電設(shè)備狀態(tài)監(jiān)測系統(tǒng)中,為了能對絕緣放電等狀態(tài)進(jìn)行診斷,信號的采樣頻率必須在200kHz以上,特高頻檢測需要GHz的采樣率。
(3)視頻及模式識別系統(tǒng)推廣。智能電網(wǎng)視頻監(jiān)控系統(tǒng)不僅要求能夠真實(shí)地反映電力系統(tǒng)的情況,并且還需自動(dòng)判斷情況的好與壞,同時(shí)自動(dòng)采取相關(guān)措施,是一個(gè)“會(huì)思考”、“能做事”的智能化系統(tǒng)。為此,需要電網(wǎng)具備強(qiáng)大存儲(chǔ)及處理能力。
谷歌公司提出的分布式文件系統(tǒng)(distributed file system,DFS)和MapReduce技術(shù),已成為現(xiàn)階段Facebook、雅虎等網(wǎng)絡(luò)公司大數(shù)據(jù)應(yīng)用的解決方案[2]。
DFS技術(shù),具備高容錯(cuò)性特點(diǎn),可部署在海量且價(jià)格低廉的硬件設(shè)備上,而且它為應(yīng)用程序提供了高吞吐量的數(shù)據(jù)訪問,適合那些有著超大數(shù)據(jù)集程序。MapReduce為2004年由谷歌公司提出的一個(gè)用來進(jìn)行并行處理和生成大數(shù)據(jù)集的并行編程模型。應(yīng)用“解析器”,將復(fù)雜數(shù)據(jù)關(guān)系進(jìn)行映射及化簡,配合DFS最終實(shí)現(xiàn)快速數(shù)據(jù)處理。但是,該方法應(yīng)用在電力系統(tǒng)中直接面向業(yè)務(wù)對象,就表現(xiàn)出一定局限性。
(1)數(shù)據(jù)形式多樣化。電網(wǎng)業(yè)務(wù)數(shù)據(jù)大致分為3類:一是電網(wǎng)運(yùn)行和設(shè)備檢測或監(jiān)測數(shù)據(jù);二是電力企業(yè)營銷數(shù)據(jù);三是電力企業(yè)管理數(shù)據(jù)。包含一維數(shù)據(jù)、二維數(shù)據(jù)、多維數(shù)據(jù)、文本與超文本、層次和圖形等多種形式。現(xiàn)有大數(shù)據(jù)技術(shù)無法直接或高效的分析處理。
(2)數(shù)據(jù)價(jià)值密度較低。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有1~2 s。在輸變電設(shè)備狀態(tài)監(jiān)測中存在同樣問題,所采集的絕大部分?jǐn)?shù)據(jù)都是正常數(shù)據(jù),只有極少量的異常數(shù)據(jù),而異常數(shù)據(jù)是狀態(tài)檢修的最重要依據(jù)。
電力系統(tǒng)若要應(yīng)用成熟大數(shù)據(jù)技術(shù),首先需對各類異構(gòu)信息進(jìn)行預(yù)處理,本文將就異構(gòu)多數(shù)據(jù)處理技術(shù)在電力系統(tǒng)應(yīng)用進(jìn)行分析,并簡述一種針對低價(jià)值密度數(shù)據(jù)集的可視化方法。
圖1 電力系統(tǒng)大數(shù)據(jù)處理框圖
圖2 數(shù)據(jù)自動(dòng)抽取與格式轉(zhuǎn)換模塊結(jié)構(gòu)
為更好闡述本文提出的面向電力系統(tǒng)多源異構(gòu)數(shù)據(jù)的多維分析與可視化方法,首先結(jié)合主要電力環(huán)節(jié)和信息處理流程,加入數(shù)據(jù)自動(dòng)抽取與格式轉(zhuǎn)換模塊(含實(shí)時(shí)在線訪問控制模塊)、以及多形式的可視化展示模塊,形成如圖1所示電力系統(tǒng)大數(shù)據(jù)處理框圖。
針對各自治系統(tǒng)提供數(shù)據(jù)方式的不同以及兼顧電力數(shù)據(jù)的特點(diǎn),提出并設(shè)計(jì)了一種多源異構(gòu)海量數(shù)據(jù)的實(shí)時(shí)數(shù)據(jù)自動(dòng)抽取與轉(zhuǎn)換模塊[3,4],模塊結(jié)構(gòu)如圖2所示。
該模塊包括實(shí)時(shí)控制監(jiān)測層、實(shí)時(shí)抽取格式處理層以及實(shí)時(shí)存儲(chǔ)層等。其中:
實(shí)時(shí)控制監(jiān)測層:主要完成多源數(shù)據(jù)的訪問權(quán)限的配置與管理、訪問的方式配置、訪問頻次設(shè)定以及異常處理等,目的是與各數(shù)據(jù)來源建立合法可靠的數(shù)據(jù)訪問機(jī)制。
實(shí)時(shí)自動(dòng)抽取與格式轉(zhuǎn)換處理層[5]:主要完成對實(shí)時(shí)監(jiān)測到的數(shù)據(jù)進(jìn)行正確性檢查,根據(jù)各異構(gòu)數(shù)據(jù)的不同抽取規(guī)則對實(shí)時(shí)在線獲取的數(shù)據(jù)進(jìn)行分類多線程的自動(dòng)抽取,并結(jié)合決策基礎(chǔ)數(shù)據(jù)庫的存儲(chǔ)設(shè)計(jì)要求進(jìn)行相應(yīng)格式轉(zhuǎn)換,形成具體統(tǒng)一規(guī)范的數(shù)據(jù)格式,此層顯然是最核心的處理層,在設(shè)計(jì)時(shí)要特別注意轉(zhuǎn)換的效率和轉(zhuǎn)換的正確性,是后期應(yīng)用的基礎(chǔ)性工作。
圖3 像素法數(shù)據(jù)可視化
實(shí)時(shí)存儲(chǔ)層[6]:主要完成對產(chǎn)品數(shù)據(jù)的保存和數(shù)據(jù)的實(shí)時(shí)利用,同時(shí)也方便以后歷史數(shù)據(jù)的查詢和統(tǒng)計(jì)分析等。
電網(wǎng)智能分析結(jié)果可視化是電力大數(shù)據(jù)應(yīng)用的一個(gè)重要的組成部分[7],可視化的效果直接影響到重要信息展示以及用戶決策。目前數(shù)據(jù)可視化已經(jīng)提出了許多方法,這些方法根據(jù)其原理不同可以劃分為基于幾何的技術(shù)、基于層次的技術(shù)、面向像素技術(shù)等?;趲缀闻c層次的可視化技術(shù)現(xiàn)階段已在較多領(lǐng)域應(yīng)用,且不適合含有低價(jià)值密度數(shù)據(jù)的數(shù)據(jù)集。
面向像素技術(shù)是現(xiàn)階段應(yīng)用于大數(shù)據(jù)展示的先進(jìn)技術(shù),它的基本思想是將每一個(gè)數(shù)據(jù)項(xiàng)的數(shù)據(jù)值對應(yīng)于一個(gè)帶顏色的圖片像素,對于不同的數(shù)據(jù)屬性以不同的窗口分別表示。
面向像素的可視化方法包含獨(dú)立于查詢的方法和基于查詢的方法兩種[8]。
獨(dú)立于查詢的方法將數(shù)據(jù)庫中的數(shù)據(jù)依從左到右(從上到下)的次序一行一行(一列一列)地排列顯示出來,類似于幾何可視化方法。
而基于查詢的方法是根據(jù)數(shù)據(jù)值同所查詢的要求的符合程度來匹配不同的顏色。針對每一個(gè)數(shù)據(jù)項(xiàng)的值(a1,a2,...,an)及查詢要求(q1,q2,...,qn)通過一個(gè)距離函數(shù)計(jì)算每個(gè)屬性值與查詢要求的匹配值,得到每個(gè)數(shù)據(jù)的一個(gè)總的距離值dn+1以反映數(shù)據(jù)項(xiàng)與查詢要求之間的匹配程度,總的距離值dn+1越小越是用戶所希望看到的數(shù)據(jù)。查詢的數(shù)據(jù)結(jié)果按dn+1的值由小到大從屏幕的中央螺旋地向四周展開。這樣不僅能看到所查詢的數(shù)據(jù),而且對于數(shù)據(jù)從近似匹配到不匹配的走勢也能直觀地表現(xiàn)。該種方法配合模式識別技術(shù),可對電力系統(tǒng)狀態(tài)檢修及故障專家決策系統(tǒng)有很大幫助。
未來的智能電網(wǎng)將是依托大數(shù)據(jù)分析處理技術(shù)的全景實(shí)時(shí)電網(wǎng)。本文針對行業(yè)內(nèi)海量數(shù)據(jù)預(yù)處理問題,提出了一種面向多源異構(gòu)數(shù)據(jù)的多維預(yù)處理模型,又針對電力系統(tǒng)低價(jià)值密度數(shù)據(jù)集普遍存在這一事實(shí),提出應(yīng)用像素可視化方法,最大限度地克服了現(xiàn)有系統(tǒng)分析力度不夠和可視化單調(diào)的不足,提高了基于電力大數(shù)據(jù)技術(shù)的應(yīng)用有效性。此外,該方法對非電力行業(yè)的分析與處理也有一定的參考價(jià)值。
[1]宋亞奇,周國亮.智能電網(wǎng)大數(shù)據(jù)處理技術(shù)現(xiàn)狀與挑戰(zhàn)[J].電網(wǎng)技術(shù),2013,3(4): 927-935.
[2]李國杰.大數(shù)據(jù)研究的科學(xué)價(jià)值[J].中國計(jì)算機(jī)學(xué)會(huì)通訊,2012,8(9):8-15.
[3]惠卿,孫翠娟,董鴻燕.基于服務(wù)數(shù)據(jù)對象的異構(gòu)數(shù)據(jù)集成系統(tǒng)[J].自動(dòng)化技術(shù),2010,8(6):79-83.
[4]Peijian Wang.D-pro:dynamic data center operations with demand-responsive electricity prices in smart grid[J].IEEE Transactions on Smart Grid,2012,11(4):1743-1754.
[5]謝華成,陳向東.面向云存儲(chǔ)的非結(jié)構(gòu)化數(shù)據(jù)存取[J].計(jì)算機(jī)應(yīng)用,2012,32(7):1924-1928.
[6]張良,佟俐娟.異構(gòu)數(shù)據(jù)庫集成中數(shù)據(jù)傳輸問題的研究[J].北京機(jī)械工業(yè)學(xué)院學(xué)報(bào),2011,9(11):65-68.
[7]劉勘,周曉崢,周洞汝.數(shù)據(jù)可視化的研究與發(fā)展[J].計(jì)算機(jī)工程,2012(8):11-13.
[8]任永功,于戈.數(shù)據(jù)可視化技術(shù)的研究與進(jìn)展[J].計(jì)算機(jī)科學(xué),2010,31(12).