楊漾,張?jiān)娷?,陳豐,李遠(yuǎn)寧,張世良
(1.中國南方電網(wǎng)有限責(zé)任公司信息部,廣州 510600;2.廣東電網(wǎng)有限責(zé)任公司信息中心,廣州 510000)
電力大數(shù)據(jù)平臺建設(shè)及實(shí)時線損異常檢測應(yīng)用
楊漾1,2,張?jiān)娷?,陳豐1,李遠(yuǎn)寧1,張世良1
(1.中國南方電網(wǎng)有限責(zé)任公司信息部,廣州 510600;2.廣東電網(wǎng)有限責(zé)任公司信息中心,廣州 510000)
以某區(qū)域電網(wǎng)公司為例,結(jié)合電網(wǎng)行業(yè)的數(shù)據(jù)特征以及現(xiàn)有的大數(shù)據(jù)技術(shù),完成電力大數(shù)據(jù)平臺的設(shè)計(jì)及建設(shè)。同時,以電力大數(shù)據(jù)平臺的流數(shù)據(jù)處理架構(gòu)為基礎(chǔ),整合計(jì)量自動化數(shù)據(jù)、GIS數(shù)據(jù)、營配數(shù)據(jù)等,開展實(shí)時線損異常檢測分析場景建設(shè),驗(yàn)證平臺的流數(shù)據(jù)分析能力,為后續(xù)電力行業(yè)開展其他大數(shù)據(jù)應(yīng)用場景的建設(shè)奠定基礎(chǔ)。
電力大數(shù)據(jù)平臺;實(shí)時線損;異常檢測;神經(jīng)網(wǎng)絡(luò);聚類
電力大數(shù)據(jù)平臺是電力行業(yè)大數(shù)據(jù)應(yīng)用的基礎(chǔ)和技術(shù)支撐,為大數(shù)據(jù)應(yīng)用提供數(shù)據(jù)基礎(chǔ)以及存儲、計(jì)算、分析等能力。由于電力大數(shù)據(jù)的固有特征與其他行業(yè)大數(shù)據(jù)的特征不盡相同,當(dāng)前一些較為成熟的大數(shù)據(jù)平臺所采用的處理方法并不能完全適用于電力行業(yè),因此研究與開發(fā)電力大數(shù)據(jù)平臺,以此支撐電力大數(shù)據(jù)應(yīng)用,顯得非常必要且迫切。
歐美各國對電力大數(shù)據(jù)的應(yīng)用研究開展較早,主要圍繞配電、用電等領(lǐng)域基于智能電表用戶的采集分析、配電網(wǎng)的管理等方面[1]。在大數(shù)據(jù)平臺方面,IBM[2]、HP[3]、Oracle[4]等傳統(tǒng)IT巨頭積極開展大數(shù)據(jù)技術(shù)與平臺工具的研發(fā),開發(fā)了面向或適用于智能電網(wǎng)的大數(shù)據(jù)平臺、模型與工具。學(xué)者Shyam R等人提出了基于Spark的智能電網(wǎng)大數(shù)據(jù)平臺[5]。2015年2月,AutoGrid宣布與微軟達(dá)成全球合作,基于AutoGrid的能源數(shù)據(jù)平臺為全球公用事業(yè)公司和創(chuàng)新能源服務(wù)供應(yīng)商提供大數(shù)據(jù)和智能電網(wǎng)分析解決方案[6]。
反觀我國,大數(shù)據(jù)主要在互聯(lián)網(wǎng)、金融、電信、交通等領(lǐng)域應(yīng)用較為廣泛[7-9]。隨著智能電網(wǎng)的深入建設(shè),電力大數(shù)據(jù)的挖掘應(yīng)用要求越來越高。中國電科院朱朝陽等、華中科技大學(xué)彭小圣等也相繼提出了電力大數(shù)據(jù)平臺核心技術(shù)[10-11],但主要停留于理論研究階段,目前電力大數(shù)據(jù)平臺在大型電力企業(yè)的應(yīng)用仍較為缺乏。
線損是電力企業(yè)在電能傳輸過程中發(fā)生的技術(shù)上和管理上的損耗,是電網(wǎng)企業(yè)經(jīng)營效益的重要體現(xiàn)之一。及時發(fā)現(xiàn)線損異常,對于挽回電力企業(yè)損失,提高經(jīng)營效益具有重要作用。同時,實(shí)時線損計(jì)算分析過程涉及到大量的運(yùn)行監(jiān)控?cái)?shù)據(jù)流,對于平臺的計(jì)算能力、擴(kuò)展能力等都具有較高的要求。因此,本項(xiàng)目以某區(qū)域電網(wǎng)公司實(shí)時線損計(jì)算和異常檢測為例,驗(yàn)證了所設(shè)計(jì)的電力大數(shù)據(jù)平臺的能力,為后續(xù)電力行業(yè)大數(shù)據(jù)平臺的深化應(yīng)用奠定了基礎(chǔ)。
1.1 電力大數(shù)據(jù)平臺需求分析
隨著業(yè)務(wù)的高速發(fā)展和信息化的深入建設(shè),電網(wǎng)數(shù)據(jù)呈現(xiàn)了大數(shù)據(jù)4V特性,其數(shù)據(jù)現(xiàn)狀及平臺需求特征如下:
(1)數(shù)據(jù)現(xiàn)狀:電網(wǎng)數(shù)據(jù)涉及GIS數(shù)據(jù)、實(shí)時電量數(shù)據(jù)、在線監(jiān)測數(shù)據(jù)、各類業(yè)務(wù)管理數(shù)據(jù)等,其數(shù)據(jù)類型多、體量大、增量快,實(shí)時性較高。但目前大部分?jǐn)?shù)據(jù)流動性不足,價值轉(zhuǎn)化率低,亟需建設(shè)具備處理上述類型數(shù)據(jù)的平臺,實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)的有效應(yīng)用。
(2)需求特征:結(jié)合電網(wǎng)行業(yè)的數(shù)據(jù)現(xiàn)狀,電力大數(shù)據(jù)平臺除了必須提供海量結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的采集、存儲、計(jì)算、分析與服務(wù)能力外,還必須考慮電網(wǎng)數(shù)據(jù)的實(shí)時性特征,形成包括流式計(jì)算、內(nèi)存計(jì)算、消息存儲等能力。
1.2 電力大數(shù)據(jù)平臺設(shè)計(jì)
電力大數(shù)據(jù)平臺架構(gòu)必須包括六個模塊:數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)計(jì)算、分析組件、數(shù)據(jù)服務(wù)和平臺管理。其中數(shù)據(jù)采集、存儲、計(jì)算及分析是整個電力大數(shù)據(jù)平臺的核心。結(jié)合電網(wǎng)企業(yè)的數(shù)據(jù)現(xiàn)狀以及電力大數(shù)據(jù)平臺的需求特征,考慮實(shí)時線損異常檢測應(yīng)用對流式數(shù)據(jù)的采集、存儲、計(jì)算的需求,電力大數(shù)據(jù)平臺必須具備高可用性、低延遲、水平可擴(kuò)展性的特點(diǎn)。本文引入了前沿的大數(shù)據(jù)采集、存儲、計(jì)算、分析技術(shù)等,完成了電力大數(shù)據(jù)的建設(shè)工作。其技術(shù)架構(gòu)如下圖所示。
在數(shù)據(jù)采集方面,本平臺采用了Sqoop、Flume、Kafka進(jìn)行數(shù)據(jù)采集。Sqoop用于將大規(guī)模的業(yè)務(wù)數(shù)據(jù)從傳統(tǒng)關(guān)系型數(shù)據(jù)庫轉(zhuǎn)移到HDFS。Flume技術(shù)組件采集了業(yè)務(wù)系統(tǒng)日志文件,對業(yè)務(wù)系統(tǒng)發(fā)生的數(shù)據(jù)變更進(jìn)行及時捕獲,并以推送方式在數(shù)據(jù)中心完成同步更新。而Kafka技術(shù)實(shí)現(xiàn)了對海量準(zhǔn)實(shí)時平臺和流式采集獲取的數(shù)據(jù)進(jìn)行隊(duì)列化處理,為數(shù)據(jù)倉庫和數(shù)據(jù)應(yīng)用的數(shù)據(jù)消費(fèi)提供穩(wěn)定、連續(xù)的數(shù)據(jù)輸入。
數(shù)據(jù)存儲包括對分布式文件、關(guān)系型數(shù)據(jù)以及內(nèi)存數(shù)據(jù)存儲,采用Greenplum DB、HDFS、HBASE產(chǎn)品以及關(guān)系型數(shù)據(jù)庫Oracle,包括數(shù)據(jù)湖、數(shù)據(jù)倉庫以及數(shù)據(jù)集市。數(shù)據(jù)湖僅存儲最新快照數(shù)據(jù),每個源系統(tǒng)對應(yīng)一個分布式存儲Schema。數(shù)據(jù)倉庫存儲區(qū),各處理單元采用私有的CPU、內(nèi)存和硬盤并通過協(xié)議通信。其數(shù)據(jù)存儲是對表從物理存儲上被水平分割,并分配給多臺服務(wù)器(或多個實(shí)例),每臺服務(wù)器可以獨(dú)立工作,具備共同的Schema,只需增加服務(wù)器數(shù)就可以增加處理能力和容量,保證了可擴(kuò)展能力。
數(shù)據(jù)計(jì)算包括傳統(tǒng)的SQL計(jì)算、大規(guī)模并行計(jì)算、內(nèi)存計(jì)算以及流式計(jì)算。大規(guī)模并行計(jì)算采用MPP并行計(jì)算技術(shù),內(nèi)存計(jì)算采用Spark,實(shí)現(xiàn)基于Redis的內(nèi)存計(jì)算,流式計(jì)算采用Spark Streaming采用Spark Streaming計(jì)算技術(shù),實(shí)現(xiàn)基于消息隊(duì)列的數(shù)據(jù)計(jì)算。
數(shù)據(jù)分析包括多維分析引擎、數(shù)據(jù)挖掘引擎以及數(shù)據(jù)挖掘算法庫,用于支持各類數(shù)據(jù)分析結(jié)果的生成,以支持多種數(shù)據(jù)分析應(yīng)用類型。
線損的異常檢測對電網(wǎng)合理規(guī)劃、及時發(fā)現(xiàn)違約用電等具有重大意義,因此,本文以實(shí)時線損異常檢測方法的研究與實(shí)現(xiàn)為例,驗(yàn)證電力大數(shù)據(jù)平臺的能力。
實(shí)時線損的計(jì)算是以電表量測數(shù)據(jù)為基礎(chǔ),更新頻率為15min。利用實(shí)時線損數(shù)據(jù)流實(shí)時變化情況及趨勢的判斷,對線損數(shù)據(jù)上的異常進(jìn)行及時預(yù)警,輔助業(yè)務(wù)人員就要對此饋線作進(jìn)一步檢查。使企業(yè)以最快速度發(fā)現(xiàn)線損異常,并及時采取相應(yīng)的措施。
本文根據(jù)時間序列挖掘技術(shù),研究設(shè)計(jì)采用基于人工神經(jīng)網(wǎng)絡(luò)預(yù)測偏離度的方法[12]檢測實(shí)時線損異常點(diǎn),同時采用基于滑動窗口的子序列聚類方法[13-16]檢測線損時間序列數(shù)據(jù)異常,從而得到更為精確的異常檢測結(jié)果。
2.1 基于人工神經(jīng)網(wǎng)絡(luò)的預(yù)測偏離度的異常點(diǎn)檢測
在固定的數(shù)據(jù)集中,識別離群點(diǎn)可采用多種方法,如擬合優(yōu)度檢驗(yàn)等。但對于流式數(shù)據(jù)而言,數(shù)據(jù)通常只能進(jìn)行單遍處理,應(yīng)用于固定數(shù)據(jù)集的分析方法必須進(jìn)行適應(yīng)性調(diào)整。本文所實(shí)時異常點(diǎn)檢測的核心思想在于根據(jù)時間序列的預(yù)測模型,給出實(shí)時數(shù)據(jù)點(diǎn)的預(yù)測值,將真實(shí)值與其比對分析,在給定的閾值下,判斷是否出現(xiàn)異常。
在時間序列預(yù)測模型中,BP神經(jīng)網(wǎng)絡(luò)由于其出色的自學(xué)習(xí)能力及一定的推廣概括能力而被采納使用。在這種情形下,從數(shù)學(xué)角度看,網(wǎng)絡(luò)成為輸入輸出的非線性函數(shù),假設(shè)線損的時間序列值共有n個,記該時間序列為{xi|i=1,2,…,n},以離預(yù)測時間點(diǎn)最近的m個觀察值作為輸入變量,預(yù)測第n+1個值,其預(yù)測可用下式描述:
時間序列的預(yù)測方法即是用神經(jīng)網(wǎng)絡(luò)來擬合函數(shù)f(·)并確定m,從而預(yù)測未來值。
對于線損序列數(shù)據(jù),采用如下步驟檢測異常點(diǎn):
(1)采用BP神經(jīng)網(wǎng)絡(luò)擬合函數(shù)f(·),檢測出相應(yīng)的異常點(diǎn),以神經(jīng)網(wǎng)絡(luò)擬合值作為異常點(diǎn)的替代值,得到修補(bǔ)后的新序列;
(2)重新采用BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),預(yù)測未來的實(shí)時線損大小xn+1;
(3)將采集到的線損真實(shí)值x'n+1與神經(jīng)網(wǎng)絡(luò)預(yù)測值進(jìn)行比對,在給定的閾值α下,當(dāng)時,判斷為異常點(diǎn),并以預(yù)測值作為新的線損大小記錄在序列中;
(4)返回步驟2,不斷學(xué)習(xí)更新神經(jīng)網(wǎng)絡(luò),以提高新的數(shù)據(jù)點(diǎn)的預(yù)測精度。
考慮到實(shí)時線損數(shù)據(jù)在不斷更新,對所有新產(chǎn)生的序列重新采用BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)在技術(shù)上難以實(shí)現(xiàn),因此,本研究采用增量式學(xué)習(xí)方法。其核心思想如下:對于第一個新的數(shù)據(jù)集的訓(xùn)練學(xué)習(xí)和原來BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過程一致,每次產(chǎn)生新的數(shù)據(jù)集后,進(jìn)行檢測,判斷是否重新學(xué)習(xí)。如果需要,采用相同的參數(shù)構(gòu)造新的BP神經(jīng)網(wǎng)絡(luò),更新各神經(jīng)元節(jié)點(diǎn)的權(quán)值,將更新后的BP神經(jīng)網(wǎng)絡(luò)應(yīng)用到現(xiàn)有數(shù)據(jù)中。
由于該方法只關(guān)注單個數(shù)據(jù)點(diǎn),不代表線損時間序列的過程所發(fā)生的根本變化,因此本研究在此基礎(chǔ)上,進(jìn)一步利用線損序列,檢測出其中存在的異常子序列,提高線損異常檢測的準(zhǔn)確率。
2.2 基于聚類的異常子序列檢測
與固定數(shù)據(jù)集不同,線損數(shù)據(jù)流的分布特征會隨著時間的推移而變動。由已有的線損歷史數(shù)據(jù)分析發(fā)現(xiàn):單條饋線的線損數(shù)據(jù)是以天為周期的時間序列。那么在相鄰的幾天內(nèi)同一時間段的線損數(shù)據(jù)的走勢應(yīng)該是相似的。
圖2 單條饋線線損情況
基于上述特征,本文采用基于滑動窗口的聚類方法,對單條饋線的線損異常數(shù)據(jù)進(jìn)行聚類,每次聚類只對滑動窗口對應(yīng)的時間范圍內(nèi)的數(shù)據(jù)流進(jìn)行聚類,一方面降低聚類的復(fù)雜度,另一方面反映當(dāng)前數(shù)據(jù)流的分布特征。
(1)線損子序列的分割
首先確定子序列的時間段長度,然后從最新接收的數(shù)據(jù)點(diǎn)開始往前分割單條饋線的線損時間序列得到各個子序列。
例如:若最新接收的數(shù)據(jù)點(diǎn)為3號13:15分,時段長度為4小時,那么分割的每個子序列有16個數(shù)據(jù),如表1所示:
表1 線損子序列分割示例
完成序列劃分后得到足夠多的子序列,但由于時段長度不同可能導(dǎo)致子序列的數(shù)據(jù)點(diǎn)個數(shù)過多,因此需要提取各子序列的特征以便節(jié)省運(yùn)算量并進(jìn)行更深入的分析。由于子序列可能存在高度異常、均值異常、方差異常、趨勢異常,故需要提取這4個特征變量。記子序列為{xi|i=1,2,…,n}
定義1子序列高度:
式中,max(xi)是子序列的最大數(shù)據(jù),min(xi)是子序列的最小數(shù)據(jù)。
定義2子序列均值:
定義3子序列標(biāo)準(zhǔn)差:
定義4子序列趨勢
式中,μ1為子序列前半段的均值,μ2為子序列后半段的均值。
(3)子序列聚類分析
提取每個子序列四維特征之后,將子序列按這4個特征變量進(jìn)行K-Means聚類,聚類數(shù)目根據(jù)學(xué)者周世兵等提出的BWP指標(biāo)[17],即最小類間距離和類內(nèi)距離之差與最小類間距離和類內(nèi)距離之和的比值確定。最后分析聚類形成的簇,若簇內(nèi)對象數(shù)目小于事先給定的閾值ε,則認(rèn)為該簇為異常子序列形成的簇。
綜上,使用基于人工神經(jīng)網(wǎng)絡(luò)的預(yù)測偏離度對單個數(shù)據(jù)點(diǎn)進(jìn)行異常檢測,而使用聚類分析對子序列即連續(xù)多個的數(shù)據(jù)點(diǎn)進(jìn)行異常檢測。結(jié)合兩種檢測手段,當(dāng)檢測結(jié)果為單個孤立異常點(diǎn)時,認(rèn)為很大可能為記錄錯誤等一些人為因素造成;當(dāng)檢測結(jié)果顯示異常點(diǎn)所在子序列存在異常時,應(yīng)該更深入去分析其背后的異常原因。如此可以快速準(zhǔn)確地發(fā)現(xiàn)出異常,并且有針對性地分析異常原因。
3.1 基于人工神經(jīng)網(wǎng)絡(luò)的異常點(diǎn)檢測在大數(shù)據(jù)平臺的實(shí)現(xiàn)
線損異常點(diǎn)的檢測方法具有如下特點(diǎn):一方面本文提出了通過人工神經(jīng)網(wǎng)絡(luò)不斷學(xué)習(xí)的方法來預(yù)測異常行為,從而檢測檢測出以前未被發(fā)現(xiàn)的異常行為;另一方面實(shí)時線損數(shù)據(jù)每15min更新一次,其頻率較高,屬于流式數(shù)據(jù)。數(shù)據(jù)不間斷產(chǎn)生,新的數(shù)據(jù)可能需要重新訓(xùn)練模型,由于流式數(shù)據(jù)實(shí)時性的特點(diǎn),難以對全量數(shù)據(jù)進(jìn)行訓(xùn)練。
考慮到Kafaka優(yōu)秀的吞吐量、可靠性和擴(kuò)展性,以及Spark Streaming的靈活性,本研究采用電力大數(shù)據(jù)平臺中Spark Streaming流式計(jì)算框架實(shí)現(xiàn)人工神經(jīng)網(wǎng)絡(luò)算法的并行化處理,利用Kafka集群將收集到的線損數(shù)據(jù)交給Spark Streaming,由人工神經(jīng)網(wǎng)絡(luò)算法對數(shù)據(jù)進(jìn)行實(shí)時異常檢測。
利用Spark的分布式數(shù)據(jù)架構(gòu)——彈性分布式數(shù)據(jù)集(Resilient Distributed Dataset,RDD),能夠?qū)P神經(jīng)網(wǎng)絡(luò)借助集群實(shí)現(xiàn)并行化,將原本在單機(jī)上執(zhí)行的分類任務(wù)拆分到集群上。Spark為RDD提供了一個partitionBy函數(shù),將原始的RDD數(shù)據(jù)分配至集群中的多個Worker節(jié)點(diǎn),其步驟如下:
①啟動Spark中集群管理分配工作節(jié)點(diǎn),設(shè)置Executor的內(nèi)存及CPU內(nèi)核大小。
②將程序集分發(fā)到集群的所有工作節(jié)點(diǎn)。
③初始化Streaming Context,設(shè)置流式數(shù)據(jù)的處理窗口大小。
④使用參數(shù)集L,訓(xùn)練數(shù)據(jù)集TrainData以及測試數(shù)據(jù)集TestData對基于人工神經(jīng)網(wǎng)絡(luò)的異常檢測算法進(jìn)行初始化。
⑤初始化RDD graph、Sceduler、Block Tracker和Shuffle Tracker,啟動并行任務(wù)。
⑥啟動Kafka集群接收并將流式數(shù)據(jù)轉(zhuǎn)到Spark Streaming執(zhí)行并行任務(wù)。
⑦Executor執(zhí)行基于人工神經(jīng)網(wǎng)絡(luò)的異常檢測算法;
⑧如對BP神經(jīng)網(wǎng)絡(luò)進(jìn)行重新學(xué)習(xí),將新的神經(jīng)元間的連接權(quán)值進(jìn)行重新存儲。
3.2 基于聚類的異常子序列檢測在大數(shù)據(jù)平臺的實(shí)現(xiàn)
基于聚類的異常子序列檢測方法具有如下特點(diǎn):該方法主要采用了K-Means聚類算法。K-Means算法的核心思想為通過多次計(jì)算新的聚類中心,這個過程需要對聚類中所有數(shù)據(jù)的矢量求平均值。而實(shí)時線損數(shù)據(jù)量較大,其計(jì)算量極為巨大。因此,本文擬采用并行化技術(shù)進(jìn)行處理,以提高聚類的效率,同時降低算法對內(nèi)存的要求。
MapReduce作為一個通用的分布式計(jì)算模型,具有可擴(kuò)展能力強(qiáng),效率高等特點(diǎn),能夠可靠地并行處理大規(guī)模數(shù)據(jù)。其特點(diǎn)在于能夠?qū)?shù)據(jù)分割并分配給Map任務(wù)并行處理,不同節(jié)點(diǎn)處理完成后,將產(chǎn)生的中間結(jié)果輸入到Reduce任務(wù),得到最終結(jié)果。因此,本研究采用電力大數(shù)據(jù)平臺中的MapReduce批量計(jì)算實(shí)現(xiàn)基于聚類的線損異常檢測。其并行化策略如圖3所示。
以電力大數(shù)據(jù)平臺,項(xiàng)目開展了實(shí)時線損應(yīng)用場景設(shè)計(jì),以實(shí)時線損曲線為基礎(chǔ),基于異常檢測算法,實(shí)現(xiàn)線損的單點(diǎn)異常檢測和序列異常檢測。其異常檢測的結(jié)果,將利用電力大數(shù)據(jù)平臺的可視化技術(shù),將線損在GIS平臺進(jìn)行可視化展示,對于檢測出異常的線損進(jìn)行告警提示,輔助業(yè)務(wù)人員及時發(fā)現(xiàn)線損異常,采取相應(yīng)措施。
項(xiàng)目以某一地市局的10kV饋線為例,分別在Oracle平臺和電力大數(shù)據(jù)平臺上開展了上述應(yīng)用建設(shè)。其中饋線數(shù)據(jù)量為4322條,專變數(shù)量共24584臺,公變數(shù)量為24947臺(單條kV饋線線損=饋線關(guān)口供入量-專變用戶的用電量-臺區(qū)用戶的供電量)。在不考慮數(shù)據(jù)缺失、數(shù)據(jù)補(bǔ)抄、數(shù)據(jù)重算、轉(zhuǎn)供電等情況下評估實(shí)時線損計(jì)算的過程耗時,兩個平臺結(jié)果如下:
圖3 MapReduce并行化策略
圖4 線損可視化展示
表2 平臺計(jì)算效率比較
綜上,大數(shù)據(jù)量下采用電力大數(shù)據(jù)平臺技術(shù)路線相比采用Oracle關(guān)系數(shù)據(jù)庫,在同樣的數(shù)據(jù)分析之所以效果下,數(shù)據(jù)計(jì)算分析性能有顯著的提升。
本文結(jié)合電力行業(yè)數(shù)據(jù)管理和應(yīng)用實(shí)際需求,參照業(yè)界數(shù)據(jù)平臺領(lǐng)先實(shí)踐經(jīng)驗(yàn),引入前沿的大數(shù)據(jù)采集、存儲、計(jì)算、分析等相關(guān)技術(shù),設(shè)計(jì)了較為先進(jìn)的電力大數(shù)據(jù)平臺架構(gòu)。同時,選取了涉及海量多源實(shí)時數(shù)據(jù)的線損異常檢測場景,以平臺的分析挖掘能力為依托,提出了實(shí)時線損異常檢測算法,并設(shè)計(jì)了線損異常檢測應(yīng)用場景,充分驗(yàn)證了平臺的海量實(shí)時數(shù)據(jù)處理能力。本文的研究結(jié)果為開展電力行業(yè)企業(yè)級大數(shù)據(jù)平臺建設(shè)掃清了技術(shù)障礙。同時,本文的線損異常檢測場景為后續(xù)電力行業(yè)各類大數(shù)據(jù)應(yīng)用場景的建設(shè)提供了重要的技術(shù)參考,對支撐電網(wǎng)企業(yè)深度挖掘數(shù)據(jù)價值,提高企業(yè)決策的科學(xué)化,促進(jìn)業(yè)務(wù)模式創(chuàng)新,提高企業(yè)的市場競爭力,推動創(chuàng)建國際先進(jìn)電網(wǎng)企業(yè)具有十分重要的現(xiàn)實(shí)意義。
[1]張東霞,苗新,劉麗平.智能電網(wǎng)大數(shù)據(jù)技術(shù)發(fā)展研究[J].中國電機(jī)工程學(xué)報(bào),2015,35(1):2-12.
[2]The Cornerstone of IBM's Big Data and Analytics Portfolio[EB/OL].[2015-04-20].http://www-01.ibm.com/software/data/bigdata/images/ watson-fondations-final.png.
[3]Big Data Changes Everything[EB/OL].[2015-05-05].http://www8.hp.com/us/en/business-solutions/big-data-overview.html.
[4]Thomas V R,Tanaya B.Oracle Utilities Data Model Reference[R],2013.
[5]Shyam R,Ganesh H.B.B,Kumar S.S,Poornachandran P,Soman K.Apache Spark a Big Data Analytics Platform for Smart Grid.Procedia Technology[J].January 1,2015;21(SMART GRID TECHNOLOGIES):171-178.
[6]王全強(qiáng),劉敏,成立.智能電網(wǎng)電力大數(shù)據(jù)技術(shù)研究[J].數(shù)據(jù)庫技術(shù),2016(1):181-182.
[7]官建文,劉振興,劉揚(yáng).國內(nèi)外主要互聯(lián)網(wǎng)公司大數(shù)據(jù)布局與應(yīng)用比較研究[J].中國傳媒科技,2012(17):45-49.
[8]林榮耀.大數(shù)據(jù)及在當(dāng)代互聯(lián)網(wǎng)應(yīng)用中的研究[D].廈門:廈門大學(xué),2014.
[9]鄭志來.大數(shù)據(jù)背景下互聯(lián)網(wǎng)金融對中小企業(yè)融資影響研究[J].西南金融,2014(11):63-66.
[10]朱朝陽,王繼業(yè),鄧春宇.電力大數(shù)據(jù)平臺研究與設(shè)計(jì)[J].電力信息與通信技術(shù),2015,06:1-7.
[11]彭小圣,鄧迪元,程時杰,文勁宇,李朝暉,牛林.面向智能電網(wǎng)應(yīng)用的電力大數(shù)據(jù)關(guān)鍵技術(shù)[J].中國電機(jī)工程學(xué)報(bào),2015,03:503-511.
[12]徐鵬飛,李煒,鄭華,吳建國.神經(jīng)網(wǎng)絡(luò)在時間序列預(yù)測中的應(yīng)用研究[J].電子技術(shù)研發(fā),2010(8):5-7.
[13]張力生,楊美潔,雷大江.時間序列重要點(diǎn)分割的異常子序列檢測[J].計(jì)算機(jī)科學(xué),2012(5):183-186.
[14]藍(lán)敏,李朔宇,李錫祺,曾耀英.基于聚類分群的線損特征分析方法[J].電力科學(xué)與技術(shù)學(xué)報(bào),2013(4):54-58.
[15]Huang X,Ye Y,Xiong L,Lau R,Jiang N,Wang S.Time Series K-Means:A New K-Means Type Smooth Subspace Clustering for Time Series Data[J].Information Sciences.November 1,2016;367-368:1-13.
[16]Ferreira L,Zhao L.Time Series Clustering Via Community Detection in Networks[J].Information Sciences.January 1,2016;326:227-242.
[17]周世兵,徐振源,唐旭清.K-Means算法最佳聚類數(shù)確定方法[J].計(jì)算機(jī)應(yīng)用,2010,30(8):1995-1998.
Construction of Power Big Data Platform and the Application of the Outlier Detection of Real Time Line Loss
YANG Yang1,2,ZHANG Shi-jun1,CHEN Feng1,LI Yuan-ning1,ZHANG Shi-liang1
(1.China Southern Power Grid,Guangzhou 510600;2.Guangdong Power Grid Information Center,Guangzhou 510000)
Takes a regional power grid corp as an example,combines with the data characteristics of power grid industry and the existing big data technology,completes the design and construction of big data platform.At the same time,based on the big data platform’s streaming data processing architecture,it integrates measurement automation data,GIS data and business data,etc.,to carry out the construction of the outlier detection and analysis of real time line loss,which proves the streaming data analytics capacity of the platform.Lays the foundation for the subsequent power industry to carry out the construction of other big data application scenarios.Lays the foundation to carry out the construction of other big data application in the future.
Power Big Data Platform;Real Time Line Loss;Outlier Detection;Neural Network;Cluster
1007-1423(2016)36-0008-07
10.3969/j.issn.1007-1423.2016.36.002
楊漾(1984-),女,湖南寧鄉(xiāng)人,工程師,工學(xué)博士,研究方向?yàn)橛?jì)算機(jī)系統(tǒng)結(jié)構(gòu)
張?jiān)娷姡?973-),男,安徽六安人,高級工程師,研究方向?yàn)橛?jì)算機(jī)應(yīng)用技術(shù)
陳豐(1973-),男,福建莆田人,工程師,本科,研究方向?yàn)橛?jì)算機(jī)應(yīng)用技術(shù)
李遠(yuǎn)寧(1981-),男,廣東梅州人,高級工程師,研究方向?yàn)橛?jì)算機(jī)應(yīng)用技術(shù)
張世良(1985-),男,廣東梅州人,工程師,碩士研究生,研究方向?yàn)橛?jì)算機(jī)系統(tǒng)結(jié)構(gòu)
2016-12-10
2016-12-20
廣東省科技廳重大專項(xiàng)(No.20148010117007)