王在乾+向敏+高盼
摘 要:智能電網(wǎng)中的電力負(fù)荷數(shù)據(jù)因來源于不同的信息采集系統(tǒng),電力負(fù)荷數(shù)據(jù)維度和格式可能不一致,導(dǎo)致的電力負(fù)荷數(shù)據(jù)可信度差,可利用度低,難以實現(xiàn)電力負(fù)荷數(shù)據(jù)深度挖掘。針對缺失值、噪聲值等異常的清洗問題,提出一種基于時間序列的能夠統(tǒng)一化來源于不同系統(tǒng)電力負(fù)荷數(shù)據(jù)的預(yù)處理方法。該方法對接收到的數(shù)據(jù)信息按照統(tǒng)一格式的日期維度信息,歸并到相同的數(shù)據(jù)格式,并對負(fù)荷數(shù)據(jù)中的異常點進(jìn)行分類清洗。測試結(jié)果表明,該方法能夠有效清洗噪聲點、空值等異常數(shù)據(jù),提高數(shù)據(jù)的可用性,便于對電力負(fù)荷數(shù)據(jù)進(jìn)行更深一步的數(shù)據(jù)挖掘處理,提高了電力負(fù)荷數(shù)據(jù)的挖掘效益。
關(guān)鍵詞:時間序列分析;負(fù)荷預(yù)處理;智能電網(wǎng);數(shù)據(jù)清洗;數(shù)據(jù)挖掘
中圖分類號:TM715 文獻(xiàn)標(biāo)志碼:A 文章編號:2095-2945(2018)07-0094-02
Abstract: Because the power load data in smart grid come from different information collection systems, the dimension and format of power load data may be inconsistent, resulting in poor reliability and low availability of power load data. It is difficult to realize the in-depth mining of power load data. In view of the problem of cleaning anomalies such as missing value and noise value, a time series based preprocessing method is proposed, which can unify the power load data from different systems. The received data information is merged to the same data format according to the date dimension information of the unified format, and the outlier points in the load data are sorted and cleaned. The test results show that the method can effectively clean the abnormal data such as noise points and null values, improve the availability of data, and facilitate the further data mining processing of power load data, so that the mining efficiency of power load data is improved.
Keywords: time series analysis; load pretreatment; smart grid; data cleaning; data mining
1 概述
隨著大數(shù)據(jù)技術(shù)的日漸成熟,將大數(shù)據(jù)技術(shù)應(yīng)用到各行各業(yè)中成為科研和企業(yè)共同的關(guān)注目標(biāo)。如何從海量負(fù)荷數(shù)據(jù)中挖掘出有用信息對電力的管理調(diào)度具有重要意義[1]。而電力負(fù)荷數(shù)據(jù)庫中可能包含著異常數(shù)據(jù),阻礙了電力大數(shù)據(jù)技術(shù)的發(fā)展,因此有必要對電力負(fù)荷數(shù)據(jù)進(jìn)行預(yù)處理。
國內(nèi)外許多專家學(xué)者對電力大數(shù)據(jù)的數(shù)據(jù)預(yù)處理進(jìn)行了研究,針對大數(shù)據(jù)技術(shù)高質(zhì)量數(shù)據(jù)的要求,文獻(xiàn)[2]采用了將數(shù)據(jù)產(chǎn)品與傳統(tǒng)的有形的產(chǎn)品、軟件產(chǎn)品相類比的角度,將數(shù)據(jù)清洗類比為了其他形式產(chǎn)品的異常診斷和處理;文獻(xiàn)[3]針對數(shù)據(jù)倉儲對不同來源的業(yè)務(wù)數(shù)據(jù)源的數(shù)據(jù)存在的重復(fù)記錄和異常問題,進(jìn)行整理和規(guī)范,消除歧義,提高了數(shù)據(jù)質(zhì)量;文獻(xiàn)[4]為減少數(shù)據(jù)存儲成本,通過分析配電網(wǎng)負(fù)荷數(shù)據(jù)的異常類型及產(chǎn)生原因,提出了一種面向大規(guī)模配電網(wǎng)負(fù)荷數(shù)據(jù)在線清洗和修復(fù)的方法;文獻(xiàn)[5]通過使用數(shù)據(jù)清洗中較大程度地上運行在統(tǒng)一輸入文件或者利用相同的運算方法的研究發(fā)現(xiàn),提出了一種任務(wù)合并的優(yōu)化技術(shù),實現(xiàn)了在大數(shù)據(jù)平臺上的并行大數(shù)據(jù)清洗。文獻(xiàn)[6]針對這些方法存在數(shù)據(jù)丟失,破壞數(shù)據(jù)完整性的問題,提出了一種利用時間序列的輸變電設(shè)備狀態(tài)的大數(shù)據(jù)清洗方法。
本文根據(jù)電力系統(tǒng)中負(fù)荷數(shù)據(jù)的特征,為便于對電力負(fù)荷波動信息的挖掘,提出一種基于時間序列分析的電力負(fù)荷數(shù)據(jù)預(yù)處理方法。該方法在分析電力負(fù)荷數(shù)據(jù)可能存在異常類型的基礎(chǔ)上,利用電力負(fù)荷時間序列模型檢測各維度的數(shù)據(jù),根據(jù)數(shù)據(jù)維度具有的特征確定該數(shù)據(jù)是否進(jìn)行修復(fù),對需要修復(fù)的采用不同的方法對數(shù)據(jù)進(jìn)行修復(fù)。該方法可以避免因直接刪除噪聲數(shù)據(jù)造成的有用數(shù)據(jù)丟失,便于電力數(shù)據(jù)挖掘。
2 基于時間序列的負(fù)荷數(shù)據(jù)預(yù)處理
在輸變電設(shè)備數(shù)據(jù)清洗的現(xiàn)有研究方法和成果中有些是以犧牲數(shù)據(jù)信息的完整性為代價,通過粗糙集信息熵的方法對故障和信息的映射進(jìn)行約簡,最終實現(xiàn)解決數(shù)據(jù)缺失的目的;有些使用模糊聚類的方法對噪聲和異常數(shù)據(jù)進(jìn)行直接剔除的方法分離噪聲數(shù)據(jù),但是卻破壞了負(fù)荷數(shù)據(jù)狀態(tài)量的連續(xù)性[6]。電力系統(tǒng)中的異常數(shù)據(jù)可以分為兩種情況,一種是數(shù)值型異常,包括噪聲點和缺失值;另一種是因為運行環(huán)境變化引起的整個狀態(tài)的遷移,這種情況體現(xiàn)了電力模式的變化,具有研究價值,在消除噪聲因素影響之后可以進(jìn)一步使用挖掘方法深入研究。
通常情況下電力負(fù)荷會受到不同的因素的影響,在對負(fù)荷異常的分析時需要考慮噪聲點和缺失值的影響,對負(fù)荷異常值類型建立時間序列上的模型[6],如式(1)所示。
3 測試與分析
為檢驗上述用電負(fù)荷分析方法的性能,選用某用電系統(tǒng)的用電數(shù)據(jù)進(jìn)行相關(guān)實驗測試分析。
從數(shù)據(jù)庫中隨機(jī)選擇一用戶,利用原始數(shù)據(jù)進(jìn)行數(shù)據(jù)分析處理,對序列加入異常擾動后,序列在1月2號21點和1月4號2點出現(xiàn)毛刺現(xiàn)象,利用時間序列進(jìn)行負(fù)荷數(shù)據(jù)的預(yù)處理,得到用戶用電序列修復(fù)后的曲線如圖1所示。修復(fù)后的用戶的用電量與正常情況下的波動曲線的波動情況基本保持一致,驗證了本方法的有效性。
4 結(jié)束語
本文提出基于時間序列的電力負(fù)荷數(shù)據(jù)的預(yù)處理方法,根據(jù)負(fù)荷異常的類型特點進(jìn)行不同方法的修復(fù),對于缺失值數(shù)據(jù)和噪聲點數(shù)據(jù)分別采用不同的方法進(jìn)行修復(fù),測試結(jié)果表明本文所提方法可以有效檢測和修復(fù)數(shù)據(jù)中的異常數(shù)據(jù)。下一步主要工作是使用處理后的數(shù)據(jù)進(jìn)行更深入的挖掘研究,發(fā)現(xiàn)更多有價值的電力數(shù)據(jù)知識,并將數(shù)據(jù)預(yù)處理方法應(yīng)用到電力數(shù)據(jù)挖掘的核心領(lǐng)域中。
參考文獻(xiàn):
[1]張東霞,苗新,劉麗平,等.智能電網(wǎng)大數(shù)據(jù)技術(shù)發(fā)展研究[J].中國電機(jī)工程學(xué)報,2015,35(1):2-12.
[2]刁贏龍,盛萬興,劉科研,等.大規(guī)模配電網(wǎng)負(fù)荷數(shù)據(jù)在線清洗與修復(fù)方法研究[J].電網(wǎng)技術(shù),2015,39(11):3134-3140.
[3]曹建軍,刁興春,陳爽,等.數(shù)據(jù)清洗及其一般性系統(tǒng)框架[J].計算機(jī)科學(xué),2012,39(S3):207-211.
[4]包從劍.數(shù)據(jù)清洗的若干關(guān)鍵技術(shù)研究[D].江蘇大學(xué),2007.
[5]嚴(yán)英杰,盛戈 ,陳玉峰,等.基于時間序列分析的輸變電設(shè)備狀態(tài)大數(shù)據(jù)清洗方法[J].電力系統(tǒng)自動化,2015,39(07):138-144.
[6]楊東華,李寧寧,王宏志,等.基于任務(wù)合并的并行大數(shù)據(jù)清洗過程優(yōu)化[J].計算機(jī)學(xué)報,2016,39(01):97-108.
[7]謝蓓敏,趙雪松.基于改進(jìn)的小波分析的電力負(fù)荷預(yù)測方法研究[J].科技創(chuàng)新與應(yīng)用,2016(36):207.endprint