蘇舟,李燦,姚李孝,崔寒珺
(西安理工大學(xué)水利水電學(xué)院,陜西西安 710048)
電力負荷數(shù)據(jù)預(yù)處理研究及應(yīng)用
蘇舟,李燦,姚李孝,崔寒珺
(西安理工大學(xué)水利水電學(xué)院,陜西西安 710048)
電力系統(tǒng)歷史負荷數(shù)據(jù)的準確與否對負荷預(yù)測效果有重要影響,首先采用減法聚類算法得到歷史負荷數(shù)據(jù)的聚類數(shù)目和聚類中心,并以此來作為模糊c-均值聚類的起點,然后通過負荷曲線的橫向相似性找出不良數(shù)據(jù),最后修正不良數(shù)據(jù),得到連續(xù)準確的負荷數(shù)據(jù)。通過實例分析驗證了此方法的有效性。
不良數(shù)據(jù);減法聚類;模糊c-均值聚類
歷史負荷數(shù)據(jù)一般來源于SCADA數(shù)據(jù)庫。因為一些隨機的小干擾或特殊事件的發(fā)生,影響了SCADA中的數(shù)據(jù)的準確性,使SCADA數(shù)據(jù)庫中出現(xiàn)不良數(shù)據(jù)。不良負荷數(shù)據(jù)一般分為缺失值和異常值兩種[1]。缺失值一般是由于切負荷、線路檢修停電或SCADA系統(tǒng)故障產(chǎn)生;異常值則通常是因為一些突發(fā)性的大事件對電力負荷造成了沖擊,導(dǎo)致負荷異于平常。負荷的異常值通常表現(xiàn)為出現(xiàn)極大極小值、負荷毛刺現(xiàn)象等。電力負荷資料中存在一些不良數(shù)據(jù),由于不良數(shù)據(jù)都是不準確的,因此在負荷預(yù)測中應(yīng)用將會影響其精度[2],為了保證負荷預(yù)測的準確性,我們需要對歷史的負荷數(shù)據(jù)進行預(yù)處理,使其更加準確地接近原始值。
缺失值非常容易識別和辨認,對于缺失值,傳統(tǒng)的處理辦法有人工填寫法、采用缺失值兩側(cè)數(shù)據(jù)平均值填寫法、插值法等。對于異常值,在異常值較多的日期可以通過曲線置換的方法將異常的負荷曲線替換下來,若是只存在個別的孤立異常點,則可以采用分時段設(shè)定閾值的方法,超出閾值的點可以看作異常點,識別出異常點后通過公式進行修正。近年來,采用智能算法進行數(shù)據(jù)預(yù)處理的趨勢非常明顯,文獻[3]利用離散二進小波變換系數(shù)的模極大值的位置和幅度與信號的局部奇異性密切相關(guān)的特點,提出了一種基于小波去噪的數(shù)據(jù)預(yù)處理方法,取得了良好的效果。文獻[4]提出一種基于層次聚類分簇搜尋的孤立點檢測算法,實例驗證這種方法對孤立點的檢測非常靈敏。文獻[5]利用神經(jīng)網(wǎng)絡(luò)的泛化能力對不良數(shù)據(jù)進行定位,效果顯著。
采用聚類法識別異常數(shù)據(jù)已經(jīng)被證明是一個有效的方法,模糊c-均值聚類算法(FCM)可以很好地對歷史負荷數(shù)據(jù)進行檢測,將類似的值聚成一類,落在聚類集合之外的值就是異常值。但FCM其本質(zhì)上是一種局部搜索的爬山法,對聚類中心的初始化相當(dāng)敏感。由于模糊c-均值聚類的目標(biāo)函數(shù)是一個非凸函數(shù),這個函數(shù)存在很多的局部極值點,若初始化不當(dāng),算法將很容易收斂到局部極小值,無法收斂到全局最優(yōu)解。目前還沒有一種通用的理論體系對在聚類初始化時所設(shè)定的聚類中心的數(shù)目做出指導(dǎo)。因此本文將減法聚類算法與模糊c-均值聚類相結(jié)合,減法聚類算法可以解決FCM的初始值設(shè)定難的問題。在算法開始時先采用減法聚類算法得到聚類數(shù)目的上限,然后再通過FCM進行聚類。不但可以避免事先確定聚類中心的數(shù)目從而保證算法收斂到全局最優(yōu)解,還能提高計算速度。
1.1 模糊c-均值聚類
模糊c-均值聚類算法是一種通過隸屬度矩陣表達樣本屬于每類的程度的一種軟聚類算法。它通過最小化目標(biāo)函數(shù)來尋找隸屬度μij和聚類中心vj。設(shè)輸入樣本為xi(i=1,2,…,M),將X分為R類,則模糊c-均值聚類的目標(biāo)函數(shù)為
式中,m>1為模糊因子(權(quán)重),它的大小決定了uij的模糊程度。uij(i=1,2,…,M;j=1,2,…,R)表示第i個樣本屬于第j類的隸屬度。|xi-vj|2表示第i個樣本到第j個聚類中心的距離。
每次迭結(jié)迭代計算束后通過下列公式更新迭代中心和隸屬度:
式中,r表示迭代次數(shù)。
檢驗|J(r+1)-J(r)|<ε是否成立,若成立,則停止計算,輸出結(jié)果;否則,返回上一步繼續(xù)迭代。
1.2 減法聚類算法
令X={x1,x2,…,xn} 為p維空間Rn上的一個數(shù)據(jù)集,減法聚類算法的過程為:
1)對于樣本集X中的每一個點xi(i=1,2,…,n),按照如下公式計算它們的密度指標(biāo):
選擇密度指標(biāo)最高的數(shù)據(jù)點xc1作為第一個聚類中心(密度指標(biāo)為Dc1)。式中,表示該點的領(lǐng)域半徑,落在半徑以外的點對點xi的密度指標(biāo)貢獻很小。
2)對第k次選出聚類中心xck(密度指標(biāo)為Dck),通過如下公式對每個點的密度指標(biāo)進行修正:
式中,γb為一個正數(shù),一般取γb=(1.2~1.5)γa,表示一個密度指標(biāo)函數(shù)明顯減小的領(lǐng)域。γb的提出是為了避免出現(xiàn)相距很近的聚類中心。
在修正后的數(shù)據(jù)點中選出密度指標(biāo)最高的點xck+1作為新的聚類中心。
3)判斷
是否成立。若成立,則退出運行;否則,重復(fù)(2),直到滿足條件為止。式中,預(yù)先給定的參數(shù)δ<1決定了最終產(chǎn)生的初始化聚類中心的數(shù)量。δ越小,產(chǎn)生的聚類數(shù)越多。
由以上介紹可知,減法聚類算法的聚類中心出現(xiàn)的順序與其密度指標(biāo)的大小有關(guān),密度指標(biāo)越大,則聚類中心越早出現(xiàn)。即越早出現(xiàn)的聚類中心越有可能是FCM初始化時的合理聚類中心。因此,在進行FCM的計算時,若希望得到i個聚類中心,則只需要選取通過減法聚類算法產(chǎn)生的前i個聚類中心作為FCM的初始聚類中心來進行計算,而不需要再重新進行初始化,大大提高了FCM算法的效率。其改進算法的流程如圖1所示。
將這種用減法聚類算法改進的FCM算法應(yīng)用與電力負荷數(shù)據(jù)的預(yù)處理上,具體操作步驟為:
1)通過改進FCM算法對負荷數(shù)據(jù)進行聚類,得到聚類數(shù)目i*和聚類中心
2)計算各時刻對應(yīng)于聚類中心的均方差:
圖1 改進FCM聚類Fig.1 Improved Fuzzy c-means clustering
3)通過下式判斷此類數(shù)據(jù)中是否包含有不良數(shù)據(jù):
若滿足(8)式,則此數(shù)據(jù)為不良數(shù)據(jù)。
4)設(shè)共生成i*條特征曲線,不良數(shù)據(jù)存在于被檢曲線Xd的p點到q點,其特征曲線為Xt,修正曲線為Xr,則通過下式修正不良數(shù)據(jù):
以某地1998年負荷數(shù)據(jù)為例驗證算法的有效性。采用日48點負荷數(shù)據(jù),隨機抽取其中一天的數(shù)據(jù)作為樣本。
3.1 負荷數(shù)據(jù)預(yù)處理
數(shù)據(jù)處理前后如圖2—圖3所示,對比圖2與圖3,我們注意到,圖2的負荷曲線不夠連續(xù),存在明顯的突變現(xiàn)象,有兩處不良數(shù)據(jù)需要修正,而在圖3中這一現(xiàn)象已經(jīng)被修正后的數(shù)據(jù)取而代之,保證了負荷曲線的平滑與準確。
3.2 數(shù)據(jù)處理前后負荷預(yù)測結(jié)果對比
圖4和圖5分別為某日的48點歷史負荷數(shù)據(jù)處理前和處理后對后一天的的負荷預(yù)測結(jié)果,從圖中可以清楚地看到數(shù)據(jù)處理后的負荷預(yù)測效果更好。
圖2 數(shù)據(jù)處理前Fig.2 Unprocessed data
圖3 數(shù)據(jù)處理后Fig.3 Processed data
圖4 含有不良數(shù)據(jù)的負荷預(yù)測結(jié)果Fig.4 Prediction result with the negative load data
圖5 數(shù)據(jù)處理后的負荷預(yù)測結(jié)果Fig.5 Prediction result with the correct load data
數(shù)據(jù)處理前后進行負荷預(yù)測的誤差如圖6-圖7所示。
從兩圖的誤差對比可以看到,相對于負荷預(yù)測結(jié)果而言,數(shù)據(jù)處理后誤差明顯減小,提高了確保了負荷預(yù)測的精度。表1給出了數(shù)據(jù)處理前后各時刻的平均誤差,進一步說明了數(shù)據(jù)預(yù)處理的重要性和必要性。
圖6 含有不良數(shù)據(jù)的樣本進行負荷預(yù)測的誤差Fig.6 error analysis of the prediction with the negative load data
圖7 處理后的樣本進行負荷預(yù)測的誤差Fig.7 Error analysis of the prediction with the correct load data
表1 數(shù)據(jù)處理前后負荷預(yù)測誤差對比Tab.1 Comparison of load prediction errors before and after data processing
1)通過減法聚類初始化FCM,取得了較快的運算速度,同時得到了合理的FCM的聚類中心,解決了FCM易于陷入局部最優(yōu)和聚類中心選取過分依賴人為選擇的缺點。
2)將該組合聚類算法應(yīng)用到電力負荷數(shù)據(jù)的預(yù)處理問題上,能較為全面地檢測出負荷沖擊、負荷毛刺、極大極小值等不良數(shù)據(jù)。實現(xiàn)了負荷數(shù)據(jù)的優(yōu)化與處理,提高了電力系統(tǒng)負荷預(yù)測的精度。
[1]程開明.統(tǒng)計數(shù)據(jù)預(yù)處理的理論與方法述評[J].統(tǒng)計與信息論壇,2007,22(6):98-102.CHENG Kaiming.The theory and methods of data preparation:an overview[J].Statistics and Information Forum,2007,22(6):98-102(in Chinese).
[2]王成綱,郭輝,張文靜.基于小波分解的電力系統(tǒng)短期負荷預(yù)測方法研究[J].河北電力技術(shù),2010,29(2):11-14.WANG Chenggang, GUO Hui, ZHANG Wenjing.Research on power system short term load forecasting method based on wavelet decomposition[J].HEBEI Electric Power,2010,29(2):11-14(in Chinese).
[3]李慧,楊明皓.小波分析在電力系統(tǒng)不良數(shù)據(jù)辨識中的應(yīng)用[J].繼電器,2005,33(3):10-20.LI Hui,YANG Minghao.Application of wavelet analysis to bad data identification for power system[J].Relay,2010,29(2):11-14(in Chinese).
[4]許必宵,陳升波,韓重陽,等.改進的數(shù)據(jù)預(yù)處理算法及其應(yīng)用[J].計算機技術(shù)與發(fā)展,2015,25(12):143-151.XU Bixiao,CHEN Shengbo,HAN Chongyang,et al.Improved data preprocessing algorithm and its application[J].Computer Technology and Development,2015,25(12):143-151(in Chinese).
[5]張國江,邱家駒,李繼紅.基于人工神經(jīng)網(wǎng)絡(luò)的電力負荷壞數(shù)據(jù)辨識與調(diào)整[J].中國電機工程學(xué)報,2001,21(8):104-107.ZHANG Guojiang,QIU Jiaju,LI Jihong.Outlier identification and justification based on neural network[J].Proceeding of the CSEE,2001,21(8):104-107(in Chinese).
[6]葉鋒,何樺,顧全,等.EMS中負荷預(yù)測不良數(shù)據(jù)的辨識與修正[J].電力系統(tǒng)自動化,2006,30(15):85-88.YE Feng,HE Hua,GU Quan,et al.Bad data identification and correction for load forecasting in Energy Management System[J].Automation of Electric Power System,2006,30(15):85-88(in Chinese).
[7]肖春景,張敏.基于減法聚類與模糊c-均值的模糊聚類的研究[J].計算機工程,2005(31):135-137.XIAO Chunjing,ZHANG Min.Research on fuzzy clustering based on subtractive clustering and fuzzy c-means[J].Computer Engineering,2005(31):135-137(in Chinese).
[8]劉坤朋,羅可.改進的模糊C均值聚類算法[J].計算機工程與應(yīng)用,2009,45(21):97-98.LIU Kunpeng,LUO Ke.Improved fuzzy c-means clustering algorithm[J].Computer Engineering and Applications,2009,45(21):97-98(in Chinese).
[9]溫重偉,李榮鈞.改進的粒子群優(yōu)化模糊C均值聚類算法[J].計算機應(yīng)用研究,2010,27(7):2520-2522.WEN Chongwei,LI Rongjun.Fuzzy c-means clusteringalgorithm based on improved PSO[J].Application Research of Computers,2010,27(7):2520-2522(in Chinese).
[10]劉笛,朱學(xué)峰,蘇彩紅.一種新型的模糊C均值聚類初始化方法[J].計算機仿真,2004,21(11):148-150 LIU Di,ZHU Xuefeng,SU Caihong.A novel initialization method for fuzzy C-means algorithm[J].Computer Simulation,2004,21(11):148-150(in Chinese).
(編輯 李沈)
Research and Application of Pretreatment of Electrical Load Data
SU Zhou,LI Can,YAO Lixiao,CUI Hanjun
(College of Water Resources and Hydropower,Xi’an University of Technology,Xi’an 710048,Shaanxi,China)
The accuracy of the historical load data of the power system is of great importance to the power prediction.In this paper,first,the subtractive clustering algorithm is used to get the number of the clusterings and the cluster centers of the historical load data,which are used at the starting point of the Fuzzy c-means clustering.Second,the lateral similarity of the load curve is used to find out the negative data.Finally,the negative data is corrected using the characteristic curve to get the load data continuously and accurately.The validity of the method is verified through the actual case study.
negative load data;subtractive clustering;fuzzy c-means clustering
2016-12-15。
蘇 舟(1993—),女,碩士,主要研究方向為電力系統(tǒng)分析、安全評估與優(yōu)化運行;
李 燦(1991—),女,碩士,主要研究方向為電力系統(tǒng)分析、安全評估與優(yōu)化運行;
姚李孝(1963—),男,教授,主要研究方向為電力系統(tǒng)規(guī)劃與運行。
1674-3814(2017)05-0040-04
TM73
A
國家自然科學(xué)基金(51507134)。
Project Supported by the National Natural Science Foundation of China(51507134).