黃冬梅, 莊興科,胡安鐸,孫錦中,時帥,孫園,唐振
(1.上海電力大學(xué)電子與信息工程學(xué)院, 上海市 201306;2.上海電力大學(xué)電氣工程學(xué)院,上海市 200090;3.上海電力大學(xué)數(shù)理學(xué)院, 上海市 201306)
電力負荷預(yù)測是電力系統(tǒng)安全、穩(wěn)定、經(jīng)濟運行的保障,也是編排調(diào)度計劃、交易計劃的重要基礎(chǔ)[1]。目前智能電網(wǎng)的建設(shè)在我國逐步展開,電力系統(tǒng)中分布式電源的配置也隨之增長,使得負荷變得更加復(fù)雜[2]。另一方面,電動汽車的大量使用,也增大了負荷消耗的隨機性,這些都給短期電力負荷預(yù)測帶來了巨大挑戰(zhàn)。
短期負荷預(yù)測大致可以分為傳統(tǒng)方法、人工智能方法和相似日方法[3]。傳統(tǒng)方法可分為線性回歸、自回歸移動平均值、灰色模型[4-5]等。這些方法模型簡單、計算速度快,但是由于電力負荷具有非線性的特點,這些傳統(tǒng)方法并不能很好地解決非線性問題。
近些年,人工智能方法快速發(fā)展,突破了傳統(tǒng)方法不能很好地解決非線性問題的不足。人工智能方法主要可分為人工神經(jīng)網(wǎng)絡(luò)[6]、支持向量機[7-9]、深度學(xué)習(xí)[10]等。隨著人工智能技術(shù)的快速發(fā)展,基于深度學(xué)習(xí)方法的負荷預(yù)測技術(shù)日益受到重視。深度學(xué)習(xí)中循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[11-12]通過將上一時刻神經(jīng)元狀態(tài)輸入到當(dāng)前時刻神經(jīng)元中,實現(xiàn)了對時序序列的處理。但是它存在梯度爆炸或者梯度消失問題,不能有效地處理長時間序列。長短期記憶(long short-term memory,LSTM)神經(jīng)網(wǎng)絡(luò)在RNN的基礎(chǔ)上做了改進,有效解決了RNN存在的問題,實現(xiàn)了對長時間序列的預(yù)測。文獻[13-15]均采用LSTM神經(jīng)網(wǎng)絡(luò)實現(xiàn)對負荷的預(yù)測,充分發(fā)揮了LSTM神經(jīng)網(wǎng)絡(luò)能夠處理長時間非線性時序序列的特點,取得了較好效果。
采用神經(jīng)網(wǎng)絡(luò)的負荷預(yù)測精度會受到樣本質(zhì)量的影響。采用相似日的方法可以篩選得到相關(guān)性高的訓(xùn)練樣本,并且能夠有效降低數(shù)據(jù)樣本維度,從而利用較少的訓(xùn)練樣本就能達到較高的預(yù)測精度。但是訓(xùn)練樣本的選取是相似日方法的關(guān)鍵,其相似程度直接決定了預(yù)測算法的精度。文獻[16-17]均采用灰色關(guān)聯(lián)分析(grey relation analysis,GRA)法選取相似日,并結(jié)合各自的神經(jīng)網(wǎng)絡(luò)模型實現(xiàn)負荷預(yù)測。但是灰色關(guān)聯(lián)分析法選取的相似日的負荷曲線與待預(yù)測日的負荷曲線存在較大差異。文獻[18]在灰色關(guān)聯(lián)法基礎(chǔ)上引入加權(quán)和投影概念,但是該改進方法所選取相似日的負荷曲線與待預(yù)測日負荷曲線形狀相似性不佳。文獻[19]結(jié)合灰色關(guān)聯(lián)分析法,提出一種綜合相似度的相似日選取方法并結(jié)合梯度提升決策樹實現(xiàn)負荷預(yù)測,但是該方法未考慮不同因素所衡量相似度的重要性差異,會影響所選取相似日集合的大小。文獻[20]采用聚類的方法選取相似日,并結(jié)合預(yù)測模型完成負荷預(yù)測,但是對聚類數(shù)目的選擇存在主觀性,可能導(dǎo)致所選取的相似日與待預(yù)測日的相似程度不高。
綜上所述,現(xiàn)有相似日方法中相似日的選取主要是采用灰色關(guān)聯(lián)分析或聚類,但所選取的相似日與待預(yù)測日的相似度有待進一步提升。本文針對該問題,提出一種基于灰色關(guān)聯(lián)分析和K均值聚類(GRA-K-means)選取相似日的短期負荷預(yù)測方法。該方法采用灰色關(guān)聯(lián)分析法選取相似日的粗集,然后建立綜合聚類指標(biāo),確定聚類數(shù)目,并對相似日粗集進行K-means聚類,得到最終的相似日集合,從而提升所選取的相似日與待預(yù)測日的相似度,并且降低樣本維度。最后,采用LSTM神經(jīng)網(wǎng)絡(luò)進行負荷預(yù)測。算例表明,本文提出的采用GRA-K-means選取相似日的短期負荷預(yù)測方法能夠?qū)崿F(xiàn)較高的負荷預(yù)測精度。
短期負荷預(yù)測模型的建立需要大量的電力負荷數(shù)據(jù)和其他外部影響因素的歷史數(shù)據(jù)。外部因素中包含了氣象因素和日期類型因素等,負荷會隨外部因素的變化而改變。常見的外部因素有溫度、節(jié)假日等。
圖1展示了某地區(qū)半年內(nèi)日最高溫度與日總負荷的變化趨勢。
圖1 某地區(qū)2014年上半年最高溫度與日總負荷變化Fig.1 Variations of the maximum temperature and total daily load in a certain area in the first half of 2014
由圖1可知,溫度的變化和負荷的變化具有明顯的相關(guān)性,兩者的變化趨勢大致相同,溫度信息可以用來提升負荷預(yù)測的性能??紤]到負荷還受濕度的影響,本文采用溫濕度指數(shù)來描述溫度和濕度之間的耦合關(guān)系,計算公式為[21]:
ITH=1.8T+0.55(1-H)×(1.8T-26)
(1)
式中:ITH為溫濕度指數(shù);T為溫度;H為相對濕度。
日期類型也是短期負荷預(yù)測中需要考慮的因素,周一到周日標(biāo)記為1到7,若這一天為節(jié)假日時,則特征編碼為1,否則為0。同理可對是否為工作日進行編碼。具體如表1所示。
表1 日期類型編碼Table 1 Date type encoding
文獻[3]考慮前日負荷峰值,所選取的相似日比未考慮前日負荷峰值更接近待預(yù)測日,并且所得預(yù)測效果較好,故本文也加入這一因素。本文選取了10個外部因素作為影響因素,基于某地區(qū)2014年1月到6月的數(shù)據(jù)進行Pearson相關(guān)系數(shù)分析,結(jié)果如表2所示。
表2 相似日影響因素的相關(guān)系數(shù)Table 2 Correlation coefficients of influencing factors on similar days
從表2中可以看到,前日負荷峰值的相關(guān)性最大,相關(guān)系數(shù)的絕對值為0.898 6,日降雨量的相關(guān)性最低,相關(guān)系數(shù)的絕對值為0.103 1。本文選擇相關(guān)系數(shù)絕對值大于0.3的8個因素作為相似日的影響因素。
灰色關(guān)聯(lián)分析法是分析各因素之間相似程度的一種統(tǒng)計方法。該方法通過一系列的數(shù)學(xué)公式來挖掘數(shù)據(jù)之間的關(guān)系從而分析數(shù)據(jù)之間的相似程度[22]。該方法通過以下步驟,計算各個樣本的灰色關(guān)聯(lián)值。
1) 選取影響電力負荷的若干因素,則第i天樣本的特征向量可以表示為:
(2)
式中:i=1,2,…,n,n為歷史樣本總數(shù);yim為第i個樣本的第m個因素的特征值。待預(yù)測的特征向量表示為:
(3)
式中:y0m為待預(yù)測日特征向量的第m個影響因素的特征值。
2) 構(gòu)建灰色關(guān)聯(lián)判斷矩陣F,如式(4)所示:
(4)
各元素按式(5)計算:
(5)
式中:Fik(i=1,2,…,n;k=1,2,…,m)為第i個樣本的第k個因素對應(yīng)的關(guān)聯(lián)系數(shù);yik(i=1,2,…,n;k=1,2,…,m)為第i個樣本的第k個因素的特征值;y0k(k=1,2,…,m)為待預(yù)測日特征向量的第k個影響因素的特征值;ρ為分辨系數(shù),通常取ρ=0.5。采用相關(guān)系數(shù)法確定各影響因素的權(quán)重:
(6)
(7)
式中:pk為第k個影響因素的Pearson相關(guān)系數(shù)絕對值;ωk第k個影響因素的權(quán)重,k=1,2,…,m。
3) 利用上述權(quán)重對灰色關(guān)聯(lián)判斷矩陣進行加權(quán),得到加權(quán)灰色關(guān)聯(lián)決策陣F′:
(8)
4) 得到每個樣本的灰色關(guān)聯(lián)值:
(9)
式中:Di為第i個樣本的灰色關(guān)聯(lián)度。
5) 將每個歷史日特征向量的灰色關(guān)聯(lián)度按照數(shù)值從大到小進行排序,設(shè)置閾值,選擇滿足閾值的樣本作為相似日的粗集。本文將閾值設(shè)為0.7。
K均值聚類算法是根據(jù)距離相近的數(shù)據(jù)作為一類的原則,將數(shù)據(jù)樣本進行分類的統(tǒng)計分析方法,優(yōu)點是實現(xiàn)簡單且高效[23]。
將灰色關(guān)聯(lián)分析法找到的相似日粗集的8個外部影響因素通過K均值聚類,計算待預(yù)測日與聚類中心的歐式距離,計算公式如(10)所示。當(dāng)dj數(shù)值最小時,此時聚類中心所對應(yīng)的一類即為最終相似日集合。
(10)
式中:xk(k=1,2,…,m)為待預(yù)測日特征向量的第k個因素的特征值;pjk(j=1,2,…,l;k=1,2,…,m)為第j組聚類中心的第k個因素所對應(yīng)的值。
LSTM是一種在循環(huán)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上進行改進的神經(jīng)網(wǎng)絡(luò)。它解決了RNN模型存在的問題,并且可以學(xué)習(xí)長時間序列中隱藏信息,充分利用歷史數(shù)據(jù)中的有用信息,具有更強的適應(yīng)性。LSTM網(wǎng)絡(luò)基本單元如圖2所示。
圖2 LSTM神經(jīng)網(wǎng)絡(luò)基本單元Fig.2 Basic unit of LSTM neural network
遺忘門、輸入門和輸出門3個部分共同組成了LSTM神經(jīng)網(wǎng)絡(luò)的基本單元[24]。輸入xt和中間輸出ht-1通過sigmoid函數(shù)生成變量ft,并且與上一個狀態(tài)記憶單元St-1決定遺忘部分。輸入xt和中間輸出ht-1在輸入門中經(jīng)過sigmoid函數(shù)和tanh函數(shù)后,再與遺忘門生成的遺忘部分一同決定需要保留的部分。變量St與ot決定了中間輸出ht,計算公式如下所示:
ft=σ(Wfxxt+Wfhht-1+bf)
(11)
it=σ(Wixxt+Wihht-1+bi)
(12)
gt=φ(Wgxxt+Wghht-1+bg)
(13)
ot=σ(Woxxt+Wohht-1+bo)
(14)
St=gt?it+St-1?ft
(15)
ht=φ(St)?ot
(16)
式中:ft、it、gt、ot、St分別為遺忘門、輸入門、輸入節(jié)點、輸出門和狀態(tài)單元的狀態(tài);Wfx、Wfh、Wfh、Wix、Wih、Wgx、Wgh、Wox和Woh為相應(yīng)門與變量之間的權(quán)重;bf、bi、bg、bo為偏置項;?表示元素按位相乘;σ(·)和φ(·)分別表示sigmoid函數(shù)和tanh函數(shù)。
本文在采用灰色關(guān)聯(lián)分析和K均值聚類選取了最終的相似日集合的基礎(chǔ)上,訓(xùn)練LSTM網(wǎng)絡(luò),實現(xiàn)短期負荷預(yù)測。這一方法的模型如圖3所示,它包括以下幾個步驟:
圖3 模型框架圖Fig.3 Diagram of the model frame
步驟1:輸入歷史負荷數(shù)據(jù)和各種外部因素,并對數(shù)據(jù)進行預(yù)處理,選取主要相似日影響因素;
步驟2:利用灰色關(guān)聯(lián)分析法,找到關(guān)聯(lián)度大于等于閾值的相似日,將這些相似日作為相似日的粗集;
步驟3:使用K均值聚類對找到的相似日粗集的外部因素進行聚類,找到待預(yù)測日與聚類中心距離最小的一類作為最終相似日集合;
步驟4:根據(jù)最終相似日集合的日期,將對應(yīng)的歷史負荷數(shù)據(jù)與外部影響因素組合為輸入特征,如表3所示,模型輸入為t時刻的13個特征,輸出為t時刻的負荷值,并將輸入特征和輸出負荷值歸一化之后依次帶入模型訓(xùn)練,最后得到預(yù)測結(jié)果。
表3 模型的輸入特征Table 3 Input features of the model
采用平均絕對百分比誤差MAPE和均方根誤差RMSE來評價模型的好壞,公式如下:
(17)
(18)
式中:y′i為預(yù)測值;yi為真實值。
為驗證本文所提方法的科學(xué)性和可靠性,本文實驗選取使用2016年電工數(shù)學(xué)建模競賽中2014年1月1日至2014年6月29日的負荷數(shù)據(jù),數(shù)據(jù)的采樣周期為15 min,共180天,每天共有96組數(shù)據(jù),共17 280條負荷數(shù)據(jù),以2014年1月1日至2014年6月23日的數(shù)據(jù)為歷史負荷數(shù)據(jù),預(yù)測2014年6月24日到6月29日的負荷數(shù)據(jù)。LSTM模型采用基于Python編寫的Keras深度學(xué)習(xí)框架[25],K均值采用常用的sklearn機器學(xué)習(xí)框架。
以待預(yù)測日6月24日為例,進行分析。首先使用灰色關(guān)聯(lián)分析法,計算待預(yù)測日與歷史樣本的灰色關(guān)聯(lián)度,將灰色關(guān)聯(lián)度大于等于0.7的歷史樣本作為相似日的粗集,可得到94天相似日。在相似日粗集的基礎(chǔ)上,將每天作為一個數(shù)據(jù)對象,每天特征維度為8,將其輸入到K均值聚類模型中。聚類個數(shù)的選擇是聚類效果重要的一環(huán),傳統(tǒng)聚類個數(shù)確定的方法都是根據(jù)輪廓系數(shù)(Silhouette coefficient, SIL)[26]和戴維森堡丁指數(shù)(Davies-Bouldin Index, DBI)[27]2個指標(biāo)進行決定,需要人為決定聚類個數(shù)。當(dāng)SIL數(shù)值越大,DBI數(shù)值越小時,說明此時聚類的效果最好。圖4為2個聚類指標(biāo)的折線圖,可以看到此時的最佳聚類數(shù)為2,但是SIL和DBI數(shù)值都隨聚類個數(shù)的變化而波動。
圖4 聚類評價指標(biāo)Fig.4 evaluation index of clustering
本文將2個聚類指標(biāo)進行統(tǒng)一,提出了綜合聚類指標(biāo),當(dāng)綜合聚類指標(biāo)最小時所對應(yīng)的聚類個數(shù)就是最佳聚類個數(shù),計算公式如下所示:
(19)
式中:E為綜合聚類指標(biāo);CSIL和IDB分別為SIL和DBI指標(biāo)的數(shù)值。
圖5為綜合聚類指標(biāo)隨聚類個數(shù)的變化情況,聚類個數(shù)可根據(jù)綜合聚類指標(biāo)直接決定,不需要進行人為分析決定。故本文將待預(yù)測日(6月24日)的聚類個數(shù)選取為2。計算待預(yù)測日與各聚類中心的歐式距離,結(jié)果如表4所示,故選距離最小一類為最終相似日,共72天。
圖5 綜合聚類評價指標(biāo)Fig.5 Comprehensive evaluation index of clustering
表4 聚類中心與待預(yù)測日的歐氏距離Table 4 Euclidean distance between cluster center and the day to be predicted
為比較本文方法與灰色關(guān)聯(lián)方法所選取的相似日的有效性,本文將形狀系數(shù)[25]作為比較兩者的標(biāo)準。形狀系數(shù)越小,說明兩者曲線在形態(tài)方面越接近。計算公式如下所示:
xijk=xik-xjk
(20)
(21)
(22)
式中:xi、xj分別為長度為l的等長序列,分別表示為xi={xi1,xi2,…,xil},xj={xj1,xj2,…,xjl},xik表示第i序列的第k個元素,xjk表示第j序列的第k個元素;Sij為序列i和j的形狀系數(shù)。
計算兩組相似日負荷與待預(yù)測日之間的形狀系數(shù),其測試集的形狀系數(shù)平均值的計算結(jié)果如表5所示。
表5 形狀系數(shù)平均值Table 5 Average of shape coefficient
從表5中可知,本文方法在相似日的選取上,更接近相似日,故本文方法在相似日的選取上比灰色關(guān)聯(lián)分析法效果更好。
為驗證本文相似日選取方法是否能提升精度,采用LSTM模型,對不選取相似日(LSTM)、灰色關(guān)聯(lián)選取相似日(GRA-LSTM)和基于灰色關(guān)聯(lián)分析與K均值聚類選取相似日(GRA-K-means-LSTM)3種情況進行對比分析,共同預(yù)測6月24日的負荷。LSTM模型使用2層隱藏層,神經(jīng)元個數(shù)為32 100,最后使用激活函數(shù)為sigmoid的全連接層輸出預(yù)測值,神經(jīng)網(wǎng)絡(luò)采用Adam算法優(yōu)化,學(xué)習(xí)率為0.001。3種情況的誤差如表6所示。
表6 不同相似日選取方法誤差對比Table 6 Error comparison of different similar-day selection methods
從表6中可知,采用相似日的方法在MAPE這一項指標(biāo)上比不選取相似日的方法均有降低,傳統(tǒng)的灰色關(guān)聯(lián)分析法選取相似日,在MAPE上相比未選取相似日降低了0.634%,本文的方法在MAPE上降低了1.198%。傳統(tǒng)的灰色關(guān)聯(lián)分析法在RMSE上效果不佳,但是本文方法卻降低了81.124 MW。由此可見,本文提出的采用GRA-K-means選取相似日方法,在誤差精度上均比傳統(tǒng)的灰色關(guān)聯(lián)分析法要好,也證明了方法的有效性。圖6為負荷預(yù)測曲線,從圖6中可知本文方法比未采用相似日方法和采用灰色關(guān)聯(lián)分析方法的LSTM模型更加貼合實際負荷曲線,在峰谷處本文方法比其他2種方法更接近真實值,擬合度更高,預(yù)測誤差更小。
圖6 不同相似日選取方法的預(yù)測負荷曲線Fig.6 Load forecasting curves of different similar-day search methods
為驗證本文方法模型的可行性與合理性,采用不選取相似日的LSTM模型和本文所提模型(GRA-K-means-LSTM)、XGBoost模型(GRA-K-means-XGBoost)、LightGBM模型(GRA-K-means-LightGBM)相結(jié)合的模型進行對比分析,預(yù)測6月24日到6月29日共6天的負荷數(shù)據(jù),并對結(jié)果取平均值,結(jié)果如表7所示。XGBoost[28]與LightGBM[29]是各種競賽中常用的算法且取得了比較好的成績,將這兩者當(dāng)作本文的對照模型,來驗證本文方法的有效性。這2種模型均采用sklearn框架。
表7 不同模型誤差對比Table 7 Error comparison of different models
如表7所示,本文所提出的GRA-K-means-LSTM方法與其他4種方法相比,在MAPE指標(biāo)上,本文方法比LSTM、GRA-LSTM、GRA-Kmeans-XGBoost、GRA-Kmeans-LightGBM分別降低了0.911%、0.637%、0.503%、0.389%,在RMSE上本文方法比LSTM、GRA-LSTM、GRA-K-means-XGBoost分別降低了55.739、54.579和12.264 MW,與GRA-K-means-LightGBM結(jié)果相差很小。
在幾種對比模型中,本文所提出的GRA-K-means-LSTM是最優(yōu)的,其原因在于采用灰色關(guān)聯(lián)分析法和K均值聚類的方法選取相似日,刪除了相似度不高的數(shù)據(jù),提高了數(shù)據(jù)的相關(guān)性,并結(jié)合LSTM神經(jīng)網(wǎng)絡(luò)模型,實現(xiàn)對負荷的短期預(yù)測,充分發(fā)揮了LSTM神經(jīng)網(wǎng)絡(luò)能夠處理時間序列和非線性數(shù)據(jù)的特性,提高了預(yù)測精度。
1) 本文選取相似日時加入了前日負荷峰值和溫濕度指數(shù),并使用皮爾遜相關(guān)系數(shù)法證明其與日總負荷值具有明顯的相關(guān)性,可以用于相似日的選取。
2) 在傳統(tǒng)的灰色關(guān)聯(lián)分析法的基礎(chǔ)上加入了K均值聚類,并通過綜合聚類指標(biāo)選取聚類個數(shù),解決了人工選取聚類中心的缺點。通過改進的方法得到了與待預(yù)測日相似程度更高的相似日,減少了訓(xùn)練樣本的數(shù)量和差異程度,有助于提升負荷預(yù)測精度。
3) 通過將本文相似日選取方法與LSTM模型相結(jié)合,有效地提高了短期負荷預(yù)測的精度,且LSTM模型能夠更好地擬合負荷數(shù)據(jù)。
未來可以考慮更多導(dǎo)致電網(wǎng)氣象災(zāi)害的因素,進一步提升短期負荷預(yù)測精度,應(yīng)用于電網(wǎng)氣象災(zāi)害預(yù)警研究。