基于灰色關(guān)聯(lián)分析和K均值聚類的短期負荷預(yù)測

2021-07-09 09:26:00黃冬梅莊興科胡安鐸孫錦中時帥孫園唐振

電力建設(shè) 2021年7期

黃冬梅, 莊興科，胡安鐸，孫錦中，時帥，孫園，唐振

(1.上海電力大學(xué)電子與信息工程學(xué)院, 上海市 201306；2.上海電力大學(xué)電氣工程學(xué)院，上海市 200090；3.上海電力大學(xué)數(shù)理學(xué)院, 上海市 201306)

0 引言

電力負荷預(yù)測是電力系統(tǒng)安全、穩(wěn)定、經(jīng)濟運行的保障，也是編排調(diào)度計劃、交易計劃的重要基礎(chǔ)[1]。目前智能電網(wǎng)的建設(shè)在我國逐步展開，電力系統(tǒng)中分布式電源的配置也隨之增長，使得負荷變得更加復(fù)雜[2]。另一方面，電動汽車的大量使用，也增大了負荷消耗的隨機性，這些都給短期電力負荷預(yù)測帶來了巨大挑戰(zhàn)。

短期負荷預(yù)測大致可以分為傳統(tǒng)方法、人工智能方法和相似日方法[3]。傳統(tǒng)方法可分為線性回歸、自回歸移動平均值、灰色模型[4-5]等。這些方法模型簡單、計算速度快，但是由于電力負荷具有非線性的特點，這些傳統(tǒng)方法并不能很好地解決非線性問題。

近些年，人工智能方法快速發(fā)展，突破了傳統(tǒng)方法不能很好地解決非線性問題的不足。人工智能方法主要可分為人工神經(jīng)網(wǎng)絡(luò)[6]、支持向量機[7-9]、深度學(xué)習(xí)[10]等。隨著人工智能技術(shù)的快速發(fā)展，基于深度學(xué)習(xí)方法的負荷預(yù)測技術(shù)日益受到重視。深度學(xué)習(xí)中循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network，RNN)[11-12]通過將上一時刻神經(jīng)元狀態(tài)輸入到當(dāng)前時刻神經(jīng)元中，實現(xiàn)了對時序序列的處理。但是它存在梯度爆炸或者梯度消失問題，不能有效地處理長時間序列。長短期記憶(long short-term memory，LSTM)神經(jīng)網(wǎng)絡(luò)在RNN的基礎(chǔ)上做了改進，有效解決了RNN存在的問題，實現(xiàn)了對長時間序列的預(yù)測。文獻[13-15]均采用LSTM神經(jīng)網(wǎng)絡(luò)實現(xiàn)對負荷的預(yù)測，充分發(fā)揮了LSTM神經(jīng)網(wǎng)絡(luò)能夠處理長時間非線性時序序列的特點，取得了較好效果。

采用神經(jīng)網(wǎng)絡(luò)的負荷預(yù)測精度會受到樣本質(zhì)量的影響。采用相似日的方法可以篩選得到相關(guān)性高的訓(xùn)練樣本，并且能夠有效降低數(shù)據(jù)樣本維度，從而利用較少的訓(xùn)練樣本就能達到較高的預(yù)測精度。但是訓(xùn)練樣本的選取是相似日方法的關(guān)鍵，其相似程度直接決定了預(yù)測算法的精度。文獻[16-17]均采用灰色關(guān)聯(lián)分析(grey relation analysis，GRA)法選取相似日，并結(jié)合各自的神經(jīng)網(wǎng)絡(luò)模型實現(xiàn)負荷預(yù)測。但是灰色關(guān)聯(lián)分析法選取的相似日的負荷曲線與待預(yù)測日的負荷曲線存在較大差異。文獻[18]在灰色關(guān)聯(lián)法基礎(chǔ)上引入加權(quán)和投影概念，但是該改進方法所選取相似日的負荷曲線與待預(yù)測日負荷曲線形狀相似性不佳。文獻[19]結(jié)合灰色關(guān)聯(lián)分析法，提出一種綜合相似度的相似日選取方法并結(jié)合梯度提升決策樹實現(xiàn)負荷預(yù)測，但是該方法未考慮不同因素所衡量相似度的重要性差異，會影響所選取相似日集合的大小。文獻[20]采用聚類的方法選取相似日，并結(jié)合預(yù)測模型完成負荷預(yù)測，但是對聚類數(shù)目的選擇存在主觀性，可能導(dǎo)致所選取的相似日與待預(yù)測日的相似程度不高。

綜上所述，現(xiàn)有相似日方法中相似日的選取主要是采用灰色關(guān)聯(lián)分析或聚類，但所選取的相似日與待預(yù)測日的相似度有待進一步提升。本文針對該問題，提出一種基于灰色關(guān)聯(lián)分析和K均值聚類(GRA-K-means)選取相似日的短期負荷預(yù)測方法。該方法采用灰色關(guān)聯(lián)分析法選取相似日的粗集，然后建立綜合聚類指標(biāo)，確定聚類數(shù)目，并對相似日粗集進行K-means聚類，得到最終的相似日集合，從而提升所選取的相似日與待預(yù)測日的相似度，并且降低樣本維度。最后，采用LSTM神經(jīng)網(wǎng)絡(luò)進行負荷預(yù)測。算例表明，本文提出的采用GRA-K-means選取相似日的短期負荷預(yù)測方法能夠?qū)崿F(xiàn)較高的負荷預(yù)測精度。

1 相似日選取

1.1 影響負荷的因素分析

短期負荷預(yù)測模型的建立需要大量的電力負荷數(shù)據(jù)和其他外部影響因素的歷史數(shù)據(jù)。外部因素中包含了氣象因素和日期類型因素等，負荷會隨外部因素的變化而改變。常見的外部因素有溫度、節(jié)假日等。

圖1展示了某地區(qū)半年內(nèi)日最高溫度與日總負荷的變化趨勢。

圖1 某地區(qū)2014年上半年最高溫度與日總負荷變化Fig.1 Variations of the maximum temperature and total daily load in a certain area in the first half of 2014

由圖1可知，溫度的變化和負荷的變化具有明顯的相關(guān)性，兩者的變化趨勢大致相同，溫度信息可以用來提升負荷預(yù)測的性能?？紤]到負荷還受濕度的影響，本文采用溫濕度指數(shù)來描述溫度和濕度之間的耦合關(guān)系，計算公式為[21]：

ITH=1.8T+0.55(1-H)×(1.8T-26)

(1)

式中：ITH為溫濕度指數(shù)；T為溫度；H為相對濕度。

日期類型也是短期負荷預(yù)測中需要考慮的因素，周一到周日標(biāo)記為1到7，若這一天為節(jié)假日時，則特征編碼為1，否則為0。同理可對是否為工作日進行編碼。具體如表1所示。

表1 日期類型編碼Table 1 Date type encoding

文獻[3]考慮前日負荷峰值，所選取的相似日比未考慮前日負荷峰值更接近待預(yù)測日，并且所得預(yù)測效果較好，故本文也加入這一因素。本文選取了10個外部因素作為影響因素，基于某地區(qū)2014年1月到6月的數(shù)據(jù)進行Pearson相關(guān)系數(shù)分析，結(jié)果如表2所示。

表2 相似日影響因素的相關(guān)系數(shù)Table 2 Correlation coefficients of influencing factors on similar days

從表2中可以看到，前日負荷峰值的相關(guān)性最大，相關(guān)系數(shù)的絕對值為0.898 6，日降雨量的相關(guān)性最低，相關(guān)系數(shù)的絕對值為0.103 1。本文選擇相關(guān)系數(shù)絕對值大于0.3的8個因素作為相似日的影響因素。

1.2 灰色關(guān)聯(lián)分析法

灰色關(guān)聯(lián)分析法是分析各因素之間相似程度的一種統(tǒng)計方法。該方法通過一系列的數(shù)學(xué)公式來挖掘數(shù)據(jù)之間的關(guān)系從而分析數(shù)據(jù)之間的相似程度[22]。該方法通過以下步驟，計算各個樣本的灰色關(guān)聯(lián)值。

1) 選取影響電力負荷的若干因素，則第i天樣本的特征向量可以表示為：

(2)

式中：i=1,2,…,n,n為歷史樣本總數(shù)；yim為第i個樣本的第m個因素的特征值。待預(yù)測的特征向量表示為：

(3)

式中：y0m為待預(yù)測日特征向量的第m個影響因素的特征值。

2) 構(gòu)建灰色關(guān)聯(lián)判斷矩陣F，如式(4)所示：

(4)

各元素按式(5)計算：

(5)

式中：Fik(i=1,2,…,n;k=1,2,…,m)為第i個樣本的第k個因素對應(yīng)的關(guān)聯(lián)系數(shù)；yik(i=1,2,…,n;k=1,2,…,m)為第i個樣本的第k個因素的特征值；y0k(k=1,2,…,m)為待預(yù)測日特征向量的第k個影響因素的特征值；ρ為分辨系數(shù)，通常取ρ=0.5。采用相關(guān)系數(shù)法確定各影響因素的權(quán)重：

(6)

(7)

式中：pk為第k個影響因素的Pearson相關(guān)系數(shù)絕對值；ωk第k個影響因素的權(quán)重，k=1,2,…，m。

3) 利用上述權(quán)重對灰色關(guān)聯(lián)判斷矩陣進行加權(quán)，得到加權(quán)灰色關(guān)聯(lián)決策陣F′:

(8)

4) 得到每個樣本的灰色關(guān)聯(lián)值：

(9)

式中：Di為第i個樣本的灰色關(guān)聯(lián)度。

5) 將每個歷史日特征向量的灰色關(guān)聯(lián)度按照數(shù)值從大到小進行排序，設(shè)置閾值，選擇滿足閾值的樣本作為相似日的粗集。本文將閾值設(shè)為0.7。

1.3 K均值聚類算法

K均值聚類算法是根據(jù)距離相近的數(shù)據(jù)作為一類的原則，將數(shù)據(jù)樣本進行分類的統(tǒng)計分析方法，優(yōu)點是實現(xiàn)簡單且高效[23]。

將灰色關(guān)聯(lián)分析法找到的相似日粗集的8個外部影響因素通過K均值聚類，計算待預(yù)測日與聚類中心的歐式距離，計算公式如(10)所示。當(dāng)dj數(shù)值最小時，此時聚類中心所對應(yīng)的一類即為最終相似日集合。

(10)

式中：xk(k=1,2,…,m)為待預(yù)測日特征向量的第k個因素的特征值；pjk(j=1,2,…,l；k=1,2,…,m)為第j組聚類中心的第k個因素所對應(yīng)的值。

2 基于LSTM網(wǎng)絡(luò)的預(yù)測模型

2.1 LSTM網(wǎng)絡(luò)

LSTM是一種在循環(huán)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上進行改進的神經(jīng)網(wǎng)絡(luò)。它解決了RNN模型存在的問題，并且可以學(xué)習(xí)長時間序列中隱藏信息，充分利用歷史數(shù)據(jù)中的有用信息，具有更強的適應(yīng)性。LSTM網(wǎng)絡(luò)基本單元如圖2所示。

圖2 LSTM神經(jīng)網(wǎng)絡(luò)基本單元Fig.2 Basic unit of LSTM neural network

遺忘門、輸入門和輸出門3個部分共同組成了LSTM神經(jīng)網(wǎng)絡(luò)的基本單元[24]。輸入xt和中間輸出ht-1通過sigmoid函數(shù)生成變量ft，并且與上一個狀態(tài)記憶單元St-1決定遺忘部分。輸入xt和中間輸出ht-1在輸入門中經(jīng)過sigmoid函數(shù)和tanh函數(shù)后，再與遺忘門生成的遺忘部分一同決定需要保留的部分。變量St與ot決定了中間輸出ht，計算公式如下所示:

ft=σ(Wfxxt+Wfhht-1+bf)

(11)

it=σ(Wixxt+Wihht-1+bi)

(12)

gt=φ(Wgxxt+Wghht-1+bg)

(13)

ot=σ(Woxxt+Wohht-1+bo)

(14)

St=gt?it+St-1?ft

(15)

ht=φ(St)?ot

(16)

式中：ft、it、gt、ot、St分別為遺忘門、輸入門、輸入節(jié)點、輸出門和狀態(tài)單元的狀態(tài)；Wfx、Wfh、Wfh、Wix、Wih、Wgx、Wgh、Wox和Woh為相應(yīng)門與變量之間的權(quán)重；bf、bi、bg、bo為偏置項；?表示元素按位相乘；σ(·)和φ(·)分別表示sigmoid函數(shù)和tanh函數(shù)。

2.2 預(yù)測模型

本文在采用灰色關(guān)聯(lián)分析和K均值聚類選取了最終的相似日集合的基礎(chǔ)上，訓(xùn)練LSTM網(wǎng)絡(luò)，實現(xiàn)短期負荷預(yù)測。這一方法的模型如圖3所示，它包括以下幾個步驟：

圖3 模型框架圖Fig.3 Diagram of the model frame

步驟1：輸入歷史負荷數(shù)據(jù)和各種外部因素，并對數(shù)據(jù)進行預(yù)處理，選取主要相似日影響因素；

步驟2：利用灰色關(guān)聯(lián)分析法，找到關(guān)聯(lián)度大于等于閾值的相似日，將這些相似日作為相似日的粗集；

步驟3：使用K均值聚類對找到的相似日粗集的外部因素進行聚類，找到待預(yù)測日與聚類中心距離最小的一類作為最終相似日集合；

步驟4：根據(jù)最終相似日集合的日期，將對應(yīng)的歷史負荷數(shù)據(jù)與外部影響因素組合為輸入特征，如表3所示，模型輸入為t時刻的13個特征，輸出為t時刻的負荷值，并將輸入特征和輸出負荷值歸一化之后依次帶入模型訓(xùn)練，最后得到預(yù)測結(jié)果。

表3 模型的輸入特征Table 3 Input features of the model

2.3 預(yù)測模型的評價指標(biāo)

采用平均絕對百分比誤差MAPE和均方根誤差RMSE來評價模型的好壞，公式如下：

(17)

(18)

式中：y′i為預(yù)測值；yi為真實值。

3 算例分析

為驗證本文所提方法的科學(xué)性和可靠性，本文實驗選取使用2016年電工數(shù)學(xué)建模競賽中2014年1月1日至2014年6月29日的負荷數(shù)據(jù)，數(shù)據(jù)的采樣周期為15 min，共180天，每天共有96組數(shù)據(jù)，共17 280條負荷數(shù)據(jù)，以2014年1月1日至2014年6月23日的數(shù)據(jù)為歷史負荷數(shù)據(jù)，預(yù)測2014年6月24日到6月29日的負荷數(shù)據(jù)。LSTM模型采用基于Python編寫的Keras深度學(xué)習(xí)框架[25]，K均值采用常用的sklearn機器學(xué)習(xí)框架。

3.1 相似日選取有效性分析

以待預(yù)測日6月24日為例，進行分析。首先使用灰色關(guān)聯(lián)分析法，計算待預(yù)測日與歷史樣本的灰色關(guān)聯(lián)度，將灰色關(guān)聯(lián)度大于等于0.7的歷史樣本作為相似日的粗集，可得到94天相似日。在相似日粗集的基礎(chǔ)上，將每天作為一個數(shù)據(jù)對象，每天特征維度為8，將其輸入到K均值聚類模型中。聚類個數(shù)的選擇是聚類效果重要的一環(huán)，傳統(tǒng)聚類個數(shù)確定的方法都是根據(jù)輪廓系數(shù)(Silhouette coefficient, SIL)[26]和戴維森堡丁指數(shù)(Davies-Bouldin Index, DBI)[27]2個指標(biāo)進行決定，需要人為決定聚類個數(shù)。當(dāng)SIL數(shù)值越大，DBI數(shù)值越小時，說明此時聚類的效果最好。圖4為2個聚類指標(biāo)的折線圖，可以看到此時的最佳聚類數(shù)為2，但是SIL和DBI數(shù)值都隨聚類個數(shù)的變化而波動。

圖4 聚類評價指標(biāo)Fig.4 evaluation index of clustering

本文將2個聚類指標(biāo)進行統(tǒng)一，提出了綜合聚類指標(biāo)，當(dāng)綜合聚類指標(biāo)最小時所對應(yīng)的聚類個數(shù)就是最佳聚類個數(shù)，計算公式如下所示：

(19)

式中：E為綜合聚類指標(biāo)；CSIL和IDB分別為SIL和DBI指標(biāo)的數(shù)值。

圖5為綜合聚類指標(biāo)隨聚類個數(shù)的變化情況，聚類個數(shù)可根據(jù)綜合聚類指標(biāo)直接決定，不需要進行人為分析決定。故本文將待預(yù)測日(6月24日)的聚類個數(shù)選取為2。計算待預(yù)測日與各聚類中心的歐式距離，結(jié)果如表4所示，故選距離最小一類為最終相似日，共72天。

圖5 綜合聚類評價指標(biāo)Fig.5 Comprehensive evaluation index of clustering

表4 聚類中心與待預(yù)測日的歐氏距離Table 4 Euclidean distance between cluster center and the day to be predicted

為比較本文方法與灰色關(guān)聯(lián)方法所選取的相似日的有效性，本文將形狀系數(shù)[25]作為比較兩者的標(biāo)準。形狀系數(shù)越小，說明兩者曲線在形態(tài)方面越接近。計算公式如下所示：

xijk=xik-xjk

(20)

(21)

(22)

式中：xi、xj分別為長度為l的等長序列，分別表示為xi={xi1,xi2,…,xil}，xj={xj1,xj2,…,xjl}，xik表示第i序列的第k個元素，xjk表示第j序列的第k個元素;Sij為序列i和j的形狀系數(shù)。

計算兩組相似日負荷與待預(yù)測日之間的形狀系數(shù)，其測試集的形狀系數(shù)平均值的計算結(jié)果如表5所示。

表5 形狀系數(shù)平均值Table 5 Average of shape coefficient

從表5中可知，本文方法在相似日的選取上，更接近相似日，故本文方法在相似日的選取上比灰色關(guān)聯(lián)分析法效果更好。

3.2 不同相似日選取方法對比分析

為驗證本文相似日選取方法是否能提升精度，采用LSTM模型，對不選取相似日(LSTM)、灰色關(guān)聯(lián)選取相似日(GRA-LSTM)和基于灰色關(guān)聯(lián)分析與K均值聚類選取相似日(GRA-K-means-LSTM)3種情況進行對比分析，共同預(yù)測6月24日的負荷。LSTM模型使用2層隱藏層，神經(jīng)元個數(shù)為32 100，最后使用激活函數(shù)為sigmoid的全連接層輸出預(yù)測值，神經(jīng)網(wǎng)絡(luò)采用Adam算法優(yōu)化，學(xué)習(xí)率為0.001。3種情況的誤差如表6所示。

表6 不同相似日選取方法誤差對比Table 6 Error comparison of different similar-day selection methods

從表6中可知，采用相似日的方法在MAPE這一項指標(biāo)上比不選取相似日的方法均有降低，傳統(tǒng)的灰色關(guān)聯(lián)分析法選取相似日，在MAPE上相比未選取相似日降低了0.634%，本文的方法在MAPE上降低了1.198%。傳統(tǒng)的灰色關(guān)聯(lián)分析法在RMSE上效果不佳，但是本文方法卻降低了81.124 MW。由此可見，本文提出的采用GRA-K-means選取相似日方法，在誤差精度上均比傳統(tǒng)的灰色關(guān)聯(lián)分析法要好，也證明了方法的有效性。圖6為負荷預(yù)測曲線，從圖6中可知本文方法比未采用相似日方法和采用灰色關(guān)聯(lián)分析方法的LSTM模型更加貼合實際負荷曲線，在峰谷處本文方法比其他2種方法更接近真實值，擬合度更高，預(yù)測誤差更小。

圖6 不同相似日選取方法的預(yù)測負荷曲線Fig.6 Load forecasting curves of different similar-day search methods

3.3 不同模型的對比分析

為驗證本文方法模型的可行性與合理性，采用不選取相似日的LSTM模型和本文所提模型(GRA-K-means-LSTM)、XGBoost模型(GRA-K-means-XGBoost)、LightGBM模型(GRA-K-means-LightGBM)相結(jié)合的模型進行對比分析，預(yù)測6月24日到6月29日共6天的負荷數(shù)據(jù)，并對結(jié)果取平均值，結(jié)果如表7所示。XGBoost[28]與LightGBM[29]是各種競賽中常用的算法且取得了比較好的成績，將這兩者當(dāng)作本文的對照模型，來驗證本文方法的有效性。這2種模型均采用sklearn框架。

表7 不同模型誤差對比Table 7 Error comparison of different models

如表7所示，本文所提出的GRA-K-means-LSTM方法與其他4種方法相比，在MAPE指標(biāo)上，本文方法比LSTM、GRA-LSTM、GRA-Kmeans-XGBoost、GRA-Kmeans-LightGBM分別降低了0.911%、0.637%、0.503%、0.389%，在RMSE上本文方法比LSTM、GRA-LSTM、GRA-K-means-XGBoost分別降低了55.739、54.579和12.264 MW，與GRA-K-means-LightGBM結(jié)果相差很小。

在幾種對比模型中，本文所提出的GRA-K-means-LSTM是最優(yōu)的，其原因在于采用灰色關(guān)聯(lián)分析法和K均值聚類的方法選取相似日，刪除了相似度不高的數(shù)據(jù)，提高了數(shù)據(jù)的相關(guān)性，并結(jié)合LSTM神經(jīng)網(wǎng)絡(luò)模型，實現(xiàn)對負荷的短期預(yù)測，充分發(fā)揮了LSTM神經(jīng)網(wǎng)絡(luò)能夠處理時間序列和非線性數(shù)據(jù)的特性，提高了預(yù)測精度。

4 結(jié) 論

1) 本文選取相似日時加入了前日負荷峰值和溫濕度指數(shù)，并使用皮爾遜相關(guān)系數(shù)法證明其與日總負荷值具有明顯的相關(guān)性，可以用于相似日的選取。

2) 在傳統(tǒng)的灰色關(guān)聯(lián)分析法的基礎(chǔ)上加入了K均值聚類，并通過綜合聚類指標(biāo)選取聚類個數(shù)，解決了人工選取聚類中心的缺點。通過改進的方法得到了與待預(yù)測日相似程度更高的相似日，減少了訓(xùn)練樣本的數(shù)量和差異程度，有助于提升負荷預(yù)測精度。

3) 通過將本文相似日選取方法與LSTM模型相結(jié)合，有效地提高了短期負荷預(yù)測的精度，且LSTM模型能夠更好地擬合負荷數(shù)據(jù)。

未來可以考慮更多導(dǎo)致電網(wǎng)氣象災(zāi)害的因素，進一步提升短期負荷預(yù)測精度，應(yīng)用于電網(wǎng)氣象災(zāi)害預(yù)警研究。