遆寶中, 李庚銀, 武昭原, 王劍曉, 周 明, 李瑞連
(新能源電力系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室(華北電力大學(xué)),北京 102206)
電力負(fù)荷預(yù)測作為電力系統(tǒng)重要工作之一,是智能電網(wǎng)規(guī)劃管理和高效運(yùn)行的重要基礎(chǔ)。精準(zhǔn)的短期電力負(fù)荷預(yù)測有助于指導(dǎo)電力系統(tǒng)優(yōu)化調(diào)度和安排機(jī)組檢修計(jì)劃,有效降低發(fā)電機(jī)組的生產(chǎn)成本,保證電網(wǎng)的安全穩(wěn)定和經(jīng)濟(jì)運(yùn)行。隨著電力市場的發(fā)展、新能源規(guī)模的擴(kuò)大、信息物理系統(tǒng)的深度融合,短期電力負(fù)荷預(yù)測在需求響應(yīng)管理、可再生能源消納、信息安全防控等領(lǐng)域正發(fā)揮著越來越重要的作用[1]。
短期電力負(fù)荷預(yù)測主要分為以卡爾曼濾波[2]、多元線性回歸[3]為代表的統(tǒng)計(jì)學(xué)方法和以決策樹模型[4]、支持向量機(jī)(support vector machines,SVM)[5]為代表的機(jī)器學(xué)習(xí)方法。深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的延伸,進(jìn)一步解決上述方法對(duì)于非線性系統(tǒng)存在時(shí)序信息丟失、多維特征挖掘不夠充分的問題[6]。長短時(shí)記憶 (long short-term memory,LSTM)神經(jīng)網(wǎng)絡(luò)和門控循環(huán)單元(gated recurrent unit,GRU)在循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)結(jié)構(gòu)基礎(chǔ)上對(duì)隱藏層神經(jīng)元間建立連接[7],適用于處理電力負(fù)荷數(shù)據(jù)的時(shí)序特征[8],在此基礎(chǔ)上引入注意力機(jī)制,選擇性關(guān)注重要的輸入數(shù)據(jù),可使模型更容易學(xué)習(xí)序列長期依賴關(guān)系[9]。文獻(xiàn)[10]發(fā)現(xiàn),對(duì)于多維輸入特征的實(shí)際算例,雙重注意力機(jī)制的GRU模型預(yù)測精度優(yōu)于單重注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)-GRU模型。文獻(xiàn)[11]將注意力機(jī)制選擇性關(guān)注隱性狀態(tài)和雙層LSTM對(duì)序列數(shù)據(jù)雙向時(shí)序提取的優(yōu)勢相結(jié)合,提高了短期電力負(fù)荷預(yù)測模型的精度。
Google團(tuán)隊(duì)提出的Transformer網(wǎng)絡(luò)摒棄了循環(huán)神經(jīng)網(wǎng)絡(luò)模型,完全依賴注意力機(jī)制提取序列間的關(guān)聯(lián)性。相比較RNN順序輸入,Transformer方法可將數(shù)據(jù)并行輸入和計(jì)算,其多頭自注意力機(jī)制可將關(guān)聯(lián)性信號(hào)的傳播路徑在理論上減少到最短的O(1)。不同于常規(guī)神經(jīng)網(wǎng)絡(luò)黑箱模型,自注意力機(jī)制具有較好的可解釋性,在自然語言處理中大大提高了翻譯精度[12]。文獻(xiàn)[13]提出一種時(shí)間融合Transformer,在電力負(fù)荷、交通、零售、股票等預(yù)測領(lǐng)域?qū)崿F(xiàn)顯著的性能提升。文獻(xiàn)[14]提出Informer作為Transformer的變體,采用稀疏注意力機(jī)制和對(duì)注意力層的卷積池化等壓縮操作,提高了長時(shí)間序列的預(yù)測精度。
Transformer模型在提取長距離關(guān)聯(lián)性上表現(xiàn)出優(yōu)于RNN模型的性能[14,15],理論上當(dāng)注意力層足夠大時(shí)可處理大規(guī)模自然語言處理(NLP)等長距離相關(guān)性的序列預(yù)測任務(wù),但需要占用大量計(jì)算資源[16],因此在訓(xùn)練時(shí)需將序列分割為固定長度并為每個(gè)片段添加相同的位置編碼,導(dǎo)致各分段數(shù)據(jù)間碎片化,限制了其捕獲長距離特征的能力。
針對(duì)上述問題,本文提出了一種基于卷積門控循環(huán)單元(Convolutional Gated Recurrent Unit, ConvGRU) -Transformer的短期負(fù)荷預(yù)測方法。首先提出一種循環(huán)擴(kuò)張自注意力機(jī)制,解決Transformer的分段輸入導(dǎo)致信息碎片化問題,擴(kuò)大注意力的關(guān)注視野。利用ConvGRU對(duì)多特征時(shí)間序列進(jìn)行相對(duì)位置編碼,保持內(nèi)容信息的一致性,提取時(shí)序數(shù)據(jù)的潛在特征。仿真表明,本文方法在長序列預(yù)測依然保持較高的精度,與現(xiàn)有典型方法相比具有更高的準(zhǔn)確率。
注意力機(jī)制模擬人腦的復(fù)雜認(rèn)知功能,人類在關(guān)注圖像信息時(shí),會(huì)下意識(shí)地關(guān)注整個(gè)圖像總體,并將更多注意力資源投入到更多可用的有利信息上,即注意力的焦點(diǎn),以獲得更加豐富的目標(biāo)信息,同時(shí)進(jìn)一步提升獲取目標(biāo)信息的效率與速度[15]。不同于傳統(tǒng)的建立在循環(huán)結(jié)構(gòu)基礎(chǔ)上的注意力機(jī)制[17],Transformer引入了自注意力機(jī)制,可以顯示捕捉序列間的位置關(guān)系。相較于傳統(tǒng)RNN模型,自注意力機(jī)制具有參數(shù)少、計(jì)算速度快、效果更優(yōu)的特點(diǎn)。
自注意力機(jī)制基于信息提取器將輸入序列XT映射到一組查詢向量QT、鍵向量KT和值向量VT的矢量輸出中[18]。接著計(jì)算QT與KT的相似度作為權(quán)重,對(duì)所有的值向量進(jìn)行加權(quán)求和。采用縮放點(diǎn)積法將上述過程表示為
[QT,KT,VT]=[WQXT,WKXT,WVXT]
(1)
(2)
式中:WQ∈dk×dmod、WK∈dk×dmod、WV∈dv×dmod為對(duì)應(yīng)于QT∈dk×dt、KT∈dk×dt、VT∈dv×dt的訓(xùn)練參數(shù)矩陣,對(duì)于輸入時(shí)間序列XT∈dmod×dt,dmod表示時(shí)刻t序列的特征維度,如負(fù)荷值、溫度、日期等,dt表示輸入多少個(gè)序列向量。dk為查詢向量和鍵向量的維度,dv為值向量的維度,通過點(diǎn)積的方式將維度為dmod高維信息壓縮到dk、dv以便進(jìn)行相似度計(jì)算。ATTN為自注意力函數(shù)表示;softmax為歸一化指數(shù)函數(shù)。除以是為了抵消較大輸入導(dǎo)致softmax陷入極小梯度區(qū)域的現(xiàn)象。
多頭注意力是指對(duì)輸入設(shè)置NM個(gè)獨(dú)立的注意力頭并行操作,不同注意力頭關(guān)注數(shù)據(jù)的不同特征維度,最后將輸出結(jié)果拼接并乘以權(quán)重函數(shù)表示:
ATm=ATTN(QTm,KTm,VTm)
(3)
Mhead(XT)=Whead·[AT1;…ATm,…;ANM]
(4)
式中:ATm∈dv×dt為注意力頭m的自注意力分布,即式(1)、(2)計(jì)算結(jié)果;Whead∈dmod×NMdv為線性映射矩陣,Mhead(XT)為輸入XT對(duì)應(yīng)的最終自注意力分布。
原自注意力結(jié)構(gòu)只能處理固定長度的時(shí)間序列,即將一個(gè)長序列截?cái)酁楣潭ㄩL度的片段,在訓(xùn)練時(shí)對(duì)每個(gè)片段單獨(dú)處理,這將導(dǎo)致第一個(gè)片段的首端序列與第二個(gè)片段的末端序列間將缺乏聯(lián)系。在劃分片段時(shí),通常不考慮序列的潛在規(guī)律。例如對(duì)于以具有星期或月周期性特征的負(fù)荷曲線,數(shù)據(jù)分割的碎片化導(dǎo)致這種長時(shí)間尺度的特征被破壞。
受時(shí)序卷積網(wǎng)絡(luò)(Temporal Convolutional Networks, TCN)擴(kuò)張卷積結(jié)構(gòu)啟發(fā),本文提出一種注意力循環(huán)擴(kuò)張結(jié)構(gòu)。訓(xùn)練期間,將之前時(shí)段編碼器的計(jì)算結(jié)果緩存。后續(xù)輸入時(shí),擴(kuò)張機(jī)制允許注意力存在間隔采樣,采樣率由擴(kuò)張因子e控制,其結(jié)構(gòu)如圖1所示。擴(kuò)張因子指的是為上層對(duì)下層層采樣的間隔數(shù),相當(dāng)于在兩個(gè)相鄰的注意力層間加入一個(gè)固定步長。以分枝數(shù)為3為例,最底層輸入e=1,表示將片段連續(xù)輸入。中間層e=2,表示每個(gè)兩個(gè)片段的固定步長做一次采樣,層級(jí)越高e的大小越大。擴(kuò)張機(jī)制使得有效窗口的大小隨層數(shù)呈指數(shù)增長,以獲得更大的學(xué)習(xí)視野。
圖1 自注意力循環(huán)擴(kuò)張結(jié)構(gòu)Fig. 1 Recurrent and dilated structure of self-attention mechanism
對(duì)于序列X={x1,…,xt,…},擴(kuò)張后的注意力視野為:
Ascan,e(X)=Concat(XT-(nb-i)e)
(5)
式中:e為擴(kuò)張因子;nb為分枝數(shù),e=[1,…,(nb-1)l-1];拼接函數(shù)Concat的功能是將輸入矩陣合并。擴(kuò)張計(jì)算相當(dāng)于在相鄰兩次片段數(shù)據(jù)采集間加入固定的步長,e為增加的步長大小。
將l-1層的序列以上述擴(kuò)張規(guī)則拼接后,可得到第l層的鍵向量Kl和值向量Vl。自注意力實(shí)際上是計(jì)算查詢輸入序列得到的Ql和歷史序列得到的Kl之間的關(guān)聯(lián)性,根據(jù)當(dāng)前輸入和與其對(duì)應(yīng)的神經(jīng)網(wǎng)絡(luò)中記憶的規(guī)律預(yù)測后續(xù)的發(fā)展趨勢,因此Ql通過未經(jīng)拼接的片段直接計(jì)算求得,第l層注意力的計(jì)算公式為
(6)
(7)
(8)
由于Transformer沒有遞歸層與卷積層,單純的自注意力機(jī)制無法捕捉輸入的順序。Transformer采用正余弦位置編碼與自注意力機(jī)制結(jié)合使用[18],這種編碼方式的優(yōu)點(diǎn)在于擴(kuò)展了編碼長度,同時(shí)序列間的相對(duì)位置存在線性關(guān)系。
(9)
(10)
式中:t為輸入的序列位置,i表示維度,即矩陣的每個(gè)維度都有對(duì)應(yīng)的位置編碼。式(9)、(10)分別為奇數(shù)列和偶數(shù)列的位置編碼表示。
正余弦絕對(duì)位置編碼方式主要考慮局部相對(duì)特征,缺乏考慮全局信息。前一個(gè)周期與本周期相同位置使用的是同樣的位置編碼,這使得注意力層不易捕捉序列的潛在變化。且經(jīng)過線性變換和點(diǎn)積運(yùn)算后將導(dǎo)致方向信息丟失[19]。為了保持內(nèi)容與位置的一致性,一些文獻(xiàn)在文獻(xiàn)中在計(jì)算注意力權(quán)重時(shí)引入可訓(xùn)練參數(shù)表示相對(duì)位置提高了及其翻譯質(zhì)量[20],文獻(xiàn)[13]負(fù)荷預(yù)測時(shí)用LSTM進(jìn)行位置編碼,考慮到需要對(duì)多元數(shù)據(jù)編碼,本文采用卷積門控循環(huán)單元(Convolutional Gated Recurrent Unit,ConvGRU)進(jìn)行位置編碼。
GRU本身具有循環(huán)結(jié)構(gòu)并采用順序輸入的方式,其隱藏層保留了序列的相對(duì)位置信息,本質(zhì)上為一種可訓(xùn)練的相對(duì)位置編碼,能夠反映全局特性,提高預(yù)測精度。作為為長短期記憶網(wǎng)絡(luò)LSTM的變體,只保留了更新門和重置門。更新門控制前一時(shí)刻的狀態(tài)信息保留程度,重置門控制當(dāng)前狀態(tài)與先前信息的結(jié)合程度[21]。GRU雖然參數(shù)少、模型簡單,但保持與LSTM相當(dāng)?shù)男阅?,具有更快的收斂速度?/p>
ConvGRU在一維GRU基礎(chǔ)上改進(jìn),將激活函數(shù)δ和tanh內(nèi)的全連接運(yùn)算改為卷積運(yùn)算,捕獲多維數(shù)據(jù)的基礎(chǔ)空間特征,其結(jié)構(gòu)如圖2所示。將隱藏層輸出接全連接層作為輸入數(shù)據(jù)的位置編碼結(jié)果,基本計(jì)算公式如下:
圖2 ConvGRU結(jié)構(gòu)Fig. 2 Schematic diagram of ConvGRU
(11)
RT=σ(WR*XT+UR*HT-1)
(12)
(13)
(14)
Ploc(XT)=ReLU(WHHT+bH)
(15)
本文模型以影響負(fù)荷預(yù)測的各種屬性組成的時(shí)間序列特征圖作為網(wǎng)絡(luò)的輸入。出于電力負(fù)荷的日特性,負(fù)荷在每天不同時(shí)刻受外部因素影響的程度會(huì)有所不同,例如負(fù)荷在一些時(shí)刻受其他因素的影響顯著,而在另一些時(shí)段則與歷史負(fù)荷的相關(guān)性更大。從經(jīng)濟(jì)因素的角度,日前邊際電價(jià)和實(shí)時(shí)電價(jià)將影響消費(fèi)者的用電習(xí)慣[22]。此外如溫度、濕度等氣象因素對(duì)負(fù)荷的影響還存在累積效應(yīng)和滯后效應(yīng)[23]。季節(jié)的變遷也會(huì)影響用電類型比重,如夏季的降溫負(fù)荷和農(nóng)業(yè)灌溉負(fù)荷比重更大,冬季取暖負(fù)荷占比更多[22]。其他社會(huì)因素如節(jié)假日和工作日相比電力負(fù)荷有所降低。這都將導(dǎo)致在不同時(shí)間段下,影響負(fù)荷的最優(yōu)特征集可能會(huì)有所差異。
綜上所述,本文輸入數(shù)據(jù)主要由以下特征組成:歷史負(fù)荷、氣象因素、電價(jià)、時(shí)間特征(月份、當(dāng)月日期、小時(shí))、節(jié)假日信息,共同組成該時(shí)刻的負(fù)荷特征dmod,數(shù)據(jù)結(jié)構(gòu)如圖3所示,負(fù)荷、氣象數(shù)據(jù)采用連續(xù)變量,其余數(shù)據(jù)均為離散變量根據(jù)元素?cái)?shù)采用one-hot編碼,數(shù)據(jù)采樣步長為1 h。采用滑動(dòng)窗口的方式將時(shí)間序列數(shù)據(jù)生成特征圖輸入。為加快訓(xùn)練速度,對(duì)日負(fù)荷數(shù)據(jù)、溫度、電價(jià)特征等連續(xù)變量采用min-max歸一化到[0, 1]。對(duì)日期特征、節(jié)假日信息等離散變量采用虛擬變量編碼。
圖3 輸入數(shù)據(jù)結(jié)構(gòu)Fig. 3 Structure of input data
本文提出的負(fù)荷預(yù)測模型結(jié)構(gòu)如圖4所示,包括輸入層、Nen層編碼器、Nde層解碼器、輸出層。
(1)輸入層。輸入層將各時(shí)間步的負(fù)荷數(shù)據(jù)和外部特征嵌入表示為Xen=[…,XT,en,…],XTen∈dmod×dt。采用ConvGRU生成全局位置編碼,以加法的方式同嵌入表示合并得到作為編碼器的輸入:
(16)
(17)
(18)
圖4 ConvGRU-Transformer結(jié)構(gòu)示意圖Fig. 4 Schematic diagram of ConvGRU-Transformer
(19)
(20)
(21)
式中:W1、W2分別為第一層、第二層可訓(xùn)練權(quán)重,b1、b2為偏置向量。
最終在經(jīng)過一次層歸一化,得到該層的輸出:
(22)
(3) 解碼器。解碼器結(jié)構(gòu)與編碼器類似,由于用于序列預(yù)測,因此單獨(dú)設(shè)置掩碼注意力層。在序列預(yù)測過程中,僅考慮之前數(shù)據(jù)對(duì)當(dāng)前的影響,后續(xù)信息作為未知數(shù)據(jù)利用函數(shù)掩碼掉,不參與訓(xùn)練[18]。解碼器注意力層的查詢向量Q從下一層中獲得,鍵向量K、值向量V來自編碼器的輸出。解碼器的輸入XTde如下:
XT,de=Concat(XT,de,token,XT,de,mask)∈dbmod×(dtoken+dmask)
(23)
式中:XT,de,token為標(biāo)記序列;XT,de,mask為預(yù)測序列。為了不在預(yù)測時(shí)泄露后續(xù)信息,解碼器需對(duì)XT,de,mask掩碼運(yùn)算[26],避免對(duì)預(yù)測數(shù)據(jù)的影響。解碼器以編碼器滑動(dòng)片段為步長動(dòng)態(tài)解碼。
(4) 輸出層。解碼器輸出的特征向量經(jīng)過一個(gè)全連接層運(yùn)算以及Sigmoid壓縮函數(shù),再經(jīng)過逆歸一化處理得到對(duì)應(yīng)于輸入序列的預(yù)測結(jié)果Y=[y1,…,yT,…]。
(24)
本文在模型訓(xùn)練階段采用Adam自適應(yīng)矩估計(jì)方法[27]動(dòng)態(tài)優(yōu)化模型參數(shù)。損失函數(shù)采用均方誤差(Mean square error, MSE),計(jì)算輸出和真實(shí)值誤差。
(25)
本文數(shù)據(jù)來源為2014年全球能源預(yù)測大賽(global energy forecasting competition,GEFCom)的GEFCom2014-E數(shù)據(jù)集[28],該數(shù)據(jù)取自美國新英格蘭電力系統(tǒng)運(yùn)營商2006年至2014年每小時(shí)電力負(fù)荷信息和2004年至2014年每小時(shí)溫度信息。選取2012年1月1日至2013年6月30日為訓(xùn)練集,2013年7月1日至2013年12月31日為驗(yàn)證集,2014年1月1日至2014年6月30日為測試集,負(fù)荷數(shù)據(jù)和溫度數(shù)據(jù)的整體分布情況如圖5所示,可發(fā)現(xiàn)有較強(qiáng)的周期性規(guī)律。本文實(shí)驗(yàn)仿真環(huán)境包括Inter Core i5-8265U,內(nèi)存:8 GB,主頻:1. 6 GHz,操作系統(tǒng):Windows 10,編譯平臺(tái):Python 3. 6,TensorFlow 2. 4. 0。
本文選用平均絕對(duì)百分誤差(Mean Absolute Percentage Error, MAPE)和均方根誤差(Root Mean Square Error, RMSE)作為模型性能評(píng)價(jià)指標(biāo)。MAPE作為回歸模型常用性能指標(biāo),綜合考慮了預(yù)測值與真實(shí)值的誤差以及考慮了誤差與真實(shí)值的比例;RMSE對(duì)偏離較大的值懲罰效果更強(qiáng)。
圖5 負(fù)荷溫度數(shù)據(jù)Fig. 5 Load and temperature data
為了兼顧訓(xùn)練速度與模型性能,參考Transformer標(biāo)準(zhǔn)結(jié)構(gòu),ConvGRU-Transformer的編碼器和解碼器均為6層。為在捕獲長期特征與局部特征上取得均衡,擴(kuò)張分枝數(shù)選3。待選變量集包括負(fù)荷、溫度、趨勢、日期和節(jié)假日變量。負(fù)荷、溫度、趨勢為連續(xù)變量,其余變量為離散變量并采用one-hot編碼。趨勢變量為從1開始累加的線性累加變量。日期變量包括1~24小時(shí)變量、1~7星期變量和1~12月份變量,節(jié)假日變量中周一至周五為工作日,周六、周日為節(jié)假日。表1總結(jié)了針對(duì)每個(gè)預(yù)測模型所發(fā)現(xiàn)的最佳參數(shù)配置,神經(jīng)網(wǎng)絡(luò)方法的批處理數(shù)一律設(shè)置為24。
表1 不同預(yù)測模型參數(shù)配置Tab.1 Parameter configuration of different model
為直觀反映本文改進(jìn)方案對(duì)原模型訓(xùn)練的影響,采用MAPE作為指標(biāo)反應(yīng)訓(xùn)練效率,如圖6所示。從圖中可以發(fā)現(xiàn),Transformer的訓(xùn)練速度更快,在訓(xùn)練3000次以后MAPE已降到2%以下,ConvGRU-Transformer下降速度要慢得多,且在訓(xùn)練初期波動(dòng)幅度更大。這是由于ConvGRU-Transformer由于需要ConvGRU進(jìn)行全局位置編碼,訓(xùn)練參數(shù)更多;同時(shí)前期需要大量訓(xùn)練以填充擴(kuò)張單元,曲線下降更為平緩。
圖6 與原結(jié)構(gòu)收斂性對(duì)比Fig. 6 The simulation convergence compared with the original model
由于自注意力機(jī)制直接描述序列之間的關(guān)聯(lián)性,不需要將其映射到高維空間訓(xùn)練,因此具有良好的可解釋性。這里將注意力矩陣表示為熱圖,如圖7、8所示。縱軸范圍為1~16 h,橫軸范圍為-31~16 h,由于仿真采用的時(shí)間窗口為16 h,采樣片段為1~16 h,分枝數(shù)為3,拼接的2個(gè)片段對(duì)應(yīng)的歷史序列為-31~0 h。熱圖顏色深淺表示各時(shí)刻序列之間的相關(guān)性。
從圖7可以發(fā)現(xiàn)對(duì)于注意力頭1,解碼器1主要關(guān)注第二片段特征,解碼器3更關(guān)注第三片段,解碼器6則在尾部分布了較大的權(quán)重,注意力分布呈現(xiàn)遞進(jìn)關(guān)系。編碼器1、3、6的擴(kuò)張因子分別為,視野分別為48 h、10天和84.67天,說明注意力頭1主要關(guān)注的負(fù)荷、溫度等連續(xù)數(shù)據(jù)在短周期內(nèi)具有較多的局部特征,隨著步長的增加,數(shù)據(jù)之間的關(guān)聯(lián)性下降,分配的權(quán)重降低。同時(shí)注意力層具有以片段長度為單位的時(shí)序性規(guī)律變化,解碼器3、解碼器6的前兩個(gè)片段均具有相同的分布趨勢,說明循環(huán)擴(kuò)張結(jié)構(gòu)可有效提取序列的長期特征。
圖7 不同注意力層權(quán)重?zé)崃DFig. 7 Weighted heatmap of different attention layers
結(jié)合圖7 (b)和圖8可以發(fā)現(xiàn),解碼器3注意力頭1和頭3 的權(quán)重主要分布在第三段,注意力頭2則分布更均勻。注意力頭1包含的數(shù)據(jù)和注意力頭3包含的星期、月份數(shù)據(jù)的注意力權(quán)值僅在近期較為集中,說明電力負(fù)荷的預(yù)測與鄰近星期的負(fù)荷、溫度等數(shù)據(jù)關(guān)聯(lián)性較大,例如上周數(shù)據(jù)將對(duì)本周數(shù)據(jù)預(yù)測的影響與更早歷史數(shù)據(jù)相比更為重要。注意力頭2包含的小時(shí)、節(jié)假日數(shù)據(jù)的權(quán)重分布更加均勻,說明在同一時(shí)刻的不同日負(fù)荷之間、不同星期的周末之間的數(shù)據(jù)有較強(qiáng)的關(guān)聯(lián),即這些數(shù)據(jù)具有較長的周期規(guī)律,例如每周間的周末數(shù)據(jù)雖在時(shí)間序列上不連續(xù),但因其關(guān)聯(lián)性較強(qiáng)預(yù)測時(shí)需著重考慮。
圖8 不同注意力頭權(quán)重?zé)崃DFig. 8 Weighted heatmap of different attention heads
為驗(yàn)證ConvGRU-Transformer模型在電力負(fù)荷預(yù)測上的科學(xué)性和有效性,本文將常用于電力負(fù)荷短期預(yù)測的SVR、LSTM、CNN-LSTM作為對(duì)照模型,對(duì)2014年1月至6月負(fù)荷進(jìn)行日前短期預(yù)測。記錄每種模型多次實(shí)驗(yàn)后的最優(yōu)結(jié)果如表2所示。
表2 不同方法預(yù)測結(jié)果對(duì)比Tab.2 Prediction results of different algorithms
從表中可以發(fā)現(xiàn),ConvGRU-Transformer預(yù)測精度優(yōu)于其他方法,MAPE相比其他4種方法分別降低了0.192 %、2.275%、0.877%、0.184%,RMSE相較于其他方法分別降低了 30.151 MW、116.823 MW、50.734 MW、24.946 MW,證明本文方法可有效捕捉多輸入特征和預(yù)測負(fù)荷間的非線性關(guān)系。循環(huán)擴(kuò)張結(jié)構(gòu)和ConvGRU相對(duì)位置編碼在不降低效能的前提下,大幅度降低了原模型的訓(xùn)練時(shí)間。日負(fù)荷預(yù)測時(shí)間為0.501 s,適用于電力負(fù)荷短期預(yù)測。
圖9為各方法對(duì)一周連續(xù)日負(fù)荷預(yù)測曲線對(duì)比。從圖中可以看出,SVR預(yù)測誤差最大,由于僅將負(fù)荷和溫度作為特征輸入,在周特性等長距離相關(guān)性上表現(xiàn)較差,LSTM在負(fù)荷劇烈波動(dòng)區(qū)域預(yù)測結(jié)果較差,在周六、周日表現(xiàn)出了較大的波動(dòng),其余三種方法由于可提取數(shù)據(jù)的多元相關(guān)性,曲線的平滑性得到改善。ConvGRU-Transformer由于注意力視野的提升以及位置編碼的連貫性,相較于原方法有效提升了在波峰、波谷處的預(yù)測精度。
圖9 不同方法從2014年1月6日到1月12日負(fù)荷預(yù)測對(duì)比Fig. 9 Comparison of load forecasting from 2014/1/6 to 2014/1/12 by different learning methods
本文提出了一種基于ConvGRU-Transformer電力負(fù)荷預(yù)測方法,首先采用循環(huán)擴(kuò)張機(jī)制擴(kuò)大模型的注意力視野,再采用ConvGRU網(wǎng)絡(luò)有效提取序列的相對(duì)位置信息。算例仿真結(jié)果表明:循環(huán)擴(kuò)張結(jié)構(gòu)可有效捕獲多維特征輸入數(shù)據(jù)的長距離特征,結(jié)合對(duì)前序計(jì)算片段隱層狀態(tài)的緩存機(jī)制,在大幅縮短了原模型的訓(xùn)練時(shí)間的同時(shí)有效提高預(yù)測精度;自注意力機(jī)制較好的可解釋性可直觀反應(yīng)序列的周期性規(guī)律,注意力頭對(duì)不同類型數(shù)據(jù)的采集可分別捕獲其潛在特征,為多元數(shù)據(jù)的相關(guān)性分析、模型的擴(kuò)展提供參考。
與常規(guī)的神經(jīng)網(wǎng)絡(luò)方法相比,Transformer及其改進(jìn)模型在深度增加時(shí)存在梯度消失的問題,增加了訓(xùn)練難度,且在注意力矩陣稀疏化處理及特征高效提取方面有較大的發(fā)展空間。未來將從信息傳遞、自適應(yīng)學(xué)習(xí)率等角度出發(fā),增加深度模型訓(xùn)練的穩(wěn)定性與收斂速度。