李雪冬黃 瑩胡 勇李懷強(qiáng)高齊利
(1.北京中恒博瑞數(shù)字電力科技有限公司,北京 100085;2.國家電網(wǎng)公司西北分部,陜西西安 710004)
電力系統(tǒng)負(fù)荷預(yù)測(cè)對(duì)電力系統(tǒng)給的運(yùn)行、生產(chǎn)和規(guī)劃起著重要的作用,同時(shí)也為電網(wǎng)穩(wěn)定經(jīng)濟(jì)運(yùn)行奠定了基礎(chǔ)[1]。Hobbs 的報(bào)告[2]曾經(jīng)指出:將電力負(fù)荷預(yù)測(cè)的平均絕對(duì)百分誤差降低1.5%,每年可提高收益760 萬USD。精準(zhǔn)的負(fù)荷預(yù)測(cè)有利于節(jié)能調(diào)度以及精細(xì)化管理,有利于電網(wǎng)監(jiān)測(cè)的自動(dòng)化和智能化水平的提升[3]。因此,實(shí)現(xiàn)負(fù)荷的精準(zhǔn)預(yù)測(cè)具有重要的意義。
近年來,為了實(shí)現(xiàn)負(fù)荷的精準(zhǔn)預(yù)測(cè),眾多學(xué)者對(duì)電力負(fù)荷預(yù)測(cè)的方法進(jìn)行了積極地研究[4-6]。傳統(tǒng)的負(fù)荷預(yù)測(cè)模型有:時(shí)間序列分析模型、回歸模型和自回歸移動(dòng)平均模型,但這些方法對(duì)非線性關(guān)系數(shù)據(jù)的預(yù)測(cè)能力有限。隨著人工智能技術(shù)的發(fā)展,負(fù)荷預(yù)測(cè)進(jìn)入了嶄新的階段,陳艷平等[7]利用經(jīng)驗(yàn)?zāi)J椒纸釫EMD-樣本熵將原始電力負(fù)荷序列分解,使用Elman 神經(jīng)網(wǎng)絡(luò)對(duì)各子序列分別進(jìn)行預(yù)測(cè)。喻圣等[8]基于模糊神經(jīng)網(wǎng)絡(luò)建立了負(fù)荷預(yù)測(cè)模型。李冬輝等[9]提出了一種將多種群的果蠅優(yōu)化算法和廣義回歸神經(jīng)網(wǎng)相結(jié)合的電力負(fù)荷預(yù)測(cè)模型。
隨著電網(wǎng)負(fù)荷數(shù)據(jù)呈幾何增長,一般的人工智能算法將不能滿足處理海量數(shù)據(jù)的要求。因此,王保義[10-11]、吳潤澤等[12]將Hadoop、Spark 大數(shù)據(jù)框架與最小二乘支持向量機(jī)(least squares support vector machine,LSSVM)、極限學(xué)習(xí)機(jī)等算法相結(jié)合進(jìn)行負(fù)荷預(yù)測(cè)。隨著深度學(xué)習(xí)的發(fā)展,王增平[13]、張旭東[14]、朱俊丞等[15]應(yīng)用不同的深度學(xué)習(xí)網(wǎng)絡(luò)對(duì)電力負(fù)荷進(jìn)行預(yù)測(cè),這些深度學(xué)習(xí)模型大大提高了負(fù)荷預(yù)測(cè)精度[16-17],其中,基于長短時(shí)記憶網(wǎng)絡(luò)(long short term memory,LSTM)建立的負(fù)荷預(yù)測(cè)模型效果更好。但是,這些模型訓(xùn)練需要大量的數(shù)據(jù)和高性能的GPU服務(wù)器,大大增加設(shè)備成本,很難在實(shí)際電力公司進(jìn)行應(yīng)用。因此,提出一種負(fù)荷在線預(yù)測(cè)方法,解決海量負(fù)荷數(shù)據(jù)的難以提取有效特征問題。LSSVM 對(duì)小樣本建模時(shí)具有較高的預(yù)測(cè)精度,如果能夠減少LSSVM 的訓(xùn)練時(shí)間進(jìn)行在線更新建模,對(duì)利用海量數(shù)據(jù)進(jìn)行負(fù)荷預(yù)測(cè)具有重要意義。
研究以某城市電網(wǎng)負(fù)荷數(shù)據(jù)為研究對(duì)象,采用偏最小二乘(partial least squares,PLS)算法對(duì)影響負(fù)荷波動(dòng)的變量進(jìn)行特征提取,將得到特征變量作為在線自適應(yīng)最小二乘支持向量機(jī)(online adaptive least squares support vector machine,PAU-LSSVM)的輸入變量,建立了電力負(fù)荷的PAU-LSSVM 模型。該模型能夠根據(jù)負(fù)荷數(shù)據(jù)的波動(dòng)通過更新矩陣在線優(yōu)化LSSVM 參數(shù),使整個(gè)模型處于動(dòng)態(tài)實(shí)時(shí)更新中,具有較高的實(shí)效性和預(yù)測(cè)精度,適合工程應(yīng)用。
最小二乘支持向量機(jī)將二次規(guī)劃問題轉(zhuǎn)化為線性方程組的求解,降低了計(jì)算的復(fù)雜程度,在應(yīng)用小樣本建模時(shí)具有較高的預(yù)測(cè)精度和較強(qiáng)的泛化能力[18]。原理如下:
設(shè)訓(xùn)練樣本集T=,xi∈Rd,yi∈R,利用結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,以誤差的二次方為損失函數(shù),優(yōu)化問題可以轉(zhuǎn)化為求解下面的問題。
式中:w、b為模型參數(shù);c為正規(guī)化參數(shù);ξ為訓(xùn)練集預(yù)測(cè)誤差向量;φ(·)為映射函數(shù)。
定義LSSVM 模型采用的核函數(shù)Kij=K(xi,xj),i,j=1,2,…,n,滿足Mercer 條件的任意對(duì)稱函數(shù)。利用Lagrange 法將求解優(yōu)化問題轉(zhuǎn)化為求解線性方程組的問題:
式中:c為正規(guī)化參數(shù),由模型參數(shù)計(jì)算得到。
LSSVM 模型參數(shù)a和b表達(dá)式如下所示:
式中:Y為模型輸出向量,Y=[y1,…,yi,…,yn]T;eT=[1,…,1]n×1;H為模型特征矩陣,表達(dá)式為
最后得到函數(shù)估計(jì)的LSSVM 模型為:
LSSVM 模型選用高斯徑向基核函數(shù)構(gòu)造,表達(dá)式如下:
式中:δ為核函數(shù)參數(shù)。
參數(shù)自適應(yīng)更新的最小二乘支持向量機(jī)(PAULSSVM)根據(jù)樣本特性變化實(shí)時(shí)對(duì)LSSVM 的模型參數(shù)進(jìn)行更新,保證參數(shù)與當(dāng)前樣本特性相一致。更新模型參數(shù)可以采用樣本替換算法和樣本添加算法。
在LSSVM 進(jìn)行預(yù)測(cè)時(shí),模型預(yù)測(cè)值^yi與模型實(shí)際值yi的誤差δ大于誤差設(shè)定標(biāo)準(zhǔn)δs,模型失效,進(jìn)行模型在線更新。誤差表達(dá)式如下:
在對(duì)模型進(jìn)行更新之前,應(yīng)先對(duì)新輸入樣本進(jìn)行判別,選擇相應(yīng)的模型更新方法,首先將樣本進(jìn)行歸一化處理,然后計(jì)算新樣本與訓(xùn)練樣本的歐氏距離:
式中:p為變量個(gè)數(shù),x0p為新樣本的第p個(gè)變量;xip為訓(xùn)練樣本的第p個(gè)變量。
如果d0k小于設(shè)定距離ds,選擇樣本替換算法更新模型,否則,選擇樣本添加算法更新模型。
(1)樣本替換算法
樣本替換算法是用新樣本替換訓(xùn)練樣本庫中與之特性最為接近的一個(gè)樣本。文中采用k-近鄰算法確定與新樣本特性最為接近的樣本。得到訓(xùn)練樣本中k個(gè)樣本與新樣本的歐氏距離,并計(jì)算k個(gè)樣本的平均歐氏距離,k個(gè)樣本中與平均歐式距離的距離最短的樣本為與新樣本特性最為接近的樣本。
假設(shè)新樣本(xr,yr)與訓(xùn)練樣本中第i個(gè)樣本(xi,yi)特性最為接近。用式(8)所示的gr代替模型特征矩陣H第i行,用代替模型特征矩陣H第i列,用K(xr,xr)+1/2c代替模型特征矩陣H第i行i列,因此得到更新的特征矩陣Hr。
將模型輸出向量Y中的第i個(gè)元素yi用yr代替,得到Y(jié)r=[y1,…,yr,…,yn]T,然后通過式(10)計(jì)算模型參數(shù),使用計(jì)算的模型參數(shù)完成對(duì)模型的更新。
(2)樣本添加算法
在樣本添加算法中,將新樣本(xr,yr)添加到訓(xùn)練樣本中,將式(11)所示的gt和添加到模型特征矩陣H中,因此得到更新的特征矩陣Ht。
將yt加入到模型輸出向量Y中,得到Y(jié)t=[y1,…,yr,yt]T,然后通過式(13)計(jì)算模型參數(shù),使用計(jì)算的模型參數(shù)完成對(duì)模型的更新。
應(yīng)用上述樣本替換算法和樣本添加算法對(duì)LSSVM 模型進(jìn)行在線自適應(yīng)更新,更新算法流程如圖1 所示。
圖1 OALSSVM 算法流程圖
文中采用劉林棟等[19]所述方法確定主成分,并通過當(dāng)≥0.097 5 時(shí)交叉有效性確定需要提取的主成分個(gè)數(shù)。然后,使用變量投影重要性指標(biāo)(variable importance in projection,VIP)計(jì)算出不同自變量對(duì)因變量y的貢獻(xiàn)值,表達(dá)式如下:
式中:p為自變量個(gè)數(shù),m為主成分的個(gè)數(shù);r(y;th)為y與th的相關(guān)系數(shù);whk為權(quán)值向量wh的第k個(gè)分量。
考慮到電力負(fù)荷相關(guān)變量存在強(qiáng)耦合強(qiáng)相關(guān)的關(guān)系,文中使用楊婷婷等[20]燃煤鍋爐運(yùn)行數(shù)據(jù)進(jìn)行對(duì)VIP指標(biāo)有效性的驗(yàn)證,運(yùn)行數(shù)據(jù)如表1 所示。
表1 燃煤鍋爐運(yùn)行數(shù)據(jù)
使用PLS 變量選擇方法計(jì)算風(fēng)煤比、排煙氧量、爐膛與風(fēng)箱壓差和燃燒器擺腳與鍋爐效率的關(guān)系,得出VIP指標(biāo)分別為0.934、1.144、0.883 和1.020??梢钥闯觯艧熝趿亢腿紵鲾[腳對(duì)鍋爐效率的影響相對(duì)較大,這與文獻(xiàn)中糙集方法分析的結(jié)論一致,證明了文中VIP指標(biāo)是有效的。
以某城市電網(wǎng)負(fù)荷數(shù)據(jù)為研究對(duì)象,考慮到季節(jié)和假期對(duì)負(fù)荷的影響,選擇不同時(shí)間段的小時(shí)最高溫度(Tmax)、日最低溫度(Tmin)、平均溫度(Taver)、平均風(fēng)速(Vwind)、平均濕度(Haver)、平均降水量(Paver)作為PLS 輸入變量,平均負(fù)荷為輸出變量,使用PLS 變量選擇方法對(duì)訓(xùn)練樣本進(jìn)行重要變量信息提取,各個(gè)變量的VIP如表2 所示。
表2 各輸入變量的VIP
根據(jù)表2 所示,選擇VIP值較大的最高溫度、平均溫度和平均濕度作為影響負(fù)荷的關(guān)鍵因素。
選取某城市電網(wǎng)負(fù)荷數(shù)據(jù)進(jìn)行仿真試驗(yàn),選取一周歷史運(yùn)行數(shù)據(jù),采樣間隔為30 min,共計(jì)336 樣本,再選取2 天數(shù)據(jù)96 個(gè)樣本作為測(cè)試,用來檢驗(yàn)LSSVM 模型的預(yù)測(cè)精度,部分電網(wǎng)運(yùn)行數(shù)據(jù)如表所示。首先,將最高溫度、平均溫度和平均濕度等變量進(jìn)行歸一化[-1,1],然后作為LSSVM 模型的輸入,建立了電力負(fù)荷預(yù)測(cè)模型,LSSVM 初始模型參數(shù)使用改進(jìn)遺傳算法進(jìn)行確定[21],建模效果如圖2 所示。
圖2 LSSVM 負(fù)荷預(yù)測(cè)效果
為了進(jìn)一步說明圖2 展示的問題,計(jì)算每個(gè)測(cè)試樣本與訓(xùn)練樣本集的歐氏距離,歐氏距離分布在[0,2]區(qū)間內(nèi),將測(cè)試樣本對(duì)應(yīng)最小距離按照由小到大進(jìn)行排序,并劃分為5 個(gè)區(qū)間,并依據(jù)式(15)計(jì)算每個(gè)歐氏距離區(qū)間內(nèi)的平均絕對(duì)百分比誤差EMAPE,如表3 所示。
式中:M為區(qū)間內(nèi)樣本數(shù)量;為j時(shí)刻負(fù)荷預(yù)測(cè)值;x(k)為j時(shí)刻負(fù)荷實(shí)際值。
表3 中的“0”表示訓(xùn)練樣本,可見,訓(xùn)練樣本的預(yù)測(cè)誤差較小,測(cè)試樣本隨著數(shù)量的增多,模型的預(yù)測(cè)精度在下降,甚至使模型失效。測(cè)試的96 個(gè)樣本中僅有少數(shù)樣本的預(yù)測(cè)誤差可以滿足要求,隨著工況的遷移,大部分測(cè)試樣本預(yù)測(cè)精度不能滿足要求,因此,在線更新LSSVM 模型非常必要。根據(jù)表3 的試驗(yàn)數(shù)據(jù),為了是模型的誤差滿足要求,確定PAULSSVM 模型中標(biāo)準(zhǔn)誤差δs為3%,標(biāo)準(zhǔn)距離ds為1.5,樣本替換算法中的k值取研究領(lǐng)域經(jīng)典值[22],令k=5。
表3 LSSVM 負(fù)荷預(yù)測(cè)模型誤差
基于PAU-LSSVM 方法建立的電力負(fù)荷預(yù)測(cè)模型結(jié)構(gòu)圖如圖3 所示。
圖3 PAU-LSSVM 負(fù)荷預(yù)測(cè)模型結(jié)構(gòu)圖
基于PAU-LSSVM 模型進(jìn)行電力負(fù)荷預(yù)測(cè),其中,該模型初始參數(shù)采用沙超等[21]所述的改進(jìn)遺傳算法確定,模型失效時(shí),使用樣本替換算法和樣本追加算法進(jìn)行參數(shù)更新,測(cè)試樣本預(yù)測(cè)效果如圖4 所示??梢钥闯?,模型預(yù)測(cè)精度明顯得到改善,隨著測(cè)試樣本的增加,模型仍具有較高的預(yù)測(cè)精度,體現(xiàn)了模型較強(qiáng)的泛化能力和工況遷移能力。經(jīng)計(jì)算,模型更新時(shí)間幾乎可以忽略,測(cè)試樣本的平均絕對(duì)百分比誤差為2.78%,小于3%,說明模型在線更新是有效的,能夠?qū)崟r(shí)捕捉負(fù)荷數(shù)據(jù)特征更新模型參數(shù),保障模型預(yù)測(cè)精度。
圖4 PAU-LSSVM 負(fù)荷預(yù)測(cè)效果
文中進(jìn)一步基于上述負(fù)荷數(shù)據(jù)建立了循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、LSSVM 建立了負(fù)荷預(yù)測(cè)模型,所建的3 種模型輸入變量均為基于PLS 提取的特征變量,其中,RNN 和LSTM 的隱含層數(shù)2,為了使兩種深度神經(jīng)網(wǎng)絡(luò)能夠更好的學(xué)習(xí)網(wǎng)絡(luò)參數(shù),將訓(xùn)練樣本336 組數(shù)據(jù)增強(qiáng)為原來的20 倍,4 種模型預(yù)測(cè)效果如圖5 所示。
圖5 不同模型負(fù)荷預(yù)測(cè)效果對(duì)比
從圖中可以看出,PAU-LSSVM 模型預(yù)測(cè)曲線較深度神經(jīng)網(wǎng)絡(luò)RNN、LSTM 模型預(yù)測(cè)曲線波動(dòng)小,經(jīng)過計(jì)算,RNN 模型預(yù)測(cè)的平均絕對(duì)百分比為4.26%,LSTM 模型的平均絕對(duì)百分比為3.12%,略高于PAU-LSSVM 模型的2.78%??梢姡摲椒ㄔ陬A(yù)測(cè)精度上仍然具有一定的優(yōu)勢(shì),并且可以在CPU 服務(wù)器上在線訓(xùn)練,工程實(shí)用價(jià)值較高。由于RNN 和LSTM 的負(fù)荷預(yù)測(cè)方法的預(yù)測(cè)精度與樣本量的關(guān)系很大,在現(xiàn)有的研究中,一般而言,樣本量與建模精度呈正相關(guān),但也有極限。如果通過增加樣本量來提高模型預(yù)測(cè)精度,又要考慮所需要的硬件資源。因此,結(jié)合樣本量、模型算法、硬件計(jì)算能力多種因素,該方法更具有工程實(shí)用性和普適性。
考慮到負(fù)荷與季節(jié)、節(jié)假日有很大關(guān)系,選取某城市2018 年四個(gè)季節(jié)中的1 個(gè)月份以及節(jié)假日負(fù)荷數(shù)據(jù)為研究對(duì)象,訓(xùn)練樣本由1 月份、5 月份、8 月份、10 月份的數(shù)據(jù)組成,樣本采集間隔為1h,測(cè)試樣本2 月份、6 月份、9 月份、11 月份的前半個(gè)月負(fù)荷數(shù)據(jù)組成,PAU-LSSVM 模型設(shè)定值不變?;谏鲜鲐?fù)荷數(shù)據(jù)分別建立LSTM、RNN、LSTM、PAU-LSSVM負(fù)荷預(yù)測(cè)模型,模型誤差如表4 所示,可以看出PAU-LSSVM 預(yù)測(cè)大量測(cè)試樣本時(shí)預(yù)測(cè)誤差最小,說明模型能夠適應(yīng)工況遷移的問題,展示了模型較強(qiáng)的泛化能力和工程應(yīng)用價(jià)值。
表4 不同建模方法對(duì)比
提出了基于PAU-LSSVM 模型的電力負(fù)荷預(yù)測(cè)方法,主要結(jié)論如下:
(1)PAU-LSSVM 模型適合處理電力負(fù)荷預(yù)測(cè)中的非線性復(fù)雜建模問題,相比RNN、LSTM 等深度神經(jīng)網(wǎng)絡(luò)相比,在線更新耗時(shí)較短,在預(yù)測(cè)精度仍然具有一定的優(yōu)勢(shì),適合工程應(yīng)用。
(2)所提的PAU-LSSVM 模型能夠根據(jù)樣本變化特性進(jìn)行在線建模,具有較高的數(shù)據(jù)處理能力和時(shí)效性。
(3)通過PLS 方法進(jìn)行變量選擇,壓縮了建模所需變量的個(gè)數(shù),降低了模型的維數(shù)和復(fù)雜程度,提高了預(yù)測(cè)精度。
(4)所提的PAU-LSSVM 負(fù)荷預(yù)測(cè)模型經(jīng)過實(shí)際電網(wǎng)運(yùn)行數(shù)據(jù)驗(yàn)證,模型能夠解決工況遷移導(dǎo)致預(yù)測(cè)誤差增大的問題,具有較高的工程應(yīng)用價(jià)值。