張振東,羅 斌,覃 暉,唐海華,周 超,馮快樂
(1.長江勘測規(guī)劃設(shè)計研究有限責任公司,湖北 武漢 430010;2.長江水利委員會 互聯(lián)網(wǎng)+智慧水利重點實驗室,湖北 武漢 430010;3.華中科技大學 水電與土木工程學院,湖北 武漢 430074)
風光水互補系統(tǒng)出力主要受徑流、風速、太陽輻射強度和負荷影響,獲取這四者的高精度預(yù)測結(jié)果對風光水互補系統(tǒng)的穩(wěn)定安全運行具有重要作用。四者的共同點在于都是時間序列變量[1],預(yù)報方法有類似之處也各有不同。
時間序列變量預(yù)測方法主要分為兩大類:物理過程驅(qū)動方法和數(shù)據(jù)驅(qū)動方法[2-4]。徑流物理過程驅(qū)動方法以水文學概念為基礎(chǔ),將流域的物理特征進行概化,并結(jié)合水文經(jīng)驗公式來近似地模擬流域內(nèi)降雨、徑流的形成過程從而完成預(yù)報過程[5],比如新安江模型[6]和水箱模型[7]等。風速物理過程驅(qū)動方法基于溫度、濕度、氣壓、風速等氣象數(shù)據(jù)和地形數(shù)據(jù)構(gòu)建數(shù)學物理方程來模擬未來一段時間某區(qū)域或全球尺度風速變化過程,例如:數(shù)值天氣預(yù)報模型[8]。光伏物理過程驅(qū)動方法主要采用數(shù)值天氣預(yù)報和衛(wèi)星圖片進行太陽輻射強度預(yù)測[9]。物理過程驅(qū)動方法的優(yōu)勢在于模型可解釋性強,缺點在于對基礎(chǔ)數(shù)據(jù)要求高、建模復(fù)雜、求解耗時。
數(shù)據(jù)驅(qū)動方法通常根據(jù)待預(yù)測變量的歷史信息以及氣象相關(guān)因子采用機器學習或深度學習等統(tǒng)計類方法對徑流、風速、太陽輻射強度和負荷進行預(yù)測[10-13]。數(shù)據(jù)驅(qū)動方法的優(yōu)點是預(yù)報速度快、預(yù)測精度較高;缺點是預(yù)報模型是黑箱模型,可解釋性差,結(jié)果依賴于樣本數(shù)據(jù)質(zhì)量。常見數(shù)據(jù)驅(qū)動方法可以分為時間序列模型、機器學習或深度學習模型以及多模型的混合方法。使用自回歸差分滑動平均(Autoregressive Integrated Moving Average,ARIMA)等時間序列模型進行預(yù)測的前提條件是數(shù)據(jù)滿足平穩(wěn)性假設(shè)或通過差分化處理之后滿足平穩(wěn)性假設(shè)[14],該假設(shè)限制了這類算法的使用場景。為了處理變量的非線性、非平穩(wěn)性和隨機性等特征,許多機器學習方法被用于徑流、風速、太陽輻射強度和負荷預(yù)測,比如支持向量回歸(Support Vector Regression,SVR)[15-18]、極限學習機[19]和人工神經(jīng)網(wǎng)絡(luò)模型(Artificial Neural Network,ANN)[20-23]等。近幾年,隨著計算機技術(shù)和人工智能的蓬勃發(fā)展,深度學習模型[24]逐漸被運用于時間序列變量預(yù)測領(lǐng)域。長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory Network,LSTM)[25-26]和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[27-28]因分別擅長時序處理與特征提取而被用于徑流、風速、太陽輻射強度和負荷的預(yù)測。為了克服單一預(yù)測模型的缺點,同時發(fā)揮多個預(yù)測模型的優(yōu)勢,混合模型逐漸成為時間序列變量預(yù)測主流方法,例如時間序列模型與機器學習模型的組合ARIMA-ANN[29],模態(tài)分解機制與LSTM等模型的組合[30],LSTM和CNN深度學習模型的組合[31]等。受徑流、風速、太陽輻射強度和負荷不確定性特征的影響,確定性預(yù)測結(jié)果給調(diào)度決策人員提供的信息有限,概率預(yù)報正在成為預(yù)測領(lǐng)域的研究熱點與趨勢。構(gòu)造一定置信度對應(yīng)的上下限區(qū)間[32]來量化徑流的不確定性是思路之一;更全面地,基于貝葉斯理論[33]、高斯過程回歸(Gaussian Process Regression,GPR)[34]以及分位數(shù)回歸結(jié)合核密度估計方法[35]的概率預(yù)報模型,可以獲取徑流、風速、太陽輻射強度和負荷的概率密度函數(shù),為調(diào)度人員提供更豐富的信息。
綜上所述,徑流、風速、太陽輻射強度和負荷預(yù)測研究還需進一步提升預(yù)測精度、量化預(yù)報不確定性并增強預(yù)報的可靠性。因此,如何設(shè)計一套時間序列變量概率預(yù)報框架,能獲取可靠高精度的徑流、風速、太陽輻射強度和負荷概率預(yù)報結(jié)果是本研究的關(guān)鍵問題,解決該問題可為不確定條件下的風光水互補系統(tǒng)實時調(diào)度提供數(shù)量依據(jù)。
本研究提出一套通用框架可以實現(xiàn)水風光互補系統(tǒng)中時間序列變量的概率預(yù)報??蚣苤饕ㄉ疃葘W習概率預(yù)報模型、特征優(yōu)選和超參數(shù)優(yōu)化等部分。
2.1 深度學習概率預(yù)報模型本研究框架采用基于共享權(quán)重長短期記憶網(wǎng)絡(luò)(Shared Weight Long Short-Term Memory Network,SWLSTM)和高斯過程回歸的混合模型[36]作為概率預(yù)報模型。
2.1.1 共享權(quán)重長短期記憶網(wǎng)絡(luò) SWLSTM由輸入層、隱藏層和輸出層組成,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 共享權(quán)重長短期記憶網(wǎng)絡(luò)結(jié)構(gòu)圖
SWLSTM網(wǎng)絡(luò)在時段t下信息前向傳播過程和公式如下:
(1)計算共享門和信息狀態(tài)
nett=wh·ht-1+wx·xt+b
(1)
st=σ(nett)=σ(wh·ht-1+wx·xt+b)
(2)
at=tanh(nett)=tanh(wh·ht-1+wx·xt+b)
(3)
(2)更新單元狀態(tài)
Ct=st*Ct-1+(1-st)*at
(4)
(3)計算隱藏層輸出
ht=st*tanh(Ct)
(5)
(4)輸出預(yù)測值
yt=σ(zt)=σ(wy·ht+by)
(6)
式中:xt、st和at分別為當前時段輸入層輸入、共享門和信息狀態(tài);Ct-1和Ct分別為前一時段和當前時段的單元狀態(tài);ht-1和ht分別為前一時段和當前時段隱藏層輸出;yt為當前時段輸出層的輸出,也是當前時段的預(yù)測值;nett和zt為中間變量,沒有具體含義;[wh,wx,b]和[wy,by]分別為隱藏層和輸出層權(quán)重變量,也是整個神經(jīng)網(wǎng)絡(luò)模型需要訓練的變量;符號·和符號*分別表示矩陣乘法和矩陣元素間乘法。函數(shù)σ(·)和tanh(·)分別是sigmoid和tanh激活函數(shù)。
為提升神經(jīng)網(wǎng)絡(luò)類模型性能并避免產(chǎn)生過擬合現(xiàn)象,在模型訓練過程中增加小批量梯度下降、正則化、衰減學習率和dropout等機制。
2.1.2 高斯過程回歸 一系列服從高斯分布的連續(xù)隨機變量構(gòu)成了高斯過程。在離散情況下,基于已知樣本信息推求未知樣本的高斯分布參數(shù)即為高斯過程回歸,示意圖如圖2所示。
圖2 高斯過程回歸示意
采用貝葉斯推理可得驗證集預(yù)測值y的后驗條件分布為:
(7)
(8)
(9)
(10)
2.1.3 SWLSTM-GPR混合模型 其思路是:首先在訓練集上完整地訓練SWLSTM模型;然后將訓練集和驗證集輸入到訓練好的SWLSTM模型中,完成第一次預(yù)測;最后將第一次預(yù)測結(jié)果與觀測值重組成新訓練集和驗證集,調(diào)用GPR模型完成第二次預(yù)測。
SWLSTM-GPR完整步驟如下:
步驟中xt表示特征輸入;y1,t表示第一次預(yù)測結(jié)果,由SWLSTM模型得到;y2,t表示第二次預(yù)測結(jié)果,由GPR模型得到;Yt表示觀測值;上標ta和te分別代表訓練集和驗證集標識;Ta和Te分別是訓練集和驗證集總樣本數(shù)。
2.2 基于0-1規(guī)劃思想的特征組合優(yōu)選在模型預(yù)測過程中,所有特征輸入共同影響預(yù)測結(jié)果。一組備選特征如何組合使模型預(yù)測精度達到最高是本研究的重點。
假設(shè)n個通過特征選擇之后的備選特征為[X1,X2,…,Xn],每個特征均有被選取加入特征組合中和不被選兩種狀態(tài),但至少要保留一個特征作為輸入,因此整個特征組合優(yōu)化等價于0-1規(guī)劃問題,搜索空間有2n-1種組合情況。針對某一特征組合,采用預(yù)報模型進行訓練和預(yù)報,可以獲取該特征組合對應(yīng)的預(yù)報精度,通過比較不同特征組合的預(yù)報精度即可篩選出最優(yōu)特征組合,如圖3所示。
圖3 特征組合優(yōu)化示意
顯然,搜索空間大小隨維度n增加呈指數(shù)增長,當維度n較大時,特征組合優(yōu)化面臨“維數(shù)災(zāi)”問題,在進行特征組合優(yōu)化之前可以采用皮爾遜相關(guān)系數(shù)或者最大信息系數(shù)對特征進行初選,減少搜索空間。針對不同維度n,本研究采用不同策略尋優(yōu):(1)當0
2.3 基于貝葉斯優(yōu)化算法的超參數(shù)優(yōu)選預(yù)報模型的精度也受模型超參數(shù)的影響,以最小化損失函數(shù)為例,超參數(shù)優(yōu)化問題可以表示為:
(11)
式中:h*為最優(yōu)超參數(shù);H為超參數(shù)可選范圍集合;P為預(yù)測模型;h為當前超參數(shù);L(P,h)為預(yù)測模型P在超參數(shù)h下的損失函數(shù)。
本研究采用貝葉斯優(yōu)化算法(Bayesian Optimization Algorithm,BOA)[37]求解超參數(shù)優(yōu)化問題。相比于其他優(yōu)化算法,貝葉斯優(yōu)化算法通過估計整個損失函數(shù)概率分布使得新生成的超參數(shù)更接近最優(yōu)結(jié)果,從而能夠在較少的函數(shù)評價次數(shù)內(nèi)獲取更優(yōu)的超參數(shù),其優(yōu)化過程示意圖如圖4所示。
圖4 貝葉斯優(yōu)化算法過程示意圖
貝葉斯優(yōu)化算法的完整步驟如下:
步驟1:在超參數(shù)可選范圍集合H下,隨機生成少量超參數(shù)子集[hi];計算預(yù)測模型P在每一種超參數(shù)hi下的損失值li;構(gòu)造損失函數(shù)分布數(shù)據(jù)集D=[(hi,li)];
步驟2:在超參數(shù)優(yōu)化空間數(shù)據(jù)集D上訓練概率回歸模型M,通過模型M估計損失函數(shù)l的概率分布p(l|h,D);概率回歸模型M不是預(yù)測模型P,常用模型M有高斯過程、隨機森林和Parzen估計樹等模型;
步驟4:計算預(yù)測模型P在新生成超參數(shù)h′i下的損失值l′i,補充損失函數(shù)分布數(shù)據(jù)集D=D∪(h′i,l′i);重復(fù)步驟2和3,直至迭代完畢;輸出最后生成的新超參數(shù)作為最優(yōu)超參數(shù)h*。
2.4 預(yù)報評價指標本研究提出的時間序列變量預(yù)報框架涉及確定性預(yù)測和概率預(yù)測,因此需要從確定性預(yù)測精度、概率預(yù)測綜合性能和預(yù)報可靠性3個方面對預(yù)報模型性能進行評價。
(1)確定性預(yù)測評價指標。確定性預(yù)測指標評價模型預(yù)報精度,預(yù)測值越接近觀測值,則確定性預(yù)測精度越高。常用確定性預(yù)測精度指標有均方根誤差(Root Mean Square Error,RMSE)和確定性系數(shù)(Coefficient of Determination,R2):
(12)
(13)
(2)概率預(yù)測評價指標。連續(xù)分級概率評分(Continuous Ranked Probability Score,CRPS)可評價概率預(yù)報綜合性能,是平均絕對誤差(Mean Absolute Error,MAE)在連續(xù)概率分布上的廣義形式。其計算方法如下:
(14)
(15)
(16)
式中:預(yù)測值yi的概率密度函數(shù)和累計分布函數(shù)分別為p(yi)和F(yi);H(yi-Yi)為赫維賽德函數(shù)。CRPS越小,概率預(yù)報綜合性能越好。
(3)可靠性評價指標??煽啃允侵割A(yù)測值和觀測值統(tǒng)計的一致性。本研究采用概率積分變換(Probability Integral Transform,PIT)評價預(yù)報可靠性。如果驗證集上PIT值服從0到1之間的均勻分布,則概率預(yù)測結(jié)果是可靠的。PIT值通過累計分布函數(shù)和觀測值計算:
(17)
2.5 時間序列變量概率預(yù)報框架風光水互補系統(tǒng)時間序列變量概率預(yù)報框架如圖5所示,框架中主要包括特征、超參數(shù)、預(yù)報模型和評價指標4個模塊,總體流程如下:(1)特征生成:從時間序列數(shù)據(jù)中挖掘歷史前期特征、周期特征和物理特征,當特征數(shù)量較少時,可采用平方、對數(shù)等操作對特征進行變換以生成更多特征;(2)特征初選:特征組合優(yōu)化搜索空間隨特征數(shù)量呈指數(shù)級增長,采用相關(guān)系數(shù)對生成的特征進行初選,以減少特征組合優(yōu)化搜索的空間;(3)特征組合:以經(jīng)過特征初選之后的特征作為備選特征,將特征組合優(yōu)化問題視作0-1規(guī)劃問題,采用窮舉法、隨機搜索或啟發(fā)式算法求解得到最優(yōu)特征組合;特征組合優(yōu)化過程中對每一套特征組合而言,需同時完成超參數(shù)優(yōu)化和模型訓練,并采用預(yù)測指標對該特征組合進行評價;(4)超參數(shù)優(yōu)化:一套特征組合確定后,采用貝葉斯優(yōu)化算法對模型超參數(shù)進行優(yōu)選;超參數(shù)優(yōu)化過程中對每一套超參數(shù)而言,需完成模型訓練并采用預(yù)測指標對該組超參數(shù)進行評價;(5)預(yù)報模型:在最優(yōu)特征組合和最優(yōu)超參數(shù)下構(gòu)建SWLSTM-GPR概率預(yù)報模型,完成模型訓練和預(yù)報;特征組合中嵌套超參數(shù)優(yōu)化,超參數(shù)優(yōu)化中嵌套模型訓練,三者是同時完成的;(6)評價指標:無論是特征組合,還是超參數(shù)優(yōu)化,亦或是模型訓練,都需要采用確定性或概率預(yù)報指標進行評價。
圖5 時間序列變量概率預(yù)報框架
3.1 研究對象采用雅礱江流域風光水互補先期試點示范基地作為研究對象。示范基地位于四川省鹽源縣,青藏高原東南緣,雅礱江中下游西岸,川、滇兩省交界處。鹽源縣經(jīng)緯度介于北緯27°06′—28°16′、東經(jīng)100°42′—102°03′之間,全縣幅員面積8398.6 km2。幅員內(nèi)地形地貌以山高、坡陡、谷深、盆地居中為總特征。海拔集中在2500~3000 m之間,最高海拔4393 m,最低海拔1200 m。鹽源縣風資源密集區(qū)主要分布在縣城周圍海拔較高的山地上,年平均風速在6~8 m/s之間。鹽源縣年平均太陽輻射量約6100 MJ/m2,屬于日照高值區(qū),多年平均日照時數(shù)約2570 h。
研究選取雅礱江流域風光水互補示范基地中的徑流、風速、太陽輻射強度和負荷4個時間序列變量,分別來自于官地水庫、沃底風電場、扎拉山光伏電站和四川省負荷數(shù)據(jù)集,稱為官地徑流數(shù)據(jù)集、W1風速數(shù)據(jù)集、S1光伏數(shù)據(jù)集和四川負荷數(shù)據(jù)集。數(shù)據(jù)集詳細信息如表1和圖6所示。
表1 預(yù)報實例研究數(shù)據(jù)集統(tǒng)計信息
圖6 預(yù)報實例研究數(shù)據(jù)集
3.2 實驗設(shè)計為了驗證所提出概率預(yù)報框架的性能,將SWLSTM與LSTM[25]、GRU(Gate Recurrent Unit)[38]、CNN[27]、ANN[20]、SVR[15]、GPR[34]和XGB(Xgboost)[39]等7個前沿的時間序列變量預(yù)報模型在4個數(shù)據(jù)集上從確定性預(yù)報精度、概率預(yù)報綜合性能和可靠性3個方面進行對比。對于實驗中的其他確定性預(yù)報模型,均采用本研究框架與GPR結(jié)合獲取概率預(yù)報結(jié)果。徑流、風速、光伏和負荷4個時間序列變量分別調(diào)用本研究提出的框架完成預(yù)測,而不是4個變量一次性完成預(yù)測。
風光水多能互補系統(tǒng)時間序列變量預(yù)報實驗?zāi)康娜缦拢?1)對4個數(shù)據(jù)集進行相關(guān)性分析,并完成特征初選;(2)對比不同模型特征組合優(yōu)化結(jié)果;(3)以SWLSTM模型為例展示超參數(shù)優(yōu)化結(jié)果;(4)在驗證集上對比不同模型確定性和概率結(jié)果指標;(5)以SWLSTM-GPR模型為例展示4個數(shù)據(jù)集確定性和概率驗證結(jié)果;(6)以SWLSTM-GPR模型為例驗證概率預(yù)報的可靠性。
為了保障對比實驗的公平性,實驗中所有模型均獨立進行特征組合優(yōu)化和超參數(shù)優(yōu)化,確保每個模型都是在最優(yōu)條件下進行對比。實驗中預(yù)報模型參數(shù)設(shè)置如表2所示,表格中確定的值表示該超參數(shù)不需要優(yōu)化,表格中區(qū)間表示該超參數(shù)優(yōu)化的范圍。
表2 預(yù)報模型參數(shù)設(shè)置
4.1 相關(guān)性分析及特征初選綜合考慮歷史前期特征和周期特征,官地徑流數(shù)據(jù)集和W1風速數(shù)據(jù)集采用歷史前9個時段的值生成特征,S1光伏數(shù)據(jù)集和四川負荷數(shù)據(jù)集采用歷史前47個時段的值生成特征。采用皮爾遜相關(guān)系數(shù)絕對值(PCC)和最大信息系數(shù)(MIC)探究特征和待預(yù)測變量之間的相關(guān)性,部分特征相關(guān)系數(shù)如表3所示,完整相關(guān)系數(shù)如圖7所示,其中F1特征表示前1個時段的歷史值,F(xiàn)2特征表示前2個時段的歷史值,以此類推。
表3 相關(guān)系數(shù)表
考慮到不同數(shù)據(jù)集相關(guān)系數(shù)的差異,針對不同數(shù)據(jù)集采用不同標準進行特征初選。4個數(shù)據(jù)集相關(guān)系數(shù)閾值分別設(shè)置為[0.9,0.6,0.8,0.8]。PCC和MIC通過閾值篩選的特征不一定相同,需要考慮取并集特征還是交集特征。綜合特征組合優(yōu)化搜索空間大小以及時間成本,官地徑流數(shù)據(jù)集在PCC和MIC兩個指標進行特征初選時取兩者交集,其余3個數(shù)據(jù)集取兩者并集。4個數(shù)據(jù)集特征初選如圖7所示。以官地徑流數(shù)據(jù)集和W1風速數(shù)據(jù)集為例分析如下:
圖7 相關(guān)性分析及特征初選
(1)圖中藍色和紫色線圈分別代表各特征的PCC絕對值和MIC值,黃色線圈和灰色區(qū)間分別代表相關(guān)系數(shù)閾值和高相關(guān)系數(shù)區(qū)間;對于某一條相關(guān)系數(shù)線圈而言,落在灰色區(qū)間的特征表示通過該相關(guān)系數(shù)的篩選;綠色虛線表示該特征通過特征初選可作為特征組合優(yōu)化的備選特征。
(2)在官地徑流數(shù)據(jù)集中,相關(guān)系數(shù)閾值為0.9,通過PCC篩選后得到的特征為[F1,F(xiàn)2,F(xiàn)3];通過MIC篩選后得到的特征為[F1,…,F(xiàn)9];兩者取交集,故官地徑流數(shù)據(jù)集通過特征初選之后的特征為[F1,F(xiàn)2,F(xiàn)3]。
(3)在W1風速數(shù)據(jù)集中,相關(guān)系數(shù)閾值為0.6,通過PCC和MIC篩選得到的特征均為[F1,F(xiàn)2];兩者取并集,故W1風速數(shù)據(jù)集通過特征初選之后的特征為[F1,F(xiàn)2]。其余數(shù)據(jù)集經(jīng)過特征初選之后的結(jié)果分析與之類似,S1光伏數(shù)據(jù)集和四川負荷數(shù)據(jù)集通過特征初選之后的特征均為[F1,F(xiàn)23,F(xiàn)24,F(xiàn)25,F(xiàn)47]。
4.2 特征組合優(yōu)化實驗中所有預(yù)報模型均完成了特征組合優(yōu)化,各預(yù)報模型在4個數(shù)據(jù)集上的最優(yōu)特征組合如表4所示,結(jié)果分析如下:
表4 各模型在4個數(shù)據(jù)集上的最優(yōu)特征組合
(1)在4個數(shù)據(jù)集上,沒有一個數(shù)據(jù)集上所有模型的最優(yōu)特征組合是全部一樣的,說明在不計時間成本的情況下對各個模型分別進行特征組合優(yōu)化有利于提升模型性能。
(2)每個數(shù)據(jù)集上都存在對多數(shù)模型為最優(yōu)的特征組合,因此在考慮時間成本的情況下,可以采用耗時少模型的最優(yōu)特征組合近似代替訓練費時模型的最優(yōu)特征組合,例如可以采用GPR、XGB和SVR等模型的最優(yōu)特征組合代替神經(jīng)網(wǎng)絡(luò)類模型的最優(yōu)特征組合。
(3)對其他模型最優(yōu)的特征組合,雖然不一定對本模型是最優(yōu)的,但也是次優(yōu)或較優(yōu)的特征組合,再次佐證了特征組合近似替代的思想。
4.3 超參數(shù)優(yōu)化結(jié)果實驗中所有預(yù)報模型均完成了超參數(shù)優(yōu)化,以SWLSTM模型為例,列出其在4個數(shù)據(jù)集最優(yōu)特征組合上的前三最優(yōu)超參數(shù),如表5所示,表格中列出的是優(yōu)化后超參數(shù)的結(jié)果,模型其他固定超參數(shù)如表2所示。SWLSTM模型待優(yōu)化超參數(shù)分別為小批次大小、dropout比例、隱藏層節(jié)點數(shù)、隱藏層數(shù)和正則化比例,其在4個數(shù)據(jù)集上的最優(yōu)結(jié)果分別為[64,2.755×10-4,8,2,1.017×10-4]、[8,3.495×10-4,32,2,6.086×10-4]、[8,2.772×10-4,64,1,1.860×10-4]和[32,1.573×10-4,8,2,1.829×10-4]。
SWLSTM模型前三超參數(shù)的精度都較高,原因在于一方面特征輸入為最優(yōu)特征組合,大幅度保障了模型精度;另一方面超參數(shù)優(yōu)化范圍通過經(jīng)驗設(shè)置在常用范圍內(nèi)。在不考慮時間成本的情況下,對預(yù)報模型進行超參數(shù)優(yōu)化有利于提升模型性能;在考慮時間成本的情況下,各模型不進行超參數(shù)優(yōu)化時通常需要人工根據(jù)經(jīng)驗設(shè)置。SWLSTM模型超參數(shù)默認設(shè)置可參考表2和表5,能保障預(yù)報模型具有不錯的性能。
表5 SWLSTM模型在4個數(shù)據(jù)集最優(yōu)特征組合上的前三最優(yōu)超參數(shù)
4.4 驗證結(jié)果對比為驗證本研究提出預(yù)報框架的精度和綜合性能,所有模型均采用其在最優(yōu)特征組合和最優(yōu)超參數(shù)下的結(jié)果進行對比。不同模型在4個數(shù)據(jù)集上的確定性預(yù)報和概率預(yù)報指標分別如表6和表7所示。從表格中可以分析得出:SWLSTM模型在4個數(shù)據(jù)集上的確定性預(yù)報指標和概率預(yù)報指標是8個對比模型中最優(yōu)的,說明SWLSTM在4個數(shù)據(jù)集上的確定性預(yù)報精度最高、概率預(yù)報綜合性能是最好的,驗證了本研究提出預(yù)報框架在時間序列變量預(yù)報上的優(yōu)勢。
表6 不同模型在4個數(shù)據(jù)集上的確定性預(yù)報指標
表7 不同模型在4個數(shù)據(jù)集上概率預(yù)報指標
4.5 驗證結(jié)果展示SWLSTM-GPR預(yù)報模型在4個數(shù)據(jù)集上的驗證結(jié)果如圖8所示,圖中藍色的預(yù)測值曲線緊貼紅色的真實值曲線,說明確定性預(yù)測精度較高;紅色的真實值曲線絕大部分均位于灰色的90%預(yù)測區(qū)間內(nèi),對于驗證集中未出現(xiàn)在灰色區(qū)間中的樣本點采用綠色點標出,同時灰色預(yù)測區(qū)間寬度沒有過大,說明預(yù)測的區(qū)間整體較合適,能為預(yù)報、調(diào)度決策人員提供較準確的參考信息。本研究提出的預(yù)測框架為單步預(yù)測框架,圖8中驗證結(jié)果呈現(xiàn)出“序列”的感覺是因為驗證集本身有多個時序樣本而不是完成的多步預(yù)測。
圖8 SWLSTM-GPR模型在4個數(shù)據(jù)集上的預(yù)測結(jié)果
SWLSTM-GPR模型在4個數(shù)據(jù)集上典型時段的概率驗證結(jié)果如圖9所示,圖中藍色的概率密度函數(shù)(PDF)線都比較飽滿,曲線形狀沒有過高過低、也沒有過寬過窄,說明SWLSTM-GPR獲取的PDF比較合適。圖中有些時段的真實值靠近PDF均值線,有些則離均值線較遠,正好說明概率預(yù)報結(jié)果是可靠的。如果真實值都遠離均值線或都位于均值線上,則概率預(yù)報結(jié)果是不可信的。
圖9 SWLSTM-GPR模型在4個數(shù)據(jù)集上典型時段概率驗證結(jié)果
4.6 概率預(yù)報可靠性本研究采用概率積分變換(PIT)值是否服從均勻分布來驗證概率預(yù)報的可靠性。SWLSTM-GPR模型的PIT值圖如圖10所示,圖中黑色的PIT值點均勻的分布在對角線附近并覆蓋了0到1之間的完整區(qū)間,同時所有的PIT值點均位于Kolmogorov 5%置信帶內(nèi),說明預(yù)測的概率密度函數(shù)PDF形狀沒有過高過低或過寬過窄,驗證了概率預(yù)報的可靠性。
圖10 SWLSTM-GPR模型PIT圖
本研究提出了一種風速、太陽輻射強度、徑流和電力負荷等時間序列變量的概率預(yù)報框架,該框架融合了深度學習模型、特征組合優(yōu)化和超參數(shù)優(yōu)化,增強了確定性預(yù)報精度和概率預(yù)報可靠性。將預(yù)報框架運用于雅礱江流域風光水互補先期試點示范基地徑流、風速、太陽輻射強度和負荷4個數(shù)據(jù)集上,實驗結(jié)果驗證了框架的預(yù)報性能,可得出以下結(jié)論:該預(yù)報框架可組合絕大多數(shù)預(yù)報模型,一方面可通過框架中的高斯過程回歸將確定性預(yù)報結(jié)果擴展為概率預(yù)報結(jié)果;另一方面框架中特征組合和超參數(shù)優(yōu)化可為預(yù)報模型篩選出較優(yōu)的特征輸入和超參數(shù)。