卿會,郭軍紅,李薇,亢朋朋,王金明,潘張榕
(1.華北電力大學 環(huán)境科學與工程學院,北京 102206;2.華北電力大學 資源環(huán)境系統(tǒng)優(yōu)化教育部重點實驗室,北京 102206;3.國網新疆電力有限公司,新疆 烏魯木齊 830002;4.國網新疆電力有限公司 阿勒泰供電公司,新疆 阿勒泰 836500)
2020年9月,國家主席習近平在第七十五屆聯合國大會一般性辯論會上宣布,我國二氧化碳排放力爭于2030年前達到峰值,努力爭取2060年前實現碳中和.為實現這一目標,最主要的路徑是使用可再生能源、減少碳排放,提升電氣化水平.太陽能是可再生能源的重要部分,利用太陽能發(fā)電是實現碳中和目標的重要路徑.然而,太陽能獨特的隨機性、間歇性和波動性,隨著光伏裝機容量需求逐漸增大,給電網安全帶來了諸多考驗.精準的光伏發(fā)電出力預測對光伏電站制定發(fā)電計劃、保證電網穩(wěn)定運行有著重要作用.
國內外諸多學者在光伏發(fā)電出力預測上展開了大量研究,如BP(back propagation)神經網絡[1-2]、梯度下降決策樹(gradient boosting decision tree,GBDT)[3].de Giorgi等[4]采用多元線性回歸方法,以光伏發(fā)電系統(tǒng)的太陽能輻射等氣象因素來預測發(fā)電功率;Ahmad等[5]提出了基于隨機森林算法和額外樹算法組合光伏發(fā)電預測模型,以氣象因素預測下一小時的光伏輸出功率.支持向量機(support vector machine,SVM)以結構風險最小化原則為優(yōu)勢取代了傳統(tǒng)機器學習中的經驗風險最小化,廣泛應用于光伏出力預測.如姜恩宇等[6]基于支持向量機以某一天數據為訓練樣本預測出力,結果表明,支持向量機能夠明顯提高小樣本預測精度;張雨金等[7]引入集成學習的思想和方法,提出Stacking-SVM短期光伏發(fā)電預測方法,通過次級SVM對多個預測結果輸出耦合得到最終預測結果.
循環(huán)神經網絡(recurrent neural network,RNN)具有跨多時間步長傳遞信息的能力,被廣泛應用于各領域[8].Du等[9]證明了RNN具有較強記憶性且圖靈完備.然而,在實際應用中,RNN模型對變量序列間的時間依賴關系較強,使得其對于具有關聯性的點序列輸入具有好的預測效果,造成偏差較大.為了解決RNN模型的這個問題,以RNN為基礎的長短期記憶網絡(long short-term memory,LSTM)模型應運而生[10].LSTM以記憶單元取代傳統(tǒng)人工神經元,目前已被應用于空氣質量指數[11]、語音識別[12]等領域,并表現出良好的預測性能.陳卓等[13]基于LSTM以電力負荷為短期預測對象,效果良好,該算法有望用于預測光伏發(fā)電功率.Hintion在2006年提出深度信念網絡(deep belief network,DBN).該算法具有強大的特征提取能力,并可通過玻爾茲曼機(restricted Boltzmann machine,RBM)的預訓練有效解決局部最優(yōu)等問題[14].Yun[15]和耿博等[16]的研究表明,對影響光伏出力特征信息進行有效挖掘,并結合混合模型仿真,可有效提高預測精度.
基于上述分析,本文利用DBN耦合SVM和LSTM模型,提出一種新的光伏功率組合預測方法,根據實際出力和預測結果的誤差利用DBN動態(tài)調整以獲得最優(yōu)值,并驗證SVM-LSTM-DBN模型的有效性和準確性.
采用新疆某光伏電站2019年2月16日-9月7日的每日15 min實測氣象數據,如表1所示.表1中:θ為溫度;φ為相對濕度;Dth為太陽散射強度;Hth為太陽直接輻射強度;P為實時發(fā)電功率.
表1 某光伏電站的部分歷史實測數據
模型構建中,初始數據通過z-score進行標準化處理,從而消除不同特征的量綱的影響和提高模型的計算能力和收斂速度.具體計算公式為
(1)
式(1)中:x為標準化前的數據;z為標準化后的數據;μ為樣本的均值;σ為樣本的標準差.
數據經過z-score標準化后呈標準正態(tài)分布,預測模型完成訓練后,對預測的輸出數據進行反標準化處理,即x=zσ+μ,則可得到預測功率數據.
光伏出力與氣象因素間具有一定的相關性,即使是相同天氣狀態(tài)下也會因為云層的變化導致光伏板受太陽輻射的面積與強度產生變化.光伏組件僅在太陽升起至降落的時間段內工作,為了避免大量光伏出力零值數據對分析造成影響,考慮到光伏組件的敏感程度,結合該光伏電站所在新疆省當地的實際氣候情況.因此,文中以正午時刻(12:00)為例,對溫度、相對濕度、太陽直接輻射強度、太陽散射強度等4種氣象參數,在不同時間點采集的數據分別進行相關性分析.
光伏出力數據與各氣象因素經預處理后的結果,如圖1所示.圖1中:θ為溫度;φ為相對濕度;Dth為太陽散射強度;Hth為太陽直接輻射強度;Pout為光伏出力.
(a)太陽散射強度 (b)太陽直接輻射強度
從圖1可知:太陽散射強度、太陽直接輻射強度與出力值變化的擬合性較高,散點圖分布較為集中,正相關較明顯,其中太陽直接輻射強度與出力的相關性更強;同一時刻,相對濕度、溫度與出力值的關系較為分散.從圖1還可知:當出力值較大時,相對濕度偏低而溫度偏高.整體來看相對濕度的擬合曲線呈負相關,溫度與出力值的擬合曲線較為平緩,相關性較不明顯.
對溫度、相對濕度、太陽散射強度、太陽直接輻射強度與光伏出力進行協方差和Pearson相關性分析,得到結果見表2.表2中:θ為溫度;φ為相對濕度;Dth為太陽散射強度;Hth為太陽直接輻射強度;r為Pearson相關系數.
表2 相關性計算結果
從表2可知:協方差與Pearson相關系數所得相關性結果趨勢大致相同,與圖1初步分析結果一致.結合圖1、表1分析可知:在所有影響因素中,太陽直接輻射強度、太陽散射強度、相對濕度與光伏出力顯現出較明顯的相關性,其中太陽直接輻射強度正相關性最強.太陽散射強度和太陽直接輻射強度反映了太陽熱輻射能,當太陽熱輻射能較強時,半導體材料在界面層獲得的能量較強,產生更多的電子-空穴對,進而光伏出力較大;相對濕度與光伏出力表現出負相關性,相對濕度較高往往是陰雨天氣,太陽熱輻射能較弱,光伏發(fā)電受到影響出力變小,相關系數計算結果與物理解釋一致.
為驗證模型的預測精度,采用均方根誤差(RMSE)和平均絕對誤差(MAE)作為模型性能的評價指標,其具體計算公式[17]為
(2)
(3)
設xλ∈Rn為訓練樣本中的各項氣象參數,yλ∈Rn為光伏出力,兩者共同組成樣本集合(xλ,yλ)∈Rn×R.其中,n為樣本的個數,λ=1,2,…,n.通過線性回歸函數對樣本集合擬合,可得
f(x)=ωTφ(x)+b.
(4)
式(4)中:ω為權值矢量;φ(x)為非線性映射關系;b為閾值.
核函數的選擇對預測效果起重要作用,常用的核函數有線性核函數、多項式核函數、高斯徑向基核函數等.其中,高斯核函數具有計算效率高和計算結果可靠等優(yōu)點,較適合表示氣象參數與光伏出力間的復雜非線性關系.其具體表達形式為
(5)
式(5)中:σ為高斯核函數的核寬度.
由此,構建以高斯徑向基為核函數的SVM單項預測模型,采用滾動預測,Lookback取值為7,Delay取值為1,以序列號前50個預測點為例,比較SVM的單項預測值與實際出力值之間的偏差,結果如圖2所示.圖2中:Pout為光伏出力.從圖2可知:支持向量機在不同時刻顯示出不同的預測精度,整體有一定的重合度,但預測精度有一定的提升空間.
圖2 某地區(qū)光伏發(fā)電SVM預測結果
LSTM常見的塊結構包含輸入、遺忘、輸出三個門,以及塊輸入、塊輸出、記憶細胞、輸出激活函數和窺視孔連接,而塊輸出反復連接塊輸入和所有門,如圖3所示.LSTM訓練過程包括信息的向前傳遞和誤差的反向傳播.
圖3 RNN網絡隱層中的LSTM塊
1)信息向前傳遞.設t時刻的輸入向量為xt,LSTM塊的數量為N,輸入數量為M.即一個LSTM網絡層的各權值向量為
zt=g(Wzxt+Rzyt-1+bz),
(6)
(7)
ft=σ(Wfxt+Rfyt-1+pfect-1+bf),
(8)
ct=zteit+ct-1eft,
(9)
ot=σ(Woxt+Royt-1+poect+bo),
(10)
yt=h(ct)eot.
(11)
2)誤差反向傳播.LSTM塊內部的增量δ,其計算式為
(12)
(13)
(14)
(15)
(16)
(17)
式(12)中:Δt為上一層向下傳遞的增量向量.
與經典神經網絡相比,LSTM訓練最大區(qū)別在于若預測t時刻的值pt,則前面的n個樣本{pt-n,…,pt-1}都需要通過網絡訓練.因此,在設置網絡時對時間步數n進行定義來滿足預測精度,記憶細胞將根據訓練狀態(tài)存儲并輸出預測值pt.
LSTM模型結構的搭建與參數的設置,對于樣本訓練過程的優(yōu)化、訓練時耗、預測精度起關鍵性作用.通過大量迭代過程,對2~6層隱層的網絡進行對比分析,最終確定最佳的網絡深度.比較不同隱層模型訓練完成時間與訓練后的評價指標MAE和RMSE,如表3所示.隱層層數增加與訓練時間的關系,如圖4所示.表3,圖4中:N為隱層層數;t為訓練時間;γRMSE,γMAE分別為RMSE值和MAE值.
圖4 隱層層數與訓練時長增加關系圖
表3 不同隱層模型訓練后的評價指標
從表3可知:當隱層層數少于4層時,MAE和RMSE值隨隱層數目增加而減??;而當隱層層數大于4時,MAE和RMSE值隨隱層層數增大而增大.隨著隱層層數的逐漸增加,訓練時長呈指數型增加,當隱層層數為4時,模型訓練時長較長并出現過擬合現象.綜上所述,當隱層數目為4時,MAE和RMSE值均最小,訓練時間較合理,預測精度最高.因此,文中選用隱層為4層的LSTM網絡.
通過支持向量機和長短期記憶神經網絡分別建立單項預測模型,以氣象參數相對濕度、太陽散射強度、太陽直接輻射強度等為特征向量輸入,以光伏出力為輸出.單項模型的預測結果進一步深度信念網絡訓練,優(yōu)化后輸出.圖5為光伏發(fā)電出力預測組合模型示意圖.圖5中:V為DBN顯層;H為隱層;W為V和H的連接權重.
圖5 光伏發(fā)電出力預測組合模型示意圖
光伏發(fā)電出力預測具體流程,如圖6所示.單項預測模型構建完成后,通過DBN對預測結果優(yōu)化,具體過程有如下3個方面.
圖6 光伏發(fā)電出力預測流程圖
1)以各單項模型的預測值作為DBN的輸入向量,分別由X1,X2,X3表示.
2)通過枚舉法[18]選取DBN隱層的層數及單元數,然后通過訓練樣本確定各單項模型的最優(yōu)權重.此訓練過程有兩步:
(a)通過無監(jiān)督的逐層訓練來訓練DBN中的RBM.設RBM中的顯層、隱層神經元的數目分別為n,n,而vi,hj分別為顯層第i個、隱層第j個神經元的狀態(tài),它們對應的偏置分別為ai,bj;wi,j為顯層第i個、隱層第j個神經元之間的連接權重.設β=(wi,j,ai,bj)為RBM的參數;則RBM在狀態(tài)(v,h)上的能量函數可表示為
(18)
當顯層單元向量v=(v1,…,vi,…,vn)隨機給定后,隱層第j個單元hj被激活的概率為
(19)
式(19)中:Sigmoid(x)=(1+e-x)-1為激活函數.
當隱層單元向量h=(h1,…,hi,…,hn)(x)隨機給定后,顯層第i個單元vi被激活的概率為
(20)
采用對比散度法對RBM的參數β=(wi,j,ai,bj)尋優(yōu).
(21)
Δai=σCD(〈vi〉-〈vi′〉),
(22)
Δbj=σCD(〈hj〉-〈hj′〉).
(23)
式(21)~(23)中:σCD為對比散度法的學習速率;〈·〉為變量的數學期望.
(b)根據BP算法進行反向微調,以DBN的輸出值反向更新其網絡和權重.
3)將待測日的氣象數據代入算法訓練,輸出預測值Pi.
使用Python語言(V3.6)編寫,運行環(huán)境前端為Keras,谷歌第二代人工智能學習系統(tǒng)TensorFlow為后端[19],以新疆某光伏發(fā)電站為例,將預處理后的樣本代入SVM,LSTM和SVM-LSTM-DBN模型中.2019年2月16日-9月7日的全時間序列光伏發(fā)電的組合預測結果,如圖7所示.不同算法模型的光伏發(fā)電功率預測結果逐點(序列號前50預測點)對比,如圖8所示.圖7,8中:Pout為光伏出力.
圖7可知:SVM-LSTM-DBN組合預測模型具有一定的預測精度,其預測曲線與實際曲線變化趨勢基本一致,具有較好的預測效果.由圖8可知:LSTM模型的預測精度與SVM-LSTM-DBN組合模型相比較低,SVM模型預測精度最低.
圖7 全時間序列光伏發(fā)電預測結果 圖8 不同算法光伏發(fā)電功率預測結果逐點對比
不同預測模型的光伏發(fā)電功率預測性能比較,如表4所示.表4中:γRMSE,γMAE分別為RMSE值和MAE值.從表4可知:文中所提出的SVM-LSTM-DBN組合預測模型具有最小的MAE值及RMSE值,分別為1.073及1.840,即具有最高預測精度,降低了整體預測誤差.
表4 不同預測模型預測性能比較
文中利用DBN提出SVM-LSTM-DBN組合模型進行短期光伏出力預測.以新疆某光伏電站實測數據為例,將SVM-LSTM-DBN模型與單一模型實驗效果對比,得出如下3點主要結論.
1)文中提出的SVM-LSTM-DBN模型將SVM與LSTM模型采用枚舉法加權組合,修正單一模型中誤差較大的時序值,以降低誤差.實驗結果表明,SVM-LSTM-DBN模型能有效提高短期光伏出力預測精度.
2)通過SVM-LSTM-DBN模型與單一模型實驗效果對比,表明單一模型的出力預測精度是組合模型精度有效提高的前提,因此正確選擇或調節(jié)參與組合的單一模型參數至關重要.
3)數據基礎是實現預測精準的基石.在后續(xù)研究中,應重點關注光伏電站運行的穩(wěn)定性,有利于挖掘更多有效信息,從而提升預測精度以制定發(fā)電計劃,進一步提高太陽能利用率,減少碳排放的同時保證電網穩(wěn)定運行.