楊盛祥
摘要:集成算法被廣泛應(yīng)用于光伏發(fā)電量預(yù)測(cè)等工業(yè)場(chǎng)景。當(dāng)沒(méi)有足夠的數(shù)據(jù)和工業(yè)知識(shí)儲(chǔ)備時(shí),該算法只能提供點(diǎn)預(yù)測(cè),不能提供區(qū)間預(yù)測(cè),降低了模型預(yù)測(cè)精度。為了解決該問(wèn)題,文章提出了一種基于集成學(xué)習(xí)和高斯過(guò)程的光伏發(fā)電量預(yù)測(cè)算法。該算法利用集成學(xué)習(xí)進(jìn)行光伏發(fā)電量的點(diǎn)預(yù)測(cè),由多種算法組合而成,具有高精度特性。同時(shí),文章所提的高斯過(guò)程算法將集成學(xué)習(xí)算法預(yù)測(cè)值作為輸入、光伏發(fā)電量作為目標(biāo)值,進(jìn)行模型訓(xùn)練和迭代,高斯過(guò)程算法對(duì)模型進(jìn)行區(qū)間預(yù)測(cè),提高了模型的預(yù)測(cè)精度。實(shí)際的光伏場(chǎng)站案例驗(yàn)證了文章所提方法的有效性。
關(guān)鍵詞:集成學(xué)習(xí);高斯過(guò)程;光伏發(fā)電量預(yù)測(cè)
中圖分類號(hào):TK8文獻(xiàn)標(biāo)志碼:A
0 引言
近年來(lái),我國(guó)的可再生能源(如太陽(yáng)能、風(fēng)能、水能、生物質(zhì)能)得到了迅猛的發(fā)展。在“雙碳”背景下,光伏行業(yè)的裝機(jī)容量增長(zhǎng)極為迅速。2019年,光伏的裝機(jī)容量超過(guò)了580 GW,而到了2022年全球光伏裝機(jī)容量達(dá)到了871 GW。光伏發(fā)電的源頭來(lái)自太陽(yáng)輻射,其擁有不確定性和難以預(yù)測(cè)性。同時(shí),在“源-網(wǎng)-荷-儲(chǔ)”一體化的新型電力系統(tǒng)下,精準(zhǔn)的光伏發(fā)電預(yù)測(cè)可以有效地減少新能源對(duì)電網(wǎng)的沖擊。Sivaneasan等[1]在2017年使用神經(jīng)網(wǎng)絡(luò)和模糊前處理工具包來(lái)進(jìn)行太陽(yáng)能輻射值的預(yù)測(cè)。Alzahrani等[2]提出一種深度學(xué)習(xí)模型進(jìn)行光伏發(fā)電量的預(yù)測(cè),同時(shí),將此類方法同支撐向量回歸和前饋神經(jīng)網(wǎng)絡(luò)進(jìn)行了比較。Yagli等[3]在2019年使用了68種機(jī)器學(xué)習(xí)模式在5個(gè)溫度區(qū)中的7個(gè)測(cè)量點(diǎn)進(jìn)行了為期2年的小時(shí)級(jí)光伏預(yù)測(cè)。Gao等[4]、Zang等[5]使用卷積-時(shí)間長(zhǎng)短記憶模型,在不同區(qū)域進(jìn)行了全球范圍的太陽(yáng)輻照度預(yù)測(cè)。但上述研究均未考慮預(yù)測(cè)模型的不確定度,尤其是在不同時(shí)間段下預(yù)測(cè)不確定度的變化情況;同時(shí),也僅涉及單一模型的應(yīng)用,并未集成多種模型結(jié)果以提升預(yù)測(cè)精度。
鑒于此,本文提出了一種基于集成學(xué)習(xí)和高斯過(guò)程的光伏發(fā)電量預(yù)測(cè)模型。該模型分為2步:使用集成學(xué)習(xí)方法,集成多種單一人工智能模型,提高光伏發(fā)電量預(yù)測(cè)精度;使用高斯過(guò)程對(duì)已訓(xùn)練的模型進(jìn)行進(jìn)一步訓(xùn)練,在提高模型精度的同時(shí),訓(xùn)練出預(yù)測(cè)值的不確定度?;诠夥鼒?chǎng)站的實(shí)際數(shù)據(jù)進(jìn)行驗(yàn)證,將驗(yàn)證結(jié)果與多種主流機(jī)器學(xué)習(xí)模型進(jìn)行比較,結(jié)果表明,本文所提模型具有一定的優(yōu)越性。
1 一種基于集成學(xué)習(xí)和高斯過(guò)程的光伏發(fā)電量預(yù)測(cè)模型
1.1 數(shù)據(jù)收集與處理
數(shù)據(jù)收集與處理包含數(shù)據(jù)收集、數(shù)據(jù)分類和數(shù)據(jù)清洗。本文數(shù)據(jù)來(lái)源于中國(guó)浙江省某光伏場(chǎng)站,其中容量配置為彩色組件1218塊,每塊功率為400 W,總?cè)萘繛?87.2 kW;普通組件為5761塊,每塊功率為545 W,總?cè)萘繛?139.745 kW。數(shù)據(jù)采集系統(tǒng)為10 min數(shù)據(jù)采集與監(jiān)視控制系統(tǒng)(Supervisory Control and Data Acquisition,SCADA),數(shù)據(jù)采樣周期為2023年5月到2023年6月,本光伏場(chǎng)站配備微型氣象數(shù)據(jù)站,該氣象數(shù)據(jù)站數(shù)據(jù)亦能通過(guò)SCADA進(jìn)行采集。在數(shù)據(jù)清洗過(guò)程中,本文進(jìn)行了包含NA值和缺失值的過(guò)濾。為了保證數(shù)據(jù)的真實(shí)性,本文并沒(méi)有對(duì)缺失值進(jìn)行回填,結(jié)合光伏場(chǎng)站采集點(diǎn)位,微型氣象數(shù)據(jù)站采集點(diǎn)位和行業(yè)機(jī)理,本數(shù)據(jù)最終數(shù)據(jù)采集值為時(shí)間、溫度、濕度、氣壓、輻照度和發(fā)電量。
本文數(shù)據(jù)總量為3377個(gè)觀測(cè)值,數(shù)據(jù)集分為訓(xùn)練集(1000個(gè)觀測(cè)值)和測(cè)試集(2377個(gè)觀測(cè)值),提前對(duì)整個(gè)數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化處理,將不同特征值的數(shù)據(jù)范圍控制在同一數(shù)量級(jí)上,以此來(lái)平衡不同特征值的影響權(quán)重,如式(1)所示。
θ=(x1,x2,x3,x4)(1)
其中,θ為發(fā)電量,x1~x4分別為溫度、濕度、氣壓和輻照度。同時(shí),為了進(jìn)一步提高結(jié)果效果,將數(shù)據(jù)集進(jìn)行時(shí)間序列化處理,時(shí)間步長(zhǎng)為τ。t時(shí)刻下的數(shù)據(jù)集Ωt如式(2)所示。
1.2 集成學(xué)習(xí)模型
集成學(xué)習(xí)模型被用來(lái)進(jìn)行光伏場(chǎng)站發(fā)電量的預(yù)測(cè)。該模型被設(shè)計(jì)為2層結(jié)構(gòu):第一層結(jié)構(gòu)為支持向量機(jī)(Support Vector Machine,SVM)算法、隨機(jī)森林(Random Forest,RF)算法和K近鄰(K-Nearest Neighbor,KNN)算法組成;第二層結(jié)構(gòu)為梯度提升決策樹(shù)(Gradient Boosting Decision Tree,GBDT)算法。為了得到更好的泛化性,本文對(duì)訓(xùn)練數(shù)據(jù)部分進(jìn)行了5次交叉驗(yàn)證(5th-fold)。集成學(xué)習(xí)模型的第一層結(jié)構(gòu)的輸入為時(shí)間序列數(shù)據(jù)集Ωt,輸出為SVM算法、RF算法和KNN算法的預(yù)測(cè)值;集成學(xué)習(xí)模型的第二層結(jié)構(gòu)的輸入為第一層算法的3種預(yù)測(cè)值輸入,輸出為t+1時(shí)刻發(fā)電量θt+1的預(yù)測(cè)值θt,其公式如下:
1.3 高斯過(guò)程模型
上述的集成學(xué)習(xí)算法僅能對(duì)光伏發(fā)電量進(jìn)行預(yù)測(cè),并不能對(duì)其預(yù)測(cè)的不確定度進(jìn)行展示?;谏鲜鰡?wèn)題,本文對(duì)其進(jìn)行了如下的修正,給定的數(shù)據(jù)集為D={θ, θ},f(·)為服從于聯(lián)合高斯分布的變換函數(shù),其統(tǒng)計(jì)值可以通過(guò)均值M(θ)與協(xié)方差K< θ, θ,>來(lái)確定, θ,為與 θ相同的樣本集輸入矩陣,高斯過(guò)程概率函數(shù)GP可以表示為:
在實(shí)際工業(yè)場(chǎng)景中,噪聲是不可避免的。因此,本文將上述高斯過(guò)程與噪聲進(jìn)行結(jié)合,如式(5)所示。
其中,σ為高斯白噪聲,I為集合單位矩陣。因此,本文所提出的一種基于集成學(xué)習(xí)和高斯過(guò)程的光伏發(fā)電量預(yù)測(cè)流程如圖1所示。
本文使用平均絕對(duì)誤差(Mean Absolute Deviation,MAD)作為評(píng)價(jià)指標(biāo)MAD=1Nθi- θi,使用多種算法進(jìn)行比較,其中包含SVM算法、RF算法、KNN算法、GBDT算法和高斯回歸擬合算法。為保證多種算法在相同的條件下進(jìn)行比較,本文使用Python軟件環(huán)境,單機(jī)i5-6200U CPU和8 GB RAM硬件環(huán)境進(jìn)行建模,其算法建模主要使用sklearn包進(jìn)行SVM算法、RF算法以及KNN算法的建模;使用lightgbm包進(jìn)行GBDT算法以及使用gpytorch包進(jìn)行高斯過(guò)程建模?;谏鲜鏊惴ò皩?duì)應(yīng)的參數(shù)定義,本文所使用的模型參數(shù)如表1所示。
2 實(shí)際案例
圖2為對(duì)應(yīng)數(shù)據(jù)集發(fā)電量的概率密度函數(shù)(去除發(fā)電量為0的數(shù)據(jù))??梢钥闯觯涸诒緮?shù)據(jù)集中,最大發(fā)電量為2616.29 kW,最小發(fā)電量為0,發(fā)電量中位數(shù)為31.445 kW,發(fā)電量標(biāo)準(zhǔn)差為691.6。
同時(shí),表2為不同預(yù)測(cè)尺度(1 h、6 h、9 h)下,本文所提出的算法與傳統(tǒng)算法在測(cè)試集所進(jìn)行的MAD值比較。其數(shù)值表明:在不同尺度下,統(tǒng)計(jì)指標(biāo)均表現(xiàn)優(yōu)異,這證明該算法具有一定的工業(yè)應(yīng)用性和推廣性。
3 結(jié)語(yǔ)
本文利用一種基于集成學(xué)習(xí)和高斯過(guò)程的算法對(duì)光伏發(fā)電量進(jìn)行短時(shí)預(yù)測(cè)。該算法模型分為2個(gè)階段:階段1使用集成學(xué)習(xí)算法對(duì)光伏發(fā)電量進(jìn)行建模和預(yù)測(cè);階段2使用高斯過(guò)程算法對(duì)階段1的輸出進(jìn)行進(jìn)一步的算法精度提升和預(yù)測(cè)不確定度的量化。根據(jù)和其他方法進(jìn)行比較,該方案可以對(duì)光伏發(fā)電量進(jìn)行有效預(yù)測(cè),在不同尺度下均表現(xiàn)出優(yōu)異的效果。若光伏場(chǎng)站的運(yùn)行維護(hù)人員根據(jù)預(yù)測(cè)結(jié)果及時(shí)對(duì)光伏板狀態(tài)進(jìn)行校正處理,則可顯著提高光伏場(chǎng)站的發(fā)電量。未來(lái),研究團(tuán)隊(duì)將繼續(xù)探討該模型在不同光伏場(chǎng)站數(shù)據(jù)下的遷移性,以此來(lái)提升所提模型的泛化性,為模型在工業(yè)中的應(yīng)用進(jìn)行驗(yàn)證和推廣。
參考文獻(xiàn)
[1]SIVANEASAN B,YU C Y,GOH K P. Solar forecasting using ANN with fuzzy logic pre-processing[J]. Energy Procedia,2017(143):727-732.
[2]ALZAHRANI A,SHAMSI P,DAGLI C,et al. Solar irradiance forecasting using deep neural networks[J]. Procedia Computer Science,2017(114):304-313.
[3]YAGLI G M,YANG D Z,SRINIVASAN D. Automatic hourly solar forecasting using machine learning models[J]. Renewable and Sustainable Energy Reviews,2019(105):487-498.
[4]GAO B X,HUANG X Q,SHI J S,et al. Hourly forecasting of solar irradiance based on CEEMDAN and multi-strategy CNN-LSTM neural networks[J]. Renewable Energy,2020(162):1665-1683.
[5]ZANG H X,LIU L,SUN L,et al. Short-term global horizontal irradiance forecasting based on a hybrid CNN-LSTM model with spatiotemporal correlations[J]. Renewable Energy,2020(160):26-41.
(編輯 王永超編輯)
PV output prediction based on hybrid method of ensemble learning and Gaussian process
Yang? Shengxiang
(Ningbo Beilun Third Container Terminal Co., Ltd., Ningbo 315800, China)
Abstract:? Ensemble learning is widely used to time-series industrial application, such as photovoltaic (PV) output forecasting, but it suffers from low fitting accuracy and point prediction only without enough training dataset and industry knowledge. To solve this problem, a hybrid method based on ensemble learning and Gaussian process to predict PV output is proposed in this paper. Regarding with the point prediction of ensemble learning of several algorithms, the Gaussian process algorithm is utilized to provide confidence intervals, which has better generalization in prediction. By actual case from PV platform, it illustrates the application of the proposed method.
Key words: ensemble learning; Gaussian process; PV output prediction