吳明朗
【關(guān)鍵字】分布式光伏;特征工程;光伏發(fā)電功率預(yù)測;XGBoost
為應(yīng)對全球氣候變化,解決資源環(huán)境約束突出問題,我國提出 “力爭2030年前實(shí)現(xiàn)碳達(dá)峰、2060年前實(shí)現(xiàn)碳中和”的“雙碳”目標(biāo)。隨著“雙碳”行動方案的實(shí)施和“整縣開發(fā)試點(diǎn)”工作的推進(jìn),低壓分布式光伏裝機(jī)容量的不斷增加,同時低壓分布式光伏發(fā)電的波動性、間歇性使電網(wǎng)系統(tǒng)面臨調(diào)峰壓力大、提升光伏發(fā)電消納困難等問題[1],為電網(wǎng)安全、經(jīng)濟(jì)運(yùn)行帶來了嚴(yán)峻挑戰(zhàn)?!丁笆奈濉蹦茉搭I(lǐng)域科技創(chuàng)新規(guī)劃》指出要大力發(fā)展包括多時空尺度光伏發(fā)電功率預(yù)測技術(shù),要利用大數(shù)據(jù)、機(jī)器學(xué)習(xí)等先進(jìn)技術(shù)手段提高低壓分布式光伏等新能源發(fā)電功率預(yù)測準(zhǔn)確度,提升可再生能源負(fù)荷預(yù)測水平。因此,分布式光伏發(fā)電功率預(yù)測具有重要意義。
隨著近年來人工智能技術(shù)的發(fā)展,光伏發(fā)電技術(shù)也從傳統(tǒng)的方式向機(jī)器學(xué)習(xí)[2]和深度學(xué)習(xí)方向轉(zhuǎn)變??准t梅、張家安、時珉等人對分布式光伏空間相關(guān)性進(jìn)行了深入分析,提出了一種基于空間相關(guān)性的區(qū)域分布式光伏出力預(yù)測方法[3-5] 。闞博文等人基于圖機(jī)器學(xué)習(xí)提出了一種面向分布式光伏電站的深度時空特征提取預(yù)測模型[6]。董雷等人提出一種條件概率預(yù)測方法,應(yīng)用動態(tài)貝葉斯網(wǎng)絡(luò)理論,建立光伏發(fā)電預(yù)測的DBN模型[7]。李光明等人對硅太陽電池單一組件發(fā)電功率進(jìn)行了理論計算,建立了一種以輻射量及組件溫度為變量的多元線性回歸光伏發(fā)電功率及發(fā)電量預(yù)測模型[8]。栗然,William VanDeventer,Abdel-Nasser等人在建立光伏并網(wǎng)發(fā)電系統(tǒng)模型基礎(chǔ)上,采用支持向量機(jī)回歸算法建立光伏發(fā)電系統(tǒng)的功率預(yù)測模型[9-11]。
因此,為解決分布式光伏發(fā)電功率預(yù)測問題,本文采用XGBoost實(shí)現(xiàn)分布式光伏的發(fā)電功率預(yù)測。本文對光伏發(fā)電的影響因子對各個變量分別進(jìn)行了復(fù)雜的特征工程,擴(kuò)展了原始的特征空間,并選出有效的特征變量用于XGBoost模型輸入。采用了超參數(shù)調(diào)節(jié)的方法,對算法進(jìn)行優(yōu)化,并選取某區(qū)域的分布式光伏用戶進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)表明:本文提出的特征工程方法對分布式光伏發(fā)電功率預(yù)測技術(shù)有效,基于XGBoost的分布式光伏發(fā)電功率預(yù)測模型有很好的預(yù)測精度,各個誤差指標(biāo)小,泛化性能好,符合分布式光伏發(fā)電功率預(yù)測的要求。
(一)影響因素分析
根據(jù)低壓分布式光伏發(fā)電的機(jī)理,分布式光伏發(fā)電功率受到氣候、地理環(huán)境、氣象等多種因素影響,不同環(huán)境下不同的氣象對其影響程度也不同。分布式光伏發(fā)電特性和太陽輻射強(qiáng)度、太陽輻射能量、溫度、濕度、云量、風(fēng)速、風(fēng)向、降雨等氣象因子密切相關(guān)。因此,發(fā)電功率受多種條件綜合影響,而這些影響因子隨時間動態(tài)變化,表現(xiàn)出間歇性、周期性和不穩(wěn)定性等特征。本文選取了多個影響因子用于模型輸入,如下表1所示。
表 1 分布式光伏發(fā)電影響因子輸入
(二)特征工程在
(一)中的部分變量不能直接輸入到模型,如天氣條件、日出時間和日落時間。另外,需要對特征進(jìn)行泛化、轉(zhuǎn)換生成新的特征,得到更多隱藏的特征變量,實(shí)現(xiàn)特征空間的擴(kuò)展。為低壓分布式光伏發(fā)電預(yù)測算法提供更豐富的特征輸入,提升模型預(yù)測的精度。本文中使用了編碼、差分、統(tǒng)計、交叉和趨勢計算特征等方法構(gòu)建特征。
(1)時間特征構(gòu)造
基于某一時間點(diǎn)的日期和時間,對各個部分進(jìn)行拆分,構(gòu)造出新的特征,主要拆分出月,周,日,小時特征,衍生出4個新的特征。
基于以上3個指標(biāo)對模型的性能進(jìn)行評價,MSE和MAE在測試樣本上的值越小越好,R2在測試樣本上的值越接近1越好。
(三)基于xgboost的預(yù)測模型構(gòu)建
1、試驗(yàn)數(shù)據(jù)
本文以某區(qū)域的分布式光伏用戶的發(fā)電功率為對象,以分布式光伏用戶歷史發(fā)電功率數(shù)據(jù)和該區(qū)域的歷史氣象數(shù)據(jù)作為基礎(chǔ),其數(shù)據(jù)項(xiàng)為包括了表1中所示。數(shù)據(jù)時間范圍為2021年4月20日至2022年4月20日,數(shù)據(jù)均為1小時一個點(diǎn),每天24點(diǎn)的數(shù)據(jù)。本文以該數(shù)據(jù)進(jìn)行建模分析。
為構(gòu)建基于XGBoost的預(yù)測模型,將數(shù)據(jù)按照“特征工程”和“特征篩選”章節(jié)所述進(jìn)行了特征構(gòu)造和特征篩選,并將數(shù)據(jù)拆為2部分:2021年4月20日至2022年3月31日作為訓(xùn)練集;2022年4月1日至2022年4月20日作為測試集。
2、模型參數(shù)
在XGBoost模型中參數(shù)很多,本文使用網(wǎng)絡(luò)搜索(Grid Search)實(shí)現(xiàn)XGBoost的超參數(shù)調(diào)節(jié),最后得到如下表2所示的最優(yōu)參數(shù)取值。
表 2 XGBoost超參數(shù)取值
(四)模型預(yù)測結(jié)果及分析
為對XGBoost模型進(jìn)行評估,對2022年4月1日至2022年4月20日的測試集進(jìn)行了預(yù)測,如下圖1所示。
圖 1 在測試集上的預(yù)測結(jié)果
從圖2中可以看出橙色的線為預(yù)測值,藍(lán)色的線為真實(shí)值,發(fā)電功率的真實(shí)曲線和預(yù)測曲線基本重合,說明XGBoost能較好地對分布式發(fā)電功率進(jìn)行預(yù)測。下面分別對24小時和72小時的發(fā)電功率曲線進(jìn)行預(yù)測和可視化,如下圖3所示,可以看出不同時間尺度上的預(yù)測效果較好。
圖 2 日預(yù)測效果(左)和72小時預(yù)測效果(右)
從模型性能指標(biāo)角度進(jìn)行分析,分別計算整個測試集預(yù)測曲線、24小時預(yù)測曲線和72小時預(yù)測曲線的評價指標(biāo),得到如下表3所示。
表 3 模型評價指標(biāo)
從MSE、MAE和R2三個評價指標(biāo)看,XGBoost在整個測試集上都有較好的預(yù)測效果,MSE可以達(dá)到0.02以下,MAE可在0.08以下,R2更是在0.96以上;而24小時的預(yù)測結(jié)果和72小時的預(yù)測結(jié)果,從指標(biāo)上72小時的預(yù)測結(jié)果效果模型性能更好,也說明XGBoost在分布式光伏發(fā)電功率預(yù)測上的泛化性好,XGBoost模型的整體性能很好。
XGBoost模型可以對特征變量的重要性進(jìn)行量化分析,因此對特征變量的重要性進(jìn)行可視化,如下圖3所示。
圖 3 基于XGBoost的特征重要性
從特征重要性排序中可以看出太陽輻射強(qiáng)度,紫外線指數(shù),前2天和3天的發(fā)電功率的查分特征,交叉特征都比較重要。但是太陽輻射能量重要性較低,可能是因?yàn)樵撎卣骱吞栞椛鋸?qiáng)度特征相關(guān)性較高導(dǎo)致??傊?,通過特征重要性可以看出本文中的特征工程是非常有效的。
本文通過對歷史氣象數(shù)據(jù)和發(fā)電功率曲線數(shù)據(jù)進(jìn)行特征工程的計算、特征篩選,并基于XGBoost建立分布式光伏發(fā)電功率預(yù)測模型?;谀硡^(qū)域的分布式光伏發(fā)電功率數(shù)據(jù)進(jìn)行了驗(yàn)證,得出結(jié)論如下:
1)本文中的特征工程對分布式光伏發(fā)電功率預(yù)測是有效的,構(gòu)造的特征變量在模型中具有較高的重要性,構(gòu)造后的特征空間能幫助模型提高模型性能。
2)XGBoost模型在分布式光伏發(fā)電功率預(yù)測中具有很好的性能,在獨(dú)立測試集上進(jìn)行發(fā)電功率預(yù)測,XGBoost模型表現(xiàn)出模型精度高,泛化能力強(qiáng)。
在不同時間尺度下的預(yù)測,XGBoost模型的性能表現(xiàn)較好,分別在24小時和72小時的時間尺度下進(jìn)行測試,XGBoost模型性能指標(biāo)表現(xiàn)都很好,甚至72小時的模型性能可以超過24小時。