文/賀仁杰
有效掌控煤炭價(jià)格走勢有利于保障煤炭供應(yīng)鏈的安全穩(wěn)定。本文整合了宏觀經(jīng)濟(jì)、煤炭市場、電力行業(yè)等相關(guān)數(shù)據(jù),篩選出影響煤價(jià)的關(guān)鍵因素,提出了一種基于Stacking集成學(xué)習(xí)的組合預(yù)測方法。實(shí)驗(yàn)結(jié)果顯示,融合后的模型充分發(fā)揮了各個(gè)基學(xué)習(xí)器的優(yōu)勢。與單一模型相比,融合后的Stacking模型具有較小的預(yù)測誤差,預(yù)測效果更佳。
能源供給側(cè)結(jié)構(gòu)性改革的目標(biāo)是優(yōu)化能源結(jié)構(gòu),減少無效供給,合理配置資源,提高能源效率。有研究者分析了我國煤炭價(jià)格與火力發(fā)電的動(dòng)態(tài)關(guān)系,也有研究者考慮了煤炭價(jià)格的多種影響因素,如工業(yè)增加值、發(fā)電量和消費(fèi)量等。隨著機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的發(fā)展,BP神經(jīng)網(wǎng)絡(luò)、混合深度學(xué)習(xí)分步預(yù)測方法等也被用于煤價(jià)預(yù)測。但這些算法在數(shù)據(jù)樣本量少的數(shù)據(jù)集上難以實(shí)現(xiàn)精準(zhǔn)預(yù)測,并且缺乏可解釋性。本文針對上述問題,篩選出影響煤價(jià)的關(guān)鍵因素,將隨機(jī)森林、支持向量回歸、彈性網(wǎng)絡(luò)和BP神經(jīng)網(wǎng)絡(luò)與集成學(xué)習(xí)方式進(jìn)行融合,構(gòu)建基于Stacking的組合預(yù)測方法,并驗(yàn)證了其有效性。
考慮到隨機(jī)森林的高效性能和自適應(yīng)特征選擇、彈性網(wǎng)絡(luò)的良好泛化能力、SVR的非線性分類能力,以及BP神經(jīng)網(wǎng)絡(luò)簡單靈活,能夠處理非線性問題等優(yōu)點(diǎn),本文利用煤炭價(jià)格數(shù)據(jù)集分別構(gòu)建了模型。Stacking可以利用這些基學(xué)習(xí)器的優(yōu)勢,提高整體的預(yù)測性能。實(shí)驗(yàn)表明元學(xué)習(xí)器為嶺回歸時(shí)可以取得較好的預(yù)測效果,故選用嶺回歸作為元學(xué)習(xí)器。為了對預(yù)測模型性能進(jìn)行評估比較,本文采用均方誤差(MSE)、平均絕對誤差(MAE)和擬合優(yōu)度三種常用的評價(jià)指標(biāo)。
在進(jìn)行數(shù)據(jù)分析之前,需要對數(shù)據(jù)進(jìn)行預(yù)處理,以便算法能更好地學(xué)習(xí)數(shù)據(jù)并做出更準(zhǔn)確的判斷與決策。此外,由于本數(shù)據(jù)集中缺失值較少,采用了將缺失值前后時(shí)間段的數(shù)據(jù)求均值來代替空白缺失值的方法,以保證樣本量不減少。為了減少變量間多重共線性對線性模型參數(shù)估計(jì)不確定性的影響,需要對數(shù)據(jù)集進(jìn)行變量間相關(guān)性分析,進(jìn)行變量篩選和合并,從而減少變量間的多重共線,提高模型精度。
本文采用四種單一模型分別進(jìn)行預(yù)測,選取數(shù)據(jù)的80%為訓(xùn)練集,20%為測試集。RF、SVR、EN和BP模型都表現(xiàn)出較好的擬合效果。將構(gòu)建的Stacking模型進(jìn)行訓(xùn)練后進(jìn)行預(yù)測。各模型的預(yù)測的MSE和MAE見表1。可以看出,EN表現(xiàn)出最低的MSE,RF和BP整體表現(xiàn)優(yōu)越,而且BP的MSE值更低,SVR也實(shí)現(xiàn)了較好的預(yù)測效果。
表1 各模型預(yù)測效果評價(jià)
Stacking模型預(yù)測的MSE和MAE最小,預(yù)測準(zhǔn)確率有了明顯提升。Stacking通過多種基學(xué)習(xí)器結(jié)合,可避免模型陷入局部最小點(diǎn),這也是Stacking可顯著提升預(yù)測精度的關(guān)鍵原因。
本文通過收集經(jīng)濟(jì)數(shù)據(jù),找到影響煤價(jià)的關(guān)鍵因素,并利用集成方式將多個(gè)算法融合后進(jìn)行煤炭價(jià)格預(yù)測。結(jié)果表明,融合模型能夠結(jié)合多種模型的優(yōu)勢,預(yù)測的平均誤差較小,明顯提升了預(yù)測準(zhǔn)確率。但研究中還存在一些不足:由于獲取相關(guān)數(shù)據(jù)不便,后續(xù)研究可篩選更多特征納入模型訓(xùn)練,爭取提供更精確的煤價(jià)預(yù)測方法。