高盛,許沛華,陳正洪,成馳
(湖北省氣象服務(wù)中心,湖北 武漢 430205)
推進(jìn)能源革命并構(gòu)建清潔低碳、安全高效的現(xiàn)代能源供給體系,最重要的途徑是大力發(fā)展清潔可再生能源,實(shí)施化石能源清潔替代。中國(guó)提出力爭(zhēng)于2030 年前達(dá)到CO2排放峰值,努力爭(zhēng)取2060 年前實(shí)現(xiàn)碳中和,到2030 年非化石能源占一次能源消費(fèi)的比重達(dá)到25%左右[1]。風(fēng)力發(fā)電是實(shí)現(xiàn)這一計(jì)劃的重要組成部分。截至2021 年底,中國(guó)風(fēng)電累計(jì)裝機(jī)容量達(dá)328.48 GW。然而,大規(guī)模風(fēng)電并網(wǎng)給電力系統(tǒng)的正常運(yùn)行和調(diào)度帶來(lái)了巨大的挑戰(zhàn)。由于風(fēng)力資源間歇性、隨機(jī)性,造成電流頻率波動(dòng),降低電力系統(tǒng)的可靠性。顯然,準(zhǔn)確的日前風(fēng)電功率預(yù)報(bào)在風(fēng)電并網(wǎng)中起著主導(dǎo)作用,有利于優(yōu)化調(diào)度方案,降低系統(tǒng)備用容量,提高經(jīng)濟(jì)效益和社會(huì)效益[2-3]。
準(zhǔn)確的風(fēng)電功率預(yù)測(cè)具有以下好處:(1)減少風(fēng)電隨機(jī)波動(dòng)對(duì)電力系統(tǒng)的負(fù)面影響,提高調(diào)度能力;(2)降低風(fēng)電系統(tǒng)運(yùn)行風(fēng)險(xiǎn);(3)維護(hù)風(fēng)電系統(tǒng)供需平衡,促進(jìn)風(fēng)電交易[4-5]。近年來(lái),許多研究都致力于風(fēng)電功率預(yù)測(cè),促進(jìn)了風(fēng)電發(fā)展。風(fēng)力發(fā)電預(yù)測(cè)領(lǐng)域按照預(yù)測(cè)方法不同分為物理模型[6]、傳統(tǒng)統(tǒng)計(jì)模型[7]和人工神經(jīng)網(wǎng)絡(luò)等。物理模型物理方法一般依靠計(jì)算流體動(dòng)力學(xué)在空間和時(shí)間尺度上模擬氣象現(xiàn)象的大氣演化和物理過(guò)程[8]。目前與物理方法相關(guān)的主流模式有全球同化和預(yù)報(bào)系統(tǒng)等。理論上,這些方法具有較好的時(shí)空連續(xù)性、長(zhǎng)期預(yù)測(cè)能力和較高的時(shí)空分辨率[9]。但這些方法計(jì)算量大,局部預(yù)報(bào)性能不足。另外,現(xiàn)實(shí)世界中,風(fēng)機(jī)的理論功率曲線與實(shí)際功率曲線存在一定偏差,使精確的物理預(yù)報(bào)模型構(gòu)建變得困難,主要有以下幾個(gè)方面影響:
1)因?yàn)闇u輪機(jī)不同程度的老化,給定風(fēng)速產(chǎn)生的理論功率將隨著時(shí)間的推移而變化。
2)不同海拔高度氣壓、溫度會(huì)發(fā)生變化,導(dǎo)致風(fēng)功率密度變化,從而使風(fēng)機(jī)因不同地形、氣候條件下出力曲線發(fā)生變化[10]。
3)風(fēng)機(jī)葉片受三維空間風(fēng)速湍流影響,實(shí)際功率呈高度非線性散射點(diǎn)分布[11]。
傳統(tǒng)統(tǒng)計(jì)模型依賴于相關(guān)的歷史數(shù)據(jù)來(lái)預(yù)測(cè)未來(lái)的發(fā)電量,主要采用歷史數(shù)據(jù)、模式識(shí)別、參數(shù)估計(jì)和模型檢驗(yàn)來(lái)建立問(wèn)題的數(shù)學(xué)模型。如自回歸模型(AR)或自回歸移動(dòng)平均模型(ARMA)等[4]。這些算法雖然計(jì)算時(shí)間復(fù)雜度小,但存在無(wú)法捕捉非線性的風(fēng)機(jī)出力規(guī)律,往往不能產(chǎn)生良好的預(yù)報(bào)性能[3]。
近年來(lái),人工智能算法已逐漸成為風(fēng)力發(fā)電預(yù)報(bào)的主流方法,其獨(dú)特的能力在特征提取和數(shù)據(jù)挖掘方面具有顯著優(yōu)勢(shì),相比傳統(tǒng)的物理模型和統(tǒng)計(jì)方法,其在預(yù)報(bào)性能上表現(xiàn)出更高的效率[12]。這些算法能夠捕獲非線性關(guān)系、時(shí)間依賴性、遞歸和非平穩(wěn)事件等重要特征。在眾多技術(shù)中,支持向量機(jī)(SVM)、神經(jīng)網(wǎng)絡(luò)、極限學(xué)習(xí)機(jī)、貝葉斯方法、馬爾可夫切換模型、集成系統(tǒng)、模糊邏輯系統(tǒng)和遺傳算法等都被廣泛應(yīng)用于風(fēng)力發(fā)電預(yù)報(bào)領(lǐng)域[13],效果顯著。
在深度學(xué)習(xí)領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)(CNN)被廣泛應(yīng)用于提取風(fēng)電時(shí)間序列中的隱藏特征。許沛華等[12]認(rèn)為長(zhǎng)-短記憶網(wǎng)絡(luò)(LSTMs)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)及其改進(jìn)版本對(duì)處理時(shí)間序列數(shù)據(jù)具有較強(qiáng)的能力,已被廣泛應(yīng)用于風(fēng)電功率預(yù)報(bào),且效果良好。然而,RNN 相比傳統(tǒng)的ANN 雖更具優(yōu)勢(shì),但有時(shí)會(huì)出現(xiàn)梯度消失或爆炸現(xiàn)象,導(dǎo)致在訓(xùn)練期間權(quán)重振蕩或長(zhǎng)期依賴關(guān)系的喪失。為解決此問(wèn)題,一些引入門(mén)控機(jī)制來(lái)控制層之間的信息流的方法被提出。長(zhǎng)短期記憶(LSTM)和門(mén)控循環(huán)單元(GRU)是比較典型的例子[14-15],這2 種方法的應(yīng)用可以提高預(yù)報(bào)精度,并減少訓(xùn)練時(shí)間。同時(shí),也有利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行時(shí)序預(yù)報(bào)的例子,其中被廣泛認(rèn)可的模型是因果擴(kuò)張時(shí)域卷積網(wǎng)絡(luò)(TCN)[16],它除了具備RNN 網(wǎng)絡(luò)所具備的高精度特征外,由于采用擴(kuò)張卷積,在處理長(zhǎng)時(shí)間序列上相比其他網(wǎng)絡(luò)也具備比較好的效果。過(guò)去的研究表明,注意力機(jī)制在處理長(zhǎng)序列時(shí)可以顯著提升網(wǎng)絡(luò)推理效果,其在解決圖像識(shí)別、計(jì)算機(jī)視覺(jué)等領(lǐng)域的問(wèn)題上已經(jīng)取得了顯著的成功。一種自注意力模型改進(jìn)LSTM[17]也被提出。有研究證明,具有獨(dú)特結(jié)構(gòu)的改進(jìn)LSTM 網(wǎng)絡(luò)在處理長(zhǎng)時(shí)間步長(zhǎng)的時(shí)間序列時(shí)相比RNN 網(wǎng)絡(luò)表現(xiàn)更好[18]。因此,改進(jìn)LSTM 可以有效地利用注意力機(jī)制序列數(shù)據(jù)的特征,非常適合于短期風(fēng)電功率的預(yù)報(bào)[19]。
本研究旨在探索并應(yīng)用最先進(jìn)的機(jī)器學(xué)習(xí)技術(shù),以構(gòu)建和優(yōu)化基于改進(jìn)LSTM 的深度學(xué)習(xí)模型。我們通過(guò)先進(jìn)的數(shù)據(jù)過(guò)濾、特征工程和模型優(yōu)化技術(shù)來(lái)提高預(yù)報(bào)模型的預(yù)報(bào)精度、魯棒性和計(jì)算性能。
本研究收集了位于中國(guó)東北和華中地區(qū)的2 個(gè)不同風(fēng)電場(chǎng)數(shù)據(jù)驗(yàn)證模型有效性,其中風(fēng)電場(chǎng)1 位于湖北省黃岡市麻城縣,經(jīng)度為115.113°,緯度為31.566°,海拔高度為740 m,裝機(jī)容量為80 MW,數(shù)據(jù)從2021 年7 月1 日至2022 年6 月30 日,時(shí)間長(zhǎng)度為12 個(gè)月。風(fēng)電場(chǎng)2 為位于內(nèi)蒙古通遼市,經(jīng)度為113.432°,緯度為41.212°,海拔高度為1 373 m,裝機(jī)容量為49.5 MW,數(shù)據(jù)從2021 年2 月1 日至2022 年9 月30 日時(shí)間間隔為15 min 的數(shù)據(jù),時(shí)間長(zhǎng)度為20 個(gè)月。數(shù)據(jù)集的劃分及數(shù)據(jù)量如表1所示。
表1 實(shí)驗(yàn)數(shù)據(jù)集Tab.1 Experimental data set
風(fēng)力發(fā)電離群點(diǎn)和異常值嚴(yán)重影響了風(fēng)電功率預(yù)報(bào)模型的準(zhǔn)確率,一些有代表性的研究方法被提出,鄭蕾等[20]提出了局部離群點(diǎn)風(fēng)速處理算法(Local Outlier Factor,LOF);曹立新等[21]結(jié)合滑差四分位數(shù)方法和基于多項(xiàng)式曲線回歸方法對(duì)數(shù)據(jù)進(jìn)行清理。盡管這些方法都取得了一定效果,但基于聚類的算法會(huì)將部分異常數(shù)據(jù)識(shí)別為正常數(shù)據(jù),給應(yīng)用帶來(lái)不便。本研究將風(fēng)速和風(fēng)力發(fā)電廠整場(chǎng)發(fā)電功率作為變量繪制散點(diǎn)圖,如圖1 所示。通過(guò)觀察圖1 中風(fēng)機(jī)出力數(shù)據(jù)圍繞以靠近中心附近的區(qū)域分布,可以通過(guò)RBF 核函數(shù)有效地將數(shù)據(jù)分布平面進(jìn)行劃分。本工作以此為基礎(chǔ),提出了一種高效的基于OneSVM 函數(shù)的風(fēng)力發(fā)電離群點(diǎn)數(shù)據(jù)的清洗算法。
圖1 變量繪制散點(diǎn)圖Fig.1 Draw a scatter plot of variables
1.2.1 OneSVM 函數(shù)
OneSVM(One-Class Support Vector Machine)是一種基于支持向量機(jī)的異常檢測(cè)算法。該算法旨在通過(guò)僅使用正常數(shù)據(jù)進(jìn)行訓(xùn)練,構(gòu)建一個(gè)邊界來(lái)描述正常數(shù)據(jù)的特征空間,并通過(guò)檢測(cè)與該邊界顯著偏離的樣本來(lái)識(shí)別異常數(shù)據(jù)。OneSVM 作為一種無(wú)監(jiān)督學(xué)習(xí)方法,能夠有效地處理高維數(shù)據(jù)和非線性數(shù)據(jù),并且具有較好的魯棒性。OneSVM 算法的核心決策過(guò)程為式(1),通過(guò)式(1)計(jì)算決策結(jié)果以進(jìn)行數(shù)據(jù)二分類劃分。
式中:
w ——決策函數(shù)的權(quán)重向量;
ρ ——決策函數(shù)的截距;
ξi——松弛變量;
n ——訓(xùn)練樣本的數(shù)量;
ν ——1 個(gè)用于控制異常樣本比例的超參數(shù)。
在本研究中選取RBF(Radial Basis Function)核函數(shù)來(lái)構(gòu)建分類平面,RBF 是徑向基函數(shù),它可以將數(shù)據(jù)從輸入空間映射到一個(gè)高維特征空間,從而更好地處理非線性問(wèn)題。
式中:
x、x' ——輸入樣本點(diǎn);
γ ——1 個(gè)控制函數(shù)曲線陡峭程度的參數(shù);
||x-x'||2——輸入樣本點(diǎn)之間的歐氏距離的平方。
在確定數(shù)據(jù)清洗分類時(shí),對(duì)于識(shí)別數(shù)據(jù)邊界影響較大的參數(shù)為核函數(shù)及核函數(shù)參數(shù)。對(duì)于RBF核需要選擇合適的參數(shù),過(guò)于陡峭的RBF 函數(shù)曲線會(huì)對(duì)部分正確樣本進(jìn)行錯(cuò)誤映射從而導(dǎo)致一些正常的風(fēng)電曲線特征丟失。通常的選取方式為將γ 設(shè)置為1/分類數(shù)量,對(duì)于二分類問(wèn)題該值通常設(shè)為0.5。在進(jìn)行工程應(yīng)用時(shí)式(1)中的決策邊界一般由訓(xùn)練樣本誤差百分比進(jìn)行確定。
過(guò)去的研究表明在訓(xùn)練集中存在大量不相關(guān)數(shù)據(jù)會(huì)顯著增加模型的復(fù)雜度,也會(huì)影響模型推理的穩(wěn)定性。因此通過(guò)特征工程方法篩選掉一些對(duì)模型學(xué)習(xí)有影響的特征顯得尤為重要[22]。在本研究中采用了一種基于數(shù)據(jù)相關(guān)性矩陣進(jìn)行特征篩選的方法。相關(guān)性矩陣通過(guò)計(jì)算各個(gè)特征之間的相關(guān)系數(shù),反映特征間的依賴性。在相關(guān)性矩陣中采用皮爾遜相關(guān)系數(shù)進(jìn)行元素計(jì)算,相關(guān)系數(shù)的計(jì)算公式為式(3),其中 Xi,k、Xj,k是2 個(gè)變量,分別是它們的均值,n 是樣本數(shù)量。
進(jìn)行數(shù)據(jù)相關(guān)性篩選的具體步驟如下:
1)構(gòu)建特征數(shù)據(jù)集的相關(guān)性矩陣 R,其中R[i,j]表示第i 個(gè)和第j 個(gè)特征的相關(guān)系數(shù)。
2)設(shè)置相關(guān)性系數(shù)閾值 ρ,在本研究中該值設(shè)置為0.5。
3)對(duì)R 進(jìn)行檢查,如果存在 |R[i,j]|>ρ,則認(rèn)為第i 個(gè)特征與第j 個(gè)特征高度相關(guān)。
4)在每對(duì)高度相關(guān)的特征中,刪除相關(guān)性較小的特征。此時(shí)需比較各特征與目標(biāo)值的相關(guān)性,刪除與目標(biāo)值相關(guān)性較小者。
5)重復(fù)步驟3)和步驟4),直到不存在高度相關(guān)的特征對(duì)。
6)最終獲得的特征子集中,各特征間具有較低的冗余性。
通過(guò)以上方法,在本文中選擇了對(duì)風(fēng)機(jī)出力功率影響最大的13 個(gè)指標(biāo),包括:10 m 高度的風(fēng)速、風(fēng)向、濕度、氣壓、溫度以及30 m、50 m、70 m、輪轂高度的風(fēng)速和風(fēng)向。其中,對(duì)風(fēng)電出力影響最大的因素是風(fēng)速,為了使得模型可以更好地學(xué)習(xí)風(fēng)速的變化規(guī)律以及風(fēng)速與發(fā)電功率之間的關(guān)系,需要進(jìn)一步針對(duì)風(fēng)速特征進(jìn)行數(shù)據(jù)增強(qiáng)。
由于風(fēng)速具有隨機(jī)性強(qiáng)的特點(diǎn),因此研究者通常不會(huì)采用對(duì)風(fēng)速進(jìn)行單純的數(shù)值處理的方式進(jìn)行特征倍增。結(jié)合風(fēng)電場(chǎng)的地形特征,通常在特定的季節(jié)內(nèi),特定測(cè)風(fēng)點(diǎn)風(fēng)速會(huì)存在一些時(shí)延重復(fù)特征。這種特征通常表現(xiàn)為在臨近時(shí)間范圍附近可以觀察到相似的風(fēng)速波動(dòng)規(guī)律片段。傳統(tǒng)的數(shù)據(jù)處理方法很少考慮特征片段時(shí)移帶來(lái)的增益。因此,本研究中采用一種創(chuàng)新的數(shù)據(jù)倍增方式即時(shí)延滑動(dòng)窗口特征處理方法。這種方法通過(guò)在數(shù)據(jù)集上滑動(dòng)一個(gè)固定長(zhǎng)度的窗口,依次截取窗口中的子集進(jìn)行統(tǒng)計(jì)計(jì)算,從而得到一組移動(dòng)平均或者其他滾動(dòng)指標(biāo)。
設(shè)時(shí)間序列為 X=x1,x2,···,xn,窗口大小為w,窗口起點(diǎn)t 的數(shù)據(jù)集為 Xt=xt,···,xt+w-1。
在t 時(shí)刻,根據(jù)指定統(tǒng)計(jì)函數(shù) f,可以計(jì)算得到:yt=f(Xt)。通過(guò)在原始序列上滑動(dòng)窗口,重復(fù)該過(guò)程,最終得到輸出移動(dòng)平均序列:
滑動(dòng)窗口方法支持多種統(tǒng)計(jì)函數(shù)f,如求平均、最大值、相關(guān)系數(shù)等。通過(guò)調(diào)整窗口大小w,可以觀察不同時(shí)間尺度上的趨勢(shì)和模式。本文采用的滑動(dòng)窗口大小分別為4 和24,統(tǒng)計(jì)函數(shù)方法選擇了最大值和平均值統(tǒng)計(jì)法。經(jīng)過(guò)實(shí)驗(yàn)這組參數(shù)可以最有效地提升模型效果。
由于風(fēng)的波動(dòng)性、隨機(jī)性和受湍流的影響,導(dǎo)致風(fēng)擊中掠葉轉(zhuǎn)子的速度和方向迅速變化,使觀測(cè)風(fēng)速與撞擊轉(zhuǎn)子葉片的風(fēng)速不匹配,導(dǎo)致風(fēng)速與輸出功率之間的不匹配[23]。大量研究表明準(zhǔn)確地刻畫(huà)風(fēng)速的波動(dòng)特征有利于提高預(yù)報(bào)模型的準(zhǔn)確率,尤其某一時(shí)刻風(fēng)速 v0與鄰近時(shí)間段 ?t={15,30,45,60}(單位為min)內(nèi)風(fēng)速的變化特征與發(fā)電功率存在潛在映射關(guān)系。通過(guò)對(duì)風(fēng)速數(shù)據(jù)進(jìn)行分析,并參考許沛華等[12,24]提出的風(fēng)速數(shù)據(jù)處理方法,在此基礎(chǔ)上結(jié)合第1 章中2 個(gè)風(fēng)電場(chǎng)的實(shí)測(cè)數(shù)據(jù)將對(duì)風(fēng)速變化波動(dòng)特征影響較大的因子進(jìn)行篩選以及檢驗(yàn),得到了4個(gè)影響比較明顯的特征因子。通過(guò)數(shù)據(jù)分析及驗(yàn)證,在我們的模型中引入了鄰近的1 h 內(nèi)風(fēng)速波動(dòng)特征的表示,這些特征分別為風(fēng)速絕對(duì)波動(dòng)幅度 VA、風(fēng)速相對(duì)波動(dòng)幅度 VR、風(fēng)速標(biāo)準(zhǔn)差 Vε、最大風(fēng)速 Vmax、最小風(fēng)速 Vmin、風(fēng)速爬坡次數(shù) Rcnt6 個(gè)量表示風(fēng)速的波動(dòng)特征。
定義1:風(fēng)速標(biāo)準(zhǔn)差 Vε反映 ?t時(shí)間內(nèi)風(fēng)速偏離風(fēng)速均值 v′的離散程度,該值越大波動(dòng)越大,否則波動(dòng)較小,如式(5):
式中:
n——樣本總數(shù)(個(gè))。
定義2:最大風(fēng)速 Vmax反映 ?t 時(shí)間內(nèi)風(fēng)速的最大值,如式(6):
定義3:最小風(fēng)速 Vmin反映 ?t 時(shí)間內(nèi)風(fēng)速的最小值,如式(7):
定義4:風(fēng)速爬坡次數(shù) Rcnt是 ?t時(shí)間內(nèi)風(fēng)速變化超過(guò)閾值 δ的次數(shù),該值越大代表波動(dòng)越頻繁,否則波動(dòng)不頻繁,如式(9):
在風(fēng)電發(fā)電功率預(yù)報(bào)領(lǐng)域,機(jī)器學(xué)習(xí)技術(shù)被廣泛應(yīng)用,其中被認(rèn)為效果比較好的算法包括隨機(jī)森林算法Random Forest(RF),梯度提升樹(shù)集成算法LightGBM 等。目前被更多使用的方法是LightGBM,LightGBM 采用了梯度提升樹(shù)原理,其中包括葉子分裂策略、直方圖優(yōu)化、基于梯度的學(xué)習(xí)和正則化,使其能夠高效處理風(fēng)能數(shù)據(jù)。以下是LightGBM 的關(guān)鍵原理:
葉子分裂策略:LightGBM 采用了葉子分裂(Leaf-wise)的生長(zhǎng)方式,與傳統(tǒng)的深度優(yōu)先生長(zhǎng)(Depth-wise)不同。這種策略選擇具有最大梯度的葉子來(lái)分裂,以最大程度地減小損失函數(shù)。這導(dǎo)致樹(shù)的深度相對(duì)較小,有助于捕獲風(fēng)能數(shù)據(jù)中的非線性關(guān)系和季節(jié)性模式。
直方圖優(yōu)化:LightGBM 使用直方圖算法,將數(shù)據(jù)集分成多個(gè)直方圖,每個(gè)直方圖代表一個(gè)特征的取值范圍。這減少了對(duì)數(shù)據(jù)的排序和遍歷,提高了訓(xùn)練速度,尤其適用于大規(guī)模數(shù)據(jù)集。
基于梯度的學(xué)習(xí):LightGBM 在每次迭代中計(jì)算損失函數(shù)對(duì)模型預(yù)報(bào)的梯度,并根據(jù)梯度擬合一個(gè)新的決策樹(shù)。這使模型逐步優(yōu)化,不斷減小預(yù)報(bào)誤差。
正則化:LightGBM 引入了正則化項(xiàng),包括葉子結(jié)點(diǎn)的最大深度和葉子結(jié)點(diǎn)的最小數(shù)據(jù)數(shù)。這有助于防止過(guò)擬合,提高模型的泛化性能。
神經(jīng)網(wǎng)絡(luò)方法也經(jīng)常被用在為風(fēng)電功率預(yù)報(bào)領(lǐng)域,其中比較典型的算法有基于RNN 的GRU,LSTM 等算法,基于卷積神經(jīng)網(wǎng)絡(luò)的TCN 算法等。其中TCN 算法是近期被認(rèn)為具有潛力的算法。由于風(fēng)電具備長(zhǎng)時(shí)間序列依賴特征,因此為了捕獲具有較長(zhǎng)歷史的時(shí)間序列,TCN 使用了因果空洞卷積,采用指數(shù)級(jí)的放大方式擴(kuò)大接受野。t 時(shí)刻的輸出取決于t 時(shí)刻及之前的輸入,說(shuō)明歷史信息沒(méi)有被忽略,通過(guò)膨脹系數(shù)d 實(shí)現(xiàn)了對(duì)卷積層的間隔采樣,它擴(kuò)大了接受野??傊?,擴(kuò)張因果卷積在處理數(shù)據(jù)時(shí)可以考慮更多的歷史信息,獲得更大的一維序列的特征視界。針對(duì)這種網(wǎng)絡(luò)結(jié)構(gòu)特征的定義如式(10)所示。
式中:
d ——膨脹系數(shù),代表每間隔多少數(shù)據(jù)點(diǎn)進(jìn)行一次采樣;
xs-d·i——經(jīng)過(guò)按膨脹系數(shù)d 間隔選取的第i 個(gè)數(shù)據(jù)點(diǎn)。
受到近期被學(xué)術(shù)界廣泛研究的編碼器-解碼器神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的啟發(fā),本研究中采用了一種新型的基于LSTM 單元堆疊的編碼器與解碼器結(jié)構(gòu)。相比傳統(tǒng)LSTM,這種形式可以通過(guò)引入時(shí)間變量編碼、解碼時(shí)間段的數(shù)值預(yù)報(bào)信息來(lái)提升預(yù)報(bào)的準(zhǔn)確性。改進(jìn)的LSTM 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示,對(duì)于網(wǎng)絡(luò)結(jié)構(gòu)描述具體如下。
圖2 改進(jìn)的LSTM 網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Improved LSTM network structure
編碼器部分由多個(gè)編碼器層堆疊而成,在本研究中每個(gè)編碼器層包含2 個(gè)子層。編碼器輸入層之前包含1 個(gè)歸一化層,用于平穩(wěn)風(fēng)電時(shí)間序列數(shù)據(jù)的波動(dòng)情況,將所有值采用標(biāo)準(zhǔn)歸一化方法歸一化到[-1,1]的區(qū)間內(nèi)。編碼器層的輸入包含對(duì)時(shí)間序列的編碼,編碼器的輸出為堆疊LSTM 的輸出。解碼器部分為單個(gè)LSTM 子層,其后包括1 個(gè)殘差連接層和1 個(gè)全連接層。殘差連接將編碼器的輸出與解碼器的輸出進(jìn)行加和連接,殘差層后經(jīng)過(guò)單個(gè)全連接層進(jìn)行最終結(jié)果輸出。
總體來(lái)說(shuō),改進(jìn)LSTM 模型的網(wǎng)絡(luò)結(jié)構(gòu)除了引入編碼器-解碼器機(jī)制外還采用了殘差連接和歸一化的設(shè)計(jì),以增強(qiáng)模型的訓(xùn)練穩(wěn)定性和表達(dá)能力。
由于平均絕對(duì)誤差(Mean Absolute Error,MAE)和均方根誤差(Root Mean Squared Error,RMSE)可以反映預(yù)報(bào)值與真實(shí)值之間的距離,本文使用MAE、RMSE 來(lái)評(píng)估預(yù)報(bào)誤差。一般越小的值代表算法表現(xiàn)越好。同時(shí)本文也引入了被廣泛風(fēng)電場(chǎng)采用的準(zhǔn)確率評(píng)估公式進(jìn)行準(zhǔn)確率評(píng)估對(duì)比,該公式可以表示實(shí)際發(fā)電功率與預(yù)報(bào)功率之間的偏差百分比。通常準(zhǔn)確率越接近100%表示算法性能越好。它們的公式見(jiàn)式(11)~(13)。
式中:
yi——真實(shí)值(MW);
ycap——電廠的裝機(jī)容量(MW)。
風(fēng)電場(chǎng)1 和風(fēng)電場(chǎng)2 的數(shù)據(jù)清洗結(jié)果可以分別參見(jiàn)圖3 和圖4 所示。在圖3 中,左側(cè)圖為使用未經(jīng)清洗的風(fēng)速-風(fēng)力發(fā)電功率繪制的散點(diǎn)圖,右側(cè)圖的紅色點(diǎn)狀內(nèi)容為經(jīng)過(guò)使用RBF 核的SVM 進(jìn)行邊界劃分?jǐn)?shù)據(jù)清洗后的結(jié)果,在本實(shí)驗(yàn)中所選取的核參數(shù)為其中使用訓(xùn)練誤差分?jǐn)?shù)的上界劃分參數(shù)nu值為0.05,RBF 核曲線斜率γ 選取0.5。圖4 與圖3的呈現(xiàn)方式相同。從圖中可以看出經(jīng)過(guò)OneSVM 算法清洗后的部分?jǐn)?shù)據(jù)可以保留風(fēng)電場(chǎng)的有效風(fēng)功率特征,諸如功率記錄異常數(shù)據(jù)、棄風(fēng)時(shí)段的風(fēng)功率數(shù)據(jù)等均可以被有效清除。圖3 與圖4 中散點(diǎn)右下方區(qū)域的點(diǎn)可能是由于部分風(fēng)機(jī)故障檢修或者部分風(fēng)機(jī)迎風(fēng)角度不正確導(dǎo)致,這種情況在日常發(fā)電過(guò)程中不屬于常發(fā)事件,但這部分?jǐn)?shù)據(jù)會(huì)對(duì)機(jī)器學(xué)習(xí)的結(jié)果產(chǎn)生較大的影響。經(jīng)過(guò)OneSVM 清洗后的數(shù)據(jù)不會(huì)包含這部分?jǐn)?shù)據(jù),因此可以整體提升機(jī)器學(xué)習(xí)算法的準(zhǔn)確率。
圖3 風(fēng)電場(chǎng)1 散點(diǎn)圖異常數(shù)據(jù)點(diǎn)清洗效果Fig.3 Cleaning effect of abnormal data points in scatter diagram of wind farm 1
圖4 風(fēng)電場(chǎng)2 散點(diǎn)圖異常數(shù)據(jù)點(diǎn)清洗效果Fig.4 Cleaning effect of abnormal data points in scatter diagram of wind farm 2
本文對(duì)比了不同算法在數(shù)據(jù)清洗前和數(shù)據(jù)清洗后的預(yù)報(bào)誤差,風(fēng)電場(chǎng)1 的結(jié)果數(shù)據(jù)如表2 所示,風(fēng)電場(chǎng)2 的結(jié)果數(shù)據(jù)如表3 所示。
表2 風(fēng)電場(chǎng)1 結(jié)果數(shù)據(jù)Tab.2 Result data of wind farm 1
表3 風(fēng)電場(chǎng)2 結(jié)果數(shù)據(jù)Tab.3 Result data of wind farm 2
表2 和表3 分別對(duì)應(yīng)風(fēng)電場(chǎng)1 和風(fēng)電場(chǎng)2 的實(shí)驗(yàn)結(jié)果,從表中可以看到風(fēng)電場(chǎng)1 和風(fēng)電場(chǎng)2 所使用的方法相比其他方法具有比較優(yōu)勢(shì)。從風(fēng)電場(chǎng)1的數(shù)據(jù)表中橫向比較進(jìn)行數(shù)據(jù)清洗及數(shù)據(jù)增強(qiáng)前后同樣算法下的MAE 指標(biāo)相比未清洗情況平均誤差減小了約2 MW,約占場(chǎng)站裝機(jī)容量的2.5%,RMSE指標(biāo)相比之前減少了約3 MW,約占場(chǎng)站裝機(jī)容量的3.8%,平均準(zhǔn)確率提升約5%。風(fēng)電場(chǎng)2 的提升數(shù)據(jù)也呈類似情況。比較表中使用原始數(shù)據(jù)集以及使用經(jīng)過(guò)特征工程處理后的數(shù)據(jù)相比特征工程處理之前在所有指標(biāo)上都有顯著提升。
使用改進(jìn)的LSTM 算法在MAE、RMSE 及準(zhǔn)確率指標(biāo)相比LightGBM 算法在風(fēng)電場(chǎng)1 提升約0.94 MW、2.141 MW 及4.21%,相比傳統(tǒng)LSTM 及TCN 平均提升0.333 MW、0.313 MW 及0.62%。風(fēng)電場(chǎng)2 的提升情況與風(fēng)電場(chǎng)1 類似。綜合來(lái)看,平均2 個(gè)場(chǎng)站的結(jié)果本文提出的改進(jìn)算法在數(shù)據(jù)清洗后進(jìn)行對(duì)比平均可以提升約2.5%的準(zhǔn)確率,對(duì)比數(shù)據(jù)清洗前準(zhǔn)確率平均可以提升約5.9%。表明文中所提出的改進(jìn)LSTM 算法針對(duì)風(fēng)電功率預(yù)報(bào)模型的誤差減小以及準(zhǔn)確率提升是有效的。
通過(guò)上文分析結(jié)論,本文主要有以下3 個(gè)貢獻(xiàn):
1)與現(xiàn)有的神經(jīng)網(wǎng)絡(luò)模型對(duì)比,文章中提出的改進(jìn)LSTM 模型在已知數(shù)據(jù)集上的表現(xiàn)優(yōu)于TCN等流行的神經(jīng)網(wǎng)絡(luò),它表現(xiàn)出了顯著的性能。到目前為止,在風(fēng)力發(fā)電日前預(yù)報(bào)領(lǐng)域還缺乏這樣的比較。因此,本文將一種新的基于改進(jìn)LSTM 的深度學(xué)習(xí)方法應(yīng)用于風(fēng)電功率的預(yù)報(bào),并通過(guò)與其他傳統(tǒng)模型以及神經(jīng)網(wǎng)絡(luò)模型的比較,綜合評(píng)估了該方法在風(fēng)電功率預(yù)報(bào)中的有效性。
2)風(fēng)機(jī)出力受一段時(shí)間內(nèi)風(fēng)速相對(duì)或絕對(duì)波動(dòng)輻度、最大風(fēng)速、最小風(fēng)速、風(fēng)速爬坡的頻率等因子影響,因此準(zhǔn)確的風(fēng)速波動(dòng)特征提取非常重要。雖然LSTM 和TCN 深度學(xué)習(xí)模型對(duì)歷史信息具有記憶功能,但對(duì)風(fēng)力發(fā)電的這些特征提取仍然不夠。本研究中創(chuàng)新性地提出了一種時(shí)延滾動(dòng)數(shù)據(jù)拼接的方法,并定義了4 個(gè)對(duì)風(fēng)機(jī)出力影響較大的風(fēng)速特征變量輸入到模型中,這種數(shù)據(jù)處理大大增強(qiáng)了模型的學(xué)習(xí)能力。
3)在這項(xiàng)研究中,一種基于OneSVM 函數(shù)的檢測(cè)和消除風(fēng)力發(fā)電數(shù)據(jù)集中異常值的方法被提出,然后將其輸入到TCN,改進(jìn)LSTM 等深度學(xué)習(xí)模型中。提出的基于OneSVM 函數(shù)的異常值檢測(cè)算法可以根據(jù)數(shù)據(jù)分布密度劃分識(shí)別區(qū)域,識(shí)別異常值更加精準(zhǔn),增強(qiáng)了預(yù)報(bào)模型的準(zhǔn)確率。
本研究針對(duì)風(fēng)電功率預(yù)報(bào)問(wèn)題,提出一種基于改進(jìn)LSTM 的預(yù)報(bào)模型。該模型集成了數(shù)據(jù)異常檢測(cè)、風(fēng)速特征提取、超參數(shù)優(yōu)化等模塊,形成了一套端到端的預(yù)報(bào)解決方案。研究表明,該模型可以有效檢測(cè)和處理異常數(shù)據(jù),準(zhǔn)確學(xué)習(xí)風(fēng)速特征,并利用改進(jìn)LSTM 網(wǎng)絡(luò)進(jìn)行預(yù)報(bào),相較TCN 等算法具有明顯優(yōu)勢(shì)。本研究的3 點(diǎn)創(chuàng)新與貢獻(xiàn)包括:利用改進(jìn)LSTM 網(wǎng)絡(luò)進(jìn)行風(fēng)電功率預(yù)報(bào),與TCN 等算法進(jìn)行比較,驗(yàn)證其在風(fēng)功率預(yù)報(bào)任務(wù)上的有效性;提出時(shí)延滾動(dòng)數(shù)據(jù)拼接方法,定義風(fēng)速特征變量,增強(qiáng)模型學(xué)習(xí)能力;應(yīng)用基于OneSVM 函數(shù)的異常值檢測(cè)算法,提高預(yù)報(bào)準(zhǔn)確率。
本研究為風(fēng)電功率預(yù)報(bào)提供了一種新的基于深度學(xué)習(xí)的解決方案。相較于傳統(tǒng)算法,該方案可以更好地建模時(shí)間依賴關(guān)系,提取關(guān)鍵特征,處理異常數(shù)據(jù)。研究結(jié)果表明,該模型可以顯著提高風(fēng)功率預(yù)報(bào)的精度。