王喜才
摘 要:為實現風電機組的早期故障預警,提出一種基于隨機森林(RF)結合長短期記憶(LSTM)網絡的風電機組狀態(tài)參數預測方法。結果表明,在不同的輸入變量與預測方法下,RF-LSTM均具有較高的預測精度,不僅克服了眾多狀態(tài)參數存在的高維度、非線性等問題,還保證了輸入變量的重要信息不會隨著時間被遺忘。
關鍵詞:風電機組;隨機森林;狀態(tài)參數預測;長短期記憶網絡
1 引言
由于風電場所處位置偏僻,風電機組系統(tǒng)和各部件關聯的復雜性,當風電機組出現故障時,所處環(huán)境的惡劣會使風電機組維修困難,導致運行維護成本較高。
2 RF-LSTM網絡預測方法
2.1 RF原理
RF是以決策樹為學習器的集成學習方法。對于回歸問題,通過建立每棵決策樹,抽取一定數量的特征,從中選擇最合適的特征作為分裂節(jié)點來劃分左右子樹,生成多個決策樹模型,每一個決策樹的預測結果為葉子結點的均值,RF最終的預測結果為所有決策樹預測結果的均值。
2.2 LSTM網絡原理
LSTM網絡是循環(huán)神經網絡(Recurrent Neural Network,RNN)的一種改進。LSTM網絡的計算過程如下:
遺忘門會根據輸入的狀態(tài)決定哪些信息會被遺忘,從而得到遺忘門的輸出狀態(tài)f(t)f(t):
f(t)=σ(Wfaa(t?1)+Wfxx(t)+bf)f(t)=σ(Wfaa(t?1)+Wfxx(t)+bf)(2)
式中,x(t)x(t)為當前時刻的輸入,a(t?1)a(t?1)是上一時刻的細胞狀態(tài),WfaWfa,WfxWfx是遺忘門權重系數;bfbf是遺忘門偏置;σσ是遺忘門激活函數。
更新門決定細胞狀態(tài)是否更新。細胞狀態(tài)的更新是由更新門的輸出狀態(tài)i(t)i(t)與tanhtanh函數激活輸出cˉ(t)cˉ(t)的乘積和上一時刻的細胞狀態(tài)c(t?1)c(t?1)與遺忘門f(t)f(t)的乘積組成。其輸出表達式為:
i(t)=σ(Wiaa(t?1)+Wixx(t)+bi)i(t)=σ(Wiaa(t?1)+Wixx(t)+bi)(3)
cˉ(t)=tanh(Wcaa(t?1)+Wcxx(t)+bc)cˉ(t)=tanh(Wcaa(t?1)+Wcxx(t)+bc)(4)
c(t)=i(t)×cˉ(t)+f(t)×c(t?1)c(t)=i(t)×cˉ(t)+f(t)×c(t?1)(5)
式中,WiaWia,WixWix,WcaWca,WcxWcx是更新門的權重系數;bibi,bcbc是更新門的偏置;σσ,tanhtanh是更新門的激活函數;c(t)c(t)是更新后的細胞狀態(tài)。
輸出門決定是否將當前狀態(tài)傳遞給下一時刻。
o(t)=σ(Woaa(t?1)+Woxx(t)+bo)o(t)=σ(Woaa(t?1)+Woxx(t)+bo)(6)
a(t)=o(t)×tanh(c(t))a(t)=o(t)×tanh(c(t))(7)
式中,o(t)o(t)是當前單元的隱藏狀態(tài),WoaWoa,WoxWox是輸出門細胞狀態(tài)更新權重系數;bobo是輸出門細胞狀態(tài)偏置;σσ,tanhtanh是輸出門激活函數;a(t)a(t)是當前時刻神經網絡的隱藏狀態(tài)。
2.3 RF-LSTM網絡預測模型
針對風電機組狀態(tài)參數預測,提出的RF-LSTM網絡預測模型的實現流程。RF-LSTM網絡預測模型的實現可以分為三個階段:第一個階段是數據預處理。采集風電機組SCADA系統(tǒng)監(jiān)測的狀態(tài)參數數據作為樣本數據,對其進行歸一化處理。第二個階段是輸入變量篩選。將處理后的樣本數據輸入到RF模型進行10折交叉驗證訓練,記錄每次模型得到的均方誤差。第三個階段是預測模型構建。初始化LSTM網絡參數,結合評價指標對參數尋優(yōu),構建RF-LSTM網絡預測模型。
3基于RF-LSTM網絡的狀態(tài)參數預測
3.1模型參數選擇
3.1.1 RF參數選擇
本實驗在MATLAB2018b平臺上運行,取采樣數據的2/3作為訓練集,1/3作為測試集。RF算法有兩個主要參數:決策樹的數量(CART)和葉子節(jié)點數(T)。采用MSE作為RF參數尋優(yōu)的評價指標,一般是將葉子節(jié)點數設置為5。
3.2.2 LSTM網絡參數選擇
設置LSTM網絡的batchsize為64,學習率為0.001,最大迭代次數為30,優(yōu)化器為adam。為了研究LSTM網絡參數對于預測精度的影響,選取記憶單元個數和隱藏網絡層數兩個參數進行測試,并以MAE和loss值作為評價指標。
以單層LSTM網絡作為訓練模型,改變記憶單元個數,分析不同記憶單元個數對模型預測精度的影響。
隨著記憶單元個數遞增,評價指標MAE和loss的數值整體上先升高后下降,當記憶單元個數為32時,單層LSTM網絡訓練的預測精度較好。
3.2結果分析
3.2.1輸入變量篩選結果分析
為了驗證RF在輸入變量選擇方面的優(yōu)勢,引入傳統(tǒng)的PCC方法和MI算法對各個狀態(tài)參數進行分析,共得到3種不同的狀態(tài)參數組合,將其作為LSTM網絡預測模型的輸入變量。
依據RF理論計算各個狀態(tài)參數的重要性值。
將該實驗的19個狀態(tài)參數作為特征。選擇基于MI的向后消除特征算法,從全部的特征開始,每一輪消除一個與目標邊緣化最大的特征,并記錄下所有剩余特征。當沒有特征消除時,該算法就會停止。
在第12輪之前,MI損失百分比幾乎是沒有變化的,表示已消除的12個特征對于目標影響不大。隨著輪數的增加,MI損失百分比的曲線開始出現轉折,并呈現上升的趨勢,說明在第12輪后消除特征會對目標變量信息造成損失。因此,選擇第12輪時的特征當作輸入變量,即為編號1、3、5、6、11、18和19,共7個狀態(tài)參數。
根據PCC理論得出各個狀態(tài)參數與目標變量對應的皮爾遜相關系數。選擇皮爾遜相關系數在[0.6,1]和[-1,-0.6]范圍內的狀態(tài)參數作為輸入變量,即編號1、2、4、5、6、8、9、10、11、12、13、14、17和19,共14個狀態(tài)參數。
根據以上結果分析得出:RF篩選出4個狀態(tài)參數作為輸入變量,MI篩選出7個狀態(tài)參數作為輸入變量,PCC篩選出14個狀態(tài)參數作為輸入變量。
3.2.2預測結果分析
取采樣數據的前2680組數據當作訓練集,后200組數據當作測試集,對比三種不同算法篩選的輸入變量對預測結果的影響。
RF-LSTM與真實值的曲線擬合程度要略優(yōu)于MI-LSTM和PCC-LSTM。
加入未經處理的單變量與全集,綜合比較不同的輸入變量對于預測結果的影響。
五種輸入變量的模型測試時間相差并不大,文中模型效果好。RF-LSTM模型得出的MAE、MSE相對較小,R2較大,綜合比較該模型優(yōu)于其它模型。為驗證LSTM網絡模型在預測方法中的優(yōu)越性,與SVR、BP兩種方法進行比較,三種方法預測結果的評價指標。
4 結論
本文將RF理論應用到輸入變量篩選中,除去與目標變量相關性較小的狀態(tài)參數,并與MI、PCC進行比較,驗證該輸入變量的有效性。將其應用到SVR、BP網絡中,通過對比驗證了LSTM網絡在預測模型中的優(yōu)越性。該模型在一定程度上提高了預測精度,可以將該方法進一步應用到風電機組其他狀態(tài)參數中,預測未來時刻的風電機組狀態(tài)參數值,為風電機組的早期故障預警提供更接近于真實值的數據。
參考文獻
[1]孫鵬, 李劍, 寇曉適,等.采用預測模型與模糊理論的風電機組狀態(tài)參數異常辨識方法[J].電力自動化設備, 2017, 37(8): 90-98.