• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于貝葉斯模型組合的隨機(jī)森林預(yù)測(cè)方法

      2019-04-13 13:23董娜常建芳吳愛國(guó)
      關(guān)鍵詞:隨機(jī)森林

      董娜 常建芳 吳愛國(guó)

      摘 ??要:為了能夠精準(zhǔn)可靠地估計(jì)太陽(yáng)能輻照度,本文提出一種基于貝葉斯模型組合的隨機(jī)森林算法用于太陽(yáng)能輻照度預(yù)測(cè). 首先,引入K-means聚類和K折交叉驗(yàn)證將氣象數(shù)據(jù)訓(xùn)練集生成多個(gè)訓(xùn)練子集,以增加訓(xùn)練子集的多樣性并保證均勻采樣. 其次,將隨機(jī)森林作為基學(xué)習(xí)器建立集成學(xué)習(xí)預(yù)測(cè)模型,導(dǎo)入訓(xùn)練子集并訓(xùn)練各個(gè)隨機(jī)森林. 之后,依據(jù)各個(gè)隨機(jī)森林在驗(yàn)證集上的預(yù)測(cè)性能,采用貝葉斯模型組合算法制定組合策略. 個(gè)體隨機(jī)森林在測(cè)試集上的預(yù)測(cè)值經(jīng)過模型組合策略得到最終輸出. 最后,基于氣象實(shí)測(cè)數(shù)據(jù)建立仿真實(shí)驗(yàn),并引入其他四種預(yù)測(cè)方法進(jìn)行對(duì)比仿真研究,通過實(shí)驗(yàn)結(jié)果驗(yàn)證了文中所提出預(yù)測(cè)方法在太陽(yáng)能輻照度預(yù)測(cè)問題中的準(zhǔn)確性和可靠性.

      關(guān)鍵詞:K均值聚類;交叉驗(yàn)證;隨機(jī)森林;貝葉斯模型組合;太陽(yáng)能輻照度

      中圖分類號(hào):TP181 ????????????????????????????????文獻(xiàn)標(biāo)志碼:A

      Random Forest Prediction Method Based on Bayesian Model Combination

      DONG Na,CHANG Jianfang,WU Aiguo

      (School of Electrical and Information Engineering,Tianjin University,Tianjin 300072,China)

      Abstract: To accurately and reliably estimate the solar irradiance, a random forest algorithm was proposed based on the Bayesian model combination for solar irradiance prediction. Firstly, the K-means clustering and K-fold cross validation were introduced to generate multiple training subsets so as to increase the diversity of training subsets and to ensure uniform sampling. Secondly, the random forests were defined as base learners to establish an ensemble learning prediction model,with each training subset being used to train the corresponding individual random forest. Then, according to the prediction performance of each individual random forest on the verification set, the Bayesian model combination algorithm was applied to formulate the combination strategy. The prediction values of individual random forest on the test set were fused to the final output through the model combination strategy. Finally, the proposed method was applied to solve the solar irradiance prediction problem. Simulation experiments were carried out by measured meteorological data. Other four kinds of prediction methods were also introduced to establish the contrast experiments,and the accuracy and reliability of the proposed method in the solar irradiance prediction were verified by comparison results.

      Key words: K-means clustering;cross validation;random forest;Bayesian model combination;solar irradiance

      太陽(yáng)能在光熱領(lǐng)域和光電領(lǐng)域被廣泛應(yīng)用并被視為最佳代替能源. 季節(jié)、氣候、云層密度等氣候因素引起太陽(yáng)能輻射量的不確定性制約了其應(yīng)用領(lǐng)域的發(fā)展. 高精度的預(yù)測(cè)方法一直是太陽(yáng)能預(yù)測(cè)研究的熱點(diǎn)[1-2].

      當(dāng)前,太陽(yáng)能輻照度的預(yù)測(cè)研究主要是使用支持向量機(jī)[3-6] (SVM)和人工神經(jīng)網(wǎng)絡(luò)[7-9](ANN)算法. 這類學(xué)習(xí)算法難于平衡訓(xùn)練集的訓(xùn)練誤差和測(cè)試集的泛化誤差之間的關(guān)系[10],在訓(xùn)練過程中容易出現(xiàn)過擬合或欠擬合的現(xiàn)象. 然而,在太陽(yáng)能供熱系統(tǒng)的熱水供應(yīng)量估計(jì)研究中,保證預(yù)測(cè)精度的同時(shí)預(yù)測(cè)結(jié)果的可靠性顯得更為重要[11]. 集成學(xué)習(xí)為提

      高預(yù)測(cè)結(jié)果的可靠性提供了思路. 集成學(xué)習(xí)(ensemble learning,EL)[12]將多個(gè)基學(xué)習(xí)器組合在一起,??色@得比單個(gè)基學(xué)習(xí)器更顯著的泛化性能和可靠性.

      本文提出一種基于貝葉斯模型組合的隨機(jī)森林預(yù)測(cè)方法(Bayesian model combination-ensemble learning,BMC-EL)用于太陽(yáng)能輻照度預(yù)測(cè),使用隨機(jī)森林作為基學(xué)習(xí)器建立集成學(xué)習(xí)模型. 首先引入K-means聚類[13]和K折交叉驗(yàn)證[14]將氣象數(shù)據(jù)訓(xùn)練集劃分為多組訓(xùn)練子集,以增加基學(xué)習(xí)器輸入樣本的多樣性. 其次導(dǎo)入訓(xùn)練子集并訓(xùn)練各個(gè)隨機(jī)森林. 之后,依據(jù)個(gè)體隨機(jī)森林在驗(yàn)證集上的預(yù)測(cè)精度,采用貝葉斯模型組合[15]算法制定個(gè)體隨機(jī)森林的組合策略. 最后將各個(gè)隨機(jī)森林在測(cè)試集上的預(yù)測(cè)輸出依據(jù)模型組合策略得到最終太陽(yáng)能輻照度預(yù)

      測(cè)值.

      使用美國(guó)氣象協(xié)會(huì)2013-2014年太陽(yáng)能預(yù)測(cè)競(jìng)賽數(shù)據(jù)[16]作為數(shù)據(jù)集,使用經(jīng)典ANN、SVM 、Multikernel_SVM、K-means_RBF算法建立基于氣象數(shù)據(jù)的太陽(yáng)能輻照度預(yù)測(cè)對(duì)照實(shí)驗(yàn). 實(shí)驗(yàn)結(jié)果驗(yàn)證了提出的算法在太陽(yáng)能輻照度預(yù)測(cè)研究中的準(zhǔn)確性和可靠性.

      1 ??訓(xùn)練子集多樣性處理

      待組合基學(xué)習(xí)器之間的差異性比較顯著時(shí),集成學(xué)習(xí)模型會(huì)擁有更好的性能. 故增加訓(xùn)練子集的多樣性以提高基學(xué)習(xí)器輸入樣本的差異性. 基于氣象數(shù)據(jù)的太陽(yáng)能輻照度預(yù)測(cè)研究中,不同天氣狀況下氣象數(shù)據(jù)呈現(xiàn)差異性,然而傳統(tǒng)隨機(jī)采樣過程會(huì)導(dǎo)致訓(xùn)練子集中不同天氣狀況樣本分布不均勻. 針對(duì)上述問題,提出K-means聚類和K折交叉驗(yàn)證方法增加訓(xùn)練子集的多樣性,如圖1.(為了區(qū)別K-means聚類和K交叉驗(yàn)證的下標(biāo),后文中將K折交叉驗(yàn)證改為M折交叉驗(yàn)證)

      假設(shè)需要生成M個(gè)訓(xùn)練子集{D1,D2,…,DM}. 對(duì)K-means聚類生成的簇C1進(jìn)行M折交叉驗(yàn)證并隨機(jī)生成M個(gè)包{b1,b2,…,bM}. 將{b2,b3,…,bM}導(dǎo)入訓(xùn)練子集D1,將{b1,b3,…,bM}導(dǎo)入訓(xùn)練子集D2,依次將不同的M-1個(gè)包導(dǎo)入對(duì)應(yīng)的訓(xùn)練子集,直至將{b1,b2,…,bM-1}導(dǎo)入訓(xùn)練子集DM. 類似地,對(duì)簇{C1,C2,…,Ck}都進(jìn)行M折交叉驗(yàn)證,并分別將其不同的M-1個(gè)包導(dǎo)入訓(xùn)練子集{D1,D2,…,DM}.

      先聚類再交叉驗(yàn)證,可以使每個(gè)訓(xùn)練子集中都包含不同類型天氣對(duì)應(yīng)的氣象數(shù)據(jù),這保證了均勻采樣. 交叉驗(yàn)證方法劃分訓(xùn)練子集增加了訓(xùn)練子集的多樣性.

      2 ??隨機(jī)森林基學(xué)習(xí)器

      集成學(xué)習(xí)可以通過組合策略提高預(yù)測(cè)方法的可靠性. 隨機(jī)森林中回歸樹的剪枝操作可以有效降低過擬合的風(fēng)險(xiǎn),它簡(jiǎn)單高效,容易實(shí)現(xiàn),計(jì)算開銷小,在很多分類回歸問題中展現(xiàn)出強(qiáng)大的性能. 故本文采用隨機(jī)森林算法作為基學(xué)習(xí)器.

      本文采用CART回歸樹建立隨機(jī)森林的基學(xué)習(xí)器. 訓(xùn)練集D={(x1,y1),(x2,y2),(x3,y3),…,(xn,yn)},輸入樣本xi = (x1i,x2i,…,xZi)包含Z個(gè)屬性變量,輸出 Y = (y1,y2,…,yn)為連續(xù)值. 回歸樹的節(jié)點(diǎn)對(duì)樣本xi(1 < i < n)的屬性變量j設(shè)置切分點(diǎn)s,該輸入變量大于s劃分為一個(gè)區(qū)域,否則劃分到另一個(gè)區(qū)域. 對(duì)劃分得到的區(qū)域使用不同的屬性變量進(jìn)一步劃分,依據(jù)節(jié)點(diǎn)的切分點(diǎn)將輸入劃分為m個(gè)區(qū)域,分別記為R1,R2,…,Rm. 定義每個(gè)區(qū)域的輸出值分別為:c1,c2,…,cm. 則CART的模型為公式(1):

      由上式可得,優(yōu)化區(qū)域Rm的輸出值cm可以使得平方誤差最小化. 易得當(dāng)cm 為屬于Rm區(qū)域的輸入樣本對(duì)應(yīng)真實(shí)輸出值的均值時(shí),平方誤差E最優(yōu),即?觬m = ave(yi|xi∈Rm).

      假設(shè)選擇樣本中的變量x(j)為切分變量,節(jié)點(diǎn)取值s為切分點(diǎn). 輸入樣本中變量j與切分點(diǎn)s比較就可以得到區(qū)域R1(j,s)={x|x(j)≤s}和區(qū)域R2(j,s)={x|x(j)>s}. 當(dāng)j和s設(shè)為確定值時(shí),區(qū)域R1(j,s)和R2(j,s)包含的樣本也確定. 故需要確定每個(gè)區(qū)域的輸出值c1和c2使各自區(qū)間上的平方差最小,如式(3):

      則1 = ave(yi|xi∈R1(j,s)),?觬2 = ave(yi|xi∈R2(j,s)).然后遍歷樣本中所有的變量,不同切分變量的最優(yōu)切分點(diǎn)s得到的平方誤差最小時(shí)記為最優(yōu)切分變量j. 類似的,對(duì)切分好的區(qū)域進(jìn)一步劃分,求取最優(yōu)的切分變量和切分點(diǎn),最終得到回歸樹f(x) = ■cm I(x∈Rm).

      3 ??貝葉斯模型組合

      3.1 ??貝葉斯模型平均

      貝葉斯模型平均(Bayesian model averaging,BMA)是為解決模型的不確定性而提出的. 它是通過模型在驗(yàn)證集上預(yù)測(cè)精度的后驗(yàn)概率作為模型的權(quán)重,對(duì)多個(gè)隨機(jī)森林模型賦以合理的權(quán)重,解決單個(gè)模型的不確定性和單一性,將多個(gè)模型組合到一起的降低風(fēng)險(xiǎn)的方法.

      給定數(shù)據(jù)集D,樣本di是由基學(xué)習(xí)器隨機(jī)森林的輸出值xi和太陽(yáng)能輻照度真實(shí)值yi組成. 模型空間H是由有限個(gè)個(gè)體假設(shè)近似,h作為模型空間的個(gè)體假設(shè). 在模型空間和數(shù)據(jù)集D條件下yi的后驗(yàn)分布為:

      式中:p(yi|xi,D,H)為所有個(gè)體假設(shè)估計(jì)yi的后驗(yàn)分布加權(quán)平均值, 其中,p(yi|xi,h) = p(yi|θk,h,D)×

      p(θk|h,D)dθk為假設(shè)空間h對(duì)yi的預(yù)測(cè)分布, θk是

      個(gè)體假設(shè)h對(duì)應(yīng)的參數(shù)向量.

      通過BMA,數(shù)據(jù)集D下個(gè)體假設(shè)h的后驗(yàn)概率(h假設(shè)作為數(shù)據(jù)生成模型的后驗(yàn)概率)p(h|D)可以由式(5)計(jì)算:

      p(h).p(D|h)=p(D|θk,h)p(θk|h)dθk是個(gè)體假設(shè)h的積分似然估計(jì),p(θk|h)是h對(duì)應(yīng)的向量參數(shù)θk的先驗(yàn)分布,p(D|θk,h)是似然估計(jì). p(h)是個(gè)體假設(shè)h的先驗(yàn)概率. 雖然集成學(xué)習(xí)方法中引入訓(xùn)練集采樣擾動(dòng)和屬性擾動(dòng)增加基學(xué)習(xí)器的差異性,但是為保證所有基學(xué)習(xí)器都有較高的預(yù)測(cè)性能,基學(xué)習(xí)器的初始參數(shù)設(shè)置并無(wú)差異,故先驗(yàn)概率p(h)無(wú)需“偏袒”某一個(gè)個(gè)體假設(shè),本文中p(h)=(k為假設(shè)空間中個(gè)體假設(shè)的數(shù)量).

      3.2 ??貝葉斯模型組合

      貝葉斯方法在理論上是最優(yōu)的,并且在許多任務(wù)中具有很好的性能. 貝葉斯模型平均也被視為集成學(xué)習(xí)中結(jié)合基學(xué)習(xí)器的一種標(biāo)準(zhǔn)方法. 然而在貝葉斯模型平均中,積分似然估計(jì)的計(jì)算方式容易使輕微精度提升的假設(shè)獲得極高的權(quán)重[16],貝葉斯模型平均比stacking更容易過擬合,對(duì)模型的近似誤差非常敏感,且表現(xiàn)性能更差[17].

      為了在太陽(yáng)能輻照度預(yù)測(cè)試驗(yàn)中更加高效地獲得集成學(xué)習(xí)的固有優(yōu)勢(shì),組合策略應(yīng)該側(cè)重地反映各個(gè)假設(shè)空間的優(yōu)勢(shì)互補(bǔ),而不僅僅是通過貝葉斯模型平均找出最優(yōu)的假設(shè).

      針對(duì)上述問題,為貝葉斯模型平均增加假設(shè)空間E建立貝葉斯模型組合,將公式(4)修改為式(6):

      p(yi|xi,D,H,E) =p(yi|xi,H,e)p(e|D) ???(6)

      式中:e是組合模型空間E中的個(gè)體假設(shè)模型. 貝葉斯模型平均和貝葉斯模型組合示意圖如圖2和圖3所示.

      這樣的修正克服了貝葉斯模型平均給個(gè)體假設(shè)h所有權(quán)重的傾向.

      4 ???基于貝葉斯模型組合的隨機(jī)森林預(yù)測(cè)

      方法

      4.1 ??預(yù)測(cè)方法流程

      基于貝葉斯模型組合的隨機(jī)森林預(yù)測(cè)方法流程圖如圖4所示.

      基于貝葉斯模型組合的隨機(jī)森林預(yù)測(cè)方法在太陽(yáng)能輻照度預(yù)測(cè)實(shí)驗(yàn)中的具體實(shí)施步驟如下.

      1)首先采用公式x* = 將原始數(shù)據(jù)歸一化處理,對(duì)訓(xùn)練集進(jìn)行K-means聚類操作生成簇劃分{c1,c2,…,ck}. 對(duì)每個(gè)簇ck進(jìn)行M折交叉驗(yàn)證,并依次生成k個(gè)訓(xùn)練子集{D1,D2,…,Dk}. 采用K-means聚類和M折交叉驗(yàn)證劃分訓(xùn)練子集,同時(shí)保證了訓(xùn)練子集的多樣性和均勻采樣.

      2)使用多個(gè)CART回歸樹構(gòu)建隨機(jī)森林,將k個(gè)訓(xùn)練子集訓(xùn)練k個(gè)隨機(jī)森林算法.

      3)向訓(xùn)練好的k組隨機(jī)森林導(dǎo)入驗(yàn)證集,輸出k組預(yù)測(cè)輸出值(y1,y2,…,yk). 假設(shè)驗(yàn)證集的真實(shí)輸出值為y,構(gòu)建矩陣(y,y1,y2,…,yk)并導(dǎo)入貝葉斯模型組合方法,根據(jù)k組隨機(jī)森林在驗(yàn)證集的預(yù)測(cè)性能輸出模型組合策略.

      4)向訓(xùn)練好的k組隨機(jī)森林導(dǎo)入測(cè)試集,個(gè)體隨機(jī)森林輸出各自模型預(yù)測(cè)值(y1,y2,…,yk),則集成學(xué)習(xí)方法的預(yù)測(cè)輸出為p(Y|yk,D,H,E)=p(yi|xi,H,e)p(e|D).

      4.2 ??預(yù)測(cè)方法的復(fù)雜度分析

      CART回歸樹在尋找切分節(jié)點(diǎn)時(shí)需要遍歷當(dāng)前特征的所有可能取值. 設(shè)數(shù)據(jù)樣本具有F個(gè)特征,每個(gè)特征有N個(gè)切分點(diǎn),CART回歸樹共生成

      S個(gè)內(nèi)部節(jié)點(diǎn),則CART回歸樹的時(shí)間復(fù)雜度為

      O(F*N*S).

      設(shè)每個(gè)隨機(jī)森林基學(xué)習(xí)器中包含M個(gè)CART回歸樹,集成學(xué)習(xí)預(yù)測(cè)方法中共包含了K個(gè)基學(xué)習(xí)器,則集成學(xué)習(xí)的時(shí)間復(fù)雜度為O(F*N*S*K*M).

      在訓(xùn)練子集采樣部分,設(shè)k個(gè)聚類中心,每個(gè)樣本包含F(xiàn)個(gè)特征,聚類中心的迭代次數(shù)為t,則K-means聚類的時(shí)間復(fù)雜度為O(k*F*t). 設(shè)每個(gè)簇包含m個(gè)樣本,則訓(xùn)練子集采樣過程的時(shí)間復(fù)雜度為O(k*F*t+m*M).

      貝葉斯模型平均包含h個(gè)體假設(shè),驗(yàn)證集包

      含c個(gè)樣本,則貝葉斯模型平均的算法復(fù)雜度為

      O(c*h). 貝葉斯模型組合的假設(shè)空間E包含e個(gè)體假設(shè),則貝葉斯模型組合方法的時(shí)間復(fù)雜度為

      O(c*h*e).

      由于切分點(diǎn)個(gè)數(shù)N較大,故集成學(xué)習(xí)的時(shí)間復(fù)雜度遠(yuǎn)大于訓(xùn)練子集采樣和貝葉斯模型組合. 所以基于貝葉斯模型組合的隨機(jī)森林預(yù)測(cè)方法的時(shí)間復(fù)雜度大于集成學(xué)習(xí)方法,訓(xùn)練子集采樣和貝葉斯模型組合的時(shí)間復(fù)雜度相對(duì)較小.

      5 ??太陽(yáng)能輻照度預(yù)測(cè)實(shí)驗(yàn)

      5.1 ??性能指標(biāo)

      均方誤差(MSE)和絕對(duì)平均誤差(MAE)作為太陽(yáng)能輻照度預(yù)測(cè)的誤差評(píng)價(jià)指標(biāo),本文額外定義了平均誤差率(Average Error Rate,AER)和誤差率小于0.1的預(yù)測(cè)成功率(Rate of success,RS)兩個(gè)評(píng)價(jià)指標(biāo),如公式(7)~(9):

      式中:Ypre是預(yù)測(cè)輸出;Yreal是真實(shí)值;Er是每個(gè)預(yù)測(cè)樣本的誤差率;AER為平均誤差率;Num為預(yù)測(cè)結(jié)果的樣本數(shù);RS表示精確預(yù)測(cè)樣本的百分比,它反映了預(yù)測(cè)結(jié)果的可靠性.

      5.2 ??訓(xùn)練子集多樣性

      將原始?xì)庀髷?shù)據(jù)歸一化處理,然后對(duì)訓(xùn)練集進(jìn)行K-means聚類操作. 太陽(yáng)能輻照度預(yù)測(cè)實(shí)驗(yàn)中將訓(xùn)練集分為10個(gè)簇{C1,C2,…,C10}. 取輸入樣本的dswrf_sfc,dswrf_sfc,tmp_sfc三個(gè)屬性建立三維坐標(biāo)系,簇中的樣本在坐標(biāo)系中分布如圖5所示. 屬性參數(shù)范圍經(jīng)過歸一化處理到[-1,1]區(qū)間.

      分別對(duì)上述劃分的簇進(jìn)行10折交叉驗(yàn)證,將其中不同的9個(gè)包分別導(dǎo)入各個(gè)訓(xùn)練子集. 4個(gè)訓(xùn)練子集的氣象樣本分布如圖6所示. 由于聚類后又采用10折交叉驗(yàn)證,訓(xùn)練子集的樣本量為訓(xùn)練集的90%. 由4個(gè)訓(xùn)練子集的樣本分布圖可得,采樣過程并未影響不同天氣狀況的樣本分布. K-means聚類和M折交叉驗(yàn)證結(jié)合的采樣過程不僅保證了均勻采樣,同時(shí)增加了訓(xùn)練子集的差異性.

      5.3 ??模型誤差估計(jì)及參數(shù)設(shè)置

      隨機(jī)森林回歸模型是通過袋外數(shù)據(jù)(OOB)來(lái)估計(jì)模型誤差的. 隨機(jī)森林回歸模型中Bagging采樣理想狀態(tài)下會(huì)有37%的數(shù)據(jù)未被抽取,則將這些樣本進(jìn)行模型的誤差估計(jì). 由于隨機(jī)森林算法本身的屬性擾動(dòng),只有當(dāng)CART回歸樹的數(shù)量達(dá)到一定量級(jí)時(shí),隨機(jī)森林才會(huì)收斂到更低的泛化誤差. 將所有氣象預(yù)報(bào)樣本導(dǎo)入單個(gè)隨機(jī)森林算法,記錄OOB誤差與回歸樹數(shù)目之間的關(guān)系如圖7所示.

      由圖7可知,當(dāng)CART回歸樹的數(shù)量到達(dá)200時(shí),隨機(jī)森林的OOB誤差趨于收斂. 將太陽(yáng)能輻照度預(yù)測(cè)實(shí)驗(yàn)中隨機(jī)森林模型CART回歸樹數(shù)目設(shè)置為200. 在太陽(yáng)能輻照度仿真試驗(yàn)中,集成學(xué)習(xí)模型設(shè)置10組隨機(jī)森林,對(duì)應(yīng)上述10組訓(xùn)練子集,對(duì)照實(shí)驗(yàn)參數(shù)設(shè)置如表1所示. 對(duì)照實(shí)驗(yàn)中EL預(yù)測(cè)方法訓(xùn)練子集使用完整訓(xùn)練集,模型組合策略采用貝葉斯模型平均,其他設(shè)置與貝葉斯模型組合的隨機(jī)森林預(yù)測(cè)方法一致.

      5.4 ??實(shí)驗(yàn)結(jié)果

      本章將HOBA中尺度站的太陽(yáng)能輻照度和周圍GEFS站點(diǎn)的氣象數(shù)據(jù)作為數(shù)據(jù)集(2008年之后的太陽(yáng)能輻照度未公開),1994年1月1日~2004年12月31日的樣本作為訓(xùn)練集. 使用隨機(jī)函數(shù)(randvector,MATLAB)為聚類和交叉驗(yàn)證處理過的訓(xùn)練子集重新排序,緩解相似的氣象預(yù)測(cè)樣本在訓(xùn)練時(shí)接連出現(xiàn). 將2005年1月1日~2006年12月31日的樣本作為驗(yàn)證集. BMC-EL基于驗(yàn)證集制定模型組合策略,對(duì)照實(shí)驗(yàn)中利用驗(yàn)證集優(yōu)化預(yù)測(cè)模型的超參數(shù). 將2007年全年的氣象預(yù)報(bào)樣本作為測(cè)試集,用于太陽(yáng)能輻照度預(yù)測(cè)實(shí)驗(yàn). 對(duì)照實(shí)驗(yàn)中各類預(yù)測(cè)方法的太陽(yáng)能輻照度輸出值如圖8所示.

      圖8中,對(duì)照實(shí)驗(yàn)中各類預(yù)測(cè)方法的預(yù)測(cè)曲線和真實(shí)曲線有相近的變化趨勢(shì). 然而各類預(yù)測(cè)方法在太陽(yáng)能輻照度連續(xù)波動(dòng)較大的樣本出現(xiàn)較大的誤差. SVM和Multikernel-SVM算法在太陽(yáng)能輻照度預(yù)測(cè)中分別出現(xiàn)了過擬合或欠擬合. 其中,BMC-EL雖然也出現(xiàn)了較明顯的偏差,但由于貝葉斯模型組合策略,其預(yù)測(cè)曲線更接近真實(shí)曲線.

      為了直觀地展示各類算法的預(yù)測(cè)誤差,對(duì)照實(shí)驗(yàn)中太陽(yáng)能輻照度預(yù)測(cè)輸出的誤差曲線如圖9所示,其中BMC-EL方法預(yù)測(cè)誤差曲線波動(dòng)最小. 各類預(yù)測(cè)方法在2007年7月30日的太陽(yáng)能輻照度預(yù)測(cè)時(shí)出現(xiàn)極大的偏差,最大的預(yù)測(cè)偏差近20 MJ·m-2,然而BMC-EL此處的偏差略小于10 MJ·m-2. 由于貝葉斯模型組合是從不同的模型空間中選擇最好的模型組合策略,故BMC-EL算法在一些較難預(yù)測(cè)的樣本上依然保證了穩(wěn)定的預(yù)測(cè)精度. 貝葉斯模型組合策略極大地提高了預(yù)測(cè)方法的可靠性.

      在坐標(biāo)系中繪制y = x的直線表示預(yù)測(cè)輻照度和真實(shí)輻照度完全相同. 在散點(diǎn)圖中樣本點(diǎn)距離y = x直線的距離越遠(yuǎn)則誤差越大. 將各類預(yù)測(cè)方法在測(cè)試集上的預(yù)測(cè)輸出和真實(shí)輸出繪制到坐標(biāo)系中,如圖10所示.

      圖10中BMC-EL預(yù)測(cè)方法對(duì)應(yīng)的散點(diǎn)更加集中,并且更加貼近于y=x直線. 在BMC-EL的預(yù)測(cè)樣本中,在太陽(yáng)能較為豐富的氣象條件下(晴,無(wú)云)散點(diǎn)最為集中,預(yù)測(cè)精度最高;太陽(yáng)能輻照度匱乏的天氣(陰,雨,多云,儀器無(wú)讀數(shù))包含了復(fù)雜的非線性,各類預(yù)測(cè)方法在氣象條件糟糕的樣本中都出現(xiàn)較大的偏差,而BMC-EL在這類樣本點(diǎn)的預(yù)測(cè)偏差最小,它通過貝葉斯模型組合策略有效地提高了預(yù)測(cè)方法的可靠性.

      各類預(yù)測(cè)方法在測(cè)試集在不同月份的平均性能指標(biāo)如表2所示.

      綜述太陽(yáng)能輻照度預(yù)測(cè)實(shí)驗(yàn)結(jié)果,基于貝葉斯模型組合的隨機(jī)森林預(yù)測(cè)方法在太陽(yáng)能輻照度預(yù)測(cè)研究中具有非常好的預(yù)測(cè)性能,可靠性強(qiáng),對(duì)不同的天氣狀態(tài)下的太陽(yáng)能輻照度都能實(shí)現(xiàn)精確可靠的預(yù)測(cè).

      6 ??總 ??結(jié)

      本文提出一種基于貝葉斯模型組合的隨機(jī)森林方法用于太陽(yáng)能輻照度預(yù)測(cè),首先引入K-means聚類和M折交叉驗(yàn)證將氣象數(shù)據(jù)訓(xùn)練集生成多組彼此相交且不相同的訓(xùn)練子集,以增加隨機(jī)森林輸入樣本的多樣性. 其次將多組訓(xùn)練子集導(dǎo)入并訓(xùn)練集成學(xué)習(xí)模型中的個(gè)體隨機(jī)森林. 之后,將多組隨機(jī)森林在驗(yàn)證集上的輸出結(jié)果輸入貝葉斯模型組合算法,依據(jù)驗(yàn)證集上預(yù)測(cè)性能的后驗(yàn)分布制定隨機(jī)森林模型的組合策略. 最后各個(gè)隨機(jī)森林在測(cè)試集上的預(yù)測(cè)輸出經(jīng)模型組合策略輸出太陽(yáng)能輻照度預(yù)測(cè)值. 在太陽(yáng)能仿真實(shí)驗(yàn)中,BMC-EL方法通過增加貝葉斯模型組合方法顯著減少了單個(gè)隨機(jī)森林算法的不確定性,增加了太陽(yáng)能預(yù)測(cè)輸出的可靠性. 多組輻照度預(yù)測(cè)實(shí)驗(yàn)結(jié)果證明了所提出的預(yù)測(cè)方法預(yù)測(cè)精度高,可靠性強(qiáng),可以精確可靠地預(yù)測(cè)不同氣象環(huán)境中的太陽(yáng)能輻照度.

      參考文獻(xiàn)

      [1] ???田翠霞,黃敏,朱啟兵. 基于EMD-LMD-LSSVM聯(lián)合模型的逐時(shí)太陽(yáng)輻照度預(yù)測(cè)[J]. 太陽(yáng)能學(xué)報(bào),2018,39(2):504—512.

      TIAN C X,HUANG M,ZHU Q B. Hourly solar irradiance forecast based on EMD-LMD-LSSVM joint model[J]. Acta Energiae Solaris Sinica,2018,39(2):504—512.(In Chinese)

      [2] ???路志英,任一墨,葛路琨. 基于樣條估計(jì)分位數(shù)回歸的光伏功率回歸模型[J]. 湖南大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,44(10):91—98.

      LU Z Y,REN Y M,GE L K. Photovoltaic power regression model based on spline estimation and quantile regression[J]. Journal of Hunan University (Natural Sciences),2017,44(10):91—98.(In Chinese)

      [3] ???YANG X,JIANG F,LIU H. Short-term solar radiation prediction based on SVM with similar data[C]// Renewable Power Generation Conference. IET,2014:1.11—1.11.

      [4] ???GUO W,MINGJIA L I,TAO L I,et al. Parameter identification of Hammerstein ARMAX model based on APSO-WLSSVM algorithm[J]. China Science Paper,2018,13(2):136—142.

      [5] ???ALAM S,KANG M,PYUN J Y,et al. Performance of classification based on PCA,linear SVM,and multi-kernel SVM[C]//Eighth International Conference on Ubiquitous and Future Networks. IEEE,2016:987—989.

      [6] ???ZHOU Y,CUI X,HU Q,et al. Improved multi-kernel SVM for multi-modal and imbalanced dialogue act classification[C]//International Joint Conference on Neural Networks. IEEE,2015:1—8.

      [7] ???RABBI K M,NANDI I,SALEH A S,et al. Prediction of solar irradiation in Bangladesh using artificial neural network (ANN) and data mapping using GIS technology[C]//2016 4th International Conference on the Development in the in Renewable Energy Technology(ICDRET). IEEE,2016:1—6.

      [8] ???ANAMIKA,KUMAR N,AKELLA A K. Prediction and efficiency evaluation of solar energy resources by using mixed ANN and DEA approaches[C]// Pes General Meeting | Conference & Exposition. IEEE,2014:1—5.

      [9] ???YADAV A K,MALIK H,CHANDEL S S. ANN based prediction of daily global solar radiation for photovoltaics applications[C]//India Conference. IEEE,2016:1—5.

      [10] ?CHEN L G,CHIANG H D,DONG N,et al. Group-based chaos genetic algorithm and non-linear ensemble of neural networks for short-term load forecasting[J]. Iet Generation Transmission & Distribution,2016,10(6):1440—1447.

      [11] ?BAILI H,LI Y F. Online reliability prediction of energy systems with wind generation[C]//International Midwest Symposium on Circuits and Systems. IEEE,2016:1—4.

      [12] KROGH A,VEDELSBY J. Neural network ensembles,cross validation and active learning[C]//International Conference on Neural Information Processing Systems. MIT Press,1994:231—238.

      [13] ?ALOISE D,DESHPANDE A,HANSEN P,et al. NP-hardness of Euclidean sum-of-squares clustering[J]. Machine Learning,2009,75(2):245—248.

      [14] ?劉芳,夏洪山,艾軍,等. 基于氧化動(dòng)態(tài)模型的瀝青熱氧老化性能預(yù)測(cè)[J]. 湖南大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,45(1):136—141.

      LIU F,XIA H S,AI J,et al. Prediction of asphalt thermal oxidative aging performance based on oxidation dynamic model[J]. Journal of Hunan University (Natural Sciences),2018,45(1): 136—141. (In Chinese)

      [15] ?MONTEIH K,CARROLL J L,SEPPI K,et al. Turning Bayesian model averaging into Bayesian model combination[C]//International Joint Conference on Neural Networks. IEEE,2011:2657—2663.

      [16] AMS 2013-2014 Solar energy prediction contest,forecast daily solar energy with an ensemble of weather models[EB/OL]. https://www.kaggle.com/c/ams-2014-solar-energy-prediction-contest.

      [17] ?CLARKE B. Comparing Bayes model averaging and stacking when model approximation error cannot be ignored[J]. Journal of Machine Learning Research,2003,4(4):683—712.

      猜你喜歡
      隨機(jī)森林
      隨機(jī)森林算法在中藥指紋圖譜中的應(yīng)用:以不同品牌夏桑菊顆粒指紋圖譜分析為例
      基于隨機(jī)森林的登革熱時(shí)空擴(kuò)散影響因子等級(jí)體系挖掘
      基于隨機(jī)森林的HTTP異常檢測(cè)
      個(gè)人信用評(píng)分模型比較數(shù)據(jù)挖掘分析
      隨機(jī)森林在棉蚜蟲害等級(jí)預(yù)測(cè)中的應(yīng)用
      基于二次隨機(jī)森林的不平衡數(shù)據(jù)分類算法
      拱壩變形監(jiān)測(cè)預(yù)報(bào)的隨機(jī)森林模型及應(yīng)用
      基于隨機(jī)森林算法的飛機(jī)發(fā)動(dòng)機(jī)故障診斷方法的研究
      基于奇異熵和隨機(jī)森林的人臉識(shí)別
      基于隨機(jī)森林算法的B2B客戶分級(jí)系統(tǒng)的設(shè)計(jì)
      绵竹市| 张家港市| 沁水县| 无为县| 观塘区| 揭东县| 迁西县| 延津县| 射阳县| 玉林市| 广水市| 高州市| 甘谷县| 慈溪市| 大石桥市| 北辰区| 同德县| 阳泉市| 中阳县| 宝山区| 西丰县| 乐都县| 张家界市| 永和县| 达州市| 杭锦后旗| 南郑县| 彭山县| 峨山| 亚东县| 嘉祥县| 长寿区| 霸州市| 中卫市| 英吉沙县| 昌乐县| 阜南县| 西乌珠穆沁旗| 新干县| 黔南| 偃师市|