改進偏最小二乘回歸在電力負荷預(yù)測中的應(yīng)用

2011-02-08 06:52:28季澤宇鄒文仲

電力需求側(cè)管理 2011年1期

季澤宇，袁越，鄒文仲

（河海大學(xué) 能源與電氣學(xué)院，南京 210098）

中長期電力負荷預(yù)測通常通過以往的數(shù)據(jù)找出負荷的變化規(guī)律，從而分析負荷未來的變化趨勢［1—3］。這類方法主要有：回歸分析法、時間序列法、灰色預(yù)測法以及組合預(yù)測方法等［4—7］。其中，應(yīng)用最小二乘法的一般多元線性回歸方法簡單有效，被廣泛采用。但是在實際電力負荷分析過程中，由于自變量往往存在多重相關(guān)性且有時樣本容量較小，可能會造成回歸分析式不合實際而使預(yù)測誤差偏大，為此，偏最小二乘法得到了應(yīng)用［8］。

在一般的偏最小二乘法中，所有自變量都被保留，可以反映各個變量間的關(guān)系，但是，這一性質(zhì)并不一定能提高負荷預(yù)測結(jié)果的準確度，無用的自變量反而可能會引入誤差。由于傳統(tǒng)最小二乘的參數(shù)篩選方法往往基于數(shù)據(jù)總體符合線性正態(tài)分布誤差的模型假設(shè)，在更為復(fù)雜的偏最小二乘中無法應(yīng)用，所以，可以用非參數(shù)統(tǒng)計方法Bootstrap來解決此類問題。Bootstrap是一種基于數(shù)據(jù)模擬的統(tǒng)計方法，由美國斯坦福大學(xué)教授Efron于1979年提出［9—10］，應(yīng)用在偏最小二乘法的變量檢驗中可以去除非顯著變量因素，使模型更為簡潔、變量作用關(guān)系更為明確，同時預(yù)測精度得到提高。

本文使用偏最小二乘回歸預(yù)測中長期電力負荷，并針對其不足采用Bootstrap方法對回歸表達式中變量做出篩選。結(jié)果表明，經(jīng)過這種改進后，電力負荷預(yù)測結(jié)果更加準確，同時回歸表達式中負荷數(shù)據(jù)與其影響因素之間的關(guān)系也更為清晰。

1 偏最小二乘回歸模型及Bootstrap檢驗方法

1.1 偏最小二乘算法

電力負荷預(yù)測中，因變量只有電力負荷，只需采用多自變量與單因變量的偏最小二乘簡化算法［11—12］。設(shè)自變量x數(shù)目為m，因變量y數(shù)目為1，統(tǒng)計的樣本數(shù)（年數(shù)）為n，由此構(gòu)成統(tǒng)計數(shù)據(jù)表X=（x1，x2，…，xm）n×m，Y=（y）n×1。

從X中提取主成分th，h=1，2，…，k，使之能夠滿足：①th包含原數(shù)據(jù)X變異信息盡可能最大；②th對Y有很好的解釋能力；③th加入后方程的預(yù)測能力有明顯改善。

提取的主成分之間相互獨立，且與因變量Y存在明顯的相關(guān)關(guān)系。分別作X、Y對th的回歸，而Y則可以表示為X的回歸形式，由此得出自變量與因變量之間的關(guān)系。從X中連續(xù)提取k個主成分th，直到回歸方程達到一個滿意的精度，同時保證樣本擾動誤差盡量小。這樣計算可以有效解決自變量的多重線性關(guān)系，得到比較準確的偏最小二乘回歸表達式。

1.2 偏最小二乘法計算過程

（1）數(shù)據(jù)標準化處理

（2）提取主成分th

式中：wh是Eh的一個軸，為單位向量，且有‖wh‖2=1。

為使t1能盡量多的代表E0中的變異信息，根據(jù)優(yōu)化方法，求解得

然后實施Eh以及Fh在th上的回歸

式中：Eh、Fh為殘差矩陣；ph、rh為回歸系數(shù)，并且滿足

由式（4）可以得到提取主成分后的殘差

由式（8）、式（2）可以將th改寫為E0的線性組合

（3）交叉有效性檢驗

每次新成分th都需檢驗其是否對方程的預(yù)測能力有明顯改進，以決定到底是否引入該成分。

設(shè)h個成分擬合后，第i個值y*i的擬合值為設(shè)去除樣本i，利用剩余的樣本提取h個成分回歸計算得到的表達式，預(yù)測出y*i的值為?y*h（-i）。定義

當(dāng)Q2h≥0.097 5時，則認為成分th對于預(yù)測能力的貢獻是顯著的，在表達式中引入這個成分，否則認為其帶來過多樣本點的擾動誤差，th被舍棄，同時停止主成分的提取。

（4）建立回歸表達式

重復(fù)步驟（2）、（3）連續(xù)提取成分th，并且每次對其進行交叉有效性檢驗，直到th不滿足檢驗條件，進入下一步驟。

若此時共提取k個主成分，則F0的回歸方程

根據(jù)式（1）進行變量標準化逆過程，得到原始值的回歸方程

1.3 Bootstrap原理

由于式（15）中模型參數(shù)的估計量具有非常復(fù)雜的非線性性質(zhì)，很難得到其在原假設(shè)下的精確分布，無法確定其參數(shù)的臨界值［13］。Bootstrap可以有效解決這個問題，它通過原始數(shù)據(jù)中有放回地隨機抽取一定數(shù)量的觀測值，組成一個新樣本，計算出相應(yīng)參數(shù)值。經(jīng)過這樣的反復(fù)抽樣，在大量實驗下就可以得到反映這個數(shù)據(jù)集合的參數(shù)總體分布了。根據(jù)參數(shù)的這種分布可以得到在一定檢驗標準下參數(shù)的臨界值，對參數(shù)作檢驗，進而進行取舍。

1.4 Bootstrap參數(shù)檢驗過程

通過偏最小二乘計算得到式（15）后，對各個自變量參數(shù)進行檢驗，去除影響不顯著的因素。具體步驟如下：

（1）建立Bootstrap樣本

在初始數(shù)據(jù)中用蒙特卡洛方法隨機產(chǎn)生一個與原始樣本類似的樣本。抽樣時，每次記錄一組數(shù)值后都再放回數(shù)據(jù)表。如此記錄nB（nB＜n）組數(shù)據(jù)，得到的新樣本即為Bootstrap樣本，樣本容量為nB。

（2）樣本回歸

以得到的Bootstrap樣本做偏最小二乘回歸，成分數(shù)取原始數(shù)據(jù)回歸所用成分數(shù)k，得到

（3）重復(fù)取樣

重復(fù)步驟（1）、（2）共B次（B取一個較大的數(shù)），得到B組系數(shù)

（4）計算臨界值

（5）參數(shù)檢驗判斷

如果|βi|＞ δi，則認為變量xi作用顯著，否則認為xi作用不顯著，未通過檢驗。

（6）重新進行回歸計算

若自變量不顯著，去掉此變量后更新原始數(shù)據(jù)，重新進行偏最小二乘回歸計算，否則，結(jié)束回歸分析，根據(jù)式（16）得到原始值回歸方程。

2 算例分析一

2.1 原始數(shù)據(jù)

以江蘇省2000—2009年農(nóng)村用電量及相關(guān)因素的統(tǒng)計量為例［14］，分別運用一般最小二乘法、帶變量篩選的逐步回歸法、偏最小二乘法以及帶變量篩選的Bootstrap檢驗偏最小二乘法對2000—2007年的數(shù)據(jù)進行分析，以2008、2009年的數(shù)據(jù)比較各種方法的預(yù)測精度。

表1為原始數(shù)據(jù)（此處只顯示2位小數(shù)），其中：因變量為農(nóng)村用電總量y；自變量為農(nóng)村人口x1、農(nóng)村家庭人均收入x2、第一產(chǎn)業(yè)總值x3、第二產(chǎn)業(yè)總值x4、第三產(chǎn)業(yè)總值x5、農(nóng)林牧漁總產(chǎn)值x6、農(nóng)作物播種面積x7。

表1 江蘇省2000—2009年農(nóng)村用電量及其因素統(tǒng)計

對原始數(shù)據(jù)進行相關(guān)性分析，結(jié)果如表2所示?？梢园l(fā)現(xiàn)，各自變量間存在明顯的相關(guān)性。本算例中，分析的樣本數(shù)只有8個，而自變量多達7個，同時多重相關(guān)性嚴重，一般方法難以得到可靠的回歸結(jié)果。下面通過偏最小二乘回歸進行分析，計算在C++環(huán)境下實現(xiàn)。

2.2 偏最小二乘法分析

（1）提取成分t1，得

表2 各變量相關(guān)系數(shù)表

進行交叉有效性檢驗得Q2=0.908＞0.097 5，繼續(xù)運算。

（2）提取成分t2，得

可決系數(shù)R2=0.984。

進行交叉有效性檢驗得Q2=0.114＞0.097 5，繼續(xù)運算。

（3）提取成分t3，得

進行交叉有效性檢驗得Q2=-0.055＜0.097 5，停止運算。

（4）得出回歸方程

由上述分析可知，提取2個成分已經(jīng)足夠，如式（17）所示。

經(jīng)標準化逆過程，得到原始值回歸方程

這個表達式就是一般偏最小二乘法的結(jié)果，式中各項系數(shù)都為正，基本反映了變量的現(xiàn)實關(guān)系。

2.3 基于Bootstrap篩選變量的偏最小二乘分析

分析式（18）中的參數(shù)是否作用顯著：取Bootstrap樣本1 000個（B=1 000），樣本容量nB=7，按照檢驗水平α=0.1進行分析。計算相應(yīng)系數(shù)集合｛?βbi｝，元素排序后取第100（B×α）個元素作為臨界值。每次實驗臨界值有一定變化，但不影響判斷。α=0.1時，7個自變量標準值參數(shù)的Bootstrap檢驗結(jié)果如表3所示。

表3 7個自變量標準值參數(shù)的Bootstrap檢驗

由表3可知x1和x7沒有通過檢驗。在原始數(shù)據(jù)中剔除x1、x7，用偏最小二乘法做y關(guān)于x2～x6的回歸。

提取主成分t1，進行交叉有效性檢驗得Q2=0.944＞0.097 5。

提取主成分t2，進行交叉有效性檢驗得Q2=-1.513＜0.097 5。

所以這里只需提取一個主成分，得到

對于新的表達式，再次進行Bootstrap參數(shù)檢驗，B、nB、α取值與前一步相同，經(jīng)過試驗，得到臨界值如表4所示。

表4 5個自變量標準值參數(shù)的Bootstrap檢驗

所有參數(shù)都通過檢驗，化為原始值表達式

式（20）就是經(jīng)過Bootstrap檢驗的偏最小二乘法最終結(jié)果。

2.4 算例結(jié)果

采用一般最小二乘法分析統(tǒng)計數(shù)據(jù)，得

式中：自變量x5（省第三產(chǎn)業(yè)總值）和x6（農(nóng)林牧漁總產(chǎn)值）前的系數(shù)為負，顯然與事實不符。

采用逐步回歸法，篩選自變量，進行最小二乘回歸得

自變量只剩下x2（農(nóng)村家庭人均收入）和x7（農(nóng)作物播種面積），大量變量被去除，得不到變量間關(guān)系。

比較上述4種回歸分析方法，數(shù)據(jù)的擬合與預(yù)測結(jié)果如表5、表6所示，圖1為各方法對電量的擬合折線圖。

圖1 各方法擬合預(yù)測結(jié)果比較

表5 歷史數(shù)據(jù)擬合結(jié)果比較

表6 預(yù)測結(jié)果比較

綜合分析表5、表6以及圖1可以發(fā)現(xiàn)：一般最小二乘法的表達式實際意義不清晰，雖然在擬合階段誤差極小，但由于過分追求擬合，模型建立時大量吸收了各樣本的擾動誤差，在預(yù)測階段效果極差；逐步回歸法模型表達式變量比較少，實際變量的解釋能力較弱，擬合和預(yù)測效果都處于中等；偏最小二乘法的表達式物理意義清晰，但在本算例中，預(yù)測效果并沒有優(yōu)于逐步回歸法；經(jīng)過Bootstrap參數(shù)檢驗的偏最小二乘法，由于去除了部分不顯著的自變量，導(dǎo)致運算中可以從自變量中提取的主成份信息減少，致使擬合優(yōu)度下降，但是，減少的不顯著自變量同時也帶走大量噪聲，可提高數(shù)據(jù)間相關(guān)關(guān)系表述的準確性，使表達式物理意義更為清晰，有效提高預(yù)測準確度。

3 算例分析二

根據(jù)文獻［12］中的算例（具體數(shù)據(jù)見文獻），采用基于Bootstrap法的偏最小二乘法進行負荷預(yù)測分析，得到α=0.1時10個自變量標準值參數(shù)的Bootstrap檢驗結(jié)果，如表7所示。

表7 10個自變量標準值參數(shù)的Bootstrap檢驗

自變量x5和x10未能通過檢驗，去除這2個變量，得到新的偏最小二乘回歸表達式

與原有方法的擬合、預(yù)測結(jié)果進行比較，如表8所示。

表8 擬合預(yù)測結(jié)果比較

從此算例可以看出：經(jīng)過Bootstrap篩選后，回歸計算結(jié)果無論在擬合程度還是預(yù)測準確度上都得到了提高。實際上，當(dāng)采用多元回歸方法進行負荷預(yù)測時，自變量越多，需要采集的數(shù)據(jù)也就越多。偏最小二乘法雖然在樣本數(shù)量很少時仍能夠得到較好的回歸表達式，但是它并不能有效糾正采集大量數(shù)據(jù)時的統(tǒng)計錯誤，從而引入大量噪聲。Boot-strap篩選自變量，可以把偏離較嚴重的自變量刪除，進而得到更合理的結(jié)果。

4 結(jié)束語

電力負荷預(yù)測問題中，各變量經(jīng)常存在多重線性關(guān)系。當(dāng)存在數(shù)個自變量時，樣本數(shù)量往往顯得不夠充足。偏最小二乘法吸收所有自變量，可以很好地反映實際物理意義，能夠有效解決以上問題。然而，某些關(guān)系不顯著或者數(shù)據(jù)存在問題的自變量會使表達式精度下降。

針對偏最小二乘回歸方法在中長期電力負荷預(yù)測中的不足，提出基于Bootstrap篩選變量的改進算法，通過對2個算例的分析，驗證了該改進算法的可行性，結(jié)果表明該改進算法得到的預(yù)測結(jié)果更加精確，具有一定的應(yīng)用價值。

［1］康重慶，夏清，張伯明.電力系統(tǒng)負荷預(yù)測研究綜述與發(fā)展方向的探討［J］.電力系統(tǒng)自動化，2004，28（17）：1-11.

［2］羅治強，張焰，朱杰，等.中壓配電網(wǎng)中長期負荷預(yù)測實踐［J］.電力自動化設(shè)備，2003，23（3）：27-29.

［3］ Jia N X，Yokoyam R，Zhou Y C.A flexible long-term load forecasting approach based on new dynamic simulation theory — GSIM［J］.International Journal of Electrical Powerand Energy Systems，2001，23（7）：549-556.

［4］韋鋼，賀靜，張一塵.中長期電力負荷預(yù)測的盲數(shù)回歸方法［J］.高電壓技術(shù)，2005，31（2）：73-75.

［5］張慶寶，程浩忠，劉青山.基于最大熵原理的中長期負荷預(yù)測綜合模型的研究［J］.繼電器，2006，34（3），24-27.

［6］李翔，陳昊.基于時變參數(shù)模型的中長期負荷預(yù)測［J］.電力需求側(cè)管理，2009，11（2）：32-34.

［7］吳耀華.基于GM-GRNN的電力系統(tǒng)長期負荷預(yù)測［J］.繼電器，2007，35（6）：45-53.

［8］張恒喜，郭基聯(lián)，朱家元，等.小樣本多元數(shù)據(jù)分析方法及應(yīng)用［M］.西安：西北工業(yè)大學(xué)出版社，2002.

［9］ Bradley Efron，TibshiraniR J.An introduction to the boot-strap［M］.BocaRaton ：Chapman and Hall/CRC，1994.

［10］王惠文，吳載斌，孟潔.偏最小二乘回歸的線性與非線性方法［M］.北京：國防工業(yè)出版社，2006.

［11］王文圣，丁晶，趙玉龍，等.基于偏最小二乘回歸的年用電量預(yù)測研究［J］.中國電機工程學(xué)報，2003，23（10）：17-21.

［12］毛李帆，江岳春，龍瑞華，等.基于偏最小二乘回歸分析的中長期電力負荷預(yù)測［J］.電網(wǎng)技術(shù)，2008，32（19）：71-77.

［13］朱力行，許王莉.非參數(shù)蒙特卡洛檢驗及其應(yīng)用［M］.北京：科學(xué)出版社，2008.

［14］中華人民共和國國家統(tǒng)計局.中國統(tǒng)計年鑒2009［M］.北京：中國統(tǒng)計出版社，2009.

［15］費宇，潘建新.線性混合效應(yīng)模型影響分析［M］.北京：科學(xué)出版社，2005.

［16］ L沃塞曼.現(xiàn)代非參數(shù)統(tǒng)計［M］.北京：科學(xué)出版社，2008.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看