季澤宇,袁 越,鄒文仲
(河海大學(xué) 能源與電氣學(xué)院,南京 210098)
中長期電力負荷預(yù)測通常通過以往的數(shù)據(jù)找出負荷的變化規(guī)律,從而分析負荷未來的變化趨勢[1—3]。這類方法主要有:回歸分析法、時間序列法、灰色預(yù)測法以及組合預(yù)測方法等[4—7]。其中,應(yīng)用最小二乘法的一般多元線性回歸方法簡單有效,被廣泛采用。但是在實際電力負荷分析過程中,由于自變量往往存在多重相關(guān)性且有時樣本容量較小,可能會造成回歸分析式不合實際而使預(yù)測誤差偏大,為此,偏最小二乘法得到了應(yīng)用[8]。
在一般的偏最小二乘法中,所有自變量都被保留,可以反映各個變量間的關(guān)系,但是,這一性質(zhì)并不一定能提高負荷預(yù)測結(jié)果的準確度,無用的自變量反而可能會引入誤差。由于傳統(tǒng)最小二乘的參數(shù)篩選方法往往基于數(shù)據(jù)總體符合線性正態(tài)分布誤差的模型假設(shè),在更為復(fù)雜的偏最小二乘中無法應(yīng)用,所以,可以用非參數(shù)統(tǒng)計方法Bootstrap來解決此類問題。Bootstrap是一種基于數(shù)據(jù)模擬的統(tǒng)計方法,由美國斯坦福大學(xué)教授Efron于1979年提出[9—10],應(yīng)用在偏最小二乘法的變量檢驗中可以去除非顯著變量因素,使模型更為簡潔、變量作用關(guān)系更為明確,同時預(yù)測精度得到提高。
本文使用偏最小二乘回歸預(yù)測中長期電力負荷,并針對其不足采用Bootstrap方法對回歸表達式中變量做出篩選。結(jié)果表明,經(jīng)過這種改進后,電力負荷預(yù)測結(jié)果更加準確,同時回歸表達式中負荷數(shù)據(jù)與其影響因素之間的關(guān)系也更為清晰。
電力負荷預(yù)測中,因變量只有電力負荷,只需采用多自變量與單因變量的偏最小二乘簡化算法[11—12]。設(shè)自變量x數(shù)目為m,因變量y數(shù)目為1,統(tǒng)計的樣本數(shù)(年數(shù))為n,由此構(gòu)成統(tǒng)計數(shù)據(jù)表X=(x1,x2,…,xm)n×m,Y=(y)n×1。
從X中提取主成分th,h=1,2,…,k,使之能夠滿足:①th包含原數(shù)據(jù)X變異信息盡可能最大;②th對Y有很好的解釋能力;③th加入后方程的預(yù)測能力有明顯改善。
提取的主成分之間相互獨立,且與因變量Y存在明顯的相關(guān)關(guān)系。分別作X、Y對th的回歸,而Y則可以表示為X的回歸形式,由此得出自變量與因變量之間的關(guān)系。從X中連續(xù)提取k個主成分th,直到回歸方程達到一個滿意的精度,同時保證樣本擾動誤差盡量小。這樣計算可以有效解決自變量的多重線性關(guān)系,得到比較準確的偏最小二乘回歸表達式。
(1)數(shù)據(jù)標準化處理
(2)提取主成分th
式中:wh是Eh的一個軸,為單位向量,且有‖wh‖2=1。
為使t1能盡量多的代表E0中的變異信息,根據(jù)優(yōu)化方法,求解得
然后實施Eh以及Fh在th上的回歸
式中:Eh、Fh為殘差矩陣;ph、rh為回歸系數(shù),并且滿足
由式(4)可以得到提取主成分后的殘差
由式(8)、式(2)可以將th改寫為E0的線性組合
(3)交叉有效性檢驗
每次新成分th都需檢驗其是否對方程的預(yù)測能力有明顯改進,以決定到底是否引入該成分。
設(shè)h個成分擬合后,第i個值y*i的擬合值為設(shè)去除樣本i,利用剩余的樣本提取h個成分回歸計算得到的表達式,預(yù)測出y*i的值為?y*h(-i) 。定義
當(dāng)Q2h≥0.097 5時,則認為成分th對于預(yù)測能力的貢獻是顯著的,在表達式中引入這個成分,否則認為其帶來過多樣本點的擾動誤差,th被舍棄,同時停止主成分的提取。
(4)建立回歸表達式
重復(fù)步驟(2)、(3)連續(xù)提取成分th,并且每次對其進行交叉有效性檢驗,直到th不滿足檢驗條件,進入下一步驟。
若此時共提取k個主成分,則F0的回歸方程
根據(jù)式(1)進行變量標準化逆過程,得到原始值的回歸方程
由于式(15)中模型參數(shù)的估計量具有非常復(fù)雜的非線性性質(zhì),很難得到其在原假設(shè)下的精確分布,無法確定其參數(shù)的臨界值[13]。Bootstrap可以有效解決這個問題,它通過原始數(shù)據(jù)中有放回地隨機抽取一定數(shù)量的觀測值,組成一個新樣本,計算出相應(yīng)參數(shù)值。經(jīng)過這樣的反復(fù)抽樣,在大量實驗下就可以得到反映這個數(shù)據(jù)集合的參數(shù)總體分布了。根據(jù)參數(shù)的這種分布可以得到在一定檢驗標準下參數(shù)的臨界值,對參數(shù)作檢驗,進而進行取舍。
通過偏最小二乘計算得到式(15)后,對各個自變量參數(shù)進行檢驗,去除影響不顯著的因素。具體步驟如下:
(1)建立Bootstrap樣本
在初始數(shù)據(jù)中用蒙特卡洛方法隨機產(chǎn)生一個與原始樣本類似的樣本。抽樣時,每次記錄一組數(shù)值后都再放回數(shù)據(jù)表。如此記錄nB(nB<n)組數(shù)據(jù),得到的新樣本即為Bootstrap樣本,樣本容量為nB。
(2)樣本回歸
以得到的Bootstrap樣本做偏最小二乘回歸,成分數(shù)取原始數(shù)據(jù)回歸所用成分數(shù)k,得到
(3)重復(fù)取樣
重復(fù)步驟(1)、(2)共B次(B取一個較大的數(shù)),得到B組系數(shù)
(4)計算臨界值
(5)參數(shù)檢驗判斷
如果|βi|> δi,則認為變量xi作用顯著,否則認為xi作用不顯著,未通過檢驗。
(6)重新進行回歸計算
若自變量不顯著,去掉此變量后更新原始數(shù)據(jù),重新進行偏最小二乘回歸計算,否則,結(jié)束回歸分析,根據(jù)式(16)得到原始值回歸方程。
以江蘇省2000—2009年農(nóng)村用電量及相關(guān)因素的統(tǒng)計量為例[14],分別運用一般最小二乘法、帶變量篩選的逐步回歸法、偏最小二乘法以及帶變量篩選的Bootstrap檢驗偏最小二乘法對2000—2007年的數(shù)據(jù)進行分析,以2008、2009年的數(shù)據(jù)比較各種方法的預(yù)測精度。
表1為原始數(shù)據(jù)(此處只顯示2位小數(shù)),其中:因變量為農(nóng)村用電總量y;自變量為農(nóng)村人口x1、農(nóng)村家庭人均收入x2、第一產(chǎn)業(yè)總值x3、第二產(chǎn)業(yè)總值x4、第三產(chǎn)業(yè)總值x5、農(nóng)林牧漁總產(chǎn)值x6、農(nóng)作物播種面積x7。
表1 江蘇省2000—2009年農(nóng)村用電量及其因素統(tǒng)計
對原始數(shù)據(jù)進行相關(guān)性分析,結(jié)果如表2所示??梢园l(fā)現(xiàn),各自變量間存在明顯的相關(guān)性。本算例中,分析的樣本數(shù)只有8個,而自變量多達7個,同時多重相關(guān)性嚴重,一般方法難以得到可靠的回歸結(jié)果。下面通過偏最小二乘回歸進行分析,計算在C++環(huán)境下實現(xiàn)。
(1)提取成分t1,得
表2 各變量相關(guān)系數(shù)表
進行交叉有效性檢驗得Q2=0.908>0.097 5,繼續(xù)運算。
(2)提取成分t2,得
可決系數(shù)R2=0.984。
進行交叉有效性檢驗得Q2=0.114>0.097 5,繼續(xù)運算。
(3)提取成分t3,得
進行交叉有效性檢驗得Q2=-0.055<0.097 5,停止運算。
(4)得出回歸方程
由上述分析可知,提取2個成分已經(jīng)足夠,如式(17)所示。
經(jīng)標準化逆過程,得到原始值回歸方程
這個表達式就是一般偏最小二乘法的結(jié)果,式中各項系數(shù)都為正,基本反映了變量的現(xiàn)實關(guān)系。
分析式(18)中的參數(shù)是否作用顯著:取Bootstrap樣本1 000個(B=1 000),樣本容量nB=7,按照檢驗水平α=0.1進行分析。計算相應(yīng)系數(shù)集合{?βbi},元素排序后取第100(B×α)個元素作為臨界值。每次實驗臨界值有一定變化,但不影響判斷。α=0.1時,7個自變量標準值參數(shù)的Bootstrap檢驗結(jié)果如表3所示。
表3 7個自變量標準值參數(shù)的Bootstrap檢驗
由表3可知x1和x7沒有通過檢驗。在原始數(shù)據(jù)中剔除x1、x7,用偏最小二乘法做y關(guān)于x2~x6的回歸。
提取主成分t1,進行交叉有效性檢驗得Q2=0.944>0.097 5。
提取主成分t2,進行交叉有效性檢驗得Q2=-1.513<0.097 5。
所以這里只需提取一個主成分,得到
對于新的表達式,再次進行Bootstrap參數(shù)檢驗,B、nB、α取值與前一步相同,經(jīng)過試驗,得到臨界值如表4所示。
表4 5個自變量標準值參數(shù)的Bootstrap檢驗
所有參數(shù)都通過檢驗,化為原始值表達式
式(20)就是經(jīng)過Bootstrap檢驗的偏最小二乘法最終結(jié)果。
采用一般最小二乘法分析統(tǒng)計數(shù)據(jù),得
式中:自變量x5(省第三產(chǎn)業(yè)總值)和x6(農(nóng)林牧漁總產(chǎn)值)前的系數(shù)為負,顯然與事實不符。
采用逐步回歸法,篩選自變量,進行最小二乘回歸得
自變量只剩下x2(農(nóng)村家庭人均收入)和x7(農(nóng)作物播種面積),大量變量被去除,得不到變量間關(guān)系。
比較上述4種回歸分析方法,數(shù)據(jù)的擬合與預(yù)測結(jié)果如表5、表6所示,圖1為各方法對電量的擬合折線圖。
圖1 各方法擬合預(yù)測結(jié)果比較
表5 歷史數(shù)據(jù)擬合結(jié)果比較
表6 預(yù)測結(jié)果比較
綜合分析表5、表6以及圖1可以發(fā)現(xiàn):一般最小二乘法的表達式實際意義不清晰,雖然在擬合階段誤差極小,但由于過分追求擬合,模型建立時大量吸收了各樣本的擾動誤差,在預(yù)測階段效果極差;逐步回歸法模型表達式變量比較少,實際變量的解釋能力較弱,擬合和預(yù)測效果都處于中等;偏最小二乘法的表達式物理意義清晰,但在本算例中,預(yù)測效果并沒有優(yōu)于逐步回歸法;經(jīng)過Bootstrap參數(shù)檢驗的偏最小二乘法,由于去除了部分不顯著的自變量,導(dǎo)致運算中可以從自變量中提取的主成份信息減少,致使擬合優(yōu)度下降,但是,減少的不顯著自變量同時也帶走大量噪聲,可提高數(shù)據(jù)間相關(guān)關(guān)系表述的準確性,使表達式物理意義更為清晰,有效提高預(yù)測準確度。
根據(jù)文獻[12]中的算例(具體數(shù)據(jù)見文獻),采用基于Bootstrap法的偏最小二乘法進行負荷預(yù)測分析,得到α=0.1時10個自變量標準值參數(shù)的Bootstrap檢驗結(jié)果,如表7所示。
表7 10個自變量標準值參數(shù)的Bootstrap檢驗
自變量x5和x10未能通過檢驗,去除這2個變量,得到新的偏最小二乘回歸表達式
與原有方法的擬合、預(yù)測結(jié)果進行比較,如表8所示。
表8 擬合預(yù)測結(jié)果比較
從此算例可以看出:經(jīng)過Bootstrap篩選后,回歸計算結(jié)果無論在擬合程度還是預(yù)測準確度上都得到了提高。實際上,當(dāng)采用多元回歸方法進行負荷預(yù)測時,自變量越多,需要采集的數(shù)據(jù)也就越多。偏最小二乘法雖然在樣本數(shù)量很少時仍能夠得到較好的回歸表達式,但是它并不能有效糾正采集大量數(shù)據(jù)時的統(tǒng)計錯誤,從而引入大量噪聲。Boot-strap篩選自變量,可以把偏離較嚴重的自變量刪除,進而得到更合理的結(jié)果。
電力負荷預(yù)測問題中,各變量經(jīng)常存在多重線性關(guān)系。當(dāng)存在數(shù)個自變量時,樣本數(shù)量往往顯得不夠充足。偏最小二乘法吸收所有自變量,可以很好地反映實際物理意義,能夠有效解決以上問題。然而,某些關(guān)系不顯著或者數(shù)據(jù)存在問題的自變量會使表達式精度下降。
針對偏最小二乘回歸方法在中長期電力負荷預(yù)測中的不足,提出基于Bootstrap篩選變量的改進算法,通過對2個算例的分析,驗證了該改進算法的可行性,結(jié)果表明該改進算法得到的預(yù)測結(jié)果更加精確,具有一定的應(yīng)用價值。
[1] 康重慶,夏清,張伯明.電力系統(tǒng)負荷預(yù)測研究綜述與發(fā)展方向的探討[J].電力系統(tǒng)自動化,2004,28(17):1-11.
[2] 羅治強,張焰,朱杰,等.中壓配電網(wǎng)中長期負荷預(yù)測實踐[J].電力自動化設(shè)備,2003,23(3):27-29.
[3] Jia N X,Yokoyam R,Zhou Y C.A flexible long-term load forecasting approach based on new dynamic simulation theory — GSIM[J].International Journal of Electrical Powerand Energy Systems,2001,23(7):549-556.
[4] 韋鋼,賀靜,張一塵.中長期電力負荷預(yù)測的盲數(shù)回歸方法[J].高電壓技術(shù),2005,31(2):73-75.
[5] 張慶寶,程浩忠,劉青山.基于最大熵原理的中長期負荷預(yù)測綜合模型的研究[J].繼電器,2006,34(3),24-27.
[6] 李翔,陳昊.基于時變參數(shù)模型的中長期負荷預(yù)測[J].電力需求側(cè)管理,2009,11(2):32-34.
[7] 吳耀華.基于GM-GRNN的電力系統(tǒng)長期負荷預(yù)測[J].繼電器,2007,35(6):45-53.
[8] 張恒喜,郭基聯(lián),朱家元,等.小樣本多元數(shù)據(jù)分析方法及應(yīng)用[M].西安:西北工業(yè)大學(xué)出版社,2002.
[9] Bradley Efron,TibshiraniR J.An introduction to the boot-strap[M].BocaRaton :Chapman and Hall/CRC,1994.
[10] 王惠文,吳載斌,孟潔.偏最小二乘回歸的線性與非線性方法[M].北京:國防工業(yè)出版社,2006.
[11] 王文圣,丁晶,趙玉龍,等.基于偏最小二乘回歸的年用電量預(yù)測研究[J].中國電機工程學(xué)報,2003,23(10):17-21.
[12] 毛李帆,江岳春,龍瑞華,等.基于偏最小二乘回歸分析的中長期電力負荷預(yù)測[J].電網(wǎng)技術(shù),2008,32(19):71-77.
[13] 朱力行,許王莉.非參數(shù)蒙特卡洛檢驗及其應(yīng)用[M].北京:科學(xué)出版社,2008.
[14] 中華人民共和國國家統(tǒng)計局.中國統(tǒng)計年鑒2009[M].北京:中國統(tǒng)計出版社,2009.
[15] 費宇,潘建新.線性混合效應(yīng)模型影響分析[M].北京:科學(xué)出版社,2005.
[16] L沃塞曼.現(xiàn)代非參數(shù)統(tǒng)計[M].北京:科學(xué)出版社,2008.