任芳玲,張亞楠
(延安大學(xué) 計算機(jī)學(xué)院,陜西 延安 716000)
?
基于主成分分析法的用電量預(yù)測模型
任芳玲,張亞楠
(延安大學(xué) 計算機(jī)學(xué)院,陜西 延安716000)
摘要:在分析影響陜西省全社會用電量因素的基礎(chǔ)上,初步選擇第一產(chǎn)業(yè)產(chǎn)值、第二產(chǎn)業(yè)產(chǎn)值、第三產(chǎn)業(yè)產(chǎn)值、能源消費總量、人口自然增長率和城鄉(xiāng)居民用電量作為初始變量.利用KMO檢驗剔除人口自然增長率,之后建立了陜西省全社會電力需求的主成分回歸模型,得到主成分后,用MATLAB和SPSS軟件對數(shù)據(jù)進(jìn)行分析分別選擇三次函數(shù)模型和冪次函數(shù)模型對主成分與社會用電量兩個變量進(jìn)行擬合,得到了較為精準(zhǔn)的用電量預(yù)測模型.
關(guān)鍵詞:KMO檢驗;主成分分析;擬合;用電量預(yù)測
電力是國民經(jīng)濟(jì)的命脈,是衡量國家經(jīng)濟(jì)水平的重要因素之一.用電量預(yù)測是城市發(fā)展中一個重要的迫切需要解決的問題,比如2011年席卷全國的“電荒”現(xiàn)象[1],造成停煤缺電、限產(chǎn)限電現(xiàn)象,影響了工業(yè)、農(nóng)業(yè)及人們的正常生活.因此,制定科學(xué)合理的電力發(fā)展規(guī)劃有益于整個城市的發(fā)展,對提高社會經(jīng)濟(jì)效益及保證居民正常生活具有至關(guān)重要的作用.
影響全社會用電量需求的因素很多,如:政府投入、居民消費水平、市場需求及商品零售價格指數(shù)等等,這不單單是用數(shù)學(xué)模型計算而來,更多的是對其他影響因素的分析[2].電力需求預(yù)測有多種方法,陳文靜等[3]使用半?yún)?shù)和非參數(shù)模型研究了我國電力消費及其影響因素.黃獻(xiàn)松等[4]利用ADF檢驗方法實證分析了陜西省全社會用電量與三大產(chǎn)業(yè)之間的關(guān)系.多元線性回歸分析是統(tǒng)計預(yù)測中一個最常用的方法,但是當(dāng)多個變量之間的相關(guān)性較大時,其預(yù)測精度會出現(xiàn)較大誤差,主成分分析法很好的解決此類問題,所以被廣泛應(yīng)用于稅收預(yù)測[5]、事故預(yù)測[6]等多個方面.本文以陜西省數(shù)據(jù)為例,將主成分分析法用在用電量預(yù)測中.為探索影響陜西省全社會用電量的主要因素,收集了2001—2012年以來的陜西省全社會用電量,基于SPSS軟件多元回歸分析模型及MATLAB軟件擬合函數(shù),建立了預(yù)測模型,以期為今后準(zhǔn)確預(yù)測用電量提供依據(jù).
1變量的選擇
1.1變量的初步選擇
在查詢資料的基礎(chǔ)上,初步選取第一產(chǎn)業(yè)x1,第二產(chǎn)業(yè)x2,第三產(chǎn)業(yè)x3,能源消費總量x4,城鄉(xiāng)居民用電x5,人口自然增長率x6,用來預(yù)測陜西省的電力需求,被解釋變量選取陜西省全社會用電量(Y).由《陜西省統(tǒng)計年鑒》獲得2001—2012年的全社會用電量及各個因素的統(tǒng)計數(shù)據(jù),見表1:
1.2KMO測度對變量的再次選擇
在做主成分分析之前應(yīng)檢驗所選變量是否具有較強(qiáng)的相關(guān)性.KMO測度是SPSS提供判斷原始變量間的相關(guān)系數(shù)大小的一種度量.一個大的KMO測度值支持我們進(jìn)行主成分分析.
Kaiser給出了常用的KMO度量標(biāo)準(zhǔn):0.9以上表示非常合適;0.8表示合適;0.7表示一般;0.6表示不太合適;0.5以下表示極不合適.用SPSS軟件對表1數(shù)據(jù)進(jìn)行KMO檢驗和Barlett球形檢驗,得到各個變量間的KMO值是0.784,Barlett球形檢驗值sig<0.005.可見變量間的相關(guān)性一般.為保證得到的主成分能夠更好地反映各個變量,因此需要對變量進(jìn)行剔除.剔變量之前需要用SPSS軟件對變量進(jìn)行相關(guān)性分析,得到相關(guān)性矩陣,如表2所示:
表1 全社會用電量及各個因素的值
表2 相關(guān)性矩陣
由表2相關(guān)性矩陣知人口自然增長率與其他變量間的相關(guān)系數(shù)較低,由此認(rèn)為人口自然增長率與其他5個變量之間的相關(guān)性不大,故將人口自然增長率剔除.
將人口自然增長率剔除后,應(yīng)用SPSS再次對變量進(jìn)行KMO檢驗和Barlett球形檢驗,此時的KMO值為0.830,sig<0.005,因此這些變量間比較適合做主成分分析.所以選取第一產(chǎn)業(yè)產(chǎn)值,第二產(chǎn)業(yè)產(chǎn)值、第三產(chǎn)業(yè)產(chǎn)值、能源消費總量、城鄉(xiāng)居民用電作為分析變量.
2主成分分析原理及模型的建立
2.1主成分分析方法簡述
在應(yīng)用相應(yīng)變量的時序數(shù)據(jù)對用電量做預(yù)測時,有問題就是變量之間的多重共線性.主成分分析法就是一種解決自變量多重共線性的良好工具.主成分分析方法的基本思想就是對原始變量進(jìn)行線性組合得到新的綜合變量,即主成分.主成分不但保留了原始變量的絕大部分信息,而且彼此之間互不相關(guān).對主成分進(jìn)行分析,可以抓住主要因素,剔除重疊信息,使問題變得簡潔明了.
2.2主成分回歸模型的建立
第一產(chǎn)業(yè)產(chǎn)值,第二產(chǎn)業(yè)產(chǎn)值、第三產(chǎn)業(yè)產(chǎn)值、能源消費總量、城鄉(xiāng)居民用電,各個變量之間的相關(guān)系數(shù)較大,存在著較強(qiáng)的相關(guān)性.當(dāng)自變量存在多重共線性時,用最小二乘法得到的回歸系數(shù)的估計值的方差將會很大,于是估計的精度會降低,這樣會影響到回歸方程的預(yù)測數(shù)據(jù)的可靠性.接下來的步驟就是為了解決多重共線性的問題.
首先利用SPSS對各個主成分所包含的信息給予解釋, 利用主成分分析法,得到第一主成分所解釋的總方差為98.989%>95%,故采用第一主成分可認(rèn)為是充分有效的.
接著用SPSS的主成分分析法做第一主成分的回歸系數(shù),得到5個變量第一產(chǎn)業(yè)、第二產(chǎn)業(yè)、第三產(chǎn)業(yè)、能源消費總量、城鄉(xiāng)居民用電的系數(shù)值分別為0.998、0.998、0.999、0.984、0.996.
進(jìn)而可得到第一主成分的表達(dá)式:
F=0.998x1+0.998x2+0.999x3+0.984x4+0.996x5.
(1)
從第一主成分的表達(dá)式來看,5個變量的系數(shù)都很接近,說明第一主成分比較均衡地反映了這5個變量的情況.其次根據(jù)表1及式(1)得到全社會用電量與第一主成分的值列于表3.
表3 全社會用電量與第一主成分表
使用表3中的相關(guān)數(shù)據(jù)進(jìn)行曲線擬合,建立因變量Y與第一主成分F的回歸模型.
本文在分析數(shù)據(jù)的特征之后,擬選用三次函數(shù)模型和冪次函數(shù)模型進(jìn)行數(shù)據(jù)擬合.利用MATLAB軟件中的cftool命令分別得出兩種模型下的擬合表達(dá)式為:
三次模型的模型表達(dá)式y(tǒng)=a1x3+a2x2+a3x+b,
三次模型的擬合表達(dá)式Y(jié)=4.6×2.718×10-11×F3- 2.3×2.718×10-6×F2+0.07×F+17.62,
冪次模型的模型表達(dá)式y(tǒng)=axb,
冪次模型的擬合表達(dá)式Y(jié)=0.6485×F0.7306.
為了檢驗?zāi)P皖A(yù)測的準(zhǔn)確性大小,這里用所建立模型對數(shù)據(jù)進(jìn)行回測,得到通過模型計算得到的社會用電量與其實際用電量之間誤差的情況,見表4.
表4 模型的回測值及其與真實值的誤差
從表4可知,模型的回測值與實際值較為接近,這說明模型的解釋性較強(qiáng).同時我們還看到,冪次模型誤差絕對值最大不超過5%,而三次模型誤差絕對值最大達(dá)到了18.50%,說明冪次模型與實際值擬合較好.
3結(jié)語
通過建立回歸模型,得到了陜西省全社會年度用電量與第一產(chǎn)業(yè)、第二產(chǎn)業(yè)、第三產(chǎn)業(yè)、能源消費總量、城鄉(xiāng)居民用電的回歸預(yù)測模型,所得的方程能夠用來預(yù)測陜西省的年用電量.需要指出的是,各種模型的應(yīng)用都有它天然的缺陷.對主成分分析模型來說,它只是一種純統(tǒng)計意義上的模型,在選擇主成分的過程中,可能會篩選掉一些經(jīng)濟(jì)意義明顯但統(tǒng)計意義不明顯的變量,而且主成分也沒有明顯的經(jīng)濟(jì)意義.三次模型和冪次模型也有自己的弱點.相對而言,三次模型中數(shù)據(jù)序列表現(xiàn)得較陡,增加的較快,可能存在高估現(xiàn)象.冪次模型數(shù)據(jù)序列表現(xiàn)的較符合實際情況.但時序數(shù)據(jù)預(yù)測模型有著共同弱點,如不適當(dāng)?shù)貙Ξa(chǎn)生數(shù)據(jù)的環(huán)境做了一致性假設(shè),并且預(yù)期該環(huán)境趨勢平穩(wěn),不會發(fā)生較大的改變等,這些隱含假設(shè)顯然是不現(xiàn)實的.
參考文獻(xiàn):
[1] 查瑋.把脈電荒困局——電荒困局癥結(jié)何在[J].東北電力,2005(8):8-9.
[2] 劉家軍,姚李孝,苗華,等.基于SPSS的電力需求與行業(yè)發(fā)展規(guī)律之間的研究[J].現(xiàn)代電力,2010,27(6):83-87.
[3] 陳文靜,何剛.電力消費及其影響因素:基于非參數(shù)模型的研究[J].系統(tǒng)工程理論與實踐,2009(8):92-97.
[4] 黃獻(xiàn)松,李邦邦.電能消費與區(qū)域經(jīng)濟(jì)增長的協(xié)整分析[J].西安科技大學(xué)學(xué)報,2008,28(3):507-512.
[5] 王文臣,湯秀芳.主成分分析法在我國稅收預(yù)測中的應(yīng)用[J].信陽師范學(xué)院學(xué)報(自然科學(xué)版),2006,19(4):504-510.
[6] 朱新征,劉志成.基于主成分分析法建立事故預(yù)測模型[J].科技創(chuàng)新導(dǎo)報,2009(4):236-239.
(編輯崔思榮)
The Application of Principal Component Analysis in the Electricity Demand Forecasting
REN Fangling,ZHANG Yanan
(College of Computer Science, Yan'an University, Yan'an 716000, China)
Abstract:Based on the analysis of the factors influencing the whole social power consumption in Shanxi province,this paper selected the first,second and third industrial output value,the total energy consumption of urban and rural residents, the natural population growth rate and power consumption as the initial variables.After rejecting the natural population growth rate by KMO test,the principal component regression model of demand for electricity in the whole society in Shanxi province was set up.Then three function models and the exponential function models were chosen on the basis of data analysis by MATLAB and SPSS to fitting two variables of principal component and the power consumption.Finally the more accurate prediction model of power consumption was obtained.
Key words:KMO test; principal component analysis; fitting; plectricity demand forecasting
收稿日期:2016-04-18
基金項目:國家自然科學(xué)基金項目(11471007);陜西省教育廳專項科研計劃項目(15JK1822);延安大學(xué)科研計劃項目(YDQ2014-47);延安大學(xué)教學(xué)改革研究項目(YDJG14-10)
作者簡介:任芳玲(1984-),女,講師,碩士,主要從事金融數(shù)學(xué)和概率統(tǒng)計的研究.
中圖分類號:TP391.4
文獻(xiàn)標(biāo)志碼:A
文章編號:1674-358X(2016)02-0050-04