摘 要:根據(jù)哈爾濱市1998~2007年的用水量數(shù)據(jù),充分考慮社會經(jīng)濟因素對需水量的影響,選取解釋變量,利用SPSS軟件,先用主成分分析的方法確定有效變量,然后建立多元線性回歸模型,對哈爾濱市的用水量進(jìn)行預(yù)測,并且用1998~2009年的用水?dāng)?shù)據(jù)對模型進(jìn)行檢驗,結(jié)果表明所建立的模型回歸效果較好,可以用于對城市用水量的預(yù)測。
關(guān)鍵詞:用水量預(yù)測 主成分分析 多元線性回歸模型
中圖分類號:F222.39 文獻(xiàn)標(biāo)識碼:A
文章編號:1004-4914(2013)03-223-02
水資源是城市持續(xù)發(fā)展的前提,用水量預(yù)測是城市規(guī)劃的基礎(chǔ)。城市供水系統(tǒng)是市政基礎(chǔ)設(shè)施的一項重要內(nèi)容,進(jìn)行城市用水量預(yù)測對于城市供水系統(tǒng)的規(guī)劃管理以及市政建設(shè)資金的投入與合理利用有著相當(dāng)重要的作用。
一、主成分分析的數(shù)學(xué)模型
用數(shù)據(jù)矩陣x的p個向量(即p個指標(biāo)向量)X1,X2,…Xp作線性組合(即綜合指標(biāo)向量)為:
上述方程要求:
且系數(shù)aij由下列原則確定:
(1)Fi與Fj(i≠j,i,j=1,2…,p)不相關(guān);
(2)F1是X1X2…,Xp的一切線性組合(系數(shù)滿足上述方程組)中方差中最大的,F(xiàn)2是與F1不相關(guān)的X1X2…,Xp的一切線性組合中方差最大的,...,F(xiàn)p是F1,F(xiàn)2…Fp-1都不相關(guān)的X1X2…,Xp的一切線性組合中方差最大的。
這樣來確定系數(shù)aij的值。稱F1,F(xiàn)2…,F(xiàn)p分別為第一、第二…、第p個主成分,主成分的名次是按特征值大小的順序排列的。
表示前m個主成分包含了原變量所具有的信息量。
二、主成分回歸模型預(yù)測哈爾濱市用水量
(一)變量的選取及基礎(chǔ)數(shù)據(jù)
影響城市需水量的因素有很多,城市的用水人口對居民的日常生活用水起著決定性的作用;城市的國民生產(chǎn)總值代表的這個城市整體的經(jīng)濟發(fā)展水平,而城市的需水量與經(jīng)濟發(fā)展水平有一定的相關(guān)關(guān)系,通常同等規(guī)模的情況下,經(jīng)濟水平較高的城市需水量較高;建成區(qū)綠化覆蓋率代表一個城市生態(tài)環(huán)境的狀況,與城市的公共事業(yè)用水的數(shù)量有關(guān);工業(yè)用水重復(fù)率代表了城市的工業(yè)發(fā)展?fàn)顩r和節(jié)水水平,提高工業(yè)用水重復(fù)率是節(jié)約水資源的一項重要途徑;年降水量與城市需水量一般成負(fù)相關(guān),因為在降水量較多的年份,人工澆灌和市政澆灑綠地道路的用水量就會相應(yīng)的減少。因此本文選取用水人口、國民生產(chǎn)總值、建成區(qū)綠化覆蓋率、工業(yè)用水重復(fù)率、年降水量等五個因素作為解釋變量,選取哈爾濱市1998~2009年的用水量數(shù)據(jù)及其相關(guān)因素數(shù)據(jù)作為樣本,見表1。
(二)主成分分析法篩選變量
通過主成分分析的方法確定有效變量,具體步驟如下:
第一步:建立數(shù)據(jù)文件,定義數(shù)值型變量X1,X2,X3,X4,X5,Y,變量說明如下:X1-用水人口(萬人);X2-國民身產(chǎn)總值(億元);X3-建成區(qū)綠化覆蓋率(%);X4-工業(yè)用水重復(fù)率(%);X5-年降水量(mm);Y-用水總量(萬m3)。由于多變量的測量單位量綱不同,因此先對變量X1,X2,X3,X4,X5,Y進(jìn)行標(biāo)準(zhǔn)化變換。
第二步:求R的特征值、貢獻(xiàn)率和累計貢獻(xiàn)率。
由表2可知,相關(guān)系數(shù)矩陣的特征根分別為:
λ1=2.997,λ2=1.063,λ3=0.828,λ4=0.101,λ5=0.012
第一個樣本主成分的貢獻(xiàn)率達(dá)59.933%,兩個樣本主成分的累計貢獻(xiàn)率為81.190%,三個樣本主成分的累計貢獻(xiàn)率達(dá)到了97.741%,根據(jù)貢獻(xiàn)率達(dá)到85%,因此選擇三個公共因子。
第三步:得到初始因子載荷陣,確定x1,x2,x3,x4,x5是否為有效變量。
第一個主成分信息來源于X1,X2,X4三個變量,第二個主成分信息來源于x5,第三個主成分信息來源于x3,這三個主成分包含了所有變量的信息。
Y1=1.956X1+0.984X2+0.924X4
Y2=0.979X5
Y3=0.853X3
根據(jù)主成分分析結(jié)果可以看出,所選用的五個自變量均為有效變量,可以用于建立多元線性回歸模型。
(三)模型建立
應(yīng)用SPSS統(tǒng)計軟件,可建立多元線性回歸模型。
由表3,得到回歸模型為:
Y=57.258X1+2.907X2+188.598X3-3705.312X4-5.387X5+289039.8
(四)模型檢驗
1.擬合優(yōu)度檢驗。擬合優(yōu)度R2=0.996,調(diào)整后的擬合優(yōu)度Rˉ2=0.991,估計值的標(biāo)準(zhǔn)誤差為288.05469,表明數(shù)據(jù)間有較強的回歸關(guān)系,該回歸方程是適合的。
2.對回歸方程進(jìn)行F檢驗。F的統(tǒng)計量為199.867,相應(yīng)sig的F是值的實際顯著性概率即P值,這里sig=0.000。給定α=0.05,顯然P<α,所以認(rèn)為回歸方程線性關(guān)系顯著。
3.對回歸方程進(jìn)行檢驗?;貧w系數(shù)的顯著性t檢驗,需要對每個回歸系數(shù)進(jìn)行顯著性檢驗?;貧w系數(shù)X1,X2,X3,X4和X5的回歸系數(shù)均顯著。
4.多重共線性檢驗。由表3的方差膨脹因子可以看出,X1,X2的方差膨脹因子大于10,說明自變量X1,X2與其他自變量之間存在嚴(yán)重的多重共線性。
5.異方差性檢驗。采用懷特檢驗法對模型進(jìn)行異方差性檢驗。在顯著性水平0.05下,χ2(5)臨界值為11.071,n·R2=10*0.996=9.96<11.071,因此無異方差性。
6.異常點檢驗。標(biāo)準(zhǔn)化殘差最小值為-0.827,最大值為1.335,意味著標(biāo)準(zhǔn)化殘差均小于3,因此沒有異常值。
(五)模型修正
經(jīng)檢驗,原模型存在多重共線性,剔除共線變量中相對不重要的變量X2。
由表4可以看出,回歸方程系數(shù)是顯著的,且消除了多重共線性。
修正后的模型方程為:
Y=103.849X1+285.047X3-3312.184X4-5.538X5+248497.856
三、模型預(yù)測及結(jié)果分析
采用修正后的回歸模型
Y=103.849X1+285.047X3-3312.184X4-5.538X5+248497.856
對1998~2009年的用水量進(jìn)行預(yù)測,并計算預(yù)測值與原始值的相對誤差以及平均相對誤差,見表5。
結(jié)果表明,所建立的用水量預(yù)測模型的預(yù)測相對誤差與平均誤差均小于5%,說明模型有效。
從回歸方程可以看出,用水總量與X1,X3成正相關(guān),因此要想控制用水總量就要控制人口的增長;由X3的系數(shù)可以看出建成區(qū)綠化覆蓋率對用水總量的影響很大,說明公共事業(yè)的用水在用水總量中占著較大的比重,如何既提高建成區(qū)綠化覆蓋率又能節(jié)約用水是一個很重要的問題;用水總量與X4,X5成負(fù)相關(guān)關(guān)系,其中降水量是人們難以控制的,而工業(yè)用水重復(fù)率對用水總量的影響是最大的,因此要想控制用水量就必須要提高工業(yè)用水重復(fù)率,節(jié)約工業(yè)用水。
[基金項目:黑龍江省教育廳科學(xué)研究項目(12521479)]
參考文獻(xiàn):
1.于秀林,任松雪.多元統(tǒng)計分析[M].北京:中國統(tǒng)計出版社,1999
2.沙之杰,周金峰.多元線性回歸模型預(yù)測天津市用水量[J].西昌學(xué)院學(xué)報(自然科學(xué)版),2008(2)
(作者單位:黑龍江科技學(xué)院理學(xué)院 黑龍江哈爾濱 150027)
(責(zé)編:賈偉)