周鵬飛,盧澤雨
(河北工程大學(xué) 水利水電學(xué)院,河北 邯鄲 056000)
隨著我國(guó)人口持續(xù)增長(zhǎng)、經(jīng)濟(jì)飛速發(fā)展、人民生活水平不斷提高,城市工業(yè)和生活用水量增加,使得城市水資源量的供需矛盾加劇。城市用水量預(yù)測(cè)是城市給水系統(tǒng)規(guī)劃設(shè)計(jì)和優(yōu)化運(yùn)行的重要基礎(chǔ),直接影響到城市的規(guī)劃、城市的可持續(xù)發(fā)展和區(qū)域水資源優(yōu)化配置等。因此,準(zhǔn)確預(yù)測(cè)城市用水量的需求對(duì)城市發(fā)展有著極其重要的作用。一般來(lái)說(shuō),城市用水量采用綜合指標(biāo)法、平均增長(zhǎng)率法等經(jīng)驗(yàn)類推可以取得較好的研究結(jié)果。但在城市的發(fā)展過(guò)程中,由于城市用水量受人類活動(dòng)影響較大,其市場(chǎng)數(shù)據(jù)存在不規(guī)則的變化,采用歷史數(shù)據(jù)類推達(dá)不到理想的效果。因此,目前城市用水量預(yù)測(cè)常用的方法有定額預(yù)測(cè)法、回歸分析法、灰色預(yù)測(cè)法等[1]
本文采用多元線性回歸中的逐步回歸分析法,利用SPSS軟件進(jìn)行多元回歸分析,建立城市用水量預(yù)測(cè)模型。多元線性回歸不僅要對(duì)回歸系數(shù)進(jìn)行檢驗(yàn),還需要對(duì)預(yù)測(cè)以及假設(shè)性檢驗(yàn)方面進(jìn)行討論與研究,考慮各個(gè)自變量之間的相互關(guān)系,檢驗(yàn)是否存在共線性問(wèn)題。如果存在共線問(wèn)題,需要對(duì)變量進(jìn)行篩選,為了克服共線問(wèn)題,增加預(yù)測(cè)的精確度。所以,本文采用多元線性逐步回歸分析法。
在現(xiàn)實(shí)生活中,要對(duì)某個(gè)因變量進(jìn)行統(tǒng)計(jì)分析時(shí),由于影響該因變量的自變量往往不止1個(gè)。需要考慮k個(gè)自變量X1、X2、X3……、XK與因變量y之間的關(guān)系時(shí),建立回歸方程:
yi=b0+b1xi1+b2xi2+…+bkxik+ui
(1)
式中:b0、b1、…、bk為待估的回歸系數(shù);i=1,2,…,n(n是樣本容量);ui為隨機(jī)誤差。
假設(shè)隨機(jī)誤差總體分布N(0,σ2)分布且相互獨(dú)立,就可在X、Y的觀測(cè)樣本下以最小二乘法來(lái)估計(jì)b0、b1、…、bk,該回歸方程可以寫成矩陣形式:
矩陣表示的多元線性回歸模型為:
Y=XB+u
(2)
式中:Y為觀測(cè)值的向量;B為參數(shù)向量;X為常數(shù)向量;u為隨機(jī)誤差向量。
采用最小二乘法估計(jì)總體參數(shù),其估計(jì)量為B=(b0,b1,…,bk)T,總體參數(shù)的最小二乘估計(jì)量:
BLS=(XTX)-1XTY
(3)
回歸方程的顯著性檢驗(yàn)用統(tǒng)計(jì)量F檢驗(yàn),記:
(4)
回歸系數(shù)的顯著檢驗(yàn)用統(tǒng)計(jì)量t來(lái)檢驗(yàn),記:
(5)
式中:bj為最小二乘估計(jì);S(bj)為樣本估計(jì)量。
SPSS是目前世界上最流行的統(tǒng)計(jì)軟件之一,被廣泛用于社會(huì)科學(xué)和自然科學(xué)的各個(gè)領(lǐng)域。SPSS的基本功能包括數(shù)據(jù)管理、統(tǒng)計(jì)分析、圖表分析和輸出管理,其基本功能主要包含有描述性統(tǒng)計(jì)、相關(guān)分析、回歸分析、聚類分析、時(shí)間序列分析等十幾大類,具有操作簡(jiǎn)單、操作方便、功能強(qiáng)大、數(shù)據(jù)接口全面、功能模塊組合靈活、針對(duì)性強(qiáng)的特點(diǎn)[3]。
影響城市用水量的因素有很多,根據(jù)2005~2014年邯鄲市統(tǒng)計(jì)年鑒資料和2005~2014邯鄲市《水資源公報(bào)》,選取7個(gè)影響城市用水量的因素,見(jiàn)表1。其中,X1為GDP(萬(wàn)元),X2為人均GDP(元),X3為固定資產(chǎn)投資(萬(wàn)元),X4為工業(yè)個(gè)數(shù),X5為城市總?cè)丝?萬(wàn)人),X6為工業(yè)用水量(104m3/a),X7為人均日常生活用水量(L),Y為總用水量(104m3/a),建立數(shù)學(xué)模型,對(duì)邯鄲市的城市用水量進(jìn)行預(yù)測(cè)[4]。
在實(shí)際問(wèn)題中,人們總是希望選擇一些對(duì)Y有顯著影響的變量作為自變量,應(yīng)用多元回歸分析的方法,建立“最優(yōu)”的回歸方程,以便對(duì)因變量進(jìn)行預(yù)測(cè)和分析。逐步回歸分析就是依據(jù)這種原則提出來(lái)的一種回歸分析方法。它的基本思路是建立多元線性回歸方程時(shí),這些因子的挑選是逐步進(jìn)行的,即每進(jìn)行一步挑選一個(gè)因子。首先,計(jì)算m個(gè)因子的方差貢獻(xiàn),挑選其中未引進(jìn)因子中方差最大者給定信度α下的F檢驗(yàn)(即引進(jìn)檢驗(yàn))。若通過(guò)檢驗(yàn),則引進(jìn)該因子;如果沒(méi)有通過(guò)檢驗(yàn),則不引進(jìn)該因子。引進(jìn)2個(gè)因子后,在計(jì)算m個(gè)因子的方差貢獻(xiàn),挑選其中引進(jìn)因子中方差貢獻(xiàn)最小者進(jìn)行給定信度α下的F檢驗(yàn)(即剔除檢驗(yàn)),若通過(guò)該檢驗(yàn)則剔除該因子,否則不剔除。最后,直至回歸方程中既不能引進(jìn)也不能剔除因子或者可供挑選的因子均通過(guò)引進(jìn)檢驗(yàn)而全部被引進(jìn)時(shí),逐步回歸結(jié)束[5]。
表1 城市用水量及其影響因素的基本資料Table 1 Urban water consumption and its influencing factors
SPSS具體操作過(guò)程如下:打開(kāi)SPSS文件窗口,錄入表1中數(shù)據(jù)。在SPSS菜單上選擇“分析→回歸→線性”,則出現(xiàn)“線性回歸”主對(duì)話框,將Y選入“因變量”,將X1到XK選入到“自變量”中;在統(tǒng)計(jì)量對(duì)話框中選擇“估計(jì)”、“模型擬合度”和“部分相關(guān)和偏相關(guān)性”,點(diǎn)擊“繼續(xù)”;在“保存”對(duì)話框中選擇“未標(biāo)準(zhǔn)化”,點(diǎn)擊“繼續(xù)”;在“方法”框中選擇“逐步”,然后完成以上操作步驟后,點(diǎn)擊OK。
將數(shù)據(jù)輸入到SPSS Data Editor 中,對(duì)數(shù)據(jù)進(jìn)行多元線性回歸分析,軟件會(huì)自動(dòng)在數(shù)據(jù)編輯窗口中保存數(shù)據(jù)和計(jì)算結(jié)果。結(jié)果見(jiàn)表2~表4。
表2 模型匯總Table 2 Model Summary
注:模型1預(yù)測(cè)自變量為X6;模型2預(yù)測(cè)自變量為X6、X7;模型3預(yù)測(cè)自變量為X6、X7、X5;模型4預(yù)測(cè)自變量為X6、X7、X5、X3;模型5預(yù)測(cè)自變量為X6、X7、X5、X3、X4。
表2是各步模型匯總的情況。從表2中可以看出,多元線性逐步回歸分析模型的相關(guān)系數(shù)R為1.000>0.999>0.994>0.951>0.865,說(shuō)明第五步的自變量與因變量之間的相關(guān)性較好;決定系數(shù)R2反映總體回歸效果,決定系數(shù)R2=0.999。以上結(jié)果表明,第五步的多元線性回歸方程的擬合度較好,即所選的因變量Y與所選的5個(gè)自變量(X6、X7、X5、X3、X4)之間存在非常密切的線性相關(guān)性。
表3 方差分析Table3 Analysis of variance
注:預(yù)測(cè)自變量為X6、X7、X5、X3、X4;因變量為y;相伴概率中文采用ρ,而表中采用Sig.
表3是第五步模型的方差分析表。第五步F值最大,具體顯示為對(duì)因變量Y有顯著影響的變量分別為工業(yè)用水量、人均日常生活用水量、城市總?cè)丝凇⒐潭ㄙY產(chǎn)投資和工業(yè)個(gè)數(shù)。該模型的回歸平方和U=31 373 903.44,殘差平方和Q=25 000.964,離差平方和Syy=31 499 904.4,其對(duì)應(yīng)的自由度分別為5、4、9。當(dāng)統(tǒng)計(jì)量F=1 007.158時(shí),相伴概率ρ=0.000<0.001,說(shuō)明回歸方程通過(guò)了顯著檢驗(yàn)(F檢驗(yàn)),表明所建立的線性回歸模型具有統(tǒng)計(jì)學(xué)意義。
表4 回歸系數(shù)及顯著性檢驗(yàn)Table 4 Regression coefficients and the test of significance
注:因變量為y;B為回歸系數(shù);相伴概率中文采用ρ,而表中采用Sig.
表4是第五步模型的回歸系數(shù)。該模型常數(shù)項(xiàng)系數(shù)b0=26 422.704 248,回歸系數(shù)為b1=0.241 547,b2=29.673 624,b3=-68.125 082,b4=-0.000 165,b5=-5.007 862。經(jīng)過(guò)t檢驗(yàn),各項(xiàng)回歸系數(shù)的相伴概率值ρ都小于剔除因子標(biāo)準(zhǔn)值0.1。所以,不能從回歸方程中剔除,表明回歸系數(shù)有統(tǒng)計(jì)學(xué)意義。逐步回歸方程為:
(6)
表5 多元線性回歸方程的城市用水量擬合檢驗(yàn)Table 5 Urban Water Consumption Fitting Test for Multiple Linear Regression Equations
續(xù)表5
通過(guò)SPSS軟件模擬出的預(yù)測(cè)值與實(shí)際值在圖形上也可以明顯的看出擬合效果良好,見(jiàn)圖1。
圖1 實(shí)際值和預(yù)測(cè)值擬合效果圖Figure 1 Actual value and predictive value fitting effect chart
1) 影響城市用水量的因素有7個(gè),應(yīng)用多元線性回歸分析原理,利用SPSS軟件通過(guò)逐步回歸分析的方法,最終選擇工業(yè)用水量、人均日常生活用水量、城市總?cè)丝?、固定資產(chǎn)投資、工業(yè)個(gè)數(shù)5個(gè)變量建立回歸模型。并對(duì)實(shí)際值和預(yù)測(cè)值進(jìn)行比較,該模型預(yù)測(cè)最大的相對(duì)誤差是0.378%,最小的誤差為0.058%,平均誤差為0.241%,說(shuō)明SPSS逐步線性回歸模型具有較高的精確度,擬合情況良好,可以用來(lái)預(yù)測(cè)用水量。
2) 該方法建模過(guò)程簡(jiǎn)單、結(jié)果直觀、精確度高,大幅度減少了計(jì)算時(shí)間,以便于推廣和應(yīng)用。如果在樣本足夠且具有典型性和代表性時(shí),可以得到更加精確的結(jié)果。