馮霞
(杭州電子科技大學(xué)經(jīng)貿(mào)學(xué)院,浙江杭州310000)
基于ADL的浙江省總?cè)丝陬A(yù)測
馮霞
(杭州電子科技大學(xué)經(jīng)貿(mào)學(xué)院,浙江杭州310000)
通過對1994-2008年浙江省人口數(shù)據(jù)進(jìn)行相關(guān)性分析,選取對總?cè)丝谟酗@著影響的指標(biāo),進(jìn)而對1990-2008年總?cè)丝诓罘中蛄屑八x指標(biāo)建立自回歸分布滯后模型,并最終選出一個最優(yōu)的模型,預(yù)測2009-2020年浙江省戶籍總?cè)丝跀?shù)。預(yù)測結(jié)果表明,至2020年,浙江省戶籍總?cè)丝跀?shù)將超過5000萬,且依然呈現(xiàn)上升趨勢。
自回歸分布滯后模型;人口總量;人口預(yù)測
浙江省歷年戶籍人口數(shù)據(jù)顯示,2000年全省年末戶籍總?cè)丝跀?shù)為4501.22萬人,比1990年的4234.91萬人增加266.31萬人,增長6.29%;2008年達(dá)4687.85萬人;2010年達(dá)4747.95萬人??梢灶A(yù)見,隨著浙江省人口預(yù)期壽命逐漸增加和人口年齡結(jié)構(gòu)逐步老化,全省人口問題勢必加劇,并將對社會經(jīng)濟(jì)產(chǎn)生很大影響。
因為浙江省人口遷移具有不規(guī)則性,未來的人口遷移控制很難準(zhǔn)確預(yù)測,所以只建立封閉狀態(tài)下的模型,即不考慮省際凈遷移。
根據(jù)人口統(tǒng)計學(xué)的相關(guān)知識可知,一個地區(qū)的人口數(shù)受多重因素影響,包括人口內(nèi)在因素、社會因素及經(jīng)濟(jì)因素等。因此,初步選取總?cè)丝趛1t、65歲及以上老年人口(注:近年來國際上通常以65歲及以上人口稱為老年人口,下文簡稱老年人口)y2t、男女性別比y3t、總和生育率y4t、死亡率y5t、平均預(yù)期壽命y6t6個人口指標(biāo)。為了研究總?cè)丝谥笜?biāo)與其他5個指標(biāo)之間的關(guān)系,本文以1994-2008年浙江省戶籍人口數(shù)據(jù)為樣本數(shù)據(jù),其中平均預(yù)期壽命以常住人口為統(tǒng)計口徑,老年人口數(shù)為老齡化系數(shù)乘以同年戶籍總?cè)丝跀?shù)所得。利用SPSS軟件,對上述6個指標(biāo)作相關(guān)分析,得到各人口統(tǒng)計指標(biāo)的相關(guān)系數(shù)及檢驗,見表1。
由檢驗結(jié)果可知,在顯著性水平0.067下,老年人口、男女性別比、總和生育率及平均預(yù)期壽命與總?cè)丝诘南嚓P(guān)系數(shù)分別達(dá)到了0.887,-0.993,0.485,0.983,除死亡率外,皆通過顯著性檢驗。這說明老年人口、男女性別比、總和生育率及平均預(yù)期壽命與總?cè)丝谥g存在相關(guān)關(guān)系,且與客觀事實相符。同時,由于死亡率與總?cè)丝诘南嚓P(guān)系數(shù)為0.083,其相伴概率為0.769,遠(yuǎn)大于顯著性水平0.067,因而不能拒絕死亡率與總?cè)丝谥g相關(guān)系數(shù)為0的原假設(shè),即死亡率與總?cè)丝谥g不存在相關(guān)關(guān)系——這也較為符合客觀事實。根據(jù)浙江省1994-2008年戶籍人口數(shù)據(jù)可知,戶籍人口死亡率一直維持在6‰左右,而全省的戶籍總?cè)丝谝琅f保持著持續(xù)增長,這表明樣本期內(nèi)總?cè)丝谧兓瘜λ劳雎驶旧蠜]有影響。
表1各人口統(tǒng)計指標(biāo)的相關(guān)系數(shù)及檢驗
自回歸分布滯后模型(Autoregressive distributed lag,簡寫為ADL),是指含有因變量yt的p階滯后和k個額外預(yù)測因子的模型,其中包括第一個預(yù)測因子的q1階滯后,第二個預(yù)測因子的q2階滯后,以此類推。其一般形式:
其中:(1)E(ut/Yt-1,Yt-2,…,X1t-1,X1t-2,…,Xkt-1,Xkt-2,…)=0。
(2)隨機(jī)變量(Yt,X1t,…,Xkt)為平穩(wěn)分布,隨著j值的增大,(Yt,X1t,…,Xkt)與(Yt-j,X1t-j,…,Xkt-j)變成獨(dú)立的。
(3)不存在完全多重共線性。
(4)X1t,…,Xkt和Yt具有非零的有限四階矩。
由于社會環(huán)境、經(jīng)濟(jì)環(huán)境和人類自身發(fā)展等多方面的原因,各人口指標(biāo)之間相互影響的效果,常常不是立即體現(xiàn)出來,而是有時間延滯性或持續(xù)作用,但會在以后一個或幾個時期內(nèi)逐步體現(xiàn)出來。因此,可選用自回歸分布滯后模型進(jìn)行建模并預(yù)測。此外,若在預(yù)測期間發(fā)生突發(fā)狀況或重大災(zāi)難,導(dǎo)致人口狀況發(fā)生突變,即使模型預(yù)測精度再高也可能無法準(zhǔn)確預(yù)測,所以假設(shè)模型是在正常情況下進(jìn)行預(yù)測。
自回歸分布滯后模型主要是針對平穩(wěn)時間序列的建模方法,時間序列的平穩(wěn)性直接關(guān)系到模型的有效性。但是很多時間序列是非平穩(wěn)的,因此在建立自回歸分布滯后模型前,有必要對各序列進(jìn)行平穩(wěn)性檢驗。
一般地說,如果非平穩(wěn)時間序列yt經(jīng)過d次差分達(dá)到平穩(wěn),則稱其為d階單整序列,記作I(d)。時間序列的平穩(wěn)性是其數(shù)據(jù)計量分析有效性的基礎(chǔ),因此其平穩(wěn)性檢驗具有重要意義。本文選采用ADF檢驗法,并根據(jù)赤池信息量(簡記AIC)選擇滯后期。以1990-2008年浙江省戶籍人口數(shù)據(jù)為樣本數(shù)據(jù),運(yùn)用Eviews軟件作相應(yīng)的單位根檢驗。
表2 ADF檢驗結(jié)果
檢驗結(jié)果顯示,在0.11的顯著性水平下,序列y1t、y2t、y3t、y4t都不是平穩(wěn)序列,但是其差分序列▽y1t、▽y2t、▽y3t、▽y4t均為平穩(wěn)序列,所以y1t、y2t、y3t、y4t為同階單整,而序列y6t則是原序列平穩(wěn),與其他各人口序列不是同階單整的。因此,在建立自回歸分布滯后模型時,不選擇平均預(yù)期壽命y6t及其滯后項為解釋變量。
由單位根檢驗可知,原序列y1t、y2t、y3t、y4t都是不平穩(wěn)的,與自回歸分布滯后模型的假設(shè)條件不符,而由于時間序列的差分序列與其本身包含許多一致的信息,所以差分與原變量之間常??梢韵嗷マD(zhuǎn)化。因此通過其差分序列、及建立ADL模型。
但是由于ADL模型即包含多個預(yù)測因子及其滯后期,也包含了被解釋變量的滯后期。因此,ADL模型的參數(shù)估計有點(diǎn)困難,普通最小二乘回歸也會遇到如下問題:
(1)沒有先驗準(zhǔn)則確定滯后期長度;
(2)如果滯后期較長,將缺乏足夠的自由度進(jìn)行統(tǒng)計檢驗;
(3)模型存在多重共線性,具體表現(xiàn)為估計參數(shù)的標(biāo)準(zhǔn)差偏大,使t統(tǒng)計量不顯著,但是總體上的F統(tǒng)計量的值卻很高。
為使建立的人口預(yù)測模型有較高的估計精度,首先建立一個結(jié)構(gòu)比較復(fù)雜的ADL模型,然后經(jīng)過一些對參數(shù)的約束條件,去掉一些變量,并且反復(fù)進(jìn)行建模和模型檢驗,最終得到一個具有良好性質(zhì)的、表達(dá)簡練的模型。雖然理論上可以采用OLS法估計各參數(shù),但是考慮到多重共線性的存在,如果一味地設(shè)法剔除解釋變量有可能引起模型的設(shè)定誤差。因此,在剔除變量、刪選模型的過程中,主要從模型的有效性及其預(yù)測精度著手。根據(jù)平均絕對百分誤差(Mean Abs.Percent Error,簡記為MAPE)和協(xié)變率(Covariance Proportion,簡記為CP)來判斷模型的預(yù)測精度,以AIC和SC來評價模型的優(yōu)劣。一般認(rèn)為,如果MAPE的值低于10,則預(yù)測精度較高,而CP則衡量了剩余的誤差,當(dāng)預(yù)測比較理想時,均方誤差主要集中在CP上。此外,在所選的模型中,挑選AIC與SC相對較小的模型。
通過對數(shù)據(jù)的重復(fù)建模與檢驗,最后選定一個模型為
模型輸出結(jié)果表明,其AIC與SC都相對較小,說明其擬合效果不錯;此外MAPE小于10,CP更是達(dá)到了0.989,說明其具有較高的預(yù)測精度。分別對模型的殘差項進(jìn)行單位根檢驗及LM檢驗,確保所建模型的殘差序列不存在有用信息沒被提取,且殘差序列的樣本自相關(guān)系數(shù)應(yīng)近似為0。檢驗結(jié)果見表3、表4。
表3殘差序列單位根檢驗
表4殘差序列LM檢驗
由表1可知,ADF檢驗統(tǒng)計量的值為-5.70,小于各不同顯著性水平下的t統(tǒng)計量的臨界值。因此,拒絕殘差序列存在單位根的原假設(shè),即殘差序列是平穩(wěn)的。這也表明該模型有效。表2中的檢驗結(jié)果顯示,其相伴概率分別達(dá)到了0.88與0.72,即拒絕原假設(shè)所犯第一類錯誤的概率很大,這表明殘差序列相互獨(dú)立的概率很大,所以不能拒絕序列相互獨(dú)立的原假設(shè),說明殘差序列的樣本自相關(guān)系為0。
1.控制變量的設(shè)定
根據(jù)客觀實際,對總和生育率、男女性別比、老年人口作如下設(shè)定:
(1)總和生育率的設(shè)定。根據(jù)相關(guān)的人口統(tǒng)計學(xué)知識及浙江省目前基本穩(wěn)定的低生育率水平,設(shè)定方案為,2009年總和生育率為1.35,2010年總和生育率為1.40,從2011年起每年上升0.02。
(2)男女性別比的設(shè)定。通過觀察1990-2008年浙江省戶籍人口的男女性別比數(shù)據(jù)可以發(fā)現(xiàn),男女性別比指標(biāo)一直呈下降趨勢,但是每年的下降幅度不一,通過計算各年的下降幅度并計算出其均值為0.2。假定至2020年之前,男女性別比每年按0.2的速度下降。
(3)老年人口的設(shè)定。根據(jù)1990-2008年浙江省戶籍老年人口數(shù)據(jù),建立線性回歸模型,預(yù)測未來老年人口的數(shù)量。假定老年人口y2t與時間t之間存在線性關(guān)系,建立的線性回歸方程
第一排括號為系數(shù)檢驗的t值,第二排括號為t值的相伴概率。由模型輸出結(jié)果可看出,模型(3)的顯著性檢驗F值為139.20,相應(yīng)的p值為0.000,表示無論置信度多小,關(guān)于模型各回歸系數(shù)同時為0的假設(shè)都不成立,且模型調(diào)整后決定系數(shù)R2為0.885,說明模型的擬合效果不錯。由括號中的數(shù)值可知,回歸系數(shù)的t值分別為29.94與11.80,其相伴概率皆為0,這說明模型的系數(shù)對模型的影響是顯著的。因此,用模型(3)預(yù)測2009-2022年浙江省老年人口數(shù)如表5所示。
表5浙江省老年人口數(shù)預(yù)測值
2.總?cè)丝陬A(yù)測
根據(jù)65歲及以上老年人口數(shù)y2t、男女性別比y3t和總和生育率y4t的設(shè)定條件,以及模型(2)對浙江省戶籍總?cè)丝谠隽窟M(jìn)行預(yù)測,預(yù)測結(jié)果見表6。
表6浙江省總?cè)丝谠隽款A(yù)測值表
根據(jù)模型(2)總?cè)丝谠隽孔曰貧w分布滯后模型預(yù)測的浙江省戶籍總?cè)丝谠隽款A(yù)測值,再利用總?cè)丝跀?shù)與總?cè)丝谠隽康年P(guān)系式:y1t=y(tǒng)1t-1+▽y1t,得到2009-2020年浙江省戶籍總?cè)丝跀?shù)的預(yù)測值,具體結(jié)果見表7。
表7浙江省總?cè)丝跀?shù)預(yù)測值表
3.結(jié)論
預(yù)測結(jié)果所示,浙江省總?cè)丝跀?shù)在未來幾年中還會呈上升趨勢,至2020年戶籍總?cè)丝跀?shù)將達(dá)到5192.82萬人,將增加487.98萬人,增長10.37%,平均年增長率為8%。而這僅是在封閉的人口模型下的建模預(yù)測,若引入省際凈遷入人口,情況會更復(fù)雜。因此,浙江省的人口問題必須及早關(guān)注,不僅應(yīng)關(guān)注人口總量,同時還需關(guān)注人口年齡結(jié)構(gòu)及人口質(zhì)量問題。多維度地研究全省人口問題,有利于及時發(fā)現(xiàn)其急劇惡化的可能,主動應(yīng)對,保障經(jīng)濟(jì)社會可持續(xù)和諧發(fā)展。
[1]安和平.中國人口預(yù)測的自回歸分布滯后模型研究[J].統(tǒng)計與決策,2005(8):4-7.
[2]田應(yīng)福、王林.基于ADL模型的貴州人口時間序列分析[J].數(shù)理統(tǒng)計與管理,2009(7):745-750.
[3]易丹輝.數(shù)據(jù)分析與Eviews應(yīng)用[M].北京:中國統(tǒng)計出版社,2002.
[4]謝識予.計量經(jīng)濟(jì)學(xué)教程[M].上海:復(fù)旦大學(xué)出版社,2004.
[5]James H.Stock、Mark W.Watson(王慶石譯).經(jīng)濟(jì)計量學(xué)[M].大連:東北財經(jīng)大學(xué)出版社,2005.
[6]張曉峒.應(yīng)用數(shù)量經(jīng)濟(jì)學(xué)[M].北京:機(jī)械工業(yè)出版社,2009.
(責(zé)任編輯:施越霞)
book=1,ebook=1
10.3969/j.issn.1674-8905.2011.11.016