◇李 頻 胡明形
基于 ARIMA模型的中國人口自然增長率預(yù)測
◇李 頻 胡明形
影響我國經(jīng)濟社會發(fā)展的關(guān)鍵因素之一是人口問題。21世紀(jì)以來,我國人口增長率一直處于較低的水平,人口增長趨勢發(fā)生了較大變化。且近年來,我國的人口發(fā)展出現(xiàn)了如人口老齡化等新特點,人口發(fā)展面臨著前所未有的復(fù)雜局面。由此,準(zhǔn)確判斷我國未來人口發(fā)展趨勢具有重要的戰(zhàn)略意義。本文利用我國1949~2013年的人口自然增長率數(shù)據(jù),建立ARIMA(2,1,0)模型,并利用已知的2014年人口自然增長率數(shù)據(jù)進行預(yù)測檢驗,發(fā)現(xiàn)效果較好,故進一步給出2015~2018年的人口自然增長率預(yù)測數(shù)據(jù),得出我國人口自然增長率將穩(wěn)定在4.8%~5%之間,短期之內(nèi)不會有太大波動。
人口自然增長率;ARIMA模型;預(yù)測;時間序列
我國作為世界上人口最多的發(fā)展中國家,人口眾多、資源相對不足、環(huán)境承載力較弱是我國現(xiàn)階段的基本國情,短時間內(nèi)難以改變(景倩,2008)。人口問題一直是制約我國發(fā)展的關(guān)鍵因素之一(朱艷偉,張永利,2010)。改革開放以來,人口發(fā)展態(tài)勢受到國家控制人口增長政策的影響,人口增長趨勢發(fā)生了巨大變化。20世紀(jì)90年代初開始,我國迅速增長的人口數(shù)量已經(jīng)過渡到了一個低生育水平的時期,低生育水平在21世紀(jì)之后表現(xiàn)得尤為突出。在這一低生育水平的時期,人口增長放緩(王光召,安和平,2014)。近年來,我國的人口發(fā)展出現(xiàn)了一些新的特點,例如老齡化進程加速、鄉(xiāng)村人口城鎮(zhèn)化等因素。目前我國正處于全面建設(shè)小康社會的快速轉(zhuǎn)型期,人口發(fā)展面臨著前所未有的復(fù)雜局面,人口安全面臨的風(fēng)險依然存在(馮守平,2008)。由此,準(zhǔn)確判斷我國未來一段時間的人口發(fā)展趨勢具有極其重要的戰(zhàn)略意義(王玉春,2008)。
對我國未來人口增長進行預(yù)測的文獻和方法有很多,如帶擾動的人口增長模型、多項式擬合法、Leslie矩陣迭代、Logistic阻滯增長模型等,不一而足。
在運用時間序列方法對我國人口增長進行分析預(yù)測的文獻中,熊建平等(2005)利用高階線性AR方程對人口進行預(yù)測,但所用數(shù)據(jù)僅限于遼寧省。此外,利用時間序列的ARIMA模型對預(yù)測我國人口增長率的文獻還不是很多。由此,本文根據(jù)我國人口增長率的歷史數(shù)據(jù),建立ARIMA(p,d,q)模型,在此基礎(chǔ)上對我國人口增長做出預(yù)測和分析。
一般情況,一個變量會受到其過去及過去到現(xiàn)在的各種因素的影響。由此建立的模型如下所示:
其中,xt為零均值平穩(wěn)時間序列,p和q分別為該模型的自回歸階數(shù)和移動平均階數(shù);p和q之和為不為零的未知參數(shù);εt為獨立的誤差項。假如該模型的特征根都在單位圓外,我們稱之為ARMA(p,q)模型,但其不足在于僅僅能夠應(yīng)用在平穩(wěn)序列,而一般常見的時間序列都是非平穩(wěn),因此必須通過差分,把其轉(zhuǎn)換成平穩(wěn)序列,這樣才能應(yīng)用ARMA模型,故筆者引入ARIMA模型。ARMA模型是特殊的ARIMA模型,即為差分階數(shù)為0的ARIMA模型。
ARIMA模型包含自回歸階數(shù)(p)、差分階數(shù)(d)和移動平均階數(shù)(q)這三個參數(shù),因此又被稱為帶差分的自回歸移動平均模型。模型的一般形式為ARIMA(p,d,q)。對于非平穩(wěn)的時間序列模型,在建模過程中,我們需要將其差分d次,將其轉(zhuǎn)化為平穩(wěn)序列,再用ARMA(p,q)進行擬合。此時,我們將原時間序列所擬合的模型稱為ARIMA(p,d,q)模型(王燕,2012)。
1.模型的建立
本文所利用的數(shù)據(jù)選自中國國家統(tǒng)計局(http://data.stats. gov.cn/),指標(biāo)為人口自然增長率。樣本區(qū)間為1949年到2013年,共65個數(shù)據(jù),由此觀察序列R的自相關(guān)圖和偏自相關(guān)圖,如附圖所示。
附圖 1949~2013年我國人口自然增長率序列自相關(guān)和偏自相關(guān)圖“r”的趨勢和相關(guān)分析
從附圖中的自相關(guān)圖可以看出,其自相關(guān)系數(shù)衰減到0的速度非常緩慢,所以斷定該序列不平穩(wěn)。
為使序列平穩(wěn),本文對序列進行差分處理,消除序列的趨勢性。通過作R的一階差分序列圖發(fā)現(xiàn),對原始數(shù)據(jù)進行一階差分以后基本消除了長期趨勢的影響,序列平穩(wěn)化,同時運用ADF檢驗對上述經(jīng)過一階差分后的數(shù)據(jù)進行平穩(wěn)性檢驗,檢驗結(jié)果見表1。
表1 我國人口自然增長率一階差分序列單位根檢驗結(jié)果表
從檢驗結(jié)果可以看出,三種類型的單位根檢驗對應(yīng)的p值均非常接近0,小于1%的顯著性水平,因此拒絕“序列存在一個單位根”的原假設(shè),說明此時序列是平穩(wěn)序列。在序列平穩(wěn)的基礎(chǔ)上,觀察其白噪聲檢驗結(jié)果,如表2所示。
表2 我國人口自然增長率一階差分序列白噪聲檢驗結(jié)果表
其卡方統(tǒng)計量對應(yīng)的p值均顯著小于規(guī)定的顯著性水平0.05,拒絕“一階差分平穩(wěn)序列是白噪聲”的原假設(shè),說明一階差分處理后的平穩(wěn)序列仍有可以提取的信息,可以進一步識別擬合模型。通過以上一系列的預(yù)處理,筆者嘗試建立ARIMA(p,1,q)模型。
由上可知ARIMA(p,1,q)模型通過了平穩(wěn)性檢驗,因此該序列的差分階數(shù)d為1,進一步推斷p和q。p和q可以通過樣本的自相關(guān)系數(shù)和偏自相關(guān)系數(shù)的觀察得到。假若偏自相關(guān)系數(shù)呈現(xiàn)出p階截尾而自相關(guān)系數(shù)呈現(xiàn)出拖尾的特征,可采用AR(p)模型;假若自相關(guān)系數(shù)表現(xiàn)出q階截尾,而偏自相關(guān)系數(shù)拖尾,則采用MA(q)模型;但是,若自相關(guān)函數(shù)和偏自相關(guān)函數(shù)均表現(xiàn)出拖尾的特征,則采用ARIMA(p,1,q)模型。筆者發(fā)現(xiàn),其偏自相關(guān)系數(shù)呈現(xiàn)出顯著的二階截尾的特征,而其自相關(guān)系數(shù)呈現(xiàn)出拖尾的特征,由此初步確定該差分序列為AR(2)模型。
在經(jīng)驗識別的基礎(chǔ)上,利用SAS軟件嘗試對模型進行擬合。
如果模型中的每一項系數(shù)都通過t檢驗,則就選該模型作為最后的模型來建模;不然,就將模型里未通過t檢驗的各項剔除再來建模,直到最終模型里的每一項系數(shù)都通過t檢驗。AIC準(zhǔn)則是一種適用面非常廣泛的統(tǒng)計模型選擇準(zhǔn)則,簡稱最小信息準(zhǔn)則。BIC準(zhǔn)則或SBC準(zhǔn)則是對AIC準(zhǔn)則的修正,將未知參數(shù)個數(shù)的懲罰參數(shù)由2變成了樣本容量的對數(shù)函數(shù)。王燕(2012)建立的每一個模型都會給出一個AIC參數(shù)和BIC參數(shù),選擇每一項系數(shù)都通過t檢驗且AIC參數(shù)和BIC參數(shù)最小的模型作為原序列預(yù)測的相對最優(yōu)模型。
運行SAS中的MINIC程序,得到p從0到5和q從0到5共計36個模型的BIC參數(shù),詳見表3。
表3 不同擬合模型的最小信息原則(BIC)參數(shù)結(jié)果匯總表
根據(jù)BIC最小信息準(zhǔn)則,AR(5)模型最優(yōu),因此,擬合AR(5)模型,檢驗其每一項的系數(shù)能否通過t檢驗。
查看SAS程序運行結(jié)果可知,AR(5)模型的AIC參數(shù)為347.869,SBC參數(shù)為360.8223,而常數(shù)項和部分系數(shù)沒有通過t檢驗,見表4。
表4 AR(5)模型參數(shù)檢驗結(jié)果表
去掉常數(shù)項,再次擬合模型。去掉常數(shù)項的AR(5)模型,其AIC參數(shù)為346.1266,SBC參數(shù)為356.921,前兩項系數(shù)通過了t檢驗,而后三位系數(shù)沒有通過t檢驗,同樣去掉后三項,嘗試擬合沒有常數(shù)項的AR(2)模型。去掉常數(shù)項的AR(2)模型,其AIC參數(shù)為343.5249,SBC參數(shù)為347.8427,在三個模型中兩個參數(shù)均為最小,且兩個系數(shù)都通過了t檢驗,見表5。
表5 無常數(shù)項AR(2)模型參數(shù)檢驗結(jié)果表
結(jié)合上文經(jīng)驗識別的模型和模型擬合結(jié)果,筆者可以判斷最優(yōu)預(yù)測模型為ARIMA(2,1,0)。
因此本文選用的人口增長預(yù)測模型為ARIMA(2,1,0),由上文可知,其系數(shù)均已通過t檢驗。根據(jù)SAS給出的估計結(jié)果,較優(yōu)的模型ARIMA最終表達式為:
2.模型的診斷與檢驗
當(dāng)模型的未知參數(shù)被估計出之后,還應(yīng)進一步對其殘差序列進行白噪聲檢驗。
殘差序列的檢驗結(jié)果見表6。
表6 殘差的白噪聲檢驗結(jié)果表
從表6殘差的自相關(guān)檢查可以看出,從滯后6階到滯后24階,殘差卡方檢驗對應(yīng)的 p值分別為0.2621,0.3309,0.6992,0.9065,均顯著大于0.05,可以判斷該殘差序列為白噪聲,故所建立的模型ARIMA(2,1,0)對原序列的信息提取充分,檢驗通過。
3.模型的應(yīng)用
對ARIMA(2,1,0)進行預(yù)測效果檢驗。利用SAS的Forecast程序預(yù)測2014年的人口自然增長率,求得P2014=4.83%,而2014年的實際人口自然增長率為5.21%,誤差為(5.21%-4.83%)/5.21%=7.29%,不超過10%,可認(rèn)為預(yù)測效果較好,可以用該模型對未來幾年的人口自然增長率進行預(yù)測。預(yù)測結(jié)果如表7所示。
表7 我國人口自然增長率預(yù)測結(jié)果匯總表
即預(yù)測的2015年的人口自然增長率為4.80%,2016年4.83%,2017年4.86%,2018年4.86%。
從以上預(yù)測的數(shù)據(jù)可以看出,我國的人口自然增長率將穩(wěn)定在4.8%~5%之間,短期之內(nèi)不會有太大波動。
需要強調(diào)的是,由于影響我國人口自然增長率的因素很多,包括政策和各種宏觀經(jīng)濟因素,而ARIMA模型僅僅依據(jù)人口自然增長率自身時間序列進行預(yù)測,因此所假設(shè)的模型是考慮到其他影響因素變化不大的前提下進行的短期預(yù)測,但是其較長時期預(yù)測能力則會隨著其他因素,尤其是政策因素和宏觀經(jīng)濟因素的變化而下降。這也是ARIMA模型通常只能用來做短期預(yù)測的原因。
本文利用時間序列相關(guān)理論,對1949~2013年我國人口自然增長率建立了AR(2,1,0)模型,通過檢驗證明該模型能在一定程度上判斷我國未來人口的發(fā)展趨勢,并對我國2015~2018年的人口自然增長率進行了預(yù)測。
通過預(yù)測的數(shù)據(jù),筆者判斷未來2年我國人口自然增長率將穩(wěn)定在4.8%左右,不會有太大的波動。但由于影響人口自然增長率的因素還有很多,包括政策因素和宏觀經(jīng)濟因素等等。本文建立的ARIMA模型僅討論我國人口自然增長率自身的時間序列變化來探究其在未來一段時間內(nèi)的發(fā)展趨勢。且當(dāng)政策因素和宏觀經(jīng)濟因素發(fā)生變化時,ARIMA模型的預(yù)測功能會大大下降。如我國于2015年10月開始推出全面二孩政策,生育政策的改變勢必在一定程度上影響人口自然增長率。此時,本文所建立ARIMA模型所預(yù)測的人口自然增長率的準(zhǔn)確程度會受到一定的影響。
盡管如此,后續(xù)的研究可以通過實行二孩政策之后的人口自然增長率與本模型預(yù)測出的人口自然增長率進行對比,探究二孩政策對我國人口自然增長率的影響。因此,本文所建立的對人口自然增長率進行預(yù)測的ARIMA模型仍具有較強的實際意義,且還有一定的研究空間。
[1]馮守平.中國人口增長預(yù)測模型[J].安徽科技學(xué)院學(xué)報,2008 (06).
[2]景倩.中國人口增長趨勢預(yù)測模型[J].今日南國(理論創(chuàng)新版),2008(03).
[3]王光召,安和平.低生育背景下中國人口慣性與人口增長峰值預(yù)測[J].寧夏大學(xué)學(xué)報(人文社會科學(xué)版),2014(03).
[4]王燕.應(yīng)用時間序列分析[M].中國人民大學(xué)出版社,2012.
[5]王玉春.中國人口增長預(yù)測[J].甘肅聯(lián)合大學(xué)學(xué)報(自然科學(xué)版),2008(05).
[6]熊建平,吳建華,萬國金.AR模型在人口增長預(yù)測中的應(yīng)用[J].計算機與現(xiàn)代化,2005(10).
[7]朱艷偉,張永利.中國人口增長預(yù)測模型及其改進[J].統(tǒng)計與決策,2010(16).
(作者單位:北京林業(yè)大學(xué)經(jīng)濟管理學(xué)院)
10.13999/j.cnki.scyj.2017.05.011