鄭 靜,張桂軍,黃佩佩
(杭州電子科技大學(xué)數(shù)學(xué)研究所,浙江 杭州 310018)
?
中國老齡人口死亡率建模及預(yù)測
鄭 靜,張桂軍,黃佩佩
(杭州電子科技大學(xué)數(shù)學(xué)研究所,浙江 杭州 310018)
我國老齡人口死亡率在時間上存在高度線性相關(guān)性,并且其對數(shù)死亡率的改善速度存在非線性特征.根據(jù)我國老齡人口實際死亡率特點,提出一個新的模型,使得這些性質(zhì)在模型中得到體現(xiàn).并針對我國老齡人口死亡率數(shù)據(jù)較少的特點,使用MCMC方法對模型參數(shù)進行估計,預(yù)測時充分利用參數(shù)的分布信息,給出未來幾年死亡率的均值和分布情況,從而使預(yù)測結(jié)果更加可信.
老齡人口死亡率;馬爾科夫鏈蒙特卡羅方法;Lee-Cater模型
全球人口死亡率經(jīng)歷了一百多年的持續(xù)下降,而且這種趨勢仍在持續(xù),但引起死亡率下降的原因發(fā)生了一些變化.文獻[1]提出,早期的死亡率下降主要是由新生兒的成活率提高引起,近年來主要來源于70歲以上人口的增多.因此,對老齡人口死亡率的建模和預(yù)測顯得尤為重要.
早期應(yīng)用最廣的老齡人口死亡率模型是Gompertz模型,這個模型是單因子的死亡率模型,對高齡人口估計值偏大.文獻[2]中的經(jīng)典Lee-Cater模型也存在同樣問題,對老齡人口死亡率預(yù)測不夠準確.2005年,文獻[3]提出了Logistic模型,它刻畫的是單因素年齡的死亡率;正如Lee-Cater模型并不適用于英國和澳大利亞,Logistic模型對我國的老齡人口死亡率數(shù)據(jù)擬合的準確度也不夠.近年來,文獻[4-5]利用Lee-Cater的確定模型和隨機化模型對中國的死亡率進行建模,文獻[6]研究了我國老年人口的死亡率趨勢.本文在經(jīng)典Lee-Cater模型的基礎(chǔ)上,提出了一種新的老齡人口死亡率模型,根據(jù)1994—2012年我國老齡人口死亡率數(shù)據(jù),用MCMC算法對模型進行了驗證,并對未來10年的死亡率進行了預(yù)測.
1.1 經(jīng)典Lee-Cater模型
經(jīng)典Lee-Cater模型最初用于美國人口死亡率的建模,其原始模型為:
ln mx,t=αx+βxkt+εx,t
(1)
其中:mx,t為x歲人群在t年的中心死亡率;αx為特定x歲人群的平均對數(shù)死亡率;kt為對數(shù)死亡率隨時間t的變化程度,也稱為死亡率指數(shù);βx為特定x歲人群對數(shù)死亡率對kt的依賴程度;εx,t為殘差項,假設(shè)服從均值為0,方差為σ2的正態(tài)分布.為了得到唯一的解,還需將參數(shù)進行標準化:∑βx=1,∑kt=0.在Lee-Carter模型中,kt有一個負的漂移項,從而對數(shù)死亡率表現(xiàn)為線性下降趨勢.Lee-Carter模型的主要缺點是所有年齡死亡率的下降速度都由同一kt決定,從而導(dǎo)致了老年人口死亡率預(yù)測值偏高.
1.2 我國老齡人口死亡率數(shù)據(jù)分析
本文的分析數(shù)據(jù)來源于中國統(tǒng)計年鑒(1994—2012)[7]、中國人口與就業(yè)統(tǒng)計年鑒(1994—2012)[8],經(jīng)過數(shù)據(jù)分析,得出我國老齡人口死亡率有以下特征.
1)老齡人口死亡率與時間高度相關(guān).
2013年,文獻[9]指出,老齡人口死亡率與時間高度相關(guān)的.為了考察我國老齡人口死亡率的相關(guān)性,本文引入時間效應(yīng)項,用來消除各年齡組死亡率因在時間上的共同驅(qū)動而存在的相關(guān)性.定義移除年效應(yīng)的老年人口死亡率的相關(guān)系數(shù)為:
(2)
移除年效應(yīng)的老年人口死亡率的相關(guān)性不再具有一致性,相關(guān)系數(shù)的絕對值小于0.6,說明56~90歲的死亡率的高度線性相關(guān)性主要表現(xiàn)在年時間效應(yīng)上.
2)我國老齡人口對數(shù)死亡率呈非線性變化.
在相關(guān)分析中,死亡率在時間項存在時為高度一致的線性相關(guān),移除后表現(xiàn)出弱相關(guān)性.在經(jīng)典的Lee-Cater模型中,時間項βxkt為帶負漂移的隨機游走,這意味著時間項的線性下降,從而對數(shù)死亡率線性下降.我國老齡人口對數(shù)死亡率改善速度不是線性變化的,存在速度的改變.將死亡率時間趨勢項進行分解,在模型中考慮對數(shù)死亡率下降速度的變化.
令ωx,t=ln mx,t-αx-κt,ωx,t的一階差分為Δx,t=ωx,t+1-ωx,t,
根據(jù)1994—2012年我國人口死亡率數(shù)據(jù)分析老齡人口死亡率的改善速度趨勢項,得到的結(jié)果如表1所示.
表1 a的估計值和估計方差
1.3 雙重時間效應(yīng)的Lee-Cater模型
由前面的分析,針對我國老齡人口的死亡率的特點,本文提出以下模型:
(3)
其中,mx,t為年齡x歲在第t年的死亡率;參數(shù)αx為x歲年齡組的人口歷年平均對數(shù)死亡率,度量x歲人口死亡率的平均水平;κt為第t年對各年齡組死亡率影響;參數(shù)λ為死亡率長期改善因子,反應(yīng)死亡率在隨時間改變的同時,各年齡組自身死亡率的改善程度;βx為改善因子,反映不同年齡組死亡率改善的速度,βx為正值時表示該年齡組的死亡率改善速度低于死亡率改善的平均水平,為負值時表示死亡率改善速度高于平均水平.
經(jīng)典的Lee-Cater模型采用奇異值分解來估計參數(shù)然后進行二次估計,是利用假設(shè)死亡人口服從Poisson分布對參數(shù)進行極大似然估計,這些估計方法都難以給出參數(shù)的分布信息.MCMC方法不需要做額外的假設(shè),也不需要二次估計,同時能給出估計量的區(qū)間估計.在進行預(yù)測時,MCMC方法考慮了估計參數(shù)的分布信息,從而能保證在數(shù)據(jù)量較少的情況下,模型估計參數(shù)對數(shù)據(jù)的依賴,保證模型的穩(wěn)定性.
2.1 MCMC參數(shù)估計方法
數(shù)據(jù)來源為中國人口與就業(yè)統(tǒng)計年鑒和人口普查.從相關(guān)性分析中知道,55歲的死亡率和其它年齡組的死亡率有較大差異,在模型計算中選取1994—2012年的56~90歲的人口死亡率數(shù)據(jù)擬合模型:
ln mx,t=αx+κt+βxe-λt+εx,t
(4)
2.2 參數(shù)的估計值及其分布
在實驗中,共計迭代1 500次.去掉前面500個迭代值,利用樣本均值作為估計量的估計值,樣本的第50個次序統(tǒng)計量和第950個次序統(tǒng)計量構(gòu)成估計量的95%置信區(qū)間,各參數(shù)的估計值如圖1—4所示.
圖1 αx的估計
圖2 βx的估計
圖3 κt的估計
圖4 λ的樣本直方圖
圖1—3中點劃線為估計參數(shù)的95%置信上限,虛線為估計參數(shù)的95%置信下限.圖1是死亡率中心水平αx的估計值,死亡率中心和年齡之間近似的線性關(guān)系.圖2中改善速度βx在56~77歲更趨向取正值,而之后的死亡率趨向取負值,在77歲之前的死亡率中,死亡率改善速度小于整體趨勢,77歲之后的改善速度比整體水平更快,從而還有更大的改善空間.圖3為的短期趨勢κt估計值,可以看出,在整體上κt有線性下降的趨勢.圖4為長期趨勢項λ的直方圖,大于0的λ表示死亡率具有非線性下降趨勢.
2.3 擬合誤差
根據(jù)1994—2012年的56~90歲的人口死亡率數(shù)據(jù),并利用MCMC算法進行參數(shù)估計,擬合絕對誤差如圖5所示,模型擬合的殘差相關(guān)性如圖6所示.
圖5 絕對誤差
圖6 殘差相關(guān)性
從圖5可以看出,模型的誤差都非常小,特別是在85歲以下,絕對誤差為0.02,然而在85歲以上,誤差增加,這主要是因為這5個年齡組人口基數(shù)小,并且本身數(shù)據(jù)波動大.圖6已經(jīng)沒有顯著的相關(guān)性,說明本文所用的模型是充分的.
部分年齡死亡率的誤差的相關(guān)統(tǒng)計如表2所示.
表2 死亡率擬合誤差
從表2可以看出,絕對誤差最大的88歲組的相對誤差為3.01%,絕對誤差下的相對誤差為10.21%,其它組均在10%以下.
3.1 死亡率模型檢驗
接下來研究模型的預(yù)測表現(xiàn),需要對短期時間趨勢項κt進行外推,從圖3中可以看出,κt有近似下降趨勢,序列均值存在漂移,利用時間序列方法對κt項進行建模,擬合模型為:
(5)
κt是含有一個單位根的非平穩(wěn)過程,并且有一個負的漂移,κt的一階差分為AR(1)模型.模型中常數(shù)項的方差為0.000 3,一階滯后系數(shù)的方差為0.032 0.模型的常數(shù)項為-0.03,從而死亡率在總體上有-0.02的改進速度.為了驗證模型的預(yù)測表現(xiàn)和穩(wěn)定性,分別以1994—2011年、1994—2010年、1994—2009年為原始數(shù)據(jù)對2012年死亡率進行一步,二步、三步預(yù)測,圖7為模型依賴不同數(shù)據(jù)下對2012年預(yù)測,圖8為利用2011年之前數(shù)據(jù)對2012年進行預(yù)測的90%置信區(qū)間.
圖7 預(yù)測2012年死亡率
圖8 預(yù)測2012年死亡率置信區(qū)間
對比圖7中3個估計值的曲線,不同數(shù)據(jù)預(yù)測的2012年死亡率之間偏差很小,即使在高年齡組,不同預(yù)測值之間偏差也很小.在多步預(yù)測和實際值之間,56~64歲的估計和實際值基本重疊,65~75歲之間死亡率估計偏低,76~85歲的死亡率估計值和實際值相互交錯.從圖8中可以看出,所有死亡率的估計在90%的置信區(qū)間以內(nèi).86歲及其以上年齡組死亡率被低估,其實際值在90%的置信區(qū)間以外,這個年齡段實際死亡率高于模型估計的死亡率.
由圖7和圖8可以看出,模型在預(yù)測時對原始數(shù)據(jù)依賴較小,模型比較穩(wěn)定.在90%的置信區(qū)間以內(nèi),85歲以下預(yù)測都是在預(yù)測區(qū)間內(nèi)部,特別是在低年齡組,死亡率的預(yù)測在均值上,結(jié)合表2的數(shù)據(jù),在低年齡組的死亡率擬合相對誤差為6%,模型在穩(wěn)定性和精確性上都有良好表現(xiàn).
3.2 未來10年死亡率預(yù)測
圖7顯示說明,模型沒有出現(xiàn)過擬合現(xiàn)象,并且在多步預(yù)測上預(yù)測均值和實際死亡率也相差很小,可知模型在多步預(yù)測上有較高的精度.利用時間序列對κt進行預(yù)測,從而預(yù)測未來10年的死亡率,如圖9、10所示.
圖9 2017年和2022年預(yù)測死亡率
圖10 2022年預(yù)測死亡率置信區(qū)間
從圖9中可以看出,2017年和2022年死亡率的差異非常小,說明未來10年老年人口死亡率呈下降趨勢.從置信區(qū)間中也可以看出預(yù)測死亡率在分布上是有偏的.可以得出以下幾點結(jié)論:1)2012—1017年的死亡率改善效果不明顯,而在2017—2022年的死亡率改善明顯.2)年齡較高的死亡率改善要比年齡較小的死亡率改善更快.未來10年內(nèi),74歲以下的死亡率基本沒有改善的跡象,然而85歲以上死亡率改善明顯.3)到2022年,在95%的置信區(qū)間內(nèi),死亡率水平不會超過2012年的死亡率水平,同時,未來死亡率的改善區(qū)間非常大.
本文重點研究了我國老齡人口的死亡率建模及預(yù)測問題,在經(jīng)典的Lee-Cater模型的基礎(chǔ)上,提出一個全新的模型,雙重時間效應(yīng)的Lee-Carter模型.把死亡率隨時間的改善分解為短期改善和長期改善,其中在短期改善上,利用隨機游走建模,在長期改善上,利用指數(shù)函數(shù)建模,并利用MCMC方法進行參數(shù)估計和預(yù)測.本文的模型在預(yù)測時考慮了參數(shù)的分布,很好地克服了因我國老齡人口的死亡數(shù)據(jù)不足造成的參數(shù)波動問題,從而在不同的歷史數(shù)據(jù)下都有較好的預(yù)測表現(xiàn).
[1]WILMOTH J R, DEEGAN L J, LUNDSTR?M H, et al. Increase of maximum life-span in Sweden, 1861-1999[J]. Science, 2000, 289(5488): 2366-2368.
[2]LEE R D, CARTER L R. Modeling and forecasting US mortality [J]. Journal of the American statistical association, 1992, 87(419): 659-671.
[3]BONGAARTS J. Long-range trends in adult mortality: Models and projection methods[J]. Demography, 2005, 42(1): 23-49.
[4]王曉軍,任文東.有限數(shù)據(jù)下Lee-Carter模型在人口死亡率預(yù)測中的應(yīng)用[J].統(tǒng)計研究,2012,29(6):87-94.
[5]吳曉坤,王曉軍.中國人口死亡率Lee-Carter模型的再抽樣估計、預(yù)測與應(yīng)用[J].中國人口科學(xué),2014(4):27-34.
[6]王曉軍,趙明.中國高齡人口死亡率隨機波動趨勢分析[J].統(tǒng)計研究,2014,31(9):51-57.
[7]中華人民共和國國家統(tǒng)計局.中國統(tǒng)計年鑒[DB/OL].[2015-12-01].http://#cnki.net/kns55/Navi/HomePage.aspx?id=N2010100096&name=YINFN&floor=1.
[8]國家統(tǒng)計局人口和就業(yè)統(tǒng)計司.中國人口和就業(yè)統(tǒng)計年鑒[DB/OL].[2015-12-01].http://#cnki.net/kns55/navi/YearBook.aspx?id=N2014050071&floor=1.
[9]MITCHELL D, BROCKETT P, MENDOZA-ARRIAGA R, et al. Modeling and forecasting mortality rates[J]. Insurance Mathematics & Economics, 2013, 52(2): 275-285.
Modeling and Forecasting for Chinese Aging Population Mortality
ZHENG Jing, ZHANG Guijun, HUANG Peipei
(InstituteofMathematics,HangzhouDianziUniversity,HangzhouZhejiang310018,China)
There is a high linear correlation for Chinese aging population mortality about time. It exits nonlinear characteristics to the rate of improvement of logarithm mortality. In this paper, we propose a new model to fit the characteristics of the actual mortality rate of aging population. MCMC method is used to estimate the parameters of the model, which can solve the problem of less data of aging population. Using MCMC methods, the mean and distribution of forecasting mortality are given. The prediction results are more credible because our method utilizes distribution information about the parameters.
aging mortality; MCMC method; Lee-Cater model
10.13954/j.cnki.hdu.2016.06.015
2016-03-31
鄭靜(1970-),女,安徽安慶人,副教授,統(tǒng)計學(xué).
C812
A
1001-9146(2016)06-0071-06