玉婻寶 隋曉雪 霍帥
摘要:本文中應(yīng)用普通的線性回歸--最小二乘法和廣義線性模型對(duì)我國人口死亡率的預(yù)測(cè)模型進(jìn)行研究,得出死亡率預(yù)測(cè)模型,分析結(jié)果,從結(jié)果中可為制定中國人口政策提供一定的依據(jù)。
關(guān)鍵詞:負(fù)二項(xiàng)回歸;死亡率預(yù)測(cè)
1.研究背景
人口老齡化是指總?cè)丝谥幸蚰贻p人口數(shù)量減少、年長(zhǎng)人口數(shù)量增加而導(dǎo)致的老年人口比例相應(yīng)增長(zhǎng)的動(dòng)態(tài)。按照這個(gè)標(biāo)準(zhǔn),我國已于1999年進(jìn)入老齡社會(huì)。人口老齡化產(chǎn)生的原因:出生率下降、人口壽命提高。近年來我國為防止老齡化更加嚴(yán)重,出臺(tái)的“二孩”政策。但在有些專家提出“二孩”政策并不能真正改善老齡化問題,只是一個(gè)緩解的過程。人口老齡化問題關(guān)乎我國未來經(jīng)濟(jì)社會(huì)的長(zhǎng)遠(yuǎn)發(fā)展,必須對(duì)當(dāng)前我國人口老齡化的趨勢(shì)及可能帶來的影響進(jìn)行深入分析,以便及時(shí)調(diào)整相應(yīng)的政策和措施加以應(yīng)對(duì)。因此研究我國人口死亡率模型,建立預(yù)測(cè)模型是非常有必要的。
2.數(shù)據(jù)的處理與描述
2.1 數(shù)據(jù)的描述
對(duì)數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì)分析,研究各數(shù)據(jù)指標(biāo)之間的關(guān)系,分析出男性生存人口數(shù)、死亡人數(shù)、死亡率隨年齡有一定的規(guī)律變化。為使變量之間的分布波動(dòng)相對(duì)穩(wěn)定,呈現(xiàn)的分布更明顯,考慮對(duì)男性生存人口數(shù)、死亡人數(shù)、死亡率三個(gè)變量進(jìn)行對(duì)數(shù)變換,畫出散點(diǎn)圖??傻贸鲇嘘P(guān)男性生存人口數(shù)、死亡人數(shù)、死亡率的對(duì)數(shù)隨年齡變化的大致規(guī)律。
(1)死亡率對(duì)數(shù)在0至10歲這個(gè)區(qū)間呈遞減趨勢(shì),從10歲開始,男性死亡率隨年齡的增加而增加。
(2)男性死亡人口數(shù)的對(duì)數(shù)總體趨勢(shì)是隨著年齡的增加而增加,但在0至10歲之間是呈遞減趨勢(shì),隨后增加,直到75歲之后又遞減。
(3)男性生存人口數(shù)總體趨勢(shì)是隨著年齡的增加而減少,在0至50歲之間有波動(dòng)性。
2.2 響應(yīng)變量分布的研究
由死亡人數(shù)對(duì)數(shù)直方圖可根據(jù)橫軸將數(shù)據(jù)分為兩部分,以log(男性死亡人口數(shù))=10為分界點(diǎn)。采用KS檢驗(yàn)對(duì)雙峰分布擬合效果進(jìn)行檢驗(yàn), 值小于顯著性水平 ,拒絕原假設(shè),認(rèn)為擬合的雙峰分布不能確切地描述死亡率對(duì)數(shù)的分布情況。不能從分布情況來建立預(yù)測(cè)模型,考慮從變量之間的關(guān)系來建立模型。
3.人口死亡率的模型建立及結(jié)果分析
3.1模型建立
利用最小二乘法擬合死亡人數(shù)。模型建立: ,響應(yīng)變量Y為死亡人數(shù)?;貧w變量X包含年份、年齡和生存人口數(shù)對(duì)數(shù)。檢驗(yàn)?zāi)P惋@著性,利用R軟件實(shí)現(xiàn),比較P值與預(yù)設(shè)α值0.05后,可認(rèn)為所有變量在顯著性水平為0.05下具有顯著性。但擬合優(yōu)度的值為0.6486,修正后的擬合優(yōu)度為0.6476,擬合程度不高。
3.2 模型分析
對(duì)模型進(jìn)行殘差分析,畫出殘差對(duì)擬合值散點(diǎn)圖、殘差的正態(tài)QQ圖、位置尺度圖、學(xué)生化殘差與杠桿值圖,曲線點(diǎn)表明存在非線性,可能意味著響應(yīng)變量和回歸變量之間不是線性的。說明用最小二乘方法來建立死亡人數(shù)的預(yù)測(cè)模型是不適合的??紤]建立用廣義線性模型來建立模型。
3.3 負(fù)二項(xiàng)廣義線性模型
3.3.1 模型建立
在建立中國死亡人數(shù)模型時(shí),設(shè) 為年齡i,年份j的死亡人數(shù), 為年齡i,年份j的生存人數(shù), 表示包括常數(shù)項(xiàng)和年齡i、年份j的解釋變量對(duì)應(yīng)的設(shè)計(jì)向量,向量 為模型中的待估參數(shù)。
連接函數(shù)為
因此對(duì)中國死亡人數(shù)建立的負(fù)二項(xiàng)廣義線性模型為:
利用R語言實(shí)現(xiàn)模型,得出的結(jié)果如下所示
Null deviance: 43790.1 Residual deviance: 1014.5 AIC: 20786
在顯著性水平α=0.05、α=0.1下,兩個(gè)解釋變量的分量都是顯著的。由 ,得出包括年齡、年份解釋變量的偏差統(tǒng)計(jì)量的值遠(yuǎn)遠(yuǎn)小于不包括年齡、年份解釋變量的偏差統(tǒng)計(jì)量的值,故建立死亡人數(shù)預(yù)測(cè)模型應(yīng)考慮年齡、年份兩個(gè)因子水平。
3.3.2 模型分析
去掉異常值,重新建立模型后,Null deviance,Residual deviance,AIC的值都減小,說明模型擬合的效果更好。
為了進(jìn)一步說明用負(fù)二項(xiàng)廣義線性模型建立中國死亡人數(shù)預(yù)測(cè)模型具有一定的優(yōu)勢(shì)性,此處用泊松回歸模型進(jìn)行建立模型。對(duì)兩個(gè)模型進(jìn)行比較,負(fù)二項(xiàng)回歸模型中Null deviance、Residual deviance、AIC的值都遠(yuǎn)遠(yuǎn)小于泊松回歸模型的三個(gè)項(xiàng)目的值。
3.4 結(jié)果分析
本文至此已經(jīng)建立中國人口死亡人數(shù)的預(yù)測(cè)模型,那么現(xiàn)在要轉(zhuǎn)換回建立中國人口死亡率預(yù)測(cè)模型的問題,由建立好的中國人口人數(shù)預(yù)測(cè)模型中年份、年齡與死亡人數(shù)之間的關(guān)系,以及死亡率的公式,得出預(yù)測(cè)的死亡率??僧嫵鏊劳雎孰S年齡變化的散點(diǎn)圖進(jìn)行分析,年齡因子對(duì)死亡率影響比較大,因此找到死亡率隨年齡變化的模式對(duì)預(yù)測(cè)非常重要。此外,隨著時(shí)間的推移,死亡率初步呈現(xiàn)下降趨勢(shì),導(dǎo)致人口老齡化的形成。
4.結(jié)論
通過研究分析,得出死亡率預(yù)測(cè)模型,分析死亡率隨年齡、年份的變化模式,可為實(shí)施中國人口政策提供一定的依據(jù)。在本文中,發(fā)現(xiàn)最小二乘法不適用于建立死亡率預(yù)測(cè)模型,而負(fù)二項(xiàng)回歸相對(duì)于泊松回歸擬合結(jié)果比較好。從建立的模型中看死亡率隨年份變化的模式中,可知死亡率逐漸下降,導(dǎo)致老齡化社會(huì)的形成。但本文中建立的死亡率預(yù)測(cè)模型還有不足之處,有待改進(jìn)。在用負(fù)二項(xiàng)回歸建立模型時(shí),還可再改進(jìn),如選取主要的因子,可能建立的模型具有更優(yōu)的擬合優(yōu)度性。
參考文獻(xiàn):
[1]李詩羽, 張飛, 王正林. 數(shù)據(jù)分析:R語言實(shí)踐[M]. 北京:電子工業(yè)出版社, 2014. 243-259.
[2]Douglas C.Montgomery, Elizabeth A.Peck, G.Geoffrey Vining. Introduction to Linear Regression Analysis, Fifth Edition[M]. 北京:機(jī)械工業(yè)出版社, 2016. 326-335.
[3]張連增, 段白鴿. 廣義線性模型在生命表死亡率修勻中的應(yīng)用[J]. 人口研究, 2012, (3): 89-103.
[4]陳卓恒.負(fù)二項(xiàng)分布的廣義線性模型及其應(yīng)用[J].華僑大學(xué)學(xué)報(bào),2011,32(2).
[5]徐業(yè)峰. 負(fù)二項(xiàng)回歸模型的統(tǒng)計(jì)推斷[D]. 揚(yáng)州大學(xué), 2014.