韓玉濤,楊萬(wàn)才,武新乾
(河南科技大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,河南洛陽(yáng) 471003)
中國(guó)人口預(yù)測(cè)的模型有很多種,常用的有Logistic模型、Leslie模型、灰色模型、BP神經(jīng)網(wǎng)絡(luò)模型、線性時(shí)間序列模型等[1-4]。傳統(tǒng)的線性模型在實(shí)際應(yīng)用中往往存在設(shè)定誤差,而非參數(shù)回歸模型則假定變量關(guān)系未知,要對(duì)回歸函數(shù)進(jìn)行估計(jì),因而能更好擬合樣本數(shù)據(jù),并對(duì)數(shù)據(jù)做出較為精確的預(yù)測(cè),因此得到了廣泛的應(yīng)用[5]。鞏永麗等基于核估計(jì)對(duì)中國(guó)人口增長(zhǎng)率建立了非參數(shù)自回歸模型[6];張慧芳等利用正交序列估計(jì)對(duì)中國(guó)人口建立了非參數(shù)模型[7]。
半?yún)?shù)模型融合了非參數(shù)模型和線性模型的優(yōu)點(diǎn),受到了諸多學(xué)者的廣泛關(guān)注。近年來(lái),半?yún)?shù)方法在人口建模中也有所應(yīng)用。姜愛(ài)平等對(duì)中國(guó)人口總量建立具有外生變量的半?yún)?shù)自回歸模型,用核估計(jì)對(duì)模型中的非參數(shù)函數(shù)進(jìn)行估計(jì)[8]。該方法屬于局部方法,它不能給出所擬合模型的簡(jiǎn)單顯式表達(dá)式,計(jì)算量大并且運(yùn)行時(shí)間較長(zhǎng),而多項(xiàng)式樣條估計(jì)是全局光滑方法,能較好地克服上述核估計(jì)的弊端[9],因此本文提出基于多項(xiàng)式樣條估計(jì)的半?yún)?shù)自回歸模型,并對(duì)中國(guó)人口進(jìn)行預(yù)測(cè)。
首先對(duì)中國(guó) 1949~2003年人口建立線性自回歸模型,用最小二乘估計(jì)建立線性自回歸方程;其次基于線性回歸選擇顯著滯后變量,利用最小二乘和多項(xiàng)式樣條方法估計(jì)半?yún)?shù)自回歸模型中的參數(shù)向量和非參數(shù)函數(shù),建立半?yún)?shù)自回歸方程;最后基于建立的半?yún)?shù)自回歸模型對(duì)中國(guó) 2004~2009年人口數(shù)據(jù)進(jìn)行預(yù)測(cè)分析,并且與線性模型及Logistic模型、Leslie模型、灰色神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)結(jié)果進(jìn)行了對(duì)比分析。
本文中用到的原始人口數(shù)據(jù)來(lái)源于中國(guó)國(guó)家統(tǒng)計(jì)局。由 Matlab7.0對(duì)中國(guó)1949~2008年60個(gè)原始人口數(shù)據(jù)進(jìn)行做圖處理,得到圖1。從圖1可以看到數(shù)據(jù)是不平穩(wěn)的。根據(jù)線性自回歸模型的要求,對(duì)原始人口數(shù)據(jù)做對(duì)數(shù)處理,再進(jìn)行二次差分。若記{Yt}為中國(guó)總?cè)丝谛蛄?{▽2ln(Yt)}為對(duì)數(shù)后二次差分序列,令Wt=▽2ln(Yt)-其中,為{▽2ln(Yt)}的均值;▽為差分符號(hào);則 {Wt}為零均值序列,見(jiàn)圖2所表示的序列。
從圖2可直觀的判斷序列{Wt}是平穩(wěn)的。為進(jìn)一步說(shuō)明序列的平穩(wěn)性,再進(jìn)行游程檢驗(yàn)[10]。游程總數(shù)r=24,序列長(zhǎng)度 N=53,“+”和“-”出現(xiàn)的次數(shù)分別為N1=25,N2=28。
用AIC,BIC準(zhǔn)則及殘差方差來(lái)確定階數(shù),由MATLAB運(yùn)行結(jié)果(見(jiàn)圖3和圖4),可確定滯后7階是較為理想的。
再用F檢驗(yàn)法[9]檢驗(yàn)線性自回歸模型AR(p)的階數(shù)。首先對(duì){Wt}分別擬合AR(6)和AR(7)模型,兩種模型的殘差平方和Q1和 Q0分別為0.001 6和0.001 3,則
其中,S為舍棄因子的個(gè)數(shù);N為樣本容量;r為回歸因子個(gè)數(shù)。給定顯著性水平α=0.05,查 F分布表得Fα(1.46)=4.05,F>>Fα,說(shuō)明AR(6)和AR(7)有顯著的差異,模型階數(shù)有上升的可能。再擬合AR(8)模型,其殘差平方和為0.001 3,與AR(7)比較有:
同理查表得Fα(1.45)=4.05,F<<Fα,故AR(7)與AR(8)沒(méi)有顯著差異,即選擇AR(7)是合適的。
根據(jù)1.1中平穩(wěn)化處理后的1951~2003年數(shù)據(jù),對(duì)平穩(wěn)序列{Wt}建立AR(7)模型,用最小二乘估計(jì)確定其中的參數(shù),建立回歸方程:
對(duì)建立的自回歸方程(1)中各變量進(jìn)行顯著性檢驗(yàn),在顯著性水平α=0.05下,只有Wt-2,Wt-5, Wt-7的系數(shù)是顯著的(見(jiàn)表1)。
選取顯著性變量Wt-2,Wt-5和 Wt-7,重新估計(jì)相應(yīng)系數(shù),得到線性回歸方程:
方程(2)的殘差平方和為0.001 7,與方程(1)比較,同上做F檢驗(yàn),得F=2.83<Fα=4.05,說(shuō)明兩個(gè)線性自回歸方程沒(méi)有顯著差異。
表1 方程(1)各變量系數(shù)的顯著性檢驗(yàn)
通過(guò)計(jì)算得Q=7.66,在顯著性水平α= 0.05下,查表得(4)=9.49,Q<(7-3),說(shuō)明 εt是獨(dú)立的,即模型是合適的,可選取方程(2)對(duì)中國(guó) 2004~2009年人口進(jìn)行預(yù)測(cè)。
其中,Yt為被解釋變量;α是線性部分未知參數(shù)向量;Xt=(Xt1,…,Xtp)T=(Yt-1,…,Yt-p)T為解釋性變量,線性主部把握被解釋變量的大勢(shì)走向;Zt=(Zt1,…,Ztq)T=(Yt-p-1,…,Yt-p-q)T,g()為未知非參數(shù)光滑函數(shù),對(duì)被解釋變量作局部調(diào)整;隨機(jī)誤差序列εt獨(dú)立同分布且滿足:E(εt)=0;Var(εt)=σ2<∞,且εt與Ys(s<t)相互獨(dú)立。
對(duì)非參數(shù)函數(shù)估計(jì)的方法有很多種,鑒于引言部分所述多項(xiàng)式樣條估計(jì)的優(yōu)點(diǎn),本文采用多項(xiàng)式樣條估計(jì)對(duì)模型(3)中的非參數(shù)函數(shù)g()進(jìn)行估計(jì)。
僅考慮緊區(qū)間[a,b]上的估計(jì)。不妨記具有結(jié)點(diǎn)序列a=z0<z1<…<zNn<ZNn+1=b的k次多項(xiàng)式樣條空間為Sk,Nn,其基函數(shù)Bs()為
即存在一組基函數(shù)Bs()和常數(shù)βs(s=1,…,K),使得g(z)≈
其中β=(β1,…,βK)T,可得α和β的估計(jì)分別為α=(α1,…,αd)T和β=(β1,…,βK)T。從而得到g的 βsBs(z)。最小化估計(jì)值這時(shí)α和g分別為 α和 g的樣條估計(jì),詳細(xì)內(nèi)容可參看文獻(xiàn)[9]。
基于線性回歸選取的顯著性變量,分別選取滯后 2階、5階和 7階做為非參數(shù)部分,其余二變量做為線性部分,由MATLAB 7.0運(yùn)行結(jié)果,得到相應(yīng)的半?yún)?shù)自回歸方程:
表2給出了半?yún)?shù)模型對(duì)人口建模使用的平穩(wěn)序列{Wt}及對(duì)總?cè)丝谛蛄衶Yt}擬合與預(yù)測(cè)的均方誤差。從表2可以看到:方程(4)對(duì) 1958~2003年的人口的平穩(wěn)序列的擬合及總?cè)丝诘臄M合均方誤差都最小,但是方程(5)對(duì) 2005~2008年的平穩(wěn)序列{Wt}和總?cè)丝谛蛄衶Yt}的預(yù)測(cè)的均方誤差最小,因此選取方程(5)與線性回歸方程(2)做對(duì)比。
選取線性回歸方程(2)與半?yún)?shù)自回歸方程(5)分別對(duì)2004~2009年人口進(jìn)行預(yù)測(cè)(見(jiàn)表3)。
表3 線性自回歸模型和半?yún)?shù)回歸模型對(duì) 2004~2009年人口預(yù)測(cè)結(jié)果
從表3可以看到:線性模型的短期(2年)預(yù)測(cè)效果還是比較好的,但是隨著年數(shù)的增加,預(yù)測(cè)誤差遞增的速度比較快。從第 1年誤差的 33萬(wàn)人很快的增長(zhǎng)到第 6年的 489萬(wàn)人。相對(duì)于線性自回歸模型,半?yún)?shù)自回歸模型對(duì)人口中預(yù)測(cè)精度明顯較高,雖然誤差也在逐年增大,但是預(yù)測(cè) 6年的誤差約為線性的1/5.6、1/2.6、1/24.4、1/13.8、1/5.6、1/3.7。
半?yún)?shù)自回歸模型和其他模型對(duì)中國(guó) 2005~2008年人口預(yù)測(cè)的結(jié)果進(jìn)行對(duì)比(見(jiàn)表4)。
表4 幾種模型對(duì)中國(guó)2005~2008年人口的預(yù)測(cè) 萬(wàn)人
從表4中可以看到:Logistic模型和灰色神經(jīng)網(wǎng)絡(luò)模型對(duì)人口預(yù)測(cè)的精度較高,但是半?yún)?shù)自回歸模型的預(yù)測(cè)精度還是更高一些。
表5 半?yún)?shù)回歸模型對(duì)2010~2013年人口進(jìn)行預(yù)測(cè) 萬(wàn)人
最后,利用半?yún)?shù)自回歸模型對(duì)中國(guó) 2010~2013年人口進(jìn)行預(yù)測(cè)(見(jiàn)表5)。
本文基于時(shí)間序列分析、半?yún)?shù)線性回歸和非參數(shù)的多項(xiàng)式樣條估計(jì)理論,建立中國(guó)人口的線性自回歸模型和半?yún)?shù)自回歸模型。對(duì)中國(guó)人口進(jìn)行預(yù)測(cè),半?yún)?shù)模型與傳統(tǒng)的線性模型、Logistic、Leslie等模型相比,半?yún)?shù)自回歸模型能夠給出所擬合數(shù)據(jù)的顯式表達(dá)式,計(jì)算量小,運(yùn)行時(shí)間較快,并且預(yù)測(cè)精度也有所提高。
[1] 王學(xué)保,蔡果蘭.Logistic模型的參數(shù)估計(jì)及人口預(yù)測(cè)[J].北京工商大學(xué)學(xué)報(bào):自然科學(xué)版,2009,27(6):75-78.
[2] 陳文權(quán),趙茲,李得勝.Leslie修正模型在人口預(yù)測(cè)中的應(yīng)用[J].世界科技研究與發(fā)展,2008,30(2):219-224.
[3] 李國(guó)成,吳濤,徐沈.灰色人工神經(jīng)網(wǎng)絡(luò)人口總量預(yù)測(cè)模型及應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2009,45(16):215-218.
[4] 彭志捌.AR(p)模型在中國(guó)總?cè)丝陬A(yù)測(cè)中的應(yīng)用[J].河北工程大學(xué)學(xué)報(bào):自然科學(xué)版,2007,24(4):109-112.
[5] 葉阿忠.非參數(shù)計(jì)量經(jīng)濟(jì)學(xué)[M].天津:南開(kāi)大學(xué)出版社,2003.
[6] 鞏永麗,張德生,武新乾.人口增長(zhǎng)率的非參數(shù)自回歸預(yù)測(cè)模型[J].數(shù)理統(tǒng)計(jì)與管理,2007,26(5):769-764.
[7] 張慧芳,張德生,武新乾,等.我國(guó)人口總量的非參數(shù)預(yù)測(cè)模型[J].延邊大學(xué)學(xué)報(bào):自然科學(xué)版,2007,33(2):90-93.
[8] 姜愛(ài)平,張德生,武新乾,等.預(yù)測(cè)我國(guó)人口總量的具有外生變量的半?yún)?shù)自回歸模型[J].河南科技大學(xué)學(xué)報(bào):自然科學(xué)版,2007,28(1):97-100.
[9] 武新乾,田錚,韓四兒.具有外生變量部分線性自回歸模型的樣條估計(jì)[J].數(shù)學(xué)年刊,2007,28A(3):377-386.
[10] 王振龍.時(shí)間序列分析[M].北京:中國(guó)統(tǒng)計(jì)出版社,2000.