代洪偉, 凌能祥
(合肥工業(yè)大學(xué)數(shù)學(xué)系,合肥安徽230009)
居民消費(fèi)價(jià)格指數(shù)是世界各國(guó)普遍編制的一種指數(shù),它可以用于分析市場(chǎng)價(jià)格的基本動(dòng)態(tài),是政府制定物價(jià)政策和工資政策的重要依據(jù).為準(zhǔn)確把握居民消費(fèi)價(jià)格指數(shù)的變動(dòng)趨勢(shì),文獻(xiàn)[1]利用ARIMA模型,對(duì)居民消費(fèi)價(jià)格指數(shù)進(jìn)行了預(yù)測(cè)分析,結(jié)果顯示此模型用于預(yù)測(cè)居民消費(fèi)價(jià)格指數(shù)比較好.但該模型的設(shè)定誤差比較大,會(huì)影響預(yù)測(cè)結(jié)果,所以本文采用非參數(shù)自回歸模型對(duì)居民消費(fèi)價(jià)格指數(shù)進(jìn)行模擬分析和預(yù)測(cè),結(jié)果表明基于非參數(shù)自回歸模型的居民消費(fèi)價(jià)格指數(shù)預(yù)測(cè)可以獲得令人滿意的結(jié)果.
考慮如下的非參數(shù)自回歸模型(NAR(p)模型):)
解釋性變量Xt∈Rp是由響應(yīng)變量(被解釋性變量)Yt∈R的一些滯后項(xiàng)組成的(p為正整數(shù));隨機(jī)誤差序列{εt}獨(dú)立且同分布,E(εt)=0,E(ε2t)=σ2>0,并且 εt與Xs(s≤t)相互獨(dú)立;函數(shù)m(·)稱為自回歸函數(shù)(或條件均值函數(shù)).
在應(yīng)用NAR模型(1)對(duì)某個(gè)樣本數(shù)據(jù)進(jìn)行模擬和預(yù)測(cè)時(shí),首先要確定模型的階數(shù)p的值,本文利用Cross-Validation方法[5]確定模型的滯后階數(shù)p.
Cross-Validation方法:對(duì)模型(1)的一段樣本Y1,Y2,…,Yn,令Xt(k)=(Yt-1,Yt-2,…,Yt-k),定義cv(k),其中-t(·)是刪去第t個(gè)數(shù)據(jù)后,對(duì)自回歸函數(shù)m(·)的核估計(jì),其階數(shù)p可以用嘗試階數(shù)k替代,它的估計(jì)為
其中W(·)是適當(dāng)選取的非負(fù)權(quán)函數(shù),K(·)為核函數(shù),給定NAR模型(1)的階數(shù)的上界L,在{1,2,…,L}上極小化cv(k),則階數(shù)p的估計(jì)滿足cv()=min1≤k≤Lcv(k).
自回歸函數(shù)m(·)的常用估計(jì)方法是局部線性估計(jì)[6]和核估計(jì)法.雖然這兩種方法有很多優(yōu)點(diǎn),但是二者均是局部光滑方法,在每一點(diǎn)處擬合自回歸函數(shù)需求值時(shí)都需重新進(jìn)行計(jì)算,計(jì)算量很大.而小波估計(jì)方法[9]、正交序列估計(jì)方法和樣條估計(jì)等方法都屬于全局光滑方法,能有效的克服這種弊端,計(jì)算效率較高.因此本文采用了全局光滑方法中的正交序列方法和樣條方法對(duì)自回歸函數(shù)進(jìn)行擬合、估計(jì).
1.2.1 正交序列估計(jì)
設(shè)自回歸函數(shù)m(x)∈c[a,b],假設(shè)構(gòu)成[a,b]上的一組正交基,即=δij,當(dāng)i=j時(shí),δij=ci;當(dāng)i≠j時(shí),δij=0.則m(x)有正交序列展開(kāi)m(x)=).可將非參數(shù)自回歸模型Yt=m(Xt)+εt近似為:
Yi對(duì)該模型進(jìn)行最小二乘估計(jì),得到^θ=(ZTZ)-1ZTY,其中,Z=(Z1,…,Zm),Zi=(φi(X1),…,φi(Xn))T.于是,m(x)有正交序列估計(jì):^mn(x)=z(x)T^θ,其中z(x)=(φ1(x),…,φm(x))T.
本文采用Legendre多項(xiàng)式正交基,在區(qū)間[-1,1]上,Legendre多項(xiàng)式的正交基為:
其他高階Legendre多項(xiàng)式可由下式遞推地推出:
(m+1)pm+1(x)=(2m+1)xpm(x)-mpm-1(x),Legendre 多項(xiàng)式正交基滿足,當(dāng)i=j時(shí),δij=1;當(dāng)i≠j時(shí),δij=0.
若解釋變量X在區(qū)間[a,b]上取值,則必須作變量替換,變量Z的取值區(qū)間為[-1,1].
1.2.2 多項(xiàng)式樣條估計(jì)
樣條估計(jì)基本思想:設(shè)Xt∈D=[a,b],將區(qū)間[a,b]予以分割,結(jié)點(diǎn)序列為a=t0<t1<…<tm<tm+1=b.具有該結(jié)點(diǎn)序列的三次多項(xiàng)式樣條空間S3,m的基函數(shù)Bs(·)可取為 1,x,x2,x3,(x-,其中(x-ti)+=max{0,x-ti}(i=1,2,…,m).所以三次樣條函數(shù)可表示為:,只要最小化就
可以得到θi的估計(jì)i(i=1,…,K).則自回歸函數(shù)m(x)的多項(xiàng)式樣條估計(jì)為
多項(xiàng)式樣條估計(jì)在實(shí)際應(yīng)用中必須解決結(jié)點(diǎn)的選擇問(wèn)題.可按照如下方法選擇結(jié)點(diǎn):先取正整數(shù)k,令m=[n/k],取ti=X(ki)(i=1,…m);對(duì)于第i(1≤i≤m)個(gè)結(jié)點(diǎn),檢驗(yàn)H0:θi=0,我們根據(jù)t統(tǒng)計(jì)量的值刪除那些接受假設(shè)的結(jié)點(diǎn);然后調(diào)整k的值直到獲得比較理想的估計(jì)效果.
圖1 我國(guó)2004.1 ~ 2008.12 CPI
圖2 我國(guó)CPI(一階差分后)
本文使用循環(huán)預(yù)測(cè)法[7]對(duì)NAR模型進(jìn)行預(yù)測(cè),其基本方法如下:對(duì)NAR模型Yt=m(Xt)+εt,當(dāng)k=1時(shí)(即對(duì)Yn+1預(yù)測(cè)時(shí)),通過(guò)非參數(shù)方法對(duì)E(Yn+1|Yn=X)進(jìn)行估計(jì),算出一步預(yù)測(cè)值^Yn(1);當(dāng)預(yù)測(cè)Yn+2時(shí),可以把上面得到的^Yn(1)添加到(Y1,Y2,…,Yn)中構(gòu)成新的樣本(Y1,Y2,…,Yn,^Yn(1)),再采用上面一樣的估計(jì)方法可以算出二步預(yù)測(cè)值^Yn(2),像這樣循環(huán)下去,直到我們得到k步預(yù)測(cè)值,因?yàn)樵诘趉步預(yù)測(cè)時(shí)使用了Yn+1,Yn+2,…,Yn+k-1所包含的信息,所以,循環(huán)預(yù)測(cè)法比直接預(yù)測(cè)法的預(yù)測(cè)誤差?。?/p>
本文的研究樣本是我國(guó)2004年1月~2008年12月的居民消費(fèi)價(jià)格指數(shù)的歷史數(shù)據(jù),首先對(duì)其建立NAR預(yù)測(cè)模型,然后用兩種方法進(jìn)行擬合,最后對(duì)2009年1月~2009年4月的居民消費(fèi)價(jià)格指數(shù)進(jìn)行預(yù)測(cè).(數(shù)據(jù)來(lái)源于中國(guó)國(guó)家統(tǒng)計(jì)局網(wǎng)站).
圖1是我國(guó)2004年1月~2008年12月的居民消費(fèi)價(jià)格指數(shù)的折線圖,從圖中數(shù)據(jù)可以看出:CPI序列是非平穩(wěn)的時(shí)間序列,而我們只能對(duì)平穩(wěn)的時(shí)間序列建立NAR模型.因此,若要對(duì)CPI序列建立NAR模型,首先要對(duì)其平穩(wěn)化處理,在這兒我們采用一階差分法.從圖2可以知道一階差分后CPI序列平穩(wěn).
圖3 CPI擬合曲線
首先對(duì)CPI差分序列{ΔYt}建立一個(gè)參數(shù)模型ARMA模型,通過(guò)比較差分序列的AIC值和偏自相關(guān)分析,得到最佳模型為AR(3)(其中AIC=2.19). 通 過(guò) 計(jì) 算 得,其中模型的參數(shù)是通過(guò)最小二乘法估計(jì)得到的,括號(hào)中的數(shù)為T檢驗(yàn)值.
對(duì)我國(guó)居民消費(fèi)價(jià)格指數(shù)差分序列{ΔYt}建立 NAR 模型 ΔYt=m(ΔYt-1,ΔYt-2,…,ΔYt-p)+εt,其中隨機(jī)誤差序列{εt}獨(dú)立且同分布,E(εt)=0,=σ2,εt與 ΔYt-1,ΔYt-2,…,ΔYt-p相互獨(dú)立.
利用上述的Cross-Validation方法確定滯后階p,當(dāng)k=1時(shí),cv(k)的值最小,因此NAR模型為ΔYt=m(ΔYt-1)+εt.
對(duì)我國(guó)2004—2008年的CPI差分序列{ΔYt},建立 NAR 模型 ΔYt=m(ΔYt-1)+εt,并對(duì)該模型分別進(jìn)行正交序列估計(jì)和樣條估計(jì).下圖3給出了通過(guò)兩種估計(jì)方法得到的我國(guó)CPI的擬合曲線與CPI原曲線,為了和參數(shù)模型進(jìn)行比較,在圖中也給出了用AR(3)模型擬合得到的曲線.
從圖3中可以看出,三種估計(jì)方法都大致擬合出了我國(guó)CPI的具體走勢(shì),為了量化估計(jì)效果的比較,本文將三種估計(jì)方法的平均絕對(duì)誤差與均方誤差列于表1中,易見(jiàn)正交序列估計(jì)方法優(yōu)于其他兩種方法.
表1 平均絕對(duì)誤差和均方誤差的比較
由于我們建模的一個(gè)目的是為了預(yù)測(cè),所以為了找出適合這類數(shù)據(jù)的理想模型和估計(jì)方法,我們用上面各種方法對(duì)樣本進(jìn)行預(yù)測(cè),結(jié)果如表2.
表2 預(yù)測(cè)結(jié)果
從兩表的結(jié)果可以看出,在這3種估計(jì)方法中,正交序列估計(jì)方法的擬合效果及預(yù)測(cè)效果明顯優(yōu)于其他估計(jì)方法,最小二乘估計(jì)方法的模擬和預(yù)測(cè)效果是最差的.
表3是我們利用非參數(shù)自回歸模型和文獻(xiàn)[1]利用ARIMA模型對(duì)我國(guó)2004~2008 CPI進(jìn)行模擬和預(yù)測(cè)的部分結(jié)果的比較.從表中可以看出非參數(shù)自回歸模型要比ARIMA模型的模擬和預(yù)測(cè)結(jié)果理想.
表3 模擬和預(yù)測(cè)結(jié)果的比較
為了克服經(jīng)典參數(shù)模型的缺點(diǎn),本文利用2004~2008我國(guó)居民消費(fèi)價(jià)格指數(shù)月度數(shù)據(jù)建立非參數(shù)自回歸模型,并利用線性最小二乘估計(jì)、樣條估計(jì)和正交序列估計(jì)進(jìn)行擬合和預(yù)測(cè),得到的結(jié)果表明:在這三種方法中,正交序列估計(jì)方法優(yōu)于其他兩種方法.
[1] 劉春燕,姚杰.時(shí)間序列分析在居民消費(fèi)價(jià)格指數(shù)預(yù)測(cè)中的應(yīng)用[J].現(xiàn)代商貿(mào)工業(yè),2010,(16).
[2] 易丹輝.?dāng)?shù)據(jù)分析與Eviews應(yīng)用[M].北京:中國(guó)統(tǒng)計(jì)出版社,2002:106-132.
[3] 顧海燕.時(shí)間序列分析在人口預(yù)測(cè)問(wèn)題中的應(yīng)用[J].黑龍江工程學(xué)院學(xué)報(bào),2007,(9).
[4] 葉阿忠.非參數(shù)計(jì)量經(jīng)濟(jì)學(xué)[M].天津:南開(kāi)大學(xué)出版社,2003.
[5] Wolfgang Hardle,Chen Rong.Nonparametric Time Analysis,a Selective Review with Examples[J].Journal of Nonparametric Statistics,1995,27(5):157 -184.
[6] Masry E,F(xiàn)an J.Local Polynomial Estimation of Regression Functions for Mixing Processes[J].Scand J Statist,1997,24(2):165-179.
[7] Juan M Vilai- Femandez.Nonparametric Forecasting in Time Series:A Comparative Study[J].Communications in Statistics Simulation and Computation,2007,36(2):311 -334.
[8] 熊建平,吳建華,萬(wàn)國(guó)金.AR模型在人口增長(zhǎng)預(yù)測(cè)中的應(yīng)用[J].計(jì)算機(jī)與現(xiàn)代化,2005,(10):11-12.
[9] 鄒慶云,王國(guó)秋,王真?zhèn)ィ勺顑?yōu)雙正交小波變換矩陣決定的小波基[J].江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2009,33(1):69-73.