劉薇,常振海,張德生
(1.天水師范學(xué)院 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,甘肅 天水 741001;2.西安理工大學(xué) 理學(xué)院,西安 710054)
偽回歸現(xiàn)象一直受到學(xué)者的重視,如文獻(xiàn)[1-6]。考慮兩個(gè)變量的回歸模型
文獻(xiàn)[7]指出,偽回歸現(xiàn)象的一個(gè)重要標(biāo)志是關(guān)于系數(shù)β1=0的t檢驗(yàn)有較高的拒絕率,很好的擬合優(yōu)度R2,但同時(shí)DW統(tǒng)計(jì)量實(shí)現(xiàn)值較小。因此,傳統(tǒng)方法中,多數(shù)文獻(xiàn)都討論系數(shù)β1的估計(jì)量^β1的分布情況,比如基于t統(tǒng)計(jì)量的檢驗(yàn),或討論^β1的分布的改進(jìn),或DW統(tǒng)計(jì)量的極限分布等,以此來避免偽回歸現(xiàn)象的產(chǎn)生,如文獻(xiàn)[8-11]。
本文從另外一個(gè)角度(互相關(guān)系數(shù))來討論偽回歸現(xiàn)象產(chǎn)生的內(nèi)在原因以及相應(yīng)的對(duì)策。記隨機(jī)過程X的滯后k階互相關(guān)系數(shù)和相應(yīng)樣本互相關(guān)系數(shù)分別為
記隨機(jī)過程Y={Yt,t≥0}和X={Xt,t≥0}分別為應(yīng)變量時(shí)間序列和協(xié)變量時(shí)間序列,假設(shè)X,Y聯(lián)合(弱)平穩(wěn),且互不相關(guān),則在正態(tài)性假設(shè)下,Bartlett[14]證明,兩個(gè)互相關(guān)系數(shù)的估計(jì)的方差為
這里,ρXX(k),ρYY(k)分別表示X,Y 的k階滯后自相關(guān)系數(shù)。從而,
(Ⅰ)若X,Y聯(lián)合(弱)平穩(wěn),互不相關(guān),且其中有一個(gè)為白噪聲過程。
那么,方差就進(jìn)一步簡化為
此時(shí),
(Ⅱ)若X,Y聯(lián)合(弱)平穩(wěn),互不相關(guān),且均自相關(guān)。
其中et為0均值,同方差的白噪聲過程,同理at也是0均值,同方差的白噪聲過程。
在隨機(jī)過程X,Y 均平穩(wěn)的情況下,φX,φY應(yīng)小于1,從(8)式能看出,當(dāng)φX,φY都接近于1時(shí),(k))與規(guī)則”中的名義量值1/n的比率就趨于無窮大。因此,即使在應(yīng)變量和協(xié)變量相互獨(dú)立的情況下,不加質(zhì)疑地應(yīng)用規(guī)則”來判定樣本互相關(guān)系數(shù)的顯著性,勢必會(huì)導(dǎo)致更多的錯(cuò)誤判斷。
同AR(1)過程相似,當(dāng)θX,θY接近于1時(shí),方差明顯大于,此時(shí),仍以“規(guī)則”來判定樣本互相關(guān)系數(shù)是否顯著為0,無疑會(huì)導(dǎo)致更多的錯(cuò)誤判斷。
(Ⅲ)若X,Y非平穩(wěn),互不相關(guān)。
為了避免復(fù)雜的數(shù)學(xué)式子沖淡我們對(duì)產(chǎn)生偽回歸原因的分析,這里我們僅用語句進(jìn)行簡單的結(jié)論性描述,詳細(xì)的理論可以在文獻(xiàn)[12]中找到。在這種情形下,樣本互相關(guān)系數(shù)方差偏大的問題更加嚴(yán)重,甚至在大樣本下,樣本互相關(guān)系數(shù)也不再近似服從正態(tài)分布(注意在情形(Ⅰ)和情形(Ⅱ)下,樣本互相關(guān)系數(shù)極限分布仍為正態(tài)分布[14],只是方差變化了)。因此,在這種情況下,用“規(guī)則”來判定樣本互相關(guān)系數(shù)的顯著性,就會(huì)顯得在眾多不可能的滯后階上存在互相關(guān)關(guān)系,結(jié)論嚴(yán)重不可信。
針對(duì)上述產(chǎn)生偽回歸的兩個(gè)原因,我們可以用以下處理方法進(jìn)行避免錯(cuò)判。一個(gè)是進(jìn)行統(tǒng)計(jì)方法上的改進(jìn),另一個(gè)是把隨機(jī)過程X,Y中的一個(gè)化為白噪聲。比較這兩個(gè)處理辦法,后一個(gè)利用時(shí)間序列理論顯然容易實(shí)現(xiàn),具體過程可以簡單概括如下。
(1)對(duì)協(xié)變量時(shí)間序列X={Xt}平穩(wěn)化處理,比如差分等,記處理后的序列為Xt*;
(2)識(shí)別X*t的合適模型,比如為:,從而協(xié)變量時(shí)間序列X={Xt}就被化為白噪聲序列了;
(3)對(duì)X={Xt}施行的處理方法,同樣用在應(yīng)變量序列Yt上,則得
(4)對(duì)序列αt,βt利 用“規(guī)則”來判定樣本互相關(guān)系數(shù)是否顯著為0,進(jìn)而判斷是否為偽回歸。
下面我們通過模擬運(yùn)算,直觀的展示和驗(yàn)證第1部分關(guān)于偽回歸的結(jié)論(計(jì)算均利用MATLAB7.5).首先,設(shè)定X為白噪聲過程,Y為自相關(guān)過程,X,Y不相關(guān)。具體的一個(gè)實(shí)現(xiàn)為
實(shí)現(xiàn)容量為n=500,得到互相關(guān)系數(shù)見圖1。
很顯然,顯著異于0的樣本互相關(guān)系數(shù)個(gè)數(shù)在規(guī)定的顯著性水平內(nèi),這些相關(guān)系數(shù)的分布可以用直方圖近似的展示,見圖2。
Fig.1 Sample correlation coefficient of case(Ⅰ)圖1 情形(Ⅰ)下樣本互相關(guān)系數(shù)
Fig.2 Histogram of sample correlation coefficient of case(Ⅰ)圖2 情形(Ⅰ)下樣本互相關(guān)系數(shù)直方圖
由圖2知,這些互相關(guān)系數(shù)的分布十分接近于正態(tài)分布,和理論是相吻合的。因此,這種情形下以“規(guī)則”來判定樣本互相關(guān)系數(shù)是否顯著為0是合適的。
其次,設(shè)定X,Y均為自相關(guān)過程,但X,Y互不相關(guān)。
不妨假設(shè)Xt=φXXt-1+et,Yt=φYYt-1+at,φX=φY=φ,則由(8)式知,互相關(guān)系數(shù)方差增大,誤判率會(huì)增大;同理若假設(shè)Xt=et-θXet-1,Yt=et-θYet-1,θX=θY=θ,同樣誤判率會(huì)增大。隨著系數(shù)的變化,我們對(duì)這兩種假設(shè)分別計(jì)算出了誤判率,結(jié)果見表1(樣本容量仍為500)。
表1 情形(Ⅱ)下的誤判率Table 1 Error rate of case(Ⅱ)
最后,假定X,Y均非平穩(wěn),但互不相關(guān)。具體實(shí)現(xiàn)為
樣本容量設(shè)為500,計(jì)算的互相關(guān)系數(shù)見圖3。
由圖3知,在眾多的滯后階上互相關(guān)系數(shù)顯著異于0,并且最值接近于±1,應(yīng)該相關(guān)性很強(qiáng)的,但實(shí)際它們不相關(guān),產(chǎn)生了嚴(yán)重的誤判。實(shí)際上,這些互相關(guān)系數(shù)的分布幾乎充滿了-1和+1之間,見圖4。
從圖4中能看出,互相關(guān)系數(shù)的分布應(yīng)該離正態(tài)分布很遠(yuǎn)。因此,此種情形下,偽回歸現(xiàn)象就會(huì)頻繁發(fā)生。
綜合以上3種情形的模擬分析,我們就能更直觀地看到產(chǎn)生偽回歸的原因主要是自相關(guān)性或是非平穩(wěn)性導(dǎo)致了方差增大,從而以“1/n規(guī)則”來判定回歸顯著性時(shí)產(chǎn)生了較大的錯(cuò)判可能性,很順理成章地,避免這種誤判就是去除非平穩(wěn)性和自相關(guān)性,具體可以見下面的實(shí)證分析。
樣本數(shù)據(jù)(Xt,Yt)長度范圍是1994.1-2005.12共144對(duì)數(shù)據(jù),其中Xt代表美國每月牛奶產(chǎn)量(數(shù)據(jù)來源于文獻(xiàn)[15]),其中Yt代表中國每月社會(huì)消費(fèi)品零售總額(數(shù)據(jù)來源于國家統(tǒng)計(jì)局網(wǎng)站①http://data.stats.gov.cn/workspace/index?a=q&type=simple&dimension=zb&dbcode=hgyd&m=hgyd&code=A020801),如圖5所示。
Fig.3 Correlation coefficient under non-stationary random process圖3 非平穩(wěn)過程下互相關(guān)系數(shù)
Fig.4 Histogram of correlation coefficient in non-stationary random process圖4 非平穩(wěn)情形下互相關(guān)系數(shù)直方圖
由圖5知,它們有近似的趨勢和季節(jié)性規(guī)律。從我們選的數(shù)據(jù)的實(shí)際意義來看,這兩者之間是沒有關(guān)系的,回歸并不成立,但建立線性回歸模型(1),有結(jié)果
從建立的模型結(jié)果來看,回歸顯著,擬合也還不錯(cuò),只是DW值較低。這說明用傳統(tǒng)的t檢驗(yàn)難于甄別偽回歸現(xiàn)象。下面我們再從互相關(guān)系數(shù)的角度審視它們,看能否用本文的方法識(shí)別出其偽回歸現(xiàn)象。原始數(shù)據(jù)的互相關(guān)系數(shù)見圖6。
Fig.5 Original data圖5 原始數(shù)據(jù)
Fig.6 Correlation coefficient of original data圖6 原始數(shù)據(jù)互相關(guān)系數(shù)
從圖6能看出,在眾多滯后階上這兩個(gè)變量之間存在強(qiáng)正相關(guān)性,這與實(shí)際意義明顯違背。采用第一部分提出的處理辦法,把Xt和Yt分別化為αt,βt(其中αt為近似白噪聲,βt自相關(guān),符合文中第I中情形),αt,βt的部分滯后階互相關(guān)系數(shù)見圖7。
從圖7能看出,除了在滯后14階有個(gè)顯著性系數(shù)和在滯后6階有個(gè)邊緣顯著系數(shù)外,沒有一個(gè)系數(shù)顯著。因?yàn)樵谶@35個(gè)樣本互相關(guān)系數(shù)中預(yù)計(jì)會(huì)出現(xiàn)0.05×35=1.75個(gè)虛假警報(bào),且很難想象牛奶產(chǎn)量能引導(dǎo)6個(gè)月或14個(gè)月后的社會(huì)消費(fèi)品總額,因此這兩處的顯著性系數(shù)極可能是虛假的警報(bào)。所以,這兩個(gè)序列實(shí)際上是不相關(guān)的,依據(jù)互相關(guān)系數(shù)做出的結(jié)論與實(shí)際意義相吻合,充分說明了基于樣本互相關(guān)系數(shù)探討偽回歸的可行性。
(1)本文通過對(duì)樣本互相關(guān)系數(shù)分布的討論,特別是其方差在3情形下的變化,分析了偽回歸產(chǎn)生的原因是在過程X,Y自身存在相關(guān)性或非平穩(wěn)情況下,樣本互相關(guān)系數(shù)的方差變大,從而以“1/n規(guī)則”來判定樣本互相關(guān)系數(shù)是否顯著為0時(shí)產(chǎn)生了較大的錯(cuò)判可能性,因而就有較大的可能性把本來不存在顯著回歸關(guān)系的兩個(gè)過程判為有顯著的回歸關(guān)系。
(2)為了避免偽回歸現(xiàn)象的出現(xiàn),我們可以把非平穩(wěn)或存在自相關(guān)的過程X,Y中的一個(gè)過程化為白噪聲過程,然后再用“1/n規(guī)則”來判定。
(3)傳統(tǒng)的偽回歸甄別方法中,因?yàn)槭欠植嫉母倪M(jìn),大都公式繁雜,難于理解,計(jì)算量較大。相比之下,本文方法只需預(yù)白化一個(gè)隨機(jī)過程,僅計(jì)算互相關(guān)系數(shù),判斷偽回歸簡單易行。對(duì)于文中結(jié)論分別用模擬分析和實(shí)證分析進(jìn)行了驗(yàn)證和直觀顯示,從模擬和實(shí)證的結(jié)果來看,本文分析的偽回歸產(chǎn)生的原因是正確的,文中提出的處理辦法也是可行的。
(4)這里的討論還是僅限于兩個(gè)變量,且討論的是線性的偽回歸問題。實(shí)際生活中,還有超過兩個(gè)變量間的可能偽回歸關(guān)系。更多變量間的偽回歸問題和非線性的偽回歸關(guān)系的探討是我們關(guān)注的問題。
Fig.7 Correlation coefficient after treating圖7 處理后的互相關(guān)系數(shù)
[1] Fernández-Macho J.Comment on Testing for Spurious and Cointegrated Regressions:A Wavelet Approach[J].Journal of Applied Statistics,2015,42(8):1759-1769.
[2] Han N W.Spurious Regressions in Time Series with Long Memory[J].Communications in Statistics-Theory and Methods,2014:837-854.
[3] Deng A.Understanding Spurious Regression in Financial Economics[J].Journal of Financial Econometrics,2014,12(1):122-150.
[4] Choi I.Spurious Fixed Effects Regression[J].Oxford Bulletin of Economics and Statistics,2013,75(2):297-306.
[5] Martínez-Rivera B,Ventosa-Santaulària D,Eduardo Vera-Valdés J.Spurious Forecasts?[J].Journal of Forecasting,2012,31(3):245-259.
[6] Urbain J P,Westerlund J.Least Squares Asymptotics in Spurious and Cointegrated Panel Regressions with Common and Idiosyncratic Stochastic Trends[J].Oxford Bulletin of Economics and Statistics,2011,73(1):119-139.
[7] Granger C W J,Newbold P.Spurious Regressions in Economics[J].Journal of Econometrics,1974,2(2):111-120.
[8] 王雪峰,余聰,金浩.含結(jié)構(gòu)變點(diǎn)無限方差序列的偽回歸檢驗(yàn)[J].經(jīng)濟(jì)數(shù)學(xué),2013,30(2):85-91.
[9] 劉漢中.基于自相關(guān)視角的弱平穩(wěn)過程之間的偽回歸分析[J].統(tǒng)計(jì)與信息論壇,2012,27(4):10-16.
[10] 劉漢中.無漂移平穩(wěn)過程下的偽回歸分析-基于修正 HAC方法[J].數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究,2010,(11):142-154.
[11] 黎振強(qiáng).金融時(shí)間序列中偽回歸和模型修正的實(shí)證分析[J].湖南理工學(xué)院學(xué)報(bào),2008,21(2):17-19.
[12] Phillips P C B.New Tools for Understanding Spurious Regressions[J].Econometrica,1998,66(6):1299-1325.
[13] Box G E P,Jenkins G M,Reinsel G C.Time Series Analysis:Forcasting and Contral(4th Edition)[M].王成璋,尤梅芳,郝楊,譯.北京:機(jī)械工業(yè)出版社,2011.
[14] Barlett M S.On the Theoretical Specification and Sampling Properties of Autocorrelated Time Series[J].Journal of the Royal Statistical Society B,1946,8(1):27-41.
[15] Jonathan D C,Kung-Sik C.Time Series Analysis with Applications in R[M].潘紅宇,等譯.北京:機(jī)械工業(yè)出版社,2011.