萬麗穎
(湖北大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)學(xué)院,湖北 武漢 430000)
嶺回歸分析及其應(yīng)用
萬麗穎
(湖北大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)學(xué)院,湖北 武漢 430000)
基于嶺回歸分析的定義及其性質(zhì),研究嶺參數(shù)的存在性及其選擇方法,進而得到嶺參數(shù)k的選擇方法有嶺跡圖法、方差膨脹因子法和控制殘差平方和法,最后運用嶺回歸成功解決了現(xiàn)實中存在的問題,并對嶺回歸方法進行了推廣.
多重共線性;回歸系數(shù);嶺回歸
嶺回歸分析是一種專門用于共線性數(shù)據(jù)分析的有偏估計方法,它實際上是一種改良的最小二乘法,是以放棄最小二乘的無偏性,放棄部分精確度為代價來尋求效果稍差但更符合實際的回歸過程[1~3].雖然嶺回歸所得殘差平方和比最小二乘回歸要大,但它對病態(tài)數(shù)據(jù)的耐受性就遠(yuǎn)遠(yuǎn)強于最小二乘法.嶺回歸方法也非常靈活,它的使用存在著一定的主觀人為性,但這種人為性正好是發(fā)揮定性分析與定量分析有機結(jié)合之處,在解決多重共線性問題中有著獨特作用.
當(dāng)回歸方程的自變量之間出現(xiàn)多重共線性關(guān)系時,無法再用普通的最小二乘法對回歸方程進行準(zhǔn)確的分析, 早在 1962 年,Heer 便提出了一種改進的最小二乘估計方法,叫嶺回歸(ridge regression)[4],如果自變量之間存在多重相關(guān)性,嶺回歸估計法是相對比較穩(wěn)定的方法,而且?guī)X回歸估計的回歸系數(shù)的標(biāo)準(zhǔn)差也較小.在 1970 年,Heer和 Kennard[1]給予了詳細(xì)討論.
由于變量可能存在著量綱問題,因此這里先對數(shù)據(jù)進行標(biāo)準(zhǔn)化處理,處理過后的設(shè)計矩陣仍然用X表示,于是得到嶺估計的表達式為
其中k稱為嶺參數(shù).
證明 因為
性質(zhì)2 在認(rèn)為嶺參數(shù)k是與y無關(guān)的常數(shù)時,知
證明 由于
所以認(rèn)為嶺估計
這里‖·‖是向量的模,‖·‖等于各分量的平方和.
可以推出
又因為
所以有
證明 設(shè)線性模型為Y=Xβ+ε,E(ε)=0,cov(ε)=σ2I,令α=Q′β,Z=XQ,這里稱α為典則參數(shù),Q為X′Y的標(biāo)準(zhǔn)正交化特征向量組成的正交矩陣的特征根,
Z′Z=Q′X′XQ=…=diag(λ1,λ2,…λn),
其中λi(i=1,2,…,p)為X′X的特征根,模型的典則形式為
Y=Zα+ε,E(ε)=0,cov(ε)=σ2I.
=σ2Q(Z′Z+kI)-1Z′Z(Z′Z+kI)-1Q′+Qαα′Q′+Q(Z′Z+kI)-1Z′Z(Z′Z+kI)-1Q′+Qαα′Q′+
Q(Z′Z+kI)-1Z′Zαα′Z′Z(Z′Z+kI)-1Q′-Qαα′Z′Z(Z′Z+kI)-1Q′-Q(Z′Z+kI)-1Z′Zαα′Q′,
則有
Qαα′Q′-Q(Z′Z+kI)-1Z′Zαα′(Z′Z+kI)-1Q′+Qαα′Z′Z(Z′Z+kI)-1Q′-
Q(Z′Z+kI)-1Z′Zαα′Q′
=Q(Z′Z+kI)-1[σ2(Z′Z+kI)(Z′Z)-1(Z′Z+kI)-σ2Z′Z-(Z′Z+kI)αα′(Z′Z+kI)-
Z′Zαα′Z′Z+(Z′Z+kI)αα′Z′Z+Z′Zαα′(Z′Z+kI)](Z′Z+kI)-1Q′
=Q(Z′Z+kI)-1[2kσ2I+σ2k(Z′Z)-1-k2αα′](Z′Z+kI)-1Q′
?2kσ2I+σ2k(Z′Z)-1-k2αα′>0
上式成立的充分條件為2kσ2I-k2αα′>0,又k>0,即有
2σ2I-k2αα′>0,
在嶺參數(shù)的選擇上,通常情況下人們的目的是要選擇k值,此值使得均方誤差達到最小,而這個k值的選擇又離不開未知參數(shù)β和σ2,所以在實際問題的應(yīng)用中,常常需要根據(jù)樣本來確定嶺參數(shù)k的值.一般地,有以下幾種方法來選擇嶺參數(shù)k值.
4.1 嶺跡圖法
(1)回歸方程中各回歸系數(shù)的嶺估計曲線變化不大,趨于平穩(wěn);
(2)回歸系數(shù)基本符合實際意義;
(3)與采用最小二乘估計相比,采用嶺回歸方法得到估計的符號更為合理,更符合實際意義;
(4)殘差平方和雖然可能有所增大,但幅度不大,并且基本趨于穩(wěn)定. 嶺跡圖法與傳統(tǒng)的基于殘差的方法完全不同,它提供了一種全新的分析問題的思路,這是一種直觀的易于理解的方法.這對于本文研究自變量之間的相互作用是有幫助的,可以說采用嶺跡圖法確定嶺估計k值是定量分析與定性分析的一個很好的結(jié)合.但同時,嶺跡圖分析方法也存在著明顯的缺點,比如采用嶺跡圖分析方法確定的嶺參數(shù)k在一定程度上存在主觀人為性,并且缺少可靠的理論依據(jù).
4.2 方差膨脹因子法
通過對平均方差膨脹因子VIF的計算,可以掌握解釋量之間存在多重共線性問題的嚴(yán)重程度[8、9].一般地,當(dāng)VIF>10的時候,就認(rèn)為多元回歸方程的解釋變量間存在著嚴(yán)重的多重共線性問題.
=(X′X+kI)-1X′cov(y,y)X(X′X+kI)-1=σ2(X′X+kI)-1X′X(X′X+kI)-1=σ2c(k),
其中,矩陣c(k)=(X′X+kI)-1X′X(X′X+kI)-1,這里對角線元素cjj(k)為嶺估計的方差膨脹因子.
從上面的分析可以看出,當(dāng)嶺參數(shù)k增大時,cjj(k)減小;當(dāng)k減小時,cjj(k)增大.從大量的試驗中得到經(jīng)驗,如果應(yīng)用方差膨脹因子選擇嶺參數(shù)k值,那么選擇的k是使得所有方差膨脹因子cjj(k)≤10的k值.
4.3 控制殘差平方和法
經(jīng)濟工作者總希望通過國內(nèi)總產(chǎn)值x1、存儲量x2、總消費量x3去預(yù)測進口總額y,為此我們收集了中國統(tǒng)計年鑒1949~1959年的數(shù)據(jù)[5].
由統(tǒng)計軟件spss中的回歸程序Liner-Enter可以得到系數(shù)表(見表1).
表1 系數(shù)表
由上表可見不僅x1、x3的方差膨脹因子非常大,而且β1的置信區(qū)間還包含了0點,于是其回歸方程為
由上述定義來求嶺估計中的參數(shù),這里我們?nèi)X估計中的嶺參數(shù)k從0到0.1每隔0.01計算一次,由所得的數(shù)據(jù)作嶺跡圖,如圖1所示.
圖1 嶺跡圖
從嶺跡圖上看,當(dāng)k=0.04時,三條嶺跡都已經(jīng)比較平穩(wěn)了,故可以取k=0.04建立標(biāo)準(zhǔn)化的嶺回歸方程為
所以嶺回歸方程為
嶺回歸估計已不再是無偏估計,而是通過對最小二乘法的改進,允許回歸系數(shù)的有偏估計量存在而補救多重共線性的方法.采用它可以通過允許小的偏差而換取高于無偏估計量的精度,因為它接近真實值的可能性較大.嶺回歸方法也非常靈活,它的使用存在著一定的主觀人為性,但這種人為性正好是發(fā)揮定性分析與定量分析有機結(jié)合之處,在解決多重共線性問題中有著獨特作用,靈活運用嶺回歸方法,可以對分析各變量之間的作用和關(guān)系帶來獨特而有效的幫助.
[1] Hoerl A E,Kennard R W.Ridge Regression :Biased Estimation for Nonorthogonal Problems Technometrics[J]. Technometrics ,1970, 12(6):55-67.
[2] Yatchew A.Nonparametfic Regression Techniques in Economics[J].Journal of Economic Literature, 1998, 6(34):669-721.
[3] 張潤楚.多元統(tǒng)計分析[M].北京:科學(xué)出版社,2007:18-40.
[4] 何曉群,劉文卿.應(yīng)用回歸分析[M].北京:中國人民大學(xué)出版社,2001:24-53.
[5] 王惠文,朱韻華.PLS回歸在消除多重共線性中的作用[J].數(shù)理統(tǒng)計與管理,1996,15(6):48-52.
[6] 楊 楠.嶺回歸在解決多重共線性問題中的獨特作用[J].統(tǒng)計與決策,2004(3):14-15.
[7] 葛宏立,方陸明.無偏的嶺回歸迭代算法[J].數(shù)學(xué)的實踐與認(rèn)識,1997,27(4):320-326.
[8] 陳玲燕.多重共線性下的線性回歸方法綜述[J].市場研究,2008(4):148-152.
[9] 王玉梅.多重共線性的消除:不相關(guān)法[J].統(tǒng)計教育,2006,7(2):18-19.
[10]中國國家統(tǒng)計局.中國統(tǒng)計年鑒1949~1959[EB/OL].http://www.stats.gov.cn.
責(zé)任編輯:周 倫
Analysis and Application of Ridge Regression
WAN Li-ying
(SchoolofMathematicsandStatistics,HubeiUniversity,Wuhan430000,China)
Under the definition of ridge regression, this paper has not only analyzed its qualities but also researched into existence and methods of choosing ridge parameters to obtain methods of choosing a ridge parameter K which contains ridge trace graph, variance inflation factor and residual sum of squares restricting. At last, some realistic problems have been solved by ridge regression which was spread.
multicollinearity, regression coefficient, ridge regression
2015-11-17
萬麗穎(1990—),女,河南鄭州人,在讀碩士研究生,研究方向:統(tǒng)計學(xué)及其應(yīng)用.
1671-9824(2016)02-0019-05
F222.1
A