嶺回歸分析在解決經(jīng)濟數(shù)據(jù)共線性問題中的應用

2018-08-24 02:52:22王銳

經(jīng)濟研究導刊 2018年22期

王銳

（上海理工大學管理學院，上海 200093）

引言

多元線性回歸模型是處理數(shù)據(jù)常用的方法，但經(jīng)濟數(shù)據(jù)集中高維數(shù)據(jù)頻繁地出現(xiàn)，使得經(jīng)典線性回歸統(tǒng)計方法受到較大沖擊。較高維數(shù)據(jù)常會出現(xiàn)多重共線性問題[1]。多重共線性不是模型設定的錯誤，但使用傳統(tǒng)的最小二乘法（OLS，Ordinary Least Squares）處理這類經(jīng)濟數(shù)據(jù)時，往往會出現(xiàn)回歸系數(shù)計算不穩(wěn)定、模型解釋性較差、預測準確性較低等問題[2]。目前，嶺回歸（Ridge Regression）是處理嚴重共線性常用方法[2]。Hoerl于1962年最早提出嶺回歸，這是一種改進的最小二乘估計法，到1970年，Hoerl&Kennard對該方法進行了更詳細的討論[3]。

一、多重共線性檢驗

一般，多元回歸模型假設各個預測變量之間沒有很強的依賴關系，即模型[4]：

或用矩陣形式表示：

預測變量 X1，X2，…，Xp是相互獨立，或（X′X）不接近奇異矩陣，但當預測變量間存在較強的線性關系，稱之為（多重）共線性問題。通常，多重共線性問題的產(chǎn)生有如下原因：經(jīng)濟變量相關的共同趨勢；滯后變量的引入；樣本資料的限制[4]。

方差膨脹因子（VIF，Variance Inflation Factor）[2]是度量共線性常用的方法，VIF是回歸系數(shù)OLS估計平方誤差之和的期望與正交條件下期望的比值，定義式為：

通常帶截距項OLS回歸，VIFj取值從1到無窮大。當VIFj=1時，認為模型中各變量間沒有任何線性關系，當VIFj值逐漸增大，變量之間逐步走向共線性，當VIFj＞10時，認為模型存在多重共線性[2]。

二、嶺回歸分析

（一）嶺回歸參數(shù)估計

對于回歸模型，當預測變量具有較高的共線性時，嶺回歸提供了一種有效的估計方法，其基本思想[2]是：對回歸模型進行中心化和標準化處理，建立模型：

其中，響應變量 Z=（Z1，Z2，Zj，…，Zp），Zj是原始數(shù)據(jù)，是通過以下變換所得：

那么嶺回歸正規(guī)方程組變?yōu)椋?/p>

由上式中解得參數(shù)α估計為：

上式中，嶺參數(shù)K值選取準則是調(diào)和總方差和偏倚兩者的關系，過小或過大都會導致估計誤差擴大[2]。常用方法包括固定點方法、迭代方法、嶺跡法[2]，其中，嶺跡法是一種圖像方法，通過觀察嶺跡圖選取合適的K值。一般要求各嶺回歸系數(shù)估計值基本穩(wěn)定，即嶺跡平穩(wěn)。

（二）嶺回歸進行變量選擇

實際應用中，回歸模型所涉及的預測變量往往不是事先確定的，確定一組優(yōu)秀的變量子集不僅能更清晰地解釋預測變量和響應變量之間的關系，同時能提高預測精度。

嶺回歸能產(chǎn)生一個系數(shù)穩(wěn)定的回歸方程，借鑒嶺跡法進行變量剔除，該剔除過程有兩個準則[2]：第一準則，刪去那些系數(shù)穩(wěn)定但絕對值很小的預測變量；第二準則，剔除那些不穩(wěn)定但是回歸系數(shù)θ^j（K）隨著K值的變大而趨向于0的變量。

第一次嶺回歸剔除一個或幾個變量后，可重復以上過程，直到剩下的變量嶺跡穩(wěn)定，最后運用OLS對所選變量進行回歸，但若所保留變量仍有共線性，可考慮使用嶺回歸方法進行參數(shù)估計，建立嶺回歸模型。

三、實例分析

實例分析為我國就業(yè)情況與相關經(jīng)濟指標的關系，數(shù)據(jù)為1997—2016年的宏觀經(jīng)濟數(shù)據(jù)，源于《中國統(tǒng)計年鑒》[5]。指標選擇參考Longley數(shù)據(jù)集[6]，設定1個響應變量和5個預測變量組成的宏觀經(jīng)濟數(shù)據(jù)集，包含就業(yè)人員（萬人）（Y）、年份（X1）、人均國內(nèi)生產(chǎn)總值（元）（X2）、年末總人口（萬人）（X3）、法人單位數(shù)（個）（X4）、城鎮(zhèn)登記失業(yè)人數(shù)（萬人）（X5）。

本文為研究以上5個變量對就業(yè)人員的影響，擬建立多元線性回歸模型，即：

（一）OLS估計及共線性檢驗

為了確保模型設定合理性及預測結果有效性，需要對模型進行回歸診斷。首先，使用SPSS軟件運用OLS回歸分析，結果（見表 1）。

表1 數(shù)據(jù)OLS回歸分析結果

由表1可得，用OLS擬合線性回歸方程為：

雖然從表1中R2來看，模型解釋性很好，同時標準化殘差檢驗顯示出模型無明顯誤設問題，但OLS擬合回歸方程中p值及部分系數(shù)符號并不合理。

所以，考慮把兩兩預測變量的散點圖排成矩陣圖1）。通過散點圖—相關系數(shù)矩陣觀察可得，各指標相關系數(shù)都在0.75以上，散點圖基本都呈線性模式。

圖1 散點圖—相關系數(shù)矩陣

再使用SPSS軟件中共線性檢驗功能，可以得到各變量方差膨脹因子：

該經(jīng)濟數(shù)據(jù)的VIF值的變化范圍為21—4 792，預測變量VIF值均大于10，由檢查數(shù)據(jù)集中預測變量的相關系數(shù)，方差膨脹因子VIF，都說明該數(shù)據(jù)存在嚴重的多重共線性，必須采取措施消除共線性的影響。

（二）變量選擇

運用SPSS軟件實現(xiàn)對經(jīng)濟數(shù)據(jù)嶺回歸分析，嶺參數(shù)K的取值從0～0.2，間隔為0.005，共記錄了40個嶺參數(shù)取值，做嶺跡圖。對全部5個變量嶺跡進行分析，發(fā)現(xiàn)嶺跡比較雜亂，且變量之間存在高度線性關系，故首先考慮剔除部分變量。

根據(jù)選擇變量準則，先考慮剔除X4，因為標準化回歸系數(shù)估計變化較穩(wěn)定，但絕對值趨于0；當K=0時，變量X3的標準回歸系數(shù)最大，但當K增加時迅速下降，變量X1則變化相反，且當K增大后，X1、X3與X5嶺跡幾乎重合，三者相關系數(shù)達到0.94以上，三個變量可近似合并為一，故試著保留X3。最終，去掉X1、X4、X5（剔除這 3 個變量不違反經(jīng)濟常識）。再次，進行嶺回歸分析，生成2變量的嶺跡圖，圖中嶺跡基本穩(wěn)定。最終，選擇人均國內(nèi)生產(chǎn)總值（元）（X2）、年末總人口（萬人）（X3）作為模型預測變量。

圖2 5變量嶺跡圖

圖3 變量X1、X3嶺跡圖

（三）嶺估計

在剔除X1、X4、X5之后，保留變量之間仍存在一定線性關系，計算得X2、X3的OLS回歸系數(shù)方差膨脹因子接近10，分別為 VIF2=9.55，VIF3=9.55。

故對保留變量進行嶺回歸分析，通過兩變量嶺跡來看，當K值達到0.7～0.9的范圍時，各個θj（K）（j=2，3）大體上趨于穩(wěn)定，選取嶺參數(shù)K=0.8，計算可得嶺回歸結果（見表 2）。

表2 嶺回歸分析結果（K=0.8）

由表2最終獲得嶺回歸方程:X2、X3系數(shù)更加合理。同時，嶺回歸后各變量的方差膨脹因子極大地降低，VIFj（0.1）＜10（j=2，3），表示非共線性狀態(tài)。

并且，從表2中結果可知，2預測變量數(shù)據(jù)變異總和占響應變量變異的84.4%。雖然，該占比不及OLS回歸，但嶺回歸后

（四）誤差分析

求得經(jīng)濟數(shù)據(jù)集的嶺回歸方程后，將實際總就業(yè)人數(shù)Y與模型預測值Y^進行對比，可得到該模型平均相對誤差（MRE，Mean Relative Error）：

式中，yi為第i個樣本的實際值為通過嶺回歸模型求得對應的預測值。由（11）式求得MRE為0.97%，這意味著基于嶺回歸建立的模型誤差較小，擬合效果較好。

結語

將多元回歸模型應用于經(jīng)濟數(shù)據(jù)時，若該數(shù)據(jù)集存在多重共線性，OLS無法進行有效的估計和預測，而嶺回歸方法引入正數(shù)K修正OLS正規(guī)方程組，通過一種有偏估計方法，消除多重共線性對模型的影響。在實例分析時，首先對宏觀經(jīng)濟數(shù)據(jù)集進行模型假設檢驗，在模型設定無誤情況下，運用變量相關矩陣圖、VIF對共線性進行診斷，在確定數(shù)據(jù)存在嚴重共線性后，運用嶺跡圖剔除變量，再進行嶺回歸。回歸結果通過顯著性檢驗且消除了共線性的影響，同時模型誤差小，擬合效果較好。

但嶺回歸參數(shù)的選擇原則和方法存在一定主觀性，沒有明確的含義，所以選擇變量時需要特別謹慎，要靈活運用嶺回歸方法，如比較剔除不同變量子集的回歸效果。當然，對于共線性問題可根據(jù)具體情況采用其他方法，如主成分分析、Lasso 回歸[7]等。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看