解決多重共線性的新思路：路徑分析

2013-05-10 10:04:02李從欣張再生李國柱

統(tǒng)計與決策 2013年1期

李從欣,張再生,李國柱

（1.天津大學管理學院，天津 300072；2.石家莊經(jīng)濟學院經(jīng)濟系，石家莊 050031）

0 引言

隨機項滿足高斯假設的回歸模型稱為經(jīng)典線性回歸模型。當經(jīng)典假設不成立時，最小二乘估計量通常不再適用，需要采用其他的估計方法?；炯僭O違背主要包括：隨機項存在異方差，隨機項存在序列相關，解釋變量之間存在共線性，解釋變量是隨要變量用與隨機項相關。在以上幾種情況中，異方差、序列相關、隨機解釋變量模型等都有較好的解決方案，而多重共線性到目前為止尚沒有非常好的解決方法，本文將路徑分析引入多重共線性模型，作為解決多重共線性的一種思路，供大家參考。

1 多重共線性回顧

在回歸模型中，如果某兩個或多個解釋變量之間出現(xiàn)了相關性，則稱為存在多重共線性。多重共線性包括完全多重共線性和近似多重共線性，在實際經(jīng)濟統(tǒng)計數(shù)據(jù)中，完全多重共線性極為少見，一般出現(xiàn)的是近似共線性。

多重共線性產(chǎn)生的原因很多，主要有：①某些經(jīng)濟變量本身存在某種共同的變化趨勢；②將某些解釋變量的滯后變量引入模型作為解釋變量；③多重共線性更多的情況是由于樣本數(shù)據(jù)呈現(xiàn)出來的，并不是解釋變量之間本身存在多重共線性。

當共線性嚴重時，會造成以下后果：參數(shù)估計值不精確，也不穩(wěn)定，樣本數(shù)據(jù)稍有變化，都會使估計值發(fā)生較大變化；參數(shù)估計量的方差較大，使參數(shù)的顯著性檢驗增加了接受零假設的可能；難以區(qū)分每個解釋變量的單獨影響。

檢驗解釋變量之間是否存在嚴重多重共線性的常見方法包括：①相關系數(shù)檢驗法，即通過計算解釋變量兩兩之間的相關系數(shù)來判斷是否存在多重共線性，但它只能用來檢驗兩個解釋變量之間是否存在相關關系，不能檢驗多個解釋變量之間是否存在多重共線性。②輔助回歸模型檢驗法，即建立每一個解釋變量與其余解釋變量的輔助回歸模型來檢驗多重共線性，當輔助回歸方程擬合程度較高時，說明模型存在高度多重共線性。③方差膨脹因子法，一般認為當方差膨脹因子大于5或10時，認為模型存在嚴重的多重共線性。

如果經(jīng)過檢驗證明模型存在多重共線性，就應采用必要的措施進行補救，常用的處理方法包括以下幾種：①保留重要的解釋變量，去掉次要的或可替代的解釋變量；②利用先驗信息改變參數(shù)的約束；③對原始變量進行差分；④逐步回歸法⑤采用有偏估計量，如偏最小二乘法、嶺回歸法、主分量回歸。以上方法中，使用比較多的是逐步回歸。

路徑分析同樣可以解釋多重共線性問題，尤其是其在模型設立時即考慮了解釋變量的相關性。

2 解決多重共線性的新思路：路徑分析

路徑分析模型是反映多個變量之間關聯(lián)或儲存關系的模型。根據(jù)變量之間關系的類型可以分為遞歸和非遞歸兩類[1]。遞歸模型中不含有相互影響的變量，即路徑圖中沒有雙向箭頭，無反饋作用；非遞歸模型則含有相互影響的變量，路徑圖中允許存在雙向箭頭。和線性回歸分析相接近的是非遞歸模型，非遞歸模型路徑圖的一般形式如圖1所示：

圖1 非遞歸模型的路徑圖

在圖1中，雙箭頭表示變量之間的相關關系，u與解釋變量之間不用雙向箭頭連接，表示隨機項與解釋變量不相關。由圖1可以看出，非遞歸模型可以寫成以下形式：

此模型形式和多元線性回歸模型完全相同，但模型的假設條件卻有所不同。非遞歸模型的假定條件包括：

（1）y為服從多元分布的隨機變量

（2）解釋變量X無測量誤差

（3）u是服從均值為0，方差為常數(shù)的多元分布的隨機變量，且與X不相關

由以上假定可以看出，非遞歸模型的假定條件和多元回歸模型的假定非常相似，所不同的是非遞歸模型并不要求解釋變量之間不相關。因此多元線性回歸模型可以看作是非遞歸模型的一種特殊形式。

除此之外，路徑分析和線性回歸分析的求解原理也不相同，線性回歸不管是采用最小二乘法或最大似然法，最后都歸結(jié)到使殘差平方和最??；而路徑分析則基于樣本協(xié)方差進行求解，其基本思想是，觀測變量的協(xié)方差矩陣是一組待估計參數(shù)的函數(shù)，如果模型是正確的，那么總體的協(xié)方差矩陣就能夠被準確地重復出來。因此，路徑分析不能以傳統(tǒng)的統(tǒng)計分析軟件估計，只能以結(jié)構(gòu)方程分析軟件進行分析。以結(jié)構(gòu)方程分析軟件進行路徑分析，可以避免多次決策帶來的錯誤，同時也可以獲得更為豐富的統(tǒng)計信息[2]。

3 路徑分析解決多重共線性的的實證

為了對路徑分析解決多重共線性的效果進行驗證，我們采用李子奈教授所著《計量經(jīng)濟學（第二版）》中的例子，該例子選用了影響糧食生產(chǎn)（Y）的五個主要因素，農(nóng)業(yè)化肥施用量（X1）、糧食播種面積（X2）、成災面積（X3）、農(nóng)業(yè)機械總動力（X4）、農(nóng)業(yè)勞動力（X5），其中，成災面積的符號為負，其余均應為正。具體數(shù)據(jù)如表1所示：

表1 中國糧食生產(chǎn)與相關投入資料

該書中已分別采用最小二乘法和逐步回歸法進行了估計。最小二乘法的估計結(jié)果如下：

由于R2較大且接近于1，且F統(tǒng)計量顯著，故認為糧食生產(chǎn)與上述解釋變量間總體線性關系顯著。但由于其中X4、X5的參數(shù)估計值未能通過t檢驗，且符號的經(jīng)濟意義也不合理，故認為解釋變量間存在多重共線性。

逐步回歸的最優(yōu)估計結(jié)果如下：

最優(yōu)估計結(jié)果表明，由于多重共線性，X4與X5是多余的。

接下來本文采用路徑分析估計多重共線性模型，該模型的初始路徑分析圖如圖2所示：

圖2 糧食生產(chǎn)函數(shù)的路徑分析圖

對該模型進行估計，回歸系數(shù)及檢驗結(jié)果見表2。

表2 回歸系數(shù)表

由表中估計值及檢驗結(jié)果可以看出，X4、X5對糧食生產(chǎn)的影響不顯著，且符號的經(jīng)濟意義也不合理，可以考慮刪掉這兩個變量。

各變量間的協(xié)方差矩陣如表3所示：

表3 各變量間協(xié)方差矩陣

由表3檢驗結(jié)果可知，X3與X5、X2與X5、X2與X4、X1與X2至少在0.10的顯著性水平下不顯著，因此刪掉這幾對因果關系，修改后的路徑圖如圖3所示：

圖3 修改后的路徑圖

對修改后的路徑圖進行極大似然估計，其中截距為-11978.18，p-value為0.348，因此截距項不顯著。其他回歸系數(shù)及檢驗結(jié)果見表4：

表4 修改模型的回歸系數(shù)表

從表4可以看出，三個解釋變量對糧食生產(chǎn)的影響均顯著，且符號也符合預期。

各變量間的協(xié)方差矩陣如表5所示：

表5 修改模型的協(xié)方差矩陣

從表5可知，X1與X3、X2與X3的協(xié)方差在0.05的顯著性水平下都是顯著的。

從模型的整體擬合上來看，卡方值為0.002，P值為0.961，表明觀察數(shù)據(jù)支持理論模型；RMSEA為0，NCP為0，表明模型完全適配；NFI、RFI均等于0，IFI為1.012，TLI為1.078，CFI為0，表明模型適配度相當完善。綜合以上指標，我們建立的理論模型無論從整體擬合上，還是從參數(shù)檢驗上都是一個非常完美的模型。

最后我們將路徑分析結(jié)果寫成模型形式：

Y=-11978.18+5.256X1+0.408X2-0.195X3

如果路徑系數(shù)取兩位小數(shù)的話，我們會發(fā)現(xiàn)，這個結(jié)果與逐步回歸的結(jié)果完全相同。因此采用路徑分析法解決多重共線性問題具有良好的效果。

[1]易丹輝.結(jié)構(gòu)方程模型方法與應用[M].北京:中國人民大學出版社，2008.

[2]趙守盈.矩結(jié)構(gòu)分析模型[M].廣州:暨南大學出版社，2011.

[3]李子奈.計量經(jīng)濟學（第二版）[M].北京:高等教育出版社，2005