陳 軍
(新疆師范大學商學院,新疆 烏魯木齊 830017)
在多元線性回歸中,通常采用OLS(最小二乘法)作為估計回歸模型參數(shù)的方法,但需滿足若干基本假定,包括關于變量和模型的假定和關于隨機擾動項統(tǒng)計分布的假定。其中假設之一就是解釋變量間不存在多重共線性,但在實際研究中,模型中的解釋變量間往往存在不同程度的共線性問題,對此情形需要進行相應的消除解決,再行應用OLS。多重共線性的內容在“統(tǒng)計學”“計量經濟學”課程中都有涉及,也是教學中的一個重點和難點。在教學實踐中,一般采用定義數(shù)學方程、矩陣等講授,但涉及數(shù)學知識點多,理論講解相對費時,如果學生數(shù)學基礎不扎實,那么對這部分的內容理解起來就相對吃力。通過引入文氏圖,可有助于這部分內容講解和學生的理解。
文氏圖屬于集合論數(shù)學分支,用于展示不同集合(群組)之間的數(shù)學或邏輯關系,常被用于集合(類)運算。一般用矩形框表示論域,矩形框的內部區(qū)域即論域范圍,可視為全集,即所有可能事物的空間。單個集合用圓或橢圓表示,若兩個圓或橢圓相交,相交部分則是兩個集合所包含的公共元素;若兩個圓或橢圓不相交,則表明兩集合無公共元素。需要說明的是,文氏圖與其它的圖示法一樣,它不能準確表示一個集合(或類)中到底有哪些元素。下圖為集合A, B的文氏圖。
圖1 集合A, B的文氏圖
變量λ1x1+λ2x2+…+λkxk=0之間共線性的情形有三種,分別是完全共線性、不完全多重共線性和無多重共線性。
1.完全共線性
變量間存在完全共線性,即對于變量x1,x2,…,xk,如果存在不全為零的常數(shù)λ1,λ2,…,λk,使得下式成立:
則稱解釋變量x1,x2,…,xk之間存在完全共線性。
2.不完全共線性
變量間存在不完全共線性,即對于變量x1,x2,…,xk,如果存在不全為零的常數(shù)λ1,λ2,…,λk,使得下式成立:
則稱解釋變量x1,x2,…,xk之間存在不完全共線性,其中μ為隨機誤差項。與完全共線性不同的是,不完全共線性反映出變量間是近似線性關系,而非函數(shù)關系。因而,不完全共線性也稱近似的多重共線性,實際經濟問題的大多數(shù)情況呈現(xiàn)這種情形。
3.無多重共線性
無多重共線性是指解釋變量x1,x2,…,xk之間,既不滿足式(1),也不滿足式(2)的情形。矩陣x為滿秩矩陣,即rank(X)=k+1。應該注意到,解釋變量x1,x2,…,xk之間不存在線性相關,并不說明不存在非線性相關。由于各解釋變量x1,x2,…,xk之間往往在時間上存在同向變動趨勢,且存在不同程度關聯(lián)度,無多重共線性情形一般很少。
基于文氏圖的多重共線性可分三種情形:無多重共線性、不完全共線性及完全共線性,如圖2所示。
1.完全共線性
假設線性回歸模型有兩個解釋變量x1,x2,各自代表相應變量信息。若存在常數(shù)λ1,λ2,滿足λ1x1+λ2x2=0,即解釋變量x1,x2之間存在完全共線性。用文氏圖可表示為如圖2(c),說明變量x1反映的信息和x2反映的信息,雖然形式不同,但兩者信息是完全重復的。
2.不完全共線性
假設線性回歸模型有兩個解釋變量x1,x2,各自代表相應變量信息。若存在常數(shù)λ1,λ2,滿足λ1x1+λ2x2+μ=0,即解釋變量x1,x2之間存在不完全共線性。用文氏圖可表示為如圖2(b)情形,說明變量x1反映的信息和x2反映的信息,雖然形式不同,但兩者信息部分是重復的。變量間相關程度越大,圖形中x1,x2重復的部分越多。
3.無多重共線性
假設線性回歸模型有兩個解釋變量x1,x2,各自代表相應變量信息。若既不存在常數(shù)λ1,λ2,滿足λ1x1+λ2x2=0,也不滿足λ1x1+λ2x2+μ=0,這時解釋變量x1,x2之間不存在共線性。用文氏圖可表示為如圖2(a)情形,說明變量x1反映的信息和x2反映的信息,無交集,即解釋變量x1,x2之間線性相關系數(shù)為零,各自提供的信息無重合部分。
圖2 共線性分類的文氏圖表示
多元線性回歸模型中,如果解釋變量間存在多重共線性,但仍采用OLS方法估計模型參數(shù),一般將產生較為嚴重的后果。以二元線性回歸模型為例,在完全共線性情形下,參數(shù)估計量將不存在,表現(xiàn)在參數(shù)估計量 和 為不定式,且方差為無窮大;而在不完全共線性的情形下,則呈現(xiàn)出參數(shù)估計量 和
的方差、置信區(qū)間伴隨x1,x2共線性程度增加而增加,同時t檢驗失效、預測精度降低、回歸模型缺乏穩(wěn)定性等影響。因此,在進行模型回歸前,一般要進行多重共線性的檢驗,主要檢驗方法包括相關系數(shù)檢驗、F-G檢驗、特征值檢驗、方差膨脹因子(VIF)檢驗等。
在實際應用中,往往考慮如下方法研判:R2或其修正值很高(F值也相應高),但某些解釋變量系數(shù)的t值卻不顯著或偏低。這時,我們就可初步判斷解釋變量x1,x2,…,xk之間可能存在多重共線性。這種結果看似矛盾,其實不然。F檢驗表明因變量與解釋變量之間的線性關系是顯著的,即因變量和解釋變量中的一個變量間的線性關系顯著,并不代表和每個解釋變量之間的線性關系都顯著。為了便于理解,可借助文氏圖3表示。
圖3 多重共線性檢驗的文氏圖表示
上圖中,X1、X2、X3分別表示多元線性回歸模型中三個解釋變量對因變量的解釋貢獻度,F(xiàn)檢驗值可理解為X1、X2、X3三個集合形成的面積。由于共線性的存在,導致無法區(qū)分X1、X2、X3對因變量的具體解釋貢獻度,盡管單獨對每個解釋變量回歸,系數(shù)呈現(xiàn)顯著性。某些解釋變量的貢獻度和另一些解釋變量的貢獻度相互重疊了。借助文氏圖,對于講授這個知識點,學生更容易理解。
為完整體現(xiàn)文氏圖在線性回歸模型多重共線性分析方面的應用,下面結合一個具體的案例來說明。
例:根據(jù)理論和經驗分析,影響國內旅游市場收入Y的主要因素,除了國內旅游人數(shù)和旅游支出之外,還可能與相關基礎設施有關。為此,考慮的影響因素主要有國內旅游人數(shù)X1,城鎮(zhèn)居民人均旅游支出X2,農村居民人均旅游支出X3,并以公路里程X4和鐵路里程X5作為相關基礎設施的代表。統(tǒng)計數(shù)據(jù)如下表1所示。要求建立國內旅游市場收入的多元線性回歸預測模型,并檢測共線性情況。
分析本例題模型中的變量,公路里程(X4)和鐵路里程(X5)兩個變量反映的信息應有重疊,而國內旅游人數(shù)(X1)、城鎮(zhèn)居民人均旅游支出(X2)、農村居民人均旅游支出(X3)等三個變量反映的信息應有重疊(通過相關系數(shù)矩陣也可得出),考慮模型中解釋變量間可能存在共線性問題。模型中解釋變量及隨機誤差項反映信息用圖4文氏圖表示。
本例以SPSS作為數(shù)據(jù)處理軟件,采用逐步回歸法解決多重共線性問題,實操步驟描述如下。
圖4 解釋變量及隨機誤差項反映信息的圖示
Step1:輸入數(shù)據(jù);依次選擇“分析(A)”→“回歸(R)”→“線性(L)”進入線性回歸對話框。在“線性回歸”對話框中,將左側框內的“Y”“X1”“X2”“X3”“X4”“X5”分別移入右側“因變量(D)”和“自變量(I)”框內,對話框界面同前例。并在“方法”下選擇“逐步”。
Step2:點擊“選項”,并在“步進方法標準”下選擇“使用F的概率”,并輸入增加變量所要求的的顯著性水平(默認值為0.05);在“刪除”框中輸入剔除變量所要求的顯著性水平(默認值為0.10)。點擊“繼續(xù)”回到主對話框。
Step3:點擊“確定”。得到部分結果如表2、3。
表2 輸入/移去的變量
表3 系數(shù)
上表給出了參數(shù)的估計值和用于檢驗的t統(tǒng)計量和p值。由此得到回歸模型:
從結果可以看出,首先被選入的變量是城鎮(zhèn)居民人均旅游支出(X2),后依次選入的變量是公路里程(X4)和農村居民人均旅游支出(X3),即在消除共線性的情形下,剔除了變量X1和X5。從經濟意義解釋,就是公路里程(X4)信息更多涵蓋鐵路里程(X5),城鎮(zhèn)居民人均旅游支出(X2)和農村居民人均旅游支出(X3)反映的信息更多涵蓋國內旅游人數(shù)(X1),用文氏圖可表示為圖5。
圖5 回歸模型變量間文氏圖
通過上文分析,可以看到文氏圖在多重共線性內容講授時的優(yōu)點,主要體現(xiàn)在多重共線性定義及分類、共線性檢驗及回歸結果分析上。通過借助文氏圖,可有效提高教師的教學效果和學生對此內容的理解掌握。