王飛 孫嘉聰 沈丹
【摘要】在多元線性回歸模型中,變量之間多重共線性的存在十分普遍,但其危害卻不容忽視,文章簡(jiǎn)述了回歸模型中多重共線性的一系列問題,并通過實(shí)例采用嶺回歸分析法對(duì)經(jīng)濟(jì)問題中的多重共線性問題進(jìn)行了分析.所以研究線性回歸中變量之間的多重共線性具有一定的實(shí)用價(jià)值.
【關(guān)鍵詞】回歸模型;多重共線性;嶺回歸分析
一、多重共線性
(一)多重共線性的含義
由于模型設(shè)定和數(shù)據(jù)等各方面的問題,模型的解釋變量之間很可能存在某種程度的線性關(guān)系,這時(shí)稱多元線性回歸模型存在多重共線性問題.
數(shù)學(xué)描述:對(duì)于模型yi=β0+β1x1i+β2x2i+…+βpxpi+εi,i=1,2,…,n.(1-1)
其基本假設(shè)之一是解釋變量X1,X2,…,Xp是相互獨(dú)立的.如果某兩個(gè)或多個(gè)解釋變量之間出現(xiàn)了相關(guān)性,則稱為多重共線性(Multicollinearity).
如果存在c1x1i+c2x2i+…+cpxpi=0,i=1,2,…,n.(1-2)
其中c不全為0,則稱X1,X2,…,Xp之間存在線性.如果式(1-2)近似地對(duì)所有數(shù)據(jù)成立,則稱X1,X2,…,Xp之間存在近似多重共線性.
(二)多重共線性形成的基本原因
完全多重共線性常因?yàn)樵谀P驮O(shè)定時(shí)把有嚴(yán)格聯(lián)系的變量引進(jìn)同一個(gè)模型,或者因?yàn)樘摂M變量設(shè)置不當(dāng)引起的.而近似多重共線性既與變量選擇有關(guān),也與數(shù)據(jù)有關(guān),雖然由于解釋變量的選擇不當(dāng),把內(nèi)在相關(guān)性較強(qiáng)的變量引進(jìn)同一個(gè)模型,是導(dǎo)致近似多重共線性的重要原因,但近似多重共線性更經(jīng)常的原因是經(jīng)濟(jì)數(shù)據(jù)的共同趨勢(shì).
(三)多重共線性的危害
當(dāng)解釋變量系統(tǒng)中存在嚴(yán)重的多重共線性時(shí),若仍用最小二乘法擬合回歸模型,則模型的精確性、可靠性都不能得到保證.
1.在解釋變量完全相關(guān)的情況下,最小二乘法的回歸系數(shù)完全無法估計(jì).最小二乘法下,回歸系數(shù)的估計(jì)量是β^=(X′X)-1,當(dāng)X中的量完全相關(guān)時(shí),(X′X)是不可逆矩陣.因此,此公式無法求得回歸系數(shù)β,自然也得不到應(yīng)有的回歸模型.
2.若解釋變量間存在著不完全的共線性,回歸系數(shù)是可估計(jì)的,回歸系數(shù)的估計(jì)方差會(huì)隨著解釋變量之間的相關(guān)性的不斷增強(qiáng)而迅速擴(kuò)大.在高度相關(guān)條件下,回歸系數(shù)的方差很大,往往只更換樣本中的個(gè)別數(shù)據(jù)所得到的回歸系數(shù)的值就會(huì)有很大差異,這對(duì)于所得到的回歸方程的可靠性就很難判斷了.
3.存在嚴(yán)重的多重共線性時(shí),回歸系數(shù)的統(tǒng)計(jì)檢驗(yàn)有一定的困難.在高度相關(guān)條件下,回歸系數(shù)的方差不斷增大,相應(yīng)的t檢驗(yàn)值減小,造成回歸系數(shù)的t檢驗(yàn)不能通過.在應(yīng)用過程中,由于解釋變量之間的多重共線性,造成一些重要的解釋變量無法通過顯著性檢驗(yàn),就可能把一些重要的解釋變量作為無足輕重的因素而舍棄,從而得出與客觀情況相悖的結(jié)論.
4.在解釋變量高度相關(guān)的條件下,用最小二乘法得到的回歸模型,其回歸系數(shù)的物理含義很難解釋.許多從專業(yè)知識(shí)上看似乎十分重要的變量,其回歸系數(shù)的取值變得微不足道,甚至還會(huì)出現(xiàn)回歸系數(shù)的符號(hào)與人們的實(shí)際概念完全相反的現(xiàn)象.
二、嶺回歸法
例:法國(guó)經(jīng)濟(jì)分析數(shù)據(jù),考察進(jìn)口總額Y與三個(gè)解釋變量:國(guó)內(nèi)總產(chǎn)值X1,存儲(chǔ)量X2,總消費(fèi)量X3(單位均為十億法郎),現(xiàn)收集數(shù)據(jù),具體值見表1.
對(duì)給定的原始數(shù)據(jù)進(jìn)行中心化和標(biāo)準(zhǔn)化,得到如下數(shù)據(jù):
可以通過計(jì)算得到它所有可能的最小二乘回歸.如下表2-2.
進(jìn)入回歸的變量
回歸系數(shù)的最小二乘估計(jì)
計(jì)算出其對(duì)應(yīng)的三個(gè)特征值:λ1=1.999,λ2=0.998,λ3=0.003,
則其條件數(shù)d=λ1λ3=1.9990.003=666.333,在100與1000之間,即存在中等程度的復(fù)共線性.
設(shè)“標(biāo)準(zhǔn)化”變量的回歸方程為:
Y^′=β^1X1′+β^2X2′+β^3X3′.(2-1)
應(yīng)用嶺估計(jì)的概念:β^(k)=(X′X+kI)-1X′Y并代入不同的k值,如下圖2-3.
圖2-3 外貿(mào)數(shù)據(jù)回歸的嶺跡圖
(其中實(shí)線:β^1(k),虛線:β^2(k),點(diǎn)劃線:β^3(k),橫軸:k取值,豎軸:β^(k))
由嶺跡圖2-3可以看出,嶺跡β^1(k)隨著k的增加而快速增加,k=0.04后就穩(wěn)定下來.總體來看,可以取k=0.04.
則對(duì)應(yīng)的嶺估計(jì)為:β^1(0.04)=0.420,β^2(0.04)=0213,β^3(0.04)=0.525代入“標(biāo)準(zhǔn)化”變量的回歸方程(2-1):
Y^-YSY=β^1(0.04)X1-X1S1+β^2(0.04)X2-X2S2+β^3(004)X3-X3S3,
簡(jiǎn)化后得到嶺回歸方程:Y^=-8.5537+0.0635X1+05859X2+0.1156X3.
三、結(jié) 論
嶺回歸法解決多重共線性問題有其獨(dú)到之處,與其他方法不盡相同.但要想減少M(fèi)SE(β^),應(yīng)采取嶺回歸法,無論采取什么方法,都應(yīng)從實(shí)際情況出發(fā),選擇對(duì)解決實(shí)際問題有利而簡(jiǎn)單的方法,不僅可以對(duì)分析各變量之間的作用和聯(lián)系帶來意想不到的幫助,而且可以達(dá)到事半功倍的效果.
【參考文獻(xiàn)】
[1]何曉群.多元統(tǒng)計(jì)分析[M].北京:中國(guó)人民大學(xué)出版社,2008:152-174.
[2]周紀(jì)薌.實(shí)用回歸分析方法[M].上海:上??茖W(xué)技術(shù)出版社,1990.
[3]趙松山.對(duì)多重共線性的深入思考[J]當(dāng)代財(cái)經(jīng),2003(6):125-128.
[4][美]古扎拉蒂著,林少宮譯.計(jì)量經(jīng)濟(jì)學(xué)[M]北京:中國(guó)人民大學(xué)出版社,2000.