張 玲
(遼寧地質(zhì)工程職業(yè)學(xué)院,遼寧 丹東 118008)
在多元線性回歸模型經(jīng)典假設(shè)中,其重要假定之一是回歸模型的解釋變量之間不存在線性關(guān)系,也就是說,解釋變量X1,X2,……,Xk中的任何一個都不能是其他解釋變量的線性組合.如果違背這一假定,即線性回歸模型中某一個解釋變量與其他解釋變量間存在線性關(guān)系,就稱線性回歸模型中存在多重共線性.多重共線性違背了解釋變量間不相關(guān)的古典假設(shè),將給普通最小二乘法帶來嚴重后果.多重共線性包含完全多重共線性和不完全多重共線性兩種類型.理論上可以證明,當(dāng)回歸方程中的某些變量之間完全相關(guān)時,回歸系數(shù)不存在;當(dāng)自變量之間高度相關(guān)時,回歸系數(shù)表現(xiàn)出不確定性,從而使回歸系數(shù)的標(biāo)準(zhǔn)差大大增加.從應(yīng)用角度看,由于多重共線性的存在,如果僅從回歸系數(shù)的經(jīng)濟意義出發(fā)去解釋經(jīng)濟現(xiàn)象,往往會得出一些與經(jīng)濟理論相反的結(jié)論.例如我們有時計算某廠的利潤y、總產(chǎn)值x1、銷售收入x2變化的二元線性回歸方程
yc=-2094.57+05710x1-0.1429x2
(1)
(1)式表明,當(dāng)工業(yè)總產(chǎn)值x1不變時,銷售收入x2每增加一個單位,利潤y平均減少0.1429個單位,顯然與事實不符.導(dǎo)致這一問題的出現(xiàn),主要是由于多重共線性的存在.事實上,這類問題在回歸分析中并非鮮見.因此,有必要總結(jié)出多重共線性的檢驗及校正方法.
通常多重共線性檢驗的方法有單相關(guān)系數(shù)矩陣法、t檢驗法和符合判斷法.下面分別加以介紹:
(1)單相關(guān)系數(shù)矩陣法.所謂單相關(guān)系數(shù)矩陣法,就是分別計算出每兩個自變量之間的單相關(guān)系數(shù),并將計算結(jié)果列成一張矩陣表,在單相關(guān)系數(shù)矩陣中,任何兩個自變量之間的相關(guān)系數(shù)r>0.8都可能導(dǎo)致多重共線性的出現(xiàn),方法如下:
考察多元線性回歸模型Y=β0+β1X1+…+βkXk,其解釋變量之間的相關(guān)系數(shù)矩陣為:
因為rij=rji,所以上面相關(guān)陣為對稱陣,rjj=1,只需考察主對角線元素上方(或下方)某個元素絕對值是否很大(一般在0.8以上),就可以判斷兩個解釋變量間是否存在多重共線性.另外需要特別注意的是,如果相關(guān)系數(shù)很大,則一定存在多重共線性,如果相關(guān)系數(shù)很小,不一定沒有多重共線性.
如果欲建立某社會商品零售總額(當(dāng)年實現(xiàn)的社會商品購買力)回歸預(yù)測模型,初選三個自變量,依次是當(dāng)年形成的社會商品購買力x1、上年末結(jié)合的購買力x2和當(dāng)年零售商品貨源x3.根據(jù)表1計算解得三元線性回歸方程為
(2)
表2列出了自變量之間的單相關(guān)系數(shù).從表2可以看出,自變量之間的單相關(guān)系數(shù)均大于0.8,處于高度狀態(tài),表明有多重共線性存在.
(3)
表1 某市社會商品零售總額預(yù)測基礎(chǔ)數(shù)據(jù)表 (單位:百萬元)
表2 單相關(guān)系數(shù)矩陣
表3 回歸方程的(2)的t檢驗
(3)符號判斷法.如果回歸方程中的回歸系數(shù)b與其相應(yīng)的單相關(guān)系數(shù)r正負號相反,表明有多重共線性存在,例如方程(1)的回歸系數(shù)b=-0.1429,而工業(yè)總產(chǎn)值y與銷售收入x之間的單相關(guān)系數(shù)r=0.68,正負號相反,因些我們斷定方程(1)存在多重共線性.
以上闡述的三種檢驗方法,用于判斷回歸方程是否存在多重共線性,所起的作用是不同的,筆者認為單相關(guān)系數(shù)矩陣法可以作為查明多重共線性存在的必要條件;符號判斷法可以作為查明多重共線性存在的充分條件;t檢驗法則應(yīng)作為查明多重共線性存在的充分且必要條件.
如果回歸方程中存在多重線共線性,應(yīng)設(shè)法消除或減輕它的影響.我們在解決方程(2)上多重線共線性的影響時,采用了刪減變數(shù)和引入附加方程的校正方法,效果比較明顯.現(xiàn)分述如下:
刪減變數(shù)即刪除多元回歸方程中的某個自變量
(1)該自變量應(yīng)該是與因變量之間相關(guān)系數(shù)最小者;
(2)在單相關(guān)系數(shù)矩陣中,應(yīng)舍棄高度相關(guān)自變量中的一個;
(3)若某個自變量x的回歸系數(shù)b與單相關(guān)系數(shù)r正負號相反,則應(yīng)刪除該變量.
根據(jù)以上原則并結(jié)合具體情況,我們刪除了方程中(2)中的自變量x2x3,重新建立了社會商品購買力x的變化的一元回歸方程:
yc=21367+0.8466xi
(4)
方程(4)的t檢驗結(jié)果見表4
表4 回歸方程(4)的t檢驗
此時,t0=6.85、t1=89.12均大于t分布表中的t0.025=2.31的理論值.表明(4)式回歸系數(shù)的顯著性檢驗
結(jié)余購買力表現(xiàn)為沉淀的貨幣和銀行存款,但是這部分在下一年內(nèi)并非全部成為當(dāng)年的購買力,其中一部分仍以結(jié)余的形式存在,因此我認為當(dāng)年形成的社會商品購買力和上年末結(jié)余的購買力對社會商品零售總額的邊際效應(yīng)是有明顯差異的,反映到回歸方程(2)中,b1要大于b2,即
(5)
將上式代入(2)中,(2)式可化為
令
(6)
則有
(7)
至此,我們可以建立社會商品零售總額y依新變量Z、當(dāng)年零售商品貨源x3變化的二元回歸方程.經(jīng)計算:
yc=19819+0.6777Z+0.1689x3
(8)
多重共線性無疑會給經(jīng)濟分析和預(yù)測帶來誤差,然而這種誤差究竟有多大,目前在理論上還沒有證實,這個問題可以通過對校正前后的回歸方程進行“事后檢驗”,進而比較它們的預(yù)測誤差來解決.例如前例某市的當(dāng)年形成的社會商品購買力x1為698311百萬元,當(dāng)年零售商品貨源x3為650000百萬元,上年末結(jié)合的購買力x2為290013百萬元,將上述數(shù)值分別代入方程(2)、(4)、(8)中求出當(dāng)年社會商品零售總額的觀測值,然后與實際值進行比較,計算出觀測絕對誤差和觀測相對誤差.有關(guān)計算結(jié)果見表5.
表5 預(yù)測絕對誤差及預(yù)測相對誤差計算表 單位:百萬元
從表4可以看出,方程(2)的觀測誤差最大,方程(4)的觀測誤差最小.其中,從預(yù)測的絕對誤差看,方程(2)比方程(4)大5540萬元;從相對誤差看,方程(2)比方程(4)高0.91%,這里的5540百萬元和0.91%就是由于多重線性的存在對預(yù)測目標(biāo)的影響程度.
多重共線性問題是計量經(jīng)濟分析中的重要內(nèi)容,可以看出,多重線性的存在給多元回歸分析和預(yù)測帶來了一定的影響,但我們只要事先能夠正確地識別它,并采取一定的補救措施,就會減輕或消除它的影響,從而使統(tǒng)計分析和觀測建立在更加科學(xué)準(zhǔn)確的基礎(chǔ)上.
參考文獻:
[1]盛驟.概率與數(shù)理統(tǒng)計[M].北京:高等教育出版社,2001.
[2][德]克勞斯 ·巴克毫斯.多元統(tǒng)計分析方法[M].上海:上海人民出版社,2000.
[3]李志偉.統(tǒng)計分析概論[M].北京:對外貿(mào)易出版社,1984.
[4]3克勞斯·巴克毫斯[德].多元統(tǒng)計分析方法[M].上海:上海人民出版社,2008.
[5]P.L.Meyer.[美].概率引論及統(tǒng)計應(yīng)用[M].北京:高等教育出版社.1986.
[6]薛毅.最優(yōu)化原理和方法[M].北京:北京工業(yè)大學(xué)出版社.2001.
[7]孫文瑜,徐成賢,朱德通.最優(yōu)化方法[M].北京:高等教育出版社.2004.