王義鬧,盧慶華
(溫州大學(xué)數(shù)理與電子信息工程學(xué)院,浙江溫州 325035)
考慮多元線性回歸問題,Y為被解釋變量,X1,X2,…,Xk為解釋變量,u是與解釋變量無關(guān)的、方差為2σ的0均值隨機(jī)干擾項(xiàng),它們之間有如下關(guān)系:
其中β0,β1,β2,…,βk為常數(shù).確定一組X1,X2,…,Xk的值Xi1,Xi2,…,Xik,重復(fù)試驗(yàn)、觀察隨機(jī)干擾下Y的值,可估計Y的(在X1=Xi1,X2=Xi2,…,Xk=Xik的條件下的條件)均值、方差、分布函數(shù)等.實(shí)際中我們更關(guān)心的是解釋變量對被解釋變量的凈影響究竟有多大,即希望估計β0,β1,β2,…,βk,進(jìn)而可對被解釋變量進(jìn)行預(yù)測、控制.假設(shè)在隨機(jī)干擾值為ui時,觀察到Y(jié)的值記為Yi:
假設(shè)ui是來自u的簡單隨機(jī)樣本,且與Xi1,Xi2,…,Xik線性無關(guān)(或E(u|X)=0).記
則(2)可表示成:
其中X稱為回歸設(shè)計矩陣或資料矩陣.為估計模型參數(shù),以下設(shè)X是列滿秩的.
模型參數(shù)的最小二乘(OLS)估計為:
其中為Xi對其它解釋變量X0,X1,…,Xi-1,Xi+1,…,Xk回歸所得決定系數(shù),即Xi與其它解釋變量X1,…,Xi-1,Xi+1,…,Xk的樣本復(fù)相關(guān)系數(shù)Ri·的平方.
由(5)式可見,如果實(shí)驗(yàn)(觀察)是可以人為設(shè)計(控制)的,則應(yīng)該在Xi的離差平方和不變的條件下,使Xi與其它解釋變量的樣本復(fù)相關(guān)系數(shù)Ri·等于0,這樣βi的OLS 估計的方差可以達(dá)到最??;否則,Xi的觀察值列向量與設(shè)計矩陣X的其它各列之間的多重共線性越強(qiáng),的方差越大.稱為的方差擴(kuò)大因子,記為VIFi.
本文在文[2]給出的下述(不完全)多重共線性定義基礎(chǔ)上討論.
定義1 當(dāng)存在一個解釋變量(不妨設(shè)為X1)與其它解釋變量X2,…,Xk的樣本復(fù)相關(guān)系數(shù)R1·大于0小于1 時,就稱樣本X(或設(shè)計矩陣X的列向量)存在(不完全)多重共線性,或稱設(shè)計矩陣X的第2列與其它各列之間存在(不完全)多重共線性;當(dāng)R1·=1時,就稱樣本X(或設(shè)計矩陣X的列向量)存在完全多重共線性,或稱設(shè)計矩陣X的第2列與其它各列之間存在完全多重共線性;當(dāng)R1·=0時,就稱設(shè)計矩陣X的第2列與其它各列之間不存在多重共線性.
注:定義1 中的樣本復(fù)相關(guān)系數(shù)R1·是以X1為被解釋變量,以X0,X2,…,Xk為解釋變量作普通最小二乘回歸所得決定系數(shù)的算術(shù)根.
注意,當(dāng)R1·=0時,設(shè)計矩陣X的第2列與其它各列之間不存在多重共線性,但其它各列中可能有某列與其余各列之間存在多重共線性,因此不能說設(shè)計矩陣X不存在多重共線性.
定義2 如果解釋變量X1與其它解釋變量的樣本復(fù)相關(guān)系數(shù)為R1·,X2與其它解釋變量的樣本復(fù)相關(guān)系數(shù)為R2·,0<R1·<R2·<1,則稱設(shè)計矩陣X的第3 列與其它各列之間(比X的第2列與其它各列之間)存在較強(qiáng)多重共線性.對解釋變量的兩個樣本X,X*,X1與其它解釋變量的樣本復(fù)相關(guān)系數(shù)為則稱X*的第2列與其它各列之間(比X的第2列與其它各列之間)存在較強(qiáng)多重共線性.
以下假定設(shè)計矩陣X存在多重共線性.
文[3]P112 所講多重共線性的后果中有一個是“參數(shù)估計量經(jīng)濟(jì)意義不合理”:“如果模型中兩個解釋變量具有線性相關(guān)性,如X1和X2,那么它們中的一個變量可以由另一個表征.這時,X1和X2前的參數(shù)并不反映各自與被解釋變量之間的結(jié)構(gòu)關(guān)系,而是反映它們對被解釋變量的共同影響,所以各自的參數(shù)已經(jīng)失去了應(yīng)有的經(jīng)濟(jì)含義,……”
以上講法是不準(zhǔn)確的.設(shè)定模型中X1和X2前的參數(shù)當(dāng)然反映了各自對被解釋變量的平均凈影響,有特定的經(jīng)濟(jì)含義;有問題的不是X1和X2前的參數(shù),而是參數(shù)的偏離真值特別遠(yuǎn)的估計值.當(dāng)剔除X2后對保留變量用OLS 估計X1前的參數(shù)時,估計量是有偏的,估計值不僅反映了X1對被解釋變量的影響,還包含了X2對被解釋變量的部分影響,可以說“參數(shù)估計值經(jīng)濟(jì)意義不合理”.如果不剔除X2,X1和X2前的參數(shù)的OLS 估計量仍然是無偏的,只要估計值偏離真值不是特別遠(yuǎn),就不能說“參數(shù)估計值經(jīng)濟(jì)意義不合理”.另外,說“參數(shù)估計量經(jīng)濟(jì)意義不合理”是沒有特定意義的,參數(shù)所表示的“解釋變量對被解釋變量的平均凈影響”是一個常數(shù),而參數(shù)估計量是隨機(jī)變量,所以無論設(shè)計矩陣X是否存在多重共線性,參數(shù)估計量經(jīng)濟(jì)意義都不合理.
確切地講,應(yīng)該是“參數(shù)的OLS 估計值經(jīng)濟(jì)意義不合理的可能性較大”.由于參數(shù)的OLS估計量仍然是參數(shù)的無偏估計,但方差較大,所以估計值偏離參數(shù)真值的可能性較大,當(dāng)估計值偏離參數(shù)真值的幅度大到估計值與參數(shù)真值的正負(fù)號不同時,參數(shù)的OLS 估計值的經(jīng)濟(jì)意義就不合理了.
文[4]也存在類似問題.
文[3]P112 所講多重共線性的后果中另一個是“變量的顯著性檢驗(yàn)失去意義”.
以XO表示第j列與其它各列之間不存在多重共線性的設(shè)計矩陣X,以XM表示存在多重共線性的設(shè)計矩陣X.在設(shè)計矩陣X取值為XO的條件下,對(3)式中隨機(jī)干擾項(xiàng)的一個樣本,由最小二乘法所得βj的估計量記為,則統(tǒng)計量在X取值為XO的條件下的條件分布是自由度為n-k-1 的t分布;在設(shè)計矩陣X取值為XM的條件下,對(3)式中隨機(jī)干擾項(xiàng)的同一個樣本,由最小二乘法所得βj的估計量記為,則統(tǒng)計量在X取值為XM的條件下的條件分布也是自由度為n-k- 1的t分布.所以不論設(shè)計矩陣X的取值是XO還是XM,在顯著性水平α下拒絕原假設(shè)(H0:βj=0)犯錯誤的概率都是α,接受原假設(shè)(H0:βj=0)判斷正確的概率都是1-α.因?yàn)榧僭O(shè)檢驗(yàn)通常是控制犯第一類錯誤(拒真錯誤)的概率,既然不論設(shè)計矩陣X的取值是XO還是XM,檢驗(yàn)結(jié)果犯第一類錯誤(拒真錯誤)的概率都是α,就不能說“變量的顯著性檢驗(yàn)失去意義”.
文[4]也存在類似問題.
確切地講,應(yīng)該是:對原假設(shè)H0:βj=0,被擇假設(shè)H1:βj≠ 0作t檢驗(yàn),與設(shè)計矩陣X的取值是XO的情況相比,X存在多重共線性時,盡管犯第一類錯誤的概率仍為α,但犯第二類錯誤的概率很可能較大.如果我們關(guān)注的是無關(guān)變量能否被剔除,則設(shè)計矩陣X是否存在多重共線性對檢驗(yàn)結(jié)果沒有影響;如果我們關(guān)注的是(與被解釋變量)相關(guān)的變量能否被保留,則設(shè)計矩陣X存在嚴(yán)重多重共線性對檢驗(yàn)結(jié)果有很大影響,條件允許的情況下應(yīng)盡可能使設(shè)計矩陣X取XO;綜合考慮的話,當(dāng)然是X取XO最好.
下面對“犯第二類錯誤的概率很可能較大”這句話作簡單說明.當(dāng)真實(shí)情況是βj>0時,t檢驗(yàn)的原假設(shè)是H0:βj=0,接受原假設(shè)就犯了取偽錯誤.設(shè)計矩陣X取XO和X存在多重共線性的兩種情況下接受域依次為:
對隨機(jī)干擾項(xiàng)的同一個樣本,統(tǒng)計量都服從自由度為n-k-1的t分布,所以犯取偽錯誤的概率依次為:
上式中的區(qū)間可以看成是(-tα/2(n-k-1),tα/2(n-k-1))向左平移得到的,平移幅度越大,概率越小.于是,若有
由(5)式可知,當(dāng)我們對設(shè)計矩陣XO、存在多重共線性的設(shè)計矩陣XM,加上第j列離差平方和相等的限制時,就有:
當(dāng)真實(shí)情況是βj<0時,有同樣的結(jié)論:“犯第二類錯誤的概率很可能較大”.
設(shè)計矩陣X存在多重共線性時,作t檢驗(yàn)犯第二類錯誤的概率,由(7)式可見隨著真實(shí)βj取值不同而變化,可以綜合考慮關(guān)于βj的先驗(yàn)信息和兩類犯錯誤概率做出取舍.
文[5]P329 第一、二兩行講述了的多重共線性的一個實(shí)際后果:“在高度多重共線性的情形中,樣本可能與分歧很大的一些假設(shè)均無矛盾,這樣就增加了接受錯誤假設(shè)(即犯第Ⅱ類錯誤)的概率.”由本文上述討論可見,把“就增加了接受錯誤假設(shè)的概率”添加三個字“很可能”,改為“就很可能增加接受錯誤假設(shè)的概率”是更穩(wěn)妥的表述.
文[5]P329 第五、六兩行講到:“在高度共線性情形中,估計的標(biāo)準(zhǔn)誤增加奇快,從而t值迅速變?。边@樣講容易讓讀者產(chǎn)生誤解.由本文上述討論可見,當(dāng)原假設(shè)(H0:βj=0)成立時,都服從自由度為n-k-1 的t分布,所以不會對的任一觀察值都有當(dāng)被擇假設(shè)(H1:βj≠ 0)成立時,的概率很大(但也不是必然成立).
文[6]P193、文[7]P101 存在與文[5]P329 第五、六兩行同樣的問題.
文[8]在講解對多重共線性問題的補(bǔ)救時講到:“如果發(fā)現(xiàn)多元線性回歸模型存在嚴(yán)重的多重共線性,則應(yīng)利用相應(yīng)的補(bǔ)救措施來最小化多重共線性所造成的影響.”本文十分贊同這句話,認(rèn)為解決多重共線性問題,基本假定是存在多重共線性的多元線性回歸模型就是我們所研究的問題的真實(shí)規(guī)律,目標(biāo)是盡可能減小多重共線性對我們認(rèn)識問題、分析問題所造成的不利影響.文[8]緊接著說,剔除變量法是消除多重共線性最簡單的一種方法.文[3]在P114 講解克服多重共線性的方法時講到:“找出引起多重共線性的解釋變量,將它排除出去,是最有效克服多重共線性的方法,所以逐步回歸法得到了最為廣泛的應(yīng)用.”
實(shí)際上,如果我們要分析“控制單個隨機(jī)解釋變量的條件下被解釋變量的平均改變量”[9]E(Y|Xi=xi1)-E(Y|Xi=xi0),則剔除相關(guān)變量,然后對保留變量系數(shù)用OLS 估計,所得估計量恰好是我們要求的平均改變量的無偏估計、一致估計.
如果我們要分析“保持其它解釋變量不變,且Xi增加一個單位的條件下,被解釋變量的平均改變量”,就要求盡可能準(zhǔn)確地估計Xi的系數(shù)βi.這時,剔除相關(guān)變量,然后對保留變量系數(shù)用OLS 估計,βi的估計量的均方誤差有可能小于等于對全部變量系數(shù)直接用OLS 估計所得βi的估計量的均方誤差.“小于等于”成立的條件是,對全部變量系數(shù)直接用OLS 估計所得被剔除變量的估計量的協(xié)方差陣,減去被剔除變量系數(shù)真值構(gòu)成的列向量與其轉(zhuǎn)置乘積矩陣,是一半正定矩陣.詳見文[9]定理2.2.
如果要對解釋變量取某組值時被解釋變量的取值進(jìn)行預(yù)測,先剔除相關(guān)變量,然后對保留變量系數(shù)用OLS 估計,進(jìn)而用保留變量作預(yù)測的均方誤差有可能小于等于對全部變量系數(shù)直接用OLS 估計進(jìn)而作預(yù)測的均方誤差.“小于等于”成立的條件與上段相同.詳見文[9]定理2.5.
綜合以上三種情況可見,對不同的分析目標(biāo)、分析要求,剔除引起多重共線性的解釋變量,可能減小多重共線性所造成的影響,也可能得到更差的結(jié)果.籠統(tǒng)地說“找出引起多重共線性的解釋變量,將它排除出去,是最有效克服多重共線性的方法”,是不恰當(dāng)?shù)模?/p>