王義鬧,張向文
(溫州大學數(shù)理與電子信息工程學院,浙江溫州 325035)
考慮多元線性回歸問題:Y為被解釋變量,為解釋變量,u是與解釋變量無關(guān)的、方差為σ2的0均值隨機干擾項.它們之間有如下關(guān)系:
假設(shè)ui是來自u的簡單隨機樣本,且與線性無關(guān)(或記
則(2)式可表示成:
其中X稱為回歸設(shè)計矩陣或資料矩陣.
文[1]指出了目前廣泛應(yīng)用的計量經(jīng)濟學教材[2-8]中不完全多重共線性定義存在的問題,但僅就解釋變量為隨機變量的情況給了一個新的定義.本文試圖進一步分析不完全多重共線性概念的內(nèi)涵與外延,給出合理定義.
下面分析廣泛使用的計量經(jīng)濟學教材和應(yīng)用回歸分析教材中給出的三種定義存在的問題.
其中vi為隨機變量(X0表示所有樣本都取1的解釋變量).
使(4)式成立.
使(4)式成立.
所以,如上定義不完全多重共線性顯然是有問題的.
文[3]中給出:對模型(1),如果存在
注:這里對原文定義增加了λ0Xi0,否則只適用于討論中心化數(shù)據(jù).
目前廣泛應(yīng)用的計量經(jīng)濟學教材[4-9]中都是這樣定義的,這樣定義也有問題.
首先,按文[3]P31中給出的隨機干擾項定義
所以上述定義也不能表達近似共線性的涵義.
這一定義中約等于0是不確定的,無法驗證的.
文[2-3]中給出了檢驗一個解釋變量與其他解釋變量之間是否存在多重共線性的F檢驗方法,實際上,檢驗的是具有特定分布的一個解釋變量與其他具有特定分布的隨機解釋變量之間是否存在顯著復相關(guān)性;而文[3]P115又特別指出,“多重共線性是一種樣本現(xiàn)象.同一個模型在一個樣本下可能表現(xiàn)出多重共線性,而在另一個樣本下可能就不存在多重共線性”.文[9]P104也特別指出,“從本質(zhì)上講,多重共線性是樣本現(xiàn)象,所以相同模型,不同樣本條件下,可能出現(xiàn)共線性嚴重程度完全不同的情況.”究竟是變量間存在多重共線性,還是樣本存在多重共線性?
還有一個問題是:已經(jīng)有了隨機變量之間的復相關(guān)概念,還有必要討論變量之間是否存在多重共線性嗎?
我們認為,合理的定義應(yīng)該滿足以下基本原則.
第一,定義的基礎(chǔ)必須明確.定義的基礎(chǔ)是解釋變量還是樣本必須明確,是滿足某性質(zhì)的解釋變量還是滿足某性質(zhì)的解釋變量的觀測值,是首先要明確的.
第二,定義的內(nèi)涵必須明確.(7)式中的約等于0是不明確的,我們不清楚多小才是約等于0.
第三,定義的外延必須明確,是一個康托集.如果定義的外延是模糊集,就不是普通概念而是模糊概念了.(4)式(5)式要求至少有一個解釋變量是隨機變量,而(7)式解釋變量是確定性變量,兩者外延不同.
第四,定義要概括人們具體對象的認識.
第五,符合定義的對象,應(yīng)該有公認的性質(zhì)——與沒有共線性的情況相比,參數(shù)估計量具有較大方差.
第六,好的定義要給后繼內(nèi)容的簡潔闡述打好基礎(chǔ).
下面進行具體分析.
第一,考慮光照時間X1,澆水量X2,施肥量X3對小麥畝產(chǎn)Y的影響,我們可以設(shè)計實驗,使向量
正交,也可以使這三個向量線性相關(guān),這與解釋變量之間是相關(guān)還是獨立沒有關(guān)系.
因此,不完全多重共線性應(yīng)該以樣本為基礎(chǔ)定義.在多元線性回歸問題中,解釋變量可以是確定性變量,見文[11-13];也可以是隨機變量,見[2-8].以樣本為基礎(chǔ)進行定義,就可以既適用于隨機解釋變量,又適用于確定性解釋變量.
第二,滿足什么性質(zhì)的樣本具有不完全多重共線性必須明確.不能說相關(guān)性強就有多重共線性,因為“強”不是明確的性質(zhì);“約等于0”也不是明確的性質(zhì).一個樣本,“有沒有”、“存在不存在”多重共線性必須明確,二者必居其一,不能模棱兩可.在定義了存在不存在多重共線性之后,再定義多重共線性的強弱.
基于以上兩點我們給出如下的定義.
定義1 當存在一個解釋變量(不妨設(shè)為X1)與其他解釋變量的樣本復相關(guān)系數(shù)大于0小于1時,就稱設(shè)計矩陣X的第2列與其他各列之間存在(不完全)多重共線性.
如果存在設(shè)計矩陣X的某一列與其他各列之間存在(不完全)多重共線性,就稱設(shè)計矩陣存在(不完全)多重共線性.
定義2 如果解釋變量X1與其他解釋變量的樣本復相關(guān)系數(shù)為R1·,X2與其他解釋變量的樣本復相關(guān)系數(shù)為則稱設(shè)計矩陣X的第3列與其他各列之間(比X的第2列與其他各列之間)存在較強多重共線性.對解釋變量的兩個樣本X,X*,X1與其他解釋變量的樣本復相關(guān)系數(shù)依次為則稱X*的第2列與其他各列之間(比X的第2列與其他各列之間)存在較強多重共線性.
第三,如上定義不完全多重共線性顯然符合第三個基本原則,設(shè)計矩陣X有沒有多重共線性,設(shè)計矩陣X的哪一列與其他各列之間有較強的多重共線性,不同設(shè)計矩陣X之間哪個有較強的多重共線性都是明確的.
第四,以樣本復相關(guān)系數(shù)大小作為多重共線性強弱的定義,體現(xiàn)了X的各列之間相關(guān)性強共線性就強的認識.
第五,文[10]給出了βi的OLS估計量的方差
由(8)式可見,在Xi的離差平方和不變的條件下,Xi與其他解釋變量的樣本復相關(guān)系數(shù)Ri·等于0時,的方差最??;Xi的觀察值列向量與設(shè)計矩陣X的其他各列之間的多重共線性越強,的方差越大.
由此可見,如上定義多重共線性的強弱,有利于解釋多重共線性對參數(shù)估計量方差的影響.
綜合上述討論可見,應(yīng)用復相關(guān)系數(shù)定義多重共線性是較好的方法.
文[10]指出,經(jīng)驗表明當VIFi≥10時,Xi的觀察值列向量與設(shè)計矩陣X的其他各列之間有嚴重的多重共線性.這時的OLS估計的方差是不存在多重共線性條件下的OLS估計的方差的VIFi倍,偏離真值較遠的概率顯著增大.由于Xi與其他解釋變量的樣本復相關(guān)系數(shù)大于或等于Xi與任一解釋變量的樣本相關(guān)系數(shù)的絕對值,所以當Xi與任一解釋變量的樣本相關(guān)系數(shù)的平方小于0.1時,就有VIFi≥10,有嚴重的多重共線性.
現(xiàn)在通用的國內(nèi)外教材講解多重共線性,無非是為了發(fā)現(xiàn)多重共線性,進而改進參數(shù)估計.而這只與設(shè)計矩陣X有關(guān),無需涉及解釋變量,因此完全沒有必要再引進解釋變量共線性的概念.為解釋樣本呈現(xiàn)共線性的原因,可以說變量間存在復相關(guān)是樣本呈現(xiàn)共線性的原因之一.
第一個講解欠準確的知識點是:“增加樣本容量就有可能消除多重共線性”(見文[3]P115).
事實上,如果Xi與其他解釋變量的復相關(guān)系數(shù)為增加樣本容量只是使樣本復相關(guān)系數(shù)取值于附近的概率更大了,并不能使樣本復相關(guān)系數(shù)減小,當然也就不可能消除多重共線性.我們贊同文[10]指出的,“當時,Xi的觀察值列向量與設(shè)計矩陣X的其他各列之間就有嚴重的多重共線性”,而無論樣本容量有多大.當然由(8)式可見,在VIFi不變的情況下,增加樣本容量可使解釋變量的離差平方和增大,的方差減小,提高參數(shù)估計精度,因此準確地講解應(yīng)該是“增加樣本容量可以減小多重共線性對參數(shù)估計帶來的不利影響”.
實際上,當Xj與其他解釋變量的樣本復相關(guān)系數(shù)等于0.1,其他解釋變量有2個,只要樣本容量為1 003,就有大于應(yīng)在顯著性水平0.05下拒絕原假設(shè).這時,其他解釋變量的線性組合只能解釋Xj的變差的1%,還把檢驗結(jié)果理解為是其他解釋變量的線性組合,顯然是一種誤解.理論上,這個F檢驗是檢驗Xj與其他解釋變量是否有顯著復相關(guān),而不是檢驗解釋變量的觀察值是否存在不完全多重共線性,不完全多重共線性是否嚴重.Xj與其他解釋變量顯著復相關(guān),不一定就高度復相關(guān),其樣本也就不一定存在嚴重不完全多重共線性.只有當Xj與其他解釋變量高度復相關(guān)時,才可以把Xj近似看成是其他解釋變量的線性組合.