周鑫
內(nèi)容提要:文章介紹了處理多元線性回歸模型中多重共線性問題的有偏回歸方法——嶺回歸和偏最小二乘回歸,并通過實例比較了兩種方法建立的回歸方程的擬合效果,而偏最小二乘回歸方法相對嶺回歸方法要更優(yōu).
【關(guān)鍵詞】多重共線性;嶺回歸;偏最小二乘回歸
【中圖分類號】O212.4 【文獻標識碼】A
一、問題提出
在多元線性回歸模型中,如果解釋變量之間存在著密切的線性相關(guān)關(guān)系,就稱它們之間存在著多重共線性.在出現(xiàn)多重共線性情形時,普通最小二乘估計不再適用;回歸參數(shù)的估計值方差會很大,從而影響自變量對因變量的解釋;估計的精度會降低;估計的效果也會變壞.在實際經(jīng)濟問題的多元回歸分析中,多重共線性的現(xiàn)象很多,這時我們就應該尋找另外的回歸方法對參數(shù)進行估計.
二、方法介紹
如果在實際問題中出現(xiàn)了多重共線性的現(xiàn)象,我們可以選擇用有偏回歸方法——嶺回歸(RR)和偏最小二乘回歸(PLS)來處理.嶺回歸是利用嶺估計(X′X+kI)-1X′Y來替代普通最小二乘估計(X′X)-1X′Y,從而消除了普通最小二乘估計中矩陣X′X無法求逆的問題.偏最小二乘回歸是先在自變量集和因變量集中分別提取第一潛在因子t1與u1,其中t1與u1分別是自變量與因變量的線性組合,要求t1與u1盡可能多地提取所在變量組的變異信息,且t1與u1的相關(guān)程度達最大,然后建立因變量與t1的回歸方程,若回歸方程不能達到滿意的精度,則繼續(xù)提取第二潛在因子,否則停止.
三、實例比較
根據(jù)理論及對現(xiàn)實情況的認識,擬建立以我國國民總收入(單位:億元)為因變量y,以就業(yè)人員數(shù)(單位:萬人)、財政收入(單位:億元)、能源生產(chǎn)總量(單位:萬噸標準煤)、國有單位工資總額(單位:億元)和城鎮(zhèn)集體工資總額(單位:億元)分別為自變量x1,x2,x3,x4,x5的線性回歸模型.由《中國統(tǒng)計年鑒》查得相關(guān)數(shù)據(jù)如下:
在SAS軟件上使用REG過程來建立最小二乘回歸方程,所有自變量的方差膨脹因子都大于100,診斷出模型中存在非常嚴重的多重共線性問題.用最小二乘法所得到的回歸方程為
y=-431189+6.13224x1-0.18088x2+0.44051x3+5.69125x4-13.63786x5.
可以看到方程中,自變量x2,x5的系數(shù)為負,這顯然與事實不符,這正是由多重共線性所導致,因此最小二乘回歸求出的回歸方程不利于模型的解釋,下面改用嶺回歸方法來建模.
用SAS軟件中的REG過程,求解嶺回歸方程.由嶺跡圖可以看出,當嶺參數(shù)k≥0.02后,嶺跡曲線趨于穩(wěn)定,因此,取k=0.02的嶺回歸估計來建立嶺回歸方程為
y=-305467.46+4.315x1+1.50x2+0.264x3+4.535x4+1.388x5.
這時,回歸系數(shù)的符號符合實際意義.
現(xiàn)在用偏最小二乘回歸方法來進行處理,用SAS軟件中的PLS過程建立偏最小二乘回
歸方程,用最常用的舍一交叉驗證法來抽取偏最小二乘的成分,結(jié)果抽取了3個偏最小二乘成分,得到偏最小二乘回歸方程為
y=-309489.7954+4.4234x1+1.5336x2+0.2272x3+4.6856x4+1.2270x5,
這時,回歸方程中的回歸系數(shù)的符號也都符合實際意義.
根據(jù)前面得出的嶺回歸方程和偏最小二乘回歸方程,計算出衡量模型擬合效果好壞的平均絕對百分誤差和復測定系數(shù),得到相應的數(shù)值如下:
四、總 結(jié)
從上例可以看出,在多元線性回歸模型中出現(xiàn)共線性問題時,最小二乘回歸方法已經(jīng)不再適用,而用嶺回歸和偏最小二乘回歸這兩種有偏回歸方法都可以處理多重共線性問題,且從表2的結(jié)果可知,兩種方法建立的回歸方程擬合的效果都不錯,而偏最小二乘回歸方法相對嶺回歸方法要更優(yōu).
【參考文獻】
[1]高惠璇.實用統(tǒng)計方法與SAS系統(tǒng)[M].北京:北京大學出版社,2001.
[2]何曉群.現(xiàn)代統(tǒng)計分析方法與應用[M].北京:中國人民大學出版社,1998.
[3]王惠文,偏最小二乘回歸方法及其應用[M].北京:國防工業(yè)出版社,1999.