(1. 海南大學(xué)理學(xué)院,???,570228;2. 廣東財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)與數(shù)學(xué)學(xué)院,廣州,510320)
在多元回歸分析的過程中,常常會(huì)遇到多重共線性的問題.當(dāng)自變量之間存在嚴(yán)重的多重共線性時(shí),使用最小二乘法得到的回歸模型的有效性就會(huì)大大降低,模型穩(wěn)定性也會(huì)變得很差,同時(shí)給回歸系數(shù)的統(tǒng)計(jì)檢驗(yàn)及回歸系數(shù)的物理含義解釋等造成一定的困難.因此采取適當(dāng)方法消除多重共線性帶來的不良影響,對回歸模型有著重大意義.國內(nèi)外學(xué)者對消除多重共線性問題得出了許多有效的解決方法,如逐步回歸、嶺回歸、主成分回歸、偏最小二乘回歸、核主成分回歸等.肖雪夢[1]、張應(yīng)應(yīng)實(shí)例比較了逐步回歸、主成分回歸及偏最小二乘回歸在消除多重共線性中的效果,周鑫[2]實(shí)例比較了嶺回歸和偏最小二乘回歸,丁立[3]、錢強(qiáng)強(qiáng)等人實(shí)證比較了主成分回歸、偏最小二乘回歸、嶺回歸及Lasso法.本文對嶺回歸和核主成分回歸兩種方法分別在消除多重共線性的效果上作實(shí)例比較分析.
對于多元線性回歸模型yi=β0+β1x1i+β2x2i+…+βpxpi+εi(i=1,2,…,n),回歸模型可寫作矩陣形式Y(jié)=Xβ+ε.當(dāng)模型違背自變量相互獨(dú)立的假設(shè),即多個(gè)自變量之間存在相互關(guān)系時(shí),就會(huì)產(chǎn)生多重共線性的問題.多重共線性的主要來源[9]有過度定義回歸模型,數(shù)據(jù)收集的方法有問題,對模型施加了不必要的約束,錯(cuò)誤定義回歸模型等.
多重共線性的出現(xiàn)會(huì)導(dǎo)致每個(gè)解釋變量的貢獻(xiàn)混淆,使得難以解釋模型[7],多重共線性的存在會(huì)導(dǎo)致均方誤差極高,預(yù)測變量的方差、協(xié)方差和系數(shù)變得不合理,使得參數(shù)難以精確估計(jì)[8].普通最小二乘估計(jì)對數(shù)據(jù)微小變化十分敏感,缺乏穩(wěn)健性[19].
1.2.1 嶺回歸
嶺估計(jì)的方法是1970年由Hoerl和Kennard提出的[5],是對最小二乘估計(jì)的一種改進(jìn).嶺回歸實(shí)際上就是采用嶺估計(jì)對回歸方程的系數(shù)進(jìn)行估計(jì)的過程.當(dāng)自變量間存在多重共線性時(shí),|X′X|≈0,設(shè)想給X′X加上一個(gè)正常數(shù)矩陣kI(k>0),那么X′X+kI的奇異程度就會(huì)遠(yuǎn)遠(yuǎn)小于X′X的奇異程度[4].
1.2.2 核主成分回歸
核主成分回歸是將核方法與主成分回歸結(jié)合起來的一種回歸模型,核方法具有良好的性質(zhì),可以有效處理高維數(shù)據(jù),同時(shí)保證較快的計(jì)算速度.
核函數(shù)理論
定義1設(shè)二元函數(shù)K:X×X→R,如果存在某個(gè)內(nèi)積空間,以及映射φ:X→H,使得
K(x,y)=[φ(x),φ(y)],
則稱H為特征空間,φ為特征映射,K為核函數(shù)[10].
定義2函數(shù)K(x,y)稱為半正定核函數(shù)[11],如果滿足如下條件:
1)函數(shù)K(x,y)∈L(X×Y)連續(xù)對稱;
2)f∈L2(X);
Mercer定理在特征空間中,對于任意的函數(shù)K(x,y)可以表成內(nèi)積形式
K(x,y)=[φ(x),φ(y)]
的充要條件是K(x,y)是正定的.
常用的Mercer核函數(shù)有
1)高斯徑向基核函數(shù):
其中σ>0是自定義參數(shù).
2)多項(xiàng)式核函數(shù):
K(x,y)=(x·y+c)σ,
其中c>0,σ是整數(shù),它們是自定義參數(shù).
3)多層感知機(jī)核函數(shù):
K(x,y)=tanh(-b(x·y)-c),
其中b,c是自定義參數(shù).
核主成分回歸的基本原理[12]是,先引入非線性變換函數(shù)φ:R→F,將原始輸入空間映射到某個(gè)高維特征空間F,即將輸入空間樣本點(diǎn)X1,X2,…,Xn變換為特征空間的樣本點(diǎn)φ(X1),φ(X2),…,φ(Xn),再在特征空間F中進(jìn)行主成分回歸.
φ(Xi),φ(Xj)兩個(gè)F空間樣本點(diǎn)的距離用其內(nèi)積表示,定義核函數(shù)為K(Xi,Xj)=(φ(Xi),φ(Xj)),核矩陣為K=[K(Xi,Xj)]n×n.
特征空間中樣本點(diǎn)的協(xié)方差矩陣為
設(shè)C的特征值為λ,特征向量為υ,則Cυ=λυ.可以推得
υ=∑ni=1aiψ(Xi),
最后對提取出的核主成分建立多元線性回歸模型
y=Bω+ε,
其中B=ΨVp,Ψ=(ψ(X1),…,ψ(Xn)),Vp為前p個(gè)特征向量組成的矩陣.
運(yùn)用最小二乘法可求得回歸系數(shù)為
從而可得核主成分回歸模型的方程表示為:
為了研究我國民航客運(yùn)量的變化趨勢及其成因,我們以民航客運(yùn)量作為因變量,以國民收入、消費(fèi)額、鐵路客運(yùn)量、民航航線里程、來華旅游入境人數(shù)作為影響民航客運(yùn)量的主要因素.y表示民航客運(yùn)量(萬人),x1表示國民收入(億元),x2表示消費(fèi)額(億元)、x3表示鐵路客運(yùn)量(萬人)、x4表示民航航線里程(萬公里)、x5表示來華旅游入境人數(shù)(萬人),詳細(xì)數(shù)據(jù)見[4].
首先對原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,將通過標(biāo)準(zhǔn)化的因變量y*對標(biāo)準(zhǔn)化自變量xi*(i=1,2,…,5)進(jìn)行多元線性回歸,并進(jìn)行多重共線性診斷,通過計(jì)算處理得到分析結(jié)果如下表1、表2.
表1 共線性統(tǒng)計(jì)量
表2 共線性診斷
由表1、表2可知,自變量x1*,x2*的方差膨脹因子都大于10,5維以上的條件數(shù)大于10,可見診斷結(jié)果一致,表明此回歸模型存在較強(qiáng)的共線性.
通過計(jì)算處理,可得不同嶺參數(shù)下的回歸方程及相應(yīng)的嶺跡圖,結(jié)果如下表3、圖1所示.
表3 不同嶺參數(shù)下的嶺回歸(部分)
圖1 嶺跡圖
觀察嶺跡圖,可以看出當(dāng)k≥0.10時(shí),嶺回歸系數(shù)基本趨于穩(wěn)定,因此選取嶺參數(shù)k=0.10.此時(shí)嶺回歸方程為
y*=0.2395x1*+0.2141x2*-0.07341x3*+0.3244x4*+0.2278x5*.
方差分析結(jié)果及共線性診斷結(jié)果如下表4、表5、表6所示.
表4 方差分析表
表5 共線性統(tǒng)計(jì)量
表6 共線性診斷
由此可見,嶺回歸各系數(shù)的方差膨脹因子都小于10,各個(gè)維度的條件數(shù)也都小于10,嶺回歸能夠很好地解決多重共線性問題.
表7 KPCA特征值和累積貢獻(xiàn)
前兩個(gè)核主成分的累積貢獻(xiàn)就已達(dá)到95%以上,因此提取KF1,KF2作為回歸自變量即可,KF1,KF2如下表8所示.
表8 核主成分KF1,KF2
將y*對提取的核主成分KF1,KF2進(jìn)行多元線性回歸,通過計(jì)算得到回歸方程
y*=0.535+3.754*KF1+1.401*KF2.
方差分析結(jié)果及共線性診斷結(jié)果如下表9、表10、表11所示.
表9 方差分析表
表10 共線性統(tǒng)計(jì)量
表11 共線性診斷
由此可見,回歸系數(shù)的方差膨脹因子都小于10,各個(gè)維度的條件數(shù)也都小于10,采用核主成分回歸也能消除線性回歸過程中的多重共線性問題.
嶺回歸和核主成分回歸都能很好地消除多重共線性,對兩種方法得到的回歸模型結(jié)果作比較,結(jié)果如下表12所示.
表12 回歸結(jié)果對比表
由表12可以看出,雖然嶺回歸在決定系數(shù)上略優(yōu)于核主成分回歸,但是在其他指標(biāo)上均劣于核主成分回歸,總的來說,核主成分的回歸結(jié)果要好于嶺回歸.
本文通過對同一組數(shù)據(jù)分別用嶺回歸、核主成分回歸的方法進(jìn)行回歸分析,以消除自變量間的多重共線性,并對回歸模型結(jié)果進(jìn)行了比較.我們發(fā)現(xiàn)這兩種回歸方法均能有效地消除自變量間的多重共線性,使得回歸模型變得更有實(shí)際意義,總的來說核主成分回歸對內(nèi)擬合效果要優(yōu)于嶺回歸.但是嶺回歸的嶺參數(shù)選擇,核主成分回歸的核函數(shù)及核參數(shù)的選擇都存在很強(qiáng)的主觀性,不同的參數(shù)選擇對回歸模型的好壞影響巨大,在實(shí)際的問題求解中需要根據(jù)專業(yè)性及經(jīng)驗(yàn)性的判斷來妥善選擇.
數(shù)學(xué)理論與應(yīng)用2019年1期