周 涌
(湖北科技學(xué)院 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,湖北 咸寧 437000)
基于高斯—馬爾科夫假定的多元線性回歸模型為:
(1)
對(duì)于未知參數(shù)β,其普通最小二乘估計(jì)為:
要讓這個(gè)估計(jì)存在,必須要求X′X可逆,這相當(dāng)于要求設(shè)計(jì)矩陣X是滿秩的,否則稱模型(1)具有多重共線性特征。多重共線性普遍存在于現(xiàn)實(shí)數(shù)據(jù)中,它會(huì)導(dǎo)致X′X=0,使得其逆矩陣不存在,也就無(wú)法獲得普通最小二乘估計(jì)[1]113-137;即便X′X≠0,但非常接近于0,也會(huì)有害于參數(shù)估計(jì),這是因?yàn)椋?/p>
嶺回歸方法最早由Hoerl于1962年提出[2],用于當(dāng)存在多重共線性狀況時(shí),對(duì)最小二乘估計(jì)量進(jìn)行改進(jìn)。1970年,Hoerl和Kennard在兩篇論文中詳細(xì)探討了嶺回歸方法[3-4]。該方法的主要思想是:當(dāng)X′X≈0時(shí),給其加上單位矩陣的正常數(shù)倍,使得X′X+kI遠(yuǎn)離0,從而使得X'X+kI可逆,此時(shí)最小二乘估計(jì)量相應(yīng)地調(diào)整為:
(2)
其中常數(shù)k被稱為嶺參數(shù),而矩陣kI被稱為調(diào)整矩陣。在Hoerl和Kennard之后有學(xué)者提出:調(diào)整矩陣不必限定于kI,可以是QKQ′,其中K是一個(gè)主對(duì)角線上元素非負(fù)但各不相同的對(duì)角矩陣,K=diag(k1,k2,…,kr),Q為X′X的單位正交特征向量組成的正交矩陣[5],這時(shí)參數(shù)估計(jì)值相應(yīng)地變?yōu)椋?/p>
(3)
這種方法被稱為廣義嶺回歸(為了便于區(qū)分,以下將Hoerl提出的嶺回歸方法稱為狹義嶺回歸),可以證明:廣義嶺回歸參數(shù)估計(jì)量(3)比狹義嶺回歸參數(shù)估計(jì)量(2),具有更小的均方誤差[6]81-127。
作為一種被廣泛使用的數(shù)據(jù)分析方法,回歸分析在許多領(lǐng)域發(fā)揮了重要作用,對(duì)其的改進(jìn)也隨著應(yīng)用的發(fā)展而不斷深入,其中特殊條件下回歸分析的統(tǒng)計(jì)性質(zhì)以及多變量問題成為研究重點(diǎn)[7-8]。近年來(lái),在廣義嶺回歸的理論方面,許多學(xué)者進(jìn)行了大量研究,得到了一些基于特定優(yōu)良性指標(biāo)的好的估計(jì)量,可容許廣義嶺回歸、半?yún)?shù)廣義嶺回歸等方法相繼被提出。隨著計(jì)算機(jī)技術(shù)的發(fā)展,學(xué)者開始通過(guò)算法研究對(duì)廣義嶺回歸進(jìn)行改進(jìn),提出了利用神經(jīng)網(wǎng)絡(luò)算法來(lái)確定模型參數(shù),但又發(fā)現(xiàn)該方法存在過(guò)擬合等缺陷[9];Beam等學(xué)者提出利用基于支持向量機(jī)回歸算法來(lái)改進(jìn)神經(jīng)網(wǎng)絡(luò)方法的缺陷,并取得了不錯(cuò)的效果,但也未在不確定性參數(shù)的優(yōu)化選擇領(lǐng)域取得突破性進(jìn)展,而這些估計(jì)量大多是非線性估計(jì),其統(tǒng)計(jì)優(yōu)良性遠(yuǎn)不如線性估計(jì)量,廣義嶺回歸理論并沒有顯著的突破[10-11];Vapnik提出干脆放棄對(duì)估計(jì)量的線性要求,退而求其次地在非線性估計(jì)量中尋求優(yōu)良性估計(jì)量[12]47-96。
本文將提出一種在計(jì)算上簡(jiǎn)便易行的廣義嶺回歸方法,使得該方法的實(shí)用性大大增強(qiáng),同時(shí)能保證參數(shù)估計(jì)量是線性的,從而具有線性估計(jì)的一切優(yōu)良性。
為了方便尋找K*,引入線性回歸模型(1)的典則形式:
y=Zα+ε
(4)
其中Z=XQ,α=Q′β,Q為X′X的單位正交特征向量組成的正交矩陣。基于典則形式的式(4)的參數(shù)最小二乘估計(jì)為:
由于β=Qα,相應(yīng)的β估計(jì)量為:
當(dāng)基于模型(1)的廣義嶺回歸估計(jì)量為式(3)時(shí),相應(yīng)的典則參數(shù)α的廣義嶺回歸估計(jì)量為:
可以證明
(5)
上述結(jié)果直接導(dǎo)致了廣義嶺回歸的兩大缺陷:
其一,σ2和αi都是未知參數(shù),需要通過(guò)估計(jì)才能得到,而二者常用的較優(yōu)良的估計(jì)量都與y有關(guān),這就導(dǎo)致廣義嶺回歸估計(jì)量式(3)不是y的線性變換,也就不再具備線性估計(jì)量的任何優(yōu)良性。
嶺回歸以及廣義嶺回歸的實(shí)質(zhì),都是在X′X不可逆或近似不可逆的情況下,通過(guò)給X′X加上一個(gè)調(diào)整矩陣A,使得X′X+A遠(yuǎn)離病態(tài)性,這時(shí)估計(jì)量為:
其對(duì)應(yīng)的協(xié)方差矩陣為:
嶺回歸的目的就是在一定程度上犧牲估計(jì)量的無(wú)偏性,保障其有效性,即將估計(jì)量方差控制在一定范圍之內(nèi)。傳統(tǒng)廣義嶺回歸方法在處理這個(gè)問題時(shí),要求矩陣(X′X+A)-1X′X(X′X+A)-1主對(duì)角線上的元素不能太大,這等價(jià)于要求X′X+A的所有條件數(shù)都不太大,通常的要求是不大于10。本文將提出一種新的廣義嶺回歸方法,該方法得到的估計(jì)量的優(yōu)良性在于:一是該估計(jì)量是線性估計(jì)量;二是在將協(xié)方差矩陣都控制在合理范圍之內(nèi)時(shí),本估計(jì)量比傳統(tǒng)嶺回歸具有更小的均方誤差,這一點(diǎn)將在第四節(jié)通過(guò)數(shù)據(jù)模擬來(lái)驗(yàn)證。以下說(shuō)明本估計(jì)量的構(gòu)造思路:
以上分析引出了一種新的構(gòu)造調(diào)整矩陣A的思路,即將矩陣X′X進(jìn)行譜分解得到:
其中λ1≥λ2≥…≥λr≥0為全部特征根,li為相應(yīng)的正交單位特征向量;X′X病態(tài)程度較高時(shí),必有一個(gè)以上特征根小于最大特征根的1%,不妨將其記為λs+1≥λs+2≥…≥λr≥0,這時(shí)?。?/p>
為調(diào)整矩陣,則:
也就是將X′X中小于0.01λ1的特征根都加大到0.01λ1,其他的都不變。 容易證明:矩陣X′X+As d的全部特征根為λ1≥…≥λs>0.01λ1=…=0.01λ1>0,li依然為相應(yīng)的單位正交特征向量,此時(shí)矩陣X′X+As d所有條件數(shù)都不大于10,不再具有病態(tài)性。由于:
=Qdiag(0,…,0.01λ1-λj,…,0.01λ1-λr)Q′
這等價(jià)于在(3)中取K=diag(0,…,0.01λ1-λj,…,0.01λ1-λr),故以這樣的As d為調(diào)整矩陣,仍屬于廣義嶺回歸的范疇;又由于As d是基于X′X進(jìn)行譜分解得到的,因此命名為“譜分解廣義嶺回歸法”。
譜分解廣義嶺回歸法具有以下優(yōu)良性:
第一,計(jì)算極其方便:計(jì)算量不僅遠(yuǎn)遠(yuǎn)小于一般廣義嶺回歸法,也小于狹義嶺回歸方法。狹義嶺回歸在確定嶺參數(shù)k時(shí),需要進(jìn)行嶺跡分析等復(fù)雜計(jì)算,還要兼顧參數(shù)估計(jì)值的符號(hào)正負(fù)性與實(shí)踐意義是否相符;一般廣義嶺回歸算法需要通過(guò)回歸模型的典則形式過(guò)渡,并以某些其他參數(shù)估計(jì)值為前提基礎(chǔ)、才能得到參數(shù)估計(jì)量[13]76-134;譜分解廣義嶺回歸法的計(jì)算量則相對(duì)小得多,且省去了狹義嶺回歸的嶺跡分析或廣義嶺回歸的典則變換等繁冗環(huán)節(jié),實(shí)用性大大增強(qiáng)。
第二,線性估計(jì)量:基于譜分解廣義嶺回歸法得到的調(diào)整矩陣As d,只依賴于對(duì)X′X的譜分解結(jié)果,與y無(wú)關(guān),因此相應(yīng)的參數(shù)估計(jì)量是線性估計(jì)量;而廣義嶺回歸不具有此優(yōu)良性,即便是狹義嶺回歸法,其調(diào)整矩陣kI看似與y無(wú)直接關(guān)聯(lián),但在確定嶺參數(shù)k時(shí)卻需要y的間接參與,因此得到的也不是線性估計(jì)量[14],在這個(gè)方面譜分解廣義嶺回歸法具有先天優(yōu)勢(shì)。
在上一節(jié)中,提出了“譜分解廣義嶺回歸”方法,得到了一種新的調(diào)整矩陣的導(dǎo)出方法,并指出該方法具有計(jì)算方便、估計(jì)量為線性以及估計(jì)誤差小等優(yōu)良性。對(duì)于前二者,在上一節(jié)已經(jīng)做了闡述,本節(jié)驗(yàn)證第三個(gè)優(yōu)良性,即比狹義嶺回歸估計(jì)量具有更小的均方誤差。
步驟一尋找3個(gè)無(wú)多重共線性的自變量樣本數(shù)據(jù)并進(jìn)行標(biāo)準(zhǔn)化,標(biāo)準(zhǔn)化后變量記為x1,x2,x3。
步驟五取非零常數(shù)向量β=(b1,b2,b3,b4,b5)′,令y=b1x1+b2x2+b3x3+b4x4+b5x5+ε3生成新變量y的樣本數(shù)據(jù),ε3為0均值正態(tài)分布的隨機(jī)數(shù)。
上述樣本數(shù)據(jù)模擬過(guò)程步驟一、三、四保證了回歸模型具有多重共線性;步驟五則提供了模型的模擬系數(shù)真實(shí)值,以下將其作為真實(shí)值看待。依照上述步驟,得到了一組容量為75的模擬樣本數(shù)據(jù)(其中β=[2,0.8,-3,0.5,-1.2]′),見表1。
以上得到了模擬樣本數(shù)據(jù),以下開始驗(yàn)證:
第一步,對(duì)上述樣本數(shù)據(jù)進(jìn)行狹義嶺回歸參數(shù)估計(jì):利用SPSS軟件中的嶺回歸模塊,可以得到狹義嶺回歸的一個(gè)較理想嶺參數(shù)為k=0.011,對(duì)應(yīng)的系數(shù)估計(jì)值為:
1.161 0 ]′
第二步,對(duì)上述樣本數(shù)據(jù)進(jìn)行譜分解廣義嶺回歸參數(shù)估計(jì):對(duì)X′X進(jìn)行譜分解,得到的特征根從大到小依次為46.384 5、27.19、1.232 2、0.202 3、0.012 7,對(duì)應(yīng)的單位正交特征向量分別為:
l1=[ 0.589 8 -0.461 4 0.012 4 -0.662 5 0.015 8 ]′
l2=[ 0.012 8 -0.043 6 -0.683 6 0.046 4 0.726 9 ]′
l3=[-0.392 8 -0.676 0 0.463 4 0.139 1 0.393 3 ]′
l4=[-0.655 7 0.202 0 -0.057 2 -0.725 1 0.016 2]′
l5=[ 0.260 3 0.536 2 0.560 8 -0.117 7 0.562 5 ]′
后兩個(gè)特征根小于最大特征根的1%,需要增大0.463 845,因此調(diào)整矩陣為:
對(duì)應(yīng)的系數(shù)估計(jì)值為:
-0.461 9 ]′
第四步,將上述模擬過(guò)程重復(fù)多次,若一次模擬試驗(yàn)中譜分解廣義嶺回歸估計(jì)值的均方誤差小于狹義嶺回歸估計(jì)值,則該次試驗(yàn)結(jié)果記為1,否則記為0;筆者在實(shí)際操作中重復(fù)了百余次,每次模擬的樣本容量不盡相同,介于50~100之間;統(tǒng)計(jì)試驗(yàn)結(jié)果為1的頻率,其結(jié)果顯示為100%,即全部試驗(yàn)無(wú)一例外地顯示:譜分解廣義嶺回歸估計(jì)值的均方誤差小于狹義嶺回歸估計(jì)值的均方誤差,最小的一次僅為后者的7.73%;依據(jù)蒙特卡羅原理,可以認(rèn)為在達(dá)到同樣的方差控制效果時(shí),譜分解廣義嶺回歸估計(jì)值穩(wěn)健地比狹義嶺回歸估計(jì)值具有更小的均方誤差。
表1 樣本數(shù)據(jù)模擬結(jié)果表
對(duì)線性模型回歸系數(shù)的LS估計(jì)量,在誤差服從正態(tài)分布的情況下,在一切無(wú)偏估計(jì)類中具有最小方差;但當(dāng)X′X接近奇異時(shí),LS估計(jì)量的方差卻非常大,導(dǎo)致估計(jì)精度低且穩(wěn)定性差。狹義嶺回歸與廣義嶺回歸正是解決這一問題的有力工具,能大幅度降低估計(jì)量方差,但同時(shí)也帶來(lái)了估計(jì)量非線性、計(jì)算過(guò)程繁雜等缺陷。為了克服狹義嶺回歸和廣義嶺回歸方法中的一些固有缺陷,本文提出了一種基于譜分解的調(diào)整矩陣的算法,即通過(guò)該方法可確定調(diào)整矩陣,無(wú)需借助于因變量的任何樣本數(shù)據(jù)信息,因此得到的估計(jì)量是線性估計(jì)量,同時(shí)該方法的運(yùn)算簡(jiǎn)單易行,比傳統(tǒng)方法更具有實(shí)用性。
由本方法得到的調(diào)整矩陣滿足傳統(tǒng)的廣義嶺回歸對(duì)調(diào)整矩陣的規(guī)范形式的要求,因此本方法仍屬于廣義嶺回歸的范疇,本質(zhì)上是一種對(duì)LS估計(jì)的非均勻壓縮;但是與狹義嶺回歸和一般廣義嶺回歸不同的是,本方法只在少數(shù)幾個(gè)方向上進(jìn)行壓縮,而不是全面壓縮,因此對(duì)LS估計(jì)量的改動(dòng)幅度并不大,在消除共線性的同時(shí)產(chǎn)生的偏差卻盡可能地小,也就具有了非常小的均方誤差。