基于譜分解的廣義嶺回歸方法及其優(yōu)良性探討

2018-10-16 11:09:08周涌

統(tǒng)計(jì)與信息論壇 2018年10期

關(guān)鍵詞：估計(jì)量均方估計(jì)值

周涌

(湖北科技學(xué)院數(shù)學(xué)與統(tǒng)計(jì)學(xué)院，湖北咸寧 437000)

一、引言

(一)廣義嶺回歸問題的產(chǎn)生

基于高斯—馬爾科夫假定的多元線性回歸模型為：

(1)

對(duì)于未知參數(shù)β，其普通最小二乘估計(jì)為：

要讓這個(gè)估計(jì)存在，必須要求X′X可逆，這相當(dāng)于要求設(shè)計(jì)矩陣X是滿秩的，否則稱模型(1)具有多重共線性特征。多重共線性普遍存在于現(xiàn)實(shí)數(shù)據(jù)中，它會(huì)導(dǎo)致X′X=0，使得其逆矩陣不存在，也就無(wú)法獲得普通最小二乘估計(jì)[1]113-137；即便X′X≠0，但非常接近于0，也會(huì)有害于參數(shù)估計(jì)，這是因?yàn)椋?/p>

嶺回歸方法最早由Hoerl于1962年提出[2]，用于當(dāng)存在多重共線性狀況時(shí)，對(duì)最小二乘估計(jì)量進(jìn)行改進(jìn)。1970年，Hoerl和Kennard在兩篇論文中詳細(xì)探討了嶺回歸方法[3-4]。該方法的主要思想是：當(dāng)X′X≈0時(shí)，給其加上單位矩陣的正常數(shù)倍，使得X′X+kI遠(yuǎn)離0，從而使得X'X+kI可逆，此時(shí)最小二乘估計(jì)量相應(yīng)地調(diào)整為：

(2)

其中常數(shù)k被稱為嶺參數(shù)，而矩陣kI被稱為調(diào)整矩陣。在Hoerl和Kennard之后有學(xué)者提出：調(diào)整矩陣不必限定于kI，可以是QKQ′，其中K是一個(gè)主對(duì)角線上元素非負(fù)但各不相同的對(duì)角矩陣，K=diag(k1，k2，…，kr)，Q為X′X的單位正交特征向量組成的正交矩陣[5]，這時(shí)參數(shù)估計(jì)值相應(yīng)地變?yōu)椋?/p>

(3)

這種方法被稱為廣義嶺回歸(為了便于區(qū)分，以下將Hoerl提出的嶺回歸方法稱為狹義嶺回歸)，可以證明：廣義嶺回歸參數(shù)估計(jì)量(3)比狹義嶺回歸參數(shù)估計(jì)量(2)，具有更小的均方誤差[6]81-127。

(二)相關(guān)研究的最新進(jìn)展

作為一種被廣泛使用的數(shù)據(jù)分析方法，回歸分析在許多領(lǐng)域發(fā)揮了重要作用，對(duì)其的改進(jìn)也隨著應(yīng)用的發(fā)展而不斷深入，其中特殊條件下回歸分析的統(tǒng)計(jì)性質(zhì)以及多變量問題成為研究重點(diǎn)[7-8]。近年來(lái)，在廣義嶺回歸的理論方面，許多學(xué)者進(jìn)行了大量研究，得到了一些基于特定優(yōu)良性指標(biāo)的好的估計(jì)量，可容許廣義嶺回歸、半?yún)?shù)廣義嶺回歸等方法相繼被提出。隨著計(jì)算機(jī)技術(shù)的發(fā)展，學(xué)者開始通過(guò)算法研究對(duì)廣義嶺回歸進(jìn)行改進(jìn)，提出了利用神經(jīng)網(wǎng)絡(luò)算法來(lái)確定模型參數(shù)，但又發(fā)現(xiàn)該方法存在過(guò)擬合等缺陷[9]；Beam等學(xué)者提出利用基于支持向量機(jī)回歸算法來(lái)改進(jìn)神經(jīng)網(wǎng)絡(luò)方法的缺陷，并取得了不錯(cuò)的效果，但也未在不確定性參數(shù)的優(yōu)化選擇領(lǐng)域取得突破性進(jìn)展，而這些估計(jì)量大多是非線性估計(jì)，其統(tǒng)計(jì)優(yōu)良性遠(yuǎn)不如線性估計(jì)量，廣義嶺回歸理論并沒有顯著的突破[10-11]；Vapnik提出干脆放棄對(duì)估計(jì)量的線性要求，退而求其次地在非線性估計(jì)量中尋求優(yōu)良性估計(jì)量[12]47-96。

本文將提出一種在計(jì)算上簡(jiǎn)便易行的廣義嶺回歸方法，使得該方法的實(shí)用性大大增強(qiáng)，同時(shí)能保證參數(shù)估計(jì)量是線性的，從而具有線性估計(jì)的一切優(yōu)良性。

二、廣義嶺回歸方法的缺陷

為了方便尋找K*，引入線性回歸模型(1)的典則形式：

y=Zα+ε

(4)

其中Z=XQ，α=Q′β，Q為X′X的單位正交特征向量組成的正交矩陣。基于典則形式的式(4)的參數(shù)最小二乘估計(jì)為：

由于β=Qα，相應(yīng)的β估計(jì)量為：

當(dāng)基于模型(1)的廣義嶺回歸估計(jì)量為式(3)時(shí)，相應(yīng)的典則參數(shù)α的廣義嶺回歸估計(jì)量為：

可以證明

(5)

上述結(jié)果直接導(dǎo)致了廣義嶺回歸的兩大缺陷：

其一，σ2和αi都是未知參數(shù)，需要通過(guò)估計(jì)才能得到，而二者常用的較優(yōu)良的估計(jì)量都與y有關(guān)，這就導(dǎo)致廣義嶺回歸估計(jì)量式(3)不是y的線性變換，也就不再具備線性估計(jì)量的任何優(yōu)良性。

三、基于譜分解的廣義嶺回歸方法

嶺回歸以及廣義嶺回歸的實(shí)質(zhì)，都是在X′X不可逆或近似不可逆的情況下，通過(guò)給X′X加上一個(gè)調(diào)整矩陣A，使得X′X+A遠(yuǎn)離病態(tài)性，這時(shí)估計(jì)量為：

其對(duì)應(yīng)的協(xié)方差矩陣為：

嶺回歸的目的就是在一定程度上犧牲估計(jì)量的無(wú)偏性，保障其有效性，即將估計(jì)量方差控制在一定范圍之內(nèi)。傳統(tǒng)廣義嶺回歸方法在處理這個(gè)問題時(shí)，要求矩陣(X′X+A)-1X′X(X′X+A)-1主對(duì)角線上的元素不能太大，這等價(jià)于要求X′X+A的所有條件數(shù)都不太大，通常的要求是不大于10。本文將提出一種新的廣義嶺回歸方法，該方法得到的估計(jì)量的優(yōu)良性在于：一是該估計(jì)量是線性估計(jì)量；二是在將協(xié)方差矩陣都控制在合理范圍之內(nèi)時(shí)，本估計(jì)量比傳統(tǒng)嶺回歸具有更小的均方誤差，這一點(diǎn)將在第四節(jié)通過(guò)數(shù)據(jù)模擬來(lái)驗(yàn)證。以下說(shuō)明本估計(jì)量的構(gòu)造思路：

以上分析引出了一種新的構(gòu)造調(diào)整矩陣A的思路，即將矩陣X′X進(jìn)行譜分解得到：

其中λ1≥λ2≥…≥λr≥0為全部特征根，li為相應(yīng)的正交單位特征向量；X′X病態(tài)程度較高時(shí)，必有一個(gè)以上特征根小于最大特征根的1%，不妨將其記為λs+1≥λs+2≥…≥λr≥0，這時(shí)?。?/p>

為調(diào)整矩陣，則：

也就是將X′X中小于0.01λ1的特征根都加大到0.01λ1，其他的都不變。容易證明：矩陣X′X+As d的全部特征根為λ1≥…≥λs>0.01λ1=…=0.01λ1>0，li依然為相應(yīng)的單位正交特征向量，此時(shí)矩陣X′X+As d所有條件數(shù)都不大于10，不再具有病態(tài)性。由于：

=Qdiag(0，…，0.01λ1-λj，…，0.01λ1-λr)Q′

這等價(jià)于在(3)中取K=diag(0，…，0.01λ1-λj，…，0.01λ1-λr)，故以這樣的As d為調(diào)整矩陣，仍屬于廣義嶺回歸的范疇；又由于As d是基于X′X進(jìn)行譜分解得到的，因此命名為“譜分解廣義嶺回歸法”。

譜分解廣義嶺回歸法具有以下優(yōu)良性：

第一，計(jì)算極其方便：計(jì)算量不僅遠(yuǎn)遠(yuǎn)小于一般廣義嶺回歸法，也小于狹義嶺回歸方法。狹義嶺回歸在確定嶺參數(shù)k時(shí)，需要進(jìn)行嶺跡分析等復(fù)雜計(jì)算，還要兼顧參數(shù)估計(jì)值的符號(hào)正負(fù)性與實(shí)踐意義是否相符；一般廣義嶺回歸算法需要通過(guò)回歸模型的典則形式過(guò)渡，并以某些其他參數(shù)估計(jì)值為前提基礎(chǔ)、才能得到參數(shù)估計(jì)量[13]76-134；譜分解廣義嶺回歸法的計(jì)算量則相對(duì)小得多，且省去了狹義嶺回歸的嶺跡分析或廣義嶺回歸的典則變換等繁冗環(huán)節(jié)，實(shí)用性大大增強(qiáng)。

第二，線性估計(jì)量：基于譜分解廣義嶺回歸法得到的調(diào)整矩陣As d，只依賴于對(duì)X′X的譜分解結(jié)果，與y無(wú)關(guān)，因此相應(yīng)的參數(shù)估計(jì)量是線性估計(jì)量；而廣義嶺回歸不具有此優(yōu)良性，即便是狹義嶺回歸法，其調(diào)整矩陣kI看似與y無(wú)直接關(guān)聯(lián)，但在確定嶺參數(shù)k時(shí)卻需要y的間接參與，因此得到的也不是線性估計(jì)量[14]，在這個(gè)方面譜分解廣義嶺回歸法具有先天優(yōu)勢(shì)。

四、數(shù)據(jù)模擬

在上一節(jié)中，提出了“譜分解廣義嶺回歸”方法，得到了一種新的調(diào)整矩陣的導(dǎo)出方法，并指出該方法具有計(jì)算方便、估計(jì)量為線性以及估計(jì)誤差小等優(yōu)良性。對(duì)于前二者，在上一節(jié)已經(jīng)做了闡述，本節(jié)驗(yàn)證第三個(gè)優(yōu)良性，即比狹義嶺回歸估計(jì)量具有更小的均方誤差。

步驟一尋找3個(gè)無(wú)多重共線性的自變量樣本數(shù)據(jù)并進(jìn)行標(biāo)準(zhǔn)化，標(biāo)準(zhǔn)化后變量記為x1,x2,x3。

步驟五取非零常數(shù)向量β=(b1,b2,b3,b4,b5)′，令y=b1x1+b2x2+b3x3+b4x4+b5x5+ε3生成新變量y的樣本數(shù)據(jù)，ε3為0均值正態(tài)分布的隨機(jī)數(shù)。

上述樣本數(shù)據(jù)模擬過(guò)程步驟一、三、四保證了回歸模型具有多重共線性；步驟五則提供了模型的模擬系數(shù)真實(shí)值，以下將其作為真實(shí)值看待。依照上述步驟，得到了一組容量為75的模擬樣本數(shù)據(jù)(其中β=[2，0.8，-3，0.5，-1.2]′)，見表1。

以上得到了模擬樣本數(shù)據(jù)，以下開始驗(yàn)證：

第一步，對(duì)上述樣本數(shù)據(jù)進(jìn)行狹義嶺回歸參數(shù)估計(jì)：利用SPSS軟件中的嶺回歸模塊，可以得到狹義嶺回歸的一個(gè)較理想嶺參數(shù)為k=0.011，對(duì)應(yīng)的系數(shù)估計(jì)值為：

1.161 0 ]′

第二步，對(duì)上述樣本數(shù)據(jù)進(jìn)行譜分解廣義嶺回歸參數(shù)估計(jì)：對(duì)X′X進(jìn)行譜分解，得到的特征根從大到小依次為46.384 5、27.19、1.232 2、0.202 3、0.012 7，對(duì)應(yīng)的單位正交特征向量分別為：

l1=[ 0.589 8 -0.461 4 0.012 4 -0.662 5 0.015 8 ]′

l2=[ 0.012 8 -0.043 6 -0.683 6 0.046 4 0.726 9 ]′

l3=[-0.392 8 -0.676 0 0.463 4 0.139 1 0.393 3 ]′

l4=[-0.655 7 0.202 0 -0.057 2 -0.725 1 0.016 2]′

l5=[ 0.260 3 0.536 2 0.560 8 -0.117 7 0.562 5 ]′

后兩個(gè)特征根小于最大特征根的1%，需要增大0.463 845，因此調(diào)整矩陣為：

對(duì)應(yīng)的系數(shù)估計(jì)值為：

-0.461 9 ]′

第四步，將上述模擬過(guò)程重復(fù)多次，若一次模擬試驗(yàn)中譜分解廣義嶺回歸估計(jì)值的均方誤差小于狹義嶺回歸估計(jì)值，則該次試驗(yàn)結(jié)果記為1，否則記為0；筆者在實(shí)際操作中重復(fù)了百余次，每次模擬的樣本容量不盡相同，介于50～100之間；統(tǒng)計(jì)試驗(yàn)結(jié)果為1的頻率，其結(jié)果顯示為100%，即全部試驗(yàn)無(wú)一例外地顯示：譜分解廣義嶺回歸估計(jì)值的均方誤差小于狹義嶺回歸估計(jì)值的均方誤差，最小的一次僅為后者的7.73%；依據(jù)蒙特卡羅原理，可以認(rèn)為在達(dá)到同樣的方差控制效果時(shí)，譜分解廣義嶺回歸估計(jì)值穩(wěn)健地比狹義嶺回歸估計(jì)值具有更小的均方誤差。

表1 樣本數(shù)據(jù)模擬結(jié)果表

五、小結(jié)

對(duì)線性模型回歸系數(shù)的LS估計(jì)量，在誤差服從正態(tài)分布的情況下，在一切無(wú)偏估計(jì)類中具有最小方差；但當(dāng)X′X接近奇異時(shí)，LS估計(jì)量的方差卻非常大，導(dǎo)致估計(jì)精度低且穩(wěn)定性差。狹義嶺回歸與廣義嶺回歸正是解決這一問題的有力工具，能大幅度降低估計(jì)量方差，但同時(shí)也帶來(lái)了估計(jì)量非線性、計(jì)算過(guò)程繁雜等缺陷。為了克服狹義嶺回歸和廣義嶺回歸方法中的一些固有缺陷，本文提出了一種基于譜分解的調(diào)整矩陣的算法，即通過(guò)該方法可確定調(diào)整矩陣，無(wú)需借助于因變量的任何樣本數(shù)據(jù)信息，因此得到的估計(jì)量是線性估計(jì)量，同時(shí)該方法的運(yùn)算簡(jiǎn)單易行，比傳統(tǒng)方法更具有實(shí)用性。

由本方法得到的調(diào)整矩陣滿足傳統(tǒng)的廣義嶺回歸對(duì)調(diào)整矩陣的規(guī)范形式的要求，因此本方法仍屬于廣義嶺回歸的范疇，本質(zhì)上是一種對(duì)LS估計(jì)的非均勻壓縮；但是與狹義嶺回歸和一般廣義嶺回歸不同的是，本方法只在少數(shù)幾個(gè)方向上進(jìn)行壓縮，而不是全面壓縮，因此對(duì)LS估計(jì)量的改動(dòng)幅度并不大，在消除共線性的同時(shí)產(chǎn)生的偏差卻盡可能地小，也就具有了非常小的均方誤差。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于譜分解的廣義嶺回歸方法及其優(yōu)良性探討

一、引言