• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于譜分解的廣義嶺回歸方法及其優(yōu)良性探討

      2018-10-16 11:09:08
      統(tǒng)計(jì)與信息論壇 2018年10期
      關(guān)鍵詞:估計(jì)量均方估計(jì)值

      周 涌

      (湖北科技學(xué)院 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,湖北 咸寧 437000)

      一、引言

      (一)廣義嶺回歸問題的產(chǎn)生

      基于高斯—馬爾科夫假定的多元線性回歸模型為:

      (1)

      對(duì)于未知參數(shù)β,其普通最小二乘估計(jì)為:

      要讓這個(gè)估計(jì)存在,必須要求X′X可逆,這相當(dāng)于要求設(shè)計(jì)矩陣X是滿秩的,否則稱模型(1)具有多重共線性特征。多重共線性普遍存在于現(xiàn)實(shí)數(shù)據(jù)中,它會(huì)導(dǎo)致X′X=0,使得其逆矩陣不存在,也就無(wú)法獲得普通最小二乘估計(jì)[1]113-137;即便X′X≠0,但非常接近于0,也會(huì)有害于參數(shù)估計(jì),這是因?yàn)椋?/p>

      嶺回歸方法最早由Hoerl于1962年提出[2],用于當(dāng)存在多重共線性狀況時(shí),對(duì)最小二乘估計(jì)量進(jìn)行改進(jìn)。1970年,Hoerl和Kennard在兩篇論文中詳細(xì)探討了嶺回歸方法[3-4]。該方法的主要思想是:當(dāng)X′X≈0時(shí),給其加上單位矩陣的正常數(shù)倍,使得X′X+kI遠(yuǎn)離0,從而使得X'X+kI可逆,此時(shí)最小二乘估計(jì)量相應(yīng)地調(diào)整為:

      (2)

      其中常數(shù)k被稱為嶺參數(shù),而矩陣kI被稱為調(diào)整矩陣。在Hoerl和Kennard之后有學(xué)者提出:調(diào)整矩陣不必限定于kI,可以是QKQ′,其中K是一個(gè)主對(duì)角線上元素非負(fù)但各不相同的對(duì)角矩陣,K=diag(k1,k2,…,kr),Q為X′X的單位正交特征向量組成的正交矩陣[5],這時(shí)參數(shù)估計(jì)值相應(yīng)地變?yōu)椋?/p>

      (3)

      這種方法被稱為廣義嶺回歸(為了便于區(qū)分,以下將Hoerl提出的嶺回歸方法稱為狹義嶺回歸),可以證明:廣義嶺回歸參數(shù)估計(jì)量(3)比狹義嶺回歸參數(shù)估計(jì)量(2),具有更小的均方誤差[6]81-127。

      (二)相關(guān)研究的最新進(jìn)展

      作為一種被廣泛使用的數(shù)據(jù)分析方法,回歸分析在許多領(lǐng)域發(fā)揮了重要作用,對(duì)其的改進(jìn)也隨著應(yīng)用的發(fā)展而不斷深入,其中特殊條件下回歸分析的統(tǒng)計(jì)性質(zhì)以及多變量問題成為研究重點(diǎn)[7-8]。近年來(lái),在廣義嶺回歸的理論方面,許多學(xué)者進(jìn)行了大量研究,得到了一些基于特定優(yōu)良性指標(biāo)的好的估計(jì)量,可容許廣義嶺回歸、半?yún)?shù)廣義嶺回歸等方法相繼被提出。隨著計(jì)算機(jī)技術(shù)的發(fā)展,學(xué)者開始通過(guò)算法研究對(duì)廣義嶺回歸進(jìn)行改進(jìn),提出了利用神經(jīng)網(wǎng)絡(luò)算法來(lái)確定模型參數(shù),但又發(fā)現(xiàn)該方法存在過(guò)擬合等缺陷[9];Beam等學(xué)者提出利用基于支持向量機(jī)回歸算法來(lái)改進(jìn)神經(jīng)網(wǎng)絡(luò)方法的缺陷,并取得了不錯(cuò)的效果,但也未在不確定性參數(shù)的優(yōu)化選擇領(lǐng)域取得突破性進(jìn)展,而這些估計(jì)量大多是非線性估計(jì),其統(tǒng)計(jì)優(yōu)良性遠(yuǎn)不如線性估計(jì)量,廣義嶺回歸理論并沒有顯著的突破[10-11];Vapnik提出干脆放棄對(duì)估計(jì)量的線性要求,退而求其次地在非線性估計(jì)量中尋求優(yōu)良性估計(jì)量[12]47-96。

      本文將提出一種在計(jì)算上簡(jiǎn)便易行的廣義嶺回歸方法,使得該方法的實(shí)用性大大增強(qiáng),同時(shí)能保證參數(shù)估計(jì)量是線性的,從而具有線性估計(jì)的一切優(yōu)良性。

      二、廣義嶺回歸方法的缺陷

      為了方便尋找K*,引入線性回歸模型(1)的典則形式:

      y=Zα+ε

      (4)

      其中Z=XQ,α=Q′β,Q為X′X的單位正交特征向量組成的正交矩陣。基于典則形式的式(4)的參數(shù)最小二乘估計(jì)為:

      由于β=Qα,相應(yīng)的β估計(jì)量為:

      當(dāng)基于模型(1)的廣義嶺回歸估計(jì)量為式(3)時(shí),相應(yīng)的典則參數(shù)α的廣義嶺回歸估計(jì)量為:

      可以證明

      (5)

      上述結(jié)果直接導(dǎo)致了廣義嶺回歸的兩大缺陷:

      其一,σ2和αi都是未知參數(shù),需要通過(guò)估計(jì)才能得到,而二者常用的較優(yōu)良的估計(jì)量都與y有關(guān),這就導(dǎo)致廣義嶺回歸估計(jì)量式(3)不是y的線性變換,也就不再具備線性估計(jì)量的任何優(yōu)良性。

      三、基于譜分解的廣義嶺回歸方法

      嶺回歸以及廣義嶺回歸的實(shí)質(zhì),都是在X′X不可逆或近似不可逆的情況下,通過(guò)給X′X加上一個(gè)調(diào)整矩陣A,使得X′X+A遠(yuǎn)離病態(tài)性,這時(shí)估計(jì)量為:

      其對(duì)應(yīng)的協(xié)方差矩陣為:

      嶺回歸的目的就是在一定程度上犧牲估計(jì)量的無(wú)偏性,保障其有效性,即將估計(jì)量方差控制在一定范圍之內(nèi)。傳統(tǒng)廣義嶺回歸方法在處理這個(gè)問題時(shí),要求矩陣(X′X+A)-1X′X(X′X+A)-1主對(duì)角線上的元素不能太大,這等價(jià)于要求X′X+A的所有條件數(shù)都不太大,通常的要求是不大于10。本文將提出一種新的廣義嶺回歸方法,該方法得到的估計(jì)量的優(yōu)良性在于:一是該估計(jì)量是線性估計(jì)量;二是在將協(xié)方差矩陣都控制在合理范圍之內(nèi)時(shí),本估計(jì)量比傳統(tǒng)嶺回歸具有更小的均方誤差,這一點(diǎn)將在第四節(jié)通過(guò)數(shù)據(jù)模擬來(lái)驗(yàn)證。以下說(shuō)明本估計(jì)量的構(gòu)造思路:

      以上分析引出了一種新的構(gòu)造調(diào)整矩陣A的思路,即將矩陣X′X進(jìn)行譜分解得到:

      其中λ1≥λ2≥…≥λr≥0為全部特征根,li為相應(yīng)的正交單位特征向量;X′X病態(tài)程度較高時(shí),必有一個(gè)以上特征根小于最大特征根的1%,不妨將其記為λs+1≥λs+2≥…≥λr≥0,這時(shí)?。?/p>

      為調(diào)整矩陣,則:

      也就是將X′X中小于0.01λ1的特征根都加大到0.01λ1,其他的都不變。 容易證明:矩陣X′X+As d的全部特征根為λ1≥…≥λs>0.01λ1=…=0.01λ1>0,li依然為相應(yīng)的單位正交特征向量,此時(shí)矩陣X′X+As d所有條件數(shù)都不大于10,不再具有病態(tài)性。由于:

      =Qdiag(0,…,0.01λ1-λj,…,0.01λ1-λr)Q′

      這等價(jià)于在(3)中取K=diag(0,…,0.01λ1-λj,…,0.01λ1-λr),故以這樣的As d為調(diào)整矩陣,仍屬于廣義嶺回歸的范疇;又由于As d是基于X′X進(jìn)行譜分解得到的,因此命名為“譜分解廣義嶺回歸法”。

      譜分解廣義嶺回歸法具有以下優(yōu)良性:

      第一,計(jì)算極其方便:計(jì)算量不僅遠(yuǎn)遠(yuǎn)小于一般廣義嶺回歸法,也小于狹義嶺回歸方法。狹義嶺回歸在確定嶺參數(shù)k時(shí),需要進(jìn)行嶺跡分析等復(fù)雜計(jì)算,還要兼顧參數(shù)估計(jì)值的符號(hào)正負(fù)性與實(shí)踐意義是否相符;一般廣義嶺回歸算法需要通過(guò)回歸模型的典則形式過(guò)渡,并以某些其他參數(shù)估計(jì)值為前提基礎(chǔ)、才能得到參數(shù)估計(jì)量[13]76-134;譜分解廣義嶺回歸法的計(jì)算量則相對(duì)小得多,且省去了狹義嶺回歸的嶺跡分析或廣義嶺回歸的典則變換等繁冗環(huán)節(jié),實(shí)用性大大增強(qiáng)。

      第二,線性估計(jì)量:基于譜分解廣義嶺回歸法得到的調(diào)整矩陣As d,只依賴于對(duì)X′X的譜分解結(jié)果,與y無(wú)關(guān),因此相應(yīng)的參數(shù)估計(jì)量是線性估計(jì)量;而廣義嶺回歸不具有此優(yōu)良性,即便是狹義嶺回歸法,其調(diào)整矩陣kI看似與y無(wú)直接關(guān)聯(lián),但在確定嶺參數(shù)k時(shí)卻需要y的間接參與,因此得到的也不是線性估計(jì)量[14],在這個(gè)方面譜分解廣義嶺回歸法具有先天優(yōu)勢(shì)。

      四、數(shù)據(jù)模擬

      在上一節(jié)中,提出了“譜分解廣義嶺回歸”方法,得到了一種新的調(diào)整矩陣的導(dǎo)出方法,并指出該方法具有計(jì)算方便、估計(jì)量為線性以及估計(jì)誤差小等優(yōu)良性。對(duì)于前二者,在上一節(jié)已經(jīng)做了闡述,本節(jié)驗(yàn)證第三個(gè)優(yōu)良性,即比狹義嶺回歸估計(jì)量具有更小的均方誤差。

      步驟一尋找3個(gè)無(wú)多重共線性的自變量樣本數(shù)據(jù)并進(jìn)行標(biāo)準(zhǔn)化,標(biāo)準(zhǔn)化后變量記為x1,x2,x3。

      步驟五取非零常數(shù)向量β=(b1,b2,b3,b4,b5)′,令y=b1x1+b2x2+b3x3+b4x4+b5x5+ε3生成新變量y的樣本數(shù)據(jù),ε3為0均值正態(tài)分布的隨機(jī)數(shù)。

      上述樣本數(shù)據(jù)模擬過(guò)程步驟一、三、四保證了回歸模型具有多重共線性;步驟五則提供了模型的模擬系數(shù)真實(shí)值,以下將其作為真實(shí)值看待。依照上述步驟,得到了一組容量為75的模擬樣本數(shù)據(jù)(其中β=[2,0.8,-3,0.5,-1.2]′),見表1。

      以上得到了模擬樣本數(shù)據(jù),以下開始驗(yàn)證:

      第一步,對(duì)上述樣本數(shù)據(jù)進(jìn)行狹義嶺回歸參數(shù)估計(jì):利用SPSS軟件中的嶺回歸模塊,可以得到狹義嶺回歸的一個(gè)較理想嶺參數(shù)為k=0.011,對(duì)應(yīng)的系數(shù)估計(jì)值為:

      1.161 0 ]′

      第二步,對(duì)上述樣本數(shù)據(jù)進(jìn)行譜分解廣義嶺回歸參數(shù)估計(jì):對(duì)X′X進(jìn)行譜分解,得到的特征根從大到小依次為46.384 5、27.19、1.232 2、0.202 3、0.012 7,對(duì)應(yīng)的單位正交特征向量分別為:

      l1=[ 0.589 8 -0.461 4 0.012 4 -0.662 5 0.015 8 ]′

      l2=[ 0.012 8 -0.043 6 -0.683 6 0.046 4 0.726 9 ]′

      l3=[-0.392 8 -0.676 0 0.463 4 0.139 1 0.393 3 ]′

      l4=[-0.655 7 0.202 0 -0.057 2 -0.725 1 0.016 2]′

      l5=[ 0.260 3 0.536 2 0.560 8 -0.117 7 0.562 5 ]′

      后兩個(gè)特征根小于最大特征根的1%,需要增大0.463 845,因此調(diào)整矩陣為:

      對(duì)應(yīng)的系數(shù)估計(jì)值為:

      -0.461 9 ]′

      第四步,將上述模擬過(guò)程重復(fù)多次,若一次模擬試驗(yàn)中譜分解廣義嶺回歸估計(jì)值的均方誤差小于狹義嶺回歸估計(jì)值,則該次試驗(yàn)結(jié)果記為1,否則記為0;筆者在實(shí)際操作中重復(fù)了百余次,每次模擬的樣本容量不盡相同,介于50~100之間;統(tǒng)計(jì)試驗(yàn)結(jié)果為1的頻率,其結(jié)果顯示為100%,即全部試驗(yàn)無(wú)一例外地顯示:譜分解廣義嶺回歸估計(jì)值的均方誤差小于狹義嶺回歸估計(jì)值的均方誤差,最小的一次僅為后者的7.73%;依據(jù)蒙特卡羅原理,可以認(rèn)為在達(dá)到同樣的方差控制效果時(shí),譜分解廣義嶺回歸估計(jì)值穩(wěn)健地比狹義嶺回歸估計(jì)值具有更小的均方誤差。

      表1 樣本數(shù)據(jù)模擬結(jié)果表

      五、小結(jié)

      對(duì)線性模型回歸系數(shù)的LS估計(jì)量,在誤差服從正態(tài)分布的情況下,在一切無(wú)偏估計(jì)類中具有最小方差;但當(dāng)X′X接近奇異時(shí),LS估計(jì)量的方差卻非常大,導(dǎo)致估計(jì)精度低且穩(wěn)定性差。狹義嶺回歸與廣義嶺回歸正是解決這一問題的有力工具,能大幅度降低估計(jì)量方差,但同時(shí)也帶來(lái)了估計(jì)量非線性、計(jì)算過(guò)程繁雜等缺陷。為了克服狹義嶺回歸和廣義嶺回歸方法中的一些固有缺陷,本文提出了一種基于譜分解的調(diào)整矩陣的算法,即通過(guò)該方法可確定調(diào)整矩陣,無(wú)需借助于因變量的任何樣本數(shù)據(jù)信息,因此得到的估計(jì)量是線性估計(jì)量,同時(shí)該方法的運(yùn)算簡(jiǎn)單易行,比傳統(tǒng)方法更具有實(shí)用性。

      由本方法得到的調(diào)整矩陣滿足傳統(tǒng)的廣義嶺回歸對(duì)調(diào)整矩陣的規(guī)范形式的要求,因此本方法仍屬于廣義嶺回歸的范疇,本質(zhì)上是一種對(duì)LS估計(jì)的非均勻壓縮;但是與狹義嶺回歸和一般廣義嶺回歸不同的是,本方法只在少數(shù)幾個(gè)方向上進(jìn)行壓縮,而不是全面壓縮,因此對(duì)LS估計(jì)量的改動(dòng)幅度并不大,在消除共線性的同時(shí)產(chǎn)生的偏差卻盡可能地小,也就具有了非常小的均方誤差。

      猜你喜歡
      估計(jì)量均方估計(jì)值
      一類隨機(jī)積分微分方程的均方漸近概周期解
      Beidou, le système de navigation par satellite compatible et interopérable
      一道樣本的數(shù)字特征與頻率分布直方圖的交匯問題
      統(tǒng)計(jì)信息
      2018年4月世界粗鋼產(chǎn)量表(續(xù))萬(wàn)噸
      淺談估計(jì)量的優(yōu)良性標(biāo)準(zhǔn)
      基于抗差最小均方估計(jì)的輸電線路參數(shù)辨識(shí)
      基于配網(wǎng)先驗(yàn)信息的諧波狀態(tài)估計(jì)量測(cè)點(diǎn)最優(yōu)配置
      基于隨機(jī)牽制控制的復(fù)雜網(wǎng)絡(luò)均方簇同步
      負(fù)極值指標(biāo)估計(jì)量的漸近性質(zhì)
      侯马市| 光山县| 莒南县| 比如县| 延庆县| 河北省| 海门市| 鹰潭市| 化德县| 崇文区| 嘉黎县| 乡城县| 漳平市| 华宁县| 行唐县| 威海市| 大方县| 乐亭县| 蒙阴县| 会昌县| 垫江县| 安新县| 东阳市| 株洲县| 平度市| 安吉县| 郯城县| 阿荣旗| 青阳县| 晋江市| 汝州市| 通河县| 平泉县| 遵义县| 菏泽市| 柘荣县| 铜陵市| 山东| 宝兴县| 昌邑市| 聂拉木县|