楊幼玲
(東北林業(yè)大學(xué))
廣義線性模型是經(jīng)典線性模型的自然推廣,它假設(shè)因變量為非連續(xù)變量,因而實(shí)用性較經(jīng)典線性模型更為廣泛.目前對(duì)廣義線性模型的研究主要集中它的參數(shù)估計(jì)問題上,當(dāng)自變量之間存在復(fù)共線性時(shí),如果仍然按照原來的參數(shù)估計(jì)方法進(jìn)行建模的話,就會(huì)帶來很大的誤差.為了解決這個(gè)問題,消除復(fù)共線性帶來的影響才使得得出的參數(shù)估計(jì)更為穩(wěn)定,更符合實(shí)際情況的需要,本文將主成分估計(jì)應(yīng)用到廣義線性模型中去,并分析其在參數(shù)估計(jì)較最大似然估計(jì)的優(yōu)越性.
定義1.1[1]設(shè)因變量Y和自變量X1,X2,…,Xp的觀測(cè)值,若
(i)Y1,Y2,…,Yn相互獨(dú)立,且對(duì)每個(gè)i,Yi服從指數(shù)分布,即
(ii)設(shè)ui為對(duì)應(yīng)的Yi的數(shù)學(xué)期望值(i=1,2,…,n),存在單調(diào)且可導(dǎo)函數(shù)g使得ηi=g(ui)=
則稱Y與X1,X2,…,Xp服從廣義線性模型.
文獻(xiàn)[1]中已經(jīng)給出了廣義線性模型的最大似然估計(jì)的方法,加權(quán)最小二乘法、Newton-Raphson迭代法、Fisher標(biāo)分法,迭代的結(jié)果為
定義1.2[1]若存在不全為0的p個(gè)數(shù)c1,…,cp使得c1xi1+c2xi2+…+cpxip≈0,i=1,…,n,則稱自變量x1,x2,…,xp之間存在復(fù)共線性.
當(dāng)自變量間存在多重共線性關(guān)系時(shí),回歸分析的結(jié)果將受到影響,使得估計(jì)值極不穩(wěn)定,造成一個(gè)因素可能取代另一個(gè)因素,或幾個(gè)因素之間相互抵消對(duì)因變量的影響,使原來有顯著性的因素變得無顯著性,而使計(jì)算結(jié)果變得難以解釋.在廣義線性模型中,為了克服復(fù)共線對(duì)自變量造成的影響,在最大似然估計(jì)的基礎(chǔ)上,對(duì)參數(shù)估計(jì)進(jìn)行改進(jìn)引入了主成分估計(jì)到廣義線性模型中.
設(shè)X為已經(jīng)中心化的設(shè)計(jì)矩陣,設(shè)計(jì)矩陣X'WX的特征值為 λ1,…,λp,則正交矩陣 Φ =(φ1,…,φp),φ1,…,φp為對(duì)應(yīng) λ1,…,λp的標(biāo)準(zhǔn)化特征向量,設(shè)新的設(shè)計(jì)矩陣C=XΦ,Φ為p×p正交矩陣,則Φ'X'WXΦ =Diag(λ1)=Λ,設(shè)α=Φ'β,又 ηi=g(ui)=Xijβj=Xi'β =Xi'ΦΦ'β=Ci'α.當(dāng)設(shè)計(jì)矩陣X存在復(fù)共線性時(shí),X'WX的特征值就會(huì)很小,近似于0,不妨設(shè)λr+1,…,λp≈0.λi度量了第i個(gè)主成分值的變動(dòng)大小,當(dāng)它的值接近于0時(shí),它對(duì)回歸自變量的影響將很小可以忽略不計(jì),故可以將它從回歸模型中刪除.將后面的p-r個(gè)主成分刪除,得到刪除后的部分模型
考慮X'WX=將(2)繼續(xù)化簡(jiǎn)
當(dāng) λj→0時(shí),會(huì)因而將后p-r項(xiàng)主成分直接刪去,也就是將(4)式中后p-r項(xiàng)減去即可,這樣就得到主成分估計(jì)的迭代公式為:
對(duì)矩陣進(jìn)行分塊,Φ =(ΦrΦs),Λ=,其中r+s=p,再由α =Φ'β結(jié)合(5)式可得
定義3.1[2]設(shè)θ為p×1未知參數(shù)向量,為θ的一個(gè)估計(jì),θ的均方誤差為
引理3.1[2]MSE(θ)=trCov(θ)+E‖θθ‖2
定理3.1 MSE
證明 由Taylor一階展開式
由Eg(Y)=g(E(Y))=g(μ)=Xβ代入(6)得
在這里利用了Taylor公式展開項(xiàng)進(jìn)行了近似處理,省去了對(duì)細(xì)微條件的把控,方法較為簡(jiǎn)便,探討在給定具體條件下最大似然估計(jì)的漸近性質(zhì)可參見文獻(xiàn)[6-7].
定理3.2 設(shè)計(jì)矩陣出現(xiàn)復(fù)共線性時(shí),適當(dāng)選擇保留的主成分估計(jì)較最大似然估計(jì)的均方誤差小,即MSE
廣義線性模型中很典型的Possion模型為例,分析主成分估計(jì)在復(fù)共線性診斷中的優(yōu)良性.數(shù)據(jù)全部采集于《中國統(tǒng)計(jì)年鑒 —2006》[8]的環(huán)境保護(hù)篇,收集了2005年全國31個(gè)地區(qū)的大氣污染物與污染次數(shù)相關(guān)的變量,為了消除單位不同而造成的量綱影響,對(duì)數(shù)據(jù)進(jìn)行原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化后再進(jìn)行分析,標(biāo)準(zhǔn)化后的數(shù)據(jù)量有:廢氣治理設(shè)施套數(shù)x1;工業(yè)二氧化硫排放量x2;工業(yè)二氧化硫去除量x3;工業(yè)煙塵排放量x4;工業(yè)煙塵去除量x5;工業(yè)粉塵排放量x6;工業(yè)粉塵去除量x7;建成煙塵控制區(qū)面積x8;大氣污染事件發(fā)生的次數(shù)y,建立Possion模型:
利用R軟件對(duì)上述數(shù)據(jù)進(jìn)行初步分析,剔除分別對(duì)應(yīng)的污染次數(shù)為 144、80、69、59、33、31 異常點(diǎn),直接對(duì)模型進(jìn)行建模,結(jié)果得出x4、x5、x6、x8對(duì)因變量都不顯著,工業(yè)中排放的煙塵、粉塵量對(duì)空氣污染具有很大的影響,顯然直接建模得出的結(jié)果與實(shí)際情況不相符.這時(shí)就要考慮是否因變量之間存在共線性,而影響了計(jì)算結(jié)果.對(duì)模型進(jìn)行主成分分析得出表1的數(shù)據(jù).從所得數(shù)據(jù)可看出后幾個(gè)主成分的特征值都已經(jīng)接近于0,因而模型自變量存在復(fù)共線性.方差的貢獻(xiàn)率表現(xiàn)了其特征值在整體數(shù)據(jù)中的權(quán)重大小,累積貢獻(xiàn)率體現(xiàn)了幾個(gè)主成分共同的權(quán)重大小.從計(jì)算的結(jié)果可看出主成分Z1、Z2、Z3、Z4的方差貢獻(xiàn)率較高,而后4個(gè)主成分對(duì)整體的貢獻(xiàn)率幾乎不變,因而可以將它們從主成分中舍去,以消除共線性,前4個(gè)主成分的累計(jì)貢獻(xiàn)率較高,已經(jīng)達(dá)到96.2%,將保留的主成分進(jìn)一步分析,得出主成分的參數(shù)估計(jì)值.
表1 主成分分析結(jié)果
表2 原自變量主成分載荷矩陣
對(duì)保留的主成分進(jìn)行參數(shù)估計(jì),可得出如下關(guān)系:
通過前邊的數(shù)學(xué)推導(dǎo)可知保留的主成分是原自變量的線性組合,載荷矩陣計(jì)算結(jié)果見表2,最后計(jì)算的結(jié)果為
通過計(jì)算可知自變量之間存在復(fù)共線性,主成分估計(jì)得出的結(jié)果與實(shí)際更為貼切,如果不進(jìn)行主成分分析,必然會(huì)帶來很大的計(jì)算誤差,因而主成分估計(jì)在實(shí)際應(yīng)用當(dāng)中具有非常重要的作用,而且不僅僅只限于傳統(tǒng)的經(jīng)典線性模型.
當(dāng)自變量中出現(xiàn)復(fù)共線性關(guān)系時(shí),廣義線性模型的主成分估計(jì)的均方誤差比最大似然估計(jì)小,在理論上說明了其優(yōu)于最大似然估計(jì).文中列舉的例子同樣也說明了,自變量出現(xiàn)了復(fù)共線性,如果忽略這個(gè)因素直接建模的話,必然使最后計(jì)算出來的系數(shù)無法解釋每個(gè)變量確切的關(guān)系,因而主成分估計(jì)是廣義線性模型中消除自變量復(fù)共線性關(guān)系的很好的方法.
[1]梅長林,王寧.近代回歸分析方法[M].北京:科學(xué)出版社,2012.
[2]王松桂,陳敏,陳立萍.線性統(tǒng)計(jì)模型:線性回歸與方差分析[M].北京:高等教育出版社,1999.
[3]何曉群,劉文卿.應(yīng)用回歸分析[M].北京:中國人民大學(xué)出版社,2001.
[4]McCullagh P,Nelder J A.Generalized Linear Models[M].Library of congress card numberm,1999:99–13896.
[5]Marx BD.Principal component estimation for generalized linear regression[J].Biometrika,1990,77(1):23–31.
[6]Wedderburn R W M.On the existence and uniqueness of the maximum likelihood estimates for certain generalized linear models[J].Biometrika,1976,63(1):27-32.
[7]Fahrmeir L,Kaufmann H.Consistency and asymptotic normality of the maximum likelihood estimator in generalized linear models[J].Ann Statist,1985,13:342-368.
[8]國家統(tǒng)計(jì)局.中國統(tǒng)計(jì)年鑒-2006[G].北京:中國統(tǒng)計(jì)出版社,2006.
[9]薛毅,陳立萍.統(tǒng)計(jì)建模與R軟件[M].北京:清華大學(xué)出版社,2007.