孫嘉聰 王飛 沈丹
【摘要】主成分回歸是在確保丟失的有用信息最少的情況下,將多數(shù)原始變量轉(zhuǎn)化成幾個(gè)少數(shù)綜合變量的一種降維回歸方法.主成分回歸能夠很好地解決當(dāng)樣本數(shù)據(jù)存在一定程度的重復(fù)性并且在高維的空間中做分析時(shí)比較復(fù)雜的問(wèn)題.它是一次對(duì)回歸自變量重新選擇的過(guò)程.
【關(guān)鍵詞】主成分回歸;主成分分析;特征值;貢獻(xiàn)率
一、主成分回歸的含義
主成分回歸是根據(jù)降維的思想通過(guò)線性變換,將樣本中的多個(gè)指標(biāo)組合成少數(shù)幾個(gè)相互獨(dú)立的并且能充分反映總體信息的指標(biāo),在不丟掉重要信息的條件下避開(kāi)了變量間的共線性問(wèn)題,進(jìn)而分析.
二、主成分回歸的基本步驟
首先利用主成分分析得到自變量的主成分矩陣和各個(gè)主成分累計(jì)方差的百分比;其次根據(jù)累計(jì)方差的百分比大于百分之八十的原則,得到新的回歸方程,再?gòu)牡玫降男碌闹鞒煞只貧w方程中選出最佳標(biāo)準(zhǔn)化主成分回歸方程;最后對(duì)最佳標(biāo)準(zhǔn)化方程中新的自變量、因變量做最小二乘估計(jì)轉(zhuǎn)換成一般線性回歸方程.
三、相關(guān)定義
樣本數(shù)據(jù)標(biāo)準(zhǔn)化后,其相關(guān)陣的特征值為λ1≥λ2≥…≥λp≥0,φ1,φ2,…,φp為對(duì)應(yīng)的單位正交特征向量,Var(Ri)=λi,i=1,…,p且Var(R1)≥Var(R2)≥…≥Var(Rp).
貢獻(xiàn)率:λl∑pi=1λi為主成分Zl的貢獻(xiàn)率.
累計(jì)貢獻(xiàn)率:∑qk=1λk∑mi=1λi為主成分Z1,Z2,…,Zq(q 均方誤差:MSE()=E(-θ)T(-θ)=E‖-θ‖2,其中為θ的一個(gè)估計(jì). 四、實(shí)際應(yīng)用 對(duì)全國(guó)28個(gè)省市自治區(qū)經(jīng)濟(jì)發(fā)展基本情況八項(xiàng)指標(biāo)做主成分分析,數(shù)據(jù)如下: 求R的特征值及各特征值的貢獻(xiàn)率 如圖1所示前三個(gè)特征值累計(jì)貢獻(xiàn)率已達(dá)89.5%,則前3個(gè)主成分基本包含了全部指標(biāo)具有的信息,所以我們?nèi)∏叭齻€(gè)特征值,并計(jì)算出相應(yīng)的特征向量. α1=(0.4706410.4567080.424712-0.31944 0.3127290.2508020.240481-0.26267)T α2=(0.1079950.2585120.2875360.400931 -0.404310.498801-0.488680.167392)T α3=(0.192410.1098190.192410.397525 0.24505-0.247770.3321790.723351)T 即前三個(gè)主成分分別為: F1=0.470641X1+0.456708X2+0.424712X3-0.31944X4+0.312729X5+0.250802X6+0.240481X7-0.26267X8 F2=0.107995X1+0.258512X2+0.287536X3+0.400931X4-0.40431X5+0.498801X6-0.48868X7+0.167392X8 F3=0.19241X1+0.109819X2+0.19241X3+0.397525X4+0.24505X5-0.24777X6+0.332179X7+0.723351X8 從第一個(gè)主成分表達(dá)式中可得知,前三項(xiàng)指標(biāo)的系數(shù)比較大,起主要作用;我們可以把第一個(gè)主成分看成是前三項(xiàng)指標(biāo)(GDP、居民消費(fèi)水平、固定資本投資)反映經(jīng)濟(jì)發(fā)展?fàn)顩r的綜合指標(biāo). 從第二個(gè)主成分表達(dá)式中可得知,第四、五、六、七項(xiàng)指標(biāo)系數(shù)比較大,且第六、七項(xiàng)指標(biāo)的影響尤其大,則將其看成四、五、六、七項(xiàng)(職工平均工資、貨物周轉(zhuǎn)量、居民消費(fèi)價(jià)格指數(shù)和商品零售價(jià)值指數(shù))的綜合指標(biāo). 從第三個(gè)主成分表達(dá)式中可得知,第八項(xiàng)的指數(shù)影響最大,遠(yuǎn)超過(guò)對(duì)其他指標(biāo)的影響,則可單獨(dú)看成是工業(yè)總產(chǎn)值的影響. 由以上分析可知,主成分回歸的主要目的是要提取隱藏在矩陣X中的相關(guān)信息,然后用于預(yù)測(cè)變量Y的值.這種做法可以保證讓我們只使用那些獨(dú)立變量,從而達(dá)到改善預(yù)測(cè)模型質(zhì)量的目的.由于主成分之間的互不相關(guān)的性質(zhì),因此它們攜帶的最初變量的信息是沒(méi)有重復(fù)的,起到相互補(bǔ)充的作用.主成分回歸在解決實(shí)際問(wèn)題上是非常重要的. 【參考文獻(xiàn)】 [1]王松桂.主成分的最優(yōu)性與廣義主成分估計(jì)類[J].應(yīng)用概率統(tǒng)計(jì),1985(01):27-34. [2]童恒慶.線性回歸模型及計(jì)算[M].安徽教育出版社,1987. [3]王松桂等.主成分的最優(yōu)性質(zhì)[J].科學(xué)通報(bào),1984(08):449. [4]楊維權(quán).多元統(tǒng)計(jì)分析[M].北京:高等教育出版社,1989.