谷偉偉
(中國礦業(yè)大學(xué)理學(xué)院,江蘇 徐州 221116)
基于改進(jìn)的核主成分法的應(yīng)用
谷偉偉
(中國礦業(yè)大學(xué)理學(xué)院,江蘇 徐州 221116)
通過計(jì)算機(jī)調(diào)試給出了一個合理的核參數(shù),從而建立了一個核主成分模型.然后用核主成分法對2010年江蘇省13個市的居民生活水平進(jìn)行分析,并和主成分分析結(jié)果作了對比,發(fā)現(xiàn)改進(jìn)后的核主成法分析的結(jié)果更加合理.最后對江蘇未來居民生活水平的改善提出了一些合理的建議,供有關(guān)部門參考.
主成分分析;核主成分分析;SPSS;MATLAB
主成分分析已廣泛地應(yīng)用于各個領(lǐng)域.文獻(xiàn)[1-2]給出了主成分法在人臉識別中的應(yīng)用.但主成分分析也有自身的局限,有時(shí)候數(shù)據(jù)間的相關(guān)性不是很強(qiáng),這時(shí)變量間就呈現(xiàn)出非線性的關(guān)系.核主成分分析是主成分分析的推廣,它能處理一些非線性問題.文獻(xiàn)[3]給出了相關(guān)結(jié)論的證明.文獻(xiàn)[4-9]給出了核主成分分析在不同領(lǐng)域中的應(yīng)用.本文在上述文獻(xiàn)的基礎(chǔ)上,通過MATLAB調(diào)試出了一個合理的參數(shù)(許多文獻(xiàn)是憑經(jīng)驗(yàn)給定參數(shù)),并分析了原因,最后給出一種簡便算法,進(jìn)而算出得分.之后和主成分分析結(jié)果相對比,發(fā)現(xiàn)核主成分分析的結(jié)果較好,提高了綜合評價(jià)的合理性.
1.1 主成分模型
設(shè)原始樣本為x1,x2,…,xn.xk∈Rp,k=1,2,…,n(即p個變量,n個樣本).對數(shù)據(jù)進(jìn)行中心化后的協(xié)方差陣為因?yàn)镃是實(shí)對稱矩陣,所以它必可正交對角化.
設(shè)λ1,λ2,…,λr,0,…,0為C的p個特征值,不失一般性λ1≥λ2≥…≥λr>0.C的正交標(biāo)準(zhǔn)化特征向量構(gòu)成的矩陣為L=(l1,l2,…,lp).即有
1.2 核主成分模型
作一個映射?,?: Rp→F,進(jìn)而空間F中的樣本為φ(x1),φ(x2),…,φ(xn),則中心化后的協(xié)方差陣為
(1)(2)都要求λ≠0,不同點(diǎn)是(2)式中K的特征值一定不為0,而(1)式則不能說明K的特征值一定不為0,但我們感興趣的是K的特征值不為0的情況.
其中u=αnormal.
由文獻(xiàn)[3]知樣本主成分是樣本和特征向量的內(nèi)積,或是樣本在正交標(biāo)準(zhǔn)化特征向量上的投影.利用這個思想,我們算出F空間中的樣本主成分,即用F中的樣本和標(biāo)準(zhǔn)化特征向量v作內(nèi)積.
不難證明:這里的ti即為K的第i個特征向量乘上對應(yīng)的nλi.由于?是未知的,因此(xi),?(x)>不好求,這里用多項(xiàng)式核函數(shù)來代替內(nèi)積.
經(jīng)過MATLAB一系列調(diào)試,發(fā)現(xiàn):當(dāng)d=1,2,…8時(shí),K的方差貢獻(xiàn)率都不到90%;當(dāng)d=9時(shí),貢獻(xiàn)率為93.5%;當(dāng)d>9時(shí),尤其是當(dāng)d取較大的數(shù)時(shí),雖然第一特征值的方差貢獻(xiàn)率非常大,但是最大特征根所對應(yīng)的特征向量中的分量會趨于相同,無法進(jìn)行樣本的比較.
原因分析:隨著d取值的增大,矩陣K中的元素會很快變大,而MATLAB中的數(shù)據(jù)是以科學(xué)計(jì)數(shù)法的形式呈現(xiàn)的.在矩陣K中,n×n個元素是差別很大的,如果它們都除以最大元素的數(shù)量級,那么有的較小的元素會變?yōu)?.000 0(不為0).這樣的話,K中的很多正特征根會不斷變?yōu)?.000 0,就容易出現(xiàn)K中的某些行元素會趨于相同,從而導(dǎo)致特征向量中的大部分分量相同而無法比較.
本文選取的數(shù)據(jù)直接來自《江蘇省統(tǒng)計(jì)年鑒2011》中7個反映居民生活水平的指標(biāo),具體指標(biāo)如下:
x1:城鎮(zhèn)居民人均可支配收入(元);x2:農(nóng)村人均純收入(元);x3:年末居民儲蓄存款余額(萬元);x4:城鎮(zhèn)居民人均居住面積(平方米);x5:農(nóng)村居民人均居住面積(平方米);x6:城鎮(zhèn)居民恩格爾系數(shù)(%);x7:農(nóng)村居民恩格爾系數(shù)(%).
恩格爾系數(shù)表示食物支出占總消費(fèi)之比,它越大表明越不富裕,因此x6和x7是負(fù)向化指標(biāo),所以應(yīng)該將它們正向化,即在原始的x6和x7上同時(shí)乘以-1.為了消除量綱的影響,我們對原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,標(biāo)準(zhǔn)化后的變量記為ZX1—ZX7(見表1).
經(jīng)過SPSS計(jì)算,KMO值為0.63,說明不太適合進(jìn)行主成分分析.非零特征根為4.629,1.366,第一方差貢獻(xiàn)率為66.123%,且方差累計(jì)貢獻(xiàn)率僅為85.635%(圖表略),因此這兒要取2個主成分.
下面用核主成分法分析.采用核函數(shù)kij=[
一般情況下?(x1),?(x2),…,?(xn)不一定是中心化的,可以做個變換其中B是一個n×n矩陣,元素都是,具體見文獻(xiàn)[10].下面算法中的T和K分別表示上文的K和.
MATLAB中的具體算法是
K的非零特征值為1.881 3,0.118 3,0.005 4,0.003 6,0.002 0,0.001 5,0.000 4,0.000 2,第一特征貢獻(xiàn)率就達(dá)到93.5%,因此這里只要取第一主成分即可.
將以上兩種方法的計(jì)算結(jié)果放在一起對比分析,見表2.
表1 標(biāo)準(zhǔn)化后的數(shù)據(jù)
表2 兩種方法的結(jié)果對比
CLU5表示用聚類方法將樣本分為5類. CLU5_1是主成分法分類的結(jié)果;CLU5_2是用核主成分法分類的結(jié)果.
在CLU5_1中:南京、徐州、淮安、鹽城分在一起是不妥的,因?yàn)槟暇┦鞘?,位于蘇南,而徐州、淮安、鹽城都是蘇北的城市.南京的綜合發(fā)展實(shí)力遠(yuǎn)遠(yuǎn)超過徐、淮、鹽;鎮(zhèn)江沒有什么突出的地方,不應(yīng)該單獨(dú)為一類,相反,蘇州經(jīng)濟(jì)發(fā)展強(qiáng)勢,更應(yīng)脫穎而出.綜上,CLU5_1分類的結(jié)果不太合理.
在CLU5_2中:蘇州單獨(dú)一類,蘇州經(jīng)濟(jì)發(fā)展一直較快,在各個方面都有一定的優(yōu)勢;南京、無錫、常州分為一類,但這類在x4上的得分不高,尤其是南京最低,因此要合理控制好房價(jià),改善人民的居住條件;南通、徐州、鹽城、揚(yáng)州、泰州分為一類,其中因?yàn)樾熘萑丝谳^多,所以徐州在x4和x5上得分較低,因此政府應(yīng)該努力提供保障性住房;淮安、鎮(zhèn)江分為一類,其中蘇南的鎮(zhèn)江得分最低,主要原因是恩格爾系數(shù)過高,導(dǎo)致鎮(zhèn)江在x6和x7上的得分較低,因?yàn)殒?zhèn)江人舍得在食品上面消費(fèi).因此,今后政府可以鼓勵百姓在其他方面增加消費(fèi),如精神上的消費(fèi);連云港、宿遷分為一類,這一類在x1,x2,x3上得分都比較低,因此要大力發(fā)展經(jīng)濟(jì),切實(shí)提高人民的收入水平.對整個江蘇省而言,政府應(yīng)該在各個方面加大對蘇北的投入,增加人民收入,因?yàn)闆]有蘇北的騰飛,就沒有整個江蘇的騰飛.
之所以出現(xiàn)CLU5_1不合理的現(xiàn)象,是因?yàn)橛肧PSS做主成分分析時(shí),由于變量間的相關(guān)系數(shù)不大,導(dǎo)致KMO值較小,另外,提出的兩個主成分一共才包含了原始數(shù)據(jù)的85.6%的信息,而核主成分提出的第一主成分所含的信息就達(dá)93.5%.
最后應(yīng)該指明,并不是主成分分析處理的結(jié)果都不理想,這要依據(jù)具體的數(shù)據(jù)而定,主成分分析處理時(shí)要求KMO值盡可能大,數(shù)據(jù)間有較強(qiáng)的相關(guān)性,而核主成分分析比較適合處理非線性的數(shù)據(jù).
[1]RAJKIRAN G,VIJAYAN K A.An improved face recognition technique based on modular PCA approach[J].Pattern Recognition Lett,2004,25(4):429-436.
[2]YANG J,ZHANG D.Two-dimensional PCA:A new approach to appearance-based face representation and recognition[J].IEEE Trans Pattern Anal Machine Intell,2004,26(1):131-137.
[3]谷偉偉,王蘭,蘆凌飛.核主成分法的應(yīng)用[J].常熟理工學(xué)院學(xué)報(bào),2013,27(4):20-23.
[4]徐義田,王來生.核主成分分析在企業(yè)經(jīng)濟(jì)效益評價(jià)中的應(yīng)用[J].數(shù)學(xué)的實(shí)踐與認(rèn)識,2006,36(1):35-38.
[5]楊道軍.核主成分分析法在生態(tài)經(jīng)濟(jì)可持續(xù)發(fā)展評價(jià)中的應(yīng)用[J].環(huán)境科學(xué)與技術(shù),2007,30(12):91-93.
[6]李明月,任九泉.基于核主成分分析和加權(quán)聚類分析的綜合評價(jià)方法[J].統(tǒng)計(jì)與決策,2010,16:158-160.
[7]肖慧,劉蘇東,黃小燕,等.基于核主成分的神經(jīng)網(wǎng)絡(luò)集合預(yù)報(bào)建模研究[J].計(jì)算機(jī)仿真,2010,27(12):163-166,380.
[8]陳祥濤,張前進(jìn).基于核主成分分析的步態(tài)識別方法[J].計(jì)算機(jī)應(yīng)用,2011,31(5):1237-1241.
[9]程艷秋,遲國泰.基于核主成分分析的生態(tài)評價(jià)模型及其應(yīng)用研究[J].中國管理科學(xué),2011,19(3):182-190.
[10]BERNHARD S,SMOLA A,MüLLER K R.Nonlinear Component Analysis as a Kernel Eigenvalue Problem[J].Neural Computation,1998,10(5):1299-1319.
The Application of Improved Kernel Principal Component Analysis
GU Weiwei
(School of Sciences,China University of Mining and Technology,Xuzhou 221116,China)
This paper selects a proper parameter of kernel function by using computer testing and tries to make a study of the 13 cities of Jiangsu Province in 2010 by building a KPCA model.And it can be found that,compared with that of PCA,the result of KPCA is more reasonable.Besides,by dealing with the underlying causes, some useful suggestions are put forward to improve the living standards of the residents of Jiangsu province, which,at the same time,can be used as a reference for some departments.
principal component analysis;kernel principal component analysis;SPSS;MATLAB
O212.4
A
1008-2794(2017)02-0089-04
2015-06-10
谷偉偉,碩士,研究方向:多元統(tǒng)計(jì),E-mail:864037364@qq.com.