毛寧 李益禛
摘要:隨著城市化的進程,空氣污染問題越來越嚴重。針對全國31個主要城市的空氣質量問題,基于主成分分析方法,借助R軟件,利用全國主要城市的空氣質量環(huán)境影響因素數(shù)據(jù)進行主成分分析,得出影響空氣質量的主要因素。
關鍵詞:主成分分析;空氣質量;R軟件
中圖分類號:F2
文獻標識碼:A
文章編號:1672—3198(2014)10—0049—02
1引言
隨著城市化進程的不斷推進,近年來,全國各大城市均頻頻出現(xiàn)“霧霾”天氣,空氣質量問題愈發(fā)嚴重。而影響空氣質量的因素又是復雜的,只有找到最主要的因素,才可以較好的解決空氣質量問題。隨著多元統(tǒng)計分析的普及和應用,主成分分析法(PCA)已成為一種新興的評價方法,在環(huán)境質量綜合評價方面應用廣泛。主成分分析(Principle Component Analysis,簡稱PCA)方法是一種把原來多個指標化為少數(shù)幾個互不相關的綜合指標的多元統(tǒng)計方法,可以達到數(shù)據(jù)化簡、揭示變量之間關系和進行統(tǒng)計解釋的目的。在實際應用中主要用來對數(shù)據(jù)集的屬性去進行相關分析和降維。而其實判定一個區(qū)域的空氣質量需考慮的因素十分復雜,進行主成分分析需要抓住其各因素之間的內在關系,尋找影響環(huán)境質量的最大因素。
2主成分分析方法
2.1基本原理
主成分分析方法是建立一種從高維空間到低維空間的映射,即把多個指標轉化為少數(shù)幾個綜合指標的一種統(tǒng)計分析方法,其目的是在保證信息損失量最小的前提下,盡可能提取問題的主要方面,從而對多變量數(shù)據(jù)進行最佳綜合簡化。通常數(shù)學上的處理就是將原來m個指標作線性組合,得到一個新的綜合指標。選取第一個線性組合Y1(即第一個綜合指標)的方差來表示含有信息的多少,若Y1越大,則表示Y1包含的信息量就越多。如果在所有的線性組合中選取的Y1方差最大,則稱Y1為第一主成分,其方差在總方差中所占比率稱之為解釋方差,其方差越大,它的貢獻越大,其代表原始數(shù)據(jù)的能力就愈強。如果第一主成分不足以代表原來m個指標的信息,再考慮選取第2個線性組合Y2,與Y1共同反映原始信息,通常當前n個主成分的方差占總方差的85%以上即可認為這n個主成分能代表該數(shù)據(jù)的大部分信息。
2.2方法步驟
2.2.1數(shù)據(jù)標準化
為了排除數(shù)量級和量綱不同帶來的影響,首先對原始數(shù)據(jù)進行標準化處理。設p維隨機向量x=(x1,x2,…,xp)T,n個樣品xi=(xi1,xi2,…,xip)T,i=1,2,…,n,n>p,構造樣本陣,對樣本陣元素進行如下標準化變換:
Zij=Xij-jSj,i=1,2,…p
其中xj=ni=1xijn,
sj2=ni=1(Xij-Xj)2n-1,
得標準化樣本陣Z=(Zij)。
2.2.2相關系數(shù)矩陣計算
R=
r11r12…r1p
r21r22…r2p
rp1rp2…rpp
=
ZTZn-1
其中rij=nk=1(xki-i)(xkj-j)
nk=1(xki-i)2
nk=1(xkj-j)2
,i,j=1,2,…,p為相關系數(shù)。
2.2.3特征值和特征向量計算
解特征方程|λI-R|=0,常用雅可比法(Jacobi)求出特征值,并使其按大小順序排列λ1≥λ2≥…≥λp≥0。
分別求出對應于特征值λi的特征向量ei(i=1,2,…,p),要求‖ei‖=1,即
pj=1e2ij=1,其中eij表示向量ei的第j個分量。
計算主成分貢獻率及累計貢獻率:
貢獻率:累計貢獻率:
λipk=1λk(i=1,2,…,p)
ik=1λk
pk=1λk
(i=1,2,…,p)
一般取累計貢獻率達85%~95%的特征值λ1,λ2,…,λm,所對應的第1、第2、…、第m(m≤p)個主成分。
計算主成分載荷:
lij=p(zi,xj)=λieij(i,j=1,2,…,p)
各主成分的得分:
Z=
z11z12…z1m
z21z22…z2m
zn1zn2…znm
3實驗分析
3.1實驗數(shù)據(jù)介紹
實驗分析選取了2009年北京、天津、石家莊、長春、哈爾濱、太原和銀川等31個中國主要城市的空氣質量指標數(shù)據(jù),其中包括的污染因子為二氧化硫、二氧化氮、可吸入顆粒物三個變量(單位:毫克/立方米),應用上述主成分分析方法,借助R軟件按上述的步驟進行計算。
3.2實驗流程
(1)首先計算三種指標的相關系數(shù)矩陣,運用R軟件中的cor(x)語句,計算結果如下:
3.3實驗結果分析
從表4可以看出,第一主成分Z1的貢獻率最大為6184%,3個變量系數(shù)均為負,可以得出第一主成分與X1、X2均有較強的負相關。從第一主成分的特征向量構成特征來看,X1、X2即可吸入顆粒物和SO2在整個空氣質量中占有較重的地位。所以說,造成空氣質量較差的原因中可吸入顆粒物和SO2占據(jù)主要地位,NO2相對較少。第一主成分中,X1、X2的系數(shù)都很大,且相差不多,X3雖相比較少,但基本相當。第二主成分中,X3系數(shù)最大,它主要反應了NO2的影響。第三主成分中,X1、X2的系數(shù)都很大,X3的系數(shù)很小,基本上沒有反應NO2的影響。從因子載荷矩陣可以看出第一主成分和第二主成分可以包含空氣質量的全部,從累計貢獻率中也可以看出前兩個全局主成分的累計貢獻率為86.61%,它基本上概括了環(huán)境空氣質量污染的絕大部分信息。環(huán)境空氣質量污染的主要因素依次為可吸入顆粒物、SO2、NO2。這說明環(huán)境空氣質量污染主要還是煤燃燒、工業(yè)排放的廢氣、粉塵等、生活排放的煙塵、機動車尾氣等,所以還是要加大對這方面的檢測和治理工作。
4結論
針對全國空氣質量問題,本文介紹了一種主成分分析的方法,利用R軟件對2009年的我國31個主要城市的空氣質量進行試驗,解決了空氣質量評價需參考因素復雜問題。得出空氣質量污染主要來自于可吸入顆粒物和SO2的結論,可以為控制大氣污染提供支持。
在進行實驗時,利用了R語言在主成分分析中的思路清晰、步驟簡單且可以直接得出載荷系數(shù)的優(yōu)點。應用主成分分析法,經相關變換,可以用少量綜合變量取代原有的多維變量,使數(shù)據(jù)結構得到簡化,并能從整體上對區(qū)域環(huán)境質量進行把握,與實際擬合度較好,因而是環(huán)境質量綜合評價中一種簡單易行的有效方法??梢詫崿F(xiàn)將多個影響因素進行處理,集中到少量的具有重要影響的因素來進行分析。但是需要結合很多的相關知識,以實現(xiàn)全面的問題分析,且不同的分析方法有不同的特點,分析的結果只能做為參考。且本文應用主成分分析方法在此只是進行了一年的數(shù)據(jù)分析,如果要進行多年的空氣質量對比評價和建立評價模型或預測模型,需要建立更優(yōu)化的算法,但由于個人能力有限,只是實現(xiàn)了最基本平面意義上的分析。其實主成分分析在我們的進行很多項的復雜問題時提取重要信息有很大的貢獻,尤其可以使原本具有復雜變量的問題簡單化。尤其是在當今這樣的大數(shù)據(jù)時代,用最少的變量去包含盡可能多的信息必成為大勢所趨,所以主成分分析在綜合分析中將會應用的越來越多,因此對算法的優(yōu)化又成為首要的任務。
參考文獻
[1]馮利華.環(huán)境質量的主成分分析[J].數(shù)學的實踐與認識,2003.
[2]賈文利.北京市能源需求影響因素的主成分分析[J].城市探索,2011,(08).
[3]蘇木亞.基于主成分分析的單變量時間序列聚類方法[J].運籌與管理,2011.
[4]李潔美.遼寧省水資源承載力研究[D].遼寧師范大學,2007.
[5]李玉珍,王玉懷.主成分分析及算法[J].蘇州大學學報:自然科學版,2005.
[6]國家統(tǒng)計局.中國統(tǒng)計年鑒[M].北京:中國統(tǒng)計出版社,2010.
[7]商博.基于PCA的區(qū)域環(huán)境質量綜合評價及應用實例研究[J].中國環(huán)境監(jiān)測,2013.
[8]王丹.主成分分析法在大氣環(huán)境質量評價中的應用[J].平頂山學院學報,2011.
[9]顧斌.地理信息系統(tǒng)及其應用[J].應用科技,2010.