金文彪 姚永杰 金哲植
摘 要 為更好地反映長(zhǎng)春市大氣環(huán)境狀況,以長(zhǎng)春市2014年P(guān)M2.5監(jiān)測(cè)數(shù)據(jù)作為主要指標(biāo)進(jìn)行研究分析。借助SAS統(tǒng)計(jì)分析軟件,采取線性插值法對(duì)樣本數(shù)據(jù)缺失值進(jìn)行補(bǔ)插。鑒于各指標(biāo)變量之間具有強(qiáng)相關(guān)性及異方差現(xiàn)象,不滿(mǎn)足一般多元線性回歸基本假設(shè)條件,應(yīng)用極大似然法對(duì)樣本數(shù)據(jù)進(jìn)行Box-Cox非線性變換,并基于主成分分析理論建立回歸模型,成功地消除了以上弊端。檢驗(yàn)預(yù)測(cè)證明模型能夠用以預(yù)測(cè)分析長(zhǎng)春市未來(lái)大氣環(huán)境狀況.
關(guān)鍵詞 PM2.5 線性插值 Box-Cox變換 主成分分析 預(yù)測(cè)分析
中圖分類(lèi)號(hào):X823 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.16400/j.cnki.kjdkz.2016.11.071
0 引言
從長(zhǎng)春市2014年10、11、12月份月平均PM2.5濃度以及優(yōu)良級(jí)天數(shù)監(jiān)測(cè)結(jié)果(數(shù)據(jù)來(lái)自吉林省環(huán)境保護(hù)廳)可以看出:這三個(gè)月長(zhǎng)春市優(yōu)良級(jí)天數(shù)比例均小于50.0%,幾乎整個(gè)冬季都處于連續(xù)污染狀態(tài),霧霾問(wèn)題嚴(yán)重,再加上嚴(yán)寒的天氣,使得市民易于感染呼吸道疾病,甚至加重比如敏感、哮喘病等類(lèi)患者的病情。因此準(zhǔn)確預(yù)測(cè)并及時(shí)公布大氣環(huán)境狀況變得越來(lái)越重要。
近年來(lái),專(zhuān)家學(xué)者開(kāi)展了一些相關(guān)的研究工作。劉小生等①提出了一種基于基因表達(dá)式編程的PM2.5濃度預(yù)測(cè)研究;彭斯俊等②提出了一種基于ARIMA模型的PM2.5預(yù)測(cè)模型;陳俏等③提出了一種基于支持向量機(jī)和回歸法的大氣污染物濃度預(yù)測(cè)模型。這些文獻(xiàn)通過(guò)研究個(gè)別因素對(duì)大氣環(huán)境狀況提出了預(yù)測(cè)方法,但是氣象因素對(duì)PM2.5的影響是十分復(fù)雜的,實(shí)際情況中往往是不同氣象因素相互影響的結(jié)果。尤其是ARIMA模型只突出了時(shí)間因素在預(yù)測(cè)中的作用,沒(méi)有考慮到外界具體因素的影響,因而存在著預(yù)測(cè)誤差的缺陷,當(dāng)遇到外界發(fā)生較大變化往往會(huì)有較大偏差。
本文旨在用與PM2.5濃度相關(guān)性強(qiáng)的因素,綜合考慮PM10、CO、NO2、SO2四項(xiàng)指標(biāo)對(duì)PM2.5濃度的影響,并基于主成分分析理論提取幾個(gè)互不相關(guān)的主成分進(jìn)行回歸分析,最終得到準(zhǔn)確度較高的大氣環(huán)境預(yù)測(cè)模型。
1 材料與方法
1.1 數(shù)據(jù)預(yù)處理
1.1.1 補(bǔ)充缺失數(shù)據(jù)
本文數(shù)據(jù)來(lái)自天氣后報(bào)網(wǎng),共研究PM2.5、PM10、CO、NO2、SO2五項(xiàng)指標(biāo),個(gè)別日期(共4天)的數(shù)據(jù)缺失。這時(shí),我們使用SAS統(tǒng)計(jì)分析軟件,運(yùn)用插值法補(bǔ)全缺失值。
1.1.2 Box-Cox非線性變換④⑤
將原始數(shù)據(jù)中PM2.5、PM10、CO、NO2、SO2等因子依次記為、、、、,因事先由散點(diǎn)圖分析可得,PM2.5與PM10、CO具有良好的線性關(guān)系,考慮到變換的簡(jiǎn)便性最終選定對(duì)PM2.5、PM10和CO做變換€%d的值為0,記變換后的PM2.5、PM10和CO為、和;對(duì)NO2和SO2進(jìn)行Box-Cox變換的過(guò)程中,最優(yōu)€%d的取值是依據(jù)最大似然估計(jì)的方法原理來(lái)確定,由SAS統(tǒng)計(jì)軟件計(jì)算得到,最終選擇NO2和SO2的最優(yōu)€%d值依次為0.5、0,經(jīng)過(guò)Box-Cox變換后的NO2和SO2依次用下列符號(hào)標(biāo)記:和。
1.2 主成分分析原理
主成分分析⑥是將多指標(biāo)化為少數(shù)幾個(gè)綜合指標(biāo)的一種統(tǒng)計(jì)分析方法。這些主成分能夠反映原始變量的絕大部分信息,它們通常表示為原始變量的線性組合,且各個(gè)主成分之間互不相關(guān)。這樣在研究復(fù)雜問(wèn)題時(shí)就可以只考慮少數(shù)幾個(gè)主成分且不止于損失太多信息,從而更容易抓住主要矛盾,解釋事物內(nèi)部變量之間的規(guī)律性,同時(shí)使問(wèn)題得以簡(jiǎn)化,提高分析效率。
2 結(jié)果
2.1 主成分分析
本過(guò)程主要通過(guò)SAS軟件⑦實(shí)現(xiàn),詳細(xì)程序參照附件。輸出結(jié)果(表1)給出了各變量之間的相關(guān)系數(shù)矩陣??梢钥闯觯号c之間的相關(guān)系數(shù)為0.8341,呈現(xiàn)非常強(qiáng)的相關(guān)性;
與,與之間的相關(guān)系數(shù)均為0.6800以上,有較強(qiáng)的相關(guān)性,其他變量之間相關(guān)性則相對(duì)較弱。不滿(mǎn)足多元線性回歸的基本假定條件,這也是本文選擇主成分回歸的主要原因之一。
輸出結(jié)果(表2)給出了相關(guān)系數(shù)矩陣的特征值、上下特征值之差、各主成分的方差貢獻(xiàn)率以及累計(jì)貢獻(xiàn)率??梢钥闯觯谝恢鞒煞值姆讲钬暙I(xiàn)率為71.34%,前兩個(gè)主成分的累計(jì)貢獻(xiàn)率已達(dá)87.69%,因此,只需前面兩個(gè)主成分就可以概括這組數(shù)據(jù)。根據(jù)相關(guān)系數(shù)矩陣的各個(gè)特征值的特征向量,可以寫(xiě)出前三個(gè)主成分得分:
2.2 主成分回歸
現(xiàn)在用對(duì)前兩個(gè)主成分和做普通最小二乘回歸,得到主成分回歸方程為:
=3.93932+0.36567€Ha0.01363 (3)
但是斜率的t檢驗(yàn)p值0.4123>0.05,未通過(guò)顯著性檢驗(yàn),即認(rèn)為與之間的線性回歸關(guān)系不顯著,需對(duì)模型進(jìn)一步的調(diào)整。
經(jīng)過(guò)多次對(duì)u和主成分、、之間進(jìn)行不同模型模擬對(duì)比分析,最終采用逐步回歸法選取與、做最小二乘回歸,輸出結(jié)果如表3。雖然信息量從原來(lái)的87.69%降到了79.78%,但截距和斜率的t檢驗(yàn)p值<0.0001,有顯著的線性關(guān)系。最終得到主成分回歸方程:
為了得到和、、、之間的關(guān)系,運(yùn)用R軟件⑧編寫(xiě)計(jì)算系數(shù)的函數(shù)代碼作變換,得到還原后的主成分回歸方程為:
3 結(jié)果分析
3.1 殘差分析
回歸方程通過(guò)了t檢驗(yàn),只是表明變量之間的線性關(guān)系是顯著的,但不能保證數(shù)據(jù)擬合得很好,也不能排除由于意外原因而導(dǎo)致的數(shù)據(jù)不完全可靠,比如異常值出現(xiàn)、周期性因素干擾等。借助SAS統(tǒng)計(jì)分析軟件以回歸預(yù)測(cè)值作橫軸,以殘差 =€Ha作縱軸,將相應(yīng)的殘差點(diǎn)畫(huà)在直角坐標(biāo)系上,得到殘差圖如圖1。
從殘差圖上看出,殘差是圍繞隨機(jī)波動(dòng)的,表明模型中不存在異方差、相關(guān)性問(wèn)題,模型的基本假定是滿(mǎn)足的。
3.2 預(yù)測(cè)
為了更好地反映模型的擬合效果,我們對(duì)2015年1月2日到3月27日的PM2.5進(jìn)行預(yù)測(cè),并與實(shí)際值對(duì)比。預(yù)測(cè)曲線圖如圖2,除了少數(shù)幾天PM2.5預(yù)測(cè)值偏差較大外,其它模擬效果比較樂(lè)觀,而且相對(duì)誤差相對(duì)較小,很大程度上接近了PM2.5的實(shí)際觀測(cè)值。進(jìn)一步地證明該模型能夠較準(zhǔn)確地預(yù)測(cè)未來(lái)短期的PM2.5趨勢(shì)和水平。
4 結(jié)論
本文利用長(zhǎng)春市2014年空氣質(zhì)量歷史數(shù)據(jù),基于主成分分析理論建立了大氣環(huán)境預(yù)測(cè)模型,并預(yù)測(cè)2015年1月至3月的污染物PM2.5濃度,通過(guò)將其與實(shí)際值檢測(cè)值進(jìn)行對(duì)比分析,表明運(yùn)用此模型在PM10、CO、NO2、SO2各項(xiàng)指標(biāo)已知的情況下,能夠?qū)M2.5進(jìn)行準(zhǔn)確性預(yù)測(cè)。
模型的判定系數(shù)和修正分別為0.9225和0.9221,均方殘差平方根為0.1866。這說(shuō)明回歸方程的擬合效果非常好,能夠很好地反映并及時(shí)公開(kāi)大氣環(huán)境狀況,讓公眾更加精確地感知到本地空氣質(zhì)量的真實(shí)情況,還可以有的放矢地治理大氣污染,通過(guò)數(shù)據(jù)分析找出污染源頭。
注釋
① 劉小生,李勝,趙相博.基于基因表達(dá)式編程的PM2.5濃度預(yù)測(cè)研究[J].江西理工大學(xué)學(xué)報(bào),2013.34(5):1-5.
② 彭斯俊,沈加超,朱雪.基于ARIMA模型的PM2.5預(yù)測(cè)[J].安全與環(huán)境工程,2014.21(6):125-128.
③ 陳俏,曹根牛,陳柳.支持向量機(jī)應(yīng)用于大氣污染濃度預(yù)測(cè)[J].計(jì)算機(jī)技術(shù)與發(fā)展,2010.20(1):250-252.
④ 張誠(chéng).基于Box-Cox變換的城市火災(zāi)起數(shù)的模型研究[D].合肥工業(yè)大學(xué)碩士學(xué)位論文,2013.
⑤ 胡宏昌,樊獻(xiàn)花.廣義Box-Cox變換[J].周口師范學(xué)院學(xué)報(bào),2006.23(5):17-19.
⑥ 何曉群.應(yīng)用回歸分析(第三版)[M].北京:中國(guó)人民大學(xué)出版社,2011.
⑦ 汪遠(yuǎn)征,徐雅靜.SAS與統(tǒng)計(jì)應(yīng)用教程[M].北京:機(jī)械工業(yè)出版社,2007.1
⑧ Robert I.Kabacoff. R in Action: Data Analysis and Graphics with R[M].Manning Publications Co,2011.