廖錫歐
(首都師范大學 數(shù)學科學學院,北京100048)
PM2.5指環(huán)境空氣中直徑不大于2.5微米的顆粒物,它在空氣中能懸浮較長時間??諝庵蠵M2.5的含量越高,空氣污染就越嚴重。與其他直徑較大的大氣顆粒物相比,PM2.5粒徑小,面積大,活性強,容易附帶有毒、有害物質(如重金屬、微生物等),并且在大氣中能停留較長的時間、輸送距離較遠,因此PM2.5對人體健康和大氣環(huán)境質量的影響更大。研究發(fā)現(xiàn),相比于PM10,PM2.5所攜帶的有害物質更多,且易被人體的呼吸道黏膜吸附于體內,引發(fā)一系列的呼吸道和肺部疾病。
對于PM2.5的研究,相關性分析、主成分分析、多元線性回歸分析等都是主流的分析方法。宋紅鳳等對杭州地區(qū)的AQI項指標建立了多元回歸線性模型,并對PM2.5和其他五項指標及其對應污染物含量之間的關系進行研究。李波等通過對長沙市的AQI指標進行相關性分析,并建立自回歸移動平均模型對長沙市的PM2.5進行預測。叢琳等人建立了PM2.5與其余指標的線性回歸模型,同時基于主成分分析進行改進,建立了更為精確的多元回歸模型。
北京是我國的政治、文化中心,也是我國最早進入工業(yè)化的城市之一,隨著工業(yè)化的發(fā)展,工業(yè)化污染不斷加劇,環(huán)境遭受污染。進入21世紀以來,由空氣污染造成的“霧霾”問題一直是眾多學者討論和研究的對象。為了研究PM2.5與其他指標的關系,本文采用主成分回歸分析,找到影響北京市空氣質量的關鍵因素,為日后相關研究和環(huán)境治理提供理論依據(jù)。
本文所采用的數(shù)據(jù)全部來自中國空氣質量在線分析平臺,北京市2020年一年的AQI指數(shù)及AQI的六項指標,無缺失數(shù)據(jù),故可以直接對數(shù)據(jù)進行建模。此外,將各變量換算成同一單位,以消除量綱對數(shù)據(jù)分析的影響。
對北京市空氣質量評價進行匯總,從表1中空氣質量良的累計頻率可以看出2020年北京市大多數(shù)時間空氣質量是良好的,輕度污染的頻率為18.31%,中、重度污染的頻率僅為3.01%和2.73%。這表明,近幾年北京市的空氣質量治理初顯成效,但仍有中度污染和重度污染的時候,因此空氣質量的改善和治理的工作仍需繼續(xù)落實。
表1 2019年1月至2021年1月北京市空氣質量情況
選取2020年每日的AQI指數(shù)各項指標,通過R語言分別繪制出PM2.5與其他指標的散點圖。
由圖1不難看出PM2.5與其他變量之間存在較為明顯的線性關系。而CO和NO2,PM10和CO之間存在較為明顯的相關性,因此初步判斷各自變量之間存在復共線性。為了驗證這一猜測,我們考慮自變量PM10數(shù)據(jù)的列向量xi1,SO2數(shù)據(jù)的列向量xi2,CO數(shù)據(jù)的列向量xi3,NO2數(shù)據(jù)的列向量xi4,O3數(shù)據(jù)的列向量xi5,i=1,2,...,366組成的設計矩陣X。
圖1 各變量之間的散點圖
表2 各變量的相關性
通過收集2020年366天北京市AQI各項指標的數(shù)據(jù),利用R語言對PM10、SO2、CO、NO2、O3進行主成分分析。從表3可以看出,前兩個主成分的累計貢獻率高達74.21%,超過了70%。說明前兩個主成分很好地包含了原始數(shù)據(jù)的大部分信息,主成分分析良好。
表3 主成分的累計貢獻率
提取前兩個主成分,表4是主成分載荷矩陣,呈現(xiàn)了前兩個主成分在各變量上的載荷值??梢钥闯?,第一個主成分(下記z1)在PM10、SO2、CO、NO2上的載荷較大;而第二主成分(下記z2)主要作用在O3上的載荷較大。因此,兩個主成分是相互獨立的,不存在復共線性問題,可進行回歸分析。下面我們以PM2.5為因變量,兩個主成分為自變量,通過主成分回歸分析,探索因變量PM2.5與自變量PM10、SO2、CO、NO2、O3之間的相關關系。
表4 主成分載荷矩陣
因為兩個主成分不存在復共線性,再由圖2可以看出,z1和z2無線性關系。PM2.5與z1之間存在明顯的線性關系,PM2.5與z2主成分存在線性關系。并且PM2.5與第一主成分的相關度是極高的,因此對這兩個主成分做多元線性回歸是合理的。
圖2 主成分散點圖
用R語言對z1、z2做主成分回歸,由表5可以看出,模型擬合度較高,解釋了絕大部分的數(shù)據(jù)信息。并且通過了回歸方程顯著性的檢驗,因此對PM2.5和z1、z2建立回歸模型是顯著有效的。同時,主成分回歸系數(shù)的檢驗說明兩個主成分的回歸系數(shù)均呈顯著特征,即主成分與變量是顯著相關的。于是,可以得到主成分的多元線性回歸方程為:y=15.7853z1+6.5180z2+37.8525;其中,變量y代表的是PM2.5。
表5 主成分回歸結果
由此可以看出,PM2.5與z1、z2都成正比。為進一步提高模型的精確程度,利用統(tǒng)計診斷找出異常點,并解釋原因,接著用忽略異常值點之后的數(shù)據(jù)再生成主成分回歸模型。
考慮多元線性回歸模型Y=Xβ+ε,E(ε)=0,Var(ε)=σ2In,定義cook距離為,i=1,...,n;這里
于是,對于每一組觀測數(shù)據(jù),可以用一個Di來刻畫它對回歸系數(shù)估計影響的大小。但直接計算Di會很不方便,因此引入Di的簡便公式:
這里hii是帽子矩陣H=X(X′X)′X′的第i個對角元,ri是學生化殘差。由此定義的cook距離衡量了第i組數(shù)據(jù)到試驗中心的距離,顯然,若cook距離越大,則該組數(shù)據(jù)離其他實驗數(shù)據(jù)越遠。若一組數(shù)據(jù)距離試驗中心很遠,并且對應的學生化殘差又很大,那么它必定是強影響數(shù)據(jù),這是一種基于描述性統(tǒng)計的異常值檢驗方法。
利用R語言軟件,分別計算出所有樣本點的cook距離,制作散點圖,在一定標準下計算出強影響點的范圍,確定強影響點(見圖3)。
圖3 cook距離散點圖
一般來說,如果一組數(shù)據(jù)點的cook距離大于4/(n-k-1)時,我們稱它為異常值點。這里n為數(shù)據(jù)觀測組數(shù),k為自變量個數(shù)。由此得到強影響點集,發(fā)現(xiàn)北京市的強影響點主要集中在每年11月至次年的2月,而這段時間正好是北京的冬天,空氣質量表現(xiàn)為輕度污染或中度污染,認為主要是由于冬季供暖燒煤、乘車出行尾氣排放所導致。
在刪除強影響點之后,對剩下的數(shù)據(jù)進行主成分回歸。從表6可以看出,在刪除強影響點之后,擬合優(yōu)度R2得到了提高,模型解釋程度得到了優(yōu)化。另外,考慮到刪除一些數(shù)據(jù)后對模型主成分選擇的影響,因此采用逐步回歸的方法對zi進行篩選。經(jīng)過逐步回歸后,z1、z2仍得到保留,并且都通過了回歸系數(shù)顯著性檢驗,AIC值得到顯著降低。因此,我們仍保留兩個主成分,最終得到線性回歸模型:
表6 修正后的主成分回歸結果
其中,
本文通過收集2020年北京市的AQI及其六項指標,研究了導致北京市“霧霾”問題的主要因素PM2.5與其他觀測指標之間的相關關系,在利用主成分回歸分析消除了變量間復共線性影響之后建立了多元線性回歸方程,并對方程進行了優(yōu)化,最終得到了PM2.5與其他變量指標的線性回歸方程。由回歸方程可以看出,PM2.5與第一主成分的相關性較大,即與PM10、SO2、CO、NO2有較大的關系,而與O3的關系相對較弱。因此為了改善北京市的空氣質量,必須先控制空氣中塵土的含量,城市施工面積需要控制,而對于SO2、CO、NO2這類氣體,則需要控制汽車尾氣排放,減少私家車出行,多乘坐公共交通;在冬天供暖的時候,可以考慮用地熱等新能源逐漸替代燒煤供暖。同時,政府還應加大綠化面積,開發(fā)新能源產(chǎn)品,從污染等源頭治理污染問題。
表7 逐步回歸后的結果