金仁浩,曾國靜,趙欣然
(北京物資學院 信息學院,北京 101149)
北京地區(qū)的空氣質(zhì)量一直受到人們的高度關注。近年來,北京市及其周邊地區(qū)的空氣質(zhì)量得到了明顯的改善,但空氣污染治理是一個長期系統(tǒng)的過程[1],各級環(huán)保部門定期公布當?shù)?種空氣污染物,即PM2.5、PM10、SO2、CO、O3、NO2指標值及綜合空氣質(zhì)量指數(shù)AQI指標值[2]。目前,研究北京地區(qū)空氣質(zhì)量的文獻較多,主要可包括空氣質(zhì)量的影響因素分析和預測兩方面。
相關研究主要基于北京環(huán)保部門發(fā)布的市內(nèi)35個空氣質(zhì)量站點每日空氣污染物數(shù)據(jù)。姚祎等基于2016-2020年北京市春節(jié)期間的空氣質(zhì)量數(shù)據(jù),利用多元線性回歸模型,得出氣象因素對污染物濃度的影響占主導地位,社會經(jīng)濟活動水平對空氣質(zhì)量也存在顯著性影響[3]。許昌日等基于2014-2017年北京市每日數(shù)據(jù)得出氣象條件、PM2.5和O3對霧霾天氣的產(chǎn)生有重要的影響[4]。王娟利用多元回歸模型對全國各大城市空氣質(zhì)量數(shù)據(jù)進行分析得出,氣象條件及污染物排放是影響PM2.5濃度的主要因素[5]。
國內(nèi)基于統(tǒng)計預測模型和機器學習方法的空氣質(zhì)量預測研究比較豐富,譬如:王娟指出基于氣象因素和污染濃度的多元回歸模型對PM2.5濃度預測有著較高的精度[5];劉慧君通過逐步回歸模型實現(xiàn)了對武漢市PM2.5指標的預測,并取得了較好的效果[6];朱晏民等對深度學習方法在空氣質(zhì)量預報方面的應用進展進行了總結(jié),指出現(xiàn)有的機器學習方法能夠?qū)崿F(xiàn)對空氣質(zhì)量的有效預測,但其預測精度仍可有很大的提升,并對構(gòu)建新的深度學習模型給出了展望[7];付悅等以北京市空氣質(zhì)量等級作為分類型目標變量,分別使用統(tǒng)計判別分析和機器學習分類方法進行實證研究,得出決策樹模型的預測結(jié)果次于隨機森林模型但優(yōu)于判別分析和支持向量機模型,且能較清晰地展示分類結(jié)果[8]??傮w而言,機器學習模型較一般統(tǒng)計模型預測精度更高,但存在模型理論較復雜、模型實現(xiàn)較難、解釋性較差等問題。
目前,對北京空氣質(zhì)量影響因素和預測方面的研究尚存在一定的不足。譬如,相關文獻的研究對象往往局限于一個站點或僅僅局限于北京城六區(qū),或把北京市全域作為一個整體,并沒有對北京的各個區(qū)域展開研究。另外,往往僅對北京空氣質(zhì)量的具體指標值進行相關因素分析和預測,并沒有同時對空氣質(zhì)量等級進行相關因素分析和預測。針對這些不足,在現(xiàn)有文獻的基礎上,研究北京不同區(qū)域的空氣質(zhì)量問題,并同時考慮空氣質(zhì)量和空氣質(zhì)量等級的影響因素分析及預測研究。根據(jù)回歸模型和機器學習模型的特點,對空氣質(zhì)量的研究主要通過回歸模型進行展開,對空氣質(zhì)量等級的研究則通過決策樹模型進行分析,研究結(jié)果可為北京地區(qū)大氣污染治理提供一定的參考,具有重要的實踐價值。
北京市共有35個空氣監(jiān)測站,基于北京市2017-2020年各站點數(shù)據(jù)開展研究,由于2018年的數(shù)據(jù)質(zhì)量相對較好,建模分析主要基于2018年的數(shù)據(jù)展開。每個監(jiān)測站點會記錄每日每小時的 PM2.5、PM10、SO2、CO、O3、NO2及AQI指標數(shù)值,各站點各指標當日均值通過當天每時均值獲得,可在每日均值的基礎上計算出各站點月均值和年均值。對相應站點均值進行平均計算,可得到局部區(qū)域或整個北京市域?qū)獣r間段均值。在這些空氣質(zhì)量指標數(shù)據(jù)中,AQI反映綜合空氣質(zhì)量,故將該指標作為目標變量。根據(jù)AQI日均值,可將空氣質(zhì)量分為6個級別:優(yōu),良,輕度污染,中度污染,重度污染,嚴重污染。這6個級別對應的AQI區(qū)間分別為0~50、50~100、101~150、151~200、201~300、300以上[9]。
為研究北京不同區(qū)域的空氣質(zhì)量問題,根據(jù)北京市各區(qū)地理位置及政府相關文件,將北京市域劃分為如表1中所示的5個區(qū)域。各個區(qū)域的空氣質(zhì)量可通過對區(qū)域內(nèi)所有監(jiān)測站點值取均值獲得。
對北京各區(qū)域的2017-2020年空氣質(zhì)量數(shù)據(jù)進行描述分析,從整體上了解北京近幾年空氣質(zhì)量變化情況。通過相關分析研究北京空氣質(zhì)量與氣象、社會經(jīng)濟因素之間的關系。通過回歸模型和決策樹模型分別對北京市空氣質(zhì)量數(shù)據(jù)和空氣質(zhì)量等級數(shù)據(jù)進行影響因素和預測分析。
回歸模型是一種常見的統(tǒng)計模型,主要研究因變量和自變量之間的關系,既可以用作發(fā)現(xiàn)變量之間的因果關系,也可以用作對因變量的預測?;貧w模型具有簡單易懂、統(tǒng)計理論完善、解釋性強、容易實現(xiàn)等優(yōu)點。決策樹模型是一種簡單易用的機器學習方法,是一種基本的分類與回歸方法。該模型對連續(xù)性目標變量的預測精度往往較低,但由于其結(jié)果比較直觀,可解釋性強,比較適合對離散型目標變量建模。同時該模型具有計算速度快、容易解釋、穩(wěn)健性強等優(yōu)點[10]。基于這兩模型的特點,主要通過多元線性回歸模型和分類決策樹模型分別對AQI數(shù)據(jù)和AQI等級數(shù)據(jù)進行建模分析。
基于各個空氣檢測站點的日均空氣質(zhì)量數(shù)據(jù)可計算出表1中列出的北京市各個區(qū)域的年度空氣質(zhì)量指標均值。各污染物濃度值變化情況基本相似,且AQI指標是反映空氣質(zhì)量的綜合指標,故僅列出北京市5個區(qū)域2017-2020年AQI年均值變化情況,如圖1所示。
從整體上看,各個區(qū)域這4年AQI年均值都分布在70~120,且各地區(qū)年均值都呈現(xiàn)逐年下降的趨勢,表明近年來經(jīng)過政府和民眾的努力,北京市空氣質(zhì)量得到了顯著提升。在圖1中橫向比較各區(qū)域AQI年均值可得,東北部和西北部區(qū)域空氣質(zhì)量相對較好,城六區(qū)居中,而東南部和西南部區(qū)域空氣質(zhì)量相對較差。造成這一結(jié)果的原因可能是北京北部地區(qū)以山區(qū)居多,而中部和南部地區(qū)以平原為主,北部地區(qū)人口較少,且北部地區(qū)還處上風向。
基于北京市5個區(qū)域2018年每日AQI指標均值進行空氣質(zhì)量等級劃分,并將2018年各區(qū)域空氣質(zhì)量等級分布情況列于表2中。由表2可知,各區(qū)域空氣質(zhì)量等級為良好的天數(shù)占比最高,達到45%左右;其次為輕度污染和優(yōu),占比分別達到25%和15%左右;重度污染和嚴重污染所占比重普遍較低。其中,東北部區(qū)域空氣質(zhì)量相對較好,等級為優(yōu)的天數(shù)占比高達28%,明顯高于其他區(qū)域。表2說明北京市各區(qū)域空氣質(zhì)量情況整體較好。
()中數(shù)據(jù)為天數(shù)占年度的百分比
氣象因素對空氣質(zhì)量存在著顯著影響,但氣象數(shù)據(jù)收集相對比較困難,僅從相關氣象數(shù)據(jù)網(wǎng)中收集到北京市2018年每日平均氣溫和平均風速兩個氣象變量?;?018年35個監(jiān)測站點每日AQI均值可計算得北京市2018年每日AQI均值。通過相關性分析可得,北京2018年每日平均溫度與AQI均值的相關系數(shù)為-0.242,呈現(xiàn)出顯著的負相關性。平均氣溫高時,空氣質(zhì)量相對較好,這是因為氣溫高時會促進底層大氣向高層溫度低處流動,帶來離地面較近的空氣污染物向高空擴散。平均風速與AQI均值的相關系數(shù)為-0.359,也呈現(xiàn)出顯著的負相關性,即風速越大空氣中的污染物濃度越低,空氣質(zhì)量越好。風速較大,大氣污染物的擴散率也就越高,進而空氣污染物濃度會下降,結(jié)果與自然規(guī)律和民眾的認知一致。
社會經(jīng)濟因素對空氣質(zhì)量也存在著顯著影響,但北京市經(jīng)濟數(shù)據(jù)主要是年度數(shù)據(jù),因此選取了2010-2019年北京AQI年均值數(shù)據(jù)及7個年度經(jīng)濟數(shù)據(jù):GDP、第二產(chǎn)業(yè)占比、綠地覆蓋率、綜合能源消費量、工業(yè)粉塵排放量、總?cè)丝凇⑵嚤S辛?。相關性檢驗可得,AQI與GDP、綜合能源消費量、汽車保有量呈現(xiàn)出顯著的負相關性,相關性系數(shù)依次為-0.989、-0.986、-0.949;但與工業(yè)粉塵排放量呈現(xiàn)出顯著的正相關性,相關系數(shù)為0.848;與其他3個經(jīng)濟因素未呈現(xiàn)出顯著的相關性。這是因為北京市近年來在保持GDP、綜合能源消費量和汽車保有量增長的同時,注重社會高質(zhì)量的經(jīng)濟發(fā)展、大力利用綠色低碳能源、促進新能源汽車消費,使得空氣質(zhì)量逐年得到改善。
公眾對空氣質(zhì)量的關注主要集中在污染物濃度和污染物等級兩個角度,即從AQI數(shù)值和AQI污染等級兩個角度評估空氣質(zhì)量,因此嘗試分別以這兩個指標作為目標變量建立預測模型。根據(jù)討論的統(tǒng)計與機器學習模型的特點,對AQI指標建立回歸模型,對AQI污染等級建立決策樹模型進行預測研究。
基于北京市2018年35個空氣監(jiān)測站點每日數(shù)據(jù),計算出5個區(qū)域的每日均值,并對每個區(qū)域分別建立空氣質(zhì)量預測模型。在對每個區(qū)域的建模分析中,因變量為區(qū)域每日AQI均值或其對應的空氣質(zhì)量等級值,自變量為 PM2.5、PM10、SO2、CO、O3、NO2這6個指標的區(qū)域日均值。為了消除不同量綱數(shù)值對建模的影響,對原始數(shù)據(jù)進行了正態(tài)標準化處理。由于對各區(qū)域建模過程類似,因此僅對城六區(qū)這一區(qū)域的建模過程展開分析,僅給出其他4個區(qū)域的主要模型結(jié)果。
以城六區(qū)為例,自變量 PM2.5、PM10、SO2、CO、O3、NO2之間存在著一定的相關性,但整體相關性不強,絕大多數(shù)變量之間的相關性系數(shù)在0.5左右。故在建立回歸模型前需對自變量進行多重共線性檢驗,檢驗結(jié)果如表3所示。由表3可知,共線性統(tǒng)計量VIF值都低于10,說明各變量之間存在較弱的多重共線性,可以把這些變量一起放入回歸模型進行逐步回歸分析。模型結(jié)果顯示,各個自變量的顯著性水平都低于1‰,表明各自變量都對因變量有顯著的影響。模型調(diào)整后的判定系數(shù)為0.895,該模型的擬合度良好,可以用于對AQI指數(shù)的預測。模型方程為:
AQI=0.4×PM2.5+0.3×PM10-0.9×SO2+15.2×CO+0.5×O3+0.3×NO2-14.5,
說明AQI 與SO2呈負相關外,與其他自變量都呈現(xiàn)出正相關關系,且 CO對空氣質(zhì)量指數(shù)的影響最大,SO2次之。
表3 自變量之間多重共線性診斷Tab.3 Multicollinearity diagnosis among independent variables
北京市其他4個區(qū)域的線性回歸分析類似,模型主要結(jié)果如表4所示。由表4可知,除西南部區(qū)域的模型判定系數(shù)為0.68外,其余各區(qū)域模型判定系數(shù)均大于0.8,表明回歸模型在各個區(qū)域整體擬合效果較好。同時,對北京東北部區(qū)域AQI影響最大的三個變量依次為CO、SO2、O3;對東南部區(qū)域AQI影響最大的兩個變量依次為PM2.5和SO2;對西北部區(qū)域AQI影響最大的三個變量依次為CO、SO2、O3;對西南部區(qū)域影響最大的兩個變量依次為O3和PM2.5。通過模型結(jié)果可知,北京市各區(qū)域模型自變量對其AQI指數(shù)的影響關系不完全相同,但綜合而言,對各區(qū)域AQI影響較大的污染物主要集中在CO、SO2、PM2.5、O3。因此為了降低AQI指標值,政府部門應制定相關政策措施有效降低這4種空氣污染物濃度。
表4 各區(qū)域回歸方程Tab.4 Regression equation of all regions
以城六區(qū)為例,自變量為 PM2.5、PM10、SO2、CO、O3、NO2,因變量為空氣質(zhì)量等級建立決策樹模型。在建模前,對樣本進行隨機劃分,70%的數(shù)據(jù)作為訓練集,30%的數(shù)據(jù)作為測試集,在訓練集上創(chuàng)建了決策樹模型,在測試集上評估模型預測效果。為防止過擬合現(xiàn)象出現(xiàn),限制決策樹的生長深度為4。決策樹建模結(jié)果和生長規(guī)則如圖2所示,決策樹的每個子節(jié)點都包含優(yōu)、良好、輕度污染、中度污染、重度污染、嚴重污染這6個空氣質(zhì)量等級,僅展示出比重最大的空氣質(zhì)量等級。模型篩選結(jié)果顯示僅僅PM2.5和 O3這兩個自變量對預測城六區(qū)空氣質(zhì)量等級起作用,且PM2.5的作用最為重要。在整體上,模型在訓練集上的正確率達到85.9%,而在測試集上的正確率達到88.7%,表明決策樹模型對城六區(qū)空氣質(zhì)量等級的預測精度較高。
圖2 2018年城六區(qū)區(qū)域空氣質(zhì)量等級決策樹模型結(jié)果圖Fig.2 Decision-making treeresults of air quality ranks in 6 urban regions in 2018
決策樹模型在其他4個區(qū)域的結(jié)果如表5所示。由表5可知,決策樹模型在北京其他4個區(qū)域的預測正確率也都達到85%左右,表明模型在各個區(qū)域的預測精度較高,整體結(jié)果理想。表5同時也給出了各個區(qū)域決策樹生成規(guī)則的重要性變量,PM2.5和O3是所有區(qū)域模型的關鍵性指標,PM10是除城六區(qū)和東北部外的模型關鍵性指標。因此為了提高空氣質(zhì)量等級,政府部門需要制定政策措施有效降低這3種空氣污染物濃度。
表5 決策樹模型在其他站點的預測結(jié)果Tab.5 Prediction results of other stations of decision-making model
基于北京市2017-2020年各空氣監(jiān)測站點數(shù)據(jù),計算出北京5個區(qū)域的空氣質(zhì)量日均值數(shù)據(jù),在對各區(qū)域空氣質(zhì)量數(shù)據(jù)進行描述分析的基礎上,從整體上分析北京市空氣質(zhì)量與氣象、社會經(jīng)濟因素之間的關系,通過回歸模型和決策樹模型,分別對北京5個區(qū)域AQI指標值和空氣質(zhì)量等級數(shù)據(jù)進行影響因素和預測研究,相關研究結(jié)果總結(jié)如下:
近幾年,北京市各個區(qū)域空氣質(zhì)量都得到了明顯提升,全年中空氣質(zhì)量等級為良的天數(shù)居多,其次為輕度污染和優(yōu),其中空氣質(zhì)量等級為良以上的天數(shù)占比達到60%以上。北京各個區(qū)域中,東北部和西北部區(qū)域空氣質(zhì)量相對較好,城六區(qū)居中。
氣象因素對空氣質(zhì)量存在著顯著的影響,每日AQI均值與平均溫度、平均風速都呈現(xiàn)出顯著的負相關性。
近年來,北京市通過優(yōu)化經(jīng)濟結(jié)構(gòu),在保持社會經(jīng)濟持續(xù)增長的同時提高了空氣質(zhì)量,AQI指標值與主要經(jīng)濟指標呈現(xiàn)出顯著的負相關性。
在各個區(qū)域上,回歸模型對AQI指標值的擬合效果整體較好,雖然各區(qū)域模型篩選出的自變量不完全相同,但綜合而言,對AQI影響較大的污染物依次為CO、SO2、PM2.5、O3。各個區(qū)域上,決策樹模型對空氣質(zhì)量等級的預測精度較高,各區(qū)域模型篩選出的自變量基本相同,對空氣質(zhì)量等級影響較大的污染物依次為 PM2.5、PM10、O3。
根據(jù)研究內(nèi)容總結(jié),對北京市空氣質(zhì)量治理提出如下建議:
政府部門加大對民眾環(huán)境保護工作的宣傳,提高民眾環(huán)保意識;鼓勵民眾選乘公交地鐵出行;制定激勵政策,鼓勵民眾以新能源車替代汽油車。
北京城六區(qū)和南部地區(qū)空氣質(zhì)量較北部地區(qū)相對較差,雖然自然因素是導致這一現(xiàn)象的主要因素,但政府部門仍可通過疏解人口、降低污染產(chǎn)業(yè)比重、提高清潔能源使用等方法提高北京中南部地區(qū)的空氣質(zhì)量。
從降低北京市空氣質(zhì)量指數(shù)和提高空氣質(zhì)量等級兩個角度看,需要降低 CO、SO2、PM2.5、O3、PM10 這5種污染物的濃度,但從變量的重要性角度出發(fā),CO和 PM2.5是影響空氣質(zhì)量較為重要的因素,因此政府部門在制定限制大氣污染物排放政策時,應尤為重視對 CO和 PM2.5這兩種污染物排放的限制。