張智 趙玉廣 焦亞音 李二杰
摘要:基于2018年1月-2022年6月石家莊市逐日首要污染類型數(shù)據(jù)和ERA5逐6h再分析氣象要素資料,構(gòu)建7機器學(xué)習所需的多維特征量數(shù)據(jù)集,并利用隨機森林算法學(xué)習訓(xùn)練,得到石家莊市首要污染物分類預(yù)報最佳模型,宴現(xiàn)了不同氣象條件下首要污染物分類識別及預(yù)報。結(jié)果表明,隨機森林模型預(yù)報首要污染物分類準確率達到76%,對PM10、PM2.5首要污染物分類結(jié)果最好,召回率達到93%、89%,O3首要污染物次之,召回率為74%。與中國氣象局下發(fā)的空氣質(zhì)量指導(dǎo)產(chǎn)品(CMA-ZD)和國家級霧霾數(shù)值預(yù)報業(yè)務(wù)系統(tǒng)產(chǎn)品(CUACE)相比,預(yù)報準確率分別提升11%、36%,明顯優(yōu)于指導(dǎo)產(chǎn)品。
關(guān)鍵詞:首要污染物;隨機森林;分類預(yù)報;矢量通風系數(shù)
中圖分類號:X831 文獻標志碼:B
前言
中國京津冀地區(qū)大氣污染嚴重,且污染物類型具有明顯的季節(jié)特點,冬春季沙塵、夏季臭氧、秋冬季霧霾。特殊的地形、區(qū)域污染排放、疊加不利的氣象條件,導(dǎo)致京津冀地區(qū)重污染天氣頻發(fā),高濃度顆粒物對公眾身體健康產(chǎn)生不利影響。因此,不同類型污染天氣的精準預(yù)報具有十分重要的意義。
京津冀及周邊地區(qū)空氣污染成因最為復(fù)雜,預(yù)報難度最大。國內(nèi)外學(xué)者對其都開展了大量的研究,主要分為基于大氣動力學(xué)方程的數(shù)值模式和機器學(xué)習預(yù)報模型兩類。孫蘇琪等發(fā)現(xiàn)隨機森林模型對成都市各污染物濃度的預(yù)報效果均優(yōu)于RFE模型,預(yù)報性能較好。侯俊雄等發(fā)現(xiàn)多元線性回歸模型和隨機森林方法建立成都市空氣質(zhì)量模型,前者對O3預(yù)報性能較好,后者對PM2.5表較好預(yù)報性能。目前數(shù)值模式或者機器學(xué)習模型預(yù)報首要污染物,均是首先通過預(yù)報PM10、PM2.5、O3、NO2SO2、CO污染物濃度,在根據(jù)環(huán)境空氣質(zhì)量指數(shù)(AQI)技術(shù)規(guī)定計算出首要污染物類型。這種間接預(yù)報的方法,首要污染物預(yù)報準確率較低。
文章將隨機森林算法應(yīng)用于石家莊市大氣污染首要污染分類預(yù)報研究,構(gòu)建反應(yīng)不同污染物的氣象條件數(shù)據(jù)集,通過訓(xùn)練學(xué)習達到分類預(yù)測的目的,研究結(jié)果可為該市首要污染物預(yù)報及大氣污染精準防控提供參考。