來(lái)鵬飛
摘 要:本研究對(duì)淮南市2015—2021年P(guān)M2.5濃度進(jìn)行了時(shí)間序列分析和算法預(yù)測(cè)。結(jié)果表明:PM2.5濃度最高值出現(xiàn)在每年12月到次年1月,最低值出現(xiàn)在每年7、8月。濃度值在2020年之前處于上升趨勢(shì),2020年開始有所下降。為驗(yàn)證預(yù)測(cè)結(jié)果的準(zhǔn)確性,使用了CNN-GRU預(yù)測(cè)模型進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果的MSE、RMSE、MAE、MAPE和SMAPE分別為122.07、11.05、9.67、24.64%和21.18%。預(yù)測(cè)結(jié)果表明,PM2.5濃度的實(shí)際值變化趨勢(shì)有所下降,可為日后環(huán)境治理提供參考。
關(guān)鍵詞:淮南市;PM2.5預(yù)測(cè);CNN-GRU;時(shí)間序列
中圖分類號(hào):X513 ? ? 文獻(xiàn)標(biāo)志碼:A ? ? 文章編號(hào):1003-5168(2022)12-0128-04
DOI:10.19968/j.cnki.hnkj.1003-5168.2022.12.027
Analysis and Prediction of PM2.5 Concentration Change in Huainan City
LAI Pengfei
(School of Electrical and Information Engineering, Anhui University of Technology, Huainan 232001,China)
Abstract: The time series analysis and algorithm prediction of PM2.5 concentration in Huainan city from 2015 to 2021 were carried out. The results show that the highest value of PM2.5 concentration occurs from December to January, and the lowest value occurs in July and August. The concentration was in an upward trend before 2020, and began to decline in 2020. In order to verify the accuracy of prediction results, CNN-GRU prediction model is used for prediction. The predicted MSE, RMSE, MAE, MAPE and SMAPE were 122.07, 11.05, 9.67, 24.64% and 21.18%, respectively. The prediction results show that the actual value of PM2.5 concentration decreases, which can provide reference for future environmental governance.
Keywords: Huainan City; PM2.5 prediction; CNN-GRU; time series
0 引言
霧霾天氣在我國(guó)多個(gè)地區(qū)頻繁出現(xiàn),導(dǎo)致環(huán)境問題日益加重?;茨鲜凶鳛槲覈?guó)的主要煤生產(chǎn)基地之一,在煤礦開采的過程中,由于運(yùn)輸燃燒等方式會(huì)導(dǎo)致許多煙塵釋放到空氣中,其中包含了大量的細(xì)顆粒物(PM2.5)[1]。本研究采用2015—2021年的數(shù)據(jù)研究PM2.5的特征及變化,了解PM2.5的污染狀況,為淮南市大氣污染防控提供數(shù)據(jù)參考。
PM2.5是指環(huán)境空氣中空氣動(dòng)力學(xué)直徑小于等于2.5 μm、大于0.1 μm的顆粒物。PM2.5對(duì)能見度以及空氣質(zhì)量有著很大的影響,并且PM2.5中含有的重金屬、微生物等有害物質(zhì),也對(duì)人類的健康有著嚴(yán)重的危害,可能會(huì)引發(fā)呼吸疾病[2-4],同時(shí)對(duì)氣候的變化也有著很大的影響[5-7]。因此,對(duì)PM2.5濃度變化進(jìn)行分析以及準(zhǔn)確預(yù)測(cè)對(duì)環(huán)境的治理和人類的健康有著重要的意義。
以往研究多是基于多元時(shí)間序列模型或多元線性回歸的方式實(shí)現(xiàn)對(duì)PM2.5濃度的預(yù)測(cè)。隨著人工神經(jīng)網(wǎng)絡(luò)的發(fā)展,出現(xiàn)了如卷積神經(jīng)網(wǎng)絡(luò)(CNN)[8-10]和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[10-11]這一類的深度神經(jīng)網(wǎng)絡(luò)。CNN的優(yōu)勢(shì)主要體現(xiàn)在圖像處理中,在時(shí)間序列上的預(yù)測(cè)效果并不明顯,RNN本身是處理時(shí)間序列的模型,可以將多種因素和時(shí)間序列考慮在內(nèi),但只能對(duì)短序列進(jìn)行建模。本研究采用CNN-GRU[12]網(wǎng)絡(luò)對(duì)PM2.5濃度進(jìn)行預(yù)測(cè)和趨勢(shì)分析,并與GRU[13-14]、LSTM[15-16]和ARIMA[17]的結(jié)果進(jìn)行比較分析,以期為PM2.5污染治理提供依據(jù)。
1 數(shù)據(jù)來(lái)源與方法
1.1 數(shù)據(jù)來(lái)源
本研究使用2016年1月至2021年12月的每日數(shù)據(jù)為研究基礎(chǔ)。數(shù)據(jù)源自美國(guó)國(guó)家氣候數(shù)據(jù)中心(NCDC),隸屬于美國(guó)國(guó)家海洋及大氣管理局(NOAA)。提供自1942年以來(lái)的中國(guó)地面氣象數(shù)據(jù)下載。下載的數(shù)據(jù)格式為ISD-Lite,是一種簡(jiǎn)化了的ISD(Integrated Surface Data)數(shù)據(jù)。每個(gè)文件按天保存,內(nèi)容包含時(shí)間間隔為1 h的單日AQI、PM2.5、PM10、SO2、NO2、O3以及CO的值。
1.2. 數(shù)據(jù)處理方法
首先通過python代碼對(duì)按日排列的數(shù)據(jù)進(jìn)行整合,使其從按日存儲(chǔ)的表格變?yōu)榘茨甏鎯?chǔ)的表格,然后通過python與MySQL數(shù)據(jù)庫(kù)建立連接,將其存儲(chǔ)到MySQL數(shù)據(jù)庫(kù)中,按照需求將淮南市每日12 h的月均值PM2.5數(shù)據(jù)查詢出來(lái)進(jìn)行數(shù)據(jù)處理分析。根據(jù)最終結(jié)果繪制月均濃度趨勢(shì)圖并進(jìn)行預(yù)測(cè)分析,以便研究淮南市PM2.5的變化。
2 結(jié)果與分析
2.1 PM2.5濃度的變化
如圖1所示,近年來(lái)PM2.5濃度呈周期性變化,每年P(guān)M2.5濃度呈現(xiàn)出“V”字形變化。最高值出現(xiàn)在每年12月到次年1月,濃度最高出現(xiàn)在2018年1月,為108.65 μg/m3。最低值出現(xiàn)在每年7、8月,濃度最低出現(xiàn)在2021年7月,為16.29 μg/m3。淮南市PM2.5的濃度主要分布在35~75 μg/m3這個(gè)范圍內(nèi)。從圖1中可以看出,2020年之前PM2.5月均值濃度一直處于上升的趨勢(shì),2020年開始有明顯的下降趨勢(shì)。
如表1所示,將一天24 h里檢測(cè)到的PM2.5濃度的值求平均值,按照空氣質(zhì)量標(biāo)準(zhǔn),將空氣質(zhì)量等級(jí)共分為6個(gè)等級(jí),分別為優(yōu)、良、輕度污染、中度污染、重度污染以及嚴(yán)重污染。從表1中可以看出,近年來(lái)淮南市空氣質(zhì)量等級(jí)主要處于優(yōu)、良以及輕度污染三個(gè)水平,并集中在良這個(gè)等級(jí)。2020—2021年出現(xiàn)輕度污染的月份每年僅有1個(gè)月,而空氣質(zhì)量為優(yōu)的月份增加到了每年5個(gè)月,這說明了淮南市的空氣質(zhì)量在近年有所改善。
2.2 時(shí)間序列預(yù)測(cè)分析
2.2.1 卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)是深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型中的一種。在圖像處理、視頻處理等方面有著廣泛的應(yīng)用,并表現(xiàn)出優(yōu)異的性能,實(shí)現(xiàn)對(duì)輸入特征的提取。CNN一般有卷積層、池化層和全連接層組成。卷積層是CNN網(wǎng)絡(luò)的核心,通過對(duì)輸入的數(shù)據(jù)進(jìn)行卷積運(yùn)算,降低噪聲,并增強(qiáng)輸入數(shù)據(jù)的特征;池化層的功能是將卷積層的輸出作為輸入,通過最大值、平均值池化等操作,保留特征的同時(shí),減少參數(shù)實(shí)現(xiàn)對(duì)數(shù)據(jù)的降維;全連接層是將經(jīng)過卷積層、池化層處理過的數(shù)據(jù)進(jìn)行整合,得到分類或者回歸的結(jié)果
2.2.2 GRU網(wǎng)絡(luò)。GRU網(wǎng)絡(luò)是在LSTM網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行改進(jìn)的,組成有更新門以及重置門。更新門的作用是判斷目前時(shí)間的輸入與前面的隱藏狀態(tài)是否更新到候選隱藏狀態(tài)。重置門是將目前時(shí)間的輸入與前面的隱藏狀態(tài)相結(jié)合,來(lái)判斷是否將候選隱藏狀態(tài)中的信息遺忘。更新門更適用于中長(zhǎng)期序列中,而重置門更適用于短期序列中。更新門和重置門的計(jì)算公式如式(1)、式(2),候選隱藏狀態(tài)的計(jì)算公式如公式(3)所示。
式中:zt、rt、xt、ht分別是更新門的輸入、重置門的輸入、當(dāng)前時(shí)間狀態(tài)的輸入以及上一時(shí)間狀態(tài)的隱藏狀態(tài);xt是t時(shí)刻的輸入;ht-1是t-1時(shí)刻的隱藏狀態(tài);Wz、Uz、Wr、Ur是權(quán)重矩陣;br、bz是偏差矩陣;σ(·)表示sigmoid函數(shù),它將得到的激活結(jié)果變換到0與1之間。
最后利用網(wǎng)絡(luò)計(jì)算出當(dāng)前時(shí)刻的最終狀態(tài)ht,公式如式(4)。
2.2.3 CNN-GRU。本研究使用的是一種融合CNN和GRU的神經(jīng)網(wǎng)絡(luò)混合模型,可以更好地學(xué)習(xí)數(shù)據(jù)中的特征和規(guī)律,準(zhǔn)確地預(yù)測(cè)出結(jié)果。模型結(jié)構(gòu)如圖2所示。輸入數(shù)據(jù),經(jīng)過卷積層的計(jì)算來(lái)得出輸入數(shù)據(jù)中的特征信息;池化層中采用最大池化的方法進(jìn)行池化,保留最主要的特征;Dropout層隨機(jī)丟棄一些神經(jīng)元來(lái)防止出現(xiàn)過擬合現(xiàn)象;在GRU層中,通過不斷地訓(xùn)練調(diào)整自身的參數(shù),不斷優(yōu)化并進(jìn)行預(yù)測(cè),最終在全連接層中對(duì)輸出進(jìn)行處理得到預(yù)測(cè)的結(jié)果。
在進(jìn)行預(yù)測(cè)時(shí),首先對(duì)原始數(shù)據(jù)進(jìn)行處理,對(duì)淮南PM2.5時(shí)間序列數(shù)據(jù)的數(shù)據(jù)特征進(jìn)行歸一化處理,并將數(shù)據(jù)映射到區(qū)間[0,1];然后將數(shù)據(jù)集按照6∶1分為兩個(gè)部分:訓(xùn)練集和測(cè)試集,當(dāng)訓(xùn)練結(jié)束后對(duì)預(yù)測(cè)出的結(jié)果進(jìn)行反歸一化;最后將2021年數(shù)據(jù)作為測(cè)試集與預(yù)測(cè)結(jié)果進(jìn)行對(duì)比。
為驗(yàn)證預(yù)測(cè)結(jié)果的可靠性,另外使用了GRU、LSTM、ARIMA三種算法進(jìn)行預(yù)測(cè)對(duì)比。圖3展示了GRU、LSTM和ARIMA算法對(duì)未來(lái)1年時(shí)間的預(yù)測(cè)結(jié)果與原始數(shù)據(jù)的對(duì)比情況。結(jié)果表明,三種算法預(yù)測(cè)的趨勢(shì)基本一致,都呈現(xiàn)出“V”字形的變化。但GRU算法預(yù)測(cè)結(jié)果只有3月和6月的濃度比真實(shí)值低,其他月份都略高于真實(shí)值;LSTM預(yù)測(cè)結(jié)果全部高于真實(shí)值;ARIMA預(yù)測(cè)3月、8月、10月、11月、12月結(jié)果比真實(shí)值低,其余月份高于真實(shí)值。這說明了2021年P(guān)M2.5濃度值相較于之前的變化有所降低。
表2為CNN-GRU、GRU、LSTM和ARIMA預(yù)測(cè)結(jié)果的評(píng)價(jià)指標(biāo)比較。分別選取了均方誤差(MSE)、均方根誤差(RMSE)、平均絕對(duì)誤差(MAE)、平均絕對(duì)百分比誤差(MAPE)和對(duì)稱平均絕對(duì)百分比誤差(SMAPE)作為評(píng)判標(biāo)準(zhǔn)。從表1中可以清晰地看出,四種算法預(yù)測(cè)的結(jié)果中,CNN-GRU預(yù)測(cè)的結(jié)果最為準(zhǔn)確,分別是119.53、10.93、8.77、24.42%和20.46%。
3 結(jié)語(yǔ)
本研究分析了2015—2021年淮南市PM2.5的變化趨勢(shì)并使用了相應(yīng)的算法對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)分析。結(jié)果表明,2020年之前淮南市PM2.5濃度具有緩慢上升的趨勢(shì)。其中最高值出現(xiàn)在每年12月與次年的1月,最低值出現(xiàn)在每年7、8月;空氣質(zhì)量等級(jí)主要處于優(yōu)、良以及輕度污染三個(gè)水平,主要集中在良的水平。2020年開始,淮南市PM2.5濃度開始下降,出現(xiàn)輕度污染的月份有所降低。使用CNN-GRU算法與其他算法預(yù)測(cè)結(jié)果比較得出,CNN-GRU算法相較于其他算法預(yù)測(cè)準(zhǔn)確性更高。預(yù)測(cè)結(jié)果顯示,預(yù)測(cè)值略高于真實(shí)值,表明淮南市近1年P(guān)M2.5濃度有所降低。
參考文獻(xiàn):
[1] 胡煜,鄭劉根,程樺,等.淮南市PM2.5中PAHs污染特征及來(lái)源分析[J].環(huán)境監(jiān)測(cè)管理與技術(shù),2016,28(6):33-37.
[2] 王瑋,湯大鋼,劉紅杰,等.中國(guó)PM2.5污染狀況和污染特征的研究[J].環(huán)境科學(xué)研究,2000(1):1-5.
[3] BELL M L,F(xiàn)RANCESCA D,KEITA E,et al. Spatial and temporal variation in PM2.5 chemical composition in the United States for health effects studies [J]. Environmental health perspectives, 2007,115(7):989-995.
[4] 王庚辰,王普才.中國(guó)PM2.5污染現(xiàn)狀及其對(duì)人體健康的危害[J].科技導(dǎo)報(bào),2014,32(26):72-78.
[5] TAI A P K,MICKLEY L J,JACOB D J. Correlations between fine particulate matter (PM 2.5 ) and meteorological variables in the United States: Implications for the sensitivity of PM 2.5 to climate change [J]. Atmospheric Environment, 2010,44(32):
[6] 王薇,陳明.城市綠地空氣負(fù)離子和PM_(2.5)濃度分布特征及其與微氣候關(guān)系:以合肥天鵝湖為例[J].生態(tài)環(huán)境學(xué)報(bào),2016,25(9):1499-1507.
[7] 陳波,魯紹偉,李少寧.北京城市森林不同天氣狀況下PM2.5濃度變化[J].生態(tài)學(xué)報(bào),2016,36(5):1391-1399.
[8] 陸繼翔,張琪培,楊志宏,等.基于CNN-LSTM混合神經(jīng)網(wǎng)絡(luò)模型的短期負(fù)荷預(yù)測(cè)方法[J].電力系統(tǒng)自動(dòng)化,2019,43(8):131-137.
[9] 羅文慧,董寶田,王澤勝.基于CNN-SVR混合深度學(xué)習(xí)模型的短時(shí)交通流預(yù)測(cè)[J].交通運(yùn)輸系統(tǒng)工程與信息,2017,17(5):68-74.
[10] 范竣翔,李琦,朱亞杰,等.基于RNN的空氣污染時(shí)空預(yù)報(bào)模型研究[J].測(cè)繪科學(xué),2017,42(7):76-83,120.
[11] 李潔,林永峰.基于多時(shí)間尺度RNN的時(shí)序數(shù)據(jù)預(yù)測(cè)[J].計(jì)算機(jī)應(yīng)用與軟件,2018,35(7):33-37,62.
[12] 姚程文,楊蘋,劉澤健.基于CNN-GRU混合神經(jīng)網(wǎng)絡(luò)的負(fù)荷預(yù)測(cè)方法[J].電網(wǎng)技術(shù),2020,44(9):3416-3424.
[13] 王增平,趙兵,紀(jì)維佳,等.基于GRU-NN模型的短期負(fù)荷預(yù)測(cè)方法[J].電力系統(tǒng)自動(dòng)化,2019,43(5):53-58.
[14] 趙兵,王增平,紀(jì)維佳,等.基于注意力機(jī)制的CNN-GRU短期電力負(fù)荷預(yù)測(cè)方法[J].電網(wǎng)技術(shù),2019,43(12):4370-4376.
[15] 王鑫,吳際,劉超,等.基于LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)的故障時(shí)間序列預(yù)測(cè)[J].北京航空航天大學(xué)學(xué)報(bào),2018,44(4):772-784.
[16] 白盛楠,申曉留.基于LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)的PM2.5預(yù)測(cè)[J].計(jì)算機(jī)應(yīng)用與軟件,2019,36(1):67-70,104.
[17] 吳玉霞,溫欣.基于ARIMA模型的短期股票價(jià)格預(yù)測(cè)[J].統(tǒng)計(jì)與決策,2016(23):83-86.