王雨軒 周甘凝 許文龍 秦孟晟
收稿日期:2023-11-10
基金項(xiàng)目:江蘇省青年基金項(xiàng)目(KQ202330)。
作者簡(jiǎn)介:王雨軒(1993—),男,揚(yáng)州寶應(yīng)人,助理工程師,主要從事氣溶膠、大氣探測(cè)研究。
摘 要:利用揚(yáng)州市氣象觀測(cè)站點(diǎn)和中國(guó)環(huán)境監(jiān)測(cè)總站的逐小時(shí)數(shù)據(jù)估算PM2.5的各相關(guān)組合因子,然后利用CNN卷積神經(jīng)網(wǎng)絡(luò)算法構(gòu)建反演PM2.5質(zhì)量濃度的機(jī)器學(xué)習(xí)模型。結(jié)果表明:(1)利用 CNN卷積神經(jīng)網(wǎng)絡(luò)算法反演PM2.5是有效且可行的,且比一般的線性回歸算法效果更佳,為反演PM2.5提供了一種新的機(jī)器學(xué)習(xí)方法。(2)在影響PM2.5反演的各輸入變量因子中,PM10與能見度變量為高相關(guān)因子。利用神經(jīng)卷積網(wǎng)絡(luò)算法反演PM2.5理論上反演精度能夠隨著輸入信息增多而不斷提高。
關(guān)鍵詞:CNN卷積神經(jīng)網(wǎng)絡(luò)算法;氣象觀測(cè)數(shù)據(jù);PM2.5
中圖分類號(hào):P407.7 文獻(xiàn)標(biāo)識(shí)碼:B文章編號(hào):2095–3305(2024)03–0-03
PM2.5是指懸浮在空中的空氣動(dòng)力學(xué)當(dāng)量直徑≤2.5 μm的細(xì)顆粒物,其嚴(yán)重影響環(huán)境、氣候,危害人體健康,破壞生態(tài)系統(tǒng)[1]。在排放源相對(duì)穩(wěn)定的情況下,氣象因素也是污染物形成、傳輸及沉降等環(huán)節(jié)的重要原因[2-3]。因此,從氣象學(xué)的角度分析大氣污染的規(guī)律和機(jī)制,有助于為大氣污染防治提供科學(xué)支撐。盡管環(huán)境監(jiān)測(cè)站點(diǎn)對(duì)近地面PM2.5直接測(cè)量的精度較高,但在監(jiān)測(cè)點(diǎn)的數(shù)量和分布上的局限性較大,只能反映監(jiān)測(cè)站點(diǎn)小范圍內(nèi)PM2.5的變化。因此,有必要利用氣象觀測(cè)數(shù)據(jù)對(duì)PM2.5乃至其他一些常見的大氣污染物進(jìn)行模擬反演,繼而能大范圍地揭示常見大氣污染物的時(shí)空變化規(guī)律。
氣象要素對(duì)PM2.5的形成起著促進(jìn)或改善作用[4]。魏文靜等[5]對(duì)山東省17個(gè)地市的研究表明,PM2.5受氣溫和降水的影響較為顯著;黃小剛等[6]研究表明,氣象對(duì)PM2.5污染有一定調(diào)節(jié)作用,PM2.5與氣溫、風(fēng)速、濕度和降水量呈線性遞增或遞減關(guān)系。
前人針對(duì)PM2.5也開展了多途徑的反演,一般較常用的方法是多元線性回歸法。相關(guān)學(xué)者利用多元線性回歸模型分析2014年APEC和2015年國(guó)慶閱兵期間氣象要素對(duì)PM2.5的影響;何鈺清等[7]利用多元線性回歸分析法建立了PM2.5月均濃度的預(yù)測(cè)模型。但顆粒物濃度的變化與氣象條件之間呈現(xiàn)很強(qiáng)的非線性關(guān)系,因此,傳統(tǒng)的多元線性回歸模型預(yù)測(cè)PM2.5質(zhì)量濃度的局限性較大[8]。
近年來(lái),隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,已有不少學(xué)者利用神經(jīng)網(wǎng)絡(luò)算法來(lái)估算PM2.5。陳兵紅等[9]應(yīng)用多元線性回歸和隨機(jī)森林方法反演浙江省PM2.5濃度;石靈芝等[10]運(yùn)用BP人工神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)短期的PM10小時(shí)數(shù)據(jù);胡娟等[11]嘗試從遙感的角度利用BP神經(jīng)網(wǎng)絡(luò)算法反演PM2.5;還有學(xué)者基于隨機(jī)森林算法的氣象歸一化方法評(píng)估了全球11個(gè)城市2020年初的PM2.5、O3等濃度的變化情況。機(jī)器學(xué)習(xí)基于統(tǒng)計(jì)學(xué)原理,理論上只要輸入的信息越多越詳細(xì),神經(jīng)算法的效果就越好。不同于以往傳統(tǒng)的對(duì)復(fù)雜的大氣污染的物理化學(xué)過程和衛(wèi)星遙感原理的研究,神經(jīng)網(wǎng)絡(luò)算法為PM2.5的反演提供了新途徑。
1 數(shù)據(jù)來(lái)源及算法原理
1.1 數(shù)據(jù)來(lái)源
聚焦揚(yáng)州地區(qū),大氣污染數(shù)據(jù)來(lái)源于中國(guó)環(huán)境監(jiān)測(cè)總站,包括PM2.5和PM10,使用其逐小時(shí)數(shù)據(jù)計(jì)算日平均值。相應(yīng)的氣象數(shù)據(jù)來(lái)源于揚(yáng)州市氣象局自動(dòng)觀測(cè)站監(jiān)測(cè)數(shù)據(jù)。時(shí)間段為2018年1月1日—2022年11月30日。其中,2020年2月1日—6月30日數(shù)據(jù)缺失,不在研究范圍內(nèi)。
1.2 算法原理
1.2.1 卷積神經(jīng)網(wǎng)絡(luò)算法
卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Networks,CNN)
最早由Yann LeCun等提出。CNN 卷積神經(jīng)網(wǎng)絡(luò)是一種包含卷積計(jì)算且有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),是深度學(xué)習(xí)算法代表之一[12]。近年來(lái),隨著機(jī)器學(xué)習(xí)方法的不斷發(fā)展,CNN卷積神經(jīng)網(wǎng)絡(luò)算法也逐漸被應(yīng)用于大氣科學(xué)領(lǐng)域。 典型的CNN網(wǎng)絡(luò)結(jié)構(gòu)主要包含輸入層、隱含層和輸出層(圖1)。其中,隱含層主要包含卷積層、池化層和全連接層。數(shù)據(jù)通過輸入層后,依次在各個(gè)神經(jīng)網(wǎng)絡(luò)層傳遞,每一網(wǎng)絡(luò)層都能夠獲取對(duì)平移、縮放和旋轉(zhuǎn)不變的觀測(cè)數(shù)據(jù)的顯著特征。隱含層的主要作用是實(shí)現(xiàn)特征提取。
1.2.2 多元線性回歸
多元線性回歸模型(MLR)是應(yīng)用較為廣泛的統(tǒng)計(jì)方法,可用于研究因變量與多個(gè)自變量之間的關(guān)系。建立多元線性回歸模型可較好地解釋以及估計(jì)因變量的值,其一般形式為:
Y=β0+β1x1+β2x2+…+βmxm+ε(1)
式(1)中,Y為因變量,x1,x2,…,xm為自變量,β0,
β1,…,βm為回歸系數(shù),ε為隨機(jī)誤差。
1.2.3 模型變量選擇及評(píng)價(jià)指標(biāo)
嘗試建立基于氣象觀測(cè)數(shù)據(jù)的卷積神經(jīng)網(wǎng)絡(luò)算法(CNN)反演PM2.5的模型,輸入氣象觀測(cè)數(shù)據(jù),隨機(jī)挑選輸入的日數(shù)據(jù)的70%作為神經(jīng)網(wǎng)絡(luò)訓(xùn)練集,30%作為結(jié)果對(duì)比集。反演精度評(píng)價(jià)指標(biāo)包括:
均方根誤差(Root Mean Squared Error,RMSE)。
RMSE=(2)
均方絕對(duì)百分比誤差(Mean Absolute Percentage Error,MAPE)。
MAPE=||(3)
決定系數(shù)(Coefficient of Determination,R2)。
(4)
(5)
式(2)~式(5)中,為PM2.5實(shí)測(cè)值,為多元線性回歸MLR或卷積神經(jīng)網(wǎng)絡(luò)CNN反演得到的PM2.5。
2 結(jié)果與分析
2.1 PM2.5反演模型的建立
輸入?yún)?shù)包括PM10、能見度、溫度系列參數(shù)、氣壓系列參數(shù)、相對(duì)濕度系列參數(shù),露點(diǎn)溫度、風(fēng)向風(fēng)速系列參數(shù)、降水量和日照時(shí)數(shù)(表1)。利用皮爾遜相關(guān)系數(shù)r估計(jì)變量x,y間的相關(guān)性。r值介于[-1,1],r>0表示正相關(guān),即兩變量同向相關(guān),反之表示兩變量異向相關(guān)。r絕對(duì)值越接近1,表示兩變量的關(guān)系越密切;越接近0,表示兩變量的關(guān)系越不密切。表1是各變量因子與PM2.5的相關(guān)系數(shù)r和顯著性水平P。該表可以反映出,與PM2.5相關(guān)性較大的變量為PM10、VIS。其中,PM10、P、Pmax、Pmin、U、SSD這6個(gè)變量與PM2.5呈正相關(guān)關(guān)系,剩下的10個(gè)變量與PM2.5呈負(fù)相關(guān)關(guān)系。還可以發(fā)現(xiàn),除了U、WINDir和SSD,其余變量均在0.01水平(雙側(cè))上相關(guān)性顯著。
2.2 CNN與MLR反演性能對(duì)比
基于上述建立的PM2.5反演模型,輸入變量首先采用“試驗(yàn)5”的變量組合(表3),CNN和MLR的反演結(jié)果對(duì)比見表2。其中,按輸入數(shù)據(jù)的年份分為2年期、3年期、4年期和5年期。首先可以整體性地看出,MLR的R2值均小于CNN的R2值,MLR的RMSE和MAPE均大
于CNN的RMSE和MAPE,說(shuō)明CNN的反演精度要優(yōu)于MLR。然后對(duì)2年期的3組數(shù)據(jù)和3年期的2組數(shù)據(jù)取平均。
2年期的3組數(shù)據(jù)平均值為:
MLR:R2=0.744,RMSE=15.579,MAPE=9.028;
CNN:R2=0.826,RMSE=11.794,MAPE=8.768。
3年期的2組數(shù)據(jù)平均值為:
MLR:R2=0.798,RMSE=13.435,MAPE=8.580;
CNN:R2=0.849,RMSE=10.850,MAPE=7.908。
由此可以看出,隨著輸入數(shù)據(jù)年份數(shù)的增加,CNN
和MLR的反演性能指標(biāo)都在提升,其中,R2值隨著年份數(shù)的增加而增大,RMSE和MAPE隨著年份數(shù)的增加而減小。表明反演的相關(guān)性不斷提升,誤差不斷減小,精度有所提高。因此,若能有長(zhǎng)時(shí)間的年份數(shù)據(jù)作為神經(jīng)網(wǎng)絡(luò)的訓(xùn)練集,反演的PM2.5理論上十分接近實(shí)際的PM2.5。
2.3 CNN模型輸入?yún)?shù)的分析
在驗(yàn)證CNN模型的反演精度后,有必要對(duì)CNN模型的輸入?yún)?shù)做研究,探討各輸入?yún)?shù)對(duì)反演精度的影響情況??紤]依次增加輸入?yún)?shù),即“試驗(yàn)1”至“試驗(yàn)5”(表3)。由于PM10和能見度VIS與PM2.5的相關(guān)性較大,因此,將其作為基本的輸入?yún)?shù),即“試驗(yàn)1”,后依次增加溫度系列參數(shù)、氣壓系列參數(shù)、露點(diǎn)溫度,即“試驗(yàn)2”至“試驗(yàn)4”,“試驗(yàn)5”包含研究全部的氣象觀測(cè)數(shù)據(jù)參數(shù)。從反演的誤差結(jié)果可以看出,隨著輸入?yún)?shù)的不斷增加,RMSE值不斷減小,R2值不斷增加,說(shuō)明反演精度不斷提高,這也與上述介紹的機(jī)器學(xué)習(xí)的特性相對(duì)應(yīng):理論上,輸入的信息越多,機(jī)器學(xué)習(xí)的效果越好。
3 結(jié)論
(1)利用 CNN卷積神經(jīng)網(wǎng)絡(luò)算法反演PM2.5是有效可行的,且比一般的線性回歸算法效果更好,為反演PM2.5提供了一種新的機(jī)器學(xué)習(xí)方法。
(2)在影響PM2.5反演的各輸入變量因子中,PM10與能見度變量為高相關(guān)因子。利用神經(jīng)卷積網(wǎng)絡(luò)算法反演PM2.5理論上反演精度能夠隨著輸入信息增多而不斷提高,具體有待進(jìn)一步研究。
參考文獻(xiàn)
[1] 郭新彪,魏紅英.大氣PM2.5對(duì)健康影響的研究進(jìn)展[J].科學(xué)通報(bào),2013,58(13):1171-1177.
[2] 余鐘奇,馬井會(huì),毛卓成,等.2017年上海臭氧污染氣象條件分析及臭氧污染天氣分型研究[J].氣象與環(huán)境學(xué)報(bào), 2019,35(6):46-54.
[3] 嚴(yán)文蓮,劉端陽(yáng),康志明,等.江蘇臭氧污染特征及其與氣象因子的關(guān)系[J].氣象科學(xué),2019,39(4):477-487.
[4] 馮萬(wàn)富,沈新志,周繼良,等.基于氣象要素的雞公山景區(qū)PM10濃度預(yù)測(cè)[J].河南大學(xué)學(xué)報(bào)(自然科學(xué)版),2022,52(5): 571-578.
[5] 魏文靜,謝炳庚,周楷淳,等.2013—2018年山東省大氣PM2.5和PM10污染時(shí)空變化及其影響因素[J].環(huán)境工程, 2020,38(12):103-111.
[6] 黃小剛,趙景波,孫從建,等.汾渭平原PM2.5空間分布的地形效應(yīng)[J].環(huán)境科學(xué),2021,42(10):4582-4592.
[7] 何鈺清,李磊,楊紅龍,等.深圳PM2.5濃度變化趨勢(shì)及其月尺度預(yù)測(cè)方法[J].科學(xué)技術(shù)與工程,2022,22(1):400-408.
[8] 刁一偉,王紅磊,沈利娟,等.2015—2021年南京市大氣污染特征及污染個(gè)例研究[J].環(huán)境科學(xué)研究,2023,36(2):260-272.
[9] 陳兵紅,靳全鋒,柴紅玲,等.浙江省大氣PM2.5時(shí)空分布及相關(guān)因子分析[J].環(huán)境科學(xué)學(xué)報(bào),2021,41(3):817-829.
[10] 石靈芝,鄧啟紅,路嬋,等.基于BP人工神經(jīng)網(wǎng)絡(luò)的大氣顆粒物PM10質(zhì)量濃度預(yù)測(cè)[J].中南大學(xué)學(xué)報(bào)(自然科學(xué)版),2012,43(5):1969-1974.
[11] 胡娟,鄭軍,許文龍,等.利用多源數(shù)據(jù)建立GA-BP算法模型估算PM2.5的研究[J].氣象科學(xué),2021,41(3):314-322.
[12] 姚姝含,官莉.基于星載紅外高光譜觀測(cè)用機(jī)器學(xué)習(xí)算法反演大氣溫濕廓線[J].紅外與激光工程,2022,51(8):461-472.