朱 茜
(河南省氣象探測數(shù)據(jù)中心,河南 鄭州 450003)
2021 年11 月,中共中央、國務(wù)院印發(fā)《關(guān)于深入打好污染防治攻堅戰(zhàn)的意見》,《意見》指出,污染防治攻堅戰(zhàn)階段性目標任務(wù)圓滿完成,但重點區(qū)域、重點行業(yè)污染問題仍然突出,實現(xiàn)碳達峰、碳中和的任務(wù)艱巨,要深入打好污染防治攻堅戰(zhàn)。到2025 年,全國重度及以上污染天數(shù)比率控制在1%以內(nèi)。國家環(huán)境部門和氣象部門也加大了對空氣質(zhì)量的監(jiān)督和防治[1]??諝赓|(zhì)量指數(shù)[2](Air Quality Index,簡稱AQI)定量為描述空氣的質(zhì)量和污染狀況的無量綱指數(shù),其代表的意義為AQI 數(shù)值越大、空氣污染級別和類別越高、表征顏色越深,說明該區(qū)域的空氣污染狀況越嚴重,空氣質(zhì)量的好壞直接影響著人們的健康??諝赓|(zhì)量綜合指數(shù)[3-4]綜合考慮了《環(huán)境空氣質(zhì)量指數(shù)(AQI)技術(shù)規(guī)定(試行)》(HJ 633—2012)中規(guī)定了細顆粒物(PM2.5)、可吸入顆粒物(PM10)、二氧化硫(SO2)、二氧化氮(NO2)、臭氧(O3)、一氧化碳(CO)等六種污染物污染程度。對于AQI[5-7]的計算與評價過程主要分為三步:首先主要是對照六種污染物的分級濃度的限值[AQI 的濃度限值參照(GB 3095—2012)和API的濃度限值參照(GB 3095—1996)],然后以細顆粒物(PM2.5)、可吸入顆粒物(PM10)、二氧化硫(SO2)、二氧化氮(NO2)、臭氧(O3)、一氧化碳(CO)等各項污染物的實際測量濃度值(其中PM2.5、PM10為24 小時平均濃度)來計算出空氣質(zhì)量分指數(shù)(Individual Air Quality Index,簡稱IAQI);然后通過從各項污染物的IAQI中選擇最大的值確定為AQI,當AQI大于50時將IAQI 最大的污染物確定為首要污染物;最后是根據(jù)AQI 分級標準,確定空氣質(zhì)量級別、類別及對公眾表示的顏色、健康影響與建議應(yīng)采取的防護措施。傳統(tǒng)的空氣質(zhì)量預測模型和方法已然不能滿足和符合當前社會的需求,對空氣質(zhì)量的預測算法和監(jiān)測需要更為高效準確的方法。
機器學習算法是通過大數(shù)據(jù)分析自動獲得規(guī)律,然后利用獲得的規(guī)律(數(shù)學模型)對未知的數(shù)據(jù)進行預測與評估的算法。機器學習已廣泛應(yīng)用在經(jīng)濟、農(nóng)業(yè)、交通等多個領(lǐng)域,對人類社會發(fā)展做出了卓越貢獻。目前國內(nèi)外雖然對環(huán)境空氣質(zhì)量指數(shù)(AQI)的計算方法有所不同,但已經(jīng)引起了各個國家的重視。如大氣污染防治方面,通過利用IBM認知計算、大數(shù)據(jù)挖掘分析技術(shù)以及信息物聯(lián)網(wǎng)技術(shù)的優(yōu)勢,獲取并分析大量的環(huán)境監(jiān)測站和氣象衛(wèi)星傳送的實時數(shù)據(jù),依靠自學能力和超級計算處理能力,向公眾社會提供未來的高精度環(huán)境質(zhì)量預報,實現(xiàn)對大城市地區(qū)的主要污染物來源分析和分布狀況的實時監(jiān)測。微軟亞洲互聯(lián)網(wǎng)工程院2014年發(fā)布的人工智能機器人技術(shù)就是基于城市大數(shù)據(jù)預測大氣質(zhì)量的技術(shù),第一時間對PM2.5進行預測。因此利用機器學習對空氣質(zhì)量進行研究分析是一種可行方案。
本研究提出將機器學習、氣象要素與各種污染物相結(jié)合,通過對鄭州市2019 年的空氣質(zhì)量及氣象要素進行建模處理,結(jié)合信息技術(shù),利用機器學習算法,對海量數(shù)據(jù)進行處理分析,實現(xiàn)了空氣質(zhì)量預測的準確性和及時性,為大氣污染防治提供了一定的科學技術(shù)支撐。
隨著氣象信息化的不斷發(fā)展,氣象每天都會產(chǎn)生海量的氣象數(shù)據(jù),如何能夠從海量的數(shù)據(jù)中獲取更有價值的信息,并通過這些信息更好地服務(wù)天氣預測對氣象領(lǐng)域的研究起到關(guān)鍵作用。機器學習及數(shù)據(jù)挖掘技術(shù)的發(fā)展為以上問題提供了更好的途徑和方法。
本研究所使用的數(shù)據(jù)為2019 年的河南省生態(tài)環(huán)境廳空氣質(zhì)量監(jiān)測站歷史數(shù)據(jù)與河南省氣象CIMISS 歷史氣象數(shù)據(jù)??諝赓|(zhì)量監(jiān)測站歷史數(shù)據(jù)和歷史氣象數(shù)據(jù)為逐小時數(shù)據(jù),共8 760 組。通過數(shù)據(jù)的融合,主要包括了站號、時間、空氣質(zhì)量指數(shù)、二氧化硫、二氧化氮、可吸入顆粒物、細顆粒物、一氧化碳、臭氧、溫度、相對濕度、風速、能見度、小時雨量等14 個特征,其中站號和時間在本研究中作為無效特征值,在機器學習建模的時候不為所用,其他特征為機器學習建模所用。
圖1為模型結(jié)構(gòu)示意圖。
圖1 模型結(jié)構(gòu)
在本研究中,環(huán)境數(shù)據(jù)和氣象數(shù)據(jù)各個特征的量綱不同,為了減小對建立數(shù)據(jù)模型產(chǎn)生的影響,可以通過數(shù)據(jù)歸一化算法的離差標準化(min-max標準化),來提高機器學習對未來數(shù)據(jù)預測的速度和準確性。數(shù)據(jù)歸一化是將不同特征的數(shù)據(jù)統(tǒng)一映射到[0,1]區(qū)間上。離差標準化公式如式(1)。
式中:Xnorm設(shè)為數(shù)據(jù)經(jīng)過歸一化的特征值,X為數(shù)據(jù)的原始特征值,Xmax 和Xmin 為原始的數(shù)據(jù)集中對應(yīng)特征的最大值和最小值。通過對疑誤值、缺測值以及數(shù)據(jù)歸一化的處理,數(shù)據(jù)總共8 760組,截取的部分數(shù)據(jù)如圖2所示。
圖2 數(shù)據(jù)預處理
經(jīng)過前期數(shù)據(jù)的預處理,采用皮爾遜相關(guān)系數(shù)對環(huán)境和氣象數(shù)據(jù)的各個特征值進行相關(guān)性的分析[8]。皮爾森相關(guān)系數(shù)是用于度量兩個變量(X和Y)線性相關(guān)程度的統(tǒng)計量。相關(guān)系數(shù)用r表示,其中n為樣本量,分別為兩個變量的觀測值和均值。r描述的是兩個變量間線性相關(guān)強弱的程度。r值介于-1 到1 之間,絕對值越大表明兩個變量的相關(guān)性越強。圖3 為空氣質(zhì)量、空氣污染物、氣象因子的相關(guān)系數(shù),圖4 為空氣污染物與氣象因子的相關(guān)性,從圖3 和圖4 中可以看出,空氣質(zhì)量與PM2.5、PM10、CO 的相關(guān)性分別為0.95、0.9、0.73,空氣質(zhì)量與氣象要素中的能見度(VIS)相關(guān)性為0.53,與氣溫(TEM)相關(guān)性為0.43??諝赓|(zhì)量與PM2.5、PM10、CO 三者的相關(guān)性最強,跟這三者有著最直接的關(guān)系??諝馕廴疽蜃优c氣象要素因子的相關(guān)性,其中PM10與能見度(VIS)的相關(guān)性為0.46;SO2與氣溫(TEM)的相關(guān)性為0.48;NO2與氣溫(TEM)的相關(guān)性為0.46,與風速(WIN)的相關(guān)性為0.54,與能見度(VIS)的相關(guān)性為0.46;CO 與氣溫(TEM)的相關(guān)性為0.49,與能見度的相關(guān)性為0.68;O3與氣溫(TEM)的相關(guān)性為0.71,與濕度(RHU)的相關(guān)度為0.44,與能見度(VIS)為0.45??傻贸隹諝赓|(zhì)量直接影響因子是空氣污染物因子,但是空氣污染物因子又與氣象中的氣溫、風速、能見度、濕度又有直接關(guān)系。
圖3 空氣質(zhì)量、空氣污染物、氣象因子的相關(guān)系數(shù)
圖4 空氣污染物與氣象因子的相關(guān)性
回歸分析[3]是通過因變量和自變量相互依賴的定量關(guān)系,來確定兩個變量之間的因果關(guān)系,從而實現(xiàn)回歸模型的建立,并通過實際測量數(shù)據(jù)來對回歸模型的各個參數(shù)進行求解,最后對回歸模型進行評價,來確認該模型能否很好地擬合實際測量數(shù)據(jù)。如果擬合效果良好,便可以根據(jù)自變量進行下一步預測。本研究通過多個機器學習中的回歸算法[多元線性、SVM(支持向量機)、隨機森林]來對空氣質(zhì)量進行模型的建立。
Y為因變量,X1,X2,…,Xk為自變量,如果當自變量與因變量之間具備線性關(guān)系時,多元線性回歸模型表達為式(2)。
式中:b0為常數(shù)項,b1,b2,…,bk為回歸系數(shù),Y為空氣質(zhì)量指數(shù)(AQI),X1,X2,…,Xk為空氣污染因子和氣象要素。通過Python 語言件對數(shù)據(jù)進行回歸分析,分析結(jié)果得到常數(shù)項和回歸系數(shù),以下為預測模型。最佳擬合線為式(3)。截距為-0.017 659 648 736 074 673,回歸系數(shù)為[0.452 175 73-0.080 567 37 0.019 650 93 0.014 091 73 0.097 509 53 0.755 848 22-0.038 128 07 0.005 530 39 0.002 335 67 0.028 013 76 0.021 300 94]。圖5為多元線性回歸真實值與預測值對比。
圖5 多元線性回歸真實值與預測值對比
支持向量機方法[9]是建立在統(tǒng)計學習理論的VC 維理論和結(jié)構(gòu)風險最小原理基礎(chǔ)上的,根據(jù)有限的樣本信息在模型的復雜性(即對特定訓練樣本的學習精度)和學習能力(即無錯誤地識別任意樣本的能力)之間尋求最佳折中,以期獲得最好的推廣能力。圖6為支持向量機真實值與預測值對比。
圖6 支持向量機真實值與預測值對比
隨機森林屬于機器學習的一大分支——集成學習方法,隨機森林最小的單元是決策樹,通過集成學習的思想,將許多決策樹整合到一起構(gòu)成隨機森林,且森林中的每一棵決策樹之間沒有關(guān)聯(lián),模型的最終輸出由森林中的每一棵決策樹共同決定。處理回歸問題時,則以每棵決策樹輸出的均值為最終結(jié)果。圖7為隨機森林真實值與預測值對比。
圖7 隨機森林真實值與預測值對比
交叉驗證是在通過機器學習建立模型后,使用的最普遍最經(jīng)典的驗證模型參數(shù)時常用的方法。本研究在使用交叉驗證時,首先將歸一化和處理過的數(shù)據(jù)集分為了訓練數(shù)據(jù)集和測試數(shù)據(jù)集兩個部分,分別占80%和20%,然后通過使用訓練數(shù)據(jù)集來構(gòu)建各個模型,最后通過測試數(shù)據(jù)集用來判斷所建模型的泛化能力,也就是該模型是否對于未知數(shù)據(jù)具有精確的預測能力。
回歸模型評估指標有三種方法,分別是:平均絕對值誤差、均方誤差和R平方值。平均絕對誤差(Mean Absolute Error,MAE)是所有單個觀測值與算術(shù)平均值的偏差的絕對值的平均,主要是用來評估真實數(shù)據(jù)集和預測結(jié)果兩者的接近程度,如果兩者的擬合效果越好,其值就越小。均方誤差(Mean Squared Error,MSE)該指標計算的是擬合數(shù)據(jù)和原始數(shù)據(jù)對應(yīng)樣本點誤差的平方和的均值,如果該值越好,則說明擬合的效果越好。R平方值,其含義是也是解釋回歸模型的方差得分,其取值范圍是[0,1],越接近于1,表明回歸平方和占總平方和的比例越大,回歸線與各個觀測點越接近,用自變量的變化來解釋因變量變化的部分越多,回歸的擬合程度就越好。
通過回歸模型評估指標的三種方法進行對比(見表1),其中關(guān)于平均絕對值誤差,隨機森林的絕對值最小,真實數(shù)據(jù)集合預測結(jié)果接近,擬合的效果好;關(guān)于均方差,誤差越大,該值越大,線性回歸模型相對較好;關(guān)于R平方值,隨機森林的R 平方值最大,回歸的擬合程度就越好。綜合來說,空氣質(zhì)量和空氣污染物因子、氣象要素因子更適合選用隨機森林來建立數(shù)學模型。
表1 各個模型評估結(jié)果對比
本研究提出了基于機器學習的空氣質(zhì)量模型的分析與研究,選取鄭州市2019 年全年空氣質(zhì)量和氣象的逐小時數(shù)據(jù),分別分析了空氣質(zhì)量與空氣污染物因子的相關(guān)性以及空氣污染物因子與氣象要素的相關(guān)性。最終選取空氣污染物和氣象要素作為輸入因子,采用線性回歸、支持向量機、隨機森林等方法分別建立了多個回歸模型,通過對回歸模型的評估算法的結(jié)果選取合適的預測模型。但該方法目前只適應(yīng)于站點的模型建立與預測,下一步應(yīng)繼續(xù)進行深度研究,從站點來繁衍出格點的實況預測模型。