融合氣象參數(shù)及污染物濃度的空氣質量預測方法

2018-08-15 08:15:24萬永權徐方勤燕彩蓉蘇厚勤

計算機應用與軟件 2018年8期

萬永權徐方勤燕彩蓉蘇厚勤

1(上海建橋學院計算機科學與技術系上海 201306)2(東華大學計算機科學與技術學院上海 201620)

0 引言

空氣污染一直影響著自然環(huán)境和人類健康，而且從長遠來看，它還會加劇對地球的危害。作為一種可靠而有效的污染控制措施，空氣質量預測已成為近年來一個重要研究領域[1-4]。

傳統(tǒng)方法多采用數(shù)值預測模型和回歸統(tǒng)計模型。前者主要依賴于污染物濃度數(shù)據(jù)本身，后者則主要通過分析大量影響污染物濃度的因子，建立這些影響因子與污染物濃度之間的線性或非線性關系，預測的準確度主要依賴于數(shù)學模型本身[1]。人工神經(jīng)網(wǎng)絡是使用最廣泛的空氣質量預測模型，通常采用污染物濃度作為主要輸入，然后輸出第二天或下一個時間段的平均空氣質量指數(shù)AQI(air quality index)[2]。BP神經(jīng)網(wǎng)絡雖然應用廣泛，但存在收斂速度慢和易陷入極小值的缺陷，相關研究將混沌變量加入遺傳算法來進一步提高遺傳算法的全局搜索能力和收斂速度，將混沌遺傳算法優(yōu)化后得到的最優(yōu)解作為BP神經(jīng)網(wǎng)絡的初始權重和閾值[3]。為了更準確地描述和預測某區(qū)域的空氣質量，可以采用多個站點來收集數(shù)據(jù)，并且通過多個污染物來綜合評估空氣質量，預測其AQI值[4]。隨著物聯(lián)網(wǎng)的發(fā)展，基于大數(shù)據(jù)的空氣質量指數(shù)預測方法成為研究熱點，即通過大量歷史數(shù)據(jù)，分析空氣質量變化規(guī)律，然后結合實時采集的數(shù)據(jù)，建立預測模型[5]。為了進一步提高預測準確度，一些混合模型或算法被提出，如將BP網(wǎng)絡和小波分解模型相結合[6]，將差分進化算法DE、集成經(jīng)驗模態(tài)分解的改進算法CEEMD和極限學習機ELM相結合[7]，采用模糊綜合評估模型[8]。雖然這些混合模型相比單一模型具有更高的精度，但由于污染物濃度受多種因素影響，使用單一污染物濃度數(shù)據(jù)源作為輸入進行預測的效果也會受到限制，而且數(shù)據(jù)的時序性在預測時也是一個非常重要的關系[9-10]。本項目組研究發(fā)現(xiàn)氣象參數(shù)對污染物濃度的變化有較大的影響，而且不同污染物受不同氣象參數(shù)的影響程度也不同[11]。

考慮到空氣污染物受到各方面的影響，而且變化快，所以本文主要研究短期的(每小時)污染物濃度預測，在建模時利用序列預測、相關性分析和神經(jīng)網(wǎng)絡模型，采用氣象參數(shù)和各項污染物濃度數(shù)據(jù)作為輸入，以此提高預測準確度，在模型訓練時采用更大的數(shù)據(jù)集進行模型參數(shù)學習。

1 氣象參數(shù)與污染物濃度相關性分析

氣象參數(shù)通過給定時間內大氣狀態(tài)采樣來獲得。主要氣象參數(shù)包括溫度、濕度、風向、風速、氣壓、太陽輻射、降水等，本文主要分析前5個。為了分析他們之間的關系，采集2015年-2016年上海市每天發(fā)布的5個氣象參數(shù)。給定隨機變量x和y，它們之間的相關系數(shù)定義為：

(1)

式中：Cov(x,y)表示x與y的協(xié)方差，V(x)為x的方差，V(y)為y的方差，ρ表示x和y的相關程度。

ρ取值范圍為[-1,1]，ρ≤0表示兩者無關，ρ>0表示兩者相關，當ρ>0.3時，可以認為兩個參數(shù)之間存在強相關。表1列出了5個氣象參數(shù)之間的相關系數(shù)。

表1 各氣象參數(shù)之間的相關關系

根據(jù)計算產(chǎn)生的氣象參數(shù)之間的相關系數(shù)，可以在構建神經(jīng)網(wǎng)絡時選擇合適的輸入，不僅可以減少模型訓練的參數(shù)，而且也避免了不必要的參數(shù)對預測結果產(chǎn)生的負面影響。

空氣質量預測主要通過空氣污染擴散模型測量或計算大氣污染物濃度。中國大陸的AQI是根據(jù)6個大氣污染物濃度來計算，即二氧化硫(SO2)、二氧化氮(NO2)、一氧化碳(CO)、臭氧(O3)、空氣動力學當量直徑小于等于2.5微米的顆粒物(PM2.5)、空氣動力學當量直徑小于等于10微米的顆粒物(PM10)，通過在每個城市的環(huán)境監(jiān)測站對它們進行測量。如空氣質量指數(shù)為0～50時，表示空氣質量級別為I級，空氣質量狀況屬于優(yōu)，此時不存在空氣污染問題，對公眾的健康沒有任何危害。

根據(jù)2015年-2016年上海市某站點監(jiān)測的每天24小時的污染物狀況和同期氣象參數(shù)數(shù)據(jù)，采用SPSS工具提供的“分析-回歸-自動線性建模”，繪制了氣象參數(shù)對污染物濃度的影響，如圖1所示。由此圖可知，風速對NO2、PM2.5和PM10的影響最大，濕度對O3和SO2的影響最大，CO主要受溫度和風速的影響。然而，空氣壓力對SO2、NO2、PM2.5和PM10的影響最小，風向對CO和O3的影響最小。風向對CO和O3的影響最小。

圖1 氣象參數(shù)對污染物濃度的影響程度

2 空氣質量預測方法

根據(jù)氣象參數(shù)和污染物濃度之間的數(shù)據(jù)分析，提出空氣質量預測系統(tǒng)框架，如圖2所示。該框架由3部分組成。第1部分是數(shù)據(jù)生成，包括兩類數(shù)據(jù)，污染物濃度數(shù)據(jù)和氣象參數(shù)數(shù)據(jù)，它們都需要進行預處理，如歸一化處理、空值填充和異常值檢測。第2部分為模型構建與訓練，預測模型是本方法的重點，使用歷史數(shù)據(jù)集來訓練模型，數(shù)據(jù)集被分成3份：訓練集、驗證集和測試集。第3部分為模型服務，驗證后的模型及其參數(shù)將被保存，并提供在線預測功能。

圖2 空氣質量預測框架

在此框架下，具體的預測步驟描述如下：

1) 收集數(shù)據(jù)。5個氣象參數(shù)數(shù)據(jù)從上海市氣象局官網(wǎng)采集，每天一次；污染物濃度數(shù)據(jù)從監(jiān)測站點獲得，每小時都能獲取最新的6個污染物濃度數(shù)據(jù)。所以每條氣象參數(shù)記錄的更新頻率為一天，每條污染物濃度記錄的更新頻率為一小時。

2) 數(shù)據(jù)預處理。首先是歸一化處理，若數(shù)據(jù)x被歸一化的結果為Norm(x)，xmin表示該數(shù)據(jù)出現(xiàn)的最小值，xmax表示該數(shù)據(jù)出現(xiàn)的最大值，計算方法如下：

(2)

當出現(xiàn)數(shù)據(jù)空值的情況時，對于污染物濃度數(shù)據(jù)，因為相差只有1個小時，所以直接采用上一個歷史數(shù)據(jù)進行填充；對于氣象數(shù)據(jù)，每天的變化比較大，所以采用最近一周的平均值來進行填充。

當出現(xiàn)數(shù)據(jù)值異常時，如溫度超過50度，這時將與數(shù)據(jù)出現(xiàn)空值時采用相同的策略進行填充。

3) 數(shù)據(jù)相關性分析。分析5個氣象參數(shù)內部以及與污染物濃度之間的關系，發(fā)現(xiàn)參數(shù)之間的強相關性和弱相關性。

4) 第一階段神經(jīng)網(wǎng)絡模型。采用氣象參數(shù)作為輸入。對于隱藏層中的每個節(jié)點，輸出可以表示為：

a(l+1)=f(W(l)a(l)+b(l))

(3)

式中：l代表層數(shù)，f是激活函數(shù)，選用relu。參數(shù)a(l)、b(l)和W(l)分別表示上一層輸出的激勵、偏置項和模型第l層的權重參數(shù)。模型采用relu激活函數(shù)的原因在于：它不會出現(xiàn)像sigmoid函數(shù)和tanh函數(shù)一樣的梯度消失現(xiàn)象。此外，由于它是線性的，只需要一個閾值就可以得到激活值，不需要復雜的運算，所以使用relu得到的隨機梯度下降算法的收斂速度會比sigmoid和tanh快。

5) 第二階段神經(jīng)網(wǎng)絡模型。輸入包括：4)的輸出結果、根據(jù)3)選擇的重要氣象參數(shù)，以及需要預測的污染物濃度的歷史序列。也就是說，不同的污染物濃度預測，其模型結構相同，但是輸入不同，而且需要學習的權重也不同。輸出為該污染物在下一個小時內的濃度預測值。

6) AQI計算。根據(jù)各污染物濃度預測值，采用相關公式，計算新的AQI值。

本方法通過預測污染物濃度來預測AQI值，而不是直接通過模型來預測AQI值。

3 預測模型

根據(jù)預測框架，預測模型也分為兩個神經(jīng)網(wǎng)絡模型單獨進行，而且不同的污染物濃度的預測也是獨立進行，最終的輸出結果是污染物濃度預測值。為了方便表述，本文提出的預測方法稱為two-phase neural network (2-NN)，采用的相關模型稱為2-NN模型,見圖3。

圖3 預測模型結構

模型訓練過程中，當數(shù)據(jù)學習過于徹底時，會產(chǎn)生噪聲特征，將影響后期的預測效果，即模型對訓練數(shù)據(jù)表現(xiàn)良好，但對未知的數(shù)據(jù)表現(xiàn)則不佳，出現(xiàn)了過擬合現(xiàn)象。

導致過擬合原因包括：1) 數(shù)據(jù)不純，需要重新清理數(shù)據(jù)；2) 訓練數(shù)據(jù)量太少，或訓練數(shù)據(jù)占的比例太小，也可能出現(xiàn)過擬合。解決方法可以有：對數(shù)據(jù)進行預處理；增加訓練的數(shù)據(jù)量；采用L2正則化方法；采用Dropout方法。Dropout方法在ImageNet方法中提出，而后在神經(jīng)網(wǎng)絡中也被廣泛使用。本文在訓練模型時綜合采用以上幾種解決方法來避免模型訓練的過擬合現(xiàn)象。

4 實驗結果

4.1 實驗準備

實驗使用兩個數(shù)據(jù)集，分別為上海市某環(huán)境監(jiān)測站采集的每小時空氣污染物濃度數(shù)據(jù)和上海市氣象中心發(fā)布的每日氣象參數(shù)數(shù)據(jù)。所有數(shù)據(jù)將通過歸一化、空值填充和異常值檢測等方法進行預處理，使得數(shù)據(jù)盡可能完整，總記錄數(shù)約為17 500條。

數(shù)據(jù)以6∶2∶2劃分為訓練集、驗證集和測試集。采用均方根誤差RMSE和均方誤差MSE作為預測準確度評估，兩者定義如下：

(4)

(5)

通過與本領域相關的幾個經(jīng)典方法進行比較來評估本文的方法。經(jīng)典方法包括：1) 支持向量機(SVM)，這是一種基于隱式反饋數(shù)據(jù)集的個性化排序方法，它使用標準的矩陣分解進行潛在預測，實驗采用3種模型，分別為SVR、NuSVR和LinearSVR；2) 神經(jīng)網(wǎng)絡，每個稀疏和高維的分類特征首先被轉換成低維和密集的實值向量，這些低維密集嵌入向量與連續(xù)特征級聯(lián)，然后被送到前向通道中神經(jīng)網(wǎng)絡的隱藏層，實驗采用3種模型來優(yōu)化，分別為sgd、lbfgs和adam；3) K最近鄰(KNN)，這是具有交叉特征列的線性模型，利用加權平均值實現(xiàn)KNN回歸算法，實驗分別采用K=2、5、10來進行測試；4) 本文方法2-NN。

所有實驗在一臺具有28核的Linux服務器中通過Python語言編程完成計算。該服務器配置為Inter?Xeon?E5-2407 CPU @ 2.40 GHz處理器，64 GB內存。為了進行公平的比較，對所有方法使用相同的數(shù)據(jù)。

4.2 結果與評價

表2所示為不同方法對6個污染物濃度的預測準確度比較，表中數(shù)據(jù)為實際測試數(shù)據(jù)的再乘以1/100。從表中可以看出，本文方法相比其他方法具有更高的準確度。

表2 不同方法對6個污染物濃度的預測準確度比較

圖4所示為采用不同序列長度的污染物濃度數(shù)值對預測結果的影響?？梢钥闯觯煌廴疚餄舛葘v史序列的依賴性不同。根據(jù)分析，本文主要采用最近2個時間點的序列數(shù)據(jù)作為參考。

圖4 不同序列長度下6個污染度濃度的RMSE比較

污染物濃度預測最終是為了預測空氣質量。為了更好地說明本文方法的優(yōu)勢，采用三種方法分別對AQI進行預測，分別為：1) 長短期記憶網(wǎng)絡(LSTM)，一種遞歸神經(jīng)網(wǎng)絡模型，具有獨特的結構，適合處理預測更長的時間間隔；2) BP神經(jīng)網(wǎng)絡BPNN；3) 本文方法2-NN。

AQI是政府機構用來向公眾傳達目前空氣污染程度的數(shù)字。隨著AQI值的增大，越來越多的人群可能健康遭受影響。AQI的計算公式為：

(6)

式中：C表示污染物濃度(記錄或預測)，Clow和Chigh表示污染物濃度的最低和最高值，Ilow和Ihigh是污染物指數(shù)的最低和最高值。Clow、Chigh、Ilow和Ihigh都是常數(shù)，由環(huán)境空氣質量指數(shù)(AQI)技術規(guī)定(試行)(HJ 633-2012)。

圖5所示為不同方法在預測AQI時的準確度比較。從中可以看到本文方法比其他兩個方法的預測效果更好。

圖5 不同方法的AQI預測準確度比較

5 結語

本文提出了一種空氣質量預測方法。該方法綜合考慮氣象參數(shù)以及污染物濃度之間的相關關系，對歷史大數(shù)據(jù)進行分析，采用兩級神經(jīng)網(wǎng)絡模型，根據(jù)預測的每小時空氣污染物濃度來計算空氣質量指數(shù)。通過與其他經(jīng)典方法的對比實驗表明，本文方法能夠更準確地預測每小時空氣污染物濃度和AQI值。

影響污染物濃度的因素特別多，除了氣象參數(shù)，還有季節(jié)因素、交通狀況等等，為了獲得更準確地空氣質量指數(shù)預測值，下一步還需要研究更多的數(shù)據(jù)，從而發(fā)現(xiàn)更準確的規(guī)律。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看