(西南科技大學(xué) 信息工程學(xué)院,四川 綿陽 621000)
大氣污染形勢(shì)嚴(yán)峻,以可吸入顆粒物(PM10)、細(xì)顆粒物(PM2.5)為特征污染物的區(qū)域性大氣環(huán)境問題日益突出,嚴(yán)重危害著人們的身心健康和生活環(huán)境質(zhì)量。隨著我國工業(yè)化、城鎮(zhèn)化的快速推進(jìn),資源消耗持續(xù)增加,空氣污染防治壓力持續(xù)加大。了解空氣質(zhì)量現(xiàn)狀,及時(shí)采取有效措施進(jìn)行治理,是改善空氣質(zhì)量的唯一途徑[1]。因此,對(duì)環(huán)境空氣污染物濃度進(jìn)行預(yù)測(cè)成為近幾年的研究熱點(diǎn)。
環(huán)境空氣污染物濃度預(yù)測(cè)分為兩類:機(jī)理模型和統(tǒng)計(jì)學(xué)習(xí)模型[1]。其中,機(jī)理模型是根據(jù)氣象、地理環(huán)境和污染源模擬污染物累積、釋放或擴(kuò)散過程[2],雖具有很強(qiáng)的適應(yīng)性、模型參數(shù)易調(diào)整等優(yōu)點(diǎn),但過于依賴精確的數(shù)學(xué)模型,實(shí)現(xiàn)復(fù)雜且需要高計(jì)算能力的計(jì)算機(jī)和較長的運(yùn)行時(shí)間[3-4];統(tǒng)計(jì)學(xué)習(xí)模型不僅善于描述復(fù)雜的非線性關(guān)系,還避免了對(duì)精確數(shù)學(xué)模型的過分依賴,具有較好的預(yù)測(cè)精度和運(yùn)行效率[5-6]。
支持向量機(jī)(Support Vector Machine,SVM)、非線性回歸、人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)和深度信念網(wǎng)(Deep Belief Networks,DBNs)等統(tǒng)計(jì)學(xué)模型已成功地應(yīng)用于環(huán)境空氣污染物濃度預(yù)測(cè)研究[7-9]。文獻(xiàn)[7]運(yùn)用ANN模型預(yù)測(cè)PM2.5小時(shí)濃度,預(yù)測(cè)系統(tǒng)結(jié)構(gòu)簡單且具有較好地預(yù)測(cè)能力,但存在局部最優(yōu)和過擬合問題;文獻(xiàn)[8]在文獻(xiàn)[7]的基礎(chǔ)上利用小波分解和SVM對(duì)PM10濃度時(shí)序數(shù)據(jù)進(jìn)行預(yù)測(cè),克服了ANN導(dǎo)致的局部最優(yōu)和過擬化問題,并且提升了泛化能力,但是數(shù)據(jù)單一,未做缺失值處理影響預(yù)測(cè)精度又缺乏數(shù)據(jù)深度相關(guān)性的分析。鄭毅[9]等人基于DBNs方法較好的預(yù)測(cè)出區(qū)域整體的PM2.5日均值變化趨勢(shì),并與RBF的人工神經(jīng)網(wǎng)絡(luò)方法進(jìn)行比較,得出DBNs方法具有更好的預(yù)測(cè)精度,但存在局部優(yōu)化、收斂速率慢和由于采用滑動(dòng)窗口而導(dǎo)致更早時(shí)間之前的序列數(shù)據(jù)信息丟失問題。文獻(xiàn)[10]運(yùn)用主成分分析(Principal Component Analysis,PCA)對(duì)氣象因子和空氣污染物因子進(jìn)行降維和提取,并結(jié)合最小二乘支持向量機(jī)(Least Squares Support Vector Machine,LSSVM),建立環(huán)境污染物PM2.5濃度預(yù)測(cè)模型,克服了文獻(xiàn)[7]存在的維度災(zāi)難問題,但局部優(yōu)化能力和泛化能力弱。上述方法雖都取得較好的預(yù)測(cè)結(jié)果,但仍存在以下幾個(gè)問題:① 缺失值未做處理,使時(shí)序信息提取不完整;② 維度災(zāi)難,輸入因子增多,伴隨著訓(xùn)練樣本大幅度增多,在實(shí)際應(yīng)用中難以滿足;③ 不相關(guān)因子的干擾,加入非標(biāo)識(shí)的特征因子,不僅降低模型性能而且干擾模型學(xué)習(xí);④ 時(shí)間序列內(nèi)在依賴關(guān)系未進(jìn)行關(guān)聯(lián),導(dǎo)致時(shí)間序列信息的丟失?;谝陨蠁栴}和文獻(xiàn)[10]多指標(biāo)降維思想的啟發(fā),作者考慮到門控循環(huán)單元(Gates Recurrent Units,GRU) 神經(jīng)網(wǎng)絡(luò)是在傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)上進(jìn)行改進(jìn)的,它既能繼承RNN探索序列數(shù)據(jù)內(nèi)在依賴關(guān)系的能力,又能解決傳統(tǒng)RNN因序列過長而導(dǎo)致的梯度消失、訓(xùn)練時(shí)間長和過擬合等問題,并提升局部優(yōu)化能力和網(wǎng)絡(luò)泛化能力[11]。
因此,本文將綿陽市4個(gè)監(jiān)測(cè)站點(diǎn)的環(huán)境空氣污染物濃度數(shù)據(jù)和氣象數(shù)據(jù)作為數(shù)據(jù)集,提出將遺傳算法(Genetic Algorithm,GA)[12]和門控循環(huán)單元神經(jīng)網(wǎng)絡(luò)相結(jié)合的環(huán)境空氣污染物PM2.5小時(shí)濃度預(yù)測(cè)模型,以提高空氣污染物濃度預(yù)測(cè)模型的訓(xùn)練時(shí)間、預(yù)測(cè)精度和網(wǎng)絡(luò)泛化能力等,并通過TensorFlow-GPU深度學(xué)習(xí)平臺(tái)分別與GRU、DBNs兩種預(yù)測(cè)模型的預(yù)測(cè)效果進(jìn)行對(duì)比分析,驗(yàn)證所設(shè)計(jì)的GA-GRU預(yù)測(cè)模型的有效性、合理性。
綿陽,隸屬于四川省,中國唯一的科技城,是重要的國防科研和電子工業(yè)生產(chǎn)基地,此外,礦產(chǎn)資源豐富,煤、石油、輕紡工業(yè)等發(fā)展迅速,因此,PM2.5是綿陽地區(qū)中主要的大氣污染物之一[13]。
綿陽市環(huán)境空氣污染物的監(jiān)測(cè)采用24 h自動(dòng)監(jiān)測(cè)的形式,全市共設(shè)有4個(gè)國控環(huán)境空氣污染物監(jiān)測(cè)站點(diǎn)。本實(shí)驗(yàn)數(shù)據(jù)采用綿陽市2015年1月至2017年12月逐小時(shí)環(huán)境空氣污染物數(shù)據(jù)(PM2.5、PM10、SO2、NO2、CO、O3)和每小時(shí)更新一次的氣象數(shù)據(jù)(溫度、溫差、壓強(qiáng)、氣壓、濕度、風(fēng)速、風(fēng)向、露點(diǎn)溫度、可見度、降水量),總數(shù)據(jù)集共10萬余條。
在實(shí)際數(shù)據(jù)集中,隨機(jī)缺失數(shù)據(jù)占有相當(dāng)?shù)谋壤?,?shù)據(jù)值缺失是數(shù)據(jù)分析中經(jīng)常遇到的問題之一。對(duì)缺失值進(jìn)行填充,能保證信息完整性和結(jié)論的準(zhǔn)確性。因此,采用線性分段插值與日均值加權(quán)和算法進(jìn)行缺失值填充。
① 缺失標(biāo)簽。對(duì)于一個(gè)有缺失值的時(shí)間序列xt,其表示第T個(gè)時(shí)間步對(duì)應(yīng)的時(shí)刻(x1=0),如式(1)所示。
(1)
(2)
在原有神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,結(jié)合均值填充和線性插值,設(shè)計(jì)出本文加權(quán)和缺失值處理算法,如式(3)所示。
(3)
實(shí)際監(jiān)測(cè)到的氣象數(shù)據(jù),風(fēng)力大小屬于分類值且具有離散特性,不具備特征之間數(shù)據(jù)的相關(guān)性。因此,在這些數(shù)據(jù)進(jìn)入預(yù)測(cè)模型前,需對(duì)數(shù)據(jù)進(jìn)行風(fēng)力編碼處理,即采用One-Hot編碼,通過One-Hot編碼,擴(kuò)充輸入特征,提高建模的可能性,見表1。
表1 風(fēng)力編碼表
其中,小于或等于1級(jí)風(fēng)用“0”表示,“1”表示大于一級(jí)風(fēng)。
為加快預(yù)測(cè)模型收斂速度,在采用加權(quán)和算法對(duì)研究數(shù)據(jù)進(jìn)行缺失值處理后,結(jié)合歸一化算式(4)將研究數(shù)據(jù)進(jìn)行歸一化處理。
(4)
在模型預(yù)測(cè)得到[0,1]之間一個(gè)數(shù)值后,應(yīng)用式(5)進(jìn)行去歸一化,進(jìn)行模型性能分析評(píng)價(jià)。
(5)
為減少相關(guān)因子的干擾,選擇用GA算法從10個(gè)氣象因子和5個(gè)主要的空氣污染物濃度中篩選出GRU循環(huán)神經(jīng)網(wǎng)絡(luò)模型的輸入因子,實(shí)現(xiàn)對(duì)GRU循環(huán)神經(jīng)網(wǎng)絡(luò)輸入特征的優(yōu)化與選取,即基于GA-GRU模型的PM2.5濃度預(yù)測(cè),其中,GA-GRU預(yù)測(cè)模型如圖1所示。
圖1 GA-GRU算法框架
(6)
遺傳算法是一種高效全局搜索可并行化的優(yōu)化方法,適合大規(guī)模問題以及多維多模態(tài)問題的求解[14]。面對(duì)優(yōu)化復(fù)雜性問題,GA算法可避免精確建模和繁瑣運(yùn)算,只需運(yùn)用GA算法的選擇、交叉和變異三種算子便可確定最優(yōu)解。
首先,定義群體規(guī)模每個(gè)因子的編碼形式,每個(gè)元素分別對(duì)應(yīng)一個(gè)因子,取值為“0”或“1”。取“0”為不參與GRU神經(jīng)網(wǎng)絡(luò)的訓(xùn)練;同理,取“1”即參與。具體步驟如下。
① 在1個(gè)臨時(shí)群體中,復(fù)制n個(gè)原群體中的個(gè)體。
② 在0~1之間產(chǎn)生一個(gè)隨機(jī)數(shù),若該隨機(jī)數(shù)大于預(yù)先設(shè)定的交叉概率,則隨機(jī)選擇2個(gè)原群體中的個(gè)體,并在隨機(jī)確定的若干位置上進(jìn)行元素交換,并將交換后的向量放入臨時(shí)群體中。
③ 若隨機(jī)數(shù)不大于交叉概率,則隨機(jī)選擇原群體中的一個(gè)個(gè)體,并對(duì)其中每個(gè)位置隨機(jī)產(chǎn)生1個(gè)隨機(jī)數(shù)。反之,對(duì)該位置進(jìn)行變異操作后,將其放入臨時(shí)群體中。
④ 重復(fù)步驟②和步驟③,直到群體中有n個(gè)個(gè)體。
⑤ 選出適應(yīng)度最高的n個(gè)臨時(shí)群體的個(gè)體,組成新一代群體進(jìn)行遺傳。
⑥ 算法迭代循環(huán),直至滿足設(shè)置的目標(biāo),遺傳操作結(jié)束。
⑦ 選取適應(yīng)度值最高的l維個(gè)體,其中值為1的元素對(duì)應(yīng)的影響因子即為輸入因子集。
下面分別給出選擇算子、交叉算子和變異算子的算法。
① 選擇算子。個(gè)體i的選擇概率Ps如下:
(7)
式中,num為群體規(guī)模;E(w)為適應(yīng)度優(yōu)化目標(biāo)函數(shù),評(píng)價(jià)個(gè)體優(yōu)劣,其計(jì)算公式為
(8)
② 交叉算子。采用實(shí)數(shù)編碼種群個(gè)體,對(duì)配對(duì)的粒子i、j進(jìn)行交叉運(yùn)算,過程如下。
位置交叉:
(9)
速度交叉:
(10)
式中,α1,α2為交叉概率Pe,取值[0,1]。
③ 變異算子。對(duì)第i個(gè)個(gè)體進(jìn)行變異運(yùn)算。
位置變異:
(11)
速度變異:
(12)
(13)
式中,Xmin、Xmax為粒子位置上下界;Vmin、Vmax為變異速度的最小和最大值;g為當(dāng)前時(shí)刻迭代次數(shù);Gmax為最大進(jìn)化次數(shù);r1、r2、r3為各自的變異概率Pm,取值范圍[0,1]。
門控循環(huán)單元神經(jīng)網(wǎng)絡(luò)是在傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)上進(jìn)行改進(jìn)的,它不僅繼承了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)探索序列數(shù)據(jù)內(nèi)在依賴關(guān)系的能力,又解決了因序列過長而導(dǎo)致的梯度消失、訓(xùn)練時(shí)間長和過擬合等問題[11]。門控循環(huán)單元網(wǎng)絡(luò)模型如圖2所示。
圖2 GRU單元模型
圖2中,⊙為Hadamard乘積;z為重置門;r為更新門。其中,更新門和重置門計(jì)算關(guān)系式為
zt=g(xtUz+ht-1Wz)
(14)
rt=g(xtUr+ht-1Wr)
(15)
(16)
式中,ht為當(dāng)前時(shí)刻的輸出和傳遞到下一時(shí)刻的信息,該過程需要更新門的激活結(jié)果zt,計(jì)算式為
(17)
其中,zt×ht-1的Hadamard乘積是當(dāng)前時(shí)間步最終輸出結(jié)果,也是下一時(shí)間步輸入和參與下一時(shí)間步的運(yùn)算。
為了驗(yàn)證所設(shè)計(jì)的GA-GRU環(huán)境空氣污染物時(shí)序預(yù)測(cè)模型,將綿陽市4個(gè)監(jiān)測(cè)站點(diǎn)的氣象數(shù)據(jù)和環(huán)境空氣污染物數(shù)據(jù)集分為90%的訓(xùn)練集、5%的測(cè)試集和5%的驗(yàn)證集,通過TensorFlow-GPU深度學(xué)習(xí)平臺(tái)對(duì)所設(shè)計(jì)的GA-GRU模型進(jìn)行無監(jiān)督訓(xùn)練和PM2.5的仿真預(yù)測(cè)。最后,將GA-GRU預(yù)測(cè)模型的預(yù)測(cè)效果分別與GRU、DBNs模型進(jìn)行對(duì)比分析。
評(píng)價(jià)模型預(yù)測(cè)性能優(yōu)劣,以均方根誤差(Root Mean Squared Error,RMSE)、平均絕對(duì)誤差(Mean Absolute Error,MAE)和一致性指數(shù)(Index of Agreement,IA)作為評(píng)價(jià)指標(biāo)。計(jì)算公式如下。
(18)
(19)
(20)
由于存在輸入特征維度災(zāi)難問題,導(dǎo)致GRU算法計(jì)算性能差以及收斂速率過慢。因此,在GRU算法的基礎(chǔ)上,引入GA算法。利用GA算法解決維度災(zāi)難問題,確定出最優(yōu)個(gè)體。
GA參數(shù):群體規(guī)模為num=200,交叉概率Pe=1.0,變異概率Pm=0.050,進(jìn)化代數(shù)為10。根據(jù)確定參數(shù),給出GA算法在4個(gè)數(shù)據(jù)集上的最優(yōu)個(gè)體適應(yīng)度變化曲線,如圖3所示。
由適應(yīng)度優(yōu)化目標(biāo)函數(shù)(8)可知,較小適應(yīng)度值表明神經(jīng)網(wǎng)絡(luò)系統(tǒng)誤差小。因此,結(jié)合圖3可知,經(jīng)過10代進(jìn)化,4個(gè)站點(diǎn)的適應(yīng)度值已達(dá)到最小,確定出輸入向量的最優(yōu)個(gè)體,即2.2節(jié)中第7步值為1的元素所組成的輸入向量。
圖3 4個(gè)站點(diǎn)最優(yōu)個(gè)體適應(yīng)度值變化曲線
為解決時(shí)序信息丟失問題,采用改進(jìn)后的循環(huán)神經(jīng)網(wǎng)絡(luò),即門控循環(huán)單元神經(jīng)網(wǎng)絡(luò)。通過在4個(gè)站點(diǎn)數(shù)據(jù)集上分別執(zhí)行網(wǎng)格搜索算法,確定GA-GRU模型的最優(yōu)深層架構(gòu)、最優(yōu)批尺寸(batch_size)、訓(xùn)練步(epochs)、權(quán)值初始化函數(shù)(init_mode)以及dropout正則化參數(shù)。其中,GA-GRU模型中GRU層數(shù)的確定,如圖4所示。
圖4 GRU層數(shù)變化曲線
圖4中,縱軸表示模型性能評(píng)價(jià)指標(biāo)。由于模型性能評(píng)價(jià)指標(biāo)值越低,模型的性能越好。因此,從圖4中可知:當(dāng)GRU層數(shù)為2層時(shí),GA-GRU模型性能最佳。表2給出4個(gè)站點(diǎn)的GA-GRU和GRU最優(yōu)深層架構(gòu)。
其中,最優(yōu)深度架構(gòu)隱藏層包含2層GRU層和1層全連接層,因此,隱藏層并不是越多越好。最后確定的模型參數(shù),如表3所示。
表2 隱藏層層數(shù)及神經(jīng)元數(shù)目
表3 模型參數(shù)
通過表3確定的最優(yōu)模型參數(shù),最終分別得到GA-GRU、GRU網(wǎng)絡(luò)模型在4個(gè)監(jiān)測(cè)站點(diǎn)數(shù)據(jù)集上的訓(xùn)練損失與驗(yàn)證損失圖,如圖5所示。
圖5 GA-GRU和GRU模型訓(xùn)練損失與驗(yàn)證損失圖
其中,“train”、“test”分別表示訓(xùn)練集和驗(yàn)證集上的損失函數(shù);縱軸表示評(píng)估預(yù)測(cè)性能值。結(jié)合表3、圖5可知,在4個(gè)數(shù)據(jù)集上都有,當(dāng)批尺寸為20、訓(xùn)練步為100、網(wǎng)絡(luò)權(quán)值初始化參數(shù)為glorot_nomal[15]時(shí),GA-GRU模型的處理速度在20個(gè)時(shí)間步前就開始朝著梯度最小的下降方向收斂,處理速度加快、下降方向準(zhǔn)確以及訓(xùn)練震蕩更小,并且沒有出現(xiàn)過擬合現(xiàn)象。而GRU模型雖然沒有出現(xiàn)過擬合現(xiàn)象,但它從第20個(gè)時(shí)間步后開始收斂,處理速度稍慢、下降方向存在偏差,并且伴有輕微振蕩。
為了驗(yàn)證由4.2節(jié)確定的參數(shù),而設(shè)計(jì)的GA-GRU模型預(yù)測(cè)精度與性能情況,在綿陽市城區(qū)的4個(gè)監(jiān)測(cè)站點(diǎn)測(cè)試集上,將所設(shè)計(jì)的GA-GRU模型與GRU模型、DBNs模型進(jìn)行PM2.5小時(shí)濃度預(yù)測(cè)比較,其仿真圖如圖6所示。
圖6 GA-GRU模型在4個(gè)站點(diǎn)預(yù)測(cè)結(jié)果比較
圖6預(yù)測(cè)結(jié)果表明:與GRU模型、DBNs模型相比,所設(shè)計(jì)的GA-GRU模型具有高擬合程度和高預(yù)測(cè)精度,已達(dá)到項(xiàng)目所要求的95%。而GRU精度為92%,深度信念網(wǎng)絡(luò)的精度為88%左右。在富樂山數(shù)據(jù)集上,當(dāng)PM2.5小時(shí)濃度值達(dá)到最大值500 μg/L時(shí),GA-GRU模型預(yù)測(cè)值達(dá)到495 μg/L,而GRU、DBNs分別為450 μg/L和420 μg/L;在市人大數(shù)據(jù)集上,當(dāng)PM2.5小時(shí)濃度值達(dá)到最大值500 μg/L時(shí),GA-GRU模型預(yù)測(cè)值達(dá)到493 μg/L,而GRU、DBNs分別為453 μg/L和425 μg/L;在三水廠數(shù)據(jù)集上,當(dāng)PM2.5小時(shí)濃度值達(dá)到最大值500 μg/L時(shí),GA-GRU模型預(yù)測(cè)值達(dá)到495 μg/L,而GRU、DBNs分別為448 μg/L和425 μg/L;在高新區(qū)自來水公司數(shù)據(jù)集上,當(dāng)PM2.5小時(shí)濃度值達(dá)到最大值500 μg/L時(shí),GA-GRU模型預(yù)測(cè)值達(dá)到491 μg/L,而GRU、DBNs分別為447 μg/L和423 μg/L。綜上所述,當(dāng)PM2.5值較大時(shí)相較于GRU、DBNs模型,GA-GRU模型能更好獲得滿意的預(yù)測(cè)結(jié)果。
最后,為了更加全面評(píng)價(jià)所設(shè)計(jì)的GA-GRU模型性能,下面列出評(píng)價(jià)模型性能的3個(gè)統(tǒng)計(jì)值MAE、RMSE、IA及模型訓(xùn)練時(shí)間,如表4所示。
表4 模型預(yù)測(cè)性能比較結(jié)果
從表4可知,與GRU模型、DBNs模型相比,所設(shè)計(jì)的GA-GRU模型在均方根誤差、平均絕對(duì)誤差和一致性指數(shù)這3種性能評(píng)價(jià)指標(biāo)中有較好改進(jìn)。其中,一致性指數(shù)(IA)提升尤為明顯,表示GA-GRU模型具有更準(zhǔn)確的時(shí)序預(yù)測(cè)能力;而平均絕對(duì)誤差(MAE)、均方根誤差(RMSE)較小,表明GA-GRU模型預(yù)測(cè)精度較高,泛化能力較好,能更加有效地預(yù)測(cè)PM2.5濃度變化趨勢(shì),對(duì)空氣污染物控制具有有效的指導(dǎo)作用。值得注意的是,從表4訓(xùn)練時(shí)間一列可得,GA-GRU訓(xùn)練時(shí)間相較于GRU、DBNs模型分別提升了50%、57%左右。因此,GA-GRU模型訓(xùn)練時(shí)間上有較大的提升,表明前期GA處理輸入特征取得良好的效果。綜上所述,所提出的GA-GRU預(yù)測(cè)模型能有效預(yù)測(cè)PM2.5小時(shí)濃度,并且具有較強(qiáng)的魯棒性。
所設(shè)計(jì)的GA-GRU預(yù)測(cè)模型在環(huán)境空氣污染物PM2.5小時(shí)濃度預(yù)測(cè)中,對(duì)大樣本數(shù)據(jù)集,該模型不僅保留了處理數(shù)據(jù)維度和輸入特征的能力,并且在一定程度上充分挖掘了環(huán)境空氣污染物因子自身之間與氣象因子之間潛在的特征關(guān)系。仿真實(shí)驗(yàn)結(jié)果表明,相較于門控循環(huán)單元神經(jīng)網(wǎng)絡(luò)模型和深度信念網(wǎng)絡(luò)模型,GA-GRU預(yù)測(cè)模型在訓(xùn)練時(shí)間、擬合度、泛化能力和預(yù)測(cè)精度上都有所提升且具有更強(qiáng)的魯棒性。在未來研究中,將考慮加入影響環(huán)境空氣質(zhì)量的其他因素,例如,季節(jié)因素、地域因素和車流量等,為相關(guān)部門進(jìn)行空氣環(huán)境污染防治提供理論支撐與決策依據(jù)。