黃偉建,李丹陽,黃 遠(yuǎn)
(河北工程大學(xué)信息與電氣工程學(xué)院,河北邯鄲 056038)
(?通信作者電子郵箱757918272@qq.com)
由于氣候變化、工業(yè)生產(chǎn)和人口聚集等原因,我國多地的空氣質(zhì)量狀況不容樂觀。持續(xù)惡化的空氣質(zhì)量狀況已嚴(yán)重影響了中國的經(jīng)濟(jì)發(fā)展和公眾的身體健康。隨著我國空氣質(zhì)量監(jiān)測體系的逐步完善,我國已建成多層次的空氣質(zhì)量監(jiān)測網(wǎng)絡(luò)??諝赓|(zhì)量指數(shù)(Air Quality Index,AQI)根據(jù)大氣環(huán)境中二氧化硫(SO2)、二氧化氮(NO2)、一氧化碳(CO)、臭氧(O3)、可吸入顆粒物(PM2.5、PM10)濃度值計(jì)算得出用于表示空氣清潔或污染程度。提高空氣質(zhì)量分析和預(yù)測的科學(xué)性與準(zhǔn)確性可以幫助政府提升對(duì)空氣質(zhì)量評(píng)價(jià)、管理和決策的可靠性,及時(shí)采取有效的防控措施規(guī)避大氣污染造成的損害,保護(hù)公眾健康。
早期的空氣質(zhì)量預(yù)測方法主要包括數(shù)值預(yù)測和回歸統(tǒng)計(jì)[1]。數(shù)值預(yù)測方法通過利用多個(gè)環(huán)境監(jiān)測站的監(jiān)測信息建立氣象排放和化學(xué)模型來模擬污染物的遷移、交換、擴(kuò)散和排放過程[2]。該方法受復(fù)雜的先驗(yàn)知識(shí)、不可靠和有限的數(shù)據(jù)以及各種使用約束[3],因此用來模擬真實(shí)的大氣環(huán)境具有一定理論難度?;貧w統(tǒng)計(jì)方法避免了復(fù)雜的理論模型,通過使用基于統(tǒng)計(jì)的模型來預(yù)測空氣質(zhì)量。然而影響空氣質(zhì)量的各項(xiàng)因子與大氣污染物濃度之間復(fù)雜的線性或非線性關(guān)系很難用確定的數(shù)學(xué)模型進(jìn)行描述[4]。
隨著物聯(lián)網(wǎng)與傳感器技術(shù)的快速發(fā)展和應(yīng)用,城市中各種傳感器及相關(guān)數(shù)據(jù)采集設(shè)備采集的大氣數(shù)據(jù)為空氣質(zhì)量預(yù)測提供了必要的數(shù)據(jù)來源。由于傳統(tǒng)的淺層學(xué)習(xí)模型在處理空氣質(zhì)量這類大數(shù)據(jù)方面仍存在瓶頸,因此新的空氣質(zhì)量預(yù)測方法需要數(shù)據(jù)驅(qū)動(dòng)模型的支持[5]。文獻(xiàn)[6]利用長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)來挖掘空氣質(zhì)量數(shù)據(jù)中存在的深層次時(shí)間依賴特征,通過提取輸入序列中的長時(shí)間依賴關(guān)系對(duì)空氣質(zhì)量進(jìn)行預(yù)測。由于LSTM 網(wǎng)絡(luò)無法對(duì)空氣質(zhì)量間復(fù)雜的空間相關(guān)性進(jìn)行建模分析,因此預(yù)測精度較低。文獻(xiàn)[7]提出基于歷史空氣污染物濃度數(shù)據(jù)、氣象數(shù)據(jù)和時(shí)間戳數(shù)據(jù)的空氣污染物濃度預(yù)測LSTME(Long Short-Term Memory Extended)模型。該模型能夠?qū)哂虚L時(shí)間依賴性的時(shí)間序列進(jìn)行建模,并能自動(dòng)確定最優(yōu)滯后時(shí)間。然而LSTME 模型隨著預(yù)測步長的增加,其預(yù)測性能有所下降。文獻(xiàn)[8]提出一個(gè)通用且有效的DAL(Deep Air Learning)模型來解決細(xì)粒度空氣質(zhì)量中的插值、預(yù)測和特征分析。該模型主要思想在于嵌入式特征選擇以及對(duì)深度學(xué)習(xí)網(wǎng)絡(luò)中不同層的半監(jiān)督學(xué)習(xí),利用未標(biāo)記空氣質(zhì)量數(shù)據(jù)的相關(guān)信息來提高插值和預(yù)測性能。
除了對(duì)空氣質(zhì)量數(shù)據(jù)間的時(shí)間相關(guān)性進(jìn)行建模外,非線性空間依賴性也是影響空氣質(zhì)量預(yù)測性能的重要因素之一。由于地面環(huán)境監(jiān)測站呈現(xiàn)非均勻分布,因此如何將空間特征處理嵌入到各種基于神經(jīng)網(wǎng)絡(luò)的方法中一直是以往工作中的難題。一些折中的方法嘗試將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)應(yīng)用于歐氏空間,通過人工將監(jiān)測站點(diǎn)重新排列為二維陣列來挖掘其中的空間依賴性。如文獻(xiàn)[9]采用融合CNN 和LSTM 結(jié)構(gòu)的ConvLSTM(Convolutional Long Short-Term Memory)模型來模擬站點(diǎn)測量數(shù)據(jù)間的時(shí)空關(guān)系。但該模型是基于CNN 構(gòu)建的網(wǎng)絡(luò),因此最適用于歐氏數(shù)據(jù)中的空間關(guān)系。為了使城市中多個(gè)環(huán)境監(jiān)測站點(diǎn)間的空間特征處理能夠嵌入到深度學(xué)習(xí)方法中以進(jìn)一步提高空氣質(zhì)量預(yù)測精度,本文利用圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)使原先只適用于處理歐氏數(shù)據(jù)的卷積操作擴(kuò)展至可處理任意圖數(shù)據(jù)的特點(diǎn)[10],提出一種基于GCN、門控循環(huán)單元(Gated Recurrent Unit,GRU)網(wǎng)絡(luò)、LSTM 網(wǎng)絡(luò)構(gòu)成的時(shí)空混合STAQI(Spatio Temporal Air Quality Index)模型用于空氣質(zhì)量預(yù)測。
本文主要貢獻(xiàn)如下:
1)對(duì)門控循環(huán)單元網(wǎng)絡(luò)進(jìn)行改進(jìn)。通過將圖卷積網(wǎng)絡(luò)嵌入門控循環(huán)單元,使該網(wǎng)絡(luò)對(duì)輸入數(shù)據(jù)具有空間特征提取的能力。這使原本適用于處理時(shí)間序列的門控循環(huán)單元網(wǎng)絡(luò)可同時(shí)提取數(shù)據(jù)間時(shí)空依賴特征,同時(shí)與長短期記憶網(wǎng)絡(luò)結(jié)合,提出一種新型的空氣質(zhì)量預(yù)測模型。
2)為防止過擬合問題的發(fā)生,通過在原有損失函數(shù)的基礎(chǔ)上加入L2正則化項(xiàng)來降低模型復(fù)雜度和不穩(wěn)定性。
3)在真實(shí)的數(shù)據(jù)集中從不同角度評(píng)估STAQI模型和其他多種模型的預(yù)測性能,驗(yàn)證了該模型具有最佳預(yù)測效果以及較強(qiáng)的泛化能力。
空氣質(zhì)量監(jiān)測站通過在站內(nèi)安裝多參數(shù)自動(dòng)傳感器來連續(xù)自動(dòng)對(duì)周圍空氣質(zhì)量進(jìn)行監(jiān)測。城市中部署的環(huán)境監(jiān)測站分布于不同的地理位置空間并以一定時(shí)間間隔進(jìn)行自動(dòng)監(jiān)測。因此監(jiān)測站點(diǎn)產(chǎn)生大量具有空間坐標(biāo)和時(shí)間戳的數(shù)據(jù),這些數(shù)據(jù)被稱為時(shí)空數(shù)據(jù)[11]。
從空間維度來看,某一區(qū)域的環(huán)境污染排放會(huì)受其他空間單元環(huán)境污染排放空間溢出效應(yīng)的影響[12]。地理層次較高的位置具有較粗的粒度信息,父節(jié)點(diǎn)粒度由其子節(jié)點(diǎn)粒度組成。例如,一個(gè)監(jiān)測站位于某一地區(qū),該監(jiān)測數(shù)據(jù)能準(zhǔn)確反映周圍區(qū)域細(xì)粒度空氣質(zhì)量狀況。而此地區(qū)又位于某一城市,整個(gè)城市粗粒度空氣質(zhì)量信息由該城市各監(jiān)測站點(diǎn)的監(jiān)測數(shù)據(jù)共同決定。此外,兩個(gè)站點(diǎn)間的地理距離與兩地空氣質(zhì)量相關(guān)性成正比。
從時(shí)間維度來看,大氣污染物排放影響因素的變化過程往往是緩慢的,當(dāng)前污染排放積累值會(huì)受到前期污染排放的影響。對(duì)監(jiān)測數(shù)據(jù)中每個(gè)實(shí)例的時(shí)間戳按時(shí)間順序進(jìn)行排序可生成順序?qū)傩?,其中相鄰的時(shí)間戳通常比遠(yuǎn)處的時(shí)間戳具有更高的相似性。
綜上所述,空氣質(zhì)量間的動(dòng)態(tài)時(shí)空相關(guān)性可表示為兩部分:第一是各站點(diǎn)傳感器間相關(guān)性。從圖1 中可以看出不同傳感器時(shí)間序列之間的空間相關(guān)性是高度動(dòng)態(tài)的,并隨時(shí)間不斷變化。第二是傳感器內(nèi)相關(guān)性。地理感知時(shí)間序列通常遵循周期性變化模式(如圖1中站點(diǎn)4產(chǎn)生的時(shí)間序列),并隨時(shí)間與地理位置的不同而變化[13]。因此,空氣質(zhì)量預(yù)測是一個(gè)典型的時(shí)空序列預(yù)測問題,時(shí)間與空間依賴關(guān)系應(yīng)該被明確建模。
圖1 多站點(diǎn)間的動(dòng)態(tài)時(shí)空相關(guān)性Fig.1 Dynamic spatio-temporal correlation between multiple sites
STAQI 模型由全局組件和局部組件構(gòu)成,對(duì)目標(biāo)區(qū)域污染物以及周圍鄰近區(qū)域內(nèi)空氣質(zhì)量動(dòng)態(tài)轉(zhuǎn)化對(duì)目標(biāo)站點(diǎn)空氣質(zhì)量預(yù)測產(chǎn)生的影響進(jìn)行分析研究。在不用人為處理數(shù)據(jù)提取特征的情況下,STAQI 模型通過反復(fù)訓(xùn)練可從大量有監(jiān)督數(shù)據(jù)集中自動(dòng)學(xué)習(xí)空氣質(zhì)量數(shù)據(jù)中動(dòng)態(tài)時(shí)空依賴特征進(jìn)而對(duì)目標(biāo)站點(diǎn)進(jìn)行細(xì)粒度空氣質(zhì)量預(yù)測。該模型結(jié)構(gòu)如圖2 所示,下面對(duì)STAQI模型實(shí)現(xiàn)過程進(jìn)行主要介紹。
圖2 STAQI模型結(jié)構(gòu)Fig.2 Structure of STAQI model
2.1.1 全局組件
城市各監(jiān)測站點(diǎn)間的空氣質(zhì)量并不是相互孤立而是存在一定相關(guān)性。通過選取北京市東四、天壇與官園站點(diǎn)同一時(shí)段內(nèi)空氣質(zhì)量數(shù)據(jù)進(jìn)行對(duì)比,結(jié)果如圖3 所示,可以發(fā)現(xiàn)各站點(diǎn)空氣質(zhì)量隨時(shí)間具有相似的變化趨勢。因此全局組件從時(shí)空依賴的角度分別進(jìn)行建模并融合以提取鄰近站點(diǎn)空氣質(zhì)量對(duì)預(yù)測產(chǎn)生的影響。
圖3 東四、天壇、官園站點(diǎn)空氣質(zhì)量對(duì)比Fig.3 Comparison of air quality at Dongsi,Tiantan and Guanyuan sites
1)空間依賴性建模。
城市中分布的各監(jiān)測站點(diǎn)間距并不是等同的,因此構(gòu)成的拓?fù)渚W(wǎng)絡(luò)為圖結(jié)構(gòu),這意味著無法使用CNN 處理這類非歐氏數(shù)據(jù)以提取空間特征。GCN是一種對(duì)圖數(shù)據(jù)進(jìn)行深度學(xué)習(xí)的方法[14],其核心思想是學(xué)習(xí)一個(gè)函數(shù)映射使得圖中的節(jié)點(diǎn)可以聚合自身節(jié)點(diǎn)和鄰居節(jié)點(diǎn)的特征來生成節(jié)點(diǎn)新表示。
定義1拓?fù)鋱DG。利用未加權(quán)圖G=(V,E)來描述城市各環(huán)境監(jiān)測站間的地理位置拓?fù)浣Y(jié)構(gòu)。每個(gè)站點(diǎn)作為圖中的一個(gè)節(jié)點(diǎn),V 代表城市中所有站點(diǎn)的集合,即V={V1,V2,…,VN},N 為監(jiān)測站點(diǎn)總個(gè)數(shù)。E 代表各監(jiān)測站點(diǎn)間邊的集合。由于大氣環(huán)境是一個(gè)實(shí)時(shí)動(dòng)態(tài)變化的系統(tǒng),根據(jù)地理第一定律,各站點(diǎn)間存在不同程度的影響關(guān)系。因此利用式(1)來計(jì)算兩兩站點(diǎn)間的距離并取其倒數(shù)作為連邊權(quán)重值存儲(chǔ)在鄰接矩陣A中,A ∈RN×N。
其中:X(a,b)、Y(c,d)代表兩個(gè)站點(diǎn)位置,a、c為緯度,b、d為經(jīng)度,r為地球半徑。
定義2特征矩陣XN×P。將目標(biāo)站點(diǎn)所在城市各環(huán)境監(jiān)測站歷史AQI 值作為網(wǎng)中節(jié)點(diǎn)的屬性特征,表示為X ∈RN×P。P 代表節(jié)點(diǎn)屬性的數(shù)量特征,即歷史時(shí)間序列長度。Xt∈RN×i表示i時(shí)刻城市所有環(huán)境監(jiān)測站的AQI 當(dāng)前值。
GCN通過利用目標(biāo)站點(diǎn)所在城市各環(huán)境監(jiān)測站地理位置拓?fù)浣Y(jié)構(gòu)G 和特征矩陣X 的信息學(xué)習(xí)復(fù)雜映射函數(shù)以提取空間特征,主要步驟如下:
①根據(jù)目標(biāo)站點(diǎn)所在城市各環(huán)境監(jiān)測站地理位置構(gòu)建拓?fù)鋱DG和鄰接矩陣A。
②利用各站點(diǎn)監(jiān)測數(shù)據(jù)的AQI信息構(gòu)建特征矩陣X。
④利用式(2)提取特征矩陣中的空間信息:其中:σ(?)表示激活函數(shù)表示第i 層權(quán)值矩陣表示第i層的激活值,且
2)時(shí)間依賴性建模。
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)是一個(gè)可用于處理時(shí)間序列的網(wǎng)絡(luò)[15]。然而,在實(shí)際的運(yùn)用中會(huì)存在梯度消失、梯度爆炸等問題[16],因此傳統(tǒng)的RNN 在時(shí)序預(yù)測方面存在一定的局限性。GRU 是RNN 的一種變體結(jié)構(gòu),該網(wǎng)絡(luò)具有結(jié)構(gòu)相對(duì)簡單、參數(shù)較少、訓(xùn)練能力較快等優(yōu)勢。因此在全局組件中利用GRU 網(wǎng)絡(luò)提取鄰近站點(diǎn)空氣質(zhì)量數(shù)據(jù)間的時(shí)間依賴特征。
全局組件原理如圖4 所示。首先根據(jù)目標(biāo)站點(diǎn)所在城市各環(huán)境監(jiān)測站地理位置信息構(gòu)成拓?fù)鋱D,根據(jù)拓?fù)鋱D計(jì)算生成相應(yīng)的鄰接矩陣、度矩陣和拉普拉斯矩陣。利用GCN 根據(jù)拉普拉斯矩陣來動(dòng)態(tài)捕獲各環(huán)境監(jiān)測站的不同影響權(quán)重,獲得空間特征。其次將提取空間特征后的時(shí)間序列作為GRU的輸入,通過單元之間的信息傳遞獲取時(shí)間特征。由于GRU整體輸出為最后一個(gè)單元時(shí)刻的隱藏狀態(tài),它的維度不同于標(biāo)簽向量,因此最后通過全連接層做維度轉(zhuǎn)換。圖5 左側(cè)顯示了全局組件預(yù)測過程,其中每一個(gè)循環(huán)單元結(jié)構(gòu)簡稱為GG(GCN GRU),右側(cè)顯示了GG 單元細(xì)胞具體結(jié)構(gòu),ht-1表示t -1時(shí)刻的輸出,GCN 是圖卷積操作,輸入數(shù)據(jù)xt經(jīng)過GCN 生成xt',ut、rt分別是t 時(shí)刻的更新門和重置門,ct為t 時(shí)刻細(xì)胞狀態(tài),ht表示t時(shí)刻的輸出。
全局組件計(jì)算過程如下所示:其中:f(A,Xt)表示圖卷積過程,W和b代表訓(xùn)練過程中的權(quán)重和偏置。
圖4 全局組件原理Fig.4 Principle of global component
圖5 全局組件預(yù)測過程Fig.5 Prediction process of global component
2.1.2 局部組件
一方面,當(dāng)前空氣質(zhì)量狀況會(huì)受到過去一段時(shí)間內(nèi)污染物累積的影響;另一方面,站點(diǎn)監(jiān)測到的空氣質(zhì)量數(shù)據(jù)是一組具有一定周期性的序列。比如一個(gè)工廠周期性地排放污染氣體,那么附近站點(diǎn)的空氣質(zhì)量可能會(huì)隨著時(shí)間的推移而重復(fù)。因此空氣質(zhì)量在時(shí)間維度上既具有短期性質(zhì),也具有長期性質(zhì)。
LSTM 在傳統(tǒng)RNN 基礎(chǔ)上通過在隱藏層各神經(jīng)單元中增加記憶單元從而使時(shí)間序列上的記憶信息可控[17]。LSTM 單元細(xì)胞由遺忘門ft、輸入門it和輸出門ot構(gòu)成[18],各部分更新公式如下所示:
其中:°表示按元素乘,W 和b代表訓(xùn)練過程中的權(quán)重和偏置,ht、ct分別表示t時(shí)刻的隱藏狀態(tài)和細(xì)胞狀態(tài)。
局部組件以目標(biāo)站點(diǎn)過去n 個(gè)時(shí)間步長的本地污染物濃度與目標(biāo)站點(diǎn)AQI值作為輸入,通過LSTM網(wǎng)絡(luò)提取輸入數(shù)據(jù)中的時(shí)間相關(guān)特性,最后將LSTM 的輸出經(jīng)過全連接層轉(zhuǎn)換成與標(biāo)簽向量一致的維度,從而得到局部組件的輸出。局部組件的訓(xùn)練算法主要包含以下3個(gè)步驟:
1)前向計(jì)算LSTM 每個(gè)神經(jīng)元的輸出值,即分別根據(jù)式(7)~式(12)計(jì)算ft、it、ct、ot、ht向量值。每個(gè)時(shí)刻的隱藏狀態(tài)ht接入輸出層,經(jīng)過Softmax 函數(shù)后取得預(yù)測值,進(jìn)而得到殘差E:
2)反向計(jì)算每個(gè)神經(jīng)元的誤差項(xiàng)δ 值。誤差項(xiàng)的反向傳播包括兩個(gè)方面:一個(gè)是沿時(shí)間軸的反向傳播,即根據(jù)t 時(shí)刻的誤差項(xiàng)δt來計(jì)算t -1 時(shí)刻的誤差項(xiàng)δt-1。其中δt定義為則t -1時(shí)刻的誤差項(xiàng)δt-1為:
另一個(gè)是將誤差向上一層傳播。即假設(shè)當(dāng)前為第l 層來計(jì)算l -1層的誤差項(xiàng)。
3)根據(jù)相應(yīng)的誤差項(xiàng)來計(jì)算各權(quán)重矩陣和偏置向量的梯度(共計(jì)12個(gè)),從而更新各參數(shù)。
2.1.3 組件融合
STAQI 模型采用加權(quán)融合的方式來聯(lián)合局部組件輸出ov與全局組件輸出oc以形成目標(biāo)站點(diǎn)AQI預(yù)測值Y,其計(jì)算過程如下所示:
其中α 為組合權(quán)值(0 ≤α ≤1)。在實(shí)驗(yàn)部分,將對(duì)組件分配不同權(quán)重從而進(jìn)行預(yù)測性能對(duì)比并根據(jù)實(shí)驗(yàn)結(jié)果選取α最佳取值。
模型訓(xùn)練過程以最小化損失函數(shù)為目標(biāo),使模型更精確地?cái)M合訓(xùn)練數(shù)據(jù)。但若模型參數(shù)w 太多,會(huì)導(dǎo)致模型復(fù)雜度大大提高,模型在訓(xùn)練集上具有出色的擬合效果,但在測試集上性能欠佳。因此本文在原有的損失函數(shù)L0(w)基礎(chǔ)上加入L2 正則化項(xiàng)來對(duì)權(quán)重系數(shù)加以約束限制,使得模型盡量簡單,整體的損失函數(shù)L(w)可表示為:
對(duì)L(w)進(jìn)行求導(dǎo):
對(duì)參數(shù)w更新如下所示:
由此可以看出當(dāng)w 趨于0 時(shí),加入L2 正則化項(xiàng)可以使得參數(shù)減小到很小范圍內(nèi),從而降低模型復(fù)雜度。綜上所述,STAQI 模型中使用的損失函數(shù)如式(19)所示,其中用Yt和來表示目標(biāo)站點(diǎn)實(shí)際AQI值和預(yù)測AQI值。損失函數(shù)中第一項(xiàng)用于最小化站點(diǎn)實(shí)際AQI值與預(yù)測AQI值之間的誤差。第二項(xiàng)Lreg是L2正則化項(xiàng),有助于避免過擬合問題,λ為超參數(shù)。
輸入 測試數(shù)據(jù);
輸出 預(yù)測值。
1)初始化模型多組超參數(shù)值。
2)加載鄰接矩陣A和數(shù)據(jù)集。
3)使用Min-Max方法將數(shù)據(jù)歸一化到[-1,1]。
4)根據(jù)不同時(shí)間窗口,利用滑動(dòng)窗口機(jī)制構(gòu)建有監(jiān)督數(shù)據(jù)集和測試集。
5)根據(jù)批尺寸大小計(jì)算訓(xùn)練總批次。
6)搭建全局組件。首先實(shí)現(xiàn)GG 單元細(xì)胞結(jié)構(gòu),通過繼承RNNCell類改寫_init_和_call_方法來實(shí)現(xiàn)。_init_方法中需要指定激活函數(shù)、節(jié)點(diǎn)數(shù)量、隱藏單元數(shù)量并獲取根據(jù)鄰接矩陣計(jì)算得到的拉普拉斯矩陣。_call_方法中對(duì)輸入數(shù)據(jù)進(jìn)行變化,通過提取拉普拉斯矩陣中目標(biāo)站點(diǎn)所在列與原始輸入數(shù)據(jù)相乘,利用提取空間特征后的輸入數(shù)據(jù)新表示來計(jì)算GRU 單元細(xì)胞狀態(tài)。調(diào)用自定義GG 細(xì)胞類,利用最后單元狀態(tài)輸出值通過全連接層轉(zhuǎn)化成與標(biāo)簽向量相同的維度。
7)搭建局部組件。設(shè)置LSTM 節(jié)點(diǎn)數(shù)量和隱藏單元數(shù)量,利用LSTM 網(wǎng)絡(luò)最后單元輸出值作為全連接層的輸入,作維度轉(zhuǎn)化。
8)融合全局組件與局部組件輸出。
9)定義損失函數(shù)和均方根誤差。
10)使用Adam優(yōu)化器以最小化損失值為目標(biāo)。
11)定義以訓(xùn)練總批次為循環(huán)次數(shù)的循環(huán)體,在循環(huán)體中首先實(shí)現(xiàn)對(duì)訓(xùn)練集中輸入數(shù)據(jù)的劃分,即劃分為全局組件與局部組件輸入。其次調(diào)用已定義的全局和局部組件。最后將當(dāng)前批次局部組件輸入、全局組件輸入、標(biāo)簽數(shù)據(jù)作為填充數(shù)據(jù)來動(dòng)態(tài)執(zhí)行優(yōu)化器、損失函數(shù)值以及預(yù)測值的計(jì)算。
12)對(duì)訓(xùn)練好的模型輸入測試數(shù)據(jù)進(jìn)行測試,獲得模型輸出值。
13)將模型輸出值進(jìn)行反歸一化處理,得到模型實(shí)際預(yù)測值并輸出。
本文選取北京地區(qū)35個(gè)環(huán)境監(jiān)測站從2014年4月1日至2019 年12 月31 日的歷史監(jiān)測信息作為實(shí)驗(yàn)數(shù)據(jù)集。數(shù)據(jù)從http://beijingair.sinaapp.com 網(wǎng)站中獲得??諝赓|(zhì)量監(jiān)測數(shù)據(jù)為小時(shí)粒度信息,包括SO2、NO2、CO、O3、PM2.5、PM10六種大氣污染物濃度值和AQI 值。通過在Pycharm 開發(fā)環(huán)境中安裝配置Tensorflow框架并使用Python編程語言來完成有關(guān)實(shí)驗(yàn)。
收集的數(shù)據(jù)必須經(jīng)過預(yù)處理才可作為STAQI 模型的輸入,主要由于以下兩方面原因:第一,外界多種不確定性因素的干擾導(dǎo)致收集的數(shù)據(jù)中存在某些時(shí)間序列或?qū)傩灾等笔?,因此需要遍歷整個(gè)數(shù)據(jù)集對(duì)缺失的時(shí)間序列進(jìn)行插入并利用空值填充方法填充其他特征數(shù)據(jù)項(xiàng)。第二,空氣質(zhì)量受多重因素影響,各影響因子量綱不同。為保證模型預(yù)測性能,本文采用Min-Max 方法將數(shù)據(jù)歸一化到[-1,1],最終在評(píng)價(jià)模型的預(yù)測效果時(shí),再將預(yù)測值重新還原到原來的大小并與真實(shí)值進(jìn)行比較。整個(gè)數(shù)據(jù)集按照8∶2比例劃分為訓(xùn)練集和測試集用于模型訓(xùn)練及測試。訓(xùn)練集中的每條數(shù)據(jù)由同一時(shí)刻目標(biāo)站點(diǎn)6 種污染物濃度值和目標(biāo)站點(diǎn)所在城市各環(huán)境監(jiān)測站點(diǎn)AQI值組成。
3.2.1 實(shí)驗(yàn)流程
本實(shí)驗(yàn)首先需要收集相關(guān)實(shí)驗(yàn)數(shù)據(jù),對(duì)收集的數(shù)據(jù)進(jìn)行預(yù)處理使數(shù)據(jù)變得完整以符合模型的輸入要求。其次將整個(gè)數(shù)據(jù)集劃分為訓(xùn)練集與測試集。利用訓(xùn)練集中的數(shù)據(jù),使用滑動(dòng)窗口機(jī)制來建立模型輸入和輸出結(jié)果之間的關(guān)系從而構(gòu)成有監(jiān)督數(shù)據(jù)集。每條有監(jiān)督數(shù)據(jù)集由特征窗口和標(biāo)簽窗口構(gòu)成。通過將大量有監(jiān)督數(shù)據(jù)集作為模型輸入并在一定迭代次數(shù)內(nèi)不斷訓(xùn)練調(diào)整模型參數(shù),使得模型可以學(xué)習(xí)特征和標(biāo)簽之間復(fù)雜的非線性關(guān)系。最后使用測試集對(duì)訓(xùn)練好的模型性能進(jìn)行測試,在面對(duì)只有特征沒有標(biāo)簽的數(shù)據(jù)時(shí),訓(xùn)練好的STAQI模型可以推斷出與之對(duì)應(yīng)的標(biāo)簽進(jìn)而完成空氣質(zhì)量預(yù)測任務(wù)。STAQI模型的整個(gè)實(shí)驗(yàn)流程如圖6所示。
圖6 STAQI模型實(shí)驗(yàn)流程Fig.6 Experimental flowchart of STAQI model
3.2.2 評(píng)價(jià)指標(biāo)
為了評(píng)估STAQI 模型訓(xùn)練后的預(yù)測性能,本文使用均方根誤差(Root Mean Square Error,RMSE)來評(píng)估站點(diǎn)空氣質(zhì)量真實(shí)值與預(yù)測值之間的差異,RMSE 數(shù)值越低表示模型的預(yù)測精度越高,其計(jì)算公式如下所示:
3.2.3 模型超參數(shù)設(shè)置
模型超參數(shù)的不同取值對(duì)模型預(yù)測性能將產(chǎn)生一定影響,主要包括迭代次數(shù)、網(wǎng)絡(luò)深度、學(xué)習(xí)率、輸入層的向量大小、隱藏層單元數(shù)量、批尺寸等超參數(shù)[19]。本實(shí)驗(yàn)采用Adam優(yōu)化器,手動(dòng)設(shè)置學(xué)習(xí)率為0.001,批尺寸為64,迭代次數(shù)為300。為了最小化隱藏單元數(shù)量的不同取值對(duì)STAQI 模型預(yù)測性能產(chǎn)生的客觀影響,將從[8,16,32,64,100,128]中選擇不同的隱藏單元數(shù)量進(jìn)行實(shí)驗(yàn),結(jié)果如表1所示。在固定α取值為0.5時(shí),當(dāng)增加隱藏單元數(shù)量時(shí),RMSE值先降低后增加。這主要是因?yàn)楫?dāng)隱藏單元數(shù)量大于一定閾值時(shí),模型復(fù)雜度和計(jì)算難度大大增加,從而增加了預(yù)測誤差。當(dāng)隱藏單元數(shù)量為64 時(shí),RMSE 誤差值最小,因此在實(shí)驗(yàn)中將LSTM 模型與GRU模型中的隱藏單元數(shù)量設(shè)置為64。
表1 隱藏單元數(shù)量對(duì)RMSE的影響Tab.1 Influence of number of hidden cells on RMSE
此外,由于STAQI 模型輸出是一個(gè)局部組件和全局組件的加權(quán)參數(shù)值α(0 ≤α ≤1)。為設(shè)置α 的最佳取值,本文在0.0 和1.0 之間改變?chǔ)?大小來比較模型RMSE 值,實(shí)驗(yàn)結(jié)果如表2 所示,選取RMSE 最低值對(duì)應(yīng)的0.6 作為本實(shí)驗(yàn)中α 的取值。通過對(duì)α參數(shù)尋優(yōu)的結(jié)果可以發(fā)現(xiàn)局部組件具有更大的權(quán)重,這意味著本地污染物濃度對(duì)目標(biāo)站點(diǎn)空氣質(zhì)量預(yù)測產(chǎn)生的影響要高于鄰近站點(diǎn)空氣質(zhì)量對(duì)目標(biāo)站點(diǎn)空氣質(zhì)量預(yù)測產(chǎn)生的影響。
表2 α取值對(duì)RMSE的影響Tab.2 Effect of α value on RMSE
3.3.1 基準(zhǔn)模型比較
本節(jié)從不同時(shí)間窗口和預(yù)測不同目標(biāo)站點(diǎn)兩個(gè)方面將STAQI 模型與自回歸綜合移動(dòng)平均模型(Auto Regressive Integrated Moving Average model,ARIMA)、支持向量回歸(Support Vector Regression,SVR)[20]、反 向 傳 播(Back Propagation,BP)神經(jīng)網(wǎng)絡(luò)[21]、GRU 進(jìn)行對(duì)比。其中SVR 使用線性核函數(shù),懲罰項(xiàng)為0.001。
1)基于不同時(shí)間窗口的空氣質(zhì)量預(yù)測。
利用時(shí)間窗口描述模型使用過去N小時(shí)的歷史數(shù)據(jù)來預(yù)測未來T小時(shí)后的目標(biāo)站點(diǎn)空氣質(zhì)量,簡記為(N,T)。通過使用不同基準(zhǔn)模型對(duì)北京市東四監(jiān)測站點(diǎn)進(jìn)行預(yù)測,實(shí)驗(yàn)結(jié)果如表3 所示。從表3 可以得到以下四方面結(jié)論:第一,GRU 模型強(qiáng)調(diào)了時(shí)間特征建模的重要性,通常比其他基線模型(如ARIMA、SVR、BP 模型)具有更高的預(yù)測精度。第二,基于時(shí)空特性的STAQI 模型與只考慮時(shí)間特征的GRU 模型相比能獲得更好的預(yù)測效果。第三,對(duì)于包含時(shí)序處理模塊的模型(如GRU、STAQI 模型)來說,在相同預(yù)測步長的情況下,模型輸入的歷史數(shù)據(jù)越多,可進(jìn)一步提高其預(yù)測能力。第四,無論時(shí)間窗口如何變化,STAQI 模型都可以通過訓(xùn)練獲得最佳預(yù)測性能,相較于基線模型中性能較優(yōu)的GRU 模型,STAQI 模型RMSE 值大約下降19%。因此STAQI 模型不僅可以用于短期預(yù)測,還適用于中長期預(yù)測。
表3 不同時(shí)間窗口的預(yù)測結(jié)果Tab.3 Prediction results of different time windows
2)基于不同目標(biāo)站點(diǎn)的空氣質(zhì)量預(yù)測。
為檢驗(yàn)STAQI模型對(duì)不同目標(biāo)站點(diǎn)的預(yù)測能力是否具有顯著差異,本文使用不同基線模型對(duì)北京市天壇站點(diǎn)未來一定時(shí)間步長的AQI進(jìn)行預(yù)測,實(shí)驗(yàn)結(jié)果如表4所示。從表4可以發(fā)現(xiàn)STAQI模型相比其他基線模型對(duì)于任意AQI預(yù)測步長仍能取得最佳預(yù)測性能。其中與性能較優(yōu)的GRU 模型相比,STAQI 模型RMSE 值大約下降6%,因此STAQI 模型對(duì)地理位置不同、具有地勢差異的不同站點(diǎn)的空氣質(zhì)量預(yù)測能力具有較強(qiáng)的泛化性。
表4 不同模型對(duì)天壇站點(diǎn)AQI預(yù)測的RMSE值Tab.4 RMSE values predicted by different models for AQI of Tiantan site
此外,對(duì)于北京市35 個(gè)環(huán)境監(jiān)測站點(diǎn),本文使用不同基準(zhǔn)模型對(duì)各環(huán)境站點(diǎn)未來一定時(shí)間步長的空氣質(zhì)量進(jìn)行預(yù)測并統(tǒng)計(jì)各模型最優(yōu)預(yù)測站點(diǎn)數(shù)量,實(shí)驗(yàn)結(jié)果如表5 所示。從表5 可以看出在對(duì)未來1 h 的短期預(yù)測中各模型的最優(yōu)預(yù)測站點(diǎn)數(shù)量大致相同,但隨著預(yù)測窗口逐漸增大,ARIMA、SVR、BP 模型對(duì)空氣質(zhì)量這類時(shí)空數(shù)據(jù)預(yù)測能力越來越低。由于GRU 模型是一種專門用于處理時(shí)間序列的網(wǎng)絡(luò),隨著預(yù)測步長增加,其最優(yōu)站點(diǎn)統(tǒng)計(jì)數(shù)量要高于ARIMA、SVR 和BP 模型,但低于STAQI 模型。基于時(shí)空混合的STAQI 模型隨預(yù)測步長的增加相比其他基線模型顯示出明顯的預(yù)測優(yōu)勢。
表5 不同模型最優(yōu)預(yù)測站點(diǎn)數(shù)統(tǒng)計(jì)Tab.5 Statistics on the number of optimal prediction sites by different model
3.3.2 變體模型比較
為了檢驗(yàn)STAQI模型中各個(gè)組件對(duì)模型預(yù)測性能的有效性,本文將STAQI模型與由GCN 和GRU 構(gòu)成的全局組件模型(LOCAL)和由LSTM 構(gòu)成的局部組件模型(GLOBAL)進(jìn)行比較,實(shí)驗(yàn)結(jié)果如表6所示。從表6可以看出對(duì)于不同預(yù)測步長STAQI 模型的RMSE 都取得最低值。相較于變體模型中性能較優(yōu)的局部組件模型,STAQI 模型RMSE 值大約下降16%。這是由于局部組件模型只考慮了空氣質(zhì)量數(shù)據(jù)中的時(shí)間特性,忽略了空間相關(guān)性。而全局組件模型把對(duì)目標(biāo)站點(diǎn)的空氣質(zhì)量預(yù)測完全依賴于鄰居節(jié)點(diǎn)的空氣質(zhì)量狀況,忽略了本地污染物濃度對(duì)目標(biāo)站點(diǎn)空氣質(zhì)量預(yù)測的影響。STAQI模型將時(shí)間與空間、局部與全局因素進(jìn)行結(jié)合,使得該模型可以更好地?cái)M合空氣質(zhì)量變化趨勢,提高預(yù)測精度。
表6 變體模型預(yù)測的RMSE值比較Tab.6 Comparison of RMSE values predicted by variant models
此外本文對(duì)北京市35 個(gè)環(huán)境監(jiān)測站點(diǎn)未來6 h 的空氣質(zhì)量使用變體模型和STAQI 模型分別進(jìn)行預(yù)測,各模型的RMSE 值如圖7 所示。從圖7 可以發(fā)現(xiàn)對(duì)于任一站點(diǎn)STAQI模型的RMSE 都取得最低值,因此融合了全局組件和局部組件的STAQI模型可以提高對(duì)空氣質(zhì)量的預(yù)測能力。
圖7 變體模型對(duì)北京市35個(gè)站點(diǎn)的預(yù)測結(jié)果比較Fig.7 Comparison of prediction results of variant models for 35 sites in Beijing
3.3.3 模型預(yù)測及改進(jìn)分析
為了直觀顯示STAQI 模型在真實(shí)數(shù)據(jù)集中的預(yù)測效果,本文使用STAQI 模型對(duì)東四站點(diǎn)進(jìn)行預(yù)測,實(shí)驗(yàn)結(jié)果如圖8所示。從圖8 可以看出STAQI 模型通過提取空氣質(zhì)量中存在的時(shí)空特征可以很好地?cái)M合空氣質(zhì)量變化趨勢;但是STAQI模型在拐點(diǎn)處的預(yù)測誤差要大于對(duì)平穩(wěn)序列預(yù)測的誤差,這是由于受極端天氣條件如暴風(fēng)、暴雨等影響,導(dǎo)致空氣質(zhì)量在極短的時(shí)間內(nèi)發(fā)生突變。因此在未來工作中,可以在模型中融合氣象因素以提高模型在空氣質(zhì)量拐點(diǎn)處的預(yù)測能力。
圖8 STAQI模型對(duì)東四站點(diǎn)的預(yù)測結(jié)果Fig.8 Predicted results of STAQI model for Dongsi site
針對(duì)空氣質(zhì)量間存在的復(fù)雜時(shí)空特征,本文提出一種面向空氣質(zhì)量的新型STAQI 時(shí)空混合預(yù)測模型,它由全局組件和局部組件構(gòu)成。該模型對(duì)地面多個(gè)環(huán)境監(jiān)測站之間的時(shí)空依賴性進(jìn)行明確建模,可以自動(dòng)學(xué)習(xí)多變量空氣質(zhì)量相關(guān)時(shí)間序列數(shù)據(jù)局部趨勢的相關(guān)特征和時(shí)空依賴模式。與傳統(tǒng)僅考慮時(shí)間相關(guān)性的方法相比,STAQI 模型在保留原有監(jiān)測站點(diǎn)位置分布的基礎(chǔ)上將空間特征處理嵌入深度學(xué)習(xí)方法中以同時(shí)提取城市中多站點(diǎn)間的復(fù)雜時(shí)空相關(guān)性。通過在真實(shí)的數(shù)據(jù)集上進(jìn)行評(píng)估,并與不同基準(zhǔn)模型和變體模型在不同預(yù)測水平下進(jìn)行比較,結(jié)果表明STAQI 模型對(duì)空氣質(zhì)量預(yù)測具有更精準(zhǔn)的預(yù)測效果。
為了進(jìn)一步提高模型預(yù)測性能,未來研究工作中將以以下兩方面作為研究重點(diǎn)。首先,空氣質(zhì)量受多種復(fù)雜因素影響,僅僅利用污染數(shù)據(jù)和空氣質(zhì)量數(shù)據(jù)作為影響因素具有一定片面性,因此可以在模型中融合氣象因素、交通流量等其他影響因子對(duì)問題進(jìn)行建模。其次,可在LSTM 網(wǎng)絡(luò)中引入注意力機(jī)制,使得該網(wǎng)絡(luò)對(duì)不同時(shí)期的歷史數(shù)據(jù)可分配不同權(quán)重的注意力,從而獲得更精準(zhǔn)的預(yù)測。