• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      融合圖卷積神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制的PM2.5小時(shí)濃度多步預(yù)測(cè)

      2021-01-26 07:22:32傅穎穎張豐杜震洪劉仁義
      關(guān)鍵詞:解碼器編碼器注意力

      傅穎穎 ,張豐 *,杜震洪 ,劉仁義

      (1.浙江大學(xué)浙江省資源與環(huán)境信息系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,浙江杭州310028;2.浙江大學(xué)地理信息科學(xué)研究所,浙江 杭州 310027)

      2013年,我國(guó)遭遇有觀測(cè)記錄以來(lái)最嚴(yán)重的霧霾天氣[1],污染最嚴(yán)重的京津冀地區(qū)日均PM2.5濃度高達(dá)500 μg·m-3,嚴(yán)重影響了人們的生產(chǎn)生活和身體健康。研究表明,當(dāng) PM2.5濃度超過(guò) 115 μg·m-3時(shí),身體將感到嚴(yán)重不適[2]。因此,利用歷史數(shù)據(jù)高效準(zhǔn)確地預(yù)測(cè)未來(lái)的PM2.5濃度,具有重大的現(xiàn)實(shí)意義。

      目前,根據(jù)PM2.5濃度預(yù)測(cè)模型類別可將其分為化學(xué)機(jī)理模型、時(shí)空分析模型和深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型3種。ZHANG等[3]采取“氣象化學(xué)+傳輸機(jī)制”組合對(duì)PM2.5濃度進(jìn)行在線實(shí)時(shí)預(yù)測(cè);徐文等[4]運(yùn)用時(shí)空自回歸移動(dòng)平均模型預(yù)測(cè)我國(guó)華北地區(qū)的日均PM2.5濃度;范竣翔等[5]使用循環(huán)神經(jīng)網(wǎng)絡(luò)模型,基于過(guò)去48 h的空氣質(zhì)量和氣象數(shù)據(jù)預(yù)測(cè)未來(lái)1 h的 PM2.5濃度;黃婕等[6]將我國(guó)大陸地區(qū)的空氣質(zhì)量監(jiān)測(cè)站點(diǎn)數(shù)據(jù)處理成時(shí)序數(shù)據(jù),將Stacking集成策略與卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)相融合,預(yù)測(cè)未來(lái)1 h的PM2.5濃度。

      然而,上述研究都局限于PM2.5濃度的單步預(yù)測(cè),即利用歷史PM2.5濃度序列預(yù)測(cè)未來(lái)某時(shí)段的PM2.5濃度,尚未有研究開(kāi)展對(duì)PM2.5濃度的多步預(yù)測(cè)。目前對(duì)多步預(yù)測(cè)的研究主要集中在自然語(yǔ)言處理領(lǐng)域和工業(yè)領(lǐng)域,例如,在自然語(yǔ)言處理領(lǐng)域,“編碼器-解碼器”的序列-序列(Seq2Seq)預(yù)測(cè)模型已廣泛應(yīng)用于機(jī)器翻譯,為提高機(jī)器翻譯的精度,文獻(xiàn)[7]提出了注意力機(jī)制模型;在工業(yè)領(lǐng)域,CHEN等[8]考慮規(guī)則風(fēng)電網(wǎng)中風(fēng)速的時(shí)空相關(guān)性,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和雙向門控循環(huán)單元,實(shí)現(xiàn)了風(fēng)速的多步預(yù)測(cè);GUO等[9]將全注意力機(jī)制應(yīng)用于時(shí)間序列,預(yù)測(cè)未來(lái)分鐘級(jí)時(shí)間窗內(nèi)秒級(jí)的網(wǎng)絡(luò)流量。但上述研究均未涉及非歐式空間數(shù)據(jù)及其特征提取。

      根據(jù)已有研究,針對(duì)PM2.5小時(shí)濃度多步預(yù)測(cè)問(wèn)題,本文以自然語(yǔ)言處理領(lǐng)域中的Seq2Seq預(yù)測(cè)模型為基礎(chǔ),集合圖卷積神經(jīng)網(wǎng)絡(luò)提取非歐式空間數(shù)據(jù)特征的能力以及注意力機(jī)制自適應(yīng)關(guān)注特征的能力,提出了融合圖卷積神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制的PM2.5小時(shí)濃度多步預(yù)測(cè)模型,旨在一次性準(zhǔn)確預(yù)測(cè)未來(lái)連續(xù)多個(gè)時(shí)間步的PM2.5濃度。通過(guò)實(shí)驗(yàn),驗(yàn)證和分析了模型的有效性和優(yōu)越性。

      1 PM2.5小時(shí)濃度多步預(yù)測(cè)方法

      1.1 問(wèn)題描述

      PM2.5小時(shí)濃度多步預(yù)測(cè)問(wèn)題本質(zhì)上是利用一個(gè)時(shí)間序列預(yù)測(cè)另一個(gè)時(shí)間序列的問(wèn)題,即利用歷史M個(gè)連續(xù)時(shí)間步的PM2.5濃度數(shù)據(jù),預(yù)測(cè)未來(lái)N個(gè)連續(xù)時(shí)間步的PM2.5濃度,通過(guò)觀測(cè)窗口xobs=[xt-M+1,…,xt]對(duì)預(yù)測(cè)窗口xpre=[xt+1,…,xt+N]進(jìn)行預(yù)測(cè),PM2.5小時(shí)濃度多步預(yù)測(cè)示意如圖1所示。

      圖1 PM2.5小時(shí)濃度多步預(yù)測(cè)Fig.1 Multi-step prediction of PM2.5hourly concentrations

      每個(gè)空氣質(zhì)量監(jiān)測(cè)站點(diǎn)都有各自的時(shí)間序列,可將某一時(shí)刻所有空氣質(zhì)量監(jiān)測(cè)站點(diǎn)的PM2.5濃度數(shù)據(jù)的空間分布抽象成一張無(wú)向拓?fù)鋱D。先提取該站點(diǎn)每個(gè)時(shí)間步上的空間特征,形成空間特征時(shí)間序列,再對(duì)基于空間特征時(shí)序依賴關(guān)系的時(shí)間序列解碼,得到目標(biāo)PM2.5濃度序列。

      1.2 PM2.5小時(shí)濃度時(shí)空相關(guān)性分析

      通過(guò)單位根檢驗(yàn)(ADF)和全局空間自相關(guān)分析,簡(jiǎn)要說(shuō)明PM2.5小時(shí)濃度的時(shí)空關(guān)聯(lián)性。

      用ADF對(duì)北京市2015—2016年的PM2.5小時(shí)濃度序列進(jìn)行平穩(wěn)性檢驗(yàn),實(shí)驗(yàn)結(jié)果如表1所示。假設(shè)序列存在單位根,ADF得到的統(tǒng)計(jì)檢驗(yàn)值為-13.0573,小于99%,95%,90%3種置信區(qū)間的臨界值,且p值接近于0,因此拒絕原假設(shè)。也就是說(shuō),從研究時(shí)間范圍看,PM2.5小時(shí)濃度序列是平穩(wěn)的,PM2.5小時(shí)濃度數(shù)據(jù)的歷史和現(xiàn)狀具有代表性和可延續(xù)性。

      表1 PM2.5小時(shí)濃度序列單位根檢驗(yàn)結(jié)果Table 1 ADF results of PM2.5hourly concentrations

      將北京市2015—2016年22個(gè)空氣質(zhì)量監(jiān)測(cè)站點(diǎn)的PM2.5小時(shí)濃度數(shù)據(jù)按照春季(3—5月)、夏季(6—8月)、秋季(9—11月)、冬季(12—次年2月)劃分,分別匯總得到各監(jiān)測(cè)站點(diǎn)在不同季節(jié)的PM2.5小時(shí)濃度均值,使用GeoDA軟件進(jìn)行全局空間自相關(guān)分析,分析結(jié)果以Moran’s I散點(diǎn)圖的形式展示,見(jiàn)圖2。春、夏、秋、冬4個(gè)季節(jié)PM2.5小時(shí)濃度全局空間自相關(guān) Moran’s I分別為 0.510,0.611,0.601,0.469,各季節(jié)北京市PM2.5小時(shí)濃度均呈較高的空間自相關(guān)性,空間集聚特征顯著,其中春、冬兩季的空間自相關(guān)性較弱,夏、秋兩季的空間自相關(guān)性較強(qiáng)。

      1.3 圖卷積神經(jīng)網(wǎng)絡(luò)

      由地理學(xué)第一定律[10]及1.2節(jié)的空間分析可知,PM2.5小時(shí)濃度在空間上具有相關(guān)性。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)是包含卷積計(jì)算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)[11],其實(shí)質(zhì)是在規(guī)則矩陣上平移共享參數(shù)的過(guò)濾器,同時(shí)計(jì)算中心像素點(diǎn)與相鄰像素點(diǎn)的加權(quán)和,從而實(shí)現(xiàn)空間特征的提取,其核心是平移不變性。然而,在進(jìn)行空間特征提取時(shí),由于PM2.5小時(shí)濃度來(lái)自空氣質(zhì)量監(jiān)測(cè)站點(diǎn)的記錄數(shù)據(jù),每個(gè)監(jiān)測(cè)站點(diǎn)鄰近的站點(diǎn)數(shù)不一定相同,無(wú)法保證平移不變性,因此,無(wú)法直接使用CNN提取空間特征??紤]某一時(shí)刻所有監(jiān)測(cè)站點(diǎn)的PM2.5小時(shí)濃度數(shù)據(jù)的空間分布可以被抽象成一張無(wú)向拓?fù)鋱D,因此,本文選擇圖卷積神經(jīng)網(wǎng)絡(luò),以有效提取拓?fù)鋱D數(shù)據(jù)結(jié)構(gòu)的空間特征。

      將某時(shí)刻S個(gè)空氣質(zhì)量監(jiān)測(cè)站點(diǎn)的PM2.5小時(shí)濃度數(shù)據(jù)的空間分布抽象為一張空間圖,記為G=(V,E,A),其中,V∈RS×P為點(diǎn)集,P為每個(gè)站點(diǎn)的屬性維度;E∈RS×S為邊集,表示各站點(diǎn)之間的連通性;A∈RS×S為G的空間鄰接矩陣,元素Aij表征圖節(jié)點(diǎn)vi和vj之間的相對(duì)空間關(guān)系?;谡军c(diǎn)之間的空間距離構(gòu)建鄰接矩陣A。若站點(diǎn)vi的地理坐標(biāo)為(loni,lati),i∈[0,S),則站點(diǎn)vi和站點(diǎn)vj的空間距離為G中每個(gè)站點(diǎn)都會(huì)產(chǎn)生采樣頻率一致的污染物濃度序列數(shù)據(jù),由此組成圖序列數(shù)據(jù),見(jiàn)圖3。

      圖卷積操作發(fā)生在空間維度,首先只考慮一個(gè)時(shí)間片上的空間圖G。圖卷積神經(jīng)網(wǎng)絡(luò)層接受某時(shí)間片上的G,通過(guò)某種卷積操作提取空間特征,然后,將G中每個(gè)節(jié)點(diǎn)的原始特征轉(zhuǎn)化為具有各自空間特征的隱層。由于圖數(shù)據(jù)無(wú)法保持平移不變,因此,與卷積神經(jīng)網(wǎng)絡(luò)類似,用過(guò)濾器在空域上進(jìn)行特征提取顯得極為不便。圖卷積神經(jīng)網(wǎng)絡(luò)提取特征最常用的是圖譜理論方法[12],傅里葉變換可從空域變換至頻域求解,通過(guò)拉普拉斯矩陣將網(wǎng)格數(shù)據(jù)中的卷積操作推廣至圖結(jié)構(gòu)數(shù)據(jù)[13]。

      由于對(duì)圖信號(hào)進(jìn)行卷積后再做傅里葉變換等于對(duì)圖信號(hào)進(jìn)行傅里葉變換后的乘積[14],所以圖的卷積等價(jià)為

      其中,g為圖過(guò)濾器,x為圖信號(hào),*表示卷積,F(xiàn)和F-1分別為傅里葉變換與逆變換。傅里葉變換與逆變換的關(guān)鍵是求得基e-2πit·v和基e2πiv·t(其中,v為頻域中的變量,t為空域中的變量,i為虛數(shù)單位)。拉普拉斯算子是實(shí)對(duì)稱矩陣,具有良好的性質(zhì),如易進(jìn)行特征分解,且其特征向量是傅里葉變換基[15]。在圖G中,拉普拉斯算子L可用圖的度數(shù)矩陣D∈RS×S和鄰接矩陣A∈RS×S表示:

      其中,di為節(jié)點(diǎn)vi的度。拉普拉斯算子L的特征分解式為

      其中,UT對(duì)應(yīng)傅里葉變換基 e-2πit·v,U對(duì)應(yīng)傅里葉逆變換基 e2πiv·t,Λ為特征值組成的對(duì)角矩陣,記作

      又由式(3),圖G的卷積等價(jià)為

      由式(6),可將UTg看作參數(shù)為L(zhǎng)的函數(shù)g(L),進(jìn)一步將其看作參數(shù)為θ的函數(shù)gθ(Λ)。為降低計(jì)算復(fù)雜度,對(duì)gθ(Λ)做切比雪夫多項(xiàng)式的K階截?cái)嘟疲?2]:

      其中,取K=1,λmax=2,此時(shí)可得圖卷積的一階線性近似:

      令 θ= θ"0=-θ"1,記圖 卷積為

      將θ看作權(quán)值,加上激活層,可得最終的圖卷積神經(jīng)網(wǎng)絡(luò)的前向傳播式為

      由于采用的是切比雪夫多項(xiàng)式的一階近似,圖卷積只能建立一階鄰居依賴,若建立K階鄰居依賴,需堆疊多個(gè)圖卷積層。本文采用兩層圖卷積神經(jīng)網(wǎng)絡(luò),前向傳播式為

      其中,H0為節(jié)點(diǎn)集V,H2為圖卷積神經(jīng)網(wǎng)絡(luò)的最終輸出特征。神經(jīng)網(wǎng)絡(luò)通過(guò)反向傳播修改參數(shù)矩陣W1和W2,以獲得鄰接節(jié)點(diǎn)的最優(yōu)特征組合,即提取站點(diǎn)間的空間關(guān)系。

      1.4 Seq2Seq預(yù)測(cè)模型

      由于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)可以很好地關(guān)聯(lián)上下文信息,故常被用于序列數(shù)據(jù)建模[16]。Seq2Seq模型,又稱編碼器-解碼器模型,是RNN的一個(gè)重要變種。編碼器將輸入向量編碼成一個(gè)長(zhǎng)度固定的上下文向量,解碼器將上下文向量解碼為目標(biāo)序列。Seq2Seq模型最常見(jiàn)的結(jié)構(gòu)是用2個(gè)RNN結(jié)構(gòu)充當(dāng)編碼器和解碼器,編碼器RNN的最后一個(gè)隱狀態(tài)作為上下文變量[17]。

      本文選擇門控循環(huán)單元(gated recurrent unit,GRU)作為編碼器和解碼器。普通RNN在時(shí)間序列較長(zhǎng)的情況下易出現(xiàn)梯度消失或梯度爆炸等問(wèn)題[18],長(zhǎng) 短 期 記 憶(long short-term memory,LSTM)神經(jīng)網(wǎng)絡(luò)通過(guò)引入的3個(gè)門函數(shù)控制信息傳遞,以克服長(zhǎng)距離記憶消失的問(wèn)題[19],GRU為L(zhǎng)STM網(wǎng)絡(luò)中一種效果較好的變體,其結(jié)構(gòu)較簡(jiǎn)單、且容易訓(xùn)練。

      圖卷積神經(jīng)網(wǎng)絡(luò)提取的空間特征組成時(shí)間序列矩陣,作為編碼器的整體輸入,編碼器每次接受一個(gè)時(shí)間步的輸入向量,經(jīng)GRU門函數(shù),輸出該時(shí)間步的輸出向量和狀態(tài)向量,然后將狀態(tài)向量與下一個(gè)時(shí)間步的輸入向量同時(shí)輸入編碼器,循環(huán)至輸入序列的最后時(shí)間步。編碼器最終輸出的為壓縮了輸入序列整體信息的狀態(tài)向量和輸出序列矩陣。輸出的狀態(tài)向量將作為解碼器的初始狀態(tài)向量,而解碼器的輸入向量在訓(xùn)練階段和預(yù)測(cè)階段有所不同。在訓(xùn)練階段,采用 Teacher Forcing 策略[20],取上一個(gè)時(shí)間步的真實(shí)數(shù)據(jù)作為當(dāng)前時(shí)間步的輸入向量,神經(jīng)網(wǎng)絡(luò)將參數(shù)快速更新至合適的值;在預(yù)測(cè)階段,則將上一個(gè)時(shí)間步的輸出向量作為當(dāng)前時(shí)間步的輸入向量,因此不可避免地會(huì)產(chǎn)生誤差累積,造成預(yù)測(cè)精度衰減。編碼器-解碼器模型的工作示意如圖4所示。

      圖4 編碼器-解碼器模型的工作示意Fig.4 Schematic diagram of encoder-decoder model

      1.5 注意力機(jī)制

      編碼器-解碼器模型的缺陷是上下文向量的表征能力有限,無(wú)法包含輸入序列的所有信息,從而限制,解碼器的解碼能力。研究發(fā)現(xiàn),注意力機(jī)制可以有效緩解序列預(yù)測(cè)模型中的信息衰減[7]。由于編碼器將更多信息分散地保存在每個(gè)時(shí)間步的輸出向量中,注意力機(jī)制允許解碼器不只依靠上下文向量完成解碼,而是在每個(gè)時(shí)間步上考慮編碼器的所有輸出向量,通過(guò)分配權(quán)重,加權(quán)求和得到解碼器在當(dāng)前時(shí)間步最關(guān)注的信息。

      其中,WQ為dx×dq維的Query參數(shù)矩陣,WK為dx×dk維的Key參數(shù)矩陣,WV為dx× dv維的Value參數(shù)矩陣,dq=dk。WQ、WK、WV的作用與全連接神經(jīng)網(wǎng)絡(luò)中的權(quán)重矩陣類似,需要通過(guò)反向傳播算法更新參數(shù)。目標(biāo)值與Query參數(shù)矩陣相乘使得目標(biāo)值從dx維度的xtk向量映射為dq維度的Q向量,同理,xts-te矩陣映射為元素維度為dk的K矩陣和元素維度為dv的V矩陣。K與V都是對(duì)依賴序列的另一種表達(dá),區(qū)別是K用于衡量目標(biāo)值與依賴序列的相關(guān)性,即求解權(quán)值,V用于計(jì)算權(quán)值與依賴序列的加權(quán)和,即求解注意力機(jī)制的輸出。xtk向量可來(lái)自依賴序列xts-te,也可來(lái)自其他序列,若來(lái)自依賴序列xts-te,則稱該注意力機(jī)制為自注意力。

      目標(biāo)值與依賴序列之間的關(guān)系為

      其中,softmax為深度學(xué)習(xí)中的softmax激活函數(shù),將數(shù)據(jù)歸一化(0,1)區(qū)間:

      將權(quán)值矩陣與依賴序列加權(quán)求和,可得注意力向量

      為提高目標(biāo)值與依賴序列之間注意力的表達(dá)能力,增強(qiáng)注意力的廣度和深度,文獻(xiàn)[7]進(jìn)一步提出了多頭注意力機(jī)制(multi-head attention)概念,即使用H組(WQ、WK、WV)參數(shù)矩陣,計(jì)算同一組目標(biāo)值和依賴序列的H次注意力機(jī)制,得到H個(gè)注意力向量,將H個(gè)注意力向量拼接成一個(gè)向量,作為注意力機(jī)制的最終輸出結(jié)果。

      1.6 融合圖卷積神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制的PM2.5小時(shí)濃度多步預(yù)測(cè)模型

      本文提出的PM2.5小時(shí)濃度多步預(yù)測(cè)模型可簡(jiǎn)寫為GCN_Attention_Seq2Seq,由圖卷積神經(jīng)網(wǎng)絡(luò)、GRU編碼器和GRU解碼器3部分堆疊而成,其中,GRU編碼器和GRU解碼器與多頭注意力機(jī)制連接,GRU解碼器內(nèi)部使用多頭自注意力機(jī)制以提取待解碼時(shí)間步的輸入與已解碼的所有輸出間的關(guān)系。

      圖5 GCN_Attention_Seq2Seq模型結(jié)構(gòu)Fig.5 Model structure of GCN_Attention_Seq2Seq

      圖5 為處于預(yù)測(cè)模式的GCN_Attention_Seq2Seq模型結(jié)構(gòu),處于訓(xùn)練模式時(shí),解碼器每個(gè)時(shí)間步的輸入都由實(shí)測(cè)值代替。圖5說(shuō)明如下:

      ①編碼器最后一個(gè)時(shí)間步的輸出經(jīng)過(guò)全連接層得到預(yù)測(cè)值,該預(yù)測(cè)值經(jīng)圖卷積操作后作為解碼器第一個(gè)時(shí)間步的輸入。

      ②將編碼器最后一個(gè)時(shí)間步的狀態(tài)向量作為解碼器的初始狀態(tài)向量。

      ③解碼器在解碼當(dāng)前時(shí)間步時(shí),將該步的輸入向量作為目標(biāo)值、已解碼得到的所有輸出向量作為依賴序列,計(jì)算得到自注意力向量。自注意力向量用于衡量解碼器內(nèi)當(dāng)前時(shí)間步的輸入對(duì)解碼器當(dāng)前所有輸出的依賴程度。自注意力向量與上一步輸出的狀態(tài)向量相加作為新?tīng)顟B(tài)向量。

      ④解碼器在解碼當(dāng)前時(shí)間步時(shí),將第③步得到的新?tīng)顟B(tài)向量作為目標(biāo)值,將編碼器的輸出矩陣作為依賴序列,計(jì)算得到注意力向量。

      ⑤將第④步得到的注意力向量作為輸入當(dāng)前時(shí)間步的最終狀態(tài)向量,用于解碼。

      本文將最原始的編碼器-解碼器(Seq2Seq)模型和使用圖卷積神經(jīng)網(wǎng)絡(luò)、未使用注意力機(jī)制的編碼器-解碼器(GCN_Seq2Seq)模型作為對(duì)照模型,以說(shuō)明圖卷積神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制的作用。3個(gè)模型在編碼器部分無(wú)區(qū)別,而在解碼器部分,GCN_Attention_Seq2Seq模型較其他2個(gè)模型增加了多頭注意力機(jī)制和多頭自注意力機(jī)制。

      2 實(shí)例驗(yàn)證與結(jié)果分析

      2.1 實(shí)例與實(shí)驗(yàn)配置

      實(shí)驗(yàn)樣本為2015年1月1日至2016年12月29日北京市36個(gè)空氣質(zhì)量監(jiān)測(cè)站點(diǎn)的空氣污染物小時(shí)濃度數(shù)據(jù),污染物包括 PM2.5、PM10、NO2、CO、O3和SO2共6種,數(shù)據(jù)來(lái)源于中國(guó)環(huán)境監(jiān)測(cè)總站的全國(guó)城市空氣質(zhì)量實(shí)時(shí)發(fā)布平臺(tái)。由于監(jiān)測(cè)站點(diǎn)采集到的原始數(shù)據(jù)有不同程度的缺失,故去除數(shù)據(jù)缺失率大于2%的污染物和監(jiān)測(cè)站點(diǎn),最終保留了22個(gè)空氣質(zhì)量監(jiān)測(cè)站點(diǎn)和 PM2.5、SO2、NO2、O3共 4 種污染物,共形成382 998條原始空氣質(zhì)量記錄數(shù)據(jù)??諝赓|(zhì)量監(jiān)測(cè)站點(diǎn)分布及其拓?fù)鋱D如圖6所示。

      首先,對(duì)原始記錄數(shù)據(jù)進(jìn)行預(yù)處理。然后,對(duì)382 998條記錄以時(shí)間為行索引、站點(diǎn)ID為列索引進(jìn)行排列,規(guī)整為17 410行。每一行的各站點(diǎn)間用“#”號(hào)間隔,每個(gè)站點(diǎn)中的污染物濃度屬性用“,”間隔。缺失值用線性插值的方式補(bǔ)全。最后,將17 410條數(shù)據(jù)按8∶1∶1的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,以訓(xùn)練集中每種污染物的最大值為標(biāo)準(zhǔn)對(duì)訓(xùn)練集、驗(yàn)證集和測(cè)試集進(jìn)行最大值歸一化。

      圖6 空氣質(zhì)量監(jiān)測(cè)站點(diǎn)分布及其拓?fù)鋱DFig.6 Distribution and topology of air quality monitoring stations

      本文研究的PM2.5小時(shí)濃度多步預(yù)測(cè)屬序列預(yù)測(cè)問(wèn)題,也是回歸問(wèn)題,因此采用均方根誤差(root mean squared error,RMSE)、平均絕對(duì)誤差(mean absolute error,MAE)以 及 擬 合 指 數(shù)(index of agreement,IA)3個(gè)指標(biāo)計(jì)算預(yù)測(cè)序列與實(shí)測(cè)序列之間的差,并用其評(píng)價(jià)預(yù)測(cè)效果。訓(xùn)練模型所用的超參數(shù)如表2所示。實(shí)驗(yàn)硬件環(huán)境為處理器為Intel(R)Xeon(R)CPU E5-2650 v4@2.20 GHz、GPU為GeForce GTX 1080 Ti、內(nèi)存為64 GB的服務(wù)器,軟 件 環(huán) 境 為 Python 3.6.0、PyTorch 1.0.0、CUDA 9.0。

      表2 訓(xùn)練模型超參數(shù)Table 2 Parameters of training model

      2.2 實(shí)驗(yàn)結(jié)果分析

      將訓(xùn)練數(shù)據(jù)組織為觀察窗口24 h、預(yù)測(cè)窗口3 h的時(shí)間序列,分別訓(xùn)練GCN_Attention_Seq2Seq模型、GCN_Seq2Seq模型和Seq2Seq模型;將測(cè)試數(shù)據(jù)組織為觀察窗口24 h、預(yù)測(cè)窗口分別為3,6,9,12,15,18 h的時(shí)間序列,用訓(xùn)練好的3個(gè)模型分別對(duì)6組測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè)。表3列出了3個(gè)模型在22個(gè)站點(diǎn)中的預(yù)測(cè)精度。由表3可知,無(wú)論是最好情況、平均情況還是最差情況,GCN_Attention_Seq2Seq模型的3項(xiàng)指標(biāo)均為最優(yōu),3 h預(yù)測(cè)窗口的平均IA最高可達(dá)98.3%,GCN_Seq2Seq模型次之,Seq2Seq模型最差。GCN_Attention_Seq2Seq模型的平均RMSE比GCN_Seq2Seq模型低17.5%,比Seq2Seq模型低24.3%。結(jié)果表明,在Seq2Seq模型中,考慮空氣質(zhì)量監(jiān)測(cè)站點(diǎn)之間的空間關(guān)系是必要的,且增加注意力機(jī)制可顯著提高模型的預(yù)測(cè)精度。

      表3 3個(gè)模型的預(yù)測(cè)精度Table 3 Prediction accuracy of three models

      由于每個(gè)模型的最好情況、平均情況、最差情況對(duì)模型預(yù)測(cè)能力反映的趨勢(shì)是一致的,圖7為平均情況下隨預(yù)測(cè)窗口的加長(zhǎng),3個(gè)模型的RMSE、MAE、IA指標(biāo)變化情況。從3個(gè)指標(biāo)的整體看,隨著預(yù)測(cè)窗口的加長(zhǎng),GCN_Attention_Seq2Seq模型的誤差與2個(gè)對(duì)照模型的分化越來(lái)越大,誤差顯著低于2個(gè)對(duì)照模型,當(dāng)預(yù)測(cè)窗口小于12 h時(shí),3個(gè)模型的RMSE均迅速升高,MAE緩慢升高,IA快速下降;當(dāng)預(yù)測(cè)窗口大于12 h時(shí),RMSE、MAE、IA均開(kāi)始趨于穩(wěn)定,趨于穩(wěn)定后,Seq2Seq和GCN_Seq2 Seq模型的RMSE高居60及以上、MAE在40及以上,GCN_Attention_Seq2Seq模型的RMSE則在50左右、MAE在30左右。從IA單項(xiàng)指標(biāo)看,隨預(yù)測(cè)窗口的加長(zhǎng),GCN_Attention_Seq2Seq模型的IA始終保持在0.8以上,而Seq2Seq和GCN_Seq2Seq模型的IA則由最初的大于0.9分別降至0.6和0.7,結(jié)果表明,隨著預(yù)測(cè)窗口的加長(zhǎng),GCN_Attention_Seq 2Seq模型的預(yù)測(cè)精度衰減率比未使用注意力機(jī)制的模型低得多,原因是編碼器和解碼器之間以及解碼器內(nèi)部使用了注意力機(jī)制,使得解碼器不再只依靠編碼器最后一個(gè)時(shí)間步的狀態(tài)向量完成解碼,而是在每個(gè)時(shí)間步上均考慮了編碼器的所有輸入向量,通過(guò)分配權(quán)重,加權(quán)求和得到解碼器在當(dāng)前時(shí)間步最關(guān)注的信息,從而降低了信息遺漏和記憶衰減。

      為更清晰地說(shuō)明注意力機(jī)制有助于減少信息遺漏和記憶衰減,本文提出以精度衰減率指標(biāo)φ表示當(dāng)前時(shí)間步的預(yù)測(cè)值與實(shí)測(cè)值的RMSE相較于前一時(shí)間步的增加幅度,即預(yù)測(cè)精度衰減的程度,計(jì)算式為

      圖7 3個(gè)模型的指標(biāo)變化對(duì)比Fig.7 Comparison diagram of indicator changes of three models

      圖8 當(dāng)觀察窗口為24 h、預(yù)測(cè)窗口為15 h時(shí)各個(gè)時(shí)間步的預(yù)測(cè)精度衰減率Fig.8 Prediction accuracy attenuation rate of each time step when the observation window is 24 h and the prediction window is 15 h

      本文選取GCN_Attention_Seq2Seq和GCN_Seq2Seq模型,給予24 h的觀察窗口,預(yù)測(cè)之后15 h內(nèi)的PM2.5小時(shí)濃度,并計(jì)算預(yù)測(cè)窗口中每個(gè)時(shí)間步的精度衰減率φ,見(jiàn)圖8。GCN_Attention_Seq2Seq模型在15 h預(yù)測(cè)窗口中的平均預(yù)測(cè)精度衰減率為6.32%,GCN_Seq2Seq模型在15 h預(yù)測(cè)窗口中的平均預(yù)測(cè)精度衰減率為11.62%,GCN_Attention_Seq 2Seq模型的預(yù)測(cè)精度衰減率顯著小于GCN_Seq2 Seq模型,表明注意力機(jī)制對(duì)特征的自適應(yīng)關(guān)注可實(shí)現(xiàn)對(duì)數(shù)據(jù)特征的有效利用,提高深度學(xué)習(xí)模型的應(yīng)用效果。在15 h的預(yù)測(cè)窗口中,前2 h的精度衰減率較大,后續(xù)精度衰減率起伏較平緩,但GCN_Attention_Seq2Seq模型的預(yù)測(cè)精度衰減率始終低于GCN_Seq2Seq模型,且起伏更為平緩。GCN_Attention_Seq2Seq模型的預(yù)測(cè)精度衰減率起伏較為平緩的原因可能與自注意力機(jī)制發(fā)揮作用有關(guān),預(yù)測(cè)窗口中已取得的預(yù)測(cè)結(jié)果為后續(xù)預(yù)測(cè)提供了更豐富的上下文信息。

      以上分析足以表明,在PM2.5小時(shí)濃度多步預(yù)測(cè)中,注意力機(jī)制能減少信息遺漏和記憶衰減,降低預(yù)測(cè)精度衰減率,提高多步預(yù)測(cè)能力。

      圖9為2015年8月14日至2016年8月14日3個(gè)模型在云崗空氣質(zhì)量監(jiān)測(cè)站點(diǎn)針對(duì)觀察窗口24 h、預(yù)測(cè)窗口3 h,在預(yù)測(cè)窗口第一個(gè)時(shí)間步上的實(shí)測(cè)值和預(yù)測(cè)值折線圖。由圖9可知,GCN_Attention_Seq2 Seq模型的預(yù)測(cè)值和實(shí)測(cè)值的擬合度稍好于GCN_Seq2Seq模型,顯著好于Seq2Seq模型。

      3 結(jié) 語(yǔ)

      考慮PM2.5小時(shí)濃度數(shù)據(jù)的時(shí)空相關(guān)性以及原始編碼器-解碼器模型容易發(fā)生記憶衰減,本文利用圖卷積神經(jīng)網(wǎng)絡(luò)的對(duì)非歐式空間數(shù)據(jù)提取特征的能力以及注意力機(jī)制的自適應(yīng)關(guān)注特征的能力,提出了融合圖卷積神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制的PM2.5小時(shí)濃度多步預(yù)測(cè)模型。以2015—2016年北京市22個(gè)空氣質(zhì)量監(jiān)測(cè)站點(diǎn)的空氣質(zhì)量數(shù)據(jù)為樣本,設(shè)計(jì)并訓(xùn)練了GCN_Attention_Seq2Seq,GCN_Seq2Seq,Seq2Seq 3種深度學(xué)習(xí)模型,在測(cè)試集上的驗(yàn)證結(jié)果表明,GCN_Attention_Seq2Seq模型的平均RMSE比GCN_Seq2Seq模型低17.5%,比Seq2Seq模型低24.3%;GCN_Attention_Seq2Seq模型在15 h預(yù)測(cè)窗口中的平均預(yù)測(cè)精度衰減率為6.32%,顯著低于GCN_Seq2Seq模型的11.62%,證實(shí)了圖卷積神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制有助于提升PM2.5小時(shí)濃度多步預(yù)測(cè)的精度,注意力機(jī)制有助于減緩多步預(yù)測(cè)中的預(yù)測(cè)精度衰減。本文方法在時(shí)間序列上使用了注意力機(jī)制,取得了良好效果。下一步工作將重點(diǎn)研究注意力機(jī)制在空間特征提取中的作用。

      猜你喜歡
      解碼器編碼器注意力
      讓注意力“飛”回來(lái)
      科學(xué)解碼器(一)
      科學(xué)解碼器(二)
      科學(xué)解碼器(三)
      線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
      基于FPGA的同步機(jī)軸角編碼器
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
      A Beautiful Way Of Looking At Things
      JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
      電子器件(2015年5期)2015-12-29 08:42:24
      宿迁市| 青海省| 佛冈县| 温泉县| 苗栗县| 彩票| 确山县| 景宁| 康定县| 泸西县| 鹤庆县| 从化市| 建瓯市| 塔河县| 塘沽区| 西畴县| 乳山市| 蚌埠市| 承德县| 丰宁| 中山市| 临沧市| 宁德市| 乡宁县| 察雅县| 梁山县| 乐都县| 长岛县| 西城区| 阳谷县| 吐鲁番市| 郯城县| 甘谷县| 搜索| 佛教| 太和县| 沙雅县| 南阳市| 龙里县| 延寿县| 廉江市|