• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于燭臺圖模式匹配的PM2.5擴(kuò)散特征的提取

      2023-05-24 03:18:28文益民沈世銘
      計算機(jī)應(yīng)用 2023年5期
      關(guān)鍵詞:燭臺卷積污染物

      許 睿,梁 爽,萬 航,文益民,沈世銘,李 建

      (1.桂林電子科技大學(xué) 計算機(jī)與信息安全學(xué)院,廣西 桂林 541004;2.南方海洋科學(xué)與工程廣東省實驗室(廣州),廣州 511458;3.衛(wèi)星導(dǎo)航定位與位置服務(wù)國家地方聯(lián)合工程研究中心(桂林電子科技大學(xué)),廣西 桂林 541004)

      0 引言

      實現(xiàn)經(jīng)濟(jì)和環(huán)境協(xié)同發(fā)展已經(jīng)成為全球關(guān)注的熱點,而大氣環(huán)境污染是目前主要的環(huán)境問題之一。造成環(huán)境污染的細(xì)顆粒物種類眾多,主要包括氮氧化物、硫氧化物、臭氧、一氧化碳等。大氣污染物濃度監(jiān)測是環(huán)境治理的一個重要手段,不僅可以識別大氣中的污染物質(zhì),還能掌握其分布和擴(kuò)散規(guī)律,監(jiān)視大氣污染源的排放和控制情況。大氣污染物濃度預(yù)測方法特點對比如表1 所示。在眾多的污染物濃度預(yù)測方法中,基于深度學(xué)習(xí)的方法以其學(xué)習(xí)能力強(qiáng)、適應(yīng)性強(qiáng)、可移植性好以及準(zhǔn)確率高等特點被廣泛應(yīng)用。本文考慮結(jié)合股票預(yù)測中廣泛使用的K 線圖技術(shù)分析方法,充分挖掘PM2.5(大氣細(xì)顆粒物污染)濃度擴(kuò)散數(shù)據(jù),以有效提取大氣污染物擴(kuò)散過程特征。

      表1 大氣污染物濃度預(yù)測方法特性對比Tab.1 Comparison of characteristics of air pollutant concentration prediction methods

      本文提出了一種基于燭臺圖(Candlestick Chart,也稱作K 線圖)表示的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)提取大氣污染數(shù)值序列特征——基于燭臺圖模式匹配(Candlestick Pattern Matching,CPM)的PM2.5擴(kuò)散特征提取方法,通過聚類分析網(wǎng)絡(luò)中燭臺圖的特征判斷將會發(fā)生的趨勢反轉(zhuǎn)情況。燭臺圖被廣泛應(yīng)用在股票市場用來記錄和預(yù)測價格走勢,燭臺圖分析技術(shù)的使用解決了非線性數(shù)據(jù)龐大無章的問題,同時保留了數(shù)據(jù)的語義關(guān)系。本文在引入燭臺圖的基礎(chǔ)上,使用在深度學(xué)習(xí)領(lǐng)域廣泛應(yīng)用的VGG(Visual Geometry Group)網(wǎng)絡(luò)提取污染物濃度變化特征,并對最終走勢進(jìn)行預(yù)測。實驗結(jié)果表明:本文的預(yù)測方法可以有效提取PM2.5趨勢特征,驗證了基于CPM 的方法在預(yù)測未來污染物濃度周期變化時的有效性。

      1 相關(guān)工作

      隨著當(dāng)今世界經(jīng)濟(jì)的發(fā)展,人們對環(huán)境污染的問題也越來越重視,PM2.5已成為大氣污染與擴(kuò)散領(lǐng)域的重點研究對象。一個旨在預(yù)測空氣質(zhì)量變化的模型,不僅要充分考慮多種復(fù)雜因素的影響,如氣候、交通、地形地貌、理化過程等,還需要充分保護(hù)數(shù)據(jù)的原始性,并考慮污染物濃度擴(kuò)散的全局趨勢以及局部變化特征。因此,將單純時序數(shù)據(jù)與大氣污染物擴(kuò)散過程相對應(yīng),充分提取變化特征的研究具備實用性和學(xué)術(shù)價值。

      目前針對污染物濃度數(shù)據(jù)的分析中,利用傳統(tǒng)的物理模型以及人工神經(jīng)網(wǎng)絡(luò)等各類方法對空氣質(zhì)量指標(biāo)未來走勢進(jìn)行分析是大氣環(huán)境監(jiān)測領(lǐng)域的一個重要方向。例如,Zhang 等[1]全面評估了具有在線耦合氣象-化學(xué)的三維實時空氣質(zhì)量預(yù)測(3-D Real-Time Air Quality Forecasting,3-D RT-AQF)模型;李威凌等[2]分別采用高斯模型和空間插值法對空間擴(kuò)散情況進(jìn)行模擬;Sun 等[3]提出了一種混合深度空氣質(zhì)量 預(yù)測模 型(Mixing Depth Air Quality Prediction,HDAQP)來預(yù)測空氣質(zhì)量指標(biāo)。現(xiàn)在基于人工神經(jīng)網(wǎng)絡(luò)的預(yù)測方法中,普遍集中在將初始處理的數(shù)據(jù)預(yù)處理成各種維度的數(shù)據(jù)向量后作為神經(jīng)網(wǎng)絡(luò)的輸入樣本。這些方法在對初始數(shù)據(jù)進(jìn)行處理,或?qū)斎霐?shù)據(jù)的維度進(jìn)行確定時,都對最原始的數(shù)據(jù)進(jìn)行了改變和篩選,限定了原始數(shù)據(jù)呈現(xiàn)特征的形式,可能損失很多隱藏信息。

      在眾多的數(shù)據(jù)分析方法中,燭臺圖被認(rèn)為是能夠最好保存時序數(shù)據(jù)指標(biāo)的一種形式,燭臺圖模式對應(yīng)數(shù)據(jù)走勢中的濃度變化。例如,Takeuchi 等[4]設(shè)計了改良的K 線;Li 等[5]將壓力模式定義為一系列燭臺圖;魏連江等[6]從K 線圖角度對瓦斯異常模式進(jìn)行研究。但是,K 線圖對各類紛繁復(fù)雜的分析規(guī)則的應(yīng)用主要依賴分析者個人的經(jīng)驗,因此利用科學(xué)統(tǒng)計的方法真正抓住K 線圖中預(yù)測漲跌的特征信號顯得尤為重要。

      隨著深度學(xué)習(xí)研究的日益發(fā)展,CNN 在圖片識別領(lǐng)域的應(yīng)用取得了巨大成就。例如,Hu 等[7]將深度學(xué)習(xí)方法(卷積自動編碼器)與K 線圖分析技術(shù)相結(jié)合并應(yīng)用在股票分析中;Chen 等[8]使 用CNN 和格拉 姆角場(Gramian Angular Field,GAF)圖像捕獲了8 種主要的燭臺形式;Huang 等[9]通過閱讀燭臺圖表而不是財務(wù)報告中的數(shù)值來預(yù)測價格走勢;張智軍等[10]則將含有需要識別的金融K 線形態(tài)圖像和該形態(tài)對應(yīng)的坐標(biāo)作為神經(jīng)網(wǎng)絡(luò)的輸入。通過深度學(xué)習(xí)算法在K 線形態(tài)圖像識別的應(yīng)用,不僅克服了現(xiàn)有時間序列數(shù)據(jù)量化程序難以表達(dá)分析師根據(jù)經(jīng)驗得到的K 線形態(tài)特征的問題,還能自主學(xué)習(xí)那些需要被識別的K 線形態(tài)后再用于包含K 線形態(tài)特征的實時圖像識別中。

      在將神經(jīng)網(wǎng)絡(luò)應(yīng)用于大氣質(zhì)量預(yù)測時,現(xiàn)有研究多集中于采集監(jiān)測站中各種維度和各種頻率的數(shù)據(jù),然后進(jìn)行插值和剔除等預(yù)處理,之后再輸入到深度神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)訓(xùn)練[11],但少有方法能將原始數(shù)據(jù)不經(jīng)破壞地保留下來。部分學(xué)者已經(jīng)嘗試在各個領(lǐng)域?qū)D像分析方法和人工神經(jīng)網(wǎng)絡(luò)相結(jié)合,但還未單獨考慮神經(jīng)網(wǎng)絡(luò)對于燭臺圖的識別分類問題[12-14],沒有將此技術(shù)分析方法應(yīng)用到大氣環(huán)境領(lǐng)域。因此,本文將K 線分析技術(shù)與CNN 相結(jié)合,探討由PM2.5生成的燭臺圖所包含的可以預(yù)測未來濃度變化的信息。

      2 研究區(qū)概況

      污染物濃度序列種類繁多,具有動態(tài)、非線性、混亂等特點,是大氣環(huán)境技術(shù)分析與量化投資領(lǐng)域的重要研究內(nèi)容。從海量的歷史污染物時間序列數(shù)據(jù)中,表征并捕獲某種特征的擴(kuò)散過程,是構(gòu)建神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)[15-17]。本次研究采用桂林市大氣質(zhì)量在線監(jiān)測站的監(jiān)測數(shù)據(jù),如圖1 所示。桂林地處中國華南,由于桂林特有的氣象和地形條件,市區(qū)PM2.5擴(kuò)散十分緩慢。燭臺圖的生成需要泄放時間較長的連續(xù)泄漏型數(shù)據(jù),這使K 線圖像分析技術(shù)在大氣環(huán)境領(lǐng)域的應(yīng)用變得合理。這種泄放時間較長的連續(xù)型數(shù)據(jù)恰好利于燭臺圖的生成以及變化特征的提取,為后續(xù)大氣污染物濃度的預(yù)測提供數(shù)據(jù)基礎(chǔ)。

      圖1 桂林市大氣質(zhì)量在線監(jiān)測站分布Fig.1 Distribution of air quality online monitoring stations in Guilin

      本文結(jié)合在股票價格預(yù)測中廣泛使用的分析方法與深度學(xué)習(xí)技術(shù)來預(yù)測PM2.5在桂林市的濃度水平變化。在傳統(tǒng)的燭臺圖表分析中,總會根據(jù)一些特殊燭臺圖表或趨勢反轉(zhuǎn)信號的出現(xiàn)來判斷趨勢變化。然而,不同的站點會有不同的濃度變化機(jī)制,當(dāng)帶有趨勢反轉(zhuǎn)信號的燭臺圖出現(xiàn)時,當(dāng)前污染物的濃度變化將會繼續(xù)或是反轉(zhuǎn),這取決于站點對污染物濃度的擴(kuò)散模式[18-20]。因此,需要找出污染物濃度的擴(kuò)散模式,以幫助預(yù)測具體的濃度改變數(shù)值。

      3 理論基礎(chǔ)與模型構(gòu)建

      3.1 模型框架

      在燭臺圖聚類分析和污染物濃度擴(kuò)散機(jī)制相互聯(lián)系的基礎(chǔ)上,基于燭臺圖模式匹配(CPM)的大氣質(zhì)量預(yù)測框架如圖2 所示,主要流程包括數(shù)據(jù)采集與預(yù)處理、特征提取與燭臺圖生成、模式匹配、趨勢預(yù)測和結(jié)果分析。

      圖2 基于CPM的大氣質(zhì)量預(yù)測框架Fig.2 Air quality prediction framework based on CPM

      3.2 燭臺圖庫的生成

      PM2.5濃度K 線圖中主要包括4 類數(shù)據(jù),即起始值(First)、最高值(Highest)、最低值(Lowest)、結(jié)束值(Last)。PM2.5濃度擴(kuò)散規(guī)律也是圍繞這4 個數(shù)據(jù)進(jìn)行研究。圖3 中展示了污染物1 天內(nèi)的變化信息,以及PM2.5濃度的燭臺圖對應(yīng)過程。

      圖3 1天中PM2.5濃度變化與對應(yīng)的燭臺圖Fig.3 Candlestick chart corresponding to PM2.5 concentration change in one day

      為了建立一個明確的參考模型用于對未來模式研究進(jìn)行合理分類,Hu 等[21]提出了103 個已知燭臺圖案的綜合形式規(guī)范。根據(jù)繪圖規(guī)則,兩種基本的燭臺形狀如圖4 所示,所有可能存在燭臺圖的形狀如圖5。

      圖4 兩種基本的濃度燭臺圖形狀Fig.4 Two basic concentration candlestick charts

      圖5 12種類別燭臺圖Fig.5 Twelve types of candlestick charts

      3.3 大氣污染擴(kuò)散過程特征提取

      每一天內(nèi)的濃度波動信息都通過5 個基本特征來描述,將污染物濃度擴(kuò)散過程定義為一系列的燭臺圖表,然后進(jìn)行濃度匹配,預(yù)測當(dāng)前污染物趨勢發(fā)生逆轉(zhuǎn)還是保持不變。

      3.3.1 濃度燭臺圖的特征描述

      污染物濃度燭臺圖特征向量表示為:

      通過從燭臺圖中提取5 個不同且有實際意義的特征fi1,fi2,…,fi5來反映1 天內(nèi)整體的濃度情況,分別對應(yīng)以下特征:

      1)類別特征(Category Shape):通過區(qū)分濃度的升降、實體的有無、上下影線的有無,燭臺圖被定義為12 種不同的形狀,類別特征表示為CShape∈{1,2,…,12}。

      2)實體特征(Entity Features Length):在燭臺圖中,實體的長短表征著污染物濃度上升/下降的強(qiáng)度,較長實體的燭臺表征明顯的增加/減少的趨勢。實體特征的計算方法為:

      其中:Openi為第i天起始濃度值,Closei為第i天結(jié)束濃度值。

      3)上影線特征(Upper Hatch Feature Length):具有較長上影線的濃度燭臺圖表示濃度趨勢下降的幅度很明顯,甚至在下一個時間間隔內(nèi),持續(xù)下降的可能性更大。上影線的計算方法為:

      其中:Highi為第i天最高濃度值。

      4)下影線特征(Undercut Feature Length):具有較長下影線的濃度燭臺圖表示濃度趨勢上升的信號很強(qiáng)烈,這將導(dǎo)致下一個時間點濃度的增加。下影線的計算公式為:

      其中:Lowi為第i天最低濃度值。

      5)變化率特征(Rate Change):比較兩個相鄰位置的燭臺圖,計算出平均濃度變化趨勢的信息,來鎖定對當(dāng)前時刻有用的污染物濃度模式。在一天當(dāng)中,整體的濃度水平用平均濃度變化來表征,并以此作為濃度燭臺的中心。此項特征將通過當(dāng)天與前一天的濃度水平變化來描述,即:

      通過提取帶有濃度變化趨勢的燭臺圖模式特征,捕捉出反轉(zhuǎn)信號。如圖6 展示了一些帶有濃度反轉(zhuǎn)信號的燭臺圖,表征趨勢的轉(zhuǎn)折點,當(dāng)過去幾天出現(xiàn)連續(xù)的濃度增加,而這種信號減少的燭臺圖出現(xiàn)時,預(yù)示未來濃度可能會降低。其中,濃度遞減燭臺圖(1~4)和具有長上影線的燭臺圖(5、6)代表具有遞減反轉(zhuǎn)信號的燭臺圖。此外,那些不具備實體的特殊形狀的燭臺圖(7~9)也可被看作是可能存在的轉(zhuǎn)折點。同樣,帶有遞增反轉(zhuǎn)信號的燭臺圖特征也是如此。

      圖6 濃度增加/減少過程中可能存在轉(zhuǎn)折點的PM2.5燭臺圖Fig.6 PM2.5 candlestick charts with possible turning points in concentration increasing/decreasing process

      3.3.2 污染物濃度模式匹配

      1)濃度增加/減小周期:在連續(xù)的時間間隔t1,t2,…,tn,當(dāng)i=2,3,…,n-1 時,如果滿 足Ci,avg>max(Ci-1,avg,Ci+1,avg),則Ci,avg是濃度周期的峰值;當(dāng)i=2,3,…,n-1 時,如果滿 足Ci,avg<min(Ci-1,avg,Ci+1,avg),則Ci,avg是濃度周期的谷值。比如,Ci1,avg、Ci3,avg是兩個最近相鄰的濃度谷值,Ci2,avg是兩者之間的濃度峰值,并且i1 <i2 <i3,則濃度谷值Ci1,avg和下一個濃度峰值Ci2,avg之間的連續(xù)時間間隔被視為濃度增加周期,濃度谷值Ci2,avg和下一個濃度峰值Ci3,avg之間的連續(xù)時間間隔被視為濃度減小周期。

      2)濃度模式:濃度模式是由濃度燭臺圖特征向量PCFi組成的序列,即M=在每個濃度增加或減少的周期中,K是濃度周期的長度。鑒于最近的燭臺圖能夠?qū)ξ磥眍A(yù)測提供更有用的信息,按照從后向前的順序進(jìn)行匹配。定義匹配率ρ,指K組特征中有ρ組參數(shù)能夠完成匹配,并通過距離衡量兩個燭臺的特征向量的匹配率。如果匹配距離低于某一個閾值,則認(rèn)為匹配成功。距離公式定義為:

      其中:wi(i=1,2,…,5)是權(quán)重因子=1。本文方法的權(quán)重采用層次分析(Analytic Hierarchy Process,AHP)算法確定。距離當(dāng)前天數(shù)最近的燭臺圖能夠描述更加有用的信息,因此對應(yīng)的權(quán)重w1將被賦予最高的數(shù)值。對于類別特征CShape,要求匹配的準(zhǔn)確率最高。

      針對實體、上影線、下影線、變化率四個特征,本文采用Z-score 標(biāo)準(zhǔn)化對原始監(jiān)測數(shù)據(jù)進(jìn)行歸一化處理,以加快深度學(xué)習(xí)模型的收斂。

      3.4 卷積神經(jīng)網(wǎng)絡(luò)模型的設(shè)計

      3.4.1 網(wǎng)絡(luò)模型的結(jié)構(gòu)

      在圖像識別和分類領(lǐng)域,廣泛使用CNN 處理實際問題。CNN 因具有極小的特征工程需求而被廣泛應(yīng)用,這為深度學(xué)習(xí)在大氣質(zhì)量領(lǐng)域的合理應(yīng)用提供了技術(shù)支持。深度卷積神經(jīng)網(wǎng)絡(luò)VGG(Visual Geometry Group)是CNN 的經(jīng)典模型,在特征提取和分類方面均表現(xiàn)優(yōu)秀[22-24]?;赩GG 的濃度趨勢預(yù)測框架如圖7 所示。污染過程的局部特征由卷積層提取,對應(yīng)大氣污染物擴(kuò)散過程。即第一天污染將對第二天和第三天污染造成的影響,此類模式的特征被卷積層捕獲;池化層進(jìn)一步加強(qiáng)統(tǒng)計特征層的信息,使網(wǎng)絡(luò)強(qiáng)特征表現(xiàn)更明顯,弱特征作用相對較小。污染過程的全局趨勢信息由全連接層進(jìn)行整合,能提高預(yù)測大氣污染變化趨勢的準(zhǔn)確性。

      圖7 基于VGG的PM2.5濃度趨勢預(yù)測框架Fig.7 PM2.5 concentration trend prediction framework

      如圖7 所示,將連續(xù)3 天的PM2.5濃度數(shù)據(jù)通過K 線發(fā)生器生成污染物燭臺圖,然后通過模式匹配,輸入VGG 網(wǎng)絡(luò)結(jié)構(gòu)中。

      最后,綜合評估了網(wǎng)絡(luò)的效果和可用的計算機(jī)硬件條件,確定用以下CNN 結(jié)構(gòu)進(jìn)行研究:第一個卷積層設(shè)計32 個卷積核,第二個卷積層設(shè)計32 個卷積核,第三個卷積層設(shè)計16 個卷積核,卷積核大小為3×3。

      在該網(wǎng)絡(luò)模型中,激活函數(shù)都采用線性整流單元(Rectified Linear Unit,ReLU),ReLU 的使用不僅可以解決梯度消失的現(xiàn)象,還可以有效加速模型的訓(xùn)練。通過max()函數(shù)描述ReLU 的過程,并加入Dropout 層,以隨機(jī)斷開鏈接的方式防止模型過擬合。還在模型的最后一個卷積層加入Flatten 層,將多維數(shù)據(jù)壓縮成一維。

      3.4.2 網(wǎng)絡(luò)模型的訓(xùn)練準(zhǔn)備

      本文設(shè)置批次大小batch_size=200,即每輸入200 張圖片訓(xùn)練后,網(wǎng)絡(luò)進(jìn)行權(quán)重校正并完成參數(shù)迭代。在前面設(shè)計的CNN 預(yù)訓(xùn)練期間,7~9 次的訓(xùn)練可以使神經(jīng)網(wǎng)絡(luò)達(dá)到最好收斂狀態(tài),因此在所有對比實驗中設(shè)置epochs=10。

      4 實驗與結(jié)果分析

      4.1 數(shù)據(jù)收集及預(yù)處理

      4.1.1 數(shù)據(jù)收集

      本次研究采用桂林市大氣質(zhì)量在線監(jiān)測站的監(jiān)測數(shù)據(jù),桂林市總共配有61 個監(jiān)測站負(fù)責(zé)監(jiān)控大氣環(huán)境質(zhì)量,其中10 個是固定站,51 個為微型站。數(shù)據(jù)庫中存儲的數(shù)據(jù)通過服務(wù)設(shè)備每5 min 記錄一次相應(yīng)站點對應(yīng)的污染物和氣象數(shù)據(jù)。其中,氣象數(shù)據(jù)有大氣的氣壓、降雨量、風(fēng)速、風(fēng)向、濕度、溫度等;污染物濃度數(shù)據(jù)包括NO2、SO2、CO、O3、PM2.5、PM10等。數(shù)據(jù)時間窗口選擇自2019 年8 月8 日—2021 年8 月7 日,共計3 年的日污染物濃度數(shù)據(jù)。本次實驗通過Hadoop引擎連接大數(shù)據(jù)系統(tǒng),導(dǎo)出研究所用數(shù)據(jù)集。

      4.1.2 數(shù)據(jù)預(yù)處理

      數(shù)據(jù)的預(yù)處理分為兩部分:首先是對數(shù)據(jù)集的基本面預(yù)處理,然后是對數(shù)據(jù)進(jìn)行初始分類,包括極端值或缺失值處理、Z-score 標(biāo)準(zhǔn)化處理等。為避免因不同站點的污染物濃度數(shù)據(jù)差異較大對模型預(yù)測結(jié)果產(chǎn)生影響,本次實驗采用Z-score 方法對歷史PM2.5濃度數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。Z-score將不同量級的數(shù)據(jù)統(tǒng)一轉(zhuǎn)換成同一量級,并統(tǒng)一用計算出的Z-Score 值來衡量,以保證數(shù)據(jù)之間的可對比性。

      4.2 評價指標(biāo)

      評估分類模型的評價指標(biāo)中最常見的是混淆矩陣。在本次實驗中,最終輸出結(jié)果將會展示未來污染物濃度上升還是下降,考慮到污染物濃度上升會對環(huán)境產(chǎn)生的不良影響,故將濃度在分類型模型中表現(xiàn)上升設(shè)為positive,濃度在分類型模型中表現(xiàn)為下降設(shè)定為negative。

      準(zhǔn)確率指模型預(yù)測正確的樣本數(shù)占樣本總數(shù)的比重,可以直觀衡量模型總體性能,如式(6)所示:

      精確率指在模型預(yù)測是positive 的所有結(jié)果中,模型預(yù)測對的比重,如式(7)所示:

      召回率指在預(yù)測出的分類樣本中被正確預(yù)測的比重,如式(8)所示:

      F1 分?jǐn)?shù)是P與R的加權(quán)平均值,計算公式如式(10):

      4.3 模型對比分析

      為評價本文提出的基于CPM 的PM2.5擴(kuò)散特征提取方法,對比了未考慮大氣污染擴(kuò)散過程的VGG 的方法,以及在相同實驗條件下基于支持向量機(jī)(Support Vector Machine,SVM)、AlexNet 的預(yù)測方法。實驗結(jié)果表明本文方法表現(xiàn)出了更好的性能。

      通過對圖5 中的12 種不同外觀的燭臺圖進(jìn)行統(tǒng)計后發(fā)現(xiàn),濃度燭臺形狀3 和4 最為常見,占比分別為48.74%和31.31%。圖8 是帶有濃度燭臺圖序列的大氣污染物時間序列片段??梢钥闯?,當(dāng)伴有反轉(zhuǎn)信號的燭臺圖出現(xiàn)時,污染物濃度的變化趨勢不會立刻反轉(zhuǎn),因此,通過濃度擴(kuò)散模式進(jìn)行判斷。在獲取污染物濃度模式的過程中,跳過了沒有任何數(shù)據(jù)的時間間隔,只考慮完整的濃度循環(huán)周期。

      圖8 PM2.5濃度模式匹配圖Fig.8 PM2.5 concentration pattern matching diagram

      匹配率ρ被用來調(diào)控匹配時間,從時間序列片段中提取兩個濃度模式:模式1 和模式3,如圖8 所示,即代表第10~15天的污染物濃度增加模式以及第21~24 天的污染物濃度減小模式。匹配過程中,調(diào)整匹配率ρ=1 時,會無法找到這兩種模式對應(yīng)的精確匹配;當(dāng)設(shè)ρ=0.8 時,成功找到了歷史模式中對應(yīng)的模式2 和4 與之匹配。表2 顯示了不同匹配率的預(yù)測結(jié)果,最終選擇匹配率0.8 作為本文模型的參數(shù)。

      表2 匹配率變化時的預(yù)測誤差Tab.2 Prediction error when matching rate changes

      分別利用SVM、AlexNet、VGG 和本文方法的改進(jìn)VGG 模型進(jìn)行訓(xùn)練。此次實驗選用的多源數(shù)據(jù)所包含的內(nèi)容信息如4.1.1 節(jié)所示,劃分其中70%的樣本作為訓(xùn)練集,30%樣本用來測試,并以準(zhǔn)確率、精確率、召回率和F1 分?jǐn)?shù)作為模型評價指標(biāo)。為了控制變量,均采取50 個epoch 作為每個網(wǎng)絡(luò)的訓(xùn)練批次。

      不同預(yù)測方法的準(zhǔn)確率比較結(jié)果如表3 所示,本文方法取得了最高的準(zhǔn)確率,為95.1%,與基于普通VGG 的方法相比,準(zhǔn)確率提高了1.9 個百分點,也優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)方法(SVM)和其他圖像識別模型(AlexNet)。這是因為,單純的VGG 沒有充分融入一天內(nèi)的污染物濃度擴(kuò)散過程;而后兩種方法在捕獲轉(zhuǎn)折點變化信號時,過分注重整體趨勢,往往會忽略一些小的短期濃度波動,準(zhǔn)確率更低。

      表3 不同預(yù)測方法的準(zhǔn)確率比較 單位:%Tab.3 Accuracy comparison of different methods unit:%

      污染物濃度隨著長期的濃度循環(huán)變化,短期波動也會很大,基于CPM 的卷積神經(jīng)網(wǎng)絡(luò)預(yù)測方法可以捕捉更細(xì)粒度上的濃度變化信息。在精確率、召回率和F1 分?jǐn)?shù)指標(biāo)上,不同方法對PM2.5濃度上升、下降和不變情況的預(yù)測結(jié)果對比如表4 所示,本文方法同樣取得了最好的結(jié)果。SVM 模型預(yù)測精確率高于AlexNet 模型,但召回率卻較低,這是因為,SVM 在尋找重要的污染物濃度趨勢轉(zhuǎn)折點時更有效,但卻沒辦法捕獲一些小的趨勢變化信號,存在一定的滯后現(xiàn)象。VGG 在捕獲短期濃度變化信號時表現(xiàn)敏感,但會產(chǎn)生過擬合的現(xiàn)象。

      表4 不同方法對PM2.5濃度變化情況的預(yù)測對比Tab.4 Comparison of different methods for predicting change of PM2.5 concentration

      顯然,基于CPM 設(shè)計的卷積神經(jīng)網(wǎng)絡(luò)模型表現(xiàn)出的性能明顯優(yōu)于基于普通時間序列的其他網(wǎng)絡(luò)。因此,將股票分析中被廣泛應(yīng)用的K 線圖應(yīng)用到大氣污染物分析領(lǐng)域,不僅能完整保存數(shù)據(jù)信息,還能夠充分提取大氣污染擴(kuò)散過程中污染物濃度變化過程的局部變化信息,從而為大氣污染物濃度趨勢變化提供指導(dǎo)。

      5 結(jié)語

      提高大氣污染物的預(yù)測精度是大氣環(huán)境監(jiān)測領(lǐng)域面臨的重要任務(wù)。目前,眾多的污染物濃度預(yù)測模型都未曾充分提取原始數(shù)據(jù)的變化特征,也無法融入大氣擴(kuò)散機(jī)制。因此,本文提出了一種基于燭臺圖時空聚類的深度學(xué)習(xí)預(yù)測方法。實驗訓(xùn)練數(shù)據(jù)集由一組時間序列數(shù)據(jù)構(gòu)建而成,其中包括歷史PM2.5濃度數(shù)據(jù)、相關(guān)污染物數(shù)據(jù)以及氣象關(guān)聯(lián)參數(shù)。首先,利用燭臺圖形式化表示污染物擴(kuò)散周期性變化;然后,通過濃度模式匹配融入大氣物理擴(kuò)散機(jī)制;最后,結(jié)合其余情景參數(shù),通過卷積神經(jīng)網(wǎng)絡(luò)VGG 提取局部特征,并進(jìn)行趨勢預(yù)測。

      通過實驗對本文方法的整體性能進(jìn)行了評估,并與基于傳統(tǒng)的時間預(yù)測模型(AlexNet)、普通的機(jī)器學(xué)習(xí)模型(SVM)以及不結(jié)合燭臺圖的深度學(xué)習(xí)模型(VGG)的方法進(jìn)行了比較。結(jié)果表明,本文方法的準(zhǔn)確率、精確率、召回率和F1 分?jǐn)?shù)均取得了最好的結(jié)果。燭臺圖簡潔直觀、立體感強(qiáng),還能夠全面透徹地觀察到污染物濃度的真正變化,將K 線分析技術(shù)應(yīng)用到大氣污染領(lǐng)域,具有很高的實用性。

      但本文方法僅預(yù)測了污染物未來的濃度水平變化,還無法預(yù)測下一個具體的濃度水平。因此,未來將進(jìn)一步分析PM2.5的長期依賴特征提取,以捕捉大氣污染物的濃度變化行為。

      猜你喜歡
      燭臺卷積污染物
      菌株出馬讓畜禽污染物變廢為寶
      基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
      環(huán)境科學(xué)研究(2021年6期)2021-06-23 02:39:54
      《新污染物治理》專刊征稿啟事
      你能找出污染物嗎?
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      水晶燭臺
      另一個燭臺
      上帝的燭臺
      永福县| 越西县| 铜山县| 大足县| 建宁县| 克拉玛依市| 沈阳市| 宁陵县| 绥中县| 平邑县| 故城县| 万州区| 乌鲁木齐市| 松原市| 治多县| 枣庄市| 皋兰县| 昭觉县| 平泉县| 双桥区| 安仁县| 南涧| 五华县| 六枝特区| 翁牛特旗| 正宁县| 越西县| 原平市| 平远县| 保德县| 东至县| 林州市| 黄梅县| 镇康县| 嘉定区| 浙江省| 凤山县| 闸北区| 江陵县| 长治市| 富顺县|