• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于改進(jìn)集成學(xué)習(xí)算法的在線空氣質(zhì)量預(yù)測(cè)

      2019-01-09 04:54:46張曉龍
      關(guān)鍵詞:空氣質(zhì)量樣本預(yù)測(cè)

      夏 潤(rùn),張曉龍

      (1.武漢科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 武漢,430065;2.武漢科技大學(xué)智能信息處理與實(shí)時(shí)工業(yè)系統(tǒng)湖北省重點(diǎn)實(shí)驗(yàn)室,湖北 武漢,430065;3.武漢科技大學(xué)大數(shù)據(jù)科學(xué)與工程研究院,湖北 武漢,430065)

      隨著工業(yè)化和城鎮(zhèn)化進(jìn)程的迅速發(fā)展,人類生活質(zhì)量日益提高,但能源大量消耗和污染物排放造成的空氣污染問(wèn)題也日趨嚴(yán)重,因此空氣質(zhì)量預(yù)測(cè)對(duì)指導(dǎo)人們的生活和工作具有重要意義,國(guó)內(nèi)外研究人員對(duì)此也極為關(guān)注。

      常用的分析及預(yù)測(cè)方法有統(tǒng)計(jì)分析、主成分分析(PCA)、BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)(SVM)等。Yeganeh等[1]建立PLS-SVM混合模型來(lái)預(yù)測(cè)空氣中的CO濃度,需要的計(jì)算時(shí)間要少于采用單一SVM方法進(jìn)行預(yù)測(cè)。李遠(yuǎn)林[2]運(yùn)用連續(xù)隱馬爾可夫模型對(duì)蘭州市未來(lái)24 h的PM10濃度進(jìn)行預(yù)報(bào)。Byun等[3]研究的CMAQ模型和Grell等[4]研究的WRF/Chem模型能對(duì)大氣污染物傳輸過(guò)程進(jìn)行離線或在線模擬,但其工程應(yīng)用較為復(fù)雜。Feng等[5]采用結(jié)合氣團(tuán)軌跡分析和小波變換的人工神經(jīng)網(wǎng)絡(luò)模型進(jìn)行PM2.5濃度的日均值預(yù)測(cè),但選取的特征變量較為單一,模型缺乏泛化能力。田靜毅[6]、劉篤晉[7]等均運(yùn)用BP神經(jīng)網(wǎng)絡(luò)方法進(jìn)行空氣質(zhì)量預(yù)測(cè),但 BP神經(jīng)網(wǎng)絡(luò)收斂時(shí)間較長(zhǎng),得到的屬性特征量較少并且解釋性不強(qiáng)。

      目前針對(duì)空氣質(zhì)量預(yù)測(cè)的研究大多集中于離線、短時(shí)預(yù)報(bào),參與建模的屬性特征單一,并且數(shù)據(jù)量較少,有些方法又過(guò)于復(fù)雜,不便于工程應(yīng)用??諝赓|(zhì)量變化具有規(guī)律性弱、不穩(wěn)定、易突變的特點(diǎn),例如PM2.5濃度值變化范圍大,低時(shí)可小于10 μg/m3,高時(shí)可超過(guò)300 μg/m3,并且在數(shù)小時(shí)內(nèi)就有可能產(chǎn)生劇烈變化。這些特點(diǎn)為空氣質(zhì)量預(yù)測(cè)帶來(lái)很大難度,需要不斷研究新方法來(lái)應(yīng)對(duì)。

      XGBoost是基于Gradient Boosting算法的一個(gè)優(yōu)化版本,其將多個(gè)回歸樹模型集成在一起,形成一個(gè)強(qiáng)分類器,具有訓(xùn)練速度快、可并行處理和泛化能力強(qiáng)等優(yōu)勢(shì),已成功應(yīng)用于路況預(yù)測(cè)、文本分類、電量預(yù)測(cè)、DDoS異常檢測(cè)等領(lǐng)域[8-9]。然而通過(guò)對(duì)XGBoost模型進(jìn)行評(píng)估和診斷后發(fā)現(xiàn),它能較好地解決空氣質(zhì)量預(yù)測(cè)中的非線性問(wèn)題且滿足在線預(yù)測(cè)的性能要求,但有時(shí)也會(huì)出現(xiàn)性能不穩(wěn)定的現(xiàn)象。為此,本文提出一種基于改進(jìn)XGBoost算法的空氣質(zhì)量在線預(yù)測(cè)新方法。首先,針對(duì)收集到的空氣質(zhì)量數(shù)據(jù)集,采用數(shù)據(jù)融合工具對(duì)時(shí)間序列數(shù)據(jù)進(jìn)行預(yù)處理,構(gòu)造出含更多空氣質(zhì)量相關(guān)特征的數(shù)據(jù)集,同時(shí)采用Boruta算法[10]進(jìn)行特征選擇。然后,對(duì)XGBoost算法進(jìn)行一階導(dǎo)數(shù)和二階導(dǎo)數(shù)優(yōu)化,采用時(shí)間滑動(dòng)窗口和模型權(quán)重衰減機(jī)制,不斷訓(xùn)練新模型并且減少時(shí)間久遠(yuǎn)的學(xué)習(xí)模型的投票權(quán)重,最后通過(guò)Bagging集成學(xué)習(xí)方法[11-12]構(gòu)成OPGBoost組合模型,用于離線-在線空氣質(zhì)量異常情況預(yù)測(cè)。

      1 數(shù)據(jù)準(zhǔn)備

      1.1 數(shù)據(jù)格式

      空氣質(zhì)量原始數(shù)據(jù)是通過(guò)傳感器實(shí)時(shí)收集的,數(shù)據(jù)樣本的格式如下:

      (1)

      式中:xi(t)為t時(shí)刻影響空氣質(zhì)量的第i個(gè)因素;y(t)={y1(t),y2(t)}為t時(shí)刻表征空氣質(zhì)量的指標(biāo),包括最受人關(guān)注的兩個(gè)指標(biāo),即PM2.5濃度值(y1(t))和空氣質(zhì)量指數(shù)AQI (y2(t)),并且在影響這兩個(gè)指標(biāo)的因素集中可以存在k≠l,p≠n。

      1.2 數(shù)據(jù)源

      原始實(shí)驗(yàn)數(shù)據(jù)一共有3組,分別為實(shí)驗(yàn)室自采數(shù)據(jù)(采集時(shí)間:2016年9月~2018年2月,每小時(shí)采集一次)、武漢市和北京市的空氣質(zhì)量歷史數(shù)據(jù)(2014年1月~2017年12月)。3組數(shù)據(jù)集大致都包括AQI、主要空氣污染物(PM2.5、PM10、O3、CO、SO2、NO2、NOx、NMHC、CH4等)的濃度值以及重要?dú)庀髷?shù)據(jù)(溫度、濕度、風(fēng)速和風(fēng)向等)。

      預(yù)測(cè)變量為PM2.5濃度和AQI。根據(jù)《環(huán)境空氣質(zhì)量指數(shù)(AQI)技術(shù)規(guī)定(試行)》(HJ 633—2012),按PM2.5濃度和AQI劃分的空氣質(zhì)量等級(jí)如表1所示。

      表1按PM2.5濃度和AQI劃分的空氣質(zhì)量等級(jí)

      Table1AirqualitygradedbyPM2.5concentrationandAQI

      空氣質(zhì)量等級(jí)PM2.5濃度/μg·m-3AQI優(yōu)0~350~50良35~7551~100輕度污染75~115101~150中度污染115~150151~200 重度污染150~250201~300嚴(yán)重污染>250>300

      本文根據(jù)表1將PM2.5濃度和AQI的取值范圍劃分為兩類:優(yōu)和良劃為一類,標(biāo)記為反類;輕度污染、中度污染、重度污染和嚴(yán)重污染劃為另一類,標(biāo)記為正類。正類的PM2.5濃度值和AQI值屬于空氣質(zhì)量異常范疇,需要通過(guò)預(yù)報(bào)以提請(qǐng)人們注意和重點(diǎn)防范。

      1.3 數(shù)據(jù)預(yù)處理

      由于數(shù)據(jù)采集過(guò)程中出現(xiàn)的非人為原因,導(dǎo)致原始數(shù)據(jù)集存在不完整、極少量數(shù)據(jù)異常等情況,會(huì)影響數(shù)據(jù)挖掘與分析的結(jié)果,因此需要進(jìn)行數(shù)據(jù)預(yù)處理。

      一般來(lái)說(shuō),處理缺失數(shù)據(jù)可以采用兩種方法:一種是直接刪除缺失樣本,另一種是填寫缺失值。由于本文中的時(shí)間序列數(shù)據(jù)具有時(shí)間連續(xù)性特點(diǎn),故對(duì)缺失值和異常值采用最近鄰插補(bǔ)法進(jìn)行填充。

      1.4 有效數(shù)據(jù)集的構(gòu)造

      為了選出合適的樣本屬性集以及具體的屬性特征,就需要確定上述樣本結(jié)構(gòu)中m的取值。本文采用的方法是:首先將m設(shè)置為一較大值(如m=72),然后構(gòu)造出相應(yīng)的樣本數(shù)據(jù)集,再采用相關(guān)的數(shù)據(jù)降維技術(shù)逐步選出優(yōu)質(zhì)的特征子集。

      常用的降維方法分為兩類:特征提取和特征選擇。特征提取會(huì)將多個(gè)數(shù)據(jù)特征融合為線性組合特征,但得到的特征不便于解釋,無(wú)法闡述其具體含義,而本研究不僅旨在建立準(zhǔn)確的空氣質(zhì)量預(yù)測(cè)模型,更希望能夠找到與空氣質(zhì)量密切相關(guān)的特征集,獲取能夠解釋的特征子集,因此本文采用特征選擇方法。

      Boruta算法是一種樹的集成特征選擇算法[10],主要是輸出特征的重要度排序,特征越重要,其重要度系數(shù)就越大。本文針對(duì)上述3個(gè)不同區(qū)域的數(shù)據(jù)集,先重構(gòu)出符合各自原有時(shí)間序列特性的擴(kuò)展數(shù)據(jù)集,然后采用Boruta算法將所有特征按照重要度系數(shù)進(jìn)行排序,最后通過(guò)交叉驗(yàn)證篩選出最優(yōu)的特征子集。

      表2所示為北京市的空氣質(zhì)量歷史數(shù)據(jù)經(jīng)過(guò)特征選擇后得到的針對(duì)不同預(yù)測(cè)量的前14個(gè)重要特征。

      從選出的重要特征子集來(lái)看,其不僅包括原始數(shù)據(jù)集中的17個(gè)屬性值,還包括一些新構(gòu)造的特征;不僅與過(guò)去1、2、3、…、24 h的空氣污染物特征和氣象屬性特征相關(guān),還與過(guò)去1、2、3 d同時(shí)段空氣質(zhì)量和氣象數(shù)據(jù)的均值、最大值、最小值等統(tǒng)計(jì)量相關(guān)。最終,對(duì)于PM2.5濃度和AQI這兩個(gè)預(yù)測(cè)量,從北京市數(shù)據(jù)集中選取參與算法建模的屬性特征量均為212個(gè),模型的訓(xùn)練和預(yù)測(cè)都是基于這212個(gè)屬性進(jìn)行的。

      表2北京市空氣質(zhì)量數(shù)據(jù)的部分重要特征

      Table2PartialimportantfeaturesextractedfromairqualitydataofBeijing

      序號(hào)預(yù)測(cè)量PM2.5AQI1PM2.5(t-1)AQI(t-1)2PM2.5(t-2)PM2.5(t-1)3PM10(t-1)PM2.5(t-2)4PM10_24hAQI(t-1)5SO2PM2.5_24h6SO2(t-1)PM107NO2PM10_24h8COSO29CO_24hSO2(t-2)10NOSO2_24h11NO(t-1)NO212NO(t-2)NO2_24h13NO_24hCO14SO2(t-2)O3

      注:PM10表示當(dāng)前時(shí)刻的PM10濃度,PM10(t-1)表示上一個(gè)時(shí)刻的PM10濃度,PM10_24 h表示24 h的PM10平均濃度,其余以此類推。

      2 OPGBoost算法

      2.1 XGBoost算法簡(jiǎn)介

      XGBoost算法可以在不選定損失函數(shù)具體形式的情況下, 僅僅依靠輸入數(shù)據(jù)的值就可以進(jìn)行葉子節(jié)點(diǎn)分裂優(yōu)化計(jì)算。它的目標(biāo)函數(shù)Obj(t)經(jīng)過(guò)泰勒展開后,最終化簡(jiǎn)為[8]:

      (2)

      式中:γ為學(xué)習(xí)率;T為回歸樹的葉子數(shù)量;Gj為一階導(dǎo)數(shù);Hj為二階導(dǎo)數(shù);λ為正則化參數(shù)。

      Obj(t)的大小與Gj和Hj的值有很大關(guān)系,Obj(t)值越小,XGBoost模型的預(yù)測(cè)和泛化能力就越強(qiáng)。

      2.2 OPGBoost算法實(shí)現(xiàn)

      實(shí)驗(yàn)研究發(fā)現(xiàn),采用XGBoost算法進(jìn)行空氣質(zhì)量預(yù)測(cè)時(shí),生成的模型性能不穩(wěn)定,預(yù)測(cè)精度有時(shí)很高,有時(shí)又較低。時(shí)間較久遠(yuǎn)的XGBoost模型無(wú)法較準(zhǔn)確地預(yù)測(cè)當(dāng)前的樣本數(shù)據(jù),是由于其內(nèi)部的某些單棵樹沒(méi)有起到擬合作用。如果能夠篩選掉或者降低這些樹的權(quán)重,添加新的樹模型,那么模型的預(yù)測(cè)精度就有可能得到很大提高。

      針對(duì)上述問(wèn)題,本文基于XGBoost算法進(jìn)行優(yōu)化,提出一種改進(jìn)的集成學(xué)習(xí)算法OPGBoost對(duì)空氣質(zhì)量異常情況進(jìn)行預(yù)測(cè),其結(jié)構(gòu)如圖1所示。OPGBoost模型中包含多個(gè)XGBoost模型,為了減少組合模型的訓(xùn)練時(shí)間,加快其收斂速度,采用一階導(dǎo)數(shù)和二階導(dǎo)數(shù)優(yōu)化的方式,減少單個(gè)XGBoost模型的訓(xùn)練時(shí)間以及單個(gè)XGBoost模型中樹的棵數(shù),將一個(gè)大的模型分解成幾個(gè)小的模型,便于更好地進(jìn)行在線模型的交替更新及預(yù)測(cè)。

      圖1 OPGBoost 算法結(jié)構(gòu)Fig.1 Structure of OPGBoost algorithm

      OPGBoost算法的特性如下:

      (1)自定義損失函數(shù)。對(duì)一階導(dǎo)數(shù)和二階導(dǎo)數(shù)的取值進(jìn)行優(yōu)化時(shí),為每個(gè)樣本提供了一種動(dòng)態(tài)取值策略,進(jìn)而使每個(gè)XGBoost模型有不同的假設(shè)學(xué)習(xí)空間,并且具有較好的預(yù)測(cè)精度和泛化能力。

      (2)采用Bagging 集成學(xué)習(xí)思想,將多個(gè)不同且性能不穩(wěn)定的基分類器XGBoost進(jìn)行組合,構(gòu)成集成模型OPGBoost。

      下面給出一階導(dǎo)數(shù)和二階導(dǎo)數(shù)的優(yōu)化方法:

      上述偽代碼中預(yù)測(cè)值predss的取值范圍為(0,1),則(1-predss)N隨著N的增大而減小,且二階導(dǎo)數(shù)Hj也隨之減小。經(jīng)過(guò)多次實(shí)驗(yàn)比較,當(dāng)N的取值為3或4、C的取值為2時(shí),模型的預(yù)測(cè)效果最好。

      3 實(shí)驗(yàn)平臺(tái)搭建

      3.1 實(shí)時(shí)數(shù)據(jù)庫(kù)系統(tǒng)介紹

      首先對(duì)PI系統(tǒng)進(jìn)行二次開發(fā),添加RDotNet.dll、RDotNet.Native.dll、R.NET等工具包,引入數(shù)據(jù)挖掘分析的功能模塊,使PI系統(tǒng)能支持調(diào)用R 語(yǔ)言機(jī)器學(xué)習(xí)模型,并且能進(jìn)行預(yù)測(cè),即開發(fā)了一套能實(shí)現(xiàn)在線預(yù)測(cè)的系統(tǒng)化數(shù)據(jù)挖掘與分析平臺(tái),使其更適合于大數(shù)據(jù)流的實(shí)時(shí)處理。然后在此基礎(chǔ)上構(gòu)建離線-在線空氣質(zhì)量預(yù)測(cè)模型,并將實(shí)時(shí)預(yù)測(cè)結(jié)果通過(guò)用戶界面展示出來(lái)。

      3.2 預(yù)測(cè)模型的組合權(quán)重

      預(yù)測(cè)模型離線訓(xùn)練完成后,需要將其架構(gòu)到在線服務(wù)系統(tǒng)中。本文利用Bagging集成的思想實(shí)現(xiàn)模型的離線-在線服務(wù),但考慮到距離當(dāng)前時(shí)間序列越久遠(yuǎn)的模型,其數(shù)據(jù)相關(guān)性會(huì)降低,對(duì)當(dāng)前空氣質(zhì)量的影響程度會(huì)減小,模型預(yù)測(cè)精度的可信度會(huì)下降,模型權(quán)重自然也要降低,因此采用滑動(dòng)窗口和衰減函數(shù)機(jī)制來(lái)訓(xùn)練模型,降低時(shí)間較久遠(yuǎn)模型的權(quán)重,然后再進(jìn)行模型的投票組合。

      3.2.1 非線性衰減函數(shù)

      假設(shè)初始數(shù)據(jù)X進(jìn)入系統(tǒng)的時(shí)刻為t1,經(jīng)過(guò)一段時(shí)間到達(dá)時(shí)刻t2,將該批數(shù)據(jù)X在當(dāng)前時(shí)刻t2的權(quán)重系數(shù)定義為ft i,其中i表示第i個(gè)預(yù)測(cè)模型,則衰減函數(shù)為

      ft i|t=t2=2-λ(t -t1)(λ>0)

      (3)

      式中:λ為衰減因子,λ∈(0,1)。

      非線性衰減函數(shù)ft i的取值就是模型的權(quán)重系數(shù),它與時(shí)間間隔和衰減因子有關(guān),即時(shí)間間隔和衰減因子的值越大,相應(yīng)的模型權(quán)重系數(shù)ft i的值就越小。

      3.2.2 滑動(dòng)窗口設(shè)置

      組合模型的集成預(yù)測(cè)函數(shù)為

      (4)

      式中:fi(1≤i≤n)表示當(dāng)前數(shù)據(jù)流的第i個(gè)分類模型。本文取n=3,即時(shí)間滑動(dòng)窗口設(shè)為3個(gè),預(yù)測(cè)結(jié)果由靠近當(dāng)前預(yù)測(cè)數(shù)據(jù)流的3個(gè)分類模型以及由衰減函數(shù)得到的模型權(quán)重系數(shù)進(jìn)行投票組合而成。

      3.3 系統(tǒng)處理流程

      采用PI系統(tǒng)自身的數(shù)據(jù)融合功能,將3組原始數(shù)據(jù)分別整合成多維數(shù)據(jù)集合,按照(時(shí)間標(biāo)簽,屬性名,屬性值)三元組格式存取,通過(guò)自帶時(shí)間屬性的函數(shù)讀取相應(yīng)時(shí)段內(nèi)的數(shù)據(jù),動(dòng)態(tài)控制滑動(dòng)窗口的數(shù)據(jù)流量大小,避免數(shù)據(jù)流不穩(wěn)定、忽快忽慢等情況,最終整合成可使用的數(shù)據(jù)格式。然后調(diào)用機(jī)器學(xué)習(xí)算法進(jìn)行離線訓(xùn)練,通過(guò)衰減函數(shù)調(diào)節(jié)模型權(quán)重,并投票組合成集成模型,以實(shí)時(shí)預(yù)測(cè)空氣質(zhì)量異常狀況。具體步驟如下:

      (1)實(shí)時(shí)數(shù)據(jù)的讀取和預(yù)處理

      根據(jù)所要讀取數(shù)據(jù)的起始時(shí)間和終止時(shí)間以及相應(yīng)的屬性字段來(lái)決定滑動(dòng)窗口的大小,然后調(diào)用PI系統(tǒng)內(nèi)相應(yīng)函數(shù)來(lái)讀取滑動(dòng)窗口內(nèi)的數(shù)據(jù)流,融合成多維數(shù)據(jù)結(jié)構(gòu)。最后經(jīng)過(guò)數(shù)據(jù)預(yù)處理和特征選擇形成概要數(shù)據(jù)結(jié)構(gòu)。

      (2)模型離線訓(xùn)練和反復(fù)調(diào)優(yōu)

      模型的訓(xùn)練主要是在R-Studio軟件環(huán)境中進(jìn)行。首先,采用上面得到的概要數(shù)據(jù)結(jié)構(gòu),調(diào)用相應(yīng)機(jī)器學(xué)習(xí)算法,進(jìn)行模型訓(xùn)練(設(shè)置相應(yīng)的種子,便于復(fù)現(xiàn)實(shí)驗(yàn)過(guò)程),然后對(duì)模型進(jìn)行評(píng)估,不斷進(jìn)行診斷和優(yōu)化,對(duì)每個(gè)滑動(dòng)窗口內(nèi)的數(shù)據(jù)都訓(xùn)練一個(gè)算法模型以供調(diào)用。

      (3)模型融合

      采用非線性衰減函數(shù),保留之前生成的模型,但減少其投票權(quán)重系數(shù),并賦予新模型。經(jīng)交叉驗(yàn)證后,確定衰減因子λ的優(yōu)化值為1/2900。考慮到時(shí)間間隔越大,衰減函數(shù)值就越小,模型的權(quán)重系數(shù)也越小(接近于0),經(jīng)過(guò)實(shí)驗(yàn)研究,基學(xué)習(xí)模型XGBoost的個(gè)數(shù)確定為3。最后,經(jīng)過(guò)加權(quán)投票集成為組合模型OPGBoost。

      (4)模型線上調(diào)用

      模型的線上調(diào)用主要在PI系統(tǒng)中進(jìn)行。首先,將上述訓(xùn)練好的學(xué)習(xí)模型通過(guò)相應(yīng)接口移植到PI系統(tǒng)上,用于線上模型的更替以及空氣質(zhì)量預(yù)測(cè)。模型在線運(yùn)行效果和穩(wěn)定性如果不滿足要求,則轉(zhuǎn)到步驟(2)中重新訓(xùn)練和調(diào)優(yōu)。當(dāng)用戶通過(guò)前端界面發(fā)送預(yù)測(cè)某時(shí)段內(nèi)空氣質(zhì)量的請(qǐng)求時(shí),通過(guò)相應(yīng)時(shí)段的組合模型實(shí)現(xiàn)在線預(yù)測(cè),并將預(yù)測(cè)結(jié)果按照(時(shí)間標(biāo)簽,屬性名,屬性值)的格式保存到PI系統(tǒng)里,通過(guò)用戶界面顯示。

      4 實(shí)驗(yàn)結(jié)果分析

      4.1 訓(xùn)練集和測(cè)試集的選取

      實(shí)驗(yàn)室自采數(shù)據(jù)的時(shí)間范圍是2016年9月~2018年2月,分別用2016年9月~2017年1月、2016年11月~2017年3月、2017年1月~2017年5月的數(shù)據(jù)訓(xùn)練出3個(gè)模型,每個(gè)模型的訓(xùn)練集樣本均為3600個(gè),確保數(shù)據(jù)時(shí)間序列能體現(xiàn)出季節(jié)性和長(zhǎng)期趨勢(shì)性。類似,武漢市和北京市的空氣質(zhì)量歷史數(shù)據(jù)的時(shí)間范圍是2014年1月~2017年12月,分別用2014年1月~2014年5月、2014年3月~2014年7月、2014年5月~2014年9月的數(shù)據(jù)訓(xùn)練出3個(gè)模型。

      將訓(xùn)練好的3個(gè)模型通過(guò)加權(quán)投票生成組合模型進(jìn)行空氣質(zhì)量預(yù)測(cè)。剩余時(shí)段的數(shù)據(jù)依次向后滑動(dòng),進(jìn)行模型訓(xùn)練和測(cè)試,用與滑動(dòng)窗口最接近的未來(lái)3個(gè)月的數(shù)據(jù)作為測(cè)試集,計(jì)算模型的總體預(yù)測(cè)精度。

      4.2 模型評(píng)價(jià)方法

      收集的原始數(shù)據(jù)中,正類(空氣污染)樣本數(shù)量較少。為了精確識(shí)別PM2.5濃度和AQI的類別,只專注于正類樣本的準(zhǔn)確率是不夠的,因此本文采用3種評(píng)估指標(biāo),分別是準(zhǔn)確率P、召回率R和調(diào)和平均數(shù)F1值,其中F1是衡量模型對(duì)正類樣本整體預(yù)測(cè)性能的評(píng)估指標(biāo)。評(píng)估指標(biāo)計(jì)算公式如下:

      P=TP/(TP+FP)

      (5)

      R=TP/(TP+FN)

      (6)

      F1=2PR/(P+R)

      (7)

      式中:TP表示正確預(yù)測(cè)的正樣本數(shù)量;FP表示將負(fù)樣本錯(cuò)誤預(yù)測(cè)為正樣本的數(shù)量;FN表示將正樣本錯(cuò)誤預(yù)測(cè)為負(fù)樣本的數(shù)量。

      4.3 實(shí)驗(yàn)結(jié)果

      本實(shí)驗(yàn)分別建立單步預(yù)測(cè)(1 h)和直接多步預(yù)測(cè)(12、24 h)兩類模型,針對(duì)3組原始數(shù)據(jù)構(gòu)造有效數(shù)據(jù)集,并采用隨機(jī)森林(RF)、支持向量機(jī)(SVM)、BP神經(jīng)網(wǎng)絡(luò)、XGBoost和OPGBoost這5種算法進(jìn)行空氣質(zhì)量預(yù)測(cè)對(duì)比實(shí)驗(yàn)。每種情況下進(jìn)行30次實(shí)驗(yàn),預(yù)測(cè)性能評(píng)估指標(biāo)取平均值,相關(guān)結(jié)果如表3~表5所示。

      從表3中可以看出,針對(duì)3個(gè)數(shù)據(jù)集的單步預(yù)測(cè),5種算法都獲得了較高的預(yù)測(cè)精度,驗(yàn)證了所提出的有效數(shù)據(jù)集構(gòu)造方法和重要特征選擇方法的有效性。同時(shí),OPGBoost算法具有最高的預(yù)測(cè)精度,也驗(yàn)證了本文采用的一階和二階導(dǎo)數(shù)值調(diào)優(yōu)以及模型權(quán)重系數(shù)衰減的Bagging集成學(xué)習(xí)策略的有效性,表明OPGBoost模型具有較好的學(xué)習(xí)能力和泛化能力。

      基于時(shí)間序列的直接多步預(yù)測(cè)具有一定的難道,這是由于步長(zhǎng)和時(shí)間間隔的增大,導(dǎo)致時(shí)間序列之間的關(guān)聯(lián)程度和數(shù)據(jù)相關(guān)性降低,使得模型預(yù)測(cè)能力和精度下降。從表4和表5中可以看出,在直接多步預(yù)測(cè)中,OPGBoost算法的預(yù)測(cè)性能仍優(yōu)于其他4種算法,預(yù)測(cè)精度提高了2~5個(gè)百分點(diǎn)。這是因?yàn)镺PGBoost兼有XGBoost和Bagging方法的優(yōu)勢(shì),產(chǎn)生了良好的融合增益效果,可以更好地?cái)M合空氣質(zhì)量預(yù)測(cè)中的非線性問(wèn)題。

      表3 未來(lái)1 h空氣質(zhì)量預(yù)測(cè)結(jié)果Table 3 Prediction results of air quality in the next hour

      表4 未來(lái)12 h空氣質(zhì)量預(yù)測(cè)結(jié)果Table 4 Prediction results of air quality in the next 12 hours

      表5 未來(lái)24 h空氣質(zhì)量預(yù)測(cè)結(jié)果Table 5 Prediction results of air quality in the next 24 hours

      5 結(jié)語(yǔ)

      本文首先采用時(shí)間序列分析方法,構(gòu)造出新的樣本數(shù)據(jù)集,并采用Boruta算法選擇出重要的屬性特征,然后結(jié)合XGBoost算法、一階和二階導(dǎo)數(shù)優(yōu)化、Bagging集成學(xué)習(xí)策略,提出了一種空氣質(zhì)量在線預(yù)測(cè)的新方法。同時(shí),整合PI系統(tǒng)開發(fā)出一個(gè)滿足應(yīng)用需求的系統(tǒng)化大數(shù)據(jù)挖掘與分析平臺(tái),采用時(shí)間滑動(dòng)窗口和模型權(quán)重衰減機(jī)制,構(gòu)建了基于時(shí)間序列的OPGBoost組合模型,通過(guò)離線模型訓(xùn)練以及模型線上調(diào)用,可對(duì)空氣中PM2.5濃度和AQI的異常值進(jìn)行在線預(yù)測(cè)。與其他幾種已有算法相比,本文方法在準(zhǔn)確性和實(shí)用性方面具有明顯優(yōu)勢(shì),對(duì)于空氣污染情況的出現(xiàn)具有較好的預(yù)測(cè)能力。所開發(fā)的數(shù)據(jù)挖掘與分析平臺(tái)更加適合于大數(shù)據(jù)流的實(shí)時(shí)處理且具有較快的響應(yīng)速度,便于人們及時(shí)了解空氣質(zhì)量狀況。

      猜你喜歡
      空氣質(zhì)量樣本預(yù)測(cè)
      無(wú)可預(yù)測(cè)
      黃河之聲(2022年10期)2022-09-27 13:59:46
      選修2-2期中考試預(yù)測(cè)卷(A卷)
      選修2-2期中考試預(yù)測(cè)卷(B卷)
      用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
      推動(dòng)醫(yī)改的“直銷樣本”
      不必預(yù)測(cè)未來(lái),只需把握現(xiàn)在
      隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
      “空氣質(zhì)量發(fā)布”APP上線
      車內(nèi)空氣質(zhì)量標(biāo)準(zhǔn)進(jìn)展
      汽車與安全(2016年5期)2016-12-01 05:22:14
      重視車內(nèi)空氣質(zhì)量工作 制造更環(huán)保、更清潔、更健康的汽車
      汽車與安全(2016年5期)2016-12-01 05:22:13
      绥棱县| 曲阳县| 奈曼旗| 廊坊市| 古丈县| 万宁市| 松原市| 宁陕县| 岐山县| 富锦市| 开阳县| 黔西县| 盐池县| 类乌齐县| 林西县| 孟村| 龙江县| 电白县| 白山市| 江城| 高雄县| 织金县| 南汇区| 长治市| 辽阳县| 云和县| 芜湖县| 普兰店市| 望江县| 灵川县| 喀喇沁旗| 临夏市| 马龙县| 乡宁县| 叶城县| 渑池县| 嘉荫县| 大渡口区| 来凤县| 阳曲县| 什邡市|