• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于隨機(jī)森林和神經(jīng)網(wǎng)絡(luò)的空氣質(zhì)量預(yù)測研究

      2018-09-10 17:41:38林開春邵峰晶
      關(guān)鍵詞:隨機(jī)森林特征選擇神經(jīng)網(wǎng)絡(luò)

      林開春 邵峰晶

      摘要: 為更好的監(jiān)測空氣質(zhì)量和重點(diǎn)污染源的濃度,本文基于隨機(jī)森林和神經(jīng)網(wǎng)絡(luò)優(yōu)化,建立了預(yù)測空氣質(zhì)量指數(shù)的模型。通過隨機(jī)森林算法進(jìn)行特征選擇,選取最優(yōu)特征子集,用獲取的最優(yōu)特征子集訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,進(jìn)行空氣質(zhì)量指數(shù)預(yù)測,最后利用2017年氣象和污染物濃度數(shù)據(jù)驗(yàn)證模型。驗(yàn)證結(jié)果表明,預(yù)測結(jié)果與實(shí)際值的相關(guān)系數(shù)達(dá)到082,空氣質(zhì)量等級預(yù)報的準(zhǔn)確率提高到8056%。與其他模型的預(yù)測效果比較結(jié)果表明,該模型可發(fā)現(xiàn)與青島市空氣質(zhì)量密切相關(guān)的特征因子,并有較高的空氣質(zhì)量預(yù)測精度。該研究具有一定的實(shí)際應(yīng)用價值。

      關(guān)鍵詞: 隨機(jī)森林; 神經(jīng)網(wǎng)絡(luò); 空氣質(zhì)量預(yù)測; 特征選擇

      中圖分類號: TP18; X831文獻(xiàn)標(biāo)識碼: A

      隨著社會經(jīng)濟(jì)的發(fā)展,大氣污染問題日益嚴(yán)重,青島市去年多次發(fā)生霧霾天氣,給人們的生活與健康造成了極壞的影響,因而研究空氣質(zhì)量的預(yù)測方法,對大氣污染進(jìn)行預(yù)測與防治意義重大。近年來,隨著大數(shù)據(jù)的興起及空氣質(zhì)量和重點(diǎn)污染源實(shí)時在線監(jiān)測系統(tǒng)的建立,監(jiān)測數(shù)據(jù)日益完善,為使用數(shù)據(jù)挖掘方法建立空氣質(zhì)量預(yù)測模型提供了基礎(chǔ)。人工神經(jīng)網(wǎng)絡(luò)模型是一種不同于回歸模型的非線性智能統(tǒng)計模型,目前已將該類模型用于社會各領(lǐng)域的相關(guān)研究中。M.Boznark等人[1]通過建立多層感知器將人工神經(jīng)網(wǎng)絡(luò)引入城市空氣質(zhì)量預(yù)測模型中;李柞泳等人[2]首次使用BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測城市污染物SO2濃度;白曉平等人[35]研究了人工神經(jīng)網(wǎng)絡(luò)模型比傳統(tǒng)回歸模型性能更好,但是傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)模型存在收斂速度慢、容易陷入局部最小值、網(wǎng)絡(luò)泛化能力弱等缺點(diǎn);王儉等人[6]通過將遺傳算法與BP神經(jīng)網(wǎng)絡(luò)相結(jié)合,建立了SO2濃度預(yù)測模型,優(yōu)化了收斂速度過慢的問題;LU W Z等人[7]使用主成分分析法和人工神經(jīng)網(wǎng)絡(luò)算法相結(jié)合,提升了網(wǎng)絡(luò)的泛化能力和預(yù)報的準(zhǔn)確率。由于空氣質(zhì)量數(shù)據(jù)中污染物因子和氣象因子等維度的復(fù)雜多樣性,會對空氣質(zhì)量預(yù)測模型的性能產(chǎn)生巨大的影響[8]?;诖?,本文通過將隨機(jī)森林與神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法,建立了青島市空氣質(zhì)量指數(shù)(air quality index,AQI)預(yù)測模型,解決了空氣質(zhì)量預(yù)測過程中因數(shù)據(jù)特征空間維度過大而產(chǎn)生的維度災(zāi)難問題以及不相關(guān)因子對模型預(yù)測精度的干擾問題,提升了空氣質(zhì)量預(yù)測模型的預(yù)測精度,為環(huán)境監(jiān)測與治理提供實(shí)時準(zhǔn)確的空氣質(zhì)量信息。

      1基于RF_ANN的AQI預(yù)測方法

      1.1基于RF_ANN的AQI預(yù)測模型

      將隨機(jī)森林算法與人工神經(jīng)網(wǎng)絡(luò)模型相結(jié)合,降低了輸入因子的維度,減少了不相關(guān)維度對結(jié)果的干擾,實(shí)現(xiàn)對青島市空氣質(zhì)量預(yù)測模型的優(yōu)化。

      空氣質(zhì)量指數(shù)是定量描述空氣質(zhì)量狀況的指數(shù),基于隨機(jī)森林和神經(jīng)網(wǎng)絡(luò)優(yōu)化的空氣質(zhì)量指數(shù)預(yù)測模型(RF_ANN)的具體操作流程如圖1所示。首先通過隨機(jī)森林算法對氣象因子和污染物因子進(jìn)行重要性度量,選取最優(yōu)特征子集,隨后用人工神經(jīng)網(wǎng)絡(luò)進(jìn)行AQI指數(shù)的預(yù)測。

      1.2隨機(jī)森林算法選取最優(yōu)特征子集

      隨機(jī)森林是一種集成機(jī)器學(xué)習(xí)算法,具有分析復(fù)雜相互作用特征變量重要性的能力,對存在噪聲和缺失值的數(shù)據(jù)具有很好的魯棒性[9],且學(xué)習(xí)速度較快,可作為高維數(shù)據(jù)的特征選擇工具[1013]。

      定義1袋外數(shù)據(jù)(outofbag,OOB):采用bootstrap方法[14]從數(shù)據(jù)集中隨機(jī)抽取K個自助樣本集,建立K個決策樹,未被抽到的樣本組成K個袋外數(shù)據(jù)。

      定義2袋外數(shù)據(jù)誤差errOOB:輸入O個袋外數(shù)據(jù),分類器會給出O個相應(yīng)的分類結(jié)果。設(shè)隨機(jī)森林分類器分類錯誤的數(shù)目為X,袋外數(shù)據(jù)誤差=X/O。

      定義3基于袋外數(shù)據(jù)分類準(zhǔn)確率的變量重要性度量(mean decrease accuracy,MDA):假設(shè)隨機(jī)森林中有Ntree棵樹,袋外數(shù)據(jù)誤差記為errOOB1,把一個變量的取值變?yōu)殡S機(jī)數(shù),改變后的隨機(jī)森林預(yù)測準(zhǔn)確性為errOOB2,那么對于特征X的重要性度量為

      MDA=∑(errOOB2-errOOB1)/Ntree

      將某個特征的值加入隨機(jī)噪聲數(shù)據(jù),袋外準(zhǔn)確率降低越多,說明這個特征越重要。

      隨機(jī)森林算法篩選輸入因子的步驟:

      1)利用bootstrap采樣方法,在原始訓(xùn)練數(shù)據(jù)集中隨機(jī)生成K個樣本集,在m個特征中選擇一個最具分類能力的特征進(jìn)行節(jié)點(diǎn)分裂,生成多個決策樹[15]。

      2)將生成的決策樹組成隨機(jī)森林,使用樹分類器投票的方法對新數(shù)據(jù)進(jìn)行分類。

      3)基于袋外數(shù)據(jù)分類準(zhǔn)確率的變量重要性度量,計算每個特征變量的重要性,并按降序排序。

      4)確定刪除比例,從當(dāng)前特征變量中刪除相應(yīng)比例中不重要的指標(biāo),從而得到一個新的特征集。

      5)用新的特征集建立新的隨機(jī)森林,計算特征集中每個特征的重要性,并排序。

      6)重復(fù)步驟2)~4),直到剩下m個特征。

      7)根據(jù)得到的每個特征集和隨機(jī)森林,計算對應(yīng)的袋外誤差errOOB,將袋外誤差最低的特征集作為最后選定的特征集。

      1.3人工神經(jīng)網(wǎng)絡(luò)預(yù)測模型

      人工神經(jīng)網(wǎng)絡(luò)(artificial neural networks,ANN)是從輸入空間到輸出空間的一個非線性映射[16]。BP神經(jīng)網(wǎng)絡(luò)是近年應(yīng)用較多的一種前饋神經(jīng)網(wǎng)絡(luò),結(jié)構(gòu)簡潔,穩(wěn)定性好,BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖2所示。BP學(xué)習(xí)算法主要通過訓(xùn)練輸入和輸出樣本集使網(wǎng)絡(luò)達(dá)到給定的映射函數(shù)關(guān)系[17],網(wǎng)絡(luò)中含有R個神經(jīng)元節(jié)點(diǎn),隱含層神經(jīng)元通常采用sigmoid激活函數(shù)。a1i為隱含層節(jié)點(diǎn)i的輸出,a2k為輸出層節(jié)點(diǎn)k的輸出,節(jié)點(diǎn)之間存在權(quán)值w。BP神經(jīng)網(wǎng)絡(luò)模型的預(yù)測過程如下:

      1)輸入樣本正向傳播。將選取的最優(yōu)特征子集對應(yīng)的數(shù)據(jù)作為輸入數(shù)據(jù)輸入模型進(jìn)行傳播。

      2)輸出誤差逆向傳播。用通過模型正向傳播得到的實(shí)際輸出值與真實(shí)值進(jìn)行對比,通過誤差逆向傳播對網(wǎng)絡(luò)模型進(jìn)行校正。

      3)循環(huán)訓(xùn)練。對BP神經(jīng)網(wǎng)絡(luò)模型的輸入樣本進(jìn)行反復(fù)循環(huán)訓(xùn)練,使模型輸出誤差盡可能小。

      4)模型驗(yàn)證。檢查輸出誤差是否已經(jīng)滿足結(jié)束學(xué)習(xí)的要求。如果符合,就結(jié)束整個學(xué)習(xí)過程,否則繼續(xù)循環(huán)訓(xùn)練。

      5)預(yù)測結(jié)果。輸入測試集數(shù)據(jù),對目標(biāo)結(jié)果進(jìn)行預(yù)測。

      2建模過程與方法

      2.1數(shù)據(jù)選擇

      選擇青島市2013—2017年的6個氣象因子監(jiān)測值,其中包括日均氣溫、日均風(fēng)速、日均氣壓、日均可見度、日均相對濕度、日均總降雨量或融雪,同時選擇同期PM25,PM10,NO2,SO2,CO,O3濃度的日均值。使用2013—2016年4年的氣象和污染物濃度數(shù)據(jù)作為訓(xùn)練空氣質(zhì)量預(yù)測模型的訓(xùn)練集,將2017年的氣象和污染物濃度數(shù)據(jù)作為驗(yàn)證模型的測試集。空氣質(zhì)量預(yù)測模型的輸入特征為預(yù)測日當(dāng)天的氣象因子值和前一天的污染物濃度,把預(yù)測日當(dāng)天空氣質(zhì)量指數(shù)作為模型的輸出值。

      2.2建模方法

      利用隨機(jī)森林算法進(jìn)行特征選擇,輸入數(shù)據(jù)為預(yù)測日前一天的污染物濃度值和當(dāng)天的氣象因子值,采用R語言中的randomForest程序包,設(shè)置100棵決策樹,即函數(shù)參數(shù)Ntree=100,importance=true用基于袋外數(shù)據(jù)分類準(zhǔn)確率的變量重要性度量對特征的重要性進(jìn)行排序,依次去掉重要性最小的特征,將選取的特征子集作為神經(jīng)網(wǎng)絡(luò)預(yù)測模型的輸入。以預(yù)測值和真實(shí)值的平均絕對誤差作為評價標(biāo)準(zhǔn)和特征選擇的依據(jù),重復(fù)迭代,最終選取平均絕對誤差最低的特征子集作為模型的最優(yōu)特征子集。

      將選出的最優(yōu)特征子集中的特征去臟[18]并消除具有共線性的特征[19],作為BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型的輸入,輸入數(shù)據(jù)為預(yù)測日前一天的污染物濃度值和當(dāng)天的氣象因子值,神經(jīng)網(wǎng)絡(luò)參數(shù):設(shè)置隱層單元個數(shù)為10,即參數(shù)size=10;權(quán)重調(diào)整速度為001,即參數(shù)decay=001,最大迭代次數(shù)為1 000次,即參數(shù)maxit=1 000,以2013—2016年的數(shù)據(jù)用Nnet函數(shù)訓(xùn)練預(yù)測模型,并預(yù)測2017年1月2日~10月1日的AQI和空氣質(zhì)量等級。

      3預(yù)測及結(jié)果分析

      3.1AQI指數(shù)預(yù)測

      隨機(jī)森林對因子變量重要性的排序情況如圖3所示。通過序列向后搜索的方法,根據(jù)特征集合中特征的重要性進(jìn)行排序,依次去掉重要性最小的特征,將選出的特征子集輸入BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型。各個特征子集輸出的真實(shí)值與預(yù)測值的平均絕對誤差如圖4所示。由圖4可以看出,將不重要的特征依次刪除之后,預(yù)測值與真實(shí)值的平均絕對誤差先逐步降低,當(dāng)達(dá)到最低值后又開始逐步升高。這是因?yàn)殚_始時,隨著冗余特征的刪除,模型分類性能提升,隨后將重要性高的特征刪除后,降低了分類器的性能,這說明本算法可以有效地識別和刪除冗余特征,達(dá)到特征選擇的目的。采用RF_ANN模型消除的冗余特征為PM10、O3濃度、SO2濃度、日均氣溫和日均氣壓;篩選出的最優(yōu)特征子集為日均風(fēng)速、NO2濃度、日均總降雨量和/或融雪、PM25、日均相對濕度、日均可見度及CO濃度。

      篩選出模型輸入因子的同時,用2013—2016年的青島市空氣質(zhì)量與氣象數(shù)據(jù)為AQI指數(shù)建立了預(yù)測模型,使用該模型對青島市2017年的AQI指數(shù)進(jìn)行預(yù)測,預(yù)測值與實(shí)測值的相關(guān)系數(shù)為082,AQI預(yù)測值與實(shí)測值相關(guān)性分析如圖5所示。青島市2017年前100 d部分空氣質(zhì)量指數(shù)的預(yù)測值與實(shí)測值進(jìn)行對比,AQI預(yù)測值與實(shí)測值比較如圖6所示,AQI的平均絕對誤差為1273。

      3.2與一般神經(jīng)網(wǎng)絡(luò)預(yù)測模型對比

      空氣質(zhì)量指數(shù)范圍為0~500,分為6級,分別是:1級優(yōu)、2級良、3級輕度污染、4級中度污染、5級重度污染、6級嚴(yán)重污染[20]。選用準(zhǔn)確率、空報率和漏報率3個指標(biāo)與傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行比較,3個指標(biāo)定義如下:

      A=D/C×100%

      B=H/C×100%

      D=L/C×100%

      式中,A為準(zhǔn)確率;D為預(yù)報結(jié)果正確的天數(shù);C為總天數(shù);B為空報率;H為預(yù)報結(jié)果偏高的天數(shù);D為漏報率;L為預(yù)報結(jié)果偏低的天數(shù)。

      4結(jié)束語

      本文基于隨機(jī)森林算法與人工神經(jīng)網(wǎng)絡(luò)算法,提出了一種空氣質(zhì)量預(yù)測模型。通過隨機(jī)森林算法對氣象因子和空氣質(zhì)量污染物因子等多個特征進(jìn)行特征選擇,并對神經(jīng)網(wǎng)絡(luò)預(yù)測模型進(jìn)行訓(xùn)練。測試結(jié)果表明,該模型能發(fā)現(xiàn)與空氣質(zhì)量密切相關(guān)的特征因子,具有較準(zhǔn)確的空氣質(zhì)量預(yù)測效果。該研究為通過大數(shù)據(jù)解決大氣環(huán)境問題提供了新的思路和方法。而探索其他與空氣質(zhì)量密切相關(guān)的特征因子及提高更高維度特征數(shù)據(jù)集預(yù)測的穩(wěn)定性是下一步的研究內(nèi)容。

      參考文獻(xiàn):

      [1]Boznar M, Lesjak M, Mlakar P. A Neural NetworkBased Method for the ShortTerm Predictions of Ambient SO2 Concentrations in Highly Polluted Industrial Areas of Complex Terrain[J]. Atmospheric Environment, Part B, Urban Atmosphere, 1993, 27(2): 221230.

      [2]李柞泳, 鄧新民. 環(huán)境污染預(yù)測的人工神經(jīng)網(wǎng)絡(luò)模型[J]. 成都?xì)庀髮W(xué)院學(xué)報, 1997, 12(4): 279283.

      [3]白曉平, 李紅, 張啟明, 等. 人工神經(jīng)網(wǎng)絡(luò)在空氣污染預(yù)報中的研究進(jìn)展[J]. 科技導(dǎo)報, 2006, 24(12): 7781.

      [4]周秀杰, 蘇小紅, 袁美英. 基于BP網(wǎng)絡(luò)的空氣污染指數(shù)預(yù)報研究[J]. 哈爾濱工業(yè)大學(xué)學(xué)報, 2004, 36(5): 582585.

      [5]JIANG D H, ZHANG Y, HU X, et al. Progress in Developing an ANN Model for an Air Pollution Index Forecast[J]. Atmospheric Environment, 2004, 38(40): 70557064.

      [6]王儉, 劉振山. BP模型的改進(jìn)及其在大氣污染預(yù)報中的應(yīng)用[J]. 城市環(huán)境與城市生態(tài), 2002, 15(5): 1719.

      [7]Lu W Z, Wang W J. Potential Assessment of the “Support Vector Machine” Method in Forecasting Ambient Air Pollutant Trends[J]. Chemosphere, 2005, 59(5): 693701.

      [8]Nunnari G, Doring S, Schlink U, et al. Modeling SO2 Concentration at a Point with Statistical Approaches[J]. Environmental Modeling & Software, 2004, 19(10): 887905.

      [9]蔣勝利. 高維數(shù)據(jù)的特征選擇與特征提取研究[D]. 西安: 西安電子科技大學(xué), 2011.

      [10]尹華, 胡玉平. 基于隨機(jī)森林的不平衡特征選擇算法[J]. 中山大學(xué)學(xué)報: 自然科學(xué)版, 2014, 53(5): 5965.

      [11]蔣盛益, 鄭琪, 張倩生. 基于聚類的特征選擇方法[J]. 電子學(xué)報, 2008, 36(12): 157160.

      [12]劉元寧, 王剛, 朱曉冬, 等. 基于自適應(yīng)多種群遺傳算法的特征選擇[J]. 吉林大學(xué)學(xué)報: 工學(xué)版, 2011, 41(6): 16901693.

      [13]楊帆, 林琛, 周綺鳳, 等. 基于隨機(jī)森林的潛在k近鄰算法及其在基因表達(dá)數(shù)據(jù)分類中的應(yīng)用[J]. 系統(tǒng)工程理論與實(shí)踐, 2012, 32(4): 815825.

      [14]李欣海. 隨機(jī)森林模型在分類與回歸分析中的應(yīng)用[J]. 應(yīng)用昆蟲學(xué)報, 2013, 50(4): 11901197.

      [15]姚登舉, 楊靜, 詹曉娟. 基于隨機(jī)森林的特征選擇算法[J]. 吉林大學(xué)學(xué)報: 工學(xué)版, 2014, 44(1): 137141.

      [16]祝翠玲, 蔣志方, 王強(qiáng). 基于BP神經(jīng)網(wǎng)絡(luò)的環(huán)境空氣質(zhì)量預(yù)測模型[J]. 計算機(jī)工程與應(yīng)用, 2007, 43(22): 223227.

      [17]萬顯列, 楊鳳林, 王慧卿. 利用人工神經(jīng)網(wǎng)絡(luò)對空氣中的O3濃度進(jìn)行預(yù)測[J]. 中國環(huán)境科學(xué), 2003, 23(1): 110112.

      [18]吳小紅, 康海燕, 任德官. 基于神經(jīng)網(wǎng)絡(luò)中小城市空氣污染指數(shù)預(yù)估器的設(shè)計[J]. 數(shù)學(xué)的實(shí)踐與認(rèn)識, 2005, 35(2): 8791.

      [19]黃海洪, 孫崇智, 金龍. 基于主分量的神經(jīng)網(wǎng)絡(luò)水位預(yù)報模型應(yīng)用研究[J]. 大氣科學(xué)學(xué)報, 2005, 28(1): 5863.

      [20]趙宏, 劉愛霞, 王愷, 等. 基于GA_ANN改進(jìn)的空氣質(zhì)量預(yù)測模型[J]. 環(huán)境科學(xué)研究, 2009, 22(11): 12761281.

      猜你喜歡
      隨機(jī)森林特征選擇神經(jīng)網(wǎng)絡(luò)
      神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      隨機(jī)森林在棉蚜蟲害等級預(yù)測中的應(yīng)用
      基于二次隨機(jī)森林的不平衡數(shù)據(jù)分類算法
      軟件(2016年7期)2017-02-07 15:54:01
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      拱壩變形監(jiān)測預(yù)報的隨機(jī)森林模型及應(yīng)用
      基于隨機(jī)森林算法的飛機(jī)發(fā)動機(jī)故障診斷方法的研究
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
      基于支持向量機(jī)回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
      区。| 仁布县| 武威市| 吉林省| 文化| 宝鸡市| 绥芬河市| 新乡市| 玉环县| 石台县| 敦化市| 康乐县| 察哈| 西和县| 绥德县| 宁远县| 安平县| 策勒县| 马鞍山市| 呈贡县| 柯坪县| 囊谦县| 布尔津县| 新竹市| 大厂| 襄樊市| 栾川县| 临邑县| 渝北区| 天峨县| 登封市| 黔南| 云阳县| 上林县| 宜黄县| 长春市| 龙游县| 望都县| 玉林市| 贵溪市| 景东|