• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      集成學習在PM2.5預測中的應用研究

      2023-03-04 13:36:56祭海洋付均元周一鳴
      河南科技 2023年3期
      關(guān)鍵詞:見式分類器機器

      祭海洋 李 玉 付均元 周一鳴

      (東北林業(yè)大學,黑龍江 哈爾濱 150040)

      0 引言

      對空氣中的PM2.5進行實時預測,能更好地對社會生產(chǎn)生活進行指導,具有很強的現(xiàn)實意義。PM2.5的形成原因有很多,PM2.5的預測方法[1-7]可分為機理性模型預測和非機理性模型進行檢測。機理性模型對各個環(huán)境因子的要求多,要考慮多種PM2.5產(chǎn)生和擴散的因素。非機理性模型只把與PM2.5有關(guān)的相關(guān)因子通過機器學習模型進行分析,最終實現(xiàn)對PM2.5的預測。考慮到單機器學習模型的預測精度與對新數(shù)據(jù)的泛化能力較低,因此本研究采用集成學習模型對PM2.5含量進行預測。由于集成學習合并了多個機器學習模型,克服了單一預測方法的缺點,對數(shù)據(jù)的預測效果更好。

      1 PM2.5預測原理

      1.1 預測原理

      PM2.5實時預測主要是通過建立不同的機器學習模型對歷史數(shù)據(jù)進行訓練,在得到不同模型[7-15]的合適參數(shù)值后,進行模擬仿真??稍O第i個PM2.5影響因子為Xi,其預測值Y,計算公式見式(1)。

      1.2 預測試驗數(shù)據(jù)集

      空氣中的PM2.5不是單一的空氣污染物,其形成的原因較為復雜,不僅與空氣中的多種污染物有關(guān)(空氣中的細微顆粒污染物、硫的氧化物SOx、氮的氧化物NOx、CO 和PM10等對PM2.5的形成具有較大影響),還與氣象因素密切相關(guān)(露點、溫度、大氣壓、濕度、風速、累計降雨量),通過對文獻進行分析,本研究選取影響PM2.5實時濃度的十個指標。本研究的數(shù)據(jù)集采用2014—2021 年哈爾濱氣象局發(fā)布的氣象數(shù)據(jù),數(shù)據(jù)包含十項特征,見表1。

      表1 數(shù)據(jù)集特征

      由于獲取到的數(shù)據(jù)集中包含許多缺失數(shù)據(jù),本研究采用差值法對缺失數(shù)據(jù)進行補全。

      1.3 特征提取

      考慮到PM2.5的形成與多種因素有關(guān),計算各個因子的皮爾遜相關(guān)系數(shù)(見圖1)。除去相關(guān)性不足0.5的因子。

      圖1 各指標相關(guān)性系數(shù)

      1.4 標準化

      由于以上十項特征的單位、數(shù)據(jù)量不統(tǒng)一,無法將其與PM2.5進行直接比較。為觀察不同因子與PM2.5之間的關(guān)系,將每項特征進行標準化處理,全部縮放到0~1范圍內(nèi),見式(2)。

      式中:min 為數(shù)據(jù)中最小值;max 為數(shù)據(jù)的最大值。

      2 集成學習

      集成學習(Ensemble learning)是通過構(gòu)建并結(jié)合多個學習器來完成學習任務,集成多個模型能克服傳統(tǒng)單一的機器學習模型在預測精度上存在的不足。根據(jù)個體在學習器中的生成方式,集成學習模型可分為兩大類。第一類是個體學習器不存在過于強的依賴關(guān)系,可同時生成的并行化方法,如Bagging 類算法。第二類是個體學習器存在強依賴性關(guān)系,必須串行生成的序列化方法,如Boosting類算法。

      2.1 隨機森林模型(Random forests)

      隨機森林是對Bagging算法[2]的一種優(yōu)化,其通過建立大量不相關(guān)的分類樹,并取這些分類樹的平均值,從而獲得結(jié)果。在許多問題中,隨機森林很容易進行訓練和調(diào)優(yōu)。因此,隨機森林模型被廣泛地應用。隨機森林的訓練過程描述如下。

      若總共訓練B棵分類樹,對每一棵分類樹Ti,從訓練樣本中隨機選取一個大小為N的引導樣本Z*。在引導樣本中,隨機選擇m個維度的變量,按照自上向下的遞歸分裂原則,在Ti分類樹中從根節(jié)點開始對引導樣本進行劃分。對節(jié)點本身,按照節(jié)點純度最小的原則,分裂為左節(jié)點和右節(jié)點,其分別包含訓練數(shù)據(jù)的一個子集。

      在此類問題中,隨機森林用于回歸時,回歸樹的純度可用兩個子節(jié)點方差之和來描述。當劃分特征為A,劃分點為s,將樣本劃分為z1和z2兩部分時,上述對節(jié)點的劃分可用公式(3)來描述。

      其中,c1和c2的計算公式見式(4)。

      最后,對數(shù)據(jù)X′模型給出其預測值,其計算公式見式(5)。

      2.2 Adaptive Boosting算法(AdaBoost)

      AdaBoost算法[7]最主要的特點是前面的分類器會為后面的分類器創(chuàng)造條件,后面的分類器是基于前面分類器創(chuàng)造的條件進行改進的,以獲得對前面錯誤樣本的更優(yōu)預測。

      AdaBoost回歸算法的運行過程如下。

      剛開始時,所有樣本具有相同的權(quán)重。即對總共m個訓練樣本,在第t次訓練前第i個樣本的權(quán)重為ωt,i,其計算公式見式(6)。

      每輪訓練后都會得到一個基學習器,每輪結(jié)束后都會根據(jù)上一輪分類器的分類效果來調(diào)整每個樣本的權(quán)重,提高上一輪預測偏差大的樣本權(quán)重,并降低預測偏差小的樣本權(quán)重。

      對第t次迭代訓練出的模型?t()·,先要計算該模型的樣本最大誤差Et,見式(7)。

      再計算每個樣本在此輪模型中的相對誤差et,i,見式(8)。

      然后求出基學習器?t()·在訓練數(shù)據(jù)集中的回歸誤差率εt,見式(9)。

      進一步求出基學習器?t()·的權(quán)重系數(shù)αt,見式(10)。

      并以此來更新每個訓練樣本的權(quán)重系數(shù),見式(11)。

      其中,Zt為規(guī)范化參數(shù),見式(12)。

      下一輪的訓練要根據(jù)新得到樣本權(quán)重來指導本輪中的基分類器訓練。重復上述步驟,直至達到設定的訓練輪數(shù),每輪訓練都會得到一個基分類器。

      在所有弱學習器的共同作用下,得到最終的強學習器H(·),訓練T輪的學習器對輸入X′的預測值見式(13)。

      3 試驗結(jié)果與分析

      基于多種機器學習和哈爾濱氣象的數(shù)據(jù)集,來完成對PM2.5濃度的預測。試驗方法如下。①對原始氣象數(shù)據(jù)進行處理,構(gòu)建符合要求的數(shù)據(jù)集。②調(diào)用訓練集對機器學習模型進行訓練。③調(diào)用驗證集對結(jié)果模型進行驗證評估。④對預測效果進行統(tǒng)計學分析,并判斷預測的精確度,通過擬合度和回歸精度等指標來選出最佳的預測模型。⑤用最優(yōu)模型對PM2.5含量進行預測,并與實際的PM2.5含量進行對比。

      3.1 試驗環(huán)境

      本研究的試驗環(huán)境詳見表2。

      表2 試驗環(huán)境介紹

      3.2 多模型選擇

      本研究采用XGboost(Xtreme Gradient Boosting)[8]、RF(Random Forest)、GBDT[10](Gradient Boosting Decision Tree)、AdaBoost[9](Adaptive boosting)等方法對數(shù)據(jù)進行預測。

      3.3 結(jié)果分析

      基于模型對經(jīng)過預處理和轉(zhuǎn)換后的測試集數(shù)據(jù)進行預測,預測結(jié)果和實際結(jié)果如圖2 所示。從圖2 可以看出,集成類學習模型的預測效果較好。在對測試集進行預測時,不同集成學習的預測指標大小如圖3 所示。其中,GBDT 模型的MSE 為334.204 6,RMSE 為18.281 3,MAPE 為83.438 9,SMAPE 為50.616 9,且預測PM2.5含量與實際PM2.5含量變化趨勢的吻合度最好,滿足回歸預測過程中的經(jīng)驗誤差要求。因此,集成學習模型預測模型在預測PM2.5濃度的擬合度要好于其他機器學習模型。

      圖2 各個模型的預測結(jié)果

      圖3 各個模型的預測結(jié)果指標大小

      猜你喜歡
      見式分類器機器
      高速公路下穿既有鐵路橋橋墩基底承載力驗算*
      公路與汽運(2024年1期)2024-03-07 03:02:06
      低溫下船用鋼材彈塑性曲線研究
      河南科技(2023年1期)2023-02-11 12:17:04
      機器狗
      Effects of Landau damping and collision on stimulated Raman scattering with various phase-space distributions
      機器狗
      橋(門)式起重機起升機構(gòu)高速浮動軸設計
      未來機器城
      電影(2018年8期)2018-09-21 08:00:06
      BP-GA光照分類器在車道線識別中的應用
      電子測試(2018年1期)2018-04-18 11:52:35
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
      开化县| 高邑县| 普格县| 陆良县| 伊宁县| 瓮安县| 娱乐| 开鲁县| 亳州市| 张家界市| 云梦县| 牙克石市| 南京市| 高安市| 莆田市| 峡江县| 兴化市| 常熟市| 公主岭市| 怀安县| 饶阳县| 台南市| 六枝特区| 远安县| 海伦市| 江川县| 临朐县| 木兰县| 江孜县| 宁津县| 滦南县| 自贡市| 汤原县| 沭阳县| 灵武市| 星子县| 城市| 凤凰县| 凤山市| 桐庐县| 蕲春县|