• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      分類梯度提升算法(CatBoost)與蝙蝠算法(Bat)耦合建模預測中國西北部地區(qū)水面蒸發(fā)量

      2021-02-25 08:36:28董力銘曾文治雷國慶
      節(jié)水灌溉 2021年2期
      關鍵詞:水面蒸發(fā)蒸發(fā)量蝙蝠

      董力銘,曾文治,雷國慶

      (武漢大學水資源與水電工程科學國家重點實驗室,武漢430072)

      0 引 言

      蒸發(fā)是氣象科學、水資源評價和水循環(huán)的重要內(nèi)容[1,2]。精準的預測水面蒸發(fā)對于干旱、半干旱地區(qū)的水資源合理規(guī)劃、農(nóng)業(yè)節(jié)水灌溉及水資源評價具有重要意義和價值[3,4]。預測水面蒸發(fā)量的方法大致分為2 類:實地測量法及模型估計法。其中,實地測量法如蒸發(fā)皿測量法,雖然可以得到較為精確的結(jié)果,但十分容易受到田間狀況、人工成本、極端天氣情況等因素的限制,制約了其應用的范圍[5,6]。同時,由于蒸發(fā)過程具有高度非線性、復雜性和不穩(wěn)定性等特點,較難建立包含所有相關因素的,具有較強普適性的經(jīng)驗數(shù)學模型[7?9]。

      近年來,隨著機器學習及啟發(fā)式搜索算法的快速發(fā)展及其在解決非線性復雜問題上的巨大優(yōu)勢,已有許多學者將機器學習如人工神經(jīng)網(wǎng)絡(ANN)[10,11]、多元自適應回歸曲線(MARS)[6,12]、 隨 機 森 林(RF)[13]、 分 類 梯 度 提 升(CatBoost)[14]等算法應用于蒸散發(fā)、水面蒸發(fā)等方面的模擬并得到較為準確的水面蒸發(fā)預測精度。其中,CatBoost模型以其強大的特征分類能力及高準確度,受到學者們的廣泛關注。Huang[14]將CatBoost模型與SVM模型和RF模型在估算中國濕潤地區(qū)ET0時進行了對比,發(fā)現(xiàn)CatBoost模型不僅在精度和穩(wěn)定性方面具有顯著優(yōu)勢,在計算時間和內(nèi)存使用方面也同樣更為優(yōu)越。然而CatBoost模型需要設置的參數(shù)較多,增加了陷入局部最優(yōu)解的可能性。為此,利用具有強大搜索功能的蝙蝠算法進行耦合,提升CatBoost模型處理參數(shù)的能力,進而增強模型預測準確度及魯棒性是一種可行且有效的辦法[15]。

      本文針對我國西北部干旱地區(qū)的水面蒸發(fā)量預測,建立耦合蝙蝠算法的改進CatBoost模型(Bat?CB),測試其預測能力,并與原CatBoost模型及較為常用的隨機森林模型(RF)進行對比,進而提出適用于干旱、半干旱地區(qū)的水面蒸發(fā)模型。

      1 材料與方法

      1.1 隨機森林法(RF)

      隨機森林法是基于分類和回歸樹,利用自動聚集(bootstrapping)及“bagging”方法等集成策略來處理高維回歸問題的算法[16]。隨機森林通過bootstrap 重抽樣方法從原始數(shù)據(jù)集中隨機抽取子訓練集,并在采集后將其放回,直到達到指定的節(jié)點數(shù)。沒有被采集的數(shù)據(jù)稱為“箱外數(shù)據(jù)”,用來計算泛化無偏誤差并提高精度。最后,通過對決策樹投票或取平均值的方式做綜合評價,生成最終結(jié)果[17]。目前,隨機森林算法已廣泛應用于模型預測的領域,本文也因此選擇隨機森林作為對比的對象,探究水面蒸發(fā)模型的預測能力。

      1.2 分類梯度提升算法(CatBoost)

      CatBoost 是一種基于梯度增強決策樹(gradient boosting decision tree,GBDT)算法的新型機器學習算法。相對于其他的早期GBDT 算法如XGBoost 和LightGBM,CatBoost 在很多方面都有較大提升,特別是在處理大量數(shù)據(jù)和特征的時候。CatBoost 功能的增強主要體現(xiàn)在3個方面。首先,CatBoost 采用“有序原則”的方式避免了GBDT算法的迭代過程中固有存在的條件位移問題,并使其可以利用整個數(shù)據(jù)集進行訓練和學習。其次,CatBoost 將傳統(tǒng)的梯度增強算法轉(zhuǎn)化為有序增強(Ordered Boosting)算法,解決了迭代過程中梯度偏移這一不可避免的問題,提高了泛化能力,降低了模型過擬合的可能,增強了模型的魯棒性[18]。最后,CatBoost 通過貪婪策略(Greedy Strategy)構(gòu)造分類特征的組合,并將這些組合作為附加特征,這有助于模型更容易地捕獲高階依賴關系,進一步提高預測精度。此外,CatBoost 選擇健忘決策樹(Oblivious Decision Trees)作為基礎預測期,降低了過擬合的可能并加快了模型的執(zhí)行速度。

      1.3 耦合蝙蝠算法的CatBoost模型(Bat-CB)

      蝙蝠算法是由Yang[19]提出,仿生蝙蝠覓食行為,利用每只微型蝙蝠發(fā)出高頻脈沖來搜索目標,并分析其獨特的回聲信息特征來定位目標的元啟發(fā)式算法。在數(shù)學上,它的實現(xiàn)方法如下面步驟所示。

      第1步:創(chuàng)建蝙蝠數(shù)量,賦予每只蝙蝠初始速度vi、頻率fi和位置xi。

      第2步:在每一次迭代過程中,在t時刻將3個特征按下面公式更新:

      式中:β∈(0,1)為正態(tài)分布的一個隨機向量;和為蝙蝠在時刻t更新的位置和速度;x*是當前最佳位置(解決方案)。

      第3步:生成一個隨機數(shù)rand用以判斷當前位置是否需要改進,若rand>At,則蝙蝠通過rand步長來更新自己的最佳位置:

      式中:rand∈[?1,1];At為t時刻所有蝙蝠的平均響度。

      第4步:生成另一個隨機數(shù),如果rand

      式中:α和c均為常量,0<α<1且c>0。

      第2步至第4步的迭代過程將一直持續(xù)到達到最大迭代次數(shù)或要求的精度為止。最后,對所有蝙蝠的適應度進行排序,得到最佳位置(最優(yōu)解)

      在本文中,使用蝙蝠算法優(yōu)化了CatBoost模型的3個最為關鍵的參數(shù),分別為決策樹的數(shù)量(nrounds)、學習速率(eta)和樹的最大深度(depth)。理論上可以強化梯度增強功能,顯著提高預測能力。

      1.3 試驗區(qū)概況

      試驗區(qū)為中國的西北部干旱及半干旱地區(qū)的45個氣象站所形成的區(qū)域,約占中國總面積的1/6(見圖1)。該地區(qū)屬于典型的溫帶大陸性氣候,酷熱、干燥、日照充足、降水稀少,并且蒸發(fā)量隨季節(jié)變化較大,夏季的蒸發(fā)量是春季和冬季的10~30倍。水面蒸發(fā)實測值作為校核模型預測能力的基準,由西北45個氣象站以蒸發(fā)皿測量得到。而數(shù)據(jù)集則由西北45個氣象站2006?2017年間包括最低氣溫、最高氣溫、相對濕度、風速及太陽輻射5個因素的逐日長系列數(shù)據(jù)構(gòu)成。另外,由于研究區(qū)內(nèi)可直接測量輻射參數(shù)的氣象站有限,太陽輻射的數(shù)據(jù)不足,因此,根據(jù)Fan[20]采用經(jīng)驗Angstrom?Prescott模型(A?P模型),利用日照天數(shù)(R0)和日照時間(N,h)來計算全球太陽輻射這一參數(shù)。此外,數(shù)據(jù)分為2 組,一組(2006?2013)用于開發(fā)和訓練3個模型,另一組(2014?2017)用于模型測試。氣象數(shù)據(jù)見表1。

      圖1 45個研究站點分布圖

      1.4 統(tǒng)計指標

      本文采用均方根誤差(RMSE)、平均絕對誤差(MAE)、納什系數(shù)(NSE)和平均絕對誤差百分比(MAPE)評價模型的訓練與測試精度。4種統(tǒng)計學評價指標的具體計算方法如下:

      式中:YEST,i和YOBS,i分別表示水面蒸發(fā)的預測值和觀測值;YOBS,i,MEAN表示水面蒸發(fā)觀測值的平均值。

      2 結(jié)果與分析

      為檢驗上述3種模型對于試驗區(qū)域水面蒸發(fā)的預測能力,本文采用4個常用的統(tǒng)計指標,分別為均方根誤差(RMSE)、平均絕對誤差(MAE)、納什系數(shù)(NSE)及平均絕對百分比誤差(MAPE)。模型在訓練階段及測試階段的統(tǒng)計指標見表2。

      在模型的訓練階段,3種模型在不同的各項統(tǒng)計指標中表現(xiàn)出結(jié)果的高度一致性。RF模型(RMSE: 0.127~0.528 mm/d;MAE: 0.077~0.353 mm/d;NSE: 0.981~0.995;MAPE:0.042~0.081)的各項指標均優(yōu)于CB模型及Bat?CB模型。而Bat?CB(RMSE:0.288~1.125 mm/d;MAE:0.166~0.846 mm/d;NSE: 0.908~0.952;MAPE: 0.115~0.167)模型略優(yōu)于CB 模 型(RMSE: 0.300~1.322 mm/d;MAE: 0.180~0.851 mm/d;NSE: 0.894?0.950;MAPE: 0.131~0.181)。但在模型的測試階段,RF模型的預測能力顯著弱于Bat?CB模型及CB模型,這說明RF模型在3個模型中存在著最嚴重的過擬合問題,這與Zhang[21]在探究CatBoost、RF 和GRNN 3種模型在ET0預測上的研究結(jié)果一致。而Bat?CB模型在測試階段依舊強于CB模型,并且在最大值(Max)及標準差(SD)這2個指標上提升最為明顯。這說明改進的Bat?CB模型在總體上降低了CB模型存在的過擬合問題的影響,并提升了模型的整體性能和預測能力。胡夢月等[22]利用改進的蝙蝠算法優(yōu)化KELM模型的2個參數(shù),證明了利用蝙蝠算法的搜索功能可有效提升KELM模型預測能力。綜上所述,改進的Bat?CB模型的預測能力優(yōu)于CB模型及RF模型。

      此外,由于難以將45個站點中每一個站點的模擬情況全部展示出來,故本文隨機從45個站點中隨機選取6個分散的站點進行散點圖的繪制,進一步檢驗模型的預測能力,結(jié)果見圖2。

      圖2表明,當蒸發(fā)量較小時3個模型均有較好的預測結(jié)果。但當蒸發(fā)量大于4 mm/d時,RF模型的預測值與實測值的偏離明顯變大,逐漸偏離1∶1 線。考慮到試驗區(qū)域每年大部分時間蒸發(fā)量較大,RF模型在干旱、半干旱地區(qū)的實用性和準確度總體上明顯弱于Bat?CB模型及CB模型。而相對于CB模型,改進的Bat?CB模型在全部6個點的精度更高,尤其是在51567 站點及51704 站點上。因此,在蒸發(fā)量較大的情況下,Bat?CB模型相對于RF模型和CB模型具有更高的準確度和穩(wěn)定性。

      在評估模型整體預測能力時,使用預測值與實測值之間絕對誤差的頻率分布圖是一種常用且有說服力的方法之一。本文繪制了以上6個站點的絕對誤差分布直方圖,見圖3。

      在以上6個站點中,3種不同的模型在預測水面蒸發(fā)量時,都有大約50%的站點的絕對誤差低于0.4 mm/d,并且絕對誤差從0 到2 mm/d 增加過程中對應站點的所占比例逐漸降低。在3個模型中,Bat?CB模型在全部站點的絕對誤差值中,都有著最高比例小于0.4 mm/d 的分布及最低比例大于2 mm/d的分布。但RF模型在大多數(shù)站點中的表現(xiàn)劣于Bat?CB模型及CB模型。同時,從總體上看,改進的Bat?CB模型相對于CB模型,各個站點的預測能力均有所提升,在蒸發(fā)量較大的情況下,提升更為明顯。因此,Bat?CB模型的整體性能和預測能力強于CB模型和RF模型。

      最后,針對我國西北部干旱、半干旱地區(qū)較大蒸發(fā)量的氣候狀況,本文分析了水面蒸發(fā)的季節(jié)性變化對于模型預測能力及穩(wěn)定性的影響。3種模型預測指標的月平均值見表3。

      目前,大多數(shù)機器學習模型在預測非平衡或有極大數(shù)值的數(shù)據(jù)集時經(jīng)常表現(xiàn)出脆弱性和不穩(wěn)定性[23]。由表3可知,在11月至3月,試驗區(qū)域的蒸發(fā)量較小,3種模型的性能相差不大,但在每年的4月至10月,Bat?CB模型相對于CB模型及RF模型的優(yōu)勢逐漸顯露出來。RF模型在處理不平衡數(shù)據(jù)集時適應性較差的特點,在蒸發(fā)量季節(jié)性變化的預測之中體現(xiàn)得較為明顯。而從平均絕對百分比誤差(MAPE)指標上來看,Bat?CB模型在不同月份間沒有明顯差異,體現(xiàn)出較強的均衡性及穩(wěn)定性。

      表1 本文所選45個氣象站點的地理及氣象信息Tab.1 Geographical and meteorological information of the 45 stations selected for this study

      表2 3種模型在中國西北部水面蒸發(fā)預測中的統(tǒng)計指標表現(xiàn)Tab.2 Statistical indicators of three machine learning models for predicting the pan evaporation in northwest China

      圖2 隨機6個站點中水面蒸發(fā)量的實測值(OBS)及3個模型的預測值(FOR)繪制的散點圖

      因此,綜合上述全部方面,Bat?CB模型整體上表現(xiàn)顯著優(yōu)于CB模型及RF模型,并且在有較大變化的數(shù)據(jù)集中學習和訓練的過程中更為精確和穩(wěn)定,適用于類似于干旱、半干旱地區(qū)水面蒸發(fā)量等有較大變化或季節(jié)性改變的預測領域。

      3 結(jié) 論

      本研究建立了一種新型的耦合了蝙蝠算法的CatBoost機器學習模型(Bat?CB),并評價了該模型在西北干旱、半干旱地區(qū)水面蒸發(fā)量預測中的應用。結(jié)果表明,Bat?CB模型在干旱和半干旱地區(qū)具有較好的準確性和穩(wěn)定性,總體上明顯優(yōu)于CatBoost模型和RF模型。CatBoost模型與RF模型相比具有非常小的優(yōu)勢,并且RF模型對干旱地區(qū)的水面蒸發(fā)等不穩(wěn)定變化的數(shù)據(jù)集的處理能力較差。與原CatBoost模型相比,耦合蝙蝠算法顯著提升了模擬精度。在季節(jié)性分析中,Bat?CB模型在不同月份中具有較好的均衡性,在4月至10月期間較RF模型和CatBoost模型表現(xiàn)出更強的準確度和穩(wěn)定性。然而,本研究沒有考慮氣象輸入和更多氣候類型的參數(shù)組合,此外在極端氣候條件以及氣象資料缺失條件下的模型應用扔有待于進一步研究。

      圖3 3種模型絕對誤差頻率分布直方圖

      表3 測試階段3個模型統(tǒng)計指標的月平均值匯總Tab.3 Monthly average values of statistical indicators generated from the three machine learning models during the testing period

      猜你喜歡
      水面蒸發(fā)蒸發(fā)量蝙蝠
      1958—2013年沽源縣蒸發(fā)量變化特征分析
      1981—2010年菏澤市定陶區(qū)蒸發(fā)量變化特征分析
      新疆于田縣地表水面蒸發(fā)與干旱指數(shù)分析
      新疆民豐縣地表水面蒸發(fā)量分析
      河北東光縣33年來水面蒸發(fā)特性分析
      蝙蝠
      達孜縣夏秋季大小型蒸發(fā)量特征、影響因子與差異分析
      地球(2016年7期)2016-08-23 03:01:35
      干旱區(qū)影響水面蒸發(fā)的氣象因素多元回歸分析
      蝙蝠女
      蝙蝠在黑暗處如何捕食
      惠东县| 竹山县| 乐昌市| 镇原县| 绥中县| 台山市| 南漳县| 福安市| 长葛市| 满洲里市| 永宁县| 荃湾区| 兖州市| 南昌县| 呼和浩特市| 平度市| 云阳县| 顺平县| 深水埗区| 夏津县| 连江县| 偏关县| 松阳县| 微山县| 漳浦县| 德清县| 集安市| 博湖县| 上栗县| 明水县| 呼和浩特市| 大连市| 汝南县| 云龙县| 恩施市| 北宁市| 南木林县| 武定县| 瓦房店市| 阿拉善左旗| 全椒县|