• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于隨機森林回歸分析的徑流預(yù)報模型

      2018-10-15 08:53:48
      水利水電快報 2018年9期
      關(guān)鍵詞:徑流重要性精度

      (河南省南陽水文水資源勘測局,河南 南陽 473000)

      徑流預(yù)報是水利水電工程設(shè)計、施工和運行管理的重要依據(jù),在防洪減災(zāi)、水資源優(yōu)化配置等方面發(fā)揮著顯著的作用[1]。因此準(zhǔn)確有效地延長徑流預(yù)見期、提高徑流預(yù)報精度有著至關(guān)重要的意義[2-3]。目前,水文學(xué)者對徑流及其影響因子的關(guān)系進行了大量的研究[4-6],常用的有多元回歸模型、逐步回歸模型、最小二乘法等,但是受天文、氣候、植被、地質(zhì)地貌等因素的影響,水文預(yù)報呈現(xiàn)出隨機性、高維性、模糊性等特點[7]。隨機森林回歸(Random Forest Regression,RFR)算法是由L. Breiman等[8]于2001年共同提出的一種基于決策樹的集成學(xué)習(xí)算法,可以同時處理連續(xù)、離散屬性,具有運行效率高、防止過擬合、強穩(wěn)健性和抗噪性等優(yōu)點,但是該方法在水文領(lǐng)域應(yīng)用較少。因此,本文選取1970~2010年西峽水文站年降水量、年蒸發(fā)量、年平均流量、年均氣溫、年均相對濕度和年均氣壓作為預(yù)報因子,基于R語言構(gòu)建隨機森林回歸算法,建立徑流預(yù)測模型,為實際工程中徑流預(yù)測問題的研究提供技術(shù)支撐。

      1 數(shù)據(jù)和方法

      1.1 數(shù)據(jù)來源

      本文的分析數(shù)據(jù)主要來源于西峽水文站1970~2010年的水文及氣象數(shù)據(jù),主要包括流量、徑流量、降水量、蒸發(fā)量、氣溫、相對濕度和氣壓等資料。西峽水文站系長江流域丹江水系老灌河干流上的主要控制站,為國家級一類站,控制流域面積3 418 km2,區(qū)間干流長度165 km,多年來平均降水量846 mm。

      1.2 隨機森林回歸

      (2)隨機子空間。在構(gòu)建回歸決策樹的過程中,每個分裂節(jié)點在特征空間中隨機選擇若干特征構(gòu)建特征子空間,并選出最優(yōu)特征子空間進行分裂,保證樹的獨立性和隨機性。在RFR中,樹的個數(shù)(ntree)和隨機特征數(shù)(mtry)決定著模型的最終預(yù)測能力。

      1.2.1 預(yù)報模型構(gòu)建

      (1)樣本劃分。以選取的6個預(yù)報因子作為解釋變量,以西峽水文站年徑流作為目標(biāo)變量,劃分1970~2000年數(shù)據(jù)為訓(xùn)練樣本,2000~2010年數(shù)據(jù)為驗證樣本,采用訓(xùn)練樣本構(gòu)建預(yù)報模型,利用檢驗樣本對模型預(yù)報精度進行評價。

      (2)預(yù)報模型構(gòu)建?;赗語言的randomForest函數(shù)構(gòu)建隨機森林模型[9],其中mtry默認(rèn)為輸入變量的1/3,本文選取變量有6個,則mtry值取2。通過實驗得到不同決策樹個數(shù)的模型誤差與ntree的關(guān)系(如圖1所示),模型錯誤率隨著ntree的增加逐漸降低,錯誤率在ntree為300時達到最低(2.92%),之后隨著ntree值的增加,模型的錯誤率仍保持較低且穩(wěn)定的狀態(tài)。該特征充分證明了RFR算法具有防止過擬合的能力。

      圖1 不同ntree對應(yīng)的模型錯誤率

      考慮到模型的精度和運算效率問題,實驗最終選擇mtry=2,ntree=300進行建模。

      1.2.2 模型變量重要性評價

      RFR通過計算解釋方差百分比(variance explained)來評價模型的預(yù)測能力。用方差增量(increase in mean squared error,IncMSE)以及節(jié)點純度增量(increase in node purity, IncNodePurity)兩個指標(biāo)來定性衡量特征變量對目標(biāo)變量的重要性。IncMSE為采用隨機變量替換某一變量對模型預(yù)測結(jié)果的影響,若該隨機變量使方差顯著改變,則表示原變量相當(dāng)重要;IncNodePurity則利用同質(zhì)性增加原理來衡量變量的重要性[9]。

      1.2.3 模型評價與檢驗

      本文通過評價模型的擬合效果和檢驗?zāi)P皖A(yù)測結(jié)果來評價模型的預(yù)測能力。通過計算RFR模型的決定系數(shù)(R2)和均方根誤差(RMSE)來評價模型的擬合效果[10]。

      (1)

      (2)

      分別對RFR模型預(yù)測結(jié)果進行檢驗,通過計算總體相對誤差(Rs)、平均相對誤差(E)、平均相對誤差絕對值(E′)3個統(tǒng)計量指標(biāo)以及精度P來評價模型的預(yù)測能力[10]。

      (3)

      (4)

      (5)

      (6)

      2 結(jié)果分析

      2.1 特征變量重要性評價

      隨機森林算法可以用來評估所選特征變量的重要性,有效避免了一般回歸問題面臨的多元共線性問題[11]。本文特征變量的重要性評價如表1所示??梢钥闯瞿昶骄髁?、年蒸發(fā)量、年降水量、年平均相對濕度對于徑流模型的預(yù)報有較大的貢獻。

      表1 RFR模型變量重要性評價 %

      2.2 精度評價分析

      2.2.1 模型評價

      通過實驗得到預(yù)測模型的均方根誤差(RMSE)為 0.0382,決定系數(shù)(R2)為0.89,可知模型預(yù)測精度較好。

      2.2.2 模型檢驗

      RFR模型預(yù)測結(jié)果如表2所示,檢驗數(shù)據(jù)的平均相對誤差在16%以內(nèi),精度較高。

      表2 徑流量模型預(yù)測檢驗結(jié)果

      通過計算模型偏差統(tǒng)計量評價模型的預(yù)測能力,結(jié)果如表3所示,可以看出模型預(yù)報能力較好。

      表3 模型總體預(yù)測結(jié)果檢驗

      3 結(jié) 論

      (1)本文建立的RFR徑流預(yù)報模型R2為 0.89,RMSE為 0.038 2,模型的擬合效果較好;模型預(yù)測結(jié)果的總相對誤差為0.034,預(yù)測精度P為91.52%。綜上表明本文構(gòu)建的RFR徑流預(yù)報模型預(yù)報能力較好。

      (2)在多樣本、多指標(biāo)、復(fù)雜的水文預(yù)報問題處理中,RFR算法可以評估各個特征變量的重要性,對離群值不敏感,在隨機干擾較多的情況下表現(xiàn)穩(wěn)健,且不易產(chǎn)生過度擬合。而且RFR算法包含估計缺失值的算法,在水文資料存在缺失的情況下(1971~1975年有資料缺失)能夠彌補缺失值,使預(yù)測結(jié)果仍可維持較高的精度。

      猜你喜歡
      徑流重要性精度
      “0”的重要性
      論七分飽之重要性
      幼兒教育中閱讀的重要性
      甘肅教育(2020年21期)2020-04-13 08:09:24
      基于DSPIC33F微處理器的采集精度的提高
      電子制作(2018年11期)2018-08-04 03:25:38
      Topmodel在布哈河流域徑流模擬中的應(yīng)用
      GPS/GLONASS/BDS組合PPP精度分析
      讀《邊疆的重要性》有感
      探秘“大徑流”
      攻克“大徑流”
      改進的Goldschmidt雙精度浮點除法器
      历史| 襄城县| 林甸县| 万州区| 肥乡县| 漯河市| 四会市| 麻栗坡县| 万全县| 高邮市| 汶川县| 庆城县| 桓仁| 汽车| 明水县| 宜昌市| 蒙山县| 桐梓县| 天峻县| 阿勒泰市| 台北县| 清涧县| 金沙县| 仁寿县| 平安县| 酒泉市| 桐梓县| 西乌珠穆沁旗| 松阳县| 磴口县| 积石山| 施秉县| 屏山县| 保康县| 嵊泗县| 宁河县| 大足县| 密山市| 辉县市| 怀来县| 田阳县|