• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于貝葉斯優(yōu)化LightGBM的大壩變形預(yù)測(cè)模型

      2021-07-12 01:09:2223
      關(guān)鍵詞:決策樹貝葉斯大壩

      23

      (1.河海大學(xué) 水利水電學(xué)院,南京 210098; 2.河海大學(xué) 水文水資源與水利工程科學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室,南京 210098; 3.三峽大學(xué) 水利與環(huán)境學(xué)院,湖北 宜昌 443002)

      1 研究背景

      大壩變形是一種直觀可靠的監(jiān)測(cè)指標(biāo),可反映各種荷載作用下的大壩工作性態(tài)變化[1]。建立精準(zhǔn)的大壩變形預(yù)測(cè)模型,對(duì)掌握大壩運(yùn)行狀況,及時(shí)進(jìn)行安全示警具有重要意義。然而大壩在服役期內(nèi)工作條件復(fù)雜,變形具有不確定性、多變等特點(diǎn)[2],傳統(tǒng)模型如多元回歸、逐步回歸等很難準(zhǔn)確預(yù)測(cè)它。此外隨著監(jiān)測(cè)技術(shù)的發(fā)展,采樣頻率直線上升,大量數(shù)據(jù)亟待處理,這對(duì)預(yù)測(cè)模型的數(shù)據(jù)處理能力提出了更高的要求[3]。

      近些年來(lái),機(jī)器學(xué)習(xí)領(lǐng)域眾多方法,如人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等被應(yīng)用于大壩變形預(yù)測(cè)中,并取得良好表現(xiàn)[4-5]。吉培榮等[6]證實(shí)GM(1,1)模型要求原始數(shù)據(jù)平穩(wěn)且滿足指數(shù)分布規(guī)律,預(yù)測(cè)精度受隨機(jī)擾動(dòng)影響大。朱軍桃等[7]提出了改進(jìn)支持向量機(jī)算法,但其回歸性能仍受內(nèi)部參數(shù)很大影響。楊貝貝[8]將小波核函數(shù)與支持向量機(jī)結(jié)合,提出一種新的大壩變形預(yù)測(cè)方法。盧獻(xiàn)健等[9]提出一種結(jié)合遺傳算法和粒子群優(yōu)化算法(PSO)優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)大壩變形預(yù)測(cè)模型。然而這些方法也存在一些弊端,限制了其在工程中的大規(guī)模應(yīng)用,如支持向量機(jī)的回歸性能受內(nèi)部參數(shù)影響大,人工神經(jīng)網(wǎng)絡(luò)易陷入局部最優(yōu)解,大規(guī)模訓(xùn)練樣本時(shí)計(jì)算速度慢,不適用于大規(guī)模監(jiān)測(cè)數(shù)據(jù)處理[10]。

      基于此,本文采用一種快速、高效、分布式的基于決策樹算法的梯度提升框架LightGBM(Light Gradient Boosting Machine)[11],并應(yīng)用一種概率尋優(yōu)方法貝葉斯優(yōu)化確定模型中存在的超參數(shù)[12],以兩座運(yùn)行多年的混凝土壩為例,將所提基于貝葉斯優(yōu)化的LightGBM模型應(yīng)用于大壩變形預(yù)測(cè)中,并與其他方法進(jìn)行對(duì)比,驗(yàn)證模型的合理性和有效性。

      2 貝葉斯優(yōu)化LightGBM框架預(yù)測(cè)原理

      2.1 LightGBM算法原理

      大壩變形預(yù)測(cè)通常需要面臨大規(guī)模的數(shù)據(jù)處理,決策樹可解釋性強(qiáng)且預(yù)測(cè)速度快,因此基于決策樹的算法適用于建立預(yù)測(cè)模型,通過限制梯度提升框架LightGBM的參數(shù)可有效避免決策樹易過擬合的問題。

      梯度提升(Gradient Boosting)指利用損失函數(shù)的負(fù)梯度作為回歸問題提升樹殘差的近似值。提升樹(Boosting Tree)是以二叉樹為基本學(xué)習(xí)器的一種提升方法,采用加法模型與向前分布算法。模型為

      (1)

      式中:T(x;Θm)為決策樹;Θm為決策樹的參數(shù);M為樹的個(gè)數(shù);fM(x)為提升樹。

      通過最小化損失函數(shù)Loss(y,fm(x))來(lái)確定決策樹T(x;Θm)的參數(shù):

      argminΘmLoss(y,fm-1(x)+T(x;Θm)) 。

      (2)

      梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)結(jié)合梯度提升和決策樹的特性,效果好且不易出現(xiàn)過擬合。假設(shè)一段大壩數(shù)據(jù)集,即

      D={(xi,yi),i=1,2,…,N,xi∈Rs,yi∈R}。

      式中:N為序列長(zhǎng)度;yi為大壩位移;xi為影響大壩位移因素;s為每個(gè)樣本特征個(gè)數(shù);R為實(shí)數(shù)集。

      計(jì)算步驟大體上分為2步,即初始化和得到最終模型。

      初始化可得f0(x),即

      (3)

      式中c為使損失函數(shù)極小化的常數(shù)值。

      (1)進(jìn)行迭代,迭代次數(shù)m可取1,2,…,M。

      (2)計(jì)算殘差rm,i,即

      (4)

      (3)對(duì)(xi,rm,i)擬合一個(gè)回歸樹,得到第m棵樹的葉節(jié)點(diǎn)區(qū)域Rm,j,j=1,2,…,J,J為節(jié)點(diǎn)區(qū)域個(gè)數(shù),計(jì)算參數(shù)cm,j,即

      (5)

      (4)更新回歸樹,即

      (6)

      式中I為回歸樹更新時(shí)參與迭代的參數(shù)。

      得到最終模型,即

      (7)

      GBDT算法處理數(shù)據(jù)時(shí)需要儲(chǔ)存特征值及排序結(jié)果等,時(shí)間和空間消耗大,應(yīng)用于大壩變形預(yù)測(cè)研究受到很大限制。LightGBM是對(duì)GBDT的一種改進(jìn),具體如下:采用histogram算法減少內(nèi)存消耗,降低計(jì)算代價(jià);帶深度限制的Leaf-wise的葉子生長(zhǎng)策略替代傳統(tǒng)的level-wise策略,每次尋找分裂增益最大的葉子分裂,可降低誤差,提高大壩預(yù)測(cè)精度。此外,LightGBM的兩個(gè)核心技術(shù)很大程度上提高了運(yùn)算速度,滿足大壩監(jiān)測(cè)數(shù)據(jù)處理要求。具體為:基于梯度單邊采樣技術(shù)(Gradient-based One-Side Sample, GOSS),保留大梯度數(shù)據(jù),對(duì)小梯度數(shù)據(jù)隨機(jī)抽樣,保持信息增益的同時(shí)提高泛化能力;采用特征捆綁(Exclusive Feature Bundling, EFB)技術(shù)實(shí)現(xiàn)互斥特征的捆綁,降低數(shù)據(jù)特征規(guī)模[13]。

      2.2 貝葉斯優(yōu)化算法框架

      應(yīng)用LightGBM模型進(jìn)行大壩變形預(yù)測(cè)時(shí),需要確定最優(yōu)超參數(shù)組合??紤]到機(jī)器學(xué)習(xí)易陷入局部最優(yōu)解問題,本文引入一種全局優(yōu)化算法——貝葉斯優(yōu)化算法(Bayesian Optimization Algorithm,BOA)進(jìn)行模型參數(shù)尋優(yōu)。貝葉斯優(yōu)化算法以貝葉斯定理為基礎(chǔ),通過最大化采集函數(shù)得到下一個(gè)最有潛力的評(píng)估點(diǎn)xt,進(jìn)而評(píng)估目標(biāo)函數(shù)值yt,將新得到的(xt,yt)添加到已知評(píng)估點(diǎn)集合中,更新概率代理模型依次循環(huán)從而得到最優(yōu)解[14-15]。由于貝葉斯優(yōu)化算法可以充分利用歷史信息,其效率明顯高于其他尋優(yōu)方法。

      概率代理模型和采集函數(shù)是貝葉斯優(yōu)化的兩個(gè)核心部分。概率代理模型分為參數(shù)模型及非參數(shù)模型兩大類,非參數(shù)模型具有更高的擴(kuò)展性,通常能取得滿意的預(yù)測(cè)結(jié)果,其中以高斯過程(Gaussian Process, GP)應(yīng)用最為廣泛。采集函數(shù)指從輸入、觀測(cè)、超參數(shù)空間映射到實(shí)數(shù)空間的函數(shù),需要平衡利用與探索之間的關(guān)系,權(quán)衡評(píng)估點(diǎn)的分布。

      2.2.1 概率代理模型

      高斯過程是一個(gè)隨機(jī)變量的集合,一個(gè)高斯過程構(gòu)成為

      f(x)~GP(m(x),k(x,x′)) 。

      (8)

      式中:m(x)為均值函數(shù),m(x)=E[f(x)],通常設(shè)置為0;k(x,x′)為協(xié)方差函數(shù),k(x,x′)=E[(f(x)-m(x))(f(x′)-m(x′))];f(x)為一個(gè)連續(xù)函數(shù);x′為隨機(jī)變量。

      考慮0均值的先驗(yàn)分布p(f|X,θ)為

      p(f|X,θ)=N(0,∑) 。

      (9)

      式中:X為訓(xùn)練集;f為未知函數(shù)的函數(shù)值集合;∑為k(x,x′)構(gòu)成的矩陣。

      存在觀測(cè)噪聲ε時(shí),p(ε)=N(0,σ2),σ2為方差,得到似然分布為

      p(y|f)=N(f,σ2I) 。

      (10)

      式中:y為觀測(cè)值集合;I為單位矩陣。

      進(jìn)而得到邊界似然分布為

      p(y|X,θ)=N(0,∑+σ2I) 。

      (11)

      根據(jù)高斯過程性質(zhì),可得到

      (12)

      p(f*|X,y,X*)=N(〈f*〉,cov(f*)) ; (13)

      (14)

      式中:〈f*〉為預(yù)測(cè)均值;cov(f*)表示預(yù)測(cè)協(xié)方差。

      2.2.2 采集函數(shù)

      采集函數(shù)是確定下一評(píng)估點(diǎn)的重要依據(jù),選用基于置信區(qū)間策略(GP-UCB)時(shí)下一個(gè)評(píng)估點(diǎn)為

      (16)

      式中:參數(shù)βt為平衡探索和開發(fā)的常數(shù);μt(x)為均值;σt(x)為標(biāo)準(zhǔn)差。

      2.3 基于貝葉斯優(yōu)化LightGBM 的預(yù)測(cè)模型

      2.3.1 模型執(zhí)行步驟

      利用貝葉斯優(yōu)化對(duì)LightGBM進(jìn)行參數(shù)尋優(yōu)時(shí),以LightGBM的不同超參數(shù)組合作為自變量x,以五折交叉驗(yàn)證評(píng)估得到的均方誤差(MSE)作為貝葉斯框架的輸出f。貝葉斯優(yōu)化LightGBM的大壩變形預(yù)測(cè)模型具體步驟如圖1所示。

      圖1 LightGBM大壩變形預(yù)測(cè)流程

      2.3.2 評(píng)估指標(biāo)

      為衡量大壩變形預(yù)測(cè)模型的精度優(yōu)劣,選取決定系數(shù)(R2)、均方根誤差(RMSE)和平均絕對(duì)誤差(MAE)3個(gè)指標(biāo)進(jìn)行評(píng)價(jià),其計(jì)算公式分別為:

      (17)

      (18)

      (19)

      3 實(shí)例應(yīng)用

      某混凝土重力拱壩最大壩高為76.3 m,壩頂弧長(zhǎng)419 m,壩頂寬8 m,最大壩底寬53.5 m。選取PL26-1及PL8-2兩垂線測(cè)點(diǎn)為例分析,此外為驗(yàn)證所提模型的適用性,對(duì)某重力壩亦選取兩引張線測(cè)點(diǎn)EX5-2、EX6-2。本文運(yùn)行平臺(tái)為AMD2600 CPU,32 G內(nèi)存,編程語(yǔ)言為Python,基于KERAS深度學(xué)習(xí)框架進(jìn)行數(shù)據(jù)處理、參數(shù)選擇及建立LightGBM模型。采用多元線性回歸(Multiple Linear Regression,MLR)、支持向量回歸機(jī)(Support Vector Regression,SVR)、多層神經(jīng)網(wǎng)絡(luò)(Multi-Layer Perceptron,MLP)作為對(duì)比方法,驗(yàn)證其優(yōu)越性。

      3.1 數(shù)據(jù)處理

      3.2 參數(shù)選擇

      本文中LightGBM算法包括學(xué)習(xí)率learning_rate、最大深度max_depth、子葉個(gè)數(shù)num_leaves以及子葉最小數(shù)據(jù)數(shù)min_data_in_leaf共4個(gè)參數(shù)。給定的參數(shù)范圍內(nèi),分別采用貝葉斯優(yōu)化和隨機(jī)搜索優(yōu)化,以五折交叉驗(yàn)證的均方誤差(Mean Squared Error,MSE)作為目標(biāo)函數(shù),控制迭代次數(shù)為100次,得到LightGBM 參數(shù)及優(yōu)化值,如表1所示。

      表1 LightGBM 參數(shù)及優(yōu)化值

      為便于比較,繪制訓(xùn)練集MSE變化曲線,見圖2。迭代100次隨機(jī)搜索用時(shí)110 s,在第55次尋得最優(yōu),貝葉斯優(yōu)化用時(shí)65 s,在第35次尋得最優(yōu),且隨機(jī)搜索MSE值0.222 mm2仍大于貝葉斯優(yōu)化MSE值0.128 mm2。實(shí)驗(yàn)結(jié)果表明,貝葉斯優(yōu)化能夠根據(jù)采樣點(diǎn)的結(jié)果進(jìn)行調(diào)整主動(dòng)尋優(yōu),在搜索過程中整體穩(wěn)定,在較少時(shí)間內(nèi)得到最優(yōu)參數(shù)組合,而隨機(jī)搜索依賴于迭代次數(shù);最優(yōu)參數(shù)組合的出現(xiàn)具有隨機(jī)性、效率低等特點(diǎn);本次實(shí)驗(yàn)中貝葉斯優(yōu)化表現(xiàn)優(yōu)于隨機(jī)搜索(圖3),在LightGBM的參數(shù)尋優(yōu)中更具優(yōu)勢(shì)。

      圖2 訓(xùn)練集MSE變化曲線

      圖3 不同優(yōu)化方法模型評(píng)價(jià)指標(biāo)對(duì)比

      3.3 預(yù)測(cè)結(jié)果分析

      采用上述建立的BOA-LightGBM模型對(duì)大壩位移進(jìn)行預(yù)測(cè),將預(yù)測(cè)值與多元線性回歸(MLR)、支持向量回歸機(jī)(SVR)以及多層神經(jīng)網(wǎng)絡(luò)(MLP)進(jìn)行對(duì)比,各模型參數(shù)及預(yù)測(cè)結(jié)果如表2所示。表2中c′為支持向量回歸機(jī)SVR的懲罰系數(shù),gamma是SVR中反映數(shù)據(jù)映射到新的特征空間后的分布的參數(shù),Hidden-layer-sizes是MLP的隱藏層神經(jīng)元數(shù)目。

      表2 不同模型參數(shù)比較

      從圖4、圖5可以看出,BOA-LightGBM模型的預(yù)測(cè)值與實(shí)測(cè)值變化趨勢(shì)整體一致,且在真實(shí)值附近上下均勻波動(dòng),對(duì)比其他模型,雖然預(yù)測(cè)值趨勢(shì)一致,但曲線較光滑不能反映真實(shí)值的波動(dòng)情況。分析圖5中殘差可以看出,相比于其他預(yù)測(cè)模型,BOA-LightGBM預(yù)測(cè)殘差均值小,且分布集中,說明模型預(yù)測(cè)結(jié)果較好。

      圖4 不同模型大壩位移預(yù)測(cè)結(jié)果與實(shí)測(cè)值比較

      圖5 不同模型預(yù)測(cè)殘差

      由表3可知,在R2、MAE及RMSE指標(biāo)中,BOA-LightGBM預(yù)測(cè)模型均優(yōu)于SVR、MLP、MLR等模型,即BOA-LightGBM模型精度較高。

      表3 重力拱壩測(cè)點(diǎn)不同預(yù)測(cè)模型結(jié)果比較

      如表4所示,所提模型在3種評(píng)價(jià)指標(biāo)下均具有良好表現(xiàn),顯著優(yōu)于傳統(tǒng)統(tǒng)計(jì)模型MLR。綜上所述,本文基于BOA-LightGBM的大壩變形預(yù)測(cè)模型具有較高的精度和很好的泛化能力。

      表4 重力壩測(cè)點(diǎn)結(jié)果比較

      此外,LightGBM可以輸出各個(gè)特征對(duì)預(yù)測(cè)結(jié)果的貢獻(xiàn)程度,圖6為PL26-1測(cè)點(diǎn)各影響因素重要性分布,可以看出時(shí)效因子θ、水位因子H以及4個(gè)溫度因子對(duì)結(jié)果影響顯著,這是由于該測(cè)點(diǎn)附近存在貫穿裂縫,與該重力拱壩實(shí)際狀況相符[16]。而PL8-2測(cè)點(diǎn)水位因子H貢獻(xiàn)度為23.25%,時(shí)效因子θ貢獻(xiàn)度為14.43%,驗(yàn)證了該模型的可靠性。

      圖6 大壩預(yù)測(cè)模型各特征因素貢獻(xiàn)度

      4 結(jié) 論

      本文提出了一種基于LightGBM的大壩變形預(yù)測(cè)模型,該模型改善了現(xiàn)存模型適用于小樣本、易陷入局部最優(yōu)等問題,得到如下結(jié)論:

      (1) 與隨機(jī)搜索相比,貝葉斯優(yōu)化可充分利用歷史信息,減少不必要的目標(biāo)函數(shù)評(píng)估,提高參數(shù)搜索效率。

      (2) 提出一種基于貝葉斯優(yōu)化與五折交叉驗(yàn)證的模型搜索方案,結(jié)合LightGBM模型應(yīng)用于大壩變形預(yù)測(cè)中,與其他模型相比,所提模型具有更高的預(yù)測(cè)精度和泛化能力,在3種定量評(píng)估指標(biāo)中均取得最好表現(xiàn)。

      (3) LightGBM可對(duì)輸入?yún)?shù)的重要性進(jìn)行評(píng)估,對(duì)影響大壩變形的特征進(jìn)行篩選,從而確定對(duì)大壩變形影響更顯著的因素,為后續(xù)的安全評(píng)估工作提供參考。

      猜你喜歡
      決策樹貝葉斯大壩
      一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
      決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      大壩:力與美的展現(xiàn)
      貝葉斯公式及其應(yīng)用
      幫海貍建一座大壩
      大壩
      基于決策樹的出租車乘客出行目的識(shí)別
      基于貝葉斯估計(jì)的軌道占用識(shí)別方法
      一種基于貝葉斯壓縮感知的說話人識(shí)別方法
      電子器件(2015年5期)2015-12-29 08:43:15
      基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
      灵川县| 水富县| 克拉玛依市| 武平县| 凉山| 寻乌县| 巧家县| 尼玛县| 甘南县| 山东省| 遵义县| 迭部县| 仙居县| 上栗县| 建平县| 荥经县| 平谷区| 新竹市| 玛沁县| 高雄市| 台北市| 泰来县| 建德市| 彭泽县| 阜新市| 侯马市| 望城县| 保山市| 庆元县| 阿克| 射阳县| 仙桃市| 托克托县| 红安县| 山阴县| 栾城县| 县级市| 乐昌市| 九台市| 汨罗市| 红安县|