• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于隨機(jī)森林的復(fù)坡堤越浪量預(yù)測(cè)研究

      2021-12-04 15:24:44胡原野王收軍陳松貴柳葉王家偉田昀艷
      海洋學(xué)報(bào) 2021年10期
      關(guān)鍵詞:越浪特征參數(shù)決策樹

      胡原野,王收軍,陳松貴,柳葉,王家偉,田昀艷

      (1.天津理工大學(xué) 機(jī)電工程國(guó)家級(jí)實(shí)驗(yàn)教學(xué)示范中心,天津 300384;2.交通運(yùn)輸部天津水運(yùn)工程科學(xué)研究院 港口水工建筑技術(shù)國(guó)家工程實(shí)驗(yàn)室,天津 300456)

      1 引言

      防波堤作為港口建設(shè)中一種重要的水工建筑,對(duì)保護(hù)堤后建筑起著重要的作用。越浪量是指波浪越過(guò)防波堤的水量,通常用單位寬度上每秒水體越過(guò)防波堤的水量來(lái)度量。越浪量是防波堤設(shè)計(jì)的重要指標(biāo),對(duì)堤后結(jié)構(gòu)物和堤面的安全有直接的影響。復(fù)坡堤是最為常見的防波堤類型之一,相比于單坡堤,其結(jié)構(gòu)更為復(fù)雜,越浪量的計(jì)算更為困難;且目前國(guó)內(nèi)尚無(wú)規(guī)范可循。本文提出了一種有效精確的復(fù)坡堤越浪量估算方法,對(duì)防波堤設(shè)計(jì)及提高防波堤安全性具有重要的意義。

      國(guó)內(nèi)外學(xué)者在越浪量方面的研究都做了很多的工作。對(duì)越浪量估算方法的研究大體分為3類:經(jīng)驗(yàn)公式法、數(shù)值模擬法和機(jī)器學(xué)習(xí)法。經(jīng)驗(yàn)公式法主要是通過(guò)建立實(shí)驗(yàn)?zāi)P?,?duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析,然后總結(jié)出經(jīng)驗(yàn)公式;數(shù)值模擬法利用計(jì)算機(jī)建立研究模型,結(jié)合有限元,通過(guò)數(shù)值計(jì)算的方法實(shí)現(xiàn)對(duì)問(wèn)題的研究;機(jī)器學(xué)習(xí)法將訓(xùn)練樣本數(shù)據(jù)植入到計(jì)算機(jī)中,通過(guò)機(jī)器學(xué)習(xí)算法來(lái)模擬人類學(xué)習(xí)的過(guò)程,以此來(lái)實(shí)現(xiàn)對(duì)新樣本的預(yù)測(cè)。王紅等[1]通過(guò)物理實(shí)驗(yàn)分析了單坡堤上不規(guī)則波越浪量的相關(guān)因子,并由建筑物形態(tài)和波浪特征來(lái)確定越浪量,其成果被《港口與航道水文規(guī)范》[2]采納;范紅霞[3]通過(guò)搜集多種防波堤類型資料,建立水槽物理實(shí)驗(yàn),分析了各影響因素對(duì)越浪量的影響,并給出了一種計(jì)算越浪量的方法。陳國(guó)平等[4]通過(guò)物理實(shí)驗(yàn)分析了不規(guī)則波作用下的越浪量,并發(fā)現(xiàn)影響越浪量和波浪爬高的因素基本相同,從而提出了不規(guī)則波作用下越浪量計(jì)算公式。陳松貴等[5]和Liu等[6]通過(guò)水槽實(shí)驗(yàn)分別研究了規(guī)則波和不規(guī)則波作用下島礁陡變地形上直立堤越浪規(guī)律,給出了平均越浪量的計(jì)算公式。Owen[7]在不考慮斜坡粗糙度的情況下,通過(guò)一系列實(shí)驗(yàn)推導(dǎo)出越浪量計(jì)算公式。van de Meer等[8]對(duì)斜坡堤越浪量做了大量的工作,綜合考慮了防波堤參數(shù)和波浪參數(shù)的影響,提出了斜坡堤上平均越浪量公式,該公式被歐洲大多數(shù)國(guó)家使用。美國(guó)《海岸工程手冊(cè)》中采用的就是Ward和Ahrens[9]通過(guò)實(shí)驗(yàn)計(jì)算的越浪量公式。舒葉華等[10]通過(guò)對(duì)復(fù)式結(jié)構(gòu)海堤越浪量進(jìn)行研究,比較了國(guó)內(nèi)外常見的復(fù)式海堤的越浪量計(jì)算方法。Oliveira等[11]基于粒子有限元法(PFEM)建立了數(shù)值波浪水槽模型,模擬了不可滲透海堤的越浪過(guò)程,給出了一種求解越浪量的工具。關(guān)大瑋[12]應(yīng)用 FLOW-3D 建立了可模擬規(guī)則波和不規(guī)則波浪的三維數(shù)值水槽,并模擬了復(fù)坡堤上越浪過(guò)程,將結(jié)果與實(shí)驗(yàn)數(shù)據(jù)對(duì)比,吻合較好。董志等[13]采用數(shù)值模擬的方法,利用RANS方程和VOF法建立數(shù)值波浪水槽,針對(duì)復(fù)式海堤分別進(jìn)行了規(guī)則波和不規(guī)則波越浪的數(shù)值模擬。而van Gent等[14]采用了人工神經(jīng)網(wǎng)絡(luò)的方法對(duì)越浪量做了預(yù)測(cè),并給出越浪量在不同置信區(qū)間的值。Formentin等[15]在前人的基礎(chǔ)上增加了模型的輸入?yún)?shù),對(duì)模型做了進(jìn)一步的完善。劉詩(shī)學(xué)等[16]采用人工神經(jīng)網(wǎng)絡(luò)方法對(duì)單坡式防波堤越浪量做了估算Liu等[17]通過(guò)使用深水波參數(shù)作為輸入開發(fā)了一種反向傳播的人工神經(jīng)網(wǎng)絡(luò)模型,來(lái)預(yù)測(cè)珊瑚礁上不透水的垂直海堤的越浪量。傳統(tǒng)的經(jīng)驗(yàn)公式法通常需要消耗大量的人力、物力資源,且公式的推導(dǎo)過(guò)程較為繁瑣;數(shù)值模擬法通常需要為了達(dá)到相應(yīng)的精度,而需要非常大的計(jì)算量,對(duì)計(jì)算機(jī)性能要求較高;神經(jīng)網(wǎng)絡(luò)方法在經(jīng)濟(jì)效益方面具有一定優(yōu)勢(shì),但是仍存在一些不足之處,比如全局參數(shù)搜索比較困難,對(duì)奇異樣本敏感,容易陷入局部最優(yōu)。

      隨機(jī)森林是近幾年來(lái)興起的一種基于統(tǒng)計(jì)學(xué)的人工智能算法。它基于決策樹結(jié)構(gòu)組成的強(qiáng)學(xué)習(xí)器,是一種集成學(xué)習(xí)算法,該算法對(duì)異常數(shù)據(jù)有較高的容忍性,且能夠直接處理高維度樣本[18]。目前,該方法極少應(yīng)用于越浪量預(yù)測(cè)方面。本文提出利用隨機(jī)森林算法預(yù)測(cè)越浪量,為越浪量的計(jì)算提供了一種新的方法。

      2 數(shù)據(jù)獲取與處理

      2.1 CLASH 數(shù)據(jù)集介紹

      “CLASH”是歐盟啟動(dòng)的一個(gè)項(xiàng)目計(jì)劃,它搜集了各國(guó)有關(guān)越浪量的實(shí)驗(yàn)數(shù)據(jù),組成了較為豐富的越浪量數(shù)據(jù)集。該數(shù)據(jù)集有1萬(wàn)多條數(shù)據(jù),包含了多種防波堤類型,每條數(shù)據(jù)都包含波要素參數(shù)、越浪量和防波堤結(jié)構(gòu)參數(shù)。此外,數(shù)據(jù)集包含有關(guān)實(shí)驗(yàn)可靠性和結(jié)構(gòu)復(fù)雜性的一些信息,RF表示實(shí)驗(yàn)可靠性,取值在1~4之間,RF值越小說(shuō)明實(shí)驗(yàn)可信度越高,相反則說(shuō)明實(shí)驗(yàn)可靠性越低;CF表示斷面的復(fù)雜度,取值在1~4之間,CF值越大表示斷面越復(fù)雜,反之亦然。

      2.2 數(shù)據(jù)處理

      本文主要研究復(fù)坡堤越浪量,根據(jù)復(fù)坡堤的結(jié)構(gòu)特點(diǎn),選取以下參數(shù):堤前有效波高Hm0,t、堤前譜周期Tm?1,0,t、 波浪入射角 β、堤前水深h、坡度m、堤腳浸沒水深ht、 堤腳寬度Bt、護(hù)面塊體粗糙度 γf、平臺(tái)以下結(jié)構(gòu)與水平面正切值 co tαd、平臺(tái)寬度B、平臺(tái)上水深hb、波浪爬高范圍內(nèi)的平均坡度(包含平臺(tái)) c otαincl、護(hù)面塊體的平均粒徑D、堤頂高程Ac、 胸墻頂高程Rc、肩臺(tái)寬度Gc。結(jié)構(gòu)示意圖如圖1所示。

      圖1 復(fù)坡堤參數(shù)示意圖Fig.1 Schematic diagram of composite slope breakwater parameters

      數(shù)據(jù)處理是指對(duì)數(shù)據(jù)集進(jìn)行篩選、整理,刪除錯(cuò)誤、無(wú)效和有缺失值的數(shù)據(jù)。經(jīng)過(guò)一系列處理,將原始數(shù)據(jù)變?yōu)榭晒┠P椭苯邮褂玫臄?shù)據(jù)。其方法如下:

      (1)刪除標(biāo)簽為 Non-core data 的數(shù)據(jù);

      (2)刪除q<10?6m3/(s·m)的數(shù)據(jù);

      (3)刪除有缺失值的數(shù)據(jù);

      (4)刪除CF=4和RF=4的數(shù)據(jù)行。

      經(jīng)過(guò)對(duì)數(shù)據(jù)的處理,用于模型使用的數(shù)據(jù)量為2 462 條。

      2.3 無(wú)量綱化

      由于越浪量數(shù)據(jù)集是在特定的實(shí)驗(yàn)條件下測(cè)量的,會(huì)存在不同組次數(shù)據(jù)的比尺不同,為了消除實(shí)驗(yàn)?zāi)P捅瘸吆蛿?shù)據(jù)量綱之間的差異,需要對(duì)數(shù)據(jù)進(jìn)行無(wú)量綱化。對(duì)于每條數(shù)據(jù),根據(jù)求出波長(zhǎng),然后按以下方法進(jìn)行無(wú)量綱化:

      (1)計(jì)算出Hm0,t/Lm?1,0,t;

      (2)計(jì)算出h/Lm?1,0,t;

      (3)水平方向參數(shù)除以波長(zhǎng);

      (4)豎直方向參數(shù)除以波高;

      (5)角度和地貌參數(shù)保持不變;

      (6)越浪量采用EurOtop手冊(cè)[18]中方法進(jìn)行無(wú)量綱化,并對(duì)其進(jìn)行歸一化

      式中,q為越浪量 (m3/(s·m));Hm0,t為堤前有效波高(m);g為重力常量,取 9 .8 m/s2;qAD為無(wú)量綱化后的越浪量(m3/(s·m));q?為歸一化后的越浪量 (m3/(s·m))。

      3 隨機(jī)森林算法

      3.1 隨機(jī)森林原理

      隨機(jī)森林是一種基于決策樹模型的集成學(xué)習(xí)算法,通過(guò)對(duì)樣本數(shù)據(jù)隨機(jī)抽樣組成多個(gè)不同的決策樹,再把決策樹計(jì)算結(jié)果通過(guò)某種組合策略來(lái)獲得隨機(jī)森林的預(yù)測(cè)結(jié)果。隨機(jī)森林可以看作是決策樹的整合擇優(yōu)。因此,隨機(jī)森林通常比單純的決策樹模型具有更好的擬合能力,且隨機(jī)森林在分類問(wèn)題和回歸問(wèn)題上都具有較好的效果。本文建立的越浪量預(yù)測(cè)模 型就是隨機(jī)森林在回歸問(wèn)題上的體現(xiàn)。

      3.1.1 決策樹

      決策樹是隨機(jī)森林的基本組成單元,也是一種機(jī)器學(xué)習(xí)算法,它的建立過(guò)程基于樹形結(jié)構(gòu),主要由內(nèi)部節(jié)點(diǎn)、樹枝和葉節(jié)點(diǎn)組成。如圖2所示,最上面的是根節(jié)點(diǎn),嚴(yán)格來(lái)說(shuō),根節(jié)點(diǎn)也屬于內(nèi)部節(jié)點(diǎn)。樹的建立過(guò)程就是節(jié)點(diǎn)分化的過(guò)程,每一次節(jié)點(diǎn)劃分都會(huì)得到對(duì)應(yīng)的輸出,即經(jīng)過(guò)分化多了一個(gè)節(jié)點(diǎn)。經(jīng)過(guò)有限次的條件劃分結(jié)束后,最終每個(gè)單元的輸出也就確定了,即葉節(jié)點(diǎn)。一般來(lái)說(shuō),隨著模型復(fù)雜程度的提高,決策樹也隨之長(zhǎng)得很大。

      圖2 決策樹基本結(jié)構(gòu)示意圖Fig.2 Schematic diagram of the basic structure of the decision tree

      決策樹理論的核心就是如何最優(yōu)地確定切分點(diǎn)。隨著決策樹的逐漸長(zhǎng)大,樣本劃分的也越來(lái)越細(xì),也就是各節(jié)點(diǎn)的樣本純度也會(huì)越高(即越來(lái)越趨于同一類)。每次逐步劃分當(dāng)前所有特征中的所有取值,然后基于平方誤差最小化準(zhǔn)則選擇最優(yōu)的切分點(diǎn)。比如切分點(diǎn)為訓(xùn)練集中第j個(gè)特征變量x(j),且x(j)的值為s,定義區(qū)域和區(qū)域然后確定j和s,使得平方誤差最小,即求解下式[19]

      式中,yi為輸出變量;為在區(qū)域R1上yi的均值;為在區(qū)域R2上yi的均值。

      在確定出最優(yōu)的 (j,s)后,該節(jié)點(diǎn)就會(huì)劃分為兩個(gè)子節(jié)點(diǎn),然后對(duì)每個(gè)子節(jié)點(diǎn)重復(fù)上述過(guò)程,直到滿足條件停止。

      3.1.2 隨機(jī)森林算法結(jié)構(gòu)

      隨機(jī)森林是由一系列決策樹組成的一種強(qiáng)學(xué)習(xí)器,根據(jù)Bagging集成方法來(lái)提高算法的精度。具體步驟如下:

      (1)從越浪量樣本集有放回地隨機(jī)抽取n個(gè)訓(xùn)練集,原始樣本集中會(huì)有約36.8%的樣本未被抽到,把該部分?jǐn)?shù)據(jù)稱為袋外數(shù)據(jù)(OOB)。

      (2)利用抽取的n個(gè)訓(xùn)練集組成n棵決策樹,在分裂過(guò)程,其中在每一個(gè)內(nèi)部節(jié)點(diǎn)從M個(gè)特征中隨機(jī)選擇m個(gè)特征進(jìn)行分裂(M≥m)。這樣通過(guò)特征的隨機(jī)性增加了各決策樹之間的差異性。

      (3)經(jīng)過(guò)訓(xùn)練,每一顆決策樹都會(huì)對(duì)樣本做出回歸預(yù)測(cè),分別得到n個(gè)預(yù)測(cè)結(jié)果q1,q2,q3,···,qn。

      (4)采用平均法的方式,將n棵決策樹的輸出結(jié)果綜合平均,最后得到預(yù)測(cè)結(jié)果q,即因此,基于隨機(jī)森林的復(fù)坡堤越浪量預(yù)測(cè)模型結(jié)構(gòu)如圖3所示。

      圖3 基于隨機(jī)森林的復(fù)坡堤越浪量預(yù)測(cè)模型結(jié)構(gòu)圖Fig.3 Structure diagram of overtopping prediction model of composite slope breakwater based on random forest

      3.2 模型的建立

      本文利用Python提供的Numpy和Pandas庫(kù)對(duì)數(shù)據(jù)進(jìn)行處理,使數(shù)據(jù)轉(zhuǎn)化為可直接供模型使用的數(shù)據(jù)類型。利用Sklearn建立越浪量預(yù)測(cè)模型,把經(jīng)過(guò)處理后的數(shù)據(jù)輸入到建立的模型中。其中,將數(shù)據(jù)集隨機(jī)地劃分為兩部分:90%作為訓(xùn)練集供模型學(xué)習(xí),10%作為測(cè)試集用來(lái)評(píng)估模型的性能。表1為處理后的無(wú)量綱數(shù)據(jù)的分布特征。

      表1 無(wú)量綱化后輸入?yún)?shù)分布特征Table 1 Distribution characteristics of input parameters after dimensionless

      3.3 模型調(diào)參

      模型參數(shù)的調(diào)節(jié)對(duì)模型性能有非常重要的影響,本文主要對(duì)影響隨機(jī)森林精度較大的3個(gè)參數(shù)做優(yōu)化,分別為決策樹的數(shù)量(n_estimators)、決策樹的最大深度(max_depth)和隨機(jī)選擇的最大特征數(shù)(max_features)。綜合考慮模型精度和運(yùn)行時(shí)間成本,給上述3個(gè)參數(shù)選取多個(gè)適當(dāng)?shù)闹?,取值范圍如?。

      表2 重要參數(shù)取值范圍Table 2 Value range of important parameters

      其中,n_estimators的取值步長(zhǎng)為10;max_depth的取值步長(zhǎng)為5;max_features有兩種取值:auto表示取所有的特征,sqrt表示取特征數(shù)的平方根。

      本文利用Sklearn庫(kù)中網(wǎng)格搜索(GridSearchCV)方法對(duì)3個(gè)參數(shù)進(jìn)行調(diào)優(yōu),該方法只需把設(shè)置好范圍的需要調(diào)優(yōu)的參數(shù)輸入到此算法中,它就會(huì)遍歷整個(gè)范圍獲得多種參數(shù)組合,這樣就能方便快捷得到最優(yōu)的結(jié)果。經(jīng)過(guò)網(wǎng)格搜索計(jì)算,得到的最優(yōu)參數(shù)取值

      4 結(jié)果分析

      為了評(píng)估隨機(jī)森林算法對(duì)越浪量的預(yù)測(cè)精度,通過(guò)比較預(yù)測(cè)值和真實(shí)值來(lái)直觀判斷。同時(shí),通過(guò)R2(決定系數(shù))來(lái)定量計(jì)算模型的預(yù)測(cè)精度,R2的值越接近1,則預(yù)測(cè)值和真實(shí)值越接近,表明模型越好;反之,R2越接近0,則表明模型越差。決定系數(shù)[20]計(jì)算公式為

      式中,N為樣本數(shù);qrfi為預(yù)測(cè)值(第i個(gè) 樣本);為真實(shí)值 的平均值;qi為 真實(shí)值(第i個(gè)樣本)。

      4.1 預(yù)測(cè)結(jié)果分析

      將劃分好的數(shù)據(jù)集輸入到建立好的隨機(jī)森林模型中,分別得到訓(xùn)練集和測(cè)試集的預(yù)測(cè)結(jié)果,如圖4和圖5。訓(xùn)練集預(yù)測(cè)結(jié)果表示模型對(duì)樣本數(shù)據(jù)的學(xué)習(xí)能力,測(cè)試集的預(yù)測(cè)結(jié)果表示模型對(duì)測(cè)試數(shù)據(jù)的泛化能力,即對(duì)新樣本的適應(yīng)能力。

      從圖4和圖5可以看出,訓(xùn)練集預(yù)測(cè)結(jié)果基本都在5倍誤差區(qū)間內(nèi)(兩側(cè)實(shí)線之間),且決定系數(shù)R2=98.8%,表明該模型具有很好的學(xué)習(xí)能力;測(cè)試集與訓(xùn)練集是完全不同的數(shù)據(jù)集,這部分并沒有參與模型的訓(xùn)練,其結(jié)果依然能夠基本上落在5倍誤差區(qū)間內(nèi),且決定系數(shù)R2=92.7%,預(yù)測(cè)結(jié)果很可靠,表明模型對(duì) 新樣本也具有很強(qiáng)的適應(yīng)能力。

      圖4 訓(xùn)練集預(yù)測(cè)結(jié)果(隨機(jī)森林)Fig.4 Prediction result of training set(random forest)

      圖5 測(cè)試集預(yù)測(cè)結(jié)果(隨機(jī)森林)Fig.5 Prediction result of testing set(random forest)

      4.2 與集成神經(jīng)網(wǎng)絡(luò)算法的對(duì)比

      為了進(jìn)一步驗(yàn)證隨機(jī)森林算法預(yù)測(cè)復(fù)坡堤越浪量的精度,與集成神經(jīng)網(wǎng)絡(luò)算法預(yù)測(cè)結(jié)果做了對(duì)比采用與隨機(jī)森林算法相同的數(shù)據(jù)集,建立了基于集成神經(jīng)網(wǎng)絡(luò)算法的越浪量預(yù)測(cè)模型。神經(jīng)網(wǎng)絡(luò)模型包含3層:輸入層、隱含層和輸出層。由于目前沒有足夠的理論確定神經(jīng)元個(gè)數(shù),常采用逐步試驗(yàn)法選擇結(jié)果較好的,神經(jīng)元個(gè)數(shù)最小的組,以免過(guò)擬合。因此最終確定輸入層神經(jīng)元數(shù)為15,隱含層神經(jīng)元數(shù)為25,輸出層神經(jīng)元數(shù)為1。激活函數(shù)選擇選取雙曲正切函數(shù)(tanh),輸入?yún)?shù)采用max-min歸一化。構(gòu)建100個(gè)網(wǎng)絡(luò)模型,然后將這100個(gè)模型的輸出結(jié)果通過(guò)平均的方法得到最終集成神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果。集成神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)結(jié)果如圖6和圖7所示,訓(xùn)練集大部分落在5倍誤差范圍內(nèi),也有比較多的點(diǎn)落在了5倍范圍之外,決定系數(shù)R2=91.9%;而測(cè)試集的結(jié)果基本都落在5倍誤差范圍內(nèi),決定系數(shù)R2=87.7%對(duì)比兩種算法訓(xùn)練集的預(yù)測(cè)結(jié)果(圖4和圖6)發(fā)現(xiàn)隨機(jī)森林算法的結(jié)果明顯比集成神經(jīng)網(wǎng)絡(luò)更集中在45°理想線附近(中間的實(shí)線),且決定系數(shù)也高于集成神經(jīng)網(wǎng)絡(luò),這說(shuō)明隨機(jī)森林比集成神經(jīng)網(wǎng)絡(luò)具有更強(qiáng)的學(xué)習(xí)能力;對(duì)比兩種算法的測(cè)試集結(jié)果(圖5和圖7),直觀上不容易看出明顯的差別,但根據(jù)兩者的決定系數(shù)可知,隨機(jī)森林依然要高于集成神經(jīng)網(wǎng)絡(luò)說(shuō)明隨機(jī)森林算法的泛化能力也更好。綜上所述,不管是訓(xùn)練集還是測(cè)試集,本文建立的隨機(jī)森林模型的準(zhǔn)確度都要優(yōu)于集成神經(jīng)網(wǎng)絡(luò)。這是由于在構(gòu)建隨機(jī)森林模型時(shí),每棵決策樹的訓(xùn)練集是通過(guò)Bagging集成方法抽樣,且決策樹分裂時(shí)采用隨機(jī)選擇,這使得隨機(jī)森林中的決策樹多樣性增加,從而更好地發(fā)揮了集成思想的作用。

      圖6 訓(xùn)練集預(yù)測(cè)結(jié)果比較(集成神經(jīng)網(wǎng)絡(luò))Fig.6 Prediction result of training set (ensemble neural network)

      圖7 測(cè)試集預(yù)測(cè)結(jié)果比較(集成神經(jīng)網(wǎng)絡(luò))Fig.7 Prediction result of testing set (ensemble neural network)

      4.3 特征參數(shù)對(duì)預(yù)測(cè)精度的影響

      分析特征參數(shù)的重要性就是探究哪些特征對(duì)模型的影響大,哪些特征對(duì)模型的影響小,這樣有助于更好的做特征篩選,即對(duì)于影響特別小的特征,對(duì)模型來(lái)說(shuō)或許會(huì)被認(rèn)為是噪點(diǎn),可以選擇丟棄。一方面,可以提高模型的精度;另一方面,利于減小模型的計(jì)算量,從而提高效率。

      通過(guò)隨機(jī)森林模型對(duì)越浪量預(yù)測(cè)的同時(shí),模型可以評(píng)估所有輸入特征對(duì)預(yù)測(cè)結(jié)果的重要性。其原理是:在建模過(guò)程中隨機(jī)森林會(huì)挑選出某一個(gè)特征對(duì)其加入噪聲,然后觀測(cè)對(duì)計(jì)算結(jié)果的影響,最后比較各特征之間的影響大小。一般用袋外數(shù)據(jù)誤差評(píng)價(jià)。方法是:對(duì)于一顆決策樹,計(jì)算OOB的誤差e1,對(duì)于特征參數(shù)Xi,置換OOB中的第Xi列,保持其他列不變,再次計(jì)算袋外誤差e2,用e1?e2表示特征參數(shù)Xi的重要性。最后把所有決策樹計(jì)算得到的e1?e2取平均,即特征參數(shù)Xi對(duì)隨機(jī)森林模型的重要性。袋外誤差e的計(jì)算公式為

      式中,、qi分別為第i個(gè)樣本的預(yù)測(cè)值和真實(shí)值;N為對(duì)應(yīng)的樣本數(shù)。因此,特征參數(shù)Xi的重要性評(píng)分[21]為

      式中,n是隨機(jī)森林中樹的個(gè)數(shù);表示特征參數(shù)Xi在置換之前的第t棵樹的袋外誤差;表示特征參數(shù)Xi在 置換后的第t棵樹的袋外誤差。如果對(duì)某個(gè)特征加入噪聲,隨機(jī)森林的袋外準(zhǔn)確率大幅減小了,說(shuō)明該特征的重要程度較高。通過(guò)隨機(jī)森林算法對(duì)特征計(jì)算重要性評(píng)分,然后對(duì)其進(jìn)行歸一化后,就得到特征重要性。由于有些特征參數(shù)本身具有無(wú)量綱特性,且這類數(shù)據(jù)之間的差異較大,這里不予考慮。我們只討論經(jīng)過(guò)無(wú)量綱化后的特征對(duì)預(yù)測(cè)結(jié)果的影響,如圖8。

      圖8 模型特征參數(shù)重要性評(píng)價(jià)Fig.8 Importance evaluation of model characteristic parameters

      由圖8可知,重要性最高的特征參數(shù)為墻頂高程Rc,其次是堤頂高程Ac和 平臺(tái)上水深hb,再者是平臺(tái)寬度B和波陡Hm0,t/Lm?1,0,t,而堤前水深h、堤腳浸沒水深ht和肩臺(tái)寬度Gc的重要性相當(dāng),護(hù)面塊體平均粒徑D和堤腳寬度Bt對(duì)預(yù)測(cè)結(jié)果的影響最小。不難理解,墻頂能夠有效的阻擋波浪越過(guò)堤頂,隨著墻頂高程的增加,波浪在擋浪墻處的破碎更加劇烈,大部分水體將被擋在海浪側(cè)。需要消耗更多的能量波浪才能越過(guò)堤頂;倘若波浪超過(guò)堤頂,就會(huì)有比較大的可能發(fā)生越浪,堤頂高程的增加對(duì)減少越浪具有重要的意義;平臺(tái)可以削減海側(cè)方向來(lái)的波浪,而且設(shè)置在靜水位附近時(shí)的削弱效果最好[22],平臺(tái)寬度一定程度上會(huì)影響波浪的爬高;波浪在堤腳附近時(shí),由于淺水變形使得波陡變大最終發(fā)生破碎,導(dǎo)致波浪損失能量,因此會(huì)對(duì)越浪量造成一些影響;護(hù)面塊體粒徑大小主要是以滲透率和孔隙率的形式影響越浪量,對(duì)越浪量的影響不大;而堤腳寬度對(duì)越浪的影響非常小。

      分析各特征對(duì)預(yù)測(cè)精度影響,從模型角度講,可以對(duì)模型做特征選擇,丟棄對(duì)預(yù)測(cè)精度影響小的特征,保留影響大的特征,來(lái)進(jìn)一步提高模型的精度;從工程角度講,了解影響越浪量大小的因素,有利于控制越浪量,為設(shè)計(jì)防波堤提供參考。

      5 結(jié)論

      本文以歐洲CLASH項(xiàng)目作為數(shù)據(jù)支撐,利用Python構(gòu)建了基于隨機(jī)森林算法的復(fù)坡堤越浪量預(yù)測(cè)模型并通過(guò)調(diào)參使模型得以優(yōu)化,從而提高了模型的準(zhǔn)確率。為了驗(yàn)證本文提出的越浪量預(yù)測(cè)模型的準(zhǔn)確度,將本文建立的隨機(jī)森林預(yù)測(cè)模型與集成神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)精度進(jìn)行對(duì)比,結(jié)果顯示,隨機(jī)森林的預(yù)測(cè)精度要優(yōu)于集成神經(jīng)網(wǎng)絡(luò)。此外,隨機(jī)森林算法還給出了特征參數(shù)對(duì)模型預(yù)測(cè)精度的影響大小,為進(jìn)一步對(duì)特征參數(shù)做篩選提供依據(jù)。通過(guò)本文的研究,實(shí)現(xiàn)了將隨機(jī)森林算法應(yīng)用于越浪量預(yù)測(cè)領(lǐng)域,為計(jì)算復(fù)坡堤越浪量提供了一種新的方法,對(duì)設(shè)計(jì)防波堤和提高防波堤安全性具有較大的實(shí)際應(yīng)用價(jià)值。

      猜你喜歡
      越浪特征參數(shù)決策樹
      越浪預(yù)測(cè)研究綜述及展望
      故障診斷中信號(hào)特征參數(shù)擇取方法
      基于特征參數(shù)化的木工CAD/CAM系統(tǒng)
      臺(tái)風(fēng)過(guò)程下復(fù)式海堤越浪量計(jì)算方法研究
      一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
      決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      基于PSO-VMD的齒輪特征參數(shù)提取方法研究
      基于決策樹的出租車乘客出行目的識(shí)別
      統(tǒng)計(jì)特征參數(shù)及多分類SVM的局部放電類型識(shí)別
      基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
      芮城县| 漾濞| 汉阴县| 鹿泉市| 息烽县| 安吉县| 疏勒县| 永清县| 崇明县| 清涧县| 隆安县| 张家口市| 色达县| 罗源县| 松溪县| 武宁县| 个旧市| 东乡族自治县| 平顶山市| 丽水市| 白玉县| 彰化市| 荆州市| 宝丰县| 天长市| 齐河县| 彭山县| 鸡西市| 贵阳市| 彭阳县| 雅江县| 济南市| 五台县| 三穗县| 河北省| 石棉县| 扶沟县| 延安市| 岐山县| 尼勒克县| 江城|