黃 浩,薛新華,樊 旭
(四川大學(xué) 水利水電學(xué)院,成都 610065)
砂土地震液化是指飽和疏松的無黏性土或稍具黏性土,在不排水條件下受到地震荷載的持續(xù)作用,強(qiáng)度降低甚至消失,由固體狀態(tài)轉(zhuǎn)變?yōu)橐后w狀態(tài)的現(xiàn)象[1-5]。1964年美國(guó)阿拉斯加地震、日本新潟地震和1966年中國(guó)邢臺(tái)地震等,均產(chǎn)生了大面積的飽和砂土液化,造成建筑物嚴(yán)重破壞和人員大量傷亡。因此,國(guó)內(nèi)外學(xué)者對(duì)砂土地震液化的判別開展了廣泛的研究。由于砂土介質(zhì)的多樣性和地震荷載的隨機(jī)性,使得砂土液化的各種影響因素和砂土液化勢(shì)之間呈高度的非線性,傳統(tǒng)的經(jīng)驗(yàn)判別法無法考慮全部因素的影響。因此,近年來利用人工智能方法如人工神經(jīng)網(wǎng)絡(luò)、遺傳算法、支持向量機(jī)等進(jìn)行砂土液化判別越來越受到國(guó)內(nèi)外專家的關(guān)注[6-13]。盡管上述人工智能算法在處理高維非線性問題方面具有其獨(dú)到的優(yōu)勢(shì),但這些算法仍存在一些不足之處,如人工神經(jīng)網(wǎng)絡(luò)搜索全局最優(yōu)值能力弱,容易產(chǎn)生過擬合陷入局部最優(yōu),且網(wǎng)絡(luò)收斂速度較慢;遺傳算法編程實(shí)現(xiàn)比較困難,局部搜索能力差,較依賴初始種群的選擇;支持向量機(jī)需要依賴經(jīng)驗(yàn)選取核函數(shù)和確定最優(yōu)模型參數(shù),在解決多維問題時(shí)穩(wěn)定性和泛化能力較低等。
隨機(jī)森林(Random Forest,簡(jiǎn)稱RF)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的組合分類智能算法[14]。該算法以決策樹為基本分類器,主要利用Bootstrap重抽樣方法從原始數(shù)據(jù)中抽取多個(gè)樣本,并對(duì)每個(gè)樣本進(jìn)行分類樹構(gòu)建,然后對(duì)所有分類樹的預(yù)測(cè)進(jìn)行組合并通過投票方式得出最終結(jié)果。大量理論和實(shí)踐證明,該算法具有較高的計(jì)算精度,對(duì)噪聲和異常值具有很好的容忍性,不會(huì)出現(xiàn)過擬合現(xiàn)象,已被廣泛應(yīng)用于臨床醫(yī)學(xué)、高光譜遙感、生物信息等領(lǐng)域。但將該方法應(yīng)用于砂土地震液化判別方面的文獻(xiàn)尚不多見,因此本文對(duì)此進(jìn)行了嘗試,以期為砂土地震液化判別提供一種新的思路和判別方法。
隨機(jī)森林實(shí)質(zhì)是由一系列隨機(jī)決策樹構(gòu)成的組合分類器。在隨機(jī)森林算法的實(shí)現(xiàn)過程中主要有兩次隨機(jī)選擇:①?gòu)臉颖緮?shù)據(jù)采集中采樣訓(xùn)練數(shù)據(jù)集時(shí),通過Bootstrap aggregating(簡(jiǎn)稱Bagging)算法隨機(jī)抽樣生成T個(gè)不同的訓(xùn)練樣本集,實(shí)現(xiàn)樣本擾動(dòng);②在每個(gè)訓(xùn)練集中對(duì)應(yīng)決策樹的M個(gè)屬性中隨機(jī)選擇m個(gè)屬性對(duì)當(dāng)前節(jié)點(diǎn)進(jìn)行分裂,實(shí)現(xiàn)屬性擾動(dòng)。通過兩次隨機(jī)選擇,增加了決策樹的多樣性,從而使得RF算法具有較好的泛化性和噪聲容忍性。
基于隨機(jī)森林算法實(shí)現(xiàn)沙土地震液化判別的實(shí)質(zhì)就是建立砂土地震液化影響指標(biāo)與砂土液化判別結(jié)果的映射關(guān)系。具體步驟如下:
(1)利用Bootstrap重采樣(即有放回的隨機(jī)抽樣)方法從原始砂土液化樣本集S中隨機(jī)抽樣生成n個(gè)訓(xùn)練集S1,S2,S3,…,Sn。原始樣本集中約36.8%的樣本不會(huì)出現(xiàn)在訓(xùn)練集中,該部分?jǐn)?shù)據(jù)被稱為袋外(Out of bag,簡(jiǎn)稱OOB)數(shù)據(jù),可用來評(píng)估模型的泛化誤差。
(2)利用每個(gè)隨機(jī)生成的訓(xùn)練集,組成其對(duì)應(yīng)的決策樹C1,C2,C3,…,Cn;在決策樹每個(gè)節(jié)點(diǎn)處的M個(gè)特征值中隨機(jī)選取m(m≤M)個(gè)特征作為當(dāng)前節(jié)點(diǎn)的分裂屬性集,在每個(gè)節(jié)點(diǎn)上依據(jù)Gini系數(shù)選取最優(yōu)的分裂方式對(duì)該節(jié)點(diǎn)進(jìn)行分裂。若樣本空間S包含j個(gè)屬性,則Gini系數(shù)可定義為式(1)。
(1)
式中:Pj表示樣本集S包含屬性j的概率。
節(jié)點(diǎn)的Gini系數(shù)描述了節(jié)點(diǎn)的不純度,Gini系數(shù)越小,液化樣本的純凈度越高,分類效果越好。
(3)利用每一顆生成的決策樹對(duì)測(cè)試集中的砂土液化樣本X進(jìn)行測(cè)試,得到對(duì)應(yīng)的類別C1(X),C2(X),C3(X),…,Cn(X)。
(4)采用投票的方式,測(cè)試樣本集的結(jié)果采用n棵決策樹中輸出最多的類別,即輸出砂土液化判別結(jié)果。因此,基于隨機(jī)森林算法的砂土液化預(yù)測(cè)模型結(jié)構(gòu)如圖1所示。
圖1 基于隨機(jī)森林算法的砂土液化預(yù)測(cè)模型結(jié)構(gòu)圖Fig.1 Structure diagram of sand liquefaction prediction model based on random forest algorithm
表1 地震液化判別數(shù)據(jù)Tab.1 Data of soil liquefaction
表2 地震液化判別數(shù)據(jù)特征參數(shù)表Tab.2 Characteristic parameter of soil liquefaction
圖2 OOB錯(cuò)誤率迭代曲線Fig.2 Error rate iteration curve of OOB
運(yùn)用該模型對(duì)測(cè)試樣本進(jìn)行測(cè)試,其中1代表未液化,2代表液化,判別結(jié)果如圖3所示。隨機(jī)森林實(shí)現(xiàn)過程中通過樣本擾動(dòng)與屬性擾動(dòng)增加決策樹的多樣性,提升算法泛化性、魯棒性與穩(wěn)定性。與之同時(shí),模型試驗(yàn)具有不可重復(fù)性。因此,本模型測(cè)試精度取100次試驗(yàn)的平均值,為97.84%。
圖3 隨機(jī)森林分類器分類效果Fig.3 Classification effect of random forest classifier
隨機(jī)森林算法能夠在分析數(shù)據(jù)的同時(shí),通過程序提供的變量重要性評(píng)分(Variable importance measure, VIM)來衡量不同指標(biāo)對(duì)分類結(jié)果的影響,通常采用Mean Decrease Accuracy和Mean Decrease Gini兩個(gè)參數(shù)來衡量,指標(biāo)的重要程度越高,說明該指標(biāo)具有越強(qiáng)的分類能力。從圖4可以看出砂土層的初始上覆壓力的指標(biāo)重要程度最高,對(duì)該模型的精度影響最大。因此,應(yīng)在地質(zhì)勘察和室內(nèi)試驗(yàn)中盡可能提高該指標(biāo)的量測(cè)精度,以便獲取最佳的預(yù)測(cè)結(jié)果。
圖4 砂土液化判別指標(biāo)的重要性排序Fig.4 Comparasion of the importance of soil liquefaction discriminant index
目前,基于CPT實(shí)測(cè)數(shù)據(jù)的砂土液化判別,國(guó)內(nèi)普遍采用《巖土工程勘察規(guī)范》(GB50021-2001)[17]推薦的方法(以下簡(jiǎn)稱規(guī)范法)。規(guī)范法以歷史地震數(shù)據(jù)為基礎(chǔ)建立經(jīng)驗(yàn)公式,提出了在一定地震烈度條件下,場(chǎng)地的飽和砂土發(fā)生液化時(shí)所對(duì)應(yīng)的單橋觸探液化臨界比貫入阻力pscr或雙橋觸探液化臨界錐尖阻力qccr的計(jì)算方法。其判別砂土液化表達(dá)式為:
pscr=ps0αwαuαp
(2)
qccr=qc0αwαuαp
(3)
αw=1-0.065(dw-2)
(4)
αu=1-0.050(du-2)
(5)
式中:pscr、qccr分別為飽和土CPT液化比貫入阻力臨界值和錐尖阻力臨界值,MPa;du為上覆非液化土層厚度,m,計(jì)算時(shí)應(yīng)將淤泥和淤泥質(zhì)土層厚度扣除;dw為地下水位深度,m;ps0、qc0分別為地下水深度dw=2 m、上覆非液化土層厚度du=2 m時(shí),飽和土液化判別比貫入阻力基準(zhǔn)值和液化判別錐尖阻力基準(zhǔn)值,MPa:w為地下水位埋深dw的修正系數(shù),地面常年有水且與地下水有水力聯(lián)系時(shí),取w=1.13;u為上覆非液化土層厚度du修正系數(shù),對(duì)于深基礎(chǔ),取u=1.0;p為與CPT摩阻比有關(guān)的土性修正系數(shù)。
當(dāng)實(shí)測(cè)比貫入阻力或錐尖阻力小于單橋觸探液化比貫入阻力臨界值或雙橋觸探液化錐尖阻力臨界值時(shí),應(yīng)判別為液化土;否則砂土不液化。
為驗(yàn)證已建立的隨機(jī)森林沙土液化預(yù)測(cè)模型,采用文獻(xiàn)[18]提供的泰州長(zhǎng)江大橋工程實(shí)例數(shù)據(jù)分別進(jìn)行規(guī)范法與隨機(jī)森林的沙土液化判別。規(guī)范法與隨機(jī)森林模型判別對(duì)比結(jié)果如表3所示。
表3 砂土液化判別結(jié)果對(duì)比表Tab.3 Comparison of sand liquefaction discrimination results
在12組工程實(shí)測(cè)數(shù)據(jù)中,隨機(jī)森林模型共作出4次液化判別,8次非液化判別。其中,對(duì)照規(guī)范法,隨機(jī)森林模型作出的4次液化判別正確率100%,3次誤判全部集中于非液化判別。由于規(guī)范通常所用的液化強(qiáng)度比并不真正代表飽和砂土的極限狀態(tài),含有一定的安全儲(chǔ)備[19],因此隨機(jī)森林沙土液化預(yù)測(cè)判別結(jié)果是合理的,并具有較高的液化判別精度。
砂土液化判別是一項(xiàng)復(fù)雜的巖土工程問題,對(duì)工程場(chǎng)地選擇具有重要影響,同時(shí)也受到多種因素的影響?;贑PT原位測(cè)試結(jié)果,綜合選取地震等級(jí)、埋深、上覆壓力、探錐阻力、最大地面加速度和有效上覆壓力等6個(gè)指標(biāo)作為影響砂土液化的評(píng)判指標(biāo),建立了基于隨機(jī)森林算法的砂土地震液化預(yù)測(cè)模型,并基于工程實(shí)例將該模型的判別結(jié)果與規(guī)范法進(jìn)行對(duì)比。得出的主要結(jié)論如下。
(1)本文建立的基于隨機(jī)森林的砂土地震液化預(yù)測(cè)模型經(jīng)過工程實(shí)例驗(yàn)證具有較高的準(zhǔn)確率,是一種理想的砂土液化判別模型。
(2)較高預(yù)測(cè)精度表明本文的砂土液化評(píng)價(jià)指標(biāo)的選取是合理的,并且6個(gè)指標(biāo)中初始上覆壓力對(duì)模型的重要程度較高,應(yīng)在地質(zhì)勘察中盡可能提高該指標(biāo)的量測(cè)精度,以便獲取最佳的預(yù)測(cè)結(jié)果。
(3)基于歷史地震數(shù)據(jù)建立的隨機(jī)森立砂土液化預(yù)測(cè)模型本質(zhì)上也是一種經(jīng)驗(yàn)法,其預(yù)測(cè)精度受訓(xùn)練樣本的影響。為提高預(yù)測(cè)模型的預(yù)測(cè)精度,應(yīng)盡量擴(kuò)大樣本庫(kù),并選取不同地區(qū)的實(shí)測(cè)數(shù)據(jù)作為訓(xùn)練樣本。
□