鄭龍菲,周宗紅,劉 劍,羅正良,趙 亮
(1.昆明理工大學(xué) 國土資源工程學(xué)院,云南 昆明 650093;2.保山金廠河礦業(yè)有限公司,云南 保山 678300)
巖爆具有突發(fā)性和破壞性,嚴(yán)重威脅深部開挖工程的安全[1]。由于巖爆發(fā)生的機(jī)制復(fù)雜、影響因素較多,亟需探索更為科學(xué)的預(yù)測(cè)理論和方法。
國內(nèi)外學(xué)者通過統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等方法開展了巖爆等級(jí)研究。李克剛等[2]基于改進(jìn)綜合賦權(quán)方法,對(duì)與巖爆相關(guān)的15個(gè)傾向性指標(biāo)進(jìn)行了分析。湯志立等[3]基于9種機(jī)器學(xué)習(xí)方法對(duì)巖爆進(jìn)行了預(yù)測(cè),對(duì)比分析了每種算法的預(yù)測(cè)能力。吳順川等[4]基于PCA-PNN模型對(duì)巖爆等級(jí)進(jìn)行了分類預(yù)測(cè),通過主成分分析降維消除數(shù)據(jù)相關(guān)性的影響,提高了巖爆等級(jí)預(yù)測(cè)的精度。田睿等[5]引入深度神經(jīng)網(wǎng)絡(luò),基于數(shù)據(jù)驅(qū)動(dòng)建立巖爆預(yù)測(cè)模型,消除了人為設(shè)置超參數(shù)對(duì)預(yù)測(cè)模型的影響,提高了預(yù)測(cè)模型的準(zhǔn)確率。雖然上述預(yù)測(cè)模型研究取得了一定成果,但都存在一些缺陷和不足:傳統(tǒng)統(tǒng)計(jì)學(xué)方法數(shù)據(jù)量只有十幾組或者幾十組,離散性較大;深度學(xué)習(xí)方法需要大量數(shù)據(jù)支持,并且參數(shù)設(shè)置繁雜。
近年來,分類樹和Bagging等分類算法因其優(yōu)異的分類性能而受到了學(xué)術(shù)界的廣泛關(guān)注。DONG等[6-7]分別應(yīng)用RF、Bagging和Boosting集成技術(shù)對(duì)巖爆進(jìn)行了預(yù)測(cè),取得了良好的預(yù)測(cè)效果;張鈞博等[8]基于XGBoost算法,引入交叉驗(yàn)證的思想,討論了小樣本情況下XGBoost算法預(yù)測(cè)巖爆的適用性。單一的分類方法和算法各有其優(yōu)勢(shì),而將不同方法的優(yōu)勢(shì)進(jìn)行互補(bǔ),可以有效提高巖爆等級(jí)預(yù)測(cè)精度。
本文綜合了模糊數(shù)學(xué)和機(jī)器學(xué)習(xí)的優(yōu)勢(shì),建立熵權(quán)法優(yōu)化的LGBM算法組合模型;采用熵權(quán)法處理數(shù)據(jù),以使數(shù)據(jù)客觀反映出指標(biāo)對(duì)于預(yù)測(cè)模型的影響;GBDT(Gradient Boosting Decision Tree)算法是Boosting的最新成果,其引入GBDT改進(jìn)的LGBM算法相較XGBoost有更高的預(yù)測(cè)準(zhǔn)確率,且LGBM算法支持分布式計(jì)算,計(jì)算速度更快、內(nèi)存占用更小[9-10]。本文以終南山隧道通風(fēng)豎井為例,將LGBM算法與熵權(quán)法相結(jié)合進(jìn)行巖爆等級(jí)預(yù)測(cè),以檢驗(yàn)熵權(quán)法優(yōu)化LGBM模型的可靠性和實(shí)用性。
熵權(quán)法是依據(jù)指標(biāo)信息熵確定各指標(biāo)權(quán)重的賦權(quán)方法。利用熵權(quán)法對(duì)巖爆數(shù)據(jù)集進(jìn)行預(yù)處理,可以避免人為因素造成預(yù)測(cè)結(jié)果的誤差。熵權(quán)法計(jì)算原理敘述如下。
(1)參與評(píng)價(jià)的對(duì)象集為M=(M1,M2,…,Mm),指標(biāo)集為D=(D1,D2,…,Dn),方案Mi對(duì)指標(biāo)Di的值xij(i=1,2,…,m;j=1,2,…,n),則形成的決策矩陣為[11]
(1)
(2)為了消除指標(biāo)量綱不同對(duì)方案決策帶來的影響或者處理一些指標(biāo)值為負(fù)的決策問題,要求對(duì)決策矩陣X進(jìn)行標(biāo)準(zhǔn)化處理。
對(duì)于正向指標(biāo),歸一化后的值為
(2)
對(duì)于逆向指標(biāo),歸一化后的值為
(3)
(3)計(jì)算第j項(xiàng)指標(biāo)下第i個(gè)評(píng)價(jià)對(duì)象的特征比值或貢獻(xiàn)度
(4)
(4)計(jì)算第j項(xiàng)指標(biāo)的熵值
(5)
(5)計(jì)算差異性系數(shù)
dj=1-ej。
(6)
(6)確定各指標(biāo)的熵權(quán)
(7)
(7)得到最終樣本矩陣
xf=wjvij。
(8)
利用熵權(quán)法處理數(shù)據(jù)后,降低了指標(biāo)數(shù)據(jù)集的混亂度,確定了各指標(biāo)權(quán)重。將預(yù)處理后的數(shù)據(jù)用LGBM算法進(jìn)行模型訓(xùn)練,建立LGBM巖爆分類模型(見圖1)。
圖1 LGBM模型訓(xùn)練流程圖
LGBM算法是一個(gè)基于GBDT算法的框架、支持高效率分布式計(jì)算的分類樹算法模型[12]。LGBM算法是對(duì)GBDT算法的改進(jìn),其采用比預(yù)排序方法更為有效的直方圖對(duì)特征值進(jìn)行優(yōu)化。基本思想是將連續(xù)的浮點(diǎn)特征值離散成k個(gè)整數(shù),同時(shí)構(gòu)造寬度為k的直方圖(見圖2)。對(duì)數(shù)據(jù)進(jìn)行遍歷,將離散后的值作為索引,在直方圖中累計(jì)統(tǒng)計(jì)量,最終根據(jù)直方圖的離散值,遍歷尋找最優(yōu)的分隔點(diǎn)。
圖2 直方圖優(yōu)化原理
為了提高模型的訓(xùn)練效率,LGBM算法摒棄了GBDT算法傳統(tǒng)的Level-wise葉子生長策略,采用Leaf-wise葉子生長策略,其僅對(duì)同一層葉子進(jìn)行分裂,故造成了一些不必要的分裂搜索。葉子生長策略對(duì)比見圖3。
圖3 葉子生長策略對(duì)比圖
LGBM算法支持高效并行計(jì)算,特征并行計(jì)算指不同機(jī)器上不同特征集合尋找最優(yōu)分割點(diǎn),實(shí)現(xiàn)機(jī)器間同步最優(yōu)分割點(diǎn)。
梯度提升是一種常見的機(jī)器學(xué)習(xí)算法,常用于分類和回歸任務(wù)。算法的核心思想是將多個(gè)弱學(xué)習(xí)分類器組合成一個(gè)強(qiáng)學(xué)習(xí)分類器,以解決單一分類器無法對(duì)全體樣本精確學(xué)習(xí)的問題[12-13]。
GBDT模型由k棵殘差樹構(gòu)成,將前k棵樹對(duì)樣本xi的猜測(cè)結(jié)果表示為
Fk(xi)=fk(xi)+Fk-1(xi),i∈{1,2,…,N},k∈{1,2,…,k} 。
(9)
fk(xi)=γjk,j=q(k,xi) ,
(10)
式中,fk(xi)為計(jì)算任意一個(gè)樣本xi送入第k棵樹后的預(yù)測(cè)結(jié)果,γjk為第k棵樹第j個(gè)節(jié)點(diǎn)的預(yù)測(cè)值,j值由q(k,xi)計(jì)算得出。
優(yōu)化函數(shù)可表示為
(11)
樹模型可以表示為wq(x),q∈{1,2,…,J},w表示葉子節(jié)點(diǎn)樣本權(quán)重的向量,q表示回歸樹結(jié)構(gòu),J表示樹中葉子個(gè)數(shù)。其中得到t棵樹時(shí),需要獲得t-1棵樹的全部信息。
第t棵樹目標(biāo)函數(shù)可表示為
(12)
式中,Ω(fk(x))為正則化項(xiàng),可避免訓(xùn)練集過擬合。在目標(biāo)函數(shù)進(jìn)行優(yōu)化時(shí),LGBM對(duì)目標(biāo)函數(shù)進(jìn)行二階泰勒展開,展開的目標(biāo)函數(shù)可表示為
(13)
式中,gi和hi分別為損失函數(shù)一階梯度統(tǒng)計(jì)量和二階梯度統(tǒng)計(jì)量。
一棵樹的復(fù)雜度為
近幾年我國發(fā)電設(shè)備年平均利用小時(shí)逐年下降,根據(jù)國家能源局網(wǎng)站發(fā)布的數(shù)據(jù),2016年火電設(shè)備平均利用小時(shí)4165 h,創(chuàng)1964年以來最低水平。隨著火電機(jī)組年發(fā)電利用小時(shí)的逐年下降,1000 MW等級(jí)超超臨界煤電機(jī)組也參與低負(fù)荷調(diào)峰運(yùn)行,如2016年浙江省某發(fā)電廠兩臺(tái)1000 MW超超臨界機(jī)組的年負(fù)荷率分別只有68.68%和61.98%。
(14)
式中,γ為葉子節(jié)點(diǎn)系數(shù),λ為L2正則化系數(shù)。葉子節(jié)點(diǎn)數(shù)和葉子節(jié)點(diǎn)對(duì)應(yīng)值L2范數(shù)決定決策樹的復(fù)雜度。
假設(shè)Ij={i|q(xi)=j} 為劃分葉子節(jié)點(diǎn)樣本集,目標(biāo)函數(shù)為
(15)
樹結(jié)構(gòu)q(x)每個(gè)節(jié)點(diǎn)最優(yōu)權(quán)值為
(16)
樹結(jié)構(gòu)q(x)對(duì)應(yīng)目標(biāo)函數(shù)為
(17)
計(jì)算分裂節(jié)點(diǎn)收益,選擇收益最大特征作為分裂特征,不斷迭代,直至滿足條件。假設(shè)I=IL∪IR,IL和IR分別為左分支樣本集和右分支樣本集,每次分裂節(jié)點(diǎn)的收益為
(18)
得到最終強(qiáng)分類器為
Fk(x)=
a0f0(x)+a1f1(x)+…
+amfm(x)+…+akfk(x)。
(19)
熵權(quán)法利用指標(biāo)的熵值所代表的信息量大小確定指標(biāo)權(quán)重,但熵權(quán)法無法直接對(duì)巖爆等級(jí)進(jìn)行分類;而傳統(tǒng)的LGBM算法受到指標(biāo)數(shù)值差異和量綱的影響,無法準(zhǔn)確反映指標(biāo)對(duì)預(yù)測(cè)結(jié)果的貢獻(xiàn)度,降低了預(yù)測(cè)模型的可靠性。因此本文建立熵權(quán)法-LGBM組合預(yù)測(cè)模型,旨在提高巖爆預(yù)測(cè)的可靠性。
熵權(quán)法優(yōu)化LGBM巖爆等級(jí)預(yù)測(cè)模型建立流程見圖4。
圖4 熵權(quán)法-LGBM組合預(yù)測(cè)模型建立流程
參考已有研究[2],選取圍巖洞壁最大主應(yīng)力σθ、單軸抗壓強(qiáng)度σc、抗拉強(qiáng)度σt、應(yīng)力系數(shù)σθ/σc、脆性系數(shù)σc/σt、彈性能指數(shù)wet作為巖爆等級(jí)預(yù)測(cè)指標(biāo),并將巖爆分為4個(gè)等級(jí):無巖爆(Ⅰ級(jí))、輕微巖爆(Ⅱ級(jí) )、中等巖爆(Ⅲ級(jí))、強(qiáng)烈?guī)r爆(Ⅳ級(jí))。為了驗(yàn)證該模型的有效性,本文搜集了冬瓜山銅礦、金川二礦、會(huì)澤鉛鋅礦、挪威Sewage隧道、大相嶺隧道等國內(nèi)外巖爆工程實(shí)例,選取179組數(shù)據(jù)的6個(gè)指標(biāo)進(jìn)行實(shí)例分析,其中選取150組數(shù)據(jù)樣本作為訓(xùn)練集,29組樣本作為測(cè)試集[13-26]。部分原始指標(biāo)數(shù)據(jù)集見表1。
表1 原始指標(biāo)數(shù)據(jù)集
利用熵權(quán)法對(duì)原始數(shù)據(jù)作歸一化處理,分別計(jì)算指標(biāo)的熵值、差異系數(shù)、權(quán)重,確定最終樣本權(quán)重,部分處理結(jié)果分別見表2、表3。
表2 熵權(quán)法權(quán)重
表3 部分?jǐn)?shù)據(jù)最終樣本矩陣
在LGBM算法中,參數(shù)的選擇將直接影響到模型預(yù)測(cè)準(zhǔn)確率。在LGBM模型中,樹模型的最大深度(max_depth)與樹的葉子數(shù)量(num_leaves)是模型的核心參數(shù),對(duì)模型性能和泛化能力有著決定性作用。一般而言,num_leaves在[0,2max_depth-1]中間取值;另外為了平衡模型誤差和模型復(fù)雜度,可采用正則化參數(shù)reg_alpha和reg_lamdba。在遇到過擬合情況時(shí),引入?yún)?shù)bagging_fraction進(jìn)行處理。為了提高巖爆預(yù)測(cè)模型的準(zhǔn)確率和運(yùn)算效率,調(diào)用python中optgbm工具包自動(dòng)優(yōu)化LGBM模型參數(shù),結(jié)果見表4。
表4 LGBM模型超參數(shù)含義及數(shù)值
選取29組數(shù)據(jù)作為測(cè)試集進(jìn)行檢驗(yàn),將預(yù)測(cè)結(jié)果與傳統(tǒng)的LGBM模型、RF模型和XGBoost模型進(jìn)行對(duì)比,結(jié)果見表5。
表5 測(cè)試集各模型巖爆等級(jí)預(yù)測(cè)結(jié)果
由表5可知,RF、XGBoost、傳統(tǒng)LGBM巖爆等級(jí)預(yù)測(cè)模型的準(zhǔn)確率分別為75.86%、75.86%、79.31%,傳統(tǒng)的LGBM模型預(yù)測(cè)準(zhǔn)確率略優(yōu)于其他兩種模型;經(jīng)熵權(quán)法優(yōu)化的LGBM巖爆等級(jí)預(yù)測(cè)模型準(zhǔn)確率為93.1%,可見優(yōu)化后的巖爆等級(jí)預(yù)測(cè)模型的預(yù)測(cè)準(zhǔn)確率明顯高于其他單一模型,表明利用熵權(quán)法有效解決了各指標(biāo)間因量綱不同和數(shù)值差異對(duì)模型預(yù)測(cè)準(zhǔn)確率的影響,提升了模型巖爆等級(jí)預(yù)測(cè)的準(zhǔn)確率。
秦嶺終南山公路隧道長18.02 km,通風(fēng)方案采用三座豎井的縱向式通風(fēng),以此改善其運(yùn)行環(huán)境和安全性。此方案通風(fēng)豎井口徑和埋深大,最大埋深處的最大水平主應(yīng)力為21.04 MPa,屬于高地應(yīng)力水平,存在發(fā)生巖爆的可能[27]。
應(yīng)用本文構(gòu)建的熵權(quán)法優(yōu)化LGBM巖爆預(yù)測(cè)模型對(duì)終南山隧道通風(fēng)豎井巖爆等級(jí)進(jìn)行預(yù)測(cè),結(jié)果見表6。由表6可知,終南山隧道通風(fēng)豎井會(huì)發(fā)生不同級(jí)別的巖爆,與實(shí)際情況基本相符,表明熵權(quán)法優(yōu)化LGBM算法模型能夠有效預(yù)測(cè)巖爆的發(fā)生。
表6 終南山隧道通風(fēng)豎井巖爆預(yù)測(cè)驗(yàn)證
a.對(duì)比熵權(quán)法優(yōu)化LGBM模型與傳統(tǒng)的LGBM模型,組合模型具有更高的預(yù)測(cè)準(zhǔn)確率,表明熵權(quán)法對(duì)提高LGBM算法的預(yù)測(cè)準(zhǔn)確率有明顯效果。
b.將熵權(quán)法優(yōu)化LGBM模型測(cè)試集預(yù)測(cè)結(jié)果與RF、XGBoost預(yù)測(cè)模型進(jìn)行對(duì)比,發(fā)現(xiàn)組合模型比其他單一模型具有更高的預(yù)測(cè)準(zhǔn)確率。
c.利用本文建立的巖爆預(yù)測(cè)模型對(duì)終南山隧道通風(fēng)豎井進(jìn)行巖爆等級(jí)預(yù)測(cè),發(fā)現(xiàn)預(yù)測(cè)結(jié)果與現(xiàn)場(chǎng)巖爆發(fā)生情況基本一致,驗(yàn)證了本文所建模型的可靠性。