王 凱,李子彬
(1.中國(guó)有色金屬工業(yè)昆明勘察設(shè)計(jì)研究院有限公司,云南 昆明 650000;2.昆明理工大學(xué) 國(guó)土資源工程學(xué)院,云南 昆明 650093)
隨著礦山開采向深部轉(zhuǎn)移,工作面處于高地應(yīng)力、高地溫、高巖溶水壓以及強(qiáng)擾動(dòng)等環(huán)境中,巖爆災(zāi)害呈增加趨勢(shì)[1-2]。巖爆是高地應(yīng)力條件下地下洞室開挖過程中因圍巖開挖卸荷而發(fā)生脆性破壞,儲(chǔ)存于巖體中的彈性應(yīng)變能突然釋放且產(chǎn)生爆裂松脫、剝落、彈射甚至拋擲現(xiàn)象的一種動(dòng)力失穩(wěn)地質(zhì)災(zāi)害[3]。巖爆具有很強(qiáng)的突發(fā)性、隨機(jī)性和危害性,已成為威脅井下安全生產(chǎn)的重大災(zāi)害之一[4-5]。因此,提高巖爆預(yù)測(cè)準(zhǔn)確性對(duì)于保障礦山安全生產(chǎn)至關(guān)重要。
機(jī)器學(xué)習(xí)作為人工智能的一個(gè)分支,國(guó)內(nèi)外不少學(xué)者將其引入巖爆等級(jí)預(yù)測(cè)預(yù)警領(lǐng)域,獲得了較好的效果。湯志立等[6]引入機(jī)器學(xué)習(xí)算法建立了9個(gè)考慮多因素的巖爆預(yù)測(cè)模型;謝學(xué)斌等[7]基于改進(jìn)的CRITIC算法以及XGBoost對(duì)樣本進(jìn)行加權(quán)和計(jì)算訓(xùn)練,建立了CRITIC-XGB巖爆傾向性等級(jí)預(yù)測(cè)模型;喬木等[8-9]基于主客觀組合賦權(quán)和物元可拓理論建立了巖爆傾向性預(yù)測(cè)模型;胡建華等[10]采用消除云霧化的綜合權(quán)重法建立了多指標(biāo)巖爆傾向性的改進(jìn)有限云評(píng)價(jià)模型;吳順川等[11]采用主成分分析法(PCA)對(duì)數(shù)據(jù)進(jìn)行降維,結(jié)合概率神經(jīng)網(wǎng)絡(luò)(PNN)建立了巖爆烈度預(yù)測(cè)模型;劉曉悅等[12]引入AdaBoost集成學(xué)習(xí)算法對(duì)BAS-SVM弱學(xué)習(xí)器進(jìn)行了強(qiáng)化訓(xùn)練,建立了AdaBoost-BAS-SVM巖爆等級(jí)預(yù)測(cè)模型;劉劍等[13]基于修正散點(diǎn)圖矩陣與隨機(jī)森林進(jìn)行了巖爆傾向性等級(jí)預(yù)測(cè);劉德軍等[14]融合8個(gè)機(jī)器學(xué)習(xí)算法,提出了3組考慮多個(gè)巖爆預(yù)測(cè)指標(biāo)的Stacking集成算法。
從現(xiàn)有研究成果來看,機(jī)器學(xué)習(xí)應(yīng)用于巖爆預(yù)測(cè)是可行的。然而各種機(jī)器學(xué)習(xí)算法都有其優(yōu)越性和魯棒性,僅將一種或幾種算法簡(jiǎn)單融合得到的模型預(yù)測(cè)效果并不理想或泛化性不強(qiáng)。因此,本文基于Voting和Stacking集成算法,融合現(xiàn)階段準(zhǔn)確率較高的幾種機(jī)器學(xué)習(xí)算法,建立集成分類器預(yù)測(cè)巖爆傾向性。此外,選用精確率、準(zhǔn)確率、召回率及F1分?jǐn)?shù)作為評(píng)價(jià)指標(biāo),綜合評(píng)估幾種基礎(chǔ)分類器和集成分類器的性能,擇優(yōu)選擇最佳分類器,并將其應(yīng)用于秦嶺隧道進(jìn)行巖爆預(yù)測(cè),以檢驗(yàn)?zāi)P偷目煽啃浴?/p>
根據(jù)烈度將巖爆劃分為無巖爆(Ⅰ級(jí))、輕微巖爆(Ⅱ級(jí))、中等巖爆(Ⅲ級(jí))、強(qiáng)烈?guī)r爆(Ⅳ級(jí))。從巖爆的影響因素出發(fā),考慮了應(yīng)力條件、脆性條件及能量因素,選取最大切向應(yīng)力SMT、應(yīng)力集中系數(shù)FSC、脆性系數(shù)B1、彈性能量指數(shù)Wet等作為指標(biāo)。本文一共選擇231組巖爆數(shù)據(jù),均來自國(guó)內(nèi)外公開發(fā)表的文獻(xiàn)[15-16],其中,無巖爆(Ⅰ級(jí))37例,輕微巖爆(Ⅱ級(jí))72例,中等巖爆(Ⅲ級(jí))79例,強(qiáng)烈?guī)r爆(Ⅳ級(jí))43例。巖爆數(shù)據(jù)及等級(jí)分布見圖 1。
圖 1 巖爆數(shù)據(jù)及等級(jí)分布
為分析數(shù)據(jù)異常情況,以各指標(biāo)數(shù)據(jù)按不同巖爆等級(jí)繪制箱型圖(見圖 2)。
圖 2 各指標(biāo)數(shù)據(jù)箱型圖
由圖2可知,各指標(biāo)均存在異常數(shù)據(jù),考慮到工程實(shí)際情況,本文并未刪除這些異常值,保留異常離群值的全部樣本作為數(shù)據(jù)集,建立巖爆預(yù)測(cè)算法。
建立模型之前,首先對(duì)所有數(shù)據(jù)作標(biāo)準(zhǔn)化處理(特征縮放),其原理是針對(duì)每個(gè)特征維度去均值和歸一化,而不是針對(duì)樣本,使得處理后的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布,以解決數(shù)據(jù)不均衡的問題。其轉(zhuǎn)換函數(shù)為
(1)
式中,μ為所有樣本的均值,σ為所有樣本的標(biāo)準(zhǔn)差。
Voting是一種集成學(xué)習(xí),結(jié)合多個(gè)機(jī)器學(xué)習(xí)模型預(yù)測(cè)結(jié)果而產(chǎn)生最終結(jié)果(見圖 3)。在整個(gè)數(shù)據(jù)集上訓(xùn)練多個(gè)基礎(chǔ)模型來進(jìn)行預(yù)測(cè),每個(gè)模型預(yù)測(cè)結(jié)果被認(rèn)為是一個(gè)“投票”,得到多數(shù)選票的預(yù)測(cè)結(jié)果將被選為最終預(yù)測(cè)結(jié)果。投票方法分為硬投票和軟投票兩種(見圖 4),硬投票將N個(gè)基礎(chǔ)模型預(yù)測(cè)結(jié)果按數(shù)量票選出最終結(jié)果,軟投票將N個(gè)基礎(chǔ)模型預(yù)測(cè)的概率平均值作為最終結(jié)果。
圖 3 Voting集成算法原理
圖4 硬投票和軟投票
Stacking也被稱為疊加泛化,目的是通過使用不同的泛化器來減少錯(cuò)誤,其結(jié)合策略是使用另一個(gè)機(jī)器學(xué)習(xí)算法來將個(gè)體學(xué)習(xí)器的結(jié)果結(jié)合在一起。在Stacking算法中,個(gè)體學(xué)習(xí)器又稱為初級(jí)學(xué)習(xí)器,用于結(jié)合的學(xué)習(xí)器稱作元學(xué)習(xí)器(Meta-model)。將初級(jí)學(xué)習(xí)器的預(yù)測(cè)結(jié)果作為新的特征輸入元學(xué)習(xí)器,得到最終預(yù)測(cè)結(jié)果(見圖5)。
圖 5 Stacking集成算法原理
2.3.1 集成算法構(gòu)建
本文基于Scikit-learn基礎(chǔ)算法包對(duì)數(shù)據(jù)集進(jìn)行學(xué)習(xí),考慮到各算法的原理、優(yōu)缺點(diǎn)及精確率,選擇邏輯回歸(LR)、隨機(jī)森林(RF)、支持向量機(jī)(SVM)、決策樹(DT)、K近鄰(KNN)、高斯樸素貝葉斯(GNB)等6種基礎(chǔ)機(jī)器學(xué)習(xí)方法,其精確率分別為0.70、0.93、0.94、0.92、0.90、0.92。先將數(shù)據(jù)集輸入6種機(jī)器學(xué)習(xí)算法模型中得到初始預(yù)測(cè)結(jié)果,根據(jù)Voting集成算法分別進(jìn)行硬投票和軟投票,得到Voting集成分類器1(V1)和Voting集成分類器2(V2);Stacking集成算法的初級(jí)學(xué)習(xí)器也由6個(gè)基本算法構(gòu)成,并分別從中選擇準(zhǔn)確率最高的兩種(RF、SVM)作為元模型,由此得到Stacking集成分類器1(S1)和Stacking集成分類器2(S2)。
圖6 構(gòu)建集成分類器V1、V2、S1和S2
2.3.2 交叉驗(yàn)證及超參數(shù)調(diào)優(yōu)
為使建立的分類器具有更好的泛化性,本文引入K折交叉驗(yàn)證(K-fold cross-validation)[17],K值取10,其原理見圖 7。將原始數(shù)據(jù)集分割為相等的K部分,依次將每個(gè)部分作為測(cè)試集,其余部分作為訓(xùn)練集,訓(xùn)練分類器,將K次準(zhǔn)確率的平均值作為最終的準(zhǔn)確率。
圖7 K折交叉驗(yàn)證
邏輯回歸分類器(LR)中C值為正則化懲罰參數(shù),其值越小懲罰力度越大,取0.01;隨機(jī)森林分類器(RF)中基評(píng)估器數(shù)量(estimators)為100,隨機(jī)因子(random state)取10;支持向量機(jī)分類器中C值懲罰因子為1.0,核函數(shù)為徑向基函數(shù)RBF,決策函數(shù)類型選擇一對(duì)一;決策樹分類器中最大深度為2;K近鄰分類器中用于查詢鄰居的數(shù)量為2。
準(zhǔn)確率(Precision)和召回率(Recall)是廣泛應(yīng)用于信息檢索和統(tǒng)計(jì)學(xué)分類領(lǐng)域的兩個(gè)度量值,分別衡量分類器的查準(zhǔn)率和查全率。圖 8列舉了所有分類器各個(gè)等級(jí)的預(yù)測(cè)結(jié)果,計(jì)算了各等級(jí)的準(zhǔn)確率、召回率及全部結(jié)果的精確率(Accuracy),并組成了混淆矩陣。
由圖8可知:預(yù)測(cè)為Ⅰ級(jí)樣本中準(zhǔn)確率最高的是集成分類器S1、SVM,準(zhǔn)確率為1,其次為集成分類器V1、RF,準(zhǔn)確率為0.949;所有Ⅰ級(jí)樣本中預(yù)測(cè)最全的是集成分類器S1、V1、RF,召回率為1。預(yù)測(cè)為Ⅱ級(jí)樣本中準(zhǔn)確率最高的是集成分類器S1,準(zhǔn)確率為1;其次是SVM,準(zhǔn)確率為0.986。所有Ⅱ級(jí)樣本中預(yù)測(cè)最全的是集成分類器S1、SVM,召回率為0.986。預(yù)測(cè)為Ⅲ級(jí)樣本中準(zhǔn)確率最高的是集成分類器S2,準(zhǔn)確率為0.949,其次是集成分類器S1,準(zhǔn)確率為0.948。所有Ⅲ級(jí)樣本中預(yù)測(cè)最全的是LR,召回率為0.975;其次是KNN,召回率為0.962。預(yù)測(cè)為Ⅳ級(jí)樣本中準(zhǔn)確率最高的是集成分類器V1,準(zhǔn)確率為0.944;其次是KNN,準(zhǔn)確率為0.938。所有Ⅳ級(jí)樣本中預(yù)測(cè)最全的是RF,召回率為0.953;其次是集成分類器S1、S2、DT,召回率為0.930。
圖8 各算法混淆矩陣
對(duì)于Ⅰ級(jí)、Ⅱ級(jí)樣本,6個(gè)基礎(chǔ)分類器中SVM、RF預(yù)測(cè)效果更好,4個(gè)集成分類器中S1、V1預(yù)測(cè)效果更好。對(duì)于Ⅲ級(jí)、Ⅳ級(jí)樣本,6個(gè)基礎(chǔ)分類器中KNN預(yù)測(cè)效果更好,4個(gè)集成分類器中S1、S2預(yù)測(cè)效果更好。從整體精確率來看,6個(gè)基礎(chǔ)分類器中SVM、RF預(yù)測(cè)效果更好,4個(gè)集成分類器中S1、S2預(yù)測(cè)效果更好。
根據(jù)混淆矩陣計(jì)算各算法的精確率、準(zhǔn)確率、召回率及F1分?jǐn)?shù)(見表 1)。由表1可知,6個(gè)基礎(chǔ)分類器中預(yù)測(cè)效果最好的是RF和SVM,精確率分別為0.93、0.94,準(zhǔn)確率、召回率及F1分?jǐn)?shù)也優(yōu)于其他基礎(chǔ)分類器;LR由于對(duì)Ⅰ級(jí)、Ⅳ級(jí)樣本不敏感,導(dǎo)致整體預(yù)測(cè)效果欠佳。
表1 各算法精確率、準(zhǔn)確率、召回率及F1分?jǐn)?shù)
集成分類器相對(duì)于基礎(chǔ)分類器均有不同程度的提升,為了更直觀地對(duì)比集成分類器的優(yōu)化效果,圖 9列舉了4個(gè)集成分類器相對(duì)于基礎(chǔ)分類器中RF、SVM的性能提升情況。由圖9可知:相對(duì)于RF,S1、S2性能提升較明顯;V1、V2基于投票原理,受基礎(chǔ)分類器中較差的LR、GNB影響,預(yù)測(cè)效果稍差;相對(duì)于SVM,S1性能提升較明顯,S2預(yù)測(cè)性能與其持平;V1、V2均因投票機(jī)制所限性能稍有降低。整體來看,4個(gè)集成分類器中S1較基礎(chǔ)分類器性能提升最顯著,預(yù)測(cè)效果最佳,精確率、準(zhǔn)確率、召回率、F1分?jǐn)?shù)分別為0.95、0.97、0.96、0.95。
圖9 集成分類器相對(duì)于RF、SVM的性能對(duì)比
秦嶺隧道為西安-安康鐵路線上的重大控制工程,位于陜西省長(zhǎng)安縣與柞水縣交界處,長(zhǎng)18 km,近南北向穿越近東西向展布的秦嶺山脈,最大埋深達(dá)1 600 m。隧道穿越的巖體主要為混合片麻巖和混合花崗巖,其中混合片麻巖的單軸抗壓強(qiáng)度為95~130 MPa,最大主應(yīng)力為20~40 MPa。巖爆主要發(fā)生在洞身拱部,電鏡掃描巖爆破裂面發(fā)現(xiàn)主要是張拉破壞,局部為剪切破壞[17]。
根據(jù)秦嶺隧道施工過程中實(shí)際發(fā)生巖爆的4處記錄,樁號(hào)分別為1+731、1+640、3+390、3+000,巖爆等級(jí)為Ⅱ級(jí)、Ⅲ級(jí)。將本文構(gòu)建的集成分類器S1應(yīng)用于秦嶺隧道的巖爆傾向性分析,結(jié)果見表 2。由表2可知,S1預(yù)測(cè)結(jié)果與秦嶺隧道實(shí)際情況一致,驗(yàn)證了該分類器在實(shí)際應(yīng)用中的可靠性及準(zhǔn)確性。
表2 秦嶺隧道巖爆數(shù)據(jù)及預(yù)測(cè)結(jié)果
為合理預(yù)測(cè)巖爆災(zāi)害的烈度,本文考慮了巖爆發(fā)生的主要因素,采用Voting和Stacking集成算法,結(jié)合6種機(jī)器學(xué)習(xí)算法建立了4個(gè)集成分類器V1、V2、S1、S2,對(duì)其預(yù)測(cè)效果進(jìn)行了對(duì)比分析,得到以下主要結(jié)論:
a.基礎(chǔ)分類器各有優(yōu)劣,對(duì)不同等級(jí)的樣本敏感程度也不盡相同,其中,SVM、RF對(duì)Ⅰ級(jí)、Ⅱ級(jí)樣本較敏感,KNN對(duì)Ⅲ級(jí)、Ⅳ級(jí)樣本更敏感。整體來看,LR由于對(duì)Ⅰ級(jí)、Ⅳ級(jí)樣本不敏感,導(dǎo)致預(yù)測(cè)效果欠佳;預(yù)測(cè)效果最好的是RF和SVM,精確率分別為0.93、0.94。
b.Voting和Stacking集成算法均能有效融合各基礎(chǔ)機(jī)器學(xué)習(xí)算法結(jié)果,充分發(fā)揮各算法優(yōu)勢(shì),集成分類器相對(duì)于基礎(chǔ)分類器性能均有不同程度的提升。根據(jù)投票機(jī)制,基于Voting集成算法的分類器易受性能較差的基礎(chǔ)分類器影響,整體性能弱于Stacking集成算法。
c.4個(gè)集成分類器中S1、V1對(duì)Ⅰ級(jí)、Ⅱ級(jí)樣本較敏感,S1、S2對(duì)Ⅲ級(jí)、Ⅳ級(jí)樣本更敏感。整體來看,S1較基礎(chǔ)分類器性能提升最顯著,預(yù)測(cè)效果最佳,精確率、準(zhǔn)確率、召回率、F1分?jǐn)?shù)分別為0.95、0.97、0.96、0.95。
d.將基于Stacking算法構(gòu)建的集成分類器S1應(yīng)用于秦嶺隧道巖爆預(yù)測(cè),預(yù)測(cè)結(jié)果與工程現(xiàn)場(chǎng)實(shí)際一致,驗(yàn)證了其可靠性。