仉文崗,李紅蕊,巫崇智,王林,2,3
(1.重慶大學(xué)土木工程學(xué)院,重慶 400045;2.庫(kù)區(qū)環(huán)境地質(zhì)災(zāi)害防治國(guó)家地方聯(lián)合工程研究中心(重慶大學(xué)),重慶 400045;3.山地城鎮(zhèn)建設(shè)與新技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室(重慶大學(xué)),重慶 400045)
地下采場(chǎng)的穩(wěn)定性是采礦作業(yè)安全性的主要關(guān)注點(diǎn),對(duì)采場(chǎng)生產(chǎn)率有著重要影響.確定采場(chǎng)穩(wěn)定性的普遍方法是通過(guò)對(duì)巖石力學(xué)參數(shù)進(jìn)行評(píng)估,然后采用巖石質(zhì)量Q系統(tǒng)分類法、RMR(rock mass rating)分類法或地質(zhì)強(qiáng)度指標(biāo)(GSI)等方法對(duì)巖石進(jìn)行評(píng)分,最終根據(jù)相應(yīng)的分級(jí)標(biāo)準(zhǔn)[1-3],確定巖石的穩(wěn)定性程度.近年來(lái),一些方法如數(shù)值模擬法[4]、臨界跨度圖法[5]以及Mathews穩(wěn)定圖法[6-7]等被提出用于預(yù)測(cè)礦洞的穩(wěn)定性,然而這些方法比較傳統(tǒng),經(jīng)驗(yàn)性較強(qiáng).在數(shù)據(jù)挖掘時(shí)代,越來(lái)越多的準(zhǔn)確可靠的機(jī)器學(xué)習(xí)算法模型應(yīng)用于實(shí)際工程中指導(dǎo)工程師判斷礦體穩(wěn)定性[8-11].
Wang等[12]采用神經(jīng)網(wǎng)絡(luò)算法,選取由加拿大6個(gè)地下采場(chǎng)組成的數(shù)據(jù)庫(kù)(292組數(shù)據(jù)),將采場(chǎng)跨度、RMR值、Q值作為輸入?yún)?shù),對(duì)數(shù)據(jù)庫(kù)進(jìn)行訓(xùn)練并創(chuàng)建神經(jīng)網(wǎng)絡(luò)“專家”,進(jìn)而對(duì)不同測(cè)試集進(jìn)行訓(xùn)練得到預(yù)測(cè)模型,應(yīng)用神經(jīng)網(wǎng)絡(luò)得到的跨度設(shè)計(jì)圖與經(jīng)驗(yàn)設(shè)計(jì)方法相比得到顯著改進(jìn).García-Gonzalo等[5]提出采用支持向量機(jī)(Support Vector Machine,SVM)和極限學(xué)習(xí)(Extreme Learning Machine,ELM)方法對(duì)加拿大采場(chǎng)更新的數(shù)據(jù)庫(kù)(8個(gè)地下采場(chǎng),399組觀測(cè)數(shù)據(jù))對(duì)應(yīng)的臨界跨度圖進(jìn)行重新劃分區(qū)域,與Lang[13]根據(jù)加拿大Detour Lake Mine中的172組數(shù)據(jù)提出的臨界跨度圖穩(wěn)定性分區(qū)范圍作比較,結(jié)果吻合較好,并在此基礎(chǔ)上進(jìn)行了優(yōu)化.Goh等[14]結(jié)合多元自適應(yīng)回歸樣條與邏輯回歸兩種方法(Multivariate Adaptive Regression Splines and Logistic Regression,MARS_LR),首次采用新的評(píng)估標(biāo)準(zhǔn)——第一類犯錯(cuò)率及第二類犯錯(cuò)率對(duì)預(yù)測(cè)模型的準(zhǔn)確性進(jìn)行評(píng)估,預(yù)測(cè)地下采場(chǎng)開(kāi)挖穩(wěn)定性.
然而,以上經(jīng)典的機(jī)器學(xué)習(xí)模型——神經(jīng)網(wǎng)絡(luò),雖然預(yù)測(cè)結(jié)果精確,但對(duì)數(shù)據(jù)量要求高,且計(jì)算量大,較為費(fèi)時(shí)[15].對(duì)于SVM等算法,盡管模型預(yù)測(cè)能力令人相對(duì)滿意,但模型解釋性差且調(diào)整參數(shù)過(guò)程繁瑣.此外,廣泛應(yīng)用于巖土工程領(lǐng)域的MARS方法[16-17],其在解決問(wèn)題時(shí)需要涉及具體的表達(dá)公式,在計(jì)算應(yīng)用時(shí)較為復(fù)雜.因此本文采取機(jī)器學(xué)習(xí)方法中RF算法與KNN算法來(lái)避免上述問(wèn)題.這兩種機(jī)器學(xué)習(xí)方法可解釋性強(qiáng),對(duì)變量之間隱藏的關(guān)系不進(jìn)行任何假設(shè),直接體現(xiàn)變量間的交互作用,便于計(jì)算變量的非線性作用,從而提高模型泛化能力,在處理非平衡的數(shù)據(jù)時(shí)結(jié)果更加穩(wěn)健.
鑒于此,以加拿大地下采場(chǎng)實(shí)測(cè)數(shù)據(jù)為例,研究RF與KNN算法對(duì)采場(chǎng)開(kāi)挖穩(wěn)定性預(yù)測(cè)的可行性.結(jié)合臨界跨度圖法對(duì)RMR值、跨度以及對(duì)應(yīng)穩(wěn)定性狀態(tài)進(jìn)行了綜合分析,然后詳細(xì)介紹了RF算法、KNN算法及預(yù)測(cè)模型準(zhǔn)確性評(píng)估準(zhǔn)則,在三分類及二分類方式下,基于10折交叉驗(yàn)證理論進(jìn)行超參數(shù)優(yōu)化.最后,通過(guò)計(jì)算各種模型評(píng)價(jià)指標(biāo)和ROC曲線定量檢驗(yàn),對(duì)比分析不同分類方式下預(yù)測(cè)模型的表現(xiàn),探討本文方法的可行性.
在許多礦洞填挖工程中,經(jīng)驗(yàn)法因其簡(jiǎn)單性且不需要完全掌握巖體力學(xué)參數(shù)等優(yōu)勢(shì)而被廣泛采用,其通常不考慮實(shí)際的破壞機(jī)制,而是根據(jù)綜合很多案例得出的規(guī)律進(jìn)行預(yù)判,具有一定的代表性,因此常被工程師應(yīng)用于設(shè)計(jì)初級(jí)階段對(duì)巖石穩(wěn)定性進(jìn)行初步判斷.
臨界尺寸圖是一種被廣泛應(yīng)用于地下采場(chǎng)開(kāi)挖穩(wěn)定性評(píng)估的經(jīng)驗(yàn)理論,由加拿大學(xué)者Lang首次提出[13].本文根據(jù)采場(chǎng)的跨度、巖石質(zhì)量分級(jí)RMR值(依據(jù)Bieniawski于1976年提出的RMR分類法[18])及礦洞穩(wěn)定性等信息繪制成臨界跨度圖,可明顯地將區(qū)域分為3部分,即穩(wěn)定、潛在不穩(wěn)定和不穩(wěn)定區(qū)域(見(jiàn)圖1).通過(guò)觀察礦洞不同穩(wěn)定程度的分區(qū)范圍,對(duì)類似地質(zhì)條件的礦洞穩(wěn)定性進(jìn)行初步判斷.
圖1 臨界跨度圖(改編自文獻(xiàn)[13])Fig.1 Critical span graph(Adapted from[13])
表1中總結(jié)了加拿大8個(gè)礦山的399組歷史數(shù)據(jù),其中包含241個(gè)穩(wěn)定案例,78個(gè)潛在不穩(wěn)定案例和80個(gè)不穩(wěn)定案例,具體包括RMR分值、跨度以及相應(yīng)的礦洞穩(wěn)定性狀態(tài)等信息.圖2統(tǒng)計(jì)了輸入?yún)?shù)RMR值和跨度直方圖,關(guān)于案例的詳細(xì)介紹,讀者可參考文獻(xiàn)[19].
表1 歷史數(shù)據(jù)統(tǒng)計(jì)表Tab.1 Data sources of the case histories
由于礦洞實(shí)際觀測(cè)情況分為穩(wěn)定、潛在不穩(wěn)定和不穩(wěn)定三種狀態(tài),大部分研究根據(jù)臨界跨度圖將數(shù)據(jù)分為三組,但潛在不穩(wěn)定狀態(tài)與另外兩種狀態(tài)的邊界劃分不夠明顯.García-Gonzalo[5]、Goh等[14]考慮了臨界跨度圖的替代形式,即把不穩(wěn)定及潛在不穩(wěn)定均視為不穩(wěn)定,只考慮穩(wěn)定和不穩(wěn)定兩種情況繪制臨界跨度圖.為了對(duì)比不同分類方式對(duì)預(yù)測(cè)結(jié)果準(zhǔn)確性的影響,本文采用RF和KNN算法對(duì)三分類與二分類兩種方式進(jìn)行預(yù)測(cè)分析.此外,在二分類方式下,采用ROC曲線下AUC面積值對(duì)不同算法的表現(xiàn)進(jìn)行對(duì)比分析.
圖2 直方圖Fig.2 Histograms
RF是由Breiman提出的基于CART決策樹(shù)(Classification and regression trees)的集成算法[20].目前該算法已廣泛用于分類、回歸和無(wú)監(jiān)督學(xué)習(xí)等方面.對(duì)于多分類問(wèn)題,采用隨機(jī)抽樣形成多個(gè)分類器,可收斂到更低的泛化誤差[21],有效地提高了算法的泛化能力,并且運(yùn)算可實(shí)現(xiàn)高度并行化,進(jìn)而提升模型計(jì)算效率[22-24].另外,RF算法對(duì)于不平衡樣本分類表現(xiàn)優(yōu)異,本文數(shù)據(jù)庫(kù)中不穩(wěn)定案例數(shù)量少于穩(wěn)定案例數(shù)量,因此可以通過(guò)分析預(yù)測(cè)結(jié)果來(lái)驗(yàn)證預(yù)測(cè)模型的適用性.
RF算法利用bootstrap重抽樣方法從原始樣本中抽取多個(gè)樣本組合構(gòu)成多棵決策樹(shù)(見(jiàn)圖3),在不同決策樹(shù)演化過(guò)程中隨機(jī)改變預(yù)測(cè)變量組合來(lái)增加分類樹(shù)的多樣性,經(jīng)過(guò)n輪訓(xùn)練,將不同決策樹(shù)h1在樣本x上的預(yù)測(cè)輸出表示為一個(gè)N維向量,,其中是hi在類別標(biāo)記ck上的輸出.采用多數(shù)投票機(jī)制決定最終分類結(jié)果[25],分類決策公式見(jiàn)式(1).
式中:類別標(biāo)記ck∈{c1,c2,…,cN};H(x)表示輸出類別,即預(yù)測(cè)為得票最多的標(biāo)記,若同時(shí)有多個(gè)標(biāo)記獲得最高票,則從中隨機(jī)選取一個(gè)標(biāo)記.式(1)解釋了該算法采用多數(shù)投票決策方式的原理.
圖3 RF預(yù)測(cè)模型原理圖Fig.3 Establishment of RF prediction model
KNN算法是一種基于統(tǒng)計(jì)的非參數(shù)模式識(shí)別分類算法,由Yakowitz首次提出并應(yīng)用于時(shí)間序列預(yù)測(cè)方面[26].由于其實(shí)現(xiàn)過(guò)程的簡(jiǎn)單性,已在很多領(lǐng)域得到應(yīng)用,如文本分類[27]、短期需水量預(yù)測(cè)[28]、年平均降雨量預(yù)報(bào)[29]等.該算法簡(jiǎn)單易用,但對(duì)內(nèi)存要求較高,其在學(xué)習(xí)過(guò)程中簡(jiǎn)單地存儲(chǔ)已知的所有訓(xùn)練數(shù)據(jù),當(dāng)遇到新的查詢樣本時(shí),取出一系列相似的樣本,用來(lái)分類新的查詢樣本.圖4為三分類情況下,KNN算法原理示意圖.
圖4 KNN算法原理示意圖Fig.4 Schematic diagram of k-nearest neighbor algorithm
假定所有的樣本對(duì)應(yīng)于n維空間R″中的點(diǎn),一個(gè)樣本的最近鄰可根據(jù)標(biāo)準(zhǔn)的歐氏距離定義[30].任意的樣本x表示為特征向量x={x1,x2,…,xi},xi表示樣本x的第i個(gè)特征值.那么兩個(gè)樣本xm和xn的距離定義為d(xm,xn),在二維和三維空間中的歐氏距離即兩點(diǎn)之間的實(shí)際距離,計(jì)算公式為:
給定一個(gè)待分類的樣本xm,x1,x2,…,xk表示訓(xùn)練集中與xm距離最近的K neighbors個(gè)樣本,使用最近鄰的大多數(shù)投票法作為待查詢樣本的預(yù)測(cè)值.
在計(jì)算模型準(zhǔn)確率的時(shí)候,許多研究常采用正確率和判錯(cuò)率來(lái)判斷模型的準(zhǔn)確性,然而只采用這兩個(gè)指標(biāo)不足以全面說(shuō)明模型的準(zhǔn)確性,因此采用混淆矩陣來(lái)計(jì)算模型對(duì)任何一種情況的判斷準(zhǔn)確率或者失誤率是必不可少的.混淆矩陣是一個(gè)評(píng)估分類模型表現(xiàn)好壞的表格,矩陣的列代表實(shí)際分類情況,行代表預(yù)測(cè)分類情況,三分類混淆矩陣如表2所示,對(duì)于二分類方式同理,在此不再贅述.
表2 混淆矩陣Tab.2 Confusion matrix
混淆矩陣的每個(gè)單元代表不同預(yù)測(cè)狀態(tài)與實(shí)際狀態(tài)對(duì)應(yīng)的統(tǒng)計(jì)數(shù).采用表3中評(píng)價(jià)指標(biāo)判斷模型準(zhǔn)確性:召回率(Recall rate)表示模型對(duì)地下采場(chǎng)三種穩(wěn)定性狀態(tài)判斷的正確率,如式(3)所示,這個(gè)數(shù)值代表模型對(duì)每種情況判斷正確的概率,在很大程度上決定了模型的適用性;模型的精確度(Precision)表示為式(4).模型判斷準(zhǔn)確率(Accuracy)定義為式(5).
表3 評(píng)價(jià)指標(biāo)Tab.3 Evaluation criteria
此外,采用受試者工作特征曲線(Receiver Operating Characteristic Curve,ROC曲線)來(lái)評(píng)估兩種算法的性能,ROC曲線圖是反映敏感性與特異性之間關(guān)系的曲線,橫坐標(biāo)X軸為假陽(yáng)性率(誤報(bào)率),縱坐標(biāo)Y軸為真陽(yáng)性率(敏感度).ROC曲線下方部分的面積被稱為AUC(Area Under Curve),用來(lái)表示預(yù)測(cè)準(zhǔn)確性,AUC值越高,即曲線下方面積越大,說(shuō)明預(yù)測(cè)準(zhǔn)確率越高[31-32].AUC的值介于0.0~1.0,表現(xiàn)出色的模型AUC值高于0.9,一般的模型AUC值介于0.7~0.9,當(dāng)AUC值小于0.7時(shí),模型效果較差[33].
通常情況下,將不穩(wěn)定判斷為穩(wěn)定的代價(jià)要遠(yuǎn)高于將穩(wěn)定判斷為不穩(wěn)定的代價(jià),因此降低模型對(duì)不穩(wěn)定判斷為穩(wěn)定的概率,即提高不穩(wěn)定情況的召回率是至關(guān)重要的.本文將重點(diǎn)分析兩種算法在不同分類模式下的召回率及模型準(zhǔn)確率,旨在提高模型實(shí)用性和可靠性.
為了對(duì)比RF和KNN算法的表現(xiàn),設(shè)定兩種算法的訓(xùn)練集與測(cè)試集是相同的,均從399個(gè)數(shù)據(jù)中隨機(jī)選出299個(gè)數(shù)據(jù)作為訓(xùn)練集,剩余100個(gè)作為測(cè)試集.將礦洞穩(wěn)定情況分別按照三分類和二分類兩種方式進(jìn)行預(yù)測(cè),并根據(jù)AUC值對(duì)兩種算法的表現(xiàn)進(jìn)行對(duì)比,確定表現(xiàn)更好的模型.兩種算法具體計(jì)算流程詳見(jiàn)圖5.
圖5 預(yù)測(cè)模型建立流程圖Fig.5 Prediction model establishment flow chart
超參數(shù)是在建立模型前設(shè)定的一組參數(shù),是用于控制模型好壞的調(diào)節(jié)旋鈕,調(diào)節(jié)超參數(shù)的目的是使模型在數(shù)據(jù)處理過(guò)程中訓(xùn)練難度與模型效果達(dá)到平衡.RF預(yù)測(cè)模型建立的最關(guān)鍵步驟是設(shè)置超參數(shù)N estimators和Max depth,分別代表樹(shù)的數(shù)量和最大深度.如果N estimators的值很大,計(jì)算模型的復(fù)雜性會(huì)增加,反之,訓(xùn)練可能會(huì)不充分.若Max depth的值很大,模型容易發(fā)生過(guò)擬合;若其值很小,則模型的準(zhǔn)確性可能會(huì)降低.
在分類模型建立過(guò)程中必然存在相應(yīng)的決策邊界,當(dāng)N estimators或Max depth達(dá)到一定值后,模型準(zhǔn)確性往往不再上升或開(kāi)始波動(dòng).通常利用全局搜索先確定一個(gè)學(xué)習(xí)分?jǐn)?shù)較高的區(qū)間,然后根據(jù)這一范圍細(xì)化參數(shù)取值,進(jìn)行局部搜索得到最優(yōu)超參數(shù)組合.
本文選定N estimators取值范圍為[10,200]之間的整數(shù),Max depth取值范圍為[1,10]之間的整數(shù).同樣在采用KNN算法時(shí),其超參數(shù)K neighbors對(duì)模型影響最大,選定取值范圍為[1,20].然后,采用10折交叉驗(yàn)證方法[34]優(yōu)化模型參數(shù),即將樣本數(shù)據(jù)分為10個(gè)子集,9個(gè)子集用于訓(xùn)練模型,剩余子集用于測(cè)試,子集交替充當(dāng)獨(dú)立測(cè)試集,而其他子集充當(dāng)訓(xùn)練集[35].這個(gè)過(guò)程增加了訓(xùn)練子集多樣性,同時(shí)保證了均勻采樣.
基于上述方法,按照召回率和準(zhǔn)確率最高的原則,繪制超參數(shù)學(xué)習(xí)曲線,得到三分類及二分類情況下N estimators、Max depth及K neighbors最優(yōu)值,設(shè)定超參數(shù),將訓(xùn)練集的變量作為輸入值來(lái)生成RF與KNN預(yù)測(cè)模型.采用測(cè)試集對(duì)模型進(jìn)行驗(yàn)證,得到最終的準(zhǔn)確率和召回率,其中具體超參數(shù)優(yōu)化過(guò)程詳見(jiàn)圖6、圖7.
圖6 RF算法超參數(shù)優(yōu)化Fig.6 Hyper-parameter optimization process of RF algorithm
圖7 KNN算法超參數(shù)優(yōu)化Fig.7 Hyper-parameter optimization process of KNN algorithm
基于RF和KNN算法,兩種分類方式下訓(xùn)練集及測(cè)試集的預(yù)測(cè)結(jié)果如圖8、圖9所示.在三分類情況下,對(duì)比兩種算法訓(xùn)練集結(jié)果,RF算法對(duì)不穩(wěn)定情況的召回率更高,KNN算法的準(zhǔn)確率更高.對(duì)于測(cè)試集而言,兩種算法準(zhǔn)確率及對(duì)不穩(wěn)定情況的召回率相等.當(dāng)把潛在不穩(wěn)定視為不穩(wěn)定情況,采用二分類方式時(shí),兩種算法的預(yù)測(cè)結(jié)果都比較理想,訓(xùn)練集與測(cè)試集的準(zhǔn)確率及召回率均高于90%,與三分類方式相比,二分類方式下模型預(yù)測(cè)結(jié)果準(zhǔn)確率及召回率更高.這也說(shuō)明由于潛在不穩(wěn)定是一種過(guò)渡狀態(tài),對(duì)其判斷的準(zhǔn)確性必定會(huì)影響整體的準(zhǔn)確性.采用二分類方式,將采場(chǎng)觀測(cè)狀態(tài)進(jìn)行簡(jiǎn)單化,可以更大程度地提高預(yù)測(cè)準(zhǔn)確性,從而降低損失.同時(shí)對(duì)比圖9(a)與(c)、圖9(b)與(d)可以看出,KNN算法的訓(xùn)練集及測(cè)試集的預(yù)測(cè)結(jié)果均優(yōu)于RF算法.
圖8 三分類下預(yù)測(cè)值混淆矩陣Fig.8 Ternary classification prediction value confusion matrix of algorithm
與先前文獻(xiàn)對(duì)比,Goh等[14]提出的MARS_LR模型,在二分類方式下,其訓(xùn)練集和測(cè)試集的準(zhǔn)確性分別為0.91和0.88.本文在二分類方式下,RF模型的訓(xùn)練集和測(cè)試集的準(zhǔn)確性分別為0.96和0.93,KNN模型的訓(xùn)練集和測(cè)試集的準(zhǔn)確性分別為0.98和0.94.
圖9 二分類下預(yù)測(cè)值混淆矩陣Fig.9 Binary classification prediction value confusion matrix of algorithm
García-Gonzalo等[5]采用的SVM模型,三分類方式下對(duì)應(yīng)的總體平均準(zhǔn)確率為0.82,二分類方式下對(duì)應(yīng)的總體平均準(zhǔn)確率為0.98.另外,基于ELM模型,三分類方式下對(duì)應(yīng)的總體平均準(zhǔn)確率為0.88.本文中RF和KNN模型在三分類方式下對(duì)應(yīng)的總體平均準(zhǔn)確率分別為0.93、0.95,在二分類方式下對(duì)應(yīng)的總體平均準(zhǔn)確率分別為0.95、0.97.
相對(duì)而言,本文所采用的兩個(gè)模型比SVM及ELM等算法表現(xiàn)更為穩(wěn)定,可解釋性更強(qiáng),在準(zhǔn)確性方面有所提高.尤其采用二分類方法時(shí),兩種算法對(duì)不穩(wěn)定情況的召回率有明顯提升,即降低了將不穩(wěn)定狀態(tài)判定為穩(wěn)定狀態(tài)的概率,極大地提高了預(yù)測(cè)方法的可靠性.另外,在本文樣本不均衡且數(shù)據(jù)量較小的情況下,兩種模型也未出現(xiàn)過(guò)擬合現(xiàn)象,更具有實(shí)用性.
由于兩種算法在二分類方式下的預(yù)測(cè)結(jié)果更準(zhǔn)確,采用ROC曲線定量評(píng)估二分類方式下兩種算法的性能.對(duì)比圖10(a)與(b)可看出,AUC值均高于0.9,但無(wú)論是訓(xùn)練集還是測(cè)試集,KNN算法的AUC值均高于RF算法的AUC值.總體而言,KNN算法表現(xiàn)優(yōu)于RF算法,雖然其原理相對(duì)簡(jiǎn)單,但模型表現(xiàn)更好,這也證明,KNN算法更適用于有明顯分類界限的數(shù)據(jù).
圖10 二分類下ROC曲線Fig.10 ROC curve for binary classification
結(jié)合加拿大的8個(gè)地下采場(chǎng),399組歷史案例觀測(cè)數(shù)據(jù),采用RF和KNN兩種機(jī)器學(xué)習(xí)方法對(duì)地下采場(chǎng)開(kāi)挖穩(wěn)定性進(jìn)行評(píng)估,得到如下結(jié)論:
1)將地下采場(chǎng)穩(wěn)定狀態(tài)劃分為兩種分類模式,基于10折交叉驗(yàn)證理論分別對(duì)RF和KNN模型進(jìn)行超參數(shù)優(yōu)化,在三分類方式下,確定最優(yōu)超參數(shù)取值分別為N estimators=30、Max depth=7及K neighbors=2,二分類方式下,最優(yōu)超參數(shù)取值分別為N estimators=20、Max depth=7及K neighbors=11.
2)在兩種分類方式下,RF及KNN算法在訓(xùn)練集及測(cè)試集上的平均準(zhǔn)確率均高于90%.并且二分類預(yù)測(cè)結(jié)果表現(xiàn)更好.對(duì)于不穩(wěn)定情況的召回率這一評(píng)價(jià)指標(biāo),在三分類情況下,兩種模型在測(cè)試集上的值均為0.79.在二分類情況下,兩種模型在測(cè)試集上的值分別為0.90、0.93.因此將穩(wěn)定狀態(tài)進(jìn)行二分類,可大幅提升對(duì)不穩(wěn)定情況的預(yù)測(cè)準(zhǔn)確率.
3)對(duì)于二分類情況,KNN算法表現(xiàn)優(yōu)于RF算法,KNN算法在測(cè)試集和訓(xùn)練集上的準(zhǔn)確率、召回率以及ROC曲線下AUC值更高.同時(shí),與先前研究結(jié)果相比,兩種算法均有效提高了預(yù)測(cè)模型的準(zhǔn)確性和泛化能力,實(shí)用性更強(qiáng).
考慮到模型可解釋性、數(shù)據(jù)驅(qū)動(dòng)及自適應(yīng)性、構(gòu)建變量之間的相互作用的能力以及預(yù)測(cè)不穩(wěn)定情況的準(zhǔn)確性等方面,這兩種算法在評(píng)估地下采場(chǎng)穩(wěn)定性方面都是可取的.應(yīng)該強(qiáng)調(diào)的是,數(shù)據(jù)庫(kù)和特征已決定了計(jì)算方法的準(zhǔn)確度上限,各種模型和算法只是以不同的方式來(lái)達(dá)到這個(gè)極限.因此,高質(zhì)量的數(shù)據(jù)集及重要特征提取對(duì)于計(jì)算方法的成功應(yīng)用至關(guān)重要.