• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于機器學(xué)習(xí)的煤礦突水預(yù)測方法①

      2019-12-20 02:32:18謝天保
      計算機系統(tǒng)應(yīng)用 2019年12期
      關(guān)鍵詞:突水準確率向量

      童 柔,謝天保

      (西安理工大學(xué) 經(jīng)濟與管理學(xué)院,西安 710054)

      1 引言

      隨著我國能源行業(yè)的不斷發(fā)展,煤礦突水問題越來越成為大眾值得關(guān)注的問題,這不僅關(guān)系煤礦工人生命安全,也關(guān)系著國家人力財力損失.據(jù)統(tǒng)計,在2006-2016年期間,我國煤礦突水事故共發(fā)生440起,死亡682人[1],因此為了減少突水事故的發(fā)生以及人員的傷亡,對煤礦是否會突水進行提前的預(yù)測顯得越發(fā)重要.

      目前煤礦突水預(yù)測方法包括很多種,大多以神經(jīng)網(wǎng)絡(luò)為主[2-6],這種方法針對突水量定量預(yù)測誤差較大,針對是否突水定性預(yù)測時,開關(guān)量閾值需要靠專家經(jīng)驗確定.而在構(gòu)建模型前進行關(guān)鍵因素的選擇也是很重要的一個步驟,文獻[7]使用層析分析法的一致性檢驗與專家評分來進行特征的選取,主觀性強,受限于專家的經(jīng)驗.文獻[4]使用主成分分析進行降維,主成分降維后的特征相互獨立,在一定程度上可以提高模型預(yù)測精度,但對特征重要性的分析不夠明確,難以應(yīng)用于現(xiàn)實問題中煤礦突水特征因素的選擇.文獻[7,8]首先通過理論分析確定了含水層(包括厚度、水壓及富水性)、底板隔水層厚度、地質(zhì)構(gòu)造等相關(guān)因素,并通過各特征數(shù)據(jù)統(tǒng)計分析說明,這些特征的重要性,然后建模預(yù)測,然而煤礦突水是由煤礦生產(chǎn)開采過程中各種復(fù)雜的因素綜合作用的結(jié)果,各特征的獨立分析并不能體現(xiàn)各特征相互作用,相互影響的煤礦突水機理.

      基于以上分析,本文在理論分析(煤礦構(gòu)造條件、含水層條件、開采條件、巖性組合條件)的基礎(chǔ)上,收集樣本數(shù)據(jù).然后采用穩(wěn)定性選擇的特征方法針對數(shù)據(jù)樣本進行分析,以預(yù)測準確率為目標對煤礦突水影響因素進行篩選,獲取與之相關(guān)的關(guān)鍵因素,之后采用3種典型機器學(xué)習(xí)算法,隨機森林、神經(jīng)網(wǎng)絡(luò)以及支持向量機分別進行煤礦突水預(yù)測模型的構(gòu)建,結(jié)合3種模型的預(yù)測結(jié)果確定最終結(jié)果,以此驗證特征選取后的預(yù)測模型的準確率以及穩(wěn)定性,通過實驗可幫助煤礦工作人員減少數(shù)據(jù)收集的工作量以及收集成本,并且提高突水預(yù)測精度.

      2 煤礦突水影響因素關(guān)鍵特征選取

      常用的特征選擇方法主要分為3種:過濾法、包裝法和嵌入法[9],根據(jù)不同的情境及目的所使用方法也不同,而在本次試驗中,將采取包裝法中的穩(wěn)定性選擇方法來進行特征的選取.

      2.1 穩(wěn)定性選擇

      Meinshausen N等人在2009年提出了穩(wěn)定性選擇這種特征選取的方法[10],并指出其并不是一種新的算法,而是基于Lasso特征選擇方法并對其進行加強和改進.具體來說,穩(wěn)定性選擇是一種基于二次抽樣和選擇算法相結(jié)合的特征選取方法,選擇算法可以是支持向量機SVM或者回歸等算法,而二次抽樣意味著不是使用所有的數(shù)據(jù)一次性選擇出最重要的特征,而是抽取數(shù)據(jù)子集以及特征子集來運行選擇算法,不斷重復(fù),最終可以計算出每個特征作為重要特征出現(xiàn)的頻率,即使用出現(xiàn)的次數(shù)除以子集被測試的次數(shù),將其看做每個特征的得分并作為特征篩選的依據(jù).最重要的特征若每次都被選到,則它的得分會高達1,而最不重要的特征最終得分將會為0.大多數(shù)實驗證明,相對比于其他的特征選擇方法,穩(wěn)定性選擇是性能最好的方法之一.

      2.2 數(shù)據(jù)準備

      煤礦突水機理具有多樣性,是指在不同的地質(zhì)及水文地質(zhì)條件下,采用破壞或水壓破壞表現(xiàn)出不同的空間組合特征,突水機理的多樣性反映了地質(zhì)及水文地質(zhì)條件的變化,煤礦突水是否突水受制于諸多因素的綜合影響[11].在本次實驗中,我們通過查閱資料以及煤礦專家的幫助,共取得了包括構(gòu)造條件、含水層條件、開采條件、巖性組合條件4個方面的相關(guān)影響因素,再加上突水征兆這個因素,共獲得22個與煤礦突水有關(guān)的影響因素以及其所對應(yīng)數(shù)據(jù)數(shù)據(jù)類型,如表1所示,并且收集與表1中22個煤礦突水相關(guān)因素以及突水結(jié)果所對應(yīng)的數(shù)據(jù)1056例.

      表1 煤礦突水相關(guān)因素及數(shù)據(jù)類型

      2.3 基于穩(wěn)定性選擇的特征選取

      在Python的sklearn.liner_model庫中Randomized LogisticRegression(以下縮寫RLR)實現(xiàn)了穩(wěn)定性選擇,因此根據(jù)1.1中的相關(guān)分析,可以使用其作為特征選擇的工具.在RLR中,穩(wěn)定性選擇的實現(xiàn)主要有以下步驟:

      Step 1.對初始數(shù)據(jù)進行二次抽樣,隨機選取k個特征以及對應(yīng)m行數(shù)據(jù),統(tǒng)計每個特征被選次數(shù)N;

      Step 2.使用所選數(shù)據(jù)構(gòu)建邏輯回歸模型;

      Step 3.對模型進行L1正則化,稀疏化數(shù)據(jù)使大多數(shù)不重要特征的權(quán)重變?yōu)?,最終篩選最重要特征,統(tǒng)計每個特征被選為最重要特征的次數(shù)n;

      Step 4.繼續(xù)進行Step 1,RLR算法默認共構(gòu)建200個邏輯回歸模型,直到模型構(gòu)建完成進行下一步;

      Step 5.計算每個特征被選為重要特征的頻率,即進行穩(wěn)定性選擇之后各特征的得分,score=n/N,通過scores_屬性來獲取每個特征的得分,獲得高分的特征就是所需選擇的重要特征.

      在使用RLR算法進行建模時,其正則化參數(shù)C會影響最終各個特征的score,為了獲取合適的正則化參數(shù),我們在(10-2,102)區(qū)間內(nèi)取了100個C值進行建模,計算出每個模型中各特征的得分情況,以此繪制了如圖1所示的正則化參數(shù)C與各個特征score之間的關(guān)系.

      圖1 正則化參數(shù)C與score的關(guān)系

      由圖1中可以看出,隨著正則化參數(shù)C的減小,即相當于正則化強度的增大,各個特征的得分都將趨于0,而在C約為0.18時,所有特征的得分都為0,也就是沒有特征被選為重要特征,本實驗的目的是篩選出7個重要特征,因此合適的C值是使得7個特征得分不為0.

      實驗發(fā)現(xiàn)當C=1.6681時,最重要的7個特征的得分不為0,其他特征得分都為0,因此使用此C值進行RLR建模進行特征選取,將每個特征的得分從高到低進行排列后得到如下的表2,從表中很明顯能看出來斷層充水對煤礦是否突水影響最大,得分為1.0,說明在每次進行特征選擇時,斷層充水都會被選為最重要的特征,在斷層充水之后,突水征兆對煤礦突水也有較大影響,其次是裂隙帶充水、陷落柱、陷落柱充水、含水層水壓和裂隙帶.7個特征選取出來后,繼續(xù)增加影響因素數(shù)量進行實驗后發(fā)現(xiàn),預(yù)測準確率沒有發(fā)生變化,這說明可以繼續(xù)增加因素的數(shù)量,但因素數(shù)量過多會導(dǎo)致預(yù)測時計算成本過高,收集數(shù)據(jù)時工作量變大,因此此處僅選擇7個最重要特征.但此次實驗結(jié)果僅針對已收集到的數(shù)據(jù),有新的數(shù)據(jù)增加時,還需再進行實驗來驗證結(jié)果是否發(fā)生變化.

      表2 重要突水因素及其得分

      根據(jù)《礦區(qū)水文地質(zhì)工程地質(zhì)勘查規(guī)范》提出,與煤礦突水最相關(guān)的兩個因素為斷層充水以及含水層水壓,文獻[4]中根據(jù)PCA方法所篩選出的因素為斷層、構(gòu)造、含水層等,文獻[12-14]通過調(diào)查分析提出影響煤礦突水重要因素主要有斷層、陷落柱、水壓,由此可以看出本次實驗所篩選的關(guān)鍵因素符合煤礦突水的整體研究.

      3 實驗分析

      經(jīng)過1.3中的特征選取,我們確定了與煤礦突水相關(guān)的7個重要的影響因素,為了確定這7個因素對于預(yù)測結(jié)果的準確率是否有提高以及算法的穩(wěn)定性,本次實驗使用隨機森林、神經(jīng)網(wǎng)絡(luò)以及支持向量機3種典型機器學(xué)習(xí)算法構(gòu)建煤礦突水預(yù)測模型,使用特征選取前后的數(shù)據(jù)進行建模,對比預(yù)測準確率.

      3.1 數(shù)據(jù)處理

      由表1(見2.1節(jié))可以看出煤礦突水樣本數(shù)據(jù)特征有離散型、連續(xù)型2種.離散型數(shù)據(jù)的數(shù)據(jù)類型為邏輯數(shù)據(jù)(以陷落柱充水為例,若充水則為1,若無則為0),連續(xù)型數(shù)據(jù)則是使用浮點型數(shù)據(jù)類型來表示具體的數(shù)字.因此在使用神經(jīng)網(wǎng)絡(luò)以及支持向量機進行建模前需要對數(shù)據(jù)進行處理,對于離散型數(shù)據(jù)需使用獨熱編碼,而連續(xù)型數(shù)據(jù)由于不同特征的值大小差別太大,因此需要進行標準化處理將數(shù)據(jù)縮放到相同的區(qū)間以提高準確率.

      數(shù)據(jù)處理完成后,使用Python中train_test_split函數(shù)隨機將數(shù)據(jù)集劃分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,函數(shù)的第3個參數(shù)test_size用來設(shè)定測試集數(shù)據(jù)的多少,本實驗將設(shè)定test_size=0.3,即1056例數(shù)據(jù)隨機選取70%為訓(xùn)練集數(shù)據(jù),其余30%為測試集數(shù)據(jù).

      3.2 煤礦突水分類預(yù)測算法分析

      (1)隨機森林是由許多CART二叉樹所組成的預(yù)測模型,其中每一棵二叉樹是通過隨機選取的特征以及訓(xùn)練數(shù)據(jù)集建立的,因此每一棵二叉樹都是沒有關(guān)聯(lián)的并通過計算基尼指數(shù)來選擇屬性進行建立,對于每一組測試數(shù)據(jù),每一個二叉樹都進行預(yù)測,最終通過投票機制得出最終的分類預(yù)測結(jié)果.隨機森林相當于一個特殊的集成學(xué)習(xí)算法,它是由許多個弱的分類器即CART樹所組成的一個強分類器,因而預(yù)測準確率較高.

      (2)神經(jīng)網(wǎng)絡(luò)是一種有監(jiān)督學(xué)習(xí)方法,其結(jié)構(gòu)分為輸入層、隱藏層和輸出層.在進行訓(xùn)練的過程中,主要分為2個部分:正向傳播和反向傳播.正向傳播過程是在輸入層進行特征屬性的輸入,并設(shè)置神經(jīng)元之間的權(quán)值,通過若干隱藏層進行前向計算,獲得每個神經(jīng)元的輸出.反向傳播過程是將正向傳播計算的結(jié)果與真實結(jié)果進行對比,進而反向計算調(diào)整權(quán)值和誤差,反復(fù)進行調(diào)整,提高模型準確率.

      (3)支持向量機(SVM)也是一種有監(jiān)督的學(xué)習(xí)方法,在二分類問題中使用較多,對于線性可分問題,支持向量機運用優(yōu)化算法實現(xiàn)最大化分類間隔;而對于非線性問題,支持向量機通過適當?shù)暮撕瘮?shù)將輸入空間映射到高維空間,實現(xiàn)高維空間線性可分,將非線性問題轉(zhuǎn)化線性問題[15],然后在新空間中利用二次型尋優(yōu)算法尋找一個最優(yōu)超平面將兩類樣本分開,保證分類準確率.

      3.3 煤礦突水預(yù)測模型的構(gòu)建

      (1)隨機森林模型使用RandomForestClassifier來建立模型,參數(shù)n_estimator設(shè)置為100,即隨機森林中共建立100個決策樹進行預(yù)測;參數(shù)max_depth設(shè)置為4,即決策樹深度最大為4,實驗中對決策樹進行可視化后發(fā)現(xiàn),當決策樹深度為4時,所有數(shù)據(jù)基本上已經(jīng)分類完成,且準確率高,因此可將決策樹深度減小來提高預(yù)測效率.

      (2)神經(jīng)網(wǎng)絡(luò)將使用MLPClassifier來建立模型,參數(shù)hidden_layer_sizes設(shè)置為(50,50),即設(shè)置兩層隱藏層且每層神經(jīng)元個數(shù)為50,在特征選擇后其設(shè)置為(15,15),這是因為輸入層神經(jīng)元個數(shù)不同,隱藏層相應(yīng)需要改變;參數(shù)slover權(quán)重優(yōu)化的求解器使用“l(fā)bfgs”,它對于小型數(shù)據(jù)集可以更快的收斂并且分類表現(xiàn)更好.

      (3)支持向量機將使用SVC來建立模型,懲罰參數(shù)C通過循環(huán)建模發(fā)現(xiàn)當C小于0.4,預(yù)測準確率將會降低,因此設(shè)置為C=0.4,參數(shù)kernel通過實驗得出使用‘linear’線性核函數(shù)分類更準確.

      使用3種模型的fit方法分別對特征選取前后的訓(xùn)練數(shù)據(jù)進行訓(xùn)練,之后使用訓(xùn)練好的模型對測試數(shù)據(jù)進行預(yù)測,從而得到表3中的預(yù)測結(jié)果對比.

      表3 特征選取前后預(yù)測準確率對比

      從表3中可以看出在特征選取前后3種模型預(yù)測準確率都很高,隨機森林模型在特征選取前后訓(xùn)練集準確率都高達100%,而測試集在特征選取后準確率提高至100%,神經(jīng)網(wǎng)絡(luò)模型和支持向量機模型在特征選取前后訓(xùn)練集以及測試集的準確率雖然都沒有變化,但整體準確率很高,可以看出,支持向量機模型是三者中最優(yōu)的,所有準確率都達到100%.隨機森林在進行預(yù)測時,由于在構(gòu)建模型時已進行了剪枝,從而減少了擬合且預(yù)測速度相對較快,準確率較高;使用神經(jīng)網(wǎng)絡(luò)進行分類時,由于神經(jīng)網(wǎng)絡(luò)需進行反復(fù)調(diào)整權(quán)重,因此其模型構(gòu)建速率相對較慢,使用神經(jīng)網(wǎng)絡(luò)模型預(yù)測的分類結(jié)果實際上是連續(xù)性的,通過判斷其是否大于0.5決定預(yù)測結(jié)果為1或0,即突水或不突水,這種閾值判斷的方法使得預(yù)測結(jié)果相對較差;使用支持向量機進行模型構(gòu)建時,由于需要調(diào)整的參數(shù)較多,因此在構(gòu)建模型時時間較長,但一旦選擇正確的核函數(shù)之后,其泛化能力會達到最佳,預(yù)測準確率高.

      在此基礎(chǔ)上,本實驗繼續(xù)使用交叉驗證方法對特征選取的正確性進行檢驗,使用cross_val_score方法對3種模型都進行交叉驗證,取參數(shù)cv=15,即進行15輪的交叉驗證,取15次預(yù)測準確率的平均值,實驗結(jié)果如表4所示.由表中可以看出,特征選取后準確率有些許提高,沒有達到100%是因為15次交叉驗證中14次預(yù)測準確率達到1,而僅有一次未達到1,由此可以看出利用選擇后的特征建立預(yù)測模型準確率較高.

      表4 特征選取前后交叉驗證結(jié)果

      為了進一步確定特征選取后3種預(yù)測模型的穩(wěn)定性,我們繪制了3種模型的ROC曲線來評價模型性能,如圖2所示.

      圖2 特征選取后各預(yù)測模型ROC曲線

      從圖中可以很明顯看出,圖2(a)隨機森林和圖2(c)支持向量機模型都很穩(wěn)定,訓(xùn)練集以及測試集的真正類率和假正類率都達到最優(yōu),而圖2(b)神經(jīng)網(wǎng)絡(luò)模型相比下來略有不足,但穩(wěn)定性也算比較好.

      由此可以看出在進行特征選擇后,預(yù)測模型仍然非常穩(wěn)定,因此可以證明在第2節(jié)中所篩選影響煤礦突水的預(yù)測模型都很穩(wěn)定,由此得出實驗所篩選的關(guān)鍵因素在進行煤礦數(shù)據(jù)收集時是可進行參考的.

      4 結(jié)論

      本文通過穩(wěn)定性選擇的特征選取方法篩選影響煤礦突水結(jié)果的關(guān)鍵因素,并通過隨機森林等3種典型分類預(yù)測模型對選取前后預(yù)測準確率進行對比,發(fā)現(xiàn)準確率都很高并且隨機森林以及支持向量機模型達到100%,通過ROC曲線的繪制也可看出特征選取后的關(guān)鍵因素是可取的.

      猜你喜歡
      突水準確率向量
      向量的分解
      礦井突水水源的判別方法
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
      礦井滯后突水機理探討
      2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
      聚焦“向量與三角”創(chuàng)新題
      高速公路車牌識別標識站準確率驗證法
      李雅莊礦滯后突水主控因素分析
      向量垂直在解析幾何中的應(yīng)用
      岳池县| 邹城市| 邓州市| 兴城市| 自贡市| 莆田市| 汾阳市| 广州市| 贵南县| 彝良县| 固镇县| 阿坝县| 饶河县| 华坪县| 台江县| 拉孜县| 女性| 灵璧县| 临武县| 客服| 本溪| 大洼县| 松滋市| 珠海市| 南召县| 麻城市| 福泉市| 宜宾市| 鹤庆县| 醴陵市| 常宁市| 南宁市| 新郑市| 济宁市| 尼勒克县| 三门县| 永和县| 柳林县| 阳原县| 安乡县| 丰宁|