劉年平,胡慧慧
(1.西南科技大學(xué)環(huán)境與資源學(xué)院,四川 綿陽(yáng) 621010;2.西南科技大學(xué)固體廢物處理與資源化教育部重點(diǎn)實(shí)驗(yàn)室,四川 綿陽(yáng) 621010)
基于CART算法的煤與瓦斯突出判別分析
劉年平1,2,胡慧慧1
(1.西南科技大學(xué)環(huán)境與資源學(xué)院,四川 綿陽(yáng) 621010;2.西南科技大學(xué)固體廢物處理與資源化教育部重點(diǎn)實(shí)驗(yàn)室,四川 綿陽(yáng) 621010)
基于分類回歸決策樹(shù)(CART)算法,考慮影響煤與瓦斯突出的主要因素,建立了煤與瓦斯突出判別的CART模型。模型選擇瓦斯壓力、瓦斯放散初速度、煤的破壞類型、堅(jiān)固性系數(shù)和垂深作為煤與瓦斯突出的判別指標(biāo)體系,選取國(guó)內(nèi)典型煤與瓦斯突出礦井的突出數(shù)據(jù)建立模型樣本訓(xùn)練庫(kù),利用k-折交叉驗(yàn)證方法尋找最優(yōu)樹(shù),并提取優(yōu)化后的突出規(guī)則,最后將提取的規(guī)則對(duì)實(shí)例進(jìn)行驗(yàn)證。研究表明,該模型簡(jiǎn)單有效,可以作為煤與瓦斯突出判別分析的一種輔助方法。
煤與瓦斯突出;決策樹(shù);CART算法;判別分析
煤與瓦斯突出是一種復(fù)雜的動(dòng)力學(xué)現(xiàn)象,嚴(yán)重影響著礦工的生命安全和礦井的生產(chǎn),目前還無(wú)法準(zhǔn)確的分析其發(fā)生機(jī)理。針對(duì)這類具有機(jī)理復(fù)雜、非線性顯著等特點(diǎn)的礦井災(zāi)害判別問(wèn)題,一般無(wú)法建立準(zhǔn)確的數(shù)學(xué)模型予以分析,因而研究該類危險(xiǎn)性判別方法一直是礦井災(zāi)害預(yù)測(cè)的重要方向。數(shù)據(jù)挖掘是指從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的各種數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程[1]。鑒于煤與瓦斯突出的非線性特點(diǎn)和數(shù)據(jù)挖掘技術(shù)的優(yōu)點(diǎn),利用數(shù)據(jù)挖掘方法研究突出規(guī)律進(jìn)而進(jìn)行突出危險(xiǎn)性判別成為一種較為可行的方法,目前研究較多的煤與瓦斯突出數(shù)據(jù)挖掘方法有神經(jīng)網(wǎng)絡(luò)方法[2]、支持向量機(jī)方法[3-4]、灰色系統(tǒng)方法[5]、模糊模式識(shí)別方法[6]、免疫遺傳算法[7]、時(shí)間序列方法[8]、可拓方法[9-10]、多元判別法[11]等,這些數(shù)據(jù)挖掘方法的應(yīng)用為煤與瓦斯突出判別提供了較好的模型。決策樹(shù)學(xué)習(xí)是以客觀數(shù)據(jù)為基礎(chǔ)的歸納算法,它采用自頂向下的遞歸方法,能從一組無(wú)次序、無(wú)規(guī)則的大量數(shù)據(jù)中獲得內(nèi)含的知識(shí)分類規(guī)則,不僅能用類似樹(shù)層的模式形象的表示出所獲得的知識(shí),還可以用多個(gè)IF-THEN規(guī)則的形式表示,具有較高的可讀性。有學(xué)者對(duì)決策樹(shù)與神經(jīng)網(wǎng)絡(luò)做了分類對(duì)比,結(jié)果發(fā)現(xiàn)決策樹(shù)具有更高的分類準(zhǔn)確率[12]。另外,決策樹(shù)能處理各種類型的數(shù)據(jù),尤其擅長(zhǎng)處理非數(shù)值型數(shù)據(jù)。決策樹(shù)方法在在數(shù)據(jù)挖掘中具有較好的準(zhǔn)確性,已在醫(yī)療、氣象、投資風(fēng)險(xiǎn)等領(lǐng)域有了廣泛的應(yīng)用,但煤礦災(zāi)害的判別方面研究較少,本文將決策樹(shù)方法引入到煤與瓦斯突出的判別中,利用分類回歸決策樹(shù)(Classification And Regression Tree,CART)進(jìn)行煤與瓦斯突出的危險(xiǎn)性判別。
CART決策樹(shù)是由Breiman等人提出的一種典型二叉決策樹(shù),現(xiàn)已在統(tǒng)計(jì)分析中得到了廣泛的應(yīng)用[13]。與其他決策樹(shù)相比,CART可以同時(shí)處理連續(xù)變量和分類變量,當(dāng)目標(biāo)變量是連續(xù)變量,CART生成回歸決策樹(shù),當(dāng)目標(biāo)變量是分類變量時(shí),CART就會(huì)生成分類決策樹(shù)。另外,CART能有效的處理數(shù)據(jù)樣本的非線性問(wèn)題,不需要對(duì)數(shù)據(jù)樣本作特定假設(shè),因此非常適用于解決機(jī)理不明確的復(fù)雜性問(wèn)題。CART生成回歸決策樹(shù)要經(jīng)過(guò)建樹(shù)和剪枝兩個(gè)主要步驟。
1.1 CART的建樹(shù)
決策樹(shù)算法的核心是選取每個(gè)結(jié)點(diǎn)上要測(cè)試的屬性,依據(jù)不同的屬性劃分度量方法進(jìn)行數(shù)據(jù)純度的劃分,屬性的度量方法有多種,如信息增益、信息增益比、基尼指數(shù)、χ2統(tǒng)計(jì)、G統(tǒng)計(jì)、證據(jù)權(quán)重、最小描述長(zhǎng)度、相關(guān)度等方法。分類回歸樹(shù)(CART)以Gini(基尼)指數(shù)作為屬性度量方法, Gini系數(shù)定義如式(1)所示。
(1)
式中:p(i|t)為測(cè)試變量t屬于類i的樣本的概率;c為樣本的個(gè)數(shù)。當(dāng)Gini=0時(shí),所有的樣例屬于一類。在CART的二元?jiǎng)澐种?,如果屬性滿足一定純度則劃分在左子樹(shù),否則劃分到右子樹(shù)。假設(shè)訓(xùn)練數(shù)據(jù)集C中的屬性A將C劃分為C1與C2,則給定劃分C的Gini系數(shù)為式(2)。
(2)
為了確定劃分效果,可以用增益Δ來(lái)確定劃分效果的標(biāo)準(zhǔn),增益為父結(jié)點(diǎn)不純度與子結(jié)點(diǎn)不純度的差。增益定義為式(3)。
(3)
式中:I()是給定結(jié)點(diǎn)的Gini系數(shù);N是父結(jié)點(diǎn)上的記錄總數(shù);k是屬性值的個(gè)數(shù);N(vj)是與子女結(jié)點(diǎn)相關(guān)聯(lián)的記錄個(gè)數(shù)。
CART算法在滿足下述條件之一時(shí)停止建樹(shù)。①所有葉節(jié)點(diǎn)的樣本數(shù)為1、樣本數(shù)小于某個(gè)給定的最小值或者樣本都屬于同一類的時(shí)候;②決策樹(shù)的高度達(dá)到用戶設(shè)置的閾值,或者分支后的葉節(jié)點(diǎn)中的樣本屬性都屬于同一個(gè)類的時(shí)候;③當(dāng)訓(xùn)練數(shù)據(jù)集中不再有屬性向量作為分支選擇的時(shí)候。
1.2 CART的剪枝
決策樹(shù)初步建立后,為了提高決策樹(shù)的準(zhǔn)確率和簡(jiǎn)潔度,需要考慮對(duì)樹(shù)進(jìn)行剪枝,通過(guò)剪枝減少?zèng)Q策樹(shù)的規(guī)模,消除由于噪聲或缺乏代表性樣本而導(dǎo)致的過(guò)分?jǐn)M合現(xiàn)象。在決策樹(shù)的剪枝研究中,目前常用的剪枝方法有四種:悲觀錯(cuò)誤剪枝PEP(Pessimistic Error Pruning)方法、最小錯(cuò)誤剪枝MEP(Minimum Error Pruning) 方法、代價(jià)-復(fù)雜度剪枝CCP(Cost-Complexity Pruning)方法和基于錯(cuò)誤剪枝EBP(Error-Based Pruning) 方法。CART采用的是CCP方法,這種方法包括兩個(gè)過(guò)程:自底向上,對(duì)原始決策樹(shù)中的每一次修剪得到一棵樹(shù),從而得到一系列的樹(shù),包括原始樹(shù)和只有一個(gè)結(jié)點(diǎn)的樹(shù);評(píng)價(jià)這些樹(shù),根據(jù)真實(shí)誤差率來(lái)選擇一個(gè)最優(yōu)秀的樹(shù)作為最后被剪枝的樹(shù)[13]。決策樹(shù)建立并剪枝完成后,最后需要采用某種方法對(duì)所建立的一系列子樹(shù)進(jìn)行評(píng)估尋找最優(yōu)樹(shù)。本文建模采用k-折交叉驗(yàn)證尋找最優(yōu)樹(shù),當(dāng)樣本數(shù)量較少時(shí),該方法可以有效的利用所有可能的數(shù)據(jù)進(jìn)行建模與驗(yàn)證,同時(shí)剔除了由于數(shù)據(jù)自身特性帶來(lái)的過(guò)度適應(yīng),具有較高的準(zhǔn)確性。
1.3 CART的構(gòu)建步驟
依據(jù)上面的分析,設(shè)訓(xùn)練樣本集L={X1,X2,…,Xn,Y},其中,Xi(i=1,2,…,n)稱為屬性向量,Y為類別。
1)在根節(jié)點(diǎn)T處,搜索數(shù)據(jù)空間,利用Gini系數(shù)找到使得下一代子節(jié)點(diǎn)中數(shù)據(jù)集的非純度下降最大的最優(yōu)分裂變量和相應(yīng)的分裂閥值。
2)用1)中的分裂變量和分裂閥值把根節(jié)點(diǎn)分成T1和T2。
3)如果在某個(gè)節(jié)點(diǎn)Ti處滿足上述停止建樹(shù)條件,則該節(jié)點(diǎn)為葉節(jié)點(diǎn),否則轉(zhuǎn)為1)繼續(xù)建樹(shù)。
4)利用代價(jià)-復(fù)雜度剪枝方法對(duì)樹(shù)剪枝,并尋找最優(yōu)二叉樹(shù)。
針對(duì)煤與瓦斯突出的特點(diǎn),參照相關(guān)文獻(xiàn)研究,選取瓦斯壓力、瓦斯放散初速度、煤的破壞類型、堅(jiān)固性系數(shù)和垂深作為煤與瓦斯突出的判別指標(biāo),選取國(guó)內(nèi)21個(gè)典型突出礦井的煤與瓦斯突出數(shù)據(jù)建立指標(biāo)集[14],將突出類型分為突出與不突出兩部分,利用CART對(duì)煤與瓦斯突出的數(shù)據(jù)樣本進(jìn)行知識(shí)規(guī)則的提取,為了在增加有限樣本的數(shù)據(jù)集,采用交叉驗(yàn)證法對(duì)樣本數(shù)據(jù)進(jìn)行劃分,建好決策樹(shù)后,利用提取的規(guī)則對(duì)未參加訓(xùn)練的其他5個(gè)典型樣本進(jìn)行分析以驗(yàn)證該模型的有效性,樣本數(shù)據(jù)見(jiàn)表1。
利用MatLab軟件,對(duì)CART算法編程構(gòu)建煤與瓦斯突出數(shù)據(jù)決策樹(shù),利用訓(xùn)練樣本所得到的決策樹(shù)見(jiàn)圖1。
表1 煤與瓦斯突出訓(xùn)練樣本及測(cè)試樣本數(shù)據(jù)
圖1 基于CART算法的煤與瓦斯突出決策樹(shù)
從CART決策樹(shù)模型中提取的規(guī)則如下所示。
規(guī)則1:IfΔP≤5.50 andP≤2.15 Then 不突出。
規(guī)則2:IfΔP>5.50 andD≤2.00 andP≤2.20 Then 不突出。
規(guī)則3:IfΔP≤5.50 andP>2.15 Then 突出。
規(guī)則4:IfΔP>5.50 andD>2.00 Then 突出。
規(guī)則5:IfΔP>5.50 andD≤2.00 andP>2.20 Then 突出。
《煤礦安全規(guī)程》中規(guī)定了煤與瓦斯突出單項(xiàng)指標(biāo)的參考臨界值,預(yù)測(cè)煤層突出危險(xiǎn)性的單項(xiàng)指標(biāo)可用煤的破壞類型、瓦斯放散初速度、煤的堅(jiān)固性系數(shù)和煤層瓦斯壓力等,采用該法預(yù)測(cè)時(shí),各種指標(biāo)的突出危險(xiǎn)臨界值應(yīng)根據(jù)礦區(qū)實(shí)測(cè)資料確定,無(wú)實(shí)測(cè)資料時(shí)可參考表2,只有當(dāng)全部指標(biāo)達(dá)到或超過(guò)其臨界值時(shí)才可視該煤層為突出危險(xiǎn)煤層。
選取其他典型礦區(qū)的煤與瓦斯突出指標(biāo)數(shù)據(jù),利用所建立的決策樹(shù)模型和單項(xiàng)指標(biāo)對(duì)樣本進(jìn)行判別,判別結(jié)果如表3所示。
表2 預(yù)測(cè)煤與瓦斯突出危險(xiǎn)性的單項(xiàng)指標(biāo)
表3 決策樹(shù)與單項(xiàng)指標(biāo)預(yù)測(cè)結(jié)果
由決策規(guī)則與預(yù)測(cè)結(jié)果可以看出,利用決策樹(shù)可以從具有代表性的樣本中提取合理的規(guī)則,決策樹(shù)模型的判別結(jié)果較為準(zhǔn)確,由于這類樣本數(shù)據(jù)能真實(shí)的反應(yīng)突出指標(biāo)的各種非線性相互作用,該方法能有效的避免專家的知識(shí)局限性和判別指標(biāo)閥值規(guī)則制定的主觀性,具有很強(qiáng)的實(shí)際應(yīng)用價(jià)值。
煤與瓦斯突出危險(xiǎn)性判別是煤礦災(zāi)害防治的核心問(wèn)題之一,針對(duì)突出機(jī)理的復(fù)雜性,利用分類回歸樹(shù)算法,通過(guò)MatLab開(kāi)發(fā)了相應(yīng)程序,以典型煤與瓦斯突出數(shù)據(jù)作為訓(xùn)練樣本建立了決策樹(shù)模型。將建立的模型應(yīng)用在未知判別結(jié)果的工程實(shí)例中進(jìn)行驗(yàn)證后發(fā)現(xiàn),決策樹(shù)模型具有較高的精度,同時(shí)還能獲取簡(jiǎn)單的突出規(guī)則,為快速準(zhǔn)確判別突出提供了一種輔助方法。由于分類回歸樹(shù)的準(zhǔn)確性受到樣本個(gè)數(shù)及訓(xùn)練樣本數(shù)據(jù)庫(kù)的制約,而支持向量機(jī)對(duì)小樣本的預(yù)測(cè)能量較強(qiáng),因此在后續(xù)的研究中,將重點(diǎn)研究利用隨機(jī)森林的思想把決策樹(shù)與支持向量機(jī)等數(shù)據(jù)挖掘方法融合起來(lái)進(jìn)一步提高模型的實(shí)用性。
[1] 馬國(guó)兵,薛安克.數(shù)據(jù)挖掘技術(shù)在運(yùn)動(dòng)目標(biāo)軌跡預(yù)測(cè)中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2004 (11):210-211.
[2] 楊敏,李瑞霞,汪云甲.煤與瓦斯突出的粗神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型研究[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(6):241-244.
[3] 邵劍生,薛惠鋒.基于PSO-SVM的煤與瓦斯突出強(qiáng)度預(yù)測(cè)模型[J].西華大學(xué)學(xué)報(bào):自然科學(xué)版,2012,31(1):63-66.
[4] 孫玉峰,李中才.支持向量機(jī)法在煤與瓦斯突出分析中的應(yīng)用研究[J].中國(guó)安全科學(xué)學(xué)報(bào),2010,20(1):25-30.
[5] 張大偉,郭立穩(wěn),杜通.灰色系統(tǒng)理論在煤與瓦斯預(yù)測(cè)中的應(yīng)用[J].河北理工大學(xué)學(xué)報(bào):自然科學(xué)版,2009,31(2):1-5.
[6] 張子戌,劉高峰,呂潤(rùn)生,等.基于模糊模式識(shí)別的煤與瓦斯突出區(qū)域預(yù)測(cè)[J].煤炭學(xué)報(bào),2007,32(6):592-595.
[7] 朱玉, 張虹,蘇成.基于免疫遺傳算法的煤與瓦斯突出預(yù)測(cè)研究[J].中國(guó)礦業(yè)大學(xué)學(xué)報(bào),2009,38(1):125-130.
[8] 鄧明,張國(guó)樞,陳清華.基于瓦斯涌出時(shí)間序列的煤與瓦斯突出預(yù)報(bào)[J].煤炭學(xué)報(bào),2010,35(2): 260-263.
[9] 楊玉中,吳立云,高永才.煤與瓦斯突出危險(xiǎn)性評(píng)價(jià)的可拓方法[J].煤炭學(xué)報(bào),2010,35(S1):100-104.
[10] 郭德勇,鄭茂杰,郭超,等.煤與瓦斯突出預(yù)測(cè)可拓聚類方法及應(yīng)用[J].煤炭學(xué)報(bào), 2009,34(6):783-787.
[11] 王超,宋大釗,杜學(xué)勝,等.煤與瓦斯突出預(yù)測(cè)的距離判別分析法及應(yīng)用[J].采礦與安全工程學(xué)報(bào),2009,26(4):470-474.
[12] Muhammad A.Razi,Kuriakose Athappilly.A comparative predictive analysis of neural networks,nonlinear regression and classification and regression tree models [J].Expert Systems with Appocatons,2005,(29):65-74.
[13] Breiman L,F(xiàn)riendman J,Olshen R.Classification and regression trees[M].Califomia:Wadsworth Belement,1984.
[14] 肖紅飛,何學(xué)秋,劉黎明.改進(jìn)BP算法在煤與瓦斯突出預(yù)測(cè)中的應(yīng)用[J].中國(guó)安全科學(xué)學(xué)報(bào),2003,13(9):59-62.
Discriminate analysis of coal and gas outburst based on CART algorithm
LIU Nian-ping1,2,HU Hui-hui1
(1.School of Environment and Resources,Southwest University of Science and Technology,Mianyang 621010,China;2.Ministry of Education Key Laboraory of Solid Waste Treatment and Resource Recycle,Southwest University of Science and Technology,Mianyang 621010,China)
Based on the algorithm of classification and regression tree (CART (Classification And Regression Tree)),a discriminate model of coal and gas outburst was established according to main factors,which are gas pressure,gas initial velocity,destructive type of coal,hard coefficient and depth.Select data of discriminating indexes from typical mines with coal and gas outburst as training data,and find the champion tree by the method of k - fold cross-validated,then extract the optimized rules,at lased,the rules is used to discriminate the coal and gas outburst in the instance.The results show that CART model is a simple and effective method,it can be used in discriminate analysis of coal and gas outburst as a auxiliary method.
coal and gas outburst;decision tree ;CART algorithm;discriminate analysis
2014-08-05
西南科技大學(xué)博士研究基金項(xiàng)目資助(編號(hào):12zx7118)
劉年平(1979-),男,講師,博士,主要從事礦山災(zāi)害與防治,災(zāi)害預(yù)警管理、安全管理方面的工作。E-mail:happyfy2@163.com。
TD713.2
A
1004-4051(2015)06-0128-04