張文東, 胡 彧
(太原理工大學 測控技術研究所, 山西 太原 030024)
煤炭是我國重要的基礎能源之一, 在我國的社會發(fā)展過程中扮演著重要的角色. 但是, 大多煤礦地形復雜, 分布廣泛, 各種災害的發(fā)生也一直伴隨著煤礦的開采過程. 其中由瓦斯涌出造成的事故后果極為嚴重, 人員傷亡慘重, 經濟損失巨大. 瓦斯涌出是在煤礦井建設和生產過程中, 受采動影響的煤層、 巖層以及被采落的煤和巖石內向礦井下空間釋放瓦斯的現(xiàn)象, 也有學者將其形象地描述為“霰彈”模型[1]. 國內外對瓦斯引起的各種災害評估也一直在進行, 如使用模糊評價方法對瓦斯風險的評估[2]. 若能提前預測則會使損失降到最低, 因此對瓦斯涌出量的準確預測對于煤礦安全作業(yè)就顯得尤為重要. 從國內的研究近況來看, 礦井瓦斯涌出量的主要預測方法有: 礦山統(tǒng)計法、 分源預測法和各種基于數(shù)據(jù)挖掘技術的預測方法等. 礦山統(tǒng)計法是生產礦井根據(jù)以往生產過的礦井、 采區(qū)或工作面的相對瓦斯涌出量與開采深度的統(tǒng)計規(guī)律, 對未回采區(qū)域的相對瓦斯涌出量進行預測的一種預測方法[3]. 它是建立在準確的統(tǒng)計資料的基礎之上, 雖然模型較簡單, 但預測精度較差. 分源預測法實質是按照礦井生產過程中瓦斯涌出源的多少、 各個涌出源瓦斯涌出量的大小, 來預測礦井、 采區(qū)、 回采面和掘進工作面等的瓦斯涌出量[4]. 在現(xiàn)實情況中的煤礦地質分布情況有很大差別, 最終預測結果必然會有一些誤差. 近年來, 基于數(shù)據(jù)挖掘技術的預測方法也被用被用于瓦斯涌出量的預測, 并能夠達到一定的預測精度[5], 但其中大部分方法都需要足夠多的樣本和較大的計算量.
煤礦礦井的瓦斯涌出受到各種各樣自然因素以及環(huán)境因素的影響, 并且其具有多變性和不均衡性的特點. 基于上述原因, 難以對煤層瓦斯的涌出量有一個準確、 及時的預測, 這會直接影響到煤礦的安全生產與瓦斯防治. 本文運用基于Spearman相關系數(shù)加權改進后的主元分析SPCA(Spearman Principal Component Analysis, SPCA)和支持向量回歸機Support Vector Regression, SVR)技術對瓦斯涌出量進行預測研究, 取得了較好的預測效果.
由于現(xiàn)代科技進步及人類社會的不斷發(fā)展, 人們接觸到的信息和數(shù)據(jù)越來越多, 這些數(shù)據(jù)很多都是高維的, 伴隨這些數(shù)據(jù)而來的就是維數(shù)災難. 高維的數(shù)據(jù)通常具有很多特征, 包含有大量的冗余和無關信息, 而這在很大程度上會影響機器學習的效率[6]. 這種情況需要一種特征降維的方法來減少數(shù)據(jù)的特征數(shù)、 數(shù)據(jù)噪音、 冗余及過度擬合的可能性. 而PCA就是這樣一種專門用于處理此類情況的分析并且簡化數(shù)據(jù)集的技術. PCA將輸入變量中可能或近似相關的變量通過數(shù)學變換轉化成為線性無關的變量, 是一種丟失原始數(shù)據(jù)集信息最少的線性降維方式[7]. 通過降維,可以降低數(shù)據(jù)的特征維度, 減少冗余信息所造成的誤差,提高識別(回歸、 聚類)的精度. PCA的算法思想是將n維特征映射到k維上(k 由于不同的變量特征常常具有不同的單位和不同的變異程度, 當特征自身具有較大差異的變異時, 會使得計算出的關系系數(shù)中, 各個特征所占的比重不同. 為了消除不同單位量綱和數(shù)值大小的影響, 需要將數(shù)據(jù)集標準化[8]. 而標準化通常也是進行正式主元分析前的一個重要步驟. 但是, 在數(shù)據(jù)標準化后, PCA在處理過程中會平等地對待每一維特征, 也即每一維特征的權重都是相等的. 實際上不同的特征向量對最終分類(回歸、 聚類)的作用是不同的, 假如我們對數(shù)據(jù)的特征已經有了一些先驗知識卻并不能把它用在PCA的處理過程中, 無疑會對后續(xù)的機器學習的預測結果有一定的影響. 針對這個問題, 本文使用了Spearman相關分析, Spearman相關分析是利用原始的兩變量的秩次大小來進行線性相關分析, 它對變量的分布沒有要求, 因此適用范圍較廣, 是一種比較通用的相關分析方法[9]. 對標準化后的數(shù)據(jù)特征進行Spearman相關分析, 分別求出每維特征與最終結果向量的相關性, 根據(jù)相關系數(shù)賦予每維特征合適的權值, 得出新的數(shù)據(jù)矩陣交由PCA進一步處理, 這種算法稱為SPCA. SPCA算法的具體步驟為: 1) 給定原始訓練樣本Xm×n, 它由m個樣本,n個特征組成; 2) 對原始數(shù)據(jù)集進行標準化, 得到標準化后的矩陣Ym×n; 3) 對標準化矩陣Ym×n的每一維特征分別與結果向量Lm×1進行Spearman相關分析, 得到相關系數(shù)矩陣 其中,rjj(j=1,2,…,n)為第j維特征向量與結果向量的相關系數(shù); 4) 根據(jù)Spearman秩相關系數(shù)臨界值表, 結合數(shù)據(jù)樣本數(shù)量選擇對應的臨界值, 由于這些相關值的大小一定程度上說明了其對應特征與最終結果的相關程度, 而臨界值以下的特征對于最終結果的影響很小, 所以對臨界值以下的相關系數(shù)賦予一個合適的較低的值作為對應特征向量的權重(經多次實驗權衡后本文選為0.1), 其它特征向量的權重為其各自對應的相關系數(shù); 5) 將矩陣Ym×n的每一列向量, 乘以其對應的權重得矩陣 6) 求出協(xié)方差矩陣 7) 求出矩陣C的特征值以及C對應的特征向量 λjαj=Cαj, (j=1,…,n), 其中,λj為矩陣的特征值,αj為特征向量; 8) 將特征向量按對應特征值λj的大小從大到小排列成矩陣, 并依據(jù)λj的值計算主成分的貢獻率和累積貢獻率, 通常以85%為界限確定前k個主成分; 9) 由k個主成分組成的新矩陣即為降維后的數(shù)據(jù)矩陣Im×k. 支持向量機是由Vapnik領導的AT&TBell實驗室研究小組在1963年提出的一種新的通用學習方法, 它是一種基于統(tǒng)計學習理論的模式識別方法, 主要應用在模式識別領域, 它在解決樣本數(shù)量少、 非線性問題和高維模式識別等方面相比其它算法具有很大的優(yōu)勢[10]. 支持向量機在一定程度上克服了“過學習”和“維數(shù)災難”等問題, 被稱為數(shù)據(jù)挖掘領域的十大經典算法之一[11]. 支持向量回歸機(SVR)是支持向量機(SVM)的回歸算法, SVR的主要思想是在原始訓練數(shù)據(jù)的特征空間中尋找一個具有最大分割距離的超平面, 通過引入損失函數(shù), 用于解決回歸問題, 其本質就是尋找一個最優(yōu)的分類面使所有訓練樣本離這個最優(yōu)分類面的距離誤差最小. SVR的基本思想是將影響因素作為輸入變量(x1,x2,x3,…,xm)映射到一個高維的特征空間(φ(x1),φ(x2),φ(x3),…,φ(xn)), 將非線性模型轉化為一個在高維特征空間中的線性回歸模型,其線性回歸函數(shù)形式為 f(xi)=ωTφ(xi)+b, 式中:f(xi)為回歸函數(shù)返回的預測值;ω為權重向量;φ(xi)為非線性映射函數(shù);b為閾值. 利用最小化結構風險的原理, 得到經驗風險函數(shù) 式中:C(ej)是損失函數(shù); ‖ω‖2是置信風險. 求經驗風險函數(shù)的最小值, 等同于求解以下式子最小值的優(yōu)化問題 為了求解上式, 引入Lagrange函數(shù)并將以上問題轉化成為對偶問題, 可得對偶函數(shù)為 在求解上述問題后可得非線性回歸函數(shù) 其中,K(xi,x)為核函數(shù), 與多項式核函數(shù)、 線性核函數(shù)和sigmoid核函數(shù)等相比, 高斯核函數(shù)存在適用性廣, 參數(shù)少等優(yōu)勢[12], 再結合文獻利用各種核函數(shù)經過實驗仿真得出的結果分析, 使用高斯核作為SVM的核函數(shù)訓練出的模型是最合適的. 故本文擬采用高斯核函數(shù):K(xi,x)=exp(-γ‖xi-x‖2). 經過上述分析可知, 只需確定懲罰因子C和參數(shù)γ便可得到預測模型. 基于上文的分析, 本文將SPCA與SVR結合來進行建模, 具體操作步驟如下: 1) 將原始數(shù)據(jù)集Dm×n標準化處理, 消除各維特征之間量綱影響, 得到新數(shù)據(jù)集Sm×n; 2) 按照1.2節(jié)SPCA算法步驟對矩陣Sm×n進行分析處理, 得到新矩陣Pm×n; 3) 在矩陣Pm×n中, 根據(jù)每維特征的貢獻率大小, 選取貢獻率為85%以上所對應的前k維特征(若要求精度, 也可選取90%或更高的貢獻率)組成矩陣Im×k; 4) 將矩陣Im×k按照合適的比例分為訓練集Im1×k和測試集Im2×k(注:m1+m2=m); 5) 將訓練集Im1×k及其所對應的結果作為SVR的輸入并按照第2節(jié)算法步驟進行學習訓練, 得到最終預測函數(shù)為 6) 將測試集Im2×k中的樣本代入預測函數(shù)中, 求出預測值并與實際值對比, 得到模型的預測精度. 整個算法流程如圖 1 所示. 圖 1 預測模型算法流程Fig.1 Process of prediction model algorithm 瓦斯涌出的多少受到很多種因素的影響, 主要的影響因素有開采因素、 自然因素、 地質因素等, 其中煤層的地質因素是影響礦井瓦斯涌出的最重要條件之一[12]. 本文結合某煤礦18個月回采工作面的統(tǒng)計數(shù)據(jù)進行分析, 采集到的因素有原始瓦斯含量、 煤層埋深、 煤層厚度、 開采強度等12個相關因素, 完整的數(shù)據(jù)如表 1 所示(其中,X1為煤層瓦斯含量,X2為煤層埋深,X3為煤層厚度,X4為煤層傾角,X5為工作面長度,X6為推進速度,X7為工作面采出率,X8為鄰近層瓦斯含量,X9為鄰近層厚度,X10為層間距,X11為層間巖性,X12為開采強度,Y為瓦斯涌出量)[13]. 在本例中, 選取前15個樣本進行學習訓練, 后3個樣本用來預測并與真實值對比, 也就是1~15號為訓練集, 16~18號為測試集. 根據(jù)上文分析, 用Matlab軟件對原始數(shù)據(jù)進行標準化和SPCA處理, 在維持高信息的前提下簡化模型的復雜度. 同時, 為了對比, 也對數(shù)據(jù)進行了傳統(tǒng)的PCA處理, 分析結果如表2所示. 可以看到, 相比PCA而言, 用SPCA方法得到的第一主元素的貢獻率為87.21%, 而用傳統(tǒng)PCA方法得到的第一主元素的貢獻率僅為56.25%, SPCA僅前三維的累積貢獻率就超過了95%, 而PCA需要前六維主成分才可達到這一數(shù)據(jù). 由此可見, 本文提出的改進型SPCA算法的降維效果良好. 接下來選擇累積貢獻率超過85%的主元作為SVR的輸入變量, 瓦斯涌出量作為輸出. 按照3.1節(jié)求解步驟, 選擇表1中的樣本1~15號進行SVR訓練, 其中SVR中核函數(shù)的參數(shù)和參數(shù)經優(yōu)化算法分別求得為7.755和0.012, 然后對樣本16~18號用訓練出的模型進行預測并檢驗. 擬合仿真結果見圖 2 所示. 表 1 煤礦回采面瓦斯的涌出量與影響因素關系表Tab.1 Relationship between gas emission and influencing factors in coal mining face 表 2 PCA與SPCA分析結果Tab.2 Analysis results of PCA and SPCA 圖 2 SPCA-SVR模型預測的訓練值及測試值與實際值的對比Fig.2 Comparison of the training and testing values with the actual values predicted by SPCA-SVR model 可以看到, 利用SPCA-SVR模型的預測值與實際值擬合較好, 為了對比分析, 本文還對相同的樣本分別利用SVR、 PCA-SVR、 礦山統(tǒng)計法和BP-NN模型進行了預測分析. 關于礦山統(tǒng)計法預測, 由于在瓦斯地帶, 通常情況下相對瓦斯涌出量與開采深度近似呈線性相關, 因此礦山統(tǒng)計法實質上是求一個線性回歸方程, 預測模型簡單, 預測結果精度較差. BP-NN, 即BP神經網(wǎng)絡, 是由輸入層, 隱含層和輸出層三層構成, 是引用比較廣泛的神經網(wǎng)絡模型之一, 它的學習過程由正向傳播信號和反向傳播誤差組成, 每一次的誤差反傳都將對各層的各個單元的權值進行調整, 通過不斷迭代, 達到一定的學習次數(shù)或者使最終誤差達到一個合適的水平為止[14]. 該方法模型較為復雜, 學習速度較慢. 本文用Matlab軟件對上述預測方法進行仿真, 訓練預測結果如表 3 所示, 仿真擬合結果如圖 3 所示, 其中偏差值為實際值與預測值差的絕對值. 由圖 3 可見, 相比來說SPCA-SVR模型的預測效果要優(yōu)于其他4種模型的預測效果. 為了更加直觀地展示模型預測性能的優(yōu)劣, 本文選用測試集中預測值與實際值的均方誤差(MSE)和平均相對誤差(MAPE)來評價模型的性能好壞. 均方誤差和平均相對誤差的計算公式分別為 (i=1,2,3,…,m), 表 3 5種訓練模型的預測值與實際測試值的偏差Tab.3 Deviation between predictive values of five models and actual values (m3·min-1) 圖 3 5種模型的實際測試值與訓練預測值仿真Fig.3 Simulation of the actual values and predictive values of five models 根據(jù)以上公式計算得到5個模型的性能指標評價如表 4 所示. 表 4 模型評價Tab.4 Model evaluation 數(shù)理統(tǒng)計中均方誤差(MSE)是指參數(shù)估計值與參數(shù)真值之差平方的期望值. MSE可以評價數(shù)據(jù)的變化程度, MSE的值越小, 說明預測模型描述實驗數(shù)據(jù)具有更好的精確度. 從表 4 中可以看到礦山統(tǒng)計法預測精度最差, 也從側面證實了其實質上是求一個線性回歸方程, 預測模型簡單, 使得預測結果精度較差. BP-NN、 SVR、 PCA-SVR三者的均方誤差和平均相對誤差都比較低且較為接近, 說明這3種模型都比較適用于瓦斯涌出量的預測, 而多數(shù)文獻中也正是應用BP-NN模型和SVR模型來進行預測. 與單純的SVR相比, PCA-SVR的均方誤差和平均相對誤差都較低, 說明利用PCA進行前期處理起到了一定作用, 減少了冗余信息所造成的誤差. SPCA-SVR則在PCA-SVR的基礎上對PCA進行加權改進, 更加優(yōu)化了其去噪及降維能力, 使均方誤差和平均相對誤差更低, 預測精度進一步提高. 1) 煤礦瓦斯涌出受多種因素共同影響, 針對PCA提取特征上存在的缺點, 提出了一種基于權重的改進型PCA, 即SPCA, 經實驗仿真結果證明, SPCA的降維能力要優(yōu)于PCA. 由于對初始數(shù)據(jù)的每維特征賦予了合適的權值, 使得處理結果更客觀, 在所包含的信息累積貢獻率相同或相近的情況下, 經SPCA處理后的數(shù)據(jù)的特征維數(shù)較之傳統(tǒng)PCA明顯要少, 可以減少訓練時間, 減小系統(tǒng)復雜度. 2) 根據(jù)SPCA和SVR的原理, 針對小樣本的特點, 建立了基于SPCA-SVR的煤礦瓦斯涌出量預測模型. 為了與本文提出的模型對比, 分別利用了單獨的SVR模型、 PCA-SVR模型、 礦山統(tǒng)計法和BP-NN模型來進行預測, 結果表明這4種方法的預測精度在一定程度上都不及本文提出的SPCA-SVR模型的預測精度. 由于Spearman相關系數(shù)和PCA算法本身存在的特點, 當數(shù)據(jù)的特征與因變量之間近似成線性關系或低階相關時該方法預測結果比較準確, 通常鑒于煤層瓦斯的涌出量與其主要影響因素之間大多不會存在太過復雜的高階相關, 所以, 本文提出的方法比較適合于瓦斯涌出量的預測, 并且預測效果也較好. 參考文獻: [1] 逄煥東, 高文樂, 楊永杰. 煤與瓦斯突出的“霰彈”模型及其變化規(guī)律[J]. 中國科技論文, 2015, 10(3): 296-299. Pang Huandong, Gao Wen Le, Yang Yongjie. Grapeshot model of coal-gas outburst and its transformation law[J]. China Sciencepaper, 2015, 10(3): 296-299. (in Chinese) [2] Nuotan W U, Luo W, Tang X. Fuzzy evaluation method based on coal mine gas explosion risk assessment[J]. Mineral Engineering Research, 2015, 30(2): 22-26. [3] 趙鵬偉. 礦山統(tǒng)計法預測綜放工作面瓦斯涌出量[J]. 機械管理開發(fā), 2006(3): 18-19. Zhao Pengwei. Combined roof blasting face firedamp gush aount forecasting with mine statistical methd[J]. Mechanical Management and Development, 2006 (3): 18-19. (in Chinese) [4] 徐濤, 郝彬彬, 張華. 分源預測法在新建礦井瓦斯涌出量預測中的應用[J]. 煤炭技術, 2009, 28(7): 104-106. Xu Tao, Hao Binbin, Zhang Hua. Application of forecast from different sources in new mine gas emission forecast[J]. Coal technology, 2009, 28(7): 104-106. (in Chinese) [5] Li R, Shi S, Wu A, et al. Research on prediction of gas emission based on self-organizing data mining in coal mines[J]. Procedia Engineering, 2014, 84(4): 779-785. [6] 王永欣, 張化祥, 王爽. 基于屬性加權的主成分分析算法[J]. 濟南大學學報(自然科學版), 2015, 29(6): 438-443. Wang Yongxin, Zhang Huaxiang, Wang Shuang. An attribute-weighted principal-component analysis algorithm[J]. Journal of University of Jinan (Science and Technology), 2015, 29(6): 438-443. (in Chinese) [7] 鐘用祿, 李海山, 劉發(fā)圣, 等. 基于PCA-SVR的燃煤鍋爐NOx排放預測[J]. 熱力發(fā)電, 2015(1): 87-90. Zhong Yonglu, Li Haishan, Liu Fasheng, et al. PCA-SVR model based NOxemissions prediction for coal-fired boilers[J]. Thermal Power Generation, 2015(1): 87-90. (in Chinese) [8] 盧國斌, 康晉愷, 白剛, 等. PCA-BP 在回采工作面瓦斯涌出量預測中的應用[J]. 遼寧工程技術大學學報, 2015, 34(12): 1329-1334. Lu Guobin, Kang Jinkai, Bai Gang, et al. Application of PCA - BP to gas emission prediction of mining working face[J]. Journal of Liaoning Technical University(Natural Science), 2015, 34(12): 1329-1334. (in Chinese) [9] Puth M T, Neuh?user M, Ruxton G D. Effective use of Spearman’s and Kendall’s correlation coefficients forassociation between two measured traits[J]. Animal Behaviour, 2015(102): 77-84. [10] Vapnik V. The Nature of Statistical Learning Theory[M]. New York: Springer Verlag, 1995. [11] Settouti N, Bechar M E A, Chikh M A. Statistical comparisons of the top 10 algorithms in data mining for classication task[J]. International Journal of Interactive Multimedia & Artificial Intelligence, 2016, 4(1): 46-51. [12] 楊馭東. 基于數(shù)據(jù)挖掘技術的瓦斯涌出量預測方法研究[D]. 內蒙古: 內蒙古科技大學, 2013. [13] 朱紅青, 常文杰, 張彬. 回采工作面瓦斯涌出BP神經網(wǎng)絡分源預測模型及應用[J]. 煤炭學報, 2007, 32(5): 504-508. Zhu Hongqing, Chang Wenjie, Zhang Bin. Different-source gas emission prediction model of working face based on BP artificial neural network and its application[J]. Journal of China coal society, 2007, 32(5): 504-508. (in Chinese) [14] Zhang L, Wang F, Sun T, et al. A constrained optimization method based on BP neural network[J]. Neural Computing & Applications, 2016, 7(11): 1-9.1.2 基于加權改進的主元分析
2 支持向量回歸機
3 基于SPCA-SVR的瓦斯涌出量預測模型
3.1 預測模型的建立
3.2 煤礦瓦斯涌出量預測實驗仿真
4 結 論