秋興國(guó),王瑞知,張衛(wèi)國(guó),張昭昭,張婧
(西安科技大學(xué) 計(jì)算機(jī)技術(shù)與科學(xué)學(xué)院, 陜西 西安 710054)
礦井突水災(zāi)害事故危害巨大,據(jù)中國(guó)煤礦安全生產(chǎn)網(wǎng)站統(tǒng)計(jì),2013—2019年我國(guó)共發(fā)生煤礦水害事故39起,占全國(guó)煤礦總事故的11.21%;因煤礦水害導(dǎo)致死亡的有246人,占全國(guó)煤礦總事故死亡人數(shù)的14.03%[1]。快速判斷水源類別并及時(shí)確定突水危險(xiǎn)發(fā)生位置是有效預(yù)防突水事故發(fā)生及水害治理的重要方法和技術(shù)手段。
顏丙乾等[2]通過(guò)主成分分析(Principal Component Analysis, PCA)得出不同水樣的礦化程度,將馬爾科夫鏈蒙特卡洛(Markov Chain Monte Carlo, MCMC)引入到貝葉斯(Bayes)方法中,建立了基于PCA和MCMC的Bayes方法的礦井突水水源判別模型。聶鳳琴等[3]建立了基于馬氏距離的礦井突水水源判別模型,通過(guò)劃分不同水源間的距離對(duì)水源類型進(jìn)行區(qū)分。孫福勛等[4]在Fisher判別分析理論的基礎(chǔ)上引入質(zhì)心距評(píng)價(jià)法剔除混合水樣樣本,實(shí)驗(yàn)證明改進(jìn)后的模型判別準(zhǔn)確率從60%提高到了83.3%。姜子豪等[5]提出了一種基于Bayes-可拓判別法的礦井突水水源判別方法,避免了Bayes判別法中各特征指標(biāo)對(duì)總體樣本的影響及可拓判別法忽視誤判損失帶來(lái)的判別誤差問(wèn)題,可有效提高水源判別精度。楊勇等[6]采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)建立礦井突水水源判別模型,實(shí)驗(yàn)證明該模型適用于處理多維突水序列。劉東銳等[7]利用遺傳算法(Genetic Algorithm,GA)對(duì)傳統(tǒng)支持向量機(jī)(Support Vector Machine, SVM)進(jìn)行優(yōu)化,建立了GA-SVM水源判別模型,解決了SVM模型參數(shù)選取經(jīng)驗(yàn)化的問(wèn)題。李垣志等[8]建立了基于回聲狀態(tài)網(wǎng)絡(luò)(Echo State Network, ESN)的礦井突水水源判別模型,削弱了人為因素的干擾。以上模型雖然具有一定的實(shí)用性,但仍存在非線性能力較差、模型穩(wěn)定性較差、判別精度低等問(wèn)題。為此,本文基于PCA和確定性分層跳躍循環(huán)網(wǎng)絡(luò)(Cycle Reservoir with Hierarchical Jumps, CRHJ)構(gòu)建了PCA-CRHJ模型。將該模型應(yīng)用于2個(gè)實(shí)際煤礦的突水水源判別,以驗(yàn)證該模型的實(shí)用性和有效性。
假設(shè)原始數(shù)據(jù)集包括n個(gè)數(shù)據(jù)樣本,每個(gè)樣本具有p個(gè)指標(biāo)Z1—Zp,對(duì)此數(shù)據(jù)集的PCA數(shù)據(jù)分析計(jì)算流程如下。
(1) 對(duì)原始數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化處理,組成標(biāo)準(zhǔn)化數(shù)據(jù)矩陣。
(2) 根據(jù)Pearson相關(guān)系數(shù)[9]計(jì)算各個(gè)變量數(shù)據(jù)間的相關(guān)性,組成相關(guān)系數(shù)矩陣。
(3) 求解關(guān)于相關(guān)系數(shù)矩陣的特征方程,對(duì)求出的特征值λ進(jìn)行排序(從大到小),即λ1≥λ2≥…≥λp,并求出每個(gè)特征值所對(duì)應(yīng)的單位特征向量L1—Lp,所有單位特征向量組成的主成分得分矩陣為
(1)
式中l(wèi)pp為單位特征向量Lp的第p個(gè)得分系數(shù)。
(4) 計(jì)算累計(jì)貢獻(xiàn)βm,保留累計(jì)貢獻(xiàn)率在85%以上的前m個(gè)成分作為新的主成分。
(2)
(5) 原始數(shù)據(jù)集經(jīng)過(guò)PCA處理后得到重組數(shù)據(jù)集,第m個(gè)新主成分的數(shù)學(xué)模型Fm為
Fm=l1mZ1+l2mZ2+…+lpmZp
(3)
確定性循環(huán)跳躍網(wǎng)絡(luò)(Cycle Reservoir with Regular Jumps, CRJ)是一種能夠進(jìn)行時(shí)間序列分析的新型遞歸神經(jīng)網(wǎng)絡(luò)[10],其儲(chǔ)備池采用簡(jiǎn)單的確定型循環(huán)拓?fù)浣Y(jié)構(gòu),解決了ESN儲(chǔ)備池隨機(jī)連接結(jié)構(gòu)不易受控制的問(wèn)題。與CRJ拓?fù)浣Y(jié)構(gòu)不同的是,CRHJ的儲(chǔ)備池采用分層跳躍拓?fù)浣Y(jié)構(gòu),內(nèi)部活躍度明顯提高,在保證內(nèi)部多樣性的同時(shí)增強(qiáng)了內(nèi)部穩(wěn)定性,從而增強(qiáng)了模型的非線性能力,使其表現(xiàn)出卓越的性能。
圖1 N=12,J=3的CRJ拓?fù)浣Y(jié)構(gòu)Fig.1 CRJ topological structure with N=12 and J=3
圖2 N=18,J1=2,J2=4,J3=8的CRHJ拓?fù)浣Y(jié)構(gòu)Fig.2 CRHJ topological structure with N=18 and J1=2,J2=4,J3=8
CRHJ的更新公式為[12]
x(t+1)=f(Vs(t+1)+Wx(t)+z(t+1))
(4)
式中:x(t)為t時(shí)描述儲(chǔ)備池內(nèi)部狀態(tài)的狀態(tài)變量,x(t)=(x1(t),x2(t),…,xN(t))T;f為儲(chǔ)備池激活函數(shù),通常取tanh函數(shù)或sigmoidal函數(shù);V為輸入連接權(quán)值矩陣,由輸入連接權(quán)重r1={-v,v}組成,矩陣大小為N×K;s(t)為t時(shí)的輸入變量,s(t)=(s1(t),s2(t),…,sK(t))T;W為儲(chǔ)備池權(quán)值矩陣,由r2和rjk組成,矩陣大小為N×N;z(t)為獨(dú)立且均勻分布的隨機(jī)噪聲。
y(t+1)=Ux(t+1)
(5)
式中:y(t)為t時(shí)的輸出變量,y(t)=(y1(t),y2(t),…,yH(t));U為輸出連接權(quán)值矩陣,利用Tikhonov正則化方法[13]求出矩陣大小為H×N。
為了驗(yàn)證基于PCA-CRHJ模型的礦井突水水源判別的實(shí)用性和有效性,將該模型應(yīng)用到安徽淮南張集煤礦和新莊孜煤礦的突水水源判別中。
采用最大最小歸一化方法分別對(duì)數(shù)據(jù)集A、B中的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。
利用Pearson相關(guān)系數(shù)ξ評(píng)估標(biāo)準(zhǔn)數(shù)據(jù)矩陣各個(gè)指標(biāo)變量之間的線性相關(guān)程度。取相關(guān)程度閾值為0.8,|ξ|>0.8表示2個(gè)變量之間線性相關(guān)程度較高。數(shù)據(jù)集A各指標(biāo)相關(guān)系數(shù)見(jiàn)表1,數(shù)據(jù)集B各指標(biāo)相關(guān)系數(shù)見(jiàn)表2。表1中,相關(guān)系數(shù)的絕對(duì)值大于0.8的有X1和X8,X2和X8,X4和X6,X4和X11,X6和X11,X7和X11,11對(duì)指標(biāo)中有6對(duì)指標(biāo)相關(guān)性過(guò)大,信息重疊使得信息豐富性降低。表2中,相關(guān)系數(shù)的絕對(duì)值大于0.8的有Y3和Y4,Y1和Y5,Y1和Y7,Y5和Y7,7對(duì)指標(biāo)中有4對(duì)指標(biāo)相關(guān)性過(guò)大,信息重疊使得信息豐富性降低。因此,對(duì)數(shù)據(jù)進(jìn)行PCA分析,突出各個(gè)指標(biāo)的特征,避免對(duì)模型精度的影響。進(jìn)行PCA分析時(shí),計(jì)算得到各個(gè)主成分的特征值、貢獻(xiàn)率、累計(jì)貢獻(xiàn)率,見(jiàn)表3。
表1 數(shù)據(jù)集A各指標(biāo)相關(guān)系數(shù)Table 1 Each index correlation coefficient in data set A
表2 數(shù)據(jù)集B各指標(biāo)相關(guān)系數(shù)Table 2 Each index correlation coefficient in data set B
表3 數(shù)據(jù)集A、數(shù)據(jù)集B各成分特征值、貢獻(xiàn)率、累計(jì)貢獻(xiàn)率Table 3 Characteristic value, contribution rate and cumulative contribution rate of each component in data set A and set B
(6)
(7)
表4 模型參數(shù)Table 4 Model parameters
基于數(shù)據(jù)集A與數(shù)據(jù)集B,對(duì)PCA-CRHJ、CRHJ、CRJ、ESN模型進(jìn)行礦井突水水源判別模擬實(shí)驗(yàn)。將各個(gè)模型分別運(yùn)行100次。
模擬實(shí)驗(yàn)采用均方根誤差RMSE對(duì)模型的準(zhǔn)確率進(jìn)行評(píng)估,當(dāng)RMSE接近于0時(shí),表示模型準(zhǔn)確率高。
基于數(shù)據(jù)集A的判別誤差分布如圖3所示,基于數(shù)據(jù)集B的判別誤差分布如圖4所示,各模型的判別結(jié)果與誤差見(jiàn)表5。對(duì)比圖3和圖4可知,由于ESN的輸入權(quán)值矩陣與儲(chǔ)備池的連接權(quán)矩陣在每次訓(xùn)練時(shí)均需隨機(jī)生成且網(wǎng)絡(luò)內(nèi)部狀態(tài)不穩(wěn)定,所以,模型誤差分布波動(dòng)性較大;PCA-CRHJ、CRHJ、CRJ的輸入權(quán)值矩陣與儲(chǔ)備池連接權(quán)值矩陣在訓(xùn)練前已確定且保持不變,確定性跳躍循環(huán)的拓?fù)浣Y(jié)構(gòu)使得訓(xùn)練過(guò)程中網(wǎng)絡(luò)內(nèi)部狀態(tài)保持穩(wěn)定,所以,模型誤差分布平穩(wěn)。根據(jù)表5計(jì)算分析可得:基于數(shù)據(jù)集A訓(xùn)練的PCA-CRHJ模型的精度比CRHJ模型提高了79.81%,比CRJ模型提高了79.95%,比ESN模型提高了86.55%;基于數(shù)據(jù)集B訓(xùn)練的PCA-CRHJ模型的精度比CRHJ模型提高了48.95%,比CRJ模型提高了61.43%,比ESN模型提高了61.89%。4種模型模擬準(zhǔn)確率高低順序如下:PCA-CRHJ>CRHJ>CRJ>ESN。由表5中期望輸出與判別結(jié)果可知,PCA-CRHJ模型的判別結(jié)果與期望輸出一致,模擬準(zhǔn)確率達(dá)到了100%。
圖3 基于數(shù)據(jù)集A的誤差分布Fig.3 Error distribution of data set A
圖4 基于數(shù)據(jù)集B的誤差分布Fig.4 Error distribution of data set B
表5 判別結(jié)果與誤差Table 5 Discrimination results and errors
PCA-CRHJ模型有5類主要參數(shù),分別為儲(chǔ)備池規(guī)模N、輸入連接權(quán)重r1、單向連接權(quán)重r2、分層雙向跳躍權(quán)重rjk、跳躍步長(zhǎng)J。
(1) 3類權(quán)重參數(shù)的敏感度分析。保持N=20和J=2不變,依次改變其余3類權(quán)重參數(shù)值,以RMSE作為評(píng)判指標(biāo)討論3類權(quán)重參數(shù)的敏感性。PCA-CRHJ模型不同權(quán)重參數(shù)的誤差分布如圖5所示,其中圖5(a)為誤差放大前的模擬結(jié)果,圖5(b)為將誤差放大至[0.083,0.090]區(qū)間的模擬結(jié)果。本文所用PCA-CRHJ模型共有3層跳躍網(wǎng)絡(luò),故分層雙向跳躍權(quán)重依次是rj1,rj2,rj3。從圖5(a)可看出,輸入連接權(quán)重r1對(duì)模型模擬結(jié)果的影響最大,當(dāng)其取值在[0,0.4]時(shí),RMSE隨著輸入連接權(quán)重r1的增大而減小,模型模擬結(jié)果誤差較大,當(dāng)其取值大于0.4時(shí),RMSE趨于穩(wěn)定;r2,rj1,rj2,rj3對(duì)模型模擬結(jié)果影響均較小。從圖5(b)可得出,5個(gè)權(quán)重參數(shù)-RMSE曲線的斜率(θ)大小依次是θ1>θj1>θ2>θj3>θj2,因此,5個(gè)權(quán)重參數(shù)對(duì)模型誤差模擬的影響大小依次為r1>rj1>r2>rj3>rj2。
(a) 誤差放大前
(2) 儲(chǔ)備池規(guī)模及跳躍步長(zhǎng)的敏感度分析。設(shè)3類權(quán)重參數(shù)取得最優(yōu)值且保持不變,跳躍步長(zhǎng)取值范圍為[2,60],儲(chǔ)備池規(guī)模分別取500,400,300,200,100,誤差分布如圖6所示。從圖6橫向觀察,跳躍步長(zhǎng)J對(duì)模擬結(jié)果的影響整體上趨于平穩(wěn),影響較??;縱向觀察,當(dāng)跳躍步長(zhǎng)J一定時(shí),不同儲(chǔ)備池規(guī)模N的取值使RMSE產(chǎn)生較大差異,因此,儲(chǔ)備池規(guī)模N對(duì)模型模擬結(jié)果影響較大。其原因主要在于所用水源判別的數(shù)據(jù)集太小,選用較大的儲(chǔ)備池規(guī)模N易使模型產(chǎn)生過(guò)擬合現(xiàn)象,從而使誤差增大。所以,對(duì)于PCA-CRHJ網(wǎng)絡(luò),當(dāng)數(shù)據(jù)集較小時(shí),選用較小的儲(chǔ)備池規(guī)模N將得到更優(yōu)的結(jié)果。
圖6 PCA-CRHJ模型儲(chǔ)備池規(guī)模參數(shù)及跳躍步長(zhǎng)參數(shù)的誤差分布Fig.6 Error distribution of reservoir scale and jump size in PCA-CRHJ model
(1) 采用PCA對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,有效提取多元時(shí)間突水序列的數(shù)據(jù)特征,重構(gòu)原始數(shù)據(jù),結(jié)合具有多元時(shí)間序列分析能力的CRHJ神經(jīng)網(wǎng)絡(luò)建立PCA-CRHJ模型,用于礦井突水水源的判別。通過(guò)與CRHJ、CRJ、ESN模型進(jìn)行對(duì)比,表明PCA-CRHJ模型的實(shí)際判別效果最優(yōu),準(zhǔn)確率可達(dá)100%。
(2) 對(duì)PCA-CRHJ模型參數(shù)敏感性進(jìn)行分析,表明輸入連接權(quán)重參數(shù)對(duì)模型判別結(jié)果的影響最大,5個(gè)權(quán)重參數(shù)對(duì)模型模擬結(jié)果影響大小的順序依次是r1>rj1>r2>rj3>rj2;當(dāng)3類權(quán)重參數(shù)取得最優(yōu)值且保持不變時(shí),儲(chǔ)備池規(guī)模對(duì)模型誤差影響最大,而跳躍步長(zhǎng)的影響則較小。