喬美英,程鵬飛,劉震震,劉宇翔
(1.河南理工大學(xué)電氣工程與自動(dòng)化學(xué)院,河南 焦作 454000; 2.煤炭安全生產(chǎn)河南省協(xié)同創(chuàng)新中心,河南 焦作 454000)
隨著煤礦開采深度的不斷增加,沖擊地壓災(zāi)害日益頻發(fā),嚴(yán)重威脅著礦山安全。據(jù)統(tǒng)計(jì),1985年我國(guó)有沖擊地壓礦井32個(gè),而到2014年底,這一數(shù)字達(dá)到147個(gè)。2004~2014年間,我國(guó)沖擊地壓事故共造成三百余人死亡,上千人受傷[1]。因此,對(duì)沖擊地壓的危險(xiǎn)性進(jìn)行預(yù)測(cè)研究具有重要意義。
對(duì)沖擊地壓的預(yù)測(cè),常用的有經(jīng)驗(yàn)類比法和現(xiàn)場(chǎng)實(shí)測(cè)的電磁輻射法、鉆屑法、地音與微震系統(tǒng)監(jiān)測(cè)法等。這些傳統(tǒng)方法在實(shí)踐中取得了一定的成果,但由于井下地質(zhì)條件和外部環(huán)境的復(fù)雜性、非線性和特殊性,采用單一指標(biāo)預(yù)測(cè)有時(shí)會(huì)造成較大誤差[2-4]。隨著系統(tǒng)理論和人工智能的發(fā)展,已有學(xué)者在綜合考慮地質(zhì)條件和人工施工等多種因素影響下,建立起客觀性和通用性更強(qiáng)的沖擊地壓模型,如多變量混沌時(shí)間序列模型[5]、AdaBoost集成神經(jīng)網(wǎng)絡(luò)[6]、Fisher 判別模型[7]、突變級(jí)數(shù)法[8]、廣義回歸神經(jīng)網(wǎng)絡(luò)(GRNN)預(yù)測(cè)模型[9]等。這些模型均具有自身的特點(diǎn)和優(yōu)點(diǎn),然而也存在著一些不足[10]:GRNN等網(wǎng)絡(luò)模型預(yù)測(cè)精度較好,但泛化能力較弱;基于統(tǒng)計(jì)學(xué)理論的Fisher判別模型太過依賴樣本的自身結(jié)構(gòu)和數(shù)據(jù)的關(guān)聯(lián)性;突變級(jí)數(shù)法的特點(diǎn)是避開了對(duì)指標(biāo)采用權(quán)重,考慮了各評(píng)價(jià)指標(biāo)的相對(duì)重要性,但存在著預(yù)測(cè)精度不夠高的缺點(diǎn)。
支持向量機(jī)[11](Support Vector Machine,SVM)可以對(duì)沖擊地壓危險(xiǎn)性評(píng)價(jià)的多種影響因素進(jìn)行綜合考慮,其非線性映射能力和泛化能力較好,且模型具有收斂速度快、預(yù)測(cè)精度較高、可重復(fù)訓(xùn)練等特性[12-13]。所以采用SVM對(duì)沖擊地壓等級(jí)進(jìn)行預(yù)測(cè),能較好地避免上述問題。
SVM模型的預(yù)測(cè)性能與參數(shù)的選擇密切相關(guān),目前對(duì)其參數(shù)的優(yōu)化并沒有統(tǒng)一的標(biāo)準(zhǔn)。果蠅優(yōu)化算法(Fruit Fly Optimization Algorithm,FOA)是一種基于果蠅覓食行為推演尋求全局優(yōu)化的方法。具有計(jì)算簡(jiǎn)單、全局尋優(yōu)能力較強(qiáng)的特點(diǎn)[14],但與傳統(tǒng)方法類似,F(xiàn)OA仍存在易陷入局部最優(yōu)進(jìn)而影響預(yù)測(cè)精度的缺點(diǎn),在應(yīng)對(duì)高維問題時(shí)更為明顯。因此,本文提出一種改進(jìn)的果蠅優(yōu)化算法對(duì)SVM進(jìn)行尋優(yōu):引入逃脫因子δ,摒棄固定的步長(zhǎng)而采用遞減的步長(zhǎng),步長(zhǎng)隨迭代次數(shù)的增加逐漸減小,并在三維空間中進(jìn)行搜索。繼而建立沖擊地壓危險(xiǎn)性等級(jí)預(yù)測(cè)模型,進(jìn)行仿真預(yù)測(cè)。
支持向量機(jī)(SVM)是由俄羅斯學(xué)者Vapnik提出的研究小樣本、小概率和非線性事件的模型,其基本思想是以結(jié)構(gòu)風(fēng)險(xiǎn)最小化為原則,通過非線性變換,將原空間的樣本映射到高維空間中,然后在高維特征空間中構(gòu)造出最優(yōu)分類超平面[15]。xi∈Rd(i=1,2,…,N)表示樣本向量,目標(biāo)yi∈{-1,1}表示類別號(hào),N為樣本個(gè)數(shù)。尋求最優(yōu)分類超平面的問題即轉(zhuǎn)化為求解凸二次方程的問題:
(1)
其中,w和b是超平面方程f(x)=w·x+b的系數(shù)。引入松弛變量ξi,以提高學(xué)習(xí)方法的泛化能力,優(yōu)化問題可表示為:
(2)
式中:C——懲罰因子,用于控制錯(cuò)分樣本懲罰程度。
通過Lagrange乘子算法推導(dǎo)出上述問題的對(duì)偶形式:
(3)
式中:K(xi,xj)——支持向量機(jī)從低維空間向高維空間映射的核函數(shù)類型。常用的核函數(shù)有線性核函數(shù)、徑向基核函數(shù)(Radial Basis Function,RBF)、多項(xiàng)式核函數(shù)和Sigmoid核函數(shù)。
因?yàn)镽BF核函數(shù)只需確定一個(gè)參數(shù)σ即可,所以本文選用RBF核函數(shù):
(4)
果蠅優(yōu)化算法(Fruit Fly Optimization Algorithm, FOA)是我國(guó)臺(tái)灣學(xué)者潘文超[16]于2011年提出的群體智能算法。果蠅因其發(fā)達(dá)的視嗅覺能準(zhǔn)確地找到很遠(yuǎn)的食物。通過模仿果蠅群體的覓食行為,F(xiàn)OA可以達(dá)到全局最優(yōu)。果蠅群體發(fā)現(xiàn)食物的迭代過程如圖1所示。
圖1 果蠅群體迭代搜索食物示意圖Fig. 1 Diagram of fruit flies iterative searching for food
SVM對(duì)非線性問題的分類性能主要取決于合適的核函數(shù)參數(shù)σ2和懲罰因子C[17]。在應(yīng)用中,為方便起見,常將SVM的核函數(shù)參數(shù)σ2做變換如下:g=-1/2σ2,從而將g看作徑向基核函數(shù)的參數(shù)進(jìn)行研究。
對(duì)于問題二,本文將固定的步長(zhǎng)改為變化的自適應(yīng)值,提出步長(zhǎng)公式:
(5)
式中:imax——是迭代次數(shù),
i——當(dāng)前迭代次數(shù),
R0——初始步長(zhǎng)。
對(duì)于問題三,本文通過改進(jìn)算法,使FOA在三維
空間中進(jìn)行尋優(yōu)。
利用改進(jìn)的FOA算法對(duì)參數(shù)C和g進(jìn)行尋優(yōu)的步驟為:
,2,…n
(6)
式中:n——訓(xùn)練樣本總個(gè)數(shù);
xmin——輸入數(shù)據(jù)中的最小值;
xmax——輸入數(shù)據(jù)中的最大值。
步驟 2 主成分分析。因本文所選沖擊地壓數(shù)據(jù)特征為多變量,多變量之間往往具有一定的相關(guān)性,若不進(jìn)行降維,可能導(dǎo)致樣本信息過度重復(fù)。故進(jìn)行主成分分析將原來具有一定相關(guān)性的特征量通過變換重新組合成一組新的互不相關(guān)的特征量以實(shí)現(xiàn)降維。
步驟 3 隨機(jī)初始化果蠅群體位置區(qū)間,迭代果蠅搜尋食物的隨機(jī)飛行方向和距離,設(shè)置種群規(guī)模和迭代次數(shù)。
(7)
步驟4 計(jì)算果蠅距初始位置的距離,進(jìn)而利用味道濃度判定函數(shù)求出味道濃度,對(duì)尋優(yōu)參數(shù)C和g賦值。
(8)
(9)
C=20S(i,1)
(10)
g=S(i,2)
(11)
步驟5 將Si代入目標(biāo)函數(shù)中,得到味道濃度判定值:
Smelli=FitnessFunction(Si)
(12)
步驟6 找尋果蠅群體中味道濃度最優(yōu)的個(gè)體。
肌纖維組織切片封片后,使用倒置顯微鏡進(jìn)行攝像,每組選6個(gè)樣本,每個(gè)樣本選取相似部位的3個(gè)切片進(jìn)行相同視野的觀察和分析;用Image-Pro Plus6.0圖像分析軟件進(jìn)行定量,分別計(jì)算出I型肌纖維、Ⅱ型肌纖維的目標(biāo)面積及其百分比。目標(biāo)面積用積分光密度(integrated optical density, IOD)表示,再換算成肌纖維百分比。
步驟7 保留最佳味道濃度值及其坐標(biāo),果蠅群體通過視覺飛向該位置。
步驟8 迭代尋優(yōu)。重復(fù)執(zhí)行步驟3~7,并判斷當(dāng)前味道濃度是否優(yōu)于前一迭代味道濃度,結(jié)束條件為尋優(yōu)達(dá)到最大進(jìn)化代數(shù)。
改進(jìn)的FOA-SVM算法流程如圖2所示。
圖2 改進(jìn)FOA-SVM算法流程圖Fig.2 Procedure of improved FOA-SVM
為驗(yàn)證改進(jìn)的FOA-SVM性能,選取3個(gè)常用的測(cè)試函數(shù)進(jìn)行算法性能測(cè)試,求它們的極小值,并與其它方法進(jìn)行比較。3個(gè)測(cè)試函數(shù)理論極值都為0,具體信息如下:
(1)Rastrigin函數(shù):
(2)Griewank函數(shù):
(3)Ackley函數(shù):
分別采用FOA和改進(jìn)FOA兩種算法對(duì)測(cè)試函數(shù)進(jìn)行測(cè)試,每個(gè)測(cè)試函數(shù)獨(dú)立運(yùn)行20次,表1給出了20次實(shí)驗(yàn)結(jié)果中的最差值(Max)、最優(yōu)值(Min)、20次結(jié)果的平均值(Mean)以及標(biāo)準(zhǔn)差(Std)。圖3給出3個(gè)測(cè)試函數(shù)的適應(yīng)度迭代尋優(yōu)曲線(為便于觀察,對(duì)適應(yīng)度取以10為底的對(duì)數(shù))。
表1 兩種算法測(cè)試結(jié)果比較
圖3 2種算法對(duì)3個(gè)測(cè)試函數(shù)的迭代曲線Fig.3 The iterative curve of 2 algorithms for 3 test functions
從表1可以看到,對(duì)于Rastrigin、Griewank、Ackley 3個(gè)常見的測(cè)試函數(shù),改進(jìn)FOA的最差值、最優(yōu)值、20次結(jié)果的平均值和標(biāo)準(zhǔn)差幾乎都要優(yōu)于FOA,函數(shù)Rastrigin和Griewank的最優(yōu)值相比標(biāo)準(zhǔn)FOA提高了10個(gè)和7個(gè)數(shù)量級(jí)。從圖3的收斂曲線也可以看到,標(biāo)準(zhǔn)FOA容易陷入局部最優(yōu)無法跳出,致使收斂精度不夠;而改進(jìn)的FOA可以跳出局部最優(yōu)并進(jìn)行全局搜索,收斂精度更高。
影響沖擊地壓發(fā)生的因素很多,且具有不確定性和模糊性。沖擊地壓的發(fā)生往往是多因素共同作用的結(jié)果。所以,要在沖擊地壓預(yù)測(cè)中要取得好的效果,必須先確定主要影響因素。根據(jù)煤礦地質(zhì)構(gòu)造及開采方式,結(jié)合有關(guān)沖擊地壓等級(jí)評(píng)判體系[19],影響沖擊地壓發(fā)生的因素主要有:煤層厚度、傾角、埋深、瓦斯?jié)舛?、?gòu)造情況、傾角變化、煤厚變化、頂板管理、卸壓和響煤炮聲等十個(gè)方面。其中前四項(xiàng)采用實(shí)測(cè)值直接輸入;后六個(gè)參數(shù)屬于狀態(tài)參量,需要對(duì)其作數(shù)量化處理,賦值規(guī)則見表2[20]。
表2 沖擊地壓危險(xiǎn)性指標(biāo)賦值規(guī)則
硯石臺(tái)礦位于四川盆地,曾多次發(fā)生沖擊地壓事故。以文獻(xiàn)[7]提供的硯石臺(tái)礦35組歷年沖擊地壓數(shù)據(jù)為例。評(píng)價(jià)結(jié)果分為4個(gè)等級(jí):1、無沖擊危險(xiǎn);2、弱沖擊危險(xiǎn);3、中等沖擊危險(xiǎn);4、強(qiáng)沖擊危險(xiǎn)。 并分別用Ⅰ、Ⅱ、Ⅲ、Ⅳ表示四個(gè)等級(jí)。沖擊地壓樣本數(shù)據(jù)統(tǒng)計(jì)情況見表3,其中,前23組為訓(xùn)練集,后12組為測(cè)試集。
利用Matlab2010b和SVM-SteveGunn工具箱進(jìn)行編程,創(chuàng)建改進(jìn)的FOA-SVM模型。
首先,對(duì)樣本數(shù)據(jù)進(jìn)行歸一化預(yù)處理,參照公式6利用線性函數(shù)變換將原始樣本歸一化到[0,1]區(qū)間。
其次,對(duì)歸一化后的數(shù)據(jù)進(jìn)行主成分分析,得到降維后的新數(shù)據(jù)樣本如圖4所示。從圖4中可以看到,前7個(gè)參數(shù)的累計(jì)貢獻(xiàn)率已經(jīng)達(dá)到97%。所以,原數(shù)據(jù)樣本的訓(xùn)練集和測(cè)試集分別由23×10和12×10降為23×7和12×7矩陣。
圖4 樣本特征量主成分分析貢獻(xiàn)率圖Fig.4 The PCA contribution rate chart of sample characteristic quantity
然后,利用前23組沖擊地壓數(shù)據(jù)訓(xùn)練模型,對(duì)最后12組數(shù)據(jù)進(jìn)行預(yù)測(cè)。FOA初始化果蠅群體位置區(qū)間[0,1],迭代果蠅搜尋食物的隨機(jī)飛行方向和距離[-10,10],種群規(guī)模20,迭代次數(shù)100,C的搜索范圍設(shè)為[0,100],g的搜索范圍為[0,1 000][21]。100次迭代后的適應(yīng)度收斂情況如圖5所示。
圖5 改進(jìn)的FOA-SVM尋優(yōu)迭代代數(shù)曲線Fig.5 Iterative algebraic curve of improved FOA-SVM
由圖5可知,經(jīng)過34次迭代后,種群的最佳適應(yīng)度保持穩(wěn)定,可認(rèn)為達(dá)到最優(yōu)解,此時(shí)bestC=0.852 4,g=0.097 6,將最佳C和g代入SVM中,得到訓(xùn)練和預(yù)測(cè)結(jié)果如圖6所示。
圖6 改進(jìn)的FOA -SVM測(cè)試結(jié)果Fig.6 The testing results of improved FOA -SVM
圖6(a)為23組訓(xùn)練數(shù)據(jù)的訓(xùn)練結(jié)果,(b)為12組測(cè)試數(shù)據(jù)的預(yù)測(cè)結(jié)果。“*”為真實(shí)值,“。”為預(yù)測(cè)值。從圖中可以看出,訓(xùn)練集的模型誤判率為0,測(cè)試集只有第一個(gè)樣本預(yù)測(cè)錯(cuò)誤,其他11個(gè)樣本全部正確。預(yù)測(cè)正確率達(dá)到 91.67%,程序運(yùn)行時(shí)間為21.61 s。
為驗(yàn)證改進(jìn)的FOA-SVM模型優(yōu)越性,使用標(biāo)準(zhǔn)FOA-SVM、PSO-SVM和GA-SVM模型分別對(duì)沖擊地壓危險(xiǎn)性等級(jí)進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果如圖7所示。
圖7 3種方法預(yù)測(cè)結(jié)果Fig.7 The testing results of 3 methods
從圖7可以看出,PSO-SVM和GA-SVM兩種方法的預(yù)測(cè)結(jié)果分別有兩個(gè)樣本點(diǎn)預(yù)測(cè)錯(cuò)誤(PSO-SVM模型為樣本1和樣本8,GA-SVM模型為樣本1和樣本11),預(yù)測(cè)正確率達(dá)到 83.33%,PSO-SVM模型程序運(yùn)行時(shí)間為3.31 s,bestC=3.21,g=0.33;GA-SVM程序運(yùn)行時(shí)間為2.13 s,bestC=7.94,g=0.20。標(biāo)準(zhǔn)FOA-SVM模型在第一個(gè)樣本點(diǎn)預(yù)測(cè)錯(cuò)誤,運(yùn)行時(shí)間為29.74 s,bestC=2.73,g=0.14。可以看出,改進(jìn)FOA-SVM的預(yù)測(cè)結(jié)果明顯優(yōu)于PSO-SVM和GA-SVM,但因樣本數(shù)有限,未能在本實(shí)例中明顯體現(xiàn)出優(yōu)于標(biāo)準(zhǔn)FOA-SVM的預(yù)測(cè)能力,但可以看到改進(jìn)FOA-SVM的效率還是高于標(biāo)準(zhǔn)FOA-SVM的。
至于為何4種模型都在預(yù)測(cè)測(cè)試集的第一個(gè)樣本時(shí)錯(cuò)誤,筆者采用局部敏感性分析法,即:將測(cè)試集樣本1中的因素逐個(gè)減少或改變,代入模型預(yù)測(cè)。結(jié)果表明煤厚變化和卸壓方式是影響樣本1誤判的主要因素。之前因樣本1中瓦斯?jié)舛葦?shù)值與其它樣本中同一危險(xiǎn)性等級(jí)的瓦斯?jié)舛戎迪嗖钶^大而懷疑瓦斯?jié)舛纫部赡苁窃斐蓸颖?預(yù)測(cè)錯(cuò)誤的一個(gè)因素,但結(jié)果表明瓦斯?jié)舛葘?duì)結(jié)果影響并不大。當(dāng)然,具體精確的原因還需更加深入的研究。
(1) 利用改進(jìn)的FOA對(duì)SVM參數(shù)進(jìn)行優(yōu)化,引入逃脫因子δ,將固定步長(zhǎng)改為遞減步長(zhǎng)并在三維空間進(jìn)行搜索,避免了在二維空間條件下易陷入局部最優(yōu)的問題。
(2) 建立的改進(jìn)FOA-SVM模型可以對(duì)沖擊地壓危險(xiǎn)性等級(jí)進(jìn)行預(yù)測(cè),并且預(yù)測(cè)精度較高,具有很好的現(xiàn)實(shí)意義。
(3)改進(jìn)的FOA-SVM模型訓(xùn)練效率雖然比標(biāo)準(zhǔn)FOA-SVM高,但是和GA-SVM、PSO-SVM相比,還是有一定差距。尤其在樣本數(shù)目多的情況下運(yùn)行時(shí)間較長(zhǎng)。因此,如何提高模型的效率,需要做進(jìn)一步研究。