張寧,張幼振,姚克
(中煤科工集團西安研究院有限公司, 陜西 西安 710077)
隨著煤礦開采深度的增加,井下地質(zhì)力學環(huán)境發(fā)生了顯著變化,煤礦井下含煤地層特性,包括煤巖體巖性與結(jié)構(gòu)特征等礦井支護工程與安全施工必需的基礎(chǔ)參數(shù)愈顯不足,施工時操作人員通常憑工作經(jīng)驗對巖層特性進行定性分析,工程設(shè)計的合理性與開采過程的安全保障受到很大影響。有效利用鉆進參數(shù)信息實時識別鉆頭當前位置的地層巖性,從而得出煤礦巷道的地層信息,可以為巷道治理及后期維護提供可靠直觀的地質(zhì)依據(jù),為同類礦井工程設(shè)計提供必要的基礎(chǔ)地質(zhì)參數(shù)[1-3]。
近些年來,國內(nèi)外學者基于鉆進參數(shù)對巖性識別進行了大量研究。S. S. Peng等[4]利用錨桿鉆車在煤礦巷道頂板錨固過程中獲取鉆進參數(shù),并通過趨勢線方法對數(shù)據(jù)進行分析,得出了頂板巖石強度的識別結(jié)果。馬崢等[5]提出了基于主成分分析(Principal Components Analysis, PCA)算法與模糊識別的巖性識別方法,并通過蘇里格氣田碳酸鹽巖測井數(shù)據(jù)對該方法進行了驗證。仲鴻儒等[6]基于自組織映射(Self-organizing Maps, SOM)和模糊識別相結(jié)合的巖性識別方法,采用自組織映射以無監(jiān)督形式挖掘出6種測井參數(shù)的關(guān)系信息和拓撲結(jié)構(gòu)。T.Singh等[7]分析比較了核模糊C均值聚類(Kernel Fuzzy C-Means Clustering, KFCM)算法的優(yōu)缺點,并通過相關(guān)算例進行了測試。
上述研究在一定程度上能夠?qū)崿F(xiàn)地層巖性的識別,為地層識別基礎(chǔ)理論的構(gòu)建和工程應(yīng)用提供了重要參考,但是較少考慮煤礦井下鉆進施工所面臨的復雜地層非結(jié)構(gòu)化對象的作用,地層信息參數(shù)獲取難度大;同時含煤地層的巖性特征通常與高維鉆進參數(shù)有關(guān),利用傳統(tǒng)鉆進參數(shù)進行巖性識別時存在精度低的問題,無法對復雜的含煤地層做出實時可信的描述。鑒此,本文利用高維鉆進參數(shù)進行巖性識別,將PCA算法和KFCM算法結(jié)合起來,提出了一種基于PCA-KFCM算法的含煤地層巖性優(yōu)化識別方法。以鉆進試驗臺獲得的鉆進參數(shù)集作為識別數(shù)據(jù)來源,利用PCA-KFCM算法對鉆進參數(shù)集進行降維和聚類處理,并采用馬氏距離判別法對測試樣本進行識別[8-10],為煤礦井下含煤地層巖性識別提供了一種新方法。
PCA算法的主要思想是對相關(guān)程度較強的p個指標進行線性變換并組合成新的綜合指標,同時最大程度保持原有數(shù)據(jù)集的信息[11-14]。算法主要步驟如下:
(1)
(2) 計算各指標的相關(guān)系數(shù),構(gòu)造相關(guān)系數(shù)矩陣R(rij)n×N。
(2)
(3) 構(gòu)造主成分。計算出相關(guān)系數(shù)矩陣R的特征值λ1,λ2,…,λN(λ1≥λ2≥…≥λN≥0)及其對應(yīng)的特征向量μ1,μ2,…,μN,記μj=(μ1j,μ2j,…,μNj)T,做線性組合,得
yi=μ1ix1+μ2ix2+μjixj+…+μNixN
(3)
式中:yi為第i個主成分;xj為樣本中第j個標準化變量。
(4) 選取主成分。計算特征值λj的貢獻率bj和累計貢獻率cp:
(4)
(5)
式中p為主成分的個數(shù),p≤N。
選取使累計貢獻率大于85%的前p個特征值作為主成分。
(5) 計算綜合得分并進行評價。綜合得分Z的計算公式為
(6)
通過對所有數(shù)據(jù)集的綜合得分進行計算,完成對數(shù)據(jù)集的綜合評價。
KFCM算法原理:對于給定的數(shù)據(jù)集X={x1,x2,…,xN},通過非線性映射φ將其映射到高維空間φ(X)={φ(x1),φ(x2),…,φ(xN)},利用核函數(shù)計算樣本在高維空間中的內(nèi)積,并應(yīng)用最小化目標函數(shù)將數(shù)據(jù)集X分為k個聚類[15-17]。算法主要步驟如下:
(1) 設(shè)置分類的聚類個數(shù)k、模糊系數(shù)m、迭代截止誤差ε和核函數(shù)參數(shù)。
(2) 對隸屬度矩陣進行初始化,并且符合歸一化規(guī)定。
(3) 計算聚類中心。聚類中心計算公式為
(7)
式中:vω為高維特征空間中第ω類的聚類中心,ω=1,2,…,k;μωj為第j個樣本xj對第ω類的隸屬度,μωj∈[0,1]。
為了實現(xiàn)目標函數(shù)最小化,可通過令其隸屬度矩陣U的偏導數(shù)為零進行計算,則其解為
(8)
式中:d(φ(xr),vω)為高維空間中第r個樣本φ(xr)與第ω個聚類中心的距離度量,xr為第r項數(shù)據(jù)集,r=1,2,…,N;vs為高維特征空間中第s類的聚類中心,s=1,2,…,k。
(4) 對隸屬度矩陣U不斷循環(huán)優(yōu)化,依據(jù)矩陣范數(shù)進行對比,若收斂,則迭代停止,否則返回步驟(3)。
結(jié)合PCA算法的特征提取優(yōu)勢和KFCM算法具有較好聚類效果的特點,建立了基于PCA-KFCM算法的巖性識別模型,該模型首先利用PCA算法對高維數(shù)據(jù)集進行特征參數(shù)提取和數(shù)據(jù)降維處理,然后利用KFCM算法對主成分數(shù)據(jù)集進行聚類分析,最后通過馬氏距離判斷法建立判別準則,利用最小馬氏距離完成對測試樣本的地層巖性識別。巖性識別流程如圖1所示。
圖1 巖性識別流程Fig.1 Lithology identification flow
(1) 利用鉆進試驗臺獲得機械鉆速、回轉(zhuǎn)扭矩、鉆壓、轉(zhuǎn)速、回轉(zhuǎn)壓力和泥漿泵流量6種鉆進敏感參數(shù),去除誤差較大和重復的數(shù)據(jù),將所有有效的鉆進參數(shù)利用配套軟件導出,構(gòu)造高維鉆進參數(shù)集,包括訓練樣本和測試樣本。
(2) 利用PCA算法對訓練樣本進行主成分分析,計算各數(shù)據(jù)集的相關(guān)系數(shù),通過累計貢獻率提取訓練樣本的特征值,其維數(shù)為p,此時應(yīng)能夠反映原來多種敏感鉆進參數(shù)的信息,且不會產(chǎn)生過多的維度,并且能夠保證所有主成分貢獻率不會偏低。據(jù)此計算各主成分的特征向量,根據(jù)綜合得分值對訓練樣本主成分數(shù)據(jù)集進行初步分類,然后利用KFCM算法對訓練樣本主成分數(shù)據(jù)集進行模糊核聚類,得到各分類的聚類中心及聚類類別數(shù)據(jù)集。
(3) 同樣利用PCA算法對測試樣本進行特征提取,獲得測試樣本主成分數(shù)據(jù)集,并通過馬氏距離判別法建立判別準則(式(9)),消除變量間相關(guān)性影響,利用最小馬氏距離完成所有測試樣本的預(yù)測與判別[18-19]。
d(Xi,Gω)=min1≤ω≤kd(Xi,Gω),Xi∈Gω
(9)
式中:d為馬氏距離;Xi為第i項測試樣本;Gω為第ω項聚類類別數(shù)據(jù)集。
鉆進試驗臺主要由主機、動力站及操作臺、數(shù)據(jù)監(jiān)測系統(tǒng)、泥漿泵等部分組成,如圖2所示。主機采用門式框架結(jié)構(gòu),并集成液驅(qū)泥漿泵系統(tǒng),系統(tǒng)最高壓力為20 MPa,最大流量為104 L/min。系統(tǒng)可實時獲得機械鉆速、回轉(zhuǎn)扭矩、鉆壓、轉(zhuǎn)速、回轉(zhuǎn)壓力、泥漿泵流量6種鉆進參數(shù),作為研究的影響因素和識別數(shù)據(jù)來源[20-21]。
圖2 鉆進試驗臺組成Fig.2 Compose of drilling test bench
試驗巖樣材料選用復合硅酸鹽水泥、中砂和粉煤渣,按照一定的比例在自然溫度、濕度條件下進行養(yǎng)護澆筑成型,主要依據(jù)巖樣的單軸抗壓強度進行分類,用于模擬含煤地層中的典型的軟弱夾層、煤層和砂巖層3種巖層。共進行了40組試驗,30組試驗數(shù)據(jù)作為訓練樣本,10組試驗數(shù)據(jù)作為測試樣本。所得訓練樣本鉆進參數(shù)集見表1。
表1 訓練樣本鉆進參數(shù)集Table 1 Data sets of drilling parameters for the training samples
為消除各參數(shù)量綱的影響,將所得訓練樣本數(shù)據(jù)集進行標準化,定義機械鉆速、回轉(zhuǎn)扭矩、鉆壓、轉(zhuǎn)速、回轉(zhuǎn)壓力、泥漿泵流量的標準化變量分別為x1,x2,x3,x4,x5,x6,定義各主成分分別為y1,y2,y3,y4,y5,y6,通過PCA算法可計算出訓練樣本的相關(guān)系數(shù)矩陣,從而得出各主成分的貢獻率和累計貢獻率,見表2。
表2 主成分分析結(jié)果Table 2 Principal component analysis result
根據(jù)累計貢獻率大于85%確定選取的主成分個數(shù)p為3,得出訓練樣本主成分的特征向量,見表3。
表3 主成分特征向量Table 3 Principal component eigenvector
根據(jù)主成分特征向量的影響因子大于0.5的原則分析標準化變量的影響效果。從表3可看出,第1主成分主要反映了變量x1(機械鉆速)、變量x3(鉆壓)和變量x6(泥漿泵流量)的數(shù)據(jù)信息;第2主成分主要反映了變量x2(回轉(zhuǎn)扭矩)、變量x5(回轉(zhuǎn)壓力)的數(shù)據(jù)信息;第3主成分主要反映了變量x4(轉(zhuǎn)速)和變量x5(回轉(zhuǎn)壓力)的數(shù)據(jù)信息,同時通過表3可以得到訓練樣本的主成分數(shù)據(jù)集。
通過式(6)進行綜合計算,依據(jù)對每個評價對象計算出的綜合得分Z值的大小進行排名,得到綜合評價得分,見表4。
表4 綜合評價得分Table 4 Comprehensive evaluation score
根據(jù)綜合評價得分的離散度可以將訓練樣本主成分數(shù)據(jù)集大致分為3類:第1—7名為第1類,第8—21名為第2類,第22—30名為第3類。分類情況和試驗巖樣物理特性的分類保持一致,通過KFCM算法將訓練樣本主成分數(shù)據(jù)集進行模糊核聚類分析。在充分保留原鉆進數(shù)據(jù)集信息的基礎(chǔ)上,其維數(shù)由原來的6維降為3維,從而提高了巖性識別的準確率和運行效率。
接下來對訓練樣本主成分數(shù)據(jù)集進行聚類分析,目標函數(shù)為
(10)
式中:ursnew為迭代后的隸屬度;ursold為迭代前的隸屬度。
核函數(shù)選擇高斯核函數(shù),設(shè)置類別數(shù)為3,迭代截止誤差ε為10-5,模糊系數(shù)m為2[22]。將30組訓練樣本主成分數(shù)據(jù)集代入式(7)、式(8),可以得出其聚類中心分別為v1=(0.511 9,0.103 1,-0.522 3),v2=(2.948 3,-0.269 6,0.859 8),v3=(-1.770 2,-0.042 6,0.399 6),對應(yīng)試驗巖樣的軟弱夾層、煤層和砂巖層3種巖性,并將對應(yīng)數(shù)據(jù)集分為3組,此時該聚類中心可以作為巖性識別的基本參數(shù)。同時利用PCA算法對測試樣本進行特征提取,得到測試樣本主成分數(shù)據(jù)集,見表5。
表5 測試樣本主成分數(shù)據(jù)集Table 5 Principal component data sets of test samples
采用馬氏距離判別法對測試樣本進行判斷,計算各測試樣本分別到3組訓練樣本主成分數(shù)據(jù)集的馬氏距離,根據(jù)最小馬氏距離可識別各測試樣本所屬類別,同時測量各測試樣本的平均單軸抗壓強度,得到測試樣本的材料屬性,確定測試樣本的實際巖性類別,與測試識別結(jié)果進行比較,識別結(jié)果見表6。
表6 測試樣本預(yù)測結(jié)果Table 6 Prediction result of test samples
從表6可看出,測試樣本的巖性識別正確率為100%,驗證了PCA-KFCM算法的有效性,實現(xiàn)了試驗巖樣巖性的正確識別。
為了說明基于PCA-KFCM算法的含煤地層巖性識別模型的優(yōu)勢,利用KFCM算法對表1中的鉆進參數(shù)集進行訓練和測試,各參數(shù)的取值均與PCA-KFCM算法的參數(shù)相同。首先對2種算法進行測試,選擇相同的迭代截止誤差,經(jīng)計算可得PCA-KFCM算法需要迭代14步,訓練樣本與聚類中心距離和為73.951 5,KFCM算法需要迭代18步,訓練樣本與聚類中心距離和為90.067 4,2種算法的迭代誤差如圖3所示。
圖3 2種算法迭代誤差比較Fig.3 Comparison of iterative errors of the two algorithms
從圖3可看出,PCA-KFCM算法的聚類時間更短,當?shù)螖?shù)較大時,優(yōu)勢更加明顯,這說明PCA-KFCM算法的收斂速度明顯快于KFCM算法,這是由于經(jīng)過主成分特征提取后,降低了數(shù)據(jù)集的維數(shù),數(shù)據(jù)計算量更小,復雜度更低,所以,數(shù)據(jù)處理時間更短。
同理,通過不同數(shù)量的訓練樣本對2種算法進行研究,并對測試樣本進行識別,PCA-KFCM算法的識別正確率均為100%;當訓練樣本數(shù)量為21和22時,KFCM算法的識別正確率為90%,其余識別正確率為100%,2種算法的訓練樣本與聚類中心的距離和比較結(jié)果如圖4所示。
圖4 2種算法訓練樣本與聚類中心距離和比較Fig.4 Comparison of distance sum between training samples and clustering centers of the two algorithms
從圖4可看出,不同訓練樣本數(shù)量下PCA-KFCM算法的訓練樣本與聚類中心距離和更小,平均距離和比KFCM算法減小23.2%,即識別精度提高了23.2%,平均訓練準確率更高,識別效果更好,當后期訓練樣本數(shù)據(jù)集增大時,該算法的適用性更好。
(1) 結(jié)合PCA和KFCM兩種算法的優(yōu)點,提出了基于PCA-KFCM算法的含煤地層巖性優(yōu)化識別方法。首先利用PCA算法對訓練樣本進行特征提取并對樣本進行訓練,然后通過KFCM算法對訓練樣本主成分數(shù)據(jù)集進行模糊核聚類,最后采用馬氏距離判別法對測試樣本進行識別,通過鉆進試驗臺獲得的高維鉆進參數(shù)集對算法進行了驗證,實現(xiàn)了試驗巖樣巖性的正確識別。
(2) 與KFCM算法相比,PCA-KFCM算法的收斂速度明顯快于KFCM算法,識別精度提高了23.2%,且大幅降低了計算量。