關(guān)鍵詞:煤矸識(shí)別;多源信息融合;振動(dòng)信號(hào);圖像識(shí)別;多頭注意力機(jī)制;多層長(zhǎng)短期記憶模型
中圖分類號(hào):TD823.49 文獻(xiàn)標(biāo)志碼:A
0引言
煤矸識(shí)別是綜采放頂煤開(kāi)采的關(guān)鍵核心技術(shù),對(duì)于提高煤炭采出率具有重要意義[1-2]。目前綜放開(kāi)采放頂煤工序仍然依靠人工操作,按照“見(jiàn)矸關(guān)門”的原則來(lái)控制,存在過(guò)放和欠放的情況,導(dǎo)致資源浪費(fèi)。實(shí)現(xiàn)放煤口煤矸的精準(zhǔn)識(shí)別并根據(jù)識(shí)別結(jié)果實(shí)時(shí)控制放煤口,不僅能降低混矸率,提高采出率,還能減少綜放工作面放煤人員數(shù)量,降低惡劣環(huán)境對(duì)工人健康的影響[3]。
目前,綜放工作面煤矸識(shí)別主要依賴于單一信息源的方法[4],如圖像識(shí)別[5-8]、振動(dòng)信號(hào)識(shí)別[9-14]、聲信號(hào)識(shí)別[15-17]和伽馬射線法[18]等。然而,這些方法在實(shí)際應(yīng)用中存在識(shí)別不準(zhǔn)和應(yīng)用受限的問(wèn)題。例如,圖像識(shí)別易受煤塵和水霧干擾;振動(dòng)與聲信號(hào)易受噪聲影響;伽馬射線技術(shù)雖然靈敏度高,但設(shè)備成本高且體積龐大,難以滿足復(fù)雜工況下的需求。
為提升系統(tǒng)的魯棒性和識(shí)別精度,增強(qiáng)抗干擾能力,諸多學(xué)者提出了多源信息融合的多模態(tài)識(shí)別技術(shù),如融合聲音與視頻[19-21]、圖像與紅外[22]、圖像與振動(dòng)[23]等,有效彌補(bǔ)了單一方法的不足。其中,圖像與振動(dòng)信號(hào)融合的方法在煤矸識(shí)別領(lǐng)域應(yīng)用仍存在一些缺陷,如煤矸多模態(tài)數(shù)據(jù)的異構(gòu)性導(dǎo)致融合困難,實(shí)時(shí)性和模型復(fù)雜度不滿足實(shí)際應(yīng)用要求等。針對(duì)上述問(wèn)題,設(shè)計(jì)了基于多頭注意力(MultiheadAttention,MA)的多層長(zhǎng)短期記憶(Multi-layersLong Short-Term Memory, ML?LSTM) 模型MA?ML?LSTM,通過(guò)MA 機(jī)制和ML?LSTM 網(wǎng)絡(luò)實(shí)現(xiàn)圖像與振動(dòng)雙通道特征融合,強(qiáng)化各通道重要特征信息的表達(dá)。
1MA?ML?LSTM模型
將綜放工作面的混矸率分為4 類: 0, 0~10%,15%~25%,30%~45%,從而將煤矸圖像識(shí)別問(wèn)題轉(zhuǎn)換為基于不同混矸率范圍的多分類問(wèn)題。為解決該問(wèn)題,設(shè)計(jì)了MA?ML?LSTM 模型,如圖1 所示。該模型主要包含3 個(gè)模塊:振動(dòng)信息提取模塊、圖像信息提取模塊和特征融合模塊。振動(dòng)信息提取模塊由一維卷積網(wǎng)絡(luò)(1D?CNN)、殘差鏈接和最大池化層(Max Pooling)組成,用于提取振動(dòng)信號(hào)數(shù)據(jù)集;圖像信息提取模塊選擇經(jīng)典的多分類網(wǎng)絡(luò)ResNet?18,去除其最后的全連接層,以便對(duì)煤矸圖像進(jìn)行深度特征提取;特征融合模塊由MA 機(jī)制和ML?LSTM 組成,用于實(shí)現(xiàn)振動(dòng)特征與圖像特征的高效融合。
1.1振動(dòng)信息提取模塊
一維卷積是卷積神經(jīng)網(wǎng)絡(luò)中常用的一種操作,具有特征提取能力強(qiáng)、分類性能好和計(jì)算高效等優(yōu)勢(shì),主要用于處理序列數(shù)據(jù),如時(shí)間序列信號(hào)、文本數(shù)據(jù)等。本文采用一維卷積提取振動(dòng)信息,通過(guò)2 個(gè)3×3 一維卷積與殘差連接組合成的模塊對(duì)預(yù)處理后的振動(dòng)數(shù)據(jù)集進(jìn)行信息提取,經(jīng)過(guò)池化后輸入下一層。
1.2圖像信息提取模塊
ResNet 是一種適用于圖像分類的經(jīng)典網(wǎng)絡(luò),具有網(wǎng)絡(luò)層數(shù)適中、模型訓(xùn)練速度快、不易出現(xiàn)過(guò)擬合等優(yōu)點(diǎn),在圖像識(shí)別領(lǐng)域得到了較為廣泛的應(yīng)用。ResNet?18 網(wǎng)絡(luò)對(duì)輸入圖像進(jìn)行卷積和池化之后,經(jīng)過(guò)4 層殘差模塊,最后使用池化層與全連接層輸出檢測(cè)結(jié)果。本文在ResNet?18 網(wǎng)絡(luò)的基礎(chǔ)上,將最后的全連接層刪除,將經(jīng)過(guò)池化后的圖像特征輸入下一層。
1.3特征融合模塊
1.3.1MA機(jī)制
MA 機(jī)制是Transformer 的基石[25],通過(guò)使用多個(gè)獨(dú)立權(quán)重矩陣的注意力頭,在不同特征空間中學(xué)習(xí)多個(gè)注意力分布,使得注意力層的輸出包含不同子空間的表示信息, 從而增強(qiáng)模型的表達(dá)能力。MA 機(jī)制如圖2 所示。
首先輸入特征序列H,再對(duì)H 進(jìn)行線性變換,將H 分別映射至查詢空間Q、鍵空間K 和值空間V;然后利用縮放點(diǎn)積與Softmax 函數(shù)計(jì)算每個(gè)注意力分布,對(duì)注意力分布進(jìn)行加權(quán)求和,得到對(duì)應(yīng)輸出;最后,通過(guò)特征拼接函數(shù)Concat 將多個(gè)輸出結(jié)果拼接。
在LSTM 網(wǎng)絡(luò)的基礎(chǔ)上,引入ML?LSTM進(jìn)行模型融合[27]。ML?LSTM 由輸入層、LSTM 層和輸出層組成, LSTM 層由LSTM?I 層、Concat?Layer 和LSTM?II 層組成,如圖4所示。
ML?LSTM 特征融合模型將注意力機(jī)制處理后的200 維振動(dòng)信號(hào)特征向量輸入第1 層LSTM(Layer1 隱藏層為256 維),得到隱藏層狀態(tài);將注意力機(jī)制處理后的512 維圖像特征向量與Layer1 隱藏層狀態(tài)拼接,得到1 024 維向量,再輸入第2 層LSTM(Layer2 隱藏層為512 維),得到512 維融合特征向量。
2煤矸數(shù)據(jù)采集與處理
2.1放頂煤相似模擬平臺(tái)
使用放頂煤相似模擬平臺(tái)進(jìn)行煤矸圖像與振動(dòng)信號(hào)采集。平臺(tái)仿照綜放工作面搭建,包括裝料箱、放頂煤液壓支架、刮板輸送機(jī)等,如圖5 所示。支架模擬放頂煤過(guò)程打開(kāi)與閉合,將裝料箱的煤矸放出,使用刮板輸送機(jī)運(yùn)出實(shí)驗(yàn)平臺(tái)。采用YK?YD20 型IEPE/ICP 壓電式加速度傳感器與YK?ALM4 型振動(dòng)分析儀采集放頂煤過(guò)程中煤與矸石沖擊液壓支架尾梁產(chǎn)生的振動(dòng)信號(hào)。采用磁吸方式將傳感器安裝在液壓支架尾梁背面,并通過(guò)數(shù)據(jù)線與采集裝置相連。
為減少環(huán)境噪聲對(duì)實(shí)驗(yàn)數(shù)據(jù)的影響,采取多種措施對(duì)實(shí)驗(yàn)環(huán)境進(jìn)行控制。實(shí)驗(yàn)過(guò)程中保持周圍環(huán)境安靜,以減少外部噪聲對(duì)振動(dòng)信號(hào)的干擾;通過(guò)軟件對(duì)高靈敏IEPE/ICP 壓電式加速度傳感器采集到的信號(hào)進(jìn)行實(shí)時(shí)監(jiān)控,以確保信號(hào)質(zhì)量。每次實(shí)驗(yàn)前對(duì)傳感器等設(shè)備進(jìn)行校準(zhǔn),以排除設(shè)備本身引入的誤差。每次放煤模擬推進(jìn)8 個(gè)步距,每次推進(jìn)均在相同環(huán)境條件下進(jìn)行。
實(shí)驗(yàn)開(kāi)始前放頂煤裝料箱內(nèi)的煤矸位置初始狀態(tài)均不相同,如圖6 所示。設(shè)置振動(dòng)分析儀采樣頻率為10 kHz,采集煤矸沖擊支架尾梁產(chǎn)生的振動(dòng)信號(hào),并開(kāi)啟攝像頭采集煤矸落到刮板的圖像信息。啟動(dòng)電液控系統(tǒng),推移油缸牽引支架進(jìn)行逐步距放煤,打開(kāi)放煤口,模擬8 個(gè)推進(jìn)步距。每個(gè)步距放煤過(guò)程包括初始放煤、初始見(jiàn)矸、少量見(jiàn)矸、大量見(jiàn)矸及停止放煤5 個(gè)階段。根據(jù)采集時(shí)間節(jié)點(diǎn)與煤矸放出狀態(tài),將振動(dòng)信號(hào)與圖像數(shù)據(jù)保存至電腦。8 個(gè)步距推進(jìn)結(jié)束后裝料箱內(nèi)的狀態(tài)如圖7 所示。
2.2振動(dòng)信號(hào)降噪與特征提取
頂煤相似模擬平臺(tái)是按照現(xiàn)場(chǎng)環(huán)境建立的,在采集振動(dòng)信號(hào)過(guò)程中會(huì)受到環(huán)境噪聲干擾。為提高信號(hào)可靠性與后續(xù)信號(hào)特征提取的準(zhǔn)確性,采用變分模態(tài)分解(Variational Mode Decomposition, VMD)對(duì)信號(hào)進(jìn)行分解去噪,并通過(guò)粒子群優(yōu)化(ParticleSwarm Optimization,PSO)算法進(jìn)行關(guān)鍵參數(shù)尋優(yōu)。
利用PSO 算法計(jì)算出最優(yōu)VMD 參數(shù)[k, α](k 為分量個(gè)數(shù),α 為懲罰因子),再應(yīng)用VMD 方法對(duì)原始振動(dòng)信號(hào)進(jìn)行分解,得到一系列本征模態(tài)函數(shù)(Intrinsic Mode Function, IMF) ;計(jì)算每個(gè)IMF 與原始信號(hào)的相關(guān)系數(shù),通過(guò)閾值濾除無(wú)關(guān)的IMF 分量并對(duì)信號(hào)進(jìn)行重構(gòu);對(duì)剩余IMF 分量進(jìn)行特征值計(jì)算,得到振動(dòng)信號(hào)特征數(shù)據(jù)集。振動(dòng)信號(hào)特征數(shù)據(jù)集構(gòu)建流程如圖8所示。
2.2.1振動(dòng)信號(hào)降噪
VMD 是一種自適應(yīng)、完全非遞歸的模態(tài)變分和信號(hào)處理的方法[24],通過(guò)求解約束變分問(wèn)題,將具有多個(gè)頻率成分的振動(dòng)信號(hào)分解為一系列具有稀疏特性的IMF,進(jìn)而得到給定信號(hào)的有效分解成分,每個(gè)分量具有各自的中心頻率和有限帶寬。
VMD 算法中參數(shù)的選擇決定了振動(dòng)信號(hào)分解效果。噪聲容忍度τ 和收斂精度ε 對(duì)分解效果影響較小,根據(jù)經(jīng)驗(yàn),設(shè)置τ 和ε 分別為0 和1×10?7。分量個(gè)數(shù)k 和懲罰因子α 對(duì)振動(dòng)信號(hào)分解影響較大,為了確定k 和α,采用PSO 算法進(jìn)行并行尋優(yōu),具體流程如圖9 所示。PSO 算法通過(guò)模擬多個(gè)粒子在解空間中的運(yùn)動(dòng),利用個(gè)體之間的信息共享尋找問(wèn)題最優(yōu)解。
在PSO 算法優(yōu)化前, 設(shè)置k∈[5, 15], α∈[1 500, 3 000], 種群規(guī)模數(shù)為20, 最大迭代次數(shù)為100,學(xué)習(xí)因子為1.5,慣性權(quán)重為0.5。為了降低隨機(jī)性,共進(jìn)行10 次PSO 算法優(yōu)化,結(jié)果見(jiàn)表1。經(jīng)過(guò)PSO 算法優(yōu)化后得到的最佳k,α 分別為10,2 122。
當(dāng)信號(hào)被分解為頻率不等的IMF 分量后,引入皮爾遜相關(guān)系數(shù)選擇有效分量,當(dāng)皮爾遜相關(guān)系數(shù)大于0.3 時(shí)便可視為有效分量[28]。各IMF 分量與原始信號(hào)的皮爾遜相關(guān)系數(shù)見(jiàn)表2。根據(jù)表2,選取IMF1—IMF6 為有效分量,將其他分量舍棄,并對(duì)信號(hào)進(jìn)行重構(gòu),實(shí)現(xiàn)振動(dòng)信號(hào)降噪。重構(gòu)前后原始信號(hào)與降噪信號(hào)曲線如圖10 所示,對(duì)比發(fā)現(xiàn)重構(gòu)后的信號(hào)消除了低頻噪聲,能夠更好地提取振動(dòng)信號(hào)特征。
2.2.2特征提取
由于單一特征不能很好地區(qū)分不同狀態(tài)的振動(dòng)信號(hào),所以將多個(gè)方面的特征結(jié)合,以更全面提取振動(dòng)信息,更準(zhǔn)確地識(shí)別放煤口煤矸放出狀態(tài),提高振動(dòng)信號(hào)識(shí)別率。選擇有效分量IMF1—IMF6,將能量、能量矩、峭度、波形因數(shù)與矩陣奇異值作為特征量,建立振動(dòng)信號(hào)特征數(shù)據(jù)集。
2.3數(shù)據(jù)集構(gòu)建
平臺(tái)放煤過(guò)程中,對(duì)每個(gè)放煤步距進(jìn)行圖像采集,推移支架過(guò)程不采集圖像,共采集24 489 張圖像。根據(jù)煤矸放出情況,計(jì)算圖中煤矸像素比例,將圖像按照混矸率劃分為0, 0~ 10%, 15%~ 25%,30%~45%??紤]到實(shí)際情況,將混矸率超過(guò)45% 的圖像舍棄。最后采集到混矸率為0 的圖像6 130 張,混矸率為0~10% 的圖像6116張,混矸率為15%~25% 的圖像6116張,混矸率為30%~45% 的圖像6127張,部分圖像數(shù)據(jù)如圖11 所示。
在振動(dòng)信號(hào)特征數(shù)據(jù)集中,以10000點(diǎn)作為1 個(gè)樣本長(zhǎng)度,共得到4 類振動(dòng)信號(hào)各6 000 個(gè)樣本數(shù)據(jù)。按照能量矩、峭度、波形因數(shù)與矩陣奇異值4 個(gè)特征,將數(shù)據(jù)轉(zhuǎn)換為4 維特征向量,將4 類混矸率的狀態(tài)標(biāo)簽設(shè)置為0—3。
3實(shí)驗(yàn)分析
實(shí)驗(yàn)采用PyTorch 深度學(xué)習(xí)框架, Intel Corei9?10850K CPU、16 GiB 內(nèi)存和NVIDIA GeForceRTX 3070 顯卡進(jìn)行模型訓(xùn)練。軟件環(huán)境為Windows11、Python 3.8 和PyTorch 1.9.0,CUDA 版本為11.1。
3.1模型訓(xùn)練
模型訓(xùn)練流程:① 振動(dòng)信號(hào)降噪處理與特征提??;② 圖像與振動(dòng)數(shù)據(jù)集制作;③ 將制作好的數(shù)據(jù)集劃分訓(xùn)練集、驗(yàn)證集與測(cè)試集;④ 利用訓(xùn)練集對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,利用驗(yàn)證集選擇最優(yōu)網(wǎng)絡(luò)權(quán)重,最終利用測(cè)試集對(duì)最優(yōu)網(wǎng)絡(luò)權(quán)重進(jìn)行評(píng)估。
網(wǎng)絡(luò)模型訓(xùn)練前,優(yōu)化模型配置文件中的相關(guān)參數(shù),以獲取最優(yōu)訓(xùn)練模型。設(shè)置圖像輸入尺寸為640×640,訓(xùn)練批量大小為32,線程數(shù)為16,初始學(xué)習(xí)率為0.001,訓(xùn)練輪數(shù)為300。圖像與振動(dòng)數(shù)據(jù)集按照6∶2∶2 劃分為訓(xùn)練集、驗(yàn)證集與測(cè)試集。
模型訓(xùn)練300次的損失與驗(yàn)證準(zhǔn)確率曲線分別如圖12 與圖13 所示。模型訓(xùn)練200 次左右時(shí)收斂至較高準(zhǔn)確率,最優(yōu)損失值和驗(yàn)證準(zhǔn)確率分別為0.019 和98.98%。
使用測(cè)試集對(duì)訓(xùn)練好的模型進(jìn)行測(cè)試,混淆矩陣如圖14 所示??煽闯鲈谌汉腿非闆r下模型識(shí)別精度很高,分別為99.5% 和99.8%,在少矸與多矸情況下識(shí)別精度較低,分別為98.0% 和97.7%,平均識(shí)別準(zhǔn)確率為98.7%。
3.2消融實(shí)驗(yàn)
為了驗(yàn)證各改進(jìn)模塊的有效性,使用相同測(cè)試數(shù)據(jù)集設(shè)計(jì)消融實(shí)驗(yàn):方案A 移除ML?LSTM 融合層,將圖像、振動(dòng)特征直接拼接后進(jìn)行分類;方案B 在方案A 的基礎(chǔ)上加入單層LSTM 融合網(wǎng)絡(luò),融合圖像與振動(dòng)特征進(jìn)行分類;方案C 在方案B 的基礎(chǔ)上將單層LSTM 變?yōu)殡p層ML?LSTM 融合模型;方案D 在方案C 的基礎(chǔ)上增加MA 機(jī)制,即本文模型。采用準(zhǔn)確率、精確度、召回率、F1 值及混淆矩陣驗(yàn)證模型性能。
消融實(shí)驗(yàn)分類結(jié)果見(jiàn)表3,不同方案的混淆矩陣對(duì)比如圖15 所示。實(shí)驗(yàn)結(jié)果顯示,方案A 準(zhǔn)確率為92.10%,表明僅通過(guò)簡(jiǎn)單拼接特征后進(jìn)行分類,未能充分利用多模態(tài)數(shù)據(jù)的互補(bǔ)信息;方案B 準(zhǔn)確率提升至95.57%,說(shuō)明LSTM 在處理時(shí)間序列和捕獲特征間復(fù)雜關(guān)系方面具有一定優(yōu)勢(shì);方案C 準(zhǔn)確率進(jìn)一步提高到97.12%,驗(yàn)證了多層LSTM 在提取和融合復(fù)雜特征方面的有效性; 方案D 準(zhǔn)確率為98.72%,說(shuō)明MA 機(jī)制有效增強(qiáng)了模型對(duì)特征間相互關(guān)系的捕捉能力。
3.3不同模型對(duì)比分析
對(duì)圖像與振動(dòng)信號(hào)采用處理方式,將本文模型與經(jīng)典深度學(xué)習(xí)分類模型和機(jī)器學(xué)習(xí)模型(ResNet[29], MobileNetV3[30], 1D?CNN[31], LSTM[26])及常用煤矸分類識(shí)別模型(EMD?RF[13], IMF?SVM[14],CSPNet?YOLOv7[8])進(jìn)行比較,結(jié)果見(jiàn)表4。
由表4 可看出,機(jī)器學(xué)習(xí)模型的識(shí)別效果最差,體現(xiàn)出深度學(xué)習(xí)方法在處理復(fù)雜數(shù)據(jù)時(shí)的優(yōu)勢(shì)。ResNet 和CSPNet?YOLOv7 表現(xiàn)較好,準(zhǔn)確率分別為94.12% 和95.26%,但由于這2 個(gè)模型只提取了圖像特征進(jìn)行識(shí)別,未能達(dá)到最佳效果。MobileNetV3由于網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)化,準(zhǔn)確率僅為90.76%。1D?CNN和LSTM 雖適合處理時(shí)間序列,但僅提取了振動(dòng)信號(hào)特征進(jìn)行煤矸識(shí)別, 準(zhǔn)確率分別為93.35% 和92.61%。EMD?RF 和IMF?SVM 模型在處理振動(dòng)特征時(shí)表現(xiàn)出色,但相較于深度學(xué)習(xí)模型仍存在差距,準(zhǔn)確率分別為94.54% 和94.27%。
本文模型將ResNet 與1D?CNN 融合,識(shí)別準(zhǔn)確率大幅提升,相比單一的ResNet,MobileNetV3,1D?CNN, LSTM 模型分別高出4.60%, 7.96%, 5.37%,6.11%, 相比EMD?RF, IMF?SVM, CSPNet?YOLOv7分別高出4.18%,4.45%,3.46%,證明特征融合策略有效提升了模型的煤矸識(shí)別能力。
4結(jié)論
1) 設(shè)計(jì)了圖像特征與振動(dòng)頻譜多源融合驅(qū)動(dòng)的煤矸識(shí)別模型MA?ML?LSTM,通過(guò)MA 機(jī)制和ML?LSTM 網(wǎng)絡(luò)實(shí)現(xiàn)圖像與振動(dòng)雙通道特征融合,強(qiáng)化各通道重要特征信息表達(dá),提高了煤矸識(shí)別準(zhǔn)確性。
2) 搭建了放頂煤相似模擬平臺(tái),通過(guò)多次模擬現(xiàn)場(chǎng)放頂煤過(guò)程,采集圖像和振動(dòng)數(shù)據(jù),確保數(shù)據(jù)的多樣性和真實(shí)性,為模型訓(xùn)練和驗(yàn)證提供可靠的數(shù)據(jù)支持。實(shí)驗(yàn)結(jié)果表明,MA?ML?LSTM 模型的平均識(shí)別準(zhǔn)確率達(dá)98.72%,顯著優(yōu)于單一信息源識(shí)別方法。
3) 在實(shí)際生產(chǎn)應(yīng)用過(guò)程中,配置相關(guān)算力設(shè)備、振動(dòng)傳感器與高清攝像頭即可進(jìn)行實(shí)時(shí)數(shù)據(jù)處理與識(shí)別。隨著人工智能技術(shù)的不斷進(jìn)步,未來(lái)可結(jié)合聲音信號(hào)、紅外傳感器等更多傳感器,構(gòu)建更全面的多源融合模型,以進(jìn)一步提升煤矸識(shí)別的準(zhǔn)確性與效率。