基于CBA-YOLO模型的煤矸石檢測

2022-07-07 17:14:20桂方俊李堯

工礦自動化 2022年6期

桂方俊，李堯

（中國礦業(yè)大學(xué)（北京）機電與信息工程學(xué)院，北京 100083）

0 引言

煤矸石分選是煤炭洗選加工的重要環(huán)節(jié)，主要有人工揀矸法、濕選法和干選法3種方式。人工揀矸法效率低，濕選法存在水資源浪費等問題，干選法是目前煤矸石分選領(lǐng)域的研究熱點[1]，符合煤礦綠色發(fā)展的要求。煤矸石識別技術(shù)是煤矸石干選的核心技術(shù)，其原理是利用提取的樣本特征判斷當前被測物是煤還是矸石。煤矸石識別方法包括傳統(tǒng)方法和基于圖像處理的方法：① 傳統(tǒng)方法有放射性探測法、密度識別法等。放射性探測法根據(jù)煤和矸石對射線吸收程度不同進行識別，需要較高的執(zhí)行速度，一定程度上受煤矸石含水量的影響，并且存在射線輻射問題。密度識別法通過光電技術(shù)獲取被測物質(zhì)量和厚度，計算被測物密度，以此識別當前被測物為煤或矸石，該方法流程復(fù)雜且對設(shè)備要求高。② 基于圖像處理的方法成本較低、便于推廣，近年來應(yīng)用廣泛，機器學(xué)習(xí)和深度學(xué)習(xí)是其中的兩大分支。機器學(xué)習(xí)方法通過圖像特征提取和分類算法識別目標，對應(yīng)用場景的要求高，魯棒性差。深度學(xué)習(xí)方法通過提取圖像高維特征并進行推理，魯棒性好，準確率高，因而在煤矸石檢測領(lǐng)域被逐步推廣。

將深度學(xué)習(xí)應(yīng)用到煤矸石檢測中的研究已取得一定成果。文獻[2]基于LeNet-5進行改進，實現(xiàn)了煤矸石圖像檢測和分類。文獻[3]通過AlexNet卷積神經(jīng)網(wǎng)絡(luò)模型提高了煤矸石檢測的準確率。文獻[4]通過CornerNet-Squeeze深度學(xué)習(xí)模型提取特征，利用圖像灰度直方圖的三階矩特征參數(shù)對煤矸石進行分類，準確率顯著提升。上述方法雖然實現(xiàn)了煤矸石檢測，但在性能上與超快速的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)（Faster Region-Convolutional Neural Network，F(xiàn)aster R-CNN）[5]、單階段多框檢測器（Single Shot MultiBox Detector，SSD）[6]、YOLO（You Only Look Once）系列[7]算法相比還有一定差距。以Faster R-CNN系列為代表的兩階段算法對區(qū)域建議網(wǎng)絡(luò)和主體檢測網(wǎng)絡(luò)分別進行訓(xùn)練，準確率高，但實時性表現(xiàn)不佳。以SSD，YOLO系列為代表的單階段算法將種類識別和目標定位視為一個回歸問題來解決，建立端到端訓(xùn)練，具有較高精度，同時保證了實時性。文獻[8]將最新的YOLOv5算法改進后應(yīng)用到煤矸石檢測中，通過提升模型的特征提取能力達到優(yōu)化效果，但并未針對煤矸石檢測任務(wù)中的具體特性進行分析優(yōu)化。

針對煤矸石檢測中存在的特征差異不大、目標密集等問題，本文在YOLOv5基礎(chǔ)上，通過卷積塊注意力模塊（Convolutional Block Attention Module，CBAM）、雙向特征金字塔網(wǎng)絡(luò)（Bi-directional Feature Pyramid Network，BiFPN）結(jié)構(gòu)、Alpha-IoU函數(shù)對模型的各部分進行改進，提出了一種基于CBA-YOLO模型的煤矸石檢測方法，通過實驗驗證了該方法的有效性。

1 YOLOv5基礎(chǔ)模型選擇

YOLO是一種基于深度神經(jīng)網(wǎng)絡(luò)的目標檢測與定位模型，其最大特點是運行速度快，可在實時系統(tǒng)中使用[9]。YOLOv5是目前YOLO系列的最新版本，繼承了YOLOv4[10]算法的優(yōu)勢，同時在主干網(wǎng)絡(luò)中引入跨階段局部（Cross Stage Partial，CSP）結(jié)構(gòu)[11]，進一步提升了圖像推理速度，模型結(jié)構(gòu)更加小巧。YOLOv5共有4個版本，依據(jù)網(wǎng)絡(luò)大小排序分別為YOLOv5s，YOLOv5m，YOLOv5l，YOLOv5x，4種模型的性能如圖1所示。

圖1 YOLOv5模型的性能Fig. 1 The performance of YOLOv5 models

圖1 中，曲線越靠近左上角區(qū)域，表示模型的精度和速度越高。由圖1可知，YOLOv5s模型的速度快但精度低，YOLOv5x模型的精度高但速度最慢，YOLOv5m和YOLOv5l模型速度和精度很均衡，但YOLOv5l模型更大，綜合考慮算力、精度和速度，本文選用速度較快、精度較高的YOLOv5m為基礎(chǔ)模型。

2 CBA-YOLO模型

YOLOv5模型主要由輸入端、Backbone、Neck、Prediction組成。CBA-YOLO模型在YOLOv5的基礎(chǔ)上進行了改進：在Backbone中加入CBAM，以聚焦特征差異，降低數(shù)據(jù)維度，提升檢測性能；將Neck部分改為BiFPN結(jié)構(gòu)，以提高檢測速度；在Prediction部分，采用Alpha-IoU作為損失函數(shù)，以提高檢測精度。

2.1 輸入端

在實際應(yīng)用中，數(shù)據(jù)集通常包含大量小目標，小目標分布不均勻的問題很突出。YOLOv5采用Mosaic數(shù)據(jù)增強方式進行數(shù)據(jù)處理，針對小目標檢測問題，將4幅圖像以隨機縮放、隨機剪切、隨機安排的方式拼接在1張圖像里，以達到豐富數(shù)據(jù)集的效果。這種隨機處理的方式增加了小目標數(shù)量，增強了模型的魯棒性，同時減少了對GPU的占用，1個GPU就可獲得較好效果。

2.2 Backbone改進

YOLOv5的Backbone由多個卷積模塊堆疊而成，缺點是無法聚焦特征差異，而煤矸石檢測任務(wù)中，煤和矸石目標特征差異不明顯。因此，在Backbone中加入CBAM進行改進，以聚焦特征差異。

注意力機制是深度學(xué)習(xí)中的一種數(shù)據(jù)處理方法，主要作用是忽略無關(guān)信息而關(guān)注重點信息，提升信息處理的效率和準確性。注意力機制通常分為空間注意力機制[12]、通道注意力機制[13]、空間和通道混合注意力機制[14]。CBAM屬于空間和通道混合注意力機制，其結(jié)構(gòu)如圖2所示。

圖2 CBAM結(jié)構(gòu)Fig. 2 Structure of CBAM

通道注意力模塊同時使用最大池化和平均池化，將多層感知器（Muti-Layer Perception，MLP）層分別應(yīng)用于2個通道，經(jīng)過sigmoid激活函數(shù)合并通道權(quán)重，最后逐通道加權(quán)得到attention結(jié)果?？臻g注意力模塊在通道重定義特征基礎(chǔ)上進行最大池化和平均池化，得到2個單通道的特征圖，再通過一個7×7的卷積形成特征圖，最后逐通道加權(quán)獲得attention結(jié)果。這2種模塊分別學(xué)習(xí)了通道的重要性和空間的重要性，CBAM將其串聯(lián)起來，可產(chǎn)生更有分辨性的特征表示，同時可降低數(shù)據(jù)維度，加速網(wǎng)絡(luò)推理過程。

改進Backbone結(jié)構(gòu)如圖3 所示。原始大小為640×640×3的圖像輸入Focus結(jié)構(gòu)，采用切片操作轉(zhuǎn)換成大小為320×320×12的特征圖，再經(jīng)過一次32個卷積核的卷積操作，轉(zhuǎn)換成320×320×32的特征圖后輸入CBAM模塊。通過通道注意力模塊獲得通道注意力特征，確定每層特征圖上需要關(guān)注的重點內(nèi)容；再通過空間注意力模塊獲得空間注意力特征，確定需要關(guān)注的重點位置；最后將串聯(lián)結(jié)果輸入后續(xù)的跨階段局部網(wǎng)絡(luò)層（Cross Stage Partial Network，CSPNet）和空間金字塔池化（Spatial Pyramid Pooling，SPP）結(jié)構(gòu)中處理。

圖3 改進Backbone結(jié)構(gòu)Fig. 3 Structure of improved Backbone

2.3 Neck改進

YOLOv5的Neck采用特征金字塔網(wǎng)絡(luò)（Feature Pyramid Network，F(xiàn)PN） + 路徑聚合網(wǎng) 絡(luò)（Path Aggregation Network，PAN）結(jié)構(gòu)，如圖4（a）所示。該結(jié)構(gòu)通過PAN增加一個自底向上的路徑聚合網(wǎng)絡(luò)，解決了傳統(tǒng)的自頂向下的FPN受單向信息流限制的問題。但是由于煤矸石檢測任務(wù)目標密集，單張圖像中目標眾多，計算量大，導(dǎo)致YOLOv5模型應(yīng)用于煤矸石檢測任務(wù)時實時性不佳。為了保證煤矸石檢測任務(wù)的實時性，在Neck中引入BiFPN結(jié)構(gòu)[15]，如圖4（b）所示。

圖4 特征網(wǎng)絡(luò)結(jié)構(gòu)Fig. 4 Structure of features network

改進方法：① 去除只有1條輸入邊的節(jié)點，得到1個簡化的雙向網(wǎng)絡(luò)，若1個節(jié)點只有1個輸入，沒有特征融合，則其對以特征融合為目標的特征網(wǎng)絡(luò)的貢獻較小。② 當原始輸入節(jié)點與輸出節(jié)點處于同一水平時，增加1條從原始輸入節(jié)點到輸出節(jié)點的額外邊，以在不增加成本的情況下融合更多特征；③ 將每個雙向（自頂向下和自底向上）路徑視為1個特征網(wǎng)絡(luò)層，并將多個特征網(wǎng)絡(luò)層進行疊加，以實現(xiàn)更高級的特征融合。

2.4 Prediction改進

YOLOv5的Prediction由損失函數(shù)和非極大值抑制組成。損失函數(shù)用于衡量模型生成的預(yù)測框與真實框之間的重疊程度，交并比（Intersection over Union，IoU）[16]是一種常用的損失函數(shù)。非極大值抑制用于目標檢測的后處理過程中，針對多目標框的篩選，抑制非極大值元素，搜索局部極大值，去除冗余的檢測框，得到最終預(yù)測結(jié)果。YOLOv5的損失函數(shù)為GIoU[17]，但是當預(yù)測框和真實框出現(xiàn)包含現(xiàn)象時，無法達到優(yōu)化效果。文獻[18]采用CIoU作為損失函數(shù)，通過計算檢測框之間的歐氏距離而非其IoU，解決兩框包含時出現(xiàn)的問題，同時增加了檢測框尺度、長和寬的損失，使預(yù)測框與真實框更相符，但其結(jié)果相對固定，不能自適應(yīng)地對高IoU目標和低IoU目標的損失和梯度進行加權(quán)。因此，本文引入權(quán)重系數(shù)α，用Alpha-IoU[19]替代CIoU作為預(yù)測目標的邊界框損失函數(shù)，其計算公式為

式中：I′為Alpha-IoU的值；I為IoU的值；ρ2(b,bgt)為預(yù)測框中心點b與真實框中心點bgt的歐氏距離；d為可以包含預(yù)測框和真實框的最小閉合區(qū)域的對角線長度；β為trade-off 的參數(shù)；γ為衡量框的長寬比一致性的參數(shù)；l為損失值。

根據(jù)目標的IoU值自適應(yīng)地調(diào)整權(quán)重系數(shù)α，有助于檢測器更快地學(xué)習(xí)高IoU目標，從而提高目標檢測精度。

3 基于CBA-YOLO模型的煤矸石檢測

基于CBA-YOLO模型的煤矸石檢測流程如圖5所示。輸入圖像或視頻，對視頻進行逐幀讀取并轉(zhuǎn)換為圖片格式；通過自適應(yīng)算法將圖像尺寸統(tǒng)一調(diào)整為640×640，輸入CBA-YOLO模型；通過Backbone、Neck、Prediction進行計算處理，得到煤矸石的相關(guān)信息，以數(shù)組的方式輸出檢測結(jié)果，數(shù)組結(jié)構(gòu)為[檢測框左上坐標，檢測框右下坐標，類別，置信度]。

圖5 基于CBA-YOLO模型的煤矸石檢測流程Fig. 5 Flow of coal gangue detection based on CBA-YOLO model

4 實驗分析

4.1 數(shù)據(jù)采集

為了驗證本文方法的有效性，在河北某煤礦選煤廠的選矸裝置上架設(shè)Blaser工業(yè)相機進行數(shù)據(jù)采集，并通過大功率LED面光源和光源控制器提供光照均勻、穩(wěn)定的照明環(huán)境，如圖6所示。

圖6 圖像采集Fig. 6 Image acquisition

設(shè)置每隔2 ms采集1張圖像，共采集1 500 張圖像。為了達到更好的網(wǎng)絡(luò)訓(xùn)練效果，選取1 245張質(zhì)量較好的圖像作為數(shù)據(jù)集，用LabelImg標注軟件對數(shù)據(jù)集進行標注，按照8∶1∶1的比例劃分為訓(xùn)練集、評估集和測試集3個部分，其中訓(xùn)練集995張，評估集125張，測試集125張。數(shù)據(jù)集中包含單塊煤矸石圖像和多塊煤矸石圖像。

4.2 CBA-YOLO模型訓(xùn)練

實驗軟硬件配置如下：計算機操作系統(tǒng)為Ubuntu16.04，CPU運算核心為Intel?CoreTMi5－8400CPU@2.80 GHz，GPU為GeForce GTX 2080Ti,NVIDIA驅(qū)動為CUDA10.2。算法基于Pytorch框架運行。實驗訓(xùn)練參數(shù)設(shè)置如下：選用ADAM作為優(yōu)化器；初始學(xué)習(xí)率為0.01，學(xué)習(xí)率周期為0.2，學(xué)習(xí)率動量為0.937；權(quán)重衰減系數(shù)為0.000 5，訓(xùn)練的Batch_size為16，epoch為600。

對CBA-YOLO模型進行多次訓(xùn)練，選取最佳模型用于評估。訓(xùn)練完成后的損失函數(shù)曲線如圖7所示。損失值越小，預(yù)測結(jié)果越準確。由圖7可知，訓(xùn)練輪次超過250后，損失值下降趨于平緩，損失函數(shù)曲線已經(jīng)收斂，說明模型訓(xùn)練效果良好。

圖7 訓(xùn)練損失Fig. 7 Training loss

4.3 實驗結(jié)果分析

利用獲得的測試集進行消融實驗，實驗1-3分別在模型中引入CBAM，BiFPN結(jié)構(gòu)和Alpha-IoU，實驗4-6采用2種改進方法。為了簡潔表達，取CBAM，BiFPN，Alpha-IoU的首字母，將添加單個CBAM模塊的模型稱為YOLO-C，添加CBAM模塊和BiFPN組合結(jié)構(gòu)的模型稱為YOLO-CB，其他模型依此類推。

通過設(shè)置不同閾值，得到不同模型準確率與召回率的關(guān)系曲線，即PR曲線，如圖8所示。PR曲線與坐標軸圍成的區(qū)域面積為平均精度均值（mean Average Precision，mAP），以mAP作為煤矸石檢測的精度指標，以幀率作為煤矸石檢測的速度指標，消融實驗結(jié)果見表1。

圖8 消融實驗PR曲線Fig. 8 PR curves of ablation experiment

表1 消融實驗結(jié)果Table 1 Results of ablation experiment

分析圖8和表1可知，以YOLOv5為基準模型，采用單個改進方法的模型性能如下：YOLO-C的精度和速度都有小幅提升；YOLO-B的精度小幅提升，速度提升顯著；YOLO-A的精度提升最多，但速度有所下降。上述結(jié)果表明：在Backbone中加入注意力機制可聚焦特征差異，降低了數(shù)據(jù)維度，帶來了精度和速度的提升；Neck部分引入BiFPN結(jié)構(gòu)后，提升了模型計算效率，但精度提升不明顯；Prediction部分通過改進損失函數(shù)，聚焦高IoU目標，提升了檢測精度，但未能兼顧速度。

以YOLOv5為基準模型，采用組合改進方法的模型性能如下：YOLO-CA和YOLO-BA的精度提升程度相當，但后者的速度更快，說明Neck部分采用BiFPN結(jié)構(gòu)可提升網(wǎng)絡(luò)推理速度；YOLO-CB的精度最低，但速度最快；CBA-YOLO模型的精度提升最多，比基準模型提升了3.4%，檢測速度提升了10%，說明改進損失函數(shù)雖然增加了網(wǎng)絡(luò)計算量，但由于Neck部分采用BiFPN結(jié)構(gòu)后提升了模型計算效率，保證了模型在不損失速度性能的情況下穩(wěn)定提升精度，同時，通過在Backbone中加入注意力機制進一步提高了檢測性能。

基于YOLOv5和CBA-YOLO模型的煤矸石檢測結(jié)果對比如圖9所示?？煽闯觯珻BA-YOLO模型魯棒性更強，有效避免了漏檢、誤檢和重疊現(xiàn)象。

圖9 煤矸石檢測結(jié)果對比Fig. 9 Comparison of coal gangue detection results

5 結(jié)論

（1）在Backbone中加入注意力機制可聚焦特征差異，降低了數(shù)據(jù)維度，帶來了精度和速度的提升；Neck部分引入BiFPN結(jié)構(gòu)后，提升了模型計算效率，但精度提升不明顯；Prediction部分通過改進損失函數(shù)，聚焦高IoU目標，提升了檢測精度，但未能兼顧速度。

（2）與YOLOv5模型相比，CBA-YOLO模型的精度提升了3.4%，檢測速度提升了10%，同時保證了檢測實時性和精度，可為選煤廠實際應(yīng)用提供參考。