摘要:煤礦井下工作中安全帽佩戴是事關(guān)工人生命安全的一大關(guān)鍵要素?;谝曨l圖像進行分析的技術(shù)雖可以較好地檢測工人安全帽佩戴情況從而將事故帶來的損害最小化,但是在礦井下的圖像收集過程中往往存在各種各樣的現(xiàn)實因素,例如環(huán)境復(fù)雜、存在多個目標等,給技術(shù)人員造成很大的干擾。針對以上問題,文章通過引進EMA注意力機制與DIoU損失函數(shù),提出了一種改進的ED-YOLOv5s模型。在自制數(shù)據(jù)集上對該模型進行了消融實驗,結(jié)果表明該模型相比原模型在圖像檢測速度和精度方面都有較大的提升。隨后,文章將該算法與YOLOv7-tiny、YOLOv8進行對比實驗,結(jié)果顯示文章算法在礦井下安全帽檢測的mAP@50%達到了97.3%。
關(guān)鍵詞:圖像分析;YOLOv5s;EMA;DIoU
中圖分類號:TP391 文獻標志碼:A
0 引言
在我國眾多高危行業(yè)(尤其是煤礦行業(yè))中,安全帽對施工人員的生命安全起著至關(guān)重要的作用,然而一些工人缺乏安全意識不全程佩戴安全帽的現(xiàn)象屢見不鮮。對于上述情況,我國很多礦業(yè)的生產(chǎn)現(xiàn)場使用視頻分析技術(shù)對工人佩戴安全帽情況進行識別與檢測,但該技術(shù)在識別過程中存在檢測精度低、圖像檢測速度慢等問題,因此,基于視頻的檢測識別技術(shù)迫切需要改進。
基于深度學(xué)習(xí)的方法可分為“兩階段”方法和“單階段”方法[1]?!皟呻A段”方法首先使用算法提取特征,然后生成候選區(qū)域,最后使用分類器進行分類回歸。該方法的優(yōu)勢在于顯著提高檢測精度,但不具備良好的時效性?!皢坞A段”方法采用端對端的方式對圖像中的目標位置進行檢測、分類。SSD[2] 模型和YOLO[3] 模型是“單階段”算法中常用的2類。SSD模型對小目標檢測能力較差。YOLO模型的原理是將安全帽檢測識別轉(zhuǎn)化為回歸問題,使用卷積神經(jīng)網(wǎng)絡(luò)對輸入圖像進行預(yù)測,判定邊界框位置及目標類別概率,小目標檢測能力較強。
YOLO模型因其檢測速度快、精度高在工業(yè)中被普遍應(yīng)用??蒲腥藛T對YOLO模型進行了不斷的改進。YOLOv3[4]首先出現(xiàn)了DarkNet53網(wǎng)絡(luò),結(jié)合使用AIIFO0oCcdzZkZJYMlkruO1ozkcZF6LZjhegre9Rgfs=FPN架構(gòu)和多尺度融合等方式,提高了對小目標檢測的精確度。YOLOv4[5]提出了具有不同層間交叉的CSPDarkNet53,使用 Mosaic數(shù)據(jù)增強方法和自我對抗訓(xùn)練方式提高網(wǎng)絡(luò)的檢測與識別的性能。YOLOv5[6]引進了模型檢測和數(shù)據(jù)優(yōu)化處理,操作簡單并且易移植,小目標檢測精度較高[7-8]。
YOLOv5模型一直處于不斷更新中,現(xiàn)已有4種官方的算法模型,分別為YOLOv5s、 YOLOv5m、YOLOv5l和YOLOv5x。YOLOv5s模型的網(wǎng)絡(luò)深度和特征圖寬度最小,考慮到該技術(shù)將應(yīng)用于煤礦行業(yè),本文根據(jù)礦下復(fù)雜的環(huán)境,對模型網(wǎng)絡(luò)結(jié)構(gòu)進行調(diào)整以提高算法檢測能力。本文以YOLOv5s為基礎(chǔ),通過引入EMA注意力機制和DIoU損失函數(shù),提出了一種改進的ED-YOLOv5s模型。
1 YOLOv5s安全帽檢測算法
1.1 YOLOv5s模型
YOLOv5原模型主要包括4個部分:輸入端、主干、頸部網(wǎng)絡(luò)和預(yù)測頭。輸入端采用的是Mosaic數(shù)據(jù)增強。主干采用Focus和CSPDarkNet53 2種結(jié)構(gòu)相結(jié)合。CSPDarkNet53是特征提取的核心,可以借助殘差塊來快速實現(xiàn)對特征圖的降維,在保障檢測精度的前提下,提升特征提取性能。頸部網(wǎng)絡(luò)采用空間金字塔池(Spatial Pyramid Pooling,SPP)和路徑聚合網(wǎng)絡(luò)(Path Aggregation Network,PANet)的結(jié)構(gòu),用以加強不同特征層的特征聚合,提高不同目標網(wǎng)絡(luò)檢測的能力。最終由輸出端輸出目標的坐標及分類結(jié)果。
YOLOv5s是在YOLOv5的基礎(chǔ)上在主干中添加CSP1_X結(jié)構(gòu),在頸部網(wǎng)絡(luò)設(shè)置CSP2_X結(jié)構(gòu),增大了2層之間的反向傳播梯度值,減小了梯度消失,使得YOLOv5的網(wǎng)絡(luò)提取特征性能增強。YOLOv5s的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
1.2 YOLOv5s算法原理
輸入端對接收到的圖像進行處理并校正圖像格式。主干網(wǎng)絡(luò)對輸入圖像進行特征提取,便于后續(xù)對該目標的檢測工作。頸部網(wǎng)絡(luò)對來自主干網(wǎng)絡(luò)的特征圖進行卷積操作或采樣操作,保證能同時處理不同分辨率的圖像信息以提高檢測的魯棒性。預(yù)測頭是該模型的核心,可將接收到的已處理的特征圖轉(zhuǎn)化為預(yù)測結(jié)果、生成邊界框位置、置信度等信息。
1.3 ED-YOLOv5s算法
由于煤礦下復(fù)雜多樣的環(huán)境,改進后的視頻分析技術(shù)依然存在無法準確提取多尺度目標的關(guān)鍵特征、檢測不具備實時性等問題。為提高檢測實時性、準確率,本研究在不損失檢測精度的前提下,提出了一種改進的ED-YOLOv5s的安全帽檢測模型。改進如下:
1.3.1 引入EMA注意力機制
深度學(xué)習(xí)中的注意力機制是指在復(fù)雜環(huán)境中將注意力放在關(guān)鍵點上,選出關(guān)鍵信息,忽略無關(guān)信息。注意力機制也可以形象地理解為在生活中當人們在查找圖片中的物體信息時,會更仔細地關(guān)注符合此物體特征的圖片,忽略不符合的圖片區(qū)域,即注意力的合理高效分配。此模塊已經(jīng)被應(yīng)用于自然語言處理、圖像檢測、語音識別等諸多領(lǐng)域。基于注意力機制的模型可以用來記錄信息間的位置關(guān)系,進而根據(jù)信息的權(quán)重去度量不同信息特征的重要程度[9]。此外,加入此模塊后建立動態(tài)權(quán)重參數(shù),提高了深度學(xué)習(xí)算法效率和運行速度,對傳統(tǒng)深度學(xué)習(xí)有很多改善。EMA網(wǎng)絡(luò)如圖2所示。
根據(jù)注意力機制的原理可知,計算公式為:
Attention(Query,Source)=∑Lxi=1Similarity(Query,Keyi)×Valuei
其中,Lx表示Source的長度,Attention從大量信息中有選擇地篩選并聚焦到這些重要信息上,忽略不重要的信息。聚焦的過程體現(xiàn)在權(quán)重系數(shù)的計算上,權(quán)重越大越聚焦在對應(yīng)的Value值上。
EMA注意力機制由AE、AM、AR 3個模塊組成。AE是指EM算法的第E步,該步驟為觀測數(shù)據(jù)形成被骨干網(wǎng)絡(luò)提取的特征圖,包含數(shù)據(jù)Z形成的注意力圖。AM模塊即為EM算法的第M步,該步驟對AE模塊得到的似然函數(shù)進行計算求得最大期望,進而得到一組新的基。以上2個模塊進行交替工作,當數(shù)據(jù)表現(xiàn)為收斂時,AR模塊對此進行重建特征圖。
EMA模型與一般的注意力機制不同,它不參與計算每個像素之間的聯(lián)系,而是本著期望最大化的理念來查找一組具有代表性的基,然后使用這組基對先前骨干網(wǎng)絡(luò)提取得到的特征圖進行重新組建,在滿足上下文信息的條件下獲得具有最少點的特征圖,可以有效地降低時空復(fù)雜度。換言之,EMA模型可以根據(jù)較高權(quán)重去著重考慮關(guān)鍵信息,忽略低權(quán)重信息。即使在復(fù)雜環(huán)境中,EMA模型也可以抓住主要信息,實現(xiàn)了信息處理資源的高效分配,具有較高可擴展性和魯棒性。此外,EMA模型還可以將選定的重要信息與其他模塊進行共享,實現(xiàn)信息的互通。
1.3.2 引入DIoU損失函數(shù)
損失函數(shù)是用來評價模型穩(wěn)定性的重要指標,可以較大程度地影響檢測結(jié)果和模型收斂速度,對于目標檢測的精度及模型收斂速度有重要作用。DIoU損失函數(shù)可以加快邊界框回歸速率,提高定位精度,加快對目標的檢測速率。該損失函數(shù)在IoU損失函數(shù)的基礎(chǔ)上添加了一個懲罰,可以最小化和歸一化中心點距離,加快了收斂過程。此外,DIoU損失函數(shù)是對GIoU損失函數(shù)的優(yōu)化,收斂速度更快。
在訓(xùn)練過程中,當出現(xiàn)絕緣子數(shù)據(jù)集與預(yù)測框中心點位置相同的情況時,盡管預(yù)測框形狀不同,DIoU回歸值大小依然保持相同。當2個邊界框之間存在包含、平等和垂直等情況時,DIoU能使預(yù)測框更快地回歸[10]。
DIoU的損失函數(shù)可以表示為:
LDIoU=1-IoU+ρ2(b,bgt)c2
在上述公式中,ρ為歐氏距離,c為目標預(yù)測框與實際框內(nèi)部最小的外接矩形之間的對角線距離。DIoU同時考慮了兩者的重疊面積與中心點距離。當發(fā)生預(yù)測框在真實框內(nèi)部且兩者存在交集時,在參考中心點距離后可加快邊界框回歸速率,進而加快DIoU損失函數(shù)的收斂。DIoU的原理如圖3所示。
2 ED-YOLOv5模型網(wǎng)絡(luò)結(jié)構(gòu)
改進后的ED-YOLOv5s如圖4所示。本文在YOLOv5s模型中的骨干網(wǎng)絡(luò)添加注意力機制(EMA)模塊,將圖像中安全帽設(shè)置為提取特征,進而檢測工人安全帽佩戴情況。將基于Focal Loss和GIoU Loss的組合替換為DIoU損失函數(shù),加快了收斂速度。
3 實驗與分析
3.1 實驗環(huán)境
本研究使用自制數(shù)據(jù)集。該數(shù)據(jù)集分為訓(xùn)練集、驗證集、測試集3類,共包含6421張圖像。此數(shù)據(jù)集中包含了井下及地面工人安全帽佩戴的數(shù)據(jù),綜合考慮了場地、光線、個人姿勢和是否遮擋等復(fù)雜條件,具備十足的可靠性。在測試過程中,所有YOLO模型訓(xùn)練的epoch為100,Batch-size為8,學(xué)習(xí)率為0.0001,而且為避免測試中出現(xiàn)過擬合采用了早停策略。
3.2 消融實驗
為了驗證改進的ED-YOLOv5s的性能,本研究進行了消融實驗。該實驗以YOLOv5s模型為基礎(chǔ)模型,對EMA注意力機制、DIoU損失函數(shù)分別進行分析,了解各模塊對提升模型性能分別發(fā)揮的作用以及對結(jié)構(gòu)改進的有效程度。根據(jù)結(jié)果的精確率(P)、平均均值精度(mAP@50%)、召回率(R)的數(shù)值來分析改進后的ED-YOLOv5s網(wǎng)絡(luò)對井下安全帽佩戴情況的檢測性能。依據(jù)算法參數(shù)量、每秒傳輸幀數(shù)來評價改進算法的優(yōu)劣。實驗結(jié)果如表1所示。
表1給出了使用數(shù)據(jù)集后的消融實驗結(jié)果, ①為加入EMA注意力機制, ②為加入DIoU損失函數(shù), ③為同時加入EMA注意力機制和DIoU損失函數(shù)。結(jié)果顯示mAP@50%分布提升1.0%、0.7%、1.2%,同時加入EMA注意力機制和DIoU損失函數(shù)模型的mAP@50%值最大;加入EMA注意力機制的模型精確度明顯提高,表明此模塊可以較好地捕捉關(guān)鍵特征。同時,加入DIoU損失函數(shù)后FPS值顯著增大,檢測更具實時性。依據(jù)mAP@50%值及FPS值可知本研究ED-YOLOv5s算法精度更高、檢測速度更快,可以更好地適用于煤礦企業(yè)。
3.3 對比試驗
當引入EMA注意力機制模塊后,本研究發(fā)現(xiàn)EMA注意力機制的數(shù)量與添加位置的不同也會使模型產(chǎn)生不同的精度、檢測速率。因此,本研究針對不同情況進行了對比實驗,實驗結(jié)果如表2所示。
表2給出了3種不同模型及原始模型在自制數(shù)據(jù)集上的檢測與識別數(shù)據(jù)??梢钥闯觯?種模型的參數(shù)量和模型體積大致相等;YOLOv5s的模型召回率最高,但精度偏低;YOLOv5s+1EMA的圖像處理速度最快,但精度低于YOLOv5s+3EMA;YOLOv5s+2EMA的精度、mAP@50%值以及FPS值均小于其余3種模型,性能較差。相比之下 YOLOv5s+3EMA的精度最高、mAP@50%值最大、檢測實時性最好。
為直觀地看出不同損失函數(shù)對YOLOv5s模型圖像處理速度和精度的影響,本文對YOLOv5s原模型以及分別采用SIoU損失函數(shù)、EIoU損失函數(shù)、DIoU損失函數(shù)的4類模型進行了對比實驗。實驗結(jié)果如表3所示。
表3給出了YOLOv5s在分別采用SIoU、EIoU、DIoU不同損失函數(shù)后在相同數(shù)據(jù)集上的檢測與識別數(shù)據(jù)??梢钥闯觯篩OLOv5s原模型的精度、檢測速度均低于其他3種模型;YOLOv5s+SIoU的精度最高,在精度、模型召回率及檢測速度上均優(yōu)于原模型;YOLOv5s+EIoU的精度最低,但區(qū)域3項指標模型均優(yōu)于上述2種模型;YOLOv5s+DIoU的精度及模型召回率均高于原模型且mAP@50%值和FPS值最大。由此可得采用DIoU損失函數(shù)的模型平均均值精度最高,圖像檢測速度最快,更具實時性。
為進一步探究本文模型對礦井下安全帽佩戴情況的檢測效果,本研究將改進后的ED-YOLOv5s模型、YOLOv7-tiny以及YOLOv8算法使用相同樣本和訓(xùn)練環(huán)境,對它們進行客觀的指標對比。實驗結(jié)果如表4所示。
表4列出了3種算法在相同數(shù)據(jù)集上的檢測與識別后的結(jié)果。使用檢測精度P、模型召回率、平均均值精度等的數(shù)據(jù)結(jié)果對其性能進行評價,結(jié)果表明:YOLOv8的精度、mAP@50%值、FPS值均小于ED-YOLOv5s,但參數(shù)量和模型體積較?。籝OLOv7-tiny的精度、模型召回率、mAP@50%值以及FPS值均小于ED-YOLOv5s和YOLOv8。3種模型中本文改進模型的mAP@50%值最高,圖像處理速度最快。
3.4 檢測效果
如圖5所示,可看出本研究改進的ED-YOLOv5s模型對煤礦井下的圖像檢測精度高,可以較好地實時性地對工人安全帽佩戴情況進行檢測。
4 結(jié)語
本研究針對礦井下視頻檢測精度低、檢測速度慢、不具備實時性等問題,以YOLOv5s為基礎(chǔ)提出了一種結(jié)合EMA注意力機制和DIoU損失函數(shù)的改進的ED-YOLOv5s模型。使用自制數(shù)據(jù)集對該模型進行消融實驗,結(jié)果表明2處改進點可以顯著地提升YOLOv5s的性能。為了解改進效果,本文將該模型與YOLOv7-tiny、YOLOv8進行對比實驗。實驗結(jié)果顯示本文模型可以很好地檢測工人安全帽佩戴情況,具備檢測速度快、精度較高等優(yōu)勢,可以較好地解決煤礦井下的現(xiàn)有問題。
參考文獻
[1]李寶奇,黃海寧,劉紀元,等.基于改進SSD的合成孔徑聲納圖像感興趣小目標檢測方法[J].電子學(xué)報,2024(3):762-771.
[2]王琳毅,白靜,李文靜,等.YOLO系列目標檢測算法研究進展[J].計算機工程與應(yīng)用,2023(14):15-29.
[3]王濤,馮浩,秘蓉新,等.基于改進YOLOv3-SPP算法的道路車輛檢測[J].通信學(xué)報,2024(2):68-78.
[4]閔鋒,況永剛,毛一新,等.改進YOLOv4的遙感圖像目標檢測算法[J].計算機工程與設(shè)計,2024(2):396-404.
[5]貴向泉,秦慶松,孔令旺.基于改進YOLOv5s的小目標檢測算法[J].計算機工程與設(shè)計,2024(4):1134-1140.
[6]趙睿,劉輝,劉沛霖,等.基于改進YOLOv5s的安全帽檢測算法[J].北京航空航天大學(xué)學(xué)報,2021(8):2050-2061.
[7]岳衡,黃曉明,林明輝,等.基于改進YOLOv5的安全帽佩戴檢測[J].計算機與現(xiàn)代化,2022(6):104-108,126.
[8]張麗麗,陳真,劉雨軒,等.基于ZYNQ的YOLOv3-SPP實時目標檢測系統(tǒng)[J].光學(xué)精密工程,2023(4):543-551.
[9]陳偉,江志成,田子建,等.基于YOLOv8的煤礦井下人員不安全動作檢測算法[EB/OL].(2024-03-25)[2024-07-11].http://kns.cnki.net/kcms/detail/11.2402.td.20240322.1343.003.html.
[10]曹雨淇,徐慧英,朱信忠,等.基于YOLOv8改進的打架斗毆行為識別算法:EFD-YOLO[EB/OL].(2024-01-26)[2024-07-11].http://kns.cnki.net/kcms/detail/43.1258.TP.20240126.0819.002.html.
(編輯 王雪芬)
Detection algorithm for wearing safety helmet undermine based on improved ED-YOLOv5s
GUO Yunfei, HOU Yanwen, TAO Hongjing
(College of Coal Engineering, Shanxi Datong University, Datong 037000, China)
Abstract: Wearing a helmet in underground coal mine is a key factor concerning the safety of workers. Although the video image analysis technology can better detect the helmet wearing of workers to minimize the damage caused by accidents, there are often various realistic factors in the image collection process under the mine, such as complex environment and multiple targets. These problems will cause a lot of interference to the technicians. To address the above problems, this study proposed an improved ED-YOLOv5s model by introducing the EMA attention mechanism with the DIoU loss function. In this paper, we conducted ablation experiments on CUMT-HelmeT dataset, and the results show that it is greatly improved in image detection speed and accuracy compared with the original model. After comparing the algorithm with YOLOv7-tiny and YOLOv8, result display that the mAP@50% is 97.3%
Key words: image analysis; YOLOv5s; EMA; DIoU