白家俊 何青松
摘要:生產實踐表明佩戴安全帽可以有效減少安全事故帶來的人員傷亡,基于此,提出了一種判斷生產人員的安全帽是否正確佩戴的方法,并對現(xiàn)有YOLOv3算法進行了優(yōu)化,提高安全帽檢測精度和速度,減少無效報警。結合DeepSort目標跟蹤技術提高檢測算法的實時性?;陂_源SHMD數(shù)據(jù)集進行測試,結果顯示優(yōu)化YOLOv3算法的平均檢測準確率達到96.80%,比現(xiàn)有YOLOv3算法提高12%,執(zhí)行速度每秒32幀,在各種自然場景下都有出色的檢測效果。
關鍵詞:DeepSORT;改進YOLOv3;車間安全;安全帽;目標跟蹤
中圖分類號:TP391文獻標識碼:A
文章編號:1009-3044(2022)05-0091-03
近些年,我國建筑行業(yè)發(fā)生的安全事故中有60%以上的傷亡者未佩戴安全帽,可見佩戴安全帽是保障工人生命安全的重要措施。監(jiān)督工人佩戴安全帽已成為安全生產管理中的必要措施[1]。現(xiàn)有的安全帽佩戴監(jiān)控方式以人工監(jiān)督為主,效率低,效果差,和工業(yè)4.0時代計算機化、智能化的安全生產要求相差甚遠。如何實現(xiàn)安全帽佩戴自動化檢測成為安全生產管理領域亟待解決的問題。目前,安全帽檢測領域缺乏高魯棒性的分類算法[2]。在深度學習理論和方法的持續(xù)完善的背景下,以其為核心的目標識別跟蹤算法發(fā)展迅速,為安全帽檢測技術的研究提供了新的選擇。本次研究提出了基于深度學習神經網(wǎng)絡檢測方案,通過處理工廠車間的視頻圖像模型,準確檢測工人的安全帽佩戴情況。
1系統(tǒng)架構設計
本次設計的安全帽檢測系統(tǒng)檢測基本流程見圖1,系統(tǒng)由安全帽檢測、人員目標跟蹤兩大模塊構成。
安全帽檢測模塊的主要功能是基于攝像頭捕捉到的監(jiān)控視頻,通過大量數(shù)據(jù)訓練完成視頻內容檢測,分析視頻中人員安全帽佩戴情況,并記錄視頻中檢測目標的信息,以便后續(xù)進行目標跟蹤。
人員目標跟蹤模塊基于安全帽檢測模塊發(fā)送的采集目標幀初始化跟蹤集,再運用[DeepSORT]算法實現(xiàn)目標集跟蹤。人員目標跟蹤模塊負責跟蹤視頻圖像中的每一個人員目標,及時收集人員位置信息,在確保檢測精度的情況下盡量減少警報的漏報、虛報[3]。
后臺程序基于改進的YOLOv3檢測算法和DeepSORT算法獲取數(shù)據(jù)集,及時更新跟蹤器,找出未佩戴安全帽的人員目標,系統(tǒng)發(fā)出警告。
2 數(shù)據(jù)集構建
本次設計以開源安全帽數(shù)據(jù)集SHWD (Safety Helmet Wear Dataset)作為基礎訓練數(shù)據(jù)。SHWD數(shù)據(jù)集共有7581個Pascal-VOC格式標注圖片,主要分為未戴安全帽、已戴安全帽兩種圖片[4]。SHWD數(shù)據(jù)集正/負例樣本分布不均勻,同時場景相對單一。因此,本次研究基于SHWD數(shù)據(jù)集存在的問題補充了4800張安全帽拿在手中或放在桌上等復雜圖像數(shù)據(jù),與SHWD數(shù)據(jù)集合并用于進行算法訓練和測試。
3 安全帽檢測模塊設計
3.1 模型算法
本次設計的安全帽檢測系統(tǒng)主要由兩個主要部分組成:安全帽檢測模塊和人員目標跟蹤模塊。安全帽檢測模塊是整個系統(tǒng)的核心,在比較了不同的算法之后,本次設計選用YOLOv3檢測框架,為提高算法檢測的準確率,本文重點介紹YOLOv3算法的三個部分:特征提取網(wǎng)絡、特征聚合、損失函數(shù)[5]。YOLOv3算法的基本原理是將殘差網(wǎng)絡函數(shù)與多尺度預測相結合,在中小型物體的檢測進度與檢測速度之間達到平衡,但[416×416]的輸入圖像對應的特征圖尺寸最小為[13×13],感受野太大,嚴重影響檢測精度,尤其是中小型物體的檢測效率很低,檢測重復、錯誤、遺漏的概率很大。因此,本文基于現(xiàn)有YOLOv3算法進行優(yōu)化給出更加高效的YOLOv3算法,其大致框架見圖2。
本次改進的算法是一種多目標檢測算法,其基本框架為深度殘差網(wǎng)絡。在典型的視頻目標檢測環(huán)境中,檢測目標是中小型目標,因此他們不需要非常大的感受野。此外,為改善針對中小型目標(生產人員)的檢測能力,新算法需要基于大量淺層特征圖進行預測??紤]到目標識別的速度、時間復雜度和可靠性[6],本次設計在原有YOLOv3框架基礎上增加一個卷積層,將特征圖與平面殘差網(wǎng)絡相結合,和原有YOLOv3的三個卷積層共同組合形成一個包含四個不同分辨率卷積層的特征金字塔,具體包括包[64×64,32×32,16×16,8×8]的分辨率。在2-stage特征金字塔中進行采樣并結合Deep Rest網(wǎng)絡形成深度融合的安全帽快速檢測模型。本次改進的YOLOv3算法的檢測識別數(shù)據(jù)是整幅圖像,輸出被檢測目標的位置信息以及安全帽佩戴信息。首先,改進YOLOv3算法使用深度殘差網(wǎng)絡(Deep Residual Network,DRN)來提取目標人員特征。然后,在DRN后設置卷積層,將其分為四個分支,共同構成圖像特征預測網(wǎng)絡[7]。出于提高圖像信息價值的考慮,本次改進的YOLOv3算法將圖像特征預測網(wǎng)絡的特征圖與DRN的圖像特征圖結合。最后,通過非極大值抑制達到去除重復圖像邊界框的目的,最終得到安全帽佩戴檢測結果。相比傳統(tǒng)的YOLOv3,改進后的算法效果更好,可以有效減少復雜疑難場景下的誤檢,大大提高安全帽佩戴檢測準確率。
3.2 基于DRN提取圖像特征
新算法通過構建DRN殘差網(wǎng)絡提取目標頭部特征。DRN包含若干殘差塊,塊與塊之間依次堆疊,對應的公式如下:
[at+1=Ft(at)+at]
[at]表示第[t]個殘差塊的輸入向量、[at+1]表示第[t]個殘差塊的輸出向量,[Ft(at)]表示殘差分支的傳遞函數(shù)。構建的DRN有利于圖像特征信息流動,可提高算法訓練效率。DRN的第一個卷積層利用16[×]33的濾波器以[512×512]的分辨率對輸入圖像進行濾波,再以步長2對淺層圖像進行濾波,并添加殘差塊增加網(wǎng)絡的深度,得到特征圖分辨率為[256×256],通過類似方法得到分辨率分別為[64×64,32×32,16×16,8×8]的特征圖,將分辨率為[64×64,32×32,16×16,8×8]的特征圖與上采樣特征圖合得到特征金字塔,以便進行安全帽佩戴預測。
3.3 基于多尺度卷積網(wǎng)絡預測目標人員位置
本次改進的算法在多尺度目標特征圖上對目標人員安全帽佩戴情況進行回歸預測。不同分辨率的卷積層分為四個分支,即分別率分別為[64×64,32×32,16×16,8×8]特征圖,基于特征圖分別進行圖像預測,各分支均包含若干卷積層,對各分支進行上采樣。為強化特征金字塔表征能力,將上采樣特征與殘差塊特征融合,以識別安全帽,四個分支共享通過DRN提取的圖像特征。通過多尺度卷積網(wǎng)絡預測算法可以生成分別代表圖像邊框、人員頭部、人員頸部以及安全帽佩戴類別的三維張量。
3.4 基于錨點機制預測人員頭部邊界框
錨點機制源于FasterR-CNN,用于發(fā)現(xiàn)目標邊界[8]。錨點機制可快速精準預測YOLOv2、YOLOv3、SSD等檢測框架中物體的邊界。因此,本次設計也使用錨點機制來預測目標人員的頭頸部邊界。特征圖可分為[N×N]個網(wǎng)格,單個網(wǎng)格可預測三個錨框,單張圖像可包含65280個預測幀,從而有效確保目標頭部位置的檢測與識別精度。Faster R-CNN可以基于單個滑動窗口生成9個錨點,這些錨點先通過人工標記,再基于實際情況進行修正以進行數(shù)據(jù)集訓練。本文改進的算法采用與YOLOv2相同的方法,對大量訓練數(shù)據(jù)進行聚類以獲得最佳的先驗錨點框,用于檢測目標人員是否佩戴頭盔,算法公式如下:
[d(box,centroid)=1-IOU(box,centroid)]
基于不同場景需求,如召回率、精度方面的不同要求可以為當前的場景選擇更好的IOU值。目標人員的頭部位置通過本次改進算法直接預測,分成四個坐標信息,[tx],[ty],[tw],[ty]定義分別如下:
[bx=σ(tx)+cxby=σ(ty)+cybw=pwetwbh=phetA]
其中,[cx,cy]表示網(wǎng)格到圖像左上角的水平和垂直距離,[pw,py]表示邊界框的寬度和高度。
4 目標跟蹤模塊設計
本次設計的安全帽檢測系統(tǒng)基于DeepSort算法預測目標人員的位置,根據(jù)目標的形狀、運動情況進行跟蹤,其兩個核心算法是卡爾曼濾波和匈牙利算法,分別負責狀態(tài)估計和適當?shù)哪繕朔峙?。DeepSort目標跟蹤算法使用8維向量([μ、υ、γ、h、x、y、γ、h])來描述被跟蹤目標人員的具體狀態(tài)。其中[(μ,υ)]表示目標框的中心坐標,[γ]表示縱橫比,[h]表示高度,其余變量則用來描述目標在圖像坐標系中的運動狀態(tài)。基于標準卡爾曼濾波器來預測目標人員的運動狀態(tài),預測結果可表示為[(μ、υ、γ、h)]。此外,DeepSort算法將目標人員的外觀、運動方面的信息關聯(lián)起來,以解決相機移動造成目標ID頻繁切換的問題。目標檢測框與跟蹤器預測框之間的馬氏距離用于表示運動相關程度。
[d(1)(i,j)=(dj-yi)TS-1i(dj-yi)]
[yi]為預測第[i]個目標人員的位置,[dj]為第[j]個檢測框的位置,[Si]表示檢測位置之間的方差矩陣。通過檢測位置、預測位置的標準差來衡量目標運動狀態(tài)的不確定性。提取目標特征向量作為目標的外觀信息,并將每一幀的匹配結果緩存為特征向量集。對于每個目標識別幀,特征向量和特征向量集的所有跟蹤器都計算到最小余弦距離,計算公式如下:
[d(2)(i,j)=min{1-rTjr(i)k|r(i)k∈Ri}]
[Ri]為第[i]個跟蹤器的特征向量集,[rj]為第[j]個目標檢測框的特征向量。使用兩種關聯(lián)方式的線性加權值[ci,j]作為最終匹配度量,[λ]為權重系數(shù)。
[ci,j=λd(1)(i,j)+(1-λ)d(2)(i,j)]
5 系統(tǒng)測試和結果分析
5.1 測試環(huán)境及方法
本文將SHWD數(shù)據(jù)集以及自建數(shù)據(jù)集共13955張圖片按照8:2的比例分為訓練集、測試集。在Ubuntu操作系統(tǒng)上進行數(shù)據(jù)訓練,并使用GPU 加速工具,GPU為英偉達Tesla V100 @ 16 GB,RAM為32 GB,采取隨機梯度下降(SGD),使用4x16小批量訓練方法,動量為0.927,權重衰減0.00049。訓練期間共進行20,000次迭代。根據(jù)需要調整學習率,當?shù)螖?shù)達到80%、90%時,學習率降低到原來的10%,為了比較該算法與傳統(tǒng)YOLO v3算法的檢測效果,需要對兩種算法的測試結果進行對比分析。
5.2 算法測試結果分析
本文以常用的平均準確率、平均精度均值、每秒檢測幀數(shù)衡量算法效果。IOU取0.5,基于2791張圖像的測試集測試新算法,測試結果見表1。
根據(jù)表1數(shù)據(jù)可以看出,本次改進的算法基于深度殘差網(wǎng)絡進行特征深度融合,模型運算量顯著提升。如果不運用DeepSort目標跟蹤算法,則系統(tǒng)運行效率,即每秒檢測幀數(shù)低于傳統(tǒng)YOLOv3,但從識別準確率來看,改進算法使用的特征提取網(wǎng)絡特征表達能力或更強,識別準確率(96.81%)與傳統(tǒng)YOLOv3(84.26%)相比有顯著提升。
如圖3所示,在一般場景中,傳統(tǒng)YOLOv3和本次改進的算法都獲得了良好的檢測效果,但在遮擋較多的多人群場景中,傳統(tǒng)YOLOv3漏掉了一些模糊的目標,改進算法則沒有漏掉檢測目標。如果目標很小,則傳統(tǒng)YOLOv3算法的識別準確率嚴重下降,而本次改進的算法檢測識別效果很好。
6結論
綜上所述,本次研究提出了一種改進的YOLOv3檢測算法,該算法在傳統(tǒng)YOLO v3算法的三個卷積層基礎上增加一個特征圖尺寸更大的卷積層,構成四層卷積層結構,以提高算法對中小型目標的檢測識別效率。不同尺度的四個卷積層構成的特征金字塔,同時以步長的2倍進行向上采樣,與深度殘差網(wǎng)絡融合以進行特征提取。將獲得的特征圖用于模型訓練和測試,經過系統(tǒng)測試,本次改進的算法整體性能優(yōu)于傳統(tǒng)YOLOv3算法,可以很好地滿足生產實踐中的安全帽檢測需求。為進一步提高系統(tǒng)運行效率,本次研究使用DeepSORT目標跟蹤算法進行目標人員識別。在英偉達GTX 1070顯卡環(huán)境得到系統(tǒng)的每秒檢測幀數(shù)為33幀,識別準確率達到96.81%,說明本次提出的算法效果良好。在未來研究中需要對算法結構進行持續(xù)改進和完善,提高算法對小目標以及遮擋場景下的目標檢測準確度。
參考文獻:
[1] 宋艷艷,譚勵,馬子豪,等.改進YOLOV3算法的視頻目標檢測[J].計算機科學與探索,2021,15(1):163-172.
[2] 陳佳倩,金晅宏,王文遠,等.基于YOLOv3和DeepSort的車流量檢測[J].計量學報,2021,42(6):718-723.
[3] 李震霄,孫偉,劉明明,等.交通監(jiān)控場景中的車輛檢測與跟蹤算法研究[J].計算機工程與應用,2021,57(8):103-111.
[4] 朱健,楊云飛,蘇江濤,等.基于深度學習的太陽活動區(qū)檢測與跟蹤方法研究[J].天文研究與技術-國家天文臺臺刊,2020,17(2):191-200.
[5] 吳強,季曉楓,馮育,等.一種基于YoloV5和DeepSort的地面互動投影系統(tǒng)中人體檢測跟蹤方法:CN112668432A[P].2021-04-16.
[6] 趙守風,沈志勇,姚一峰,等.基于YOLOv4模型和DeepSORT模型的跟蹤方法:CN112634332A[P].2021-04-09.
[7] 宋欣,李奇,解婉君,等.YOLOv3-ADS:一種基于YOLOv3的深度學習目標檢測壓縮模型[J].東北大學學報(自然科學版),2021,42(5):609-615.
[8] 鄭含博,李金恒,劉洋,等.基于改進YOLOv3的電力設備紅外目標檢測模型[J].電工技術學報,2021,36(7):1389-1398.
【通聯(lián)編輯:代影】
收稿日期:2021-05-26
作者簡介:白家俊(2001—),山西長治人,???,主要研究方向為軟件技術;指導老師:何青松(1987—),男,江蘇徐州人,助教,碩士研究生,主要研究方向為心理學、法學、軟件、人工智能。