楊 貞,朱強(qiáng)強(qiáng),彭小寶,殷志堅(jiān),溫海橋,黃春華
(1.江西科技師范大學(xué)通信與電子學(xué)院,江西 南昌 330013; 2.防城港市氣象局,廣西 防城港 538001)
隨著工業(yè)化進(jìn)程的日益加劇,在日常生產(chǎn)中,如工廠車間、建筑工地等復(fù)雜環(huán)境,存在著威脅人身安全隱患因素,而安全帽作為一種重要防護(hù)工具,在施工場(chǎng)景中必須正確佩戴。統(tǒng)計(jì)表明,在作業(yè)現(xiàn)場(chǎng)發(fā)生的傷亡事故中(尤其是物體打擊和高處墜落)正確佩戴安全帽,可以有效減輕事故造成的后果,因此,檢測(cè)施工現(xiàn)場(chǎng)工人是否正確佩戴安全帽具有重大意義[1]。然而,由于施工現(xiàn)場(chǎng)場(chǎng)景復(fù)雜,工人姿態(tài)變化性大,安全檢查人員難以觀察且易疲憊等因素,無(wú)法實(shí)時(shí)監(jiān)測(cè)施工人員是否正確佩戴安全帽??紤]如今工地現(xiàn)場(chǎng)大多已安裝監(jiān)控?cái)z像頭,因此,利用計(jì)算機(jī)視覺(jué)方法,尤其是目標(biāo)檢測(cè)技術(shù),實(shí)時(shí)分析施工場(chǎng)景視頻,可以有效發(fā)現(xiàn)未戴安全帽工人。
目標(biāo)檢測(cè)技術(shù)是計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)重要研究方向,廣泛應(yīng)用于智能化交通系統(tǒng)[2]、智能視頻監(jiān)控[3]、工業(yè)檢測(cè)[4]、航空航天[5]等諸多領(lǐng)域,能有效減少對(duì)人力資本的消耗,具有重要的現(xiàn)實(shí)意義。因此,目標(biāo)檢測(cè)成為了近年來(lái)計(jì)算機(jī)視覺(jué)理論和應(yīng)用的研究熱點(diǎn),也是智能監(jiān)控系統(tǒng)的核心技術(shù)。而安全帽檢測(cè)又是目標(biāo)檢測(cè)技術(shù)應(yīng)用的一個(gè)具體方向,因此,利用計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)方法檢測(cè)工業(yè)場(chǎng)景施工人員是否佩戴安全帽具有重要應(yīng)用價(jià)值。
當(dāng)今安全帽檢測(cè)技術(shù)劃分為2類:1)基于傳統(tǒng)圖像特征的安全帽檢測(cè);2)基于深度特征的安全帽檢測(cè)。在傳統(tǒng)特征方法中,馮國(guó)臣等[6]首先采用混合高斯模型進(jìn)行前景檢測(cè),其次利用像素聯(lián)通區(qū)域?qū)傩詸z測(cè)出人體輪廓,最后對(duì)檢測(cè)矩形框進(jìn)行像素級(jí)的統(tǒng)計(jì)分析以實(shí)現(xiàn)安全帽的自動(dòng)識(shí)別功能。但是上述方法容易受到光線變化和背景混雜等因素的干擾,基于此,劉曉慧等[7]采取膚色檢測(cè)的方法定位人臉位置,再利用支持向量機(jī)(Support Vector Machines, SVM)模型實(shí)現(xiàn)安全帽的識(shí)別,此方法一定程度上提高了安全帽檢測(cè)精度,然而仍沒(méi)有解決光線變化對(duì)模型的影響。為此,周艷青等[8]利用局部二值模式(Local Binary Patterns, LBP)直方圖統(tǒng)計(jì)的方法來(lái)提取圖像的特征,然后使用反向傳播(Back Propagation, BP)人工神經(jīng)網(wǎng)絡(luò)進(jìn)行分類以判別是否佩戴安全帽。由于LBP是紋理特征,可以一定程度降低光線的干擾,但是該特征僅是獲取了像素的鄰域信息,無(wú)法有效描述安全帽的結(jié)構(gòu)特征,因此,安全帽檢測(cè)的準(zhǔn)確率偏低??傊ㄟ^(guò)傳統(tǒng)特征提取方法很難獲取安全帽目標(biāo)的高層次特征,因此也很難高效地檢測(cè)工業(yè)場(chǎng)景中施工人員是否佩戴安全帽。
在深度特征提取方法中,林俊等[9]通過(guò)修改深度網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)一步優(yōu)化YOLO(You Only Look Once)模型[10]以實(shí)現(xiàn)安全帽檢測(cè),然而,此方法在場(chǎng)景復(fù)雜和目標(biāo)密集的情況下準(zhǔn)確率較低?;诖?,施輝等[11]利用圖像金字塔的多尺度特征和K-means聚類算法以改進(jìn)YOLOv3網(wǎng)絡(luò)[12]實(shí)現(xiàn)安全帽識(shí)別。然而,利用YOLOv3模型直接對(duì)安全帽目標(biāo)進(jìn)行劃分會(huì)導(dǎo)致定位信息粗糙、模型難以訓(xùn)練和收斂、泛化能力差等問(wèn)題。與YOLO模型系列算法不同,吳冬梅等[13]在Faster RCNN基礎(chǔ)上,采取特征融合與多尺度檢測(cè)策略,一定程度上可以取得較好的安全帽檢測(cè)效果,但Faster RCNN計(jì)算量大,實(shí)時(shí)性不佳,且遮擋和光線變化會(huì)導(dǎo)致模型性能較差。
以上基于深度特征的方法雖然可以提取圖像高層次特征,但是由于安全帽在大場(chǎng)景圖片中所占比例較小,其漏檢率和誤檢率依舊較高。因此,上述方法均無(wú)法有效應(yīng)用于實(shí)際任務(wù)中。
依據(jù)工業(yè)現(xiàn)場(chǎng)調(diào)查研究表明[14],現(xiàn)如今工業(yè)現(xiàn)場(chǎng)的監(jiān)控圖像分辨率為1920×1080甚至更高。由于監(jiān)控設(shè)備的位置和角度等因素,安全帽這一目標(biāo)在視頻中所占比例比較小。因此,對(duì)于小目標(biāo)檢測(cè),傳統(tǒng)特征和深度特征的提取方法都有較高的局限性?;诖?,本文提出一種基于級(jí)聯(lián)網(wǎng)絡(luò)模型的安全帽檢測(cè)方法以解決復(fù)雜工業(yè)場(chǎng)景安全帽精準(zhǔn)檢測(cè)識(shí)別的問(wèn)題。在本文提出的方法中,首先采用YOLOv4[15]檢測(cè)網(wǎng)絡(luò)對(duì)疑似佩戴安全帽的工作人員進(jìn)行檢測(cè);然后對(duì)上階段檢測(cè)網(wǎng)絡(luò)的輸出目標(biāo)圖像進(jìn)一步通過(guò)顯著性特征進(jìn)行區(qū)分;最后利用分類器判斷工作人員是否佩戴安全帽。實(shí)驗(yàn)結(jié)果表明,與基于深度特征的安全帽檢測(cè)方法相比,本文提出的級(jí)聯(lián)網(wǎng)絡(luò)模型,進(jìn)一步提高了安全帽的檢測(cè)效果。
目標(biāo)檢測(cè)核心任務(wù)是查找圖像中是否包含需要檢測(cè)的物體,并確定物體的位置和類別。但是,通過(guò)傳統(tǒng)檢測(cè)算法獲取的目標(biāo)特征對(duì)于目標(biāo)形態(tài)變化、光照變化以及背景多樣化等因素缺乏魯棒性,易導(dǎo)致目標(biāo)檢測(cè)準(zhǔn)確率低和模型泛化能力差,因而難以應(yīng)用在真實(shí)的復(fù)雜工業(yè)場(chǎng)景中。
基于深度學(xué)習(xí)One-Stage的目標(biāo)檢測(cè)算法主要思想為直接計(jì)算物體的類別概率和位置坐標(biāo)值,不需要獲得目標(biāo)候選框區(qū)域,通過(guò)網(wǎng)絡(luò)端到端訓(xùn)練模型就可以得到最終的目標(biāo)檢測(cè)結(jié)果且速度更快?,F(xiàn)如今,One-Stage典型的算法有SSD(Single Shot MultiBox Detector)[16]、YOLO系列和Retina-Net[17]系列等;SSD在特征圖上采用卷積核來(lái)預(yù)測(cè)一系列目標(biāo)框的類型和坐標(biāo)信息,并使用多尺度特征進(jìn)行回歸以提高目標(biāo)檢測(cè)準(zhǔn)確率。YOLO系列目標(biāo)檢測(cè)算法是基于卷積神經(jīng)網(wǎng)絡(luò)的回歸方法,目前公認(rèn)有4個(gè)版本:YOLO、YOLOv2[18]、YOLOv3和YOLOv4。
對(duì)比了YOLO系列的網(wǎng)絡(luò)模型,其中YOLOv1檢測(cè)網(wǎng)絡(luò)模型包含24個(gè)卷積層(用來(lái)提取特征)和2個(gè)全連接層(用來(lái)預(yù)測(cè)圖像位置和類別置信度);同時(shí)將輸入圖像分成網(wǎng)格,每個(gè)網(wǎng)格塊輸出不同的bounding box(包含物體的矩形區(qū)域)、每個(gè)box的置信度以及物體屬于某個(gè)類別的概率信息。YOLOv1網(wǎng)絡(luò)模型有著以下缺陷:1)YOLOv1采用多個(gè)下采樣層結(jié)構(gòu),網(wǎng)絡(luò)模型學(xué)習(xí)到的目標(biāo)特征不精細(xì),因此導(dǎo)致目標(biāo)檢測(cè)準(zhǔn)確率低;2)YOLOv1網(wǎng)絡(luò)模型訓(xùn)練依賴物體標(biāo)注數(shù)據(jù),因此,對(duì)于非常規(guī)的物體和比例,YOLOv1檢測(cè)效果并不理想;3)當(dāng)物體所占畫(huà)面比例較小,每個(gè)網(wǎng)格將包含多個(gè)物體的bounding box輸出,而YOLOv1只選擇IoU(Intersection over Union)[19]分?jǐn)?shù)最高的bounding box作為物體檢測(cè)輸出,因此YOLOv1很難檢測(cè)出圖像中的小目標(biāo)。為了解決此問(wèn)題,YOLOv2檢測(cè)網(wǎng)絡(luò)模型使用了批處理、變化圖像分辨率和簡(jiǎn)化網(wǎng)絡(luò)結(jié)構(gòu)策略解決YOLOv1網(wǎng)絡(luò)的局限性:1)通過(guò)在卷積層后添加batch normalization,以提高網(wǎng)絡(luò)模型收斂性,同時(shí)消除對(duì)正則化的依賴;2)改變特征網(wǎng)絡(luò)的輸入分辨率,使得網(wǎng)絡(luò)適應(yīng)高分辨率的輸入,來(lái)緩解YOLOv1特征提取網(wǎng)絡(luò)的局限性;3)通過(guò)卷積層降采樣、刪除最后池化層以簡(jiǎn)化網(wǎng)絡(luò)結(jié)構(gòu),并在卷積特征圖上進(jìn)行滑窗操作,使得每一個(gè)中心可以預(yù)測(cè)9種不同大小的建議框,以此彌補(bǔ)YOLOv1丟失較多的空間信息。盡管YOLOv2改進(jìn)了很多YOLOv1結(jié)構(gòu),使得目標(biāo)檢測(cè)速度和準(zhǔn)確率也得到了提高,但是其對(duì)于部分遮擋的目標(biāo)依舊存在很高的漏檢率。為了解決上述問(wèn)題,YOLOv3使用邏輯回歸(Logistic Regression)的方法給每個(gè)bounding box預(yù)測(cè)一個(gè)類別得分,并使用獨(dú)立的Logistics分類器與二值交叉熵?fù)p失函數(shù)進(jìn)行計(jì)算,同時(shí)YOLOv3還運(yùn)用多尺度策略將深層特征上采樣后與淺層特征融合,得到多個(gè)尺度的目標(biāo)特征。每個(gè)尺度對(duì)應(yīng)3種不同大小的anchor,負(fù)責(zé)預(yù)測(cè)不同大小的目標(biāo):1)尺度1在基礎(chǔ)特征網(wǎng)絡(luò)結(jié)構(gòu)中添加多個(gè)卷積層,輸出box信息以預(yù)測(cè)較大目標(biāo);2)尺度2在尺度1網(wǎng)絡(luò)基礎(chǔ)上與特征圖相加,并通過(guò)幾層卷積層后輸出box信息,負(fù)責(zé)預(yù)測(cè)中等大小的目標(biāo);3)尺度3與尺度2類似,使用32×32大小的feature map作為輸出,負(fù)責(zé)預(yù)測(cè)較小目標(biāo)??傊琘OLOv3在很多檢測(cè)場(chǎng)景上比YOLOv1和YOLOv2具有優(yōu)越性,但在施工人員密集場(chǎng)景中,準(zhǔn)確檢測(cè)安全帽還有很大的局限性。總之,基于One-Stage的目標(biāo)檢測(cè)算法相比于傳統(tǒng)特征能取得更好的目標(biāo)檢測(cè)效果,但是對(duì)于大場(chǎng)景視頻圖像中占幅比較低的小目標(biāo)(如安全帽)檢測(cè)依舊存在局限性。
大場(chǎng)景視頻監(jiān)控由于場(chǎng)景復(fù)雜、圖像分辨率高和安全帽目標(biāo)較小等特點(diǎn),僅僅將YOLO或RCNN系列網(wǎng)絡(luò)模型直接訓(xùn)練安全帽目標(biāo)檢測(cè)模型,很難獲得理想的效果。因此,為了解決上述問(wèn)題,本文考慮工業(yè)場(chǎng)景的復(fù)雜性,提出一種深度級(jí)聯(lián)安全帽檢測(cè)識(shí)別網(wǎng)絡(luò)模型,主要是將目標(biāo)檢測(cè)模塊和分類模塊相結(jié)合,以期獲得更好的安全帽目標(biāo)定位效果。
安全帽檢測(cè)的主要任務(wù)是確定圖像中是否有安全帽并定位其位置。目前,由于施工場(chǎng)景復(fù)雜、視頻圖像分辨率較高、安全帽目標(biāo)尺寸較小等特點(diǎn),基于深度特征的安全帽檢測(cè)算法也易導(dǎo)致較高的誤檢率和漏檢率。針對(duì)上述問(wèn)題,本文提出基于深度級(jí)聯(lián)網(wǎng)絡(luò)模型的安全帽檢測(cè)算法,此網(wǎng)絡(luò)模型由2個(gè)模塊組成:檢測(cè)網(wǎng)絡(luò)模塊和分類網(wǎng)絡(luò)模塊,在檢測(cè)網(wǎng)絡(luò)模塊階段主要實(shí)現(xiàn)施工人員的精確定位,有助于下一步安全帽的識(shí)別;在分類網(wǎng)絡(luò)模塊階段主要進(jìn)行安全帽目標(biāo)的精細(xì)定位,并進(jìn)一步提取圖像中的安全帽輪廓信息,最終判斷施工人員是否佩戴安全帽。
工業(yè)場(chǎng)景中安全帽檢測(cè)技術(shù)主要預(yù)測(cè)施工人員是否正確佩戴安全帽,從而進(jìn)行預(yù)警和提醒。施工人員相比于安全帽的圖像占比較大,因此更容易提取整幅圖像的行人信息特征。依據(jù)上下文信息,本文把安全帽檢測(cè)問(wèn)題轉(zhuǎn)換為施工人員檢測(cè)問(wèn)題。
在進(jìn)行疑似佩戴安全帽人員的檢測(cè)中,本方法對(duì)比了YOLO系列的網(wǎng)絡(luò)模型,其中YOLOv4在YOLOv3目標(biāo)檢測(cè)網(wǎng)絡(luò)框架基礎(chǔ)上,采用了不同的優(yōu)化策略,如:主干網(wǎng)絡(luò)、數(shù)據(jù)處理、網(wǎng)絡(luò)訓(xùn)練策略、損失函數(shù)等方面,使其更具有較快的檢測(cè)精度。與YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)相比,YOLOv4具有以下特點(diǎn):1)YOLOv4網(wǎng)絡(luò)結(jié)構(gòu)使用CSPDarknet53[20]作為主干網(wǎng)絡(luò),保留了YOLOv3的前端網(wǎng)絡(luò)部分,同時(shí)利用空間金字塔池化(Spatial Pyramid Pooling, SPP)作為Neck的附加模塊來(lái)擴(kuò)大網(wǎng)絡(luò)感受野,因此,能有效分離出重要的目標(biāo)上下文特征;同時(shí)YOLOv4還借鑒了PANet(Path Aggregation Network)[21]中的路徑聚合模塊,將其由加法改為乘法作為特征提取模塊的計(jì)算策略,從而提高了模型目標(biāo)檢測(cè)準(zhǔn)確性;其中YOLOv4主干網(wǎng)絡(luò)在每一個(gè)大殘差塊上均添加了CSP模塊(Cross Stage Partial),從而將底層的特征映射成2個(gè)部分:一部分經(jīng)過(guò)密集塊和過(guò)渡層,另一部分與傳統(tǒng)特征映射結(jié)合到下一個(gè)階段;除此之外,CSP能夠在減少計(jì)算量的同時(shí)增強(qiáng)網(wǎng)絡(luò)模型的學(xué)習(xí)能力,尤其對(duì)于小目標(biāo)物體,YOLOv4網(wǎng)絡(luò)使用PANet代替FPN(Feature Pyramid Networks)進(jìn)行參數(shù)聚合可以更好地從圖像中檢測(cè)出目標(biāo):2)YOLOv4通過(guò)引入Mosaic數(shù)據(jù)增強(qiáng)算法將讀取的4張圖片隨機(jī)翻轉(zhuǎn)、縮放和排布等操作拼接成一幅圖片,從而可以豐富圖像的上下文信息,增強(qiáng)模型的魯棒性;3)YOLOv4使用Adversarial Training自對(duì)抗訓(xùn)練方法,對(duì)輸入圖像進(jìn)行操作以擴(kuò)充訓(xùn)練數(shù)據(jù)集;4)YOLOv4使用Mish函數(shù)作為模型的激活函數(shù),并采用DropBlock[22]抑制網(wǎng)絡(luò)過(guò)擬合。
級(jí)聯(lián)網(wǎng)絡(luò)中檢測(cè)網(wǎng)絡(luò)模塊的輸出是施工人員的ROI(Region of Interest)區(qū)域,經(jīng)過(guò)尺度變換操作后,將此區(qū)域送入分類網(wǎng)絡(luò)判斷工人是否佩戴安全帽。
第二階段的分類網(wǎng)絡(luò)模塊采用基于SE-ResNet的主干架構(gòu)以解決深度網(wǎng)絡(luò)會(huì)出現(xiàn)梯度消失和梯度爆炸等問(wèn)題。本文的殘差學(xué)習(xí)單元示意圖如圖1所示:ResNet通過(guò)恒等連接和殘差連接將上下2層連接以加深淺層網(wǎng)絡(luò),同時(shí)采用跳躍結(jié)構(gòu)以增強(qiáng)淺層網(wǎng)絡(luò)的影響力從而避免精度衰減。
圖1 殘差學(xué)習(xí)單元
此外,為了快速準(zhǔn)確地判斷識(shí)別安全帽,本文在深度殘差網(wǎng)絡(luò)中添加了SE(Squeeze-and-Excitation)[23]注意力機(jī)制模塊。SE模塊包括壓縮(Squeeze)和激發(fā)(Excitation)2個(gè)步驟:1)壓縮步驟通過(guò)在Feature Map層上執(zhí)行全局平均池化(Global Average Pooling)得到當(dāng)前全局壓縮特征向量;2)激發(fā)步驟通過(guò)2層全連接的bottleneck結(jié)構(gòu)得到Feature Map中每個(gè)通道的權(quán)值,并將加權(quán)后的Feature Map作為下一層網(wǎng)絡(luò)的輸入。安全帽識(shí)別模型中SE注意力機(jī)制模塊主要學(xué)習(xí)通道之間的相關(guān)性,自動(dòng)學(xué)習(xí)不同通道特征的重要程度,并篩選出針對(duì)目標(biāo)通道的注意力特征以提高安全帽分類的準(zhǔn)確率。本文分類網(wǎng)絡(luò)模型如圖2所示。
圖2 SE-ResNet分類網(wǎng)絡(luò)
本文提出的級(jí)聯(lián)網(wǎng)絡(luò)模型由2部分組成:YOLOv4檢測(cè)網(wǎng)絡(luò)模塊和SE-ResNet分類網(wǎng)絡(luò)模塊,檢測(cè)網(wǎng)絡(luò)模型的輸出作為分類網(wǎng)絡(luò)模型的輸入。1)檢測(cè)網(wǎng)絡(luò)和分類網(wǎng)絡(luò)模塊分別實(shí)現(xiàn)施工人員檢測(cè)和安全帽目標(biāo)識(shí)別,安全帽檢測(cè)網(wǎng)絡(luò)對(duì)輸入圖像進(jìn)行特征提取以剔除大量背景信息,對(duì)提取到的施工人員特征進(jìn)行降維,輸出施工人員ROI區(qū)域;2)將施工人員ROI區(qū)域作為SE-ResNet分類網(wǎng)絡(luò)模型的輸入提取安全帽特征,判斷其是否佩戴安全帽;3)進(jìn)一步使用迭代訓(xùn)練策略以優(yōu)化深度級(jí)聯(lián)網(wǎng)絡(luò)模型,通過(guò)分類網(wǎng)絡(luò)輸出安全帽類別和坐標(biāo)信息以得到原始圖像安全帽的精確信息。
本文提出的安全帽深度級(jí)聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。檢測(cè)網(wǎng)絡(luò)模塊:1)使用分層結(jié)構(gòu),使檢測(cè)模型可探測(cè)不同通道分辨率的特征向量;2)采用SPP模塊,能夠增加感受野,獲取顯著的上下文信息;3)挑選不同層的PANet做參數(shù)聚合以保證檢測(cè)模型準(zhǔn)確率。分類網(wǎng)絡(luò)模塊采用殘差注意力網(wǎng)絡(luò):1)使用跳躍式連接傳遞以保證上下文信息的完整性并簡(jiǎn)化模型參數(shù);2)添加SE注意力模塊以關(guān)注圖像中頭部輪廓信息,通過(guò)提取頭部信息的特征來(lái)優(yōu)化安全帽分類的精度。通過(guò)實(shí)驗(yàn)對(duì)比,基于深度級(jí)聯(lián)網(wǎng)絡(luò)模型的安全帽檢測(cè)方法能夠在人員密集和光線陰暗等復(fù)雜環(huán)境下有著較高的檢測(cè)率,同時(shí)具有較好的魯棒性和泛化能力。
圖3 基于安全帽深度級(jí)聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)圖
本文提出的級(jí)聯(lián)網(wǎng)絡(luò)模型的損失函數(shù)由檢測(cè)損失函數(shù)和分類損失函數(shù)2部分組成。由于CIoU在IoU的基礎(chǔ)上解決邊界框不重合時(shí)的問(wèn)題,同時(shí)添加了邊界框中心點(diǎn)距離和寬高比的尺度信息,因此,在構(gòu)造檢測(cè)網(wǎng)絡(luò)模型時(shí)選取CIoU_Loss[24]作為檢測(cè)損失函數(shù),其公式如下:
(1)
(2)
(3)
公式(1)中,A和B分別代表預(yù)測(cè)框和真實(shí)框,Actr和Bctr則分別表示預(yù)測(cè)框和真實(shí)框的中心點(diǎn)坐標(biāo),p(·)是計(jì)算歐氏距離,c為A、B最小包圍框的對(duì)角線長(zhǎng)度,a·v表示長(zhǎng)度比的懲罰項(xiàng),a為一個(gè)正數(shù),v則是用來(lái)測(cè)量長(zhǎng)寬比的一致性的參數(shù);公式(2)中,wgt和hgt分別表示真實(shí)框的寬和高,w和h則分別代表預(yù)測(cè)框的寬和高。若真實(shí)框和預(yù)測(cè)框的寬高相似,那么懲罰項(xiàng)v為0,由此可見(jiàn),懲罰項(xiàng)的目的就是控制預(yù)測(cè)框的寬高盡可能地與真實(shí)框接近。
分類損失函數(shù)采取中心損失函數(shù)Center-Loss與交叉熵?fù)p失函數(shù)相結(jié)合的方法。中心損失函數(shù)可以解決類內(nèi)間距問(wèn)題,其公式定義如下:
(4)
公式(4)中:cyi表示第yi個(gè)類別的特征中心,xi表示輸入全連接層的特征,m表示最小批量的大小。交叉熵?fù)p失函數(shù)可以表示實(shí)際輸出與期望輸出概率的相近程度,交叉熵?fù)p失函數(shù)表達(dá)式為:
(5)
Lf=Lj+λLc
(6)
L=LCIoU+Lf+φ
(7)
實(shí)驗(yàn)采用Pytorch深度學(xué)習(xí)框架,在Ubuntu18.04操作系統(tǒng),CUDA Tookit10.1版本,32 GB內(nèi)存、顯卡為1080Ti、NVIDIA GeForce驅(qū)動(dòng)程序440.100版本的設(shè)備環(huán)境下訓(xùn)練安全帽級(jí)聯(lián)網(wǎng)絡(luò)模型。
3.1.1 施工人員數(shù)據(jù)集制作
實(shí)驗(yàn)數(shù)據(jù)集是來(lái)自工廠不同位置4個(gè)視頻監(jiān)控?cái)z像頭拍攝的視頻數(shù)據(jù)。通過(guò)采集不同方位、不同角度現(xiàn)場(chǎng)施工人員的圖像以豐富數(shù)據(jù)的多樣性,提高模型的泛化能力,從而更好地檢測(cè)復(fù)雜施工現(xiàn)場(chǎng)施工人員目標(biāo)。制作施工人員數(shù)據(jù)集由以下3個(gè)步驟組成:1)采取每秒一幀的思路對(duì)視頻數(shù)據(jù)進(jìn)行截圖保存;2)人工篩選過(guò)濾一些沒(méi)有目標(biāo)的圖片,共收集8400張圖片;3)依據(jù)Pascal VOC數(shù)據(jù)集的圖像標(biāo)注標(biāo)準(zhǔn),將8400張圖片使用LabelImg工具進(jìn)行標(biāo)注,產(chǎn)生訓(xùn)練所需的xml文件,其中80%為訓(xùn)練集,20%作為測(cè)試集。
3.1.2 安全帽數(shù)據(jù)集制作
安全帽檢測(cè)數(shù)據(jù)集通過(guò)網(wǎng)絡(luò)爬蟲(chóng)技術(shù)爬取滿足工業(yè)現(xiàn)場(chǎng)的安全帽圖片。為了更好地精準(zhǔn)識(shí)別安全帽目標(biāo),本文通過(guò)以下操作制作安全帽數(shù)據(jù)集:1)人工過(guò)濾篩選出不符合分類要求的圖片,共收集4000張圖像;2)依據(jù)Kaggle cat_dog分類數(shù)據(jù)集格式,將4000張圖像進(jìn)一步細(xì)分為yes和no;3)按照8∶2的比例將圖片劃分為訓(xùn)練和測(cè)試數(shù)據(jù)集;4)通過(guò)旋轉(zhuǎn)訓(xùn)練數(shù)據(jù)集的方法以增強(qiáng)數(shù)據(jù),從而更好地識(shí)別安全帽目標(biāo),提高模型的泛化能力。
為了對(duì)比本文提出的深度級(jí)聯(lián)網(wǎng)絡(luò)方法,本實(shí)驗(yàn)分別利用YOLOv3、YOLOv4、SSD檢測(cè)網(wǎng)絡(luò)架構(gòu)實(shí)現(xiàn)了安全帽目標(biāo)檢測(cè)功能,實(shí)驗(yàn)結(jié)果表明,本文提出的深度級(jí)聯(lián)網(wǎng)絡(luò)模型能取得較高的安全帽檢測(cè)準(zhǔn)確度。
3.2.1 安全帽級(jí)聯(lián)網(wǎng)絡(luò)模型訓(xùn)練策略
訓(xùn)練本文提出的級(jí)聯(lián)網(wǎng)絡(luò)模型需要2個(gè)階段:1)檢測(cè)施工人員網(wǎng)絡(luò)模型;2)安全帽分類模型。在訓(xùn)練施工人員檢測(cè)網(wǎng)絡(luò)模型時(shí),動(dòng)量(momentum)設(shè)置為0.9,batch_size為32,初始學(xué)習(xí)率設(shè)置為0.001,而經(jīng)過(guò)10000次迭代后將學(xué)習(xí)率設(shè)置為0.0001,最大迭代次數(shù)為15000;除此之外,訓(xùn)練過(guò)程中不斷對(duì)圖像進(jìn)行隨機(jī)旋轉(zhuǎn)、翻轉(zhuǎn)和尺度變換以擴(kuò)充數(shù)據(jù)集。在訓(xùn)練安全帽目標(biāo)分類網(wǎng)絡(luò)模型時(shí),batch_size為8,學(xué)習(xí)率初始化為0.001,本文采取指數(shù)衰減的方式對(duì)學(xué)習(xí)率進(jìn)行迭代遞減,衰減系數(shù)(decay)設(shè)置為0.95,經(jīng)過(guò)500個(gè)epoch,訓(xùn)練次數(shù)為30000次,最終訓(xùn)練得到安全帽分類網(wǎng)絡(luò)模型。
為了更公平地對(duì)比實(shí)驗(yàn)結(jié)果,在同樣的實(shí)驗(yàn)環(huán)境配置下,本文通過(guò)YOLOv3、YOLOv4、SSD檢測(cè)網(wǎng)絡(luò)架構(gòu)實(shí)現(xiàn)了安全帽檢測(cè)任務(wù),從而定性與定量地與本文提出的級(jí)聯(lián)網(wǎng)絡(luò)模型進(jìn)行對(duì)比。
3.2.2 實(shí)驗(yàn)結(jié)果定性和定量分析
實(shí)驗(yàn)選取不同場(chǎng)景如:正常、背光、遠(yuǎn)景和人員密集,分別使用SSD、YOLOv3、YOLOv4網(wǎng)絡(luò)架構(gòu)和本文提出的級(jí)聯(lián)網(wǎng)絡(luò)模型進(jìn)行安全帽檢測(cè)實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖4所示。
如圖4所示,SSD在正常場(chǎng)景中可以檢測(cè)到安全帽,但在背光、遠(yuǎn)景和人員密集條件下誤檢率極高。而YOLOv3在正常和背光場(chǎng)景中可以正確檢測(cè)安全帽目標(biāo),但是遠(yuǎn)景和人員密集條件下漏檢率依舊很高。相比于YOLOv3,YOLOv4準(zhǔn)確率稍高些,但在圖4的第一幅圖片中,將旁邊的工業(yè)零件誤檢為安全帽。與上述安全帽檢測(cè)網(wǎng)絡(luò)架構(gòu)相比,本文提出的安全帽深度級(jí)聯(lián)網(wǎng)絡(luò)模型有著較高的準(zhǔn)確率,尤其在人員密集復(fù)雜場(chǎng)景中。因此,深度級(jí)聯(lián)網(wǎng)絡(luò)模型具備較好的魯棒性,并能實(shí)現(xiàn)在工業(yè)復(fù)雜場(chǎng)景下安全帽佩戴實(shí)時(shí)檢測(cè)。
圖4 不同模型在不同環(huán)境下的測(cè)試結(jié)果
本文通過(guò)計(jì)算安全帽檢測(cè)識(shí)別的準(zhǔn)確率來(lái)評(píng)價(jià)不同網(wǎng)絡(luò)模型的效果,在安全帽數(shù)據(jù)集分別進(jìn)行實(shí)驗(yàn)評(píng)價(jià),定量分析結(jié)果如表1所示。其中,級(jí)聯(lián)網(wǎng)絡(luò)的準(zhǔn)確率為86.9%,比YOLOv4提高了2個(gè)百分點(diǎn)。
表1 安全帽檢測(cè)結(jié)果
3.2.3 檢測(cè)網(wǎng)絡(luò)模塊選擇實(shí)驗(yàn)
本文還進(jìn)行了另一組對(duì)比實(shí)驗(yàn):深度級(jí)聯(lián)網(wǎng)絡(luò)模型中不同檢測(cè)模塊對(duì)安全帽檢測(cè)效果的影響。其中,實(shí)驗(yàn)通過(guò)定性分析YOLOv3與YOLOv4檢測(cè)模塊以選取合適的檢測(cè)網(wǎng)絡(luò)模塊,實(shí)驗(yàn)結(jié)果如圖5所示。
如圖5所示,在正常、遠(yuǎn)景和背光場(chǎng)景下,深度級(jí)聯(lián)網(wǎng)絡(luò)采用YOLOv3和YOLOv4檢測(cè)模塊都能準(zhǔn)確檢測(cè)到安全帽目標(biāo),但是在人員密集復(fù)雜場(chǎng)景下,使用YOLOv3檢測(cè)模塊比YOLOv4檢測(cè)模塊的漏檢率高。因此,本文提出的安全帽深度級(jí)聯(lián)網(wǎng)絡(luò)模型采用YOLOv4主干模型作為檢測(cè)網(wǎng)絡(luò)模塊。
圖5 深度級(jí)聯(lián)網(wǎng)絡(luò)模型中不同檢測(cè)模塊的實(shí)驗(yàn)結(jié)果
本文針對(duì)工業(yè)場(chǎng)景下的安全帽難以檢測(cè)的問(wèn)題,提出了基于深度級(jí)聯(lián)網(wǎng)絡(luò)模型的安全帽檢測(cè)識(shí)別方法,克服了單一網(wǎng)絡(luò)模型在高分辨率監(jiān)控圖像的局限性。具體來(lái)說(shuō),本文首先采用檢測(cè)網(wǎng)絡(luò)模塊對(duì)施工人員ROI區(qū)域進(jìn)行提取,進(jìn)一步將上一模塊的輸出ROI區(qū)域經(jīng)尺度變換后輸入分類網(wǎng)絡(luò)進(jìn)行判斷以識(shí)別其是否佩戴安全帽,最后映射原始圖像。實(shí)驗(yàn)結(jié)果表明,基于深度級(jí)聯(lián)網(wǎng)絡(luò)安全帽檢測(cè)模型準(zhǔn)確率比YOLOv4網(wǎng)絡(luò)模型提高了2個(gè)百分點(diǎn),同時(shí)也能夠解決工業(yè)復(fù)雜場(chǎng)景下安全帽實(shí)時(shí)檢測(cè)的問(wèn)題,但在人員密集情況下也會(huì)出現(xiàn)漏檢的情況,如何更加有效解決這一問(wèn)題,也是本文下一步研究的重點(diǎn)。