鄧開發(fā) 鄒振宇
摘要:安全帽能夠有效減輕事故損害,監(jiān)督工人的安全帽佩戴顯得十分必要。針對工人安全帽佩戴檢測,文章提出一種基于深度學(xué)習(xí)的安全帽佩戴檢測方法,用于施工現(xiàn)場攝像頭監(jiān)控的圖像和視頻目標(biāo)檢測。試驗結(jié)果表明,該方法能夠較好地實(shí)現(xiàn)安全帽佩戴的圖像和視頻檢測。
關(guān)鍵詞:深度學(xué)習(xí);安全帽佩戴檢測;圖像檢測;視頻檢測
中圖分類號:TP391.4 文獻(xiàn)標(biāo)識碼:A 文章編號:1006-8228(2020)07-12-05
0引言
建筑施工作業(yè)過程中存在著較多安全隱患,使得事故發(fā)生率居高不下。施工活動實(shí)踐表明,作業(yè)前對建筑工人的行為能力和安全裝備進(jìn)行檢查,能夠有效減輕事故損害或減少事故發(fā)生。因此,監(jiān)督工人的活動和安全設(shè)備正確佩戴顯得尤為重要的。然而,目前傳統(tǒng)活動監(jiān)測和安全裝備佩戴檢查很大程度上依賴于現(xiàn)場經(jīng)驗豐富的管理人員進(jìn)行的觀察和檢查,普遍存在自動化水平較低、工作量較大、檢查項目有限的現(xiàn)象,容易出現(xiàn)誤檢、漏檢等問題。
隨著科技的發(fā)達(dá),計算機(jī)視覺、人工智能等技術(shù)飛速發(fā)展。人工智能這一術(shù)語在1956年首次被提出,到今天已經(jīng)獲得了60年的長足的發(fā)展,尤其是近十年人工智能在中國的發(fā)展也突飛猛進(jìn)。而計算機(jī)視覺是人工智能的一個熱門的發(fā)展方向。在我國,圖像識別技術(shù)正在逐漸同各行各業(yè)相互融合,包括金融、醫(yī)療、教育、家居等各行業(yè)領(lǐng)域當(dāng)中均能夠看見它的“身影”,已可實(shí)現(xiàn)三維人體姿態(tài)重建、跌倒監(jiān)測、駕駛員疲勞監(jiān)測、行為識別等功能。
基于上述原因,本文提出一種基于深度學(xué)習(xí)技術(shù)來檢測安全帽佩戴的方法。使用Keras深度學(xué)習(xí)框架搭建Faster RCNN模型,收集施工工人佩戴安全帽和未佩戴安全帽圖像,構(gòu)建對模型訓(xùn)練及測試的數(shù)據(jù)集,并對算法的測試速度、準(zhǔn)確性進(jìn)行評估。在取得良好測試結(jié)果的前提下,進(jìn)一步設(shè)計將圖像檢測結(jié)果用于視頻檢測安全帽佩戴。選取一段在施工現(xiàn)場上攝像頭拍攝的視頻,檢測在實(shí)際場景中應(yīng)用的效果。通過此技術(shù)可以來代替?zhèn)鹘y(tǒng)的人為監(jiān)督,有利于構(gòu)建智能化、自動化的施工安全裝備佩戴檢測,既節(jié)省了勞動力成本,又提高了施工現(xiàn)場的安全性,更是為“智慧工地”的發(fā)展建設(shè)奠定了基礎(chǔ)。
1目標(biāo)檢測關(guān)鍵技術(shù)
1.1卷積神經(jīng)網(wǎng)絡(luò)介紹
卷積神經(jīng)網(wǎng)絡(luò)(onvolutional neural network,CNN)(LeCun,1989),是深度神經(jīng)網(wǎng)絡(luò)中的一種,專門用來處理具有時間序列數(shù)據(jù)和圖像數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)。隨著卷積神經(jīng)網(wǎng)絡(luò)在各大競賽中取得優(yōu)異的成績,成為研究機(jī)構(gòu)競相追捧的研究對象,模型得到不斷發(fā)展、改進(jìn),然而如圖1所示,其網(wǎng)絡(luò)結(jié)構(gòu)的基本構(gòu)件幾乎不變,卷積層和池化層仍是卷積神經(jīng)網(wǎng)絡(luò)的核心所在。
卷積層實(shí)際上是卷積核對圖像進(jìn)行卷積運(yùn)算。卷積核是一個和學(xué)習(xí)特征高度相關(guān)的模板,在提取圖像特征時,從圖像或特征映射圖的第一個像素開始依次向右向下移動計算,將模板的中心與每一個像素點(diǎn)對其覆蓋,對覆蓋區(qū)域內(nèi)的每個像素值與模板的對應(yīng)權(quán)值加權(quán)求和。通常還需要把加權(quán)求和的結(jié)果送入一個非線性函數(shù),將其函數(shù)值作為最終計算出下一層特征圖的元素值。
池化層又叫下采樣層、降采樣層。在降采樣層中,通常采取的計算方式是求平均值、求最大值或求最小值,因此池化層沒有需要學(xué)習(xí)的權(quán)值。與卷積層類似,池化層運(yùn)算也可以看作是模板運(yùn)算,從數(shù)據(jù)源的左上角第一個像素開始依次向右向下移動,對覆蓋區(qū)域內(nèi)與模板大小同樣的像素區(qū)域進(jìn)行池化運(yùn)算。池化層的降維操作不僅可以壓縮原圖像尺寸、提升計算效率,還可以保證圖像特征旋轉(zhuǎn)、平移不變性。
1.2Faster RCNN介紹
Faster RCNN是一種基于卷積神經(jīng)網(wǎng)絡(luò)的物體檢測框架,它是繼RCNN和Fast RCNN之后,為了減少檢測網(wǎng)絡(luò)運(yùn)行時間、提升檢測進(jìn)度的改進(jìn)版本。
1.2.1RCNN與Fast RCNN簡介
RCNN(Regions with CNN features)的首次提出在基于深度學(xué)習(xí)的物體檢測研究中具有里程碑式的歷史意義,其首先采用非深度學(xué)習(xí)方法提出候選區(qū)域(region proposal),從候選區(qū)域利用深度卷積網(wǎng)絡(luò)提取特征,再利用支持向量機(jī)等線性分類器,將區(qū)域分為物體和背景,而不再是對整張圖像進(jìn)行特征提取和分類。然而,RCNN的缺點(diǎn)也比較明顯,在計算機(jī)對所有候選區(qū)域進(jìn)行特征提取時,會有重復(fù)計算,繼而產(chǎn)生嚴(yán)重的速度瓶頸,使得花費(fèi)的時間非常多。
RCNN的進(jìn)階版Fast RCNN則在RCNN的基礎(chǔ)上采納了空間金字塔池化方法(Spatial Pyramid Poohng,SPP),對RCNN作了改進(jìn)。不像RCNN把每個候選區(qū)域給深度網(wǎng)絡(luò)提特征,而是整張圖提一次特征,再把候選區(qū)域映射到第五個卷積層上,只需要計算一次特征,使得性能進(jìn)一步提高。
1.2.2Faster RCNN簡介
經(jīng)過RCNN和Fast RCNN的積淀,F(xiàn)aster RCNN的誕生進(jìn)一步完善了這一流程,在Fast RCNN的基礎(chǔ)上,加入一個提取邊緣的神經(jīng)網(wǎng)絡(luò),名叫區(qū)域建議網(wǎng)絡(luò)(Region Proposal Network(RPN)。首先通過卷積層和池化層提取整個圖像的基礎(chǔ)信息,形成特征圖(feature map),再通過區(qū)域建議網(wǎng)絡(luò)(RPN),提取多個興趣區(qū)域的位置信息和對應(yīng)區(qū)域是否存在目標(biāo)的置信度值,在ROI pooing層將特征映射為相同尺寸的特征向量輸入全連接層,隨后利用窗口得分對每一類物體進(jìn)行非極大值抑制去除重疊區(qū)域建議框,最終得到每個分類回歸修正后得到分?jǐn)?shù)最高的窗口。簡而言之,F(xiàn)aster RCNN的特點(diǎn)在于找候選區(qū)域的工作也交給神經(jīng)網(wǎng)絡(luò)來做,代替了之前RCNN和Fast RCNN區(qū)域建議由費(fèi)時的選擇性搜索(selective search)來實(shí)現(xiàn),從而使得區(qū)域建議階段不再那么耗時,檢測速度大幅度提高。
基于深度學(xué)習(xí)目標(biāo)檢測從RCNN、Fast RCNN、Faster RCNN一路走來,流程變得越來越精簡,速度越來越快,精度也越來越高。可以說基于候選區(qū)域的RCNN系列目標(biāo)檢測方法是當(dāng)前目標(biāo)檢測技術(shù)領(lǐng)域最主要的一個分支。
1.3視頻目標(biāo)檢測
視頻目標(biāo)檢測和圖像目標(biāo)檢測都屬于計算機(jī)視覺領(lǐng)域的研究范疇。然而視頻和圖像這兩類數(shù)據(jù)存在著明顯的類型差異,視頻中每幀圖片的內(nèi)容變化不大,利用卷積來提取特征是相當(dāng)耗時的計算。假使每幀視頻都利用卷積來提取特征再進(jìn)行目標(biāo),檢測會導(dǎo)致極大的計算冗余,十分影響計算效率,令人難以忍受。
深度特征流算法(Deep Feature Flow)的出現(xiàn)為視頻目標(biāo)檢測研究領(lǐng)域提供了一種結(jié)合光流來實(shí)現(xiàn)特征圖的幀間傳播和復(fù)用的思路。該算法的核心思想是只在稀疏的關(guān)鍵幀(key frame)上運(yùn)行計算量龐大的卷積子網(wǎng)絡(luò)來提取特征圖,而在非關(guān)鍵幀(currentframe)上,通過光流傳播的方式將關(guān)鍵幀的特征圖傳播到非關(guān)鍵幀上。再利用現(xiàn)有的目標(biāo)檢測算法,在特征圖上進(jìn)行目標(biāo)檢測,得出檢測結(jié)果。由于光流傳播的方式傳播非關(guān)鍵幀的特征圖,能夠大大減少計算量,加快視頻目標(biāo)檢測的速度。
2試驗
本試驗環(huán)境配置在Windows 764位操作系統(tǒng)、210GHz CPU、GeForce GTX 1060GPU,6G顯存并安裝GPU并行數(shù)據(jù)計算開發(fā)環(huán)境CUDA和CuDnn、8G內(nèi)存平臺上,使用基于Keras學(xué)習(xí)框架進(jìn)行相關(guān)代碼和參數(shù)訓(xùn)練,通過Python語言編譯Faster RCNN網(wǎng)絡(luò)框架并且分別選擇vgg 16、resnet 50、inception resnet v2網(wǎng)絡(luò)提取目標(biāo)特征。
2.1數(shù)據(jù)集
本試驗訓(xùn)練測試的數(shù)據(jù)采用安全帽佩戴檢測比賽數(shù)據(jù)集GDUT-HWD,共3174張圖片,為了提供豐富充足的樣本來源,又通過截取多個建設(shè)項目施工現(xiàn)場視頻監(jiān)控圖像和拍攝的照片,共采集8814張。兩個數(shù)據(jù)集打亂混合相加共11988張圖像。再根據(jù)本試驗需求,使用圖像注釋工具Labeling對數(shù)據(jù)集中的圖片進(jìn)行人工標(biāo)注,注釋包括佩戴安全帽工人、未佩戴安全帽工人。將標(biāo)注結(jié)果保存為XML文件。作為安全帽佩戴的應(yīng)用型研究,在實(shí)際場景中的應(yīng)用效果非常重要的,因此截取了多個施工現(xiàn)場的攝像頭監(jiān)控視頻來進(jìn)行視頻安全帽佩戴檢測。
2.2評估指標(biāo)
為了評價本試驗對建筑工人安全帽佩戴識別檢測效果的可靠性,使用準(zhǔn)確率(accuracy)、召回率(recall)和錯誤率(error)三個指標(biāo)來衡量。
網(wǎng)絡(luò)的目標(biāo)預(yù)測情況可以分為以下三種:正確正例(True Poitives,TP):被正確識別的正樣本;錯誤正例(False Poitives,F(xiàn)P):被錯誤識別的負(fù)樣本;正確負(fù)例(False Negative,F(xiàn)N):被錯誤識別的正樣本。具體表示見.表1。
2.3檢測效果及分析
將收集的11988張圖像按照9:l的比例分為訓(xùn)練集合測試集,其中10788張作為訓(xùn)練集,其余的1200張作為測試集。訓(xùn)練時,為避免梯度下降過快,先將模型迭代次數(shù)進(jìn)行測試,并繪制訓(xùn)練模型迭代損失值曲線,如圖2所示,在增加迭代次數(shù)后,明顯能夠降低模型的損失率,在迭代次數(shù)達(dá)到10000次趨于穩(wěn)定。
完成訓(xùn)練后,將1200張圖像放置于測試集文件夾中,調(diào)用訓(xùn)練好的模型進(jìn)行測試檢測。根據(jù)統(tǒng)計出的TP、FP及FN參數(shù),按照式(1)~(3)進(jìn)行計算,評估工人安全帽佩戴檢測的效果。由表2可見,擁有更深網(wǎng)絡(luò)的resnet 50網(wǎng)絡(luò)和inception resnet v2網(wǎng)絡(luò)相比vgg 16網(wǎng)絡(luò)效果更佳。
如圖3顯示的部分測試結(jié)果圖像,F(xiàn)aster RCNN網(wǎng)絡(luò)用于檢測安全帽佩戴圖像檢測效果不錯。為檢驗在實(shí)際場景中的應(yīng)用效果,采用基于深度特征流(DeepFeature Flow)對施工現(xiàn)場的攝像頭監(jiān)控截取的視頻進(jìn)行安全帽佩戴檢測,其中特征網(wǎng)絡(luò)選擇之前圖像檢測中效果略佳的inception resnet v2網(wǎng)絡(luò),任務(wù)網(wǎng)絡(luò)依舊選擇Faster RCNN網(wǎng)絡(luò),流網(wǎng)絡(luò)選擇FlowNet Simple網(wǎng)絡(luò)。
從視頻的第一幀開始遍歷,直到所有的視頻幀都遍歷完,得到所有的關(guān)鍵幀。將這些關(guān)鍵幀送入特征網(wǎng)絡(luò)得到特征圖,再將特征圖送入目標(biāo)檢測任務(wù)網(wǎng)絡(luò)進(jìn)行安全帽佩戴檢測,最終輸出檢測結(jié)果。本試驗截取了幾個關(guān)鍵幀檢測效果在圖4中進(jìn)行展示。
3結(jié)束語
針對工人安全帽佩戴檢測,本文提供了一種基于Faster RCNN的安全帽佩戴檢測方法,對佩戴安全帽和未佩戴安全帽的圖像數(shù)據(jù)集進(jìn)行檢測和識別,再將檢測效果好的模型結(jié)合Deep Feature Flow算法用于施工現(xiàn)場攝像頭監(jiān)控的視頻目標(biāo)檢測。經(jīng)過本試驗和對深度學(xué)習(xí)的研究,該方法能夠較好地實(shí)現(xiàn)安全帽佩戴的圖像和視頻檢測效果。然而在本試驗中,圖像中存在目標(biāo)被遮擋和光線昏暗的現(xiàn)象,使檢測結(jié)果產(chǎn)生誤差,并且視頻中運(yùn)動模糊和光線變化多樣性也對檢測結(jié)果產(chǎn)生影響。因此,解決上述問題是下一步研究的重點(diǎn)。