◆溫桂璋 李丹
基于YOLOV4-Tiny的墜樓檢測(cè)預(yù)警應(yīng)用
◆溫桂璋 李丹
(四川大學(xué)錦城學(xué)院計(jì)算機(jī)與軟件學(xué)院 四川 611371)
隨著社會(huì)的發(fā)展,房地產(chǎn)的興起,高樓的新建,墜樓事件頻頻發(fā)生。不僅對(duì)墜樓人員及其家人的生命、財(cái)產(chǎn)受到威脅,也會(huì)影響到事發(fā)所在地的人員的生命和財(cái)產(chǎn)安全。針對(duì)墜樓事件的發(fā)生,本文提出一種基于YOLOV4-Tiny的墜樓檢測(cè)預(yù)警應(yīng)用,在檢測(cè)到有人靠近窗戶,頂樓邊緣等容易墜樓的地方后對(duì)監(jiān)管人員發(fā)出預(yù)警。YOLOV4-Tiny是基于YOLOV4的輕量化模型,網(wǎng)絡(luò)結(jié)構(gòu)更簡(jiǎn)單,檢測(cè)速度快,適于實(shí)時(shí)且硬件條件有限的目標(biāo)檢測(cè)。本研究在Colab平臺(tái)上,采用VOC2011數(shù)據(jù)集中含有人類的圖像作為數(shù)據(jù)集訓(xùn)練模型,YOLOV4-Tiny的MAP為80%,在嵌入式系統(tǒng)或移動(dòng)設(shè)備上實(shí)時(shí)檢測(cè)有優(yōu)秀的性能。
目標(biāo)檢測(cè);YOLOV4-Tiny;人類;墜樓檢測(cè)預(yù)警
隨著時(shí)代的發(fā)展,移動(dòng)網(wǎng)絡(luò)和光纖的覆蓋,智能手機(jī)的普及和移動(dòng)支付的應(yīng)用,一方面,網(wǎng)絡(luò)詐騙,網(wǎng)絡(luò)貸款接踵而至。騙子作案方式花樣繁多,為達(dá)目的不擇手段,受害者在身心受到折磨和財(cái)產(chǎn)遭到大量損失后,一部分人選擇從高樓跳下結(jié)束自己生命。另一方面,隨著當(dāng)今社會(huì)飛速發(fā)展,人們所承受的壓力也隨之增大。無(wú)論成年人還是未成年人,長(zhǎng)此以往在這種情況下,很容易超過(guò)自身的能力范圍,一旦超過(guò)了自身的能力范圍后,就很容易走向極端,其中不乏因此而跳樓輕生的人。這些選擇跳樓的人,大多趁無(wú)人時(shí)選擇從樓頂(窗戶)跳下結(jié)束自己的生命。如果有人及時(shí)發(fā)現(xiàn)了并在他身邊說(shuō)說(shuō)話、聊聊天、安慰安慰他,幫助他調(diào)整一下自己的心態(tài),這當(dāng)中的大部分人會(huì)冷靜下來(lái)不會(huì)選擇輕生。但建筑頂層大多面積大、鮮有人至,單純依靠人力,難以做到實(shí)時(shí)監(jiān)管,及時(shí)規(guī)避風(fēng)險(xiǎn)。
在日常生活中,有不少兒童從高空墜落的悲劇發(fā)生。小孩子年紀(jì)小,好奇心重又難以察覺高度可能帶來(lái)的危險(xiǎn),在玩耍過(guò)程中存在危險(xiǎn)隱患,家長(zhǎng)在看護(hù)過(guò)程中若有一時(shí)疏忽,極易造成悲劇的發(fā)生。若家里的大人或鄰居及時(shí)發(fā)現(xiàn),及時(shí)解除危險(xiǎn),就能避免危險(xiǎn)發(fā)生。但遺憾的是,雖然家用攝像頭快速普及,但不可以發(fā)出墜樓風(fēng)險(xiǎn)預(yù)警,單純依靠家長(zhǎng)長(zhǎng)時(shí)間看監(jiān)控視頻避免墜樓事件發(fā)生有很大的難度。針對(duì)以上問(wèn)題,急需一種可以在家庭中適用的,輕量化的實(shí)時(shí)墜樓檢測(cè)系統(tǒng),在易墜樓區(qū)域出現(xiàn)人員時(shí),及時(shí)對(duì)監(jiān)管人員發(fā)出預(yù)警。
近年來(lái),隨著計(jì)算機(jī)技術(shù)的發(fā)展,深度學(xué)習(xí)模型已經(jīng)逐漸成為了目標(biāo)檢測(cè)領(lǐng)域的一種主流算法。在深度學(xué)習(xí)模型中可大致分為二階段(two-stage)和一階段(one-stage)兩種圖像目標(biāo)檢測(cè)算法。二階段目標(biāo)檢測(cè)算法檢測(cè)和分類分別進(jìn)行,代表模型有:Faster R-CNN[1],R-FCN[2],Mask R-CNN[3]。一階段中目標(biāo)檢測(cè)和分類算法同時(shí)進(jìn)行,經(jīng)典模型如:RPN[4],SSD[5],YOLO[6],RetinaNet[7]。在通常情況下,二階段目標(biāo)檢測(cè)算法在精度更勝一籌,但一階段目標(biāo)檢測(cè)算法的速度更快。綜合來(lái)看,一階段目標(biāo)檢測(cè)對(duì)硬件的要求更低,更適用于對(duì)監(jiān)控設(shè)備進(jìn)行實(shí)時(shí)檢測(cè)。
2016年Joseph Redmon等人提出YOLO系列的初代算法YOLOV1[6]并在CVPR上發(fā)表。在該文章中,YOLOV1 backbone受GoogleNet影響,將輸入的圖像分割成7*7個(gè)格子,其中每個(gè)格子輸出2個(gè)bounding box(每個(gè)bounding box包括檢測(cè)框的中心位置坐標(biāo),預(yù)測(cè)的置信度、寬度、高度5個(gè)參數(shù)),預(yù)測(cè)出20個(gè)物體可能屬于的類別信息,最終輸出大小不變、維度為30的張量。基于這種方式,YOLO會(huì)在輸出結(jié)果中體現(xiàn)出該目標(biāo)所有的信息。YOLO算法的出現(xiàn)使得目標(biāo)檢測(cè)在檢測(cè)準(zhǔn)確率變化不大的情況下檢測(cè)速度大量提升,且通用性強(qiáng)。此后在YOLOV1的基礎(chǔ)上不斷改進(jìn)完善算法,YOLOV2比YOLOV1預(yù)測(cè)更準(zhǔn)確,速度更快,識(shí)別對(duì)象更多,基于YOLOV2構(gòu)架的YOLO9000[8]甚至能檢測(cè)9000種不同的對(duì)象。
YOLOV3[9]在之前算法的基礎(chǔ)上通過(guò)改變模型結(jié)構(gòu)的大小提高速度與精度,并將網(wǎng)絡(luò)結(jié)構(gòu)分成了輸入端、主干網(wǎng)絡(luò)、neck、prediction四個(gè)部分。2020年發(fā)布的YOLOV4的整體架構(gòu)和YOLOV3是相同的,只是使用了新的算法對(duì)輸入端、主干網(wǎng)絡(luò)、neck、prediction的具體組成都進(jìn)行了改進(jìn),如:在輸入端增加Mosacio數(shù)據(jù)增強(qiáng),將主干網(wǎng)絡(luò)的結(jié)構(gòu)改為CSPDarknet53再結(jié)合SPP模塊和Dropblock,以及后面的SPP模塊、PAN模塊等,讓目標(biāo)檢測(cè)的速度更快。YOLOV4[10]相對(duì)YOLOV3來(lái)說(shuō)對(duì)硬件的要求更低,更適合單GPU的訓(xùn)練目標(biāo)檢測(cè)模型。但還不足以在計(jì)算能力和內(nèi)存有限的移動(dòng)設(shè)備和嵌入式設(shè)備上面使用。YOLOV4-Tiny是在YOLOV4精簡(jiǎn)后的輕量化模型,參數(shù)只有原來(lái)的十分之一,結(jié)構(gòu)更加簡(jiǎn)單,檢測(cè)速度更快,更適于實(shí)時(shí)且硬件條件有限的目標(biāo)檢測(cè)。
YOLOV4-Tiny(網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示)是將YOLOV4輕量化后的版本,YOLOV4共有6000萬(wàn)左右的參數(shù),YOLOV4-Tiny只有600萬(wàn)左右的參數(shù),僅為原來(lái)的十分之一。雖然精度有一些下降,但已經(jīng)滿足了實(shí)際需要,并提高了完成目標(biāo)檢測(cè)的速度,對(duì)硬件要求更低,更加適合在硬件條件苛刻的情況下進(jìn)行實(shí)時(shí)目標(biāo)檢測(cè),極大地提高了將目標(biāo)檢測(cè)方法部署在嵌入式系統(tǒng)或移動(dòng)設(shè)備上并達(dá)到實(shí)時(shí)檢測(cè)的可行性。
圖1 YOLOV4-Tiny網(wǎng)絡(luò)結(jié)構(gòu)
(1)主干網(wǎng)絡(luò)
使用CSPDarknet53-Tiny作為主干網(wǎng)絡(luò),整個(gè)主干網(wǎng)絡(luò)共38層。在使用了2個(gè)卷積塊對(duì)輸入圖像進(jìn)行下采樣后,使用了3個(gè)殘差單元,為了更進(jìn)一步提高檢測(cè)速度,將YOLOV4的主干網(wǎng)絡(luò)中的Mish激活函數(shù)改為L(zhǎng)eaky激活函數(shù)。其中的主干部分進(jìn)行殘差塊的堆疊,另一部分跨階段層次連接到FPN結(jié)構(gòu)后將它們合并。CSPnet的作者認(rèn)為這種做法可以在保證準(zhǔn)確率的情況下,解決網(wǎng)絡(luò)優(yōu)化過(guò)程中的梯度信息重復(fù)所導(dǎo)致的推理成本過(guò)高的問(wèn)題。與復(fù)塊模塊相比,CSP塊模塊可以提高卷積網(wǎng)絡(luò)的學(xué)習(xí)能力。雖然這使計(jì)算量增加了,但它在輕量化的情況下也保證了準(zhǔn)確率,降低了內(nèi)存成本。
(2)特征金字塔
在特征融合部分,YOLOV4-Tiny方法與YOLOv4方法中使用的空間金字塔池和路徑聚合網(wǎng)絡(luò)用于特征融合的方法不同。YOLOV4-Tiny使用了特征金字塔網(wǎng)絡(luò)來(lái)提取13×13和26×26兩種尺度的特征圖,以提高目標(biāo)檢測(cè)速度。以至于YOLOv4最終輸出3個(gè)YOLO Head,YOLOV4-Tiny最終輸出2個(gè)YOLO Head。
(3)Mosaic數(shù)據(jù)增強(qiáng)
Mosaic數(shù)據(jù)增強(qiáng)是從2019年底提出的CutMix[11]數(shù)據(jù)增強(qiáng),為了提高GPU利用率,利用了兩張圖片進(jìn)行拼接中受到了啟發(fā),為了更進(jìn)一步在提高算法性能,增大GPU的利用率,Mosaic數(shù)據(jù)增強(qiáng)在此基礎(chǔ)上,多采用了2張圖片進(jìn)行拼接,批量標(biāo)準(zhǔn)化地從每個(gè)層4個(gè)圖像中計(jì)算激活統(tǒng)計(jì)信息,大量減少了對(duì)大型小批量產(chǎn)品的需求,豐富了數(shù)據(jù)集,減少了對(duì)GPU的要求,縮短了數(shù)據(jù)處理的時(shí)間。
從擁有20個(gè)分類的VOC2011數(shù)據(jù)集中提取出現(xiàn)人類的7419張圖片作為數(shù)據(jù)集,從中劃分出6677張圖片(大約90%)作為訓(xùn)練集,742張圖片作為測(cè)試集(大約10%)。在劃分?jǐn)?shù)據(jù)集時(shí)需要將VOC2011中xml格式的標(biāo)簽改為YOLO適用的txt格式。隨機(jī)縮放、隨機(jī)裁剪、隨機(jī)排布等數(shù)據(jù)預(yù)處理方式,在主干網(wǎng)絡(luò)中會(huì)利用Mosaic數(shù)據(jù)增強(qiáng)自動(dòng)進(jìn)行。
在Google Colab云端深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練平臺(tái)上,使用型號(hào)為Tesla T4的GPU對(duì)YOLOV4-Tiny模型進(jìn)行訓(xùn)練和測(cè)試。在實(shí)驗(yàn)中YOLOV4-Tiny迭代了9000次,從圖像(圖2)中可以看出YOLOV4-Tiny在訓(xùn)練1800輪后損失值的變化趨近于穩(wěn)定,在訓(xùn)練3600輪后map值的變化趨近于平穩(wěn)。
圖2 YOLOV4-Tiny的損失圖像和MAP
從訓(xùn)練結(jié)果(圖2)可以看出,YOLOV4-Tiny的MAP為80%,把訓(xùn)練好的模型在Google Colab云端深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練平臺(tái)上,用型號(hào)為Tesla T4的GPU,測(cè)試發(fā)現(xiàn)(圖4)YOLOV4-Tiny的平均幀數(shù)為50.6,畫面流暢,實(shí)時(shí)目標(biāo)檢測(cè)迅速。在視野清晰,光線良好的情況下(圖3),置信度可以達(dá)到0.86以上。
圖3 YOLOV4-Tiny的檢測(cè)結(jié)果
圖4 YOLOV4-Tiny的fps
根據(jù)使用地點(diǎn)及監(jiān)管人員不同,將墜樓檢測(cè)預(yù)警系統(tǒng)分為兩類。墜樓檢測(cè)預(yù)警系統(tǒng)圖5(a)在室內(nèi)環(huán)境中易發(fā)生墜樓事件的區(qū)域的監(jiān)控設(shè)備上部署一個(gè)檢測(cè)系統(tǒng)??紤]到在室內(nèi)環(huán)境下發(fā)生墜樓事件的情況更加突然,需及時(shí)解除危險(xiǎn),故在監(jiān)控系統(tǒng)下易墜樓區(qū)域有人出現(xiàn),立即啟動(dòng)示警系統(tǒng),對(duì)監(jiān)管人員做出示警。墜樓檢測(cè)預(yù)警系統(tǒng)圖5(b)是部署在室外環(huán)境下的,如樓頂、露臺(tái)等地方,通常面積較大,活動(dòng)空間較多,也會(huì)有人去看風(fēng)景、晾衣服等。若這些區(qū)域一出現(xiàn)人立即示警就會(huì)造成大量的公共資源浪費(fèi),所以墜樓檢測(cè)預(yù)警系統(tǒng)b在墜樓檢測(cè)預(yù)警系統(tǒng)a的基礎(chǔ)上增加了一個(gè)預(yù)警系統(tǒng),在有人進(jìn)入室外高層空間后,首先觸發(fā)預(yù)警系統(tǒng),提示該區(qū)域有人進(jìn)入。檢測(cè)系統(tǒng)繼續(xù)進(jìn)行檢測(cè)任務(wù),如果該進(jìn)入人員靠近室外易發(fā)生墜樓事件區(qū)域,則立即觸發(fā)示警系統(tǒng),向該區(qū)域監(jiān)管人員發(fā)出示警。
圖5 墜樓檢測(cè)預(yù)警系統(tǒng)
本文提出了一種墜樓檢測(cè)預(yù)警系統(tǒng),按使用場(chǎng)景的不同具體分為兩個(gè)結(jié)構(gòu),但檢測(cè)系統(tǒng)是一樣的,只是針對(duì)應(yīng)用場(chǎng)景的不同在其中一個(gè)結(jié)構(gòu)中增加了預(yù)警系統(tǒng)。在室內(nèi)外易發(fā)生墜樓事件的區(qū)域安置攝像頭并部署該檢測(cè)系統(tǒng),能幫助監(jiān)管人員發(fā)現(xiàn)墜樓隱患,從而避免悲劇的發(fā)生。YOLOV4-Tiny模型的使用將目標(biāo)檢測(cè)方法部署在嵌入式系統(tǒng)或移動(dòng)設(shè)備上,MAP也達(dá)到了80%,能更加快速、準(zhǔn)確地在嵌入式系統(tǒng)或移動(dòng)設(shè)備上實(shí)時(shí)檢測(cè),能在一定程度上減輕家長(zhǎng)和公共區(qū)域監(jiān)管人員的負(fù)擔(dān),但這還不足以進(jìn)行準(zhǔn)確的墜樓風(fēng)險(xiǎn)預(yù)警,誤報(bào)概率較大,需要大量的人工干預(yù)。接下來(lái)可以從增加出現(xiàn)在墜樓風(fēng)險(xiǎn)區(qū)域的人員身體姿態(tài)識(shí)別、年齡識(shí)別、實(shí)時(shí)監(jiān)控時(shí)間等方面,為墜樓風(fēng)險(xiǎn)劃分等級(jí),進(jìn)行更進(jìn)一步的分級(jí)預(yù)警研究,從而在一定程度上降低誤報(bào)的概率,提高預(yù)警的準(zhǔn)確性。
[1]Shaoqing Ren,Kaiming He,Ross Girshick,and Jian Sun. Faster R-CNN:Towards real-time object detection with region proposal networks. In Advances in Neural Information Processing Systems(NIPS),pages 91-99,2015. 2.
[2]Jifeng Dai,Yi Li,Kaiming He,and Jian Sun. R-FCN: Object detection via region-based fully convolutional networks. In Advances in Neural Information Processing Systems(NIPS), pages 379-387,2016. 2.
[3]Kaiming He,Georgia Gkioxari,Piotr Dollar,and Ross Gir-′shick. Mask R-CNN. In Proceedings of the IEEE International Conference on Computer Vision(ICCV),pages 2961-2969,2017.2.
[4]Shaoqing Ren,Kaiming He,Ross Girshick,and Jian Sun. Faster R-CNN:Towards real-time object detection with region proposal networks. In Advances in Neural Information Processing Systems(NIPS),pages 91-99,2015. 2.
[5]Wei Liu,Dragomir Anguelov,Dumitru Erhan,Christian Szegedy,Scott Reed,Cheng-Yang Fu,and Alexander C Berg. SSD:Single shot multibox detector. In Proceedings of the European Conference on Computer Vision(ECCV),pages 21-37,2016. 2,11.
網(wǎng)絡(luò)安全技術(shù)與應(yīng)用2022年2期