基于YOLOV4-Tiny的墜樓檢測(cè)預(yù)警應(yīng)用

2022-03-23 01:35:36溫桂璋李丹

網(wǎng)絡(luò)安全技術(shù)與應(yīng)用 2022年2期

◆溫桂璋李丹

◆溫桂璋李丹

（四川大學(xué)錦城學(xué)院計(jì)算機(jī)與軟件學(xué)院四川 611371）

隨著社會(huì)的發(fā)展，房地產(chǎn)的興起，高樓的新建，墜樓事件頻頻發(fā)生。不僅對(duì)墜樓人員及其家人的生命、財(cái)產(chǎn)受到威脅，也會(huì)影響到事發(fā)所在地的人員的生命和財(cái)產(chǎn)安全。針對(duì)墜樓事件的發(fā)生，本文提出一種基于YOLOV4-Tiny的墜樓檢測(cè)預(yù)警應(yīng)用，在檢測(cè)到有人靠近窗戶，頂樓邊緣等容易墜樓的地方后對(duì)監(jiān)管人員發(fā)出預(yù)警。YOLOV4-Tiny是基于YOLOV4的輕量化模型，網(wǎng)絡(luò)結(jié)構(gòu)更簡(jiǎn)單，檢測(cè)速度快，適于實(shí)時(shí)且硬件條件有限的目標(biāo)檢測(cè)。本研究在Colab平臺(tái)上，采用VOC2011數(shù)據(jù)集中含有人類的圖像作為數(shù)據(jù)集訓(xùn)練模型，YOLOV4-Tiny的MAP為80%，在嵌入式系統(tǒng)或移動(dòng)設(shè)備上實(shí)時(shí)檢測(cè)有優(yōu)秀的性能。

目標(biāo)檢測(cè)；YOLOV4-Tiny；人類；墜樓檢測(cè)預(yù)警

隨著時(shí)代的發(fā)展，移動(dòng)網(wǎng)絡(luò)和光纖的覆蓋，智能手機(jī)的普及和移動(dòng)支付的應(yīng)用，一方面，網(wǎng)絡(luò)詐騙，網(wǎng)絡(luò)貸款接踵而至。騙子作案方式花樣繁多，為達(dá)目的不擇手段，受害者在身心受到折磨和財(cái)產(chǎn)遭到大量損失后，一部分人選擇從高樓跳下結(jié)束自己生命。另一方面，隨著當(dāng)今社會(huì)飛速發(fā)展，人們所承受的壓力也隨之增大。無(wú)論成年人還是未成年人，長(zhǎng)此以往在這種情況下，很容易超過(guò)自身的能力范圍，一旦超過(guò)了自身的能力范圍后，就很容易走向極端，其中不乏因此而跳樓輕生的人。這些選擇跳樓的人，大多趁無(wú)人時(shí)選擇從樓頂（窗戶）跳下結(jié)束自己的生命。如果有人及時(shí)發(fā)現(xiàn)了并在他身邊說(shuō)說(shuō)話、聊聊天、安慰安慰他，幫助他調(diào)整一下自己的心態(tài)，這當(dāng)中的大部分人會(huì)冷靜下來(lái)不會(huì)選擇輕生。但建筑頂層大多面積大、鮮有人至，單純依靠人力，難以做到實(shí)時(shí)監(jiān)管，及時(shí)規(guī)避風(fēng)險(xiǎn)。

在日常生活中，有不少兒童從高空墜落的悲劇發(fā)生。小孩子年紀(jì)小，好奇心重又難以察覺高度可能帶來(lái)的危險(xiǎn)，在玩耍過(guò)程中存在危險(xiǎn)隱患，家長(zhǎng)在看護(hù)過(guò)程中若有一時(shí)疏忽，極易造成悲劇的發(fā)生。若家里的大人或鄰居及時(shí)發(fā)現(xiàn)，及時(shí)解除危險(xiǎn)，就能避免危險(xiǎn)發(fā)生。但遺憾的是，雖然家用攝像頭快速普及，但不可以發(fā)出墜樓風(fēng)險(xiǎn)預(yù)警，單純依靠家長(zhǎng)長(zhǎng)時(shí)間看監(jiān)控視頻避免墜樓事件發(fā)生有很大的難度。針對(duì)以上問(wèn)題，急需一種可以在家庭中適用的，輕量化的實(shí)時(shí)墜樓檢測(cè)系統(tǒng)，在易墜樓區(qū)域出現(xiàn)人員時(shí)，及時(shí)對(duì)監(jiān)管人員發(fā)出預(yù)警。

近年來(lái)，隨著計(jì)算機(jī)技術(shù)的發(fā)展，深度學(xué)習(xí)模型已經(jīng)逐漸成為了目標(biāo)檢測(cè)領(lǐng)域的一種主流算法。在深度學(xué)習(xí)模型中可大致分為二階段（two-stage）和一階段（one-stage）兩種圖像目標(biāo)檢測(cè)算法。二階段目標(biāo)檢測(cè)算法檢測(cè)和分類分別進(jìn)行，代表模型有：Faster R-CNN[1]，R-FCN[2]，Mask R-CNN[3]。一階段中目標(biāo)檢測(cè)和分類算法同時(shí)進(jìn)行，經(jīng)典模型如：RPN[4]，SSD[5]，YOLO[6]，RetinaNet[7]。在通常情況下，二階段目標(biāo)檢測(cè)算法在精度更勝一籌，但一階段目標(biāo)檢測(cè)算法的速度更快。綜合來(lái)看，一階段目標(biāo)檢測(cè)對(duì)硬件的要求更低，更適用于對(duì)監(jiān)控設(shè)備進(jìn)行實(shí)時(shí)檢測(cè)。

1 YOLO系列

2016年Joseph Redmon等人提出YOLO系列的初代算法YOLOV1[6]并在CVPR上發(fā)表。在該文章中，YOLOV1 backbone受GoogleNet影響，將輸入的圖像分割成7*7個(gè)格子，其中每個(gè)格子輸出2個(gè)bounding box（每個(gè)bounding box包括檢測(cè)框的中心位置坐標(biāo)，預(yù)測(cè)的置信度、寬度、高度5個(gè)參數(shù)），預(yù)測(cè)出20個(gè)物體可能屬于的類別信息，最終輸出大小不變、維度為30的張量。基于這種方式，YOLO會(huì)在輸出結(jié)果中體現(xiàn)出該目標(biāo)所有的信息。YOLO算法的出現(xiàn)使得目標(biāo)檢測(cè)在檢測(cè)準(zhǔn)確率變化不大的情況下檢測(cè)速度大量提升，且通用性強(qiáng)。此后在YOLOV1的基礎(chǔ)上不斷改進(jìn)完善算法，YOLOV2比YOLOV1預(yù)測(cè)更準(zhǔn)確，速度更快，識(shí)別對(duì)象更多，基于YOLOV2構(gòu)架的YOLO9000[8]甚至能檢測(cè)9000種不同的對(duì)象。

YOLOV3[9]在之前算法的基礎(chǔ)上通過(guò)改變模型結(jié)構(gòu)的大小提高速度與精度，并將網(wǎng)絡(luò)結(jié)構(gòu)分成了輸入端、主干網(wǎng)絡(luò)、neck、prediction四個(gè)部分。2020年發(fā)布的YOLOV4的整體架構(gòu)和YOLOV3是相同的，只是使用了新的算法對(duì)輸入端、主干網(wǎng)絡(luò)、neck、prediction的具體組成都進(jìn)行了改進(jìn)，如：在輸入端增加Mosacio數(shù)據(jù)增強(qiáng)，將主干網(wǎng)絡(luò)的結(jié)構(gòu)改為CSPDarknet53再結(jié)合SPP模塊和Dropblock，以及后面的SPP模塊、PAN模塊等，讓目標(biāo)檢測(cè)的速度更快。YOLOV4[10]相對(duì)YOLOV3來(lái)說(shuō)對(duì)硬件的要求更低，更適合單GPU的訓(xùn)練目標(biāo)檢測(cè)模型。但還不足以在計(jì)算能力和內(nèi)存有限的移動(dòng)設(shè)備和嵌入式設(shè)備上面使用。YOLOV4-Tiny是在YOLOV4精簡(jiǎn)后的輕量化模型，參數(shù)只有原來(lái)的十分之一，結(jié)構(gòu)更加簡(jiǎn)單，檢測(cè)速度更快，更適于實(shí)時(shí)且硬件條件有限的目標(biāo)檢測(cè)。

1.1 YOLOV4-Tiny

YOLOV4-Tiny（網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示）是將YOLOV4輕量化后的版本，YOLOV4共有6000萬(wàn)左右的參數(shù)，YOLOV4-Tiny只有600萬(wàn)左右的參數(shù)，僅為原來(lái)的十分之一。雖然精度有一些下降，但已經(jīng)滿足了實(shí)際需要，并提高了完成目標(biāo)檢測(cè)的速度，對(duì)硬件要求更低，更加適合在硬件條件苛刻的情況下進(jìn)行實(shí)時(shí)目標(biāo)檢測(cè)，極大地提高了將目標(biāo)檢測(cè)方法部署在嵌入式系統(tǒng)或移動(dòng)設(shè)備上并達(dá)到實(shí)時(shí)檢測(cè)的可行性。

圖1 YOLOV4-Tiny網(wǎng)絡(luò)結(jié)構(gòu)

（1）主干網(wǎng)絡(luò)

使用CSPDarknet53-Tiny作為主干網(wǎng)絡(luò)，整個(gè)主干網(wǎng)絡(luò)共38層。在使用了2個(gè)卷積塊對(duì)輸入圖像進(jìn)行下采樣后，使用了3個(gè)殘差單元，為了更進(jìn)一步提高檢測(cè)速度，將YOLOV4的主干網(wǎng)絡(luò)中的Mish激活函數(shù)改為L(zhǎng)eaky激活函數(shù)。其中的主干部分進(jìn)行殘差塊的堆疊，另一部分跨階段層次連接到FPN結(jié)構(gòu)后將它們合并。CSPnet的作者認(rèn)為這種做法可以在保證準(zhǔn)確率的情況下，解決網(wǎng)絡(luò)優(yōu)化過(guò)程中的梯度信息重復(fù)所導(dǎo)致的推理成本過(guò)高的問(wèn)題。與復(fù)塊模塊相比，CSP塊模塊可以提高卷積網(wǎng)絡(luò)的學(xué)習(xí)能力。雖然這使計(jì)算量增加了，但它在輕量化的情況下也保證了準(zhǔn)確率，降低了內(nèi)存成本。

（2）特征金字塔

在特征融合部分，YOLOV4-Tiny方法與YOLOv4方法中使用的空間金字塔池和路徑聚合網(wǎng)絡(luò)用于特征融合的方法不同。YOLOV4-Tiny使用了特征金字塔網(wǎng)絡(luò)來(lái)提取13×13和26×26兩種尺度的特征圖，以提高目標(biāo)檢測(cè)速度。以至于YOLOv4最終輸出3個(gè)YOLO Head，YOLOV4-Tiny最終輸出2個(gè)YOLO Head。

（3）Mosaic數(shù)據(jù)增強(qiáng)

Mosaic數(shù)據(jù)增強(qiáng)是從2019年底提出的CutMix[11]數(shù)據(jù)增強(qiáng)，為了提高GPU利用率，利用了兩張圖片進(jìn)行拼接中受到了啟發(fā)，為了更進(jìn)一步在提高算法性能，增大GPU的利用率，Mosaic數(shù)據(jù)增強(qiáng)在此基礎(chǔ)上，多采用了2張圖片進(jìn)行拼接，批量標(biāo)準(zhǔn)化地從每個(gè)層4個(gè)圖像中計(jì)算激活統(tǒng)計(jì)信息，大量減少了對(duì)大型小批量產(chǎn)品的需求，豐富了數(shù)據(jù)集，減少了對(duì)GPU的要求，縮短了數(shù)據(jù)處理的時(shí)間。

2 實(shí)驗(yàn)結(jié)果及分析

2.1 數(shù)據(jù)集

從擁有20個(gè)分類的VOC2011數(shù)據(jù)集中提取出現(xiàn)人類的7419張圖片作為數(shù)據(jù)集，從中劃分出6677張圖片（大約90%）作為訓(xùn)練集，742張圖片作為測(cè)試集（大約10%）。在劃分?jǐn)?shù)據(jù)集時(shí)需要將VOC2011中xml格式的標(biāo)簽改為YOLO適用的txt格式。隨機(jī)縮放、隨機(jī)裁剪、隨機(jī)排布等數(shù)據(jù)預(yù)處理方式，在主干網(wǎng)絡(luò)中會(huì)利用Mosaic數(shù)據(jù)增強(qiáng)自動(dòng)進(jìn)行。

2.2 模型訓(xùn)練

在Google Colab云端深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練平臺(tái)上，使用型號(hào)為Tesla T4的GPU對(duì)YOLOV4-Tiny模型進(jìn)行訓(xùn)練和測(cè)試。在實(shí)驗(yàn)中YOLOV4-Tiny迭代了9000次，從圖像（圖2）中可以看出YOLOV4-Tiny在訓(xùn)練1800輪后損失值的變化趨近于穩(wěn)定，在訓(xùn)練3600輪后map值的變化趨近于平穩(wěn)。

圖2 YOLOV4-Tiny的損失圖像和MAP

2.3 實(shí)驗(yàn)結(jié)果及分析

從訓(xùn)練結(jié)果（圖2）可以看出，YOLOV4-Tiny的MAP為80%，把訓(xùn)練好的模型在Google Colab云端深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練平臺(tái)上，用型號(hào)為Tesla T4的GPU，測(cè)試發(fā)現(xiàn)（圖4）YOLOV4-Tiny的平均幀數(shù)為50.6，畫面流暢，實(shí)時(shí)目標(biāo)檢測(cè)迅速。在視野清晰，光線良好的情況下（圖3），置信度可以達(dá)到0.86以上。

圖3 YOLOV4-Tiny的檢測(cè)結(jié)果

圖4 YOLOV4-Tiny的fps

3 墜樓檢測(cè)預(yù)警系統(tǒng)

根據(jù)使用地點(diǎn)及監(jiān)管人員不同，將墜樓檢測(cè)預(yù)警系統(tǒng)分為兩類。墜樓檢測(cè)預(yù)警系統(tǒng)圖5（a）在室內(nèi)環(huán)境中易發(fā)生墜樓事件的區(qū)域的監(jiān)控設(shè)備上部署一個(gè)檢測(cè)系統(tǒng)?？紤]到在室內(nèi)環(huán)境下發(fā)生墜樓事件的情況更加突然，需及時(shí)解除危險(xiǎn)，故在監(jiān)控系統(tǒng)下易墜樓區(qū)域有人出現(xiàn)，立即啟動(dòng)示警系統(tǒng)，對(duì)監(jiān)管人員做出示警。墜樓檢測(cè)預(yù)警系統(tǒng)圖5（b）是部署在室外環(huán)境下的，如樓頂、露臺(tái)等地方，通常面積較大，活動(dòng)空間較多，也會(huì)有人去看風(fēng)景、晾衣服等。若這些區(qū)域一出現(xiàn)人立即示警就會(huì)造成大量的公共資源浪費(fèi)，所以墜樓檢測(cè)預(yù)警系統(tǒng)b在墜樓檢測(cè)預(yù)警系統(tǒng)a的基礎(chǔ)上增加了一個(gè)預(yù)警系統(tǒng)，在有人進(jìn)入室外高層空間后，首先觸發(fā)預(yù)警系統(tǒng)，提示該區(qū)域有人進(jìn)入。檢測(cè)系統(tǒng)繼續(xù)進(jìn)行檢測(cè)任務(wù)，如果該進(jìn)入人員靠近室外易發(fā)生墜樓事件區(qū)域，則立即觸發(fā)示警系統(tǒng)，向該區(qū)域監(jiān)管人員發(fā)出示警。

圖5 墜樓檢測(cè)預(yù)警系統(tǒng)

4 結(jié)語(yǔ)

本文提出了一種墜樓檢測(cè)預(yù)警系統(tǒng)，按使用場(chǎng)景的不同具體分為兩個(gè)結(jié)構(gòu)，但檢測(cè)系統(tǒng)是一樣的，只是針對(duì)應(yīng)用場(chǎng)景的不同在其中一個(gè)結(jié)構(gòu)中增加了預(yù)警系統(tǒng)。在室內(nèi)外易發(fā)生墜樓事件的區(qū)域安置攝像頭并部署該檢測(cè)系統(tǒng)，能幫助監(jiān)管人員發(fā)現(xiàn)墜樓隱患，從而避免悲劇的發(fā)生。YOLOV4-Tiny模型的使用將目標(biāo)檢測(cè)方法部署在嵌入式系統(tǒng)或移動(dòng)設(shè)備上，MAP也達(dá)到了80%，能更加快速、準(zhǔn)確地在嵌入式系統(tǒng)或移動(dòng)設(shè)備上實(shí)時(shí)檢測(cè)，能在一定程度上減輕家長(zhǎng)和公共區(qū)域監(jiān)管人員的負(fù)擔(dān)，但這還不足以進(jìn)行準(zhǔn)確的墜樓風(fēng)險(xiǎn)預(yù)警，誤報(bào)概率較大，需要大量的人工干預(yù)。接下來(lái)可以從增加出現(xiàn)在墜樓風(fēng)險(xiǎn)區(qū)域的人員身體姿態(tài)識(shí)別、年齡識(shí)別、實(shí)時(shí)監(jiān)控時(shí)間等方面，為墜樓風(fēng)險(xiǎn)劃分等級(jí)，進(jìn)行更進(jìn)一步的分級(jí)預(yù)警研究，從而在一定程度上降低誤報(bào)的概率，提高預(yù)警的準(zhǔn)確性。

[1]Shaoqing Ren，Kaiming He，Ross Girshick，and Jian Sun. Faster R-CNN：Towards real-time object detection with region proposal networks. In Advances in Neural Information Processing Systems（NIPS），pages 91-99，2015. 2.

[2]Jifeng Dai，Yi Li，Kaiming He，and Jian Sun. R-FCN： Object detection via region-based fully convolutional networks. In Advances in Neural Information Processing Systems（NIPS）， pages 379-387，2016. 2.

[3]Kaiming He，Georgia Gkioxari，Piotr Dollar，and Ross Gir-′shick. Mask R-CNN. In Proceedings of the IEEE International Conference on Computer Vision（ICCV），pages 2961-2969，2017.2.

[4]Shaoqing Ren，Kaiming He，Ross Girshick，and Jian Sun. Faster R-CNN：Towards real-time object detection with region proposal networks. In Advances in Neural Information Processing Systems（NIPS），pages 91-99，2015. 2.

[5]Wei Liu，Dragomir Anguelov，Dumitru Erhan，Christian Szegedy，Scott Reed，Cheng-Yang Fu，and Alexander C Berg. SSD：Single shot multibox detector. In Proceedings of the European Conference on Computer Vision（ECCV），pages 21-37，2016. 2，11.