基于深度學(xué)習(xí)的目標(biāo)檢測綜述

2020-05-18 02:44:46白夢璇李帥陽齊立萍

科技視界 2020年9期

白夢璇李帥陽齊立萍

摘要

近年來，深度學(xué)習(xí)的快速發(fā)展，推動(dòng)了目標(biāo)檢測算法的應(yīng)用，深入學(xué)習(xí)方法在目標(biāo)檢測領(lǐng)域得到了有效的驗(yàn)證。首先，本文介紹了各種有效的目標(biāo)檢測算法。其次，分析了目標(biāo)檢測在現(xiàn)實(shí)各個(gè)領(lǐng)域中的廣泛應(yīng)用。最后，提出了目標(biāo)檢測未來的發(fā)展方向。

關(guān)鍵詞

深度學(xué)習(xí);目標(biāo)檢測;應(yīng)用領(lǐng)域

中圖分類號(hào)： TP391.3;TP18 ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼： A

DOI：10.19694/j.cnki.issn2095-2457.2020.09.059

0 引言

隨著計(jì)算機(jī)網(wǎng)絡(luò)的快速發(fā)展和人工智能時(shí)代的到來，深度學(xué)習(xí)[1]技術(shù)突飛猛進(jìn)，同時(shí)也促進(jìn)目標(biāo)檢測技術(shù)的發(fā)展。目標(biāo)檢測是一種與計(jì)算機(jī)視覺和圖像處理相關(guān)的計(jì)算機(jī)技術(shù)，它主要是對(duì)數(shù)字圖像或者視頻中的多個(gè)目標(biāo)進(jìn)行識(shí)別和定位。目標(biāo)檢測在安全、軍事、交通、醫(yī)療等領(lǐng)域均得到了廣泛的應(yīng)用。

1 目標(biāo)檢測技術(shù)

傳統(tǒng)的目標(biāo)檢測可分為三個(gè)步驟：首先選擇圖像中的候選區(qū)域，之后提取Haar、HOG等視覺特征，最后基于支持向量機(jī)模型、RF模型等常用分類器進(jìn)行分類。

隨著深度學(xué)習(xí)技術(shù)的發(fā)展，可以自動(dòng)學(xué)習(xí)圖像特征，而不需要手工設(shè)計(jì)特征，同時(shí)可以使物體檢測效率極大提高，因此基于深度學(xué)習(xí)的目標(biāo)檢測技術(shù)得到廣泛應(yīng)用。

1.1 基于區(qū)域提取的兩階段目標(biāo)檢測

（1）R-CNN[2]：R-CNN是第一個(gè)基于CNN的、在數(shù)據(jù)集PASCAL VOC上應(yīng)用的物體檢測方法。R-CNN由四個(gè)步驟構(gòu)成。第一步，生成多個(gè)與類別無關(guān)的區(qū)域;第二步，從每個(gè)區(qū)域中學(xué)習(xí)提取CNN特征;第三步，基于支持向量機(jī)算法，對(duì)圖像中的多個(gè)目標(biāo)對(duì)象進(jìn)行分類;最后一步用邊界框回歸模型，得到更為精確的物體位置。R-CNN的缺點(diǎn)在于候選區(qū)域由傳統(tǒng)算法生成，速度受到限制;且需要對(duì)每個(gè)候選區(qū)域單獨(dú)進(jìn)行卷積，性能差。

（2）SPP-Net[3]：SPP-Net在卷積層和全連接層之間，加入了空間金字塔池化結(jié)構(gòu)，對(duì)整個(gè)輸入圖像進(jìn)行一次性特征提取，生成固定尺度的圖像。其優(yōu)點(diǎn)在于有效降低了R-CNN“人為”對(duì)輸入圖像進(jìn)行裁剪、縮放等操作時(shí)，造成的裁剪不全、形狀扭曲等問題。同時(shí)，相對(duì)于R-CNN的單獨(dú)卷積，SPP-NET共享卷積層，大大提高了圖像處理速度，降低了計(jì)算成本。

（3）FAST R-CNN[4]：與SPP-Net結(jié)構(gòu)類似，首先，從整個(gè)輸入圖像中提取一次特征卷積;然后通過ROI池化層，獲得固定的特征，一次性發(fā)送給全連接層，實(shí)現(xiàn)分類，將分類損失和邊框回歸損失合二為一;最后輸出分類和邊框坐標(biāo)。其優(yōu)點(diǎn)在于，與將每一個(gè)區(qū)域輸入卷積層的R-CNN相比，節(jié)省了大量時(shí)間和磁盤存儲(chǔ)空間。另外，使用ROI池化層從不同大小的區(qū)域中提取固定大小的特征圖，避免了對(duì)區(qū)域進(jìn)行扭曲，同時(shí)保留了區(qū)域特征的空間信息。

（4）FASTER R-CNN[5]：FAST R-CNN采用選擇性搜索ROI，運(yùn)算量大，運(yùn)算時(shí)間慢，難以進(jìn)行加速。而FASTER R-C NN用一個(gè)新的RPN代替FAST R-CNN，對(duì)廣泛尺度和縱橫比的區(qū)域有效地進(jìn)行預(yù)測，先判斷候選框是否符合目標(biāo)特征，之后經(jīng)過多任務(wù)損失函數(shù)進(jìn)行目標(biāo)分類。在這個(gè)過程中，RPN與檢測網(wǎng)絡(luò)共享卷積層的特征，加快了區(qū)域的生成速度。

1.2 基于回歸的單階段目標(biāo)檢測

（1）OverFeat[6]：OverFeat首先通過多尺度滑動(dòng)窗口技術(shù)提取待測圖像。之后，在分類模型中，通過單尺度訓(xùn)練，多尺度多視覺測試，預(yù)測出每個(gè)圖像的類別。最后，使用多尺度邊界框回歸模型，定位出目標(biāo)位置。OverFeat的優(yōu)點(diǎn)在于，利用多尺度滑動(dòng)窗口技術(shù)，解決了目標(biāo)尺寸不一致、形狀復(fù)雜等問題;同時(shí)，分類、定位、檢測三大任務(wù)共享特征提取層。

（2）YOLO[7]：YOLO將一幅圖像分成若干個(gè)網(wǎng)格，每個(gè)單元格會(huì)預(yù)測邊界框以及邊界框的置信度。所謂置信度包含兩個(gè)方面，一是該框中目標(biāo)存在的可能性大小，二是該邊界框的位置準(zhǔn)確度。完成邊界框的預(yù)測之后，再對(duì)邊界框中的物體進(jìn)行分類。YOLO速度較快，且具有誤判率低，可對(duì)抽象物體的特征進(jìn)行預(yù)測的優(yōu)點(diǎn)。YOLO的缺點(diǎn)在于，檢測精度低、易產(chǎn)生定位錯(cuò)誤，且不能對(duì)密集的小物體進(jìn)行檢測。

（3）YOLOv 2[8]：YOLOv 2是YOLO的第二個(gè)版本，它采用一種新的分類主干Darknet-19，在每個(gè)卷積層中添加了BN層進(jìn)行預(yù)處理，獲得更好的收斂效果。YOLOv 2將ImageNet數(shù)據(jù)集上的預(yù)訓(xùn)練分為224×224和448×448兩階段，緩解分辨率切換造成的影響。另外，引入先驗(yàn)框，采用對(duì)訓(xùn)練集的邊框做聚類，找到合適的先驗(yàn)框尺度，來增加候選框的預(yù)測。總之，YOLOv 2處理圖像時(shí)，解決了YOLO難以對(duì)小目標(biāo)進(jìn)行檢測的問題，操作簡單、精度高，速度更快，識(shí)別對(duì)象也更多。

（4）YOLOv 3[9]：YOLOv 3是YOLOv 2的改進(jìn)。首先，YOL Ov 3使用邏輯回歸對(duì)置信度進(jìn)行預(yù)測。其次，利用三種不同尺寸的特征映射來預(yù)測邊界框。另外，YOLOv 3提出了一個(gè)更穩(wěn)定的特征提取器Darknet-53。但是，YOLOv 3在大型物體的目標(biāo)檢測中不占優(yōu)勢。

2 應(yīng)用領(lǐng)域

2.1 安全領(lǐng)域

目標(biāo)檢測在安全領(lǐng)域的應(yīng)用主要體現(xiàn)在人臉識(shí)別、行人檢測等方面。人臉識(shí)別，主要是識(shí)別在不同狀態(tài)、光照以及分辨率的情況下，人臉特征的具體變化。行人檢測主要是檢測不同自然條件下的行人。

2.2 軍事領(lǐng)域

目標(biāo)檢測在軍事領(lǐng)域方面的應(yīng)用則主要體現(xiàn)在遙感目標(biāo)的探測。遙感目標(biāo)檢測主要是對(duì)遙感圖像以及視頻中的物體進(jìn)行檢測。但是由于遙感信號(hào)的輸入量龐大，而目標(biāo)物體小，導(dǎo)致目標(biāo)檢測很難進(jìn)行。同時(shí)，背景龐大且伴隨噪音的影響，經(jīng)常會(huì)有虛假檢測誤導(dǎo)。

2.3 運(yùn)輸領(lǐng)域

目標(biāo)檢測在汽車領(lǐng)域的應(yīng)用主要體現(xiàn)在車牌識(shí)別和交通標(biāo)志識(shí)別等方面。車牌識(shí)別主要是對(duì)違法違規(guī)行為進(jìn)行信息跟蹤，獲取邊緣信息，幫助司法部門工作的開展;交通標(biāo)志識(shí)別主要是在司機(jī)駕駛過程中為其提供時(shí)間和空間信息，保證安全駕駛。

3 結(jié)論

隨著計(jì)算機(jī)技術(shù)的發(fā)展，基于深度學(xué)習(xí)的目標(biāo)檢測技術(shù)得到了迅速的發(fā)展。極大提高了目標(biāo)檢測的精確度，雖然目標(biāo)檢測在安全、軍事、運(yùn)輸?shù)阮I(lǐng)域的應(yīng)用越來越廣泛，但是檢測領(lǐng)域在其他生活領(lǐng)域的分支，仍然有很大的發(fā)展空間。

參考文獻(xiàn)

[1]LeCun Y.， Bengio Y.，Hinton G.（2015） Deep learning.Nature 521：436，444.

[2]Girshick R B，Donahue J，Darrell T，et al.Rich Feature Hierarchies for Accurate Object Detection and Semantic egmentation[J].computer vision and pattern recognition，2014： 580-587.

[3]He Kaiming，Zhang Xiangyu，Ren Shaoqing，Sun Jian. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition.[J].IEEE transactions on pattern analysis and machine intelligence，2015，37（9）.

[4]GIRSHICK R.FAST R-CNN[C]//Fast R-CNN.Proceedings of the IEEE International Conference on Computer Vision.2015：1440-1448.

[5]REN S，HE K，GIRSHICK R，et al.Faster R-CNN：Towards real-time object detection with region proposal networks[C]//Advances in Neural Information Pro cessing Systems.2015：91-99.

[6]OverFeat：integrated recognition，localization and detection using convolutional networks.Sermanet P，Eigen D，Zhang Gang，et al.http：//arxiv.org/abs/1312.6229. 2013.

[7]REDMON J，DIVVALA S，GIRSHICK R，et al.You only look once：unified，real-time object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2016：779-788.

[8]REDMON J，F(xiàn)ARHADI A.YOLO9000：better，faster，stronger[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2017：72 63-7271.

[9]Redmon J，F(xiàn)arhadi A.YOLOv3：An Incremental Improvement[J].arXiv：Computer Vision and Pattern Recognition， 2018.