白夢璇 李帥陽 齊立萍
摘 要
近年來,深度學(xué)習(xí)的快速發(fā)展,推動(dòng)了目標(biāo)檢測算法的應(yīng)用,深入學(xué)習(xí)方法在目標(biāo)檢測領(lǐng)域得到了有效的驗(yàn)證。首先,本文介紹了各種有效的目標(biāo)檢測算法。其次,分析了目標(biāo)檢測在現(xiàn)實(shí)各個(gè)領(lǐng)域中的廣泛應(yīng)用。最后,提出了目標(biāo)檢測未來的發(fā)展方向。
關(guān)鍵詞
深度學(xué)習(xí);目標(biāo)檢測;應(yīng)用領(lǐng)域
中圖分類號(hào): TP391.3;TP18 ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.19694/j.cnki.issn2095-2457.2020.09.059
0 引言
隨著計(jì)算機(jī)網(wǎng)絡(luò)的快速發(fā)展和人工智能時(shí)代的到來,深度學(xué)習(xí)[1]技術(shù)突飛猛進(jìn),同時(shí)也促進(jìn)目標(biāo)檢測技術(shù)的發(fā)展。目標(biāo)檢測是一種與計(jì)算機(jī)視覺和圖像處理相關(guān)的計(jì)算機(jī)技術(shù),它主要是對(duì)數(shù)字圖像或者視頻中的多個(gè)目標(biāo)進(jìn)行識(shí)別和定位。目標(biāo)檢測在安全、軍事、交通、醫(yī)療等領(lǐng)域均得到了廣泛的應(yīng)用。
1 目標(biāo)檢測技術(shù)
傳統(tǒng)的目標(biāo)檢測可分為三個(gè)步驟:首先選擇圖像中的候選區(qū)域,之后提取Haar、HOG等視覺特征,最后基于支持向量機(jī)模型、RF模型等常用分類器進(jìn)行分類。
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,可以自動(dòng)學(xué)習(xí)圖像特征,而不需要手工設(shè)計(jì)特征,同時(shí)可以使物體檢測效率極大提高,因此基于深度學(xué)習(xí)的目標(biāo)檢測技術(shù)得到廣泛應(yīng)用。
1.1 基于區(qū)域提取的兩階段目標(biāo)檢測
(1)R-CNN[2]:R-CNN是第一個(gè)基于CNN的、在數(shù)據(jù)集PASCAL VOC上應(yīng)用的物體檢測方法。R-CNN由四個(gè)步驟構(gòu)成。第一步,生成多個(gè)與類別無關(guān)的區(qū)域;第二步,從每個(gè)區(qū)域中學(xué)習(xí)提取CNN特征;第三步,基于支持向量機(jī)算法,對(duì)圖像中的多個(gè)目標(biāo)對(duì)象進(jìn)行分類;最后一步用邊界框回歸模型,得到更為精確的物體位置。R-CNN的缺點(diǎn)在于候選區(qū)域由傳統(tǒng)算法生成,速度受到限制;且需要對(duì)每個(gè)候選區(qū)域單獨(dú)進(jìn)行卷積,性能差。
(2)SPP-Net[3]:SPP-Net在卷積層和全連接層之間,加入了空間金字塔池化結(jié)構(gòu),對(duì)整個(gè)輸入圖像進(jìn)行一次性特征提取,生成固定尺度的圖像。其優(yōu)點(diǎn)在于有效降低了R-CNN“人為”對(duì)輸入圖像進(jìn)行裁剪、縮放等操作時(shí),造成的裁剪不全、形狀扭曲等問題。同時(shí),相對(duì)于R-CNN的單獨(dú)卷積,SPP-NET共享卷積層,大大提高了圖像處理速度,降低了計(jì)算成本。
(3)FAST R-CNN[4]:與SPP-Net結(jié)構(gòu)類似,首先,從整個(gè)輸入圖像中提取一次特征卷積;然后通過ROI池化層,獲得固定的特征,一次性發(fā)送給全連接層,實(shí)現(xiàn)分類,將分類損失和邊框回歸損失合二為一;最后輸出分類和邊框坐標(biāo)。其優(yōu)點(diǎn)在于,與將每一個(gè)區(qū)域輸入卷積層的R-CNN相比,節(jié)省了大量時(shí)間和磁盤存儲(chǔ)空間。另外,使用ROI池化層從不同大小的區(qū)域中提取固定大小的特征圖,避免了對(duì)區(qū)域進(jìn)行扭曲,同時(shí)保留了區(qū)域特征的空間信息。
(4)FASTER R-CNN[5]:FAST R-CNN采用選擇性搜索ROI,運(yùn)算量大,運(yùn)算時(shí)間慢,難以進(jìn)行加速。而FASTER R-C NN用一個(gè)新的RPN代替FAST R-CNN,對(duì)廣泛尺度和縱橫比的區(qū)域有效地進(jìn)行預(yù)測,先判斷候選框是否符合目標(biāo)特征,之后經(jīng)過多任務(wù)損失函數(shù)進(jìn)行目標(biāo)分類。在這個(gè)過程中,RPN與檢測網(wǎng)絡(luò)共享卷積層的特征,加快了區(qū)域的生成速度。
1.2 基于回歸的單階段目標(biāo)檢測
(1)OverFeat[6]:OverFeat首先通過多尺度滑動(dòng)窗口技術(shù)提取待測圖像。之后,在分類模型中,通過單尺度訓(xùn)練,多尺度多視覺測試,預(yù)測出每個(gè)圖像的類別。最后,使用多尺度邊界框回歸模型,定位出目標(biāo)位置。OverFeat的優(yōu)點(diǎn)在于,利用多尺度滑動(dòng)窗口技術(shù),解決了目標(biāo)尺寸不一致、形狀復(fù)雜等問題;同時(shí),分類、定位、檢測三大任務(wù)共享特征提取層。
(2)YOLO[7]:YOLO將一幅圖像分成若干個(gè)網(wǎng)格,每個(gè)單元格會(huì)預(yù)測邊界框以及邊界框的置信度。所謂置信度包含兩個(gè)方面,一是該框中目標(biāo)存在的可能性大小,二是該邊界框的位置準(zhǔn)確度。完成邊界框的預(yù)測之后,再對(duì)邊界框中的物體進(jìn)行分類。YOLO速度較快,且具有誤判率低,可對(duì)抽象物體的特征進(jìn)行預(yù)測的優(yōu)點(diǎn)。YOLO的缺點(diǎn)在于,檢測精度低、易產(chǎn)生定位錯(cuò)誤,且不能對(duì)密集的小物體進(jìn)行檢測。
(3)YOLOv 2[8]:YOLOv 2是YOLO的第二個(gè)版本,它采用一種新的分類主干Darknet-19,在每個(gè)卷積層中添加了BN層進(jìn)行預(yù)處理,獲得更好的收斂效果。YOLOv 2將ImageNet數(shù)據(jù)集上的預(yù)訓(xùn)練分為224×224和448×448兩階段,緩解分辨率切換造成的影響。另外,引入先驗(yàn)框,采用對(duì)訓(xùn)練集的邊框做聚類,找到合適的先驗(yàn)框尺度,來增加候選框的預(yù)測。總之,YOLOv 2處理圖像時(shí),解決了YOLO難以對(duì)小目標(biāo)進(jìn)行檢測的問題,操作簡單、精度高,速度更快,識(shí)別對(duì)象也更多。
(4)YOLOv 3[9]:YOLOv 3是YOLOv 2的改進(jìn)。首先,YOL Ov 3使用邏輯回歸對(duì)置信度進(jìn)行預(yù)測。其次,利用三種不同尺寸的特征映射來預(yù)測邊界框。另外,YOLOv 3提出了一個(gè)更穩(wěn)定的特征提取器Darknet-53。但是,YOLOv 3在大型物體的目標(biāo)檢測中不占優(yōu)勢。
2 應(yīng)用領(lǐng)域
2.1 安全領(lǐng)域
目標(biāo)檢測在安全領(lǐng)域的應(yīng)用主要體現(xiàn)在人臉識(shí)別、行人檢測等方面。人臉識(shí)別,主要是識(shí)別在不同狀態(tài)、光照以及分辨率的情況下,人臉特征的具體變化。行人檢測主要是檢測不同自然條件下的行人。
2.2 軍事領(lǐng)域
目標(biāo)檢測在軍事領(lǐng)域方面的應(yīng)用則主要體現(xiàn)在遙感目標(biāo)的探測。遙感目標(biāo)檢測主要是對(duì)遙感圖像以及視頻中的物體進(jìn)行檢測。但是由于遙感信號(hào)的輸入量龐大,而目標(biāo)物體小,導(dǎo)致目標(biāo)檢測很難進(jìn)行。同時(shí),背景龐大且伴隨噪音的影響,經(jīng)常會(huì)有虛假檢測誤導(dǎo)。
2.3 運(yùn)輸領(lǐng)域
目標(biāo)檢測在汽車領(lǐng)域的應(yīng)用主要體現(xiàn)在車牌識(shí)別和交通標(biāo)志識(shí)別等方面。車牌識(shí)別主要是對(duì)違法違規(guī)行為進(jìn)行信息跟蹤,獲取邊緣信息,幫助司法部門工作的開展;交通標(biāo)志識(shí)別主要是在司機(jī)駕駛過程中為其提供時(shí)間和空間信息,保證安全駕駛。
3 結(jié)論
隨著計(jì)算機(jī)技術(shù)的發(fā)展,基于深度學(xué)習(xí)的目標(biāo)檢測技術(shù)得到了迅速的發(fā)展。極大提高了目標(biāo)檢測的精確度,雖然目標(biāo)檢測在安全、軍事、運(yùn)輸?shù)阮I(lǐng)域的應(yīng)用越來越廣泛,但是檢測領(lǐng)域在其他生活領(lǐng)域的分支,仍然有很大的發(fā)展空間。
參考文獻(xiàn)
[1]LeCun Y., Bengio Y.,Hinton G.(2015) Deep learning.Nature 521:436,444.
[2]Girshick R B,Donahue J,Darrell T,et al.Rich Feature Hierarchies for Accurate Object Detection and Semantic egmentation[J].computer vision and pattern recognition,2014: 580-587.
[3]He Kaiming,Zhang Xiangyu,Ren Shaoqing,Sun Jian. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition.[J].IEEE transactions on pattern analysis and machine intelligence,2015,37(9).
[4]GIRSHICK R.FAST R-CNN[C]//Fast R-CNN.Proceedings of the IEEE International Conference on Computer Vision.2015:1440-1448.
[5]REN S,HE K,GIRSHICK R,et al.Faster R-CNN:Towards real-time object detection with region proposal networks[C]//Advances in Neural Information Pro cessing Systems.2015:91-99.
[6]OverFeat:integrated recognition,localization and detection using convolutional networks.Sermanet P,Eigen D,Zhang Gang,et al.http://arxiv.org/abs/1312.6229. 2013.
[7]REDMON J,DIVVALA S,GIRSHICK R,et al.You only look once:unified,real-time object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2016:779-788.
[8]REDMON J,F(xiàn)ARHADI A.YOLO9000:better,faster,stronger[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2017:72 63-7271.
[9]Redmon J,F(xiàn)arhadi A.YOLOv3:An Incremental Improvement[J].arXiv:Computer Vision and Pattern Recognition, 2018.