復(fù)雜條件下小目標(biāo)檢測算法研究

2019-07-01 02:35:55彭小飛方志軍

智能計算機(jī)與應(yīng)用 2019年3期

關(guān)鍵詞：淺層

彭小飛方志軍

摘要：非?？毡尘靶∧繕?biāo)檢測是圖像處理最具挑戰(zhàn)的任務(wù)之一。為了解決復(fù)雜條件下的小目標(biāo)檢測準(zhǔn)確率不足的情況，本文提出首先運用超分辨率模型對拍攝模糊圖像進(jìn)行重建，將重建后的清晰圖像進(jìn)行小目標(biāo)檢測。另外，對原始FPN模型進(jìn)行改進(jìn)，利用淺層網(wǎng)絡(luò)豐富的位置信息，僅采用三層特征提取網(wǎng)絡(luò)，即可完成小目標(biāo)全圖搜索檢測。實驗表明，本文方法在清晰圖像直接進(jìn)行重建準(zhǔn)確率達(dá)到81.82%，map值為0.895 1，重建后的再進(jìn)行小目標(biāo)檢測與清晰圖像直接檢測僅有一個未檢測出。

關(guān)鍵詞：小目標(biāo)檢測;超分辨率重建;淺層; 全圖搜索

文章編號： 2095-2163（2019）03-0171-05 中圖分類號： TP391.4 文獻(xiàn)標(biāo)志碼： A

0 引言

隨著視頻監(jiān)控的不斷發(fā)展，使得硬件設(shè)備的性能在迅速提升的同時，監(jiān)控涉及的領(lǐng)域也在拓展與增加。近年來，運用圖像處理的方法對一些復(fù)雜的環(huán)境進(jìn)行有目的監(jiān)控已然成為現(xiàn)代社會保障公眾人身安全的一項有益舉措。例如，機(jī)場開闊區(qū)域?qū)π∧繕?biāo)的檢測識別，遠(yuǎn)距離大范圍監(jiān)控等。

機(jī)場以及學(xué)校區(qū)域，安全管理至關(guān)重要。諸如眾所皆知的是，近年來鳥類影響飛機(jī)起飛的事件就時有發(fā)生。迄今為止，學(xué)界研究中的二維通用目標(biāo)檢測準(zhǔn)確率以及速率均已達(dá)到商用的要求。2013年，RCNN[1]將卷積神經(jīng)網(wǎng)絡(luò)運用到目標(biāo)檢測上，而后又相繼涌現(xiàn)一系列基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測框架。例如，基于區(qū)域候選提議的SPP-Net[2]、Fast-Net[3]、Faster-Net[4]等，此類檢測主要是分為2個步驟，即：區(qū)域候選目標(biāo)檢測和細(xì)化打分分類，但在研發(fā)上卻基本無法達(dá)到最基本的實時效果。后期主要基于特征提取網(wǎng)絡(luò)的端對端目標(biāo)檢測方法，如SSD[5]、YOLOv1[6]、YOLO9000[7]等，此類方法主要就是將檢測和分類融合起來，優(yōu)點是速度較快，但是對小目標(biāo)檢測在效果上卻仍然欠佳。

目前，國內(nèi)外小目標(biāo)檢測研究主要停留在紅外小目標(biāo)檢測[8-10]、雷達(dá)空對地遙感小目標(biāo)檢測[11-12]等。其研發(fā)原理是利用特殊的熱傳感器來分析景物不同物體溫度，將圖像轉(zhuǎn)換為灰度圖像的灰度值，物體在圖像中的灰度值大小與物體溫度有關(guān)?；诖耍t外小目標(biāo)檢測即使用于諸如叢林等可見光很弱的惡劣條件下也能獲得較強(qiáng)的辨別能力。但是現(xiàn)在研究指出，這種檢測方法在通用的視頻監(jiān)控領(lǐng)域中對通用目標(biāo)識別能力很差，只能大致分析出物體所在區(qū)域，并不能準(zhǔn)確判斷出屬于哪類物體。

綜上分析后可知，本文在FPN[13]的基礎(chǔ)上提出利用淺層網(wǎng)絡(luò)特征對復(fù)雜條件下的小目標(biāo)進(jìn)行檢測。這里的復(fù)雜條件可描述為：場景內(nèi)存在模糊圖像，此時先要對模糊圖像進(jìn)行超分辨率重建;背景較復(fù)雜，非海空純背景，有建筑物干擾;基于全圖搜索小目標(biāo)，目標(biāo)很小，絕對像素大約為24*24。

1 算法原理

1.1 超分辨率重建算法

本文采用的超分辨率重建算法是基于SRN[14]模型，其研發(fā)設(shè)計主要源起自編碼器-解碼器思想。相應(yīng)地，編碼器是通過卷積神經(jīng)網(wǎng)絡(luò)對模糊圖像特征進(jìn)行提取并映射到一個矩陣空間，解碼器是編碼器反過程，就是模糊圖像通過尋找映射空間中相似特征塊進(jìn)行重建。但在本次研究中，設(shè)計時在超分辨率模型中加入了多尺度訓(xùn)練模型，這樣一來在使用不同尺度圖像訓(xùn)練模型過程中則可以綜合提取不同尺度模糊圖像特征細(xì)節(jié)，由此將使最終超分辨率效果能有一定提升。并且，還可以通過在不同尺度訓(xùn)練網(wǎng)絡(luò)的環(huán)節(jié)中做到權(quán)重共享，同時大大減少訓(xùn)練時間。另外，本文方法將循環(huán)神經(jīng)網(wǎng)絡(luò)（LSTM）應(yīng)用到超分辨率重建訓(xùn)練過程，這種做法的好處就是在訓(xùn)練過程中即可以利用LSTM的記憶功能，從而不斷優(yōu)化參數(shù)，提升訓(xùn)練效率以及超分辨率重建效果。重建模型如圖1所示。

本文模型總共包含3個尺度，每個尺度以一張模糊圖像和一張上采樣的去模糊圖像作為輸入，并且用ConvLSTM循環(huán)神經(jīng)網(wǎng)絡(luò)來求得時間相關(guān)性和空間相關(guān)性。本文方法為了解決直接使用編碼器帶來的層數(shù)少導(dǎo)致感受野小、層數(shù)多導(dǎo)致空間信息不充分的問題，將殘差塊用于編碼器網(wǎng)絡(luò)，而且又采用跳躍連接就可以極大限度利用不同層的特征，且有利于梯度傳播和模型加速收斂。

此模型可劃分為3個部分，即：編碼器模塊、LSTM模塊、解碼器模塊。設(shè)計上，編碼器由3層卷積塊組成。具體來說，第一層卷積塊包括conv1_1、conv1_2、conv1_3、conv1_4，其中conv1_1輸出feature map大小為32*32，卷積核大小為5*5，采用默認(rèn)卷積步長為1;conv1_2、conv1_3、conv1_4采用的是restnet模塊，輸出feature map大小為32*32，卷積核大小為5*5，采用默認(rèn)卷積步長為1。第二層卷積塊包括conv2_1、conv2_2、conv2_3、conv2_4，其中conv2_1輸出feature map大小為64*64，卷積核大小為5*5，步長為2;conv2_2、conv2_3、conv2_4同理采用的是restnet模塊，輸出feature map大小為64*64，卷積核大小為5*5;第三層卷積塊包括conv3_1、conv3_2、conv3_3、conv3_4，其中conv3_1輸出feature map大小為128*128，卷積核大小為5*5，步長為2;conv3_2、conv3_3、conv3_4同理采用的是restnet模塊，輸出feature map大小為128*128，卷積核大小為5*5。

LSTM模塊采用的是convLSTM，cell尺寸為h/4*w/4，卷積核大小為3*3，feature map大小為128*128。采用convLSTM模塊，不僅具備LSTM能夠得到時序關(guān)系，還能提取空間特征。

解碼器模塊與編碼器模塊對稱，由一次卷積塊和兩層反卷積塊組成，主要用于對編碼模塊數(shù)據(jù)進(jìn)行解析。超分辨率重建設(shè)計流程如圖2所示。

1.2 小目標(biāo)檢測算法

本文研究中，采用了改進(jìn)的FPN特征金字塔網(wǎng)絡(luò)對小目標(biāo)進(jìn)行檢測。經(jīng)過探索討論后可知，淺層網(wǎng)絡(luò)特征對于小目標(biāo)檢測更加有效，而且也將具有更為豐富的位置信息，如果將深層網(wǎng)絡(luò)特征反卷積與淺層特征相融合卻會對小目標(biāo)檢測起到負(fù)面作用。本文方法中，需要輸入整張圖像，這是為了緩解圖像縮放導(dǎo)致的”絕對尺寸”縮小而隨之出現(xiàn)無法檢測的問題。在此基礎(chǔ)上，通過實驗驗證后得知，對于本文單小目標(biāo)進(jìn)行檢測，僅利用3層淺層網(wǎng)絡(luò)對目標(biāo)進(jìn)行特征提取更有效，加入高層網(wǎng)絡(luò)反傳特征進(jìn)行疊加，反而會影響最終的結(jié)果。究其原因則在于本文小目標(biāo)絕對像素大小約為24*24，經(jīng)過第一個Pooling層之后，小目標(biāo)絕對像素大小約為12*12;經(jīng)過第二個Pooling 層之后，小目標(biāo)絕對像素大小約為6*6。研究得到的小目標(biāo)檢測模型即如圖3所示。

本文模型采用Faster-RCNN基本思想，對小目標(biāo)進(jìn)行檢測。輸入圖像為整張圖，如此則可以擴(kuò)大相對像素大小，如YOLO、SSD輸入首先要將圖像變換到小于原始圖像大小，這樣就會進(jìn)一步縮小原始目標(biāo)圖像，不利于小目標(biāo)的特征提取。輸入圖像僅僅經(jīng)過3層的CNN網(wǎng)絡(luò)即可對小目標(biāo)特征進(jìn)行提取，其間采用了ResNet跳躍連接的思想。就設(shè)計整體而言，第一層包括：卷積層Conv1，卷積核大小為5*5，num_output為64，stride為2，采用BactchNorm層和Scale層對卷積層輸出進(jìn)行歸一化處理，ReLu激活，pooling層采用Max pooling，核大小為3*3，步長為2。第二層包括：卷積層res2a_branch1，卷積核大小為1*1，num_output為256，采用BactchNorm層和Scale層對卷積層輸出進(jìn)行歸一化處理，Relu激活;卷積層res2a_branch2a，卷積核大小為1*1，num_output為64，采用BactchNorm層和Scale層對卷積層輸出進(jìn)行歸一化處理，Relu激活;卷積層res2a_branch2b連接res2a_branch2a的輸出，卷積核大小為3*3，num_output為64，采用BactchNorm層和Scale層對卷積層輸出進(jìn)行歸一化處理;卷積層res2a_branch2c連接res2a_branch2b的輸出，卷積核大小為1*1，num_output為256，采用BactchNorm層和Scale層對卷積層輸出進(jìn)行歸一化處理;res2a_branch2c的輸出和res2a_branch1的輸出采用Eltwise連接輸出得到res2a，經(jīng)過ReLu進(jìn)行統(tǒng)一激活;res2a輸出作為res2b輸入，具體參數(shù)設(shè)置如res2b_branch1，res2b_branch2a，res2b_branch2b，res2b_branch2c與res2a各模塊類似;res2c具體參數(shù)與上述類似;同理，res3a、res3b、res3c、res3d參數(shù)設(shè)置與上述類似，不同的是，res3層提取的特征經(jīng)過上采樣與res2進(jìn)行特征融合，構(gòu)成特征金字塔模型，最后利用res2和res3融合的特征對小目標(biāo)檢測。

本文采用anchor尺寸設(shè)置為[16，16]和[32，32]，分別對應(yīng)3種ratios[0.5，1，2]。原始相應(yīng)層anchor尺寸設(shè)置為[64，64]和[128，128]，為了適應(yīng)本文小目標(biāo)檢測任務(wù)，將對應(yīng)anchor尺寸縮小，實驗證明，此方法對于本文應(yīng)用場景小目標(biāo)檢測具有很好的效果。

2 實驗與分析

2.1 實驗平臺

實驗基于Ubuntu16.04，64 位操作系統(tǒng)，超分辨率模型訓(xùn)練平臺為 Python2.7 和 Tensorflow，小目標(biāo)檢測模型訓(xùn)練平臺為Python2.7和caffe，硬件配置為GTX1080Ti。

2.2 數(shù)據(jù)集制作

本文訓(xùn)練數(shù)據(jù)集為無人機(jī)小目標(biāo)，背景為天空、教學(xué)樓以及不確定物體，為了使網(wǎng)絡(luò)有更好的魯棒性，訓(xùn)練數(shù)據(jù)采用隔幀獲取，帶小目標(biāo)的清晰數(shù)據(jù)集為863張。模糊數(shù)據(jù)集采用方框濾波、均值濾波、高斯濾波三種線性濾波的方式和中值濾波、雙邊濾波兩種非線性濾波的方式進(jìn)行模糊處理，最終可得到21 575張模糊圖像。小目標(biāo)檢測數(shù)據(jù)集在標(biāo)注上采用了label-image開源標(biāo)注工具，同時為了達(dá)到深度學(xué)習(xí)大數(shù)據(jù)訓(xùn)練要求，對標(biāo)注圖像進(jìn)行擴(kuò)充。主要擴(kuò)充方式，包括將圖像順時針旋轉(zhuǎn)60°、90°、120°、150°、180°、210°、240°、270°、300°、330°，并且將標(biāo)注信息隨著圖像旋轉(zhuǎn)，通過這種方法得到擴(kuò)充圖像為8 300張。另外，本文還將隨機(jī)剪裁圖像，此方法參考SSD數(shù)據(jù)擴(kuò)充的方法，所剪裁的區(qū)塊大小為原圖大小的0.9，經(jīng)過10次隨機(jī)剪裁，利用該方法得到的擴(kuò)充數(shù)據(jù)集為8 300張，而且標(biāo)注數(shù)據(jù)也將隨著剪裁一起變化。

2.3 結(jié)果與分析

為了證明本文方法的有效性，將本超分辨率重建算法與經(jīng)典超分辨重建算法SRCNN[15]、FSRCNN[16]、ESPCN[17]進(jìn)行3倍、4倍、5倍放大情況下的研究對比，主要評價標(biāo)準(zhǔn)參考結(jié)構(gòu)相似性（Structual Similarity Index Measurement， SSIM）、峰值信噪比（Peak Signal to Noise Ratio PSNR）兩種指標(biāo)。4種不同對比實驗結(jié)果詳見表1和表2。

分析可知，模糊圖像對于小目標(biāo)檢測任務(wù)影響巨大，故而選取一個優(yōu)質(zhì)超分辨率重建模型對于小目標(biāo)檢測任務(wù)將尤為關(guān)鍵。由表1和表2可知，SRN在同等條件要優(yōu)于其它3種超分辨率算法，更符合此應(yīng)用場景。

本文小目標(biāo)檢測對比實驗分為2個部分，對此闡釋如下。

（1）將本文模型和經(jīng)典目標(biāo)檢測框架FPN、YOLOv2及SSD進(jìn)行準(zhǔn)確率和平均精度map值對比。

（2）經(jīng)過超分辨重建和未經(jīng)過超分辨率再進(jìn)行小目標(biāo)檢測準(zhǔn)確率對比。

由表3可以得出，在此場景下，本文算法FPN3具有更高的準(zhǔn)確率，以及平均精度map值優(yōu)于YOLO、SSD、FPN框架。

通過分析可得，F(xiàn)PN原始模型運用的特征提取網(wǎng)絡(luò)為RestNet50，本文小目標(biāo)絕對像素大小為24*24左右，經(jīng)過3層Pooling層操作之后，像素大小減小為3*3，基本無目標(biāo)特征，如果經(jīng)過上采樣和低層特征進(jìn)行融合，反而會影響最終檢測結(jié)果;相對于YOLOv2檢測，SSD準(zhǔn)確率會高一些，這是因為SSD利用了多尺度特征圖的思想對小目標(biāo)進(jìn)行預(yù)測，而YOLOv2采用全局對目標(biāo)進(jìn)行預(yù)測。但是SSD、YOLOv2對于小目標(biāo)檢測效果卻仍有待改進(jìn)，追根溯源皆是因為兩者均未使用低層高分辨率的位置信息，而只是在網(wǎng)絡(luò)層最后一層做出預(yù)測。因此參考借鑒如上研究方案后，本文研究則采用3層網(wǎng)絡(luò)對小目標(biāo)進(jìn)行預(yù)測，極大提高運算效率與準(zhǔn)確率。

由表4分析后知道，圖像模糊到一定程度時，基本無法進(jìn)行小目標(biāo)檢測。經(jīng)過超分辨率重建之后，準(zhǔn)確率方面和清晰圖像小目標(biāo)檢測準(zhǔn)確率基本相當(dāng)。故可以推論得出如下研究結(jié)論：經(jīng)過對模糊圖像超分辨率重建后進(jìn)行小目標(biāo)檢測，具有一定研究和應(yīng)用價值。本文的總體結(jié)果流程如圖4所示。

3 結(jié)束語

本文分析了時下目標(biāo)檢測以及小目標(biāo)檢測方法的不足，并基于此展開了在復(fù)雜條件下的小目標(biāo)檢測研究。首先運用超分辨率重建方法對模糊圖像進(jìn)行重建，而后再將重建后清晰圖像輸入到小目標(biāo)檢測模型中進(jìn)行小目標(biāo)檢測。不同于傳統(tǒng)紅外等灰度圖像小目標(biāo)檢測的是，本文選擇圖像具有復(fù)雜背景，以及模糊圖像干擾，且目標(biāo)足夠小，達(dá)到絕對像素大小為24*24。其清晰圖像直接進(jìn)行小目標(biāo)檢測準(zhǔn)確率達(dá)到81.82%，map值達(dá)到0.895 1，進(jìn)行超分辨率重建后、再進(jìn)行小目標(biāo)檢測的準(zhǔn)確率最終達(dá)到了72.73%。本文方法設(shè)計新穎，具有一定研究價值，但是目前仍處于2個獨立階段，后續(xù)還需將2個步驟予以系統(tǒng)整合。

參考文獻(xiàn)

[1]GIRSHICK R， DONAHUE J， DARRELL T， et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]// 2014 IEEE Conference on Computer Vision & Pattern Recognition. Columbus， OH， USA：IEEE， 2014：580-587.

[2] HE Kaiming ZHANG Xiangyu， REN Shaoqing ， et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[M]//FLEET D， et al. ECCV 2014， Part III， LNCS 8691.Switzerland：Springer International Publishing，2014：346-361.

[3] GIRSHICK R . Fast R-CNN[J]. arXiv preprint arXiv：1504.08083， 2015.

[4] REN Shaoqing， HE Kaiming， GIRSHICK R， et al. Faster R-CNN： Towards real-time object detection with region proposal networks[C]// IEEE Transactions on Pattern Analysis & Machine Intelligence，2017，39（6）：1137-1149.

[5] LIU Wei， ANGUELOV D， ERHAN D ， et al. SSD： Single shot multibox detector[J]. arXiv preprint arXiv：1512.02325，2015.

[6] REDMON J ， DIVVALA S ， GIRSHICK R ， et al. You only look once： Unified， real-time object detection[J]. arXiv preprint arXiv：1506.02640， 2015.

[7] REDMON J， FARHADI A. YOLO9000： Better， faster， stronger[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Honolulu， Hawaii， USA：IEEE，2017：6517-6525.

[8] 朱國強(qiáng)，孟祥勇，錢惟賢. 基于曲率的近地面紅外小目標(biāo)檢測算法[J]. 光子學(xué)報， 2018， 47（10）：1010001（1-12）.

[9] 胡洪濤，敬忠良，胡士強(qiáng). 基于輔助粒子濾波的紅外小目標(biāo)檢測前跟蹤算法[J]. 控制與決策， 2005， 20（11）：1208-1211.

[10]王軍，姜志，孫慧婷，等. 基于噪聲方差估計的紅外弱小目標(biāo)檢測與跟蹤方法[J]. 光電子·激光， 2018，29（3）：305-313.

[11]于曉涵，陳小龍，陳寶欣，等. 快速高分辨稀疏FRFT雷達(dá)機(jī)動目標(biāo)檢測方法[J]. 光電工程， 2018，45（6）：170702（1-7）.

[12]李東，趙婷，宋偉，等. 一種低信噪比下穩(wěn)健的ISAR平動補(bǔ)償方法[J]. 電子學(xué)報， 2018， 46（9）：2049-2056.

[13]LIN T Y，DOLLAR P，GIRSHICK R ， et al. Feature pyramid networks for object detection[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Honolulu， Hawaii， USA：IEEE Computer Society， 2017：936-944.

[14]TAO Xin，GAO Hongyun，WANG Yi ， et al. Scale-recurrent network for deep image deblurring[J]. arXiv preprint arXiv：1802.01770， 2018.

[15]DONG Chao， LOY C C，HE Kaiming ， et al. Learning a deep convolutional network for image super-resolution[M]//FLEET D， et al. ECCV 2014， Part IV， LNCS 8692.Switzerland：Springer International Publishing，2014： 184-199.

[16]DONG Chao， LOY C C ， TANG Xiaoou . Accelerating the super-resolution convolutional neural network[J]. arXiv preprint arXiv：1608.00369， 2016.

[17]SHI Wenzhi， CABALLERO J， HUSZR F， et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）.Las Vegas， NV， USA：IEEE， 2016：1874-1883.