龔 安,李承前,牛 博
(中國石油大學(華東)計算機與通信工程學院,青島 266580)
基于卷積神經網絡的實時行人檢測方法①
龔 安,李承前,牛 博
(中國石油大學(華東)計算機與通信工程學院,青島 266580)
近年來,卷積神經網絡在行人檢測領域取得了同其他方法相似甚至更好的檢測成績,然而緩慢的檢測速度遠不能滿足現實需求.針對這一問題,本文提出一種實時的行人檢測方法,將分散的檢測過程整合成單一的深度網絡模型,被檢測圖片通過模型的計算可以直接輸出檢測結果.使用擴充的ETH數據集進行訓練測試,實驗結果表明,在保證準確率的情況下,該方法檢測速度極快,可以滿足實時檢測的后的.
行人檢測;目標檢測;卷積神經網絡;圖像處理;深度學習
行人檢測作為目標檢測在行人領域內的一部分,由于其檢測目標的特殊性、廣泛的應用前景及商業(yè)價值,成為國內外學者及相關從業(yè)者研究的熱點.多年來,科研人員研究設計了眾多行人檢測方法,典型的有:P.Viola 等人設計使用的行人檢測模型,Dalal提出的基于HOG特征的行人檢測方法,Felzenswalb等人提出的DPM模型等.在經典模型的基礎上,后前研究人員設計改進的算法[1-3]取得了較好的行人檢測效果.
近年來,卷積神經網絡發(fā)展迅速,在物體分類,行為識別,物體檢測等領域取得成功,研究人員開始嘗試將卷積神經網絡應用到行人檢測上來[4-6],其中文獻[6]是后前準確率最好的檢測方式之一.然而,這些方法檢測速度較慢,以文獻[6]為例:作者在 R-CNN[7]模型上進行修改,主要是將region proposal方法由原來的selective search 方法[8]改為 Katamari方法[9],實驗取得很好的成績.然而,region proposal運行過程消耗大量的時間,故很難達到實用后的.
根據卷積神經網絡在目標檢測領域取得的最新進展[10-12],本文提出了一種基于卷積神經網絡的實時行人檢測方法.該檢測方式非常簡單:圖片作為輸入無需任何預處理,經過本文設計的網絡模型計算,直接輸出檢測到的行人位置.相比一般的行人檢測方法,該模型具有以下優(yōu)點:首先,模型是一個完整的神經網絡,不需要對分散的模塊逐一設計分析,訓練及運行方法簡單;其次,模型以原始圖片作為輸入,進行整體的訓練調優(yōu),可以減少分部處理導致的信息丟失,更好的獲取圖片內的上下文聯系;實驗證明,在保證準確率的情況下,模型可以達到實時處理的需求.
文獻[12]提出的SSD模型在物體檢測領域取得state-of-art的檢測成績,并可以達到實時的檢測效果.SSD模型作為完整的卷積神經網絡,包含特征提取、不同尺度的物體檢測和輸出層等3個部分.輸入圖片通過去頂的VGG-16模型[13]進行特征提取,經由6種不同尺度的檢測模塊實現卷積特征到物體檢測的映射.受到SSD模型的啟發(fā),考慮到行人檢測領域的特殊性,本文設計了一種基于卷積神經網絡的實時行人檢測模型.
圖1是本文設計的行人檢測模型,由統(tǒng)一的卷積神經網絡實現.模型前端是用來提取圖片特征向量的卷積神經網絡,后端通過卷積生成不同大小的特征圖.在不同的特征圖上,計算不同候選框的形狀偏移量和該區(qū)域為行人的概率得分,通過非極大值抑制方法輸出行人檢測結果.
圖1 基于卷積神經網絡的實時行人檢測模型
GoogleNet[14],VGG等作為當前流行的深度卷積神經網絡模型,能夠很好的提取圖片特征.但這兩種模型過于龐大,很難訓練.文獻[11]提出的特征提取模型作為GoolgeNet的精簡版,取得類似GoogleNet的訓練成績,故采用其方法實現模型前端的特征提取.
考慮到行人檢測的特殊性,本文設計了如圖2所示的多候選框行人檢測模板.模板包含4個不同大小的寬高比為1:3的候選框,用來預測不同大小的行人.其中,為了防止兩個相鄰的較小行人像素的漏檢,本文為模板設計了兩個相同的最小候選框.對于每一個候選框,我們預測其形狀偏移量及行人概率p.訓練階段,根據輸入圖片內的不同Ground truth的尺寸,選取特定特征圖上的特定候選框與之匹配,通過計算的損失函數對模型進行訓練.
圖2 多候選框行人檢測模板
本文在模型前端的特征提取部分后添加不同的卷積操作,得到3個大小不同的特征圖,加上模型前端24×24×512 的特征圖,用于不同尺度的行人檢測.對于大小為m×m×p的特征圖,其任意位置為中心3×3×p的特征向量,負責計算4個不同候選框的形狀偏移量和行人概率.
模型以候選框的偏移量t和其為行人的概率p作為輸出.
對于任意一個Ground truth,都有唯一的候選框與之匹配.另外,對于任意的候選框,若其與某個Ground truth相交比例大于0.7,則該候選框也匹配該Ground truth.將上述兩種情況作為正樣本.若某個候選框與任意的Ground truth 相交比例小于 0.3,則將其作為負樣本.采用上述正負樣本對模型進行訓練,目標損失函數如下:
本文搭建了 Linux+CUDA+NVIDIA GTX Titan 顯卡的實驗環(huán)境.為加速整個行人檢測模型的擬合,在ImageNet[15]數據集上預訓練模型前端的特征提取層,預訓練同時可以防止模型過度擬合.模型后端的卷積層使用Xavier方法[16]進行初始化.
現今主流的行人檢測數據集有INIRA,ETH,Caltech,KITTI等.考慮到 INIRA、ETH 包含的數據集較少,Caltech提供的圖像清晰度較差等因素,本文以ETH數據集為基礎,從其他數據集中抽出圖像作為擴充,制作了實驗數據ETH+.其中選取5000張圖片(約個行人標簽)作為訓練集,1000張圖片作為測試集.
實驗階段對模型進行120次的訓練,其中前80次訓練的學習率為,后40次的學習率調整到同時采用隨機縮放和水平翻轉等方法進行數據增強,防止模型過度擬合.實驗取得了漏檢率(MR)約為25%,檢測速度高達100幀每秒的成績.
如表1所示,在相同數據集下本文進行了不同行人檢測方法的實驗對比.其中,方法1、2、3分別代表本文的模型、文獻[6]和基于HOG的行人檢測方法.可以看出,在漏檢率較低的情況下,本文算法的檢測速度取得了極大的提升.
表1 不同方法的實驗對比
如1.1所述,多候選框行人檢測模板包含4個候選框,為了防止兩個相鄰的較小行人像素的漏檢,其中有兩個相同的最小候選框.作為對比,當僅使用一個最小候選框,實驗結果顯示MR上升了8%左右.圖3上圖為使用單最小候選框,下圖為使用雙最小候選框的實驗結果對照.
圖3 候選框對實驗結果影響圖
本文對卷積神經網絡用于行人檢測領域進行了研究.為了加快行人檢測的速度,滿足現實使用的需求,設計實現了一種實時的行人檢測模型.本文同時擴展了ETH數據集,使訓練樣本更加充分.實驗結果表明,該模型在取得高準確率的同時,檢測速度超過100幀每秒,可以用于實時檢測.
1 Benenson R,Mathias M,Tuytelaars T,et al.Seeking the strongest rigid detector.2013 IEEE Conference on Computer Vision and Pattern Recognition.Portland,OR,USA.2013.3666–3673.
2 Park D,Zitnick CL,Ramanan D,et al.Exploring weak stabilization for motion feature extraction.2013 IEEE Conference on Computer Vision and Pattern Recognition.Portland,OR,USA.2013.2882–2889.
3 Yan JJ,Zhang XC,Lei Z,et al.Robust multi-resolution pedestrian detection in traffic scenes.2013 IEEE Conference on Computer Vision and Pattern Recognition.Portland,OR,USA.2013.3033–3040.
4 Sermanet P,Kavukcuoglu K,Chintala S,et al.Pedestrian detection with unsupervised multi-stage feature learning.2013 IEEE Conference on Computer Vision and Pattern Recognition.Portland,OR,USA.2013.3626–3633.
5 Luo P,Tian YL,Wang XG,et al.Switchable deep network for pedestrian detection.2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus,OH,USA.2014.899–906.
6 Hosang J,Omran M,Benenson R,et al B.Taking a deeper look at pedestrians.2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston,MA,USA.2015.4073–4082.
7 Girshick R,Donahue J,Darrell T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation.2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus,OH,USA.2014.580–587.
8 Uijlings JRR,van de Sande KEA,Gevers T,et al.Selective search for object recognition.International Journal of Computer Vision,2013,104(2):154–171.[doi:10.1007/s11263-013-0620-5]
9 Benenson R,Omran M,Hosang J,et al.Ten years of pedestrian detection,what have we learned? In:Agapito L,Bronstein M,Rother C,eds.Computer Vision-ECCV 2014 Workshops.Cham,Switzerland.2014.613–627.
10 Tan M,Hu ZF,Wang BY,et al.Robust object recognition via weakly supervised metric and template learning.Neurocomputing,2016,(181):96–107.[doi:10.1016/j.neucom.2015.04.123]
11 Redmon J,Divvala S,Girshick R,et al.You only look once:Unified,real-time object detection.2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas,NV,USA.2016.779–788.
12 Liu W,Anguelov D,Erhan D,et al.SSD:Single shot multibox detector.In:Leibe B,Matas J,Sebe N,et al,eds.Computer Vision-ECCV 2016.Cham,Switzerland.2016.21–37.
13 Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition.arXiv:1409.1556 2014.
14 Szegedy C,Liu W,Jia YQ,et al.Going deeper with convolutions.2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston,MA,USA.2015.1–9.
15 Russakovsky O,Deng J,Su H,et al.ImageNet large scale visual recognition challenge.International Journal of Computer Vision,2015,115(3):211–252.[doi:10.1007/s11263-015-0816-y]
16 Glorot X,Bengio Y.Understanding the difficulty of training deep feedforward neural networks.Journal of Machine Learning Research,2010,(9):249–256.
Real-Time Pedestrian Detection Method Based on CNNs
GONG An,LI Cheng-Qian,NIU Bo
(College of Computer &Communication Engineering,China University of Petroleum(East China),Qingdao 266580,China)
In recent years,the convolution neural networks in the field of pedestrian detection have achieved similar and even better results,compared to other methods.However,the slow detection speed can’t meet the realistic demand.To solve this problem,a real-time pedestrian detection method is put forward.The scattered detection processes are integrated into a single depth network model.Images which can be calculated through the model can directly output detection results.The extended ETH dataset is used for training and testing the model.The experimental results show that the method is very fast and can achieve the goal of real-time detection with the guaranteed accuracy.
pedestrian detection;object detection;convolution neural networks;image processing;deep learning
龔安,李承前,牛博.基于卷積神經網絡的實時行人檢測方法.計算機系統(tǒng)應用,2017,26(9):215–218.http://www.c-s-a.org.cn/1003-3254/5943.html
2016-12-22;采用時間:2017-01-18