徐元澤 王勇
摘要:針對實(shí)際駕駛時(shí)獲取的自然交通場景圖像中,交通標(biāo)志占圖像比例較小導(dǎo)致檢測精度低問題,同時(shí)要求交通標(biāo)志檢測速度快,提出一種改進(jìn)的單發(fā)多框檢測(SSD)神經(jīng)網(wǎng)絡(luò)模型。該模型在SSD基礎(chǔ)上融合特征金字塔網(wǎng)絡(luò)(FPN),在后處理方法應(yīng)用中心點(diǎn)距離非極大值抑制(DIoU-NMS),提高了交通標(biāo)志小目標(biāo)的檢測精度。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的SSD 網(wǎng)絡(luò)型檢測性能顯著提高,其均值平均精度(mAP)比原SSD提高了7.6個(gè)百分點(diǎn),其每秒幀率(FPS)達(dá)到31.4具備實(shí)時(shí)檢測能力。
關(guān)鍵詞:交通標(biāo)志;實(shí)時(shí)檢測;單發(fā)多框檢測(SSD);特征金字塔網(wǎng)絡(luò)(FPN)
中圖分類號:TP183? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2021)29-0092-03
Real-time Traffic Signs Detection Based on Improved SSD
XU Yuan-ze,WANG Yong
(School of Computers, Guangdong University of Technology, Guangdong 51000 China )
Abstract:In the natural traffic scene images obtained during actual driving, the small proportion of traffic signs in the image leads to the problem of low detection accuracy. At the same time, the detection speed of traffic signs is required to be fast. An improved single-shot multibox detector (SSD) neural network model is proposed. The model integrates Feature Pyramid Network (FPN) on the basis of SSD, and applies center point distance non-maximum suppression (DIoU-NMS) in the post-processing method to im? prove the average detection accuracy of small targets of traffic signs. Experimental results show that the improved SSD network model not only significantly improves the detection performance, its mean average accuracy (mAP) is 7.6 percentage points higherthan the original SSD, and it has real-time detection capabilities that the frame per second reaches 31.4.
Key words:traffic sign; real-time detection; single shot mulitboxdetector(SSD); feature pyramid networks(FPN)
1引言
隨著5G、人工智能、邊緣計(jì)算等科學(xué)技術(shù)的進(jìn)步和發(fā)展,輔助駕駛、無人駕駛等智能駕駛技術(shù)也越來越成熟,交通標(biāo)志檢測(Traf-fic Sign Detection,TSD)作為智能交通系統(tǒng)的重要組成部分之一,在安全出行中發(fā)揮著不可替代的作用[1]。為了保障駕駛員的安全,在真實(shí)的駕駛場景中,需要盡早識別出自然場景中的交通標(biāo)志,會使得交通標(biāo)志在拍攝的交通圖像中所占比例較小,可視為小目標(biāo)檢測。Bell S[2]等在COCO數(shù)據(jù)集中定義小于等于32*32像素的目標(biāo)為小目標(biāo);在實(shí)際駕駛應(yīng)用場景中交通標(biāo)志檢測還需要滿足實(shí)時(shí)性的要求,Jiwoong C[3]等人提出自動駕駛應(yīng)用的前提條件是實(shí)時(shí)監(jiān)測速度也就是每秒幀率30fps 以上。
近年來,深度學(xué)習(xí)技術(shù)廣泛應(yīng)用于各種目標(biāo)檢測領(lǐng)域,現(xiàn)有的檢測算法大致分為兩大類:一類是基于候選框提取的兩階段目標(biāo)檢測算法,如R-CNN[4]、FasterR-CNN[5]、R-FCN[6]等神經(jīng)網(wǎng)絡(luò),雖然這類網(wǎng)絡(luò)檢測精度較高,但是由于其需要在檢測前生成候選區(qū)域,遠(yuǎn)不能滿足實(shí)時(shí)性要求;另一類是基于回歸方法的單階段目標(biāo)檢測算法,如SSD[7]、YOLO[8]等算法,這類算法只需經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)無需生成候選區(qū)域,其檢測速度大幅提升滿足實(shí)時(shí)性要求,但是這類算法對小目標(biāo)檢測效果較差。
本文以SSD算法模型為基礎(chǔ),提出一種改進(jìn)的SSD 網(wǎng)絡(luò)模型,參照FPN[9]網(wǎng)絡(luò)結(jié)構(gòu)思想,從原網(wǎng)絡(luò)結(jié)構(gòu)中的Con10層開始對其進(jìn)行卷積和上采樣操作,而后與前一層特征圖(Con9)進(jìn)行側(cè)向連接作為特征圖,融合多尺度特征圖進(jìn)行預(yù)測,最后采用中心點(diǎn)距離非極大值抑制方法(DIou-NMS)[10],降低漏檢率,提高對于目標(biāo)較小的交通標(biāo)志檢測均值平均精度。
2相關(guān)內(nèi)容
2.1 SSD算法
SSD 是Wei.L等人設(shè)計(jì)的一種目標(biāo)檢測器,該模型以VGG16網(wǎng)絡(luò)作為基礎(chǔ),SSD 網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1 所示。用 VGG16主干網(wǎng)絡(luò)提取特征,在Con4_3層后將原VGG16的全連接層替代為卷基層 Con7,再進(jìn)行四次卷積操作得到 Con8、 Con9、Con10、Con11,最終對每一特征層進(jìn)行預(yù)測,實(shí)現(xiàn)多尺度特征圖的檢測。
該算法借鑒特征圖像金字塔結(jié)構(gòu)方式,對于深層次的特征圖尺寸較小,包含豐富的語義特征信息,使其對大物體檢測更為適宜;而淺層次的特征圖尺寸較大,包含豐富的細(xì)節(jié)特征,因而可以更好的檢測小物體。SSD利用了不同卷積層的特征圖,實(shí)現(xiàn)不同尺度特征圖的預(yù)測,利用不同特征圖之間的互補(bǔ),相較于使用單一層特征圖目標(biāo)檢測算法,平均檢測精度更高,檢測效果更優(yōu)。但是SSD低層特征圖語義信息不夠,而且從高層特征圖開始構(gòu)建金字塔結(jié)構(gòu),錯(cuò)過了重復(fù)使用低層高分辨率的特征圖,即沒有有效利用低層特征圖中空間信息,從而對小物體檢測效果不理想。
2.2 FPN神經(jīng)網(wǎng)絡(luò)
FPN神經(jīng)網(wǎng)絡(luò)的提出正是為了解決上述出現(xiàn)的問題,其網(wǎng)絡(luò)結(jié)構(gòu)模型如圖2。結(jié)構(gòu)分為三個(gè)線路,一個(gè)自底向上的線路,一個(gè)自頂向下的線路,一個(gè)側(cè)向連接。自底向上是網(wǎng)絡(luò)的向前傳播過程;自頂向下過程采用上采樣的方式,將頂層的小特征圖放大到上一級特征圖的大小,側(cè)向連接將上采樣的結(jié)果和自底向上生成的特征圖進(jìn)行融合,形成新的特征圖,用于預(yù)測。
該算法同時(shí)利用低層特征圖的高分辨率和高層特征圖的豐富語言信息,通過融合這些不同層的特征達(dá)到預(yù)期的效果,顯著提高小目標(biāo)檢測精度。
2.3改進(jìn)的SSD模型
改進(jìn)模型方法保留原SSD 網(wǎng)絡(luò)結(jié)構(gòu)中VGG16 Con4_3層,以此特征層為開始,構(gòu)建特征金字塔網(wǎng)絡(luò)結(jié)構(gòu),原網(wǎng)絡(luò)中的 Con11特征層已經(jīng)較深,對小目標(biāo)檢測提升不大,因此保留此特征層不動,從 Con4_3到 Con10共五層構(gòu)建特征金字塔。改進(jìn) SSD 的神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)如圖3所示。
其執(zhí)行步驟為:Con11層先經(jīng)過1×1卷積,改變通道特征數(shù),此處設(shè)置為256,F(xiàn)10通過上采樣,與Con9經(jīng)過1×1卷積后的特征圖進(jìn)行側(cè)向連接操作,得到F9。重復(fù)上述過程,每一層通道特征數(shù)與上一層設(shè)置相同,分別得到F8、F7、F4特征層,將得到特征層經(jīng)過3×3卷積,得到最終用于預(yù)測的特征層。
2.4 DIoU-NMS使用
原SSD模型經(jīng)過預(yù)測后需要經(jīng)過NMS后處理,其主要作用是去除檢測任務(wù)的重復(fù)檢測框,以得到最終的檢測結(jié)果。在實(shí)際應(yīng)用場景中,當(dāng)兩個(gè)不同物體距離很近時(shí),由于交并比(IOU)值比較大,經(jīng)過NMS處理后,只剩下一個(gè)檢測框,這樣導(dǎo)致漏檢的錯(cuò)誤情況發(fā)生。
DIoU-NMS 的更新公式的正式定義如下公式(1):
式中si表示分類得分,ε表示非極大值抑制(NMS)的閾值,通常設(shè)置0.5,M表示最高分類得分的檢測框,Bi表示其余初始
檢測框,具體定義如公式(2):
式中ρ表示歐氏距離,b,bgt表示預(yù)測框B 和目標(biāo)框Bgt的中心點(diǎn),c 表示覆蓋兩個(gè)框最小封閉區(qū)間的對角線長度,如圖4所示。
公式中不難看出,在抑制準(zhǔn)則中不僅考慮了重疊區(qū)域,還加入考慮兩個(gè)框的中心點(diǎn)距離的考量,兩個(gè)中心點(diǎn)較遠(yuǎn)的框可能由于不同對象產(chǎn)生,不應(yīng)將其刪除,降低漏檢率。在實(shí)際應(yīng)用中還引入?yún)?shù)β,用于控制對距離的影響因素。
3實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)基于Liunx操作系統(tǒng)Ubuntu18.04, 在Pytorch深度學(xué)習(xí)框架上完成訓(xùn)練與測試等相關(guān)工作,實(shí)驗(yàn)硬件平臺:CPU:i7-87003.2GHZ,內(nèi)存:16GB RAM,顯卡 GPU:NVIDIA GER? FORCE GTX 2070 Super 8GB 內(nèi)存。
選用清華大學(xué)騰訊聯(lián)合實(shí)驗(yàn)室的公開數(shù)據(jù)集(Tsinghua- Tencent 100k)TT100K作為改進(jìn)算法的訓(xùn)練和測試數(shù)據(jù)集,該數(shù)據(jù)集取自中國5個(gè)不同城市各10個(gè)區(qū)域內(nèi)真實(shí)的駕駛場景,包含有不同天氣條件、不同光照角度下的交通標(biāo)志;并選取原 SSD 網(wǎng)絡(luò)模型進(jìn)行實(shí)驗(yàn)參照對比。實(shí)驗(yàn)評價(jià)指標(biāo)選用均值平均精度(mAP)、檢測每秒幀率(FPS)和召回率-準(zhǔn)確率(P-R)曲線等。實(shí)驗(yàn)設(shè)置 Batch size 為4,初始學(xué)習(xí)率0.001,每迭代40000次學(xué)習(xí)率縮小為上次學(xué)習(xí)率的0.1,最大迭代次數(shù)設(shè)置為400000次。
實(shí)驗(yàn)結(jié)果見表1,我們可以發(fā)現(xiàn)雖然經(jīng)過改進(jìn)后的網(wǎng)絡(luò)模型在FPS指標(biāo)下降明顯,由于經(jīng)過FPN結(jié)構(gòu)增加了計(jì)算量,在后處理階段使用DIoU-NMS也會比原有計(jì)算量更大,從而導(dǎo)致 FPS 降低,但是FPS依然能夠達(dá)到31.4,具備實(shí)時(shí)檢測能力;從表 1中我們可以看出,改進(jìn)后的SSD算法mAP由原來的53.7%提高到61.3%,提升了7.6%;在圖5中P-R 曲線表明,改進(jìn)后的模型曲線更靠近右上方,證明融合金字塔特征結(jié)構(gòu)后,使得交通標(biāo)志經(jīng)過卷積后的特征層包含信息更豐富,后處理使用DI?oU-NMS,提高了召回率,改進(jìn)SSD 網(wǎng)絡(luò)模型能更好地檢測出圖像中小目標(biāo)的交通標(biāo)志。
4結(jié)束語
SSD神經(jīng)網(wǎng)絡(luò)模型,具有檢測速度快優(yōu)點(diǎn),但檢測小目標(biāo)能力較弱,本文參考金字塔特征結(jié)構(gòu)網(wǎng)絡(luò)思想,將淺層特征層和深層特征層融合為新的特征層,提出了一種改進(jìn)的SSD神經(jīng)網(wǎng)絡(luò)模型,并在后處理時(shí)改用DIoU-NMS方法,提高對于小目標(biāo)交通標(biāo)志的檢測能力,雖然增加了一定計(jì)算過程使得檢測時(shí)間上升,但是仍然具有一定的實(shí)時(shí)性。車載平臺的計(jì)算能力有限,在計(jì)算資源有限的條件下進(jìn)行能夠?qū)崿F(xiàn)精確度高、速度快的檢測,是下一步的研究方向。
參考文獻(xiàn):
[1]董曉華,韋玉科.交通標(biāo)志識別技術(shù)方法綜述[J].電腦知識與技術(shù),2020,16(25):193-194,199.
[2] Bell S,Zitnick C L,BalaK,etal.Inside-outside net:detectingob? jects in context with skip pooling and recurrent neural net? works[C]//2016 IEEE Conference on Computer Vision and Pat? tern Recognition (CVPR).June 27-30,2016,Las Vegas,NV,USA.
IEEE 2016:2874-2883.
[3] Choi J,ChunD,KimH,etal.Gaussian YOLOv3:an accurate and fast ect detector using localization uncertainty for autono?mous driving[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV).October 27- November 2,2019,Seoul, Korea (South).IEEE,2019:502-511.
[4] GirshickR,DonahueJ,DarrellT,etal.Rich feature hierarchies for accurate ect detection and semantic segmentation[C]//2014 IEEE Conference on Computer Vision and Pattern Rec?ognition. June 23-28, 2014, Columbus, OH, USA. IEEE, 2014:580-587.
[5] Ren S Q,He K M,GirshickR,etal.FasterR-CNN:towards real- time ect detection with region proposal networks[C]//IEEE Transactions on Pattern Analysis and Machine Intelligence. IEEE,:1137-1149.
[6] Dai J F,LiY,He K M,etal.R-FCN:ect detection via region- based fully convolutional networks[EB/OL].2016
[7] Liu W,AnguelovD,ErhanD,etal.SSD:single shot MultiBox de?tector[M]//Computer Vision – ECCV 2016.Cham:Springer In?ternational Publishing,2016:21-37.
[8] Redmon J,DivvalaS,GirshickR,etal.You only look once:uni?fied, real-time ect detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).June 27-30, 2016,Las Vegas,NV,USA.IEEE,2016:779-788.
[9] Lin T Y,DollárP,GirshickR,etal.Feature pyramid networks for ect detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).July 21-26,2017,Ho? nolulu,HI,USA.IEEE,2017:936-944.
[10] Zheng Z H,WangP,LiuW,etal.Distance-IoUloss:faster and better learning for bounding box regression[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7):12993-13000.
【通聯(lián)編輯:唐一東】