樊星 趙祥模 劉占文 沈超 徐江
摘 ?要: 為解決交通標志目標易受復雜環(huán)境影響且呈現(xiàn)多尺度分布,造成識別精度低的問題,構(gòu)建一種多尺度卷積神經(jīng)網(wǎng)絡模型。針對不同尺寸輸入設計相應的網(wǎng)絡結(jié)構(gòu),提取目標特征,實現(xiàn)對不同尺寸目標的識別,再加權融合各子網(wǎng)絡結(jié)果得到最終識別結(jié)果,實現(xiàn)多尺度目標識別。經(jīng)實驗驗證分析,提出算法模型在小尺寸目標、較小尺寸目標、中尺寸目標、大尺寸目標上識別率分別達到99.12%,99.24%,99.41%,99.35%,保障了多尺度輸入目標識別的魯棒性,綜合識別率可以達到99.31%,驗證了算法在平衡實時性及準確率的基礎上,具有一定的實用價值。
關鍵詞: 智能交通; 深度學習; 交通標志識別; 多尺度目標識別; 神經(jīng)網(wǎng)絡; 加權融合
中圖分類號: TN911.73?34; TP391.41 ? ? ? ? ? ? ? ?文獻標識碼: A ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2019)15?0134?05
Traffic sign recognition method based on multi?scale convolutional neural network
FAN Xing, ZHAO Xiangmo, LIU Zhanwen, SHEN Chao, XU Jiang
(School of Information Engineering, Changan University, Xian 710064, China)
Abstract: In order to solve the problem that the traffic sign is susceptible to the complex environment and presents multi?scale distribution, resulting in low recognition accuracy, a multi?scale convolutional neural network model is constructed. The corresponding network structure is designed for different size sign input to extract the target features and achieve target recognition of signs with different sizes. In the method, the weighted fusion of the results provided by each sub?network is carried out to obtain the final recognition results, and achieve multi?scale target recognition. The experimental verification and analysis results indicate that the proposed algorithm model can achieve the recognition rates of 99.12%, 99.24%, 99.41% and 99.35% on four size targets respectively, which can ensure the recognition robustness of multi?scale input targets, and its comprehensive recognition rate can reach 99.31%. It is verified that the algorithm has a certain practical value on the basis of real?time balance and accuracy.
Keywords: intelligent transportation; deep learning; traffic sign recognition; multi?scale object recognition; neural network; weighted fusion
0 ?引 ?言
智能交通系統(tǒng)(ITS)與自動駕駛技術都需要在復雜交通場景中對影響駕駛行為的相關目標進行正確、實時地捕捉與理解,而交通標志作為傳遞指示引導或警示信息的道路基礎設施,對其進行正確識別是保證智能車輛規(guī)范行駛與道路交通安全的前提。交通標志識別主要包括特征提取與識別兩個步驟,其中傳統(tǒng)的交通標志特征提取主要有基于Hu不變矩[1]、基于仿射不變Zernike矩[2]、基于改進Zernike矩[3]的方法,識別分類主要有基于神經(jīng)網(wǎng)絡[4]、基于模板匹配 [5]、基于支持向量機[6?7]等方法,這些方法都通過傳統(tǒng)的特征對交通標志進行特征提取以實現(xiàn)識別。然而,現(xiàn)實交通環(huán)境中交通標志往往易受復雜環(huán)境干擾,如復雜多變的光照條件、背景環(huán)境干擾、交通標志遮擋、交通標志位置傾斜,這些環(huán)境因素導致對其進行手工特征設計與提取難度極大,進而使交通標志識別難度大大增加。
近年來,深度學習模型[8]已在計算機視覺領域受到廣泛關注,卷積神經(jīng)網(wǎng)絡作為深度學習經(jīng)典模型之一,對目標識別有著良好的效果。近年來,出現(xiàn)了RCNN[9],F(xiàn)ast?rcnn,F(xiàn)aster?rcnn[10],F(xiàn)PN,Yolo,ResNet[11]等區(qū)域卷積神經(jīng)網(wǎng)絡方法,在目標檢測與識別領域取得了不俗的成績,將卷積神經(jīng)網(wǎng)絡應用于交通標志識別成為研究的熱點。在實際交通環(huán)境中,為方便行人和司機注意,交通標志通常被設計成特定的比例大小。在車輛行進過程中,由于車輛與交通位置距離的多變性,采集的交通標志大小不一。如何設計一種魯棒的網(wǎng)絡實現(xiàn)不同尺度下目標的識別是研究的難點之一。因此,本文提出一種多尺度卷積神經(jīng)網(wǎng)絡模型,融合多尺度下提取目標特征加強對多尺度目標物體識別的精度與魯棒性,以實現(xiàn)對交通標志的高精度識別。
1 ?多尺度卷積神經(jīng)網(wǎng)絡架構(gòu)設計
目標識別中最為核心的技術就是特征提取,傳統(tǒng)的手工特征不足以對室外復雜環(huán)境下檢測到的交通標志進行識別。卷積神經(jīng)網(wǎng)絡方法雖然可以靈活提取到交通標志的特征,然而傳統(tǒng)卷積神經(jīng)網(wǎng)絡進行目標識別時需要輸入固定大小的圖像,在實際環(huán)境中待檢測目標的大小卻是多樣化的,如圖1所示。
對于這些目標,需要經(jīng)過裁剪、縮放等一系列的操作才能輸入到網(wǎng)絡中,如圖2所示,這種裁剪縮放操作很大程度降低了目標識別精度。從原理上看,在卷積神經(jīng)網(wǎng)絡的實現(xiàn)中并不需要輸入固定大小的圖像,因此,本文設計一種改進的卷積神經(jīng)網(wǎng)絡實現(xiàn)多尺度交通標志識別。
1.1 ?網(wǎng)絡總體結(jié)構(gòu)設計
傳統(tǒng)卷積神經(jīng)網(wǎng)絡往往層級結(jié)構(gòu)固定,然而多尺度的輸入圖像經(jīng)過相同數(shù)量層級的網(wǎng)絡,提取到的特征質(zhì)量存在較大差異性,如圖3所示,使得網(wǎng)絡不能針對每種尺度的圖像都提取到較為有用的特征,故單一層級結(jié)構(gòu)的網(wǎng)絡對于不同尺度輸入圖像的識別率差別大,只能在某一尺度上進行高質(zhì)量的有效識別。為了對圖像的輸入不做具體的限制,同時改善使用傳統(tǒng)卷積神經(jīng)網(wǎng)絡對交通標志進行特征提取存在的差異性,設計網(wǎng)絡整體結(jié)構(gòu)為不同層級子網(wǎng)絡并聯(lián)而成。
針對不同的輸入尺寸,采用相應的識別子網(wǎng)絡結(jié)構(gòu)。目標尺寸較大時,其蘊含的特征信息更為豐富,需要提取的特征量也更大,對應的識別網(wǎng)絡深度更深,層級更多??商崛〉奶卣麟S著輸入目標尺寸的減小而減少,識別采用網(wǎng)絡的層數(shù)也應隨之發(fā)生變化。道路場景中可利用交通標志尺寸通常為15×15到250×250,若針對每一尺寸輸入設計子網(wǎng)絡結(jié)構(gòu),計算復雜度過高,識別效率遠不能滿足實時性要求。將交通標志按尺寸大小分為?。?5×15~42×42)、較?。?3×43~84×84)、中(85×85~168×168)、大(169×169~250×250)四類。針對每一類設計子網(wǎng)絡,并聯(lián)得到由4個子網(wǎng)絡組成的識別網(wǎng)絡,既可以實現(xiàn)對不同尺度輸入目標的特征提取,提高識別精度,又保證識別效率。
1.2 ?各子網(wǎng)絡結(jié)構(gòu)層設計
卷積神經(jīng)網(wǎng)絡通常由輸入層、卷積層、池化層、全連接層、輸出層組成,其結(jié)構(gòu)如圖4所示。
卷積層是網(wǎng)絡的核心內(nèi)容,從本質(zhì)上來講,卷積核的作用等同于一個濾波器,每一個卷積核得到原圖的一種圖像特征,即稱為卷積特征圖。在經(jīng)過本層的卷積操作后,將繼續(xù)向后續(xù)的卷積層傳遞。池化層又稱為下采樣層,它是網(wǎng)絡模型中最基礎的操作之一。
由于卷積層之后的特征圖參數(shù)量較大,網(wǎng)絡訓練過程較長,不利于實際操作,因此,利用池化層對特征數(shù)量進行采樣提取,用于后續(xù)操作。目前最常用的下采樣方式主要包括最大值采樣(max pooling)和均值采樣(mean pooling),最大值采樣即選取鄰域中的最大值作為輸出值,均值采樣則選擇鄰域內(nèi)所有值的均值作為輸出值。全連接操作也是卷積的特殊表現(xiàn)形式,但是其卷積核是[1×1]大小,全連接層后的輸出常用于結(jié)果分類。
當卷積網(wǎng)絡中所有卷積層采用[F×F]的卷積核,且卷積步長為[S1],池化步長為[S2]時,大小為[H×H]的輸入圖像采用SAME卷積方式經(jīng)過[n1]次卷積,[n2]次池化,得到輸出圖像大小為:
本文所有子網(wǎng)絡中卷積層采用核大小為[3×3]的濾波器,卷積步長為1,池化步長為2,根據(jù)最終特征圖大小一般不小于[7×7]的原則,對各子網(wǎng)絡中的卷積層、池化層的層數(shù)及分布進行設計。
子網(wǎng)絡1中設計5層卷積結(jié)構(gòu),前兩層卷積結(jié)構(gòu)都由2層卷積層與1層池化層組成,后三層卷積結(jié)構(gòu)都由3層卷積層與1層池化層組成,池化方式為最大池化。每一層卷積層的輸出都要用ReLu激活函數(shù)[12]進行激活,以增加卷積神經(jīng)網(wǎng)絡模型的非線性。ReLu函數(shù)定義為[y=0, ? ?x<0x, ? ?x>0],相較于Sigmoid激活函數(shù)與tanh激活函數(shù),ReLu函數(shù)在SGD中能夠更快速的收斂,同時由于其不涉及指數(shù)操作,計算量更小,不會像Sigmoid進入飽和區(qū)后造成信息丟失現(xiàn)象,其輸出部分為0的特性也緩解了過擬合問題。
子網(wǎng)絡2中設計4層卷積結(jié)構(gòu),前兩層卷積結(jié)構(gòu)中包含2層卷積層,后兩層卷積結(jié)構(gòu)中包含3層卷積層,每層卷積層結(jié)構(gòu)與子網(wǎng)絡1中相同。相似地,子網(wǎng)絡3中設計3層卷積結(jié)構(gòu),前兩層卷積結(jié)構(gòu)中包含2層卷積層,后一層卷積結(jié)構(gòu)中包含3層卷積層;子網(wǎng)絡4中設計兩層包含2層卷積層的卷積結(jié)構(gòu)。為了使4個子網(wǎng)絡結(jié)構(gòu)輸出的維度相同,分別在子網(wǎng)絡3與子網(wǎng)絡4上增加1個、2個1×1的卷積核。
同時使用驗證精度(Validation Accuracy)和過擬合比率(Overfitting Ratio)兩個標準對提出算法的識別效果進行評判。驗證精度定義為:
可以看出,傳統(tǒng)的特征識別方法和卷積神經(jīng)網(wǎng)絡識別法在四類尺寸目標上驗證精度不如本文提出的網(wǎng)絡架構(gòu),且不同類間浮動較大,同時目標越小,特征提取難度越大,類內(nèi)驗證精度也不穩(wěn)定,說明面對多尺度輸入目標識別效果不魯棒。本文網(wǎng)絡結(jié)構(gòu)不僅在四類尺寸輸入目標中都取得了最優(yōu)識別結(jié)果,且識別精度差異較小,說明面對多尺度輸入不僅識別精度高且魯棒性好。
3 ?結(jié) ?語
復雜交通場景中的交通標志檢測與識別是實現(xiàn)智能交通系統(tǒng)(ITS)與自動駕駛技術的關鍵與基礎。針對智能車真實交通環(huán)境中采集的交通標志圖片通常受到環(huán)境因素影響,識別難度高,且通常呈現(xiàn)多尺度分布的問題,本文提出一種基于多尺度卷積神經(jīng)網(wǎng)絡的交通標志識別方法,通過設計多尺度卷積神經(jīng)網(wǎng)絡架構(gòu)實現(xiàn)對不同尺寸輸入目標的魯棒識別。通過實驗驗證本文算法的有效性與科學性,與其他算法識別結(jié)果的對比表明,本文算法保障了多尺度輸入目標識別的魯棒性,提高了交通標志的識別準確率,在平衡實時性及準確率的基礎上,具有一定的實用價值,可以滿足智能駕駛中對交通標志的檢測要求,為智能駕駛的決策與控制提供了重要依據(jù)。
參考文獻
[1] SONG Wenjie, FU Mengyin, YANG Yi. An efficient traffic signs recognition method for autonomous vehicle [J]. Robot, 2015, 37(1): 102?111.
[2] Mao Jianxu, Liu Min. Traffic sign recognition using ICA?based affine invariant Zernike moment [J]. Journal of electronic measurement & instrument, 2013, 27(7): 617?623.
[3] WANG Yan, MU Chunyang, MA Xing. Traffic sign recognition based on Zernike invariant moment and SVM [J]. Journal of highway and transportation research and development, 2015, 32(12): 128?132.
[4] NGUWI Y Y, KOUZANI A Z. Detection and classification of road signs in natural environments [J]. Neural computing & applications, 2008, 17(3): 265?289.
[5] PRATIKAKIS I, GATOS B, NTIROGIANNIS K. ICDAR 2013 document image binarization contest (DIBCO 2013) [C]// International Conference on Document Analysis and Recognition. [S.l.]: IEEE, 2013: 1506?1510.
[6] CHANG Faliang, HUANG Cui, LIU Chengyun, et al. Traffic sign detection based on Gaussian color model and SVM [J]. Chinese journal of scientific instrument, 2014, 35(1): 43?49.
[7] MALDONADO BASCON S, LAFUENTE ARROYO H, GIL JIMENEZ P, et al. Road?sign detection and recognition based on support vector machines [J]. IEEE transactions on intelligent transportation systems, 2007, 8(2): 264?278.
[8] CIRE?AN D, MEIER U, MASCI J, et al. Multi?column deep neural network for traffic sign classification [J]. Neural networks, 2012, 32: 333?338.
[9] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich Feature hierarchies for accurate object detection and semantic segmentation [C]// Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2014: 580?587.
[10] REN S, HE K, GIRSHICK R, et al. Faster rcnn: towards real?time object detection with region proposal networks [C]// International Conference on Neural Information Processing Systems. [S.l.]: MIT Press, 2015: 91?99.
[11] HE Kaiming, ZHANG Xiangyu, REN Shaoqing , et al. Deep residual learning for image recognition [C]// Proceedings of Conference on Computer Vision and Pattern Recognition. [S.l.: s.n.], 2015: 770?778.
[12] EVERINGHAM M, GOOL L V, WILLIAMS C K I, et al. The pascal visual object classes (VOC) challenge [J]. International journal of computer vision, 2010, 88(2): 303?338.
[13] RUTA Andrzej, LI Yongmin, LIU Xiaohui. Real?time traffic sign recognition from video by class?specific discriminative features [J]. Pattern recognition, 2010, 43(1):416?430.
[14] CIRE?AN D, MEIER U, MASCI J, et al. Multi?column deep neural network for traffic sign classification [J]. Neural network, 2012, 32(1): 333?338.
[15] AGHDAM H H, HERAVI E J,PUIG D. Toward an optimal convolutional neural network for traffic sign recognition [C]// Proceedings of Eighth International Conference on Machine Vision. [S.l.]: International Society for Optics and Photonics, 2015, 9875: 151?156.
[16] LUO H, YANG Y, TONG B, et al. Traffic sign recognition using a multi?task convolutional neural network [J]. IEEE transactions on intelligent transportation systems, 2017, 99: 1?12.