孫 曄,吳銳文(廈門大學(xué)通信工程系,廈門361005)
基于卷積神經(jīng)網(wǎng)絡(luò)的車標(biāo)識(shí)別
孫曄,吳銳文
(廈門大學(xué)通信工程系,廈門361005)
提出一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的車標(biāo)識(shí)別方法,通過多層的特征學(xué)習(xí),能夠直接從訓(xùn)練樣本中提取特征,最后送入神經(jīng)網(wǎng)絡(luò)分類器進(jìn)行分類。驗(yàn)證集采用5000個(gè)從屬于10類車標(biāo)并附有各類變化的車標(biāo)數(shù)據(jù)庫,該應(yīng)用算法達(dá)到98.28%的平均準(zhǔn)確率和每張少于3ms的識(shí)別速度(在MATLAB環(huán)境下),實(shí)驗(yàn)表明,該方法對(duì)于車標(biāo)識(shí)別問題具有優(yōu)異的準(zhǔn)確率和魯棒性,且對(duì)于計(jì)算資源要求很低。
智能交通;車標(biāo)識(shí)別;深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò)
近年來很多基于視覺的智能交通系統(tǒng)應(yīng)運(yùn)而生,它們多是用于車輛信息的檢測、追蹤和識(shí)別,尤其是用于城市交通監(jiān)控和高速管理系統(tǒng)。也正因?yàn)橹悄芙煌ㄏ到y(tǒng)的廣泛普及,車標(biāo)識(shí)別問題在這些年來也受到了越來越多的關(guān)注。
大多數(shù)關(guān)注車標(biāo)識(shí)別問題的方法采用尺度不變特征變換(Scale-Invariant Feature Transform,簡稱SIFT)和圖像匹配。Dlagnekov and Belongie[1]采用SIFT特征在遠(yuǎn)景車輛圖片上獲得了89.5%的準(zhǔn)確率,Conos[2]在近景圖像上采用SIFT特征達(dá)到了90%的準(zhǔn)確率,但其共同缺點(diǎn)是處理運(yùn)算量大,無法做到實(shí)時(shí)。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種含有多層次結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)[3],每層由包含有獨(dú)立神經(jīng)元的一個(gè)二維平面組成,通過局部感受野策略和池化方法,CNN可以提高其提取的特征對(duì)于旋轉(zhuǎn)平移等變化的魯棒性并降低計(jì)算規(guī)模。CNN方法在手寫字符識(shí)別和人臉識(shí)別領(lǐng)域已投入應(yīng)用并有著優(yōu)良的識(shí)別效果[4~5]。
受到CNN層次結(jié)構(gòu)特征學(xué)習(xí)上的啟發(fā),本文中提出了一種基于CNN的車標(biāo)識(shí)別系統(tǒng)。有別于手工設(shè)計(jì)的特征,CNN結(jié)構(gòu)的特征可以從原始圖像中自動(dòng)提取。我們采用BP神經(jīng)網(wǎng)絡(luò)作為分類器,在一個(gè)含有5000個(gè)各類變化的車標(biāo)數(shù)據(jù)集上達(dá)到了98.28%的識(shí)別率,并且在28×28大小的車標(biāo)圖上每張?zhí)幚淼臅r(shí)間在未經(jīng)任何優(yōu)化的情況下只有3ms,這也說明該方法是十分高效的。
1.1車標(biāo)定位和分割
在本文中,識(shí)別任務(wù)是在分割好的只含有車標(biāo)的圖像條件下完成的,這就需要我們將車標(biāo)的定位和分割作為預(yù)處理環(huán)節(jié),如圖1所示,由于該環(huán)節(jié)非本文的主要工作目標(biāo),本文這部分緊跟著Psyllos[7]的工作:
一張含有車輛的監(jiān)控圖片首先被轉(zhuǎn)為灰度圖像,再送入車牌定位(License Plate Location,LPL)系統(tǒng),LPL系統(tǒng)將輸出車牌的角點(diǎn)坐標(biāo),根據(jù)這四個(gè)坐標(biāo)我們就可以得到其上方含有車標(biāo)的一個(gè)大致區(qū)域。在該區(qū)域上我們采用相位一致性特征圖(Phase Congruency Feature Map(PCFM)Calculation[6]),由此,我們即將一副監(jiān)控含有車輛的圖片裁剪為了只含有車標(biāo)的圖片(圖1)。
圖1
1.2CNN車標(biāo)識(shí)別
在車標(biāo)定位之后,我們獲得了一個(gè)只含有車標(biāo)的小尺寸圖片,如圖2所示,本文提出的基于CNN的識(shí)別系統(tǒng)是一種有監(jiān)督學(xué)習(xí)的識(shí)別方法,它包含有特征提取和分類器設(shè)計(jì)兩個(gè)部分。對(duì)于車標(biāo)識(shí)別問題,由于其拍攝光照、視角、背景等因素的多變性,我們需要提取的特征具有很好的表征能力,CNN包含有的三種結(jié)構(gòu)特性恰好能滿足旋轉(zhuǎn)、尺度和多類型形變的場景需求,這三種構(gòu)架分別是:局部感受野、權(quán)值共享、池化下采樣。
CNN的特征提取環(huán)節(jié)是由多次交替的卷積層和池化層實(shí)現(xiàn)的,其思想是模仿人的視網(wǎng)膜感受神經(jīng)。如圖2所示,我們輸入28×28的剪切后車標(biāo)圖像,經(jīng)過對(duì)卷積核的有監(jiān)督訓(xùn)練我們獲得了Ci層:
其中x是原始輸入圖像,?代表卷積運(yùn)算,i代表了第i個(gè)卷積核,sigmoid運(yùn)算的定義為:sigmoid(x)=1/(1+e-x),在卷積層后緊跟的池化層定義為:
其中C是我們之前獲取的卷積層,Ω是一個(gè)2×2的方形區(qū)域。池化層的作用是在用來減小特征圖尺寸規(guī)模的同時(shí),增強(qiáng)了特征對(duì)于旋轉(zhuǎn)和變形的魯棒性。在有了卷積層和池化層定義的基礎(chǔ)上,前一層的輸出作為后一層的輸入,最終的特征提取環(huán)節(jié)由交替地進(jìn)行(1)式(2)式得到。在本文提出的方法中一共交替進(jìn)行了兩次,也就是說我們含有C1、S2、C3、S4四層。其中的參數(shù)設(shè)置在表1中提供。
表1
由于自然圖像的特性,在一個(gè)局部提取特征可能在圖中的另一部分仍然有效,因此CNN的卷積層采取了權(quán)重共享策略,通過共享權(quán)重CNN還做到了旋轉(zhuǎn)不變的特性,因此可以在多變的識(shí)別檢測領(lǐng)域取得優(yōu)良的效果,關(guān)于多層卷積神經(jīng)網(wǎng)絡(luò)的更多細(xì)節(jié)可以參見文獻(xiàn)[4~5]。
對(duì)于車標(biāo)識(shí)別任務(wù),我們首先獲取了輸入車標(biāo)圖像的局部特征,再將這些特征層層迭代處理以獲取更高級(jí)特征,這樣最后的特征被拉成一個(gè)一維向量,該向量就是此車標(biāo)圖像的表征,我們也正是用此特征來有監(jiān)督的訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)分類器。
本文提出的識(shí)別系統(tǒng)是在2100張由監(jiān)控設(shè)備拍下的包含有車輛的室外圖像上驗(yàn)證的。首先經(jīng)過車標(biāo)定位獲取只含有車標(biāo)的圖片(如1.1節(jié)所講),為了模仿不同的拍攝條件變化,我們對(duì)截取好的車標(biāo)加入了:旋轉(zhuǎn)(-10~10度)、平移(四個(gè)方向3像素距離)、尺度變換、噪聲(高斯噪聲、椒鹽噪聲、泊松噪聲),最終獲取了十類共30,000張的圖片。一些樣例圖在圖3中展示。所有的圖片被歸一化到28×28大小,對(duì)于這30,000張圖片,我們?nèi)?5,000張作為訓(xùn)練,5,000張作為測試。
圖2
圖3
對(duì)于十類不同車標(biāo)的識(shí)別準(zhǔn)確率匯總在表2中,平均的準(zhǔn)確率為98.28%,因?yàn)槲覀兡M了不同的場景變化,所以結(jié)果表明該方法具有優(yōu)良的魯棒性。在未經(jīng)任何優(yōu)化的情況下本方法的識(shí)別速率為3ms每張,這說明了該方法的高效性并完全有能力滿足實(shí)時(shí)應(yīng)用的需求。
在表3中我們列出了與其他算法的比較,可以看到本文提出的方法具有優(yōu)異的準(zhǔn)確率和極低的運(yùn)算資源需求,并且本文提出的特征提取環(huán)節(jié)完全不需要手工設(shè)計(jì)特征的參與,特征完全從原始圖像中自動(dòng)自適應(yīng)學(xué)習(xí),做到了對(duì)于不同環(huán)境變化的魯棒性。
在本文中提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的車標(biāo)識(shí)別系統(tǒng),該系統(tǒng)能夠準(zhǔn)確地識(shí)別在定位和截取后獲取的車標(biāo)圖片。多層的卷積神經(jīng)網(wǎng)絡(luò)能夠自動(dòng)和自適應(yīng)地從原始圖像中獲取特征并最后通過BP神經(jīng)網(wǎng)絡(luò)進(jìn)行分類。在十類含有不同類型形變和噪聲的測試集上,證明了本文提出的算法有效、準(zhǔn)確、魯棒性優(yōu)良并不需要人工設(shè)計(jì)特征的參與,該方案可以有效地應(yīng)用于智能交通系統(tǒng)的實(shí)時(shí)識(shí)別中。
表2
表3
[1]Dlagnekov L,Belongie S J.Recognizing Cars[M].Department of Computer Science and Engineering,University of California,San Diego,2005
[2]Conos M.Recognition of Vehicle Make from a Frontal View[J].Master,Czech Tech.Univ.,Prague,Czech Republic,2006
[3]Hubel D H,Wiesel T N.Receptive Fields of Single Neurones in the Cat's Striate Cortex[J].The Journal of Physiology,1959,148(3): 574~591
[4]LeCun Y,Bottou L,Bengio Y,et al.Gradient-Based Learning Applied to Document Recognition[J].Proceedings of the IEEE,1998,86(11):2278~2324
[5]Lawrence S,Giles C L,Tsoi A C,et al.Face Recognition:A Convolutional Neural-Network Approach[J].Neural Networks,IEEE Transactions on,1997,8(1):98~113
[6]Anagnostopoulos C N E,Anagnostopoulos I E,Loumos V,et al.A License Plate-Recognition Algorithm for Intelligent Transportation System Applications[J].Intelligent Transportation Systems,IEEE Transactions on,2006,7(3):377~392
[7]Psyllos A P,Anagnostopoulos C N E,Kayafas E.Vehicle Logo Recognition Using a Sift-Based Enhanced Matching Scheme[J].Intelligent Transportation Systems,IEEE Transactions on,2010,11(2):322~328
[8]Yunqiong W,Zhifang L,Fei X.A Fast Coarse-to-Fine Vehicle Logo Detection and Recognition Method[C].Robotics and Biomimetics,2007.ROBIO 2007.IEEE International Conference on.IEEE,2007:691~696
[9]Sam K T,Tian X L.Vehicle Logo Recognition Using Modest Adaboost and Radial Tchebichef Moments[C].International Conference on Machine Learning and Computing(ICMLC 2012),2012
[10]Psyllos A,Anagnostopoulos C N,Kayafas E.M-SIFT:A New Method for Vehicle Logo Recognition[C].Vehicular Electronics and Safety(ICVES),2012 IEEE International Conference on.IEEE,2012:261~266
[11]Yu S,Zheng S,Yang H,et al.Vehicle Logo Recognition Based on Bag-of-Words[C].Advanced Video and Signal Based Surveillance(AVSS),2013 10th IEEE International Conference on.IEEE,2013:353~358
Intelligent Transportation Systems;Vehicle Logo Recognition;Deep Learning;Convolutional Neural Networks
Vehicle Logo Recognition Based on Convolutional Neural Networks
SUN Ye,WU Rui-wen
(Department of Communication Engineering,Xiamen University,Xiamen 361005)
Proposes a vehicle logo recognition based on Convolutional Neural Networks.With a deep hierarchical feature learning process,the proposed method extracts the features from the training samples directly,and trains the classier based on neural network.Applies 5,000 logos belonging to 10 vehicle manufactures for validation.The average accuracy 98.28%for ten classes and fast implementation(less than 3ms for each logo in MATLAB)has demonstrated that the proposed method outperforms than state-of-art with higher accuracy,stronger robustness,and less computational cost.
1007-1423(2015)11-0084-04
10.3969/j.issn.1007-1423.2015.11.017
孫曄(1990-),男,吉林吉林人,碩士研究生,研究方向?yàn)闄C(jī)器學(xué)習(xí)和深度學(xué)習(xí)
吳銳文(1990-),男,四川成都人,在讀碩士研究生,研究方向?yàn)闄C(jī)器學(xué)習(xí)和圖像分割
2015-03-12
2015-03-26