陳宏彩(1.河北省科學(xué)院應(yīng)用數(shù)學(xué)研究所,河北 石家莊 050081;2.河北省信息安全認(rèn)證工程技術(shù)研究中心, 河北 石家莊050081)
一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的車輛顏色識(shí)別方法
陳宏彩1,2
(1.河北省科學(xué)院應(yīng)用數(shù)學(xué)研究所,河北 石家莊 050081;2.河北省信息安全認(rèn)證工程技術(shù)研究中心, 河北 石家莊050081)
車輛顏色是車輛中顯著而穩(wěn)定的特征之一,在智能交通系統(tǒng)中具有重要的作用。針對人工設(shè)計(jì)的特征提取方法難以有效表達(dá)復(fù)雜環(huán)境下車輛顏色特征的問題,本文在AlexNet網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上,通過調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)、優(yōu)化網(wǎng)絡(luò)參數(shù),形成了基于卷積神經(jīng)網(wǎng)絡(luò)的車輛顏色識(shí)別網(wǎng)絡(luò)模型。該方法不需要預(yù)處理過程,能夠自適應(yīng)地學(xué)習(xí)車輛顏色特征表示。對常見的車輛顏色進(jìn)行訓(xùn)練測試的實(shí)驗(yàn)結(jié)果表明,本文提出的方法應(yīng)用到車輛顏色識(shí)別問題上具有較好的優(yōu)勢。
深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);顏色識(shí)別;智能交通
在智能交通系統(tǒng)中,車牌識(shí)別[1]是一個(gè)重要而關(guān)鍵的研究課題。然而,隨著車輛數(shù)量增多,交通環(huán)境變得日益復(fù)雜,僅靠車牌對車輛識(shí)別已經(jīng)不能滿足人們的需要。車輛顏色占據(jù)著車輛身體的大部分面積,更容易引起人們的興起,從而可以彌補(bǔ)因車牌遮擋、車輛套牌、一車多牌等現(xiàn)象造成車牌識(shí)別失敗的不足。目前,車輛顏色自動(dòng)識(shí)別已經(jīng)成為智能交通系統(tǒng)中的一個(gè)重要研究課題并且被廣泛應(yīng)用,例如在視頻監(jiān)控[2]、犯罪檢測和執(zhí)法部門。
然而,在非可控的環(huán)境下車輛顏色識(shí)別仍是一個(gè)挑戰(zhàn)性的任務(wù)。這個(gè)挑戰(zhàn)主要來自兩方面:1)一些車輛顏色和其它的車輛顏色非常接近,識(shí)別中容易造成混淆。2)自然場景下車輛顏色易被各種因素影響,例如,霧霾、光線、雨和雪等。為了解決這些挑戰(zhàn)性難題,學(xué)者們已經(jīng)提出了很多創(chuàng)新性的工作[3,4],例如,人工設(shè)計(jì)彩色sift特征方法[3],標(biāo)準(zhǔn)RGB直方圖方法和特征紋理方法[4],這些方法不同程度上提高了車輛顏色識(shí)別精度,但是,在真實(shí)的復(fù)雜場景下,這些方法還遠(yuǎn)遠(yuǎn)無法滿足實(shí)際應(yīng)用需求。而且,為了消除一些因素的影響,常規(guī)方法通常依賴于預(yù)處理技術(shù)。
作為實(shí)現(xiàn)深度學(xué)習(xí)的一項(xiàng)重要技術(shù),卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)[5]是目前進(jìn)行圖像處理研究最有效的手段之一,已在圖像檢測和識(shí)別[6,7]等領(lǐng)域取得卓越成績。它類似于生物神經(jīng)網(wǎng)絡(luò)的權(quán)值共享網(wǎng)絡(luò)結(jié)構(gòu)可產(chǎn)生生物視覺中的局部感受野效應(yīng),降低網(wǎng)絡(luò)模型復(fù)雜度、減少權(quán)值數(shù)量的同時(shí)對平移、比例縮放、傾斜等視覺形變均具有高度的抵抗能力。本文提出一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的車輛顏色識(shí)別方法。
深度卷積神經(jīng)網(wǎng)絡(luò)可以將特征提取和識(shí)別結(jié)合起來,通過反向傳播可以不斷的優(yōu)化,將特征提取變?yōu)橐粋€(gè)自學(xué)習(xí)的過程,避免了人工選取特征。經(jīng)典的深度卷積神經(jīng)網(wǎng)絡(luò)模型有LeNet[8]、AlexNet[9]、GoogLeNet[6]、VGGNet[7]和深度殘差等[10]。這些模型在MNIST、Cifar、ImageNet等各數(shù)據(jù)集上都取得了不錯(cuò)的成績。常用的架構(gòu)主要是卷積神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)的交叉,在最后分類可以選擇Softmax或者SVM[11]分類器。最近的模型朝著更深的結(jié)構(gòu)發(fā)展,也伴隨著有更優(yōu)秀的算法加入模型中來解決訓(xùn)練中遇到的問題。
不同的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對數(shù)據(jù)具有一定的依賴性,所以需要根據(jù)數(shù)據(jù)本身的情況進(jìn)行設(shè)計(jì)具體的網(wǎng)絡(luò)模型。為了構(gòu)建一個(gè)較好的車輛顏色識(shí)別網(wǎng)絡(luò)模型,需要合理考慮網(wǎng)絡(luò)深度、卷積層個(gè)數(shù)、網(wǎng)絡(luò)中各層特征圖的數(shù)量及池化大小等參數(shù),使之適合實(shí)際數(shù)據(jù)。本文選擇網(wǎng)絡(luò)結(jié)構(gòu)及參數(shù)大小適中的AlexNet模型作為基礎(chǔ)網(wǎng)絡(luò),通過參考一些經(jīng)典改進(jìn)模型的方法和策略,設(shè)計(jì)車輛顏色識(shí)別模型,網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。本網(wǎng)絡(luò)結(jié)構(gòu)共有8層,包含五個(gè)卷積層,兩個(gè)全連接層,一個(gè)輸出分類層。在每個(gè)卷積層后面,連接著對比度標(biāo)準(zhǔn)化,最大池化層和非線性操作,最后一層是網(wǎng)絡(luò)的輸出層,輸出層參數(shù)由車輛顏色類別個(gè)數(shù)決定。每個(gè)全連接層的輸出通過公式Y(jié)t=Wt-1Yt-1+Bt-1計(jì)算,參數(shù)W和B通過訓(xùn)練階段學(xué)習(xí)獲得。在網(wǎng)絡(luò)結(jié)構(gòu)的最后一層連接一個(gè)Softmax非線性激活函數(shù),這個(gè)函數(shù)計(jì)算出測試數(shù)據(jù)在每個(gè)類別里的分?jǐn)?shù)值。
圖1 車輛顏色識(shí)別方法網(wǎng)絡(luò)模型
2.1 卷積核設(shè)計(jì)
卷積神經(jīng)網(wǎng)絡(luò)中每個(gè)特征圖學(xué)習(xí)輸入圖像的一種特征,特征圖的數(shù)量即卷積核的個(gè)數(shù),所以卷積核的數(shù)量決定了提取特征的多少。卷積核的數(shù)量設(shè)計(jì)要合理。若卷積核個(gè)數(shù)過少,提取的特征類別少,網(wǎng)絡(luò)學(xué)習(xí)到的信息越少,最后會(huì)使網(wǎng)絡(luò)模型分類的準(zhǔn)確率下降。若卷積核的個(gè)數(shù)過多,提取的特征信息冗余,會(huì)使得網(wǎng)絡(luò)模型訓(xùn)練時(shí)過擬合,而且加大了卷積運(yùn)算量,從而導(dǎo)致網(wǎng)絡(luò)訓(xùn)練時(shí)間加長。另外,特征圖數(shù)量選擇要和實(shí)驗(yàn)平臺(tái)配置相匹配。在實(shí)驗(yàn)中用車輛數(shù)據(jù)庫訓(xùn)練并測試了幾種不同卷積核個(gè)數(shù)變化對識(shí)別率的影響,如表1所示。
表1 不同卷積核數(shù)量在車輛顏色數(shù)據(jù)庫上的訓(xùn)練結(jié)果表
圖2 卷積層響應(yīng)圖
卷積核的大小即感受野區(qū)域。它的大小需要根據(jù)實(shí)際樣本進(jìn)行選擇。如果卷積核大小過大,提取到局部信息的太復(fù)雜;如果過小,不能提取到有效的特征。理論上卷積核大小越小提取的特征越好,但是實(shí)際中圖像中會(huì)存在噪聲等情況。當(dāng)卷積核大小為7×7時(shí),通過可視化程序,觀察第一層卷積層的響應(yīng)情況。第一個(gè)卷積層的濾波器的權(quán)重示意圖如圖2所示,從圖中可以看到了很多邊緣信息,其中有些部分負(fù)責(zé)提取彩色特征。本文卷積核大小設(shè)置如圖1網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)所示。
2.2 激活函數(shù)設(shè)計(jì)
激活函數(shù)就是神經(jīng)網(wǎng)絡(luò)中,神經(jīng)元的輸入與輸出之間的映射關(guān)系。激活函數(shù)對網(wǎng)絡(luò)模型的收斂性影響很大,合適的激活函數(shù)可以提高網(wǎng)絡(luò)模型的收斂速度。常用的激活函數(shù)有Sigmoid、Tanh、Relu等。其中Sigmoid和Tanh是傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中常用的兩個(gè)激活函數(shù),但是這兩種函數(shù)的輸出不具備稀疏性,而且Bengio[12]發(fā)現(xiàn)Sigmoid網(wǎng)絡(luò)在5層之內(nèi)會(huì)產(chǎn)生梯度消失現(xiàn)象。
圖3 Relu函數(shù)圖
與傳統(tǒng)激活函數(shù)相比,Relu(Rectified Linear Units)能夠有效緩解梯度消失問題,從而直接以監(jiān)督的方式訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),無需依賴無監(jiān)督的逐層預(yù)訓(xùn)練。本文設(shè)計(jì)的網(wǎng)絡(luò)模型采用的Relu激活函數(shù)。Relu是線性的、非飽和的,而且只需要一個(gè)閾值就可以得到激活值,其函數(shù)為公式(1),函數(shù)圖像如圖3所示:
g(x)=max(0,x)
(1)
從圖3中可以看出,如果計(jì)算出的值小于0,就讓輸出值等于0,大于0的值就保持原來的值不變。因此可以在訓(xùn)練中,加快收斂,縮短訓(xùn)練時(shí)間。這樣會(huì)使訓(xùn)練后的網(wǎng)絡(luò)具備一定的稀疏性。Relu函數(shù)的導(dǎo)數(shù)形式如公式(2):
(2)
從式子中可見,當(dāng)大于0時(shí),Relu的導(dǎo)數(shù)對應(yīng)值為1,這使得在反向傳播時(shí),能很好的將梯度傳遞到前面的網(wǎng)絡(luò)層,避免梯度消失的問題,所以在設(shè)計(jì)中首選了Relu函數(shù)作為網(wǎng)絡(luò)模型的激活函數(shù)。
2.3 分類器設(shè)計(jì)
卷積神經(jīng)網(wǎng)絡(luò)的輸入要求圖像大小統(tǒng)一,而經(jīng)過車輛定位處理后的圖像大小各異,因此需要將圖片進(jìn)行預(yù)處理,通過歸一化最后得到大小為256×256的車輛圖像。
在網(wǎng)絡(luò)的輸出層中,用于訓(xùn)練的車輛顏色標(biāo)注有8類。因此,最后的基于深度卷積神經(jīng)網(wǎng)絡(luò)的模型的輸出節(jié)點(diǎn)為8。在輸出層采用Softmax分類器,計(jì)算車輛顏色屬于哪個(gè)具體顏色的概率,計(jì)算公式為:
(3)
3.1 實(shí)驗(yàn)環(huán)境
為實(shí)現(xiàn)車輛顏色識(shí)別功能,在AMAX服務(wù)器上進(jìn)行實(shí)驗(yàn)測試,其實(shí)驗(yàn)環(huán)境為:
(1)實(shí)驗(yàn)系統(tǒng):Ubuntu14.04操作系統(tǒng)+CUDA7.5。
(2)硬件配置:4塊型號(hào)為NVIDIA Tesla K40 GPU顯卡;CPU為Intel Core i7,主頻2GHz,Intel(R) Xeon(R) CPU E5-2650 V2 @ 2.60GHz,系統(tǒng)內(nèi)存為16GB。
(3)軟件配置:Cudnn、Caffe[13]和相關(guān)依賴包。
3.2 實(shí)驗(yàn)數(shù)據(jù)
車輛顏色識(shí)別測試數(shù)據(jù)集是從某市交通卡口獲取的交通圖像。通過車輛定位算法將其中車輛剪切,然后根據(jù)顏色分類,制作訓(xùn)練樣本集及測試數(shù)據(jù)集。車輛顏色分為白色、黑色、紅色、綠色、藍(lán)色、黃色、灰色和深藍(lán)色共8個(gè)類別,顏色樣本示例如圖4所示。每類訓(xùn)練樣本數(shù)目從300張到700張不等,訓(xùn)練數(shù)據(jù)集總共4520張圖像,測試數(shù)據(jù)集共4000張圖像,每張圖像的分辨率大小2048×1536。
圖4 本文車輛顏色樣本
3.3 訓(xùn)練與測試結(jié)果
在訓(xùn)練階段,采用step學(xué)習(xí)策略,設(shè)置的初始學(xué)習(xí)率為0.01,使用沖量學(xué)習(xí),沖量值設(shè)為0.9。經(jīng)過調(diào)整迭代次數(shù)和訓(xùn)練參數(shù),最終的訓(xùn)練結(jié)果如圖5所示。
圖5 訓(xùn)練和測試錯(cuò)誤率圖
在調(diào)參中,當(dāng)訓(xùn)練迭代次數(shù)小于2000時(shí),train loss和test loss的值一直處于下降趨勢,測試的準(zhǔn)確率也呈上升趨勢,說明這個(gè)網(wǎng)絡(luò)處于學(xué)習(xí)狀態(tài)中,可以調(diào)大迭代次數(shù),使準(zhǔn)確率達(dá)到一個(gè)穩(wěn)定值。但是迭代次數(shù)不能過高,因?yàn)殡S著迭代次數(shù)增加,訓(xùn)練階段耗時(shí)較長。所以需要調(diào)試到合適的迭代次數(shù)。當(dāng)訓(xùn)練模型時(shí),會(huì)遇到train loss和test loss不斷上升,說明網(wǎng)絡(luò)模型設(shè)計(jì)出現(xiàn)問題;兩者的值都不變時(shí),說明學(xué)習(xí)的超參數(shù)需要調(diào)節(jié),如學(xué)習(xí)數(shù)量、批尺寸大小。若train loss處于下降狀態(tài),test loss的值沒有變化,則說明網(wǎng)絡(luò)模型出現(xiàn)過擬合。
測試車輛數(shù)據(jù),統(tǒng)計(jì)其車輛顏色識(shí)別正確率情況。為了證明提出方法具有意義,重復(fù)試驗(yàn)5次,每次獲得8個(gè)車輛顏色的識(shí)別正確率,最后再取平均值,測試結(jié)果如表2所示。從表2中可以看出深度卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到車輛顏色識(shí)別上達(dá)到了較好的識(shí)別效果,平均測試準(zhǔn)確率為97.0%,識(shí)別每張車輛圖像顏色需要耗時(shí)0.008ms。
表2 測試車輛顏色識(shí)別率情況
本文提出了一個(gè)基于深度卷積神經(jīng)網(wǎng)絡(luò)的車輛顏色識(shí)別方法。這個(gè)方法基于AlexNet模型設(shè)計(jì)車輛顏色識(shí)別網(wǎng)絡(luò)結(jié)構(gòu)。從卷積核參數(shù)、激活函數(shù)、分類器等方面討論了影響車輛顏色識(shí)別的因素。本文建立的車輛顏色識(shí)別模型能夠自適應(yīng)地學(xué)習(xí)車輛顏色特征,而不需要預(yù)處理過程。通過對8中常見車輛顏色識(shí)別的實(shí)驗(yàn)結(jié)果表明,本文提出的方法能夠取得較高的識(shí)別準(zhǔn)確率,平均識(shí)別率達(dá)到97.0%,而且在運(yùn)行時(shí)間上也較快,在一臺(tái)具有4塊NVIDIA Tesla K40 的機(jī)器上平均處理一張圖片的時(shí)間為0.008ms,具有較強(qiáng)的實(shí)用意義。
[1] Y.Wen et al.“An algorithm for license plate recognition applied to intelligent transportation system,” IEEE Trans.Intell.Transp.Syst.,vol.12,no.3,pp.830-845,Sep.2011.
[2] J.B.Kim and H.J.Kim,“Efficient region-based motion segmentation for a video monitoring system,” Pattern Recognit.Lett.,vol.24,no.1-3,pp.113-128,Jan.2003.
[3] K.E.Van De Sande,T.Gevers,and C.G.Snoek,“Evaluating color descriptors for object and scene recognition,” IEEE Trans.Pattern Anal.Mach.Intell.,vol.32,no.9,pp.1582-1596,Sep.2010.
[4] P.Chen,X.Bai,and W.Liu,“Vehicle color recognition on urban road by feature context,” IEEE Trans.Intell.Transp.Syst.,vol.15,no.5,pp.2340-2346,Oct.2014.
[5] 李彥冬,郝宗波,雷航.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計(jì)算機(jī)應(yīng)用,2016,36(9): 2508-2515.
[6] Szegedy C,Liu W,Jia Y,et al.Going deeper with convolutions[C]//IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society,2015:1-9.
[7] Simonyan K,Zisserman A.Very Deep Convolutional Networks for Large-Scale Image Recognition[J].Computer Science,2015.
[8] LeCun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11): 2278-2324.
[9] Krizhevsky A,Sutskever I,Hinton G E.Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems.2012:1097-1105.
[10] He K,Zhang X,Ren S,et al.Deep Residual Learning for Image Recognition[J].2016:770-778.
[11] 袁勛,吳秀清,洪日昌等.基于主動(dòng)學(xué)習(xí)SVM分類器的視頻分類[J].中國科學(xué)技術(shù)大學(xué)學(xué)報(bào),2009,39(5):473-478.
[12] Glorot X,Bengio Y.Understanding the difficulty of training deep feedforward neural networks[C]//Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics.2010: 249-256.
[13] Jia Y,Shelhamer E,Donahue J,et al.Caffe:Convolutional architecture for fast feature embedding[C]//Proceedings of the 22nd ACM international conference on Multimedia.ACM,2014: 675-678.
A Method of vehicle color recognition based on deep convolutional neural networks
CHEN Hong-cai1,2
(1.HebeiAcademyofSciencesInstituteofAppliedMathematics,ShijiazhuangHebei050081,China; 2.HebeiAuthenticationTechnologyEngineeringResearchCenter,ShijiazhuangHebei050081,China)
Vehicle color is one of the significant and stable features of the vehicle and it plays an important role in the intelligent transportation system.Artificial designed methods of feature extracting have an imperfect description of vehicle in the complex background.Vehicle color recognition model is designed to classify vehicle color by adjusting the AlexNet network structure and optimizing network parameters.This method can adaptively learn vehicle color features without preprocessing process.The experimental results show that the approach of deep convolutional neural networks is applied to the vehicle color recognition has a good advantage.
Deep learning; Convolutional neural network;Color recognition; Intelligent transportation
2017-05-12
河北省科技計(jì)劃項(xiàng)目(17395602D)
陳宏彩(1981-),女,河北灤南人,研究方向:主要從事圖像處理、計(jì)算機(jī)視覺方面的研究.
1001-9383(2017)02-0001-06
TP391.4
A