李晨 汪楊
摘要:在真實(shí)的駕駛場(chǎng)景中,由于光照變化、拍照角度等因素,所采集的圖片質(zhì)量往往不高,這就對(duì)交通標(biāo)志識(shí)別的準(zhǔn)確性提出很高要求。針對(duì)這種問題,我們提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的交通標(biāo)志識(shí)別方法。該方法采用兩步驟方案,在檢測(cè)步驟中,目標(biāo)是提出圖片中交通標(biāo)志的邊界框。在識(shí)別步驟中,是識(shí)別裁剪圖像的標(biāo)簽。實(shí)驗(yàn)結(jié)果表明,我們提出的方案能夠有效解決光照變化、各種天氣等實(shí)際駕駛環(huán)境中的問題。
關(guān)鍵詞:深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);交通標(biāo)志
中圖分類號(hào):TP391.41 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2018)06-0096-02
智能汽車是未來汽車行業(yè)的發(fā)展趨勢(shì),道路交通標(biāo)志的檢測(cè)與識(shí)別作為自動(dòng)駕駛的基本技術(shù)之一,受到人們的日益重視。道路交通標(biāo)志檢測(cè)與識(shí)別分為兩個(gè)基本環(huán)節(jié):先是檢測(cè)交通標(biāo)志,包括交通標(biāo)志的定位、提取。然后是交通標(biāo)志的識(shí)別,包括交通標(biāo)志的特征提取與分類。
近年來,深度學(xué)習(xí)方法對(duì)許多任務(wù)(例如圖像分類和語(yǔ)音識(shí)別)表現(xiàn)出優(yōu)越的性能,顯示出它們?cè)趫D像分類,定位和檢測(cè)等任務(wù)中的優(yōu)勢(shì)。在這篇文章中,我們提出一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)的兩步驟方案進(jìn)行交通標(biāo)志的檢測(cè)與識(shí)別。在檢測(cè)步驟,采用級(jí)聯(lián)卷積網(wǎng)絡(luò)快速定位并裁剪圖像中的交通標(biāo)志;在識(shí)別步驟,用Inception-ResNet-v2網(wǎng)絡(luò)提取裁剪標(biāo)志的特征并通過SVM或者計(jì)算距離進(jìn)行識(shí)別。
1 基于級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的交通標(biāo)志檢測(cè)
1.1 TsingHua-Tencent 100k數(shù)據(jù)集
廣泛用于評(píng)估檢測(cè)性能的兩個(gè)數(shù)據(jù)集是PASCAL VOC和ImageNet ILSVRC。在這些數(shù)據(jù)集中,目標(biāo)對(duì)象通常占據(jù)每個(gè)圖像的很大比例。然而,一個(gè)典型的交通標(biāo)志可能會(huì)是80*80像素,在2000*2000像素的圖像,或只有圖像的0.2%。因此,我們采用TsingHua-Tencent 100k數(shù)據(jù)集訓(xùn)練檢測(cè)網(wǎng)絡(luò)。此數(shù)據(jù)集具有如下特征:
(1)數(shù)據(jù)集具有很高的分辨率,每張圖片的分辨率都接近2000*2000。
(2)數(shù)據(jù)集覆蓋了實(shí)際交通環(huán)境中的各種情況,在光照和天氣條件等方面有很大的變化,還包括遮擋的例子。
(3)數(shù)據(jù)集包含的交通標(biāo)志類別多樣,覆蓋了當(dāng)前中國(guó)三大類交通標(biāo)志。
(4)交通標(biāo)志占據(jù)圖片的比例很小,或只有圖像的0.2%。
1.2 級(jí)聯(lián)卷積網(wǎng)絡(luò)
聯(lián)卷積網(wǎng)絡(luò)結(jié)構(gòu)在人臉檢測(cè)的精度與速度上具有有較好的效果。我們借鑒此人臉檢測(cè)網(wǎng)絡(luò)設(shè)計(jì)我們的交通標(biāo)志檢測(cè)網(wǎng)絡(luò)。檢測(cè)過程可以分為三個(gè)步驟:
(1) PNET找到圖像中可能存在的交通標(biāo)志候選區(qū)域并進(jìn)行二分類,丟棄90%的不包含交通標(biāo)志的候選區(qū)域,保留的候選區(qū)域作為SNET的輸入圖像;
(2) RNET完成與PNET相同的任務(wù),RNET網(wǎng)絡(luò)較PNET深提升對(duì)候選區(qū)域的分類能力,此步驟再次減少90%候選區(qū)域;
(3) RNET網(wǎng)絡(luò)保留的候選區(qū)域作為ONET輸入圖像進(jìn)行最后二分類并確定交通標(biāo)志的坐標(biāo)。
多尺度訓(xùn)練有利于小目標(biāo)檢測(cè),關(guān)鍵點(diǎn)檢測(cè)有助于檢測(cè)遮擋、模糊的目標(biāo)。我們的交通標(biāo)志檢測(cè)網(wǎng)絡(luò)同時(shí)采用多尺度訓(xùn)練與關(guān)鍵點(diǎn)檢測(cè),對(duì)于運(yùn)動(dòng)模糊導(dǎo)致的圖像質(zhì)量不高、僅占圖像比例很小一部分的交通標(biāo)志具有很好的檢測(cè)效果并且級(jí)聯(lián)卷積網(wǎng)絡(luò)檢測(cè)交通標(biāo)志能夠達(dá)到實(shí)時(shí)的性能,對(duì)于復(fù)雜環(huán)境、天氣狀況具有很好的魯棒性。
2 基于卷積神經(jīng)網(wǎng)絡(luò)的交通標(biāo)志識(shí)別
交通標(biāo)志是人為設(shè)計(jì)的具有規(guī)定顏色和固定形狀或圖形的公共標(biāo)志。我國(guó)的交通標(biāo)志主要有警告、禁令、指示和指路等類型,通常使用顏色來區(qū)分類型,用形狀或圖形表示具體內(nèi)容。在交通標(biāo)志設(shè)計(jì)上,不同類型的交通標(biāo)志在形狀或圖形上差異較大;相同類型的標(biāo)志在形狀或圖形上差異較小,如禁令標(biāo)志中的禁止直行、禁止掉頭等。所以,卷積神經(jīng)網(wǎng)絡(luò)在場(chǎng)景理解上會(huì)出現(xiàn)同類指示信息的標(biāo)志之間比不同類型的標(biāo)志之間更容易引起誤識(shí)別。
2.1 Inception-ResNet-v2網(wǎng)絡(luò)
inception-resnet-v2把殘差網(wǎng)絡(luò)融入inception v4,使用了比之前網(wǎng)絡(luò)更廉價(jià)的Inception塊。每個(gè)Inception塊之后是濾波器擴(kuò)展層(1×1卷積,無激活函數(shù)),用于放大濾波器組的維數(shù)添加以匹配輸入的深度。inception-resnet-v2具有與inception v4原始版本相當(dāng)?shù)挠?jì)算成本但有著更高的準(zhǔn)確度。在ILSVRC 2012識(shí)別任務(wù)上取得很好的效果。我們基于Inception-ResNet-v2設(shè)計(jì)交通標(biāo)志識(shí)別網(wǎng)絡(luò),主要有兩點(diǎn)變化:1)除網(wǎng)絡(luò)最后的分類層(softmax層)進(jìn)行訓(xùn)練;2)采用softmax loss結(jié)合 center loss作為損失函數(shù)。
與大多數(shù)深度卷積網(wǎng)絡(luò)作為中間瓶頸不同,我們?nèi)コ矸e網(wǎng)絡(luò)最后的softmax層進(jìn)行訓(xùn)練,直接優(yōu)化特征向量本身。去除softmax層基于深度卷積網(wǎng)絡(luò)學(xué)習(xí)每個(gè)圖像的歐式距離,訓(xùn)練網(wǎng)絡(luò)使得特征空間中的L2距離的平方直接對(duì)應(yīng)于交通標(biāo)志的相似性:同一個(gè)交通標(biāo)志的距離很近,而不同交通標(biāo)志的距離很遠(yuǎn)。因此,交通標(biāo)志的識(shí)別任務(wù)就可以轉(zhuǎn)化為計(jì)算特征之間的距離。
基于深度網(wǎng)絡(luò)的多數(shù)的交通標(biāo)志識(shí)別方法使用分類層在一組已知類別的數(shù)據(jù)集上進(jìn)行訓(xùn)練,然后采用中間瓶頸層提取特征提交給網(wǎng)絡(luò)最后一層(softmax層)進(jìn)行分類(識(shí)別)。與這些方法不同,我們使用基于softmax loss結(jié)合center loss函數(shù)直接訓(xùn)練其輸出為緊致的128維特征向量。我們識(shí)別網(wǎng)絡(luò)對(duì)于光照變化、運(yùn)動(dòng)模糊具有很好的魯棒性。
2.2 center loss損失函數(shù)
由于不同類型的交通標(biāo)志在形狀或圖形上差異較大;而相同類型的標(biāo)志在形狀或圖形上差異較小。相比不同類型標(biāo)志的識(shí)別,相同類型標(biāo)志的識(shí)別更容易引起誤識(shí)別。所以,對(duì)于交通標(biāo)志識(shí)別任務(wù),深度學(xué)習(xí)的特征不僅需要可分離,而且還需要具有區(qū)分性。
center loss同時(shí)學(xué)習(xí)每個(gè)類別深層特征的中心,并懲罰深層特征與其相應(yīng)類別中心之間的距離。Centloss的公式如下:
表示深層特征的類中心。該公式有效地表征了類內(nèi)變化。 理想情況下,i應(yīng)該隨著深層特征的變化而更新。
softmax loss迫使不同類別的深層特征保持分離。center loss有效地將同一類別的深層特征拉到它們的中心。通過softmaxloss和center loss的聯(lián)合監(jiān)督訓(xùn)練一個(gè)卷積網(wǎng)絡(luò),以獲得具有兩個(gè)關(guān)鍵學(xué)習(xí)目標(biāo)的深層特征即類別間的差異和類別內(nèi)的緊湊性。不僅增加了組間特征差異,而且減少了組內(nèi)特征變化。因此,卷積網(wǎng)絡(luò)的判別能力進(jìn)一步提升。
3 實(shí)驗(yàn)結(jié)果與分析
TsingHua-Tencent 100k數(shù)據(jù)集提供了訓(xùn)練集包括圖像、坐標(biāo)以及關(guān)鍵點(diǎn),采用類似MTCNN的訓(xùn)練方法訓(xùn)練我們的級(jí)聯(lián)卷積網(wǎng)絡(luò)—檢測(cè)網(wǎng)絡(luò)。接著,訓(xùn)練Inception-ResNet-v2網(wǎng)絡(luò)--特征提取網(wǎng)絡(luò)。我們首先把數(shù)據(jù)集中的交通標(biāo)志裁剪出來,尺寸設(shè)置為160*160并保留了數(shù)量較多的45個(gè)類別。由于TsingHua-Tencent 100k數(shù)據(jù)集不同類別間數(shù)據(jù)的不平衡,我們采用數(shù)據(jù)增廣策略。對(duì)于數(shù)量超過1000的類別,剔除多余的圖像;對(duì)于數(shù)量少于1000的類別進(jìn)行圖像增廣。具體的做法是,對(duì)數(shù)據(jù)較少類別中的圖像進(jìn)行旋轉(zhuǎn)[-10°; 10°],水平偏移0.2,豎直偏移0.2,剪切強(qiáng)度0.2,隨機(jī)縮放0.2。經(jīng)過數(shù)據(jù)篩選與增廣,我們得到45個(gè)類別交通標(biāo)志,每個(gè)類別約有1000張尺寸為160*160的交通標(biāo)志。
在交通標(biāo)志的測(cè)試實(shí)驗(yàn)中,我們采用TsingHua-Tencent 100k數(shù)據(jù)集中的測(cè)試集先對(duì)檢測(cè)與識(shí)別網(wǎng)絡(luò)進(jìn)行分別測(cè)試,然后進(jìn)行交通標(biāo)志聯(lián)合檢測(cè)與識(shí)別。我們的檢測(cè)網(wǎng)絡(luò)可以達(dá)到87%準(zhǔn)確率與96%的召回率,在所有測(cè)試集中我們的檢測(cè)網(wǎng)絡(luò)都能準(zhǔn)確地檢測(cè)出交通標(biāo)志,也包含少量的背景即誤檢測(cè)。識(shí)別網(wǎng)絡(luò)的測(cè)試采用準(zhǔn)備訓(xùn)練數(shù)據(jù)集的方法即從TsingHua-Tencent 100k測(cè)試集中把目標(biāo)裁剪出來并設(shè)置尺寸為160*160。測(cè)試的識(shí)別率達(dá)到98.7%。最后,進(jìn)行交通標(biāo)志聯(lián)合檢測(cè)與識(shí)別的實(shí)驗(yàn)。由實(shí)驗(yàn)結(jié)果可知,我們提出的交通標(biāo)志檢測(cè)與識(shí)別網(wǎng)絡(luò)對(duì)于實(shí)際場(chǎng)景中的交通標(biāo)志具有較好的檢測(cè)效果。
4 結(jié)語(yǔ)
本文將深層卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于道路交通標(biāo)志的檢測(cè)識(shí)別,使用兩步驟方案。檢測(cè)步驟,采用級(jí)聯(lián)卷積網(wǎng)絡(luò)檢測(cè)圖像中的交通標(biāo)志并裁剪出目標(biāo)物體送入識(shí)別網(wǎng)絡(luò);識(shí)別步驟,采用Inception-ResNet-v2網(wǎng)絡(luò)對(duì)檢測(cè)結(jié)果進(jìn)行識(shí)別。實(shí)驗(yàn)表明,應(yīng)用深層卷積神經(jīng)網(wǎng)絡(luò)檢測(cè)與識(shí)別交通標(biāo)志取得了良好的檢測(cè)與識(shí)別效果。
參考文獻(xiàn)
[1]中國(guó)計(jì)算機(jī)學(xué)會(huì).深度學(xué)習(xí):推進(jìn)人工智能夢(mèng)想[EB/OL].http://www.ccg.org.cn.2013-06-10.
Abstract:In real driving scenes, due to factors such as light changes and camera angles, the quality of the collected images is often not high, which puts high demands on the accuracy of traffic sign recognition. To solve this problem, we propose a traffic sign recognition method based on convolutional neural network. The method uses a two-step approach. In the detection step, the goal is to propose a bounding box of traffic signs in the picture. In the recognition step, it is a tag that recognizes the cropped image. The experimental results show that the proposed solution can effectively solve the problems in the actual driving environment such as illumination changes and various weather conditions.
Key words:deep learning; convolutional neural network; traffic sign