汪曉青
摘 要 在分析深度學(xué)習(xí)作用的基礎(chǔ)上,利用先進(jìn)的深度神經(jīng)網(wǎng)絡(luò),以及功能強(qiáng)大的計(jì)算機(jī)工作站,對(duì)于四類汽車進(jìn)行識(shí)別實(shí)驗(yàn)研究。實(shí)驗(yàn)表明,VGG16網(wǎng)絡(luò)具有最好的分類效果,傳統(tǒng)的經(jīng)典分類算法往往僅為其準(zhǔn)確率的一半左右。
關(guān)鍵詞 深度神經(jīng)網(wǎng)絡(luò) 圖像分類 車型識(shí)別 預(yù)測(cè)
中圖分類號(hào):TP317.4 文獻(xiàn)標(biāo)識(shí)碼:A
0 引言
所謂的深度學(xué)習(xí)是根據(jù)具有多層結(jié)構(gòu)的人工神經(jīng)網(wǎng)絡(luò)所提出。在具體的深度學(xué)習(xí)中,主要借助模擬神經(jīng)系統(tǒng)中的層次結(jié)構(gòu),來進(jìn)行數(shù)據(jù)結(jié)構(gòu)特征的反映,一般來說,細(xì)節(jié)用低層次進(jìn)行表示,抽象數(shù)據(jù)結(jié)構(gòu)則用高層次來表示,利用這種方式,能夠進(jìn)行數(shù)據(jù)挖掘?qū)W習(xí),滿足學(xué)習(xí)要求。在傳統(tǒng)的車型識(shí)別發(fā)展中,主要涉及到的技術(shù)包括模式識(shí)別、特征選擇和提取以及檢測(cè)分割等方面內(nèi)容,在技術(shù)發(fā)展中,存在的難點(diǎn)主要涉及到如何將完整的目標(biāo)車輛區(qū)域進(jìn)行分割,這是項(xiàng)基礎(chǔ)工作,也是難點(diǎn)所在。這結(jié)合實(shí)際需求,對(duì)于不同拍攝角度下的汽車圖片,包括皮卡車、SUV、面包車以及小轎車進(jìn)行車型識(shí)別,其目標(biāo)質(zhì)量分割質(zhì)量則是最為關(guān)鍵的技術(shù),直接影響到最后的判斷效果。所以,應(yīng)該重視進(jìn)行具有代表性特征的選擇處理,并相應(yīng)轉(zhuǎn)化成有效的參數(shù)過程。在獲取特征參數(shù)后,則應(yīng)該結(jié)合項(xiàng)目要求來選擇合理的分類器,這樣才能保障識(shí)別的準(zhǔn)確率。結(jié)合汽車車型識(shí)別問題的要求,這里網(wǎng)絡(luò)輸入則是原始圖像,利用神經(jīng)網(wǎng)絡(luò)優(yōu)勢(shì),原始數(shù)據(jù)經(jīng)過卷積層、完全連接層以及Softmax 層的培訓(xùn)學(xué)習(xí),通過這種深度神經(jīng)網(wǎng)絡(luò)來進(jìn)行分析處理,免于上述存在難度的圖像分割、手工提取等過程。
1數(shù)據(jù)集
這里的車型識(shí)別目標(biāo)的數(shù)據(jù)集主要包括皮卡車、SUV、面包車以及小轎車等四種類型。其中,訓(xùn)練集和測(cè)試集分別包括1025張和368張?jiān)紙D片。此數(shù)據(jù)集中,包括不同攝像角度中的汽車圖像照片,具有背景復(fù)雜、圖像大小不統(tǒng)一,車輛在圖片中所占比例具有較大差異性等方面問題,這些都在一定程度上造成車型識(shí)別的難度上升。
在預(yù)處理中,為了保證網(wǎng)絡(luò)輸入的一致性,對(duì)于原始圖像進(jìn)行調(diào)整處理為256€?56€?尺寸。在此基礎(chǔ)上,對(duì)于圖像RGB三個(gè)通道的均值進(jìn)行計(jì)算,并進(jìn)行均值標(biāo)準(zhǔn)化的處理。在具體的網(wǎng)絡(luò)訓(xùn)練測(cè)試的過程中,主要?jiǎng)t是選取224€?24€? 的樣本作為輸入。
2網(wǎng)絡(luò)結(jié)構(gòu)探討
結(jié)合文獻(xiàn)所提出的深度神經(jīng)網(wǎng)絡(luò)VGG16的優(yōu)勢(shì),我們將其應(yīng)用在汽車車型識(shí)別問題中。VGG16網(wǎng)絡(luò)具有較強(qiáng)的優(yōu)勢(shì),主要包括5個(gè)堆棧式的卷積神經(jīng)網(wǎng)絡(luò)ConvNet,以及3個(gè)完全連接層以及1個(gè)Softmax層,由此可見,其屬于“網(wǎng)絡(luò)中的網(wǎng)絡(luò)”架構(gòu)。在每個(gè)每個(gè)ConvNet中,還有多個(gè)卷積層所構(gòu)成,然后緊跟隨著Max-Pooling層。在進(jìn)行卷積以及池化處理的基礎(chǔ)上,進(jìn)行三層完全連接處理,同時(shí),Softmax層的輸入則是最后一個(gè)完全連接曾的輸出,在這基礎(chǔ)上,實(shí)現(xiàn)車型分類的要求。結(jié)合實(shí)際需求,將非線性的ReLU層加入該網(wǎng)絡(luò)中,這樣就會(huì)讓ReLU來處理卷積層和完全連接層的輸出,保證訓(xùn)練時(shí)間有效降低。另外,還將一種正則化Dropout方式應(yīng)用在網(wǎng)絡(luò)中,避免出現(xiàn)完全連接層中的過擬合問題。
另一個(gè)神經(jīng)網(wǎng)絡(luò)Alexnet,結(jié)構(gòu)稍微簡(jiǎn)單一些,主要包括5個(gè)卷積層、3個(gè)完全連接層、Softmax層等幾部分,在進(jìn)行部分卷積層處理后,在進(jìn)行Max- Pooling層處理。在此網(wǎng)絡(luò)中,同樣采用非線性的ReLU層,所采用難度重疊池化方式,也能有效保證盡量降低過擬合的問題。
3實(shí)驗(yàn)結(jié)果分析
結(jié)合上述分析的深度神經(jīng)網(wǎng)絡(luò)VGG16和AlexNet的基礎(chǔ)上,進(jìn)行Gaffe框架的搭設(shè),為了保證運(yùn)算效率,建立在GeForce GTX TITAN X CPU的工作站中。經(jīng)過統(tǒng)計(jì),單一網(wǎng)路訓(xùn)練大約為2小時(shí),一張圖片測(cè)試大約為0.2秒。在應(yīng)用上述網(wǎng)絡(luò)測(cè)試、訓(xùn)練之外,在分類過程中,還應(yīng)用了經(jīng)典的分類算法KNN。經(jīng)過實(shí)驗(yàn)分析,可以看出,VGG16網(wǎng)絡(luò)能夠具有比較好的分類結(jié)果,能夠?qū)崿F(xiàn)準(zhǔn)確率為97.3%,而AlexNet網(wǎng)絡(luò)準(zhǔn)確率達(dá)到為93.0%,KNN算法不能有效處理較為復(fù)雜背景的圖片,分類準(zhǔn)確率僅為52.3%。在具體的案例中,分析VGG16網(wǎng)絡(luò)錯(cuò)誤分類的情況,面包車具有完全正確的分類效果。在錯(cuò)誤分類的SUV車型中,究其原因,主要包括:車顏色有兩部分組成,紅色部分則和皮卡車車型相同;車型結(jié)構(gòu)太類似于皮卡車;背景中加入其他車型,這樣會(huì)造成分類結(jié)果不準(zhǔn)確。如果圖片中僅僅包括車頭的情況,在進(jìn)行車型識(shí)別中也存在較大的難度,不同車型從前面角度進(jìn)行觀察,并沒有太大的差異化,這點(diǎn)應(yīng)該明確指出。
4結(jié)語(yǔ)
這里采用深度學(xué)習(xí)方法,結(jié)合先進(jìn)的深度神經(jīng)網(wǎng)絡(luò),以及功能強(qiáng)大的計(jì)算機(jī)工作站,對(duì)于四類汽車進(jìn)行識(shí)別實(shí)驗(yàn)研究。經(jīng)過試驗(yàn)表明,VGG16網(wǎng)絡(luò)具有最好的分類效果,傳統(tǒng)的經(jīng)典分類算法往往僅為其準(zhǔn)確率的一半左右。所以,可以看出深度神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的學(xué)習(xí)能力,能夠在圖像分類問題中表現(xiàn)出很大優(yōu)勢(shì),應(yīng)該不斷優(yōu)化深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),以便其適用于更多的圖像分類要求。
參考文獻(xiàn)
[1] Hinton G E, Osindero S, Teh Y W.A Fast Learning Algorithm For Deep Belief Nets[J]. Neural Computation, 2006, 18(7):1527-1554.
[2] Krizhevsky A, Sutskever I, Hinton G E. ImageNet Classification with Deep Convolutional Neural Networks[J]. Advances in Neural Information Processing Systems, 2012, 25:2012.
[3] Simonyan K, Zisserman A, Simonyan K, et al. Very Deep Convolutional Networks for Large-Scale Image Recognition[J]. Eprint Arxiv, 2014.