劉奧強,張旭
(201620 上海市 上海工程技術(shù)大學(xué) 機械與汽車工程學(xué)院)
近年來,自動駕駛技術(shù)成為圖像領(lǐng)域的研究熱點之一。自動駕駛技術(shù)在減少交通事故、減緩交通擁堵、降低能耗、保護環(huán)境等方面具有巨大潛能,較好的分類識別模型可有效提高安全駕駛水平。在實際的道路場景中,路面狀態(tài)可分為:干燥路面、結(jié)冰路面、潮濕路面、積雪路面、泥濘路面等,且路面狀態(tài)受天氣、光照變化、運動模糊等不利因素影響。傳統(tǒng)的圖像分類方法雖然能提取圖像特征對路面進行一定的分類識別,但提取的特征準(zhǔn)確度不穩(wěn)定,且路面分類識別適應(yīng)性較差,因此路面狀態(tài)識別分類存在諸多待研究改進的方面。
20 世紀(jì)80 年代,多層神經(jīng)網(wǎng)絡(luò)[1]這一概念被學(xué)者提出,LECUN[2-3]等人在文字識別中應(yīng)用卷積神經(jīng)網(wǎng)絡(luò),減少了人工提取特征的工作量;KRIZHEVSKY[4-5]等人提出經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并在圖像識別任務(wù)上取得重要突破。近年來,CNN(Convolutional Neural Network)在許多鄰域發(fā)展迅速,在處理圖像目標(biāo)檢測[6]與分類等問題上表現(xiàn)優(yōu)越。在路面狀態(tài)分類識別方面,文獻[7]提出一種經(jīng)典的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),但網(wǎng)絡(luò)分類正確率較低;文獻[8]提出一種基于顏色空間特征的路面狀態(tài)識別方法;文獻[9]提出基于改進支持向量機識別路面狀態(tài),在混合路況識別率達到85%,但樣本量少。
深度學(xué)習(xí)受到眾多研究者喜愛,其中一個關(guān)鍵因素是網(wǎng)絡(luò)模型的不斷改進和創(chuàng)新。神經(jīng)網(wǎng)絡(luò)的改進會影響數(shù)據(jù)集特征提取的效果,因此,模型選擇是深度神經(jīng)網(wǎng)絡(luò)中重要的組成部分。
深度殘差網(wǎng)絡(luò)塊的優(yōu)化改進,既能顯著增強特征提取的多樣性,又能有效減低訓(xùn)練誤差,因此本文在ResNet50 基礎(chǔ)上研究圖像分類識別,并進一步研究殘差塊對圖像分類準(zhǔn)確率的影響,提出一種改進的深度殘差網(wǎng)絡(luò)模型,并在路面狀態(tài)數(shù)據(jù)集上進行實驗研究。實驗結(jié)果表明,改進后的深度殘差網(wǎng)絡(luò)提高了分類的準(zhǔn)確度。
在特定的任務(wù)中,選擇模型是不可忽視的重要環(huán)節(jié),改變一些參數(shù)都可能對分類結(jié)果產(chǎn)生很大影響,所以本文以ResNet 為例研究模型調(diào)整的效果。
ResNet 網(wǎng)絡(luò)作為圖像分類的主流模型,其作用被研究者認同,主要原因是其很深的層次結(jié)構(gòu)于分類識別領(lǐng)域有很大作用。
從階段2 開始,每個階段從下采樣塊開始,然后是幾個剩余塊。在下采樣塊中,有2 個路徑。左邊路徑具有3 個卷積,其卷積大小分別為1×1,3×3 和1×1,這是一個完整的瓶頸結(jié)構(gòu);另一個路徑使用1×1 轉(zhuǎn)換,步長為2。可以對2 個路徑疊加求和,得到輸出。
ResNet網(wǎng)絡(luò)模型作為一個圖像分類大的框架,有很多變體,都是改變網(wǎng)絡(luò)模型的卷積層數(shù),達到模型的深度結(jié)構(gòu),更深的模型有ResNet152 等。
受ResNet 啟發(fā),我們注意到下采樣塊的路徑B 中的1×1 卷積也忽略了3/4 的輸入特征映射,需要對其進行修改,便不會忽略任何信息。經(jīng)驗發(fā)現(xiàn),在卷積前增加一個2×2 的平均匯集層,步長為2,步長變?yōu)? 在實踐中效果很好,對計算成本的影響很小。圖1 說明了這一調(diào)整。
圖1 改進前后ResNet50 殘差塊結(jié)構(gòu)Fig.1 Resnet50 residuals block structure before and after Improvement
本文是在Windows 10(x64)操作系統(tǒng)下進行仿真實驗,選擇的軟件平臺為MATLAB R2020b。在GeForce GTX 880M GPU 工作站上運行,結(jié)果證明對數(shù)據(jù)集的識別準(zhǔn)確率較高。
本文道路狀態(tài)數(shù)據(jù)采用牛津機器人數(shù)據(jù)集[10]和KITTI 數(shù)據(jù)集[11],道路狀態(tài)分類如表1 所示。經(jīng)過視頻圖像預(yù)處理后,每類樣本各有1 000 幅圖像,訓(xùn)練數(shù)據(jù)800 幅,測試數(shù)據(jù)200 幅。實驗流程如圖2 所示。
表1 道路狀態(tài)分類Tab.1 Road condition classification
圖2 路面狀態(tài)分類識別流程圖Fig.2 Flow chart of pavement condition classification and identification
選擇圖片中間軸線作為中心基面,前方選擇相應(yīng)的矩形像素點進行分類識別。建立路面數(shù)據(jù)集后,圖像數(shù)據(jù)預(yù)處理經(jīng)過以下步驟:去除模糊圖像;應(yīng)用同態(tài)濾波對圖片光照強度統(tǒng)一化處理[12];對路面狀態(tài)集中圖像標(biāo)簽標(biāo)定;最后將數(shù)據(jù)圖片放入深度學(xué)習(xí)模型中訓(xùn)練識別。本文所采用的CNN 網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖3 所示。
圖3 CNN 網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.3 Schematic diagram of CNN network structure
將本文的神經(jīng)網(wǎng)絡(luò)與AlexNet,VGG16,ResNet50 這3 種網(wǎng)絡(luò)模型進行對比,并且加入SVM、BP 神經(jīng)網(wǎng)絡(luò)2 個傳統(tǒng)機器學(xué)習(xí)模型分析結(jié)果進行比較。SVM 與BP 模型采用HVS 顏色空間特征和灰度共生矩陣特征,各模型實驗平均準(zhǔn)確度分類結(jié)果如表2 所示。
表2 準(zhǔn)確率對比Tab.2 Comparison of accuracy
表2 展示了這6 種機器學(xué)習(xí)模型在路面狀態(tài)數(shù)據(jù)集中的分類識別結(jié)果。結(jié)果表明,改進的深度殘差網(wǎng)絡(luò)達到了很好的分類準(zhǔn)確率。傳統(tǒng)的機器學(xué)習(xí)模型SVM 與BP 神經(jīng)網(wǎng)絡(luò)對于干燥的路面狀況識別效果較差,主要原因是光照強度改變但沒設(shè)置合適的特征用于模型的訓(xùn)練;SVM 模型適合小數(shù)據(jù)集(500 張圖片)的分類識別,故在該數(shù)據(jù)中訓(xùn)練沒達到最好的性能,且反映出傳統(tǒng)的SVM 模型不適用于智能駕駛系統(tǒng)。本文在深度殘差網(wǎng)絡(luò)的基礎(chǔ)上進行了調(diào)整,增強了網(wǎng)絡(luò)對于路面狀態(tài)數(shù)據(jù)集的特征提取效果,從而驗證了本文提出的網(wǎng)絡(luò)模型應(yīng)用于路面狀態(tài)分類識別的有效性。
深度殘差網(wǎng)絡(luò)具有很強的分類學(xué)習(xí)能力,在解決圖像分類識別問題中具有優(yōu)秀的性能。本文選用深度學(xué)習(xí)的方法,結(jié)合改進的深度殘差網(wǎng)絡(luò)和具有強大運算能力的GPU,對常見的5 類路面狀態(tài)進行分類識別。結(jié)果顯示:調(diào)整的深度殘差網(wǎng)絡(luò)具有較高的識別準(zhǔn)確率,本文的數(shù)據(jù)集中平均識別準(zhǔn)確率達到94.35%,且該網(wǎng)絡(luò)模型具有較好的推廣應(yīng)用能力。實驗發(fā)現(xiàn),提出改進殘差網(wǎng)絡(luò)結(jié)構(gòu)的深度學(xué)習(xí)模型在參數(shù)和架構(gòu)上仍然具有提升的空間,所以將來在提高識別準(zhǔn)確率的圖像分析處理工作中,完善路面狀態(tài)數(shù)據(jù)集、改善網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)是下一個研究目標(biāo)。