結(jié)合多通道深度學習和隨機森林的地表分類

2019-12-19 02:07何銀銀賴水長侯建赭

軟件 2019年11期

何銀銀賴水長侯建赭

摘? 要：地表分類技術(shù)對地面無人駕駛車輛的感知能力有著重要影響。而針對傳統(tǒng)卷積神經(jīng)網(wǎng)絡CNN（Convolutional Neural Networks）地表分類效果不佳的問題，本文提出一種結(jié)合多通道深度學習和隨機森林的地表分類算法。算法先通過圖像計算得到人工設計的特征LBP;再采用多通道融合技術(shù)，將原彩色圖像的RGB三通道和LBP通道加以融合形成融合圖像;然后構(gòu)建并預訓練卷積神經(jīng)網(wǎng)絡，以此提取融合圖像的關鍵特征信息;最后用隨機森林分類器代替卷積神經(jīng)網(wǎng)絡輸出層完成地表分類。實驗結(jié)果表明，本文算法識別正確率達到98.56%，相比于傳統(tǒng)卷積神經(jīng)網(wǎng)絡能取得更好的分類結(jié)果，具有一定的魯棒能力。

關鍵詞：卷積神經(jīng)網(wǎng)絡;多通道融合;地表分類;隨機森林;LBP特征

【Abstract】： Surface classification technology has an important effect on perception ability of ground driverless vehicles. To solve the problem of ineffective land surface classification of traditional Convolutional Neural Networks （CNN）， the paper proposes a land surface classification algorithm based on multi-channel deep learning and random forest. The algorithm firstly obtains artificially designed feature LBP by image calculation， then fuses RGB three-channel and LBP channel of original color image to form the fusion image with multi-channel fusion technology， constructs and pretrains convolutional neural network to extract key feature information of the fusion image， finally replaces output layer of convolutional neural network with random forest classifier to complete surface classification. Experimental results show recognition accuracy of the algorithm reaches 98.56%. Compared with traditional convolution neural network， the algorithm can achieve better classification results and has some certain robustness.

【Key words】： Convolutional neural network; Multi-channel fusion; Surface classification; Random forest; LBP characteristics

0? 引言

近年來，隨著計算機硬件水平與模式識別技術(shù)的發(fā)展，無人駕駛車輛的研究得到了得到了重大發(fā)展[1-3]，其廣泛應用于國防等各個領域。地表分類是無人駕駛車輛研究的一個重要課題，對于提升車輛的感知能力有重要影響。

目前，針對非結(jié)構(gòu)化道路的地表分類技術(shù)還不成熟，因為在非結(jié)構(gòu)化的行車環(huán)境下，場景結(jié)構(gòu)復雜，光照條件多變，圖像品質(zhì)隨感知距離增大而下降，非結(jié)構(gòu)化環(huán)境感知成為亟待解決且極具挑戰(zhàn)性的問題。文獻[4]提出一種基于 PCA-SVM 準則改進區(qū)域生長的方法，因為降維可能會忽略原圖像部分特征，導致對道路邊緣相似地表的識別效果不佳。文獻[5]提出多通道卷積神經(jīng)網(wǎng)絡模型，雖然處理的是完整圖像，效果良好，但對紋理特征信息并不重視，針對復雜紋理地表圖像的區(qū)分效果不佳。

上述的兩種方法都使用了原圖像作為輸入，而如果直接對原圖像進行處理是較為容易忽略部分關鍵特征的。而本文提出算法先對圖像處理生成紋理特征，將其與原圖像融合形成多通道的方法就可以在這方面做到比較好的解決，同時對非結(jié)構(gòu)化道路的適應性更強，對于非結(jié)構(gòu)化地表分類的研究有極大的參考價值。

本文算法采用多通道融合技術(shù)將RGB彩色圖像和人工設計的特征LBP[6]加以融合，構(gòu)建卷積神經(jīng)網(wǎng)絡提取融合圖像的關鍵特征信息，再將關鍵特征信息輸入隨機森林分類器使其自分類學習，最終得到圖像分類結(jié)果。

1? 地表圖像特征提取及分類

地表圖像分類是根據(jù)地表圖像及其反映的傳統(tǒng)特征，將不同類別的地表圖像進行區(qū)分。鑒于直接使用原彩色圖像可能并不能很好地刻畫紋理特征，我們先從原圖像提取得紋理信息;再將其與原彩色圖像加以融合[7]，利用深度學習技術(shù)對其再處理提取更為有效地的信息。

算法流程如圖1所示。

整個算法由多通道融合特征模塊、卷積神經(jīng)網(wǎng)絡提取模塊以及隨機森林分類器兩部分組成。首先，由樣本圖像計算出LBP紋理特征，再將其與原彩色圖像融合處理成新的張量。然后，采用預訓練多通道卷積神經(jīng)網(wǎng)絡，經(jīng)過多次卷積、池化和降采樣操作，得到更關鍵的特征向量。最后將特征向量輸入隨機森林分類器，分類器進行運算與分類后，完成最終分類。

1.1? 多通道融合特征

本算法采用多通道融合特征，包含地表原彩色圖像以及LBP紋理特征圖。

LBP（局部二值模式）算子主要用于描述圖像的紋理特征信息，具有灰度不變性、旋轉(zhuǎn)不變性等優(yōu)點。

LBP算子是對圖像中的任意像素都進行以下處理：以其為中心取一個3*3大小的矩形窗口，將其像素值設置為閾值pc，窗口內(nèi)其他像素值x若大于此閾值則取一、小于其則取零，這樣窗口內(nèi)將產(chǎn)生八位二進制數(shù)字，按順序組合起來則為中心像素的LBP值（取值范圍為0-255），即反映了該區(qū)域的紋理特征。LBP的計算公式如下：

通過該算子對所有像素進行計算，每個像素填入LBP值，最終生成與原圖大小一致的LBP特征圖，作為第四通道數(shù)據(jù)。

最后將四個通道疊加，輸入構(gòu)建的卷積神經(jīng)網(wǎng)絡。采用RGBA圖像格式可視化顯示如圖2所示。

1.2? 構(gòu)建卷積神經(jīng)網(wǎng)絡特征提取

卷積神經(jīng)網(wǎng)絡CNN[8-13]是一種經(jīng)典神經(jīng)網(wǎng)絡，其模型是模仿人腦神經(jīng)元細胞信息傳遞的機制，該模型對視覺信息處理非常有效，近年來被廣泛使用在圖像處理領域并取得顯著成果。卷積神經(jīng)網(wǎng)絡對地表圖像進行逐層特征處理，不斷提取更為重要的特征數(shù)據(jù)輸入到下一層中，直到最后一層通過全連接層轉(zhuǎn)換到類別向量，與標記類別進行對比，并通過BP[14]算法將結(jié)果誤差信息反饋給前層網(wǎng)絡，使網(wǎng)絡模型根據(jù)數(shù)據(jù)集不斷學習，最終得到參數(shù)訓練好的模型。

卷積神經(jīng)網(wǎng)絡包括輸入層、卷積層、最大池化層、全連接層。輸入層，將雙通道融合特征圖輸入模型。卷積層，將前一層的特征圖迭代乘上若干個卷積核，得多層特征圖像。卷積層的計算公式如下：

如圖3所示，為本文在調(diào)整Alexnet網(wǎng)絡結(jié)構(gòu)基礎上構(gòu)建的地表分類CNN模型結(jié)構(gòu)。

相比于大卷積核，多個小的卷積核可以使模型引入更多的非線性，得到更多圖像特征，同時減少模型參數(shù)量[15]，所以模型采用3*3的小卷積核。

Dropout層為隨機失活層，即根據(jù)丟失幾率隨機將某全連接層的部分節(jié)點設置為不參與運算，以此來降低網(wǎng)絡模型的過擬合幾率，使網(wǎng)絡更加健壯，對復雜數(shù)據(jù)具有更好的魯棒性，所以模型在卷積層及全連接層中引入Dropout抑制過擬合。

在全連接層中，神經(jīng)元個數(shù)減少的同時，特征語義性更強，但卻導致部分低級語義特征喪失，對FC2層神經(jīng)元個數(shù)的選取極為重要。通過調(diào)整FC2層神經(jīng)元個數(shù)設計5種網(wǎng)絡如表1所示，通過后序?qū)嶒炦x擇性能最優(yōu)的網(wǎng)絡。

由于卷積神經(jīng)網(wǎng)絡輸出層softmax分類器較為簡單，分類能力較弱，所以使用訓練集預訓練模型，獲得模型參數(shù)后，將特征圖輸入模型后取出倒數(shù)第二層數(shù)據(jù)獲得特征向量。使用其他分類器對特征向量進行分類。

1.3? 隨機森林分類器

分類模型選取了隨機森林[16]分類器，即在訓練集中隨機重采樣選出一定數(shù)量的樣本（可重復采樣），在所有樣本上，對這些樣本建立分類器，重復以上兩步多次，獲得相應個數(shù)的分類器。在測試實驗中，將測試數(shù)據(jù)輸入隨機森林分類器，它會傳入所有分類器，進行各自分類，最后根據(jù)分類器匯總的投票結(jié)果，選擇票數(shù)最多的類別作為最終結(jié)果輸出。

由于隨機森林分類器實際上擁有多個分類器，所以對數(shù)據(jù)的泛化能力好，出錯率低。

2? 實驗結(jié)果與分析

為了驗證本文所提出的基于多通道卷積神經(jīng)網(wǎng)絡的地表分類模型的有效性，將本文中提出的方法在南京理工大學自然紋理數(shù)據(jù)庫上進行了測試，并將測試結(jié)果與其他常用方法進行了對比。

2.1? 數(shù)據(jù)集介紹

數(shù)據(jù)集選用南京理工大學自然紋理數(shù)據(jù)庫進行實驗，該數(shù)據(jù)庫一共包含8997張分辨率為64X64的彩色地表圖像，其中泥土圖像2999張，草地圖像2999張，沙礫圖像2999張。將數(shù)據(jù)集按7：3的比例隨機劃分為訓練集和測試集。部分數(shù)據(jù)集如圖4所示。

為實現(xiàn)更好的分類效果，首先對訓練集數(shù)據(jù)進行預處理，將圖像RGB每個通道等分為16個灰度級，以該灰度占各通道比例做直方圖，以該直方圖為特征（圖5所示）用kmeans進行聚類，肘方法（參

考文獻）確定最佳的聚類簇數(shù)。將泥土樣本分為2個子類，砂石樣本分為3個子類，草地樣本保持不變，一共6個類別，如圖6所示。

2.2? 實驗設計與結(jié)果分析

實驗使用搭載有NVIDIA Tesla T4的服務器進行訓練，顯存為16GB。使用tensorflow平臺訓練模型，實驗批尺度為32，模型共迭代200次，設置初始學習率為0.001，為防止過擬合設置學習率衰減項為0.000001，動量為0.9進行優(yōu)化。

針對表1中的5種網(wǎng)絡，在南京理工大學自然紋理數(shù)據(jù)庫上采用原圖像RGB三通道加LBP人工設計特征通道共四通道為輸入進行實驗測試，得到結(jié)果如表2所示。

由表2可知，網(wǎng)絡Ⅲ具有最好的分類性能，其FC2層的神經(jīng)元個數(shù)為128個，說明在網(wǎng)絡其他結(jié)構(gòu)及輸入輸出相同的條件下，F(xiàn)C2層大小選擇128較為合理。

以網(wǎng)絡Ⅲ為卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)，在南京理工大學自然紋理數(shù)據(jù)庫上采用RGB、LBP、HOG、gray等通道及支持向量機（SVM）、隨機森林（RFC）分類器進行試驗，為減少偶然性，每組實驗做5次取平均，得到表3所示的結(jié)果數(shù)據(jù)。

表中給出了灰度圖、RGB彩色圖、HOG特征圖、LBP特征圖、RGB+HOG多通道圖、RGB+LBP多通道特征圖在不同分類組合下的測試集正確率，可以看出，相較于單一的灰度特征，顏色信息的加入對于地表分類效果有明顯的提升，并且RGB顏色信息和人工設計的特征HOG、LBP的融合識別率也高于單獨使用的實驗結(jié)果，且采用LBP特征與RGB融合效果更好。同時，采用CNN作為特征提取器與傳統(tǒng)分類器組合的方式優(yōu)于單獨使用效果，隨機森林分類器的表現(xiàn)優(yōu)于SVM。

使用本文提出的方法，得到最終各類別的識別正確率及混淆矩陣如表4和表5所示。

2.3? 泛化性測試

為測試模型的泛化性，下面是在野外真實場景中進行分類的實驗結(jié)果，其中，圖7為分辨率為2048768的原圖像，圖8為由本文分類方法分類得到的圖像，其中黑色為泥土區(qū)域，灰色為草地區(qū)域，白色為砂石區(qū)域。

圖8可以看出，本文提出的基于RGB和LBP的多通道深度學習結(jié)合隨機森林的模型能夠較好地識別地表紋理圖像。

3? 結(jié)語

針對非結(jié)構(gòu)化道路識別中特征繁多、分類困難，本文采用基于多通道深度學習的方法，在保留原始特征的同時，結(jié)合人工設計的特征LBP，加強了紋理特征的刻畫，并采用隨機森林完成最后分類，以提升分類能力。實驗結(jié)果也表明該方法具有良好的分類性能，識別正確率達到98.56%。相較傳統(tǒng)方法，本文方法可以更好提升地面無人駕駛車輛非結(jié)構(gòu)化環(huán)境感知能力與水平。

參考文獻

[1]Chavez-Garcia R O， Guzzi J， Gambardella L M， and Giusti A. Learning ground traversability from simulations [J]. IEEE Robotics and Automation Letters， 3（3）： 1695-1702， July 2018.

[2]Andrakhanov A， Stuchkov A. Traversability estimation system for mobile robot in heterogeneous environment with different underlying surface characteristics[C]. In Proceedings of CSIT， pp. 549-554， September 04-08， 2017， Lviv， Ukraine.

[3]劉家銀，唐振民，吳國星. 基于MVSVM和超像素的可通行區(qū)域檢測方法[J].? 華中科技大學學報（自然科學版）， 43（增刊I）： 345-249， 2015.

[4]王新晴，孟凡杰，呂高旺， et al. 基于PCA-SVM準則改進區(qū)域生長的非結(jié)構(gòu)化道路識別[J]. 計算機應用， 2017（6）.

[5]崔巍，楊健，常合友. 基于多通道卷積神經(jīng)網(wǎng)絡的非結(jié)構(gòu)化道路路表分析[J]. 計算機應用與軟件，2016， 33（1）： 159-162.

[6]盧官明，左加闊. 基于二維局部保持鑒別分析的特征提取算法[J]. 南京郵電大學學報（自然科學版）， 2014， 34（5）： 1-8.

[7]毛鶯池，王靜，陳小麗，徐淑芳，陳豪. 基于特征組合與CNN的大壩缺陷識別與分類方法[J]. 計算機科學， 2019， 46（03）： 267-274.

[8]Ji S ， Xu W ， Yang M ， et al. 3D Convolutional Neural Networks for Human Action Recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2013， 35（1）： 221-231.

[9]Lee H， Grosse R， Ranganath R， et al. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations[C]//Proceedings of the 26th annual international conference on machine learning. ACM， 2009： 609-616.

[10]Gong Y， Jia Y， Leung T， et al. Deep convolutional ranking for multilabel image annotation[J]. arXiv preprint arXiv： 1312. 4894， 2013.

[11]Chan T H， Jia K， Gao S， et al. PCANet： A simple deep learning baseline for image classification？[J]. IEEE transactions on image processing， 2015， 24（12）： 5017-5032.

[12]Ji S， Xu W， Yang M， et al. 3D convolutional neural networks for human action recognition[J]. IEEE transactions on pattern analysis and machine intelligence， 2013， 35（1）： 221-231.

[13]Ji S， Xu W， Yang M， et al. 3D convolutional neural networks for human action recognition[J]. IEEE transactions on pattern analysis and machine intelligence， 2013， 35（1）： 221-231.

[14]LeCun Y， Boser B， Denker J S， et al. Backpropagation applied to handwritten zip code recognition[J]. Neural computation， 1989， 1（4）： 541-551.

[15]Simonyan K， Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv： 1409. 1556， 2014.

[16]李玲，李晉宏. 基于隨機森林修正的加權(quán)二部圖推薦算法[J]. 軟件， 2018， 39（01）： 110-115.