易超人,鄧燕妮
(武漢理工大學 自動化學院,湖北 武漢 430070)
?
多通道卷積神經(jīng)網(wǎng)絡(luò)圖像識別方法
易超人,鄧燕妮
(武漢理工大學 自動化學院,湖北 武漢 430070)
為了更好地利用圖像數(shù)據(jù)中隱含的特征信息,將多方向梯度信息作為邊緣信息的基本表達,提出了一種基于圖像梯度的多通道卷積神經(jīng)網(wǎng)絡(luò)圖像識別方法。先將圖像進行Sobel算子處理,得到水平方向、垂直方向及兩個對角方向的4個梯度圖像。然后,建立4個多層卷積神經(jīng)網(wǎng)絡(luò),學習4個不同方向梯度圖像的特征。再將4個不同方向的特征進行隨機化特征融合,得到樣本的特征后經(jīng)過批標準化處理。最后,通過分類器得到分類結(jié)果。在數(shù)據(jù)庫Cifar-10和MNIST上進行了驗證,驗證結(jié)果表明:本文提出的模型具有較好的泛化能力,相比單通道卷積神經(jīng)網(wǎng)絡(luò),在兩個數(shù)據(jù)庫中識別錯誤率分別降低了9.85%和0.38%。
卷積神經(jīng)網(wǎng)絡(luò);多通道;梯度圖像;隨機化特征融合;分類
特征提取是模式識別領(lǐng)域中的核心技術(shù),也是其難點之一。傳統(tǒng)基于特征的識別方法都是先定義一種特征,再根據(jù)預先定義的特征進行分類識別。深度學習作為機器學習的重要發(fā)展,能夠逐層地自動學習合適的表示特征,因而在眾多領(lǐng)域中得到了廣泛應用。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)作為深度學習的三大重要模型之一,繼承了深度學習技術(shù)自動提取特征的優(yōu)點,并且通過權(quán)值共享大大減少了所需要訓練的參數(shù),使CNN能快速處理高維圖像,還具備一定的平移不變性,因而在圖像分類識別等領(lǐng)域取得了較好的效果。目前,卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)被應用到人臉特征點檢測[1]、突出物體檢測[2]、行人檢測[3]、人臉識別[4]和車型識別[5]等領(lǐng)域,均取得了較好的效果。
上述檢測和識別方法都是采用圖像的直接輸入。圖像最基本的特征是邊緣,邊緣是圖像信息最集中的地方,采用梯度信息作為邊緣信息的基本表達來進行圖像處理,在某些方面能夠更好地利用圖像信息。文獻[6]提出了一種基于圖像梯度的單樣本人臉識別方法,采用梯度方法進行人臉識別具有光照不變性等優(yōu)點,利用B樣條濾波減小噪聲對圖像梯度信息的干擾,經(jīng)驗證優(yōu)于傳統(tǒng)的濾波方法。文獻[7]將圖像的梯度幅值、相位和結(jié)構(gòu)相似度相結(jié)合,提出了一種新的利用梯度信息的圖像質(zhì)量評價模型—梯度相似度(gradient similarity,GSIM)模型,以及基于該模型的圖像質(zhì)量評價算法,經(jīng)驗證新模型能真實反映失真圖像的視覺感知質(zhì)量,具有較高的評價可靠性。
利用梯度信息處理圖像具有一定的優(yōu)點,但是上述方法只利用了圖像水平方向和垂直方向的梯度信息,不能充分利用圖像信息。為了更好地利用數(shù)據(jù)中隱含的特征信息,本文用水平方向、垂直方向及兩個對角方向的4個梯度圖像作為邊緣信息,將多方向梯度信息作為CNN的輸入,提出了一種基于圖像梯度的多通道卷積神經(jīng)網(wǎng)絡(luò)圖像識別方法。將4個梯度方向的特征信息輸入到多通道卷積神經(jīng)網(wǎng)絡(luò),使提取的圖像特征更加有效,并且在分類層前加入了批標準化算法,進一步降低了圖像識別的錯誤率。
1.1 卷積層和下采樣層
1980年,文獻[8]提出新認知機,首次引進了CNN 的概念,成為首個深度學習模型。2003年,文獻[9]對CNN進行了歸納總結(jié)。CNN是一個多層非全連接的神經(jīng)網(wǎng)絡(luò),每層由多個二維平面組成,而每個平面由多個獨立神經(jīng)元組成。CNN包含兩種特殊的網(wǎng)絡(luò)結(jié)構(gòu):卷積層和下采樣層。卷積層和下采樣層可以有多層,一般CNN前幾層為卷積層和下采樣層的交替,CNN的深度由此體現(xiàn)[10]。CNN通過卷積層和下采樣層的相互配合來學習原始圖像的特征,并通過經(jīng)典的誤差反向傳播(back propagation,BP)算法來調(diào)整參數(shù),完成權(quán)值的更新。
卷積是圖像識別中常用的算法,是指輸出圖像中的每個像素都是由輸入圖像對應位置的小區(qū)域的像素通過加權(quán)所得,這個小區(qū)域叫做局部感受野,區(qū)域的權(quán)值叫做卷積核。輸入圖像通過卷積運算后再加上偏置項,通過激活函數(shù)得到其特征圖。文獻[9]給出了卷積層的形式:
下采樣層也叫池化層,即將圖像分成一小塊一小塊的區(qū)域,對每個區(qū)域計算出一個值,然后將計算出的值依次排列,輸出新的圖像。這個過程相當于模糊濾波,可增加對圖像特征提取的魯棒性。本文池化方法采用的是平均池化。
1.2 批標準化
在圖像處理過程中,對數(shù)據(jù)進行預處理,例如白化,甚至是簡單的減均值圖像預處理操作都能提高識別率。批標準化(batch normalization,BN)[12]的思想則是對于每組批數(shù)據(jù),在網(wǎng)絡(luò)的每一層中,對各個特征分別進行標準化處理。文獻[12]給出了算法流程,對于神經(jīng)元在一次批處理過程中的全部輸入,先計算均值和方差,再進行標準化處理,并在誤差反向傳播的過程中學習該算法的參數(shù)。一般批標準化可運用在任何層,且運用在神經(jīng)元激活函數(shù)之前,即輸入到神經(jīng)元的數(shù)據(jù)通過加權(quán)運算后再經(jīng)過批標準化處理,經(jīng)過激活函數(shù)進行運算。
本文在經(jīng)過隨機化的特征融合后,輸入到分類器前的數(shù)據(jù)運用批標準化,可以使輸入到分類器中的數(shù)據(jù)由集中變得分散,取得更好的識別效果。在一定程度上,可以防止過擬合。
圖1是本文提出的多通道卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)圖。首先,將輸入圖像經(jīng)過Sobel算子得到水平方向、垂直方向及兩個對角方向的4個梯度圖像。然后,分別輸入4個多層卷積神經(jīng)網(wǎng)絡(luò),學習4個不同方向梯度圖像的特征。再將4個不同方向的特征進行隨機化特征融合,特征融合后的信息具有更好的魯棒性[13],得到樣本的特征后再經(jīng)過批標準化處理。最后,通過分類器得到分類結(jié)果并輸出。
圖1 多通道卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)圖
對于一張32×32的圖片,可得到其4個方向上的梯度信息,大小均為32×32。對于每個通道,圖像梯度先經(jīng)過8個5×5的卷積核得到8個28×28的特征圖。然后,在池化大小為2×2下進行采樣,得到8個14×14的特征圖。再經(jīng)過16個5×5卷積核后得到16個10×10特征圖。最后,在池化大小為2×2下采樣,得到16個5×5的特征圖。每個網(wǎng)絡(luò)都可以得到16個5×5的特征圖,然后對4個通道的特征圖進行隨機化的特征融合。
隨機化特征融合過程如圖2所示。圖2中:A、B、C、D分別代表不同通道的特征圖,上標j表示每個通道的第j個特征圖;a、b、c、d分別代表來自其對應特征圖A、B、C、D里的元素,下標數(shù)字代表對應特征圖元素的位置;M代表隨機化特征融合后的特征圖。每次取4個網(wǎng)絡(luò)中相同位置的4個特征圖,再取4個特征圖中相同位置的4個元素,然后用采樣矩陣選取一個元素。采樣矩陣按照其概率值大小隨機選擇,即元素值大的被選中的概率大。本文用0-1均勻分布來采樣,將單位長度1按照4個元素值的大小分成4個區(qū)間,元素值越大,覆蓋的區(qū)域越長,每個區(qū)間對應一個位置,然后隨機生成一個0~1的數(shù),這個數(shù)會落入某一區(qū)間。得到的采樣矩陣為一個大小為2×2的矩陣,里面有一個元素為1,其余元素為0。通過這種隨機化的特征融合,最后得到16個大小為5×5的特征圖。把得到的特征圖全連接處理后,得到一個大小為400的向量,經(jīng)過批標準化處理后輸入分類器進行分類。
圖2 隨機化特征融合過程
選擇普適物體數(shù)據(jù)庫Cifar-10和手寫數(shù)字庫MNIST,驗證本文提出的基于梯度的多通道卷積神經(jīng)網(wǎng)絡(luò)模型。
3.1 實驗方法
實驗1是在數(shù)據(jù)庫Cifar-10上進行驗證。該數(shù)據(jù)庫由60 000張32×32的RGB彩色圖片構(gòu)成,共分10類。其中,訓練圖片50 000張,測試圖片10 000張,測試樣本為交叉驗證。本文將樣本轉(zhuǎn)化為灰度圖像,歸一化后在該灰度樣本上進行了驗證。實驗中的深度自動編碼器(deep auto-encoder,DAE)和深度信念網(wǎng)絡(luò)(deep belief network,DBN)模型的層數(shù)均為[1 024 600200 10],單通道卷積神經(jīng)網(wǎng)絡(luò)包括2 個卷積層和2個池化層,其中,第1個卷積層為8個卷積核,第2個卷積層為16個卷積核,大小均為5×5,池化層大小均為 2×2。單通道卷積神經(jīng)網(wǎng)絡(luò)輸入的是進行歸一化后的灰度圖像,多通道卷積神經(jīng)網(wǎng)絡(luò)輸入的是其灰度圖像進行Sobel算子計算后的4個不同方向的圖像梯度。多通道卷積神經(jīng)網(wǎng)絡(luò)的4個卷積神經(jīng)網(wǎng)絡(luò)模型均和單通道的模型相同,本文在多通道卷積神經(jīng)網(wǎng)絡(luò)模型中分類器前,對有無批標準化進行了驗證對比。所有模型的分類器均為softmax分類器。
實驗2是在數(shù)據(jù)庫MNIST上進行驗證。該數(shù)據(jù)庫由70 000張28×28的灰度圖片構(gòu)成,共分10類,其中,訓練圖片60 000張,測試圖片10 000張。同樣將樣本進行歸一化處理。實驗中的DAE模型和DBN模型的層數(shù)均為[784 500 200 10],單通道的卷積神經(jīng)網(wǎng)絡(luò)同樣包括2個卷積層和2個池化層,兩層卷積層卷積核的個數(shù)分別為6個和12個,大小均為5×5,池化層大小均為2×2。實驗內(nèi)容與實驗1基本類似。
3.2 結(jié)果分析
圖3為Cifar-10和MNIST兩種數(shù)據(jù)庫在不同算法下的識別錯誤率。由圖3a和圖3b可以看出:在兩種數(shù)據(jù)庫上,本文提出的多通道CNN(有BN)模型,比單通道CNN識別錯誤率分別降低了9.85%和0.38%。CNN在圖像識別方面比其他深度學習算法優(yōu)越,這主要是因為CNN通過局部感受野和權(quán)值共享,能夠有效地提取圖像的特征,并具備一定的平移不變性。從圖3a和圖3b的單通道CNN和多通道CNN(無BN)的曲線可以看出:將圖片的多方向梯度信息輸入網(wǎng)絡(luò)并做隨機化的特征融合,比直接輸入原始圖片信息效果要好。這主要是因為將原始的數(shù)據(jù)直接輸入卷積神經(jīng)網(wǎng)絡(luò),雖然也能得到較低的識別錯誤率,但在模型結(jié)構(gòu)較簡單的條件下,不能夠有效學習數(shù)據(jù)集中隱含的特征信息,而特征的有效性直接決定了分類性能。4個梯度方向的特征信息能更全面利用數(shù)據(jù)中隱含的特征信息,兩個數(shù)據(jù)庫上取得的識別錯誤率更低,這也說明了將多方向梯度信息作為邊緣信息的基本表達是有效的。本文將多通道模型分類層前有無批標準化算法進行了驗證對比,運用批標準化后,Cifar-10數(shù)據(jù)庫經(jīng)過40次迭代后識別錯誤率降低了2.88%。由于MNIST數(shù)據(jù)庫識別錯誤率較低,下降的幅度不是很明顯,說明將集中的數(shù)據(jù)變得更分散,在一定程度上有利于防止過擬合,得到更好的效果。
圖3 Cifar-10和MNIST數(shù)據(jù)庫在不同算法下的識別錯誤率
(1) 卷積神經(jīng)網(wǎng)絡(luò)能自動提取圖像的結(jié)構(gòu)信息等特征,通過局部感受野、權(quán)值共享和下采樣技術(shù)有效提取圖像信息,并具備平移不變性,在圖像識別上優(yōu)于其他深度學習算法。
(2) 利用圖像多方向梯度信息作為圖像信息的表達,在某些方面可以更好地利用圖像隱含的信息,并且通過隨機化的特征信息融合,增加網(wǎng)絡(luò)的魯棒性,可以得到更好的識別效果。
(3) 批標準化使輸入到分類器中的數(shù)據(jù)由集中變得分散,在一定程度上防止了過擬合,可以進一步降低識別錯誤率。
本文所提出的多通道卷積神經(jīng)網(wǎng)絡(luò)模型在數(shù)據(jù)庫上可以取得更低的識別錯誤率,說明該方法是有效的,但此模型還較為復雜,多通道梯度卷積神經(jīng)網(wǎng)絡(luò)比單通道卷積神經(jīng)網(wǎng)絡(luò)的訓練時間大約增加一倍。后續(xù)研究工作是優(yōu)化模型的拓撲結(jié)構(gòu),減少誤差反向傳播時間,降低網(wǎng)絡(luò)復雜度。
[1] SUN Y,WANG X,TANG X.Deep convolutional network cascade for facial point detection[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Portland,Oregon,USA:IEEE,2013:3476-3483.
[2] HE S F,LAU R W H,LIU W X,et al.SuperCNN:a superpixelwise convolutional neural network for salient object detection[J].International journal of computer vision,2015,115(3):330-344.
[3] 蘇松志,李紹滋,陳淑媛,等.行人檢測技術(shù)綜述[J].電子學報,2012,40(4):814-820.
[4] MOON H M,CHANG H S,PAN S B.A face recognition system based on convolution neural network using multiple distance face[J].Soft computing,2016,20(2):1-8.
[5] DONG Z,PEI M T,HE Y,et al.Vehicle type classification using unsupervised convolutional neural network[C]//Proceedings of the 2014 22nd International Conference on Pattern Recognition ( ICPR).Stockholm,Sweden:IEEE,2014:172-177.
[6] 方蔚濤,吳凡.B樣條和圖像梯度的單樣本人臉識別[J].重慶大學學報(自然科學版),2013,36(12):111-116.
[7] 馬旭東,閆利,曹緯,等.一種新的利用梯度信息的圖像質(zhì)量評價模型[J].武漢大學學報(信息科學版),2014,39(12):1412-1418.
[8] FUKUSHIMA K.Neocognitron:a self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position[J].Biological cybernetics,1980,36(4):193-202.
[9] BEHNKE S.Hierarchical neural networks for image interpretation[M].Berlin:Springer,2003.
[10] KRIZHEVSKY A,SUTSKEVER I,HINTON G.Imagenet classification with deep con-volutional neural networks[J].Advances in neural information processing systems,2012,25(2):1106-1114.
[11] DAHL G E,SAINATH T N,HINTON G E.Improving deep neural networks for LVCSR using rectified linear units and dropout[C]//2013 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP).Vancouver,BC,Canada:IEEE,2013:8609-8613.
[12] IOFFE S,SZEGEDY C.Batch normalization:accelerating deep network training by reducing internal covariate shift[C]// Proceedings of the 32nd International Conferenceon Machine Learning.Lille,France:IEEE,2015:448-456.
[13] 李歡歡,萬源,童恒慶,等.分層紋理特征和梯度特征融合的圖像分類[J].河南科技大學學報(自然科學版),2015,36(1):52-57.
國家“863”計劃基金項目(2015AA015904)
易超人(1993-),男,湖北荊州人,碩士生;鄧燕妮(1962-),女,湖南益陽人,教授,博士,碩士生導師,主要研究方向為魯棒優(yōu)化控制理論及應用、計算機控制與應用、過程智能控制與優(yōu)化技術(shù)等.
2016-08-03
1672-6871(2017)03-0041-04
10.15926/j.cnki.issn1672-6871.2017.03.009
TP391.41
A