洪 睿, 康曉東, 郭 軍, 李 博, 王亞鴿, 張秀芳
(天津醫(yī)科大學(xué) 醫(yī)學(xué)影像學(xué)院, 天津300203)(*通信作者電子郵箱hr8229862@163.com)
紋理是非常重要的圖像識別特征之一,對圖像紋理進行合理描述是圖像分類識別的基礎(chǔ),圖像紋理包含了非常豐富的圖像信息,可以應(yīng)用于多種任務(wù),如基于內(nèi)容的圖像檢索、圖像分割、圖像融合、圖像分類或者聚類等。圖像紋理特征描述的方法主要有基于幾何學(xué)的特征描述、基于模型的特征描述、基于信號處理的特征描述,以及基于統(tǒng)計的特征描述?;趶?fù)雜網(wǎng)絡(luò)模型的紋理特征描述方法屬于基于統(tǒng)計的特征描述的一種,具有穩(wěn)定性好、抗噪聲能力強等優(yōu)點[1]。
在計算機視覺領(lǐng)域,圖像分類一直是研究的重點之一。傳統(tǒng)基于特征的圖像分類方法都是先定義一種特征,再根據(jù)預(yù)先定義的特征進行分類識別,存在著泛化能力弱、可移植性差、準確度相對較差的缺點。深度學(xué)習(xí)作為機器學(xué)習(xí)的重要發(fā)展,能夠逐層地自動學(xué)習(xí)合適的表示特征,因而在眾多領(lǐng)域中得到了廣泛應(yīng)用,如人臉特征點檢測[2]、行人檢測[3]、人臉識別[4]和車牌識別[5]等。卷積神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的三大重要模型之一,繼承了深度學(xué)習(xí)技術(shù)自動提取特征的優(yōu)點,并且通過權(quán)值共享大大減少了所需要訓(xùn)練的參數(shù),使卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)能快速處理高維圖像,還具備一定的平移不變性,因此在圖像分類領(lǐng)域取得了較好的效果,其在手寫數(shù)字識別以及人臉識別方面都被驗證有著較好的性能。
20世紀80年代,F(xiàn)ukushima等[6]提出了第一個多層次的神經(jīng)網(wǎng)絡(luò)模型Neocognitron。Lecun等[7]構(gòu)建了LeNet-5模型,該模型首次提出了使用梯度反向傳播算法(Back Propgation algorithm, BP),對卷積神經(jīng)網(wǎng)絡(luò)進行有監(jiān)督訓(xùn)練;當時在MNIST 數(shù)據(jù)集上取得了最好的識別效果,其模型采用交替連接的卷積層和池化層,最后通過全連接層分類,確立了現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ),后來的大多數(shù)卷積網(wǎng)絡(luò)模型都是以LeNet-5模型為基礎(chǔ)的。Krizhevsky等[8]提出的AlexNet模型在2012年的ImageNet圖像分類競賽中大放異彩,錯誤率比上一年的冠軍下降了10個百分點,且遠遠超過當年的第二名;也因此將深度CNN(Deep CNN, DCNN)啟動了在圖像分類研究方面的廣泛應(yīng)用,對后來的VGG[9]、ResNet[10]、Google Net[11]等模型都具有非常深刻的影響。
為了在不增加較多計算量的前提下,提高卷積網(wǎng)絡(luò)模型用于圖像分類的正確率,本文提出了一種基于復(fù)雜網(wǎng)絡(luò)描述的圖像深度卷積分類方法。首先,以復(fù)雜網(wǎng)絡(luò)的圖像描述方法,將圖像轉(zhuǎn)化為基于三個不同閾值產(chǎn)生的三組度矩陣;然后,由三個深度卷積網(wǎng)絡(luò)分別學(xué)習(xí)三組度矩陣的特征;最后,將得到的特征向量進行特征融合。在ILSVRC2014數(shù)據(jù)庫上進行了驗證實驗,實驗結(jié)果表明,所提出的模型具有較高的正確率和較少的迭代次數(shù)。
圖像分類是通過對圖像整體的分析,預(yù)測圖像的類別。圖像分類是計算機視覺的挑戰(zhàn)領(lǐng)域之一,每年有賽事ILSVRC (Imagenet Large Scale Visual Recognition Challenge)[12]。在ILSVRC2012中,來自多倫多大學(xué)的Alex Krizhevsky團隊設(shè)計出卷積神經(jīng)網(wǎng)絡(luò)AlexNet,將測試的top-5 錯誤率下降到15.3%,而其他團隊做出的最小的top-5 錯誤率仍為26.2%。此后,不斷有更加高效、準確的模型出現(xiàn),如牛津大學(xué)的VGG[9]、谷歌研究院的GoogLeNet[10]等。近年來的優(yōu)秀模型甚至突破了人眼識別的平均錯誤率,展示了卷積神經(jīng)網(wǎng)絡(luò)在圖像分類上的強大優(yōu)勢。卷積神經(jīng)網(wǎng)絡(luò)需要用帶有標簽的數(shù)據(jù)集做有監(jiān)督的網(wǎng)絡(luò)訓(xùn)練,目前有許多用于圖像分類的帶標簽數(shù)據(jù)集,如ImageNet[13]、CIFAR10/100[14]、NORB[15]、Caltech-101/256[16]等。ILSVRC 使用的為ImageNet 數(shù)據(jù)集的子集,該子集包含1 000 個分類、128萬張測試圖片。
AlexNet 最終的網(wǎng)絡(luò)結(jié)構(gòu)共有7層,包含5個卷積層和2個全連接層,有約65萬個神經(jīng)元和6 000萬個可訓(xùn)練的參數(shù)。采用dropout 和激活函數(shù)ReLu 等技術(shù),訓(xùn)練環(huán)境為2 路GTX580,對128萬測試圖片的訓(xùn)練周期在5~6天,與之前的卷積神經(jīng)網(wǎng)絡(luò)相比,在分類正確率和訓(xùn)練時間上都有明顯提升。
復(fù)雜網(wǎng)絡(luò)存在大量的靜態(tài)統(tǒng)計特征描述量,如度、網(wǎng)絡(luò)直徑、平均路徑長度、聚類系數(shù)、最大度和最大核數(shù)等。這些特征量可以用來度量復(fù)雜網(wǎng)絡(luò)的重要屬性,如網(wǎng)絡(luò)的表示、分類和建模等[17]。
動態(tài)演化是復(fù)雜網(wǎng)絡(luò)的一個重要特征。在動態(tài)演化過程中,復(fù)雜網(wǎng)絡(luò)的特征度量是一個時間的函數(shù),在同一種演化方式下,不同時刻得到的兩個子網(wǎng)絡(luò)具有不同的特征。因此,用復(fù)雜網(wǎng)絡(luò)動態(tài)演化過程中不同時刻的靜態(tài)統(tǒng)計特征量來進行網(wǎng)絡(luò)的分析與分類是十分重要且有效的一種方式[18]。
目前,基于復(fù)雜網(wǎng)絡(luò)理論的圖像描述方法受到了越來越多研究者的關(guān)注[19]。Gon?alves等[20]通過對人臉圖像建立復(fù)雜網(wǎng)絡(luò)模型,實現(xiàn)了人臉圖像的特征提取與識別。Backes等[21]利用復(fù)雜網(wǎng)絡(luò)對圖像邊緣進行建模,實現(xiàn)了圖像形狀特征提取。湯進等[22]在Harris特征點的基礎(chǔ)上建立復(fù)雜網(wǎng)絡(luò)模型,實現(xiàn)了圖像的形狀特征提取。Couto等[23]通過建立圖像的復(fù)雜網(wǎng)絡(luò)平均度矩陣,在平均度矩陣的基礎(chǔ)上運行部分自回避確定性游走算法,實現(xiàn)了圖像的紋理特征提取。由于基于復(fù)雜網(wǎng)絡(luò)的圖像描述是基于復(fù)雜網(wǎng)絡(luò)靜態(tài)統(tǒng)計特征量的特征描述,相比于傳統(tǒng)的圖像描述方法,該類方法具有穩(wěn)定性好、抗噪聲能力強等優(yōu)點。
本文根據(jù)復(fù)雜網(wǎng)絡(luò)的靜態(tài)統(tǒng)計量建立圖像在不同閾值下的度矩陣,通過統(tǒng)計網(wǎng)絡(luò)節(jié)點在每個狀態(tài)下的度分布完成圖像的描述。
文獻[17]中提出了一種建立圖像復(fù)雜網(wǎng)絡(luò)模型的方法,將圖像的每個像素看作是復(fù)雜網(wǎng)絡(luò)的一個節(jié)點,并認為每個節(jié)點之間都有邊相連,邊的權(quán)值由兩個像素之間的距離和灰度差的加權(quán)和決定。通過設(shè)定一系列邊權(quán)值的閾值對初始的復(fù)雜網(wǎng)絡(luò)完全圖模型進行閾值動態(tài)演化,權(quán)值高于閾值的邊被刪去,得到的就是距離較小且像素值相近的像素之間的邊。為了簡化復(fù)雜網(wǎng)絡(luò)模型,本文選取節(jié)點周圍與其距離小于3的28個節(jié)點作為鄰域,只有在鄰域內(nèi)的節(jié)點可以有邊相連。文獻[17]中兩個節(jié)點i(x,y)與j(x′,y′)之間邊的權(quán)值w(v(x,y),v(x′,y′))為節(jié)點之間距離與節(jié)點代表的像素的灰度值差的加權(quán)和,為了使節(jié)點的度分布更加均勻,本文采用的權(quán)值w為以上兩項的直接加和,如式(1)所示;
|I(x,y)-I(x′,y′)|
(1)
文獻[17]方法和本文方法得到的度矩陣元素分布如圖1所示。
在將得到的邊權(quán)值歸一化之后,設(shè)定一系列閾值t,節(jié)點之間邊權(quán)值高于閾值的邊將被刪去,得到每個節(jié)點與閾值對應(yīng)的鄰域θ(vt)和度deg(vt)。如式(2)~(3)所示。
θ(vt)={v′∈V|(v,v′)∈E&w(v,v′)≤t}
(2)
deg(vt)=|θ(vt)|
(3)
度矩陣可以作為衡量像素與鄰域的相似度的標準,同時也包含大量的紋理信息。原始圖像和閾值t分別為0.8、0.7和0.6時生成的度矩陣圖像如圖2所示。
圖1 不同方法得到的同一圖像同一閾值的度矩陣元素分布直方圖Fig. 1 Degree matrix element distribution histograms of same image with same threshold acquired by different methods
圖2 原始圖像及其度矩陣圖像Fig. 2 Original image and its degree matrix images
DCNN一般由卷積層、池化層、全連接層三種神經(jīng)網(wǎng)絡(luò)層以及一個輸出層(Softmax 等分類器)組成,每層由多個二維平面塊組成,每個平面塊由多個獨立神經(jīng)元組成,AlexNet模型的結(jié)構(gòu)示意圖如圖3所示。
卷積層通過局部感受域與上一層神經(jīng)元實現(xiàn)部分連接,在同一局部感受域內(nèi)的神經(jīng)元與圖像區(qū)域中對應(yīng)像素有固定二維平面編碼信息關(guān)聯(lián),迫使神經(jīng)元提取局部特征,在每層的各個位置分布著許多組不同的神經(jīng)元,每組神經(jīng)元有一組輸入權(quán)值,這些權(quán)值與前一層神經(jīng)網(wǎng)絡(luò)矩形塊中的神經(jīng)元關(guān)聯(lián),即共享權(quán)值,減少了權(quán)值數(shù)量,降低了網(wǎng)絡(luò)模型的復(fù)雜度。卷積層在DCNN中起著至關(guān)重要的特征提取的功能,通過局部感受域方法獲取的觀測特征與平移、縮放和旋轉(zhuǎn)無關(guān),其權(quán)值共享結(jié)構(gòu)減少了權(quán)值數(shù)量,進一步降低了網(wǎng)絡(luò)模型的復(fù)雜度。
圖3 AlexNet模型結(jié)構(gòu)示意圖Fig. 3 Structure schematic diagram of AlexNet model
池化層是特征映射層,選擇卷積特征圖中不同的連續(xù)范圍的作為池化區(qū)域,然后取特征的最大值或平均值作為池化區(qū)域的特征,從而減小特征向量維度,實現(xiàn)局部平均和抽樣,使特征映射輸出對平移、旋轉(zhuǎn)、比例縮放等形式變換的敏感度下降。池化層通常跟在卷積層之后,這樣便構(gòu)成了一個兩次特征提取的結(jié)構(gòu),從而在對輸入樣本識別時,網(wǎng)絡(luò)有很好的畸變?nèi)萑棠芰Α?/p>
全連接層是本層神經(jīng)元與上層神經(jīng)元兩兩連接但本層神經(jīng)元之間不連接的結(jié)構(gòu),相當于多層感知器(Multi-Layer Perceptron, MLP)中的隱含層,局部特征信息作為輸出層(Softmax等分類器)的輸入,其后不再接卷積層,因通過全連接層之后,圖像特征已由二維信息降為一維信息,無法進行二維卷積運算。
本文提出的基于復(fù)雜網(wǎng)絡(luò)描述的圖像深度卷積分類方法結(jié)構(gòu)圖如圖4所示。
圖4 本文方法流程圖Fig. 4 Flow chart of the proposed method
由圖4可以看出,對于1張彩色圖像,其RGB3個維度上的分量均可視為1張圖像,由每個分量圖像可得到3個復(fù)雜網(wǎng)絡(luò)模型度矩陣,即為3組(9個)度矩陣;將每個分量得到的度矩陣作為AlexNet的輸入,學(xué)習(xí)得到3組圖像的特征;再將特征融合,由分類器得到分類結(jié)果并輸出。
為了驗證本文方法的有效性,本文對ILSVRC2014數(shù)據(jù)庫的樣本進行了分類仿真實驗。實驗環(huán)境為聯(lián)想80SH、4 GB內(nèi)存、Windows 10系統(tǒng)。選取10類圖像中的100張,共1 000張圖像作為分類的訓(xùn)練集合;選取這10類圖像中另外200張作為樣本集合;進行K近鄰(K-Nearest Neighbors,KNN)分類,分類原則為K=1,分類判別距離為歐氏距離。復(fù)雜網(wǎng)絡(luò)描述中,閾值選取在0.5到0.9 之間,實驗驗證閾值在0.5到0.9之間能保留更多的信息,保證分類實驗較高的正確率;當閾值小于0.5時,隨著閾值下降,產(chǎn)生的度矩陣能保留的原圖信息非常少。實驗共設(shè)置3個閾值,由三組AlexNet生成3 000維的特征向量。實驗中對比模型AlexNet、VGGNet和在VGG模型的基礎(chǔ)上使用復(fù)雜網(wǎng)絡(luò)描述的神經(jīng)網(wǎng)絡(luò)模型,最大迭代次數(shù)設(shè)為500次,每50次迭代進行一次驗證并輸出分類正確率。
隨著迭代次數(shù)的變化,不同網(wǎng)絡(luò)模型的分類正確率如圖5所示。由圖5可以看出,當?shù)螖?shù)為50時,AlexNet的分類正確率為24%,最終收斂于85%;迭代次數(shù)為50時,本文方法分類正確率為50%,最終收斂于90%;在迭代次數(shù)為50時,VGG模型分類正確率為73%,最終收斂于94%;而在VGG模型上使用復(fù)雜網(wǎng)絡(luò)描述(Complex Network Description, CND)的神經(jīng)網(wǎng)絡(luò)模型(CND+VGG)最終的數(shù)據(jù)結(jié)果與VGG模型的結(jié)果幾乎相同。
圖5 不同網(wǎng)絡(luò)模型隨著迭代次數(shù)變化的分類正確率Fig. 5 Classification accuracy of different network models with different number of iterations
實驗結(jié)果表明,與AlexNet相比,本文提出的方法分類正確率較高,且較早收斂;與VGG相比,本文方法較差,仍有改進空間;由于AlexNet 與VGG相比,網(wǎng)絡(luò)結(jié)構(gòu)較為簡單,增加一個復(fù)雜網(wǎng)絡(luò)描述層之后,分類正確率有明顯的改進,而VGG由于其網(wǎng)絡(luò)層數(shù)較多,增加復(fù)雜網(wǎng)絡(luò)描述層之后,結(jié)果并沒有明顯變化。
為了驗證復(fù)雜網(wǎng)絡(luò)描述方法中閾值大小選取,以及AlexNet網(wǎng)絡(luò)模型的第一層卷積核大小對于正確率和收斂時迭代次數(shù)的影響,改變第一個卷積核的大小,分別記錄了最高正確率和收斂時迭代次數(shù),結(jié)果如表1所示。其中,高閾值為0.8、0.7、0.6,低閾值為0.4、0.3、0.2。
表1 復(fù)雜網(wǎng)絡(luò)描述方法及卷積網(wǎng)絡(luò)模型第一層卷積核大小的影響Tab 1 Influence of complex network description method and kernel size of convolution network model first layer
實驗結(jié)果表明,選擇復(fù)雜網(wǎng)絡(luò)描述方法的閾值選擇和深度卷積網(wǎng)絡(luò)第一層卷積核大小對正確率和收斂時迭代次數(shù)的影響較大。選取較高的閾值能得到較高的正確率,但是收斂時迭代次數(shù)較高;選取合適10×10或者9×9的首層卷積核大小能得到較高的正確率和較少的收斂時迭代次數(shù)。
為了在不增加較多計算量的前提下,提高卷積網(wǎng)絡(luò)模型用于圖像分類的正確率,本文提出了一種基于復(fù)雜網(wǎng)絡(luò)描述的圖像深度卷積分類方法。該方法以復(fù)雜網(wǎng)絡(luò)的描述方法構(gòu)建度矩陣,然后采用AlexNet進行特征學(xué)習(xí),完成圖像分類的工作。與主流分類模型VGGNet、AlexNet的對比實驗結(jié)果表明,本文提出的方法具有較高的圖像分類正確率,迭代次數(shù)收斂較早,具有較強的穩(wěn)定性和一定的提升空間。