王 燕,梁 琦
蘭州理工大學(xué) 計(jì)算機(jī)與通信學(xué)院,蘭州 730050
高光譜圖隨著高光譜遙感技術(shù)的發(fā)展,新的高光譜傳感器能夠同時(shí)采集光譜特征和空間特征的連續(xù)圖像[1]。高光譜圖像含有豐富的地物特征,包括光譜特征和空間特征。因此,在農(nóng)業(yè)、環(huán)境監(jiān)測、城市規(guī)劃和軍事偵察等領(lǐng)域有著廣泛的應(yīng)用[2]。因?yàn)楦吖庾V圖像具有三維立體圖像的屬性,所以為了更好地獲得地物信息,可以充分利用空間和光譜的聯(lián)合特征進(jìn)行圖像分類[3]。但是高光譜圖像在描述了豐富的地物細(xì)節(jié)信息的同時(shí),也出現(xiàn)了數(shù)據(jù)之間的高度相關(guān),引起數(shù)據(jù)的大量冗余問題[4],增加了計(jì)算的復(fù)雜度。因此,減少光譜數(shù)據(jù)間的冗余量,降低數(shù)據(jù)維度并且提取高光譜圖像的空譜聯(lián)合特征成為高光譜圖像分類中的首要任務(wù)[5-6]。
深度學(xué)習(xí)算法的提出,讓高光譜圖像的分類方法有了新的進(jìn)展。深度學(xué)習(xí)算法被研究者廣泛運(yùn)用到高光譜圖像的分類中,取得了良好的研究成果。2014 年,將深度學(xué)習(xí)網(wǎng)絡(luò)SAE(stacked autoencoder)運(yùn)用到高光譜圖像的分類中,并提出了一種融合光譜特征和空間特征的深度學(xué)習(xí)模型,得到了較高的分類精度[7],相繼越來越多的深度學(xué)習(xí)模型被研究者應(yīng)用。2015年,將深度置信網(wǎng)絡(luò)(deep belief network,DBN)模型引入到高光譜圖像分類中,同時(shí)結(jié)合了主成分分析的方法(principle component analysis,PCA)對數(shù)據(jù)進(jìn)行降維預(yù)處理。對特征進(jìn)行分層學(xué)習(xí)和采用邏輯回歸的方法對高光譜圖像的空譜特征進(jìn)行提取,取得了良好的分類效果[8]。2015 年,第一次將卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)模型應(yīng)用到高光譜圖像分類中,但是建立的CNN 模型只能進(jìn)行光譜特征的提取[9]。2016 年提出了一種基于CNN的深度特征提取方法,并建立了一種基于三維卷積神經(jīng)網(wǎng)絡(luò)的深度有限元模型,以提取高光譜遙感圖像的空譜特征,獲得較高的分類精度[10]。2017 年,提出了頻譜空間殘差網(wǎng)絡(luò)(spectral-spatial residual network,SSRN),SSRN 中的殘差剩余塊使用恒等映射來連接其他的3D卷積層,便于梯度的反向傳播,同時(shí)提取更深層次的光譜特征,緩解了其他深度學(xué)習(xí)模型存在的精度下降現(xiàn)象[11]。2019年,通過自適應(yīng)降維,提出了一種用于頻譜空間HSIC(hyperspectral image classification)的半監(jiān)督三維卷積神經(jīng)網(wǎng)絡(luò)來解決維數(shù)詛咒問題[12]。這些研究成果表明基于深度學(xué)習(xí)的方法在高光譜圖像分類方面取得了一定的成果。但是基于深度模型的方法通常存在過擬合的現(xiàn)象,這是因?yàn)樵诶蒙疃饶P偷姆椒ㄟM(jìn)行訓(xùn)練的時(shí)候需要大量帶標(biāo)簽的數(shù)據(jù),但是高光譜圖像帶標(biāo)簽的樣本不足。因此,為了盡量避免這樣的問題,需要合適的卷積模型,既能充分發(fā)揮卷積神經(jīng)網(wǎng)絡(luò)的巨大優(yōu)勢,又能減少可學(xué)習(xí)的參數(shù),從而緩解過擬合問題以及對于訓(xùn)練樣本數(shù)據(jù)量的需求。現(xiàn)有的卷積模型較復(fù)雜,網(wǎng)絡(luò)的參數(shù)量大,帶來計(jì)算復(fù)雜的問題。需要有更加輕量型的卷積網(wǎng)絡(luò)來滿足計(jì)算時(shí)間、效率以及內(nèi)存的要求。
為了解決上述問題,提出了一種新的快速3DCNN(3-dimensional convolutional neural networks)結(jié)合深度可分離卷積的方法。該方法首先將高光譜立方體圖像分割成相同大小的重疊三維小立方體。利用三維卷積核函數(shù)對這些小立方體進(jìn)行處理,生成多個(gè)連續(xù)波段的三維特征圖,以保留空間和光譜的聯(lián)合信息,為特征提取過程提供豐富的空譜信息。使用增量主成分分析(incremental principal component analysis,IPCA)對數(shù)據(jù)進(jìn)行預(yù)處理,獲得比較重要的波段信息。然后將預(yù)處理的數(shù)據(jù)輸入到3DCNN模型中,在三維卷積對空譜特征同時(shí)提取后,加入深度可分離卷積對空間特征再次進(jìn)行提取以獲得更加豐富的空間特征信息,最后采用Softmax分類器進(jìn)行分類。相對于其他2D/3D-CNN 模型,所提模型涉及的參數(shù)更少,同時(shí)運(yùn)算速率也相對較高,可以獲得較高的分類精度。本文的模型實(shí)驗(yàn)對比了幾種典型的HSIC方法。最后的實(shí)驗(yàn)和比較結(jié)果表明,本文所提模型方法性能優(yōu)于其他比較的方法。
早期CNN 模型的建立是針對二維數(shù)據(jù)設(shè)計(jì)的,可以對二維形狀進(jìn)行很好的識別,在目標(biāo)識別[13]、圖像分割[14]等方面有很好的應(yīng)用效果,但是對三維立體形狀進(jìn)行識別分析時(shí)就有一定的局限性。研究的高光譜圖像不同于一般的二維圖像,它由空間維和光譜維共同構(gòu)成,形成三維的數(shù)據(jù)立方體。在空間維也包含大量的信息,二維卷積神經(jīng)網(wǎng)絡(luò)(2-dimensional convolutional neural networks,2D-CNN)對高光譜圖像的空間特征可以較好地提取,但是不利于同時(shí)提取像元的光譜和空間特征[15]。利用卷積神經(jīng)網(wǎng)絡(luò)對高光譜圖像進(jìn)行分類時(shí),首先要對數(shù)據(jù)進(jìn)行降維、去噪等預(yù)處理操作,但是降維操作可能會引起高光譜圖像中細(xì)節(jié)信息的丟失,對高光譜圖像分類造成影響。
針對二維卷積神經(jīng)網(wǎng)絡(luò)對三維高光譜數(shù)據(jù)的信息利用不足的問題,可引入三維卷積神經(jīng)網(wǎng)絡(luò)對高光譜圖像的空譜特征同時(shí)提取。三維卷積神經(jīng)網(wǎng)絡(luò)(3D-CNN)與二維卷積神經(jīng)網(wǎng)絡(luò)(2D-CNN)的網(wǎng)絡(luò)結(jié)構(gòu)非常類似,兩類結(jié)構(gòu)都是由基本的卷積層和池化層組成。關(guān)鍵的不同之處在于3D-CNN 結(jié)構(gòu)采用的是3D 卷積核來對圖像進(jìn)行卷積操作。如圖1 所示2D-CNN 和3D-CNN 卷積操作的示例,N×N代表卷積核大小,三維比二維多了M代表的光譜維度大小,L為卷積層輸出通道。3D-CNN在空間維和光譜維上同時(shí)進(jìn)行運(yùn)算,從而同時(shí)提取圖像的空譜特征。不會單獨(dú)地提取某一類特征引起特征提取不足,導(dǎo)致分類結(jié)果不理想。
圖1 2D-CNN和3D-CNN算法Fig.1 Algorithm of 2D-CNN and 3D-CNN
三維卷積神經(jīng)網(wǎng)絡(luò)的卷積核在長、寬和通道三個(gè)方向上移動,計(jì)算神經(jīng)網(wǎng)絡(luò)第i層第j個(gè)特征圖在(x,y,z)處的點(diǎn)值V,計(jì)算公式如式(1)所示:
式中,m表示第i-1 層中與當(dāng)前特征圖相連的特征圖;x與y表示卷積核的長度和寬度,z表示卷積核在光譜維度上的尺寸;W代表與i-1 層相連的第m個(gè)特征圖的連接權(quán)值;b表示第i層第j個(gè)特征圖的偏置,f為激活函數(shù)。
深度可分離卷積(depthwise separable convolution,DSC)[16]是普通二維卷積神經(jīng)網(wǎng)絡(luò)的一種變換形式,可以替換普通二維卷積神經(jīng)網(wǎng)絡(luò)[17]。核心思想就是將普通N個(gè)通道為M的卷積拆分成1個(gè)通道為M的卷積,該卷積進(jìn)行單通道濾波操作,區(qū)別于普通卷積濾波后通道相加和N個(gè)1×1×M的卷積。圖2(a)所示為普通的卷積神經(jīng)網(wǎng)絡(luò),由卷積層、批歸一化操作和激活函數(shù)構(gòu)成。圖2(b)所示為深度可分離卷積,它是由一個(gè)卷積核大小為3×3 的卷積層、批歸一化、激活函數(shù)和卷積核大小為1×1 的卷積層、批歸一化、激活函數(shù)構(gòu)成,即分為深度卷積(depthwise convolution)和逐點(diǎn)卷積(pointwise convolution)兩部分[18]。在對多個(gè)輸入通道執(zhí)行常規(guī)2D卷積中,卷積核的通道數(shù)與輸入的通道數(shù)一致。
圖2 普通卷積和深度可分離卷積的區(qū)別Fig.2 Difference between ordinary convolution and deep separable convolution
混合所有通道來產(chǎn)生最后的一個(gè)輸出,深度卷積將輸入特征映射的每個(gè)通道分別卷積,捕獲每個(gè)通道的空間特征。逐點(diǎn)卷積集成所有提取的空間特征并學(xué)習(xí)輸入特征映射的信道相關(guān)信息,對獲得的特征圖進(jìn)行類似于普通卷積的通道融合操作??梢栽趽p失精度不多的情況下降低參數(shù)量和計(jì)算量。
通過上述分析,本文所提出模型的網(wǎng)絡(luò)架構(gòu)如圖3所示,其中包括一個(gè)輸入層、三個(gè)三維卷積層、兩個(gè)深度可分離卷積層、全連接層(包括一個(gè)Flatten平滑層、兩個(gè)Dense層以及兩個(gè)Dropout層),Dropout層主要為了緩解過擬合的問題。卷積層均采用ReLU激活函數(shù)進(jìn)行非線性映射。ReLU 激活函數(shù)比傳統(tǒng)的Sigmoid函數(shù)和Tanh函數(shù)收斂速度更快。ReLU激活函數(shù)的形式為:
圖3 網(wǎng)絡(luò)框架Fig.3 Network framework
最后通過Softmax分類器進(jìn)行高光譜圖像特征的分類。每個(gè)層的輸入輸出維度、參數(shù)大小如表1所示。
表1 模型在Window Size大小為11×11的IP數(shù)據(jù)集上的參數(shù)Table 1 Parameters of model on IP dataset with Window Size of 11×11
模型中3D-CNN卷積核大小為:3D_conv_layer1=8×3×3×7×1,其中=7;3D_conv_layer2=16×3×3×5×8,其中=5;3D_conv_layer3=32×3×3×3×16,其中=3。最后將三維的輸出特征reshape成二維數(shù)據(jù),提取高光譜圖像的空間特征,添加兩個(gè)深度可分離卷積層Separable_conv2d_1_layer4=3 × 3 × 64,Separable_conv2d_1_layer5=1×1×128。為了增加空間光譜特征圖的數(shù)量,在平化層之前部署了3 個(gè)三維卷積層,高光譜圖像的空間信息確定空間維上相鄰像素間的空域特征,并且空域特征可以彌補(bǔ)譜域特征的不足,應(yīng)用空域特征增加光譜空間的特征,提升高光譜圖像的分類精確度。因此在三維卷積層后增加兩個(gè)深度可分離卷積層,在可以減少參數(shù)的同時(shí)增加空間特征,提取更豐富的空譜特征,確保模型能夠在沒有損失的情況下區(qū)分不同波段的空間信息。提出的快速3D-CNN 和DSC 組合模型的總參數(shù)(即可調(diào)權(quán)值)為377 408,比單獨(dú)使用快速3D-CNN 的參數(shù)少了約一半多。卷積的填充方式選擇零填充,不需要進(jìn)行批處理歸一化和數(shù)據(jù)增強(qiáng)。
高光譜圖像的像素表現(xiàn)出高類間相似性、高類內(nèi)變異性,這樣的問題對于任何分類模型都需要密集的處理。為了克服上述問題,需要對數(shù)據(jù)進(jìn)行預(yù)處理操作。原始的PCA方法會把所有的數(shù)據(jù)一次性地放入內(nèi)存中,這在大數(shù)據(jù)集的情況下有可能會遇到問題,因此提出使用增量主成分分析(IPCA)對數(shù)據(jù)進(jìn)行預(yù)處理。增量主成分分析能夠避免直接計(jì)算協(xié)方差矩陣,并且不需要一次性獲得全部圖像數(shù)據(jù),它采用增量的學(xué)習(xí)方式,使用每次新獲得的圖像數(shù)據(jù)逐步對主元估計(jì)值進(jìn)行迭代更新。訓(xùn)練集可以分成一個(gè)個(gè)小批量,一次給IPCA算法輸入一個(gè)。
假設(shè)輸入向量序列為u′(t)=1,2,…,第n幅圖像輸入時(shí)均值為m(n)=,協(xié)方差矩陣為:
這里u(t)=u′(t)-m(n),u(n)的第i個(gè)特征值和特征向量的計(jì)算公式為λixi(n)=A(n)xi[n],其中xi(n)為第n輸入時(shí)待求的第i個(gè)特征向量,λi為對應(yīng)的特征值。IPCA 算法為了加快迭代的速度,整個(gè)迭代是對特征值和特征向量的乘積λixi進(jìn)行的。
IPCA 減少了減少空譜帶間的冗余,獲得比較重要的波段信息,同時(shí)保持空間維度的完整性。在圖3中,IPCA將光譜波段從200減小到20,而空間維數(shù)保持不變。同時(shí)三維立方體分割成小的重疊的三維空間小立方塊,傳遞給模型進(jìn)行特征提取,并在這些小立方體塊上基于中心像素形成地面標(biāo)簽。
圖4為三維空間光譜特征學(xué)習(xí)框架。該部分由3個(gè)三維卷積層、ReLU 激活函數(shù)組成,對高光譜圖像的光譜和空間特征同時(shí)提取。網(wǎng)絡(luò)的輸入數(shù)據(jù)大小為11×11×20,第一層卷積核的大小為3×3×8,經(jīng)過兩層三維卷積操作后,輸出為32 個(gè)5×5×8 大小的特征映射。在完成3D卷積操作后,再次進(jìn)行空間特征提取,利用reshape 進(jìn)行3D 到2D 變形。為了學(xué)習(xí)后期二維空間的輸出特征,將三維特征重構(gòu)為大小為5×5的32個(gè)二維特征圖,只需要研究二維空間特征,與三維卷積相比減少了網(wǎng)絡(luò)參數(shù)和操作成本。
圖4 3D光譜-空間特征學(xué)習(xí)Fig.4 3D spectral-spatial feature learning
圖5 為基于深度可分卷積的二維空間特征學(xué)習(xí)。采用深度可分離卷積對輸出的二維特征進(jìn)行提取,在不引入額外參數(shù)的情況下更好地提取空間特征。與傳統(tǒng)的二維卷積不同的是,深度可分卷積在保持信道獨(dú)立的情況下進(jìn)行空間卷積,然后進(jìn)行深度卷積。通過特征重塑后,網(wǎng)絡(luò)輸入數(shù)據(jù)為256個(gè)特征映射,大小為5×5。SeparableConv2D 實(shí)現(xiàn)整個(gè)深度分離卷積過程,即深度方向的空間卷積和輸出通道混合在一起的逐點(diǎn)卷積。第一步是深度卷積運(yùn)算,用64 個(gè)3×3 大小的卷積核對輸入數(shù)據(jù)進(jìn)行卷積運(yùn)算,得到了64個(gè)通道的特征圖,每個(gè)卷積核只對輸入層的一個(gè)通道進(jìn)行卷積。第二步是逐像素點(diǎn)卷積運(yùn)算。用128 個(gè)1×1 大小的卷積核在這64 個(gè)特征圖上進(jìn)行卷積運(yùn)算,將不同通道的信息進(jìn)行融合。經(jīng)過1×1的卷積,顯著地減小了尺寸深度。經(jīng)上層輸出的64個(gè)通道,1×1卷積將把這些通道嵌入到單個(gè)通道中。1×1 卷積之后,添加Batch Normalization 批量正則化提高模型泛化能力,添加非線性激活函數(shù)ReLU,非線性允許網(wǎng)絡(luò)學(xué)習(xí)更復(fù)雜的功能。同時(shí)每個(gè)卷積核與輸入圖像進(jìn)行卷積,得到一個(gè)空間特征映射。深度可分卷積不僅減少了網(wǎng)絡(luò)中的參數(shù)量和計(jì)算量,而且提高了網(wǎng)絡(luò)訓(xùn)練速度,降低了HSI 分類中過擬合的幾率。使用填充來保證輸出特征映射的大小與輸入的大小相同。
圖5 DSC空間特征學(xué)習(xí)Fig.5 DSC spatial feature learning
3.1.1 高光譜數(shù)據(jù)集
IP(Indian pines)是由AVIRIS傳感器收集的印第安納州西北部印第安納農(nóng)林高光譜試驗(yàn)地的圖像,該圖像由145×145 個(gè)像素組成,其中220 個(gè)光譜帶,范圍為0.2~0.4 m,空間分辨率很好。將其中20 個(gè)噪聲波段移除,該數(shù)據(jù)集共16類地物。
PU(Pavia University)帕維亞大學(xué)數(shù)據(jù)集在意大利北部的帕維亞收集,使用反射光學(xué)系統(tǒng)成像光譜儀(ROSIS)光學(xué)傳感器。PU 數(shù)據(jù)集由610×610 空間和103個(gè)光譜波段組成,該數(shù)據(jù)集包含9類地物。
SA(Salinas scene)數(shù)據(jù)集由機(jī)載可視紅外成像光譜儀(AVIRIS)對美國加利福尼亞州的Salinas 山谷進(jìn)行成像,空間分辨率為3.7m,其包含512×217個(gè)地物像素和224個(gè)光譜通道,共有200個(gè)光譜通道可用于分類,該數(shù)據(jù)集包含16類地物。圖6所示是3個(gè)數(shù)據(jù)集的偽彩色圖。
圖6 3個(gè)數(shù)據(jù)集的偽彩色圖Fig.6 Pseudo color maps of 3 datasets
3.1.2 實(shí)驗(yàn)細(xì)節(jié)描述
在實(shí)驗(yàn)過程中經(jīng)過不斷的測試調(diào)整,將batch size 設(shè)為256,epoch 迭代次數(shù)設(shè)置為50,采用Adam優(yōu)化器對網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)訓(xùn)練,初始學(xué)習(xí)率設(shè)置為0.001(同時(shí)設(shè)置decay=1E-06 每次參數(shù)更新后學(xué)習(xí)率衰減)進(jìn)行實(shí)驗(yàn)。采用ReLU 函數(shù)作為激活函數(shù),以提高計(jì)算效率并加快函數(shù)收斂速度。分別隨機(jī)選取訓(xùn)練數(shù)據(jù)量為60%,測試數(shù)據(jù)量為40%的IP、PU和SA 數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。為了實(shí)驗(yàn)的公平,對不同的數(shù)據(jù)集在輸入體積的三維patch中提取了相同的空間維度,例如IP、SA和UP的空間維度均為11×11×20。采用OA、AA 和Kappa 系數(shù)和混淆矩陣來評價(jià)分類性能,其中OA是用來評價(jià)所有樣本的分類正確率,AA是每一類分類的精度,Kappa系數(shù)是一種常用來計(jì)算分類精度的方法,代表分類與完全隨機(jī)的分類產(chǎn)生錯(cuò)誤減少的比例?;煜仃囀欠謩e統(tǒng)計(jì)分類模型歸錯(cuò)類、歸對類的觀測值個(gè)數(shù),然后把結(jié)果放在一個(gè)表里展示出來。
3.1.3 實(shí)驗(yàn)環(huán)境描述
實(shí)驗(yàn)環(huán)境為Intel?Xeon?Silver 4116 CPU @2.10 GHz,內(nèi)存為128 GB 的PC 機(jī),具體程序由Pycharm2019編寫,在Windows 10系統(tǒng)下基于python3.7的Tensorflow2.0 框架實(shí)現(xiàn)。在所有的實(shí)驗(yàn)中,初始測試集/訓(xùn)練集按40%/60%的比例劃分,將訓(xùn)練樣本(占總樣本的60%)再按30%/70%的比例劃分為訓(xùn)練集和驗(yàn)證集。
3.2.1 不同降維結(jié)果下的分類效果
維度變換是將現(xiàn)有數(shù)據(jù)降低到更小的維度,盡量保證數(shù)據(jù)信息的完整性。一般情況下,降維會造成原始數(shù)據(jù)信息的損失,降維后的數(shù)據(jù)要盡可能地保留原始數(shù)據(jù)的信息,本文利用增量主成分分析對數(shù)據(jù)進(jìn)行降維,通過給定需要原始數(shù)據(jù)信息的百分比來確定選擇前75 個(gè)主成分,降到20 維,但是如果需要保留更多的原始數(shù)據(jù)的信息就會造成降維后的維數(shù)仍然很多,導(dǎo)致分類效果不明顯。表2基于IP數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)分析,在其他的超參數(shù)均不變化的情況下,將降維參數(shù)NumComponents作為單一變量,統(tǒng)計(jì)降維到不同大小的維度時(shí)對分類效果的影響。從表中可以看到,在降維到20 的情況下,3 個(gè)分類精度指標(biāo)Kappa、OA、AA均最高,因此在保證其他參數(shù)不變的情況下,本文利用IPCA將數(shù)據(jù)降維到20維是最適合的情況,同時(shí)在實(shí)驗(yàn)過程中發(fā)現(xiàn)IPCA對數(shù)據(jù)的預(yù)處理速度較快。
表2 基于IP數(shù)據(jù)集的不同降維大小下的分類精度Table 2 Classification accuracy of different dimension reduction sizes based on IP dataset
3.2.2 不同空間維度大小對分類的影響
在深度卷積神經(jīng)網(wǎng)絡(luò)中,輸入圖像的尺寸越大,模型卷積參數(shù)的數(shù)量就越大,計(jì)算復(fù)雜度也會越高。另外,如果輸入圖像的大小過小,網(wǎng)絡(luò)接收的可用字段也會過小,無法獲得良好的分類結(jié)果。表3表示不同空間鄰域大小對所提模型性能的影響。設(shè)置空間維度大小為9×9×20、11×11×20、13×13×20、17×17×20、23×23×20、25×25×20,在3個(gè)數(shù)據(jù)集上分別通過實(shí)驗(yàn)得到不同窗口的訓(xùn)練時(shí)間以及Kappa、OA、AA的分類精度,訓(xùn)練時(shí)間高度依賴于網(wǎng)速和可用內(nèi)存以及模型參數(shù)量。對OA、AA、Kappa 的精度分析時(shí),可以得出結(jié)論,隨著空間維度的逐漸增大,IP 數(shù)據(jù)集基本呈增長趨勢,PU 數(shù)據(jù)集在23×23 大小的時(shí)候出現(xiàn)下降,但整體還是在增長。SA 數(shù)據(jù)集的分類精度較穩(wěn)定,當(dāng)空間輸入大小達(dá)到11×11 時(shí),分類精度開始緩慢變化,11×11的窗口大小在精度和時(shí)間上對于3 個(gè)數(shù)據(jù)集IP、PU、SA 是足夠的,而在13×13、17×17、23×23 和25×25 的空間維度大小下幾乎是相同的。通過實(shí)驗(yàn)可以看到在空間維度不斷增大的過程中,模型的各精度指標(biāo)會顯著增加,但同時(shí)參數(shù)量增加,計(jì)算時(shí)間增多。該方法主要是在快速3D-CNN模型的基礎(chǔ)上做的改進(jìn),為了比較的公平性,網(wǎng)絡(luò)超參數(shù)不變,維度大小也選取11×11×20 的情況。通過比較可以看到模型參數(shù)量減少,同時(shí)各個(gè)分類指標(biāo)的精度也相對較高,訓(xùn)練時(shí)間減少。
表3 3個(gè)數(shù)據(jù)集上空間維度大小對模型性能的影響Table 3 Impact of spatial window size on proposed model on 3 datasets
3.2.3 分類損失率和準(zhǔn)確率
實(shí)驗(yàn)通過訓(xùn)練和驗(yàn)證損失率以及準(zhǔn)確率來分析網(wǎng)絡(luò)模型的穩(wěn)定性以及擬合度,主要在IP 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證。圖7 的曲線表示IP 數(shù)據(jù)集在窗口大小為9×9 的情況下的訓(xùn)練和驗(yàn)證集損失率和準(zhǔn)確率分類效果,和11×11 大小下的曲線圖圖8 相比較,模型的擬合度不高。文中主要針對11×11 大小的情況進(jìn)行訓(xùn)練。從圖8 的曲線可以看到,從(a)圖可以看到模型在epoch達(dá)到15左右的時(shí)候就開始收斂,訓(xùn)練集和驗(yàn)證集的損失率已經(jīng)接近0。(b)圖epoch達(dá)到15左右時(shí)也開始收斂,訓(xùn)練集和驗(yàn)證集達(dá)到將近100%的準(zhǔn)確率。從兩個(gè)圖中可以看出訓(xùn)練集和驗(yàn)證集的曲線基本吻合,不存在較大的震蕩現(xiàn)象,模型的擬合度相當(dāng)高。通過實(shí)驗(yàn)可以看到所提模型相對穩(wěn)定,收斂速度非???,分類精確度較高。
圖7 空間大小為9×9的損失率和準(zhǔn)確率Fig.7 Loss and accuracy of space size 9×9
圖8 空間大小為11×11的損失率和準(zhǔn)確率Fig.8 Loss and accuracy of space size 11×11
3.2.4 深度可分離卷積的影響
通過比較實(shí)驗(yàn)來測試深度可分卷積的影響。在三維卷積層加入深度可分離卷積,形成比較模型,與快速3D-CNN 的模型進(jìn)行對比[19]。其他參數(shù)設(shè)置與Fast-3D-CNN一致。IP、PU和SA數(shù)據(jù)集的初始測試集/訓(xùn)練集按40%/60%的比例劃分,將訓(xùn)練樣本(占總樣本的60%)再按30%/70%的比例劃分為訓(xùn)練集和驗(yàn)證集。對不同的數(shù)據(jù)集提取相同的空間維數(shù)11×11×20。圖9~圖11 表示所提模型和Fast-3D-CNN 模型的分類圖對比。從圖中可以看出在其他條件都相同的情況下,加入深度可分離卷積的3D-CNN的分類效果更好??梢钥吹紽ast-3D-CNN 方法最終的分類結(jié)果圖中含有大量的斑點(diǎn),并且存在小區(qū)域內(nèi)錯(cuò)分的情況。而本文方法的分類結(jié)果圖則含有非常少量的斑點(diǎn),且在同質(zhì)的小區(qū)域內(nèi)相對平滑,并且好幾類地物幾乎完全正確分類。由此可見,該方法具有較好的分類效果。
圖9 在IP數(shù)據(jù)集上兩個(gè)模型的分類圖對比Fig.9 Comparison of classification graphs of two models on IP dataset
圖10 在PU數(shù)據(jù)集上兩個(gè)模型的分類圖對比Fig.10 Comparison of classification graphs of two models on PU dataset
圖11 在SA數(shù)據(jù)集上兩個(gè)模型的分類圖對比Fig.11 Comparison of classification graphs of two models on SA dataset
3.2.5 不同方法下的實(shí)驗(yàn)性能比較
為了驗(yàn)證所提網(wǎng)絡(luò)模型方法的正確性和有效性,最后將所提卷積模型的實(shí)驗(yàn)結(jié)果和傳統(tǒng)的卷積模型2D-CNN[20]、3D-CNN[21]、Multi-scale-3D-CNN[22]和Hybrid SN[23]進(jìn)行對比。為了保證實(shí)驗(yàn)的公平性,將所有對比網(wǎng)絡(luò)中的超參數(shù)都設(shè)置相同,例如將輸入數(shù)據(jù)降維到20維,空間維度大小設(shè)置為11×11×20,epoch周期為50,batch size為256。同前面實(shí)驗(yàn)一樣,分別從Indian Pines、Salinas scene 和Pavia University三個(gè)數(shù)據(jù)集上隨機(jī)選取60%訓(xùn)練數(shù)據(jù)、40%測試數(shù)據(jù)進(jìn)行驗(yàn)證,并且重復(fù)實(shí)驗(yàn)5 次,最后取這5 次的平均值。表4 為不同方法下的實(shí)驗(yàn)結(jié)果。從表中可以看出,提出的方法與其他方法中分類性能最好的方法Hybrid SN 相比較,對于Indian Pines 數(shù)據(jù)集,其OA高出1.86個(gè)百分點(diǎn),AA高出2.11個(gè)百分點(diǎn),Kappa系數(shù)高出2.34。對于Salinas scene 數(shù)據(jù)集,其OA 高出1.90個(gè)百分點(diǎn),AA高出1.14個(gè)百分點(diǎn),Kappa系數(shù)高出2.10。對于Pavia University 數(shù)據(jù)集,其OA 高出1.53個(gè)百分點(diǎn),AA高出1.90個(gè)百分點(diǎn),Kappa系數(shù)高出2.02。可以看出,在快速3D-CNN的基礎(chǔ)上結(jié)合深度可分離卷積具有較好的分類效果。圖12 表示PU數(shù)據(jù)集的混淆矩陣,可以看到PU數(shù)據(jù)集中大部分地物的分類精度達(dá)到100%,如Asphalt、Meadows 和Painted metal sheets 等,只有個(gè)別地物被錯(cuò)分,如將0.1%的Gravel 錯(cuò)分為Self-Blocking Bricks,表現(xiàn)出較明顯的分類效果。圖13表示不同方法下高光譜圖像分類圖的效果,從效果圖可以看到所提方法的優(yōu)勢。由此可見,所提及的方法,結(jié)合深度可分卷積的快速3D-CNN 模型對高光譜圖像的分類具有較好的分類效果。可以看到錯(cuò)分的類很少,在混淆矩陣中表現(xiàn)明顯。
表4 不同方法下的實(shí)驗(yàn)性能對比Table 4 Comparison of experimental performance under different methods
圖12 在PU數(shù)據(jù)集上的混淆矩陣Fig.12 Confusion matrix on PU dataset
圖13 不同方法在3個(gè)數(shù)據(jù)集上的分類效果Fig.13 Classification effect of different methods on 3 datasets
本文提出的快速3D-CNN 結(jié)合深度可分離卷積的高光譜圖像分類方法,首先利用IPCA對高光譜原始圖像進(jìn)行降維預(yù)處理,降低冗余頻譜,減少了圖像波段的數(shù)量同時(shí)保持空間維度的完整性;利用三維卷積神經(jīng)網(wǎng)絡(luò)同時(shí)提取光譜和空間特征,然后引入深度可分離卷積,設(shè)計(jì)了新的卷積層DSC 層。該層充分發(fā)揮了深度可分離卷積對空間特征提取的優(yōu)勢,能大幅度節(jié)省可學(xué)習(xí)的參數(shù);最后基于兩種卷積方式設(shè)計(jì)了快速3D-CNN 和深度可分離卷積結(jié)合的網(wǎng)絡(luò)框架。實(shí)驗(yàn)表明,該方法不僅在有限的標(biāo)簽樣本下表現(xiàn)出了較好的分類性能,而且同基于標(biāo)準(zhǔn)卷積層的模型相比,大大降低了模型復(fù)雜度,減少可學(xué)習(xí)參數(shù)的同時(shí)節(jié)省了內(nèi)存空間。
將提出的模型方法和其他傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)的方法相比較,分類性能較好,但是本文中還存在許多不足之處。例如如何設(shè)計(jì)更加完善的深度卷積網(wǎng)絡(luò)模型,解決網(wǎng)絡(luò)梯度下滑的問題,這將成為下一步的研究重點(diǎn)。