郭南南
(山東科技大學(xué)計算機(jī)科學(xué)與工程學(xué)院,山東青島 266590)
高光譜圖像(Hyperspectral Image,HSI)包含豐富的空間信息與反映地物各種特征的光譜信息,因此高光譜圖像被廣泛用于地質(zhì)勘探[1]、目標(biāo)檢測[2]和景觀分類[3]。高光譜圖像分類旨在根據(jù)每個像素空間光譜信息自動為其分配特定的語義標(biāo)簽,這是遙感圖像處理中的重要課題[4]。盡管大量波段提供了地物詳細(xì)的空間特征,但是波段之間,尤其是相鄰波段之間通常存在緊密的相關(guān)性將導(dǎo)致信息冗余[5]。因此,本文針對該問題,提出一種新的降維算法用于高光譜數(shù)據(jù)的預(yù)處理。
深度學(xué)習(xí)(Deep Learning,DL)[6]方法可自動學(xué)習(xí)圖像中的深層特征與高度抽象的語義特征,已被廣泛應(yīng)用于HSI 分類?;谏疃葘W(xué)習(xí)的分類方法大體可分為基于光譜信息的分類方法與基于光譜空間信息的分類方法?;诠庾V信息的分類方法僅提取HSI 光譜特征,通常包括基于深度信念網(wǎng)絡(luò)(DBN)[7]的方法、基于自動編碼器(SAE)[8]的方法與基于1D-CNN[9]等,這些方法往往使用一維特征向量作為輸入,忽略了HSI 空間結(jié)構(gòu)信息。文獻(xiàn)[10]將五層CNN 應(yīng)用于HSI 分類,并提出1D-CNN 網(wǎng)絡(luò)以提取頻譜特征?;谏疃葘W(xué)習(xí)使用光譜空間特征的分類方法比單獨使用光譜特征的方法獲得的結(jié)果更好,例如ResNet[11]、3D-CNN[12]和DenseNet[13]、全卷積神經(jīng)網(wǎng)絡(luò)(FCN)[14]等;文獻(xiàn)[14]提出一種基于FCN 的高光譜分類深度學(xué)習(xí)框架,使用反卷積網(wǎng)絡(luò)增強(qiáng)高光譜特征,提高分類精度;文獻(xiàn)[15]提出混合3D-CNN 與2D-CNN 的網(wǎng)絡(luò),但是網(wǎng)絡(luò)包含大量訓(xùn)練參數(shù),計算復(fù)雜。
現(xiàn)有網(wǎng)絡(luò)模型通常需大量樣本進(jìn)行訓(xùn)練,同時訓(xùn)練參數(shù)較多,需仔細(xì)調(diào)整超參數(shù)以避免過度擬合。因此,本文設(shè)計一個用于高光譜圖像分類的輕量級空間注意力網(wǎng)絡(luò)(LSANet),在保證高分類精度的同時可減少參數(shù)數(shù)量與計算時間。LSANet中的空間卷積塊具有輕量且高效的特征提取性能,可以捕獲具有判別性的光譜空間特征。為優(yōu)化特征提取識別能力,采用注意力機(jī)制細(xì)化特征圖,增強(qiáng)網(wǎng)絡(luò)空間特征表示能力,可提高有限樣本分類性能。
本文提出一種輕量級空間注意力網(wǎng)絡(luò)(LSANet)高光譜圖像分類框架,相關(guān)流程如圖1 所示。它由3 部分組成:降維、特征提取與分類。首先,利用分割核主成分分析(Segmentation Kernel Principal Component Analysis,SKPCA)對原始高光譜圖像進(jìn)行降維并獲得有益于分類的光譜空間特征;然后,通過光譜空間卷積塊(Spectral Space Convolution,SSC-block)對降維后的高光譜圖像進(jìn)行特征提??;最后,引入循環(huán)交叉注意力機(jī)制(Recurrent Criss-Cross Attention,RCC)抑制不重要的特征,增強(qiáng)可判別的特征。將輸出的特征圖進(jìn)行全局平均池化,然后饋入全連接(Full Conection,F(xiàn)C)層,并使用Softmax 激活函數(shù)進(jìn)一步預(yù)測樣本類別。
Fig.1 Scheme of the proposed classification method based on LSANet圖1 輕量級空間注意力網(wǎng)絡(luò)的高光譜圖像分類方法
考慮到高光譜圖像的相鄰波段通常具有很強(qiáng)的相關(guān)性并包含冗余信息。因此,設(shè)計SKPCA 對高光譜圖像進(jìn)行降維。首先,將高光譜圖像X的波段劃分為K個相鄰波段子集。第k(k∈{1,2,…,K})個子集Sk為:
X={X1,…,XM}表示包含M 個波段。核主成分分析(Kernel Principal Component Analysis,KPCA)[16]在提高像素光譜可分性和降低光譜維數(shù)方面是一種非常有效的算法。因此,將KPCA 應(yīng)用于每個相鄰子集,如式(2)所示。
n表示主成分?jǐn)?shù)目。然后,將不同波段子集的核主成分進(jìn)行堆疊,如式(3)所示。
Yi表示降維后高光譜數(shù)據(jù)。對相鄰波段的每個子集而不是原始高光譜數(shù)據(jù)執(zhí)行KPCA,可保留有關(guān)光譜差異中更重要的光譜信息。
具有大量訓(xùn)練參數(shù)的網(wǎng)絡(luò)可能容易過度擬合。為了解決該問題,設(shè)計輕量級光譜空間卷積塊(SSC-block),其靈感來自ShuffleNetV2[17]中的結(jié)構(gòu)。該卷積塊詳細(xì)信息如圖2 所示。在SSC-Block 中,先將輸入特征圖在通道維度分左右兩個分支,右分支使用空洞率為3 和6 的空洞卷積[18],卷積核大小1×1(簡稱AConv),在空間中分別接收簡單的短距離特征和復(fù)雜的遠(yuǎn)距離空間信息特征,同時使用卷積核大小為3×3 的深度可分離卷積[19](簡稱DWConv)減少參數(shù)和計算量。在每個卷積層上引入批處理歸一化(BN)[20]和ReLU 激活,使網(wǎng)絡(luò)收斂規(guī)范化,提高訓(xùn)練效率,改善了網(wǎng)絡(luò)過擬合現(xiàn)象。兩個分支用concat操作進(jìn)行合并,再經(jīng)通道混洗操作從而實現(xiàn)更輕便、高效的光譜空間特征提取。在深度學(xué)習(xí)中,淺層網(wǎng)絡(luò)可能無法顯著提高網(wǎng)絡(luò)分類效果,深層網(wǎng)絡(luò)可以更好地學(xué)習(xí)判別性特征,提高分類精度,因此在網(wǎng)絡(luò)中依次使用3 個SSC-block。
為了使用輕量級計算和內(nèi)存并加強(qiáng)空間特征,在網(wǎng)絡(luò)中引入交叉注意機(jī)制(CCA)[21]對特征圖依賴進(jìn)行建模,主要通過計算目標(biāo)特征像素點與特征圖中其它所有點之間的相互關(guān)系,并利用其對目標(biāo)像素點特征進(jìn)行加權(quán),以獲得更加有效的目標(biāo)特征。在交叉注意力機(jī)制中,在給定的局部特征映射H∈RC×W×H上使用兩個1×1 卷積,分別生成兩個特征圖Q和K,其中{Q,K}∈RC'×W×H,C為通道數(shù)。在特征映射Q和K上使用密集操作,生成注意映射A∈R(H+W-H)×W×H。親和操作定義為:
其中,di,u∈D是特征圖Qu與Ωi,u,i=[1,…,|Ωu|]的相關(guān)性程度,D∈R(H+W-H)×W×H;Qu表示第u個位置特征映射;Ωu是從與位置u在同行或同列的特征圖中提取特征向量的集合。在D 上使用Softmax 獲得注意映射A。在特征圖H 上使用1×1 的卷積,生成生成特征映射V∈RC×W×H。然后,通過聚合操作收集上下文信息。
Fig.2 Spectral-spatial convolution block圖2 光譜空間卷積塊
Indian Pines 圖像中地物分布更加密集,并且一個圖像塊可能包含更多的地物類型。因此實驗使用高光譜遙感數(shù)據(jù)集Indian Pines。
Indian Pines 數(shù)據(jù)集中圖像空間分辨率為20m,在高光譜圖像分類之前去除20 個失真波段,剩余200 個波段,光譜范圍為400~2 500nm,大小為145×145 個像素,共包含16種地物。Indian Pines 假彩色圖、地面真值圖和類別圖如圖3(彩圖掃OSID 碼可見)所示。
本文方法利用基于Python 語言的Keras 和TensorFlow深度學(xué)習(xí)框架實現(xiàn)。實驗以隨機(jī)選取的訓(xùn)練和測試樣本重復(fù)20 次結(jié)果的均值作為精度,使用小批量隨機(jī)梯度下降算法優(yōu)化網(wǎng)絡(luò)。損失函數(shù)使用交叉熵?fù)p失,在實驗中將學(xué)習(xí)率設(shè)為0.001,批次大小設(shè)置為64。實驗中每個類別隨機(jī)選取總樣本數(shù)的10%作為訓(xùn)練樣本,剩余樣本用作測試集。本文采用3 個廣泛使用的定量指標(biāo)評估HSI 分類性能,即總體準(zhǔn)確度(OA)、平均精度(AA)和Kappa 系數(shù)。
Fig.3 Indian Pines data set圖3 Indian Pines 數(shù)據(jù)集
為了有效驗證本文提出的高光譜分類方法,將LSANet與當(dāng)前最流行的深度學(xué)習(xí)網(wǎng)絡(luò)分類方法和傳統(tǒng)機(jī)器學(xué)習(xí)分類方法進(jìn)行對比,包括SVM[22]方法、1D-CNN 方法、SAE方法、FCNN 方法、3D-CNN 方法。在使用SVM 方法進(jìn)行高光譜圖像分類時,本文使用徑向基核函數(shù)。圖4 展示了不同方法視覺分類效果。如圖4 所示,由于僅利用光譜信息,因此SVM 和1D-CNN 顯示出“椒鹽現(xiàn)象”,不能取得令人滿意的分類性能;SAE 和FCNN 方法可以在分類結(jié)果中表現(xiàn)出較好的視覺效果,但導(dǎo)致建筑物附近某些區(qū)域被錯誤分類;由于忽略了豐富的結(jié)構(gòu)信息,F(xiàn)CNN 也呈現(xiàn)出嘈雜的分類結(jié)果;相比之下,本文LSANet 方法不僅可以在邊界區(qū)域?qū)崿F(xiàn)更為精確的分類,而且分類圖包含較少的噪聲。訓(xùn)練和測試樣本數(shù)量及不同方法分類精度如表1 所示,可以看出,就OA、AA 和Kappa 系數(shù)而言,本文LSANet 方法優(yōu)于其他比較方法。
Fig.4 Indian Pines image classification results obtained by different methods圖4 不同方法的Indian Pines 圖像分類結(jié)果
Table 1 Classification accuracies(Indian Pines)of difference method表1 IndianP 圖像的不同方法上各類別精度
本文提出了一種新穎的輕量級空間注意力網(wǎng)絡(luò)(LSANet),可用于高光譜圖像分類。網(wǎng)絡(luò)中光譜空間卷積塊可捕獲更豐富的光譜空間特征。循環(huán)交叉注意力機(jī)制增強(qiáng)了有效的空間特征,使網(wǎng)絡(luò)更注意地物結(jié)構(gòu)和邊緣,提高了分類性能。在高光譜數(shù)據(jù)集上進(jìn)行實驗,結(jié)果證明該方法有效。但是,該方法的缺點是注意力機(jī)制僅考慮像素級別特征,忽略了通道方向特征,這是為構(gòu)建更有效的光譜空間注意力機(jī)制需解決的問題。