袁芊芊 謝維信
(1.深圳大學(xué)ATR國(guó)防科技重點(diǎn)實(shí)驗(yàn)室,廣東深圳 518060;2.廣東省智能信息處理重點(diǎn)實(shí)驗(yàn)室,廣東深圳 518060)
高光譜圖像中包含了豐富的光譜和空間信息,在對(duì)地觀測(cè)研究領(lǐng)域起著重要作用,在軍事及民用領(lǐng)域也都有著重要的應(yīng)用。高光譜圖像數(shù)據(jù)具有波段多、波段寬度窄、光譜分辨率高的特點(diǎn),但同時(shí)也有著特征維度高的缺點(diǎn)。由于其具有的高維特性,容易導(dǎo)致分類器的性能下降,這種現(xiàn)象稱為“休斯(Hughes)”效應(yīng)。此外,由于高光譜圖像數(shù)據(jù)的密集光譜采樣,高光譜波段中的相關(guān)光譜信息通常是高度相關(guān)的,高度冗余的信息也會(huì)影響高光譜圖像分類的性能。
為了獲得好的分類效果,提取的特征應(yīng)該具有表示性強(qiáng)、判別性好的特點(diǎn),特征工程對(duì)高光譜圖像分類起著關(guān)鍵的作用。傳統(tǒng)的高光譜圖像分類使用基于手工特征的機(jī)器學(xué)習(xí)技術(shù)[1-2]。近年來(lái),深度學(xué)習(xí)逐漸興起,各種各樣的深度學(xué)習(xí)模型得以開(kāi)發(fā)[3]。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于深度學(xué)習(xí)的高光譜圖像分類在方法和性能上取得了顯著進(jìn)展。
當(dāng)前深度學(xué)習(xí)領(lǐng)域中最廣泛應(yīng)用的高光譜圖像數(shù)據(jù)分類工具是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)模型。它在處理圖像分類問(wèn)題方面的優(yōu)越性,體現(xiàn)在其可從原始圖像中學(xué)習(xí)、提取和表示隱藏的、復(fù)雜的和非線性的特征的能力[4]。在過(guò)去幾年里,研究人員提出了許多可從高光譜圖像數(shù)據(jù)中捕獲復(fù)雜特征的深度學(xué)習(xí)算法,以深入理解和利用豐富的空譜特征[5]。其中三維卷積神經(jīng)網(wǎng)絡(luò)(3D-CNN)可以同時(shí)提取光譜信息和空間信息,這種光譜空間融合模型考慮了來(lái)自高光譜圖像數(shù)據(jù)立方體的光譜特性和空間信息,基于此可以發(fā)展出多種多樣的策略和架構(gòu)來(lái)進(jìn)行光譜空間信息的處理[6-7]。
He 等人[8]提出的殘差網(wǎng)絡(luò)(Residual Network,ResNet)是深度學(xué)習(xí)中應(yīng)用最廣泛的骨干網(wǎng)絡(luò)架構(gòu)之一,并且在高光譜圖像分類任務(wù)中也得到了應(yīng)用。ResNet 已被證明在處理空間光譜數(shù)據(jù)中的冗余信息方面是有效的[9]。光譜和空間殘差塊可以有區(qū)別地學(xué)習(xí)和提取高光譜圖像中豐富的光譜空間信息,其中殘差塊通過(guò)恒等映射連接三維卷積層,以促進(jìn)梯度更好地反向傳播[10-11]。殘差網(wǎng)絡(luò)已逐漸成為許多高光譜圖像分類算法的主要特征提取架構(gòu)[12-13]。例如,Wang等人[14]提出了一種高光譜多尺度ResNet,通過(guò)更好地利用不同尺度的可用信息來(lái)改進(jìn)簡(jiǎn)單的殘差模型。此外,孟月[15]提出了一種3D-ResNet 分類模型,可以更充分地提取高光譜圖像中的空譜特征,從而進(jìn)一步提高分類精度,但在數(shù)據(jù)輸入分類模型前需要借助虛擬樣本來(lái)增加訓(xùn)練樣本的數(shù)量。Wang 等人[16]提出了一種深度可分離的全卷積殘差網(wǎng)絡(luò),其中殘差學(xué)習(xí)和深度可分離卷積可以緩解梯度消失和過(guò)擬合的問(wèn)題,但配合使用的區(qū)域增長(zhǎng)方法需要額外的計(jì)算成本,因此需要花費(fèi)大量時(shí)間,且在同一類像素相隔很遠(yuǎn)的情況下性能欠佳。Mei等人[17]提出了一種級(jí)聯(lián)殘差膠囊網(wǎng)絡(luò)(Cascade Residual Capsule Network,CRCN),殘差模塊用于學(xué)習(xí)光譜維度中的高級(jí)光譜特征和處理空間相鄰類別的高光譜圖像立方體之間的光譜相似性,但CRCN的架構(gòu)相當(dāng)復(fù)雜,有待繼續(xù)改進(jìn)??偟膩?lái)說(shuō),在高光譜圖像的處理方面,目前的一些殘差網(wǎng)絡(luò)及其變體或改進(jìn),在網(wǎng)絡(luò)結(jié)構(gòu)方面還需要進(jìn)一步發(fā)展,如何在性能改善的同時(shí)不增加模型復(fù)雜度也是值得進(jìn)一步研究的問(wèn)題。
新的CNN 架構(gòu)設(shè)計(jì)是比較困難的,因此Hu 等人轉(zhuǎn)而關(guān)注通道關(guān)系,提出了可在原有的基礎(chǔ)CNN架構(gòu)上集成的即插即用的“擠壓和激發(fā)”(Squeezeand-Excitation,SE)塊[18],顯式地將通道注意力機(jī)制集成到骨干網(wǎng)絡(luò)(backbone)中,以輔助獲取特征之間的通道相關(guān)性,提升骨干網(wǎng)絡(luò)的性能。Hu等人還把通道注意力模塊實(shí)例化地集成到VGG、Inception和ResNet 等骨干網(wǎng)絡(luò)中,并在二維圖像分類任務(wù)中取得了一定的效果。高光譜圖像數(shù)據(jù)中包含了高度冗余的信息,這會(huì)影響高光譜圖像分類的效果。因此,注意力機(jī)制有助于模型選擇性地關(guān)注具有判別性的信息并忽略冗余信息[19-20]。高光譜圖像立方體中不同的光譜帶和空間位置具有不同的判別能力,如果充分探索,這些先驗(yàn)信息將有助于提高CNN的學(xué)習(xí)能力。沿著這個(gè)方向,Hang等人[21]提出了一種用于高光譜圖像光譜空間分類的注意力輔助CNN 模型,在每個(gè)卷積層中都加入了注意力模塊,使CNN 專注于更具辨別力的通道和空間位置,同時(shí)抑制了不必要的通道和空間位置,但也相應(yīng)增大了模型的復(fù)雜度。而楊晴[22]將注意力模塊集成到常用于語(yǔ)義分割任務(wù)的經(jīng)典骨干網(wǎng)絡(luò)U-Net 上,提出了一種空間注意力網(wǎng)絡(luò)來(lái)學(xué)習(xí)高光譜圖像高頻區(qū)域的信息,但模型的泛化性有待提高。Qu 等人[23]提出了三重注意力并行網(wǎng)絡(luò),且應(yīng)用了一種三重注意機(jī)制過(guò)濾每個(gè)子網(wǎng)絡(luò)的特征圖,以獲得更多的空譜信息和更重要的特征通道,但捕獲的特征在類不平衡的情況下魯棒性不足。Zhai 等人[24]提出了基于雙重注意力的多級(jí)一維卷積神經(jīng)網(wǎng)絡(luò),分層挖掘局部通道相關(guān)性,利用輕量級(jí)的子空間注意模塊來(lái)學(xué)習(xí)互補(bǔ)的跨通道依賴關(guān)系,然而提取的特征的判別性還可以進(jìn)一步增強(qiáng)。總的來(lái)說(shuō),在高光譜圖像的處理方面,目前用于輔助骨干網(wǎng)絡(luò)的注意力機(jī)制還存在不足,其輔助捕獲的特征的判別性和魯棒性還有待提高。
針對(duì)上述問(wèn)題,為了獲取表示性高、判別性好的特征,提高分類模型的性能,本文提出了一種基于空譜注意力機(jī)制及預(yù)激活殘差網(wǎng)絡(luò)的高光譜圖像分類算法。該方法是一種基于光譜空間的深度卷積神經(jīng)網(wǎng)絡(luò)改進(jìn)的特征學(xué)習(xí)方法。首先,設(shè)計(jì)了基于空譜注意力機(jī)制的空譜特征提取模塊,以利用注意力機(jī)制引導(dǎo)特征提取,更有效地利用高光譜圖像的光譜和空間信息對(duì)特征進(jìn)行重校準(zhǔn),為空譜特征在后續(xù)聯(lián)合學(xué)習(xí)時(shí)能專注于更具辨別力的通道和空間位置提供保證。其次,設(shè)計(jì)了基于預(yù)激活殘差網(wǎng)絡(luò)的空譜特征聯(lián)合學(xué)習(xí)模塊,其中預(yù)激活殘差網(wǎng)絡(luò)改進(jìn)了原始?xì)埐顦?gòu)建塊的網(wǎng)絡(luò)結(jié)構(gòu),從而能在空譜特征聯(lián)合學(xué)習(xí)時(shí)獲得表示性更強(qiáng)的深層特征。實(shí)驗(yàn)結(jié)果表明,提出的算法在Indian Pines、Kennedy Space Center 以及 University of Pavia 等不同的數(shù)據(jù)集上都能獲得更好的分類性能,表明該算法在獲得判別性更強(qiáng)的光譜空間特征表示方面的有效性和魯棒性。
本文所提出的基于空譜注意力機(jī)制及預(yù)激活殘差網(wǎng)絡(luò)的高光譜圖像分類的框架如圖1所示。該框架中,高光譜圖像的空間鄰域塊X∈RH×W×C是網(wǎng)絡(luò)的輸入。首先,利用基于空譜注意力機(jī)制的空譜特征提取模塊,從X中提取重校準(zhǔn)的空譜特征;其次,利用基于預(yù)激活殘差網(wǎng)絡(luò)的空譜特征聯(lián)合學(xué)習(xí)模塊,進(jìn)行重校準(zhǔn)的空譜特征的聯(lián)合學(xué)習(xí),獲得鑒別性更強(qiáng)的深層空譜特征表示;最后,對(duì)獲得的深層空譜特征表示進(jìn)行平均池化處理,并通過(guò)全連接層以獲得最終的分類圖。
圖1 基于空譜注意力機(jī)制及預(yù)激活殘差網(wǎng)絡(luò)的高光譜圖像分類框架Fig.1 Hyperspectral image classification framework based on spatial-spectral attention mechanism and pre-activation residual network
使用注意力機(jī)制的各種模塊,由于其架構(gòu)精簡(jiǎn),效果良好,且屬于即插即用的模塊,便于集成到骨干網(wǎng)絡(luò)中,在卷積神經(jīng)網(wǎng)絡(luò)得到了廣泛應(yīng)用。其中SE 塊[18]以通道域?yàn)樽⒁饬τ?,旨在學(xué)習(xí)一個(gè)權(quán)重,以表示層或通道內(nèi)激活的相對(duì)重要性,但忽略了空間信息。而卷積塊注意模塊(Convolutional block attention module,CBAM)[25]與SE 相比,同時(shí)關(guān)注了空間域和通道域這兩個(gè)注意力域,在全局平均池化的基礎(chǔ)上多了一個(gè)全局最大池化,在空間注意力部分,將兩個(gè)池化相加激活后再對(duì)原特征進(jìn)行加權(quán),然而,使用最大池化會(huì)導(dǎo)致在保留局部信息方面的效果較差。而Roy等人[26]提出的通道擠壓和空間激勵(lì)塊(Channel Squeeze and Spatial Excitation Block,sSE )則是通過(guò)卷積生成投影張量,作為對(duì)于空間位置的所有通道的線性組合表示,然后把投影通過(guò)激活再用于加權(quán)原特征,能更好地保留相關(guān)局部信息。本文借鑒SE 塊和sSE 塊,針對(duì)高光譜圖像數(shù)據(jù),設(shè)計(jì)了基于空譜注意力機(jī)制的空譜特征提取模塊。其中,注意力機(jī)制分為光譜注意力以及空間注意力兩個(gè)部分,用于三維卷積神經(jīng)網(wǎng)絡(luò),分別從光譜和空間維度兩個(gè)方面提供注意力特征圖。該機(jī)制可以有效地幫助網(wǎng)絡(luò)抑制相關(guān)性不強(qiáng)的特征,關(guān)注重要特征,從而增強(qiáng)網(wǎng)絡(luò)對(duì)特征的表征能力,提高網(wǎng)絡(luò)的分類性能。
本文設(shè)計(jì)的基于空譜注意力機(jī)制的空譜特征提取模塊如圖2所示。把從原始高光譜圖像中選取的三維圖像鄰域塊X作為模塊的輸入,對(duì)X使用卷積核大小為1 × 1 × 7、輸出通道數(shù)為C'的三維卷積,得到光譜特征,對(duì)X使用卷積核大小為3 ×3 × 1、輸出通道數(shù)為C''的三維卷積,得到空間特征,兩個(gè)特征的定義如下:
圖2 基于空譜注意力機(jī)制的空譜特征提取模塊示意圖Fig.2 The structure of spatial-spectral feature extraction module based on spatial spectrum attention mechanism
其中,*表示三維卷積操作,W和b分別表示卷積層的權(quán)重和偏置,F(xiàn)spectral變換用于提取光譜特征,F(xiàn)spatial變換用于提取空間特征。在卷積過(guò)程中,為了實(shí)現(xiàn)維度匹配,使用了零填充方式進(jìn)行邊界填充,這有利于提取圖像邊緣部分的特征,防止信息丟失。
對(duì)于光譜特征,為了學(xué)習(xí)緊湊的特征表示和在特征圖中捕獲光譜通道間的相互依賴關(guān)系,首先利用全局平均池化操作來(lái)計(jì)算關(guān)于光譜特征的通道級(jí)的描述子Z∈Rc×1:
其中,Zc'表示Z的第c'個(gè)元素,H表示光譜特征的底部矩形的高度,W表示光譜特征的底部矩形的寬度,ui,j∈。
然后,為了更好地對(duì)光譜信息的相關(guān)性進(jìn)行擬合,描述子Z經(jīng)過(guò)一個(gè)全連接層(使用三維卷積實(shí)現(xiàn)),同時(shí)使用ReLU 函數(shù)激活,將Z的特征維度由C'降低為C'/2。維數(shù)的壓縮同時(shí)減少了參數(shù)的開(kāi)銷,也更有利于模型的收斂。
之后再經(jīng)過(guò)一個(gè)全連接層進(jìn)行升維,恢復(fù)到之前的維度C'。同樣地,再次經(jīng)過(guò)ReLU 函數(shù)激活后,得到的特征記為x',輸入Softmax 函數(shù)計(jì)算權(quán)重分布。Softmax函數(shù)公式[27]如下:
其中,x'表示輸入的特征向量,N表示輸入的特征向量的維數(shù)。Softmax 函數(shù)把輸入的N維特征向量中的每個(gè)元素進(jìn)行指數(shù)變換,得到N個(gè)大于0的數(shù)值,再除以它們的和,得到N個(gè)概率值作為權(quán)重。
應(yīng)用Softmax 函數(shù)可計(jì)算關(guān)于光譜通道的一個(gè)權(quán)重分布,得到光譜注意力向量m,公式如下:
其中,mi是光譜注意力向量m的第i個(gè)元素,表示輸入的特征向量的維數(shù)。
最后,將光譜注意力向量m通過(guò)元素級(jí)乘法加權(quán)到光譜特征上,得到光譜注意力加權(quán)后的重校準(zhǔn)特征,公式如下:
對(duì)于空間特征,利用三維卷積操作對(duì)其光譜通道維進(jìn)行壓縮,得到一個(gè)空間信息的緊湊特征表示,記為然后,把緊湊特征表示輸入Softmax 函數(shù),計(jì)算空間權(quán)重分布,得到空間注意力向量n,公式如下:
其中,ni是光譜注意力向量n的第i個(gè)元素,表示輸入的特征向量的維數(shù)。
最后,空間注意力向量n通過(guò)元素級(jí)乘法加權(quán)到空間特征上,得到空間注意力加權(quán)后的重校準(zhǔn)特征,公式如下:
得到重校準(zhǔn)特征和重校準(zhǔn)特征后,對(duì)它們使用特征級(jí)加法進(jìn)行拼接,從而得到最終的基于空譜注意力機(jī)制進(jìn)行重校準(zhǔn)的空譜特征V,公式如下:
利用空譜注意力機(jī)制對(duì)特征進(jìn)行重校準(zhǔn),能夠獲取高光譜圖像光譜信息的全局與局部相關(guān)性,以及空間信息的上下文相關(guān)性,有助于在后續(xù)聯(lián)合學(xué)習(xí)時(shí)選擇性地關(guān)注更具判別性的信息并忽略高光譜圖像數(shù)據(jù)包含的冗余信息,從而提高網(wǎng)絡(luò)產(chǎn)生的特征表示的質(zhì)量,提高網(wǎng)絡(luò)的分類性能。
在眾多深度學(xué)習(xí)模型當(dāng)中,ResNet 及其變體[8,28-31]是深受關(guān)注的卷積神經(jīng)網(wǎng)絡(luò),通過(guò)跳躍連接可以很好地處理消失梯度問(wèn)題。為了在網(wǎng)絡(luò)中前后傳播信息,原始的ResNet 通過(guò)將殘差塊深度疊加在一起而形成。原始的基本殘差塊(basic block)的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 原始的基本殘差塊示意圖Fig.3 The structure of the original basic residual block
在原始的基本殘差塊的網(wǎng)絡(luò)結(jié)構(gòu)中,信號(hào)進(jìn)入分支前沒(méi)有經(jīng)過(guò)標(biāo)準(zhǔn)化處理,在網(wǎng)絡(luò)訓(xùn)練過(guò)程中,其分布會(huì)逐漸發(fā)生偏移或者變動(dòng),這造成了學(xué)習(xí)困難;而信息傳播的最直接的路徑(由圖3中大的橙色箭頭表示)上也沒(méi)有應(yīng)用正則化,容易產(chǎn)生過(guò)擬合現(xiàn)象,限制了模型的學(xué)習(xí)能力。而Duta等人[31]提出了I-ResNet,這是ResNet 的改進(jìn)版本,對(duì)ResNet 的網(wǎng)絡(luò)層的信息流、殘差構(gòu)建塊結(jié)構(gòu)和投影快捷方式作出了改進(jìn),并在二維圖像分類任務(wù)中取得了效果。本文在I-ResNet中改進(jìn)殘差構(gòu)建塊結(jié)構(gòu)的基礎(chǔ)上,針對(duì)高光譜圖像數(shù)據(jù),設(shè)計(jì)了基于預(yù)激活殘差網(wǎng)絡(luò)的空譜特征聯(lián)合學(xué)習(xí)模塊,通過(guò)進(jìn)一步改進(jìn)預(yù)激活殘差網(wǎng)絡(luò)中的殘差構(gòu)建塊網(wǎng)絡(luò)結(jié)構(gòu)來(lái)促進(jìn)特征學(xué)習(xí),從而獲得了更具鑒別性的深層光譜空間特征表示。
模塊的結(jié)構(gòu)如圖4所示。模塊的輸入為基于空譜注意力機(jī)制重校準(zhǔn)的空譜特征V。該模塊由預(yù)激活的光譜特征學(xué)習(xí)殘差塊(a)、refactor 層和預(yù)激活的空間特征學(xué)習(xí)殘差塊(b)先后級(jí)聯(lián)構(gòu)成。兩個(gè)殘差塊具有相似的結(jié)構(gòu),均由若干個(gè)BN 層、ReLu 層、Conv3D 層構(gòu)成,其不同之處在于三維卷積核的大小,殘差塊(a)中卷積核大小為(1,1,7),殘差塊(b)中卷積核大小為(3,3,1)。與原始的基本殘差塊(圖3)相比,預(yù)激活的殘差塊主要有以下三點(diǎn)不同。其一,在第一個(gè)卷積層前加入了BN 層和ReLu層作為預(yù)激活單元,通過(guò)預(yù)激活單元對(duì)輸入分支的信號(hào)做標(biāo)準(zhǔn)化處理,把輸入值的分布恢復(fù)為更穩(wěn)定的分布,這種穩(wěn)定的信號(hào)作為輸入使得模型更易于優(yōu)化。其二,針對(duì)高光譜圖像數(shù)據(jù)的特性將卷積層由二維卷積改為三維卷積,便于光譜特征和空間特征的聯(lián)合學(xué)習(xí)。其三,將分支的最后一個(gè)BN 層移動(dòng)到應(yīng)用加法操作進(jìn)行信號(hào)合并之后,使得全信號(hào)經(jīng)過(guò)正則化后再通過(guò)ReLU 層進(jìn)行激活,避免產(chǎn)生過(guò)擬合現(xiàn)象,提升了模型的特征學(xué)習(xí)能力。
圖4 基于預(yù)激活殘差網(wǎng)絡(luò)的空譜特征聯(lián)合學(xué)習(xí)模塊示意圖Fig.4 The structure of spatial-spectral feature joint learning module based on pre-activated residual network
具體地,重校準(zhǔn)的空譜特征V先經(jīng)過(guò)預(yù)激活的光譜特征學(xué)習(xí)殘差塊(a),得到空間信息聚焦的光譜特征V',公式如下:
其中,F(xiàn)res_spectral表示一個(gè)可學(xué)習(xí)的殘差映射函數(shù),表示Fres_spectral中所有的BN 層及Conv3D 層中可訓(xùn)練的參數(shù)。
然后經(jīng)過(guò)refactor 層進(jìn)行重構(gòu),將特征V'轉(zhuǎn)換為適合下一殘差塊(b)輸入的形式。refactor 層在轉(zhuǎn)換特征的同時(shí),也壓縮了特征V'的維度,從而有效地減少了網(wǎng)絡(luò)訓(xùn)練的參數(shù)。最后,將refactor層輸出的轉(zhuǎn)換后的特征S輸入預(yù)激活的空間特征學(xué)習(xí)殘差塊(b),得到光譜信息聚焦的空間特征S',公式如下:
其中,F(xiàn)res_spatial表示一個(gè)可學(xué)習(xí)的殘差映射函數(shù)表示Fres_spatial中所有的BN層及Conv3D層中可訓(xùn)練的參數(shù)。
上述基于預(yù)激活殘差網(wǎng)絡(luò)的空譜特征聯(lián)合學(xué)習(xí)模塊中,預(yù)激活殘差塊一方面對(duì)進(jìn)入分支的信號(hào)進(jìn)行了標(biāo)準(zhǔn)化處理,通過(guò)穩(wěn)定輸入值的分布使得模型易于優(yōu)化;另一方面在信息傳播的最直接的路徑(由圖3 中大的橙色箭頭表示)上應(yīng)用了BN 層對(duì)全信號(hào)作正則化處理,避免了過(guò)擬合現(xiàn)象的產(chǎn)生。同時(shí),預(yù)激活殘差網(wǎng)絡(luò)中構(gòu)建了級(jí)聯(lián)的三維卷積核大小不同的兩個(gè)預(yù)激活殘差塊以處理高光譜圖像數(shù)據(jù)??梢钥闯?,預(yù)激活殘差網(wǎng)絡(luò)改進(jìn)了原始?xì)埐顦?gòu)建塊的網(wǎng)絡(luò)結(jié)構(gòu),從而能在利用注意力機(jī)制重校準(zhǔn)的空譜特征的聯(lián)合學(xué)習(xí)時(shí)獲取更多含有豐富的深層細(xì)節(jié)信息的特征表示,這些從高光譜圖像數(shù)據(jù)中捕獲的深層特征判別性更強(qiáng),有利于提高分類器的分類性能。
在基于預(yù)激活殘差網(wǎng)絡(luò)的空譜特征聯(lián)合學(xué)習(xí)模塊之后,使用平均池化層將提取的含有深層光譜空間信息的三維特征圖轉(zhuǎn)換為特征向量。最后,利用具有Softmax 函數(shù)的全連接層根據(jù)高光譜圖像中土地覆蓋類別的數(shù)量進(jìn)行分類。全連接層作為一個(gè)分類器,可以將特征向量由特征空間映射到樣本標(biāo)記空間。通過(guò)采用常用的多分類交叉熵函數(shù)作為L(zhǎng)oss 函數(shù),計(jì)算預(yù)測(cè)向量和真值標(biāo)簽向量y之間的誤差。網(wǎng)絡(luò)訓(xùn)練的參數(shù)則通過(guò)反向傳播交叉熵函數(shù)的梯度進(jìn)行更新。通過(guò)參數(shù)更新,可以合理地調(diào)整特征圖對(duì)分類結(jié)果的影響。多分類交叉熵函數(shù)的公式為:
其中,L表示batch_size 的大小,J表示土地覆蓋類別的總數(shù)。
所有的權(quán)值都是隨機(jī)初始化的,并使用Adam優(yōu)化器學(xué)習(xí)三維光譜-空間濾波器組的權(quán)值。該優(yōu)化器可以平滑地反向傳播由損失函數(shù)生成的網(wǎng)絡(luò)梯度流。學(xué)習(xí)率設(shè)置為0.0001,batch_size 設(shè)置為16,每次運(yùn)行200 個(gè)epochs。整個(gè)過(guò)程重復(fù)5 次,以報(bào)告平均精度和標(biāo)準(zhǔn)偏差。
為了驗(yàn)證本文提出的算法的有效性,在三個(gè)著名的高光譜圖像分類基準(zhǔn)數(shù)據(jù)集:印度松(Indian Pines,IP)、肯尼迪太空中心(Kennedy Space Center,KSC)以及帕維亞大學(xué)(University of Pavia,UP)上進(jìn)行了分類實(shí)驗(yàn)。實(shí)驗(yàn)中,從數(shù)據(jù)集中隨機(jī)挑選部分?jǐn)?shù)據(jù)作為訓(xùn)練集,剩余的用于測(cè)試,一共進(jìn)行5次實(shí)驗(yàn),并計(jì)算標(biāo)準(zhǔn)差。
實(shí)驗(yàn)采用了總體分類精度(Overall Accuracy,OA)、平均分類精度(Average Accuracy,AA)和Kappa系數(shù)等指標(biāo),以評(píng)估模型的分類性能。其中,OA 表示在總的測(cè)試樣本中正確分類樣本所占的比例;AA表示每一類的分類準(zhǔn)確率的平均值;Kappa 系數(shù)是基于混淆矩陣計(jì)算的衡量分類精度的指標(biāo),用于檢驗(yàn)網(wǎng)絡(luò)模型生成的分類圖與給定的地面標(biāo)記模板的一致性,它的值通常落在0~1 間,越接近1 表明分類精度越高。
將提出的算法與傳統(tǒng)算法以及具有代表性的一些基于深度學(xué)習(xí)的高光譜圖像分類算法進(jìn)行比較,對(duì)比算法包括MLR[32]、LSTM[33]等傳統(tǒng)算法以及ResNet[8]、MS-3DNet[34]、SSRN[10]、DPyResNet[35]、ENL-FCN[36]和A2S2K-ResNet[37]等深度學(xué)習(xí)算法。對(duì)比算法與提出的算法均使用10%的數(shù)據(jù)作為訓(xùn)練集,剩余的90%用于測(cè)試。并且,為了進(jìn)一步驗(yàn)證提出的算法中空譜注意力機(jī)制以及預(yù)激活殘差網(wǎng)絡(luò)的有效性,使用5%的數(shù)據(jù)作為訓(xùn)練集,剩余的95%用于測(cè)試,其他實(shí)驗(yàn)設(shè)置保持不變,進(jìn)行消融實(shí)驗(yàn)。實(shí)驗(yàn)從原始高光譜圖像數(shù)據(jù)中選取大小為9 × 9 ×B的三維圖像鄰域塊作為輸入,其中B為光譜維數(shù)。實(shí)驗(yàn)平臺(tái)的配置為GTX1080Ti 顯卡以及Linux操作系統(tǒng),并基于Pytorch深度學(xué)習(xí)框架實(shí)現(xiàn)。
IP 數(shù)據(jù)集是由AVIRIS 傳感器在印第安納州西北部的印度松測(cè)試現(xiàn)場(chǎng)獲取的場(chǎng)景,由145x145 像素和224 個(gè)波段組成,其中有效波段200 個(gè)。此場(chǎng)景是較大場(chǎng)景的子集,一共有16個(gè)農(nóng)作物類別。
KSC 數(shù)據(jù)集是由AVIRIS 傳感器在佛羅里達(dá)州肯尼迪太空中心拍攝獲取的場(chǎng)景,一共包含了224個(gè)波段,經(jīng)過(guò)水汽噪聲去除后還剩下176 個(gè)波段。此場(chǎng)景的幾何分辨率為18 米,一共有13 個(gè)類別,代表了此場(chǎng)景中的各種土地覆蓋類型。
UP 數(shù)據(jù)集是由ROSIS 傳感器在意大利北部帕維亞上空進(jìn)行的一次飛行比賽中獲得的場(chǎng)景,由610x340 像素和103 個(gè)波段組成。此場(chǎng)景的幾何分辨率為1.3米,一共有9個(gè)地物類別。
本文提出的基于空譜注意力機(jī)制及預(yù)激活殘差網(wǎng)絡(luò)的高光譜圖像分類算法與8種對(duì)比算法模型在IP、KSC 和UP 數(shù)據(jù)集上的分類結(jié)果分別如表1~表3 所示。圖5~圖7 則分別給出了提出的算法與6種深度學(xué)習(xí)對(duì)比算法在IP、KSC 和UP 數(shù)據(jù)集上的高光譜圖像分類圖。
表1 不同算法模型在IP數(shù)據(jù)集上的分類結(jié)果Tab.1 Classification results of different algorithm models for IP dataset
表2 不同算法模型在KSC數(shù)據(jù)集上的分類結(jié)果Tab.2 Classification results of different algorithm models for KSC dataset
表3 不同算法模型在UP數(shù)據(jù)集上的分類結(jié)果Tab.3 Classification results of different algorithm models for UP dataset
圖5 IP數(shù)據(jù)集分類圖,(a)偽色彩圖像,(b)地面標(biāo)記模板,(c)ResNet,(d)MS-3DNet,(e)SSRN,(f)DPyResNet,(g)ENL-FCN,(h)A2S2K-ResNet,(i)本文算法Fig.5 Classification map of IP dataset,(a)False-color composite image,(b)Ground truth,(c)ResNet,(d)MS-3DNet,(e)SSRN,(f)DPyResNet,(g)ENL-FCN,(h)A2S2K-ResNet,(i)Proposed algorithm
圖6 KSC數(shù)據(jù)集分類圖,(a)偽色彩圖像,(b)地面標(biāo)記模板,(c)ResNet,(d)MS-3DNet,(e)SSRN,(f)DPyResNet,(g)ENL-FCN,(h)A2S2K-ResNet,(i)本文算法Fig.6 Classification map of KSC dataset,(a)False-color composite image,(b)Ground truth,(c)ResNet,(d)MS-3DNet,(e)SSRN,(f)DPyResNet,(g)ENL-FCN,(h)A2S2K-ResNet,(i)Proposed algorithm
圖7 UP數(shù)據(jù)集分類圖,(a)偽色彩圖像,(b)地面標(biāo)記模板,(c)ResNet,(d)MS-3DNet,(e)SSRN,(f)DPyResNet,(g)ENL-FCN,(h)A2S2K-ResNet,(i)本文算法Fig.7 Classification map of UP dataset,(a)False-color composite image,(b)Ground truth,(c)ResNet,(d)MS-3DNet,(e)SSRN,(f)DPyResNet,(g)ENL-FCN,(h)A2S2K-ResNet,(i)Proposed algorithm
從表1~表3 可以看出,在三個(gè)數(shù)據(jù)集上,本文算法的分類結(jié)果在OA、AA 和Kappa 上均優(yōu)于8 種對(duì)比算法。其中,在IP 數(shù)據(jù)集上分類準(zhǔn)確率提升最多,在UP 數(shù)據(jù)集上分類準(zhǔn)確率提升最少。這與訓(xùn)練數(shù)據(jù)的標(biāo)記樣本數(shù)量有關(guān),UP數(shù)據(jù)集的標(biāo)記樣本數(shù)量是最多的,原來(lái)的一些算法在10%的有限訓(xùn)練樣本下,UP數(shù)據(jù)集上的分類結(jié)果都幾乎達(dá)到了99%以上,所以可提升空間有限。而IP 數(shù)據(jù)集的標(biāo)記樣本數(shù)量最少,尤其是其中的第9 類(圖5 中的Oats),僅包含20 個(gè)標(biāo)記樣本,所以該數(shù)據(jù)集更具挑戰(zhàn)性,可提升空間更大。不同算法在IP 數(shù)據(jù)集的第9 類(Oats)的單類分類精度如表4 所示。從表4 可以看出,本文算法與MLR、LSTM、ResNet、MS-3DNet、SSRN、DPyResNet、ENL-FCN 以 及A2S2K-ResNet 相比,在Oats 類的分類精度上分別提高了78.45%、30.31%、23.18%、17.34%、27.76%、17.35%、11.79%和9.75%。
表4 不同算法模型關(guān)于IP數(shù)據(jù)集的Oats類的單類分類精度Tab.4 Single-class classification accuracy of different algorithmic models on the Oats of IP dataset
從圖5~圖7 可以看出,本文算法所產(chǎn)生的分類圖與地面標(biāo)記模板相比,分類錯(cuò)誤的像素點(diǎn)更少。在最具挑戰(zhàn)性的IP數(shù)據(jù)集的分類圖(圖5)中可以觀察到,與圖5(c)~(h)相比,圖5(i)把第9 類(Oats)錯(cuò)誤分類為其他類別的像素點(diǎn)更少。
因此,綜合在OA、AA 和Kappa 上的分類結(jié)果、在最具挑戰(zhàn)性的IP 數(shù)據(jù)集的Oats 類上的單類分類精度以及分類圖等實(shí)驗(yàn)對(duì)比結(jié)果可以看出,所提出的基于空譜注意力機(jī)制及預(yù)激活殘差網(wǎng)絡(luò)的高光譜圖像分類算法可以更有效地獲取判別性更強(qiáng)的特征,從而提升分類性能。
為了驗(yàn)證空譜注意力機(jī)制和預(yù)激活殘差網(wǎng)絡(luò)的有效性,構(gòu)建了3 個(gè)對(duì)比網(wǎng)絡(luò)模型,使用5%的數(shù)據(jù)作為訓(xùn)練集進(jìn)行消融實(shí)驗(yàn)。三個(gè)對(duì)比網(wǎng)絡(luò)模型分別是不包含空譜注意力機(jī)制的預(yù)激活殘差網(wǎng)絡(luò)(模型1)、包含空譜注意力機(jī)制的原始?xì)埐罹W(wǎng)絡(luò)(模型2)以及本文提出的包含空譜注意力機(jī)制的預(yù)激活殘差網(wǎng)絡(luò)(模型3)。這三個(gè)網(wǎng)絡(luò)模型在IP、KSC 和UP 數(shù)據(jù)集上的分類結(jié)果分別如表5~表7 所示。從表5~表7 中可以看出,在三個(gè)數(shù)據(jù)集上,本文算法(模型3)的分類結(jié)果在OA、AA 和Kappa 上均優(yōu)于模型1 和模型2。與不包含空譜注意力機(jī)制的模型1 相比,本文算法(模型3)在三個(gè)數(shù)據(jù)集上的分類性能都有明顯提升,表明空譜注意力機(jī)制的有效性。另外,與將預(yù)激活殘差網(wǎng)絡(luò)替換為原始?xì)埐罹W(wǎng)絡(luò)的模型2 相比,本文算法(模型3)在標(biāo)記樣本數(shù)量充足的KSC、UP數(shù)據(jù)集上提升較少,在標(biāo)記樣本數(shù)量較少的IP 數(shù)據(jù)集上的分類性能提升明顯,也表明了預(yù)激活殘差網(wǎng)絡(luò)的有效性。
表5 不同網(wǎng)絡(luò)模型在IP數(shù)據(jù)集上的分類結(jié)果Tab.5 Classification results of different network models on IP datasets
表6 不同網(wǎng)絡(luò)模型在KSC數(shù)據(jù)集上的分類結(jié)果Tab.6 Classification results of different network models on KSC datasets
表7 不同網(wǎng)絡(luò)模型在UP數(shù)據(jù)集上的分類結(jié)果Tab.7 Classification results of different network models on UP datasets
為了比較不同網(wǎng)絡(luò)模型的復(fù)雜度,表8 給出了不同深度學(xué)習(xí)算法模型的參數(shù)量,即反向傳播過(guò)程中更新的可訓(xùn)練權(quán)重參數(shù)的數(shù)量。對(duì)比表8中不同模型使用的參數(shù)量,可以觀察到,ENL-FCN 使用的參數(shù)數(shù)量最少,而ResNet 需要的參數(shù)數(shù)量最多。提出的算法模型與SSRN、A2S2K-ResNet 模型使用的參數(shù)數(shù)量近似相同,但比SSRN 和A2S2K-ResNet 都要少,表明模型在分類性能提高的同時(shí)也保持了相似的模型復(fù)雜度。
表8 不同深度學(xué)習(xí)算法模型的參數(shù)量Tab.8 Parameters of different deep learning algorithm models
針對(duì)基于深度學(xué)習(xí)的高光譜圖像分類算法中提取的特征表示判別性不強(qiáng)而導(dǎo)致分類性能難以提升的問(wèn)題,本文提出了基于空譜注意力機(jī)制及預(yù)激活殘差網(wǎng)絡(luò)的高光譜圖像分類算法。本文算法以空間-光譜信息為基礎(chǔ),探究獲取判別性更強(qiáng)的光譜空間特征表示的方法。所提出的基于空譜注意力機(jī)制的空譜特征提取模塊可以有效地利用注意力機(jī)制捕獲高光譜圖像光譜信息的全局與局部相關(guān)性,以及空間信息的上下文相關(guān)性,從而對(duì)空譜特征進(jìn)行重校準(zhǔn),為空譜特征在后續(xù)聯(lián)合學(xué)習(xí)時(shí)能專注于更具辨別力的通道和空間位置提供保證。此外,所提出的基于預(yù)激活殘差網(wǎng)絡(luò)的空譜特征聯(lián)合學(xué)習(xí)模塊中,預(yù)激活殘差網(wǎng)絡(luò)改進(jìn)了原始?xì)埐顦?gòu)建塊的網(wǎng)絡(luò)結(jié)構(gòu),從而能在注意力機(jī)制重校準(zhǔn)的空譜特征的聯(lián)合學(xué)習(xí)時(shí)捕獲更具鑒別性的深層空譜特征,以提高分類器的分類性能。本文提出的高光譜圖像分類算法在Indian Pines、Kennedy Space Center 以及 University of Pavia 這3 個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,提出的算法可以有效提升高光譜圖像分類性能,驗(yàn)證了算法在提取判別性更強(qiáng)的特征表示方面的有效性和魯棒性。后續(xù)可考慮通過(guò)獲取不同尺度上的空間-光譜信息對(duì)網(wǎng)絡(luò)進(jìn)行改進(jìn),以進(jìn)一步提高獲得的特征的鑒別性,提升高光譜圖像分類的準(zhǔn)確率。