汪菲菲,趙慧潔,李娜,李思遠(yuǎn),蔡昱
(1 北京航空航天大學(xué) 儀器科學(xué)與光電工程學(xué)院 精密光機(jī)電一體化技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,北京 100191)
(2 北京航空航天大學(xué) 人工智能研究院,北京 100191)
(3 北京航空航天大學(xué) “空天光學(xué)-微波一體化精準(zhǔn)智能感知”工信部重點(diǎn)實(shí)驗(yàn)室,北京 100191)
(4 中國科學(xué)院西安光學(xué)精密機(jī)械研究所 光譜成像技術(shù)重點(diǎn)實(shí)驗(yàn)室,西安 710119)
(5 中國運(yùn)載火箭技術(shù)研究院,北京 100076)
高光譜圖像(Hyper Spectral Image,HSI)通過幾十甚至上百個(gè)光譜通道來提供豐富的光譜信息,可用于對各地物類別進(jìn)行準(zhǔn)確分類[1]。高光譜圖像分類是高光譜影像處理和應(yīng)用領(lǐng)域的一個(gè)熱點(diǎn)研究方向,分類模型通過分析每個(gè)像素的光譜信息與空間信息,對該像素所屬類別進(jìn)行預(yù)測,然后與實(shí)際地物進(jìn)行對應(yīng)比較,實(shí)現(xiàn)地物目標(biāo)分類。深度學(xué)習(xí)由于其強(qiáng)大的特征學(xué)習(xí)能力成為高光譜分類的主流算法。
在基于深度學(xué)習(xí)的分類算法,根據(jù)是否提取到數(shù)據(jù)的空間信息,可分為基于光譜和基于光譜-空間融合的分類方法?;诰矸e神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的方法是一種帶有卷積結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)[2],是一類非常重要的高光譜地物分類方法。其中基于光譜的分類方法使用一維卷積操作提取到待分類像素的光譜信息進(jìn)行分類。HU Wei 等[3]利用一維卷積神經(jīng)網(wǎng)絡(luò)提取像素光譜信息來進(jìn)行分類。MOU Lichao 等[4]利用循環(huán)神經(jīng)網(wǎng)絡(luò)來進(jìn)行高光譜圖像分類,其本質(zhì)上也是利用了一維卷積網(wǎng)絡(luò)進(jìn)行分類。基于光譜的方法雖然簡單,但是其精度無法令人滿意。高光譜的空間上下文信息也有助于提高分類精度,因此現(xiàn)在常見分類算法都是基于光譜-空間信息融合的。ZHONG Zilong 等[5]提出了一種光譜-空間變換網(wǎng)絡(luò),由光譜特征提取模塊和空間注意力模塊組成,充分利用HSI 的光譜-空間信息進(jìn)行分類。而GHADERIZADEH S 等[6]則是提出利用混合三維和二維卷積神經(jīng)網(wǎng)絡(luò)來進(jìn)行高光譜分類,其中三維卷積有效地提取光譜-空間信息,并用二維卷積來增強(qiáng)空間信息。WU Hao 等[7]將卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)相結(jié)合提出了卷積循環(huán)神經(jīng)網(wǎng)絡(luò),利用卷積操作提取到高光譜圖像的光譜-空間信息,然后利用循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)一步提取光譜-空間特征上下文信息。ZHONG Zilong 等[8]提出了光譜空間殘差網(wǎng)絡(luò),連續(xù)提取光譜信息和空間信息特征。SHI Yuetian 等[9]提出了利用多角度平行特征編碼的方式,通過增強(qiáng)局部空間特征的方式提高圖像分類精度,并且該算法對圖像旋轉(zhuǎn)魯棒。與此同時(shí),在高光譜圖像實(shí)際分類任務(wù)中存在光譜相似、類別易混等問題,注意力機(jī)制廣泛應(yīng)用于分類任務(wù),XU Yue 等[10]在三維光譜卷積模塊中利用注意力機(jī)制進(jìn)行光譜-空間特征選擇和提取。YANG Kai 等[11]提出了交叉注意力機(jī)制,該網(wǎng)絡(luò)分為像素和圖像塊2 個(gè)分支輸入,并對像素分支網(wǎng)絡(luò)采用光譜注意力機(jī)制提取光譜特征,并將該特征作用到圖像塊分支網(wǎng)絡(luò)中。ZHENG Xiangtao 等[12]提出了中心光譜注意力機(jī)制,將中心光譜像素值作為特征權(quán)重對光譜特征進(jìn)行新的校正,但高光譜圖像塊不可避免地包含干擾像素,因此采用全局平均池化引入干擾像素類別對注意力權(quán)重的生成不利。FANG Shuai 等[13]的研究表明了不同地物類別其分類所依靠的光譜波段并不相同,也說明不同類別的光譜冗余波段可能不同。為此,中心池化的操作可將中心像素值直接代替原有的全局平均池化后的像素,并根據(jù)該中心像素值生成光譜注意力權(quán)重。
盡管上述工作取得了不錯(cuò)的效果,但是還有如下問題:1)多數(shù)工作在使用光譜注意力機(jī)制后,直接進(jìn)行了空間特征提取,沒有單獨(dú)提取光譜特征,或者是單獨(dú)提取光譜特征時(shí),默認(rèn)光譜各維度同等重要;2)光譜注意力機(jī)制多采用全局特征或中心像素特征進(jìn)行權(quán)重調(diào)整,前者引入了較多干擾像素;而后者忽略了周圍相同類別對其的影響。
為了解決上述問題,本文提出了光譜-空間注意力殘差網(wǎng)絡(luò)(Spectral-Spatial Attention Residual Network,SSARN)來進(jìn)行高光譜分類。該網(wǎng)絡(luò)主要包括光譜特征學(xué)習(xí)、空間特征學(xué)習(xí)和分類器。其中,光譜特征學(xué)習(xí)部分包括光譜注意力模塊和光譜殘差網(wǎng)絡(luò)模塊;而空間特征學(xué)習(xí)部分包括空間注意力模塊和空間殘差網(wǎng)絡(luò)模塊。由于現(xiàn)有的光譜注意力模塊通常采用全局平均池化或者中心池化來提取光譜特征,但是無論哪種方式都會丟失光譜特征,為此提出了一種新的光譜注意力機(jī)制,盡可能減少光譜信息損失。
高光譜圖像是一個(gè)包含光譜信息和空間信息的三維立方體,基于此提出了一個(gè)用于高光譜圖像分類的光譜-空間注意力殘差網(wǎng)絡(luò)(SSARN)。如圖1 所示,SSARN 包括光譜特征學(xué)習(xí)、空間特征學(xué)習(xí)和分類器。其中,光譜特征學(xué)習(xí)部分包括光譜注意力模塊和光譜殘差網(wǎng)絡(luò)模塊;而空間特征學(xué)習(xí)部分包括空間注意力模塊和空間殘差網(wǎng)絡(luò)模塊。
首先高光譜圖像會根據(jù)設(shè)定好的尺寸分割成圖像塊,然后這些圖像塊會被送入到網(wǎng)絡(luò)中,根據(jù)各個(gè)模塊提取圖像特征,最后將特征輸入到分類器中得到最終的分類結(jié)果。
1.1.1 中心區(qū)域光譜注意力機(jī)制
注意力機(jī)制的提出是為了節(jié)省資源,不需要讓網(wǎng)絡(luò)處理全部的輸入信息,而是從這些信息中有選擇地對與任務(wù)相關(guān)的信息進(jìn)行計(jì)算[14]。根據(jù)處理任務(wù)時(shí)注意力機(jī)制作用的數(shù)據(jù)域位置不同,可分為光譜注意力機(jī)制和空間注意力機(jī)制。
光譜注意力機(jī)制在圖像的光譜維度進(jìn)行特征提取,也被稱為通道注意力機(jī)制。圖2 所示就是一種光譜注意力機(jī)制。由于高光譜圖像包含幾十甚至上百個(gè)光譜波段,而將全部波段放入網(wǎng)絡(luò)中提取特征是不可行的,一方面需要大量的計(jì)算資源,另一方面這些波段和波段具有冗余關(guān)系[14],可以用部分波段表征全部波段。主流方式用注意力模塊重新調(diào)整各個(gè)波段的權(quán)重。該模塊可以根據(jù)任務(wù)需要獨(dú)立嵌入到任何網(wǎng)絡(luò)中,自適應(yīng)地生成注意力權(quán)重,即
圖2 中心區(qū)域光譜注意力機(jī)制結(jié)構(gòu)Fig.2 The structure of the central region spectral attention mechanism
式中,權(quán)重參數(shù)η表示生成的每個(gè)波段的權(quán)重,fSpeA(?)表示光譜注意力,X表示高光譜圖像塊,σ(?)表示激活函數(shù),F(xiàn)C(?)表示全連接層,ave(?)表示全局平均池化。權(quán)重越大的波段在后續(xù)特征學(xué)習(xí)時(shí)更容易得到神經(jīng)網(wǎng)絡(luò)的關(guān)注,提取更多的有利于高光譜分類的信息。通常,利用全局平均池化融合圖像塊的全部空間信息,然后對該信息利用全連接層和sigmoid 函數(shù)來自適應(yīng)地生成權(quán)重η參數(shù)。不同地物類別其分類所依靠的光譜波段不相同[14],中心池化操作是將中心像素值直接代替原有的全局平均池化后的像素,并根據(jù)該中心像素值生成光譜注意力權(quán)重[11]。雖然該方法在一定程度上避免了干擾像素對權(quán)重的影響,但是也丟失了周圍相同類別的光譜特征對中心像素光譜權(quán)重增強(qiáng)的作用。
根據(jù)地理學(xué)第一定律[15]空間自相關(guān)性,待分類像素周圍的像素可能屬于同一類地物,因此周圍的高光譜像素有可能會包含可用于提高分類結(jié)果的空間信息。所以一般在高光譜圖像塊中,周圍像素與中心像素完全不同的概率較小,更多的是周圍像素中包含了和中心像素相同的地物類別,并且越接近中心像素的區(qū)域,其包含相同類別的像素越多。為此,在現(xiàn)有的光譜注意力機(jī)制上提出了中心區(qū)域光譜注意力模塊,在盡可能避免周圍不同類別像素對中心像素干擾的同時(shí),盡可能多利用周圍相同類別像素波段對中心像素增強(qiáng)的作用。所提出的中心區(qū)域光譜注意力機(jī)制可以表示為
式中,Center3×3(X)表示中心區(qū)域3×3 范圍的像素,conv(?)表示卷積和激活函數(shù)的操作,?表示卷積計(jì)算。如圖2 所示,選取中心區(qū)域像素,對這些像素求取平均值,獲得中心區(qū)域像素平均值。然后采用1×1 卷積和激活函數(shù)從基于中心區(qū)域平均像素生成注意力權(quán)重η。緊接著,利用該權(quán)重η與原始的圖像塊X 進(jìn)行卷積獲得經(jīng)過光譜注意力機(jī)制的高光譜圖像塊。
1.1.2 空間注意力機(jī)制
空間注意力機(jī)制和光譜注意力機(jī)制的目的類似,都是將注意力轉(zhuǎn)移到重要的部分,本質(zhì)上是定位網(wǎng)絡(luò)感興趣的信息,抑制無用的信息。對于高光譜分類來說,空間包含的所有像素對中心像素的貢獻(xiàn)并不是同等重要,只有能夠幫助中心像素增加類間差異、縮小類內(nèi)差異的像素才是網(wǎng)絡(luò)需要關(guān)心的??臻g注意力機(jī)制可以表示為
式中,δ代表空間注意力權(quán)重,[?]代表特征拼接,fm,fa分別代表最大池化和平均池化,X代表圖像塊(輸入端)或者是空間-光譜特征(在網(wǎng)絡(luò)中),代表經(jīng)過空間注意力機(jī)制后的空間特征。空間注意力機(jī)制如圖3 所示,將高光譜圖像塊X,經(jīng)過池化層分別獲取平均池化和最大池化特征,這兩個(gè)特征在光譜維拼接后進(jìn)行特征提取,輸出經(jīng)過注意力機(jī)制后的權(quán)重,最后和原始輸入的空間特征進(jìn)行卷積得到空間注意力機(jī)制后的空間特征。
圖3 空間注意力機(jī)制結(jié)構(gòu)Fig.3 The structure of the spatial attention mechanism
在深度學(xué)習(xí)中,神經(jīng)網(wǎng)絡(luò)層數(shù)的增加引發(fā)梯度下降,網(wǎng)絡(luò)會發(fā)生退化現(xiàn)象,即訓(xùn)練集的損失會逐漸增大,淺層網(wǎng)絡(luò)的精度反而優(yōu)于深層網(wǎng)絡(luò),失去了深度學(xué)習(xí)的優(yōu)勢。其原因在于隨著網(wǎng)絡(luò)層數(shù)的遞增,提取的特征所包含的圖像信息越來越少,導(dǎo)致網(wǎng)絡(luò)的分類精度下降。殘差網(wǎng)絡(luò)可進(jìn)行圖像識別任務(wù)[16-19],被廣泛用于高光譜圖像分類中[8,20-21],其由一系列殘差單元組成,標(biāo)準(zhǔn)的殘差單元可以表示為
式中,xl+1代表第l+1層特征,F(xiàn)(xl,Wl,bl)代表對第l層特征進(jìn)行特征提取,(Wl,bl)分別代表第l層網(wǎng)絡(luò)參數(shù),目的是讓第l層和第l+1層的特征圖保持大小一致,然后在輸入輸出前后增加一個(gè)恒等映射的跳躍連接,殘差塊的基本結(jié)構(gòu)如圖4 所示。
圖4 殘差塊的基本結(jié)構(gòu)Fig.4 The structure of the residual network
光譜特征學(xué)習(xí)的殘差塊如圖5 所示,殘差塊包括兩個(gè)連續(xù)的卷積層和一個(gè)跳躍連接,跳躍連接可以保證第p+2 層特征中包含有第p層的特征。對于第p層和第p+1 層,分別使用尺寸為1×1×m的卷積核Cp+1和Cp+2,并利用填充策略保持第p+1 層和第p+2 層的特征空間大小尺寸一致不變,即空間大小為w×w。最后,利用殘差函數(shù)對第p層和第p+2 層進(jìn)行連接。光譜殘差網(wǎng)絡(luò)模塊結(jié)構(gòu)可以表示為
圖5 光譜殘差網(wǎng)絡(luò)模塊Fig.5 The spectral residual network module
式中,Xp代表第p層的特征,F(xiàn)(?)代表特征提取的函數(shù),r={Wp+1,Wp+2,dp+1,dp+2}代表第p+1 層和第p+2 層卷積核和偏置參數(shù)的集合,C代表卷積核參數(shù),d代表偏置參數(shù)。
空間殘差網(wǎng)絡(luò)模塊如圖6 所示,殘差塊包括兩個(gè)連續(xù)的卷積層和一個(gè)跳躍連接,跳躍連接可以保證第q+2 層特征中包含有第q層的特征。對于第q層和第q+1 層,分別使用尺寸為a×a×b的卷積核Kq+1和Kq+2,這些空間卷積核的光譜維度為b,等于輸入特征圖的光譜維度。利用填充策略保持第q+1 層和第q+2 層的特征空間大小尺寸一致不變,即空間大小為w×w。最后,利用殘差函數(shù)對第q層和第q+2 層進(jìn)行連接。因此,空間殘差網(wǎng)絡(luò)模塊可以表示為
圖6 空間殘差網(wǎng)絡(luò)模塊Fig.6 The spatial residual network module
式中,Xq代表第q層的特征,F(xiàn)(?)代表特征提取的函數(shù),h={Kq+1,Kq+2,lq+1,lq+2}代表第q+1 層和第q+2 層的卷積核和偏置參數(shù),K代表卷積核參數(shù),l代表偏置參數(shù)。
在上述內(nèi)容基礎(chǔ)上,提出了一個(gè)可以連續(xù)提取光譜和空間特征的高光譜分類網(wǎng)絡(luò),即圖7 所示的光譜-空間注意力殘差網(wǎng)絡(luò)(SSARN),該網(wǎng)絡(luò)包括光譜特征學(xué)習(xí)模塊、空間特征學(xué)習(xí)模塊和分類器。其中,光譜特征學(xué)習(xí)模塊包括光譜注意力和光譜殘差網(wǎng)絡(luò);而空間特征學(xué)習(xí)模塊包括空間注意力和空間殘差網(wǎng)絡(luò)。并且在網(wǎng)絡(luò)中每個(gè)模塊之間添加跳躍連接,將分層特征的表示層連接成為連續(xù)的殘差塊,以緩解精度下降的現(xiàn)象。
圖7 以IP 數(shù)據(jù)集為例的SSARN 流程Fig.7 The flow chart of SSARN with IP dataset as an example
以Indian Pines (IP)數(shù)據(jù)集為例來解釋所提出的SSARN 網(wǎng)絡(luò)。首先,將高光譜圖像逐像素分割為一定尺寸的圖像塊,為方便說明,假定圖像塊尺寸大小為13×13,其光譜維度為200。該圖像塊經(jīng)過中心區(qū)域光譜注意力后,光譜波段權(quán)重被重新調(diào)整,提高重要波段權(quán)重,降低不重要波段的權(quán)重。經(jīng)過該注意力模塊后,其圖像塊尺寸依然為13×13×200。中心區(qū)域選取范圍為以中心像素為基準(zhǔn),周圍3×3 范圍內(nèi)為中心區(qū)域,一方面該范圍內(nèi)包含了一定相同類別的光譜信息,另一方面也盡可能減少不同類別像素的干擾。中心區(qū)域光譜注意力的計(jì)算方式如圖2 和式(3)~(5)所示。
光譜特征提取部分包括1 個(gè)卷積層和1 個(gè)光譜殘差網(wǎng)絡(luò)。在HSI 中采用尺寸為1×1×n的三維卷積核提取光譜信息,不影響空間結(jié)構(gòu),保持了空間相關(guān)性。使用1×1×7 的三維卷積作為光譜卷積核。該卷積核對經(jīng)過中心區(qū)域光譜注意力機(jī)制的特征進(jìn)行卷積,卷積步長為(1,1,2)。經(jīng)過卷積層后,生成了13×13×97的光譜-空間特征。隨后,該圖像塊被送入到光譜殘差網(wǎng)絡(luò)中提取光譜特征。光譜殘差網(wǎng)絡(luò)模塊包含2 個(gè)卷積層。在每個(gè)卷積層使用1×1×7 的光譜卷積核來學(xué)習(xí)光譜特征。為了能夠使用殘差連接,需要保證輸入和輸出同樣的尺寸,因此需要在卷積層中使用填充來保持相同的尺寸,填充尺寸統(tǒng)一為(0,0,3)。圖像塊經(jīng)過光譜注意力和光譜殘差網(wǎng)絡(luò)模塊后,網(wǎng)絡(luò)已經(jīng)提取到相應(yīng)的光譜特征,該特征尺寸為13×13×97,最后該特征輸入到空間特征學(xué)習(xí)模塊中。
空間特征學(xué)習(xí)模塊包括1 個(gè)空間注意力和2 個(gè)空間殘差網(wǎng)絡(luò)模塊。經(jīng)過光譜特征學(xué)習(xí)后的空間-光譜特征輸入到空間注意力模塊中,進(jìn)行空間權(quán)重重新校正,提高對中心像素的判別能力??臻g注意力機(jī)制并不會改變特征的空間尺寸,因此經(jīng)過空間注意力機(jī)制后的特征尺寸依然為13×13×97。接著使用28 個(gè)13×13×97 的三維卷積核提取空間-光譜特征,同時(shí)降低空間尺寸和光譜尺寸;輸出的光譜-空間特征為11×11×28。在空間殘差網(wǎng)絡(luò)模塊使用連續(xù)的二維卷積核提取空間判別特征,每層卷積均采用28 個(gè)3×3的二維卷積核,同時(shí)為了保證殘差網(wǎng)絡(luò)模塊前后尺寸統(tǒng)一,需要使用空間填充,填充尺寸為(1,1)。經(jīng)過4 個(gè)卷積層,2 個(gè)空間殘差網(wǎng)絡(luò)的特征學(xué)習(xí),所提出的特征已經(jīng)包含了豐富的光譜特征和空間特征。
將該特征放進(jìn)分類器中,完成最后的分類任務(wù)。分類器包含平均池化層和全連接層,平均池化將提取11×11×28 的光譜空間特征變成1 個(gè)1×1×28 的特征向量。接著全連接層根據(jù)每個(gè)數(shù)據(jù)集所包含的類別數(shù)生成一個(gè)輸出向量,并選取最大值為預(yù)測結(jié)果。
本次實(shí)驗(yàn)選取的數(shù)據(jù)為三組公開的Indian Pines( IP)數(shù)據(jù)集、Salinas( SA)數(shù)據(jù)集、Pavia University(PU)和Houston 2013 標(biāo)準(zhǔn)劃分?jǐn)?shù)據(jù)集。各個(gè)數(shù)據(jù)集的假彩色圖和真值圖如圖8~11 所示。
圖8 IP 數(shù)據(jù)集Fig.8 IP dataset
圖10 PU 數(shù)據(jù)集Fig.10 PU dataset
圖11 Houston 數(shù)據(jù)集Fig.11 Houston dataset
IP 數(shù)據(jù)集每類隨機(jī)選擇20%的樣本作為訓(xùn)練樣本,SA 數(shù)據(jù)集每類隨機(jī)選擇2%的樣本作為訓(xùn)練樣本,PU 數(shù)據(jù)集每類隨機(jī)選擇1%的樣本作為訓(xùn)練樣本。隨機(jī)按照比例選取樣本,可以保留數(shù)據(jù)集本身的樣本不均衡問題,有效驗(yàn)證算法在面對樣本分布不均衡的性能。Houston 數(shù)據(jù)集有標(biāo)準(zhǔn)劃分,因此按照標(biāo)準(zhǔn)劃分進(jìn)行訓(xùn)練和測試。各個(gè)數(shù)據(jù)集的訓(xùn)練樣本和測試樣本見表1~4。
表1 IP 數(shù)據(jù)集的訓(xùn)練樣本數(shù)量和測試樣本數(shù)量Table 1 The number of training and testing samples on IP dataset
表2 SA 數(shù)據(jù)集的訓(xùn)練樣本數(shù)量和測試樣本數(shù)量Table 2 The number of training and testing samples on SA dataset
表3 PU 數(shù)據(jù)集的訓(xùn)練樣本數(shù)量和測試樣本數(shù)量Table 3 The number of training and testing samples on PU dataset
表4 Houston 數(shù)據(jù)集的訓(xùn)練樣本數(shù)量和測試樣本數(shù)量Table 4 The number of training and testing samples on Houston dataset
實(shí)驗(yàn)平臺為Pytorch 1.12,Python 3.9 和Nvidia GTX 3090,24GB 圖形處理器。所有算法的訓(xùn)練輪數(shù)設(shè)置為100,每次訓(xùn)練輸入64 個(gè)圖像塊。損失函數(shù)、優(yōu)化器都按照對比算法的最佳效果進(jìn)行設(shè)置。所提出的光譜-空間注意力殘差網(wǎng)絡(luò)采用交叉熵?fù)p失函數(shù),優(yōu)化器為Adam 優(yōu)化器。初始學(xué)習(xí)率為0.001,每10 輪學(xué)習(xí)率調(diào)整為原來的0.6 倍。
評價(jià)指標(biāo)為總體準(zhǔn)確度(Overall Accuracy,OA)、平均準(zhǔn)確度(Average Accuracy,AA)和Kappa 系數(shù)??傮w準(zhǔn)確度(OA)表示正確分類的樣本數(shù)占總樣本數(shù)的比例,其公式為
式中,nij代表圖像中第i類樣本預(yù)測標(biāo)簽為j的樣本數(shù)目,nii代表i類樣本中分類正確的樣本數(shù)目,Ni=∑jnij代表第i類樣本待分類樣本的數(shù)目。
平均準(zhǔn)確度(AA)表示每一類分類精度的平均值,其公式為
式中,k代表待分類樣本的類別。
Kappa 系數(shù)是用來衡量分類結(jié)果與真值地物之間一致性的指標(biāo)。由于樣本類別不均衡,OA、AA 的指標(biāo)會受到大樣本精度影響。Kappa 系數(shù)可以表示整個(gè)分類情況的偏差,代表分類與完全隨機(jī)分類產(chǎn)生錯(cuò)誤減少的比例,其公式為
圖像塊尺寸選取過大,則需要較多的計(jì)算資源和時(shí)間成本。而圖像塊尺寸過小,又有可能使得網(wǎng)絡(luò)不能夠充分學(xué)習(xí)圖像的空間特征,導(dǎo)致分類精度較低。因此,詳細(xì)探索不同的圖像塊尺寸對總體分類準(zhǔn)確度的影響。其分類結(jié)果見表5。
表5 不同圖像塊尺寸在四個(gè)數(shù)據(jù)集上的總體準(zhǔn)確度Table 5 The overall accuracy of the different size of the patch on the four datasets
通過表5 可知,總體準(zhǔn)確度總體上是根據(jù)尺寸大小先上升后下降。在IP 數(shù)據(jù)集上,13×13 的圖像塊精度最高;在SA 數(shù)據(jù)集上,19×19 的圖像塊精度最高,在較小尺寸的圖像塊上精度都有所下降。在PU 數(shù)據(jù)集上,13×13 和17×17 的圖像塊精度一樣,但在19×19 時(shí)開始下降。在Houston 數(shù)據(jù)集上,隨著尺寸的增加,其精度不斷提高,在17×17 時(shí)達(dá)到最高精度。
對于IP 數(shù)據(jù)集,其樣本區(qū)域較為平滑,不同樣本區(qū)域之間有交錯(cuò)但邊緣區(qū)分較為明顯,因此隨著圖像塊尺寸的增大,其包含的空間信息越豐富,分類準(zhǔn)確度也有所上升;當(dāng)圖像塊尺寸超過一定尺寸時(shí),有可能包含了更多的冗余空間信息,例如不屬于同一類別的樣本空間信息,反而會使分類精度下降。對于SA 數(shù)據(jù)集,其樣本區(qū)域較為規(guī)整,不同樣本區(qū)域之間沒有交錯(cuò),當(dāng)空間尺寸逐漸增大時(shí),其精度會有提升。圖像塊尺寸越大,能提供的空間信息越豐富,越有利于提高分類精度。所以在圖像塊尺寸最大時(shí),其精度最高。然而,過大的尺寸會導(dǎo)致計(jì)算成本和計(jì)算資源成倍增長,因此需要平衡精度和計(jì)算資源來選取合適的圖像塊尺寸。對于PU 數(shù)據(jù)集,其不同樣本區(qū)域之間有交錯(cuò)。隨著圖像塊尺寸增大,其總體準(zhǔn)確度在上升,在尺寸為13×13 時(shí)達(dá)到最大,后續(xù)基本保持不變。對于Houston 數(shù)據(jù)集,各個(gè)樣本區(qū)域比較分散,同一種樣本分布也不集中;隨著圖像塊尺寸增大,其包含的空間信息增多,總體分類精度在上升,尺寸在17×17 時(shí)精度達(dá)到最高。而尺寸為13×13 時(shí),其精度比最高精度僅低了0.05%。
根據(jù)上述實(shí)驗(yàn)結(jié)果,從平衡計(jì)算資源和總體準(zhǔn)確度出發(fā),圖像塊尺寸統(tǒng)一為13×13。這樣,一方面不需要過多的計(jì)算資源,另一方面還可以保持精度優(yōu)勢。
為驗(yàn)證所提出的算法各個(gè)模塊的有效性,在四個(gè)數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn),具體實(shí)驗(yàn)設(shè)置為:
基本網(wǎng)絡(luò):由1 個(gè)光譜特征學(xué)習(xí)模塊和2 個(gè)空間特征學(xué)習(xí)模塊構(gòu)成。這些特征學(xué)習(xí)模塊均采用了殘差模塊作為基礎(chǔ)。
光譜注意力網(wǎng)絡(luò):由1 個(gè)包含了中心光譜注意力機(jī)制的光譜特征學(xué)習(xí)模塊和2 個(gè)空間特征學(xué)習(xí)模塊構(gòu)成。也就是在基本網(wǎng)絡(luò)的基礎(chǔ)上,在光譜特征學(xué)習(xí)模塊前加上中心光譜注意力機(jī)制。
光譜-空間注意力殘差網(wǎng)絡(luò):由1 個(gè)包含了中心光譜注意力機(jī)制的光譜特征學(xué)習(xí)模塊和2 個(gè)空間特征學(xué)習(xí)模塊構(gòu)成。在光譜特征提取結(jié)束后,空間特征學(xué)習(xí)前引入了空間注意力機(jī)制。
消融實(shí)驗(yàn)采取總體準(zhǔn)確度(OA)作為評價(jià)指標(biāo),各個(gè)網(wǎng)絡(luò)在四個(gè)數(shù)據(jù)集上的結(jié)果見表6。
表6 不同網(wǎng)絡(luò)在四個(gè)數(shù)據(jù)集上的總體準(zhǔn)確度Table 6 The overall accuracy of the different network on the four datasets
通過表6 可以發(fā)現(xiàn),相比基本網(wǎng)絡(luò),光譜注意力網(wǎng)絡(luò)在IP、SA、PU 和Houston 數(shù)據(jù)集上,精度分別提升了1.13%、0.53%、0.23%和1.85%。說明光譜注意力機(jī)制可以有效地改變各個(gè)波段的權(quán)重,對分類結(jié)果影響較大的波段給予較高的權(quán)重,影響較小的波段給予較小的權(quán)重,而基本網(wǎng)絡(luò)默認(rèn)各個(gè)波段的權(quán)重相同,由于不同類別都有其容易識別的波段,而不是整個(gè)波段都可以用來進(jìn)行分類[14],意味著每個(gè)波段對待分類樣本的影響程度不同。
光譜-空間注意力殘差網(wǎng)絡(luò)相比光譜注意力網(wǎng)絡(luò)在IP、SA、PU 和Houston 數(shù)據(jù)集上,精度分別提升了0.77%、0.95%、0.55%和0.84%,比基本網(wǎng)絡(luò)精度分別提升了1.9%、1.48%、0.78%和2.69%,說明空間信息對于分類結(jié)果的有一定影響。引入空間注意力機(jī)制可以有效地調(diào)整周圍像素對中心像素的影響,具體來說,周圍像素對待分類的中心像素有幫助時(shí),其相應(yīng)的權(quán)重就會提高,能有效地增強(qiáng)后續(xù)網(wǎng)絡(luò)所提取的光譜-空間特征。而對待分類的中心像素沒有幫助或者負(fù)面作用時(shí),其權(quán)重則會降低。
綜上,所提出的各個(gè)模塊對最后的分類結(jié)果都有積極的影響,能夠有效提高總體分類準(zhǔn)確度。
本次實(shí)驗(yàn)中,選取了2D CNN[22]、3D CNN[23]、HybridSN[24]、RIAN[12]、SSFTT[25]這5 種方法作為對比算法,其中2D CNN、3D CNN、HybridSN、RIAN 都是基于CNN 的高光譜分類網(wǎng)絡(luò),而SSFTT 是基于視覺變換網(wǎng)絡(luò)(Vision Transformer,ViT)的高光譜分類網(wǎng)絡(luò),這些算法都是當(dāng)前較為有代表性的算法。
2.4.1 不同訓(xùn)練比例對實(shí)驗(yàn)的影響
考慮到所用到的4 個(gè)數(shù)據(jù)集中,只有Houston 數(shù)據(jù)集給出了標(biāo)準(zhǔn)的訓(xùn)練集和測試集劃分,其余3 個(gè)數(shù)據(jù)集均沒有標(biāo)準(zhǔn)劃分,因此需要驗(yàn)證不同的訓(xùn)練集比例對各個(gè)算法的精度影響。在IP 數(shù)據(jù)集中,訓(xùn)練集樣本占全部樣本的比例為5%、10%、15%和20%。在SA 數(shù)據(jù)集中,訓(xùn)練集樣本占全部樣本的比例為0.5%、1%、1.5%和2%。在PU 數(shù)據(jù)集中,訓(xùn)練集樣本占全部樣本的比例為0.3%、0.5%、0.7%和1%。各個(gè)算法在不同比例的訓(xùn)練集中的總體準(zhǔn)確度表現(xiàn)如表7~9 所示。
表7 不同網(wǎng)絡(luò)在IP 數(shù)據(jù)集上的不同訓(xùn)練比例的總體準(zhǔn)確度Table 7 The overall accuracy of the different network with different training ratios on the IP datasets
表8 不同網(wǎng)絡(luò)在SA 數(shù)據(jù)集上的不同訓(xùn)練比例的總體準(zhǔn)確度Table 8 The overall accuracy of the different network with different training ratios on the IP datasets
表9 不同網(wǎng)絡(luò)在PU 數(shù)據(jù)集上的不同訓(xùn)練比例的總體準(zhǔn)確度Table 9 The overall accuracy of the different network with different training ratios on the IP datasets
從表7~9 中可以看出,隨著訓(xùn)練比例提高,各個(gè)算法總體準(zhǔn)確度都在上升。而SSARN 在任何比例下都具有最高的精度,因此選擇了各個(gè)算法精度最高的訓(xùn)練集比例,即IP 數(shù)據(jù)集每類隨機(jī)選擇20%的樣本作為訓(xùn)練樣本,SA 數(shù)據(jù)集每類隨機(jī)選擇2%的樣本作為訓(xùn)練樣本,PU 數(shù)據(jù)集每類隨機(jī)選擇1%的樣本作為訓(xùn)練樣本作為統(tǒng)一比較的基礎(chǔ)。
2.4.2 對比算法在各個(gè)數(shù)據(jù)集上的結(jié)果
表10 展示了各個(gè)算法在IP 數(shù)據(jù)集上的各類別準(zhǔn)確度、總體準(zhǔn)確度(OA)、平均準(zhǔn)確度(AA)和Kappa值。表中所展示的Kappa 值是在Kappa 計(jì)算公式(17)的基礎(chǔ)上乘以100 進(jìn)行展示。
表10 不同算法在IP 數(shù)據(jù)集上的類別準(zhǔn)確度、OA、AA 和KappaTable 10 The category accuracy,OA,AA and Kappa of the different algorithms on IP dataset
通過表10 可知,所提出的光譜-空間注意力殘差網(wǎng)絡(luò)SSARN,在AA、OA 和Kappa 系數(shù)上都取得了最佳的結(jié)果,并且在16 個(gè)類別精度中有12 個(gè)都達(dá)到了最好的效果,其中10 個(gè)各類的精度為100%。這說明SSARN 能夠有效地學(xué)習(xí)不同類別的光譜特征和空間特征。在效果不好的4 個(gè)類別中,其訓(xùn)練樣本分別是285 個(gè)、166 個(gè)、194 個(gè)和18 個(gè),相比類別最少的訓(xùn)練樣本4 個(gè)而言,其樣本充足。也從側(cè)面證明了SSARN 可以有效地解決樣本分布不均勻帶來的在少樣本上精度較差的效果。而對于上述4 個(gè)效果較差的類別主要在兩個(gè)不同樣本區(qū)域的邊緣,由于圖像塊包含了不同類別的樣本,所學(xué)習(xí)的主要特征較少,最后分類的時(shí)候判斷錯(cuò)誤類別。
圖12 展示了各個(gè)算法在IP 數(shù)據(jù)集上的分類效果。對比真值圖(Ground Truth),2D CNN 和3D CNN 分類效果較差,而HybridSN、RIAN、SSFTT、SSARN 效果相對較好。2D CNN 和3D CNN 錯(cuò)誤類別多集中在樣本區(qū)域的內(nèi)部,說明其對高光譜的空間特征沒有有效地學(xué)習(xí)。而SSARN 算法相比HybridSN、RIAN、SSFTT 算法,判斷錯(cuò)誤的樣本更少,更貼近真值圖,說明該算法可以有效地學(xué)習(xí)高光譜圖像的光譜特征和空間特征。
圖12 各個(gè)對比算法在IP 數(shù)據(jù)集的效果Fig.12 The visualization result of each algorithm on the IP dataset
表11 展示了各個(gè)算法在SA 數(shù)據(jù)集上的各類別準(zhǔn)確度、總體準(zhǔn)確度(OA),平均準(zhǔn)確度(AA)和Kappa 值。
表11 不同算法在SA 數(shù)據(jù)集上的類別準(zhǔn)確度、OA、AA 和KappaTable 11 The category accuracy,OA,AA and Kappa of the different algorithms on SA dataset
從表11 可以看到,提出的SSARN 在OA、AA 和Kappa 值上均達(dá)到了最優(yōu)值,在16 個(gè)類別精度中有12 個(gè)都達(dá)到了最好的效果,其中8 個(gè)類別精度為100%。這說明了該算法能夠有效地學(xué)習(xí)不同類別的光譜特征和空間特征,而且面對不同數(shù)據(jù)集具有良好的泛化性。在效果相對不好的4 個(gè)類別中,其精度也分別達(dá)到了98.64%、99.97%、98.93% 和99.81%,相比最優(yōu)效果,這4 個(gè)類別精度僅僅低了0.86%,0.03%、0.25% 和0.19%,差距并不明顯。
圖13 展示了各個(gè)算法在SA 數(shù)據(jù)集上的分類效果。對比真值圖(Ground Truth),2D CNN、3D CNN、HybridSN、RIAN、SSFTT 的分類效果都不如SSARN。SSARN 分類錯(cuò)誤的樣本主要是第8 類,會被錯(cuò)誤地分為第14 類,一方面是空間位置上這2 類較近,另一方面其他算法錯(cuò)誤的分類也集中在第8 類,說明網(wǎng)絡(luò)所提取第8 類的光譜特征與第14 類的光譜特征較為相近,進(jìn)而出現(xiàn)了類別誤判。
圖13 各個(gè)算法在SA 數(shù)據(jù)集的效果Fig.13 The visualization result of each algorithm on the SA dataset
表12 展示了各個(gè)算法在PU 數(shù)據(jù)集上的類別準(zhǔn)確度、總體準(zhǔn)確度(OA)、平均準(zhǔn)確度(AA)和Kappa 值。
表12 不同算法在PU 數(shù)據(jù)集上的類別準(zhǔn)確度、OA、AA 和KappaTable 12 Category accuracy,OA,AA and Kappa of the different algorithms on PU dataset
從表12 可以看到,SSARN 在OA、AA 和Kappa 值上均達(dá)到了最優(yōu)值,在9 個(gè)類別精度中有6 個(gè)都達(dá)到了最好的效果,其中2 個(gè)類別精度為100%。這說明了該算法能夠有效地學(xué)習(xí)不同類別的光譜特征和空間特征,而且面對不同數(shù)據(jù)集具有良好的泛化性。在效果相對不好的3 個(gè)類別中,其精度也分別達(dá)到了94.13%、99.85%和94.81%,和最優(yōu)的效果相比,分別低了3.42%、0.15%和3.08%,主要是第3 類和第6 類表現(xiàn)較差。分析其主要原因是第3 類和第6 類分散在全局中,集中區(qū)域較少,并且訓(xùn)練時(shí)選取的樣本量也較少,因此網(wǎng)絡(luò)提取特征時(shí)丟失了部分細(xì)節(jié)特征,從而導(dǎo)致其精度偏低。
圖14 展示了各個(gè)算法在PU 數(shù)據(jù)集上的分類效果。對比真值圖(Ground Truth),2D CNN、3D CNN、HybridSN、RIAN、SSFTT 的分類效果都不如SSARN。SSARN 算法判斷錯(cuò)誤的樣本更少,更貼近真值圖。
圖14 各個(gè)算法在PU 數(shù)據(jù)集的效果Fig.14 The visualization result of each algorithm on the PU dataset
表13 展示了各個(gè)算法在Houston 數(shù)據(jù)集上的類別準(zhǔn)確度、總體準(zhǔn)確度(OA)、平均準(zhǔn)確度(AA)和Kappa 值。
表13 不同算法在Houston 數(shù)據(jù)集上的類別準(zhǔn)確度、OA、AA 和KappaTable 13 The category accuracy,OA,AA and Kappa of the different algorithms on Houston dataset
從表13 可以看到,SSARN 在OA、AA 和Kappa值上均達(dá)到了最優(yōu)值,在15 個(gè)類別精度中有11 個(gè)都達(dá)到了最好的效果,其中3 個(gè)類別精度為100%。這說明該算法能夠有效地學(xué)習(xí)不同類別的光譜特征和空間特征,而且面對不同數(shù)據(jù)集具有良好的泛化性。在效果相對不好的4 個(gè)類別中,相比最優(yōu)的效果,精度低了1.32%、52.12%、4.84%和4.57%。效果最差的是類別9,即高速公路(Highway)這一類別。絕大多數(shù)對比算法在這一類表現(xiàn)都很差,而對比算法HybirdSN 在這一類達(dá)到了100%的精度,分析主要原因可能是數(shù)據(jù)預(yù)處理階段,只有HybirdSN 利用PCA 進(jìn)行數(shù)據(jù)降維,保留了主要的光譜特征,而其他算法都是在原始的光譜維度上進(jìn)行特征學(xué)習(xí),冗余的光譜波段會導(dǎo)致網(wǎng)絡(luò)學(xué)習(xí)該類別的光譜能力下降,進(jìn)而導(dǎo)致在該類別上精度下降較多。
圖15 展示了各個(gè)算法在Houston 數(shù)據(jù)集上的分類效果。對比真值圖(Ground Truth),2D CNN、3D CNN、HybridSN、RIAN、SSFTT 的分類效果都不如SSARN。SSARN 分類錯(cuò)誤的樣本主要是第9 類,其他算法錯(cuò)誤的分類也集中在第9 類。冗余的光譜特征會導(dǎo)致網(wǎng)絡(luò)對某些類別產(chǎn)生過擬合,進(jìn)而導(dǎo)致其分類精度下降??傮w來看SSARN 算法相比其他算法,判斷錯(cuò)誤的樣本更少,更貼近真值圖。
圖15 各個(gè)對比算法在Houston 數(shù)據(jù)集的效果Fig.15 The visualization result of each algorithm on the Houston dataset
本文提出了基于光譜-空間注意力殘差網(wǎng)絡(luò)(SSARN)的高光譜分類方法,該方法利用中心區(qū)域光譜注意力機(jī)制,在保留全部光譜信息的基礎(chǔ)上,對光譜之間的權(quán)重進(jìn)行了調(diào)整,避免了網(wǎng)絡(luò)提取光譜特征時(shí)認(rèn)為各個(gè)通道權(quán)重一致的問題。重新調(diào)整光譜權(quán)重后,采用了殘差網(wǎng)絡(luò)對光譜維度進(jìn)行特征提取,一方面可以有效地提取和保留光譜信息,另一方面便于優(yōu)化網(wǎng)絡(luò)。在提取光譜特征后,利用空間注意力機(jī)制對空間-光譜特征進(jìn)行學(xué)習(xí),使后續(xù)的空間特征學(xué)習(xí)模塊更多地關(guān)注輸入中的相關(guān)空間特征,盡可能多地提取有用的空間特征來幫助分類??臻g特征學(xué)習(xí)模塊采用2 個(gè)類似的殘差特征提取模塊,主要是因?yàn)榭臻g信息相比光譜信息更多,需要更多的網(wǎng)絡(luò)參數(shù)進(jìn)行學(xué)習(xí)。在4 個(gè)公開的數(shù)據(jù)集上,消融實(shí)驗(yàn)證明了各個(gè)模塊的有效性。和常用以及最新算法相比,所提出的SSARN 在所有數(shù)據(jù)集上都達(dá)到了最好效果,也證明了該網(wǎng)絡(luò)的有效性和魯棒性。
但是該算法面對分散樣本時(shí),其特征提取能力以及判別能力出現(xiàn)了下降,一方面是因?yàn)樗岢龅木W(wǎng)絡(luò)都是基于圖像塊輸入的,對上下文信息的獲取較差;另一方面類別分散在全局中,樣本比例的不均衡性會導(dǎo)致網(wǎng)絡(luò)提取特征時(shí),分散類別樣本特征權(quán)重較低,可能導(dǎo)致其重要的特征丟失??紤]到視覺變換模型對圖像全局信息的把握能力更強(qiáng),后續(xù)可以考慮用Transformer 網(wǎng)絡(luò),并根據(jù)樣本不均衡引入動態(tài)權(quán)重調(diào)整系數(shù)調(diào)整小樣本的特征權(quán)重來解決全局分散樣本精度較低的問題。