倪康,趙雨晴,陳志
(1 南京郵電大學(xué) 計算機(jī)學(xué)院,南京 210023)
(2 江蘇省大數(shù)據(jù)安全與智能處理重點(diǎn)實(shí)驗室,南京 210023)
(3 首都經(jīng)濟(jì)貿(mào)易大學(xué) 管理工程學(xué)院,北京 100070)
遙感圖像解譯是遙感圖像信息處理的關(guān)鍵內(nèi)容之一[1-4]。隨著遙感技術(shù)的不斷發(fā)展,高分辨率遙感圖像的數(shù)量和成像質(zhì)量均得到了快速增長和提升,這使得傳統(tǒng)基于人工目視的遙感圖像解譯工作不能夠滿足正常需求[5]。近年來,深度學(xué)習(xí)等相關(guān)理論知識的發(fā)展和應(yīng)用,使得基于大規(guī)模數(shù)據(jù)量的遙感圖像解譯工作在解譯速度和精度上均有明顯提升。因此,遙感圖像解譯得到了國內(nèi)外專家和學(xué)者的廣泛關(guān)注。
遙感圖像場景分類通過分析單幅高分辨率場景圖像中的內(nèi)容并賦予其相應(yīng)的類別標(biāo)簽,是遙感圖像解譯的重要內(nèi)容之一,現(xiàn)已廣泛應(yīng)用于交通管制、災(zāi)情預(yù)測等領(lǐng)域[6]。但由于場景圖像地面目標(biāo)的多樣性和空間信息的復(fù)雜性使得對場景圖像的場景內(nèi)容理解極具挑戰(zhàn)性。
近年來,深度學(xué)習(xí)理論的快速發(fā)展為高分辨率遙感圖像場景分類提供了有效途徑。相比于傳統(tǒng)的基于手工設(shè)計的特征描述子,深度特征表述在特征魯棒性和泛化性上的優(yōu)勢[7],使得基于深度學(xué)習(xí)的高分辨率遙感圖像場景分類迅速成為遙感圖像信息處理領(lǐng)域的研究熱點(diǎn)之一。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNNs)在遙感圖像場景分類領(lǐng)域取得了較優(yōu)的分類效果[8]。目前,按照特征學(xué)習(xí)的方式,基于CNNs 的遙感圖像場景分類方法可以分為:基于預(yù)訓(xùn)練CNNs 特征提取和基于端到端CNNs 特征學(xué)習(xí)的場景分類算法。
基于預(yù)訓(xùn)練CNNs 特征提取的遙感圖像場景分類方法是一種將現(xiàn)有的ImageNet 等自然圖像數(shù)據(jù)集上訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)作為特征提取器,提取遙感圖像場景圖像的深度特征,繼而訓(xùn)練分類器,以完成場景分類。CHENG G 等[9]利用預(yù)訓(xùn)練的AlexNet、GoogleNet 和VGGNet-16 網(wǎng)絡(luò)作為特征提取器,并將所提取到的特征向量作為視覺詞袋模型(Bag of Visual Words,BoVW)的輸入,以此提升其特征的可辨別性。為了利用多層網(wǎng)絡(luò)的深度特征,HE N J 等[10]提出了一種多層堆疊的協(xié)方差池化網(wǎng)絡(luò)(Multilayer Stacked Covariance Pooling,MSCP),該網(wǎng)絡(luò)提取預(yù)訓(xùn)練的CNNs 網(wǎng)絡(luò)中的多層深度特征向量,并采用協(xié)方差池化的方法進(jìn)行獲取其二階特征統(tǒng)計信息,以此完成高分辨率遙感圖像場景分類。為了充分顧及深度卷積特征中級特征表述和特征冗余對場景分類效果的影響,NI K 等[11]提出一種基于中級深度特征學(xué)習(xí)的遙感圖像場景分類算法。該算法利用一種可學(xué)習(xí)的多層激勵局部約束仿射子空間編碼-卷積神經(jīng)網(wǎng)絡(luò)框架(Learnable Multilayer Energized Locality Constrained Affine Subspace Coding-Convolutional Neural Network,MELASC-CNN)進(jìn)行深度特征學(xué)習(xí)。YANG Z 等[12]提出一種多尺度特征融合遙感圖像場景分類算法,該算法通過輸入不同尺度的遙感圖像,提取預(yù)訓(xùn)練CNNs 中的卷積層與全連接層特征,繼而進(jìn)行特征降維操作,將降維后的特征向量輸入多核支持向量機(jī)(Multi-Kernel Support Vector Machine,MKSVM)完成場景分類。上述算法僅僅將CNNs 作為特征提取器,利用特征降維、特征融合等算法提升深度特征的可判別性,以提高高分辨率遙感圖像場景分類的準(zhǔn)確率。但該類算法忽略了CNNs 的特征學(xué)習(xí)能力,故而限制了其在遙感圖像場景分類精度上的提升空間及其泛化能力。
基于端到端CNNs 特征學(xué)習(xí)的場景分類算法突破了上述瓶頸,并取得了較好的場景分類效果。LU X Q等[13]在考慮深度特征聚合策略之后,提出一種卷積特征聚合編碼網(wǎng)絡(luò),以此獲取遙感場景圖像的類別標(biāo)簽。該網(wǎng)絡(luò)未顧及深度語義特征對遙感圖像特征描述的影響,因此,LI R Y 等[14]在充分利用多級和多尺度深度特征的同時,將深度語義特征信息融入特征金字塔網(wǎng)絡(luò),以自動學(xué)習(xí)場景圖像判別特征表述。上述網(wǎng)絡(luò)可針對不同的深度特征向量進(jìn)行端到端特征聚合,并可提升模型的泛化能力。為了增強(qiáng)深度特征的可辨別性,注意力機(jī)制的引入成為研究熱點(diǎn)。
深度學(xué)習(xí)中的注意力機(jī)制可以有效且自動地進(jìn)行特征選擇,應(yīng)用較為廣泛的注意力模塊有:SENet(Squeeze-and-Excitation Networks)[15]、CBAM(Convolutional Block Attention Module)[16]、GCNet[17]和ECANet(Efficient Channel Attention)[18]等。上述注意力機(jī)制模塊在圖像分類、目標(biāo)檢測等領(lǐng)域取得了較好的效果,但該類模塊大多是情況下是利用深度特征的一階特征統(tǒng)計量進(jìn)行相關(guān)性學(xué)習(xí),這種方式在一定程度上限制了其表述能力。因此,基于二階統(tǒng)計量的注意力模塊相繼出現(xiàn)。GAO Z L 等[19]將全局二階池化模塊(Global Second-order Pooling,GSoP)嵌入卷積神經(jīng)網(wǎng)絡(luò)并得到不錯的效果。BRYAN X 等[20]提出一種非局部二階注意力網(wǎng)絡(luò)(Second-order Non-local Attention Network,SONA-Net),該網(wǎng)絡(luò)通過二階特征統(tǒng)計量獲取特征的長距離依賴。雖然上述基于二階特征統(tǒng)計量的注意力模塊在相關(guān)領(lǐng)域已取得較好的效果,但通過二階統(tǒng)計量所得到的深度特征相關(guān)性的特征維度較高。例如:卷積特征向量X=RH×W×C,其二階統(tǒng)計量特征維度為C2。因此,在不損害深度特征統(tǒng)計性能的情況下,約減特征維度至關(guān)重要。
綜上所述,本文針對遙感場景圖像地面目標(biāo)尺度信息不同及場景圖像復(fù)雜的空間分布和紋理信息導(dǎo)致基于CNNs 的場景分類算法分類效果欠佳的問題,從深度特征學(xué)習(xí)角度切入,提出一種稀疏二階注意力機(jī)制驅(qū)動的多尺度卷積神經(jīng)網(wǎng)絡(luò)(Multi-scale Convolutional Neural Network Driven by Sparse Second-Order Attention Mechanism,MCNN-SSAM)。本文在主干網(wǎng)之后引入金字塔卷積以提取場景圖像的多尺度深度特征,減弱遙感場景圖像地面目標(biāo)尺度信息不同對場景圖像特征信息描述的影響;另外,引入稀疏二階注意力模塊對多尺度卷積中不同尺度卷積層的通道信息進(jìn)行通道選擇,以此提高深度特征向量的可判別性。
本文提出的MCNN-SSAM 包含以下幾個部分:主干網(wǎng)、金字塔卷積模塊、稀疏二階注意力模塊和Softmax 分類層,如圖1所示。另外,為了更好地驗證主干網(wǎng)卷積層特征提取效果,圖2給出了不同網(wǎng)絡(luò)層(VGG-M)所學(xué)習(xí)到的特征圖可視化結(jié)果。
圖1 MCNN-SSAM 網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 The architecture of MCNN-SSAM
圖2 不同網(wǎng)絡(luò)層所學(xué)習(xí)到的特征圖可視化結(jié)果Fig.2 Visualization results of feature maps learned by different network layers
從圖1可以看出:淺層的卷積層(如Conv1)所得到特征圖的特征激活區(qū)域較廣,部分通道的特征圖刻畫不精確,例如:在橋梁場景圖像中,部分特征圖關(guān)注在水域等區(qū)域,忽略了橋梁區(qū)域;另外,淺層卷積層特征圖大多表現(xiàn)為邊緣、輪廓等特征信息;隨著網(wǎng)絡(luò)層數(shù)的加深,特征圖激活區(qū)域更加稀疏,特征也表現(xiàn)的更加抽象,且具有更高層的語義信息,例如在河流場景圖像中,河流邊緣、輪廓等特征信息逐漸稀疏,Conv5 所提取的特征圖激活區(qū)域少且集中,特征表現(xiàn)形式更加抽象,更具可辨別性。因此,本文截取VGG-16 最后一個卷積層(Conv5_3)之前所有的網(wǎng)絡(luò)層作為主干網(wǎng)。另外,金字塔卷積中包含三個不同尺度的卷積操作,稀疏二階注意力模塊可自動學(xué)習(xí)不同尺度卷積層的通道信息并進(jìn)行通道選擇,最后嵌入Softmax 分類層完成網(wǎng)絡(luò)的端到端訓(xùn)練。下文將詳細(xì)闡述所提網(wǎng)絡(luò)的各個部分。
金字塔卷積網(wǎng)絡(luò)結(jié)構(gòu)塊采用3 個級別的卷積并聯(lián)而成。每個卷積都有四個參數(shù)(h,w,c,g),分別代表卷積核的高、寬、通道數(shù)和組卷積中組的數(shù)目[21]。這里,卷積核的高和寬設(shè)置為[3,5,7],即h1=w1=3,h2=w2=5,h3=w3=7,每一級卷積核的通道數(shù)均相等(按照經(jīng)典CNNs 通道數(shù)目的設(shè)置,c通常設(shè)置為2的指數(shù)冪,本文中c=512)。為了保證不同卷積所得到的特征圖大小相同,該結(jié)構(gòu)塊中步長(stride)均設(shè)置為1,填充(padding)設(shè)置為h//2,//為整數(shù)除法,返回不大于結(jié)果的一個最大的整數(shù)。這樣通過卷積輸出特征圖的計算公式,即可得到同等大小的特征圖輸出。
另外,經(jīng)典卷積操作的參數(shù)量和計算量均來自于卷積核計算。假設(shè)輸入特征圖通道數(shù)為cin,輸出特征圖通道數(shù)為cout,輸出特征圖大小為[H,W],卷積核大小為k,則參數(shù)量大小P與浮點(diǎn)數(shù)計算量F為
在輸出特征圖保持一致的情況下,因卷積核大小的不同,與單尺度卷積層相比,金字塔卷積網(wǎng)絡(luò)結(jié)構(gòu)塊的參數(shù)量和計算量明顯提高。為了降低金字塔卷積網(wǎng)絡(luò)結(jié)構(gòu)塊的參數(shù)量和計算量,考慮到經(jīng)典卷積操作中,卷積操作針對每個通道的特征圖都進(jìn)行類似于全連接計算方式的特征圖卷積,這種計算方式直接影響了卷積核的參數(shù)量與計算量。金字塔卷積網(wǎng)絡(luò)結(jié)構(gòu)塊按照通道數(shù)目進(jìn)行分組,再進(jìn)行卷積操作,這樣每個分組內(nèi)的特征圖進(jìn)行獨(dú)立的卷積操作,模塊的參數(shù)量和計算量都會隨著cin和cout的降低而明顯降低。若分組數(shù)目g=1,即演變?yōu)榻?jīng)典的卷積操作,但分組數(shù)目過多也會影響到特征學(xué)習(xí)的效果[21]。金字塔卷積網(wǎng)絡(luò)結(jié)構(gòu)塊中g(shù)1、g2和g3擬選定為相等的參數(shù),另外根據(jù)CNNs 通道數(shù)的設(shè)置,將其設(shè)置為2 的指數(shù)冪,本文設(shè)置為4。最后,通過BN(Batch Normalization)層和ReLU(Rectified Linear Unit)非線性激活層對輸出特征圖進(jìn)行非線性建模,增加模型的表達(dá)能力和特征泛化能力,降低網(wǎng)絡(luò)過擬合現(xiàn)象的發(fā)生。
本文所提出的稀疏二階注意力模塊結(jié)構(gòu)圖如圖3所示。對于金字塔卷積模塊的輸出特征圖G∈RH×W×C,利用1×1 卷積層進(jìn)行通道降維,可得其降維的特征圖為H×W×C'。繼而利用FBC 模塊(Factorized bilinear coding)進(jìn)行稀疏二階統(tǒng)計量的計算。
圖3 稀疏二階注意力模塊結(jié)構(gòu)圖Fig.3 The architecture of sparse second-order attention module
FBC 模塊的核心思想是從深度特征向量特征對(mi,nj)中學(xué)習(xí)到一個具有b個原子的字典A,其中每一個原子均可以分解為低秩矩陣XlYlT[22]。此時,編碼系數(shù)cs可通過式(2)計算。
式中,ω為可調(diào)參數(shù),s=1,2,...,C,‖ ? ‖1為l1范數(shù)算子,cls表示編碼系數(shù)的第l個元素。Xl∈Rp×v,YlT∈Rv×q,q是超參數(shù),且v?p。從式(2)可以看出,F(xiàn)BC 模塊可以通過LASSO(Least Absolute Shrinkage and Selection Operator)算法求解,即
式中,cs'=為Hadamard 積,且Q∈Rb×vb為固定的二值矩陣,X'和Y'是通過低秩矩陣X和Y計算得到的,其目的是為了降低運(yùn)算復(fù)雜度。這里,X'和Y'表示為
式中,1Tvb和I為全1 向量和矩陣[23],pl為P的第l列,其中P定義為
通過上述求解,利用FBC 模塊求得的稀疏二階注意力特征向量可以表示為
式中,F(xiàn)∈R1×1×b是通過最大化操作,遍歷字典A中每個原子聚合得到的,且b< 式中,Conv1×1(?)為1×1 卷積操作,其目的是通過降維操作,完成對深度卷積特征G通道信息的自動學(xué)習(xí),建模金字塔卷積特征空間域通道維度之間的相互依賴性,有效地增強(qiáng)有價值特征信息的特征響應(yīng),抑制無價值特征信息的特征響應(yīng)。σ(?)為sigmoid 激活函數(shù),?為特征圖通道乘法。稀疏二階注意力模塊在從二階特征統(tǒng)計量獲取多尺度深度特征通道之間相關(guān)性的同時,顧及二階特征統(tǒng)計量的特征冗余性,可以得到更好的特征增強(qiáng)效果。最后,引入逐像素歸一化層增強(qiáng)特征的可判別性,主要包括符號平方根歸一化層和l2歸一化層,具體計算公式為 式中,Gij'為G'特征向量的第i行第j列個特征描述子,sign(?)為符號函數(shù),即:當(dāng)Gij'>0 時,sign(Gij')=1;當(dāng)Gij'=0 時,sign(Gij')=0;當(dāng)Gij'<0 時,sign(Gij')=-1。κ為一個小整數(shù),以保證算式有意義。 為了驗證所提網(wǎng)絡(luò)的有效性,利用兩個應(yīng)用較為廣泛且數(shù)據(jù)量規(guī)模較大的遙感圖像場景分類數(shù)據(jù)集進(jìn)行驗證實(shí)驗[24-25]。AID(Aerial Image Dataset)數(shù)據(jù)集中的場景圖像來自于谷歌地球,其中包括10 000 幅圖像尺寸為600像素×600 像素的場景圖像,空間分辨率為1~8 m,共分為30 個場景類別(如圖4所示):機(jī)場、海灘、橋梁、山脈、森林等。 圖4 AID 場景實(shí)例Fig.4 Sample charts of AID dataset NWPU45(NWPU-RESISC45 dataset)數(shù)據(jù)集是一個由沙漠、籃球場、湖泊、島嶼、火車站等45 個類別的場景圖像所構(gòu)成的,共包括31 500 幅圖像尺寸為256像素×256 像素的場景圖像,空間分辨率為0.2~30 m。NWPU45 數(shù)據(jù)集場景示例如圖5所示。 圖5 NWPU45 場景實(shí)例Fig.5 Sample charts of NWPU45 dataset 選定VGG-16 網(wǎng)絡(luò)作為MCNN-SSAM 的主干網(wǎng),利用Adam 優(yōu)化器進(jìn)行網(wǎng)絡(luò)端到端訓(xùn)練,相關(guān)參數(shù)設(shè)置如下:初始學(xué)習(xí)率0.01、權(quán)重衰減系數(shù)0.001、數(shù)據(jù)批次大小(batch size)32、動量0.9,其他參數(shù)設(shè)置將在2.3節(jié)中討論。本文利用PyTorch 深度學(xué)習(xí)框架進(jìn)行網(wǎng)絡(luò)搭建與實(shí)驗,硬件平臺為:GPU:NVIDIA GeForce GTX 8G 1070 Ti 和RAM:32 GB。 本文所提MCNN-SSAM 中稀疏二階注意力模塊包的兩個重要參數(shù):字典中的原子數(shù)量b和低秩矩陣參數(shù)v,對所提網(wǎng)絡(luò)的場景分類性能有較大影響。故圖6給出了不同的b和v下,MCNN-SSAM 的AID 遙感圖像場景數(shù)據(jù)集上的場景分類總體精確度(Overall Accuracy,OA)。這里隨機(jī)選取數(shù)據(jù)集中20%場景圖像作為訓(xùn)練集,10%作為驗證集,70%作為測試集。 圖6 b 和v 對MCNN-SSAM 網(wǎng)絡(luò)性能的影響Fig.6 Influence of b and v on MCNN-SSAM 從圖6可以看出,不同的低秩矩陣參數(shù)和原子數(shù)量對網(wǎng)絡(luò)性能會有不同程度的影響。當(dāng)原子數(shù)量不斷增加時,大多數(shù)情況下,網(wǎng)絡(luò)分類準(zhǔn)確率是先升后降,這種現(xiàn)象的產(chǎn)生多數(shù)情況下與所構(gòu)建網(wǎng)絡(luò)的復(fù)雜度和訓(xùn)練樣本數(shù)量有關(guān)。特別地,并不是低秩矩陣參數(shù)和字典中的原子數(shù)量越大,網(wǎng)絡(luò)性能越優(yōu)。過大的低秩矩陣參數(shù)和原子數(shù)量會導(dǎo)致稀疏二階注意力模塊計算復(fù)雜度的增加,且過多的原子數(shù)量亦不能較好地建模金字塔卷積特征空間域通道維度之間的相互依賴性。通過上圖可以看出,當(dāng)v=8 192 和v=4 096 在b=5時,可以得到91.83%和91.86%的場景分類準(zhǔn)確率。在綜合考慮算法計算復(fù)雜度的同時,MCNN-SSAM 在后續(xù)實(shí)驗過程中將低秩矩陣參數(shù)和原子數(shù)量設(shè)置為4 096 和5。 為了對比本文所提MCNN-SSAM 與其他相關(guān)網(wǎng)絡(luò)的有效性,本小節(jié)利用AID 和NWPU45 公開數(shù)據(jù)集進(jìn)行驗證實(shí)驗。在AID 數(shù)據(jù)集中,隨機(jī)選取20% 和50% 場景圖像作為訓(xùn)練集,其余作為測試集;在NWPU45 數(shù)據(jù)集中,隨機(jī)選取10%和20%場景圖像作為訓(xùn)練集,剩余的90%和80%作為測試集。為保證實(shí)驗結(jié)果的可靠性,所有實(shí)驗均進(jìn)行5 次。所對比的相關(guān)算法包括AlexNet、VGG-16、SAFF、MSCP 和CapsNet 遙感圖像場景分類算法。表1給出了相關(guān)實(shí)驗結(jié)果,實(shí)驗結(jié)果中,“+”前面的數(shù)字為5 次實(shí)驗結(jié)果場景分類準(zhǔn)確率的均值,“+”后面的數(shù)字為5 次實(shí)驗結(jié)果標(biāo)準(zhǔn)差大小,該數(shù)值可以衡量模型的穩(wěn)定性。 表1 不同算法效果對比Table 1 Performance comparison of other related algorithms AlexNet 和VGG-16 網(wǎng)絡(luò)是經(jīng)典的CNNs,在遙感圖像場景分類方面,該類網(wǎng)絡(luò)可得到一定的場景分類效果。SAFF[26]和MSCP 這兩種算法均采用了多尺度特征聚合的方式,不同的是:SAFF 中所運(yùn)用的是基于自注意力機(jī)制的特征融合方式;MSCP 采用二階深度特征統(tǒng)計量描述遙感圖像場景特征。從實(shí)驗結(jié)果可以看出,在不同場景分類數(shù)據(jù)集和訓(xùn)練集比例的情況下,與AlexNet 和VGG-16 網(wǎng)絡(luò)相比,SAFF 和MSCP 均有不同程度的提升(約為3.5%~9.0%)。CapsNet[27]將膠囊網(wǎng)絡(luò)(CapsNet)與CNNs 有效結(jié)合,并以此提升遙感圖像場景分類性能,并得到了與MSCP 性能相當(dāng)?shù)膱鼍胺诸悳?zhǔn)確率。本文所提MCNN-SSAM 不僅利用金字塔卷積進(jìn)行多尺度深度特征抽取,而且引入稀疏二階注意力模塊獲取深度多尺度特征通道之間相關(guān)性,在顧及二階特征統(tǒng)計量特征冗余性的同時,可以得到更好的特征增強(qiáng)效果。因此,MCNN-SSAM 可獲得較好的場景分類效果,與基準(zhǔn)網(wǎng)絡(luò)VGG-16 相比,有5.0%~11.0%的性能提升;與性能較好的CapsNet 相比,也有0.20%~1.50%的性能提升。 為了更好地展示每一類遙感圖像場景圖像的分類效果,圖7和圖8分別給出本文所提MCNN-SSAM 在AID 數(shù)據(jù)集20%訓(xùn)練集比例和NWPU45 數(shù)據(jù)集20%訓(xùn)練集比例下的場景分類混淆矩陣。混淆矩陣中坐標(biāo)系數(shù)字為數(shù)據(jù)集中每個類別名稱,均按照其英文首字母順序排序,橫坐標(biāo)為預(yù)測類別,縱坐標(biāo)為真實(shí)類別。 圖7 MCNN-SSAM 在AID 數(shù)據(jù)集20%訓(xùn)練集比例下的場景分類混淆矩陣Fig.7 Confusion matrix of scene classification on AID dataset under 20% training ratios 圖8 MCNN-SSAM 在NWPU45 數(shù)據(jù)集20%訓(xùn)練集比例下的場景分類混淆矩陣Fig.8 Confusion matrix of scene classification on NWPU45 dataset under 20% training ratios 從該混淆矩陣可以看出,大部分場景類別可得到80%以上的遙感圖像場景分類準(zhǔn)確率。值得注意的是:部分場景類別,如AID 數(shù)據(jù)集中的山脈、高架橋,NWPU45 數(shù)據(jù)集中的叢林、海冰等場景均達(dá)到了98%~99%的場景分類準(zhǔn)確率。另外,AID 數(shù)據(jù)集中娛樂場、NWPU45 數(shù)據(jù)集中宮殿的場景分類準(zhǔn)確率在70%以下,造成該現(xiàn)象的原因可能是由于娛樂場和AID 數(shù)據(jù)集中的公園場景類間相似性較大,因此,造成23%的娛樂場類別誤分為公園。同理,NWPU45 數(shù)據(jù)集中宮殿與教堂有較大的類間相似性,故有15%的宮殿類別誤分為教堂。 本節(jié)通過類別激活映射(Class Activation Mappings,CAMs)進(jìn)行特征圖可視化[28]。CAMs 通過熱圖的形式對特征圖進(jìn)行高亮顯示,以求從直觀效果上可視化CNNs 所學(xué)習(xí)到的特征表述。圖9給出MCNNSSAM 與其他相關(guān)網(wǎng)絡(luò)的熱圖結(jié)果對比。 圖9 MCNN-SSAM 與其他相關(guān)網(wǎng)絡(luò)的熱圖結(jié)果對比Fig.9 Visual comparison of heatmaps between MCNN-SSAM and other related networks 從圖9可以看出,VGG-16 所得到的熱圖雖然能夠較準(zhǔn)確地聚焦所識別場景區(qū)域,但較為發(fā)散。例如:在中央廣場場景中,VGG-16 網(wǎng)絡(luò)可以捕捉到中央廣場所在區(qū)域,但范圍較小,且不夠精確;CNNs+SENet可以更好地將特征識別區(qū)域聚集在場景區(qū)域,但范圍受限。例如:無論是在中央廣場場景還是廣場場景中,CNNs+SENet 網(wǎng)絡(luò)均能夠捕捉到廣場區(qū)域,且較為集中,但忽略了場景周邊環(huán)境信息對分類效果的影響;本文所提出的MCNN+SSAM 不僅能夠?qū)⑻卣髯R別區(qū)域聚集在待識別的場景區(qū)域,還可以顧及到周邊環(huán)境區(qū)域,激活區(qū)域范圍較大,且定位較為準(zhǔn)確,故MCNN+SSAM 可以得到更優(yōu)的遙感圖像場景分類效果。 MCNN-SSAM 中MCNN 和SSAM 兩個模塊,為驗證這兩個模塊的有效性,表2給出相關(guān)消融實(shí)驗結(jié)果。同時,本小節(jié)還將MCNN-SSAM 中的稀疏二階注意力模塊替換為基于一階特征統(tǒng)計量的SENet 和基于二階統(tǒng)計量的協(xié)方差注意力機(jī)制CovNet,以此驗證所提稀疏二階注意力模塊的有效性。 表2 消融和泛化實(shí)驗結(jié)果Table 2 Results of ablation and generalization experiments 從表2可以看出,無論是CNNs 深度特征還是多尺度MCNN 深度特征,與基于一階特征統(tǒng)計量的注意力機(jī)制(CNNs+SENet 和MCNN+SENet)相比,基于二階特征統(tǒng)計量的注意力機(jī)制(CNNs+CovNet、CNNs+SSAM、MCNN+CovNet 和MCNN+SSAM)所得到的場景分類準(zhǔn)確率均有不同程度的提高。同時,通過對比實(shí)驗可以看出,MCNN 模塊、SSAM 模塊以及這兩種模塊的融合均對遙感圖像場景分類效果的提升有促進(jìn)作用,例如:與CNNs+SSAM 相比,MCNN-SSAM 的場景分類效果提升了1.62%~5.39%;與CNNs+CovNet 相比,MCNN+CovNet 的場景分類準(zhǔn)確率有1.0%~4.07%的提升。另外,在CNNs 實(shí)驗部分,與CNNs+SENet 和CNNs+CovNet 相比,CNNs+SSAM 有著1.92%~2.35%和0.32%~0.39%的性能提升;在MCCN 實(shí)驗部分,與MCNN+SENet 和MCNN+CovNet 相比,MCNN-SSAM 的場景分類準(zhǔn)確率提升了1.64%~3.57%和1.01%~1.64%。驗證了本文所提稀疏二階注意力模塊的有效性。 針對地面目標(biāo)尺度信息不同及場景特征描述困難所導(dǎo)致場景分類算法分類效果欠佳的現(xiàn)象,本文從深度特征學(xué)習(xí)的角度出發(fā),提出稀疏二階注意力機(jī)制驅(qū)動的多尺度卷積遙感圖像場景分類網(wǎng)絡(luò)。與單尺度卷積模塊相比,金字塔卷積模塊所得到的特征圖感受野不同,且能夠增強(qiáng)深度特征表述能力;稀疏二階注意力模塊利用稀疏二階統(tǒng)計量進(jìn)行通道相關(guān)性的計算,在顧及二階特征統(tǒng)計量特征冗余性的同時,達(dá)到了特征增強(qiáng)效果。從場景分類精確性、混淆矩陣、可視化等多個方面的對比實(shí)驗表明:本文所提MCNN-SSAM 在兩個具有挑戰(zhàn)性的遙感圖像場景分類數(shù)據(jù)集上有較好的遙感圖像場景分類效果。但本文所提網(wǎng)絡(luò)需要手動設(shè)置的參數(shù)量較多,在未來的工作中,如何設(shè)計超參數(shù)較少且可生成魯棒稀疏二階統(tǒng)計量的算法,并將其嵌入至網(wǎng)絡(luò)中進(jìn)行端到端訓(xùn)練將是未來的工作重點(diǎn)之一;另外,構(gòu)建一景遙感場景圖像分類數(shù)據(jù)集,并在一景典型遙感圖像中驗證本文所提網(wǎng)絡(luò)的有效性同樣值得我們關(guān)注。2 實(shí)驗結(jié)果與分析
2.1 實(shí)驗數(shù)據(jù)集
2.2 實(shí)驗設(shè)置
2.3 參數(shù)分析
2.4 與其他相關(guān)算法對比
2.5 可視化實(shí)驗
2.6 消融實(shí)驗
3 結(jié)論