• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向遙感圖像檢索的級聯(lián)池化自注意力研究

      2023-01-11 17:17:42葉發(fā)茂
      光電工程 2022年12期
      關(guān)鍵詞:池化級聯(lián)注意力

      吳 剛,葛 蕓*,儲 珺,葉發(fā)茂

      1 南昌航空大學軟件學院,江西 南昌 330063;2 南昌航空大學江西省圖像處理與模式識別重點實驗室,江西 南昌 330063;3 東華理工大學測繪工程學院,江西 南昌 330013

      1 引 言

      隨著遙感衛(wèi)星技術(shù)的發(fā)展以及遙感圖像應用市場的擴大,基于內(nèi)容的遙感圖像檢索在經(jīng)濟社會發(fā)展、資源環(huán)境監(jiān)測、城市生活管理等眾多領(lǐng)域起到不可替代的作用。遙感圖像的背景信息比較復雜,導致同一類圖像具有較大的差異,不同類別的圖像之間存在一定的相似性,所以提取判別能力強的特征是提高檢索性能的關(guān)鍵。

      卷積神經(jīng)網(wǎng) 絡(Convolutional neural network,CNN)采用多層網(wǎng)絡架構(gòu)來學習圖像特征,CNN 提取的高層特征能較好地表達圖像的語義信息并有效縮小圖像檢索中的語義鴻溝,提高圖像的檢索性能[1]。Ge等人[2]將ImageNet 上預訓練的CNN 應用到遙感圖像數(shù)據(jù)集上,表明CNN 提取的特征明顯優(yōu)于傳統(tǒng)的手工特征。

      為了進一步提高CNN 中的特征表達,優(yōu)化特征和改進網(wǎng)絡結(jié)構(gòu)是兩種有效的手段。以優(yōu)化特征為主來提高圖像檢索性能的方法取得了較好的進展。葛蕓等人[3]通過結(jié)合判別相關(guān)分析來增強同類特征的聯(lián)系,并突出不同類別特征之間的差異,再選擇串聯(lián)與相加兩種方法來對不同特征進行融合,從而提高特征的判別能力。Hou 等人[4]提取Inception V4 網(wǎng)絡不同層的特征,將不同層的特征進行融合來代表圖像的整體特征,提高圖像特征表達的準確性。江曼等人[5]從多個尺度將圖像表面的幾何曲率信息融合到改進方向梯度特征中,在此基礎上進一步融合圖像的顏色信息,將融合特征進行圖像檢索,提高了檢索性能。

      改進網(wǎng)絡結(jié)構(gòu)來提高遙感圖像檢索性能也有較多的研究成果,Liu 等人[6]提出一種分類相似性網(wǎng)絡模型,在分類的同時進行相似性預測,結(jié)合深度特征和相似性分數(shù)來衡量兩個圖像之間的最終相似度。Zhang 等人[7]構(gòu)建了一個結(jié)合深度度量學習和非局部操作的三元組非局部神經(jīng)網(wǎng)絡模型,提出了雙錨三元組損失函數(shù),以充分利用輸入樣本的信息。

      在改進網(wǎng)絡結(jié)構(gòu)的基礎上進行特征優(yōu)化可以進一步改進檢索效果。Cheng 等人[8]提出了一種基于殘差注意力的深度度量學習的集成架構(gòu),在CNN 的基礎上引入并改進了殘差注意力,然后對特征使用池化方法融合,進一步提高檢索性能。Zhou 等人[9]提出了一種以ResNet 為骨干網(wǎng)絡的Gabor-CA-ResNet 網(wǎng)絡,利用Gabor 表示圖像的空間頻率結(jié)構(gòu),結(jié)合通道注意力機制來獲得判別性更強的深層特征,之后利用基于Split 的深度特征變換網(wǎng)絡對特征進行降維。

      雖然CNN 能夠較好地用于圖像檢索,但是CNN 是對整張圖像進行特征提取,不能有效突出圖像中的顯著特征,并且背景噪聲也會對特征產(chǎn)生一定的干擾。在CNN 中引入注意力機制可以進一步增強特征的判別能力,注意力機制對圖像中不同區(qū)域的特征進行權(quán)重分配,能夠有效地區(qū)分前景信息和背景信息,有助于提取圖像的顯著特征。Hu 等人[10]提出的SE 網(wǎng)絡模塊對特征圖進行“擠壓”和“激勵”操作,通過特征重標定的方式來自適應地調(diào)整通道之間的特征響應,從而提高了特征的性能。Woo 等人[11]設計了卷積注意力模塊(convolutional block attention module,CBAM),CBAM 在通道注意力的基礎上,連接了空間注意力,然后將注意力權(quán)重與輸入的特征圖相乘來進行特征的自適應學習。Wang 等人[12]提出了一種有效的通道注意力,通過一維卷積來完成跨通道之間的信息交互。Hou 等人[13]提出了一種高效的注意力機制,將位置信息嵌入到通道信息中,避免引入較大的開銷。

      自注意力是一種特殊的注意力機制,為了減少對外部信息的依賴,自注意力根據(jù)圖像上下文的相關(guān)信息來學習顯著特征。Wang 等人[14]將自然語言處理領(lǐng)域的自注意力應用到計算機視覺領(lǐng)域,并提出了Non-Local 模塊。Fu 等人[15]提出了雙重注意力網(wǎng)絡(dual attention network,DANet),將Non-Local 的思想應用在空間域和通道域,分別將特征空間以及特征通道作為查詢對象進行上下文建模。Huang 等人[16]利用兩個十字交叉注意力來替代基于全局像素點的建模,降低了運算復雜度。

      在遙感圖像檢索領(lǐng)域,注意力機制同樣備受關(guān)注。Wang 等人[17]在CNN 中引入雙線性池化,并且通過通道注意力和空間注意力來細化特征,將注意力機制輸出特征作為雙線性池化的輸入,最后使用主成分分析(principal component analysis,PCA)[18]對特征進行降維,實驗結(jié)果表明該方法的檢索結(jié)果較好。Yang等人[19]在深度哈希的基礎上引入通道注意力和位置注意力,以提高特征的表達能力,取得良好的檢索效果。

      受自注意力機制的啟發(fā),本文提出一種基于級聯(lián)池化的自注意力模塊(cascade pooling self-attention module,CPSM)與哈希相結(jié)合的遙感圖像檢索方法,從改進網(wǎng)絡結(jié)構(gòu)和優(yōu)化CNN 特征兩個方面來提高檢索性能?;诩壜?lián)池化的自注意力模塊從通道和空間兩個方面減少圖像背景噪聲的干擾,監(jiān)督核哈希(supervised Hashing with kernels,KSH)[20]將特征映射成緊湊的哈希碼,從而有效地降低特征維數(shù)。本文的主要貢獻如下:

      1) 改進了通道自注意力和空間自注意力。通道自注意力通過關(guān)聯(lián)所有通道圖之間的特征信息,學習具有內(nèi)容相關(guān)性的顯著通道特征,空間自注意力通過所有空間位置的特征加權(quán)提取具有位置相關(guān)性的顯著空間特征。將這兩者結(jié)合,從通道域和空間域兩個方面進行全局建模,減少圖像背景噪聲的干擾。

      2) 提出在自注意力模塊中使用級聯(lián)池化[21]來代替全局池化。級聯(lián)池化結(jié)合最大池化和均值池化的優(yōu)點,在提取圖像顯著特征的同時保留了圖像重要的細節(jié)信息,適用于內(nèi)容復雜的高分辨率遙感圖像。

      3) 采用KSH 來進一步優(yōu)化特征。在CNN 中加上CPSM 模塊有助于學習到判別能力更強的特征,但CNN 中提取的特征一般維數(shù)較高,因此使用KSH將特征映射成緊湊的哈希碼,在降低特征冗余性的同時提高特征的檢索效率。

      2 級聯(lián)池化自注意力的遙感圖像檢索

      2.1 檢索流程

      傳統(tǒng)的CNN 容易存在梯度彌散和梯度消失等問題,ResNet50[22]主要由深度殘差結(jié)構(gòu)組成,殘差結(jié)構(gòu)使得網(wǎng)絡層次更深、收斂速度更快,較好地解決了梯度彌散和梯度消失等問題。本文在ResNet50 網(wǎng)絡中引入級聯(lián)池化自注意力模塊,提出ResNet50-CPSM網(wǎng)絡,并將網(wǎng)絡中的特征用于遙感圖像檢索。檢索流程如圖1 所示,具體檢索步驟如下:首先,在大規(guī)模數(shù)據(jù)集ImageNet 預訓練網(wǎng)絡的基礎上,用遙感數(shù)據(jù)集訓練ResNet50-CPSM 網(wǎng)絡,分別提取訓練集和測試集的高層特征。然后,對訓練集的特征用KSH 方法進行監(jiān)督學習,并根據(jù)學習的參數(shù)將測試集的特征映射為緊湊的哈希碼。最后,用該哈希碼用于檢索遙感圖像,采用漢明距離計算查詢圖像與數(shù)據(jù)集中圖像的相似度,返回最相似的若干幅圖像作為檢索結(jié)果。

      圖1 級聯(lián)池化自注意力的檢索流程圖Fig.1 Retrieval flowchart for cascade pooling self-attention

      2.2 級聯(lián)池化自注意力網(wǎng)絡結(jié)構(gòu)

      遙感圖像內(nèi)容復雜,背景信息豐富,空間語義信息也豐富。為了突出圖像的顯著信息,提出了級聯(lián)池化自注意力模塊。為了充分利用ResNet50 預訓練的參數(shù),將級聯(lián)池化自注意力模塊加載到ResNet50 網(wǎng)絡最后一層卷積層的后面。級聯(lián)池化自注意力中采用了級聯(lián)池化來代替?zhèn)鹘y(tǒng)的全局池化,級聯(lián)池化首先對特征圖進行小區(qū)域的最大池化,得到最大池化后的特征圖,再對該特征圖進行平均池化。與傳統(tǒng)的全局池化相比,級聯(lián)池化結(jié)合了最大池化和均值池化的優(yōu)點,既關(guān)注了遙感圖像的顯著信息,又保留了重要的細節(jié)信息。級聯(lián)池化自注意力包含通道自注意力和空間自注意力,自注意力可以自適應地關(guān)聯(lián)遠程上下文信息,更關(guān)注特征之間的相關(guān)性,通過對特征進行權(quán)重分配進一步學習遙感圖像的顯著特征,從而提高特征的判別性。

      2.2.1 通道自注意力

      通道自注意力通過聯(lián)系上下文信息對不同的通道進行權(quán)重分配,每一個通道可以看作是一類特征的響應,對貢獻大的特征分配更大的權(quán)重,從而增強對顯著特征的判別能力。通道自注意力模塊如圖2 所示,令卷積特征F的尺寸為H×W×C,H和W是每個通道對應特征圖的高度和寬度,C為是通道的數(shù)目。傳統(tǒng)的通道注意力模塊忽略了同一個通道不同位置的相互關(guān)系,為了得到不同通道間的相互關(guān)系,將F通過變形轉(zhuǎn)換變?yōu)閮蓚€二維矩陣S和M,S的維數(shù)是C×N,M的維度是N×C,其中N=H×W。然后,矩陣S與M進行矩陣乘法,得到通道自注意力矩陣M',通道自注意力矩陣M'中的元素m'ij的計算如式(1)所示:

      圖2 通道自注意力模塊Fig.2 Channel self-attention module

      表達了通道i和通道j之間細化的通道關(guān)系,該值越大,說明兩個通道之間的聯(lián)系越緊密。通過計算同一個通道不同位置的相互關(guān)系,能夠有效獲得通道的上下文語義信息。卷積特征F采用級聯(lián)池化能夠進一步提高特征的判別能力。級聯(lián)池化的思想是首先對特征圖采用重疊的小區(qū)域最大池化,獲得多個小區(qū)域的顯著特征圖,將其構(gòu)成的顯著特征標記為T,T的維數(shù)是H/r×W/r×C,r為特征圖縮小的倍數(shù)。對該顯著特征再均值池化,得到輸出通道信息,將其構(gòu)成的矩陣標記為G,維數(shù)是1×C。相關(guān)矩陣M'的維數(shù)為C×C,將M'和G相乘,得到融入了上下文依賴關(guān)系的顯著通道信息,經(jīng)過激活函數(shù)映射輸出通道權(quán)重ωc,ωc的計算如式(2)所示,gi為矩陣G的元素:

      ωc再與特征圖F進行矩陣乘法運算,得到融合了通道信息和相關(guān)信息的特征圖J,J的計算如式(3)所示:

      2.2.2 空間自注意力

      高層特征的位置可以看作是圖像上相同區(qū)域?qū)Σ煌矸e核的響應,因此提出了一個空間自注意力模塊,加強不同區(qū)域之間的關(guān)系??臻g自注意力模塊通過空間權(quán)重來增強感興趣的特定目標區(qū)域,并弱化不相關(guān)的背景區(qū)域,從而改進特征描述能力。空間自注意力模塊如圖3 所示。

      圖3 空間自注意力模塊Fig.3 Spatial self-attention module

      根據(jù)CNN 局部感受野的特點,特征圖上的值反映了H×W個局部小塊位置的信息,通過計算位置之間的相關(guān)性來反映不同位置之間的關(guān)系。為了更直觀地獲得位置信息,將三維張量F通過變形和轉(zhuǎn)置轉(zhuǎn)換為兩個二維矩陣Q和K,Q的維數(shù)是N×C,K的維數(shù)是C×N,其中N=H×W。然后,求S的空間自注意力矩陣S',相關(guān)矩陣中的元素s'ij的計算如式(4)所示:

      反映了位置i和位置j之間細化的位置關(guān)系,該值越大,說明兩個位置之間越相關(guān)。通過計算同一個位置不同通道的相互關(guān)系,能夠有效獲得距離較遠位置的依賴關(guān)系。此外,為了得到F的顯著空間信息,對F對應的空間向量進行級聯(lián)池化,先對F的通道維度進行重疊區(qū)域的最大池化,獲得多個小區(qū)域的顯著特征圖,將其構(gòu)成的顯著特征標記為B,B的維數(shù)是H×W×C/r,r為特征圖縮小的倍數(shù)。對這些顯著特征再均值池化,得到輸出空間信息,求得顯著空間信息構(gòu)成的矩陣為P,其維度為H×W,將其變形為維度為1×N的矩陣E。將S'和E這兩個矩陣相乘,得到融入了位置相關(guān)性的顯著空間信息,經(jīng)過激活函數(shù)σ映射得到空間權(quán)重ωs,ωs的計算如式(5)所示,ei為矩陣E的元素:

      空間權(quán)重ωs再 與特征圖F進行矩陣乘法運算,得到融合了空間信息和相關(guān)信息的特征圖Z,Z的計算如式(6)所示:

      2.3 特征優(yōu)化

      在ResNet50 中添加基于級聯(lián)池化的自注意力模塊提取判別能力強的特征,但是特征維數(shù)過高,依然存在冗余,因此需要對特征進行降維。KSH 是一種監(jiān)督核哈希方法,其目標是將數(shù)據(jù)映射為緊湊的二進制哈希碼。該方法在避免特征高維度的同時,提高類內(nèi)的相似性,并擴大類間的差異性,在計算相似度學習的任務中,可以有效地提高特征的判別能力。

      2.4 時間效率分析

      本文提出的方法主要由ResNet50、基于級聯(lián)池化的自注意力、KSH 算法組成,總體復雜度為三者復雜度之和。ResNet50 的時間復雜度為,其中,n為訓練樣本數(shù),D為網(wǎng)絡的卷積層數(shù),l為第l個卷積層,P為卷積核輸出特征圖的邊長,K為卷積核的邊長,Cl為網(wǎng)絡第l層的輸出通道數(shù),Cl-1為網(wǎng)絡第(l-1)層的輸出通道數(shù)。通道自注意力的時間復雜度為O(nC2HW),空間自注意力矩陣的時間復雜度為O(nCH2W2)。KSH 訓練的時間復雜度為O((nm+p2m+m2p+m3)b)[20],其中m為隨機均勻選取樣本數(shù),用于得到基于核的哈希函數(shù),p為監(jiān)督學習樣本數(shù),b為哈希碼位數(shù),其中n>>p>m,注意力模塊只加在最后一個池化層之前,因此整體的模塊參數(shù)增加量較少。

      3 實驗及結(jié)果分析

      為了驗證本文方法的有效性,在不同分辨率、不同尺寸的高分辨遙感數(shù)據(jù)集上進行實驗,與其他注意力機制方法和遙感圖像檢索方法進行對比與分析。實驗框架為Pytorch1.6.0,GPU 為RTX2060s,訓練時每個類別隨機抽取80% 的圖像作為訓練集,剩下20%的圖像作為測試集,采用的優(yōu)化器為隨機梯度下降,學習率為0.0035,動量為0.9,學習率衰減系數(shù)為0.1。

      3.1 數(shù)據(jù)集以及評價指標介紹

      本文選用 UC Merced 數(shù)據(jù)集[24]、AID 數(shù)據(jù)集[25]和NWPU-RESISC45 數(shù)據(jù)集[26]進行實驗。圖4 中顯示了UC Merced 數(shù)據(jù)集、AID 數(shù)據(jù)集與NWPURESISC45 數(shù)據(jù)集的部分示例圖像。UC Merced 數(shù)據(jù)集包含21 個類別,每個類別100 張圖像,每張圖像的大小是256 pixels×256 pixels,圖像的分辨率為0.3 m。AID 數(shù)據(jù)集包含30 個類別,每個類別圖像數(shù)量從220~400 張不等,一共有10000 張,每張圖像的大小是600 pixels×600 pixels,圖像的分辨率介于 0.5 m~8.0 m 之間。NWPU-RESISC45 數(shù)據(jù)集包含45 個類別,每個類別700 張圖像,每張圖像的大小是256 pixels×256 pixels,圖像的分辨率介于0.2 m~30 m 之間。采用平均精度均值(mean average precision,mAP,在式用A表示) 和P@k對檢索結(jié)果進行評價。mAP是圖像檢索算法的主要評估指標,是所有查詢圖像平均精度的平均值,圖像與查詢圖像的相關(guān)性越高,它的排名就越高。P@k則關(guān)注前k幅檢索結(jié)果中相關(guān)圖像的數(shù)量(NR)。具體計算結(jié)果如式(7),式(8) 和式(9)所示。

      圖4 示例圖像。(a) UC Merced 數(shù)據(jù)集示例圖像;(b) AID 數(shù)據(jù)集示例圖像;(c) NWPU-RESISC45 數(shù)據(jù)集示例圖像Fig.4 Sample images.(a) Sample images of the UC Merced data set;(b) Sample images of the AID data set;(c) Sample images of the NWPU-RESISC45 data set

      其中:Q為查詢圖像的總數(shù),P(k)為當前檢索出來k個結(jié)果的準確率,rel(k)表示第k個檢索結(jié)果是否與查詢圖像有關(guān),1 表示有關(guān),0 表示無關(guān)。N表示檢索出來的圖像數(shù)量。

      3.2 不同注意力方法的比較

      為了驗證自注意力模塊的有效性,在不同數(shù)據(jù)集上與CBAM 和DANet 注意力進行比較。表1 和圖5分別顯示了不同注意力模塊的mAP 值和P@k值,ResNet50 為基礎網(wǎng)絡模型,ResNet50_CBAM 為基于CBAM 的ResNet50 網(wǎng)絡,ResNet50_DANet 為基于DANet 的ResNet50 網(wǎng)絡,ResNet50_CSM (ResNet50_channel self-attention module)為基于通道自注意力模塊的ResNet50 網(wǎng) 絡,ResNet50_SSM (ResNet50_spatial self-attention module)為基于空間自注意力模塊的ResNet50 網(wǎng)絡,ResNet50_DSM (ResNet50_dual self-attention module)為基于雙重自注意力模塊的ResNet50 網(wǎng)絡,自注意力模塊中均使用的是全局平均池化。提取的特征為網(wǎng)絡中最后一個卷積層的特征,為了更直觀地對比不同注意力模塊之間的性能,對該特征沒有進行降維。

      由表1 可以發(fā)現(xiàn),在UC Merced 數(shù)據(jù)集中,ResNet50_DSM 使mAP 值 從ResNet50 的91.17%提升到92.67%,提升了1.5%;在AID 數(shù)據(jù)集中,ResNet50_DSM 使mAP 值 從ResNet50 的87.35%提升到93.48%,提升了6.13%;在NWPU-RESISC45數(shù)據(jù)集中,ResNet50_DSM 使mAP 值從ResNet50 的60.07%提升到78.28%,提升了18.21%。由圖5 可知,在不同的數(shù)據(jù)集中,ResNet50_DSM 的P@k值均高于ResNet50_CSM 和ResNet50_SSM,提升效果比單個自注意力模塊要好。

      從不同的實驗結(jié)果可以看出,注意力模塊對特征的表達有明顯的提升,并且數(shù)據(jù)集越復雜提升效果越明顯。多個注意力模塊結(jié)合效果比單一的注意力模塊效果更好,這是因為通道域和空間域的注意力模塊通過不同的域?qū)μ卣鬟M行加權(quán),有效降低背景信息的干擾。ResNet50_DSM 與其他注意力模塊相比較,同樣存在優(yōu)勢。由表1 可以看到,在AID 和NWPURESISC45 數(shù)據(jù)集中,ResNet50_DSM 的mAP 值均大于ResNet50_DANet 和ResNet50_CBAM 的mAP 值;在UC Merced 數(shù)據(jù)集中,ResNet50_DSM 的mAP 值大于ResNet50_DANet,但是小于ResNet50_CBAM的mAP 值。圖5 中的P@k值比較出現(xiàn)了與mAP 值類似的趨勢,這是因為自注意力模塊不僅可以在通道和空間上進行特征響應,而且還考慮同一個通道之間的位置關(guān)系,以及同一個位置的通道關(guān)系,而且自注意力模塊更擅長捕捉特征的內(nèi)部相關(guān)性,當特征量偏少的時候,捕捉特征內(nèi)部相關(guān)性的能力會有所減弱;當特征量足夠的時候,捕捉特征內(nèi)部相關(guān)性的能力就可以充分體現(xiàn)。相比于CBAM,DSM 關(guān)注特征上下文依賴關(guān)系,細節(jié)信息更豐富;相比于DANet,DSM 在細化特征關(guān)注度的基礎上,減少了參數(shù)的冗余,從而提高了模型的泛化能力。

      表1 不同注意力模塊的mAP 值Table 1 mAP value of different attention modules

      圖5 不同注意力模塊的P@k 值Fig.5 P@k value of different attention moduless

      3.3 不同池化方法的比較

      為了驗證級聯(lián)池化和全局均值池化兩種方法對自注意力模塊的影響,在不同的數(shù)據(jù)集上使用不同的池化方法,mAP 值結(jié)果如表2 所示。ResNet50_CPCSM(ResNet50_cascade pooling channel self-attention module)為基于級聯(lián)池化通道自注意力模塊的ResNet50 網(wǎng)絡,ResNet50_CPSSM (ResNet50_cascade pooling spatial self-attention module)為基于級聯(lián)池化空間自注意力模塊的ResNet50 網(wǎng)絡,ResNet50_CPSM(ResNet50_cascade pooling self-attention module)為基于級聯(lián)池化自注意力模塊的ResNet50 網(wǎng)絡。

      由表2 可知,在不同的數(shù)據(jù)集中,ResNet50_CPCSM 的mAP 值高于ResNet50_CSM;ResNet50_CPSSM 的mAP 值高于ResNet50_SSM;ResNet50_CPSM 的值高于ResNet50_DSM。因此,在不同的注意力中,級聯(lián)池化的結(jié)果優(yōu)于全局均值池化。圖6 顯示了不同池化方法的P@k值。從圖6 可以看到,在不同數(shù)據(jù)集中,k取不同值的時候,ResNet50_CPSM的P@k值都明顯高于ResNet50_DSM 的P@k。由不同的實驗結(jié)果可以得到,在其他條件相同的情況下,采用級聯(lián)池化方式的自注意力模塊檢索效果優(yōu)于全局均值池化方式的自注意力模塊的檢索效果。與普通的光學圖像不同,遙感圖像主要是自然地理場景信息,內(nèi)容豐富,信息復雜,而且遙感圖像因為拍攝角度和位置的原因,圖像上的很多關(guān)鍵信息尺寸不會太大,普通全局池化均不能較好地對特征進行采樣。全局最大池化可以提取特征圖中關(guān)鍵特征,但是忽略了一些重要的細節(jié)信息,而且容易受噪聲干擾,全局平均池化可以綜合所有特征,但是不能有效提取顯著特征。級聯(lián)池化是對特征圖進行重疊區(qū)域的最大池化,提取重疊區(qū)域顯著特征,然后對顯著特征進行平均池化。因此級聯(lián)池化綜合了最大池化和平均池化的優(yōu)點,有效地減少遙感圖像特征的冗余信息,同時也能保留一些區(qū)分度明顯的特征信息。綜合表1 和表2 可知,ResNet50_DSM 的性能明顯優(yōu)于ResNet50_DANet,尤其是在較大的數(shù)據(jù)集AID 和NWPU-RESISC45 中,ResNet50_DSM 的mAP 值也略高于ResNet50_CBAM。引入級聯(lián)池化的ResNet50_CPSM,其檢索性能相比ResNet50_DSM 得到進一步提升,ResNet50_CPSM的mAP 值在三個數(shù)據(jù)集上均超過了ResNet50_DANet 和ResNet50_CBAM,因此結(jié)合級聯(lián)池化的自注意力模塊檢索結(jié)果最好。

      表2 不同池化方法的mAP 值Table 2 mAP value of different pooling methods

      圖6 不同池化方法的P@k 值Fig.6 P@k value of different pooling methods

      3.4 不同降維方法的比較

      CNN 特征維數(shù)較高,存在一定的冗余信息,特征降維能夠進一步優(yōu)化CNN 特征。

      為了驗證不同的降維方法的效果和性能,使用PCA、線性判別分析(linear discriminant analysis,LDA)[27]和KSH 進行對比,在UC Merced 數(shù)據(jù)集上使用級聯(lián)池化自注意力網(wǎng)絡提取特征,并對該特征采用不同方法進行降維,得出不同方法的mAP 值和每幅圖片平均檢索時間,具體結(jié)果如表3 所示。LDA方法降維的最大維度數(shù)為類別數(shù)減一,因此維度只能降到20。由表3 可知,降維到20 維度的時候,LDA方法比KSH 的mAP 值要高0.64%,比PCA 的mAP值要高2.22%,但是平均檢索時間明顯慢于PCA 和KSH;降維到64 維度的時候,KSH 方法比PCA 的mAP 值高4.67%,而且平均檢索時間要快于PCA。綜合mAP 值和平均檢索時間,KSH 方法的檢索性能較好。

      表3 不同降維方法的比較Table 3 Comparison of different dimensionality reduction methods

      3.5 與其他方法的比較

      為了評估本文方法的泛化能力,在不同的數(shù)據(jù)集上進行實驗,并與其他圖像檢索方法進行比較。表4、表5、表6 分別是UC Merced 數(shù)據(jù)集、AID 數(shù)據(jù)集、NWPU-RESISC45 數(shù)據(jù)集的實驗結(jié)果,其中ResNet50_CPSM_KSH 是指對ResNet50_CPSM 提取的特征使用KSH 降維。

      表4 UC Merced 數(shù)據(jù)集中不同方法的比較Table 4 Comparison of different methods on UC Merced data set

      表5 AID 數(shù)據(jù)集中不同方法的比較Table 5 Comparison of different methods on AID data set

      表6 NWPU-RESISC45 數(shù)據(jù)集不同方法比較Table 6 Comparison of different methods on NWPU-RESISC45 data set

      在UC Merced 數(shù)據(jù)集中,本文方法的mAP 值相比于大多數(shù)其他方法的mAP 值高,比FAH (featureand hash)[33]方法僅低0.07%,因此在該小規(guī)模數(shù)據(jù)集上的檢索性能較好。在NWPU-RESISC45 數(shù)據(jù)集和AID 數(shù)據(jù)集中,本文方法都有效提高了遙感圖像檢索的準確率,特別是,本文方法的mAP 值比FAH 方法分別提高了3.21%和24.12%。

      因此,基于級聯(lián)池化自注意力的方法在多種不同規(guī)模的數(shù)據(jù)集中均能取得較優(yōu)的檢索結(jié)果,尤其是在圖像類別數(shù)目較多的大規(guī)模數(shù)據(jù)集中,檢索準確率的提升效果更為明顯。

      4 結(jié) 論

      本文針對遙感圖像同一類圖像具有較大的差異,不同類別的圖像之間存在一定相似性的問題,提出一種基于級聯(lián)池化自注意力的遙感圖像檢索方法。該方法通過級聯(lián)池化和自注意力來優(yōu)化網(wǎng)絡結(jié)構(gòu),級聯(lián)池化綜合了最大池化和平均池化的優(yōu)點,自注意力能自適應地聯(lián)系上下文信息對顯著特征圖加權(quán),使得學習到的特征具有更強的判別性。CNN 特征的維數(shù)較高,因此還采用KSH 對特征進行降維,進一步提高特征的性能。實驗結(jié)果表明,通過級聯(lián)池化自注意力網(wǎng)絡提取的遙感圖像特征判別能力強,在不同的數(shù)據(jù)集上都具有較高的檢索精度。與其他的遙感圖像檢索方法相比,本文方法表現(xiàn)出較優(yōu)的檢索性能。

      猜你喜歡
      池化級聯(lián)注意力
      基于緊湊型雙線性網(wǎng)絡的野生茵識別方法研究
      無線電工程(2024年8期)2024-09-16 00:00:00
      基于Sobel算子的池化算法設計
      讓注意力“飛”回來
      卷積神經(jīng)網(wǎng)絡中的自適應加權(quán)池化
      軟件導刊(2022年3期)2022-03-25 04:45:04
      基于卷積神經(jīng)網(wǎng)絡和池化算法的表情識別研究
      “揚眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      級聯(lián)LDPC碼的STBC-OFDM系統(tǒng)
      電子制作(2016年15期)2017-01-15 13:39:09
      A Beautiful Way Of Looking At Things
      基于級聯(lián)MUSIC的面陣中的二維DOA估計算法
      LCL濾波器在6kV級聯(lián)STATCOM中的應用
      電測與儀表(2014年1期)2014-04-04 12:00:34
      武山县| 公主岭市| 公安县| 五指山市| 广平县| 商南县| 林口县| 缙云县| 郓城县| 海原县| 历史| 徐闻县| 河曲县| 石狮市| 万载县| 聊城市| 渝北区| 株洲市| 措美县| 云阳县| 龙南县| 青阳县| 锡林浩特市| 昂仁县| 冷水江市| 电白县| 清苑县| 任丘市| 黄浦区| 沙湾县| 黄石市| 开平市| 剑川县| 岳西县| 科尔| 黄山市| 延津县| 阿拉善右旗| 石家庄市| 称多县| 龙泉市|