• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      聯(lián)合一二階池化網(wǎng)絡學習的遙感場景分類

      2022-07-05 09:02:12邊小勇費雄君陳春芳闞東東丁勝
      計算機應用 2022年6期
      關鍵詞:池化協(xié)方差特征向量

      邊小勇,費雄君,陳春芳,闞東東,丁勝

      聯(lián)合一二階池化網(wǎng)絡學習的遙感場景分類

      邊小勇1,2,3*,費雄君1,陳春芳1,闞東東1,丁勝1,2,3

      (1.武漢科技大學 計算機科學與技術學院,武漢 430065; 2.武漢科技大學 大數(shù)據(jù)科學與工程研究院,武漢 430065; 3.智能信息處理與實時工業(yè)系統(tǒng)湖北省重點實驗室(武漢科技大學),武漢 430065)(*通信作者電子郵箱xyongwh04@163.com)

      目前大多數(shù)池化方法主要是從一階池化層或二階池化層提取聚合特征信息,忽略了多種池化策略對場景的綜合表示能力,進而影響到場景識別性能。針對以上問題,提出了聯(lián)合一二階池化網(wǎng)絡學習的遙感場景分類模型。首先,利用殘差網(wǎng)絡ResNet-50的卷積層提取輸入圖像的初始特征。接著,提出基于特征向量相似度的二階池化方法,即通過特征向量間的相似度求出其權(quán)重系數(shù)來調(diào)制特征值的信息分布,并計算有效的二階特征信息。同時,引入一種有效的協(xié)方差矩陣平方根逼近求解方法,以獲得高階語義信息的二階特征表示。最后,基于交叉熵和類距離加權(quán)的組合損失函數(shù)訓練整個網(wǎng)絡,從而得到富于判別性的分類模型。所提方法在AID(50%訓練比例)、NWPU-RESISC45 (20%訓練比例)、CIFAR-10和CIFAR-100數(shù)據(jù)集上的分類準確率分別達到96.32%、93.38%、96.51%和83.30%,與iSQRT-COV方法相比,分別提高了1.09個百分點、0.55個百分點、1.05個百分點和1.57個百分點。實驗結(jié)果表明,所提方法有效提高了遙感場景分類性能。

      遙感場景分類;深度學習;一階池化;二階池化;協(xié)方差矩陣平方根

      0 引言

      遙感圖像場景分類是將航空或衛(wèi)星圖像按照不同的特征劃分為土地利用類的集合。在過去的幾十年里,遙感圖像場景分類引起了大量的關注,廣泛地應用于圖像檢索、土地資源利用和土地覆蓋監(jiān)測等任務中。但由于類內(nèi)存在大的多樣性,類間存在高的相似性,同時受平移、視點、空間分辨率、旋轉(zhuǎn)、姿態(tài)、背景和遮擋等多種變化的影響,使得遙感圖像場景分類任務依然面臨挑戰(zhàn)。

      近年來,由于卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)在各種圖像任務中取得了突破性的進展,基于CNN的方法層出不窮,在包括場景分類在內(nèi)的遙感領域中占據(jù)了主導地位。傳統(tǒng)的CNN僅使用全連接層對特征圖進行分類,如AlexNet[1]、VGG(Visual Geometry Group)[2]等,而全連接層容易過擬合。針對以上問題,Lin等[3]提出在卷積層和全連接層中間使用全局平均池化(Global Average Pooling, GAP)層來防止過擬合,同時加強特征圖和類別信息之間的對應關系,在多個圖像分類任務中取得了不錯的效果;但是,通過GAP計算得到的特征統(tǒng)計量受特征圖中頻繁出現(xiàn)的描述符影響較多,受罕見但信息量高的描述符影響較少,對特征圖的表示能力存在一定的局限性。針對以上問題,Murray等[4]提出廣義最大池化(Generalized Max Pooling,GMP),迫使池化層輸入和輸出的外積是常量,更好地使用特征圖中頻繁出現(xiàn)和攜帶高信息量的描述符。Xie等[5]提出任務驅(qū)動池化(Task-Driven Pooling, TDP),將表示學習和分類器訓練結(jié)合在一個統(tǒng)一的框架中,能夠針對不同的輸入特征圖使用不同的池化策略,是一種有監(jiān)督的池化方法。Wu等[6]將廣義最大池化和TDP兩種池化方法嵌入到CNN中,并融合不同卷積層特征圖的池化結(jié)果進行分類,在遙感圖像場景分類任務中取得了不錯的效果。此外,針對CNN僅支持對固定尺寸輸入圖像進行處理的問題,He等[7]提出空間金字塔池化網(wǎng)絡(Spatial Pyramid Pooling Network,SPP-Net),通過將特征圖分割成多個不同尺寸的網(wǎng)格,然后對每個網(wǎng)格進行最大池化,使CNN對任意尺寸輸入圖像都能夠得到固定長度的特征表示,在多個圖像分類和目標檢測任務中取得了不錯的成績。以上池化方法能夠在各自的任務中取得不錯的效果,但是這些方法依舊是通過計算特征的一階統(tǒng)計量得到特征表示,攜帶的特征信息仍然不夠充分。

      最近,基于高階(2階及以上)池化方法的CNN在圖像分類任務中取得了不少進展。Lin等[8]提出了雙線性卷積神經(jīng)網(wǎng)絡(Bilinear-CNN)模型。Bilinear-CNN模型是由兩個特征提取網(wǎng)絡構(gòu)成的體系結(jié)構(gòu),通過不同的特征提取網(wǎng)絡獲得包含不同信息的局部特征,并使用外積對局部特征相互關系進行建模,得到信息量更豐富的特征表示,在細粒度圖像分類任務中取得了不錯的成績。Li等[9]提出矩陣能量歸一化協(xié)方差(Matrix Power Normalized COVariance, MPN-COV),采用協(xié)方差池化計算特征的高階統(tǒng)計量,并對協(xié)方差矩陣進行矩陣冪規(guī)范化,提取特征圖的高階特征表示,提高了CNN在ImageNet數(shù)據(jù)集上的分類精度。盡管MPN-COV取得了不錯的效果,但是在矩陣冪規(guī)范化的計算過程中需要對協(xié)方差矩陣進行奇異值分解,而在GPU上沒有矩陣奇異值分解的高效實現(xiàn)。針對以上問題,Li等[10]提出迭代矩陣平方根歸一化的協(xié)方差池化(iterative matrix SQuare RooT normalization of COVariance pooling,iSQRT-COV),使用牛頓迭代法對協(xié)方差矩陣進行矩陣冪規(guī)范化的方法,并應用到CNN的前向傳遞和反向傳播中,有效提高了MPN-COV的計算效率。此外,高階池化也經(jīng)常同其他深度學習方法結(jié)合使用。Wang等[11]基于高階池化方法提出門限混合的二階池化(Gated Mixture of Second-Order Pooling,GM-SOP),通過稀疏門控模塊自適應地為輸入樣本選擇多個候選樣本,并在門控模塊中使用參數(shù)化協(xié)方差矩陣計算特征圖的高階特征表示,最后對所有候選樣本進行加權(quán)求和,在小尺度ImageNet數(shù)據(jù)集上取得了不錯的結(jié)果。Kim等[12]提出雙線性注意力網(wǎng)絡(Bilinear Attention Network, BAN),在輸入的兩個通道群組中用雙線性交互,提取兩個通道的聯(lián)合表示,盡可能地利用視覺和語言信息,為多模態(tài)學習提供了一種有效學習視覺信息的方法。He等[13]提出高階自注意力(High-order Self-Attention, HoSA)網(wǎng)絡,將高階注意力模塊嵌入到CNN中,提取高階注意力特征,并使用高階池化得到特征的高階統(tǒng)計量,在遙感場景分類任務中取得了較好的效果。薛永杰等[14]等提出一種基于長短期記憶(Long Short-Term Memory, LSTM)神經(jīng)網(wǎng)絡和CNN的融合深度神經(jīng)網(wǎng)絡室內(nèi)場景識別方法,使用基于注意力機制的LSTM模型融合CNN模型進行分類。以上方法雖然取得了不錯的性能,但是這些方法缺少針對性,針對遙感場景的復雜性需重新設計和優(yōu)化。另外,二階池化描述了特征向量間的相互關系,能夠得到特征間的相似性信息。

      針對以上問題,本文在筆者前期工作[15]的基礎上,提出了聯(lián)合一二階池化模塊以及基于特征向量相似度的二階池化方法。不同于MPN-COV中基于協(xié)方差矩陣計算特征向量的二階信息,本文針對遙感場景中存在多個小對象且對象間相關性程度不同的特點,提出基于特征向量相似度的二階池化方法;然后,將一階池化特征融入二階池化特征學習中,以獲得更富判別性的特征表示用于遙感場景分類。本文主要工作如下:1)給出了聯(lián)合一二階池化模塊,將一階池化和二階池化融入統(tǒng)一的框架中進行學習;2)提出了基于特征向量相似度的二階池化方法,獲得語義信息更豐富的二階信息;3)引入了一種有效的協(xié)方差矩陣平方根逼近求解方法,以保證網(wǎng)絡模型的收斂性和穩(wěn)定性。

      1 聯(lián)合一二階池化網(wǎng)絡學習

      基于協(xié)方差矩陣的二階池化僅使用特征值的平均值函數(shù)計算特征向量間的協(xié)方差矩陣獲得二階池化特征,具有更豐富的語義信息,而一階池化特征較好地保留了特征的空間信息。受此啟發(fā),本文提出了聯(lián)合一二階池化模塊和基于特征向量相似度的二階池化方法,并以此為基礎構(gòu)建了聯(lián)合一二階池化網(wǎng)絡,如圖1所示。聯(lián)合一二階池化網(wǎng)絡利用卷積層、殘差塊等結(jié)構(gòu)提取輸入圖像的高級特征,分別通過基于特征向量相似度的二階池化和一階池化得到輸出特征的二階信息和一階信息,并聯(lián)合一階和二階特征信息對遙感場景進行分類預測。其中,基于特征向量相似度的二階池化通過特征向量間的相似度獲得其權(quán)重信息來調(diào)制特征值的信息分布,從而獲得富含語義信息的二階特征表示。本文方法有效聚合了一階池化特征的特征空間信息和二階池化特征的特征向量間相互關系,獲得更富判別性的場景表示。

      圖1 聯(lián)合一二階池化網(wǎng)絡學習的遙感場景分類

      1.1 總體網(wǎng)絡結(jié)構(gòu)

      1.2 聯(lián)合一二階池化模塊

      常用的一階池化方法包括全局最大池化、全局平均池化、GMP和TDP等。其中,全局最大池化僅保留每個特征通道上信息量最高的特征值,丟失了大量的特征信息。全局平均池化對特征圖空間信息進行了匯總,對輸入圖像中存在的空間轉(zhuǎn)換具有較好的適應性。廣義最大池化和TDP雖然能夠平衡頻繁出現(xiàn)的特征和高信息量的特征對池化結(jié)果的影響,但不能端到端學習。一階池化特征匯總了特征向量的空間信息,而二階池化特征包含了描述特征向量間潛在的相關性信息,自然地,它們具有一定的互補性。

      然后,將一階特征表示和二階特征表示M在列上堆疊,得到聯(lián)合特征表示。由于二階特征表示M是一個對稱矩陣,為了避免特征重復,減少網(wǎng)絡參數(shù),本文僅提取M的上三角特征和V組成最終的特征表示,最終的特征維度為的向量,輸入到分類層。

      1.3 基于特征向量相似度的二階池化

      二階池化特征主要通過計算特征向量間的協(xié)方差得到特征圖的二階統(tǒng)計信息[9]。現(xiàn)有二階池化方法中的協(xié)方差矩陣計算過程是先利用中心化矩陣對輸入特征矩陣進行去均值處理,再乘上自身的轉(zhuǎn)置,得到輸入特征矩陣的協(xié)方差矩陣?,F(xiàn)有二階池化方法的中心化矩陣計算采用了固定參數(shù),忽略了特征間潛在的重要性信息。針對此問題,本節(jié)提出了基于特征向量相似度的二階池化方法,包括中心化矩陣計算、二階特征計算及其逼近求解。

      1.3.1 中心化矩陣計算

      矩陣中心化是求解協(xié)方差矩陣的重要計算過程,矩陣中心化參數(shù)在協(xié)方差矩陣計算過程中起著調(diào)制特征值信息量的作用。不同于以往矩陣中心化計算過程中以特征向量的均值為中心點、平等對待每個維度特征的做法,本文基于特征向量的格拉姆矩陣,經(jīng)過規(guī)范化處理和激活函數(shù)后能夠得到每個特征向量本身及其相互之間的重要性信息,這些信息使得在矩陣中心化過程中,不同維度特征具有不同的權(quán)重,為每組特征向量中心化提供一個基準。其中,格拉姆矩陣對角線上的元素表示每個特征向量攜帶的信息量,其他元素則描述了特征向量之間的相似性。具體來說,對于輸入矩陣,首先,根據(jù)下式計算特征矩陣的格拉姆矩陣:

      1.3.2 二階特征計算

      根據(jù)中心化矩陣計算二階特征,公式如下:

      1.3.3 協(xié)方差特征逼近求解

      1.3.4 更高階池化特征推導

      1.4 損失函數(shù)

      傳統(tǒng)的交叉熵損失沒有考慮不同類別之間的距離[17]。針對類不平衡的數(shù)據(jù)集,本文將其類別標簽按樣本數(shù)從小到大排序,樣本數(shù)量越少標簽越小,并引入樣本距離加權(quán)的損失函數(shù),與交叉熵損失一起構(gòu)成組合損失,減少損失值和精度的反差(損失越小精度反而降低),并改進模型收斂性。組合的損失函數(shù)計算公式為:

      其中:表示樣本的真實標簽;表示網(wǎng)絡模型的輸出向量;表示類別數(shù)。距離加權(quán)的損失函數(shù)定義了預測類別和實際標簽的差值來計算不平衡類間的差距,有助于模型收斂,獲得更好的分類結(jié)果。

      2 實驗與分析

      本文實驗基于Pytorch框架,使用NVIDIA Tesla V100進行網(wǎng)絡訓練,在Ubuntu v16系統(tǒng)上進行實驗驗證。

      2.1 數(shù)據(jù)集與實驗設置

      在大尺度遙感圖像場景數(shù)據(jù)集AID[18]和NWPU-RESISC45[19],以及自然場景數(shù)據(jù)集CIFAR-10、CIFAR-100[20]上進行實驗驗證。數(shù)據(jù)集AID包含30個類別,總共有10 000幅圖像。該場景數(shù)據(jù)集具有從大約8 m到0.5 m的不同分辨率,每幅圖像的大小被固定為600像素×600像素大小,以覆蓋各種不同分辨率的場景。NWPU-RESISC數(shù)據(jù)集包含45個類別,每類有700幅圖像,每幅圖像的大小被固定為256像素×256像素大小,總共有31 500幅圖像,且空間分辨率從每像素約30 m到0.2 m不等。CIFAR-10和CIFAR-100都有60 000幅圖像,每幅圖像的大小為32像素×32像素大小,訓練集和測試集劃分為5∶1,前者有10類每類包括6 000幅圖像,而后者有100類,每類只有600幅圖像。圖3給出了AID數(shù)據(jù)集的示例圖像。

      實驗中,將輸入圖像尺寸調(diào)整為224×224,并進行預處理,包括隨機翻轉(zhuǎn)、歸一化等方法。本文使用隨機梯度下降(Stochastic Gradient Descent, SGD)優(yōu)化器,初始學習率為0.001,動量為0.9,權(quán)重衰減為0.000 5,牛頓-舒爾茨迭代次數(shù)設置為3。使用ImageNet預訓練模型進行微調(diào),批處理大小為16,網(wǎng)絡完全訓練90次,每訓練30次將學習率乘0.1。組合損失函數(shù)中的在AID數(shù)據(jù)集上設置為1,其他數(shù)據(jù)集為0。實驗結(jié)果取5次隨機劃分的平均準確率。

      2.2 不同方法的實驗對比

      為驗證本文方法的有效性,首先將它與其他不同池化方法進行對比實驗。由于大多數(shù)池化方法沒有在場景數(shù)據(jù)集上的分類性能報告,本文根據(jù)相關文獻中的實驗配置和開源代碼在場景數(shù)據(jù)集上進行實驗,得到相應的分類準確率,這些方法在表格中用*標明。例如,殘差網(wǎng)絡ResNet-50[21]。與跳躍協(xié)方差(Skip-Connected Covariance, SCCov)網(wǎng)絡[22]、寬殘差網(wǎng)絡(深度28,寬度因子10,WRN-28-10)[23]、擠壓-激勵的寬殘差網(wǎng)絡(SE-WRN)[24]、Gabor卷積網(wǎng)絡(GCN)[25]上的實驗結(jié)果進行了引用對比。為了簡化說明,本文方法統(tǒng)稱為Ours(GAP+SOP)。按照2.1節(jié)的實驗配置,聯(lián)合一二階池化網(wǎng)絡學習在AID、NWPU-RESISC45、CIFAR-10和CIFAR-100上的實驗結(jié)果分別如表1、2所示。

      由表1的實驗結(jié)果可知,本文提出的聯(lián)合一二階池化網(wǎng)絡學習的場景分類方法在AID數(shù)據(jù)集50%訓練比例的條件下獲得了96.32%的分類準確率,與單獨的一階池化方法GMP和TDP相比,準確率分別提高了2.34和2.09個百分點;與單獨的二階池化方法iSQRT-COV相比,準確率提高了1.09個百分點;與SCCov池化網(wǎng)絡方法相比,準確率提高了0.22個百分點。以上結(jié)果表明,聯(lián)合一二階池化網(wǎng)絡提取的特征攜帶的有效信息優(yōu)于單獨的一階池化特征和二階池化特征,有助于提高CNN的分類性能。

      圖3 AID數(shù)據(jù)集的示例圖像

      表1 大尺度遙感圖像場景數(shù)據(jù)集上的分類準確率對比 單位: %

      本文方法在NWPU-RESISC45數(shù)據(jù)集20%訓練比例的條件下的準確率達到了93.38%,與GMP和TDP相比,準確率分別提高了1.99和1.93個百分點;與iSQRT-COV方法相比,準確率提高了0.55個百分點;與SCCov方法相比,準確率提高了1.28個百分點。本文方法在NWPU-RESISC45數(shù)據(jù)集20%訓練比例上的混淆矩陣如圖4所示。以上結(jié)果說明了本文方法的有效性。

      為進一步驗證本文方法的有效性,表2給出了本文方法在CIFAR-10和CIFAR-100數(shù)據(jù)集上的實驗結(jié)果。由表2中數(shù)據(jù)可知,本文方法在CIFAR-10和CIFAR-100數(shù)據(jù)集上的分類準確率分別達到了96.51%和83.30%,與經(jīng)典CNN結(jié)構(gòu)VGG16相比,準確率分別提高了2.83、11.79個百分點;與WRN-28-10方法相比,準確率分別提高了0.4和3.11個百分點;與基于注意力的SE-WRN方法相比,準確率分別提高了0.3、2.91個百分點;與GCN方法相比,準確率分別提高了0.39和3.43個百分點。以上結(jié)果表明,本文提出的聯(lián)合一二階池化網(wǎng)絡學習方法在自然圖像數(shù)據(jù)集上是有效的。

      表2 自然場景數(shù)據(jù)集上的分類準確率對比 單位: %

      2.3 消融實驗

      為進一步驗證本文提出的聯(lián)合一二階池化模塊和二階池化計算方法的有效性,分別使用一階池化、二階池化和聯(lián)合一二階池化模塊進行實驗。實驗以ResNet-50網(wǎng)絡作為基礎網(wǎng)絡,不同方法組合的實驗結(jié)果如表3所示。由表3可知,本文聯(lián)合一二階池化網(wǎng)絡分類結(jié)果要優(yōu)于單獨使用一階池化方法Ours(GAP)和二階池化方法Ours(SOP):在AID數(shù)據(jù)集50%訓練比例的條件下,準確率分別提高了0.83和0.30個百分點;在NWPU-RESISC45數(shù)據(jù)集20%訓練比例的條件下,準確率分別提高了1.42和0.20個百分點;在CIFAR-10數(shù)據(jù)集上的準確率分別提高了2.94和0.45個百分點;在CIFAR-100數(shù)據(jù)集上的準確率分別提高了8.46和1.03個百分點。同時,本文提出的二階池化模塊(SOP)分類結(jié)果要優(yōu)于iSQRT-COV中所述的二階池化方法,在AID數(shù)據(jù)集50%訓練比例的條件下,準確率提高了0.79個百分點;在NWPU-RESISC45數(shù)據(jù)集20%訓練比例的條件下,準確率提高了0.35個百分點;在CIFAR-10和CIFAR-100數(shù)據(jù)集上準確率分別提高了0.60和0.54個百分點。這說明本文提出的二階池化模塊可以有效地提取區(qū)分特征。從實驗結(jié)果還可以看出,一階池化和二階池化特征信息有一定的互補性,提高了場景分類性能。

      表3 各數(shù)據(jù)集上消融實驗的分類準確率對比 單位: %

      圖4 本文方法在NWPU-RESISC45數(shù)據(jù)集20%訓練比例上的混淆矩陣

      3 結(jié)語

      本文提出了一種有效的二階池化計算方法和聯(lián)合一二階池化學習模塊,并以此為基礎構(gòu)建了聯(lián)合一二階池化網(wǎng)絡的分類模型。其中,基于特征向量相似度的二階池化方法通過特征向量間的相似度獲得其權(quán)重信息,并根據(jù)權(quán)重信息計算特征向量的加權(quán)平均來調(diào)制特征值的信息分布,有效地聚合特征向量,獲得語義信息更豐富的二階特征表示。隨后,聯(lián)合一二階池化模塊進行學習,提取了特征空間匯總信息和特征向量間相互關系的特征表示,提高了特征的區(qū)分能力。在4個基準數(shù)據(jù)集上的實驗結(jié)果驗證了本文方法的有效性。接下來將探索自注意力的高階池化特征提取,并作出改進。

      [1] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]// Proceedings of the 25th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2012:1097-1105.

      [2] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2021-02-17].https://arxiv.org/pdf/1409.1556.pdf.

      [3] LIN M, CHEN Q, YAN S C. Network in network[EB/OL]. (2015-04-10)[2021-02-17].https://arxiv.org/pdf/1312.4400.pdf.

      [4] MURRAY N, PERRONNIN F. Generalized max pooling[C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2014:2473-2480.

      [5] XIE G S, ZHANG X Y, SHU X B, et al. Task-driven feature pooling for image classification[C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2015:1179-1187.

      [6] WU M X, CHENG G, YAO X W, et al. Performance comparison of two pooling strategies for remote sensing image scene classification[C]// Proceedings of the 2019 IEEE International Geoscience and Remote Sensing Symposium. Piscataway: IEEE, 2019: 3037-3040.

      [7] HE K M, ZHANG X Y, REN S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916.

      [8] LIN T Y, RoyCHOWDHURY A, MAJI S. Bilinear CNN models for fine-grained visual recognition[C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2015:1449-1457.

      [9] LI P H, XIE J T, WANG Q L, et al. Is second-order information helpful for large-scale visual recognition?[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017:2089-2097.

      [10] LI P H, XIE J T, WANG Q L, et al. Towards faster training of global covariance pooling networks by iterative matrix square root normalization[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018:947-955.

      [11] WANG Q L, GAO Z L, XIE J T, et al. Global gated mixture of second-order pooling for improving deep convolutional neural networks[C]// Proceedings of the 32nd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2018:1284-1293.

      [12] KIM J H, JUN J, ZHANG B T. Bilinear attention networks[C]// Proceedings of the 32nd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2018:1571-1581.

      [13] HE N J, FANG L Y, LI Y, et al. High-order self-attention network for remote sensing scene classification[C]// Proceedings of the 2019 IEEE International Geoscience and Remote Sensing Symposium. Piscataway: IEEE, 2019: 3013-3016.

      [14] 薛永杰,巨志勇. 注意力機制融合深度神經(jīng)網(wǎng)絡的室內(nèi)場景識別方法[J]. 小型微型計算機系統(tǒng), 2021, 42(5): 1022-1028.(XUE Y J, JU Z Y. Method for recognizing indoor scene classification based on fusion deep neural network with attention mechanism[J]. Journal of Chinese Computer Systems, 2021, 42(5):1022-1028)

      [15] 邊小勇,江沛齡,趙敏,等. 基于多分支神經(jīng)網(wǎng)絡模型的弱監(jiān)督細粒度圖像分類方法[J]. 計算機應用, 2020, 40(5):1295-1300.(BIAN X Y, JIANG P L,ZHAO M, et al. Multi-branch neural network model based weakly supervised fine-grained image classification method[J]. Journal of Computer Applications, 2020, 40(5):1295-1300.)

      [16] LIN T Y, MAJI S. Improved bilinear pooling with CNNs[C]// Proceedings of the 2017 British Machine Vision Conference. Durham: BMVA Press, 2017: No.117.

      [17] ZHAO Z Y, ZHANG K R, HAO X J, et al. BiRA-Net: bilinear attention net for diabetic retinopathy grading[C]// Proceedings of the 2019 IEEE International Conference on Image Processing. Piscataway: IEEE, 2019:395-399.

      [18] XIA G S, HU J W, HU F, et al. AID: a benchmark data set for performance evaluation of aerial scene classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(7):3965-3981.

      [19] CHENG G,HAN J W, LU X Q. Remote sensing image scene classification: benchmark and state of the art[J]. Proceedings of the IEEE, 2017, 105(10):1865-1883.

      [20] KRIZHEVSKY A. Learning multiple layers of features from tiny images[R/OL]. (2009-04-08)[2021-02-17].https://www.cs.toronto.edu/~kriz/learning-features-2009-TR.pdf.

      [21] HE K M, ZHANG X Y, REN S Q. Deep residual learning for image recognition[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016:770-778.

      [22] HE N J, FANG L Y, LI S T, et al. Skip-connected covariance network for remote sensing scene classification[J]. IEEE Transactions on Neural Networks and Learning Systems, 2020, 31(5): 1461-1474.

      [23] ZAGORUYKO S, KOMODAKIS N. Wide residual networks[C]// Proceedings of the 2016 British Machine Vision Conference. Durham: BMVA Press, 2016: No.87.

      [24] ZHONG X, GONG O B, HUANG W X, et al. Squeeze and excitation wide residual networks in image classification[C]// Proceedings of the 2019 IEEE International Conference on Image Processing. Piscataway: IEEE, 2019: 395-399.

      [25] LUAN S Z, CHEN C, ZHANG B C, et al. Gabor convolutional networks[J]. IEEE Transactions on Image Processing, 2018, 27(9): 4357-4366.

      Joint 1-2-order pooling network learning for remote sensing scene classification

      BIAN Xiaoyong1,2,3*, FEI Xiongjun1, CHEN Chunfang1, KAN Dongdong1, DING Sheng1,2,3

      (1,,430065,;2,,430065,;3(),430065,)

      At present, most pooling methods mainly extract aggregated feature information from the 1-order pooling layer or the 2-order pooling layer, ignoring the comprehensive representation capability of multiple pooling strategies for scenes, which affects the scene recognition performance. To address the above problems, a joint model with first- and second-order pooling networks learning for remote sensing scene classification was proposed. Firstly, the convolutional layers of residual network ResNet-50 were utilized to extract the initial features of the input images. Then, a second-order pooling approach based on the similarity of feature vectors was proposed, where the information distribution of feature values was modulated by deriving their weight coefficients from the similarity between feature vectors, and the efficient second-order feature information was calculated. Meanwhile, an approximate solving method for calculating square root of covariance matrix was introduced to obtain the second-order feature representation with higher semantic information. Finally, the entire network was trained with the combination loss function composed of cross-entropy and class-distance weighting. As a result, a discriminative classification model was achieved. The proposed method was tested on AID (50% training proportion), NWPU-RESISC45 (20% training proportion), CIFAR-10 and CIFAR-100 datasets and achieved classification accuracies of 96.32%, 93.38%, 96.51% and 83.30% respectively, which were increased by 1.09 percentage points, 0.55 percentage points, 1.05 percentage points and 1.57 percentage points respectively, compared with iterative matrix SQuare RooT normalization of COVariance pooling (iSQRT-COV). Experimental results show that the proposed method effectively improves the performance of remote sensing scene classification.

      remote sensing scene classification; deep learning; first-order pooling; second-order pooling; square root of covariance matrix

      This work is partially supported by National Natural Science Foundation of China (61972299,61806150), Graduate Innovation Foundation of Wuhan University of Science and Technology (JCX201927, JCX201924).

      BIAN Xiaoyong, born in 1976, Ph. D., associate professor. His research interests include machine learning, remote sensing scene classification.

      FEI Xiongjun, born in 1992, M. S. candidate. His research interests include high-order pooling.

      CHEN Chunfang, born in 1992, M. S. candidate. Her research interests include deep multi-instance learning.

      KAN Dongdong, born in 1998, M. S. candidate. His research interests include high-order pooling.

      DING Sheng, born in 1975, Ph. D., associate professor. His research interests include object detection, deep learning.

      TP391.4

      A

      1001-9081(2022)06-1972-07

      10.11772/j.issn.1001-9081.2021040647

      2021?04?23;

      2021?07?30;

      2021?08?05。

      國家自然科學基金資助項目(61972299, 61806150);武漢科技大學研究生創(chuàng)新基金資助項目(JCX201927, JCX201924)。

      邊小勇(1976—),男,江西吉安人,副教授,博士,主要研究方向:機器學習、遙感場景分類;費雄君(1996—),男,湖北黃岡人,碩士研究生,主要研究方向:高階池化;陳春芳(1996—),女,湖北荊州人,碩士研究生,主要研究方向:深度多示例學習;闞東東(1998—),男,湖北黃石人,碩士研究生,主要研究方向:高階池化;丁勝(1975—),男,湖北武漢人,副教授,博士,主要研究方向:目標檢測、深度學習。

      猜你喜歡
      池化協(xié)方差特征向量
      面向神經(jīng)網(wǎng)絡池化層的靈活高效硬件設計
      基于Sobel算子的池化算法設計
      二年制職教本科線性代數(shù)課程的幾何化教學設計——以特征值和特征向量為例
      克羅內(nèi)克積的特征向量
      卷積神經(jīng)網(wǎng)絡中的自適應加權(quán)池化
      軟件導刊(2022年3期)2022-03-25 04:45:04
      基于卷積神經(jīng)網(wǎng)絡和池化算法的表情識別研究
      一類特殊矩陣特征向量的求法
      EXCEL表格計算判斷矩陣近似特征向量在AHP法檢驗上的應用
      中華建設(2017年1期)2017-06-07 02:56:14
      不確定系統(tǒng)改進的魯棒協(xié)方差交叉融合穩(wěn)態(tài)Kalman預報器
      自動化學報(2016年8期)2016-04-16 03:38:55
      一種基于廣義協(xié)方差矩陣的欠定盲辨識方法
      丰城市| 新河县| 新巴尔虎右旗| 徐州市| 皋兰县| 灯塔市| 新泰市| 双桥区| 灵宝市| 左云县| 柯坪县| 西吉县| 曲松县| 静海县| 洪洞县| 本溪| 元阳县| 尚义县| 望都县| 青浦区| 靖江市| 波密县| 靖边县| 灌云县| 白山市| 大荔县| 沁源县| 曲阳县| 泾阳县| 蓝田县| 定边县| 姜堰市| 五峰| 中西区| 东乌| 司法| 南涧| 宜川县| 登封市| 临桂县| 新乐市|