• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于注意力機(jī)制的細(xì)粒度圖像分類(lèi)算法

      2021-12-17 05:23:20
      關(guān)鍵詞:細(xì)粒度注意力分類(lèi)

      楊 丹 蔣 勇 曾 芳 文 帥

      (西南科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 四川綿陽(yáng) 621010)

      與普通圖像分類(lèi)不同,細(xì)粒度圖像分類(lèi)對(duì)同一類(lèi)目標(biāo)物體進(jìn)行更細(xì)致的類(lèi)別分類(lèi),比如分類(lèi)車(chē)的款式、鳥(niǎo)的品種、方便面的品牌等,是計(jì)算機(jī)視覺(jué)的一個(gè)熱門(mén)研究領(lǐng)域[1]。

      有效定位目標(biāo)物體的局部有區(qū)別性區(qū)域是細(xì)粒度圖像分類(lèi)亟待解決的主要問(wèn)題之一。目前存在兩種捕捉圖像中目標(biāo)局部區(qū)域特征的方法:(1)借鑒目標(biāo)檢測(cè)思想,先檢測(cè)目標(biāo)位置再分類(lèi)?;谀繕?biāo)檢測(cè)框架R-CNN,Zhang等[2]提出了Part-based R-CNN方法,使用Bounding Box標(biāo)注框訓(xùn)練模型。首先在輸入圖像上通過(guò)自底向上的選擇搜索算法產(chǎn)生候選框,然后使用R-CNN算法檢測(cè)產(chǎn)生的候選框并評(píng)分,最后篩選出這些區(qū)域并提取特征進(jìn)行分類(lèi)。為了解決同一目標(biāo)物體在不同姿態(tài)或不同拍攝角度下存在巨大差異的問(wèn)題,Branson等[3]提出了Pose Normalized CNN方法。首先使用Deformable Part Model算法對(duì)輸入圖像進(jìn)行局部區(qū)域位置檢測(cè),完成目標(biāo)物體的局部區(qū)域定位,然后將檢測(cè)到的區(qū)域裁剪下來(lái)進(jìn)行姿態(tài)對(duì)齊,最后提取對(duì)齊后的圖像的不同層的特征,將所有特征拼接起來(lái)訓(xùn)練線性支持向量機(jī)分類(lèi)器完成分類(lèi)。以上方法屬于強(qiáng)監(jiān)督學(xué)習(xí)方式,需要用到耗時(shí)耗力且成本高的人工標(biāo)注信息,在實(shí)際應(yīng)用中無(wú)法滿足要求。(2)在卷積神經(jīng)網(wǎng)絡(luò)中引入注意力機(jī)制。Liu等[4]利用基于強(qiáng)化學(xué)習(xí)的視覺(jué)注意力模型定位物體的局部區(qū)域,首先使用全卷積網(wǎng)絡(luò)提取特征,然后在特征圖上生成多個(gè)部件的得分圖以完成定位,從而更好地完成局部區(qū)域定位與分類(lèi)。Fu等[5]提出了一種遞歸注意卷積神經(jīng)網(wǎng)絡(luò)(RA-CNN),該方法以相互增強(qiáng)的方式遞歸地學(xué)習(xí)局部區(qū)域和基于區(qū)域的特征表示。此類(lèi)方法屬于弱監(jiān)督學(xué)習(xí)方式,僅靠圖像類(lèi)別標(biāo)簽完成分類(lèi)從而節(jié)省了研究成本。

      細(xì)粒度圖像分類(lèi)的另一個(gè)關(guān)鍵問(wèn)題是圖像特征信息表達(dá)不全面。受特征融合的啟發(fā),Lin等[6]提出了一種雙線性模型B-CNN。此方法使用兩個(gè)神經(jīng)網(wǎng)絡(luò)并行工作提取特征,然后融合兩個(gè)特征,以構(gòu)成表達(dá)圖像信息能力強(qiáng)的特征。然而,B-CNN模型在進(jìn)行特征提取時(shí)沒(méi)有更好地獲取局部顯著特征從而影響了分類(lèi)效果。由此,本文提出了一種基于注意力機(jī)制的改進(jìn)雙線性算法。該算法在特征提取器中加入了注意力模塊CBAM[7],使局部區(qū)域特征顯著利于分類(lèi)。為了防止過(guò)擬合,本文采用了數(shù)據(jù)增強(qiáng)擴(kuò)大訓(xùn)練集,使得算法有更強(qiáng)的適應(yīng)性和遷移性。通過(guò)在CUB-200-2011數(shù)據(jù)集和Stanford Cars數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)并與多種先進(jìn)的算法比較,驗(yàn)證了改進(jìn)算法的有效性。

      1 基于注意力機(jī)制的B-CNN細(xì)粒度圖像分類(lèi)算法

      1.1 雙線性模型B-CNN

      雙線性模型B-CNN(Bilinear CNN)是由Lin等[6]從特征表示的研究點(diǎn)出發(fā)提出的一種用于細(xì)粒度圖像分類(lèi)的新穎網(wǎng)絡(luò)模型,在公共數(shù)據(jù)集CUB-200-2011上識(shí)別精度達(dá)到了84.1%。B-CNN模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。該模型使用兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)作為特征提取器并行工作,輸入圖像分別進(jìn)入到兩個(gè)網(wǎng)絡(luò)中得到圖像的特征表示,然后將兩個(gè)神經(jīng)網(wǎng)絡(luò)最后一層的圖像特征做克羅內(nèi)克積操作(矩陣外積),得到一個(gè)高維雙線性特征向量,最后使用全連接層訓(xùn)練特征向量完成最后的分類(lèi)工作。該模型能夠在只有圖像標(biāo)簽的情況下進(jìn)行端到端的訓(xùn)練。

      圖1 B-CNN網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 B-CNN network structure diagram

      用于細(xì)粒度圖像分類(lèi)的B-CNN由四元組B組成:B=(fA,fB,P,C),fA和fB是特征提取函數(shù),P是池化函數(shù),C是分類(lèi)函數(shù)。

      特征提取函數(shù)f(·)是一個(gè)特征映射函數(shù),映射關(guān)系表示為f:L×I→Rc×D,I表示輸入圖像,L表示位置,Rc×D表示大小為c×D維特征。具體來(lái)講,將輸入圖像I和圖像對(duì)應(yīng)的位置L通過(guò)特征映射函數(shù)(特征提取器)映射為一個(gè)大小為c×D維的特征,然后在特征的每個(gè)位置使用矩陣外積操作將特征匯聚成一個(gè)雙線性特征,即位置l的fA和fB的雙線性特征組合式為:

      Bilinear(l,I,fA,fB)=fA(l,I)TfB(l,I)

      (1)

      為了獲得雙線性特征向量,使用池化函數(shù)P匯聚圖像所有位置的雙線性特征,得到表示全局圖像Φ(I)的雙線性向量,表達(dá)式為:

      Φ(I)=∑l∈LBilinear(l,I,fA,fB)

      (2)

      如果fA和fB提取的特征圖大小分別為C×M,C×N,則Φ(I)大小為M×N。再通過(guò)將Φ(I)重整為MN×1的雙線性向量,最后使用分類(lèi)函數(shù)C對(duì)雙線性向量進(jìn)行分類(lèi)預(yù)測(cè),這里采用的分類(lèi)函數(shù)是Softmax。

      1.2 注意力機(jī)制

      近年來(lái)基于注意力機(jī)制的思想被廣泛應(yīng)用到深度學(xué)習(xí)的各個(gè)領(lǐng)域,因此注意力模型已經(jīng)成為深度學(xué)習(xí)中炙手可熱的研究點(diǎn)。注意力機(jī)制借鑒了人類(lèi)視覺(jué)機(jī)制的思想,即通過(guò)快速掃描全局內(nèi)容,獲得需要重點(diǎn)關(guān)注的區(qū)域,然后對(duì)重點(diǎn)區(qū)域投入更多的精力進(jìn)行處理以得到目標(biāo)的細(xì)節(jié)內(nèi)容。

      在圖像分類(lèi)中注意力機(jī)制又分為硬注意力和軟注意力兩種。硬注意力通過(guò)對(duì)圖像目標(biāo)進(jìn)行裁剪放大再裁剪,從而將一個(gè)目標(biāo)放大到局部區(qū)域以獲得部件的細(xì)節(jié)信息。使用硬注意力的代表文獻(xiàn)包括文獻(xiàn)[5]和文獻(xiàn)[8],其中文獻(xiàn)[5]利用互相強(qiáng)化的方式由粗到細(xì)的迭代裁剪以生成區(qū)域注意力,在訓(xùn)練過(guò)程中逐漸聚焦到關(guān)鍵區(qū)域;文獻(xiàn)[8]使用Selective Search算法對(duì)輸入圖像生成候選框,此過(guò)程會(huì)產(chǎn)生許多含有目標(biāo)的候選框,其中帶有目標(biāo)局部區(qū)域的候選框表示注意力區(qū)域,然后用譜聚類(lèi)算法[9]將提取的特征分為K類(lèi),每類(lèi)代表一個(gè)目標(biāo)的局部區(qū)域位置,最后將每類(lèi)的特征拼接成一個(gè)特征完成分類(lèi)。

      軟注意力表示通過(guò)學(xué)習(xí)輸入數(shù)據(jù)獲得權(quán)重圖。通過(guò)一系列學(xué)習(xí)得到的權(quán)重圖即是注意力圖,以文獻(xiàn)[7]、文獻(xiàn)[10]和文獻(xiàn)[11]為代表。本文使用卷積注意力模塊CBAM(Convolutional Block Attention Module),它屬于軟注意力。CBAM是一個(gè)完整的網(wǎng)絡(luò)結(jié)構(gòu),該算法將注意力同時(shí)運(yùn)用在通道和空間兩個(gè)維度上,并直接嵌入神經(jīng)網(wǎng)絡(luò)以提升網(wǎng)絡(luò)的特征提取能力。CBAM的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,其過(guò)程可以由下式描述:

      圖2 CBAM網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 CBAM network structure diagram

      F′=MC(F)?F

      (3)

      F″=MS(F′)?F

      (4)

      其中:F∈RC×H×W是大小為H×W的C維輸入特征;MC∈RC×1×1大小為1×1的C維通道注意力圖;MS∈R1×H×W大小為H×W的空間注意力圖。

      通道注意力的計(jì)算公式如下:

      MC(F)=σ(MLP(AvgPool(F))+

      MLP(MaxPool(F)))

      (5)

      空間注意力MS(F)的計(jì)算公式如下:

      MS(F)=σ(f7×7([AvgPool(f);

      MaxPool(F)]))

      (6)

      其中:σ表示Sigmoid激活函數(shù);MLP表示多層感知器;f7×7表示卷積核為7×7的卷積運(yùn)算。

      1.3 引入注意力機(jī)制的B-CNN

      為了讓雙線性模型提取更充分的局部特征而達(dá)到更好的分類(lèi)效果,在特征提取器中加入注意力模塊CBAM,改進(jìn)的B-CNN模型結(jié)構(gòu)如圖3所示。加入的注意力模塊使特征提取的能力更強(qiáng),特征能夠較強(qiáng)地表達(dá)圖像信息,因此分類(lèi)效果得到了很大的提升。

      圖3 改進(jìn)的B-CNN模型網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 Improved B-CNN model network structure diagram

      本文改進(jìn)的注意力雙線性網(wǎng)絡(luò)是在兩個(gè)特征提取VGG-16的最后一個(gè)卷積層的后面加入注意力模塊,通過(guò)學(xué)習(xí)權(quán)重獲得圖像中重要信息以增強(qiáng)最后一層提取的特征,再對(duì)上下兩路網(wǎng)絡(luò)得到的特征進(jìn)行融合,最后進(jìn)行分類(lèi)。

      2 實(shí)驗(yàn)

      2.1 實(shí)驗(yàn)數(shù)據(jù)集

      在CUB-200-2011數(shù)據(jù)集和Stanford Cars數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),驗(yàn)證本文算法的有效性。CUB-200-2011是加州理工學(xué)院在2010年提出的用于細(xì)粒度圖像分類(lèi)的公共數(shù)據(jù)集,該數(shù)據(jù)集包含200個(gè)類(lèi)別,其中共有11 788張鳥(niǎo)類(lèi)圖片,用于測(cè)試和訓(xùn)練的圖片分別有5 794張和5 994張。Stanford Cars數(shù)據(jù)集是一個(gè)汽車(chē)類(lèi)別數(shù)據(jù)集,該數(shù)據(jù)集包含196個(gè)類(lèi)別,共計(jì)16 185張圖像,其中訓(xùn)練集和測(cè)試集分別為8 144張和8 041張車(chē)輛圖片。

      在神經(jīng)網(wǎng)絡(luò)中訓(xùn)練數(shù)據(jù)過(guò)少容易造成過(guò)擬合導(dǎo)致模型的分類(lèi)效果不佳,因此需要大量數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò)模型。本文采用數(shù)據(jù)增強(qiáng)的方法擴(kuò)大訓(xùn)練數(shù)據(jù)來(lái)提高模型的識(shí)別性能。這里以CUB-200-2011數(shù)據(jù)集為例詳細(xì)描述數(shù)據(jù)增強(qiáng)操作。CUB-200-2011訓(xùn)練集從原來(lái)的5 994張圖片擴(kuò)大到了27 800張,每類(lèi)從30張擴(kuò)到139張圖片,實(shí)驗(yàn)中數(shù)據(jù)增強(qiáng)方式有以下幾種:(1)隨機(jī)水平翻轉(zhuǎn)(左右翻轉(zhuǎn)),隨機(jī)概率為0.4;(2)隨機(jī)垂直翻轉(zhuǎn),隨機(jī)概率為0.8;(3)隨機(jī)90度旋轉(zhuǎn),隨機(jī)概率為0.1;(4)隨機(jī)裁剪,隨機(jī)概率值為0.5,裁剪區(qū)域值為0.7;(5)隨機(jī)加亮度,最大亮度倍數(shù)為1.4,最小亮度倍數(shù)為0.6;(6)隨機(jī)放大圖片按照設(shè)定的范圍值裁剪,隨機(jī)概率為0.4,最大裁剪倍數(shù)為1.6,最小裁剪倍數(shù)為1.1。數(shù)據(jù)在增強(qiáng)過(guò)程中隨機(jī)組合上述操作生成增強(qiáng)圖片,將增強(qiáng)圖片調(diào)整為448×448的同一尺寸,并按本文實(shí)驗(yàn)輸入數(shù)據(jù)的需求格式制作數(shù)據(jù)集。在增強(qiáng)過(guò)程中放大裁剪操作能夠有效去除部分背景,使圖像在網(wǎng)絡(luò)中能更準(zhǔn)確定位目標(biāo)的局部區(qū)域。如果背景復(fù)雜則關(guān)注點(diǎn)在目標(biāo)整體,若去除背景則可以關(guān)注到局部區(qū)域更好完成分類(lèi)。圖4為部分增強(qiáng)裁剪操作后的示例,其中第一行表示原始圖像,第二三行表示數(shù)據(jù)增強(qiáng)操作后的圖片。

      圖4 原圖和增強(qiáng)后圖片示例Fig.4 Examples of original and enhanced images

      2.2 實(shí)驗(yàn)環(huán)境與過(guò)程

      本文實(shí)驗(yàn)硬件環(huán)境為:Ubuntu 18.04操作系統(tǒng),處理器為Intel? Xeon(R) E5-2650 v4@2.20 GHz×48,顯卡為T(mén)ITAN V,顯存12 GB,使用Spyder編輯器在Pytorch框架下實(shí)現(xiàn)。

      在實(shí)驗(yàn)過(guò)程中使用預(yù)訓(xùn)練參數(shù)初始化模型能夠使模型收斂更快,因此主干網(wǎng)絡(luò)提取特征時(shí)使用 VGG-16在ImageNet上的預(yù)訓(xùn)練參數(shù)。本文在特征提取器VGG-16的最后一層添加注意力模塊,且注意力模塊隨機(jī)初始化參數(shù)。

      本文實(shí)驗(yàn)分兩步:第一步,將數(shù)據(jù)集輸入到網(wǎng)絡(luò)中,使用VGG-16預(yù)訓(xùn)練參數(shù)初始化網(wǎng)絡(luò),固定注意力模塊前的卷積層參數(shù),只訓(xùn)練注意力模塊和全連接層以得到模型的最優(yōu)參數(shù);第二步,使用模型最優(yōu)參數(shù)初始化網(wǎng)絡(luò),微調(diào)所有層得到最終模型的分類(lèi)精度。由于使用全連接層分類(lèi)需要限制數(shù)據(jù)輸入的大小,實(shí)驗(yàn)中數(shù)據(jù)輸入網(wǎng)絡(luò)后統(tǒng)一調(diào)整為448×448,采用帶有動(dòng)量為0.9和權(quán)重衰減系數(shù)為0.000 01的SGD優(yōu)化器。

      2.3 評(píng)價(jià)指標(biāo)

      本文實(shí)驗(yàn)以精度(Accuracy)為評(píng)價(jià)指標(biāo),計(jì)算公式如下:

      (7)

      其中:Accuracy 表示圖像分類(lèi)的精度;TP表示分類(lèi)正確的圖像個(gè)數(shù);FP表示分類(lèi)錯(cuò)誤的圖像個(gè)數(shù);Accuracy值越大表示圖像分類(lèi)模型的分類(lèi)效果越好。

      2.4 數(shù)據(jù)增強(qiáng)和注意力模塊的有效性驗(yàn)證

      為了驗(yàn)證數(shù)據(jù)增強(qiáng)和注意力模塊的有效性,本文在CUB-200-2011數(shù)據(jù)集上分別做了B-CNN +數(shù)據(jù)增強(qiáng)(B-CNN + Data),B-CNN + 注意力模塊CBAM(B-CNN + CBAM)和B-CNN +數(shù)據(jù)增強(qiáng) +注意力模塊CBAM(B-CNN + Data + CBAM)的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1所示。

      表1 數(shù)據(jù)增強(qiáng)和CBAM模塊有效性驗(yàn)證Table 1 Data enhancement and CBAM module validation

      從表1可知, B-CNN和B-CNN+ Data相比較,數(shù)據(jù)增強(qiáng)能提升算法的泛化能力,它通過(guò)擴(kuò)充數(shù)據(jù)的相關(guān)特征,使得數(shù)據(jù)信息量更豐富進(jìn)而提升算法精度。B-CNN和B-CNN + CBAM比較表明,注意力機(jī)制對(duì)算法的提升有促進(jìn)作用,注意力機(jī)制能夠最大限度地學(xué)習(xí)圖像的特征信息,可以使網(wǎng)絡(luò)模型對(duì)圖像的顯著特征重點(diǎn)關(guān)注。由B-CNN+ Data和B-CNN + CBAM可知,數(shù)據(jù)增強(qiáng)和注意力機(jī)制均能提高分類(lèi)精度,數(shù)據(jù)增強(qiáng)能直接增強(qiáng)數(shù)據(jù)的相關(guān)特征從而提升算法性能,而注意力機(jī)制依托原始數(shù)據(jù)學(xué)習(xí)數(shù)據(jù)的重要特征信息提升算法效果。由B-CNN + Data + CBAM可知,在數(shù)據(jù)增強(qiáng)的基礎(chǔ)上添加注意力機(jī)制不僅能增強(qiáng)數(shù)據(jù)的相關(guān)特征,還能充分利用這些特征從而提升算法的分類(lèi)效果。

      2.5 實(shí)驗(yàn)結(jié)果與分析

      為了驗(yàn)證本文方法的有效性,將本文方法與目前細(xì)粒度圖像分類(lèi)領(lǐng)域的先進(jìn)方法Cross-X[12],NTS-Net[13],MC-Loss(B-CNN)[14],SEF[15],A3M[16]進(jìn)行對(duì)比。在數(shù)據(jù)集CUB-200-2011上的實(shí)驗(yàn)結(jié)果如表2所示。

      表2 不同算法在CUB-200-2011數(shù)據(jù)集上的分類(lèi)精度Table 2 Classification accuracy of different algorithms on the CUB-200-2011 dataset

      從表2可知,本文算法的精度均比其他算法高。在CUB-200-2011數(shù)據(jù)集上精度達(dá)到了87.7%,超越了其他5種方法,與Cross-X算法效果一樣。為了驗(yàn)證本文算法的通用性,在Stanford Cars數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果如表3所示。從表3可以看出,本文算法在Stanford Cars數(shù)據(jù)集上仍然能取得較好的效果,在Stanford Cars數(shù)據(jù)集上精度達(dá)到了93.1%,超越了其他5種算法。上述表中其他算法的分類(lèi)精度值來(lái)源于原文章。

      表3 不同算法在Stanford Cars數(shù)據(jù)集上的分類(lèi)精度Table 3 Classification accuracy of different algorithms on the Stanford Cars dataset

      實(shí)驗(yàn)證明數(shù)據(jù)增強(qiáng)與注意力模塊能夠明顯提升分類(lèi)精度,有注意力模塊的網(wǎng)絡(luò)能夠最大限度地學(xué)習(xí)到圖像的特征信息,所以圖像更容易被分類(lèi)正確。此外數(shù)據(jù)增強(qiáng)將圖像豐富化,特別是剪裁操作能夠降低部分背景因素導(dǎo)致的分類(lèi)效果不佳的影響。

      3 結(jié)論

      本文對(duì)雙線性網(wǎng)絡(luò)(B-CNN)算法進(jìn)行改進(jìn),利用注意力模塊CBAM實(shí)現(xiàn)了一種基于注意力機(jī)制的雙線性網(wǎng)絡(luò)。首先對(duì)數(shù)據(jù)集進(jìn)行增強(qiáng)以豐富數(shù)據(jù),然后將數(shù)據(jù)送入改進(jìn)的網(wǎng)絡(luò)進(jìn)行分類(lèi)。在CUB-200-2011數(shù)據(jù)集和Stanford Cars數(shù)據(jù)集上與目前先進(jìn)的細(xì)粒度圖像分類(lèi)算法進(jìn)行比較,結(jié)果表明本文提出的算法能較好捕捉圖像局部區(qū)域,從而實(shí)現(xiàn)了更好的細(xì)粒度圖像分類(lèi)效果。

      猜你喜歡
      細(xì)粒度注意力分類(lèi)
      融合判別性與細(xì)粒度特征的抗遮擋紅外目標(biāo)跟蹤算法
      讓注意力“飛”回來(lái)
      分類(lèi)算一算
      細(xì)粒度的流計(jì)算執(zhí)行效率優(yōu)化方法
      分類(lèi)討論求坐標(biāo)
      數(shù)據(jù)分析中的分類(lèi)討論
      基于雙線性卷積網(wǎng)絡(luò)的細(xì)粒度圖像定位
      教你一招:數(shù)的分類(lèi)
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      支持細(xì)粒度權(quán)限控制且可搜索的PHR云服務(wù)系統(tǒng)
      郑州市| 鹤岗市| 安多县| 民勤县| 辽阳县| 龙岩市| 泾川县| 区。| 香河县| 抚顺市| 东乌珠穆沁旗| 灵寿县| 班玛县| 萝北县| 湟中县| 沁阳市| 巫溪县| 东乡| 西城区| 尼勒克县| 洮南市| 海伦市| 靖安县| 大连市| 柘荣县| 本溪市| 陆河县| 绥芬河市| 积石山| 瑞丽市| 土默特左旗| 云阳县| 原阳县| 循化| 丽水市| 岢岚县| 桓仁| 庆元县| 澄江县| 田阳县| 怀化市|