何?凱,馮?旭,高圣楠,馬希濤
基于多尺度特征融合與反復(fù)注意力機(jī)制的細(xì)粒度圖像分類(lèi)算法
何?凱,馮?旭,高圣楠,馬希濤
(天津大學(xué)電氣自動(dòng)化與信息工程學(xué)院,天津 300072)
細(xì)粒度圖像分類(lèi)是對(duì)某一類(lèi)別下的圖像子類(lèi)進(jìn)行精確劃分.細(xì)粒度圖像分類(lèi)以其特征相似、姿態(tài)各異、背景干擾等特點(diǎn),一直是計(jì)算機(jī)視覺(jué)和模式識(shí)別領(lǐng)域的研究熱點(diǎn)和難點(diǎn),具有重要的研究?jī)r(jià)值.細(xì)粒度圖像分類(lèi)的關(guān)鍵在于如何實(shí)現(xiàn)對(duì)圖像判別性區(qū)域的精確提取,已有的基于神經(jīng)網(wǎng)絡(luò)算法在精細(xì)特征提取方面仍有不足.為解決這一問(wèn)題,本文提出了一種多尺度反復(fù)注意力機(jī)制下的細(xì)粒度圖像分類(lèi)算法.考慮到高、低層級(jí)的特征分別具有豐富的語(yǔ)義、紋理信息,分別將注意力機(jī)制嵌入到不同尺度當(dāng)中,以獲取更加豐富的特征信息.此外,對(duì)輸入特征圖先后采取通道和空間注意,該過(guò)程可以看作是對(duì)特征矩陣的反復(fù)注意力(re-attention);最后以殘差的方式,將注意力結(jié)果與原始輸入特征相結(jié)合,將不同尺度特征圖的注意結(jié)果拼接起來(lái)送入全連接層,以更加精確地提取顯著性特征.在國(guó)際上公開(kāi)的細(xì)粒度數(shù)據(jù)集(CUB-200-2011、FGVC Aircraft和Stanford Cars)上進(jìn)行實(shí)驗(yàn)仿真,分類(lèi)準(zhǔn)確率分別達(dá)到86.16%、92.26%和93.40%;與只使用ResNet50結(jié)構(gòu)相比,分別提高了1.66%、1.46%和1.10%;明顯高于現(xiàn)有經(jīng)典算法,也高于人類(lèi)表現(xiàn),驗(yàn)證了本文算法的有效性.
細(xì)粒度圖像分類(lèi);多尺度特征融合;反復(fù)注意力機(jī)制;ResNet50
圖像分類(lèi)是計(jì)算機(jī)視覺(jué)領(lǐng)域的重要研究?jī)?nèi)容,傳統(tǒng)的圖像分類(lèi)主要采用決策樹(shù)[1]、K近鄰算法(K nearest neighbors,KNN)[2]、支持向量機(jī)(support vector machine,SVM)[3],以及多層感知機(jī)(multilayer perceptron,MLP)[4]方法.2012年,AlexNet[5]神經(jīng)網(wǎng)絡(luò)在ImageNet數(shù)據(jù)集上獲得成功,為圖像分類(lèi)領(lǐng)域的發(fā)展帶來(lái)了新的機(jī)遇.此后,各種神經(jīng)網(wǎng)絡(luò)模型[6-10]層出不窮.
隨著圖像分類(lèi)技術(shù)的發(fā)展,細(xì)粒度圖像分類(lèi)技術(shù)應(yīng)運(yùn)而生.細(xì)粒度圖像分類(lèi)指的是:在同一類(lèi)別下對(duì)各個(gè)子類(lèi)別進(jìn)行精細(xì)劃分,例如:對(duì)飛機(jī)、汽車(chē)、鳥(niǎo)類(lèi)等圖像進(jìn)行精細(xì)劃分,以判斷其具體型號(hào)和種類(lèi).上述圖像具有類(lèi)間差異小、類(lèi)內(nèi)差異大的特點(diǎn),因此在精確提取判別性特征,以及定位顯著性區(qū)域方面難度較大.此外,細(xì)粒度數(shù)據(jù)集都需要專業(yè)人士進(jìn)行標(biāo)簽標(biāo)注,成本較高,這就導(dǎo)致每種類(lèi)別的樣本數(shù)遠(yuǎn)小于粗分類(lèi)樣本數(shù),容易導(dǎo)致過(guò)擬合的現(xiàn)象.由于子類(lèi)別圖像特征過(guò)于近似、姿態(tài)各異、背景干擾等因素的存在,傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型遇到了很大困難,已成為限制該領(lǐng)域發(fā)展的主要瓶頸.
為解決上述問(wèn)題,本文提出了一種基于多尺度特征融合與反復(fù)注意力機(jī)制的細(xì)粒度圖像分類(lèi)算法.其中,多尺度主要是考慮到高、低層級(jí)分別具有豐富的語(yǔ)義特征和紋理信息,將注意力機(jī)制嵌入到不同尺度,有助于獲取更加復(fù)雜的特征信息.反復(fù)指的是對(duì)輸入特征圖先后采取通道和空間注意,該過(guò)程可以看作是對(duì)特征矩陣的反復(fù)注意力(re-attention).對(duì)輸入特征圖進(jìn)行權(quán)重分配,以矩陣對(duì)應(yīng)元素相乘的方式,將注意力機(jī)制得到的權(quán)重矩陣先后作用于輸入特征矩陣.通道注意力可以讓網(wǎng)絡(luò)重點(diǎn)關(guān)注某幅特征圖,空間注意力可讓網(wǎng)絡(luò)重點(diǎn)關(guān)注某個(gè)主要特征,有助于提高細(xì)粒度圖像分類(lèi)的準(zhǔn)確率.
2012年,Yao等[11]提出一種無(wú)碼本和無(wú)注釋的方法,實(shí)現(xiàn)了細(xì)粒度圖像分類(lèi).2013年,Berg等[12]基于局部區(qū)域的一對(duì)一特征表示方法,實(shí)現(xiàn)了細(xì)粒度圖像分類(lèi).鑒于傳統(tǒng)算法對(duì)細(xì)粒度圖像分類(lèi)準(zhǔn)確率低,模型泛化能力差,基于深度學(xué)習(xí)實(shí)現(xiàn)細(xì)粒度圖像分類(lèi)逐漸成為當(dāng)前的主流,算法主要分為強(qiáng)監(jiān)督算法和弱監(jiān)督算法2大類(lèi).其中,強(qiáng)監(jiān)督算法需要基于人工標(biāo)注特征完成[13-15].與之相比,基于弱監(jiān)督算法生成的特征矩陣具有更好的表現(xiàn)力.例如:2015年,Xiao?等[16]提出一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的兩級(jí)注意力模型.2017年,Cui等[17]提出了一種通用的池化框架,以核函數(shù)的形式來(lái)捕捉特征之間的高階關(guān)系.
上述方法由于對(duì)判別性特征提取能力不足,分類(lèi)準(zhǔn)確率較低.為此,人們提出了一些改進(jìn)算法.例如:2015年,Lin等[18]提出利用雙線性網(wǎng)絡(luò)結(jié)構(gòu)來(lái)實(shí)現(xiàn)特征提取,提高了分類(lèi)精度.同年,Jaderberg等[19]提出了一種空間變換網(wǎng)絡(luò),先對(duì)輸入數(shù)據(jù)的特征圖進(jìn)行變換,再進(jìn)行識(shí)別分類(lèi).冀中等[20]將空間變換網(wǎng)絡(luò)與雙線性網(wǎng)絡(luò)相結(jié)合[18],在細(xì)粒度魚(yú)的數(shù)據(jù)集上取得了較好的分類(lèi)效果.2018年,Peng等[21]提出一種目標(biāo)-局部注意力機(jī)制,利用兩種模型分別獲取目標(biāo)區(qū)域和局部特征,再分別送入分類(lèi)器進(jìn)行分類(lèi).2018年,Dubey等[22]采用混淆矩陣的方法來(lái)防止過(guò)擬合,有效地解決了細(xì)粒度圖像類(lèi)間差異過(guò)小的問(wèn)題.同年,Wang等[23]在VGG16網(wǎng)絡(luò)結(jié)構(gòu)上增加了一條支路,用于提取局部信息,形成了一個(gè)雙流的非對(duì)稱網(wǎng)絡(luò),綜合考慮全局和局部特征來(lái)實(shí)現(xiàn)細(xì)粒度圖像分類(lèi).2019年,Chen等[24]提出一種破壞重建學(xué)習(xí)方法,通過(guò)對(duì)輸入特征矩陣的局部信息進(jìn)行破壞,來(lái)增強(qiáng)網(wǎng)絡(luò)提取顯著性細(xì)節(jié)的能力.
在提取顯著性特征與去除冗余信息方面,現(xiàn)有細(xì)粒度分類(lèi)算法仍有較大的改進(jìn)空間.為此,本文提出一種反復(fù)注意力機(jī)制,如圖1所示.輸入圖像經(jīng)ResNet基本網(wǎng)絡(luò)提取相關(guān)特征后,將注意力機(jī)制以多尺度的方式嵌入到特征提取器當(dāng)中,將ResNet網(wǎng)絡(luò)結(jié)構(gòu)的多尺度輸出作為本文注意力機(jī)制的輸入特征矩陣,經(jīng)過(guò)本文注意力機(jī)制后,特征圖的維度信息不發(fā)生變化,由此獲取豐富準(zhǔn)確的判別性特征.
圖1 本文提出的具有多尺度特征融合與反復(fù)注意力機(jī)制的網(wǎng)絡(luò)結(jié)構(gòu)
已有的一些注意力機(jī)制:如卷積塊注意模塊(convolutional block attention module,CBAM)[25],采用通道注意力支路和空間注意力支路串行的結(jié)構(gòu),瓶頸注意模塊(bottleneck attention module,BAM)[26]則是將通道維度和空間維度的注意力結(jié)果直接相加.為了更好地提取特征,融合不同維度的特征信息,本文提出了一種反復(fù)注意力機(jī)制,如圖2所示.
圖2?本文反復(fù)注意力機(jī)制網(wǎng)絡(luò)結(jié)構(gòu)
具體做法是:先將某一層級(jí)的特征矩陣,并行經(jīng)過(guò)通道和空間注意力支路,分別得到通道和空間權(quán)重矩陣;再將特征矩陣與通道權(quán)重矩陣相乘,網(wǎng)絡(luò)能夠按重要程度,對(duì)輸入圖像的不同特征圖進(jìn)行權(quán)重賦值,重要的特征圖具有較大的權(quán)重值;在此基礎(chǔ)上,再與空間權(quán)重矩陣相乘,使網(wǎng)絡(luò)能夠?qū)W習(xí)到每張?zhí)卣鲌D顯著性區(qū)域的位置信息,以去除無(wú)關(guān)背景的干擾,在此過(guò)程中,將兩條支路的注意力支路結(jié)果先后作用于輸入特征矩陣上,這一過(guò)程體現(xiàn)了本文注意力機(jī)制的反復(fù)操作;最后以殘差的方式,將注意力結(jié)果與輸入特征結(jié)合.具體過(guò)程可表述為
傳統(tǒng)算法壓縮激活網(wǎng)絡(luò)(squeeze and excitation networks,SENet)[27]、BAM[26]在通道注意力支路采用平均池化對(duì)空間維度進(jìn)行壓縮,未能充分提取紋理特征;CBAM[25]將平均池化結(jié)果與最大池化結(jié)果直接相加,結(jié)合方式過(guò)于簡(jiǎn)單.為了充分保留背景和紋理信息,本文采取將兩個(gè)池化結(jié)果進(jìn)行拼接的方法,如圖3所示.
圖3?本文通道注意力支路網(wǎng)絡(luò)
式中:為圖4中上面一條支路得到的特征矩陣;為下面一條支路得到的特征矩陣;Fb為空間特征描述子;代表矩陣對(duì)應(yīng)元素相乘.為保證特征矩陣的大小不變,使用時(shí)padding設(shè)為0,使用和時(shí),padding分別設(shè)為(0,1)和(1,0).
為了驗(yàn)證本文算法的有效性,將提出的多尺度特征融合與反復(fù)注意力機(jī)制嵌入到標(biāo)準(zhǔn)的ResNet50網(wǎng)絡(luò)當(dāng)中,在國(guó)際標(biāo)準(zhǔn)細(xì)粒度圖像數(shù)據(jù)集上進(jìn)行測(cè)試,并與經(jīng)典的細(xì)粒度分類(lèi)方法進(jìn)行比較,以驗(yàn)證算法的有效性.
本文選取3個(gè)標(biāo)準(zhǔn)的國(guó)際細(xì)粒度數(shù)據(jù)集:CUB-200-2011、FGVC-Aircraft和Stanford Cars,進(jìn)行分類(lèi)實(shí)驗(yàn)測(cè)試.①CUB-200-2011數(shù)據(jù)集由加利福尼亞理工學(xué)院頒布和維護(hù),包含200類(lèi),共10000余張鳥(niǎo)類(lèi)圖像,其中,5994張用作訓(xùn)練集,5794張用作測(cè)試集.②FGVC-Aircraft數(shù)據(jù)集包含100種飛機(jī)類(lèi)型,共10000個(gè)飛機(jī)圖像;其中,訓(xùn)練集和測(cè)試集按2∶1的比率進(jìn)行劃分.③Stanford Cars數(shù)據(jù)集由斯坦福大學(xué)發(fā)布,包含196類(lèi),共16185張汽車(chē)圖片;其中8144張為訓(xùn)練數(shù)據(jù),8041張為測(cè)試數(shù)據(jù);每個(gè)類(lèi)別按照年份、制造商、型號(hào)進(jìn)行區(qū)分.
圖5展示了FGVC-Aircraft數(shù)據(jù)集的部分訓(xùn)練樣本,其中,不同行的飛機(jī)圖像分屬不同類(lèi)別,由上到下依次為:Boeing 737-200、Boeing 737-300、Boeing 737-400、Boeing 737-500和Boeing 737-600.從圖中可以看出:①目標(biāo)在整幅圖片中只占據(jù)了較小一部分區(qū)域,且背景信息復(fù)雜;②不同類(lèi)別圖像之間差別很??;③同一類(lèi)別圖像受不同的光照條件和拍攝角度的影響,大小、形狀、色差都有很大差別.這些因素的存在,使得該數(shù)據(jù)集的細(xì)粒度分類(lèi)十分困難,除非是專業(yè)人士,普通人也很難區(qū)分.
圖5?FGVC-Aircraft數(shù)據(jù)集示例
實(shí)驗(yàn)所用計(jì)算機(jī)配置為:Intel Core i7-7800X的CPU,64G的內(nèi)存,兩塊GTX 1080Ti的GPU,每塊11G的顯存;在Linux16.04系統(tǒng)、python編程環(huán)境下運(yùn)行,使用pytorch框架,對(duì)細(xì)粒度數(shù)據(jù)集分類(lèi).由于每個(gè)類(lèi)別中的樣本數(shù)較少,直接訓(xùn)練容易產(chǎn)生過(guò)擬合;為此,本文采用權(quán)重遷移學(xué)習(xí)[28],將在ImageNet數(shù)據(jù)集上訓(xùn)練好的權(quán)重參數(shù)作為本任務(wù)的參數(shù)初始化值,使得網(wǎng)絡(luò)能夠快速收斂;同時(shí)對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行隨機(jī)裁剪、水平翻轉(zhuǎn)等操作來(lái)增強(qiáng)數(shù)據(jù)集.
為驗(yàn)證不同參數(shù)對(duì)分類(lèi)精度的影響,分別選取不同學(xué)習(xí)率和batch_size進(jìn)行分類(lèi),分類(lèi)準(zhǔn)確率如表1所示.其中,3組實(shí)驗(yàn)的參數(shù)設(shè)置分別為:①訓(xùn)練樣本的batch_size設(shè)為24,改變學(xué)習(xí)率變化步長(zhǎng)和衰減程度,每20個(gè)迭代次數(shù)(epoch),學(xué)習(xí)率乘以0.5;②訓(xùn)練樣本的batch_size設(shè)為20,每15個(gè)epoch,學(xué)習(xí)率乘以0.8;③訓(xùn)練樣本的batch_size設(shè)為24,每15個(gè)epoch,學(xué)習(xí)率乘以0.8.
表1?不同參數(shù)下的識(shí)別準(zhǔn)確率對(duì)比
Tab.1 Comparison of identification accuracy under dif-ferent parameters %
利用本文算法,在3種國(guó)際標(biāo)準(zhǔn)細(xì)粒度圖像庫(kù)上進(jìn)行訓(xùn)練和分類(lèi),訓(xùn)練和測(cè)試準(zhǔn)確率,以及對(duì)應(yīng)的損失函數(shù)曲線如圖6所示.從圖6中可以看出:epoch介于0~25時(shí),準(zhǔn)確率有顯著提升,損失函數(shù)也有明顯下降;在經(jīng)歷25個(gè)epoch后,準(zhǔn)確率和損失函數(shù)曲線有微小變化并逐漸趨于平滑;由此可見(jiàn),本文算法模型的收斂速度較快,在不同數(shù)據(jù)集上均能取得較好效果,具有較強(qiáng)的泛化能力.
圖6?不同數(shù)據(jù)庫(kù)的準(zhǔn)確率和損失函數(shù)
為驗(yàn)證本文多尺度特征融合與反復(fù)注意力機(jī)制的有效性,分別采用 ResNet50基本模型,引入多尺度的ResNet50模型,以及本文算法模型,在3個(gè)國(guó)際標(biāo)準(zhǔn)圖像數(shù)據(jù)庫(kù)上進(jìn)行細(xì)粒度分類(lèi),其top-1結(jié)果如表2所示.從表中可以看出,將反復(fù)注意力機(jī)制以多尺度的方式與ResNet50結(jié)合起來(lái),可以顯著提升分類(lèi)精度,在3個(gè)標(biāo)準(zhǔn)圖像庫(kù)上均取得了最高分類(lèi)精度,證明了本文多尺度反復(fù)注意機(jī)制的有效性.
采取不同特征提取模型獲得的反向傳播顯著圖如圖7所示.其中,圖7(a)為原始輸入圖片,圖7(b)、圖7(c)、圖7(d)分別為采用ResNet50、基于多尺度的ResNet50、以及本文算法提取特征所獲得的反向傳播顯著圖.從圖中可以看出,圖7(b)由于只使用ResNet50提取特征圖,不能有效提取判別性區(qū)域,也無(wú)法有效過(guò)濾背景的干擾信息;圖7(c)由于充分考慮了多尺度的特征,與圖7(b)相比可以獲得更多的特征信息作為分類(lèi)依據(jù);圖7(d)在圖7(c)的基礎(chǔ)上采取了反復(fù)注意力機(jī)制,使網(wǎng)絡(luò)能夠重點(diǎn)關(guān)注顯著性的特征和更具判別性的特征,同時(shí)能夠有效去除冗余信息,節(jié)約計(jì)算成本,效果良好.
表2?不同特征提取模型識(shí)別準(zhǔn)確率對(duì)比
Tab.2 Comparison of identification accuracy under dif-ferent feature extract models????????%
為了測(cè)試本文模型在細(xì)粒度分類(lèi)方面的準(zhǔn)確性,分別在3個(gè)國(guó)際標(biāo)準(zhǔn)細(xì)粒度圖像庫(kù)上,與當(dāng)前經(jīng)典細(xì)粒度分類(lèi)算法進(jìn)行比較.其中,雙線性卷積神經(jīng)網(wǎng)絡(luò)(bilinear convolutional neural network,B-CNN)[18]利用雙線性網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)特征提取,循環(huán)注意卷積神經(jīng)網(wǎng)絡(luò)(recurrent attention convolutional neural network,RA-CNN)[29]采用遞歸注意網(wǎng)絡(luò)學(xué)習(xí)判別性特征,動(dòng)態(tài)計(jì)算時(shí)間(dynamic computational time,DCT)[30]在已有的注意力模型基礎(chǔ)上引入了啟止動(dòng)作,來(lái)學(xué)習(xí)最佳注意區(qū)域.top-1分類(lèi)結(jié)果如表3所示.
圖7?采取不同模型獲得的反向傳播顯著圖
從表3中可以看出,與只使用ResNet50相比,在CUB-200-2011、FGVC-Aircraft和Stanford-Cars數(shù)據(jù)集上,本文算法的分類(lèi)準(zhǔn)確率分別提高了1.66%、1.46%和1.10%.與經(jīng)典的雙線性算法相比,本文算法在CUB-200-2011、FGVC-Aircraft和Stanford-Cars數(shù)據(jù)集上,分別提高了2.06%、8.16%和2.10%;與其他經(jīng)典方法相比,也有不同程度的提高,均獲得了最高的分類(lèi)精度,證明了本文算法的有效性.鑒于目標(biāo)局部注意模型(object-part attention model,OPAM)算法[22]和DCT算法[30]僅在數(shù)據(jù)集CUB-200-2011和Stanford-Cars上進(jìn)行了實(shí)驗(yàn);為公平起見(jiàn),本文僅給出了上述兩種算法在相關(guān)數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果.
表3?不同算法細(xì)粒度分類(lèi)準(zhǔn)確率對(duì)比
Tab.3 Comparison of identification accuracy of different fine-grained classification algorithms?????%
此外,從表中還可以看出:CUB-200-2011數(shù)據(jù)集的分類(lèi)準(zhǔn)確率最低;這是由于鳥(niǎo)類(lèi)目標(biāo)較小,姿態(tài)各異,易受背景干擾;此外,該數(shù)據(jù)集類(lèi)別數(shù)目最多,但訓(xùn)練樣本數(shù)目最少,因此分類(lèi)難度最大.
注意力區(qū)域可視化效果如圖8所示.其中,圖8(a)為原始圖像,圖8(b)為準(zhǔn)線ResNet50特征圖注意力區(qū)域的可視化效果,圖8(c)為本文算法的特征圖注意力區(qū)域的可視化效果.從圖中可以看出,本文算法可以精確定位判別性區(qū)域,同時(shí)能去除無(wú)關(guān)的背景信息,特別是在判別性區(qū)域提取難度最大,背景最為復(fù)雜的CUB-200-2011數(shù)據(jù)集上,效果提升最為?明顯.
圖8?特征圖注意力區(qū)域可視化
為了對(duì)本文算法的綜合性能進(jìn)行評(píng)價(jià),本文對(duì)不同算法的分類(lèi)準(zhǔn)確度與復(fù)雜度做了對(duì)比,結(jié)果如表4所示.從表中可以看出,Cimpoi等[31]在深度卷積特征的基礎(chǔ)上引入Fisher Vector,取得了較好的細(xì)粒度分類(lèi)效果;經(jīng)典的雙線性算法[18]采用并行的VGG16[6]提取特征,雖然提高了分類(lèi)準(zhǔn)確度,但也導(dǎo)致了參數(shù)的成倍增加;Gao等[32]提出了兩種緊湊的雙線性表征,在保證分類(lèi)精度的同時(shí),大大減少了參數(shù)量;本文算法在原有的ResNet50[8]結(jié)構(gòu)中引入了反復(fù)注意力機(jī)制,在不顯著增加參數(shù)的前提下,有效地提升了分類(lèi)準(zhǔn)確率.
表4?不同細(xì)粒度分類(lèi)算法性能對(duì)比
Tab.4 Performance comparison of different fine-grained classification algorithms
本文提出了一種多尺度特征融合與反復(fù)注意力機(jī)制網(wǎng)絡(luò)模型作為特征提取器.首先,在結(jié)構(gòu)上融合了多個(gè)尺度的特征描述子,增強(qiáng)了網(wǎng)絡(luò)對(duì)輸入圖像特征信息的表達(dá)能力.其次,對(duì)每個(gè)尺度的輸入特征矩陣,一方面采用通道注意力機(jī)制去除冗余的特征信息,另一方面采用空間注意力機(jī)制去除無(wú)關(guān)的背景信息.實(shí)驗(yàn)結(jié)果表明,本文算法取得了比較理想的細(xì)粒度圖像分類(lèi)效果,與經(jīng)典算法相比,準(zhǔn)確率有了較大程度的提高.
本文算法屬于一種端到端的訓(xùn)練模型,模型結(jié)構(gòu)簡(jiǎn)單,提出的多尺度特征融合與反復(fù)注意力機(jī)制網(wǎng)絡(luò)具有較強(qiáng)的結(jié)構(gòu)遷移性和嵌入性,適用于不同的基本神經(jīng)網(wǎng)絡(luò)模型;此外,本文算法在不同的細(xì)粒度數(shù)據(jù)集上均能取得較好效果,具有很強(qiáng)的泛化能力.
[1] Srivastava A,Han E,Kumar V,et al. Parallel formulations of decision-tree classification algorithms[C]//Proceedings of the International Conference on Parallel Processing(ICPP). Minneapolis,MN,USA,1998:237-244.
[2] Guo Gongde,Wang Hui,Bell D A,et al. KNN model-based approach in classification[C]//OTM Confederated International Conferences CoopIS,DOA,and ODBASE. Catania,Sicily,Italy,2003:986-996.
[3] Mao Q H,Ma H W,Zhang X H. SVM classification model parameters optimized by improved genetic algorithm[J]. Advanced Materials Research,2014,889/890:617-621.
[4] Coskun N,Yildirim T. The effects of training algorithms in MLP network on image classification[C]// Proceedings of the International Joint Conference on IEEEPortland,OR,USA,2003:1223-1226.
[5] Krizhevsky A,Sutskever I,Hinton G. ImageNet classification with deep convolutional neural networks[C]//26th Annual Conference on Neural Information Processing Systems 2012. Lake Tahoe,NV,United states,2012:1097-1105.
[6] Simonyan K,Zisserman A. Very deep convolutional networks for large-scale image recognition[C]// 3rd International Conference on Learning Representations,San Diego,CA,USA,2015:1-14.
[7] Ioffe S,Szegedy C. Batch normalization:Accelerating deep network training by reducing internal covariate shift[C]// 32nd International Conference on Machine Learning. Lile,F(xiàn)rance,2015:448-456.
[8] He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al. Deep residual learning for image recognition[C]// 29th IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas,NV,USA,2016:770-778.
[9] Howard A G,Zhu Menglong,Chen Bo,et al. MobileNets:Efficient Convolutional Neural Networks for Mobile Vision Applications[EB/OL]. https://avxiv.org/ abs/1704.04861,2017-04-17.
[10] Huang Gao,Liu Zhuang,van der Maaten L,et al. Densely connected convolutional networks[C]// Conference on Computer Vision and Pattern Recognition(CVPR). Honolulu,HI,USA,2017:2261-2269.
[11] Yao Bangpeng,Bradski G,Li Feifei. A codebook-free and annotation-free approach for fine-grained image categorization[C]// 2012 IEEE Conference on Computer Vision and Pattern Recognition. Los Alamitos,CA,USA,2012:3466-3473.
[12] Berg T,Belhumeur P N. POOF:Part-based one-vs.-one features for fine-grained categorization,face verifi-cation,and attribute estimation[C]// 2013 IEEE Conference on Computer Vision and Pattern Recognition. Los Alamitos,CA,USA,2013:955-962.
[13] Donahue J,Jia Yangqing,Vinyals O,et al. DeCAF:A deep convolutional activation feature for generic visual recognition[C]//31st International Conference on Machine Learning. Beijing,China,2014:988-996.
[14] Branson S,van Horn G,Belongie S,et al. Bird Species Categorization Using Pose Normalized Deep Convolutional Nets[EB/OL]. https://arxiv.org/abs/1406.2952,2014-06-11.
[15] Zhang N,Donahue J,Girshick R,et al. Part-based R-CNNs for fine-grained category detection[C]// 13th European Conferenceon Computer Vision. Zurich,Switzerland,2014:834-849.
[16] Xiao Tianjun,Xu Yichong,Yang Kuiyuan,et al. The application of two-level attention models in deep convolutional neural network for fine-grained image classification[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston,MA,USA,2015:842-850.
[17] Cui Yin,Zhou Feng,Wang Jiang,et al. Kernel pooling for convolutional neural networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu,HI,USA,2017:3049-3058.
[18] Lin T Y,Roychowdhury A,Maji S. Bilinear CNN models for fine-grained visual recognition[C]// 2015 IEEE International Conference on Computer Vision. Santiago,Chile,2015:1449-1457.
[19] Jaderberg M,Simonyan K,Zisserman A,et al. Spatial transformer networks[C]// 29th Annual Conference on Neural Information Processing Systems. Montreal,QC,Canada,2015:2017-2025.
[20] 冀?中,趙可心,張鎖平,等. 基于空間變換雙線性網(wǎng)絡(luò)的細(xì)粒度魚(yú)類(lèi)圖像分類(lèi)[J]. 天津大學(xué)學(xué)報(bào):自然科學(xué)與工程技術(shù)版,2019,52(5):475-482.
Ji Zhong,Zhao Kexin,Zhang Suoping,et al. Classification of fine-grained fish images based on spatial transformation bilinear networks[J]. Journal of Tianjin University:Science and Technology,2019,52(5):475-482(in Chinese).
[21] Peng Y,He X,Zhao J. Object-part attention model for fine-grained image classification[J]. IEEE Transactions on Image Processing,2018:27(3):1487-1500.
[22] Dubey A,Gupta O,Guo P,et al. Pairwise confusion for fine-grained visual classification[C]// 15th European Conference on Computer Vision. Cham,Switzerland,2018:71-88.
[23] Wang Y,Morariu V I,Davis L S. Learning a discriminative filter bank within a CNN for fine-grained recognition[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Los Alamitos,CA,USA,2018:4148-4157.
[24] Chen Y,Bai Y,Zhang W,et al. Destruction and construction learning for fine-grained image recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition. Long Beach,USA,2019:5157-5166.
[25] Woo Sanghyun,Park Jongchan,Lee Joon-Young,et al. CBAM:Convolutional block attention module[C]// 15th European Conference on Computer Vision. Munich,Germany,2018:3-19.
[26] Park Jongchan,Woo Sanghyun,Lee J Y,et al. BAM:Bottleneck Attention Module[EB/OL]. https:// arxiv.org/abs/1807.06514,2018-07-17.
[27] Hu J,Shen L,Sun G. Squeeze-and-excitation networks[C]// Conference on Computer Vision and Pattern Recognition. Salt Lake City,UT,USA,2018:7132-7141.
[28] Yuan Chenhui,Cheng Chunling. A transfer learning method based on residual block[C]// 2018 IEEE 9th International Conference on Software Engineering and Service Science. Beijing,China,2018:807-810.
[29] Fu J,Zheng H,Mei T. Look closer to see better:Recurrent attention convolutional neural network for fine-grained image recognition[C]// 2017 IEEE Conference on Computer Vision and Pattern RecognitionHonolulu,HI,USA,2017:4476-4484.
[30] Li Zhichao,Yang Yi,Liu Xiao,et al. Dynamic computational time for visual attention[C]// 2017 IEEE International Conference on Computer Vision Workshop. Los Alamitos,CA,USA,2017:1199-1209.
[31] Cimpoi M,Maji S,Vedaldi A. Deep filter banks for texture recognition and segmentation[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston,MA,USA,2015:3828-3836.
[32] Gao Y,Beijbom O,Zhang N,et al. Compact bilinear pooling[C]// 29th IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas,NV,USA,2016:317-326.
Fine-Grained Image Classification Algorithm Using Multi-Scale Feature Fusion and Re-Attention Mechanism
He Kai,F(xiàn)eng Xu,Gao Shengnan,Ma Xitao
(School of Electrical and Information Engineering,Tianjin University,Tianjin 300072,China)
Fine-grained image classification aims to precisely classify an image subclass under a certain category. Hence,it has become a commonand difficult point in the field of computer vision and pattern recognition and has important research value due to its similar features,different gestures,and background interference. The key issue in fine-grained image classification is how to extract precise features from the discriminative region of an image. Existing algorithms based on neural networks are still insufficient in fine feature extraction. Accordingly,a fine-grained image classification algorithm using multi-scale re-attention mechanism is proposed in this study. Considering that high- and low-level features have rich semantic and texture information,respectively,attention mechanism is embedded in different scales to obtain rich feature information. In addition,an input feature map is processed with both channel and spatial attention,which can be regarded as the re-attention of a feature matrix. Finally,using the residual form to combine the attention results and original input feature maps,the attention results on the feature maps of different scales are concatenated and fed into the full connection layer. Thus,accurately extracting salient features is helpful. Accuracy rates of 86.16%,92.26%,and 93.40% are obtained on the international public fine-grained datasets(CUB-200-2011,F(xiàn)GVC Aircraft,and Stanford Cars). Compared with ResNet50,the accuracy rate is increased by 1.66%,1.46%,and 1.10%,respectively. It is obviously higher than that of existing classical algorithms and human performance,which demonstrate the effectiveness of the proposed algorithm.
fine-grained image classification;multi-scale feature fusion;re-attention mechanism;ResNet50
TN911.73
A
0493-2137(2020)10-1077-09
10.11784/tdxbz201910029
2019-10-16;
2019-11-06.
何?凱(1972—??),男,博士,副教授.
何?凱,hekai@tju.edu.cn.
國(guó)家自然科學(xué)基金資助項(xiàng)目(61271326).
Supported by the National Natural Science Foundation of China(No. 61271326).
(責(zé)任編輯:王曉燕)