楊 貞,單孟姣,殷志堅(jiān),楊 凡,李翠梅
(江西科技師范大學(xué)通信與電子學(xué)院,江西 南昌 330013)
細(xì)粒度圖像分類(lèi)與識(shí)別是機(jī)器視覺(jué)中最具挑戰(zhàn)性的任務(wù)之一。在粗粒度圖像分類(lèi)任務(wù)中,所構(gòu)建的網(wǎng)絡(luò)只需區(qū)分出物體的類(lèi)別,例如圖像中的狗、貓、車(chē)等。粗粒度圖像分類(lèi)研究的過(guò)程中,涌現(xiàn)出了一大批優(yōu)秀的網(wǎng)絡(luò),例如VGG-Net[1]、ResNet[2]、Inception[3]等,這些網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率已經(jīng)超過(guò)人類(lèi)。然而細(xì)粒度圖像分類(lèi)致力于從某一類(lèi)粗粒度圖像中區(qū)分出下屬子類(lèi)。細(xì)粒度圖像具有以下特點(diǎn):1)包含背景噪聲且各種尺度的對(duì)象;2)不同子類(lèi)類(lèi)間差異不明顯,如圖1(a)所示;同一子類(lèi)類(lèi)內(nèi)差異較大,如圖1(b)所示。
為了克服上述挑戰(zhàn),近年來(lái),科研人員提出了很多方法來(lái)解決細(xì)粒度圖像分類(lèi)任務(wù)。較早的解決方案引入人工標(biāo)注邊界框以及注釋信息以提供可區(qū)分的信息標(biāo)記,例如SPDA-CNN[4]、HSnet[5]等借助標(biāo)記信息構(gòu)建出的網(wǎng)絡(luò)可以有針對(duì)性地提取特征,以提高分類(lèi)精度。然而,此類(lèi)方法需要大量的標(biāo)注數(shù)據(jù),很難應(yīng)用在實(shí)際中,因此它們逐漸被弱監(jiān)督方法WS[6]、RA-CNN[7]、NTS[8]、MAMC[9]所取代。這些方法利用感興趣邊界框區(qū)域?qū)W習(xí)來(lái)定位判別對(duì)象零件而不需要額外的注釋?zhuān)灰蕾?lài)于基礎(chǔ)的類(lèi)別信息。近年來(lái),物體定位方法也從最初的邊界框和零件注釋發(fā)展到掩模Mask-CNN[10]和使用卷積層響應(yīng)的無(wú)監(jiān)督方法MA-CNN[11]、SCDA[12]。此外,Mask-CNN[10]、WS-DAN[13]、TASN[14]通過(guò)增加判別區(qū)域的數(shù)量,以減少由于視角和姿態(tài)變化等問(wèn)題導(dǎo)致的小目標(biāo)對(duì)象的誤判。同時(shí),一些致力于獲得高級(jí)編碼特征的方法BCNN[15]、CBP[16]、LRBP[17]、HBP[18]也取得了不錯(cuò)的效果。還有,基于補(bǔ)充特征信息的WS-CPM[19]、CIN[20]也被用來(lái)從有限數(shù)據(jù)集中獲得更多的判別特征??梢?jiàn)正確地利用卷積層信息對(duì)于細(xì)粒度圖像分類(lèi)至關(guān)重要。
具體地,人們常用注意力圖來(lái)引導(dǎo)判別性區(qū)域的學(xué)習(xí),例如WS-DAN通過(guò)CNN網(wǎng)絡(luò)得到特征圖,再?gòu)奶卣鲌D中得到注意力裁剪區(qū)域,并將這些區(qū)域和原圖疊加得到增強(qiáng)后的訓(xùn)練數(shù)據(jù),這些數(shù)據(jù)專(zhuān)注于一些細(xì)節(jié)以及判別性區(qū)域,從而提升網(wǎng)絡(luò)的分類(lèi)性能;另外,CNN網(wǎng)絡(luò)中不同層的特征圖交互也有助于提升網(wǎng)絡(luò)的分類(lèi)性能,例如HBP網(wǎng)絡(luò),通過(guò)將深度殘差網(wǎng)絡(luò)不同層的特征圖進(jìn)行交互,具體操作是特征圖逐元素相乘,又叫做雙線(xiàn)性池化,從而得到高階的細(xì)粒度特征。
雖然,HBP利用不同卷積層之間的層間特征交互,集成了多個(gè)跨層雙線(xiàn)性特征,但是卷積激活包含背景噪聲,也會(huì)帶來(lái)冗余信息。OL-MBP[21]提出了一種基于定位模塊的層間交互模型,該模型通過(guò)對(duì)待識(shí)別物體進(jìn)行定位預(yù)訓(xùn)練以減少背景噪聲,進(jìn)而提升分類(lèi)精度。另外,HBPASM[22]提出了一種結(jié)合掩模增強(qiáng)和層間特征交互的方法,該方法對(duì)CNN網(wǎng)絡(luò)通道上的特征圖求和,并設(shè)定基于卷積層上的閾值得到單一的注意力掩模,得到了比HBP更加魯棒的特征。但是,HBPASM將所有通道的特征圖求和得到的單一掩模,會(huì)使特征圖的各通道上包含較多的背景信息和非判別性信息;另外,HBPASM采用基于卷積層上的閾值來(lái)確定掩模,沒(méi)有考慮到通道與通道之間的差異性,并不能自適應(yīng)地增強(qiáng)網(wǎng)絡(luò)對(duì)細(xì)粒度物體的判別性學(xué)習(xí)。基于此,本文提出細(xì)粒度圖像分類(lèi)的通道自適應(yīng)判別性學(xué)習(xí)(Channel Adaptive Discriminative Learning, CADL)方法。CADL的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。其中∩表示對(duì)3個(gè)卷積層上對(duì)應(yīng)通道的掩模取交集,⊙表示將原始通道特征圖和通道聚集掩模逐元素相乘,?表示將層間對(duì)應(yīng)通道的感興趣區(qū)域特征圖矩陣交互逐元素相乘。本網(wǎng)絡(luò)充分考慮特征圖中不同通道所關(guān)注區(qū)域的差異性,對(duì)每個(gè)通道生成一張通道掩模,使各個(gè)通道更加關(guān)注于該通道所表征的判別性區(qū)域;并且,由于各個(gè)通道所關(guān)注區(qū)域形態(tài)不同、位置不同,其所需的用于產(chǎn)生掩模的閾值也會(huì)有較大不同,因此,本文提出自適應(yīng)掩模產(chǎn)生模塊,根據(jù)通道自身的特點(diǎn)計(jì)算出自適應(yīng)閾值,增強(qiáng)每個(gè)通道掩模的判別性學(xué)習(xí)能力。
在常用的細(xì)粒度圖像分類(lèi)數(shù)據(jù)集上進(jìn)行大量的實(shí)驗(yàn),驗(yàn)證了本文方法的有效性且可以在較小的Batch Size下跑出競(jìng)爭(zhēng)性的結(jié)果。本文的工作可以總結(jié)如下:
1)提出生成通道的自適應(yīng)掩模,充分考慮到網(wǎng)絡(luò)中各通道間的差異,提高模型的泛化能力。
2)提出將不同卷積層上的通道自適應(yīng)掩模聚集,可以得到不同通道上的感興趣區(qū)域,提高模型判別性學(xué)習(xí)的能力。
3)只需要一個(gè)主干網(wǎng)絡(luò),通道判別性特征和通道感興趣區(qū)域自適應(yīng)生成模塊相互增強(qiáng)學(xué)習(xí),讓深度神經(jīng)網(wǎng)絡(luò)能夠自適應(yīng)地學(xué)習(xí)新圖片的感興趣區(qū)域,同時(shí)增強(qiáng)通道視覺(jué)模式的特征學(xué)習(xí)。
目前,WS-DAN、TASN、S3Ns[23]使用注意力圖表示零部件和視覺(jué)模式,能夠增強(qiáng)細(xì)粒度特征的學(xué)習(xí):WS-DAN隨機(jī)選擇注意力圖進(jìn)行裁剪和丟棄,實(shí)現(xiàn)弱監(jiān)督數(shù)據(jù)增強(qiáng);TASN采用三線(xiàn)注意力裁剪網(wǎng)絡(luò)學(xué)習(xí)大量提議的區(qū)域,得到更多判別性區(qū)域信息;S3Ns將注意力圖的高響應(yīng)部位作為信息區(qū)域,保留上下文信息的同時(shí)放大部分區(qū)域。BCNN、CBP、LRBP、HBP、HBPASM通過(guò)模擬高階信息以增強(qiáng)細(xì)粒度特征的表示。除此之外,WS-CPM利用互補(bǔ)模塊模型補(bǔ)充細(xì)粒度特征,CIN利用負(fù)相關(guān)性得到同一樣本每個(gè)通道的互補(bǔ)信息,AP-CNN[24]使用感興趣區(qū)域的引導(dǎo)裁剪及低級(jí)特征圖的丟棄分支,以及金字塔結(jié)構(gòu)能夠有效融合多層級(jí)特征,從而表達(dá)出圖片的各種維度特征。
最早的STN[25]方法使空間網(wǎng)絡(luò)轉(zhuǎn)換器具有空間變換不變性,在訓(xùn)練過(guò)程中自動(dòng)選擇感興趣區(qū)域。WS、SCDA、MA-CNN則通過(guò)選擇卷積和濾波器響應(yīng)定位零件:WS用最后一層卷積層得到的特征圖進(jìn)行區(qū)域候選;SCDA進(jìn)一步聚集卷積描述符,采用平均閾值策略得到掩模;MA-CNN將峰值響應(yīng)區(qū)域相鄰?fù)ǖ婪旁谝黄?,獲得多個(gè)判別性區(qū)域。此外,RA-CNN、NTS采用弱監(jiān)督學(xué)習(xí)方法和注意力機(jī)制,使用邊界框提議感興趣區(qū)域同時(shí)增強(qiáng)細(xì)粒度特征的學(xué)習(xí):RA-CNN在多區(qū)域尺度上設(shè)置分類(lèi)子網(wǎng)和注意力建議子網(wǎng),探索判別性區(qū)域;NTS用一種多結(jié)構(gòu)自監(jiān)督的網(wǎng)絡(luò)進(jìn)行信息區(qū)域的檢測(cè),來(lái)有效定位信息區(qū)域。在此基礎(chǔ)上,CAM[26]通過(guò)疊加全連接層對(duì)應(yīng)的分類(lèi)權(quán)重到特征圖生成類(lèi)激活圖,進(jìn)而識(shí)別最有判別性的部位。MAMC則使用SE[27]的Squeeze Excitation和度量約束獲得多樣的注意力區(qū)域。Mask-CNN在訓(xùn)練階段需要區(qū)域標(biāo)注的標(biāo)簽,全卷積生成物體區(qū)域掩模來(lái)定位物體。
如圖3中流程所示,本文的CADL方法包含通道感興趣區(qū)域自適應(yīng)生成(Channel Interested Region Adaptive Generation, CIRAG)模塊和層間交互特征增強(qiáng)(Interactive Feature Enhancement, IFE)模塊。使用常用的殘差卷積神經(jīng)網(wǎng)絡(luò)ResNet34[2]作為本文的主干網(wǎng)絡(luò),主要作用是提取圖像的細(xì)粒度特征。首先,將ResNet34的3個(gè)卷積層的特征圖輸入到通道感興趣區(qū)域自適應(yīng)生成模塊,得到每個(gè)通道的掩模,每個(gè)通道上掩模的閾值都是不同的,再將多個(gè)通道聚集掩模和最后3個(gè)卷積層的原始特征圖逐通道逐元素相乘,通道聚集掩模選擇性提取通道特征圖上的感興趣區(qū)域的通道判別性特征,得到感興趣區(qū)域增強(qiáng)后的通道特征圖。最后,將增強(qiáng)后的特征圖分別輸入到層間交互特征增強(qiáng)模塊,將通道判別性區(qū)域特征進(jìn)行層間交互,充分利用多個(gè)卷積層上的特征,避免只用最后一個(gè)卷積層上輸出的特征進(jìn)行分類(lèi)而造成其它卷積層上判別性信息的丟失,并將輸出的特征向量進(jìn)行拼接,得到增強(qiáng)后的特征向量。最后將特征向量進(jìn)行全連接降維操作,即得到最終的特征向量,并用于最終分類(lèi)。
本節(jié)介紹細(xì)粒度圖像分類(lèi)的通道感興趣區(qū)域自適應(yīng)生成模塊,如圖4所示。該模塊主要由2部分組成:通道自適應(yīng)掩模產(chǎn)生模塊和通道特征增強(qiáng)模塊。該網(wǎng)絡(luò)通過(guò)無(wú)監(jiān)督的方式從每個(gè)通道特征圖上自適應(yīng)地選取閾值,可以更好地定位出每個(gè)通道的感興趣區(qū)域,提高網(wǎng)絡(luò)的性能。
2.1.1 通道自適應(yīng)掩模產(chǎn)生模塊
通道自適應(yīng)掩模產(chǎn)生的具體步驟如下:
1)將圖片輸入ResNet34網(wǎng)絡(luò),并從網(wǎng)絡(luò)中提取conv4_0、conv4_1、conv4_2這3個(gè)卷積層的輸出為X、Y、Z。其中X=[X1,X2,…,Xc]T為卷積層上一個(gè)空間位置(i,j)的c維描述符,i∈{1,…,h},j∈{1,…,w},Xk∈Rh×w為第k個(gè)通道的特征圖,h為特征圖的高,w為特征圖的寬,k∈{1,…,c},c為通道的總個(gè)數(shù)。
2)將conv4_0、conv4_1、conv4_2輸出的特征圖X、Y、Z輸入到一種新的自適應(yīng)激活函數(shù)meta-ACON[28]中,該激活函數(shù)定義如下:
ACON_C(x)=Sβ(p1x,p2x)
(1)
Sβ(p1x,p2x)=(p1-p2)xσ[β(p1-p2)x]+p2x
(2)
其中:σ為sigmoid函數(shù);p1和p2是自定義學(xué)習(xí)參數(shù),跟隨訓(xùn)練過(guò)程而更新;Sβ為MAX激活函數(shù)的平滑可微分變體。Sβ的大小控制著通道的激活程度,當(dāng)Sβ為0時(shí)通道不激活。
這里,β通過(guò)2個(gè)卷積層計(jì)算得到:
(3)
其中W1和W2為2個(gè)全連接層。為了節(jié)省參數(shù)量,W1的輸入通道數(shù)和conv4_0、conv4_1、conv4_2的通道數(shù)相同,為c,輸出通道為c/16;W2的輸入通道數(shù)為c/16,輸出通道數(shù)為c。受ACON[28]的啟發(fā),激活函數(shù)為通道方向的激活,且每個(gè)通道共享權(quán)重,保證了通道間的相互獨(dú)立性。
3)對(duì)激活后的通道特征圖計(jì)算自適應(yīng)閾值系數(shù)。計(jì)算公式如下:
(4)
4)得到閾值系數(shù)alpha之后,通過(guò)如下公式得到每個(gè)通道的自適應(yīng)掩模:
(5)
其中ξ∈(0,1)是松弛變量,為了方便實(shí)驗(yàn)對(duì)照,將ξ設(shè)置為0.1。由于自適應(yīng)閾值系數(shù)由每個(gè)通道的差異性決定,即可對(duì)每一個(gè)通道的特征圖Xk都生成一個(gè)自適應(yīng)激活掩模Mk。
2.1.2 通道特征增強(qiáng)模塊
通道自適應(yīng)掩模包含了每個(gè)通道所關(guān)注的區(qū)域,將3個(gè)卷積層的通道自適應(yīng)掩模層間聚集得到每個(gè)通道的聚集掩模。經(jīng)過(guò)可視化實(shí)驗(yàn)驗(yàn)證,通道聚集掩模可以更加準(zhǔn)確地定位出通道的感興趣區(qū)域。因此,通道聚集掩??捎糜谠纪ǖ捞卣鲌D的特征增強(qiáng)。
通道特征增強(qiáng)的具體步驟如下:
1)將conv4_0、conv4_1、conv4_2通過(guò)通道自適應(yīng)掩模產(chǎn)生模塊得到3個(gè)不同卷積層上的通道自適應(yīng)掩模M4_0、M4_1、M4_2。接著,將掩模進(jìn)行交集得到聚集掩模:
Magg=M4_0∩M4_1∩M4_2
(6)
其中,求交集張量操作∩定義為:如果所有掩模相同位置元素均為1,那么生成掩模的對(duì)應(yīng)位置才為1,否則為0。
2)將聚集掩模和原始特征圖進(jìn)行逐元素相乘操作,即可得到增強(qiáng)后的特征圖:
(7)
其中,F(xiàn)M表示ResNet34網(wǎng)絡(luò)上conv4_0、conv4_1、conv4_2對(duì)應(yīng)卷積層上所有通道特征圖的集合。
本節(jié)介紹使用多個(gè)跨層雙線(xiàn)性池化模型實(shí)現(xiàn)層間交互特征增強(qiáng)的機(jī)制和具體操作步驟。
1)層間交互特征增強(qiáng)的機(jī)制。
雙線(xiàn)性池化模型包括雙線(xiàn)性層和池化層。雙線(xiàn)性池化模型主要用來(lái)融合不同的特征,如BCNN中通過(guò)2個(gè)特征提取器得到成對(duì)的特征,將成對(duì)的特征經(jīng)過(guò)矩陣外積和池化后輸出固定長(zhǎng)度的高維特征表示,從而實(shí)現(xiàn)成對(duì)特征交互的建模。但是雙線(xiàn)性池化得到的特征維數(shù)過(guò)高,可以通過(guò)矩陣的低秩分解來(lái)降低維度。由CBP和LRBP分解雙線(xiàn)性池化的思想得到矩陣因式分解后低秩外積形式的雙線(xiàn)性池化模型表示為以下形式:
FX,Y=PT(UTX°VTY)
(8)
其中U∈Rc×d、V∈Rc×d是得到d維特征向量的投影矩陣,P∈Rd×w是得到w維特征向量的分類(lèi)矩陣,X、Y為不同卷積層上的c維描述符,w為輸出類(lèi)別數(shù)目,°為Hadamard乘積操作,F(xiàn)X,Y∈Rw表示輸出的特征向量。
為了充分利用多個(gè)卷積層上的特征,HBP在多個(gè)卷積層上使用雙線(xiàn)性池化模型。使用多個(gè)跨層雙線(xiàn)性池化模型的思想得到本文層間交互特征增強(qiáng)機(jī)制的公式如下:
ZHBP=PTconcat(FBPX*,Y*,FBPX*,Z*,FBPY*,Z*)
(9)
2)層間交互特征增強(qiáng)的具體操作步驟如下:
首先將增強(qiáng)后的特征圖FM(4_0)enhanced、FM(4_1)enhanced、FM(4_2)enhanced兩兩進(jìn)行逐通道逐元素相乘,得到層間交互特征:
(10)
然后將得到的層間交互特征經(jīng)過(guò)平均池化和L2歸一化后得到的雙線(xiàn)性矢量串聯(lián),得到多個(gè)跨層雙線(xiàn)性池化向量融合后的增強(qiáng)特征。
在公共的細(xì)粒度圖像分類(lèi)數(shù)據(jù)集CUB-200-2011[29]、Stanford Cars[30]和FGVC-Aircraft[31]上開(kāi)展大量的實(shí)驗(yàn),數(shù)據(jù)集圖像的類(lèi)別數(shù)目和劃分策略總結(jié)如表1所示。
表1 3個(gè)公共數(shù)據(jù)集的介紹
實(shí)驗(yàn)采用在ImageNet上預(yù)訓(xùn)練的ResNet34架構(gòu),去掉網(wǎng)絡(luò)最后的全連接層,加上模型中的通道感興趣區(qū)域自適應(yīng)生成組件和層間交互特征增強(qiáng)組件。先用邏輯回歸訓(xùn)練新加入的層和分類(lèi)器,然后使用隨機(jī)梯度下降法在整個(gè)網(wǎng)絡(luò)上進(jìn)行參數(shù)的迭代更新和訓(xùn)練。2步訓(xùn)練的初始學(xué)習(xí)率分別為1和0.1,epoch分別為80和160,學(xué)習(xí)率衰減策略采用固定步長(zhǎng)衰減,每40步減小為其1/10, Batch Size都為8,權(quán)重衰減為1×10-5,動(dòng)量為0.9,輸入圖片的固定尺寸為448×448,訓(xùn)練階段采用隨機(jī)水平翻轉(zhuǎn)和隨機(jī)裁剪,測(cè)試階段采用中心裁剪。選取3個(gè)卷積層conv4_0、conv4_1、conv4_2進(jìn)行全連接,全連接層的輸入通道數(shù)為8192×3,輸出通道數(shù)設(shè)置為訓(xùn)練數(shù)據(jù)集的類(lèi)別數(shù)。具體地,對(duì)CUB-200-2011、Stanford Cars、FGVC-Aircraft數(shù)據(jù)集來(lái)說(shuō)全連接層輸出通道數(shù)分別為200、196、100。所有的實(shí)驗(yàn)采用PyTorch深度學(xué)習(xí)框架實(shí)現(xiàn),在Ubuntu 20.04 64 bit操作系統(tǒng)上完成。硬件配置如下:CPU為Intel Core i7-10700,內(nèi)存為16 GB;GPU為NVIDIA Geforce GTX 1660Ti,顯存為6 GB。
本節(jié)將驗(yàn)證通道感興趣區(qū)域自適應(yīng)生成模塊產(chǎn)生的通道聚集掩模的有效性,并對(duì)于其中的通道自適應(yīng)掩模和通道聚集掩模對(duì)本文算法的貢獻(xiàn)進(jìn)行消融實(shí)驗(yàn)。不同掩模對(duì)網(wǎng)絡(luò)分類(lèi)精度的影響結(jié)果如表2所示,包括傳統(tǒng)掩模、HBPASM中的松弛聚集掩模、本文中的聚集掩模。
表2 不同掩模對(duì)網(wǎng)絡(luò)分類(lèi)平均精度的影響結(jié)果/%
傳統(tǒng)掩模和松弛聚集掩模都忽略了同一空間位置不同通道對(duì)不同視覺(jué)模式的選擇激活的程度。從表2中可以看出,本文提出的通道自適應(yīng)掩模產(chǎn)生模塊中的聚集掩模的精度最高,說(shuō)明與傳統(tǒng)掩模相比,聚集掩??梢杂行コ诸?lèi)對(duì)象的背景噪聲,得到更精確的判別性學(xué)習(xí);同時(shí)與HBPASM相比,本文提出的聚集掩??梢圆捎脽o(wú)監(jiān)督學(xué)習(xí)的方法得到自適應(yīng)掩模閾值系數(shù)alpha,能夠得到更豐富的通道感興趣區(qū)域,且不用引入額外的參數(shù),增強(qiáng)了通道的判別性學(xué)習(xí)和網(wǎng)絡(luò)的泛化能力。
傳統(tǒng)掩模為獨(dú)立掩模沒(méi)有聚集,具體為傳統(tǒng)細(xì)粒度圖像分類(lèi)中用到的獨(dú)立掩模,首先讓相關(guān)位置所有通道響應(yīng)求和得到卷積層上的激活圖,然后采用平均閾值策略對(duì)激活圖上的相關(guān)位置是否激活作出0和1的響應(yīng),得到卷積層上的掩模。松弛聚集掩模為使用松弛變量的聚集掩模,具體為HBPASM中考慮到如果直接用0和1二值化處理掩模過(guò)于武斷,容易造成前景區(qū)域誤判成背景區(qū)域,丟失物體的定位信息;區(qū)別于傳統(tǒng)掩模直接將非顯著激活區(qū)域設(shè)置為0響應(yīng)的做法,它將響應(yīng)值設(shè)置為0.1,以此來(lái)減少前景區(qū)域的誤判;同時(shí)HBPASM針對(duì)感興趣區(qū)域的定位使用了多個(gè)卷積層激活圖上得到的掩模,對(duì)多個(gè)掩模進(jìn)行交集得到聚集掩模。不同于傳統(tǒng)圖像掩模的生成方式和松弛聚集掩模的設(shè)置,本文中的聚集掩模為通道聚集掩模,在通道上生成掩模并對(duì)通道上的掩模進(jìn)行聚集,每個(gè)通道都會(huì)得到一個(gè)聚集掩模,因此可以得到通道的判別性區(qū)域特征。同時(shí)本文的掩模考慮到了通道間的差異性,在通道方向上使用自適應(yīng)激活函數(shù),自適應(yīng)選擇是否激活神經(jīng)元。本文用通過(guò)自適應(yīng)激活函數(shù)后得到的通道特征圖上的均值來(lái)替換HBPASM中的交叉驗(yàn)證得到參數(shù)0.6,得到通道自適應(yīng)的掩模閾值系數(shù),這樣一來(lái)各個(gè)通道上掩模的閾值是自適應(yīng)學(xué)習(xí)的。此外考慮到HBPASM在卷積層上生成掩模時(shí),非顯著響應(yīng)0.1的松弛設(shè)置通過(guò)聚集掩模的計(jì)算并沒(méi)有減少前景區(qū)域的誤判,本文中0.1的響應(yīng)設(shè)置只是為了學(xué)習(xí)更多通道的判別性區(qū)域特征,并方便實(shí)驗(yàn)對(duì)照。
將各個(gè)通道上生成的自適應(yīng)掩模和聚集掩模上采樣后疊加到原始圖片上進(jìn)行可視化,結(jié)果如圖5所示。3個(gè)卷積層上獨(dú)立的通道自適應(yīng)掩模對(duì)應(yīng)進(jìn)行層間聚集,生成c個(gè)通道自適應(yīng)聚集掩模,選取1個(gè)聚集掩模進(jìn)行展示。其中第1列為原圖,第2~第4列為獨(dú)立通道自適應(yīng)掩模疊加到原圖的效果,第5列為聚集掩模疊加到原圖的效果。從圖5可以看出通道聚集掩模相比獨(dú)立的通道自適應(yīng)掩模生成了更加精確的感興趣區(qū)域,并自動(dòng)丟棄背景噪聲,使層間特征交互在更細(xì)粒度的特征上進(jìn)行。
為了展示模型的泛化能力和有效性,分別選取細(xì)粒度數(shù)據(jù)集CUB-200-2011、Stanford Cars和FGVC-Aircraft中的多個(gè)樣本進(jìn)行可視化實(shí)驗(yàn),來(lái)驗(yàn)證通道聚集掩模在多個(gè)細(xì)粒度數(shù)據(jù)集上的有效性。多個(gè)數(shù)據(jù)集樣本上通道聚集掩模的可視化實(shí)驗(yàn)結(jié)果如圖6所示。選取一個(gè)通道進(jìn)行展示,可以看出通道聚集掩模在多個(gè)數(shù)據(jù)集上都可以很好地定位出細(xì)粒度對(duì)象的位置和輪廓,得到樣本的通道感興趣區(qū)域。
為了進(jìn)一步驗(yàn)證通道自適應(yīng)掩模和通道聚集掩模2個(gè)環(huán)節(jié)以及層間交互增強(qiáng)模塊對(duì)本文算法的影響,對(duì)其進(jìn)行消融實(shí)驗(yàn)。以CUB-200-2011數(shù)據(jù)集為例,不同環(huán)節(jié)對(duì)本文模型分類(lèi)平均精度的影響結(jié)果如表3所示。
表3 不同環(huán)節(jié)對(duì)模型分類(lèi)平均精度的影響結(jié)果
表3的結(jié)果中通道自適應(yīng)掩模考慮到通道的差異性,生成了自適應(yīng)的通道掩模,有助于通道判別性區(qū)域的學(xué)習(xí)。通道聚集掩模充分利用了多個(gè)卷積層的信息,并進(jìn)一步生成了通道上的感興趣區(qū)域,促進(jìn)了通道感興趣區(qū)域的生成,同時(shí)又增強(qiáng)了通道判別性區(qū)域的學(xué)習(xí)。通道自適應(yīng)掩模和通道聚集掩模相互增強(qiáng)學(xué)習(xí)。層間交互增強(qiáng)模塊使用多個(gè)跨層雙線(xiàn)性池化,實(shí)現(xiàn)對(duì)多個(gè)卷積層特征的建模,進(jìn)一步增強(qiáng)了通道判別性特征的表示能力。
將本文提出的模型與傳統(tǒng)的圖像分類(lèi)網(wǎng)絡(luò)VGG-19、ResNet50[2]、使用注意力機(jī)制和感興趣框的方法RA-CNN、NTS、定位更多判別性區(qū)域的方法MA-CNN、MAMC、基于池化的方法BCNN、CBP、LRBP、HBPASM、帶有目標(biāo)定位的雙線(xiàn)性池化模型OL-MBP進(jìn)行對(duì)比,結(jié)果的平均精度如表4所示,表明本文的方法可以在保持簡(jiǎn)單性的同時(shí)實(shí)現(xiàn)較好的分類(lèi)精度。具體地,與傳統(tǒng)的圖像分類(lèi)網(wǎng)絡(luò)相比,它充分利用了多層卷積層的特征,減少了卷積層上細(xì)粒度特征的丟失;與使用注意力機(jī)制和感興趣框的方法相比,它可以方便地提取感興趣區(qū)域的特征,避免定位模塊和分類(lèi)網(wǎng)絡(luò)交替或多層疊加使網(wǎng)絡(luò)調(diào)諧復(fù)雜化,影響單個(gè)集成網(wǎng)絡(luò)的分類(lèi)性能;與定位更多判別性區(qū)域的方法相比,它在全局上保留了對(duì)象的結(jié)構(gòu)信息,同時(shí)利用判別性部位和非判別性區(qū)域的信息,在局部上使用通道自適應(yīng)掩模方便地生成更加多樣化的通道感興趣區(qū)域,在通道方向上實(shí)現(xiàn)模型判別性特征學(xué)習(xí)和判別性區(qū)域?qū)W習(xí)的相互增強(qiáng);與基于池化的方法相比,它結(jié)合了掩模對(duì)對(duì)象的精確定位、通道特征的增強(qiáng)以及層間交互特征增強(qiáng),使它在避免背景噪聲的干擾下更好地實(shí)現(xiàn)特征的增強(qiáng),同時(shí)增強(qiáng)了通道方向上網(wǎng)絡(luò)關(guān)于對(duì)象的視覺(jué)模式的學(xué)習(xí),實(shí)現(xiàn)了更好的細(xì)粒度圖像分類(lèi);與帶有目標(biāo)定位的雙線(xiàn)性池化模型OL-MBP相比,它無(wú)需2次經(jīng)過(guò)主干網(wǎng)絡(luò),只需要一個(gè)主干網(wǎng)絡(luò)就實(shí)現(xiàn)了物體邊緣的精確定位且得到多樣化的通道判別性區(qū)域,并且在Stanford Cars和FGVC-Aircraft上得到了相對(duì)更高的分類(lèi)精度。細(xì)粒度圖像分類(lèi)的通道自適應(yīng)判別性學(xué)習(xí)方法,使用無(wú)監(jiān)督方式生成c個(gè)通道感興趣區(qū)域,得到細(xì)粒度圖像在通道上的判別性特征,對(duì)人類(lèi)較難識(shí)別的細(xì)粒度圖像數(shù)據(jù)集來(lái)說(shuō),它在通道上實(shí)現(xiàn)了對(duì)物體判別性特征的學(xué)習(xí)和感興趣區(qū)域的定位,有助于卷積神經(jīng)網(wǎng)絡(luò)對(duì)難以區(qū)分的細(xì)粒度圖像數(shù)據(jù)集的識(shí)別。
表4 平均精度對(duì)比/%
本文提出了一個(gè)新的無(wú)監(jiān)督細(xì)粒度圖像分類(lèi)的通道自適應(yīng)判別性學(xué)習(xí)網(wǎng)絡(luò),它通過(guò)通道自適應(yīng)掩模產(chǎn)生模塊得到更細(xì)節(jié)的通道感興趣區(qū)域,再經(jīng)過(guò)特征增強(qiáng)模塊得到更加精確的通道聚集掩模,進(jìn)而得到避免背景干擾的對(duì)象特征,保留了對(duì)象的結(jié)構(gòu)特征和更精細(xì)的特征,最后通過(guò)層間交互特征增強(qiáng)模塊集成多個(gè)跨層雙線(xiàn)性特征獲得高層次特征,增強(qiáng)了細(xì)粒度特征的表示。其能夠有效定位通道感興趣區(qū)域,實(shí)現(xiàn)了通道判別性特征的學(xué)習(xí),并充分利用了多個(gè)卷積層上的特征。此外,使用通道自適應(yīng)掩模產(chǎn)生的模塊在通道方向上依照激活響應(yīng)的強(qiáng)度可自適應(yīng)生成差異化的通道掩模,實(shí)現(xiàn)了通道自適應(yīng)判別性學(xué)習(xí),因而增強(qiáng)了模型的泛化能力??傊?,本文提出的網(wǎng)絡(luò)架構(gòu)無(wú)需邊界框和零件注釋?zhuān)哂卸说蕉说挠?xùn)練機(jī)制,可直接使用對(duì)象的全局信息實(shí)現(xiàn)細(xì)粒度圖像分類(lèi),并隱式地增強(qiáng)了通道判別性區(qū)域的學(xué)習(xí),在3個(gè)公共數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),證實(shí)了網(wǎng)絡(luò)框架的有效性。