曾愛(ài)博,陳優(yōu)廣
1.華東師范大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,上海 200062
2.華東師范大學(xué) 數(shù)據(jù)科學(xué)與工程學(xué)院,上海 200062
長(zhǎng)期以來(lái),基于內(nèi)容的圖像檢索(content based image retrieval,CBIR)一直是計(jì)算機(jī)視覺(jué)領(lǐng)域的熱門(mén)研究話題?;趦?nèi)容的圖像檢索方法通常利用特定的特征提取方法提取圖像特征,進(jìn)而計(jì)算特征之間的相似度并排序,從而返回與待檢索圖像相似度最高的多張圖像作為結(jié)果。其中,圖像特征是影響圖像檢索效果的主要因素。
在傳統(tǒng)CBIR方法中,SIFT方法[1]及其變種[2]被廣泛用于提取圖像的局部特征,而VLAD[3]與Fisher Vector[4]等方法被用于進(jìn)一步聚合以產(chǎn)生效率更高的全局特征。近年來(lái),由于深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional nerual network,DCNN)可以利用大量訓(xùn)練數(shù)據(jù)學(xué)習(xí)到更具語(yǔ)義信息的特征,許多利用深度特征進(jìn)行檢索的方法被不斷提出,并展示出優(yōu)于傳統(tǒng)特征的效果,如Babenko等人[5]利用CNN中全連接層的輸出作為圖像特征進(jìn)行檢索。然而,相比于全連接層的輸出,CNN中卷積層輸出的特征圖(feature map)保留了更豐富的空間信息并能取得更高的檢索精度[6-8]。此外,相比于來(lái)自低層的特征,CNN中高層產(chǎn)生的特征具有更豐富的語(yǔ)義信息。因此,大多數(shù)基于CNN的圖像檢索方法利用最后一層卷積層輸出的特征圖生成圖像特征進(jìn)行檢索。
進(jìn)一步地,卷積層輸出的特征圖常需通過(guò)特定的特征聚合方法產(chǎn)生壓縮性的圖像特征以實(shí)現(xiàn)高效檢索,如最大值池化[8]、平均值池化[6]。此外,R-MAC方法[8]先以網(wǎng)格化方式產(chǎn)生不同尺度的眾多區(qū)域,并在各區(qū)域上分別進(jìn)行最大值池化,進(jìn)而對(duì)所有區(qū)域特征進(jìn)行聚合得到最終的圖像特征。R-MAC方法在區(qū)域?qū)哟紊线M(jìn)行最大值池化并進(jìn)一步聚合,使得最終圖像特征之間的匹配實(shí)際上是不同區(qū)域特征之間的匹配。與以上所提的非參數(shù)化方法不同,GeM池化方法(generalized mean pooling)[9]存在可訓(xùn)練參數(shù),可通過(guò)訓(xùn)練取得更高的檢索精度。當(dāng)這些可訓(xùn)練參數(shù)的值等于某些特殊值時(shí),GeM池化實(shí)際上等同于最大值池化或平均值池化。因此,GeM池化是對(duì)最大值池化及平均值池化的泛化,并能取得更好的表現(xiàn)。受R-MAC方法啟發(fā),RGMP方法[10]先在多個(gè)區(qū)域上進(jìn)行GeM池化得到區(qū)域特征,進(jìn)而對(duì)區(qū)域特征進(jìn)行聚合得到最終的圖像特征。然而,RGMP方法通過(guò)額外的RPN網(wǎng)絡(luò)(region proposal network)產(chǎn)生區(qū)域信息,需要使用帶有標(biāo)注框信息的數(shù)據(jù)集進(jìn)行訓(xùn)練,影響了方法的適用性。
一些基于CNN的圖像檢索方法[8]使用經(jīng)過(guò)了ImageNet數(shù)據(jù)集[11]預(yù)訓(xùn)練的CNN模型直接提取圖像的特征,并被歸為off-the-shelf方法。與off-the-shelf方法相比,一些方法利用目標(biāo)數(shù)據(jù)集對(duì)經(jīng)過(guò)了ImageNet數(shù)據(jù)集預(yù)訓(xùn)練的CNN模型進(jìn)行進(jìn)一步微調(diào)訓(xùn)練[9],產(chǎn)生更適應(yīng)目標(biāo)數(shù)據(jù)集的圖像特征。在微調(diào)訓(xùn)練的過(guò)程中,損失函數(shù)是影響最終檢索精度的主要因素。與早期工作使用的圖像分類(lèi)損失相比,排序損失(ranking loss)[9,12-14]可直接以圖像檢索任務(wù)為目標(biāo)進(jìn)行優(yōu)化,能生成更適應(yīng)圖像檢索任務(wù)的圖像特征。排序損失通常利用一些訓(xùn)練樣本構(gòu)成一個(gè)集合,如二元圖像組(pair)[9]、三元組(triplet)[12]、四元組(quadruplet)[13]、N元組(N-pair)[14]等,使集合內(nèi)具有相同標(biāo)簽的圖像在高維向量空間中距離相近而具有不同標(biāo)簽的圖像之間距離較遠(yuǎn)。進(jìn)一步地,最近工作[15-16]表明,在排序損失的基礎(chǔ)上加入圖像分類(lèi)損失,可以有效增大圖像的類(lèi)間距離,使訓(xùn)練過(guò)程能更快收斂并取得更高的檢索精度。
為進(jìn)一步提高檢索精度,一些工作在模型中引入了注意力機(jī)制以進(jìn)行信息篩選,從而產(chǎn)生更具辨別性的圖像特征。對(duì)于CNN最后一層卷積層輸出的特征圖,DELF方法[17]通過(guò)一個(gè)注意力模塊產(chǎn)生特征圖中各特征的重要性,其中該注意力模塊由兩個(gè)卷積核大小為1×1的卷積層以及softplus激活層組成。而ABIR方法[18]提出的注意力模塊使用兩個(gè)不同卷積層輸出的特征圖作為輸入,通過(guò)特征圖之間的信息融合實(shí)現(xiàn)信息篩選。AGeM方法[19]則通過(guò)以三個(gè)不同卷積層輸出的特征圖作為輸入的旁路注意力模塊,結(jié)合GeM池化方法產(chǎn)生高效高質(zhì)量的圖像特征。此外,衡量特征圖中不同特征在特征聚合方法中的權(quán)重同樣能實(shí)現(xiàn)對(duì)特征的信息篩選。例如,CroW[7]方法通過(guò)非參數(shù)化的權(quán)重方法衡量特征圖中空間維度和通道維度上不同特征的重要性,從而突出重要特征并抑制無(wú)關(guān)特征。GeM池化方法對(duì)特征圖中同一通道的不同特征賦予了同等的權(quán)重,以進(jìn)行特征聚合。而wGeM方法[20]則在GeM方法的基礎(chǔ)上,通過(guò)一個(gè)卷積核大小為3×3的卷積層及softmax層,預(yù)測(cè)不同特征的權(quán)重。然而,以上注意力機(jī)制或權(quán)重方法都是通過(guò)計(jì)算不同特征的重要性實(shí)現(xiàn)信息篩選,從而產(chǎn)生更高質(zhì)量的特征,卻沒(méi)有考慮不同特征之間存在的聯(lián)系。最近,SOLAR[21]方法將在自然語(yǔ)言處理及許多計(jì)算機(jī)視覺(jué)任務(wù)上表現(xiàn)優(yōu)秀的二階注意力模塊(second-order attention,SOA)應(yīng)用在圖像檢索中,并取得了成功。SOA模塊考慮任一特征與所有特征之間的聯(lián)系,并通過(guò)特征之間的信息融合產(chǎn)生相應(yīng)位置上的新特征。然而,任一特征與所有特征都進(jìn)行信息融合將導(dǎo)致極大的信息冗余,不利于壓縮性特征的生成。此外,目標(biāo)物體一般只存在于圖像的某部分區(qū)域。與目標(biāo)物體更相關(guān)的某些特征與所有特征進(jìn)行交互時(shí),將與許多與目標(biāo)物體相關(guān)性不高的特征進(jìn)行信息融合,影響了信息篩選的效果。與SOA相比,在圖像分類(lèi)任務(wù)中表現(xiàn)良好的獨(dú)立自注意力模塊(stand-alone self-attention,SASA)[22]只考慮任一特征與相鄰的局部特征之間的聯(lián)系。因此,本文將SASA應(yīng)用在圖像檢索中,有效利用局部特征之間的聯(lián)系生成更高質(zhì)量的特征,從而改善以上所述問(wèn)題。
除此之外,集成機(jī)制[23-24]也可以有效提升圖像檢索的精度。例如,ABE[23]方法在模型中引入多個(gè)結(jié)構(gòu)相同的注意力模塊,構(gòu)成多個(gè)注意力分支,并通過(guò)連接不同分支產(chǎn)生的圖像特征得到最終的圖像特征。為使得各注意力模塊聚焦于圖像的不同方面以實(shí)現(xiàn)功能互補(bǔ),ABE在排序損失的基礎(chǔ)上引入了各分支之間的差異損失(divergence loss),從而提高檢索精度。然而,ABE方法沒(méi)有考慮圖像分類(lèi)損失對(duì)訓(xùn)練各注意力分支的作用。此外,ABE不能有效利用各分支特征產(chǎn)生最終圖像特征,檢索精度不夠高。因此,本文提出了一個(gè)新的多注意力集成框架(multi-attention ensemble framework,MAE),有效地利用不同注意力分支產(chǎn)生的特征產(chǎn)生最終圖像特征,并同時(shí)利用排序損失、各注意力分支之間的差異損失及各分支的圖像分類(lèi)損失對(duì)模型聯(lián)合訓(xùn)練,以提高模型訓(xùn)練效果。
綜合以上所述,本文的貢獻(xiàn)主要有以下三點(diǎn):
第一,本文將獨(dú)立自注意力模塊SASA應(yīng)用于圖像檢索任務(wù)中,使各特征僅與相鄰的局部特征進(jìn)行交互,以改善利用SOA模塊的圖像檢索方法中存在的問(wèn)題。
第二,本文提出了新的多注意力集成框架MAE,在模型中集成多個(gè)注意力分支以提高檢索精度。框架中的差異損失可以使各注意力分支之間實(shí)現(xiàn)互補(bǔ),圖像分類(lèi)損失可以增大圖像特征的類(lèi)間距離,從而加快各注意力分支的訓(xùn)練并提升訓(xùn)練效果。
第三,本文通過(guò)在CARS-196[25]及CUB-200-2011[26]圖像檢索數(shù)據(jù)集上的大量實(shí)驗(yàn)驗(yàn)證了所提方法的有效性。
與SOA計(jì)算任一特征與所有特征之間的聯(lián)系不同,獨(dú)立自注意力模塊(stand-alone self-attention,SASA)[22]僅考慮任一特征與相鄰局部特征之間的聯(lián)系。記注意力模塊的輸入張量為X∈RC×H×W,其中C是通道數(shù)量。對(duì)于X的某像素特征Xi,j∈RC,定義其相鄰局部特征的位置集合為Xi,j:
其中,δ表示相鄰特征的最大空間距離。集合Ωi,j(δ)中任一元素(a,b)所對(duì)應(yīng)的特征Xa,b屬于與相鄰的特征,SASA將考慮兩者之間的聯(lián)系。
對(duì)于Xi,j,本文所使用的SASA模塊通過(guò)以下方式計(jì)算其與相鄰的局部特征之間的聯(lián)系,并得到相應(yīng)的新特征:
其中,WQ,WK,WV∈RC×(C/E)分別為三個(gè)全連接層的參數(shù)。WQ、WK、WV可通過(guò)調(diào)整參數(shù)E實(shí)現(xiàn)降維,以減少SASA的參數(shù)數(shù)量從而降低模型的收斂難度。隨后,特征Yi,j通過(guò)參數(shù)為WU∈R(C/E)×C的全連接層進(jìn)行升維,從而通過(guò)跳躍連接(skip-connection)的方式與輸入特征Xi,j結(jié)合使訓(xùn)練過(guò)程更加穩(wěn)定,并得到最終的輸出特征Zi,j∈RC:
以上過(guò)程將在輸入張量X∈RC×H×W的任一像素特征Xi,j∈RC中進(jìn)行,從而得到SASA模塊對(duì)應(yīng)的輸出Z∈RC×H×W。
多注意力集成框架(下面簡(jiǎn)稱(chēng)框架)可集成多個(gè)注意力分支。受篇幅限制,圖1展示了僅存在兩個(gè)注意力分支的框架。框架可以選擇任意CNN作為主干,如VGG[27]、ResNet[28]等。對(duì)于某輸入圖像I,CNN主干的對(duì) 應(yīng)輸出是一個(gè)三維張量X∈RC×H×W。在 框架中,CNN主干可以連接多個(gè)注意力分支。而在每一注意力分支中,X將分別輸入各自的SASA模塊進(jìn)行信息篩選,結(jié)果記為Zt∈RC×H×W,其中t是分支序號(hào)。隨后,GeM池化方法將用于對(duì)Zt實(shí)現(xiàn)特征壓縮,產(chǎn)生向量Ft∈RC。對(duì)于Zt的第c個(gè)通道Ztc∈RH×W,對(duì)應(yīng)的GeM池化結(jié)果Ftc為:
圖1 多注意力集成框架Fig.1 Multi-attention ensemble framework
其中,當(dāng)pc=1時(shí),GeM池化相當(dāng)于平均池化;當(dāng)pc→∞時(shí),GeM池化相當(dāng)于最大值池化。此外,pc可以通過(guò)人工設(shè)置或通過(guò)訓(xùn)練學(xué)習(xí),而在本框架中pc將被設(shè)置為3。
進(jìn)一步地,各分支產(chǎn)生的圖像特征Ft通過(guò)一個(gè)全連接層及l(fā)2-正則化層進(jìn)行降維得到向量:
其中,Wt與bt分別是第t個(gè)分支中用于降維的全連接層的權(quán)重與偏置值。最后,各分支降維后的特征Φt通過(guò)串聯(lián)及l(fā)2-正則化層得到最終的圖像特征:
T是注意力分支的數(shù)量,⊕表示特征之間的串聯(lián)(concatenate)。在檢索階段,ΦMAE將用于表示圖像并通過(guò)向量?jī)?nèi)積計(jì)算圖像之間的余弦相似度。在訓(xùn)練階段,ΦMAE可靈活地使用任意排序損失函數(shù)進(jìn)行訓(xùn)練。在本文的實(shí)驗(yàn)部分,框架采用精度高且易于實(shí)現(xiàn)的batchhard triplet loss[29]作為排序損失函數(shù),相應(yīng)的損失記為L(zhǎng)rank。
為了使各注意力分支聚焦圖像的不同方面,增大不同分支產(chǎn)生的圖像特征之間的差異以實(shí)現(xiàn)互補(bǔ),各分支產(chǎn)生的圖像特征利用ABE提出的差異損失[23]Ldiv進(jìn)行訓(xùn)練:
其中,N是訓(xùn)練集樣本數(shù)量,mdiv是控制損失的超參數(shù),d是余弦相似度函數(shù)。通過(guò)增大不同分支圖像特征之間的距離,差異損失可以有效促進(jìn)不同注意力分支之間的多樣化,從而提高檢索精度。
進(jìn)一步地,受CGD方法[16]所啟發(fā),框架將對(duì)各分支進(jìn)行圖像分類(lèi)訓(xùn)練,從而增大各分支圖像特征的類(lèi)間距離,加快訓(xùn)練速度并提高訓(xùn)練效果。與CGD方法中僅有一個(gè)分支進(jìn)行圖像分類(lèi)訓(xùn)練不同,本框架中各分支都將參與圖像分類(lèi)訓(xùn)練。各分支圖像特征Ft分別經(jīng)過(guò)一個(gè)批歸一化層及權(quán)重為Wctlass且偏置值為btclass的全連接層,得到一個(gè)維度為目標(biāo)數(shù)據(jù)集樣本類(lèi)別M的向量Ψt:
隨后,各分支Ψt分別輸入Softmax層并計(jì)算交叉熵?fù)p失(cross-entropy loss)作為相應(yīng)分支的圖像分類(lèi)損失。在這一階段,框架使用temperature scaling[30]及標(biāo)簽平滑(label smoothing)[31]技術(shù),有效減少類(lèi)內(nèi)距離并增大類(lèi)間距離:
temperature scaling的相關(guān)參數(shù)τ用于對(duì)Softmax層的輸入進(jìn)行放縮。qone-hot是樣本真實(shí)標(biāo)簽的獨(dú)熱編碼,標(biāo)簽平滑的超參數(shù)α用于qone-hot進(jìn)行平滑,生成分布更加平滑的樣本訓(xùn)練標(biāo)簽。
綜合考慮最終圖像特征的排序損失、各分支間的差異損失及各分支的分類(lèi)損失,框架的總損失函數(shù)為:
通過(guò)圖像檢索數(shù)據(jù)集CUB200-2011[26]及CARS196[25]驗(yàn)證了所提方法的有效性。其中CUB200-2011數(shù)據(jù)集的圖像都是關(guān)于鳥(niǎo)的圖像而CARS196的圖像都是關(guān)于車(chē)的圖像。各數(shù)據(jù)集中訓(xùn)練集與測(cè)試集的劃分與其他工作相一致[16],如表1所示,其中各數(shù)據(jù)集的訓(xùn)練集與測(cè)試集之間不存在相同類(lèi)別。此外,本文僅在原始圖像上進(jìn)行實(shí)驗(yàn),不使用CUB200-2011及CARS196數(shù)據(jù)集提供的標(biāo)注框信息對(duì)圖像進(jìn)行裁剪。為了與其他工作進(jìn)行比較,本文使用Recall@K指標(biāo)對(duì)圖像檢索精度進(jìn)行評(píng)估。
表1 各數(shù)據(jù)集的訓(xùn)練集與測(cè)試集劃分Table 1 Train-test split on each dataset
所有實(shí)驗(yàn)通過(guò)Pytorch實(shí)現(xiàn)并在NVIDIA TITANRTX GPU上運(yùn)行。本文選擇ResNet50[28]作為所提框架的CNN主干,其中ResNet50使用已通過(guò)ImageNet數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練的模型進(jìn)行參數(shù)初始化。在訓(xùn)練階段,輸入圖像首先被調(diào)整為252×252大小并隨機(jī)裁剪為224×224,最后進(jìn)行隨機(jī)水平翻轉(zhuǎn)。在測(cè)試階段,輸入圖像僅被調(diào)整為224×224大小。為了使ResNet50產(chǎn)生的特征圖能保存更多信息,本文移除了ResNet50中Conv_3模塊的下采樣操作[16],使224×224大小的輸入圖像由CNN主干輸出的特征圖為14×14大小。Adam方法[32]用于對(duì)模型進(jìn)行優(yōu)化,其中每批數(shù)據(jù)包含128張圖像,初始學(xué)習(xí)率為0.000 1。在各數(shù)據(jù)集上完成第12、24輪訓(xùn)練后學(xué)習(xí)率分別衰減10倍??蚣艿目倱p失函數(shù)中,排序損失(batch-hard triplet loss[29])的margin參數(shù)為0.1,差異損失的mdiv為1,各注意力分支的圖像分類(lèi)損失中的τ與α都分別設(shè)置為0.5與0.1。在所有實(shí)驗(yàn)中,最終用于檢索的圖像特征都是512維向量,而各分支產(chǎn)生的圖像特征是512/T維向量,其中T是注意力分支數(shù)量。
2.3.1 獨(dú)立自注意力模塊
為驗(yàn)證SASA模塊的效果,與SOA模塊在CUB200-2011數(shù)據(jù)集上進(jìn)行對(duì)比,并將不使用任何注意力模塊的模型作為基準(zhǔn)。其中,參數(shù)E是SASA模塊對(duì)輸入特征進(jìn)行降維的倍數(shù),E越大,SASA模塊的參數(shù)數(shù)量越少。SASA模塊的δ值設(shè)置為1。除注意力模塊外,其他設(shè)置都保持一致。此外,為避免框架中分支數(shù)量T的影響,本部分實(shí)驗(yàn)中分支數(shù)量T設(shè)置為1。
如表2所示,SASA模塊在E=2時(shí)取得了最高的檢索精度。與不使用任何注意力模塊及使用SOA模塊作為框架中的注意力模塊相比,SASA模塊能取得更高的檢索精度,說(shuō)明了SASA模塊在圖像檢索任務(wù)中的有效性。
表2 CUB200-2011數(shù)據(jù)集上不同注意力設(shè)置的精度Table 2 Performance of attention with different configurations on CUB200-2011
本文進(jìn)一步探索了SASA模塊中不同δ值對(duì)檢索精度的影響。同樣地,分支數(shù)量T設(shè)置為1以避免分支數(shù)量的影響,E設(shè)置為2以取得最高的精度。圖2展示了在CUB200-2011數(shù)據(jù)集上不同δ值對(duì)Recall@1精度的影響,其中SASA模塊在δ值為1時(shí)達(dá)到了最高的Recall@1精度,這與δ=4的SASA模塊能在圖像分類(lèi)任務(wù)中取得最高精度[22]有所不同。
圖2 CUB200-2011數(shù)據(jù)集上不同δ值的Recall@1結(jié)果Fig.2 Recall@1 on CUB200-2011 with different value of δ
2.3.2 多注意力集成框架
多注意力集成框架利用最終圖像特征的排序損失、各分支之間的差異損失及各分支的圖像分類(lèi)損失對(duì)模型進(jìn)行聯(lián)合訓(xùn)練。為驗(yàn)證所提框架的有效性,本文在CUB200-2011數(shù)據(jù)集上對(duì)不同損失函數(shù)的組合進(jìn)行探索,其中SASA模塊中δ=1而G=2,結(jié)果如表3所示。為排除SASA模塊的特殊性對(duì)損失函數(shù)效果的影響,本文進(jìn)一步將SOA作為框架的注意力模塊對(duì)不同損失函數(shù)的效果進(jìn)行探索。
表3顯示,當(dāng)使用SOA模塊作為框架的注意力模塊時(shí),相比于僅使用排序損失,在排序損失上加入差異損失僅提升了0.1%的Recall@1精度。而當(dāng)使用SASA時(shí),Recall@1精度反而有所降低。其次,無(wú)論是使用SOA還是SASA作為框架的注意力模塊,僅在排序損失上加入各注意力分支的圖像分類(lèi)損失,各分支不能形成良好的互補(bǔ),因此同樣不能取得最高的檢索精度。而本文框架使用差異損失促進(jìn)各注意力分支間的互補(bǔ),同時(shí)使用各分支的圖像分類(lèi)損失以更有效地訓(xùn)練各注意力分支。在使用SOA作為注意力模塊時(shí)取得了最高的Recall@1精度65.0%,而在使用SASA時(shí)也達(dá)到了最高的Recall@1精度65.8%。這說(shuō)明了框架所用的總損失函數(shù)的有效性。
表3 CUB200-2011上不同多注意力框架設(shè)置的精度Table 3 Performance of MSE with different settings on CUB200-2011
當(dāng)使用本文框架的總損失函數(shù)對(duì)模型進(jìn)行訓(xùn)練時(shí),與使用SOA作為框架的注意力模塊相比,使用SASA作為注意力模塊在Recall@1精度上提升了0.8%。這表明框架所用的注意力模塊極大地影響了模型的檢索精度,同時(shí)進(jìn)一步表明本文所提框架使用SASA作為注意力模塊的有效性。此外,當(dāng)使用SASA作為框架的注意力模塊時(shí),注意力分支數(shù)量T=2的模型取得了比T=1的模型更高的檢索精度,說(shuō)明本文所提框架可以有效集成多注意力分支以取得更好的檢索效果。
最后,本文在CUB200-2011及CARS196數(shù)據(jù)集上將所提方法與目前表現(xiàn)較好的圖像檢索方法進(jìn)行比較,結(jié)果如表4、表5所示。
為了公平比較,所有方法用于檢索的圖像特征都是512維。其中,本文方法的結(jié)果采用δ=1,G=2,T=2的結(jié)果。特別地,CGD的相關(guān)工作[16]利用標(biāo)注框信息對(duì)CUB200-2011及CARS196原始圖像進(jìn)行裁剪并實(shí)驗(yàn)。為了公平地比較,本文謹(jǐn)慎地對(duì)CGD方法進(jìn)行復(fù)現(xiàn),并在兩數(shù)據(jù)集的原始圖像上進(jìn)行實(shí)驗(yàn)得到該方法的檢索精度,其中CNN主干為ResNet50,其余設(shè)置使用相關(guān)工作[16]中的最優(yōu)設(shè)置。除CGD方法外,其他方法采用相關(guān)工作中展示的檢索精度[23-24,33-35]。如表4、表5所示,本文方法在CUB200-2011及CARS196兩數(shù)據(jù)集上的檢索精度都遠(yuǎn)高于其他方法,充分說(shuō)明了本文方法的有效性。
表4 本文方法與其他方法在CUB200-2011數(shù)據(jù)集上的精度Table 4 Performance of proposed method and others on CUB200-2011
表5 本文方法與其他方法在CARS196數(shù)據(jù)集上的精度Table 5 Performance of proposed method and others on CARS196
在圖像檢索任務(wù)中表現(xiàn)良好的二階注意力模塊考慮任一特征與所有特征之間的聯(lián)系,進(jìn)而產(chǎn)生新特征,但新特征中存在大量冗余信息。針對(duì)該問(wèn)題,本文將獨(dú)立自注意力模塊應(yīng)用于圖像檢索任務(wù),對(duì)任一特征僅考慮與相鄰特征之間的聯(lián)系,從而改善上述問(wèn)題。此外,針對(duì)目前圖像檢索的集成方法中存在的不足,本文提出了多注意力集成框架。框架中各注意力分支分別使用獨(dú)立自注意力模塊產(chǎn)生高質(zhì)量圖像特征,并通過(guò)有效結(jié)合產(chǎn)生最終的圖像特征。特別地,多注意力集成框架在最終圖像特征的排序損失的基礎(chǔ)上,加入各分支特征之間的差異損失使得各注意力分支產(chǎn)生的圖像特征多樣化,并在各注意力分支中加入圖像分類(lèi)損失使得各分支訓(xùn)練更高效而穩(wěn)定,從而更充分地訓(xùn)練模型。在CUB200-2011及CARS196上的大量實(shí)驗(yàn)表明,本文方法可以有效提高檢索精度。