多注意力集成的圖像檢索

2022-12-22 11:47:02曾愛(ài)博陳優(yōu)廣

計(jì)算機(jī)工程與應(yīng)用 2022年24期

曾愛(ài)博，陳優(yōu)廣

1.華東師范大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，上海 200062

2.華東師范大學(xué) 數(shù)據(jù)科學(xué)與工程學(xué)院，上海 200062

長(zhǎng)期以來(lái)，基于內(nèi)容的圖像檢索（content based image retrieval，CBIR）一直是計(jì)算機(jī)視覺(jué)領(lǐng)域的熱門(mén)研究話題?；趦?nèi)容的圖像檢索方法通常利用特定的特征提取方法提取圖像特征，進(jìn)而計(jì)算特征之間的相似度并排序，從而返回與待檢索圖像相似度最高的多張圖像作為結(jié)果。其中，圖像特征是影響圖像檢索效果的主要因素。

在傳統(tǒng)CBIR方法中，SIFT方法[1]及其變種[2]被廣泛用于提取圖像的局部特征，而VLAD[3]與Fisher Vector[4]等方法被用于進(jìn)一步聚合以產(chǎn)生效率更高的全局特征。近年來(lái)，由于深度卷積神經(jīng)網(wǎng)絡(luò)（deep convolutional nerual network，DCNN）可以利用大量訓(xùn)練數(shù)據(jù)學(xué)習(xí)到更具語(yǔ)義信息的特征，許多利用深度特征進(jìn)行檢索的方法被不斷提出，并展示出優(yōu)于傳統(tǒng)特征的效果，如Babenko等人[5]利用CNN中全連接層的輸出作為圖像特征進(jìn)行檢索。然而，相比于全連接層的輸出，CNN中卷積層輸出的特征圖（feature map）保留了更豐富的空間信息并能取得更高的檢索精度[6-8]。此外，相比于來(lái)自低層的特征，CNN中高層產(chǎn)生的特征具有更豐富的語(yǔ)義信息。因此，大多數(shù)基于CNN的圖像檢索方法利用最后一層卷積層輸出的特征圖生成圖像特征進(jìn)行檢索。

進(jìn)一步地，卷積層輸出的特征圖常需通過(guò)特定的特征聚合方法產(chǎn)生壓縮性的圖像特征以實(shí)現(xiàn)高效檢索，如最大值池化[8]、平均值池化[6]。此外，R-MAC方法[8]先以網(wǎng)格化方式產(chǎn)生不同尺度的眾多區(qū)域，并在各區(qū)域上分別進(jìn)行最大值池化，進(jìn)而對(duì)所有區(qū)域特征進(jìn)行聚合得到最終的圖像特征。R-MAC方法在區(qū)域?qū)哟紊线M(jìn)行最大值池化并進(jìn)一步聚合，使得最終圖像特征之間的匹配實(shí)際上是不同區(qū)域特征之間的匹配。與以上所提的非參數(shù)化方法不同，GeM池化方法（generalized mean pooling）[9]存在可訓(xùn)練參數(shù)，可通過(guò)訓(xùn)練取得更高的檢索精度。當(dāng)這些可訓(xùn)練參數(shù)的值等于某些特殊值時(shí)，GeM池化實(shí)際上等同于最大值池化或平均值池化。因此，GeM池化是對(duì)最大值池化及平均值池化的泛化，并能取得更好的表現(xiàn)。受R-MAC方法啟發(fā)，RGMP方法[10]先在多個(gè)區(qū)域上進(jìn)行GeM池化得到區(qū)域特征，進(jìn)而對(duì)區(qū)域特征進(jìn)行聚合得到最終的圖像特征。然而，RGMP方法通過(guò)額外的RPN網(wǎng)絡(luò)（region proposal network）產(chǎn)生區(qū)域信息，需要使用帶有標(biāo)注框信息的數(shù)據(jù)集進(jìn)行訓(xùn)練，影響了方法的適用性。

一些基于CNN的圖像檢索方法[8]使用經(jīng)過(guò)了ImageNet數(shù)據(jù)集[11]預(yù)訓(xùn)練的CNN模型直接提取圖像的特征，并被歸為off-the-shelf方法。與off-the-shelf方法相比，一些方法利用目標(biāo)數(shù)據(jù)集對(duì)經(jīng)過(guò)了ImageNet數(shù)據(jù)集預(yù)訓(xùn)練的CNN模型進(jìn)行進(jìn)一步微調(diào)訓(xùn)練[9]，產(chǎn)生更適應(yīng)目標(biāo)數(shù)據(jù)集的圖像特征。在微調(diào)訓(xùn)練的過(guò)程中，損失函數(shù)是影響最終檢索精度的主要因素。與早期工作使用的圖像分類(lèi)損失相比，排序損失（ranking loss）[9，12-14]可直接以圖像檢索任務(wù)為目標(biāo)進(jìn)行優(yōu)化，能生成更適應(yīng)圖像檢索任務(wù)的圖像特征。排序損失通常利用一些訓(xùn)練樣本構(gòu)成一個(gè)集合，如二元圖像組（pair）[9]、三元組（triplet）[12]、四元組（quadruplet）[13]、N元組（N-pair）[14]等，使集合內(nèi)具有相同標(biāo)簽的圖像在高維向量空間中距離相近而具有不同標(biāo)簽的圖像之間距離較遠(yuǎn)。進(jìn)一步地，最近工作[15-16]表明，在排序損失的基礎(chǔ)上加入圖像分類(lèi)損失，可以有效增大圖像的類(lèi)間距離，使訓(xùn)練過(guò)程能更快收斂并取得更高的檢索精度。

為進(jìn)一步提高檢索精度，一些工作在模型中引入了注意力機(jī)制以進(jìn)行信息篩選，從而產(chǎn)生更具辨別性的圖像特征。對(duì)于CNN最后一層卷積層輸出的特征圖，DELF方法[17]通過(guò)一個(gè)注意力模塊產(chǎn)生特征圖中各特征的重要性，其中該注意力模塊由兩個(gè)卷積核大小為1×1的卷積層以及softplus激活層組成。而ABIR方法[18]提出的注意力模塊使用兩個(gè)不同卷積層輸出的特征圖作為輸入，通過(guò)特征圖之間的信息融合實(shí)現(xiàn)信息篩選。AGeM方法[19]則通過(guò)以三個(gè)不同卷積層輸出的特征圖作為輸入的旁路注意力模塊，結(jié)合GeM池化方法產(chǎn)生高效高質(zhì)量的圖像特征。此外，衡量特征圖中不同特征在特征聚合方法中的權(quán)重同樣能實(shí)現(xiàn)對(duì)特征的信息篩選。例如，CroW[7]方法通過(guò)非參數(shù)化的權(quán)重方法衡量特征圖中空間維度和通道維度上不同特征的重要性，從而突出重要特征并抑制無(wú)關(guān)特征。GeM池化方法對(duì)特征圖中同一通道的不同特征賦予了同等的權(quán)重，以進(jìn)行特征聚合。而wGeM方法[20]則在GeM方法的基礎(chǔ)上，通過(guò)一個(gè)卷積核大小為3×3的卷積層及softmax層，預(yù)測(cè)不同特征的權(quán)重。然而，以上注意力機(jī)制或權(quán)重方法都是通過(guò)計(jì)算不同特征的重要性實(shí)現(xiàn)信息篩選，從而產(chǎn)生更高質(zhì)量的特征，卻沒(méi)有考慮不同特征之間存在的聯(lián)系。最近，SOLAR[21]方法將在自然語(yǔ)言處理及許多計(jì)算機(jī)視覺(jué)任務(wù)上表現(xiàn)優(yōu)秀的二階注意力模塊（second-order attention，SOA）應(yīng)用在圖像檢索中，并取得了成功。SOA模塊考慮任一特征與所有特征之間的聯(lián)系，并通過(guò)特征之間的信息融合產(chǎn)生相應(yīng)位置上的新特征。然而，任一特征與所有特征都進(jìn)行信息融合將導(dǎo)致極大的信息冗余，不利于壓縮性特征的生成。此外，目標(biāo)物體一般只存在于圖像的某部分區(qū)域。與目標(biāo)物體更相關(guān)的某些特征與所有特征進(jìn)行交互時(shí)，將與許多與目標(biāo)物體相關(guān)性不高的特征進(jìn)行信息融合，影響了信息篩選的效果。與SOA相比，在圖像分類(lèi)任務(wù)中表現(xiàn)良好的獨(dú)立自注意力模塊（stand-alone self-attention，SASA）[22]只考慮任一特征與相鄰的局部特征之間的聯(lián)系。因此，本文將SASA應(yīng)用在圖像檢索中，有效利用局部特征之間的聯(lián)系生成更高質(zhì)量的特征，從而改善以上所述問(wèn)題。

除此之外，集成機(jī)制[23-24]也可以有效提升圖像檢索的精度。例如，ABE[23]方法在模型中引入多個(gè)結(jié)構(gòu)相同的注意力模塊，構(gòu)成多個(gè)注意力分支，并通過(guò)連接不同分支產(chǎn)生的圖像特征得到最終的圖像特征。為使得各注意力模塊聚焦于圖像的不同方面以實(shí)現(xiàn)功能互補(bǔ)，ABE在排序損失的基礎(chǔ)上引入了各分支之間的差異損失（divergence loss），從而提高檢索精度。然而，ABE方法沒(méi)有考慮圖像分類(lèi)損失對(duì)訓(xùn)練各注意力分支的作用。此外，ABE不能有效利用各分支特征產(chǎn)生最終圖像特征，檢索精度不夠高。因此，本文提出了一個(gè)新的多注意力集成框架（multi-attention ensemble framework，MAE），有效地利用不同注意力分支產(chǎn)生的特征產(chǎn)生最終圖像特征，并同時(shí)利用排序損失、各注意力分支之間的差異損失及各分支的圖像分類(lèi)損失對(duì)模型聯(lián)合訓(xùn)練，以提高模型訓(xùn)練效果。

綜合以上所述，本文的貢獻(xiàn)主要有以下三點(diǎn)：

第一，本文將獨(dú)立自注意力模塊SASA應(yīng)用于圖像檢索任務(wù)中，使各特征僅與相鄰的局部特征進(jìn)行交互，以改善利用SOA模塊的圖像檢索方法中存在的問(wèn)題。

第二，本文提出了新的多注意力集成框架MAE，在模型中集成多個(gè)注意力分支以提高檢索精度。框架中的差異損失可以使各注意力分支之間實(shí)現(xiàn)互補(bǔ)，圖像分類(lèi)損失可以增大圖像特征的類(lèi)間距離，從而加快各注意力分支的訓(xùn)練并提升訓(xùn)練效果。

第三，本文通過(guò)在CARS-196[25]及CUB-200-2011[26]圖像檢索數(shù)據(jù)集上的大量實(shí)驗(yàn)驗(yàn)證了所提方法的有效性。

1 基于多注意力的圖像檢索方法

1.1 獨(dú)立自注意力模塊

與SOA計(jì)算任一特征與所有特征之間的聯(lián)系不同，獨(dú)立自注意力模塊（stand-alone self-attention，SASA）[22]僅考慮任一特征與相鄰局部特征之間的聯(lián)系。記注意力模塊的輸入張量為X∈RC×H×W，其中C是通道數(shù)量。對(duì)于X的某像素特征Xi,j∈RC，定義其相鄰局部特征的位置集合為Xi,j：

其中，δ表示相鄰特征的最大空間距離。集合Ωi,j(δ)中任一元素(a,b)所對(duì)應(yīng)的特征Xa,b屬于與相鄰的特征，SASA將考慮兩者之間的聯(lián)系。

對(duì)于Xi,j，本文所使用的SASA模塊通過(guò)以下方式計(jì)算其與相鄰的局部特征之間的聯(lián)系，并得到相應(yīng)的新特征：

其中，WQ,WK,WV∈RC×(C/E)分別為三個(gè)全連接層的參數(shù)。WQ、WK、WV可通過(guò)調(diào)整參數(shù)E實(shí)現(xiàn)降維，以減少SASA的參數(shù)數(shù)量從而降低模型的收斂難度。隨后，特征Yi,j通過(guò)參數(shù)為WU∈R(C/E)×C的全連接層進(jìn)行升維，從而通過(guò)跳躍連接（skip-connection）的方式與輸入特征Xi,j結(jié)合使訓(xùn)練過(guò)程更加穩(wěn)定，并得到最終的輸出特征Zi,j∈RC：

以上過(guò)程將在輸入張量X∈RC×H×W的任一像素特征Xi,j∈RC中進(jìn)行，從而得到SASA模塊對(duì)應(yīng)的輸出Z∈RC×H×W。

1.2 多注意力集成框架

多注意力集成框架（下面簡(jiǎn)稱(chēng)框架）可集成多個(gè)注意力分支。受篇幅限制，圖1展示了僅存在兩個(gè)注意力分支的框架。框架可以選擇任意CNN作為主干，如VGG[27]、ResNet[28]等。對(duì)于某輸入圖像I，CNN主干的對(duì) 應(yīng)輸出是一個(gè)三維張量X∈RC×H×W。在框架中，CNN主干可以連接多個(gè)注意力分支。而在每一注意力分支中，X將分別輸入各自的SASA模塊進(jìn)行信息篩選，結(jié)果記為Zt∈RC×H×W，其中t是分支序號(hào)。隨后，GeM池化方法將用于對(duì)Zt實(shí)現(xiàn)特征壓縮，產(chǎn)生向量Ft∈RC。對(duì)于Zt的第c個(gè)通道Ztc∈RH×W，對(duì)應(yīng)的GeM池化結(jié)果Ftc為：

圖1 多注意力集成框架Fig.1 Multi-attention ensemble framework

其中，當(dāng)pc=1時(shí)，GeM池化相當(dāng)于平均池化；當(dāng)pc→∞時(shí)，GeM池化相當(dāng)于最大值池化。此外，pc可以通過(guò)人工設(shè)置或通過(guò)訓(xùn)練學(xué)習(xí)，而在本框架中pc將被設(shè)置為3。

進(jìn)一步地，各分支產(chǎn)生的圖像特征Ft通過(guò)一個(gè)全連接層及l(fā)2-正則化層進(jìn)行降維得到向量：

其中，Wt與bt分別是第t個(gè)分支中用于降維的全連接層的權(quán)重與偏置值。最后，各分支降維后的特征Φt通過(guò)串聯(lián)及l(fā)2-正則化層得到最終的圖像特征：

T是注意力分支的數(shù)量，⊕表示特征之間的串聯(lián)（concatenate）。在檢索階段，ΦMAE將用于表示圖像并通過(guò)向量?jī)?nèi)積計(jì)算圖像之間的余弦相似度。在訓(xùn)練階段，ΦMAE可靈活地使用任意排序損失函數(shù)進(jìn)行訓(xùn)練。在本文的實(shí)驗(yàn)部分，框架采用精度高且易于實(shí)現(xiàn)的batchhard triplet loss[29]作為排序損失函數(shù)，相應(yīng)的損失記為L(zhǎng)rank。

為了使各注意力分支聚焦圖像的不同方面，增大不同分支產(chǎn)生的圖像特征之間的差異以實(shí)現(xiàn)互補(bǔ)，各分支產(chǎn)生的圖像特征利用ABE提出的差異損失[23]Ldiv進(jìn)行訓(xùn)練：

其中，N是訓(xùn)練集樣本數(shù)量，mdiv是控制損失的超參數(shù)，d是余弦相似度函數(shù)。通過(guò)增大不同分支圖像特征之間的距離，差異損失可以有效促進(jìn)不同注意力分支之間的多樣化，從而提高檢索精度。

進(jìn)一步地，受CGD方法[16]所啟發(fā)，框架將對(duì)各分支進(jìn)行圖像分類(lèi)訓(xùn)練，從而增大各分支圖像特征的類(lèi)間距離，加快訓(xùn)練速度并提高訓(xùn)練效果。與CGD方法中僅有一個(gè)分支進(jìn)行圖像分類(lèi)訓(xùn)練不同，本框架中各分支都將參與圖像分類(lèi)訓(xùn)練。各分支圖像特征Ft分別經(jīng)過(guò)一個(gè)批歸一化層及權(quán)重為Wctlass且偏置值為btclass的全連接層，得到一個(gè)維度為目標(biāo)數(shù)據(jù)集樣本類(lèi)別M的向量Ψt：

隨后，各分支Ψt分別輸入Softmax層并計(jì)算交叉熵?fù)p失（cross-entropy loss）作為相應(yīng)分支的圖像分類(lèi)損失。在這一階段，框架使用temperature scaling[30]及標(biāo)簽平滑（label smoothing）[31]技術(shù)，有效減少類(lèi)內(nèi)距離并增大類(lèi)間距離：

temperature scaling的相關(guān)參數(shù)τ用于對(duì)Softmax層的輸入進(jìn)行放縮。qone-hot是樣本真實(shí)標(biāo)簽的獨(dú)熱編碼，標(biāo)簽平滑的超參數(shù)α用于qone-hot進(jìn)行平滑，生成分布更加平滑的樣本訓(xùn)練標(biāo)簽。

綜合考慮最終圖像特征的排序損失、各分支間的差異損失及各分支的分類(lèi)損失，框架的總損失函數(shù)為：

2 實(shí)驗(yàn)

2.1 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

通過(guò)圖像檢索數(shù)據(jù)集CUB200-2011[26]及CARS196[25]驗(yàn)證了所提方法的有效性。其中CUB200-2011數(shù)據(jù)集的圖像都是關(guān)于鳥(niǎo)的圖像而CARS196的圖像都是關(guān)于車(chē)的圖像。各數(shù)據(jù)集中訓(xùn)練集與測(cè)試集的劃分與其他工作相一致[16]，如表1所示，其中各數(shù)據(jù)集的訓(xùn)練集與測(cè)試集之間不存在相同類(lèi)別。此外，本文僅在原始圖像上進(jìn)行實(shí)驗(yàn)，不使用CUB200-2011及CARS196數(shù)據(jù)集提供的標(biāo)注框信息對(duì)圖像進(jìn)行裁剪。為了與其他工作進(jìn)行比較，本文使用Recall@K指標(biāo)對(duì)圖像檢索精度進(jìn)行評(píng)估。

表1 各數(shù)據(jù)集的訓(xùn)練集與測(cè)試集劃分Table 1 Train-test split on each dataset

2.2 實(shí)現(xiàn)

所有實(shí)驗(yàn)通過(guò)Pytorch實(shí)現(xiàn)并在NVIDIA TITANRTX GPU上運(yùn)行。本文選擇ResNet50[28]作為所提框架的CNN主干，其中ResNet50使用已通過(guò)ImageNet數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練的模型進(jìn)行參數(shù)初始化。在訓(xùn)練階段，輸入圖像首先被調(diào)整為252×252大小并隨機(jī)裁剪為224×224，最后進(jìn)行隨機(jī)水平翻轉(zhuǎn)。在測(cè)試階段，輸入圖像僅被調(diào)整為224×224大小。為了使ResNet50產(chǎn)生的特征圖能保存更多信息，本文移除了ResNet50中Conv_3模塊的下采樣操作[16]，使224×224大小的輸入圖像由CNN主干輸出的特征圖為14×14大小。Adam方法[32]用于對(duì)模型進(jìn)行優(yōu)化，其中每批數(shù)據(jù)包含128張圖像，初始學(xué)習(xí)率為0.000 1。在各數(shù)據(jù)集上完成第12、24輪訓(xùn)練后學(xué)習(xí)率分別衰減10倍?？蚣艿目倱p失函數(shù)中，排序損失（batch-hard triplet loss[29]）的margin參數(shù)為0.1，差異損失的mdiv為1，各注意力分支的圖像分類(lèi)損失中的τ與α都分別設(shè)置為0.5與0.1。在所有實(shí)驗(yàn)中，最終用于檢索的圖像特征都是512維向量，而各分支產(chǎn)生的圖像特征是512/T維向量，其中T是注意力分支數(shù)量。

2.3 消融實(shí)驗(yàn)

2.3.1 獨(dú)立自注意力模塊

為驗(yàn)證SASA模塊的效果，與SOA模塊在CUB200-2011數(shù)據(jù)集上進(jìn)行對(duì)比，并將不使用任何注意力模塊的模型作為基準(zhǔn)。其中，參數(shù)E是SASA模塊對(duì)輸入特征進(jìn)行降維的倍數(shù)，E越大，SASA模塊的參數(shù)數(shù)量越少。SASA模塊的δ值設(shè)置為1。除注意力模塊外，其他設(shè)置都保持一致。此外，為避免框架中分支數(shù)量T的影響，本部分實(shí)驗(yàn)中分支數(shù)量T設(shè)置為1。

如表2所示，SASA模塊在E=2時(shí)取得了最高的檢索精度。與不使用任何注意力模塊及使用SOA模塊作為框架中的注意力模塊相比，SASA模塊能取得更高的檢索精度，說(shuō)明了SASA模塊在圖像檢索任務(wù)中的有效性。

表2 CUB200-2011數(shù)據(jù)集上不同注意力設(shè)置的精度Table 2 Performance of attention with different configurations on CUB200-2011

本文進(jìn)一步探索了SASA模塊中不同δ值對(duì)檢索精度的影響。同樣地，分支數(shù)量T設(shè)置為1以避免分支數(shù)量的影響，E設(shè)置為2以取得最高的精度。圖2展示了在CUB200-2011數(shù)據(jù)集上不同δ值對(duì)Recall@1精度的影響，其中SASA模塊在δ值為1時(shí)達(dá)到了最高的Recall@1精度，這與δ=4的SASA模塊能在圖像分類(lèi)任務(wù)中取得最高精度[22]有所不同。

圖2 CUB200-2011數(shù)據(jù)集上不同δ值的Recall@1結(jié)果Fig.2 Recall@1 on CUB200-2011 with different value of δ

2.3.2 多注意力集成框架

多注意力集成框架利用最終圖像特征的排序損失、各分支之間的差異損失及各分支的圖像分類(lèi)損失對(duì)模型進(jìn)行聯(lián)合訓(xùn)練。為驗(yàn)證所提框架的有效性，本文在CUB200-2011數(shù)據(jù)集上對(duì)不同損失函數(shù)的組合進(jìn)行探索，其中SASA模塊中δ=1而G=2，結(jié)果如表3所示。為排除SASA模塊的特殊性對(duì)損失函數(shù)效果的影響，本文進(jìn)一步將SOA作為框架的注意力模塊對(duì)不同損失函數(shù)的效果進(jìn)行探索。

表3顯示，當(dāng)使用SOA模塊作為框架的注意力模塊時(shí)，相比于僅使用排序損失，在排序損失上加入差異損失僅提升了0.1%的Recall@1精度。而當(dāng)使用SASA時(shí)，Recall@1精度反而有所降低。其次，無(wú)論是使用SOA還是SASA作為框架的注意力模塊，僅在排序損失上加入各注意力分支的圖像分類(lèi)損失，各分支不能形成良好的互補(bǔ)，因此同樣不能取得最高的檢索精度。而本文框架使用差異損失促進(jìn)各注意力分支間的互補(bǔ)，同時(shí)使用各分支的圖像分類(lèi)損失以更有效地訓(xùn)練各注意力分支。在使用SOA作為注意力模塊時(shí)取得了最高的Recall@1精度65.0%，而在使用SASA時(shí)也達(dá)到了最高的Recall@1精度65.8%。這說(shuō)明了框架所用的總損失函數(shù)的有效性。

表3 CUB200-2011上不同多注意力框架設(shè)置的精度Table 3 Performance of MSE with different settings on CUB200-2011

當(dāng)使用本文框架的總損失函數(shù)對(duì)模型進(jìn)行訓(xùn)練時(shí)，與使用SOA作為框架的注意力模塊相比，使用SASA作為注意力模塊在Recall@1精度上提升了0.8%。這表明框架所用的注意力模塊極大地影響了模型的檢索精度，同時(shí)進(jìn)一步表明本文所提框架使用SASA作為注意力模塊的有效性。此外，當(dāng)使用SASA作為框架的注意力模塊時(shí)，注意力分支數(shù)量T=2的模型取得了比T=1的模型更高的檢索精度，說(shuō)明本文所提框架可以有效集成多注意力分支以取得更好的檢索效果。

2.4 對(duì)比實(shí)驗(yàn)

最后，本文在CUB200-2011及CARS196數(shù)據(jù)集上將所提方法與目前表現(xiàn)較好的圖像檢索方法進(jìn)行比較，結(jié)果如表4、表5所示。

為了公平比較，所有方法用于檢索的圖像特征都是512維。其中，本文方法的結(jié)果采用δ=1,G=2,T=2的結(jié)果。特別地，CGD的相關(guān)工作[16]利用標(biāo)注框信息對(duì)CUB200-2011及CARS196原始圖像進(jìn)行裁剪并實(shí)驗(yàn)。為了公平地比較，本文謹(jǐn)慎地對(duì)CGD方法進(jìn)行復(fù)現(xiàn)，并在兩數(shù)據(jù)集的原始圖像上進(jìn)行實(shí)驗(yàn)得到該方法的檢索精度，其中CNN主干為ResNet50，其余設(shè)置使用相關(guān)工作[16]中的最優(yōu)設(shè)置。除CGD方法外，其他方法采用相關(guān)工作中展示的檢索精度[23-24，33-35]。如表4、表5所示，本文方法在CUB200-2011及CARS196兩數(shù)據(jù)集上的檢索精度都遠(yuǎn)高于其他方法，充分說(shuō)明了本文方法的有效性。

表4 本文方法與其他方法在CUB200-2011數(shù)據(jù)集上的精度Table 4 Performance of proposed method and others on CUB200-2011

表5 本文方法與其他方法在CARS196數(shù)據(jù)集上的精度Table 5 Performance of proposed method and others on CARS196

3 結(jié)束語(yǔ)

在圖像檢索任務(wù)中表現(xiàn)良好的二階注意力模塊考慮任一特征與所有特征之間的聯(lián)系，進(jìn)而產(chǎn)生新特征，但新特征中存在大量冗余信息。針對(duì)該問(wèn)題，本文將獨(dú)立自注意力模塊應(yīng)用于圖像檢索任務(wù)，對(duì)任一特征僅考慮與相鄰特征之間的聯(lián)系，從而改善上述問(wèn)題。此外，針對(duì)目前圖像檢索的集成方法中存在的不足，本文提出了多注意力集成框架。框架中各注意力分支分別使用獨(dú)立自注意力模塊產(chǎn)生高質(zhì)量圖像特征，并通過(guò)有效結(jié)合產(chǎn)生最終的圖像特征。特別地，多注意力集成框架在最終圖像特征的排序損失的基礎(chǔ)上，加入各分支特征之間的差異損失使得各注意力分支產(chǎn)生的圖像特征多樣化，并在各注意力分支中加入圖像分類(lèi)損失使得各分支訓(xùn)練更高效而穩(wěn)定，從而更充分地訓(xùn)練模型。在CUB200-2011及CARS196上的大量實(shí)驗(yàn)表明，本文方法可以有效提高檢索精度。