• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      自適應(yīng)混合注意力深度跨模態(tài)哈希

      2022-12-18 08:10:38柳興華曹桂濤林秋斌曹文明
      計(jì)算機(jī)應(yīng)用 2022年12期
      關(guān)鍵詞:哈希注意力檢索

      柳興華,曹桂濤,林秋斌,曹文明*

      (1.深圳大學(xué) 電子與信息工程學(xué)院,廣東 深圳 518060;2.廣東省多媒體信息服務(wù)工程技術(shù)研究中心(深圳大學(xué)),廣東 深圳 518060;3.華東師范大學(xué) 軟件工程學(xué)院,上海 200062)

      0 引言

      隨著信息技術(shù)和多媒體技術(shù)的快速發(fā)展,人們?cè)谏缃幻襟w上以不同的方式分享著自己的日常生活,導(dǎo)致多媒體數(shù)據(jù)(如文本、圖像等)急劇增長(zhǎng)。在如此大量的多媒體數(shù)據(jù)面前,用戶迫切希望使用其中一種模態(tài)數(shù)據(jù)作為索引來(lái)檢索得到其他與之相關(guān)的其他模態(tài)數(shù)據(jù)。為了實(shí)現(xiàn)這一需求,研究人員提出很多跨模態(tài)檢索方法,利用模態(tài)間的相關(guān)性來(lái)進(jìn)行建模,于是,跨模態(tài)檢索問(wèn)題就可以轉(zhuǎn)化為數(shù)據(jù)模態(tài)間的相似性查詢。由于不同模態(tài)數(shù)據(jù)間存在結(jié)構(gòu)性差異導(dǎo)致它們存在較大的語(yǔ)義鴻溝,因此,跨模態(tài)檢索方案的關(guān)鍵在于能否有效捕獲模態(tài)間潛在的語(yǔ)義關(guān)聯(lián)并盡可能縮小語(yǔ)義鴻溝。

      早期的檢索方法將所有模態(tài)數(shù)據(jù)都映射到一個(gè)子空間中,然后在其中衡量其相似度,如近似最近鄰搜索(Approximate Nearest Neighbor,ANN)[1];然而,隨著數(shù)據(jù)維度和規(guī)模的飛速增長(zhǎng),傳統(tǒng)跨模態(tài)方法由于高額的存儲(chǔ)和時(shí)間消耗已經(jīng)不能滿足用戶的需求,因此,迫切需要開(kāi)發(fā)新的方法來(lái)實(shí)現(xiàn)快速高效的檢索??缒B(tài)哈希方法因檢索速度快、存儲(chǔ)開(kāi)銷低而備受關(guān)注。該方法旨在將原始數(shù)據(jù)復(fù)雜的高維特征信息轉(zhuǎn)換成簡(jiǎn)單的低維二進(jìn)制哈希碼,從而實(shí)現(xiàn)數(shù)據(jù)降維、壓縮存儲(chǔ)和加速檢索。哈希檢索是利用哈希碼的相似度來(lái)衡量原始模態(tài)的相似度,哈希碼越相似對(duì)應(yīng)的原始模態(tài)數(shù)據(jù)也越相似。

      隨著深度學(xué)習(xí)算法的不斷進(jìn)步,其強(qiáng)大的學(xué)習(xí)能力能夠獲得更復(fù)雜、更準(zhǔn)確的哈希函數(shù),因此,越來(lái)越多的研究人員將跨模態(tài)哈希方法與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合來(lái)深入探索模態(tài)間潛在的語(yǔ)義關(guān)聯(lián)信息。迄今為止,提出了很多基于深度學(xué)習(xí)的跨模態(tài)哈希方法,雖然在跨模態(tài)檢索方面取得重大進(jìn)展,但這些方法無(wú)法從提取的特征信息中分辨出哪些信息是重要的,哪些是不重要的;另外,還有些方法只是利用標(biāo)簽信息簡(jiǎn)單地將模態(tài)間的關(guān)系劃分為相似和不相似,而沒(méi)有充分利用標(biāo)簽信息深入挖掘模態(tài)間的關(guān)聯(lián)信息。

      為了解決上述問(wèn)題,本文提出自適應(yīng)混合注意力深度跨模態(tài)哈希檢索(Adaptive Hybrid Attention Hashing for deep cross-modal retrieval,AHAH)模型。本文主要工作包括:

      1)設(shè)計(jì)了一種新的自適應(yīng)混合注意力模型,將通道注意力和空間注意力有機(jī)結(jié)合起來(lái)。首先自主學(xué)習(xí)通道和空間注意力對(duì)應(yīng)的權(quán)重值,該權(quán)重會(huì)根據(jù)每次迭代進(jìn)行更新;然后根據(jù)權(quán)重將它們重組,構(gòu)成自適應(yīng)可變權(quán)重的混合注意力模型。

      2)定義了一種新的相似度計(jì)算方法來(lái)衡量模態(tài)間的相似性。傳統(tǒng)方法認(rèn)為兩個(gè)模態(tài)只要有一個(gè)共享標(biāo)簽就判斷它們相似,這樣做容易造成較大的誤差。本文根據(jù)兩樣本所含標(biāo)簽計(jì)算出共有標(biāo)簽所占的比例來(lái)細(xì)化其相似度。

      3)在4個(gè)常用的數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明本文所提方法的檢索結(jié)果均高于對(duì)比的最先進(jìn)的幾種方法;同時(shí),消融實(shí)驗(yàn)和效率分析也證明了本文方法的有效性。

      1 相關(guān)工作

      迄今為止,研究人員提出了很多關(guān)于跨模態(tài)檢索的方法。根據(jù)在檢索任務(wù)中提取特征的方法可將跨模態(tài)哈希方法分為傳統(tǒng)方法和深度跨模態(tài)方法。

      傳統(tǒng)跨模態(tài)方法是基于手工提取的方式獲取各個(gè)模態(tài)的淺層特征信息來(lái)學(xué)習(xí)哈希碼。根據(jù)在檢索過(guò)程中是否使用標(biāo)簽信息又可將其分為無(wú)監(jiān)督和有監(jiān)督方法。無(wú)監(jiān)督哈希方法通過(guò)學(xué)習(xí)和總結(jié)數(shù)據(jù)的分布情況和空間結(jié)構(gòu)來(lái)探索模態(tài)間的相似性。如模態(tài)間哈希(Inter-Media Hashing,IMH)[2]將各個(gè)模態(tài)數(shù)據(jù)映射到漢明空間中,然后使用位運(yùn)算來(lái)進(jìn)行快速檢索;但該方法需要兩兩計(jì)算樣本間的相似性,時(shí)間消耗較大。集體矩陣分解哈希(Collective Matrix Factorization Hashing,CMFH)[3]通過(guò)分解實(shí)例的不同的潛在因子來(lái)得到統(tǒng)一的哈希碼。潛在語(yǔ)義稀疏哈希(Latent Semantic Sparse Hashing,LSSH)[4]利用稀疏編碼和矩陣分解分別獲得各模態(tài)的特征結(jié)構(gòu),并將其映射到同一空間中進(jìn)行哈希檢索。與無(wú)監(jiān)督哈希方法相比,有監(jiān)督哈希方法可以充分利用標(biāo)簽信息得到更豐富的語(yǔ)義關(guān)聯(lián)信息,在實(shí)際的檢索任務(wù)中取得更優(yōu)異的成績(jī)。典型的監(jiān)督哈希方法如語(yǔ)義保持哈希(Semantics-Preserving Hashing,SePH)[5]將訓(xùn)練得到的二進(jìn)制碼和關(guān)聯(lián)矩陣轉(zhuǎn)化成對(duì)應(yīng)的概率分布并使用K-L散度來(lái)提升哈希碼的學(xué)習(xí);雖然該方法在檢索效果上取得了不錯(cuò)的提升,但其模型復(fù)雜需要消耗大量的時(shí)間和存儲(chǔ)空間。最大語(yǔ)義相關(guān)性(Semantic Correlation Maximization,SCM)哈希[6]將標(biāo)簽信息融入到模態(tài)間的相似度計(jì)算,并通過(guò)線性變換來(lái)優(yōu)化語(yǔ)義相似度計(jì)算;但該方法的量化損失較大,對(duì)檢索準(zhǔn)確率造成重大影響。廣義語(yǔ)義保留哈希(Generalized Semantic Preserving Hashing,GSPH)方法[7]利用標(biāo)簽信息構(gòu)造相似矩陣并通過(guò)將非凸問(wèn)題最小化來(lái)保持相似性,然后通過(guò)核邏輯回歸來(lái)指導(dǎo)生成對(duì)應(yīng)哈希碼。監(jiān)督一致性特定哈希(Supervised Consistent and Specific Hashing,SCSH)[8]通過(guò)分解映射矩陣和將語(yǔ)義標(biāo)簽回歸到哈希碼來(lái)提高哈希碼的質(zhì)量和加快學(xué)習(xí)速度。上述提及的傳統(tǒng)方法由于特征處理比較簡(jiǎn)單,無(wú)法深度挖掘模態(tài)間的相關(guān)性,而且計(jì)算繁瑣導(dǎo)致時(shí)間消耗較大,最終導(dǎo)致檢索效率和結(jié)果無(wú)法達(dá)到滿意的結(jié)果,制約了其發(fā)展,無(wú)法滿足大規(guī)模數(shù)據(jù)檢索任務(wù)的要求。

      近年來(lái),由于深度學(xué)習(xí)的快速發(fā)展及其在特征提取方面的優(yōu)異表現(xiàn),許多基于深度學(xué)習(xí)的跨模態(tài)哈希方法被提出。與傳統(tǒng)哈希方法相比,深度跨模態(tài)哈希方法依賴于深度神經(jīng)網(wǎng)絡(luò)進(jìn)行更復(fù)雜和更準(zhǔn)確的特征學(xué)習(xí)。如深度跨模態(tài)哈希(Deep Cross-Modal Hashing,DCMH)[9]將哈希檢索構(gòu)造成一個(gè)端到端的框架,為后續(xù)的研究打下了基礎(chǔ)。成對(duì)關(guān)系深度哈希(Pairwise Relationship Deep Hashing,PRDH)[10]在深度跨模態(tài)哈希的基礎(chǔ)上通過(guò)引入相關(guān)約束來(lái)增強(qiáng)哈希碼的區(qū)分能力,同時(shí)考慮模態(tài)間的相似性和哈希碼冗余問(wèn)題;但該方法步驟較多、時(shí)間復(fù)雜度高,不適合推廣。語(yǔ)義深度跨模態(tài)哈希(Semantic Deep Cross-modal Hashing,SDCH)[11]利用語(yǔ)義標(biāo)簽分支和哈希哈希分支來(lái)提高特征學(xué)習(xí)的質(zhì)量,從而提升檢索性能。語(yǔ)義排名結(jié)構(gòu)保持(Semantic Ranking Structure Preserving,SRSP)哈希[12]通過(guò)最小化標(biāo)簽間的依賴關(guān)系來(lái)獲取更豐富的語(yǔ)義信息,并約束相對(duì)排名來(lái)促進(jìn)相關(guān)學(xué)習(xí)。自監(jiān)督對(duì)抗哈希(Self-Supervised Adversarial Hashing,SSAH)方法[13]首次將對(duì)抗學(xué)習(xí)引入跨模態(tài)哈希檢索領(lǐng)域中,并取得了很好的檢索效果;但對(duì)抗學(xué)習(xí)對(duì)噪聲敏感,導(dǎo)致穩(wěn)定性較差。多級(jí)相關(guān)對(duì)抗哈希(Multi-Level Correlation Adversarial Hashing,MLCAH)方法[14]構(gòu)造對(duì)抗性標(biāo)簽一致性注意機(jī)制,并將多級(jí)相關(guān)信息融和生成哈希碼;雖然該方法有效提升了檢索結(jié)果,但仍然無(wú)法有效克服噪聲對(duì)對(duì)抗網(wǎng)絡(luò)的影響。多標(biāo)簽語(yǔ)義保留哈希(Multi-Label Semantics Preserving Hashing,MLSPH)方法[15]利用樣本多標(biāo)簽構(gòu)造語(yǔ)義相似度矩陣,并通過(guò)記憶庫(kù)機(jī)制來(lái)保持相似性約束。文獻(xiàn)[16]中提出通過(guò)構(gòu)建多級(jí)語(yǔ)義指導(dǎo)分類器并使之指導(dǎo)哈希函數(shù)的學(xué)習(xí)。文獻(xiàn)[17]中引入知識(shí)蒸餾的思想并通過(guò)離散循環(huán)坐標(biāo)下降法更新哈希碼。雖然依靠深度神經(jīng)網(wǎng)絡(luò)能有效提升檢索結(jié)果,但如何從提取的特征信息中分辨出重要的信息仍然是亟待解決的問(wèn)題。

      注意力機(jī)制是人類獨(dú)有的信息處理機(jī)制。當(dāng)人們?cè)诓榭匆粡垐D片時(shí),先會(huì)快速掃描圖像來(lái)劃分目標(biāo)區(qū)域并確定主要和次要目標(biāo);然后根據(jù)相應(yīng)的注意力級(jí)別來(lái)依次理解圖像。受人類視覺(jué)系統(tǒng)的啟發(fā),研究人員提出各種類型的注意力網(wǎng)絡(luò),在特征信息中提取過(guò)程中快速分辨出重要信息來(lái)提高計(jì)算機(jī)視覺(jué)技術(shù)處理信息的效率和準(zhǔn)確率。注意力機(jī)制是通過(guò)深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得到一組權(quán)重系數(shù),然后利用動(dòng)態(tài)加權(quán)來(lái)增強(qiáng)相關(guān)目標(biāo)區(qū)域信息并弱化不相關(guān)區(qū)域的信息,即去偽存真。根據(jù)注意力網(wǎng)絡(luò)關(guān)注區(qū)域不同,可將其大致分為通道注意力、空間注意力和自注意力。通道注意力是通過(guò)探索特征圖通道之間的相關(guān)性來(lái)進(jìn)行學(xué)習(xí),得到各個(gè)通道的相對(duì)重要程度并生成對(duì)應(yīng)的權(quán)重系數(shù),典型的代表有:SENet(Squeezeand-Excitation Network)[18]、SKNet(Selective Kernel Network)[19]??臻g注意力的目的在于提高關(guān)鍵目標(biāo)區(qū)域的特征表示,通過(guò)生成每個(gè)位置的權(quán)重來(lái)實(shí)現(xiàn)強(qiáng)化感興趣的目標(biāo)區(qū)域和弱化不感興趣的區(qū)域,典型的代表如CBAM(Convolutional Block Attention Module)[20]。自注意力是通過(guò)使用內(nèi)部特征信息進(jìn)行學(xué)習(xí),減少對(duì)外部信息的依賴,典型代表 如CCNet(Criss-Cross Network)[21]、DANet(Dual Attention Network)[22]。

      本文受注意力機(jī)制的啟發(fā),結(jié)合通道注意力和空間注意力各自的優(yōu)點(diǎn)將它們結(jié)合起來(lái)取長(zhǎng)補(bǔ)短實(shí)現(xiàn)一個(gè)自適應(yīng)權(quán)重的混合注意力模型,以此來(lái)提升獲取特征信息的質(zhì)量進(jìn)而提升檢索的準(zhǔn)確率。

      2 自適應(yīng)混合注意力深度跨模態(tài)哈希

      2.1 符號(hào)與問(wèn)題定義

      本文中,矩陣范數(shù)和符號(hào)函數(shù)分別由‖X‖F(xiàn)和sign(·)表示,sign(·)的定義如下所示:

      2.2 本文模型結(jié)構(gòu)

      本文提出的自適應(yīng)混合注意力深度哈希檢索模型的結(jié)構(gòu)包含特征處理和哈希學(xué)習(xí)兩部分,如圖1 所示。為了能夠從提取的特征信息中分辨出重要的有關(guān)信息和不相關(guān)的信息來(lái)達(dá)到數(shù)據(jù)增強(qiáng)的效果,首先通過(guò)自主學(xué)習(xí)通道和空間注意力分支對(duì)應(yīng)的權(quán)重值(該權(quán)重會(huì)根據(jù)每次迭代進(jìn)行更新);然后根據(jù)權(quán)重將它們重組,構(gòu)成自適應(yīng)可變權(quán)重的混合注意力模型;其次,通過(guò)統(tǒng)計(jì)分析的方式充分利用標(biāo)簽信息來(lái)更精確地表示樣本間的相似度,減少不必要的誤差。通過(guò)混合注意力模塊處理后能有效提升所獲特征信息的質(zhì)量,進(jìn)而能生成更好的哈希碼;同時(shí)利用標(biāo)簽信息更精確的表示相似度來(lái)減少誤差。兩者共同作用有效提升了檢索結(jié)果。

      圖1 自適應(yīng)混合注意力深度哈希檢索模型的結(jié)構(gòu)Fig.1 Structure of adaptive hybrid attention hashing for deep cross-modal retrieval model

      2.2.1 特征處理部分

      所提模型的特征提取網(wǎng)絡(luò)分為圖像和文本兩部分。本文使用VGG-19(Visual Geometry Group,VGG)網(wǎng)絡(luò)作為圖像特征提取網(wǎng)絡(luò)的基礎(chǔ)模型,通過(guò)對(duì)其進(jìn)行修改來(lái)實(shí)現(xiàn)特征提取和哈希學(xué)習(xí)??紤]到深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過(guò)程中會(huì)產(chǎn)生大量冗余信息和消耗大量訓(xùn)練時(shí)間,本文模型中使用其預(yù)訓(xùn)練網(wǎng)絡(luò)來(lái)替代。首先,刪除VGG-19 網(wǎng)絡(luò)的最后一層并凍結(jié)前16 層的訓(xùn)練權(quán)重;其次,在第16 和17 層之間添加混合注意力網(wǎng)絡(luò)來(lái)捕捉重要特征信息;最后,使用VGG-19 網(wǎng)絡(luò)的兩個(gè)預(yù)訓(xùn)練的全連接層作為哈希碼的學(xué)習(xí)網(wǎng)絡(luò)和利用一個(gè)全連接層生成指定長(zhǎng)度的哈希碼。

      對(duì)于文本特征提取部分,本文模型采用特定的全連接網(wǎng)絡(luò)構(gòu)成:前兩層分別設(shè)置2 048 和4 096 個(gè)節(jié)點(diǎn),激活函數(shù)使用ReLU(Rectified Linear Unit)函數(shù);最后一層設(shè)置l個(gè)節(jié)點(diǎn),使用tanh 函數(shù)作為其激活函數(shù)并生成設(shè)定長(zhǎng)度的哈希碼。

      通道注意力通過(guò)探索特征圖中不同通道之間的相關(guān)性來(lái)獲取每個(gè)通道的相對(duì)重要性;空間注意力旨在探索不同區(qū)域的相對(duì)重要性。為了同時(shí)獲得通道注意力和空間注意力的優(yōu)勢(shì),本文提出了自適應(yīng)混合注意力模型,網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。對(duì)于給定的輸入特征Fmap∈RC*H*W,在通道注意力分支,首先對(duì)輸入特征進(jìn)行全局平均池化,然后連接兩個(gè)全連層處理,最后通過(guò)批量歸一化(Batch Normalization,BN)層得到通道注意力掩碼Mc=BN(W1(W0*AvgPool(Fmap) +b0) +b1) ∈RC*H*W;對(duì)于空間注意力分支,通過(guò)4 層卷積進(jìn)行處理后經(jīng)批量歸一化輸出得到空間注意力掩碼:

      圖2 混合注意力模型的網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of hybrid attention model

      其中Conv1×1表示1 × 1 卷積。最后,通過(guò)學(xué)習(xí)的權(quán)重將二者有機(jī)結(jié)合得到混合注意力模型的掩碼,公式如下所示:

      其中:σ(·)表示可變的閾值;α、β表示學(xué)習(xí)得到的可變權(quán)重,每次迭代均進(jìn)行更新直到找到最優(yōu)值。于是可以得到經(jīng)混合注意力模型處理后的特征圖,如式(6)所示:

      2.2.2 哈希學(xué)習(xí)部分

      為了精確探索模態(tài)間的相關(guān)性,必須最小化模態(tài)間語(yǔ)義相似項(xiàng)之間的距離和最大化不相似項(xiàng)之間的距離;因此,本文實(shí)驗(yàn)中使用了余弦三元組損失函數(shù)。對(duì)于圖像檢索文本,首先,構(gòu)造三元組,其中表示圖像樣本,表示與圖像相關(guān)的正樣本,表示與圖像相關(guān)的負(fù)樣本。于是可以得出圖像檢索文本的三元組損失函數(shù)為:

      其中:α為邊界參數(shù)。

      類似地,可以得到文本檢索圖像的三元組損失函數(shù),如下所示:

      因此,可以得到圖像檢索文本模態(tài)的目標(biāo)函數(shù),定義如下:

      結(jié)合以上兩個(gè)網(wǎng)絡(luò)分支的目標(biāo)函數(shù)可得總目標(biāo)函數(shù)為:

      2.2.3 迭代過(guò)程

      在本文實(shí)驗(yàn)中采用的是交替迭代的策略來(lái)優(yōu)化目標(biāo)函數(shù)。每次迭代時(shí),只優(yōu)化其中一個(gè)網(wǎng)絡(luò),固定另一網(wǎng)絡(luò)保持不變。算法1 總結(jié)了本文方法的迭代過(guò)程。

      算法1 自適應(yīng)混合注意力深度哈希檢索算法。

      3 實(shí)驗(yàn)與結(jié)果分析

      3.1 數(shù)據(jù)集

      1)MIRFLICKR-25K。該數(shù)據(jù)集包含25 000 對(duì)圖像文本對(duì),每個(gè)實(shí)例由24 類語(yǔ)義標(biāo)簽中的一個(gè)或多個(gè)進(jìn)行標(biāo)注。文本由1 386 維詞袋向量表示。

      2)NUS-WIDE。該數(shù)據(jù)集包含269 468 對(duì)圖像文本對(duì),每個(gè)實(shí)例由81 類語(yǔ)義標(biāo)簽進(jìn)行標(biāo)注。文本模態(tài)由1 000 維詞袋向量表示。

      3)MSCOCO。該數(shù)據(jù)集包含120 000 對(duì)圖像文本對(duì),每個(gè)實(shí)例由81 類標(biāo)簽中的一個(gè)或幾個(gè)進(jìn)行標(biāo)注。文本模態(tài)由2 000 維詞袋向量表示。

      4)IAPR TC-12。該數(shù)據(jù)集包含20 000 對(duì)圖像文本對(duì),每個(gè)實(shí)例有225 類標(biāo)簽中的一個(gè)或多個(gè)進(jìn)行標(biāo)注。文本模態(tài)經(jīng)處理后由2 912 維的詞袋向量表示。

      為了對(duì)比的公平性,本文根據(jù)MLCAH 和MLSPH 的實(shí)驗(yàn)配置來(lái)確定訓(xùn)練集、檢索集和索引集。實(shí)驗(yàn)配置見(jiàn)表1。

      表1 實(shí)驗(yàn)數(shù)據(jù)集詳細(xì)配置Tab.1 Detailed configuration of experimental datasets

      3.2 實(shí)驗(yàn)環(huán)境與參數(shù)

      本文實(shí)驗(yàn)在一臺(tái)配備有8 個(gè)GPU 的NVIDIA GTX 2080 Ti GPU 的服務(wù)器上完成。在實(shí)驗(yàn)中,設(shè)置迭代次數(shù)為50,訓(xùn)練批次大小為64,并將初始的學(xué)習(xí)率設(shè)定為10×10-5,在達(dá)到設(shè)定的迭代次數(shù)后學(xué)習(xí)率開(kāi)始按算法遞減?;旌献⒁饬δP偷臋?quán)重α、β均初始化為1,后續(xù)根據(jù)每次訓(xùn)練情況進(jìn)行自主迭代更新,直到找到最佳權(quán)重。為了排除偶然性,最終的實(shí)驗(yàn)結(jié)果取5 次實(shí)驗(yàn)結(jié)果的平均值。

      3.3 評(píng)價(jià)標(biāo)準(zhǔn)

      漢明排序和哈希查找是廣泛使用的哈希檢索評(píng)價(jià)標(biāo)準(zhǔn)。本文采用漢明排序協(xié)議來(lái)評(píng)估所提方法,并使用平均精確度均值(mean Average Precision,mAP)來(lái)評(píng)價(jià)漢明排序;此外,本文還使用了準(zhǔn)確率-召回率(Precision-Recall,PR)曲線來(lái)進(jìn)一步衡量所提方法的性能,PR 曲線與兩個(gè)坐標(biāo)軸共同圍成的面積越大,則表示對(duì)應(yīng)方法的性能越好。

      3.4 實(shí)驗(yàn)結(jié)果與分析

      表2 給出了在4 個(gè)公共數(shù)據(jù)集(MIRFLICKR-25K、NUSWIDE、MSCOCO 和IAPR TC-12)上哈希 碼長(zhǎng)度 為16 bit、32 bit 和64 bit 時(shí)與其他跨模態(tài)檢索算法的mAP 對(duì)比結(jié)果。其中包 括SePH[5]、SCM[6]、GSPH[7]、DCMH[9]、SSAH[13]、MLCAH[14]、MLSPH[15]。本文中的實(shí)驗(yàn)數(shù)據(jù)除MLSPH 方法外均從原文中引用。由于MLSPH 方法公開(kāi)代碼不全且數(shù)據(jù)處理方式不同,因此在MSCOCO 和IAPR TC-12 數(shù)據(jù)集上按照本文的配置對(duì)其進(jìn)行復(fù)現(xiàn)。從實(shí)驗(yàn)結(jié)果可以看出,本文所提方法的實(shí)驗(yàn)結(jié)果均好于其他對(duì)比的方法,即可證明本文所提方法的有效性。另外,基于深度學(xué)習(xí)的方法的檢索結(jié)果明顯好于基于淺層網(wǎng)絡(luò)的方法,表明深度神經(jīng)網(wǎng)絡(luò)的優(yōu)越性。

      表2 在4個(gè)公共數(shù)據(jù)集上各方法的mAP對(duì)比Tab.2 mAP comparison of each algorithm on four public datasets

      在MIRFLICKR-25K、NUS-WIDE、MSCOCO和IAPR TC-12數(shù)據(jù)集上,本文所提方法與除本文方法外排名最好的方法相比,在圖像檢索文本任務(wù)中,哈希碼長(zhǎng)度為16 bit、32 bit、64 bit時(shí)分別提升了(1.6%、0.98%、0.23%)、(2.6%、3.3%、2.8)、(5.3%、9.7%、12.3%)和(1.2%、3.9%、6.9%);在文本檢索圖像的任務(wù)中分別平均提升了(2.9%、1.7%、1.9%)、(0.88%、1.1%、1.3%)、(8.4%、11.1%、9.6%)和(3.1%、7.1%、9.5%)。實(shí)驗(yàn)結(jié)果表明本文所提自適應(yīng)混合注意力模型和相似度測(cè)量方法的有效性。通過(guò)自適應(yīng)混合注意力模型能有效分辨出重要的特征信息來(lái)提升獲取特征的質(zhì)量,進(jìn)而生成更具辨別性的哈希碼,從而實(shí)現(xiàn)檢索性能的提升。此外通過(guò)對(duì)標(biāo)簽信息的探索,更精確地表示樣本間的相似性,減小了不必要的誤差,對(duì)提升檢索性能有著重要的貢獻(xiàn)。通過(guò)上述步驟,可以充分挖掘模態(tài)間的相關(guān)性,有效彌合模態(tài)間的語(yǔ)義差距,進(jìn)而提高了檢索的準(zhǔn)確率。

      圖3 中給出了所提方法在3 個(gè)數(shù)據(jù)集上的PR 曲線。以哈希碼長(zhǎng)度為16 bit 為例,PR 曲線與兩坐標(biāo)軸所圍面積越大表明其性能越好。由圖3 可以得出以下結(jié)論:

      圖3 3個(gè)公共數(shù)據(jù)集上哈希碼長(zhǎng)度為16 bit時(shí)的PR曲線Fig.3 PR curves with hash code length of 16 bit on three public datasets

      1)本文方 法在數(shù)據(jù)集NUS-WIDE(NUS)和MSCOCO(COCO)上的表現(xiàn)要比數(shù)據(jù)集MIRFLICKR-25K(MIR)上好,表明本文方法更適用于大規(guī)模的數(shù)據(jù)集。

      2)從PR 曲線圖上來(lái)看,本文方法對(duì)應(yīng)的曲線高于其他對(duì)比方法,表明本文方法的總體性能要優(yōu)于其他對(duì)比方法,這得益于本文方法能有效提高所獲特征的質(zhì)量和利用標(biāo)簽信息構(gòu)建更準(zhǔn)確的相似矩陣來(lái)減小不必要的誤差,從而提升檢索性能。

      為了進(jìn)一步確認(rèn)本文方法的有效性,設(shè)計(jì)了訓(xùn)練效率分析實(shí)驗(yàn)。探索了本文方法和MLSPH 在MIIRFLICKR-25K 數(shù)據(jù)集上、哈希碼長(zhǎng)度為16 bit 時(shí)的平均準(zhǔn)確率均值(mAP)和訓(xùn)練損失與迭代次數(shù)的變化。如圖4 和圖5 所示。

      圖4 mAP和訓(xùn)練次數(shù)的關(guān)系Fig.4 Relationship between mAP and the number of training

      圖5 訓(xùn)練損失與訓(xùn)練次數(shù)的關(guān)系Fig.5 Relationship between training loss and the number of training

      相較于MLSPH,本文方法(AHAH)的mAP 能在較少的訓(xùn)練次數(shù)上升到最高水平并保持穩(wěn)定;此外,從損失變化曲線圖上可以看出本文方法的損失能很快下降收斂并保持在穩(wěn)定值附近,振幅穩(wěn)定。綜上可證明本文方法的訓(xùn)練效率優(yōu)于其他對(duì)比方法。

      3.5 消融實(shí)驗(yàn)

      3.5.1 混合注意力模型消融實(shí)驗(yàn)

      為了證明所提自適應(yīng)混合注意力模型的有效性,本文基于MIRFLICKR-25K 數(shù)據(jù)集設(shè)計(jì)了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)中分別為只使用通道注意力、只使用空間注意力和使用混合注意力模型。實(shí)驗(yàn)結(jié)果如表3 所示。

      表3 注意力網(wǎng)絡(luò)mAP實(shí)驗(yàn)結(jié)果對(duì)比Tab.3 Comparison of mAP experimental results of attention networks

      由以上對(duì)比實(shí)驗(yàn)可以看出使用應(yīng)混合注意力方法的實(shí)驗(yàn)結(jié)果明顯好于單獨(dú)使用的情況,表明使用混合注意力網(wǎng)絡(luò)能有效提升檢索結(jié)果。

      3.5.2 AHAH方法消融實(shí)驗(yàn)

      為了驗(yàn)證所提方法的有效性,本文還設(shè)計(jì)了兩組消融實(shí)驗(yàn)進(jìn)行檢驗(yàn)。消融實(shí)驗(yàn)包括:1)AHAH-1,在原有實(shí)驗(yàn)基礎(chǔ)上移除混合注意力網(wǎng)絡(luò),其他配置保持不變進(jìn)行實(shí)驗(yàn);2)AHAH-2,在原有實(shí)驗(yàn)基礎(chǔ)上移除本文所提相似度度量方法使用普通的進(jìn)行替代。消融實(shí)驗(yàn)結(jié)果如表4 所示,可以看出本文所提的自適應(yīng)混合注意力模型和相似度度量方法可以很好地提升檢索精度。

      表4 AHAH消融實(shí)驗(yàn)mAP結(jié)果Tab.4 mAP results of ablation experiments of AHAH

      4 結(jié)語(yǔ)

      針對(duì)現(xiàn)有哈希方法在特征學(xué)習(xí)過(guò)程中無(wú)法區(qū)分各區(qū)域特征信息的重要程度和不能充分利用標(biāo)簽信息來(lái)深度挖掘模態(tài)間相關(guān)性的問(wèn)題,本文提出了自適應(yīng)混合注意力深度哈希檢索模型。具體地,首先,本文提出自適應(yīng)混合注意力網(wǎng)絡(luò)來(lái)增強(qiáng)特征圖中相關(guān)目標(biāo)區(qū)域并弱化不相關(guān)區(qū)域的信息,提升了獲取特征信息的質(zhì)量進(jìn)而提升檢索精度。其次,本文通過(guò)利用標(biāo)簽信息探索模態(tài)間的相關(guān)性來(lái)進(jìn)一步提升檢索性能。在4 個(gè)常用數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn)和消融實(shí)驗(yàn),與幾種先進(jìn)的跨模態(tài)檢索算法相比,實(shí)驗(yàn)結(jié)果表明了本文方法的有效性。目前的工作只是基于圖像和文本模態(tài)之間的檢索,在接下來(lái)的研究中將探索視頻-文本、圖像-視頻等多種模態(tài)之間的相互檢索。

      猜你喜歡
      哈希注意力檢索
      讓注意力“飛”回來(lái)
      2019年第4-6期便捷檢索目錄
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      A Beautiful Way Of Looking At Things
      專利檢索中“語(yǔ)義”的表現(xiàn)
      專利代理(2016年1期)2016-05-17 06:14:36
      基于OpenCV與均值哈希算法的人臉相似識(shí)別系統(tǒng)
      基于維度分解的哈希多維快速流分類算法
      基于同態(tài)哈希函數(shù)的云數(shù)據(jù)完整性驗(yàn)證算法
      一種基于Bigram二級(jí)哈希的中文索引結(jié)構(gòu)
      國(guó)際標(biāo)準(zhǔn)檢索
      深泽县| 华蓥市| 商城县| 临高县| 京山县| 探索| 高唐县| 彭州市| 武邑县| 鄂州市| 农安县| 玛纳斯县| 鄄城县| 泸州市| 安多县| 柳林县| 泽普县| 云和县| 响水县| 兰考县| 昌邑市| 裕民县| 商水县| 融水| 勐海县| 忻城县| 弥勒县| 泸水县| 砚山县| 波密县| 嘉义市| 太仆寺旗| 武威市| 遂平县| 年辖:市辖区| 阿城市| 涿鹿县| 那坡县| 嘉荫县| 合肥市| 政和县|