• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      融合弱監(jiān)督目標定位的細粒度小樣本學習

      2022-07-15 01:05:34賀小箭林金福
      中國圖象圖形學報 2022年7期
      關鍵詞:特征描述細粒度掩膜

      賀小箭,林金福

      華南理工大學計算機科學與工程學院,廣州 510006

      0 引 言

      近年來,深度卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)在圖像識別任務上取得了巨大進步。通過大量的標注數(shù)據(jù),CNN可以獲得豐富的圖像表征,從而提升下游任務(識別、分類等)性能。但當訓練樣本很有限時,深度卷積神經(jīng)網(wǎng)絡通常會遇到過擬合和泛化性能差等問題。而人卻可以僅從一幅或幾幅圖像中學習到全新的類別,例如一個孩子在看過一幅或幾幅貓的圖像后,便可以形成“貓”的概念。小樣本學習的任務就是從少量的數(shù)據(jù)中學習如何識別全新的類別。

      進一步地,細粒度圖像識別旨在對屬于相同類別的不同子類的圖像進行分類,例如各種鳥類、各種狗類和各種汽車的識別。區(qū)分一個子類與另一子類的特征通常是細微的和局部的,這使得細粒度圖像分類比常規(guī)圖像分類更具挑戰(zhàn)性。因此大多數(shù)現(xiàn)有的細粒度分類方法需要大量的訓練數(shù)據(jù)來學習一個更魯棒性的分類器。但是由于標注細粒度圖像需要專業(yè)知識,例如標注各種鳥類可能需要求助鳥類學家等,而且許多細粒度方法還需要有邊界框標注等。這些都給細粒度圖像標注帶來巨大成本。此外,許多瀕臨滅絕和稀有物種的圖像很難收集。因此在數(shù)據(jù)量極其有限的情況下識別出細粒度圖像是一個極具實際應用價值的問題,但是這方面的深入研究目前還很少。

      小樣本學習正是用來解決數(shù)據(jù)量有限情況下圖像分類的一種技術。許多小樣本學習方法主要關注于學習圖像的全局表征,在常規(guī)的小樣本分類任務上取得了不錯的性能,但是卻無法很好處理細粒度的小樣本分類任務,可能是因為全局的表征無法捕獲細粒度圖像分類所需的局部的和細微的特征。此外,許多細粒度圖像分類方法嚴重依賴于大量的標注數(shù)據(jù),例如邊界框標注和目標部位標注等細粒度級別的標注。在小樣本的場景下,基本沒有提供細粒度的標注,導致這些細粒度分類方法同樣無法直接使用。因此,提出一種可以同時處理常規(guī)小樣本學習和細粒度小樣本學習的方法具有重要意義。

      已有工作表明,通過目標定位可以提高常規(guī)圖像的分類性能(Oquab等,2015;Wei等,2017,2018)。受此啟發(fā),本文認為通過弱監(jiān)督目標定位獲得圖像的區(qū)分性區(qū)域,對于常規(guī)的小樣本分類和細粒度的小樣本分類都會有幫助。因為目標定位直接提供了最具區(qū)分性區(qū)域的特征。弱監(jiān)督目標定位旨在僅通過圖像標簽級別的標注實現(xiàn)目標定位。但是現(xiàn)有的許多弱監(jiān)督目標定位的方法無法完整地定位目標。例如,CAM(class activation map)(Zhou等,2016)用全局最大池化和全連接層代替分類網(wǎng)絡的最后幾層獲得類激活圖。但CAM僅關注那些最有利于分類性能提升的區(qū)域而不是整體,無法直接用于細粒度小樣本學習。為了彌補這一缺點,本文提出一個基于自注意力的互補定位模塊(self-attention based complementary module,SACM)。如圖1所示,所提出的模塊是輕量級的,主要包括顯著性掩膜生成模塊和分類器模塊。顯著性掩膜生成模塊基于通道自注意力,為輸入的特征圖產(chǎn)生顯著性掩膜,與其互補的非顯著性掩膜通過設定的閾值產(chǎn)生。顯著性掩膜對應圖像最具區(qū)分性區(qū)域,互補的非顯著性掩膜對應擦除最具區(qū)分性區(qū)域。顯著性掩膜和互補非顯著性掩膜彼此作用于特征圖,得到顯著性特征圖和互補非顯著性特征圖。分類器通過將這兩個互補的特征圖分到同一類來捕獲更多有利于分類的特征,從而產(chǎn)生更加完整的類激活圖。圖中全局平均池化(global average pooling,GAP),本文提出的SACM模塊不需要訓練多個分類器,也不需要額外的步驟產(chǎn)生類激活圖且輕量級可以應用于許多網(wǎng)絡。

      圖1 自注意力互補定位模塊結構Fig.1 The structure of self-attention complementary module

      許多小樣本學習方法(Snell等,2017;Vinyals等,2016;Hariharan和Girshick,2017)通過求圖像全局特征(單一高維向量)的平均值獲得圖像對應類別的原型,進而利用歐氏距離或余弦距離進行最近鄰分類。這種方法盡管高效,但容易受到噪聲影響。而且這種基于全局表征的度量方式也不適用于細粒度圖像分類。為了解決這個問題,本文提出特征描述子表示與語義對齊距離。特征描述子表示假設每個特征描述子是獨立的,用篩選得到特征描述子集合作為圖像的表征。相比使用一個高維向量作為表征,特征描述子表示更加細粒度,能更好地捕獲和利用圖像豐富的局部特征,因此特征描述子表示是一種表達能力更強的數(shù)據(jù)表征。此外,為了適應特征描述子表示,受樸素貝葉斯最近鄰(naive Bayes nearest neighbor,NBNN)(Boiman等,2008)和DN4(deep nearest neighbor neural network)(Li等,2019a)的啟發(fā),提出了一種語義對齊距離來度量兩個特征描述子表示的相似度。由于特征描述子表示是根據(jù)圖像的類激活圖信息篩選得到的,對應著圖像語義的最相關部分,因此提出的語義對齊距離可以直接度量兩個圖像最具區(qū)分性區(qū)域的相似度。與DN4不同,本文利用弱監(jiān)督目標定位信息對圖像的特征描述子集合進行篩選,在保留目標語義信息的同時,抑制了背景噪聲,而且篩選可以進一步減少特征描述子個數(shù),一定程度上提高了NBNN的執(zhí)行效率。本文提出的融合弱監(jiān)督目標定位的細粒度小樣本學習方法是一個二階段網(wǎng)絡,融合了弱監(jiān)督目標定位網(wǎng)絡和小樣本圖像分類網(wǎng)絡。

      本文的主要貢獻包括:1)提出一個輕量級的弱監(jiān)督目標定位模塊SACM,利用通道自注意力,通過擦除互補的方式獲得更完整的類激活圖,可以很容易地應用到許多現(xiàn)有的分類網(wǎng)絡。2)基于特征描述子表示,設計了一種語義對齊距離來提升細粒度小樣本分類的性能?;诤Y選的特征描述子表示,提出的語義對齊距離可以對齊兩幅圖像之間的內(nèi)容。3)進行了大量的性能分析實驗。提出的方法在小樣本數(shù)據(jù)集和細粒度小樣本數(shù)據(jù)集上都取得了有競爭性的性能。泛化性實驗也進一步驗證了提出方法可以同時很好地解決小樣本學習和細粒度小樣本學習任務。此外,可視化也證實了提出的模塊可以更加完整地實現(xiàn)弱監(jiān)督目標定位。

      1 相關工作

      1.1 元學習和度量學習

      小樣本學習方法主要包括基于元學習的方法和基于度量學習的方法?;谠獙W習的方法利用元學習范式,Santoro等人(2016)訓練一個跨任務元學習器,可以快速準確地更新模型中的參數(shù)。Finn等人(2017)訓練了一個與模型無關的元學習器,并找到適應各種具有相似分布任務的初始參數(shù),通過設置學習得到的初始化參數(shù)以及對應的參數(shù)更新方式,只需很少的訓練樣本就可以快速推廣到新任務。Ravi和Larochelle(2017)提出一種基于長短期記憶網(wǎng)絡(long short-term memory,LSTM)的元學習模型,學習分類器參數(shù)的更新規(guī)則和分類器參數(shù)的一般初始化。此外,參數(shù)生成方法(Qiao等,2018;Lifchitz等,2019;Gidaris和Komodakis,2018)學習直接生成分類器的權重,而不是學習如何更新網(wǎng)絡的參數(shù)。該類方法的本質是利用卷積神經(jīng)網(wǎng)絡最后一層的激活輸出和全連接層的分類權重在分布上的相似性直接預測分類權重?;诙攘繉W習的方法是一種通過學習嵌入函數(shù)來度量查詢圖像和支持圖像之間相似性的分類方法。在測試期間,使用最近鄰方法對嵌入空間中的新類別進行分類,其中相同類別的樣本比不同類別的樣本距離更近。結合注意機制,匹配網(wǎng)絡(Vinyals等,2016)使用余弦距離在嵌入空間訓練一個K鄰居分類器,并設計插曲(episode)訓練模式,使訓練階段更加貼近測試階段。Snell等人(2017)提出一個原型網(wǎng)絡(prototypical networks,Proto-Net)學習每個類別的原型,并通過計算查詢圖像與原型在嵌入空間的歐氏距離進行分類。與匹配網(wǎng)絡和原型網(wǎng)絡手動選擇固定度量(例如余弦和歐氏距離)不同,關系網(wǎng)絡(relation net)(Sung等,2018)使用非線性比較器進行學習,直接比較查詢圖像與支持圖像在嵌入空間之間的度量距離,通過網(wǎng)絡直接給出兩個圖像之間的相似度分數(shù)來判斷圖像的類別。

      上述度量方法均采用嵌入空間中的單一高維特征表示每個類別,進而利用歐氏距離或余弦相似度進行圖像分類。與這些方法不同,本文采用特征描述子表示來表征一個類別。同時,基于特征描述子表示和NBNN算法,設計了一種語義對齊距離來更好地度量兩個細粒度圖像之間的距離。

      1.2 細粒度圖像分類

      細粒度圖像分類面臨著子類別之間差異微小而類內(nèi)圖像差異巨大的問題。目前的主流方法(馮語姍和王子磊,2016;翁雨辰 等,2017;Wei等,2018;Sun等,2021;Fu等,2017)是先定位出細粒度圖像中最具區(qū)分性的區(qū)域,再利用得到的局部特征進行分類。Mask-CNN(Wei等,2018)借助全卷積網(wǎng)絡(fully convolutional network,F(xiàn)CN)(Long等,2015)學習一個部位分割模型,為后續(xù)細粒度分類網(wǎng)絡提供頭部和軀干等局部特征,實現(xiàn)細粒度分類。MA-CNN (multi-attention CNN) (Zheng等,2017)通過交叉訓練channel grouping 和part classification兩個子網(wǎng)絡來更好地學習細粒度的特征。channel grouping網(wǎng)絡基于特征圖通道,利用聚類、加權和池化生成多個部位信息。part classification網(wǎng)絡則對channel grouping 網(wǎng)絡生成的部位進行分類,使網(wǎng)絡學習到更多細粒度特征。針對現(xiàn)有細粒度方法中區(qū)域檢測和細粒度特征學習彼此對立的情況,F(xiàn)u等人(2017)提出多尺度循環(huán)注意力卷積網(wǎng)絡,通過相互強化的方式,對判別區(qū)域注意力和基于區(qū)域的特征表征進行遞歸學習。多尺度網(wǎng)絡通過交替訓練的方式,不斷聚焦關鍵區(qū)域,同時不斷提高細粒度特征分類的性能。相似地,本文方法遵循兩階段網(wǎng)絡的方式,先訓練得到一個弱監(jiān)督目標定位網(wǎng)絡,再訓練細粒度圖像分類網(wǎng)絡。不同于常規(guī)細粒度圖像分類的訓練方式,本文提出的細粒度小樣本分類網(wǎng)絡采用插曲訓練機制進行訓練。

      1.3 弱監(jiān)督目標定位

      弱監(jiān)督目標定位(weakly-supervised object localization,WSOL)是一種僅使用標簽級別標注來實現(xiàn)目標定位的技術。CAM(Zhou等,2016)將分類網(wǎng)絡最后幾層替換為全局平均池化和全連接層,通過加權融合最后一個卷積層的特征圖得到類激活圖。但是CAM嚴重依賴目標的某些特征,導致CAM方法只能定位目標的一部分區(qū)域。為了解決CAM過度依賴某些顯著性的特征,Zhang等人(2018a)提出基于對抗擦除學習(adversarial complementary learning,Acol)的方法,利用額外的分類器對擦除后的特征分類,使網(wǎng)絡學習更多有利于分類的特征。通過融合多個分類器的結果,Acol能得到完整的類激活圖,但存在訓練多個分類器的缺點,對此,Choe和Shim(2019)提出ADL(attention-based dropout layer)對特征圖最具區(qū)分性的區(qū)域進行擦除,使網(wǎng)絡可以學習更多有利于圖像分類的特征,但需要額外步驟獲得類激活圖。與擦除方式不同,Zhang等人(2018b)通過生成引導掩膜,將圖像分為背景、前景和不確定區(qū)域,向分類網(wǎng)絡提供像素輔助監(jiān)督,利用分階段的方法,逐步精細化前景區(qū)域,進而得到更加精確的定位信息。本文提出的自注意力互補定位模塊,利用擦除方式獲得更多關鍵特征,實現(xiàn)了完整的目標定位。本文設計了一個全新的顯著性掩膜生成模塊來更加準確地獲取特征圖的顯著性區(qū)域,無需依賴額外的分類器和額外的向后反饋。

      2 細粒度小樣本分類方法

      融合弱監(jiān)督目標定位的細粒度小樣本分類方法如圖2所示,其中w、h和d分別為特征圖的寬度、高度和深度。該方法的具體步驟為:1)訓練WSOL網(wǎng)絡,采用SACM組合VGG16(Visual Geometry Group 16 layer)的卷積層得到WSOL網(wǎng)絡并進行訓練。2)利用Conv64或ResNet12(residual network)作為特征提取網(wǎng)絡獲得特征圖。3)使用WSOL網(wǎng)絡生成的類激活圖進行特征描述子篩選。4)將選定的特征描述子饋送到SAM模塊以計算語義對齊距離,并實現(xiàn)細粒度小樣本圖像的分類。

      圖2 融合弱監(jiān)督目標定位的細粒度小樣本圖像分類流程圖Fig.2 Flow chart of fine-grained few-shot image classification based on weakly-supervised object localization

      2.1 顯著性掩膜生成模塊

      本文提出的自注意力互補定位模塊采用擦除方式獲得更多的有用的分類特征,產(chǎn)生更加完整的類激活圖。為了更加精確地獲得顯著性區(qū)域,設計了一個顯著性掩膜生成模塊,基于特征圖的通道自注意力機制,為特征圖生成顯著性掩膜。同時通過閾值獲得一個互補的非顯著性掩膜。特征圖先通過全局最大池化、全局平均池化和1×1卷積操作,然后串聯(lián)3個操作的輸出,利用1×1卷積和sigmoid函數(shù)得到顯著性掩膜。本文的顯著性掩膜生成模塊的結構圖如圖3所示。其中,C、W和H分別為特征圖的通道數(shù),寬度和高度。

      圖3 顯著性掩膜生成模塊Fig.3 Saliency mask generation module

      2.2 分類器模塊

      CAM需要額外的梯度回傳步驟來獲得類激活圖。與此不同,Acol提出了一個新的方式從卷積層中直接獲取類激活圖。假設訓練階段有C個類別,最后的一層為1×1卷積。假設1×1卷積層的輸入特征圖為Sk,卷積核的參數(shù)為W1×1∈RK×C,K為通道數(shù)。直接由卷積層獲得類激活圖的公式為

      (1)

      基于Acol中的類激活圖產(chǎn)生方法,本文的分類器結構如圖4所示。分類器由分類器卷積層、全局平均池化和softmax函數(shù)組成。其中,分類器卷積層包括3個3×3的卷積塊和1個1×1的卷積塊。每個3×3卷積塊包含1 024個大小為3×3的卷積核,1×1的卷積塊包含1 024個大小為1×1的卷積核。本文方法的類激活圖是基于1×1的卷積層得到的。

      圖4 分類器結構圖和產(chǎn)生類激活圖的過程圖Fig.4 Classifier structure diagram and process diagram for generating class activation map

      (2)

      式中,max操作具體為對于輸入的兩個大小相同的矩陣,輸出矩陣每個位置的元素為兩個輸入矩陣在對應位置的最大值。

      2.3 特征描述子

      給定圖像X,通過小樣本圖像特征提取網(wǎng)絡(Conv64或ResNet12)輸出一個對應的特征圖,特征圖是一個3維張量,記為E(X)=Rd×w×h。一方面,E(X) 包含d個大小為w×h的特征圖;另一方面,E(X)=Rd×w×h也可看成包含了m=w×h個特征描述子,每個特征描述子都是一個維度為d的向量,本文假設每個特征描述子都是獨立的。因此,卷積層的輸出也可以記為

      E(X)={d(1,1),d(1,2),d(1,3),…,d(i,j),…,d(w,h)}=
      {d1,d2,d3,…,dm}

      (3)

      式中,d(i,j)表示該特征描述子在特征圖中位于坐標(i,j)的位置。相比于全局表征,利用特征描述子集合表示特征圖能捕獲更多局部特征信息,更適合于細粒度圖像分類。

      2.4 特征描述子篩選

      利用訓練好的WSOL網(wǎng)絡獲取圖像的類激活圖,對圖像進行特征描述子篩選,得到圖像的特征描述子表示。其過程為:1)圖像的類激活圖按設定的閾值(類激活圖的均值)進行二值化,得到二值化類激活掩膜。2)二值化激活掩膜通過最近鄰插值,得到尺寸為w×h的篩選掩膜。3)將圖像的篩選掩膜作用于特征圖,去除所有零向量,得到的特征描述子集合便是圖像的特征描述子表示。記為

      E(X)={d1,d2,d3,…,dn}

      (4)

      式中,n表示篩選后剩下的特征描述子的數(shù)量。通過篩選,可以去掉背景相關的特征描述子,減少背景噪聲影響。同時,保留的特征描述子對應圖像內(nèi)容最具區(qū)分性區(qū)域的語義。

      2.5 語義對齊模塊

      語義對齊模塊(semantic alignment module,SAM)用于計算兩個圖像最具區(qū)分性區(qū)域的相關性?;跇闼刎惾~斯最近鄰分類器的啟發(fā),本文假設特征描述子表示E(X)={d1,d2,d3,…,dn}中每個特征描述子都是獨立的。特征描述子獨立性假設可以利用卷積神經(jīng)網(wǎng)絡的平移不變性。例如,目標平移后其響應的位置發(fā)生改變,但是對應的特征描述子表示變化不大。然而使用單個高維向量表示,其對應的維度信息便會改變,這不利于表征的穩(wěn)定性。針對細粒度圖像識別,基于圖像的特征描述子表示,本文提出了一種新的度量方式,稱為語義對齊距離。其計算過程為

      (5)

      (6)

      通過累加查詢圖像的特征描述子表示中所有的特征描述子的最近鄰余弦距離,得到查詢圖像到支持圖像的語義對齊距離D(qk,sk)。

      基于特征描述子的獨立性假設,查詢圖中每個特征描述子通過最近鄰余弦距離,都能在支持圖像中搜索到與之匹配的特征描述子。這保證了查詢圖像與支持圖像之間的關鍵內(nèi)容在語義上達到對齊。此外,基于特征描述子表示的方式,每個特征描述子比之前的單個高維特征向量表示方式,其搜索的空間變大,這相當于在一個“多樣本”的情況下進行分類,進而提高了度量對噪聲的容忍性。

      對于C-wayK-shot設置下的小樣本圖像分類任務,查詢圖像(x,y)屬于支持圖中第k∈{0,1,2,…,C-1}類的概率為

      (7)

      對于每個插曲中的N幅查詢圖,其損失函數(shù)為

      (8)

      3 實驗和分析

      3.1 數(shù)據(jù)集

      實驗所用的數(shù)據(jù)集包括小樣本數(shù)據(jù)集和基準細粒度數(shù)據(jù)集。

      1)miniImageNet數(shù)據(jù)集。作為ImageNet的微型版本,miniImageNet數(shù)據(jù)集包含100個類,每個類包含600幅彩色圖像。實驗時按64、16和20個類別分為訓練集、驗證集和測試集。

      2)Few-Shot Fine-Grained 數(shù)據(jù)集。選擇了3個基準細粒度數(shù)據(jù)集進行細粒度小樣本學習任務實驗。包括Stanford Dogs(Khosla等,2011)、Stanford Cars(Makadia和Yumer,2015)和CUB 200-2011(Caltech-UCSD birds)(Wah等,2011)。Stanford Dogs包含120個類別,20 580幅彩色圖像,實驗時按70、20和30個類別分為訓練集、驗證集和測試集。Stanford Cars包含196個類別,16 185幅汽車彩色圖像,實驗時按130、17和49個類別分為訓練集、驗證集和測試集。CUB 200-2011包括200個類別,6 033幅鳥類彩色圖像,實驗時按130、20和50個類別分為訓練集、驗證集和測試集。

      3.2 實驗設置

      實驗的軟硬件配置為Intel(R)Core(TM)i7-5930K @ 3.50 GHz 12 CPU,64 GB內(nèi)存,GeForce GTX TITAN X GPU,顯存大小11 GB。服務器系統(tǒng)為Ubuntu 16.04 LTS 64位,深度學習框架為Pytorch。

      3.2.1 WSOL網(wǎng)絡

      與CAM一樣,以VGG-16作為分類網(wǎng)絡的骨干。具體地說,即用本文提出的SACM模塊代替VGG16的最后一個池化層和3個完全連接的層,得到本文的WSOL網(wǎng)絡,在miniImageNet、Stanford Dogs、Stanford Cars和CUB 200-2011數(shù)據(jù)集的訓練集上進行端到端訓練。為了公平比較,輸入圖像統(tǒng)一設為224×224像素(本文模塊為全卷積結構,可處理任意大小的輸入)。采用SDG(stochastic gradient descent)為優(yōu)化器,初始學習率設為1×10-3,學習率每20 000個epoch減少一半,互補非顯著掩膜生成的閾值設定為0.9。

      3.2.2 小樣本分類網(wǎng)絡

      采用插曲訓練機制訓練小樣本圖像分類網(wǎng)絡。每個訓練插曲包含隨機抽取的C個類別,每個類別除包含K幅支持圖像外,設置C-way 1-shot包含15幅查詢圖像,C-way 5-shot包含10幅查詢圖像。即對于5-way 1-shot任務,每類有5幅支持圖像和15幅查詢圖像,因此每個插曲共5×1=5幅支持圖像和15×5=75幅查詢圖像。類似地,對于5-way 5-shot任務,共5×5=25幅支持圖像和10×5=50幅查詢圖像。另外,將所有輸入圖像尺寸調(diào)整為84×84像素。在訓練階段,隨機采樣300 000個插曲,選擇Adam作為優(yōu)化器,初始學習設置為5×10-3。學習率每10萬個插曲減少一半。在測試階段,采用600個插曲的均值,95%的置信區(qū)間作為性能指標。

      3.3 小樣本數(shù)據(jù)集miniImageNet實驗分析

      首先在miniImageNet數(shù)據(jù)集上進行小樣本圖像分類準確率的比較,實驗結果如表1所示。當采用ResNet12作為嵌入網(wǎng)絡時,本文模型在5-way 1-shot和5-way 5-shot任務中取得了最好的成績,特別是在5-shot任務中獲得最好結果,比DN4(Li等,2019a)高出3.29%。此外,當同時使用Conv64作為嵌入網(wǎng)絡時,本文模型在5-way 5-shot任務上實現(xiàn)了最高的精度,比CovaMNet(covariance metric networks)(Li等,2019b)、DN4和Sal-Net(saliency-guided networks)(Zhang等,2019)的性能分別提高了4.40%、1.03%和0.04%。使用Conv64嵌入網(wǎng)絡在5-way 1-shot任務中也獲得了非常有競爭力的準確性,與R2D2(recurrent replay distributed DQN)(Bertinetto等,2019)、CovaMNet和DN4相比,分別提高了3.82%、2.13%和2.08%。在5-way 1-shot任務中,Dynamic-Net(Gidaris和Komodakis,2018)和Sal-Net執(zhí)行非常復雜的訓練步驟,以獲得優(yōu)異的結果。前者也采用兩階段模型,但是需要對小樣本圖像分類的嵌入網(wǎng)絡進行預訓練,而本文方法則不用。后者利用最新的顯著性檢測模型生成顯著性掩膜,從而定位關鍵對象,但是其需要像素級別的標注數(shù)據(jù)。相反,本文方法僅需要圖像級別標注。實驗結果表明,對于常規(guī)的小樣本圖像分類任務,本文方法在5-way 1-shot和5-way 5-shot設置下都優(yōu)于先前的方法。

      表1 在miniImageNet數(shù)據(jù)集上小樣本分類精度Table 1 Few-shot classification accuracies on miniImageNet /%

      3.4 細粒度小樣本數(shù)據(jù)集實驗分析

      與一般的小樣本分類任務相比,細粒度數(shù)據(jù)集由于類間差異小、類內(nèi)差異大,因此細粒度的小樣本分類更具挑戰(zhàn)性。實驗在3個主流的細粒度小樣本數(shù)據(jù)集上全面評估本文的方法。同時,與DN4、CovaMNet、GNN(graph neural networks)(Garcia和Bruna,2018)、Proto-Net(Snell等,2017)、MattML(multi-attention meta learning)(Zhu等,2020)和LRPABN(low-rank pairwise alignment bilinear network)(Huang等,2021)等方法進行比較。如表2所示,本文方法在5-way 1-shot任務和5-way 5-shot任務下,在3個細粒度數(shù)據(jù)集上均實現(xiàn)了最佳性能。更詳細地講,本文方法在Stanford Dogs數(shù)據(jù)集上,在1-shot和5-shot設置下分別比第2名提高了4.18%和15.79%。在Stanford Cars數(shù)據(jù)集上,在1-Shot和5-Shot方面均達到了最先進的性能,與第2名相比分別提高了16.13%和5.83%。對于CUB 200-2011數(shù)據(jù)集,本文方法在1-shot設置下獲得競爭準確性,在5-shot設置下獲得最佳性能。實驗結果表明,弱監(jiān)督目標定位有助于提高細粒度小樣本圖像的分類性能。本文提出的融合弱監(jiān)督目標定位的細粒度小樣本分類方法能夠極大提高細粒度圖像的分類性能。

      表2 3個細粒度數(shù)據(jù)集上的細粒度小樣本分類精度Table 2 Classification accuracy of fine-grained few-shot learning on three fine-grained datasets /%

      3.5 泛化性實驗

      為了驗證小樣本學習模型的泛化性能并證明本文方法可以同時很好地處理小樣本學習和細粒度小樣本學習任務,在完全不同的數(shù)據(jù)集上對模型進行評估。與訓練數(shù)據(jù)集完全不同的新數(shù)據(jù)集會出現(xiàn)顯著的數(shù)據(jù)分布偏移(Li等,2020;Recht等,2019),導致模型的性能顯著下降。訓練類和測試類沒有交集,但是由于它們來自同一數(shù)據(jù)集,因此它們?nèi)跃哂邢嗤臄?shù)據(jù)分布。實驗中,在miniImageNet上訓練模型,在細粒度數(shù)據(jù)集上進行測試以評估泛化能力。為了公平比較,所有模型的嵌入網(wǎng)絡均為ResNet12,實驗結果如表3所示??梢钥闯?,在3個新數(shù)據(jù)集上,本文模型優(yōu)于Proto-Net(Snell等,2017)、Relation Net(Sung等,2018)和K-tuplet loss (Li等,2020),表明本文方法具有良好的泛化能力。結合小樣本分類實驗和細粒度小樣本分類實驗結果可知,本文方法可以同時很好地處理小樣本學習和細粒度小樣本學習。

      表3 模型泛化性能下的分類精度Table 3 Accuracy comparison of model generalization performance /%

      3.6 弱監(jiān)督目標定位實驗分析

      CUB 200-2011數(shù)據(jù)集是WSOL任務的基準數(shù)據(jù)集,包含200 種鳥類,有5 994幅訓練圖像和5 794幅測試圖像,對每幅圖像都提供了本地化的邊界框。實驗時,在訓練集上訓練模型,但是沒有使用任何邊界框作為監(jiān)督信息。在元測試階段,為每個輸入圖像預測邊界框和標簽。使用Top-1定位精度(Top-1 Loc)、Top-1分類精度和已知真實(ground truth,GT)類別下的定位準確度(GT-Known Loc)作為評價指標。當基準真實框與預測框之間的交并比超過50%時,GT-Known Loc為正確。當Top-1分類結果Top-1 Clas和GT-Known Loc都正確時,Top-1 Loc才為正確。為了公平比較,采用VGG-16作為分類網(wǎng)絡骨干,實驗結果如表4所示??梢钥闯?,本文方法在Top-1 Loc acc和Top-1 Clas acc上的表現(xiàn)均優(yōu)于對比方法。

      表4 在CUB 200-2011數(shù)據(jù)集上的弱監(jiān)督目標定位精度比較Table 4 Comparison of WSOL accuracy on CUB 200-2011 dataset /%

      圖5是在細粒度小樣本數(shù)據(jù)集CUB 200-2011上本文方法與CAM方法的目標定位的可視化對比??梢钥闯?,與CAM方法相比,本文方法可以定位到更加全面的對象區(qū)域。

      圖5 弱監(jiān)督物體定位性能對比Fig.5 Comparison of weakly-supervised object localization performance((a)CAM;(b)ours)

      4 討 論

      4.1 消融實驗

      4.1.1 嵌入網(wǎng)絡的影響

      通過實驗探究嵌入網(wǎng)絡Conv64和ResNet12對小樣本學習和細粒度小樣本學習的影響。Conv64是具有4個卷積塊的淺層網(wǎng)絡,每個卷積塊包含64個3×3卷積核、批歸一化層(batch normalization)和最大池化層(max pooling)。ResNet12是一個基于4層殘差塊的深層網(wǎng)絡,每個殘差塊由3個卷積層構造。二者在不同數(shù)據(jù)集上的實驗結果如表5所示??梢钥闯觯cConv64相比,ResNet12在1-shot和5-shot設置下,在所有數(shù)據(jù)集上的性能都有顯著提升。表明了ResNet12比淺層網(wǎng)絡Conv64能提取到更多特征,獲得語義更加豐富的嵌入空間。

      表5 不同嵌入網(wǎng)絡下小樣本分類精度Table 5 Influence of the embedding network on few-shot classification accuracy /%

      4.1.2 SACM模塊和SAM模塊的影響

      為了探究各種模塊在所提出方法中的作用,進行了消融實驗,結果如表6所示。其中,w/表示包含,w/o表示不包含。首先,w/ SACM和w/o SACM用來探究特征描述子篩選的作用,歐氏距離(ED)和SAM用于探究語義對齊距離(SAM模塊)的作用。ED分類器的實現(xiàn)與原型網(wǎng)絡相似。在原型網(wǎng)絡中,通過拍平嵌入空間中的特征圖獲得一個高維向量來表示該全局表征。w/ SACM + SAM在不同的設置下都優(yōu)于w/ SACM + ED,尤其是使用ResNet12作為嵌入網(wǎng)絡時,在5-shot設置下獲得了約25.11%的改善,在1-shot設置下獲得了約14.37%的改善,表明所提出的語義對齊距離可以提高小樣本分類任務的性能。其次,根據(jù)w/ SACM + SAM和w/o SACM + SAM可知,使用SACM模塊進行特征描述符篩選,可以顯著提高細粒度小樣本分類的性能。但是w/ SACM + ED和w/o SACM + ED表明SACM無法與ED很好地配合。消融實驗表明,本文方案中的各個模塊都是有效的,且融合使用時能起到最大的作用。

      表6 本文方法不同模塊下的分類精度Table 6 Accuracy comparison of each module in this scheme /%

      4.2 可視化實驗

      為進一步驗證本文方法的性能,將小樣本數(shù)據(jù)集和細粒度小樣本數(shù)據(jù)集的輸入對應的類激活圖可視化,并與主流的WSOL方法CAM進行比較,在miniImageNet和Few-Shot Fine-Grained數(shù)據(jù)集上的可視化結果如圖6和圖7所示??梢钥闯?,與CAM相比,無論在miniImageNet還是細粒度小樣本數(shù)據(jù)集中,本文模型都可以更完整地定位出關鍵對象。值得一提的是,兩個模型都可以識別出之前未見過的全新類別(尤其是細粒度數(shù)據(jù)集)。這可能是因為測試階段這些全新的類別始終包含與訓練集相似的區(qū)域(例如細粒度圖像),分類器會將新樣本分類為訓練集中與之最相似的類別,并以該區(qū)域為圖像產(chǎn)生類激活圖。

      圖6 在miniImageNet數(shù)據(jù)集上的弱監(jiān)督目標定位可視化Fig.6 Visualization of weakly-supervised object localization on miniImageNet dataset((a)original images;(b)CAM;(c)ours)

      圖7 在Few-Shot Fine-Grained數(shù)據(jù)集上的弱監(jiān)督目標定位可視化Fig.7 Visualization of weakly-supervised object localization on Few-Shot Fine-Grained datasets((a)original images;(b)CAM;(c)ours)

      5 結 論

      為了能同時處理好小樣本圖像分類和細粒度小樣本圖像分類任務,本文提出了一種融合弱監(jiān)督目標定位的細粒度小樣本圖像分類方法。首先,設計了SACM模塊實現(xiàn)弱監(jiān)督目標定位,更重要的是進行特征描述子的篩選,得到適用于細粒度分類的特征描述子表示。接著,基于NBNN算法,提出了語義對齊距離模塊SAM,通過在每個選定的特征描述子上執(zhí)行余弦最近鄰算法,實現(xiàn)查詢圖像和支持圖像之間語義內(nèi)容的對齊。對比實驗表明,本文方法在小樣本圖像分類和細粒度的小樣本圖像分類任務上均優(yōu)于最新方法。而且,結合泛化性實驗,充分表明了本文方法可以同時處理常規(guī)的和細粒度的小樣本圖像分類。

      本文提出的融合弱監(jiān)督目標定位的細粒度小樣本學習方法是一個二階段網(wǎng)絡模型,需要分兩階段訓練。在未來的工作中,將嘗試把弱監(jiān)督目標定位網(wǎng)絡和細粒度小樣本圖像分類網(wǎng)絡融合到同一個網(wǎng)絡中,提出一個可以完全端到端訓練的細粒度小樣本圖像分類模型,進一步優(yōu)化和提高細粒度小樣本圖像分類模型的準確率。

      猜你喜歡
      特征描述細粒度掩膜
      In the Zoo
      船舶尾流圖像的數(shù)字化處理和特征描述技術
      融合判別性與細粒度特征的抗遮擋紅外目標跟蹤算法
      紅外技術(2022年11期)2022-11-25 03:20:40
      利用掩膜和單應矩陣提高LK光流追蹤效果
      一種結合圖像分割掩膜邊緣優(yōu)化的B-PointRend網(wǎng)絡方法
      細粒度的流計算執(zhí)行效率優(yōu)化方法
      高技術通訊(2021年1期)2021-03-29 02:29:24
      基于雙線性卷積網(wǎng)絡的細粒度圖像定位
      光纖激光掩膜微細電解復合加工裝置研發(fā)
      目標魯棒識別的抗旋轉HDO 局部特征描述
      自動化學報(2017年4期)2017-06-15 20:28:54
      支持細粒度權限控制且可搜索的PHR云服務系統(tǒng)
      建始县| 牡丹江市| 安平县| 嘉定区| 信阳市| 瑞丽市| 平原县| 万盛区| 岢岚县| 寻乌县| 宝丰县| 高唐县| 高安市| 闵行区| 西乌珠穆沁旗| 东源县| 台山市| 日照市| 邳州市| 广安市| 资阳市| 五家渠市| 鄱阳县| 万全县| 类乌齐县| 武威市| 陆丰市| 大庆市| 临夏县| 翁源县| 东平县| 九龙县| 峨眉山市| 金沙县| 仁寿县| 耒阳市| 阿合奇县| 德阳市| 资兴市| 黄大仙区| 舒城县|