• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      CNN和Transformer在細粒度圖像識別中的應用綜述

      2022-10-18 01:03:44殷雁君
      計算機工程與應用 2022年19期
      關鍵詞:細粒度圖像識別注意力

      馬 瑤,智 敏,殷雁君,萍 萍

      內(nèi)蒙古師范大學 計算機科學技術學院,呼和浩特 010022

      近年,細粒度圖像識別在計算機視覺、模式識別等領域掀起了一陣熱潮,其在學術界和工業(yè)界都獲得了極大的關注度,在智能零售系統(tǒng)[1-2]、生物多樣性監(jiān)測[3]等領域具有廣泛的應用價值。而傳統(tǒng)的計算機視覺研究方法不能夠勝任復雜的細粒度圖像識別任務,因此許多研究將深度學習技術[4]應用于細粒度圖像識別領域,其在定位局部、特征表示,分類等方面都取得了良好的效果。由于人類視覺系統(tǒng)本質(zhì)上對細粒度圖像[5]具有推理能力,不僅能識別出狗類和鳥類,還能區(qū)分出具有細微差異的美國金翅雀和歐洲金翅雀等。因此,計算機視覺一直致力學習人類視覺系統(tǒng)的識別推理能力,但對于細粒度圖像識別任務的準確度仍有待提升。尤其是在細粒度圖像的類間相似和類內(nèi)差異[6]問題上,仍有待提高準確率和計算復雜度。為解決上述問題,研究者基于CNN 框架[7-8]進行改進,提升定位局部和特征表示能力。近年,研究者將Transformer[9]也引入到細粒度圖像識別任務中,以提高識別準確率。

      本文首先概括了細粒度圖像識別研究意義及常用數(shù)據(jù)集;其次介紹了近年來基于CNN 和Transformer 的細粒度圖像識別研究方法;最后對研究現(xiàn)狀進行了總結(jié),對未來可能的研究方向進行了展望。

      1 細粒度圖像識別概述

      圖像識別是計算機視覺領域的研究重點之一,深度學習技術的出現(xiàn)為其開辟了新篇章。傳統(tǒng)圖像識別包括語義級識別和實例級識別兩類:第一類包括場景識別和對象識別等語義級任務,目的是識別不同類別的目標,如鳥、汽車等;第二類包括人臉識別和掌紋識別等實例級任務,其目的是對不同的個體進行分類。

      細粒度圖像識別是圖像識別的子領域,其介于語義級和實例級任務之間。與兩者相比,細粒度圖像子類別間僅有局部的細微差異,而同類別間外觀差異大,并且容易受姿態(tài)、遮擋等不確定因素影響。因此,細粒度圖像識別有極大的挑戰(zhàn)性。細粒度圖像與通用圖像識別的差異如圖1所示。

      圖1 通用圖像與細粒度圖像識別Fig.1 General image and fine-grained image recognition

      細粒度圖像識別任務具體來說是從同一大類別中識別出子類別,例如:鳥的種類[10-11]、狗的種類[12]、車的品牌[13]以及飛機的模型[14]等,其具體步驟為:定位圖像所含目標,選中目標局部區(qū)域提取特征,處理與識別特征。該任務的關鍵在于辨認子類別,因此找到關鍵的細微部分是研究重點。

      在傳統(tǒng)的細粒度圖像識別任務中,圖像中的背景噪聲通過標注框來消除,以定位目標;局部區(qū)域特征提取通過位置標注來實現(xiàn),這些算法過度依賴于人工標注[15]。人工標注信息獲取難度很高,十分耗費人力,并且依賴于人工標注的方法提取特征的能力和特征表示效果均較弱,有一定的局限性。因此,現(xiàn)在越來越多的算法傾向于僅使用類別標簽等來完成識別任務。

      近幾年基于CNN 的細粒度圖像識別方法[16-17]越來越成熟,其提取的特征擁有更強大的表達能力,在細粒度圖像識別任務中通常能夠取得良好的結(jié)果。但關鍵部分過于細微,無法通過傳統(tǒng)CNN獲取全部關鍵信息,研究者開始致力于在框架內(nèi)部進行改進,以進一步定位關鍵部位和豐富特征表示。一些學者認為,基于CNN的細粒度圖像識別方法對全局信息的掌握仍有漏洞,于是其將視覺Transformer 引入到細粒度圖像識別,均取得不錯成果。證明了在細粒度視覺識別領域,雖然學習局部區(qū)域特征起著至關重要的作用,但是,全局信息的補充會進一步提高識別的準確率。

      2 細粒度圖像數(shù)據(jù)集

      細粒度圖像與通用圖像[18]數(shù)據(jù)集不同,其需要專業(yè)領域的研究者收集并標注數(shù)據(jù),因此,數(shù)據(jù)集的獲取難度相對較大。近年來,細粒度圖像的數(shù)據(jù)集越來越多,例如花卉[19]、鳥類[10]、狗[12]、汽車[13]、飛機[14]等,可見該領域的研究越來越廣泛。本文按時間順序總結(jié)了部分細粒度圖像數(shù)據(jù)集,并指出了元類別、圖像數(shù)量和類別數(shù)量,如表1所示。細粒度圖像數(shù)據(jù)集類間相似且類內(nèi)差異大,如圖2所示。

      圖2 細粒度圖像的類間相似與類內(nèi)差異Fig.2 Inter class similarity and intra class difference of fine-grained images

      表1 細粒度圖像數(shù)據(jù)集Table 1 Fine-grained image datasets

      下面重點介紹5 個最常用的主流數(shù)據(jù)集,其中鳥、狗及花卉是非剛性數(shù)據(jù)集,車和飛機是剛性數(shù)據(jù)集。

      Oxford Flowers[19]數(shù)據(jù)集:該數(shù)據(jù)集是在2008 年被提出的細粒度圖像數(shù)據(jù)集,早期的細粒度圖像識別方法均基于該數(shù)據(jù)集來證明實驗性能,總共有8 189張圖像,有102種類別,且不包含額外標注信息。

      CUB-200-2011[10]數(shù)據(jù)集:該數(shù)據(jù)集是最流行的細粒度圖像數(shù)據(jù)集之一,于2011 年加利福尼亞理工學院推出的鳥類細粒度圖像數(shù)據(jù)集。目前大多數(shù)細粒度圖像識別方法選擇它與新技術進行比較。該數(shù)據(jù)集總共有11 788張圖像,有200種類別,且提供了邊界框信息。

      Stanford Dogs[12]數(shù)據(jù)集:該數(shù)據(jù)集是由Stanford University 2011年從ImageNet數(shù)據(jù)集中提取的,總共有20 580張圖像,有120種類別,且提供了邊界框信息。

      Stanford Cars[13]數(shù)據(jù)集:該數(shù)據(jù)集是2013年Stanford University 在ICCV 會議上公布的汽車類細粒度圖像數(shù)據(jù)集,總共有16 185張圖像,根據(jù)車的品牌、型號以及年份將數(shù)據(jù)集劃分為196類,且提供了邊界框信息。

      FGVC-Aircraft[14]數(shù)據(jù)集:該數(shù)據(jù)集是2013 年推出的飛機類細粒度圖像數(shù)據(jù)集,總共包含10 000 張圖片,有100類飛機照片,且提供了邊界框信息。

      3 基于CNN的細粒度圖像識別

      隨著深度學習技術的不斷改進,CNN 得到了快速發(fā)展,并被應用于計算機視覺[32]、自然語言處理[33]等領域。CNN 來源于研究者對動物神經(jīng)元的研究,其本質(zhì)是多層感知機的變型,通過局部連接和共享權(quán)值的方式,降低了網(wǎng)絡過擬合的風險。在計算機視覺領域之一的細粒度圖像識別中,常用的CNN結(jié)構(gòu)是VGGNet[34]和ResNet[35]。CNN除標準卷積外還有許多類型,如空洞卷積又名膨脹卷積,其可以增加感受野,保持輸入特征的寬和高;深度可分離卷積是先逐通道再逐點卷積,其參數(shù)數(shù)量、運算成本均較低;3D 卷積則應用于視頻上,其引入了時間維度,輸出的結(jié)構(gòu)也是3D的。

      鑒于CNN 具有強大的提取特征能力,許多學者將其應用于細粒度圖像識別任務中。近年,細粒度圖像識別僅使用類別標簽[36-38]的方法大體分為兩種:基于單張和多張圖片的輸入方法。

      3.1 基于單張圖片輸入方法

      當前基于單張圖片輸入的細粒度圖像識別方法主要分為局部定位和特征表示。局部定位方法旨在目標圖像上定位關鍵區(qū)域以進一步識別,其難點在于難以準確定位局部區(qū)域信息。特征表示的方法是在圖像局部區(qū)域提取有意義的表示,其難點在于判別區(qū)域是細微的,難以詳細地表示。為克服這兩個難題,研究者提出許多方法,下面對這兩個方案的研究進行詳細介紹。

      3.1.1 區(qū)域定位方法

      細粒度圖像子類別間是相似的且判別區(qū)域特征差異細微,因此,定位關鍵信息是一個具有挑戰(zhàn)性的問題。針對鳥類來說,細微的判別部分在于鳥的嘴巴或眼睛。研究者針對這一難點將注意力模型引入到細粒度圖像識別中,通過注意力機制尋找感興趣區(qū)域,讓深度學習模型更加關注某個局部的信息。

      (1)注意力模型

      注意力模型在細粒度圖像識別任務中取得了顯著成果。例如,F(xiàn)u等人[39]首次提出了遞歸注意力卷積神經(jīng)網(wǎng)絡(recurrent attention convolutional neural network,RA-CNN)結(jié)構(gòu),該方法以多尺度遞歸地學習判別區(qū)域注意力和區(qū)域特征表示。具體來說,區(qū)域建議網(wǎng)絡從全局圖像開始,以循環(huán)的方式將大尺度定位的區(qū)域放大輸入到小尺度中,以此迭代生成區(qū)域注意力圖,進一步提高識別效率。但該方法仍有不足,其不能整合多個區(qū)域的注意力,因此,Zheng等人[40]提出多注意力卷積神經(jīng)網(wǎng)絡(multi-attention convolutional neural network,MA-CNN)學習方案,生成多個區(qū)域注意力部分,且對每一個單獨的局部進行分類,以學習到更具代表性的特征表示。與RA-CNN 相比,MA-CNN 展示了多重注意力的力量,獲得了更好的識別性能。為了更好地適應細粒度識別任務,Zheng 等人[41]進一步提出了漸進式注意力卷積神經(jīng)網(wǎng)絡(progressive attention convolutional neural network,PA-CNN),PA-CNN 分兩步定位部分,其中部分建議網(wǎng)絡(PPN)生成多個局部注意力圖,部分糾正網(wǎng)絡(PRN)從每個建議中學習特定特征,并為PPN提供精確的部分位置。PPN 和PRN 的這種耦合使它們能夠以相互加強的方式進行優(yōu)化,從而改進細粒度的精確定位,該方法在CUB-200-2011數(shù)據(jù)集上達到了87.8%的準確率。

      許多注意力方法可以定位區(qū)域且放大,學習細節(jié),但這些方法大多受困于部件數(shù)量和計算復雜的問題。為此Zheng等人[42]開發(fā)了三線性注意力采樣網(wǎng)絡(trilinear attention sampling network,TASN),以高效的師生方式從數(shù)百個部分建議中學習細粒度特征,并有效地將學習到的特征提取到單個CNN中,以提高識別效率,該方案雖解決了部件數(shù)量有限和計算開銷較大的影響,但仍有不足,其是對卷積特征進行基于注意力的采樣,而不是僅對圖像進行采樣。針對上述問題且受神經(jīng)樹的啟發(fā),Ji 等人[43]提出了注意力卷積二叉神經(jīng)樹(attention convolutional binary neural tree,ACNeT)學習方案,該方案將注意力機制與樹結(jié)構(gòu)結(jié)合,促進從粗到細的分層細粒度特征學習,其中深度卷積運算學習捕獲對象表示,樹結(jié)構(gòu)描述由粗到細的分層特征學習過程,最終通過對葉節(jié)點的預測進行決策,該方法在3個具有挑戰(zhàn)性的數(shù)據(jù)集上證明了有效性且在CUB-200-2011數(shù)據(jù)集上達到了88.1%的準確率。

      從簡單高效的網(wǎng)絡設計目的出發(fā),當前基于注意力模型的方法尋找的感興趣區(qū)域的數(shù)量可能不是固定的。為此,Wei 等人[44]提出了兩級漸進式注意力卷積網(wǎng)絡(TPA-CNN),其不僅可以直接獲得辨別區(qū)域,還可以動態(tài)選擇辨別區(qū)域的數(shù)量。該模型包括多通道注意力融合(multi-channel attention-fusion,MCAF)和跨層元素注意力(cross-layer element-attention,CEA)兩個模塊,MCAF模塊用于發(fā)現(xiàn)顯著特定區(qū)域特征圖通道;CEA模塊為特征圖元素分配權(quán)重值。從注意力可視化圖角度看,MCAF 模塊可聚焦于一個或多個積極區(qū)域;CEA 模塊通過特征圖元素之間的交互作用進一步定位最具辨別力的區(qū)域。該方法在3 個主流數(shù)據(jù)集上均取得了良好的效果,但其只考慮了特征圖的通道和元素兩個維度,未來還應對其余信息進行挖掘。該方案的網(wǎng)絡結(jié)構(gòu)如圖3所示。

      圖3 兩級漸進式注意力卷積網(wǎng)絡結(jié)構(gòu)Fig.3 Architecture of two-level progressive attention convolutional network

      (2)其他方法

      Yang等人[45]提出了一種自監(jiān)督團結(jié)協(xié)作學習模型,以有效地定位信息區(qū)域。該模型為導航員-教師-審查者網(wǎng)絡(navigator-teacher-scrutinizer network,NTS-Net),其由導航者、教師和審查者3 個子網(wǎng)絡組成。具體來說,首先使導航者在教師的指導下檢測出大部分信息區(qū)域,然后,審查者從導航器中仔細檢查定位的區(qū)域并做出預測,三者相互合作,相互加強。該方法在CUB 200-2011 數(shù)據(jù)集上達到了87.5%的準確率。但該方法所選區(qū)域可能包含噪聲信息干擾,為此,Yan等人[46]提出了漸進式定位模塊(progressive patch localization module,PPL),以更準確地定位有判別性的區(qū)域塊。具體地說,其利用分類模型找到最具區(qū)分性的塊,然后去除最顯著的區(qū)域,以幫助定位下一個最具區(qū)別性的塊,重復此過程即可找到TOP-K 區(qū)分塊。此外,為了進一步提高塊級特征的表示能力,提出了特征校準模塊(feature calibration module,F(xiàn)CM),利用全局信息選擇性地突出判別性特征并抑制無用信息,進而幫助分類網(wǎng)絡獲得更好的性能

      現(xiàn)有注意力方法對區(qū)域特征學習存在局限性,例如,鑒別區(qū)域主要位于圖像上的過濾響應,不能直接用性能指標進行優(yōu)化。針對上述問題,Liu 等人[47]提出了過濾蒸餾學習(filtration and distillation learning,F(xiàn)DL)模型。首先,基于提出和預測的匹配性,提出了一種用于區(qū)分部件區(qū)域的過濾學習(FL)方法,利用建議預測匹配性作為區(qū)域建議網(wǎng)絡(RPN)的性能指標,從而實現(xiàn)RPN的直接優(yōu)化,以篩選出最具鑒別能力的區(qū)域。具體來說,將基于對象的特征學習和基于區(qū)域的特征學習分別表述為“教師”和“學生”,并將學習到的知識從對象轉(zhuǎn)移到基于區(qū)域的特征學習。值得一提的是,提取知識的動機與TASN完全不同。TASN將細粒度知識轉(zhuǎn)化為基于對象的特征學習,而FDL旨在將整個對象的知識融合到基于區(qū)域的特征學習中。FDL 方法有效地增強了區(qū)域注意力,且在CUB 200-2011數(shù)據(jù)集上達到了89.09%的準確率,但其參數(shù)量較大。

      現(xiàn)有方法通常直接從高層特征圖中提取有鑒別能力的區(qū)域,然而卷積神經(jīng)網(wǎng)絡由于疊加局部感受域的操作,導致高層次特征圖中的鑒別區(qū)域擴散,使選擇的區(qū)域含有大量的噪聲或背景信息,從而降低了算法的性能。為了解決上述問題,Wang 等人[48]提出了一種端到端的面向鑒別特征的高斯混合模型(DF-GMM)。具體而言,DF-GMM包括低秩表示機制,該機制通過高斯混合模型(GMM)學習一組低秩判別基,以準確地選擇判別細節(jié)并過濾高層語義特征圖中更多的無關信息;低秩表示重組機制,恢復低秩判別基的空間信息,重建低秩特征圖,通過將低階判別基恢復到高階特征圖的相同嵌入空間中。實驗表明,該方法緩解了高階特征圖中的判別區(qū)域擴散問題,更精確地定位了判別區(qū)域。

      表2對基于區(qū)域定位方法進行了總結(jié),可以看到利用注意力模型可以提高定位的準確性,但僅通過定位區(qū)域再放大來學習細節(jié),并不理想。TASN為了解決這個問題就設計從數(shù)百個建議中學習,以準確定位區(qū)域。從表2 可以看出基于區(qū)域定位方法的細粒度圖像識別方法仍有很大的上升空間。

      表2 CUB-200-2011數(shù)據(jù)集上不同方法的創(chuàng)新點及準確率Table 2 Accuracy and innovation points of different methods on CUB-200-2011 dataset

      3.1.2 特征表示方法

      細粒度圖像識別任務側(cè)重于豐富特征表示可以獲得良好的分類結(jié)果,然而子類別之間的差異通常是細微的局部區(qū)域,僅依靠全局的語義信息會限制表示能力,進而限制識別的有效性。研究者為解決這一缺點,提出了從語義相關性、部分特征交互等方向開展豐富特征表示的工作,下面將對這些研究方法進行介紹。

      (1)語義相關性

      語義信息是信息的表現(xiàn)形式之一,指能夠消除事物不確定性的有一定意義的信息。但細粒度圖像識別任務往往會忽略部分之間的語義信息關系。針對上述問題,Wang 等人[49]提出一個端到端的基于圖傳播的相關學習方案,通過設計圖傳播子網(wǎng)絡,學習全局和空間相關性。同時,構(gòu)建了一個特征向量相關特征加強子網(wǎng)絡,增強從所選塊中提取的特征。實驗表明,此模型是有效的且在CUB-200-2011 數(shù)據(jù)集上達到了88.3%的準確率,但其未考慮特征之間的語義相關性。為此,Zheng等人[50]提出了一種新的深度雙線性變換塊,其利用語義信息,通過計算語義組內(nèi)的成對交互,獲得有效的雙線性特征,以提高識別準確率。

      大多數(shù)方法忽略了細粒度對象的語義結(jié)構(gòu),且沒有利用傳統(tǒng)的細粒度識別技術,如粗到細分類。Li等人[51]提出一種兩分支網(wǎng)絡框架,即語義雙線性池化,用分層標簽樹進行細粒度識別。該框架可以從層次級別自適應地學習語義信息。此外,在測試時僅利用細分支,因此,不會增加計算量。實驗結(jié)果表明,提出的方法在四個主流數(shù)據(jù)集上實現(xiàn)了先進的性能,且在CUB-200-2011數(shù)據(jù)集上達到了88.9%的準確率。

      雖然以上方法均取得良好效果,但是語義信息只能在高層特征中獲得,因此,往往會忽略底層特征,未來研究方向可能在底層特征上運用深度雙線性變換,進一步豐富底層特征的表示,提高識別的準確性。

      (2)特征交互

      研究顯示,雙線性池化模型是有效的,但往往會忽略層間部分交互和特征學習之間的關聯(lián)性。針對這一問題,Yu 等人[52]提出一種跨層雙線性池化技術,用于捕獲層間部分特征關系。而且在跨層雙線性池的基礎上,還提出了一種分層雙線性池框架,集成了多個跨層雙線性模塊,從中間卷積層獲取互補信息,從而提高性能,但該方法對于融合更多層特征以獲得多尺度的部分表示仍有欠缺。對此,Luo等人[53]提出交叉X學習方案,通過利用不同圖像和不同網(wǎng)絡層特征之間的關系來學習細粒度特征。首先,通過跨層正則化解決多尺度特征學習問題,再通過跨層匹配預測分布,提高特征在不同層中的表示,實驗表明,在CUB-200-2011 數(shù)據(jù)集上Luo 等人[53]的方法優(yōu)于Yu等人[52]的方法。

      為進一步提高細粒度圖像識別任務的效率且考慮到CNN 本身薄弱。Cui 等人[54]提出了一種通用的池化框架,以核函數(shù)的形式捕捉特征之間的高階信息,該框架以無參數(shù)的方式使用緊湊的顯式特征映射將高斯RBF等核函數(shù)逼近到給定的階數(shù),且與CNN相結(jié)合,內(nèi)核的組成可以通過誤差反向傳播以端到端的方式從數(shù)據(jù)中學習。該方法通過特征映射捕獲高階和非線性的特征交互,大量實驗表明,該方法對細粒度圖像識別效率有所改進。Cai等人[55]提出了一種新的分層卷積高階集成框架,以獲得特征的豐富表示。基于核映射方案,提出了一種利用高階部件關系的多項式預測器,并給出了可訓練的多項式模塊。此外,高階集成框架可以自然地擴展,以挖掘?qū)哟谓Y(jié)構(gòu)中的多尺度零件關系。上述兩種方法均改進了CNN框架,提高了識別效率。

      (3)損失函數(shù)方法

      損失函數(shù)在深度網(wǎng)絡的構(gòu)建中起著重要作用,其可以直接影響學習的分類器和特征。因此,設計細粒度定制損失函數(shù)是細粒度圖像識別的一個重要方向。

      文獻中還探討了設計用于定位部分級模式和進一步聚合圖像級表示的單一損失函數(shù)。Sun等人[38]開發(fā)了一個梯度增強損失函數(shù),以及一個多樣化塊,以迫使網(wǎng)絡快速移動,以區(qū)分硬類。具體而言,梯度增強損失通過適當放大梯度更新來解決密切相關類之間的歧義;多樣化塊抑制類激活圖的區(qū)分區(qū)域,從而迫使網(wǎng)絡尋找替代的信息特征。雖該方法取得了良好的實驗結(jié)果,但訓練機制過于復雜,為此,Chang等人[56]提出了互通道損失(mutual-channel Loss,MC-Loss),對于細粒度對象的部分定位不需要任何特定的網(wǎng)絡修改。MC-Loss 由兩個特定于通道的判別性組件和辨別性組件組成,辨別性組件通過通道注意力機制強制同一類別的所有特征通道具有辨別性;多樣性組件限制通道,使其在空間維度上相互排斥;最終得到一組特征通道,每個通道反映特定類別的不同局部區(qū)分區(qū)域,以此改進細粒度識別效率。該方法在CUB-200-2011 數(shù)據(jù)集上獲得了87.3%的準確率,且僅需要一次損失。上述基于損失函數(shù)的細粒度識別方法與主干網(wǎng)絡無關,通常可以通過使用更強大的主干網(wǎng)絡架構(gòu)來提高其性能。

      (4)其他方法

      針對關鍵區(qū)域之外的額外區(qū)域可能會影響判別效果,Zhang等人[57]提出了專家混合方案,通過學習前一位專家的先驗信息,將細粒度問題劃分為子空間,通過結(jié)合逐步增強的策略和基于KL 差異的約束來學習,專家做出不同的預測,最后對所有專家的預測進行加權(quán)組合,補足額外區(qū)域信息的缺失。Chen 等人[58]則提出“破壞和構(gòu)造學習”方法。具體來說,首先將輸入圖像劃分為局部區(qū)域,然后通過區(qū)域混淆機制對其進行洗牌。在“構(gòu)建”中,區(qū)域?qū)R網(wǎng)絡用于模擬區(qū)域之間的語義關聯(lián),然后恢復局部區(qū)域的原始空間布局。DCL中的破壞性學習提高了識別的難度,指導網(wǎng)絡學習專家知識進行細粒度識別;而構(gòu)建學習可以對對象各部分之間的語義關聯(lián)進行建模。上述兩種方法進一步捕獲了容易被忽略的額外信息,為細粒度圖像識別提供了新的思路。

      為提高注意力性能,Rao 等人[59]提出了基于因果推理的反事實注意力學習方法。該方法通過比較事實和反事實,通過影響最終的預測來量化注意力質(zhì)量。該方法在訓練過程中可以忽略額外成本。在3 個基準細粒度數(shù)據(jù)集上進行了廣泛的實驗,達到了先進的性能,在CUB-200-2011數(shù)據(jù)集上達到了90.6%的準確率。

      表3 對基于特征表示的方法進行了總結(jié),可以發(fā)現(xiàn),現(xiàn)對于豐富特征表示的研究有很多,如利用語義信息、特征交互信息、損失函數(shù)等方法來豐富特征表示以提高識別效率。

      表3 CUB-200-2011數(shù)據(jù)集上不同方法的創(chuàng)新點及準確率Table 3 Accuracy and innovation points of different methods on CUB-200-2011 dataset

      3.2 基于多張圖片輸入方法

      基于多張圖片輸入方法有分類別輸入和同類別輸入,多張圖片輸入重點捕捉不同圖像之間的關聯(lián)信息,從而獲得對比線索信息,以提高識別的性能。當前基于多張圖像輸入識別方法有三類缺點,首先,大多數(shù)方法單獨處理對象的各個部分,忽略目標部分之間和部分之間存在空間關系;其次,高維特征不適合大規(guī)模應用,并可能導致過擬合;最后,不同語義特征之間的內(nèi)在聯(lián)系很少被研究。針對以上問題不同研究者提出了解決方法,例如,Peng等人[60]提出了目標部分注意力模型,該模型集成了兩個級別的注意力,目標級別的定位圖像中的目標,部分級別的選擇判別區(qū)域。目標部分空間約束模型結(jié)合了兩個空間約束,目標空間約束確保選中具有代表性的部分,部分空間約束消除冗余,增強所選部分的識別性。此方法雖然提高了細粒度圖像識別的效率,但其孤立地處理每個對象部分,忽略了它們之間的相關性。針對這一問題,Sun 等人[26]提出了一種多注意力多約束卷積神經(jīng)網(wǎng)絡。首先,學習了多個部分對應的注意力區(qū)域,然后利用度量學習來拉近同一注意力同一類特征,同時將不同注意力或不同類特征推離。而且相比RA-CNN[39]通過多個可選階段進行訓練,此方法只通過一個階段進行訓練來獲得所有需要的特征,加強了不同區(qū)域部分的相關性。在鳥類、狗和汽車的數(shù)據(jù)集上表現(xiàn)出了優(yōu)越的性能,且在CUB-200-2011 數(shù)據(jù)集上達到了86.5%的準確率。

      上述兩種方法均通過注意力機制來放大辨別部分區(qū)域,這樣會使在復雜背景下表現(xiàn)不穩(wěn)定且不同語義特征之間內(nèi)在的相互關系很少被探索。針對這一問題,Zhao 等人[61]提出了一種基于圖的關系發(fā)現(xiàn)方法來建立對高階關系的上下文理解。具體步驟,通過一個有效的關系發(fā)現(xiàn)模塊來學習位置和語義特征關系,并學習語義分組規(guī)則來聚類高階關系;通過一種簡單而有效的基于分組的學習策略,利用聚類中心更新梯度,緩解硬樣本導致的過擬合和異常。因此,該方案掌握了細粒度對象關鍵的上下文細節(jié)且提高了識別效率。

      受人類通過比較圖像對可以有效地識別出對比線索的啟發(fā)。Zhuang 等人[62]在度量學習框架之上建立了一個成對交互網(wǎng)絡(attentive pairwise interaction network,API-Net),其能自適應地從一對圖像中發(fā)現(xiàn)對比線索,并通過成對注意力交互區(qū)分。雖然該方法取得了良好的效果,但該方法沒有利用通道之間豐富的關系捕捉這種差異。對此,Gao等人[63]提出了一個通道交互網(wǎng)絡(CIN),對圖像內(nèi)部和圖像之間的通道交互進行建模。具體通過對比通道交互模塊拉近正對,同時推開負對,以達到期望的效果。此方法在獲取到對比線索的同時,往往會忽略細小的補充信息,因此,Zhang 等人[64]提出了一種漸進式協(xié)同注意力學習方案。其中,協(xié)同注意力模塊通過比較圖像對來學習判別性特征;注意力擦除模塊通過擦除最顯著區(qū)域來學習圖像的細微互補特征。實驗表明,該方法有效且成功提高了識別的準確率。

      雙線性池模型利用嵌入特征的外積增強了表示能力,取得了良好的分類性能。然而,這些模型導致了特征的高維,這使其不適合大規(guī)模應用,并可能導致過擬合。針對這一問題,Xu 等人[65]提出一種特征相關殘差方法,在不增加特征維數(shù)的情況下挖掘嵌入特征的通道和空間相關性。然后,利用相關殘差特征對原始特征進行補充。除了交叉熵損失之外,該方法還加入了提取特征的核范數(shù)和三重態(tài)損失函數(shù)進行正則化操作,以減輕過擬合、增強類間變化和減少類內(nèi)變化。

      表4對基于多張圖片輸入的方法進行了總結(jié),可以發(fā)現(xiàn)從圖像對中獲取對比線索可以提高識別的準確率。相比之下,Zhao[61]提出的基于圖關系的發(fā)現(xiàn)方法,在CUB-200-2011 數(shù)據(jù)集下的準確率最高,由此可見高階關系的上下文理解可以有效的提高識別效率,未來可以考慮聯(lián)合低階和高階的信息。

      表4 CUB-200-2011數(shù)據(jù)集上不同方法的創(chuàng)新點及準確率Table 4 Accuracy and innovation points of different methods on CUB-200-2011 dataset

      4 基于Transformer的細粒度圖像識別

      基于CNN的細粒度圖像識別方法大多通過重復利用骨干網(wǎng)絡來提取區(qū)域特征,且通過定位最具辨別力的局部區(qū)域來提高網(wǎng)絡捕獲細微差異的能力。這些方法不可避免地使識別通道復雜化,定位的局部區(qū)域有大量的冗余。針對這些問題,研究者提出基于Transformer完成細粒度圖像識別任務。Transformer是Google團隊在2017 年提出的一種關于自然語言處理的經(jīng)典模型,其結(jié)合了自注意力(self-attention)機制,并且沒有采用循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network,RNN)的順序結(jié)構(gòu),使得模型可以并行化訓練,能夠捕捉全局信息。近年,視覺Transformer(vision transformers,ViT)在傳統(tǒng)的識別任務中已經(jīng)有所突破,而且在目標檢測[66]、語義分割[67]等領域也展示了其捕捉全局和局部特征的能力。與CNN 相比,Transformer 的圖像序列化是一種全新的形式。

      He等人[68]提出基于Transformer的細粒度圖像識別網(wǎng)絡框架。該框架將Transformer最后一層前的原始注意力權(quán)值匯集到了一個注意力圖中,以指導網(wǎng)絡選擇準確的判別區(qū)域圖像塊。具體來說,該方法利用自注意力機制捕獲最具辨別力的區(qū)域,用圖像塊處理區(qū)域之間的內(nèi)部關系,還利用對比損失函數(shù)擴大相似子類特征表示之間的距離。該方法的網(wǎng)絡結(jié)構(gòu)如圖4 所示。雖然該方案輸入的圖像塊間有重疊,可避免對局部鄰域結(jié)構(gòu)造成損害,但計算成本仍然較高且在背景簡單需要較少定位判別區(qū)域的Stanford Cars 數(shù)據(jù)集上的識別準確率較低。

      圖4 細粒度Transformer網(wǎng)絡框架Fig.4 Transformer architecture for fine-grained

      雖然He 等人[68]提高了細粒度圖像識別的效率,但其方法中圖像塊大小固定,深層類token 集中在全局感受野,不能生成多尺度細粒度識別特征。對此,Zhang等人[69]提出了一種新的自適應注意力多尺度融合Transformer 方法。該方法中選擇注意力收集模塊利用注意力權(quán)重,自適應地篩選出相對重要的輸入塊,而且多尺度(全局和局部)通道是由權(quán)重共享編碼器監(jiān)督的,可端到端訓練。

      細粒度圖像識別方法的鑒別線索通常是零碎且會忽略額外區(qū)域的細節(jié)信息,對其他相關圖像線索缺乏考慮。為了解決上述問題,Liu 等人[70]提出了一種帶有峰值抑制模塊和知識引導模塊的Transformer結(jié)構(gòu)。峰值抑制模塊根據(jù)注意力權(quán)重值去除最具辨別力的標記,強制網(wǎng)絡關注額外被忽略的信息區(qū)域,保證細粒度表示的多樣性;知識引導模塊將峰值抑制模塊生成的圖像表示與可學習的知識嵌入進行比較,獲得知識響應系數(shù),響應系數(shù)表示分類分數(shù),知識學習形式化表示分類問題。該方案在訓練過程中,同時更新知識嵌入和圖像表示,使知識嵌入大量同一類別不同圖像的鑒別線索,將獲得的知識嵌入到圖像表示中作為綜合表示,從而顯著提高識別性能。

      針對自注意力機制將所有圖像塊的信息聚合加權(quán)到分類token上,使深層的分類token更多地聚焦全局信息,缺乏局部和底層特征的問題,Wang 等人[71]提出了一種特征融合視覺Transformer(feature fusion vision transformer,F(xiàn)FVT)框架,匯集了每個Transformer 層的重要token,以補全局部、底層和中層信息。具體來說,通過一種token 選擇方法,選擇出每一層具有代表性的token 作為最后一層的輸入。實驗表明,該方法提高了細粒度圖像識別的準確率。Conde等人[72]提出了一種多階段ViT的細粒度圖像識別框架,該框架利用固有的多頭自注意力機制從多個不同的局部區(qū)域捕獲有區(qū)別的圖像特征。同時采用不同的注意力引導增強,通過增強模型來學習更多不同的鑒別特征,從而提高了模型的泛化能力。但該方法仍有不足,其不能完全端到端訓練,需要以順序(多階段)的方式訓練;對計算能力要求高。未來目標是使框架可端到端訓練。

      表5 對基于Transformer 方法進行了總結(jié),可見Transformer 在細粒度圖像識別任務中獲得了很高的準確率。首先提出Transformer 的He[68]方法雖然精度很高,但由于輸入圖像塊大小是固定的,從而適用性較差。Transformer 作為新引進的技術,其現(xiàn)有缺點是參數(shù)量大,計算時間長。未來可以考慮計算時間長短上進行探索。

      表5 CUB-200-2011數(shù)據(jù)集上不同方法的創(chuàng)新點及準確率Table 5 Accuracy and innovation points of different methods on CUB-200-2011 dataset

      5 未來研究方向

      綜上,隨著深度學習技術的不斷發(fā)展,細粒度識別已經(jīng)有了良好的發(fā)展前景。本文從卷積神經(jīng)網(wǎng)絡和Transformer兩個角度,詳細介紹了僅使用類別標簽的細粒度圖像方法研究現(xiàn)狀。雖然此領域得到了一定突破,但仍有局限性。在未來,研究者可以繼續(xù)探索細粒度領域的可能性。

      5.1 CNN和Transformer結(jié)合方法

      卷積神經(jīng)網(wǎng)絡和Transformer 兩種方法對細粒度圖像識別任務的發(fā)展進程都有促進作用。其中卷積神經(jīng)網(wǎng)絡側(cè)重于局部信息的獲取,而Transformer 側(cè)重于全局信息的獲取。細粒度圖像識別任務中局部信息和全局信息均有重要作用,因此,未來可以考慮將兩者結(jié)合使用,以進一步研究。

      5.2 BERT模型方法

      BERT 模型是一種語言表征模型,它用Transformer的雙向編碼器表示。與其他語言模型不同,BERT 旨在通過聯(lián)合調(diào)節(jié)所有層中的上下文來預先訓練深度雙向表示。因此,預訓練的BERT表示可以通過一個額外的輸出層進行微調(diào),適用于廣泛任務的先進模型的構(gòu)建,無需針對具體任務做大幅架構(gòu)修改。由于Transformer可以提高細粒度圖像識別的準確率,因此,未來可以考慮將BERT模型引入到細粒度領域加以研究。

      5.3 寬度學習方法

      針對深度學習計算量太大,計算成本太高,所以提出了一種新的網(wǎng)絡結(jié)構(gòu)寬度學習。相對于“深度”結(jié)構(gòu)來說,“寬度”結(jié)構(gòu)由于沒有層與層之間的耦合而非常簡潔。同樣,由于沒有多層連接,寬度網(wǎng)絡亦不需要利用梯度下降來更新權(quán)值,所以計算速度大大優(yōu)于深度學習。在網(wǎng)絡精度達不到要求時,可以通過增加網(wǎng)絡的“寬度”來提升精度,而增加寬度所增加的計算量和深度網(wǎng)絡增加層數(shù)相比,可以說是微乎其微。因此,未來可以考慮將寬度學習應用到細粒度圖像領域嘗試提高計算速度。

      6 結(jié)束語

      細粒度圖像識別是計算機視覺領域的一個熱門研究領域。深度卷積特征的出現(xiàn)為其帶來了新的發(fā)展機遇,視覺Transformer 的出現(xiàn)為細粒度圖像識別帶來了新的思路,兩者結(jié)合將會引領細粒度圖像識別達到一個新的高度。本文從卷積神經(jīng)網(wǎng)絡、視覺Transformer 兩類方法上對細粒度圖像識別的發(fā)展狀況給予介紹;對細粒度識別的未來研究方向作了深入的討論,總結(jié)了該領域未來可能的發(fā)展機遇。

      猜你喜歡
      細粒度圖像識別注意力
      融合判別性與細粒度特征的抗遮擋紅外目標跟蹤算法
      紅外技術(2022年11期)2022-11-25 03:20:40
      讓注意力“飛”回來
      細粒度的流計算執(zhí)行效率優(yōu)化方法
      高技術通訊(2021年1期)2021-03-29 02:29:24
      基于Resnet-50的貓狗圖像識別
      電子制作(2019年16期)2019-09-27 09:34:50
      高速公路圖像識別技術應用探討
      圖像識別在物聯(lián)網(wǎng)上的應用
      電子制作(2018年19期)2018-11-14 02:37:04
      圖像識別在水質(zhì)檢測中的應用
      電子制作(2018年14期)2018-08-21 01:38:16
      基于雙線性卷積網(wǎng)絡的細粒度圖像定位
      “揚眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      支持細粒度權(quán)限控制且可搜索的PHR云服務系統(tǒng)
      云阳县| 阿坝县| 明星| 海兴县| 闽侯县| 开鲁县| 明水县| 胶南市| 南充市| 夏河县| 兴仁县| 陇西县| 阜平县| 镶黄旗| 翼城县| 丰镇市| 临汾市| 博客| 上饶县| 杭锦旗| 宾川县| 河北省| 海伦市| 永昌县| 元谋县| 广东省| 时尚| 德钦县| 正蓝旗| 庆云县| 屏东县| 西城区| 城口县| 海宁市| 乌兰浩特市| 锡林郭勒盟| 晋城| 江阴市| 友谊县| 玉屏| 洛宁县|