• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于ResNeSt和改進Transformer的多標簽圖像分類算法

      2024-02-02 14:54:20賀,張
      測試技術學報 2024年1期
      關鍵詞:分支類別注意力

      王 賀,張 震

      (山西大學 物理電子工程學院,山西 太原 030006)

      0 引言

      圖像分類作為計算機視覺中的基本問題備受關注,常應用于圖像檢索[1]、視頻注釋[2]和指紋識別[3]等領域。通常所研究的圖像中并非只包含一類對象,為了能夠更準確地提取圖像信息,人們開始對多標簽圖像分類(Multi-Label Image Classification,MLIC)展開研究。

      早期多標簽圖像分類將圖像信息轉化為多個二分類方法進行訓練,效率較低。2017 年,Zhu F 等[4]提出了SRN 對目標出現區(qū)域進行研究,利用注意圖對每個標簽應關注的圖像區(qū)域進行劃分,使多標簽圖像分類效率有了極大提高。隨著卷積神經網絡(CNN)的發(fā)展,多標簽圖像分類的精度逐步提升,但是圖像中目標之間的關聯性還有待發(fā)掘,導致多標簽圖像分類精度不高。2019 年,Chen Z M 等[5]提出了ML-GCN,為圖像上出現的標簽建立了相關矩陣,使卷積神經網絡一定程度上學習到了標簽之間的關聯性,在多標簽圖像分類上取得了很好的結果。但是MLGCN 模型獲得的標簽相關性具有一定的局限性,因為在數據集中標簽之間的頻率關系并不代表真實場景中目標之間的關系。Chen T 等[6]提出了SSGRL,利用語義解耦模塊結合類別語義來學習特定語義的表示,將語義交互模塊與基于統計標簽共現的圖相關聯,并通過圖傳播機制探索它們之間的交互,效率獲得了很大提升。針對MLGCN 存在的問題,Ye J 等[7]提出的ADD-GCN 在一定程度上進行了改善,該方法在圖像中建立了利用注意力機制驅動的動態(tài)圖卷積網絡來表示標簽的相關性,獲得了更好的效果。

      近些年,Transformer開始應用于計算機視覺的各個領域,并獲得了巨大的成功,如Vision Transformers(ViT)用于圖像分類[8];DETR用于目標檢測[9]。受到DETR的啟發(fā),2021年,Liu S等[10]提出利用ResNet作為特征提取網絡,Transformer作為分類器進行多標簽分類:通過多頭注意力機制,從對象的不同部分或不同視圖中提取特征,將每個標簽類視為Transformer解碼器中的查詢,并對后續(xù)二進制分類的相關特征進行交叉關注,該方法在多個數據集上獲得了很好的結果。此后,Ridnik T等[11]提出基于Transformer的分類頭ML-decoder對圖像進行分類,ML-decoder靈活高效,可以用于單標簽、多標簽和零樣本等多種場景中。

      本文提出了一種基于ResNeSt 與雙分支Transformer的網絡結構。首先,ResNeSt網絡在不同的網絡分支上應用通道注意力,利用特征圖注意力和多路徑表示的互補優(yōu)勢,能更好地提取細微的特征,提高特征提取性能;其次,在Transformer模塊基礎上,加入BatchFormerV2[12]模塊分支,通過密集表示學習提高小樣本的類別精度。與其他多標簽圖像分類模型相比,本文所提多標簽圖像分類算法在不同數據集上的精度都有一定的提升。

      1 系統框架

      如圖1 所示,系統框架由兩部分構成。第一部分進行特征提取,其中特征提取模塊選用分裂注意力網絡(ResNeSt),它將圖像進行分割,利用通道注意力提取特征,再將其整合到一個統一的注意力塊中,以提取到不同網絡分支的特征。

      圖1 系統框圖Fig.1 Structure diagram of system

      模型第二部分由Transformer Encoder、Decoder 模 塊、BatchFormerV2 Encoder 模 塊、分類器(Classifier)和損失函數(Loss Function)組成。將ResNeSt 提取到的底層特征加入位置編碼(Positional Embeddings)作為Transformer Encoder模塊的輸入;Transformer Encoder 模塊在訓練階段可以通過共享其模塊得到BatchFormerV2 Encoder 模塊,形成雙分支結構,兩個分支進行融合得到鍵值對傳入Transformer Decoder 模塊中;然后,通過分類器進行類別預測;最后,通過損失函數進行反向傳播,更新參數以得到最佳結果。需要注意的是,BatchFormerV2 Encoder模塊只在訓練階段出現,在測試階段會被刪除,這樣可以避免額外的推理負擔。

      1.1 分裂注意力網絡(ResNeSt)

      ResNet 解決了網絡加深出現的退化問題,但是它缺乏通道間的信息融合,因此,本文采用了一種在ResNet基礎上進行改進的網絡——分裂注意力網絡(ResNeSt)。其在ResNet 的基礎上加入了各個通道間的信息融合,將通道級注意力應用于不同的網絡分支,在捕獲跨特征交互和學習多樣化表現方面具有重要作用,通過分裂注意力機制獲取每個通道不同的重要性,可以將感興趣區(qū)域更加精確地提取出來,得到比ResNet 更好的效果。

      ResNeSt 模塊如圖2 所示,輸入特征圖被分割為t個基礎特征圖,其中每個組進行切片處理得到N個切片;經過1×1 卷積和3×3 卷積處理之后送入分裂注意力(見圖3)中;然后,將每個通過分裂注意力得到的輸出進行融合操作,通過1×1 卷積還原通道數,這樣得到的特征融合了各個通道之間的信息,而且輸入和輸出的形狀相同,可以當作一個模塊加入模型中。

      圖2 ResNeSt模塊Fig.2 ResNeSt block

      圖3 分裂注意力模塊Fig.3 Split attention module

      分裂注意力模塊如圖3 所示,在圖2 中經過3×3 卷積處理后的N個切片進入分裂注意力模塊,首先,進行累加求和得到總特征,然后,通過平均池化層收集全局上下文信息,將收集到的信息通過全連接層、歸一化層和ReLU 函數得到每個切片的注意力權重大小,其分別與每個切片相乘再進行融合,這樣可以對各個通道進行信息融合,而且可獲取到每個通道的重要程度。

      1.2 BatchFormerV2模塊

      本文引入了一種新的Transformer 結構:BatchFormerV2。該模塊提出了一種密集表示的樣本學習方法,不僅具有空間注意,而且加入了批處理注意,實現了從圖像級到像素級的表示。相比于Transformer 需要大量圖片進行訓練而言,引入的BatchFormerV2 模塊可以緩解樣本稀缺問題,這有利于多標簽圖像分類精度的提升,Transformer中注意力模塊的輸出Z表示為

      式中:Q,K,V∈RN×C分別為查詢矩陣、鍵矩陣和值矩陣,N為圖像特征塊的數量,C為嵌入維度;d為通道數。查詢矩陣Q與鍵矩陣K內積,得到一個注意力矩陣,它表示了Q與K的相關程度,對該注意力矩陣進行歸一化并通過softmax激活函數,然后點乘值矩陣V得到Z。

      BatchFormerV2的表達式為

      式 中:Qi,Ki,Vi∈RB×C,Z∈RB×N×C,B為Batch Size,指一個批量的數據??梢钥闯鯞atch-FormerV2并沒有改變Transformer的形式,只是將N個長度為B的序列視為一個批量,送入共享的Transformer模塊中,其中N=H×W。

      如圖4 所示,將分裂注意力網絡得到的底層特征輸入到Transformer Encoder 模塊中,在原始Transformer Encoder 分支保持不變的情況下,通過共享創(chuàng)建一個新的分支,在這個分支中加入了BatchFormerV2 模塊,即兩個分支共享Transformer Encoder 模塊。兩個分支得到Key 和Value后進行融合,輸入到Transformer Decoder 部分。Transformer Decoder 部分的交叉注意力可以自適應地提取局部特征,通過查詢矩陣Q進行查詢得到最后的結果。同時為了避免額外的參數增加,在解碼階段刪除了BatchFormerV2分支。

      圖4 雙分支Transformer模塊結構圖Fig.4 Structure diagram of dual-branch Transformer module

      2 實驗與分析

      實驗配置為:intel i7-11700CPU,64 位Windows 10 操作系統,Nvidia GeForce RTX 3060Ti?;赑ytorch 深度學習框架搭建網絡模型。使用AdamW 優(yōu)化器對網絡優(yōu)化,初始學習率調整為1×10-6,并使用cutmix 進行數據增強。將圖像統一裁剪為448×448 大小,使用均值[0,0,0]和標準差[1,1,1]對輸入圖像進行歸一化,并使用RandAugment[13]進行增強。

      為了評估提出的多標簽圖像分類方法,在Microsoft Common Objects in Context(MS COCO14)數據集和The PASCAL Visual Object Classes(VOC2007)數據集上進行了實驗。MS COCO14 包括82 783 張訓練集圖像,40 504 張驗證集圖像,涵蓋80個常見的類別,平均每張圖像上有2.9 個標簽,可以用于對象檢測和分割,也廣泛用于多標簽圖像分類。VOC2007數據集中包含訓練集(5 011 幅)和測試集(4 952 幅),總共9 963幅圖,涵蓋了20個常見的類別。

      2.1 評估標準

      本文主要使用平均精度均值(Mean Average Precision,mAP)作為模型的評估指標。其中平均精度均值的計算方式為

      式中:TP(True Positive)為被判定為正樣本,事實上也是正樣本;FP(False Positive)為被判定為正樣本,但事實上是負樣本;P為準確率;k為數據集中含有該類別的圖片數量;N為總類別個數;AP為單標簽精度值;mAP為所有目標類別精度的平均值。

      2.2 實驗結果分析

      本文所提出模型在MS COCO14 數據集上的訓練損失如圖5 所示,橫坐標為迭代訓練次數epoch,訓練了25 個epoch,在第20 個epoch 后網絡趨于收斂。在MS COCO14數據集上的mAP曲線圖如圖6 所示。本文數據都是在圖像分辨率為448×448 上得到的,但是為了比較的公平性,還對圖像分辨率為576×576進行訓練,方便與其他模型進行對比。

      圖5 訓練損失曲線Fig.5 Loss curve of training

      圖6 mAP曲線Fig.6 Curve of mAP

      由表1 和表2 的數據對比可以發(fā)現,本文提出的模型所得到的mAP值最高,在圖像分辨率為448×448 的情況下,相比最高的ASL 模型[14],其mAP值高出2.0%;在圖像分辨率為576×576的情況下,相比最高的Q2L-R101 模型,其mAP值高出1.9%。說明該多標簽分類算法的分類精度更高,效果更好。

      表1 各算法結果比較(448×448)Tab.1 Comparison of the results of each algorithm(448×448)

      表2 各算法結果比較(576×576)Tab.2 Comparison of the results of each algorithm(576×576)

      另外,在VOC2007數據集上進行了補充實驗,結果為表3 所示??梢钥闯觯疚乃崮P推骄悇e精度mAP達到了96.0%,在20個類別中有13個類別都有不同的提升,相比于ResNet-101,MLGCN,SSGRL和ASL分別提高了5.2%,2.0%,1.0%和0.2%。對于ASL只有小幅度增加是因為VOC2007的mAP值已經趨近于飽和,但是對于以前的工作仍然有很大的提升。比如,與ASL相比,在bike,chair,tv類別上分別提高了0.7%,1.4%和0.8%,這說明所提方法是有效的。但是在某些類別上,所提模型的mAP也出現了下降,比如在plant類別上,比最高的ASL低1.3%,故還需要進一步去研究,減少在個別類別上的差距。

      表3 各算法在VOC2007數據集上mAP對比Tab.3 Comparison of the mAP of each algorithm on VOC2007 data set

      2.3 消融實驗

      在消融實驗中,進行了以下兩組對比實驗:1)使用ResNet 網絡和ResNeSt 網絡比較,2)使用Transformer 模塊和雙分支Transformer 模塊比較。在MS COCO14 數據集中進行測試,使用mAP精度值進行評價。

      從表4 中對比可以發(fā)現,減少本文算法中的任何一個模塊都會導致平均精度均值mAP下降。當算法中都使用Transformer時,在mAP指標上ResNeSt網絡可以比ResNet網絡提升1.05%左右;當算法中都使用ResNet網絡時,雙分支Transformer模塊會比Transformer模塊提升0.51%左右;當算法中使用ResNeSt和雙分支Transformer模塊時,會比只使用ResNet和Transformer模塊提升1.59%左右。證明本文算法結合這兩個模塊可以得到更高的多標簽圖像分類精度。

      3 結論

      本文提出了一種簡單高效的多標簽圖像分類模型,該模型基于ResNeSt 分裂注意力網絡提取底層特征,在改進后的雙分支Transformer網絡上進行多標簽圖像分類。介紹了模型的整體框架,并說明選用ResNeSt 分裂注意力網絡作為骨干網絡可以得到更加豐富的特征信息,使用改進后的雙分支Transformer 網絡模型可以提高Transformer 的分類效果。通過實驗表明,本文所提出的多標簽分類模型在mAP指標上優(yōu)于其他算法。

      猜你喜歡
      分支類別注意力
      讓注意力“飛”回來
      巧分支與枝
      學生天地(2019年28期)2019-08-25 08:50:54
      一類擬齊次多項式中心的極限環(huán)分支
      “揚眼”APP:讓注意力“變現”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      A Beautiful Way Of Looking At Things
      服務類別
      新校長(2016年8期)2016-01-10 06:43:59
      論類別股東會
      商事法論集(2014年1期)2014-06-27 01:20:42
      中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
      生成分支q-矩陣的零流出性
      聚合酶鏈式反應快速鑒別5種常見肉類別
      食品科學(2013年8期)2013-03-11 18:21:31
      呼图壁县| 晋中市| 玉溪市| 台东县| 夹江县| 承德市| 邵阳县| 宜都市| 汝城县| 遂溪县| 会宁县| 潮安县| 浏阳市| 定边县| 蕉岭县| 邯郸市| 子长县| 苏州市| 深圳市| 河北区| 柯坪县| 札达县| 鄯善县| 洛宁县| 四会市| 罗山县| 华安县| 明星| 康保县| 华坪县| 顺平县| 外汇| 金川县| 海口市| 阳泉市| 长阳| 洪江市| 黑龙江省| 梅河口市| 新田县| 鄂托克旗|