• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于改進ResNet網(wǎng)絡(luò)的貓狗圖像識別

      2023-07-11 23:43:08李政霖
      甘肅科技縱橫 2023年2期
      關(guān)鍵詞:注意力機制卷積神經(jīng)網(wǎng)絡(luò)圖像識別

      李政霖

      摘要:動物種類的識別一直是圖像識別領(lǐng)域的重點,為了更好地對圖像中動物進行識別、幫助社會對家庭寵物的管理,本論述提出一種基于ACNet模塊和 CBAM 注意力機制模塊而改進的 ACResNet18模型用來識別貓狗種類,通過非對稱卷積快增強網(wǎng)絡(luò)模型的核骨架,實現(xiàn)更有效的特征提取,引入 CBAM 注意力機制加強網(wǎng)絡(luò)識別精度,能夠更精確地對圖像中貓狗進行識別和分類。本次實驗使用 Kaggle 競賽中的貓狗數(shù)據(jù)集進行圖像識別,并通過對比實驗,驗證了相比于原模型,改進后的模型準(zhǔn)確率有明顯提升,最終提高了模型在圖像分類上的精確度和魯棒性,證實了該模型的可靠性。

      關(guān)鍵詞:圖像識別;注意力機制;卷積神經(jīng)網(wǎng)絡(luò);ResNet網(wǎng)絡(luò)

      中圖分類號:TP391.4????????????????????????? 文獻標(biāo)志碼:A

      0引言

      動物種類識別一直是計算機視覺領(lǐng)域、人工智能等領(lǐng)域的重點研究之一,無論是珍稀動物保護,還是用于日常寵物管理,都是需要重視的問題?,F(xiàn)今很多人想領(lǐng)養(yǎng)寵物,但又因為各種原因和借口從而放棄養(yǎng)寵物,導(dǎo)致流浪貓狗泛濫,產(chǎn)生一系列社會問題,本論述希望通過改進的卷積神經(jīng)網(wǎng)絡(luò)來對貓狗圖像進行識別分類[1]以解決該問題,方便社區(qū)和校園管理。

      卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network)常用于圖像處理中,相較于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),不同之處在于全連接網(wǎng)絡(luò)前加入了卷積層用來提取特征[2]。為了解決模型處理參數(shù)量過大而導(dǎo)致實驗結(jié)果過擬合的問題,使用卷積層和池化層對輸入圖像進行特征提取后,將結(jié)果輸送入全連接網(wǎng)絡(luò)[3]。

      ResNet網(wǎng)絡(luò)是卷積神經(jīng)網(wǎng)絡(luò)的經(jīng)典模型算法之一,在卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展歷程中,出現(xiàn)過許多經(jīng)典的網(wǎng)絡(luò)結(jié)構(gòu)模型,例如LeNet、AlexNet、VGGNet和Incep? tionNet等網(wǎng)絡(luò)模型,為圖像識別領(lǐng)域起到了極其重要的作用[4]。但在實際的試驗中發(fā)現(xiàn),隨著網(wǎng)絡(luò)模型中的卷積層和池化層疊加到一定數(shù)量后,發(fā)生伴隨著層數(shù)的增加,預(yù)測效果越來越低的退化問題。而ResNet網(wǎng)絡(luò)中的殘差結(jié)構(gòu),可以人為地讓神經(jīng)網(wǎng)絡(luò)某些層跳過下一層神經(jīng)元的連接,弱化每層之間的強聯(lián)系,減輕退化問題[5]。但基礎(chǔ)的 ResNet18模型仍有進一步改進空間[6],故而本論述采用基于改進ResNet網(wǎng)絡(luò)模型進行圖像識別。

      1分析網(wǎng)絡(luò)模型

      1.1深度殘差網(wǎng)絡(luò)

      ResNet網(wǎng)絡(luò)即深度殘差網(wǎng)絡(luò),通過對殘差結(jié)構(gòu)的運用,ResNet使得訓(xùn)練數(shù)百層的網(wǎng)絡(luò)成為了可能,從而具有非常強大的表征能力[7]。深度殘差網(wǎng)絡(luò)沒有使用尺寸大的卷積核的方法,而是更改成了連續(xù)使用幾個尺寸小的卷積核,這樣不僅能達到相同效果的同時減少了模型參數(shù),還加大了ResNet網(wǎng)絡(luò)模型非線性激活函數(shù)的數(shù)量,降低模型的計算量。而濾波器的數(shù)量在特征圖通過卷積層的輸入與輸出相同時不需要改變;但若特征圖大小減半時,就要加倍,池化層步長設(shè)置為2[8],ResNet18網(wǎng)絡(luò)結(jié)構(gòu)圖如圖1所示。

      ResNet網(wǎng)絡(luò)的核心是殘差結(jié)構(gòu)[9]。在殘差結(jié)構(gòu)中,沒有讓下一層擬合底層映射,而是對殘差映射進行擬合[10]。若假設(shè) H(x)是需要學(xué)習(xí)得到的底層映射,則令堆疊的非線性層擬合另一個相對于 x 殘差的映射 F (x)=H(x)–x,最后將殘差與輸入相加,原有映射變?yōu)?F(x)+x,得到 H(x),殘差結(jié)構(gòu)如圖2所示。在圖2中,曲線代表恒等映射,中間的網(wǎng)絡(luò)代表擬合殘差,當(dāng)兩邊操作結(jié)束后所得結(jié)果相加再激活。

      1.2 ACNet模塊

      ACNet模塊替換普通卷積層是一種用以增強卷積核骨架信息從而使模型精確度增加的方法[11]。該方法通過使用非對稱的卷積核組(尺寸為1×k,k×1的卷積核),替換目前 CNN 架構(gòu)中常用的3×3,5×5,7×7的方形卷積核,以支持網(wǎng)絡(luò)對某些非對稱的圖像特征實現(xiàn)更優(yōu)越的特征提取。

      本論述將要改進的 ResNet18網(wǎng)絡(luò)模型的卷積核都是尺寸為3*3大小的卷積核,用長和寬都為3的卷積核對輸入圖片進行特征提取,將其結(jié)果批處理化,再傳入下一層。而ACNet模塊則利用了卷積的可加性,等價地融合到方形卷積核當(dāng)中,使用3×3,1×3,3×1三個不同尺寸的卷積核來取代原卷積核,并將三個卷積核提取出來的結(jié)果進行批處理化并將其權(quán)值聚合后再輸出到下一層。與單個卷積核相比,使用ACNet模塊能在水平和垂直方向上增強方形卷積的作用,使得網(wǎng)絡(luò)的特征提取效果更為突出且不需要額外的參數(shù)和計算。

      1.3注意力機制

      注意力機制是深度學(xué)習(xí)和計算機視覺領(lǐng)域的一種重要思想,最近幾年被廣泛用于自然語言處理、圖像識別等不同領(lǐng)域[12],其作用主要是為了關(guān)注當(dāng)前任務(wù)更為關(guān)鍵的信息,提取更多圖像的細(xì)節(jié)特征,降低其它信息的關(guān)注度,抑制提取不需要的圖像特征的影響。注意力機制有很多種,較為常用的有通道注意力和空間注意力[13],例如 SE 模塊,CBAM 模塊等。

      SE 注意力機制(Squeeze-and-Excitation Networks)是一種典型通道類型的注意力機制,關(guān)鍵在于給特征圖中的每個特征通道配置一個注意力權(quán)重,從而讓網(wǎng)絡(luò)模型更加注意這些特征通道,進而實現(xiàn)對當(dāng)前任務(wù)有用的特征圖的通道,并抑制對當(dāng)前任務(wù)用處不大的特征通道。

      CBAM 注意力機制是由通道注意力機制(chan? nel)和空間注意力機制(spatial)組成??臻g注意力令模型更加重視對輸入圖像中的關(guān)鍵部分,抑制非關(guān)鍵特征的提取,而通道注意力負(fù)責(zé)處理特征圖通道的分配關(guān)系,對兩個維度進行注意力分配。相對于 SE 模塊僅考慮通道注意力,CBAM 模塊考慮的更為全面,使模型具備更加精確的識別能力。故本論述采用CBAM模塊。

      2模型改進

      2.1改進后ACResNet網(wǎng)絡(luò)結(jié)構(gòu)

      為了能對圖像進行更加精確和高效的識別,本論述在對 ResNet18網(wǎng)絡(luò)模型的基礎(chǔ)上引入了注意力機制和ACNet模塊,提出一種全新的 ACResNet18網(wǎng)絡(luò)模型結(jié)構(gòu)。該模型通過將 ResNet18網(wǎng)絡(luò)模型中的所有卷積層替換為ACNet層,在保留了原網(wǎng)絡(luò)模型的殘差結(jié)構(gòu)的基礎(chǔ)上提升了對圖像的特征提取能力,然后在每個 AC 塊后添加了 CBAM 注意力機制,抑制了不必要的特征提取,不僅降低退化現(xiàn)象,還實現(xiàn)了局部特征提取水平的提高,使該模型結(jié)構(gòu)相較于原模型具有更好的識別效果。改進后模型結(jié)構(gòu)圖如圖3所示,模型中每個 AC塊中卷積層的卷積核除了尺寸大小以外,步長、深度等都與 ResNet18中對應(yīng)的卷積層相同。

      2.2 AC塊結(jié)構(gòu)

      ACResNet18中 AC 塊的使用是用來取代原 ResNet18中的普通卷積層,由三個卷積核大小分別為3×3,3×1,1×3的卷積層取代了原來的單個3×3的卷積層,進行權(quán)值聚合后再將結(jié)果輸出到下一層。其具體的結(jié)構(gòu)圖如圖4所示。

      假設(shè)輸入 AC塊的特征圖尺寸為 H*W*C(H,W 為特征圖的高和寬,C為特征圖的深度),在輸入時分別經(jīng)過3×3,3×1,1×3大小卷積核的卷積層并以相同的步長操作進行圖像處理。值得注意的是,單純將一個卷積層改變成三個不同的卷積層進行特征提取后直接相加,會成倍增加運算量,故而利用卷積的可加性進行分支融合,對各個圖像處理結(jié)果批處理化,進行權(quán)值聚合處理,得到等價的輸出結(jié)果。其總公式如式(1)所示,O代表輸出結(jié)果, Ix 代表輸入通道數(shù)為C 的特征圖,K1,K2和 K3代表了 AC塊中3個具有兼容大小的2D 內(nèi)核。

      在分支融合過程中,將輸入特征圖進行三個不同的卷積層運算后送入批量歸一化層(BN),然后接一個 RELU線性變換,以增強表示能力。具體如下列所示,μ和σ是批標(biāo)準(zhǔn)化的通道平均值和標(biāo)準(zhǔn)差,γ和β是縮放系數(shù)和偏移量,公式(5)中的 O1、O2、O3對應(yīng)式(2)、式(3)和式(4)。

      2.3注意力機制結(jié)構(gòu)

      在 ACResNet18模型中,為了進一步提升模型對輸入重要信息的動態(tài)選擇,更好的提取圖像的重要特征信息用以識別。本論述在每個 AC 塊后加入了輕量級注意力模塊 CBAM,提升每個殘差塊的特征提取能力,抑制了無關(guān)特征的提取,進而提高模型的學(xué)習(xí)效果。 CBAM 注意力模塊的運行結(jié)構(gòu)如圖5所示(CBAM 模塊的輸入對應(yīng) AC 模塊的輸出)。

      由圖5可以看出,CBAM 模塊的關(guān)鍵在于對輸入進來的特征圖依次進行通道注意力模塊和空間注意力模塊的處理。通道注意力模塊(SAM)如圖5中的通道注意力模塊框架所示。將輸入的特征圖分別經(jīng)過平均池化(Average Pooling)和最大池化(Max Pooling),用來壓縮輸入特征圖的空間維數(shù),逐元素求和合并,然后分別經(jīng)過共享的全連接層(Shared MLP)進行處理。將 MLP 輸出的特征進行基于 element-wise 加和操作后使用 sig? moid激活函數(shù)進行激活,取得特征圖中各個通道的權(quán)重,生成最終的通道注意圖(channel attention feature map)后做 element-wise 乘法,結(jié)果輸入到下一層。SAM可以用式(6)表示。其中σ表示為 Sigmoid 函數(shù),MLP 表示為多層感知器,I 對應(yīng)式(5)中的 O。

      空間注意力模塊的關(guān)鍵是利用特征間的空間關(guān)系生成空間注意力圖。在空間注意力模塊中,對輸入特征層沿著通道維度進行全局平均池化和最大池化,然后堆疊,通過卷積核尺寸為7×7,通道數(shù)為1的卷積層調(diào)整通道數(shù),得到特征圖上每個特征點的權(quán)重值,再做 element-wise 乘法操作,降低了模型的參數(shù)和計算量,有利于建立高維度的空間特征相關(guān)性??臻g注意力機制可以用式(7)表示,Avg Pool 表示為平均池化,Max Pool 表示為最大池化。

      3實驗過程與結(jié)果

      3.1數(shù)據(jù)集介紹

      針對研究主題基于的 ACResNet18網(wǎng)絡(luò)模型的貓狗圖像識別,對數(shù)據(jù)集中貓狗進行分類預(yù)測。實驗的數(shù)據(jù)集使用kaggle競賽上的貓狗數(shù)據(jù)集。該數(shù)據(jù)集共25000張圖片,所有圖片皆為 jpg 格式,兩種動物的類別比例為1∶1。

      3.2數(shù)據(jù)預(yù)處理

      將數(shù)據(jù)集存放在命名為 CATPNG 的文件夾中,在 CATPNG 文件夾下創(chuàng)建了CDtrain文件夾、CDtest文件夾、CDtest_label.txt 和 CDtrain_label.txt,將訓(xùn)練集和測試集放分別放入對應(yīng)的文件夾中,而訓(xùn)練集和測試集的特征標(biāo)簽存放在對應(yīng)的文本文檔中。在送入模型訓(xùn)練前,將數(shù)據(jù)集中圖片統(tǒng)一 resize 到224*224*3的維度,因kaggle數(shù)據(jù)集中的數(shù)據(jù)較為干凈,數(shù)據(jù)集較多,所以并未進行數(shù)據(jù)增強處理。

      3.3數(shù)據(jù)集劃分

      在此次實驗中,訓(xùn)練集和測試集的數(shù)量按5∶1的比例劃分,即在25000張圖片中,分別有20000張訓(xùn)練集,5000張測試集,使訓(xùn)練集和測試集永不相交,并且在訓(xùn)練集和測試集中,類別是貓的圖片和類別是狗的圖片數(shù)量相同。

      3.4實驗結(jié)果

      本論述實驗訓(xùn)練所使用的卷積神經(jīng)網(wǎng)絡(luò)為 ACResNet18網(wǎng)絡(luò)模型。實驗環(huán)境處理器為 Intel(R ) Xeon ( R ) Platinum 8255C CPU @2.50 GHz,顯卡為 RTX 3090,顯存大小是24 GB,采用并行計算架構(gòu) CU? DA11.2,Python3.8版本,Tensorflow2.9作為深度學(xué)習(xí)框架[14]。因改進后模型更為復(fù)雜,處理更多,所以一次訓(xùn)練設(shè)置樣本數(shù)batch_size大小為16,訓(xùn)練迭代周期 ep? och設(shè)置20。在設(shè)置 ACResNet18網(wǎng)絡(luò)模型訓(xùn)練時,選擇了收斂模型速率較快的 Adam 優(yōu)化器,損失函數(shù)為交叉熵?fù)p失函數(shù),同時加入 L2正則化減輕模型的過擬合問題。模型訓(xùn)練結(jié)束時,最終結(jié)果在訓(xùn)練集和測試集上的準(zhǔn)確率分別為0.9518和0.9430。圖 6展示了模型運行時訓(xùn)練集和測試集的準(zhǔn)確率(Accuracy)、損失函數(shù)值(Loss )的變化,可以看到運行過程中避免了過擬合的現(xiàn)象。

      3.5實驗對比

      為了證明本論述 ACResNet18網(wǎng)絡(luò)模型相比原模型的優(yōu)越性,將 ACResNet18模型分別與 ResNet34, ResNet18等常用的經(jīng)典網(wǎng)絡(luò)模型作對比[15]。為了更好的比較,實驗設(shè)備與 ACResNet18網(wǎng)絡(luò)模型訓(xùn)練的環(huán)境相同,并取實驗結(jié)果為測試集迭代最后四位的損失函數(shù) loss 值和準(zhǔn)確率 acc 值的平均數(shù)做評判標(biāo)準(zhǔn)[16]。對比試驗結(jié)果由表1顯示,可以看到在貓狗數(shù)據(jù)集上,本論述改進后的 ACResNet18網(wǎng)絡(luò)模型相較于原來的 ResNet18網(wǎng)絡(luò)模型的識別準(zhǔn)確度更高,驗證了本論述模型的可行性和有效性。

      4結(jié)論

      為了提升對貓狗動物的圖像識別的精準(zhǔn)度,本論述對 ResNet18網(wǎng)絡(luò)模型做出改進,提出一種基于 ACResNet18的網(wǎng)絡(luò)模型結(jié)構(gòu),將原網(wǎng)絡(luò)的卷積層變?yōu)锳CNet層,并添加了 CBAM 注意力機制,在保留原有結(jié)構(gòu)的殘差結(jié)構(gòu)的基礎(chǔ)上,不僅有效降低退化現(xiàn)象,防止過擬合,還實現(xiàn)了對局部特征提取增強,抑制了不必要的特征提取,提升了圖像識別的準(zhǔn)確率。通過對比實驗,證明了該網(wǎng)絡(luò)模型的可行性和有效性,相較于原網(wǎng)絡(luò)模型,識別精確度有了明顯的提升,能夠更好的識別圖像的類別。

      參考文獻:

      [1] 徐奕哲.基于 Resnet-50的貓狗圖像識別[J].電子制作,2019(16):45-55.

      [2] 張玉紅,白韌祥,孟凡軍,等.圖像識別中的卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用研究[J].新技術(shù)新工藝,2021,397(1):52-55.

      [3]? Cui Yongyi,Qu Fang. Experimental Discussion on Fire ImageRecognition Based on Deep Learning[J]. Journal of Physics: Conference Series,2021,2066(1).

      [4] 張珂,馮曉晗,郭玉榮,等.圖像分類的深度卷積神經(jīng)網(wǎng)絡(luò)模型綜述[J].中國圖象圖形學(xué)報,2021,26(10):2305-2325.

      [5] 陳歡,薛濤,任星韜,等. ResNet網(wǎng)絡(luò)下垃圾分類圖像識別的實現(xiàn)[J].信息技術(shù)與信息化,2021(6):25-27.

      [6] 徐小平,余香佳,劉廣鈞,等.利用改進AlexNet卷積神經(jīng)網(wǎng)絡(luò)識別石墨[J].計算機系統(tǒng)應(yīng)用,2022,31(2):376-383.

      [7]? Durga B Kanaka,Rajesh V. A ResNet deep learning basedfa?cial recognition design for future multimedia applications[J]. Computers and Electrical Engineering,2022,104(PA ).

      [8] 張典范,楊鎮(zhèn)豪,程淑紅.基于 ResNet50與遷移學(xué)習(xí)的輪轂識別[J].計量學(xué)報,2022,43(11):1413-1417.

      [9] 唐鑒波,李維軍,趙波,等.基于卷積神經(jīng)網(wǎng)絡(luò)的手寫數(shù)字識別方法研究[J].電子設(shè)計工程,2022,30(21):189-193.

      [10] 謝圣橋,宋健,湯修映,等.基于遷移學(xué)習(xí)和殘差網(wǎng)絡(luò)的葡萄葉部病害識別[J].農(nóng)機化研究,2023,45(8):18-23,28.

      [11]? Xiaohan Ding,Yuchen Guo, Guiguang Ding, et al. ACNet:Strengthening? the? Kernel? Skeletons? for? Powerful? CNN? via Asymmetric? Convolution? Blocks.[J]. CoRR,2019,abs/1908.03930.

      [12]? 李金星,孫俊,李超,等.融合多頭注意力機制的新冠肺炎聯(lián)合診斷與分割[J].中國圖象圖形學(xué)報,2022,27(12):3651-3662.

      [13] 朱磊,仝超,董亮,等.基于殘差網(wǎng)絡(luò)和注意力機制的步態(tài)識別算法[J].電訊技術(shù),2022,62(12):1723-1728.

      [14]? 劉姝珺,吳晟宇.基于卷積神經(jīng)網(wǎng)絡(luò)和Tensorflow的昆蟲圖像識別研究[J].光源與照明,2022(4):70-73.

      [15] 魏玉福,陳麗萍.基于注意力機制的深度學(xué)習(xí)體育運動姿態(tài)估計技術(shù)[J].電子設(shè)計工程,2023,31(2):152-155.

      [16] 關(guān)曉艷,李亞.基于改進ResNet網(wǎng)絡(luò)的有遮擋車牌識別[J].農(nóng)業(yè)裝備與車輛工程,2022,60(11):58-63.

      猜你喜歡
      注意力機制卷積神經(jīng)網(wǎng)絡(luò)圖像識別
      基于Resnet-50的貓狗圖像識別
      電子制作(2019年16期)2019-09-27 09:34:50
      高速公路圖像識別技術(shù)應(yīng)用探討
      基于深度學(xué)習(xí)的問題回答技術(shù)研究
      圖像識別在物聯(lián)網(wǎng)上的應(yīng)用
      電子制作(2018年19期)2018-11-14 02:37:04
      圖像識別在水質(zhì)檢測中的應(yīng)用
      電子制作(2018年14期)2018-08-21 01:38:16
      基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
      基于注意力機制的雙向LSTM模型在中文商品評論情感分類中的研究
      軟件工程(2017年11期)2018-01-05 08:06:09
      InsunKBQA:一個基于知識庫的問答系統(tǒng)
      基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識別算法
      深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
      夏津县| 崇文区| 浦城县| 崇信县| 吴桥县| 弥渡县| 广东省| 云梦县| 双江| 当阳市| 同江市| 永靖县| 赣州市| 和顺县| 康平县| 来宾市| 蛟河市| 百色市| 大港区| 务川| 汪清县| 韶关市| 合川市| 揭阳市| 团风县| 彭泽县| 诸暨市| 新河县| 安塞县| 阳春市| 吉安市| 大兴区| 乡城县| 嵊泗县| 英超| 南溪县| 密山市| 改则县| 林甸县| 奉节县| 桦甸市|