• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于改進(jìn)YOLOv5s的輕量級(jí)桃子檢測(cè)算法

      2023-03-24 20:31:04趙紅梅文嘉睿
      電腦知識(shí)與技術(shù) 2023年4期
      關(guān)鍵詞:注意力機(jī)制輕量化

      趙紅梅 文嘉睿

      關(guān)鍵詞:桃子檢測(cè); YOLOv5s; MobileNetv3; 注意力機(jī)制; 輕量化

      1 引言

      目前我國(guó)是世界上最大的桃子生產(chǎn)國(guó),占世界總產(chǎn)量的60%以上,且每年呈上漲趨勢(shì)[1]。當(dāng)大量的桃子成熟時(shí),需要大量的人工去進(jìn)行采摘,耗時(shí)耗力,效率低下,而且隨著人們生活水平的提升,對(duì)桃子的外觀、口感要求也越發(fā)的高,對(duì)桃子采摘也提出了一定的要求。所以,研究桃子的自動(dòng)采摘技術(shù)很有意義。其中,如何快速、準(zhǔn)確地檢測(cè)桃子目標(biāo)成為桃子自動(dòng)采摘技術(shù)的關(guān)鍵。

      目前在水果的目標(biāo)檢測(cè)領(lǐng)域,以檢測(cè)蘋果為主要研究目標(biāo),針對(duì)桃子的目標(biāo)檢測(cè)研究較少,而且大多數(shù)采用傳統(tǒng)的圖像處理方式,在果園這種果實(shí)被枝葉遮擋、果實(shí)重疊遮擋、光照復(fù)雜等復(fù)雜環(huán)境下,檢測(cè)的準(zhǔn)確度較低,另外果實(shí)采摘系統(tǒng)的嵌入式平臺(tái)一般算力有限,復(fù)雜的模型很難滿足檢測(cè)速度的實(shí)時(shí)性要求。因此,在保證桃子檢測(cè)精度的同時(shí),提高桃子檢測(cè)的速度成為桃子檢測(cè)的研究難點(diǎn)和熱點(diǎn)。

      近年來(lái),隨著人工智能技術(shù)的飛速發(fā)展,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法發(fā)展迅速,主要分為兩類:第一類是以R-CNN[2-4]系列為代表的二階段目標(biāo)檢測(cè)算法,該類算法先生成建議目標(biāo)框,然后再對(duì)建議目標(biāo)框內(nèi)的物體進(jìn)行分類和位置的回歸;第二類是以YOLO[5-8]系列、SSD[9]系列為代表的一階段目標(biāo)檢測(cè)算法,該類方法無(wú)須生成建議目標(biāo)框的階段,而是直接對(duì)圖像進(jìn)行卷積提取特征,然后在特征圖上進(jìn)行目標(biāo)位置的回歸,減少了檢測(cè)的時(shí)間,但是會(huì)在一定程度上影響精度,但是在對(duì)實(shí)時(shí)性要求比較高的應(yīng)用場(chǎng)景下,一階段目標(biāo)檢測(cè)算法應(yīng)用更為廣泛[10]。

      本文以目標(biāo)檢測(cè)算法中性能比較好的YOLOv5s 網(wǎng)絡(luò)模型為基礎(chǔ),提出一種改進(jìn)YOLOv5s的輕量級(jí)桃子檢測(cè)算法,用更輕量的MobileNetv3網(wǎng)絡(luò)替換主干特征提取網(wǎng)絡(luò),以實(shí)現(xiàn)網(wǎng)絡(luò)模型的輕量化,平衡速度與精度;然后將通道注意機(jī)制SE模塊替換為更高效的ECA模塊。

      2 YOLOv5s 算法

      YOLOv5算法是YOLO系列算法的一個(gè)延伸,由Ultralytics公司在2020年提出的,是目前從檢測(cè)精度與速度上來(lái)說(shuō)較為優(yōu)秀的一階段檢測(cè)網(wǎng)絡(luò)模型。依據(jù)模型的不同深度和寬度,可以分為五個(gè)基準(zhǔn)模型:YOLOv5n、YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x。其中YOLOv5s是模型較小的同時(shí)精度較高的一個(gè),更適合輕量化的桃子檢測(cè),因此本文選取YOLOv5s模型作為基準(zhǔn)模型進(jìn)行改進(jìn)。YOLOv5s模型主要包括In?put、Backone、Neck以及Head這四個(gè)部分,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

      Input部分進(jìn)行圖像預(yù)處理,采用Mosaic數(shù)據(jù)增強(qiáng)、自動(dòng)計(jì)算錨框、自適應(yīng)圖片縮放等方法。Mosaic 數(shù)據(jù)增強(qiáng)選取多張圖片,采用隨機(jī)裁剪、隨機(jī)縮放、隨機(jī)排布的方式進(jìn)行圖像拼接,擴(kuò)張了檢測(cè)數(shù)據(jù)集,特別是很多小目標(biāo)被隨機(jī)縮放后,增加了樣本的多樣性,使得網(wǎng)絡(luò)模型更加魯棒。

      預(yù)處理之后的圖像再輸入到Backbone部分提取豐富的圖像特征,包括邊緣特征、紋理特征以及位置特征等。Backbone 主干網(wǎng)絡(luò)主要包括Focus 模塊、CSP模塊[11]以及SPP模塊[12]。其中Focus模塊的切片操作,將高分辨率的特征圖拆分成多個(gè)低分辨率的特征圖,然后拼接在一起,再經(jīng)過(guò)一次卷積,能夠減少計(jì)算量的同時(shí)降低內(nèi)存的使用量;而CSP模塊主要用于局部跨通道融合,將原輸入分成兩條處理線,分別進(jìn)行卷積操作,使得通道數(shù)縮減為原來(lái)一半,然后另外一條處理線進(jìn)行多個(gè)Bottleneck操作,然后拼接兩條處理線上的特征圖,使得輸入與輸出是一樣的大小,增強(qiáng)了網(wǎng)絡(luò)對(duì)特征的融合能力;SPP模塊是空間金字塔池化層,采用統(tǒng)一的步長(zhǎng)但不同尺寸的卷積核實(shí)現(xiàn),統(tǒng)一步長(zhǎng)代表輸出的特征圖尺寸一樣,再通過(guò)concate按通道拼接后用1×1卷積,實(shí)現(xiàn)特征融合,可以進(jìn)一步提高檢測(cè)精度;CBL模塊是由卷積層(Conv) 、歸一化層(BN) 、激活函數(shù)SiLu構(gòu)成,主要作用是可以從深層和淺層特征圖中提取上下文信息。

      Neck部分主要包含F(xiàn)PN和PAN結(jié)構(gòu),其中FPN 結(jié)構(gòu)通過(guò)自頂向下進(jìn)行上采樣,將高層的語(yǔ)義信息帶給底層的特征圖,而PAN結(jié)構(gòu)自底向上進(jìn)行下采樣,將底層的位置信息帶給高層的特征圖,然后將高層和底層的特征圖進(jìn)行拼接,使得更強(qiáng)的語(yǔ)義信息和位置信息被不同尺度的特征圖所包含,增強(qiáng)了網(wǎng)絡(luò)的特征提取能力。

      Head部分對(duì)獲取到的三種不同尺度特征圖像,預(yù)測(cè)類別概率、置信度以及預(yù)測(cè)框進(jìn)行損失函數(shù)的計(jì)算,同時(shí)采用非極大值抑制預(yù)測(cè)置信度較高的預(yù)測(cè)框。其中,三種尺度分別是20×20、40×40、80×80,采用的損失函數(shù)是GIOU_Loss[13]。

      3 YOLOv5s 算法改進(jìn)

      3.1 主干網(wǎng)絡(luò)的改進(jìn)

      YOLOv5s是多目標(biāo)檢測(cè)模型,而本文所研究的桃子檢測(cè)僅對(duì)桃子這一類目標(biāo)進(jìn)行檢測(cè),使得原始模型存在一定的參數(shù)冗余,而且目前大多數(shù)采摘機(jī)器人上安裝的嵌入式設(shè)備用于部署目標(biāo)檢測(cè)模型,其計(jì)算和存儲(chǔ)資源有限,因此有必要對(duì)模型進(jìn)行輕量化的改進(jìn)。

      MobileNet網(wǎng)絡(luò)是Google針對(duì)手機(jī)等嵌入式設(shè)備提出的一種輕量的深層神經(jīng)網(wǎng)絡(luò),采用可分離的卷積以及反向殘差結(jié)構(gòu)的思想進(jìn)行模型構(gòu)建[14],在模型延遲和準(zhǔn)確率中尋找平衡點(diǎn),具有模型小和性能優(yōu)等特點(diǎn)??煞蛛x卷積由深度卷積和逐點(diǎn)卷積構(gòu)成,深度卷積為每個(gè)數(shù)據(jù)的輸入通道設(shè)置不同尺寸的卷積核,逐點(diǎn)卷積為每個(gè)數(shù)據(jù)設(shè)置尺寸為1的固定卷積核。兩種類型的卷積結(jié)合后相當(dāng)于一個(gè)標(biāo)準(zhǔn)的卷積,但是大大降低了參數(shù)數(shù)量以及運(yùn)算量。然而對(duì)比其他的卷積神經(jīng)網(wǎng)絡(luò),MobileNet網(wǎng)絡(luò)模型的精度仍然存在提升的空間。

      MobileNetv3[15]是在MobileNetv2網(wǎng)絡(luò)的基礎(chǔ)上,融合了SE模塊[16]以及Swish激活函數(shù)構(gòu)成,其主干網(wǎng)絡(luò)Bneck結(jié)構(gòu)如下圖2所示,首先對(duì)輸入的特征利用一個(gè)1×1的卷積層進(jìn)行升維,擴(kuò)張通道數(shù)后進(jìn)行可分離卷積特征提取,再引入殘差結(jié)構(gòu)。MobileNetv3網(wǎng)絡(luò)會(huì)將提取到的圖像特征輸入到注意力SE模塊中,全局平均池化后再輸入到全連接層FC1,通道數(shù)縮減為原來(lái)的1/4,再經(jīng)過(guò)激活函數(shù)Relu,F(xiàn)C2將通道數(shù)擴(kuò)張回原來(lái)的大小,之后再接一個(gè)h-swish激活函數(shù),減少運(yùn)算量,提高性能。

      3.2 ECA 注意力機(jī)制

      基于深度學(xué)習(xí)的目標(biāo)檢測(cè)技術(shù)在計(jì)算機(jī)視覺(jué)領(lǐng)域已經(jīng)得到了廣泛應(yīng)用,然后面對(duì)復(fù)雜環(huán)境下的多尺度目標(biāo)檢測(cè)時(shí),仍然面臨著檢測(cè)精度不夠高、定位不夠準(zhǔn)確等問(wèn)題。目前,大部分是在檢測(cè)基準(zhǔn)模型上增強(qiáng)多尺度特征以及引入注意力機(jī)制模塊。

      MobileNetv3網(wǎng)絡(luò)模型中采用的是注意力機(jī)制中的SE模塊,通過(guò)兩個(gè)全連接層融合通道特征,該全連接層使得SE模塊不具備輕量級(jí),之后的特征降維使得通道與其預(yù)測(cè)權(quán)值沒(méi)有直接聯(lián)系,影響SE模塊的整體性能。

      ECA模塊是一種超輕量級(jí)的注意力模塊,其對(duì)SE 模塊進(jìn)行了一些改進(jìn),提出了一種不降維的局部跨通道融合方法,通過(guò)一維卷積高效地實(shí)現(xiàn)局部跨通道交互,提取通道間的依賴關(guān)系,適當(dāng)?shù)目缤ǖ澜换タ梢栽陲@著降低模型復(fù)雜度的同時(shí)保持性能,因此本文采用ECA模塊替換MobileNetv3中的SE模塊。

      4 實(shí)驗(yàn)結(jié)果與分析

      4.1 實(shí)驗(yàn)平臺(tái)

      本實(shí)驗(yàn)的平臺(tái)采用PyTorch1.8.1深度學(xué)習(xí)框架,計(jì)算機(jī)操作系統(tǒng)為ubuntu18.04,Python 版本為3.8,Cuda版本為11.1,CPU為7核的Intel(R) Xeon(R) CPUE5-2680 v4 @ 2.40GHz,內(nèi)存為16GB,GPU為NVIDIATITAN Xp,顯存大小為12GB。

      4.2 數(shù)據(jù)集準(zhǔn)備

      本文實(shí)驗(yàn)使用的數(shù)據(jù)集由兩部分組成。第一部分來(lái)自Fruit-360這個(gè)開(kāi)源數(shù)據(jù)集,這個(gè)數(shù)據(jù)集包括120種水果和蔬菜,其中每張圖像都是在實(shí)驗(yàn)室進(jìn)行采集,然后去除了背景,只剩下目標(biāo)物體,本文提取了其中Peach品種的桃子圖像,共計(jì)492張圖像。第二部分?jǐn)?shù)據(jù)集使用自建數(shù)據(jù)集,圖像來(lái)自于互聯(lián)網(wǎng),以桃子為關(guān)鍵詞進(jìn)行搜索獲得,經(jīng)過(guò)數(shù)據(jù)篩選,保留了629張圖像。這兩部分?jǐn)?shù)據(jù)集加起來(lái)一共1121張圖像,使用lableImg標(biāo)注圖像中的桃子目標(biāo)框,并以8:2 的比例將其分為訓(xùn)練集896張,驗(yàn)證集225張。

      4.3 訓(xùn)練參數(shù)設(shè)置

      本文采用YOLOv5s模型進(jìn)行訓(xùn)練,優(yōu)化器采用SGD,訓(xùn)練200輪迭代,批次大小設(shè)置為64,初始化學(xué)習(xí)率為0.01,采用mosaic進(jìn)行數(shù)據(jù)增強(qiáng)。

      4.4 評(píng)價(jià)指標(biāo)

      本文采用精確率(Precision) 、召回率(Recall) 、平均精度(Average Precision,AP) 這幾個(gè)指標(biāo)對(duì)模型進(jìn)行檢測(cè)精度評(píng)價(jià),精確率表示預(yù)測(cè)正樣本中真正的正樣本的比例,召回率表示預(yù)測(cè)正樣本中真正的正樣本占實(shí)際正樣本的比例,平均精度AP值是由召回率和精確率分別為橫坐標(biāo)和縱坐標(biāo)圍成的區(qū)域面積計(jì)算得來(lái)。其中,數(shù)值越大,模型的檢測(cè)精度越高。

      此外,采用以下兩方面指標(biāo)作為模型的性能評(píng)價(jià)指標(biāo),模型內(nèi)存占用量、每秒浮點(diǎn)運(yùn)算量(FloatingpointOperations Per Second,F(xiàn)LOPs) ,其中,數(shù)值越小,模型的運(yùn)行速度越快。

      4.5 實(shí)驗(yàn)結(jié)果分析

      本文方法在自建數(shù)據(jù)集上的訓(xùn)練精度曲線如圖5 所示,在經(jīng)過(guò)50輪迭代后訓(xùn)練精度曲線逐漸收斂,100 輪迭代后逐漸趨于穩(wěn)定,曲線沒(méi)有出現(xiàn)欠擬合或者過(guò)擬合的現(xiàn)象,訓(xùn)練精度較為理想。

      本文方法在自建數(shù)據(jù)集上訓(xùn)練200輪迭代后,得到模型的精確率為89.7%,召回率為85.5%,AP 為92.9%,檢測(cè)不同遮擋情況下的桃子目標(biāo)的效果如圖6 所示,其中檢測(cè)框上方顯示目標(biāo)名稱以及置信度,圖中不同遮擋和大小的桃子目標(biāo)都可準(zhǔn)確檢測(cè)到,表明該算法能夠在復(fù)雜環(huán)境下有效地檢測(cè)出桃子目標(biāo),適用于果園這種枝葉遮擋、果實(shí)重疊遮擋、光照復(fù)雜的環(huán)境。

      為了評(píng)價(jià)MobileNetv3替換YOLOv5s主干網(wǎng)絡(luò)的性能提升效果,表1中對(duì)比了這兩個(gè)網(wǎng)絡(luò)模型的各項(xiàng)評(píng)價(jià)指標(biāo),從中可以發(fā)現(xiàn),改進(jìn)后的模型內(nèi)存占用量大大降低了,從原來(lái)的14.5MB降到了3.2MB,每秒浮點(diǎn)運(yùn)算量從原來(lái)的15.8GFLOPs降到了2.3GFLOPs,但是損失了一點(diǎn)精度,精確率降低了0.8%,召回率降低了3%,AP降低了0.6%。

      為了評(píng)價(jià)ECA模塊對(duì)于本文網(wǎng)絡(luò)(YOLOv5s+Mo?bileNetv3,即用MobileNetv3 替換YOLOv5s 中的主干網(wǎng)絡(luò))的提升效果,分別基于SE、CA、ECA、CBAM注意力機(jī)制對(duì)網(wǎng)絡(luò)進(jìn)行改進(jìn),并且進(jìn)行訓(xùn)練,然后對(duì)以上4 種注意力機(jī)制進(jìn)行評(píng)估,如表2所示。其中,ECA模塊的模型內(nèi)存占用量最低,從SE模塊的3.2MB降到了2.3MB,同時(shí)精確率、召回率、AP是4種注意力機(jī)制中最高的,在SE模塊的基礎(chǔ)上都有一點(diǎn)提升,分別從精確度89%、召回率86.7%提高到89.7%、87.5%,實(shí)驗(yàn)表明使用ECA模塊替換SE模塊是有效的。

      綜合考慮桃子檢測(cè)模型的檢測(cè)精度和性能,相比改進(jìn)前的YOLOv5s模型,本文的模型更加適用于嵌入式平臺(tái)上的桃子模型部署,在保證精度的前提下?lián)碛休^高的檢測(cè)性能。

      5 結(jié)論

      本文提出了一種基于改進(jìn)YOLOv5s的輕量級(jí)桃子檢測(cè)算法,首先選用輕量級(jí)的卷積神經(jīng)網(wǎng)絡(luò)模型MobileNetv3替換YOLOv5s中的主干網(wǎng)絡(luò),在保持高精度的同時(shí),降低網(wǎng)絡(luò)模型大小,加快檢測(cè)速度;其次對(duì)比4種類型注意力機(jī)制模塊對(duì)模型性能的影響,選擇性能最優(yōu)的ECA模塊替換MobileNetv3中的SE模塊,提高通道信息的融合效率,進(jìn)而提高網(wǎng)絡(luò)模型的檢測(cè)精度以及性能。實(shí)驗(yàn)表明,本文所提出的桃子檢測(cè)算法與YOLOv5s相比,模型內(nèi)存占用量從14.5MB 降到了2.3MB,只有原來(lái)的15.8%,模型計(jì)算量GFLOPs從原來(lái)的15.8降到了1.9,只有原來(lái)的12%,而精度上損失一點(diǎn),精確率從原來(lái)的89.8%降低到89.7%,降低了0.1%,召回率從原來(lái)的89.7%降低到87.5%,降低了2.2%,AP從原來(lái)的93.5%降低到92.9%降低了0.6%,比起模型內(nèi)存占用量和計(jì)算量上的性能提升,這點(diǎn)精度上損失要小很多,更適合移植到嵌入式系統(tǒng)中。

      猜你喜歡
      注意力機(jī)制輕量化
      汽車輕量化集成制造專題主編
      四點(diǎn)接觸球轉(zhuǎn)盤軸承的輕量化材料應(yīng)用
      哈爾濱軸承(2020年4期)2020-03-17 08:13:52
      面向短文本的網(wǎng)絡(luò)輿情話題
      基于自注意力與動(dòng)態(tài)路由的文本建模方法
      基于深度學(xué)習(xí)的問(wèn)題回答技術(shù)研究
      一種輕量化自卸半掛車結(jié)構(gòu)設(shè)計(jì)
      基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
      基于注意力機(jī)制的雙向LSTM模型在中文商品評(píng)論情感分類中的研究
      軟件工程(2017年11期)2018-01-05 08:06:09
      InsunKBQA:一個(gè)基于知識(shí)庫(kù)的問(wèn)答系統(tǒng)
      425輕量化橋軸承座工藝改進(jìn)
      莱阳市| 临泽县| 长泰县| 嘉义县| 青冈县| 陇川县| 饶平县| 称多县| 雷山县| 荔波县| 舟曲县| 富川| 福海县| 林芝县| 铜川市| 乃东县| 江津市| 吉首市| 仁化县| 丰城市| 句容市| 襄垣县| 云霄县| 宁武县| 尉犁县| 兴安县| 东至县| 浑源县| 蛟河市| 万山特区| 湘潭市| 承德县| 盐池县| 黄石市| 锡林浩特市| 西吉县| 莎车县| 昆山市| 北京市| 当涂县| 绿春县|