趙明巖,吳順海,李一欣,左銀華
(中國計量大學(xué)機(jī)電工程學(xué)院,杭州 310018)
黑皮雞樅菌是一種高蛋白食用菌,具有較高的營養(yǎng)價值和較好的生物活性[1]。伴隨其種植規(guī)模日趨擴(kuò)大,傳統(tǒng)手工采摘勞動強度大、效率低等問題愈發(fā)凸顯。隨著圖像識別分析領(lǐng)域算法的不斷迭代優(yōu)化,傳統(tǒng)農(nóng)業(yè)通過與信息技術(shù)產(chǎn)業(yè)深度結(jié)合不斷朝信息自動化發(fā)展,農(nóng)業(yè)領(lǐng)域中結(jié)合深度學(xué)習(xí)的應(yīng)用也越來越廣泛,例如農(nóng)產(chǎn)品目標(biāo)檢測、生長環(huán)境監(jiān)測、作物病害檢測等[2]。目前針對常見的球形農(nóng)產(chǎn)品,例如番茄,蘋果等目標(biāo)檢測方法研究較為廣泛[3-5],但以黑皮雞樅菌為對象的目標(biāo)檢測方法相關(guān)文獻(xiàn)較少。由于雞樅菌種植環(huán)境復(fù)雜,如光線陰暗變化多樣、土壤與菌菇辨識度較低、生長分布較為密集、遮擋情況嚴(yán)重等[6],導(dǎo)致模型檢測精度不高,增加了檢測難度。因此研究高效精準(zhǔn)的雞樅菌檢測方法,為雞樅菌機(jī)器人采摘系統(tǒng)提供技術(shù)支持,對提高采摘效率,降低采摘成本,實現(xiàn)雞樅菌規(guī)模化、標(biāo)準(zhǔn)化種植具有重要意義。
相較于傳統(tǒng)機(jī)器視覺方法,深度學(xué)習(xí)方法通過網(wǎng)絡(luò)提取特征,進(jìn)行模型訓(xùn)練及網(wǎng)絡(luò)算法優(yōu)化提升檢測性能,在目標(biāo)檢測方面具有很大優(yōu)勢。常見目標(biāo)檢測網(wǎng)絡(luò)有Fast-RCNN[7]、SSD[8]、YOLO[9]、Faster-RCNN[10]等。曹景軍[11]提出了一種多模態(tài)注意力融合網(wǎng)絡(luò),通過同時向網(wǎng)絡(luò)中兩個通道輸入雙孢菇可見光圖像與深度圖像,通過融合多個模態(tài)之間的特征圖來獲取更多特征信息,目標(biāo)平均精度值為81.5%。王映龍等[12]提出一種基于深度相機(jī)的黑皮雞樅菌子實體在線監(jiān)測方法,基于YOLOv4建立檢測模型,使用K-means 算法進(jìn)行分割獲取最優(yōu)處理區(qū)域后構(gòu)建子實體圖像,融合Grab 算法提取測量點信息,根據(jù)深度值進(jìn)行矯正獲取真實值。CONG等[13]在YOLOv3 基礎(chǔ)上提出一種輕量級香菇檢測模型,構(gòu)建了一個輕量級的GhostNet16 代替DarkNet53 作為主干網(wǎng)絡(luò),并在頸部網(wǎng)絡(luò)設(shè)計使用了自適應(yīng)空間特征金字塔網(wǎng)絡(luò)ASA-FPN(adaptive spatial feature pyramid network)增加網(wǎng)絡(luò)精度,最終平均精度均值達(dá)到97.03%。WANG等[14]提出一種DSE-YOLO(detail-semantics enhancement you only look once)網(wǎng)絡(luò)檢測多級草莓,利用點向卷積和擴(kuò)展卷積提取水平和垂直維度上的各種細(xì)節(jié)和語義特征來提高檢測性能,結(jié)果顯示平均精度均值達(dá)到86.58%。CHEN等[15]提出了一種果園開花水平估計方法,通過增加坐標(biāo)注意力層和小目標(biāo)檢測層以及將模型頸部替換為雙向特征金字塔網(wǎng)絡(luò)(BiFPN)結(jié)構(gòu),提高檢測器對蘋果花不同生長階段的檢測性能,經(jīng)過訓(xùn)練的蘋果花探測器平均精度均值達(dá)到77.5 %。WANG等[16]提出了一種輕量級SSD 目標(biāo)檢測方法,通過Peleenet 網(wǎng)絡(luò)替換VGG16 作為主干網(wǎng)絡(luò)從之前層中獲取額外的輸入,為后續(xù)的所有層提供自身的特征圖,同時在密集模塊中添加了協(xié)調(diào)注意力模塊和全局注意力機(jī)制,有助于模型更好識別定位檢測目標(biāo),改進(jìn)后的算法檢測平均精度均值為97.32%。
上述方法在農(nóng)業(yè)檢測領(lǐng)域已取得了一定進(jìn)展,但其涉及到的遮擋問題通常為不同類間的遮擋,例如果實與綠葉之間相互遮擋;或者未針對類間遮擋問題進(jìn)行專門研究。而種植環(huán)境下的雞樅菌往往是同類間的遮擋,相互遮擋的目標(biāo)之間特征相似,難以通過增加樣本數(shù)量方法來優(yōu)化檢測效果,檢測器容易誤檢錯檢。同時需解決樣本與背景、陰影顏色特征相近不易分割的問題。針對上述問題,本文提出一種基于改進(jìn)YOLOv5s 的目標(biāo)檢測方法,通過在骨干網(wǎng)絡(luò)中添加RFBSE(receptive field block squeeze and excitation)模塊并施加通道注意力機(jī)制、設(shè)計雙分支卷積池化DCSPP(double conv spatial pyramid pooling)模塊進(jìn)行多重采樣、在頸部網(wǎng)絡(luò)使用遞歸金字塔RFP[17](recursive feature pyramid)結(jié)構(gòu)增強語義信息等手段,嘗試解決同類遮擋及背景干擾等問題,以期為密集遮擋情況下菌類檢測提供參考。
圖像數(shù)據(jù)來源于福建省屏南縣黑皮雞樅菌養(yǎng)殖基地。采樣設(shè)備為手機(jī)相機(jī)和Astra Pro 相機(jī)及配套Win11 系統(tǒng)的計算機(jī)設(shè)備。對不同角度(俯視、平視和斜視)和不同光線(正常光和弱光)下的黑皮雞樅菌圖像進(jìn)行采集,同時重點考慮黑皮雞樅菌之間的遮擋情況,采集了無遮擋、部分遮擋和遮擋嚴(yán)重三種情況下的圖像,確保采集數(shù)據(jù)的多樣性。圖1 為不同遮擋情況下的圖像。最終所采集圖像共計876 副,如表1 所示。
表1 數(shù)據(jù)集圖像構(gòu)成Table 1 Image composition of dataset
圖1 不同角度遮擋下的黑皮雞樅菌圖像Fig.1 The image of termitomyces nigricans under different angles and occlusion conditions
將采集到的圖像以8∶1∶1 比例劃分為訓(xùn)練集、驗證集、測試集。使用LabelImg 對數(shù)據(jù)集進(jìn)行標(biāo)注,制作標(biāo)簽文件,Label 文件格式為YOLO 格式。數(shù)據(jù)集采集時的圖片分辨率不等,而目標(biāo)檢測網(wǎng)絡(luò)需要固定分辨率的圖像作為輸入,經(jīng)裁剪分割后將分辨率為640×640 像素的圖像作為YOLOv5s 模型的輸入。為防止圖像過擬合,豐富數(shù)據(jù)集,需要對數(shù)據(jù)集圖像進(jìn)行數(shù)據(jù)增強,具體為:HSV 增強圖像698 副、仿射變換圖像698 副、Mixup 增強圖像349 副、Mosaic 增強圖像174 副。增強后的圖像加上原始圖像,最終數(shù)據(jù)集圖像共2 795 副。數(shù)據(jù)增強效果如圖2 所示。
圖2 數(shù)據(jù)增強Fig.2 Data enhancement
1.2.1 改進(jìn)YOLOv5s 模型
YOLOv5s 網(wǎng)絡(luò)結(jié)構(gòu)可分為輸入端(input)、特征提取網(wǎng)絡(luò)(backbone)、特征融合網(wǎng)絡(luò)(neck)、輸出檢測頭(prediction head)。其中輸入端包括一些圖像預(yù)處理方式和錨框生成機(jī)制優(yōu)化策略;backbone 結(jié)構(gòu)中采用CSP-Darknet53 網(wǎng)絡(luò)結(jié)構(gòu)自下而上提取特征,并使用C3模塊代替BottleneckCSP 模塊,兩者均為CSP[18]結(jié)構(gòu)。C3 模塊的修正單元由n個Bottleneck 模塊和3個標(biāo)準(zhǔn)卷積層組成,并剔除Bottleneck 模塊輸出后的下一個Conv模塊;neck 結(jié)構(gòu)中是在FPN[19](feature pyramid networks)結(jié)構(gòu)的基礎(chǔ)上再添加了一個自下而上的PAN(bottom-up path aggregation)結(jié)構(gòu)進(jìn)行特征提取和聚合,實現(xiàn)特征層之間的雙向融合;在head 結(jié)構(gòu)中分別以3個不同尺寸的分支輸出目標(biāo)邊界框信息與類別信息[20-21]。本文基于YOLOv5s 網(wǎng)絡(luò)提取多尺度特征,在骨干網(wǎng)絡(luò)中添加RFBSE 模塊,設(shè)計DCSPP 模塊進(jìn)行池化采樣,并在頸部網(wǎng)絡(luò)中使用遞歸特征金字塔RFP 結(jié)構(gòu)。改進(jìn)后的網(wǎng)絡(luò)在輸入端經(jīng)過錨框生成機(jī)制優(yōu)化策略后,經(jīng)過backbone網(wǎng)絡(luò)進(jìn)行特征提取,通過該路徑將生成的[P1,P2,P3]特征層添加到頸部網(wǎng)絡(luò)中,經(jīng)過一輪特征提取融合后,將反饋信息[P3,P4,P5]融合回基準(zhǔn)網(wǎng)絡(luò)進(jìn)行遞歸計算,迭代完成輸出特征傳遞給PANet[22]進(jìn)行特征聚合。為防止低層語義信息丟失,將[P3,P4]兩個特征層跨階段連接至網(wǎng)絡(luò)深層。最后將三個不同尺度的特征圖輸入到檢測頭中,經(jīng)過損失計算及NMS 非極大值抑制后輸出目標(biāo)的類別和邊界框等信息[23]。
1.2.2 改進(jìn)CSP-Darknet53 網(wǎng)絡(luò)結(jié)構(gòu)
YOLOv5s 模型所使用的骨干網(wǎng)絡(luò)為CSP-Darknet53網(wǎng)絡(luò)。在網(wǎng)絡(luò)特征提取過程中感受野非常重要,但不同像素點對神經(jīng)節(jié)點的輸出貢獻(xiàn)并不一致。在前向傳播過程中,中心像素?fù)碛懈嗦窂綄⑵渌畔鬟f給神經(jīng)節(jié)點,同樣反向傳播過程中中心像素也能夠獲取更多的梯度,這就導(dǎo)致無法有效完整獲取特征圖中所包含的特征信息,丟失一些關(guān)鍵細(xì)節(jié)[24]。對于黑皮雞樅菌而言,其顏色特征與陰影、土壤相似,需要更加關(guān)注空間信息例如邊緣、紋理等。因此本文移除原骨干網(wǎng)絡(luò)中第8 層的C3 模塊后再添加RFBSE 模塊,降低網(wǎng)絡(luò)深度避免過擬合。RFBSE 模塊由RFB[25]模塊和SE[26]模塊組合而成,群體感受野pRF(population receptive field)是視網(wǎng)膜離心度的函數(shù)[27],隨著視網(wǎng)膜離心率增加而增加。而RFB模塊中多個分支在卷積核擴(kuò)大的同時,rate 參數(shù)的增加使得離心率也不斷增加,這樣可通過模擬人類感受野[28]使網(wǎng)絡(luò)突出邊緣特征,更加重點關(guān)注黑皮雞樅菌樣本區(qū)域。SE 通道注意力機(jī)制能獲取不同通道間的權(quán)重,自適應(yīng)校準(zhǔn)通道特征響應(yīng)。對包含黑皮雞樅菌重要特征信息的通道施加更多關(guān)注,從而加強網(wǎng)絡(luò)特征表示能力。
RFBSE 模塊結(jié)構(gòu)如圖3 所示,當(dāng)上一層特征層輸入時,經(jīng)過一個標(biāo)準(zhǔn)1×1 卷積層減少通道數(shù)量。然后對輸入特征圖進(jìn)行多分支劃分,每個分支擁有相同通道數(shù),分別經(jīng)過不同卷積核大小的標(biāo)準(zhǔn)卷積和不同rate 的空洞卷積。卷積完成后將所有分支拼接在一起,經(jīng)過一個1×1 標(biāo)準(zhǔn)卷積層降低通道數(shù),輸出的特征圖維度為H×W×C。隨后進(jìn)入SE 模塊,在SE 壓縮模塊中通過全局平均池化將維數(shù)壓縮至1×1×C,融入全連接層后預(yù)測不同通道重要程度,將歸一化權(quán)重激勵到原特征圖通道生成加權(quán)后的特征層作為下一層網(wǎng)絡(luò)輸入。
圖3 RFBSE 模塊結(jié)構(gòu)Fig.3 RFBSE module structure
1.2.3 空間金字塔池化設(shè)計
空間金字塔池化[29](spatial pyramid pooling)模塊將圖像分割成多個尺度的子區(qū)域,然后在每個子區(qū)域上進(jìn)行池化操作,從而獲得不同尺度的特征。將這些特征拼接起來形成一個完整的特征向量,能實現(xiàn)多重感受野融合。本文提出的DCSPP 模塊,相較于SPPF 模塊直接通過一個卷積層降維后進(jìn)行池化操作,該模塊通過不同尺度的卷積核獲得更大感受野信息,從而更好地捕獲圖像的空間特征。對于給定的特征層,先將該特征層分別經(jīng)過1×1 標(biāo)準(zhǔn)卷積層和5×5 標(biāo)準(zhǔn)卷積層獲得更大的采樣覆蓋率,使更高層的語義信息被提取。這兩個卷積層的通道數(shù)均為輸入層通道數(shù)目一半,將兩個分支的輸出信息進(jìn)行拼接融合,經(jīng)過四種不同尺度的池化操作,卷積核分別為1、5、9、13。通過拼接操作使局部特征與全局特征相互融合,豐富特征層的表達(dá)能力[30]。再經(jīng)過1×1標(biāo)準(zhǔn)卷積層將通道數(shù)降低為下一層所需要求輸出,DCSPP 結(jié)構(gòu)如圖4 所示。
圖4 DCSPP 模塊結(jié)構(gòu)Fig.4 DCSPP module structure
1.2.4 特征聚合網(wǎng)絡(luò)改進(jìn)
圖像特征表示中不變性代表圖像中的高級語義信息,位于高級特征,等變性代表位置與尺度信息,位于低級特征[31]。黑皮雞樅菌檢測任務(wù)中,網(wǎng)絡(luò)除了學(xué)習(xí)高級語義信息進(jìn)行分類,還需要辨別該物體位置和尺度的變化。在種植環(huán)境下,黑皮雞樅菌存在樣本分布密集、相互遮擋嚴(yán)重等問題。被遮擋樣本附近的上下文信息是解決類間遮擋問題的關(guān)鍵,為更加有效的將不同階段特征融合,獲取更多關(guān)鍵語義信息以抑制遮擋問題,本文使用遞歸特征金字塔RFP 結(jié)構(gòu),能夠添加額外反饋信息傳遞回主干網(wǎng)絡(luò)。將整個網(wǎng)絡(luò)模型中第一個卷積層計為第0 層,輸入的圖片經(jīng)過改進(jìn)的CSP-Darknet53 網(wǎng)絡(luò)后,通過FPN 結(jié)構(gòu)將得到的高級特征與低級特征融合,提高網(wǎng)絡(luò)對圖片特征不變性和等變性的學(xué)習(xí)。再將FPN 結(jié)構(gòu)中所抽取的多個特征層作為反饋信息重新添加進(jìn)CSPDarknet53 網(wǎng)絡(luò)進(jìn)行遞歸計算,再次遍歷完成后輸入到PAnet 中。使同一張圖片被主干網(wǎng)絡(luò)關(guān)注兩次,提高網(wǎng)絡(luò)對黑皮雞樅菌端蓋、菌柄、開傘等重要特征的注意。使其學(xué)習(xí)對應(yīng)關(guān)系有選擇的增強或抑制神經(jīng)元激活,從而對特征提取過程進(jìn)行修正,增強被遮擋樣本附近的上下文信息。使網(wǎng)絡(luò)促進(jìn)語義特征方面信息的傳遞,提高其抗干擾性,解決黑皮雞樅菌種植環(huán)境下樣本密集相互遮擋誤檢、錯檢問題。
將CSP-Darknet53 網(wǎng)絡(luò)中每個殘差階段的Conv 層與反饋信息融合起來,通過1×1 標(biāo)準(zhǔn)卷積層將通道數(shù)降低一半。分別將第9、13、17 層網(wǎng)絡(luò)所輸出的反饋信息添加融合進(jìn)改進(jìn)后CSP-Darknet53 網(wǎng)絡(luò)中,額外添加反饋信息的主干網(wǎng)絡(luò)融合結(jié)構(gòu)如圖5 所示:
圖5 反饋信息融合結(jié)構(gòu)Fig.5 Feedback information fusion structure
FPN 結(jié)構(gòu)中最后一層所輸出的反饋特征層1 與CSPDarknet53 網(wǎng)絡(luò)中第1個殘差模塊的輸出進(jìn)行反饋連接;
CSP-Darknet53 網(wǎng)絡(luò)中第2個殘差模塊的輸出與FPN結(jié)構(gòu)中經(jīng)過第一個C3 模塊的反饋特征層2 進(jìn)行反饋連接;
CSP-Darknet53 網(wǎng)絡(luò)中第3個殘差模塊的輸出與DCSPP 模塊輸出的反饋特征層3 進(jìn)行反饋連接。
此時將遞歸完成后的特征信息再輸入到PA-net 結(jié)構(gòu)中。為避免網(wǎng)絡(luò)層數(shù)過深導(dǎo)致原本圖片所含細(xì)節(jié)信息丟失,將第9、13 層的特征層分別與第33、36 層網(wǎng)絡(luò)輸出特征層跨階段拼接到一起,通過重復(fù)加權(quán)實現(xiàn)雙向融合,能夠較好保留原有特征并加強特征重用,最終整體網(wǎng)絡(luò)結(jié)構(gòu)如圖6 所示。
圖6 改進(jìn)YOLOv5s 網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Improved YOLOv5s network architecture
1.2.5 損失函數(shù)改進(jìn)
YOLOv5s 的損失函數(shù)計算式如下:
式中λ1、λ2、λ3分別為平衡系數(shù),Lobj為置信度損失,通過置信度來表示預(yù)測框的可信程度,篩選可能存在目標(biāo)的預(yù)測框。Lloc為定位損失,用于計算預(yù)測框與真實框之間的重疊程度。Lcls為分類損失,用于判斷預(yù)測框類別與標(biāo)簽類別是否一致。
定位損失函數(shù)使用的是CIoU邊界框損失函數(shù),該函數(shù)同時考慮到了邊界框回歸時的重疊面積、中心距離和縱橫比,計算式如下:
式中IoU為真實框與預(yù)測框之間的交并比,b為預(yù)測框的中心坐標(biāo),bgt為真實框的中心坐標(biāo),c為預(yù)測框與真實框最小外接框的對角線長度,ρ為歐氏距離,α為權(quán)重函數(shù),v為縱橫比度量函數(shù),wgt、hgt分別為真實框的寬高,cw、ch分別最小外接框的寬高。CIoU中縱橫比使用的是相對值,無法保證其精度,同時也未考慮難易樣本的平衡問題。通過引入邊界框損失函數(shù)EIoU[32]來解決這個問題,EIoU在CIoU的基礎(chǔ)上將縱橫比轉(zhuǎn)化為預(yù)測框?qū)捀吲c最小外接框的差值,同時使用Focal Loss[32]函數(shù)作為解決難易樣本類別不平衡的交叉熵?fù)p失函數(shù),計算式如下:
式中LIoU為交并比損失,Ldis為距離損失,Lasp為邊長損失,w、h分別為預(yù)測框的寬高,αt為權(quán)重因子,(1-pt)γ為調(diào)制因子,γ為控制曲線弧度的平衡參數(shù),pt反應(yīng)了與正確類別的接近程度。
模型使用Pytorch 深度學(xué)習(xí)框架進(jìn)行網(wǎng)絡(luò)訓(xùn)練,試驗平臺處理器型號為 Intel Core i7-11800H,顯卡型號為NVIDIA GTX3070。在Ubuntu 系統(tǒng)上部署了python3.9,cuda,cudnn 等深度學(xué)習(xí)環(huán)境。
本文使用遷移學(xué)習(xí)訓(xùn)練提高訓(xùn)練速度和精度,選擇隨機(jī)梯度下降法SGD 作為優(yōu)化器對網(wǎng)絡(luò)進(jìn)行優(yōu)化。初始學(xué)習(xí)率設(shè)置為0.015,權(quán)重衰退系數(shù)為0.001,每次訓(xùn)練抓取樣本批次大小設(shè)置為16,共迭代250個周期。
評價模型對于黑皮雞樅菌識別效果指標(biāo)主要包括精確率(precision,P)、召回率(recall,R)、平均精度(average precision,AP)和平均精度均值(mean average precision,mAP),計算式如下:
式中TP(true positive)為實際正類預(yù)測為正類的數(shù)量,即模型正確檢測的目標(biāo)數(shù)目;FN(false negative)為實際正類預(yù)測為負(fù)類的數(shù)量,即模型將目標(biāo)檢測為背景而漏檢的數(shù)目;FP(false positive)為實際負(fù)類預(yù)測為正類,即模型將背景檢測為目標(biāo)的數(shù)目;AP(i)表示為目標(biāo)P-R曲線面積;mAP 為所有目標(biāo)AP的平均值,可以反映模型對目標(biāo)的整體檢測性能。
2.3.1 模型訓(xùn)練結(jié)果
采用本文所提出的改進(jìn)YOLOv5s 模型對數(shù)據(jù)集進(jìn)行訓(xùn)練,訓(xùn)練過程損失函數(shù)曲線及結(jié)果如圖7 所示。
圖7 損失函數(shù)曲線圖Fig.7 Loss function graph
由圖7 可知,隨著迭代次數(shù)的增加,損失值呈下降趨勢,當(dāng)?shù)螖?shù)達(dá)到250 時,模型損失值不再有明顯下降,各項評價指標(biāo)也趨于穩(wěn)定。模型最終平均精度均值mAP 為90.8%,精確率為86.5%,召回率為84.8%,模型收斂。
2.3.2 模型訓(xùn)練結(jié)果
本文以YOLOv5s 作為基準(zhǔn)網(wǎng)絡(luò),添加了RFBSE 視覺模塊、DCSPP 模塊、遞歸金字塔RFP 結(jié)構(gòu)特征聚合網(wǎng)絡(luò)及Focal-EIoU 損失函數(shù)。為研究各部分改進(jìn)對模型效果影響,分別在原網(wǎng)絡(luò)基礎(chǔ)上施加不同模塊進(jìn)行消融試驗以檢測各部分對模型改進(jìn)效果。試驗結(jié)果如表2。
表2 網(wǎng)絡(luò)消融試驗Table 2 Network ablation test
對比YOLOv5s 模型,僅添加RFBSE 模塊的改進(jìn)YOLOv5s 模型在召回率上提高最為明顯,達(dá)到5.9個百分點;采用DCSPP 模塊的模型分別在平均精度均值、精確率、召回率提高了0.4、2.4、0.2個百分點;采用遞歸金字塔結(jié)構(gòu)的模型在平均精度均值上提升最大,達(dá)到1.5個百分點,在精確率、召回率上分別提高0.7、2.4個百分點;Focal-EIoU 損失函數(shù)的引入進(jìn)一步提高了模型的精度。對上述結(jié)果進(jìn)行分析,RFBSE 模塊解決不同像素點權(quán)重信息傳遞問題,突出邊緣特征使得樣本與背景土壤更易區(qū)分,減少漏檢、少檢問題,對于召回率有著明顯的提升;DCSPP 模塊通過雙分支卷積實現(xiàn)不同采樣率,提高黑皮雞樅菌局部信息與全局信息的融合以提高精確率;采用遞歸金字塔特征聚合網(wǎng)絡(luò)結(jié)構(gòu)可有效提高平均精度均值,其原因在于,黑皮雞樅菌圖片經(jīng)過了兩次主干網(wǎng)絡(luò)進(jìn)行特征提取,并且受到來自FPN 網(wǎng)絡(luò)傳來的反饋信息對其進(jìn)行修正,其個體細(xì)節(jié)的抽象特征提取效果得到了提升,有助于在檢測過程中獲得更多語義信息,對遮擋現(xiàn)象的抗干擾性更強,加強密集情況下目標(biāo)樣本的檢測能力,因此整體識別效果得到了提升。
2.3.3 目標(biāo)檢測模型性能對比試驗
本試驗使用相同樣本劃分的數(shù)據(jù)集對當(dāng)前主流目標(biāo)檢測網(wǎng)絡(luò)進(jìn)行試驗對比,包括SSD、Faster R-CNN、YOLOv3-spp、YOLOv4、YOLOv5s、YOLOv5n、YOLOv5x以及本文改進(jìn)的 YOLOv5s 模型進(jìn)行訓(xùn)練,并進(jìn)行試驗對比,所得到的結(jié)果如表3 所示。
表3 不同網(wǎng)絡(luò)模型性能對比試驗Table 3 Performance comparison test of different network models
以兩幅黑皮雞樅菌圖像為例,展示不同角度下各模型與本文模型檢測效果,如圖8 所示。
圖8 不同模型檢測效果對比Fig.8 Comparison of different models detection effect
通過對比可以看出,本文模型具有較好的綜合檢測性能,在同類遮擋情況下也具有較好的檢測能力。在俯視角度下,原模型容易將同一樣本個體下的菌柄識別為菌蓋,導(dǎo)致將菌柄部分檢測為正樣本,并且少數(shù)邊界框生成質(zhì)量低于本文模型,無法準(zhǔn)確框出目標(biāo),同時對被遮擋目標(biāo)存在漏檢問題。本文模型能夠更加聚焦黑皮雞樅菌樣本及細(xì)節(jié)特征,同時通過反饋連接添加額外梯度使網(wǎng)絡(luò)獲得更多語義信息,使得對于密集環(huán)境下被遮擋樣本也能有效檢測,改善原YOLOv5s 模型檢測效果。
對試驗結(jié)果進(jìn)行分析可得:本文模型在平均精度均值,精確率和召回率上均高于其他模型,平均檢測速度較快,具有較好檢測性能。其中SSD 模型與Faster-RCNN 模型在各項指標(biāo)中均較低;與YOLOv3-spp 相比,本文模型在平均精度均值、精確率、召回率上分別提高了3.4、4.6、2.9個百分點;與YOLOv5s 相比,本文模型分別在平均精度均值、精確率、召回率上提高了2.7、3.8、3.9個百分點;YOLOv5n作為YOLOv5 系列中深度最小的網(wǎng)絡(luò),擁有最快的檢測速度,但損失了較大的檢測精度;與YOLOv5x 相比,本文模型分別在平均精度均值、精確率、召回率提高了2.6、1.2、1.2個百分點,但YOLOv5x作為YOLOv5 系列中最大的網(wǎng)絡(luò)模型,參數(shù)計算量數(shù)倍于YOLOv5s 模型,較慢的實時檢測速度難以應(yīng)用推廣,同時較高的硬件配置要求也是一個不利因素。
從訓(xùn)練結(jié)果來看,本文模型優(yōu)勢較為明顯,具有最高的平均精度均值,能夠提升黑皮雞樅菌特征提取識別能力。該目標(biāo)檢測網(wǎng)絡(luò)模型能有效實現(xiàn)雞樅菌精準(zhǔn)檢測。與其他算法相比,各項指標(biāo)均有較大提升,與原始YOLOv5s 相比,邊界框生成質(zhì)量以及對被遮擋目標(biāo)的檢測能力均較高,在保證檢測速度的情況下識別精度獲得較大提升。
2.3.4 模型特征可視化
目前,目標(biāo)檢測模型對物體進(jìn)行檢測的過程缺乏足夠的解釋性。通過Grad-GAM[33](gradient-weighted class activation mapping)繪制熱力圖與原圖疊加,可較為直觀展示網(wǎng)絡(luò)是否學(xué)習(xí)到關(guān)鍵特征。網(wǎng)絡(luò)經(jīng)過多層卷積后得到特征層與預(yù)測值,再通過反向傳播得到梯度信息并計算特征層中不同通道的權(quán)重,進(jìn)行加權(quán)求和后經(jīng)過激活函數(shù)輸出Grad-CAM。本研究將檢測頭前一層網(wǎng)絡(luò)輸出特征映射為輸入圖片尺寸,置信度閾值設(shè)置為0.6,與原圖疊加后效果如圖9 所示。
圖9 模型熱力圖可視化Fig.9 Visualization of model thermal diagram
由圖9 可知,Grad-CAM 可通過熱力圖的形式表現(xiàn)哪些區(qū)域的像素點對于模型輸出具有更大影響,顏色越亮,正向響應(yīng)度越高。對比原模型,本文改進(jìn)方法所生成的熱力圖更符合樣本真實情況,能夠更為準(zhǔn)確地關(guān)注到黑皮雞樅菌特征,對于對樣本有正影響的像素點激活區(qū)域更大,響應(yīng)程度更高,解釋了模型的檢測過程。
為進(jìn)一步驗證模型有效性,本文將改進(jìn)后的YOLOv5s 模型部署到試驗硬件平臺上。該平臺主要由6自由度機(jī)械臂、移動滑臺、采摘執(zhí)行末端、Astra S 深度相機(jī)等部件組成。末端執(zhí)行器采用氣動控制,執(zhí)行終端采用柔性材料,避免損傷黑皮雞樅菌。深度相機(jī)與機(jī)械臂基礎(chǔ)坐標(biāo)系位置固定[34],避免相機(jī)固定在機(jī)械手末端隨機(jī)械手同步運動,導(dǎo)致運算量增加。通過深度相機(jī)將采摘區(qū)域圖像傳遞給本文網(wǎng)絡(luò)模型后,生成黑皮雞樅菌目標(biāo)類別及錨框等信息,同時將目標(biāo)框中心像素坐標(biāo)經(jīng)由坐標(biāo)變換[35-36],獲取黑皮雞樅菌在機(jī)械臂基礎(chǔ)坐標(biāo)系中的坐標(biāo),如圖10 所示。
圖10 硬件平臺部署Fig.10 Hardware platform deployment
將本文算法模型部署到硬件平臺后,模擬種植環(huán)境對成熟黑皮雞樅菌進(jìn)行識別檢測試驗。系統(tǒng)啟動后,深度相機(jī)移動到指定地點獲取區(qū)域圖像。模型對圖像進(jìn)行類別判別并生成邊界框,通過深度相機(jī)拍攝所含深度信息及坐標(biāo)轉(zhuǎn)換計算黑皮雞樅菌空間位置,控制機(jī)械臂運動到指定位置,末端執(zhí)行器執(zhí)行采摘動作。經(jīng)過多次試驗檢測識別率達(dá)90%以上,驗證模型的有效性。部分檢測試驗結(jié)果如表4 所示。黑皮雞樅菌檢測可視化效果如圖11 所示。
表4 平臺檢測計數(shù)結(jié)果Table 4 Platform detection count results
圖11 可視化效果Fig.11 Visual effects
1)提出一種基于YOLOv5s 改進(jìn)的目標(biāo)檢測模型,通過引入RFBSE 視覺注意力模塊、雙分支卷積池化模塊、遞歸金字塔結(jié)構(gòu),改善復(fù)雜環(huán)境下雞樅菌樣本與背景近色不易分割的問題,提高對被遮擋目標(biāo)的檢測能力。通過部署硬件平臺進(jìn)行檢測試驗,驗證在不同環(huán)境、遮擋情況下模型有效性。結(jié)果證明模型在兼顧檢測速度與計算量情況下可提高模型檢測性能。
2)改進(jìn)YOLOv5s 算法模型平均精度均值mAP 為90.8%,精確率為86.5%,召回率為84.8%,與原模型YOLOv5s 相比,mAP、精確率、召回率分別提高了2.7、3.8、3.9個百分點,與其他算法相比也均有不同程度的提升。通過生成熱力圖驗證網(wǎng)絡(luò)是否準(zhǔn)確提取到所需特征,表明該模型適用于黑皮雞樅菌檢測。
3)設(shè)計了消融試驗,試驗結(jié)果表明,RFBSE 視覺模塊對于召回率提升較為明顯,對比原模型提高5.9個百分點;遞歸金字塔結(jié)構(gòu)可改善密集樣本下遮擋問題,提升整體目標(biāo)檢測性能,平均精度均值mAP 對比原模型提升1.5個百分點。