沈凌云,郎百和,宋正勛,3,溫智滔
基于CSE-YOLOv5的遙感圖像目標(biāo)檢測(cè)方法
沈凌云1,郎百和2,宋正勛2,3,溫智滔1
(1. 太原工業(yè)學(xué)院 電子工程系,山西 太原 030008;2. 長(zhǎng)春理工大學(xué) 電子信息工程學(xué)院,吉林 長(zhǎng)春 130022;3. 教育部學(xué)科創(chuàng)新引智基地(D17017),吉林 長(zhǎng)春 130022)
針對(duì)復(fù)雜任務(wù)場(chǎng)景中,目標(biāo)檢測(cè)存在的多尺度特征學(xué)習(xí)能力不足、檢測(cè)精度與模型參數(shù)量難以平衡的問題,提出一種基于CSE-YOLOv5(CBAM-SPPF-EIoU-YOLOv5,CSE-YOLOv5)模型的目標(biāo)檢測(cè)方法。模型以YOLOv5主干網(wǎng)絡(luò)框架為基礎(chǔ),在淺層引入卷積塊注意力機(jī)制層,以提高模型細(xì)化特征提取能力并抑制冗余信息干擾。在深層設(shè)計(jì)了串行結(jié)構(gòu)空間金字塔快速池化層,改進(jìn)了統(tǒng)計(jì)池化方法,實(shí)現(xiàn)了由淺入深地融合多尺度關(guān)鍵特征信息。此外,通過改進(jìn)損失函數(shù)與優(yōu)化錨框機(jī)制,進(jìn)一步增強(qiáng)多尺度特征學(xué)習(xí)能力。實(shí)驗(yàn)結(jié)果顯示,CSE-YOLOv5系列模型在公開數(shù)據(jù)集RSOD、DIOR和DOTA上表現(xiàn)出良好的性能。mAP@0.5的平均值分別為96.8%、92.0%和71.0%,而mAP@0.5:0.95的平均值分別為87.0%、78.5%和61.9%。此外,該模型的推理速度滿足實(shí)時(shí)性要求。與YOLOv5系列模型相比,CSE-YOLOv5模型的性能顯著提升,并且在與其他主流模型的比較中展現(xiàn)出更好的檢測(cè)效果。
遙感圖像;目標(biāo)檢測(cè);注意力機(jī)制;金字塔快速池化;多尺度目標(biāo)
目標(biāo)檢測(cè)是遙感圖像自動(dòng)分析與智能解譯的基礎(chǔ),主要目的在于從給定圖像中識(shí)別出預(yù)定義類別的目標(biāo),并精確回歸目標(biāo)實(shí)例的定位,如水平邊框(Horizontal Bounding Box)或有向邊框(Oriented Bounding Box),這有助于實(shí)現(xiàn)多目標(biāo)的快速準(zhǔn)確分類或跟蹤[1]。
2012年,AlexNet網(wǎng)絡(luò)在ImageNet大規(guī)模圖像識(shí)別賽中展現(xiàn)出卓越的特征表達(dá)與分類能力,基于CNN(Convolutional Neural Network)的目標(biāo)檢測(cè)方法開始受到學(xué)者關(guān)注。2014年Girshick[2]利用R-CNN(Region-based Convolutional Neural Network)生成目標(biāo)候選區(qū)域(Region Proposals),再利用SVM(Support Vector Machines)對(duì)特征矢量分類并定位目標(biāo)邊界。此后,基于CNN的數(shù)據(jù)處理因其出色的特征表達(dá)和泛化能力,逐漸成為遙感目標(biāo)檢測(cè)研究領(lǐng)域的主要趨勢(shì)[3]。根據(jù)分類和回歸過程,基于CNN的目標(biāo)檢測(cè)方法可劃分為兩類。第一類是基于目標(biāo)候選區(qū)域(Region Proposal-Based)檢測(cè)方法,代表方法有R-CNN[4]。第二類是基于回歸(Regression-Based)的檢測(cè)方法,代表方法有SSD(Single Shot MultiBox Detector)[5]、RetinaNet[6]、YOLO(You Only Look Once)[7]、RefineDet[8]等。
提高目標(biāo)檢測(cè)性能的改進(jìn)措施主要有:針對(duì)小目標(biāo)檢測(cè),主要通過增大目標(biāo)特征圖的尺度或加強(qiáng)特征融合。在深層網(wǎng)絡(luò)中采用上采樣方式,有效提高特征圖尺度[9]。將淺層的位置信息與深層的語義信息相結(jié)合,可增強(qiáng)特征融合能力[10]。此外,還有注意力機(jī)制與特征融合的方法[11]、特征嵌入[12]、特征遷移[13]等方法;針對(duì)多尺度目標(biāo)檢測(cè),改進(jìn)途徑主要是加強(qiáng)多尺度信息融合。如跨層連接的特征金字塔網(wǎng)絡(luò)[14];基于自注意力機(jī)制的Transformer模型;集成卷積塊注意力機(jī)制等[15]。針對(duì)密集目標(biāo)檢測(cè),主要從特征增強(qiáng)與精確定位入手。如設(shè)計(jì)特征細(xì)化模塊避免特征錯(cuò)位(Misalignment)[16];利用特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network, FPN)和路徑聚合網(wǎng)絡(luò)(Path Aggregation Network, PANet)集成不同層的特征圖,加強(qiáng)遙感小目標(biāo)像素特征提取[17];設(shè)計(jì)無監(jiān)督得分的邊界框回歸(Bounding Box Regression, BBR)算法,結(jié)合非最大抑制算法優(yōu)化目標(biāo)區(qū)域邊界框[18]。
YOLO系列算法在速度、精度、輕量化和擴(kuò)展性等方面各具優(yōu)勢(shì),因而在遙感目標(biāo)檢測(cè)領(lǐng)域備受關(guān)注。為提高小目標(biāo)或低分辨率目標(biāo)、多尺度、密集遮擋等的檢測(cè)性能,主要方法有:改善主干網(wǎng)絡(luò)特征迭代以增強(qiáng)特征提取[19];融合注意力機(jī)制,突出目標(biāo)特征權(quán)重[20];通過密集連接(Dense Connection)方式,增強(qiáng)層級(jí)之間的信息傳輸和共享,擴(kuò)大特征的重用范圍[21]等;優(yōu)化錨框機(jī)制[22]、損失函數(shù)[23];利用自適應(yīng)剪枝壓縮算法提高推理速度[24];改進(jìn)NMS(Non-Maximum Suppression)算法,優(yōu)化目標(biāo)區(qū)域篩選[13,25]等。
受此啟發(fā),我們?cè)诰哂休^好綜合性能的YOLOv5基礎(chǔ)上提出了CSE-YOLOv5遙感圖像目標(biāo)檢測(cè)方法。
CSE-YOLOv5的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,該模型的輸出特征尺寸分別為80×80、40×40和20×20。
圖1 CSE-YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)
1)針對(duì)YOLOv5主干網(wǎng)絡(luò)在目標(biāo)特征信息提取方面的不足,將卷積塊注意力模塊(Convolutional Block Attention Module,CBAM)應(yīng)用于主干網(wǎng)絡(luò)淺層,建立像素級(jí)的上下文信息關(guān)聯(lián),提取小目標(biāo)或低分辨率目標(biāo)特征,從而強(qiáng)化多尺度特征融合。
2)深層部分,設(shè)計(jì)一種串行結(jié)構(gòu)的空間金字塔快速池化(Spatial Pyramid Pooling-Fast, SPPF)層,用于融合不同分辨率的特征圖、在關(guān)鍵特征信息融合過程中減少參數(shù)量,提高推理速度。
3)改進(jìn)損失函數(shù)與錨框機(jī)制,設(shè)計(jì)EIoU_loss(Efficient IoU Loss)為預(yù)測(cè)框位置回歸損失函數(shù)(Position Regression Loss)。
卷積注意力CBAM結(jié)構(gòu),如圖2(a)所示。分別從通道和空間兩個(gè)維度進(jìn)行特征圖的注意力權(quán)值推斷,與初始特征圖進(jìn)行自適應(yīng)細(xì)化,輸出結(jié)果為增強(qiáng)的自適應(yīng)細(xì)化特征圖[26]。通過注意力互補(bǔ)機(jī)制以提高多尺度特征表達(dá),有利于遙感圖像小目標(biāo)或低分辨率目標(biāo)的檢測(cè)。
圖2 CSE-YOLOv5改進(jìn)模塊細(xì)節(jié)
多尺度表征法(Multiscale Representation)在提高多尺度目標(biāo)檢測(cè)性能方面具有顯著優(yōu)勢(shì)。針對(duì)遙感圖像目標(biāo)分布特點(diǎn),在主干網(wǎng)絡(luò)深層設(shè)計(jì)了串行結(jié)構(gòu)的SPPF。一方面,針對(duì)不同尺寸的特征圖,自適應(yīng)調(diào)整特征圖尺寸向量至固定值,避免圖像區(qū)域進(jìn)行Resize操作引起的失真,降低計(jì)算成本。另一方面,通過融合不同分辨率的特征圖為一致特征圖向量,實(shí)現(xiàn)局部特征與全局特征融合。
為實(shí)現(xiàn)空間金字塔池化(Spatial Pyramid Pooling, SPP)的快速計(jì)算,設(shè)計(jì)串行空間金字塔池化結(jié)構(gòu),如圖2(b)所示。將前池化層的輸出作為后續(xù)池化層的輸入,可以減少重復(fù)操作次數(shù)并提高網(wǎng)絡(luò)效率。通過重復(fù)利用各層運(yùn)算,有效避免冗余計(jì)算,從而將網(wǎng)絡(luò)計(jì)算專注于從輸入提取高級(jí)別特征。
池化方式上設(shè)計(jì)統(tǒng)計(jì)池化(Stochastic-Pooling)方式,通過平均池化(Average-Pooling)和最大池化(Max-Pooling)之間依概率選取元素,在平均情況下類似于平均池化,在局部信息的計(jì)算上遵循最大池化規(guī)則,可以避免過擬合。設(shè)特征f,其概率為:
式中:s為采樣窗。則依據(jù)概率進(jìn)行統(tǒng)計(jì)抽樣,統(tǒng)計(jì)池化輸出為:
式中:m表示采樣窗口尺寸;f表示采樣特征值;表示依概率p隨機(jī)選擇的特征概率值。
基于回歸的目標(biāo)檢測(cè)是對(duì)圖像中感興趣的目標(biāo)進(jìn)行預(yù)測(cè),包括已知類別和預(yù)測(cè)框(Predicted Bounding Box)位置,CSE-YOLOv5使用3個(gè)尺寸的錨框來預(yù)測(cè)每個(gè)特征圖中的目標(biāo)。由于遙感目標(biāo)在全局呈稀疏分布,而在局部呈稠密分布的特性,根據(jù)統(tǒng)計(jì)獨(dú)立性原理,僅考慮目標(biāo)空間點(diǎn)可能出現(xiàn)1~3個(gè)目標(biāo)的情況,若輸入圖像網(wǎng)格中存在待測(cè)目標(biāo),與網(wǎng)格預(yù)測(cè)框匹配的錨框數(shù)量在3~9個(gè)之間。
增加正樣本量有助于縮短模型訓(xùn)練時(shí)的收斂時(shí)間,錨框優(yōu)化原則為提高真實(shí)框(Ground Truth Box)位于一個(gè)或多個(gè)特征圖層所預(yù)測(cè)的有效正樣本數(shù)量。在訓(xùn)練階段,采用形狀匹配原則,分別計(jì)算9種不同的錨框?qū)捀弑?,如公?3)所示。若錨框?qū)捀弑刃∮谠O(shè)定閾值anchor(RSOD數(shù)據(jù)集的最優(yōu)超參數(shù)值為4.0),如公式(4)所示,預(yù)測(cè)框視為正樣本;否則,將其作為無目標(biāo)負(fù)樣本。
若真實(shí)框與3個(gè)不同尺寸的錨框都匹配,那么匹配的錨框均可生成預(yù)測(cè)框。此外,我們還進(jìn)一步改進(jìn)錨框機(jī)制,根據(jù)真實(shí)框的位置,將與預(yù)測(cè)框相鄰的網(wǎng)格(存在2~4個(gè))作為預(yù)測(cè)網(wǎng)格,以增加正樣本數(shù)量,降低漏檢概率。
式中:p與p分別為預(yù)測(cè)框的寬與高;a與a分別為錨框的寬與高。
max<anchor=4.0 (4)
根據(jù)RSOD數(shù)據(jù)集目標(biāo)框的統(tǒng)計(jì)特點(diǎn),我們采用K-Means結(jié)合遺傳算法(Genetic Algorithm,GA)對(duì)錨框尺寸優(yōu)化。輸入圖像為640×640,將維空間的歐氏距離(Euclidean Distance)轉(zhuǎn)換為二維平面數(shù)組距離,優(yōu)化后獲得9組錨框,尺寸參數(shù)分配如表1所示。
表1 基于不同聚類算法的RSOD數(shù)據(jù)集錨框參數(shù)
當(dāng)采樣率減小時(shí),特征圖的相對(duì)尺度會(huì)增大,感受野變小。采用小尺寸錨框,預(yù)測(cè)小目標(biāo)或低分辨率目標(biāo),從而提高檢測(cè)效果。反之,采樣率增大時(shí),應(yīng)采用大尺寸錨框來預(yù)測(cè)大目標(biāo)。
模型的損失函數(shù)設(shè)計(jì)包括:位置回歸損失函數(shù)、目標(biāo)置信度損失函數(shù)與目標(biāo)類別損失函數(shù)。
1.4.1 位置回歸損失函數(shù)
YOLOv5原模型采用CIoU_loss損失函數(shù),當(dāng)兩個(gè)或多個(gè)預(yù)測(cè)框的中心點(diǎn)與真實(shí)框的中心點(diǎn)以一定概率重合,且寬高比相等時(shí),位置損失函數(shù)將失效。
為了解決這個(gè)問題,將寬高比懲罰信息修改為寬、高邊長(zhǎng)懲罰信息,并重新定義高效交并比損失函數(shù)EIoU_Loss,如公式(5)所示。函數(shù)返回值為box_loss,數(shù)值越小、預(yù)測(cè)回歸的準(zhǔn)確性越高。
1.4.2 目標(biāo)置信度損失函數(shù)與目標(biāo)類別損失函數(shù)
利用二元交叉熵?fù)p失函數(shù)BCE With Logits Loss,可以分別計(jì)算目標(biāo)置信度損失函數(shù)與目標(biāo)類別損失函數(shù)。其中,目標(biāo)置信度損失函數(shù)返回值為obj_loss,值越小表示目標(biāo)檢測(cè)準(zhǔn)確性越高,如公式(6)所示;目標(biāo)類別損失函數(shù)返回值為cls_loss,其值越小意味著目標(biāo)分類越準(zhǔn)確,如公式(7)所示。
圖3 位置回歸損失函數(shù)的成本計(jì)算
式中:()=1/[1+exp(-)]為sigmoid函數(shù);表示樣本總數(shù),第樣本的類別表示為y,其預(yù)測(cè)概率表示為x。在模型測(cè)試階段,由于同一目標(biāo)可能存在多個(gè)相似的預(yù)測(cè)框,為了獲得最佳的預(yù)測(cè)邊界框并防止因圖像中目標(biāo)遮擋而導(dǎo)致漏檢,需要通過非極大抑制算法(NMS)過濾并篩選最佳預(yù)測(cè)框。
1.4.3 損失函數(shù)
損失函數(shù)由3部分組成:預(yù)測(cè)框位置回歸損失函數(shù)、目標(biāo)置信度損失函數(shù)和目標(biāo)類別損失函數(shù),計(jì)算分別如公式(5)、(6)、(7)所示,根據(jù)成本變化速率與損失值點(diǎn)梯度趨勢(shì),經(jīng)大量實(shí)驗(yàn)與調(diào)參,選擇優(yōu)化后的經(jīng)驗(yàn)權(quán)重值分別為0.05、1.0和0.5,損失函數(shù)如公式(8)所示:
loss=0.05×box_loss+1.0×obj_loss+0.5×cls_loss(8)
優(yōu)化后的損失函數(shù)增強(qiáng)了多尺度特征學(xué)習(xí)能力,提高模型的訓(xùn)練效果與檢測(cè)性能。
實(shí)驗(yàn)檢測(cè)基準(zhǔn)選擇,模型訓(xùn)練與測(cè)試分別采用RSOD數(shù)據(jù)集[18],DIOR數(shù)據(jù)集與DOTA數(shù)據(jù)集(v1.5)。其中,RSOD數(shù)據(jù)集由4類標(biāo)注目標(biāo)Aircraft、Oiltank、Overpass、Playground組成,包含936張標(biāo)注圖像與40張背景標(biāo)注圖像,實(shí)驗(yàn)將RSOD數(shù)據(jù)集按8:1:1比例隨機(jī)劃分為獨(dú)立的訓(xùn)練集、驗(yàn)證集以及測(cè)試集。
DIOR包含來自多種場(chǎng)景和視角的23463張圖像,涵蓋了20個(gè)不同的目標(biāo)類別和190288個(gè)目標(biāo)實(shí)例。隨機(jī)選取DIOR數(shù)據(jù)集圖像,其中訓(xùn)練集2170張,驗(yàn)證集和測(cè)試集各50張。
DOTA v1.5版本包含2806張遙感圖像,覆蓋了188種場(chǎng)景類別的16個(gè)目標(biāo)類別與近40萬個(gè)目標(biāo)(包括小于10個(gè)像素的小目標(biāo))。訓(xùn)練集、驗(yàn)證集和測(cè)試集的劃分比例為6:2:2,實(shí)驗(yàn)需要將數(shù)據(jù)集的有向邊框標(biāo)注數(shù)據(jù)格式轉(zhuǎn)化為水平邊框標(biāo)注格式。
1)精確率(Precision,)
精確率定義為分類預(yù)測(cè)為正的樣本中實(shí)際為正的樣本比率。如公式(9)所示:
式中:TP(Ture Positive)為真正,即實(shí)際為正被分類預(yù)測(cè)為正的樣本數(shù)量。FP(False Positive)為假正,即實(shí)際為負(fù)卻被分類預(yù)測(cè)為正的樣本數(shù)量。
2)召回率(Recall,)
召回率定義為實(shí)際為正的樣本中被分類預(yù)測(cè)為正的樣本比率。如公式(10)表示:
式中,F(xiàn)N(False Negative)為假負(fù),即實(shí)際為正卻被分類預(yù)測(cè)為負(fù)的樣本數(shù)量。
3)平均精度均值(mean Average Precision,mAP)
平均精度均值mAP表示各類目標(biāo)的平均精度的算術(shù)平均值。如公式(11)所示:
式中:AP表示第類目標(biāo)的平均分類精確率,其數(shù)值等于Precision-Recall函數(shù)與坐標(biāo)軸所覆蓋的面積。對(duì)于多目標(biāo)分類,各類別目標(biāo)的分類精度AP用其平均值mAP表示。IoU參數(shù)閾值為0.5時(shí)的平均精度均值表示為mAP@0.5;IoU閾值分別取0.5、0.55、0.6…0.95時(shí)對(duì)應(yīng)的mAP值,再取平均值得到mAP@ 0.5:0.95。
實(shí)驗(yàn)環(huán)境如表2所示。模型的訓(xùn)練超參數(shù)設(shè)置如表3所示。
表2 實(shí)驗(yàn)環(huán)境
表3 模型訓(xùn)練超參數(shù)設(shè)置
訓(xùn)練過程采用學(xué)習(xí)率衰減(Learning Rate Decay)方法,隨著訓(xùn)練迭代輪次(epochs)的增加,學(xué)習(xí)率逐漸減小,令模型訓(xùn)練過程更加穩(wěn)定。在最優(yōu)解處平穩(wěn)收斂,避免震蕩。圖4展示了CSE-YOLOv5s模型以及YOLOv3、YOLOv4、YOLOv5、YOLOv8和Faster R-CNN在訓(xùn)練集和驗(yàn)證集上隨著迭代(epochs)變化的損失函數(shù)曲線,計(jì)算如公式(8)所示。由圖可知,各損失函數(shù)的均值隨epoch次數(shù)而急劇減小。當(dāng)訓(xùn)練epoch接近200次時(shí),損失函數(shù)的均值趨于收斂。隨著迭代輪次增加,Precision、Recall及mAP@0.5值迅速提升并逐漸趨近于穩(wěn)定值,如圖5所示。
為了比較原模型YOLOv5s和改進(jìn)模型CSE-YOLOv5s在目標(biāo)檢測(cè)方面的表現(xiàn),我們?cè)谕唤M圖像上展示了兩種模型實(shí)驗(yàn)結(jié)果的對(duì)比示意圖,如圖6所示。通過圖中可以明顯觀察到,相較于YOLOv5s模型,CSE-YOLOv5s模型在漏檢和誤檢方面都有顯著改善,從而大幅提高了對(duì)多尺度目標(biāo)的檢測(cè)性能。
圖4 損失函數(shù)隨模型訓(xùn)練迭代變化曲線圖(RSOD)
圖5 RSOD數(shù)據(jù)集上精確率、召回率及平均精度均值(mAP@0.5)的迭代變化曲線圖
為了驗(yàn)證CBAM層、串行結(jié)構(gòu)SPPF層、損失函數(shù)EIoU(同時(shí)錨框機(jī)制優(yōu)化)對(duì)CSE-YOLOv5性能影響,我們?cè)赗SOD數(shù)據(jù)集上進(jìn)行模型組合訓(xùn)練與測(cè)試,結(jié)果如表4所示。當(dāng)YOLOv5s增加CBAM層后,mAP@0.5提高了0.9%,RSOD測(cè)試集各目標(biāo)類別的檢測(cè)平均精確率提高了1.1%,推理時(shí)間增加了0.1ms。說明增加CBAM層提高了模型的多尺度特征學(xué)習(xí)能力。YOLOv5s模型與YOLOv5s+CBAM模型在DIOR與DOTA測(cè)試集的可視化結(jié)果對(duì)比分別如圖7、圖8所示。
表4 消融實(shí)驗(yàn)(RSOD)
圖8 YOLOv5s 與YOLOv5s+CBAM 在DOTA測(cè)試集目標(biāo)檢測(cè)結(jié)果對(duì)比
當(dāng)YOLOv5s模型改進(jìn)串行結(jié)構(gòu)的SPPF層后,mAP@0.5提高了0.8%,推理時(shí)間減少了1.2ms;當(dāng)YOLOv5s模型改進(jìn)損失函數(shù)EIoU和優(yōu)化錨框機(jī)制后,mAP@0.5提高了1.4%,提高較為明顯,同時(shí)推理時(shí)間增加了0.1ms。
當(dāng)同時(shí)改進(jìn)CBAM、SPPF、EIoU與優(yōu)化錨框機(jī)制后,得到CSE-YOLOv5s。mAP@0.5提高了2.2%。推理時(shí)間僅增加了0.1ms。說明模型在多尺度遙感圖像目標(biāo)檢測(cè)方面精度有明顯的性能提升,同時(shí)僅有輕微的推理時(shí)間增加。
消融實(shí)驗(yàn)結(jié)果表明,增加CBAM層可以有效解決卷積迭代中細(xì)節(jié)特征丟失的問題,提高模型的多尺度特征學(xué)習(xí)能力。串行結(jié)構(gòu)的SPPF層通過降低關(guān)鍵特征信息融合時(shí)的參數(shù)數(shù)量,緩解了模型推理時(shí)間的增加。統(tǒng)計(jì)池化方式的使用有效避免了模型過擬合的問題。通過優(yōu)化錨框機(jī)制和損失函數(shù),可以解決固定錨框尺寸導(dǎo)致的自適應(yīng)能力不足,進(jìn)一步提高目標(biāo)檢測(cè)的有效性。
為了量化分析CSE-YOLOv5模型在不同場(chǎng)景下的檢測(cè)性能,在公開數(shù)據(jù)集RSOD、DIOR與DOTA上,我們將CSE-YOLOv5系列模型與主流目標(biāo)檢測(cè)模型進(jìn)行了訓(xùn)練和測(cè)試對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果見表5。
在數(shù)據(jù)集RSOD上的結(jié)果表明,相對(duì)于YOLOv5不同尺寸系列模型YOLOv5-nsmlx,CSE-YOLOv5系列模型的mAP@0.5分別提高了2.6%、2.2%、1.2%、0.6%和0.6%,平均提高了1.5%,達(dá)到平均值96.8%。mAP@0.5:0.95分別提高了0.7%、0.7%、0.6%、0.4%和0.4%,平均提高了0.56%,達(dá)到平均值87.0%。平均推理時(shí)間仍能達(dá)到21.68ms(即46fps),雖然略有犧牲,能夠滿足實(shí)時(shí)性目標(biāo)檢測(cè)需求。相較于Faster R-CNN、YOLOv3、YOLOv4和YOLOv8,CSE-YOLOv5模型在檢測(cè)精度方面同樣有了顯著提升。其中,CSE-YOLOv5s模型的推理時(shí)間為6.9ms,雖然略遜于YOLOv8s模型的推理時(shí)間6.1ms,但mAP@0.5達(dá)到97.5%,高于YOLOv8s模型的93.3%。
在數(shù)據(jù)集DIOR與DOTA上的結(jié)果表明,CSE-YOLOv5系列模型在多尺度遙感圖像目標(biāo)檢測(cè)方面表現(xiàn)優(yōu)異,mAP@0.5分別達(dá)到平均值92.0%與71.0%,mAP@0.5:0.95分別達(dá)到平均值78.5%與61.9%。
表5中對(duì)比結(jié)果顯示,CSE-YOLOv5系列模型通過自適應(yīng)調(diào)整注意力權(quán)重來細(xì)化特征提取,強(qiáng)化多尺度特征融合,有效改善小目標(biāo)或低分辨率目標(biāo)的檢測(cè),檢測(cè)精度得到了明顯的提升。CSE-YOLOv5模型在RSOD、DIOR與DOTA數(shù)據(jù)集上目標(biāo)檢測(cè)結(jié)果如圖9所示。
針對(duì)遙感圖像卷積后多尺度特征學(xué)習(xí)能力弱、檢測(cè)精度與模型參數(shù)數(shù)量相互制約等問題,在YOLOv5不同尺寸系列模型YOLOv5-nsmlx的基礎(chǔ)上,提出了改進(jìn)的CSE-YOLOv5系列模型,通過增加卷積塊注意力機(jī)制,強(qiáng)化細(xì)化特征提取并抑制冗余信息干擾,設(shè)計(jì)了串行結(jié)構(gòu)空間金字塔快速池化層,優(yōu)化錨框機(jī)制,改進(jìn)損失函數(shù),增強(qiáng)多尺度特征學(xué)習(xí)與融合能力。在滿足推理的實(shí)時(shí)性要求下,顯著提高了模型的檢測(cè)精度。實(shí)驗(yàn)結(jié)果驗(yàn)證了CSE-YOLOv5模型在遙感圖像目標(biāo)實(shí)時(shí)檢測(cè)應(yīng)用中具備較強(qiáng)的性能優(yōu)勢(shì)。
[1] WANG K, LI Z, SU A, et al. Oriented object detection in optical remote sensing images: a survey[J/OL]., 2023,https://arxiv.org/ abs/2302.10473.
[2] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//, 2014: 580-587.
[3] Krizhevsky A, Sutskever I, Hinton GE. ImageNet classification with deep convolutional neural networks[J]., 2017, 60(6): 84-90.
[4] Girshick R. Fast R-CNN[C]//(ICCV), 2015: 1440-1448.
[5] LIU Wei, Dragomir Anguelov, Dumitru Erhan, et al. SSD: single shot multibox detector[J/OL]., 2015, https://arxiv.org/ abs/1512.02325.
[6] LIN Tsungyi, Goyal Priya, Girshick Ross, et al. Focal loss for dense object detection[J]., 2020, 42(2): 318-327.
[7] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//(CVPR), 2016: 779-788.
[8] ZHANG S, WEN L, BIAN X, et al. Single-shot refinement neural network for object detection[C]//, 2018: 4203-4212, Doi: 10.1109/CVPR.2018.00442.
[9] CHEN H B, JIANG S, HE G, et al. TEANS: A target enhancement and attenuated no maximum suppression object detector for remote sensing images[J]., 2020, 18(4): 632-636.
[10] HOU L, LU K, XUE J, et al. Cascade detector with feature fusion for arbitrary-oriented objects in remote sensing images[C]//(ICME), 2020: 1-6. Doi: 10.1109/ICME46284.2020.9102807.
[11] LU X, JI J, XING Z, et al. Attention and feature fusion SSD for remote sensing object detection[J]., 2021, 70: 1-9.
[12] LI Q, MOU L, LIU Q, et al. HSF-Net: multiscale deep feature embedding for ship detection in optical remote sensing imagery[J/OL]., 2018, 56(12): 7147-7161.
[13] DONG R C, XU D Z, ZHAO J, et al. Sig-NMS-based faster R-CNN combining transfer learning for small target detection in VHR optical remote sensing imagery[J]., 2019, 57(11): 8534-8545.
[14] LI C, LUO B, HONG H, et al. Object detection based on global-local saliency constraint in aerial images[J/OL]., 2020, 12(9): 1435, https://doi.org/10.3390/rs12091435.
[15] ZHU X K, LYU S C, WANG X, et al. TPH-YOLOv5: Improved YOLOv5 based on transformer prediction head for object detection on drone-captured scenarios[C]//2021(ICCVW), 2021: 2778-2788.
[16] YANG X, YAN J, FENG Z, et al. R3Det: Refined single-stage detector with feature refinement for rotating object[C]//, 2022: 3163-3171.
[17] QING Y, LIU W, FENG L, et al. Improved YOLO network for free-angle remote sensing target detection[J]., 2021, 13(11): 2171.
[18] LONG Y, GONG Y, XIAO Z, et al. Accurate object localization in remote sensing images based on convolutional neural networks[J]., 2017, 55(5): 2486-2498.
[19] XU D, WU Y. FE-YOLO: A feature enhancement network for remote sensing target detection[J]., 2021, 13(7): 1311.
[20] CHEN L, SHI W, DENG D. Improved YOLOv3 based on attention mechanism for fast and accurate ship detection in optical remote sensing images[J]., 2021, 13(4): 660.
[21] XU D, WU Y. Improved YOLO-V3 with DenseNet for multi-scale remote sensing target detection[J]., 2020, 20(15): 4276.
[22] 趙玉卿, 賈金露, 公維軍, 等. 基于pro-YOLOv4的多尺度航拍圖像目標(biāo)檢測(cè)算法[J]. 計(jì)算機(jī)應(yīng)用研究, 2021, 38(11): 3466-3471. ZHAO Y Q, JIA J L, GONG W J, et al. Multi-scale aerial image target detection algorithm based on pro-YOLOv4[J]., 2021, 38(11): 3466-3471.
[23] Gevorgyan Z. SIoU Loss: more powerful learning for bounding box regression[J/OL]., 2022,https://arxiv.org/abs/ 2205.12740.
[24] 王建軍, 魏江, 梅少輝, 等. 面向遙感圖像小目標(biāo)檢測(cè)的改進(jìn)YOLOv3算法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2021, 57(20): 133-141. WANG J J, WEI J, MEI S H, et al. Improved Yolov3 for small object detection in remote sensing image[J]., 2021, 57(20): 133-141.
[25] XU Z, XU X, WANG L, et al. Deformable ConvNet with aspect ratio constrained NMS for object detection in remote sensing imagery[J]., 2017, 9(12): 1312.
[26] Sanghyun Woo, Jongchan Park, Joon-Young Lee, et al. CBAM: convolutional block attention module[J/OL]., 2018, https://arxiv.org/abs/1807.06521.
Remote Sensing Image Target Detection Method Based on CSE-YOLOv5
SHEN Lingyun1,LANG Baihe2,SONG Zhengxun2,3,WEN Zhitao1
(1. Department of Electronic Engineering, Taiyuan Institute of Technology, Taiyuan 030008, China; 2. Sch. of Elec. and Info. Engineering, Changchun University of Science and Technology, Changchun 130022, China;3. Overseas Expertise Introduction Project for Discipline Innovation D17017, Changchun 130022, China)
We proposed a new object detection method based on the CSE-YOLOv5 (CBAM-SPPF-EIoU-YOLOv5) model for insufficient multi-scale feature learning ability and the difficulty of balancing detection accuracy and model parameter quantity in remote sensing image object detection algorithms in complex task scenarios. We built this method on the YOLOv5 model's backbone network framework and introduced a convolutional attention mechanism layer into the shallow layers to enhance the model's ability to extract refined features and suppress redundant information interference. In the deep layers, we constructed a spatial pyramid pooling fast (SPPF) with a tandem construction module and improved the statistical pooling method to fuse multi-scale key feature information from shallow to deep. In addition, we further enhanced the multi-scale feature learning ability by optimizing the anchor box mechanism and improving the loss function. The experimental results demonstrated the superior performance of the CSE-YOLOv5 series models on the publicly available datasets RSOD, DIOR, and DOTA. The average mean precisions (mAP@0.5) were 96.8%, 92.0%, and 71.0% for RSOD, DIOR, and DOTA, respectively. Furthermore, the average mAP@0.5:0.95 at a wider IoU range of 0.5 to 0.95 achieved 87.0%, 78.5%, and 61.9% on the same datasets. The inference speed of the model satisfied the real-time requirements. Compared to the YOLOv5 series models, the CSE-YOLOv5 model exhibited significant performance enhancements and surpassed other mainstream models in object detection.
remote sensing images, target detection, attention mechanism, spatial pyramid pooling-fast, multi-scale target
TP391
A
1001-8891(2023)11-1187-11
2023-06-07;
2023-08-07.
沈凌云(1979-),女,工學(xué)博士,副教授,主要從事機(jī)器視覺與智能信息處理方向研究。E-mail:shenshly@163.com。
山西省引進(jìn)人才科技創(chuàng)新啟動(dòng)基金(21010123);山西省高等院校大學(xué)生創(chuàng)新項(xiàng)目(S202314101195);吉林省科技發(fā)展計(jì)劃基金(YDZJ202102CXJD007)。