基于改進(jìn)FCOS網(wǎng)絡(luò)的遙感目標(biāo)檢測(cè)

2022-11-15 00:23:48鄭美俊田益民楊帥

航天返回與遙感 2022年5期

鄭美俊田益民楊帥

鄭美俊田益民*楊帥

（北京印刷學(xué)院信息工程學(xué)院，北京 102627）

找出目標(biāo)的位置和類別是目標(biāo)檢測(cè)的主要任務(wù)。隨著人工智能和深度學(xué)習(xí)的發(fā)展，目標(biāo)檢測(cè)可以達(dá)到人眼所達(dá)不到的精度。由于信息較少，覆蓋面積小且基于錨框的檢測(cè)算法易受錨框大小、比例數(shù)目的影響，對(duì)較小的目標(biāo)難以精確檢測(cè)。針對(duì)以上問(wèn)題，改進(jìn)無(wú)錨框算法全卷積單階段目標(biāo)檢測(cè)（Fully Convolutional One-stage Object Detection，F(xiàn)COS）實(shí)現(xiàn)了小目標(biāo)檢測(cè)的效率和精度。將FCOS算法的特征提取網(wǎng)絡(luò)結(jié)構(gòu)殘差網(wǎng)絡(luò)（Residual Network，ResNet）更換為輕量級(jí)網(wǎng)絡(luò)結(jié)構(gòu)MobileNetV3，隨后在骨干網(wǎng)絡(luò)中引入通道注意力機(jī)制和空間注意力機(jī)制對(duì)特征提取網(wǎng)絡(luò)進(jìn)行改進(jìn)，最后設(shè)計(jì)T交并比（TIOU）代替原本的交并比（IOU），改善模型精度。實(shí)驗(yàn)結(jié)果表明，所改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)與FCOS相比，網(wǎng)絡(luò)訓(xùn)練時(shí)間和模型大小為原來(lái)的一半，計(jì)算參數(shù)量由原來(lái)的32.12×106減少為11.73×106，減少到原來(lái)的三分之一，模型推理速度提升了10%，每秒傳輸幀數(shù)為11幀，與主流網(wǎng)絡(luò)Faster RCNN相比，檢測(cè)精度和速度更快，可以滿足對(duì)小目標(biāo)的實(shí)時(shí)檢測(cè)。

卷積神經(jīng)網(wǎng)絡(luò) 單階段目標(biāo)檢測(cè) 通道和空間注意力機(jī)制遙感應(yīng)用

0 引言

隨著各行各業(yè)在計(jì)算機(jī)視覺領(lǐng)域取得一系列突破，在深度學(xué)習(xí)領(lǐng)域中占據(jù)重要地位的目標(biāo)檢測(cè)也得到了突破性的進(jìn)展。在目前熱門的自動(dòng)駕駛研究中，需要從每一幀的圖片中精確識(shí)別出障礙物并送入后臺(tái)進(jìn)行處理。在航天遙感中，需要識(shí)別出5m以下的小目標(biāo)[1]。

傳統(tǒng)的目標(biāo)檢測(cè)方法分為三大部分：區(qū)域選擇、特征提取和分類器。由于傳統(tǒng)的目標(biāo)檢測(cè)方法在時(shí)間利用率、人為設(shè)計(jì)的網(wǎng)絡(luò)魯棒性等方面差的原因，使得識(shí)別和檢測(cè)的效果不佳。近年來(lái)，人工智能的迅速發(fā)展使得目標(biāo)檢測(cè)成為人工智能落地研究的重要內(nèi)容，目標(biāo)檢測(cè)與神經(jīng)網(wǎng)絡(luò)相結(jié)合取得了巨大的成果，例如：基于錨框的檢測(cè)器Faster R-CNN[2]采用預(yù)訓(xùn)練權(quán)重初始化區(qū)域選取網(wǎng)絡(luò)（Region Proposal Network，RPN）的共享卷積層，然后訓(xùn)練RPN網(wǎng)絡(luò)，通過(guò)生成建議框和雙階段預(yù)測(cè)取得了較高的檢測(cè)精度，單發(fā)多箱預(yù)測(cè)器（Single Shot multiBox Detector，SSD）[3]對(duì)于一張圖，結(jié)合多個(gè)不同的特征圖預(yù)測(cè)不同大小的物體，提高了運(yùn)行速度和檢測(cè)的精度；You Look Only Once（YOLO）v3[4]相比于YOLOv2[5]采用了特征金字塔（Pyramid Of Features，F(xiàn)PN）[6]、ResNet模塊和DarkNet53網(wǎng)絡(luò)結(jié)構(gòu)，提高了網(wǎng)絡(luò)的空間和數(shù)據(jù)表征能力，增加對(duì)細(xì)粒度物體的檢測(cè)力度。

針對(duì)錨框目標(biāo)檢測(cè)算法的缺陷，很多無(wú)錨框的算法被提出，文獻(xiàn)[7]提出CenterNet（Keypoint Triplets for Object Detection），將邊界的中心點(diǎn)進(jìn)行建模，為了找到中心點(diǎn)，通過(guò)邊界框左上和右下的角點(diǎn)坐標(biāo)來(lái)找到中心點(diǎn)，進(jìn)而回歸出目標(biāo)框的邊界大小，且不需要進(jìn)行非極大抑制（Non Maximal Inhibition，NMS）。Zhi Tian等提出的FCOS采用FPN進(jìn)行分層預(yù)測(cè)，提升了對(duì)不同尺度目標(biāo)的預(yù)測(cè)精度，F(xiàn)COS在避免錨框復(fù)雜計(jì)算的方式上采取了去除預(yù)定義的錨框[8]，且后處理只采用NMS使得FCOS更加簡(jiǎn)單[9]。

本文針對(duì)目前目標(biāo)檢測(cè)算法面臨的檢測(cè)效率慢和模型文件太大兩個(gè)問(wèn)題，設(shè)計(jì)出了FCOS改進(jìn)版。其中，采用輕量級(jí)MobileNetV3[10]作為FCOS的骨干網(wǎng)絡(luò)，使得網(wǎng)絡(luò)整體參數(shù)量和最后得到的模型文件大幅度縮小。由于模型文件大幅度縮小，所以計(jì)算量也變得更小，推理變得更快，不僅擁有不差于較重模型的性能，還可以應(yīng)用于更加輕量級(jí)的邊緣設(shè)備，解決了深度學(xué)習(xí)的模型推理對(duì)設(shè)備配置要求高的問(wèn)題。在改進(jìn)骨干網(wǎng)絡(luò)中引入注意力機(jī)制[11]，改進(jìn)IOU損失函數(shù)，提升了特征網(wǎng)絡(luò)的提取性能，使得改進(jìn)后的算法在模型大小大幅度縮小的前提下還能保持模型精度不變?；谝陨蟽煞N方法的改進(jìn)，使得本文算法能更快的檢測(cè)出對(duì)應(yīng)目標(biāo)，且模型訓(xùn)練的空間和時(shí)間縮短為原先的一半，模型的推理速度提升10%，可以達(dá)到實(shí)時(shí)檢測(cè)的效果[12]，對(duì)于深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的落地有一定的參考價(jià)值。

1 輕量級(jí)單階段目標(biāo)檢測(cè)算法

1.1 輕量級(jí)單階段目標(biāo)檢測(cè)算法網(wǎng)絡(luò)模型

如圖1所示，輕量級(jí)單階段目標(biāo)檢測(cè)（MobileNetv3-CBAM-FCOS，MVBCA-FCOS）的網(wǎng)絡(luò)結(jié)構(gòu)，主要包括特征提取網(wǎng)絡(luò)、特征融合網(wǎng)絡(luò)和檢測(cè)模塊三個(gè)部分。

圖1 MVBCA-FCOS網(wǎng)絡(luò)結(jié)構(gòu)圖

該網(wǎng)絡(luò)改進(jìn)了特征提取網(wǎng)絡(luò)和檢測(cè)模塊[13]，對(duì)于特征提取網(wǎng)絡(luò)，采用融合通道和空間注意力機(jī)制（Convolutional Block Attention Module，CBAM）的輕量級(jí)網(wǎng)絡(luò)（MobileNetV3）作為骨干網(wǎng)絡(luò)，用于提取圖片中的深層語(yǔ)義信息。其中CBAM引導(dǎo)網(wǎng)絡(luò)關(guān)注特征圖中重要的區(qū)域，抑制無(wú)效特征，從而提升特征圖的表征能力。骨干網(wǎng)絡(luò)產(chǎn)生的3個(gè)特征圖3、4、5，通過(guò)1×1的卷積（Convolution，Conv）得到256維的特征向量3、4、5，傳入特征融合網(wǎng)絡(luò)中進(jìn)行特征融合。其中，6、7通過(guò)特征圖5、6用步長(zhǎng)為2的3×3卷積得到，5經(jīng)過(guò)上采樣與4相加的到4，4經(jīng)過(guò)上采樣與3相加得到3。特征圖3、4、5、6、7的步長(zhǎng)（步長(zhǎng)表示與初始輸入的特征圖縮小的倍數(shù)）分別為8、16、32、64、128。將3、4、5、6、7送入網(wǎng)絡(luò)頭部（Head）進(jìn)行預(yù)測(cè)，得出目標(biāo)回歸得分、目標(biāo)分類得分和邊框中心點(diǎn)得分。最后利用NMS算法進(jìn)行后處理得到檢測(cè)結(jié)果。

1.2 融合通道和空間注意力機(jī)制

常用的擠壓激勵(lì)（Squeexe and Excitation，SE[14]）模塊是為了解決在卷積池化中通道重要性不同的問(wèn)題。但是SE模塊忽略了空間性能對(duì)網(wǎng)絡(luò)的影響。CBAM注意力機(jī)制分為通道注意力模塊（Channel Attention Module，CAM）和空間注意力模塊（Spartial Attention Module，SAM）。

與SE模塊相比，CAM模塊多了個(gè)最大池化層，所以獲得的信息更加全面。將CAM模塊輸出的特征圖輸入到SAM模塊中，經(jīng)過(guò)一系列的黑盒操作得到最終的權(quán)重系數(shù)。CAM和SAM分別對(duì)骨干網(wǎng)絡(luò)中的通道特征和空間特征進(jìn)行選擇性提取，可以提高模型訓(xùn)練的精度。

通道注意力機(jī)制如圖2所示，主要關(guān)注在特征圖中什么樣的特征是有意義的，它的輸入是一個(gè)××的特征（×代表像素大小，表示通道數(shù)）。首先分別進(jìn)行一個(gè)平均池化和最大池化，接著，再將得到的結(jié)果分別送入共享神經(jīng)網(wǎng)絡(luò)，經(jīng)過(guò)一系列變化得到通道權(quán)重系數(shù)c。

圖2 通道注意力模塊

空間注意力機(jī)制如圖3所示，主要負(fù)責(zé)關(guān)注在特征圖中哪些位置上的特征是有意義的，它的輸入××的特征，先后進(jìn)入最大池化層和平均池化層。然后，經(jīng)過(guò)一個(gè)7×7的卷積，通過(guò)Sigmoid激活函數(shù)，得到激活權(quán)重系數(shù)s。

圖3 空間注意力模塊

1.3 融合通道和空間注意力機(jī)制的特征提取網(wǎng)絡(luò)

FCOS中使用Resnet50[15]作為特征提取網(wǎng)絡(luò)，網(wǎng)絡(luò)參數(shù)較多，模型大小不適合在邊緣設(shè)備上進(jìn)行計(jì)算[16]，改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)采用輕量級(jí)網(wǎng)絡(luò)MobileNetV3作為骨干網(wǎng)絡(luò)進(jìn)行特征提取，提出了基于CBAM的MobileNetV3特征提取網(wǎng)絡(luò)結(jié)構(gòu)，通過(guò)通道注意力機(jī)制來(lái)關(guān)注需要被“重視”的特征，“忽略”無(wú)用的特征和作用小的特征，然后通過(guò)空間注意力機(jī)制來(lái)關(guān)注需要“重視”特征區(qū)域，進(jìn)而有效的提高了網(wǎng)絡(luò)結(jié)構(gòu)的精度。

在表1所示的MobileNetV3網(wǎng)絡(luò)層中，bneck為一系列特殊的卷積，批量歸一化（Batch Normalization， BN）和擠壓激勵(lì)模塊混合作用的操作，pool為池化層，NBN代表不使用批量歸一化層，conv2d為卷積操作，表示最后輸出的通道數(shù)。

表1 MobileNetV3網(wǎng)絡(luò)結(jié)構(gòu)

Tab.1 MobileNetV3 network structure

融合網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示，Block1～Block5為經(jīng)過(guò)初始的一系列bneck串聯(lián)組成（Block1表示第1～2個(gè)bneck，Block2表示第3～4個(gè)bneck，Block3表示第5～7個(gè)bneck，Block4表示第8～13個(gè)bneck，Block5表示第14～15個(gè)bneck），輸入分別112像素×112像素、56像素×56像素、28像素×28像素、14像素×14像素和7像素×7像素。將Block1～Block5分為三部分送入FPN中進(jìn)行特征融合，用不同特征層的識(shí)別不同的目標(biāo)，提升模型的特征檢測(cè)效果。在Block1之前和Block5[17-18]之后使用通道注意力機(jī)制和空間注意力機(jī)制。

圖4 CBAM-MobileNet網(wǎng)絡(luò)結(jié)構(gòu)

骨干網(wǎng)絡(luò)從Resnet50更換為MobileNetv3之后，網(wǎng)絡(luò)模型的參數(shù)量大幅度下降，模型參數(shù)量從原先的32.12×106減少為11.73×106，減少到原來(lái)的三分之一，每張圖片的識(shí)別速度下降了20ms，模型推理速度提升了10%。

1.4 TIOU損失函數(shù)

為了優(yōu)化邊界框的回歸損失函數(shù)，在廣義交并比（）[19]損失函數(shù)中引入邊界框的長(zhǎng)寬比例系數(shù)，進(jìn)而提出了一種T交并比（TIOU）作為邊界框回歸的損失函數(shù)。

IOU損失函數(shù)如下

式中為圖5兩框的交集；為兩框的并集。該損失函數(shù)的缺點(diǎn)是：在兩個(gè)框沒有交集的時(shí)候，分母為0，所以所求IOU很大，效果不佳。

GIOU是在IOU基礎(chǔ)上的改進(jìn)版本，如圖6所示，綠色是真實(shí)框，紅色是預(yù)測(cè)框，最外面的藍(lán)色邊框是將紅綠矩形用最小矩形框起來(lái)的邊界，是藍(lán)色矩形框的面積，對(duì)應(yīng)紅綠矩形的并集面積。

圖5 IOU示意

圖6 GIOU示意

GIOU解決了IOU中真實(shí)框和預(yù)測(cè)框沒有交集產(chǎn)生的問(wèn)題，在GIOU中，如果當(dāng)真實(shí)框和預(yù)測(cè)框完美重合，那么IOU=1，和和預(yù)測(cè)框面積相等，GIOU=1。如果兩個(gè)框距離很大，趨向于很大的數(shù)值，趨向于0，IOU趨向于0，GIOU= –1。因此GIOU取值的區(qū)間是[–1, 1]。

式（2）中GIOU計(jì)算方式如下

由于GIOU中沒有考慮邊框長(zhǎng)寬比，所以所探測(cè)出的目標(biāo)框并不是最佳長(zhǎng)寬比，本文提出的TIOU在GIOU的基礎(chǔ)上，額外考慮了預(yù)測(cè)框和真實(shí)框不相交和真實(shí)框與預(yù)測(cè)框之間寬高比例的問(wèn)題，添加了預(yù)測(cè)框的長(zhǎng)寬比系數(shù)，這樣預(yù)測(cè)框就會(huì)與真實(shí)框更加接近。

式（3）TGIOU計(jì)算方式如下（、和gt、gt分別代表預(yù)測(cè)框的高度、寬度和真實(shí)框的高度、寬度）

式中

2 實(shí)驗(yàn)與分析

2.1 遙感數(shù)據(jù)集及評(píng)價(jià)指標(biāo)

為了驗(yàn)證本文算法的性能，測(cè)試實(shí)驗(yàn)在遙感影像數(shù)據(jù)集（RSOD）上進(jìn)行。RSOD為2015年武漢大學(xué)發(fā)布的一個(gè)公開的遙感圖像數(shù)據(jù)集。其中有四大類別，分別為：飛機(jī)數(shù)據(jù)集，446張飛機(jī)圖片中標(biāo)記了4 993架飛機(jī)；操場(chǎng)數(shù)據(jù)集，189張操場(chǎng)圖片中標(biāo)記了191個(gè)操場(chǎng)；天橋數(shù)據(jù)集，176張?zhí)鞓驁D片中標(biāo)記了180座天橋；油箱數(shù)據(jù)集，165張油箱圖片標(biāo)記了1 586個(gè)油箱。訓(xùn)練時(shí)，在四個(gè)數(shù)據(jù)集中按1:8的比例隨機(jī)選取圖片，保證實(shí)驗(yàn)結(jié)果的魯棒性。

使用平均精確率均值（Mean Average Precision，mAP）、精確率均值（Average Precision，AP）來(lái)衡量網(wǎng)絡(luò)的性能[20]。AP衡量的是學(xué)出來(lái)的模型在每個(gè)類別上的好壞，分類器越好，AP值越高，mAP衡量的是模型在所有類別上的好壞，其范圍是[0,1]。取所有類別AP的平均值就是mAP。不管是AP還是mAP，相較于精確率和召回率，都比較綜合地評(píng)價(jià)了模型的性能。因此，以上兩個(gè)評(píng)價(jià)指標(biāo)是衡量目標(biāo)檢測(cè)算法性能的重要指標(biāo)。準(zhǔn)確率是預(yù)測(cè)正確的正樣本數(shù)占預(yù)測(cè)為正樣本總數(shù)的比例，召回率是預(yù)測(cè)正確的正樣本數(shù)與正樣本總數(shù)的比率。

如圖7所示AP值為精確率隨召回率的變化曲線，即-曲線與坐標(biāo)軸圍成的面積。

如圖8所示，mAP用來(lái)評(píng)價(jià)模型的整體檢測(cè)精度，每個(gè)類別的目標(biāo)的AP值相加后取平均值得到，mAP是衡量一個(gè)模型好壞的重要指標(biāo)。

圖7 油箱平均精度

圖8 數(shù)據(jù)集mAP

2.2 實(shí)驗(yàn)配置與模型參數(shù)設(shè)置

Windows環(huán)境下進(jìn)行網(wǎng)絡(luò)的訓(xùn)練和測(cè)試，CPU為Intel(R)Core(TM)i7-10750H，顯卡（GPU）為GTX2060，OS為Windows10，使用Python3.7作為編程語(yǔ)言，Pytorch1.8作為深度學(xué)習(xí)的框架，并結(jié)合CUDA10.2和CUDNN7.6工具包進(jìn)行訓(xùn)練和推理加速。

模型訓(xùn)練時(shí)網(wǎng)絡(luò)輸入的圖片大小為800像素×1 333像素，采用的優(yōu)化算法是SGD（Stochastic Gradient Descent），訓(xùn)練輪次為25，學(xué)習(xí)率為0.000 1，每隔5輪下調(diào)一次學(xué)習(xí)率，動(dòng)量因子為0.9，訓(xùn)練配置如表2所示。

表2 實(shí)驗(yàn)配置

Tab.2 The Experimental Configuration

訓(xùn)練MVBCA-FCOS目標(biāo)檢測(cè)算法的損失函數(shù)計(jì)算公式如式（6）

式中p,y、t,y、s,y和p,y、t,y、s,y分別為預(yù)測(cè)框和真實(shí)框的預(yù)測(cè)和真實(shí)的分類回歸分?jǐn)?shù)、邊界回歸分?jǐn)?shù)和中心度回歸分?jǐn)?shù)，其中,為中心位置；pos為正樣本的數(shù)量；cls、reg和cen分別為分類損失函數(shù)、邊界框損失函數(shù)和邊框中心損失函數(shù)；為reg的平衡權(quán)重因子；為cen的平衡權(quán)重因子。

2.3 消融實(shí)驗(yàn)分析

為了驗(yàn)證MVBCA-FCOS中各個(gè)模塊對(duì)目標(biāo)檢測(cè)結(jié)果的影響，在RSOD遙感數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)[21]，以MobileNetV3為檢測(cè)網(wǎng)絡(luò)為消融實(shí)驗(yàn)的基線，實(shí)驗(yàn)結(jié)果如表3所示。對(duì)于更換MoblieNetV3輕量級(jí)網(wǎng)絡(luò)后，mAP精度下降2.6%，串聯(lián)添加通道注意力機(jī)制和空間注意力機(jī)制后，精度上升2%，然后改進(jìn)邊框回歸，引入TIOU，使得邊框的真實(shí)框和預(yù)測(cè)框更加接近[22]，且提升了0.6%，mAP由基本的基線中的91.5%提升到了94.1%，在精度未丟失的前提下模型大小和訓(xùn)練時(shí)間縮短為原來(lái)的一半，模型的參數(shù)量大大減少，模型的推理速度提升了10%。

表3 在RSOD上的消融實(shí)驗(yàn)對(duì)比

Tab.3 Comparison of ablation experiments on RSOD

2.4 對(duì)比實(shí)驗(yàn)分析

為了驗(yàn)證算法的魯棒性和可行性，選取了主流的YOLOV3和Faster R-CNN做對(duì)比實(shí)驗(yàn)[23]，選取的RSOD遙感數(shù)據(jù)集中，四種算法對(duì)操場(chǎng)的特征提取都較為良好，而油箱中有很多小目標(biāo)，實(shí)驗(yàn)結(jié)果比較有區(qū)分度。如表4所示，本實(shí)驗(yàn)方法的網(wǎng)絡(luò)精度和原始FCOS精度大致相同的情況下，縮短了模型訓(xùn)練和模型的大小，為原始模型的一半，推理時(shí)間提升了10%。

如圖9所示，原始算法FCOS漏檢了左上角的油罐，本文提出的MBVCA-FCOS算法可以較為全面的檢測(cè)到油箱。

表4 不同目標(biāo)檢測(cè)算法在RSOD數(shù)據(jù)集上的結(jié)果對(duì)比

Tab.4 ComparisonofresultsofdifferenttargetdetectionalgorithmsonRSODdataset 單位：%

圖9 算法效果對(duì)比

3 結(jié)束語(yǔ)

針對(duì)目標(biāo)檢測(cè)中，錨框設(shè)定、超參數(shù)難調(diào)整和對(duì)小目標(biāo)檢測(cè)效果不佳等一系列問(wèn)題，本文提出了一種基于無(wú)錨框FCOS改進(jìn)的檢測(cè)模型MBVCA-FCOS。基于骨干網(wǎng)絡(luò)的更換，交并比損失函數(shù)的改進(jìn)，空間注意力機(jī)制和通道注意力機(jī)制的引入，在精度不丟失的前提下，提升了模型推理速度，進(jìn)而提升了對(duì)小目標(biāo)檢測(cè)的效果，縮小了模型大小，使得該網(wǎng)絡(luò)能夠在更加便攜設(shè)備上進(jìn)行部署。該算法在多類目標(biāo)檢測(cè)中取得了較好的效果，驗(yàn)證了算法的有效性和魯棒性。不過(guò)，仍然有兩個(gè)問(wèn)題可以改進(jìn)，一是應(yīng)用模型剪枝技術(shù)或者模型量化技術(shù)進(jìn)一步縮小模型大小、提升模型速度，二是通過(guò)改進(jìn)特征融合網(wǎng)絡(luò)進(jìn)一步提升網(wǎng)絡(luò)的精度。

[1] 李慶忠, 徐相玉. 基于改進(jìn)YOLOV3-Tiny的海面船艦?zāi)繕?biāo)快速檢測(cè)[J]. 計(jì)算機(jī)工程, 2021, 47(10): 283-289, 297.

LI Qingzhong, XU Xiangyu. Fast Target Detection of Surface Ship Based on Improved YOLOV3-Tiny[J]. Computer Engineering, 2021, 47(10): 283-289, 297. (in Chinese)

[2] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: Towards Real-time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6): 1137-1149.

[3] LIU W, ANGUELOV D, ERHAN D, et al. SSD: Single Shot Multibox Detector[C]//2016 European Conference on Computer Vision(ECCV), October 8-16, 2016, Amsterdam, Netherlands. Springer, 2016: 21-37.

[4] REDMON J, FARHADI A. YOLOv3: An Incremental Improvement[EB/OL]. [2022-5-30]. http://arxiv.org/abs/1804. 02767.pdf.

[5] REDMON J, FARHADI A. YOLO9000: Better, Faster, Stronger[EB/OL]. [2022-03-30]. https://arxiv.org/pdf/1612.08242.pdf.

[6] LIN T, DOLLáR P, GIRSHICK R, et al. Feature Pyramid Networks for Object Detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR), July 21-26, 2017, Honolulu, HI, USA. IEEE, 2017: 2117-2125.

[7] LAW H, TENG Y, RUSSAKOVSKY O, et al. CornerNet-Lite: Efficient Keypoint Based Object[EB/OL]. [2022-03-30]. https://arxiv.org/pdf/1904.08900.pdf.

[8] TIAN Z, SHEN C, CHEN H, et al. FCOS: Fully Convolutional One-stage Object Detection[EB/OL]. [2022-03-30]. https://arxiv.org/pdf/1904.01355.pdf.

[9] HU H, GU J, ZHANG Z, et al. Relation Networks for Object Detection[EB/OL]. [2022-03-30]. http://arxiv.org/abs/1711.11575.

[10] HOWARD A, SANDLER M, CHU G, et al. Searching for MobileNetV3[C]//IEEE/CVF International Conference on Computer Vision, October 27-November 2, 2019, Seoul, Korea (South). Piscataway: IEEE, 2019: 1314-1324.

[11] WOO S, PARK J, LEE J Y, et al. KWEON, CBAM: Convolutional Block Attention Module[EB/OL]. [2022-03-30]. https:/arxiv.org/pdf/1807.06521.pdf.

[12] JIANG B, LUO R, MAO J, et al. Acquisition of Localization Confidence for Accurate Object Detection[EB/OL]. [2022-03-30]. http://arxiv.org/abs/1807.11590.pdf.

[13] 孫廣慧. 融合Resnet50與改進(jìn)注意力機(jī)制的絕緣子狀態(tài)識(shí)別研究[J]. 電子技術(shù)與軟件工程, 2021(16): 247-248.

SUN Guanghui. Research on Insulator State Recognition Based on Resnet50 and Improved Attention Mechanism[J]. Electronic Technology & Software Engineering, 2021(16): 247-248. (in Chinese)

[14] YU J, JIANG Y, WANG Z, et al. UnitBox: An Advanced Object Detection Network[EB/OL]. [2022-03-30]. https://arxiv.org/pdf/1608.01471.pdf.

[15] HE K, ZHANG X, REN S, et al. Deep Residual Learning for Image Recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-31, 2016, Las Vegas, NV, USA. IEEE, 2016: 770-778.

[16] TAN M, PANG R, LE Q V. EfficientDet: Scalable and Efficient Object Detection[EB/OL]. [2022-03-30]. http://arxiv.org/abs/1911.09070.pdf.

[17] HU J, SHEN L, ALBANIE S, et al. Squeeze and Excitation Networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2020, 42(8): 2011-2023.

[18] HE K, ZHANG X, REN S, et al. Deep Residual Learning for Image Recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR), June 27-31, 2016, Las Vegas, NV, USA. IEEE, 2016: 770-778.

[19] REZATOFIGHI H, TSOI N, GWAK J, et al. Generalized Intersection over Union: A Metric and a Loss for Bounding Box Regression[EB/OL]. [2022-03-30]. http://arxiv.org/abs/1902.09630.pdf.

[20] 郭磊, 王邱龍, 薛偉, 等. 基于改進(jìn)YOLOv5的小目標(biāo)檢測(cè)算法[J]. 電子科技大學(xué)學(xué)報(bào), 2022, 51(2): 251-258.

GUO Lei, WANG Qiulong, XUE Wei, et al. Small Target Detection Algorithm Based on Improved YOLOv5[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(2): 251-258. (in Chinese)

[21] 張中華, 賈偉寬, 邵文靜, 等. 優(yōu)化FCOS網(wǎng)絡(luò)復(fù)雜果園環(huán)境下綠色蘋果檢測(cè)模型[J]. 光譜學(xué)與光譜分析, 2022, 42(2): 647-653.

ZHANG Zhonghua, JIA Weikuan, SHAO Wenjing, et al. Optimization of FCOS Network Detection Model for Green Apple in Complex Orchard Environment[J]. Spectroscopy and Spectral Analysis, 2022, 42(2): 647-653. (in Chinese)

[22] HAN X, LEUNG T, JIA Y, et al. MatchNet: Unifying Feature and Metric Learning for Patch-based Matching[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 8-10, 2015, Boston, USA. IEEE, 2015.

[23] LOWE D G. Object Recognition from Local Scale-invariant Features[C]//1999 IEEE Conference on Computer Vision and Pattern Recognition(CVPR), June 23-25, 1999, Fort Collins, CO, USA. IEEE, 1999.

Remote Sensing Target Detection Based on Improved FCOS Network

ZHENG Meijun TIAN Yimin*YANG Shuai

（School of Information Engineering, BIGC, Beijing 102627, China）

The main task of target detection is to find the location and category of the target. With the development of artificial intelligence and deep learning, target detection can achieve accuracy beyond human eyes. Due to less information and small coverage area, the detection algorithm based on anchor frame is easily affected by the size and proportion of anchor frame, and it is difficult to accurately detect small targets. Aiming at the above problems, Fully Convolutional One-stage Object Detection (Fully Convolutional One-stage Object Detection, FCOS) algorithm without anchor frame is improved to achieve the efficiency and accuracy of small target detection. FCOS feature extraction network structure ResNet (Residual Network, ResNet) is replaced with lightweight network structure MobileNetV3. Then, channel attention mechanism and spatial attention mechanism are introduced in BackBone network to improve feature extraction network. Finally, T-intersection ratio (TIOU) is designed to replace the original intersection ratio (IOU) to improve model accuracy. Experimental results show that compared with FCOS, the network training time and model size of the improved network structure are half of the original, the number of calculation parameters is reduced from 32.12×106to 11.73×106which is one third of the original, the model inference speed is increased by 10%, and the transmission frame per second (FPS) is 11. Compared with the mainstream Faster network Faster RCNN detection accuracy and speed, can meet the real-time detection of small targets.

convolutional neural network; one-stage object detection; convolutional block attention module; remote sensing application

TP79

1009-8518(2022)05-0133-09

10.3969/j.issn.1009-8518.2022.05.013

2022-04-25

國(guó)家自然科學(xué)基金項(xiàng)目（NSFC61378001，NSFC61178092）

鄭美俊, 田益民, 楊帥. 基于改進(jìn)FCOS網(wǎng)絡(luò)的遙感目標(biāo)檢測(cè)[J]. 航天返回與遙感, 2022, 43(5): 133-141.

ZHENG Meijun, TIAN Yimin, YANG Shuai. Remote Sensing Target Detection Based on Improved FCOS Network[J]. Spacecraft Recovery & Remote Sensing, 2022, 43(5): 133-141. (in Chinese)

鄭美俊，男，1997年生，2019年獲華北科技學(xué)院信息工程學(xué)院自動(dòng)化工學(xué)學(xué)位，現(xiàn)在北京印刷學(xué)院電子信息專業(yè)攻讀碩士學(xué)位。研究方向?yàn)樯疃葘W(xué)習(xí)和計(jì)算機(jī)視覺。E-mail：269881724@qq.com。

田益民，男，1966年生，2003獲中科院計(jì)算數(shù)學(xué)所計(jì)算數(shù)學(xué)專業(yè)理學(xué)博士學(xué)位，現(xiàn)為北京印刷學(xué)院電子信息專業(yè)博士生導(dǎo)師。主要研究方向?yàn)樗惴ㄔO(shè)計(jì)。E-mail：tym8@bigc.edu.cn。

（編輯：龐冰）

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于改進(jìn)FCOS網(wǎng)絡(luò)的遙感目標(biāo)檢測(cè)

0 引言

1 輕量級(jí)單階段目標(biāo)檢測(cè)算法

1.1 輕量級(jí)單階段目標(biāo)檢測(cè)算法網(wǎng)絡(luò)模型

1.2 融合通道和空間注意力機(jī)制

1.3 融合通道和空間注意力機(jī)制的特征提取網(wǎng)絡(luò)

1.4 TIOU損失函數(shù)

2 實(shí)驗(yàn)與分析

2.1 遙感數(shù)據(jù)集及評(píng)價(jià)指標(biāo)

2.2 實(shí)驗(yàn)配置與模型參數(shù)設(shè)置

2.3 消融實(shí)驗(yàn)分析

2.4 對(duì)比實(shí)驗(yàn)分析

3 結(jié)束語(yǔ)