張省, 李山山, 魏國芳, 張新耐, 高建威
1. 中國礦業(yè)大學(xué) 環(huán)境與測繪學(xué)院, 徐州 221116;
2. 中國礦業(yè)大學(xué) 人工智能研究院, 徐州 221116;
3. 中國科學(xué)院空天信息創(chuàng)新研究院, 北京 100094;
4. 濟(jì)南市勘察測繪研究院, 濟(jì)南 250013;
5. 中國空間技術(shù)研究院衛(wèi)星應(yīng)用總體部, 北京 100094
隨著遙感技術(shù)的不斷發(fā)展,遙感數(shù)據(jù)的獲取不再困難,利用遙感數(shù)據(jù)及時(shí)準(zhǔn)確地掌握地物目標(biāo)的位置分布對交通規(guī)劃、精準(zhǔn)農(nóng)業(yè)、軍事偵察以及海洋管理等都具有重大的意義(劉暢和朱衛(wèi)綱,2021)。然而,傳統(tǒng)的遙感圖像目標(biāo)檢測方法利用方向梯度直方圖HOG(Histogram of Oriented Gradient) 特征或者尺度不變特征轉(zhuǎn)換SIFT(Scale-invariant feature transform),缺乏對遙感圖像中目標(biāo)稀疏性以及遙感圖像尺度問題的考慮,同時(shí)存在計(jì)算開銷大等問題(姚艷清 等,2021)。因此對遙感影像中特定目標(biāo)高效地定位與識別成為了當(dāng)前的研究熱點(diǎn)。
近些年來,深度學(xué)習(xí)和計(jì)算機(jī)視覺技術(shù)不斷發(fā)展,在自然場景下基于卷積神經(jīng)網(wǎng)絡(luò)CNNs(Convolutional Neural Networks)的目標(biāo)檢測算法代替了傳統(tǒng)HOG 和SIFT 的手工特征,取得了突破性的 進(jìn) 展。 R-CNN (Region-based Convolutional Neural Network)(Girshick,2014)率先利用CNNs對候選目標(biāo)區(qū)域提取特征,再利用機(jī)器學(xué)習(xí)方法對這些區(qū)域進(jìn)行分類和定位。Fast R-CNN(Girshick,2015)在其基礎(chǔ)上利用特征圖進(jìn)行感興趣區(qū)域的提取,極大地減少了計(jì)算量。Faster R-CNN(Ren 等,2017)摒棄了選擇性搜索算法SS (Selected Search),利用區(qū)域生成網(wǎng)絡(luò)RPN(Region Proposal Network)來提取感興趣區(qū)域,提升了檢測的精度和效率;此外,以YOLO(Yon Only Look Once)(Redmon 等,2016)、RetinaNet(Lin 等,2017b)等算法為代表的單階段目標(biāo)檢測算法致力于提升模型整體的運(yùn)算效率。YOLO 算法將檢測任務(wù)統(tǒng)一視為回歸問題,將圖像劃分為多個(gè)子區(qū)域并在每個(gè)區(qū)域內(nèi)找到目標(biāo)的位置(Redmon 等,2016)。SSD(Liu 等,2016)得益于Faster R-CNN 和YOLO 的思想,設(shè)計(jì)單階段的網(wǎng)絡(luò)模型并利用錨點(diǎn)框(Anchor box)來進(jìn)行目標(biāo)檢測;RetinaNet 提出了Focal loss 函數(shù),使單階段網(wǎng)絡(luò)更好地學(xué)習(xí)難樣本,提高了單階段檢測的準(zhǔn)確性。由于這些算法能夠精準(zhǔn)地檢測自然場景下的多類目標(biāo),許多研究將這些算法直接地應(yīng)用于遙感圖像目標(biāo)檢測任務(wù)中去(奚祥書 等,2022)。然而,當(dāng)遙感圖像包含更復(fù)雜的場景信息,圖像分辨率高而目標(biāo)相對較小時(shí),傳統(tǒng)的CNN 結(jié)構(gòu)將無法提取圖像中精細(xì)化的目標(biāo)特征。隨著CNN 層數(shù)的加深,感受野隨之越來越大,因此一些目標(biāo)在頂層特征圖上出現(xiàn)特征消失的現(xiàn)象(Lin 等,2017a);此外,由于遙感圖像背景復(fù)雜,傳統(tǒng)的CNN 容易受到噪聲影響導(dǎo)致激活錯(cuò)誤的區(qū)域,從而導(dǎo)致目標(biāo)特征提取不足;待檢測的目標(biāo)尺度變化較大,單一尺度的檢測方式弱化了模型對目標(biāo)的感知能力(Girshick 等,2014;Ren 等,2015);而且遙感圖像中的目標(biāo)往往定向分布,等等。因此傳統(tǒng)的回歸框不能夠較好地表示遙感圖像中目標(biāo)的位置信息。
針對上述問題,許多研究改進(jìn)自然場景下基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測算法,使其更好地應(yīng)用于遙感場景下的目標(biāo)檢測任務(wù)。
(1)對于遙感圖像目標(biāo)特征提取能力不足的問題,許多研究致力于在特征提取網(wǎng)絡(luò)上進(jìn)行改進(jìn)。 Mask OBB (Mask Oriented Bounding Box)(Wang 等,2019)引入了語義注意力機(jī)制,用于強(qiáng)化目標(biāo)特征,過濾背景信息;YOLT(You Only Look Twice)(Van Etten,2018)為了解決高分辨率遙感圖像場景信息復(fù)雜的問題,將大尺寸的圖像剪裁成較小的圖像塊,再利用YOLO等方法對單個(gè)圖像塊進(jìn)行檢測,最終合并結(jié)果;CBDA-Net(Center-Boundary Dual Attention Network)(Liu 等,2021)則利用一個(gè)雙流注意力網(wǎng)絡(luò)提取目標(biāo)中心和邊界信息用于區(qū)分目標(biāo)和背景。上述方法主要通過區(qū)分背景和目標(biāo)來強(qiáng)化目標(biāo)表征,但是忽略了特征的上下文語義以及缺乏更為精細(xì)化的目標(biāo)特征。
(2)對應(yīng)遙感圖像目標(biāo)檢測中目標(biāo)尺度變化較大的問題,許多研究采用特征金字塔(Lin 等,2017a) 的形式進(jìn)行多層級檢測。如姚群力等(2019)通過構(gòu)造深層特征金字塔和聚焦分類損失,有效地提升模型對多尺度目標(biāo)的檢測精度;史文旭等(2020)為提高復(fù)雜場景下多尺度目標(biāo)檢測的性能,利用特征增強(qiáng)和特征融合的方法改進(jìn)特征金字塔以適應(yīng)不同背景下的遙感圖像目標(biāo)檢測。然而這些方法僅利用不同尺寸的特征圖來進(jìn)行多尺度檢測同時(shí),也忽略了特征金字塔的通道信息損失,不利于后續(xù)目標(biāo)地定位和分類。
(3)在遙感圖像中目標(biāo)的定向分布問題中,許多研究引入了角度值和定向檢測框來表示目標(biāo)的位置信息。RRPN(Rotation Region Proposal Network)(Ma 等,2018)率先利用旋轉(zhuǎn)錨點(diǎn)框的方法去匹配密集排列的旋轉(zhuǎn)目標(biāo),實(shí)現(xiàn)了目標(biāo)方向 角 度 的 回 歸;SCRDet (Detection for Small,Cluttered and Rotated Objects)(Yang 等,2019)引入了平滑交并比損失在一定程度上解決了角度回歸的邊界問題。然而角度值回歸會引發(fā)邊界問題而平滑交并比利用交并比因子來緩解角度值引發(fā)的回歸突變并沒有從本質(zhì)上解決邊界問題。
本文針對遙感圖像目標(biāo)檢測中存在的特征提取困難、尺度差異較大、有向目標(biāo)方向表示三方面問題,提出了一個(gè)新的基于精細(xì)化多尺度特征的遙感圖像定向目標(biāo)檢測算法;該方法充分考慮了遙感圖像的場景復(fù)雜以及尺度問題,設(shè)計(jì)了一個(gè)基于空洞卷積的上下文注意力網(wǎng)絡(luò),提出了精細(xì)化的特征金字塔網(wǎng)絡(luò)并在檢測任務(wù)中引入了新的方向因子。本文具體貢獻(xiàn)包括:(1)設(shè)計(jì)了基于空洞卷積的上下文注意力網(wǎng)絡(luò),提高模型對復(fù)雜背景下目標(biāo)的特征表示能力;(2)設(shè)計(jì)了精細(xì)化的特征金字塔網(wǎng)絡(luò),有效地緩解由于遙感圖像中目標(biāo)尺度變化對模型性能的影響;(3)引入了新的方向因子來表示遙感圖像中目標(biāo)的方向信息。
本文在Faster R-CNN OBB (Faster Region-Convolutional Neural Network for Oriented Bounding Box)上進(jìn)行改進(jìn),在特征提取階段引入了基于空洞卷積的上下文注意力網(wǎng)絡(luò),提高了主干網(wǎng)絡(luò)對目標(biāo)特征的表示能力;在多層級特征提取階段,設(shè)計(jì)了一個(gè)精細(xì)化特征金字塔網(wǎng)絡(luò),幫助模型提取圖像中多尺度目標(biāo);在回歸階段引入了新的方向因子表示目標(biāo)的方向信息。下面將詳細(xì)介紹各個(gè)模塊。
在基于卷積神經(jīng)網(wǎng)絡(luò)的特征提取方法中,特征圖的語義信息隨著網(wǎng)絡(luò)的加深而愈加豐富(于野 等,2020)。因此在目標(biāo)檢測方法中,往往對頂層特征圖進(jìn)行目標(biāo)的分類和定位。然而這種特征提取很難在場景信息較大的遙感圖像中提取較小目標(biāo)的表征,尤其在ResNet(He 等,2016)下采樣的過程中,模型很難提取甚至丟失這些目標(biāo)的表征;此外,遙感圖像存在大量的背景噪聲,很容易干擾網(wǎng)絡(luò)對目標(biāo)顯式特征的判斷(周勇 等,2021)。為了解決這些困難,本文設(shè)計(jì)了一個(gè)基于空洞卷積的上下文注意力網(wǎng)絡(luò),嵌入到ResNet-50各個(gè)階段之間,提高模型在復(fù)雜背景下目標(biāo)特征的表示能力,改進(jìn)后的特征提取網(wǎng)絡(luò)如圖1所示。
ResNet-50 包含5 個(gè)階段(stage),16 個(gè)殘差塊,50 個(gè)卷積層。在每個(gè)階段之間,利用基于空洞卷積注意力來強(qiáng)化特征對目標(biāo)尺度的感知能力并且利用上下文信息來弱化背景噪聲對目標(biāo)特征提取的影響。具體的注意力網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
空洞卷積由于其更為廣泛的感受野,可以感知上下文特征而被廣泛應(yīng)用(Chen 等,2017)。引入空洞卷積使 ResNet 在保持參數(shù)量不變、每個(gè)階段的卷積層視野不變的前提下,靠后的卷積層也可保持較大的特征圖尺寸,從而有利于對小目標(biāo)的檢測,提高模型整體性能(Yu和 Koltun,2016;Chen 等,2017)。本文首先利用多尺度的空洞卷積獲取圖像的尺度信息和上下文信息。經(jīng)過不同尺度的卷積核對特征進(jìn)行采樣然后利用獨(dú)立的卷積層來學(xué)習(xí)顯著性的激活區(qū)域,最終利用sigmoid 函數(shù)輸出注意力權(quán)重。具體地,將每個(gè)階段輸入的特征圖表示為Xi∈RC×H×W,其中,C表示特征圖X的通道數(shù),H和W表示特征圖X的高、寬尺寸;由于第一層淺層特征不被利用,i表示階段索引(i=2,3,4)。將第i個(gè)特征圖輸入到本文設(shè)計(jì)的注意力網(wǎng)絡(luò)中,首先通過一個(gè)并行的空洞卷積金字塔。其中包含了4 個(gè)不同空洞率的空洞卷積Ak(k=1,2,3,4),空洞率分別是1,3,5,7。經(jīng)過空洞卷積金字塔后,再經(jīng)過獨(dú)立的1×1 卷積層輸出4 個(gè)融合上下文信息的特征圖fk(k=1,2,3,4),具體計(jì)算方式如下:
式中,Convk1×1表示第k個(gè)1×1卷積,k=1,2,3,4。得到的輸出[f1,f2,f3,f4],分別表示在不同的尺度下感知不同范圍上下文信息的特征圖。為了聚合這些信息,利用一層1×1 卷積,對4 個(gè)特征圖融合并激活顯著性區(qū)域。最終利用sigmoid 將顯著性圖轉(zhuǎn)換為注意力權(quán)重圖。具體計(jì)算過程如下
式中,a∈R1×H×W表示輸出的注意力權(quán)重圖,σ表示sigmoid 函數(shù)。將得到的注意力權(quán)重圖與輸入的特征圖融合即可獲得包含尺度信息和上下文信息的特征,融合方式為:
式中,X′i表示輸出的強(qiáng)化后的特征圖,?表示逐元素相乘計(jì)算。
圖 1 改進(jìn)后的特征提取網(wǎng)絡(luò)Fig.1 Improved feature extraction network
圖 2 基于空洞卷積的上下文注意力網(wǎng)絡(luò)Fig.2 Context attention network based on hole convolution
在遙感圖像中,目標(biāo)間的尺度差異較大(如車輛和港口輪船在尺度上相差數(shù)倍),無法直接使用卷積神經(jīng)網(wǎng)絡(luò)中的頂層特征檢測這種多尺度目標(biāo)(于野 等,2020)。多數(shù)方法采用了特征金字塔網(wǎng)絡(luò)FPN(Feature Pyramid Network)去適應(yīng)圖像中的尺度變化,如圖3(a)所示。特征金字塔利用了側(cè)連接的方式來建立一個(gè)自頂向下的特征提取網(wǎng)絡(luò),每層都包含了相鄰層級的語義信息,最終輸出多個(gè)尺度的特征圖,有助于模型對多尺度目標(biāo)的檢測。
圖 3 對比傳統(tǒng)特征金字塔和本文提出的精細(xì)化特征金字塔Fig.3 Comparisons the traditional feature pyramid with the refined feature pyramid proposed in this paper
式中,PixelShuffle(·)表示像素混洗操作。像素混洗是圖像超分辨率算法中較為經(jīng)典的一種,主要功能是將低分辨的特征圖通過通道間的重組得到高分辨率的特征圖(Shi 等,2016)。經(jīng)過上述兩步操作,最終待融合的特征Pi保留了通道和尺度信息,在向下融合的過程中對多尺度的遙感圖像模板進(jìn)行了更精細(xì)化的表征提取,最終進(jìn)行的融合過程如圖3(b)中所示。
在遙感圖像的目標(biāo)檢測任務(wù)中,需要最終確定場景中目標(biāo)的位置及方向,采用目標(biāo)檢測的水平回歸框,容易造成多個(gè)目標(biāo)以及背景與目標(biāo)之間的混疊。一些研究提出定向回歸框來定位遙感或文字檢測場景的目標(biāo),定義了一個(gè)新的方向因子θ,表示框長邊與水平軸的夾角,并且固定該角度范圍為[-90°,0]。
然而,在遙感場景下,頂點(diǎn)坐標(biāo)真值無序易引起角度預(yù)測錯(cuò)誤、回歸困難等問題,這種問題被成為回歸邊界性(Yang 等,2019)。因此本文采用預(yù)測滑動頂點(diǎn)(Xu 等,2021)的方式來解決邊界問題,如圖4所示。
圖 4 方向因子的標(biāo)簽生成方式Fig.4 Label generation method of direction factor
首先,由于水平框不存在邊界問題,因此網(wǎng)絡(luò)先預(yù)測出一個(gè)水平的矩形框坐標(biāo)(x,y,w,h),通過這組坐標(biāo)可以求出水平框的頂點(diǎn)坐標(biāo)(v1′,v2′,v3′,v4′)。其次引入了一組新的方向因子(α1,α2,α3,α4),這組方向因子表示水平框4 個(gè)頂點(diǎn)的相對偏移量。其計(jì)算方式如下所示:
式中,Si表示預(yù)測框頂點(diǎn)vi和真值框頂點(diǎn)vi′的絕對偏移量。因此,最終回歸分支預(yù)測的回歸向量為(x,y,w,h,α1,α2,α3,α4)。
本文采用一個(gè)多任務(wù)損失函數(shù)進(jìn)行模型的訓(xùn)練,損失函數(shù)為
式中:Ltotal表示總損失,Ncls表示輸入第二階段網(wǎng)絡(luò)中總的候選框個(gè)數(shù),Nreg表示輸入第二個(gè)階段網(wǎng)絡(luò)中正樣本的個(gè)數(shù),i為候選框的索引。對于第i個(gè)候選框,若它為正樣本則pi*為1,反之則為0。Lcls和Lreg分別表示分類任務(wù)和回歸任務(wù)的損失,與傳統(tǒng)目標(biāo)檢測類似,Lcls采用交叉熵?fù)p失(Lin 等,2017a)。由于回歸目標(biāo)引入了新的方向因子,回歸損失Lreg的形式需要改進(jìn),其具體形式為
式中,λ表示損失的平衡權(quán)重參數(shù),Lh表示水平框的回歸損失,αˉi表示方向因子的真值。取四個(gè)點(diǎn)的均值均值作為斜框的中心坐標(biāo),框的角度使用四邊形最長的邊對應(yīng)的兩個(gè)頂點(diǎn)兩個(gè)坐標(biāo),由這條邊與x軸的夾角作為角度真值。與傳統(tǒng)目標(biāo)檢測保持一致,方向因子αi的損失采用smoothL1損失(Girshick,2015)進(jìn)行訓(xùn)練。
實(shí)驗(yàn)環(huán)境為處理器為Intel Xeon Gold 5120 CPU@2.20 GHz 的服務(wù)器,GPU 是4 個(gè)NVIDIA GeForce RTX2080Ti GPU,顯存皆為11 GB。編程環(huán)境為Python3.6.11和Pytorch1.4.0。
(1)DOTA 數(shù)據(jù)集:DOTA 數(shù)據(jù)集如圖5(a)所示。作為遙感圖像定向目標(biāo)檢測的基準(zhǔn)數(shù)據(jù)集,它包含2806 張來自不同傳感器衛(wèi)星的遙感圖像,主要來源為天地圖。圖像像素每英寸尺寸范圍從800×800 到4000×4000。數(shù)據(jù)集標(biāo)注了188282 個(gè)不同尺度、不同方向的實(shí)例目標(biāo),共分為15個(gè)類別:飛機(jī)PL(Plane)、棒球場BD(Baseball Diamond)、橋 梁BR (Bridge)、田 徑 場GTF (Ground Track Field)、小型車輛SV(Small Vehicle)、大型車輛LV(Large Vehicle)、船體SH(Ship)、網(wǎng)球場TC(Tennis Court)、籃球場BC(Basketball Court)、儲油罐ST(Storage Tank)、足球場SBF(Soccer-ball Field)、環(huán)形交叉路口RA(Roundabout)、海港HA(Harbor)、游泳池SP(Swimming Pool)以及直升飛機(jī)(Helicopter)。
(2)HRSC2016:HRSC2016 是一個(gè)遙感圖像艦船檢測的數(shù)據(jù)集。如圖5(b)所示,其中包含了對船體定向的標(biāo)注框。數(shù)據(jù)集內(nèi)包含了1061 張來自天地圖的遙感圖像,其像素每英寸尺寸范圍從300×300 到1599×900。數(shù)據(jù)集共包含了2976 個(gè)船體實(shí)例。訓(xùn)練過程中,436 張圖像被劃分為訓(xùn)練集,181 張圖像被劃分為驗(yàn)證集,444 張圖像被視為測試集。
圖5 實(shí)驗(yàn)所用數(shù)據(jù)集樣本Fig.5 Sample data set used in the experiment
為了驗(yàn)證本文提出模型在遙感圖像定向目標(biāo)檢測上的準(zhǔn)確性,我們采用平均準(zhǔn)確度均值mAP(mean Average Precision)作為實(shí)驗(yàn)所用評價(jià)指標(biāo),利用平均準(zhǔn)確度AP(Average Precision)衡量單類別檢測準(zhǔn)確度。mAP 是所有類別AP 值的平均,mAP值和AP值越大,反映了模型整體或在獨(dú)立類別上的檢測準(zhǔn)確性越高。具體的mAP計(jì)算方式如下:
式中,n表示類別的總個(gè)數(shù),i則為類別的索引。AP值是每一個(gè)類別的(準(zhǔn)確率—召回率)曲線的面積。其中準(zhǔn)確率P(Precision)和召回率R(Recall)的計(jì)算方式如下:
式中,TP,F(xiàn)P,F(xiàn)N分別表示真陽性、假陽性以及假陰性的個(gè)數(shù)。
本文采用的特征提取網(wǎng)絡(luò)是ResNet-50,并進(jìn)行了改進(jìn)。ResNet-50 在ImageNet 數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練并在遙感數(shù)據(jù)集上進(jìn)行了微調(diào)。在訓(xùn)練過程中,由于直接訓(xùn)練高分辨率遙感圖像會對精度造成影響,對這些遙感圖像進(jìn)行剪裁操作:對于DOTA 數(shù)據(jù)集,將其中的圖像剪裁成1024×1024 的圖像塊,并進(jìn)行了90°、180°和270°的旋轉(zhuǎn)數(shù)據(jù)增廣;對于HRSC2016 統(tǒng)一縮放其中遙感圖像到512×800的分辨率再進(jìn)行訓(xùn)練和檢測。
為了公平比較本文提出的方法與其他優(yōu)越的算法,一些超參數(shù)的設(shè)置要保持一致:對于DOTA數(shù)據(jù)集的實(shí)驗(yàn),訓(xùn)練過程中初始學(xué)習(xí)率設(shè)置為7.5×10-3最終學(xué)習(xí)率達(dá)到7.5×10-5,總迭代次數(shù)設(shè)置為70000,批處理大小設(shè)置為4;對于HRSC2016數(shù)據(jù)集的實(shí)驗(yàn),初始學(xué)習(xí)率設(shè)置為1×10-2最終學(xué)習(xí)率達(dá)到1×10-4,總迭代次數(shù)為2000,批處理大小為8。
為了驗(yàn)證本文設(shè)計(jì)的基于空洞卷積的上下文注意力網(wǎng)絡(luò),采用Faster R-CNN 為基線模型,分別以ResNet-50、ResNet-101 為主干網(wǎng)絡(luò),回歸方式采用滑動頂點(diǎn),對比引入上下文注意力前后檢測模型的精度變化。所有消融實(shí)驗(yàn)留在DOTA數(shù)據(jù)集上進(jìn)行驗(yàn)證。
3.4.1 驗(yàn)證基于空洞卷積的上下文注意力
如表1 所示,在ResNet-50 的基礎(chǔ)上引入基于空洞卷積的上下文注意力,可以有效地提升0.82%的mAP 值;其中由于引入過多上下文信息導(dǎo)致了特征混淆,一些類別的AP 值在可接受的范圍內(nèi)下降;對于大多數(shù)的類別,可以有效地提升其特征表示能力從而提高了其檢測的準(zhǔn)確度。
表1 驗(yàn)證基于空洞卷積的上下文注意力Table 1 Verification of contextual attention based on hole convolution
3.4.2 驗(yàn)證精細(xì)化特征金字塔
為了驗(yàn)證本文提出的精細(xì)化特征金字塔對模型的貢獻(xiàn),以Faster R-CNN 為基線模型,主干網(wǎng)絡(luò)采用ResNet-50,特征金字塔FPN 為多尺度特征提取網(wǎng)絡(luò),回歸方式采用滑動頂點(diǎn)的方式,對比引入FPN 和引入精細(xì)化FPN 對模型檢測精度造成的影響,實(shí)驗(yàn)結(jié)果如表2所示。實(shí)驗(yàn)結(jié)果顯示,引入精細(xì)化FPN 可以在基線模型的基礎(chǔ)上提升1.27%的mAP值;針對尺度變化較大的目標(biāo)SV、LV(大型車輛、小型車輛)較基準(zhǔn)算法提高顯著,提升分別達(dá)到4.99%和9.68%。
表2 驗(yàn)證精細(xì)化特征金字塔Table 2 Validation refinement feature pyramid
3.4.3 方向因子消融實(shí)驗(yàn)
如表3 所示,本文以Faster R-CNN OBB 為基線模型并為了公平比較引入了傳統(tǒng)的特征金字塔FPN,當(dāng)以傳統(tǒng)的角度方式回歸,回歸向量為(x1,y1,w,h,θ)時(shí)得到實(shí)驗(yàn)結(jié)果為68.72%;當(dāng)引入本文采用的方向因子時(shí)得到實(shí)驗(yàn)結(jié)果為74.69%,提升了5.97%,驗(yàn)證了方向因子的有效性。
表3 方向因子消融實(shí)驗(yàn)Table 3 Directional factor ablation experiment
3.4.4 模型整體消融
為了獲得最佳的模型,本文在以Faster RCNN 為基線模型的情況下,分別在主干網(wǎng)絡(luò)為ResNet-50和ResNet-101的情況下探究兩個(gè)網(wǎng)絡(luò)對檢測精度的影響,所有模型的回歸都采用滑動頂點(diǎn)的方式,實(shí)驗(yàn)結(jié)果如表4所示。
表4 模型整體消融實(shí)驗(yàn)Table 4 Overall Ablation Experiment of model
實(shí)驗(yàn)結(jié)果顯示在以ResNet-50為主干網(wǎng)絡(luò)的情況下,同時(shí)引入基于空洞卷積的上下文注意力網(wǎng)絡(luò)和精細(xì)化特征金字塔,檢測效果提升1.96%的mAP 值;在以ResNet-101 為主干網(wǎng)絡(luò)的情況下,引入基于空洞卷積的上下文注意力網(wǎng)絡(luò)提升網(wǎng)絡(luò)檢測精度1.02%,引入精細(xì)化特征金字塔提升網(wǎng)絡(luò)1.14%的檢測精度,同時(shí)引入上述兩個(gè)算法提升網(wǎng)絡(luò)1.76% 的mAP 值;相較于原始的Faster R-CNN,本文方法將有向目標(biāo)檢測精度提升了mAP,最終達(dá)到了76.78% mAP,從而證明了方法的有效性。
本文整合注意力網(wǎng)絡(luò)和精細(xì)化特征金字塔網(wǎng)絡(luò)后與當(dāng)前在DOTA 數(shù)據(jù)集和HRSC2016 數(shù)據(jù)集上分別與目前最新的方法進(jìn)行對比。
(1)HRSC2016 數(shù)據(jù)集上的結(jié)果:HRSC2016數(shù)據(jù)集包含了大類的定向船體目標(biāo)。結(jié)果如表5所示,相對于R2CNN(Jiang 等,2018)、RRPN(Ma等,2018)、TOSO(Feng 等,2020)、RoI Transformer(Ding 等,2019)、RSDet(Qian 等,2021)、Gliding Vertex(Xu 等,2021)、DAL(Ming 等,2021)、R3Det(Yang 等,2021b)、DCL(Yang 等,2021a)、CSL(Yang 和 Yan,2020),本文提出的方法在mAP 值上達(dá)到了89.95%,精度較其他方法具有較為顯著的提升。在HRSC2016 數(shù)據(jù)集上檢測效果如圖6所示。
表5 在HRSC2016數(shù)據(jù)集上與先進(jìn)方法的對比實(shí)驗(yàn)結(jié)果Table 5 Comparative experimental results with advanced methods on HRSC2016 dataset
圖 6 在HRSC2016數(shù)據(jù)集上的檢測結(jié)果Fig.6 Test results on HRSC2016 dataset
(2)DOTA 數(shù)據(jù)集上的結(jié)果:DOTA 數(shù)據(jù)集包含15 個(gè)類別的地物目標(biāo),類別包含:飛機(jī)(PL)、船(SH)、儲罐(ST)、棒球場(BD)、網(wǎng)球場(TC)、游泳池(SP)、田徑場(GTF)、港口(HA)、橋梁(BR)、小型車輛(SV)、大型車輛(LV)、直升機(jī)(HC)、環(huán)島(RA)、足球場(SBF)和籃球場(BC),分別對比它們的AP 值以及整體的mAP 值評估本文方法的優(yōu)越性,結(jié)果如表6 所示。對比方法包含了定向的Faster R-CNN (FR-O)(Xia 等,2018)、Poly IoU 損失(PIoU Loss)(Chen等,2020)、RRPN、RoI Transformer、CAD-Net(Zhang等,2019)、DRN(Pan 等,2020)、R3Det、RSDet、Gliding Vertex、CBDA-Net(Liu 等,2021)、APE(Zhu 等,2020)、CenterMap OBB(Wang 等,2021)、CFA(Guo 等,2021)。實(shí)驗(yàn)結(jié)果顯示,本文方法mAP 達(dá)到76.78%,相對于基準(zhǔn)算法FR-O 本文最終提出的算法提升了22.65%。此外,相對比與表6中其他的方法,本文提出的算法特別在棒球場(BD)、橋梁(BR)、田徑場(GTF)、船(SH)、籃球場(BC)、儲罐(ST)、足球場(SBF)、港口(HA)、游泳池(SP)目標(biāo)的檢測上獲得較好的精度。由于不同算法采用的回歸方式不同和損失函數(shù)不同,導(dǎo)致在不同類別上模型精度有一定差異。我們主要分析直升機(jī)類別(HC)與其他先進(jìn)方法產(chǎn)生較大差異的原因。對于一些不直接回歸方向因子,采用熱圖分割或新變量表示旋轉(zhuǎn)框方法,比如CenterMap OBB、CFA、APE 等,對直升機(jī)這種角度方向變化較少的類別有更優(yōu)越的性能;此外,一些方法提出了新的約束損失比如PIoU Loss、CFA 中 的CIoU Loss,CBDA-Net 中 的arwLoss 等,對直升機(jī)這種樣本少,目標(biāo)較小的類別可以學(xué)習(xí)到更多信息,因此展示了更優(yōu)的性能。CFA 算法提出的凸包自適應(yīng)方法,利用凸包特征表示目的是解決密集目標(biāo)的特征混淆問題(Guo 等,2021),因此對于較為密集的類別表現(xiàn)不錯(cuò),比如泳池(SP)、小型車輛(SV)、大型車輛(LV)、直升飛機(jī)(HC)。然而CFA 方法是對密集目標(biāo)存在特征重疊的情況下提出的特征表示方法,在非密集目標(biāo)比如籃球棒球場(BD)、田徑場(GTF)、籃球場(BC)、足球場(SBF)上與該類最優(yōu)檢測精度有一定差距。實(shí)驗(yàn)結(jié)果表明,這些運(yùn)動場類目標(biāo)在圖像中往往單獨(dú)出現(xiàn)且不存在特征混疊,因此采用CFA 的特征表示是冗余的計(jì)算,從而導(dǎo)致最終檢測精度的下降。本文提出的方法致力于解決多尺度目標(biāo)檢測問題。相較于CFA,沒有冗余的特征表示方法。雖然在許多密集目標(biāo)上性能與CFA 存在差距,但是在總體檢測精度上有一定的優(yōu)勢;此外采用的回歸方式適應(yīng)于多個(gè)類別,因此在整體上獲得了最優(yōu)的精度。
圖 7 在DOTA數(shù)據(jù)集上的檢測結(jié)果Fig.7 Test results on DOTA dataset
表6 在DOTA數(shù)據(jù)集上與其他方法的對比實(shí)驗(yàn)結(jié)果Table 6 Experimental results of comparison with other methods on DOTA dataset
在DOTA 數(shù)據(jù)集上的檢測效果如圖7 所示;此外,對比了基線模型(Baseline),Center Map OBB 以及本文提出的方法,如圖8 所示,在包含多尺度的目標(biāo)以及更多小目標(biāo)的情況下,本文提出的方法能更加準(zhǔn)確并且完整地檢測出圖像內(nèi)的目標(biāo)。
圖 8 在DOTA數(shù)據(jù)集上的可視化對比Fig.8 Visualization comparison on the DOTA dataset
遙感圖像目標(biāo)檢測中存在特征提取困難、尺度差異較大及目標(biāo)方向的表示等問題。本文有針對性的提出了一種面向精細(xì)化多尺度特征的目標(biāo)檢測方法。首先,利用空洞卷積的上下文注意力網(wǎng)絡(luò)來強(qiáng)化目標(biāo)特征,它通過不同空洞率來擴(kuò)大感受野,豐富特征的上下文語義并融入尺度信息,強(qiáng)化了卷積神經(jīng)網(wǎng)絡(luò)對遙感圖像中目標(biāo)和背景的判別能力;其次,提出了精細(xì)化特征金字塔解決遙感圖像目標(biāo)變化差異大的問題,為了應(yīng)對目標(biāo)的尺度變化,先利用多尺度卷積細(xì)化特征金字塔各層級的尺度信息;再利用像素混洗的方式,緩解尺度變化帶來的目標(biāo)表征損失,強(qiáng)化網(wǎng)絡(luò)對多尺度目標(biāo)特征信息的理解能力;最終,引入了滑動頂點(diǎn)的方向因子來表示定向的目標(biāo),減少了由于角度回歸會帶來的回歸邊界性問題。經(jīng)過實(shí)驗(yàn)證明,本文提出的上下文注意力網(wǎng)絡(luò)提高了0.82%檢測精度;精細(xì)化特征金字塔提高1.27%的檢測精度;滑動頂點(diǎn)的回歸方式有效提高了5.97%的檢測精度。此外相對于基線模型Faster R-CNN OBB,本文提出的算法有22.65%的精度提高。雖然本文提出的方法在總體精度上存在優(yōu)勢,但是由于缺乏考慮旋轉(zhuǎn)目標(biāo)特征表示,以及更優(yōu)良的損失函數(shù)設(shè)計(jì),相較于其他方法本文提出的算法在密集目標(biāo)、小目標(biāo)存在一定的性能差距。因此,在未來的工作中將進(jìn)一步優(yōu)化特征提取網(wǎng)絡(luò),考慮目標(biāo)的角度變化對特征提取的影響,并考慮損失函數(shù)的設(shè)計(jì),進(jìn)一步提高模型的泛化能力。