沙苗苗,李宇,李安
1.中國(guó)科學(xué)院空天信息創(chuàng)新研究院,北京 100094;2.中國(guó)科學(xué)院大學(xué)電子電氣與通信工程學(xué)院,北京 100049
遙感圖像目標(biāo)檢測(cè)一直是遙感圖像處理領(lǐng)域的一個(gè)研究熱點(diǎn)。作為一種重要的戰(zhàn)略目標(biāo),飛機(jī)目標(biāo)的檢測(cè)具有較高的研究和應(yīng)用價(jià)值,引起了研究人員極大的興趣。隨著遙感圖像空間分辨率的不斷提高,圖像內(nèi)容越來(lái)越復(fù)雜多樣,早期的飛機(jī)目標(biāo)檢測(cè)方法多利用目標(biāo)的簡(jiǎn)單特征如角點(diǎn)(仇建斌 等,2011)、輪廓形狀(蔡棟 等,2014)等,難以應(yīng)對(duì)當(dāng)前高分辨率遙感圖像中的復(fù)雜信息。同時(shí),飛機(jī)目標(biāo)在遙感圖像上形態(tài)各異且具有多種尺度,因此,在遙感圖像上進(jìn)行飛機(jī)目標(biāo)檢測(cè)十分具有挑戰(zhàn)性。
傳統(tǒng)的遙感圖像飛機(jī)目標(biāo)檢測(cè)主要分為3個(gè)步驟:首先使用滑動(dòng)窗口或者顯著性等方法生成候選區(qū)域,然后進(jìn)行候選區(qū)域的特征提取,最后將提取到的特征輸入到相應(yīng)的訓(xùn)練好的分類器中從而得到檢測(cè)結(jié)果。Li 等(2011)首先使用顯著性方法提取遙感圖像中的候選區(qū)域,然后利用飛機(jī)目標(biāo)的對(duì)稱性以及模板匹配的方法進(jìn)行飛機(jī)目標(biāo)的檢測(cè)。Zhao 等(2017)使用多種尺度的滑動(dòng)窗口生成相應(yīng)的候選區(qū)域,然后提取候選區(qū)域的集合通道特征,最后使用AdaBoost 算法得到飛機(jī)目標(biāo)的檢測(cè)結(jié)果。然而,顯著性的方法需要人工設(shè)置相應(yīng)的閾值進(jìn)行候選區(qū)域的生成,容易造成目標(biāo)的漏檢?;瑒?dòng)窗口的方法需要在遙感圖像上進(jìn)行多種尺寸的候選區(qū)域的遍歷,十分耗時(shí)。同時(shí),這類傳統(tǒng)方法采用的特征多為形狀、梯度等淺層次特征,不具有很好的區(qū)分性,無(wú)法有效地將復(fù)雜多樣的飛機(jī)目標(biāo)從遙感圖像中檢測(cè)出來(lái)。
近年來(lái),深度學(xué)習(xí)成為人工智能領(lǐng)域備受矚目的研究?jī)?nèi)容之一(張洪群等,2017;王宇等,2019)。在深度學(xué)習(xí)方法中,卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)由于其權(quán)值共享、平移不變性等特點(diǎn),在圖像分類領(lǐng)域取得令人矚目的成績(jī)(Krizhevsky 等,2017;張康等,2018)。鑒于卷積神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征提取能力,研究人員將其應(yīng)用到目標(biāo)檢測(cè)領(lǐng)域。其中,以基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)R-CNN(Girshick 等,2013)在VOC2012 數(shù)據(jù)集上取得最高的檢測(cè)精度為里程碑,基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)真正的活躍起來(lái)。這種方法通過(guò)使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行候選區(qū)域特征提取,大幅提高目標(biāo)檢測(cè)精度,但是該方法依然存在以下問題:(1)每個(gè)候選區(qū)域都要分別進(jìn)行特征提取,檢測(cè)效率低;(2)需要分別進(jìn)行分類器以及邊框回歸的訓(xùn)練;(3)候選區(qū)域的生成與特征提取割裂開來(lái),無(wú)法滿足實(shí)時(shí)的檢測(cè)需求。針對(duì)第一個(gè)問題,He 等(2014)提出的基于空間金字塔池化的卷積神經(jīng)網(wǎng)絡(luò)SPP(Spatial Pyramid Pooling)使用感興趣區(qū)域RoI(Region of Interest)從整幅特征圖中“裁剪”出候選區(qū)域?qū)?yīng)的特征,從而大幅提高檢測(cè)效率。針對(duì)第2個(gè)問題,Girshick(2015)提出的Fast R-CNN 通過(guò)使用多任務(wù)損失函數(shù),同時(shí)進(jìn)行分類以及邊框回歸的訓(xùn)練,從而將目標(biāo)檢測(cè)集成為兩個(gè)階段:候選區(qū)域的生成以及使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取、分類和邊框回歸。隨后Ren等(2017)提出的Faster R-CNN,通過(guò)共享特征提取網(wǎng)絡(luò),在經(jīng)過(guò)卷積池化后的最后一個(gè)特征圖上使用RPN 直接生成多種尺度以及縱橫比的候選區(qū)域,將目標(biāo)檢測(cè)的多個(gè)步驟統(tǒng)一到一個(gè)網(wǎng)絡(luò)框架中,實(shí)現(xiàn)端到端的目標(biāo)檢測(cè),檢測(cè)精度以及效率大幅提升。鑒于Faster R-CNN 比傳統(tǒng)的目標(biāo)檢測(cè)方法在檢測(cè)精度上有很大的提高,研究人員將其應(yīng)用到遙感圖像飛機(jī)目標(biāo)檢測(cè)中。Wang 等(2017)基于Faster R-CNN,使用聚類的方法確定候選區(qū)域的尺度繼而進(jìn)行遙感圖像飛機(jī)目標(biāo)檢測(cè)。Ren等(2018)通過(guò)在Faster R-CNN 的特征提取網(wǎng)絡(luò)中加入上下文信息,從而提高遙感圖像中飛機(jī)目標(biāo)尤其是小目標(biāo)的檢測(cè)精度。Li 等(2019)基于Faster R-CNN,通過(guò)設(shè)置更小的候選區(qū)域尺度從而提高遙感圖像飛機(jī)目標(biāo)的檢測(cè)精度。然而,上述方法均是在單一尺度的特征圖上進(jìn)行目標(biāo)檢測(cè),不適用于遙感圖像多尺度飛機(jī)目標(biāo)。并且,特征圖在經(jīng)過(guò)卷積神經(jīng)網(wǎng)絡(luò)的多次池化之后,一方面其精確的細(xì)節(jié)信息丟失,另一方面尺度較小的目標(biāo)對(duì)應(yīng)特征圖中的區(qū)域較小,直接在池化后的單一尺度特征圖上進(jìn)行目標(biāo)檢測(cè)可能造成目標(biāo)定位精度不高以及目標(biāo)漏檢的現(xiàn)象。
針對(duì)上述問題,本文提出一種基于改進(jìn)Faster R-CNN 的多尺度飛機(jī)目標(biāo)檢測(cè)方法,通過(guò)在Faster R-CNN 的特征提取網(wǎng)絡(luò)中加入多層級(jí)融合結(jié)構(gòu)構(gòu)建多尺度特征提取網(wǎng)絡(luò),同時(shí),針對(duì)飛機(jī)目標(biāo)選取合適的候選區(qū)域生成網(wǎng)絡(luò)參數(shù),從而適應(yīng)于遙感圖像多尺度飛機(jī)目標(biāo)檢測(cè)。除此之外,由于網(wǎng)絡(luò)中新加入的結(jié)構(gòu)單元將高層次的語(yǔ)義信息與低層次的細(xì)節(jié)信息相結(jié)合,改進(jìn)后的網(wǎng)絡(luò)所生成的多尺度特征圖既具有較高的定位精度又具有很好的區(qū)分性,從而在提高多尺度飛機(jī)目標(biāo)檢測(cè)精度的同時(shí),提升了目標(biāo)的定位精度、降低了目標(biāo)的漏檢現(xiàn)象。
本文提出的遙感圖像多尺度飛機(jī)目標(biāo)檢測(cè)流程圖如圖1。遙感圖像多尺度飛機(jī)目標(biāo)檢測(cè)主要分為3 個(gè)部分:特征提取網(wǎng)絡(luò)、候選區(qū)域生成網(wǎng)絡(luò)RPN 以及分類回歸網(wǎng)絡(luò)。對(duì)于卷積神經(jīng)網(wǎng)絡(luò),通常有許多連續(xù)的卷積層輸出相同大小的特征圖,則稱這些卷積層處于同一網(wǎng)絡(luò)層級(jí)(Lin 等,2017)。在進(jìn)行檢測(cè)時(shí),首先,使用特征提取網(wǎng)絡(luò)進(jìn)行圖像的特征提取,通過(guò)多層級(jí)融合結(jié)構(gòu)將高層級(jí)得到的特征圖進(jìn)行上采樣,再將其與較低層級(jí)得到的特征圖進(jìn)行融合,生成一系列不同尺度的特征圖F5、F4、F3 以及F2。然后,在不同尺度的特征圖上分別使用RPN 進(jìn)行候選區(qū)域的生成。最后,使用分類回歸網(wǎng)絡(luò)將不同尺度的候選區(qū)域?qū)?yīng)到相應(yīng)尺度的特征圖進(jìn)行分類與位置回歸,從而得到最終的飛機(jī)目標(biāo)檢測(cè)結(jié)果。
圖1 遙感圖像多尺度飛機(jī)目標(biāo)檢測(cè)流程圖Fig.1 The flow chart of multi-scale aircraft detection in optical remote sensing imagery
在對(duì)遙感圖像進(jìn)行飛機(jī)目標(biāo)檢測(cè)時(shí),特征提取的好壞在很大程度上決定了最終的檢測(cè)精度。本文通過(guò)對(duì)Faster R-CNN 的特征提取網(wǎng)絡(luò)進(jìn)行改進(jìn),在網(wǎng)絡(luò)中加入多層級(jí)融合結(jié)構(gòu)從而生成多種尺度的特征圖,對(duì)不同尺度的目標(biāo)使用不同尺度的特征圖進(jìn)行特征提取,使其適應(yīng)于遙感圖像多尺度飛機(jī)目標(biāo)檢測(cè)。
圖2為多層級(jí)融合結(jié)構(gòu)的示意圖。在進(jìn)行多層級(jí)融合時(shí),首先對(duì)高層級(jí)的特征圖進(jìn)行1×1的卷積得到固定通道數(shù)的特征圖,然后對(duì)其進(jìn)行2倍上采樣生成更高分辨率的特征圖,最后通過(guò)和經(jīng)過(guò)1×1卷積的低層級(jí)特征圖進(jìn)行融合,從而得到既具有深層次的語(yǔ)義特征又具有淺層次的空間信息的特征圖。對(duì)于卷積神經(jīng)網(wǎng)絡(luò),將每個(gè)網(wǎng)絡(luò)層級(jí)得到的最后一個(gè)特征圖作為此結(jié)構(gòu)的特征圖映射集。由于網(wǎng)絡(luò)的第一個(gè)層級(jí)輸出的特征圖提取到的特征較淺且占用的內(nèi)存較大,因此,不將其納入到映射集中。
圖2 多層級(jí)融合結(jié)構(gòu)示意圖Fig.2 The illustration of the multiple stages fusion structure
在選取基本的特征提取網(wǎng)絡(luò)時(shí),本文選取當(dāng)前具有代表性的3 種網(wǎng)絡(luò):ZF(Zeiler 和Fergus,2014)、VGG-16(Simonyan 和Zisserman,2015)以及ResNet-50(He等,2016),其中ZF以及VGG-16均為原始的Faster R-CNN 特征提取網(wǎng)絡(luò),而ResNet-50 則為網(wǎng)絡(luò)層次更深,性能更優(yōu)的特征提取網(wǎng)絡(luò)。將上述3種特征提取網(wǎng)絡(luò)分別加入多層級(jí)融合結(jié)構(gòu)進(jìn)行相應(yīng)改進(jìn),圖3 展示了改進(jìn)后的ResNet-50網(wǎng)絡(luò)模型。在對(duì)ResNet-50進(jìn)行改進(jìn)時(shí),首先將1×1的卷積作用于第五層級(jí)特征圖conv5_3,從而得到特征圖F5。然后,在該卷積的基礎(chǔ)上,使用線性插值的方法對(duì)其進(jìn)行2 倍上采樣。接著,對(duì)conv4_6 特征圖同樣進(jìn)行1×1 的卷積,再將其與F5 上采樣生成的特征圖進(jìn)行融合得到特征圖F4,F(xiàn)3、F2 以此類推。對(duì)于ZF 以及VGG-16 網(wǎng)絡(luò),生成多尺度特征圖的過(guò)程基本一致。使用這種結(jié)構(gòu),可以充分利用卷積神經(jīng)網(wǎng)絡(luò)各個(gè)層級(jí)提取到的特征,融合生成的特征圖具有更豐富的語(yǔ)義信息。
圖3 改進(jìn)后的ResNet-50網(wǎng)絡(luò)模型Fig.3 Proposed network structure based on ResNet-50
在RPN 出現(xiàn)之前,候選區(qū)域的生成與特征提取網(wǎng)絡(luò)割裂開來(lái),造成目標(biāo)檢測(cè)的效率較低,不適用于多尺度飛機(jī)目標(biāo)檢測(cè)。RPN 通過(guò)和檢測(cè)網(wǎng)絡(luò)共享特征提取網(wǎng)絡(luò),能夠顯著提高目標(biāo)檢測(cè)的效率以及精度,并且RPN 可以生成多種尺度以及縱橫比的候選區(qū)域,十分適合遙感圖像多尺度飛機(jī)目標(biāo)檢測(cè)。原始的Faster R-CNN 是對(duì)自然圖像目標(biāo)進(jìn)行檢測(cè),使用的候選區(qū)域尺度較大,與自然圖像相比,遙感圖像中飛機(jī)目標(biāo)尺度較小,需要為其設(shè)置相應(yīng)的小尺度候選區(qū)域。本文在對(duì)遙感圖像飛機(jī)目標(biāo)進(jìn)行檢測(cè)時(shí),根據(jù)遙感圖像中飛機(jī)目標(biāo)的特點(diǎn),使用多種尺度的特征圖F2、F3、F4 和F5,并對(duì)每個(gè)尺度的特征圖設(shè)置相應(yīng)尺度的候選區(qū)域,對(duì)于高分辨率的特征圖F2 設(shè)置小尺度的候選區(qū)域,對(duì)于較高分辨率的特征圖F3 設(shè)置較小尺度的候選區(qū)域,F(xiàn)4、F5以此類推。
2.2.1 RPN結(jié)構(gòu)
如圖4所示,RPN 通過(guò)對(duì)卷積神經(jīng)網(wǎng)絡(luò)各個(gè)層級(jí)生成的特征圖Fi(i=2,3,4,5)使用滑動(dòng)窗口進(jìn)行滑動(dòng),在每個(gè)滑動(dòng)窗口的位置上,RPN 同時(shí)進(jìn)行多種尺度以及縱橫比候選區(qū)域的生成,并且將滑動(dòng)窗口經(jīng)過(guò)的每個(gè)位置映射為固定維數(shù)的特征向量(根據(jù)選擇網(wǎng)絡(luò)的不同,維數(shù)也不同,ZF網(wǎng)絡(luò)生成的維數(shù)為256,VGG-16 和ResNet-50 生成的維數(shù)為512),然后將該特征向量輸入到兩個(gè)全連接層中:一個(gè)是邊框回歸層,另一個(gè)是分類層。將特征圖每個(gè)位置生成的候選區(qū)域的最大數(shù)量記為k,則每個(gè)邊框回歸層有4k個(gè)輸出(每個(gè)位置上輸出每個(gè)邊框的中心點(diǎn)坐標(biāo)以及長(zhǎng)寬共4k個(gè)參數(shù)),同理,每個(gè)分類層輸出2k個(gè)參數(shù)(每個(gè)位置上輸出每個(gè)邊框?yàn)槟繕?biāo)類以及非目標(biāo)類的概率)。同一個(gè)位置的每個(gè)候選區(qū)域?qū)?yīng)原像素空間同一個(gè)位置的某個(gè)參考區(qū)域,這個(gè)參考區(qū)域就被稱為基準(zhǔn)矩形框,也叫錨點(diǎn)(Anchor)。錨點(diǎn)的設(shè)置可以使預(yù)測(cè)框更精確的回歸到標(biāo)簽框,得到質(zhì)量更優(yōu)的候選框。本文在對(duì)候選區(qū)域參數(shù)進(jìn)行設(shè)置時(shí),保留與原Faster R-CNN 同樣的候選區(qū)域縱橫比1∶2,2∶1 以及1∶1,并設(shè)置更小尺度的候選區(qū)域,從而適應(yīng)于遙感圖像目標(biāo)檢測(cè)。
圖4 RPN結(jié)構(gòu)示意圖Fig.4 Schematic diagram of RPN
2.2.2 損失函數(shù)
訓(xùn)練RPN 時(shí),需要為每個(gè)基準(zhǔn)矩形框設(shè)置一個(gè)二值分類標(biāo)簽(是否為飛機(jī)),其中,將以下兩類基準(zhǔn)矩形框標(biāo)定為正樣本:
(1)與某個(gè)目標(biāo)標(biāo)簽框具有最高的交并比IoU(Intersection over Union);
(2)與任意目標(biāo)標(biāo)簽框的IoU超過(guò)0.7。
將與所有目標(biāo)標(biāo)簽框的IoU 小于0.3 的基準(zhǔn)矩形框標(biāo)定為負(fù)樣本。其他的基準(zhǔn)矩形框不參與RPN的訓(xùn)練過(guò)程。
候選區(qū)域生成網(wǎng)絡(luò)的損失函數(shù)是一個(gè)多任務(wù)損失函數(shù),該函數(shù)同時(shí)進(jìn)行分類與坐標(biāo)回歸的訓(xùn)練任務(wù),函數(shù)如式(1)所示:
式中,x,y,w,h分別表示預(yù)測(cè)框的中心橫坐標(biāo)、中心縱坐標(biāo)、寬度和高度。x*,y*,w*,h*分別表示標(biāo)簽框的中心橫坐標(biāo)、中心縱坐標(biāo)、寬度以及高度。xa,ya,wa,ha分別表示基準(zhǔn)矩形框的中心橫坐標(biāo)、中心縱坐標(biāo)、寬度和高度。Ncls和Nreg分別是分類以及坐標(biāo)回歸的歸一化系數(shù)。λ用于調(diào)節(jié)分類損失和坐標(biāo)回歸損失的相對(duì)重要程度。Lcls是分類的損失函數(shù),該損失函數(shù)是一個(gè)二分類的邏輯回歸損失函數(shù),其表達(dá)式如式(6):
Lreg是坐標(biāo)回歸的損失函數(shù),其具體的表達(dá)式為:
式中,smoothL1函數(shù)為:
使用RPN 得到一系列尺度、縱橫比不同的候選區(qū)域之后,如圖5所示,首先找到候選區(qū)域?qū)?yīng)在特征圖中的位置,進(jìn)行感興趣區(qū)域RoI(Region of Interest)投影,從而提取候選區(qū)域?qū)?yīng)的特征,這里的感興趣區(qū)域就是通過(guò)RPN 得到的候選區(qū)域。本文中,根據(jù)生成的候選區(qū)域尺度將其投影到不同的特征圖。將高度為h寬度為w的感興趣區(qū)域投影到Fi特征圖,其中:
圖5 分類回歸網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.5 Schematic diagram of classification and regression network
本文實(shí)驗(yàn)主要是在基于Linux 系統(tǒng)的Caffe 框架下完成,服務(wù)器處理器為Intel Xeon(R) CPU E5620@2.40 GHz,使用GPU加速,顯卡為NVIDIA TITAN Xp,使用Python 進(jìn)行編程。訓(xùn)練時(shí),各模型迭代40000 次,其中,前20000 次的學(xué)習(xí)率設(shè)置為0.001,后20000 次的學(xué)習(xí)率設(shè)置為0.0001,動(dòng)量設(shè)置為0.9,權(quán)值衰減參數(shù)為0.0001。
實(shí)驗(yàn)數(shù)據(jù)選擇RSOD數(shù)據(jù)集(Long等,2017),該數(shù)據(jù)集由武漢大學(xué)團(tuán)隊(duì)標(biāo)注,數(shù)據(jù)集來(lái)源主要是Google Earth 和天地圖,分辨率為0.5—2.0 m。本文僅使用其中的飛機(jī)目標(biāo)數(shù)據(jù)集,共有446張寬高在像素值1000 左右的飛機(jī)圖像,圖像中共有4993 個(gè)飛機(jī)目標(biāo)。其中,將60%的圖像作為訓(xùn)練以及驗(yàn)證數(shù)據(jù)集,將其余40%的圖像用于測(cè)試。由于深度學(xué)習(xí)的方法進(jìn)行目標(biāo)檢測(cè)時(shí)需要大量的訓(xùn)練數(shù)據(jù),因此,對(duì)于參與訓(xùn)練以及驗(yàn)證的圖像使用水平鏡像以及將圖像進(jìn)行90°、180°以及270°旋轉(zhuǎn)的方法,獲得原始訓(xùn)練以及驗(yàn)證影像8倍的圖像。RSOD數(shù)據(jù)集的部分樣本圖像如圖6所示。
圖6 RSOD數(shù)據(jù)集部分樣本圖像Fig.6 Image sample of the RSOD dataset
為評(píng)估本文算法進(jìn)行遙感圖像飛機(jī)目標(biāo)檢測(cè)的有效性,將兩種廣泛使用的標(biāo)準(zhǔn)度量方法:精度—召回率曲線圖PRC(Precision-Recall Curve)以及平均精度AP(Average Precision)作為本文飛機(jī)目標(biāo)檢測(cè)的評(píng)價(jià)標(biāo)準(zhǔn)。其中,PRC 是以召回率(recall)為橫坐標(biāo),精度(precision)為縱坐標(biāo),記錄隨著閾值變化時(shí),precision 與recall 值變化關(guān)系的曲線。平均精度AP 就是當(dāng)recall 從0 到1 變化時(shí)precision 的平均值,也就是PRC 曲線與橫縱坐標(biāo)圍成的面積。precision 以及recall 的具體計(jì)算公式如式(10)、(11)所示:
式中,TP(True Positive)表示預(yù)測(cè)的目標(biāo)實(shí)際也是目標(biāo);FP(False Positive)表示預(yù)測(cè)的目標(biāo)實(shí)際是背景;FN(False Negative)表示預(yù)測(cè)的背景實(shí)際是目標(biāo)。本文將與目標(biāo)標(biāo)簽框的IoU 值大于等于0.5的預(yù)測(cè)框作為TP,反之,該預(yù)測(cè)框?yàn)镕P。
本文先利用ZF、VGG-16 以及ResNet-50 網(wǎng)絡(luò)對(duì)RSOD數(shù)據(jù)集進(jìn)行特征提取,由于遙感圖像飛機(jī)目標(biāo)具有多種尺度,在上述特征提取網(wǎng)絡(luò)的最后一個(gè)特征圖上使用RPN 進(jìn)行候選區(qū)域生成時(shí),需要為其設(shè)置相應(yīng)尺度的候選區(qū)域,相應(yīng)的檢測(cè)精度(%)如表1所示。
表1 不同尺度的候選區(qū)域檢測(cè)精度對(duì)比Table 1 Comparison of detection performance under different anchor scales
從表1中可以看出,特征提取網(wǎng)絡(luò)的選擇以及候選區(qū)域尺度的設(shè)置對(duì)遙感圖像飛機(jī)目標(biāo)檢測(cè)精度均影響重大。當(dāng)候選區(qū)域尺度為Faster R-CNN原始候選區(qū)域尺度(128×128,256×256,512×512)時(shí),3 種特征提取網(wǎng)絡(luò)均取得最差的檢測(cè)精度,這是由于原始的候選區(qū)域尺度設(shè)置針對(duì)的是自然圖像目標(biāo),相比遙感圖像目標(biāo)尺度較大,不適用于遙感圖像目標(biāo)檢測(cè)。表1 中,ZF、VGG-16網(wǎng)絡(luò)均在候選區(qū)域尺度為(64×64,128×128,256×256,512×512)時(shí)取得最佳的檢測(cè)精度,分別為78.39%以及80.55%,而ResNet-50 則是在候選區(qū)域尺度為(32×32,64×64,128×128,256×256)時(shí)取得最優(yōu)的檢測(cè)精度88.89%。即使對(duì)ZF以及VGG-16設(shè)置了相應(yīng)較小尺度的候選區(qū)域,但是由于其網(wǎng)絡(luò)特征提取能力相較于ResNet-50 較弱,對(duì)于尺度較小的候選區(qū)域提取到的特征更加有限,造成對(duì)小目標(biāo)的提取精度不高。
本文在進(jìn)行RPN 候選區(qū)域參數(shù)設(shè)置時(shí),對(duì)ZF、VGG-16 以及ResNet-50 分別按照其取得最佳檢測(cè)精度時(shí)候選區(qū)域的尺度進(jìn)行RPN 參數(shù)設(shè)置,而對(duì)3個(gè)改進(jìn)后的網(wǎng)絡(luò),具體的參數(shù)設(shè)置見表2。
表2 改進(jìn)后網(wǎng)絡(luò)的候選區(qū)域尺度設(shè)置Table 2 Anchor scale settings for proposed networks
為驗(yàn)證本文方法的有效性,將3個(gè)改進(jìn)后的網(wǎng)絡(luò)ZF*、VGG-16*以及ResNet-50*分別與相應(yīng)的改進(jìn)前網(wǎng)絡(luò)進(jìn)行對(duì)比,以RSOD 數(shù)據(jù)集為訓(xùn)練測(cè)試數(shù)據(jù)集,這6 種網(wǎng)絡(luò)的檢測(cè)精度以及測(cè)試速率如表3所示,對(duì)應(yīng)的PRC如圖7。
表3 不同特征提取網(wǎng)絡(luò)檢測(cè)精度時(shí)間對(duì)比Table 3 Comparison of detection performance of different feature extraction networks
圖7 各個(gè)網(wǎng)絡(luò)對(duì)應(yīng)的PRCFig.7 The PRC for each method
從表3中可以看出,改進(jìn)后的各個(gè)網(wǎng)絡(luò)在檢測(cè)精度上均有顯著提高。其中,ZF*提高了11.34%,VGG-16*提高了9.87%,而ResNet-50*則提高了1.66%。相比于ZF*以及VGG-16*網(wǎng)絡(luò),ResNet-50*提高的幅度更小,這是由于ResNet-50本身的特征提取能力已經(jīng)很強(qiáng),通過(guò)對(duì)各個(gè)尺度候選區(qū)域的位置修正對(duì)于整體精度的提高不是那么明顯。對(duì)于VGG-16 以及ZF 網(wǎng)絡(luò),其本身的特征提取能力稍弱,如圖9 中(a)、(b)圖相比于(c)圖出現(xiàn)了更多的漏檢以及誤檢現(xiàn)象,并且這種漏檢以及誤檢現(xiàn)象多發(fā)生于尺度偏小的多尺度目標(biāo),而改進(jìn)后的ZF*、VGG-16*網(wǎng)絡(luò)通過(guò)在多種尺度的淺層次特征圖中加入深層次語(yǔ)義信息從而增強(qiáng)各個(gè)尺度特征圖提取的特征。以VGG-16網(wǎng)絡(luò)為例,尺度為128×128的候選區(qū)域在特征提取時(shí)對(duì)應(yīng)F5中4×4區(qū)域的特征,而VGG-16*網(wǎng)絡(luò)中128×128的候選區(qū)域?qū)?yīng)著F5中4×4區(qū)域上采樣2倍后的8×8區(qū)域加上F4 中8×8 區(qū)域的特征,其他尺度的候選區(qū)域以此類推。因此,這兩種網(wǎng)絡(luò)在提高各個(gè)尺度候選區(qū)域定位精度的同時(shí)大幅減少其漏檢以及誤檢現(xiàn)象,從而大幅提高檢測(cè)精度。同樣的,從圖7中可以看到,改進(jìn)后的3種網(wǎng)絡(luò)與兩個(gè)坐標(biāo)軸圍成的面積均分別大于相應(yīng)的改進(jìn)前的網(wǎng)絡(luò),各個(gè)網(wǎng)絡(luò)的precision 值先是趨于平緩,當(dāng)recall值增加到0.7左右,ZF 的precision 值出現(xiàn)大幅降低,隨著recall 值的進(jìn)一步增加,性能相對(duì)較差的VGG-16 的precision 值大幅降低,而改進(jìn)后的3 種網(wǎng)絡(luò)在保持著高recall 值的同時(shí)具有較高的precision 值,這也充分說(shuō)明了本文方法對(duì)于提高目標(biāo)檢測(cè)精度的有效性。
圖8為測(cè)試樣本圖,可以看到圖中飛機(jī)目標(biāo)尺度差異較大,從十幾像素到上百像素不等。圖9展示了各個(gè)網(wǎng)絡(luò)對(duì)于圖8 的檢測(cè)結(jié)果圖,圖9(a)、(b)、(c)、(d)、(e)、(f)分別對(duì)應(yīng)著ZF、VGG-16、ResNet-50、ZF*、VGG-16*以及ResNet-50*的檢測(cè)結(jié)果圖。
圖8 測(cè)試樣本圖Fig.8 Test image sample
從圖9 中可以看到,首先,ZF*、VGG-16*以及ResNet-50*相比于改進(jìn)前的特征提取網(wǎng)絡(luò),對(duì)于目標(biāo)的定位精度更高,可以明顯的看到,相比于圖9(a)、圖9(b)、圖9(c),圖9(d)、圖9(e)、圖9(f)中紅色預(yù)測(cè)框與藍(lán)色標(biāo)簽框更為貼合。除此之外,加入這種結(jié)構(gòu)后的網(wǎng)絡(luò)能夠檢測(cè)出原始特征提取網(wǎng)絡(luò)遺漏的目標(biāo),如圖9(d)相對(duì)于圖9(a),圖9(e)相對(duì)于圖9(b),綠色漏檢標(biāo)簽框的數(shù)量減少。為了進(jìn)一步定量的說(shuō)明本文方法對(duì)于目標(biāo)定位精度的提高,本文通過(guò)設(shè)置更高的IoU 閾值進(jìn)行各個(gè)方法檢測(cè)精度對(duì)比,對(duì)比結(jié)果如表4。
圖9 各個(gè)網(wǎng)絡(luò)檢測(cè)結(jié)果示例圖Fig.9 Detection results diagram of each method
表4 不同IoU閾值下各個(gè)網(wǎng)絡(luò)檢測(cè)精度對(duì)比Table 4 Comparison of AP values of each method under different IoU/%
從表4 中我們可以看到,隨著IoU 閾值的增加,各個(gè)網(wǎng)絡(luò)的AP 值都在降低,其中,改進(jìn)前網(wǎng)絡(luò)精度值降低的幅度更大,而改進(jìn)后網(wǎng)絡(luò)尤其是ResNet-50*即使在IoU 閾值為0.7 時(shí)依然取得了80.12%的AP 值。這也充分說(shuō)明本文方法對(duì)于提高目標(biāo)定位精度的有效性。
為了充分驗(yàn)證本文方法的有效性,本文還將使用GF-2 影像數(shù)據(jù)進(jìn)行多尺度飛機(jī)目標(biāo)檢測(cè)的泛化能力實(shí)驗(yàn)。實(shí)驗(yàn)選取首都國(guó)際機(jī)場(chǎng)對(duì)應(yīng)的影像區(qū)域,該影像為全色波段與多光譜的紅、綠、藍(lán)波段融合后的圖像,分辨率為1 m,像素為4600×6500。將該區(qū)域以100像素的重疊進(jìn)行裁剪,得到40幅1000像素×900像素的圖像切片,使用ResNet-50*以及ResNet-50 分別對(duì)這40 幅圖像進(jìn)行檢測(cè),再將檢測(cè)好的圖像進(jìn)行拼接,對(duì)于重疊處的多余檢測(cè)框,使用NMS(Non-Maximum Suppression)進(jìn)行相應(yīng)的后處理。具體的定量檢測(cè)結(jié)果如表5,相應(yīng)的檢測(cè)結(jié)果圖如圖10,其中,左上側(cè)黃框?qū)?yīng)ResNet-50*的檢測(cè)局部放大圖。
表5 ResNet-50與ResNet-50*對(duì)于多尺度飛機(jī)目標(biāo)檢測(cè)精度對(duì)比Table 5 Comparison of multi-scale aircraft detection performance of ResNet-50 and ResNet-50*
從圖10 可以看出,對(duì)于圖像中多尺度飛機(jī)目標(biāo),ResNet-50*大多可以將其檢測(cè)出來(lái),從局部放大圖可知,ResNet-50*生成的檢測(cè)框與目標(biāo)貼合的較好,定位精度較高。結(jié)合表5 進(jìn)行進(jìn)一步的定量分析,可以看到,相比于ResNet-50,ResNet-50*的precision 值略微提高,而recall 值則增加了3.09%,這是由于ResNet-50*在高層級(jí)的語(yǔ)義特征中融入了高分辨率的低層級(jí)特征,在提高目標(biāo)定位精度的同時(shí),語(yǔ)義信息也更為充分,目標(biāo)漏檢的數(shù)量也隨之減少。以上分析充分表明了,ResNet-50*不僅適用于多尺度飛機(jī)目標(biāo)檢測(cè)而且具有良好的泛化能力。
圖10 ResNet-50*網(wǎng)絡(luò)對(duì)GF-2首都國(guó)際機(jī)場(chǎng)圖像的檢測(cè)結(jié)果Fig.10 Detection results of ResNet-50*on Beijing Capital International Airport GF-2 imagery
本文針對(duì)目前目標(biāo)檢測(cè)方法使用單一尺度的特征圖進(jìn)行多尺度飛機(jī)目標(biāo)檢測(cè)造成檢測(cè)精度不佳的問題,提出使用多尺度的特征圖進(jìn)行多尺度飛機(jī)目標(biāo)檢測(cè)的方法。該方法基于改進(jìn)的Faster R-CNN,通過(guò)在其特征提取網(wǎng)絡(luò)中加入多層級(jí)融合結(jié)構(gòu),充分利用不同網(wǎng)絡(luò)層級(jí)的特征,生成的多尺度特征圖既具有低層級(jí)精確的位置信息又具有高層級(jí)的語(yǔ)義特征,從而在提高多尺度飛機(jī)目標(biāo)檢測(cè)精度的同時(shí),提高其定位精度。然后,對(duì)其RPN 候選區(qū)域尺度進(jìn)行修正,使其適應(yīng)于遙感圖像飛機(jī)目標(biāo)檢測(cè)。實(shí)驗(yàn)結(jié)果表明:(1)加入多層級(jí)融合結(jié)構(gòu)的網(wǎng)絡(luò)可以對(duì)多尺度飛機(jī)目標(biāo)生成與之尺度相符的檢測(cè)框,在提高飛機(jī)目標(biāo)檢測(cè)精度的同時(shí)降低目標(biāo)漏檢的情況;(2)通過(guò)對(duì)RPN候選區(qū)域尺度的修正,提高了遙感圖像飛機(jī)目標(biāo)檢測(cè)精度;(3)改進(jìn)后的網(wǎng)絡(luò)具有良好的泛化能力,適用于遙感圖像多尺度飛機(jī)目標(biāo)檢測(cè)。然而,本文方法在提高目標(biāo)檢測(cè)精度的同時(shí)對(duì)于目標(biāo)檢測(cè)速率也造成了一定的影響,因此,后續(xù)的研究將著重于網(wǎng)絡(luò)模型的優(yōu)化,以期在較小的時(shí)間代價(jià)下得到最高的檢測(cè)精度。