張官榮, 趙 玉, 李 波, 陳 相, 張海珠
(1.空軍工程大學(xué)航空工程學(xué)院,西安 710000; 2.中國(guó)人民解放軍95949部隊(duì),河北 滄州 061000)
水上交通運(yùn)載是海域戰(zhàn)爭(zhēng)中雙方進(jìn)行激烈較量的重要方面,而艦船是世界各國(guó)海上運(yùn)輸?shù)闹髁鹘煌üぞ撸瑢?duì)于海域情況的精確探測(cè)具有重要作用。合成孔徑雷達(dá)(Synthetic Aperture Radar,SAR)技術(shù)通過(guò)脈沖壓縮,同時(shí)利用合成孔徑提高雷達(dá)距離向和方位向的分辨率,進(jìn)而獲取全天候、全天時(shí)的SAR圖像[1]?;赟AR圖像的自動(dòng)目標(biāo)識(shí)別(Automatic Target Recognition,ATR)技術(shù),是通過(guò)傳統(tǒng)的SAR方法自動(dòng)估計(jì)目標(biāo)的狀態(tài),并形成了固定的信息處理流程,即對(duì)目標(biāo)的檢測(cè)、鑒別和分類(lèi)[2],其核心是提高算法的解譯效率和準(zhǔn)確率。目前,SAR ATR技術(shù)已廣泛應(yīng)用于無(wú)人機(jī)、衛(wèi)星等搭載平臺(tái),通過(guò)對(duì)海港、海洋表面艦船的實(shí)時(shí)監(jiān)測(cè)和觀察來(lái)獲取重要的海域軍事情報(bào)。
近年來(lái),深度學(xué)習(xí)技術(shù),尤其是以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)為基礎(chǔ)的算法突飛猛進(jìn),避免了繁瑣的人工設(shè)計(jì)特征算法,同時(shí),在各類(lèi)下游任務(wù)中被證明具備優(yōu)秀的精度和較強(qiáng)的魯棒性,在SAR圖像檢測(cè)識(shí)別的領(lǐng)域,基于卷積神經(jīng)網(wǎng)絡(luò)的算法也具有強(qiáng)大的性能,因此被廣泛研究。研究人員基于深度學(xué)習(xí)技術(shù)設(shè)計(jì)了針對(duì)圖像任務(wù)的多樣化卷積神經(jīng)網(wǎng)絡(luò)模型,例如AlexNet[3],VGG[4],Googlenet[5],ResNet[6],DenseNet[7]等。而圖像目標(biāo)檢測(cè)任務(wù)則基于以上基礎(chǔ)模型進(jìn)行特征提取,之后根據(jù)是否需要提取目標(biāo)候選框分為兩種研究方式:第一種是需要目標(biāo)候選框的兩階段檢測(cè)算法,以R-CNN[8]檢測(cè)算法為代表;另外一種則不需要額外的區(qū)域候選網(wǎng)絡(luò),因此被稱(chēng)為單階段檢測(cè)算法,以YOLO[9-10]系列檢測(cè)算法為代表。相比于傳統(tǒng)的SAR圖像目標(biāo)檢測(cè)的研究成果,基于深度學(xué)習(xí)的SAR圖像檢測(cè)技術(shù)既確保了時(shí)效性,又提升了模型精度。因此,本文以YOLOv3為基礎(chǔ)網(wǎng)絡(luò),對(duì)SAR ATR技術(shù)開(kāi)展研究工作,同時(shí)采用了Faster R-CNN作為對(duì)比網(wǎng)絡(luò),保證了實(shí)驗(yàn)的完整性。
在基本圖像特征提取方面,YOLO3采用了Darknet-53網(wǎng)絡(luò)結(jié)構(gòu),包含53個(gè)卷積層,由一系列1×1和3×3的卷積層組成。其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 Darknet-53網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Darknet-53 network structure
Darknet-53網(wǎng)絡(luò)在一些卷積層之間設(shè)計(jì)了殘差組件用于解決網(wǎng)絡(luò)變深帶來(lái)的性能退化問(wèn)題,如圖2所示。其中,x表示殘差的上層特征輸入,F(xiàn)(x)表示學(xué)習(xí)到的殘差,F(xiàn)(x)+x則表示殘差組件的輸出。
圖2 殘差組件結(jié)構(gòu)圖Fig.2 Structure diagram of residual component
YOLOv3使用Darknet-53作為網(wǎng)絡(luò)的分類(lèi)主干部分,通過(guò)調(diào)節(jié)卷積層的步長(zhǎng)控制輸出特征圖的尺寸。同時(shí),YOLOv3借鑒特征金字塔網(wǎng)絡(luò)(Feature Pyramid Networks,FPN)的思想,采用上采樣和特征融合的方法輸出3個(gè)尺寸的特征圖,用于不同尺寸目標(biāo)的檢測(cè)。第1個(gè)特征圖下采樣32倍,適用于較大目標(biāo)的檢測(cè);第2個(gè)特征圖下采樣16倍,適用于中型目標(biāo)的檢測(cè);第3個(gè)特征圖下采樣8倍,適用于小型目標(biāo)的檢測(cè)。YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,其中,5L表示共5層。
圖3 YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 Structure diagram of YOLOv3 network
YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)通過(guò)K-means聚類(lèi)獲取不同尺寸的先驗(yàn)框,分別聚類(lèi)為373像素×326像素,156像素×198像素,116像素×90像素,59像素×119像素,62像素×45像素,30像素×61像素,33像素×23像素,16像素×30像素和10像素×13像素9種大小,分別為3種不同的下采樣尺度提供3種大小的先驗(yàn)框。先驗(yàn)框的尺寸根據(jù)目標(biāo)的大小分配,如圖4所示,圖4(a)表示較大的目標(biāo)分配前3個(gè)較大的先驗(yàn)框,特征圖大小為13像素×13像素;圖4(b)表示中等的目標(biāo)分配中間3個(gè)尺寸的先驗(yàn)框,特征圖大小為26像素×26像素;圖4(c)表示尺寸較小的目標(biāo)分配后3個(gè)較小的先驗(yàn)框,特征圖大小為52像素×52像素。
圖4 目標(biāo)不同尺度的像素級(jí)先驗(yàn)框和特征圖Fig.4 Pixel-wise prior boxes and feature map for different scales of object
若目標(biāo)的中心如圖5所示,當(dāng)被測(cè)目標(biāo)中心點(diǎn)落入某網(wǎng)格時(shí),則由該網(wǎng)格進(jìn)行預(yù)測(cè)。YOLOv3通過(guò)目標(biāo)中心與對(duì)應(yīng)網(wǎng)格的偏移量進(jìn)行預(yù)測(cè)回歸。
圖5 邊框預(yù)測(cè)Fig.5 Bounding box prediction
其中:(cx,cy)表示進(jìn)行預(yù)測(cè)網(wǎng)格的左上角像素位置;tx,ty表示被檢測(cè)物體的中心像素位置與左上角像素位置的偏移距離;pw,ph分別表示特征值置信圖內(nèi)的寬和高;(bx,by)表示預(yù)測(cè)錨框中心點(diǎn)的位置;bw,bh分別表示預(yù)測(cè)錨框相對(duì)于特征圖的寬和高;通過(guò)Sigmoid函數(shù)σ(·)將偏移距離tx,ty壓縮至[0,1]內(nèi),保證被測(cè)物體中心能落入進(jìn)行預(yù)測(cè)的網(wǎng)格中;tw,th分別表示特征圖寬和高的尺度縮放因子。
對(duì)于給定圖像,將其分為S×S個(gè)網(wǎng)絡(luò),每個(gè)網(wǎng)絡(luò)將產(chǎn)生B個(gè)box。YOLO系列模型使用均方誤差作為損失函數(shù),其由置信誤差lobj、分類(lèi)誤差lcls,以及預(yù)測(cè)位置誤差lbox組成,即
l=lbox+lcls+lobj
(1)
式中,
(2)
(3)
(4)
本實(shí)驗(yàn)采用公開(kāi)的SAR圖像船舶檢測(cè)數(shù)據(jù)集[11],其主要源于Sentinel-1 SAR數(shù)據(jù)和國(guó)產(chǎn)高分三號(hào)SAR數(shù)據(jù),涵蓋了不同模式下、非同源的43 819幅SAR艦船圖像切片和對(duì)應(yīng)標(biāo)簽,可用于目標(biāo)檢測(cè)任務(wù),部分可視化表達(dá)如圖6所示。
圖6 部分可視化SAR艦船圖像數(shù)據(jù)Fig.6 Partial SAR ship image data
本文訓(xùn)練和測(cè)試的環(huán)境基于Ubuntu16.04系統(tǒng),Pytorch1.7.1框架,CUDA10.1,GPU使用GTX2080,優(yōu)化器選取經(jīng)典的隨機(jī)梯度下降算法,權(quán)重衰減為0.000 5,學(xué)習(xí)率為0.001,訓(xùn)練批次為50 000,損失函數(shù)變化曲線如圖7所示。整個(gè)模型通過(guò)有監(jiān)督的訓(xùn)練方式,設(shè)計(jì)損失函數(shù)回歸和優(yōu)化SAR艦船圖像目標(biāo)識(shí)別模型。
圖7 網(wǎng)絡(luò)訓(xùn)練損失曲線Fig.7 Network training loss curve
本實(shí)驗(yàn)采用的評(píng)價(jià)指標(biāo)為主流的mAP指標(biāo),該指標(biāo)是所有檢測(cè)目標(biāo)類(lèi)別準(zhǔn)確率AP的平均值,衡量模型在各類(lèi)別上識(shí)別效果的平均水平。同時(shí),本實(shí)驗(yàn)采用在目標(biāo)檢測(cè)領(lǐng)域較為成熟的Faster R-CNN作為對(duì)比算法,測(cè)試結(jié)果如表1所示,表1中FPS (Frames Per Second)表示算法的每秒檢測(cè)幀數(shù),反映其檢測(cè)速度。
表1 測(cè)試結(jié)果對(duì)比Table 1 Comparison of test results
由表1可見(jiàn),YOLOv3網(wǎng)絡(luò)的檢測(cè)性能在檢測(cè)精度與檢測(cè)速度上均優(yōu)于Faster R-CNN,尤其對(duì)于檢測(cè)速度的提升,且由于SAR艦船圖像相對(duì)于海域目標(biāo)較小,YOLOv3網(wǎng)絡(luò)中的特征金字塔網(wǎng)絡(luò)(FPN)提升了小目標(biāo)的檢測(cè)精度,因此,YOLOv3相比Faster R-CNN的性能在檢測(cè)精度和檢測(cè)速度方面均有所提升。YOLOv3檢測(cè)結(jié)果如圖8所示,其中,場(chǎng)景1~6僅為部分結(jié)果展示,無(wú)具體指代。
圖8 SAR艦船檢測(cè)結(jié)果Fig.8 SAR ship detection results
本文針對(duì)SAR圖像自動(dòng)目標(biāo)識(shí)別面臨的關(guān)鍵問(wèn)題展開(kāi)了深入研究,設(shè)計(jì)了一種基于YOLOv3網(wǎng)絡(luò)的SAR艦船圖像小目標(biāo)檢測(cè)模型,該模型基于Darknet-53主干網(wǎng)絡(luò)提取圖像的淺層特征,以多尺度先驗(yàn)框?qū)δ繕?biāo)物體進(jìn)行檢測(cè)。實(shí)驗(yàn)結(jié)果表明,基于YOLOv3的網(wǎng)絡(luò)對(duì)小目標(biāo)的檢測(cè)算法在SAR艦船檢測(cè)的任務(wù)上取得了很好的效果。