陳慧元 劉澤宇 郭煒煒 張增輝 郁文賢(上海交通大學電子信息與電氣工程學院 上海 200240)(同濟大學同濟–MIT城市科學國際聯(lián)合實驗室 上海 200243)
遙感圖像目標檢測是遙感技術領域研究的重要課題之一,基于遙感圖像的艦船檢測在民用和軍事領域得到廣泛關注。傳統(tǒng)的遙感圖像目標檢測方法主要采用從粗到細的多步驟策略,一般包括預處理、海陸分割、感興趣區(qū)域提取、目標鑒別等[1,2]。這種多步驟策略各步驟之間相互獨立,每一步驟需要針對具體問題,設計相應的解決方案,存在流程固化、自動化、智能化程度不足等問題。目前,深度學習技術由于其強大的特征表示和端到端的學習能力使得目標檢測性能有了極大地提升[3]。通常,基于深度學習的目標檢測方法首先也是從圖像中提取候選區(qū)域,然后采用卷積神經(jīng)網(wǎng)絡(Convolution Neural Network, CNN)等深度神經(jīng)網(wǎng)絡對候選區(qū)域進行鑒別和邊界框回歸,例如,文獻[4,5]提出的區(qū)域卷積神經(jīng)網(wǎng)絡(Region-based Convolutional Neural network method, RCN)、快速區(qū)域卷積神經(jīng)網(wǎng)絡(Fast Region-based Convolutional Neural network method, Fast-RCN),使用selective search的方法產(chǎn)生候選區(qū)域,然后用CNN網(wǎng)絡對候選區(qū)域進行分類。但是selective search方法中候選區(qū)域重疊,產(chǎn)生冗余,且無法在GPU上訓練,檢測效率低[6]。隨后,文獻[7,8]提出Faster-RCNN檢測網(wǎng)絡,其首先通過一個區(qū)域生成網(wǎng)絡 (Region Propsal Network, RPN)來產(chǎn)生候選區(qū)域,然后再采用一個分類網(wǎng)絡對候選區(qū)域進行分類和邊界框回歸,并且RPN網(wǎng)絡和分類網(wǎng)絡共享底層的特征提取層,極大地提升了訓練速率。文獻[9]中提出的YOLO網(wǎng)絡,將物體檢測作為回歸問題求解,完成從原始圖像的輸入到物體位置和類別的輸出,提高了目標檢測速度,但是對于小目標的檢測效果較差。CNN的計算瓶頸主要在于高維全連接層,其不僅參數(shù)多,計算復雜度高,容易導致過擬合,而且需要同樣大小的圖像輸入,因此文獻[10,11]提出了基于全卷積網(wǎng)絡結構(Fully Convolutional Neural network, FCN)的目標檢測方法,其主要特點是去除了CNN中的全連接層并對末層特征進行多層的反卷積,生成與輸入圖像分辨率一致的輸出層,實現(xiàn)了圖像的像素級分類,可以達到更好的檢測效果。
針對大尺寸遙感圖像的艦船檢測,由于遙感圖像尺寸較大(一般包含百萬以上的像素點),而艦船目標在遙感圖像中稀疏分布且相對尺寸較小,如果直接將圖像輸入到上述神經(jīng)網(wǎng)絡中進行處理,往往是不可行的。因此,目前針對大場景遙感圖像下的艦船檢測,主要使用滑窗的方法將大圖分割為切片后送入到深度網(wǎng)絡中檢測。但是滑窗法存在大量的冗余計算,且對于滑窗參數(shù)(窗口大小、滑動間隔步長)的選擇依賴性太高,影響目標的檢測效率和檢測精度[12,13]。因此,本文提出一種級聯(lián)型的全卷積網(wǎng)絡模型,將兩個全卷積網(wǎng)絡級聯(lián),第1個網(wǎng)絡是一個簡單的全卷積分類網(wǎng)絡,實現(xiàn)大尺寸圖像中船/非船區(qū)域的篩選;第2個網(wǎng)絡是一個改進的UNet 結構,通過在傳統(tǒng)U-Net結構中加入目標掩膜和艦船朝向估計層以進行多任務的學習, 實現(xiàn)任意朝向艦船目標的精細定位。
深度學習的方法在處理大尺寸遙感圖像時,為了降低計算量、提高檢測精度,首先采用滑窗的方法將大圖分割為切片,然后將切片送入到Faster-RCNN, YOLO等神經(jīng)網(wǎng)絡模型中進行檢測。但是滑窗法的使用出現(xiàn)大量冗余信息,嚴重影響檢測效率,且對滑窗參數(shù)依賴性比較大,可能出現(xiàn)漏船、船體截斷的現(xiàn)象。
基于以上考慮,對于大場景遙感圖像檢測,本文設計了一種級聯(lián)型的全卷積網(wǎng)絡結構,圖1為網(wǎng)絡總體的框架圖。目標預篩選全卷積網(wǎng)絡(FCN for Prescreening, P-FCN)和目標精確檢測全卷積網(wǎng)絡(FCN for Detection, D-FCN)是兩個級聯(lián)的全卷積網(wǎng)絡,P-FCN利用深度學習的方法實現(xiàn)了傳統(tǒng)檢測方法中的預篩選功能。將一張大尺寸的遙感圖像輸入P-FCN中后,得到包含艦船位置信息的熱點圖(heatmap),根據(jù)熱點圖得到疑似有船的候選區(qū)域,將候選區(qū)域送入到D-FCN網(wǎng)絡中進行精確的艦船檢測,最終通過兩個級聯(lián)的網(wǎng)絡實現(xiàn)了對于大尺寸遙感圖像下的目標快速檢測。
2.1.1 P-FCN網(wǎng)絡結構
P-FCN主要完成傳統(tǒng)目標檢測步驟中的預篩選功能,是一個簡單的圖像分類網(wǎng)絡。與傳統(tǒng)FCN網(wǎng)絡不同,P-FCN不需要像素級分類即可實現(xiàn)目標預篩選,因此P-FCN不包含反卷積過程。為了滿足檢測速度的要求,將P-FCN設計為一個簡單的4層全卷積結構,包含3個卷積層和1個池化層。如圖1所示,P-FCN結構圖中,Conv1卷積核大小為5×5,步長為4, Padding模式為“SAME”;Conv2卷積核大小為5×5,步長為4, Padding模式為“SAME”; Conv3卷積核大小為4×4,步長為1,Padding模式為“VALID”; Pooling1中卷積核大小為2×2,步長為2, Padding模式為“SAME”。
圖2為P-FCN整體實驗過程,主要分為測試和訓練兩個部分。訓練時,將分為船和背景兩類、尺寸為128×128的遙感圖像輸入到P-FCN網(wǎng)絡中,得到包含船和背景特征的預訓練模型。測試時,將尺寸為[W,H] (W為圖像寬、H為圖像長)圖像,輸入
到預訓練模型中,得到包含艦船位置信息的熱點圖。由于P-FCN中Conv1, Conv2, Pooling1中的Padding模式均為“SAME”,其輸出特征圖大小僅與步長有關。圖像經(jīng)過Conv2后,輸出特征圖尺寸見式(1)。Conv3中Padding模式為“VALID”,其輸出尺寸與步長、卷積核尺寸均有關,圖像經(jīng)過Conv3后,最終輸出熱點圖尺寸見式(2)。其中[W,H]為原圖尺寸,[WConv2,HConv2]為經(jīng)過Conv2后特征圖尺寸, [WConv3,HConv3]為經(jīng)過Conv3后特征圖尺寸, [Wf3,Hf3]為Conv3卷積核尺寸,Sf3為Conv3卷積步長,為向上取整符號。
為了得到原始圖像中的艦船疑似位置,本文使用雙線性插值方法將熱點圖變換到原圖尺寸。最后對熱點圖進行連通域分析、候選框篩選等圖像處理,得到疑似包含船的候選區(qū)域,實現(xiàn)快速預篩選功能。
圖1 級聯(lián)型網(wǎng)絡總體架構圖Fig.1 The overall frame structure of cascading network
圖2 P-FCN實驗過程Fig.2 The experimental process of P-FCN
由于P-FCN網(wǎng)絡測試過程中,輸入圖像尺寸較大(均包含百萬像素點),因此,本文在測試前通過對不同分辨率的圖像設置不同的resize參數(shù)值(S),使得在保證一定準確率的情況下提高檢測速度。圖像resize公式為
其中,S為resize參數(shù),W,H為原圖尺寸,Wnew,Hnew為resize后圖像尺寸。
2.1.2 P-FCN損失函數(shù)
由于網(wǎng)絡是一個級聯(lián)型的結構,兩個網(wǎng)絡結構單獨訓練,因此需要分別計算損失函數(shù)。P-FCN不是一個傳統(tǒng)的FCN網(wǎng)絡,不包含反卷積過程。訓練時,輸入圖像尺寸為128×128,經(jīng)過P-FCN后,輸出尺寸為1×2,即實現(xiàn)艦船、背景的二分類。P-FCN使用交叉熵計算損失,式(4)為P-FCN中損失函數(shù)的計算公式,需要優(yōu)化的目標函數(shù)是整個數(shù)據(jù)集中所有數(shù)據(jù)loss求和。其中N表示訓練集中樣本個數(shù),表示圖像真實的標簽,表示預測標簽。
2.2.1 D-FCN網(wǎng)絡結構
D-FCN是一個改進的U-Net結構,圖3為D-FCN結構圖。D-FCN主要分為3個部分:特征提取、特征融合以及結果輸出。在特征提取中為了避免訓練過程中可能出現(xiàn)的過擬合以及梯度爆炸等問題,采用遷移學習的方法,通過借鑒ResNet50模型,完成對特征提取網(wǎng)絡的初始化。特征融合部分借鑒了U-Net思想,在FCN的基礎上,融合了卷積網(wǎng)絡中高維和低維的特征,實現(xiàn)圖像像素級分類的同時,提高了檢測精度。結果輸出部分,通過3個1×1的卷積層,分別得到1通道的置信分數(shù)圖、4通道的矩形框邊界信息圖以及1通道的艦船旋轉角度圖。
傳統(tǒng)U-Net模型在訓練中將網(wǎng)絡中的底層特征與原圖對比構建損失函數(shù),再利用反向傳播算法對模型參數(shù)進行迭代更新。但是根據(jù)反向傳播算法原理,模型中最靠近損失約束的參數(shù)將優(yōu)先得到更新,其他參數(shù)的更新幅度會隨著傳播距離的拉長而逐漸衰減,這就導致了傳統(tǒng)的U-Net 模型在訓練時偏重底層參數(shù)的更新,對頂層的參數(shù)優(yōu)化程度相對較差[11]。據(jù)此,本文通過在模型頂層引入額外的損失約束,使不同層級的參數(shù)都能得到較好的優(yōu)化,從而進一步提升檢測精度。
2.2.2 旋轉矩形框定位
艦船目標旋轉矩形框定位需要兩個參數(shù):艦船朝向角度和矩形框邊界信息。在D-FCN網(wǎng)絡中,首先對訓練數(shù)據(jù)中的艦船目標按照順時針方向,使用旋轉矩形框對頂點坐標進行標注,然后根據(jù)標注信息生成目標掩膜,見圖4,其中圖4(a)為原始圖像,圖4(b)為根據(jù)真值坐標生成的目標掩膜,圖4(c)為訓練中得到的預測掩膜。最后對目標掩膜中的每個像素點定義為
圖3 D-FCN結構圖Fig.3 The frame structure of D-FCN
圖4 SAR圖像與光學圖像中真值目標掩膜與預測目標掩膜生成Fig.4 The true target masks and the predictive target masks of SAR images and optical images
圖5 旋轉矩形框定位Fig.5 Rotating rectangle positioning
2.2.3 D-FCN損失函數(shù)
D-FCN是一個改進的U-Net結構,實現(xiàn)任意旋轉方向的艦船檢測,除了原有的底層損失外,加入了頂層損失,因此,D-FCN中總的損失函數(shù)為
其中,Lbottom為底層輸出結果與真值圖的損失值,Ltop為頂層輸出結果與相應低分辨率真值圖的損失值。頂層損失與底層損失的計算過程相同,以底層約束為例,其損失約束分為分類損失和幾何損失
其中,Lcls表示分類損失,在U-Net的預測圖中,每個像素點的值代表艦船的置信分數(shù),本文將大于0.5的值設置為255,得到預測掩模。使用Diss Loss方法通過將預測掩模與真實掩模作比較,構建分類損失函數(shù)見式(8),其中ycls代表真實掩模,y^cls代表預測掩模
本文主要針對大尺寸遙感圖像艦船檢測設計一種級聯(lián)型網(wǎng)絡結構,實現(xiàn)艦船位置快速預篩選與艦船精確檢測。本文分別使用SAR圖像和高分辨率光學遙感圖像對網(wǎng)絡結構進行測試。在SAR艦船檢測實驗中,將級聯(lián)型網(wǎng)絡分別與滑窗法以及YOLO3網(wǎng)絡進行比較,驗證網(wǎng)絡性能。在高分辨率光學遙感圖像艦船檢測中,由于YOLO3只能獲得目標的正置邊界框,無法估計有朝向的艦船目標,因此只將級聯(lián)型網(wǎng)絡與傳統(tǒng)滑窗方法做對比,驗證網(wǎng)絡性能。
3.1.1 數(shù)據(jù)集構建與分析
(1) 數(shù)據(jù)集構建
在SAR圖像目標檢測實驗中,主要包括從TerraSAR-X中獲取的8景數(shù)據(jù)(包括上海港、橫濱港、汕港等數(shù)據(jù)),具體圖像信息見表1。
表1 TerraSAR-X數(shù)據(jù)基本信息Tab.1 The basic information of TerraSAR-X
實驗過程主要分為訓練和測試兩個部分,訓練時,P-FCN使用包含船與背景的128×128尺寸圖像,包括7773張艦船圖片,11780張背景圖片。D-FCN使用512×512尺寸共4731張SAR圖像進行訓練。測試時,使用TerraSAR-X中截取的10張大尺寸遙感圖像(3000×3000以上)對網(wǎng)絡結構進行測試分析。
(2) P-FCN訓練數(shù)據(jù)集分析
P-FCN網(wǎng)絡主要針對大尺寸遙感圖像進行艦船位置預篩選,實現(xiàn)圖像分類功能。P-FCN訓練數(shù)據(jù)分為背景(負樣本)與艦船(正樣本)兩類,其中背景數(shù)據(jù)包括陸地、海岸、海面等類型,艦船數(shù)據(jù)包括簡單海洋背景目標、復雜海洋背景目標(包含海浪、浮標等)、靠岸目標、包含單個目標以及包含多個目標等類型。
圖6為P-FCN訓練數(shù)據(jù)集統(tǒng)計,包括TerraSAR-X圖像中單張圖像包含目標數(shù)目統(tǒng)計以及目標像素尺寸統(tǒng)計。其中圖6(a)表示TerraSAR-X目標數(shù)目統(tǒng)計,圖6(b)表示TerraSAR-X目標像素尺寸統(tǒng)計。圖6表明P-FCN訓練數(shù)據(jù)集基本包含了所有艦船目標類型:包括不同目標數(shù)目、不同目標像素尺寸,滿足訓練要求。圖6(b)顯示訓練樣本中目標像素尺寸集中在128以內,對于尺寸大于128的目標類型,由于訓練樣本的作用是提取艦船特征,最終提取出的heatmap面積大于128,因此可以實現(xiàn)預篩選的功能。
3.1.2 實驗結果分析
(1) P-FCN測試圖像resize參數(shù)分析
本文針對大尺寸遙感圖像艦船檢測設計了一種全卷積網(wǎng)絡級聯(lián)結構,見圖1。其中P-FCN實現(xiàn)艦船位置快速預篩選,D-FCN實現(xiàn)艦船精確檢測。由于輸入圖像尺寸較大,嚴重影響檢測速度,因此,在P-FCN網(wǎng)絡測試前加入了圖像縮放過程,見圖2,通過設置resize參數(shù)值,在保證一定檢測精度的情況下,提高檢測速度。
為了得到最優(yōu)的resize參數(shù),選取10張不同尺寸的SAR圖像進行測試。分別比較resize參數(shù)與檢測速度和準確率的關系,見圖7。其中圖7(a)表示resize參數(shù)與檢測速度的關系(檢測速度用檢測時間的倒數(shù)表示)。由于圖片尺寸不同,單張圖片測試速度差異較大,因此將檢測時間的單位設為s/1000×1000,即平均每1000×1000尺寸圖像所用時間。圖7(b)表示resize參數(shù)與準確率(召回率)的關系。
圖6 P-FCN訓練TerraSAR-X數(shù)據(jù)集統(tǒng)計Fig.6 The training TerraSAR-X dataset statistics of P-FCN
圖7 resize參數(shù)與檢測速度和準確率的關系Fig.7 The relationship of resize parameter between detection speed and accuracy
圖8、圖9分別展示了resize參數(shù)(S)為1, 3, 5時對應的熱點圖以及候選區(qū)域。根據(jù)圖7—圖9,對resize參數(shù)做如下分析:
圖8 S=1, 3, 5時對應的熱點圖Fig.8 The heat maps corresponding to S=1, 3, 5
圖9 S=1, 3, 5時對應的候選區(qū)域Fig.9 The probably proposals corresponding to S=1, 3, 5
(a) 圖8、圖9顯示,S=1時,P-FCN網(wǎng)絡能夠較精確的估計艦船所在位置,但是候選區(qū)域較多,且存在大量虛警,影響D-FCN中的檢測速度。S增大時,候選區(qū)域數(shù)量逐漸減少,且候選框面積增大。S=3時,候選區(qū)域相對較少,且能夠篩選出圖像中的所有船只,且虛警率較小,基本達到預篩選的要求。S=5時,候選框數(shù)量進一步減少,但是部分候選區(qū)域面積過大,影響D-FCN檢測速度,且由于圖像分辨率較低,預篩選時出現(xiàn)漏檢現(xiàn)象,影響檢測精度。
(b) 從圖7(a)中可以看出,在S=3之前,由于輸入圖像尺寸較大,影響檢測速度的主要是P-FCN網(wǎng)絡。進行圖像縮放后,由于計算量大量減少,因此,檢測速度加快。在S=3之后,P-FCN網(wǎng)絡對檢測速度的影響逐漸減小,D-FCN網(wǎng)絡對檢測速度的影響增大,根據(jù)(a)中的分析,隨著S增大,候選框面積增大(可以達到3000×5000左右),D-FCN中計算量較大,因此檢測速度增加相對平緩。從圖6(b)中可以看到,檢測準確率隨著S增大而降低。
根據(jù)以上分析,由于S=3時檢測速度相對較高,且準確率為0.928,基本滿足艦船檢測要求,因此,在P-FCN網(wǎng)絡中將resize參數(shù)值設為3。由于resize的目的是在保證一定檢測精度的前提下降低分辨率,提高檢測速度。從目前實驗結果中可以得到的結論為,分辨率降低為3 m時,不會影響檢測效果,因此對于其他分辨率圖像可按比例設置resize系數(shù)。
(2) 預篩選結果分析
本文用到的級聯(lián)型網(wǎng)絡結構中,P-FCN網(wǎng)絡預篩選是針對大場景遙感圖像目標檢測的重要步驟,能夠實現(xiàn)對大場景遙感圖像中艦船位置快速預篩選功能,使得在保證檢測精度的情況下提升檢測速度。預篩選實驗主要對TerrSAR-X中截取的10張大尺寸圖片進行測試,實驗結果展示了具有代表性的兩張TerraSAR-X圖像(包含簡單環(huán)境與復雜環(huán)境下的目標),見圖10。圖10(a)圖片尺寸為14439×9484,預篩選時間為9.048 s(類型圖1),圖10(b)圖片尺寸為14368×9484,預篩選時間為9.377 s(類型圖2)。實驗結果顯示,P-FCN網(wǎng)絡能夠進行艦船位置的粗略預篩選,對海岸以及部分亮且細的海上建筑存在一定虛警,但是基本不存在漏檢情況,滿足檢測需求。
圖10 TerraSAR數(shù)據(jù)P-FCN測試結果Fig.10 The test result of TerraSAR in P-FCN
(3) 檢測結果分析
在艦船檢測實驗中,將級聯(lián)型網(wǎng)絡結構與滑窗法、YOLO3做對比。用召回率(Recall)、精確率(Precision)衡量檢測精度,用檢測時間衡量檢測效率。表2為對比實驗結果,由于測試圖片尺寸不一致,因此檢測時間單位設為s/1000×1000。其中級聯(lián)網(wǎng)絡檢測時間包括預篩選時間與D-FCN精確檢測時間之和;滑窗法檢測時間包括滑窗時間與D-FCN精確檢測時間之和;YOLO3檢測時間為YOLO3網(wǎng)絡目標精確檢測時間。表2結果顯示,級聯(lián)法由于使用P-FCN網(wǎng)絡進行預篩選,與滑窗法、YOLO3網(wǎng)絡相比,虛警較少,精確率較高。而相比滑窗法由于檢測冗余較少,檢測速度是滑窗法的2.35倍,相比YOLO3網(wǎng)絡,檢測召回率為0.928,檢測精度更高。
圖11、圖12為類型圖1、類型圖2檢測結果,圖11(a)(b)(c)、圖12(a)(b)(c)分別表示級聯(lián)法、滑窗法、YOLO3檢測結果,為了分析檢測結果,將部分檢測區(qū)域放大。其中綠色表示正確檢測、紅色表示漏警、藍色表示虛警。表3、表4為檢測結果統(tǒng)計,使用TP(正確檢測)、FN(漏警)、FP(虛警)、精確率、召回率、檢測時間分別對級聯(lián)法、滑窗法、YOLO3進行評價分析。根據(jù)檢測結果可以看到,級聯(lián)法相比滑窗法,召回率相似,但虛警較低,且檢測速度具有明顯的提升;相比YOLO3網(wǎng)絡,YOLO3具有很高的檢測速度,但圖11(c)、圖12(c)顯示,YOLO3對于復雜場景(并排、密集分布、小目標艦船)檢測效果較差,召回率較低。
3.2.1 數(shù)據(jù)集構建與分析
(1) 數(shù)據(jù)集構建
在光學圖像目標檢測實驗中,主要包括從91衛(wèi)圖和DOTA數(shù)據(jù)集中獲取的數(shù)據(jù),分辨率均為1 m左右[14,15]。
表2 級聯(lián)型網(wǎng)絡結構、滑窗法、YOLO3檢測結果Tab.2 The test results of cascade network, sliding window method and YOLO3
圖11 類型圖1檢測結果Fig.11 The test results of type 1 image
實驗過程主要分為訓練和測試兩個部分,訓練時,P-FCN均使用包含船與背景的128×128尺寸圖像,包括4454張艦船圖片,14524張背景圖片。D-FCN使用512×512尺寸共3126張光學遙感圖像進行訓練,由于光學遙感圖像目標特征相對SAR圖像更加明顯,因此,對光學遙感圖像增加艦船旋轉角度信息。測試時,使用大尺寸遙感圖像(3000×3000以上)共50張光學遙感數(shù)據(jù)(包含10張DOTA數(shù)據(jù)和40張91衛(wèi)圖數(shù)據(jù))。
圖12 類型圖2檢測結果Fig.12 The test results of type 2 image
表3 類型圖1檢測結果統(tǒng)計Tab.3 The test results of type 1 image
表4 類型圖2檢測結果統(tǒng)計Tab.4 The test results of type 2 image
(2) P-FCN訓練數(shù)據(jù)集分析
針對光學圖像P-FCN數(shù)據(jù)集構建時,與SAR圖像相同,分為艦船與背景兩類,并且對于正負樣本的選擇同樣包括不同類型。
圖13為P-FCN訓練數(shù)據(jù)集統(tǒng)計,包括光學遙感圖像中單張圖像包含目標數(shù)目統(tǒng)計、目標像素尺寸統(tǒng)計以及目標朝向統(tǒng)計。其中圖13(a)表示光學圖像中單個樣本中目標數(shù)目統(tǒng)計,圖13(b)表示光學圖像中目標像素尺寸統(tǒng)計, 圖13(c)表示光學圖像中目標旋轉角度統(tǒng)計。圖13表明P-FCN訓練數(shù)據(jù)集基本包含了所有艦船目標類型:不同目標數(shù)目、不同目標像素尺寸以及不同目標旋轉方向,滿足訓練要求。
3.2.2 P-FCN測試圖像resize參數(shù)分析
針對大尺寸高分辨率光學遙感圖像艦船檢測,在P-FCN網(wǎng)絡預篩選過程中,本文選取10張不同尺寸的光學遙感圖像對resize參數(shù)的選取進行測試分析,分別比較了resize參數(shù)與檢測速度、準確率的關系,見圖14,圖14(a)表示resize參數(shù)與檢測速度關系,檢測速度用檢測時間倒數(shù)表示,同樣將檢測時間單位設為s/1000×1000,圖14(b)表示resize參數(shù)與準確率(召回率)的關系。圖15、圖16分別表示不同resize參數(shù)對應的熱點圖與候選區(qū)域。圖14—圖16顯示,S=3時,對于光學遙感圖像艦船檢測,檢測速度較高,且準確率為0.926,滿足艦船檢測要求。因此,在光學遙感圖像艦船檢測實驗中將resize參數(shù)設為3。
3.2.3 檢測結果分析
實驗過程中,使用50張尺寸不同的高分辨率光學遙感圖像對網(wǎng)絡性能進行驗證。由于YOLO3只能獲得目標的正置邊界框,對于有朝向的艦船目標不能估計有方向的邊界框,因此在光學圖像實驗中,只將級聯(lián)型網(wǎng)絡與傳統(tǒng)滑窗方法做對比。其中滑窗尺寸設置為512×512,步長設置為256,在結果分析中使用召回率衡量檢測精度,使用檢測時間(s/1000×1000)衡量檢測速度。檢測結果見表5。結果顯示,在大尺寸高分辨率光學遙感圖像艦船檢測中,級聯(lián)法與滑窗法檢測精度相似,但級聯(lián)法的檢測速度是滑窗法的3.34倍。
實驗結果中展示了具有代表性的3張大尺寸光學遙感圖像(包括密集、并排、靠岸艦船),包括PFCN網(wǎng)絡生成的熱點圖、候選區(qū)域預篩選結果,以及D-FCN精確檢測結果。由于光學圖像訓練時加入艦船旋轉角度信息,因此,檢測結果中包含艦船旋轉角預測,見圖17。圖17顯示針對大場景光學遙感圖像,級聯(lián)型網(wǎng)絡結構能夠對艦船位置進行快速預篩選,并且實現(xiàn)任意朝向艦船的精確定位,檢測速度較快,檢測精度較高,基本滿足目標檢測要求。
圖13 P-FCN 光學圖像訓練數(shù)據(jù)集統(tǒng)計Fig.13 The training dataset statistics of P-FCN
圖14 resize參數(shù)與檢測速度和準確率的關系Fig.14 The relationship of resize parameter between detection speed and accuracy
圖15 S=1, 3, 5時對應的熱點圖Fig.15 The heat maps corresponding to S=1, 3, 5
圖16 S=1, 3, 5時對應的候選區(qū)域Fig.16 The probably proposals corresponding to S=1, 3, 5
表5 滑窗法與級聯(lián)法檢測結果對比Tab.5 Comparison of sliding window and cascade method
本文針對大場景遙感圖像下的艦船快速檢測,設計了一種級聯(lián)型的網(wǎng)絡結構。整體框架包括兩個全卷積網(wǎng)絡,第1個全卷積網(wǎng)絡(P-FCN)是一個簡單的二分類網(wǎng)絡,實現(xiàn)對于艦船位置的快速篩選功能;第2個網(wǎng)絡(D-FCN)是一個改進的U-Net結構,在傳統(tǒng)U-Net網(wǎng)絡中加入了頂層損失約束,使不同層級的模型參數(shù)均能得到較好地優(yōu)化,提高檢測精度。為了降低大尺寸圖像在網(wǎng)絡中的計算量,測試時,在P-FCN網(wǎng)絡中加入了圖像縮放(resize)步驟,并且通過比較resize參數(shù)與檢測速度和檢測精度(召回率)的關系,找到最優(yōu)參數(shù),使得在滿足一定檢測精度的前提下,提高檢測速度。
圖17 級聯(lián)型網(wǎng)絡結構檢測結果Fig.17 The test results of the cascade network
實驗過程中,對級聯(lián)型網(wǎng)絡結構同時在TerraSAR圖像和光學圖像中進行了測試。在SAR艦船檢測實驗中,使用10張TerraSAR圖像,將級聯(lián)法與滑窗法、YOLO3進行對比分析,實驗結果表明:(1)級聯(lián)型網(wǎng)絡結構中P-FCN能夠進行艦船位置的快速預篩選,排除大量背景冗余信息,虛警率較低;(2)TerraSAR數(shù)據(jù)測試結果表明,相對于滑窗法,在檢測精度相當?shù)那闆r下,本文的級聯(lián)網(wǎng)絡將檢測耗時縮短為原來的1/3左右;(3)YOLO3本質上屬于“one-step”的檢測方法,在檢測速度上有先天的優(yōu)勢,但對于復雜場景的適應性差。在艦船密集排布、艦船尺寸多樣等場景中,檢測精度低,無法達到級聯(lián)網(wǎng)絡和滑窗法相同的精度水平。在光學遙感圖像艦船檢測實驗中,使用50張光學圖像將級聯(lián)法與滑窗法進行對比分析,結果顯示,在光學圖像中,級聯(lián)法在與滑窗法檢測精度相當?shù)那闆r下,檢測耗時同樣縮短為原來的1/3左右。因此,本文所提級聯(lián)型網(wǎng)絡結構能夠在保證一定檢測精度的前提下,提升檢測速度,滿足檢測需求。