陳 冬, 句彥偉
(南京電子技術(shù)研究所, 江蘇 南京 210013)
合成孔徑雷達(synthetic aperture radar, SAR)屬于微波遙感方式中的一種,具有全天時、全天候工作的特點,能夠捕獲目標散射特性,在軍事上、民事上均具有非常廣泛的運用。而傳統(tǒng)的SAR圖像處理流程包括:相干斑抑制、目標檢測、目標分割以及特征提取和識別等。
目標檢測是其中一個極其重要的環(huán)節(jié),其包含變化檢測與特定目標檢測。艦船目標檢測即是其中一類特定的檢測任務,軍事上可以探查軍艦情況,民事上可以用于航海監(jiān)測等。傳統(tǒng)的艦船目標檢測主要有:恒虛警率法(constant false alarm rate, CFAR)、尾跡檢測法、模板匹配法等。
深度學習在自然圖像上取得巨大成功的同時帶動了SAR領域中的智能解譯。當前基于深度學習實現(xiàn)的SAR圖像相干斑抑制、目標檢測與目標識別等方法層出不窮,其中又涉及小樣本學習、生成對抗網(wǎng)絡等方法。而針對檢測問題,當前諸多方法均是自然圖像領域算法的遷移,對SAR圖像中小目標檢測問題做出了模型調(diào)整,其中很大一部分缺少對SAR圖像本身特點的考慮。
深度學習的檢測方法可分為雙階段檢測和單階段檢測,其各具非常鮮明的特點。雙階段以區(qū)域卷積神經(jīng)網(wǎng)絡(regions with convolutional neural network, R-CNN)系列為主,具有非常高的檢測精度和召回率,適用于復雜和實時性要求低的場景中。Faster R-CNN更是實現(xiàn)了雙階段方法的端到端訓練,并取得了非常好的效果。在此基礎之上,Cascade R-CNN與Mask R-CNN被提出,得到了廣泛使用。2017年Li等人首先提出了SSDD數(shù)據(jù)集并測試了Faster R-CNN在該數(shù)據(jù)集上的性能,之后其他改進及優(yōu)化的雙階段模型不斷被提出。
相較于雙階段的大量候選框產(chǎn)生的問題,以單次多盒檢測(single shot multibox detector, SSD)系列和“你只看一次”(you only look once, YOLO)系列為主的單階段檢測具有非常高的檢測速度。拋棄候選框產(chǎn)生過程帶來好處的同時在精度上卻有所下降,使得單階段方法更加適用于相對簡單以及實時性要求比較高的場景。YOLOv4方法更是融合多種方法優(yōu)點于一體,在實時性以及效果上取得了一個較好的平衡。
由于雙階段和單階段檢測中存在的錨框問題成為了實時性的又一大桎梏,2019年起諸多無錨框的方法開始興起。基于無錨框的方法可以舍棄錨框的概念,在實時性上進一步提高,并逐漸設計出新的解碼過程。CenterNet即是先尋找目標的中心點再基于中心點進行邊框的回歸。而Nicolas更是將Transformer引入檢測中,提出了名為DETR的檢測網(wǎng)絡,對CNN提取出的特征和相應的位置編碼進行處理,通過詢問式的序列輸入進行解碼。
以上如此復雜的檢測解碼過程并不適用于SAR圖像艦船目標檢測。深度學習目標檢測的概念是定位與分類一體化,其對應于雷達檢測識別一體化。而當前已公布數(shù)據(jù)集SSDD、SAR-Ship-Dataset以及HRSID均不具備識別的條件,使得研究方法更加專注于定位問題。此外,多數(shù)艦船目標圖像中不存在復雜背景,只是海面,因此圖像中大部分是“黑色區(qū)域”。此時錨框的引入必然造成大量的算力冗余,耗費資源且沒有明顯的收益。如何進行高效的解碼成為了當前SAR圖像智能檢測的一大問題。
本文重新思考已有檢測方法并在其基礎上,針對SAR圖像本身特點,提出使用語義分割來實現(xiàn)檢測、分割一體化。實驗結(jié)果證明,基于語義分割實現(xiàn)的SAR圖像艦船檢測方法具有更好的性能。
本文的主要創(chuàng)新點如下:
(1) 提出了通過語義分割的方式實現(xiàn)SAR圖像艦船目標檢測、分割一體化,將檢測問題轉(zhuǎn)化為分割問題,避免了復雜的檢測網(wǎng)絡解碼過程。
(2) 基于語義分割網(wǎng)絡的編解碼形式提出了UNet-S的網(wǎng)絡結(jié)構(gòu),能夠有效地提取特征和實現(xiàn)目標的檢測與分割。
(3) 針對背景與目標樣本不均衡問題,引入了Dice Loss損失,結(jié)合交叉熵損失構(gòu)建本文的損失函數(shù),實驗結(jié)果證明效果提升顯著。
1.1.1 語義分割
在計算機視覺(computer vision, CV)中,語義分割是一個非常重要的領域。圖像分割通??梢员硎鰹榫哂姓Z義標簽的像素分類問題(語義分割)或單個對象的分割問題(實例分割)。語義分割的結(jié)果通常是逐像素分類的類別(如人、車等),其在二維視覺和三維視覺中均具有極其重要的運用,并廣泛運用于自動駕駛、醫(yī)學圖像診斷、人機交互、增強現(xiàn)實等領域中。
隨著深度學習的快速發(fā)展,語義分割也取得了非常大的進步。全卷積神經(jīng)網(wǎng)絡(fully convolutional neural network, FCN)采用常見的特征提取網(wǎng)絡如VGG作為編碼器,并采用反卷積層實現(xiàn)上采樣恢復分辨率作為解碼器,首次實現(xiàn)了語義分割端到端訓練。在醫(yī)學圖像分割領域中取得巨大成功的UNet網(wǎng)絡結(jié)構(gòu)是當前主要采用結(jié)構(gòu)的代表,其基于FCN拓展和修改而來。其他語義分割的模型穩(wěn)步增多,如SegNet、DeepLab系列等。但UNet模型仍具有非常好的分割效果,曾在ISBI電子顯微鏡下細胞圖像的分割比賽中,以較大的優(yōu)勢領先,獲得了冠軍。本文即是基于UNet的網(wǎng)絡編解碼結(jié)構(gòu)并進行部分改進提出了UNet-S網(wǎng)絡來實現(xiàn)SAR圖像艦船目標分割與檢測。
1.1.2 SAR圖像艦船目標檢測
SAR圖像艦船目標檢測不同于CV領域中的目標檢測任務。后者通常涉及到定位與分類,而當前前者只涉及到定位問題。此外,諸多深度學習網(wǎng)絡用于檢測的解碼部分極為復雜,涉及到檢測框回歸、置信度以及分類網(wǎng)絡。基于錨框的方法通常還需要進行非極大值抑制(non-maximum suppression, NMS),對檢測出的諸多重復框進行篩選。
從某種意義上來說,SAR圖像艦船目標檢測可不看作是檢測問題而認為是二分類問題,關注點在于區(qū)分目標和背景。通過當前的神經(jīng)網(wǎng)絡有效地區(qū)分背景和目標,即可比較好地實現(xiàn)艦船目標檢測問題。在該思路上,本文提出基于語義分割的方法來實現(xiàn)SAR圖像艦船目標檢測,即逐像素進行艦船目標和背景的分類。該方法能在完成檢測的同時,獲取艦船目標的分割掩膜,便于后續(xù)的識別研究等。
1.2.1 改進型UNet-S語義分割網(wǎng)絡
UNet網(wǎng)絡結(jié)構(gòu)本身具有非常好的語義分割效果,而本文此處對UNet網(wǎng)絡結(jié)構(gòu)做出了部分修改以適應性地運用于SAR圖像中,采用的網(wǎng)絡結(jié)構(gòu)如圖1所示。
圖1 本文UNet-S網(wǎng)絡結(jié)構(gòu)Fig.1 The proposed UNet-S network architecture
輸入大小統(tǒng)一為800×800×3的形式,而輸出對應為800×800×2的大小(其具體的解碼過程可參考第1.2.2節(jié))。
UNet網(wǎng)絡由一個收縮路徑和一個對稱擴張路徑組成。收縮路徑即下采樣過程,用于獲取上下文信息;而對稱擴張路徑即上采樣過程,融合提取的上下文信息用于精確定位。
本文的模型對UNet中多尺度信息融合的方式進行了保留。整體網(wǎng)絡結(jié)構(gòu)同樣采用16倍下采樣的方式,相比較于原UNet網(wǎng)絡,本文UNet-S的設計方案以常見的VGG16網(wǎng)絡為特征編碼網(wǎng)絡。通過該特征提取網(wǎng)絡可在訓練過程中加載預訓練模型,進行固化訓練,并在迭代一定次數(shù)之后進行微調(diào),能夠有效地加快模型收斂速度、提高模型的性能。
解碼部分采用雙線性上采樣來提高分辨率并結(jié)合淺層網(wǎng)絡中提取的特征來獲取豐富的上下文信息,為逐像素預測過程提供更加豐富的空間信息。最后使用1×1大小的卷積進行通道數(shù)的調(diào)整,使其滿足語義分割的類別數(shù)。
1.2.2 語義分割解碼過程
基于深度學習的檢測方法通常會對提取的特征結(jié)合空間位置進行解碼,將提取的特征轉(zhuǎn)換為檢測框、置信度和類別,之后需對重復的檢測框進行非極大值抑制等操作。本文采用語義分割的方式,逐像素區(qū)分背景和艦船目標,在獲得分類結(jié)果之后對艦船目標的預測區(qū)域進行提取即可實現(xiàn)檢測,因此避免了復雜的檢測解碼過程。
而基于語義分割的解碼過程是在目標分類任務上的擴充。此處認為檢測是逐像素二分類任務,最終的預測結(jié)果為兩層800×800大小且經(jīng)過Softmax激活之后的對應位置概率值。通過該方式即可完成SAR圖像艦船目標語義分割任務,再對獲取的連通域進行提取,可獲得每個連通域的坐標框以及目標大小。
圖2為網(wǎng)絡預測結(jié)果、對應的生成掩膜以及轉(zhuǎn)化為檢測的結(jié)果。通過該方式實現(xiàn)的艦船目標檢測,一方面避免了諸多基于“過冗余”方法實現(xiàn)的檢測方法中帶來的算力大量消耗、設計錨框等問題;另一方面將檢測轉(zhuǎn)化為分割問題,使得艦船目標檢測中多尺度特性轉(zhuǎn)化為前景與背景類別不均衡問題,同時能夠獲取分割之后目標的具體信息,便于之后的識別研究等。
圖2 解碼實現(xiàn)過程Fig.2 Decoding implementation process
1.2.3 損失函數(shù)
(1)
式中:是總類別數(shù);為第個類別對應的CNN輸出結(jié)果。此時,像素交叉熵損失為
(2)
最終的分割交叉熵損失為
(3)
式中:為像素數(shù)。該損失函數(shù)形式歸根到底是逐像素單獨評估交叉熵損失再取均值,即可認為每個像素對于最終模型的貢獻是均衡的。但本文存在一個樣本不均衡的問題:艦船目標與背景具有很大的失調(diào)關系。經(jīng)統(tǒng)計得出,訓練數(shù)據(jù)中背景與艦船目標出現(xiàn)的頻率分別為0996和0004。如何有效地區(qū)分背景與目標,避免造成誤判尤其重要。
因此,本文在交叉熵損失基礎之上采用Dice Loss損失來緩解樣本不均衡的情況。Dice Loss損失最早于VNet中使用,用于解決醫(yī)學圖像中前景與背景極其不均衡的問題,后被廣泛引用并擴充至其他語義分割任務中。該損失函數(shù)采用的思想是直接對指標進行優(yōu)化而不是通過不同目標權(quán)重比來解決不均衡問題,其來源于評價指標Dice系數(shù)。不妨設樣本和,則
(4)
式中:|∩|表示的是交集個數(shù);||和||分別表示其元素個數(shù)。Dice系數(shù)是一個集合相似度度量函數(shù),取值范圍在0到1之間。在分割評價中,預測結(jié)果與標簽重合度越高,Dice值越大,而將其引用作為損失函數(shù)優(yōu)化可采用如下形式:
=1-Dice
(5)
本文Dice損失最終形式:
(6)
綜上,本文采用的損失函數(shù)為
=+
(7)
本文采用的實驗框架是Pytorch深度學習框架,實驗計算機硬件配置為GTX 1080Ti,顯存為11 G,內(nèi)存為32 GB。實驗過程中,總迭代次數(shù)設置為150次。其中,前50次加載預訓練模型進行固化訓練;后100次對模型進行微調(diào),所有參數(shù)均進行更新。
本文使用分割與檢測兩種評價指標,從多方面對檢測以及分割所得的結(jié)果進行比較,能夠凸顯采用方法的優(yōu)越性。此外,為了與基于深度學習的檢測方法相比較,本文選用單階段檢測YOLOv4方法以及雙階段檢測算法Faster R-CNN(ResNet50)作為參照基準。
當前公布且用于深度學習訓練的SAR圖像艦船目標檢測數(shù)據(jù)并不是很多,典型代表有海軍航空大學的SSDD、中國科學院的SAR-Ship-Dataset以及電子科學技術(shù)大學的HRSID數(shù)據(jù)集等。
相比較于其他數(shù)據(jù)集,HRSID數(shù)據(jù)集數(shù)據(jù)量適中,單圖像雖較大,但具有比較高的分辨率,且其涵蓋多目標、多尺度以及強干擾等情況的艦船目標。此外,該數(shù)據(jù)集還進行了統(tǒng)一劃分,具有一個二階段檢測方法的對照基準,且對艦船目標進行了實例分割的標注。在該數(shù)據(jù)集基礎上,本文對標注結(jié)果進行調(diào)整,進一步生成語義分割標注結(jié)果,用于實驗驗證。
由于本文通過分割的方式來實現(xiàn)SAR圖像艦船目標檢測,因此具有分割特性且具有檢測特性,可通過兩種不同的方式對實驗結(jié)果進行評價分析。
從語義分割的角度進行分析,本文選取了均交并比(mean intersection over union, MIoU)和平均像素準確率(mean pixel accuracy, MPA)作為評價指標。假設包含背景共有+1個類別,表示類別為的像素被預測為類別為的數(shù)目,則就表示TP(true positives),與分別表示為FP(false positives)與FN(false negatives)。則MIoU和MPA的計算方式分別如下:
(8)
(9)
MIoU是計算真實值和預測值之間的交集與并集之比,先計算出每一類的交并比(intersection over union, IoU),再對多類IoU求和之后的結(jié)果進行平均得到最終的全局評價指標。而MPA計算的是每一類正確判別的像素比例,再同樣對所有類別求其平均值,是從像素角度進行的評價。
從檢測的角度進行分析,本文選取COCO數(shù)據(jù)集中的平均精度和平均召回率等作為評價指標。此外,本文還考慮了模型大小等問題,并從其他角度對結(jié)果進行比較分析。
本文方法的語義分割指標如表1所示,實驗采用的模型即是本文在UNet基礎上進行修改并適應的調(diào)整應用于SAR圖像中的UNet-S。不同損失函數(shù)對應的結(jié)果對比如表1所示。
表1 語義分割評價指標Table 1 Semantic segmentation evaluation indicators
其中,總計是背景和艦船目標分割結(jié)果的平均值,CE指的是是否使用交叉熵損失函數(shù),Dice代表是否使用Dice Loss損失。從表1中對比可看出,訓練過程中使用Dice Loss能夠有效地提升語義分割效果。雖在背景上分割結(jié)果相近,但對于艦船目標分割效果提升顯著,MPA更達到了7.3%的差距。表2和表3反映的是檢測評價指標,其中Dice代表是否使用Dice Loss損失;而AP代表的是準確度,下標數(shù)字代表的是不同閾值情況,下標s、m和l對應小目標、中目標和大目標情況。
表2 不同模型的平均精度指標Table 2 Average precision indicators of different models
表3 不同模型的平均召回率指標Table 3 Average recall rate indicators of different models
對比可知,本文方法在精度指標AP上超出單階段檢測優(yōu)秀算法YOLOv4和雙階段典型算法Faster R-CNN(采用的骨干網(wǎng)絡為ResNet50),且無論目標大小都有極高的精度。表3中AR指的是平均召回率,同樣超出YOLOv4和Faster R-CNN,最高達到33.3%的差距,可見本文所用算法的優(yōu)越性。
圖3展示了本文方法的部分預測結(jié)果,其中圖3(a)對應的是真實標注框,圖3(b)對應的是本文方法的預測結(jié)果,圖3(c)是語義分割過程中預測的掩膜。可以看出,無論是大目標還是小目標、復雜背景與簡單背景還是稀疏情況與稠密情況下,本文方法都能得到一個很好的檢測與分割效果。
圖3 UNet-S的檢測結(jié)果Fig.3 Detection results of UNet-S
表2和表3反映了本文方法的優(yōu)越性,這可歸因于UNet-S對于艦船目標尺度不敏感的特性。其將檢測問題轉(zhuǎn)化為語義分割問題,逐像素判斷艦船目標和背景。因此不利于檢測方法的艦船目標多尺度特性與小目標檢測在此處轉(zhuǎn)化為目標和背景的不均衡問題。通過Dice Loss損失函數(shù)可有所緩解,整體效果提升巨大。
與此同時,從表3中的模型大小可以發(fā)現(xiàn),UNet-S參數(shù)量僅為94.9 M,而YOLOv4參數(shù)量為244.4 M。其他如雙階段檢測算法HRSDNet檢測效果雖好,但模型大小更達到728.2M。相對而言,本文UNet-S模型的參數(shù)量較小。
圖4展示的是本文方法與YOLOv4的檢測框?qū)Ρ惹闆r,其中綠色框代表的是真實標注框,紅色框?qū)氖潜疚腢Net-S的預測結(jié)果而黃色框是YOLOv4的檢測結(jié)果。從圖4(a)中可以看出,本文方法的預測框與真實標注的結(jié)果基本相重合,預測的結(jié)果相對于真實框偏移極小。而圖4(b)中YOLOv4的檢測結(jié)果相對而言偏移較大。
圖4 預測框結(jié)果對比Fig.4 Result comparisons of predicted bounding boxes
圖5展示的是復雜背景下和多尺度目標下,UNet-S和YOLOv4算法的檢測結(jié)果,其中標注框顏色與前文所述一致。YOLOv4在該場景中漏檢兩個目標且預測框偏移較大,而本文算法則完整地檢測出所有目標,預測框整體偏移較小。這再次說明通過語義分割的方式能夠在SAR圖像上達到很好的檢測與分割效果。
圖5 復雜背景下檢測對比Fig.5 Detection comparisons under complex backgrounds
在諸多公開數(shù)據(jù)集的引導下,當前已有許多深度學習的檢測方法用于SAR圖像中完成艦船目標檢測等任務。但就其自身特點來說,均屬于遷移類方法,缺乏了對其任務自身的考量。當前SAR圖像艦船目標檢測只涉及定位而不涉及分類問題,且錨框等設計思路在SAR圖像中容易造成冗余、算力浪費情況。此外,數(shù)據(jù)集本身的噪聲影響、多尺度特性以及目標背景不均衡問題等均對檢測產(chǎn)生極大的負面影響。
不同于當前已有思路,本文將SAR圖像艦船檢測問題認為是二分類問題,通過語義分割的方法實現(xiàn)了SAR圖像艦船目標檢測分割一體化。本文避免了復雜的檢測網(wǎng)絡解碼問題以及將艦船目標多尺度不易檢測特性轉(zhuǎn)化為目標和背景判別問題,通過引入Dice Loss損失函數(shù)進行優(yōu)化,在分割的同時實現(xiàn)了艦船目標檢測。實驗結(jié)果表明,本文方法在評價指標上均取得了大幅提升。
本文所有實驗結(jié)果均基于UNet語義分割實現(xiàn),并對其進行了部分改進,提出了UNet-S網(wǎng)絡以適用于SAR圖像中。下一步工作將考慮如何進一步提升檢測與分割的效果以及追求更加高效的性能。