陳詩琪 王 威 占榮輝 張 軍 劉盛啟
(國防科技大學(xué)自動目標識別重點實驗室 長沙 410073)
合成孔徑雷達(Synthetic Aperture Radar,SAR)作為一種主動式微波成像傳感器,以其全天時、全天候、作用距離遠的技術(shù)優(yōu)勢,成為對地觀測的主要手段之一,廣泛應(yīng)用于軍事偵察和民用遙感領(lǐng)域[1,2]。近年來,隨著SAR系統(tǒng)技術(shù)和成像算法的日趨成熟,國內(nèi)外多個先進的SAR衛(wèi)星獲取了海量廣域高分辨率和高質(zhì)量的SAR圖像。SAR圖像艦船目標檢測可實現(xiàn)寬闊海域和港口中目標的快速提取定位,能為海洋交通、漁業(yè)管理、戰(zhàn)場態(tài)勢評估和軍事目標偵察提供重要信息支撐。傳統(tǒng)的SAR圖像目標檢測通常包含恒虛警率(Constant False Alarm Rate,CFAR)方法[3]和模板匹配方法[4]。前者需要構(gòu)建雜波統(tǒng)計模型來確定檢測閾值,參數(shù)估計和計算求解復(fù)雜耗時;而后者需要建立全面的模板庫,且常常依賴專家經(jīng)驗,泛化性能較差。
近年來,深度學(xué)習(xí)憑借其強大的表征能力和特征學(xué)習(xí)能力在目標分類、檢測、分割等各類任務(wù)中顯現(xiàn)出巨大的優(yōu)勢,并且在SAR目標檢測方面也取得了良好效果。基于深度學(xué)習(xí)的目標檢測方法無需海陸分割,能適應(yīng)于不同復(fù)雜程度的場景,具有高精度和高效性等優(yōu)點。文獻[5]通過改進Faster RCNN[6]對艦船目標進行檢測,結(jié)合了特征融合、遷移學(xué)習(xí)、難例樣本挖掘等策略在SSDD數(shù)據(jù)集上取得了79%的檢測精度。文獻[7]將單階段檢測器SSD[8]用于SAR艦船檢測,提出輕量化特征優(yōu)化網(wǎng)絡(luò),通過雙向語義信息聚合與注意力機制改善了多尺度目標的檢測性能。文獻[9]在YOLOv3網(wǎng)絡(luò)[10]的基礎(chǔ)上,采用深度可分離卷積網(wǎng)絡(luò)重新搭建輕量級網(wǎng)絡(luò)SARShipNet-20,結(jié)合了通道、空間注意力機制,能在提高檢測速度的同時達到較高的檢測精度。Gao等人[11]提出的SAR艦船目標檢測器針對YOLOv4在特征融合結(jié)構(gòu)、解耦分類和回歸分支以及輕量化檢測頭部進行改進,所提網(wǎng)絡(luò)比原始網(wǎng)絡(luò)輕量化了約33.3%,參數(shù)量為42.6 M。Zhu等人[12]基于YOLOv5檢測器提出了高速高精度的檢測器H2Det,僅有14.4 M的參數(shù)量。文獻[13]在無錨框檢測器FCOS[14]的基礎(chǔ)上設(shè)計特征平衡和優(yōu)化網(wǎng)絡(luò),并結(jié)合注意力機制引導(dǎo)金字塔網(wǎng)絡(luò)不同層級特征的提取。文獻[15]提出了由海陸分割、分塊區(qū)域篩選和改進的FCOS3部分構(gòu)成的大場景目標檢測框架。該方法引入特征優(yōu)化模塊,且針對漏檢和虛警問題優(yōu)化了位置回歸分支的特征表達,從而提升定位精度。文獻[16]基于CenterNet[17]設(shè)計特征精修模塊以提取多尺度上下文信息并改進了特征金字塔融合方式,同時為解決正負樣本不平衡問題對檢測頭部進行增強。
上述方法大多基于錨框遍歷機制,需要手工預(yù)設(shè)錨框尺寸、比例等屬性來初始定位目標,特征圖上產(chǎn)生的密集候選框不僅計算資源消耗大,且僅有少量候選區(qū)域能匹配目標的高質(zhì)量錨框,由此會帶來嚴重的正負樣本不平衡問題。此外,大多表征能力強的檢測骨干網(wǎng)絡(luò)體積龐大,網(wǎng)絡(luò)參數(shù)較多,一定程度能提升檢測精度但會導(dǎo)致檢測速度降低。
此外,當(dāng)前大多SAR艦船檢測方法用最小外接水平框定位目標,忽略了角度信息。當(dāng)目標的長寬比較大時,檢測框會包含大量背景雜波區(qū)域且不能反映艦船分布的方向信息。當(dāng)多個目標緊密排列時,檢測框之間的交并比增大,在非極大值抑制(Non-Maximum Suppression,NMS)階段容易被濾除從而產(chǎn)生漏檢。為提升近岸艦船目標的檢測性能,基于有向框標記的艦船檢測方法受到了廣泛關(guān)注。文獻[18]第一次將旋轉(zhuǎn)角度加入目標真值框?qū)崿F(xiàn)了基于SSD的SAR目標方位角預(yù)測,該方法通過結(jié)合線上難例挖掘、焦點損失等方法解決了正負樣本不平衡問題。文獻[19]在RetinaNet框架[20]上提出尺度標定方法來對齊特征圖輸出尺度和目標尺度,并通過基于任務(wù)的注意力金字塔網(wǎng)絡(luò)解耦分類和回歸任務(wù)的優(yōu)化過程。文獻[21]基于YOLOv3框架提出任意方向目標檢測模型,通過設(shè)計多任務(wù)損失函數(shù)和方位角偏差校正能同時輸出垂直框和旋轉(zhuǎn)框。Fu等人[22]采用gliding vertex[23]中的旋轉(zhuǎn)框表示法,設(shè)計了動態(tài)特征提取模塊來增強目標的語義和空間信息,并根據(jù)SAR成像特性定義屬性散射中心點來引導(dǎo)特征自適應(yīng)學(xué)習(xí)。
上述旋轉(zhuǎn)目標檢測方法大多由基于錨框的方法改進而來,需要設(shè)置不同角度參數(shù)的錨框以匹配旋轉(zhuǎn)候選區(qū)域,在復(fù)雜場景下難以正確匹配真實框。其次,這類方法會引入大量依賴數(shù)據(jù)集而定的參數(shù),增加網(wǎng)絡(luò)的計算量和復(fù)雜度。再者,SAR圖像中艦船目標既稀疏分布于空曠海域中,部分也密集分布于近岸區(qū)域。尤其在大場景圖像中大部分是背景區(qū)域,若采用基于錨框的方法會引入大量的重復(fù)計算,導(dǎo)致正負樣本分配嚴重失衡。最后,在實時性要求高的艦船檢測部署應(yīng)用中,不僅要考慮高檢測精度還需要輕量化的網(wǎng)絡(luò)模型和較好的實時性。在計算能力及存儲能力受限的移動設(shè)備上部署神經(jīng)網(wǎng)絡(luò)模型更需要設(shè)計輕量化的骨干網(wǎng)絡(luò)和檢測頭。但現(xiàn)有的輕量化網(wǎng)絡(luò)[9,11,12]均根據(jù)現(xiàn)有的檢測器改進或者直接設(shè)計輕量化網(wǎng)絡(luò),對骨干網(wǎng)絡(luò)的選取依賴較大。本文先學(xué)習(xí)表現(xiàn)好的教師網(wǎng)絡(luò),再通過模型壓縮得到學(xué)生網(wǎng)絡(luò),最后通過蒸餾結(jié)構(gòu)進一步優(yōu)化學(xué)生網(wǎng)絡(luò)模型。
針對上述問題,為減少計算資源并提升檢測方法的實用性,本文提出一種基于知識蒸餾的輕量化SAR任意方向艦船目標檢測器。該檢測網(wǎng)絡(luò)能直接預(yù)測出目標的中心點位置,長寬以及方向角信息。檢測架構(gòu)由骨干網(wǎng)絡(luò)特征提取模塊和多分支預(yù)測模塊構(gòu)成。前者輸出像素級的概率圖,其中每個位置的值表明該像素屬于目標區(qū)域的概率,后者通過回歸目標的定位參數(shù)并解碼獲取最終的檢測結(jié)果。最后,在輕量化的學(xué)生網(wǎng)絡(luò)上提出基于像素點相似度的改進熱度圖蒸餾和前景注意力區(qū)域引導(dǎo)的特征蒸餾。為彌補前景引導(dǎo)時上下文信息的缺失,提出全局語義模塊將像素間的關(guān)系建模為蒸餾對象。將來自教師模型的各層次暗知識傳遞到學(xué)生模型以提升檢測精度,最終得到輕量化、實時性強且定位精度高的SAR艦船檢測網(wǎng)絡(luò)模型。
本文提出的輕量化檢測器主要由3部分構(gòu)成:特征提取骨干網(wǎng)絡(luò)、多分支檢測頭網(wǎng)絡(luò)以及蒸餾模塊。首先構(gòu)建基準教師網(wǎng)絡(luò)檢測結(jié)構(gòu),其基礎(chǔ)框架如圖1所示:給定輸入圖像,采用編解碼骨干網(wǎng)絡(luò)輸出4倍下采樣高分辨率特征圖,同時將其作為前景注意力引導(dǎo)模塊的輸入使得網(wǎng)絡(luò)更加關(guān)注前景區(qū)域的特征。然后以中心點作為關(guān)鍵點代替錨框進行熱度圖分類和邊界框回歸,對輸出的偏置值、邊框位置參數(shù)以及角度參數(shù)進行解碼可得旋轉(zhuǎn)框檢測結(jié)果。最后,為輕量化網(wǎng)絡(luò)的同時保持檢測精度,設(shè)計知識蒸餾模塊完成從教師網(wǎng)絡(luò)到學(xué)生網(wǎng)絡(luò)的模型知識遷移。
圖1 基于關(guān)鍵點的旋轉(zhuǎn)框檢測器整體框架Fig.1 Overall framework of keypoint-based oriented detector
基于CenterNet的檢測器通常需要獲取高分辨率的熱度圖,而常用的網(wǎng)絡(luò)結(jié)構(gòu)如VGGNet,ResNet等獲取的最后一層特征圖分辨率較低,導(dǎo)致小目標信息損失嚴重。U-Net和Hourglass采用高到低和低到高層特征圖雙向融合的方式以遞歸式結(jié)構(gòu)得到高分辨率特征圖,網(wǎng)絡(luò)復(fù)雜且效率較低。本文選取高分辨率網(wǎng)絡(luò)(High-Resolution Network,HRNet)[24]作為特征提取骨干網(wǎng)絡(luò)獲得具有豐富細粒度信息的特征。如圖2所示,HRNet能從輸入到輸出始終保持高分辨率特征圖,對于密集排列或者有輕微遮擋和重疊的目標也能有效提取其關(guān)鍵點信息。
圖2 HRNet骨干網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Structure of HRNet backbone network
HRNet中大量殘差模塊會帶來龐大的參數(shù)量,本文選取深度可分離卷積和1×1卷積的結(jié)合代替常規(guī)卷積,由此輕量化網(wǎng)絡(luò)中的殘差模塊。為達到模型參數(shù)量和性能的平衡,在殘差模塊中保留一層常規(guī)卷積,另一層用輕量化卷積模塊代替,能減少大約一半的模型參數(shù)。得益于高分辨率網(wǎng)絡(luò)反復(fù)融合多尺度特征的特性,特征圖沒有因為連續(xù)下采樣而損失大量細節(jié)信息,一定程度保留了SAR圖像中小艦船目標的信息。為增強網(wǎng)絡(luò)對多尺度目標的特征提取能力,對HRNet輸出的4個階段的特征圖進行自底向上的特征融合操作,取4倍下采樣的頂層特征圖作為檢測頭部的輸入特征。為使檢測頭輕量化,用5×5深度可分離卷積替換原始3×3卷積核,在不損失速度的同時增大卷積核的感受野,從而能覆蓋更多不同尺度的艦船目標。除了寬高預(yù)測分支使用兩個3×3的卷積之外,其余分支均使用一個3×3卷積加上1×1卷積。
常用基于關(guān)鍵點的檢測方法在定義正負樣本位置時沒有充分考慮目標的形狀大小和方向,難以適應(yīng)SAR艦船目標角度和長寬比的多樣性。本部分提出結(jié)合長寬和方向角信息的旋轉(zhuǎn)高斯分布函數(shù)來產(chǎn)生樣本的真值熱度圖,更好地刻畫艦船分布的長寬比和方向角。
對于SAR艦船單類目標檢測器而言,輸入寬和高為W和H的特征圖,其輸出通道數(shù)為1,因此熱度圖尺度為W×H ×1。在原始圓形高斯熱度圖上進行改進,用旋轉(zhuǎn)的橢圓高斯區(qū)域表示目標的正樣本區(qū)域。定義中心點熱度圖的真值為,產(chǎn)生熱度圖的高斯核為
X=(x,y)表 示目標在特征圖中所處位置,μ=(cx,cy)對應(yīng)于4倍下采樣的真值框坐標。
別表示由目標真值框角度確定的旋轉(zhuǎn)矩陣,以及由目標旋轉(zhuǎn)框?qū)捀叽_定的對角矩陣。σx,σy表示由目標長寬確定的標準差值,k表示確定旋轉(zhuǎn)高斯核方向的指數(shù),其與目標邊框尺寸的具體關(guān)系如式(3)。
由于SAR圖像中近岸區(qū)域場景復(fù)雜,大多靠岸艦船目標與碼頭、島礁、岸上建筑物等背景有相似散射特征,難以被準確區(qū)分。為使模型更加關(guān)注前景信息,本部分提出前景注意力引導(dǎo)模塊學(xué)習(xí)圖像的前景區(qū)域特征,在凸顯目標區(qū)域的同時抑制雜波背景的影響,結(jié)構(gòu)如圖1中橙色框所示。前景注意力生成模塊由一個3×3普通卷積層、一個3×3空洞卷積核和兩個1×1的卷積層構(gòu)成。
旋轉(zhuǎn)框檢測框架中檢測頭包括中心點熱度圖、偏置值、旋轉(zhuǎn)框參數(shù)和前景注意力預(yù)測圖4個分支。由于中心點熱度圖和偏置值預(yù)測負責(zé)精確定位目標中心點,而旋轉(zhuǎn)框參數(shù)預(yù)測部分更關(guān)注目標的形狀,這里僅在旋轉(zhuǎn)框參數(shù)預(yù)測時使用前景注意力增強后的特征。
受語義分割任務(wù)中像素級分類方法的啟發(fā),可由目標的實例級標注信息獲取前景區(qū)域的標注,即所有在邊框內(nèi)的像素值定義為1,超出邊框邊界的像素值為0。考慮到目標周圍區(qū)域包含的邊緣信息對精確定位和回歸有益,將目標周圍一定范圍內(nèi)的區(qū)域作為過渡區(qū)域。根據(jù)經(jīng)驗值,本文選定超出真值框1/4大小的邊框為中間區(qū)域,在制作前景分割圖標簽時,將中間區(qū)域的像素值設(shè)置為0.5。將目標的分割圖作為監(jiān)督信息可訓(xùn)練該注意力模塊。經(jīng)過前景注意力增強的特征圖包含了目標的長寬信息,能為前景目標的尺度預(yù)測提供有效指引。
給定骨干網(wǎng)絡(luò)最后階段的輸出特征圖F,定義得到的前景注意力特征圖為M(F)。該特征圖有兩方面作用:一是產(chǎn)生注意力掩模圖,在訓(xùn)練前景注意力分支時將上述前景區(qū)域的像素級標注作為監(jiān)督信息;另一方面可用于增強骨干網(wǎng)絡(luò)的原始輸出特征圖。增強后作為目標形狀預(yù)測分支的輸出特征圖可表示為
⊙表示逐元素相乘,exp表示指數(shù)操作,⊕表示特征拼接操作。指數(shù)操作一定程度避免了特征圖中有利于預(yù)測目標尺度的信息丟失。
2.4.1 中心點和偏置值回歸
在訓(xùn)練熱度圖時選取高斯分布的峰值為正樣本,其余點為負樣本。由于高斯分布中心附近的點也有一定的預(yù)測概率,為高斯核內(nèi)的其他點賦予由距離中心遠近所度量的權(quán)重。為解決正負樣本嚴重不平衡問題,訓(xùn)練高斯熱度圖分支時采用改進的焦點損失函數(shù),即
其中,pxy表示第xy個像素點的熱度圖預(yù)測值,gpxy為該像素點對應(yīng)的真值,N表示目標總數(shù)量。默認取值α=2,β=4。同訓(xùn)練中心點熱度圖一致,前景注意力分支也由上述損失函數(shù)訓(xùn)練得到。
在網(wǎng)絡(luò)推理階段,將提取到的預(yù)測熱度圖的峰值點作為目標中心點。當(dāng)輸入SAR圖像中艦船目標位置為 (x,y)時,骨干網(wǎng)絡(luò)中輸出特征圖對應(yīng)位置為。由于特征提取網(wǎng)絡(luò)中的下采樣操作會帶來量化誤差,為彌補將熱度圖中的位置重映射到原圖時的精度損失,構(gòu)建預(yù)測特征圖為O ∈RW×H×2的偏置值分支。用平滑L1函數(shù)優(yōu)化偏置值可得損失值:
其中,oi和分別表示第i個目標的偏置值預(yù)測值和對應(yīng)真值。
2.4.2 旋轉(zhuǎn)框回歸
由于SAR圖像中存在一定比例的近乎水平或者垂直分布的目標,本文考慮兩種回歸方式,將帶有旋轉(zhuǎn)角度的目標邊框(OBB)定義為水平框(HBB)和旋轉(zhuǎn)框(RBB)。當(dāng)目標真值框呈現(xiàn)水平分布時,回歸寬和高即可得到邊框位置。當(dāng)目標真值框帶有旋轉(zhuǎn)角度時,可通過回歸最小外接矩形框的寬高和目標中心點到四邊的距離得到旋轉(zhuǎn)框位置。引入旋轉(zhuǎn)因子來確定真值框回歸時按水平或者旋轉(zhuǎn)形式:
IoU表示旋轉(zhuǎn)框和最小外接矩形框的交并比?;谏鲜鲂D(zhuǎn)因子可構(gòu)建旋轉(zhuǎn)分支的輸出特征圖Θ ∈RW×H×1,將訓(xùn)練旋轉(zhuǎn)因子轉(zhuǎn)換為分類任務(wù),用二值交叉熵損失來優(yōu)化旋轉(zhuǎn)分支:
對目標進行旋轉(zhuǎn)框表示時,用中心點到四條邊構(gòu)成的4個向量來描述旋轉(zhuǎn)框。檢測頭部預(yù)測的邊框參數(shù)為(t,r,b,l,w,h),構(gòu)建由此組成的旋轉(zhuǎn)框回歸分支。同偏置值分支一致采用如下?lián)p失函數(shù):
其中,Bi和分別表示目標邊框的真實值和預(yù)測的目標邊框參數(shù)。當(dāng)值為1時,回歸B中旋轉(zhuǎn)框表示法的10個參數(shù);當(dāng)值為0時,僅回歸B中寬高兩個參數(shù)。
雖然HRNet骨干網(wǎng)絡(luò)通過信息交換和多尺度特征融合能得到表征能力極強的高分辨率特征圖,但多階段之間大量重復(fù)的融合操作和密集的層間特征融合會產(chǎn)生較高的計算復(fù)雜度,使得網(wǎng)絡(luò)參數(shù)量龐大。本文對上述基于關(guān)鍵點的旋轉(zhuǎn)檢測框架進行知識蒸餾可得到輕量化檢測器,具體蒸餾框架如圖3所示。骨干網(wǎng)絡(luò)HRNet32作為教師網(wǎng)絡(luò),HRNet16作為學(xué)生網(wǎng)絡(luò)進行蒸餾(32表示高分辨率子網(wǎng)在最后3個階段的寬度分別為96,192,384;16表示并行子網(wǎng)的寬度為64,128,256)。前者檢測頭部的卷積層輸出通道數(shù)為32,后者為16。
圖3 蒸餾結(jié)構(gòu)示意圖Fig.3 Schematic diagram of distillation structure
2.5.1 蒸餾損失函數(shù)構(gòu)建
訓(xùn)練輕量級學(xué)生網(wǎng)絡(luò)時,將目標真值作為硬標簽,教師網(wǎng)絡(luò)預(yù)測作為軟標簽,整體損失函數(shù)如下:
其中,A表示檢測頭部預(yù)測的中心點位置、偏置值、旋轉(zhuǎn)框尺度、角度因子參數(shù)的集合,λ為蒸餾損失所占比例。在目標真值作為硬標簽時,加入前景注意力引導(dǎo)模塊的損失函數(shù),在蒸餾時加入特征層次的損失函數(shù)。其中yA表 示目標的真值標注,At和As分別表示教師和學(xué)生網(wǎng)絡(luò)的角度預(yù)測輸出。Ldet將真值作為硬標簽計算損失來訓(xùn)練學(xué)生網(wǎng)絡(luò)(同訓(xùn)練教師網(wǎng)絡(luò)的相應(yīng)分支),LKD將教師網(wǎng)絡(luò)的預(yù)測作為軟標簽,可表示如下:
其中,λhm,αhm表示常規(guī)訓(xùn)練和蒸餾訓(xùn)練中熱度圖損失所占比例,λatt和αfea表示注意力分支損失和特征圖蒸餾損失所占比例。Ldet中各項損失同2.4節(jié)中各預(yù)測模塊的損失一致,LKD由特征圖蒸餾損失和檢測結(jié)構(gòu)預(yù)測頭部的各部分蒸餾損失共同構(gòu)成,下面將分別介紹改進的特征圖和熱度圖蒸餾模塊。
2.5.2 特征圖蒸餾
由于HRNet最后階段提取的特征已融合了各層級的特征,本文僅對末階段特征圖進行蒸餾。SAR圖像中存在前景和背景樣本嚴重不平衡現(xiàn)象,若對整個特征圖進行蒸餾將引入大量噪聲,導(dǎo)致學(xué)生網(wǎng)絡(luò)難以學(xué)習(xí)到教師網(wǎng)絡(luò)中對檢測有益的特征。由于近岸SAR圖像中背景與目標散射特性存在相似性,在特征蒸餾時需要既能考慮到與目標區(qū)域相關(guān)的有效特征,同時結(jié)合港口、島礁、碼頭等背景特征來輔助艦船目標特征的蒸餾。因此本文提出前景注意力掩模引導(dǎo)的上下文信息增強特征蒸餾策略。
定義Ft和Fs分別為教師和學(xué)生網(wǎng)絡(luò)的特征圖輸出,當(dāng)兩者通道數(shù)不匹配時,加入通道自適應(yīng)函數(shù)φ對齊通道數(shù)。為使蒸餾過程更加關(guān)注前景區(qū)域的特征,將教師網(wǎng)絡(luò)檢測頭分支產(chǎn)生的前景注意力特征圖M(Ft)作為骨干網(wǎng)絡(luò)特征蒸餾的監(jiān)督信號。
文獻[25]中結(jié)合Non-Local模塊捕捉目標的上下文信息,建模了圖像中兩個像素之間的關(guān)系。但由于其計算量大、難以即插即用,本文采用GCblock[26]構(gòu)建全局語義建模模塊,使得蒸餾過程中不僅能學(xué)習(xí)艦船目標特征圖中單個像素的知識,同時也能捕捉周圍地物背景與目標像素的關(guān)聯(lián)信息。該模塊的內(nèi)部結(jié)構(gòu)可由式(12)表示,由此改進的特征蒸餾損失可由式(13)表示:
其中,LN 表示層歸一化操作,Np表 示特征圖Fm中的像素個數(shù)。
2.5.3 熱度圖蒸餾
在對檢測頭進行蒸餾時,將從中心點熱度圖、偏置值和尺度、旋轉(zhuǎn)角因子3個方面設(shè)計蒸餾損失函數(shù)。中心點熱度圖的預(yù)測決定了目標定位的精確度,因此如何縮小教師和學(xué)生網(wǎng)絡(luò)預(yù)測熱度圖的差異對學(xué)生網(wǎng)絡(luò)的檢測精度至關(guān)重要。由于熱度圖的預(yù)測實質(zhì)是像素點分類問題,本文將不同空間位置的像素點作為節(jié)點,節(jié)點間的相似度作為邊來構(gòu)建鄰接圖結(jié)構(gòu)。對于每個節(jié)點,只計算其與周圍m個節(jié)點的相似性。這種基于點對點相似度保持的蒸餾策略,能最大化保持教師和學(xué)生網(wǎng)絡(luò)預(yù)測熱度圖中像素對的一致性。將圖結(jié)構(gòu)中點對點相似度蒸餾損失表示為
其中,教師網(wǎng)絡(luò)中像素點i和j之間的相似度為,學(xué)生網(wǎng)絡(luò)中對應(yīng)的相似度為。對于W×H ×1大小的中心點熱度圖,用fi表示第i個 空間位置上特征圖的值,相似度可由式(15)計算:
由于旋轉(zhuǎn)角因子的確定可視為二分類問題,定義最小均方差蒸餾損失:
同理,對于偏置O和旋轉(zhuǎn)框除角度因子外的其余參數(shù)表示S,選取平滑的L1損失函數(shù)計算損失:
本文實驗平臺硬件配置為Intel?CoreTMi7-8700K CPU,32 GB內(nèi)存計算機,使用NVIDIA RTX2080Ti GPU進行加速運算。軟件環(huán)境為Linux平臺,操作系統(tǒng)為Ubuntu16.04。文中實驗基于Pytorch深度學(xué)習(xí)框架構(gòu)建網(wǎng)絡(luò)模型,并使用CUDA10.0和CUDNN7.6實現(xiàn)程序加速。
本文方法在公開SAR圖像艦船目標檢測數(shù)據(jù)集HRSID[27]上進行驗證。在實驗中,按照7:2:1的比例劃分訓(xùn)練、驗證和測試集,使用Adam優(yōu)化器對網(wǎng)絡(luò)參數(shù)迭代更新,權(quán)重衰減率為0.0005。將CenterNet檢測器作為基準模型且用骨干網(wǎng)絡(luò)HRNet提取圖像特征。教師和學(xué)生網(wǎng)絡(luò)訓(xùn)練時各項損失值的比例分別設(shè)置為λhm=λatt=0.8,蒸餾時αfea=αhm=3且λ=0.5。設(shè)置初始學(xué)習(xí)率為1.25E-4,按照step的學(xué)習(xí)策略分別在70和90epoch時候?qū)W習(xí)率衰減為原始的0.1倍,共訓(xùn)練100個epoch。每訓(xùn)練10個epoch保存一次網(wǎng)絡(luò)模型,根據(jù)訓(xùn)練結(jié)果保存最優(yōu)模型。一批訓(xùn)練4張圖片,采用隨機裁剪、翻轉(zhuǎn)、亮度變換等操作擴充數(shù)據(jù)集。
實驗中,當(dāng)檢測邊框與真值邊界框的IoU超過0.5時,即可認為檢測正確。本文采用深度學(xué)習(xí)中的評價指標,即召回率Recall,精度Precision以及平均精度AP。定義TP (True Positive)為正確的艦船檢測數(shù)目,GT (Ground Truth)為真實的艦船數(shù)目,F(xiàn)P (False Positive)為錯誤檢測的艦船數(shù)目,F(xiàn)N (False Negative)為漏檢的艦船數(shù)目。則召回率、準確率和F1值可分別定義為
平均精度定義為
其中,p為 精度,r為召回率,p(r)表示精度和召回率的曲線。AP的值越大表示算法性能越好。
此外,用網(wǎng)絡(luò)參數(shù)量Params(M)和網(wǎng)絡(luò)前向計算量FLOPs(G)衡量模型的輕量程度。
3.2.1 消融實驗
為說明本文提出的尺度和方向自適應(yīng)的高斯核、前景注意力引導(dǎo)模塊的效果,將基于CenterNet的旋轉(zhuǎn)框檢測方法作為基線模型在HRSID數(shù)據(jù)集上進行消融對比實驗。該實驗以骨干網(wǎng)絡(luò)HRNet32為基準,輸入網(wǎng)絡(luò)的圖像大小為608 pixel×608 pixel,每組實驗設(shè)置的參數(shù)保持一致。表1展示了不同模塊下的各項評價指標。
從表1可看出,加入改進的高斯核熱度圖表示后,AP從0.7833提升至0.7927,F(xiàn)1分數(shù)提升了3.8%左右。說明提出的旋轉(zhuǎn)非歸一化高斯核能更好地刻畫艦船分布的方向角和長寬比,目標的關(guān)鍵點預(yù)測更加準確。圖4展示了測試圖像中各個目標的預(yù)測熱度圖和前景注意力預(yù)測特征圖。
表1 HRSID數(shù)據(jù)集上的消融實驗Tab.1 Ablation experiments on HRSID dataset
從圖4可以看出,預(yù)測的高斯熱度圖能準確地反映目標的長寬和方向角信息。前景注意力特征圖的激活位置能精確反映前景區(qū)域,而尺度預(yù)測分支能通過增強的前景特征表示更精確地預(yù)測目標的長寬比信息。在復(fù)雜近岸場景下檢測時,通過加入前景注意力引導(dǎo)機制,網(wǎng)絡(luò)將更關(guān)注前景目標區(qū)域,一定程度減少了目標周圍島岸背景的干擾,使得定位精度上AP提升了2%,F(xiàn)1從0.7759提升至0.8082。加入兩個模塊的結(jié)合后對檢測器召回率的提升沒有單獨加入前景注意力機制時提升明顯,可能是由于旋轉(zhuǎn)高斯核的引入一定程度降低了密集排列目標的漏檢率,此時前景注意力機制主要作用于提升回歸精度方面。
圖4 熱度圖可視化Fig.4 Heatmap visualization
上述結(jié)果表明,引入前景注意力引導(dǎo)模塊優(yōu)化旋轉(zhuǎn)框尺度參數(shù)回歸,并根據(jù)目標尺度和方向角改進高斯核表示都能提升艦船目標檢測的精度。
3.2.2 無蒸餾與不同蒸餾策略下的對比實驗
為進一步輕量化網(wǎng)絡(luò)結(jié)構(gòu),考慮對骨干網(wǎng)絡(luò)的卷積通道數(shù)進行精簡得到HRNet16。表2展示了不同骨干網(wǎng)絡(luò)下本文所提旋轉(zhuǎn)框檢測方法的精度和參數(shù)量對比。表中所示方法結(jié)合了本文改進的高斯核并引入前景注意力引導(dǎo)模塊,僅改變骨干網(wǎng)絡(luò)進行實驗。
表2 教師和學(xué)生檢測網(wǎng)絡(luò)的性能比較Tab.2 Performance comparison of teacher and student detection network
盡管骨干網(wǎng)絡(luò)為HRNet16時參數(shù)量和浮點計算量均大大降低,檢測精度也有所損失。當(dāng)對檢測頭部分支的角度預(yù)測、偏置值和邊框參數(shù)3部分進行知識蒸餾后,得到的學(xué)生網(wǎng)絡(luò)能在保證模型輕量化的條件下提升檢測精度,但遠低于教師網(wǎng)絡(luò)的檢測精度。
為進一步說明本文所提蒸餾策略的有效性,主要從中心點熱度圖和骨干網(wǎng)絡(luò)特征蒸餾兩方面展開對比實驗。圖5展示了近岸和遠海場景下不同蒸餾策略下的PR曲線??梢钥闯鲈谶h海場景下,目標分布較為分散且沒有島嶼、礁石等干擾,檢測準確率均在90%以上,各種蒸餾策略下的性能差異甚微。在近岸場景中,用普通熱度圖蒸餾(L2)或普通特征圖蒸餾(L2)時與學(xué)生網(wǎng)絡(luò)性能差異不大;當(dāng)使用基于點對點相似度保持的蒸餾方法時,隨著召回率的提升,改進方法的準確率更高,對應(yīng)的PR曲線與坐標軸包圍面積更大。當(dāng)進一步加入改進的特征圖蒸餾后,由于結(jié)合了前景掩模知識并建模了目標與周圍上下文信息的語義聯(lián)系,利用改進的熱度圖和特征蒸餾策略得到的學(xué)生網(wǎng)絡(luò)在近岸條件下的檢測性能比教師網(wǎng)絡(luò)還稍有提升,進一步說明特征的知識遷移對近岸檢測的性能影響較大。
圖5 不同蒸餾策略下PR曲線比較Fig.5 Precision-Recall curves under different distillation strategies
圖6對網(wǎng)絡(luò)預(yù)測頭輸出的中心點熱度圖進行可視化,響應(yīng)值強的地方對應(yīng)目標的中心位置。從左至右分別是檢測結(jié)果、基于均方差損失蒸餾的中心點熱度圖、本文所提蒸餾方法和教師網(wǎng)絡(luò)預(yù)測的熱度圖??梢钥闯霰疚乃岣倪M蒸餾方法產(chǎn)生的熱度圖上最亮點突出了目標的中心點位置,在目標附近的島嶼、礁石或者海岸上幾乎未產(chǎn)生響應(yīng)或響應(yīng)值極弱。這是由于基于像素點對點相似度保持的蒸餾策略最大限度保留了教師網(wǎng)絡(luò)對中心點位置的估計知識,且結(jié)合前景注意力掩模的特征蒸餾能在學(xué)習(xí)前景特征的同時減少背景雜波的干擾。
圖6 不同蒸餾策略下預(yù)測熱度圖比較Fig.6 Comparison of predicted heatmaps under different distillation strategies
為衡量不同蒸餾策略下學(xué)生網(wǎng)絡(luò)定位旋轉(zhuǎn)框的精度,改變交并比閾值進行實驗,檢測精度隨交并比閾值的變化曲線如圖7所示。通常用AP75表示檢測器的定位回歸能力,可以看出基于點對點相似性度量的熱度圖蒸餾策略將AP75提升了2.54%。進一步融合前景區(qū)域引導(dǎo)的特征蒸餾策略,AP75從31.26%提升至34.86%,比加入未改進的特征蒸餾策略提升了1.44%。定位精度比教師網(wǎng)絡(luò)AP75高1.15%,同時AP0.5:0.75能達到61.58%,同教師網(wǎng)絡(luò)相當(dāng)(61.48%),說明蒸餾后的學(xué)生網(wǎng)絡(luò)充分遷移了教師網(wǎng)絡(luò)訓(xùn)練旋轉(zhuǎn)框檢測器中特征層面和不同預(yù)測分支尤其是熱度圖分支的知識。
圖7 不同蒸餾策略下不同IoU閾值下的檢測定位精度變化圖Fig.7 Changes of detection performance under different IoU thresholds of different distillation strategies
表3展示了近岸和遠海場景下結(jié)合不同蒸餾方法時的指標比較。Baseline表示僅對偏置值、角度和框回歸參數(shù)蒸餾的學(xué)生網(wǎng)絡(luò),AT fea[28],Mimic fea[29]為檢測任務(wù)中經(jīng)典的蒸餾方法,將其引入特征層次進行蒸餾。可以看出單獨使用Mimic特征蒸餾或者均方差熱度圖蒸餾時,兩者相對于未蒸餾學(xué)生網(wǎng)絡(luò)性能提升程度相似(熱力圖的影響更大)。在改進的熱度圖蒸餾方法上結(jié)合不同的特征蒸餾形式后,本文方法在近岸場景下F1和AP值比結(jié)合AT fea蒸餾形式分別提升0.245和3.24%,即虛警和漏檢相對較少。相對于Baseline蒸餾的學(xué)生網(wǎng)絡(luò),近岸場景下平均精度提升高達9.59%,遠海場景下也有0.65%的提升。
表3 不同蒸餾方法在近岸和遠海場景下的檢測性能比較Tab.3 Detection performance comparison of different distillation methods under inshore and offsihore scenes
3.2.3 主流旋轉(zhuǎn)框檢測算法對比實驗
在對基于關(guān)鍵點的旋轉(zhuǎn)框檢測方法進行改進高斯核設(shè)計,并引入前景注意力模塊后得到基準教師檢測網(wǎng)絡(luò),然后對骨干網(wǎng)絡(luò)壓縮的學(xué)生檢測模型進行蒸餾,得到了本文最終的輕量化模型。為進一步驗證所提算法的性能,將本文的輕量級檢測器與其余基于旋轉(zhuǎn)框的檢測方法對比,主要分為雙階段、單階段檢測方法和其余無錨框檢測方法。圖8展示了HRSID數(shù)據(jù)集上由不同檢測方法的準確率和召回率繪制的PR曲線,統(tǒng)一每個檢測器的置信度閾值為0.1。
圖8 HRSID上不同旋轉(zhuǎn)框檢測方法的PR曲線比較Fig.8 Precision-Recall curves comparison of different oriented detection methods on HRSID
從圖8可以看出雙階段旋轉(zhuǎn)框檢測方法的平均精度整體優(yōu)于單階段和無錨框檢測方法。本文所提方法與BBAV[30]和DAL[31]相比在高召回率下準確率更高,且蒸餾后的輕量化檢測網(wǎng)絡(luò)性能與教師網(wǎng)絡(luò)性能接近。
表4展示了不同旋轉(zhuǎn)框檢測方法下的精度、模型參數(shù)量、檢測速度等指標。測試時間為每張608×608大小切片輸入網(wǎng)絡(luò)后經(jīng)過圖像預(yù)處理、網(wǎng)絡(luò)檢測以及圖像后處理的總時間,表中由此計算出幀率??梢钥闯稣麴s后的學(xué)生網(wǎng)絡(luò)相比于其他基于關(guān)鍵點的檢測方法BBAV,CenterNet-R等幀率高出近1.5倍。在保證檢測精度的同時能達到較高的召回率,同時虛警較少,F(xiàn)1值達到0.809且AP值有0.8071。光學(xué)遙感圖像上性能較好的雙階段檢測器如RoI Transformer[32]以及Oriented-RCNN[33]等在SAR圖像上效果一般,精度在76%左右,這是由于SAR圖像中艦船目標所處場景更為復(fù)雜,和目標具有相似成像特性的島礁、甲板等以及陸地強散射體的干擾會造成大量的虛警和漏檢。而本文方法采取基于關(guān)鍵點的旋轉(zhuǎn)框檢測方法,考慮了目標的形狀和方向角,同時結(jié)合了前景區(qū)域信息預(yù)測尺度,提高了召回率。同時進一步結(jié)合知識蒸餾策略壓縮網(wǎng)絡(luò)體積,能實現(xiàn)高精度條件下的輕量化檢測。
表4 典型旋轉(zhuǎn)檢測器上的性能比較Tab.4 Performance comparison on typical oriented detectors
3.2.4 檢測結(jié)果可視化
為了驗證本文算法的改進效果,在HRSID數(shù)據(jù)集上選取了3幅近岸場景下的測試圖像,這些圖像中包含海岸、島礁和港口等復(fù)雜場景,目標排列緊密,分布形式多樣化且與陸地背景區(qū)分度較差。圖9從左至右分別是基于RetinaNet的旋轉(zhuǎn)框檢測算法、BBAV、單階段旋轉(zhuǎn)框改進算法DAL和本文所提方法的檢測結(jié)果。其中綠色框表示算法正確檢測出的結(jié)果,紅色框為虛警目標,黃色框表示漏檢目標。從圖9可以看出RetinaNet-R方法下的檢測結(jié)果虛警、漏檢較多。在艦船靠岸分布時,BBAV方法產(chǎn)生的漏檢有所減少,但在陸地上仍存在不少虛警。DAL方法對第2行中長寬比大的高分辨率艦船均能正確檢測,僅有一個虛警和漏檢,但在陸地上仍存在部分散射強度高的建筑物構(gòu)成的虛警。而本文所提方法對于密集靠岸分布的目標、??看a頭的大長寬比目標以及島礁、陸地強散射體干擾場景下的目標基本能正確檢測,虛警和漏檢個數(shù)最少。
圖9 不同旋轉(zhuǎn)框檢測方法下不同場景下的檢測結(jié)果比較Fig.9 Detection results of different oriented detection methods under different scenes
3.2.5 大場景SAR圖像下的遷移實驗
為驗證本文方法在復(fù)雜場景下SAR圖像近岸艦船目標檢測的性能,使用HRSID數(shù)據(jù)集上訓(xùn)練得到的模型對高分三號衛(wèi)星SAR艦船目標數(shù)據(jù)集AIR-SARShip-1.0[34]進行泛化性測試。測試圖像包含兩幅近岸和遠海場景下不同尺度的艦船目標,由于島礁、碼頭和海岸的存在背景相對復(fù)雜,部分目標還存在散焦和十字旁瓣等強散射干擾。圖10是兩種算法遷移到該數(shù)據(jù)集上的檢測結(jié)果。其中綠色框為算法檢測結(jié)果,紅色框中是錯誤檢測的目標,黃色框表示漏檢目標。由此證明所提出檢測器具有較強的遷移能力,在不同傳感器下的SAR圖像上具有一定的泛化能力。對于1000 pixel×1000 pixel大小的大圖輸入,測試時間為1.84 s和1.96 s左右。在圖10(a)和圖10(b)上能達到0.650和0.632的F1值??梢钥闯鲞h海目標均能正確檢出,靠近碼頭的近岸目標基本都能檢測到,但港口附近存在少許虛警和漏檢。相較于其余檢測方法,本文方法在保證檢測精度的同時具有更高的實時性和部署靈活性。
圖10 大場景圖像遷移檢測結(jié)果圖Fig.10 Migration detection results on large scene images
針對近岸目標易受復(fù)雜背景干擾和檢測網(wǎng)絡(luò)參數(shù)繁多難以部署的問題,本文提出一種基于CenterNet和知識蒸餾的SAR圖像艦船目標旋轉(zhuǎn)檢測模型,能夠較好地滿足實時性解譯對模型輕量化和檢測高精度的需求。文中首先改進了基于關(guān)鍵點檢測框架中的高斯核,結(jié)合目標的形狀和角度信息生成旋轉(zhuǎn)的橢圓高斯熱度圖區(qū)域。其次,為抑制復(fù)雜背景雜波對感興趣目標的影響,使得模型更加關(guān)注前景信息,設(shè)計了前景區(qū)域注意力增強分支以監(jiān)督目標尺度的回歸。為進一步壓縮模型容量且減少推理時間,引入了知識蒸餾策略,并將其應(yīng)用于骨干網(wǎng)絡(luò)特征、輸出熱度圖以及檢測頭部的各回歸參數(shù)中,完成教師模型知識的學(xué)習(xí)。通過結(jié)合近岸艦船周圍背景復(fù)雜的特點,對目標熱度圖計算相似度改進蒸餾策略,同時結(jié)合前景區(qū)域掩模對上下文信息建模的特征圖加以蒸餾?;诠_艦船數(shù)據(jù)集HRSID展開實驗,最終能訓(xùn)練得到與教師模型性能相當(dāng)(精度為80.71%)的輕量化學(xué)生檢測模型(僅有9.07 M)。下一步工作中,將更加關(guān)注靠岸艦船目標檢測,結(jié)合不同傳感器下的SAR圖像做網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化,使得檢測器的魯棒性和適應(yīng)性更強。