宋程程,李 捷,高曉利,王 維,趙火軍
(四川九洲電器集團有限責(zé)任公司,四川 綿陽 621000)
目標檢測是計算機視覺的基礎(chǔ)任務(wù)之一,主要任務(wù)是對圖像中的目標進行分類和定位。在實際應(yīng)用中,如防災(zāi)減災(zāi)、大區(qū)域監(jiān)控、國防等領(lǐng)域,由于被觀測物體距離較遠,待檢測目標在圖像中所占像素點少、信噪比低,表現(xiàn)為弱小目標狀態(tài)。傳統(tǒng)的檢測識別技術(shù)難以從復(fù)雜背景中提取其色彩、紋理、形狀等特征,識別難度較大。近年來,深度學(xué)習(xí)在目標檢測領(lǐng)域中取得了卓越進展,在某些分類、檢測領(lǐng)域的能力甚至超過人類。但是在很多情況下,可獲取數(shù)據(jù)量極少,導(dǎo)致深度學(xué)習(xí)模型性能欠佳?;诖耍_展小樣本目標檢測方法研究,對于國防和民生領(lǐng)域都具有重要的現(xiàn)實意義。
目前,大多小樣本目標檢測方法是基于傳統(tǒng)目標檢測方法結(jié)合小樣本學(xué)習(xí)的思想進行研究,旨在通過少量標注樣本學(xué)習(xí)具有對新類的檢測能力[1]。LSTD 在模型層面結(jié)合了Faster RCNN 和SDD 的優(yōu)點,提出知識遷移正則化和背景抑制正則化兩種方法,促進知識從源域轉(zhuǎn)移到目標域,增強模型對小樣本數(shù)據(jù)的泛化能力[2-4]。Meta R-CNN 元學(xué)習(xí)通道式注意層,用于重塑RoI 頭部[5]。FSIW 通過在平衡數(shù)據(jù)集上進行更復(fù)雜的特征聚合和元訓(xùn)練,改進了Meta-R CNN[6]。RepMet 將基于距離的小樣本學(xué)習(xí)思想引入,構(gòu)造原型度量網(wǎng)和檢測模塊,提取圖像的嵌入特征并使用歐式距離計算進行檢測[7]。文獻[8]探索不用對象類別內(nèi)在的通用特征,提出了通用原型,減輕了不平衡對象類別的影響。FSCE 將對比學(xué)習(xí)引入小樣本目標檢測中,更有助于對象分類[9]。Meta YOLO 將元學(xué)習(xí)策略與重加權(quán)模型融合,將支持集特征以通道相乘融合到查詢集特征,但是這種方法需要額外的分支,計算復(fù)雜度增加[10]。MPSR 設(shè)計了一個特征金字塔模塊生成多尺度特征,并在不同尺度上進行細化,但其網(wǎng)絡(luò)構(gòu)造復(fù)雜,且細化分支需要手動決策,推廣性受限[11]。相對于其他小樣本檢測方法,基于模型微調(diào)的方法TFA 通過對在目標域中訓(xùn)練的模型使用少量新類進行微調(diào)即可進行檢測,是一種既簡單又高效的方法,在不增加算法復(fù)雜度的基礎(chǔ)上仍能獲得相對好的檢測性能[12]。
考慮實際應(yīng)用中數(shù)據(jù)獲取困難、背景復(fù)雜、目標弱小等情況導(dǎo)致的算法性能欠佳。本文基于遷移學(xué)習(xí)的兩階段小樣本檢測方法,提出了一種基于可變卷積與遷移學(xué)習(xí)的小樣本檢測方法,主要創(chuàng)新點有:1)提出了一種學(xué)習(xí)能力更強的可變卷積主干網(wǎng),將可變卷積思想加入Resnet 網(wǎng)絡(luò)中,使其在極少數(shù)據(jù)條件下也可以完成對樣本的特征學(xué)習(xí),提高算法的泛化能力;2)面對實際場景中可能存在的多目標重疊出現(xiàn)漏檢情況,將改進的Soft-NMS 代替?zhèn)鹘y(tǒng)的NMS 降低漏檢率。
本文小樣本檢測任務(wù)的基本流程整體可以分為兩步:1)模型在基類上的整體訓(xùn)練;2)在少量基類和新類上的對訓(xùn)練好的模型進行適當?shù)奈⒄{(diào),完成對新類和基類的檢測。改進算法整體框架如圖1 所示。
圖1 改進算法網(wǎng)絡(luò)架構(gòu)Fig.1 Network architecture for improved algorithms
基礎(chǔ)模型訓(xùn)練:本文選取雙階段的目標檢測器Faster R-CNN 作為基本模型,算法的整體架構(gòu)如圖1 所示。首先輸入基類圖片,經(jīng)主干網(wǎng)絡(luò)提取特征圖,然后將提取出的特征輸入RPN 網(wǎng)絡(luò),生成一堆Anchor box,對其進行裁剪過濾,輸出Bbox 邊界框和類別分數(shù)。由RPN 輸出的圖像特征提取RoIs 傳入網(wǎng)絡(luò),再經(jīng)過RoI 池化進入全連接層輸出,完成分類與回歸工作,此時基礎(chǔ)模型的訓(xùn)練完成。
模型微調(diào)階段:數(shù)據(jù)包含少量的基類和新類圖片,首先完成模型的參數(shù)初始化,然后固定網(wǎng)絡(luò)的其余部分不變,對檢測器的最后一層參數(shù)進行調(diào)整,同時引入余弦相似度分類器,使模型在具有對基類檢測能力的同時也有對新類的檢測能力。
傳統(tǒng)的目標檢測網(wǎng)絡(luò)常使用VGG、Resnet 等作為主干網(wǎng)絡(luò)模型對圖像進行特征提取,但是這些主干網(wǎng)模塊由固定幾何結(jié)構(gòu)組成,卷積單元在固定位置對輸入特征圖進行采樣,在一個固定的層中,空間分辨率較低,缺乏處理幾何變換的能力。為了解決這個問題,本文引入可變卷積的思想對主干網(wǎng)進行改進,增強對幾何變換建模的能力,使其具有更強的學(xué)習(xí)能力。
可變卷積是在傳統(tǒng)卷積的基礎(chǔ)上,通過在模塊中增加額外的偏移量來增大空間采樣位置,使采樣更靈活,并且可以在沒有額外監(jiān)督的情況下學(xué)習(xí)目標任務(wù)的偏移量[13]。兩種卷積采樣方式對比如圖2所示,其中,圖2(a)是傳統(tǒng)卷積采樣過程,圖2(b)是可變卷積采樣過程,可以看出增加偏移量后,可以更好地應(yīng)對目標移動、尺寸縮放、旋轉(zhuǎn)等情況。
圖2 傳統(tǒng)卷積和可變卷積對比圖Fig.2 Comparison chart between traditional convolution and deformable convolution
實際生活中很多物體的形狀都是不規(guī)則的,如圖3 中的自行車,此時對自行車的車輪進行特征學(xué)習(xí),可以看出如果用傳統(tǒng)的正方形卷積對其進行特征提取效果可能不好,此時,將傳統(tǒng)卷積換成可變卷積的話,可變卷積會根據(jù)特征形狀自動計算偏移量,實現(xiàn)在當前位置附近的隨機采樣。
圖3 可變卷積過程圖Fig.3 Process diagram of deformable convolution
雖然傳統(tǒng)殘差網(wǎng)絡(luò)在深度學(xué)習(xí)中表現(xiàn)很好,但是在小樣本學(xué)習(xí)中,由于樣本量少且圖像形變大,直接應(yīng)用此網(wǎng)絡(luò)不能很好地從少量樣本中進行學(xué)習(xí),所以本文將可變卷積嵌入到Resnet101 的殘差塊中進行改進,如圖4 所示,圖4(a)是傳統(tǒng)的殘差塊,圖4(b)是加入可變卷積之后的殘差塊??梢钥吹交诳勺兙矸e的殘差網(wǎng)絡(luò)增強模型的幾何變換能力,獲得更具“代表性”的特性。
圖4 原始殘差塊與可變卷積殘差塊結(jié)構(gòu)圖Fig.4 Structure diagram of original residual block and deformable convolutional residual block
在實際應(yīng)用場景中,待檢測圖像常常背景復(fù)雜、目標遮掩、重疊,此時使用傳統(tǒng)的非最大抑制(NMS)方法會造成對多個有重疊目標的漏檢,影響檢測效果,本文提出使用改進算法Soft-NMS 代替?zhèn)鹘y(tǒng)的NMS 來提升算法對復(fù)雜場景下的檢測性能,檢測效果如圖5 所示。
圖5 NMS 與Soft-NMS 結(jié)果對比圖Fig.5 Comparison picture of results between NMS and Soft-NMS
在傳統(tǒng)檢測算法的檢測過程中,首先會對圖片進行滑窗處理,然后得到一系列檢測框B 和其對應(yīng)的得分S,非最大抑制會對各檢測框按從高到低的得分進行排序,然后得分最高的檢測框M 被選中,將其放在最終檢測結(jié)果集C 中,將其他與檢測框M重疊部分大于一定閾值的檢測框移除。例如,設(shè)定閾值為0.5,圖5 中紅色檢測框與藍色檢測框的重疊>0.5,就將藍色檢測框剔除。如果一個目標處于預(yù)設(shè)的重疊閾值之內(nèi),就會導(dǎo)致檢測不到該物體,造成有效信息的丟失,影響最終檢測結(jié)果。
與NMS 對重疊預(yù)測框全部抑制不同,Soft-NMS主要是對一個與預(yù)測框M 有高度重疊的檢測框B1的檢測分數(shù)進行衰減[14]。同樣對圖中的情況,Soft-NMS 不會直接對藍色的檢測框進行抑制,而是會重新對其進行衰減計算檢測框分數(shù),設(shè)置一個置信度閾值,將小于閾值的剔除,藍色檢測框的得分大于閾值被保留,最后被成功檢測出來,提升算法的性能。Soft-NMS 有線性計算和高斯計算兩種方法,本文采用的是線性計算法。
本文所提出方法在公開數(shù)據(jù)集PASCAL VOC與多種先進方法結(jié)果進行對比分析,證明本文改進方法的有效性;在實測數(shù)據(jù)集上進行實驗,證明算法的實用性。將原始算法記為TFA,基于Soft-NMS改進的算法記為TFA/soft-nms,基于可變卷積改進的算法記為TFA/DCN,基于Soft-NMS 與可變卷積改進的算法記為DS-TFA。
本節(jié)實驗在公開數(shù)據(jù)集VOC 上開展。VOC 數(shù)據(jù)集常用來衡量圖像分類檢測能力,由VOC2007 和VOC2012 組成,共包含20 個不同的類別,每個類別有600 張圖片。按照前人工作中的設(shè)置[10],將其隨機劃分成包含大量實例的基類和僅有少量樣本的新類,其中,基類包含15 個類別,新類包含5 個類別,用于微調(diào)的新類的樣本數(shù)為K。
為了評估算法的魯棒性,將VOC 數(shù)據(jù)集進行三切片,表1 展示了各改進方法與原算法、LSTD、Deformable-DETR-ft-full、Meta YOLO 和Meta RCNN在K 較少時對新類的檢測結(jié)果,優(yōu)于各改進方法的結(jié)果已加粗。表2 展示了各改進方法與原算法在VOC 不同切片上的檢測結(jié)果,下頁表3 展示了各改進方法與原算法在VOC 不同切片上對基類的檢測結(jié)果,最優(yōu)結(jié)果均已加粗。
表1 不同方法在VOC 切片上對新類的檢測性能Table 1 Detection performance for the novel classes of VOC sections with different methods
表2 在VOC 數(shù)據(jù)集上的檢測性能Table 2 Detection performance on VOC datasets
表3 不同方法在VOC 切片上對基類的檢測性能Table 3 Detection performance for the base classes of VOC sections with different methods
從表1 可以看出,在VOC split1 實驗中,本文改進方法性能均達到了最優(yōu)性能。在split2 實驗中,K=1,2,5 時,本文方法效果最好。K=3 時,本文改進方法性能29.3%與Meta RCNN29.4%性能相當??梢钥闯?,在標注類別K 較少時,相比其他先進的小樣本檢測方法,本文方法對新類的檢測具有明顯優(yōu)勢。
對表1 結(jié)果中改進方法與原始方法的結(jié)果進一步分析。在split1 實驗中,對新類檢測性能最高可以提升到7.9%;在split2 實驗中,對新類檢測性能最高可以提升到9.4%。在split3 上K=5 實驗中,對新類檢測性能可以提升到11.4%。相比原算法,本文的方法有明顯優(yōu)勢。
進一步分析本文各改進方法與原始算法的整體性能對比,從表2 可以看出,本文改進的方法整體性能均要優(yōu)于原始方法。且在K 極少情況下(K=2),相比原方法最高提升了5.4%、4.3%和5.5%,證明了本文改進方法的有效性。
所有微調(diào)后的模型在擁有對新類檢測能力的同時會影響對基類的檢測效果[13]。從表1 的結(jié)果可知,本文改進方法對新類的檢測效果更好,從表3結(jié)果可以看出,在對基類的檢測上,本文提出的改進方法性能仍高于原始算法,說明改進方法的穩(wěn)定性,在擁有對基類檢測的優(yōu)異性能的同時擁有對新類好的檢測能力。
本節(jié)基于實際場景中現(xiàn)場采集的弱小目標可見光圖像進行實驗,驗證算法的泛化性和實用性。數(shù)據(jù)集包含車、鳥、客機和無人機4 類,每一類別圖像數(shù)量均小于80 張,并且目標尺寸均小于32*32,最小目標尺寸為8*8,數(shù)據(jù)集如圖6 所示。對數(shù)據(jù)進行標注處理,將其做成VOC 數(shù)據(jù)格式。
圖6 實測數(shù)據(jù)集示例圖Fig.6 Example diagram of the actual measured datasets
在本節(jié)實驗中,從VOC 數(shù)據(jù)集中選取與自測數(shù)據(jù)集不同類的12 類數(shù)據(jù)作為基類,進行基礎(chǔ)模型的訓(xùn)練,將4 類自測數(shù)據(jù)集作為要識別的新類,同樣K 分別取1、2、3、5、10。表4 和下頁表5 分別展示了各改進方法與原算法的檢測結(jié)果和在基類和新類上的檢測結(jié)果。
表4 在實測數(shù)據(jù)上的檢測性能Table 4 Detection performance on actual measured data
表5 對實測數(shù)據(jù)基類和新類的檢測性能(mAP50)Table 5 Detection performance for the base and novel classes on actual measured data(mAP50)
由表4 可以看出,在以VOC 數(shù)據(jù)集為基類,自測弱小目標數(shù)據(jù)集為新類的檢測上,改進的算法均取得了比原方法更好的效果。在1-shot、2-shot、5-shot 和10-shot 情況下,DS-TFA 改進方法性能最優(yōu),相比原方法性能分別提升8.3%、8%、2.4%和3.5%。在3-shot 情況下,TFA/soft_nms 改進方法性能最優(yōu),相比原方法提升3.9%,DS-TFA 方法性能與其相當??傮w看來,在弱小目標檢測上DS-TFA 改進方法性能最佳。
由表5 可以看出,各方法可以保證在基類的檢測上的檢測mAP,并且各改進方法性能均高于原方法,針對10-shot 檢測結(jié)果低于5-shot 檢測結(jié)果的情況,分析應(yīng)該是由于微調(diào)之后,加入的新類別影響了算法對基類的檢測性能。在對新類的檢測方面,在2-shot 和3-shot 極少標注樣本情況下,DSTFA 和TFA/DCN 改進方法性能達到相當,相比原方法性能分別提升約7%和6%,當類別極少時(K=1),DS-TFA 可以達到31.602,相比其他方法性能最多提升了一倍。以上結(jié)果表明,相比原方法,本文提出的改進方法有明顯優(yōu)勢。
本文基于少量樣本的情況,結(jié)合可變卷積和Soft-NMS 的優(yōu)勢,提出了一種面向弱小目標的小樣本檢測方法,可實現(xiàn)對多尺度圖像的檢測識別。仿真結(jié)果表明,相比其他先進小樣本檢測方法,本文提出的新方法不僅能夠提升對VOC 數(shù)據(jù)集大尺寸目標的檢測率,同時還可以提升對弱小目標的準確率,并且在達到對新類檢測的基礎(chǔ)上,還保持了對基類的檢測效果。