何淋艷,王安志,任春洪,楊元英,歐衛(wèi)華
(貴州師范大學大數(shù)據(jù)與計算機科學學院,貴州貴陽 550025)
偽裝檢測/分割是利用計算機視覺和機器學習等技術對圖像或視頻進行特征表示,從而將隱藏在圖像背景環(huán)境中的目標對象檢測出來[1]。由于偽裝目標的外觀特征與背景很接近,導致對偽裝目標進行特征表示比較困難。圖1給出了自然偽裝和人為偽裝的示例圖,第1-2 行是自然偽裝圖像,3-4 行是人為偽裝圖像。早期,研究人員利用顏色、紋理等手工設計特征檢測偽裝目標,這些方法將前景信息看作是偽裝目標,對圖像中的前景和背景進行分離,但當偽裝目標對象的顏色紋理與背景非常相似時,該類方法性能表現(xiàn)不佳,甚至失效。近期,人們采用深度卷積網絡檢測偽裝目標,其結果優(yōu)于基于手工特征的方法,但這類方法設計復雜,需要借助高性能設備進行計算,還需精心標注的大量數(shù)據(jù)才能訓練。
Fig.1 Some samples of natural and artificial camouflage objects圖1 自然偽裝與人為偽裝實例
本文首先對顏色、紋理、運動等傳統(tǒng)基于手工特征的COD 方法進行分析,重點闡述基于深度學習的偽裝檢測方法;然后對COD 領域的重要數(shù)據(jù)集和性能度量指標進行介紹,并作詳細的定性和定量分析;最后探討COD的應用,并進行總結和展望。
基于手工設計特征的偽裝目標檢測方法主要利用顏色、紋理、運動等特征區(qū)分前景和背景從而檢測出偽裝目標。文獻[2]綜述了傳統(tǒng)偽裝目標檢測與追蹤的方法。
Galun 等[3]提出一種自底向上聚合框架檢測偽裝目標的技術,該技術結合紋理特征和濾波器響應自適應地識別紋理元素的形狀,并通過其大小、縱橫比、亮度等表示圖像中的紋理信息以發(fā)現(xiàn)偽裝目標,該方法只適用于包含目標和背景紋理不同的圖像;Bhajantri 等[4]提出利用共生矩陣[5]和邊緣檢測器[6]的多重去偽裝技術,將從共生矩陣中分析出的紋理和邊緣檢測器中檢測出的邊緣合成背景圖像,但該方法不適用于真實生活中的數(shù)據(jù);Kavitha 等[7]利用局部HSV(色調、飽和度、值)顏色模型和灰度共生矩陣紋理特征識別圖像中的偽裝目標;鮮曉東等[8]提出利用高斯混合模型擬合背景顏色信息和局部二值模式提取圖像紋理信息的方法,將顏色和紋理信息進行線性融合以檢測偽裝部分。簡言之,基于顏色的方法只能解決物體與背景有顏色差異的情況。然而,基于紋理特征的方法在顏色非常接近背景時檢測效果較好,卻在偽裝目標的紋理與背景相似時性能較差。
Wang 等[9]設計了視覺運動圖像濾波的計算模型,該方法會隨著光照變化、環(huán)境條件變化等因素產生更多虛警;Yin 等[10]提出基于光流的運動偽裝檢測方法,其準確性取決于光流結果,且容易受到噪聲影響;周靜等[11]也提出基于光流場分割的偽裝運動目標檢測方法,首先計算視頻序列運動光流場,再利用K-means 算法完成運動目標背景分割。基于運動的檢測方法依賴于運動信息,其根據(jù)運動形成的背景顏色和紋理之間的變化差異,定位出偽裝目標。但該類方法受干擾因素影響較大,會因光照變化或背景移動而出現(xiàn)誤檢漏檢等問題。
梯度信息有助于從背景區(qū)域中提取到目標特征信息,Tankus 等[12-13]提出通過Darg 運算增強對應需要分離的凸(或凹)3D 對象(偽裝目標)的陰影區(qū)域,該方法不適用于包含凹背景和深色對象的環(huán)境;潘玉欣等[14]也提出利用Darg算子對復雜背景下的偽裝部分進行檢測,該方法需要選擇閾值以去除較復雜背景下Darg 算子產生的噪聲;武國晶等[15]提出基于邊緣檢測的算法,引進經過空間域平滑濾波器對圖像進行去噪處理的三維凸面檢測算子,將其應用于迷彩偽裝目標檢測,解決了三維凸面檢測算子對圖像中噪聲敏感的問題。
Losa 等[16]提出基于結構相似度量的粒子濾波器以追蹤偽裝目標,通過比較兩幀之間的亮度、對比度和空間特征反映二者的距離;李帥等[17]提出紋理引導加權選擇算法,采用平穩(wěn)小波變換在一定的小波頻帶內捕獲圖像前景與背景區(qū)域之間的差異性;隨后又提出一種小波域偽裝運動前景檢測融合框架,通過建立前景和背景模型估計小波頻域,通過對不同小波頻域段的似然度進行聚類以檢測偽裝目標[18];葉松等[19]提出一種基于圖像融合的算法,先融合線偏振度和域偏振角兩個特征圖,后使用直方圖均衡化算法進行增強,最后采用非下采樣輪廓波變換將增強后的特征圖像和光強度圖像進行融合以檢測偽裝目標;Shah等[20]提出基于背景估計的視頻小波融合算法,結合曲波和小波變換,將自適應權值和小波變換進行融合以檢測偽裝目標?;陬l域特征的方法更有效地反映了圖像細節(jié),但不能突出表面光滑物體間的差異。
Zhou 等[21]提出一種基于剪切波變換的光譜—偏振圖像融合算法,從背景中分離偽裝目標;Kim[22]提出一種基于光譜和空間特征的超光譜圖像偽裝檢測方法,利用統(tǒng)計距離度量候選特征和基于熵的空間分組特性減少無用的特征波段;Mangale 等[23]融合熱紅外成像和可見光譜成像模式以檢測偽裝目標;Liang 等[24]構建一個紅外圖像數(shù)據(jù)集,并提出一種利用紅外特征信息的偽裝檢測方法,其采用“殘缺窗口模塊”優(yōu)化數(shù)據(jù)集以解決目標信息殘缺出現(xiàn)的漏檢問題;Liu 等[25]提出一種通過綜合圖像的空間特征、自頂向下特征和光譜特征的方法,用期望最大化、框架普遍化描述如何處理偽裝問題,但缺點是:當物體形狀模糊時,會導致檢測不準確。這類方法根據(jù)圖像的光譜特征信息分析和鑒別偽裝目標,但這類方法檢測精度受光譜特征信息質量影響較大。
基于傳統(tǒng)手工設計特征的偽裝檢測方法利用物體的視覺特征(如顏色、紋理、運動等)設計算法以發(fā)現(xiàn)偽裝區(qū)域,依靠單一特征的檢測方法檢測效果差,而結合顏色、紋理、運動等多種特征的方法相較于單一特征的檢測效果更好。并且,基于手工設計的算法不需要進行大量訓練,也無需手工標注的數(shù)據(jù)。但檢測效果易受到噪聲、光照、運動等因素影響。
近年來,隨著深度學習在計算機視覺各領域的深入應用,部分學者利用卷積網絡解決偽裝目標檢測任務,效果較傳統(tǒng)的偽裝檢測方法有明顯提升。Mondal 等[26]提出一種基于概率神經網絡和模糊能量的偽裝目標跟蹤方法,從多線索(如顏色、形狀和紋理等)中整合特征以表示偽裝物體;Fang 等[27]提出強語義膨脹卷積神經網絡檢測框架,充分利用卷積神經網絡的語義信息和擴大感受野檢測偽裝目標。近期,基于深度卷積算子的偽裝檢測方法取得了突破性進展,本文將對最新的幾種代表性偽裝檢測方法進行深入闡述。
2019 年,Le 等[1]提出一個端到端的深度卷積網絡——Anabranch Network(Anet)。該網絡由一個卷積神經網絡[28]和全卷積網絡(FCN)[29]組成的分類流,以及一個基于端到端的FCN 分割流組成,兩個支流網絡的輸出結果相乘得到偽裝目標分割圖。ANet 本質上是一個顯著性目標檢測網絡,其核心思想是將偽裝看作顯著的反面,先提取偽裝圖像中的顯著性特征,分割流將顯著性特征分割出來,然后將從卷積層中提取到的特征經過其分類流進行分類過濾,最后將分割流的結果與分類流的結果進行乘操作,去掉顯著性特征,得到偽裝特征。實驗表明,該方法檢測效果優(yōu)于傳統(tǒng)的偽裝檢測方法,但檢測結果存在部分偽影且邊緣檢測效果不佳。
Yan 等[30]利用生物視覺特性提出一種鏡像仿生對抗網絡MirrorNe,利用實例分割和對抗網絡分割圖像中的偽裝目標,該分割網絡有兩種分割流,分別是與原圖像對應的主流及其翻轉后圖像對應的對抗流。該方法將圖像進行翻轉從而改變角度以打破原始圖像帶給人們的視覺迷惑,從一個新的視角發(fā)現(xiàn)偽裝目標的位置從而將其分割出來。該方法通過計算對抗流中經過翻轉得到的特征圖與主流中原圖像的距離發(fā)現(xiàn)二者之間的差異,該距離用歐幾里德距離表示為:
其中,d(Xms,Yads)表示主流與對抗流之間的距離,Xms、Yads分別表示主流和對抗流圖像的特征點位置。對比圖像間的視覺差發(fā)現(xiàn)偽裝目標的輪廓,使用區(qū)域建議網絡[31]對目標進行不同建議框選,得到多個建議區(qū)域包圍盒,并使用RoIPool 將這些特征進行最大匯聚。本文還利用數(shù)據(jù)增廣技術擴大訓練數(shù)據(jù)集,再對這些數(shù)據(jù)進行翻轉操作后將其作為網絡對抗流的輸入數(shù)據(jù)。實驗表明,該方法的檢測分割性能優(yōu)于ANet。
Fan 等[32]提出一個簡單的搜索識別模塊(SINet)以解決偽裝目標的檢測與分割問題。根據(jù)文獻[33]可知,淺層卷積能保留物體邊緣空間信息的低級特征,而深層卷積則保留用于定位目標的語義信息,該方法采用稠密連接策略將低、中、高層的特征保存下來。在骨干網絡中使用擴大的感受野[34]模塊整合鑒別性特征,獲得候選特征后,在識別模塊使用局部解碼組件PDC[35]對相鄰元素進行乘操作保證相鄰特征之間差距更小,PDC 模塊整合了來自搜索模塊的4 個特征層。此外,F(xiàn)an 等[32]還收集制作了一個較CAMO 更加全面的偽裝圖像數(shù)據(jù)集COD10K[32],數(shù)據(jù)分布如表1 所示。
Table 1 Distribution of the COD10K Dataset表1 COD10K 數(shù)據(jù)集圖像分布
Lamdouar 等[36]提出由可微分配準模塊和帶有記憶的分割模塊組成的一種新框架分割視頻中的偽裝物體??晌⒎峙錅誓K用來校準連續(xù)幀背景并計算差分圖像從而突出移動目標的細粒度細節(jié),運動分割網絡將從配準模塊中獲取的光流和差分圖像作為輸入,生成更精確的分割掩模。此外,他們還收集了一個大型的動物偽裝視頻數(shù)據(jù)集MoCA,并證明了該數(shù)據(jù)集的有效性。
鄧小桐等[37]改進了輕量級目標檢測網絡框架RetinaNet[38]以檢測偽裝目標,嵌入了空間注意力和通道注意力(CBAM)[39],并基于置信得分構建預測框算法,對數(shù)據(jù)進行增廣,提高了檢測精度。本文將CBAM 注意力機制引入RetinaNet 模型,將其串聯(lián)嵌入特征提取網絡ResNet50的每個殘差塊之間,以期更好地抑制背景區(qū)域,提升模型對偽裝目標的表示能力。模型通過特征金字塔網絡中的上采樣和按元素相加將圖像深層語義信息融合到各特征層中,得到具有各種尺度的特征集合,使用FCN[38]并行分類和位置回歸,實現(xiàn)對目標的預測。此外,模型還用focalloss解決訓練中正負樣本失衡的問題。
Dong 等[40]提出一種由一個雙分支融合卷積和一個交互融合模塊的網絡框架檢測偽裝目標,其中雙分支融合卷積的作用是為了擴大感受野以獲得更豐富的上下文特征信息,交互融合模塊則結合了注意力機制對卷積層的特征進行有效融合,使得最終效果圖更加全面。豐富的上下文信息能夠獲得更精確的圖像特征,而此文利用多個不成對卷積和兩個擴張卷積擴大感受野,提取更多的上下文信息,使網絡在訓練時能夠檢測到目標的主體特征,但該網絡不能獲取準確的邊緣信息。圖2 比較了該方法與SINet 在數(shù)據(jù)集CAMO[1]以及COD10K[32]上的預測圖,其中左邊圖為在數(shù)據(jù)集CAMO 上的對比,右邊圖為在COD10K 上的對比,更直觀地展示了該網絡提取偽裝目標主體信息的準確性。
基于深度學習的偽裝目標檢測網絡一般設計為兩部分,即用于定位或獲取偽裝目標特征的模塊和將目標檢測分割出來的模塊。兩個模塊相互作用,進行特征融合得到最終偽裝部分。最新研究表明,目前使用卷積神經網絡和注意力機制結合的偽裝檢測方法表現(xiàn)出前所未有的性能優(yōu)勢。實驗表明,這類方法明顯優(yōu)于傳統(tǒng)檢測方法,但依賴于大量標注的數(shù)據(jù)訓練網絡,且網絡框架設計復雜、訓練耗時。
表2 總結了典型基于傳統(tǒng)手工設計特征的偽裝目標檢測和基于深度學習的偽裝目標檢測與分割方法的關鍵信息和設計要點。
Fig.2 Comparison of MCIF_Net and SINet prediction results圖2 MCIF_Net 與SINet方法比較
Table 2 Summary of traditional and deep learning-based camouflage detection methods表2 傳統(tǒng)偽裝檢測和基于深度學習的偽裝目標檢測方法
本文首先介紹偽裝檢測的幾個公開測試數(shù)據(jù)集,然后介紹用于偽裝目標檢測的性能度量指標,并給出基于不同骨干網絡的偽裝檢測算法定量評價指標值和多個先進檢測算法的定性評價視覺效果對比。
數(shù)據(jù)集對算法模型的評估十分重要,通??煞譃橛柧毤Ⅱ炞C集和測試集。偽裝目標檢測領域主要數(shù)據(jù)集包含CHAMELEON、CAMO、COD10K 和MoCA 數(shù)據(jù)集,MoCA 數(shù)據(jù)集尚未公開。CHAMELEON 數(shù)據(jù)集由Skurowski[41]等提出,其中包含76 張偽裝動物的圖像,以及手工標注的對象級真值圖和邊界圖。CAMO 數(shù)據(jù)集由Le 等[1]構建,包含1 250 張圖像,其中每張圖至少存在一個偽裝物體,包含動物偽裝、物體偽裝、迷彩偽裝和人體彩繪的偽裝等。COD10K 數(shù)據(jù)集由Fan 等[32]于2020 年提出,包含10 000 張樣本圖像(5 066 張偽裝圖、3 000 張背景圖、1 934 張非偽裝圖),涵蓋各種自然場景的偽裝目標,共78 個類別(包含69個偽裝類、9 個非偽裝類),MoCA 數(shù)據(jù)集包含了141 個視頻片段,共37 250 幀,跨度26 分鐘,包含67 種偽裝動物在自然場景中的運動,但該數(shù)據(jù)集尚未公開。
這些數(shù)據(jù)集的構建為偽裝目標檢測提供了更完善、更多樣的偽裝數(shù)據(jù),為算法研究提供了更好的評估和預測基準,使得網絡模型有更可靠的訓練數(shù)據(jù)。
偽裝目標檢測與目標檢測、顯著性目標檢測等任務存在一定的相似性,現(xiàn)主要采用這些相近領域中的評價度量指標進行評估,主要包括平均絕對誤差[42](Mean absolute error,MAE)、準確率—召回率曲線(Precision-Recall Curve,PRC)、F-measure 值、S-measure 值和E-measure 值。MAE計算顯著預測圖和真值圖之間的差值,計算公式如下:
其中,fi表示預測圖,yi表示真值圖。PRC 是度量模型的查全率Precision 和查準率Recall,但查準率和查全率都不能很全面地對顯著圖像進行評估,因此提出了F 度量值[43](F-measure),即查全率和查準率在非負權重的加權調和平均值,計算公式表示如下:
其中,β的取值根據(jù)顯著性檢測經驗所得,β2默認取值0.3,增加了查準率的權重。結構相似度測量[44](S-measure)同時評估非二值顯著圖和真值圖之間區(qū)域感知和對象感知的結構相似性,S-measure 可表示為:
其中,S0是面向物體的結構性度量,Sr是面向區(qū)域的結構性度量,α是一個0~1 區(qū)間的概率值,默認取0.5。E-measure(Eφ)是一種基于人類視覺感知機制的增強—匹配評價指標[45],它同時考慮了像素級信息匹配和圖像級信息統(tǒng)計。以上評價指標統(tǒng)稱為定量評價。
表3 比較了幾種基于深度學習的偽裝檢測算法在CAMO 測試集上的評估結果。結果顯示,采用改進的ResNeXt-152 為主網絡的MirrorNet 各項指標均優(yōu)于其他算法模型。圖3 展示了近期幾個最先進的偽裝檢測方法的定性評價,在數(shù)據(jù)集CAMO 測試集中隨機選取8 張圖像進行比較,結果最優(yōu)的加粗標注。實驗表明,MCIF_Net的偽裝檢測結果總體上優(yōu)于其他算法,能夠很好地檢測到偽裝目標的特征信息,但對邊緣部分的細節(jié)檢測效果不夠理想。
偽裝目標檢測可應用于物種保護、農業(yè)防治、軍事和人體偽裝等領域[30-32]。Song 等[48]將偽裝檢測技術用于區(qū)分偽裝害蟲和綠色植被;甘源瀅等[49]將偽裝技術應用于軍事作戰(zhàn),以改進軍隊偽裝技術,提高戰(zhàn)場生存能力;項陽等[50]和張潤生等[51]對人臉偽裝識別進行探索,對佩戴眼鏡、帽子、假發(fā)或化妝等形成的人臉偽裝進行檢測,對安防領域有極大的應用價值;Fan 等[32]提出偽裝檢測的兩個潛在應用:一是醫(yī)學圖像病變區(qū)域檢測與分割;二是搜索引擎。
本文對偽裝目標檢測與分割相關研究進行了系統(tǒng)總結,分析了傳統(tǒng)的偽裝檢測和基于深度學習的偽裝檢測兩大類方法。基于傳統(tǒng)手工設計的檢測方法只能檢測簡單理想的偽裝情況,對于檢測與背景環(huán)境非常相似的目標時,檢測效果較差,甚至失效;基于深度學習的方法借助于卷積算子提取偽裝目標的特征,各種高效卷積層和新型注意力機制可用來進一步提升檢測性能。實驗結果表明,基于深度學習的偽裝檢測方法效果更好,更適合于偽裝目標檢測與分割。
Table 3 Quantitative evaluation of CAMO test dataset based on different backbone networks表3 不同Backbone 網絡在CAMO_test 數(shù)據(jù)集上的定量評價
Fig.3 Comparison of camouflage detection and prediction effects圖3 偽裝檢測預測效果對比