摘 要:針對像素級自適應較大的圖像翻譯偏差,特征級自適應的源偏判別風險以及弱監(jiān)督學習無法兼顧檢測準確性和實時性等問題,提出了多元化域移位器和偽邊界框生成器以逐步調整預訓練模型,在像素級與特征級漸進完成自適應的域遷移框架。通過域移位器從源域生成多樣化的中間域圖像調整檢測模型以彌合域差距,減小圖像翻譯偏差。將中間域作為監(jiān)督的源域,并結合目標域中的圖像級標簽生成偽標注圖像調整檢測模型以改善源偏判別性?;赟SD算法構建與域遷移框架相匹配的實時目標檢測器,實現(xiàn)弱監(jiān)督條件下的實時目標檢測。在PASCAL VOC遷移至Clipart1k等數(shù)據(jù)集上的mAP優(yōu)于現(xiàn)有方法0.4%~4.7%,檢測速度為32FPS~47FPS,提高準確率的同時滿足了實時檢測的要求,具有更優(yōu)越的遷移檢測性能。
關鍵詞:實時目標檢測;弱監(jiān)督學習;域自適應;圖像翻譯網(wǎng)絡;SSD算法
DOI:10.15938/j.jhust.2024.03.002
中圖分類號: TN911.73; TP391.4
文獻標志碼: A
文章編號: 1007-2683(2024)03-0011-09
Domain Diversification Progressive Cross-Domain
Weakly-Supervised Real-time Object Detection
LI Chengyan, ZHENG Qisen, WANG Hao
(School of Computer Science and Technology, Harbin University of Science and Technology, Harbin 150080,China)
Abstract:Aiming at the problems of large image translation bias at the pixel-level adaptation, the risk of source-bias discrimination at the feature-level adaptation, and the inability of weakly supervised learning to balance detection accuracy and real-time performance, a diversified domain shifter and pseudo bounding box generator are proposed to gradually adjust the pre-training model. The adaptive cross-domain framework is gradually completed at pixel-level and feature-level. A diversified intermediate domain adjustment detection model is generated from the source domain by a domain shifter to bridge the domain gap and reduce the image translation bias. The intermediate domain is used as the supervised source domain, and the pseudo-labeled image adjustment detection model is generated by combining image-level annotations in the target domain to improve source-bias discrimination. A real-time object detector matching the cross-domain framework is constructed based on SSD algorithm to realize real-time object detection under weakly supervised conditions. The mAP on PASCAL VOC migrated to Clipart1k and other datasets is 0.4%~4.7% better than the existing methods. The detection speed is 32FPS~47FPS. This improves the accuracy and meets the requirements of real-time detection, and has better migration detection performance.
Keywords:real-time object detection; weakly supervised learning; domain adaptation; image translation network; SSD algorithm
0 引 言
目標檢測是計算機視覺中的一個基本和核心問題,旨在對圖像中的目標進行定位和分類。計算機硬件和卷積神經(jīng)網(wǎng)絡[1]的進步為目標檢測的性能帶來了顯著改善,如SSD[2]、EfficientNet[3]、YOLO[4]系列等算法不斷涌現(xiàn)。
雖然深度監(jiān)督模型取得了出色的表現(xiàn),但在實際應用方面仍存在欠缺。一方面,深度卷積網(wǎng)絡通常需要帶有類別標簽及邊界框注釋的數(shù)據(jù)集用于監(jiān)督學習,大規(guī)模獲得這樣的注釋可能是昂貴、耗時的,同時,人工標注數(shù)據(jù)集缺乏統(tǒng)一的標準,特別是在邊界框標注方面會不可避免的引入人為偏差。另一方面,基于監(jiān)督學習的方法假設測試數(shù)據(jù)與訓練數(shù)據(jù)服從獨立同分布,然而對象外觀、場景、風格、照明和天氣條件等方面不同所導致的域偏差在實際應用中經(jīng)常發(fā)生,這種測試域和訓練域的偏差會導致模型不能實現(xiàn)很好地泛化,檢測性能下降。
弱監(jiān)督目標檢測(weakly supervised object detection, WSOD)是通過圖像級標簽進行學習的,這些標簽標注成本很低,甚至可以通過圖像搜索引擎免費獲得,解決了人工標注偏差、標注數(shù)據(jù)稀缺等問題。現(xiàn)有的WSOD方法[5-6]基本都遵循類激活映射[7](classification activation mapping, CAM)的方法,基于具有多示例學習[8](multi-instance learning,MIL)機制的分類結構來檢測目標,但MIL更多地關注圖像整體而非對象實例,這使得CAM僅識別最具辨別力的部分,因此導致了目標對象的不完全識別等問題。
基于遷移學習思想提出的弱監(jiān)督域自適應(weakly supervised domain adaptation, WSDA)目標檢測方法已經(jīng)成為一種新的學習范例,它尋求使用源域的完全標注(即具有邊界框)和目標域的弱標注(即只有圖像級標簽)來學習健壯的目標檢測模型,目標域中要檢測的類是源域中類的全部或子集。最近的WSDA方法主要基于特征級自適應和像素級自適應。
特征級自適應將源域和目標域的分布對齊到跨域特征空間,期望由源域數(shù)據(jù)集監(jiān)督訓練的模型能夠有效地推斷目標域,但模型的特征提取器被強制用于以對源域數(shù)據(jù)進行區(qū)分的方式來提取特征,因此特征級適應的目標檢測器存在源偏向判別風險,可能導致目標域上的錯誤識別。像素級自適應專注于向相反域的視覺外觀進行翻譯,然后可以利用翻譯源圖像的信息或推斷翻譯目標圖像的偽標注,圖像翻譯網(wǎng)絡的性能在很大程度上取決于源域和目標域之間的外觀差距,因此在許多適應情況下都表現(xiàn)出了較大地圖像翻譯的偏差,如果將這些帶有翻譯偏差的圖像視為來自目標域,則可能會導致新的域差異問題。文[9]首先提出了跨域弱監(jiān)督目標檢測方法,利用CycleGAN[10]生成具備源域標注信息及目標域風格的圖像不斷微調模型并預測生成目標域圖像的偽標注進一步訓練,但基于CycleGAN的圖像翻譯偏差較大,以此生成的目標域偽標注準確度較低可能會影響檢測精度;文[11]提出了能夠跨域建立像素級語義對應關系的區(qū)域競爭方法和循環(huán)一致性正則化器,通過挖掘域間和域內線索保證信息一致性,建立更加穩(wěn)健且低成本的弱監(jiān)督域自適應網(wǎng)絡,但其主要面向單源域到單目標域的域適應,更多的特征細節(jié)可能會被忽視。
在檢測實時性方面,WSOD方法的回歸分支通常選擇雙階段模型獲取目標類別和位置信息的偽標注作為監(jiān)督信息進行訓練。如果使用SSD等單階段模型作為回歸檢測器,那么缺少明確邊界框的監(jiān)督信號會導致不同感受野的特征層發(fā)生沖突,某些本不具備學習功能的神經(jīng)元在訓練過程中強行擬合,會造成大量梯度噪聲以致訓練困難,因此難以具備實時檢測性能。域自適應與基于監(jiān)督學習的目標檢測器相結合的方案,讓弱監(jiān)督域自適應目標檢測具備實時性成為了可能,但現(xiàn)有方法對此缺乏充分的研究。如文[12]將對抗性學習調整特征級分布后的圖像輸入檢測器進行監(jiān)督學習以實現(xiàn)域自適應,其需要使用檢測器中的基本編碼器網(wǎng)絡來提取圖像特征,因此選擇Faster R-CNN[13]作為監(jiān)督學習檢測器,但這也限制了檢測的速度。
上述方法證明了WSDA方法對于解決標注數(shù)據(jù)稀缺、域偏差、弱監(jiān)督目標對象識別不完全等問題的有效性,但仍存在圖像翻譯偏差、特征級適應的源偏判別性風險以及無法兼顧檢測準確性和實時性等問題?;诖耍疚耐ㄟ^整合基于圖像翻譯網(wǎng)絡的多元化域移位器、基于偽標注的偽邊界框生成器以及基于監(jiān)督學習的實時目標檢測器構建新的弱監(jiān)督域自適應學習范式,提出了一個漸進式弱監(jiān)督域遷移框架。結合源域和目標域特征,通過增加約束條件改變圖像翻譯網(wǎng)絡生成器和判別器的學習趨勢,設計能夠生成多樣化數(shù)據(jù)樣本的域移位器,以保留源域不同層次的語義信息及目標域的圖像風格,生成具備源域多元化特點的中間域。將中間域作為監(jiān)督的源域,并結合目標域中的圖像級標簽生成帶有偽邊界框標注的目標域圖像樣本。
通過多元化域移位器和偽邊界框生成器產生的人工圖像樣本對目標檢測模型依次順序調整實現(xiàn)在像素級和特征級上的漸進域自適應,以改善特征級自適應的源偏判別性和像素級自適應的圖像翻譯偏差等問題?;谔卣鹘鹱炙╢eature pyramids Networks, FPN)[14]、深度殘差網(wǎng)絡ResNet-50[15]和廣義交并比[16](generalized Intersection over Union, GIoU)結合SSD構建RFG-SSD網(wǎng)絡作為域遷移框架的實時目標檢測器,兼顧實時性與準確性實現(xiàn)弱監(jiān)督條件下的實時目標檢測任務。
1 相關工作
1.1 圖像翻譯網(wǎng)絡
生成對抗網(wǎng)絡[17]具有很強地描述高維分布的能力,廣泛用于超分辨、去噪和圖像翻譯等圖像合成任務中。在圖像翻譯任務中,來自源域的輸入被映射到目標域中,同時保持其原始內容免受不必要的修改,轉換通常由自動編碼器結構中的生成器實現(xiàn),其輸出由判別器約束,從而滿足目標域的要求。
循環(huán)一致性生成對抗網(wǎng)絡CycleGAN[10]通過使用循環(huán)一致性損失來保證生成器的輸出和原圖之間內容上的相似性,從而實現(xiàn)圖像風格遷移。循環(huán)一致性損失確保了生成器在翻譯過程中使用給定的內容,并最大化了輸出和輸入源之間的互信息。然而,循環(huán)一致性對像素的強約束是非必要的,而且可能會降低圖像質量,本文將改進其缺陷,實現(xiàn)源域圖像翻譯的多元化。
1.2 偽標注技術
偽標注技術的核心是利用標記數(shù)據(jù)訓練的模型對未標記數(shù)據(jù)生成偽標注,然后將所有數(shù)據(jù)再次輸入模型進行訓練,以此提升模型的性能。偽標注早期致力于解決分類任務,隨著弱監(jiān)督學習方法的提出,利用預訓練模型和圖像級標簽生成包含分類和回歸的完整偽標注成為了主要研究方向,如文[18]使用優(yōu)化的偽標注進行跨域學習,以在不同天氣條件和城市中實現(xiàn)自適應汽車檢測。偽標注能夠幫助模型更好地從無標注或弱標注信息中進行學習,本文基于偽標注技術生成針對目標域圖像的偽邊界框以提升弱監(jiān)督域自適應方法的檢測性能。
2 漸進式多元化弱監(jiān)督域自適應
2.1 漸進式弱監(jiān)督域遷移框架
漸進式域遷移框架將域自適應任務分為特征級適應和像素級適應兩個階段,目的是從源域S獲取知識,然后逐漸對齊兩個分布將其映射到弱標注的目標域T,解決自適應任務S→T,如圖1所示。
為在兩個相差較大的域之間對齊特征分布,引入一個中間特征空間以簡化自適應任務,即用中間域連接源域和目標域,逐步進行自適應以減小域差距。本文運用合成目標圖像思想將合成的圖像定義為中間域F,通過改進圖像翻譯網(wǎng)絡將標注的源域S與僅帶有圖像級標簽的目標域T連接起來,其前提條件是S和F的圖像樣本僅在視覺外觀上有所不同,而F和T在圖像細節(jié)上不同,但在像素級別上具有相似的分布。因此,中間域F位于源域和目標域之間,由源域圖像構建,在像素級上合成目標分布,可以幫助降低S和T之間域差距的自適應難度。
為在像素級和特征級漸進完成自適應,可以利用中間域F將問題分解為兩個階段:S→F和F→T。在第一階段,通過多元化域移位器,使得標注數(shù)據(jù)的分布多樣化,將源域S圖像轉化為多元化的中間域F,使用F監(jiān)督訓練調整預訓練的模型以完成適應。由于S和F之間圖像內容的潛在相似性,網(wǎng)絡側重于在像素級上根據(jù)外觀差異對齊特征分布。在對齊S和F之間的像素差異后,將F作為監(jiān)督的源域,并結合T中的圖像級標簽生成帶有偽邊界框的圖像T*,使用T*監(jiān)督訓練調整檢測模型以適應目標域T作為第二階段,利用第一階段的外觀不變特征,專注于調整對象特征和上下文分布。
多元化域移位器和偽邊界框生成的圖像樣本F和T*有著不同屬性,盡管F就其與目標域圖像的相似性而言不是高質量的圖像,但邊界框被正確地標注,相反,雖然T*沒有準確的邊界框,但由于它們完全是目標域圖像,因此圖像質量得到了保證。F和T*的兩個監(jiān)督訓練調整步驟的執(zhí)行順序是至關重要的,因為偽標注圖像的生成質量高度依賴于所使用的目標檢測模型。
2.2 多元化域移位器
在由源域向目標域的外觀風格進行轉換的過程中,假設存在許多可能的中間域,它們保留了源域的相應語義信息但以不同的形式出現(xiàn)。如圖2所示,無論是否存在可行的圖像翻譯網(wǎng)絡,都可以從給定的圖像中設想出各種視覺轉換圖像。
視覺轉換圖像可以通過域移位器獲取,即使用圖像翻譯網(wǎng)絡的變體從給定源域實現(xiàn)圖像域偏移,故意產生獨特的域差異以實現(xiàn)源域多樣化。圖像翻譯網(wǎng)絡CycleGAN中的循環(huán)一致性損失對語義特征提取具備強約束力,使得像素級自適應效果受限。因此,通過改進強約束性損失,替代約束條件來改變學習趨勢能夠促使圖像翻譯網(wǎng)絡中的生成器輸出不同地翻譯圖像,應用不同的約束條件則可以產生不同的域移位器。
為保證結構的通用性,采用CycleGAN中的殘差生成器G和判別器D來構建域移位器,給定源域xs,目標域xt,其域分布分別表示為P(xs)和P(xt),以生成對抗網(wǎng)絡的目標損失為基礎,構建多元化域移位器的損失函數(shù)LDD,如式(1)所示:
LDD(G,D,M)=LGAN(G,D)+Lres(G,D,M)
LGAN(G,D)=Ext~P(xt)[logD(xt)]+
Exs~P(xs)[log(1-D(G(xs)))](1)
其中:LGAN(G,D)為對抗性損失函數(shù),能夠保證生成器和判別器相互進化,生成更加真實的圖像;Lres(G,D,M)為促使域移位器被區(qū)分的約束性損失,M表示約束損失可能存在的附加模塊。
本文基于兩種域移位因素構建3個域移位器,即圖像顏色保存(preserve color, PC)、圖像重建(reconstruction, RE)和圖像重建結合顏色保存(PC+RE),PC即保證翻譯源域的圖像顏色不變,RE即根據(jù)目標域特征重新構建圖像。
基于顏色保存的域移位器。訓練的穩(wěn)定性會隨著約束條件的有效性而變化,當給定約束條件不夠有效時,訓練的不穩(wěn)定性會隨之增加,因此僅將約束分配給目標域恰好能夠保證生成器的輸出圖像與輸入圖像保持顏色相同,約束中選擇使用輸入圖像和翻譯圖像之間的L1損失。域移位器的約束損失如式(2)所示:
LDD,1(G,D)=LGAN(G,D)+Lres,1(G)=
LGAN(G,D)+Ext~P(xt)[‖G(xt)-xt‖1](2)
基于重建的域移位器。圖像重建所需的約束條件更強,需要生成器根據(jù)輸入圖像特征重構風格不同而內容相同的圖像,因此在原有基礎上還需要一對生成器G′和判別器D′來進行逆翻譯,同時還需要額外的生成對抗性損失來保證新的生成器和判別器能夠相互進化。因此,域移位器的約束損失如式(3)所示:
LDD,2(G,D,G′,D′)=LGAN(G,D)+
Lres,2(G,G′,D′)=
LGAN(G,D)+Exs~P(xs)[logD′(xs)]+
Ext~P(xt)[log(1-D′(G′(xt)))]+
Exs~P(xs)[‖G′(G(xs))-xs‖1]+
Ext~P(xt)[‖G(G′(xt))-xt‖1](3)
基于重建和顏色保存的域移位器。為了同時考慮兩個因素,需要應用兩個約束損失項的總和以及附加模塊,域移位器的約束損失如式(4)所示:
LDD,3(G,D,G′,D′)=LGAN(G,D)+Lres,1(G)+Lres,2(G,G′,D′)(4)
LDD,3(G,D,G′,D′)=LGAN(G,D,G′,D′)+Lcycle(G,D,G′,D′)+Lidentity(G)(5)
式(5)由式(4)整理得到,其中:LGAN為對抗性損失;Lcycle為循環(huán)一致性損失;Lidentity用于保持輸入和輸出圖像顏色的一致性。LDD,3與CycleGAN的損失函數(shù)基本一致,驗證了多元化域移位器是由其強約束性損失拆分改進而來,在保證圖像內容不變的前提下使得生成圖像風格更具多樣性。
標注數(shù)據(jù)的多樣化分布促使域移位器模型在具有較大類內方差的數(shù)據(jù)間進行判別推斷,使得模型能夠從目標域中提取無偏的語義特征,這比源偏向特征更具判別力。因此,多元化域移位器作為像素級自適應方法在改善圖像翻譯偏差的基礎上,也可以有效彌補特征級自適應的源偏判別缺陷。
2.3 偽邊界框生成器
基于偽標注技術思想,利用預訓練模型及圖像級標簽,可以構建包含分類與邊界框的完整偽標注。因此,將多源域特征學習所得的多元化模型作為標注數(shù)據(jù)的預訓練模型,目標域提供圖像級標簽,可以構建適用于漸進式弱監(jiān)督域遷移框架的偽邊界框生成器,在不訪問檢測器網(wǎng)絡中間層的前提下生成目標實例的偽邊界框,以此實現(xiàn)更加理想的特征級自適應。
形式上,偽邊界框生成器的目的是為來自目標域X的每個圖像x獲得目標對象的偽邊界框與x原有的圖像級標簽構成一個完整的偽標注G。令x∈H×W×3表示一個RGB圖像,其中H和W分別是圖像的高度和寬度。z表示圖像級標簽,即x中的類的集合。此外,G包含g=(b,c),其中,b∈4是邊界框,c∈。表示一組對象類。
如圖3所示,生成偽邊界框的前提條件是獲得以多元化中間域圖像樣本監(jiān)督學習的目標檢測模型D,D中包含每個圖像的檢測結果d=(p,b,c),其中,c∈,p∈表示邊界框b屬于類別c的概率。然后,對于每個類c∈z,采用top-1置信度檢測d=(p,b,c)∈D并將(b,c)添加到G。最后,使用G對目標檢測模型進行調整。
在生成目標域偽邊界框的過程中,如果將錯誤標注用來調整檢測模型,則會降低最終的檢測性能,因此采用top-1置信度檢測選擇目標類中置信度最高的實例樣本作為正樣本,能夠最大程度保證偽邊界框的準確性,避免錯誤標注的產生。
2.4 實時目標檢測器RFG-SSD
為解決弱監(jiān)督目標檢測中無法使用SSD等單階段模型用作回歸檢測器,以此導致的檢測不具備實時性的問題。本文提出以域自適應與基于監(jiān)督學習的目標檢測器相結合的方案,構建適配于漸進式弱監(jiān)督域遷移框架的目標檢測網(wǎng)絡RFG-SSD (ResNet50-FPN-GIOU-SSD),在保證實時性的前提下改善SSD自身缺陷以提升檢測精度,如圖4所示。
特征提取能力受梯度消失或爆炸等梯度不穩(wěn)定等問題制約,可以通過加深網(wǎng)絡層數(shù)的方式來解決,如果以SSD中的主干網(wǎng)絡VGG-16為基礎加深網(wǎng)絡深度,則會產生大量參數(shù)占用存儲空間使得檢測速度變慢,出現(xiàn)網(wǎng)絡退化現(xiàn)象,而且無法充分利用高級語義信息對小目標進行較好的檢測。為保證網(wǎng)絡有足夠的深度來提取豐富的語義信息,選擇使用Resnet-50并額外疊加3個卷積模塊構成的深度網(wǎng)絡為RFG-SSD的網(wǎng)絡主干。
網(wǎng)絡模型在前向傳播計算過程中,主干分支輸出各種分辨率的特征圖,通過融合深淺特征層可以增強對小目標的檢測能力。ResNet-50分為5個Stage,其中前2個Stage的結構較為簡單,可以視其為對INPUT的預處理,因此,應選擇從主干網(wǎng)絡第3階段開始直至最后一組卷積網(wǎng)絡,分別在256、512、1024、2048維度以自上而下、自下而上的路徑和橫向連接將低分辨率、語義強的特征與高分辨率、語義弱的特征相結合,構建6層特征金字塔網(wǎng)絡,并在不同的特征中輸出,增強小目標檢測能力。
SSD直接將交并比(interseyZ7ePG3tplRbav58kPfCo0eH26grKITYowghccjUy40=ction over union, IoU)用作回歸損失,然而IoU損失僅在邊界框重疊時才起作用,并且對于不重疊的情況不會提供任何移動梯度,因此會導致負邊界框多于正邊界框。在偽邊界框生成器中,中間域圖像訓練的多元化模型對于目標域圖像的提取推斷能力決定著偽邊界框的生成質量,IoU損失會使得大量非重疊邊界框實例在NMS[19]中被抑制,因此導致生成圖像中的偽標注實例減少,影響模型最終的檢測性能。因此,改用GIoU作為回歸損失函數(shù),可以有效解決不重疊邊界框情況下優(yōu)化不可行的問題,保證偽邊界框的生成質量,同時GIoU也可以很容易地作為NMS的標準,進一步提高檢測準確度。
3 實驗結果與分析
3.1 實驗環(huán)境
實驗環(huán)境如表1所示。
3.2 實驗數(shù)據(jù)與評價指標
實驗遵循文[9]的方法組織評估數(shù)據(jù),在從真實場景到藝術媒體的三組遷移數(shù)據(jù)集上進行實驗,其中PASCAL VOC 2007和PASCAL VOC 2012上的訓練集和驗證集作為源域數(shù)據(jù)集,Clipart1k、Watercolor2k和Comic2k數(shù)據(jù)集作為目標域,并使用AP(average precision)、mAP(mean average precision)及FPS(frames per second)作為評價指標。
3.3 實驗設置
實驗使用RFG-SSD作為目標檢測網(wǎng)絡,并在源域數(shù)據(jù)集進行預訓練,使用多元化域移位器獲得的中間域圖像和偽邊界框生成器獲得的圖像對模型逐步調整。在多元化域移位器訓練時,前10輪(epoch)初始學習率為1.0×10-5,網(wǎng)絡訓練10 epoch之后,學習率衰減為0,其余超參數(shù)按照Cycle GAN原文進行設置。在調整目標檢測網(wǎng)絡時,動量參數(shù)為0.9,訓練網(wǎng)絡進行10000次迭代,前7000次迭代,學習率為1.0×10-3,后3000次迭代,學習率為1.0×10-5。所有實驗使用Py Torch框架構建并在單個NVIDIA GeForce RTX GPU上完成訓練,訓練過程中所有輸入圖像的大小為300pixel×300pixel,按照0.5的GIoU閾值評估測試階段的平均精度。
3.4 多元化域移位器效果
為驗證多元化域移位器對于源域圖像的移位效果,基于3種域移位因素即顏色保存(PC)、重建(RE)及顏色保存結合重建(PC+RE)構建的域移位器進行實驗。圖5展示了CycleGAN及3個域移位器生成中間域圖像的效果。
使用域移位器生成的多元化中間域圖像訓練效果與已有的域遷移圖像翻譯方法,即DAF[20]和CDWSDA[9]中的域轉移(DT)階段進行比較,如表2所示,n表示使用域移位器的數(shù)量,基線方法為使用預訓練模型在目標域數(shù)據(jù)集上進行測試。
實驗結果表明,隨著移位域數(shù)量的增加,檢測效果會逐步得到改善。從整體來看,多元化域移位器比現(xiàn)有方法的mAP提高了1.3%~17.5%,結合在域移位器生成圖像效果以及mAP值,可以看出多元化域移位器相比其他方法有一定的檢測優(yōu)勢。
3.5 消融實驗
為進行消融研究,假設目標域不存在任何標注,此時則無法根據(jù)目標域原有的圖像級標簽生成偽邊界框,可用于檢測多元化域移位器(diversified domain, DD)的有效性。為驗證偽邊界框生成器(pseudo bounding box, PB)的有效性,可以直接將PB生成圖像作用于基線方法RFG-SSD。為驗證圖像級標簽的必要性,規(guī)定只在所有檢測中概率最高的一個檢測可以被生成偽邊界框,記作PB_label。為驗證RFG-SSD目標檢測器的有效性,將其替換為SSD300進行實驗。理想狀態(tài)為將DD調整之后的模型用完全標注的目標域圖像監(jiān)督學習。
表3定量分析了不同組件對mAP的貢獻,DD(n=3)比基線方法提高了2.2%~11.8%,體現(xiàn)出像素級自適應的優(yōu)勢;PB比基線方法提高了5.5%~10.9%,而使用PB_label調整模型則會損害檢測性能,證明了目標域圖像級標簽的必要性;檢測器的針對性改進相較SSD300提升了1.7%~2.7%。圖6為本文目標檢測方法結果可視化樣例。
3.6 性能分析
本節(jié)將提出的漸進式弱監(jiān)督域遷移框架與4個最近發(fā)布的方法進行比較,如表4、5、6所示。由于本文的框架基于RFG-SSD檢測器,因此可以將其作為基線方法,即使用預訓練模型在目標域中進行檢測。MI-max[21]為弱監(jiān)督學習方法,其在源域訓練后直接應用于目標域。DCDA[22]為無監(jiān)督域自適應方法,其源域帶有完整標注、目標域無標注。弱監(jiān)督域自適應包括CDWSDA[9]、ICCMCD[11]以及本文方法,其目標域帶有圖像級標簽。
經(jīng)實驗對比,本文方法在幾個主要類別上改進明顯,這些類別在數(shù)據(jù)集中廣泛分布,但由于在域遷移中存在大量的非剛性變形,現(xiàn)有方法很難處理,利用域移位器約束配置,可以改善圖像翻譯網(wǎng)絡的偏差性,從而獲得處理這種外觀多樣性的魯棒性。最終,本文方法在3個數(shù)據(jù)集上都取得了領先的結果,比現(xiàn)有方法的mAP提高了0.4%~4.7%。
在弱監(jiān)督條件下,現(xiàn)有方法均無法達到實時檢測的要求,本文方法在源域數(shù)據(jù)集上的檢測速度為38FPS,在Clipart1k、Watercolor2k和Comic2k數(shù)據(jù)集上的檢測速度分別為32FPS、47FPS、45FPS。一般認為當FPS達到30時可以滿足實際情況下實時檢測的需求,因此提出的方法在弱監(jiān)督的條件下,既提升了準確率又具備實時性。
4 結 論
本文提出了一種多元化漸進域遷移弱監(jiān)督實時目標檢測方法,通過多元化域移位器和偽邊界框生成器生成的圖像樣本對目標檢測模型依次順序調整,改善圖像翻譯偏差性及源偏判別性問題;基于SSD改進的RFG-SSD目標檢測器與域自適應相結合,解決了標注數(shù)據(jù)稀缺、人工標注數(shù)據(jù)偏差、域偏差、弱監(jiān)督目標對象識別不完全等問題,實現(xiàn)了弱監(jiān)督條件下的實時目標檢測并提升了檢測準確度。
本文方法在生成偽邊界框過程中,僅使用每個類的top-1置信度檢測邊界框,如有其他實例則被認為是負樣本,因此可能導致同一類別下實例標注不完全的問題,因此,如何提升偽邊界框的生成質量是進一步提升檢測性能的關鍵所在。同時,本文基于CycleGAN中的域移位因素構建3個域移位器,在未來研究中可選取新的域移位因素構建更多域移位器,進一步提升檢測效果。
參 考 文 獻:
[1] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet Classification with Deep Convolutional Neural Networks[J]. Communications of the ACM, 2017, 60(6): 84.
[2] LIU W, ANGUELOV D, ERHAN D, et al. Ssd: Single Shot Multibox Detector[C]//European Conference on Computer Vision, Amsterdam, Netherlands, 2016: 21.
[3] TAN M, PANG R, LE Q V. Efficientdet: Scalable Andefficient Object Detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, USA, 2020: 10781.
[4] REDMON J, FARHADI A. YOLO9000: Better, Faster, Stronger[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 7263.
[5] 盧克斌,殷守林.一種端到端弱監(jiān)督學習網(wǎng)絡模型的中國畫情感識別[J].哈爾濱理工大學學報,2022,27(1):69.
LU Kebin,YIN Shoulin.Chinese Paintings Emotion Recognition Based on End-to-end Weakly Supervised Learning Network Model[J].Journal of Harbin University of Science and Technology,2022,27(1):69.
[6] SHEN Y, JI R, WANG Y, et al. Enabling Deep Residual Networks for Weakly Supervised Object Detection[C]// European Conference on Computer Vision, Glasgow, US, 2020: 118.
[7] ZHOU B, KHOSLA A, LAPEDRIZA A, et al. Learning Deep Features for Discriminative Localization[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, 2016: 2921.
[8] ILSE M, TOMCZAK J M, WELLING M. Handbook of Medical Image Computing and Computer Assisted Intervention[M]. New York: Academic Press, 2020: 521.
[9] INOUE N, FURUTA R, YAMASAKI T, et al. Cross-domain Weakly-supervised Object Detection Through Progressive Domain Adaptation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 5001.
[10]ZHU J Y, PARK T, ISOLA P, et al. Unpaired Image-to-image Translation Using Cycle-consistent Adversarial Networks[C]//Proceedings of the IEEE International Conference on Computer Vision, Venice, Italy, 2017: 2223.
[11]HOU L, ZHANG Y, FU K, et al. Informative and Consistent Correspondence Mining for Cross-domain Weakly Supervised Object Detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Online, 2021: 9929.
[12]HSU H K, YAO C H, TSAI Y H, et al. Progressive Domain Adaptation for Object Detection[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, Colorado, USA, 2020: 749.
[13]REN S, HE K, GIRSHICK R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 39(6): 1137.
[14]趙一鳴,王金聰,任洪娥,等.融合ReFPN結構與混合注意力的小目標檢測算法[J].哈爾濱理工大學學報,2022,27(2):85.
ZHAO Yiming,WANG Jincong,REN Honge,et al.A Small Object Detection Algorithm Integrated with ReFPN and Compound Attention Mechanism[J].Journal of Harbin University of Science and Technology,2022,27(2):85.
[15]HE K, ZHANG X, REN S, et al. Deep Residual Learning for Image Recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, 2016: 770.
[16]REZATOFIGHI H, TSOI N, GWAK J Y, et al. Generalized Intersection Over Union: A Metric and a Loss for Bounding Box Regression[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA, 2019: 658.
[17]HONG Y, HWANG U, YOO J, et al. How Generative Adversarial Networks and Their Variants Work: An Overview[J]. ACM Computing Surveys (CSUR), 2019, 52(1): 1.
[18]WANG K, ZHANG L, XIA Q, et al. Cross-domain Learning Using Optimized Pseudo Labels: Toward Adaptive Car Detection in Different Weather Conditions and Urbancities[J]. Neural Computing and Applications, 2022, 34(6): 4519.
[19]侯志強, 劉曉義, 余旺盛, 等. 使用GIoU改進非極大值抑制的目標檢測算法[J]. 電子學報, 2021, 49(4): 696.
HOU Zhiqiang, LIU Xiaoyi, YU Wangsheng, et al. Object Detection Algorithm for Improving Non-Maximum Suppression Using GIoU[J]. Acta Electronica Sinica, 2021, 49(4): 696.
[20]CHEN Y, LI W, SAKARIDIS C, et al. Domain Adaptive Faster R-cnn for Object Detection in the Wild[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 3339.
[21]GONTHIER N, LADJAL S, GOUSSEAU Y. Multiple Instance Learning on Deep FecpOKuuEiN4ffoCxyTDOUvHNLAeQ3yUTiQX8PfoDsHsY=atures for Weakly Supervised Object Detection With Extreme Domain Shifts[J]. Computer Vision and Image Understanding, 2022, 214: 103299.
[22]LIU F, ZHANG X, WAN F, et al. Domain Contrast for Domain Adaptive Object Detection[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2021, Inpress.
(編輯:溫澤宇)