陳震元,王振東,宮辰
1.南京理工大學(xué)計算機科學(xué)與工程學(xué)院,南京 210094;2.高維信息智能感知與系統(tǒng)教育部重點實驗室,南京 210094;3.江蘇省社會安全圖像與視頻理解重點實驗室,南京 210094
目標(biāo)檢測是計算機視覺領(lǐng)域的基本任務(wù)之一,其旨在使用矩形框定位圖像中的每個目標(biāo)物體并預(yù)測其類別。目標(biāo)檢測已在生活的各個領(lǐng)域發(fā)揮著重要作用,體現(xiàn)出巨大的應(yīng)用價值(曹家樂 等,2022)。例如,在自動駕駛中,需要實時對周圍環(huán)境進行分析,檢測出可能存在的障礙物,從而輔助無人系統(tǒng)及時做出反應(yīng)(徐歆愷 等,2021);在遙感圖像識別中,需要在高分辨率圖像上檢測出目標(biāo)(如道路、植被和水體等)分布,從而提供更準(zhǔn)確的地理位置信息(趙文清 等,2021;Yao等,2021)。隨著卷積神經(jīng)網(wǎng)絡(luò)的高速發(fā)展,目標(biāo)檢測在一些實際應(yīng)用中已達到較高的精度。然而,目標(biāo)檢測的高精度依賴于檢測器訓(xùn)練時精確的區(qū)域或?qū)嵗墑e的圖像標(biāo)記,但實際場景中背景的復(fù)雜性以及目標(biāo)的多樣性等因素使得圖像精確標(biāo)注極為費時費力。因此,研究人員開始將目光轉(zhuǎn)移到對監(jiān)督信息依賴程度較低的、基于圖像級別粗標(biāo)記的弱監(jiān)督目標(biāo)檢測算法上。
弱監(jiān)督目標(biāo)檢測旨在降低對標(biāo)記的要求,從而有利于更便捷地獲取大量已標(biāo)記訓(xùn)練樣本,使模型達到接近全監(jiān)督目標(biāo)檢測的效果。具體地,傳統(tǒng)的全監(jiān)督目標(biāo)檢測算法需要人工用最小矩形框標(biāo)記出圖像中各物體的位置及其類別,因此訓(xùn)練樣本的獲取代價較高;而弱監(jiān)督目標(biāo)檢測算法只需要整體圖像的類別標(biāo)記即可進行訓(xùn)練,所以通過一些圖像檢索網(wǎng)站上的類別標(biāo)簽,就可以輕松獲取大量訓(xùn)練樣本。因此,弱監(jiān)督目標(biāo)檢測算法具有較高的研究意義和應(yīng)用價值,對該領(lǐng)域的進展進行歸納和綜述也有很大的必要性。
然而,現(xiàn)有弱監(jiān)督目標(biāo)檢測相關(guān)綜述仍存在一些不足之處。比如,楊輝等人(2021)按照不同的特征處理方法對典型算法進行分類,該分類依據(jù)的邊界較為模糊,且不能直觀體現(xiàn)弱監(jiān)督目標(biāo)檢測算法的特點。周小龍等人(2019)和Liu 等人(2020)的綜述發(fā)表的時間較早,因此沒有囊括近幾年的新進展。Shao 等人(2022)和Zhang 等人(2022a)都是將目標(biāo)檢測與目標(biāo)定位相結(jié)合,統(tǒng)一描述兩者的發(fā)展歷程,沒有細致地區(qū)分深度弱監(jiān)督目標(biāo)檢測的方法類別。任冬偉等人(2022)綜合介紹了弱監(jiān)督視覺領(lǐng)域的研究進展,對弱監(jiān)督目標(biāo)檢測的介紹還不夠細致。針對上述問題,本文首次根據(jù)核心網(wǎng)絡(luò)架構(gòu)對弱監(jiān)督目標(biāo)檢測領(lǐng)域的經(jīng)典及最新算法進行了全面且清晰的分類歸納與對比分析,并提出多個有價值的未來研究方向。
具體地,本文介紹了弱監(jiān)督目標(biāo)檢測的問題定義、基礎(chǔ)框架和面臨的主要難題;按核心網(wǎng)絡(luò)架構(gòu)將現(xiàn)有典型算法分為三大類并分別闡述各類算法的核心貢獻;通過實驗對比了各類主流算法的檢測效果;簡要探討了弱監(jiān)督目標(biāo)檢測領(lǐng)域未來的研究方向。
本節(jié)從弱監(jiān)督目標(biāo)檢測的問題定義出發(fā),介紹基于多示例學(xué)習(xí)的通用基礎(chǔ)框架(Bilen 和Vedaldi,2016),并闡述該領(lǐng)域所面臨的三大主要難題。
弱監(jiān)督目標(biāo)檢測訓(xùn)練階段和測試階段的示意圖見圖1。其中,訓(xùn)練階段的輸入是訓(xùn)練圖像及其類別標(biāo)記,輸出是訓(xùn)練好的目標(biāo)檢測器。測試階段的輸入是測試圖像,輸出是在該圖像中的目標(biāo)檢測結(jié)果。訓(xùn)練階段中,由于目標(biāo)檢測需要使用矩形框框出圖像中每個目標(biāo)物體的位置,因此一般需要先在輸入圖像上生成大量目標(biāo)候選框,然后對目標(biāo)候選框提取特征并預(yù)測其類別,最后將預(yù)測結(jié)果與輸入的圖像類別標(biāo)記計算損失并以此更新模型參數(shù)。所以,整個弱監(jiān)督目標(biāo)檢測問題可理解為學(xué)習(xí)一個從圖像包含的若干候選框到圖像類別標(biāo)記的映射關(guān)系。
圖1 弱監(jiān)督目標(biāo)檢測訓(xùn)練和測試示意圖Fig.1 Illustration of training and test phases in weakly-supervised object detection
弱監(jiān)督目標(biāo)檢測所需解決的問題與弱監(jiān)督學(xué)習(xí)中的多示例學(xué)習(xí)(Dietterich 等,1997)研究目標(biāo)相吻合,因此通常將弱監(jiān)督目標(biāo)檢測視為多示例學(xué)習(xí)問題來處理。具體地,將每個候選框看做一個示例,將包含所有候選框的圖像本身看做一個“包”。對于每個類別,圖像中若含有至少一個該類的目標(biāo)物體,則該圖像為一個正包,否則為一個負包。因此,可基于圖像中的候選框進行檢測器參數(shù)學(xué)習(xí)。如果某幅圖像被預(yù)測為某類的一個正包,則表明該圖像中包含該類目標(biāo),從而可以使用矩形候選框標(biāo)識出該目標(biāo)。
Bilen 和Vedaldi(2016)首次提出基于多示例學(xué)習(xí)的弱監(jiān)督目標(biāo)檢測框架。該框架的核心貢獻是解決了將實例級別的候選框得分映射到圖像級別的類別標(biāo)記這一重要難題。具體地,該框架將經(jīng)過空間金字塔池化(spatial pyramid pooling)(He等,2015)之后的候選框特征矩陣輸入一個識別分支和一個檢測分支。進而,在識別分支中將候選框特征矩陣使用softmax 操作映射到類別維度;在檢測分支中將候選框特征矩陣使用softmax 操作映射到候選框維度。最后,將得到的兩個矩陣按位相乘并計算所有候選框關(guān)于每個類別的得分之和,從而得到維度為類別數(shù)的向量,完成從候選框得分到類別標(biāo)記的映射。完整框架包含以下3個主要部分:
1)候選框生成器。該部分一般采用Selective search(Uijlings 等,2013)或Edge boxes(Zitnick 和Dollár,2014)算法在輸入圖像上生成大量目標(biāo)候選框。
2)特征提取。該部分一般采用VGGNet(Visual Geometry Group network)(Simonyan 和Zisserman,2015)對輸入圖像進行特征提取,再通過空間金字塔池化(He 等,2015)或感興趣區(qū)域池化(region-ofinterest pooling)(Girshick,2015)生成固定尺寸的候選框特征矩陣。
3)檢測器。如前文所述,將候選框特征映射到圖像類別標(biāo)記,計算多示例學(xué)習(xí)損失函數(shù),完成對圖像中目標(biāo)物體的定位和分類。
盡管上述弱監(jiān)督目標(biāo)檢測框架有效且易于實現(xiàn),其檢測精度較之于全監(jiān)督目標(biāo)檢測算法仍有較大的提升空間,二者之間的差距主要歸結(jié)于下面介紹的三大難題。
在公開數(shù)據(jù)集VOC2007(visual object classes 2007)上,目前效果最好的弱監(jiān)督目標(biāo)檢測算法的精度達到58.1%,然而全監(jiān)督目標(biāo)檢測算法能達到89.3%。造成如此之大的差距主要歸結(jié)于弱監(jiān)督目標(biāo)檢測所面臨的三大難題:
1)局部主導(dǎo)問題。模型更關(guān)注圖像中辨識度較高的部分,而不關(guān)注整體。如圖2 第3 行所示,以第2 幅圖像為例,模型只能檢測出人和馬的頭部,而無法檢測出人和馬的身體部分,原因在于頭部往往更有辨識度。
圖2 實例歧義問題和局部主導(dǎo)問題示意圖Fig.2 Illustration of instance ambiguity problem and local dominance problem
2)實例歧義問題。對于圖像中含有多個目標(biāo)物體的情形,算法容易遺漏目標(biāo)物體,且難以區(qū)分同類別的不同實例。遺漏物體實例的情況如圖2 第1 行所示,以第1 幅圖像為例,該圖像中包含數(shù)量較多的天鵝,但是只有個別天鵝能夠被檢測出來。難以區(qū)分物體實例的情況如圖2 第2 行所示,以第3 幅圖像為例,該圖像中存在多只羊相互遮擋。對于這種遮擋的情形,模型容易將相互挨著的多個物體實例檢測為一個物體實例。
3)顯存消耗問題。圖像級別的標(biāo)記信息決定了弱監(jiān)督目標(biāo)檢測必須生成并處理大量的候選框,因此模型訓(xùn)練對于顯存的消耗程度較大,導(dǎo)致訓(xùn)練和預(yù)測速度較慢。同時,由于顯存消耗大,用于提取特征的主干網(wǎng)絡(luò)往往只能采用規(guī)模較小的VGGNet(Simonyan 和Zisserman,2015),而難以采用ResNet(deep residual network)(He等,2016)等更深、更先進的復(fù)雜網(wǎng)絡(luò)。
為了解決3 大難題并進一步提高檢測精度,研究人員以1.2 節(jié)所介紹的弱監(jiān)督目標(biāo)檢測框架為基礎(chǔ),從該框架的各個部分切入開展了大量的研究工作。
本節(jié)按核心網(wǎng)絡(luò)架構(gòu)將現(xiàn)有弱監(jiān)督目標(biāo)檢測典型算法分為基于優(yōu)化候選框生成的算法、結(jié)合分割的算法和基于自訓(xùn)練的算法。其中,基于優(yōu)化候選框生成的算法的核心在于改進1.2 節(jié)所介紹的基礎(chǔ)框架中的候選框生成器。結(jié)合分割的算法和基于自訓(xùn)練的算法的核心皆在于改進基礎(chǔ)框架中的檢測器,區(qū)別在于前者旨在添加一個分割分支并通過分割指導(dǎo)檢測,而后者旨在優(yōu)化檢測網(wǎng)絡(luò)本身。特別地,基礎(chǔ)框架的第2 部分,即特征提取部分,由于都是采用現(xiàn)有的主干網(wǎng)絡(luò)(Simonyan 和Zisserman,2015;He 等,2016),因此不屬于核心網(wǎng)絡(luò)架構(gòu)上的創(chuàng)新。3類算法的優(yōu)缺點對比如表1所示。
表1 弱監(jiān)督目標(biāo)檢測算法優(yōu)缺點對比Table 1 Comparison of weakly-supervised object detection algorithms
大部分弱監(jiān)督目標(biāo)檢測算法都是使用Selective search(Uijlings 等,2013)或Edge boxes(Zitnick 和Dollár,2014)算法來生成目標(biāo)候選框,通過在一幅圖像上生成數(shù)以千計的候選框來確保召回率,然而其中絕大多數(shù)候選框都屬于負例,十分影響檢測效果。同時,大量候選框的處理嚴(yán)重消耗顯存,不僅難以采用ResNet(He 等,2016)等更先進的復(fù)雜網(wǎng)絡(luò)提取特征,還會導(dǎo)致訓(xùn)練和預(yù)測速度低下。全監(jiān)督目標(biāo)檢測中一般使用區(qū)域建議網(wǎng)絡(luò)(region proposal network,RPN)代替?zhèn)鹘y(tǒng)方法(Ren 等,2015),該網(wǎng)絡(luò)通過最小化一個前背景二分類損失和一個邊界框回歸損失對初始生成的候選框進行篩選和優(yōu)化,從而將原本數(shù)以千計的候選框減少到數(shù)十個,大幅度提高了算法效率。然而,該方法需要借助實例級別的標(biāo)記,因此無法應(yīng)用于弱監(jiān)督目標(biāo)檢測任務(wù)。針對此問題,一些學(xué)者提出了適用于弱監(jiān)督目標(biāo)檢測的候選框生成的優(yōu)化算法。Bilen 等人(2015)將該問題轉(zhuǎn)化為一個凸聚類問題,利用了深度卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)和凸優(yōu)化技術(shù)結(jié)合,來學(xué)習(xí)更加精確的目標(biāo)定位模型。Zhu 等人(2017)提出了一個軟建議網(wǎng)絡(luò)(soft proposal network,SPN),首次將候選框生成集成在一個端到端的卷積神經(jīng)網(wǎng)絡(luò)里。作者定義了一個軟建議(soft proposal)模塊,可以插入到卷積神經(jīng)網(wǎng)絡(luò)的任意一層,并且額外時間消耗幾乎可以忽略不計。借助該模塊,模型可以在迭代中不斷優(yōu)化候選區(qū)域,然后再將其映射回特征圖上,最后實現(xiàn)網(wǎng)絡(luò)參數(shù)的整體優(yōu)化。與此同時,Wang等人(2018)、Zhang 等 人(2018d)等均通過迭代優(yōu)化的方式精煉候選框。Tang 等人(2018)提出了一個基于弱監(jiān)督的區(qū)域建議網(wǎng)絡(luò)(weakly supervised region proposal network,WSRPN),該網(wǎng)絡(luò)由3 個階段組成,第1 個階段利用卷積神經(jīng)網(wǎng)絡(luò)的底層語義信息來評估滑動窗口的似物性分?jǐn)?shù)(objectness score);第2 個階段通過一個基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)分類器來優(yōu)化第1 個階段的候選框;第3 個階段完成目標(biāo)檢測。Cheng 等人(2020)提出了一種高質(zhì)量候選框的生成算法(proposal generation and proposal selection,PG-PS),作者將選擇性搜索(selective search)(Bilen 和Vedaldi,2016)與基于梯度的類激活圖(gradient-based class activation map)(Selvaraju 等,2017)相結(jié)合,從而生成比基于貪婪搜索的方法更多高交并比的候選框。針對候選框篩選,該方法對于每一個目標(biāo)類別,在選取盡可能多的正樣本的同時,只選取類別明確的困難負樣本,并通過上調(diào)它們的權(quán)重,使模型在訓(xùn)練中關(guān)注更具辨識度的負例候選框,從而提高檢測精度。周明非和汪西莉(2018)提出一種候選框融合算法,合并重疊候選框的同時調(diào)整候選框的位置,以此優(yōu)化候選框。Jia 等人(2021)提出了一種新穎的兩階段框架,其包含一個候選框評分模塊(boxes grading module)和一個信息增強模塊(informative boosting module)。具體地,候選框評分模塊通過訓(xùn)練一個弱監(jiān)督目標(biāo)檢測模型來生成候選框并對其進行篩選和評分;信息增強模塊利用候選框評分模塊生成的定位監(jiān)督信息訓(xùn)練增強的候選框生成器和檢測器,從而進一步提升檢測效果。Cao 等人(2021)發(fā)現(xiàn)許多類別存在共享特征(例如形狀、紋理等)之間的相似性,這些特征可以從已有的精確標(biāo)注數(shù)據(jù)中學(xué)習(xí),并應(yīng)用到其他類別上。因此在多示例學(xué)習(xí)的框架基礎(chǔ)上提出了一種特征遷移模型,保留并微調(diào)不同類別之間的特征。區(qū)別于前人基于多示例學(xué)習(xí)的算法框架,Song 等人(2021)提出了一種基于分組標(biāo)簽的上下文實例特征梯度和掩碼預(yù)測的方法(weakly supervised group mask network,WSGMN),利用這些掩碼動態(tài)地選擇最有價值的實例特征信息來識別特定的對象。圖3 為弱監(jiān)督目標(biāo)檢測基礎(chǔ)范式,通過似物性分?jǐn)?shù)、選擇性搜索、基于梯度的類激活圖選擇和掩碼預(yù)測選擇等方法,達到優(yōu)化候選框生成的目的。
圖3 弱監(jiān)督目標(biāo)檢測基礎(chǔ)范式Fig.3 Illustration of the basic framework of weakly supervised object detection
如圖4 所示,結(jié)合分割的弱監(jiān)督目標(biāo)檢測算法的特點是在主干網(wǎng)絡(luò)的基礎(chǔ)上添加一個分割分支,希望借助分割結(jié)果來指導(dǎo)檢測任務(wù)。結(jié)合分割做弱監(jiān)督目標(biāo)檢測包含單向和雙向兩種策略,單向策略指僅利用分割給弱監(jiān)督目標(biāo)檢測提供先驗知識;雙向策略是讓檢測和分割相互協(xié)作、共同進步。這里的分割指弱監(jiān)督語義分割,分割所需的偽標(biāo)記在兩種策略中由不同方式生成。
圖4 結(jié)合分割算法的弱監(jiān)督目標(biāo)檢測范式Fig.4 Illustration of weakly supervised object detection paradigm combined with segmentation algorithm
2.2.1 利用分割提供先驗知識的算法
該類算法由于單方面通過語義分割來指導(dǎo)目標(biāo)檢測,因此分割所需的偽標(biāo)記是由在弱監(jiān)督語義分割中普遍用于生成分割標(biāo)記的類激活圖(class activation map)(Zhou 等,2016)提供的。Wei等人(2018a)提出了一個利用周圍語境分割上下文的緊貼框挖掘算法(tight box mining with surrounding segmentation context,TS2C),該算法分為3 部分:1)訓(xùn)練一個分類網(wǎng)絡(luò)生成類激活圖;2)將類激活圖作為語義分割偽標(biāo)記來訓(xùn)練分割網(wǎng)絡(luò),生成分割置信圖;3)利用分割置信圖來挖掘更緊貼目標(biāo)物體的候選框,從而提升檢測網(wǎng)絡(luò)的效果。Gao 等人(2022)提出了一個利用一對多示例檢測網(wǎng)(coupled multiple instance detection network,C-MIDN)來對候選框進行對抗擦除的方法,其同時借助弱監(jiān)督分割結(jié)果來保持對候選框?qū)共脸蟮亩嗍纠龑W(xué)習(xí)約束,最后通過組合兩個多示例檢測網(wǎng)絡(luò)的結(jié)果,有效解決了1.3 節(jié)所介紹的局部主導(dǎo)問題。Xu 等人(2021)在MIDN 的基礎(chǔ)上,受特征金字塔(Lin 等,2017)啟發(fā),提出了一種多尺度空間金字塔融合的方法(pyramidal multiple instance detection network,P-MIDN),對不同尺度的候選框檢測結(jié)果進行融合,生成更高質(zhì)量、更全面的偽標(biāo)簽。Zhang 等人(2022b)通過利用豐富的上下文關(guān)系,彌補在弱監(jiān)督下監(jiān)督信息的缺乏,提高學(xué)習(xí)過程的魯棒性。
2.2.2 檢測和分割相互協(xié)作的算法
該類算法旨在將弱監(jiān)督目標(biāo)檢測和弱監(jiān)督語義分割結(jié)合到一個多任務(wù)學(xué)習(xí)框架。具體而言,檢測分支和分割分支相互提供指導(dǎo),最終在兩個任務(wù)上同時達到更好的效果。由于檢測和分割之間的影響是雙向的,因此分割所需的偽標(biāo)記是由檢測分支生成的檢測熱力圖(detection heat map)提供的。Shen等人(2019)提出了一種結(jié)合弱監(jiān)督目標(biāo)檢測和弱監(jiān)督語義分割的多任務(wù)學(xué)習(xí)框架(weakly supervised join detection and segmentation,WS-JDS),研究表明檢測任務(wù)能發(fā)現(xiàn)更多的目標(biāo)物體,而分割任務(wù)能挖掘出更完整的目標(biāo)物體。為了充分利用這兩種任務(wù)學(xué)習(xí)到的互補知識,提出了一個循環(huán)引導(dǎo)學(xué)習(xí)(cyclic guidance learning)框架,其中檢測分支為分割分支提供較好的像素種子,分割分支學(xué)習(xí)到的分割圖幫助檢測分支跳出局部極小值。Li 等人(2019)提出了一種分割檢測協(xié)作網(wǎng)絡(luò)(segmentation detection collaboration network,SDCN)。在該網(wǎng)絡(luò)中,檢測分支生成檢測熱力圖為分割分支提供實例級別的監(jiān)督信息,分割分支生成分割圖反過來為檢測分支提供空間先驗概率矩陣,以指導(dǎo)候選框篩選。最終,檢測分支和分割分支彼此緊密地相互作用并形成動態(tài)協(xié)作循環(huán),從而相輔相成獲得更好的效果。
基于自訓(xùn)練的弱監(jiān)督目標(biāo)檢測算法旨在優(yōu)化檢測網(wǎng)絡(luò)本身。在1.2 節(jié)所介紹的弱監(jiān)督目標(biāo)檢測基礎(chǔ)框架中,檢測器負責(zé)將實例級別的候選框特征矩陣映射到圖像級別的類別標(biāo)記,所以實際上只是一個圖像級別的分類器。然而圖像級別的分類器難以學(xué)習(xí)到準(zhǔn)確的實例級別的候選框得分,為此研究人員考慮利用半監(jiān)督學(xué)習(xí)中的自訓(xùn)練(self-training)思想來解決該問題。具體地,如圖5 所示,將基礎(chǔ)框架中的圖像級分類器作為初始分類器,利用其輸出的候選框得分為每個候選框生成偽標(biāo)記并訓(xùn)練實例級分類器,最后重復(fù)該過程訓(xùn)練多個實例級分類器,通過這種知識蒸餾(knowledge distillation)的方式不斷提煉出更準(zhǔn)確的候選框得分。
圖5 結(jié)合自訓(xùn)練的弱監(jiān)督目標(biāo)檢測范式Fig.5 Illustration of weakly supervised object detection paradigm combined with self-training
基于自訓(xùn)練的算法是弱監(jiān)督目標(biāo)檢測領(lǐng)域的研究熱點,按其優(yōu)化檢測效果的技術(shù)特點又可進一步分為優(yōu)化偽標(biāo)記生成的算法、結(jié)合正則化技術(shù)的算法和結(jié)合邊界框回歸的算法。
2.3.1 優(yōu)化偽標(biāo)記生成的算法
為每個候選框生成更加準(zhǔn)確的類別偽標(biāo)記可以減輕負樣本過多的影響,有效解決1.3 節(jié)所介紹的局部主導(dǎo)和實例歧義問題,因此該步驟是自訓(xùn)練過程中尤為重要的一步。Tang 等人(2017)提出了一個在線實例分類器優(yōu)化算法(online instance classifier refinement,OICR)。該算法首次在基礎(chǔ)框架之上添加了k個串行的實例分類器調(diào)整模塊,每個實例分類器所需的偽標(biāo)記由它的前一個模塊提供,其中候選框偽標(biāo)記按以下規(guī)則生成:為每個類別得分最高的候選框及與其交并比高于某一閾值的候選框賦予相應(yīng)的類別標(biāo)記,其余候選框標(biāo)記為背景。Tang 等人(2018)在OICR 的基礎(chǔ)上提出了一種候選框聚類學(xué)習(xí)算法(proposal cluster learning,PCL),該算法將空間上毗鄰且與同一物體有關(guān)聯(lián)的候選框劃分到同一個簇,根據(jù)聚類結(jié)果給整個簇打上類別偽標(biāo)記。這種將每一個簇作為一個小的多示例學(xué)習(xí)中的“包”的方式比直接給候選框打偽標(biāo)記所產(chǎn)生的歧義更少。Arun 等人(2019)提出了一種“差異系數(shù)”的度量,其通過衡量一個實例與整個數(shù)據(jù)集之間的相似性來優(yōu)化偽標(biāo)簽的生成。Wan等人(2019)將多示例學(xué)習(xí)過程分為多個連續(xù)的階段,在訓(xùn)練過程中連續(xù)地尋找被錯誤標(biāo)記為背景的正樣本,在每個階段繼承之前階段的信息,從而實現(xiàn)正樣本的挖掘。Kosugi 等人(2019)提出了一種新的候選框標(biāo)記算法,該算法利用上下文分類損失來找到包含更完整物體的候選框并賦予其正標(biāo)記,同時對負標(biāo)記施加額外的空間約束。Kosugi等人(2019)提出了一種目標(biāo)物體挖掘算法(object instance mining),該算法通過對候選框建立空間圖和外觀圖來挖掘圖像中所有可能的目標(biāo)物體,并設(shè)計了一個目標(biāo)物體權(quán)重重調(diào)損失函數(shù)來平衡置信度最高的候選框和區(qū)分度較低的候選框的權(quán)重。Zeng 等人(2019)提出了一種結(jié)合自底向上和自頂向下的似物性蒸餾算法(objectness distillation for weakly supervised object detection,WSOD2)。該算法首先通過圖像級分類器計算每個候選框的得分,再利用每個候選框區(qū)域的低級特征來計算其似物性得分,最后將兩個得分矩陣點乘得到最終的候選框得分矩陣,并據(jù)此賦予候選框偽標(biāo)記。Nguyen 等人(2020)使用不確定性估計的方式對偽標(biāo)簽生成結(jié)果進行精煉,通過最小化信息熵,減少多種增廣下的不確定性,進而達到優(yōu)化偽標(biāo)簽生成的目的。Lin 等人(2020)通過置信度排序和選取得分最高的預(yù)設(shè)框進行實例挖掘,優(yōu)化候選框的生成。Ren 等人(2020)提出了一種新穎的多示例自訓(xùn)練算法(multiple instance self training,MIST),該算法中的候選框偽標(biāo)記生成過程同時考慮了候選框的得分、上下文以及前人沒有考慮到的空間多樣性約束。Zhang 等人(2020b)提出的弱監(jiān)督學(xué)習(xí)框架包含了對視覺表象的認知過程(proposal and semantic level relationships,PSLR)和對提議層與語義層關(guān)系的推理過程,從而形成了新的深度多實例推理框架。具體而言,該框架基于傳統(tǒng)的CNN 網(wǎng)絡(luò)架構(gòu),增加了兩個基于圖卷積網(wǎng)絡(luò)的推理模型,在一個端到端網(wǎng)絡(luò)訓(xùn)練過程中實現(xiàn)目標(biāo)位置推理和多標(biāo)簽推理。Yin 等人(2021)引入了一種類特征庫(class feature banks,CFB)的方法,采用底層和高層特征,以及弱標(biāo)簽信息進行訓(xùn)練。打破現(xiàn)有方法僅依賴全局圖像標(biāo)簽的局限性,使得模型可以更有效地挖掘和定位對象實例。Wang 等人(2022)提出了一種基于負確定性信息(negative deterministic information,NDIWSOD)的WSOD 改進方法,該方法包含NOI 收集和開發(fā)兩個階段,在收集階段,設(shè)計了幾個流程來在線識別和提取負面實例中的NDI;在開發(fā)階段,利用抽取的NDI構(gòu)建了一種新的消極對比學(xué)習(xí)機制和消極引導(dǎo)實例選擇策略,分別處理部分支配和缺失實例的問題。上述算法都在一定程度上解決了局部主導(dǎo)問題以及更加困難的實例歧義問題。
2.3.2 結(jié)合正則化技術(shù)的算法
由于缺乏實例級別的監(jiān)督信息,弱監(jiān)督目標(biāo)檢測模型在訓(xùn)練時容易陷入局部極小,導(dǎo)致模型只關(guān)注物體辨識度較高的部分。為此,可利用正則化技術(shù)為模型引入一些額外的約束,使得模型更加平等地對待每個區(qū)域,從而緩解局部主導(dǎo)問題。Ren 等人(2020)在其提出的多示例自訓(xùn)練算法MIST 的基礎(chǔ)上,進一步提出了一種參數(shù)化且可微分的特征空間隨機失活模塊(concrete drop block),該模塊通過端到端的學(xué)習(xí)來鼓勵模型考慮上下文而不是局限于辨識度較高的部分,從而實現(xiàn)目標(biāo)的完整檢測。Huang 等人(2020)提出了一種綜合注意力自提煉算法(comprehensive attention self-distillation),該算法在OICR 的基礎(chǔ)上(Tang 等,2020),從網(wǎng)絡(luò)的多個層和圖像的多個變換特征圖上分別獲得注意力圖(attention map),并將這些注意力圖整合為綜合注意力圖,然后利用這個綜合注意力圖對多個層和多個變換的特征圖施加正則化約束,最終綜合注意力圖中的信息被提煉到各個特征圖上,從而實現(xiàn)完整物體和小物體的檢測。Gao 等人(2022)將差異協(xié)同模塊引入多示例學(xué)習(xí)(discrepant multiple instance learning,D-MIL)中,采用多個MIL 學(xué)習(xí)器來尋找不同但互補的目標(biāo)部分,并將其與協(xié)作模塊融合,實現(xiàn)目標(biāo)的精確定位。與此同時,D-MIL 實施了一種新的教師—學(xué)生模式(teacher-student),MIL 學(xué)習(xí)者扮演教師,物體探測器扮演學(xué)生。多名教師提供豐富而互補的信息,這些信息被學(xué)生吸收并傳遞回來,以強化教師的績效。
2.3.3 結(jié)合邊界框回歸的算法
邊界框回歸是全監(jiān)督目標(biāo)檢測中用于細化定位結(jié)果的一種常用手段。雖然弱監(jiān)督目標(biāo)檢測沒有實例級別的檢測框標(biāo)記,但是仍可以通過生成實例級偽標(biāo)記來進行邊界框回歸。Yang 等人(2019a)提出了一種注意力引導(dǎo)的結(jié)合邊界框回歸的目標(biāo)檢測算法(towards precise end-to-end weakly supervised object detection,TPWSD),該算法包含一個OICR(Tang 等,2020)分支和一個邊界框回歸分支。兩個分支共享特征提取網(wǎng)絡(luò),其中OICR 分支為邊界框回歸分支提供監(jiān)督信息,同時特征提取網(wǎng)絡(luò)通過添加一個注意力模塊來為兩個分支提供增強的特征圖。Chen 等人(2020)提出了一種空間似然投票算法(spatial likelihood voting,SLV),該算法在OICR 的基礎(chǔ)上添加了一個串行的空間似然投票模塊,該模塊以O(shè)ICR 的輸出為輸入,進行實例挑選、空間概率積累和高似然區(qū)域投票,并將投票結(jié)果用于后續(xù)的重分類和重定位(即邊界框回歸)。Ren 等人(2020)在其提出的多示例自訓(xùn)練算法MIST 中也結(jié)合了邊界框回歸。該算法中的實例級分類器不僅包含一個分類分支,還包含一個邊界框回歸分支,每個實例級分類器所需的偽標(biāo)記由前一個模塊提供。該方法還進一步通過實驗驗證了在自訓(xùn)練過程中結(jié)合邊界框回歸有助于提高檢測的魯棒性和泛化性。Dong 等人(2021)通過利用大量未注釋數(shù)據(jù)來訓(xùn)練一個邊界框調(diào)整模型。該模型可以學(xué)習(xí)如何從粗糙(或不準(zhǔn)確)的邊界框調(diào)整到更精確的邊界框。
弱監(jiān)督目標(biāo)檢測任務(wù)的常用數(shù)據(jù)集如下:
1)PASCAL VOC(pattern analysis,statistical modeling and computational learning visual object classes)數(shù)據(jù)集(Everingham 等,2010,2015)共分為4 個大類(交通工具、房屋設(shè)施、動物、人),并可進一步分為20 個小類。該數(shù)據(jù)集包含多個版本,其中VOC2007 和VOC2012 是弱監(jiān)督目標(biāo)檢測領(lǐng)域最常用的數(shù)據(jù)集。VOC2007 訓(xùn)練集包含2 501 個樣本,驗證集包含2 510個樣本,測試集包含4 952個樣本,共9 963 個樣本。VOC2012 訓(xùn)練集包含5 717 個樣本,驗證集包含5 823 個樣本,測試集包含11 540 個樣本,共23 080個樣本。
2)MS COCO(Microsoft common objects in context)數(shù)據(jù)集(Lin 等,2014)共包含80 個類別。COCO數(shù)據(jù)集擁有33 萬個樣本,有標(biāo)記樣本超過20 萬個。這個數(shù)據(jù)集因樣本數(shù)量和類別數(shù)量較多,所以難度比VOC數(shù)據(jù)集要大。
3)ILSVRC(ImageNet Large Scale Visual Recognition Challenge)數(shù)據(jù)集(Russakovsky 等,2015)包含用于目標(biāo)檢測任務(wù)的200 個類別,涉及大部分生活中會見到的物體。該數(shù)據(jù)集包含多個版本,其中最常用于目標(biāo)檢測的是ILSVRC2013,訓(xùn)練集包含12 125個樣本,驗證集包含20 121個樣本,測試集包含40 152 個樣本。該數(shù)據(jù)集的難度比VOC 數(shù)據(jù)集和COCO數(shù)據(jù)集都要大。
弱監(jiān)督目標(biāo)檢測領(lǐng)域的常用評價指標(biāo)如下:
1)平均精度均值(mean average precision,mAP)由準(zhǔn)確率(precision,PR)和召回率(recall,RE)構(gòu)成,常用于圖像分類和目標(biāo)檢測任務(wù)。準(zhǔn)確率和召回率計算為
式中,TP(true positive)表示正例樣本中預(yù)測正確的樣本數(shù)量,F(xiàn)P(false positive)表示正例樣本中預(yù)測錯誤的樣本數(shù)量,F(xiàn)N(false negative)表示負例樣本中預(yù)測錯誤的樣本數(shù)量。
樣本預(yù)測正確是指預(yù)測框與真實框的交并比(intersection over union,IoU)≥ 0.5。交并比計算為
式中,b表示預(yù)測框,bg表示預(yù)測框所對應(yīng)的真實框,AR表示區(qū)域大小。
平均精度AP的具體計算過程如下:設(shè)定一組閾值,如[0,0.1,0.2,…,1],對于召回率大于每一個閾值分別得到一個對應(yīng)的最大精確率,AP就是這組精確率的平均值。最終,平均精度均值mAP就是關(guān)于所有類別的AP的均值。
2)正確定位率(correct localization,CorLoc)表示每個類別中至少有一個預(yù)測框與真實框的IoU≥50%的樣本占所有樣本的百分比。CorLoc是在數(shù)據(jù)集上進行評估的重要指標(biāo)。
3)top 錯誤率(top error)包含top-1 分類錯誤率、top-5 分類錯誤率、top-1 定位錯誤率和top-5 定位錯誤率。top-1 分類錯誤率是指預(yù)測得分最高的候選框被錯誤分類的樣本占所有樣本的百分比,top-5 分類錯誤率是指預(yù)測得分前5 的候選框被錯誤分類(預(yù)測得分前5 的候選框里至少有一個分類正確就算做正確)的樣本占所有樣本的百分比。定位錯誤率與分類錯誤率類似,不同點在于前者通過IoU 來判斷定位是否正確。
本文選取了當(dāng)前主流的弱監(jiān)督目標(biāo)檢測算法,在PASCAL VOC2007 和VOC2012 數(shù)據(jù)集上進行了對比。為了確保對比的公平性,所有算法均采用在ILSVRC 數(shù)據(jù)集上進行過預(yù)訓(xùn)練的VGG16網(wǎng)絡(luò)作為用于提取特征的主干網(wǎng)絡(luò),且全部只考慮模型自身的效果,不考慮集成Fast R-CNN 等全監(jiān)督模型的效果(Girshick,2015)。其中,WSRPN(Tang 等,2018)、PG-PS(Cheng 等,2020)、WSGMN(Song 等,2021)屬于基于優(yōu)化候選框生成的算法;TS2C(Wei 等,2018a)、C-MIDN(Gao 等,2022)、P-MIDN(Xu 等,2021)屬于結(jié)合分割的算法中的利用分割提供先驗知識的算法,WS-JDS(Shen 等,2019)、SDCN(Li 等,2019)屬于結(jié)合分割的算法中的檢測和分割相互協(xié)作的算法;OICR(Tang 等,2017)、PCL(Tang 等,2018)、WSOD2(Zeng 等,2019)、PSLR(Zhang 等,2020b)、NDI-WSOD(Wang等,2022)屬于基于自訓(xùn)練的算法中的優(yōu)化偽標(biāo)記生成的算法,TPWSD(Yang 等,2019a)、SLV(Chen等,2020)、D-MIL(Gao 等,2022)屬于基于自訓(xùn)練的算法中的結(jié)合邊界框回歸的算法,MIST(Ren等,2020)涵蓋了基于自訓(xùn)練的算法中的全部3 種技術(shù)。
圖6展示了WSDDN、OICR 和PG-RS 算法在VOC2007 測試數(shù)據(jù)集的可視化結(jié)果,黃色矩形表示地面真實邊界框。成功檢測(IoU ≥ 0.5)用綠色邊框標(biāo)示,失敗檢測(IoU < 0.5)用紅色邊框標(biāo)示。根據(jù)圖6 可以看出,PG-RS 算法可以生成更緊密的邊界框,實現(xiàn)更精確的定位,而其他兩種方法不能生成過大的框或只包含對象的一部分。特別是當(dāng)同一類別的多個物體出現(xiàn)在一幅圖像中時,PG-RS 算法可以用較大的IoU 準(zhǔn)確地檢測到它們,但其他兩種方法通常會有一些漏檢。
圖6 WSDDN、OICR和PG-RS算法在VOC2007 測試數(shù)據(jù)集的可視化結(jié)果對比圖Fig.6 Comparison of visualization results of WSDDN,OICR and PG-RS algorithms on the VOC 2007 test dataset((a)WSDDN;(b)OICR;(c)PG-RS)
表2 展示了主流算法在VOC2007 數(shù)據(jù)集上的mAP 對比,其中效果最好的算法是MIST(Ren 等,2020),單模型mAP 達到了54.9%。目前先進的弱監(jiān)督目標(biāo)檢測算法mAP 都在50%~60%,難以超過60%,與常用做基線的OICR(Tang等,2017)算法相比提高了不到15%,可見該領(lǐng)域尚有較大的提升空間。觀察各個類別的最高AP,不難發(fā)現(xiàn)在船、瓶子、椅子、人和植物這幾類物體上,效果最好方法的AP依然難以超過40%,原因在于這幾類物體存在更復(fù)雜的形變、遮擋等問題。同時,大部分類別的最高AP出現(xiàn)在基于自訓(xùn)練的算法中,說明自訓(xùn)練過程是弱監(jiān)督目標(biāo)檢測縮小與全監(jiān)督目標(biāo)檢測之間差距的重要環(huán)節(jié)。綜合整個表1可知,3類算法各有所長,并無明顯的優(yōu)劣,因此本文歸納的3類算法都能有效解決弱監(jiān)督目標(biāo)檢測所面臨的難題,提高檢測精度。
表2 主流算法在VOC2007數(shù)據(jù)集上的mAP對比Table 2 mAP comparison of popular algorithms on VOC2007 dataset/%
表3 展示了主流算法在VOC2007 數(shù)據(jù)集上的CorLoc 指標(biāo)對比,其中效果最好的算法是SLV(Chen等,2020),其CorLoc達到了71.0%,與常用做基線的OICR(Tang 等,2017)算法相比提升了10.4%。各個算法之間的CorLoc 差距并不明顯,尤其是較為先進的算法,大多都在68%~71%。觀察各個類別的最高CorLoc,不難發(fā)現(xiàn)上限較低的仍然是瓶子、椅子和人等類別,原因同樣在于這幾類物體存在更復(fù)雜的形變、遮擋等問題。
表3 主流算法在VOC2007數(shù)據(jù)集上的CorLoc對比Table 3 CorLoc comparison of popular algorithms on VOC2007 dataset /%
表4 展示了主流算法在VOC2012 數(shù)據(jù)集上的mAP 和CorLoc 對比,其中mAP 最高的算法是NDI-WSOD(Wang等,2022),達到了53.9%,較之于OICR(Tang 等,2017)提高了16%。CorLoc 最高的算法是P-MIDN(Xu 等,2021),達到了73.3%,較之于OICR(Tang 等,2017)提高了11.2%。由于VOC2012 數(shù)據(jù)集較VOC2007 數(shù)據(jù)集樣本更多更復(fù)雜,因此在這個數(shù)據(jù)集上各方法的mAP 普遍降低,但是在VOC2007數(shù)據(jù)集上檢測精度較高的算法在VOC2012 數(shù)據(jù)集上依然具有優(yōu)勢。
表4 主流算法在VOC2012數(shù)據(jù)集上mAP、CorLoc對比Table 4 mAP comparison and CorLoc comparison of popular algorithms on VOC2012 dataset /%
此外,本文選取了部分算法在MS COCO 數(shù)據(jù)集上進行對比,結(jié)果如表5 所示。由于COCO 數(shù)據(jù)集樣本數(shù)量大、種類多,因此現(xiàn)有算法很難獲得較高的檢測精度。如表5 所示,ValAP50最高的算法是PMIDN(Xu 等,2021),達到了27.4%。其中ValAP 表示驗證集上的平均精度,ValAP50表示在IoU 閾值為50%時驗證集上的平均精度。
表5 主流算法在COCO數(shù)據(jù)集上ValAP、ValAP50對比Table 5 ValAP comparison and ValAP50 comparison of popular algorithms on COCO dataset /%
得益于深度學(xué)習(xí)的蓬勃發(fā)展,基于圖像級別標(biāo)記的弱監(jiān)督目標(biāo)檢測算法研究取得了較大突破。然而弱監(jiān)督目標(biāo)檢測仍然面臨諸多難題,其與全監(jiān)督目標(biāo)檢測相比還有一定的差距。本領(lǐng)域一些有價值的未來研究方向包括:1)現(xiàn)有算法大多采用Selective search(Uijlings 等,2013)或Edge boxes(Zitnick和Dollár,2014)來生成初始候選框,然而這兩種方法極為耗時且生成的絕大多數(shù)候選框?qū)儆谪摾?。因此,如何生成?shù)量更少、質(zhì)量更高的候選框,是一個亟待解決的問題。2)由于檢測熱力圖過于粗糙,不足以作為分割標(biāo)記,所以現(xiàn)有的檢測和分割相互協(xié)作的弱監(jiān)督目標(biāo)檢測算法并不能很好地利用檢測指導(dǎo)分割。因此,可以考慮設(shè)計更合理、更高效的檢測分割協(xié)作機制。3)自訓(xùn)練過程中的偽標(biāo)記生成是基于人工設(shè)計的策略實現(xiàn)的。盡管現(xiàn)有算法已借助多種手段來優(yōu)化偽標(biāo)記生成,但該步驟仍會遺漏大量正樣本和錯誤標(biāo)記大量負樣本。因此,怎樣設(shè)計更合理的策略或通過網(wǎng)絡(luò)本身來挖掘出更多、更好的正樣本,是一個值得深究的問題。4)現(xiàn)有的弱監(jiān)督目標(biāo)檢測算法的網(wǎng)絡(luò)模型復(fù)雜度較高。由于只有圖像級別的監(jiān)督信息,導(dǎo)致網(wǎng)絡(luò)模型不得不通過增加復(fù)雜度來換取更高的精度,從而大大增加對硬件的需求。因此,設(shè)計輕量級的、能夠應(yīng)用于移動端的網(wǎng)絡(luò)模型同樣具有重要的研究價值。
基于圖像級別標(biāo)記的弱監(jiān)督目標(biāo)檢測算法對于標(biāo)記信息的要求較低,能夠顯著降低訓(xùn)練樣本的獲取代價,因此具有重要的研究意義。本文首先介紹了弱監(jiān)督目標(biāo)檢測的問題定義、基礎(chǔ)框架和面臨的主要難題。然后按核心網(wǎng)絡(luò)架構(gòu)將現(xiàn)有典型算法歸納為基于優(yōu)化候選框生成的算法、結(jié)合分割的算法和基于自訓(xùn)練的算法,并分析了各種算法的特點及其優(yōu)缺點。進一步,在多個公共數(shù)據(jù)集和多種指標(biāo)上對主流算法進行了效果驗證和比較,得出結(jié)論:本文歸納的三大類算法均可在一定程度上解決該領(lǐng)域所面臨的主要難題并提高檢測效果,其中目前效果最為顯著的是基于自訓(xùn)練的算法。最后,根據(jù)現(xiàn)有算法的不足,并以進一步解決主要難題為目標(biāo),提出了該領(lǐng)域的一些有價值的未來研究方向,供相關(guān)研究人員參考借鑒。