何靜,傅可人,2*
1.四川大學(xué)視覺(jué)合成圖形圖像技術(shù)國(guó)防重點(diǎn)學(xué)科實(shí)驗(yàn)室,成都 610065;2.四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065
顯著性物體檢測(cè)(salient object detection, SOD)旨在定位圖像或視頻中最吸引人注意力的物體,并將其從背景中分離出來(lái)。顯著性物體檢測(cè)主要應(yīng)用于計(jì)算機(jī)視覺(jué)任務(wù)中的預(yù)處理,如視頻/圖像分割、視覺(jué)追蹤、視頻/圖像壓縮等。在早期,顯著性物體檢測(cè)主要基于RGB圖像進(jìn)行檢測(cè),從輸入的RGB圖像中提取有用信息用于物體顯著程度的估計(jì)。近年來(lái),隨著深度傳感器的發(fā)展和普及,基于RGB-D(RGB-depth)的多模態(tài)顯著性物體檢測(cè)受到研究者們廣泛的關(guān)注。
現(xiàn)有的RGB-D SOD方法按監(jiān)督方式可以分為全監(jiān)督和自監(jiān)督兩種。全監(jiān)督RGB-D SOD(Fu等,2020;Zhang等,2020)對(duì)輸入的RGB圖像以及相應(yīng)的深度圖通常采用早期融合、中期融合和后期融合的方式將兩種不同模態(tài)的互補(bǔ)信息進(jìn)行有效融合。自監(jiān)督RGB-D SOD(Zhao等,2021)用少量無(wú)標(biāo)記RGB-D數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,使網(wǎng)絡(luò)捕獲豐富的上下文語(yǔ)義信息,從而為下游任務(wù)提供有效初始化。
目前大多數(shù)RGB-D SOD采用全監(jiān)督的方式在一個(gè)較小的RGB-D SOD訓(xùn)練集上進(jìn)行訓(xùn)練,然而,此方式的泛化性能局限于較少的訓(xùn)練樣本,難以泛化到真實(shí)場(chǎng)景。因此,本文提出將RGB-D SOD視為小樣本學(xué)習(xí)問(wèn)題。受Wang等人(2021)綜述的啟發(fā),本文應(yīng)用兩類小樣本學(xué)習(xí)方法,第1類為基于模型解空間優(yōu)化的方法,通過(guò)多任務(wù)訓(xùn)練以及參數(shù)共享的方式將訓(xùn)練樣本數(shù)量較多的RGB SOD任務(wù)學(xué)習(xí)到的知識(shí)遷移至訓(xùn)練樣本數(shù)量較少的RGB-D SOD任務(wù),從模型角度約束特征解空間;第2類為基于訓(xùn)練樣本擴(kuò)充的方法,利用單圖深度估計(jì)算法將額外的RGB圖像生成相應(yīng)的深度圖,再將得到的RGB-D圖像對(duì)用于訓(xùn)練樣本擴(kuò)充。通過(guò)對(duì)以上兩類方法的結(jié)果進(jìn)行對(duì)比分析,證明了引入小樣本學(xué)習(xí)來(lái)提升RGB-D SOD性能的可行性和有效性。本文的主要貢獻(xiàn)如下:
1)提出將RGB-D SOD視為小樣本學(xué)習(xí)問(wèn)題,根據(jù)小樣本學(xué)習(xí)方法的分類,從模型解空間優(yōu)化角度和訓(xùn)練樣本擴(kuò)充角度研究如何從RGB SOD任務(wù)遷移額外的先驗(yàn)知識(shí),以提高小樣本條件下的RGB-D SOD的性能和泛化性。與之前方法不同,本文從“訓(xùn)練樣本少”的角度出發(fā),利用小樣本學(xué)習(xí)方法進(jìn)行顯著性物體檢測(cè)的研究工作。
2)針對(duì)不同小樣本學(xué)習(xí)方法,研究并實(shí)驗(yàn)了不同的顯著性檢測(cè)策略(包括典型的中期融合模型和后期融合模型),并在9個(gè)常用基準(zhǔn)數(shù)據(jù)集上進(jìn)行定量、定性的實(shí)驗(yàn)和分析,結(jié)果表明將RGB-D SOD視為小樣本學(xué)習(xí)問(wèn)題具有有效性和可行性。
近年來(lái),RGB-D SOD在性能上取得了質(zhì)的飛躍。傳統(tǒng)的RGB-D SOD主要采用提取的手工特征將RGB圖像信息與深度圖信息進(jìn)行融合。Niu等人(2012)提出第1個(gè)傳統(tǒng)的基于RGB-D的顯著性物體檢測(cè),利用全局視差對(duì)比和立體規(guī)則進(jìn)行顯著性估計(jì)。傳統(tǒng)的RGB-D SOD模型,往往通過(guò)深度線索探索有用的屬性,如邊界線索、區(qū)域?qū)Ρ榷?、深度?duì)比度和形狀屬性等。其中,Peng等人(2014)采用多階段的RGB-D算法將深度和外觀線索結(jié)合用于顯著性物體的分割。值得一提的是,他們構(gòu)建了第1個(gè)大規(guī)模的RGB-D SOD基準(zhǔn)數(shù)據(jù)集,即 NLPR。雖然傳統(tǒng)的RGB-D SOD取得了不錯(cuò)的效果,但它們?cè)趶?fù)雜場(chǎng)景、低對(duì)比度和強(qiáng)光照等環(huán)境缺乏魯棒性和泛化性。
Qu等人(2017)首次提出基于卷積神經(jīng)網(wǎng)絡(luò)的RGB-D顯著性物體檢測(cè),利用卷積神經(jīng)網(wǎng)絡(luò)有效地學(xué)習(xí)輸入圖像的低級(jí)特征和深度線索,并通過(guò)卷積神經(jīng)網(wǎng)絡(luò)整合以獲得最終的顯著性檢測(cè)結(jié)果,開啟了基于深度神經(jīng)網(wǎng)絡(luò)的RGB-D SOD新方向。為充分利用RGB圖與深度圖的互補(bǔ)信息,CTMF方法(Han等,2018)利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)學(xué)習(xí)RGB圖像和深度圖中的高級(jí)表示,將模型結(jié)構(gòu)從RGB圖像轉(zhuǎn)移到深度圖。Zhao等人(2019)提出一種流體金字塔集成模塊,通過(guò)分層的方式有效融合跨模態(tài)信息。MMCI(Chen等,2019)利用多尺度多路的融合方式捕獲RGB圖像與多層深度線索之間的相關(guān)性。UC-Net(Zhang等,2020)提出通過(guò)條件變分自編碼器對(duì)人的注釋不確定性進(jìn)行建模以產(chǎn)生不同的顯著性預(yù)測(cè),最終通過(guò)投票機(jī)制預(yù)測(cè)準(zhǔn)確的顯著性圖。JL-DCF(Fu等,2020)將深度圖與RGB圖像進(jìn)行級(jí)聯(lián)輸入到共享卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,并提出一種密集協(xié)作融合策略,有效地融合不同模態(tài)學(xué)習(xí)到的特征。D3Net(Fan等,2021)通過(guò)判斷深度圖是否應(yīng)該與RGB圖像串聯(lián)作為輸入信號(hào),設(shè)計(jì)網(wǎng)絡(luò)以減少低質(zhì)量深度圖引入的噪聲,并構(gòu)造了一個(gè)新的RGB-D SOD基準(zhǔn)數(shù)據(jù)集(SIP)。
由此可見,基于RGB-D的顯著性物體檢測(cè)在過(guò)去幾年得到了快速發(fā)展,并獲得較好的性能。但這些方法往往注重RGB與深度特征的有效融合(李貝 等,2021),如設(shè)計(jì)早期融合、中期融合、晚期融合和多尺度融合等策略。而本文關(guān)注RGB-D SOD的訓(xùn)練樣本較少,導(dǎo)致網(wǎng)絡(luò)泛化能力具有一定局限性的問(wèn)題。因此提出將RGB-D SOD視為小樣本學(xué)習(xí)問(wèn)題,研究如何將RGB SOD任務(wù)學(xué)習(xí)到的知識(shí)遷移到RGB-D SOD任務(wù),并基于JL-DCF模型(Fu等,2020)和DANet(dual attention network for scene segmentation)模型(Fu等,2019),探討引入小樣本學(xué)習(xí)方法后,對(duì)RGB-D SOD帶來(lái)的性能提升。
小樣本學(xué)習(xí)任務(wù)旨在解決如何在監(jiān)督信息有限的樣本條件下增強(qiáng)目標(biāo)任務(wù)的學(xué)習(xí),通常見于小樣本分類問(wèn)題(徐鵬幫 等,2021),即N-way-K-shot問(wèn)題。與小樣本分類任務(wù)不同,本文利用RGB SOD任務(wù)與RGB-D SOD任務(wù)間的共性,解決RGB-D SOD監(jiān)督信息有限的問(wèn)題,增強(qiáng)RGB-D SOD任務(wù)的特征學(xué)習(xí)和泛化性。
目前,魯棒的機(jī)器學(xué)習(xí)算法模型離不開大量的訓(xùn)練數(shù)據(jù),但實(shí)際中訓(xùn)練樣本的獲取往往較難,小樣本問(wèn)題廣泛存在于深度學(xué)習(xí)領(lǐng)域,因此近年來(lái)小樣本學(xué)習(xí)方法成為熱門方向,研究者們嘗試探索小樣本學(xué)習(xí)方法在不同領(lǐng)域的應(yīng)用。小樣本學(xué)習(xí)在特征識(shí)別(Finn等,2017;Munkhdalai和Yu,2017;Snell等,2017)和圖像分類(Ravi和Larochelle,2017;Tsai等,2017;Wang和Hebert,2016)的應(yīng)用較廣,在Ominiglot和miniImageNet兩個(gè)基準(zhǔn)數(shù)據(jù)集均取得較高的準(zhǔn)確率。在視頻方向也有較多應(yīng)用,如視頻分類(Zhu和Yang,2018)、動(dòng)作預(yù)測(cè)(Gui等,2018)、行人重識(shí)別(Wu等,2018)、目標(biāo)分割(Caelles等,2017)等。盡管小樣本學(xué)習(xí)方法應(yīng)用于眾多領(lǐng)域,但目前尚未有工作將小樣本學(xué)習(xí)方法應(yīng)用于顯著性物體檢測(cè)。與現(xiàn)有RGB-D SOD文獻(xiàn)不同,本文發(fā)現(xiàn)并嘗試解決RGB-D SOD的小樣本問(wèn)題。
本文在Wang等人(2021)綜述的啟發(fā)下,探索小樣本條件下的RGB-D SOD,研究?jī)深惒煌男颖緦W(xué)習(xí)方法在RGB-D SOD領(lǐng)域的綜合性能表現(xiàn),對(duì)基于兩類小樣本學(xué)習(xí)方法的RGB-D SOD進(jìn)行對(duì)比分析。首先,從模型解空間優(yōu)化角度,使RGB-D SOD任務(wù)和RGB SOD任務(wù)進(jìn)行多任務(wù)學(xué)習(xí)共享權(quán)重參數(shù),利用兩個(gè)關(guān)聯(lián)任務(wù)學(xué)習(xí)任務(wù)之間的共性,從模型角度約束參數(shù),從而實(shí)現(xiàn)小樣本條件下的RGB-D SOD。從訓(xùn)練樣本擴(kuò)充角度,使用現(xiàn)有的單目深度估計(jì)算法生成相應(yīng)的深度圖,即直接利用RGB SOD數(shù)據(jù)集中的先驗(yàn)知識(shí)對(duì)數(shù)據(jù)進(jìn)行增強(qiáng),從而擴(kuò)充小樣本條件下的RGB-D SOD有監(jiān)督數(shù)據(jù)。
RGB SOD與RGB-D SOD的多任務(wù)學(xué)習(xí)方法需為額外的RGB圖像進(jìn)行監(jiān)督,因此選擇中期融合模型與后期融合模型作為本文框架。原因有:1)早期融合將RGB圖像與深度圖像在通道維度進(jìn)行級(jí)聯(lián)輸入網(wǎng)絡(luò),或者將RGB圖像與深度圖像的淺層表示合并后輸入網(wǎng)絡(luò)進(jìn)行顯著性預(yù)測(cè),在輸入階段將RGB圖像與深度圖進(jìn)行級(jí)聯(lián),因此不能分別對(duì)RGB圖像和深度圖進(jìn)行監(jiān)督;2)中期融合將RGB圖像與深度圖像分別輸入相應(yīng)的網(wǎng)絡(luò),通過(guò)雙流網(wǎng)絡(luò)的方式獲得特征,再將特征融合后輸入深度神經(jīng)網(wǎng)絡(luò)解碼器進(jìn)行顯著性預(yù)測(cè),可為網(wǎng)絡(luò)添加額外的監(jiān)督信號(hào);3)后期融合則利用雙流網(wǎng)絡(luò)分別提取RGB圖像特征以及深度圖像特征,將提取的特征聯(lián)合用于最終的顯著性預(yù)測(cè)。因此,由于采用了雙流網(wǎng)絡(luò)結(jié)構(gòu),中期融合和后期融合均可作為兩類小樣本學(xué)習(xí)方法的基本框架。
從模型解空間優(yōu)化角度,小樣本學(xué)習(xí)方法可以通過(guò)增加先驗(yàn)知識(shí)限制模型假設(shè)空間,使經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的結(jié)果更可靠,并且降低過(guò)擬合風(fēng)險(xiǎn)(Wang等,2021)。根據(jù)先驗(yàn)知識(shí)的利用方法,將基于模型的小樣本學(xué)習(xí)方法分為多任務(wù)學(xué)習(xí)、嵌入學(xué)習(xí)和生成式模型(Wang等,2021)。采用多任務(wù)學(xué)習(xí)方法,將兩個(gè)相似任務(wù)進(jìn)行參數(shù)共享,從而將RGB SOD任務(wù)的知識(shí)遷移至RGB-D SOD模型中。
考慮到從模型解空間優(yōu)化角度進(jìn)行多任務(wù)學(xué)習(xí)需要加入額外的監(jiān)督信號(hào),選擇中期融合和后期融合模型對(duì)小樣本RGB-D SOD進(jìn)行探究。在中期融合模型中,F(xiàn)u等人(2020)提出的JL-DCF是具有代表性的中期融合模型,同時(shí),JL-DCF對(duì)RGB圖像和深度圖兩種模態(tài)均有單獨(dú)的監(jiān)督;另外,JL-DCF共享了RGB分支和深度分支的權(quán)重,使額外的RGB圖像信息更好地增強(qiáng)兩種模態(tài)的學(xué)習(xí)。對(duì)于后期融合模型,參考Fu等人(2021)將DANet(Fu等,2019)構(gòu)造為雙流后期融合模型DANet?,用于多任務(wù)學(xué)習(xí),框架圖如圖1所示。
圖1(a)表示基于中期融合的小樣本條件下的RGB-D SOD,網(wǎng)絡(luò)主干部分為JL-DCF模型。JL-DCF(Fu等,2020)通過(guò)孿生網(wǎng)絡(luò)提取RGB圖像與深度圖像的特征,并提出密集協(xié)作融合策略有效地融合不同模態(tài)的特征。本文在編碼模塊對(duì)RGB-D SOD任務(wù)和RGB SOD任務(wù)進(jìn)行參數(shù)共享,為引導(dǎo)網(wǎng)絡(luò)更好地學(xué)習(xí)多任務(wù)特征,將特征編碼器輸出的粗略顯著圖進(jìn)行監(jiān)督從而優(yōu)化編碼模塊以提高模塊的泛化能力。解碼器將RGB-D數(shù)據(jù)編碼的各級(jí)特征與解碼部分的各級(jí)特征進(jìn)行跨模塊融合,最后輸出精確的顯著預(yù)測(cè)圖。其中,RGB-D SOD任務(wù)的訓(xùn)練數(shù)據(jù)遠(yuǎn)小于RGB SOD任務(wù)的訓(xùn)練數(shù)據(jù)。
圖1 將多任務(wù)學(xué)習(xí)用于基于中期融合和后期融合的RGB-D SOD模型(RGB*表示額外的RGB圖像)
圖1(b)表示基于后期融合的小樣本條件下的RGB-D SOD,網(wǎng)絡(luò)主干部分為DANet模型。DANet(Fu等,2019)為基于RGB的語(yǔ)義分割模型,通過(guò)多尺度特征融合捕獲上下文信息,同時(shí)采用雙注意力網(wǎng)絡(luò)以自適應(yīng)地將局部特征與其全局依賴性相結(jié)合,分別對(duì)空間和通道維度的語(yǔ)義相互依賴性進(jìn)行建模。本文參考Fu等人(2021)將語(yǔ)義分割模型DANet的分類預(yù)測(cè)頭卷積層(1×1,C)(輸出通道數(shù)C表示語(yǔ)義分割類別數(shù))替換為(1×1,1)的預(yù)測(cè)卷積層以用于顯著性物體檢測(cè)。由于DANet為基于RGB的單流模型,因此將DANet修改為輸入為RGB圖像和深度圖像的雙流后期融合模型,即DANet?。對(duì)輸入的RGB圖像與深度圖像進(jìn)行編解碼操作得到單通道激活特征圖,再在輸入Sigmoid函數(shù)前進(jìn)行相加融合操作得到最終的顯著性圖。
綜上,基于中期融合和后期融合的多任務(wù)學(xué)習(xí)方法的總體損失分別表示為
L1=L(Sr,G)+L(Sd,G)+L(Sr*,G*)+L(Sf,G)
(1)
L2=L(Sr*,G*)+L(Sf,G)
(2)
當(dāng)加入了額外的合成數(shù)據(jù),數(shù)據(jù)集的分布將發(fā)生改變,即小部分為原始RGB-D數(shù)據(jù),大部分則為合成數(shù)據(jù),因此為了減小數(shù)據(jù)量對(duì)網(wǎng)絡(luò)訓(xùn)練的影響,深度生成時(shí),將合成數(shù)據(jù)的訓(xùn)練損失按數(shù)據(jù)比例進(jìn)行加權(quán),因此深度生成方法的損失函數(shù)為
(3)
為公平比較,在8個(gè)RGB-D SOD數(shù)據(jù)集以及1個(gè)RGB SOD數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià)分析。RGB-D SOD數(shù)據(jù)集包括:NJU2K(1 985個(gè)樣本)(Ju等,2014)、NLPR(1 000個(gè)樣本)(Peng等,2014)、STERE(1 000個(gè)樣本)(Niu等,2012)、RGBD135(135個(gè)樣本)(Cheng等,2014)、LFSD(100個(gè)樣本)(Li等,2017)、SIP(929個(gè)樣本)(Fan等,2021)、DUT-RGBD(800個(gè)訓(xùn)練樣本+400個(gè)測(cè)試樣本)(Piao等,2019)、ReDWeb-S(2 179個(gè)訓(xùn)練樣本+1 000個(gè)測(cè)試樣本)(Liu等,2021)。DUTS(10 553個(gè)訓(xùn)練樣本+5 019個(gè)測(cè)試樣本)(Wang等,2017)為RGB SOD數(shù)據(jù)集。在本文中,RGB-D訓(xùn)練集由NJU2K的1 500個(gè)樣本、NLPR的700個(gè)樣本組成,額外的RGB訓(xùn)練數(shù)據(jù)由DUTS中10 553個(gè)樣本組成。其余數(shù)據(jù)用于測(cè)試,值得一提的是,在DUT-RGBD和ReDWeb-S中,采用所有數(shù)據(jù)進(jìn)行測(cè)試,即測(cè)試集分別包含1 200個(gè)和3 179個(gè)樣本。
本文方法的實(shí)現(xiàn)基于JL-DCF框架和DANet?框架。在基于JL-DCF的多任務(wù)學(xué)習(xí)實(shí)驗(yàn)中,將RGB-D數(shù)據(jù)與DUTS中的RGB數(shù)據(jù)同時(shí)輸入編碼器進(jìn)行在線聯(lián)合訓(xùn)練和優(yōu)化。相似地,基于DANet?的多任務(wù)學(xué)習(xí)實(shí)驗(yàn)對(duì)兩種不同來(lái)源的RGB數(shù)據(jù)同時(shí)進(jìn)行聯(lián)合訓(xùn)練和優(yōu)化。JL-DCF框架和DANet?框架的主干網(wǎng)絡(luò)均為ResNet-101,其中JL-DCF網(wǎng)絡(luò)與DANet?網(wǎng)絡(luò)輸入圖像的尺寸分別為320×320×3、480×480×3,最終輸出圖像分辨率分別為320×320像素、480×480像素,兩個(gè)網(wǎng)絡(luò)的輸入均是將深度圖通過(guò)簡(jiǎn)單的灰度映射轉(zhuǎn)換為三通道圖。
3.3.1 定量結(jié)果對(duì)比和分析
為直觀地說(shuō)明將RGB-D SOD視為小樣本學(xué)習(xí)問(wèn)題的有效性和泛化性,訓(xùn)練了6個(gè)不同模型驗(yàn)證兩種不同的小樣本學(xué)習(xí)方法(即RGB SOD與RGB-D SOD的多任務(wù)學(xué)習(xí),以及訓(xùn)練樣本深度生成)對(duì)RGB-D SOD的性能提升。如表1所示,其中W/o FSL表示原始Pytorch版本的模型性能(未采用小樣本學(xué)習(xí)方法),Multi-task表示RGB SOD與RGB-D SOD多任務(wù)學(xué)習(xí)優(yōu)化的方法,DS-DPT、DS-MD分別表示基于DPT和MegaDepth的深度生成的訓(xùn)練樣本擴(kuò)充。值得一提的是,表1中DUTS為RGB SOD數(shù)據(jù)集,因此在測(cè)試時(shí)通過(guò)DPT和MegaDepth兩種方法生成深度圖,分別表示為DUTS(DPT)、DUTS(MD)。
表1 在9個(gè)數(shù)據(jù)集上的定量分析
從表1可得:
1)由JL-DCF與DANet?的結(jié)果可得,將RGB-D SOD視為小樣本學(xué)習(xí)問(wèn)題并引入小樣本學(xué)習(xí)方法可提高模型性能。例如,對(duì)于JL-DCF模型,多任務(wù)學(xué)習(xí)方法(multi-task)在SIP和DUT-RGBD數(shù)據(jù)集性能表現(xiàn)總體最好,Sα的提升分別為2.1%、2.4%;對(duì)于DANet?模型,基于DPT的深度生成方法(DS-DPT)在SIP和DUT-RGBD數(shù)據(jù)集上,Sα的提升分別為1.8%、3.9%。
2)在JL-DCF結(jié)果中,多任務(wù)學(xué)習(xí)方法(multi-task)的性能表現(xiàn)最佳,相比于未引入小樣本學(xué)習(xí)(W/o FSL)的性能總體提升最高,這源于JL-DCF模型通過(guò)參數(shù)共享的方式將RGB SOD任務(wù)的知識(shí)遷移至RGB-D SOD任務(wù),此方式更有利于顯著性物體檢測(cè)任務(wù)的特征學(xué)習(xí)。
3)在DANet?結(jié)果中,基于DPT的深度生成(DS-DPT)性能總體提升最高,且高于多任務(wù)學(xué)習(xí)(multi-task)。原因在于采用DPT方法合成的高質(zhì)量深度圖進(jìn)行網(wǎng)絡(luò)訓(xùn)練,使基于DPT的深度生成方法(DS-DPT)性能提升最高。另一方面,DANet?通過(guò)雙流網(wǎng)絡(luò)分別學(xué)習(xí)RGB圖像與深度圖像的特征,并以后期融合的方式融合兩支路(RGB分支、深度圖分支)的特征,在特征學(xué)習(xí)階段額外的RGB圖像信息僅有利于RGB分支的學(xué)習(xí),而深度分支未能利用額外的RGB圖像信息,因此多任務(wù)學(xué)習(xí)方法性能表現(xiàn)稍差。
4)分析JL-DCF和DANet?數(shù)據(jù)中DS-DPT與DS-MD的性能表現(xiàn),結(jié)果顯示兩類模型中DS-DPT的總體性能均要優(yōu)于DS-MD,可得出深度生成的質(zhì)量對(duì)結(jié)果有一定的影響,即深度生成算法效果越好,引入額外的RGB圖像知識(shí)所帶來(lái)的性能提升越大。
5)JL-DCF的整體性能優(yōu)于DANet?,因此小樣本條件下的RGB-D顯著性物體檢測(cè)依賴于模型的選擇。與UCNet(Zhang等,2020)、SSRNet(Zhao等,2020)兩種現(xiàn)有前沿方法進(jìn)行對(duì)比,引入小樣本學(xué)習(xí)方法后可獲得優(yōu)于SOTA(state-of-the-art)的性能。同時(shí),在DUT-RGBD、ReDWeb-S兩個(gè)全數(shù)據(jù)集上的測(cè)試結(jié)果證明了在RGB-D SOD模型引入小樣本學(xué)習(xí)方法的泛化性。
為直觀表現(xiàn)采用小樣本學(xué)習(xí)方法對(duì)JL-DCF與DANet?模型的性能提升,對(duì)表1中數(shù)據(jù)進(jìn)行統(tǒng)計(jì)歸納,得出將RGB-D SOD視為小樣本學(xué)習(xí)問(wèn)題后,多任務(wù)學(xué)習(xí)以及深度生成方法在8個(gè)通用數(shù)據(jù)集的性能提升(僅計(jì)算NJU2K、NLPR、STERE、RGBD135、LFSD、SIP、DUT-RGBD、ReDWeb-S數(shù)據(jù)集上的指標(biāo)提升平均值),如表2所示,在JL-DCF模型中,多任務(wù)學(xué)習(xí)方法具有突出的性能表現(xiàn),在DANet?模型中,基于DPT方法的深度生成性能提升較為突出,如前所述,此結(jié)果與基礎(chǔ)模型的結(jié)構(gòu)相關(guān)。另外,JL-DCF模型引入小樣本學(xué)習(xí)方法的性能提升要小于DANet?模型引入小樣本學(xué)習(xí)方法的提升,原因?yàn)樵糐L-DCF性能表現(xiàn)已較好,而DANet?模型性能稍差,說(shuō)明小樣本學(xué)習(xí)方法對(duì)模型帶來(lái)的性能提升一定程度上取決于模型自身的基礎(chǔ)性能。表2再次證明了將RGB-D SOD視為小樣本學(xué)習(xí)問(wèn)題的可行性和有效性。
表2 小樣本學(xué)習(xí)方法的平均性能提升
表3展示了將模型用于DUTS數(shù)據(jù)集的性能提升,DUTS(DPT)、DUTS(MD)分別表示采用DPT方法和MegaDepth方法生成DUTS數(shù)據(jù)集的深度圖用于測(cè)試。在JL-DCF模型中,采用DPT方法生成深度圖訓(xùn)練的模型在DPT方法生成深度圖的測(cè)試集上性能表現(xiàn)最佳,采用MegaDepth方法生成深度圖訓(xùn)練的模型在MegaDepth方法生成深度圖的測(cè)試集上性能表現(xiàn)最佳。對(duì)于DANet?模型,DPT方法生成深度圖訓(xùn)練的模型(即DS-DPT)在DUTS(DPT)與DUTS(MD)數(shù)據(jù)集上性能表現(xiàn)最佳,原因在于DANet?為后期融合模型,對(duì)RGB-D圖像對(duì)的語(yǔ)義信息的利用較差,因此深度圖的質(zhì)量對(duì)此雙流網(wǎng)絡(luò)的影響較大,印證了基于訓(xùn)練樣本擴(kuò)充的小樣本學(xué)習(xí)方法的性能依賴于深度生成算法的性能。另外,由于額外的RGB圖像僅有利于RGB分支學(xué)習(xí)特征,而沒(méi)有學(xué)習(xí)生成的深度圖信息,因此多任務(wù)學(xué)習(xí)(即multi-task)性能差于深度生成方法??傊?,采用不同深度生成方法訓(xùn)練的模型能夠在不同的測(cè)試集(DUTS(DPT)、DUTS(MD))取得較優(yōu)的性能提升(Sα最低提升2.9%),證明引入小樣本學(xué)習(xí)方法可提高模型的泛化性。
表3 DUTS數(shù)據(jù)集上小樣本學(xué)習(xí)方法的性能提升
為驗(yàn)證引入小樣本學(xué)習(xí)對(duì)RGB-D SOD在訓(xùn)練樣本數(shù)量極少時(shí)的優(yōu)越性,本文將RGB-D SOD訓(xùn)練樣本數(shù)按1/4進(jìn)行指數(shù)式減少(即從2 200依次減少為550、138、35個(gè)RGB-D訓(xùn)練樣本),而額外的RGB SOD訓(xùn)練樣本數(shù)量則保持不變,以使RGB SOD數(shù)據(jù)量遠(yuǎn)大于RGB-D SOD數(shù)據(jù)量。本文選擇基于JL-DCF的多任務(wù)學(xué)習(xí)方法進(jìn)行驗(yàn)證。如表4所示,其中Δ1、Δ2、Δ3、Δ4分別表示樣本數(shù)量為2 200、550、138、35時(shí),多任務(wù)學(xué)習(xí)方法在9個(gè)數(shù)據(jù)集上的平均提升(基準(zhǔn)模型W/o FSL也使用減少的樣本進(jìn)行了重新訓(xùn)練)。由表4給出的實(shí)驗(yàn)結(jié)果可知,當(dāng)RGB-D SOD訓(xùn)練樣本數(shù)為2 200和550時(shí),引入小樣本學(xué)習(xí)方法對(duì)該任務(wù)的性能提升相當(dāng),但隨著樣本數(shù)量的指數(shù)減少,多任務(wù)學(xué)習(xí)方法的性能提升越發(fā)顯著。
表4 指數(shù)減少RGB-D數(shù)據(jù)量時(shí)多任務(wù)學(xué)習(xí)方法的平均性能提升
3.3.2 定性結(jié)果對(duì)比和分析
由圖2可得,小樣本條件下的顯著性物體檢測(cè)準(zhǔn)確率更高。同時(shí),對(duì)于背景較復(fù)雜的圖像也可以準(zhǔn)確地檢測(cè)出顯著性物體。本文方法在DANet?模型與JL-DCF模型上均能明顯提高檢測(cè)準(zhǔn)確率。由此證明了小樣本條件下的RGB-D SOD的可行性,表現(xiàn)為所得到的顯著性物體更加完整,置信度也更高。
圖2 定性比較
3.3.3 參數(shù)α的敏感性分析
為分析基于訓(xùn)練樣本擴(kuò)充方法式(3)中權(quán)重系數(shù)的取值影響,設(shè)置α值分別為0、0.21、1、5在JL-DCF模型上進(jìn)行實(shí)驗(yàn),在NJU2K、NLPR、STERE、RGBD135、LFSD、SIP、DUT-RGBD、ReDWeb-S數(shù)據(jù)集上的各項(xiàng)平均指標(biāo)如圖3所示。值得一提的是,α=0即表示不采用合成訓(xùn)練數(shù)據(jù)的原始性能(對(duì)應(yīng)表1中JL-DCF欄的W/o FSL);α=1意味著對(duì)所有訓(xùn)練樣本同等對(duì)待,而α=5表示增加了合成數(shù)據(jù)的訓(xùn)練權(quán)重。從圖3可見,當(dāng)α=0.21時(shí),網(wǎng)絡(luò)取得的性能最好。隨著α取值的增大,即擴(kuò)大合成數(shù)據(jù)集對(duì)網(wǎng)絡(luò)前向傳播的影響,意味著網(wǎng)絡(luò)逐漸偏向?qū)W習(xí)合成的深度信息,因此導(dǎo)致在真實(shí)的RGB-D數(shù)據(jù)上性能有所下降。上述實(shí)驗(yàn)表明,在訓(xùn)練樣本擴(kuò)充時(shí)控制好合成數(shù)據(jù)的權(quán)重更有益于模型性能的提升,也證明了本文對(duì)α取值的有效性。
圖3 在8個(gè)數(shù)據(jù)集上對(duì)參數(shù)α的不同取值(0、0.21、1、5)進(jìn)行敏感性分析
3.3.4 其他討論
基于以上對(duì)實(shí)驗(yàn)結(jié)果的定量、定性分析,可證明將RGB-D SOD視為小樣本學(xué)習(xí)問(wèn)題的可行性和有效性,但這兩類小樣本學(xué)習(xí)方法存在各自的優(yōu)缺點(diǎn)。在適用性方面,多任務(wù)學(xué)習(xí)方法局限于模型的結(jié)構(gòu),僅可應(yīng)用于中期融合模型與后期融合模型,如本文第2節(jié)所述,早期融合模型無(wú)法為網(wǎng)絡(luò)加入額外的監(jiān)督信號(hào);而深度生成方法簡(jiǎn)單直接,理論上可應(yīng)用于所有模型。另外,對(duì)于訓(xùn)練復(fù)雜度,深度生成方法受大量訓(xùn)練數(shù)據(jù)的影響,訓(xùn)練時(shí)間較長(zhǎng);而多任務(wù)學(xué)習(xí)方法訓(xùn)練時(shí)間較短,訓(xùn)練代價(jià)較低。此外,基于深度生成方法的小樣本RGB-D SOD性能一定程度上依賴于深度生成算法的精度,低質(zhì)量的深度圖易給網(wǎng)絡(luò)引入噪聲,從而影響最終的訓(xùn)練結(jié)果。
針對(duì)RGB-D SOD訓(xùn)練數(shù)據(jù)集較小的問(wèn)題,本文從小樣本學(xué)習(xí)角度探討RGB-D SOD。鑒于RGB SOD任務(wù)與RGB-D SOD任務(wù)的相似性以及數(shù)據(jù)的可用性,利用小樣本學(xué)習(xí)方法將RGB SOD任務(wù)的知識(shí)遷移到RGB-D SOD任務(wù),從模型解空間優(yōu)化和訓(xùn)練樣本擴(kuò)充對(duì)小樣本條件下的RGB-D SOD進(jìn)行研究。模型解空間優(yōu)化將RGB SOD與RGB-D SOD進(jìn)行多任務(wù)學(xué)習(xí)共享參數(shù),通過(guò)引入RGB SOD任務(wù)的知識(shí),使網(wǎng)絡(luò)學(xué)習(xí)更具泛化性的特征。訓(xùn)練樣本擴(kuò)充利用單目深度生成算法生成相應(yīng)的深度圖,以實(shí)現(xiàn)RGB-D SOD訓(xùn)練數(shù)據(jù)集的增廣。本文進(jìn)行了大量實(shí)驗(yàn),從不同角度證明小樣本條件下的RGB-D SOD的有效性和可行性??傊嫦蛐颖緱l件下的RGB-D SOD的研究是一項(xiàng)重要任務(wù),目前僅從模型解空間優(yōu)化角度和訓(xùn)練樣本擴(kuò)充角度對(duì)小樣本條件下的RGB-D SOD方法進(jìn)行研究,未來(lái)將探索并應(yīng)用更多小樣本學(xué)習(xí)方法以提升RGB-D顯著性物體檢測(cè),乃至其他顯著性檢測(cè)任務(wù)的性能。