劉宇軒,孟凡滿,李宏亮,楊嘉瑩,吳慶波,許林峰
(電子科技大學(xué) 信息與通信工程學(xué)院,成都610000)
小樣本語(yǔ)義分割旨在使用少量有標(biāo)注的圖像對(duì)新類目標(biāo)進(jìn)行分割,其關(guān)鍵問(wèn)題之一是如何提取支持圖像(有標(biāo)注的圖像)和查詢圖像(待分割的無(wú)標(biāo)注圖像)的相似關(guān)系,實(shí)現(xiàn)先驗(yàn)知識(shí)的遷移?,F(xiàn)有的小樣本分割方法[1-5]常被建模為兩分支卷積神經(jīng)網(wǎng)絡(luò),分別是支持分支和查詢分支。支持分支提取支持圖像的分割先驗(yàn),查詢分支則用于提取查詢圖像在嵌入空間中的特征,根據(jù)支持分支的分割先驗(yàn),構(gòu)建兩者之間的相似關(guān)系,實(shí)現(xiàn)對(duì)查詢圖像的分割。
然而,現(xiàn)有的方法通過(guò)單獨(dú)考慮圖像的全局線索或者局部線索構(gòu)建支持圖像和查詢圖像的相似關(guān)系。例如,一些方法[1-2,6-8]只考慮了全局線索,而忽略了蘊(yùn)含細(xì)節(jié)信息的局部線索,使得模型難以實(shí)現(xiàn)細(xì)節(jié)的準(zhǔn)確分割。另一方面,一些方法如LTM[3]只考慮了局部線索,忽略了攜帶有豐富語(yǔ)義信息的全局線索,導(dǎo)致模型的通用性和泛化性受限。綜合兩者的優(yōu)劣,本文將全局線索和局部線索相結(jié)合,克服彼此的缺點(diǎn),使得兩者相互促進(jìn),獲得更優(yōu)的分割結(jié)果。
基于上述分析,在建模支持圖像分割先驗(yàn)和查詢圖像特征之間的關(guān)系時(shí),本文同時(shí)考慮了支持圖像的全局線索和局部線索。具體地,本文提出了一個(gè)新的注意力譜生成器,根據(jù)支持圖像和查詢圖像之間的關(guān)系,更準(zhǔn)確地輸出查詢圖像的注意力譜。注意力譜生成器包含2個(gè)級(jí)聯(lián)的模塊:全局引導(dǎo)器和局部引導(dǎo)器。全局引導(dǎo)器對(duì)特征間的全局相似性進(jìn)行構(gòu)建,局部引導(dǎo)器建模特征間的局部相似性。本文提出一種新的基于指數(shù)函數(shù)的全局相似性度量方式,可以對(duì)查詢圖像特征中與支持圖像全局分割先驗(yàn)相似的部分進(jìn)行增強(qiáng),同時(shí)對(duì)不相似的部分進(jìn)行削弱,更有效地對(duì)全局相似性進(jìn)行度量。受到LTM[3]的啟發(fā),基于局部關(guān)系矩陣,使用局部引導(dǎo)器對(duì)局部相似性進(jìn)行建模,從而得到與類別無(wú)關(guān)的注意力譜。將全局引導(dǎo)器和局部引導(dǎo)器進(jìn)行級(jí)聯(lián),實(shí)現(xiàn)了全局相似性和局部相似性的融合。在Pascal-5i數(shù)據(jù)集上對(duì)所提方法進(jìn)行實(shí)驗(yàn)驗(yàn)證,所提方法在1-shot設(shè)定下mIoU達(dá)到59.9%,5-shot設(shè)定下mIoU達(dá)到了61.9%,均優(yōu)于現(xiàn)有方法。
本文所作出的貢獻(xiàn)如下:
1)提出了一種新的小樣本分割模型,在進(jìn)行關(guān)系建模時(shí),同時(shí)考慮了支持圖像的全局線索和局部線索,通過(guò)同時(shí)使用特征之間的全局相似性和局部相似性實(shí)現(xiàn)更準(zhǔn)確的分割。
2)在進(jìn)行全局相似性建模時(shí),提出了一種新的基于指數(shù)函數(shù)的全局相似性度量方式,能夠更有效地建模全局相似性。
3)在Pascal-5i數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證。所提方法優(yōu)于最新的對(duì)比方法(在1-shot設(shè)定下mIoU達(dá)到了59.9%,5-shot設(shè)定下mIoU達(dá)到了61.9%)。
小樣本學(xué)習(xí)旨在使用少量樣本,學(xué)習(xí)可以遷移到未知類別的知識(shí),進(jìn)而實(shí)現(xiàn)未知類目標(biāo)識(shí)別的泛化。現(xiàn)有的小樣本學(xué)習(xí)方法可以分為3類:基于模型微調(diào)的方法[9]、基于圖模型的方法[10]、基于度量學(xué)習(xí)的方法[11-12]。基于模型微調(diào)的方法使用少量新類樣本,對(duì)模型的參數(shù)進(jìn)行微調(diào)?;趫D模型的方法建立支持樣本和查詢樣本之間的圖模型,對(duì)新類樣本進(jìn)行識(shí)別。基于度量學(xué)習(xí)的方法度量支持樣本和查詢圖像之間的距離,繼而識(shí)別新類樣本。目前,小樣本學(xué)習(xí)已在圖像分類、圖像分割等領(lǐng)域得到了廣泛的關(guān)注。
語(yǔ)義分割對(duì)圖像中每個(gè)像素點(diǎn)所屬類別進(jìn)行預(yù)測(cè)?;谌矸e網(wǎng)絡(luò)(FCN)[13],研究人員提出了一系列語(yǔ)義分割方法[14-18],并驗(yàn)證了其有效性。為了得到含有豐富語(yǔ)義信息的特征表達(dá),全卷積網(wǎng)絡(luò)大量使用池化、跨步長(zhǎng)卷積等操作,從而降低特征的分辨率,豐富特征的語(yǔ)義信息。不僅如此,為了提高感受野,DeepLab[15]使用空洞卷積。然而,現(xiàn)有的語(yǔ)義分割方法不能對(duì)未知類目標(biāo)分割進(jìn)行泛化,因此,研究者提出小樣本分割任務(wù),旨在使用少量有標(biāo)注實(shí)現(xiàn)未知類目標(biāo)的有效分割。
小樣本分割旨在使用少量有標(biāo)注的圖像對(duì)新類目標(biāo)進(jìn)行分割。現(xiàn)有的小樣本分割方法根據(jù)其思路可以分為3類:基于度量學(xué)習(xí)的方法[1-3]、基于元學(xué)習(xí)的方法[4-5]、基于原型學(xué)習(xí)的方法[6-7]。基于度量學(xué)習(xí)的方法[1-3]建模支持圖像和查詢圖像之間的相似性,通過(guò)遷移支持圖像分割先驗(yàn)實(shí)現(xiàn)查詢圖像的分割?;谠獙W(xué)習(xí)的方法[4-5]利用支持分支提取的信息預(yù)測(cè)查詢圖像的分類器權(quán)重,進(jìn)而實(shí)現(xiàn)查詢圖像的分割?;谠蛯W(xué)習(xí)的方法[6-7]將支持圖像的前景和背景分別映射為2個(gè)原型先驗(yàn),然后使用距離最近的原則對(duì)查詢圖像進(jìn)行分割。其中,基于度量學(xué)習(xí)的方法被廣泛應(yīng)用到小樣本分割的任務(wù)中,并且取得了良好的效果。本文方法采用度量學(xué)習(xí)的思路進(jìn)行建模。
文獻(xiàn)[19]對(duì)融合小樣本學(xué)習(xí)和零樣本學(xué)習(xí)相關(guān)方法進(jìn)行綜述,主要介紹了當(dāng)前小樣本學(xué)習(xí)和零樣本學(xué)習(xí)的一些主流方法。文獻(xiàn)[20]將小樣本學(xué)習(xí)與域遷移結(jié)合,應(yīng)用于跨域人臉欺詐檢測(cè)中。文獻(xiàn)[21]利用度量學(xué)習(xí)的思路,提出了一種基于小樣本學(xué)習(xí)的零器件表面缺陷檢測(cè)的方法。文獻(xiàn)[22]將小樣本學(xué)習(xí)應(yīng)用于點(diǎn)云分類中,提出了一種基于遷移學(xué)習(xí)的點(diǎn)云分類方法。文獻(xiàn)[23]提出了一種基于已知類權(quán)重生成未知類權(quán)重的方法,有效地避免了小樣本學(xué)習(xí)中災(zāi)難性遺忘的問(wèn)題。
對(duì)于未知類數(shù)據(jù)Dtest,小樣本分割網(wǎng)絡(luò)致力于提取未知圖像的前景區(qū)域。通常,分割網(wǎng)絡(luò)在有標(biāo)注的已知類數(shù)據(jù)集Dtrain上進(jìn)行訓(xùn)練,其中Dtrain和Dtest中的圖像類別沒(méi)有交集。具體地,小樣本分割將Dtrain分為支持訓(xùn)練集和查詢訓(xùn)練集。
對(duì)于k-shot設(shè)定,從支持集合的支持訓(xùn)練集和查詢訓(xùn)練集中隨機(jī)采樣k張支持圖像及其對(duì)應(yīng)的二值掩膜進(jìn)行訓(xùn)練。測(cè)試階段,小樣本網(wǎng)絡(luò)則根據(jù)輸入的k張支持圖像及其對(duì)應(yīng)的二值掩膜對(duì)未知的查詢圖像進(jìn)行分割。
本文提出一種新的小樣本分割網(wǎng)絡(luò),致力于通過(guò)全局和局部線索對(duì)特征之間的關(guān)系建模以生成更精確的注意力譜。最終實(shí)現(xiàn)查詢圖像前景部分的增強(qiáng)和背景部分的削弱。
本文方法框架如圖1所示,所提網(wǎng)絡(luò)共包括4個(gè)步驟:
步驟1 將支持圖像和查詢圖像輸入到特征提取器CNN中,得到支持圖像特征Fs和查詢圖像特征Fq。
圖1 本文方法總體框架Fig.1 General framework of proposed method
步驟2 為了濾除Fs的背景部分,接著將下采樣后支持圖像掩膜Ms和Fs相乘,得到的F′s只包含支持圖像的前景信息。
步驟3 將F′s、Fq以及Ms輸入到基于全局和局部相似性度量的注意力譜生成器中,構(gòu)建與類別無(wú)關(guān)的注意力譜att,以突出查詢圖像的前景區(qū)域。
步驟4 將att與另一查詢圖像特征F′q相乘,并輸入到上采樣網(wǎng)絡(luò),得到最終的預(yù)測(cè)結(jié)果P。
所提網(wǎng)絡(luò)的核心是注意力譜生成器,其基于全局和局部相似性。對(duì)注意力譜att進(jìn)行構(gòu)建,其由2個(gè)級(jí)聯(lián)的模塊組成:全局引導(dǎo)器和局部引導(dǎo)器。全局引導(dǎo)器用于對(duì)特征之間的全局相似性進(jìn)行度量。局部引導(dǎo)器則建模局部相似性。在全局引導(dǎo)器方面,提出了一種新的基于指數(shù)函數(shù)的全局相似性度量方式,可以對(duì)查詢圖像特征中與支持圖像先驗(yàn)相似的部分進(jìn)行增強(qiáng),同時(shí)對(duì)不相似的部分進(jìn)行削弱,更好地進(jìn)行全局相似度量。在局部引導(dǎo)器方面,受到方法LTM[3]的啟發(fā),基于局部關(guān)系矩陣,使用局部引導(dǎo)器對(duì)特征的局部相似性進(jìn)行建模,從而得到最終與類別無(wú)關(guān)的注意力譜。
本文基于全局和局部相似性對(duì)注意力譜att進(jìn)行構(gòu)建,具體如圖2所示。具體思路是:將F′s和Fq映射到同一個(gè)嵌入空間,在嵌入空間中對(duì)全局和局部相似性進(jìn)行建模,最終生成與類別無(wú)關(guān)的注意力譜。
具體地,F(xiàn)′s和Fq被輸入到一個(gè)嵌入模塊E中,分 別 得 到 嵌 入 特 征φs=E(F′s)和φq=E(Fq)。然后,利用全局引導(dǎo)器,對(duì)φs和φq的全局相似性進(jìn)行建模,實(shí)現(xiàn)φq與φs中全局信息相似的部分指數(shù)型增強(qiáng),生成粗糙的查詢圖像特征φ′q。接著利用局部引導(dǎo)器對(duì)φs和φ′q中的每個(gè)空間位置之間的關(guān)系進(jìn)行度量。通過(guò)將Ms、φs和φ′q輸入局部引導(dǎo)器中,得到最終與類別無(wú)關(guān)的注意力譜att。
現(xiàn)有的基于全局相似性度量的方法計(jì)算查詢圖像特征的每個(gè)空間位置與支持圖像全局分割先驗(yàn)的余弦距離。然而,該方法將導(dǎo)致查詢圖像特征中前景部分和背景部分的可區(qū)分度較差的問(wèn)題。針對(duì)上述問(wèn)題,提出了一種新的全局引導(dǎo)器,如圖3所示。
圖3 全局引導(dǎo)器的細(xì)節(jié)結(jié)構(gòu)Fig.3 Detailed structure of global guider
2.4.1 全局余弦相似性
按照式(1),對(duì)φs進(jìn)行全局平均池化,獲得支持圖像全局分割先驗(yàn)vecs。進(jìn)一步,按照式(2),計(jì)算φq每一個(gè)空間位置與vecs的余弦距離,進(jìn)而獲得能夠表征φs與φq之間全局余弦相似度的余弦相似譜S。Si的值越高,表示當(dāng)前位置i的局部特征φq,i與vecs越相似。
式中:h為矩陣的高度維度大??;w為矩陣的寬度維度大小。
2.4.2 基于指數(shù)函數(shù)的全局相似性度量
由于S的值域?yàn)椋?1,1],本文期望對(duì)S值越高的部分進(jìn)一步增強(qiáng),對(duì)S值越低的部分進(jìn)行削弱,從而得到一個(gè)新的可以表征距離的相似譜。基于上述分析,提出一種基于指數(shù)函數(shù)的全局相似性度量方式。具體地,基于式(3),增強(qiáng)了與vecs相似的查詢圖像特征,削弱了與vecs不相似的查詢圖像特征。
式中:λ為超參數(shù)。
在實(shí)驗(yàn)中,將λ設(shè)為10、20、40,分別獲得attg1=10S、attg2=20S、attg3=40S。進(jìn)而對(duì)attg1、attg2、attg3取平均,得到如式(4)所示的attg,其表征了全局相似性度量。
基于上述原理,獲得了基于全局相似性度量的注意力譜attg,其對(duì)查詢圖像特征中與支持圖像全局分割先驗(yàn)相似的部分進(jìn)行增強(qiáng),同時(shí)對(duì)不相似的部分進(jìn)行削弱。
因此,如圖3所示,根據(jù)式(5),所提全局引導(dǎo)器可獲得前景與背景可區(qū)分度更高的查詢嵌入特征φ′q。
式中:“?”為逐元素相乘。
為了獲得更具魯棒性的φ′q,本文在訓(xùn)練階段將φ′q進(jìn)行上采樣,輸出粗糙的分割結(jié)果Φ。這里使用如式(6)所示的交叉熵?fù)p失對(duì)此過(guò)程進(jìn)行監(jiān)督。
式中:Gi,j為查詢圖像標(biāo)簽掩膜在位置(i,j)的值;Φi,j為Φ 在位置(i,j)的值。
包含豐富細(xì)節(jié)的局部線索對(duì)于目標(biāo)分割任務(wù)非常重要,而局部相似性由局部線索所刻畫。受到LTM[3]的啟發(fā),本文基于局部關(guān)系矩陣,使用局部引導(dǎo)器對(duì)每一對(duì)局部空間特征的相似性進(jìn)行建模,從而得到最終的與類別無(wú)關(guān)的注意力譜。
2.5.1 局部關(guān)系矩陣
本文對(duì)支持圖像和查詢圖像特征之間的局部相似性進(jìn)行測(cè)度。所提方法考慮類似Non-local[24]中提出的關(guān)系矩陣。給定2個(gè)特征F1和F2,其尺寸為C×H×W,度量F1和F2局部相似性的局部關(guān)系矩陣R(F1,F(xiàn)2)為
所得R(F1,F(xiàn)2)為(H×W)×(H×W)尺寸的矩陣,其中的每個(gè)元素R(F1,F(xiàn)2)i,j表征了局部特征F1,i和F2,j的余弦相似性。
本文的局部引導(dǎo)器對(duì)φ′q和φs的每一對(duì)局部特征點(diǎn)進(jìn)行比較,根據(jù)式(7)計(jì)算局部關(guān)系矩陣R=R(φ′q,φs)。
2.5.2 基于局部關(guān)系矩陣的注意力譜構(gòu)建
令Mq和Ms分別為查詢圖像和支持圖像降采樣后的掩膜。在理想情況下,式(8)成立:
在式(8)中,Mq和Ms的尺寸被調(diào)整為(H×W)×1和1×(H×W),φ′q和φs分別調(diào)整尺寸為(H×W)×C和C×(H×W)。
局部引導(dǎo)器的目標(biāo)是:根據(jù)局部相似性,構(gòu)建與類別無(wú)關(guān)的注意力譜att。由于att對(duì)φ′q中的前景部分進(jìn)行增強(qiáng),對(duì)背景部分進(jìn)行削弱,可以將其視為查詢圖像的粗糙分割結(jié)果。因此,式(8)近似為
更進(jìn)一步,將式(9)的左側(cè)替換為R,得到
顯然,Ms為行滿秩矩陣,其右逆Mr-s 可根據(jù)式(11)計(jì)算:
因此,基于式(12),得到最終的注意力譜att。最后,將att調(diào)整大小為H×W。
2.5.3 局部引導(dǎo)器實(shí)現(xiàn)流程
在訓(xùn)練階段,由于所提網(wǎng)絡(luò)的與類無(wú)關(guān)性,將所有前景類別視為“前景”一類,背景視為一類。為了獲得更具魯棒性的att,所提方法將att轉(zhuǎn)化為一個(gè)2×H×W 的概率譜ρ。具體地,由于att的值域?yàn)椋?,1],將其視為前景概率譜,則1-att可視為背景概率譜。進(jìn)而將att和1-att按通道維度拼接,獲得ρ=Concat(att,1-att),從而實(shí)現(xiàn)從注意力譜att到概率譜ρ之間的轉(zhuǎn)化。進(jìn)而使用式(13)所示的交叉熵?fù)p失對(duì)其進(jìn)行優(yōu)化。
式中:La為 該 損 失 函 數(shù);ρi,j為ρ在 位 置(i,j)的值。
本文的局部引導(dǎo)器受到LTM[3]的啟發(fā),不同之處在于:LTM[3]僅考慮局部相似性,并且對(duì)局部關(guān)系矩陣R的構(gòu)建使用L2損失函數(shù)監(jiān)督。該方法的弊端有2點(diǎn):①缺乏全局分割先驗(yàn)的引導(dǎo);②由于L2損失是逐元素計(jì)算的,缺乏結(jié)構(gòu)信息。這對(duì)測(cè)試階段新類的R的構(gòu)建是不利的,使得該方法的可擴(kuò)展性受限。本文方法在將查詢圖像特征φ′q輸入局部引導(dǎo)器時(shí),已經(jīng)濾除了大量背景,不需要對(duì)R的構(gòu)建進(jìn)行監(jiān)督,這樣使得生成的att更具魯棒性。
圖4 局部引導(dǎo)器的細(xì)節(jié)結(jié)構(gòu)Fig.4 Detailed structure of local guider
獲得注意力譜att以后,將att與F′q相乘,獲得最終的查詢圖像特征σ′q,此時(shí)已經(jīng)對(duì)其背景部分進(jìn)行了有效的濾除。所提網(wǎng)絡(luò)將σ′q輸入到上采樣網(wǎng)絡(luò)中,獲得最終的預(yù)測(cè)結(jié)果P。上采樣網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示,使用了空洞空間金字塔池化(ASPP)[14]進(jìn)行多尺度融合,使得結(jié)果更具魯棒性。使用式(14)對(duì)這個(gè)過(guò)程進(jìn)行監(jiān)督。
圖5 上采樣網(wǎng)絡(luò)架構(gòu)Fig.5 Framework of up-sample network
式中:Pi,j為P在位置(i,j)的值。
在整個(gè)訓(xùn)練階段,使用的損失函數(shù)為
在k-shot設(shè)定下,LTM[3]輸入k張支持圖像,每張支持圖像與查詢圖像建模局部關(guān)系,分別生成k個(gè)注意力譜[att1,att2,…,attk],進(jìn)而將其平均化,得到最終的注意力譜att。其弊端在于平均化的過(guò)程中丟失了部分局部線索,使得注意力譜更加粗糙。為了更好地實(shí)現(xiàn)對(duì)全局相似性和局部相似性的結(jié)合,提出一種新的基于拼接的k-shot分割方案。
所提k-shot方案優(yōu)點(diǎn)在于建模局部相似性時(shí),對(duì)查詢圖像特征與k個(gè)支持圖像特征每個(gè)點(diǎn)的余弦距離進(jìn)行測(cè)度,避免了局部信息的丟失,能夠生成更精細(xì)的注意力譜att。
為了驗(yàn)證方法的有效性,在Pascal-5i數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,使用Pytorch深度學(xué)習(xí)框架對(duì)模型構(gòu)建,所有的實(shí)驗(yàn)平臺(tái)為Nvidia Titan XP GPU,使用Adam優(yōu)化器對(duì)所提模型參數(shù)進(jìn)行優(yōu)化,學(xué)習(xí)率設(shè)置為10-4。本文使用了不同的主干網(wǎng)絡(luò)作為特征提取器驗(yàn)證性能,分別為在ImageNet[25]上預(yù)訓(xùn)練的VGG16[26]、ResNet50[27]、ResNet101[27]。在訓(xùn)練階段,凍結(jié)了特征提取器的參數(shù);在測(cè)試階段,使用了多尺度策略和Dense-CRF[28]。將 查 詢 圖 像 調(diào) 整 大 小 為320×320、416×416、224×224,對(duì)提取的多尺度特征進(jìn)行平均化,進(jìn)而進(jìn)行后續(xù)操作。
Pascal-5i是基于Pascal數(shù)據(jù)集和SBD數(shù)據(jù)集構(gòu)建的。Pascal-5i數(shù)據(jù)集中一共有20類目標(biāo),按照現(xiàn)有小樣本分割研究的常用設(shè)置,將其分成4個(gè)子集,每個(gè)子集圖像有5類目標(biāo)圖像。
數(shù)據(jù)集的劃分如表1所示。實(shí)驗(yàn)階段,采用交叉驗(yàn)證法,輪流將Fold0、Fold1、Fold2、Fold3作為測(cè)試集,另外3個(gè)子集作為訓(xùn)練集,得到4個(gè)訓(xùn)練-測(cè)試 集 為[(Fold1、Fold2、Fold3),F(xiàn)old0],[(Fold0、Fold2、Fold3),F(xiàn)old1],[(Fold0、Fold1、Fold3),F(xiàn)old2],[(Fold0、Fold1、Fold2),F(xiàn)old3]。
表1 Pascal-5i四個(gè)子集的劃分Table 1 Four subsets setting of Pascal-5i
使用了所有前景類別的平均交并比mIoU作為評(píng)價(jià)指標(biāo),這個(gè)指標(biāo)被廣泛地運(yùn)用于小樣本分割任務(wù)評(píng)價(jià)中。mIoU值越高,模型的性能越好。
同時(shí),也使用前景交并比和背景交并比的平均值FB-IoU作為參考指標(biāo)。
3.4.1 不同主干網(wǎng)絡(luò)下的對(duì)比實(shí)驗(yàn)
由于不同主干網(wǎng)絡(luò)對(duì)模型性能有較大的影響,為了保證公平性,分別使用不同的主干網(wǎng)絡(luò),和其他現(xiàn)有方法進(jìn)行對(duì)比,mIoU對(duì)比結(jié)果如表2及表3所示,表中最佳實(shí)驗(yàn)結(jié)果加粗。
表2 不同主干網(wǎng)絡(luò)下,本文與現(xiàn)有方法的1-shot對(duì)比實(shí)驗(yàn)mIoU結(jié)果Table 2 Comparative experimental results(m IoU)of proposed method and existing methods under 1-shot setting using differ ent backbone networ ks %
表3 不同主干網(wǎng)絡(luò)下,本文與現(xiàn)有方法的5-shot對(duì)比實(shí)驗(yàn)m IoU結(jié)果Table 3 Comparative experimental results(mIoU)of proposed method and existing methods under 5-shot setting using different backbone networks %
表2與表3實(shí)驗(yàn)結(jié)果表明,所提方法使用不同的主干網(wǎng)絡(luò),在1-shot設(shè)定和5-shot設(shè)定下實(shí)驗(yàn)mIoU結(jié)果均優(yōu)于現(xiàn)有方法。
同時(shí),本文進(jìn)一步在FB-IoU指標(biāo)下,與其他現(xiàn)有方法進(jìn)行對(duì)比。表4和表5分別列出了在1-shot和5-shot設(shè)定下,所提方法與其他現(xiàn)有方法的FB-IoU對(duì)比實(shí)驗(yàn)結(jié)果,表中最佳實(shí)驗(yàn)結(jié)果加粗。由表4可以看出,所提方法使用不同的主干網(wǎng)絡(luò),在1-shot設(shè)定下結(jié)果均優(yōu)于現(xiàn)有方法。表5的5-shot實(shí)驗(yàn)結(jié)果也充分說(shuō)明了所提方法的有效性。
表4 不同主干網(wǎng)絡(luò)下,本文與現(xiàn)有方法的1-shot對(duì)比實(shí)驗(yàn)FB-IoU結(jié)果Table 4 Comparative experimental results(FB-IoU)of proposed method and existing methods under 1-shot setting using different backbone networks %
表5 不同主干網(wǎng)絡(luò)下,本文與現(xiàn)有方法的5-shot對(duì)比實(shí)驗(yàn)FB-IoU結(jié)果Table 5 Comparative experimental results(FB-IoU)of proposed method and existing methods under 5-shot setting using different backbone networks %
3.4.2 全局相似性度量對(duì)比實(shí)驗(yàn)
為了驗(yàn)證所提出的全局相似性度量方式的有效性,進(jìn)一步將模型中全局相似性度量方式替換為余弦距離(SG-One[1]中提出)和通道維度拼接的方式(CANet[2]中提出)。并且為了消除局部引導(dǎo)器對(duì)實(shí)驗(yàn)結(jié)果的影響,本節(jié)實(shí)驗(yàn)僅僅保留全局相似性建模,即僅保留了全局引導(dǎo)器。本節(jié)使用ResNet50作為主干網(wǎng)絡(luò),對(duì)3種全局相似性度量方式進(jìn)行了對(duì)比,mIoU結(jié)果如表6所示,表中最佳實(shí)驗(yàn)結(jié)果加粗??梢钥闯觯?所示實(shí)驗(yàn)結(jié)果證明了本文提出的全局相似性度量方式的有效性。
表6 全局相似性度量方式的對(duì)比實(shí)驗(yàn)m IoU結(jié)果Table 6 Comparative experimental results(mIoU)of global similarity metric %
3.4.3 k-shot設(shè)定下的對(duì)比實(shí)驗(yàn)
為驗(yàn)證本文k-shot設(shè)定方案的有效性,在5-shot設(shè)定下,對(duì)方法LTM[3]中平均化注意力譜的方式和所提k-shot方案進(jìn)行對(duì)比,對(duì)比實(shí)驗(yàn)mIoU結(jié)果如表7所示,表中最佳實(shí)驗(yàn)結(jié)果加粗。表7所示實(shí)驗(yàn)結(jié)果證明了所提k-shot方案的有效性。
表7 5-shot設(shè)定方案對(duì)比實(shí)驗(yàn)mIoU結(jié)果Table 7 Comparative experimental results(mIoU)under 5-shot setting %
3.5.1 全局引導(dǎo)器和局部引導(dǎo)器的消去實(shí)驗(yàn)
本文提出了2個(gè)級(jí)聯(lián)的模塊:全局引導(dǎo)器和局部引導(dǎo)器。為了驗(yàn)證這2個(gè)模塊的有效性,在1-shot和5-shot設(shè)定下,使用ResNet50作為主干網(wǎng)絡(luò),進(jìn)行了消去實(shí)驗(yàn)。實(shí)驗(yàn)測(cè)得mIoU結(jié)果如表8所示,表中最佳實(shí)驗(yàn)結(jié)果加粗。
從表8可以看出,當(dāng)單獨(dú)使用全局引導(dǎo)器時(shí),模型效果最差,這是因?yàn)閮H使用全局引導(dǎo)器時(shí),缺少了局部細(xì)節(jié)的刻畫。單獨(dú)使用局部引導(dǎo)器時(shí),模型性能略有提升,其原因是局部細(xì)節(jié)的刻畫更加豐富,不足之處在于缺少全局信息的引導(dǎo)。當(dāng)同時(shí)使用全局引導(dǎo)器和局部引導(dǎo)器時(shí),模型的性能較好,此時(shí)模型已經(jīng)充分結(jié)合了全局相似性和局部相似性。
表8 全局引導(dǎo)器和局部引導(dǎo)器的消去實(shí)驗(yàn)mIoU結(jié)果Table 8 Ablation exper imental results(mIoU)of global guider and local guider %
3.5.2 損失函數(shù)的消去實(shí)驗(yàn)
所提方法使用的損失函數(shù)L包含3項(xiàng):Lseg、La和Lseg0,Lseg為整體損失函數(shù)的核心,用于監(jiān)督最終預(yù)測(cè)結(jié)果的生成。因此,實(shí)驗(yàn)中始終保持Lseg,對(duì)其余2項(xiàng)進(jìn)行消去實(shí)驗(yàn)。使用ResNet50作為主干網(wǎng)絡(luò),在1-shot和5-shot設(shè)定下,進(jìn)行本節(jié)的消去實(shí)驗(yàn),實(shí)驗(yàn)的mIoU結(jié)果如表9所示,表中最佳實(shí)驗(yàn)結(jié)果加粗。
可知,當(dāng)本文同時(shí)使用3項(xiàng)損失函數(shù)時(shí),所提模型性能較好。
表9 損失函數(shù)的消去實(shí)驗(yàn)mIoU結(jié)果Table 9 Ablation experimental result(mIoU)of loss function %
3.6.1 分割效果較好的可視化結(jié)果
進(jìn)一步列出了部分高質(zhì)量的分割結(jié)果,如圖6所示??芍?,由于結(jié)合了全局和局部線索,本文方法對(duì)輪廓的刻畫較為精細(xì)。
圖6 部分分割效果較好的可視化結(jié)果Fig.6 Some visualized high-quality segmentation results
3.6.2 分割效果較差的可視化結(jié)果
對(duì)于分割效果較差的圖片,也進(jìn)一步展示了部分典型代表,并且對(duì)其分割失敗原因進(jìn)行分析。部分分割效果較差的可視化結(jié)果如圖7所示。
對(duì)于第1行可視化結(jié)果,由于查詢圖像的目標(biāo)存在遮擋,且查詢圖像與支持圖像外表差異較大,所提方法對(duì)其不能很好地進(jìn)行分割。對(duì)于第2、3行可視化結(jié)果,查詢圖像中含有貓、狗2類目標(biāo),由于貓和狗的類間差異較小,所提網(wǎng)絡(luò)將其視為一類目標(biāo)進(jìn)行分割。這是小樣本分割的難點(diǎn),也是將來(lái)進(jìn)一步研究的重點(diǎn)。
圖7 部分分割效果較差的可視化結(jié)果Fig.7 Some visualized low-quality segmentation results
本文提出了一種新的小樣本分割模型,在構(gòu)建注意力譜時(shí),有效地結(jié)合全局相似性和局部相似性。該注意力譜生成器包含2個(gè)級(jí)聯(lián)的模塊:全局引導(dǎo)器和局部引導(dǎo)器。全局引導(dǎo)器用于建模特征間的全局相似性,局部引導(dǎo)器用于建模特征間的局部相似性。具體來(lái)說(shuō),在全局引導(dǎo)器中,提出了一種新的全局相似性度量,對(duì)查詢圖像特征和支持圖像全局分割先驗(yàn)進(jìn)行關(guān)系建模,更有效地輸出前景增強(qiáng)、背景削弱的查詢圖像特征。進(jìn)一步通過(guò)引入基于局部關(guān)系矩陣的局部引導(dǎo)器,所提方法對(duì)支持圖像特征和查詢圖像局部特征之間的相似性進(jìn)行建模,最后得到與類別無(wú)關(guān)的注意力譜。Pascal-5i數(shù)據(jù)集的實(shí)驗(yàn)驗(yàn)證了所提方法的有效性。