殷梓YIN Zi
(南京信息工程大學(xué),南京 210044)
近年來隨著卷積神經(jīng)網(wǎng)絡(luò)的飛速發(fā)展,基于全信息學(xué)習(xí)的語義分割網(wǎng)絡(luò)在性能上取得了顯著的提升。然而語義分割任務(wù)所需要的數(shù)據(jù)標(biāo)注往往需要耗費(fèi)大量的人力和時(shí)間成本,這成為其技術(shù)發(fā)展最主要的限制因素,弱信息語義分割方法應(yīng)運(yùn)而生,該方法只需類別標(biāo)簽的前提下完成語義分割的任務(wù)。本文設(shè)計(jì)了一個(gè)多尺度類激活圖學(xué)習(xí)機(jī)制,該機(jī)制考慮了類激活圖與特征圖之間的學(xué)習(xí)。其機(jī)制中的多尺度注意力學(xué)習(xí)算法將生成不同尺度特征圖與原尺寸類激活圖學(xué)習(xí)得到的類激活圖。同時(shí),本文還進(jìn)行了一系列的消融對(duì)比研究。實(shí)驗(yàn)結(jié)果表明,該方法在定性和定量上都優(yōu)于許多現(xiàn)有模型。總的來說,本文的主要貢獻(xiàn)可歸納如下:①提出了一種新的多尺度類激活圖學(xué)習(xí)機(jī)制(Multi-scale class activation mapping learning mechanism,MCAM),通過機(jī)制進(jìn)行多尺度類激活圖結(jié)合。②多尺度注意力學(xué)習(xí)算法(Multi-scale attention learning algorithm,MA),來提高類激活圖中對(duì)前景的挖掘能力。
本文的網(wǎng)絡(luò)模型如圖1,采用了多尺度圖片輸入,其分別是原尺寸圖片,原尺寸圖片的0.5 倍,原尺寸圖片的1.5 倍,將三種尺寸圖片輸入進(jìn)模塊1,模塊1 將得到對(duì)應(yīng)的一系列類激活圖的輸出,具體的類激活圖生成過程將在本文的下一節(jié)進(jìn)行詳細(xì)說明。
圖1 模型結(jié)構(gòu)總示意圖
特征圖與類激活圖之間存在的特征信息在弱信息語義分割任務(wù)中具有重要意義。本文將進(jìn)一步利用不同尺度下的特征圖與類激活圖的信息,故將該模塊命名為多尺度類激活圖學(xué)習(xí)機(jī)制(Multi-scale class activation mapping learning mechanism,MCAM),結(jié)構(gòu)圖如圖2 所示。Feature map(1.0х)、Feature map(0.5х)、Feature map(1.5х)分別表示原尺寸產(chǎn)生的特征圖、原尺寸0.5 倍產(chǎn)生的特征圖、原尺寸1.5 倍產(chǎn)生的特征圖。接著,利用分類網(wǎng)絡(luò)全連接層的權(quán)重以類激活圖的傳統(tǒng)始生成方式生成各尺寸特征圖對(duì)應(yīng)的類激活圖CAM(1.0х)、CAM(0.5х)、CAM(1.5х),在下分支,如圖2 中虛線框所示。將Feature map(0.5х)、Feature map(1.5х)和CAM(1.0х)作為模塊2 多尺度注意力學(xué)習(xí)算法的輸入來生成強(qiáng)化CAM*all,再將兩者結(jié)合生成CAM*all,最后通過融合算法(下文將對(duì)其算法進(jìn)行詳細(xì)說明)使CAM(1.0х)、CAM(0.5x)、CAM(1.5х)與CAM*all進(jìn)行有效結(jié)合。結(jié)合之后的結(jié)果為最終的輸出。
圖2 多尺度類激活圖學(xué)習(xí)機(jī)制
本文的模塊2 是提出的多尺度注意力學(xué)習(xí)算法(Multi-scale attention learning algorithm,MA),該模塊嵌入在模塊1 的整體框架中,用于進(jìn)行不同尺度之間的特征信息學(xué)習(xí)。如圖3 所示,多尺度注意力學(xué)習(xí)算法模塊(MA)主要是原尺寸的類激活圖結(jié)果與Feature map(1.5х)進(jìn)行結(jié)合,F(xiàn)eature map(1.5х)與CAM(1.0х)通過卷積g 學(xué)習(xí)參數(shù),卷積g為1x1 的卷積,最后經(jīng)過相乘得到CAM*all,該算法利用不同尺寸之間的信息相關(guān)性生成增強(qiáng)類激活圖,能夠更有效地挖掘前景區(qū)域。
圖3 多尺度注意力學(xué)習(xí)算法模塊結(jié)構(gòu)圖
本文的方法主要由多尺度類激活圖學(xué)習(xí)機(jī)制(MCAM),多尺度注意力學(xué)習(xí)算法(MA)組成。本文的分割網(wǎng)絡(luò)VGG-16[2]在實(shí)驗(yàn)前已經(jīng)由ImageNe 數(shù)據(jù)集進(jìn)行了預(yù)訓(xùn)練。為了探究各個(gè)模塊和算法的有效性,在本節(jié)將對(duì)模型以不同的設(shè)置條件下進(jìn)行實(shí)驗(yàn)。本節(jié)中的所有模型都是在PASCAL VOC 2012[1]數(shù)據(jù)集上進(jìn)行訓(xùn)練的,本小節(jié)均以數(shù)據(jù)集中訓(xùn)練集產(chǎn)生的類激活圖與真實(shí)標(biāo)簽來進(jìn)行質(zhì)量比較,以平均交并比(mean intersection-over-union,mIoU)指標(biāo)作為判斷準(zhǔn)繩。表1 顯示了多尺度類激活圖學(xué)習(xí)機(jī)制(MCAM)的成類激活圖CAM*all和融合之后的最終輸出在mIOU 指標(biāo)上的表現(xiàn)。從表1 可以看出得到的類激活圖CAM*all要比原始類激活圖CAM 的mIoU 提升約7%,最終輸出結(jié)果要比原始類激活圖CAM 的mIoU 提升約8.4%,這表明MCAM 對(duì)模型性能都具有一定的提升。
表1 模型各個(gè)模塊在訓(xùn)練上的性能表現(xiàn),最佳結(jié)果以粗體顯示
上一部分通過指標(biāo)驗(yàn)證了其算法能帶來性能的提升,為了進(jìn)一步證明多尺度類激活圖學(xué)習(xí)機(jī)制的有效性,本部分將針對(duì)該機(jī)制上下分支輸出結(jié)果CAM*all進(jìn)行可視化分析,CAM*all如圖4 所示,第一行是在單類別目標(biāo)圖像,CAM*all相比于CAM 能夠挖掘到更豐富的前景信息,同時(shí)對(duì)目標(biāo)的邊緣也較為敏感。第二行和第三行是相同圖片在不同類別(分別是人和飛機(jī))做出的特征反應(yīng)??梢园l(fā)現(xiàn),CAM*all挖掘到更多背景的同時(shí)把部分背景和其他不屬于此類的信息挖掘了出來,對(duì)結(jié)果帶來了一定干擾。
圖4
本文研究了不同尺度對(duì)多尺度類激活圖學(xué)習(xí)機(jī)制(MCAM)的影響并尋得最為有效的一組尺度輸入。在本文模型結(jié)構(gòu)中,默認(rèn)輸入的多尺度為{0.5,1.0,1.5}這三種尺度。本節(jié)例舉試驗(yàn)的三種配置(即{0.25,0.5,1}、{0.5,1,1.5}、{1,1.5,2}),其結(jié)果在表2 中進(jìn)行了展示。通過表中指標(biāo)可以直觀發(fā)現(xiàn),b 組{0.5,1,1.5}獲得了最好的性能55.54%。a 組組合是全部為縮小尺寸輸入其結(jié)果要比b組低1.4%,c 組是全部為放大尺寸的輸入其結(jié)果要比b 組低1.7%。
表2 不同尺度組合的性能表現(xiàn),最佳結(jié)果以粗體表示
本文提出的弱信息語義分割方法與其他最先進(jìn)的模型進(jìn)行了比較,如表3 所示包括MCOF[3]、SeeNet[4]、DSRG[5]、FickleNet[6]、CIAN[7]、EME[8]、MCIS[9]、OAA++[10]、ECS-Net[11]。
表3 與近年先進(jìn)算法的對(duì)比,最佳結(jié)果以粗體表示
為了與各個(gè)先進(jìn)算法模型進(jìn)行公正的比較,表3 中所有數(shù)據(jù)均來源公開論文的指標(biāo)。從表中可發(fā)現(xiàn),本文的方法取得了驗(yàn)證集67.8%,測(cè)試集67.7%的指標(biāo),在PASCAL VOC2012 數(shù)據(jù)集[1]的驗(yàn)證集和測(cè)試集中都優(yōu)于近年部分最先進(jìn)的方法,意味著本文的方法具有更佳的性能表現(xiàn)。
本文提出了一種新的用于弱信息語義分割任務(wù)的多尺度特征融合網(wǎng)絡(luò)算法,其算法具有高性能的判別性區(qū)域挖掘能力,并使得模型在各種情況下都具有一定的有效性。對(duì)于今后的工作,我們將改善在多類別情況下前景挖掘不夠充分的問題,并重點(diǎn)研究如何以一種更加輕量化的網(wǎng)絡(luò)來實(shí)施特征的提取,同時(shí)保持較高的精度。