蘇常保,龔世才
基于深度學(xué)習(xí)的人物肖像全自動(dòng)摳圖算法
蘇常保,龔世才
(浙江科技學(xué)院理學(xué)院,浙江 杭州 310000)
針對(duì)摳圖任務(wù)中人物摳圖完整度低、邊緣不夠精細(xì)化等繁瑣問題,提出了一種基于深度學(xué)習(xí)的人物肖像全自動(dòng)摳圖算法。算法采用三分支網(wǎng)絡(luò)進(jìn)行學(xué)習(xí),語義分割分支(SSB)學(xué)習(xí)圖的語義信息,細(xì)節(jié)分支(DB)學(xué)習(xí)圖的細(xì)節(jié)信息,混合分支(COM)將2個(gè)分支的學(xué)習(xí)結(jié)果匯總。首先算法的編碼網(wǎng)絡(luò)采用輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)(CNN) MobileNetV2,以加速算法的特征提取過程;其次在SSB中加入注意力機(jī)制對(duì)圖像特征通道重要性進(jìn)行加權(quán),在DB加入空洞空間金字塔池化(ASPP)模塊,對(duì)圖像的不同感受野所提取的特征進(jìn)行多尺度融合;然后解碼網(wǎng)絡(luò)的2個(gè)分支通過跳級(jí)連接融合不同階段編碼網(wǎng)絡(luò)提取到的特征進(jìn)行解碼;最后將2個(gè)分支學(xué)習(xí)的特征融合在一起得到圖像的圖。實(shí)驗(yàn)結(jié)果表明,該算法在公開的數(shù)據(jù)集上摳圖效果優(yōu)于所對(duì)比的基于深度學(xué)習(xí)的半自動(dòng)和全自動(dòng)摳圖算法,在實(shí)時(shí)流視頻摳圖的效果優(yōu)于Modnet。
全自動(dòng)摳圖;輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò);注意力機(jī)制;空洞空間金字塔池化;特征融合
摳圖算法研究的是如何將一張圖像中的前景和背景信息分離的問題,如何實(shí)現(xiàn)高質(zhì)量又無需人工交互的摳圖一直是工業(yè)界和學(xué)術(shù)界努力追求的目標(biāo)。1984年P(guān)ORTER和DUFF[1]提出了這類問題的數(shù)學(xué)模型
其中,為一張自然圖像;為圖像中的前景,為背景;為圖像的半透明度,其是前景和背景信息的線性混合表示方法。的取值通常介于0和1之間,0為像素點(diǎn)明確屬于背景,1為前景,而大多數(shù)的自然圖像,其像素點(diǎn)均屬于明確的前景或背景,但是對(duì)于圖像前景的邊緣,對(duì)應(yīng)的值通常介于0和1之間。所以對(duì)于摳圖來說,只要求解出,就可以用原始圖像與線性組合得出摳圖的區(qū)域,但準(zhǔn)確估計(jì)的取值卻是一個(gè)非常重要且困難的問題。
傳統(tǒng)摳圖算法通常只考慮圖像的低層級(jí)特征,例如顏色等。一般分為抽樣[2-4]和傳播[5-6]2類算法,但是面對(duì)復(fù)雜的場景圖像,這些算法的摳圖效果通常不盡人意。隨著近些年深度學(xué)習(xí)的快速發(fā)展,許多研究人員提出了基于深度學(xué)習(xí)的摳圖算法,使得這一問題有了很大的進(jìn)步。但是現(xiàn)在大多數(shù)基于深度學(xué)習(xí)的摳圖算法[7-12]均需要人為進(jìn)行交互。即以自然圖像和根據(jù)圖制作的三區(qū)圖(trimap)作為算法的輸入,預(yù)先為需要摳圖的圖像提供先決的約束條件,摳圖的質(zhì)量雖然很高,但效率大打折扣,因?yàn)閠rimap的制作通常耗時(shí)又耗力。為了解決此問題,大量學(xué)者研究無需輸入trimap的全自動(dòng)摳圖算法。SENGUPTA等[13]的BackgroundMatting算法使用圖像的背景替代trimap和圖像同時(shí)輸入算法進(jìn)行摳圖,達(dá)到了很好的效果;LIU等[14]使用前景粗略標(biāo)注改進(jìn)摳圖效果,在主流的語義分割數(shù)據(jù)集上實(shí)驗(yàn),發(fā)現(xiàn)對(duì)語義分割標(biāo)簽的標(biāo)注精度提高明顯;QIAO等[15]提出注意力機(jī)制引導(dǎo)的層級(jí)結(jié)構(gòu)融合的圖像摳圖算法,摳圖精度較高,在自動(dòng)摳圖領(lǐng)域中取得了突破性的進(jìn)展;KE等[16]提出了MODNET算法,為實(shí)時(shí)視頻摳圖邁進(jìn)了一大步。
目前學(xué)術(shù)界公開的摳圖數(shù)據(jù)集并不多,已經(jīng)開源的數(shù)據(jù)集中具有較高質(zhì)量圖的有Adobe[8],Distinctions-646 (DT-646)[15]和RealWorldPortrait- 636 (RW-636)[17],其中Adobe和DT-646數(shù)據(jù)集包含的人物肖像比較少。為了擴(kuò)充前景的數(shù)量,本文使用PhotoShop摳圖工具標(biāo)注了640張只有人物肖像的前景圖,圖1為部分前景圖及其圖。
圖1 人工標(biāo)注a圖((a)前景圖和a圖示例1;(b)前景圖和a圖示例2))
Trimap是一個(gè)粗略的圖,將其劃分為前景區(qū)域、背景區(qū)域和未知區(qū)域3部分。通過trimap的引導(dǎo),讓摳圖任務(wù)主要專注于確定未知區(qū)域中的值,進(jìn)而將摳圖任務(wù)變得相對(duì)簡單。
本文的全自動(dòng)摳圖算法不需要事先加入trimap圖,但需要模型自動(dòng)獲取trimap的信息,而為模型制作其標(biāo)簽。本文trimap無需手繪,可通過圖像的圖膨脹腐蝕得到,其中膨脹腐蝕的卷積核尺寸均設(shè)置為10×10。膨脹腐蝕后的trimap中像素值分別為0,128和255。其中,明確屬于背景是黑色,像素點(diǎn)的值為0;明確屬于前景是白色,像素點(diǎn)的值為255;而未知區(qū)域是灰色,像素點(diǎn)的值為128。其trimap的生成過程如圖2所示。
圖2 Trimap生成過程
根據(jù)圖2,首先對(duì)圖分別進(jìn)行腐蝕和膨脹操作,然后將腐蝕和膨脹的結(jié)果相減得到灰色的未知區(qū)域,最后將灰色未知區(qū)域和腐蝕的圖像相加得到最終的trimap圖。
為了擴(kuò)充數(shù)據(jù)集前景的數(shù)目,增加模型的泛化能力。本文使用了Adobe,DT-646和RW-636等數(shù)據(jù)集的人物肖像圖和自制的640張數(shù)據(jù)集。一共1 800張前景圖像,然后將每張前景圖像分別和20張不同的背景圖像進(jìn)行合成,本文使用的背景圖像是公開的BG-20K數(shù)據(jù)集[18]。合成規(guī)則遵循式(1)進(jìn)行,最終合成了36 000張圖像,訓(xùn)練集使用35 000張圖像,驗(yàn)證集使用1 000張圖像,每個(gè)數(shù)據(jù)集部分合成圖如圖3所示。
圖3 部分合成訓(xùn)練集圖像
本文摳圖網(wǎng)絡(luò)結(jié)構(gòu)分為編碼網(wǎng)絡(luò)、過渡網(wǎng)絡(luò)、解碼網(wǎng)絡(luò)3部分,如圖4所示。編碼網(wǎng)絡(luò)采用的是輕量級(jí)網(wǎng)絡(luò)MobilenetV2[19],過渡網(wǎng)絡(luò)由注意力機(jī)制模塊和空洞空間金字塔(atrous spatial pyramid pooling,ASPP)模塊組成,解碼網(wǎng)絡(luò)由3個(gè)網(wǎng)絡(luò)分支構(gòu)成:①對(duì)圖像的前景、背景、未知區(qū)域進(jìn)行分類學(xué)習(xí),即語義分割分支(semantic segmentation branch,SSB);②對(duì)圖像邊緣細(xì)節(jié)信息學(xué)習(xí),即細(xì)節(jié)分支(detail branch,DB);③將前面2部分學(xué)習(xí)到的圖進(jìn)行匯總,即混合分支(combination branch,COM)。根據(jù)MobilenetV2的特征提取尺寸的變化過程,共將MobilenetV2的特征提取分為5個(gè)部分,分別用1,2,···,5表示,即圖4中的Encoder模塊。過渡網(wǎng)絡(luò)由2個(gè)模塊構(gòu)成,即圖4中的SENet[20](SE)和ASPP模塊。
圖4 本文算法網(wǎng)絡(luò)結(jié)構(gòu)
在計(jì)算機(jī)視覺任務(wù)中,對(duì)圖像語義信息的理解至關(guān)重要。語義信息是指一張圖像所包含的內(nèi)容,而摳圖任務(wù)中的語義信息可看作這幅圖像中的前景和背景。在摳圖任務(wù)中,語義信息直接決定了摳圖的整體效果。
2.2.1 注意力機(jī)制
本文算法在SSB網(wǎng)絡(luò)中加入了注意力機(jī)制SE模塊。SE模塊源于SENet,可以嵌到其他分類或檢測模型當(dāng)中,目的是在模型關(guān)注圖像特征通道的同時(shí)可以自動(dòng)學(xué)習(xí)到不同通道的重要性,有利于模型處理分類問題。
SE模塊的網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。給定一個(gè)輸入,其特征通道數(shù)為,首先對(duì)進(jìn)行Squeeze操作,將每個(gè)二維的特征通道變成一個(gè)實(shí)數(shù),某種程度上這個(gè)實(shí)數(shù)應(yīng)該具有全局的感受野,所以本文使用全局池化操作。其次通過Excitation操作壓縮后的1×1×的特征生成權(quán)重,本文使用2個(gè)全連接層,1個(gè)激活層,其中激活層放在2個(gè)全連接層的中間。最后對(duì)特征的通道進(jìn)行加權(quán)操作,通過乘法操作,將Excitation操作生成的權(quán)重逐通道加權(quán)到特征上,完成對(duì)特征的通道注意力標(biāo)定。
圖5 SE模塊網(wǎng)絡(luò)結(jié)構(gòu)[20]
2.2.2 語義分割分支網(wǎng)絡(luò)結(jié)構(gòu)
SSB網(wǎng)絡(luò)是基于分類思想設(shè)計(jì)的,該分支網(wǎng)絡(luò)的主要任務(wù)是將一張圖像的背景、前景、以及背景和前景交叉的未知區(qū)域分離開,其分支共設(shè)置了11個(gè)卷積層,每個(gè)卷積層后均接著歸一化層和激活層,其中最后一層卷積層使用的是softmax激活函數(shù),主要是便于計(jì)算像素點(diǎn)的交叉熵?fù)p失。
SSB首先將編碼特征5經(jīng)過注意力機(jī)制模塊,進(jìn)行通道重要性加權(quán),然后將編碼網(wǎng)絡(luò)的前4個(gè)階段的特征1~4分別與解碼網(wǎng)絡(luò)的不同階段進(jìn)行concat特征融合。然后通過SSB網(wǎng)絡(luò)卷積和上采樣操作,最終輸出一個(gè)具有三通道的特征圖,每一個(gè)特征圖分別代表一個(gè)類別。
2.2.3 語義分割分支損失函數(shù)
由于SSB的預(yù)測其實(shí)是在做一個(gè)三分類的問題,分別是預(yù)測圖像的背景、前景和未知區(qū)域,所以SSB以trimap作為標(biāo)簽,主要學(xué)習(xí)trimap的信息,故采用交叉損失熵作為SSB的損失函數(shù),即
2.3.1 空洞空間金字塔池化
空間金字塔池化(spatial pyramid pooling,SPP)可以在多個(gè)范圍內(nèi)捕捉上下文信息。為了獲得更大尺度的上下文信息,DeepLabv V2[21]提出了ASPP,使用不同采樣率的并行空洞卷積層捕獲多尺度信息。本文算法在DB加入ASPP,主要目的是通過擴(kuò)大卷積核的感受野,引導(dǎo)模型聚合不同感受野的特征,使得位于未知區(qū)域的值可以有效地聯(lián)系前景和背景信息,從而實(shí)現(xiàn)更加精準(zhǔn)的預(yù)測。
本文的ASPP架構(gòu)是基于Deeplabv3+[22]進(jìn)行改進(jìn)的。ASPP模塊中共設(shè)置了6個(gè)卷積層,其中卷積核尺寸設(shè)置為1×1和3×3,3×3尺寸的卷積核空洞率分別設(shè)置為1,2,4,8。如圖6所示,ASPP網(wǎng)絡(luò)模塊中前5個(gè)卷積層是對(duì)編碼網(wǎng)絡(luò)的特征圖5分別進(jìn)行卷積操作,最后一個(gè)卷積層采用1×1卷積核對(duì)前5個(gè)卷積層的輸出特征圖concat后進(jìn)行通道壓縮獲得最終的輸出。
圖6 ASPP模塊網(wǎng)絡(luò)結(jié)構(gòu)
2.3.2 細(xì)節(jié)分支網(wǎng)絡(luò)結(jié)構(gòu)
DB采用特征融合的思想進(jìn)行設(shè)計(jì),共設(shè)置了12個(gè)卷積層,每個(gè)卷積層后均接歸一化層和激活層,其中最后一個(gè)卷積層的激活函數(shù)采用的是sigmoid,主要是將預(yù)測值控制到0和1之間。
DB網(wǎng)絡(luò)首先將編碼特征5經(jīng)過ASPP結(jié)構(gòu)提取圖像的多尺度信息,然后采用高層語義與低層語義信息特征融合的方式進(jìn)行解碼操作,特征融合的具體方式和SSB的一樣。最終通過DB解碼階段的上采樣和卷積操作,對(duì)圖的細(xì)節(jié)信息進(jìn)行學(xué)習(xí)。
2.3.3 損失函數(shù)
由于DB主要預(yù)測的是圖像的邊緣細(xì)節(jié)信息,所以損失函數(shù)也主要約束未知區(qū)域,這樣對(duì)于確定屬于前景和背景的預(yù)測可能不準(zhǔn)確,但是對(duì)確定屬于前景和背景的部分本文認(rèn)為SSB已經(jīng)學(xué)習(xí)到了。本文DB采用smoothL1損失函數(shù),即
2.4.1 混合分支網(wǎng)絡(luò)結(jié)構(gòu)
COM主要是預(yù)測最終的圖,共設(shè)置了2個(gè)卷積層,最后一層采用sigmoid激活函數(shù),目的是將預(yù)測的值直接控制在0和1之間。
COM將SSB和DB的特征進(jìn)行融合,其融合特征分別來自各個(gè)分支的最后一個(gè)卷積層的結(jié)果,將2個(gè)特征圖的通道進(jìn)行concat操作,最終輸出單通道的圖。
2.4.2 混合分支損失函數(shù)
COM的損失函數(shù)分為預(yù)測出的圖和合成圖損失2部分,均采用L1損失函數(shù),其數(shù)學(xué)模型為
其中,為預(yù)測值;為真實(shí)值;L來自于文獻(xiàn)[8],表示用預(yù)測出的圖合成圖像和真實(shí)圖像的損失。
本文算法最終通過3個(gè)分支的損失函數(shù)總和進(jìn)行端到端的訓(xùn)練,即
其中,,,為3個(gè)超參數(shù),用來平衡3個(gè)分支的損失,本文設(shè)置==1,=10。
為了提高模型的泛化性能,數(shù)據(jù)集預(yù)處理時(shí)做了圖像隨機(jī)裁剪和隨機(jī)翻轉(zhuǎn)操作。本文采用python語言編寫,基于pytorch框架,在一塊GeForce RTX 2080 11 G GPU進(jìn)行訓(xùn)練。實(shí)驗(yàn)訓(xùn)練圖像的尺寸為320×320,batchsize設(shè)置為8,初始學(xué)習(xí)率為0.01,每迭代10次學(xué)習(xí)率下降為原來的1/10,選擇SGD優(yōu)化器進(jìn)行梯度下降優(yōu)化參數(shù),最終實(shí)驗(yàn)共迭代了20次。
為了比較本文算法的有效性,本文分別采用基于深度學(xué)習(xí)的半自動(dòng)DIM[8]、全自動(dòng)LFM[23]和全自動(dòng)Modnet[16]3種基于深度學(xué)習(xí)的摳圖算法,在驗(yàn)證集1 000張合成圖上做對(duì)比。圖7是幾種算法在驗(yàn)證集-1k上的摳圖效果。
圖7 幾種方法在驗(yàn)證集-1k上的摳圖結(jié)果((a)原圖像和不同算法的摳圖效果1;(b)原圖像和不同算法的摳圖效果2;(c)原圖像和不同算法的摳圖效果3)
圖7分別展示了原圖和幾種方法的摳圖結(jié)果以及人工標(biāo)注的圖(GroundTruth(GT))。直觀上看,基于深度學(xué)習(xí)的半自動(dòng)摳圖算法DIM對(duì)于圖像的整體部分摳圖結(jié)果雖然較為完整,但是細(xì)節(jié)部分還是有所欠缺,主要是因?yàn)榘胱詣?dòng)算法trimap的制作直接影響了圖像的邊緣效果?;谏疃葘W(xué)習(xí)的全自動(dòng)的摳圖算法LFM和Modnet對(duì)于圖像的細(xì)節(jié)部分摳圖效果雖然有所提升,但是沒有trimap作為輔助輸入,圖像的語義部分摳圖效果并不完整。相比之下,本文算法(Ours)在圖像的語義部分更加完整,細(xì)節(jié)部分摳圖效果更加精細(xì),更接近GT。
為了定量分析4種方法在驗(yàn)證集上的摳圖質(zhì)量,本文采用摳圖算法中常用的2個(gè)評(píng)價(jià)指標(biāo)平均絕對(duì)誤差[16](mean absolute error,MAD)和平均方誤差[24](mean squared error,MSE),即
本文在相同的實(shí)驗(yàn)環(huán)境下,對(duì)4種算法在驗(yàn)證集-1k的合成圖的預(yù)測結(jié)果做了MAD和MSE的計(jì)算,見表1。
表1 4種算法在驗(yàn)證集-1k的誤差值
由表1可看出,本文算法對(duì)于MAD和MSE的值均最小,客觀上證明了本文算法的有效性。
為了驗(yàn)證本文算法在自然圖像上的摳圖效果,本文又對(duì)2k網(wǎng)絡(luò)攝像頭的實(shí)時(shí)捕捉畫面進(jìn)行摳圖。實(shí)驗(yàn)設(shè)備均采用GeForce RTX 2080顯卡,將實(shí)時(shí)畫面均裁剪為320×320大小,其原視頻幀畫面和摳圖畫面如圖8所示。
由于實(shí)時(shí)流視頻摳圖對(duì)算法的實(shí)時(shí)性要求較高,所以本文只對(duì)比了Modnet摳圖算法,如圖8所示,本文對(duì)于自然圖像下的實(shí)時(shí)摳圖,泛化性依然很魯棒,人物摳圖相對(duì)較為完整,明顯優(yōu)于Modnet算法。經(jīng)測試,本文采用分辨率為320×320的實(shí)時(shí)流圖像,摳圖速度為每秒25幀以上。
圖8 2種方法實(shí)時(shí)流視頻摳圖結(jié)果((a)原視頻幀畫面和不同算法的摳圖效果1;(b)原視頻幀畫面和不同算法的摳圖效果2)
本文針對(duì)目前主流摳圖算法存在的自然圖像摳圖精度較低、摳圖任務(wù)繁瑣等問題,提出了一種基于深度學(xué)習(xí)的人物肖像全自動(dòng)摳圖算法。①首先采用2個(gè)單獨(dú)的分支網(wǎng)絡(luò)分別對(duì)摳圖的語義信息和細(xì)節(jié)信息進(jìn)行學(xué)習(xí),然后將二者學(xué)習(xí)的圖信息匯總,并用總的損失函數(shù)進(jìn)行約束,實(shí)現(xiàn)了端到端的全自動(dòng)摳圖算法;②采用輕量級(jí)網(wǎng)絡(luò)進(jìn)行特征提取,實(shí)現(xiàn)了高效率摳圖;③為了實(shí)現(xiàn)高質(zhì)量的摳圖效果,網(wǎng)絡(luò)中加入注意力機(jī)制和ASPP結(jié)構(gòu)。在合成數(shù)據(jù)集上的實(shí)驗(yàn)證明了摳圖效果有所提升。此外,本文算法還支持實(shí)時(shí)流視頻摳圖,由于實(shí)際場景的變化,摳圖效果可能有所不同。
[1] PORTER T, DUFF T. Compositing digital images[C]//The 11th Annual Conference On Computer Graphics And Interactive Techniques - SIGGRAPH ’84. New York: ACM Press, 1984: 253-259.
[2] FENG X X, LIANG X H, ZHANG Z L. A cluster sampling method for image matting via sparse coding[M]//Computer Vision – ECCV 2016. Cham: Springer International Publishing, 2016: 204-219.
[3] JOHNSON J, VARNOUSFADERANI E S, CHOLAKKAL H, et al. Sparse coding for alpha matting[J]. IEEE Transactions on Image Processing, 2016, 25(7): 3032-3043.
[4] KARACAN L, ERDEM A, ERDEM E. Image matting with KL-divergence based sparse sampling[C]//2015 IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 424-432.
[5] AKSOY Y, AYDIN T O, POLLEFEYS M. Designing effective inter-pixel information flow for natural image matting[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 228-236.
[6] AKSOY Y, OH T H, PARIS S, et al. Semantic soft segmentation[J]. ACM Transactions on Graphics, 2018, 37(4): 1-13.
[7] CHO D, TAI Y W, KWEON I. Natural image matting using deep convolutional neural networks[M]//Computer Vision – ECCV 2016. Cham: Springer International Publishing, 2016: 626-643.
[8] XU N, PRICE B, COHEN S, et al. Deep image matting[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 311-320.
[9] LUTZ S, AMPLIANITIS K, SMOLIC A. Alphagan: generative adversarialnetworks for natural image matting[EB/OL]. (2018-07-26) [2021-09-19]. https://arxiv.org/pdf/1807.10088.pdf.
[10] LU H, DAI Y T, SHEN C H, et al. Indices matter: learning to index for deep image matting[C]//2019 IEEE/CVF International Conference on Computer Vision. New York: IEEE Press, 2019: 3265-3274.
[11] TANG J W, AKSOY Y, OZTIRELI C, et al. Learning-based sampling for natural image matting[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 3050-3058.
[12] LI Y Y, LU H T. Natural image matting via guided contextual attention[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7): 11450-11457.
[13] SENGUPTA S, JAYARAM V, CURLESS B, et al. Background matting: the world is your green screen[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 2288-2297.
[14] LIU J L, YAO Y, HOU W D, et al. Boosting semantic human matting with coarse annotations[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 8560-8569.
[15] QIAO Y, LIU Y H, YANG X, et al. Attention-guided hierarchical structure aggregation for image matting[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 13673-13682.
[16] KE Z H, LI K C, ZHOU Y R, et al. Is a green screen really necessary for real-time portrait matting?[EB/OL]. (2020-11-29) [2021-09-19]. https://arxiv.org/abs/2011.11961.
[17] YU Q H, ZHANG J M, ZHANG H, et al. Mask guided matting via progressive refinement network[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2021: 1154-1163.
[18] LI J, ZHANG J, MAYBANK S J, et al. Bridging composite and real: towards end-to-end deep image matting[EB/OL]. (2020-10-30) [2021-09-19]. https://arxiv.org/abs/2010.16188.
[19] SANDLER M, HOWARD A, ZHU M L, et al. MobileNetV2: inverted residuals and linear bottlenecks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 4510-4520.
[20] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 7132-7141.
[21] CHEN L C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation[EB/OL]. (2017-12-05) [2021-09-19]. https://arxiv.org/abs/1706.05587.
[22] CHEN L C, ZHU Y K, PAPANDREOU G, et al. Encoder- decoder with atrous separable convolution for semantic image segmentation[M]//Computer Vision – ECCV 2018. Cham: Springer International Publishing, 2018: 833-851.
[23] ZHANG Y K, GONG L X, FAN L B, et al. A late fusion CNN for digital matting[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 7461-7470.
[24] RHEMANN C, ROTHER C, WANG J, et al. A perceptually motivated online benchmark for image matting[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2009: 1826-1833.
Fully automatic matting algorithm for portraits based on deep learning
SU Chang-bao, GONG Shi-cai
(School of Science, Zhejiang University of Science and Technology, Hangzhou Zhejiang 310000, China)
Aiming at the problems of low completeness of character matting, insufficiently refined edges, and cumbersome matting in matting tasks, an automatic matting algorithm for portraits based on deep learning was proposed. The algorithm employed a three-branch network for learning: the semantic information of the semantic segmentation branch (SSB) learninggraph, and the detailed information of the detail branch (DB) learninggraph. The combination branch (COM) summarized the learning results of the two branches. First, the algorithm’s coding network utilized a lightweight convolutional neural network MobileNetV2, aiming to accelerate the feature extraction process of the algorithm. Second, an attention mechanism was added to the SSB branch to weight the importance of image feature channels, the atrous spatial pyramid pooling module was added to the DB branch, and multi-scale fusion was achieved for the features extracted from the different receptive fields of the image. Then, the two branches of the decoding network merged the features extracted by the encoding network at different stages through the jump connection, thus conducting the decoding. Finally, the features learned by the two branches were fused together to obtain the imagegraph. The experimental results show that on the public data set, this algorithm can outperform the semi-automatic and fully automatic matting algorithms based on deep learning, and that the effect of real-time streaming video matting is superior to that of Modnet.
fully automatic matting; lightweight convolutional neural network; attention mechanism;atrous spatial pyramid pooling; feature fusion
TP 391
10.11996/JG.j.2095-302X.2022020247
A
2095-302X(2022)02-0247-07
2021-08-17;
2021-09-24
浙江省自然科學(xué)基金項(xiàng)目(Ly20A010005)
蘇常保(1996–),男,碩士研究生,主要研究方向?yàn)閳D像分割。E-mail:schangbao20@163.com
龔世才(1970–),男,教授,博士。主要研究方向?yàn)閳D論,復(fù)雜網(wǎng)絡(luò)等。E-mail:scgong@zafu.edu.cn
17 August,2021;
24 September,2021
Natural Science Foundation of Zhejiang Province (Ly20A010005)
SU Chang-bao (1996–), master student, His main research interest covers image segmentation. E-mail:schangbao20@163.com
GONG Shi-cai (1970–), professor, Ph.D. His main research interests cover graph theory, complex network, etc. E-mail:scgong@zafu.edu.cn