摘? 要:針對(duì)虛擬試衣中特征提取不足、人物肢體被衣服遮擋的問(wèn)題,在基于圖像特征保留的虛擬試衣方法基礎(chǔ)上,提出基于并行卷積核的Attention U-Net虛擬試衣方法。該方法采用并行卷積核代替原有的3×3卷積核來(lái)提取特征,并在U-Net網(wǎng)絡(luò)中融入注意力機(jī)制形成新的Attention U-Net圖像合成器,通過(guò)不斷調(diào)整網(wǎng)絡(luò)學(xué)習(xí)參數(shù),將模型放在數(shù)據(jù)集VITON Dataset上進(jìn)行虛擬試衣實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,與原方法相比,該方法能提取出更多的細(xì)節(jié)紋理,在結(jié)構(gòu)相似性上提升了15.6%,虛擬試衣效果更好。
關(guān)鍵詞:虛擬試衣;特征提取;并行卷積核;注意力機(jī)制;結(jié)構(gòu)相似性
中圖分類號(hào):TP391.41? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
Research on Attention U-Net Virtual Try-On Method
based on Parallel Convolution Kernel
SHU Xingzhe
Abstract: Virtual try-on has problem of insufficient feature extraction in and people's limbs being covered by clothes. On the basis of the virtual try-on method with image feature retention, this paper proposes an Attention U-Net virtual try-on
method based on parallel convolution kernel. In this method, parallel convolution kernel is used to replace the original 3×3 convolution kernel to extract features, and the attention mechanism is integrated into the u-net network to form a new Attention U-Net image synthesizer. By constantly adjusting the network learning parameters, the model is placed on the data set VITON (Virtual Try-On Network) Dataset for virtual fitting experiment. Experimental results show that compared with the original method, the proposed method can extract more detailed textures, improve the structural similarity by 15.6%, and the virtual fitting effect is better.
Keywords: virtual try-on; feature extraction; parallel convolution kernel; attention mechanism; structural similarity
1? ?引言(Introduction)
隨著網(wǎng)絡(luò)的快速發(fā)展,虛擬試衣被應(yīng)用于越來(lái)越多的領(lǐng)域。虛擬試衣的目標(biāo)是用一件服裝來(lái)代替模特身上原有的服裝,合成新的虛擬試衣圖像[1]。目前已有的虛擬試衣技術(shù),如基于圖像特征保留的虛擬試衣網(wǎng)絡(luò)(Toward Characteristic-Preserving Image-based Virtual Try-On Network, CP-VTON)的測(cè)試結(jié)果中存在衣服不夠清晰、人體肢體被衣服遮擋的問(wèn)題。通過(guò)改進(jìn),可以使虛擬試衣結(jié)果更接近現(xiàn)實(shí),給用戶帶來(lái)更真實(shí)的虛擬試衣體驗(yàn)[2]。
一項(xiàng)成熟的虛擬試衣技術(shù)需使模特?fù)Q衣后的身體姿勢(shì)[3]及服裝關(guān)鍵特征得到良好保留。本文基于CP-VTON虛擬試衣方法,在特征提取階段引入并行卷積核,同時(shí)融入注意力機(jī)制,生成Attention U-Net圖像合成器用于將變形后的衣服圖像和模特圖像進(jìn)行融合,生成虛擬試衣結(jié)果。實(shí)驗(yàn)結(jié)果表明,本文改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)不僅可以改善肢體被衣服遮擋的問(wèn)題,同時(shí)也能得到更逼真、細(xì)節(jié)更豐富的虛擬試衣效果[4]。
2? ?相關(guān)工作(Related work)
在CP-VTON虛擬試衣實(shí)驗(yàn)中,由于使用的人物數(shù)據(jù)集LIP不夠干凈,存在視覺(jué)不佳、有噪聲的人物圖片,導(dǎo)致第一步中服裝基于人體變形模塊的訓(xùn)練效果不是很理想[5],存在人體肢體被衣服遮擋的情況。為了改進(jìn)這一缺陷,本文基于端到端的訓(xùn)練方式進(jìn)行了改善。一個(gè)理想的虛擬試衣結(jié)果中,不僅要把指定服裝形狀轉(zhuǎn)換成模特的體態(tài)形狀,而且要保留衣服的關(guān)鍵特征。CP-VTON虛擬試衣方法通過(guò)形狀上下文匹配算法處理空間變形,但由于CP-VTON虛擬試衣方法采用了由粗到細(xì)的策略,無(wú)法良好地保留服裝細(xì)節(jié),并且人物肢體會(huì)被衣服遮擋,這會(huì)對(duì)虛擬試衣效果產(chǎn)生一定的影響。本文研究的關(guān)鍵問(wèn)題是:其一,如何在虛擬試衣結(jié)果中保留更多的特征細(xì)節(jié),并且使得人物肢體被遮擋的情況得到改善;其二,U-Net網(wǎng)絡(luò)編解碼器結(jié)構(gòu)偏于簡(jiǎn)單,參數(shù)較少,網(wǎng)絡(luò)模型深度不足,所以在U-Net網(wǎng)絡(luò)結(jié)構(gòu)中融入有效的網(wǎng)絡(luò)模型,形成新的編解碼器對(duì)于提高網(wǎng)絡(luò)模型分割精度十分關(guān)鍵。
2.1? ?并行卷積核
本文基于CP-VTON虛擬試衣方法進(jìn)行改進(jìn),目的是在虛擬試衣圖像中良好的保留衣服特征細(xì)節(jié)以及模特形態(tài)。本文首先訓(xùn)練CP-VTON網(wǎng)絡(luò)并進(jìn)行測(cè)試,得到第一次虛擬試衣實(shí)驗(yàn)結(jié)果。在融入并行卷積核后重新訓(xùn)練,測(cè)試后得到第二次實(shí)驗(yàn)結(jié)果。最后在U-Net網(wǎng)絡(luò)中融入注意力機(jī)制形成Attention U-Net圖像生成器,再次訓(xùn)練網(wǎng)絡(luò),測(cè)試后得到第三次實(shí)驗(yàn)結(jié)果。最終將三次實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比。
本文在特征提取階段用一維非對(duì)稱卷積核替代了CP-VTON網(wǎng)絡(luò)中的3×3方形卷積核,構(gòu)造出的非對(duì)稱卷積網(wǎng)絡(luò)可以獲得更高的訓(xùn)練精度[6]。由于卷積操作的可疊加性,依靠并行卷積核來(lái)提高卷積神經(jīng)網(wǎng)絡(luò)的性能是可行的。并行卷積核分支在輸出后的求和公式如下:
(1)
式(1)中,作為輸入圖傳進(jìn)網(wǎng)絡(luò),和是具有兼容尺寸的卷積核,代表在卷積過(guò)程的對(duì)應(yīng)位置進(jìn)行求和操作。式(1)左邊首先將通過(guò)卷積核進(jìn)行卷積操作,然后將再次通過(guò)卷積核進(jìn)行卷積操作,兩者結(jié)果進(jìn)行相加。式(1)右邊和卷積核逐點(diǎn)相加后,再將進(jìn)行卷積操作,等式兩邊結(jié)果是一致的。從式(1)中可知,并行卷積核在卷積神經(jīng)網(wǎng)絡(luò)中的使用并不會(huì)增加額外的計(jì)算量。
大量的實(shí)驗(yàn)已證明,并行卷積核網(wǎng)絡(luò)的特征提取能力更強(qiáng)[7],并且在融入卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)后能有效提高網(wǎng)絡(luò)模型的性能,這依賴于橫向卷積和縱向卷積可以提升網(wǎng)絡(luò)對(duì)圖像翻轉(zhuǎn)的魯棒性。使用并行卷積核提取特征的過(guò)程如圖1所示。
CP-VTON原有網(wǎng)絡(luò)在特征提取階段使用了3×3卷積核,本文將3×3卷積核拆分成三個(gè)并行的3×3、1×3、3×1卷積核進(jìn)行訓(xùn)練,最終將這三個(gè)卷積層的計(jì)算結(jié)果進(jìn)行融合作為卷積層的輸出。
2.2? ?Attention U-Net結(jié)構(gòu)
注意力機(jī)制是在計(jì)算資源一定的情況下,把有限的計(jì)算資源更多地調(diào)整分配給相對(duì)重要的任務(wù),使得計(jì)算機(jī)能合理規(guī)劃并且處理大量信息的一種模型。U-Net網(wǎng)絡(luò)提取的低層特征中存在較多的冗余信息,注意力機(jī)制的融入可以抑制網(wǎng)絡(luò)模型學(xué)習(xí)無(wú)關(guān)任務(wù),達(dá)到抑制冗余信息被激活的目的,同時(shí)提高模型學(xué)習(xí)重要特征的能力。
在虛擬試衣領(lǐng)域,衣服和人物是全局最需要重點(diǎn)關(guān)注的區(qū)域,本文引入了注意力機(jī)制,可以對(duì)衣服和人物部分投入更多的注意力資源,聚焦于更多的細(xì)節(jié)信息,降低了對(duì)其他信息的關(guān)注,使得人物和衣服的特征更清晰地展示出來(lái),提高了虛擬試衣任務(wù)的效率和準(zhǔn)確性。
本文引入注意力機(jī)制的具體操作為加入注意力塊。注意力塊是一種可以自動(dòng)學(xué)習(xí)的模型,它可以區(qū)分目標(biāo)的外形和尺寸,并且可以有效地被整合進(jìn)標(biāo)準(zhǔn)的卷積神經(jīng)網(wǎng)絡(luò)模型中[8]。注意力塊融入卷積神經(jīng)網(wǎng)絡(luò)模型后的原理為:注意力權(quán)重與特征圖相乘,讓不相關(guān)的區(qū)域值變小,從而抑制不相關(guān)元素,而相應(yīng)目標(biāo)區(qū)域的值會(huì)變大。本文采用的注意力塊結(jié)構(gòu)連接在U-Net網(wǎng)絡(luò)模型每個(gè)跳躍連接階段的末端,使其形成Attention U-Net網(wǎng)絡(luò)結(jié)構(gòu)。Attention U-Net整體網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
在本文提出的Attention U-Net圖形合成器中,輸入圖片的尺寸為256×192,在經(jīng)過(guò)一次卷積和最大池化處理后,圖片大小減半為128×96。經(jīng)過(guò)三次卷積塊和最大池化的組合后,在網(wǎng)絡(luò)最底部得到大小為32×24的特征圖,隨后解碼器通過(guò)上采樣將特征圖的大小恢復(fù)為256×192。
本文g定義是U-Net網(wǎng)絡(luò)中解碼部分的矩陣,xl是編碼部分的矩陣,則本文注意力塊的執(zhí)行步驟為:
步驟一:對(duì)g進(jìn)行1×1卷積操作后,尺寸變?yōu)?×254×64×64;
步驟二:對(duì)xl進(jìn)行1×1卷積操作后,尺寸變?yōu)?×255×64×64;
步驟三:將步驟一和步驟二的結(jié)果相加,突出特征;
步驟四:對(duì)步驟三的結(jié)果進(jìn)行ReLU激活函數(shù)處理;
步驟五:對(duì)步驟四的結(jié)果進(jìn)行卷積操作,從256通道降為1通道,尺寸變?yōu)?×1×64×64;
步驟六:對(duì)步驟五的結(jié)果進(jìn)行Sigmoid激活函數(shù)處理,得到注意力權(quán)重值;
步驟七:將步驟六的結(jié)果與xl相乘,把注意力權(quán)重賦到高階特征中。
注意力塊執(zhí)行步驟整體公式如下:
(2)
(3)
式(2)和式(3)中,表示ReLU激活函數(shù),表示Sigmoid激活函數(shù),、、表示卷積操作,、表示對(duì)應(yīng)卷積操作的偏置項(xiàng)。
3? ?實(shí)驗(yàn)(Experiment)
3.1? ?實(shí)驗(yàn)數(shù)據(jù)
本文實(shí)驗(yàn)采用CP-VTON虛擬試衣方法所帶的數(shù)據(jù)集VITON Dataset。該數(shù)據(jù)集包含19,000 個(gè)圖像對(duì),每個(gè)圖像對(duì)都包含一張女性模特圖像和一張?jiān)撃L厣砩系姆b圖像。為保證人體圖像的多樣性,該數(shù)據(jù)集中的人物圖像包括模特正面照、側(cè)身照和背身照。在移除視覺(jué)不佳、存在明顯噪聲的圖像對(duì)之后,還剩下16,253 對(duì)干凈的圖像,這些圖像被進(jìn)一步分成14,221 對(duì)訓(xùn)練集和2,032 對(duì)驗(yàn)證集,再將驗(yàn)證集中的圖像重新排列為不成對(duì)的圖像對(duì)作為測(cè)試集。所有輸入圖像的像素都被調(diào)整到256×192,輸出圖像具有相同的分辨率。
3.2? ?實(shí)驗(yàn)網(wǎng)絡(luò)結(jié)構(gòu)
本文參考CP-VTON網(wǎng)絡(luò)結(jié)構(gòu),使用深度可分離卷積以及注意力機(jī)制模塊搭建構(gòu)造卷積神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)的第一層使用并行卷積核提取選定衣服和人物的特征。實(shí)驗(yàn)整體的網(wǎng)絡(luò)結(jié)構(gòu)由兩個(gè)模塊組成:
(1)幾何匹配模塊:結(jié)合人體特征和衣服圖片,將衣服根據(jù)人體形態(tài)進(jìn)行TPS薄板樣條變換,生成變形后的衣服圖片。
(2)試穿模塊:綜合人體特征和變形后的衣服圖片,用圖片生成器進(jìn)行圖片融合,生成虛擬試衣最終效果圖。
人物表示作為網(wǎng)絡(luò)的輸入之一,需要包含盡可能多的人物關(guān)鍵信息。包含三個(gè)部分:(1)多通道的姿態(tài)熱度圖,各通道分別代表人體姿勢(shì)及形態(tài)的關(guān)鍵點(diǎn);(2)單通道二值掩碼特征圖,用以表示身體形狀,白色表示人體除臉和頭部外的身體區(qū)域,黑色表示其他區(qū)域;(3)人體頭部區(qū)域的RGB圖像。
本文網(wǎng)絡(luò)中的幾何匹配模塊參考CP-VTON網(wǎng)絡(luò)進(jìn)行改進(jìn),由四部分組成:
(1)特征提取網(wǎng)絡(luò):它是融入并行卷積核后的特征提取網(wǎng)絡(luò)。將CP-VTON網(wǎng)絡(luò)中卷積核為3×3的卷積層替換成三個(gè)3×3、1×3、3×1的卷積層,三個(gè)卷積層的stride都為2,輸出被融合后作為原有卷積層的輸出,在訓(xùn)練階段強(qiáng)化了網(wǎng)絡(luò)的特征提取能力。
(2)匹配層:將和的兩個(gè)高維特征組合成單個(gè)張量,作為回歸網(wǎng)絡(luò)的輸入。
(3)回歸網(wǎng)絡(luò):根據(jù)匹配層輸出來(lái)預(yù)測(cè)空間變換參數(shù)。該部分包含兩個(gè)stride為2的卷積層、兩個(gè)stride為1的卷積層、一個(gè)全連接的輸出層。
(4)TPS薄板樣條變換模塊:根據(jù)第三部分所預(yù)測(cè)的轉(zhuǎn)換參數(shù),進(jìn)行TPS薄板樣條變換,生成變形后的衣服。
幾何匹配模塊使用L1范數(shù)損失函數(shù)進(jìn)行訓(xùn)練,其網(wǎng)絡(luò)流程圖如圖3所示。
幾何匹配模塊的輸入是人物表示和選定衣服圖片。網(wǎng)絡(luò)提取完和的高級(jí)特征后,在匹配層將它們組合到一起。幾何匹配模塊的輸出是選定衣服根據(jù)人體形態(tài)變形后的衣服。
本文網(wǎng)絡(luò)中的試穿模塊參考CP-VTON網(wǎng)絡(luò)進(jìn)行改進(jìn),輸入是給定的人物表示與幾何匹配模塊的結(jié)果,輸出是最終的虛擬試衣結(jié)果,試穿模塊的網(wǎng)絡(luò)流程圖如圖4所示。
在試穿模塊中,人物表示與變形后的衣服作為輸入傳到Attention U-Net圖像合成器中,經(jīng)過(guò)編碼和解碼操作得到粗糙的合成圖像,并得到衣服的合成掩膜,然后使用將和融合在一起,得到最終的虛擬試衣結(jié)果,具體實(shí)現(xiàn)方法參考以下公式:
(4)
式中,為element-wise矩陣乘法,表示相對(duì)應(yīng)的元素逐個(gè)相乘。
4? ?實(shí)驗(yàn)結(jié)果(Experimental results)
4.1? ?直觀對(duì)比
本文實(shí)驗(yàn)采用CP-VTON虛擬試衣方法所帶的數(shù)據(jù)集VITON Dataset。本文將虛擬試衣結(jié)果與CP-VTON虛擬試衣結(jié)果進(jìn)行視覺(jué)直觀對(duì)比,其中Result 1為CP-VTON虛擬試衣結(jié)果,Result 2為本文實(shí)驗(yàn)得到的最終虛擬試衣結(jié)果,對(duì)比結(jié)果如圖5所示。
圖5中,第一列為所選模特,第二列為選定衣服。從虛擬試衣對(duì)比圖中可以看出,本文方法相較于CP-VTON虛擬試衣方法,細(xì)節(jié)還原度更精細(xì),面料感官更逼真,對(duì)人體肢體被衣服遮擋的情況也有了一定的改善。
4.2? ?SSIM結(jié)構(gòu)相似性
除了在視覺(jué)效果上進(jìn)行比較,還需要用有效的實(shí)驗(yàn)數(shù)據(jù)對(duì)比來(lái)評(píng)價(jià)實(shí)驗(yàn)的好壞。為了使虛擬試衣結(jié)果與模特原服裝一致,從而進(jìn)一步進(jìn)行結(jié)構(gòu)相似性的定量比較,本文使用模特身上的衣服作為選定換衣圖片重新進(jìn)行實(shí)驗(yàn)。本文采用了SSIM指標(biāo)來(lái)衡量虛擬試衣效果的好壞。SSIM(Structural Similarity)即結(jié)構(gòu)相似性,它從亮度、對(duì)比度、結(jié)構(gòu)三個(gè)方面作為兩幅圖像的度量指標(biāo),其最大值為1,最小值為0,數(shù)值越高表明兩幅圖像在相似度上越接近[9]。本文實(shí)驗(yàn)中的SSIM值越高,表明虛擬試衣結(jié)果質(zhì)量越好。虛擬試衣結(jié)果對(duì)比圖如圖6所示。
圖6中,圖片下方的數(shù)字為虛擬試衣結(jié)果與原圖的SSIM值,其中第一列為所選模特,第二列為選定衣服,CP-VTON Results為CP-VTON網(wǎng)絡(luò)模型訓(xùn)練后得到的測(cè)試結(jié)果,Stage 1 Results為在CP-VTON網(wǎng)絡(luò)中融入并行卷積核后訓(xùn)練得到的測(cè)試結(jié)果,Stage 2 Results為進(jìn)一步融入Attention注意力機(jī)制形成Attention U-Net圖像合成器后訓(xùn)練得到的測(cè)試結(jié)果,三次實(shí)驗(yàn)的訓(xùn)練集以及測(cè)試集保持一致。從圖6中最右側(cè)選取的放大細(xì)節(jié)可以看出,本文方法在人物和衣服的特征提取上有了一定提升。同一數(shù)據(jù)集下,2,032 張測(cè)試圖與原圖的SSIM平均值結(jié)果如表1所示。
從表1中可以計(jì)算出,在SSIM數(shù)據(jù)上,Stage 1相較于CP-VTON虛擬試衣方法提升了12.6%,而Stage 2相較于Stage 1進(jìn)一步提升了2.7%。實(shí)驗(yàn)結(jié)果對(duì)比表明,本文方法的效果相比于CP-VTON有了明顯提升,并且融入兩個(gè)點(diǎn)后的虛擬試衣效果也好于一個(gè)點(diǎn)。
綜上,本文方法在保留衣服的關(guān)鍵特征和身體部位信息方面表現(xiàn)得更好,同時(shí)在量化指標(biāo)上體現(xiàn)了在虛擬試衣技術(shù)上的進(jìn)步。
5? ?結(jié)論(Conclusion)
本文提出了一種使用并行卷積核提取特征,以及在U-Net網(wǎng)絡(luò)中融入注意力機(jī)制,用新的圖像合成器合成虛擬試衣圖像的方法。用并行卷積核代替原有的卷積核,可以使衣服和人像的特征提取網(wǎng)絡(luò)訓(xùn)練到更高的精度,形成更逼真、細(xì)節(jié)更豐富的虛擬試衣圖像。在網(wǎng)絡(luò)模型中融入注意力機(jī)制,可以在衣服和人像中提取出更多的細(xì)節(jié)信息,提升虛擬試衣效果。實(shí)驗(yàn)結(jié)果表明,相比于CP-VTON虛擬試衣方法,本文方法在視覺(jué)質(zhì)量、定量分析方面有了一定的提升,較好地解決了虛擬試衣服裝細(xì)節(jié)保留不夠、肢體被衣服遮擋的問(wèn)題。
后續(xù)工作中,我們將繼續(xù)優(yōu)化虛擬試衣網(wǎng)絡(luò)模型,擴(kuò)大虛擬試衣圖像樣本庫(kù),尋求進(jìn)一步提升虛擬試衣效果的方法。
參考文獻(xiàn)(References)
[1] 張淑芳,王沁宇.基于生成對(duì)抗網(wǎng)絡(luò)的虛擬試穿方法[J].天津大學(xué)學(xué)報(bào)(自然科學(xué)與工程技術(shù)版),2021,54(9):925-933.
[2] LEE W. Development of a virtual fit analysis method for an ergonomic design of pilot oxygen mask[J]. Applied Sciences, 2021, 11(12):5332.
[3] 陳華麗,吳世剛.基于虛擬現(xiàn)實(shí)技術(shù)的中國(guó)近代旗袍變遷的研究[J].遼寧絲綢,2021(2):35-36.
[4] 徐俊,普?qǐng)@媛,徐丹,等.基于款式變換和局部渲染相結(jié)合的虛擬試衣研究[J].太原理工大學(xué)學(xué)報(bào),2021,52(1):98-104.
[5] 王成偉.形狀可調(diào)的三次三角樣條插值曲線及其在服裝造型中的應(yīng)用[J].北京服裝學(xué)院學(xué)報(bào)(自然科學(xué)版),2020,40(4):
30-34.
[6] 袁帥,王康,單義,等.基于多分支并行空洞卷積的多尺度目標(biāo)檢測(cè)算法[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2021,33(6):
864-872.
[7] 歐陽(yáng)羲同.橫向反卷積在超聲檢測(cè)中的應(yīng)用[J].東南大學(xué)學(xué)報(bào),1989,19(2):89-94.
[8] 梁斌,劉全,徐進(jìn),等.基于多注意力卷積神經(jīng)網(wǎng)絡(luò)的特定目標(biāo)情感分析[J].計(jì)算機(jī)研究與發(fā)展,2017,54(8):1724-1735.
[9] 楊達(dá),狄嵐,趙樹志,等.基于結(jié)構(gòu)相似性與模板校正的織物瑕疵檢測(cè)方法[J].智能系統(tǒng)學(xué)報(bào),2020,15(3):475-483.
作者簡(jiǎn)介:
舒幸哲(1997-),男,碩士生.研究領(lǐng)域:圖像處理.