• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于改進(jìn)Deeplab v3+的服裝圖像分割網(wǎng)絡(luò)

      2022-07-14 13:11:48胡新榮龔闖張自力朱強(qiáng)彭濤何儒漢
      計(jì)算機(jī)工程 2022年7期
      關(guān)鍵詞:注意力語(yǔ)義卷積

      胡新榮,龔闖,張自力,朱強(qiáng),彭濤,何儒漢

      (1.湖北省服裝信息化工程技術(shù)研究中心,武漢 430200;2.紡織服裝智能化湖北省工程研究中心,武漢 430200;3.武漢紡織大學(xué) 計(jì)算機(jī)與人工智能學(xué)院,武漢 430200)

      0 概述

      近年來(lái),隨著服裝設(shè)計(jì)行業(yè)的發(fā)展和在線購(gòu)物的興起,服裝圖像的視覺(jué)解析變得越來(lái)越重要。其中對(duì)服裝圖像分割有利于將服裝進(jìn)行細(xì)分和歸類。一方面,服裝圖像的分割細(xì)分了不同的服裝部件,給設(shè)計(jì)師帶來(lái)創(chuàng)作時(shí)尚新品的靈感。另一方面,消費(fèi)者面對(duì)服裝圖像的精細(xì)分割,不僅可以獲取更好的穿著偏好,而且可以進(jìn)一步了解服裝信息,提升購(gòu)物體驗(yàn)感。

      服裝分割方法主要利用手工設(shè)計(jì)的特征和預(yù)估的人體姿態(tài)預(yù)測(cè)像素級(jí)標(biāo)注。文獻(xiàn)[1]提出一種應(yīng)用于服裝領(lǐng)域的分割框架,但該方法需要在圖像的像素標(biāo)注上耗費(fèi)巨大的人力物力和時(shí)間成本;文獻(xiàn)[2]提出一種弱監(jiān)督的方法,雖然該方法省時(shí)省力,僅需使用基于服裝圖像顏色進(jìn)行標(biāo)注的標(biāo)簽和人體姿態(tài)估計(jì),但該方法仍然有過(guò)于依賴人體姿態(tài)的弊端;文獻(xiàn)[3]提出一種用于針對(duì)服裝復(fù)雜紋理圖像的服裝解析改進(jìn)方法,但該方法對(duì)服裝復(fù)雜不規(guī)則的相似顏色紋理解析較差。

      隨著深度學(xué)習(xí)領(lǐng)域的快速發(fā)展,深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Neural Networks,DCNN)表現(xiàn)出強(qiáng)大的特征提取和表征能力。基于全卷積網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN)[4]端到端經(jīng)典語(yǔ)義分割模型的出現(xiàn),雖然取得了很大的成功,但由于網(wǎng)絡(luò)結(jié)構(gòu)固定,F(xiàn)CN 也顯露出了諸多弊端,例如:沒(méi)有考慮全局上下文信息,將特征圖上采樣還原成原圖大小的圖像會(huì)造成像素定位不準(zhǔn)確。文獻(xiàn)[5]提出用于生物醫(yī)學(xué)圖像分割領(lǐng)域的U-Net 網(wǎng)絡(luò),不過(guò)在做多分類的任務(wù)時(shí),U-Net 卷積網(wǎng)絡(luò)不僅分割的邊緣輪廓較差,而且容易造成顯存溢出。文獻(xiàn)[6]提出將FCN、SegNet 和邊緣檢測(cè)結(jié)合的集成學(xué)習(xí)方法,該方法在分割高分辨率的遙感圖像時(shí)既減少了分割誤差,又提高了分割精度。在處理外觀較為相似的物體時(shí),PSPNet[7]網(wǎng)絡(luò)使用了空間金字塔池化,對(duì)不同區(qū)域的上下文進(jìn)行聚合,提升了網(wǎng)絡(luò)利用全局上下文信息的能力。此 外,SegNet[8]、RefineNet[9]等語(yǔ)義分割網(wǎng)絡(luò)均采用編解碼結(jié)構(gòu)捕獲細(xì)節(jié)的信息,提高了分割精度。文獻(xiàn)[10]提出的語(yǔ)義分割網(wǎng)絡(luò)利用服裝語(yǔ)義分析預(yù)測(cè)圖結(jié)合學(xué)習(xí)到的人體關(guān)節(jié)信息,能更好地定位服裝分割區(qū)域,解決了過(guò)度分割過(guò)程中依賴手工設(shè)計(jì)特征和依賴人體姿態(tài)等問(wèn)題。該方法分割性能較高,但對(duì)深層特征圖的語(yǔ)義信息提取不夠充分,且會(huì)導(dǎo)致空間信息的丟失,該方法在對(duì)現(xiàn)實(shí)生活中的復(fù)雜服裝圖像或者包含繁瑣干擾性極強(qiáng)的背景圖像進(jìn)行分割時(shí),分割的效果仍然不夠理想。

      目前注意力機(jī)制廣泛應(yīng)用于深度學(xué)習(xí)領(lǐng)域,特別是在圖像處理方面發(fā)展迅速。文獻(xiàn)[11]設(shè)計(jì)了DANet 網(wǎng)絡(luò),通過(guò)引入自注意力機(jī)制,并融合局部語(yǔ)義特征和全局依賴,提高了分割精度。文獻(xiàn)[12]提出SENet 網(wǎng)絡(luò),簡(jiǎn)單地壓縮每個(gè)二維特征圖以有效地構(gòu)建通道之間的相互依賴關(guān)系,CBAM[13]進(jìn)一步推進(jìn)了該方法,通過(guò)大尺寸內(nèi)核的卷積引入空間信息編碼。

      為了應(yīng)對(duì)較為復(fù)雜的服裝分割任務(wù),本文提出一種基于改進(jìn)Deeplab v3+的服裝圖像分割網(wǎng)絡(luò)。采用語(yǔ)義分割性能較好的Deeplab v3+網(wǎng)絡(luò)[14],并引入注意力機(jī)制,利用Coordinate Attention 機(jī)制捕獲得位置信息和通道關(guān)系,從而更有針對(duì)性地獲學(xué)習(xí)目標(biāo)區(qū)域的特點(diǎn),獲取更好的精細(xì)圖像特征。在此基礎(chǔ)上,為提取高層特征圖的語(yǔ)義信息,引入語(yǔ)義特征增強(qiáng)模塊,通過(guò)對(duì)不同大小的特征圖應(yīng)用non-local注意塊來(lái)處理不同大小的服裝圖像,并將每個(gè)non-local 注意塊的輸出進(jìn)行融合,增強(qiáng)更深層的語(yǔ)義特征。

      1 服裝分割網(wǎng)絡(luò)

      本文的服裝分割網(wǎng)絡(luò)使用深度學(xué)習(xí)語(yǔ)義分割領(lǐng)域性能較好的Deeplab v3+網(wǎng)絡(luò)及其相關(guān)改進(jìn)網(wǎng)絡(luò)。下文依次介紹服裝分割過(guò)程圖、Deeplab v3+網(wǎng)絡(luò)和改進(jìn)Deeplab v3+的網(wǎng)絡(luò)。

      1.1 服裝分割流程

      本文的服裝分割方法主要是基于改進(jìn)的Deeplab v3+網(wǎng)絡(luò)。首先獲取服裝數(shù)據(jù)集,處理服裝數(shù)據(jù)集的標(biāo)簽,得到處理完成的服裝數(shù)據(jù)集。然后將服裝數(shù)據(jù)集作為輸入送入到服裝分割網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,當(dāng)網(wǎng)絡(luò)損失收斂到一定程度,且在驗(yàn)證集的準(zhǔn)確率趨于飽和時(shí)停止訓(xùn)練,得到最終服裝分割網(wǎng)絡(luò)。最后輸入服裝圖像到訓(xùn)練好的服裝分割網(wǎng)絡(luò)進(jìn)行預(yù)測(cè),得到不同種類的服裝預(yù)測(cè)分割圖像。具體的服裝分割流程如圖1 所示。

      圖1 服裝分割流程Fig.1 Clothing segmentation procedure

      1.2 Deeplab v3+網(wǎng)絡(luò)

      Deeplab v3+是由谷歌公司開(kāi)發(fā)的一種使用空間金字塔模塊和編解碼器結(jié)構(gòu)的語(yǔ)義分割網(wǎng)絡(luò)。Deeplab v3+的核心思想是利用端對(duì)端的訓(xùn)練方式,該網(wǎng)絡(luò)的編碼器結(jié)構(gòu)由骨干網(wǎng)絡(luò)resnet101 和ASPP[14]模塊組成,resnet101作為骨干網(wǎng)絡(luò),提取圖像生成的高級(jí)語(yǔ)義特征圖,后面連接ASPP 模塊,含有多個(gè)空洞卷積擴(kuò)張率,用于將resnet101 生成的高級(jí)特征圖進(jìn)行多尺度采樣,得到多尺度的特征圖,將得到的特征圖在通道維度上進(jìn)行組合,最后送入到卷積核大小為1×1 的卷積核,以此降低通道維度。解碼模塊將編碼模塊得到的降維特征圖進(jìn)行4 倍上采樣與resnet101 中間的原圖1/4 大小的高層特征圖融合,再進(jìn)行雙線性插值上采樣。編碼模塊的特征圖獲取的是圖像語(yǔ)義信息,resnet101 中間下采樣獲取圖像的細(xì)節(jié)信息。Deeplab v3+的網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。將Deeplab v3+網(wǎng)絡(luò)用于服裝分割領(lǐng)域,可以發(fā)現(xiàn)該網(wǎng)絡(luò)在對(duì)服裝進(jìn)行分割時(shí),存在對(duì)服裝的輪廓分割略顯粗糙,遇到復(fù)雜背景分割錯(cuò)誤等問(wèn)題。

      圖2 Deeplab v3+網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Deeplab v3+network structure

      1.3 改進(jìn)的Deeplab v3+網(wǎng)絡(luò)結(jié)構(gòu)

      近幾年出現(xiàn)的注意力機(jī)制廣泛地應(yīng)用于深度學(xué)習(xí)的諸多領(lǐng)域[15-16]。注意力機(jī)制的作用可簡(jiǎn)單地解釋為:告訴模型“什么”和“在哪里”出現(xiàn),已經(jīng)被廣泛研究[17-18],并被用來(lái)提高現(xiàn)在深層神經(jīng)網(wǎng)絡(luò)的性能[12,19-21]。注意力機(jī)制[22-23]已經(jīng)被證明在各種計(jì)算機(jī)視覺(jué)任務(wù)中有幫助。因此,本文將Coordinate Attention[24]引入到Deeplab v3+網(wǎng)絡(luò)中,有效地捕獲位置信息和通道信息之間的關(guān)系,以此來(lái)提高服裝分割的精確度。在Deeplab v3+原網(wǎng)絡(luò)中訓(xùn)練服裝分割數(shù)據(jù)集,通過(guò)resnet101 下采樣提取到特征圖,僅為輸入網(wǎng)絡(luò)圖像1/16 大小的特征圖,考慮到高層卷積提取的特征圖較小,得到的特征比較抽象,本文將resnet101 提取到較小的高層特征圖經(jīng)過(guò)語(yǔ)義特征增強(qiáng)模塊,有效地獲取更加豐富的語(yǔ)義信息。

      下文將分別介紹Coordinate Attention 機(jī)制、語(yǔ)義特征增強(qiáng)模塊(SFEM)[25]和CA_SFEM_Deeplab v3+網(wǎng)絡(luò)結(jié)構(gòu)。

      1.3.1 Coordinate Attention 機(jī)制

      Coordinate Attention 是一種具有輕量級(jí)屬性的注意力方法,它能有效地捕獲位置信息和通道信息的關(guān)系。Coordinate Attention 是一個(gè)計(jì)算單元,旨在增強(qiáng)學(xué)習(xí)特征的表達(dá)能力,它可以取任意中間特征張量X=[x1,x2,…,xc]?RC×H×W作為輸入,并且輸出與X大小相同的具有增強(qiáng)表示的變換張量Y=[y1,y2,…,yc]。Coordinate Attention 通過(guò)精確的位置信息對(duì)通道關(guān)系和長(zhǎng)期依賴性進(jìn)行編碼,具體操作分為Coordinate信息嵌入和Coordinate Attention 生成兩個(gè)步驟。Coordinate Attention 結(jié)構(gòu)如圖3所示。

      圖3 Coordinate Attention 結(jié)構(gòu)Fig.3 Coordinate Attention structure

      1)Coordinate 信息嵌入全局池化方法通常用于通道注意力編碼空間信息的全局編碼,如SE(Sequeze and Excitation)block[12]擠壓步驟,給定輸入X,第c個(gè)通道的壓縮步驟可以表示為如式(1)所示,由于它將全局信息壓縮到通道描述符中,導(dǎo)致難以保存位置信息。為了促使注意力模塊能夠捕捉具有精確位置信息的遠(yuǎn)程空間交互,按照式(1)分解全局池化,轉(zhuǎn)化為一對(duì)一維特征編碼操作:

      其中:zc表示第c通道的輸出;xc(i,j)表示第c通道的高度坐標(biāo)i和寬度坐標(biāo)j位置特征圖的數(shù)值;H和W分別為特征圖的高度和寬度。

      具體地,給定輸入X,首先使用尺寸為(H,1)和(1,W)的池化核分別沿著水平坐標(biāo)和垂直坐標(biāo)對(duì)每個(gè)通道進(jìn)行編碼。因此,第c通道的高度為h的輸出可以表示為:

      第c通道的寬度為w的輸出可以寫成:

      上述兩種變換分別沿兩個(gè)空間方向聚合特征,得到一對(duì)方向感知的特征圖。這與在通道注意力方法中產(chǎn)生單一的特征向量的SE block 非常不同。這兩種轉(zhuǎn)換也允許注意力模塊捕捉到沿著一個(gè)空間方向的長(zhǎng)期依賴關(guān)系,并保存沿著另一個(gè)空間方向的精確位置信息,這有助于網(wǎng)絡(luò)更準(zhǔn)確地定位感興趣的目標(biāo)。

      2)Coordinate Attention 生成如上所述,已經(jīng)可以很好地獲得全局感受野并編碼精確的位置信息。為了利用由此產(chǎn)生的特征,給出了以下兩個(gè)變換,稱為Coordinate Attention 生成。通過(guò)信息嵌入中的變換后,由式(4)和式(5)產(chǎn)生的聚合特征圖進(jìn)行了拼接(concatenate)操作,使用1×1 卷積變換函數(shù)F1對(duì)其進(jìn)行變換操作:

      其中:[·,·]是沿空間維度的拼接操作;δ為非線性激活函數(shù);f∈RC/r×(H+W)是對(duì)空間信息在水平方向和垂直方向進(jìn)行編碼的中間特征圖,r是用來(lái)控制SE、SE block 大小的縮減率,然后沿著空間維度將f分解為2 個(gè)單獨(dú)的張量fh∈RC/r×H和fw∈RC/r×W。利用另外2 個(gè)1×1 卷積變換Fh和Fw分別將fh和fw變換為具有相同通道數(shù)的張量輸入到X,得到:

      其中:σ是sigmoid 激活函數(shù)。為了降低模型的復(fù)雜性和計(jì)算開(kāi)銷,通常使用適當(dāng)?shù)目s減比r來(lái)縮小f的通道數(shù),然后對(duì)輸出gh和gw進(jìn)行擴(kuò)展,分別作為注意力權(quán)重。最后Coordinate Attention 塊的輸出Y=[y1,y2,…,yc]可以得到:

      1.3.2 語(yǔ)義特征增強(qiáng)模塊

      CNN 網(wǎng)絡(luò)深層包含語(yǔ)義特征,這些特征對(duì)檢測(cè)和分割目標(biāo)最重要。為了充分利用語(yǔ)義特性,受金字塔池[26-277]啟發(fā),本文引入了語(yǔ)義特性增強(qiáng)模塊(SFEM),SFEM 結(jié)構(gòu)如圖4 所示。

      如圖4(a)所示,SFEM 由3 個(gè)平行分支的non-locol塊組成,它將編碼器特征圖的輸出作為輸入,對(duì)特定大小的小塊分別運(yùn)用non-local 注意力,而不是自適應(yīng)平均池化。第一個(gè)分支將圖像分成4 個(gè)大小相同的小塊(W/2×H/2),對(duì)每個(gè)塊分別進(jìn)行non-local 空間關(guān)注,然后將其折疊起來(lái),如圖4(b)所示。類似地,第二個(gè)分支產(chǎn)生16 個(gè)大小(W/4×H/4)的小塊,并對(duì)每個(gè)塊執(zhí)行與第一個(gè)分支相同的操作。在本文的實(shí)驗(yàn)中,將編碼器的輸出特征圖的大小設(shè)置為32×32。因此,第一個(gè)分支包含4 個(gè)大小為16×16 的小塊,第二個(gè)分支包含16 個(gè)大小為8×8 的小塊,最后一個(gè)分支對(duì)大小為32×32 的整個(gè)特征圖執(zhí)行non-local[28]操作。這3 個(gè)分支的輸出串聯(lián)之后,再送入到處理擠壓和激勵(lì)塊(SE 塊),用于處理最重要的通道,將SE塊[12]的結(jié)果發(fā)送到所有解碼器層。為了匹配每個(gè)解碼器層的大小,對(duì)SFEM 的輸出進(jìn)行了上采樣。

      如圖4(b)所示,以SFEM 結(jié)構(gòu)中第一條分支為例,描述了圖像應(yīng)用non-local 注意力的詳細(xì)版本,首先將圖像分割成多個(gè)小塊,然后對(duì)每個(gè)小塊單獨(dú)應(yīng)用non-local 注意力,最后將其折疊回整個(gè)圖像。

      1.3.3 CA_SFEM_Deeplab v3+網(wǎng)絡(luò)結(jié)構(gòu)

      在Deeplab v3+原網(wǎng)絡(luò)中訓(xùn)練服裝數(shù)據(jù)集,雖然可以分割出各類服裝和背景,但效果一般。本文考慮在主干網(wǎng)絡(luò)resnet101 中引入1.3.1 節(jié)介紹的Coordinate Attention 機(jī)制,沿一個(gè)空間方向捕獲遠(yuǎn)程依賴關(guān)系,同時(shí)沿著另一個(gè)空間方向保留精確的位置信息。最后將生成的特征圖分別編碼為一對(duì)方向感知和位置敏感的attention map,可以將其互補(bǔ)地應(yīng)用于輸入特征圖,以增強(qiáng)關(guān)注對(duì)象的表示。本文考慮將經(jīng)過(guò)ASPP 之后的特征圖,送入語(yǔ)義特征增強(qiáng)模塊(SFEM)進(jìn)一步提取,不僅能夠增強(qiáng)高層特征的語(yǔ)義信息,而且可以保證不丟失空間信息。CA_SFEM_Deeplab v3+網(wǎng)絡(luò)結(jié)構(gòu)具體描述如下:將嵌入Coordinate Attention 機(jī)制的主干網(wǎng)絡(luò)resnet101 提取的高層特征圖輸入到ASPP 結(jié)構(gòu),對(duì)主干網(wǎng)絡(luò)提取的特征圖以不同采樣率的空洞卷積并行采樣,以多個(gè)比例捕獲圖像的上下文得到多種特征圖,將這些特征圖融合送入1×1 卷積之后得到256 通道的特征圖,此后將該256 通道的特征圖輸入到兩條不同的分支分別處理。第一條分支:256 通道的特征圖先進(jìn)行4 倍上采樣,之后輸入到Nonlocal 中,得到第一條分支的特征圖;第二條分支:將256 通道的特征圖輸入到特征增強(qiáng)模塊(SFEM)進(jìn)一步提取特征,將SFEM輸出的特征圖進(jìn)行4 倍上采樣,得到第二條分支的特征圖。此后將第一條、第二條分支的特征圖和resnet101 中間的原圖1/4 大小高層特征圖融合,將融合的特征圖進(jìn)行降采樣和卷積,最后將輸出的特征圖進(jìn)行4 倍上采樣得到預(yù)測(cè)分割圖片。CA_SFEM_Deeplab v3+的網(wǎng)絡(luò)結(jié)構(gòu)如圖5 所示。

      圖5 CA_SFEM_Deeplab v3+網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 CA_SFEM_Deeplab v3+network structure

      2 實(shí)驗(yàn)與結(jié)果分析

      2.1 數(shù)據(jù)集

      本文實(shí)驗(yàn)的數(shù)據(jù)集來(lái)源于DeepFashion2[29],DeepFashion2 是一種大規(guī)模的基準(zhǔn)數(shù)據(jù)集,具有全面的任務(wù)和時(shí)尚圖像理解的標(biāo)注。DeepFashion2 包含49.1 萬(wàn)張圖像,具有13 種流行的服飾類別,在這個(gè)數(shù)據(jù)集上定義了全面的任務(wù),包括服飾檢測(cè)和識(shí)別、標(biāo)記和姿態(tài)估計(jì)、分割、驗(yàn)證和檢索。所有這些任務(wù)都有豐富的標(biāo)注支持。DeepFashion2 擁有最豐富的任務(wù)定義和較大數(shù)量的標(biāo)簽,它的標(biāo)注至少是DeepFashion[30]的3.5 倍、ModaNet[31]的6.7倍和FashionAI[32]的 8 倍?;谝陨线@些特點(diǎn),DeepFashion2 非常適合作為本文實(shí)驗(yàn)服裝分割的數(shù)據(jù)集。將標(biāo)簽json 文件轉(zhuǎn)為單通道分割png 標(biāo)簽圖,為了方便可視化,本文將單通道的標(biāo)簽圖轉(zhuǎn)為RGB彩色標(biāo)簽圖(彩圖效果見(jiàn)《計(jì)算機(jī)工程》官網(wǎng)HTML版),如圖6 所示。

      圖6 DeepFashion2 數(shù)據(jù)集樣本Fig.6 DeepFashion2 dataset sample

      由于DeepFashion2 數(shù)據(jù)集十分龐大,考慮到本文實(shí)驗(yàn)的硬件限制和訓(xùn)練時(shí)間成本,故選取DeepFashion2 中77 848 張圖片用于訓(xùn) 練,10 492 張圖片用于評(píng)估,10 568 張圖片用于測(cè)試。

      2.2 語(yǔ)義分割實(shí)驗(yàn)評(píng)價(jià)指標(biāo)

      本文采用的量化指標(biāo)分別是類別平均像素準(zhǔn)確率(Mean Pixel Accuracy,MPA)和平均交并比(mean Intersection over Union,mIoU)。

      MPA 表示分別計(jì)算每個(gè)類別被正確分類的像素?cái)?shù)的比例,計(jì)算公式見(jiàn)式(8)。作為性能的評(píng)價(jià)指標(biāo),mIoU 是語(yǔ)義分割實(shí)驗(yàn)中常用的度量指標(biāo),交并比是計(jì)算真實(shí)集合和預(yù)測(cè)集合的交集與并集之比。在每個(gè)類上計(jì)算交并比,求和平均值,得到平均交并比,計(jì)算公式見(jiàn)式(9)。其中:k+1 表示類別數(shù)(包括k個(gè)目標(biāo)類和1 個(gè)背景類);pij表示本屬于i類卻預(yù)測(cè)為j類的像素點(diǎn)總數(shù)。具體地,pii表示真正例,即模型預(yù)測(cè)為正例,實(shí)際為正例,pij表示假正例,即模型預(yù)測(cè)為正例,實(shí)際為反例,pji表示假反例,即模型預(yù)測(cè)為反例,實(shí)際為正例。

      2.3 結(jié)果分析

      針對(duì)本文提出的方法進(jìn)行實(shí)驗(yàn)研究,實(shí)驗(yàn)環(huán)境配置如下:操作系統(tǒng)為Ubuntu16.04;顯卡為NVIDIA GeForce RTX2080T(i11 GB);處理器為Intel?CoreTMi9-9900X CPU;學(xué)習(xí)框架為Pytorch。

      相關(guān)實(shí)驗(yàn)基于Ubuntu16.04 操作系統(tǒng)進(jìn)行,CPU為Intel i9-9900x,GPU 為4 張NVIDIA GeForce RTX2080Ti 的深度學(xué)習(xí)服務(wù)器,實(shí)驗(yàn)涉及的代碼是用pytorch 實(shí)現(xiàn)。

      2.3.1 訓(xùn)練策略

      為了使模型快速收斂,并且適用于本實(shí)驗(yàn)的數(shù)據(jù)集DeepFashion2,本文采用了如下的訓(xùn)練策略:對(duì)主干網(wǎng)絡(luò)resnet101 載入ImageNet 數(shù)據(jù)集上預(yù)訓(xùn)練的權(quán)重,初始化主干網(wǎng)絡(luò)resnet101 的權(quán)重,加快訓(xùn)練速度,首先前60 個(gè)epoch 采用poly 學(xué)習(xí)率調(diào)整策略進(jìn)行訓(xùn)練,主干網(wǎng)絡(luò)設(shè)置初始學(xué)習(xí)率為0.000 7,網(wǎng)絡(luò)的其余部分參數(shù)設(shè)置初始學(xué)習(xí)率為0.007,這樣模型可以快速趨近于收斂,最后采用較小的固定學(xué)習(xí)率進(jìn)行訓(xùn)練至模型收斂狀態(tài)。本文實(shí)驗(yàn)中將圖像剪裁至512×512 大小進(jìn)行訓(xùn)練。

      2.3.2 網(wǎng)絡(luò)訓(xùn)練結(jié)果

      本文實(shí)驗(yàn)網(wǎng)絡(luò)采用Deeplab v3+、嵌入Coordinate Attention 模塊(CA_Deeplab v3+)和嵌入Coordinate Attention、SFEM 模塊(CA_SFEM_Deeplab v3+)。訓(xùn)練的實(shí)驗(yàn)網(wǎng)絡(luò)在驗(yàn)證集上得出的mIoU 結(jié)果曲線如圖7 所示,3 個(gè)實(shí)驗(yàn)網(wǎng)絡(luò)的mIoU 隨迭代的次數(shù)增加逐漸趨于穩(wěn)定。由圖7 可以看出,CA_Deeplab v3+性能略微優(yōu)于Deeplab v3+,而CA_SFEM_Deeplab v3+在每一個(gè)迭代輪次均遠(yuǎn)優(yōu)于Deeplab v3+和CA_Deeplab v3+。這是由于模型不僅通過(guò)融入Coordinate Attention 模塊增強(qiáng)保留空間信息的能力,而且通過(guò)嵌入SFEM 模塊增強(qiáng)語(yǔ)義特征信息。

      圖7 不同網(wǎng)絡(luò)在驗(yàn)證集上mIoU 結(jié)果曲線Fig.7 mIoU result curves of different networks on validationset

      2.3.3 分割性能對(duì)比

      在對(duì)比實(shí)驗(yàn)中,數(shù)據(jù)集采用DeepFashion2,包含13 種服裝類別及1 個(gè)背景類。本文實(shí)驗(yàn)對(duì)比了Deeplab v3+、CA_Deeplab v3+和CA_SFEM_Deeplab v3+對(duì)服裝分割的影響。由表1 可以看出,首先僅在主干網(wǎng)絡(luò)resnet101 首尾添加了注意力機(jī)制Coordinate Attention模塊的CA_Deeplab v3+,相比Deeplab v3+在MPA 指標(biāo)上提升0.7%,結(jié)合圖7 的增長(zhǎng)趨勢(shì),將主干網(wǎng)絡(luò)resnet101 中間的各個(gè)block 添加Coordinate Attention 會(huì)有更好的提升效果??紤]到本實(shí)驗(yàn)為主干網(wǎng)絡(luò)resnet101載入預(yù)訓(xùn)練權(quán)重,同時(shí)兼顧到訓(xùn)練的效率,本文將不再破壞主干網(wǎng)絡(luò)的結(jié)構(gòu),僅在resnet101 的首尾添加Coordinate Attention。其次在Coordinate Attention 模塊基礎(chǔ)上添加特征增強(qiáng)SFEM 模塊的CA_SFEM_Deeplab v3+,MPA、mIoU 定量指標(biāo)有了明顯提升,與Deeplab v3+相比分別提升了2.3%、2.1%。這是因?yàn)楸疚奶岢龅腃A_SFEM_Deeplab v3+網(wǎng)絡(luò)嵌入了Coordinate Attention和SFEM 模塊,更準(zhǔn)確地提取了特征信息,使得分割的精度較高。

      表1 添加不同模塊的性能比較Table 1 Performance comparison by adding different models

      為了更好地展現(xiàn)本文方法性能提升的直觀效果,本文將網(wǎng)絡(luò)分割出來(lái)的掩碼對(duì)原圖進(jìn)行處理,將背景類別置為黑色,僅保留原始服裝圖像的服裝分割圖,因此直觀顯示出模型分割得到有用的服裝信息。圖8 所示分別為服裝原圖、標(biāo)簽圖和3 個(gè)模型分割服裝圖像(彩色效果見(jiàn)《計(jì)算機(jī)工程》官網(wǎng)HTML版)。

      圖8 不同模型在DeepFashion2 數(shù)據(jù)集上的分割效果Fig.8 Segmentation effects of different models in DeepFashion2 datasets

      從圖8 可以看出:在第一排服裝分割圖矩形框標(biāo)注的區(qū)域,CA_SFEM_Deeplab v3+網(wǎng)絡(luò)在長(zhǎng)袖邊和褲子結(jié)合處像素點(diǎn)誤分類最少;在第二排服裝分割圖矩形框標(biāo)注的區(qū)域,嵌入Coordinate Attention 的CA_Deeplab v3+網(wǎng)絡(luò)在長(zhǎng)袖像素點(diǎn)處相較于Deeplab v3+網(wǎng)絡(luò)誤分類更少,而CA_SFEM_Deeplab v3+網(wǎng)絡(luò)在長(zhǎng)袖像素點(diǎn)處不存在誤分類的像素點(diǎn);在第三排服裝分割圖矩形框標(biāo)注的區(qū)域,CA_SFEM_Deeplab v3+網(wǎng)絡(luò)在連衣裙袖口的邊界處分割最平滑,分割效果最好;在第四排服裝分割圖矩形框標(biāo)注的區(qū)域,在左邊褲腳的輪廓處,CA_SFEM_Deeplab v3+網(wǎng)絡(luò)將手部邊界同褲腿邊界分離的效果最好,分割的正確率最高,分割的結(jié)果最為貼近標(biāo)簽圖。觀察所有分割結(jié)果對(duì)比圖,CA_SFEM_Deeplab v3+對(duì)服裝分割更為精細(xì),對(duì)服裝邊緣分割更為流暢,使得服裝分割更為接近服裝的真實(shí)輪廓。綜上所述,本文CA_SFEM_Deeplab v3+網(wǎng)絡(luò)對(duì)分割服裝位置的精準(zhǔn)性最優(yōu),對(duì)服裝特征提取也更為充分,分割性能有了明顯提高。

      為了證明本文網(wǎng)絡(luò)的分割有效性,選取了目前有代表性的主 流語(yǔ)義分割網(wǎng) 絡(luò)PSP-Net[7]、Deeplab v3+[14]和FastFCN[33]和本文提出的CA_SFEM_Deeplab v3+網(wǎng)絡(luò)進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)的數(shù)據(jù)集采用DeepFashion2。根據(jù)本文提出的兩個(gè)量化指標(biāo),結(jié)合表2 可以得出,Deeplab v3+網(wǎng)絡(luò)與PSP-Net 網(wǎng)絡(luò)相比分割性能有了一定的提高,而本文提出的CA_SFEM_Deeplab v3+網(wǎng)絡(luò)在MPA 和mIoU 定量指標(biāo)上數(shù)值分別為0.671 和0.557,相較于PSP-Net 網(wǎng)絡(luò)分別提升了8.3%和8.6%,相較于Deeplab v3+網(wǎng)絡(luò)分別提升了2.3%和2.1%,相較于FastFCN 網(wǎng)絡(luò)分別提升了0.9%和1%。實(shí)驗(yàn)數(shù)據(jù)結(jié)果表明,本文提出的CA_SFEM_Deeplab v3+網(wǎng)絡(luò)相較于其他網(wǎng)絡(luò)在服裝數(shù)據(jù)集DeepFashion2 上更具有優(yōu)勢(shì)。

      表2 不同分割網(wǎng)絡(luò)性能比較Table 2 Performance comparison of different segmentation networks

      3 結(jié)束語(yǔ)

      本文提出一種用于服裝分割任務(wù)的CA_SFEM_Deeplab v3+網(wǎng)絡(luò),該網(wǎng)絡(luò)模型在主干網(wǎng)絡(luò)的首尾分別嵌入了注意力機(jī)制模塊,主干網(wǎng)絡(luò)輸出的特征圖首先經(jīng)過(guò)ASPP 結(jié)構(gòu)處理,隨后通過(guò)SFEM 模塊對(duì)特征圖進(jìn)行語(yǔ)義特征增強(qiáng)處理,然后將特征圖進(jìn)行融合,經(jīng)過(guò)上采樣,最終得到服裝分割的預(yù)測(cè)圖。實(shí)驗(yàn)結(jié)果證明,相對(duì)于Deeplab v3+網(wǎng)絡(luò),CA_SFEM_Deeplab v3+網(wǎng)絡(luò)具有更好的分割精度,能夠?qū)崿F(xiàn)對(duì)服裝的準(zhǔn)確分割。本文網(wǎng)絡(luò)雖提升了分割精度,但嵌入注意力機(jī)制和SFEM 模塊增加了參數(shù)量,降低了分割效率。此外,其在解碼模塊中僅使用了融合1/4 大小的低層特征圖和編碼模塊輸出的高層特征圖,而單層次提取目標(biāo)特征易導(dǎo)致小目標(biāo)丟失或大目標(biāo)特征提取冗余。后續(xù)將精簡(jiǎn)分割模型,進(jìn)一步提高模型的準(zhǔn)確率和分割效率。

      猜你喜歡
      注意力語(yǔ)義卷積
      讓注意力“飛”回來(lái)
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      語(yǔ)言與語(yǔ)義
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      A Beautiful Way Of Looking At Things
      “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
      認(rèn)知范疇模糊與語(yǔ)義模糊
      一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
      淳安县| 浦东新区| 宽城| 南皮县| 泊头市| 班戈县| 科技| 曲沃县| 牡丹江市| 台南县| 谷城县| 进贤县| 随州市| 灵台县| 临颍县| 南木林县| 广德县| 临猗县| 武平县| 黔南| 永城市| 西峡县| 紫云| 榕江县| 兴安盟| 寿光市| 天气| 郁南县| 中山市| 卢湾区| 蒙城县| 兰溪市| 南皮县| 特克斯县| 江西省| 泌阳县| 庐江县| 华容县| 二连浩特市| 陕西省| 大邑县|