• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于注意力機(jī)制的街景圖像語義分割方法

      2022-09-22 06:00:06卞亞林
      軟件導(dǎo)刊 2022年9期
      關(guān)鍵詞:池化細(xì)化注意力

      瑚 琦,王 兵,卞亞林

      (1.上海理工大學(xué)光電信息與計(jì)算機(jī)工程學(xué)院;2.上海市現(xiàn)代光學(xué)系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,上海 200093)

      0 引言

      圖像語義分割是指按照圖像中像素的語義類別將圖像分割成若干個(gè)不同的區(qū)域,其在自動(dòng)駕駛[1]、醫(yī)學(xué)圖像分析[2]和地理遙感[3]等領(lǐng)域具有重要應(yīng)用價(jià)值。近年來,隨著人工智能的快速發(fā)展,自動(dòng)駕駛系統(tǒng)逐漸興起,街景圖像的語義分割成為自動(dòng)駕駛系統(tǒng)感知道路場景的關(guān)鍵技術(shù)。街景圖像具有物體類別較多、分割目標(biāo)尺度不一及場景復(fù)雜多樣等特點(diǎn),且受光照條件、采集角度等因素影響,加大了街景圖像分割難度。如何對街景圖像進(jìn)行高效準(zhǔn)確的分割一直是研究的熱點(diǎn),研究者利用深度學(xué)習(xí)技術(shù)展開研究,提出一系列不同結(jié)構(gòu)的語義分割網(wǎng)絡(luò)模型[4]。

      2015 年,Long 等[5]提出全卷積網(wǎng)絡(luò)(FCN),開創(chuàng)性地將分類網(wǎng)絡(luò)VGG16[6]中的全連接層改編成卷積層,該網(wǎng)絡(luò)能接受任意大小的輸入圖像,實(shí)現(xiàn)了端到端的訓(xùn)練。然而,該網(wǎng)絡(luò)中連續(xù)的下采樣操作減小了圖像分辨率,導(dǎo)致物體的細(xì)節(jié)信息丟失,雖然在淺層特征和深層特征之間采用跳躍連接,但分割結(jié)果仍不夠精細(xì)。Noh 等[7]構(gòu)建的編碼器—解碼器網(wǎng)絡(luò)DeconvNet,在解碼器中通過反池化和反卷積操作來捕獲物體更精細(xì)的細(xì)節(jié)信息,以解決物體的詳細(xì)結(jié)構(gòu)丟失問題。但由于上采樣階段圖像分辨率較大,該網(wǎng)絡(luò)在解碼器中使用大量反卷積操作會導(dǎo)致網(wǎng)絡(luò)計(jì)算量大幅增加。Badrinarayanan 等[8]提出對稱的編碼器—解碼器網(wǎng)絡(luò)SegNet,編碼器中采用池化索引存儲像素的位置信息,解碼器中使用相應(yīng)編碼器的池化索引執(zhí)行上采樣,進(jìn)而改善了物體的邊緣分割,然而該網(wǎng)絡(luò)采用對稱的冗余結(jié)構(gòu)參數(shù)量太大。Chen 等[9]提出的DeepLab 網(wǎng)絡(luò)使用全連接條件隨機(jī)場(CRF)對分割結(jié)果進(jìn)行后處理,以提高模型捕獲精細(xì)邊緣細(xì)節(jié)的能力。實(shí)際訓(xùn)練中,CRF 后處理方法計(jì)算較復(fù)雜,并占用大量計(jì)算機(jī)內(nèi)存[10]。Pohlen 等[11]在全分辨率殘差網(wǎng)絡(luò)FRRN 中使用兩個(gè)處理流提取特征,池化流通過下采樣操作提取用于識別的高級特征,殘差流中以完整圖像分辨率攜帶信息提取用于像素定位的低級特征。雖然這種方法能有效提取不同級別的特征,但是殘差流中特征圖經(jīng)過一系列卷積操作后保持圖像分辨率不變會大幅增加網(wǎng)絡(luò)計(jì)算量。Paszke 等[12]提出的ENet 網(wǎng)絡(luò)和Treml 等[13]提出的SQ 網(wǎng)絡(luò)均采用輕量級的編碼器—解碼器結(jié)構(gòu),雖然實(shí)現(xiàn)了實(shí)時(shí)語義分割并有效減少了模型參數(shù)量,但降低了模型性能。

      以上語義分割方法仍存在分割精度不理想、參數(shù)量大和計(jì)算較復(fù)雜等問題。為進(jìn)一步改善街景圖像語義分割性能,本文提出一種注意力語義分割網(wǎng)絡(luò),通過空間注意力模塊和通道注意力模塊細(xì)化提取的特征圖,促使網(wǎng)絡(luò)專注于信息豐富的空間區(qū)域和通道,以提高網(wǎng)絡(luò)計(jì)算效率,進(jìn)而提升網(wǎng)絡(luò)性能。此外,注意力模塊具有結(jié)構(gòu)簡單和輕量級的特點(diǎn),因此不會增加網(wǎng)絡(luò)復(fù)雜度。本文工作主要貢獻(xiàn)如下:①提出一種注意力語義分割網(wǎng)絡(luò),構(gòu)建空間注意力模塊(Spatial Attention Module,SAM)和通道注意力模塊(Channel Attention Module,CAM),分別從空間維度和通道維度細(xì)化主干網(wǎng)絡(luò)提取的特征圖;②通過消融實(shí)驗(yàn)驗(yàn)證了兩個(gè)注意力模塊細(xì)化特征圖的3 種不同組合方式;③在Cityscapes 數(shù)據(jù)集和CamVid 數(shù)據(jù)集上評估了所提注意力網(wǎng)絡(luò)的有效性,分別獲得65.7%、60.0%的均交并比。

      1 注意力網(wǎng)絡(luò)結(jié)構(gòu)

      所提注意力網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。圖1 中(a)為整體網(wǎng)絡(luò)結(jié)構(gòu),(b)為空間注意力模塊,(c)為通道注意力模塊。首先使用ResNet18(Residual Network)[14]作為主干網(wǎng)絡(luò)提取特征,然后并行使用空間注意力模塊和通道注意力模塊細(xì)化提取的特征圖,以增強(qiáng)信息豐富的特征并抑制無用特征,使得網(wǎng)絡(luò)能捕獲到有效的特征信息,再將細(xì)化后的特征圖進(jìn)行級聯(lián)依次輸入一個(gè)3×3 的卷積和一個(gè)1×1 的卷積,3×3 的卷積對特征圖進(jìn)行特征融合,1×1 的卷積將特征圖的通道數(shù)映射為物體類別數(shù)以得到網(wǎng)絡(luò)預(yù)測圖。

      Fig.1 Attention network structure圖1 注意力網(wǎng)絡(luò)結(jié)構(gòu)

      1.1 主干網(wǎng)絡(luò)

      殘差網(wǎng)絡(luò)(Residual Network,ResNet)由He 等[14]于2016 年的CVPR(Computer Vision and Pattern Recognition)會議上提出,該網(wǎng)絡(luò)利用殘差模塊有效解決了網(wǎng)絡(luò)層數(shù)增加時(shí)出現(xiàn)的梯度消失問題,使得訓(xùn)練更深層的網(wǎng)絡(luò)成為可能,殘差模塊結(jié)構(gòu)如圖2 所示。殘差模塊中在輸入和輸出之間引入跳躍連接,提高了網(wǎng)絡(luò)中的信息流動(dòng),有利于網(wǎng)絡(luò)訓(xùn)練。

      Fig.2 Residual module structure圖2 殘差模塊結(jié)構(gòu)

      本文使用ResNet18 作為主干網(wǎng)絡(luò)對圖像進(jìn)行特征提取,將特征圖下采樣到原圖的1/32,以獲取豐富的語義信息。一方面利用殘差結(jié)構(gòu)能使網(wǎng)絡(luò)在訓(xùn)練時(shí)收斂得更好,另一方面輕量級的ResNet18 不會增加網(wǎng)絡(luò)復(fù)雜度。為充分利用不同級別的信息,在1/32 的特征圖和1/8 的特征圖之間使用跳躍連接,將1/32 的特征圖進(jìn)行4 倍上采樣和1/8的特征圖進(jìn)行級聯(lián),該方法能使網(wǎng)絡(luò)利用不同尺度的特征并彌補(bǔ)下采樣階段細(xì)節(jié)信息丟失,進(jìn)而增強(qiáng)網(wǎng)絡(luò)對不同尺度物體的處理能力,同時(shí)提高像素定位準(zhǔn)確性。

      1.2 空間注意力模塊

      空間注意力模塊結(jié)構(gòu)如圖1(b)所示,該模塊的作用是從空間維度細(xì)化主干網(wǎng)絡(luò)提取的特征圖,有助于網(wǎng)絡(luò)更加關(guān)注信息豐富的空間區(qū)域。利用空間注意力模塊細(xì)化特征圖時(shí),對于給定的輸入特征圖X,首先使用一個(gè)1×1 的卷積生成一個(gè)二維特征圖,再通過Sigmoid 函數(shù)得到特征圖每個(gè)空間位置的權(quán)重,權(quán)重大小代表特征圖各空間位置特征的重要程度,最后將得到的權(quán)重與輸入特征圖X 逐空間位置相乘以重新校準(zhǔn)特征圖。空間注意力權(quán)重計(jì)算和特征圖重新校準(zhǔn)過程可由式(1)和式(2)表示。

      式中:σ為Sigmoid 函數(shù);f1×1表示卷積核大小為1×1的卷積操作;α為空間注意力權(quán)重;fSA(.)表示輸入特征圖和相應(yīng)空間注意力權(quán)重逐空間位置相乘;XSA為校準(zhǔn)后的特征圖。

      1.3 通道注意力模塊

      通道注意力模塊結(jié)構(gòu)如圖1中(c)所示,該模塊的作用是從通道維度細(xì)化主干網(wǎng)絡(luò)提取的特征圖,有助于網(wǎng)絡(luò)更加關(guān)注信息豐富的通道。為了更有效地捕獲特征圖通道之間的相互依賴性,在通道注意力模塊中使用全局平均池化和全局最大池化兩種池化方式分別聚合特征圖的空間信息以細(xì)化特征圖,再將各自細(xì)化后的特征圖進(jìn)行級聯(lián)。利用通道注意力模塊細(xì)化特征圖時(shí),對于給定的輸入特征圖X,首先使用池化操作沿空間軸壓縮特征圖聚合空間信息,再通過兩個(gè)1×1 的卷積進(jìn)行通道信息融合,融合后的特征經(jīng)Sigmoid 函數(shù)得到特征圖每個(gè)通道的權(quán)重,權(quán)重大小代表特征圖各通道特征的重要程度,最后將得到的權(quán)重與輸入特征圖X 逐通道相乘以重新校準(zhǔn)特征圖。

      使用全局平均池化聚合特征圖的空間信息時(shí),通道注意力權(quán)重計(jì)算和特征圖重新校準(zhǔn)過程可由式(3)和式(4)表示。

      使用全局最大池化聚合特征圖的空間信息時(shí),通道注意力權(quán)重的計(jì)算和特征圖重新校準(zhǔn)過程可由式(5)和式(6)表示。

      式中:GlobalAvgPool為全局平均池化;GlobalMaxPool為全局最大池化;δ為ReLU 函數(shù);σ為Sigmoid 函數(shù);W1和W2表示兩個(gè)卷積層的權(quán)值矩陣;β1和β2為通道注意力權(quán)重;fCA(.)表示輸入特征圖和相應(yīng)通道注意力權(quán)重逐通道相乘;X1和X2為校準(zhǔn)后的特征圖。

      為充分利用校準(zhǔn)后的特征,將兩種池化方式得到的特征進(jìn)行級聯(lián),然后輸入1×1 的卷積進(jìn)行特征融合并縮減特征圖通道數(shù)以降低參數(shù)量。

      2 實(shí)驗(yàn)

      實(shí)驗(yàn)中選取Cityscapes[15]和CamVid[16]數(shù)據(jù)集訓(xùn)練和評估本文所提注意力網(wǎng)絡(luò),所有實(shí)驗(yàn)均在Ubuntu18.04 操作系統(tǒng)上進(jìn)行。使用pytorch 框架搭建實(shí)驗(yàn)運(yùn)行環(huán)境,實(shí)驗(yàn)的軟件環(huán)境為pytorch1.2,cuda10.0,cudnn7.6.5,硬件配置采用1塊GTX 1080Ti GPU 加速。

      2.1 數(shù)據(jù)集

      Cityscapes 是城市街道場景大型數(shù)據(jù)集,該數(shù)據(jù)集共有5 000 張精細(xì)標(biāo)注的圖片。訓(xùn)練集、驗(yàn)證集和測試集分別包含2 975、500 和1 525 張圖片,所有圖片的分辨率為2 048×1 024。像素標(biāo)注包括30 個(gè)類別物體,其中19 個(gè)類別用于訓(xùn)練和評估。

      CamVid 是基于視頻序列的街道場景數(shù)據(jù)集,該數(shù)據(jù)集共有701 張圖片和11 個(gè)語義類別的像素標(biāo)注。訓(xùn)練集、驗(yàn)證集和測試集分別包含367、101 和233 張圖片,所有圖片分辨率為480×360。

      為防止網(wǎng)絡(luò)訓(xùn)練時(shí)出現(xiàn)過擬合現(xiàn)象,需對數(shù)據(jù)集進(jìn)行增強(qiáng)處理,包括隨機(jī)水平翻轉(zhuǎn)、隨機(jī)旋轉(zhuǎn)和隨機(jī)縮放,其中縮放尺度為{0.5,0.75,1.0,1.25,1.5,1.75,2.0},最后將圖片隨機(jī)裁剪至固定大小進(jìn)行訓(xùn)練。

      2.2 實(shí)驗(yàn)參數(shù)設(shè)置與評價(jià)指標(biāo)

      實(shí)驗(yàn)中合理調(diào)節(jié)學(xué)習(xí)率的大小有利于網(wǎng)絡(luò)訓(xùn)練,本文所有實(shí)驗(yàn)采用poly[17-18]學(xué)習(xí)率策略調(diào)節(jié)學(xué)習(xí)率大小,該方法使得網(wǎng)絡(luò)每訓(xùn)練完一個(gè)iteration 就能動(dòng)態(tài)調(diào)整學(xué)習(xí)率的大小,學(xué)習(xí)率的迭代更新表達(dá)式為:

      式中:iter為當(dāng)前迭代次數(shù);max_iter為總迭代次數(shù);lr為當(dāng)前迭代次數(shù)的學(xué)習(xí)率;base lr為初始學(xué)習(xí)率;power的值設(shè)置為0.9。實(shí)驗(yàn)參數(shù)詳細(xì)信息如表1所示。

      Table 1 Experimental parameter settings表1 實(shí)驗(yàn)參數(shù)設(shè)置

      為了定量評估所提網(wǎng)絡(luò)分割的準(zhǔn)確性,選取語義分割任務(wù)中常用的均交并比(Mean Intersection Over Union,mIoU)[19-20]作為評價(jià)指標(biāo),該評價(jià)指標(biāo)是真實(shí)標(biāo)簽值和網(wǎng)絡(luò)預(yù)測值兩個(gè)集合的交集與并集之比。在實(shí)驗(yàn)中還使用參數(shù)量(Parameters)和計(jì)算量(FLOPs)評估不同網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜度,利用FPS(Frame Per Second)評估不同網(wǎng)絡(luò)的分割速度。

      2.3 消融實(shí)驗(yàn)

      空間注意力模塊(SAM)從空間維度重新校準(zhǔn)圖,通道注意力模塊(CAM)從通道維度重新校準(zhǔn)特征圖,兩個(gè)注意力模塊細(xì)化特征圖的先后順序會影響網(wǎng)絡(luò)性能,因此需要通過消融實(shí)驗(yàn)驗(yàn)證兩個(gè)注意力模塊細(xì)化特征圖的最佳順序,所有消融實(shí)驗(yàn)均在Cityscapes 驗(yàn)證集上進(jìn)行評估驗(yàn)證。消融實(shí)驗(yàn)分3 種情況比較兩種注意力模塊細(xì)化特征圖的方式,即:依次使用空間注意力模塊和通道注意力模塊、依次使用通道注意力模塊和空間注意力模塊以及并行使用兩種注意力模塊,所得實(shí)驗(yàn)結(jié)果如表2所示。

      Table 2 Ablation experiment results表2 消融實(shí)驗(yàn)結(jié)果

      實(shí)驗(yàn)中,首先選取殘差網(wǎng)絡(luò)ResNet18 作為基準(zhǔn)模型(baseline)。使用ResNet18 作為主干網(wǎng)絡(luò)對圖像進(jìn)行特征提取,提取的特征圖為原圖的1/32。為充分利用不同級別的信息,在1/32 的特征圖和1/8 的特征圖之間使用跳躍連接,將1/32 的特征圖進(jìn)行4 倍上采樣和1/8 的特征圖進(jìn)行級聯(lián),級聯(lián)后的特征圖依次通過一個(gè)3×3 的卷積和一個(gè)1×1 的卷積,最后將網(wǎng)絡(luò)輸出特征圖進(jìn)行8 倍上采樣得到原圖大小,基準(zhǔn)模型結(jié)構(gòu)如圖3 所示。從表2 可知,基準(zhǔn)模型在Cityscapes 驗(yàn)證集上的精度為61.9%。

      Fig.3 Benchmark model structure圖3 基準(zhǔn)模型結(jié)構(gòu)

      在基準(zhǔn)模型基礎(chǔ)上,先使用空間注意力模塊,后使用通道注意力模塊細(xì)化提取的特征圖時(shí),網(wǎng)絡(luò)性能從61.9%提升至62.8%;先使用通道注意力模塊,后使用空間注意力模塊細(xì)化提取的特征圖時(shí),網(wǎng)絡(luò)性能從61.9%提升至62.3%;當(dāng)并行使用兩種注意力模塊細(xì)化提取的特征圖時(shí),網(wǎng)絡(luò)的性能從61.9%提升至62.9%。以上實(shí)驗(yàn)表明,并行使用兩種注意力模塊網(wǎng)絡(luò)能達(dá)到更好的性能。相對基準(zhǔn)模型,加入兩種注意力模塊后,網(wǎng)絡(luò)性能都有所提高,這也驗(yàn)證了所提注意力模塊的有效性。此外,加入注意力模塊,網(wǎng)絡(luò)參數(shù)量只有略微增加,體現(xiàn)了注意力模塊輕量級的特點(diǎn)。

      2.4 同其他網(wǎng)絡(luò)比較

      由于Cityscapes 測試集沒有提供真實(shí)標(biāo)簽,因此使用訓(xùn)練好的權(quán)重得到測試集上的預(yù)測標(biāo)簽圖,然后將預(yù)測標(biāo)簽圖提交至Cityscapes 官方網(wǎng)站(https://www.cityscapesdataset.com)進(jìn)行評估。選取SegNet[8]、ENet[12]、SQ[13]、FRRN A[11]、DeepLab[9]、FCN-8s[5]等經(jīng)典網(wǎng)絡(luò)與本文注意力網(wǎng)絡(luò)在Cityscapes 測試集上進(jìn)行性能比較,結(jié)果如表3所示。

      從表3 可知,本文所提注意力網(wǎng)絡(luò)較其他網(wǎng)絡(luò)取得了較好的分割精度和分割速度,表明利用注意力模塊細(xì)化特征圖有利于改善網(wǎng)絡(luò)性能。與大部分網(wǎng)絡(luò)模型相比,所提網(wǎng)絡(luò)模型參數(shù)量較少,雖然ENet 實(shí)現(xiàn)了實(shí)時(shí)語義分割,但以犧牲精度為代價(jià),本文網(wǎng)絡(luò)與其相比,參數(shù)量有所增加,但精度提升7.4%。本文所提模型與FCN-8s 相比,雖然精度僅提升0.4%,但參數(shù)量大幅減少,分割速度顯著提高。綜合對比,本文網(wǎng)絡(luò)較其他網(wǎng)絡(luò)性能更優(yōu)。圖4 展示了所提注意力網(wǎng)絡(luò)模型在Cityscapes 驗(yàn)證集上的部分可視化圖。

      Table 3 Segmentation accuracy of different networks on the Cityscapes test set表3 不同網(wǎng)絡(luò)在Cityscapes測試集上的分割精度

      Fig.4 The proposed attention network visualization圖4 所提注意力網(wǎng)絡(luò)可視化圖

      對于CamVid 數(shù)據(jù)集,實(shí)驗(yàn)中使用訓(xùn)練集和驗(yàn)證集的圖片一起訓(xùn)練模型,所提網(wǎng)絡(luò)在CamVid 測試集上的分割精度如表4 所示。選取DeconvNet[7]、ENet[12]、SegNet[8]、FCN-8s[5]等網(wǎng)絡(luò)與本文網(wǎng)絡(luò)進(jìn)行性能對比,對比結(jié)果如表4 所示。從表4 可知,本文網(wǎng)絡(luò)模型相比其他網(wǎng)絡(luò)模型取得較好的分割效果,參數(shù)量僅比ENet 有所增加,但精度與其相比提高了8.7%。

      3 結(jié)語

      針對現(xiàn)有街景圖像語義分割方法存在分割精度不理想、參數(shù)量大等問題,本文提出一種注意力語義分割網(wǎng)絡(luò)模型。該模型使用殘差網(wǎng)絡(luò)作為主干網(wǎng)絡(luò)提取特征,利用殘差結(jié)構(gòu)提高了網(wǎng)絡(luò)中信息的流動(dòng),有利于網(wǎng)絡(luò)訓(xùn)練。在主干網(wǎng)絡(luò)的頂端通過空間注意力模塊和通道注意力模塊自適應(yīng)重新校準(zhǔn)特征圖,有助于網(wǎng)絡(luò)學(xué)習(xí)更有價(jià)值的特征。經(jīng)Cityscapes 和CamVid 數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證,本文所提注意力網(wǎng)絡(luò)模型與大部分現(xiàn)有語義分割網(wǎng)絡(luò)模型相比,以較少的參數(shù)量實(shí)現(xiàn)了更好的性能。然而,相比輕量級網(wǎng)絡(luò)模型,本文網(wǎng)絡(luò)模型參數(shù)量還有繼續(xù)減少的空間。因此,使網(wǎng)絡(luò)更輕量化的同時(shí)保持其較好的性能將是后續(xù)研究的方向。

      Table 4 Segmentation accuracy of different networks on the CamVid test set表4 不同網(wǎng)絡(luò)在CamVid測試集上的分割精度

      猜你喜歡
      池化細(xì)化注意力
      基于緊湊型雙線性網(wǎng)絡(luò)的野生茵識別方法研究
      無線電工程(2024年8期)2024-09-16 00:00:00
      基于Sobel算子的池化算法設(shè)計(jì)
      讓注意力“飛”回來
      卷積神經(jīng)網(wǎng)絡(luò)中的自適應(yīng)加權(quán)池化
      基于卷積神經(jīng)網(wǎng)絡(luò)和池化算法的表情識別研究
      中小企業(yè)重在責(zé)任細(xì)化
      “細(xì)化”市場,賺取百萬財(cái)富
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      “住宅全裝修”政策亟需細(xì)化完善
      A Beautiful Way Of Looking At Things
      禹州市| 安乡县| 丰都县| 荣昌县| 乐昌市| 汤阴县| 菏泽市| 施甸县| 大足县| 甘洛县| 石楼县| 三穗县| 什邡市| 双流县| 五寨县| 罗田县| 凤翔县| 临武县| 成武县| 中西区| 类乌齐县| 东辽县| 白银市| 庆元县| 凤台县| 永和县| 兴业县| 云霄县| 阜康市| 贺州市| 云林县| 定西市| 肥乡县| 哈尔滨市| 大安市| 富平县| 鲁甸县| 宜昌市| 正镶白旗| 曲周县| 拉孜县|