• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于注意力機(jī)制的全卷積神經(jīng)網(wǎng)絡(luò)模型

      2021-05-07 02:24:26劉孟軒張蕊曾志遠(yuǎn)金瑋武益超
      現(xiàn)代信息科技 2021年23期
      關(guān)鍵詞:語義分割特征融合注意力機(jī)制

      劉孟軒 張蕊 曾志遠(yuǎn) 金瑋 武益超

      摘? 要:全卷積神經(jīng)網(wǎng)絡(luò)FCN-8S在進(jìn)行多尺度特征融合時(shí),由于未能考慮不同尺度特征各自的特點(diǎn)進(jìn)行充分融合,導(dǎo)致分割結(jié)果精度較低,針對這一問題,文章提出了一種基于注意力機(jī)制的多尺度特征融合的全卷積神經(jīng)網(wǎng)絡(luò)模型。該模型基于注意力機(jī)制對FCN-8S中的不同尺度特征進(jìn)行加權(quán)特征融合,以相互補(bǔ)充不同尺度特征包含的不同信息,進(jìn)而提升網(wǎng)絡(luò)的分割效果。文章模型在公共數(shù)據(jù)集PASCAL VOC2012和Cityscapes上進(jìn)行驗(yàn)證,MIoU相對于FCN-8S分別提升了2.2%和0.8%。

      關(guān)鍵詞:語義分割;全卷積神經(jīng)網(wǎng)絡(luò);注意力機(jī)制;特征融合

      中圖分類號:TP391.4? ? ? ? 文獻(xiàn)標(biāo)識碼:A文章編號:2096-4706(2021)23-0092-04

      Full Convolutional Neural Network Model Based on Attention Mechanism

      LIU Mengxuan, ZHANG Rui, ZENG Zhiyuan, JIN Wei, WU Yichao

      (North China University of Water Resources and Electric Power, Zhengzhou, 450046, China)

      Abstract: Aiming at the problem of low accuracy of segmentation results due to the failure to consider the respective characteristics of different scale features when the fully convolutional neural network FCN-8S performs multi-scale feature fusion, this paper proposes a fully convolutional neural network model with multi-scale feature fusion based on attention mechanism. This model is based on the attention mechanism to perform weighted feature fusion of different scale features in FCN-8S to complement each other with different information contained in different scale features, thereby improving the segmentation effect of the network. The model proposed in this paper is verified on the public data sets PASCAL VOC2012 and Cityscapes. Compared with FCN-8S, MIoU increases by 2.2% and 0.8%, respectively.

      Keywords: semantic segmentation; full convolutional neural network; attention mechanism; feature fusion

      0? 引? 言

      圖像語義分割是計(jì)算機(jī)視覺領(lǐng)域的三大核心任務(wù)之一,其目標(biāo)是為圖像中的每一個(gè)像素分配一個(gè)預(yù)先定義好的語義類別標(biāo)簽,并對不同的目標(biāo)進(jìn)行分割[1]。近年來,隨著深度學(xué)習(xí)[2]在計(jì)算機(jī)視覺領(lǐng)域的不斷發(fā)展,語義分割在越來越多的領(lǐng)域中得到了廣泛應(yīng)用,比如自動駕駛,醫(yī)療圖像分割和物體缺陷檢測等,成為當(dāng)下研究的熱點(diǎn)。

      隨著計(jì)算機(jī)算力的不斷提升,深度學(xué)習(xí)方法得到了人們的廣泛關(guān)注,并逐步被應(yīng)用于圖像處理領(lǐng)域。2015年,Long等人[3]將圖像分類網(wǎng)絡(luò)VGG-16[4]中的全連接層替換為卷積層,形成了全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Network, FCN),首次實(shí)現(xiàn)了端到端的圖像語義分割。但由于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)[5]中的池化操作,輸入圖像在下采樣過程中分辨率大幅下降,丟失了大量空間位置信息,導(dǎo)致FCN最終的分割結(jié)果較為粗糙。為了解決這個(gè)問題,F(xiàn)CN-8s通過融合三個(gè)尺度的特征獲得了比只使用一個(gè)特征的FCN-32s更好的結(jié)果,但分割結(jié)果仍然不夠精細(xì)。同時(shí)FCN-8s在進(jìn)行特征融合時(shí)賦予了三個(gè)尺度特征相同的權(quán)重,未考慮到不同尺度特征的差異。

      針對以上問題,本文通過注意力機(jī)制有選擇的強(qiáng)調(diào)有用特征而抑制無用的特征,在空間和通道兩個(gè)維度上計(jì)算注意力分布,對FCN-8S中不同尺度特征賦予不同的權(quán)重來充分融合多尺度特征,以提升最終的分割效果。實(shí)驗(yàn)證明,本文提出的基于注意力機(jī)制的FCN能夠更有效地進(jìn)行特征融合,提升最終的分割效果,在公共數(shù)據(jù)集PASCAL VOC2012[6]和Cityscapes[7]上取得了較好的結(jié)果。

      1? 相關(guān)研究

      隨著計(jì)算機(jī)硬件性能的提升,深度學(xué)習(xí)技術(shù)得到迅速發(fā)展,深度卷積神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于圖像處理領(lǐng)域。2015年,Long等人[3]提出的FCN使語義分割進(jìn)入了一個(gè)全新的階段,大量研究人員嘗試使用全卷積神經(jīng)網(wǎng)絡(luò)來解決語義分割模型。比如常用于醫(yī)療圖像分割的UNet[8],為了減少FCN下采樣過程中損失的信息,其在上采樣和與之對應(yīng)的下采樣之間構(gòu)建跳躍連接,進(jìn)行特征融合,形成了一個(gè)對稱的U型結(jié)構(gòu)。HRNet[9]通過并行連接高分辨率到低分辨率卷積來保持高分辨率表示,并通過重復(fù)跨并行卷積執(zhí)行多尺度融合來增強(qiáng)高分辨率表示,實(shí)驗(yàn)證明了其在像素級分類任務(wù)上的有效性。上述方法雖然通過特征融合也獲得了很好的效果,但簡單的等權(quán)值融合方式忽略了不同特征的差異性,未能充分利用各層特征包含的豐富信息。而計(jì)算機(jī)視覺中的注意力機(jī)制可以看作是一個(gè)基于輸入圖像特征的動態(tài)權(quán)重調(diào)整過程[10],常見的有通道注意力機(jī)制SENet[11],空間注意力機(jī)制GENet[12]和聯(lián)合空間和通道注意力的CBAM[13]、BAM[14]等。故本文基于注意力機(jī)制對FCN-8S中三個(gè)尺度特征進(jìn)行加權(quán)融合,改進(jìn)FCN-8S的性能,提升分割精度。

      2? 本文方法

      本文提出的語義分割模型框架如圖1所示。模型以全卷積神經(jīng)網(wǎng)絡(luò)FCN-8S作為基礎(chǔ)網(wǎng)絡(luò),在其特征融合時(shí)加入BAM注意力模塊對不同尺度特征進(jìn)行加權(quán),以強(qiáng)調(diào)利于分割的有用信息,抑制無用的冗余信息,提升網(wǎng)絡(luò)的分割性能。具體操作為:首先對VGG網(wǎng)絡(luò)提取到的尺度為原圖1/8、1/16和1/32大小的特征分別使用BAM注意力模塊計(jì)算注意力分布,得到帶有注意力權(quán)重的不同尺度特征;然后將其按照FCN-8S中的融合方式進(jìn)行特征融合,得到尺度為原圖1/8大小的特征;再對其進(jìn)行8倍上采樣,最后利用softmax分類函數(shù)得到最終分割結(jié)果。

      BAM模塊[14]的結(jié)構(gòu)如圖2所示,輸入的特征F分別通過兩個(gè)獨(dú)立的分支計(jì)算得到通道注意力圖Mc(F)和空間注意力圖Ms(F),然后對兩個(gè)注意力圖進(jìn)行特征融合并經(jīng)過sigmod激活函數(shù)得到BAM注意力圖M(F),最后將輸入特征F與M(F)逐元素相乘后再特征融合得到具有注意力權(quán)重的特征。其中有兩個(gè)超參數(shù)膨脹值d和縮減比r。膨脹值決定了接受域的大小,這有助于空間分支上的上下文信息聚集;縮減比控制兩個(gè)注意分支的容量和開銷。這里d和r分別設(shè)置為4和16。

      3? 實(shí)驗(yàn)結(jié)果與分析

      3.1? 數(shù)據(jù)集及評價(jià)指標(biāo)

      本文在公開的PASCAL VOC2012[6]和Cityscapes[7]數(shù)據(jù)集上驗(yàn)證所提模型的性能。PASCAL VOC2012是用于視覺對象類挑戰(zhàn)比賽的數(shù)據(jù)集,包括人、動物、交通工具和生活用品等20類常見物體對象和1個(gè)背景類。本文使用SBD數(shù)據(jù)集[15]對PASCAL VOC2012數(shù)據(jù)集對進(jìn)行擴(kuò)充,得到訓(xùn)練集圖像10 582張,驗(yàn)證集1 449張和測試集1 456張。Cityscapes數(shù)據(jù)集記錄了50個(gè)不同城市的街道場景,擁有5 000張高質(zhì)量像素級注釋的圖像以及20 000張粗糙注釋的圖像。5 000張精細(xì)標(biāo)注圖像中2 975張圖像用于訓(xùn)練,500張圖像用于驗(yàn)證,1 525張圖像用于測試,一般使用19個(gè)類別標(biāo)注。每張圖像大小均為2 048×1 024,圖像中道路場景復(fù)雜,目標(biāo)類別尺度不一。

      本文使用語義分割領(lǐng)域常用的評價(jià)指標(biāo)像素精度(Pixel Accuracy, PA)和平均交并比(Mean Intersection over Union, MIoU)來評估模型的性能和預(yù)測結(jié)果的準(zhǔn)確性。假設(shè)總計(jì)有k+1分類(標(biāo)記為L0到Lk,其中包含一個(gè)背景類別),Pij表示類別為i的像素被預(yù)測為類別為j的數(shù)目。

      像素精度PA表示預(yù)測正確的像素和總的像素的比率[3],用以下公式計(jì)算:

      平均交并比MIoU通過計(jì)算真實(shí)值集合和預(yù)測值集合的交集和并集之比來計(jì)算圖像真值與預(yù)測結(jié)果的重合程度[3],是最具代表性的語義分割度量指標(biāo)。它先基于每個(gè)類別計(jì)算,然后再求均值,公式為:

      3.2? 實(shí)驗(yàn)環(huán)境

      本文模型在Ubuntu 18.04系統(tǒng)上基于開源框架PyTorch實(shí)現(xiàn),并使用NVIDIA GeForce GTX 1 080 Ti(11 GB)圖形處理器進(jìn)行加速。在訓(xùn)練過程對圖片隨機(jī)進(jìn)行0.5倍、2倍縮放,并進(jìn)行隨機(jī)裁剪,以預(yù)防訓(xùn)練過程中出現(xiàn)過擬合。對于VOC2012數(shù)據(jù)集,圖片大小裁剪為321×321,設(shè)置批處理大小為8,迭代50個(gè)epoch。由于GPU內(nèi)存的限制,對于Cityscapes數(shù)據(jù)集,首先對訓(xùn)練集分辨率大小為2 048×1 024的圖片下采樣為1 024×512大小,再將圖片大小裁剪為473×473,迭代100個(gè)epoch。優(yōu)化算法使用隨機(jī)梯度下降SGD,動量設(shè)置為0.9,學(xué)習(xí)率使用poly衰減策略,初始學(xué)習(xí)率設(shè)置為0.01,權(quán)重衰減系數(shù)設(shè)置為0.000 1。

      3.3? 實(shí)驗(yàn)結(jié)果分析

      3.3.1? 對比試驗(yàn)

      為了驗(yàn)證本文方法的效果,分別在PASCAL VOC2012和Cityscapes驗(yàn)證集上與FCN-8s和Deeplabv2進(jìn)行實(shí)驗(yàn)對比,結(jié)果如表1和表2所示,MIoU分別達(dá)到了68.1%和55.1%,相對于FCN-8S分別提升了2.2%和0.8%。

      結(jié)合表1和表2可知,在同等的實(shí)驗(yàn)環(huán)境下,本文提出的方法相對于FCN-8S取得了更好的結(jié)果。在PASCAL VOC2012數(shù)據(jù)集上像素精度PA和平均交并比MIoU分別為91.4%和68.1%,相對于FCN-8S分別提升了0.7%和2.2%;在Cityscapes數(shù)據(jù)集上PA和MIoU為91.3%和55.1%,對比FCN-8S像素精度PA沒有提升,但MIoU提升了0.8%。說明本文提出的基于注意力機(jī)制的多尺度特征融合策略是有效的,能夠充分考慮不同尺度特征各自的特點(diǎn),關(guān)注重點(diǎn)信息,忽略無效信息,有效改善了FCN-8S的分割效果。

      3.3.2? 語義分割可視化

      為了更加直觀的看出本文所提方法的效果,在PASCAL VOC2012驗(yàn)證集上與FCN-8S的預(yù)測結(jié)果進(jìn)行可視化對比分析,結(jié)果如圖3所示。第一行中FCN-8S將火車附近區(qū)域部分像素誤分為了人,而本文方法沒有誤分,分割結(jié)果相對準(zhǔn)確;第二行FCN-8S對于馬腿這種小目標(biāo)并不能完整分割出來,還將部分背景像素誤分為其他類,而本文方法相對于FCN-8S分割結(jié)果較為精細(xì),并且誤分的像素較少,說明其具有一定的細(xì)節(jié)捕捉能力,能夠關(guān)注重點(diǎn)目標(biāo)區(qū)域;第三行奶牛類FCN-8S誤分類現(xiàn)象嚴(yán)重,而本文方法分割較為完整,誤分現(xiàn)象相對于FCN-8S有所改善。綜上,可以說明本文提出的基于注意力機(jī)制的融合方法能夠充分融合各尺度特征,相對于FCN-8S的等權(quán)值融合方法具有更好的效果,能夠有效改善FCN-8S的分割效果。

      4? 結(jié)? 論

      本文模型針對全卷積神經(jīng)網(wǎng)絡(luò)FCN-8S在進(jìn)行特征融合時(shí)未考慮到不同尺度特征各自的特點(diǎn),通過簡單的等權(quán)值拼接融合得到的分割結(jié)果較為粗糙的問題,提出了一種基于注意力機(jī)制的多尺度特征融合的全卷積神經(jīng)網(wǎng)絡(luò)模型。該模型以FCN-8S為基礎(chǔ)網(wǎng)絡(luò),引入注意力機(jī)制從空間和通道兩個(gè)維度計(jì)算注意力分布,強(qiáng)調(diào)利于分割的有用信息,抑制冗余信息,對不同尺度特征進(jìn)行加權(quán)融合,以充分利用各尺度特征信息,改善FCN-8S的分割效果。實(shí)驗(yàn)結(jié)果表明,本文提出的模型相對于FCN-8S有更好的分割結(jié)果,說明本文的特征融合策略是有效的。但是,本文模型仍有一定局限性,F(xiàn)CN-8S是相對較老的模型,本身分割效果有限,如何將本文特征融合方法與其他更優(yōu)秀的模型相結(jié)合進(jìn)一步提升網(wǎng)絡(luò)分割效果是下一步重要的工作。此外如何進(jìn)一步提升邊界的分割精度也是一個(gè)重要的內(nèi)容。

      參考文獻(xiàn):

      [1] 田萱,王亮,丁琪.基于深度學(xué)習(xí)的圖像語義分割方法綜述 [J].軟件學(xué)報(bào),2019,30(2):440-468.

      [2] HINTON G E,SALAKHUTDINOV R R. Reducing the Dimensionality of Data with NeuralNnetworks [J].Science,2006,313(5786):504-507.

      [3] LONG J,SHELHAMER E,DARRELL T. Fully Convolutional Networks for Semantic Segmentation [C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Boston:IEEE,2015:3431-3440.

      [4] SIMONYAN K,ZISSERMAN A. Very Deep Convolutional Networks for large-scale image Recognition [J/OL].arXiv:1409.1556 [cs.CV].[2021-11-13].https://arxiv.org/abs/1409.1556.

      [5] KRIZHEVSKY A,SUTSKEVER I,HINTON G E. Imagenet Classification with Deep Convolutional Neural Networks [EB/OL].[2021-11-13].https://web.cs.ucdavis.edu/~yjlee/teaching/ecs289g-winter2018/alexnet.pdf.

      [6] EVERINGHAM M,ESLAMI S M A,VAN GOOL L,et al. The pascal visual Object Classes challenge: A Retrospective [J].International Journal of Computer Vision,2015,111:98-136.

      [7] CORDTS M,OMRAN M,RAMOS S,et al. The Cityscapes Dataset for Semantic Urban Scene Understanding [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas:IEEE,2016:3213-3223.

      [8] RONNEBERGER O,F(xiàn)ISCHER P,BROX T. U-net:Convolutional Networks for Biomedical image Segmentation [J/OL]. arXiv:1505.04597 [cs.CV].[2021-11-13].https://arxiv.org/abs/1505.04597.

      [9] SUN K,XIAO B,LIU D,et al. Deep High-Resolution Representation Learning for Human Pose Estimation [C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Long Beach:IEEE,2019:5686-5696.

      [10] GUO M H,XU T X,LIU J J,et al. Attention Mechanisms in Computer Vision:A Survey [J/OL].arXiv:2111.07624 [cs.CV].[2021-11-13].https://arxiv.org/abs/2111.07624.

      [11] HU J,SHEN L,ALBANIE S,et al. Squeeze-and-Excitation Networks [J].IEEE Transactions on Pattern Analysis and Machine Intelligence.2020,42(8):2011-2023.

      [12] HU J,SHEN L,ALBANIE S,et al. Gather-excite:Exploiting Feature Context in Convolutional Neural Networks [J/OL].arXiv:1810.12348 [cs.CV].[2021-11-13].https://arxiv.org/abs/1810.12348.

      [13] WOO S,PARK J,LEE J Y,et al. CBAM: Convolutional Block Attention Module [C]//Computer Vision–ECCV 2018.Munich:view affiliations,2018:3-19.

      [14] PARK J,WOO S,LEE J Y,et al. Bam:Bottleneck Attention module [J/OL].arXiv:1807.06514 [cs.CV].[2021-11-13].https://arxiv.org/abs/1807.06514.

      [15] HARIHARAN B,ARBELáEZ P,BOURDEV L,et al. Semantic contours from inverse detectors [C]//2011 International Conference on Computer Vision.Barcelona:IEEE,2011:991-998.

      作者簡介:劉孟軒(1997—),男,漢族,河南洛陽人,碩士研究生在讀,研究方向:圖像語義分割;張蕊(1980—),女,漢族,河南濮陽人,碩士生導(dǎo)師,博士,研究方向: 圖像處理、三維場景語義分割、激光雷達(dá)點(diǎn)云數(shù)據(jù)處理;曾志遠(yuǎn)(1997—),男,漢族,河南駐馬店人,碩士研究生在讀,研究方向:圖像語義分割;金瑋(1996—),男,漢族,河南周口人,碩士研究生在讀,研究方向:圖像處理;武益超(1999—),男,漢族,河南安陽人,碩士研究生在讀,研究方向:點(diǎn)云語義分割。

      猜你喜歡
      語義分割特征融合注意力機(jī)制
      基于積神經(jīng)網(wǎng)絡(luò)的圖像著色方法研究
      基于深度學(xué)習(xí)的問題回答技術(shù)研究
      基于全卷積網(wǎng)絡(luò)FCN的圖像處理
      基于語義分割的車道線檢測算法研究
      基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
      基于語義分割的增強(qiáng)現(xiàn)實(shí)圖像配準(zhǔn)技術(shù)
      基于注意力機(jī)制的雙向LSTM模型在中文商品評論情感分類中的研究
      軟件工程(2017年11期)2018-01-05 08:06:09
      InsunKBQA:一個(gè)基于知識庫的問答系統(tǒng)
      基于移動端的樹木葉片識別方法的研究
      科技資訊(2017年11期)2017-06-09 18:28:13
      基于SIFT特征的港口內(nèi)艦船檢測方法
      大荔县| 栾城县| 淮安市| 沂南县| 从化市| 平乐县| 云林县| 昆山市| 桑植县| 明水县| 宁国市| 土默特右旗| 汉源县| 博客| 葫芦岛市| 龙南县| 黄冈市| 汝阳县| 东阳市| 吉木乃县| 玛曲县| 宜昌市| 乐昌市| 施秉县| 洛川县| 盐山县| 铜梁县| 平邑县| 彩票| 甘孜县| 二手房| 吴川市| 安化县| 德昌县| 洱源县| 金堂县| 当涂县| 靖远县| 新竹县| 应城市| 务川|