• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      輪廓檢測深度學習模型的多尺度特征解碼網(wǎng)絡

      2021-07-12 03:14張曉林川王蕤興
      廣西科技大學學報 2021年3期
      關鍵詞:計算機視覺卷積神經(jīng)網(wǎng)絡

      張曉 林川 王蕤興

      摘? 要:輪廓檢測旨在提取自然場景中目標形狀以及區(qū)域與區(qū)域之間顯著的分界線,是計算機視覺中的研究熱點之一.近幾年,基于卷積神經(jīng)網(wǎng)絡的輪廓檢測模型取得了顯著突破,這些模型由編碼網(wǎng)絡和解碼網(wǎng)絡兩部分構成.編碼網(wǎng)絡一般采用現(xiàn)有的VGG16網(wǎng)絡,研究者主要致力于解碼網(wǎng)絡設計.考慮到自然圖像中包含許多不同尺度的輪廓,充分利用豐富的層級特征對于輪廓檢測非常重要.因此,從充分利用多尺度特征的角度出發(fā),提出一種能夠有效整合不同尺度卷積特征信息的解碼網(wǎng)絡結構.將輸入信息分成淺層、中層和深層3種特征,利用解碼網(wǎng)絡分別對不同尺度的特征進行整合,最后平均融合3種特征,進行圖像到圖像的輪廓預測,在BSDS500數(shù)據(jù)集上對模型進行評估.對比實驗結果表明,模型預測的輪廓清晰,最佳數(shù)據(jù)集尺度指標達到了0.818,具有較好的性能評估指標.

      關鍵詞:輪廓檢測;卷積神經(jīng)網(wǎng)絡;解碼網(wǎng)絡;多尺度特征;計算機視覺

      中圖分類號:TP391.41? ? ? ? DOI:10.16375/j.cnki.cn45-1395/t.2021.03.010

      Zhang等[18]引入注意力機制,提出一種實時的注意力邊緣檢測框架,雖然檢測精度一般,但是幀數(shù)很高.Lin等[19]提出基于權重卷積和臨近連接的解碼網(wǎng)絡結構,該網(wǎng)絡被稱為橫向提純網(wǎng)絡(lateral refined network,LRNet),能夠較好地整合不同層次的特征信息.

      上述CNN模型已經(jīng)顯著地提升了輪廓檢測的性能水平.這些方法使用VGG16作為編碼網(wǎng)絡,只利用每個階段最后1層的卷積特征,這樣的做法不能充分利用VGG16豐富的卷積層特征,在預測細節(jié)上會有很多缺失.因此,從充分利用多尺度和不同層級的卷積特征角度出發(fā),設計了1個能夠更有效地融合多種卷積特征的解碼網(wǎng)絡,將VGG16所有卷積層的輸出按照尺度進行分組處理,最后平均融合不同尺度的特征預測,得到最終預測結果.為了檢驗模型性能,在BSDS500數(shù)據(jù)集[5]上進行定性和定量的評價,并與其他CNN模型的檢測效果進行對比.實驗結果表明,本文提出的模型優(yōu)于其他CNN模型,取得了較好的檢測性能.

      1? ? 網(wǎng)絡模型

      1.1? ?網(wǎng)絡架構

      本文以VGG16作為編碼網(wǎng)絡,設計了更有效的解碼網(wǎng)絡.VGG16由13個卷積層和3個全連接層組成,在圖像分類[13]、目標檢測[20]等計算機視覺任務中實現(xiàn)了較好的性能.圖1展示了本文提出的CNN模型結構,可以看到網(wǎng)絡整體由編碼網(wǎng)絡和解碼網(wǎng)絡2部分構成,圖像從編碼網(wǎng)絡輸入,解碼網(wǎng)絡接收VGG16所有卷積層的輸出特征,產(chǎn)生輪廓預測.圖1(a)展示了編碼網(wǎng)絡,編碼網(wǎng)絡由改動后的VGG16網(wǎng)絡構成.相比原來的VGG16結構,本文以池化層作為分界線,將VGG16的卷積層分成S1、S2、S3、S4和S5 5個階段,同時去除網(wǎng)絡最后的3個全連接層以及最后的1個池化層.原因有二:一是因為模型不進行分類任務,不需要全連接層;二是因為最后的1個池化層導致特征分辨率已變?yōu)樵瓉淼?/32.經(jīng)過上采樣后輪廓會很粗,這對于輪廓定位是有害的.同樣,考慮到S5中的特征分辨率已經(jīng)變?yōu)樵瓉淼?/16,將S5之前的池化層改成空洞卷積結構.空洞卷積是Chen等[21]提出的一種卷積核結構,他在圖像分割任務中證明了這種結構的有效性.空洞卷積可以在不改變特征的分辨率和不增加網(wǎng)絡計算參數(shù)的前提下,提取多尺度特征.圖1(b)展示了解碼網(wǎng)絡的整體結構,解碼網(wǎng)絡具體的描述如下:

      1)解碼網(wǎng)絡的輸入來自編碼網(wǎng)絡的13個卷積層的輸出特征.由于越深的卷積層提取到的輪廓特征越粗略,因此,將每個階段中第一個卷積層的輸出特征定義為淺層特征,記為“L”;第二個卷積層的輸出特征定義為中層特征,記為“M”;第三個卷積層的輸出特征定義為深層特征,記為“D”.隨后,將淺層特征L1—L5、中層特征M1—M5、深層特征D1—D3分成3組,分別輸入一系列精煉模塊R中,“R”的具體結構見圖2,通過逐級融合得到3種不同尺度的輸出特征.輸出_1和輸出_2分別經(jīng)過通道深度為1的1×1卷積層后得到相應尺度的預測,輸出_3經(jīng)過通道深度為1的1×1卷積層和雙線性上采樣后得到相應的預測.最后,將3種預測平均融合得到最終的輪廓預測,并計算其損失.

      2)圖2展示了精煉模塊R的主體結構.精煉模塊接收2個輸入特征,每個輸入分別經(jīng)過1個權重卷積層,其中分辨率低的特征通過雙線性上采樣恢復分辨率,最后兩者相加融合得到輸出,輸出特征的通道數(shù)與輸入特征中通道數(shù)少的保持一致.

      3)圖3展示了精煉模塊R中權重卷積層的具體結構.與Lin的結構[19]不同的是,模型增加了1個批歸一化層(batch normalization,BN),減緩網(wǎng)絡過擬合以及增強網(wǎng)絡泛化能力.特征信息進入權重卷積層后,依次經(jīng)過1個3×3卷積層、線性整流單元(rectified linear unit,ReLU)和BN層后,乘以1個經(jīng)過sigmoid函數(shù)歸一化的超參系數(shù)φ,最終輸出.3×3卷積層的通道數(shù)與精煉模塊的2個輸入中通道數(shù)少的一致.

      綜上所述,本文將VGG16所有卷積層的特征組合到1個統(tǒng)一的框架中,從結構上看,本文提出的解碼網(wǎng)絡是1個水平方向上不斷加深的網(wǎng)絡,同時將不同層級的特征分別進行處理,這種慢慢的提純操作使得解碼網(wǎng)絡有望解析出更精細的輪廓.

      1.2? ?損失函數(shù)

      從圖1(b)可知,針對最后的輪廓預測圖,計算每一個像素跟標簽的損失.因為正負樣本的分布不均衡,所以采用類平衡交叉熵損失函數(shù).考慮到BSDS500數(shù)據(jù)集的標簽被多人標注的問題,引入閾值[η]用于損失的計算.對于1張真實輪廓圖[Y=yj,? j=1,? …, Y,? yj∈0,? 1],定義[Y+=yj,? yj>η]和[Y?=yj,? yj=0],[Y+]和[Y?]分別代表正樣本集和負樣本集,其他像素全部忽略,因此,損失計算如式(1)所示.

      [l(P, Y)= ?αj∈Y?log(1?pj)?βj∈Y+log(pj)]? ?(1)

      [α=λ?Y+Y++Y?β=Y?Y++Y?]? ? ? ? ? ? ? ? ? ? ? ? (2)

      式(1)中:[P]代表輪廓預測,[pj]代表在預測的像素j處經(jīng)過一個sigmoid函數(shù)處理后的值,[α]和[β]分別用于平衡正負樣本,[λ]是用于控制[α]大小的權重.

      2? ? 實驗結果與分析

      2.1? ?網(wǎng)絡訓練

      在BSDS500數(shù)據(jù)集上評估模型性能.BSDS500數(shù)據(jù)集是一個公開的用于訓練和評估輪廓檢測模型的數(shù)據(jù)集,包括200張訓練圖片,100張驗證圖片,200張測試圖片,每張圖片的標簽由多人標注組成.與文獻[14-15, 19]中的訓練策略一樣,將訓練集和驗證集合并,共同作為訓練集,通過隨機縮放、旋轉和翻轉來擴增數(shù)據(jù)集.同時,將BSDS500的擴增數(shù)據(jù)集和翻轉的PASCAL VOC Context數(shù)據(jù)集[22]混合作為訓練集去訓練網(wǎng)絡.本文也利用圖像金字塔進行多尺度輪廓檢測,以進一步提升檢測性能.具體地,首先把1張輸入圖像的大小調整為3種不同的分辨率,并且把每一張圖片都輸入到網(wǎng)絡.隨后,通過雙線性插值將輸出調整為原始分辨率.最后,平均所有的輸出得到最終預測.出于對精度和速度的權衡,在本文中使用的3種比例分別是0.5、1.0和2.0.

      本文使用PyTorch實現(xiàn)網(wǎng)絡設計,使用在ImageNet[23]上預訓練的VGG16用于初始化主干網(wǎng)絡,其他卷積層使用均值為0、標準差為0.01的高斯分布進行初始化.所有BN層的權重和偏差分別使用1和0初始化.解碼網(wǎng)絡中,權重卷積層的系數(shù)[φ]初始化為0.計算損失時,閾值[η]設置為0.2,參數(shù)[λ]設置為1.同時,將隨機梯度下降(stochastic gradient descent,SGD)算法作為網(wǎng)絡訓練的優(yōu)化器,批大小設置為4,初始全局學習率、動量(momentum)和權重衰減(weight decay)分別設置為1.0×10-6、0.9和0.2×10-3.由于顯存限制,隨機從每幅圖片中裁剪280×280分辨率的圖像塊,共訓練48 000次迭代,每12 000次迭代學習率衰減10倍.所有的實驗均在一塊11 G顯存的NVIDIA GeForce 2080Ti 顯卡上完成.

      跟隨之前的研究工作[12, 14-15, 19, 24],執(zhí)行標準的非極大值抑制來獲得最終的輪廓預測.最后,使用通用的F-measure評價體系對模型性能進行評估,在評估期間,輪廓預測和真實輪廓之間的容錯距離設置為0.007 5.F值的計算見式(3).

      [F=2PRP+R]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(3)

      [P=TPTP+FP]? ? ? ? ? ? ? ? ? ? ? ? ? ?(4)

      [R=TPTP+FN]? ? ? ? ? ? ? ? ? ? ? ? ? ?(5)

      式(3)中:P表示精確率(Precision),R表示回歸率(Recall).式(4)和式(5)中:[TP]代表預測圖中正確的輪廓像素個數(shù),[FP]代表預測圖中錯誤的輪廓像素個數(shù),[FN]代表真實輪廓圖中被漏檢的輪廓像素個數(shù).在F-measure評價體系下,使用3個定量標準指標來評估模型:最佳數(shù)據(jù)集尺度(optimal dataset scale,ODS)、最佳圖像尺度(optimal image scale,OIS)和平均精確度(average precision,AP).

      2.2? ?與其他模型的對比

      為了定性觀察模型的檢測效果,從BSDS500數(shù)據(jù)集中隨機選取了4張圖片作對比,如圖4所示.圖4第一行為原圖,第二行為真實輪廓圖,第三行到第五行分別是CED[24]、LRNet[19]和本文模型的輪廓預測圖.從圖4中可以看出,本文模型的預測結果整體上輪廓線條更清晰,檢測到的細節(jié)更多.

      為了定量評估模型,在BSDS500數(shù)據(jù)集下,首先將本文模型同非深度學習模型進行比較,例如Canny[7]、PMI[25]、SE[10],隨后同近幾年的CNN模型進行比較,例如DeepContour[11]、DeepEdge[26]、HED[12]、COB[27]、RCF[14]、CED[24]、LPCB[15]、ContourGAN[16]和LRNet[19].表1展示了各個模型的定量評估結果,“VOC”表示使用混合了PASCAL VOC Context數(shù)據(jù)集的BSDS500數(shù)據(jù)集作為訓練集,“MS”表示多尺度.從表1中可以看出,本文提出的模型比其他CNN模型實現(xiàn)了更好的ODS和OIS,單尺度ODS和多尺度ODS均比LRNet高出0.2%,同時也超過了人類在BSDS500數(shù)據(jù)集上的基準(ODS=0.803).CED模型實現(xiàn)了最好的AP指標,因為它使用HED的預訓練模型,而不是VGG16預訓練模型.圖5展示了各CNN模型在BSDS500數(shù)據(jù)集上的P-R曲線.

      3? ? 結論

      輪廓檢測作為計算機視覺領域的一項基礎任務,如何準確地區(qū)分對象輪廓與背景紋理一直是一項具有挑戰(zhàn)性的研究點.近幾年的輪廓檢測模型主要是基于CNN的模型,研究集中于以VGG16為編碼網(wǎng)絡的解碼網(wǎng)絡設計上,這些模型大多利用VGG16的5個卷積層的特征,而沒有充分利用其他卷積層特征,也沒有考慮將卷積特征按照不同的層級和尺度進行處理.因此,本文從整合多尺度和不同層級的卷積特征角度出發(fā),提出一種能更有效地整合VGG16所有卷積層特征的解碼網(wǎng)絡結構.實驗結果表明,本文提出的解碼網(wǎng)絡能夠更好地整合編碼網(wǎng)絡輸入的特征,實現(xiàn)了更好的ODS值.同時,實驗結果也表明,將特征按照不同層級進行處理的方式是有效的.本文通過簡單的平均融合方式將淺層特征、中層特征和深層特征進行整合,這也是本文模型AP較低的主要原因.然而,不同層級的特征如何進行更有效的融合還有待更深入的研究.

      參考文獻

      [1] 林川,曹以雋. 基于深度學習的輪廓檢測算法:綜述[J].廣西科技大學學報,2019,30(2):1-12.

      [2] FERRARI V,F(xiàn)EVRIER L,JURIE F,et al. Groups of adjacent contour segments for object detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2008,30(1):36-51.

      [3] YANG X W,LIU H R,LATECKI L J.Contour-based object detection as dominant set computation[J].Pattern Recognition,2012,45(5):1927-1936.

      [4] WANG Y P,ZHAO X,HU X C,et al. Focal boundary guided salient object detection[J].IEEE Transactions on Image Processing,2019,28(6):2813-2824.

      [5] ARBEL?EZ P,MAIRE M,F(xiàn)OWLKES C,et al. Contour detection and hierarchical image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(5):898-916.

      [6] YILMAZ A,LI X,SHAH M. Contour-based object tracking with occlusion handling in video acquired using mobile cameras[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2004,26(11): 1531-1536.

      [7] CANNY J. A computational approach to edge detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1986,8(6):679-698.

      [8] 趙浩鈞,林川,陳海杰,等. 基于顏色拮抗和紋理抑制的輪廓檢測模型[J].廣西科技大學學報,2018, 29(4):6-12.

      [9] AKBARINIA A,PARRAGA C A. Feedback and surround modulated boundary detection[J].International Journal of Computer Vision,2018,126(12):1367-1380.

      [10] DOLL?R P,ZITNICK C L. Fast edge detection using structured forests[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(8):1558-1570.

      [11] SHEN W,WANG X G,WANG Y,et al. Deepcontour:a deep convolutional feature learned by positive-sharing loss for contour detection[C]//Conference on Computer Vision and Pattern Recognition,Boston,USA.IEEE,2015:3982-3991.

      [12] XIE S N,TU Z W. Holistically-nested edge detection[J].International Journal of Computer Vision,2017,125(1-3):3-18.

      [13] SIMONYAN K,ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[C]// International Conference on Representation Learning,2014.

      [14] LIU Y,CHENG M M,HU X W,et al.Richer convolutional features for edge detection[C]//IEEE Conference on Computer Vision and Pattern Recognition,Honolulu,USA. IEEE,2017:5872-5881.

      [15] DENG R X,SHEN C H,LIU S J,et al. Learning to predict crisp boundaries[C]//European Conference on Computer Vision. Switzerland:Springer,2018:562-578.

      [16] YANG H J,LI Y,YAN X F,et al. ContourGAN:image contour detection with generative adversarial network[J].Knowledge-based Systems,2018,164:21-28.

      [17] TANG Q L,SANG N,LIU H H.Learning nonclassical receptive field modulation for contour detection[J]. IEEE Transactions on Image Processing,2019,29:1192-1203. DOI:10.1109/TIP.2019.2940690.

      [18] ZHANG R F,YOU M Y.Fast contour detection with supervised attention learning[J].Journal of Real-Time Image Processing,2020:1-11.DOI:10.1007/s11554-020-00980-1.

      [19] LIN C,CUI L H,LI F Z,et al.Lateral refinement network for contour detection[J].Neurocomputing,2020, 409:361-371.

      [20] REN S Q,HE K M,GIRSHICK R,et al. Faster r-cnn:towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.

      [21] CHEN L C,PAPANDREOU G,KOKKINOS I,et al. DeepLab:semantic image segmentation with deep convolutional nets,atrous convolution,and fully connected CRFs[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,40(4):834-848.

      [22] MOTTAGHI R,CHEN X J,LIU X B,et al. The role of context for object detection and semantic segmentation in the wild[C]//Conference on Computer Vision and Pattern Recognition,Columbus,USA. IEEE,2014:891-898.DOI:10.13140/2.1.2577.6000.

      [23] DENG J,DONG W,SOCHER R,et al. ImageNet:a large-scale hierarchical image database[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition,Miami,USA. IEEE,2009:248-255.

      [24] WANG Y P,ZHAO X,HUANG K Q. Deep crisp boundaries[C]//IEEE Conference on Computer Vision and Pattern Recognition,Honolulu,USA. IEEE,2017:1724-1732.DOI:10.1109/CVPR.2017.187.

      [25] ISOLA P,ZORAN D,KRISHNAN D,et al.Crisp boundary detection using pointwise mutual information[C]//European Conference on Computer Vision. Switzerland:Springer,2014:799-814.

      [26] BERTASIUS G,SHI J B,TORRESANI L.DeepEdge:a multi-scale bifurcated deep network for top-down contour detection[C]//IEEE Conference on Computer Vision and Pattern Recognition,Boston,USA. IEEE,2015:4380-4389.DOI:10.1109/CVPR.2015.7299067.

      [27] MANINIS K-K,PONT-TUSET J,ARBEL?EZ P,et al.Convolutional oriented boundaries[C]//European Conference on Computer Vision. Switzerland:Springer,2016:580-596.

      Research on decoding network with multi-scale features of deep

      learning model for contour detection

      ZHANG Xiao, LIN Chuan*, WANG Ruixing

      (School of Electric and Information Engineering, Guangxi University of Science and Technology,

      Liuzhou 545616, China)

      Abstract: Contour detection is one of the research hotspots in computer vision, which aims at? ? ? ? ? ? ?extracting the target shape and the significant boundary between regions in natural scene. In recent years, significant breakthroughs have been made in contour detection models based on convolutional neural network, which are composed of encoding network and decoding network. The existing VGG16 is generally used in encoding network, and researchers are mainly committed to the design of decoding network. Considering that natural images contain many contours at different scales, it is very important to make full use of rich hierarchical features for contour detection. Therefore, from the perspective of make full use of the multi-scale features, a decoding network structure that can effectively integrate? ?different scales convolutional feature information is proposed. The input information is divided into the shallow, middle and deep features. The decoding network is used to integrate the features of different scales, and finally the three features are averagely fused to perform image-to-image contour prediction. The model was evaluated on the BSDS500 dataset, and the comparative experimental results showed that the contour of the model prediction was clear, and the optimal dataset scale index reached 0.818, with a good performance evaluation index.

      Key words: contour detection; convolutional neural network; decoding network; multi-scale features; computer vision

      (責任編輯:黎? ?婭)

      猜你喜歡
      計算機視覺卷積神經(jīng)網(wǎng)絡
      基于卷積神經(jīng)網(wǎng)絡溫室智能大棚監(jiān)控系統(tǒng)的研究
      基于深度卷積神經(jīng)網(wǎng)絡的物體識別算法
      雙目攝像頭在識別物體大小方面的應用
      機器視覺技術發(fā)展及其工業(yè)應用
      危險氣體罐車液位計算機視覺監(jiān)控識別報警系統(tǒng)設計
      深度學習算法應用于巖石圖像處理的可行性研究
      基于深度卷積網(wǎng)絡的人臉年齡分析算法與實現(xiàn)
      基于卷積神經(jīng)網(wǎng)絡的樹葉識別的算法的研究
      临沂市| 承德县| 溧水县| 沁水县| 博白县| 济南市| 乌兰浩特市| 兴业县| 麟游县| 昌邑市| 长沙县| 凤庆县| 富民县| 泾阳县| 武定县| 涞水县| 台南县| 宾川县| 清水县| 长宁县| 邵东县| 梁山县| 宁化县| 兖州市| 文化| 元阳县| 湘潭市| 松溪县| 克什克腾旗| 湖州市| 前郭尔| 登封市| 双城市| 曲麻莱县| 会泽县| 大关县| 大丰市| 津南区| 永兴县| 临颍县| 石嘴山市|