• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度學習的圖像邊緣檢測算法綜述

      2020-11-30 05:48:02李翠錦
      計算機應用 2020年11期
      關鍵詞:尺度邊緣卷積

      李翠錦,瞿 中

      (1.重慶工程學院電子信息學院,重慶 400060;2.重慶郵電大學計算機科學與技術學院,重慶 400065)

      (?通信作者電子郵箱190424278@qq.com)

      0 引言

      圖像邊緣檢測是圖像處理和計算機視覺領域中最關鍵的技術問題之一。已有的許多研究工作表明,邊緣檢測在圖像高階特征提取、特征描述、目標識別和圖像分割等諸多領域都具有重要意義。如何快速準確地定位和提取圖像邊緣特征信息成為研究熱點之一。針對這兩個問題,研究者進行了大量的研究,提出了各種邊緣檢測方法,這些方法大致可以分為兩類:傳統(tǒng)方法和基于深度學習的方法,圖1 列出了圖像邊緣檢測研究的經(jīng)典傳統(tǒng)方法(時間軸上方)和基于深度學習的方法(時間軸下方)。

      由于圖像邊緣包含大量的背景信息和重要的結構信息,傳統(tǒng)的邊緣檢測方法往往將手工制作的底層特征(如顏色、亮度、紋理、梯度)作為邊緣檢測的優(yōu)先級,比如:1)早期開拓性的方法,如Sobel算子[1]、Prewitt算子[2],以及廣泛采用的Canny算子[3];2)基于信息理論人工設計得出特征的方法,如gPbowl-ucm 算法[4]、SCG(Sparse Code Gradients)算法[5];3)結構化邊緣檢測算法:如SE(Structured forests Edge detection)算法[6]。雖然利用低層次特征的邊緣檢測方法已經(jīng)取得了很大的進步,但其局限性也是顯而易見的。隨著深度學習技術[7]的發(fā)展,尤其是卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)的出現(xiàn),CNN 具有在自動學習自然圖像的高級表示方面具有強大的能力等優(yōu)勢,利用CNN 進行邊緣檢測已成為一種新的趨 勢。2015 年,Xie 等[8]提出了整體嵌套邊緣檢測(Holistically-nested Edge Detection,HED),用于以嵌套方式檢測和提取自然圖像的邊緣;2015 年,Bertasius 等[9]將全卷積應用在語義分割,從而為全卷積在輪廓檢測中奠定了基礎;2015年,Bertasius 等[10]提出了一個端到端的卷積架構DeepEdge;2016年,Wang等[11]提出了基于卷積神經(jīng)網(wǎng)絡的深度條件隨機域立體匹配方法;2017 年,Yu 等[12]提出了多尺度運動目標的邊緣檢測技術;2017 年,Chadha 等[13]提出了使用VLAD(Vector of Locally Aggregated Descriptor)和基于深度學習的描述符進行高效興趣區(qū)域檢索的方法;2018 年,Liu 等[14]提出了基于五層特征多樣性的更豐富的卷積特征圖像邊緣檢測提取算 法;2018 年,Wang 等[15]提出了一種基于快速R-CNN(Region-CNN)框架的端到端邊緣保留神經(jīng)網(wǎng)絡(稱為區(qū)域網(wǎng)),用于突出的目標檢測;2019 年,F(xiàn)u 等[16]提出了一種用于顯著目標檢測的細分網(wǎng)絡。

      上述算法需要相當多的專業(yè)知識、精細的處理算法和網(wǎng)絡架構設計,才能把原始圖像數(shù)據(jù)轉換成合適的特征向量,以此來構造邊緣檢測模型和分類器。近幾年,利用深度學習技術[7]邊緣檢測任務有顯著的性能提升。例如,在伯克利大學提出的數(shù)據(jù)集(Berkeley Segmentation Data Set and benchmark 500,BSDS500)[17]中,F(xiàn)-measure 最優(yōu)數(shù)據(jù)集規(guī)模(Optimal Dataset Scale,ODS)的檢測性能從0.598[18]提高到0.828[19]。盡管如此,邊緣檢測依舊是一個很有挑戰(zhàn)性的技術問題,原因在于:

      1)弱監(jiān)督和無監(jiān)督邊緣檢測:基于深度學習的邊緣檢測器的訓練通常依賴于大量注釋良好的圖像。注釋過程是耗時、昂貴和低效的。在弱監(jiān)督檢測技術中,只使用圖像級的標注或部分使用包圍盒標注對檢測器進行訓練,對于降低勞動成本和提高檢測靈活性具有重要意義。

      2)小目標邊緣檢測:在大場景中檢測小目標一直是一個挑戰(zhàn)。這一研究方向的一些潛在應用包括利用遙感圖像對野生動物種群進行統(tǒng)計,以及檢測一些重要軍事目標的狀態(tài)。

      3)動態(tài)視頻邊緣檢測:高清視頻中的實時目標/跟蹤邊緣檢測對于視頻監(jiān)控和自動駕駛具有重要意義。一般的邊緣檢測通常是針對圖像而設計的,而忽略了視頻幀之間的相關性。利用時空相關性進行改進檢測是一個重要的研究方向。

      圖1 傳統(tǒng)方法(時間軸上方)和基于深度學習的方法(時間軸下方)研究歷程Fig.1 Traditional methods(above the timeline)and deep learning-based methods(below the timeline)

      1 傳統(tǒng)邊緣檢測方法

      1.1 基于梯度和Laplacian邊緣檢測

      邊緣檢測的本質(zhì)是對圖像中發(fā)生突變的部分進行識別和定位,突變的部分表示圖像的重要信息(灰度變化)。基于梯度和拉普拉斯的邊緣檢測采用了濾波對圖像進行卷積計算,從而得出圖像灰度變化情況,根據(jù)原理的不同,大致可分為兩類:一階邊緣檢測算子和二階邊緣檢測算子。

      表1列出了典型邊緣檢測算子及它們的優(yōu)缺點。

      1.2 基于人工特征提取的邊緣檢測

      圖像邊緣檢測算子雖然具有使用簡單、效果良好的優(yōu)點,但是這些算子都是通過將灰度圖像與局部導數(shù)濾波器進行卷積來檢測邊緣,僅僅考慮了圖像的梯度特性,忽視了圖像紋理等變化,容易造成邊緣模糊及噪聲敏感等問題。通過對高階統(tǒng)計量的顯式定向分析來抑制以上問題,提出了基于人工特征提取的邊緣檢測算法,如多尺度特征檢測算法[26]、結構化邊緣檢測算法[27]。

      1.2.1 多尺度特征邊緣檢測算法

      2011 年,Arbeláez 等[4]將多尺度局部亮度、顏色和紋理結合應用到譜聚類框架中。在圖像的每個位置應用直方圖來計算x2值,定義了一個表示像素之間相似度的關聯(lián)矩陣。從這個矩陣中得到一個特征值和編碼輪廓信息的固定特征向量。使用分類器將卡方值與特征向量重新組合,獲得全局Pb邊緣檢測算法(gPb-owl-ucm)。實驗結果表明,在數(shù)據(jù)集BSDS500上ODS值為0.71。

      2012 年,Ren 等[5]提出了一種新的算法(SCG),該算法使用稀疏編碼,特別使用正交匹配追蹤算法[28]和K-means 字典訓練方法[29]來學習patchs 表示,直接取代patchs 分類器[30],借鑒Pb 的思想將像素上的稀疏編碼在每個方向的多尺度半圓上匯集,然后用線性支持向量機(Support Vector Machine,SVM)分類,最后,對SVM 輸出進行平滑處理,并對其進行非極大值抑制,以生成最終的輪廓。實驗結果表明,在數(shù)據(jù)集BSDS500上ODS值為0.74。

      1.2.2 結構化邊緣檢測算法

      2015年,Dollár等[6]將邊緣檢測問題轉化為給定輸入圖像塊的局部分割掩碼的預測問題,提出了一種結構化森林快速邊緣檢測方法(SE),學習決策樹的新方法是使用結構化的標簽來確定樹中每個分支的分裂函數(shù)。結構標簽被穩(wěn)健地映射到一個離散空間,在這個空間上可以評估標準的信息增益度量。每個森林預測一個邊緣像素標簽patchs,這些標簽聚集在整個圖像上計算最終邊緣映射,由于聚合的邊緣映射可能是漫反射,使用了局部顏色和深度提示來銳化邊緣映射。在BSDS500 和NYUD(New York University Datasets)V2 數(shù) 據(jù)集[31]上展示了最新結果(ODS值為0.75、ODS值為0.69)。

      2015 年,Hallman 等[32]采用非參數(shù)輸出,將隨機決策樹的魯棒機制應用在小圖像塊中,精確檢測不同候選方向和位置的直線邊界,提出了一種面向邊緣森林的邊界檢測算法OEF(Oriented Edge Forests)。盡管該算法忽略了大量感興趣信息,如彎曲的邊緣和連接處,但對于大而平滑的小塊物體圖像效果很好。在BSDS500數(shù)據(jù)集上ODS值為0.76。

      2016 年,Zhang 等[26]使用有限的訓練數(shù)據(jù)獲得具有競爭力的檢測精度,提出了一種基于結構隨機森林(Structured Random Forest,SRF)的半監(jiān)督學習輪廓檢測方法(SemiContour),該算法采用快速稀疏表示方式和緊湊低維子空間表示嵌入到結構隨機森林中,從而實現(xiàn)半監(jiān)督學習。實驗結果表明,在BSDS500數(shù)據(jù)集上ODS值為0.73。

      2 基于深度學習的邊緣檢測算法

      傳統(tǒng)邊緣檢測技術已經(jīng)取得了很大的進步,但也存在很多局限性。深度學習與傳統(tǒng)邊緣檢測方法的最大不同在于它所采用的特征是從大數(shù)據(jù)中自動學習得到,而非采用手工設計。深度模型具有強大的學習能力和高效的特征表達能力,更重要的優(yōu)點是從像素級原始數(shù)據(jù)到抽象的語義概念逐層提取信息,這使得它在提取圖像的全局特征和上下文信息方面具有突出的優(yōu)勢,為解決傳統(tǒng)的計算機視覺問題(如圖像識別和圖像邊緣檢測)帶來了新的思路。基于深度學習的邊緣檢測算法分類及典型算法如圖2所示,下面將分別進行介紹。

      2.1 全監(jiān)督學習邊緣檢測算法

      全監(jiān)督學習是利用已知類別的樣本(即有標記的樣本labeled sample),調(diào)整分類器的參數(shù),訓練得到一個最優(yōu)模型,使其達到所要求性能,再利用這個訓練后的模型,將所有的輸入映射為相應的輸出,對輸出進行簡單的判斷,從而實現(xiàn)邊緣檢測的目的。目前大部邊緣檢測算法都是基于全監(jiān)督實現(xiàn)的,根據(jù)算法實現(xiàn)過程中采用的整體設計思想以及關鍵技術不同,本文將其劃分為6 類:基于譜聚類邊緣檢測算法、多尺度融合邊緣檢測算法、跨層融合邊緣檢測算法、網(wǎng)絡重構邊緣檢測算法、基于編解碼邊緣檢測算法和亞像素卷積邊緣檢測算法?;谧V聚類的邊緣檢測和亞像素邊緣檢測等方法檢測精度高,但抗噪聲性能較差;基于神經(jīng)網(wǎng)絡和基編解碼邊緣檢測等方法解決了抗噪聲性能差的問題,但檢測精度不夠。表2 從算法優(yōu)缺點、基礎網(wǎng)絡、關鍵技術和測試數(shù)據(jù)集這幾個方面對6種方法進行了歸納總結,下面將詳細介紹這6類方法。

      2.1.1 基于譜聚類邊緣檢測算法

      譜聚類算法是建立在譜圖理論基礎之上,并利用數(shù)據(jù)的相似矩陣的特征向量進行聚類的方法。與其他方法相比具有明顯的優(yōu)勢:思想簡單、易于實現(xiàn)、具有識別非高斯分布的能力、可用于邊緣檢測算法中。

      2015 年,Shen 等[33]利用深卷積神經(jīng)網(wǎng)絡(Deep Convolutional Neural Network,DCNN)來學習輪廓檢測的判別特征[48-50],提出了DeepContour 邊緣檢測算法,該算法根據(jù)輪廓斑塊的固有結構將其分割成緊湊的簇,通過這種聚類方式產(chǎn)生輪廓塊的中層形狀表示,形成的類由形狀標簽分配,再通過不同的模型參數(shù)擬合不同形狀的輪廓數(shù)據(jù),采用分治策略[51],降低多樣性造成的訓練難度。DeepContour 算法還采用了結構化森林[52-53]作為深度特征的輪廓與非輪廓分類器,在BSDS500上取得了最新的結果(ODS值為0.757)。

      2.1.2 多尺度融合邊緣檢測算法

      多尺度就是對信號的不同粒度的采樣,在不同的尺度下可觀察不同的特征,從而完成不同的任務。研究者一直都在設計各種各樣的多尺度模型架構,也是目前比較流行的邊緣檢測技術,具體可分為以下4 種:多尺度輸入、多尺度特征融合、多尺度特征預測融合和以上方法的組合。

      2015 年,Bertasius 等[10]重用Ivan 等的[34]網(wǎng)絡的前五個卷積層計算得到的特征,提出了一個端到端的卷積架構DeepEdge,該架構在多個尺度上同時運行,并結合來自圖像的局部和全局信息,從而顯著提高了輪廓檢測的準確率。DeepEdge 架構將輸入的4 個不同尺度的KNet[34]的卷積層計算得到的特征與一個分岔成兩個分支的學習子網(wǎng)連接起來。在分岔子網(wǎng)絡中,優(yōu)化了兩個具有不同學習目標的分支。其中一個分支的權值通過邊緣分類目標進行優(yōu)化,另一個分支的權值則通過訓練來預測與人類標記的一致比例,即回歸準則。結果表明,分類分支的預測結果具有較高的邊緣回憶率,而回歸分支的預測結果具有較高的精度。因此,融合這兩個輸出獲得優(yōu)秀的結果,ODS 值為0.753 和mAP(mean Average Precision)值為0.807。

      2015 年,Bertasius 等[37]受到人類判斷某個特定像素邊界時會使用對象級別推理的啟發(fā),提出了一種精確、高效、適用于高級視覺任務的邊界檢測系統(tǒng)HFL(High-For-Low)。該系統(tǒng)展示了如何利用預先訓練的對象分類網(wǎng)絡、對象特征來預測邊界。它是一個高對低的過程,其中高層次的對象特征通知低層次的邊界檢測過程。此外,HFL 證明了使用邊界的語義性質(zhì)可以幫助一些高層次的視覺任務,可以把這個過程看作是一個“低對高”的方案,在這個方案中,低層次的邊界幫助高級別的視覺任務。HFL模型在BSDS500數(shù)據(jù)集上實現(xiàn)了當時最先進的性能(ODS值為0.767)。

      2015年,Xie等[8]研究了一種新的邊緣檢測算法——整體嵌套邊緣檢測(HED),解決了視覺中長期存在的兩個重要問題:1)基于整體圖像的訓練和預測;2)多尺度的特征學習。該算法通過深度學習模型執(zhí)行圖像到圖像的預測,利用完全卷積神經(jīng)網(wǎng)絡和深監(jiān)督網(wǎng)絡,自動學習豐富的層次表示。在BSDS500 數(shù)據(jù)集(ODS 值為0.788)和NYUD 數(shù)據(jù)集(ODS 值為0.746)上使用該技術,大幅提高了檢測速度(每張圖像0.4 s),比最近的基于CNN的邊緣檢測算法快幾個數(shù)量級。

      2016 年,Liu 等[36]為了緩解邊緣檢測假陽性(非邊緣像素被錯誤地預測為邊緣)的困難,提出了RDS(Relaxed Deep Supervision)算法,使用不同的深度監(jiān)管,從粗到細,不僅保持了高的性能,而且融合了網(wǎng)絡的多樣性,更好地進行邊緣檢測。該算法先在訓練數(shù)據(jù)集中生成粗邊注釋,然后使用目標數(shù)據(jù)集對其進行微調(diào),并且融合了Canny 檢測器和SE 檢測器。實驗結果表明,在BSDS500數(shù)據(jù)集上ODS值為0.792。

      2019 年,He 等[45]利用多尺度提出了一種雙向級聯(lián)網(wǎng)絡BDCN(Bi-Directional Cascade Network)結構,在該結構中,單個層由具有特定比例的標記邊緣進行監(jiān)督,而不是直接對所有CNN 輸出相同的監(jiān)督。此外,為了豐富BDCN,還引入了尺度增強模塊(Scale Enhancement Module,SEM),以生成多尺度特征,而不是使用更深的CNN。通過結合SEM 和BDCN,該方法在3 個數(shù)據(jù)集(BSDS500、NYUD V2、Multicue)上實現(xiàn)了較好的性能,ODS 值達到0.828,優(yōu)于人類感知(ODS 值為0.803)。

      2.1.3 跨層融合邊緣檢測算法

      跨層融合就是在同一網(wǎng)絡結構中淺層特征和深層特征相融合,深層特征具有高語義信息且感受野較大的特點,而淺層的特征具有位置信息且感受野較小的特點,融合兩者特征可以達到增加深層特征的效果,讓深層的特征具有較為豐富的目標邊緣信息。

      低層特征分辨率更高,包含更多位置、細節(jié)信息,但是由于經(jīng)過的卷積更少,其語義性更低,噪聲更多。高層特征具有更強的語義信息,但是分辨率很低,對細節(jié)的感知能力較差。因此把兩者高效融合,是改善分割模型的關鍵。

      2017 年,Liu 等[14]針對目前基于CNN 的方法通常只利用了每個卷積階段最后一層的特征,導致很多有用的信息丟失,提出一種全卷積網(wǎng)絡來高效地利用每一個CNN 層的特征RCF(Richer Convolutional Feature)。該網(wǎng)絡貢獻有兩點:1)利用FPN(Feature Pyramid Network)思想結合高層和底層的特征映射進行邊緣檢測;2)優(yōu)化損失函數(shù),使其更具有一般性。實驗結果表明,在BSDS500 數(shù)據(jù)集ODS 值為0.806(8 FPS),得到2017年最好邊緣檢測的效果。

      2018年,Deng 等[44]針對目前基于深度卷積神經(jīng)網(wǎng)絡的邊界或邊緣檢測方法普遍存在預測邊緣較粗的問題,為了使CNN 在沒有后處理的情況下產(chǎn)生清晰的邊界,提出了一種新的邊界檢測方法LPCB(Learning to Predict Crisp Boundaries),該方法采用自底向上/自頂向下體系結構的端到端網(wǎng)絡結構,該網(wǎng)絡有效地利用了層次特征,產(chǎn)生了像素精度高的邊界掩碼,是重構邊緣圖的關鍵。實驗表明,直接進行Crisp 預測不僅可以提高CNN的可視化結果,而且在BSDS500數(shù)據(jù)集(ODS值為0.815)和NYUD 數(shù)據(jù)集[49](ODS 值為0.762)上都獲得了更好的結果。

      2019 年,Qu 等[46]基于Caffe(Convolutional architecture for fast feature embedded)框架和VGG16(Visual Geometry Group)模板,提出了一種基于視覺交叉融合(Visual Cross Fusion,VCF)網(wǎng)絡的邊緣檢測方法。VCF 模型首先分別通過全連接層的參數(shù)降維和交叉融合來提取多層次結構特征,從而實現(xiàn)端到端的圖像邊緣檢測;其次,為了最大限度地利用圖像像素集,自定義分級加權交叉熵損失函數(shù);最后,利用跨網(wǎng)絡融合對圖像邊緣特征進行細化。實驗結果表明,VCF 算法在BSDS500經(jīng)典數(shù)據(jù)集上ODS值為0.808。

      2.1.4 網(wǎng)絡重構邊緣檢測算法

      現(xiàn)在越來越多的CNN模型從巨型網(wǎng)絡到輕量化網(wǎng)絡一步步演變,準確率也越來越高。邊緣檢測不僅要求準確率,而且要求速度,都希望模型又快又準。研究者通過重構AlexNet[39]、VGGnet、Inception、ResNet[41]等網(wǎng)絡架構追求速度與準確率。

      2014 年,Ganin 等[38]針對自然邊緣檢測和稀疏目標分割等復雜的圖像處理問題,提出了一種新的圖像處理體系結構(N4-Fields),該網(wǎng)絡把CNN 與最鄰近搜索(Nearest neighbor search)結合,在網(wǎng)絡最高層的輸出使用最鄰近搜索,在測試階段N4 場將Patch 通過CNN,對于給定的每一個Patch,都會輸出一個低維的向量。該方法在BSDS500數(shù)據(jù)集中的性能達到或超過了當前的水平(ODS值為0.753)。

      2016年,Maninis等[40]提出了一種卷積定向邊界結構COB(Convolutional Oriented Boundaries),該結構允許端到端學習多尺度定向輪廓,它從一般的圖像分類卷積神經(jīng)網(wǎng)絡(CNN)開始,產(chǎn)生多尺度定向輪廓和區(qū)域層次,并且在層次分割中使用了一種新的稀疏邊界表示,在性能上比最新技術有了顯著的飛躍,并且很好地推廣到未知類別和數(shù)據(jù)集。

      圖2 基于深度學習的邊緣檢測算法分類Fig.2 Classification of edge detection algorithms based on deep learning

      2017年,Xu等[42]受到深度學習架構中利用圖形模型的文章啟發(fā)[54-55],引入了注意門控條件隨機場(Attention Gating Conditional Random Field,AG-CRF),它允許通過利用其他尺度的可用信息來學習每個尺度上的強特征圖表示,這是通過將注意力機制[54]以gates[55]的形式無縫集成到多尺度學習過程中來實現(xiàn)的。直觀的注意機制將進一步提高學習多尺度表示的質(zhì)量,從而提高模型的整體性能。文章將提出的AG-CRF集成到一個兩級層次的CNN 模型中,定義了一種新的基于注意力引導的多尺度層次深度網(wǎng)AMH-Net(Attention-guided Multiscale Hierarchical deepNet)用于邊緣檢測。與傳統(tǒng)的CNN 相比,層次網(wǎng)絡能夠學習到更豐富的多尺度特征,而提出的AGCRF模型進一步增強了網(wǎng)絡的表示能力。實驗結果表明,在兩個數(shù)據(jù)集(BSDS500和NYUD V2數(shù)據(jù)集[31])上該方法能夠學習豐富和互補的特征,從而優(yōu)于當時先進的邊緣檢測方法。

      2.1.5 基于編解碼邊緣檢測算法

      編碼器解碼器(encoder-decoder)結構是利用對稱網(wǎng)絡結構對圖像語義解析的機制,其本質(zhì)是利用深度學習技術中的卷積、池化等操作所構成的編碼器來編碼被捕獲的像素位置信息和圖像特征,再利用反卷積(deconvolution)或上池化(unpooling)等操作所構成的解碼器來對其進行解析,還原圖像的空間維度和像素的位置信息。

      2016年,Yang等[47]受全卷積網(wǎng)絡[56]和反卷積網(wǎng)絡[57]在語義分割上啟發(fā),提出了一個全卷積編解碼網(wǎng)絡(Convolutional Encoder-Decoder Network,CEDN)。CEDN 可以在任意大小的圖像上運行,用VGG16[35]初始化編碼器,為了實現(xiàn)對圖像大小的密集預測,解碼器是通過交替的池化層和卷積層構建的,其中池化層采用最大池化。在訓練過程中,修正了編碼器的參數(shù),優(yōu)化了解碼器的參數(shù),使得編碼器可以保持其泛化能力,以便學習解碼器網(wǎng)絡可以很容易地與其他任務相結合,如邊框回歸或語義分割。

      2.1.6 亞像素邊緣檢測算法

      亞像素技術就是在兩個像素點之間進一步細分,從而得到亞像素級別邊緣點的坐標,一般來說,現(xiàn)有的技術可以做到2 細分、4 細分,甚至更高,通過亞像素邊緣檢測技術的使用,可以節(jié)約成本,提高識別精度。

      2017年,Wang等[19]為了解決卷積神經(jīng)網(wǎng)絡邊緣檢測輸出模糊的難題,并試圖提高HED[8]的定位能力,結合密集圖像標記方面的最新進展[58-59],提出了一種新的細化架構CED(Crisp Edge Detector)。該方法是一個具有自頂向下的反向細化路徑的邊緣檢測網(wǎng)絡,該網(wǎng)絡使用高效的亞像素卷積逐步提高特征圖的分辨率。細化路徑為網(wǎng)絡增加了額外的非線性,進一步降低了相鄰像素內(nèi)邊緣響應的相關性。CED 算法在BSDS500 數(shù)據(jù)集上取得了很好的結果,在標準條件下超過了人類的表現(xiàn),在更嚴格的評價標準下大大超過了當時最先進的方法。

      表2 基于全監(jiān)督學習的邊緣檢測算法對比Tab.2 Comparison of edge detection algorithms based on fully supervised learning

      2.2 弱監(jiān)督和無監(jiān)督邊緣檢測算法

      近幾年,基于全監(jiān)督學習的邊界檢測方法效果已達到人類視覺水平,但是全監(jiān)督學習算法需要大量的訓練數(shù)據(jù),標注對象邊界是最昂貴的原因之一。因此有必要放寬對圖像進行仔細標注的要求,以使培訓更容易負擔,并擴展培訓數(shù)據(jù)量。

      2016年,Khoreva等[60]提出了一種生成弱監(jiān)督約束條件的方法WSOB(Weakly Supervised Object Boundaries),并證明了僅使用邊界框注釋就可以達到高質(zhì)量的對象邊界,而不需要使用任何特定于對象的邊界注釋。該方法使用了一個決策森林[26]和一個對流邊緣探測器[61],利用所提出的弱監(jiān)督技術,實現(xiàn)了對目標邊界檢測任務的最優(yōu)執(zhí)行,在很大程度上超過了當時先進的全監(jiān)督方法。

      2016 年,Li 等[62]提出了一種簡單而有效的無監(jiān)督邊緣檢測器來訓練圖像,該方法利用了幀之間的噪聲半密集匹配。從邊緣的基本知識(以圖像梯度的形式)開始,然后依次在改進運動估計和邊緣估計之間進行切換。利用大量的視頻數(shù)據(jù),證明了使用無監(jiān)督方案訓練的邊緣檢測器的性能接近于在完全監(jiān)督下訓練的方法。

      3 邊緣檢測關鍵技術

      3.1 卷積神經(jīng)網(wǎng)絡

      CNN 本質(zhì)是一個多層感知機,優(yōu)點是使得圖像可以直接作為輸入,避免了傳統(tǒng)識別算法中復雜的特征提取和數(shù)據(jù)重建的過程,在二維圖像的處理過程中有很大的優(yōu)勢,如網(wǎng)絡能夠自行抽取圖像的特征包括顏色、紋理、形狀及圖像的拓撲結構,在處理二維圖像的問題上,特別是識別位移、縮放及其他形式扭曲不變性的應用上具有良好的魯棒性和運算效率等。CNN 有三個關鍵的操作:一是局部感受野;二是權值共享;三是pooling 層,有效地減少了網(wǎng)絡的參數(shù)個數(shù),緩解了模型的過擬合問題。典型的卷積神經(jīng)網(wǎng)絡架構包括:LeNet5[63]、AlexNet[39]、VGGNet[35]、Google InceptionNet[64]、ResNet[41]等。卷積神經(jīng)網(wǎng)絡典型結構對比如表3所示。

      邊緣檢測算法使用最多的卷積神經(jīng)網(wǎng)絡結構是VGGNet,VGGNet 是牛津大學Visual Geometry Group 在AlexNet 基礎上做了改進,整個網(wǎng)絡都使用了同樣大小3×3 卷積核和2×2 最大池化,網(wǎng)絡結果簡單,參數(shù)較少,而且3×3 卷積核能更好地保持圖像特征,如圖3所示。

      圖3 VGG-16卷積神經(jīng)網(wǎng)絡結構Fig.3 VGG-16 convolutional neural network architecture

      表3 卷積神經(jīng)網(wǎng)絡典型結構對比Tab.3 Comparison of classic convolutional neural network architectures

      3.2 損失函數(shù)

      損失函數(shù)是為了衡量模型預測的好壞,即用來表現(xiàn)預測值與實際值的差距程度。它是一個非負實數(shù)函數(shù),通常使用?(Y,f(x))來表示,損失函數(shù)越小,模型的魯棒性就越好。

      文獻[8],HED 為了抵消邊緣和非邊緣之間的不平衡,提出了類平衡交叉熵損失函數(shù),如式(1)所示:

      文獻[14],RCF為了提高性能提出了一個新的損失函數(shù),該損失函數(shù)增加了一個參數(shù),在正負樣本比例基礎上加權,如式(2)所示:

      文獻[46],VCF 在HED 和RCF 的基礎上提出了分級加權交叉熵損失函數(shù),進一步提高了網(wǎng)絡的性能,如式(3)所示:

      其中:Y+和Y-表示邊緣和非邊緣數(shù)據(jù)集表示正樣本比重表示負樣本比重,γ 是優(yōu)化參數(shù),平衡正負樣本。

      以上三種邊緣檢測算法用的都是交叉熵損失函數(shù),該函數(shù)只跟輸出值和真實值的差值成正比,收斂較快,反向傳播連乘,使整個權重矩陣的更新都會加快。

      3.3 數(shù)據(jù)集

      深度學習的另一個關鍵就是用富有挑戰(zhàn)和典型的數(shù)據(jù)集來測試算法的可靠性。經(jīng)過幾年的研究,大量的數(shù)據(jù)集已被提出用來測試和評估計算機視覺算法。邊緣檢測常用數(shù)據(jù)集包括BSDS500、NYUD V2、Pascal-VOC[65]、Pascal-Context[66]等,為了提高檢測精度,邊緣檢測算法訓練的數(shù)據(jù)集數(shù)量越來越大[67],數(shù)據(jù)集詳細內(nèi)容如表4所示。

      表4 邊緣檢測常用數(shù)據(jù)集Tab.4 Datasets commonly used for edge detection

      邊緣檢測算法使用最多的數(shù)據(jù)集BSDS500,該數(shù)據(jù)集可以用來圖像分割和物體邊緣檢測,包含200 張訓練圖,100 張驗證圖,200 張測試圖;所有真值用.mat 文件保存,包含segmentation 和boundaries,每張圖片對應真值有5 個,為5 個人標注的真值,訓練時真值可采用平均值或者用來擴充數(shù)據(jù),評測代碼中會依次對這5 個真值都做對比。最近很多邊緣檢測算法,如BDCN[45]、CRF[14]、HED[8]、VCF[41]等為了提高檢測精度,對BSDS500 訓練集和驗證集進行了數(shù)據(jù)擴充,包括旋轉、翻轉、尺度縮放。

      4 性能分析

      邊緣檢測算法的結果需要統(tǒng)一的量化標準,即評價指標來說明。本章講述了邊緣檢測4 個標準評估:最優(yōu)數(shù)據(jù)集規(guī)模(ODS)、最佳圖像規(guī)模(Optimal Image Size,OIS)、每秒幀數(shù)(Frames Per Second,F(xiàn)PS)和PR 曲線。ODS 為具有固定輪廓閾值的F-measure 值,當每幅圖像的F-measure 值具有最優(yōu)閾值時,得到OIS。P-R(Precision-Recall)曲線是應用最廣泛的,它是對分類器的預測結果按照置信度進行降序排列,然后按此順序對樣例進行預測,計算出當前的查全率(Recall)作為x軸、精準率(Precision)作為y 軸,以此作圖,繪制出P-R 曲線。在BSDS500 中邊緣檢測算法ODS 對比,如圖4 所示。邊緣檢測算法的P-R曲線,如圖5所示。

      圖4 BSDS500數(shù)據(jù)集上的邊緣檢測算法的ODS性能發(fā)展趨勢Fig.4 ODS performance development trends of edge detection algorithms on BSDS500 dataset

      從圖5 可以看出,基于深度學習的邊緣檢測算法ODS 值基本上都高于傳統(tǒng)邊緣檢測算法,VCF、RCF、LPCB、BDCN 4個算法超出人類視覺(Human 0.803)值,因此,基于深度學習的邊緣檢測算法具有很好的研究前景,尤其是多尺度多層次融合技術和損失函數(shù)選擇和設置。

      圖5 BSDS500數(shù)據(jù)集上的P-R曲線Fig.5 P-R curves on BSDS500 dataset

      5 結語

      目前,深度學習技術已廣泛應用在邊緣檢測領域。本文主要對基于深度學習的邊緣檢測的經(jīng)典方法進行了較為詳細的分類、梳理與總結,并對每類方法和代表性算法進行了研究、分析和對比,概括每類技術優(yōu)缺點。對邊緣檢測關鍵技術進行了研究。在現(xiàn)有研究成果的基礎上,該領域還存在如下一些具有挑戰(zhàn)性的研究方向:

      1)3D(3 Dimensional)數(shù)據(jù)集:3D 數(shù)據(jù)集比低維數(shù)據(jù)集更難創(chuàng)建。盡管已經(jīng)有一些工作基礎,但仍有更多、更多樣化數(shù)據(jù)空間,更重要的是要注意現(xiàn)實世界數(shù)據(jù)的重要性。

      2)信息融合檢測:通過上下文建模,可以提高準確性。語義分割與多尺度融合取得了顯著進展,但仍存在檢測精度不高、邊緣模糊等問題,需要進一步研究。

      3)弱監(jiān)督和無監(jiān)督邊緣檢測:在弱監(jiān)督檢測技術中,只使用圖像級的標注或部分使用包圍盒標注對檢測器進行訓練,對于降低勞動成本和提高檢測靈活性具有重要意義。

      4)動態(tài)視頻邊緣檢測:高清視頻中的實時目標/跟蹤邊緣檢測對于視頻監(jiān)控和自動駕駛具有重要意義。

      猜你喜歡
      尺度邊緣卷積
      基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
      財產(chǎn)的五大尺度和五重應對
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標跟蹤算法
      一張圖看懂邊緣計算
      宇宙的尺度
      太空探索(2016年5期)2016-07-12 15:17:55
      9
      一種基于卷積神經(jīng)網(wǎng)絡的性別識別方法
      電視技術(2014年19期)2014-03-11 15:38:20
      室外雕塑的尺度
      雕塑(2000年2期)2000-06-22 16:13:30
      在邊緣尋找自我
      雕塑(1999年2期)1999-06-28 05:01:42
      神农架林区| 昌平区| 开江县| 闽侯县| 华池县| 五莲县| 盐亭县| 阿图什市| 孝义市| 和顺县| 沂水县| 屯昌县| 峨眉山市| 恭城| 隆德县| 大埔区| 阿拉尔市| 景宁| 天峻县| 台州市| 饶河县| 南涧| 盐津县| 合川市| 宜昌市| 光山县| 浙江省| 正蓝旗| 香港| 思茅市| 新田县| 二连浩特市| 满洲里市| 芒康县| 桂阳县| 广元市| 安康市| 蓬莱市| 迭部县| 吉安县| 夏河县|