• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于ResNet網(wǎng)絡(luò)與離散變分自編碼器的精細(xì)輪廓檢測(cè)方法

      2022-07-08 10:05:22王衢林川陳永亮
      關(guān)鍵詞:計(jì)算機(jī)視覺深度學(xué)習(xí)

      王衢 林川 陳永亮

      摘? 要:傳統(tǒng)的基于卷積神經(jīng)網(wǎng)絡(luò)的輪廓檢測(cè)方法多為由編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)構(gòu)成的編解碼結(jié)構(gòu),存在輪廓定位不準(zhǔn)確、輸出輪廓模糊的問題。為解決這一問題,提出一種基于離散變分自編碼器的輪廓檢測(cè)方法。該方法舍棄了解碼網(wǎng)絡(luò),利用離散變分自編碼器的編碼器和解碼器分別配合編碼網(wǎng)絡(luò)進(jìn)行訓(xùn)練和輪廓輸出,并設(shè)計(jì)了帶有動(dòng)態(tài)權(quán)重的損失函數(shù),用于解決本文方法在訓(xùn)練過程中遇到的類別分布極不均衡的問題?;贐IPED數(shù)據(jù)集,本文的輪廓精細(xì)度實(shí)驗(yàn)表明本文方法在更嚴(yán)格的評(píng)估標(biāo)準(zhǔn)下優(yōu)于最新方法DexiNed。在一般的評(píng)估標(biāo)準(zhǔn)下,本文方法的ODS F-measure能夠達(dá)到0.889,比最新方法DexiNed提高了3.0%。研究結(jié)果表明,對(duì)離散變分自編碼器的利用不僅能幫助模型提高輪廓精細(xì)度,也能顯著提高模型的輪廓檢測(cè)性能。

      關(guān)鍵詞:輪廓檢測(cè);深度學(xué)習(xí);離散變分自編碼器;計(jì)算機(jī)視覺;交叉熵?fù)p失函數(shù)

      中圖分類號(hào):TP391.41? ? ? DOI:10.16375/j.cnki.cn45-1395/t.2022.03.002

      0? ? 引言

      在計(jì)算機(jī)視覺領(lǐng)域中,輪廓檢測(cè)作為一項(xiàng)基礎(chǔ)視覺任務(wù),旨在檢測(cè)自然圖像中具有視覺顯著性的輪廓。對(duì)于一些高級(jí)的視覺任務(wù),如目標(biāo)檢測(cè)[1]、目標(biāo)跟蹤[2]、光流檢測(cè)[3]以及圖像分割[4-5]等,輪廓檢測(cè)通常是其基礎(chǔ)或作為其輔助,輪廓信息的質(zhì)量直接影響了這些任務(wù)的性能。為了更好地服務(wù)于這些高級(jí)視覺任務(wù),研究者們一直致力于探索性能更加優(yōu)良的輪廓檢測(cè)方法。

      近年來,基于卷積神經(jīng)網(wǎng)絡(luò)的輪廓檢測(cè)方法[6]將輪廓檢測(cè)性能提升到了一個(gè)新的臺(tái)階。Xie等[7]受FCN[8]與DSN[9]的啟發(fā),搭建了第一個(gè)端到端的、可訓(xùn)練的深度學(xué)習(xí)輪廓檢測(cè)模型,即整體嵌套邊緣檢測(cè)(holistically-nested edge detection,HED)模型。得益于全卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),HED能夠?qū)θ我獬叽绲膱D像進(jìn)行處理,從真正意義上實(shí)現(xiàn)了對(duì)輪廓檢測(cè)神經(jīng)網(wǎng)絡(luò)的端到端訓(xùn)練。Liu等[10]分析了HED網(wǎng)絡(luò)存在的缺陷,提出了更豐富的卷積特征(richer convolutional features,RCF)模型。與HED不同的是RCF對(duì)編碼網(wǎng)絡(luò)的所有卷積層都進(jìn)行了特征提取,這使得RCF所能夠利用的多尺度信息相比于HED 更加豐富。Wang等[3]以提取精細(xì)輪廓為目的提出了清晰邊緣檢測(cè)(crisp edge detection,CED)模型,為了提升模型提取細(xì)致輪廓的能力,在模型中使用亞像素卷積對(duì)特征圖進(jìn)行緩慢的上采樣,以保證輪廓的位置準(zhǔn)確性。He等[11]專注于研究對(duì)多尺度信息的利用方式,提出了一種雙向級(jí)聯(lián)的解碼網(wǎng)絡(luò)結(jié)構(gòu)(bi-directional cascade network,BDCN),以從淺到深、從深到淺兩條路徑對(duì)不同的側(cè)端輸出進(jìn)行整合,合理地體現(xiàn)了主干網(wǎng)絡(luò)不同層級(jí)之間的互補(bǔ)關(guān)系。喬亞坤等[12]以充分利用多尺度信息為目的,設(shè)計(jì)了IPD網(wǎng)絡(luò),所提出的交互式解碼網(wǎng)絡(luò)擁有較強(qiáng)的特征提取和利用能力。Huan等[13]針對(duì)特征混合(feature mixing)以及側(cè)端混合(side mixing)的問題進(jìn)行了研究,提出了上下文感知跟蹤策略(context-aware tracing strategy,CATS),設(shè)計(jì)了新的損失函數(shù)用于提升監(jiān)督信號(hào)對(duì)輪廓像素附近區(qū)域的重視程度,并利用空域掩膜對(duì)多尺度輸出進(jìn)行空間上的加權(quán)求和。其實(shí)驗(yàn)結(jié)果表明,CATS策略能夠指導(dǎo)神經(jīng)網(wǎng)絡(luò)輸出位置準(zhǔn)確性更強(qiáng)的輪廓。

      上述模型在訓(xùn)練過程中主要以像素為單位計(jì)算損失函數(shù),未能較好考慮像素間的關(guān)系,在檢測(cè)過程中存在因輪廓像素定位不準(zhǔn)確而導(dǎo)致輸出輪廓模糊的問題。如圖1所示,上述模型的神經(jīng)網(wǎng)絡(luò)輸出的輪廓相較于Ground truth更加模糊粗糙,因而需要利用非極大值抑制算法進(jìn)行細(xì)化,增加了時(shí)間和計(jì)算成本。針對(duì)該問題,本文提出一種基于離散變分自編碼器的輪廓檢測(cè)方法,利用離散變分自編碼器強(qiáng)大的編碼能力對(duì)輪廓檢測(cè)任務(wù)進(jìn)行圖像到圖像建模。此外,還設(shè)計(jì)了一種擁有類別均衡能力的損失函數(shù),以克服在使用離散變分自編碼器訓(xùn)練模型時(shí)產(chǎn)生的類別分布極度不均勻的問題。

      1? ? 本文方法

      1.1? ?離散變分自編碼器

      變分自編碼器是一類重要的生成模型,結(jié)構(gòu)如圖2所示,主要通過編碼器將圖像壓縮為特征嵌入,再通過解碼器根據(jù)特征嵌入對(duì)圖像進(jìn)行重建。訓(xùn)練時(shí),假設(shè)輸入數(shù)據(jù)的潛在空間是連續(xù)的,其編碼器將輸入數(shù)據(jù)編碼為一組均值[μ=μ1, μ2,…]和一組方差[σ=σ1, σ2, …],這樣的均值和方差規(guī)定了一組正態(tài)分布:

      [Z=Z1~N(μ1, σ1), Z2~N(μ2, σ2), …] .? ? ? ? ?(1)

      從這組正態(tài)分布中采樣獲得編碼器所編碼的特征嵌入[Z=z1, z2,? …],隨后[z]作為解碼器的輸入用于重建輸入數(shù)據(jù)。

      離散變分自編碼器是一種特殊的變分自編碼器,其特征嵌入[Z]是離散的,其離散化和采樣可以通過Gumbel-softmax[14]實(shí)現(xiàn)。本文對(duì)于一幅形狀為[1×H×W]的[Y](其中[H]和[W]分別為圖像的高和寬),編碼器將其編碼為[1×H'×W']的特征嵌入:

      [Z=Encoder(Y)].? ? ? ? ? ? ? ? ? ?(2)

      其中:[H'=H/8],[W'=W/8],而[Z]中的元素皆為? ? ?[0]~[8 191]的整數(shù),可以視為[8 192]個(gè)離散的類別。隨后解碼器又能對(duì)圖像[Y]進(jìn)行重建:

      [Y=Decoder(Z)].? ? ? ? ? ? ? ? ? ?(3)

      其中:[Y]為重建的圖像,與[Y]具有相同的形狀和近似的內(nèi)容。一個(gè)好的離散變分自編碼器能夠令[Y]與[Y]無比接近。

      離散變分自編碼器對(duì)圖像中的高頻成分擁有較好的編碼能力,本文主要將其編碼器和解碼器應(yīng)用于ResNet網(wǎng)絡(luò),以期提取高頻的輪廓細(xì)節(jié)。

      1.2? ?輪廓檢測(cè)模型

      對(duì)于一幅形狀為[3×H×W]的自然圖像[X],其對(duì)應(yīng)的Ground truth形狀為[1×H×W]的[Y]。輪廓檢測(cè)的目的在于尋找一個(gè)輪廓檢測(cè)器[Detector?],使[Y=DetectorX]盡可能地接近[Y]。

      傳統(tǒng)的基于編解碼結(jié)構(gòu)的輪廓檢測(cè)網(wǎng)絡(luò)直接使用神經(jīng)網(wǎng)絡(luò)對(duì)[Detector?]進(jìn)行建模,其訓(xùn)練方式如圖3(a)所示,其編碼網(wǎng)絡(luò)與解碼網(wǎng)絡(luò)構(gòu)成了一個(gè)完整的輪廓檢測(cè)器。訓(xùn)練時(shí),通過縮小輸出輪廓[Y]與Ground truth [Y]之間的誤差對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,其損失函數(shù)利用交叉熵進(jìn)行計(jì)算:

      [L(Y, Y)=]

      [?βi∈L+logyi?(1?β)i∈L?log(1?yi)] .? ? (4)

      其中:[L+]和[L?]分別表示Ground truth [Y]中輪廓像素和非輪廓像素組成的集合;[yi]為輸出輪廓[Y]中的元素([i=0, 1, …, (H×W?1)]);[β=L?/(L++L?)]為平衡系數(shù),用于解決樣本分布不均衡的問題。但是,這種交叉熵在計(jì)算[ya]的損失時(shí),沒有考慮任何其他位置([i≠a])對(duì)[ya]的影響。

      不同于圖3(a)所示的傳統(tǒng)編解碼訓(xùn)練方式,本文僅訓(xùn)練編碼網(wǎng)絡(luò),如圖3(b)所示。訓(xùn)練時(shí),利用離散變分自編碼器中的編碼器對(duì)Ground truth進(jìn)行編碼,得到特征嵌入[Z](式(2)),通過縮小編碼網(wǎng)絡(luò)輸出的預(yù)測(cè)特征嵌入[Z]與特征嵌入[Z]之間的誤差對(duì)編碼網(wǎng)絡(luò)進(jìn)行訓(xùn)練。但由于離散的[Z]不可導(dǎo),無法直接設(shè)計(jì)[Z]與[Z]之間的損失函數(shù)用于訓(xùn)練,因此,通過抽象特征[V]間接表示[Z],進(jìn)而通過最小化[V]與[Z]之間的損失函數(shù)來減小[Z]與[Z]之間的誤差。對(duì)于自然圖像[X],編碼網(wǎng)絡(luò)輸出形狀為[C×H'×W']的抽象特征[V],其中[H'=H/8],[W'=W/8],[C=8 192]。而[Z]可以使用以下方式從[V]計(jì)算獲得:

      [Z=arg maxc{V(c)}] .? ? ? ? ? ? ? ?(5)

      編碼器輸出的特征嵌入[Z]皆為[0]~[8 191]的整數(shù),因此,編碼網(wǎng)絡(luò)任務(wù)可以視為對(duì)[H'×W']的二維網(wǎng)格內(nèi)每個(gè)元素進(jìn)行總類別為[8 192]的分類。由于Ground truth是風(fēng)格單調(diào)的圖片,其大部分區(qū)域都為背景,因此,由其編碼得到的特征嵌入[Z]具有類別分布極不平衡的特點(diǎn),有些類別所占比重很高,而有些類別的數(shù)量為[0]。圖4為Ground truth及其離散特征嵌入統(tǒng)計(jì)圖。此種情況下,使用常規(guī)的交叉熵作為損失函數(shù)會(huì)使模型難以收斂。為了解決這種問題,根據(jù)每種類別所占比例來動(dòng)態(tài)地為各個(gè)類別增加權(quán)重系數(shù),以平衡不同類別對(duì)損失計(jì)算的貢獻(xiàn)度。本文設(shè)計(jì)的損失函數(shù)如下:

      [L(V, Z)=]

      [?i=0H'×W'?1ω(zi)log(softmax(V(zi, i)))] .? ? ?(6)

      [ω(z)=0, ?(z)=0 ,1?(z), ?(z)≠0? .]? ? ? ? ? ? (7)

      [softmax(V(c, i))=exp (V(c, i))jexp (V(j, i))] .?; ? (8)

      其中:[zi]是特征嵌入[Z]中的元素[(] [i=0, 1, …, (H'×W'?1 ]))? ;? ? [ω(z)]為權(quán)重函數(shù),用以計(jì)算類別[z]在損失計(jì)算時(shí)的權(quán)重;[?(z)]是統(tǒng)計(jì)函數(shù),用于統(tǒng)計(jì)類別[z]在特征嵌入[Z]中的個(gè)數(shù)??梢钥闯觯捎诖嬖跈?quán)重系數(shù),當(dāng)[z]的數(shù)量[?(z)]非常大時(shí),[ω(z)]會(huì)很小并產(chǎn)生很強(qiáng)的抑制效果,從而削弱[z]的比重。

      圖5為本文與傳統(tǒng)輪廓檢測(cè)方式對(duì)比圖。本文方法使用離散變分自編碼器的解碼器完成了類似傳統(tǒng)編解碼方法中解碼網(wǎng)絡(luò)的任務(wù),不同之處在于本文方法通過arg max(式(5))將抽象特征轉(zhuǎn)化為離散的預(yù)測(cè)特征嵌入,這種離散的預(yù)測(cè)特征嵌入能被解碼器轉(zhuǎn)化為包含高頻細(xì)節(jié)的輪廓圖像。

      2? ? 實(shí)驗(yàn)結(jié)果與分析

      2.1? ?模型訓(xùn)練細(xì)節(jié)

      本文模型使用一張RTX2080Ti顯示卡進(jìn)行訓(xùn)練和測(cè)試,在Python語言環(huán)境中通過Pytorch深度學(xué)習(xí)框架對(duì)深度學(xué)習(xí)模型進(jìn)行實(shí)現(xiàn)。使用Ramesh等[15]訓(xùn)練好的離散變分自編碼器生成特征嵌入。編碼網(wǎng)絡(luò)的主干采用ResNet50[16],其參數(shù)在ImageNet數(shù)據(jù)集[17]上進(jìn)行預(yù)訓(xùn)練。在訓(xùn)練過程中,采用隨機(jī)梯度下降優(yōu)化算法對(duì)模型進(jìn)行參數(shù)更新,初始學(xué)習(xí)率為[2×10]-4,在整個(gè)數(shù)據(jù)集上迭代訓(xùn)練4次,每次迭代后將學(xué)習(xí)率變?yōu)樵瓉淼腫0.1]倍。

      將本文方法記為DVAE-Contour,使用BIPED數(shù)據(jù)集[18]進(jìn)行實(shí)驗(yàn)分析和對(duì)比。BIPED是最近提出的用于輪廓檢測(cè)評(píng)估的數(shù)據(jù)集,由[250]張分辨率為[1 280×720]的戶外圖片組成,每張圖片由專家進(jìn)行精心標(biāo)注。為了對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充,采用裁剪、旋轉(zhuǎn)、翻轉(zhuǎn)、伽馬校正等數(shù)據(jù)增強(qiáng)手段,擴(kuò)充后的數(shù)據(jù)集共有57 600對(duì)訓(xùn)練樣本。

      在進(jìn)行模型性能評(píng)估時(shí),使用AP(平均精度)、ODS(全局最優(yōu)閾值)以及OIS(圖像最優(yōu)閾值)下的[F]-measure(調(diào)和平均數(shù)[F]值)對(duì)模型進(jìn)行性能評(píng)估。[F]-measure的計(jì)算方式為:

      [F=2×P×RP+R],? ? ? ? ? ? ? ? ? ? ? ? ? ?(9)

      [P=NTPNTP+NFP],? ? ? ? ? ? ? ? ? ? ? ? ? ?(10)

      [R=NTPNTP+NFN] .? ? ? ? ? ? ? ? ? ? ? ? ? ?(11)

      其中:[P]和[R]分別代表精確度和回歸度,NTP表示輪廓像素被正確預(yù)測(cè)為輪廓像素的個(gè)數(shù),NFP表示背景像素被錯(cuò)誤預(yù)測(cè)為輪廓像素的個(gè)數(shù),NFN表示輪廓像素被錯(cuò)誤預(yù)測(cè)為背景像素的個(gè)數(shù)。

      2.2? ?模型輸出輪廓精細(xì)度分析

      對(duì)所提出模型提取輪廓的精細(xì)度進(jìn)行分析。在進(jìn)行評(píng)估時(shí),需要設(shè)置輪廓像素匹配容忍度,用來判斷一個(gè)像素是否能夠被判定為正確的輪廓像素,此容忍度越小,對(duì)像素的判斷越嚴(yán)格。因此,通過設(shè)置不同的匹配容忍度來測(cè)試模型輸出輪廓的精細(xì)程度。設(shè)置了[d1=0.007 5]、[d2=d1/2]、[d4=d1/4]這3個(gè)容忍度對(duì)DexiNed[18]以及本文所提出的DVAE-Contour進(jìn)行了實(shí)驗(yàn)。為了使評(píng)估結(jié)果對(duì)精細(xì)度分析有意義,所有的輪廓都沒有經(jīng)過非極大值抑制的細(xì)化處理。

      實(shí)驗(yàn)結(jié)果如圖6所示,當(dāng)輪廓像素的匹配容忍度變小時(shí),由于對(duì)輪廓像素的評(píng)判更加嚴(yán)格,圖中的2種方法在3個(gè)評(píng)價(jià)指標(biāo)中都有明顯的下降。對(duì)于ODS和OIS 2個(gè)評(píng)價(jià)指標(biāo),DVAE-Contour的性能在3種匹配容忍度下都優(yōu)于DexiNed,而AP則在匹配容忍度為[d4]的情況下落后于DexiNed。

      2.3? ?模型性能對(duì)比

      為了進(jìn)一步分析模型性能,將本文方法? ? ? ? ? (DVAE-Contour)與同類輪廓檢測(cè)方法在精度和模型訓(xùn)練參數(shù)量方面進(jìn)行對(duì)比,包括SED[19]、HED[7]、CED[3]、RCF[10]、BDCN[11]、DexiNed[18]。在采用非極大值抑制且輪廓像素匹配容忍度為0.007 5的情況下,各方法的ODS、OIS、AP以及所需要訓(xùn)練的參數(shù)量(Parameters(M))結(jié)果如表1所示。由表1可以看到,本文提出的DVAE-Contour在ODS和OIS這2項(xiàng)評(píng)價(jià)指標(biāo)下都明顯優(yōu)于最新算法DexiNed,分別高出3.0%和2.4%,而在參數(shù)量方面略高于DexiNed,這是因?yàn)楸疚姆椒ú捎玫哪P蛥?shù)量高于VGG16的ResNet50。為公平比較,采用與DexiNed相同的VGG16作為主干網(wǎng)絡(luò),本文方法能夠在訓(xùn)練更少的參數(shù)情況下獲得優(yōu)于DexiNed的ODS與OIS,分別高出0.6%和0.4%。雖然本文方法的AP低于其他方法,但是通過分析2.2中的數(shù)據(jù)發(fā)現(xiàn),這些方法的AP較高是由非極大值抑制所帶來的,當(dāng)沒有非極大值抑制時(shí),這些方法的AP可能會(huì)顯著下降。例如DexiNed在不使用非極大值抑制時(shí)AP只有0.713,相較于使用了非極大值抑制的AP下降了19.2%。而相比之下,DVAE-Contour對(duì)非極大值抑制的依賴則非常小,在不使用非極大值抑制時(shí)AP仍然能夠達(dá)到0.802,只下降了1.0%。

      圖7為DexiNed與DVAE-Contour的輪廓檢測(cè)效果圖。可以看到,DexiNed在一些輪廓密集的區(qū)域無法很好地呈現(xiàn)出輪廓細(xì)節(jié),其輸出中有些不同的輪廓甚至被錯(cuò)誤地融為了一體,而DVAE-Contour則能更好地保留輪廓細(xì)節(jié)。

      3? ? 結(jié)論

      本文研究了如何利用深度學(xué)習(xí)模型進(jìn)行精細(xì)輪廓檢測(cè)。近年來,基于卷積神經(jīng)網(wǎng)絡(luò)的輪廓檢測(cè)方法輸出輪廓定位不準(zhǔn)確且模糊,分析認(rèn)為其原因是這些模型沒有真正地將輪廓檢測(cè)建模為一個(gè)圖像到圖像的任務(wù)。為了進(jìn)行真正意義上的圖像到圖像建模,借助離散變分自編碼器訓(xùn)練輪廓檢測(cè)模型,利用其對(duì)圖像中高頻成分的強(qiáng)大編碼能力,幫助輪廓檢測(cè)模型提取高頻的輪廓信息,從而使輸出輪廓更加清晰和尖銳。通過不斷增大評(píng)價(jià)指標(biāo)對(duì)輪廓的準(zhǔn)確性要求進(jìn)行了輪廓精細(xì)度分析,實(shí)驗(yàn)數(shù)據(jù)表明,隨著精確性要求的提高,本文方法的大多數(shù)性能指標(biāo)都優(yōu)于其他檢測(cè)模型。

      本文方法雖然在一定程度上解決了輪廓定位不準(zhǔn)確和模糊的問題,但其良好性能依賴于強(qiáng)大的離散變分自編碼器,當(dāng)離散變分自編碼器的特征壓縮能力不強(qiáng)時(shí),模型性能將有所下降,因此,有必要進(jìn)一步研究如何利用小型的特征壓縮模型對(duì)模型進(jìn)行訓(xùn)練。

      參考文獻(xiàn)

      [1] ZITNICK C L,DOLLáR P. Edge boxes:locating object proposals from edges[C]//European Conference on Computer Vision,2014:391-405.

      [2] ZHU G,PORIKLI F,LI H D.Tracking randomly moving objects on edge box proposals[J/OL].Computer Science,2015:943-951[2022-03-01]. https://arxiv.org/pdf/1507.08085v2.pdf.

      [3] WANG Y P,ZHAO X,HUANG K Q.Deep crisp boundaries[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017:3892-3900.

      [4] BERTASIUS G,SHI J B,TORRESANI L.Semantic segmentation with boundary neural fields[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:3602-3610.

      [5] WAN J Q,LIU Y,WEI D L,et al. Super-BPD:super boundary-to-pixel direction for fast image segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2020:9253-9262.

      [6] 林川,曹以雋.基于深度學(xué)習(xí)的輪廓檢測(cè)算法:綜述[J].廣西科技大學(xué)學(xué)報(bào),2019,30(2):1-12.

      [7] XIE S N,TU Z W.Holistically-nested edge detection[C]//Proceedings of the IEEE International Conference on Computer Vision,2015:1395-1403.

      [8] LONG J,SHELHAMER E,DARRELL T. Fully convolutional networks for semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015:3431-3440.

      [9] LEE C Y,XIE S N,GALLAGHER P W, et al.Deeply-supervised nets[C]//Conference on Artificial Intelligence and Statistics,2015:562-570.

      [10] LIU Y,CHENG M M,HU X W,et al. Richer convolutional features for edge detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017:3000-3009.

      [11] HE J Z,ZHANG S L,YANG M,et al. Bi-directional cascade network for perceptual edge detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2019:3828-3837.

      [12] 喬亞坤,林川,張貞光.基于深度學(xué)習(xí)的輪廓檢測(cè)模型的交互式解碼網(wǎng)絡(luò)[J].廣西科技大學(xué)學(xué)報(bào),2022,33(1):46-53.

      [13] HUAN L X,XUE N,ZHENG X W,et al. Unmixing convolutional features for crisp edge detection[J/OL].IEEE Transactions on Pattern Analysis and Machine Intelligence,2021:1-9[2022-03-01]. https://arxiv.org/pdf/2011.09808v2.pdf.

      [14] MADDISON C J,MNIH A,TEH Y W. The concrete distribution:a continuous relaxation of discrete random variables[C]//International Conference on Learning Representations,2017.

      [15] RAMESH A,PAVLOV M,GOH G,et al.Zero-shot text-to-image generation[C]//International Conference on Machine Learning,2021:8821-8831.

      [16] HE K M,ZHANG X Y,REN S Q,et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:770-778.

      [17] DENG J,DONG W,SOCHER R,et al. ImageNet:a large-scale hierarchical image database[C]//IEEE Conference on Computer Vision and Pattern Recognition,2009:248-255.

      [18] SORIA X,RIBA E,SAPPA A. Dense extreme inception network:towards a robust CNN model for edge detection[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision,2020: 1923-1932.

      [19] AKBARINIA A,PARRAGA C A.Feedback and surround modulated boundary detection[J].International Journal of Computer Vision,2018,126(12):1367-1380.

      Crisp contour detection based on ResNet and discrete variational

      auto-encoder

      WANG Qu,LIN Chuan*,CHEN Yongliang

      (School of Electrical, Electronic and Computer Science, Guangxi University of Science and Technology,

      Liuzhou 545616, China)

      Abstract: Traditional contour detection methods based on convolutional neural network are mostly encode-decode structures composed of encode and decode networks, which exhibit better performance but still suffer from inaccurate contour localization and blurred output contours. To solve this problem, this paper proposes a contour detection method based on the discrete variational auto-encoder. Unlike traditional encode-decode methods, this paper discards the decode network, the encoder and decoder of the discrete variational self-encoder are used to cooperate with the encode network for training and? ? contour detection, respectively. In addition, a loss function with dynamic weights is designed to solve the problem of extremely unbalanced category distribution encountered in the training process of the method in this paper. Based on the BIPED data set, the contour crispness experiment shows that this method can outperform the newest method DexiNed using more strict criteria, while the ODS? ? ? ? ? ? ? F-measure of this method can reach 0.889 under general evaluation criteria, which is 3.0% better than DexiNed. This indicates that the utilization of the discrete variational auto-encoder not only helps the model to improve the contour crispness, but also significantly improve the contour detection? ? ? ? ? ? ? performance of the model.

      Key words: contour detection;deep learning;discrete variational auto-encoder;computer vision; cross-entropy loss function

      (責(zé)任編輯:黎? ?婭)

      猜你喜歡
      計(jì)算機(jī)視覺深度學(xué)習(xí)
      基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法
      雙目攝像頭在識(shí)別物體大小方面的應(yīng)用
      機(jī)器視覺技術(shù)發(fā)展及其工業(yè)應(yīng)用
      危險(xiǎn)氣體罐車液位計(jì)算機(jī)視覺監(jiān)控識(shí)別報(bào)警系統(tǒng)設(shè)計(jì)
      有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
      計(jì)算機(jī)視覺在交通領(lǐng)域的應(yīng)用
      電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
      MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
      大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
      基于計(jì)算機(jī)視覺的細(xì)小顆粒團(tuán)重量測(cè)量的研究
      榕江县| 和政县| 桂阳县| 句容市| 慈溪市| 浦县| 长垣县| 宁河县| 安西县| 香港 | 施秉县| 临武县| 房产| 遵化市| 安泽县| 乌兰浩特市| 上蔡县| 什邡市| 汝城县| 克东县| 闻喜县| 房产| 光山县| 炎陵县| 天柱县| 武汉市| 台山市| 平果县| 新兴县| 彭山县| 鹰潭市| 贡山| 同仁县| 嘉祥县| 临安市| 荔波县| 崇明县| 丹棱县| 新竹市| 周宁县| 伊宁县|