徐天宇,孟朝暉
(河海大學(xué) 計(jì)算機(jī)與信息學(xué)院,南京 211100)
圖像語(yǔ)義分割(image semantic segmentation)是圖像處理和計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)關(guān)鍵問(wèn)題,在自動(dòng)駕駛、場(chǎng)景理解、目標(biāo)檢測(cè)[1]等相關(guān)領(lǐng)域都有著廣闊的應(yīng)用前景,是圖像理解的基石性技術(shù).傳統(tǒng)的圖像分割旨在將分屬于不同物體的像素區(qū)域分隔開(kāi),而語(yǔ)義分割則更進(jìn)一步,在圖像分割的基礎(chǔ)上按照語(yǔ)義為每一塊像素區(qū)域做分類(lèi),在精度和細(xì)度上都是圖像分割的一個(gè)重大升級(jí),可以理解為像素級(jí)別的分類(lèi)任務(wù).
在深度學(xué)習(xí)方法涌現(xiàn)之前,語(yǔ)義分割主要依賴(lài)于傳統(tǒng)的分割算法,根據(jù)圖像的顏色、紋理等底層信息進(jìn)行區(qū)域劃分,同時(shí)需要一定的人工干預(yù).其中,比較著名的有一種叫做“Normalizedcut”[2]的圖劃分方法,簡(jiǎn)稱(chēng)N-cut,通過(guò)計(jì)算像素與像素之間的關(guān)系權(quán)重來(lái)綜合考慮,然后根據(jù)給出的閾值,將圖像一分為二.但N-cut的缺陷很明顯,即需要對(duì)圖像進(jìn)行多次劃分,同時(shí)由于此類(lèi)分割方法過(guò)于簡(jiǎn)單粗暴,無(wú)法對(duì)圖像中顏色紋理較為相似的部分進(jìn)行分割,導(dǎo)致分割結(jié)果并不準(zhǔn)確.在這之后提出[3]的“Grab-cut”方法增加了人工交互,手工選定圖像中待分割區(qū)域,并提供一個(gè)大致的分割邊界,再通過(guò)算法進(jìn)行目標(biāo)區(qū)域的分割操作.相比N-cut 方法分割結(jié)果有所提升,但由于增加了人工干預(yù)步驟,使得其根本無(wú)法適應(yīng)批量化的大規(guī)模分割要求.同時(shí),仍然無(wú)法解決傳統(tǒng)圖像算法分割準(zhǔn)確率低,無(wú)法有效分割顏色紋理信息較為相似的區(qū)域的缺點(diǎn).
2012年以來(lái),深度學(xué)習(xí)幾乎席卷了整個(gè)計(jì)算機(jī)視覺(jué)領(lǐng)域,如AlexNet[4]、GoogLeNet[5]和ResNet[6]在圖像分類(lèi)和目標(biāo)檢測(cè)等相關(guān)任務(wù)中取得了全面優(yōu)于傳統(tǒng)方法的表現(xiàn),語(yǔ)義分割當(dāng)然也不例外.卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)能夠自動(dòng)從圖像中提取特征的分布式表示,避免了手工設(shè)計(jì)各類(lèi)算子,并且相較于傳統(tǒng)方法,CNN 能夠?qū)W習(xí)到更高維度的特征表示,很多解決語(yǔ)義分割的網(wǎng)絡(luò)都是以CNN 為基礎(chǔ)改進(jìn)而來(lái).Long 等[7]提出的全卷積網(wǎng)絡(luò)(Fully Convolution Network,FCN)斬獲了當(dāng)年CVPR 的最佳會(huì)議論文,是第一個(gè)用于解決語(yǔ)義分割問(wèn)題的、可端到端訓(xùn)練的深度網(wǎng)絡(luò).FCN 網(wǎng)絡(luò)以VGG-16[8]作為主干網(wǎng)絡(luò),用卷積層替換原本的全連接層,最后一層由原本的1000 個(gè)神經(jīng)元改為21 通道的卷積層(PASCAL VOC數(shù)據(jù)集提供的類(lèi)別數(shù)為20 類(lèi),加上背景類(lèi)別即為21),最后將輸出的預(yù)測(cè)結(jié)果上采樣到和原圖像分辨率相同大小,在PASCAL VOC 數(shù)據(jù)集上取得了當(dāng)時(shí)最好的結(jié)果.文獻(xiàn)[9]提出的SegNet 網(wǎng)絡(luò)遵循了FCN 的基本框架,但在編碼階段記錄每一個(gè)最大池化的位置信息,解碼階段使用最大池化索引上采樣,將對(duì)應(yīng)參數(shù)恢復(fù)至原先的位置,以更好的恢復(fù)邊緣信息,效果相比FCN 有所提升.Chen 等[10]提出的DeepLab 主張?zhí)卣鲌D應(yīng)保留一定的分辨率以適應(yīng)語(yǔ)義分割此類(lèi)稠密預(yù)測(cè)任務(wù),在解碼層使用擴(kuò)張卷積,最后得到分辨率更高的特征熱點(diǎn)圖(HeatMap),再利用CRF 對(duì)分割結(jié)果進(jìn)行銳化,得到了很好的分割結(jié)果.
相比于傳統(tǒng)的分割方法,基于卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)義分割方法得到的結(jié)果更為準(zhǔn)確,而且能直接得到圖像中物體的語(yǔ)義信息.目前用于解決語(yǔ)義分割問(wèn)題的網(wǎng)絡(luò)大致遵循全卷積網(wǎng)絡(luò)的編碼-解碼結(jié)構(gòu),編碼部分利用卷積層提取圖像的語(yǔ)義信息,解碼部分引入編碼部分的信息以修復(fù)因?yàn)橄虏蓸佣鴵p失的空間信息,或者直接進(jìn)行上采樣.以現(xiàn)在的眼光看來(lái),FCN 的分割結(jié)果相較而言略顯粗糙,很多視覺(jué)外觀相似的物體會(huì)被誤分割,而且對(duì)小尺度物體的分割效果并不能令人滿意.一種提升網(wǎng)絡(luò)多尺度分割能力的方法是對(duì)輸入圖像進(jìn)行縮放,將原始圖像的不同分辨率版本輸入到多通道的網(wǎng)絡(luò)中,再在頂部進(jìn)行多尺度的特征融合,在一定程度上能提升網(wǎng)絡(luò)的分割表現(xiàn),但由于增加了輸入通道的緣故,增加了網(wǎng)絡(luò)參數(shù).
對(duì)于低分辨率的小目標(biāo)的識(shí)別和檢測(cè)一直是計(jì)算機(jī)視覺(jué)領(lǐng)域的難點(diǎn)問(wèn)題,傳統(tǒng)的圖像算法存在模型復(fù)雜度高、且泛化性能差等問(wèn)題,而早期的深度網(wǎng)絡(luò)對(duì)于小目標(biāo)的檢測(cè)也完成的不夠好.早期的語(yǔ)義分割模型也存在同樣的問(wèn)題,對(duì)于大尺度目標(biāo)的分割較為準(zhǔn)確,而對(duì)于圖像中的小目標(biāo)分割不夠精細(xì),甚至無(wú)法分割,直接將其誤判為背景.為了解決這一問(wèn)題,Raj 等[11]人提出了一種雙路全卷積網(wǎng)絡(luò),以VGG-16 作為主干網(wǎng)絡(luò),將原圖像送入其中一路網(wǎng)絡(luò),再將原圖像上采樣兩倍之后送入另一路網(wǎng)絡(luò),最后將兩個(gè)網(wǎng)絡(luò)的結(jié)果進(jìn)行融合,經(jīng)過(guò)卷積操作消除混疊效應(yīng)之后進(jìn)行上采樣得到最后的輸出,其結(jié)果也顯示出了網(wǎng)絡(luò)對(duì)于多尺度變化的魯棒性.在這之后也有很多利用圖像金字塔結(jié)構(gòu)來(lái)獲取圖像的多尺度信息,以提高網(wǎng)絡(luò)對(duì)多尺度物體的分割性能的工作.文獻(xiàn)[12]提出了一種多尺度的FCN,訓(xùn)練多個(gè)FCN 來(lái)提取不同尺度的特征,在網(wǎng)絡(luò)的尾部進(jìn)行特征融合,再對(duì)融合后的特征熱點(diǎn)圖反卷積操作得到上采樣之后的輸出分割圖,創(chuàng)新性的使用了分階段的訓(xùn)練方法.首先單獨(dú)訓(xùn)練提取不同尺度特征的FCN,再將其和最后的卷積層連接,最后對(duì)最后的卷積層進(jìn)行微調(diào),且結(jié)果本身具有良好的拓展性,可以方便的添加任意數(shù)量的訓(xùn)練模型.
本文以提升網(wǎng)絡(luò)對(duì)多尺度物體的分割能力為目的,創(chuàng)新性的提出了一種利用特征金字塔網(wǎng)絡(luò)(feature pyramid network)整合多級(jí)特征的語(yǔ)義分割網(wǎng)絡(luò),以基于VGG-16 的FCN 網(wǎng)絡(luò)為主干,將頂層的具有豐富的語(yǔ)義信息的特征圖送入前一階段進(jìn)行融合(將特征圖尺寸不變的層稱(chēng)為一個(gè)階段,每次抽取的特征都是每一個(gè)階段的最后一層的特征圖),自頂向下的抽取特征圖送入前一階段進(jìn)行融合,對(duì)融合后的特征圖進(jìn)行卷積操作以消除融合的混疊效應(yīng),利用高層的語(yǔ)義信息幫助低層的具有高分辨率的特征圖判別圖像中物體的語(yǔ)義類(lèi)別,然后將最后得到的特征熱點(diǎn)圖進(jìn)行上采樣,直至恢復(fù)到輸入圖像尺寸大小.經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證,本文提出的方法對(duì)于分割小尺度物體具有一定的先進(jìn)性.
傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)由卷積層和全連接層組成,卷積層進(jìn)行特征提取,全連接層提供了強(qiáng)大的分類(lèi)能力.但全連接層的存在限制了輸入圖像的尺寸,使得其必須固定.等提出了一種基于像素塊的深度學(xué)習(xí)語(yǔ)義分割方法,將截取目標(biāo)像素點(diǎn)周?chē)徲騼?nèi)一固定大小的像素塊送入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,從而得到像素點(diǎn)的分類(lèi),將語(yǔ)義分割問(wèn)題完全轉(zhuǎn)換成了分類(lèi)問(wèn)題,而忽略了語(yǔ)義分割本身是一個(gè)像素稠密預(yù)測(cè)問(wèn)題這一特性.顯然,基于像素塊的語(yǔ)義分割方法極大程度上受到全連接層需要固定輸入尺寸這一特性的制約.在全卷積網(wǎng)絡(luò)提出之前,就有學(xué)者考慮將全連接層轉(zhuǎn)換為卷積層的嘗試,因?yàn)槿B接層本身可以視作以一個(gè)和特征圖同樣大小的卷積核對(duì)特征圖進(jìn)行掃描,而且因?yàn)榫矸e層權(quán)重共享的緣故,轉(zhuǎn)換為卷積形式之后網(wǎng)絡(luò)在進(jìn)行前向計(jì)算時(shí)效率更高,而且摒棄了全連接層需要固定輸入大小的缺點(diǎn).Long 等人首次將全卷積網(wǎng)絡(luò)應(yīng)用于語(yǔ)義分割任務(wù),將傳統(tǒng)卷積網(wǎng)絡(luò)尾端的全連接層替換成卷積層,這樣輸出的就不再是對(duì)應(yīng)的類(lèi)別,而是對(duì)應(yīng)的特征熱點(diǎn)圖,同時(shí)為了解決因?yàn)榫矸e和池化操作對(duì)圖像分辨率造成的影響而使用上采樣操作恢復(fù)圖像尺寸.在上采樣的過(guò)程中,作者發(fā)現(xiàn)直接將最后一層輸出的特征熱點(diǎn)圖(尺寸為原圖像的1/32)進(jìn)行上采樣得到的分割圖不夠精確,一些細(xì)節(jié)無(wú)法恢復(fù),于是作者引入了一種跳躍連接的結(jié)構(gòu),將heatmap 上采樣兩倍之后與前一階段的縮小為1/16 的特征圖相融合,在將其上采樣為輸入圖像的1/8 大小,與前一階段的特征圖融合,再將其上采樣至原圖大小得到最后的分割結(jié)果,由于更好的兼顧了全局信息和局部信息的緣故,使得最后的分割結(jié)果更為精細(xì).
特征金字塔網(wǎng)絡(luò)(Feature Pyramid Networks,FPN)是由何凱明等提出的,具體結(jié)構(gòu)如圖1所示.原先是為了應(yīng)對(duì)多尺度目標(biāo)檢測(cè)這一具有挑戰(zhàn)性的問(wèn)題,對(duì)小目標(biāo)的檢測(cè)取得了很好的效果.物體的尺度變化帶來(lái)的挑戰(zhàn)幾乎是所有的計(jì)算機(jī)視覺(jué)任務(wù)都要面對(duì)的難題,語(yǔ)義分割也不例外[13].現(xiàn)有的基于CNN 的語(yǔ)義分割網(wǎng)絡(luò)當(dāng)中都會(huì)包含池化層,池化層有降低特征圖尺寸同時(shí)聚合感受野的作用,但這也帶來(lái)了分辨率的損失,并不利于語(yǔ)義分割此類(lèi)像素稠密型的預(yù)測(cè)任務(wù),逐級(jí)的下采樣會(huì)使得物體尺寸不斷縮小,原圖中的小尺度物體在傳遞到深層網(wǎng)絡(luò)時(shí)很有可能已經(jīng)完全消失.文獻(xiàn)[14]提出了一種基于圖像金字塔的方法,將不同分辨率版本的輸入圖片送入網(wǎng)絡(luò),再將各自得到的最后的特征熱點(diǎn)圖進(jìn)行融合,如此得到最終分割結(jié)果,在一定程度上解決了多尺度的物體分割.但這種基于圖像金字塔的方法的缺點(diǎn)在于會(huì)引入額外的計(jì)算量,降低了模型的效率.FPN 提出了一種基于特征金字塔的特征聚合方法,除了自底向上的特征提取路徑,還增加了一路自上向下的語(yǔ)義信息傳遞路徑,實(shí)現(xiàn)了深層語(yǔ)義信息的傳遞,使得淺層的特征圖也具有了一定的語(yǔ)義信息,每一層都可以輸出對(duì)應(yīng)的檢測(cè)結(jié)果,實(shí)現(xiàn)了端到端的多尺度檢測(cè)任務(wù).同樣的結(jié)果也可以用于語(yǔ)義分割任務(wù)中.
圖1 特征金字塔結(jié)構(gòu)
傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)包含了卷積層和全連接層,卷積層進(jìn)行特征提取,全連接層作為分類(lèi)器.和手工設(shè)計(jì)的傳統(tǒng)算子不同的是,作為特征提取器的卷積核并不需要很強(qiáng)的先驗(yàn)知識(shí),而是自動(dòng)的從數(shù)據(jù)中學(xué)習(xí)規(guī)律,提取出分類(lèi)效果最好的特征,這樣的好處在于卷積核可以提取出人類(lèi)無(wú)法理解的高維度特征,且實(shí)驗(yàn)證明高維度的特征確實(shí)更有利于分類(lèi)任務(wù),從而打破了人類(lèi)先驗(yàn)知識(shí)的一個(gè)束縛.
一般意義上,研究人員認(rèn)為卷積操作的特征提取是由淺到深、由低維到高維的一個(gè)過(guò)程.淺層的卷積層提取到的一般是低層的特征信息,比如顏色、線條、焦點(diǎn)等;再往后就可以學(xué)習(xí)到邊緣、紋理等具有一定區(qū)分度的信息;深層的卷積層學(xué)習(xí)到的特征就更加完整,具有明顯的語(yǔ)義信息,比如物體的具體輪廓、目標(biāo)的位置信息等.毫無(wú)疑問(wèn),深層的、語(yǔ)義信息明確的特征更有利于我們的分類(lèi)任務(wù).語(yǔ)義分割作為一種空間稠密型的預(yù)測(cè)任務(wù),不僅需要對(duì)圖像中的像素進(jìn)行正確的分類(lèi),圖像中的空間信息同樣重要,而在特征提取階段往往需要進(jìn)行多階段的下采樣,導(dǎo)致了空間信息的損失.FCN 選擇在上采樣階段逐級(jí)的融合上一階段的特征信息,以恢復(fù)損失的空間信息,但這種融合方式存在一定的限制[15].文獻(xiàn)[16]發(fā)現(xiàn),如果直接將淺層的特征圖與深層的特征圖進(jìn)行融合,不僅沒(méi)有起到恢復(fù)空間信息的作用,反而使得原有的分割結(jié)果更為糟糕.這是因?yàn)闇\層的特征圖雖然很好的保留了空間信息,但由于缺少明確的語(yǔ)義信息,反而會(huì)對(duì)像素的分類(lèi)帶來(lái)干擾.所以FCN 的特征融合只進(jìn)行到第三階段的卷積層,即只到原圖像八分之一大小的特征圖為止,這也從側(cè)面印證了我們只要保證進(jìn)行融合的特征圖具有相對(duì)程度的語(yǔ)義信息[17],即能實(shí)現(xiàn)融合的有效性.
本文算法提出,將特征金字塔結(jié)構(gòu)嵌入初始的FCN 中,利用特征金字塔模塊實(shí)現(xiàn)深層語(yǔ)義信息由深至淺的傳遞,使得淺層的特征圖在很大程度的保留空間信息的同時(shí)也具有了一定的語(yǔ)義信息,能夠參與到下階段的上采樣之中.具體做法是,由后往前的將深層的特征圖進(jìn)行傳遞,通過(guò)上采樣和1×1 卷積核調(diào)整特征圖的尺寸和通道數(shù),最后使得淺層特征圖也具有一定程度的語(yǔ)義信息.需要注意的一點(diǎn)是,特征圖的上采樣在一定程度上會(huì)帶來(lái)圖像的混疊效應(yīng),本文在每一個(gè)融合階段之后采用了一個(gè)3×3 的卷積核來(lái)消除混疊效應(yīng),以得到語(yǔ)義信息更為明確的特征圖.最后將經(jīng)過(guò)修正的特征圖加入跳層連接的上采樣路徑,逐層的恢復(fù)下采樣過(guò)程中損失的空間信息,得到最后的分割圖.有別于傳統(tǒng)的圖像金字塔方法,基于特征金字塔的方法在聚合多級(jí)特征的同時(shí)有效的減少了模型本身的計(jì)算量.
在上一小節(jié)中,我們?cè)敿?xì)介紹了特征金字塔結(jié)構(gòu)實(shí)現(xiàn)深層信息傳遞的具體方式,本節(jié)中我們會(huì)詳細(xì)介紹本文網(wǎng)絡(luò)的具體結(jié)構(gòu).
FCN 以VGG 為主干網(wǎng)絡(luò),用三層卷積層代替了原本的全連接層,使得網(wǎng)絡(luò)具有了全卷積的結(jié)構(gòu),緊接著添加一層卷積核尺寸為1 ×1的卷積層[18]調(diào)整輸出通道數(shù),再利用softmax 分類(lèi)器預(yù)測(cè)每個(gè)像素位置上的得分,然后對(duì)生成的特征熱點(diǎn)圖進(jìn)行上采樣恢復(fù)至輸入圖像大小.本文的上采樣方法選用的是雙線性插值法,公式如下所示
其中,E代表像素值,G(,)為雙線性插值系數(shù),p代表上采樣之后的像素位置,q代表與其相鄰的四個(gè)像素點(diǎn)位置.雙線性插值的好處在于可微,便于網(wǎng)絡(luò)進(jìn)行端到端訓(xùn)練.
但對(duì)特征熱點(diǎn)圖進(jìn)行一次直接上采樣得到的結(jié)果比較粗糙[19],原因在于池化層在獲取更大感受野的同時(shí)丟失了一定的空間信息[20],研究人員考慮到這一問(wèn)題,選擇利用跳躍連接引入前一階段的特征圖修復(fù)空間信息,這個(gè)過(guò)程只進(jìn)行到中間層的特征圖為止,因?yàn)闇\層的特征圖語(yǔ)義信息不夠明確,會(huì)對(duì)像素預(yù)測(cè)造成干擾.本文提出利用特征金字塔模型,將深層的語(yǔ)義信息傳遞至淺層,生成語(yǔ)義信息更為明確的淺層特征圖,再通過(guò)逐階段的特征圖融合和上采樣生成最后的分割圖.網(wǎng)絡(luò)具體結(jié)構(gòu)如圖2所示.
圖2 網(wǎng)絡(luò)結(jié)構(gòu)圖
圖2中,由左至右的箭頭代表下采樣,由右至左的箭頭代表上采樣,由上至下的箭頭代表對(duì)應(yīng)階段特征圖的融合操作,本文采用像素值直接相加的融合方式.
當(dāng)訓(xùn)練樣本進(jìn)入網(wǎng)絡(luò)之后,經(jīng)過(guò)五層池化層的下采樣,每次池化的步長(zhǎng)為2,圖像細(xì)粒度會(huì)變?yōu)樵瓉?lái)的1/32,圖2中的pool1 階段包含了兩層卷積層,經(jīng)過(guò)兩層的特征提取之后進(jìn)行池化下采樣,聚合特征的同時(shí)擴(kuò)大感受野,相似的,后面緊跟的四個(gè)池化階段進(jìn)行同樣的操作,只是內(nèi)部卷積層的層數(shù)有所不同,pool2 階段同樣包含了兩層卷積層,pool3、pool4、pool5 階段都包含了四層卷積層,整個(gè)網(wǎng)絡(luò)的卷積核尺寸統(tǒng)一為3×3,激活函數(shù)采用Relu 函數(shù).我們將pool5 層輸出的特征圖稱(chēng)為特征熱點(diǎn)圖,直接對(duì)熱點(diǎn)圖進(jìn)行上采樣得到的結(jié)果較為粗糙.為了得到更為精細(xì)的分割結(jié)果,逐級(jí)的融合前一階段的特征圖是有必要的,本文利用深層特征圖的反向融合來(lái)來(lái)增強(qiáng)淺層特征圖的語(yǔ)義信息.如圖2所示,將pool5 即特征提取網(wǎng)絡(luò)提取到的最深層特征和前一階段的特征圖,即pool4 融合,利用雙線性插值法把pool5 的特征圖上采樣到pool4階段相同大小,利用1×1 卷積核調(diào)整pool5 的通道數(shù),融合方式本文采用對(duì)應(yīng)通道特征圖的像素加,我們將融合之后的特征圖稱(chēng)為fpn2,pool5 即為fpn1.同樣的,再將融合之后的fpn2 往淺層進(jìn)行逐級(jí)的傳遞和融合操作,便得到了相應(yīng)的fpn3、fpn4和fpn5,這便是進(jìn)行信息增強(qiáng)之后的特征圖.進(jìn)行完上述操作之后,即便是淺層的特征圖也具有了一定的語(yǔ)義信息,可以參與到之后的上采樣過(guò)程之中.上采樣階段,還是從pool5 即fpn1 開(kāi)始,逐級(jí)的使用雙線性插值法[21]擴(kuò)大熱點(diǎn)圖尺寸,使用1×1卷積核調(diào)整特征通道數(shù),需要注意的是,這時(shí)候我們將每一級(jí)的通道數(shù)都調(diào)整為n+1,最后得到了一組通道數(shù)和標(biāo)簽類(lèi)別數(shù)相匹配的特征圖,最后在每個(gè)像素點(diǎn)上利用softmax 分類(lèi)器進(jìn)行分類(lèi),即能得到最終的分割圖.
本文選用的TensorFlow-1.4.0 版本作為實(shí)驗(yàn)框架,運(yùn)算平臺(tái)為6 核i7 處理器,利用GTX 1060 顯卡進(jìn)行GPU 加速,選擇Pascal VOC 作為實(shí)驗(yàn)數(shù)據(jù)集.Pascal VOC 是在檢測(cè)和分割任務(wù)中常被用到的一個(gè)基準(zhǔn)數(shù)據(jù)集,包含了20 個(gè)語(yǔ)義類(lèi)別和1 個(gè)背景類(lèi)別[22].本文選取了其中了1747 張樣本作為訓(xùn)練集、874 張樣本作為驗(yàn)證集合、1165 張樣本作為測(cè)試集并可視化實(shí)驗(yàn)結(jié)果以對(duì)本文提出的算法進(jìn)行評(píng)估.
本文采用兩個(gè)指標(biāo)來(lái)評(píng)價(jià)分割結(jié)果的好壞,分別是均像素精度(Mean Pixel Accuracy,MPA)
和權(quán)頻交并比(Frequency Weight Intersectionover Union,FWIU)
前者指的是每一類(lèi)像素的精度的平均值[23],后者指的是在每一類(lèi)出現(xiàn)的頻率作為權(quán)重的條件下真實(shí)值和預(yù)測(cè)值的交集比上兩者并集的平均值.
在進(jìn)行實(shí)驗(yàn)時(shí),本文將所有圖片統(tǒng)一尺寸為1024 ×1024 再送入網(wǎng)絡(luò)進(jìn)行訓(xùn)練,需要注意的一點(diǎn)是,由于分割任務(wù)的標(biāo)注方式是逐像素的,所以本文采用裁剪而不是縮放的方式來(lái)改變輸入圖像的尺寸[24],后者會(huì)導(dǎo)致標(biāo)注信息的失效.本文與未經(jīng)過(guò)多級(jí)特征整合的3 個(gè)版本的全卷積網(wǎng)絡(luò)架構(gòu)分割準(zhǔn)確率進(jìn)行比較,結(jié)果如表1所示.
表1 本文提出算法與各版本FCN 準(zhǔn)確度比較(%)
傳統(tǒng)的全卷積網(wǎng)絡(luò)在經(jīng)過(guò)第三層池化層之后特征圖尺寸縮小為原圖的1/8,經(jīng)過(guò)第四、第五層池化層之后尺寸相應(yīng)的縮小為1/16和1/32,將1/32 的特征熱點(diǎn)圖經(jīng)過(guò)雙線性插值直接上采樣變得到了FCN-32s.但研究者發(fā)現(xiàn)直接上采樣的方法得到的結(jié)果不夠精細(xì),于是在上采樣路徑中引入了“跳層連接”,融合了第四層池化層和第三層池化層的特征圖以補(bǔ)全空間信息,得到了FCN-16s和FCN-8s 版本的分割結(jié)果.從結(jié)果上看,融合的特征圖越多,分割出的結(jié)果更加精細(xì),對(duì)邊緣等細(xì)節(jié)信息的刻畫(huà)更為準(zhǔn)確.本文的算法在上采樣路徑之前進(jìn)行多級(jí)特征的信息整合,利用特征金字塔結(jié)構(gòu)增強(qiáng)淺層特征圖的語(yǔ)義信息,在融合了在FCN-8s 的基礎(chǔ)上了,又和第一層和第二層池化層的特征圖進(jìn)行融合,利用淺層的特征圖對(duì)分割結(jié)果進(jìn)行空間信息的補(bǔ)全,克服了傳統(tǒng)全卷積網(wǎng)絡(luò)無(wú)法充分利用特征圖空間信息的缺陷.從表1可以看出,本文提出的算法在均像素精度(MPA)和權(quán)頻交并比(FWIU)這兩個(gè)標(biāo)準(zhǔn)上都要優(yōu)于傳統(tǒng)全卷積網(wǎng)絡(luò).幾種算法的分割結(jié)果如圖3所示,從圖中我們可以看出,經(jīng)過(guò)特征整合之后,分割結(jié)果的邊緣更為平滑,對(duì)細(xì)節(jié)的勾勒更為清晰,可見(jiàn)本文提出的算法具有一定程度的先進(jìn)性.
圖3 分割結(jié)果圖
本文在傳統(tǒng)全卷積網(wǎng)絡(luò)的基礎(chǔ)上,在上采樣路徑之前,利用特征金字塔網(wǎng)絡(luò)進(jìn)行多級(jí)特征信息的整合,再利用特征融合之后的特征圖補(bǔ)全初始分割結(jié)果的空間信息,克服了傳統(tǒng)全卷積網(wǎng)絡(luò)無(wú)法充分利用淺層特征信息的缺點(diǎn)[25],實(shí)現(xiàn)了對(duì)圖像空間信息更好的恢復(fù).在Pascal VOC 數(shù)據(jù)集上取得了75.8%的均像素精度和83.9%的權(quán)頻交并比.在保證更高的精度基礎(chǔ)之上,如何兼顧網(wǎng)絡(luò)整體的運(yùn)行速度,以及在實(shí)際應(yīng)用過(guò)程中的魯棒性,也是亟待解決的問(wèn)題,需要更多的努力.
計(jì)算機(jī)系統(tǒng)應(yīng)用2019年9期