吳 彬,楊 戈,陳海洋
(1 北京師范大學(xué)珠海分校,廣東 珠海 519000;2北京師范大學(xué)研究生院,北京 100875)
前景對象圖像分割是指對圖像進(jìn)行聯(lián)合識別和分割的任務(wù),將每個像素劃分為2個固定類別之一,即前景或者背景.視覺搜索系統(tǒng)可以在復(fù)雜背景中,使用前景對象快速準(zhǔn)確地查詢圖像中的重要對象.了解對象的空間范圍,還可以幫助解決下游視覺任務(wù),如場景理解和字幕生成.在前景對象分割中,以獨立于類別的方式對 "前景" 對象進(jìn)行分割至關(guān)重要.模型必須能夠為訓(xùn)練過程中從未遇到過的對象確定對象邊界,完成分割.這將與專門針對預(yù)定義類別進(jìn)行訓(xùn)練的語義分割模型區(qū)分開來.[1-6]前景對象分割是一個基本的計算機視覺問題,一直是人工智能和計算機視覺領(lǐng)域的研究熱門和技術(shù)前沿,是人臉識別、醫(yī)療輔助以及自動駕駛等眾多領(lǐng)域的關(guān)鍵技術(shù),還是圖像檢索、對象追蹤和行為分析等高級視覺任務(wù)的研究基礎(chǔ),在工業(yè)控制、視頻監(jiān)控、國防軍事、農(nóng)業(yè)生產(chǎn)、醫(yī)學(xué)影像分析等諸多領(lǐng)域的具有廣闊的應(yīng)用前景.本文探索了在標(biāo)注信息和數(shù)據(jù)信息有限的情況下利用深度卷積神經(jīng)網(wǎng)絡(luò)提升圖像分割性能的新思路,在提高圖像分割模型針對海量數(shù)據(jù)辨別能力的同時,突破現(xiàn)有建模和計算方法的技術(shù)瓶頸,對圖像處理、機器學(xué)習(xí)、模式識別和計算機視覺領(lǐng)域的發(fā)展具有重要意義.
根據(jù)分割是否依賴類別,本文將前景對象分割模型分為2類.分別為不依賴類別的分割和特定類別的分割.
根據(jù)分割策略與目的的不同,將不依賴類別的分割分為以下3種:
(1) 交互式圖像分割模型.如GrabCut模型是讓人用邊框或涂鴉來指導(dǎo)算法.當(dāng)需要進(jìn)行高精度的分割時,這類模型是比較適合的.這些模型雖然試圖減少人工的參與,但不能全自動的完成分割.
(2) 對象建議模型.該類模型以邊界框或區(qū)域的形式生成上千個前景對象建議,產(chǎn)生上千個假設(shè)可以確保高的召回率,但往往會導(dǎo)致低精度的結(jié)果.雖然其對目標(biāo)檢測有效,但在沒有特定信息的情況下,很難自動地從這個大的假設(shè)集合中過濾出準(zhǔn)確的建議,完成分割任務(wù).
(3) 顯著性模型.該類模型的目標(biāo)是識別可能吸引人類注意力的區(qū)域.文獻(xiàn)[7]模型產(chǎn)生高度局部化的區(qū)域,而文獻(xiàn)[8]模型則分割完整的對象.顯著性模型關(guān)注的是“突出”的對象,不能分割所有前景對象.
根據(jù)訓(xùn)練數(shù)據(jù)集的不同使用策略將特定類別的分割模型分為以下3種:
(1) 語義分割模型.語義分割是指對對象進(jìn)行聯(lián)合識別和分割的任務(wù),將每個像素劃分為k個固定類別之一.大多數(shù)的深層語義分割模型包括完全卷積網(wǎng)絡(luò),它應(yīng)用連續(xù)的卷積層和池化層,然后在末端進(jìn)行上行采樣或反卷積操作,從而產(chǎn)生像素級的分割映射圖.但是,這些模型是針對固定數(shù)量的類別進(jìn)行訓(xùn)練的,泛化能力較弱.
(2) 弱監(jiān)督的聯(lián)合分割模型.弱監(jiān)督的聯(lián)合分割模型比語義分割模型使用更弱的監(jiān)督,其思想是利用集合內(nèi)的相似性來發(fā)現(xiàn)共同的前景.給定一批已知的包含相同對象類別的圖像,輸出特定類別的像素級掩碼[9-12]或邊框[13].雖然聯(lián)合分割是有效的,但它的性能受到集合內(nèi)共享結(jié)構(gòu)的限制,類內(nèi)的特征和形狀的變化構(gòu)成了一個重大的挑戰(zhàn).此外,客觀世界的復(fù)雜性使得圖像數(shù)據(jù)易于受到不同類型視覺噪聲的干擾而影響分割模型的表現(xiàn).這種復(fù)雜性主要來源于以下兩個方面:物體本身的視覺變化,主要包括姿態(tài)、形變、朝向、尺度、外觀以及遮擋等因素;客觀世界的隨機變化,如光照、噪聲以及成像技術(shù)等.總之,以上這些因素大大限制了弱監(jiān)督的聯(lián)合分割模型的分割表現(xiàn).
(3) 基于傳播的模型.基于傳播的模型將信息從帶有人類標(biāo)記的前景掩碼的樣本中傳遞[14].通常在可能的前景區(qū)域和樣本之間進(jìn)行匹配.缺點是需要在測試時存儲大量的范例數(shù)據(jù),并為每個測試映像執(zhí)行昂貴且可能有噪聲的匹配過程.
基于深度卷積神經(jīng)網(wǎng)絡(luò)[15](Deep Convolutional Neural Networks,DCNNs)的圖像分割模型都面臨著以下2個挑戰(zhàn):(1)輸出特征分辨率降低;(2)由于DCNNs內(nèi)在不變性而下降的定位精度.第1個挑戰(zhàn)是由于DCNNs層中的最大池化和滑動步長[16]等操作引起的.當(dāng)DCNNs以完全卷積方式使用時,會導(dǎo)致特征圖的空間分辨率顯著降低.為了克服這一障礙并有效地產(chǎn)生更密集的特征圖,本文采用擴(kuò)張卷積[17]進(jìn)行特征提取,擴(kuò)張卷積允許本文模型有效地擴(kuò)大濾波器的視野,而不增加參數(shù)的數(shù)量或計算量.通過使用擴(kuò)張卷積替代常用卷積,F(xiàn)OSegNet模型能有效地提高輸出特征圖的分辨率.第2個挑戰(zhàn)是DCNNs結(jié)構(gòu)的空間變換不變性,固有地限制了當(dāng)該結(jié)構(gòu)應(yīng)用到分割任務(wù)時的分割精度.一種減輕此問題的方法是當(dāng)計算最終的分割結(jié)果時,使用跳躍層從多個網(wǎng)絡(luò)層提取超列特征,受其啟發(fā),本文提出分流聚合模塊(Shunt-Fuse Module,SFM):在Pool5層之后以多個采樣率重新采樣特定的特征層,并在Softmax層之前將采樣的多尺度特征進(jìn)行融合.這相當(dāng)于用具有互補的有效視野的多個濾波器探測原始圖像,從而在多個尺度上捕獲物體以及有用的圖像上下文信息.特別地,通過使用全連接的條件隨機場來提高模型捕獲精細(xì)細(xì)節(jié)的能力.本文使用全連接的條件隨機場,計算更有效,并能夠捕獲細(xì)微的邊緣細(xì)節(jié),同時也適應(yīng)長距離的依賴,很大程度上提高了基于像素級分類器的性能.本文采用全連接的條件隨機場,與帶有擴(kuò)張卷積和分流聚合模塊的DCNNs的像素級別分類器相結(jié)合,可以有效提高分割模型的分割精度.
本文提出的FOSegNet模型端到端進(jìn)行訓(xùn)練,F(xiàn)OSegNet模型在MIT Object Discovery數(shù)據(jù)集和ImageNet-Segmentation數(shù)據(jù)集上均超過了眾多前景對象分割模型的性能表現(xiàn),在PASCAL VOC 2012數(shù)據(jù)集上的分割表現(xiàn)也優(yōu)于眾多語義分割模型.
FOSegNet可以預(yù)測每個像素,它是前景對象可能性的支持端到端訓(xùn)練的前景對象圖像分割模型.本文將分割任務(wù)設(shè)置為密集的標(biāo)記問題,并提出一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的像素級圖像分割模型.FOSegNet模型分割流程如圖1所示.首先輸入原始圖像,經(jīng)過深度卷積神經(jīng)網(wǎng)絡(luò)的卷積、匯合、線性整流等操作,然后輸入到分流聚合模塊,從而得出特征映射的分圖,隨后經(jīng)過雙線性插值算法的上采樣操作得到粗糙的分割圖,最后將得到的粗糙分割圖送入條件隨機場模型中進(jìn)一步細(xì)化分割結(jié)果,從而得出精細(xì)的分割圖像.
圖1 分割流程
在場模型中進(jìn)一步細(xì)化分割結(jié)果,從而得出精細(xì)的分割圖像.本文將用于圖像分類的VGG-16模型的所有的全連接層改為卷積層,使模型能夠接受任何大小的輸入圖像,并生成相應(yīng)的密集輸出映射.FOSegNet模型由卷積層組成,中間有最大值匯合層.除最后一個卷積層大小為1×1,其余所有卷積核的大小均為3×3.每個卷積層后面還有一個線性整流層,然后再輸入到下一層.本文將VGG-16模型的1 000路分類層替換為產(chǎn)生二進(jìn)制掩碼作為輸出的兩路分類層.損失函數(shù)是輸出層每個像素上的交叉熵之和.
VGG-16模型由5個最大值匯合層組成.雖然非常適合分類,但與原始圖像相比,輸出分辨率降低了32倍.為了實現(xiàn)更精細(xì)的像素對象圖,F(xiàn)OSegNet模型應(yīng)用擴(kuò)張卷積算法,擴(kuò)張卷積是利用上采樣濾波器的方法,通過擴(kuò)張率控制著感受野,同樣的卷積核數(shù)量,不同的擴(kuò)張率卻使其有不同大小的感受野,在不增加參數(shù)量的情況下,擴(kuò)張卷積可以指數(shù)級地擴(kuò)大濾波器的感受野,有效地提取圖像上下文信息.特別是,F(xiàn)OSegNet模型用擴(kuò)張卷積替換最后2個最大值匯合層中的下采樣.此操作是無參數(shù)的,輸出分辨率降低8倍,并且仍然保留了較大的感受野.此外,F(xiàn)OSegNet模型應(yīng)用分流聚合模塊(SFM),基于VGG-16的SFM采用多個并行fc6-fc7-fc8分支,它們都使用3×3內(nèi)核,但在fc6中采用不同的擴(kuò)張率r以捕獲不同大小的物體.SFM采用擴(kuò)張率為r={6,12,18,24},可以有效地提取圖像的上下文信息,增強模型的分割性能.然后,使用雙線性插值來恢復(fù)前景圖像原始分辨率.最后,使用全連接的條件隨機場算法,作為分割模型的后處理,進(jìn)一步提升分割模型的分割精度.
DCNNs在含有多尺度物體的數(shù)據(jù)集中進(jìn)行訓(xùn)練時,能展示出其強大的特征提取以及多尺度學(xué)習(xí)能力.本文使用不同采樣率的多個并行的擴(kuò)張卷積層,對每個采樣率提取的特征在單獨的分支中進(jìn)行再處理,并進(jìn)行融合以產(chǎn)生最終結(jié)果.本文提出的分流聚合模塊(SFM)能夠有效地提取圖像的多尺度特征,其中SFM的4個相同分支均被命名為擴(kuò)張空間金字塔池化.圖2和3展示了SFM如何多尺度提取特征.
以圖2為例,為了對中心像素(橙色)進(jìn)行分類,擴(kuò)張空間金字塔池化,通過使用不同擴(kuò)張率的多個并行卷積核來提取多尺度特征.感受野的大小以不同的顏色顯示.以圖3為例,從Pool5得到圖像特征映射圖,本文的SFM首先通過分支1使用擴(kuò)張率為6,12,18和24的4個并行3×3卷積核來提取多尺度特征,然后經(jīng)過連續(xù)的2層擴(kuò)張率均為1的4個并行1×1卷積核對提取的特征進(jìn)行降維處理,每個采樣率提取的特征會在單獨的分支中進(jìn)行處理,并將提取的16個尺度上的特征進(jìn)行聚合以產(chǎn)生最終分割結(jié)果.
圖2 擴(kuò)張空間金字塔池化
圖3 分流聚合模塊
DCNNs結(jié)構(gòu)內(nèi)在的空間變換不變性,限制了該結(jié)構(gòu)應(yīng)用到分割問題上的準(zhǔn)確率.優(yōu)化分割架構(gòu)的輸出并強化其捕捉細(xì)粒度信息的一個方法就是引入條件隨機場作為其后處理模塊.條件隨機場構(gòu)建了底層圖像信息與多類別像素級推理輸出的聯(lián)系,這些聯(lián)系對于捕捉長期依賴性質(zhì)尤其重要,也是關(guān)注于局部細(xì)節(jié)的DCNNs所未能考慮到的.
本文使用了全連接的兩兩之間的條件隨機場模型,對分割結(jié)果進(jìn)行調(diào)優(yōu).將每個像素建模為某區(qū)域內(nèi)的一個節(jié)點,無論2個像素距離多遠(yuǎn),其兩兩之間的關(guān)系都會被衡量.由于DCNNs的空間變化不變性,像素的相互關(guān)系是DCNNs結(jié)構(gòu)所未能考慮的,使用全連接的條件隨機場后,無論短期的還是長期的像素相互關(guān)系都被考慮進(jìn)來,使得FOSegNet模型可以考慮到分割過程中需要的細(xì)節(jié)信息.具體參數(shù)設(shè)置參照業(yè)內(nèi)開源版本,但本文將顏色核函數(shù)項的權(quán)重設(shè)置為8,位置核函數(shù)項的權(quán)重設(shè)置為5,其他參數(shù)不變.
為了生成明確的邊界級訓(xùn)練數(shù)據(jù),采用共有1 464張圖像的PASCAL VOC 2012分割數(shù)據(jù)集[18]和共有10 582張圖像的增強數(shù)據(jù)集[19]作為FOSegNet模型的訓(xùn)練數(shù)據(jù).將該訓(xùn)練數(shù)據(jù)集的20個對象標(biāo)簽丟棄,并映射用于訓(xùn)練的單個前景標(biāo)簽.使用CAFFE[20]框架來訓(xùn)練分割模型,同時使用batch size為10的隨機梯度下降法進(jìn)行優(yōu)化,使用0.001的基本學(xué)習(xí)率,每2 000次迭代學(xué)習(xí)率就乘以0.1進(jìn)行降速,0.9的動量和0.000 5的權(quán)重衰減,條件隨機場使用業(yè)內(nèi)通用的開源實現(xiàn)版本[21].
本文對模型進(jìn)行了總共24 500次迭代的訓(xùn)練,在單塊RTX 2080 GPU上的總訓(xùn)練時間約為7 h.
3.1.1 數(shù)據(jù)集
針對不同的弱監(jiān)督和完全監(jiān)督模型,使用以下3個數(shù)據(jù)集進(jìn)行評估:(1)MIT Object Discovery數(shù)據(jù)集[22].此數(shù)據(jù)集由飛機、汽車和馬組成,其圖像主要是通過互聯(lián)網(wǎng)搜索收集的,數(shù)據(jù)集里的圖像均帶有逐像素的真實標(biāo)記分割掩碼,它最常用于評估弱監(jiān)督分割模型.(2)ImageNet-Segmentation數(shù)據(jù)集.本文使用源于ImageNet[23]的具有445類別的4 276張圖像的ImageNet-Segmentation數(shù)據(jù)集對FOSegNet模型進(jìn)行大規(guī)模的評估,該數(shù)據(jù)集圖像均帶有逐像素的真實標(biāo)記分割掩碼.此數(shù)據(jù)集的多樣性可以測試本文模型的泛化能力.(3)PASCAL VOC 2012數(shù)據(jù)集.本文使用PASCAL VOC 2012數(shù)據(jù)級的VAL集里面的1 449張圖像來測試本文模型的語義分割能力.
3.1.2 評估指標(biāo)
采用Jaccard得分作為評估分割性能的指標(biāo).Jaccard得分是由預(yù)測圖像與真實標(biāo)記圖像的交并比(Intersection over Union,IoU)得出.
3.1.3 比較基線
前景對象分割模型將與最近的20種模型進(jìn)行比較來評價其分割能力,這些模型分為4類:(1) 顯著性模型.本文選擇4種優(yōu)秀的顯著性檢測模型[8,10-11,24]進(jìn)行比較.(2)對象建議模型.本文比較了2種優(yōu)秀的對象建議模型,即多尺度組合分組(MCG)[7]和深度掩碼(DeepMask)[25].該類模型輸出一組有得分排名的通用對象分割建議,每個圖像中得分最高的建議被視為評估的最終前景分割.本文還與SalObj[9]模型進(jìn)行了比較,SalObj模型使用顯著性將MCG中的多個對象建議合并到一個單一前景.(3)弱監(jiān)督的聯(lián)合分割模型.該類模型[12-14,16-17,22,26]依賴于額外的弱監(jiān)督,其形式是事先知道給定集合中的所有圖像都共享一個共同對象類別.(4)語義分割模型.本文選擇了6種表現(xiàn)較好的語義分割模型進(jìn)行Jaccard得分對比以及時間性能對比.這6種分割模型分別是DPN[1]、BoxSup[2]、FCN[3]、DeepLab[4]、CNNCRF[5]和A+B模型[6].
(1) MIT Object Discovery.分別對MIT數(shù)據(jù)集和MIT數(shù)據(jù)集子集進(jìn)行評估,并將FOSegNet模型與13種現(xiàn)有的較先進(jìn)模型進(jìn)行比較,包括顯著性檢測模型[8,10-11,24]、對象建議模型[7,9,25]和弱監(jiān)督的聯(lián)合分割模型[12-14,16-17,22,26].
MIT Object Discovery數(shù)據(jù)集上的定量結(jié)果見表1,由表1可以看出,本文FOSegNet模型勝過幾種優(yōu)秀的聯(lián)合分割和對象建議模型,同時,超越了顯著性模型中的大多數(shù)模型,僅在汽車類圖像的分割性能上略遜于DeepSaliency,主要是該模型訓(xùn)練數(shù)據(jù)集中汽車類圖像數(shù)量及比例更大,而本文FOSegNet模型在沒有進(jìn)行數(shù)據(jù)集擴(kuò)充的情況下,通過修改深度圖像分類網(wǎng)絡(luò)VGG-16以及應(yīng)用條件隨機場,使得FOSegNet模型能夠較好地逐像素分類出前景對象,從而在飛機類和馬類圖像的分割結(jié)果優(yōu)于表1中的其他分割模型.
表1 MIT Object Discovery數(shù)據(jù)集上的定量結(jié)果(指標(biāo):Jaccard得分)
(2) ImageNet-Segmentation.使用ImageNet-Segmentation數(shù)據(jù)集來評估FOSegNet模型的泛化能力,該數(shù)據(jù)集由帶有真實標(biāo)記的445類別的4 276張圖像組成.之前的最佳結(jié)果來自分割傳播模型[16],發(fā)現(xiàn)DeepSaliency[11]和DeepMask[25]進(jìn)一步改善了ImageNet-Segmentation.特別是,像FOSegNet模型一樣,DeepSaliency也是通過PASCAL數(shù)據(jù)集進(jìn)行訓(xùn)練,而DeepMask是通過1個比PASCAL數(shù)據(jù)集更大的COCO[27]數(shù)據(jù)集進(jìn)行訓(xùn)練.引入擴(kuò)張卷積以及SFM,使得FOSegNet模型能夠多尺度聚合圖像上下文信息,顯著提高了前景對象模型的分割表現(xiàn)(見表2).這表明FOSegNet模型不僅具有超強的泛化能力,概括了數(shù)千個對象類別,而且產(chǎn)生了高質(zhì)量的對象分割.
表2 ImageNet-Segmentation數(shù)據(jù)集上的定量結(jié)果(指標(biāo):Jaccard得分)
(3) PASCAL VOC 2012.選擇了5種表現(xiàn)較好的語義分割模型進(jìn)行Jaccard得分對比(見表3),由表3可知,F(xiàn)OSegNet模型在PASCAL VOC 2012 數(shù)據(jù)集的11個類別中取得了較好的結(jié)果.相較于其他5種分割模型,由于FOSegNet模型級聯(lián)DCNNs、SFM以及全連接的條件隨機場,使得該模型能夠更高效地提取前景對象特征,細(xì)化分割結(jié)果,具有更加優(yōu)秀的分割性能.
表3 PASCAL VOC 2012數(shù)據(jù)集上不同類別的定量結(jié)果(指標(biāo):Jaccard得分)
另外,為驗證本文模型在時間性能上的表現(xiàn),將其與3種語義分割算法進(jìn)行了時間性能上的對比實驗.實驗機器的CPU為 Intel Core i7-6700,內(nèi)存8 GB,GPU為 NVIDIA GeForce RTX 2080(8 GB顯存),實驗所用圖像取自PASCAL VOC 2012的測試數(shù)據(jù)集,實驗結(jié)果對比見表4.由表4可知,結(jié)合條件隨機場的模型均有比較大的時間開銷,相比其他結(jié)合條件隨機場的DeepLab、CNNCRF等算法,本文算法的時間開銷相對較少,且Jaccard得分較高.
本文提出一個端到端的基于深度卷積神經(jīng)網(wǎng)絡(luò)的監(jiān)督學(xué)習(xí)模型,用于逐像素的前景對象圖像分割.實驗結(jié)果證明了FOSegNet模型的有效性,其與多個數(shù)據(jù)集的優(yōu)秀模型相比均有顯著改進(jìn).同現(xiàn)有較好的基于深度特征的圖像區(qū)域分割模型相比精度更高,較好地解決了由于DCNNs不變性而導(dǎo)致的定位精度下降問題.本文研究結(jié)果還表明,F(xiàn)OSegNet模型具有強大的泛化能力,可以很好地推廣到數(shù)百個對象類別.但是,相比不使用條件隨機場的分割模型,F(xiàn)OSegNet模型分割時間開銷較大,在下一步工作中,將會考慮如何提高FOSegNet模型的時間開銷性能.