• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于深度學(xué)習(xí)的圖像語(yǔ)義分割方法綜述?

      2019-03-05 03:45:54萱,王亮,丁
      軟件學(xué)報(bào) 2019年2期
      關(guān)鍵詞:語(yǔ)義像素卷積

      田 萱,王 亮,丁 琪

      (北京林業(yè)大學(xué) 信息學(xué)院,北京 100083)

      當(dāng)前,計(jì)算機(jī)視覺(jué)領(lǐng)域的核心研究包括圖像分類(lèi)、物體檢測(cè)和圖像語(yǔ)義分割(image semantic segmentation,簡(jiǎn)稱(chēng)ISS)等,其中,ISS是一門(mén)涉及計(jì)算機(jī)視覺(jué)、模式識(shí)別與人工智能等研究領(lǐng)域的交叉學(xué)科,是數(shù)字圖像處理與機(jī)器視覺(jué)的研究重點(diǎn).ISS在虛擬現(xiàn)實(shí)、工業(yè)自動(dòng)化、視頻檢測(cè)等不同領(lǐng)域有廣泛的應(yīng)用,具有重要的研究意義和應(yīng)用價(jià)值.ISS由Ohta等人首次提出,其定義是:為圖像中的每一個(gè)像素分配一個(gè)預(yù)先定義好的表示其語(yǔ)義類(lèi)別的標(biāo)簽[1].與傳統(tǒng)的圖像分割相比,ISS在其基礎(chǔ)上為圖像中的目標(biāo)或前景加上一定的語(yǔ)義信息,能夠根據(jù)圖像本身的紋理、場(chǎng)景和其他高層語(yǔ)義特征來(lái)得出圖像本身需要表達(dá)的信息,更具實(shí)用價(jià)值.近年來(lái),國(guó)內(nèi)外眾多科研機(jī)構(gòu)相繼開(kāi)展了針對(duì)該領(lǐng)域的學(xué)術(shù)研究,人工智能、模式識(shí)別以及計(jì)算機(jī)視覺(jué)方面的國(guó)內(nèi)外學(xué)術(shù)會(huì)議都會(huì)對(duì)該領(lǐng)域和相關(guān)研究成果做重點(diǎn)討論.這些機(jī)構(gòu)和組織有效地推動(dòng)了ISS技術(shù)的發(fā)展.

      近年來(lái),深度學(xué)習(xí)(deep learning,簡(jiǎn)稱(chēng) DL)技術(shù)[2]迅猛發(fā)展,基于深度學(xué)習(xí)的圖像語(yǔ)義分割方法(image semantic segmentation based on deep learning,簡(jiǎn)稱(chēng) ISSbDL)也日新月異.鑒于目前國(guó)內(nèi)還沒(méi)有全面細(xì)致論述ISSbDL方法的綜述文獻(xiàn)[3,4],我們總結(jié)并整理了相關(guān)研究后得到本文.如圖1所示,按照ISS的方法特點(diǎn)和處理粒度,將 ISSbDL方法分為基于區(qū)域分類(lèi)的圖像語(yǔ)義分割方法(ISS based on the regional classification,簡(jiǎn)稱(chēng)ISSbRC)和基于像素分類(lèi)的圖像語(yǔ)義分割方法(ISS based on the pixel classification,簡(jiǎn)稱(chēng)ISSbPC),對(duì)每類(lèi)方法按照處理特點(diǎn)又細(xì)分為若干種不同的子方法.

      Fig.1 A taxonomy of ISSbDL圖1 基于深度學(xué)習(xí)的圖像語(yǔ)義分割方法分類(lèi)

      本文第1節(jié)介紹DL與ISS的相關(guān)背景及ISSbDL的早期研究.第2節(jié)對(duì)ISSbRC方法進(jìn)行詳細(xì)介紹和總結(jié).第3節(jié)對(duì)ISSbPC方法進(jìn)行分析和總結(jié),并根據(jù)處理特點(diǎn)進(jìn)一步分類(lèi),詳細(xì)介紹每類(lèi)子方法的基本思想和優(yōu)缺點(diǎn).第4節(jié)對(duì) ISS相關(guān)實(shí)驗(yàn)進(jìn)行分析與比較,并介紹常用公共數(shù)據(jù)集和算法性能評(píng)價(jià)指標(biāo).第5節(jié)總結(jié)討論ISS未來(lái)的發(fā)展方向和發(fā)展趨勢(shì).

      1 相關(guān)背景及早期研究介紹

      DL的概念由Hinton等人[2]在2006年首次提出,是機(jī)器學(xué)習(xí)中一種基于對(duì)數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的方法.DL技術(shù)能夠有效地提取圖像中的低級(jí)、中級(jí)和高級(jí)語(yǔ)義信息,并結(jié)合分類(lèi)器輔助進(jìn)行像素分類(lèi),提高了ISS方法的分割準(zhǔn)確率.目前,主流的 DL模型有卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,簡(jiǎn)稱(chēng) CNN)[5]、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,簡(jiǎn)稱(chēng)RNN)[6]和生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,簡(jiǎn)稱(chēng)GAN)[7]等.

      其中,CNN的基本結(jié)構(gòu)由輸入層、卷積層、池化層、全連接層及輸出層組成.輸入圖像經(jīng)過(guò)CNN多個(gè)卷積操作和池化操作進(jìn)行特征提取,將低層粗糙特征逐步轉(zhuǎn)變?yōu)楦邔泳?xì)特征,高層特征再經(jīng)過(guò)全連接層和輸出層后進(jìn)行分類(lèi).CNN由于其特殊的網(wǎng)絡(luò)結(jié)構(gòu),特別適合處理圖像數(shù)據(jù),對(duì)平移、伸縮、傾斜等圖像形變具有較高的不變性.RNN由一連串重復(fù)的神經(jīng)網(wǎng)絡(luò)模塊序列組成,序列中的每個(gè)元素都執(zhí)行相似的任務(wù),圖像上下文(image context)之間的連續(xù)信息可合理利用.當(dāng)前,具有代表性的RNN包括傳統(tǒng)的RNN序列模型、長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(long short-term memory,簡(jiǎn)稱(chēng)LSTM)[8]以及門(mén)控遞歸單元(gated recurrent unit,簡(jiǎn)稱(chēng)GRU)[9].GAN由一個(gè)生成器網(wǎng)絡(luò)(generator network)和一個(gè)判別器網(wǎng)絡(luò)(discriminator network)組成,其基本思想是:從訓(xùn)練庫(kù)中獲取大量訓(xùn)練樣本進(jìn)行學(xué)習(xí),生成器網(wǎng)絡(luò)不斷產(chǎn)生人造樣本,判別器網(wǎng)絡(luò)不斷對(duì)人造樣本進(jìn)行判斷,訓(xùn)練時(shí),讓兩組網(wǎng)絡(luò)相互對(duì)抗、相互提高.

      在 ISS領(lǐng)域,CNN因其高效的學(xué)習(xí)性能和良好的應(yīng)用效果,受到研究者更多的青睞,成為研究熱點(diǎn).除CNN外,RNN因其遞歸處理歷史信息和建模歷史記憶的特點(diǎn),特別適合處理與時(shí)空序列有關(guān)的信息,也常被一些研究者用于捕獲圖像上下文信息.此外,GAN模型避免了一些傳統(tǒng)生成模型在實(shí)際應(yīng)用中的困難,具有新穎性和良好的適應(yīng)性,在ISS研究中也正逐漸得到重視.總的來(lái)說(shuō),DL技術(shù)利用深層模型來(lái)學(xué)習(xí)圖像特征,促進(jìn)了ISS領(lǐng)域中相關(guān)研究的發(fā)展,掀起了一股ISSbDL的研究熱潮.

      2013年,文獻(xiàn)[10]嘗試使用DL技術(shù)對(duì)室內(nèi)場(chǎng)景進(jìn)行語(yǔ)義分割:利用CNN對(duì)RGB-D圖像進(jìn)行特征提取的同時(shí),將RGB圖像聚類(lèi)得到超像素,然后使用分類(lèi)器對(duì)超像素進(jìn)行分類(lèi),完成ISS任務(wù).文獻(xiàn)[11]則在上述工作的基礎(chǔ)上,利用深層CNN提取、整合不同分辨率圖像的特征,并使用分割樹(shù)對(duì)粗糙圖像塊中的超像素進(jìn)行平滑預(yù)測(cè)處理.這些早期的ISSbDL方法[10,11]出現(xiàn)在ISS由傳統(tǒng)的機(jī)器學(xué)習(xí)方式向深度學(xué)習(xí)方式過(guò)渡的階段,先使用聚類(lèi)操作生成超像素,再用 CNN等分類(lèi)器對(duì)超像素進(jìn)行分類(lèi).圖像分割過(guò)程分階段進(jìn)行,耗時(shí)、費(fèi)力,分割過(guò)程無(wú)法有效利用圖像的全局語(yǔ)義特征,分割結(jié)果比較粗糙.

      隨著DL技術(shù)的發(fā)展,研究者又進(jìn)一步改進(jìn),先將圖像劃分為一系列目標(biāo)候選區(qū)域,再用DL技術(shù)對(duì)目標(biāo)區(qū)域進(jìn)行分類(lèi),避免生成超像素,提高了分割效率,本文第 2節(jié)所介紹的基于區(qū)域分類(lèi)的圖像語(yǔ)義分割方法即為此類(lèi)改進(jìn).另一些研究者則直接利用深度神經(jīng)網(wǎng)絡(luò)(deep neural network,簡(jiǎn)稱(chēng)DNN)以像素分類(lèi)的方式進(jìn)行分割,將分割過(guò)程改為端到端(end-to-end)的模式,避免了預(yù)先生成圖像塊所帶來(lái)的問(wèn)題,提高了分割準(zhǔn)確率,本文將在第 3節(jié)中介紹這類(lèi)基于像素分類(lèi)的圖像語(yǔ)義分割方法.基于這些改進(jìn),我們將ISSbDL的處理流程概括為特征提取、語(yǔ)義分割和后期處理這3個(gè)核心步驟,如圖2所示,其中,實(shí)線(xiàn)表示一般處理步驟,虛線(xiàn)表示選擇使用環(huán)節(jié).

      Fig.2 Workflow for ISSbDL圖2 基于深度學(xué)習(xí)的圖像語(yǔ)義分割方法的一般處理流程

      2 基于區(qū)域分類(lèi)的圖像語(yǔ)義分割方法

      在ISSbDL方法中,基于區(qū)域分類(lèi)的圖像語(yǔ)義分割方法把傳統(tǒng)圖像處理算法與DNN相結(jié)合,先將原始圖像劃分成不同的目標(biāo)候選區(qū)域,得到一系列圖像塊(image patch),再利用DNN對(duì)圖像塊或圖像塊中的每個(gè)像素進(jìn)行語(yǔ)義分類(lèi),最后根據(jù)分類(lèi)結(jié)果對(duì)原始圖像進(jìn)行標(biāo)注,得到最終分割結(jié)果.因?yàn)閳D像塊的質(zhì)量直接決定分割結(jié)果的好壞,ISSbRC方法的關(guān)鍵在于如何從原始圖像產(chǎn)生不同目標(biāo)區(qū)域的圖像塊.根據(jù)區(qū)域生成算法和圖像塊劃分標(biāo)準(zhǔn)不同,下面將 ISSbRC方法劃分為兩類(lèi):基于候選區(qū)域的方法和基于分割掩膜的方法.表1對(duì)這兩類(lèi)方法從方法特點(diǎn)、優(yōu)缺點(diǎn)和處理流程等幾個(gè)方面進(jìn)行了分析與比較.下面對(duì)其進(jìn)行詳細(xì)介紹.

      Table 1 Comparison of ISSbRC表1 基于區(qū)域分類(lèi)的圖像語(yǔ)義分割方法對(duì)比

      2.1 基于候選區(qū)域的方法

      該類(lèi)方法首先利用相應(yīng)的算法生成大量候選區(qū)域并篩選出合理的候選區(qū)域,再運(yùn)用CNN對(duì)每個(gè)候選區(qū)域提取圖像特征和語(yǔ)義信息,接著利用分類(lèi)器對(duì)候選區(qū)域中的圖像塊或像素進(jìn)行分類(lèi),最后輸出分割結(jié)果.因?yàn)槊總€(gè)候選區(qū)域都有可能包含圖像中潛在的目標(biāo)物體,候選區(qū)域的質(zhì)量不但影響CNN捕獲圖像特征的能力,而且影響分類(lèi)器對(duì)候選區(qū)域進(jìn)行分類(lèi)的精度.

      2014年,文獻(xiàn)[12]在 CNN 的基礎(chǔ)上提出了區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(regions with CNN features,簡(jiǎn)稱(chēng) RCNN).RCNN將選擇搜索(selective search,簡(jiǎn)稱(chēng)SS)算法產(chǎn)生的候選區(qū)域與CNN產(chǎn)生的視覺(jué)特征相結(jié)合,可同時(shí)完成目標(biāo)檢測(cè)和ISS兩項(xiàng)任務(wù).RCNN的處理流程如圖3所示,首先,使用SS算法抽取約2 000個(gè)候選區(qū)域;再用CNN提取每個(gè)候選區(qū)域的特征;最后,根據(jù)捕獲的特征,使用 SVM(support vector machine)對(duì)每個(gè)候選區(qū)域中的目標(biāo)物體分類(lèi).但RCNN也存在嚴(yán)重依賴(lài)候選區(qū)域、產(chǎn)生圖像變形、分割精確度不夠高和速度不夠快等缺點(diǎn),其綜合性能仍有待提高.

      文獻(xiàn)[13]在RCNN的基礎(chǔ)上提出了SDS(simultaneous detection and segmentation)方法.與RCNN方法相比,SDS方法使用MCG(multi-scale combinatorial grouping)[19]算法在CNN中獨(dú)立地從候選區(qū)域和區(qū)域前景中提取特征,再將這兩部分特征進(jìn)行聯(lián)合訓(xùn)練,然后使用非極大值抑制(non-maximum suppression,簡(jiǎn)稱(chēng)NMS)算法進(jìn)行區(qū)域增強(qiáng),分割性能有顯著提升.

      由于 RCNN存在著生成的候選區(qū)域數(shù)量過(guò)多、網(wǎng)絡(luò)運(yùn)算量大且候選區(qū)域形狀不規(guī)則等局限性,一些研究者開(kāi)始探索產(chǎn)生高質(zhì)量候選區(qū)域的方法.文獻(xiàn)[20]中的 SPPNet網(wǎng)絡(luò)將空間金字塔池化層(spatial pyramid pooling player,簡(jiǎn)稱(chēng)SPP player)插入到RCNN卷積層的后面,減少了特征提取過(guò)程中的重復(fù)計(jì)算.文獻(xiàn)[21]中的Fast-RCNN網(wǎng)絡(luò)將候選區(qū)域映射到CNN的卷積特征圖上,通過(guò)ROI Pooling層,將每個(gè)候選區(qū)域生成固定尺寸的特征圖,提升了生成候選區(qū)域的速度.文獻(xiàn)[22]中的Faster-RCNN網(wǎng)絡(luò)在Fast-RCNN網(wǎng)絡(luò)的基礎(chǔ)上加入?yún)^(qū)域建議網(wǎng)絡(luò)(region proposal network,簡(jiǎn)稱(chēng)RPN),能夠快速生成高質(zhì)量的候選區(qū)域.

      Fig.3 Workflow for RCNN[12]圖3 RCNN的處理流程[12]

      2016年,文獻(xiàn)[14]以SDS方法為基礎(chǔ),使用不同大小的滑動(dòng)窗口對(duì)原圖進(jìn)行卷積、池化等操作,得到多尺度特征圖,再通過(guò)尺度對(duì)齊將不同尺度的特征圖歸一化到同樣大小,并將其做并行處理,提出了能夠完成定位、分類(lèi)和分割這3個(gè)任務(wù)的MPA(multi-scale path aggregation)方法[14].MPA方法通過(guò)組合不同尺度的特征圖,能夠綜合圖像中多個(gè)不同部位的局部信息,有效地避免了物體理解的歧義,使分割結(jié)果更具魯棒性.

      2017年,文獻(xiàn)[15]在Faster-RCNN基礎(chǔ)網(wǎng)絡(luò)中加入ROI Align層和分割子網(wǎng),提出了能夠?qū)崿F(xiàn)目標(biāo)檢測(cè)和實(shí)例級(jí)圖像語(yǔ)義分割(即實(shí)例分割)兩個(gè)任務(wù)的Mask-RCNN網(wǎng)絡(luò).Mask-RCNN由兩個(gè)分支子網(wǎng)組成:第1個(gè)分支子網(wǎng)繼承自 Faster-RCNN,用于對(duì)候選區(qū)域進(jìn)行分類(lèi)和回歸,可有效地檢測(cè)出圖像中的目標(biāo)物體;第 2個(gè)分支子網(wǎng)使用一個(gè)微型全卷積網(wǎng)絡(luò)進(jìn)行高質(zhì)量的實(shí)例分割.Mask-RCNN能夠完成分類(lèi)、回歸和分割這3項(xiàng)任務(wù),并保留目標(biāo)對(duì)象的空間結(jié)構(gòu)信息,促進(jìn)了ISS的發(fā)展.

      2.2 基于分割掩膜的方法

      基于分割掩膜(segmentation mask)的方法重點(diǎn)關(guān)注如何有效生成與目標(biāo)候選區(qū)域相對(duì)應(yīng)的分割掩膜,大致可分為兩個(gè)核心步驟.

      (1)首先,在圖像中檢測(cè)出所有潛在的目標(biāo)候選對(duì)象,將原圖像劃分為一系列大小不等的圖像塊,每個(gè)圖像塊包含一個(gè)潛在的目標(biāo)候選對(duì)象.

      (2)將產(chǎn)生的圖像塊送入CNN進(jìn)行處理,其每個(gè)像素經(jīng)過(guò)“是否屬于該目標(biāo)候選對(duì)象”的二分類(lèi)判斷后得到分割掩膜,再將多張分割掩膜進(jìn)行優(yōu)化處理得到最終分割結(jié)果.

      文獻(xiàn)[16]基于CNN提出用于生成目標(biāo)建議(object proposal)的DeepMask模型.該模型直接從原始圖像中生成與目標(biāo)候選對(duì)象對(duì)應(yīng)的圖像塊,再根據(jù)這些圖像塊為每個(gè)目標(biāo)候選對(duì)象生成分割掩膜.DeepMask模型使用前饋網(wǎng)絡(luò)在整張圖像中生成目標(biāo)對(duì)象的分割掩膜,所產(chǎn)生的掩膜邊界粗糙,不能精準(zhǔn)對(duì)齊.文獻(xiàn)[17]在 DeepMask的基礎(chǔ)上將淺層網(wǎng)絡(luò)中的低級(jí)特征與深層網(wǎng)絡(luò)中的高級(jí)特征相結(jié)合,并且自下而上進(jìn)行圖像處理,提出了SharpMask模型.SharpMask模型先通過(guò)DeepMask模型對(duì)每個(gè)輸入產(chǎn)生一個(gè)粗糙的分割掩膜,再將該粗糙分割掩膜傳入不同的精煉模塊,然后結(jié)合不同尺寸的特征圖,以自下而上的方式重新生成精細(xì)化的分割掩膜.文獻(xiàn)[18]以 Fast-RCNN 為基礎(chǔ),提出了 MultiPath模型.該模型使用跳躍連接(skip connection)、中心凹區(qū)域(foveal region)和一個(gè)積分損失函數(shù)(integral loss function)對(duì)分割掩膜中的對(duì)象再次識(shí)別并分類(lèi),能夠解決物體檢測(cè)過(guò)程中尺度、遮擋和集群等問(wèn)題,分割掩膜生成過(guò)程中的定位精度有顯著提升.

      3 基于像素分類(lèi)的圖像語(yǔ)義分割方法

      ISSbRC方法取得了一定的分割效果,但也存在圖像分割精度不高和分割速度不夠快等問(wèn)題,因此,一些研究者提出直接在像素級(jí)別上進(jìn)行圖像語(yǔ)義分割,產(chǎn)生了基于像素分類(lèi)的圖像語(yǔ)義分割方法.ISSbPC方法利用DNN從帶有大量標(biāo)注的圖像數(shù)據(jù)中提取出圖像特征和語(yǔ)義信息,再根據(jù)這些信息來(lái)學(xué)習(xí)、推理原始圖像中像素的類(lèi)別,通過(guò)端到端訓(xùn)練的方式對(duì)每個(gè)像素進(jìn)行分類(lèi),以像素分類(lèi)的方式達(dá)到語(yǔ)義分割的目標(biāo).ISSbPC方法無(wú)需產(chǎn)生目標(biāo)候選區(qū)域,直接為圖像中的每個(gè)像素進(jìn)行分類(lèi),原始圖像經(jīng)過(guò)一個(gè)端到端模型后直接輸出分割結(jié)果,是一種從訓(xùn)練數(shù)據(jù)出發(fā),貫穿整個(gè)模型后直接輸出結(jié)果的新模式.ISSbPC方法將原始圖像、標(biāo)注圖像以及弱標(biāo)注(weak label)圖像等海量數(shù)據(jù)作為訓(xùn)練樣本,可以捕獲更豐富的圖像特征,不僅增加了模型的整體契合度,而且提高了學(xué)習(xí)效率,有效提升了分割準(zhǔn)確率.

      根據(jù)標(biāo)注類(lèi)型和學(xué)習(xí)方式不同,我們將 ISSbPC方法主要分為兩類(lèi):全監(jiān)督學(xué)習(xí)圖像語(yǔ)義分割方法(ISS based on fully supervised learning,簡(jiǎn)稱(chēng) ISSbFSL)和弱監(jiān)督學(xué)習(xí)圖像語(yǔ)義分割方法(ISS based on weakly supervised learning,簡(jiǎn)稱(chēng)ISSbWSL).ISSbFSL方法使用經(jīng)過(guò)人工精確加工的像素級(jí)標(biāo)注作為訓(xùn)練樣本,其分割流程為:先對(duì)圖像中的每個(gè)像素預(yù)先給定一個(gè)語(yǔ)義標(biāo)簽得到標(biāo)注數(shù)據(jù),然后利用標(biāo)注數(shù)據(jù)對(duì) DNN進(jìn)行訓(xùn)練,再將訓(xùn)練好的DNN用于圖像語(yǔ)義分割.ISSbWSL方法則使用弱標(biāo)注數(shù)據(jù)作為樣本對(duì)DNN進(jìn)行訓(xùn)練,再用訓(xùn)練后的DNN對(duì)圖像進(jìn)行語(yǔ)義分割.這兩類(lèi)方法按照改進(jìn)特點(diǎn)不同又可分為若干類(lèi)子方法,其分類(lèi)示意如圖4所示.下面進(jìn)行具體介紹和分析.

      Fig.4 A taxonomy of ISSbPC圖4 基于像素分類(lèi)的圖像語(yǔ)義分割方法分類(lèi)

      3.1 全監(jiān)督學(xué)習(xí)圖像語(yǔ)義分割方法

      經(jīng)過(guò)人工精確標(biāo)注的圖像樣本能夠提供大量細(xì)節(jié)信息和局部特征,有利于提高網(wǎng)絡(luò)訓(xùn)練效率和分割精確度,因此,目前的ISSbDL方法大多是全監(jiān)督學(xué)習(xí)類(lèi)型.ISSbFSL方法在訓(xùn)練階段會(huì)利用DNN從大量帶有像素級(jí)標(biāo)注的圖像中提取豐富的視覺(jué)特征和語(yǔ)義信息,再利用這些特征和信息對(duì)圖像像素進(jìn)行分類(lèi).

      針對(duì)早期ISSbRC方法存在的存儲(chǔ)開(kāi)銷(xiāo)大、計(jì)算效率低等問(wèn)題,Long等人[23]于2014年設(shè)計(jì)了一種兼容任意尺寸圖像、以全監(jiān)督學(xué)習(xí)方式進(jìn)行圖像語(yǔ)義分割的全卷積網(wǎng)絡(luò)(fully convolutional network,簡(jiǎn)稱(chēng)FCN).如圖5所示,FCN在VGG-16網(wǎng)絡(luò)[24]基礎(chǔ)上進(jìn)行改進(jìn),使用卷積層替換傳統(tǒng)CNN中的全連接層,使用跨層(skip layer)方法組合中間卷積層產(chǎn)生的特征圖,再通過(guò)雙線(xiàn)性插值(bilinear interpolation,簡(jiǎn)稱(chēng) BI)算法進(jìn)行上采樣(upSample),將粗糙的分割結(jié)果轉(zhuǎn)換為細(xì)密的分割結(jié)果.FCN采用跨層方法,既同時(shí)兼顧全局語(yǔ)義信息和局部位置信息,又能從抽象特征中恢復(fù)出像素所屬的類(lèi)別,把圖像級(jí)別的分類(lèi)進(jìn)一步延伸到了像素級(jí)別的分類(lèi),成功地將原本用于圖像分類(lèi)的網(wǎng)絡(luò)轉(zhuǎn)變?yōu)橛糜趫D像分割的網(wǎng)絡(luò).

      FCN在分割過(guò)程中能夠恢復(fù)像素所屬的類(lèi)別,極大地推動(dòng)了ISS的發(fā)展.然而該領(lǐng)域仍然存在兩個(gè)問(wèn)題:一是圖像經(jīng)過(guò)池化操作后,特征圖的分辨率不斷降低,部分像素的空間位置信息丟失;二是分割過(guò)程未能有效地考慮圖像上下文(image context)信息,無(wú)法充分利用豐富的空間位置信息,導(dǎo)致局部特征和全局特征的利用率失衡.FCN未能有效地解決這兩個(gè)問(wèn)題,致使分割結(jié)果粗糙、分割邊界不連續(xù).針對(duì)這兩個(gè)問(wèn)題,在FCN的基礎(chǔ)上,研究者又提出了一系列新方法,根據(jù)這些方法的改進(jìn)特點(diǎn)不同,我們將其劃分為7類(lèi):基于FCN的方法、基于優(yōu)化卷積結(jié)構(gòu)的方法、基于編碼器-解碼器的方法、基于概率圖模型的方法、基于特征融合的方法、基于 RNN的方法和基于GAN的方法.表2從方法特點(diǎn)、優(yōu)缺點(diǎn)、關(guān)鍵技術(shù)和主要功能這幾個(gè)方面對(duì)這7種方法進(jìn)行了歸納總結(jié).下面將詳細(xì)介紹這7類(lèi)方法.

      Fig.5 Framework for FCN[23]圖5 FCN框架結(jié)構(gòu)[23]

      Table 2 Comparison of fully-supervised image semantic segmentation algorithm based on pixel classification表2 基于像素分類(lèi)的全監(jiān)督學(xué)習(xí)圖像語(yǔ)義分割方法對(duì)比

      Table 2 Comparison of fully-supervised image semantic segmentation algorithm based on pixel classification(Continued)表2 基于像素分類(lèi)的全監(jiān)督學(xué)習(xí)圖像語(yǔ)義分割方法對(duì)比(續(xù))

      3.1.1 基于FCN的方法

      FCN在進(jìn)行圖像語(yǔ)義分割時(shí)沒(méi)有充分考慮像素與像素之間的關(guān)系,缺乏空間一致性,對(duì)圖像中的細(xì)節(jié)不夠敏感,導(dǎo)致分割結(jié)果不夠精細(xì).文獻(xiàn)[25]在 FCN的末端增加全連接條件隨機(jī)場(chǎng)(fully connected conditional random field,簡(jiǎn)稱(chēng)FCCRF),對(duì)粗糙分割圖進(jìn)行邊界優(yōu)化,并使用帶孔卷積(atrous convolution)擴(kuò)大特征圖的感受野(receptive field,簡(jiǎn)稱(chēng) RF),提出了 DeepLab網(wǎng)絡(luò).DeepLab的處理流程如圖6所示,首先,將圖像送入到結(jié)合了Hole算法的FCN中進(jìn)行處理,得到粗略的特征圖,再使用BI算法對(duì)FCN的輸出結(jié)果進(jìn)行上采樣操作得到粗糙分割圖像;然后,使用 FCCRF對(duì)粗糙分割圖像進(jìn)行結(jié)構(gòu)化預(yù)測(cè),并對(duì)圖像中的像素點(diǎn)進(jìn)行建模、求解,平滑處理粗糙分割圖像的邊緣;最后得到一個(gè)完整的圖像語(yǔ)義分割結(jié)果.

      Fig.6 General framework for DeepLab[25]圖6 DeepLab基本框架[25]

      2016年,文獻(xiàn)[26]在DeepLab網(wǎng)絡(luò)的基礎(chǔ)上提出了DeepLab-V2網(wǎng)絡(luò),對(duì)特征圖分辨率變小、定位精度過(guò)低等問(wèn)題進(jìn)行改進(jìn).與DeepLab網(wǎng)絡(luò)相比,DeepLab-V2網(wǎng)絡(luò)不僅使用帶孔卷積作為上采樣濾波器進(jìn)行稠密特征提取,而且將帶孔卷積與空間金字塔池化方法(spatial pyramid pooling method)[20]相結(jié)合后,提出帶孔空間金字塔池化(atrous spatial pyramid pooling,簡(jiǎn)稱(chēng)ASPP),并利用ASPP整合多尺度特征,最后,再用FCCRF優(yōu)化分割圖像,在不增加過(guò)多參數(shù)的情況下,增大了感受野、提高了分割精度.

      2017年,文獻(xiàn)[27]基于上述兩種方法[25,26]級(jí)聯(lián)多個(gè)帶孔卷積模塊,并在空間維度上對(duì) ASPP進(jìn)行改進(jìn),提出了Deeplab-V3網(wǎng)絡(luò).Deeplab-V3網(wǎng)絡(luò)以并行方式將4個(gè)不同孔洞率(atrous rate)的帶孔卷積并聯(lián),組成一個(gè)改進(jìn)版的ASPP,再以串行方式將多個(gè)帶孔卷積模塊與改進(jìn)后的ASPP串聯(lián)在一起,構(gòu)成一個(gè)端到端處理圖像的網(wǎng)絡(luò).Deeplab-V3結(jié)合串行方式與并行方式的帶孔卷積后,能夠多尺度(multiple scale)地分割物體,獲取多尺度的圖像信息.實(shí)驗(yàn)結(jié)果表明,Deeplab-V3在無(wú)需加入FCCRF的情況下,分割準(zhǔn)確率仍然優(yōu)于文獻(xiàn)[25,26]中的方法.

      由于文獻(xiàn)[25,26]只是簡(jiǎn)單地把FCCRF加在FCN的末尾,需要分別訓(xùn)練FCN和FCCRF,導(dǎo)致FCN的粗分割操作與FCCRF的精分割操作沒(méi)有過(guò)多的交互聯(lián)系.文獻(xiàn)[28]在文獻(xiàn)[25]的基礎(chǔ)上提出了CRFasRNN網(wǎng)絡(luò),訓(xùn)練時(shí),運(yùn)用BP(back propagation)算法將CRFasRNN網(wǎng)絡(luò)放在FCN的末尾,進(jìn)行端到端處理.CRFasRNN網(wǎng)絡(luò)的基本思路是:把條件隨機(jī)場(chǎng)(conditional random field,簡(jiǎn)稱(chēng)CRF)的學(xué)習(xí)、推理、求解等過(guò)程迭代建模為RNN的相關(guān)運(yùn)算,通過(guò)迭代mean field算法把該過(guò)程嵌入到CNN中,從而將CNN與CRF的學(xué)習(xí)過(guò)程統(tǒng)一在一個(gè)完整的網(wǎng)絡(luò)中,提升了分割效果.

      3.1.2 基于優(yōu)化卷積結(jié)構(gòu)的方法

      在使用 CNN 進(jìn)行圖像語(yǔ)義分割過(guò)程中,池化操作能夠增大特征圖的感受野,并匯合圖像的背景信息,但也帶來(lái)了特征圖分辨率不斷降低、部分像素的空間位置信息丟失等問(wèn)題.一個(gè)解決該問(wèn)題的思路是對(duì)神經(jīng)網(wǎng)絡(luò)中的卷積結(jié)構(gòu)進(jìn)行優(yōu)化,使用經(jīng)過(guò)優(yōu)化的卷積結(jié)構(gòu)來(lái)代替?zhèn)鹘y(tǒng)的卷積、池化等操作.

      文獻(xiàn)[29]對(duì)普通的卷積操作進(jìn)行優(yōu)化,從中引入不同的擴(kuò)張率(dilation rate),提出了擴(kuò)張卷積(dilated convolution).擴(kuò)張卷積是在正常連續(xù)的卷積操作中加入不同的間隔,間隔大小由擴(kuò)張率決定,可以在不損失分辨率、不增加計(jì)算量的情況下使感受野呈指數(shù)增長(zhǎng),并可捕獲圖像的多尺度局部特征和保留大部分像素的空間位置信息,提升了分割準(zhǔn)確率.事實(shí)上,這里的擴(kuò)張卷積也是一種帶孔卷積[23],兩類(lèi)卷積操作的具體結(jié)構(gòu)和計(jì)算方式基本一致,只是名稱(chēng)略有不同.

      在ISS過(guò)程中,使用擴(kuò)張卷積能夠更有效地提取圖像特征、增加感受野,并保留一部分像素的空間位置信息.但擴(kuò)張卷積在操作過(guò)程中易產(chǎn)生空間間隙,會(huì)出現(xiàn)信息丟失、信息不相關(guān)和局部信息之間的連續(xù)性被打斷等問(wèn)題.2017年,文獻(xiàn)[30]使用混合擴(kuò)張卷積(hybrid dilated convolution,簡(jiǎn)稱(chēng)HDC)代替擴(kuò)張卷積,并使用稠密上采樣卷積(dense upsampling convolution,簡(jiǎn)稱(chēng)DUC)替換BI算法.HDC由一系列不同擴(kuò)張率的擴(kuò)張卷積模塊組成,既能增加感受野,又能保持局部信息的相關(guān)性,有效地避免了上述問(wèn)題.

      雖然上述方法[29,30]可以增加感受野的大小,但其固定形狀的卷積核對(duì)幾何變換的模擬能力不強(qiáng),對(duì)圖像中一些未知形變的適應(yīng)性較差,不利于提取形狀不規(guī)則物體的特征.文獻(xiàn)[31]將帶有偏移量的采樣操作代替原來(lái)位置固定的采樣操作,在卷積處理的作用區(qū)域上加入一個(gè)可學(xué)習(xí)的偏移量,使卷積操作的卷積核具有可變的形狀,提出了可變形卷積(deformable convolution).可變形卷積既能增大感受野的范圍,又有利于DNN學(xué)習(xí)圖像中的感興趣區(qū)域,增強(qiáng)了ISS過(guò)程中對(duì)幾何變換的適應(yīng)性,提高了分割準(zhǔn)確率.

      3.1.3 基于編碼器-解碼器的方法

      在ISS領(lǐng)域,要解決“池化操作后特征圖分辨率不斷降低、部分像素空間位置信息丟失”等問(wèn)題,除了對(duì)卷積結(jié)構(gòu)進(jìn)行優(yōu)化外,另一類(lèi)方法是使用編碼器-解碼器(encoder-decoder)結(jié)構(gòu).該類(lèi)方法是一種利用對(duì)稱(chēng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行圖像語(yǔ)義解析的機(jī)制,其本質(zhì)是利用DL技術(shù)中的卷積、池化等操作所構(gòu)成的編碼器來(lái)編碼被捕獲的像素位置信息和圖像特征,再利用反卷積(deconvolution)或上池化(unpooling)等操作所構(gòu)成的解碼器來(lái)對(duì)其進(jìn)行解析,還原圖像的空間維度和像素的位置信息.

      2015年,文獻(xiàn)[59]利用編碼器-解碼器結(jié)構(gòu)在編碼過(guò)程中進(jìn)行下采樣(subsampled)操作,逐步減少特征圖的分辨率,在解碼過(guò)程則進(jìn)行上采樣(upsampled)操作,逐步恢復(fù)物體細(xì)節(jié)和圖像分辨率,提出一種對(duì)生物醫(yī)學(xué)圖像進(jìn)行語(yǔ)義分割的 U-net網(wǎng)絡(luò).文獻(xiàn)[60]以解決自動(dòng)駕駛汽車(chē)和智能機(jī)器人的 ISS問(wèn)題為目標(biāo),提出了 SegNet-Basic網(wǎng)絡(luò).SegNet-Basic網(wǎng)絡(luò)基于先驗(yàn)概率計(jì)算每個(gè)像素點(diǎn)的分類(lèi),是一個(gè)類(lèi)似編碼解碼過(guò)程的對(duì)稱(chēng)結(jié)構(gòu)網(wǎng)絡(luò),其基本結(jié)構(gòu)如圖7所示.該網(wǎng)絡(luò)的左邊是一個(gè)由全卷積網(wǎng)絡(luò)構(gòu)成的編碼器,通過(guò)卷積、池化等操作進(jìn)行下采樣處理;右邊是一個(gè)由反卷積網(wǎng)絡(luò)構(gòu)成的解碼器,利用轉(zhuǎn)置卷積和上池化操作進(jìn)行上采樣處理.針對(duì)先驗(yàn)概率無(wú)法給出分類(lèi)結(jié)果置信度的問(wèn)題,文獻(xiàn)[32]基于SegNet-Basic網(wǎng)提出了Bayesian SegNet網(wǎng)絡(luò).Bayesian SegNet在每個(gè)卷積層后面增加了一個(gè)DropOut層,可有效防止權(quán)重過(guò)度擬合并增強(qiáng)網(wǎng)絡(luò)的學(xué)習(xí)能力;同時(shí),還引入貝葉斯網(wǎng)絡(luò)(Bayesian network)和高斯過(guò)程,基于后驗(yàn)概率計(jì)算像素類(lèi)別,使網(wǎng)絡(luò)在ISS過(guò)程中能更合理地模擬事件概率.

      Fig.7 Framework for SegNet-Basic[60]圖7 SegNet-Basic網(wǎng)絡(luò)框架[60]

      文獻(xiàn)[33]在FCN的基礎(chǔ)上提出一個(gè)完全對(duì)稱(chēng)的DeconvNet網(wǎng)絡(luò).該網(wǎng)絡(luò)用反卷積替換BI算法,建立了一種完全對(duì)稱(chēng)機(jī)制;同時(shí),將反卷積操作與上池化操作結(jié)合起來(lái),在一定程度上避免了細(xì)節(jié)丟失和邊界模糊等現(xiàn)象,更好地反映了物體的細(xì)節(jié),提高了分割效果.

      文獻(xiàn)[32,33,60]雖然能夠取得較好的分割結(jié)果,但在網(wǎng)絡(luò)訓(xùn)練中也存在參數(shù)權(quán)重過(guò)多、計(jì)算量過(guò)大等問(wèn)題,導(dǎo)致分割速度難以達(dá)到實(shí)時(shí)處理的要求.2016年,文獻(xiàn)[34]基于編碼器-解碼器結(jié)構(gòu)提出一種高效神經(jīng)網(wǎng)絡(luò)Enet(efficient neural network).ENet在執(zhí)行分割任務(wù)時(shí)采用分解濾波器策略,使用低階近似(low-rank approximation)將卷積操作分解為更簡(jiǎn)單的操作,在保證分割精度的同時(shí),顯著降低了計(jì)算量,是一種可完成像素標(biāo)注、場(chǎng)景解析等任務(wù)的實(shí)時(shí)分割網(wǎng)絡(luò).ENet中編碼部分的網(wǎng)絡(luò)比解碼部分復(fù)雜很多,是一種不對(duì)稱(chēng)的編碼器-解碼器結(jié)構(gòu).

      文獻(xiàn)[35]使用帶有大型卷積核(large kernel)的卷積層代替CNN中的全連接層,提出了全局卷積網(wǎng)絡(luò)(global convolution network,簡(jiǎn)稱(chēng)GCN).該方法使用ResNet構(gòu)建編碼器,使用GCN和反卷積構(gòu)建解碼器,并且網(wǎng)絡(luò)中加入了用于邊界優(yōu)化的簡(jiǎn)單殘差塊,能夠在像素相對(duì)集中的小面積區(qū)域捕獲圖像信息,使得物體的分割邊界更清晰、分割準(zhǔn)確率更高.

      3.1.4 基于概率圖模型的方法

      “未能充分考慮圖像的上下文信息,以及局部特征和全局特征的利用率失衡”是ISS在發(fā)展過(guò)程中所面臨的另一個(gè)問(wèn)題,而將概率圖模型(probabilistic graphical model,簡(jiǎn)稱(chēng)PGM)[61]用于CNN的后期處理,則能有效地捕獲圖像上下文信息,并且平衡局部特征與全局特征的利用率.PGM 建模時(shí)以像素點(diǎn)作為節(jié)點(diǎn),像素點(diǎn)與像素點(diǎn)之間的概率相關(guān)關(guān)系作為邊.PGM可有效地獲取各像素點(diǎn)之間的依賴(lài)關(guān)系,捕捉圖像全局信息和像素級(jí)語(yǔ)義信息,進(jìn)而為語(yǔ)義分割過(guò)程提供豐富的圖像上下文信息.該類(lèi)方法的處理流程如圖8所示,先用CNN對(duì)原始圖像進(jìn)行特征提取,得到粗糙分割結(jié)果;再將其送入 PGM 中用于捕獲語(yǔ)義信息和像素依賴(lài)關(guān)系,對(duì)粗糙分割結(jié)果進(jìn)行邊緣細(xì)化、精度加工等優(yōu)化,從而得到精細(xì)化的分割結(jié)果.圖8虛線(xiàn)框的內(nèi)容是使用PGM對(duì)圖像進(jìn)行建模的過(guò)程.常用的PGM包括馬爾可夫隨機(jī)場(chǎng)(Markov random field,簡(jiǎn)稱(chēng)MRF)、條件隨機(jī)場(chǎng)、貝葉斯網(wǎng)絡(luò)等.

      Fig.8 Workflow for ISS based on PGM圖8 基于概率圖模型的圖像語(yǔ)義分割方法的處理流程

      基于上述思想,文獻(xiàn)[38]引入MRF來(lái)捕捉ISS中復(fù)雜的上下文信息,將CNN與MRF結(jié)合,提出一種端到端訓(xùn)練的深度解析網(wǎng)絡(luò)(deep parsing network,簡(jiǎn)稱(chēng)DPN).DPN將高階關(guān)系(highorder relation)、標(biāo)簽信息和語(yǔ)義信息結(jié)合在MRF中,通過(guò)CNN中的基礎(chǔ)網(wǎng)絡(luò)層來(lái)近似模擬MRF的一元項(xiàng)(unary term),通過(guò)MRF的額外層來(lái)近似估計(jì) MRF的成對(duì)項(xiàng)(pairwise term),其反向傳播過(guò)程不需要額外的迭代計(jì)算便能夠在 GPU(graphics processing unit)中進(jìn)行并行加速處理,從而減少了計(jì)算量,提高了分割效率.

      文獻(xiàn)[62]以CRF為基礎(chǔ)設(shè)計(jì)了一個(gè)目標(biāo)團(tuán)勢(shì)函數(shù)(object clique potential),提出一個(gè)能夠有效地檢測(cè)并分割物體的新模型.文獻(xiàn)[36]則綜合利用CNN與CRF的優(yōu)勢(shì)來(lái)探索圖像中復(fù)雜的上下文信息,提出一種深度結(jié)構(gòu)化模型(deep structured model,簡(jiǎn)稱(chēng)DSM).DSM在建模CRF后,利用相鄰圖像塊之間的語(yǔ)義關(guān)系來(lái)捕獲“區(qū)域-區(qū)域上下文(path-path context)”;通過(guò)滑動(dòng)金字塔池化技術(shù)連接由CNN輸出的多尺度特征圖,以此來(lái)捕獲“區(qū)域-背景上下文(path-background context)”;最后,綜合利用兩種不同的圖像上下文信息進(jìn)行語(yǔ)義分割,提高了分割準(zhǔn)確率.文獻(xiàn)[63]基于上述思想[36],將 CNN與 CRF組合在一起用于結(jié)構(gòu)化預(yù)測(cè),直接在消息的傳遞推理過(guò)程中預(yù)測(cè)消息,避免了大量計(jì)算梯度,是一種運(yùn)行速度更快、運(yùn)算量更小的DSM.文獻(xiàn)[37]對(duì)傳統(tǒng)的CRF改進(jìn)后將其嵌入到CNN中,提出一個(gè)從粗糙分割到精細(xì)分割逐步轉(zhuǎn)變的網(wǎng)絡(luò)模型.該網(wǎng)絡(luò)[37]在粗糙分割階段,使用FCN提取圖像的空間特征后進(jìn)行特征組合,再用“語(yǔ)境 CRF(context CRF)”重構(gòu)經(jīng)過(guò)組合的特征;在精細(xì)分割階段,用“指導(dǎo)CRF(guidance CRF)”根據(jù)輸入圖像的邊界來(lái)描繪物體輪廓,精細(xì)化分割對(duì)象的邊界.

      文獻(xiàn)[36,37,63]在進(jìn)行圖像語(yǔ)義分割后續(xù)優(yōu)化處理時(shí),只將粗糙分割圖像輸入CRF的一元項(xiàng)和成對(duì)項(xiàng)進(jìn)行結(jié)構(gòu)化預(yù)測(cè),忽略了對(duì)CRF中高階勢(shì)能項(xiàng)(higher order potential,簡(jiǎn)稱(chēng)HOP)[64]的有效利用,在捕獲全局特征和圖像上下文信息時(shí)存在一定的不確定性和誤差.文獻(xiàn)[42]將兩種不同的HOP加入到CRF后,將其與CNN結(jié)合,提出一種新的ISS模型,避免了上述缺陷.文獻(xiàn)[40]設(shè)計(jì)了一個(gè)基于目標(biāo)檢測(cè)的HOP和一個(gè)基于超像素[65]的HOP,并將這兩種HOP嵌入到CNN中進(jìn)行端到端訓(xùn)練,提高了ISS的分割準(zhǔn)確率.

      文獻(xiàn)[41]嘗試用高斯條件隨機(jī)場(chǎng)(Gaussian conditional random field,簡(jiǎn)稱(chēng)GCRF)代替?zhèn)鹘y(tǒng)CRF執(zhí)行對(duì)分割結(jié)果的后續(xù)優(yōu)化任務(wù),通過(guò)固定次數(shù)的迭代高斯平均場(chǎng)(Gaussian mean field,簡(jiǎn)稱(chēng) GMF)提出高斯平均場(chǎng)網(wǎng)絡(luò)(Gaussian mean fieldnetwork,簡(jiǎn)稱(chēng)GMF network),再將GCRF、GMF network與CNN結(jié)合在一起,共同處理ISS問(wèn)題,得到一種端到端語(yǔ)義分割的高斯條件隨機(jī)場(chǎng)網(wǎng)絡(luò)(Gaussian conditional random fields network,簡(jiǎn)稱(chēng)GCRF network).文獻(xiàn)[39]使用CNN分別學(xué)習(xí)GCRF的一元?jiǎng)莺瘮?shù)和二元?jiǎng)莺瘮?shù),提出一種端到端訓(xùn)練參數(shù)的二次優(yōu)化(quadratic optimization,簡(jiǎn)稱(chēng)QO)模型,提高了ISS后續(xù)優(yōu)化處理的效率.

      3.1.5 基于特征融合的方法

      “利用CRF等概率圖模型作為CNN的后期處理”能夠有效地捕獲圖像上下文信息,提高全局特征的利用率,但概率圖模型方法在學(xué)習(xí)、推理過(guò)程中仍存在計(jì)算量過(guò)大、訓(xùn)練時(shí)間較長(zhǎng)、嚴(yán)重消耗內(nèi)存等缺點(diǎn).特征融合是整合圖像上下文信息并提高全局特征利用率的另一種策略,基于特征融合的方法主張兼顧圖像的全局特征、局部特征以及高、中、底等各層次特征,通過(guò)融合不同層次特征、不同區(qū)域特征來(lái)捕獲圖像中隱含的上下文信息,可有效地避免使用概率圖模型導(dǎo)致的問(wèn)題.

      文獻(xiàn)[66]將提取的全局特征經(jīng)過(guò)上池化處理后加入到局部特征中,兩種特征融合后獲得圖像的上下文信息,再將上下文信息與融合后的特征一起用于下一層網(wǎng)絡(luò)的處理.文獻(xiàn)[43]通過(guò)拉普拉斯金字塔(Laplacian pyramid)算法[67]將不同卷積層提取的低層特征進(jìn)行重構(gòu),提出了 LRR(Laplacian pyramid reconstruction and refinement model)模型.LRR模型把特征圖表示為一組基函數(shù)的線(xiàn)性組合,使用跨層方法[23]引入邊界信息后,將低層特征與高層特征進(jìn)行融合,可有效地捕獲圖像的上下文信息,并對(duì)粗糙分割結(jié)果求精.

      文獻(xiàn)[48]將原始圖像進(jìn)行尺度變換后并行輸入 FCN,并引入注意力模型(attention model)[68],對(duì)不同尺度的目標(biāo)物體賦予不同的權(quán)重,再分別學(xué)習(xí)其對(duì)應(yīng)的特征圖,最后,融合多尺度特征進(jìn)行像素分類(lèi).文獻(xiàn)[44]提出一種能夠進(jìn)行多級(jí)并行處理的級(jí)聯(lián)式RefineNet網(wǎng)絡(luò),其框架結(jié)構(gòu)如圖9所示.在該網(wǎng)絡(luò)中,原始圖像首先經(jīng)過(guò)CNN處理得到 1/4、1/8、1/16和 1/32尺度的 4種不同分辨率特征圖,這些特征圖再送入與之對(duì)應(yīng)的精細(xì)模塊(RefineNet block)融合.如此迭代數(shù)次,通過(guò)多路徑優(yōu)化處理,不同層次、不同分辨率的特征圖融合得到優(yōu)化的分割結(jié)果.RefineNet中的精細(xì)模塊由一系列經(jīng)過(guò)殘差連接的組件構(gòu)成,每個(gè)組件對(duì)低分辨率特征圖進(jìn)行上采樣處理后再融合高分辨率特征圖,可有效整合不同尺度、不同層次的特征,對(duì)圖像上下文信息的利用更充分、合理.

      Fig.9 Framework for RefineNet[44]圖9 RefineNet網(wǎng)絡(luò)框架[44]

      文獻(xiàn)[45]使用卷積核大小不同的4種CNN來(lái)捕捉局部特征和全局特征,對(duì)圖像特征進(jìn)行級(jí)聯(lián)處理,將多個(gè)同一層次的圖像特征進(jìn)行融合,提出了PSPNet網(wǎng)絡(luò).PSPNet的處理流程如圖10所示:圖像經(jīng)過(guò)CNN處理后獲得粗糙特征圖,然后再通過(guò)空間金字塔池化(spatial pyramid pooling)[20]模塊對(duì)特征圖進(jìn)行級(jí)聯(lián)處理,將4種不同尺度的特征圖進(jìn)行融合,得到完整的特征表達(dá),能夠分別獲取不同區(qū)域的上下文信息,進(jìn)一步提升了分割精度.文獻(xiàn)[46]基于PSPNet網(wǎng)絡(luò),在兼顧分割精度的同時(shí),為保證實(shí)時(shí)性,提出了能夠?qū)崟r(shí)分割的圖像級(jí)聯(lián)網(wǎng)絡(luò)(image cascade network,簡(jiǎn)稱(chēng)ICNet).ICNet對(duì)不同尺寸的輸入圖像進(jìn)行下采樣操作,將低分辨率圖片通過(guò)整個(gè)CNN網(wǎng)絡(luò)后得到粗糙分割圖,然后利用級(jí)聯(lián)特征融合單元(cascade feature fusion unit,簡(jiǎn)稱(chēng)CFF)來(lái)融合高分辨率圖片的特征,從而提高分割速度.

      Fig.10 Workflow for PSPNet圖10 PSPNet網(wǎng)絡(luò)的處理流程

      文獻(xiàn)[47]借鑒文獻(xiàn)[69-71]的思想,使用區(qū)域卷積(region convolution)對(duì)每個(gè)階段的感興趣區(qū)域進(jìn)行處理,而默認(rèn)忽略其他不感興趣的區(qū)域,提出了端到端訓(xùn)練的深層級(jí)聯(lián)(deep layer cascade,簡(jiǎn)稱(chēng)LC)方法.LC方法具有一定的自適應(yīng)能力和自主學(xué)習(xí)能力,能夠?qū)⒉煌瑥?fù)雜度的圖像區(qū)域分別放在不同深度的網(wǎng)絡(luò)層進(jìn)行處理,可以有針對(duì)性地處理不同難易程度的像素.

      除上述圖像特征融合方式外,一些學(xué)者主張將上一階段卷積網(wǎng)絡(luò)提取的圖像特征融入到下一階段卷積網(wǎng)絡(luò)提取的特征中,將不同卷積網(wǎng)絡(luò)提取的不同圖像特征進(jìn)行融合.基于這種思想,文獻(xiàn)[72]在 VGG-16網(wǎng)絡(luò)中加入一系列不同尺度的卷積操作,從圖像中提取出不同尺度的特征信息后,將上一階段特征融入下一階段的特征中進(jìn)行卷積處理,設(shè)計(jì)出一種能夠捕獲高層和低層特征的多尺度深度卷積神經(jīng)網(wǎng)絡(luò)(multi-scale deep convolutional neural network).文獻(xiàn)[49]在文獻(xiàn)[50]的基礎(chǔ)上增加了3個(gè)不同尺度的子網(wǎng)絡(luò),采用“先進(jìn)行聯(lián)合訓(xùn)練、后進(jìn)行階段訓(xùn)練”的策略,可獨(dú)立完成深度估計(jì)、法向量估計(jì)和 ISS這 3個(gè)任務(wù).文獻(xiàn)[73]從結(jié)構(gòu)上對(duì)上面的多尺度CNN[49,50]進(jìn)行改進(jìn),將其擴(kuò)展為4個(gè)子網(wǎng),并利用其中一個(gè)子網(wǎng)進(jìn)行粗糙分割,其余3個(gè)子網(wǎng)進(jìn)行精細(xì)分割.文獻(xiàn)[74]則在 FCN的基礎(chǔ)上增加多個(gè)不同尺度的卷積層,提出了多尺度全卷積網(wǎng)絡(luò)(multi-scale fully convolutional network).

      3.1.6 基于RNN的方法

      針對(duì)“無(wú)法充分利用圖像上下文信息、局部特征和全局特征的利用率失衡”等問(wèn)題,另一種解決思路是:利用RNN可遞歸處理歷史信息和建模歷史記憶的特點(diǎn),在分割圖像過(guò)程中使用RNN來(lái)捕獲圖像上下文信息和全局特征.RNN不僅可以學(xué)習(xí)當(dāng)前時(shí)刻的信息,還可以依賴(lài)之前的序列信息,有利于建模全局內(nèi)容和保存歷史信息,促進(jìn)了圖像上下文信息的利用.基于RNN的方法進(jìn)行圖像語(yǔ)義分割時(shí),將RNN layer嵌入到CNN中,在卷積層提取圖像的局部空間特征,在 RNN layer提取像素序列特征.其一般處理流程如圖11所示,首先,輸入圖像經(jīng)過(guò)CNN處理后得到特征圖;然后,將特征圖輸入RNN中獲取圖像上下文信息,用RNN layer序列化像素、分析各像素的依賴(lài)關(guān)系后得到全局語(yǔ)義特征,再使用反卷積層進(jìn)行上采樣處理;最后,得到分割結(jié)果.

      Fig.11 Workflow for ISS based on RNN圖11 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的圖像語(yǔ)義分割方法處理流程

      文獻(xiàn)[51]借鑒 RNN 的循環(huán)思想,將泛化后的 RNN 應(yīng)用于 ISS領(lǐng)域.文獻(xiàn)[53]利用 DAG(directed acyclic graph)的特性來(lái)彌補(bǔ)分割過(guò)程中“RNN無(wú)法直接應(yīng)用于UCG(undirected cyclic graph)結(jié)構(gòu)圖像”的缺陷,使RNN能夠直接對(duì)圖像中的每個(gè)像素進(jìn)行分類(lèi).文獻(xiàn)[52]綜合利用CNN與RNN的優(yōu)點(diǎn),使用RNN的衍生網(wǎng)絡(luò)ReNet處理圖片數(shù)據(jù),提出了ReSeg網(wǎng)絡(luò).ReSeg使用4個(gè)傳統(tǒng)的RNN序列模型替代CNN中卷積層的卷積和池化操作,在水平與垂直兩個(gè)方向分別切割圖像并對(duì)其空間依賴(lài)關(guān)系建模,其框架結(jié)構(gòu)如圖12所示,輸入圖像經(jīng)過(guò)VGG-16網(wǎng)絡(luò)后得到圖像的局部特征,然后將特征圖送入ReNet網(wǎng)絡(luò)逐步提取出圖像的全局特征和上下文信息,最后使用由反卷積網(wǎng)絡(luò)組成的上采樣層逐步恢復(fù)特征圖的分辨率,輸出分割結(jié)果.同時(shí),ReSeg還使用GRU來(lái)平衡內(nèi)存占用率和計(jì)算負(fù)載能力,具有很高的靈活性和適應(yīng)性.文獻(xiàn)[54]用4個(gè)不同方向的RNN子網(wǎng)來(lái)完成圖像標(biāo)注任務(wù):輸入圖像被劃分為多個(gè)非重疊窗口送入4個(gè)獨(dú)立且不同方向的LSTM記憶塊,在沒(méi)有其他附加條件的情況下,捕獲局部特征和全局特征.文獻(xiàn)[75]則利用光度和深度 2種不同類(lèi)型的數(shù)據(jù)來(lái)建模全局特征,使用LSTM從多種途徑獲取上下文信息再將其整合到CNN中,增強(qiáng)了語(yǔ)義特征的表達(dá)效果.

      Fig.12 Framework for ReSeg[52]圖12 ReSeg網(wǎng)絡(luò)的框架結(jié)構(gòu)[52]

      傳統(tǒng)的RNN序列模型在訓(xùn)練過(guò)程中容易出現(xiàn)梯度爆炸或梯度消失等問(wèn)題,使用其衍生網(wǎng)絡(luò)LSTM或GRU配合梯度截?cái)?gradient clipping)、批標(biāo)準(zhǔn)化(batch normalization)等策略則可避免該問(wèn)題[76,77].LSTM和GRU利用某些特定的方法來(lái)規(guī)則遍歷二維圖像,圖像上下文的關(guān)聯(lián)性可轉(zhuǎn)化為結(jié)構(gòu)化的循環(huán)依賴(lài)關(guān)系,易于建模像素序列以及圖像空間域的依賴(lài)關(guān)系[52].在利用 LSTM 或 GRU對(duì)圖像進(jìn)行建模并將其平滑為像素序列的過(guò)程中,需盡量保存圖像的時(shí)間序列特征,并盡量避免丟失其高級(jí)語(yǔ)義信息和像素依賴(lài)關(guān)系,以提升分割效果[78,79].

      3.1.7 基于GAN的方法

      “使用帶有高階勢(shì)能項(xiàng)的CRF進(jìn)行結(jié)構(gòu)化預(yù)測(cè)”存在著模型復(fù)雜、計(jì)算量大、訓(xùn)練時(shí)間長(zhǎng)、內(nèi)存占用率高等問(wèn)題,此外,HOP也需要預(yù)先人工設(shè)置,不易實(shí)現(xiàn).在ISS過(guò)程中,使用GAN代替CRF捕獲圖像上下文信息,不但能夠避免上述問(wèn)題,還可在不增加模型復(fù)雜度和訓(xùn)練時(shí)間的情況下增加長(zhǎng)距離空間標(biāo)簽的連續(xù)性,具有較強(qiáng)的空間一致性.

      基于 GAN的方法進(jìn)行圖像語(yǔ)義分割時(shí),基本框架結(jié)構(gòu)如圖13所示.該類(lèi)方法一般使用 FCN,SegNet或PSPNet等分割網(wǎng)絡(luò)作為生成器網(wǎng)絡(luò),輸入圖像經(jīng)過(guò)生成器網(wǎng)絡(luò)處理后得到預(yù)測(cè)分割圖像,將預(yù)測(cè)分割圖像作為人造樣本、真實(shí)標(biāo)簽圖像(ground truth)作為真實(shí)樣本輸入判別器網(wǎng)絡(luò),判別器網(wǎng)絡(luò)學(xué)習(xí)真實(shí)樣本和人造樣本的區(qū)別,并基于博弈思想進(jìn)行對(duì)抗訓(xùn)練.待輸出樣本數(shù)據(jù)的真假后,其內(nèi)部的反饋機(jī)制會(huì)對(duì)生成器網(wǎng)絡(luò)與判別器網(wǎng)絡(luò)進(jìn)行調(diào)節(jié),經(jīng)過(guò)數(shù)次迭代訓(xùn)練后,生成器網(wǎng)絡(luò)的分割準(zhǔn)確率和判別器網(wǎng)絡(luò)的鑒別能力不斷提高.圖13中,虛線(xiàn)表示 GAN利用判斷結(jié)果進(jìn)行反饋微調(diào);菱形標(biāo)志表示選擇“真實(shí)標(biāo)簽圖像”或“預(yù)測(cè)分割圖像”兩者中的一種作為判別器網(wǎng)絡(luò)的輸入.當(dāng)判別器網(wǎng)絡(luò)的輸入組合為“原始圖像”與“預(yù)測(cè)分割圖像”時(shí),輸出“假”代表正確結(jié)果;當(dāng)輸入組合為“原始圖像”與“真實(shí)標(biāo)簽圖像”時(shí),輸出“真”代表正確結(jié)果.

      2016年,文獻(xiàn)[55]首次將GAN引入ISS領(lǐng)域,提出一種圖像分割的新方法,原始圖像在由CNN構(gòu)成的分割網(wǎng)絡(luò)中轉(zhuǎn)變?yōu)榉指罱Y(jié)果,分割結(jié)果輸入對(duì)抗網(wǎng)絡(luò)后被判斷出真假,兩組網(wǎng)絡(luò)進(jìn)行對(duì)抗學(xué)習(xí)、彼此競(jìng)爭(zhēng),經(jīng)過(guò)迭代訓(xùn)練后,逐步提高分割網(wǎng)絡(luò)的分割準(zhǔn)確率.文獻(xiàn)[56]基于 FCN,將 GAN與領(lǐng)域適應(yīng)性(domain adaptation)思想結(jié)合,將源域與目標(biāo)域共享標(biāo)記空間,并通過(guò)最優(yōu)化目標(biāo)損失函數(shù)來(lái)減少全局偏移和特定偏移的影響,提出用于ISS的領(lǐng)域適應(yīng)性框架.文獻(xiàn)[57]通過(guò) GAN來(lái)實(shí)現(xiàn)分割網(wǎng)絡(luò)的參數(shù)規(guī)則化,使用未進(jìn)行標(biāo)注的圖像訓(xùn)練分割網(wǎng)絡(luò)(生成器網(wǎng)絡(luò)).文獻(xiàn)[58]則利用條件生成對(duì)抗網(wǎng)絡(luò)(conditional generative adversarial network,簡(jiǎn)稱(chēng)CGAN)[80]產(chǎn)生人造樣本進(jìn)行對(duì)抗訓(xùn)練.

      Fig.13 Framework for ISS based on GAN圖13 基于GAN的圖像語(yǔ)義分割方法的基本框架

      GAN模型擁有不斷生成數(shù)據(jù)和辨別數(shù)據(jù)真假的能力,在一定程度上可減少CNN、FCN等網(wǎng)絡(luò)在圖像語(yǔ)義分割過(guò)程中帶來(lái)的問(wèn)題.同時(shí),GAN引入判別器來(lái)解決數(shù)據(jù)域分布不一致問(wèn)題,通過(guò)對(duì)抗學(xué)習(xí)來(lái)近似不可解的損失函數(shù),具有較好的分割效果[81].但 GAN模型的優(yōu)化過(guò)程不穩(wěn)定,訓(xùn)練時(shí)容易坍縮到一個(gè)鞍點(diǎn)上,在處理大規(guī)模圖像數(shù)據(jù)時(shí),其可解釋性和延展性有待提高[82].

      3.2 弱監(jiān)督學(xué)習(xí)圖像語(yǔ)義分割方法

      利用CNN、FCN等神經(jīng)網(wǎng)絡(luò)進(jìn)行全監(jiān)督學(xué)習(xí)的分割方法在ISS領(lǐng)域獲得了較好的效果,但I(xiàn)SSbFSL方法在訓(xùn)練階段所需要的像素級(jí)精確標(biāo)注圖像制作過(guò)程費(fèi)時(shí)、費(fèi)力,難以大批量獲取.因此,一些學(xué)者開(kāi)始研究以弱監(jiān)督學(xué)習(xí)的方式進(jìn)行圖像語(yǔ)義分割,形成了一系列的ISSbWSL方法.ISSbWSL方法使用經(jīng)過(guò)粗略標(biāo)記的弱標(biāo)注圖像進(jìn)行訓(xùn)練,減少了標(biāo)注時(shí)間和標(biāo)注成本.在 ISS領(lǐng)域,目前常見(jiàn)的弱標(biāo)注數(shù)據(jù)大致有圖像級(jí)標(biāo)注、邊框級(jí)標(biāo)注和涂鴉級(jí)標(biāo)注.如圖14所示,邊框級(jí)標(biāo)注泛指一些人工標(biāo)記的邊界框(bounding box),涂鴉級(jí)標(biāo)注泛指一些人工隨機(jī)涂鴉的點(diǎn)或線(xiàn)條,圖像級(jí)標(biāo)注則把圖像中的物體種類(lèi)標(biāo)簽作為標(biāo)注.

      Fig.14 Examples of different image labeling圖14 不同類(lèi)型的圖像標(biāo)注示例

      與像素級(jí)標(biāo)注數(shù)據(jù)相比,弱標(biāo)注數(shù)據(jù)無(wú)需過(guò)多人工操作,更容易獲取.根據(jù)弱標(biāo)注數(shù)據(jù)的不同類(lèi)型,我們將ISSbWSL方法分為 4類(lèi):基于邊框級(jí)標(biāo)注的方法、基于涂鴉級(jí)標(biāo)注的方法、基于圖像級(jí)標(biāo)注的方法和多種弱標(biāo)注數(shù)據(jù)混合的方法.下面進(jìn)行詳細(xì)介紹.

      3.2.1 基于邊框級(jí)標(biāo)注的方法

      在ISSbWSL領(lǐng)域,基于邊框級(jí)標(biāo)注的方法使用邊框級(jí)標(biāo)注圖像作為訓(xùn)練樣本.與ISSbFSL方法相比,該類(lèi)方法在標(biāo)注邊界框過(guò)程中時(shí)間成本較低,可節(jié)省大量人力物力;同時(shí),其分割性能與同等條件下的全監(jiān)督學(xué)習(xí)方法近似.

      文獻(xiàn)[83]以FCN為基礎(chǔ)網(wǎng)絡(luò),用邊框級(jí)標(biāo)注的圖像作為訓(xùn)練樣本,通過(guò)循環(huán)迭代方式不斷提高分割準(zhǔn)確率,提出了BoxSup網(wǎng)絡(luò).BoxSup的框架結(jié)構(gòu)如圖15所示,首先,用MCG算法[19]得到初步的目標(biāo)候選區(qū)域;然后,將該目標(biāo)候選區(qū)域作為已知的監(jiān)督信息輸入到FCN中進(jìn)行優(yōu)化和更新;待FCN輸出具有更高精度的候選區(qū)域后,再將輸出的目標(biāo)候選區(qū)域又重新輸入FCN中進(jìn)行訓(xùn)練.如此重復(fù)迭代,直到準(zhǔn)確率收斂.文獻(xiàn)[84]在GrabCut算法[85]的基礎(chǔ)上加入CRF和 CNN,提出了DeepCut方法.DeepCut使用邊框級(jí)標(biāo)注的圖像作為訓(xùn)練樣本,通過(guò)在CNN中進(jìn)行迭代訓(xùn)練,逐步提高圖像的分割精度.

      Fig.15 Framework for BoxSup圖15 BoxSup網(wǎng)絡(luò)的框架結(jié)構(gòu)

      3.2.2 基于涂鴉級(jí)標(biāo)注的方法

      基于涂鴉級(jí)標(biāo)注的方法使用涂鴉級(jí)標(biāo)注的圖像作為訓(xùn)練樣本,分割過(guò)程較為簡(jiǎn)單,訓(xùn)練樣本易于獲取,降低了人工標(biāo)注的工作量.

      文獻(xiàn)[86]用多個(gè)像素標(biāo)注圖像中的物體,提出了用隨機(jī)涂鴉的點(diǎn)作為監(jiān)督信息的點(diǎn)監(jiān)督(point supervision)方法.該方法將監(jiān)督信息與CNN模型中的損失函數(shù)相結(jié)合,取得了較好的分割效果.文獻(xiàn)[87]使用涂鴉方式進(jìn)行圖像標(biāo)注,將帶有涂鴉線(xiàn)條的圖像作為訓(xùn)練樣本,提出了ScribbleSup方法.ScribbleSup方法分為自動(dòng)標(biāo)記階段和圖像訓(xùn)練階段:自動(dòng)標(biāo)記階段首先根據(jù)涂鴉線(xiàn)條對(duì)圖像生成像素塊,然后將每個(gè)像素塊作為圖模型中的一個(gè)節(jié)點(diǎn),再用GraphCut算法建模自動(dòng)完成對(duì)所有訓(xùn)練圖像的標(biāo)注;圖像訓(xùn)練階段則是將上一階段完成的標(biāo)注圖像送入FCN中訓(xùn)練,得到分割結(jié)果.

      3.2.3 基于圖像級(jí)標(biāo)注的方法

      與其他類(lèi)型的標(biāo)注相比,圖像級(jí)標(biāo)注使用類(lèi)別標(biāo)簽作為訓(xùn)練標(biāo)注,不需要進(jìn)行像素標(biāo)注,制作更簡(jiǎn)單、工作量更小,因而受到研究者更多的關(guān)注,成為 ISSbWSL方法的主流.但是圖像級(jí)標(biāo)注只提供了物體種類(lèi)信息,缺少位置、形狀等信息,在分割過(guò)程中也面臨諸多挑戰(zhàn).

      文獻(xiàn)[88]將多示例學(xué)習(xí)(multiple instance learning,簡(jiǎn)稱(chēng)MIL)[89]應(yīng)用在ISSbWSL,以構(gòu)建圖像標(biāo)注與像素語(yǔ)義之間的關(guān)聯(lián);同時(shí),還使用超像素、候選框和MCG算法等技術(shù)作為后續(xù)處理,取得了一定的分割效果.文獻(xiàn)[90]使用約束卷積神經(jīng)網(wǎng)絡(luò)(constrained convolutional neural network,簡(jiǎn)稱(chēng)CCNN)進(jìn)行圖像語(yǔ)義分割,CCNN將圖像級(jí)標(biāo)注作為限制條件,通過(guò)內(nèi)部的損失函數(shù)來(lái)預(yù)測(cè)像素類(lèi)別,把訓(xùn)練過(guò)程看作是限制條件的最優(yōu)化過(guò)程.文獻(xiàn)[91]使用復(fù)合形式的損失函數(shù)進(jìn)行圖像語(yǔ)義分割,提出了SEC(seed,expand and constrain)方法.SEC方法中的復(fù)合損失函數(shù)由3個(gè)不同的目標(biāo)損失函數(shù)組成,訓(xùn)練CNN時(shí),3個(gè)不同的目標(biāo)損失函數(shù)分別完成不同的分割任務(wù).

      文獻(xiàn)[92]提出一種可將分割結(jié)果由簡(jiǎn)單到復(fù)雜逐步轉(zhuǎn)變的STC(simple to complex)方法.該方法首先利用顯著性目標(biāo)檢測(cè)(salient object detection)算法檢測(cè)出顯著性區(qū)域,進(jìn)行區(qū)域特征融合和構(gòu)建像素間的語(yǔ)義關(guān)系后,由 CNN產(chǎn)生一組顯著性區(qū)域圖.接著,再由一套迭代機(jī)制從簡(jiǎn)單到復(fù)雜地重復(fù)數(shù)次該過(guò)程,逐步提升分割精度.文獻(xiàn)[93]在循環(huán)迭代的訓(xùn)練過(guò)程中引入增強(qiáng)反饋(augmented feedback)思想,先使用選擇搜索算法和MCG算法進(jìn)行目標(biāo)定位,再根據(jù)反饋信息逐步提升分割能力,可在一定程度上避免 ISSbWSL存在的誤差累積問(wèn)題.文獻(xiàn)[94]基于CNN和期望值最大化(expectation maximization,簡(jiǎn)稱(chēng)EM)算法,使用顯著性目標(biāo)檢測(cè)算法和注意力圖(attention maps)對(duì)圖像進(jìn)行分割,分割效果較好.文獻(xiàn)[95]基于 FCN,采用弱監(jiān)督學(xué)習(xí)方式識(shí)別出圖像中多個(gè)不同的顯著性區(qū)域(discriminative localization)后,捕獲不同區(qū)域的局部特征,再利用局部特征對(duì)圖像中的物體進(jìn)行定位和分割.文獻(xiàn)[96]采用圖像級(jí)標(biāo)注圖像對(duì)分類(lèi)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,使用分類(lèi)網(wǎng)絡(luò)按照主次順序逐步獲取目標(biāo)對(duì)象的顯著性區(qū)域,并利用一種逐步擦除顯著性區(qū)域、不斷提高像素分類(lèi)精度的方法來(lái)處理圖像的顯著性區(qū)域,使得分割精度迅速提升.

      3.2.4 多種弱標(biāo)注數(shù)據(jù)混合的方法

      以上3種使用弱標(biāo)注圖像進(jìn)行訓(xùn)練的分割方法極大地推動(dòng)了ISSbWSL的發(fā)展,但由于弱標(biāo)注圖像的局限性,單純使用某種圖像級(jí)標(biāo)注的訓(xùn)練效果較差,如果混合多種弱標(biāo)注圖像則可能取得較好的效果.多種弱標(biāo)注數(shù)據(jù)混合的方法將多種弱標(biāo)注圖像與像素級(jí)標(biāo)注圖像相互混合,通過(guò)混合訓(xùn)練的方式進(jìn)行半監(jiān)督學(xué)習(xí).

      文獻(xiàn)[97]引入半監(jiān)督學(xué)習(xí)思想,將分類(lèi)和分割相結(jié)合,提出了由分類(lèi)網(wǎng)絡(luò)和分割網(wǎng)絡(luò)組合而成的DecoupledNet網(wǎng)絡(luò).訓(xùn)練時(shí),DecoupledNet先用大量的圖像級(jí)標(biāo)注訓(xùn)練分類(lèi)網(wǎng)絡(luò),再用少量的像素級(jí)標(biāo)注訓(xùn)練分割網(wǎng)絡(luò).這種方法沒(méi)有循環(huán)迭代過(guò)程,不必考慮迭代收斂,因而具有較好的擴(kuò)展性.文獻(xiàn)[98]在DeepLab網(wǎng)絡(luò)的基礎(chǔ)上,將邊框級(jí)標(biāo)注與圖像級(jí)標(biāo)注一起用于訓(xùn)練,對(duì)于給定的邊框級(jí)標(biāo)注圖像,先使用 CRF對(duì)其做自動(dòng)分割,再在分割結(jié)果上做全監(jiān)督學(xué)習(xí).同時(shí),該方法[98]還嘗試將少量的像素級(jí)標(biāo)注圖像和大量的弱標(biāo)注圖像結(jié)合訓(xùn)練,并使用EM算法來(lái)預(yù)測(cè)未標(biāo)記像素的類(lèi)別,其分割結(jié)果與進(jìn)行全監(jiān)督學(xué)習(xí)的DeepLab網(wǎng)絡(luò)十分接近.

      總的來(lái)說(shuō),ISSbWSL方法嘗試在大量弱標(biāo)注數(shù)據(jù)中找到圖像的高級(jí)特征,允許計(jì)算機(jī)在無(wú)人指導(dǎo)的情況下進(jìn)行學(xué)習(xí),可使ISS擺脫對(duì)大量像素級(jí)標(biāo)簽數(shù)據(jù)的依賴(lài).但目前大部分ISSbWSL方法沒(méi)有充分考慮噪聲干擾下弱標(biāo)注圖像分布的不確定性和復(fù)雜性,其分割性能與 ISSbFSL方法相比仍有較大差距.如何靈活運(yùn)用弱標(biāo)注圖像數(shù)據(jù)來(lái)提高分割準(zhǔn)確率和抗干擾性,并減少大量弱標(biāo)注圖像所帶來(lái)的計(jì)算復(fù)雜性,是該類(lèi)方法目前亟需解決的問(wèn)題.

      4 圖像語(yǔ)義分割實(shí)驗(yàn)分析與對(duì)比

      在進(jìn)行圖像語(yǔ)義分割實(shí)驗(yàn)時(shí),要對(duì)每種方法進(jìn)行公平、客觀的評(píng)價(jià),就必須使用權(quán)威的數(shù)據(jù)集和統(tǒng)一的評(píng)價(jià)指標(biāo).本節(jié)將介紹一些在 ISS實(shí)驗(yàn)中常用的公共數(shù)據(jù)集以及衡量算法性能的指標(biāo),并對(duì)前文中一些經(jīng)典方法的實(shí)驗(yàn)結(jié)果進(jìn)行系統(tǒng)的分析和對(duì)比.表3總結(jié)了圖像語(yǔ)義分割的常用公共數(shù)據(jù)集.

      Table 3 Common datasets for image semantic segmentation表3 常用的圖像語(yǔ)義分割數(shù)據(jù)集

      4.1 常用公共數(shù)據(jù)集

      (1)PASCAL Visual Object Classes(簡(jiǎn)稱(chēng)PASCAL VOC)[99].PASCAL VOC是一個(gè)國(guó)際計(jì)算機(jī)視覺(jué)挑戰(zhàn)賽,該組織提供了領(lǐng)域內(nèi)知名度最高的圖像測(cè)試數(shù)據(jù)集和計(jì)算機(jī)視覺(jué)領(lǐng)域的基準(zhǔn)測(cè)試.2005年~2012年間,該組織每年都發(fā)布帶標(biāo)簽的圖像數(shù)據(jù)庫(kù)并開(kāi)展算法競(jìng)賽,由此產(chǎn)生了一系列數(shù)據(jù)集.目前,該系列最常用的數(shù)據(jù)集是PASCAL VOC 2012.該數(shù)據(jù)集涉及物體共21種,包括人類(lèi)、動(dòng)物、交通工具和室內(nèi)物品等,圖片大小不固定,背景復(fù)雜多變.

      (2)PASCAL-CONTEXT[100].PASCAL-CONTEXT數(shù)據(jù)集由PASCAL VOC 2010數(shù)據(jù)集改進(jìn)和擴(kuò)展而來(lái),里面增加了更多的物體標(biāo)注和場(chǎng)景信息,總共包含540個(gè)語(yǔ)義類(lèi)別的圖像標(biāo)注.在算法評(píng)估時(shí),一般選取前59類(lèi)作為分割評(píng)判標(biāo)準(zhǔn).

      (3)PASCAL-PART[101].PASCAL-PART數(shù)據(jù)集中的圖片大都出自PASCAL VOC 2010,分為訓(xùn)練集、驗(yàn)證集和測(cè)試集這 3個(gè)部分,每部分中的圖像都含有像素級(jí)標(biāo)注,能夠提供豐富的細(xì)節(jié)信息.PASCAL-PART每張圖像中,目標(biāo)物體的不同部位都有精確標(biāo)注,可為物體解析和 ISS任務(wù)提供詳細(xì)標(biāo)注的樣本.

      (4)Microsoft Common Objects in Context(簡(jiǎn)稱(chēng)MS COCO)[102].MS COCO數(shù)據(jù)集早先是微軟公司進(jìn)行圖像測(cè)試的一個(gè)大型數(shù)據(jù)庫(kù),后來(lái),微軟公司將其開(kāi)源和推廣.MS COCO數(shù)據(jù)集總共包含81種類(lèi)別(包括背景)、328 000張圖像、2 500 000個(gè)物體實(shí)例和100 000個(gè)人體關(guān)鍵部位標(biāo)注,大部分圖片從復(fù)雜的日常場(chǎng)景中獲取,圖中的物體具有精確的位置標(biāo)注.

      (5)ImageNet Large Scale Visual Recognition Challenge(簡(jiǎn)稱(chēng)ILSVRC)[103]).ILSVRC也是一個(gè)著名的國(guó)際計(jì)算機(jī)視覺(jué)挑戰(zhàn)比賽,提供的ImageNet數(shù)據(jù)集有1 400多萬(wàn)幅圖片,涵蓋2萬(wàn)多個(gè)類(lèi)別,其中,超過(guò)百萬(wàn)的圖片有明確的類(lèi)別標(biāo)注和物體位置標(biāo)注.數(shù)據(jù)集文檔詳細(xì),有團(tuán)隊(duì)維護(hù),使用方便,在圖像研究領(lǐng)域應(yīng)用廣泛,被稱(chēng)為圖像算法性能檢驗(yàn)的另一標(biāo)準(zhǔn)數(shù)據(jù)集.

      (6)Karlsruhe Institute of Technology and Toyota Technological Institute(KITTI)[104].KITTI是目前國(guó)際上用于自動(dòng)駕駛場(chǎng)景檢測(cè)的最大評(píng)測(cè)數(shù)據(jù)集,主要用于評(píng)測(cè)車(chē)載環(huán)境下路面分割、目標(biāo)檢測(cè)、目標(biāo)跟蹤等技術(shù).KITTI數(shù)據(jù)集包含市區(qū)、鄉(xiāng)村和高速公路等真實(shí)場(chǎng)景圖像,每張圖像中含有不同程度的遮擋現(xiàn)象.

      (7)Cityscapes Dataset(簡(jiǎn)稱(chēng)Cityscapes)[105].Cityscapes主要提供無(wú)人駕駛環(huán)境下的圖像分割數(shù)據(jù),用于評(píng)估算法在城區(qū)場(chǎng)景語(yǔ)義理解方面的性能.Cityscapes包含 50個(gè)城市不同環(huán)境、不同背景、不同季節(jié)的街道場(chǎng)景,提供5 000張精細(xì)標(biāo)注的圖片、20 000張粗略標(biāo)注的圖片和30種標(biāo)注物體.

      (8)Sift Flow[106].該數(shù)據(jù)集以戶(hù)外場(chǎng)景解析類(lèi)的圖片為主,包含街道、山脈、城市、海灘和建筑等8種戶(hù)外類(lèi)型場(chǎng)景,共有2 688張圖片、33種語(yǔ)義類(lèi)目標(biāo)和3種地理類(lèi)目標(biāo).圖片都具有像素級(jí)標(biāo)注,分辨率為 256×256.

      (9)Stanford background dataset(簡(jiǎn)稱(chēng)SBD)[107].SBD由斯坦福大學(xué)建立,用于衡量語(yǔ)義級(jí)場(chǎng)景解析算法的性能.該數(shù)據(jù)集包含725張圖片,分別從LabelMe、PASCAL VOC等數(shù)據(jù)集中抽取而來(lái).圖片大多為戶(hù)外場(chǎng)景類(lèi)型,大小較為規(guī)整,每張圖片至少包含1個(gè)前景對(duì)象.

      (10)NYU Depth Dataset V2(簡(jiǎn)稱(chēng)NYUDv2)[108].NYUDv2中的圖片大都出自微軟Kinect數(shù)據(jù)庫(kù),分為RGB圖像、深度圖像和RDB-D圖像這3個(gè)子數(shù)據(jù)集.該數(shù)據(jù)集由一系列表示各種室內(nèi)場(chǎng)景的視頻序列組成,總共包含1 449張RDB-D圖像、26種場(chǎng)景類(lèi)型、464種室內(nèi)場(chǎng)景和407 024幀經(jīng)過(guò)標(biāo)記的圖像數(shù)據(jù).

      (11)SUN-RGBD[109].SUN-RGBD中的圖像大多由4個(gè)不同的RGB-D圖像傳感器捕獲而得,共包含10 000張RGB-D圖像、146 617個(gè)多邊形標(biāo)注、58 657個(gè)邊界框標(biāo)注以及大量的空間布局信息和種類(lèi)信息.

      4.2 實(shí)驗(yàn)性能評(píng)價(jià)指標(biāo)

      在 ISS領(lǐng)域,常用的性能評(píng)價(jià)指標(biāo)主要包括平均召回率(average recall,簡(jiǎn)稱(chēng) AR)[110]、平均精度(average precision,簡(jiǎn)稱(chēng)AP)[110]、平均精度均值(mean average precision,簡(jiǎn)稱(chēng)mAP)[110]、像素準(zhǔn)確率(pixel accuracy,簡(jiǎn)稱(chēng)PA)[23]、平均準(zhǔn)確率(mean accuracy,簡(jiǎn)稱(chēng)MA)[23]、平均交并比(mean intersection over union,簡(jiǎn)稱(chēng)mIoU)[23]和帶權(quán)交并比(frequency weighted intersection over union,簡(jiǎn)稱(chēng)FWIoU)[23].在結(jié)果評(píng)價(jià)時(shí),一般選取PA、MA和mIoU這3種評(píng)價(jià)指標(biāo)綜合分析.其中,mIoU表示分割結(jié)果與其真值的重合度,是目前ISS領(lǐng)域使用頻率最高和最常見(jiàn)的評(píng)價(jià)指標(biāo).PA、MA和mIoU的具體定義及計(jì)算公式如公式(1)~公式(3)所示.

      (1)PA用于計(jì)算正確分割的像素?cái)?shù)量與圖像像素總量的比例,其具體計(jì)算方法如公式(1)所示.

      (2)MA表示所有類(lèi)別物體像素準(zhǔn)確率的平均值,其具體計(jì)算方法如公式(2)所示.

      (3)mIoU表示分割結(jié)果與原始圖像真值的重合程度,其具體計(jì)算方法如公式(3)所示.

      其中,N代表圖像像素的類(lèi)別數(shù)量;Ti代表第i類(lèi)的像素總數(shù);Xii代表實(shí)際類(lèi)型為i、預(yù)測(cè)類(lèi)型為i的像素總數(shù);Xji代表實(shí)際類(lèi)型為i、預(yù)測(cè)類(lèi)型為j的像素總數(shù).

      4.3 實(shí)驗(yàn)結(jié)果分析與對(duì)比

      為便于說(shuō)明算法效果,本節(jié)將按照?qǐng)D1中的分類(lèi)對(duì)ISSbRC、ISSbFSL和ISSbWSL這3類(lèi)方法的實(shí)驗(yàn)結(jié)果分別進(jìn)行分析對(duì)比.事實(shí)上,隨著計(jì)算機(jī)硬件技術(shù)的發(fā)展和數(shù)據(jù)處理能力的提高,當(dāng)前 ISSbDL領(lǐng)域中,大多數(shù)研究都以提升算法的“分割準(zhǔn)確率”為研究重點(diǎn),而對(duì)“計(jì)算性能”關(guān)注不多.特別是上述3類(lèi)方法中的ISSbRC方法和ISSbWSL方法,由于其功能側(cè)重點(diǎn)、應(yīng)用場(chǎng)景和改進(jìn)方式等原因,相關(guān)研究大都忽略了對(duì)算法“計(jì)算性能”的實(shí)驗(yàn)考察.因此,本節(jié)對(duì)這兩類(lèi)方法的效果僅從算法“分割準(zhǔn)確率”方面進(jìn)行分析對(duì)比.部分ISSbFSL方法因涉及到動(dòng)態(tài)場(chǎng)景解析或?qū)崟r(shí)圖像語(yǔ)義分割等研究領(lǐng)域,比較重視算法的“計(jì)算性能”指標(biāo).因此,針對(duì)ISSbFSL方法,本節(jié)將從算法“分割準(zhǔn)確率”與“計(jì)算性能”兩個(gè)方面進(jìn)行實(shí)驗(yàn)結(jié)果分析.

      4.3.1 ISSbRC方法的實(shí)驗(yàn)對(duì)比分析

      ISSbRC方法的實(shí)驗(yàn)對(duì)比見(jiàn)表4,主要比較因素有關(guān)鍵技術(shù)、實(shí)驗(yàn)數(shù)據(jù)集和評(píng)價(jià)指標(biāo)等.

      Table 4 Experimental comparison of ISSbRC表4 基于區(qū)域分類(lèi)的圖像語(yǔ)義分割方法實(shí)驗(yàn)對(duì)比

      從表4中可以看到,ISSbRC方法大多選用PASCAL VOC和MS COCO數(shù)據(jù)集作測(cè)試數(shù)據(jù)集,因?yàn)檫@兩種數(shù)據(jù)集更有權(quán)威性和說(shuō)服力.在基于候選區(qū)域的方法中,RCNN[12]的mIoU雖然不高,但因其提出時(shí)間最早、性能平穩(wěn)、代碼開(kāi)源,已被實(shí)用化.其他算法,如SDS[13]、MPA[14]、Mask-RCNN[15]等,其框架結(jié)構(gòu)都是在RCNN的基礎(chǔ)上改進(jìn)而來(lái),因此分割準(zhǔn)確率逐步提升.基于分割掩膜的方法使用RCNN中的技術(shù)得到候選區(qū)域后,再對(duì)像素進(jìn)行二分類(lèi)處理生成分割掩膜,分割效果較好.在該類(lèi)方法中,SharpMask[17]和 MultiPath[18]分別對(duì) DeepMask[16]進(jìn)行改進(jìn),分割性能有較大的提升.其中,SharpMask將 DeepMask生成的粗略分割掩膜輸入精細(xì)模塊,進(jìn)行逐步優(yōu)化后最終生成精細(xì)的分割掩膜,其平均召回率比DeepMask提高了近1倍.

      4.3.2 ISSbFSL方法的實(shí)驗(yàn)對(duì)比分析

      (1)針對(duì)ISSbFSL方法分割準(zhǔn)確率的實(shí)驗(yàn)結(jié)果對(duì)比見(jiàn)表5,主要比較因素有基于的基礎(chǔ)網(wǎng)絡(luò)、關(guān)鍵技術(shù)、是否使用PGM方法、實(shí)驗(yàn)數(shù)據(jù)集和評(píng)價(jià)指標(biāo)等.

      Table 5 Experimental comparison of segmentation accuracy for ISSbFSL表5 基于像素分類(lèi)的全監(jiān)督學(xué)習(xí)圖像語(yǔ)義分割方法的分割準(zhǔn)確率實(shí)驗(yàn)對(duì)比

      從表5中可以看到,根據(jù)算法的應(yīng)用場(chǎng)景和分割特色不同,選用的數(shù)據(jù)集也不同.當(dāng)對(duì)常規(guī)靜態(tài)圖像進(jìn)行圖像語(yǔ)義分割時(shí),大多選用PASCAL VOC 2012作為測(cè)試數(shù)據(jù)集;當(dāng)進(jìn)行動(dòng)態(tài)場(chǎng)景解析或?qū)崟r(shí)圖像語(yǔ)義分割時(shí),大多選用CityScapes作為測(cè)試數(shù)據(jù)集.

      該類(lèi)方法中,DeepLab-V3[27]、PSPNet[45]、RefineNet[44]、DUC+HDC[30]、LC[47]、GCN+[35]和 QO[39]等算法在PASCAL VOC 2012數(shù)據(jù)集上的mIoU都超過(guò)了80%,對(duì)圖像中不同尺度的物體有較好的識(shí)別效果,分割結(jié)果的邊界比較接近真實(shí)分割邊界,是最具代表性的圖像語(yǔ)義分割算法.其中,DeepLab-V3算法因?yàn)榧闪薋CN[23]、PSPNet和DeepLab-V2等眾多網(wǎng)絡(luò)的優(yōu)點(diǎn),其mIoU指標(biāo)目前排名最高.而PSPNet與RefineNet通過(guò)多路徑、多尺度方式對(duì)圖像特征進(jìn)行融合,可有效捕捉圖像中豐富的上下文信息,在mIoU指標(biāo)上分別排名第二和第三.

      CRFasRNN[28]、Dilation10[29]、DeepLab-V1[25]和 DeepLab-V2[26]等算法則是基于 FCN 進(jìn)行改進(jìn),在 PASCAL VOC 2012數(shù)據(jù)集上的mIoU都超過(guò)70%,在分割準(zhǔn)確率方面與FCN相比有較大提升.其中,DeepLab-V2由于具有代碼開(kāi)源時(shí)間早、性能穩(wěn)定和分割準(zhǔn)確率高等優(yōu)點(diǎn),在工業(yè)界備受青睞,被廣泛用于分割靜態(tài)圖像,其 mIoU達(dá)到了79.7%.

      其中,SegNet[32]、ENet[34]和 ICNet[46]這 3種算法由于主要用于無(wú)人自動(dòng)駕駛、在線(xiàn)視頻處理等領(lǐng)域,故而選擇在滿(mǎn)足實(shí)時(shí)圖像語(yǔ)義分割性能測(cè)試的CityScapes數(shù)據(jù)集進(jìn)行實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果表明,這3種算法的mIoU都超過(guò)了 50%,分割精度基本滿(mǎn)足對(duì)街道場(chǎng)景圖像進(jìn)行語(yǔ)義分割的要求.其中,ICNet將不同尺度的圖像放在不同深度的神經(jīng)網(wǎng)絡(luò)中處理,并使用級(jí)聯(lián)特征融合單元融合不同分辨率的特征圖,在 CityScapes上的 mIoU為 69.5%,分割準(zhǔn)確率相對(duì)于SegNet和ENet有明顯提升,分割性能突出.

      (2)針對(duì)算法的計(jì)算性能,基于Cityscapes基準(zhǔn)測(cè)試和PASCAL VOC基準(zhǔn)測(cè)試中的有關(guān)內(nèi)容[99,105]以及相關(guān)參考文獻(xiàn)[23,46],我們從ISSbFS方法中選擇了代表性較強(qiáng)、相關(guān)度較高的幾種經(jīng)典算法進(jìn)行分析對(duì)比.各算法計(jì)算性能的實(shí)驗(yàn)測(cè)試均在Cityscapes數(shù)據(jù)集中進(jìn)行,其測(cè)試結(jié)果見(jiàn)表6,主要比較因素有算法名稱(chēng)、發(fā)表年份、運(yùn)行時(shí)間和每秒幀數(shù)等,其中,“運(yùn)行時(shí)間”代表分割一張圖像所消耗的時(shí)間,“每秒幀數(shù)”代表每秒能夠分割的圖像總數(shù)量.

      Table 6 Experimental comparison of computational performance for ISSbFSL表6 基于像素分類(lèi)的全監(jiān)督學(xué)習(xí)圖像語(yǔ)義分割方法的計(jì)算性能實(shí)驗(yàn)對(duì)比

      從表6中可以看到,各類(lèi)具體算法的分割速度有較大差異.其中,ENet[34]、ICNet[46]和SegNet[32]這3種算法的運(yùn)行時(shí)間分別為 0.013s、0.033s和 0.06s,分割速度較快,實(shí)時(shí)性強(qiáng),適用于實(shí)時(shí)圖像分割;而 FCN[23]由于在使用雙線(xiàn)性插值算法進(jìn)行上采樣過(guò)程中耗時(shí)較長(zhǎng),導(dǎo)致分割速度不高,其運(yùn)行時(shí)間為 0.5s,無(wú)法滿(mǎn)足實(shí)時(shí)圖像分割的需求;DeepLab-V1[25]和DeepLab-V2[26]由于在利用PGM對(duì)圖像進(jìn)行結(jié)構(gòu)化預(yù)測(cè)過(guò)程中計(jì)算較為復(fù)雜、耗時(shí)較長(zhǎng),導(dǎo)致其分割速度較低,也無(wú)法滿(mǎn)足實(shí)時(shí)圖像分割的需求;其他算法的分割速度都比 FCN要低,也同樣無(wú)法滿(mǎn)足實(shí)時(shí)圖像分割的需求,不適用于在線(xiàn)視頻處理和動(dòng)態(tài)場(chǎng)景解析等任務(wù).

      4.3.3 ISSbWSL方法的實(shí)驗(yàn)對(duì)比分析

      ISSbWSL方法的實(shí)驗(yàn)結(jié)果對(duì)比見(jiàn)表7,主要比較因素有關(guān)鍵技術(shù)、監(jiān)督信息、是否使用CRF方法、實(shí)驗(yàn)數(shù)據(jù)集和評(píng)價(jià)指標(biāo)等.在這些方法中,BoxSup[83]、ScribbleSup[87]和WeaklySemi[98]這3種方法在PASCAL VOC 2012數(shù)據(jù)集上的mIoU都超過(guò)了70%,分割準(zhǔn)確率較高,是以弱監(jiān)督學(xué)習(xí)方式進(jìn)行圖像語(yǔ)義分割的典型算法.而基于圖像級(jí)標(biāo)注的方法因?yàn)閮H僅使用帶有種類(lèi)標(biāo)注的弱標(biāo)注數(shù)據(jù)進(jìn)行弱監(jiān)督訓(xùn)練,分割效果不明顯,分割邊界粗糙且不連續(xù),mIoU都普遍較低.

      Table 7 Experimental comparison of ISSbWSL表7 基于像素分類(lèi)的弱監(jiān)督學(xué)習(xí)圖像語(yǔ)義分割方法實(shí)驗(yàn)對(duì)比

      5 總結(jié)與展望

      如今,深度學(xué)習(xí)技術(shù)已經(jīng)廣泛應(yīng)用到圖像語(yǔ)義分割領(lǐng)域.本文主要對(duì)基于深度學(xué)習(xí)的圖像語(yǔ)義分割的經(jīng)典方法與研究現(xiàn)狀進(jìn)行了較為細(xì)致的分類(lèi)、梳理與總結(jié).根據(jù)分割特點(diǎn)和處理粒度不同,將基于深度學(xué)習(xí)的圖像語(yǔ)義分割方法分為基于區(qū)域分類(lèi)的圖像語(yǔ)義分割方法和基于像素分類(lèi)的圖像語(yǔ)義分割方法,把基于像素分類(lèi)的圖像語(yǔ)義分割方法進(jìn)一步細(xì)分為全監(jiān)督學(xué)習(xí)圖像語(yǔ)義分割方法和弱監(jiān)督學(xué)習(xí)圖像語(yǔ)義分割方法.對(duì)每類(lèi)方法的代表性算法進(jìn)行了研究、分析和對(duì)比,并概括總結(jié)了每類(lèi)方法的技術(shù)特點(diǎn)和優(yōu)缺點(diǎn).在現(xiàn)有研究成果的基礎(chǔ)上,我們總結(jié)ISS研究領(lǐng)域的重點(diǎn)問(wèn)題和發(fā)展趨勢(shì),認(rèn)為該領(lǐng)域還存在如下一些具有挑戰(zhàn)性的研究方向.

      (1)應(yīng)用于場(chǎng)景解析任務(wù)的圖像語(yǔ)義分割

      場(chǎng)景解析任務(wù)處理的圖像背景復(fù)雜、環(huán)境多變,現(xiàn)有ISSbDL方法無(wú)法有效地捕獲圖像的上下文信息和深度語(yǔ)義信息,在識(shí)別和分割圖像中目標(biāo)物體時(shí)仍存在較大的困難.文獻(xiàn)[111]把遷移學(xué)習(xí)的思想引入場(chǎng)景解析任務(wù),將圖像像素特征與詞匯概念相結(jié)合,提出一個(gè)開(kāi)放式詞匯解析網(wǎng)絡(luò)(the open vocabulary parsing network,簡(jiǎn)稱(chēng) OVPN).文獻(xiàn)[112]提出一個(gè)針對(duì)該任務(wù)的語(yǔ)境循環(huán)殘差網(wǎng)絡(luò)(contextual recurrent residual network,簡(jiǎn)稱(chēng)CRRN),通過(guò)繼承序列模型和殘差學(xué)習(xí),建模遠(yuǎn)程語(yǔ)境依賴(lài)、學(xué)習(xí)視覺(jué)特征.這些方法目前都存在難以選擇標(biāo)注基元量化級(jí)別、未充分利用場(chǎng)景幾何深度等問(wèn)題,如何解決這些場(chǎng)景解析中的問(wèn)題并實(shí)現(xiàn)有效分割是一個(gè)挑戰(zhàn).

      (2)實(shí)例級(jí)圖像語(yǔ)義分割

      實(shí)例級(jí)圖像語(yǔ)義分割,有時(shí)也稱(chēng)為實(shí)例分割(instance segmentation,簡(jiǎn)稱(chēng)IS),融合了分割與檢測(cè)兩個(gè)功能,可以分割出圖像中同類(lèi)物體的不同實(shí)例.文獻(xiàn)[113]將多任務(wù)學(xué)習(xí)(multi-task learning)[114]引入分割領(lǐng)域?qū)崿F(xiàn)實(shí)例分割,其分割過(guò)程分為3個(gè)能夠共享卷積特征的子任務(wù),將上一任務(wù)的輸出作為下一任務(wù)的輸入,分割時(shí),能夠區(qū)分出不同的實(shí)例對(duì)象.文獻(xiàn)[13,15]對(duì)RCNN進(jìn)行改進(jìn)后,既能用于ISS,又能用于IS.文獻(xiàn)[115,116]對(duì)FCN進(jìn)行改進(jìn),使用滑動(dòng)窗口或物體框?qū)⒉煌奈恢眯畔⒕幋a到特征圖中,對(duì)每個(gè)實(shí)例進(jìn)行語(yǔ)義分割.文獻(xiàn)[117]在圖像中使用聚類(lèi)的方法構(gòu)建分割樹(shù),并探索不同的實(shí)例.文獻(xiàn)[118]使用多示例學(xué)習(xí)方法結(jié)合弱監(jiān)督學(xué)習(xí)進(jìn)行 IS.文獻(xiàn)[119]使用一個(gè)可逆的 RNN處理 IS問(wèn)題.這些方法在分割準(zhǔn)確率和算法綜合性能上都有很大的提升空間,如何平衡分割效果與時(shí)間復(fù)雜度,也是目前亟需解決的問(wèn)題.

      (3)實(shí)時(shí)圖像語(yǔ)義分割

      實(shí)時(shí)圖像語(yǔ)義分割以極高的分割速率處理圖像或視頻數(shù)據(jù),并分析利用各圖像(幀)之間的時(shí)空關(guān)系,是一種以高分割速率運(yùn)行的 ISS機(jī)制.文獻(xiàn)[34]基于編碼器-解碼器結(jié)構(gòu),采用分解濾波器策略,使用低階近似將卷積操作分解為更簡(jiǎn)單的操作,降低了計(jì)算量,初步實(shí)現(xiàn)了實(shí)時(shí)分割.文獻(xiàn)[46]采用逐步提高分割精度的策略,逐漸減少圖像經(jīng)過(guò)的網(wǎng)絡(luò)層數(shù),利用級(jí)聯(lián)特征融合單元來(lái)融合高分辨率與低分辨率圖像的特征,提高了分割速度,基本達(dá)到了實(shí)時(shí)分割.實(shí)時(shí)圖像語(yǔ)義分割常被應(yīng)用于視頻跟蹤和多目標(biāo)定位等任務(wù),有巨大的商業(yè)價(jià)值,但目前的ISS方法大多無(wú)法滿(mǎn)足實(shí)時(shí)分割的速度要求.探索如何進(jìn)一步提高實(shí)時(shí)圖像語(yǔ)義分割的速度與精度,是該領(lǐng)域的一個(gè)研究熱點(diǎn).

      (4)應(yīng)用于三維數(shù)據(jù)的語(yǔ)義分割

      目前,大多數(shù) ISS算法以處理靜態(tài)圖片數(shù)據(jù)為主,而針對(duì)點(diǎn)云、多邊形網(wǎng)格等三維數(shù)據(jù)的分割方法卻較少.文獻(xiàn)[120-122]嘗試使用三維卷積神經(jīng)網(wǎng)絡(luò)(3D convolutional neural network,簡(jiǎn)稱(chēng)3D-CNN)對(duì)三維數(shù)據(jù)進(jìn)行處理.文獻(xiàn)[123]則對(duì)3D-CNN進(jìn)行改進(jìn),設(shè)計(jì)了一個(gè)能夠標(biāo)注點(diǎn)云數(shù)據(jù)并進(jìn)行語(yǔ)義分割的3D-CNN.文獻(xiàn)[124]直接以未排序的點(diǎn)云作為輸入數(shù)據(jù),提出一個(gè)能夠直接對(duì)點(diǎn)云數(shù)據(jù)進(jìn)行語(yǔ)義分割的 PointNet網(wǎng)絡(luò).三維數(shù)據(jù)語(yǔ)義分割技術(shù)是近年來(lái)興起的一項(xiàng)熱門(mén)研究,由于三維數(shù)據(jù)的無(wú)序性和非結(jié)構(gòu)化本質(zhì),如何合理離散化和結(jié)構(gòu)化這些數(shù)據(jù)并有效地保留其空間位置信息,仍是一個(gè)有待解決的問(wèn)題.而且,由于三維數(shù)據(jù)語(yǔ)義分割任務(wù)嚴(yán)重依賴(lài)大量數(shù)據(jù)集,如何大規(guī)模地獲取三維數(shù)據(jù)并建立相關(guān)公共數(shù)據(jù)集,也是研究者們要努力的一個(gè)方向.

      (5)應(yīng)用于視頻數(shù)據(jù)的語(yǔ)義分割

      視頻語(yǔ)義分割是一種基于三維空間的 ISS問(wèn)題.目前,針對(duì)視頻數(shù)據(jù)的語(yǔ)義分割方法較少.帶有時(shí)間序列的視頻數(shù)據(jù)在語(yǔ)義分割過(guò)程中能充分利用二維圖像中的隱含信息,可更好地顯示二維圖像無(wú)法展現(xiàn)的時(shí)空特征.文獻(xiàn)[125]基于 FCN提出一種有效利用時(shí)空信息進(jìn)行視頻語(yǔ)義分割的循環(huán)全卷積網(wǎng)絡(luò)(recurrent fully convolutional network,簡(jiǎn)稱(chēng) RFCN).文獻(xiàn)[126]將視頻數(shù)據(jù)中的空間特征融入 FCN,提出一種融合時(shí)空特征的時(shí)空全卷積網(wǎng)絡(luò)(spatio-temporal fully convolutional network,簡(jiǎn)稱(chēng)STFCN).文獻(xiàn)[127]則設(shè)計(jì)了一個(gè)定時(shí)全卷積網(wǎng)絡(luò)(clockwork FCN),使用自適應(yīng)時(shí)鐘信號(hào)操縱定時(shí)卷積驅(qū)動(dòng)進(jìn)行視頻分割.未來(lái),研究如何充分利用視頻豐富的時(shí)空序列特征具有重要意義;同時(shí),如何從視頻高效抽取高層語(yǔ)義信息也是一個(gè)難點(diǎn).

      致謝在此,我們向?qū)Ρ疚奶岢鰧氋F修改意見(jiàn)的各位同行及評(píng)審專(zhuān)家表示感謝.

      猜你喜歡
      語(yǔ)義像素卷積
      趙運(yùn)哲作品
      藝術(shù)家(2023年8期)2023-11-02 02:05:28
      像素前線(xiàn)之“幻影”2000
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      語(yǔ)言與語(yǔ)義
      “像素”仙人掌
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
      高像素不是全部
      CHIP新電腦(2016年3期)2016-03-10 14:22:03
      認(rèn)知范疇模糊與語(yǔ)義模糊
      资源县| 泰顺县| 贺兰县| 龙岩市| 汾西县| 固阳县| 汝阳县| 观塘区| 嘉兴市| 资溪县| 织金县| 东乌珠穆沁旗| 大冶市| 华阴市| 冀州市| 凤台县| 光山县| 墨竹工卡县| 镇平县| 西乡县| 徐水县| 东乌珠穆沁旗| 莒南县| 桂林市| 宕昌县| 金川县| 会理县| 那曲县| 宁蒗| 嵊泗县| 宁海县| 万荣县| 佛教| 峨山| 普定县| 荥经县| 南岸区| 上栗县| 昔阳县| 南木林县| 德清县|