基于弱監(jiān)督學(xué)習(xí)的圖像語(yǔ)義分割方法綜述

2020-03-13 08:11:21曾孟蘭楊芯萍董學(xué)蓮羅倩

科技創(chuàng)新與應(yīng)用 2020年8期

曾孟蘭　楊芯萍　董學(xué)蓮　羅倩

摘? 要：為了解決全監(jiān)督語(yǔ)義分割網(wǎng)絡(luò)訓(xùn)練成本高的問(wèn)題，研究者們提出了基于弱監(jiān)督學(xué)習(xí)下的語(yǔ)義分割方法。文章對(duì)弱監(jiān)督學(xué)習(xí)的語(yǔ)義分割方法進(jìn)行綜述，并介紹了語(yǔ)義分割領(lǐng)域常用的數(shù)據(jù)集和評(píng)價(jià)指標(biāo)，最后提出了弱監(jiān)督語(yǔ)義分割的發(fā)展方向。

關(guān)鍵詞：弱監(jiān)督學(xué)習(xí);語(yǔ)義分割;數(shù)據(jù)集;評(píng)價(jià)指標(biāo)

中圖分類號(hào)：TP391? ? ? ? ?文獻(xiàn)標(biāo)志碼：A? ? ? ? ?文章編號(hào)：2095-2945（2020）08-0007-04

Abstract： In order to solve the problem of high training cost of fully supervised semantic segmentation network， researchers proposed a semantic segmentation method based on weakly supervised learning. This paper summarizes the semantic segmentation methods of weakly supervised learning， introduces the data sets and evaluation indexes commonly used in the field of semantic segmentation， and finally puts forward the development direction of weakly supervised semantic segmentation.

Keywords： weakly supervised learning; semantic segmentation; dataset; evaluation index

引言

圖像的語(yǔ)義分割技術(shù)就是利用神經(jīng)網(wǎng)絡(luò)模型對(duì)圖像中的每一個(gè)像素點(diǎn)進(jìn)行分類，進(jìn)而得到對(duì)應(yīng)目標(biāo)的語(yǔ)義標(biāo)簽信息和位置信息。該技術(shù)可以使得智能機(jī)器人等對(duì)周圍環(huán)境有更全面的理解，在無(wú)人駕駛、無(wú)人機(jī)和機(jī)器人導(dǎo)航工作領(lǐng)域扮演著重要角色。

早期的語(yǔ)義分割方法主要是基于全監(jiān)督學(xué)習(xí)的圖像語(yǔ)義分割，該方法首先需要專業(yè)人員對(duì)訓(xùn)練的數(shù)據(jù)集樣本進(jìn)行精準(zhǔn)的像素級(jí)標(biāo)注，然后利用標(biāo)注好的數(shù)據(jù)對(duì)語(yǔ)義分割神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，最后將訓(xùn)練好的分割網(wǎng)絡(luò)用于圖像的分割。因?yàn)橛芯珳?zhǔn)的訓(xùn)練數(shù)據(jù)，所以基于全監(jiān)督學(xué)習(xí)方法的圖像語(yǔ)義分割能夠得到較為準(zhǔn)確的分割結(jié)果。但是，基于全監(jiān)督學(xué)習(xí)方法的圖像語(yǔ)義分割結(jié)果過(guò)度依賴于精準(zhǔn)的數(shù)據(jù)集標(biāo)注，而標(biāo)注相對(duì)精準(zhǔn)的數(shù)據(jù)集是一項(xiàng)需要消耗大量人力以及時(shí)間的任務(wù)，這無(wú)疑增加了科研工作的成本。一些研究者為了降低神經(jīng)網(wǎng)絡(luò)的訓(xùn)練成本，提出了基于弱監(jiān)督學(xué)習(xí)的語(yǔ)義分割方法，實(shí)現(xiàn)通過(guò)使用一些低成本的訓(xùn)練數(shù)據(jù)，使神經(jīng)網(wǎng)絡(luò)達(dá)到相對(duì)精準(zhǔn)的分割效果。

弱監(jiān)督語(yǔ)義分割主要通過(guò)一些簡(jiǎn)單形式的標(biāo)簽信息進(jìn)行圖像學(xué)習(xí)，以此來(lái)降低神經(jīng)網(wǎng)絡(luò)的訓(xùn)練成本。但是因?yàn)槿醣O(jiān)督語(yǔ)義分割學(xué)習(xí)僅僅依靠一些簡(jiǎn)單的圖像標(biāo)簽進(jìn)行學(xué)習(xí)，語(yǔ)義信息不強(qiáng)，所以分割精度并不高。如何提高弱監(jiān)督語(yǔ)義分割的精度，成為了深度學(xué)習(xí)的研究熱點(diǎn)。

1 基于弱監(jiān)督學(xué)習(xí)的語(yǔ)義分割方法

為了解決全監(jiān)督學(xué)習(xí)分割網(wǎng)絡(luò)的高成本問(wèn)題，研究者們提出了基于弱監(jiān)督學(xué)習(xí)的語(yǔ)義分割方法，使用弱標(biāo)簽圖像數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)訓(xùn)練，減輕網(wǎng)絡(luò)模型對(duì)精確數(shù)據(jù)的依賴，降低數(shù)據(jù)的標(biāo)注成本。根據(jù)使用標(biāo)簽類型的不同，我們可以將弱監(jiān)督學(xué)習(xí)的圖像語(yǔ)義分割方法分為以下幾類：基于邊界框的語(yǔ)義分割法、基于圖像級(jí)標(biāo)簽的語(yǔ)義分割法、基于點(diǎn)標(biāo)簽的語(yǔ)義分割法和基于涂鴉式標(biāo)簽的語(yǔ)義分割法。

1.1 基于邊界框的方法

邊界框標(biāo)注方法是使用一個(gè)矩形框選取圖像中的目標(biāo)區(qū)域作為標(biāo)簽信息。于標(biāo)注方面來(lái)說(shuō)，邊界框標(biāo)注的操作是弱標(biāo)注方法中最為復(fù)雜的一種。但是，邊界框標(biāo)簽包含更多的圖像信息，得到的分割效果也更令人滿意。Dai[1]等人提出了基于邊界框標(biāo)注數(shù)據(jù)的BoxSup算法，該方法首先使用MCG[2]獲得初始的圖像目標(biāo)候選區(qū)域，然后不斷迭代對(duì)象目標(biāo)的候選區(qū)并調(diào)整神經(jīng)網(wǎng)絡(luò)參數(shù)，提升分割網(wǎng)絡(luò)的性能。Papandreou[3]提出使用期望最大化法，將邊界框標(biāo)簽與像素級(jí)標(biāo)簽結(jié)合的方式對(duì)分割網(wǎng)絡(luò)進(jìn)行訓(xùn)練，達(dá)到與全監(jiān)督方法接近的分割效果。Khoreva等人[4]提出把弱監(jiān)督問(wèn)題看作是輸入標(biāo)簽的噪聲問(wèn)題，試圖使用遞歸訓(xùn)練去除噪聲，加入GrabCut算法提升語(yǔ)義分割效果。基于邊界框標(biāo)簽數(shù)據(jù)訓(xùn)練的弱監(jiān)督網(wǎng)絡(luò)無(wú)需大量精準(zhǔn)的數(shù)據(jù)，而它的分割效果卻能達(dá)到全監(jiān)督網(wǎng)絡(luò)的分割水平。

1.2 基于圖像級(jí)標(biāo)簽的方法

圖像級(jí)標(biāo)簽是弱監(jiān)督學(xué)習(xí)中最簡(jiǎn)單的一種標(biāo)注形式，它只提供了圖像中存在的類別，并沒(méi)有明確給出對(duì)象的位置和形狀等信息，所以使用圖像級(jí)標(biāo)簽訓(xùn)練的分割網(wǎng)絡(luò)在語(yǔ)義分割中，得到的分割結(jié)果并不理想。但是因?yàn)閳D像級(jí)標(biāo)簽數(shù)據(jù)比較容易獲得，所以眾多專業(yè)人士均致力于圖像級(jí)標(biāo)簽的語(yǔ)義分割方法的研究。Pathak[5]等人在訓(xùn)練過(guò)程中使用圖像級(jí)標(biāo)簽數(shù)據(jù)，并利用多示例學(xué)習(xí)MIL解決語(yǔ)義分割的問(wèn)題。隨后Pathak[6]等又提出約束型神經(jīng)網(wǎng)絡(luò)模型CCNN，在損失函數(shù)中為對(duì)象尺寸、背景、前景等設(shè)置約束項(xiàng)，用最優(yōu)化解決分割問(wèn)題。Pinheiro[7]等人通過(guò)多示例學(xué)習(xí)構(gòu)建圖像級(jí)標(biāo)簽和像素級(jí)標(biāo)簽之間的關(guān)聯(lián)，且添加一些平滑先驗(yàn)獲得較好的分割結(jié)果。Wei[8]等人提出了從簡(jiǎn)單到復(fù)雜的框架STC，首先檢測(cè)圖像的顯著性，然后增強(qiáng)分割網(wǎng)絡(luò)，最后強(qiáng)化型分割網(wǎng)絡(luò)和預(yù)測(cè)標(biāo)簽得到最終分割網(wǎng)絡(luò)。隨后，Wei[9]提出了對(duì)抗性擦除的方法，該方法通過(guò)不斷擦除神經(jīng)網(wǎng)絡(luò)識(shí)別的顯著區(qū)域，然后組合擦除的信息生成偽標(biāo)注，提升分割精度。但是提出的方法都需要對(duì)網(wǎng)絡(luò)進(jìn)行多次訓(xùn)練，操作復(fù)雜且訓(xùn)練時(shí)間長(zhǎng)。Kolesnikov[10]提出了SEC框架，使用CAM[11]對(duì)目標(biāo)種子進(jìn)行定位，然后對(duì)稀疏的種子像素進(jìn)行擴(kuò)展并約束，最后使用條件隨機(jī)場(chǎng)CRF優(yōu)化后得到了較好的分割結(jié)果。Huang[12]針對(duì)于SEC框架的靜態(tài)監(jiān)督問(wèn)題做出了改進(jìn)，使用迭代擴(kuò)展的方式提高了目標(biāo)分割的完整性和準(zhǔn)確性。Zhang[13]等人利用解耦空間神經(jīng)網(wǎng)絡(luò)生成高質(zhì)量的圖像偽標(biāo)簽，并達(dá)到較好的分割效果。Li[14]等人提出了使用網(wǎng)絡(luò)產(chǎn)生的關(guān)注區(qū)域來(lái)引導(dǎo)學(xué)習(xí)，最終產(chǎn)生較為準(zhǔn)確的結(jié)果。Lee[15]等人提出了FickleNet框架，使用簡(jiǎn)單的dropout方法發(fā)現(xiàn)圖像的位置關(guān)系，并擴(kuò)大激活區(qū)域。熊昌鎮(zhèn)[16]等人利用不同特征訓(xùn)練2個(gè)帶尺度的分割模型，并結(jié)合遷移學(xué)習(xí)的分割模型改善分割結(jié)果。

1.3 基于點(diǎn)標(biāo)簽的方法

弱監(jiān)督中的點(diǎn)標(biāo)簽是在對(duì)象目標(biāo)上標(biāo)注一點(diǎn)作為標(biāo)簽信息，但是點(diǎn)所包含的信息量是非常少的，僅憑一點(diǎn)作為監(jiān)督信息是不足以使網(wǎng)絡(luò)推斷出整個(gè)對(duì)象的區(qū)域范圍，因此分割結(jié)果也不令人滿意。與圖像級(jí)標(biāo)簽相比，點(diǎn)標(biāo)簽可以明確圖像中對(duì)象的位置信息，所以分割效果有所提升。Bearman[17]等人使用點(diǎn)標(biāo)記圖像中的對(duì)象目標(biāo)，然后將該描點(diǎn)信息結(jié)合損失函數(shù)，并加入對(duì)象目標(biāo)的先驗(yàn)信息用以推斷對(duì)象范圍，使得網(wǎng)絡(luò)模型能更好地預(yù)測(cè)物體區(qū)域。

1.4 基于涂鴉式標(biāo)簽的方法

涂鴉式標(biāo)簽是在目標(biāo)對(duì)象位置以涂鴉線條方式作標(biāo)記，得到對(duì)象的位置和范圍信息。涂鴉式標(biāo)簽作為點(diǎn)標(biāo)簽的一種改進(jìn)方式，可以進(jìn)一步獲取對(duì)象的范圍信息，獲得更好的分割結(jié)果。Lin[18]等人利用圖模型優(yōu)化的方式訓(xùn)練分割網(wǎng)絡(luò)，將標(biāo)注信息與其外觀信息、語(yǔ)義信息等傳遞到圖像未標(biāo)注的像素。該方法實(shí)現(xiàn)了自動(dòng)完成圖像的標(biāo)注工作，并獲得模型參數(shù)，最終訓(xùn)練得到的網(wǎng)絡(luò)性能媲美于邊界框標(biāo)簽訓(xùn)練的分割網(wǎng)絡(luò)。

2 弱監(jiān)督學(xué)習(xí)方法評(píng)估

2.1 語(yǔ)義分割評(píng)估數(shù)據(jù)集

在語(yǔ)義分割研究中，常常需要大量的圖像數(shù)據(jù)集對(duì)分割網(wǎng)絡(luò)進(jìn)行訓(xùn)練和測(cè)試，本小節(jié)將介紹在分割任務(wù)中，具有代表性的公共數(shù)據(jù)集PASCAL VOC2012、ImageNet、MS COCO、Cityscapes。

PASCAL VOC是一個(gè)計(jì)算機(jī)視覺(jué)挑戰(zhàn)賽，它為計(jì)算機(jī)視覺(jué)提供測(cè)試圖像數(shù)據(jù)集。在計(jì)算機(jī)視覺(jué)中，最常用的數(shù)據(jù)集是PASCAL VOC 2012，它總共有21類，其中包含了背景、動(dòng)物、交通工具、人類以及一些常見(jiàn)的室內(nèi)物品等。圖片標(biāo)注質(zhì)量高且沒(méi)有統(tǒng)一圖像。其中Train/val數(shù)據(jù)包含了11530張圖像，其中包括27450 ROI目標(biāo)標(biāo)注和6929個(gè)分割物體。

ImageNet數(shù)據(jù)集共有14197122張圖像，分為21841個(gè)類別，每一類大約1000張圖片。許多圖像分類、目標(biāo)檢測(cè)、語(yǔ)義分割等任務(wù)都是基于該數(shù)據(jù)集。

MS COCO 有91種常見(jiàn)類別，數(shù)據(jù)集有328000張訓(xùn)練圖，其中包含了2500000個(gè)標(biāo)注物體。2014年發(fā)布了82783張訓(xùn)練圖像，40504張驗(yàn)證圖像，40775張測(cè)試圖像。2015年的數(shù)據(jù)包括165482張訓(xùn)練圖像，81208張驗(yàn)證圖像以及81434張測(cè)試圖像。

Cityscapes數(shù)據(jù)集有5000張高質(zhì)量的像素級(jí)圖像和20000張弱標(biāo)注圖像，涵蓋了50個(gè)城市中不同環(huán)境、不同時(shí)間的街道場(chǎng)景。

2.2 評(píng)價(jià)標(biāo)準(zhǔn)

在語(yǔ)義分割任務(wù)中，常用像素精度、平均像素精度、平均交并比來(lái)評(píng)估分割性能。具體公式如下所示，公式中的k+1表示包括背景在內(nèi)的k+1類。Pij均表示像素原屬于類i卻被網(wǎng)絡(luò)模型預(yù)測(cè)為類j的像素量。而Pji表示像素原屬于類j卻被預(yù)測(cè)為類i的像素量。Pii則表示網(wǎng)絡(luò)模型預(yù)測(cè)的像素類別與真實(shí)類別一致的數(shù)量。

以上幾種評(píng)價(jià)標(biāo)準(zhǔn)中，因?yàn)镸IOU簡(jiǎn)單且具有較好的代表性，所以大多數(shù)語(yǔ)義分割分割方法均以此判別分割的性能。

3 結(jié)果分析

在本節(jié)內(nèi)容中，將對(duì)上文提及的弱監(jiān)督學(xué)習(xí)的語(yǔ)義分割網(wǎng)絡(luò)在數(shù)據(jù)集上的表現(xiàn)進(jìn)行分析。本文以PASCAL VOC 2012 數(shù)據(jù)集為測(cè)試數(shù)據(jù)，并以MIOU作為語(yǔ)義分割方法的評(píng)價(jià)指標(biāo)。

表1對(duì)弱監(jiān)督學(xué)習(xí)下的語(yǔ)義分割方法進(jìn)行了歸類，比較了各種方法在PASCAL VOC 的驗(yàn)證集和測(cè)試集上的分割結(jié)果。從表中可以看出，雖然圖像級(jí)標(biāo)簽比較容易獲得，但是它包含的有用信息過(guò)少，不足以獲得準(zhǔn)確的分割結(jié)果。而邊界框標(biāo)簽的形式雖然比較復(fù)雜，但是能夠提供目標(biāo)位置以及范圍的監(jiān)督信息，所以在弱監(jiān)督學(xué)習(xí)方式中，具有較好的分割結(jié)果。

4 結(jié)束語(yǔ)

本文對(duì)基于弱監(jiān)督學(xué)習(xí)的圖像語(yǔ)義分割方法進(jìn)行了綜述，總結(jié)了不同方法在相同數(shù)據(jù)集上的分割效果。然后介紹了在語(yǔ)義分割領(lǐng)域常用的數(shù)據(jù)集和評(píng)價(jià)標(biāo)準(zhǔn)等。雖然現(xiàn)在弱監(jiān)督的網(wǎng)絡(luò)模型的分割結(jié)果依舊弱于全監(jiān)督分割網(wǎng)絡(luò)的結(jié)果，但是弱監(jiān)督分割網(wǎng)絡(luò)大大減少了數(shù)據(jù)集的標(biāo)注要求，降低了研究成本，是未來(lái)語(yǔ)義分割的發(fā)展趨勢(shì)。

基于現(xiàn)有的成果，提出今后可能的發(fā)展方向：

（1）構(gòu)建稀疏的弱監(jiān)督信息與像素之間的聯(lián)系，使得網(wǎng)絡(luò)能預(yù)測(cè)對(duì)象目標(biāo)的精確位置和完整的范圍，提升弱監(jiān)督的分割精度。

（2）弱監(jiān)督學(xué)習(xí)方式也可以考慮與其他學(xué)習(xí)方式的結(jié)合，解決弱監(jiān)督學(xué)習(xí)中監(jiān)督信息少而導(dǎo)致分割精度不高的問(wèn)題。

參考文獻(xiàn)：

[1]Dai， J， He K， Sun J. Boxsup： exploiting bounding boxes to supervise convolutional networks for semantic segmentation[A].Proceedings of the IEEE International Conference on Computer Vision[C].2015：1635-1643.

[2]Arbeláez P， Pont-Tuset J， Barron J， et al. Multiscale combinatorial grouping[A]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition[C].2014：328-335.

[3]Papandreou， G， Chen L C， Murphy K， et al. Weakly-and semi-supervised learning of a deep convolutional network for semantic image segmentation[A]. Proceedings of the IEEE International Conference on Computer Vision[C].2015：1742-1750.

[4]Khoreva A， Benenson R， Hosang J，et al. Simple does it： weakly supervised instance and semantic segmentation[A]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition[C].2017：876-885.

[5]Pathak D， Shelhamer E， Long J，et al. Fully convolutional multi-class multiple instance learning[A]. Proceeding of IEEE International Conference on Learning Representations[C].2015：1-4.

[6]Pathak D， Krahenbuhl P， Darrell T. Constrained convolutional neural networks for weakly supervised segmentation[A]. Proceedings of the IEEE International Conference on Computer Vision[C].2015：1796-1804.

[7]Pinheiro P O， Collobert R. From image-level to pixel-level labeling with convolutional networks[A]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition[C].2015：1713-1721.

[8]Wei Y， Liang X， Chen Y， et al. Stc： a simple to complex framework for weakly-supervised semantic segmentation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence，2017，39（11）：2314-2320.

[9]Wei Y， Feng J， Liang X， et al. Object region mining with adversarial erasing： a simple classification to semantic segmentation approach[A]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition[C].2017： 1568-1576.

[10]Kolesnikov A， Lampert C H. Seed， expand and constrain： three principles for weaklysupervised image segmentation[A]. European Conference on Computer Vision[C].2016： 695-711.

[11]Zhou B， Khosla A， Lapedriza A， et al. Learning deep features for discriminative localization[A]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition[C].2016： 2921-2929.

[12]Huang Z， Wang X， Wang J， et al. Weakly-supervised semantic segmentation network with deep seeded region growing[A]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition[C].2018： 7014-7023.

[13]Zhang T， Lin G， Cai J， et al. Decoupled spatial neural attention for weakly supervised semantic segmentation[J]. IEEE Transactions on Multimedia， 2019，21（11）：2930-2941.

[14]Li K， Wu Z， Peng K C， et al. Tell me where to look： guided attention inference network[A]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition[C].2018： 9215-9223.

[15]Lee J， Kim E， Lee S， et al. FickleNet： Weakly and Semi-supervised Semantic Image Segmentation Using Stochastic Inference[A]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition[C].2019：5267-5276.

[16]熊昌鎮(zhèn)，智慧.多模型集成的弱監(jiān)督語(yǔ)義分割算法[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào)，2019，31（05）：800-807.

[17]Bearman A， Russakovsky O， Ferrari V， et al. What's the point： semantic segmentation with point supervision[A]. European Conference on Computer Vision[C].2016： 549-565.

[18]Lin D， Dai J， Jia J， et al. Scribblesup： scribble-supervised convolutional networks for semantic segmentation[A]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition[C].2016：3159-3167.