開放科學(資源服務)標識碼(OSID):DOI:10.16661/j.cnki.1672-3791.2311-5042-5346作者簡介:陳惠民(2003—),男,本科, 研究方向為信息安全。
摘要:圖像語義分割(Semantic Segmentation)是計算機視覺領(lǐng)域的熱點研究課題,圖像語義分割不僅預測一幅圖像中的不同類別,同時還定位不同語義類別的位置,具有重要的研究意義和應用價值,這些方法被用于人工智能當中,應用在無人駕駛,遙感影像檢測,醫(yī)療影像研究等方面。全卷積神經(jīng)網(wǎng)絡(luò)的快速崛起推動了圖像語義分割領(lǐng)域的發(fā)展,兩者的融合取得了顯著的成就。本文將從語義分割的介紹出發(fā),對近幾年的代表性工作進行闡述,并對未來的研究方向進行展望。
關(guān)鍵詞:圖像處理 ??語義分割 ??計算機視覺 ??人工智能 ??深度神經(jīng)網(wǎng)絡(luò)
中圖分類號:TP391.41;TP18
圖像語義分割是計算機視覺領(lǐng)域的關(guān)鍵研究方向,通過精確劃分圖像中不同物體和區(qū)域的語義信息,為無人駕駛、遙感影像檢測、醫(yī)療影像等應用領(lǐng)域提供了重要支持。本文綜述了基于深度學習的圖像語義分割方法的演進,重點介紹了FCN、U-Net、DeepLab等經(jīng)典算法,以及最新基于Transformer的方法,如ViT-Adapter和Lawin Transformer。同時還關(guān)注了幾個常用的語義分割數(shù)據(jù)集,如PASCAL VOC2012、Microsoft COCO和Cityscapes,為讀者提供了全面了解語義分割領(lǐng)域的數(shù)據(jù)資源的機會。綜上所述,旨在為研究者提供對圖像語義分割領(lǐng)域的深入了解,并展望未來的研究方向。隨著計算機視覺技術(shù)的不斷發(fā)展,圖像語義分割將繼續(xù)在多個應用領(lǐng)域發(fā)揮關(guān)鍵作用。
1語義分割算法
傳統(tǒng)圖像分割算法
傳統(tǒng)圖像分割算法是一組基于傳統(tǒng)計算機視覺和數(shù)字圖像處理技術(shù)的方法,用于將圖像分割成不同的區(qū)域或?qū)ο蟆_@些算法通常不依賴于深度學習或神經(jīng)網(wǎng)絡(luò),而是使用傳統(tǒng)的數(shù)學、統(tǒng)計學和信號處理技術(shù)來實現(xiàn)分割。在后續(xù)研究中,與基于神經(jīng)網(wǎng)絡(luò)的語義分割算法進行比較是至關(guān)重要的,以深入研究它們在各個方面的性能和適用性。傳統(tǒng)的圖像分割算法同樣具有重要意義,為語義分割在后續(xù)研究中奠定了基礎(chǔ)。以下是4個傳統(tǒng)圖像分割的介紹:閾值分割法、馬爾可夫機場模型、邊緣檢測法、地域法。
閾值分割法
閾值分割法是傳統(tǒng)圖像分割中最基礎(chǔ)的技術(shù)之一,也是應用最廣泛的技術(shù)。它通過設(shè)定不同的閾值來劃分圖像中不同灰度級別的像素點,從而實現(xiàn)目標與背景的分割。
在該方法中,最重要的是選取合適的閾值。尋找合適的閾值可以提高圖像的分割精度,提高分割效果。常用的閾值劃分方法有3種:雙峰法、最大類間方差法(OTSU)、自適應閾值法(AdaptiveStrike)。
邊緣檢測法
邊緣檢測是一種非常有效的方法,它能準確地確定圖像的邊界,并且具有較高的計算速度。邊緣是圖像中物體與背景灰度出現(xiàn)突然變化的部位,將灰度差值大的點作為邊緣點。通過對所有邊緣點的識別和連接,構(gòu)造出連貫的輪廓,然后再使用圖像分割,圖像被分割為不同的地帶。
地域法
以地區(qū)為單位的方法的原理是把具有相似性或性質(zhì)特征相同的像素點組合成同一地區(qū)的圖像分割方法。區(qū)域法分為兩種子法,第一種是區(qū)域生長,區(qū)域生長是一種串行區(qū)域技術(shù),其基本思想是從一個種子像素點開始,逐步合并鄰域像素點(pixel)中相似的點,直到找不到相似的像素點或相似度不夠的地方才進行合并。
馬爾可夫隨機場模型算法
馬爾科夫隨機場模型(?MRF-Markov Random Field,MRF)通過對圖像進行局部分割的方法,對經(jīng)過分類后的圖像進行算法統(tǒng)計和學習。通過分析圖像中各像素點之間的相互關(guān)系,我們能夠有效地確定先驗概率。這一核心理論基于馬爾科夫隨機場模型(MRF)以及貝葉斯理論(Bayes),為我們提供了一種方法,使信息重復率降低,從而對圖像特征和結(jié)構(gòu)進行深入理解。為我們提供了一種深入理解圖像特征和結(jié)構(gòu)的方法,從而降低了信息的重復率。這兩個重要的概念,在影像處理領(lǐng)域,理論上都提供了必要的支撐。在圖像分割中,通過優(yōu)化算法找到最大概率分布,通過建立多個約束條件的目標函數(shù),將分割問題轉(zhuǎn)換成 MRF優(yōu)化問題。其中最大后驗(Maximum A Posteriori,MAP)概率是一個使用較多的優(yōu)化指標。
卷積神經(jīng)網(wǎng)絡(luò)下的語義分割算法
基于深度學習的卷積神經(jīng)網(wǎng)絡(luò)語義分割算法,能夠在傳統(tǒng)圖像分割算法的基礎(chǔ)上,更好地提取圖像中高層語義信息。傳統(tǒng)的圖像分割算法通?;诘蛯訄D像特征(如形狀、邊緣、紋理等)進行像素級別的分割,無法準確捕捉到目標的高級語義信息,圖像分割效果不好。卷積神經(jīng)網(wǎng)絡(luò)下的語義分割計算方法可以實現(xiàn)對圖像中的每一個像素進行分類,從而在圖像中實現(xiàn)對物體和實體(substruction)的精確分割。提供更高的分割精度和語義理解能力。
FCN全卷積神經(jīng)網(wǎng)絡(luò)
FCN網(wǎng)絡(luò)[1]是CVPR2015會議的最佳論文,其成功發(fā)表被譽為深度學習在語義分割領(lǐng)域的重大創(chuàng)新。其核心思想是將傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)AlexNet、 VGNet中的全連通層替換為全卷積,建立端級、像素級的語義劃分網(wǎng)絡(luò)。FCN網(wǎng)絡(luò)具有如下突出的特點。
(1)卷積化(Convolutional)。對于一個包含八層的CNN網(wǎng)絡(luò),其中前五層為卷積層,會用卷積層去轉(zhuǎn)換后三層。這個轉(zhuǎn)換的重要性在于,整個連接層會把二維圖像壓縮成一個一維的向量,從而造成丟失空間信息。全卷積層的使用,可以將圖像的空間信息保存下來,從而幫助語義的分割更加精確。
(2)上采樣(Upsample)。上采樣亦被稱為反卷積操作,一般應用于網(wǎng)絡(luò)末端。在多次卷積操作導致特征圖尺寸減小的情況下,上采樣操作旨在使最終分割結(jié)果與原始圖像尺寸相匹配,以確??臻g信息的一致性。
(3)跳躍結(jié)構(gòu)(Skip Layer)。跳躍結(jié)構(gòu)被引入了FCN網(wǎng)絡(luò),它會采樣不同的池化層的結(jié)果,通過逐元素相加(Element-wise Add)的方式結(jié)合在一起。這種跳躍式結(jié)構(gòu)的設(shè)計使網(wǎng)絡(luò)可以將包括8倍、16倍、32倍上在內(nèi)的特征信息進行整合,從而提高語義分割的性能。
U-Net 醫(yī)療U型神經(jīng)網(wǎng)絡(luò)
U-Net網(wǎng)絡(luò)[2]是2015年MICCAI大會上首次提出的一種在醫(yī)學圖像處理領(lǐng)域廣泛應用的深度學習架構(gòu)。U-NET是在全卷積神經(jīng)網(wǎng)絡(luò)(FCN)的基礎(chǔ)上改進而來的,該方法的獨特之處在于采用了一種創(chuàng)新的結(jié)構(gòu)設(shè)計,即U型的Encoder和Decoder結(jié)構(gòu),并結(jié)合了skip-connection機制。這一設(shè)計有助于充分綜合利用圖像的底層和高層信息,使得在醫(yī)療領(lǐng)域的圖像處理方面得到廣泛應用。
U-Net網(wǎng)絡(luò)可以分為Encoder和Decoder兩個主要部分。
Encoder負責進行特征提取,其任務是進行特征提取并執(zhí)行4次下采樣操作,總共下采樣16倍。這個過程的主要目的是捕獲圖像的底層信息和上下文語義信息,為進行像素級的類別分類提供有力的支持。
Decoder?負責執(zhí)行上操作,在每次完成后,通過與對應的通道數(shù)(即?SKIP-CONECTION)相同的特征圖進行融合。這一過程的主要目的是對圖像進行高層次的信息提取,以達到更精細的特征定位。
在特征融合上,U-Net采用了一種新穎的方式,即在通道維度上,而不是像FCN那樣,以點帶面的方式進行特征拼接融合。這種方法可以幫助特征信息得到更好的保留和利用,網(wǎng)絡(luò)的性能也會因此得到提升。
谷歌DeepLab系列
DeepLab[3,4]是谷歌團隊基于 CNN開發(fā)的語義分割模型。Deeplab家族迭代已經(jīng)經(jīng)歷了四個版本,即V1、V2、V3、V3+。
DeepLabV1?是?DCNN?針對?DCNN?面臨的兩大圖像分割任務難題的改進版深度卷積神經(jīng)網(wǎng)絡(luò)。首要問題是如何解決由于反復的池化操作和下采樣操作而導致的分辨率下降,降低清晰度。通過引入Atrous(或空洞)卷積來增加感受野,以保留更多的位置信息。通過增加分割精度來細化信息的細節(jié),DeepLabV1 采用了全連接條件隨機場(Conditional Random Field,CRF),通過增加分割精度來細化信息細節(jié),從而增加了信息的詳細分割結(jié)果。DeepLabV1?引入?ATROUS?卷積和全連接條件隨機場(CRF),采用?VG-16?作為骨干網(wǎng)絡(luò)(Backbone)。全連接條件隨機場(CRF)在圖像分割中的使用是為了圖像的信息分割進度的上升。它通過綜合考察像素本身的位置及其周圍像素的值,以及整個圖像的全局信息,對局部信息進行了更新。這種方法有助于使圖像分割結(jié)果更加精確,尤其在捕捉圖像輪廓等細節(jié)方面表現(xiàn)更為出色。
DeepLabV2是在V1的基礎(chǔ)上進行了網(wǎng)絡(luò)架構(gòu)的進一步改進,使多尺度物體分割的挑戰(zhàn)得到了更有效的解決。它改善了細節(jié)信息的分割,通過減少池化操作,使用了空洞的卷積,繼續(xù)使用全連接的CRF。此外,DeepLabV2還引入了用于處理多尺度物體存在的空間金字塔池化(ASPP)模塊。ASPP模塊在給定的特征層上使用多個平行的不同的空洞卷積重新采樣,再將特征融合。更好地獲取了不同尺度的信息。
DeepLabV3在V2的基礎(chǔ)上進行了重要的改進,放棄了全連接條件隨機場(CRF)的使用,轉(zhuǎn)而專注于更深層次的Atrous(或稱為Dilated)卷積結(jié)構(gòu),并對ASPP模塊進行了改進。串聯(lián)具有不同膨脹率的Atrous卷積有助于在不同尺度上捕獲圖像特征,使網(wǎng)絡(luò)能夠更好地理解不同尺度下的結(jié)構(gòu)和語義信息。同時,DeepLabV1還通過并行具有不同膨脹率的空洞卷積來優(yōu)化空洞空間卷積池化金字塔(Atrous Spatial Pyramid?Pooling,ASPP)模塊。
DeepLabV3+和V3一樣不再使用全連接CRF,在此基礎(chǔ)上,DeepLabV3+將深度可分卷積轉(zhuǎn)化為編碼器,并在其基礎(chǔ)上增加 Decoder模塊,從而構(gòu)造出深度可分卷積。我們將交叉可分卷積與深度可分卷積分別用于 ASPP與 Decoder,并設(shè)計了一種基于深度可分卷積的深度可分卷積算法。該模型將空間金字塔池化(SPP)與編碼器(Encoder-Decoder)兩種模式有機地融合,前者可以獲取更多的尺度信息,后者則可以用來恢復目標的邊界。
基于Transformer的圖像分割
Transformer最早用于自然語言處理,而后被首先被用于圖像分類,在語義分割領(lǐng)域使用Transformer的歷史并不長,目前新出爐的使用Transformer進行語義分割的方法有南京大學的ViT-Adapter[5]以及北京郵電大學的Lawin?Transformer[6]。
ViT-Adapter
ViT[7](Vision Transformer)是一款將Transformer架構(gòu)應用于圖像分類任務的模型,由Google團隊于2020年提出。雖然不是第一個將Transformer用于視覺任務的研究,但它因其簡單的模型結(jié)構(gòu)、出色的性能,以及可擴展性(模型規(guī)模越大,性能越好)而成為了Transformer在計算機視覺領(lǐng)域的重要里程碑,激發(fā)了后續(xù)相關(guān)研究的熱潮。
不同于最近的趨勢,即在Vision Transformer(ViT)架構(gòu)中引入視覺特定的歸納偏差,ViT本身由于缺乏圖像領(lǐng)域的先驗信息,在密集預測任務上表現(xiàn)較差。為了應對這一問題,本文提出了一種名為Vision Transformer適配器(ViT-Adapter)的解決方案。ViT-Adapter通過引入額外的架構(gòu)來彌補ViT的不足,使其在性能上能夠媲美專門針對視覺任務設(shè)計的模型。
Lawin?Transformer
通過大窗口注意改進具有多尺度表示的語義分割。多尺度表示對于語義分割至關(guān)重要。目前見證了利用多尺度上下文信息的語義分割卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,?CNN)的蓬勃發(fā)展。由于視覺Transformer (ViT) 在圖像分類方面的強大功能,最近提出了一些語義分割 ViT,其中大多數(shù)取得了令人印象深刻的結(jié)果,但以計算經(jīng)濟為代價。
2??語義分割數(shù)據(jù)集
語義劃分所用的數(shù)據(jù)是由多個維度組成的,數(shù)量龐大。2 D影像領(lǐng)域的研究熱點包括PASCALVOC2012系列、微軟 COCO系列、Cityscapes、?SYNTHIA、CamVid、?KITTI等。以下是三組使用較多的資料。
2.1 PASCAL VOC2012數(shù)據(jù)集
PASCAL VOC 2012是Pascal系列中被廣泛選用進行語義分割任務的重要數(shù)據(jù)集,深受研究者們的高度評價。該數(shù)據(jù)集涵蓋了三大板塊,訓練板塊收錄了1 464張圖像,驗證板塊收錄了1 449張圖像,測試板塊收錄了1 456張圖像。訓練集規(guī)模進一步擴大,達到?10 582?幅圖像,通過巧妙應用數(shù)據(jù)增強技術(shù)。VOC2012數(shù)據(jù)集涵蓋了人、動物、交通工具和室內(nèi)物品等四大類共20個不同類別的物品和一個可劃分為21個類別的背景類別,未修改圖像(JPG格式),圖像分類分割(PNG格式,特定的物體分割顏色),圖像生成具有不同物體輪廓,隨機填充顏色的圖像物體分類分割(PNG格式)。VOC2012 數(shù)據(jù)集文件中有 5 個文件夾,對應圖像的 XML 信息保存在 Annotations 文件夾中,3個 TXT文件在 ImageSets 文件夾中的 Segmentation 為圖像分割標記圖像, JPEGIMAGES 文件夾用于保存原始圖像。PNG圖像包含在SEGMANTIONCL文件夾中進行圖像分割分類,PNG圖保存在SegmentationObject文件夾中是用于不同物體分割。
2.2 Microsoft COCO數(shù)據(jù)集
在情景理解中,微軟 COCO (Common Objects in Context)是一種十分重要的數(shù)據(jù)集,包含91個不同物體類別的數(shù)據(jù)集,捕捉了復雜背景下的生活場景。COCO數(shù)據(jù)集規(guī)模宏大,從32.8萬張圖像里標注了250萬張以上的實體實例,因而被公認為最龐大的語義分割數(shù)據(jù)集之一。
COCO 數(shù)據(jù)集的獨特之處彰顯在其專注解決圖像場景理解的3個核心問題上:目標分類、目標檢測和場景語義標注。每張 COCO 圖像平均涵蓋了3.5個不同的物體類別和7.7個物體實例,這使得該數(shù)據(jù)集展現(xiàn)出更為多樣和復雜的特性,為深度學習模型提供了更具挑戰(zhàn)性的訓練和評估場景。此外,COCO的評估標準相對嚴格,因此它成為了許多研究者用來評估模型性能和質(zhì)量的首選數(shù)據(jù)集。
2.3 Cityscapes數(shù)據(jù)集
Cityscapes是語義理解中的重要數(shù)據(jù)集,以城市街道的景色為中心。這本資料集的影像來自覆蓋不同季節(jié)城市街景的?50?多個不同城市,也包括良好天氣下的城市。這些圖像涵蓋了繁雜種類的城市場景的布局,和人物,交通工具等動態(tài)對象,是一個復雜且多樣的數(shù)據(jù)集。
Cityscapes數(shù)據(jù)庫有被高質(zhì)量標記的圖片5 000章以上和超過20 000幅粗糙標注的圖像。這些圖像涵蓋了8個主要類別和30個細分類別的語義信息,包括平面、人物、天空、建筑、實體、自然、汽車、虛空八類。這些精細標注的數(shù)據(jù)不僅可用于訓練深度神經(jīng)網(wǎng)絡(luò),還可支持各類任務,如語義分割、實例分割和密集像素預測
3 ?結(jié)語
本文從語義分割任務的概述開始,詳細介紹了傳統(tǒng)的語義分割算法,重點關(guān)注了自2015年以來,隨著卷積神經(jīng)網(wǎng)絡(luò)的引入,出現(xiàn)了一系列新的語義分割方法,探討了最近流行的Transformer在語義分割領(lǐng)域的應用,以及對這些方法的潛在影響,還介紹了3個與語義分割相關(guān)的重要數(shù)據(jù)集,這有助于讀者更全面地了解語義分割領(lǐng)域的數(shù)據(jù)資源。
參考文獻
LONG J ,SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Boston, MA, USA, 2015:3431-3440.
周濤,董雅麗,霍兵強,等. U-Net網(wǎng)絡(luò)醫(yī)學圖像分割應用綜述[J].中國圖象圖形學報,2021,26(9): 2058-2077.
CHEN LC, Papandreou?G, Kokkinos?I,?et al. Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs[J]. IEEE transactions on pattern analysis and machine intelligence, 2018,40(4):834-848.
CHEN?LC, ZHU Y?,Papandreou G,et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[J]. Proceedings of the European conference on computer vision (ECCV). 2018,ECCV(7):801-818.
CHEN Z,DUAN Y C,WANG W H,et al. Vision Transformer Adapter for Dense Predictions[J]. arXiv preprint,2022:arXiv:2205.08534.
YAN H T,ZHANG C,WU M,?Lawin transformer: Improving semantic segmentation transformer with multi-scale representations via large window attention[J]. arXiv preprint,2022:arXiv:2201.01615.
Dosovitskiy A,Beyer L, Kolesnikov?A,?et al. An image is worth 16x16 words: Transformers for image recognition at scale[J]. arXiv preprint arXiv:2010.11929 (2020).