薛程, 葉少珍, 2
(1. 福州大學(xué)數(shù)學(xué)與計算機科學(xué)學(xué)院, 福建 福州 350108; 2. 福州大學(xué)智能制造仿真研究院, 福建 福州 350108)
圖像理解是圖像分割中重要處理環(huán)節(jié), 將有助于促進自動駕駛、 機器人和增強現(xiàn)實等技術(shù)的實際應(yīng)用. 在深度學(xué)習(xí)技術(shù)應(yīng)用之前, 圖像解析、 場景解析和全圖像理解等已經(jīng)得到一定的發(fā)展, 隨著深度學(xué)習(xí)在語義分割和實例分割的應(yīng)用, 文獻[1]將其命名為全景分割(panoptic segmentation, PS), 將圖像內(nèi)容分為Stuff不可數(shù)語義類(例如草地、 天空、 道路)和Things可數(shù)實例類(例如人、 交通工具), 任務(wù)的目的是為圖像中每一個像素分配語義分類標簽和實例ID. 在Things實例類中, 實例ID用于區(qū)分每一個目標, 因此其對于Stuff語義類來說是非必需的, 但是分類標簽對于Stuff語義類和Things實例類是必需的. 所以, 對于同一個實例的像素擁有相同的實例ID. 目前, 主流研究方法為: 選取一個主干網(wǎng)絡(luò)進行特征提取, 然后將特征圖分別輸入到語義分割分支和實例分割分支中, 實現(xiàn)共享特征, 最后經(jīng)過一個啟發(fā)式策略將兩者的輸出進行合并. 但其仍存在兩大問題, 一是語義分割結(jié)果和實例分割結(jié)果的重疊沖突, 二是實例分割中出現(xiàn)的重疊沖突. 全景分割任務(wù)包含了傳統(tǒng)的兩大任務(wù): 語義分割和實例分割. 其中語義分割是全圖像每一個像素的分類, 包括了Stuff語義類和Things實例類, 無法分割出具體的實例. 實例分割, 關(guān)注于Things實例類的檢測和分割, 并沒有對Stuff語義類進行檢測和分割. 本研究在原有全景分割網(wǎng)絡(luò)的基礎(chǔ)上通過改動卷積結(jié)構(gòu)以及增添新的卷積模塊分別提高了AP評價指標和mIoU評價指標.
在常用的Cityscapes數(shù)據(jù)集上, 人工對一張圖片進行像素級的標簽注釋需要較長的時間, 如何在全景分割標注數(shù)據(jù)不夠的情況下完成全景分割任務(wù), 文獻[2]提出使用弱監(jiān)督的方法, 利用弱邊框和圖像級別的分類標簽來減少標注數(shù)據(jù)少引起的問題. 針對實現(xiàn)全景分割落地, 埃因霍芬理工大學(xué)團隊嘗試了端到端的方法[3], 提出了JSISNet, 將語義分支和實例分支的損失函數(shù)合并, 從而達到聯(lián)合訓(xùn)練, 實現(xiàn)端到端的方法. TASCNet采用從共享的骨干網(wǎng)提取特征圖, 在實例分支使用基于候選區(qū)域的方法Mask R-CNN[4]完成Things類的分割并生成Things類的二進制掩碼, 語義分支使用一系列的卷積和上采樣操作完成Stuff類的分割, 以及生成Things類的二進制掩碼, 通過與實例分支的Things二進制掩碼和語義分支的Things二進制掩碼的互補, 最終將實例分支的輸出、 二進制掩碼的輸出及語義分支的輸出進行融合, 輸出最終的全景分割結(jié)果, 實現(xiàn)了Things和Stuff類的一致性. 文獻[5]根據(jù)語義分割和實例分割存在上下文信息聯(lián)系, 提出了AUNet, 利用前景上下文信息來提高背景Stuff分割的效果. 由于之前的一些全景分割的工作使用單獨和不同的網(wǎng)絡(luò)進行實例和語義分割, 而沒有進行任何共享計算, PanopticFPN[6]致力于為全景分割任務(wù)提供一個良好的基線, 認為全景分割旨在架構(gòu)級別上統(tǒng)一這些方法, 應(yīng)該為語義分割和實例分割設(shè)計一個單一完整的網(wǎng)絡(luò). 通過使用共享的特征金字塔網(wǎng)絡(luò)獲取特征圖, 為實例分支Mask R-CNN賦予語義分割分支FCN[7]來完成分割. UPSNet[8]遵循以往的做法, 使用ResNet[9]的FPN[10]作為共享骨干網(wǎng)來提取特征圖, 實例分支基本使用Mask R-CNN, 使用可變形網(wǎng)絡(luò)的子網(wǎng)絡(luò)輸出語義分支的結(jié)果, 根據(jù)PQ的計算方式, 創(chuàng)新地引入一個未知類, 當(dāng)對某一個像素預(yù)測沖突時, 將其置為未知類, 既解決了語義分割結(jié)果和實例分割結(jié)果的沖突, 也提高了PQ評價, 在全景頭中, 通過使用實例分割結(jié)果修正語義分割結(jié)果的方式來融合兩個分支結(jié)果進行全景預(yù)測. UPSNet算法比之前的算法在PQ評價指標和推理速度上都有進一步的提高, 使用的語義分支更加輕量, 但是UPSNet算法對細長物體的分割效果較差(例如電線桿), 未知類的引入雖然解決了沖突, 但是對于沖突像素點的分類預(yù)測有一定的失誤.
綜上所述, 對于解決全景分割任務(wù), 主要在于建立一個統(tǒng)一完整的網(wǎng)絡(luò)架構(gòu), 直接實現(xiàn)對每一個像素點的分類標簽和實例類的實例ID的預(yù)測, 在現(xiàn)有大多數(shù)框架中, 采用方法主要是提取一個共享特征, 分別對語義分割和實例分割進行預(yù)測, 最后將兩者的預(yù)測結(jié)果進行融合, 雖然這類方法不同于PS中提出的實現(xiàn)一種統(tǒng)一完整的網(wǎng)絡(luò)框架, 但是在一定程度上能夠解決全景分割任務(wù).
從UPSNet結(jié)構(gòu)改進出發(fā), 針對實例分支定位和語義分支分割存在的兩個問題, 首先提出在特征金字塔殘差網(wǎng)絡(luò)中添加一條自底向上的定位信息增強路徑, 其次在語義分支中添加一個并行的四個克羅內(nèi)克卷積, 實現(xiàn)對語義和實例分支效果的提升.
圖1 本研究改進算法框架模型Fig.1 The algorithm framework model of the paper
圖2 自底向上和橫向連接的結(jié)合Fig.2 Combination of bottom-up and lateral connections
本研究提出了如圖2所示的自底向上的操作. 在圖像分割以及目標檢測領(lǐng)域使用多尺度特征表示往往有更好的效果, 傳統(tǒng)特征金字塔網(wǎng)絡(luò)是一種通用的多尺度信息特征提取器, 因為高層神經(jīng)元對整個物體有強烈的反應(yīng), 而其他神經(jīng)元更容易被局部紋理和模式激活, 所以需要添加一條自頂向下的路徑來傳播語義上強大的特征. 通過在所有尺度上構(gòu)建高層語義特征圖, 使用一種通用的用于圖像分類的模型, 例如ResNet, 在分類模型中, 通過自頂向下和橫向連接, 將特征層次中的兩個相鄰層依次組合, 建立特征金字塔. 對語義強但分辨率低的高層次特征自頂向下進行上采樣, 并與高分辨率低層特征相結(jié)合, 生成高分辨率和語義強的特征表示. 但是語義強的高層特征缺少更多的低層的物理特征, 而信息在神經(jīng)網(wǎng)絡(luò)中傳播的方式是重要的, 低層物理特征能夠促進實例物體定位到更準確的位置. 在此方面, 用于實例分割的PANet[11]在自頂向下后的特征圖后面添加一條自底向上的路徑增強模塊, 其模仿了傳統(tǒng)特征金字塔的橫向連接, 通過和自底向上的特征進行結(jié)合, 輸出最終特征圖, 這樣在較低層次上用精確的定位信號增強整個特征層次, 縮短了低層和高層的信息路徑.
圖3 自底向上和自頂向下的結(jié)合Fig.3 A combination of bottom-up and top-down
鑒于低層定位信息對于實例分支中實例定位的重要性, 結(jié)合傳統(tǒng)特征金字塔網(wǎng)絡(luò), 使用ResNet分類模型, 在ResNet的卷積過程中, 額外添加一條自底向上的路徑, 對每一層先進行下采樣, 再與原來的特征圖橫向連接進行相加結(jié)合, 一層層將低層信息傳播到最高層, 產(chǎn)生了{PL2,PL3,PL4,PL5}特征圖; 然后, 再與傳統(tǒng)特征金字塔的自頂向下的{PR2,PR3,PR4,PR5}特征圖結(jié)合, 結(jié)合方法如圖3所示; 最后再通過一個3×3卷積輸出最后的{P2,P3,P4,P5}多尺度特征圖, 從而實現(xiàn)將低層定位信息傳播到高層語義信息強的特征圖中, 彌補了高層特征表示缺乏低層定位信息的缺點, 使共享主干網(wǎng)的特征輸出更適合之后的實例分支.
本研究提出了如圖2所示的自底向上的操作. 而在圖像分割領(lǐng)域中, 感受野對于圖像分割精度的好壞是一個重要的因素, 而通常情況下是使用標準卷積再加上池化操作來增大感受野, 但是減小了特征圖尺寸. 由于圖像分割是逐像素預(yù)測, 所以在進行預(yù)測時, 需要在尺寸較小的特征圖上采樣至原始大小尺寸, 這個過程經(jīng)歷了將圖片尺寸縮小再放大, 會導(dǎo)致丟失信息. 擴張卷積實現(xiàn)了在增大感受野的同時, 不會縮小圖像尺寸, 并且設(shè)置不同的擴張率的擴張卷積一起使用, 可以捕獲多尺度上下文信息, 但會受到棋盤問題的影響, 導(dǎo)致丟失了局部信息. 因此在設(shè)置不同擴張卷積時, 可以滿足兩個特性, 一是疊加擴張卷積的擴張率不能有大于1的公約數(shù), 二是將擴張率設(shè)計成鋸齒狀結(jié)構(gòu).
由于擴張卷積會導(dǎo)致局部信息的丟失, 所以引入了克羅內(nèi)克卷積[12], 使得在卷積的過程中能夠捕獲局部信息, 并且不會增加參數(shù), 網(wǎng)絡(luò)不會更加復(fù)雜, 克羅內(nèi)克卷積通過兩個因子來調(diào)節(jié)大小, 分別是內(nèi)部膨脹因子和內(nèi)部共享因子. 內(nèi)部膨脹因子控制克羅內(nèi)克卷積擴張率, 而內(nèi)部共享因子控制用于捕獲局部信息子區(qū)域的大小. 也就是說, 克羅內(nèi)克卷積不僅繼承了擴張卷積的優(yōu)點, 而且還克服了擴張卷積會丟失局部信息的缺點. 通過一個有效特征比(valid feature ratio, VFR)來對比克羅內(nèi)克卷積和擴張卷積, 從而驗證克羅內(nèi)克卷積可以捕獲局部信息, 發(fā)現(xiàn)克羅內(nèi)克卷積的有效特征比較高. VFR用來計算所涉及的特征向量數(shù)與卷積塊中所有特征向量數(shù)之比.
克羅內(nèi)克卷積的數(shù)學(xué)理論基礎(chǔ)是克羅內(nèi)克積, 使用一個內(nèi)部膨脹因子大小r1×r1的方陣與原始核進行克羅內(nèi)克積, 使得原始核大小可以擴展到原來的r1倍.為了避免額外帶來參數(shù), 可以將r1×r1的方陣設(shè)計為一個全1矩陣和零矩陣的結(jié)合, 而全1矩陣的大小可以設(shè)置為內(nèi)部共享因子的大小為r2的方陣.
克羅內(nèi)克積公式如下:
(1)
其中,A是一個m×n的矩陣;B是一個r×s的矩陣.則克羅內(nèi)克卷積公式可以表述為:
(2)
這里,cout∈[1,coutput]∩Z,cin∈[1,cinput]∩Z;K′是經(jīng)過克羅內(nèi)克積后的克羅內(nèi)克卷積核;K是原始卷積核.令每一個通道上的特征矩陣定義為M, 克羅內(nèi)克卷積核K′映射到M中的中心坐標是(p,q), 則可以定義特征矩陣M中參與計算的區(qū)域矩陣為S.以上可以推出參與計算的坐標為: (p+ir1+u,q+jr1+v), 其中i,j∈[-k,k]∩Z,u,v∈[0,r2-1]∩Z, 那么在每一個通道上的克羅內(nèi)克卷積操作可以表示為:
(3)
由上述公式可知, 當(dāng)r1≥1,r2=1時, 克羅內(nèi)克卷積退化為擴張卷積, 當(dāng)r1=r2=1時, 克羅內(nèi)克卷積退化為標準卷積.
本研究使用四個克羅內(nèi)克卷積, 將多尺度特征分別輸入到克羅內(nèi)克卷積網(wǎng)絡(luò)中, 得到的輸出與可變形卷積網(wǎng)絡(luò)的輸出進行融合, 接著上采樣拼接, 輸入到1×1卷積中進行語義類別預(yù)測.
Cityscapes城市街道場景數(shù)據(jù)集, 主要提供無人駕駛環(huán)境下的圖像分割數(shù)據(jù), 用于評估算法在城區(qū)場景語義理解方面的性能: 像素級、 實例級和全景語義標注. 該數(shù)據(jù)集中所有圖片來自于50個不同城市春、 夏、 秋的街道場景, 每一張圖片的分辨率都是1 024 px×2 048 px, 并且還包含了5 000個精細標注的圖片和20 000個粗糙標注的圖片, 圖像中物的類別來自于30種語義類, 其中19個常用類用于語義分割的基準評估. 這些圖像分為8大類: 平面、 人、 交通工具、 建筑、 小物體、 自然、 天空、 空類. 5 000個精細標注的圖片分為了三個文件, 分別是包含2 975張圖片的訓(xùn)練集文件、 包含1 525張圖片的測試集文件和包含500張圖片的驗證集文件. 部分示例圖像如圖4所示:
(a) 示例1 (b) 示例2 (c) 示例3圖4 Cityscapes數(shù)據(jù)集示例Fig.4 Cityscapes dataset example
實驗使用ResNet-50作為共享主干網(wǎng)低層信息增強特征金字塔網(wǎng)絡(luò)的圖像分類模型, 學(xué)習(xí)率為0.005, 動量為0.9, 優(yōu)化器為SGD, 歸一化方法使用組歸一化, 訓(xùn)練輪數(shù)為48 000, GPU使用NVIDIA GeForce GTX 1080Ti.
為了對全景分割方法性能進行客觀評價, 采用PQ、 AP和mIoU作為本研究提出的全景分割方法效果的衡量指標. 其中, PQ是由RQ和SQ的乘積而來; RQ是在檢測中應(yīng)用廣泛的F1 score, 用來計算全景分割中每一個實例物體識別的準確性; SQ表示匹配后的預(yù)測分割和標注分割的mIoU, 當(dāng)預(yù)測分割和標注分割的IoU嚴格大于0.5, 則表示預(yù)測的分割和標注的分割匹配. PQ的計算式如下所示:
(4)
AP指標是實例分割常用的評價指標, 指的是實例的平均精度, 是PR曲線和坐標所圍成的面積:
(5)
mIoU指標是語義分割廣泛使用的評價指標, 指的是每一個類的預(yù)測分割和標注分割的交并比再取平均. mIoU 表示分割結(jié)果與原始圖像真值的重合程度.
(6)
從表1的對比結(jié)果可以看出, 在評估實例分支的AP指標和語義分支的mIoU指標相對于UPSNet有了更進一步的提升, 但是反而降低了PQ指標, 說明UPSNet的全景頭融合方法還存在一定的缺陷, 需要更好地解決兩個分支在融合時產(chǎn)生的沖突問題.
表1 在Cityscapes 驗證集上的對比結(jié)果
從圖5的UPSNet方法的全景分割結(jié)果圖片中看出, 在遠處的語義類和實例類顏色相近的實例類像素點會被分配為語義類, 從而有的實例會直接消失, 并且在細節(jié)的刻畫上, 會導(dǎo)致很多的凹凸不平, 使得分割出來的物體不夠有線條性. 在第一行圖片中, 本研究方法的草地分割更加準確并且更加平滑; 第二行圖片中, UPSNet方法中右邊墻面沒有分割出來, 而本研究方法分割出了一部分; 第三行圖片中, 在UPSNet方法中中間拿著包的人的手臂出現(xiàn)了斷續(xù), 本研究方法完好地分割出來; 第四行圖片中, 本研究方法對于UPSNet方法在分割道路時更接近于標注圖片.
(a) 原圖 (b) GroundTruth (c) UPSNet方法 (d) 本研究方法圖5 本研究方法與UPSNet在Cityscapes上的全景分割效果對比Fig.5 Comparison of panoramic segmentation effect between UPSNet and our method on Cityscapes
為了提高語義分支和實例分支的分割能力, 設(shè)計了一個新型的基于多尺度定位信息增強的全景分割模型, 其能夠有效增強分割能力主要源于兩方面.
1) 多尺度定位信息增強特征. 根據(jù)傳統(tǒng)特征金字塔網(wǎng)絡(luò)的高層特征缺乏低層物理特征的缺點, 在傳統(tǒng)特征金字塔網(wǎng)絡(luò)的另一邊添加一條自底向上的路徑, 增強了高層特征的定位信息.
2) 克羅內(nèi)克卷積組. 在語義分支中添加四個克羅內(nèi)克卷積分別對應(yīng)四個多尺度特征, 增大了此時的多尺度特征的感受野, 并且防止了特征的局部信息丟失.
針對UPSNet的不足進行了改進, 在Cityscapes公開數(shù)據(jù)集上進行了多組多種方法的對比實驗, 實驗結(jié)果表明了本研究方法相對于UPSNet在語義分支和實例分支中的效果更好. 此外, 未來的工作將進一步研究全景頭中語義分支結(jié)果和實例分支結(jié)果的融合方法以及語義分支和實例分支之間的相關(guān)性, 探索出更好的融合方法以提高整體的分割能力.