姜斯浩 宋慧慧 張開華 湯潤發(fā)
摘 要:針對復(fù)雜視頻場景中難以分割特定目標的問題,提出一種基于雙重金字塔網(wǎng)絡(luò)(DPN)的視頻目標分割方法。首先,通過調(diào)制網(wǎng)絡(luò)的單向傳遞讓分割模型適應(yīng)特定目標的外觀。具體而言,從給定目標的視覺和空間信息中學(xué)習(xí)一種調(diào)制器,并通過調(diào)制器調(diào)節(jié)分割網(wǎng)絡(luò)的中間層以適應(yīng)特定目標的外觀變化。然后,通過基于不同區(qū)域的上下文聚合的方法,在分割網(wǎng)絡(luò)的最后一層中聚合全局上下文信息。最后,通過橫向連接的自左而右結(jié)構(gòu),在所有尺度中構(gòu)建高階語義特征圖。所提出的視頻目標分割方法是一個可以端到端訓(xùn)練的分割網(wǎng)絡(luò)。大量實驗結(jié)果表明,所提方法在DAVIS2016數(shù)據(jù)集上的性能與較先進的使用在線微調(diào)的方法相比,可達到相競爭的結(jié)果,且在DAVIS2017數(shù)據(jù)集上性能較優(yōu)。
關(guān)鍵詞:視頻目標分割;特征金字塔;卷積神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí);多尺度融合
中圖分類號:?TP391.41
文獻標志碼:A
Video object segmentation method based on dual pyramid network
JIANG Sihao, SONG Huihui*, ZHANG Kaihua, TANG Runfa
Jiangsu Key Laboratory of Big Data Analysis Technology (Nanjing University of Information Science and Technology), Nanjing Jiangsu 210044, China
Abstract:?Focusing on the issue that it is difficult to segment a specific object in a complex video scene, a video object segmentation method based on Dual Pyramid Network (DPN) was proposed. Firstly, the one-way transmission of modulating network was used to make the segmentation model adapt to the appearance of a specific object, which means, a modulator was learned based on visual and spatial information of target object to modulate the intermediate layers of segmentation network to make the network adapt to the appearance changes of specific object. Secondly, global context information was aggregated in the last layer of segmentation network by different-region-based context aggregation method. Finally, a left-to-right architecture with lateral connections was developed for building high-level semantic feature maps at all scales. The proposed video object segmentation method is a network which is able to be trained end-to-end. Extensive experimental results show that the proposed method achieves results which can be competitive to the results of the state-of-the-art methods using online fine-tuning on DAVIS2016 dataset, and outperforms other methods on DAVIS2017 dataset.
Key words:?video object segmentation; feature pyramid; Convolutional Neural Network (CNN); deep learning; multi-scale fusion
0 引言
視頻目標分割是從視頻序列中分離出前景目標,這是視頻分析和編輯中最重要的任務(wù)之一。盡管在許多情況下目標的刻畫和跟蹤對人類來說似乎微不足道,但由于視頻中存在運動模糊、混亂背景以及遮擋等情況,因此導(dǎo)致視頻目標分割仍然非常具有挑戰(zhàn)性。
近期深度網(wǎng)絡(luò)有效解決了上述問題,主要包含無監(jiān)督和半監(jiān)督兩類。無監(jiān)督分割旨在以全自動方式分割前景目標而無需用戶標注[1]。信息的主要來源包括視覺顯著性和運動差異(例如光流[2]和長期軌跡[3])。本文提出的方法屬于半監(jiān)督視頻目標分割,所以本文重點介紹半監(jiān)督分割方法。
基于傳播的視頻目標分割[4-5]是一類常見的半監(jiān)督分割算法。傳統(tǒng)視頻分割方法始于粗略地指定感興趣目標的標注(例如分割掩碼或關(guān)鍵幀處的涂鴉),并且通常在整個視頻序列中使用圖形表示[4]來傳播這些稀疏標簽。最近流行的方法是通過深度學(xué)習(xí)(deep learning)[6]在視頻中進行標簽傳播;Jampani等[7]提出了一個用于時空密集濾波的時間雙邊網(wǎng)絡(luò);Perazzi等[5]只通過靜態(tài)圖像訓(xùn)練一個深度網(wǎng)絡(luò)來細化前一幀掩碼,并且在測試中使用測試視頻的第一幀來記憶目標的外觀(即在線微調(diào)),從而提升了性能;Khoreva等[8]通過大量數(shù)據(jù)增強策略來實現(xiàn)更高的分割精度。
另外一類半監(jiān)督分割算法是基于檢測的視頻目標分割[9-11]。Caelles等[9]首先利用了一次在線微調(diào),在測試過程中對已離線訓(xùn)練的模型再次進行微調(diào),并使用微調(diào)后的網(wǎng)絡(luò)作為測試模型,從而提高了分割性能;Maninis等[10]通過結(jié)合來自輔助實例分割網(wǎng)絡(luò)[12]的額外信息擴展了文獻[9]的想法;Voigtlaender等[13]通過采用源于框級跟蹤的在線自適應(yīng)機制,進一步拓展了文獻[9]的想法。
在上述兩類方法中大多數(shù)都采用在線微調(diào)。具體來說,讓預(yù)先訓(xùn)練的深度網(wǎng)絡(luò)在測試視頻上進行了微調(diào),從而讓網(wǎng)絡(luò)適應(yīng)目標的外觀變化來提高分割的準確性[5,8-11,13-14],但高昂的計算代價限制了它的實際使用。
針對上述問題,本文設(shè)計了一種用于半監(jiān)督視頻目標分割的雙重金字塔網(wǎng)絡(luò)(Dual Pyramid Network, DPN)。如圖1所示,本文首先利用調(diào)制模塊生成調(diào)制參數(shù),從而讓分割網(wǎng)絡(luò)聚焦到給定目標的位置;然后,通過金字塔池化模塊聚合不同區(qū)域的上下文信息;最后,通過金字塔卷積模塊將高層語義特征融入到底層特征中。大量實驗結(jié)果表明,本文所提方法可以在不加入在線微調(diào)(fine-tuning)以保證效率的前提下獲得相對優(yōu)異的性能,同時加入在線微調(diào)可進一步提高分割精度。
1 基于雙重金字塔網(wǎng)絡(luò)的視頻目標分割
本文所提出的基于雙重金字塔網(wǎng)絡(luò)的視頻目標分割方法主要包括三個部分:調(diào)制模塊(Modulation Module)、金字塔池化模塊(Pyramid Pooling Module)和金字塔卷積模塊(Pyramid Convolution Module)。具體網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
1.1 調(diào)制模塊
調(diào)制模塊采用OSMN[15]的結(jié)構(gòu),主要由三個部分組成:分割網(wǎng)絡(luò)(Segmentation Network)、視覺調(diào)制器(Visual Modulator)和空間調(diào)制器(Spatial Modulator),具體結(jié)構(gòu)如圖
2(a)所示。
分割網(wǎng)絡(luò)是基于VGG16[16]的全卷積網(wǎng)絡(luò),且在除了VGG16的前四層外的所有卷積層中添加調(diào)制操作,具體的調(diào)制過程和參數(shù)如下:
視覺調(diào)制器用于使分割網(wǎng)絡(luò)適應(yīng)給定目標的外觀,從給定注釋幀中提取語義信息,例如,類別、顏色、形狀和紋理,并且生成對應(yīng)通道的尺度參數(shù)以調(diào)整特征圖中不同通道的權(quán)重,從而在分割網(wǎng)絡(luò)中重新定位給定目標的位置[14]。本文使用VGG16神經(jīng)網(wǎng)絡(luò)作為視覺調(diào)制器模型將第一幀圖片圍繞目標裁剪為224×224像素大小作為輸入,并且修改最后一層用于分類的層,以匹配分割網(wǎng)絡(luò)調(diào)制層中的參數(shù)數(shù)目。所有視覺調(diào)制參數(shù)都與特征圖相乘,具體表達式如式(1)所示。
空間調(diào)制器生成像素級偏移參數(shù),目的是為了在目標對象的位置上提供粗略的先驗信息,其作用類似于空間注意機制[17]。本文先在前一幀的預(yù)測掩碼上生成二維熱圖,從而獲得目標位置的粗略估計,再將其作為空間調(diào)制器的輸入。為了匹配分割網(wǎng)絡(luò)中不同特征圖的分辨率,空間調(diào)制器將二維熱圖下采樣為不同的尺度,進而獲得對應(yīng)于每個卷積層的空間位移參數(shù)??臻g調(diào)制參數(shù)與相應(yīng)層的特征圖相加,其表達式如下所示:
F c=γc⊙ f c+ β c
(1)
其中:γc和 β c分別表示視覺調(diào)制器和空間調(diào)制器生成的參數(shù),γc是一個對應(yīng)于通道權(quán)重的標量, β c是一個對應(yīng)于像素偏移的兩維矩陣; f c和 F c分別表示第c個通道的輸入和輸出特征圖;⊙表示對應(yīng)元素點乘。
1.2 金字塔池化模塊
金字塔池化模塊通過不同區(qū)域的上下文聚合來達到獲取全局信息的目的,其結(jié)構(gòu)如圖2(c)所示。與U-Net[18]的不同之處在于,本文將分割網(wǎng)絡(luò)的最后一層特征圖作為金字塔池化模塊的輸入,并分別進行4種不同金字塔尺度的池化(pool)來提取不同感受野(receptive field)的信息。本文使用的池化核大小根據(jù)輸入特征圖的分辨率分別設(shè)置為30×30、15×15、10×10、5×5。為了保證全局特征的權(quán)重,本文在每個池化后的特征圖后面使用1×1的卷積將其通道降為原來的1/4,再通過雙線性插值將不同的金字塔尺度恢復(fù)到未池化前的分辨率大小,并與原輸入特征圖進行串聯(lián)(concat)操作。由于該模塊聚合了不同區(qū)域的上下文信息,有效實現(xiàn)了獲取全局信息的目的,因此,能進一步提高網(wǎng)絡(luò)的分割性能。
1.3 金字塔卷積模塊
全卷積網(wǎng)絡(luò)的底層特征具有高分辨率特性,而高層特征則具有大感受野和強語義的特性,兩者對于準確分割目標都具有重要作用。本文通過橫向連接的自左而右的結(jié)構(gòu),將高層的強語義信息與底層特征融合,從而構(gòu)成金字塔卷積模塊,具體結(jié)構(gòu)如圖2(b)所示。具體來說,本文對高層的特征圖進行上采樣操作,將其空間分辨率放大兩倍,同時底層特征圖經(jīng)過1×1卷積層,讓其通道數(shù)和高層特征圖的通道數(shù)相同,再將兩者進行像素相加操作。由于輸出分割圖的通道數(shù)為1,顯然直接將大通道數(shù)降為1會損失很多信息從而影響網(wǎng)絡(luò)的分割性能,所以本文通過1×1卷積層將其通道數(shù)降為16后再直接上采樣到原圖大小。最后,金字塔卷積模塊融合第2、3、4、5層上采樣到原圖大小的特征圖,再經(jīng)過一次卷積得到最終的目標分割圖。與U-Net[18]的不同之處在于,該模塊的預(yù)測目標掩碼需要融合4層上采樣到原圖大小的特征信息,而U-Net[18]只在最后一層提取特征信息,然后直接得到預(yù)測目標掩碼。該模塊一方面通過高分辨率特征圖使得網(wǎng)絡(luò)更加關(guān)注小目標的信息,另一方面通過融合多尺度信息使得網(wǎng)絡(luò)能夠更有效地應(yīng)對目標外觀的變化。
由于前景和背景像素個數(shù)的不均衡性,本文使用加權(quán)的交叉熵損失函數(shù)[9,15]來處理這種像素個數(shù)不均衡問題,其表達式如下所示:
L(θ)= -w∑ i, j∈Y+ lnP(yij=1;θ)-(1-w)∑ i, j∈Y- lnP(yij=0;θ)
2)金字塔卷積模塊雖然在單目標分割的任務(wù)中效果甚微,但在多目標分割的任務(wù)中有效彌補了金字塔池化模塊的不足,mIoU提高了2個百分點。這表明將高層語義信息逐步融合到底層特征中能夠有效彌補底層邊緣紋理信息中語義信息的缺失,從而進一步提高了多目標的分割性能。
為了證明金字塔卷積模塊中如何更有效地對高層和底層特征進行融合,本文分別對U-Net[18]中的串聯(lián)操作以及文獻[23]中的像素相加操作進行了實驗。通過在DAVIS2016數(shù)據(jù)集測試的對比結(jié)果發(fā)現(xiàn),利用串聯(lián)操作的方法精度只有74.9%,而利用像素相加操作的方法精度可達到77.8%,像素相加操作更能提高本文算法的分割精度。這表明在“編碼 解碼”(encoder-decoder)過程中,像素相加操作更能有效關(guān)聯(lián)上下文的語義信息,更有利于提高小目標的檢測效果。
2.5 定性結(jié)果
在圖3中,本文展示了所提出的方法在外觀變化(圖3(a))、動態(tài)背景(圖3(b))、快速運動(圖3(c))、運動模糊(圖3(d))、遮擋(圖3(e))以及在kite-surf序列(圖3(f))上測試的效果圖。部分遮擋的情況下只需要分割未被遮擋目標部分,雜亂背景的情況下需要將目標與背景中相似目標分離,運動模糊的情況下需要對模糊的目標部位進行更加細致的分割。本文算法在以上情況下都能準確地分割出給定目標,尤其在kite-surf序列中,可以較為準確地分割出圖中的小目標。從圖3(d)中可以看到,小目標的分割圖與真實標簽仍存在一些差距,如何更加充分地利用局部信息(比如感興趣區(qū)域中的一些關(guān)鍵特征點)和全局信息(比如感興趣區(qū)域中的類別、顏色和紋理等語義信息)將是接下來的研究方向之一。
3 結(jié)語
針對多目標分割任務(wù)以及難以分割小目標的問題,本文提出了一種基于雙重金字塔網(wǎng)絡(luò)的半監(jiān)督視頻目標分割方法。改進后的視頻目標分割方法可以通過調(diào)制模塊來適應(yīng)給定目標的外觀;然后,金字塔池化模塊聚合不同區(qū)域的上下文從而提高獲取全局信息的能力;最后,金字塔卷積模塊將高層強語義信息與底層特征融合,從而進一步提高了分割的準確性。本文所提出的方法加入在線微調(diào)后可以在視頻目標分割的標準數(shù)據(jù)集上獲得可競爭的結(jié)果,同時也基本適用于要求快速和準確的半監(jiān)督視頻目標分割任務(wù)中。
參考文獻
[1]?李雪君,張開華,宋慧慧.融合時空多特征表示的無監(jiān)督視頻分割算法[J].計算機應(yīng)用,2017,37(11):3134-3138. (LI X J, ZHANG K H, SONG H H. Unsupervised video segmentation by fusing multiple spatio-temporal feature representations [J]. Journal of Computer Applications, 2017, 37(11): 3134-3138.)
[2]?TOKMAKOV P, ALAHARI K, SCHMID C. Learning motion patterns in videos [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2017: 531-539.
[3]?BROX T, MALIK J. Object segmentation by long term analysis of point trajectories [C]// Proceedings of the 2010 European Conference on Computer Vision, LNCS 6315. Berlin: Springer, 2010: 282-295.
[4]?MARKI N, PERAZZI F, WANG O, et al. Bilateral space video segmentation [C]// Proceedings of the 2016 Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 743-751.
[5]?PERAZZI F, KHOREVA A, BENENSON R, et al. Learning video object segmentation from static images [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2017: 3491-3500.
[6]?周志華.機器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016:73-92. (ZHOU Z H. Machine Learning [M]. Beijing: Tsinghua University Press, 2016: 73-92.)
[7]?JAMPANI V, GADDE R, GEHLER P V. Video propagation networks [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2017: 451-461.
[8]???KHOREVA A, BENENSON R, ILG E, et al. Lucid data dreaming for object tracking [C/OL]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017 [2018-10-20]. https://arxiv.org/pdf/1703.09554.pdf.
[9]?CAELLES S, MANINIS K K, PONTTUSET J, et al. One-shot video object segmentation [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2017: 5320-5329.
[10]?MANINIS K K, CAELLES S, CHEN Y, et al. Video object segmentation without temporal information [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(6): 1515-1530.
[11]?YOON J S, RAMEAU F, KIM J, et al. Pixel-level matching for video object segmentation using convolutional neural networks [C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2017: 2186-2195.
[12]?LI Y, QI H, DAI J, et al. Fully convolutional instance-aware semantic segmentation [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2017: 4438-4446.
[13]?VOIGTLAENDER P, LEIBE B. Online adaptation of convolutional neural networks for video object segmentation [C/OL]// Proceedings of the 2017 British Machine Vision Conference. Piscataway, NJ: IEEE, 2017[2018-09-25]. https://arxiv.org/pdf/1706.09364.pdf.
[14]?HU Y T, HUANG J B, SCHWING A G. MaskRNN: instance level video object segmentation [C]// Proceedings of the 2017 Neural Information Processing Systems. Berkeley, CA: USENIX, 2017: 325-334.
[15]?YANG L, WANG Y, XIONG X, et al. Efficient video object segmentation via network modulation [C]// Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 6499-6507.
[16]?SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [J]. arXiv E-print, 2014: 1409.1556.
[17]?STOLLENGA M, MASCI J, GOMEZ F, et al. Deep networks with internal selective attention through feedback connections [C]// Proceedings of the 27th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014: 3545-3553.
[18]?RONNEBERGER O, FISCHER P, BROX T. U-Net: convolutional networks for biomedical image segmentation [C]// Proceedings of the 2015 International Conference on Medical Image Computing and Computer-Assisted Intervention, LNCS 9351. Cham: Springer, 2015: 234-241.
[19]??LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: ?common objects in context [C]// Proceedings of the 2014 European Conference on Computer Vision, LNCS 8693. Cham: Springer, 2014: 740-755.
[20]?PERAZZI F, PONT-TUSET J, McWILLIAMS B, et al. A benchmark dataset and evaluation methodology for video object segmentation [C] // Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 724-732.
[21]?BAO L, WU B, LIU W. CNN in MRF: video object segmentation via inference in a CNN-based higher-order spatio-temporal MRF [C]// Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 5977-5986.
[22]??PONT-TUSET J, PERAZZI F, CAELLES S, et al. The 2017 ?DAVIS challenge on video object segmentation [J]. arXiv E-print, 2017: 1704.00675.
[23]?LIN T Y, DOLLáR P, GIRSHICK R, et al. Feature pyramid networks for object detection [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 2117-2125.