深淺層表示融合的半監(jiān)督視頻目標分割

2022-12-18 08:11:28宋慧慧樊佳慶

計算機應用 2022年12期

呂瀟，宋慧慧，樊佳慶

（1.江蘇省大數據分析技術重點實驗室（南京信息工程大學），南京 210044；2.江蘇省大氣環(huán)境與裝備技術協同創(chuàng)新中心（南京信息工程大學），南京 210044）

0 引言

視頻目標分割一般指半監(jiān)督視頻目標分割，就是給定視頻中第一幀特定物體的精確分割結果，然后在后續(xù)幀中準確地對目標進行分割。半監(jiān)督視頻目標分割是計算機視覺中的一項重要任務，在動作識別［1-2］、自動駕駛［3-4］、視頻編輯［5］中有著廣闊的應用前景。但視頻中往往都伴隨著目標物體的外觀變化，也會含有與目標物體相似的背景物體，因此對視頻中目標物體進行準確的分割是一項充滿挑戰(zhàn)性的任務。而隨著深度學習的興起與發(fā)展，半監(jiān)督視頻目標分割領域涌現出大量優(yōu)秀的算法，推動了半監(jiān)督視頻目標分割的發(fā)展。

為了實現對視頻中目標的準確分割，多種算法從不同的方面進行了嘗試。文獻［6-9］中的算法利用第一幀給定的掩膜對分割網絡進行微調來學習特定目標的外觀特征。文獻［10］中的算法則是在此基礎上進行了擴展，通過在后續(xù)視頻幀上進行額外的微調來學習目標外觀特征。微調操作使得上述算法在視頻目標分割數據集上獲得了非常不錯的效果，但與此同時微調導致計算成本過高，算法運行時間過長，難以滿足實時性的要求。另外，微調導致網絡容易過擬合，當目標發(fā)生形變或者場景中出現與目標相似的物體時，算法性能就會受到很大的影響。

文獻［5，11-13］中的算法通過幀與幀之間的特征關聯［5］以及特征匹配［11-13］來設計整個網絡，從對應于初始位置目標標簽的特征構造外觀模型，然后使用經典聚類方法或特征匹配啟發(fā)的技術對輸入幀中的特征進行分類，進一步提高分割精度。這些方法不需要計算成本相當高昂的在線微調，但是由于特征匹配效率并不高，因此雖然精度有所提高，但速度卻大打折扣。視頻目標跟蹤［14］與分割存在一定的聯系，視頻目標分割實際可以看作目標在像素級別上的跟蹤。文獻［15］中的算法通過在文獻［16］中的算法上添加一個分割分支來縮小跟蹤與分割之間的差距，該算法的運行速度相較于之前的算法更快，在DAVIS 數據集［17-18］上取得了不錯的結果。文獻［19］中利用已有的跟蹤器，在視頻中先對目標進行跟蹤，將跟蹤到的物體從視頻幀中分離開來進行更加精確的分割操作。這一類的算法在速度方面相較于微調以及特征匹配的算法具有明顯的優(yōu)勢，但是，此類算法的分割精度在很大程度上取決于跟蹤效果，如果跟蹤效果不佳，那么分割結果必然也會受到很大的影響。

學習快速魯棒目標模型的視頻目標分割（learning Fast and Robust Target Models for video object segmentation，FRTM）算法［20］利用預生成的粗糙分割掩膜作為引導信息得到更精確的分割圖像。該算法在速度與精度方面均取得了不錯的效果，但對粗糙掩膜的利用比較簡單，因此也存在較大的提升空間。

針對以上算法存在的不足，本文提出了一種深淺層表示融合的半監(jiān)督視頻目標分割算法。該算法通過所設計的高效高階注意力（Effective High Order Attention，EHOA）模型，從骨干網絡特征中提取出豐富的語義信息。結合粗糙分割掩膜，設計了一種融合分割模塊，促使網絡學習到更魯棒的特征，從而在保證分割速度的情況下，提高了分割精度。將本文算法應用于基線算法FRTM 上，并在多個主流數據集上進行評測，結果充分證實了本文算法的有效性。

1 本文算法

FRTM 通過簡單的雙層線性卷積網絡構建目標模型，使用視頻首幀圖像及標簽進行訓練，預先生成較為粗糙的掩膜，再通過分割網絡對粗糙掩膜及骨干網絡特征進行簡單融合，在分割精度與速度方面取得了很好的效果。粗糙的掩膜信息帶有非常豐富的前景目標輪廓位置信息，對目標的最終分割結果有著重要的引導作用；但是，該算法僅將掩膜特征與骨干特征簡單拼接送入分割網絡，在分割精度方面仍有待提高。

本文算法基于基線算法FRTM 進行設計，網絡整體框架如圖1 所示，本文網絡主要包含特征提取模塊、粗糙掩膜生成模塊、特征聚合模塊、融合分割模塊四個部分。其中，特征提取模塊采用ResNet101［21］為其后面三個模塊提供特征輸入，粗糙掩膜生成模塊［20］用于生成粗糙掩膜，特征聚合模塊將輸入的特征進行聚合，融合分割模塊將收集到的各類信息融合，輸出最終的精細分割圖像。

圖1 網絡整體框架Fig.1 Overall network framework

首先，將圖像輸入到特征提取模塊中進行特征提取，提取到的特征放入存儲器中，作為粗糙掩膜生成模塊的輸入，并且通過高斯牛頓優(yōu)化方法［22］進行優(yōu)化，得到粗糙的分割掩膜。在特征聚合模塊中，粗糙的分割掩膜與特征提取模塊中的各層特征先進行拼接融合，再送入高效高階注意力模型中。特征聚合模塊中的高效高階注意力模型能夠使得特征更加專注于像素級別的變化，因此能夠提取出更加精細化的特征。聚合后的特征經由粗糙掩膜提取到的特征進行引導，送入融合分割模塊中與處理過的特征提取模塊中的第二層特征進行融合分割，最終得到精細的分割結果。

相較于FRTM，本文的不同之處在于特征聚合模塊中的EHOA 模型以及所設計的融合分割模塊。特征聚合模塊中的EHOA 模型提取深層次的語義特征，融合分割模塊充分利用了粗糙掩膜，提高了分割效果。

1.1 高效高階注意力模型

特征聚合模塊將特征提取模塊輸出的各層特征與插值后的粗糙分割掩膜進行拼接，經過卷積濾波后送入通道注意力模塊以及高效高階注意力模型中，輸出聚合特征。特征聚合模塊結構如圖2 所示，其中，粗糙掩膜S和骨干網絡各層特征χ（d）循環(huán)輸入到特征聚合模塊中，上一層的輸出Z（d）反饋到通道注意力模塊［20］中，一共循環(huán)輸入4 層骨干網絡的特征。

圖2 特征聚合模塊結構Fig.2 Feature aggregation module structure

在行人重識別［23-26］、視頻超分［27］等相關領域中，注意力機制［28］被充分證明對視覺特征的提取具有很好的效果，注意力能夠將提取出的特征更加偏向于網絡所需要的特征。因此，本文在高階注意力（High Order Attention，HOA）模型［23］的基礎上，提出高效高階注意力（EHOA）模型。

EHOA 結構如圖3 所示，輸入X經過卷積網絡，再與X逐元素相加，經激活函數后輸出X0：

圖3 高效高階注意力模型Fig.3 Efficient high-order attention model

其中：*表示對應元素相乘；f1、f2、f3表示卷積激活操作。通過上述式（2）～（4），由同一特征得到了3 個不同階次的注意力信息，將3 個不同權重按式（5）進行加權取平均：

最終按式（6）得到最終輸出：

注意力模型通常分為空間注意力模型和通道注意力模型，即在圖像空間位置以及通道方向上進行加權。視頻目標分割是一項像素級別的分類任務，需要更加精細的注意力機制來提取所需特征。本文所提高效高階注意力模型，其最終輸出為一個與輸入特征維度相同的權重矩陣，即對特征在空間以及通道上均進行了加權，相較于單一的通道注意力以及空間注意力機制，能夠提取更加精細的特征。

HOA 在后續(xù)的特征融合階段將不同階次的特征直接相加得到最終的注意力特征。但是這樣的操作沒有考慮到不同階次的特征所包含的語義信息存在差異，直接相加會導致部分信息的損失。因此，本文EHOA 模型考慮對特征加入不同的權重減少該部分信息損失，具體地，以粗糙掩膜和骨干網絡特征拼接得到的特征作為輸入，首先經過一個跳躍連接，利用ReLU 激活函數的單側抑制性，對特征信息進行初步去噪。根據3 種階次語義信息的豐富程度設置不同的權重對特征信息進行整合，從而提取最佳的注意力信息，本文權重最終設置為λ1=0.2，λ2=0.3。對于該部分權重的選取將在后續(xù)實驗中給出。

綜上所述，本文高效高階注意力模型相較于HOA 在引入少量參數的情況下通過設定不同階次的權重能夠更高效地提取網絡中的注意力信息，更有效地提升本文算法的分割效果。

1.2 融合分割模塊

半監(jiān)督視頻目標分割存在兩大難點：1）是否能夠區(qū)分分割目標與相似物體；2）是否能夠準確判別前景與背景之間的邊緣位置信息。前者需要網絡中有足夠豐富并且魯棒的深度語義信息，后者需要的則是較為淺層的邊緣位置信息。因此，本文提出融合分割模塊，同時利用網絡深層語義信息以及淺層位置信息。

融合分割模塊結構如圖4 所示。經優(yōu)化得到的粗糙掩膜帶有魯棒的前背景信息以及紋理信息，因此本文利用帶有豐富紋理特征的粗糙掩膜作為引導信息來引導聚合后的深度特征。

圖4 融合分割模塊Fig.4 Fusion segmentation module

首先對粗糙掩膜進行插值，再經卷積網絡將插值后的掩膜通道數進行擴展，使其與深度特征具有相同的維度，利用擴展通道后的掩膜過濾深度特征中重復的語義信息。

骨干網絡中，淺層特征帶有更為豐富的邊緣紋理信息，而在分割任務中，對前景與背景之間的邊緣輪廓的辨別能力是評價分割結果的重要指標，因此，網絡淺層特征對提高算法性能有很重要的作用。

基于上述分析，本文將經粗糙掩膜加權后的深度特征與骨干網絡淺層特征按式（7）進行融合：

其中：T表示融合后的特征；Z（2）表示特征聚合模塊最終輸出的特征；S表示粗糙掩膜權重；conv2表示粗糙掩膜的加權網絡；χ（2）表示骨干網絡第二層輸出特征；res 表示殘差網絡；λ、μ表示超參數，控制加權深層特征與淺層骨干網絡特征之間的權重關系，本文方法中的λ和μ設置為1 時，效果最佳。

2 實驗與結果分析

2.1 訓練設置

本文訓練與測試設備均為一張RTX 2080Ti 顯卡。特征提取模塊采用ResNet101 作為骨干網絡，為保證實驗的公平性，本文采用與FRTM 相同的訓練方法，包括粗糙分割掩膜的優(yōu)化訓練部分以及其他模塊的分割訓練部分。

1）粗糙掩膜訓練。首先將第一幀圖片以及第一幀掩膜進行數據增廣。特征提取模塊所得的特征作為輸入，下采樣后的首幀掩膜作為標簽送入粗糙掩膜生成器［20］，粗糙掩膜生成器的結構是兩層線性卷積層，通過高斯牛頓法［22］優(yōu)化參數，接著將后續(xù)幀的特征輸入到生成器中生成粗糙掩膜，將輸入特征與粗糙掩膜放入存儲器中構建一個固定容量的數據集來持續(xù)優(yōu)化生成器參數。

2）分割訓練。網絡中特征聚合模塊，融合分割模塊的參數通過離線訓練的方法學習。

本文將DAVIS 2017 和YouTube-VOS［29］作為訓練數據，采用Adam［30］優(yōu)化器進行優(yōu)化，訓練260 個周期，初始學習率α設為1E-3，衰減率β1設為0.9，β2設為0.999，權重衰減率設為1E-5。每120 個訓練周期，學習率縮減為原來的1/10。

2.2 評價指標

本文主要采用DAVIS 2017 的標準評價指標，包括雅卡爾指標J和F得分。其中，J為標注真值與分割結果的區(qū)域相似度，公式表示為：

其中：M表示預測值，G表示標注真值。

F被用來描述預測的分割結果的邊界與標注真值的邊界之間的吻合程度，公式表示為：

其中：P為查準率，R為查全率。并且，本文還采用J與F的均值J&F作為綜合評價指標：

2.3 不同數據集上的結果比較

2.3.1 DAVIS 2016數據集上的結果比較

DAVIS 2016 數據集中每一個視頻序列只標注一個目標，是一個單目標視頻目標分割數據集，其中包括了30 個用于訓練的視頻，20 個用于驗證的視頻。表1 中展示了本文算法與其他先進算法在DAVIS 2016 驗證集上的比較結果。為體現實驗的公平性，FRTM［20］與本文算法所測數據均在RTX 2080Ti 設備中測得，其余均使用公開數據。與表1 中其他算法不同的是，本文算法以及FRTM 并未使用預訓練的分割模型以及額外數據集。從表1 中可以看出，本文算法的雅卡爾指標J=85.5%，相較于FRTM 提高了1.8 個百分點；綜合指標J&F=85.9%，相較于FRTM 提高了2.3 個百分點，而速度使用幀率（即每秒傳輸幀數（Frames Per Second，FPS））衡量，相差不大。在所有運行速度較快的算法中，本文算法是分割效果最好的。相較于其他算法，本文算法在速度與精度的平衡性上更為突出。

表1 不同算法在DAVIS 2016驗證集上的評估結果Tab.1 Evaluation results of different algorithms on DAVIS 2016 validation set

2.3.2 DAVIS 2017數據集上的結果比較

DAVIS 2017 數據集是在DAVIS 2016 數據集上擴展而來的多目標視頻目標分割數據集，其中60 段視頻用于訓練，30段視頻用于驗證，30 段視頻用于測試以及30 段視頻用于競賽。該數據集相較于DAVIS 2016 數據集，數據量明顯增加，但同時場景更加復雜，分割難度也顯著增加。表2 中展示了不同算法在DAVIS 2017 驗證集上的比較結果。在該數據集上，本文算法的雅卡爾指標J=75.0%，相較于FRTM 提高了1.2 個百分點；綜合指標J&F=77.8%，相較于FRTM 提高了1.1 個百分點，并且相較于無時序信息的視頻目標分割（Video Object Segmentation without Temporal Information，OSVOS-S）算法［7］等在DAVIS 2016 數據集上取得不錯效果的算法，本文算法在這個更具挑戰(zhàn)性的數據集上體現了良好的優(yōu)越性。

表2 不同算法在DAVIS 2017驗證集上的評估結果Tab.2 Evaluation results of different algorithms on DAVIS 2017 validation set

2.3.3 YouTube-VOS數據集上的結果比較

YouTube-VOS 驗證集有474 段視頻，共有91 個類別，其中有26 個類別為未見類別。分別計算可見與未見類別的J和F作為評估指標，g為4 個單項指標的均值。表3 展示了不同算法在YouTube-VOS 驗證集上的結果。由表3 可以看出，本文算法的綜合指標g為67.1%，在沒有使用額外數據和分割預訓練模型的情況下排名第二。尤其，本文算法的F指標在可見與未見類別上取得71.3%和68.4%的出色性能，超越其他對比算法。體現了本文算法區(qū)分前景背景邊緣位置的出色性能。

表3 不同算法在YouTube-VOS驗證集上的評估結果單位：%Tab.3 Evaluation results of different algorithms on YouTube-VOS validation set unit：%

2.4 消融實驗

表4 展示了本文算法中EHOA 模型、融合分割模塊在DAVIS 2016 驗證集下的消融實驗結果。其中Base 表示本文算法同時去掉EHOA 模型和融合分割模塊之后的基礎網絡，使用Fuse 表示融合分割模塊。通過表4 中四種算法變體來驗證算法各部分的作用?？梢园l(fā)現，在不考慮EHOA 模型的情況下，J&F達到81.4%。在Base 模型加入EHOA 模型的情況下，算法性能提升了3.2 個百分點；在Base 模型下加入Fuse，算法性能提升了3.8 個百分點。由此可見本文算法中的EHOA 模型以及融合分割模塊對網絡的整體性能提升均有明顯作用，兩部分共同作用，最終提升了4.5 個百分點。

表4 消融實驗結果單位：%Tab.4 Ablation experimental results unit：%

表5 展示了EHOA 模型與HOA 模型的實驗結果對比，本文所提EHOA 模型的最佳結果（85.9%）相較于HOA 模型的性能提升了0.9 個百分點，證明本文所提模型提取網絡注意力信息更為高效。表5 中同時展示了EHOA 模型在不同權重下的算法表現，其中，λ3=1-λ1-λ2。從表5 中可以看出，當各階特征單獨作用時，EHOA 模型的性能均低于HOA 模型；λ1、λ2過小分別為0.1、0.2 時，一階特征和二階特征對模型整體影響過小，EHOA 模型的性能相較于最佳結果降低了0.8個百分點；λ1、λ2過大分別為0.6、0.3 時，包含更豐富語義信息的三階特征信息損失過多，EHOA 模型的性能相較于最佳結果降低了0.9 個百分點；λ1為0.2、λ2為0.3 時，三種階次特征權重處于相對平衡，EHOA 模型取得最佳性能。充分說明當前模型按特征階數賦予不同權重的有效性。

表5 EHOA模型與HOA模型的實驗結果對比Tab.5 Comparison of experimental results of EHOA and HOA models

表6 展示了融合分割模塊對本文算法在性能方面的影響。將ResNet101 的四層輸出分別與加權后的聚合特征進行融合，可以發(fā)現，越淺層的特征對算法的性能提升最大，Layer2 的特征相較于Layer5 的特征，算法性能提高了1.1 個百分點，并且越淺層的特征具有的通道數越少，進行融合計算時所需要的計算代價也越小。綜上，本文將高效高階注意力模型與融合分割模塊相結合，在沒有過多加大計算負擔的情況下，取得了較高的精度，在精度與速度上更加平衡。

表6 不同層特征的實驗結果對比單位：%Tab.6 Comparison of experimental results with features of different layers unit：%

2.5 可視化結果

為更直觀地展現本文算法的分割效果，對分割結果進行了可視化。

圖5 展示的是DAVIS 2016 中一段駱駝視頻的分割結果，視頻首幀只出現了一只駱駝，根據半監(jiān)督視頻目標分割的任務設定，整個視頻中首幀出現的駱駝為需要分割的前景目標，而后續(xù)幀中出現的駱駝則為視頻中的相似干擾目標?？梢钥吹?，在視頻中出現另外的屬于背景駱駝的情況下，本文算法能夠更好地抑制干擾，作出準確的分割，體現了本文算法在區(qū)分相似前景背景方面的出色性能。

圖5 在DAVIS 2016數據集上的可視化結果對比Fig.5 Comparison of visualized results on DAVIS 2016 dataset

圖6 展示的是DAVIS 2017 中一段人與狗的視頻。在這段視頻中，需要將視頻中的3 個物體分割出來。在前幾幀，物體的形變與移動距離并不是很大，因此，分割難度不是很大；但是在視頻后面幾幀，物體發(fā)生了比較大的形變與移動，分割難度變大?？梢钥吹?，在視頻后面幾幀，當物體出現比較大的形變和移動的時候，本文算法仍然能夠正確分割出物體，表現出了更強大的穩(wěn)定性。

圖6 DAVIS 2017數據集上的可視化結果對比Fig.6 Comparison of visualized results on DAVIS 2017 dataset

3 結語

本文在FRTM 算法的基礎上提出了一種深度注意力特征與淺層特征融合的視頻目標分割算法。設計了高效高階注意力模型與融合分割模塊。前者在幾乎沒有增加計算負擔的同時顯著提高了分割精度；后者加入粗糙掩膜信息，引導深度特征與淺層骨干特征融合，兼顧深層與淺層信息，能夠使得特征更加魯棒，提高了分割效果。本文算法在DAVIS 2016、DAVIS 2017 以及YouTube-VOS 數據集上均取得優(yōu)異的實驗結果，充分驗證了其優(yōu)越性。但本文算法也還存在著一些不足，對于視頻中的時序信息沒有充分利用，性能還存在較大的提升空間。未來工作應該在保證分割速度不變的前提下有效地提高精度這一方向上進行探索。