付利華,趙 宇,2,姜涵煦,趙 茹,吳會賢,閆紹興
(1.北京工業(yè)大學(xué)信息學(xué)部,北京 100124;2.北京航空航天大學(xué)計算機學(xué)院,北京 100191)
半監(jiān)督視頻目標分割技術(shù)(Semi-Supervised Video Object Segmentation,SVOS)是視頻分析的基礎(chǔ),其主要目標是根據(jù)第一幀給定的目標分割掩碼,在視頻后續(xù)幀中分割出特定的目標對象,是當前計算機視覺的研究熱點,其被廣泛應(yīng)用于基于視頻理解的精確目標跟蹤、智能監(jiān)控、視頻檢索和增強現(xiàn)實等領(lǐng)域.
在深度學(xué)習(xí)的驅(qū)動下,半監(jiān)督視頻目標分割方法主要依賴3 種策略:在線學(xué)習(xí)策略(Online Learning-Based Methods)、基于掩碼傳播策略(Propagation-Based Methods)以及基于特征匹配策略(Matching-Based Methods).對于處理一段新的視頻,基于在線學(xué)習(xí)策略的半監(jiān)督視頻目標分割方法需要在父網(wǎng)絡(luò)上多次迭代訓(xùn)練,具有很好的域適應(yīng)能力[1,2],但卻大大增加了時間成本.并且這類方法大多數(shù)從靜態(tài)圖分割的角度來對待視頻幀,較少地利用視頻幀間的時序信息,網(wǎng)絡(luò)模型難以適應(yīng)由于目標對象長期運動所帶來的形變.
基于掩碼傳播策略的半監(jiān)督視頻目標分割方法,主要是通過傳播前一幀的目標分割掩碼,對給定目標進行跟蹤[3,4],從而實現(xiàn)視頻目標的分割.但是由于這類方法依賴于視頻中目標的連續(xù)性,掩碼傳播過程會受到目標遮擋、多個相似目標重疊和目標快速運動的影響,容易造成跟蹤漂移,導(dǎo)致分割性能下降.
基于特征匹配策略的半監(jiān)督視頻目標分割方法主要通過計算第一幀與當前幀的像素級相似度,判斷當前幀中每個像素是否屬于前景目標對象[5],其主要優(yōu)勢在于分割速度快于基于在線學(xué)習(xí)策略的半監(jiān)督視頻目標分割方法,同時在一定程度上解決了跟蹤漂移等問題,但當待分割目標出現(xiàn)新的外觀特征時,會出現(xiàn)誤匹配等現(xiàn)象.
半監(jiān)督視頻目標分割任務(wù)的本質(zhì)是一個對比驗證過程,模型對于不同目標的判別力是提升分割精度的關(guān)鍵.盡管現(xiàn)有的半監(jiān)督視頻目標分割方法無論在精度上還是運行速度上都取得了較大的進步,但仍存在以下幾點問題:(1)大多數(shù)模型內(nèi)部將高層特征進行簡單的特征拼接,這種方式過于通用化,難以有效提升模型對于不同目標的判別力,導(dǎo)致視頻的多目標分割精度下降;(2)現(xiàn)有的分割方法大多將前一幀預(yù)測的分割掩碼與當前幀圖像合并為四通道圖像,以此進行掩碼傳播,然而,這種掩碼傳播方式對于模型的指導(dǎo)意義并不明顯,容易造成跟蹤漂移,導(dǎo)致分割性能下降;(3)現(xiàn)有模型大多關(guān)注編碼階段以及特征處理,往往忽視解碼器的重要性,導(dǎo)致模型不能有效利用低階特征,丟失邊緣細節(jié)等信息.
為了解決上述問題,本文主要貢獻有以下3點:
(1)設(shè)計全局前景感知的視覺注意,將第一幀特征與當前幀特征進行逐元素全局匹配,并利用第一幀掩碼突顯前景特征,然后將其加權(quán)到當前幀特征,得到全局前景感知視覺注意特征圖,提升模型對待分割目標的重識別能力,增強模型對于不同目標的判別力;
(2)設(shè)計局部前景感知的視覺注意,將當前幀特征與前一幀對應(yīng)局部鄰域的特征進行特征匹配,并利用前一幀掩碼突顯前景特征,然后將其加權(quán)到當前幀特征,得到局部前景感知視覺注意特征圖,提升模型對待分割目標的跟蹤能力,能有效處理目標的外觀變化,代替?zhèn)鹘y(tǒng)的掩碼傳播方法;
(3)設(shè)計一種基于殘差細化的解碼器,利用殘差學(xué)習(xí)的思想進行特征還原,在解碼過程中融入當前幀的低階特征,逐步改善分割細節(jié).
基于在線學(xué)習(xí)的半監(jiān)督視頻目標分割是利用給定的分割掩碼,在線微調(diào)網(wǎng)絡(luò)模型,使其適用于給定的目標對象[1].OSVOS[2]預(yù)先離線訓(xùn)練一個通用的前景-背景分割網(wǎng)絡(luò),即父網(wǎng)絡(luò)(Parent Network),用于通用目標的前景和背景分割,然后使用視頻第一幀和給定目標的分割掩碼,在線微調(diào)網(wǎng)絡(luò)參數(shù).OSVOS-S[6]基于OSVOS 的思想,利用語義實例分割(Semantic Instance Segmentation),引入語義先驗知識指導(dǎo)分割過程,傳播實例分割掩碼.OnAVOS[7]將在線學(xué)習(xí)的思想擴展到整個視頻,通過邊框約束篩選出高質(zhì)量的分割結(jié)果,并利用這些分割結(jié)果再次訓(xùn)練模型,以實現(xiàn)不斷提升分割的效果.Lucid Tracker[8]通過對第一幀進行大量的數(shù)據(jù)增強,擴展了第一幀與給定的分割掩碼,以此模擬目標物體在后續(xù)幀中可能發(fā)生的變形,獲得了較高的分割精度.DyeNet[9]通過重識別(Re-ID)技術(shù)匹配同一目標,并利用具有較高置信度的分割結(jié)果更新網(wǎng)絡(luò)模型,以此提高分割精度.PReMVOS[10]將在線學(xué)習(xí)、實例分割[11]、光流(Optical Flow)[12]、細化(Refinement)和Re-ID[13]等技術(shù)融合在一起,目前取得了最高的精度.
基于掩碼傳播的半監(jiān)督視頻目標分割利用幀間時序信息,將前一幀的分割結(jié)果傳播到當前幀,增加相鄰兩幀的時序一致性約束,提升分割精度.Mask-Track[3]通過將前一幀分割結(jié)果與當前幀RGB 圖像進行合并,形成四通道圖像,輸入網(wǎng)絡(luò)模型,以此提供時序信息.VPN[14]提出一個可學(xué)習(xí)的雙邊濾波網(wǎng)絡(luò),用于傳播視頻幀之間的結(jié)構(gòu)化信息.FAVOS[15]首先將第一幀所標注的目標拆分為多個部分,然后在后續(xù)幀中跟蹤目標的各部分,并對跟蹤結(jié)果進行分割,最后將目標各部分的分割結(jié)果進行合并,得到最終的目標分割掩碼.RGMP[4]提出使用孿生編碼器結(jié)構(gòu)(Siamese Network),將第一幀和當前幀的高層特征堆疊在一起,進而獲得當前幀的分割掩碼.OSMN[16]提出使用網(wǎng)絡(luò)調(diào)制技術(shù),將第一幀特征作為視覺調(diào)制參數(shù),將前一幀分割掩碼的高斯分布作為空間調(diào)制參數(shù),并將兩個調(diào)制參數(shù)融合到主分割網(wǎng)絡(luò)中的每一層,從而實現(xiàn)給定目標的分割.
除了利用前一幀預(yù)測的分割掩碼,將光流作為運動指導(dǎo)信息也是非常有效的處理方式.MPN[17]利用光流變換前一幀的分割結(jié)果,并將其與當前幀的RGB 圖像合并,形成四通道圖像作為網(wǎng)絡(luò)輸入.CTN[18]提出一個三端全卷積神經(jīng)網(wǎng)絡(luò),輸出分割概率圖、確定性前景概率圖和確定性背景概率圖,然后使用馬爾科夫隨機場進行優(yōu)化得到最終結(jié)果.CRN[19]首先在光流上應(yīng)用運動輪廓模型,提取粗糙的目標分割掩碼,然后提出級聯(lián)優(yōu)化網(wǎng)絡(luò),將粗糙的目標分割掩碼作為輸入,以級聯(lián)優(yōu)化的方式生成最終的目標分割掩碼.
基于特征匹配的半監(jiān)督視頻目標分割通過計算第一幀與當前幀的像素級相似度,判斷當前幀中每個像素是否屬于前景目標對象[20],其主要優(yōu)勢在于分割速度快于基于在線學(xué)習(xí)的半監(jiān)督視頻目標分割方法,同時在一定程度上解決了跟蹤漂移等問題.PML[5]利用三元組損失函數(shù)(Triplet Loss),計算每一個像素點的嵌入向量(Embedding Vector),基于最鄰近分類算法判斷當前像素點是否屬于前景目標.VideoMatch[21]類似于PML,但其直接使用交叉熵損失函數(shù)優(yōu)化分割概率圖,并將前景像素和背景像素分開匹配,最后進行合并優(yōu)化.FEELVOS[22]使用全局匹配和局部匹配進行更魯棒的像素級匹配.MTN[23]采用全局匹配的方式匹配待分割目標,同時提出一種新穎的掩碼轉(zhuǎn)換層代替原有的掩碼傳播方法,為了進一步提升分割速度,MTN 極大地縮小特征圖大小以及對應(yīng)的通道數(shù),在保證基本分割精度的同時,具有較高的分割速度.
本文提出一種基于前景感知視覺注意的半監(jiān)督視頻目標分割方法,整體網(wǎng)絡(luò)模型主要包含4 個部分:基于三流孿生網(wǎng)絡(luò)的編碼器、基于全局前景感知的視覺注意、基于局部前景感知的視覺注意和基于殘差細化的解碼器.其主體結(jié)構(gòu)如圖1所示.
圖1 基于前景感知視覺注意的半監(jiān)督視頻目標分割網(wǎng)絡(luò)結(jié)構(gòu)圖
首先,基于三流孿生網(wǎng)絡(luò)的編碼器將第一幀、當前幀和前一幀共同映射到同一特征空間,使得相同目標具有相似特征;然后,通過全局逐元素地匹配第一幀特征與當前幀特征的相似性,并利用第一幀掩碼突顯前景特征,獲得基于全局前景感知的視覺注意,提升模型對于不同目標的判別力;其次,通過局部地匹配當前幀特征和前一幀對應(yīng)局部鄰域特征的相似性,并利用前一幀掩碼突顯前景特征,形成獲得基于局部前景感知的視覺注意,提升模型對待分割目標的跟蹤能力,有效處理目標的外觀變化,代替?zhèn)鹘y(tǒng)的掩碼傳播方法;最后,基于殘差細化的解碼器利用殘差學(xué)習(xí)的思想,融合當前幀圖像的低階特征,逐步改善分割細節(jié).
孿生編碼器由三流孿生網(wǎng)絡(luò)和特征轉(zhuǎn)換層共同組成,其目的是將輸入圖像映射到同一特征空間,使同一實例目標的像素點特征不斷接近,不同實例目標的像素點特征不斷遠離.
3.1.1 三流孿生網(wǎng)絡(luò)
三流孿生網(wǎng)絡(luò)基于ResNet-50,其輸入分別為第一幀圖像、當前幀圖像以及前一幀圖像.原始的ResNet-50網(wǎng)絡(luò)具有較大的步長和較深的通道數(shù),相對于輸入圖像,最終輸出的特征圖將被下采樣32 倍.但較低的特征圖分辨率會丟失大量空間信息,不利于后續(xù)的特征匹配.
由于擴張卷積可以在不縮小特征圖分辨率的前提下,增加卷積操作的感受野,因此本文將ResNet-50 的最后兩個殘差塊的下采樣卷積采用擴張卷積代替,最終輸出的特征圖相對于輸入圖像下采樣8倍,使編碼器輸出的特征保留更豐富的空間信息.然后,將輸出特征圖利用1×1 卷積調(diào)整到256 通道,目的是降低后續(xù)特征匹配操作的計算量,提高分割速度.編碼器通過ImageNet[24]進行預(yù)訓(xùn)練獲得初始化權(quán)值.
為了保證分割速度,本文方法每幀只需前向傳播一次,并將其編碼器輸出特征進行保存,以便后續(xù)幀使用.通過這種前后幀特征復(fù)用的方式,三流孿生編碼器不會增加分割網(wǎng)絡(luò)復(fù)雜度,同樣具有較高的分割速度.
3.1.2 特征轉(zhuǎn)換層
對于編碼器輸出的特征圖,本文利用一個特征轉(zhuǎn)換層提取更廣泛的上下文信息,其結(jié)構(gòu)如圖2 所示.特征轉(zhuǎn)換層由一系列不同擴張率的擴張卷積和全局平均池化共同組成.通過這種方式獲得具有不同感受野的特征圖,然后以多尺度的方式融合不同感受野的特征圖,提取更廣泛的上下文信息.最后將特征圖中每個特征點都視為一個特征向量,利用一個1×1逐點卷積整合每個特征向量,使其在特征空間中,屬于同一實例目標的像素點特征不斷接近,不同實例目標的像素點特征不斷遠離.
圖2 特征轉(zhuǎn)換層結(jié)構(gòu)圖
基于全局前景感知的視覺注意目標是提升模型對于特定目標的重識別能力,增強模型對不同目標的判別力.首先,利用全局匹配層將第一幀特征和當前幀特征進行逐元素匹配,獲得全局相似度矩陣;然后,利用第一幀給定的分割掩碼提取出全局相似度矩陣中的前景信息,忽略背景信息,生成全局前景感知權(quán)重圖;最后,將獲得的全局前景感知權(quán)重圖加權(quán)到當前幀特征圖,突顯當前幀特征中與前景相似的特征,抑制與背景相似的特征,獲得全局前景感知視覺注意特征圖.
3.2.1 全局匹配
全局匹配目的是計算第一幀和當前幀的任意兩個位置之間的空間依賴性,具有相似特征的任何兩個位置均可以相互促進,且不受到空間維度的距離限制.全局匹配過程如圖3 所示.假設(shè)第一幀I1的特征圖為X1∈Rh×w×c,當前幀It的特征圖為Xt∈Rh×w×c,并將特征圖上的每個特征點都視為一個1×1×c的特征向量,其中h和w是特征圖的大小,c為特征圖深度.為了方便后續(xù)匹配,將第一幀特征X1重塑為特征集合X1==1,2,…,hw}.通過式(1),計算特征向量與之間的相似度sij.
如圖3 所示,通過將與當前幀特征進行逐元素的相似度計算,獲得與當前幀特征圖Xt的相似度矩陣Gj.
圖3 全局匹配示意圖
Gj刻畫了第一幀特征圖中第j個特征點的特征向量與當前幀特征圖中所有特征向量的相似度.計算第一幀特征圖中每個特征點的特征向量與當前幀特征圖的相似度矩陣,獲得矩陣集合{Gj∈[0,1]h×w|j=1,2,…,hw},即為全局相似度矩陣G.
全局相似度矩陣G中的每個元素sij表示第j個位置的第一幀特征對第i個位置的當前幀特征的影響,兩個位置的特征越相似,則這個值越大.
3.2.2 基于全局前景感知的視覺注意
全局相似度矩陣G(hw)×(hw)中行表示當前幀特征的信息,列表示第一幀特征的信息.為了使模型關(guān)注特定分割目標,利用第一幀掩碼關(guān)注前景目標,忽略背景信息.首先將第一幀掩碼M1大小調(diào)整至h×w×1,并將其轉(zhuǎn)置并重構(gòu)成一維行向量M11×hw,其中前景像素點的元素為1,背景像素點的元素為0;其次,利用逐元素乘法⊙,將M11×hw按行加權(quán)到矩陣G的每一行,生成全局前景感知權(quán)重圖AG=(aij)(hw)×(hw)∈[0,1](hw)×(hw);然后,將全局前景感知權(quán)重圖按照矩陣乘法的方式加權(quán)到當前幀特征圖;最后,為了使得最終被關(guān)注的特征充分有效,利用殘差學(xué)習(xí)的思想,使用矩陣加法補充可能被錯誤抑制的特征,獲得全局前景感知視覺注意特征圖FG.
其中,α為可學(xué)習(xí)參數(shù),由反向傳播時自動調(diào)整.
全局前景感知視覺注意特征圖FG是當前幀特征與第一幀特征所有位置的加權(quán)和,并使用第一幀的分割掩碼突顯當前幀與前景目標相似的特征,抑制與背景相似的特征.因此,F(xiàn)G具有全局上下文信息,并使當前幀特征充分關(guān)注給定的待分割目標,從而提升模型對于特定目標的重識別能力,增強模型對于不同目標的判別力.
FlowNet[12]利用局部互相關(guān)操作提取連續(xù)兩幀間的運動信息.受到這種運動提取方式的啟發(fā),本文設(shè)計一種基于局部前景感知的視覺注意,目的是提升對待分割目標的跟蹤能力,有效處理目標的外觀變化,代替?zhèn)鹘y(tǒng)的掩碼傳播方法.首先,利用局部匹配層將當前幀的特征與前一幀對應(yīng)局部鄰域的特征進行特征匹配;其次,根據(jù)最近鄰思想,選取鄰域匹配的最大值作為當前幀特征與前一幀對應(yīng)局部鄰域的相似度,獲得局部相似度矩陣;然后,利用前一幀預(yù)測的分割掩碼,提取局部相似度矩陣中的前景信息,忽略背景信息,生成局部前景感知權(quán)重圖;最后,將獲得的局部前景感知權(quán)重圖加權(quán)到當前幀特征圖,有效傳播前景信息,獲得局部前景感知視覺注意特征圖.
3.3.1 局部匹配
局部匹配目的是計算前后兩幀的局部依賴性,將前一幀的前景信息有效傳播到當前幀,進一步提升網(wǎng)絡(luò)模型對不同目標的判別能力.局部匹配過程如圖4所示.假設(shè)當前幀的前一幀It-1的特征圖為Xt-1∈Rh×w×c,并將其整理為特征集合Xt-1=∈R1×c|j=1,2,…,hw}.局部匹配與全局匹配類似,主要區(qū)別在于匹配范圍不同.因為目標對象可能會隨著時間而產(chǎn)生較大的位移,所以全局匹配需要當前幀特征圖與第一幀特征圖的每一個特征向量都進行匹配.然而,視頻中的連續(xù)兩幀滿足時空一致性,即每個目標對象外觀和位置均不會發(fā)生太大變化.因此對于當前幀特征圖中每個特征向量,只需要考慮前一幀特征圖對應(yīng)位置的局部鄰域.
如圖4 所示,假設(shè)當前幀第i個位置的特征點對應(yīng)前一幀特征圖的局部鄰域為n(i),其窗口大小為d,假設(shè)N() ?Xt-1為在前一幀特征圖中對應(yīng)局部鄰域的特征集合.特征集合N()中的元素是橫縱方向上距離最多d個位置的前一幀特征向量,因此N()包含D個特征向量,其中D=(2d+1)2.窗口大小d根據(jù)特征圖大小自適應(yīng)改變,變化公式為d=(h/5+w/5)/2.根據(jù)式(1)計算與N()內(nèi)所有特征向量之間的相似度,由于連續(xù)兩幀的外觀信息差別較小,根據(jù)最近鄰思想,選取其中的最大值作為與前一幀特征圖中對應(yīng)局部鄰域的相似度li.
圖4 局部匹配示意圖
li刻畫了當前幀特征圖中第i個特征點的特征向量與前一幀特征圖中對應(yīng)局部鄰域的相似度.計算當前幀特征圖中每一個特征向量與其前一幀特征圖中對應(yīng)局部鄰域的相似度,獲得局部相似度矩陣L.
3.3.2 基于局部前景感知的視覺注意
局部前景感知的視覺注意與全局前景感知的視覺注意的方式相同,首先利用前一幀的分割掩碼Mt-1提取局部相似度矩陣的前景信息,抑制背景信息,生成局部前景感知權(quán)重圖AL=(aij)h×w∈[0,1]h×w;然后,利用矩陣的逐元素乘法⊙加權(quán)到當前幀特征,同樣利用矩陣加法補充可能被錯誤抑制的特征,獲得局部前景感知視覺注意特征圖FL.
其中,β為可學(xué)習(xí)參數(shù),由反向傳播時自動調(diào)整.
局部前景感知視覺注意特征圖FL是當前幀特征圖與前一幀特征圖中對應(yīng)局部鄰域特征的加權(quán)和,并使用前一幀分割掩碼傳播前景信息,使得當前幀特征更加關(guān)注給定的分割目標.
通過全局前景感知的視覺注意和局部前景感知的視覺注意,分別獲得全局前景感知視覺注意特征圖FG和局部前景感知視覺注意特征圖FL,將兩者按照通道維度進行特征拼接,并利用1×1 卷積調(diào)整通道維度,最終生成充分關(guān)注待分割目標的高階特征圖F∈Rh×w×c,并將其輸入殘差細化解碼器,獲得最終的分割結(jié)果.
基于殘差細化的解碼器主要目的是將抽象的高階特征逐步還原,并通過連接當前幀的低階特征,融合當前幀細節(jié)信息,最終輸出當前幀的分割掩碼,實現(xiàn)目標分割.基于殘差細化的解碼器結(jié)構(gòu)如圖5所示.
圖5 基于殘差細化的解碼器結(jié)構(gòu)圖
如圖5 所示,在訓(xùn)練過程中,使用雙重損失監(jiān)督的方式逐步細化分割結(jié)果.首先將高階特征圖F進行2倍上采樣,以便融合當前幀的低階特征;其次,利用Sigmoid 函數(shù)直接將上采樣后的特征圖進行二分類,并與當前幀的分割掩碼計算損失值L1;再次,利用殘差學(xué)習(xí)的思想,融合當前幀的低階特征圖,殘差結(jié)構(gòu)具有保留有效信息去除冗余信息的優(yōu)點,在殘差結(jié)構(gòu)中加入低階特征圖,可以增強當前高階特征缺失的細節(jié)特征,提升最終的輸出結(jié)果;然后,將輸出的特征圖同樣利用Sigmoid 函數(shù)進行二分類,并與當前幀的分割掩碼計算損失值L2;最后,將兩個損失值相加,對網(wǎng)絡(luò)反向傳播,進行端到端的訓(xùn)練.
對于訓(xùn)練數(shù)據(jù)的預(yù)處理,首先,將訓(xùn)練圖像分辨率調(diào)整為240×432,并對其進行歸一化和標準化操作;然后,采用隨機翻折、旋轉(zhuǎn)作為數(shù)據(jù)增強策略;最后,利用隨機擦除策略模擬圖像可能出現(xiàn)待分割、目標被遮擋等情況,擦除的部分使用三通道均值進行填充.
訓(xùn)練過程中,在同一個視頻中隨機選擇三幀作為視頻的第一幀、當前幀以及前一幀.為了模擬在分割過程中出現(xiàn)前一幀分割結(jié)果錯誤的情況,本文將前一幀分割掩碼進行隨機膨脹、腐蝕、隨機擦除以及置為空圖等操作,增強網(wǎng)絡(luò)模型的魯棒性.本文方法的損失函數(shù)由加權(quán)二分類交叉熵[25]損失函數(shù)和Lovász-Softmax[26]損失函數(shù)共同組成,基于PyTorch 開源框架,采用自適應(yīng)矩估計(Adaptive Moment Estimation,Adam)優(yōu)化算法,batch 大小為4,初始學(xué)習(xí)率為10-4,權(quán)重衰減率為10-5,循環(huán)訓(xùn)練數(shù)據(jù)集100次.
本文的半監(jiān)督視頻目標分割方法目的是更好地跟蹤并分割給定的目標對象,解決目標的相似混淆等問題.為評價提出方法的有效性,本文在3 個公開的大型基準數(shù)據(jù)集DAVIS-2016[27],DAVIS-2017[28]和YouTube-VOS[29]進行實驗.YouTube-VOS 數(shù)據(jù)集是2018 年9 月ECCV(European Conference on Computer Vision)最新推出的公開基準數(shù)據(jù)集,包含4000 多個來自YouTube 網(wǎng)站的高分辨率視頻數(shù)據(jù),其中訓(xùn)練集包含3471個視頻,驗證集包含474 個視頻,比DAVIS-2017 數(shù)據(jù)集大30倍.
在訓(xùn)練過程中,由于YouTube-VOS 數(shù)據(jù)集的數(shù)據(jù)量較大,本文分割方法直接在YouTube-VOS 數(shù)據(jù)集上進行訓(xùn)練,在DAVIS-2016和DAVIS-2017數(shù)據(jù)集上進行測 試.實驗環(huán)境為Intel(R)Xeon(R)E5-2620 v3 2.40GHz CPU、兩塊NVIDIA GeForce GTX 1080 Ti GPU和Linux 64位操作系統(tǒng).
在測試過程中,本文分割方法在線處理視頻的每一幀.每幀只需前向傳播一次,并將其編碼器輸出特征進行保存,以便后續(xù)幀使用,因此本文方法具有較高的分割速度.
本文使用DAVIS 數(shù)據(jù)集[21,22]提供的基準代碼計算預(yù)測的目標分割掩碼與正確標注的目標分割掩碼之間的區(qū)域相似度J(Region Similarity)、輪廓精確度F(Contour Accuracy)以及每幀的處理時間Time.區(qū)域相似度J用于評估目標分割結(jié)果與正確標注的目標分割掩碼之間的區(qū)域覆蓋率.輪廓精確度F用于評估目標分割結(jié)果與正確標注的目標分割掩碼之間分割邊界的相似程度.由于視頻幀具有不同的分辨率,因此本文在處理之前將視頻幀統(tǒng)一縮放到320×576.
將本文的視頻目標分割方法與當前幾種較流行的視頻目標分割方法進行比較.其中基于在線微調(diào)的方法有OSVOS[2],OnAVOS[7],MSK[3],STCNN[30];基于掩碼傳播的方法有OSMN[16],F(xiàn)AVOS[15],RGMP[4],RVOS[31];基于特征匹配的方法有PLM[20],PML[5],VM[21],F(xiàn)EELVOS[22],MTN[23],AGUnet[32],MRARnet[33].
4.1.1 DAVIS-2016數(shù)據(jù)集上的實驗結(jié)果及分析
DAVIS-2016 數(shù)據(jù)集用于視頻單目標分割.在DAVIS-2016 數(shù)據(jù)集上,本文的視頻目標分割方法與對比方法的性能評估結(jié)果如表1 所示.在表1 中,將基于在線微調(diào)、掩碼傳播、特征匹配等方法分開列出,其中“-”表示未公開源碼以及分割結(jié)果,表中的數(shù)據(jù)結(jié)果根據(jù)原論文獲得.
表1 不同視頻目標分割方法在DAVIS-2016數(shù)據(jù)集的定量評估結(jié)果
(1)OSVOS,OnAVOS,MSK,STCNN 等方法都采用了在線微調(diào)方式,基于在線微調(diào)的視頻目標分割方法對每一個測試視頻均在線微調(diào)分割網(wǎng)絡(luò),因此可以取得較好的目標分割效果,但是,在線微調(diào)非常耗時,且不能很好地適應(yīng)場景的快速變化.本文分割網(wǎng)絡(luò)采用孿生網(wǎng)絡(luò)結(jié)構(gòu),代替在線微調(diào)的方式,從而有效地減少了目標分割的時間.
(2)OSMN,F(xiàn)AVOS,RGMP 等方法均采用了傳統(tǒng)掩碼傳播的方式,然而,這種掩碼傳播方式對于模型的指導(dǎo)意義并不明顯,且依賴視頻中目標的連續(xù)性,容易受到目標遮擋、多個相似目標重疊等影響,造成跟蹤漂移,導(dǎo)致分割性能下降.本文提出了一種基于局部前景感知的視覺注意,提升了模型對待分割目標的跟蹤能力,能有效處理目標的外觀變化,代替?zhèn)鹘y(tǒng)的掩碼傳播方法.
(3)PLM,PML,VM,F(xiàn)EELVOS,MTN,AGUnet 和MRARnet 等方法采用特征匹配的方式.MTN 方法僅利用全局匹配,并提出一種掩碼轉(zhuǎn)換層代替原有掩碼傳播方法.同時,MTN大幅度縮小特征圖大小以及通道數(shù)量,因此分割速度較快.但MTN 只將第一幀與當前幀做相似度匹配,同時掩碼轉(zhuǎn)換層的輸入為第一幀分割掩碼,這導(dǎo)致MTN方法本身難以適應(yīng)目標的外觀變化,當待分割目標的外觀信息相對于第一幀發(fā)生巨大改變時,網(wǎng)絡(luò)整體分割精度明顯下降.PLM,PML,VM,F(xiàn)EELVOS 等方法均將匹配的距離圖直接進行解碼輸出,但是逐元素匹配容易產(chǎn)生較大噪聲,當出現(xiàn)新的外觀特征時,會出現(xiàn)誤匹配等問題.AGUnet 模型基于全卷積孿生網(wǎng)絡(luò)對前景和背景區(qū)域進行自動標注,并將這些標注信息融合到視頻目標分割的U-net 網(wǎng)絡(luò)中.從表1 可以看出,該模型可以獲得較快的分割速度,但是模型的分割精度依賴全卷積孿生網(wǎng)絡(luò)自動標注的精度.MRARnet 模型通過感知的運動趨勢,預(yù)測當前幀的目標感興趣區(qū)域作為模型輸入,并基于幀間的光流信息,動態(tài)更新參考幀,以適應(yīng)待分割目標的變化.從表1 可以看出,該模型可以獲得較好的分割精度,但是由于光流信息的引入,模型不能獲得較快的分割速度.
(4)本文提出的基于前景感知視覺注意的半監(jiān)督視頻目標分割方法,利用相同目標特征相似的特點關(guān)注前景目標特征,設(shè)計的全局前景感知和局部前景感知的視覺注意,可增強模型對待分割目標的重識別能力和跟蹤能力,因此本文的分割方法具有較高的分割精度,分割精度達到81.1(J&F),并且本文方法每幀只需前向傳播一次,在分割過程中保存每一幀的編碼器輸出特征,以便后續(xù)幀使用,因此模型具有較高的分割速度,分割速度為每幀0.11s.
4.1.2 DAVIS-2017數(shù)據(jù)集上的實驗結(jié)果及分析
DAVIS-2017 主要用于視頻多目標分割,驗證集包含30個高清視頻.本文分割方法與對比方法在DAVIS-2017 數(shù)據(jù)集上的性能評估結(jié)果如表2 所示,其中“-”表示未公開源碼以及分割結(jié)果,表中的數(shù)據(jù)結(jié)果根據(jù)原論文獲得.
表2 不同視頻目標分割方法在DAVIS-2017數(shù)據(jù)集的定量評估結(jié)果
由表2 可知,本文方法的分割結(jié)果達到62.1%(J&F),分割速度為每幀0.11 s.本文的網(wǎng)絡(luò)模型僅在YouTube-VOS 訓(xùn)練集進行訓(xùn)練,在DAIVS-2017 驗證集上進行測試,因此分割精度略低于如RGMP 和OnAVOS 等直接在DAVIS-2017 數(shù)據(jù)集上訓(xùn)練的方法.
大多數(shù)模型內(nèi)部將高層特征進行簡單地特征拼接,這種方式過于通用化,難以提升模型對不同目標的判別力,導(dǎo)致多目標分割精度下降.相比于其他分割方法,本文提出一種基于前景感知視覺注意的半監(jiān)督視頻目標分割方法,利用特征匹配的思想使模型關(guān)注前景目標,因此在多目標分割中具有較好的分割精度.本文方法與對比方法在DAVIS-2017 數(shù)據(jù)集上的部分分割結(jié)果如圖6所示.
圖6 本文方法與對比方法在DAVIS-2017數(shù)據(jù)集上的部分分割結(jié)果比較
4.1.3 YouTube-VOS數(shù)據(jù)集上的實驗結(jié)果及分析
YouTube-VOS 的官方驗證集包含474 個帶有第一幀目標分割掩碼的視頻序列,其中具有91個目標類別.為了評估算法對特定分割目標的泛化能力,驗證集中有65 個是訓(xùn)練集中包含的目標類別,稱為已知類別(seen),有26 個是訓(xùn)練集中不包含的目標類別,稱為未知類別(unseen).
對于YouTube-VOS 數(shù)據(jù)集,同樣采用區(qū)域相似度J、輪廓精確度F作為評估指標,并將J和F分成已知類別分割精度和未知類別分割精度.Goverall代表四個評估指標的平均值.本文分割方法與對比方法在You-Tube-VOS 驗證集上的性能評估結(jié)果如表3 所示,其中“-”表示未公開源碼以及分割結(jié)果,表中的數(shù)據(jù)結(jié)果根據(jù)原論文獲得.
表3 不同視頻目標分割方法在YouTube-VOS驗證集的定量評估結(jié)果(%)
從表3中可以看出,本文方法在YouTube-VOS驗證集上,無論在已知類別還是未知類別上都具有穩(wěn)定的分割結(jié)果,總體分割精度達到64.2%(Goverall).
(1)OSVOS和OnAVOS均采用在線微調(diào)技術(shù).在已知類別和未知類別的視頻中,在線微調(diào)的方法均可達到較高的分割精度.雖然在離線訓(xùn)練階段沒有預(yù)先學(xué)習(xí)過未知類別的目標對象,但是這些方法在測試階段會基于未知類別視頻的第一幀和對應(yīng)的分割掩碼對主分割網(wǎng)絡(luò)進行在線微調(diào),使得其分割網(wǎng)絡(luò)能學(xué)習(xí)到當前待分割目標的外觀信息,從而實現(xiàn)對未知類別目標對象的有效分割.但由于在線微調(diào)需要對主網(wǎng)絡(luò)進行多次迭代訓(xùn)練,這會大大增加視頻目標分割的時間.
本文利用孿生網(wǎng)絡(luò)將輸入圖像映射到高維特征空間,并利用全局匹配的方式形成全局前景感知的視覺注意.通過這種方法可以提升模型對于給定目標的重識別能力,增強模型對于不同目標的判別力,代替在線微調(diào)過程,在不損失精度的前提下,提升分割速度.
(2)RGMP,OSMN,RVOS 均采用傳統(tǒng)掩碼傳播的方式.從在表3 可以看出,現(xiàn)有的掩碼傳播方式在You-Tube-VOS 數(shù)據(jù)集上表現(xiàn)不好,因為該數(shù)據(jù)集中存在大量遮擋、目標丟失等情況,使得傳統(tǒng)掩碼傳播方式容易造成跟蹤漂移,導(dǎo)致最終的分割效果下降;此外,這些方法不能很好地處理未知類別,這是由于掩碼傳播方式通常以前一幀預(yù)測掩碼作為額外輸入,但這種方式對于模型的指導(dǎo)意義并不明顯.本文提出利用局部匹配的方式形成局部前景感知的視覺注意,通過這種方式可以提升模型對待分割目標的跟蹤能力,有效處理目標外觀變化,代替?zhèn)鹘y(tǒng)的掩碼傳播方法.
本文分割方法在YouTube-VOS 驗證集上部分的分割結(jié)果如圖7 所示.從圖7 可以看出,無論對于單目標還是多目標分割,本文分割方法均能較為準確地分割目標對象,并且隨著視頻序列的播放,分割效果可以保持較高的魯棒性.
圖7 本文方法在YouTube-VOS驗證集上的部分定性結(jié)果展示
4.2.1 定量分析
為了驗證本文分割方法各階段的有效性,分別從基于全局前景感知的視覺注意、基于局部前景感知的視覺注意、特征轉(zhuǎn)換層和基于殘差細化的解碼器4個方面,在DAVIS-2017 數(shù)據(jù)集上進行實驗分析,其有效性評估實驗結(jié)果如表4所示.
表4 本文方法分階段效果的定量分析(%)
為了評估基于全局前景感知的視覺注意的有效性,保持原有網(wǎng)絡(luò)結(jié)構(gòu),刪去基于全局前景感知的視覺注意部分,直接將局部前景感知視覺注意特征圖FL作為解碼器的輸入,本文將此網(wǎng)絡(luò)命名為“-Global”.此時整體網(wǎng)絡(luò)失去對待分割目標的重識別能力,僅通過連續(xù)幀之間的運動關(guān)系跟蹤待分割目標.從表4 可以看出,僅依靠基于局部前景感知的視覺注意,分割精度將降低9.1%.由此可以看出,基于全局前景感知的視覺注意可以使得網(wǎng)絡(luò)充分關(guān)注待分割目標,提升分割精度.
為了評估基于局部前景感知的視覺注意的有效性,保持原有網(wǎng)絡(luò)結(jié)構(gòu),刪去基于局部前景感知的視覺注意部分,直接將全局前景感知視覺注意特征圖FG作為解碼器的輸入,本文將此網(wǎng)絡(luò)結(jié)構(gòu)命名為“-Local”.此時網(wǎng)絡(luò)在沒有任何時序信息的情況下,根據(jù)第一幀給定目標的外觀特征匹配后續(xù)幀的待分割目標,失去對特定目標的跟蹤能力.從表4 可以看出,僅依靠基于全局前景感知的視覺注意,分割精度將降低16.3%.以此可以看出,基于局部前景感知的視覺注意可以增強模型對待分割目標的跟蹤能力,有效提升分割精度.同時,基于局部前景感知的視覺注意的性能提升要明顯高于基于全局前景感知的視覺注意,說明在半監(jiān)督視頻目標分割任務(wù)中,有效的掩碼傳播方式對分割精度的影響較大.
為了評估編碼器中的特征轉(zhuǎn)換層的有效性,保持原有網(wǎng)絡(luò)結(jié)構(gòu),刪去基于三流孿生網(wǎng)絡(luò)的編碼器中的特征轉(zhuǎn)換層,得到對應(yīng)的網(wǎng)絡(luò)為“-ASPP”.此時網(wǎng)絡(luò)“-ASPP”提取的特征沒有包含更豐富的上下文信息,從表4可以看出,其分割精度將降低7.7%.由此可以看出,在編碼器中加入特征轉(zhuǎn)換層,通過融合不同感受野的特征,可提取具有更廣泛上下文信息的特征,能有效提升分割精度.
為了評估基于殘差細化的解碼器的有效性,保持原有網(wǎng)絡(luò)結(jié)構(gòu),刪去基于殘差細化的解碼器中的低階特征部分,得到對應(yīng)的網(wǎng)絡(luò)為“-ReDecoder”.此時網(wǎng)絡(luò)“-ReDecoder”由于去除了基于殘差細化的解碼器中的低階特征,在解碼過程中沒有融合當前幀的細節(jié)信息,從表4 可以看出,網(wǎng)絡(luò)“-ReDecoder”的分割精度將降低6.0%.由此可以看出,在解碼器中,利用殘差學(xué)習(xí)的思想,融合當前幀的低階特征圖,可以增強當前高階特征缺失的細節(jié)特征,進一步提升分割精度.
4.2.2 定性分析
本文對全局前景感知權(quán)重圖AG和局部前景感知權(quán)重圖AL進行可視化,以直觀的方式分析本文所提出的前景感知視覺注意的有效性,可視化結(jié)果如圖8所示.
圖8 全局前景感知權(quán)重圖與局部前景感知權(quán)重圖的可視化示意圖
基于全局前景感知的視覺注意首先將第一幀特征圖和當前幀特征圖進行逐元素匹配,然后利用第一幀給定的分割掩碼提取對應(yīng)的前景信息,抑制背景信息,進而獲得全局前景感知權(quán)重圖AG.全局前景感知權(quán)重圖中每一個點代表當前幀與前景目標的相似度.顏色越接近黃色,表示相似度越高;顏色越接近紫色,表示相似度越低.基于全局前景感知的視覺注意目的是提升模型對特定目標的重識別能力,增強模型對不同目標的判別力.
如圖8(a)、圖8(b)所示,基于全局前景感知的視覺注意可以較好地將兩個不同的目標進行分離.當目標對象的運動相對平緩且外觀變化相對穩(wěn)定時,基于全局前景感知的視覺注意具有良好的指導(dǎo)意義,使得模型更加關(guān)注特定的分割目標,提升模型對于不同目標的判別能力;但當目標對象外觀變化劇烈時,如圖8(c)所示,基于全局前景感知的視覺注意的精確度則會大幅度下降,并產(chǎn)生大量噪聲.因此在分割過程中,單純利用基于全局前景感知的視覺注意不能較好地處理分割目標的外觀變化,使得最終的分割精度下降.
基于局部前景感知的視覺注意首先將當前幀的特征與前一幀對應(yīng)局部鄰域的特征進行特征匹配,并選取鄰域匹配的最大值作為當前幀特征與前一幀對應(yīng)局部鄰域特征的相似度,然后利用前一幀預(yù)測的分割掩碼提取前景信息,忽略背景信息,生成局部前景感知權(quán)重圖AL.局部前景感知權(quán)重圖中每一個點同樣代表當前幀與前景目標的相似度.基于局部前景感知的視覺注意目的是提升模型對待分割目標的跟蹤能力,有效處理目標的外觀變化,代替?zhèn)鹘y(tǒng)的掩碼傳播方法.
如圖8(c)所示,基于局部前景感知的視覺注意可以有效地跟蹤給定的分割目標.當目標對象發(fā)生較大的外觀變化時,由于出現(xiàn)大量新的外觀特征,基于全局前景感知的視覺注意可能會失效.但基于局部前景感知的視覺注意是一種逐步跟蹤的過程,由于視頻幀之間存在時空一致性,相鄰兩幀在外觀上不會出現(xiàn)劇烈變化,因此基于局部前景感知的視覺注意可以較為準確地捕獲到給定的分割目標,且不受其外觀變化的影響.但由于基于局部前景感知的視覺注意依賴視頻的連貫性,若出現(xiàn)長時間的遮擋,則不能進行目標跟蹤,此時只能依賴基于全局前景感知的視覺注意重新識別待分割目標.
針對大多數(shù)半監(jiān)督視頻目標分割網(wǎng)絡(luò)模型缺乏對相似目標的判別力,且簡單的掩碼傳播對網(wǎng)絡(luò)模型的指導(dǎo)意義不明顯,本文通過利用基于全局前景感知的視覺注意,提升模型對不同目標的判別力;其次,利用基于局部前景感知的視覺注意,提升模型對待分割目標的跟蹤能力,有效處理目標的外觀變化,代替?zhèn)鹘y(tǒng)的掩碼傳播方法;最后,基于殘差細化的解碼器利用殘差學(xué)習(xí)的思想,融合當前幀圖像的低階特征,并使用多級損失監(jiān)督,逐步提升分割細節(jié).實驗結(jié)果表明,本文的目標分割方法能有效地解決目標的相似混淆等問題,能快速、有效地分割出視頻中的給定目標.