• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      動(dòng)態(tài)外觀模型和高階能量的雙邊視頻目標(biāo)分割方法*

      2020-12-15 08:13:48熊達(dá)銘
      計(jì)算機(jī)與生活 2020年12期
      關(guān)鍵詞:像素點(diǎn)高階顏色

      田 穎,桂 彥,熊達(dá)銘

      1.長(zhǎng)沙理工大學(xué)計(jì)算機(jī)與通信工程學(xué)院,長(zhǎng)沙410114

      2.長(zhǎng)沙理工大學(xué)綜合交通運(yùn)輸大數(shù)據(jù)智能處理湖南省重點(diǎn)實(shí)驗(yàn)室,長(zhǎng)沙410114

      1 引言

      視頻目標(biāo)分割是從視頻中分割出用戶感興趣的目標(biāo)對(duì)象,即把所有像素點(diǎn)劃分為具有外觀、運(yùn)動(dòng)等相關(guān)的前/背景時(shí)空區(qū)域,且是許多高級(jí)視覺應(yīng)用的先決條件,如目標(biāo)檢測(cè)、視頻檢索、安防監(jiān)控、影視后期制作和智能交通等。通常,不同場(chǎng)景下的視頻可能包含相近似前/背景區(qū)域、物體遮擋、劇烈運(yùn)動(dòng)、模糊邊界、相機(jī)抖動(dòng)、光照變化、動(dòng)態(tài)陰影和水流等,這些復(fù)雜現(xiàn)象將導(dǎo)致視頻目標(biāo)分割方法產(chǎn)生時(shí)空不一致的結(jié)果;且視頻具有數(shù)據(jù)量大的特點(diǎn),分割時(shí)間效率低下。因此,如何實(shí)現(xiàn)一種快速且高精度的視頻目標(biāo)分割方法就顯得尤為重要。

      現(xiàn)有視頻目標(biāo)分割方法主要分為全自動(dòng)視頻目標(biāo)分割方法[1-16]和交互式視頻目標(biāo)分割方法[17-30]兩大類。前者通常利用基于光流的特征點(diǎn)/區(qū)域跟蹤[4-10]、目標(biāo)建議區(qū)域[11-16]等自動(dòng)估計(jì)視頻中的目標(biāo)對(duì)象,再通過聚類[4-11]、動(dòng)態(tài)規(guī)劃求解[14]、圖割優(yōu)化[1-3,31]等進(jìn)行問題求解。該類方法能夠很好地處理具有簡(jiǎn)單背景、目標(biāo)對(duì)象運(yùn)動(dòng)顯著的視頻目標(biāo)分割,但在目標(biāo)對(duì)象估計(jì)不準(zhǔn)確時(shí)是失效的。交互式視頻目標(biāo)分割方法則需要用戶提供適量的交互信息,并以此作為“硬”約束條件,從而產(chǎn)生符合用戶交互的視頻目標(biāo)分割結(jié)果。對(duì)于具有復(fù)雜場(chǎng)景視頻的處理,該類方法則需要提供大量的用戶交互以獲得滿意的分割結(jié)果,這將導(dǎo)致整體時(shí)間效率急劇下降。

      為了進(jìn)一步解決視頻目標(biāo)分割質(zhì)量和時(shí)間效率低下等問題,本文提出一種動(dòng)態(tài)外觀模型和高階能量的雙邊視頻目標(biāo)分割方法。首先,將帶標(biāo)記的視頻序列映射到高維的雙邊空間,減少待處理的視頻數(shù)據(jù)。然后,以非空的網(wǎng)格單元作為圖的結(jié)點(diǎn)并構(gòu)建圖割優(yōu)化模型,通過構(gòu)建置信動(dòng)態(tài)外觀模型,準(zhǔn)確地估計(jì)各像素點(diǎn)屬于前/背景的可能性;并在能量函數(shù)中引入高階能量項(xiàng),增強(qiáng)不相鄰但具有相似外觀特征結(jié)點(diǎn)的時(shí)空相關(guān)性。最后,利用最大流/最小割算法[32]求解能量函數(shù),實(shí)現(xiàn)視頻像素點(diǎn)的標(biāo)簽分配。由此,本文方法能夠很好地消除不利因素對(duì)分割的干擾,并且能夠快速且高精度地處理具有復(fù)雜場(chǎng)景的視頻目標(biāo)分割。

      2 相關(guān)工作

      2.1 全自動(dòng)視頻目標(biāo)分割方法

      全自動(dòng)視頻目標(biāo)分割方法[1-16]在無(wú)需人工干預(yù)下即可自動(dòng)跟蹤和分割視頻目標(biāo)對(duì)象。文獻(xiàn)[1-3]首先根據(jù)外觀和運(yùn)動(dòng)信息確定目標(biāo)對(duì)象,再利用圖割算法求解,但這些方法需要利用連續(xù)兩視頻幀間的運(yùn)動(dòng)信息,不能很好地處理靜止目標(biāo)對(duì)象的情況。而基于特征點(diǎn)/區(qū)域跟蹤的方法[4-10]利用光流法對(duì)特征點(diǎn)/區(qū)域進(jìn)行跟蹤,將聚類的點(diǎn)/區(qū)域軌跡作為先驗(yàn)信息,并基于時(shí)域軌跡建模以實(shí)現(xiàn)視頻目標(biāo)分割。然而,這些方法在聚類時(shí)忽略了點(diǎn)/區(qū)域軌跡的全局運(yùn)動(dòng)信息,從而難以確定待分割的目標(biāo)對(duì)象。文獻(xiàn)[11-16]利用目標(biāo)建議區(qū)域?qū)⒁曨l目標(biāo)分割轉(zhuǎn)換成區(qū)域選擇問題。這些方法是逐視頻幀分割目標(biāo)建議區(qū)域的,忽略了視頻幀間的連續(xù)性,從而導(dǎo)致視頻目標(biāo)分割質(zhì)量低下。此外,在處理具有物體遮擋和劇烈運(yùn)動(dòng)等復(fù)雜場(chǎng)景的視頻時(shí),上述方法通常難以準(zhǔn)確地估計(jì)目標(biāo)對(duì)象的形態(tài)和位置,從而容易導(dǎo)致視頻目標(biāo)的過度分割,又或產(chǎn)生不準(zhǔn)確的視頻目標(biāo)分割結(jié)果。

      2.2 交互式視頻目標(biāo)分割方法

      交互式視頻目標(biāo)分割方法[17-30]通過在一幀或多幀關(guān)鍵幀中標(biāo)注前景和背景區(qū)域以用于指導(dǎo)視頻目標(biāo)分割。該類方法通常適用于不要求實(shí)時(shí)性但對(duì)視頻目標(biāo)邊界精度要求較高的應(yīng)用,且是目前用于視頻目標(biāo)分割最常見的方法。

      其中,基于關(guān)鍵幀前向傳播的方法[17-22]在于正確跟蹤視頻序列中目標(biāo)對(duì)象的輪廓,并保證視頻目標(biāo)分割結(jié)果的時(shí)空連續(xù)性。Agarwala等[17]提出根據(jù)用戶交互跟蹤視頻目標(biāo)對(duì)象邊界的技術(shù)。Bai等[18]在目標(biāo)邊界處定義重疊的局部分類器,能夠準(zhǔn)確地捕獲視頻目標(biāo)對(duì)象輪廓的變化。進(jìn)一步增強(qiáng)顏色模型,Bai等[19]通過將運(yùn)動(dòng)估計(jì)結(jié)合到顏色建模中,再根據(jù)運(yùn)動(dòng)的局部屬性自適應(yīng)地調(diào)整模型參數(shù)。上述這兩種方法都需要假設(shè)目標(biāo)對(duì)象在視頻序列中連續(xù)且運(yùn)動(dòng)平滑。Zhong等[20]利用多方向的局部分類器處理視頻目標(biāo)在時(shí)域上不連續(xù)的問題,但該方法對(duì)于具有復(fù)雜拓?fù)湫螤畹哪繕?biāo)對(duì)象難以確定分類器窗口的大小。Fan等[21]利用掩膜傳播及雙向運(yùn)動(dòng)插值實(shí)現(xiàn)視頻目標(biāo)分割。Lu等[22]提出參數(shù)化目標(biāo)輪廓并定義圖割能量?jī)?yōu)化模型的方法,提高目標(biāo)邊界的空間精確度和時(shí)間穩(wěn)定性。然而,上述方法通常需要借助局部分類器跟蹤視頻目標(biāo)區(qū)域,因此這些方法在部署、訓(xùn)練分類器時(shí)需要消耗較長(zhǎng)的時(shí)間。此外,這些方法側(cè)重于利用顏色、運(yùn)動(dòng)等特征實(shí)現(xiàn)視頻目標(biāo)分割,對(duì)于包含劇烈運(yùn)動(dòng)、前/背景顏色相似等復(fù)雜環(huán)境視頻的分割效果不理想。

      基于圖割優(yōu)化的視頻目標(biāo)分割方法[23-30]需要將視頻數(shù)據(jù)構(gòu)建為圖結(jié)構(gòu),從而將視頻目標(biāo)分割轉(zhuǎn)化為求解圖的最大流/最小割問題。其中,Wang等[23]采用層次化的均值漂移算法將視頻像素點(diǎn)聚合成二維和三維區(qū)域,以此減少待計(jì)算的圖結(jié)點(diǎn)數(shù)量。同年,Li等[24]在相鄰視頻幀之間構(gòu)建三維圖割模型,用以保持分割結(jié)果的時(shí)空連續(xù)性。這兩種方法都是利用顏色特征實(shí)現(xiàn)視頻目標(biāo)分割,且都過度強(qiáng)調(diào)分割的精度而忽略了時(shí)間效率。Tsai等[25]利用多標(biāo)簽的馬爾可夫隨機(jī)場(chǎng)(Markov random field,MRF)圖結(jié)構(gòu)表示視頻數(shù)據(jù),且同時(shí)進(jìn)行視頻目標(biāo)的分割和運(yùn)動(dòng)估計(jì)。Jain等[26]基于時(shí)空超像素定義MRF圖割模型,并引入高階項(xiàng)進(jìn)行軟約束。Nagaraja等[27]利用光流獲取像素點(diǎn)的時(shí)序軌跡信息并約束運(yùn)動(dòng)和顏色的時(shí)空一致性,以達(dá)到少量用戶交互下高質(zhì)量的視頻目標(biāo)分割。Tsai等[28]提出同時(shí)進(jìn)行視頻目標(biāo)分割和光流估計(jì)的方法,但該方法計(jì)算復(fù)雜度較大。Marki等[29]首次提出了在雙邊空間進(jìn)行視頻目標(biāo)分割,通過利用規(guī)則時(shí)空雙邊網(wǎng)格的頂點(diǎn)定義能量函數(shù)。針對(duì)視頻中出現(xiàn)的遮擋、前/背景顏色相似等情況,Chen等[30]提出自適應(yīng)擴(kuò)大局部采樣范圍的方法,通過構(gòu)建前景外觀模型并結(jié)合運(yùn)動(dòng)估計(jì)的圖割模型,以保證分割結(jié)果時(shí)空的平滑性。然而,該類方法容易受到雜亂的背景、噪聲以及目標(biāo)邊界像素點(diǎn)的影響,且影響因素的變化會(huì)導(dǎo)致已分割目標(biāo)對(duì)象邊界的抖動(dòng),大大降低了分割結(jié)果的精度。

      近年,隨著深度學(xué)習(xí)在目標(biāo)檢測(cè)領(lǐng)域中的應(yīng)用,其也逐漸用于解決視頻目標(biāo)分割問題。Perazzi等[33]提出將靜態(tài)圖像作為網(wǎng)絡(luò)的輸入訓(xùn)練卷積神經(jīng)網(wǎng)格實(shí)現(xiàn)視頻目標(biāo)分割。Cheng等[34]提出利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)聯(lián)合估計(jì)光流和目標(biāo)對(duì)象,并提供運(yùn)動(dòng)特征以產(chǎn)生跨時(shí)空的運(yùn)動(dòng)一致性分割。Bao等[35]提出在MRF圖割模型中嵌入卷積神經(jīng)模型的方法解決視頻目標(biāo)分割問題。Wang等[36]改進(jìn)了全卷積孿生跟蹤器以生成目標(biāo)對(duì)象的二值分割,該方法雖然分割速度快,但是分割效果不佳。

      3 基于雙邊網(wǎng)格魯棒的視頻目標(biāo)分割方法

      3.1 算法概述

      Fig.1 Overview of proposed method圖1 本文方法的總體框架

      本文方法的總體框架如圖1所示,主要包括兩個(gè)階段:(1)高效的雙邊網(wǎng)格視頻預(yù)處理;(2)快速且魯棒的視頻目標(biāo)分割。給定一個(gè)視頻序列,視頻預(yù)處理階段的主要任務(wù)是將帶關(guān)鍵幀標(biāo)記的視頻序列的每一像素點(diǎn)映射到規(guī)則的高維雙邊網(wǎng)格中(圖1(a))。而在視頻目標(biāo)分割階段中,結(jié)合二義顏色判別準(zhǔn)則,構(gòu)建置信動(dòng)態(tài)外觀模型,并在傳統(tǒng)的能量函數(shù)中進(jìn)一步引入高階項(xiàng)。通過采用最大流/最小割算法進(jìn)行全局優(yōu)化求解,以實(shí)現(xiàn)快速且高質(zhì)量的視頻目標(biāo)分割(圖1(b))。需要指出的是,本文采用的是六維的雙邊網(wǎng)格,但為了更好地說明和展示,圖1中僅給出了三維的雙邊網(wǎng)格。

      3.2 高效的雙邊網(wǎng)格視頻預(yù)處理

      本文方法首先需要提供用戶交互信息作為待分割視頻目標(biāo)的先驗(yàn)信息。通常,以20幀為間隔選取多個(gè)關(guān)鍵幀,并采用交互式的圖像分割方法[37-38]獲得關(guān)鍵幀的精準(zhǔn)分割結(jié)果,如Lazy Snapping[37]和Grabcut[38]。類似于目標(biāo)快速選擇工具,用戶只需在關(guān)鍵幀中手動(dòng)地對(duì)前/背景區(qū)域進(jìn)行粗略標(biāo)記,通過自動(dòng)傳播像素點(diǎn)的標(biāo)記信息,即自動(dòng)地標(biāo)記所有顏色差異小于給定閾值的相鄰未標(biāo)記像素點(diǎn),從而極大地減少用戶交互的工作量。對(duì)于關(guān)鍵幀分割結(jié)果中產(chǎn)生的錯(cuò)誤分割區(qū)域,本文允許用戶進(jìn)行手動(dòng)校正以確保關(guān)鍵幀分割結(jié)果的精確度。此外,本文允許直接提供關(guān)鍵幀的真值圖像(ground truth,GT)作為視頻目標(biāo)分割的先驗(yàn)信息,不僅免去用戶交互過程,且能為視頻目標(biāo)分割提供準(zhǔn)確的先驗(yàn)信息。

      在標(biāo)記關(guān)鍵幀之后,依據(jù)每一像素點(diǎn)的RGB顏色值以及時(shí)空坐標(biāo),將帶關(guān)鍵幀標(biāo)記的視頻序列的每一個(gè)像素點(diǎn)p=[x,y,t]T映射到六維雙邊特征空間B=[cr,cg,cb,x,y,t]T∈R6。其中,前三維(cr,cg,cb) 表示(R,G,B)顏色值,(x,y)對(duì)應(yīng)每一像素點(diǎn)的二維空間位置坐標(biāo),最后一維t表示視頻的時(shí)間坐標(biāo)。通過在每一維度上設(shè)置采樣率,即指定顏色值軸的采樣率sr,空間坐標(biāo)軸的采樣率ss和時(shí)間坐標(biāo)軸的采樣率st,對(duì)高維特征空間進(jìn)行規(guī)則的劃分,從而獲得雙邊網(wǎng)格Γ。由此,通過設(shè)定合適的采樣率,每一像素點(diǎn)p對(duì)應(yīng)的雙邊網(wǎng)格單元vi可由式(1)計(jì)算得:

      Γ([cr/sr],[cg/sr],[cb/sr],[x/ss],[y/ss],[t/st])+=(I(x,y,t),1)(1)

      其中,[·]是向下取整操作,用來計(jì)算網(wǎng)格單元的坐標(biāo);齊次坐標(biāo)(I(x,y,t),1)用來統(tǒng)計(jì)每一個(gè)網(wǎng)格單元vi的累積顏色值和像素點(diǎn)的數(shù)目;I(x,y,t)用來表示視頻中每一像素點(diǎn)p的顏色值。直觀地,網(wǎng)格單元的數(shù)量與每一維度的采樣率成反比,且非空的網(wǎng)格單元數(shù)目遠(yuǎn)小于視頻像素點(diǎn)的數(shù)目。為了后續(xù)圖割模型優(yōu)化,還需要計(jì)算每一網(wǎng)格單元的顏色值ci=。其中,是網(wǎng)格單元vi中第j個(gè)像素點(diǎn)的顏色值,Ni是網(wǎng)格單元vi的像素點(diǎn)總數(shù)目。需要注意的是,為空的網(wǎng)格單元不需要計(jì)算其顏色值,且不用于后續(xù)分割過程的計(jì)算。

      實(shí)際上,視頻像素點(diǎn)映射到雙邊網(wǎng)格單元的過程是對(duì)視頻像素點(diǎn)的聚類。然而,當(dāng)視頻具有前景/背景相似、物體運(yùn)動(dòng)劇烈以及物體遮擋等復(fù)雜場(chǎng)景時(shí),部分網(wǎng)格單元中可能會(huì)同時(shí)存在已標(biāo)記的前景和背景像素點(diǎn),如圖1(a)所示,這些網(wǎng)格單元為具有沖突的網(wǎng)格單元。本文將重置這些網(wǎng)格單元中所有像素點(diǎn)為未標(biāo)記的像素點(diǎn),避免由標(biāo)簽沖突導(dǎo)致的錯(cuò)誤分割。此外,本文根據(jù)網(wǎng)格單元中包含已標(biāo)記像素點(diǎn)的情況,在雙邊網(wǎng)格中確定前景、背景種子點(diǎn)集。具體而言,當(dāng)網(wǎng)格單元內(nèi)已標(biāo)記的前景像素點(diǎn)數(shù)目大于等于當(dāng)前網(wǎng)格像素點(diǎn)總數(shù)目的一半時(shí),即滿足,該網(wǎng)格單元?jiǎng)t視為前景網(wǎng)格單元。其中,表示網(wǎng)格單元vi中已標(biāo)記的前景像素點(diǎn)數(shù)目。類似地,可確定背景網(wǎng)格單元。這些前景、背景網(wǎng)格單元分別構(gòu)成前景種子點(diǎn)集Sf和背景種子點(diǎn)集Sb。值得注意的是,已明確標(biāo)記為背景的網(wǎng)格單元將不用于后續(xù)計(jì)算。

      3.3 快速且魯棒的視頻目標(biāo)分割

      Fig.2 Graph-cuts optimization圖2 圖割最優(yōu)

      另外,本文需要將所有網(wǎng)格單元的標(biāo)簽值分配給網(wǎng)格單元內(nèi)的像素點(diǎn),即所有像素點(diǎn)的標(biāo)簽值與其所在網(wǎng)格單元的標(biāo)簽值一致,以獲得最終的視頻分割結(jié)果。然而,部分網(wǎng)格單元中可能存在前景、背景像素點(diǎn)被映射到同一網(wǎng)格單元的情況,此時(shí)這些網(wǎng)格單元中的部分像素點(diǎn)將被分配錯(cuò)誤的標(biāo)簽值,這些錯(cuò)誤分割的像素點(diǎn)可以看作是圖割問題求解后產(chǎn)生的噪聲。本文采用簡(jiǎn)單的中值濾波操作消除這些噪聲,進(jìn)一步優(yōu)化視頻目標(biāo)分割結(jié)果。

      其中,Nvi是網(wǎng)格單元vi中像素點(diǎn)的總數(shù)目,用于描述該網(wǎng)格單元的貢獻(xiàn)程度;||ci-cj||計(jì)算相鄰兩個(gè)網(wǎng)格頂點(diǎn)之間的顏色差異;是一個(gè)常量,其中表示視頻序列中樣本的期望值。需要注意的是,由于相鄰網(wǎng)格單元的顏色值往往是非常相似的,計(jì)算得到的平滑項(xiàng)數(shù)值都較大且比較接近,因而平滑項(xiàng)能夠鼓勵(lì)為直接相鄰的網(wǎng)格單元分配相同標(biāo)簽。此外,當(dāng)采樣率設(shè)置成sr=256,ss=1和st=1時(shí),該平滑項(xiàng)V(lvi,lvj)等同于基于像素點(diǎn)的計(jì)算方式。另外,本文主要集中討論如何提高視頻目標(biāo)分割的質(zhì)量和時(shí)間效率,即本文通過構(gòu)建置信動(dòng)態(tài)外觀模型以提高數(shù)據(jù)項(xiàng)的精度,并利用相距較遠(yuǎn)但具有相似外觀特征的網(wǎng)格單元之間的時(shí)空關(guān)系定義高階項(xiàng)。下面章節(jié)中將詳細(xì)地給出這兩項(xiàng)能量項(xiàng)的定義。

      3.3.1 置信動(dòng)態(tài)外觀模型的數(shù)據(jù)項(xiàng)定義

      數(shù)據(jù)項(xiàng)用于估計(jì)每一結(jié)點(diǎn)分配為前景或背景的可能性,其精度將直接影響視頻目標(biāo)分割結(jié)果的質(zhì)量。考慮到前景、背景的外觀是隨著網(wǎng)格時(shí)間層平滑變化的,本文利用所有非空網(wǎng)格單元為每一時(shí)間層tl∈Γt分別構(gòu)建前景外觀模型和背景外觀模型,其中Γt是雙邊網(wǎng)格的時(shí)間維度。所有時(shí)間層的前景(背景)外觀模型構(gòu)成動(dòng)態(tài)前景(背景)外觀模型Pf(Pb)。

      具體地,當(dāng)利用所有非空網(wǎng)格單元估計(jì)某一時(shí)間層tl的前景外觀模型時(shí),由于這些網(wǎng)格單元相對(duì)于當(dāng)前時(shí)間層tl的位置遠(yuǎn)近和其屬于前景的可能性是不同的,因此需要計(jì)算每一網(wǎng)格單元vi的權(quán)重,以根據(jù)其平均RGB顏色值訓(xùn)練前景的加權(quán)高斯混合模型:

      而屬于背景的可能性即為1-P(vi)。

      然而,由于本文僅根據(jù)網(wǎng)格單元的顏色值構(gòu)建動(dòng)態(tài)外觀模型。當(dāng)存在用戶交互不足、前/背景顏色相似的情況時(shí),已構(gòu)建的動(dòng)態(tài)外觀模型不能很好地?cái)M合前/背景顏色分布,這使得估計(jì)的未標(biāo)記網(wǎng)格單元屬于前/背景的可能性是不可靠的,最終導(dǎo)致低質(zhì)量的分割結(jié)果。為了解決上述問題,本文進(jìn)一步定義置信的顏色判別準(zhǔn)則,通過識(shí)別不可靠的屬于前/背景的可能性,以適應(yīng)不同形式的用戶交互輸入。

      3.3.2 魯棒高階項(xiàng)的定義

      其中,φ(·)是一個(gè)指示函數(shù),用于描述簇中任意不重復(fù)的結(jié)點(diǎn)分別與其輔助結(jié)點(diǎn)的連接,是第k′個(gè)簇的集合。

      Fig.3 Illustration for graph structure with higher-order term圖3 高階項(xiàng)的圖結(jié)構(gòu)示意圖

      由于本文高階項(xiàng)只需為每一個(gè)簇分配一個(gè)輔助結(jié)點(diǎn),因而不會(huì)產(chǎn)生具有復(fù)雜拓?fù)涞膱D結(jié)構(gòu)。此外,本文將該高階項(xiàng)作為一個(gè)“軟”約束,使得能夠?yàn)椴幌噜彽哂邢嗨铺卣鞯慕Y(jié)點(diǎn)分配一致的標(biāo)簽,但不嚴(yán)格地要求為同一簇中的結(jié)點(diǎn)分配一致的標(biāo)簽。這是由于并非所有通過聚類獲得的結(jié)點(diǎn)簇的質(zhì)量都是足夠好的,若強(qiáng)制對(duì)簇內(nèi)的結(jié)點(diǎn)分配一致標(biāo)簽往往容易出現(xiàn)錯(cuò)誤。此時(shí),當(dāng)質(zhì)量不佳的簇內(nèi)的網(wǎng)格頂點(diǎn)被分配不一致的標(biāo)簽時(shí),該高階項(xiàng)具有較高的代價(jià)。由此可見,引入高階項(xiàng)并沒有產(chǎn)生復(fù)雜的圖結(jié)構(gòu)且不強(qiáng)制為同簇結(jié)點(diǎn)分配相同的標(biāo)簽,保證了分割時(shí)間效率的同時(shí)也改善了視頻目標(biāo)分割的質(zhì)量。

      4 實(shí)驗(yàn)結(jié)果分析與討論

      本文在Intel?CoreTMi5-7400 3.00 GHz處理器、8 GB內(nèi)存的PC機(jī)環(huán)境下,使用VS 2015和OpenCV3.1.0等開發(fā)工具進(jìn)行相關(guān)實(shí)驗(yàn)。首先,在視頻預(yù)處理、概率圖、有無(wú)高階項(xiàng)及不同用戶交互四方面驗(yàn)證本文方法,并探討這些方面對(duì)實(shí)驗(yàn)結(jié)果的影響。然后,在DAVIS 2016[40]和SegTrack v2[9]數(shù)據(jù)集上與現(xiàn)有的視頻目標(biāo)分割方法進(jìn)行大量對(duì)比實(shí)驗(yàn),并從分割精度和分割效率兩方面對(duì)所有方法進(jìn)行評(píng)估,進(jìn)一步驗(yàn)證本文方法的有效性。

      4.1 本文方法驗(yàn)證

      4.1.1 視頻預(yù)處理結(jié)果比較

      圖4所示為同一視頻在相同用戶交互下,使用不同大小雙邊網(wǎng)格獲得的視頻過分割以及視頻目標(biāo)分割結(jié)果。其中,第一、三行為映射到不同大小雙邊網(wǎng)格中視頻幀的過分割結(jié)果,第二、四行為對(duì)應(yīng)雙邊網(wǎng)格大小下視頻目標(biāo)分割結(jié)果。在給出的6組不同大小的網(wǎng)格中,分別在顏色域(圖4(a)~圖4(c))、空間域(圖4(d)、圖4(e))和時(shí)間域(圖4(e)、圖4(f))上將網(wǎng)格大小的取值依次增大,此時(shí)雙邊網(wǎng)格的采樣率是逐漸減小的。當(dāng)網(wǎng)格大小設(shè)置為Γ(8,8,8,8,8,8)時(shí),采樣率較大且網(wǎng)格單元數(shù)目較少,部分網(wǎng)格單元中可能會(huì)同時(shí)包含前景像素點(diǎn)和背景像素點(diǎn),因此在該雙邊網(wǎng)格下得到的視頻目標(biāo)分割結(jié)果錯(cuò)誤較多。隨著各個(gè)域的采樣率逐漸減小,網(wǎng)格單元的數(shù)目逐漸增加,能夠逐漸改善視頻目標(biāo)分割結(jié)果的精準(zhǔn)度,如圖4(a)~圖4(f)第二、四行所示。此外,隨著待處理的網(wǎng)格單元數(shù)量的逐漸增加,分割所需的時(shí)間也是逐漸增加的。當(dāng)網(wǎng)格大小達(dá)到Γ(16,16,16,30,50,8) 之后,所得到的視頻目標(biāo)分割結(jié)果變化不明顯。若繼續(xù)減小采樣率,在產(chǎn)生相同視頻目標(biāo)分割結(jié)果下分割速率將變得非常低下。

      4.1.2 概率圖結(jié)果比較

      Fig.4 Results of video over-segmentation and video object segmentation with different sizes of bilateral grid圖4 不同大小雙邊網(wǎng)格下的視頻過分割及視頻目標(biāo)分割結(jié)果

      為了驗(yàn)證本文中置信動(dòng)態(tài)外觀模型的有效性,圖5所示為采用K-means算法構(gòu)建的顏色模型、高斯混合模型(Gaussian mixture model,GMM)算法[24]和本文置信動(dòng)態(tài)外觀模型獲得的概率圖的比較。其中,圖5(a)所示為黑熊和足球視頻序列中的部分視頻幀,圖5(b)、圖5(d)和圖5(f)分別是上述方法所產(chǎn)生的概率圖,而圖5(c)、圖5(e)和圖5(g)為對(duì)應(yīng)的視頻目標(biāo)分割結(jié)果。給定的視頻序列中存在部分前/背景顏色相似、背景內(nèi)容復(fù)雜等情況,此時(shí)利用K-means算法和GMM算法構(gòu)建的顏色模型具有較差的辨別能力,估計(jì)的概率圖中包含較多的錯(cuò)誤信息(圖5(b)和圖5(d)),導(dǎo)致產(chǎn)生不準(zhǔn)確的視頻目標(biāo)分割結(jié)果(圖5(c)和圖5(e))。然而,本文的置信外觀模型能夠準(zhǔn)確地辨別出視頻中未標(biāo)記和二義的顏色特征以識(shí)別不可靠的屬于前/背景的概率估計(jì)值,最終獲得更為準(zhǔn)確的概率估計(jì)圖(圖5(f))和視頻目標(biāo)分割結(jié)果(圖5(g))。

      同時(shí),進(jìn)一步定量評(píng)估這些顏色模型的性能,本文采用增益率Rg和錯(cuò)誤率Re這兩個(gè)指標(biāo)[41]進(jìn)行量化評(píng)價(jià):

      其中,N為視頻像素的總數(shù),T是正確分類的像素點(diǎn)總數(shù),E為錯(cuò)誤分類的像素點(diǎn)總數(shù)。表1所示為上述算法所得到的概率圖的增益率Rg與錯(cuò)誤率Re的統(tǒng)計(jì)。由表1可知,K-means算法估計(jì)出的概率圖的增益率最低且錯(cuò)誤率最高。GMM算法的增益率最高,但同時(shí)也具有較高的錯(cuò)誤率。本文構(gòu)建的置信外觀模型的增益率低于GMM算法,這是因?yàn)楸疚姆椒ㄖ袨槲礃?biāo)記和具有二義顏色特征的像素點(diǎn)都分配了一個(gè)不重要的概率值(設(shè)為0.5),但本文方法所估計(jì)的概率圖的錯(cuò)誤率在這3種顏色模型中最低。綜上所述,本文的置信動(dòng)態(tài)外觀模型更加可靠。

      Table 1 Statistics of gain and error of probability maps表1 概率圖的增益率和錯(cuò)誤率統(tǒng)計(jì)%

      4.1.3 有無(wú)高階項(xiàng)的結(jié)果比較

      Fig.5 Probability maps generated by different algorithms and video object segmentation results圖5 不同算法的概率圖及其視頻目標(biāo)分割結(jié)果

      本文方法通過引入高階項(xiàng)作為軟約束進(jìn)一步提高分割結(jié)果的精準(zhǔn)度。圖6所示為本文方法在有無(wú)高階項(xiàng)時(shí)獲得的視頻目標(biāo)分割結(jié)果。其中,從左至右分別是部分原視頻幀、真值圖像、無(wú)高階項(xiàng)和有高階項(xiàng)下的分割結(jié)果。給定的視頻中背景內(nèi)容較為復(fù)雜且目標(biāo)對(duì)象與背景有相近似的顏色,導(dǎo)致分割難度較大。當(dāng)未引入高階項(xiàng)時(shí),獲得的結(jié)果中出現(xiàn)目標(biāo)對(duì)象的部分區(qū)域明顯缺失、前/背景分割錯(cuò)誤的情況,如圖6(c)所示。而通過引入高階項(xiàng),鼓勵(lì)所有不相鄰但具有相似特征的網(wǎng)格單元分配一致標(biāo)簽,且允許為聚類效果不佳的同簇網(wǎng)格單元結(jié)點(diǎn)分配不一致的標(biāo)簽,確保獲得正確的視頻目標(biāo)分割結(jié)果,進(jìn)一步地提高分割精準(zhǔn)度,如圖6(d)所示。

      Fig.6 Results of video object segmentation with or without higher-order term圖6 有無(wú)高階項(xiàng)的視頻目標(biāo)分割結(jié)果

      4.1.4 不同用戶交互結(jié)果比較

      Fig.7 Comparison of experiment results in different user interaction圖7 不同用戶交互的實(shí)驗(yàn)結(jié)果對(duì)比

      圖7所示為不同用戶交互的實(shí)驗(yàn)結(jié)果對(duì)比。其中,圖7(b)至圖7(d)分別間隔5、20和30幀選取關(guān)鍵幀進(jìn)行用戶交互,圖7(e)為使用真值圖像提供先驗(yàn)信息的實(shí)驗(yàn)結(jié)果。圖7(b)至圖7(d)中,用戶交互不同且關(guān)鍵幀間隔依次增大,用以視頻目標(biāo)分割的先驗(yàn)信息依次減少,分割質(zhì)量逐漸遞減。但前兩行中目標(biāo)對(duì)象運(yùn)動(dòng)緩慢,不同用戶交互對(duì)分割質(zhì)量影響并不明顯。后兩行視頻中存在前/背景顏色復(fù)雜、目標(biāo)對(duì)象運(yùn)動(dòng)劇烈的復(fù)雜現(xiàn)象,使得圖7(d)中部分視頻幀未分割出目標(biāo)對(duì)象。根據(jù)視頻的復(fù)雜程度不同,圖7(e)前兩行間隔20幀、后兩行間隔15幀選取真值圖像提供先驗(yàn)信息,都獲得了較為理想的分割結(jié)果。

      4.2 不同數(shù)據(jù)集的視頻目標(biāo)分割

      4.2.1 DAVIS 2016數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

      DAVIS 2016數(shù)據(jù)集包含50個(gè)全高清視頻序列,其中每一視頻素材的分辨率包含480p和1080p兩種,且所有的視頻幀都給定了準(zhǔn)確的真值分割圖像。該數(shù)據(jù)集的視頻內(nèi)容涵蓋了常見的物體遮擋、運(yùn)動(dòng)模糊和外觀變化等情況,因此具有一定的分割難度。圖8所示為DAVIS 2016中部分視頻序列的分割結(jié)果,分別由傳統(tǒng)的基于層級(jí)圖(hierarchical graphbased video segmentation,HVS)分割方法[42]、基于時(shí)間超像素(temporal superpixels,TSP)分割方法[43]、全連接目標(biāo)建議區(qū)域(fully connected object proposals,F(xiàn)CP)分割方法[16]、基于雙邊空間(bilateral space video segmentation,BVS)分割方法[29],以及基于深度學(xué)習(xí)的靜態(tài)圖像(MaskTrack)分割方法[33]、聯(lián)合光流信息(Segflow)分割方法[34]、MRF模型聯(lián)合CNN(MRFCNN)分割方法[35]、在線目標(biāo)跟蹤(SiamMask)分割方法[36]獲得。如圖8(b)~圖8(e)所示,這些方法獲得的分割結(jié)果都出現(xiàn)部分目標(biāo)對(duì)象缺失和背景區(qū)域被錯(cuò)誤分類的情況。其中,HVS和TSP僅依賴單一的顏色特征實(shí)現(xiàn)視頻目標(biāo)分割,難以準(zhǔn)確地區(qū)分顏色相近的目標(biāo)對(duì)象和背景,嚴(yán)重降低了視頻目標(biāo)分割的精度。雖然FCP產(chǎn)生的分割結(jié)果較為理想,但是利用SVM(support vector machine)分類器提取目標(biāo)建議區(qū)域,并跟蹤跨越整個(gè)視頻序列的目標(biāo)對(duì)象時(shí),容易導(dǎo)致分類器過度擬合,從而易產(chǎn)生過度分割的實(shí)驗(yàn)結(jié)果。BVS僅利用標(biāo)準(zhǔn)的圖割優(yōu)化算法對(duì)網(wǎng)格單元進(jìn)行二值標(biāo)簽分配,該方法往往難以辨別具有相似顏色特征的前/背景網(wǎng)格單元結(jié)點(diǎn),因此部分相似顏色的背景被錯(cuò)誤識(shí)別為前景,使得最終的分割結(jié)果噪聲較多。圖8(f)~圖8(i)所示為利用深度學(xué)習(xí)方法獲得的視頻目標(biāo)分割結(jié)果,相對(duì)于前幾種方法可以獲得較好的分割結(jié)果。但對(duì)具有前/背景相似、運(yùn)動(dòng)劇烈、遮擋等復(fù)雜場(chǎng)景視頻時(shí),MaskTrack、Segflow、MRFCNN和SiamMask方法獲得的分割結(jié)果也并不理想。本文方法通過結(jié)合置信動(dòng)態(tài)外觀模型和魯棒的高階項(xiàng),不僅能夠辨別出未被標(biāo)記和具有二義的顏色,還能為不相鄰但具有相似顏色特征的網(wǎng)格單元分配一致的標(biāo)簽,因此本文方法能夠獲得高精度的分割結(jié)果,如圖8(j)所示。

      Fig.8 Comparison of experiment results in different methods from DAVIS 2016 dataset圖8 DAVIS 2016數(shù)據(jù)集中不同方法的實(shí)驗(yàn)結(jié)果對(duì)比

      圖9所示為1080p視頻在本文與BVS方法獲得的視頻目標(biāo)分割實(shí)驗(yàn)結(jié)果對(duì)比。由于1080p視頻待處理的視頻數(shù)據(jù)量大,導(dǎo)致視頻目標(biāo)分割難度進(jìn)一步增加。如圖9(c)和圖9(d)所示,1080p視頻目標(biāo)分割結(jié)果質(zhì)量低于圖8中480p視頻目標(biāo)分割結(jié)果,但本文方法在1080p視頻目標(biāo)分割中仍能獲得比較好的結(jié)果。值得注意的是,本文僅圖9使用1080p視頻進(jìn)行實(shí)驗(yàn),其余統(tǒng)一使用480p的視頻素材進(jìn)行實(shí)驗(yàn),且先驗(yàn)信息直接由真值圖像給定。

      Fig.9 Comparison of experiment results in 1080p圖9 1080p實(shí)驗(yàn)結(jié)果對(duì)比

      本文進(jìn)一步使用交并比(intersection over union,IoU)量化上述各種視頻目標(biāo)分割方法的實(shí)驗(yàn)結(jié)果的精確度,如表2所示,該值越大則表示視頻目標(biāo)分割越準(zhǔn)確。表2中詳細(xì)地給出了對(duì)比方法和本文方法在DAVIS 2016數(shù)據(jù)集中部分視頻序列的IoU和分割時(shí)間統(tǒng)計(jì)情況。由表2可知,本文方法并不是所有視頻都能獲得最優(yōu)的分割結(jié)果,但是本文方法的平均IoU值較傳統(tǒng)和基于深度學(xué)習(xí)的視頻分割方法的平均IoU值高。如表2第3列至第6列所示,在傳統(tǒng)的分割方法中,TSP方法平均IoU值最低僅0.289,即使平均IoU最高的HVS方法也比本文低約0.18。相對(duì)于傳統(tǒng)的視頻目標(biāo)分割方法,基于深度學(xué)習(xí)的方法獲得的分割質(zhì)量有所提高,如表2第7列至第10列平均IoU所示。然而,本文方法增加對(duì)未知類別和二義顏色特征的判別并引入高階項(xiàng)能量項(xiàng),進(jìn)一步提高了視頻目標(biāo)分割的質(zhì)量,因此與基于深度學(xué)習(xí)方法進(jìn)行比較也具有一定的競(jìng)爭(zhēng)力,即本文方法的平均IoU略高于最好的MRFCNN方法0.007。SiamMask方法雖然平均IoU較低,但是其分割速度最快。而本文方法平均每幀分割的時(shí)間約為0.39 s,雖不及SiamMask方法的0.02 s,但是平均IoU提高了約0.23。本文分割時(shí)間略高于BVS方法(0.37 s)是由于本文引入了高階項(xiàng)并增加了置信動(dòng)態(tài)外觀模型。值得注意的是,表2中平均IoU值是由表中列舉的視頻的IoU值計(jì)算得到的,且所有表中時(shí)間僅包含視頻預(yù)處理和視頻目標(biāo)分割過程的時(shí)間統(tǒng)計(jì)。

      4.2.2 SegTrack v2數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

      SegTrack v2數(shù)據(jù)集一共包含14個(gè)視頻序列,以及準(zhǔn)確分割的真值圖像,這些視頻具有明顯的物體遮擋、運(yùn)動(dòng)劇烈、前/背景顏色相似等內(nèi)容復(fù)雜的情況。圖10所示為SegTrack v2中部分視頻序列的分割結(jié)果,分別由自動(dòng)生成關(guān)鍵目標(biāo)(key-segments,KEY)的分割方法[11]、快速無(wú)約束(fast object segmentation in unconstrained video,F(xiàn)ST)的分割方法[1]、基于分層有向無(wú)環(huán)圖(DAG)的分割方法[14]、基于相似區(qū)域投票(non-local consensus voting,NLC)的分割方法[15]與本文方法在相同運(yùn)行環(huán)境下獲得的實(shí)驗(yàn)結(jié)果進(jìn)行比較。其中,KEY方法的分割結(jié)果中錯(cuò)誤分割的背景區(qū)域較多,甚至未分割出部分視頻幀中的目標(biāo)對(duì)象,如圖10(b)所示。這主要是由于該方法無(wú)法模擬目標(biāo)對(duì)象的形狀及位置隨時(shí)間的演變,導(dǎo)致出現(xiàn)視頻目標(biāo)對(duì)象嚴(yán)重缺失的情況。FST方法通過獲得與物體輪廓一致的但非閉合的目標(biāo)邊界輪廓圖,能夠捕獲目標(biāo)對(duì)象的形變,但是對(duì)于目標(biāo)對(duì)象與背景顏色相近似的區(qū)域難以完全分割出來,如圖10(c)所示。DAG方法采用有向無(wú)環(huán)圖從視頻序列假設(shè)對(duì)象中提取目標(biāo)對(duì)象,通常能夠得到較為理想的分割結(jié)果,如圖10(d)所示,但是運(yùn)行過程比較耗時(shí)。NLC方法利用光流法確定視頻目標(biāo)的位置,因此分割結(jié)果通常不能很好地貼合目標(biāo)邊界,使得分割結(jié)果包含較多的背景區(qū)域,如圖10(e)所示。然而,本文方法通常能夠獲得與目標(biāo)對(duì)象邊界貼合度較高且完整的分割結(jié)果,如圖10(f)所示。

      Table 2 Intersection-over-union(IoU)and time statistics of different methods on DAVIS 2016 dataset表2 DAVIS 2016數(shù)據(jù)集中不同方法的交并比及時(shí)間統(tǒng)計(jì)

      Fig.10 Comparison of experiment results in different methods from SegTrack v2 dataset圖10 SegTrack v2數(shù)據(jù)集中不同方法的實(shí)驗(yàn)結(jié)果對(duì)比

      上述方法在SegTrack v2數(shù)據(jù)集中的IoU和分割時(shí)間統(tǒng)計(jì)如表3所示,其平均值是由該數(shù)據(jù)集中所有視頻目標(biāo)分割的結(jié)果計(jì)算得。從表3可以看出,本文方法的平均IoU高于其他4種方法,且在分割時(shí)間效率上明顯快于其他方法。其中,KEY方法在分割birdfall視頻時(shí),由于未能正確地分割出目標(biāo)對(duì)象,因此其IoU為0。在時(shí)間效率上,這些方法通常需要獲取待分割的目標(biāo)對(duì)象,并逐視頻幀跟蹤視頻目標(biāo)對(duì)象,因此分割時(shí)間都較長(zhǎng)。結(jié)合平均IoU值和平均分割時(shí)間這兩個(gè)指標(biāo)對(duì)上述5種視頻目標(biāo)分割方法進(jìn)行量化評(píng)估,進(jìn)一步表明本文方法能夠快速且準(zhǔn)確地完成視頻目標(biāo)分割任務(wù)。需要注意的是,由于penguin視頻序列中包含多個(gè)重復(fù)的目標(biāo)對(duì)象,但真值圖像中僅標(biāo)記了一個(gè)目標(biāo)對(duì)象,上述方法都未使用該視頻進(jìn)行實(shí)驗(yàn),因此表3中僅給出本文方法的分割結(jié)果。

      Table 3 Intersection-over-union(IoU)and time statistics of different methods on SegTrack v2 dataset表3 SegTrack v2數(shù)據(jù)集中不同方法的交并比及時(shí)間統(tǒng)計(jì)

      5 結(jié)束語(yǔ)

      為了解決復(fù)雜場(chǎng)景下的視頻目標(biāo)分割質(zhì)量不佳和時(shí)間效率低下等問題,本文提出一種動(dòng)態(tài)外觀模型和高階能量的雙邊視頻目標(biāo)分割方法。該方法采用雙邊網(wǎng)格技術(shù)預(yù)處理視頻數(shù)據(jù)減少了待處理的數(shù)據(jù)量,并在規(guī)則采樣的雙邊網(wǎng)格頂點(diǎn)上定義圖割優(yōu)化模型,從而避免了復(fù)雜拓?fù)涞膱D結(jié)構(gòu)。本文關(guān)鍵在于構(gòu)建置信動(dòng)態(tài)外觀模型并定義魯棒高階項(xiàng),不僅能準(zhǔn)確地估計(jì)各像素點(diǎn)屬于前/背景的可能性,還能用以增強(qiáng)不相鄰但具有相似外觀特征結(jié)點(diǎn)的時(shí)空相關(guān)性,從而極大提高分割結(jié)果的質(zhì)量。大量實(shí)驗(yàn)結(jié)果證明,本文方法能夠快速地處理具有復(fù)雜場(chǎng)景及超高分辨率視頻分割任務(wù),并確保能夠獲得高精度的分割結(jié)果。下一步,本文將考慮增加視頻目標(biāo)對(duì)象的運(yùn)動(dòng)信息,進(jìn)一步提高視頻目標(biāo)分割的精準(zhǔn)度。

      猜你喜歡
      像素點(diǎn)高階顏色
      有限圖上高階Yamabe型方程的非平凡解
      高階各向異性Cahn-Hilliard-Navier-Stokes系統(tǒng)的弱解
      滾動(dòng)軸承壽命高階計(jì)算與應(yīng)用
      哈爾濱軸承(2020年1期)2020-11-03 09:16:02
      基于canvas的前端數(shù)據(jù)加密
      基于逐像素點(diǎn)深度卷積網(wǎng)絡(luò)分割模型的上皮和間質(zhì)組織分割
      認(rèn)識(shí)顏色
      特殊顏色的水
      和顏色捉迷藏
      兒童繪本(2015年8期)2015-05-25 17:55:54
      基于Bernstein多項(xiàng)式的配點(diǎn)法解高階常微分方程
      基于Node-Cell結(jié)構(gòu)的HEVC幀內(nèi)編碼
      开阳县| 九台市| 香港| 沅江市| 西昌市| 历史| 平和县| 休宁县| 金门县| 措美县| 云梦县| 安陆市| 河南省| 沙洋县| 西乌珠穆沁旗| 界首市| 孝昌县| 德昌县| 岐山县| 康马县| 陕西省| 桑日县| 弋阳县| 全椒县| 民和| 麻江县| 黄浦区| 伊春市| 乌鲁木齐县| 星座| 勐海县| 莎车县| 弥勒县| 莱芜市| 苗栗县| 靖西县| 阿拉善左旗| 临潭县| 蓬莱市| 图木舒克市| 东宁县|