桂 彥,湯 問,曾 光
1.長沙理工大學(xué) 計(jì)算機(jī)與通信工程學(xué)院,長沙 410114
2.長沙理工大學(xué) 綜合交通運(yùn)輸大數(shù)據(jù)智能處理湖南省重點(diǎn)實(shí)驗(yàn)室,長沙 410114
視頻目標(biāo)提取是將視頻中用戶感興趣的物體(即視頻目標(biāo))從視頻的其他部分(即背景)中分離開,已提取的視頻目標(biāo)可應(yīng)用于影視后期制作、運(yùn)動(dòng)識(shí)別、三維建模、虛擬現(xiàn)實(shí)和語義分割等領(lǐng)域。交互式的有監(jiān)督視頻目標(biāo)提取是目前用于解決該類問題的主要方法,可分為基于傳播框架的視頻目標(biāo)提取[1-4]和基于圖切割的視頻目標(biāo)提取[5-10]兩大類?,F(xiàn)有基于圖切割的視頻目標(biāo)提取方法允許用戶交互修正提取結(jié)果,可操作性強(qiáng),且在時(shí)間效率和提取精度上是令人滿意的。因此,本文側(cè)重于研究基于圖切割的視頻目標(biāo)提取方法。
由于視頻具有數(shù)據(jù)量大的特點(diǎn),直接基于像素級(jí)構(gòu)建的三維無向圖的結(jié)點(diǎn)和邊的數(shù)量都異常巨大,這將導(dǎo)致視頻目標(biāo)提取的效率大大降低。為提高效率,現(xiàn)有方法通常采用分水嶺算法[11]、均值位移算法[12]、超像素分割方法[13]等對(duì)視頻幀進(jìn)行預(yù)處理,并將視頻目標(biāo)提取建立在視頻幀的過分割(oversegmentation)結(jié)果基礎(chǔ)上,這有效地減少了計(jì)算代價(jià)。然而,在處理復(fù)雜自然視頻時(shí),如視頻中包含顏色相近似的視頻目標(biāo)和背景區(qū)域、視頻目標(biāo)邊界模糊、光照變化和陰影等。上述預(yù)處理方法的效果并不理想,這容易產(chǎn)生錯(cuò)誤的視頻目標(biāo)提取結(jié)果。另一方面,基于圖切割的視頻目標(biāo)提取方法通常采用光流法[14]估計(jì)視頻目標(biāo)的運(yùn)動(dòng)。然而,若視頻片段中存在多光源、噪聲干擾、視頻目標(biāo)劇烈運(yùn)動(dòng)等情況,現(xiàn)有光流算法[14]難以準(zhǔn)確地跟蹤視頻目標(biāo),這會(huì)破壞視頻目標(biāo)在視頻幀間的時(shí)空一致性,從而導(dǎo)致視頻目標(biāo)提取結(jié)果中出現(xiàn)部分殘缺等瑕疵。因此,如何確保視頻目標(biāo)提取結(jié)果的時(shí)空一致性是亟待解決的關(guān)鍵問題。
本文提出了一種基于梯度約束SLIC的快速視頻目標(biāo)提取方法。首先,通過利用梯度約束SLIC算法對(duì)所有視頻幀進(jìn)行預(yù)處理;然后,在視頻預(yù)處理結(jié)果上構(gòu)建三維無向圖,并進(jìn)一步優(yōu)化圖割模型,以最終實(shí)現(xiàn)快速且高質(zhì)量的視頻目標(biāo)提取。本文方法在segtrack數(shù)據(jù)集、youtube-objects數(shù)據(jù)集上進(jìn)行了相關(guān)實(shí)驗(yàn),并對(duì)比了經(jīng)典的視頻目標(biāo)提取方法。實(shí)驗(yàn)結(jié)果表明,本文方法通過利用改進(jìn)的超像素分割方法,改善了視頻預(yù)處理效果的同時(shí)有助于進(jìn)一步加快視頻目標(biāo)提取方法的運(yùn)算效率。本文方法通過引入保持視頻目標(biāo)時(shí)空一致性的高階項(xiàng),從而極大地改善了視頻目標(biāo)提取的質(zhì)量。
視頻目標(biāo)提取一直是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)研究熱點(diǎn)及難點(diǎn)問題。Bai等人[1]提出了一種基于測地線框架的視頻目標(biāo)提取方法,用以有效避免運(yùn)動(dòng)背景的干擾。為改善提取質(zhì)量,Bai等人[2]提出了一種基于局部分類器的視頻目標(biāo)提取方法,該方法通過在第一視頻幀的視頻目標(biāo)邊界上設(shè)置一系列重疊的局部分類器,用以向后續(xù)視頻幀傳遞視頻目標(biāo)的邊界信息。Zhong等人[3]對(duì)定向局部分類器進(jìn)行改進(jìn),解決了視頻目標(biāo)因運(yùn)動(dòng)劇烈造成的時(shí)空不連續(xù)性問題??紤]到視頻目標(biāo)和背景通常具有不同的運(yùn)動(dòng)特征,F(xiàn)an等人[4]提出了一種基于掩膜圖傳播以及雙向運(yùn)動(dòng)插值的視頻目標(biāo)提取方法。該方法通過分別對(duì)齊視頻目標(biāo)和背景,并使用兩個(gè)分離的最近鄰域(split nearest-neighbor fields)分別跟蹤視頻目標(biāo)和背景區(qū)域。上述這些基于傳播框架的視頻目標(biāo)提取方法在提取視頻目標(biāo)時(shí),通常需要借助局部分類器跟蹤局部視頻目標(biāo)區(qū)域,因而,用戶需要消耗大量時(shí)間進(jìn)行局部分類器的部署以及各分類器的訓(xùn)練。為獲得理想的視頻目標(biāo)提取結(jié)果,用戶需要對(duì)第一視頻幀的前景目標(biāo)進(jìn)行精確提取,以及用戶需要對(duì)錯(cuò)誤的視頻目標(biāo)提取結(jié)果不斷進(jìn)行交互修正。因此,相對(duì)于基于框架傳播的視頻目標(biāo)提取方法,快速提取高質(zhì)量的視頻目標(biāo)更適合采用基于圖切割的視頻目標(biāo)提取方法進(jìn)行解決。
在對(duì)基于圖切割的視頻目標(biāo)提取方法的研究中,Li等人[5]提出了一種基于三維圖切割(3D graph cut)的視頻目標(biāo)提取方法。該方法采用分水嶺方法[11]對(duì)視頻進(jìn)行預(yù)分割;通過增加跨時(shí)空域的基于顏色特征度量的能量項(xiàng),可在連續(xù)的關(guān)鍵幀對(duì)中運(yùn)用三維圖切割方法進(jìn)行視頻目標(biāo)提取。Wang等人[6]提出了一套交互式視頻目標(biāo)提取系統(tǒng)。首先,該方法通過采用均值位移(mean-shift)算法[12]對(duì)視頻進(jìn)行層次化分解;然后,在現(xiàn)有的圖割模型中引入了新的局部能量項(xiàng),這有助于從背景中分離視頻目標(biāo)。然而,該方法不能很好地處理視頻目標(biāo)遮擋的情況。Huang等人[7]提出了一種新的基于超圖(hypergraph)的視頻目標(biāo)提取方法。該方法將視頻目標(biāo)提取問題轉(zhuǎn)化為關(guān)于超圖內(nèi)所有超邊的標(biāo)簽分配問題。此外,該方法需要采用基于光譜的多尺度圖像分割方法[15]對(duì)所有視頻幀進(jìn)行預(yù)處理。Tong等人[8]提出了一種漸進(jìn)式視頻目標(biāo)提取方法,該方法根據(jù)用戶的交互不斷將交互結(jié)果傳遞至后續(xù)視頻幀,以及該方法通過采用三維多層窄帶圖割策略加快了視頻目標(biāo)提取的效率。Zhang等人[9]提出了一種基于跨時(shí)空域的視頻目標(biāo)提取方法,這使得該方法在少量用戶交互輸入下適用于同時(shí)提取視頻中多個(gè)重復(fù)場景目標(biāo)。為提高運(yùn)算效率,上述這些方法分別采用分水嶺算法、均值位移算法等預(yù)處理視頻數(shù)據(jù)。然而,由分水嶺算法得到的結(jié)果存在嚴(yán)重的過分割現(xiàn)象,且運(yùn)算效率較低;而使用均值位移算法生成的子塊區(qū)域非常不規(guī)則,這些都會(huì)影響后續(xù)視頻目標(biāo)提取方法的質(zhì)量和效率。
Ren等人[13]首次提出了超像素分割方法。使用超像素分割方法生成的超像素在良好保持圖像局部特征的同時(shí),還能夠有效地表達(dá)目標(biāo)區(qū)域的邊界信息。因此,相較于分水嶺、均值位移等圖像過分割算法,超像素分割方法更適用于視頻數(shù)據(jù)的預(yù)處理。而在視頻目標(biāo)提取方法中,如果使用超像素替代像素點(diǎn)構(gòu)建三維無向圖,則圖中的結(jié)點(diǎn)和邊的數(shù)量都會(huì)明顯減少,這有助于提高后續(xù)視頻目標(biāo)提取的效率。其中,為增強(qiáng)不同視頻幀間視頻目標(biāo)區(qū)域的連通關(guān)系,Grundmann等人[16]提出了一種層次化的視頻目標(biāo)提取方法,該方法根據(jù)視頻預(yù)處理結(jié)果生產(chǎn)的子塊區(qū)域構(gòu)建不同階層的區(qū)域圖,從而可采用基于最小生成樹的方法進(jìn)行視頻目標(biāo)提取。此外,該方法利用光流法估計(jì)視頻目標(biāo)在下一視頻幀的大致位置,以此作為視頻目標(biāo)的位置先驗(yàn)信息,并用于后續(xù)的視頻目標(biāo)提取。Papazoglou等人[17]提出了一種快速且全自動(dòng)的視頻目標(biāo)提取方法。該方法利用Turbopixel算法[18]對(duì)視頻片段進(jìn)行預(yù)處理,且利用光流算法對(duì)視頻目標(biāo)在視頻中的位置進(jìn)行粗略估計(jì),由此,該方法可借助動(dòng)態(tài)更新的外觀模型與位置先驗(yàn)修正粗略的視頻提取結(jié)果。Jain等人[19]提出了一種基于超體素的半監(jiān)督視頻目標(biāo)提取方法。該方法首先將連續(xù)視頻幀內(nèi)的超像素聚合成三維超體素,然后通過同時(shí)度量超體素內(nèi)超像素之間的外觀相似性和運(yùn)動(dòng)相似性以建立連通關(guān)系,這能夠準(zhǔn)確地將視頻目標(biāo)的邊界信息傳遞給后續(xù)視頻幀。Giordano等人[20]提出的視頻目標(biāo)提取方法適用于提取具有復(fù)雜場景的視頻片段中的一個(gè)或多個(gè)視頻目標(biāo)。該方法采用SLIC算法[21]對(duì)視頻片段進(jìn)行預(yù)處理,且利用基于外觀和視覺組織的先驗(yàn)信息優(yōu)化能量函數(shù),從而通過最小化能量函數(shù)實(shí)現(xiàn)視頻目標(biāo)提取。Tsai等人[22]提出了一種同時(shí)估計(jì)光流和分割視頻目標(biāo)的方法,在預(yù)處理視頻幀基礎(chǔ)上,該方法迭代地優(yōu)化估計(jì)的光流并以此更新視頻目標(biāo)分割結(jié)果。
雖然上述基于超像素級(jí)的視頻目標(biāo)提取方法均借助了超像素分割方法提高運(yùn)算效率,但超像素分割方法的分割質(zhì)量與運(yùn)算效率相互制約,而這會(huì)直接影響視頻目標(biāo)提取方法的提取質(zhì)量與運(yùn)算效率?,F(xiàn)有光流算法不能魯棒地估計(jì)復(fù)雜自然視頻中目標(biāo)的運(yùn)動(dòng)信息,而錯(cuò)誤的視頻目標(biāo)運(yùn)動(dòng)信息會(huì)導(dǎo)致視頻目標(biāo)提取結(jié)果的時(shí)空不一致性。針對(duì)以上問題,本文采用改進(jìn)后的SLIC超像素分割方法對(duì)所有視頻幀進(jìn)行預(yù)處理,且通過結(jié)合外觀特征與運(yùn)動(dòng)特征構(gòu)建魯棒的相似外觀度量機(jī)制,同時(shí)引入基于超像素的高階項(xiàng),以獲得理想的視頻目標(biāo)提取結(jié)果。
本文提出的基于梯度約束SLIC的視頻目標(biāo)提取方法的總體框架如圖1所示,主要包括視頻預(yù)處理、三維無向圖的構(gòu)建和視頻目標(biāo)提取三個(gè)階段。在視頻預(yù)處理階段中,在所選視頻關(guān)鍵幀上分別標(biāo)記視頻目標(biāo)和背景區(qū)域;同時(shí),通過使用梯度約束SLIC算法對(duì)所有視頻幀進(jìn)行預(yù)處理,此時(shí),每一視頻幀的過分割結(jié)果中超像素?cái)?shù)量是相同的。在三維無向圖的構(gòu)建階段中,主要是以視頻片段中的所有超像素作為三維無向圖的結(jié)點(diǎn),以及超像素之間的空間和時(shí)間鄰接關(guān)系就是三維無向圖中連接結(jié)點(diǎn)對(duì)之間的邊。而在視頻目標(biāo)提取階段中,本文根據(jù)構(gòu)建的三維無向圖進(jìn)一步改進(jìn)基于馬爾科夫隨機(jī)場的能量函數(shù)[23],其關(guān)鍵在于結(jié)合外觀特征和運(yùn)動(dòng)特征重定義能量函數(shù)中的平滑項(xiàng),以進(jìn)行更準(zhǔn)確的外觀相似性度量;并在此基礎(chǔ)上引入高階項(xiàng)以保持視頻目標(biāo)提取結(jié)果的時(shí)空一致性。最后,本文方法采用最大流/最小割算法最小化能量函數(shù),通過獲得全局最優(yōu)解以實(shí)現(xiàn)快速且高質(zhì)量的視頻目標(biāo)提取。
由于采用原SLIC算法[21]預(yù)處理視頻幀時(shí)較大程度上受緊密度值的影響,為獲取理想的視頻預(yù)處理結(jié)果,用戶則需要逐視頻幀設(shè)置合適的緊密度值,這增加了視頻預(yù)處理的時(shí)間消耗。本文通過在原SLIC算法中引入梯度約束項(xiàng)以進(jìn)一步優(yōu)化像素聚類過程,即根據(jù)局部區(qū)域的顏色特征和梯度,對(duì)相應(yīng)超像素的邊緣進(jìn)行修正,使其更貼近實(shí)際輪廓。采用本文改進(jìn)的超像素分割方法對(duì)視頻幀進(jìn)行預(yù)處理的步驟如下:
步驟1初始化聚類中心。在每一視頻幀上(圖2(a)),以為步長柵格化視頻幀且初始化K個(gè)聚類中心φj={φ1,φ2,…,φK}(圖2(b)),每個(gè)聚類中心擁有唯一的標(biāo)簽。其中,N為視頻幀的總像素?cái)?shù)目;K為用戶指定的超像素?cái)?shù)目。
步驟2重置聚類中心。對(duì)于每一聚類中心φj,在其3×3的鄰域內(nèi)將其重置為φj′,該重置聚類中心為該鄰域內(nèi)具有最小梯度的像素點(diǎn)的坐標(biāo)位置(圖2(c))。
Fig.1 Algorithm flow chart for gradient-constrained SLIC based video object segmentation圖1 基于梯度約束的SLIC視頻目標(biāo)提取算法流程圖
步驟3像素聚類。對(duì)于視頻幀上每一個(gè)像素點(diǎn)i,通過為像素點(diǎn)i賦予與其特征距離D(i,j)最近的重置聚類中心φj′的標(biāo)簽,從而實(shí)現(xiàn)像素聚類。為得到更加精確的像素聚類結(jié)果,本文在原特征距離的定義中引入了梯度約束項(xiàng)dt,這有助于根據(jù)梯度修正超像素的邊緣和形狀,從而提高超像素分割的精確度?;谔荻燃s束項(xiàng)的特征距離定義如下:
Fig.2 Video frame preprocessing圖2 視頻幀預(yù)處理
其中,dg(i,j)=?i?cosθ為超像素邊緣上的所有像素點(diǎn)的約束力,其中?i為像素點(diǎn)i的梯度;θ為像素點(diǎn)i的梯度方向與其至重置聚類中心φj′方向的夾角;E(i)=dse-?i/α用于調(diào)整像素點(diǎn)i到聚類中心φj′的特征距離,以控制生成的超像素的形狀:若像素點(diǎn)i到聚類中心φj′的歐氏距離ds越小,則E(i)取值偏小,算法傾向于為像素點(diǎn)i分配重置聚類中心φj′的標(biāo)簽;反之,則傾向于分配匹配聚類中心的標(biāo)簽;α和λt為常數(shù)項(xiàng),本文在所有實(shí)驗(yàn)中分別取α=15和λt=0.5。引入梯度約束項(xiàng)dt的主要作用是提高各超像素的邊緣與實(shí)際輪廓的貼合度,且確保超像素的緊密度,以改善超像素分割方法的分割質(zhì)量,這有助于提高后續(xù)視頻目標(biāo)提取的準(zhǔn)確率。
步驟4迭代優(yōu)化聚類結(jié)果。在上述像素聚類結(jié)果中,本文使用Sigma濾波[24]消除孤立的噪聲點(diǎn),這是為了避免超像素結(jié)果中出現(xiàn)顆粒狀區(qū)域。在本文提供的所有視頻預(yù)處理結(jié)果中,改進(jìn)的視頻預(yù)處理方法在迭代5次后即可取得理想的超像素分割結(jié)果,因此本文設(shè)置達(dá)到最大迭代次數(shù)(=5次)為像素聚類迭代過程的終止條件。
在對(duì)所有視頻幀進(jìn)行預(yù)處理之后,本文將待分割的視頻段構(gòu)建為三維無向圖G=(ν,ε),用于表達(dá)視頻片段中超像素間的連通關(guān)系。其中,結(jié)點(diǎn)集ν包含預(yù)處理視頻片段后生成的所有超像素;邊集ε包含連接直接相鄰結(jié)點(diǎn)對(duì)的邊集εI,以及連接不直接相鄰但具有相似外觀特征的結(jié)點(diǎn)對(duì)的邊集εT,且其中的每一條邊都有對(duì)應(yīng)的權(quán)值。另外,每個(gè)結(jié)點(diǎn)都與虛擬的兩個(gè)終端結(jié)點(diǎn)S和T建立連接邊。
直接相鄰的邊集εI(圖3中紅色的邊)由連接同一視頻幀中直接相鄰兩個(gè)結(jié)點(diǎn)之間的邊和連接前后兩視頻幀中空間位置相鄰的兩個(gè)結(jié)點(diǎn)間的邊組成。本文結(jié)合像素覆蓋率和中心坐標(biāo)間的空間距離度量前后視頻幀中相鄰結(jié)點(diǎn)對(duì)的鄰接關(guān)系:給定兩個(gè)結(jié)點(diǎn)p∈fi和q∈{fi-1,fi+1},若這兩個(gè)結(jié)點(diǎn)對(duì)應(yīng)超像素的中心坐標(biāo)距離小于用戶指定的閾值,則建立連接邊<p,q>∈εI。其中,N為當(dāng)前視頻幀包含的超像素個(gè)數(shù),K為當(dāng)前視頻幀的總像素?cái)?shù)目。為構(gòu)建具有相似運(yùn)動(dòng)特征的邊集εT,本文需要確定同一視頻幀或不同視頻幀(圖3中藍(lán)色的邊)中不直接相鄰但具有一定相似特征的結(jié)點(diǎn)對(duì)的鄰接關(guān)系:若兩個(gè)結(jié)點(diǎn)p和q對(duì)應(yīng)超像素的中心坐標(biāo)距離大于閾值R且運(yùn)動(dòng)特征相近似,則建立連接邊<p,q>∈εT,其中基于運(yùn)動(dòng)特征的相似性度量將在后續(xù)式(6)中進(jìn)行詳細(xì)說明。通過確定各結(jié)點(diǎn)對(duì)之間的連通關(guān)系后,本文在兩關(guān)鍵視頻幀之間構(gòu)建三維無向圖,如圖3所示。
在此基礎(chǔ)上,本文將視頻目標(biāo)提取問題轉(zhuǎn)換為三維無向圖G的最優(yōu)二值標(biāo)簽分配問題,即通過利用最大流/最小割算法最小化能量函數(shù)E(l),可為每一個(gè)結(jié)點(diǎn)分配唯一的標(biāo)簽l∈{0,1},從而確定每一結(jié)點(diǎn)是屬于視頻目標(biāo)區(qū)域(l=0)或是屬于背景區(qū)域(l=1)。需要指出的是,已被用戶標(biāo)記覆蓋的結(jié)點(diǎn)具有絕對(duì)的標(biāo)簽值。根據(jù)構(gòu)建的三維無向圖G,基于馬爾科夫隨機(jī)場的能量函數(shù)E(l)定義如下:
其中,Dp(lp)為數(shù)據(jù)項(xiàng),用于計(jì)算結(jié)點(diǎn)p分配標(biāo)簽lp∈{0,1}時(shí)的能量懲罰;Vp,q(lp,lq)為基于外觀特征的平滑項(xiàng),用于度量直接相鄰的結(jié)點(diǎn)在分配不同標(biāo)簽時(shí)的能量懲罰;Up,q(lp,lq)為時(shí)空平滑項(xiàng),用于度量不直接相鄰但具有一定相似運(yùn)動(dòng)特征的結(jié)點(diǎn)在分配不同標(biāo)簽時(shí)的能量懲罰;Hυ(lυ)為高階項(xiàng),用于增強(qiáng)連續(xù)視頻幀中超像素之間的連通關(guān)系,其中,υ是由視頻片段中具有較強(qiáng)時(shí)空一致性的超像素組成的超像素集;X為整個(gè)視頻片段中所有超像素集的集合。對(duì)于數(shù)據(jù)項(xiàng)Dp(lp)的計(jì)算,根據(jù)用戶在關(guān)鍵幀上的交互輸入,采用高斯混合模型(Gaussian mixture models,GMMs)[25]分別估計(jì)視頻目標(biāo)和背景的顏色模型,以計(jì)算任一結(jié)點(diǎn)屬于視頻目標(biāo)或背景的可能性。其中,前景和背景高斯混合模型均由5個(gè)單高斯分布組成。如下,本文將詳細(xì)闡述其他各能量項(xiàng)的定義。
平滑項(xiàng)Vp,q(lp,lq):當(dāng)視頻中的前景目標(biāo)和背景的顏色相近似時(shí),單一的顏色特征并不能準(zhǔn)確度量前景目標(biāo)與背景的差異。由此,本文通過結(jié)合顏色特征與紋理特征度量直接相鄰兩結(jié)點(diǎn)之間的外觀相似程度,平滑項(xiàng)Vp,q(lp,lq)的具體定義如下:
其中,β為常數(shù)項(xiàng),用于控制結(jié)點(diǎn)之間在分配不同標(biāo)簽時(shí)的外觀差異容限;δ(p,q)用于度量直接相鄰結(jié)點(diǎn)p和q之間的外觀差異,其中,‖Zp-Zq‖和 ‖Tp-Tq‖分別用于度量相鄰結(jié)點(diǎn)p和q在顏色特征和紋理特征上的差異。本文采用Gabor濾波[26]進(jìn)行紋理特征提取,提取的紋理特征向量Tp是由m個(gè)尺度和n個(gè)方向(通常取m=4,n=6)上的均值μm,n和標(biāo)準(zhǔn)差σm,n組成的特征向量。值得注意的是,本文取每個(gè)超像素聚類中心的區(qū)域內(nèi)的平均Gabor特征向量作為結(jié)點(diǎn)p的紋理特征,其中S為預(yù)處理方法中聚類中心φj之間的步長;λ為調(diào)節(jié)顏色特征與紋理特征比重的參數(shù)。另外,顏色特征與紋理特征都是歸一化的。由平滑項(xiàng)Vp,q(lp,lq)計(jì)算得到的能量懲罰對(duì)應(yīng)圖3中標(biāo)記了紅色的邊的權(quán)值。
時(shí)空平滑項(xiàng)Up,q(lp,lq):本文采用光流法跟蹤前景目標(biāo)在視頻片段中的運(yùn)動(dòng)軌跡,然而,當(dāng)視頻中存在目標(biāo)劇烈運(yùn)動(dòng)、非剛體運(yùn)動(dòng)以及光照變換等不利因素時(shí),不穩(wěn)定的光流估計(jì)會(huì)影響視頻目標(biāo)提取結(jié)果的質(zhì)量。由此,本文結(jié)合顏色特征與運(yùn)動(dòng)特征定義時(shí)空平滑項(xiàng):
其中,?(p,q)用于度量時(shí)空結(jié)點(diǎn)對(duì)的外觀相似程度;fp和fq為結(jié)點(diǎn)p和q對(duì)應(yīng)的光流向量。φθp,q為光流向量fp與fq之間夾角的余弦值;λ為常數(shù)項(xiàng),用于平衡顏色特征和運(yùn)動(dòng)特征之間的重要程度。此外,為確保準(zhǔn)確跟蹤視頻目標(biāo),本文計(jì)算光流向量fp與fq的置信度,并剔除閾值外的不可靠的光流。置信度定義如下:
高階項(xiàng)Hυ(lυ):在能量函數(shù)E(l)中,兩平滑項(xiàng)Vp,q(lp,lq)和Up,q(lp,lq)的主要作用是保持提取結(jié)果中視頻目標(biāo)的時(shí)空一致性。然而,時(shí)空平滑項(xiàng)Up,q(lp,lq)很大程度上依賴于準(zhǔn)確的光流估計(jì),因此上述兩平滑項(xiàng)僅能保持提取結(jié)果中相鄰視頻幀中前景目標(biāo)的時(shí)空一致性。由于視頻目標(biāo)內(nèi)局部區(qū)域之間的運(yùn)動(dòng)特征往往存在較大差異,這將導(dǎo)致錯(cuò)誤的標(biāo)簽分配,從而容易產(chǎn)生視頻目標(biāo)殘缺等不理想的提取結(jié)果。為增強(qiáng)視頻目標(biāo)區(qū)域的連通關(guān)系,文獻(xiàn)[19]在能量公式中引入高階項(xiàng)以實(shí)現(xiàn)高質(zhì)量的視頻目標(biāo)提取。該方法中定義的高階項(xiàng)是建立在利用文獻(xiàn)[15]生成的超體素的基礎(chǔ)上的,且超體素內(nèi)部的結(jié)點(diǎn)之間的連通關(guān)系是相對(duì)固定的。然而,在處理復(fù)雜場景的視頻片段時(shí),利用文獻(xiàn)[15]生成的超體素中往往會(huì)出現(xiàn)視頻目標(biāo)區(qū)域和背景區(qū)域劃分為同一個(gè)超體素的情況,此時(shí),文獻(xiàn)[19]中定義的高階項(xiàng)將無法用于修正上述的錯(cuò)誤結(jié)果。在本文中,通過度量用戶標(biāo)記的超像素與跨時(shí)空鄰域的超像素在運(yùn)動(dòng)特征以及位置上的差異,在無向圖中建立連接具有較強(qiáng)連通關(guān)系的超像素的邊,以此形成跨時(shí)空的超像素集υ。具體地,對(duì)于關(guān)鍵幀fi上用戶標(biāo)記為視頻目標(biāo)/背景的超像素plp=0/1,若其他視頻幀中存在超像素qlq=0/1,且與已標(biāo)記超像素plp=0/1的中心坐標(biāo)距離和對(duì)應(yīng)光流向量的夾角均小于用戶給定的閾值,則判定超像素plp=0/1與超像素qlq=0/1具有較強(qiáng)的連通關(guān)系,且認(rèn)為其是屬于視頻目標(biāo)/背景的超像素集υl=0/1的。高階項(xiàng)Hυ(lυ)定義如下:
其中,N(lυ)表示超像素集υ內(nèi)具有“弱勢”標(biāo)簽的超像素的個(gè)數(shù)。若超像素集內(nèi)100個(gè)超像素中有94個(gè)超像素的標(biāo)簽為“0”,6個(gè)超像素的標(biāo)簽為“1”,則標(biāo)簽為“1”的超像素處于“弱勢”。此時(shí),對(duì)應(yīng)的N(lυ)取值為6。J為用戶設(shè)置的截?cái)鄥?shù),主要用于調(diào)整超像素集υ內(nèi)超像素間的連通關(guān)系。Uυ為將超像素集υ中所有超像素劃分為視頻目標(biāo)或背景的能量懲罰總和。相對(duì)于文獻(xiàn)[17],本文通過為連續(xù)視頻幀中具有較強(qiáng)連通關(guān)系的視頻目標(biāo)區(qū)域賦予高階項(xiàng)Hυ(lυ),這能夠減少這些區(qū)域在最小化能量函數(shù)時(shí)所需的能量懲罰,從而確保它們?cè)谝曨l目標(biāo)提取結(jié)果中的時(shí)空一致性。因此,這一定程度上避免了視頻目標(biāo)提取結(jié)果中出現(xiàn)前景目標(biāo)殘缺等瑕疵。
本文方法是在2.5 GHz處理器、8 GB內(nèi)存的PC機(jī)上使用VS和OpenCV等開發(fā)工具實(shí)現(xiàn)的。為驗(yàn)證本文方法的實(shí)用性與高效性,本文在Segtrack數(shù)據(jù)集和Youtube-objects數(shù)據(jù)集上進(jìn)行了大量相關(guān)實(shí)驗(yàn)驗(yàn)證,并從提取質(zhì)量和時(shí)間效率兩方面對(duì)比了現(xiàn)有經(jīng)典的視頻目標(biāo)提取方法。另外,選取視頻素材進(jìn)行實(shí)驗(yàn)時(shí)充分考慮攝像機(jī)是否固定以及背景是否變化等情況,從而確保獲得的實(shí)驗(yàn)結(jié)果能夠在質(zhì)量與效率上客觀評(píng)價(jià)本文方法。
圖4給出了本文改進(jìn)的SLIC算法與原SLIC算法[21]在MSRA10K_Imgs_GT公共數(shù)據(jù)集(圖4(a)和圖4(b))和video Segmentation Data公共數(shù)據(jù)集(圖4(c)和圖4(d))上的實(shí)驗(yàn)對(duì)比。其中,第一行給出的待處理的視頻幀具有光照變換明顯、前景目標(biāo)形態(tài)不規(guī)則且內(nèi)部區(qū)域顏色分布復(fù)雜等特點(diǎn)。第二行是使用原SLIC算法得到的視頻幀的超像素分割結(jié)果,這些超像素結(jié)果中出現(xiàn)了多種顏色信息(圖4(a))、邊緣過于鋸齒化(圖4(b))、超像素包含超像素(圖4(c))和形狀不規(guī)則(圖4(d))等瑕疵。這是由于原SLIC算法直接在聚類中心的鄰域內(nèi)進(jìn)行k-means聚類,沒有對(duì)超像素的輪廓進(jìn)行約束,這容易生成形狀不規(guī)則的超像素;且k-means聚類算法對(duì)異常值較為敏感,這將使得聚類過程結(jié)束后產(chǎn)生孤立的噪聲點(diǎn)。如圖4第三行所示,本文改進(jìn)后的SLIC算法能夠獲得較好的超像素分割結(jié)果,其關(guān)鍵是在像素聚類過程中引入了梯度約束項(xiàng),這不僅能夠使超像素的輪廓更貼近實(shí)際目標(biāo)的邊緣,還能夠使得生成的超像素的形狀更加均勻。同時(shí),在每次像素聚類迭代后,本文使用Sigma濾波器去除噪聲點(diǎn)以進(jìn)一步改善超像素分割結(jié)果的質(zhì)量。
圖5給出了與視頻預(yù)處理方法的實(shí)驗(yàn)結(jié)果對(duì)比。對(duì)于處理具有復(fù)雜形狀的前景目標(biāo)(圖5(a)第一行),使用分水嶺算法獲得的實(shí)驗(yàn)結(jié)果中存在嚴(yán)重的過分割現(xiàn)象(圖5(b)第一行);而在采用均值位移算法獲得的實(shí)驗(yàn)結(jié)果中,圖像子塊區(qū)域形狀、面積差異過大(圖5(c)第一行),這兩種方法均無法獲得理想的視頻幀預(yù)處理結(jié)果。而超像素分割方法旨在于生成形狀趨于均勻且能夠保留一定圖像局部特征的超像素,因此有效避免了上述兩種方法的不足。實(shí)際上,不同超像素方法所產(chǎn)生的結(jié)果也會(huì)存在差異:ERS(entropy rate superpixel)算法[27]通過構(gòu)造隨機(jī)游走的熵率項(xiàng),使得超像素具有良好的邊緣貼合度,但該算法生成的不規(guī)則形狀的超像素可能成為后續(xù)視頻目標(biāo)提取的一個(gè)隱患(圖5(d)第一行);RSP(regular super-pixel)算法[28]過于強(qiáng)調(diào)保持超像素的拓?fù)浣Y(jié)構(gòu),因而生成的超像素的邊界不能貼合復(fù)雜形狀目標(biāo)的真實(shí)輪廓(圖5(e)第一行);LSC(linear spectral clustering)算法[29]相對(duì)于上述兩種超像素分割[27-28]算法較好地實(shí)現(xiàn)了超像素在拓?fù)浣Y(jié)構(gòu)與邊緣貼合度的平衡,但該算法依然會(huì)生成形狀不規(guī)則的超像素(圖5(f)第二行)。對(duì)于包含具有前景目標(biāo)是非剛體運(yùn)動(dòng)的視頻(圖5(a)第二行)和具有不同光照效果的視頻(圖5(a)第三行),本文的預(yù)處理方法能夠生成較理想的超像素分割結(jié)果,如圖5(g)第二行和第三行所示。
Fig.4 Comparisons on results of video frame preprocessing圖4 視頻幀預(yù)處理結(jié)果對(duì)比
4.2.1 Segtrack數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
Fig.5 Comparison of methods for video preprocessing圖5 視頻幀預(yù)處理方法對(duì)比
Fig.6 Comparison of experiment results on Segtrack(monkeydog)圖6 Segtrack數(shù)據(jù)集實(shí)驗(yàn)結(jié)果對(duì)比(monkeydog)
Fig.7 Comparison of experiment results on Segtrack(girl)圖7 Segtrack數(shù)據(jù)集實(shí)驗(yàn)結(jié)果對(duì)比(girl)
Segtrack數(shù)據(jù)集包含有猴子、狗、女孩、鳥、降落傘、獵豹和企鵝7個(gè)視頻,并包含有準(zhǔn)確分割這些視頻的真值圖像。雖然這些視頻是普通分辨率的,但視頻內(nèi)容復(fù)雜,如具有視頻目標(biāo)與背景顏色接近、視頻目標(biāo)非剛體運(yùn)動(dòng)、攝像機(jī)快速運(yùn)動(dòng)等情況。這增加了視頻目標(biāo)提取的難度。圖6和圖7分別給出的是對(duì)猴子視頻片段和女孩視頻片段的前景目標(biāo)提取結(jié)果,這兩段視頻片段均包含非剛體運(yùn)動(dòng)的視頻目標(biāo)以及復(fù)雜的背景,且分別與文獻(xiàn)[5,17,19,22]進(jìn)行了實(shí)驗(yàn)結(jié)果對(duì)比。從圖6中可以看出,文獻(xiàn)[5](圖6(c))獲得的提取結(jié)果中存在視頻目標(biāo)缺失(第三行)和嚴(yán)重欠分割(第五行)等瑕疵。這是由于單一利用顏色特征難以準(zhǔn)確區(qū)分具有顏色相近似的視頻目標(biāo)與背景。文獻(xiàn)[17](圖6(d))通過結(jié)合顏色特征與運(yùn)動(dòng)特征用以提取視頻目標(biāo),然而,由于該方法無法準(zhǔn)確估計(jì)視頻目標(biāo)的非剛體運(yùn)動(dòng),因此極大地降低了前景提取精度。文獻(xiàn)[19](圖6(e))提取的視頻目標(biāo)仍存在局部缺失的情況(第三行),主要原因在于視頻目標(biāo)提取的質(zhì)量過分依賴超體素的邊緣貼合度。此外,對(duì)于處理具有復(fù)雜場景視頻時(shí),文獻(xiàn)[19]在預(yù)處理階段生成的三維超體素并不能準(zhǔn)確表達(dá)視頻目標(biāo)的邊界信息。文獻(xiàn)[22]通過迭代更新視頻中猴子的運(yùn)動(dòng)信息,從而能夠獲得較理想的視頻目標(biāo)提取結(jié)果(如圖6(f)所示)。本文使用基于梯度約束的超像素分割方法逐幀進(jìn)行預(yù)處理,生成的超像素邊緣貼合度較高。此外,本文基于多特征融合度量視頻目標(biāo)與背景的差異,在提取具有非剛體運(yùn)動(dòng)的視頻目標(biāo)時(shí)也能得到較好的結(jié)果(如圖6(g)所示)。
圖7給出的是處理女孩(girl)視頻片段獲得的視頻目標(biāo)提取結(jié)果。在文獻(xiàn)[5]給出的結(jié)果中,存在嚴(yán)重的視頻目標(biāo)內(nèi)部區(qū)域缺失和目標(biāo)邊界鋸齒化等現(xiàn)象(圖7(c))。文獻(xiàn)[17,19]使用超像素分割方法進(jìn)行視頻預(yù)處理,一定程度上避免了內(nèi)部區(qū)域缺失的現(xiàn)象,但是不準(zhǔn)確的光流估計(jì)導(dǎo)致視頻目標(biāo)提取結(jié)果中存在邊緣區(qū)域缺失(圖7(d)和圖7(e))。雖然文獻(xiàn)[19]引入高階項(xiàng)以確保視頻目標(biāo)的時(shí)空一致性,提取結(jié)果相對(duì)于文獻(xiàn)[17]有所改善,但依然無法滿足高質(zhì)量目標(biāo)提取的要求(圖7(e)第二行)。對(duì)于視頻中快速跑動(dòng)的女孩,文獻(xiàn)[22]仍不能準(zhǔn)確地對(duì)女孩的運(yùn)動(dòng)信息進(jìn)行估計(jì),因此,分割結(jié)果中存在視頻目標(biāo)局部缺失的瑕疵(圖7(f)第二行和第五行)。從圖7(g)可以看出,本文能夠獲得高質(zhì)量的視頻目標(biāo)提取結(jié)果。
4.2.2 Youtube-objects數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
Youtube-objects公開數(shù)據(jù)集是由Youtube上收集的超過10種分類(包括飛機(jī)、貓和狗等)的視頻集組成的。其中每個(gè)類別包含9到24個(gè)視頻片段,且不同的視頻片段中視頻的分辨率、視頻目標(biāo)的運(yùn)動(dòng)和攝像機(jī)的運(yùn)動(dòng)等各不相同。該數(shù)據(jù)集通常用于目標(biāo)識(shí)別與跟蹤,最近才被用于評(píng)價(jià)視頻目標(biāo)提取方法的性能。相應(yīng)地,視頻目標(biāo)提取相對(duì)于Segtrack數(shù)據(jù)集難度更大。圖8和圖9分別給出了本文方法與上述四種視頻目標(biāo)提取方法[5,17,19,22]的實(shí)驗(yàn)結(jié)果對(duì)比。從圖8中可以看出,文獻(xiàn)[5]、文獻(xiàn)[22]與本文方法的視頻目標(biāo)提取結(jié)果(圖8(c)、圖8(f)和圖8(g))去除了馬群腿部下方的陰影區(qū)域;而文獻(xiàn)[17]與文獻(xiàn)[19]對(duì)應(yīng)的結(jié)果中由于保留了陰影區(qū)域從而導(dǎo)致不理想的提取結(jié)果(圖8(d)和圖8(e))。當(dāng)視頻中的陰影區(qū)域隨著視頻目標(biāo)一起運(yùn)動(dòng)時(shí),文獻(xiàn)[17]難以準(zhǔn)確區(qū)分視頻目標(biāo)區(qū)域與背景區(qū)域的運(yùn)動(dòng)。而文獻(xiàn)[19]是一種半監(jiān)督式的視頻目標(biāo)提取方法,其中視頻目標(biāo)提取的質(zhì)量過于依賴視頻首幀的準(zhǔn)確分割程度。然而,盡管文獻(xiàn)[5]的提取結(jié)果較為理想,但由于背景中部分區(qū)域的顏色與視頻目標(biāo)的過于接近,這容易將屬于背景的部分區(qū)域誤劃分為視頻目標(biāo)區(qū)域的,從而產(chǎn)生了錯(cuò)誤的視頻目標(biāo)提取結(jié)果。文獻(xiàn)[22]能夠獲得較理想的視頻目標(biāo)分割結(jié)果(圖8(f))。本文通過結(jié)合外觀特征與運(yùn)動(dòng)特征進(jìn)行相似性度量,并通過計(jì)算光流向量的置信度以剔除錯(cuò)誤的光流估計(jì)結(jié)果,這同樣能夠改善最終視頻目標(biāo)提取的質(zhì)量(如圖8(g)所示)。
圖9給出的是另一視頻片段(貓)的實(shí)驗(yàn)結(jié)果。從圖9(a)可以看出,該視頻片段存在大量與視頻目標(biāo)相似的背景區(qū)域(如具有不同紋理的毯區(qū)域),這對(duì)視頻目標(biāo)提取造成了一定的影響。在文獻(xiàn)[5]中,用戶需要對(duì)視頻目標(biāo)區(qū)域與背景區(qū)域進(jìn)行大量的交互標(biāo)記,且提取結(jié)果顯然很不理想(圖9(c))。文獻(xiàn)[17]通過估計(jì)光流信息準(zhǔn)確捕捉了視頻目標(biāo)的運(yùn)動(dòng)軌跡,并結(jié)合顏色特征與運(yùn)動(dòng)特征實(shí)現(xiàn)了較為理想的視頻目標(biāo)提取。然而,由于攝像機(jī)是不斷運(yùn)動(dòng)的,不準(zhǔn)確的光流估計(jì)難以正確區(qū)分背景區(qū)域與視頻目標(biāo)區(qū)域的運(yùn)動(dòng),從而該方法將視頻中出現(xiàn)的水盆也劃為背景(圖9(d)第三行)。文獻(xiàn)[19]中利用三維超體素增強(qiáng)了連續(xù)幀中特征相似區(qū)域的鄰接關(guān)系,并且該算法也利用了顏色特征與運(yùn)動(dòng)特征進(jìn)行外觀相似性度量。然而,該方法也沒有將視頻片段中出現(xiàn)的水盆正確劃分為背景,主要原因是該方法仍受到不準(zhǔn)確光流估計(jì)的影響(圖9(e)第四行)。文獻(xiàn)[22]能夠估計(jì)準(zhǔn)確的光流信息,但由于缺乏有效的外觀相似性度量機(jī)制,這使得該方法仍不能正確區(qū)分貓和地毯區(qū)域(圖9(f)第二行)。本文方法提出了魯棒的相似外觀度量機(jī)制,即通過結(jié)合顏色特征與紋理特征區(qū)分視頻目標(biāo)區(qū)域和背景區(qū)域,從而改善了視頻提取結(jié)果的質(zhì)量(圖9(g))。
Fig.8 Comparison of experiment results on Youtube-objects(horse)圖8 Youtube-objects數(shù)據(jù)集實(shí)驗(yàn)結(jié)果對(duì)比(horse)
Fig.9 Comparison of experiment results on Youtube-objects(cat)圖9 Youtube-objects數(shù)據(jù)集實(shí)驗(yàn)結(jié)果對(duì)比(cat)
Table 1 Statistics about runtime of video object extraction表1 視頻目標(biāo)提取時(shí)間消耗統(tǒng)計(jì)
表1給出了上述視頻目標(biāo)提取方法在處理各視頻片段并獲得最理想前景提取結(jié)果所需的預(yù)處理時(shí)間消耗和總時(shí)間消耗。在表1中,文獻(xiàn)[5]在預(yù)處理的過程中耗時(shí)最多,盡管前景提取階段耗時(shí)較少,但該方法不能滿足快速視頻目標(biāo)提取的要求。文獻(xiàn)[17]采用的預(yù)處理方法在處理視頻幀時(shí)雖然用時(shí)較少,但在后續(xù)視頻目標(biāo)提取階段中需要耗費(fèi)更多的計(jì)算時(shí)間,這是因?yàn)樵摲椒槊恳灰曨l幀分配一個(gè)動(dòng)態(tài)外觀模型,而訓(xùn)練這些動(dòng)態(tài)外觀模型需要耗費(fèi)大量的時(shí)間。文獻(xiàn)[19]以預(yù)處理生成的超體素為結(jié)點(diǎn)構(gòu)建三維無向圖,這使得三維無向圖中的結(jié)點(diǎn)數(shù)量遠(yuǎn)少于其他方法,因而該方法在前景提取過程中需要的時(shí)間消耗最少。然而,超體素的生成需要消耗較多的時(shí)間,這一定程度上也影響了最終視頻目標(biāo)提取的效率。文獻(xiàn)[22]采用了與文獻(xiàn)[19]相同的方法預(yù)處理視頻數(shù)據(jù),然而,該方法在提取視頻目標(biāo)時(shí)則消耗大量的時(shí)間。其主要原因在于該方法不僅建立了超像素與超像素之間的相鄰關(guān)系,還建立了像素與像素、像素與超像素之間的空間域和時(shí)間域上的相鄰關(guān)系,計(jì)算代價(jià)高。本文方法使用改進(jìn)的超像素分割算法進(jìn)行預(yù)處理,并在此基礎(chǔ)上改進(jìn)能量函數(shù),這不僅能夠?qū)崿F(xiàn)在少量的用戶交互下進(jìn)行快速的視頻目標(biāo)提取,而且還能快速地處理具有高分辨率的視頻片段。
為驗(yàn)證本文引入的高階項(xiàng)是優(yōu)于文獻(xiàn)[19]的,本文選取Youtube-obejcts數(shù)據(jù)集中的視頻段進(jìn)行實(shí)驗(yàn)結(jié)果對(duì)比。其中,從左至右分別為未引入高階項(xiàng)、文獻(xiàn)[19]和本文方法的視頻目標(biāo)提取結(jié)果,如圖10所示。在圖10給出的視頻片段中,馬的四肢運(yùn)動(dòng)幅度較大且背景是變化的。在未引入高階項(xiàng)時(shí),獲得的視頻目標(biāo)提取結(jié)果中出現(xiàn)了目標(biāo)區(qū)域缺失和錯(cuò)誤前景提取等瑕疵(圖10第二列)。文獻(xiàn)[19]在引入以超體素為基礎(chǔ)的高階項(xiàng)后,視頻目標(biāo)提取結(jié)果的質(zhì)量相對(duì)于圖10第二列給出的結(jié)果有了一定的改善,這是因?yàn)榭鐣r(shí)空域的超體素避免了來自背景區(qū)域不準(zhǔn)確光流的干擾。然而,文獻(xiàn)[19]中使用的是內(nèi)部連通關(guān)系相對(duì)固定的全局超體素,高階項(xiàng)并不能修正視頻目標(biāo)區(qū)域和背景區(qū)域被劃分為同一個(gè)超體素的情況,因而產(chǎn)生了不理想的視頻目標(biāo)提取結(jié)果(圖10第三列)。而本文方法使用各視頻幀上的超像素構(gòu)建局部高階項(xiàng),以確保超像素具有較好的邊緣貼合度,這使得高階項(xiàng)能夠更準(zhǔn)確地修正各超像素集在能量函數(shù)中的能量懲罰,從而改善了視頻目標(biāo)提取結(jié)果的精確度。如圖10第四列所示,相對(duì)于文獻(xiàn)[19](圖10(c)第一行和第四行),本文去除了視頻目標(biāo)的前腿間夾雜的背景區(qū)域(圖10(d)第一行和第四行)。
Fig.10 Comparisons on results of video object segmentation without/with high order potential圖10 高階項(xiàng)的視頻目標(biāo)提取結(jié)果對(duì)比
針對(duì)如何實(shí)現(xiàn)快速且高質(zhì)量的視頻目標(biāo)提取問題,本文提出了一種基于梯度約束SLIC的快速視頻目標(biāo)提取方法。在使用原SLIC超像素分割方法進(jìn)行視頻預(yù)處理的基礎(chǔ)上引入梯度約束項(xiàng),這在提高后續(xù)視頻目標(biāo)提取效率的同時(shí)也改善了視頻目標(biāo)提取的質(zhì)量。同時(shí),本文通過結(jié)合外觀特征與運(yùn)動(dòng)特征精確度量視頻目標(biāo)與背景的差異,因而本文能夠處理具有目標(biāo)劇烈、非剛體運(yùn)動(dòng),視頻目標(biāo)與背景顏色相近似等內(nèi)容復(fù)雜的視頻片段。另外,本文通過引入高階項(xiàng)保持前景提取結(jié)果中視頻目標(biāo)的時(shí)空一致性,從而有效地避免了提取結(jié)果中出現(xiàn)視頻目標(biāo)局部缺失等瑕疵。
本文方法的不足之處在于本文方法的視頻目標(biāo)提取結(jié)果的質(zhì)量一定程度上依賴于視頻幀預(yù)處理的質(zhì)量,若視頻目標(biāo)具有細(xì)長且突出的結(jié)構(gòu)(復(fù)雜且重疊的樹枝、昆蟲的觸角和腿等),視頻幀預(yù)處理方法生成的結(jié)果也很難表達(dá)這些結(jié)構(gòu)的特征信息。因此,本文下一步將考慮優(yōu)化特征度量機(jī)制,以進(jìn)一步提高視頻目標(biāo)提取的精度與時(shí)間效率。