韓艷茹,尹夢曉,2,楊 鋒,2,鐘 誠,2
1(廣西大學(xué) 計算機(jī)與電子信息學(xué)院,南寧 530004) 2(廣西多媒體通信與網(wǎng)絡(luò)技術(shù)重點(diǎn)實(shí)驗(yàn)室,南寧 530004)
在圖像和視頻處理中,基于像素級的圖像和視頻分析處理計算量較大且耗時,而將圖像和視頻分割為超像素[1]或提取顯著點(diǎn)[2]的預(yù)處理能使圖像和視頻更易于操作,這已成為圖像和視頻處理的標(biāo)準(zhǔn)方式[3].
Ren等[1]首次提出對共享類似低級特征(如顏色或紋理)的空間相干像素進(jìn)行像素分組得到超像素,并將得到的超像素作為圖像分析和處理的基元.超像素使用更豐富(基于區(qū)域)的特征集,大幅減少圖像基元的數(shù)量,從而有效地提高后續(xù)處理步驟的計算效率以及分割質(zhì)量.超像素廣泛應(yīng)用于各種視覺任務(wù),例如圖像分割[4-6],圖像解析[7],跟蹤[8,9]及場景分類[10]等.同樣,視頻超像素在視頻分割[11-14]和顯著性檢測[15-18]等視頻分析和處理任務(wù)中也具有很大的應(yīng)用潛力.
通常,超像素是通過最小化代價函數(shù)將圖像劃分而得到的,這使得每個超像素各自為單個對象而不互相重疊.然而,如果將獲取超像素的方法直接獨(dú)立地應(yīng)用于視頻序列中的每一幀,將導(dǎo)致超像素可能在時間上不具有連續(xù)性,這樣即使連續(xù)幀之間僅有輕微變化,超像素也會出現(xiàn)閃爍.近年來有研究者將超像素從靜止圖像擴(kuò)展到視頻序列來生成視頻超像素[19-40],根據(jù)視頻處理時視頻的加載方式分為離線方法和流式方法.
離線方法要求提前提供視頻數(shù)據(jù),需要一次性加載整個視頻,然后再進(jìn)行后續(xù)操作.由于加載完整的視頻需要較大的計算機(jī)運(yùn)行內(nèi)存,因此用離線方法處理的視頻要盡可能短.相關(guān)的離線方法有:基于層次圖(GBH)[19]、加權(quán)聚合分割(SWA)[20-22]、Nystr?m標(biāo)準(zhǔn)化切割(NCut)[23,24]、均值漂移[25-27]以及文獻(xiàn)[28]的方法.其中SWA和Ncut都將標(biāo)準(zhǔn)化切割準(zhǔn)則作為基礎(chǔ)代價函數(shù),與Ncut不同的是,SWA分層次地最小化代價函數(shù)得到分層分割,基于層次圖的GBH同樣可以實(shí)現(xiàn)分層分割.
流式方法不需要一次性加載整個視頻,故能夠不受計算機(jī)運(yùn)行內(nèi)存的限制,處理任意長度的視頻.流式方法按照解決時間一致性問題的方式可分為三類:圖像超像素直接擴(kuò)展法[29,30]、超體素方法[31,32]以及時間一致性超像素方法[33-40].圖像超像素直接擴(kuò)展法[29,30]直接擴(kuò)展圖像超像素方法進(jìn)行視頻處理,沒考慮視頻中對象移動的問題.超體素方法[31,32]主要處理3D體積數(shù)據(jù)(例如醫(yī)學(xué)影像),將時間維度按空間維度處理,把視頻序列看做3D視頻體進(jìn)行處理.時間一致性超像素[33-40]則是利用光流信息傳播運(yùn)動矢量,將第一幀的超像素分割擴(kuò)展到視頻的后續(xù)幀中,以流式方式計算視頻超像素.超體素和時間一致性超像素密切相關(guān),他們之間的關(guān)系可以描述為:具有時間一致性的超像素按幀堆疊得到超體素;超體素按幀進(jìn)行切片得到具有時間一致性的超像素.但當(dāng)按幀切片的超體素橫截面分割為非連續(xù)段時,以上關(guān)系不成立[36].本文主要對時間一致性超像素方法進(jìn)行梳理和總結(jié),對超體素僅作簡單介紹,詳細(xì)總結(jié)請參閱文獻(xiàn)[3].
超像素分割在計算機(jī)視覺領(lǐng)域得到廣泛研究和關(guān)注,已有相關(guān)綜述文獻(xiàn)大多是關(guān)于圖像超像素分割的,如文獻(xiàn)[5,9]以圖像分割為應(yīng)用背景對超像素方法進(jìn)行分析總結(jié).現(xiàn)有的視頻超像素的綜述文獻(xiàn)[3,41]沒有區(qū)分超體素方法和時間一致性超像素方法.超體素主要處理3D體積數(shù)據(jù),而時間一致性超像素針對視頻數(shù)據(jù)[35].本文對現(xiàn)有的時間一致性超像素方法進(jìn)行總結(jié),對評測指標(biāo)進(jìn)行更為完整的歸納,在此基礎(chǔ)上給出未來可以研究改進(jìn)的幾點(diǎn)建議.
論文其余部分安排如下:2.1節(jié)和2.2節(jié)介紹視頻超像素方法,2.3節(jié)分析評測基準(zhǔn)指標(biāo),第3節(jié)介紹在視頻處理領(lǐng)域的應(yīng)用,最后第4節(jié)進(jìn)行總結(jié)展望.
視頻超像素作為一種有效的視頻表示方式,將原始視頻分割為視頻超像素已經(jīng)成為許多計算機(jī)視覺系統(tǒng)中重要的預(yù)處理步驟,受到研究者們的廣泛關(guān)注,各種用于視頻分析和處理的視頻超像素提取方法被提出.本文將獲取視頻超像素的方法分為離線和流式兩類方法進(jìn)行介紹.
本節(jié)介紹GBH[19]、SWA[20-22]、Nystr?m標(biāo)準(zhǔn)化切割NCut[23,24]、均值漂移[25-27]以及文獻(xiàn)[28]等幾種具有代表性的離線視頻超像素方法.
GBH是由Grundmann等[19]提出的一種基于層次圖的分層視頻分割方法,該方法在基于層次圖的圖像分割[42]的基礎(chǔ)上,將相鄰的體素合并成小體素組,并從中得到顏色直方圖.計算顏色直方圖之間的卡方距離并在區(qū)域級迭代,由此將體素組進(jìn)一步合并到較大的時空區(qū)域,再通過跟蹤合并得到分層視頻分割.
Sharon等[21,20]提出的SWA是一種優(yōu)化標(biāo)準(zhǔn)切割準(zhǔn)則的方法,該方法使用自適應(yīng)代數(shù)多重網(wǎng)格算法[43]選擇頂點(diǎn)子集,來遞歸地粗化初始圖,由此生成多層次分割,使得精細(xì)級別上的每個頂點(diǎn)都與粗級別上的一個頂點(diǎn)耦合.層次結(jié)構(gòu)中的每個頂點(diǎn)表示一個潛在的分割,且層次結(jié)構(gòu)便于算法捕捉圖像的多尺度特征.Akselrod[22]首次將SWA擴(kuò)展到3D領(lǐng)域解決多發(fā)性硬化的分割問題,使用SWA算法對輸入的三維多通道和各向異性數(shù)據(jù)進(jìn)行分層分割,得到有意義的解剖結(jié)構(gòu)和病變相對應(yīng)的區(qū)域.
Fowlkes等[24]提出一種基于Nystr?m Normalized cuts[23]的圖像和視頻超像素分割的譜劃分方法.該方法首先使用歸一化割集的多特征向量將每個體素嵌入到一個低維歐幾里德空間中,然后使用k-means算法對這些數(shù)據(jù)進(jìn)行最后的分區(qū).
Mean shift是一種模式搜索算法,最早由Fukunaga等[44]提出.Comaniciu等[25]將Mean shift用于圖像分割,每個像素都與一個特征點(diǎn)相關(guān)聯(lián),把核函數(shù)應(yīng)用到特征點(diǎn)的局部結(jié)構(gòu)中,產(chǎn)生的分割可以看作是用高斯核估計特征點(diǎn)密度的模式[25,26].Paris等[27]基于文獻(xiàn)[26]的方法,利用因果時空核估計特征點(diǎn)密度,使超像素跨越空間和時間實(shí)現(xiàn)了時間相干性,從而將超像素推廣到視頻流中.
Veksler 等[28]提出第一種生成超體素的方法,該方法通過構(gòu)造一個包含圖像梯度的能量函數(shù),并使用圖切割算法優(yōu)化該能量函數(shù),以達(dá)到對每個體素分配一個標(biāo)簽的目的.該方法用重疊的立方體覆蓋視頻序列,每個立方體的體積決定了產(chǎn)生的超體素的最大體積,體積較大的立方體對應(yīng)超體素間更高的時間一致性.
本節(jié)將介紹三類流式方法:圖像超像素直接擴(kuò)展法[29,30],超體素方法[31,32],時間一致性超像素方法[33-40].
2.2.1 圖像超像素直接擴(kuò)展法
Achanta等[29]通過將視頻序列視為3D信號進(jìn)行k-means優(yōu)化,通過直接擴(kuò)展用于2D圖像的SLIC算法,沿時間軸連接2D圖像獲得視頻超像素.
Van等[30]對文獻(xiàn)[45]中的超像素方法進(jìn)行擴(kuò)展,使用顏色直方圖來表示超像素,并設(shè)置一個目標(biāo)函數(shù)來進(jìn)行優(yōu)化,其中如果每個直方圖的填充區(qū)數(shù)最小化,則該函數(shù)最大化.在分割過程中,通過將每個超像素中的單個像素或像素塊超像素進(jìn)行重新分配來優(yōu)化之前的超像素分割效果,如果新的分配可以增加目標(biāo)函數(shù)的值,則接受此次分配的更改.受參數(shù)超像素率的影響,該方法會對某些幀執(zhí)行超像素終止或分裂操作,即為了保持超像素的數(shù)量隨時間恒定,在對目標(biāo)函數(shù)值的影響最低的情況下,通過從一個超像素中分離出一個部分,來為終止的超像素創(chuàng)建一個新的超像素.
這類方法因?yàn)闆]有考慮對象移動因素,當(dāng)場景中存在快速移動的對象時可能會失效,不能有效地解決移動對象的時間一致性問題.
2.2.2 超體素方法
針對上文提到的GBH方法在計算過程中需要訪問整個視頻的問題,Xu等[31]對其進(jìn)行了擴(kuò)展,以流媒體的方式來處理任意長的視頻同時保持層次分割.該方法將時間馬爾可夫假設(shè)應(yīng)用于視頻流重疊塊的分割,在分割過程中該方法只需要一個子幀,并允許在任何給定時間內(nèi)將少量幀加載到存儲器中.
Yi等[32]提出基于視頻流形均勻細(xì)分的內(nèi)容敏感超像素生成方法,并通過擴(kuò)展內(nèi)容敏感超像素來處理長視頻.該方法將輸入視頻映射到嵌入R6中的三維流形,利用三維流形的體積元素可以很好地度量視頻中的內(nèi)容密度的優(yōu)勢,通過類勞埃德的分裂合并方案來計算三維流形上的均勻細(xì)分,從而生成視頻的內(nèi)容敏感超像素.
2.2.3 時間一致性超像素方法
Alex等[33]首次提出生成時間一致性超像素的方法,該方法基于文獻(xiàn)[46]中的TurboPixels超像素方法,使用光流信息傳送超像素中心點(diǎn)來初始化后一幀的種子點(diǎn),進(jìn)而生成具有時間一致性超像素.文獻(xiàn)[46]中提出的TurboPixels超像素算法使用水平集將均勻分布的種子點(diǎn)生長為非重疊的超像素.為了得到時間一致性超像素,文獻(xiàn)[33]首先使用TurboPixels算法提取第一幀的超像素,然后利用Lucas-Kanade算法計算連續(xù)幀之間每個像素點(diǎn)的運(yùn)動向量.計算每個超像素包含的所有像素點(diǎn)運(yùn)動向量的加權(quán)平均值,其中越接近超像素中心其權(quán)重越大,最后根據(jù)計算得到的平均向量將每個超像素中心映射到下一幀,以此來初始化下一幀初始種子點(diǎn)進(jìn)而生成超像素分割.對視頻中所有幀重復(fù)上述過程,獲得整個視頻的時間一致性超像素分割結(jié)果.
Liang 等[34]應(yīng)用了類似文獻(xiàn)[33]的傳送方法,提出了一種基于部分隨機(jī)游走算法[47]和時空信息的視頻超像素分割方法.該方法首先使用延遲隨機(jī)游走算法[48]獲得第一幀的初始種子點(diǎn),這些種子點(diǎn)被置于規(guī)則的矩形網(wǎng)格上,且由用戶指定初始種子點(diǎn)數(shù)量,然后基于種子點(diǎn)執(zhí)行融合了拉普拉斯優(yōu)化矩陣的PARW分割算法生成初始超像素分割,并通過調(diào)整初始種子點(diǎn)的位置使超像素邊界與物體邊緣更加貼合,最后再次執(zhí)行PARW分割算法生成最終的超像素分割,并通過光流傳播超像素中心以初始化下一幀的種子點(diǎn).重復(fù)此分割-傳播-分割過程生成視頻的時間一致性超像素分割.
Chang等[35]擴(kuò)展了SLIC超像素算法,構(gòu)建時間一致性超像素的生成模型.該模型的每個像素用五維特征建模:三通道顏色和二維位置.這個超像素模型在已知方差的高斯分布下,利用混合模型對單個特征進(jìn)行聚類來生成超像素.在為第一幀生成超像素后,通過光流信息初始化的高斯過程來模擬幀與幀之間的超像素移動,并基于雙邊核對運(yùn)動矢量進(jìn)行細(xì)化.為了解決相鄰幀間結(jié)構(gòu)變化的問題,Chang等提出拆分,合并和切換操作,拆分即一個超像素可以分成幾部分形成幾個標(biāo)簽不同的超像素,合并則是幾個不同的超像素合在一起生成一個超像素,切換就是改變超像素的標(biāo)簽.僅當(dāng)新的分割結(jié)果增加聯(lián)合對數(shù)似然函數(shù)的值時,才對初始分割執(zhí)行操作生成新的分割.
Reso等[36,37]介紹了一種混合聚類方法,利用混合聚類策略對多維特征空間執(zhí)行能量最小化聚類,它將文獻(xiàn)[38]的五維特征空間分成全局顏色子空間和多個局部子空間.此外,它引入了基于新輪廓演化的策略以確保生成的超像素具有時間一致性.Reso等采用包括多個連續(xù)幀的滑動窗口將幀分組為不可變的過去幀和可變的當(dāng)前幀以及未來幀,雖然未來幀可以適應(yīng)視頻量的變化,但過去幀是不可變的且試圖保留被分配的顏色聚類.滑動窗口方法還可以產(chǎn)生短延遲流并具有處理任意長視頻序列的能力.文獻(xiàn)[36]通過像素方向的前向光流傳播超像素中心標(biāo)簽來完成分割傳播,而文獻(xiàn)[37]使用像素方向的反向光流查找前一幀中的超像素標(biāo)簽來優(yōu)化分割.后一種方法產(chǎn)生更穩(wěn)定的分割結(jié)果,因?yàn)樗瑫r傳播超像素的相對位置和形狀以保持超像素的一致性.為了處理視頻中的結(jié)構(gòu)變化,兩種方法都依賴于像素中包含的像素的數(shù)量.前者使用線性假設(shè)預(yù)測正負(fù)增長,而后者設(shè)置最小和最大閾值以識別需要終止或分裂的超像素從而控制超像素的大小.
盡管文獻(xiàn)[33-37]的時間一致性超像素方法可以基于運(yùn)動信息跟蹤對象,但是需要利用光流算法來估計每個超像素的運(yùn)動向量.一方面獲取所有像素的稠密光流向量需要高的計算復(fù)雜度,另一方面上述方法沒有給出解決遮擋問題的有效方案,如表1所示.
表1 時間一致性超像素方法
Table 1 Temporal superpixels methods
文獻(xiàn)光流時間一致性遮擋方 法Alex[33]稠密√×利用光流將前一幀的每個超像素中心映射到下一幀,作為下一幀的初始種子點(diǎn)進(jìn)而執(zhí)行超像素分割Liang[34]稠密√×融合拉普拉斯矩陣來優(yōu)化PARA算法生成超像素分割,通過光流傳播種子點(diǎn)來保持時間一致性Chang[35]稠密√√使用光流信息初始化超像素的運(yùn)動矢量,然后基于雙邊核來細(xì)化運(yùn)動矢量Reso[36]稠密√√執(zhí)行K-means算法來分配超像素標(biāo)簽,在計算每個超像素的平均顏色時采用時間滑動窗口,該窗口包含過去幀,未來幀及當(dāng)前幀Reso[37]稠密√√基于輪廓構(gòu)建EM框架對超像素邊界處的像素執(zhí)行優(yōu)化,并利用光流信息反向傳播超像素標(biāo)簽來初始化新幀,同時傳播超像素的相對定位和形狀Lee[38]稀疏√√從塊到像素級別分層次細(xì)化每個區(qū)域的超像素標(biāo)簽,在每個級別,使用代價函數(shù)強(qiáng)制執(zhí)行輪廓約束Lee[39]稀疏√√通過相鄰超像素以及目標(biāo)超像素的塊匹配距離構(gòu)造鄰近加權(quán)塊匹配,并使用由顏色,空間,輪廓和時間一致性項組成的代價函數(shù)來約束邊界像素的超像素標(biāo)簽的更新Reso[40]稠密√√使用加權(quán)平均光流傳播整個超像素來隨時間保持超像素分割的形狀,同時檢測被遮擋的超像素和被遮擋的圖像區(qū)域
Lee等[38]提出了輪廓約束超像素(CCS)算法,該算法通過使用光流算法傳送前一幀的超像素標(biāo)簽來初始化當(dāng)前幀的超像素標(biāo)簽,因而可以一致地標(biāo)記連續(xù)幀中的相同區(qū)域.Lee等首先在規(guī)則網(wǎng)格中初始化超像素區(qū)域,然后從塊級別到像素級別分層次地細(xì)化每個區(qū)域的超像素標(biāo)簽,在每個級別,使用成本函數(shù)來明確地執(zhí)行輪廓約束,如果在它們之間存在對象輪廓,則兩個相鄰區(qū)域應(yīng)該屬于不同的超像素.為了使超像素邊界與對象輪廓兼容,Lee等提出了輪廓模式匹配的概念,并構(gòu)造了包括輪廓約束的目標(biāo)函數(shù).此外,Lee等通過擴(kuò)展CCS算法生成用于視頻處理的時間一致性超像素,使用光流傳輸前一幀中的超像素標(biāo)簽來初始化后續(xù)幀中的超像素標(biāo)簽,然后執(zhí)行時間一致性超像素標(biāo)記,使超像素在時間上一致,并與對象輪廓兼容.
Lee等[39]提出了一種基于鄰近加權(quán)塊匹配(TS-PPM)的時間一致性超像素算法,該算法通過考慮相鄰超像素以及目標(biāo)超像素的塊匹配距離構(gòu)造鄰近加權(quán)塊匹配(PPM),來穩(wěn)健地估計超像素的運(yùn)動矢量.在每幀中,通過使用PPM運(yùn)動向量傳遞前一幀的超像素標(biāo)簽來初始化當(dāng)前幀的超像素分割,然后基于成本函數(shù)更新邊界像素的超像素標(biāo)簽,該成本函數(shù)由顏色、空間、輪廓和時間一致性項組成.最后執(zhí)行超像素分割、合并和重新標(biāo)記操作,以規(guī)范超像素尺寸并減少不正確的超像素標(biāo)簽.
盡管文獻(xiàn)[38,39]通過稀疏地執(zhí)行塊匹配來估計每個超像素的運(yùn)動向量降低了計算復(fù)雜度,但是沒有有效地解決遮擋問題.
Reso等[40]提出了一種處理結(jié)構(gòu)變化的新方法,該方法建立輪廓演化期望最大化框架,利用有效的標(biāo)簽傳播方案來促進(jìn)超像素形狀的保持及其隨時間的相對定位,從而精確地檢測在超像素傳播到新幀期間的遮擋并去除遮擋邊界.該方法通過將傳播的超像素的重疊部分分類為被遮擋或遮擋區(qū)域,獲知實(shí)際遮擋邊界所在的位置,這能夠終止被遮擋的超像素并創(chuàng)建新出現(xiàn)的超像素.另外,Reso等通過對超像素遮擋區(qū)域的進(jìn)一步優(yōu)化來提升超像素與視頻場景中存在的光流的一致性.
文獻(xiàn)[40]有效解決了由對象和自遮擋引起的視頻體中的結(jié)構(gòu)變化問題,但其計算稠密光流向量來保持超像素時間一致性的做法增加了計算復(fù)雜度.
時間一致性超像素的評價是該領(lǐng)域研究的重要內(nèi)容之一,目前衡量算法的評價指標(biāo)可大致分為:3D欠分割錯誤率指標(biāo)[41]、3D分割準(zhǔn)確度指標(biāo)[41]、邊界召回距離指標(biāo)[35]、緊湊度指標(biāo)[49]、時間范圍指標(biāo)[35]、標(biāo)簽一致性指標(biāo)[35]、解釋方差指標(biāo)[41]、面積方差指標(biāo)[50].
2.3.1 3D欠分割錯誤率(3D UE,3D Undersegmentation Error)
該指標(biāo)首次由文獻(xiàn)[41]提出,是用來衡量超像素邊界與真值邊界貼合的程度,將真值分割(ground truth,通過手工分割得到)的面積和有部分與其重疊的所有超像素的并集進(jìn)行比較,分割外超像素的面積越大,分割誤差就越高.形象地說,它是超像素區(qū)域“溢出”真值區(qū)域邊界的比例.定義如下式所示:
(1)
其中,gm是真值分割,sn是超像素分割結(jié)果,N是超像素總數(shù),sn|sn∩gm≠φ表示超像素分割sn與真值分割gm沒有重疊,|·|表示分割的數(shù)量.
2.3.2 3D分割準(zhǔn)確度(3D SA,3D Segmentation Accuracy)
該指標(biāo)也是由文獻(xiàn)[41]提出,表示正確標(biāo)記的超像素數(shù)量占真值分割數(shù)量的比例,該指標(biāo)越高說明超像素分割與真值分割越接近.定義如下式所示:
(2)
其中,M是真值分割的數(shù)量,Nm表示超像素標(biāo)簽與真值分割標(biāo)簽一致的集合.
2.3.3 邊界召回距離(BRD,Boundary Recall Distance)
文獻(xiàn)[35]提出了邊界召回距離,它用來衡量真值分割中與下一個邊界的平均距離.與2DBR[45]不同,BRD不需要用戶選擇固定閾值.對于每幀k,計算如下:
(3)
其中,Sb,gr,k和Sb,seg,k分別表示真值分割和超像素分割的邊界像素集合.d(i,j)表示兩個像素點(diǎn)的歐式距離.
2.3.4 緊湊度(CO,Superpixel Compactness)
文獻(xiàn)[49]中提出使用超像素緊湊度作為基準(zhǔn)指標(biāo),該指標(biāo)用來衡量超像素的緊密度,它是通過加權(quán)超像素n的等周商Qn(如文獻(xiàn)[50]中所定義)和相對超像素大小計算的,如下所示:
(4)
2.3.5 時間范圍(TEX,Temporal Extent)
該指標(biāo)在文獻(xiàn)[35]中引入,通過計算時空分割的平均持續(xù)時間來評估隨時間跟蹤區(qū)域的能力.通過結(jié)合3DUE或3DSA來使用此指標(biāo),它提供了一個合適的度量來判斷超像素分割在視頻體中顯示的時間一致性的程度.該指標(biāo)僅描述超像素是否跨越了對象邊界(真值分割所定義的).但該指標(biāo)完全忽略其時間一致性或其在對象邊界內(nèi)的相對位置,為了評測這種類型的時間一致性,需使用文獻(xiàn)[35]中提出的標(biāo)簽一致性指標(biāo).
2.3.6 標(biāo)簽一致性(Label Consistency)
該指標(biāo)度量超像素流與原圖像移動的一致性,并懲罰超像素形狀以及超像素組中的任何時間不一致性.它利用光流信息將分割幀的超像素標(biāo)簽傳送到下一幀,并確定傳送的標(biāo)簽與算法生成的分割之間的一致像素數(shù).標(biāo)簽一致性表示為一致的像素數(shù)與所有幀上平均每幀的像素總數(shù)之比.
2.3.7 解釋方差(EV,Explained Variation)
文獻(xiàn)[51]提出了EV指標(biāo)來評價超像素分割,它是一種與人無關(guān)的度量,不易受到標(biāo)注者感知變化的影響.它顯示過分割作為較低細(xì)節(jié)的表示方式,它如何來表示原始圖像,文獻(xiàn)[41]首次將其擴(kuò)展到視頻域,計算方式如下:
(5)
2.3.8 面積方差(VoA,Variance of Area)
文獻(xiàn)[35]指出,超像素應(yīng)是局部的,這樣才是有意義的表示方式,隨著超像素的增大,會失去代表性.因此,所有幀的超像素大小應(yīng)該大致相等,為了度量這一性質(zhì),文獻(xiàn)[50]提出VoA指標(biāo).對于第k幀,計算如下:
(6)
時間一致性超像素作為新的視頻表示方式,使用更豐富(基于區(qū)域)的特征集,有效地提高了視頻分析和處理任務(wù)的后續(xù)步驟的計算效率,將視頻用時間一致性超像素表示已成為計算機(jī)視覺領(lǐng)域許多應(yīng)用所依賴的預(yù)處理步驟.
視頻對象分割視頻分割技術(shù)利用時間一致性超像素來獲得時間相干性信息.文獻(xiàn)[11]首先使用文獻(xiàn)[46]提出的超像素方法將視頻幀分割為時間一致性超像素,然后將其作為輸入生成視頻分割.超像素的使用大大降低了計算復(fù)雜度和內(nèi)存使用,使視頻分割算法能夠運(yùn)用到更長的視頻.文獻(xiàn)[52]提出一種基于超像素的3D時空圖形切割方法,該方法將移動對象分割視為對時空域中圖像超像素的分組,以此來提取移動前景對象.文獻(xiàn)[53]通過使用譜聚類形成超像素分割來代替原始像素數(shù)據(jù)進(jìn)行無監(jiān)督視頻分割,分割的超像素具有的時間一致性、時空運(yùn)動特征、形狀相似性等特性,能提高算法運(yùn)行性能以及分割質(zhì)量.文獻(xiàn)[54]提出基于譜聚類的視頻對象分割技術(shù),該技術(shù)擴(kuò)展李等[55]的超像素算法將光流向量包含到特征向量,以得到視頻中每一幀超像素之間的時空關(guān)系,進(jìn)而執(zhí)行視頻分割.文獻(xiàn)[40]將時間一致性超像素分割作為基礎(chǔ)分割進(jìn)而執(zhí)行交互式視頻分割,時間一致性超像素的準(zhǔn)確性以及高效性有利于實(shí)現(xiàn)高質(zhì)量的最終分割結(jié)果且可大大減少用戶等待時間.文獻(xiàn)[13]提出一種基于時間一致性超像素視頻表示方式的半監(jiān)督視頻分割方法,該方法利用時間一致性超像素跨時間跟蹤同一對象在不同視頻幀中的相同部分,以此來為視頻中的運(yùn)動對象構(gòu)造具有一致的運(yùn)動模式、相似的外觀和緊密的時空關(guān)系的超軌跡,進(jìn)而執(zhí)行半監(jiān)督視頻分割.
視頻顯著性檢測如果將圖像顯著性檢測技術(shù)獨(dú)立地應(yīng)用于視頻中的每個幀,則所得到的顯著性圖存在在時間上不兼容的情況,而時間一致性超像素來獲得時間上兼容的映射.文獻(xiàn)[15]提出一種基于超像素的視頻顯著性檢測時空特征模型,該模型基于視頻幀的超像素表示,在超像素級別和幀級別分別提取運(yùn)動直方圖和顏色直方圖作為局部特征和全局特征.然后,結(jié)合超像素的運(yùn)動顯著性和時間顯著性預(yù)測及調(diào)整方案來度量超像素的時間顯著性,并通過評估超像素的全局對比度和空間稀疏性來度量超像素的空間顯著性.文獻(xiàn)[16]提出基于超像素級別軌跡的時空顯著性檢測模型,通過輸入視頻生成的時間一致性超像素來得到超像素級的運(yùn)動軌跡,并將其作為初始估計進(jìn)而執(zhí)行顯著性檢測.文獻(xiàn)[56]針對運(yùn)動復(fù)雜、場景復(fù)雜的無約束視頻,提出一種時空顯著性模型,該模型首先對視頻幀的超像素分割結(jié)果進(jìn)行特征提取,得到運(yùn)動直方圖和顏色直方圖并將其作為顯著性度量的特征,然后構(gòu)造超像素級圖來測量超像素的運(yùn)動顯著性,進(jìn)而生成時空顯著性圖.文獻(xiàn)[57]提出一種基于交叉幀元胞自動機(jī)的視頻顯著目標(biāo)檢測方法,該方法用超像素來表示給定的視頻幀,根據(jù)幀內(nèi)和相鄰幀之間的外觀相似性和時間相干性來構(gòu)造顯著性傳播網(wǎng)絡(luò),并通過外觀特征和運(yùn)動特征的融合對其進(jìn)行初始化,然后利用元胞自動機(jī)在超像素之間傳播顯著性來迭代細(xì)化顯著性圖.文獻(xiàn)[18]提出一種視頻顯著目標(biāo)檢測模型,該模型以時間一致性超像素為基礎(chǔ),提取顏色梯度和運(yùn)動梯度并以此得到超像素級的時空顯著性和時間一致性信息,進(jìn)而識別視頻中的顯著區(qū)域.
時間一致性超像素還可以應(yīng)用在其他視頻處理任務(wù),Cai等[58]將其應(yīng)用到視頻對象跟蹤,通過將目標(biāo)分割成幾個超像素來利用物體的內(nèi)部幾何結(jié)構(gòu)信息進(jìn)行對象跟蹤.Yudistira等[59]通過在運(yùn)動空間中引入運(yùn)動超像素并跟蹤超像素中心來獲得時間信息并將其用于視頻分類和識別.Gangapure等[60]提出一種適用于實(shí)時監(jiān)控任務(wù)的基于超像素的因果多傳感器視頻融合算法.
本文介紹了時間一致性超像素的發(fā)展現(xiàn)狀,對近年來具有代表性的方法進(jìn)行了著重分析.時間一致性超像素是一種良好的視頻表示方式,是視頻處理和計算機(jī)視覺領(lǐng)域的一個重要預(yù)處理工具.但由于分割場景的復(fù)雜性,現(xiàn)有的時間一致性超像素還存在一定的局限性,至今尚未出現(xiàn)能兼顧分割質(zhì)量和效率的時間一致性超像素生成方法.
時間一致性超像素依賴于超像素,超像素分割質(zhì)量直接影響時間一致性超像素的分割效果;時間一致性超像素通過光流信息來保持時間一致性,而當(dāng)視頻中有遮擋時光流不穩(wěn)定,且稠密光流比較耗時.綜上所述,目前關(guān)于時間一致性超像素的研究主要包括以下幾個方面:降低提取光流信息的計算復(fù)雜度,提高算法效率[38,39];結(jié)合顏色和輪廓信息,提高分割準(zhǔn)確率[39];約束保持超像素形狀,檢測及去除遮擋[40].未來的研究可以考慮以下幾點(diǎn):
1)改進(jìn)輪廓特征提取方法.由于輪廓信息用于約束超像素的分割,輪廓信息直接影響分割的準(zhǔn)確性,完整且有效的輪廓信息有助于提升分割準(zhǔn)確性.
2)優(yōu)化光流信息.在視頻的超像素分割過程中,依靠光流信息來估計像素的運(yùn)動.將視頻看成一個整體,考慮視頻的所有幀,生成視頻的整體光流圖,可以更準(zhǔn)確的估計像素運(yùn)動矢量.
3)完善評測指標(biāo).視頻超像素的分割結(jié)果要兼顧準(zhǔn)確性和時間一致性.現(xiàn)有的評測指標(biāo)大多針對分割準(zhǔn)確性,而準(zhǔn)確性高的分割,其時間一致性不一定高.進(jìn)一步研究像素運(yùn)動矢量,提出更加準(zhǔn)確的時間一致性測評指標(biāo).
4)擴(kuò)展視頻超像素的應(yīng)用范圍.現(xiàn)有的方法具有各自的優(yōu)勢與不足,可針對特定問題,選擇合適方法達(dá)到最優(yōu)效果.