薄一航 HAO Jiang
視頻分割問題是當(dāng)前計(jì)算機(jī)視覺領(lǐng)域一個比較熱門的話題.與靜態(tài)圖像分割方法不同的是視頻分割不僅要考慮到單視頻幀內(nèi)各個像素點(diǎn)或超像素塊之間的關(guān)系,還要保證相鄰視頻幀之間對應(yīng)像素點(diǎn)或超像素塊的連續(xù)性與光滑性.視頻分割的結(jié)果可以為更高一級的視頻及視頻中目標(biāo)的分析工作提供較好的分析基礎(chǔ).
起初,針對靜止攝像機(jī)拍攝的視頻,即視頻背景為靜止不變的情況,可以通過簡單的去背景的方法得到整個運(yùn)動的前景區(qū)域[1?4].從目前的視頻分割方法來看,包括基于像素點(diǎn)的分割、基于超像素塊的分割和基于提議(Proposals)的分割等.但是,對于視頻分割而言,考慮到運(yùn)算量和運(yùn)算速度的問題,基于像素點(diǎn)的分割方法很不現(xiàn)實(shí),也很少被采用.當(dāng)前比較流行的視頻分割方法以基于超像素塊的分割和基于提議的分割為主.首先,對基于超像素塊的分割而言,研究者們試圖通過區(qū)域塊跟蹤的方法來處理[5?8]得到不同的分割區(qū)域.鑒于視頻數(shù)據(jù)本身的特殊性,還有一些視頻分割方法將視頻分割成底層特征隨時間變化連續(xù)的超像素塊[7?10].然而,超像素塊本身往往不具備完整的語義信息,每個超像素塊可能是一個完整的目標(biāo),也可能是構(gòu)成某個目標(biāo)的一部分,這樣的分割結(jié)果并不利于進(jìn)一步的目標(biāo)分析工作.并且,分割結(jié)果的優(yōu)劣很大程度上還依賴于所選擇的分割閾值,我們通常很難選擇一個合適的閾值使得每一個分割區(qū)域都是一個完整且有意義的目標(biāo)或目標(biāo)的組成部分.另外,對于比較長的視頻而言,在整個視頻分割的過程中,會出現(xiàn)前后幀相對應(yīng)的分割區(qū)域錯位的情況.近幾年,還有研究者提出針對視頻中運(yùn)動目標(biāo)的分割方法[11?12],比如文獻(xiàn)[13]中用一種全自動的方法,通過將Grab-Cut方法[14]擴(kuò)展到時空領(lǐng)域來得到視頻中目標(biāo)的閉合輪廓.為了得到更有意義的分割結(jié)果[15?16],基于提議(Proposals)的視頻分割方法越來越受到研究者們的青睞[9,17?20],每一個提議都極有可能是一個有意義的目標(biāo)或目標(biāo)的某個組成部分.其中,文獻(xiàn)[21]通過SVM(Support vector machine)分類器提取出每個視頻幀中較優(yōu)的一些提議,再通過求解一個全連接的條件隨機(jī)場的最大后驗(yàn)對前景和背景進(jìn)行分類,得到的前景區(qū)域往往是一個完整的、有意義的目標(biāo)所在的區(qū)域.文獻(xiàn)[22]利用特征空間優(yōu)化的方法將視頻進(jìn)行語義分割,得到視頻中各個語義目標(biāo)所在的區(qū)域.文獻(xiàn)[23]借助目標(biāo)檢測以及目標(biāo)跟蹤的結(jié)果對視頻中的目標(biāo)進(jìn)行分割.
然而,這些視頻分割方法得到的是整個前景目標(biāo)所在的區(qū)域[24?25],未能細(xì)化到構(gòu)成目標(biāo)的每一個組成部分.如果要進(jìn)一步對運(yùn)動目標(biāo)的姿勢等進(jìn)行識別與分析,僅僅得到整個目標(biāo)所在的區(qū)域是遠(yuǎn)遠(yuǎn)不夠的,因此,與上述方法不同,本文所提出的視頻分割方法可以具體到構(gòu)成運(yùn)動目標(biāo)的每個主要部位.
在各類運(yùn)動目標(biāo)中,人是最普遍,也是最復(fù)雜的一種.與其他剛性物體不同,由于人姿勢變化的不確定性和無規(guī)律性,其旋轉(zhuǎn)、尺度以及外貌的變化都會給分割過程帶來很大的困難.目前,已有不少關(guān)于人身體各部位的跟蹤與檢測方法,將人的身體分成若干個運(yùn)動部位,如圖1(a)所示,不同的部位由不同灰度的矩形框來標(biāo)定,而非具體的身體部位所在的區(qū)域.此類方法通常是基于模板的匹配,根據(jù)人姿勢、尺度的變化,分別與各個角度和尺度的模板進(jìn)行匹配,從而得到與測試圖像最為接近的一個模板作為匹配結(jié)果,稱這種方法為“圖案結(jié)構(gòu)(Pictorial structure)”[26?27].該方法的模型為樹形結(jié)構(gòu),只考慮到四肢與軀干之間的關(guān)系,而沒有對四肢之間的關(guān)系加以約束,往往會引起某一只胳膊或者某一只腿的漏檢或錯檢.另外,該方法雖然已被廣泛地應(yīng)用到人的跟蹤與姿勢的估計(jì)中,但是,由于人運(yùn)動姿勢變化的隨機(jī)性和不可預(yù)知性,無法事先知道目標(biāo)尺度和旋轉(zhuǎn)角度的變化范圍,逐一模板匹配的過程會很大程度地影響運(yùn)算速度.
針對以上問題,本文提出一種旋轉(zhuǎn)與尺度不變的運(yùn)動視頻中人身體部位所在區(qū)域的分割方法,如圖1(b)所示為單幀的分割標(biāo)注結(jié)果.該方法不僅考慮到軀干與四肢之間的關(guān)系,同時還考慮到四肢之間的相互關(guān)系.其最大的優(yōu)勢就在于,它不需要考慮不同尺度與旋轉(zhuǎn)角度的模板匹配,而是利用人體各個部位的相對面積及比例關(guān)系,構(gòu)建一個旋轉(zhuǎn)與尺度不變的視頻分割方法.實(shí)驗(yàn)結(jié)果表明,該方法比“圖案結(jié)構(gòu)”方法的魯棒性更強(qiáng),尤其是對于目標(biāo)旋轉(zhuǎn)和尺度變化較大的視頻,并與現(xiàn)有的“圖案結(jié)構(gòu)”方法進(jìn)行了定性和定量的比較.這樣的分割結(jié)果無論是在體育賽場、舞蹈演出,還是在視頻監(jiān)控系統(tǒng)中都具有重要的應(yīng)用潛質(zhì).
圖1 “圖案結(jié)構(gòu)”檢測結(jié)果與本方法分割結(jié)果圖Fig.1 Detection result of“pictorial structure” method and the segmentation result of proposed method
本文最大的貢獻(xiàn)就是提出了一種新的旋轉(zhuǎn)與尺度不變的人身體各部位所在區(qū)域的視頻分割方法.如圖2所示為整個方法的鳥瞰圖,首先,找到每一幀(Frame 1,Frame 2,···,Framen)中可能的身體部位所在的區(qū)域塊;然后,根據(jù)每幀內(nèi)各個身體部位間的相對位置、大小、對稱性等約束找到每一幀中可能的身體部位組合;最后,利用相鄰幀之間運(yùn)動的連續(xù)性、光滑性等約束條件,采用動態(tài)規(guī)劃的方法找到每一幀中最優(yōu)的人身體部位的組合.該方法不僅適用于行人視頻,同樣也適用于復(fù)雜的運(yùn)動視頻.
圖2 旋轉(zhuǎn)與尺度不變的視頻分割方法鳥瞰圖Fig.2 The bird-view of rotation and scale invariant video segmentation method
本文提出的視頻分割方法旨在分割出視頻中人身體各部位所在的區(qū)域.該方法根據(jù)人體各部分組成結(jié)構(gòu)之間空間與時間的連續(xù)性,對可能的人體部位組成結(jié)構(gòu)進(jìn)行優(yōu)化選擇.為了使得分割結(jié)果不受目標(biāo)運(yùn)動過程中旋轉(zhuǎn)以及尺度變化的影響,人體部位組成結(jié)構(gòu)的圖模型應(yīng)為一個環(huán)狀結(jié)構(gòu),也就是說,不僅要考慮軀干與四肢之間的關(guān)系,還要考慮四肢之間的關(guān)系.如何有效地對該環(huán)狀結(jié)構(gòu)進(jìn)行優(yōu)化具有一定的挑戰(zhàn)性.本文提出一種生成最優(yōu)的N個人體部位組合的方法,每一幀中所有人體部位之間形成一個環(huán)狀的圖結(jié)構(gòu),分別找到每一幀中最佳的N個人體部位組合,根據(jù)幀與幀之間每個身體部位以及整個人運(yùn)動的連續(xù)性和光滑性,采用動態(tài)規(guī)劃的優(yōu)化方法找到每一幀中最優(yōu)的一組人體部位組合,從而巧妙地解決了該非樹形結(jié)構(gòu)的優(yōu)化問題.
本方法所采用的人體部位組成結(jié)構(gòu)主要包括5個身體部位:軀干(Torso)、左右胳膊(Arm1,Arm2)和左右腿(Leg1,Leg2),由于頭的位置可以簡單地通過兩只胳膊和軀干的位置檢測到,考慮到模型的簡潔性,該方法沒有包括頭部.每幀內(nèi)各個身體部位之間的結(jié)構(gòu)關(guān)系以及相鄰幀間相應(yīng)身體部位之間位移、形狀變化的關(guān)系,如圖3所示,圖中每個節(jié)點(diǎn)表示一個身體部位,每條邊表示它所連接的兩個身體部位之間的關(guān)系.其中,虛線邊代表單幀內(nèi)身體各部位之間的關(guān)系,實(shí)線邊代表相鄰幀之間各部位之間的關(guān)系,每個點(diǎn)線方框代表一個視頻幀.這里,不僅考慮到軀干–胳膊、軀干–腿、胳膊–胳膊、腿–腿之間的關(guān)系,還考慮到胳膊–腿之間的關(guān)系.并且對于相鄰的前后幀之間,身體各個部位以及整個身體的連續(xù)性和一致性也是必須要考慮的.
圖3 單幀內(nèi)與相鄰幀之間身體部位關(guān)系圖Fig.3 Human body parts relationships in single frame and between adjacent frames
該方法把身體部位所在區(qū)域的視頻分割轉(zhuǎn)化成一個圖模型的優(yōu)化問題,即把每一個身體部位分配給圖模型中的一個節(jié)點(diǎn),通過優(yōu)化過程使得分配的花費(fèi)最小.這里,可能的身體部位所在的區(qū)域由文獻(xiàn)[28]所提出的方法得到.該方法可得到一系列與目標(biāo)類無關(guān)的提議(Proposals).這些提議都具有較高的屬于某個目標(biāo)類的分值,也就是說,這些通過合并超像素塊得到的提議很有可能是一個有意義的目標(biāo).這也是提議比普通超像素塊的優(yōu)勢所在.另外,通過分割算法得到的超像素塊很容易將具有相同表觀特征的不同目標(biāo)劃分為同一個區(qū)域,而提議則可以在很大程度上避免這種錯誤的產(chǎn)生.本方法將最有可能屬于身體部位的提議集合起來構(gòu)成可能的身體部位的組合.
如式(1)所示,同時考慮到幀內(nèi)與幀間的連續(xù)性與一致性,能量函數(shù)E(f)包括幀內(nèi)能量(Intraframe energy)和幀間能量(Inter-frame energy)兩大部分,其中幀內(nèi)能量主要包括身體部位的形狀匹配花費(fèi)P(fk)、身體部位之間的距離G(fk)、身體部位之間的重疊O(fk)、身體部位之間的面積比例A(fk)等,身體部位的形狀越接近真實(shí)形狀,P(fk)就越小;身體部位之間的距離和重疊區(qū)域越小,G(fk)和O(fk)就越小;身體部位之間的面積比越接近真實(shí)比例,A(fk)就會越小.而幀間能量主要包括身體部位以及整個目標(biāo)形狀的連續(xù)性S(fk,fk?1)、位置的連續(xù)性L(fk,fk?1)以及顏色的連續(xù)性H(fk,fk?1),幀與幀之間身體各部位以及整個目標(biāo)的形狀變化越小、位移越小以及顏色的改變越小,S(fk,fk?1)、L(fk,fk?1) 和H(fk,fk?1) 就會越小.系數(shù)α、β、γ、δ、η、φ和θ為控制各分項(xiàng)比重的常量系數(shù).
首先通過文獻(xiàn)[28]中所提出的方法得到各個候選區(qū)域塊.每一個候選區(qū)域塊為一個可能的身體部位,即一個提議.每一個身體部位,比如軀干、胳膊等,均具有一組模板.通過度量候選區(qū)域與模板之間所對應(yīng)形狀描述子[29]的歐氏距離來衡量候選區(qū)域的形狀與真實(shí)身體部位形狀的相似性.區(qū)域的形狀描述子定義為區(qū)域內(nèi)部任意點(diǎn)對之間的距離直方圖.當(dāng)計(jì)算這個直方圖時,用區(qū)域內(nèi)所有點(diǎn)對距離的最大值對其進(jìn)行歸一化處理.該形狀描述子是旋轉(zhuǎn)與尺度不變的,即不隨區(qū)域旋轉(zhuǎn)和尺度的變化而變化的.具體的身體部位形狀匹配花費(fèi)P定義為
其中,i表示各個身體部位的索引值,fk(i)為身體部位i的候選區(qū)域,c(i,fk(i))為分配候選區(qū)域fk(i)給身體部位i的花費(fèi).c為區(qū)域fk(i)的形狀描述子與身體部位i的模板之間的最短距離.為了減少候選區(qū)域的個數(shù),提高運(yùn)算速度,實(shí)驗(yàn)過程中用RANSAC(Random sample consensus)方法去掉背景部分.即取先前若干幀和未來若干幀,比較它們的SIFT(Scale-invariant feature transform)特征,由于前景目標(biāo)往往只占每一幀的一小部分區(qū)域,因此,前景目標(biāo)上的SIFT特征點(diǎn)在RANSAC特征匹配中成為野點(diǎn).匹配過程中,只匹配背景點(diǎn),將當(dāng)前幀與其前后幀相減并求均值,得到一個估計(jì)的背景,從而可得到大致的前景區(qū)域.當(dāng)然,由于受到光照變化、攝像機(jī)抖動等外界條件的影響,視頻的背景并非完全靜止,也就是說,這種去背景的方法并不能保證去掉所有的背景部分.需要說明的是去背景的過程是可選的,并不會影響最終的分割結(jié)果.
除了保證每一個身體部位所在的區(qū)域有正確的形狀之外,還要確保軀干與四肢之間的距離足夠小,也就是說,所有的軀干和四肢之間是連接的,而不是離散的.設(shè)t為軀干的索引值,j為四肢的索引值.計(jì)算四肢j與軀干之間的最小邊界距離d(fk(j),fk(t)),那么身體部位之間的距離則表示為
其中,L為四肢的集合.
將身體部位之間的重疊O作為懲罰項(xiàng),使得各個身體部位之間盡量的展開,又不會排斥部位之間的重疊,比如,我們允許胳膊和軀干之間的重疊,而當(dāng)有展開的胳膊和軀干存在時,會優(yōu)先選擇身體部位展開的情況:
其中,Fk(i)為第k幀內(nèi)部位i的估計(jì)區(qū)域,N為身體部位對的集合,包括胳膊–胳膊,腿–腿,胳膊–軀干,腿–軀干,胳膊–腿等部位對,函數(shù)A給出了區(qū)域的面積.
不同的身體部位,比如胳膊和腿,可能會具有相似的形狀描述子.因此,僅通過形狀描述子進(jìn)行約束是不夠的,模型需要更有力的條件來對其進(jìn)行約束.進(jìn)一步講,盡管不同的部位可能具有相似的形狀,但不同部位的面積比例往往不同且有一定的規(guī)律,是服從高斯分布的,高斯分布的參數(shù)可由訓(xùn)練樣本得到:
其中,r(fk(i),fk(j))為部位i的候選區(qū)域fk(i)與部位j的候選區(qū)域fk(j)的面積比,μi,j和分別為高斯分布的均值與方差.P為身體部位的集合.
除了幀內(nèi)身體部位的位置比例關(guān)系之外,為了進(jìn)一步保證運(yùn)動的光滑性,還需要進(jìn)一步考慮相鄰幀之間目標(biāo)的連續(xù)性.這里由以下特征來衡量目標(biāo)在時間上的連續(xù)性.
通常情況下,相鄰幀之間目標(biāo)的形狀變化往往不大,而且不會發(fā)生快速的變化.這樣一來,目標(biāo)所在區(qū)域輪廓的變化也是光滑的.模型通過衡量身體部位所在區(qū)域輪廓變化的光滑性來判斷目標(biāo)形狀的連續(xù)性S.這里,區(qū)域的形狀用其邊界的朝向直方圖[30]來表示.需要說明的是,這里用朝向直方圖而沒有用內(nèi)部距離的原因是不需要保證幀與幀之間目標(biāo)形狀的旋轉(zhuǎn)和尺度不變性,朝向直方圖更適合此種類型的形狀匹配.
設(shè)sfk(i)為第k幀內(nèi)第i個身體部位候選區(qū)域fk(i)的形狀描述子,sfk表示第k幀內(nèi)整個前景目標(biāo)區(qū)域的形狀描述子,即其包括了所有的身體部位.形狀的連續(xù)性特征表示為
注意,邊界朝向直方圖沒有進(jìn)行歸一化處理,而且它還包含有區(qū)域的大小信息.通過最小化S,可以保證多個視頻幀之間所估計(jì)目標(biāo)的形狀和大小的連續(xù)性.
與形狀的連續(xù)性類似,同樣要求幀與幀之間身體部位的位置不會發(fā)生突然的變化.相鄰幀之間每個身體部位的位置變化用該部位所在區(qū)域中心點(diǎn)的位移來表示.設(shè)lfk(i)為第k幀內(nèi)第i個身體部位的候選區(qū)域fk(i)的中心位置,那么該部位位置變化則定義為
假設(shè)目標(biāo)的外貌在連續(xù)的相鄰幀中不會發(fā)生突然的變化.顏色的連續(xù)性可以保證身體部位的顏色在連續(xù)幀中的穩(wěn)定性.這里,我們用RGB直方圖來量化人身體部位的顏色.顏色選項(xiàng)定義為
其中,hfk(i)為第k幀中第i個身體部位候選區(qū)域的顏色直方圖.
通過整合這些特征選項(xiàng),可以得到一個完整的能量函數(shù).能量函數(shù)的最小化可以保證在每一幀內(nèi)得到一組最優(yōu)的身體部位組合.這里所提出的模型是非樹形的,因此,我們沒辦法用動態(tài)規(guī)劃直接對能量函數(shù)進(jìn)行優(yōu)化.另外,由于無法估算候選區(qū)域的個數(shù),因此無法直接使用貪婪的搜索算法.下一節(jié)將提出一種巧妙地將非樹形結(jié)構(gòu)轉(zhuǎn)化為樹形結(jié)構(gòu)的方法,從而能夠直接用動態(tài)規(guī)劃的方法進(jìn)行能量函數(shù)的優(yōu)化.
對于視頻中的每一幀,都會產(chǎn)生若干個可能的身體部位組合,組合的數(shù)量是整個優(yōu)化過程中必須要考慮的問題,而且每幀中可能組合的數(shù)目也是無法事先預(yù)知和估算的.如果不對可能的組合進(jìn)行篩選,優(yōu)化運(yùn)算的時間復(fù)雜度會成倍增加.因此,我們需要一種有效地提取每一幀中最優(yōu)的N個身體部位組合的方法,其中N是動態(tài)規(guī)劃算法中所能駕馭的相對最小值.
本方法最大的創(chuàng)新之處就在于,在處理人體各個部位的關(guān)系時,不僅同文獻(xiàn)[31]一樣要考慮軀干與四肢之間的關(guān)系,還要考慮到四肢之間的關(guān)系,這就使原本的線性結(jié)構(gòu)變成了非線性結(jié)構(gòu),從而也增加了選取最優(yōu)身體部位組合優(yōu)化過程的難度.下面來分析一下身體各個部位之間的關(guān)系.如果我們把兩個胳膊看作同一個節(jié)點(diǎn),兩條腿看作同一個節(jié)點(diǎn),那么軀干、胳膊和腿之間的關(guān)系就如圖4(a)所示,為一個環(huán)狀結(jié)構(gòu).對軀干進(jìn)行復(fù)制并將其分開,即有兩個相同但不相連的軀干,那么圖4(a)中的圖模型就轉(zhuǎn)變?yōu)閳D4(b)中所示的鏈狀結(jié)構(gòu),如此一來,便可以直接用動態(tài)規(guī)劃來對其進(jìn)行優(yōu)化,即如圖4(c)所示,左右兩個軀干為同一個軀干,每次固定一個候選軀干,然后用標(biāo)準(zhǔn)的動態(tài)規(guī)劃優(yōu)化算法選出對于每一個候選軀干最優(yōu)的胳膊和腿的組合.而對于所有可能的軀干,把每個軀干得到的身體部位組合進(jìn)行優(yōu)劣排序,最終保留最優(yōu)的N個組合.此時,對于視頻中的每一幀,可以分別得到N個最優(yōu)的身體部位組合.
圖4 身體部位關(guān)系解析圖Fig.4 The relationship of human body parts
根據(jù)式(1)中的能量函數(shù)以及圖3中所示的圖模型可以看出,除了要考慮單幀內(nèi)每一對身體部位之間的相關(guān)性及位置關(guān)系,還要考慮相鄰幀之間對應(yīng)身體部位之間的連續(xù)性與光滑性.圖3給出了該方法的圖模型,為一個非樹形結(jié)構(gòu),我們無法直接用線性的優(yōu)化方法對其進(jìn)行優(yōu)化.而在第1.2.1節(jié)中,每一幀已經(jīng)產(chǎn)生出了最優(yōu)的N個身體部位組合,這里,把每幀中的每一個身體部位組合作為圖中的一個節(jié)點(diǎn),即把圖3中的每一個子圖作為一個節(jié)點(diǎn),把相鄰幀中的各個節(jié)點(diǎn)用邊連接起來,這些邊和節(jié)點(diǎn)就會構(gòu)成一個網(wǎng)格狀的圖結(jié)構(gòu),每個節(jié)點(diǎn)的花費(fèi)由幀內(nèi)能量函數(shù)(如式(1)中的Intra-frame energy)決定,每條邊上的花費(fèi)由幀間的能量函數(shù)(如式(1)中的Inter-frame energy)決定.找到一條使得節(jié)點(diǎn)花費(fèi)(幀內(nèi)能量)和邊緣花費(fèi)(幀間能量)均最小的路徑,路徑上所有的節(jié)點(diǎn)即為我們想要找的每一幀中最優(yōu)的身體部位組合.這條最優(yōu)路徑通過動態(tài)規(guī)劃的優(yōu)化方法得到.假設(shè)每一幀中有N個可能的身體部位組合,視頻共有M幀,那么該優(yōu)化過程的時間復(fù)雜度為O(M×N).
實(shí)驗(yàn)中,我們把該方法應(yīng)用到頗具挑戰(zhàn)性的各種運(yùn)動視頻序列中,其中包括復(fù)雜的人體姿勢和各種翻轉(zhuǎn)動作.前四個視頻(Video 1,Video 2,···,Video 4)取自Youtube視頻,最后一個視頻(Video 5)取自HumanEVA數(shù)據(jù)庫[32].下面,分別給出定性的和定量的實(shí)驗(yàn)結(jié)果與分析,以及該模型應(yīng)用在行人姿勢估計(jì)上的結(jié)果.實(shí)驗(yàn)中,能量函數(shù)里控制各分項(xiàng)比重的系數(shù)根據(jù)不同視頻的具體情況分別設(shè)定.下面,對能量函數(shù)中各個參數(shù)的設(shè)置做出具體解釋和分析.由于人各種姿勢的不同特征,在考慮各個身體部位之間的關(guān)系時應(yīng)根據(jù)不同動作和姿勢下各個部位之間的不同關(guān)系和規(guī)律,具體問題具體分析.式(1)所示的能量函數(shù)中,Intra-frame energy的各項(xiàng)在整個能量函數(shù)中所起的作用大小各不相同,比如,在Video 1~Video 4中,運(yùn)動目標(biāo)均完成了翻轉(zhuǎn)或者平轉(zhuǎn)等動作,此時胳膊和腿的形狀會發(fā)生較大的變化,因此,這種情況下形狀匹配花費(fèi)P就會被設(shè)置較小的比重.而在Video 5中,包含了行人行走的各個朝向,此時胳膊與軀干之間總會處于相互重疊的狀態(tài),那么在這種情況下,身體部位間的重疊項(xiàng)O就會被設(shè)置較小的比重.而對于Inter-frame energy中的各項(xiàng),幀與幀之間目標(biāo)形狀、位置以及顏色的連續(xù)性均不會受到運(yùn)動目標(biāo)姿勢的影響,因此,對于所有的測試視頻,這其中各項(xiàng)都會設(shè)置為相同的比重系數(shù).對于N的選擇,無論是在選取單幀中最優(yōu)的N個身體部位組合時,還是在選擇每一幀中最優(yōu)的那一組身體部位組合,都使用的是動態(tài)規(guī)劃的優(yōu)化方法.能量分值最小的未必是最優(yōu)的那一個組合,因此實(shí)驗(yàn)中會選擇多個可能的身體部位及其組合參與優(yōu)化過程.然而每個階段的節(jié)點(diǎn)數(shù)目過大會影響到優(yōu)化速度,但如果N值選的太小(小于10)運(yùn)算結(jié)果的準(zhǔn)確性又會受到一定程度的影響.經(jīng)過反復(fù)實(shí)驗(yàn),我們選擇了一個既不會對運(yùn)算速度有太大影響,又不會降低運(yùn)算結(jié)果準(zhǔn)確度的N值,這里設(shè)置N為100.
我們用文獻(xiàn)[28]提出的區(qū)域提取方法得到各個可能的候選身體部位所在的區(qū)域.用第1.1.1節(jié)中提到的RANSAC方法進(jìn)行去背景處理,由于受到光照、攝像機(jī)抖動等因素的影響,視頻的背景并非完全靜止不動,因此,這個方法不能去掉所有的背景區(qū)域,而且,目標(biāo)的影子會隨目標(biāo)的運(yùn)動而運(yùn)動(本方法中,前景目標(biāo)的影子也被視為背景)也不能被去除,換句話說,RANSAC方法只能去掉完全靜止不動的背景區(qū)域.舉兩個比較典型的去背景后的例子,如圖5所示,第一個例子中(圖5中第一行),由于攝像機(jī)的抖動,發(fā)生抖動的背景區(qū)域并不能被去掉,而第二個例子中(圖5中第二行),人的影子隨人的運(yùn)動而運(yùn)動,也被誤認(rèn)為是前景部分.需要說明的是,去背景與否并不會影響到我們最終的實(shí)驗(yàn)結(jié)果.部分去背景雖然減少了大部分的背景噪音,但是我們?nèi)钥梢缘玫揭粋€相對比較干凈的前景區(qū)域,這對于提高檢測各個身體部位的運(yùn)算速度有很大的幫助,但是諸如影子等無法被去掉的背景噪音對我們的檢測也是一個非常大的挑戰(zhàn).圖6給出了分別在5段視頻上的分割結(jié)果,包括了不同的運(yùn)動姿勢,比如,跳、翻轉(zhuǎn)、倒立、平轉(zhuǎn)以及正常行走等.所給出的幀均等間距的采樣于整個視頻.從分割結(jié)果中可以看出,即使是在比較有挑戰(zhàn)性的、姿勢變化較大的運(yùn)動視頻上,該模型也可以得到不錯的分割結(jié)果.
圖5 去背景后效果圖Fig.5 Results after background removed
當(dāng)然,從實(shí)驗(yàn)結(jié)果中我們也可以看出,最終視頻分割結(jié)果的好壞很大程度上還依賴于提議(Proposals)檢測的準(zhǔn)確與否.比如,圖6中第6行第3列Video 3中的分割結(jié)果,胳膊與軀干被同時檢測為軀干,此時頭部則被誤認(rèn)為是胳膊,同樣,圖6中第8行第3列Video 4中的分割結(jié)果也是如此.這也是接下來的工作中需要改進(jìn)和增強(qiáng)之處.
我們也與目前較新的類似的視頻分割方法做了定性的對比與分析.大部分的視頻分割方法[33]基于視頻幀圖像的底層特征將視頻分割成時間上連續(xù)的立體超像素塊(Supervoxel),沒有考慮視頻中前景目標(biāo)的語義信息以及上下文關(guān)系,并且,其分割結(jié)果在很大程度上依賴于分割閾值的大小,閾值選的越大,分割結(jié)果越細(xì);相反,分割結(jié)果會越粗.文獻(xiàn)[34]所提出的基于時空特性的前景目標(biāo)提議的檢測方法把2D的目標(biāo)提議檢測方法擴(kuò)展到具有時間連續(xù)性的視頻數(shù)據(jù)中,從而得到立體的超像素塊,可以正確地檢測出視頻中的前景目標(biāo).該方法利用顏色[35]、光流[36]等特征,以及時間的連續(xù)性,光流梯度和邊緣在相鄰幀間的位移等信息對視頻進(jìn)行分層分割,如圖7中第2行至第6行所示,為不同分割閾值下的分割結(jié)果,從上到下分割閾值依次增大.對這些在不同閾值下得到的分割結(jié)果進(jìn)行合并聚類,進(jìn)而得到較為理想的目標(biāo)所在的區(qū)域,如圖7中第7行所示(圖7中所示為去背景后的結(jié)果).由于測試視頻背景為靜止?fàn)顟B(tài),因此,分割和檢測結(jié)果不受是否進(jìn)行去背景操作的影響.然而,該方法并未考慮前景目標(biāo)本身各個組成部分的結(jié)構(gòu)和比例關(guān)系,如圖7中第7行的結(jié)果所示,無法解決影子對前景目標(biāo)檢測分割結(jié)果的影響,圖7第8行為本文的分割結(jié)果.另外,該方法并沒有對目標(biāo)的各個組成部分所在的區(qū)域進(jìn)行語義標(biāo)注,因此,實(shí)驗(yàn)中并未與本文的方法進(jìn)行定量的比較.
圖6 本方法在5段測試視頻上的部分分割結(jié)果Fig.6 Sample results of proposed methods on fi ve test videos
該實(shí)驗(yàn)把本文所提出的方法與文獻(xiàn)[31]中提出的nbest的方法進(jìn)行定量的比較分析,即分別把該方法得到的分割結(jié)果和nbest方法得到的結(jié)果與Ground truth(GT),也就是手工標(biāo)注的真實(shí)的身體部位所在的區(qū)域相比較.
nbest[31]方法利用構(gòu)成人體各個部位之間的“圖案結(jié)構(gòu)”對于人體的各個組成部分進(jìn)行檢測,該結(jié)構(gòu)最大的問題就是只考慮到了軀干與四肢之間的位置關(guān)系,而忽略了四肢之間的關(guān)系,因此,對于直立狀態(tài)的人體而言,該方法可以得到較好的檢測結(jié)果,而對于發(fā)生旋轉(zhuǎn)的、非直立狀態(tài)的人體而言,該方法很難奏效.如圖8所示,為nbest方法對非直立姿勢的人體的檢測結(jié)果,圖中第1列為原始視頻幀,第2列為nbest方法的檢測結(jié)果,不同顏色的矩形框表示不同的身體部位,第3列為本文所提出的方法的檢測結(jié)果.
為了公平起見,實(shí)驗(yàn)中同樣對nbest方法的輸入數(shù)據(jù)也進(jìn)行去背景操作.另外,我們的方法得到的是分割的區(qū)域,而nbest方法得到的是每個身體部位區(qū)域所在的矩形綁定框,因此,我們按照一定的合適的比例擴(kuò)張nbest方法得到的矩形區(qū)域的中軸線,使矩形區(qū)域腐蝕為一定比例的圓柱形區(qū)域,讓這個圓柱形區(qū)域無限地接近身體部位所在的分割區(qū)域.由于nbest方法[31]不是尺度和旋轉(zhuǎn)不變的,它對于翻轉(zhuǎn)幅度比較大的情況得到的實(shí)驗(yàn)結(jié)果會很差.而本文提出的方法恰恰克服了這一點(diǎn),不論目標(biāo)發(fā)生如何旋轉(zhuǎn)和尺度的變化,均可以得到可靠的分割結(jié)果.
圖7 文獻(xiàn)[31]的方法與本方法測試結(jié)果對比示例Fig.7 Example results of the method in[31]and proposed method
圖8 nbest方法檢測結(jié)果與本方法結(jié)果示例Fig.8 Example results of nbest method and proposed method
對于每一個身體部位所在的區(qū)域,這里定義了一個匹配分值,A(P∩G)A(P∪G),其中,P是分割得到的身體部位所在的區(qū)域,G為對應(yīng)的真實(shí)身體部位所在的區(qū)域,A為區(qū)域的面積函數(shù).表1中給出了本方法與文獻(xiàn)[31]所提出的nbest方法對相同視頻檢測結(jié)果的比較分值.無論哪種運(yùn)動情況,該方法的結(jié)果均比nbest方法要改進(jìn)和提升很多.對于整體的平均檢測和分割結(jié)果,我們的方法依舊要優(yōu)于所比較的方法.
表1 該方法和nbest方法分別與GT的比較結(jié)果Table 1 Comparison of proposed method and GT,nbest method and GT
圖9給出了本文提出的方法與nbest方法實(shí)驗(yàn)結(jié)果的正確率曲線,其中包括單個身體部位以及整個人體的正確率.每條檢測曲線都給出了所檢測到的高于某一閾值的正確的身體部位占整個檢測結(jié)果的比例.比該閾值高的均認(rèn)為是正確的檢測結(jié)果.并且,當(dāng)閾值為1時,檢測結(jié)果的正確率為0,而閾值為0時,檢測結(jié)果正確率為1.從圖9的正確率曲線不難看出,該方法得到結(jié)果的正確率明顯高于nbest方法.
由于該方法分割結(jié)果的特殊性,以及行人正常行走姿勢的規(guī)律性,可將其應(yīng)用到行人的姿勢估計(jì)上.分割結(jié)果可分為上身和下身兩部分,軀干與胳膊屬于上身,腿屬于下身.根據(jù)直立行走的行人身體各個部位的比例位置關(guān)系,可以找到行人身體上可能的各個關(guān)節(jié)點(diǎn),比如,肩膀、肘部、手腕、臀部、膝蓋和腳踝等.然后,用擴(kuò)展動態(tài)規(guī)劃(Extended dynamic programming)的方法求得各個最優(yōu)的關(guān)節(jié)點(diǎn),從而得到行人的姿勢.
這里,每一對相鄰的關(guān)節(jié)點(diǎn)被看作是動態(tài)規(guī)劃中的一個狀態(tài).所用到的各種約束條件包括兩相鄰關(guān)節(jié)點(diǎn)之間距離與行人高度比、兩相鄰狀態(tài)之間的內(nèi)夾角,以及兩相鄰狀態(tài)連線與對應(yīng)身體部位所在區(qū)域輪廓之間的平行性.另外,還需要考慮當(dāng)前狀態(tài)與先前狀態(tài)的連續(xù)性和上身關(guān)節(jié)點(diǎn)與下身關(guān)節(jié)點(diǎn)的對齊,進(jìn)而估計(jì)出不同朝向行人的關(guān)節(jié)點(diǎn),用大小不同的原點(diǎn)表示關(guān)節(jié)點(diǎn),關(guān)節(jié)點(diǎn)越大表示其離攝像頭距離越近;反之越遠(yuǎn).圖10給出了在本方法分割結(jié)果的基礎(chǔ)上,4個不同朝向的行人姿勢估計(jì)結(jié)果,圖中第1行到第4行分別為正面、背面、左面和右面4個朝向.
圖9 該方法與nbest方法實(shí)驗(yàn)結(jié)果的正確率曲線圖Fig.9 Detection rate comparisons of nbest and proposed method
圖10 行人姿勢估計(jì)結(jié)果Fig.10 Pedestrian pose estimation results
本文提出了一種新的人身體部位所在區(qū)域的視頻分割方法.該方法不需要任何初始化,對于各種旋轉(zhuǎn)與尺度的變化都具有較好的魯棒性.實(shí)驗(yàn)中分別對該方法進(jìn)行了定性和定量的分析比較,實(shí)驗(yàn)結(jié)果表明,與類似的方法相比,該方法不僅適用于直立行走的行人,對各種姿勢的人也可以得到較好的實(shí)驗(yàn)結(jié)果.另外,還試將行人視頻的分割結(jié)果應(yīng)用到行人行走姿勢的估計(jì)中,為進(jìn)一步行人異常行為的分析奠定了良好的基礎(chǔ).當(dāng)然,針對實(shí)驗(yàn)中出現(xiàn)的不足,比如如何提高提議(Proposals)的準(zhǔn)確率等問題,也是接下來的工作中需要解決的.另外,在接下來的工作中,會在該工作的基礎(chǔ)上繼續(xù)進(jìn)行體育、舞蹈等運(yùn)動視頻中目標(biāo)姿勢的估計(jì)與分析,以及其在智能視頻監(jiān)控與人機(jī)交互領(lǐng)域的應(yīng)用.
1 Criminisi A,Cross G,Blake A,Kolmogorov V.Bilayer segmentation of live video.In:Proceedings of the 2007 IEEE Conference on Computer Vision and Pattern Recognition.New York,USA:IEEE,2006.53?60
2 Cheung S C S,Kamath C.Robust techniques for background subtraction in urban traffic video.In:Proceedings of SPIE 5308,Visual Communications and Image Processing.San Jose,USA:SPIE,2004,5308:881?892
3 Hayman E,Eklundh J.Statistical background subtraction for a mobile observer.In:Proceedings of the 9th IEEE International Conference on Computer Vision.Nice,France:IEEE,2003.67?74
4 Ren Y,Chua C S,Ho Y K.Statistical background modeling for non-stationary camera.Pattern Recognition Letters,2003,24(1?3):183?196
5 GiordanoD,MurabitoF,PalazzoS,SpampinatoC.Superpixel-based video object segmentation using perceptual organization and location prior.In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston,MA,USA:IEEE,2015.4814?4822
6 Brendel W,Todorovic S.Video object segmentation by tracking regions.In:Proceedings of the 12th IEEE International Conference on Computer Vision.Kyoto,Japan:IEEE,2009.833?840
7 Li F X,Kim T,Humayun A,Tsai D,Rehg J M.Video segmentation by tracking many fi gure-ground segments.In:Proceedings of the 2013 IEEE International Conference on Computer Vision.Sydney,Australia:IEEE,2013.2192?2199
8 Varas D,Marques F.Region-based particle fi lter for video object segmentation.In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus,OH,USA:IEEE,2014.3470?3477
9 Arbel′aez P A,Pont-Tuset J,Barron J T,Marques F,Malik J.Multiscale combinatorial grouping.In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus,OH,USA:IEEE,2014.328?335
10 Tsai Y H,Yang M H,Black M J.Video segmentation via object fl ow.In:Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas,USA:IEEE,2016.
11 Ramakanth S A,Babu R V.Seamseg:video object segmentation using patch seams.In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus,OH,USA:IEEE,2014.376?383
12 Faktor A,Irani M.Video segmentation by non-local consensus voting.In:Proceedings British Machine Vision Conference 2014.Nottingham:BMVA Press,2014.
13 Papazoglou A,Ferrari V.Fast object segmentation in unconstrained video.In:Proceedings of the 2013 IEEE International Conference on Computer Vision.Sydney,Australia:IEEE,2013.1777?1784
14 Rother C,Kolmogorov V,Blake A. “Grabcut”:interactive foreground extraction using iterated graph cuts.Acm Transactions on Graphics,2004,23(3):309?314
15 Girshick R,Donahue J,Darrell T,Malik J.Rich feature hierarchies for accurate object detection and semantic segmentation.In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus,OH,USA:IEEE,2014.580?587
16 Lin T Y,Maire M,Belongie S,Hays J,Perona P,Ramanan D,Doll′ar P,Zitnick C L.Microsoft COCO:common objects in context.In:Proceedings of the 13th European Conference.Zurich,Switzerland:Springer International Publishing,2014.740?755
17 Endres I,Hoiem D.Category-independent object proposals with diverse ranking.IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,36(2):222?234
18 Kr¨ahenb¨uhl P,Koltun V.Geodesic object proposals.In:Proceedings of the 13th European Conference on Computer Vision.Zurich,Switzerland:Springer International Publishing,2014.725?739
19 Zhang D,Javed O,Shah M.Video object segmentation through spatially accurate and temporally dense extraction of primary object regions.In:Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition.Portland,Oregon,USA:IEEE,2013.628?635
20 Fragkiadaki K,Arbelaez P,Felsen P,Malik J.Learning to segment moving objects in videos.In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston,USA:IEEE,2015.4083?4090
21 Perazzi F,Wang O,Gross M,Sorkine-Hornung A.Fully connected object proposals for video segmentation.In:Proceedings of the 2015 IEEE International Conference on Computer Vision.Santiago,Chile:IEEE,2015.3227?3234
22 Kundu A,Vineet V,Koltun V.Feature space optimization for semantic video segmentation.In:Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas,Nevada,USA:IEEE,2016.
23 Seguin G,Bojanowski P,Lajugie R,Laptev I.Instance-level video segmentation from object tracks.In:Proceeding of the 2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas,Nevada,USA:IEEE,2016.
24 Lee Y J,Kim J,Grauman J.Key-Segments for video object segmentation.In:Proceedings of the 2011 IEEE International Conference on Computer Vision.Barcelona,Spanish:IEEE,2011.1995?2002
25 Tsai D,Flagg M,Rehg J.Motion coherent tracking with multi-label MRF optimization.In: Proceedings of the British Machine Vision Conference 2010.Aberystwyth:BMVA Press,2010.190?202
26 Ramanan D,Forsyth D A,Zisserman A.Tracking people by learning their appearance.IEEE Transactions on Pattern Analysis and Machine Intelligence,2007,29(1):65?81
27 Yang Y,Ramanan D.Articulated pose estimation with fl exible mixtures-of-parts.In:Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition.Colorado Springs,USA:IEEE,2011.1385?1392
28 Endres I,Hoiem D.Category independent object proposals.In:Proceedings of the 11th European Conference on Computer Vision.Heraklion,Crete,Greece:Springer,2010.575?588
29 Ling H B,Jacobs D W.Shape classi fi cation using the innerdistance.IEEE Transactions on Pattern Analysis and Machine Intelligence,2007,29(2):286?299
30 Dalal N,Triggs B.Histograms of oriented gradients for human detection.In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition.San Diego,CA,USA:IEEE,2005.886?893
31 Park D,Ramanan D.N-best maximal decoders for part models.In:Proceedings of the 2011 IEEE International Conference on Computer Vision.Barcelona,Spain:IEEE,2011.2627?2634
32 Sigal L,Black M J.HumanEva:Synchronized Video and Motion Capture Dataset for Evaluation of Articulated Human Motion.Techniacl Report CS-06-08.Brown University,USA,2006
33 Grundmann M,Kwatra V,Han M,Essa I.Efficient hierarchical graph based video segmentation.In:Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition.San Francisco,USA:IEEE,2010.2141?2148
34 Oneata D,Revaud J,Verbeek J,Schmid C.Spatio-temporal object detection proposals.In:Proceedings of the 13th European Conference on Computer Vision.Zurich,Switzerland:Springer International Publishing,2014.737?752
35 Pele O,Werman M.Fast and robust earth mover's distance.In:Proceedings of the 12th IEEE International Conference on Computer Vision.Kyoto,Japan:IEEE,2009.460?467
36 Brox T,Malik J.Large displacement optical fl ow:descriptor matching in variational motion estimation.IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(3):500?513