李萬益 孫季豐 王玉龍
?
基于雙隱變量空間局部粒子搜索的人體運(yùn)動(dòng)形態(tài)估計(jì)
李萬益*孫季豐 王玉龍
(華南理工大學(xué)電子與信息學(xué)院 廣州 510641)
該文提出一種雙隱變量空間局部粒子搜索(DLVSLPS)算法,可以從多視角圖像序列的輪廓特征較準(zhǔn)確地估計(jì)出3維人體運(yùn)動(dòng)形態(tài)序列。該算法用高斯過程動(dòng)態(tài)模型(GPDM)降維建立雙隱變量空間和低維隱變量數(shù)據(jù)到高維數(shù)據(jù)的映射關(guān)系后,然后對(duì)雙隱變量空間使用近鄰權(quán)重先驗(yàn)條件搜索(NWPCS),實(shí)現(xiàn)局部低維粒子搜索來生成較優(yōu)高維數(shù)據(jù),從而估計(jì)相應(yīng)幀的3維人體運(yùn)動(dòng)形態(tài),解決傳統(tǒng)粒子濾波算法直接在高維數(shù)據(jù)空間采樣較難獲取有效正確數(shù)據(jù)進(jìn)行估計(jì)的問題。經(jīng)仿真實(shí)驗(yàn)驗(yàn)證,所提出的算法比傳統(tǒng)粒子濾波算法在實(shí)現(xiàn)多視角非連續(xù)幀估計(jì),克服輪廓圖像數(shù)據(jù)歧義,減小估計(jì)誤差有明顯優(yōu)勢(shì)。
人體運(yùn)動(dòng)形態(tài)估計(jì);雙隱變量空間;局部粒子搜索;多視角圖像序列;3維人體運(yùn)動(dòng)形態(tài)序列
本文針對(duì)以上問題,提出一種可靠穩(wěn)定的雙隱變量空間局部粒子搜索算法(Dual Latent Variable Spaces Local Particle Search, DLVSLPS),對(duì)于估計(jì)周期性勻速含空間位置信息3維人體運(yùn)動(dòng)形態(tài)很有效。該算法采用高斯過程動(dòng)態(tài)模型(Gaussian Process Dynamical Models, GPDM)[9,10]分別對(duì)少量兩套(帶空間位置信息和不帶空間位置信息)已知的3維人體運(yùn)動(dòng)形數(shù)據(jù)進(jìn)行降維,獲取低維隱變量數(shù)據(jù),建立低維隱變量數(shù)據(jù)到高維人體運(yùn)動(dòng)形態(tài)數(shù)據(jù)函數(shù)映射關(guān)系后,再用近鄰權(quán)重先驗(yàn)條件搜索(Neighbor Weight Prior Condition Search, NWPCS)來實(shí)現(xiàn)。GPDM降維算法與其他降維算法[11]相比,其具有低維到高維可逆性,并且從低維隱變量數(shù)據(jù)還原的高維數(shù)據(jù)與原高維數(shù)據(jù)差別較小,它由高斯過程隱變量模型(Gaussian Process Latent Variable Models, GPLVM)[12,13]演變而來。這兩個(gè)隱變量空間中的低維隱變量數(shù)據(jù)對(duì)于搜索過程中具有很好的先驗(yàn)信息,本文提出算法就可以較好利用該信息,結(jié)合相關(guān)約束模型,對(duì)兩個(gè)空間低維粒子進(jìn)行局部搜索,生成較有效正確的高維數(shù)據(jù)進(jìn)行估計(jì)。本文提出的算法與傳統(tǒng)幾種粒子濾波算法(APF, PSO-PF, PF)相比,可以估計(jì)非連續(xù)幀所對(duì)應(yīng)的3維人體運(yùn)動(dòng)形態(tài),有效克服輪廓圖像數(shù)據(jù)歧義,且減小估計(jì)誤差。最后,通過仿真實(shí)驗(yàn)驗(yàn)證該算法比傳統(tǒng)幾種粒子濾波算法更有效。文中稱描述3維人體運(yùn)動(dòng)形態(tài)的數(shù)據(jù)為高維數(shù)據(jù),其降維后在隱變量空間中所獲取的低維隱變量數(shù)據(jù)稱為低維數(shù)據(jù)(低維粒子),隱變量空間也稱為低維空間。
本文需要估計(jì)的3維人體運(yùn)動(dòng)形態(tài)用如圖1(a)所示的人體運(yùn)動(dòng)立體模型表示,里面由圓臺(tái)體與骨架組成,該模型可以較近似地描述真實(shí)人體運(yùn)動(dòng)形態(tài),肢體大小,并且該模型是由高維數(shù)據(jù)轉(zhuǎn)換而來。在對(duì)多視角的2維人體運(yùn)動(dòng)圖像處理前,可以將已知少量立體模型的高維數(shù)據(jù)組成一個(gè)稀疏的數(shù)據(jù)樣本1,這組樣本序列是大致覆蓋有一個(gè)周期空間位置信息的,如圖1(b)所示。然后,本文同樣可以采集一個(gè)走路運(yùn)動(dòng)周期少量無空間位置信息稀疏的數(shù)據(jù)樣本2,如圖1(c)所示。兩組高維數(shù)據(jù)用GPDM降維后就建立了低維空間且獲取了如圖1(d)與圖1(e)所示的相應(yīng)兩組低維數(shù)據(jù),及其函數(shù)映射關(guān)系。GPDM相關(guān)概率關(guān)系為
根據(jù)文獻(xiàn)[5]的研究以及Humaneva-I數(shù)據(jù)庫中的采集數(shù)據(jù)特點(diǎn),每一幀的人體運(yùn)動(dòng)形態(tài)圖像由3個(gè)不同視角彩色鏡頭拍攝,如圖2第1行的3幅圖所示。那么本文通過圖像分割算法[14,15]對(duì)該幀的3個(gè)視角圖像進(jìn)行處理得到相應(yīng)視角的輪廓圖像,如圖2第2行的3幅圖所示,本文還需要對(duì)生成的人體運(yùn)動(dòng)立體模型做該3個(gè)視角的2維圖像投影,如圖2第3行的3幅圖所示。根據(jù)式(4),本文有以下函數(shù)及概率關(guān)系:
(6)
圖2 圖像數(shù)據(jù)
通常,經(jīng)過首個(gè)低維空間的搜索后,還原得到高維數(shù)據(jù)的空間位置信息會(huì)有偏差,那么這時(shí)需要對(duì)還原高維數(shù)據(jù)的空間位置信息(共6維)進(jìn)行搜索,一般是高維數(shù)據(jù)的前2維數(shù)據(jù)偏差較大,搜索前2維即可。搜索方法也使用上述方法進(jìn)行搜索,找出權(quán)重大的空間位置信息進(jìn)行保留即可,之后再進(jìn)行第2個(gè)低維空間的搜索。對(duì)第2個(gè)低維空間搜索時(shí),為了克服輪廓圖像數(shù)據(jù)歧義,本文建立以下運(yùn)動(dòng)形態(tài)約束模型,尋找與首個(gè)低維空間搜索后得出的高維數(shù)據(jù)相對(duì)接近的高維數(shù)據(jù)的相應(yīng)低維粒子:
本文在圖3中簡單描述了NWPCS原理,低維空間局部粒子搜索與傳統(tǒng)粒子濾波算法的采樣復(fù)制有所不同。在概率權(quán)重函數(shù)局部含有較小多峰時(shí),按約束條件尋找前3個(gè)權(quán)重較大的相鄰粒子,對(duì)低維空間從全局到局部逐步定位,可以較快找到與各視角輪廓圖像數(shù)據(jù)特征最近似(最優(yōu))且單峰的相應(yīng)局部,在該局部中再通過搜索向量進(jìn)行空間搜索,獲得新的粒子,然后在所獲粒子中再找出權(quán)重較大的前3個(gè)粒子(含上次搜索權(quán)重最大的粒子),重復(fù)上述的方法,搜索范圍會(huì)逐步縮小到權(quán)重大的粒子生成空間。相比之下,傳統(tǒng)的粒子濾波算法是多次復(fù)制權(quán)重大的粒子再來采樣,且每次采樣范圍是很有限的,先驗(yàn)信息較不理想時(shí),較小概率權(quán)重值歸一化后很有可能出現(xiàn)權(quán)重比較大的粒子,會(huì)重復(fù)復(fù)制了實(shí)際概率相對(duì)最大值都比較小的粒子進(jìn)行下一輪粒子的權(quán)重計(jì)算,就較難得到實(shí)際概率大且和輪廓圖像特征匹配的粒子,相當(dāng)于陷入局部最優(yōu)的概率值。由于低維空間含有很多高維數(shù)據(jù)全局先驗(yàn)信息,所以在低維空間進(jìn)行全局到局部定位再局部搜索生成的粒子會(huì)比傳統(tǒng)粒子濾波算法要有效得多,從而所提算法具有較好的性能。
圖3 NWPCS搜索原理示意圖(設(shè)分別為第1次,第2次搜索到的粒子,N為數(shù)據(jù)樣本1或2的個(gè)數(shù),NP為搜索粒子個(gè)數(shù))
本文采用雙隱變量空間搜索,可以較準(zhǔn)確地估計(jì)人體運(yùn)動(dòng)立體模型所在的空間位置信息和動(dòng)作姿態(tài)信息。由第3.2節(jié)的結(jié)論,本文給出算法如下。
具體搜索步驟如表1所示。
本文用DLVSLPS算法在估計(jì)非連續(xù)幀,克服輪廓圖像數(shù)據(jù)歧義以及估計(jì)人體運(yùn)動(dòng)形態(tài)的誤差3個(gè)方面和其他粒子濾波算法進(jìn)行比較,其中所用視角為3個(gè)視角,測(cè)試數(shù)據(jù)選用HumanEva-I數(shù)據(jù)。
本文選用任意間隔20幀的兩幀圖像進(jìn)行測(cè)試,從任意1幀開始估計(jì)其后的第20幀,且用4種不同的算法比較,其后的第20幀估計(jì)效果如圖4(a)~圖4(d)所示。圖4中可以看出所提出的DLVSLPS算法可以很好地估計(jì)出非連續(xù)幀的人體運(yùn)動(dòng)立體模型及其空間位置,并且其各肢體和該非連續(xù)幀各視角的2維圖像也很匹配,然而APF, PSO-PF和PF算法估計(jì)出非連續(xù)幀的人體運(yùn)動(dòng)立體模型及其空間位置均有誤,其各肢體與相應(yīng)各視角2維圖像明顯不匹配。
表1 搜索步驟
圖4 各算法在3個(gè)視角下估計(jì)非連續(xù)幀的人體運(yùn)動(dòng)立體模型及其2維圖像顯示
一組有限視角如圖2第2行的3幅圖這樣的2維輪廓圖像數(shù)據(jù)是帶有數(shù)據(jù)歧義的,也就是說一組輪廓數(shù)據(jù)無法判別人體運(yùn)動(dòng)立體模型肢體的具體情況。例如,一組有限視角輪廓圖像數(shù)據(jù)無法判別人體運(yùn)動(dòng)形態(tài)的腳到底是左腳在前還是右腳在前的類似情況。DLVSLPS算法利用低維空間的先驗(yàn)信息,加上運(yùn)動(dòng)形態(tài)約束,可克服輪廓圖像數(shù)據(jù)歧義估計(jì),給出更接近真實(shí)數(shù)據(jù)的人體運(yùn)動(dòng)立體模型。如圖5(a)~圖5(e)所示,DLVSLPS算法估計(jì)效果和真實(shí)數(shù)據(jù)較接近,而APF, PF算法估計(jì)左腳(白色)及右腳(灰色)的位置相反了,手有和2維圖像不匹配的現(xiàn)象,并且與真實(shí)數(shù)據(jù)相差很大。PSO-PF算法更無法克服輪廓圖像數(shù)據(jù)歧義,估計(jì)的效果和真實(shí)數(shù)據(jù)差別更大,得出人體運(yùn)動(dòng)立體模型完全不成人形。因此,說明DLVSLPS算法估計(jì)過程中可以克服輪廓數(shù)據(jù)歧義進(jìn)行估計(jì)。
本文采用文獻(xiàn)[16]的計(jì)算誤差方法,計(jì)算鑲嵌在圓臺(tái)里的骨架各關(guān)節(jié)點(diǎn)的平均誤差作為每一幀的誤差,然后采用APF, PSO-PF, PF 3種粒子濾波算法與所提算法DLVSLPS比較。由于APF, PSO-PF, PF算法估計(jì)非連續(xù)幀不是很好,故采用50幀連續(xù)圖像,比較估計(jì)誤差。本文采用HumanEva-I里空間位置信息變化較大的人體走路和跑步形態(tài)的數(shù)據(jù)進(jìn)行測(cè)試比較,其中走路1~3與跑步1~3兩類運(yùn)動(dòng)形態(tài)數(shù)據(jù)段都是空間位置信息不同的數(shù)據(jù),如圖6所示,各子圖中可以分別看出所提算法DLVSLPS估計(jì)連續(xù)幀的平均誤差,標(biāo)準(zhǔn)差,走路1~3和跑步1~3每幀的誤差及最大誤差(圖6(b)~圖6(g)的算法圖例標(biāo)識(shí)所示),都比APF, PSO-PF, PF算法總體明顯要小,所以DLVSLPS算法比以上3種算法有很大優(yōu)勢(shì)。
圖5 各算法在3個(gè)視角下克服輪廓數(shù)據(jù)歧義估計(jì)人體運(yùn)動(dòng)立體模型的2維圖像顯示
圖6 估計(jì)誤差比較
從以上實(shí)驗(yàn)結(jié)果可知,所提DLVSLPS算法可以從多視角圖像序列中的人體運(yùn)動(dòng)形態(tài)輪廓特征估計(jì)出相應(yīng)的3維人體運(yùn)動(dòng)形態(tài),并且可以較好地估計(jì)出其所含的相應(yīng)空間位置信息。和其他傳統(tǒng)粒子濾波算法APF, PF, PSO-PF相比,DLVSLPS算法還有非連續(xù)幀估計(jì),克服輪廓圖像數(shù)據(jù)歧義及減小估計(jì)誤差的優(yōu)勢(shì)。另外,對(duì)多視角的圖像序列進(jìn)行圖像分割提取輪廓圖像時(shí),如果輪廓圖像提取的質(zhì)量較差,會(huì)直接對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生較大影響。本文的研究還局限于人體運(yùn)動(dòng)形態(tài)及空間位置變化較規(guī)則,且有標(biāo)記人體運(yùn)動(dòng)立體模型的估計(jì),將來本文的研究還會(huì)拓展到人體運(yùn)動(dòng)空間位置變化不規(guī)則,無標(biāo)記且多角色交互復(fù)雜的人體運(yùn)動(dòng)立體模型估計(jì)[17]。如何在低維空間中進(jìn)行最優(yōu)搜索,與高維數(shù)據(jù)相互建立函數(shù)關(guān)系,仍是研究重點(diǎn)。
[1] Yao A, Gall J, Gool L V,. Learning probabilistic non-linear latent variable models for tracking complex activities[C]. Proceedings of Neural Information Processing Systems, Vancouver, Canada, 2011: 1-8.
[2] Luo Wei-lan, Yamasaki T, and Aizawa K. Cooperative estimation of human motion and surfaces using multiview videos[J]., 2013, 117(11): 1560-1574.
[3] Gall J, Rosenhahn B, Brox T,. Optimization and filtering for human motion capture[J]., 2010, 87(1/2): 75-92.
[4] Bernard J, Wilhelm N, Krüger B,. Motionexplorer: exploratory search in human motion capture data based on hierarchical aggregation[J]., 2013, 19(12): 2257-2266.
[5] Sigal L, Balan A O, and Black M J. Humaneva: synchronized video and motion capture dataset and baseline algorithm for evaluation of articulated human motion[J]., 2010, 87(1/2): 4-27.
[6] Deutscher J and Reid I. Articulated body motion capture by stochastic search[J]., 2005, 61(2): 185-205.
[7] 朱志宇. 粒子濾波算法及其應(yīng)用[M]. 北京: 科學(xué)出版社, 2010: 78-83.
Zhu Zhi-yu. Particle Filter Algorithm and Its Application[M]. Beijing: Science Press, 2010: 78-83.
[8] 李毅, 孫正興, 陳松樂, 等. 基于退火粒子群優(yōu)化的單目視頻人體姿態(tài)分析方法[J]. 自動(dòng)化學(xué)報(bào), 2012, 38(5): 732-741.
Li Yi, Sun Zheng-xing, Chen Song-le,. 3D human pose analysis from monocular video by simulated annealed particle swarm optimization[J]., 2012, 38(5): 732-741.
[9] Wang J M and Fleet D J. Gaussian process dynamical models for human motion[J]., 2008, 30(3): 283-298.
[10] Urtasun R, Fleet D J, and Fua P. 3D people tracking with gaussian process dynamical models[C]. Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition, New York, USA, 2006: 238-245.
[11] Rosman G, Bronstein M M, Bronstein A M,. Nonlinear dimensionality reduction by topologically constrained isometric embedding[J]., 2010, 89(1): 56-68.
[12] Lawrence N D. Probabilistic non-linear principal component analysis with Gaussian process latent variable models[J]., 2005, 6(11): 1783-1816.
[13] Ek C H, Torr P H S, and Lawrence N D. Gaussian process latent variable models for human pose estimation[C]. Proceedings of 4th Workshop on Machine Learning for Multimodal Interaction, Brno, Czech Republic, 2007: 132-143.
[14] Dong Fang-fang, Chen Zeng-si, and Wang Jin-wei. A new level set method for inhomogeneous image segmentation[J]., 2013, 31(10): 809-822.
[15] Kasaiezadeh A and Khajepour A. Multi-agent stochastic level set method in image segmentation[J]., 2013, 117(9): 1147-1162.
[16] Sigal L and Black M J. Humaneva: synchronized video and motion capture dataset for evaluation of articulated human motion[R]. Report of Brown University, Providence: USA, 2006.
[17] Liu Ye-bin, Gall J, Stoll C,. Markerless motion capture of multiple characters using multiview image segmentation[J]., 2013, 35(11): 2720-2735.
李萬益: 男,1985年生,博士生,研究方向?yàn)闄C(jī)器學(xué)習(xí)、智能計(jì)算方法、通信系統(tǒng)優(yōu)化.
孫季豐: 男,1962年生,教授,博士生導(dǎo)師,研究方向?yàn)閳D像理解、計(jì)算機(jī)視覺.
王玉龍: 男,1989年生,碩士生,研究方向?yàn)閳D像與視頻處理.
Human Motion Estimation Based on Dual LatentVariable Spaces Local Particle Search
Li Wan-yi Sun Ji-feng Wang Yu-long
(,,510641,)
A novel algorithm called Dual Latent Variable Spaces Local Particle Search (DLVSLPS) is proposed. It can estimate the 3D human motion sequence from silhouettes of multi-view image sequence more accurately. Gaussian Process Dynamical Models (GPDM) is used to reduce the dimension to build the dual latent variable spaces and the mapping from low dimensional latent variable data to high dimensional data. Then, the low dimensional particles are searched in these spaces by the method called Neighbor Weight Prior Condition Search (NWPCS). The better high dimensional data are generated from the mapping to estimate the 3D human motion of the corresponding frame. The proposed algorithm aims to solve the problem of traditional particle filters. The problem is that sampling in high dimensional data space can not get the valid and correct data to estimate the 3D human motion. The simulating experiments show the proposed algorithm has better performance than the traditional particle filters. The better performance includes the multi-view and discontinuous frame estimation, overcoming the silhouette ambiguity and reducing the estimation error.
Human motion estimation; Dual latent variable spaces; Local particle search; Multi-view image sequence; 3D human motion sequence
TP391.4
A
1009-5896(2014)12-2915-08
10.3724/SP.J.1146.2013.01915
李萬益 luther1212@163.com
2013-12-09收到,2014-06-30改回
國家自然科學(xué)基金青年基金(61202292)和廣東省自然科學(xué)基金(9151064101000037)資助課題