韓貴金, 周 有
(西安郵電大學(xué) 自動化學(xué)院, 陜西 西安 710121)
基于R-SVM算法的部位外觀模型
韓貴金, 周 有
(西安郵電大學(xué) 自動化學(xué)院, 陜西 西安 710121)
為了提高人體姿態(tài)估計的準(zhǔn)確度,利用梯度方向直方圖特征建立一種基于遞歸支持向量機算法的部位外觀模型。利用R-SVM算法剔除訓(xùn)練圖像標(biāo)注的部位區(qū)域中對識別部位作用較小的部分區(qū)域,利用剩余的圖像區(qū)域構(gòu)造的SVM分類器即為部位外觀模型,外觀模型的最佳細胞單元尺寸利用訓(xùn)練圖像中標(biāo)注的部位區(qū)域與部位外觀模型的相似度的極大化來估計。仿真實驗結(jié)果表明該模型能更準(zhǔn)確地描述真實人體部位的外觀特征,用于人體姿態(tài)估計時可以得到準(zhǔn)確度更高的人體姿態(tài)估計結(jié)果。
人體姿態(tài)估計;部位外觀模型;梯度方向直方圖;遞歸支持向量機
人是社會活動的主體,在視頻監(jiān)控、人機交互和虛擬現(xiàn)實等諸多領(lǐng)域中經(jīng)常需要對人體的動作和行為進行識別與分析。人體由頭部、軀干和四肢等多個部位組成,如果能確定人體各個部位的尺寸和位置等定位信息,通過對部位定位信息的分析即可實現(xiàn)人體動作和行為的識別與分析。
通過對圖像特征進行分析以確定人體各部位的尺寸和位置等定位信息的過程即為人體姿態(tài)估計[1]。由于人體姿態(tài)估計可以為人體動作和行為的識別與分析打下基礎(chǔ),而人體動作和行為的識別與分析在計算機視覺研究領(lǐng)域非常熱門,所以人體姿態(tài)估計也獲得了很多研究者的關(guān)注,迄今為止,已經(jīng)提出了多種人體姿態(tài)估計算法[2]?,F(xiàn)有人體姿態(tài)估計算法主要分為基于整體的姿態(tài)估計方法和基于模型的姿態(tài)估計方法兩大類[3]。其中基于模型的姿態(tài)估計方法由于可以遍歷人體所有可能存在的姿態(tài)[3],得到了人體姿態(tài)估計領(lǐng)域研究者更多的關(guān)注?;谀P偷淖藨B(tài)估計方法包含人體模型、部位外觀模型、部位搜索空間和推理算法等4個方面。
基于模型的人體姿態(tài)估計需要計算各個部位定位狀態(tài)對應(yīng)外觀特征與真實人體部位外觀特征的相似程度,從而需要利用圖像特征對真實人體部位外觀特征進行描述,即為部位外觀模型。部位外觀模型建立的準(zhǔn)確與否對人體姿態(tài)估計的準(zhǔn)確度影響很大,是人體姿態(tài)估計領(lǐng)域受到研究者最多關(guān)注的研究方向,已經(jīng)提出了多種部位外觀模型[2]。
建立部位外觀模型時采用的圖像特征主要有邊緣、梯度方向直方圖(Histograms of Oriented Gradients, HOG)、顏色和形狀等,其中HOG特征由于對不同圖像中的光照變化和目標(biāo)局部變形具有良好的不變性[4-5],已經(jīng)成為建立部位外觀模型時應(yīng)用最廣泛的圖像特征[6-10]。雖然HOG特征在建立部位外觀模型時取得了廣泛的應(yīng)用,而且取得了良好的效果。但在具體應(yīng)用方式上仍然存在著以下兩個缺陷:(1)對相對大小不同的人體部位建立外觀模型時采用相同的細胞單元尺寸,但實際上大小不同部位的HOG特征需要采用大小不同的細胞單元尺寸才能進行有效地描述;(2)利用訓(xùn)練圖像標(biāo)注的部位區(qū)域?qū)?yīng)HOG特征的所有HOG塊來建立部位外觀模型。但實際上在訓(xùn)練圖像標(biāo)注的部位區(qū)域中真實人體部位并沒有占據(jù)全部區(qū)域,未占據(jù)的部分對識別人體部位不起作用,所以它們也并不適合用于建立部位外觀模型。
支持向量機[11-12](Support Vector Machine, SVM)是一種常用的分類算法,較為有效地解決了模式分類中廣泛存在的小樣本、非線性和高維數(shù)等問題。遞歸支持向量機算法(R-SVM)[13]是一種同時實現(xiàn)特征選擇和SVM分類器構(gòu)造的算法,特征選擇的標(biāo)準(zhǔn)是特征對分類器的相對貢獻。
針對上述兩個缺陷,建立一種基于遞歸支持向量機(Recursive Support Vector Machine, R-SVM)算法的部位外觀模型。利用R-SVM算法剔除部分在識別人體部位時不起作用或作用很小的HOG塊并利用剩余的HOG塊構(gòu)造線性SVM分類器作為部位外觀模型,并利用極大似然算法來估計在對不同部位建立部位外觀模型時所需采用的最佳細胞單元尺寸。
由于體型的不同,不同人體同一部位的尺寸大小并不相同,但各個部位在不同人體中往往具有相對固定的比例關(guān)系,例如軀干的寬度是小臂寬度的幾倍,上臂的寬度比小臂的寬度稍大等。
HOG特征利用細胞單元內(nèi)像素點梯度的方向密度分布來描述圖像局部的形狀[4]。圖1和圖2給出了采用不同細胞單元尺寸計算得到的某幅訓(xùn)練圖像中標(biāo)注的人體軀干和小臂區(qū)域的HOG特征示意圖。部位的HOG特征是由多個HOG塊特征向量組合而得,而HOG塊特征向量是通過對若干個相鄰細胞單元的梯度方向直方圖歸一化而得到的,細胞單元即為如圖1(b)和圖2(b)所示的圖像小區(qū)域。部位的HOG特征中HOG塊的多少由細胞單元尺寸所決定,細胞單元尺寸越大,HOG塊越少,HOG特征越偏重于描述整體輪廓;細胞單元尺寸越小,HOG塊越多,HOG特征越偏重于描述局部細節(jié)。
(a)軀干(b)細胞單元 (c)4×4 (d)8×8(e)12×12 (f)20×20
圖1 軀干HOG特征示意圖
不同人體的同一部位具有類似的邊緣輪廓,但由于人體著裝的不同,部位邊緣特征的細節(jié)可能有較大的區(qū)別。HOG特征是對圖像邊緣特征的一種改進,不同人體的同一部位的HOG特征同樣具有類似的整體輪廓和區(qū)別較大的局部細節(jié)。所以為了有效識別人體部位,在利用HOG特征建立部位外觀模型時,需要在有效描述整體輪廓的同時抑制局部細節(jié),但由于人體不同部位尺寸大小的不同,對不同部位建立部位外觀模型時需要采用不同的細胞單元尺寸。
圖1中軀干部位的大小為123×102像素,圖2中小臂的大小為54×30像素。從圖1(c)~圖1(f)和圖2(c)~圖2(f)可以看出,隨著細胞單元尺寸的增加,HOG特征越來越偏重于描述部位整體輪廓,但當(dāng)增加到20×20時已經(jīng)無法獲取軀干的整體輪廓,小臂的HOG特征已經(jīng)無法計算了。對于軀干部位,當(dāng)細胞單元尺寸為12×12時計算得到的HOG特征可以較好地實現(xiàn)在描述整體輪廓的同時抑制局部細節(jié)。而對于小臂,當(dāng)細胞單元尺寸為8×8時計算得到的HOG特征才能較好地實現(xiàn)在描述整體輪廓的同時抑制局部細節(jié)。
(a)軀干(b)細胞單元 (c)4×4 (d)8×8(e)12×12 (f)20×20
圖2 小臂HOG特征示意圖
此外如圖1(b)和圖2(b)所示,訓(xùn)練圖像中標(biāo)注的部位區(qū)域在計算HOG特征時被分成了多個小區(qū)域,每個小區(qū)域即為一個細胞單元。但實際上人體部位并沒有占據(jù)全部細胞單元,在對圖像中人體部位進行識別時,那些沒有占據(jù)的細胞單元及其所對應(yīng)的HOG塊并不起作用,甚至還會起反作用,所以在建立部位外觀模型應(yīng)該將這些HOG塊剔除掉。
對于那些在識別人體部位時不起作用或作用很小的HOG塊,本文利用R-SVM算法來剔除,并將R-SVM算法最終構(gòu)造的線性SVM分類器作為部位外觀模型。利用訓(xùn)練圖像標(biāo)注的部位區(qū)域的HOG特征與部位外觀模型的相似度均值的極大化來估計不同部位的最佳細胞單元尺寸。
基于R-SVM算法的部位外觀模型的建立可分為4個步驟,圖3以軀干為例給出了建立過程的示意圖。
步驟1 剪切訓(xùn)練圖像中標(biāo)注的部位區(qū)域得到部位圖像塊,并在訓(xùn)練圖像中除標(biāo)注的部位區(qū)域之外的任意區(qū)域剪切相同大小的非部位圖像塊。將從所有訓(xùn)練圖像剪切得到的圖像塊都調(diào)整為標(biāo)準(zhǔn)大小,如圖3(a)和圖3(b)所示。
步驟2 求解所有圖像塊的HOG特征并構(gòu)成樣本集,其中部位圖像塊的HOG特征為一類,如圖3(c)所示;非部位圖像塊的HOG特征為另外一類,如圖3(d)所示。
步驟3 利用R-SVM算法對樣本集進行特征選擇并構(gòu)造線性SVM分類器,該分類器即為部位外觀模型,如圖3(e)所示。
R-SVM算法可分為4個步驟[13]。
(1) 利用樣本所有特征訓(xùn)練構(gòu)造線性SVM分類器。
f(x)=wx+b
(1)
其中w為線性SVM分類器的權(quán)向量,b為閾值。
(2) 計算每個特征對線性SVM分類器的相對貢獻,然后按照大小進行排序。
樣本特征對線性SVM分類器的相對貢獻為
(2)
(3) 按照遞歸策略選擇特征,并利用選擇的樣本特征重新訓(xùn)練構(gòu)造線性SVM分類器。常用的遞歸策略主要有兩種:每次選擇一定比例的特征,或者規(guī)定一個逐級減小的特征數(shù)目序列。
(4) 重復(fù)(2)和(3),直到特征數(shù)目達到規(guī)定數(shù)目為止。
步驟4 利用所有部位圖像塊的HOG特征與部位外觀模型的相似度均值的極大化來估計部位的最佳細胞單元尺寸
(a) 部位圖像塊
(b) 非部位圖像塊
(c) 部位圖像塊HOG特征
(d) 非部位圖像塊HOG特征
(e) 部位外觀模型
選擇與文獻[6-7,14]相同的訓(xùn)練圖像集和測試圖像集。計算圖像梯度時采用[-1, 0, 1]模板和無符號的梯度方向[4],梯度方向分為9個區(qū)間,HOG塊采用矩形塊形式[4],每個HOG塊包含4個細胞單元,HOG塊的掃描步長與最佳細胞單元尺寸相同。
采用測試圖像標(biāo)注的部位區(qū)域與部位外觀模型的相似度來衡量所建立的部位外觀模型的有效性,相似度近似滿足正態(tài)分布,均值和標(biāo)準(zhǔn)差利用極大似然估計法來估計,均值表征部位外觀模型的有效性,標(biāo)準(zhǔn)差表征魯棒性。
表1給出了所有測試圖像標(biāo)注的各個部位區(qū)域與兩種部位外觀模型的相似度的比較結(jié)果,表中括號內(nèi)外的數(shù)據(jù)分別為正態(tài)分布的均值和標(biāo)準(zhǔn)差?!癝VM”表示傳統(tǒng)的利用線性SVM分類器所建立的部位外觀模型,“R-SVM”表示基于R-SVM算法的部位外觀模型。
表1 相似度比較
從表1可以看出,測試圖像標(biāo)注的各個部位區(qū)域與“R-SVM”的相似度均值要比與“SVM”的相似度均值更大,標(biāo)準(zhǔn)差相同或更小,這說明“R-SVM”的有效性更高,魯棒性也更好,能更準(zhǔn)確地描述真實人體部位的外觀特征。
將基于R-SVM算法的部位外觀模型用于基于樹形圖結(jié)構(gòu)模型[15]的人體姿態(tài)估計。圖4給出了對幾幅測試圖像的人體姿態(tài)估計結(jié)果,表2給出了利用“R-SVM”與幾種同樣采用樹形圖結(jié)構(gòu)模型的人體姿態(tài)估計算法對人體各個部位的估計準(zhǔn)確度的比較結(jié)果。
圖4 人體姿態(tài)估計示例
表2 人體姿態(tài)估計準(zhǔn)確度比較
從表2可以看出,與文獻[6,14]相比,將基于R-SVM算法的部位外觀模型用于采用樹形圖結(jié)構(gòu)模型的人體姿態(tài)估計,人體各個部位均可以得到更高的準(zhǔn)確度;與文獻[7]相比,軀干、頭部和小臂的估計準(zhǔn)確度都更高,而上臂的估計準(zhǔn)確度較低,這是因為文獻[7]利用了HOG、顏色和形狀三種圖像特征。
建立了一種基于R-SVM算法的部位外觀模型,利用R-SVM算法剔除部分HOG塊,將利用剩余的HOG塊構(gòu)造的線性SVM分類器作為部位外觀模型,部位外觀模型的最佳細胞單元尺寸利用極大似然算法來估計。仿真實驗表明所建立的部位外觀模型更加有效,用于人體姿態(tài)估計可以得到更高的估計準(zhǔn)確度。如何將HOG特征與其他圖像特征結(jié)合起來建立部位外觀模型是今后的主要研究工作。
[1] Felzenszwalb P F, Huttenlocher D P. Pictorial structures for object recognition[J]. International Journal of Computer Vision, 2005, 61(1):55-79.
[2] Thomas B, Adrian H M, Volker K, et al. Visual Analysis of Humans[M]. Berlin: Springer, 2010:199-223.
[3] Samuel A J. Articulated Human Pose Estimation in Natural Images[D]. Leeds :University of Leeds,2012:11-18.
[4] Navncct D, Bill T. Histograms of oriented gradients for human detection[C]//Proceedings of the 2005 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, N.J.: IEEE Press, 2005:886-893.
[5] Srinivasan P, Shi J B. Bottom-up recognition and parsing of the human body[C]//Proceedings of the 2007 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, N.J.: IEEE Press, 2007:1-8.
[6] Andriluka M, Stefan R, Bernt S. Pictorial Structures Revisited: People Detection and Articulated Pose Estimation [C]//Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, N.J.: IEEE Press, 2009: 1014-1021.
[7] Sapp B, Toshev A, Taskar B. Cascaded Models for Articulated Pose Estimation[C]//Proceedings of the 11th European Conference on Computer Vision. Berlin: Springer, 2010:406-420.
[8] Wang Y, Tran D, Liao Z C. Learning Hierarchical Poselets for Human Parsing[C]//Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, N.J.: IEEE Press, 2011:1705-1712.
[9] Sapp B, Taskar B. MODEC: Multimodal Decomposable Models for Human Pose Estimation[C]//Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, N.J.: IEEE Press, 2013: 3674-3681.
[10] Yang Y, Ramanan D. Articulated human detection with flexible mixtures of parts[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(12):2878-2890.
[11] Corinna C, Vapnik V. Support-Vector Networks [J]. Machine Learning, 1995(20): 273-297.
[12] 吳青,趙雄. 一類新樣條光滑支持向量機[J].西安郵電大學(xué)學(xué)報,2013,18(6):68-74.
[13] Zhang X G, Lu X, Shi Q, et al. Recursive SVM feature selection and sample classification for mass-spectrometry and microarray data [J]. BMC Bioinformatics, 2006(7):197.
[14] 韓貴金,朱虹. 一種基于圖結(jié)構(gòu)模型的人體姿態(tài)估計算法[J]. 計算機工程與應(yīng)用,2013, 49(14):30-33.
[15] 韓貴金,趙勇. 基于樹形圖結(jié)構(gòu)模型的人體姿態(tài)估計[J].西安郵電大學(xué)學(xué)報,2013,18(3):83-86.
[責(zé)任編輯:祝劍]
Part appearance model based on R-SVM algorithm
HAN Guijin, ZHOU You
(School of Automation, Xi’an University of Posts and Telecommunications, Xi’an 710121,China)
Part appearance model plays a critical role for human pose estimation accuracy. A part appearance model based on the recursive support vector machine (R-SVM) algorithm is developed by using the histograms of oriented gradients (HOG) feature to improve the estimation accuracy. The parts of the annotated region in the training images, which play a smaller role for identifying human part, are eliminated by the R-SVM algorithm. The SVM classifier constructed by the remaining areas is used as the part appearance model, and its optimal cell size is estimated by maximizing the mean similarity between the annotated area of the training images and the part appearance model. Experiment results show that the part appearance model based on R-SVM algorithm can represent the appearance characteristics of real human parts accurately, and can get higher estimation accuracy when used for human pose estimation.
human pose estimation, part appearance model, hhistograms of oriented gradients, recursive support vector machine
2015-01-05
陜西省教育廳專項科研計劃資助項目(14JK1677)
韓貴金(1978-),男,碩士,講師,從事數(shù)字圖像處理研究。E-mail:hgjin123@126.com 周有(1969-),男,博士,副教授,從事數(shù)字信號處理研究。E-mail:youzh_xian@163.com
10.13682/j.issn.2095-6533.2015.03.014
TP391.4
A
2095-6533(2015)03-0081-05