鄭永權(quán),張飛云,董 坤
(1.西安交通大學(xué)城市學(xué)院,陜西 西安 710018;2.西北工業(yè)大學(xué),陜西 西安 710072)
人體運(yùn)動(dòng)姿態(tài)識(shí)別是計(jì)算機(jī)視覺(jué)與人工智能領(lǐng)域的重要研究方向。進(jìn)行人體姿態(tài)識(shí)別對(duì)于促進(jìn)視頻監(jiān)控、智能家居發(fā)展及輔助體育訓(xùn)練等均具有一定的指導(dǎo)作用[1]。但由于人體的運(yùn)動(dòng)姿態(tài)較為復(fù)雜,且目前基于單特征的傳統(tǒng)人體姿態(tài)識(shí)別算法難以對(duì)其進(jìn)行有效地描述與分析,故使該方法在實(shí)際應(yīng)用中無(wú)法達(dá)到良好的效果。因此,亟需一種準(zhǔn)確率高、性能較優(yōu)并可應(yīng)用于日常生活中的人體運(yùn)動(dòng)姿態(tài)智能識(shí)別算法[2-3]。
針對(duì)上述問(wèn)題,該文基于多特征融合技術(shù)提出了一種運(yùn)動(dòng)姿態(tài)智能識(shí)別算法。該算法由圖像數(shù)據(jù)采集、圖像預(yù)處理、單特征提取、多特征融合及運(yùn)動(dòng)姿態(tài)識(shí)別五個(gè)模塊組成,各模塊相互配合共同完成對(duì)人體運(yùn)動(dòng)姿態(tài)的智能識(shí)別。運(yùn)動(dòng)姿態(tài)識(shí)別與性能測(cè)試的實(shí)驗(yàn)結(jié)果證明了所提方法的有效性與可靠性。
人體運(yùn)動(dòng)姿態(tài)識(shí)別由四個(gè)基本部分組成,分別為原始數(shù)據(jù)圖像集獲取、圖像預(yù)處理、運(yùn)動(dòng)特征提取及姿態(tài)分類(lèi)識(shí)別。人體運(yùn)動(dòng)姿態(tài)識(shí)別過(guò)程如圖1所示。
圖1 人體運(yùn)動(dòng)姿態(tài)識(shí)別過(guò)程
原始數(shù)據(jù)圖像集獲取是指利用攝像機(jī)等圖像采集設(shè)備獲取所需的人體運(yùn)動(dòng)姿態(tài)原始數(shù)據(jù);而圖像預(yù)處理負(fù)責(zé)對(duì)獲得的圖像數(shù)據(jù)進(jìn)行去噪、歸一化等處理,使其更加清晰[4],并突出關(guān)鍵信息;運(yùn)動(dòng)特征提取是指在處理后的圖像中提取運(yùn)動(dòng)關(guān)鍵特征的過(guò)程,以便于后續(xù)的多特征融合及分類(lèi)識(shí)別;而姿態(tài)分類(lèi)識(shí)別可根據(jù)提取到的單特征或融合后的多特征,利用SVM(Support Vector Machine)[5]、貝葉斯分類(lèi)器[6]等算法對(duì)人體運(yùn)動(dòng)姿態(tài)進(jìn)行分類(lèi),進(jìn)而實(shí)現(xiàn)對(duì)姿態(tài)的識(shí)別。
原始數(shù)據(jù)圖像集獲取是運(yùn)動(dòng)姿態(tài)識(shí)別的基礎(chǔ)部分,也是人體運(yùn)動(dòng)分析中的重要環(huán)節(jié)。根據(jù)獲取方式的不同,目前的圖像采集技術(shù)可分為接觸式與非接觸式兩大類(lèi)。而考慮到接觸式采集方式會(huì)對(duì)運(yùn)動(dòng)員的運(yùn)動(dòng)姿態(tài)產(chǎn)生一定影響,且不適用于本次需求,故選用非接觸式的采集技術(shù)。
非接觸式采集技術(shù)的主要原理:通過(guò)特定攝像設(shè)備實(shí)時(shí)獲取人體的運(yùn)動(dòng)姿態(tài)。常見(jiàn)的包括Kinect三維體感攝像機(jī)及Vicon 光學(xué)捕捉系統(tǒng)等。因Kinect 具備更強(qiáng)的適用性與精確性,所以文中的數(shù)據(jù)圖像采集也利用該設(shè)備實(shí)現(xiàn)。Kinect[7-8]攝像機(jī)的部分參數(shù)如表1 所示。其運(yùn)行環(huán)境為常規(guī)Windows7系統(tǒng),同時(shí)還使用Kinect SDK for Windows 處理采集到的視頻流。
表1 Kinect攝像機(jī)的部分參數(shù)
人體視頻圖像的采集除了自身因素外,周?chē)h(huán)境也會(huì)對(duì)Kinect 的采集結(jié)果產(chǎn)生干擾,從而增加后續(xù)的識(shí)別難度、降低識(shí)別準(zhǔn)確性。因此在進(jìn)行后續(xù)處理之前,還需對(duì)采集到的原始圖像進(jìn)行預(yù)處理,其包括去噪、圖像灰度化、歸一化及圖像增強(qiáng)等操作。
目前,常見(jiàn)的圖像去噪方法包括直方圖均衡化法(Histogram Equalization,HE)、高斯濾波法(Gauss Filtering)、雙邊濾波法(Bilateral Filter)與Top-Hat 濾波法等。而該文采用的是其中使用最為廣泛的雙邊濾波算法[9-10],該算法是針對(duì)高斯濾波會(huì)產(chǎn)生模糊邊緣,同時(shí)無(wú)法有效保護(hù)圖像高頻細(xì)節(jié)而提出的一種改進(jìn)算法。其處理結(jié)果依賴(lài)于近鄰像素點(diǎn)的加權(quán)組合,具體的數(shù)學(xué)表達(dá)式如下:
式中,f(i,j)是像素點(diǎn)(i,j)經(jīng)濾波的處理結(jié)果,g(k,l)與R分別為待處理像素點(diǎn)的近鄰像素點(diǎn)灰度值及鄰域,ω則是雙邊濾波核函數(shù)。
人體運(yùn)動(dòng)特征提取是多特征融合及運(yùn)動(dòng)姿態(tài)識(shí)別的重要組成部分,且不同特征能反映信息在不同層面的表現(xiàn)[11]。而特征的選擇對(duì)人體運(yùn)動(dòng)姿態(tài)的描述程度、在姿態(tài)識(shí)別時(shí)對(duì)識(shí)別結(jié)果的穩(wěn)定性與準(zhǔn)確性均有較大影響。因此在選擇特征時(shí),除了準(zhǔn)確描述運(yùn)動(dòng)特征外,還需考慮不同特征所屬類(lèi)別的差異。
該文在考慮人體運(yùn)動(dòng)姿態(tài)的特殊性及特征提取全面性的基礎(chǔ)上,選取了人體姿態(tài)的Hu不變矩、HOG(Histogram of Oriented Gradient)直方圖及小波矩三種特征構(gòu)建所需的多特征算子,并結(jié)合局部尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)算法對(duì)核心位置進(jìn)行描述。
姿態(tài)分類(lèi)識(shí)別的主要作用是根據(jù)樣本特征信息完成運(yùn)動(dòng)姿態(tài)分類(lèi)器的訓(xùn)練,并通過(guò)該分類(lèi)器實(shí)現(xiàn)人體運(yùn)動(dòng)姿態(tài)的智能識(shí)別。目前,常用的分類(lèi)方法包括SVM、樸素貝葉斯及決策樹(shù)(Decision Tree)算法[12]等。該文選擇其中相對(duì)成熟,同時(shí)在人體姿態(tài)識(shí)別方面適用性更優(yōu)的SVM 算法進(jìn)行相關(guān)識(shí)別處理。
該文旨在設(shè)計(jì)一種人體運(yùn)動(dòng)姿態(tài)智能識(shí)別算法,并在訓(xùn)練過(guò)程中識(shí)別運(yùn)動(dòng)員的姿態(tài)動(dòng)作,從而進(jìn)行精準(zhǔn)的智能化輔助訓(xùn)練與技戰(zhàn)術(shù)分析,以提高運(yùn)動(dòng)成績(jī)。
針對(duì)上述提到的算法設(shè)計(jì)需求,文中基于多特征融合的人體運(yùn)動(dòng)姿態(tài)智能識(shí)別算法架構(gòu)如圖2所示。
圖2 人體運(yùn)動(dòng)姿態(tài)識(shí)別算法架構(gòu)
該算法主要由圖像數(shù)據(jù)采集、圖像預(yù)處理、單特征提取、多特征融合及運(yùn)動(dòng)姿態(tài)識(shí)別五個(gè)模塊所組成。其中,圖像數(shù)據(jù)采集模塊功能與上文提到的保持一致。圖像預(yù)處理模塊則除了上述提到的去噪、灰度化、歸一化等方式外,還引入了背景分割算法(Background Segment,BS)來(lái)進(jìn)一步提高預(yù)處理的效果,并突出人體運(yùn)動(dòng)姿態(tài)特征。而單特征提取模塊負(fù)責(zé)利用OpenCV 對(duì)預(yù)處理后的數(shù)據(jù)集進(jìn)行Hu 不變矩、HOG 直方圖及小波矩三種單特征的提取,以此進(jìn)行后續(xù)的多特征融合與分析。多特征融合模塊將提取到的三種特征利用神經(jīng)網(wǎng)絡(luò)算法進(jìn)行合理融合,進(jìn)而解決單特征描述不完備與不可靠的問(wèn)題,且提高了算法的性能。運(yùn)動(dòng)姿態(tài)識(shí)別模塊則負(fù)責(zé)利用SVM 算法與融合后的多特征算子建立樣本分類(lèi)模型,并通過(guò)模型實(shí)現(xiàn)對(duì)人體運(yùn)動(dòng)姿態(tài)的智能識(shí)別。
背景分割[13-14]的基本思想:對(duì)場(chǎng)景進(jìn)行建模,并利用輸入圖像數(shù)據(jù)及場(chǎng)景模型間的差異實(shí)現(xiàn)場(chǎng)景中背景與有效信息或目標(biāo)的分割。背景分割過(guò)程如圖3所示。
圖3 背景分割過(guò)程
針對(duì)人體運(yùn)動(dòng)姿態(tài)的特點(diǎn),文中選用對(duì)硬件要求較低,適用于運(yùn)動(dòng)目標(biāo)背景分割的ViBe(Visual Background Extractor)算法[15-16]進(jìn)行處理。該處理過(guò)程描述如下:
1)單幀圖像背景模型初始化:以幀為單位對(duì)圖像各像素點(diǎn)進(jìn)行建模,并從第一幀開(kāi)始進(jìn)行模型初始化。背景模型的數(shù)學(xué)表達(dá)式為:
式(2)中,M(x)為像素點(diǎn)x處的背景模型,pi為像素點(diǎn)x處的背景像素值。
2)前景目標(biāo)分割:根據(jù)設(shè)定的閾值進(jìn)行前景目標(biāo)與背景的分割。分割判定如下:
式中,T為設(shè)定的閾值。當(dāng)像素點(diǎn)背景大于或等于設(shè)定的閾值時(shí),可認(rèn)定該點(diǎn)為前景目標(biāo);反之,則為背景。
3)背景模型更新:采用八鄰域更新法(Eight Neighborhood Contour Tracking Algorithm)對(duì)背景模型進(jìn)行更新,進(jìn)而令背景分割更為準(zhǔn)確。
該文利用神經(jīng)網(wǎng)絡(luò)算法對(duì)提取到的Hu 不變矩、HOG 直方圖及小波矩三個(gè)單特征進(jìn)行融合。融合設(shè)計(jì)方案如圖4 所示。
圖4 多特征融合過(guò)程
SVM 是基于統(tǒng)計(jì)分析(Statistical Analysis)與機(jī)器學(xué)習(xí)(Machine Learning,ML)的一種分類(lèi)算法。該文利用SVM 算法實(shí)現(xiàn)人體運(yùn)動(dòng)姿態(tài)的分類(lèi),具體如圖5 所示。
圖5 基于SVM的運(yùn)動(dòng)姿態(tài)分類(lèi)設(shè)計(jì)方案
該方案主要由訓(xùn)練與測(cè)試樣本輸入、SVM 分類(lèi)器構(gòu)建及投票分類(lèi)四部分組成。其中,SVM 分類(lèi)器是利用機(jī)器學(xué)習(xí)與訓(xùn)練樣本集構(gòu)建的。投票分類(lèi)則是在完成SVM 構(gòu)建后,對(duì)測(cè)試樣本集的運(yùn)動(dòng)姿態(tài)進(jìn)行分類(lèi)投票,并選取票數(shù)最高的作為該運(yùn)動(dòng)姿態(tài)的最終類(lèi)別。
為驗(yàn)證文中基于多特征融合人體運(yùn)動(dòng)姿態(tài)智能識(shí)別算法的有效性與可靠性,該文以UCF-Sport 庫(kù)、KTF 庫(kù)及自建運(yùn)動(dòng)識(shí)別庫(kù)(MDB)作為實(shí)驗(yàn)數(shù)據(jù)集,并分別進(jìn)行運(yùn)動(dòng)姿態(tài)分類(lèi)實(shí)驗(yàn)。
實(shí)驗(yàn)環(huán)境的硬件配置及涉及的軟件版本如表2所示。
而所選用三種行為識(shí)別數(shù)據(jù)集的相關(guān)屬性如表3 所示。
表3 行為識(shí)別數(shù)據(jù)集信息
實(shí)驗(yàn)主要驗(yàn)證該文算法在不同數(shù)據(jù)集上的性能表現(xiàn)。同時(shí),為了體現(xiàn)算法的優(yōu)勢(shì),實(shí)驗(yàn)中還將基于HOG 單特征的人體運(yùn)動(dòng)姿態(tài)識(shí)別算法設(shè)置為對(duì)照組。在相同條件下,采用上述兩種算法進(jìn)行人體運(yùn)動(dòng)姿態(tài)識(shí)別,并計(jì)算在不同數(shù)據(jù)集中對(duì)運(yùn)動(dòng)姿態(tài)識(shí)別的準(zhǔn)確率,實(shí)驗(yàn)結(jié)果如表4-6 所示。
表4 UCF-Sport數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
表5 KTF數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
表6 MDB數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
通過(guò)上述實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),與HOG 單特征算法相比,該文算法對(duì)各數(shù)據(jù)集運(yùn)動(dòng)姿態(tài)識(shí)別的準(zhǔn)確率明顯更高,且可達(dá)93%以上,由此證明了算法的有效性與可靠性。
該實(shí)驗(yàn)主要驗(yàn)證所提算法的處理效率能否滿(mǎn)足設(shè)計(jì)需求。為此,對(duì)算法在不同樣本數(shù)下的單幀圖像平均處理時(shí)間進(jìn)行測(cè)試,結(jié)果如表7 所示。
表7 算法性能測(cè)試結(jié)果
從性能測(cè)試結(jié)果可看出,該文算法對(duì)單幀圖像的平均處理時(shí)間在46 ms左右,即每秒能夠處理約22 幀圖像。因此,其處理效率能夠滿(mǎn)足算法設(shè)計(jì)需要。
基于多特征融合技術(shù),該文文設(shè)計(jì)了一種人體運(yùn)動(dòng)姿態(tài)智能識(shí)別算法,其將表征人體姿態(tài)的多個(gè)特征進(jìn)行了有效融合,從而得到了描述能力更強(qiáng)的多特征算子,再將該算子與支持向量機(jī)相結(jié)合,以實(shí)現(xiàn)對(duì)人體運(yùn)動(dòng)姿態(tài)的準(zhǔn)確識(shí)別。為了驗(yàn)證所提算法的可行性,還進(jìn)行了運(yùn)動(dòng)姿態(tài)識(shí)別與性能測(cè)試兩項(xiàng)實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,與基于方向梯度直方圖的單特征姿態(tài)識(shí)別算法相比,該文算法對(duì)各數(shù)據(jù)集運(yùn)動(dòng)姿態(tài)識(shí)別的準(zhǔn)確率較高,且性能也較優(yōu)。因此,該文算法的提出為進(jìn)一步分析人體運(yùn)動(dòng)姿態(tài),并將其實(shí)際應(yīng)用于體育訓(xùn)練等領(lǐng)域提供了重要的技術(shù)支持與保障。