于海鵬,李 博,王旭輝
(河南工程學(xué)院 計(jì)算機(jī)學(xué)院, 河南 鄭州 451191)
隨著人工神經(jīng)網(wǎng)絡(luò)和計(jì)算機(jī)視覺分析技術(shù)的發(fā)展,可融合人工智能算法構(gòu)建計(jì)算機(jī)視覺下的動(dòng)態(tài)手勢(shì)識(shí)別模型,通過圖像特征分析和動(dòng)作特征三維重構(gòu)實(shí)現(xiàn)動(dòng)態(tài)手勢(shì)識(shí)別,并將動(dòng)態(tài)手勢(shì)識(shí)別算法應(yīng)用在體育運(yùn)動(dòng)訓(xùn)練及機(jī)器人設(shè)計(jì)等領(lǐng)域。在多幀視覺成像環(huán)境下,受到環(huán)境擾動(dòng)和視覺參數(shù)多維性因素的影響,多幀視頻序列中動(dòng)態(tài)手勢(shì)識(shí)別的智能性不好,故研究多幀視頻序列中動(dòng)態(tài)手勢(shì)識(shí)別方法,在提高機(jī)器視覺和計(jì)算機(jī)視覺下的多幀視頻序列特征檢測(cè)和分析的準(zhǔn)確性中具有重要意義[1]。
多幀視頻序列中動(dòng)態(tài)手勢(shì)識(shí)別建立在機(jī)器視覺和計(jì)算機(jī)圖像分析基礎(chǔ)上,在人機(jī)交互條件下,可實(shí)現(xiàn)對(duì)多幀視頻序列中動(dòng)態(tài)手勢(shì)的跟蹤識(shí)別[2]。對(duì)多幀視頻序列中動(dòng)態(tài)手勢(shì)識(shí)別的傳統(tǒng)方法主要有模糊檢測(cè)方法、Harris角點(diǎn)識(shí)別方法和小波識(shí)別方法等[3-4]。文獻(xiàn)[5]提出了基于自適應(yīng)后驗(yàn)分割模型的多幀視頻序列中動(dòng)態(tài)手勢(shì)識(shí)別方法,采用插值擬合實(shí)現(xiàn)了多幀視頻序列中動(dòng)態(tài)手勢(shì)動(dòng)態(tài)識(shí)別,但該方法的自適應(yīng)性不好、模糊度較大。文獻(xiàn)[6]提出了基于Harris角點(diǎn)參數(shù)檢測(cè)的多幀視頻序列中動(dòng)態(tài)手勢(shì)識(shí)別方法,通過人機(jī)交互手勢(shì)特征分析,結(jié)合Harris角點(diǎn)檢測(cè)和特征分割,實(shí)現(xiàn)了多幀視頻序列中動(dòng)態(tài)手勢(shì)識(shí)別,但該方法的精度不高。
針對(duì)上述問題,本研究提出了基于卷積神經(jīng)網(wǎng)絡(luò)視覺融合的動(dòng)態(tài)手勢(shì)識(shí)別方法。首先,采用模糊數(shù)據(jù)多頻譜采集方法進(jìn)行多幀視頻序列中動(dòng)態(tài)手勢(shì)視覺圖像采集;然后,分析多幀視頻序列中動(dòng)態(tài)手勢(shì)的層次化分割特征,采用圖像分割和邊緣信息增強(qiáng)方法,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)融合,提高動(dòng)態(tài)手勢(shì)圖像的分辨能力,結(jié)合角點(diǎn)優(yōu)化檢測(cè)技術(shù),采用視覺動(dòng)態(tài)跟蹤分析實(shí)現(xiàn)了對(duì)手勢(shì)動(dòng)作特征點(diǎn)的自動(dòng)化標(biāo)定,以實(shí)現(xiàn)動(dòng)態(tài)手勢(shì)識(shí)別;最后,進(jìn)行仿真測(cè)試驗(yàn)證了本方法在提高動(dòng)態(tài)手勢(shì)識(shí)別能力方面的優(yōu)越性。
為了實(shí)現(xiàn)對(duì)多幀視頻序列中動(dòng)態(tài)手勢(shì)的視覺特征分析和識(shí)別,結(jié)合動(dòng)態(tài)參數(shù)分析和傳感識(shí)別跟蹤融合方法,建立動(dòng)態(tài)手勢(shì)圖像的軌跡分布式檢測(cè)模型。結(jié)合特征識(shí)別方法[7],采用卷積神經(jīng)網(wǎng)絡(luò)模型(圖1)實(shí)現(xiàn)對(duì)手勢(shì)視覺圖像序列的采集和融合。圖1中,將手勢(shì)視覺圖像的像素觀測(cè)序列通過輸入層輸入神經(jīng)網(wǎng)絡(luò)中,采用卷積運(yùn)算方法,實(shí)現(xiàn)對(duì)手勢(shì)視覺圖像采樣信息的融合和特征優(yōu)化提取,在隱藏層中結(jié)合動(dòng)態(tài)手勢(shì)圖像的幀動(dòng)態(tài)序列分布,實(shí)現(xiàn)卷積運(yùn)算和信息同步跟蹤識(shí)別,最終輸出提取的動(dòng)態(tài)手勢(shì)圖像特征信息。
圖1 動(dòng)態(tài)手勢(shì)視覺特征采樣和融合的卷積神經(jīng)網(wǎng)絡(luò)模型Fig.1 Convolutional neural network model for dynamic gesture visual feature sampling and fusion
構(gòu)建多幀視頻序列中動(dòng)態(tài)手勢(shì)視覺分布坐標(biāo)系A(chǔ)和B,基于角點(diǎn)特征匹配的動(dòng)作跟蹤方法,假設(shè)動(dòng)態(tài)手勢(shì)采集點(diǎn)有N個(gè),y為多幀視頻序列中動(dòng)態(tài)手勢(shì)視覺圖像的高頻部分向量y=[fxg′,fyg′]的梯度函數(shù),fx、fy分別表示動(dòng)態(tài)、手勢(shì)視覺圖像的不變矩,g′表示視頻序列的形狀參數(shù)。多幀視頻序列中動(dòng)態(tài)手勢(shì)視覺圖像角點(diǎn)分布特征滿足約束條件其中,x是多幀視頻序列中動(dòng)態(tài)手勢(shì)圖像的空間高頻部分,能夠獲取多幀視頻序列中動(dòng)態(tài)手勢(shì)特征的灰度像素特征信息基團(tuán),得到其邊緣像素集:
(1)
(2)
采用自適應(yīng)小波變換,在圖像的成像區(qū)域進(jìn)行噪點(diǎn)分離,得到多幀視頻序列中動(dòng)態(tài)手勢(shì)特征的多重色差核函數(shù):
(3)
式中:x1為多幀視頻序列長度;x2為模糊檢測(cè)度;r1為粗糙集;r2為邊緣分布集;σ1為檢測(cè)閾值;σ2為聯(lián)合特征量。由此,采用模糊數(shù)據(jù)多頻譜采集方法進(jìn)行多幀視頻序列中動(dòng)態(tài)手勢(shì)視覺圖像采集,并根據(jù)圖像采集結(jié)果實(shí)現(xiàn)手勢(shì)動(dòng)態(tài)特征分析[8]。
依據(jù)多幀視頻序列中動(dòng)態(tài)手勢(shì)特征提取的運(yùn)動(dòng)學(xué)理論,進(jìn)行多幀視頻序列中動(dòng)態(tài)手勢(shì)特征分解和邊緣輪廓信息的二維鄰域提取,采用機(jī)器特征分析,在多幀視頻序列中動(dòng)態(tài)手勢(shì)分布連通區(qū)域內(nèi)[9],得到動(dòng)態(tài)手勢(shì)特征的灰階像素:
(4)
(5)
式中:r為多幀視頻序列中動(dòng)態(tài)特征的匹配度,0≤r≤1。采用基于SIFT(scale-invariant feature transform)角點(diǎn)檢測(cè)的圖像識(shí)別方法,對(duì)多幀視頻序列中動(dòng)態(tài)手勢(shì)的位姿實(shí)現(xiàn)參數(shù)辨識(shí)和融合,得到特征分布式融合檢測(cè)結(jié)果:
g(x,y)=f(x,y)+η(x,y),
(6)
采用卷積神經(jīng)網(wǎng)絡(luò)視覺融合方法提取多幀視頻序列中動(dòng)態(tài)手勢(shì)動(dòng)作的邊界輪廓特征點(diǎn)信息,采用分區(qū)域特征匹配方法進(jìn)行多幀視頻序列中動(dòng)態(tài)手勢(shì)動(dòng)作圖像分塊融合[11]。假設(shè)輸入的多幀視頻序列中動(dòng)態(tài)手勢(shì)視覺圖像視覺成像的暗原色分量為
(7)
(8)
(9)
式中:f(x,y)表示梯度方向動(dòng)態(tài)幀差特征分量;a為多幀視頻序列中手勢(shì)動(dòng)作分布流形參數(shù);f0為基頻頻率。綜上分析,基于卷積神經(jīng)網(wǎng)絡(luò)的特征提取方法可實(shí)現(xiàn)多幀視頻序列中動(dòng)態(tài)手勢(shì)特征識(shí)別和層次化分割。
(10)
式中:Δx為梯度增益;B為卷積尺度;xi+1為二階矩;yi為一階不變矩。采用動(dòng)態(tài)幀差融合和手勢(shì)差異性動(dòng)作動(dòng)態(tài)檢測(cè)方法進(jìn)行人機(jī)交互手勢(shì)特征提取,得到手勢(shì)圖像的整體形狀和輪廓特征,并將其表示成FHu=[FH1,F(xiàn)H2,…,F(xiàn)H7]的形式,得到手勢(shì)圖像的一階和二階分量:
(11)
(12)
(13)
式中:FBoF-SURF為SURF角點(diǎn)信息的統(tǒng)計(jì)特征量;FHu為動(dòng)態(tài)手勢(shì)圖像的Hu矩。分別計(jì)算各個(gè)點(diǎn)的像素值,采用顏色分量融合方法進(jìn)行圖像的信息增強(qiáng)處理,采用圖像分割和邊緣信息增強(qiáng)方法提高動(dòng)態(tài)手勢(shì)圖像的分辨能力,結(jié)合角點(diǎn)優(yōu)化檢測(cè)技術(shù),采用視覺動(dòng)態(tài)跟蹤分析實(shí)現(xiàn)了對(duì)動(dòng)態(tài)手勢(shì)動(dòng)作特征點(diǎn)的自動(dòng)化標(biāo)定。
為了驗(yàn)證本方法在動(dòng)態(tài)手勢(shì)識(shí)別中的應(yīng)用性能,采用MATLAB進(jìn)行仿真測(cè)試。假設(shè)動(dòng)態(tài)手勢(shì)視頻序列的長度為2 400,特征標(biāo)記點(diǎn)數(shù)為120,模糊度檢測(cè)系數(shù)為0.36,粗糙集樣本數(shù)為1 200,向量量化分割維數(shù)ωH1=1.00、ωH2=3.75、ωH2=7.20、ωH4=3.48。 實(shí)驗(yàn)中,采用量化和統(tǒng)計(jì)分析的方法進(jìn)行性能驗(yàn)算,采集的圖像樣本序列為2組序列,分別取不同幀點(diǎn)進(jìn)行識(shí)別,結(jié)合局部特征檢測(cè)、全局特征檢測(cè)及多重特征檢測(cè)方法進(jìn)行識(shí)別精度驗(yàn)算,并與傳統(tǒng)方法進(jìn)行識(shí)別精度的對(duì)比,得到不同幀序列點(diǎn)的動(dòng)態(tài)手勢(shì)圖像,如圖2所示。
圖2 不同幀序列點(diǎn)的動(dòng)態(tài)手勢(shì)圖像Fig.2 Dynamic gesture images of different frame sequence points
以圖2為檢測(cè)對(duì)象進(jìn)行識(shí)別,識(shí)別結(jié)果如圖3所示。分析圖3可知,本方法能有效實(shí)現(xiàn)動(dòng)態(tài)手勢(shì)識(shí)別,對(duì)各個(gè)動(dòng)態(tài)幀特征點(diǎn)的識(shí)別準(zhǔn)確概率提升均值為25.3%,比傳統(tǒng)的主成分分析PRF(提升12.4%)、自相關(guān)特征檢測(cè)RW(提升13.7%)、模糊度檢測(cè)KDE(提升20.3%)等方法的效果更顯著,證明本方法對(duì)動(dòng)作特征點(diǎn)的定位性能較好。結(jié)合不同特征分量測(cè)試動(dòng)態(tài)手勢(shì)識(shí)別精度,對(duì)比結(jié)果如圖4所示。
圖3 手勢(shì)識(shí)別結(jié)果Fig.3 Gesture recognition results
圖4 動(dòng)態(tài)手勢(shì)識(shí)別精度對(duì)比Fig.4 Comparison of dynamic gesture recognition accuracy
分析圖4可知本方法的動(dòng)態(tài)手勢(shì)識(shí)別精度較高,綜合精度比傳統(tǒng)方法提升了12.7%,性能較好。不同方法的識(shí)別精度對(duì)比見表1,對(duì)比可知本方法的手勢(shì)識(shí)別精度較高。
表1 識(shí)別精度對(duì)比Tab.1 Comparison of identification performance parameters
本研究提出了基于卷積神經(jīng)網(wǎng)絡(luò)視覺融合的動(dòng)態(tài)手勢(shì)識(shí)別方法,建立了動(dòng)態(tài)手勢(shì)圖像的軌跡分布式檢測(cè)模型,實(shí)現(xiàn)了多幀視頻序列中動(dòng)態(tài)手勢(shì)特征識(shí)別。實(shí)驗(yàn)表明,使用本方法進(jìn)行動(dòng)態(tài)手勢(shì)識(shí)別的精度較高、識(shí)別性能較好。