• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于LSTM神經(jīng)網(wǎng)絡(luò)的人體動(dòng)作識(shí)別

      2021-05-13 13:31:58楊世強(qiáng)楊江濤王金華李德信
      圖學(xué)學(xué)報(bào) 2021年2期
      關(guān)鍵詞:關(guān)節(jié)點(diǎn)夾角識(shí)別率

      楊世強(qiáng),楊江濤,李 卓,王金華,李德信

      基于LSTM神經(jīng)網(wǎng)絡(luò)的人體動(dòng)作識(shí)別

      楊世強(qiáng),楊江濤,李 卓,王金華,李德信

      (西安理工大學(xué)機(jī)械與精密儀器工程學(xué)院,陜西 西安 710048)

      人體動(dòng)作識(shí)別為人機(jī)合作提供了基礎(chǔ)支撐,機(jī)器人通過對(duì)操作者動(dòng)作進(jìn)行識(shí)別和理解,可以提高制造系統(tǒng)的柔性和生產(chǎn)效率。針對(duì)人體動(dòng)作識(shí)別問題,在三維骨架數(shù)據(jù)的基礎(chǔ)上,對(duì)原始三維骨架數(shù)據(jù)進(jìn)行平滑去噪處理以符合人體關(guān)節(jié)點(diǎn)運(yùn)動(dòng)的平滑規(guī)律;構(gòu)建了由靜態(tài)特征和動(dòng)態(tài)特征組成的融合特征用來表征人體動(dòng)作;引入了關(guān)鍵幀提取模型來提取人體動(dòng)作序列中的關(guān)鍵幀以減少計(jì)算量;建立了以LSTM神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的Bi-LSTM神經(jīng)網(wǎng)絡(luò)的人體動(dòng)作分類模型,引入注意力機(jī)制以及Dropout進(jìn)行人體動(dòng)作分類識(shí)別,并對(duì)神經(jīng)網(wǎng)絡(luò)的主要參數(shù)采用正交試驗(yàn)法進(jìn)行了參數(shù)優(yōu)化;最后利用公開數(shù)據(jù)集進(jìn)行動(dòng)作識(shí)別實(shí)驗(yàn)。結(jié)果表明,該模型算法對(duì)人體動(dòng)作具有較高的識(shí)別率。

      動(dòng)作識(shí)別;融合特征;LSTM神經(jīng)網(wǎng)絡(luò);注意力機(jī)制;Dropout

      近年來人工智能技術(shù)取得了長足發(fā)展,已逐漸地應(yīng)用于機(jī)械制造等領(lǐng)域。動(dòng)作識(shí)別是人機(jī)交互的基礎(chǔ),通過人機(jī)交互合作可以提高人機(jī)合作制造系統(tǒng)柔性,對(duì)制造業(yè)發(fā)展有積極促進(jìn)意義。動(dòng)作識(shí)別也可應(yīng)用于智能安防、智能家居、智能醫(yī)療等領(lǐng)域。

      特征提取是動(dòng)作識(shí)別的基礎(chǔ),主要方法有基于深度圖像和基于骨架數(shù)據(jù)的特征提取2種方法。Kinect深度相機(jī)可以采集到圖像的深度信息,唐超等[1]提出了基于深度圖像特征的人體動(dòng)作識(shí)別方法,使用方向梯度直方圖、時(shí)空興趣點(diǎn)和人體關(guān)節(jié)位置3種特征進(jìn)行分類識(shí)別。許艷等[2]將深度特征與骨骼特征相結(jié)合,用多模型概率投票進(jìn)行人體動(dòng)作識(shí)別。基于骨骼點(diǎn)特征描述法的動(dòng)作識(shí)別數(shù)據(jù)量小、魯棒性好。文獻(xiàn)[3]提出局部聚集描述子向量算法和分類池模型,利用骨骼關(guān)節(jié)進(jìn)行分類。田聯(lián)房等[4]提出一種基于人體骨架序列使用模板匹配檢測(cè)異常行為,再利用動(dòng)態(tài)時(shí)間規(guī)整識(shí)別的算法。YANG等[5]使用深度優(yōu)先樹遍歷順序重新設(shè)計(jì)骨骼表示,提出雙分支注意結(jié)構(gòu),實(shí)現(xiàn)對(duì)不可靠聯(lián)合預(yù)測(cè)的過濾。ZHANG等[6]提出包括關(guān)節(jié)間距離和關(guān)節(jié)到關(guān)節(jié)所構(gòu)成平面距離等幾何特征來描述運(yùn)動(dòng)。LIU 等[7]使用不同顏色像素點(diǎn)在圖像平面上的移動(dòng)軌跡表示骨架關(guān)節(jié)點(diǎn)序列時(shí)空變化。

      在提取有效特征的基礎(chǔ)上,采用有效的分類器進(jìn)行動(dòng)作分類。ZOLFAGHARI等[8]提出高效卷積網(wǎng)絡(luò),結(jié)合采樣策略,利用幀間冗余性快速分類,且網(wǎng)絡(luò)模型的層數(shù)較少。DONAHUE等[9]利用融合長時(shí)遞歸層和卷積層的長時(shí)遞歸卷積網(wǎng)絡(luò)(long-term recurrent convolutional,LRCN)進(jìn)行人體動(dòng)作識(shí)別。SONG等[10]介紹了基于長短記憶網(wǎng)絡(luò)(long short-termmemory network,LSTM)的端到端的時(shí)空注意力模型,對(duì)關(guān)節(jié)點(diǎn)和不同幀賦予不同關(guān)注度。沈西挺等[11]結(jié)合二維卷積神經(jīng)網(wǎng)絡(luò)、三維卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶神經(jīng)網(wǎng)絡(luò)用于動(dòng)作的分類。雖然諸多的學(xué)者都取得了一定的研究成果,但動(dòng)作識(shí)別的準(zhǔn)確性仍然有待提高。

      本文基于三維骨架數(shù)據(jù),構(gòu)建了由靜態(tài)特征和動(dòng)態(tài)特征組成的融合特征;建立了基于LSTM神經(jīng)網(wǎng)絡(luò)的動(dòng)作識(shí)別模型,引入注意力和Dropout機(jī)制提高了識(shí)別率;最后使用正交試驗(yàn)法對(duì)神經(jīng)網(wǎng)絡(luò)參數(shù)進(jìn)行了優(yōu)化。

      1 人體動(dòng)作的特征描述

      1.1 基于人體3D骨架信息

      使用Kinect深度攝像機(jī),采集人體20個(gè)骨骼關(guān)節(jié)點(diǎn)的三維坐標(biāo)信息,圖1(a)為簡化人體骨架模型。為不影響動(dòng)作完整性的同時(shí)降低計(jì)算量,從Kinect相機(jī)采集的20個(gè)關(guān)節(jié)點(diǎn)中選取了對(duì)人體動(dòng)作影響較大且具有明顯變化的13個(gè)關(guān)節(jié)點(diǎn)進(jìn)行特征的構(gòu)建,分別為:頭、鎖骨、左肩、右肩、左手肘、右手肘、左手腕、右手腕、腰、左膝蓋、右膝蓋、左腳踝、右腳踝。經(jīng)過選取的人體骨架模型如圖1(b)所示。

      1.2 人體骨架3D數(shù)據(jù)的去噪

      在一般情況下,人體在運(yùn)動(dòng)時(shí),身體所有的關(guān)節(jié)點(diǎn)隨時(shí)間的變化在空間中應(yīng)該是光滑曲線,不應(yīng)該存在明顯的突變點(diǎn)。但原始數(shù)據(jù)在采集過程中難免會(huì)因?yàn)楦蓴_原因產(chǎn)生噪聲,采用均值濾波算法對(duì)原始的3D骨骼數(shù)據(jù)進(jìn)行平滑處理,消除所采集數(shù)據(jù)中的突變點(diǎn),符合人體關(guān)節(jié)點(diǎn)運(yùn)動(dòng)的平滑規(guī)律。

      針對(duì)骨骼數(shù)據(jù)采用均值濾波算法,選取一個(gè)關(guān)于時(shí)間的窗口,對(duì)于某時(shí)刻數(shù)據(jù),濾波后的值是前面一段時(shí)間與該時(shí)刻后面一段時(shí)間數(shù)據(jù)總和的平均值。原始骨骼數(shù)據(jù)的某一點(diǎn)空間3個(gè)維度中的維度濾波過程的計(jì)算式為

      1.3 人體動(dòng)作特征表示

      從人體動(dòng)作序列中提取合適的特征描述人體運(yùn)動(dòng)狀態(tài)是人體動(dòng)作識(shí)別的關(guān)鍵問題。人體3D骨骼關(guān)節(jié)點(diǎn)描述的人體動(dòng)作差別是通過其關(guān)節(jié)點(diǎn)相對(duì)位置變化來反應(yīng)的。由于用原始關(guān)節(jié)點(diǎn)數(shù)據(jù)描述人體動(dòng)作是非常抽象的,而從運(yùn)動(dòng)序列中提取關(guān)節(jié)點(diǎn)的靜態(tài)和動(dòng)態(tài)特征組成的融合特征可以更形象地描述人體的動(dòng)作。人體動(dòng)作視頻通常由一系列幀完成,靜態(tài)特征即建立在每個(gè)幀上的特征。靜態(tài)特征由肢體夾角和相對(duì)距離構(gòu)成,肢體夾角指在某一幀內(nèi),2個(gè)肢體之間形成的夾角,此特征可以非常清晰地描述人體的姿態(tài)。肢體夾角選取了人體運(yùn)動(dòng)時(shí)具有明顯變化的11個(gè)角度進(jìn)行計(jì)算,將肢體視作一個(gè)向量,從某一關(guān)節(jié)點(diǎn)指向另一關(guān)節(jié)點(diǎn),夾角2由向量2,3和2,9構(gòu)成(圖1(b))。肢體夾角

      其中,為11個(gè)肢體夾角,=1,2,···,11;為第一個(gè)肢體向量;為第二個(gè)肢體向量?;诖耍梭w的一個(gè)動(dòng)作可以表示為

      構(gòu)建相對(duì)距離時(shí)可選取影響人體運(yùn)動(dòng)身體變化較大的8個(gè)關(guān)節(jié)點(diǎn),即左手肘、右手肘、左手腕、右手腕、左膝蓋、右膝蓋、左腳踝、右腳踝。通過計(jì)算這8個(gè)關(guān)節(jié)點(diǎn)與腰關(guān)節(jié)點(diǎn)之間的距離,可得8組距離d,9,=4,5,7,8,10,11,12,13,代表8個(gè)關(guān)節(jié)點(diǎn)的編號(hào)??紤]到不同個(gè)體的身高差異性,采取歸一化思想,對(duì)得到的8組距離統(tǒng)一除以鎖骨關(guān)節(jié)(編號(hào)2)與腰關(guān)節(jié)(編號(hào)9)之間的距離2,9,以最大可能的消除人體身高差異,具體計(jì)算為

      其中,,9為8個(gè)關(guān)節(jié)點(diǎn)與腰關(guān)節(jié)點(diǎn)間消除身高差后的距離。d,9為消除身高前的距離,腰關(guān)節(jié)點(diǎn)與鎖骨關(guān)節(jié)點(diǎn)之間的距離取決于不同個(gè)體。這樣,基于相對(duì)距離特征,人體的一個(gè)動(dòng)作可以表示為

      在靜態(tài)特征的構(gòu)建中,雖然實(shí)現(xiàn)了對(duì)每一幀動(dòng)作的表述,但是對(duì)于近鄰幀之間的變化量卻無法表達(dá),使用動(dòng)態(tài)特征,如關(guān)節(jié)動(dòng)能和肢體夾角的角加速度等,可以更加有利地進(jìn)行人體動(dòng)作的分類。

      關(guān)節(jié)動(dòng)能特征描述選取人體骨架模型中人體動(dòng)作時(shí)信息貢獻(xiàn)較大的13個(gè)關(guān)節(jié)點(diǎn)(圖1),根據(jù)動(dòng)作序列中相鄰2幀的數(shù)據(jù),關(guān)節(jié)動(dòng)能的計(jì)算為

      其中,E,t為第個(gè)關(guān)節(jié)點(diǎn)第+時(shí)刻與第時(shí)刻2幀之間的動(dòng)能,=1,2,···13,為2幀之間的時(shí)長;m為動(dòng)能計(jì)算公式中的系數(shù),可視為常數(shù);(,,)為關(guān)節(jié)點(diǎn)在三維空間中的坐標(biāo)值?;陉P(guān)節(jié)動(dòng)能特征,人體的一個(gè)動(dòng)作可以表示為

      由于動(dòng)態(tài)特征是基于原始數(shù)據(jù)2幀之間計(jì)算得出的,因此,動(dòng)態(tài)特征相比靜態(tài)特征在時(shí)間維度上少一個(gè)。

      肢體夾角的角加速度特征構(gòu)建中,同樣取與肢體夾角構(gòu)成中相同的11個(gè)角度,=1,2,···11,加速度特征基于這11個(gè)角度進(jìn)行建立。肢體夾角的角加速度特征計(jì)算為

      其中,,t為第個(gè)夾角第+時(shí)刻與第時(shí)刻2幀之間在動(dòng)作過程中的角加速度;為2幀之間的時(shí)長;,t為第個(gè)肢體夾角在第時(shí)刻的角度。基于肢體夾角的角加速度特征,人體的一個(gè)動(dòng)作可以表示為

      基于骨架模型簡化,融合靜態(tài)特征和動(dòng)態(tài)特征使得原始骨骼數(shù)據(jù)中的60維數(shù)據(jù)降低為由11個(gè)肢體夾角、8個(gè)重要關(guān)節(jié)點(diǎn)的相對(duì)距離、人體模型中所有13個(gè)關(guān)節(jié)點(diǎn)的關(guān)節(jié)動(dòng)能以及11個(gè)肢體夾角的角加速度構(gòu)成的43維,在原始動(dòng)作特征最大程度保留的情況下,降低了數(shù)據(jù)維度。在4個(gè)人體動(dòng)作特征完成后,進(jìn)行特征融合,即將靜態(tài)特征中的第一幀舍棄以達(dá)到與動(dòng)態(tài)特征相同的幀數(shù)?;陟o態(tài)和動(dòng)態(tài)特征組成的融合特征,人體的一個(gè)動(dòng)作就可以表示為

      1.4 關(guān)鍵幀提取模型

      關(guān)鍵幀是原始動(dòng)作序列中能夠反映動(dòng)作內(nèi)容的幀。在實(shí)際中,人體的動(dòng)作序列通常由很多幀構(gòu)成,在動(dòng)作識(shí)別中,這些幀對(duì)識(shí)別的貢獻(xiàn)率并非相同。因此,需剔除對(duì)一個(gè)動(dòng)作序列變化不明顯的幀,在提高動(dòng)作識(shí)別的準(zhǔn)確率的同時(shí)減少計(jì)算量。

      最終的人體動(dòng)作關(guān)鍵幀提取模型將上述2部分進(jìn)行合并相加,可得

      其中,為13個(gè)關(guān)節(jié)點(diǎn);為11個(gè)夾角;為上述2項(xiàng)的權(quán)重系數(shù);E,t為第幀的第個(gè)關(guān)節(jié)點(diǎn)的動(dòng)能;a,t為第幀的第個(gè)夾角的角加速度值。

      接下來將人體的每個(gè)完整動(dòng)作序列中的幀通過以下條件進(jìn)行約束篩選,篩選原則為

      其中,max為一個(gè)序列動(dòng)作中計(jì)算得出的最大加權(quán)求和值;min為最小的加權(quán)求和值;e為常數(shù)。在計(jì)算時(shí),max與min均是針對(duì)某一個(gè)動(dòng)作序列中的數(shù)據(jù)進(jìn)行篩選,當(dāng)進(jìn)入下一個(gè)動(dòng)作序列后,根據(jù)其數(shù)據(jù)的不同,重新計(jì)算max和min。通過該方法,將所有的人體動(dòng)作序列篩選一遍,可得每個(gè)動(dòng)作序列中符合要求的幀。

      2 基于LSTM的人體動(dòng)作識(shí)別

      在人體動(dòng)作識(shí)別特征構(gòu)建的基礎(chǔ)上,首先搭建LSTM神經(jīng)網(wǎng)絡(luò)分類器進(jìn)行人體動(dòng)作識(shí)別分類,隨后再構(gòu)建Bi-LSTM神經(jīng)網(wǎng)絡(luò)分類器,引入注意力機(jī)制和Dropout來完善優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)與性能,進(jìn)一步提高識(shí)別率。

      2.1 基于LSTM的人體動(dòng)作識(shí)別

      使用LSTM神經(jīng)網(wǎng)絡(luò)進(jìn)行識(shí)別分類的網(wǎng)絡(luò)輸入為2個(gè)靜態(tài)特征和2個(gè)動(dòng)態(tài)特征組成的融合特征,利用訓(xùn)練集訓(xùn)練得到合適的網(wǎng)絡(luò)參數(shù),再對(duì)測(cè)試集進(jìn)行識(shí)別分類。圖2搭建的是基于LSTM神經(jīng)網(wǎng)絡(luò)人體動(dòng)作識(shí)別訓(xùn)練模型。

      圖2 基于LSTM的動(dòng)作識(shí)別模型

      網(wǎng)絡(luò)輸入的是由所提取的靜態(tài)和動(dòng)態(tài)特征融合的4個(gè)特征,每個(gè)人體動(dòng)作特征是一個(gè)43維數(shù)據(jù),數(shù)據(jù)長度因每個(gè)動(dòng)作的幀數(shù)不同而不同。在輸入前,為了便于處理,統(tǒng)一將每組用于訓(xùn)練或測(cè)試的數(shù)據(jù)進(jìn)行等長處理,即按照每組中序列最長的序列對(duì)剩余的序列進(jìn)行補(bǔ)零操作。在每個(gè)時(shí)間幀中,輸入網(wǎng)絡(luò)的數(shù)據(jù)是一個(gè)43維的向量。隨后,通過LSTM層的計(jì)算,將中間值送入到輸出層,輸出層所使用的為Softmax函數(shù),對(duì)該動(dòng)作進(jìn)行判斷,輸出屬于每個(gè)動(dòng)作標(biāo)簽的概率,對(duì)應(yīng)概率值最高的即為網(wǎng)絡(luò)最終的輸出類別。

      LSTM神經(jīng)網(wǎng)絡(luò)的前向計(jì)算過程如下:

      根據(jù)LSTM輸入的人體動(dòng)作數(shù)據(jù),時(shí)刻遺忘門

      時(shí)刻輸入門i

      其中,為輸入門權(quán)重矩陣;為輸入門的偏置項(xiàng)。

      時(shí)刻長期記憶狀態(tài)

      時(shí)刻輸出門o

      其中,為輸出門權(quán)重矩陣;b為其偏置。

      最終可得LSTM網(wǎng)絡(luò)的時(shí)刻輸出值為

      2.2 Bi-LSTM神經(jīng)網(wǎng)絡(luò)

      LSTM神經(jīng)網(wǎng)絡(luò)只能進(jìn)行單向?qū)W習(xí),而Bi-LSTM是LSTM的改進(jìn)型,將前向及后向連接到同一輸出。Bi-LSTM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)由一個(gè)向前和一個(gè)向后傳播的LSTM構(gòu)成,正向與反向無相互連接,就實(shí)現(xiàn)了2個(gè)相互獨(dú)立的隱藏層之間信息數(shù)據(jù)的雙向傳播。正因?yàn)榇?,使得其?duì)于信息的提取學(xué)習(xí)相較于LSTM神經(jīng)網(wǎng)絡(luò)更加的全面。

      圖3為基于Bi-LSTM神經(jīng)網(wǎng)絡(luò)的人體動(dòng)作識(shí)別結(jié)構(gòu)主體模型。圖中,Bi-LSTM神經(jīng)網(wǎng)絡(luò)的正向及反向LSTM的單元結(jié)構(gòu)與原理相同。Bi-LSTM將2層的LSTM輸出通過下式融合,再通過Softmax函數(shù)得出識(shí)別結(jié),即

      圖3 基于Bi-LSTM動(dòng)作識(shí)別模型

      2.3 注意力機(jī)制

      動(dòng)作識(shí)別中,人體所有參與模型建立的關(guān)節(jié)點(diǎn)都對(duì)動(dòng)作的識(shí)別分類產(chǎn)生著影響,采取注意力機(jī)制對(duì)這些關(guān)節(jié)點(diǎn)的重要性進(jìn)行評(píng)判,突出人體動(dòng)作特征中的重要信息,降低了對(duì)于識(shí)別分類不明顯數(shù)據(jù)的關(guān)注度。注意力機(jī)制通過加權(quán)求和,從而找出對(duì)動(dòng)作識(shí)別最重要的關(guān)節(jié)點(diǎn),提升整個(gè)識(shí)別網(wǎng)絡(luò)模型的計(jì)算效率。

      特征提取中,得到的人體動(dòng)作序列是一個(gè)43幀數(shù)的矩陣形式,在識(shí)別中將動(dòng)作幀統(tǒng)一按照最長處理。針對(duì)于網(wǎng)絡(luò)輸出的個(gè)特征向量,按照下式,變換后的向量?為

      其中,為調(diào)整前的特征向量;為權(quán)重,在注意力機(jī)制中,重點(diǎn)為計(jì)算出合理的。首先計(jì)算得分值Score,即

      其中,b分別為權(quán)重和偏置,接下來將得到的個(gè)得分值Score, (=1,···,),送入一個(gè)Softmax函數(shù),得到最后的權(quán)重值,即

      2.4 Dropout機(jī)制

      在人體動(dòng)作識(shí)別模型的訓(xùn)練過程中,當(dāng)訓(xùn)練樣本較少時(shí)容易出現(xiàn)過擬合,有必要對(duì)網(wǎng)絡(luò)使用Dropout防止過擬合來實(shí)現(xiàn)正則化效果。

      對(duì)神經(jīng)網(wǎng)絡(luò)輸入的人體動(dòng)作特征數(shù)據(jù),輸出為,首先隨機(jī)刪除神經(jīng)網(wǎng)絡(luò)隱藏層中的一些神經(jīng)元,輸入層以及輸出層的神經(jīng)元保持不變;然后輸入動(dòng)作特征數(shù)據(jù),數(shù)據(jù)通過神經(jīng)網(wǎng)絡(luò)向前傳播;再將網(wǎng)絡(luò)的損失值進(jìn)行反向傳播,在所有的訓(xùn)練樣本中的一部分執(zhí)行完此過程后,并在保留的神經(jīng)元上再進(jìn)行參數(shù)的更新。重復(fù)此過程,恢復(fù)之前去掉的神經(jīng)元,再次從隱藏層隨機(jī)選擇一些神經(jīng)元進(jìn)行刪除,記錄刪除神經(jīng)元參數(shù),再進(jìn)行部分樣本的訓(xùn)練。

      3 實(shí)驗(yàn)仿真與分析

      用MSR Action 3D及UTKinect Action 3D 2個(gè)人體動(dòng)作數(shù)據(jù)庫對(duì)上述模型的可行性進(jìn)行實(shí)驗(yàn)驗(yàn)證。實(shí)驗(yàn)環(huán)境配置為:Intel i5-3337U 1.8 GHz,4 G內(nèi)存,Windows7 64位系統(tǒng)。實(shí)驗(yàn)仿真使用基于TensorFlow 1.9.0的框架,編程語言使用Python 3.5及MATLAB R2017b實(shí)現(xiàn)。

      3.1 MSR Action 3D數(shù)據(jù)庫實(shí)驗(yàn)與分析

      對(duì)于MSR Action 3D數(shù)據(jù)庫劃分為AS1,AS2和AS3 3個(gè)組,采取3種驗(yàn)證方法對(duì)本文算法進(jìn)行評(píng)估,Test One取所有人做的1/3動(dòng)作數(shù)據(jù)為訓(xùn)練集,其余2/3為測(cè)試集;Test Two取所有人做的2/3動(dòng)作數(shù)據(jù)為訓(xùn)練集,其余1/3為測(cè)試集;Cross subject test 為交叉驗(yàn)證,取1/2的實(shí)驗(yàn)對(duì)象為訓(xùn)練集,1/2的實(shí)驗(yàn)對(duì)象為測(cè)試集。在LSTM神經(jīng)網(wǎng)絡(luò)的人體識(shí)別模型中,參數(shù)設(shè)置:學(xué)習(xí)率為0.001,=0.001,模型迭代次數(shù)為1 000,batchsise為5,網(wǎng)絡(luò)輸入節(jié)點(diǎn)為43,隱藏層節(jié)點(diǎn)為80。

      圖4是在MSR Action 3D數(shù)據(jù)庫的AS1數(shù)據(jù)集中,單獨(dú)使用Test One測(cè)試方法得到的肢體夾角、相對(duì)距離、關(guān)節(jié)動(dòng)能和肢體夾角的角加速度時(shí)的識(shí)別結(jié)果,紅色為正確的動(dòng)作類別,藍(lán)色為識(shí)別的動(dòng)作類別。

      從上述結(jié)果得出4個(gè)動(dòng)作特征的識(shí)別率分別為52.59%,60.74%,83.70%和82.22%,2個(gè)動(dòng)態(tài)特征識(shí)別率遠(yuǎn)高于2個(gè)靜態(tài)特征識(shí)別率,但單一使用動(dòng)態(tài)特征也無法得到很高的識(shí)別率,有必要進(jìn)行多特征融合進(jìn)行動(dòng)作識(shí)別。

      圖5為AS1組中進(jìn)行關(guān)鍵幀提取與未進(jìn)行關(guān)鍵幀提取的對(duì)動(dòng)作識(shí)別率的影響。識(shí)別的最終結(jié)果使用混淆矩陣圖進(jìn)行表示,圖中在對(duì)角線上為得到正確識(shí)別分類的人體動(dòng)作,反之,未在對(duì)角線上的為錯(cuò)誤分類的動(dòng)作類別。在未進(jìn)行關(guān)鍵幀提取的動(dòng)作數(shù)據(jù)中分類正確識(shí)別率為90.37%,進(jìn)行關(guān)鍵幀提取后的動(dòng)作正確識(shí)別率有所提高,為91.85%。

      圖4 4個(gè)特征的識(shí)別結(jié)果((a)肢體夾角的識(shí)別結(jié)果; (b)相對(duì)距離的識(shí)別結(jié)果;(c)關(guān)節(jié)動(dòng)能的識(shí)別結(jié)果; (d)肢體夾角的角加速度的識(shí)別結(jié)果)

      圖5 關(guān)鍵幀提取前后的識(shí)別效果對(duì)比((a)未進(jìn)行關(guān)鍵幀提取的動(dòng)作識(shí)別;(b)關(guān)鍵幀提取后的動(dòng)作識(shí)別)

      表1為動(dòng)作特征數(shù)據(jù)在LSTM與基于Bi-LSTM神經(jīng)網(wǎng)絡(luò)并加入注意力機(jī)制以及Dropout后的識(shí)別結(jié)果對(duì)比。該實(shí)驗(yàn)除引入的Dropout參數(shù)外,其余參數(shù)設(shè)置與前保持一致??梢钥闯?,加入Bi-LSTM神經(jīng)網(wǎng)絡(luò)注意力機(jī)制以及Dropout后,識(shí)別率有所提高。

      表1 MSR Action 3D數(shù)據(jù)庫LSTM與Bi-LSTM+Attention以及Dropout網(wǎng)絡(luò)識(shí)別率對(duì)比(%)

      表2為對(duì)MSR Action 3D數(shù)據(jù)庫3個(gè)分組數(shù)據(jù)集中的AS1組、AS2組和AS3組使用Bi-LSTM+ Attention網(wǎng)絡(luò)以及Dropout進(jìn)行識(shí)別分類,得到的結(jié)果。平均識(shí)別率為89.15%。

      3.2 正交試驗(yàn)法

      實(shí)驗(yàn)中發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)參數(shù)設(shè)置的不同對(duì)于人體動(dòng)作最終識(shí)別率影響較大,有必要對(duì)于神經(jīng)網(wǎng)絡(luò)的主要參數(shù)進(jìn)行優(yōu)化,以獲得良好的動(dòng)作識(shí)別分類效果。本文采用正交試驗(yàn)法對(duì)Bi-LSTM+Attention+ Dropout神經(jīng)網(wǎng)絡(luò)中的3個(gè)主要參數(shù):學(xué)習(xí)率、批量數(shù)以及隱藏層節(jié)點(diǎn)數(shù)進(jìn)行優(yōu)化。正交試驗(yàn)的因素水平見表3。

      表2 MSR Action 3D數(shù)據(jù)庫三組數(shù)據(jù)識(shí)別率對(duì)比(%)

      表3 試驗(yàn)的因素與水平

      根據(jù)表3中的各因素所取的水平設(shè)計(jì)正交試驗(yàn)(每種因素在不同的水平下),試驗(yàn)結(jié)果見表4。

      表4 網(wǎng)絡(luò)參數(shù)試驗(yàn)及結(jié)果

      采用直觀分析法,根據(jù)25次正交實(shí)驗(yàn)的結(jié)果計(jì)算得出125次全面實(shí)驗(yàn)中的最優(yōu)參數(shù)組合。通過計(jì)算可知,當(dāng)人體動(dòng)作識(shí)別網(wǎng)絡(luò)中的3個(gè)主要參數(shù)學(xué)習(xí)率、批量數(shù)以及隱藏層單元的神經(jīng)元數(shù)量在A4B2C3時(shí),即當(dāng)3個(gè)參數(shù)分別取0.005 0,10和80時(shí),動(dòng)作識(shí)別率最高為95.56%。

      3.3 優(yōu)化結(jié)果與分析

      經(jīng)正交試驗(yàn)法優(yōu)化3個(gè)參數(shù)后,再對(duì)MSR Action 3D數(shù)據(jù)庫進(jìn)行實(shí)驗(yàn),動(dòng)作識(shí)別分類結(jié)果與其他現(xiàn)有人體動(dòng)作識(shí)別分類算法進(jìn)行對(duì)比,見表5。

      表5 MSR Action 3D數(shù)據(jù)庫參數(shù)優(yōu)化后識(shí)別率與其他算法對(duì)比(%)

      從實(shí)驗(yàn)結(jié)果可以看出,對(duì)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)率、批量數(shù)以及隱藏層單元的神經(jīng)元數(shù)3個(gè)參數(shù)進(jìn)行優(yōu)化后,基于Bi-LSTM+Attention+Dropout神經(jīng)網(wǎng)絡(luò)取得了較高的識(shí)別率,在MSR Action 3D數(shù)據(jù)庫中的9組實(shí)驗(yàn)中,有4組識(shí)別率高于相比的3種方法,平均識(shí)別率達(dá)到92.64%,高于其余3種86.82%,90.78%和92.16%,而在交叉驗(yàn)證的3組實(shí)驗(yàn)中,平均識(shí)別率達(dá)到86.97%,高于相比的4種74.67%,78.97%,81.23%和85.47%。UTKinect Action 3D數(shù)據(jù)庫中也取得了95.96%的識(shí)別率,表明深度學(xué)習(xí)算法具備提取人體動(dòng)作特征深層次特征的能力,有利于動(dòng)作識(shí)別。

      在UTKinect Action 3D數(shù)據(jù)庫中,使用優(yōu)化后的參數(shù)對(duì)人體動(dòng)作進(jìn)行重新實(shí)驗(yàn),得到的最終識(shí)別率與其他人體動(dòng)作分類算法的對(duì)比見表6。由于本文采用的是深度學(xué)習(xí)算法,其對(duì)于數(shù)據(jù)量的要求較大,而本文數(shù)據(jù)有限,故對(duì)識(shí)別率有一定影響。

      表6 UTKinect Action 3D數(shù)據(jù)庫識(shí)別率與其他算法對(duì)比(%)

      4 結(jié) 論

      本文基于人體三維骨架模型,融合靜態(tài)特征與動(dòng)態(tài)特征,構(gòu)成動(dòng)作特征描述方法,經(jīng)關(guān)鍵幀提取模型對(duì)動(dòng)作序列關(guān)鍵幀進(jìn)行篩選。建立了基于LSTM神經(jīng)網(wǎng)絡(luò)的人體動(dòng)作識(shí)別模型,針對(duì)LSTM神經(jīng)網(wǎng)絡(luò)在人體動(dòng)作分類中存在的不足,使用基于Bi-LSTM神經(jīng)網(wǎng)絡(luò)的分類器,并引入注意力機(jī)制以及Dropout可進(jìn)一步提高對(duì)于人體動(dòng)作特征的識(shí)別性能。通過對(duì)神經(jīng)網(wǎng)絡(luò)主要參數(shù)使用正交試驗(yàn)法進(jìn)行優(yōu)化,使得基于Bi-LSTM+Attention+Dropout神經(jīng)網(wǎng)絡(luò)的分類器相對(duì)于LSTM神經(jīng)網(wǎng)絡(luò)分類器有更加優(yōu)異的表現(xiàn)。

      [1] 唐超, 王文劍, 張琛, 等. 基于RGB-D圖像特征的人體行為識(shí)別[J]. 模式識(shí)別與人工智能, 2019,32(10): 901-908. TANG C, WANG W J, ZHANG C, et al. Human action recognition using RGB-D image features[J]. Pattern Recognition and Artificial Intelligence, 2019, 32(10): 901-908 (in Chinese).

      [2] 許艷, 侯振杰, 梁久禎, 等. 深度圖像與骨骼數(shù)據(jù)的多特征融合人體行為識(shí)別[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2018, 39(8): 1865-1870. XU Y, HOU Z J, LIANG J Z, et al. Human action recognition with multi-feature fusion by depth image and skeleton data[J]. Journal of Chinese Computer Systems, 2018, 39(8): 1865-1870 (in Chinese).

      [3] CARBONERA LUVIZON D, TABIA H, PICARD D. Learning features combination for human action recognition from skeleton sequences[J]. Pattern Recognition Letters, 2017, 99: 13-20.

      [4] 田聯(lián)房, 吳啟超, 杜啟亮, 等. 基于人體骨架序列的手扶電梯乘客異常行為識(shí)別[J]. 華南理工大學(xué)學(xué)報(bào): 自然科學(xué)版, 2019, 47(4): 10-19. TIAN L F, WU Q C, DU Q L, et al. Recognition of passengers’ abnormal behavior on the escalator based on human skeleton sequence[J]. Journal of South China University of Technology: Natural Science Edition, 2019, 47(4): 10-19 (in Chinese).

      [5] YANG Z Y, LI Y C, YANG J C, et al. Action recognition with spatio–temporal visual attention on skeleton image sequences[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2019, 29(8): 2405-2415.

      [6] ZHANG S Y, YANG Y, XIAO J, et al. Fusing geometric features for skeleton-based action recognition using multilayer LSTM networks[J]. IEEE Transactions on Multimedia, 2018, 20(9): 2330-2343.

      [7] LIU M Y, LIU H, CHEN C. Enhanced skeleton visualization for view invariant human action recognition[J]. Pattern Recognition, 2017, 68: 346-362.

      [8] ZOLFAGHARI M, SINGH K, BROX T. ECO: efficient convolutional network for online video understanding[M]// Computer Vision – ECCV 2018. Cham: Springer International Publishing, 2018: 713-730.

      [9] DONAHUE J, HENDRICKS L A, GUADARRAMA S, et al. Long-term recurrent convolutional networks for visual recognition and description[J]. 2015 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2015: 2625-2634.

      [10] SONG S, LAN C, XING J. An end-to-end spatio-temporal attention model for human action recognition from skeleton data[C]//Conference on Artificial Intelligence. San Francisco: AAAI, 2017: 4263-4270.

      [11] 沈西挺, 于晟, 董瑤, 等. 基于深度學(xué)習(xí)的人體動(dòng)作識(shí)別方法[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2020, 41(4): 1153-1157. SHEN X T, YU S, DONG Y, et al. Human motion recognition method based on deep learning[J]. Computer Engineering and Design, 2020, 41(4): 1153-1157 (in Chinese).

      [12] LI W Q, ZHANG Z Y, LIU Z C. Action recognition based on a bag of 3D points[C]//2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition - Workshops. New York: IEEE Press, 2010: 9-14.

      [13] XIA L, CHEN C C, AGGARWAL J K. View invariant human action recognition using histograms of 3D joints[C]//2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops. New York: IEEE Press, 2012: 20-27.

      [14] CIPPITELLI E, GASPARRINI S, GAMBI E, et al. A human activity recognition system using skeleton data from RGBD sensors[EB/OL]. [2020-06-21]. http://www.hindawi.com/ journals/cin/2016/4351435/.

      [15] 楊世強(qiáng), 羅曉宇, 李小莉, 等. 基于DBN-HMM的人體動(dòng)作識(shí)別[J]. 計(jì)算機(jī)工程與應(yīng)用, 2019, 55(15): 169-176. YANG S Q, LUO X Y, LI X L, et al. Human action recognition based on DBN-HMM[J]. Computer Engineering and Applications, 2019, 55(15): 169-176 (in Chinese).

      [16] Nú?EZ J C, CABIDO R, PANTRIGO J J, et al. Convolutional Neural Networks and Long Short-Term Memory for skeleton-based human activity and hand gesture recognition[J]. Pattern Recognition, 2018, 76: 80-94.

      [17] VEMULAPALLI R, ARRATE F, CHELLAPPA R. Human action recognition by representing 3D skeletons as points in a lie group[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2014: 588-595.

      [18] LIU J, SHAHROUDY A, XU D, et al. Spatio-temporal LSTM with trust gates for 3d human action recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(12): 3007-3021.

      [19] ANIRUDH R, TURAGA P, SU J Y, et al. Elastic functional coding of human actions: From vector-fields to latent variables[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 3147-3155.

      [20] WANG C Y, WANG Y Z, YUILLE A L. Mining 3D key-pose-motifs for action recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 2639-2647.

      [21] ZHU Y, CHEN W B, GUO G D. Fusing spatiotemporal features and joints for 3D action recognition[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition Workshops. New York: IEEE Press, 2013: 486-491.

      Human action recognition based on LSTM neural network

      YANG Shi-qiang, YANG Jiang-tao, LI Zhuo, WANG Jin-hua, LI De-xin

      (School of Mechanical and Instrumental Engineering, Xi’an University of Technology, Xi’an Shaanxi 710048, China)

      Human action recognition provides the basic support for human-computer cooperation. Robots can enhance the flexibility and production efficiency of manufacturing system by recognizing and understanding the operator’s action. To resolve the problem of human motion recognition, the original 3D skeleton data was smoothed and denoised to conform to the smooth rule of human joint-point motion based on 3D skeleton data. The fusion feature composed of static and dynamic features was constructed to represent human action. The key frame extraction model was introduced to extract the key frames in human action sequences to reduce the computing load. A Bi-LSTM neural network model based on LSTM neural network was established to classify human actions, and the attention mechanism and Dropout were utilized to classify and recognize human actions, with the main parameters of the neural network optimized by the orthogonal test method. Finally, the open data set was employed for the action recognition experiment. The results show that the proposed model algorithm has a high recognition rate for human actions.

      action recognition; fusion features; LSTM neural network; attention mechanism; Dropout

      TP 391.4

      10.11996/JG.j.2095-302X.2021020174

      A

      2095-302X(2021)02-0174-08

      2020-07-21;

      21 July,2020;

      2020-09-12

      12 September,2020

      國家自然科學(xué)基金項(xiàng)目(51475365);陜西省自然科學(xué)基礎(chǔ)研究計(jì)劃項(xiàng)目(2017JM5088)

      National Natural Science Foundation of China (51475365); Natural Science Basic Research Program of Shaanxi Province (2017JM5088)

      楊世強(qiáng)(1973–),男,甘肅白銀人,副教授,博士。主要研究方向?yàn)橹悄軝C(jī)器人控制、行為識(shí)別等。E-mail:yangsq@126.com

      YANG Shi-qiang (1973–), male, associate professor, Ph.D. His main research interests cover intelligent robot control, behavior recognition, etc. E-mail:yangsq@126.com

      猜你喜歡
      關(guān)節(jié)點(diǎn)夾角識(shí)別率
      基于深度學(xué)習(xí)和視覺檢測(cè)的地鐵違規(guī)行為預(yù)警系統(tǒng)研究與應(yīng)用
      關(guān)節(jié)點(diǎn)連接歷史圖與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的雙人交互動(dòng)作識(shí)別
      探究鐘表上的夾角
      求解異面直線夾角問題的兩個(gè)路徑
      基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
      基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識(shí)別率的關(guān)系
      任意夾角交叉封閉邊界內(nèi)平面流線計(jì)算及應(yīng)用
      提升高速公路MTC二次抓拍車牌識(shí)別率方案研究
      搞好新形勢(shì)下軍營美術(shù)活動(dòng)需把握的關(guān)節(jié)點(diǎn)
      直線轉(zhuǎn)角塔L形絕緣子串夾角取值分析
      廣西電力(2016年5期)2016-07-10 09:16:44
      桃江县| 宜州市| 肥城市| 游戏| 临高县| 齐河县| 阿拉善盟| 郎溪县| 惠州市| 阿克苏市| 肇源县| 武川县| 长宁区| 周宁县| 阆中市| 永宁县| 阿鲁科尔沁旗| 汕头市| 彭泽县| 九龙城区| 河西区| 凭祥市| 安顺市| 禹州市| 饶阳县| 舞钢市| 通城县| 汝城县| 康马县| 视频| 库伦旗| 木里| 大港区| 太原市| 舟山市| 泾源县| 临城县| 德惠市| 郸城县| 衡阳县| 伊川县|