王小娟,鐘?云,金?磊,肖亞博
基于骨架的自適應(yīng)尺度圖卷積動作識別
王小娟,鐘?云,金?磊,肖亞博
(北京郵電大學(xué)電子工程學(xué)院,北京 100876)
基于骨架的動作識別任務(wù)中,一般將骨骼序列表示為預(yù)定義的時空拓撲圖.然而,由于樣本的多樣性,固定尺度的拓撲圖往往不是最優(yōu)結(jié)構(gòu),針對樣本特性構(gòu)建自適應(yīng)尺度的骨骼拓撲圖能夠更好地捕捉時空特征;另外,不同尺度的骨骼圖能夠表達不同粒度的人體結(jié)構(gòu)特征,因此對多個不同尺度的拓撲圖進行特征提取與融合是有必要的.針對這些問題,提出了一種自適應(yīng)尺度的圖卷積動作識別模型.該模型包含自適應(yīng)尺度圖卷積模塊和多尺度融合模塊兩部分.自適應(yīng)尺度圖卷積模塊基于先驗與空間注意力機制,構(gòu)建關(guān)鍵點的活躍度判決器,將活躍點細化為小尺度結(jié)構(gòu)、非活躍點聚合為大尺度結(jié)構(gòu),在加速節(jié)點間特征傳遞的同時最小化特征損耗;多尺度融合模塊基于通道注意力機制,動態(tài)融合不同尺度的特征,進一步提升網(wǎng)絡(luò)的靈活性;最后,綜合關(guān)鍵點、骨骼、運動信息實現(xiàn)多路特征聚合的動作判別,豐富模型的特征表達.結(jié)果表明:該算法在NTU-RGBD數(shù)據(jù)集的CS和CV子集上分別取得了89.7%和96.1%的分類準確率,顯著提高了動作識別的準確性.
人體骨架;動作識別;自適應(yīng)尺度;圖卷積
動作識別是計算機視覺中的基礎(chǔ)任務(wù),在安防、醫(yī)療、運動等領(lǐng)域有著廣泛的應(yīng)用[1].傳統(tǒng)動作識別任務(wù)多以RGB-D視頻為輸入,但是視頻數(shù)據(jù)蘊含著豐富信息的同時也存在著光照、角度、距離等因素的干擾,使模型無法專注于人體動作的表達[2].因此,人體骨架以其對環(huán)境的強魯棒性獲得了廣泛關(guān)注.
傳統(tǒng)的骨架動作識別多采用基于手工特征提取的方法,例如,Hussein等[3]提取了骨骼序列上的協(xié)方差矩陣,Wang等[4]設(shè)計了骨骼相對位置的特征表達,Vemulapalli等[5]利用李群流形對骨骼序列建模.這些方法往往需要耗費大量計算資源,且精度較低.隨著深度學(xué)習(xí)的發(fā)展,數(shù)據(jù)驅(qū)動的方式受到了越來越多的關(guān)注,主要包括兩類:第1類是基于RNN的方法,將不同關(guān)鍵點編碼成向量,再用RNN提取時域信息[6],這種方式難以捕捉骨骼間的連接關(guān)系.第2類是基于CNN的方法,直接對骨骼數(shù)據(jù)進行二維或三維卷積[7],但關(guān)鍵點之間的鄰接關(guān)系是不規(guī)則的,因此傳統(tǒng)卷積并不適用.
圖卷積在多個領(lǐng)域的良好表現(xiàn)[8],為骨架動作識別提供了新思路.Yan等[9]首次將人體關(guān)鍵點作為節(jié)點,骨骼作為邊,構(gòu)建了時空圖,顯著提升了識別精度.Liu等[10]提出了3D圖卷積,統(tǒng)一了時空維度的特征提取方式.Shi等[11]設(shè)計了全局卷積核,使每個節(jié)點都能獲取圖的整體信息.Obinata等[12]提出了時域拓展模塊,將鄰居關(guān)系拓展到了相鄰幀.上述方法雖然取得了一定的效果,但是仍存在一些缺陷:①用預(yù)定義尺度的拓撲圖表示骨骼序列,缺乏靈活性;人體不同動作往往需要不同身體部位的協(xié)同配合,如“喝水”、“拿杯子”等小動作需要對手指、嘴巴等細粒度結(jié)構(gòu)進行分析,而“跑步”、“舉重”等大動作需要對胳膊、腿等粗粒度結(jié)構(gòu)進行分析.因此如果網(wǎng)絡(luò)能對不同樣本,自適應(yīng)地學(xué)得圖的最佳尺度,就能夠更精準地對骨骼序列建模;②缺乏對特征的多尺度提取與融合.對骨骼序列構(gòu)建多個不同尺度的拓撲圖能夠提取不同粒度的結(jié)構(gòu)特征,對于動作識別任務(wù)而言是至關(guān)重要的.
基于上述分析,提出了自適應(yīng)圖卷積模塊和多尺度融合模塊,基于先驗與空間注意力機制構(gòu)建活躍度判別器,對數(shù)據(jù)進行多粒度卷積,利于特征提?。换谕ǖ雷⒁饬C制,動態(tài)融合不同尺度的特征,提高網(wǎng)絡(luò)靈活性;綜合關(guān)鍵點、骨骼、運動信息(運動信息包括兩路:關(guān)鍵點運動信息和骨骼運動信息)4路輸出,豐富特征的表達,大幅提高了預(yù)測精度.
圖表示是骨架動作識別的首要問題,在保留骨骼原始連接關(guān)系的基礎(chǔ)上增加網(wǎng)絡(luò)的靈活性,提高節(jié)點間信息的傳遞效率是至關(guān)重要的.
空域上,用GCN提取特征,基于第1.1節(jié)的骨骼圖表示方法,聚合鄰居節(jié)點的信息,具體公式為
時域上,現(xiàn)有方法[9-12]多采用一維卷積的方式,對同一關(guān)鍵點在不同幀的特征進行融合.
本模型構(gòu)建過程主要分為3部分:特征獲取、模型訓(xùn)練和模型融合,如圖1所示.
(1)特征獲?。簩υ脊羌苤芯哂朽徑雨P(guān)系的關(guān)鍵點對取向量差,作為骨骼數(shù)據(jù),其計算式為
式中表示節(jié)點和節(jié)點間的骨骼,由人體關(guān)節(jié)間的真實連接情況得到.
分別對原始數(shù)據(jù)和骨骼數(shù)據(jù)取運動信息,其計算式為
(2) 模型訓(xùn)練:模型由10個基礎(chǔ)網(wǎng)絡(luò)層堆疊而成,每層網(wǎng)絡(luò)結(jié)構(gòu)相似,包括時、空特征提取單元.其中,空間特征提取單元如圖2所示.
圖2?空間特征提取單元(實心點代表活躍結(jié)構(gòu))
首先,對數(shù)據(jù)進行批歸一化處理,綜合先驗判別機制,共同構(gòu)建活躍度判決器,生成自適應(yīng)尺度的圖結(jié)構(gòu).而后,多個尺度的骨骼圖卷積后動態(tài)融合,完成空域特征的提?。畷r域上,采用與ST-GCN[9]相同的策略,進行一維卷積.每層網(wǎng)絡(luò)的輸出通道數(shù)依次是64、64、64、64、128、128、128、128、256、256.
(3)模型融合:由(1)得到了模型的4路輸入,單路模型按照(2)進行訓(xùn)練,得到概率分布向量,對4路輸出加權(quán)融合,概率值最大的類別即為預(yù)測值.
自適應(yīng)尺度圖卷積模塊基于活躍度判決得到最佳的圖結(jié)構(gòu),使得骨骼圖的數(shù)值和尺度都能夠與網(wǎng)絡(luò)的其他參數(shù)共同訓(xùn)練,極大提高了網(wǎng)絡(luò)的靈活性.
2.2.1?活躍度判決器
人體不同動作都有主要活動的關(guān)節(jié),也稱這些關(guān)節(jié)在當(dāng)前動作中較為活躍.在構(gòu)建動作分類模型時,如果網(wǎng)絡(luò)能夠有區(qū)別地對活躍度不同的點給予不同的關(guān)注,就能更好地區(qū)分動作.因此,筆者將活躍度作為自適應(yīng)尺度圖的構(gòu)建依據(jù),并就關(guān)鍵點的活躍度度量設(shè)計了一種聯(lián)合先驗判別與空間注意力機制的策略,具體如下.
通過步驟1和步驟2得到先驗與空間注意力機制各自的活躍度判別矩陣,在兩個活躍度矩陣中活躍度均大于閾值的點作為活躍點,反之則為非活躍點.
2.2.2?自適應(yīng)尺度圖卷積模塊
自適應(yīng)尺度圖卷積模塊包括自適應(yīng)尺度圖的構(gòu)建和圖卷積操作兩部分.
不同尺度的圖能夠豐富語義信息的表達.大尺度下,特征進行粗粒度的融合,加速信息傳遞,例如,圖3(a)中,頭(點)與腰(點)是三階鄰居,在小尺度下,需要3次卷積才能融合.但是在大尺度下,如圖3(b)中,僅需要1次聚合就能實現(xiàn)特征交互.
因此,大尺度圖能夠更快地發(fā)現(xiàn)自然結(jié)構(gòu)中距離較遠的節(jié)點間關(guān)系.但由于大尺度圖一般是通過對關(guān)鍵點取平均得到的,因此存在一定的特征損耗.
筆者提出的自適應(yīng)尺度圖結(jié)構(gòu)能夠在最大化保留關(guān)鍵信息的前提下加速特征傳遞,具體如下:首先,基于先驗劃分得到大尺度圖,如圖3(b)所示;接著,將圖結(jié)構(gòu)輸入活躍度判別器,由第2.2.1節(jié)中的步驟1和步驟2綜合得到活躍度判別結(jié)果,圖3(c)中的紅色點代表活躍點、灰色點代表非活躍點;最后,將包含活躍點的大尺度結(jié)構(gòu)還原為小尺度關(guān)鍵點,得到圖3(d),從而實現(xiàn)了數(shù)據(jù)驅(qū)動的自適應(yīng)尺度圖的構(gòu)建.自適應(yīng)尺度圖中包含了人體不同尺度的結(jié)構(gòu),活躍部位往往是小尺度結(jié)構(gòu),非活躍部位往往是大尺度結(jié)構(gòu).特別地,每層網(wǎng)絡(luò)結(jié)構(gòu)均包含活躍度判別器及自適應(yīng)尺度圖的構(gòu)建模塊,因此樣本在不同網(wǎng)絡(luò)層中會自適應(yīng)得到不同的圖結(jié)構(gòu),從而進行自適應(yīng)尺度的圖卷積,以充分提取不同節(jié)點之間的關(guān)系.
圖3?自適應(yīng)尺度圖的構(gòu)建(紅色實心點代表活躍點)
在獲取自適應(yīng)尺度圖后,采用2s-AGCN[11]的結(jié)構(gòu)進行圖卷積操作,其表達式為
自適應(yīng)尺度圖卷積模塊能夠根據(jù)樣本的局部特性,在單個骨架上生成尺度自適應(yīng)的圖,如第2.2.2節(jié)所述,加速了活躍點與其余點的信息交互,更利于發(fā)現(xiàn)局部活躍點特征的區(qū)分性,因此,筆者將自適應(yīng)尺度圖卷積模塊輸出作為局部特征,同時將原小尺度圖(圖3(a))的卷積輸出作為全局特征,進行加權(quán)融合,如圖4所示.
圖4?多尺度融合模塊
多尺度融合模塊基于通道注意力機制,首先,對原尺度特征和自適應(yīng)尺度特征進行元素和操作,得到
(1) NTU-RGBD[15]:該數(shù)據(jù)集是目前動作識別領(lǐng)域最大的室內(nèi)數(shù)據(jù)集,包含了60個類別的56880個數(shù)據(jù)樣本,每個類別都包含了3個Kinect v2攝像機捕獲的40名志愿者的數(shù)據(jù).按不同的劃分標準可得到以下兩個子集:①Cross-Subject(CS):根據(jù)志愿者的編號劃分數(shù)據(jù)集.訓(xùn)練集有40320個樣本,測試集有16560個樣本;②Cross-View(CV):根據(jù)攝像機的編號劃分數(shù)據(jù)集.訓(xùn)練集有37920個樣本,測試集有18960個樣本.
(2)評價指標:使用top-1準確率作為評價指標.
(3)數(shù)據(jù)預(yù)處理:為了減少輸入數(shù)據(jù)分布的影響,本文使用時間維度中第1幀的中心節(jié)點坐標作為坐標原點來標準化數(shù)據(jù).然后,為了減小不同視角的影響,筆者旋轉(zhuǎn)了坐標軸,使得骨骼的左右肩線與水平軸平行、脊柱與縱軸平行.
如圖5所示,隨機選取了3個不同類別的樣本的初始活躍度判別情況進行可視化,可見不同類別樣本的活躍度判別情況差異較大,進一步生成的圖尺度結(jié)構(gòu)也不相同,因此本模型能夠進行靈活的圖構(gòu)建.
圖5?不同樣本的活躍度判別(實心點代表活躍點)
本研究使用pytorch搭建網(wǎng)絡(luò),使用了帶有動量的隨機梯度下降算法和交叉熵損失函數(shù)來進行優(yōu)化,權(quán)重削減系數(shù)設(shè)為0.0002,批大小為32.由于數(shù)據(jù)集中單個樣本最多包含兩個人體數(shù)據(jù),因此,將僅包含一個人體樣本的數(shù)據(jù)用0進行填充,保證樣本維度的統(tǒng)一.另外,樣本的最大幀數(shù)為300幀,筆者也對不滿300幀的樣本用0進行了填充.初始學(xué)習(xí)率設(shè)為0.05,在第30輪、40輪和60輪后減小為1/10.
為了分別驗證本研究提出的自適應(yīng)尺度圖卷積模塊和多尺度融合模塊,在NTU-RGBD的跨視角子集(CV)上進行了消融實驗.表1是在基線算法的基礎(chǔ)上僅加了自適應(yīng)尺度圖卷積模塊的效果.
表1 自適應(yīng)尺度圖卷積模塊在NTU-RGBD數(shù)據(jù)集上的消融實驗
Tab.1 Ablation experiments on the scale adaptive graph convolution module using the NTU-RGBD dataset
(1) 單路輸入:使用關(guān)鍵點作為輸入時,Top-1準確率由93.7%提升到了94.1%;使用骨骼作為輸入時,Top-1準確率由93.2%提升到了94.0%.
(2) 多路輸入:使用關(guān)鍵點和骨骼同時作為輸入時,Top-1準確率提升了0.2%,使用完整4路輸入時,準確率提升了0.7%.綜上,自適應(yīng)尺度圖卷積模塊對于提升動作識別的準確性是較有效的.
表2描述了在基線算法上同時使用自適應(yīng)尺度模塊和多尺度融合模塊的效果,與表1中僅適用自適應(yīng)尺度模塊的效果進行比較.
(1) 單路輸入:使用關(guān)鍵點作為輸入時,Top-1準確率由94.1%提升到了94.4%;使用骨骼作為輸入時,Top-1準確率由94.0%提升到了94.2%.
(2) 多路輸入:同時使用關(guān)鍵點和骨骼2路輸入時,Top-1準確率提升了0.5%;完整4路輸入時,Top-1準確率提升了0.3%.
表2 多尺度融合模塊在NTU-RGBD數(shù)據(jù)集上的消融實驗
Tab.2 Ablation experiments on the multiscale fusion module using the NTU-RGBD dataset
另外,將完整模型與基線模型相比,Top-1準確率由95.1%提升到了96.1%,說明筆者所提出的兩個模塊在本數(shù)據(jù)集上有較好表現(xiàn).
為了進一步與現(xiàn)有方法比較,將模型與多個目前識別效果較好的算法在NTU-RGBD數(shù)據(jù)集上進行了對比,表3結(jié)果表明,本文所提出的自適應(yīng)動態(tài)尺度圖卷積算法在NTU-RGBD數(shù)據(jù)集上較有競爭力.
表3 本文算法與其他算法在NTU-RGBD數(shù)據(jù)集上的對比
Tab.3 Comparing the validation accuracy of the proposed method with those of previous methods using the NTU-RGBD dataset
針對基于圖卷積的動作識任務(wù)中缺乏圖尺度自適應(yīng)機制、未考慮多尺度圖的特征提取與融合等問題,提出了自適應(yīng)尺度圖卷積的動作識別算法,首先基于先驗與空間注意力機制構(gòu)建關(guān)鍵點活躍度判別器,既保留了動作核心特征,又加快了特征傳遞效率.此外,基于通道注意力機制構(gòu)建了多尺度融合模塊,將局部特征與全局特征進行動態(tài)融合,提高了網(wǎng)絡(luò)的靈活性.最終,將關(guān)鍵點、骨骼與對應(yīng)運動信息獨立訓(xùn)得的概率向量加權(quán)元融合,得到最終的預(yù)測結(jié)果.實驗結(jié)果表明:本文方法能夠自適應(yīng)調(diào)節(jié)圖尺度,靈活處理不同動作間的細微差異,較好地實現(xiàn)動作分類,最優(yōu)Top-1準確率相比于基線方法提高了1.0%.
[1] Herath S,Harandi M,Porikli F.Going deeper into action recognition:A survey[J].Image and Vision Computing, 2017,60:4-21.
[2] Simonyan K,Zisserman A. Two-stream convolutional networks for action recognition in videos[C]// Neural Information Processing Systems. Montreal,Canada,2014:568-576.
[3] Hussein M E,Torki M,Gowayyed M A,et al. Human action recognition using a temporal hierarchy of covariance descriptors on 3D joint locations[C]// International Joint Conference on Artificial Intelligence. Beijing,China,2013:2466-2479.
[4] Wang J,Liu Z C,Wu Y. Mining actionlet ensemble for action recognition with depth cameras[C]// IEEE Computer Vision and Pattern Recognition. Providence,USA,2012:1290-1297.
[5] Vemulapalli R,Arrate F,Chellappa R. Human action recognition by representing 3D skeletons as points in a lie group[C]// IEEE Conference on Computer Vision and Pattern Recognition. Columbus,USA,2014:588-595.
[6] Qi M S,Wang Y H,Qin J,et al.StagNet:An attentive semantic RNN for group activity and individual action recognition[J].IEEE Transactions on Circuits and Systems for Video Technology,2020,30(2):549-565.
[7] Lin J,Gan C,Han S.TSM:Temporal shift module for efficient video understanding[C]// IEEE International Conference on Computer Vision. Seoul,Korea,2019:7082-7092.
[8] Zhao M C,Xiu S W,Peng W,et al. Multi-label image recognition with graph convolutional networks [C]// IEEE Conference on Computer Vision and Pattern Recognition.Long Beach,USA,2019:5172-5181.
[9] Yan S J,Xiong Y J,Lin D H.Spatial temporal graph convolutional networks for skeleton-based action recognition[C]// AAAI Conference on Artificial Intelligence. New Orleans,USA,2018:7444-7452.
[10] Liu Z Y,Zhang H W,Chen Z H,et al. Disentangling and unifying graph convolutions for skeleton-based action recognition[C]// IEEE Conference on Computer Vision and Pattern Recognition. Seattle,USA,2020:140-149.
[11] Shi L,Zhang Y F,Cheng J,et al.Two-stream adaptive graph convolutional networks for skeleton-based action recognition[C]// IEEE Conference on Computer Vision and Pattern Recognition. Long Beach,USA,2019:12018-12027.
[12] Obinata Y,Yamamoto T. Temporal extension module for skeleton-based action recognition[C]// International Conference on Pattern Recognition. Milan,Italy,2020:112-118.
[13] Fang H S,Xie S Q,Tai Y W,et al. RMPE:Regional multi-person pose estimation[C]// IEEE International Conference on Computer Vision. Venice,Italy,2017:2353-2362.
[14] Gang L. Learning skeleton information for human action analysis using kinect[J]. Signal Processing Image Communication,2020,84:115814.
[15] Shahroudy A,Liu J,Ng T T,et al. NTU RGB+D:A large scale dataset for 3D human activity analysis[C]// IEEE Computer Vision and Pattern Recognition. Las Vegas,USA,2016:1010-1019.
[16] Carlos C,F(xiàn)ran?ois B,William R S, et al. Skeleton image representation for 3D action recognition based on tree structure and reference joints[C]// IEEE Brazilian Symposium on Computer Graphics and Image Processing. Rio de Janeiro,Brazil,2019:16-23.
[17] Tae S K,Austin R. Interpretable 3D human action analysis with temporal convolutional networks[C]// IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops. Honolulu,USA,2017:1623-1631.
[18] Jongmin Y,Yongsang Y,Moongu J. Predictively encoded graph convolutional network for noise-robust skeleton-based action recognition[EB/OL]. https:// arxiv.org/abs/2003.07514,2020-03-17.
[19] Li S,Li W Q,Chris C,et al. Deep independently recurrent neural network[EB/OL]. https://arxiv.org/ abs/1910.06251v1,2019-10-11.
[20] Ding X L,Yang K,Chen W. A semantics-guided graph convolutional network for skeleton-based action recognition[C]// International Conference on Innovation in Artificial Intelligence. Xiamen,China,2020:130-136.
Scale Adaptive Graph Convolutional Network for Skeleton-Based Action Recognition
Wang Xiaojuan,Zhong Yun,Jin Lei,Xiao Yabo
(School of Electronic Engineering,Beijing University of Posts and Telecommunications,Beijing 100876,China)
In skeleton-based action recognition,graph convolutional network(GCN),which models the human skeleton sequences as spatiotemporal graphs,have achieved excellent performance. However,in existing GCN-based methods,the topology of the graph is set manually,and it is fixed over all layers and input samples. This approach may not be optimal for diverse samples. Constructing an scale adaptive graph based on sample characteristics can better capture spatiotemporal features. Moreover,most methods do not explicitly exploit the multiple scales of body components,which carry crucial information for action recognition. In this paper,we proposed a scale adaptive graph convolutional network comprising a dynamic scale graph convolution module and a multiscale fusion module. Specifically,we first used an a priori and attention mechanism to construct an activity judger,which can divide each keypoint into two parts based on whether it is active;thereafter,a scale adaptive graph was automatically learned. This module accelerated the feature transfer between nodes while minimizing the feature loss. Furthermore,we proposed a multiscale fusion module based on the channel attention mechanism to extract features at different scales and fuse features across scales. Moreover,we used a four-stream framework to model the first-order,second-order,and motion information of a skeleton,which shows notable improvement in terms of recognition accuracy. Extensive experiments on the NTU-RGBD dataset demonstrate the effectiveness of our method. Results show that the algorithm achieves 89.7% and 96.1% classification accuracy on the cross-subject(CS) and cross-view(CV) subsets of the NTU-RGBD dataset,respectively,thus significantly improving the accuracy of action recognition.
human skeleton;action recognition;scale adaptive;graph convolutional network(GCN)
TP391.41
A
0493-2137(2022)03-0306-07
10.11784/tdxbz202012073
2020-12-31;
2021-04-06.
王小娟(1985—??),女,博士,副教授,wj2718@bupt.edu.cn.
金?磊,jinlei@bupt.edu.cn.
國家自然科學(xué)基金資助項目(62071056).
Supported by the National Natural Science Foundation of China (No. 62071056).
(責(zé)任編輯:孫立華)