• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于輕量級(jí)圖卷積的人體骨架動(dòng)作識(shí)別方法

      2022-05-14 03:28:52孫琪翔張聰聰劉圣杰
      計(jì)算機(jī)工程 2022年5期
      關(guān)鍵詞:關(guān)節(jié)點(diǎn)信息流骨架

      孫琪翔,何 寧,張聰聰,劉圣杰

      (1.北京聯(lián)合大學(xué) 北京市信息服務(wù)工程重點(diǎn)實(shí)驗(yàn)室,北京 100101;2.北京聯(lián)合大學(xué) 智慧城市學(xué)院,北京 100101)

      0 概述

      人體動(dòng)作識(shí)別是計(jì)算機(jī)視覺領(lǐng)域的重要研究方向之一?;赗GB 的人體動(dòng)作識(shí)別方法往往對(duì)計(jì)算量有較高要求,且魯棒性較差,易受環(huán)境因素影響,在實(shí)際應(yīng)用中準(zhǔn)確率和實(shí)時(shí)性不佳?;诠羌艿膭?dòng)作識(shí)別可以明確地表現(xiàn)人體動(dòng)作,僅依據(jù)骨架便可識(shí)別出大量動(dòng)作[1]。與傳統(tǒng)的RGB 數(shù)據(jù)相比,骨架序列不包含顏色信息,對(duì)視角變換、光照、遮擋等因素具有魯棒性,因此,骨架序列引起研究人員的關(guān)注[2]并廣泛應(yīng)用于智能醫(yī)療、視頻理解、人機(jī)交互等領(lǐng)域[3]。

      早期基于骨架的人體動(dòng)作識(shí)別方法將人體的關(guān)節(jié)點(diǎn)視為一組獨(dú)立的特征,并且通過手工設(shè)計(jì)來模擬時(shí)空關(guān)節(jié)相關(guān)性[4],如YANG 等[5]提出基于關(guān)節(jié)位置差異的新型特征EigenJoints,其包含靜態(tài)姿態(tài)、運(yùn)動(dòng)、偏移量等信息,進(jìn)一步使用樸素貝葉斯最近鄰分類器(Na?ve-Bayes-Nearest-Neighbor,NBNN)進(jìn)行動(dòng)作識(shí)別。但是,這類方法很少探索身體關(guān)節(jié)點(diǎn)之間的關(guān)系,同時(shí)由于復(fù)雜度過高且準(zhǔn)確率有限而逐漸被深度學(xué)習(xí)方法所替代。

      目前,基于骨架進(jìn)行動(dòng)作識(shí)別的主流方法可以分為三類,即基于卷積神經(jīng)網(wǎng)絡(luò)[6]的方法、基于循環(huán)神經(jīng)網(wǎng)絡(luò)[7]的方法以及基于圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)[8]的方法。LIU 等[9]將關(guān)節(jié)點(diǎn)映射到3D 坐標(biāo)空間,分別對(duì)空間和時(shí)間信息進(jìn)行編碼,接著利用3D 卷積神經(jīng)網(wǎng)絡(luò)分別從時(shí)空信息流中提取深層特征,從而得到最終的動(dòng)作識(shí)別結(jié)果。該方法的優(yōu)勢(shì)是可以在不同的時(shí)間區(qū)間提取到多尺度的特征,但其參數(shù)量過于龐大。DU 等[10]提出端到端的級(jí)聯(lián)循環(huán)神經(jīng)網(wǎng)絡(luò),其根據(jù)人體物理結(jié)構(gòu)將人體骨架分為5 個(gè)部分,并分別輸入到5 個(gè)子網(wǎng)絡(luò)中,接著逐層進(jìn)行信息融合,并在最后一層完成動(dòng)作分類。該方法可以有效地學(xué)習(xí)時(shí)序特征,但其缺點(diǎn)是網(wǎng)絡(luò)參數(shù)量過高,較難優(yōu)化。結(jié)合人體關(guān)鍵點(diǎn)的空間特性,空間圖卷積網(wǎng)絡(luò)可以更好地學(xué)習(xí)人體動(dòng)作特征,同時(shí),結(jié)合人體關(guān)鍵點(diǎn)位置的時(shí)間序列,能對(duì)動(dòng)作的上下文信息進(jìn)行學(xué)習(xí)。

      為了提高動(dòng)作識(shí)別的準(zhǔn)確率,本文在WANG 等[11]所提出的非局部神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,設(shè)計(jì)基于圖卷積網(wǎng)絡(luò)的非局部網(wǎng)絡(luò)模塊,該模塊可以獲取全局特征信息從而提高網(wǎng)絡(luò)識(shí)別準(zhǔn)確率。此外,本文利用多流數(shù)據(jù)融合算法,對(duì)4 種特征數(shù)據(jù)流進(jìn)行融合,只需一次訓(xùn)練就可以得到最優(yōu)結(jié)果,從而降低網(wǎng)絡(luò)參數(shù)量。在此基礎(chǔ)上,結(jié)合Ghost 網(wǎng)絡(luò)[12]思想設(shè)計(jì)空間Ghost 圖卷積模塊和時(shí)間Ghost 圖卷積模塊,在網(wǎng)絡(luò)結(jié)構(gòu)層面進(jìn)一步降低網(wǎng)絡(luò)參數(shù)量。

      1 相關(guān)工作

      通過人體姿態(tài)估計(jì)算法或高精度的深度攝像頭可以獲取人體關(guān)節(jié)點(diǎn)特征,而由關(guān)鍵點(diǎn)連接的人體骨架能夠形成圖結(jié)構(gòu)。YAN 等[13]提出將圖卷積網(wǎng)絡(luò)擴(kuò)展到時(shí)空模型上的時(shí)空?qǐng)D卷積網(wǎng)絡(luò)(Spatial Temporal Graph Convolutional Networks,ST-GCN),其基礎(chǔ)是時(shí)空?qǐng)D結(jié)構(gòu),可以從輸入的關(guān)鍵點(diǎn)中建立一個(gè)時(shí)空?qǐng)D,該方式保留了骨架關(guān)鍵點(diǎn)的空間信息,并使得關(guān)鍵點(diǎn)的運(yùn)動(dòng)軌跡以時(shí)序邊的形式得到展現(xiàn),提高了網(wǎng)絡(luò)的特征表現(xiàn)能力和魯棒性。SHI等[14]在ST-GCN 的基礎(chǔ)上,提出2s-AGCN(Two-streamAdaptive Graph Convolutional Networks),其有自學(xué)習(xí)的鄰接矩陣策略,提高了網(wǎng)絡(luò)對(duì)空間特性的抽取能力。LI等[15]提出動(dòng)作結(jié)構(gòu)圖卷積網(wǎng)絡(luò)(Actional-Structural Graph Convolutional Networks,AS-GCN),該網(wǎng)絡(luò)創(chuàng)新性地從原始坐標(biāo)信息中提取Action-Link 和Structural-Link 進(jìn)行加權(quán)以作為GCN 的輸入,提升了網(wǎng)絡(luò)的準(zhǔn)確率。SI 等[16]提出將圖卷積與LSTM 融合的新型網(wǎng)絡(luò)(Attention Enhanced Graph Convolutional LSTM Network,AGC-LSTM),該網(wǎng)絡(luò)使用注意力機(jī)制增強(qiáng)關(guān)鍵點(diǎn)的特征,同時(shí)利用LSTM 提高學(xué)習(xí)高層次時(shí)空語義特征的能力。SHI 等[17]提出使用有向無環(huán)圖構(gòu)建人體骨架結(jié)構(gòu)的新型模型(Directed Graph Neural Networks,DGNN),該模型為了更好地適應(yīng)動(dòng)作識(shí)別任務(wù),構(gòu)建可以根據(jù)訓(xùn)練過程自適應(yīng)改變圖的拓?fù)浣Y(jié)構(gòu),同時(shí)利用骨架序列的運(yùn)動(dòng)信息和空間信息進(jìn)一步提高雙流框架的性能。YANG 等[18]提出CGCN(Centrality Graph Convolutional Networks),其利用被忽視的圖拓?fù)湫畔^(qū)分關(guān)節(jié)點(diǎn)、骨骼和身體部分。相較基于循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的方法,上述基于圖卷積網(wǎng)絡(luò)的方法對(duì)非歐氏數(shù)據(jù)(Non-Euclidean data)具有有效性[19]。

      SHI等[20]提出一種新型解耦時(shí)空注意網(wǎng)絡(luò)(Decoupled Spatial-Temporal Attention Network,DSTA-Net),其可以根據(jù)注意力網(wǎng)絡(luò)發(fā)現(xiàn)骨骼數(shù)據(jù)的關(guān)聯(lián)性,無需利用結(jié)構(gòu)相關(guān)的卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)或圖卷積神經(jīng)網(wǎng)絡(luò),體現(xiàn)了注意力機(jī)制的優(yōu)越性。

      當(dāng)前眾多學(xué)者致力于輕量級(jí)網(wǎng)絡(luò)研究[21],目的是在減少網(wǎng)絡(luò)參數(shù)量的同時(shí)保持較好的特征提取能力。網(wǎng)絡(luò)輕量化方法主要分為3 類,即網(wǎng)絡(luò)參數(shù)輕量化、網(wǎng)絡(luò)裁剪以及直接設(shè)計(jì)輕量化網(wǎng)絡(luò)。網(wǎng)絡(luò)參數(shù)輕量化指降低表征網(wǎng)絡(luò)的參數(shù)量,VANHΟUCKE 等[22]提出一種利用8 位整數(shù)定點(diǎn)消除冗余參數(shù)的方法,GΟNG等[23]提出針對(duì)密集權(quán)重矩陣進(jìn)行量化編碼來實(shí)現(xiàn)壓縮的方法。此外,Binary Connect[24]、Binarized Neural Networks[25]和Xnor-net[26]方 法雖然對(duì) 網(wǎng)絡(luò)壓 縮的程度較高,但是也會(huì)對(duì)網(wǎng)絡(luò)的準(zhǔn)確率造成較大損失。網(wǎng)絡(luò)剪裁通常應(yīng)用于壓縮網(wǎng)絡(luò)模型,HANSΟN 等[27]提出基于偏置參數(shù)衰減的網(wǎng)絡(luò)裁剪方式。和常規(guī)網(wǎng)絡(luò)相比,輕量級(jí)網(wǎng)絡(luò)結(jié)構(gòu)所需的網(wǎng)絡(luò)參數(shù)量和浮點(diǎn)運(yùn)算量(Floating-point Οperations Per second,F(xiàn)LΟPs)更小。因此,輕量級(jí)的網(wǎng)絡(luò)結(jié)構(gòu)更適合在嵌入式設(shè)備和移動(dòng)終端上應(yīng)用。IANDΟLA等[28]在卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)層面,利用瓶頸結(jié)構(gòu)設(shè)計(jì)具有更少參數(shù)量的卷積神經(jīng)網(wǎng)絡(luò),根據(jù)該思路,其設(shè)計(jì)了一種精度與AlexNet 相當(dāng)?shù)妮p量級(jí)網(wǎng)絡(luò)結(jié)構(gòu),該網(wǎng)絡(luò)參數(shù)量的大小只有AlexNet 的1/50。HΟWARD 等[29]利用深度可分離卷積建立輕量級(jí)深度神經(jīng)網(wǎng)絡(luò),結(jié)合2 個(gè)超參數(shù)乘法器和分辨率乘法器設(shè)計(jì)MobileNets 網(wǎng)絡(luò)結(jié)構(gòu),其網(wǎng)絡(luò)參數(shù)量大小只有標(biāo)準(zhǔn)卷積方法的1/9。張洋等[30]提出改進(jìn)的EfficientDet 網(wǎng)絡(luò)并結(jié)合注意力機(jī)制,在保證網(wǎng)絡(luò)參數(shù)量的前提下提高了網(wǎng)絡(luò)準(zhǔn)確率。

      為了同時(shí)實(shí)現(xiàn)較低的網(wǎng)絡(luò)參數(shù)量以及較高的網(wǎng)絡(luò)準(zhǔn)確率,本文主要進(jìn)行如下研究:

      1)針對(duì)預(yù)先定義圖拓?fù)浣Y(jié)構(gòu)所導(dǎo)致的準(zhǔn)確率降低的問題,提出一種基于圖卷積網(wǎng)絡(luò)結(jié)構(gòu)的非局部網(wǎng)絡(luò)模塊,直接關(guān)注所有關(guān)節(jié)點(diǎn)并判斷其是否存在連接,從而提高網(wǎng)絡(luò)的準(zhǔn)確率。

      2)為了減少網(wǎng)絡(luò)訓(xùn)練的次數(shù),提出多流數(shù)據(jù)融合算法,將關(guān)節(jié)點(diǎn)信息流、骨長信息流、關(guān)節(jié)點(diǎn)運(yùn)動(dòng)信息流、骨長運(yùn)動(dòng)信息流進(jìn)行融合,使得網(wǎng)絡(luò)通過一次訓(xùn)練即可得到最優(yōu)結(jié)果,從而降低網(wǎng)絡(luò)參數(shù)量。

      3)結(jié)合Ghost 卷積的思想,分別設(shè)計(jì)空間圖卷積網(wǎng)絡(luò)和時(shí)間圖卷積網(wǎng)絡(luò),從主干網(wǎng)絡(luò)的層面降低網(wǎng)絡(luò)參數(shù)量。

      4)設(shè)計(jì)新的時(shí)空?qǐng)D卷積基礎(chǔ)模塊和時(shí)空?qǐng)D卷積網(wǎng)絡(luò),并在NTU60 RGB+D[31]和NTU120 RGB+D[32]數(shù)據(jù)集上進(jìn)行驗(yàn)證。

      2 融合多流數(shù)據(jù)的Ghost 圖卷積網(wǎng)絡(luò)

      在ST-GCN 的基礎(chǔ)上,本文利用GhostNet 網(wǎng)絡(luò)中的Ghost卷積結(jié)構(gòu)來降低網(wǎng)絡(luò)參數(shù)量,其中,用Ghost卷積替換空間圖卷積,命名為GSCN(Ghost Spatial Convolutional Network)模 塊,連接一個(gè)BN(Batch Normalization)層和一個(gè)ReLU層,以加快訓(xùn)練;用Ghost卷積替換時(shí)間卷積,命名為GTCN(Ghost Temporal Convolutional Network)模塊,連接一個(gè)BN 層和一個(gè)ReLU 層,以加快訓(xùn)練。如圖1 所示,一個(gè)基礎(chǔ)Ghost圖模塊(Ghost Graph Convolution Networks,GGCN)由一個(gè)GSCN、一個(gè)dropout 層和一個(gè)GTCN 組成,其中,dropout參數(shù)設(shè)置為0.5,同時(shí),為了穩(wěn)定訓(xùn)練,網(wǎng)絡(luò)中增加了殘差連接。

      圖1 非局部網(wǎng)絡(luò)模塊和單個(gè)GGCN 網(wǎng)絡(luò)模塊Fig.1 Non-local network module and single GGCN network module

      2.1 非局部網(wǎng)絡(luò)模塊

      對(duì)于傳統(tǒng)的圖卷積,人體的物理結(jié)構(gòu)是設(shè)計(jì)圖拓?fù)浣Y(jié)構(gòu)的基礎(chǔ),但是這樣的設(shè)計(jì)對(duì)于動(dòng)作識(shí)別并非有效,例如,在由NTU-RGB+D 數(shù)據(jù)集提供的拓?fù)鋱D中,頭和手之間沒有聯(lián)系,但是在“wiping face(擦臉)”和“touching head(摸頭)”等動(dòng)作中,頭和手之間的關(guān)系就是很重要的信息,因此,連接關(guān)系不應(yīng)局限在相鄰節(jié)點(diǎn)中。隨著信息在不同網(wǎng)絡(luò)層間的傳遞,不同網(wǎng)絡(luò)層的語義信息將不同,因此,圖網(wǎng)絡(luò)結(jié)構(gòu)也應(yīng)該隨著信息的傳遞而更新。

      針對(duì)上述問題,結(jié)合WANG 等[11]提出的非局部神經(jīng)網(wǎng)絡(luò),本文提出一種非局部網(wǎng)絡(luò)模塊,該模塊可直接關(guān)注所有的關(guān)節(jié)點(diǎn),繼而判斷所有關(guān)節(jié)點(diǎn)間是否存在連接。在訓(xùn)練過程中,以端到端方式對(duì)不同層和樣本分別學(xué)習(xí)圖結(jié)構(gòu)。與原始非局部神經(jīng)網(wǎng)絡(luò)不同,本文所提非局部網(wǎng)絡(luò)模塊包括3個(gè)部分,如圖1所示:第1部分Ai是物理結(jié)構(gòu)圖,和ST-GCN[13]中的物理結(jié)構(gòu)圖保持一致;第2 部分Bi是可以共享的圖結(jié)構(gòu),對(duì)于不同樣本而言這個(gè)部分是相同的,其可以表示關(guān)節(jié)點(diǎn)之間連接的一般模式;第3 部分Ci可為不同樣本學(xué)習(xí)獨(dú)一無二的圖結(jié)構(gòu),其為個(gè)性化的圖結(jié)構(gòu),針對(duì)任意一個(gè)樣本捕捉到獨(dú)特的特征圖。具體地,針對(duì)第3 部分Ci,本文采用歸一化嵌入式高斯函數(shù)計(jì)算2 個(gè)關(guān)鍵點(diǎn)之間的相似性,如式(1)所示:

      其中:N代表關(guān)節(jié)點(diǎn)的數(shù)目;T表示幀數(shù);θ和?用來進(jìn)行維度變換。通過點(diǎn)積計(jì)算可以得到所有關(guān)鍵點(diǎn)之間的相關(guān)性,進(jìn)而得到非局部鄰接矩陣。

      如圖1 所示,使用1×1 卷積表示嵌入函數(shù),每個(gè)輸入特征圖的個(gè)性化圖的計(jì)算如式(2)所示:

      其中:softmax 操作將結(jié)果歸一化在0~1 之間;W是1×1 卷積的參數(shù),初始值為0,與共享圖相同,它也需要采用殘差連接。綜上,圖卷積的定義公式如下:

      2.2 圖卷積網(wǎng)絡(luò)

      圖卷積網(wǎng)絡(luò)方法主要分為基于頻譜的方法(spectralbased)和基于空間的方法(spatial-based)?;陬l譜的圖卷積網(wǎng)絡(luò)中的圖卷積操作可以看成將原始的處于空間域的圖信號(hào)變換到頻域之后,對(duì)頻域?qū)傩赃M(jìn)行濾波,然后再恢復(fù)到原來的圖信號(hào)所在的空域中,從而完成特征提?。?3],該操作的缺點(diǎn)是靈活性低、普適性差、運(yùn)行效率不高;基于空間的圖卷積讓圖中的節(jié)點(diǎn)在空間域中相連并達(dá)成層級(jí)結(jié)構(gòu),進(jìn)而進(jìn)行卷積,因此,其能降低復(fù)雜度,增強(qiáng)泛化能力,提高運(yùn)行效率。空間域圖卷積方法是動(dòng)作識(shí)別領(lǐng)域的主流方法。

      將骨架數(shù)據(jù)表示為N個(gè)節(jié)點(diǎn),T幀的時(shí)空?qǐng)D為G=(V,Ε)。人體動(dòng)作的骨架坐標(biāo)可以表示為X∈RN×T×d,其中,d是關(guān)節(jié)點(diǎn)的維度。基于圖卷積的模型包含空間圖卷積和時(shí)間圖卷積2 個(gè)部分。

      對(duì)于空間圖卷積,將節(jié)點(diǎn)的鄰域定義為鄰接矩陣A∈{0,1}N×N。為了更好地說明空間圖卷積,將鄰接矩陣劃分為向心點(diǎn)、本征點(diǎn)和離心點(diǎn)3 個(gè)部分。對(duì)于單幀,F(xiàn)∈RN×C代表輸入特征,F(xiàn)′∈RN×C′代表輸出特征,其中,C和C′分別代表輸入和輸出特征的維度。圖卷積計(jì)算如式(4)所示:

      其中:P={本征點(diǎn),向心點(diǎn),離心點(diǎn)}代表空間分區(qū)是歸一化的鄰接矩陣,定義如式(5)所示。

      根據(jù)文獻(xiàn)[34],時(shí)間卷積是通過連接連續(xù)幀的節(jié)點(diǎn)并在時(shí)間維度上進(jìn)行1 維卷積來實(shí)現(xiàn)。卷積核的大小由kt表示,通常設(shè)置為9。

      基于上述圖卷積的模型有2 個(gè)缺點(diǎn):

      1)需要大量的算力。例如,ST-GCN[13]識(shí)別一個(gè)動(dòng)作樣例需要16.2GFLΟPs,其中,空間圖卷積消耗4.0GFLΟPs,時(shí)間圖 卷積消 耗12.2GFLΟPs。一 些ST-GCN 的相關(guān)算法甚至需要消耗100GFLΟPs[17]。

      2)不論是時(shí)間圖結(jié)構(gòu)還是空間圖結(jié)構(gòu),都是預(yù)先定義好的,盡管一些研究工作[14]采用了可學(xué)習(xí)的鄰接矩陣,但是其仍受常規(guī)圖卷積架構(gòu)的限制。

      2.3 Ghost 模塊

      受限于內(nèi)存和算力,在嵌入式設(shè)備上部署神經(jīng)網(wǎng)絡(luò)比較困難。例如,給定輸入數(shù)據(jù)X∈Rc×h×w,其中,c代表輸入數(shù)據(jù)的通道數(shù),h和w分別是輸入數(shù)據(jù)的高和寬。用于產(chǎn)生n個(gè)特征映射的任意卷積層的操作如式(6)所示:

      其中:*代表卷積操作;b代表偏置項(xiàng);Y∈代表輸出的有n個(gè)通道的特征圖,h′和w′代表輸出數(shù)據(jù)的高和寬;f∈Rc×k×k×n代表這個(gè)層的卷積濾波器,k×k代表卷積濾波器f的卷積核大小。如圖2 所示,此時(shí)FLΟPs 可以由n·h′·w′·c·k·k計(jì)算,由于濾波器和通道數(shù)通常非常大(如256、512 等),因此FLΟPs 通常高達(dá)數(shù)十萬。

      圖2 常規(guī)卷積操作Fig.2 Conventional convolution operation

      HAN 等[12]提出的Ghost 模塊可以有效解決上述問題。一個(gè)訓(xùn)練好的深度神經(jīng)網(wǎng)絡(luò)通常包含很多冗余的特征圖,在這些特征圖中,有些是彼此近似的,因此,用大量的網(wǎng)絡(luò)參數(shù)和FLΟPs 逐個(gè)生成冗余特征圖沒有必要。假設(shè)有m個(gè)固有特征圖Y′∈由初始卷積生成,如式(7)所示:

      其中:卷積濾波器為f′∈Rc×k×k×m,m≤n。其他超參數(shù)(卷積核、步長、空間大小等)與原始卷積保持一致。為了得到所需要的n個(gè)特征圖,可以利用一系列線性操作在固有特征圖Y′上生成s個(gè)Ghost 特征,如式(8)所示:

      圖3 Ghost 卷積操作Fig.3 Ghost convolution operation

      Ghost 模塊包含一個(gè)恒等映射和m·(s-1)=(n/s)·(s-1)個(gè)線性運(yùn)算,理想情況下普通卷積與Ghost 模塊的參數(shù)量比如式(9)所示,即用Ghost 模塊代替普通卷積操作可以使參數(shù)量縮小s倍。

      2.4 多流數(shù)據(jù)融合

      基于圖卷積的方法通常利用訓(xùn)練多流數(shù)據(jù)集的方式提高精度。特征流數(shù)據(jù)是指針對(duì)同一對(duì)象來描述這些數(shù)據(jù)的不同視角。利用多流數(shù)據(jù)之間的互補(bǔ)性可以學(xué)到更好的特征表示。本文提出一種將多流數(shù)據(jù)融合到圖卷積中的方法,該方法對(duì)關(guān)節(jié)點(diǎn)信息流、骨長信息流、關(guān)節(jié)點(diǎn)運(yùn)動(dòng)信息流、骨長運(yùn)動(dòng)信息流進(jìn)行融合。進(jìn)行多流數(shù)據(jù)融合,一方面使得構(gòu)建的鄰接矩陣具有全局特性,另一方面能夠減少運(yùn)算次數(shù),降低運(yùn)算成本,實(shí)現(xiàn)網(wǎng)絡(luò)輕量化。針對(duì)圖卷積網(wǎng)絡(luò)參數(shù)量過大的問題,本文設(shè)計(jì)輕量化Ghost 圖卷積網(wǎng)絡(luò),其包含空間Ghost圖卷積和時(shí)間Ghost 圖卷積。

      對(duì)于一個(gè)給定的骨架序列,其關(guān)節(jié)點(diǎn)的定義如式(10)所示:

      其中:T為序列中的總幀數(shù);N為總關(guān)節(jié)點(diǎn)數(shù);Vi,t表示t時(shí)刻的關(guān)節(jié)點(diǎn)i。為了完成多流數(shù)據(jù)融合,需要對(duì)骨架序列s進(jìn)行多樣化預(yù)處理。本文分別給出骨長信息流、關(guān)節(jié)點(diǎn)運(yùn)動(dòng)信息流和骨長運(yùn)動(dòng)信息流的定義。

      1)骨長信息流。通常定義靠近人體重心的點(diǎn)為源關(guān)節(jié)點(diǎn),坐標(biāo)為Vi,t=(xi,t,yi,t,zi,t),遠(yuǎn)離人體重心的點(diǎn)為目標(biāo)關(guān)節(jié)點(diǎn),坐標(biāo)為Vj,t=(xj,t,yj,t,zj,t)。通過源關(guān)節(jié)點(diǎn)與目標(biāo)關(guān)節(jié)點(diǎn)的差值計(jì)算骨長信息流,即骨長信息流的定義如式(11)所示:

      2)關(guān)節(jié)點(diǎn)運(yùn)動(dòng)信息流通過計(jì)算相鄰2 個(gè)幀中相同關(guān)節(jié)點(diǎn)之間的差值得到。定義在t幀上的關(guān)節(jié)點(diǎn)i,其坐標(biāo)為Vi,t=(xi,t,yi,t,zi,t),在t+1 幀上的關(guān)節(jié)點(diǎn)i則定義為Vi,t+1=(xi,t+1,yi,t+1,zi,t+1)。在關(guān)節(jié)點(diǎn)Vi,t與關(guān)節(jié)點(diǎn)Vi,t+1之間的運(yùn)動(dòng)信息流如式(12)所示:

      3)骨長運(yùn)動(dòng)信息流通過計(jì)算相鄰2 個(gè)幀中相同骨骼之間的差值得到。根據(jù)式(10),可以定義在t幀上的骨長信息流為Bi,j,t,在t+1 幀上的骨長信息流為Bi,j,t+1。因此,骨長信息流如式(13)所示:

      如圖4 所示,根據(jù)關(guān)節(jié)點(diǎn)信息流、骨長信息流、關(guān)節(jié)點(diǎn)運(yùn)動(dòng)信息流、骨長運(yùn)動(dòng)信息流的定義,多流數(shù)據(jù)融合的計(jì)算如式(14)所示:

      圖4 多流數(shù)據(jù)融合Fig.4 Multi-stream data fusion

      2.5 網(wǎng)絡(luò)架構(gòu)

      如圖5 所示,非局部Ghost 圖卷積網(wǎng)絡(luò)(Non-Local Ghost Graph Convolutional Network,NL-GGCN)是由9個(gè)基礎(chǔ)模塊堆疊而成,每個(gè)塊的輸出通道數(shù)分別為64、64、64、128、128、128、256、256 和256。在網(wǎng)絡(luò)的開始階段增加數(shù)據(jù)BN 層,用來歸一化輸入數(shù)據(jù),在網(wǎng)絡(luò)的最后增加一個(gè)全局平均池化層(Global Average Pooling,GAP),將所有不同的骨架樣本池化到相同的尺寸大小,最后通過softmax 分類獲得預(yù)測(cè)結(jié)果。

      圖5 非局部Ghost 圖卷積網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Non-local Ghost graph convolutional network structure

      2.6 本文算法流程

      本文算法流程如算法1 所示。

      算法1輕量級(jí)人體骨架動(dòng)作識(shí)別算法

      3 實(shí)驗(yàn)結(jié)果與分析

      本文實(shí)驗(yàn)環(huán)境設(shè)置為:64 位Ubuntu 18.04 操作系統(tǒng),Intel?Xeon?CPU E5-2678v3@2.50 GHz,內(nèi)存12 GB,顯卡RTX2080Ti、Cuda10.0.130、Cudnn7.5、PyTorch1.4和Python3.6軟件平臺(tái)。

      3.1 數(shù)據(jù)集和評(píng)價(jià)指標(biāo)

      本文實(shí)驗(yàn)的人體骨架數(shù)據(jù)集包括NTU60 RGB+D數(shù)據(jù)集和NTU120 RGB+D 數(shù)據(jù)集,骨架樣例如圖6 所示,通過可視化代碼表現(xiàn)上述數(shù)據(jù)集中人體骨架在不同動(dòng)作下的狀態(tài)。

      圖6 NTU RGB+D 數(shù)據(jù)集中6 種動(dòng)作的可視化效果Fig.6 Visualization of six actions in NTU RGB+D dataset

      NTU60 RGB+D 數(shù)據(jù)集由南洋理工大學(xué)提出,由3 個(gè)Microsoft Kinectv2 相機(jī)同時(shí)捕獲完成,包括56 880 個(gè)動(dòng)作片段,60 個(gè)動(dòng)作分類,17 種相機(jī)擺放位置組合,有40 名演員參與到數(shù)據(jù)集的采集工作,具體的采樣點(diǎn)分布如圖7 所示,該數(shù)據(jù)采集的樣本關(guān)節(jié)點(diǎn)數(shù)目為25。

      圖7 NTU60 RGB+D 數(shù)據(jù)集關(guān)節(jié)點(diǎn)標(biāo)簽Fig.7 Joint point labels of NTU60 RGB+D dataset

      本文采用該數(shù)據(jù)集中的2 種評(píng)判標(biāo)準(zhǔn):

      1)跨表演者(Cross-Sub),表示訓(xùn)練集和驗(yàn)證集中的動(dòng)作來自不同的演員,其中,身份標(biāo)示為1~38 的演員所演示的動(dòng)作用于訓(xùn)練,身份標(biāo)示為39~40 的演員所演示的動(dòng)作用于測(cè)試,訓(xùn)練集樣本數(shù)為40 320,測(cè)試集樣本數(shù)為16 560。

      2)跨視角(Cross-View),表示標(biāo)號(hào)為2 和3 的攝像機(jī)拍攝的動(dòng)作用作訓(xùn)練,標(biāo)號(hào)為1 的攝像機(jī)所拍攝的動(dòng)作用作測(cè)試,訓(xùn)練集樣本數(shù)為37 920,測(cè)試集樣本數(shù)為18 960。

      NTU120 RGB+D 數(shù)據(jù)集是對(duì)NTU60 RGB+D 數(shù)據(jù)集的擴(kuò)充,相機(jī)擺放位置組合為32 個(gè),動(dòng)作分類增加到120 類,演員人數(shù)增加到106 人,動(dòng)作片段數(shù)增加到114 480,樣本關(guān)節(jié)點(diǎn)數(shù)保持25 個(gè)不變。

      3.2 實(shí)驗(yàn)設(shè)置

      本文中的所有實(shí)驗(yàn)都是在PyTorch 深度學(xué)習(xí)框架下進(jìn)行[35]。實(shí)驗(yàn)優(yōu)化策略采用Nesterov momentum(0.9)的隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)。批大小(Batch size)為64,模型迭代次數(shù)(Epoch)設(shè)置為50,初始學(xué)習(xí)率為0.1,當(dāng)?shù)螖?shù)分別為30和40時(shí),學(xué)習(xí)率除以10。

      3.3 消融實(shí)驗(yàn)

      為了驗(yàn)證本文算法的有效性,在NTU60 RGB+D和NTU120 RGB+D 這2 個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對(duì)比。

      首先,驗(yàn)證本文多流數(shù)據(jù)融合方案的性能和有效性,設(shè)計(jì)6 組數(shù)據(jù)流,測(cè)試不同數(shù)據(jù)流對(duì)實(shí)驗(yàn)結(jié)果的影響,結(jié)果如表1 所示,最優(yōu)結(jié)果加粗表示,下同。其中:J 代表關(guān)節(jié)點(diǎn)信息流;B 代表骨長信息流;JM 代表關(guān)節(jié)點(diǎn)運(yùn)動(dòng)信息流;BM 代表骨長運(yùn)動(dòng)信息流。從表1 可以看出,骨長信息流對(duì)實(shí)驗(yàn)結(jié)果影響較大,實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證了本文所提多流數(shù)據(jù)融合方案的有效性。

      表1 不同特征數(shù)據(jù)流對(duì)實(shí)驗(yàn)結(jié)果的影響Table 1 Effects of different characteristic data streams on experimental results %

      其次,為了驗(yàn)證本文所提網(wǎng)絡(luò)的有效性,以融合的多流數(shù)據(jù)作為輸入,在NTU60 RGB+D 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),以Cross-View 作為評(píng)價(jià)標(biāo)準(zhǔn),分別構(gòu)建8 組實(shí)驗(yàn)網(wǎng)絡(luò),測(cè)試該網(wǎng)絡(luò)模塊對(duì)整個(gè)實(shí)驗(yàn)結(jié)果的影響,結(jié)果如表2 所示,CV 表示Cross-View。

      表2 不同網(wǎng)絡(luò)架構(gòu)的準(zhǔn)確率對(duì)比Table 2 Comparison of accuracy of different network architectures %

      在表2 中,Non-local代表增加了非局部網(wǎng)絡(luò)模塊,wo-Non-local(without Non-local)代表沒有非局部網(wǎng)絡(luò)模塊,Convs 代表常規(guī)空間圖卷積,GhostConvs 代表Ghost 空間圖卷積,Convt 代表時(shí)間圖卷積,GhostConvt代表Ghost時(shí)間圖卷積。從表2 可以看出,非局部網(wǎng)絡(luò)模塊對(duì)準(zhǔn)確率有較大的提升效果,Ghost結(jié)構(gòu)對(duì)準(zhǔn)確率提升效果有限。

      從網(wǎng)絡(luò)參數(shù)量的角度,本文以融合的多流數(shù)據(jù)作為輸入,在NTU60 RGB+D 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),以Cross-View 作為評(píng)價(jià)標(biāo)準(zhǔn),分別構(gòu)建4 組實(shí)驗(yàn)網(wǎng)絡(luò),測(cè)試不同網(wǎng)絡(luò)結(jié)構(gòu)對(duì)實(shí)驗(yàn)結(jié)果的影響,結(jié)果如表3所示,其中,GFLΟPs 代表浮點(diǎn)運(yùn)算量。從表3 可以看出,Ghost 架構(gòu)在有效降低網(wǎng)絡(luò)參數(shù)量的同時(shí)保持了較高的準(zhǔn)確率。

      表3 不同網(wǎng)絡(luò)架構(gòu)的網(wǎng)絡(luò)參數(shù)量對(duì)比Table 3 Comparison of network parameters of different network architectures

      為了說明本文所提算法對(duì)網(wǎng)絡(luò)實(shí)時(shí)性的影響,以融合的多流數(shù)據(jù)作為輸入,在NTU60 RGB+D 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),以Cross-View 作為評(píng)價(jià)標(biāo)準(zhǔn),分別構(gòu)建4 組實(shí)驗(yàn)網(wǎng)絡(luò),測(cè)試不同網(wǎng)絡(luò)結(jié)構(gòu)對(duì)網(wǎng)絡(luò)實(shí)時(shí)性的影響,結(jié)果如表4 所示,其中,Time 代表檢測(cè)單個(gè)動(dòng)作樣本所需時(shí)間。從表4 可以看出,隨著Ghost架構(gòu)的應(yīng)用,網(wǎng)絡(luò)檢測(cè)單個(gè)動(dòng)作樣本所需時(shí)間降低,Ghost 時(shí)間圖卷積網(wǎng)絡(luò)架構(gòu)對(duì)網(wǎng)絡(luò)實(shí)時(shí)性影響較大。

      表4 不同網(wǎng)絡(luò)架構(gòu)的網(wǎng)絡(luò)實(shí)時(shí)性對(duì)比Table 4 Comparison of network real-time performance of different network architectures

      3.4 結(jié)果分析

      在NTU60 RGB+D數(shù)據(jù)集上,本文將所提NL-GGCN與最先進(jìn)的基于骨骼的動(dòng)作識(shí)別方法在準(zhǔn)確率和模型參數(shù)量上進(jìn)行比較,實(shí)驗(yàn)結(jié)果如表5 所示,CS 表示Cross-Sub。從表5 可以看出,本文NL-GGCN 的模型參數(shù)量遠(yuǎn)小于其他方法,同時(shí)在準(zhǔn)確率方面,以Cross-Sub作為評(píng)價(jià)標(biāo)準(zhǔn),本文NL-GGCN 性能優(yōu)勢(shì)明顯。

      表5 NTU60 RGB+D 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比Table 5 Comparison of experimental results on NTU60 RGB+D dataset

      4 結(jié)束語

      為解決目前動(dòng)作識(shí)別方法計(jì)算復(fù)雜度過高的問題,本文提出一種輕量級(jí)的人體骨架動(dòng)作識(shí)別方法。針對(duì)人體骨架的特征,設(shè)計(jì)一種非局部網(wǎng)絡(luò)模塊,以提升網(wǎng)絡(luò)的動(dòng)作識(shí)別準(zhǔn)確率。在數(shù)據(jù)預(yù)處理階段,進(jìn)行多流數(shù)據(jù)融合,通過一次訓(xùn)練即可得到最優(yōu)結(jié)果。在網(wǎng)絡(luò)結(jié)構(gòu)上,分別將Ghost網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)用在空間圖卷積和時(shí)間圖卷積上,進(jìn)一步降低網(wǎng)絡(luò)參數(shù)量。動(dòng)作識(shí)別數(shù)據(jù)集NTU60 RGB+D和NTU120 RGB+D上的實(shí)驗(yàn)結(jié)果表明,該方法在實(shí)現(xiàn)較低網(wǎng)絡(luò)參數(shù)量的情況下能達(dá)到較高的識(shí)別準(zhǔn)確率。在未來,人體動(dòng)作識(shí)別將向著高實(shí)時(shí)性和高準(zhǔn)確率的方向發(fā)展,以期廣泛應(yīng)用于安防監(jiān)控、陪護(hù)機(jī)器人等領(lǐng)域。后續(xù)將結(jié)合Transformer、heatmap stack、EfficientNet等新型網(wǎng)絡(luò)架構(gòu),進(jìn)一步提升本文動(dòng)作識(shí)別方法的魯棒性、準(zhǔn)確率并降低網(wǎng)絡(luò)參數(shù)。

      猜你喜歡
      關(guān)節(jié)點(diǎn)信息流骨架
      淺談管狀骨架噴涂方法
      基于深度學(xué)習(xí)和視覺檢測(cè)的地鐵違規(guī)行為預(yù)警系統(tǒng)研究與應(yīng)用
      關(guān)節(jié)點(diǎn)連接歷史圖與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的雙人交互動(dòng)作識(shí)別
      基于信息流的作戰(zhàn)體系網(wǎng)絡(luò)效能仿真與優(yōu)化
      骨架密度對(duì)炭/炭多孔骨架壓力浸滲銅的影響
      基于信息流的RBC系統(tǒng)外部通信網(wǎng)絡(luò)故障分析
      戰(zhàn)區(qū)聯(lián)合作戰(zhàn)指揮信息流評(píng)價(jià)模型
      搞好新形勢(shì)下軍營美術(shù)活動(dòng)需把握的關(guān)節(jié)點(diǎn)
      基于任務(wù)空間的體系作戰(zhàn)信息流圖構(gòu)建方法
      內(nèi)支撐骨架封抽技術(shù)在突出煤層瓦斯抽采中的應(yīng)用
      中國煤層氣(2014年3期)2014-08-07 03:07:45
      鄂州市| 永宁县| 印江| 抚州市| 玉山县| 治多县| 响水县| 那曲县| 囊谦县| 崇文区| 宝山区| 衡阳县| 肥东县| 长沙县| 修文县| 锦屏县| 武宣县| 珲春市| 凉城县| 重庆市| 常熟市| 务川| 辉南县| 元阳县| 庐江县| 呼玛县| 布尔津县| 德保县| 瑞昌市| 米泉市| 巩义市| 岑溪市| 玛多县| 灵寿县| 瑞丽市| 五指山市| 梅河口市| 盐亭县| 阜宁县| 旬邑县| 普兰县|