胡 昊,史天運,宋永紅,余 淮
(1.中國鐵道科學(xué)研究院研究生部,北京 100081;2. 中國鐵道科學(xué)研究院集團有限公司,北京 100081; 3. 西安交通大學(xué)軟件學(xué)院,西安 710049; 4. 中國鐵道科學(xué)研究院集團有限公司通信信號研究所,北京 100081)
動作識別的目標(biāo)是分析一段視頻,判斷這段視頻中的人所做動作并正確地劃分到所屬的類別中,在視頻理解中有著不可忽視的實際應(yīng)用價值。動作識別與人們的日常生活息息相關(guān),例如安防監(jiān)控、人機互動等。傳統(tǒng)的動作識別大多基于外觀和光流建模,容易受到光線變化、視頻中背景等因素干擾,識別精度不是很高。與傳統(tǒng)方法相比,基于人體關(guān)節(jié)點信息的動作識別由于不容易受到背景、光線等因素干擾,通常能表征重要信息。因此,針對基于人體關(guān)節(jié)點數(shù)據(jù)的動作識別研究十分必要。近年來,動作識別作為當(dāng)前識別領(lǐng)域的研究熱點,國內(nèi)外眾多研究學(xué)者對其展開研究和探索,并且獲得了顯著的成果?;谌梭w關(guān)節(jié)點信息的動作識別方法可以分為以下兩類:基于手工特征的方法和基于深度學(xué)習(xí)的方法。
1)基于手工特征的方法一般不利用深度網(wǎng)絡(luò),以人工提取特征對人體骨骼的空間和時間進行動態(tài)建模,然后用分類器進行人體動作的識別。這些人工提取到的特征包含了對身體部位的旋轉(zhuǎn)和平移方法,以及關(guān)節(jié)軌跡的協(xié)方差矩陣方法等。另外,Xia L.等提出了用三維關(guān)節(jié)位置的直方圖代表骨架序列里面的每一幀,從而進行時間動態(tài)建模。但是,這種方法和基于手工特征的視頻動作識別方法的缺點一樣,手工特征的設(shè)計和計算極為復(fù)雜,且沒有辦法全面地表征動作在時序上的演化,使得最終動作識別的性能不理想。
2)基于深度學(xué)習(xí)的方法由于在計算量、類腦計算方式等方面優(yōu)于傳統(tǒng)的手工特征方法,結(jié)果相對更好?;谏疃葘W(xué)習(xí)的方法主要有三種框架:基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的方法、基于圖像的方法和基于圖卷積的方法。
基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法主要是為了獲取長時間的時序信息,將骨架數(shù)據(jù)表示為關(guān)節(jié)序列,然后用基于循環(huán)神經(jīng)網(wǎng)絡(luò)改進的長短期記憶(Long Short-Term Memory,LSTM)神經(jīng)網(wǎng)絡(luò)對其建模,為動作識別找到樣本序列中信息最為豐富的幀,并通過關(guān)鍵幀幫助網(wǎng)絡(luò)進行分類,從而提高識別精度。Song S.等引入了一個時空注意模型,用注意力機制為視頻中不同的幀和節(jié)點分配不同的權(quán)重,但訓(xùn)練過程很復(fù)雜。A.Jain等主要對骨骼三個部位的關(guān)系進行建模,包括脊柱、手臂和腿,網(wǎng)絡(luò)架構(gòu)是將循環(huán)神經(jīng)網(wǎng)絡(luò)與圖結(jié)合在一起。Du Y.等設(shè)計了一種通過級聯(lián)方式組合人體骨骼各個部位的方法,用長短期記憶網(wǎng)絡(luò)進行建模時序運動。但是,基于循環(huán)神經(jīng)網(wǎng)絡(luò)的動作識別方法也有缺點,它主要考慮時序特征,在空間位置信息的獲取方面稍有不足,且網(wǎng)絡(luò)相對復(fù)雜,沒有辦法加深網(wǎng)絡(luò)。
基于圖像的方法主要是把骨架三維坐標(biāo)表示為特殊的圖片,也可以稱為偽圖像,然后用卷積網(wǎng)絡(luò)對圖片進行特征提取和訓(xùn)練。Ke Q.等提出了一種新的三維骨架序列表示方法,即將樣本序列中的柱坐標(biāo)(3個坐標(biāo)表示骨骼節(jié)點位置)轉(zhuǎn)換成偽圖像(3個灰度圖像),然后再利用深度卷積網(wǎng)絡(luò)進行訓(xùn)練和時空特征的學(xué)習(xí)。前者是轉(zhuǎn)換成3段灰度圖像,而Liu M.等是將序列轉(zhuǎn)換成一系列的彩色圖像并輸入到卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)中進行特征獲取,最終進行動作識別。
基于圖卷積的方法將數(shù)據(jù)建模成以骨骼關(guān)節(jié)為頂點、以骨骼邊為邊的圖,并通過卷積學(xué)習(xí)圖中不同節(jié)點之間的信息交流,從而得到圖中每個頂點的嵌入特征表示。Yan S.等將圖卷積神經(jīng)網(wǎng)絡(luò)引入骨骼動作識別中,設(shè)計了時空圖卷積網(wǎng)絡(luò),用于訓(xùn)練樣本序列,最終得到動作識別結(jié)果。這種方法借鑒了將3D分解為2+1D的思想,通過空域上的圖卷積提取空間信息,并通過在時域上提取相鄰幀卷積之后的特征來提取時序信息,從而通過聚合空域時域信息來捕捉時空的變化關(guān)系。Tang Y.等設(shè)計了一個深度漸進強化學(xué)習(xí)模型,通過時間上的類注意力方法選擇最有代表性的幀,也就是提取含有大信息量的幀,并去除含有一些無用信息的幀,然后輸入到圖卷積網(wǎng)絡(luò)中進行訓(xùn)練。Zhang X.等提出了給骨頭邊卷積的思想,用雙流卷積網(wǎng)絡(luò)分別卷積骨頭節(jié)點和骨頭邊,結(jié)合兩個網(wǎng)絡(luò)得到最終結(jié)果,提升了準(zhǔn)確率。Shi L.等在時空圖卷積的基礎(chǔ)上對鄰接矩陣策略進行改進,用自注意力機制設(shè)計每個樣本的鄰接矩陣,大大增強了對空間特征的提取。Shi L.等將時空圖卷積從無向圖變成有向圖,提高了抽取空間特征的有效性。Li M.等用多個圖進行卷積,不僅關(guān)注有物理連接的關(guān)節(jié)點之間的潛在聯(lián)系,還注重沒有骨骼邊相連兩個節(jié)點之間的關(guān)系。
動作識別在近些年來受到了廣大研究者們的關(guān)注,基于人體關(guān)節(jié)點信息的動作識別方法憑借其對運動速度、背景干擾和攝像機視點的魯棒性,取得了不錯的成績。但是,現(xiàn)有的基于關(guān)節(jié)點信息的動作識別方法時空特征判別能力不強,具體表現(xiàn)在固定單一核的時間卷積無法為不同動作獲得更有區(qū)別性的時間特征,對視頻中持續(xù)時間長的動作類別識別效果難以保證,導(dǎo)致識別精度有所影響。針對該問題,提出了基于相對骨骼點特征和時序自適應(yīng)感受野的動作識別方法,可以較好地提取時空特征。實驗結(jié)果表明,對比其他方法,該方法在基準(zhǔn)數(shù)據(jù)集上獲得了識別性能的提升。
現(xiàn)有方法大多只關(guān)注人體骨骼關(guān)節(jié)點在時間上的位移,而人體關(guān)節(jié)點的空間相對位置信息等特征在基于骨骼信息的動作識別中也起著很重要的作用,但這些特征往往都會被忽略,而且多種特征之間具有互補性和多樣性。另一方面,神經(jīng)網(wǎng)絡(luò)想要提高泛化能力,需要大量的數(shù)據(jù)來支撐。而基于骨骼信息的動作識別,輸入的數(shù)據(jù)是關(guān)節(jié)序列的三維坐標(biāo),一幀中的骨骼節(jié)點太少會出現(xiàn)過擬合的情況,導(dǎo)致訓(xùn)練出的結(jié)果精度不高。
因此,本文提出了基于相對骨骼點特征和時序自適應(yīng)感受野的動作識別方法,可以較好地解決現(xiàn)有方法無法為不同的動作獲得更有區(qū)別性的時間特征的問題,提升對視頻中持續(xù)時間長的動作類別的識別準(zhǔn)確率,整體架構(gòu)如圖1所示。
圖1 算法整體框架
首先,在特征獲取部分根據(jù)原始三維節(jié)點特征,計算其輸入特征,分別得到骨頭特征和相對骨骼點特征,以滿足節(jié)點多樣性和互補性要求。讓輸入特征分別經(jīng)過10個時空網(wǎng)絡(luò)塊進行訓(xùn)練,每個塊包含了一個空域圖卷積網(wǎng)絡(luò)和時序自適應(yīng)感受野模塊。通過空域圖卷積網(wǎng)絡(luò)訓(xùn)練,得到空間中相鄰關(guān)節(jié)聚合的局部特征,再經(jīng)過時序自適應(yīng)選擇不同感受野的信息,獲取在時域上關(guān)節(jié)變化的局部特征,增強了網(wǎng)絡(luò)對不同持續(xù)時長動作的適應(yīng)性。之后,用殘差相加的方法,將訓(xùn)練后的特征與原始特征結(jié)合,在10層網(wǎng)絡(luò)訓(xùn)練之后,經(jīng)過決策級融合模塊,計算softmax層的類別概率,通過熵權(quán)法求得每個特征流的融合權(quán)重,從而得到分類結(jié)果。
骨骼關(guān)節(jié)點的空間相對位置信息等特征,在基于骨骼信息的動作識別中具有重要作用,但這些特征往往都會被忽略。神經(jīng)網(wǎng)絡(luò)要提高泛化能力,需要大量的數(shù)據(jù)來支撐,而基于骨骼信息的動作識別輸入的數(shù)據(jù)是關(guān)節(jié)序列的三維坐標(biāo),一幀中的骨骼節(jié)點太少,會出現(xiàn)過擬合的情況,導(dǎo)致訓(xùn)練出的結(jié)果精度不高,而且多種特征之間具有多樣性和互補性。三維骨架序列是一個五維的特征向量[,,,,]。其中,是指批量大小;是指每個樣本的幀的數(shù)量;是指人體骨架的關(guān)節(jié)數(shù);是指人的數(shù)量;是指輸入特征的通道數(shù)量,包含了數(shù)據(jù)集從深度攝像機中采集的原始人體骨骼三維節(jié)點,=(,,,,,),其中表示關(guān)節(jié)點序號,表示幀序號。由于人在做動作時,人體關(guān)節(jié)點有可能重合在一起,導(dǎo)致動作的誤判。骨頭特征指的是人體骨骼中的骨骼邊,加入骨頭特征可以一定程度上解決這個問題。因此,骨頭特征也被廣泛用在基于關(guān)節(jié)點信息的動作識別中。
但是,當(dāng)人體動作發(fā)生時,骨骼特征僅計算了存在物理骨骼邊關(guān)節(jié)點間的空間關(guān)系信息,這是不夠的。當(dāng)兩個關(guān)節(jié)點之間不存在骨骼邊時,這些關(guān)節(jié)點之間的空間關(guān)系也很重要。例如,抹臉和梳頭這兩個動作,都是手部節(jié)點與頭部節(jié)點距離很近,這些節(jié)點沒有骨骼邊連接,如果計算這些關(guān)節(jié)之間的相對位置信息,會發(fā)現(xiàn)特征向量的大小和方向都不一樣。因此,借鑒Ke Q.等用三維骨架序列生成圖像幀中處理序列的方法,再結(jié)合關(guān)節(jié)點之間的相對位置信息,提出了相對骨骼點特征。
為防止冗余信息的產(chǎn)生,在同一幀內(nèi)僅選幾個節(jié)點,用這幾個節(jié)點的位置信息當(dāng)作源關(guān)節(jié)坐標(biāo)點,計算其他節(jié)點針對這4個節(jié)點的空間相對位置信息。源關(guān)節(jié)坐標(biāo)點選取的條件一是要反映出其他節(jié)點的位置信息,以及與大多關(guān)節(jié)點的潛在聯(lián)系;二是在做動作時可以保持穩(wěn)定的狀態(tài),如圖2所示,有顏色的7個關(guān)節(jié)點可以作為源關(guān)節(jié)坐標(biāo)點,分別是右肩節(jié)點、左肩節(jié)點、最中間的3個脊柱節(jié)點、右臀節(jié)點和左臀節(jié)點。但是脊柱節(jié)點離其他4個節(jié)點的距離很近,如果都選為源關(guān)節(jié)坐標(biāo)點,會導(dǎo)致信息的重復(fù),所以僅以圖中黃顏色的右肩節(jié)點、左肩節(jié)點、右臀節(jié)點和左臀節(jié)點為源關(guān)節(jié)坐標(biāo)點。
圖2 源關(guān)節(jié)坐標(biāo)點的篩選
相對骨骼點特征的計算方法是以其他關(guān)節(jié)點為目標(biāo)關(guān)節(jié)點,分別計算目標(biāo)關(guān)節(jié)與4個源關(guān)節(jié)的差值,得到4個特征向量,再將這4個特征向量在通道維進行拼接,輸入到網(wǎng)絡(luò)中進行訓(xùn)練。
具體的計算公式如式(1)、式(2)
={(,-,)|∈,∈,∈′}
(1)
=⊕⊕⊕
(2)
式(1)中,,表示目標(biāo)關(guān)節(jié)點坐標(biāo);,表示源關(guān)節(jié)點坐標(biāo);表示人的骨架的關(guān)節(jié)點集合;′表示4個源關(guān)節(jié)點坐標(biāo)集合;表示幀數(shù)。式(2)表示將計算得到的4個特征向量拼接在一起,生成相對骨骼點特征。
時空網(wǎng)絡(luò)塊如圖3所示,包含了一個空間圖卷積網(wǎng)絡(luò)和時序自適應(yīng)感受野模塊。Conv-s就是圖1所示的空間圖卷積網(wǎng)絡(luò),將特征輸入后可以得到空間中相鄰關(guān)節(jié)聚合的局部特征。Conv-t即圖1所示的時序自適應(yīng)感受野模塊,通過自適應(yīng)選擇不同感受野的信息,獲取在時域上關(guān)節(jié)變化的局部特征。為了獲得更好的時空特征,在獲得空間特征后,經(jīng)過批標(biāo)準(zhǔn)層,加快收斂速度,之后加入殘差模塊,穩(wěn)定特征訓(xùn)練過程,通過relu操作增強各層之間的非線性關(guān)系,減少過擬合,再將經(jīng)過這些層處理后的空間特征輸入到時域中進行卷積,得到時空卷積。
圖3 時空網(wǎng)絡(luò)塊框架
特征要經(jīng)過10個時空網(wǎng)絡(luò)塊進行訓(xùn)練,這10層網(wǎng)絡(luò)的配置為第1層的輸入通道數(shù)為原始節(jié)點的通道數(shù),1~4層的輸出通道為64,5~7層的輸出通道為128,8~10層的輸出通道為256,第5層和第8層步長設(shè)置為2,等同于池化層。
在動作識別領(lǐng)域,大多數(shù)方法選擇在空域圖卷積網(wǎng)絡(luò)進行改進,但在時域大多用單一固定的時間卷積層(Temporal Convolutional Nets,TCN)對特征進行提取。這樣提取出的特征不足以為不同的動作獲得更有區(qū)別性的時間特征,對視頻中持續(xù)時間長的動作類別識別效果難以保證,導(dǎo)致識別精度有所影響。因此,考慮用非線性方法,允許每個神經(jīng)元根據(jù)上一層的多個感受野尺度自主選擇不同分支的卷積層信息。時序自適應(yīng)感受野模塊的主要原理是計算不同感受野通道的注意力權(quán)重,使網(wǎng)絡(luò)自適應(yīng)獲取不同感受野的信息。
時序自適應(yīng)感受野模塊的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。對輸入特征分為四路卷積,4個分支的卷積核分別為3×1、5×1、7×1和9×1,分別得到4個特征,對這4個特征進行簡單的像素級相加融合,得到特征。為了建模通道之間的依賴關(guān)系,對特征沿著和維度求平均值,從而得到每個通道的信息。之后,為了完成針對跨通道信息的提取,用具有自適應(yīng)卷積核的快速一維卷積進行4次快速一維卷積,得到4個維通道的特征向量,然后用softmax進行歸一化。用通道間的注意力方法以自適應(yīng)選擇4個分支的信息,得到權(quán)重矩陣注意力向量,再用權(quán)重矩陣對、、和進行加權(quán)操作并求和,得到最后特征Fea_。這樣,最后網(wǎng)絡(luò)融合了不同感受野的信息,且不會造成信息的冗余。
圖4 時序自適應(yīng)感受野模塊
由于利用特征融合的方法可以實現(xiàn)多種特征之間的互補性和多樣性,綜合隱含在不同特征中的信息,能夠防止過擬合。因此,選擇用決策級融合的方法如采用多流網(wǎng)絡(luò)結(jié)構(gòu),將各特征輸入到共享網(wǎng)絡(luò)層中,再將softmax層的最后分數(shù)加起來,最后分數(shù)最高的那一類就是訓(xùn)練后的分類結(jié)果。
由于各個特征流占的比重不同,不能簡單地用全是1的參數(shù)來融合,因此,用熵權(quán)法確定各個流融合的分數(shù)之前的權(quán)重。根據(jù)熵值判斷各個特征流通過網(wǎng)絡(luò)得出分數(shù)的離散程度,也就是根據(jù)各個特征和它對應(yīng)值的變異性大小來確定客觀權(quán)重,在這里離散程度越大,該特征流對綜合評價的影響越大。
本文提出的動作識別方法主要在NTU RGB+D數(shù)據(jù)集和Kinetics-skeleton數(shù)據(jù)集進行實驗,在NTU數(shù)據(jù)集上進行消融實驗,之后分別基于兩個數(shù)據(jù)集上的實驗結(jié)果,與其他方法進行對比分析。
準(zhǔn)確率的計算如式(3)所示
(3)
式中,是正確分類的動作序列樣本數(shù);是全部動作序列樣本數(shù)。
本文提出的算法在兩個數(shù)據(jù)集上批量大小都設(shè)置為32,權(quán)重衰減都設(shè)置為0.0001,初始學(xué)習(xí)率設(shè)置為0.1,用隨機遞度下降(Stochastic Gradient Descent, SGD)算法進行優(yōu)化。在NTU RGB+D60數(shù)據(jù)集上進行50次迭代,用MultiStepLR()函數(shù)在第30、40次迭代進行學(xué)習(xí)率的調(diào)整,超參數(shù)gamma設(shè)置為0.1,調(diào)整學(xué)習(xí)率時將學(xué)習(xí)率除以10。該方法基于圖形處理器(Graphics Processing Unit, GPU)進行訓(xùn)練和測試。在Kinetics-skeleton數(shù)據(jù)集上進行65次迭代,在第45、55次迭代進行學(xué)習(xí)率的調(diào)整,超參數(shù)gamma設(shè)置為0.1,調(diào)整學(xué)習(xí)率時將學(xué)習(xí)率除以10。
本文提出的動作識別方法主要在NTU數(shù)據(jù)集上做消融實驗,設(shè)計了消融實驗來驗證每個模塊的有效性。在NTU RGB+D60數(shù)據(jù)集上和Kinetics-skeleton數(shù)據(jù)集上與當(dāng)前基于骨骼信息的圖卷積動作識別方法進行比較,驗證了該方法可以有效提高動作識別的精度。
1)基于三維骨架特征的實驗結(jié)果
為了驗證相對骨骼點特征的有效性,分別基于各特征在NTU RGB+D60數(shù)據(jù)集上進行實驗。單獨輸入3個特征進行結(jié)果比對。分別將原始骨骼節(jié)點、骨頭特征和相對骨骼點特征輸入到設(shè)計好的網(wǎng)絡(luò)中,得到對60類動作的識別結(jié)果,如表1所示。
表1 基于各個三維骨架特征在NTU RGB+D60數(shù)據(jù)集上的識別結(jié)果
其中,指跨主題評價指標(biāo);指跨視角評價指標(biāo);-1準(zhǔn)確率計算的是預(yù)測結(jié)果中概率最大的正確類樣本數(shù)總樣本數(shù);-5計算的是預(yù)測結(jié)果中概率最大前五名中正確類的樣本數(shù)總樣本數(shù)。由于跨視角評價指標(biāo)的準(zhǔn)確率已經(jīng)很高,此時,主要從跨主題的角度對結(jié)果進行分析。從表1中可以看到,骨頭特征在跨主題的評價指標(biāo)上準(zhǔn)確率要高042,這是因為骨頭特征是將人的骨骼邊輸入到網(wǎng)絡(luò)中,解決了不同動作骨頭節(jié)點可能重合造成誤判的問題。用相對骨骼點特征進行動作識別,在跨主題的評價指標(biāo)上,準(zhǔn)確率要比基于原始節(jié)點的準(zhǔn)確率高063??紤]到兩個關(guān)節(jié)點之間不存在骨骼邊,用相對骨骼點可以計算出這些關(guān)節(jié)點之間的空間關(guān)系。例如,抹臉和梳頭這兩個動作,都是手部節(jié)點與頭部節(jié)點距離很近,這些節(jié)點是沒有骨骼邊連接的,如果計算這些關(guān)節(jié)之間的相對位置信息,會發(fā)現(xiàn)特征向量的大小和方向都是不一樣的。
2)時序自適應(yīng)感受野模塊實驗結(jié)果
為了驗證該模塊對網(wǎng)絡(luò)帶來的提升效果,對比了以原始節(jié)點作為輸入特征的基線識別動作的準(zhǔn)確率與設(shè)計本模塊之后識別動作的準(zhǔn)確率,如表2所示。
表2 基于原始節(jié)點的基線和提出模塊后的識別結(jié)果的對比
基線網(wǎng)絡(luò)經(jīng)過訓(xùn)練后,在跨主題評價指標(biāo)上的準(zhǔn)確率是85.83%,在跨視角評價指標(biāo)上的準(zhǔn)確率為93.54%;而在網(wǎng)絡(luò)中設(shè)計了時序自適應(yīng)感受野模塊之后,在跨主題評價指標(biāo)上的準(zhǔn)確率是86.94%,精度提高了1.11%,在跨視角評價指標(biāo)上的準(zhǔn)確率為94.34%,精度提高了0.8%。精度的提高證明了設(shè)計模塊的有效性。時序自適應(yīng)感受野模塊從根本上主要解決的是在所有動作序列中,有的動作關(guān)鍵性階段持續(xù)時間很短,有的動作關(guān)鍵性階段持續(xù)時間長,即提取到的特征不足以覆蓋每個動作所有關(guān)鍵階段的問題。分別查看關(guān)鍵性階段持續(xù)時間很短和很長的動作分類的準(zhǔn)確率,關(guān)鍵性階段持續(xù)很短的動作可以用讀書這個類(3幀有個明顯的翻頁動作)進行結(jié)果驗證,關(guān)鍵性階段持續(xù)很長的動作可以用玩手機、打字這兩類(關(guān)鍵性階段持續(xù)大概在9幀左右)進行結(jié)果驗證。
如表3所示,基于本文設(shè)計的網(wǎng)絡(luò),讀書動作識別準(zhǔn)確率比基線提高了4%,玩手機動作比基線提高了6%,打字動作比基線提高了5%。這個實驗結(jié)果可以進一步證明本模塊能夠有效獲取不同時域長短的動作特征。
表3 基于基線和本文網(wǎng)絡(luò)比對動作類的分類準(zhǔn)確率
3)與其他方法比較的實驗結(jié)果
在NTU RGB+D60與Kinetics-skeleton兩個數(shù)據(jù)集上,將本文方法與其他基于骨骼信息的圖卷積動作識別方法進行比較。時空圖卷積網(wǎng)絡(luò)(Spatio-Temporal Graph Convolutional Networks,STGCN)方法用適合的圖卷積網(wǎng)絡(luò)提取空間特征;動作結(jié)構(gòu)圖卷積網(wǎng)絡(luò)(Actional-Structural Graph Convolutional Networks,ASGCN)方法用多個圖進行卷積,注重沒有骨骼邊相連的兩個節(jié)點之間的關(guān)系;雙流自適應(yīng)圖卷積網(wǎng)絡(luò)(Two-Stream Adaptive Graph Convolutional Networks,2S-AGCN)方法在時空圖卷積的基礎(chǔ)上對鄰接矩陣策略進行了改進,增強了對空間特征的提取;有向圖神經(jīng)網(wǎng)絡(luò)(Directed Graph Neural Networ-ks,DGNN)方法將時空圖卷積從無向圖變成有向圖,提高了抽取空間特征的有效性。
從表4的精度對比實驗可以看出,本文方法對動作識別的效果是有提升的??缰黝}評價指標(biāo)的準(zhǔn)確率(top-1)比前四種方法中最高的識別效果高出0.3%左右??缫暯侵笜?biāo)的準(zhǔn)確率更高一點,說明基于骨骼信息對視角差異是有魯棒性的。另外,在跨主題評價指標(biāo)上的較高準(zhǔn)確率,說明本文提出的方法可以較好地提取到時空特征。
表4 本文方法在NTU RGB+D60數(shù)據(jù)集上與當(dāng)前多種方法的識別結(jié)果對比
從表5的精度對比實驗可以看出,Kinetics-skeleton數(shù)據(jù)集上比前四種方法中最高的識別效果高出0.5%(top-1)左右。在兩個數(shù)據(jù)集上的精度提升說明了本文方法的有效性,因為在特征獲取部分增加了相對骨骼點特征,滿足了節(jié)點多樣性和互補性要求;并且通過時序自適應(yīng)感受野網(wǎng)絡(luò),獲取了在不同時域上關(guān)節(jié)變化的局部特征,較好地解決了現(xiàn)有方法無法為不同動作獲得更有區(qū)別性的時間特征的問題。
表5 本文方法在Kinetics-skeleton數(shù)據(jù)集上與當(dāng)前多種方法的識別結(jié)果對比
為了驗證本文方法在實際應(yīng)用場景中的有效性,在基于火車站與鐵路沿線綜合監(jiān)控視頻錄像中,構(gòu)建了包含奔跑、跌倒、攀爬、抽煙和行走等動作類別的數(shù)據(jù)集,同時也從網(wǎng)絡(luò)視頻中選取了部分同類別數(shù)據(jù)補充到其中,數(shù)據(jù)集共86段視頻,5大類動作類別。本文在該數(shù)據(jù)集上與其他動作識別方法進行比較。STGCN、ASGCN、2SGCN、DGCN與本文方法的識別精度分別為71.3%、72.1%、71.9%、73.3%和78.6%,可見本文方法在實際場景中的動作識別能力相比其他方法取得了提升。
本文針對長時域動作識別率較低的難題,提出了基于相對骨骼點特征和時序自適應(yīng)感受野的動作識別方法,算法分析與實驗結(jié)果表明:
1)在NTU RGB+D數(shù)據(jù)集進行了消融實驗,相對骨骼點特征在跨主題評價指標(biāo)與跨視角評價指標(biāo)上均取得了最高的準(zhǔn)確率,在CS上取得了最高準(zhǔn)確率提升,證明相對骨骼點特征能有效提取關(guān)節(jié)點之間的空間關(guān)系。
2)在時序自適應(yīng)感受野模塊上,對比基準(zhǔn)方法均取得了最高的準(zhǔn)確率,特別是通過關(guān)鍵性階段持續(xù)時間較長的動作如玩手機,驗證了該模塊在時域特征提取上的有效性。
3)在基準(zhǔn)數(shù)據(jù)集NTU RGB+D和Kinetics-skeleton上,對比了STGCN、ASGCN及2S-AGCN等多種主流方法,均取得了最高的識別率,說明整體方法能夠較好地提取不同動作的區(qū)別性時間特征,提高了動作識別能力。
在實際場景數(shù)據(jù)中,對比多種主流方法,該方法也取得了最高的識別率??梢娫诓煌臄?shù)據(jù)集上,該方法能夠更好地提取不同動作的時空特征,具有較強的實用價值。