羅毛欣 王天賦 白曉晨 周 達
(西安工程大學(xué),陜西 西安710006)
分析人類行為一直是機器視覺中最具挑戰(zhàn)性的問題之一[1]。行為識別技術(shù)的需求發(fā)展迅速,并已經(jīng)擴展到許多領(lǐng)域,比如智慧城市和視頻理解[2]。盡管行為識別在過去被廣大學(xué)者進行了廣泛地研究,但動作識別仍然面臨著許多的挑戰(zhàn),例如光線變化和背景遮擋。在深度學(xué)習(xí)技術(shù)[3]興起之前,傳統(tǒng)的手工操作的動作識別仍然占有很重的地位。同時,改進的密集軌跡(iDT)[4]通過整合沿著密集軌跡的豐富描述符和補償相機運動的運動特征,實現(xiàn)了優(yōu)越的性能。然而,與傳統(tǒng)方法相比,其優(yōu)勢并不明顯。最近,基于深度學(xué)習(xí)可以根據(jù)輸入數(shù)據(jù)的類型分為基于RGB 和基于骨架的行為識別方法[5],與基于RGB 的動作識別相比,基于骨骼的動作識別可以避免從視頻中提取特征的繁瑣任務(wù)。對于基于骨架的方法,可以簡單分為三個大類:二維和三維行為識別及LSTM方式。因此,本文在LSTM架構(gòu)下構(gòu)建了深度多分支LSTM 網(wǎng)絡(luò)來進行行為識別并且在所用數(shù)據(jù)集上已經(jīng)取得了良好的行為效果。
在本文工作中,為了更有效的學(xué)習(xí)骨架坐標(biāo)數(shù)據(jù)的特征,通過LSTM 有效的連接和交叉疊加,提取骨架坐標(biāo)共現(xiàn)特征信息來行為識別。
為了更詳細(xì)地描述骨架關(guān)節(jié)信息以及方便所設(shè)計網(wǎng)絡(luò)框架更好的工作,我們需要對圖像數(shù)據(jù)集先進行進一步地處理。首先利用姿態(tài)估計框架openpose 和人體檢測模型YOLOV3分別檢測人體骨架。同時,YOLOv3 模型還可以對骨架圖像數(shù)據(jù)集標(biāo)記一個動作類別。然后,以身體重心為坐標(biāo)參考點(0,0),可以將關(guān)節(jié)的相對位置轉(zhuǎn)換為18 個關(guān)節(jié)點位置的xy 坐標(biāo)。轉(zhuǎn)換后的數(shù)據(jù)集由骨架坐標(biāo)(x, y)和與之相應(yīng)的動作標(biāo)簽(0,1,2,…)數(shù)字組成。
在本文中,我們使用了RGB 數(shù)據(jù)集和UTKinect 數(shù)據(jù)集。RGB 數(shù)據(jù)集包含很多對象的不同動作樣本。UTKinect 數(shù)據(jù)集有10 種動作類型: 坐下、走路、站起來、撿起、扔出去、推、拉、揮手、抬起來以及拍手的動作。并且有10 個實驗對象,每個實驗對象操作每個動作共計兩次。在實驗期間,我們選擇其中70%的數(shù)據(jù)集作為實驗的訓(xùn)練集,并選擇其中30%作為實驗驗證集。與此同時,在這些驗證集中的80%又屬于是測試集。
以骨架的為特征選擇行為識別,每個關(guān)節(jié)與其它關(guān)節(jié)之間并非相互獨立的,恰好相反,關(guān)節(jié)與關(guān)節(jié)以及關(guān)節(jié)與動作之間是存在密切聯(lián)系的關(guān)系的,這種聯(lián)系對于行為識別提高識別率特別重要。因此,考慮關(guān)節(jié)與關(guān)節(jié)相互聯(lián)系并且以此為契機設(shè)計一個網(wǎng)絡(luò)能充分挖掘隱藏信息是網(wǎng)絡(luò)設(shè)計的關(guān)鍵。同時也出于對以下要點的考慮:LSTM 無法直接學(xué)習(xí)關(guān)節(jié)坐標(biāo)特征的高級信息,同時所用的數(shù)據(jù)集并未攜帶上下文語義信息。這對直接用LSTM進行識別是不太準(zhǔn)確的。因此,綜合上述因素同時為了減輕模型過擬合的問題,同時使LSTM更有效地學(xué)習(xí)坐標(biāo)數(shù)據(jù)的共現(xiàn)特征,我們設(shè)計了一個基于LSTM 深度多分支LSTM網(wǎng)絡(luò)用于學(xué)習(xí)有效的特征并且對時域的動態(tài)過程建模,實現(xiàn)端到端的行為識別以及檢測。
圖1 基于LSTM 的深度多分支LSTM 行為識別框架圖
如圖1 所示,經(jīng)過上述過程處理的人體骨架的十八個關(guān)節(jié)點坐標(biāo)可作為整個網(wǎng)絡(luò)的輸入,多次經(jīng)過深度多分支LSTM以及全連接層的多次輪換迭代,最后用softmax 分類器來進行行為分類。具體而言,圖中所示的網(wǎng)絡(luò)體系結(jié)構(gòu)具有N 層的四分支LSTM結(jié)構(gòu),可以用于學(xué)習(xí)具有骨架關(guān)節(jié)的坐標(biāo)信息,并與N-1個全連接層交錯,正是結(jié)構(gòu)多次交錯出現(xiàn),使得很多關(guān)節(jié)隱藏特征被學(xué)習(xí)以及進一步挖掘關(guān)節(jié)之間的各種聯(lián)系??梢悦黠@看見整個網(wǎng)絡(luò)后端通過LSTM 層和全連層(FC Layer)組成的深度LSTM 網(wǎng)絡(luò)(Deep LSTM Network),最后,將輸出的結(jié)果發(fā)送到Classification Network(softmax 分類器)以進行操作判定每幀的動作類別。同時整個網(wǎng)絡(luò)著重于人體行為動作的特點,于是我們在LSTM網(wǎng)絡(luò)設(shè)計中有意將人體行為動作中關(guān)節(jié)點具有的共現(xiàn)性特性引入進來,與此同時將其作為網(wǎng)絡(luò)參數(shù)學(xué)習(xí)的約束來優(yōu)化整個網(wǎng)絡(luò)的識別性能。這是因為人的某個行為動作常常和骨架的一些特定關(guān)節(jié)點構(gòu)成的集合,以及對應(yīng)集合中節(jié)點是交互相關(guān)并且對識別效果影響起著關(guān)鍵作用的。(例如要判別一個人是否在打電話,關(guān)節(jié)點“手肘”、“手腕”、“肩膀”和“頭”的關(guān)聯(lián)動作是最為關(guān)鍵。)而對于不同的行為動作與之密切相關(guān)的節(jié)點集合又有所不同。(例如一個人“走路”的動作判別關(guān)鍵在于“膝蓋”、“腳腕”以及“臀部”等關(guān)節(jié)點構(gòu)成具有判別力的節(jié)點集合是否能準(zhǔn)備識別出來。所以我們可以將這種幾個關(guān)節(jié)點同時影響和決定判別的特性稱為共現(xiàn)性(Co-occurrence))。因此在網(wǎng)絡(luò)整個訓(xùn)練階段,在目標(biāo)函數(shù)中我們引入了對神經(jīng)元與關(guān)節(jié)點相連的權(quán)重的約束,從而使得同一組的神經(jīng)元對某些關(guān)節(jié)點或者說是關(guān)鍵關(guān)節(jié)點組成的子集有更大的權(quán)重連接,而對其它節(jié)點(非關(guān)鍵的關(guān)鍵點)有較小的權(quán)重連接,上述操作來進一步去挖掘關(guān)節(jié)點的共現(xiàn)性。
網(wǎng)絡(luò)整體優(yōu)勢在于:一方面,本身LSTM充分利用了骨骼關(guān)節(jié)坐標(biāo)之間的長期依賴關(guān)系,并且通過全連接層學(xué)習(xí)了關(guān)節(jié)坐標(biāo)之間的全局共現(xiàn)特征。另一方面,在此基礎(chǔ)上,初始層使用多分支LSTM,使得同一數(shù)據(jù)的多個輸入成為一種優(yōu)勢,這種優(yōu)勢可以在數(shù)據(jù)增強中發(fā)揮作用,以此來減輕模型訓(xùn)練期間過擬合,此外,在最后一層中又加了LSTM用于更好地學(xué)習(xí)骨架關(guān)節(jié)的坐標(biāo)信息。正是因為上述各種LSTM層和全連接層這種交錯結(jié)構(gòu),使得模型達到了良好的識別效果。為了進一步驗證所設(shè)計網(wǎng)絡(luò)的行為識別效果,我們將在兩個數(shù)據(jù)集上進行實驗并進行相應(yīng)的對比。本文主要研究了深度多分支LSTM網(wǎng)絡(luò)與其層數(shù)之間的關(guān)系,網(wǎng)絡(luò)層數(shù)的變化是否會引起模型泛化能力和網(wǎng)絡(luò)學(xué)習(xí)能力和相對應(yīng)的變化,我們做了如下的參數(shù):所有全連接層神經(jīng)元個數(shù)為100;最初的四分支網(wǎng)絡(luò)的每一個分支的神經(jīng)元個數(shù)設(shè)置為64,在交叉疊加的第二層LSTM 起,我們設(shè)置每一個LSTM層神經(jīng)元個數(shù)為128。以此同時,優(yōu)化算法采取Adam 算法;損失函數(shù)我們采用交叉熵?fù)p失,最后網(wǎng)絡(luò)訓(xùn)練批次設(shè)置為300 以及批大小設(shè)置為128。
表1 不同LSTM 層數(shù)的深度多分支LSTM 網(wǎng)絡(luò)性能對比
從上述表格可以明顯看出,二層的LSTM網(wǎng)絡(luò)在兩個數(shù)據(jù)集上的訓(xùn)練準(zhǔn)確率以及測試準(zhǔn)確率效果都不是太好。而且隨著層數(shù)從2 到6 依次增加的過程中,訓(xùn)練和測試識別率整個呈現(xiàn)出一個上升的趨勢,但也并非都是增加,如RGB 數(shù)據(jù)集上訓(xùn)練準(zhǔn)確率在五層就到達峰值,六層反而下降,這也說明了識別率和數(shù)據(jù)集本身特點有關(guān),而且網(wǎng)絡(luò)層數(shù)不是越深越好,整個走勢應(yīng)該是一個拋物線,當(dāng)達到一定層數(shù),增加不僅會降低識別率還會帶來復(fù)雜度大大增大,進一步導(dǎo)致網(wǎng)絡(luò)訓(xùn)練時間增加以及其它各種問題??傊?在UTKinect 數(shù)據(jù)集上的6 層的LSTM的訓(xùn)練和測試準(zhǔn)確性分別達到94.11%和92.69%,而RGB 數(shù)據(jù)集上的6 層LSTM 的訓(xùn)練和測試準(zhǔn)確性分別達到92.45%和89.5%,這應(yīng)該是相對于其他層識別率最佳的一種層數(shù)吧。其中原因可能如下:
深度多分支LSTM網(wǎng)絡(luò)結(jié)構(gòu)使用LSTM與全連接的層結(jié)合的方式來學(xué)習(xí)全局共現(xiàn)特征,這可以使深度LSTM可以更好地對學(xué)習(xí)關(guān)節(jié)坐標(biāo)之間的長期依賴關(guān)系。此外,相同數(shù)據(jù)的多個輸入可起到增強數(shù)據(jù)的作用。而且由于LSTM網(wǎng)絡(luò)對時間序列處理的強大能力,加上聯(lián)合共現(xiàn)特征判別分類設(shè)計,實現(xiàn)了快速準(zhǔn)確的行為動作檢測。最后我們通過對每組神經(jīng)元和關(guān)節(jié)點的連接加入相應(yīng)約束來達到上述共現(xiàn)性的充分挖掘和利用。但是,因為所用的訓(xùn)練數(shù)據(jù)集中的數(shù)據(jù)量特別少,尤其相對于目前常用的大型數(shù)據(jù)集(計算速度相對快一些)相比,因此難以完全優(yōu)化深度多分支LSTM網(wǎng)絡(luò),并且該網(wǎng)絡(luò)容易過度擬合??傊?多分支策略適當(dāng)提高了行為識別的識別率。
本文研究了基于骨架關(guān)節(jié)二維坐標(biāo)的行為識別方法,并且我們以骨架數(shù)據(jù)為特征選擇的基礎(chǔ)上提出了深度多分支LSTM網(wǎng)絡(luò)結(jié)構(gòu),通過結(jié)構(gòu)交錯重疊發(fā)揮挖掘關(guān)節(jié)隱藏信息的優(yōu)勢,并且引入關(guān)節(jié)點共現(xiàn)性約束。并且在在實驗中比較了不同層數(shù)的網(wǎng)絡(luò)體系結(jié)構(gòu)。實驗結(jié)果表明,所提出的模型可以提高兩個數(shù)據(jù)集的識別性能,并獲得好的結(jié)果,同時怎樣挖掘關(guān)節(jié)點之間的隱藏信息以及相互聯(lián)系會是未來行為識別的大勢所趨。