馬 利,鄭詩雨,牛 斌
遼寧大學(xué) 信息學(xué)院,沈陽110036
目前,動作識別應(yīng)用于視頻監(jiān)控、醫(yī)學(xué)影像、犯罪偵查等方面,近年來在計算機(jī)視覺領(lǐng)域引起廣泛關(guān)注。動作識別中所應(yīng)用的骨架數(shù)據(jù)能有效表示人體關(guān)節(jié)的動態(tài)3D 位置,對傳感器噪聲具有魯棒性,并且利于計算和存儲。骨架數(shù)據(jù)通常通過深度傳感器定位關(guān)節(jié)的2D 或3D 空間坐標(biāo)或使用基于視頻的姿勢估計算法來獲得?;诠羌軘?shù)據(jù)的動作識別方法由于其對動態(tài)環(huán)境和復(fù)雜背景的強(qiáng)適應(yīng)性而受到廣泛的關(guān)注與研究。將骨架數(shù)據(jù)應(yīng)用于動作識別主要有基于手工和基于深度學(xué)習(xí)這兩種方法,基于手工制作方法的性能幾乎都不令人滿意,因此大部分研究更傾向于使用基于深度學(xué)習(xí)的方法?;谏疃葘W(xué)習(xí)的方法會自動從數(shù)據(jù)中學(xué)習(xí)動作特征,避免手動設(shè)置的忽略,其中使用最廣泛的模型是基于遞歸神經(jīng)網(wǎng)絡(luò)(recursive neural network,RNN)和基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)。基于RNN 的方法通常將骨架數(shù)據(jù)建模為坐標(biāo)向量的序列,每個向量表示人體關(guān)節(jié)。并且一些RNN 的模型能捕獲連續(xù)幀之間的時間依賴性,例如bi-RNN、Deep LSTM、融合特征模型和基于注意力的模型。基于CNN 的方法是通過人工設(shè)計的變換規(guī)則將骨架數(shù)據(jù)建模為偽圖像,例如殘差時間CNN和信息增強(qiáng)模型。然而這種將骨架數(shù)據(jù)表示為向量序列或二維網(wǎng)格的方法不能完全表示骨架數(shù)據(jù)的結(jié)構(gòu),因為骨架數(shù)據(jù)是以圖形的形式,而不是矢量序列或二維網(wǎng)格。
近年來,Yan等人應(yīng)用圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN)來進(jìn)行骨架數(shù)據(jù)的動作識別,提出了一種時空圖卷積網(wǎng)絡(luò)ST-GCN,將骨架數(shù)據(jù)直接建模為圖形結(jié)構(gòu),獲得了比以前方法更好的性能。在此之后GCN 開始廣泛應(yīng)用于基于骨架的動作識別。Tang 等人提出的DPRL通過深度漸進(jìn)式強(qiáng)化學(xué)習(xí)幀蒸餾的方法來選擇一個動作連續(xù)幀中最具代表性的幀,然后通過圖卷積網(wǎng)絡(luò)抽取空間信息。Shi 等人提出的2S-AGCN在ST-GCN 的基礎(chǔ)上,提出了自學(xué)習(xí)的鄰接矩陣,并且通過注意力機(jī)制為每個樣本計算單獨的鄰接矩陣,應(yīng)用雙流網(wǎng)絡(luò)融合骨架的一階與二階信息。Shi 等人提出的DGNN在2S-AGCN的基礎(chǔ)上將骨架圖變?yōu)橛邢驁D。Thakkar等人提出的PBGCN在基于ST-GCN 的基礎(chǔ)上改變了原來的分區(qū)策略,將人體骨架分為4 個子圖,使得信息在子圖內(nèi)部與子圖之間傳遞。Li 等人提出的ASGCN設(shè)計了動作結(jié)構(gòu)推斷模塊,以一個編碼器與一個解碼器相結(jié)合推斷人體的非物理連接依賴性,并可以預(yù)測之后的動作。Li 等人提出的Sym-GNN在AS-GCN 的基礎(chǔ)上加入骨架二階信息,與骨架一階信息融合輸入網(wǎng)絡(luò)進(jìn)行動作預(yù)測。
文章采用基于圖的方法進(jìn)行骨架動作識別,應(yīng)用自適應(yīng)圖卷積從數(shù)據(jù)中自適應(yīng)地學(xué)習(xí)圖形拓?fù)浣Y(jié)構(gòu),加入注意力機(jī)制測定物理連接關(guān)節(jié)之間的連接性與連接強(qiáng)度,并且應(yīng)用區(qū)域關(guān)聯(lián)圖卷積捕獲非物理連接關(guān)節(jié)之間的潛在依賴信息,應(yīng)用雙流網(wǎng)絡(luò)加入骨架的二階信息進(jìn)一步提升性能。模型在NTURGBD 數(shù)據(jù)集上正確率有了提升,文章的主要貢獻(xiàn)有三方面:
(1)應(yīng)用了一種自適應(yīng)圖卷積網(wǎng)絡(luò),以端到端的方式自適應(yīng)地學(xué)習(xí)不同GCN 層和骨架樣本的圖的拓?fù)浣Y(jié)構(gòu),從而更好地適應(yīng)GCN 的動作識別任務(wù)。
(2)使用區(qū)域關(guān)聯(lián)圖卷積捕獲非物理連接關(guān)節(jié)間的潛在依賴關(guān)系。
(3)使用骨架數(shù)據(jù)的二階信息與一階信息相結(jié)合的雙流框架,帶來了性能的提升。
近年來,將卷積從圖像推廣到圖形的圖卷積網(wǎng)絡(luò)(GCN)在許多研究中得到了成功的應(yīng)用。Yan 等人首先應(yīng)用GCN 對骨架數(shù)據(jù)進(jìn)行建模,骨架在GCN中能夠自然地被構(gòu)造成一個圖,以關(guān)節(jié)為頂點,關(guān)節(jié)在人體中的自然連接為空間邊,在連續(xù)幀中相應(yīng)關(guān)節(jié)之間的連接為時間邊。Yan 等人也提出了一種基于距離的圖卷積層分區(qū)策略,構(gòu)建了時空圖卷積網(wǎng)絡(luò)ST-GCN。
將每一幀中的骨架數(shù)據(jù)看作一個向量序列,每個向量表示對應(yīng)人體關(guān)節(jié)的2D 或3D 坐標(biāo)。由于樣本不同,一個完整的動作包含多個不同長度的幀。使用一個時空圖來模擬這些關(guān)節(jié)之間的結(jié)構(gòu)信息,包括空間維度和時間維度。圖的結(jié)構(gòu)遵循ST-GCN所提出的原始結(jié)構(gòu)。如圖1 所示,圖1(a)表示一個構(gòu)造的時空骨架圖,其中圖的頂點為關(guān)節(jié),它們在人體中的自然連接表示為空間邊(圖中的綠線)。對于時間維度,兩個相鄰幀之間對應(yīng)節(jié)點的連接表示為時間邊(圖中的粉線)。將每個關(guān)節(jié)的坐標(biāo)向量設(shè)置為對應(yīng)頂點的屬性。
圖1 ST-GCN 時空骨架圖Fig.1 Time-space skeleton diagram of ST-GCN
根據(jù)上面定義的圖,ST-GCN提出在圖上應(yīng)用多層時空圖卷積運(yùn)算來提取高層特征,然后利用全局平均池層和softmax 分類器根據(jù)提取的特征進(jìn)行動作類別預(yù)測。是關(guān)節(jié)點,在圖中表示為圖的頂點。具體執(zhí)行時,網(wǎng)絡(luò)的特征映射實際上是一個××張量,其中表示頂點數(shù)(即關(guān)節(jié)數(shù)),表示時間長度(即幀數(shù)),表示通道數(shù)。ST-GCN 中在空間維度計算中(先不考慮時間維度),圖卷積運(yùn)算為:
然而,ST-GCN 中的圖卷積構(gòu)造過程存在4 個缺點:(1)ST-GCN 中使用的骨架圖只代表人體的物理結(jié)構(gòu),忽略了非物理連接關(guān)節(jié)之間的依賴關(guān)系。例如,兩只手之間的關(guān)系對于識別“拍手”和“閱讀”之類的動作是很重要的。然而由于雙手在骨架圖的定義中相距很遠(yuǎn),ST-GCN 很難捕捉到兩只手之間的依賴關(guān)系。(2)GCN 的結(jié)構(gòu)是分層的,不同的層包含多級語義信息。而在ST-GCN 中,所有層的圖的拓?fù)浣Y(jié)構(gòu)都是固定的。(3)不同類的動作樣本不應(yīng)該采用同一個固定的圖形結(jié)構(gòu)。例如,對于“洗臉”這樣的動作,手和頭之間的聯(lián)系較強(qiáng),但對于其他一些動作如“坐下”來說,之前判定的手和頭之間聯(lián)系加強(qiáng)就不正確,ST-GCN 不支持這種依賴數(shù)據(jù)的結(jié)構(gòu)。(4)連接到每個頂點的特征向量只包含關(guān)節(jié)的2D 或3D 坐標(biāo),這些坐標(biāo)可看作骨架數(shù)據(jù)的一階信息,表示兩個關(guān)節(jié)之間骨骼特征的二階信息如骨骼的長度和方向等沒有被利用,從而忽略了這些二階數(shù)據(jù)所提供的動作信息。
為了解決上述問題,文章提出了一種新的區(qū)域關(guān)聯(lián)自適應(yīng)圖卷積網(wǎng)絡(luò)。在圖的拓?fù)浣Y(jié)構(gòu)方面,應(yīng)用自適應(yīng)圖卷積參數(shù)化全局圖和單個數(shù)據(jù)圖形,在自適應(yīng)圖卷積中其結(jié)構(gòu)與模型的卷積參數(shù)一起訓(xùn)練和更新,這兩種類型的圖也在不同的層中分別進(jìn)行優(yōu)化。這種數(shù)據(jù)驅(qū)動的方法增加了模型對圖形構(gòu)造的靈活性與模型對于各種數(shù)據(jù)樣本的通用性。在非物理連接關(guān)節(jié)依賴關(guān)系方面,加入?yún)^(qū)域關(guān)聯(lián)圖卷積來捕獲關(guān)節(jié)之間潛在的依賴性。
在ST-GCN 提出的基于骨架數(shù)據(jù)的時空圖卷積中,圖的拓?fù)浣Y(jié)構(gòu)是固定的,不適用于所有的動作識別,因此文章應(yīng)用一種自適應(yīng)圖卷積(adaptive graph convolution,AGC),它使圖形的拓?fù)浣Y(jié)構(gòu)與網(wǎng)絡(luò)的其他參數(shù)一起以端到端的學(xué)習(xí)方式進(jìn)行優(yōu)化。自適應(yīng)定義了兩種圖:一種是全局圖,它表示所有數(shù)據(jù)的公共模式;另一種是單個數(shù)據(jù)圖形,它表示每個數(shù)據(jù)的唯一模式。由于圖對于不同的層和樣本是唯一的,這就增加了模型的靈活性。同時插入殘差分支,保證了模型的穩(wěn)定性。根據(jù)上述公式可知,圖的拓?fù)鋵嶋H上是由鄰接矩陣和掩碼決定的,即式(1)中的A和M,A確定兩個頂點之間是否連接,M確定連接的強(qiáng)度。因此自適應(yīng)圖卷積將式(1)改為:
式中,W和W分別是嵌入函數(shù)和的參數(shù)。在保留原來公式中A的基礎(chǔ)上加入D,將和的參數(shù)初始化為0。這樣就可以在保留原有的情況下加強(qiáng)模型的靈活性。自適應(yīng)圖卷積的結(jié)構(gòu)如圖2 所示,空間維度內(nèi)核大小設(shè)置與ST-GCN 相同,仍為3。W是式(2)中引入的加權(quán)函數(shù)。
圖2 AGCk 模塊結(jié)構(gòu)Fig.2 Module structure of AGCk
由于需要對離散分布取樣,并且希望它可導(dǎo)可訓(xùn)練,這里的softmax 為Gumbel-softmax,其中是隨機(jī)向量,服從Gumbel(0,1)分布,控制E的離散化。在本文中設(shè)置=0.5。通過此得到連接概率E的近似分類形式。
圖3 RAGC 模塊結(jié)構(gòu)Fig.3 Module structure of RAGC
其中,與之前的加權(quán)函數(shù)一樣,可訓(xùn)練權(quán)重,捕捉特征的重要性。
基于自適應(yīng)圖卷積和區(qū)域關(guān)聯(lián)圖卷積,文章提出了一種區(qū)域關(guān)聯(lián)自適應(yīng)圖卷積(regional association adaptive graph convolution,RA-AGC)來捕獲空間特征,從而進(jìn)一步提出區(qū)域關(guān)聯(lián)自適應(yīng)圖卷積網(wǎng)絡(luò)(regional association adaptive graph convolutional network,RA-AGCN)。該網(wǎng)絡(luò)堆疊了多個區(qū)域關(guān)聯(lián)自適應(yīng)圖卷積和時間卷積。此外,文章應(yīng)用了關(guān)節(jié)數(shù)據(jù)一階信息和骨骼數(shù)據(jù)二階信息融合的雙流框架,以進(jìn)一步提高性能。
為了保證網(wǎng)絡(luò)的自適應(yīng)圖拓?fù)浣Y(jié)構(gòu)和關(guān)節(jié)之間潛在依賴性,文章結(jié)合自適應(yīng)圖卷積和區(qū)域關(guān)聯(lián)圖卷積提出了區(qū)域關(guān)聯(lián)自適應(yīng)圖卷積(RA-AGC)。在式(2)和式(8)中可以分別從AGC 和RAGC 獲得空間維度上的聯(lián)合特征。將兩者的組合用作RA-AGC 的響應(yīng),數(shù)學(xué)上,RA-AGC 運(yùn)算公式為:
其中,是一個超參數(shù),用以得到兩者作用之后的最優(yōu)值。區(qū)域關(guān)聯(lián)自適應(yīng)圖卷積的具體結(jié)構(gòu)如圖4 所示,AGC的空間維度設(shè)置為3,在3個AGC外添加一個殘差連接,使得AGC可以插入到任何現(xiàn)有模型中(只有輸入通道數(shù)與輸出通道數(shù)不同時,才在殘差途徑中插入1×1卷積以轉(zhuǎn)化輸入來匹配通道尺寸中的輸出)。
圖4 RA-AGC 模塊結(jié)構(gòu)Fig.4 Module structure of RA-AGC
在時間維度上,方法與ST-GCN 相同。為了捕獲幀間動作特征,沿時間軸使用一層時間卷積(TCN),即在尺寸為××的特征映射上執(zhí)行×1 卷積。該層可獨立提取每個關(guān)節(jié)的時間特征,并在每個關(guān)節(jié)上共享權(quán)重。由于RA-AGC 和TCN 分別學(xué)習(xí)空間和時間特征,將這兩層連接為一個區(qū)域關(guān)聯(lián)自適應(yīng)圖卷積塊RA-AGC Block,以從各種動作中提取時間特征。如圖5 虛線框所示。空間GCN 和時間TCN后面都經(jīng)過一個批量歸一化(batch normalization,BN)層和一個線性整流函數(shù)(rectified linear unit,ReLU)層。一個基本塊是一個空間GCN、一個時間TCN 和一個附加的Dropout層的組合,下降率設(shè)置為0.5。為了穩(wěn)定訓(xùn)練,每個塊都增加了一個殘差連接。RAAGC 是僅提取空間信息,RA-AGCN 塊提取空間和時間信息。
區(qū)域關(guān)聯(lián)自適應(yīng)圖卷積網(wǎng)絡(luò)(RA-AGCN)是這些基本塊的堆棧,如圖5 所示。共包括9 個基本塊,每塊的輸入通道數(shù)分別為3、64、64、64、128、128、128、256、256,輸出通道數(shù)分別為64、64、64、128、128、128、256、256、256,步幅分別為1、1、1、2、1、1、2、1、1。在開始時添加一個數(shù)據(jù)BN 層來標(biāo)準(zhǔn)化輸入數(shù)據(jù),最后執(zhí)行全局平均池層,將不同樣本的特征映射池化為相同的大小,將最終輸出發(fā)送到softmax 分類器以獲得預(yù)測。
圖5 RA-AGCN 模塊結(jié)構(gòu)Fig.5 Module structure of RA-AGCN
除了非物理連接,二階信息(即骨骼信息),對基于骨架的動作識別同樣重要。在原有的骨架識別中,主要針對關(guān)節(jié)信息進(jìn)行提取與識別,關(guān)節(jié)信息能表示人體關(guān)節(jié)的位置與關(guān)節(jié)的運(yùn)動方向。在文章中,應(yīng)用一個顯式建模的二階信息,即骨骼信息,與關(guān)節(jié)信息雙流來加強(qiáng)識別。骨骼信息能在關(guān)節(jié)位置的基礎(chǔ)上表示人體骨骼的物理連接、骨骼的長度與連接的方向,并且進(jìn)行更深度的計算。在區(qū)域關(guān)聯(lián)自適應(yīng)圖卷積模塊中,由于骨骼將關(guān)節(jié)按照人體骨架方式相連,在識別例如“拍手”“打網(wǎng)球”等可能會出現(xiàn)關(guān)節(jié)點交叉等動作時,可根據(jù)骨骼的長度與連接方向?qū)徊纥c進(jìn)行定位分類與識別。由于每個骨骼都有兩個關(guān)節(jié),定義接近骨架重心的關(guān)節(jié)是源關(guān)節(jié),遠(yuǎn)離重心的關(guān)節(jié)是目標(biāo)關(guān)節(jié)。每個骨骼表示為從其源關(guān)節(jié)指向其目標(biāo)關(guān)節(jié)的向量,它不僅包含長度信息,而且包含方向信息。例如,假設(shè)一個骨骼的源關(guān)節(jié)位置信息為=(,,),其目標(biāo)關(guān)節(jié)位置信息為=(,,),則骨骼的矢量計算為e=(-,-,-)。關(guān)節(jié)的數(shù)量比骨骼的數(shù)量多一個。為了簡化網(wǎng)絡(luò)的設(shè)計,在中心關(guān)節(jié)上添加了一個值為0 的空骨。這樣,骨骼網(wǎng)絡(luò)可以設(shè)計成與關(guān)節(jié)相同的結(jié)構(gòu)。整個網(wǎng)絡(luò)的構(gòu)架如圖6 所示。給定一個樣本,首先根據(jù)關(guān)節(jié)的數(shù)據(jù)計算骨骼的數(shù)據(jù)。然后,將關(guān)節(jié)數(shù)據(jù)和骨骼數(shù)據(jù)分別輸入RA-AGCN,最后將兩個網(wǎng)絡(luò)輸出的softmax分?jǐn)?shù)融合,得到融合分?jǐn)?shù),預(yù)測動作標(biāo)簽。
圖6 雙流網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Two-stream network structure
NTU-RGBD:NTU-RGBD是目前應(yīng)用最廣泛的動作識別數(shù)據(jù)集,也是基于骨架動作識別的最大數(shù)據(jù)集之一,它包含60 個動作類中的56 880 個骨架動作序列。這些動作由40 名不同年齡組的志愿者進(jìn)行采集而成。每個動作由3 個攝像機(jī)在相同高度但水平角度分別為-45°、0°、45°拍攝而得。Kinect 深度傳感器檢測到每個志愿者在一個動作中25 個關(guān)節(jié)的3D 空間坐標(biāo),每個骨架序列視頻不出現(xiàn)超過2 個志愿者。數(shù)據(jù)集的原始論文建議之后的研究使用兩個評估模型的基準(zhǔn):(1)交叉主題Sub:該基準(zhǔn)分為訓(xùn)練集(包含40 320 個視頻)和驗證集(包含16 560個視頻),其中訓(xùn)練集與驗證集中的參與者是不同的。(2)交叉視圖View:該基準(zhǔn)根據(jù)攝像機(jī)視圖分配數(shù)據(jù),其中訓(xùn)練集包含37 920 個由第二個攝像機(jī)和第三個攝像機(jī)捕獲的視頻,驗證集包含18 960 個由第一個攝像機(jī)捕獲的視頻。文章根據(jù)這兩個基準(zhǔn),記錄兩個基準(zhǔn)下的top-1 和top-5 識別率。
NTU-RGBD 數(shù)據(jù)集中關(guān)節(jié)及其自然連接的定義如圖7 所示。
圖7 NTU-RGBD 關(guān)節(jié)自然連接定義Fig.7 NTU-RGBD joint natural connection definition
實驗環(huán)境:單片NVIDIA GTX-1660Ti 顯卡的主機(jī),Ubuntu 系統(tǒng)環(huán)境,所有實驗都是在PyTorch 0.4.1深度學(xué)習(xí)框架上進(jìn)行。
模型配置:模型用9 個RA-AGCN 塊構(gòu)造RAAGCN 的主干,每3 個塊的特征尺寸分別為64、128、256。自適應(yīng)圖卷積的輸出結(jié)構(gòu)與區(qū)域關(guān)聯(lián)圖卷積相同,使用殘差連接。骨骼和關(guān)節(jié)數(shù)據(jù)各訓(xùn)練50 個周期,采用隨機(jī)梯度下降(stochastic gradient descent,SGD)算法作為優(yōu)化策略,Nesterov 動量設(shè)置為0.9,學(xué)習(xí)率設(shè)置為0.1,設(shè)置初始的區(qū)域關(guān)聯(lián)自適應(yīng)圖卷積中=0.5。批處理大?。╞atch size)為4。選擇交叉熵作為反向傳播梯度的損失函數(shù),重量衰減設(shè)置為0.000 1。對于NTU-RGBD 數(shù)據(jù)集,數(shù)據(jù)集的每個樣本中最多有兩個人。如果樣品中的個體數(shù)小于2,用0表示第二個個體。每個樣本中的最大幀數(shù)為300,對于小于300 幀的樣本,重復(fù)樣本,直到達(dá)到300 幀。
對于區(qū)域關(guān)聯(lián)自適應(yīng)圖卷積,在訓(xùn)練過程中,將骨骼與關(guān)節(jié)數(shù)據(jù)作為輸入,各訓(xùn)練50個周期。在識別過程中,采用Sub基準(zhǔn)的測試集進(jìn)行測試,在骨骼與關(guān)節(jié)兩類測試數(shù)據(jù)集分別進(jìn)行測試完成后,通過ensemble將測試結(jié)果加權(quán)融合,得到最終雙流識別率。
如2.1 節(jié)所介紹的,自適應(yīng)圖卷積塊中有兩種類型的圖,即A和D。通過消去實驗手動刪除其中一個圖,并在表1 和圖8 中顯示它們的性能。表中-A表示自適應(yīng)圖卷積中刪除A(即只保留數(shù)據(jù)相關(guān)圖);-D表示自適應(yīng)圖卷積中刪除D(即只保留原有人體骨架圖)。其中準(zhǔn)確率為將關(guān)節(jié)作為輸入數(shù)據(jù),單流使用推薦的Sub 基準(zhǔn)來訓(xùn)練得到的Top-1 和Top-5 的識別率。表1 和圖8 的數(shù)據(jù)表明,刪除A只保留數(shù)據(jù)相關(guān)圖的情況下,D可以判斷兩節(jié)點是否連接與連接的強(qiáng)度,識別率高于刪除D只保留原有人體骨架圖A的情況,并且RA-AGCN(joint)- D前期識別率Top-5 只維持在8%左右。但在單流訓(xùn)練中,RA-AGCN(joint)- A訓(xùn)練50 epoch 的時間約為110 h,比RA-AGCN(joint)-D訓(xùn)練50 epoch多約20 h。將兩種類型圖相結(jié)合的自適應(yīng)圖卷積訓(xùn)練50 epoch的時間約為120 h,且性能優(yōu)于刪除任何一個圖的情況,這也證明了自適應(yīng)圖結(jié)構(gòu)的重要性。
圖8 自適應(yīng)圖卷積有效性對比研究Fig.8 Comparative study on effectiveness of adaptive graph convolution
表1 自適應(yīng)圖卷積中Ak 與Dk 的有效性研究Table 1 Research on effectiveness of Ak and Dk in adaptive graph convolution %
各種動作可能會激活關(guān)節(jié)之間的不同動作依賴性。圖9顯示了兩個動作的區(qū)域關(guān)聯(lián)強(qiáng)度。假設(shè)區(qū)域關(guān)聯(lián)強(qiáng)度概率大于0.9 的兩個節(jié)點之間(可以是非物理連接關(guān)節(jié))的虛擬連接顯示為紅色線,其中連接概率越大,線越粗。圖(a)為人打網(wǎng)球時的動作,其中動作的區(qū)域關(guān)聯(lián)性主要集中在握拍那一側(cè)的手臂與胯骨部分,因此在那一側(cè)的手臂與胯骨部分建立了許多虛擬的紅線。圖(b)為人跑步時的動作,其中動作的區(qū)域關(guān)聯(lián)性主要集中在下肢與手臂部分,因此在人體的下肢與手臂部分建立了許多虛擬的紅線。這些紅線都是虛擬假設(shè)的,在真正的實驗可視化圖中,每個動作的區(qū)域關(guān)聯(lián)性由粉色的圓圈表示在關(guān)節(jié)上,該關(guān)節(jié)在動作中與其他關(guān)節(jié)區(qū)域關(guān)聯(lián)的總和越大,則圓圈越大,如圖10所示。這些結(jié)果證明,區(qū)域關(guān)聯(lián)圖卷積可以捕獲更多的動作之間的非物理節(jié)點的區(qū)域關(guān)聯(lián)性。
圖9 不同動作虛擬表示區(qū)域關(guān)聯(lián)強(qiáng)度Fig.9 Virtual representation of regional correlation strength of different actions
圖10 區(qū)域關(guān)聯(lián)強(qiáng)度可視化表示Fig.10 Visual representation of regional correlation strength
對于區(qū)域關(guān)聯(lián)圖卷積的有效性驗證,采用消去實驗,將骨骼作為輸入數(shù)據(jù),單流使用推薦的Sub 基準(zhǔn)來訓(xùn)練得到的Top-1 和Top-5 的識別率,如表2 和圖11 所示。AGCN(bone)表示在原有區(qū)域關(guān)聯(lián)自適應(yīng)圖卷積的基礎(chǔ)上刪去區(qū)域關(guān)聯(lián)圖卷積模塊,訓(xùn)練50 epoch 的時間約為105 h,RA-AGCN(bone)訓(xùn)練50 epoch 的時間約為120 h。表中數(shù)據(jù)表明,刪去區(qū)域關(guān)聯(lián)圖卷積塊會導(dǎo)致識別率Top-1 大幅降低。
圖11 區(qū)域關(guān)聯(lián)圖卷積有效性對比研究Fig.11 Comparative study on effectiveness of regional association graph convolution
表2 區(qū)域關(guān)聯(lián)圖卷積重要性研究Table 2 Research on importance of regional association graph convolution %
利用骨架的二階信息構(gòu)成雙流網(wǎng)絡(luò)。二階骨骼數(shù)據(jù)與一階關(guān)節(jié)數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)與輸入的網(wǎng)絡(luò)都相同,各自都跑50 個周期。文章比較了單獨使用關(guān)節(jié)和骨骼作為輸入數(shù)據(jù)的性能以及組合它們之后的性能,如表3 和圖12 所示。joint表示將關(guān)節(jié)數(shù)據(jù)作為輸入,bone 表示將骨骼數(shù)據(jù)作為輸入。兩者訓(xùn)練50 epoch 的時間都約為120 h。結(jié)果表明,雖然將骨骼數(shù)據(jù)作為輸入的識別率略低于將關(guān)節(jié)數(shù)據(jù)作為輸入的識別率,但將兩者相結(jié)合可以進(jìn)行一定的信息補(bǔ)充,使得雙流方法優(yōu)于基于單流的方法。
表3 雙流網(wǎng)絡(luò)重要性研究Table 3 Research on importance of two-stream network %
圖12 雙流網(wǎng)絡(luò)有效性對比研究Fig.12 Comparative study on effectiveness of two-stream network
在識別準(zhǔn)確度方面,將基于RA-AGCN 的骨架動作識別與NTU-RGBD 數(shù)據(jù)集上的近年來的方法進(jìn)行了比較,比較結(jié)果如表4 所示。在NTU-RGBD 上,使用推薦的Sub 基準(zhǔn)來訓(xùn)練RA-AGCN,然后在測試階段獲得Top-1 的準(zhǔn)確性。
表4 RA-AGCN 與近年來方法的比較Table 4 Comparison of RA-AGCN with recent methods %
近年來提出的幾種方法中,ST-GCN 相比于原有的基于LSTM 的人體動作識別方法,識別率大幅提升,但忽略了非物理連接關(guān)節(jié)之間的潛在依賴性,并且拓?fù)浣Y(jié)構(gòu)固定。DPRL 強(qiáng)化學(xué)習(xí)幀蒸餾,提出類鄰接矩陣策略強(qiáng)化非物理連接節(jié)點之間的信息交流,但需要人工定義非骨骼連接。AS-GCN 利用一組編碼器與解碼器來判斷人體骨架間的連接特征和結(jié)構(gòu)特征,但圖的拓?fù)浣Y(jié)構(gòu)固定。2S-AGCN 引入自學(xué)習(xí)鄰接矩陣訓(xùn)練模型的結(jié)構(gòu),但同樣也忽略了非物理連接關(guān)節(jié)的依賴性。本文提出的RA-AGCN 通過自適應(yīng)圖卷積自動訓(xùn)練模型的結(jié)構(gòu),通過區(qū)域關(guān)聯(lián)圖卷積捕獲非物理連接關(guān)節(jié)之間的潛在依賴性,與近年來提出的方法進(jìn)行比較,該模型在NTU-RGBD 上準(zhǔn)確率有了提高。
在實驗運(yùn)算成本與實時性方面,由于實驗環(huán)境有限,對于區(qū)域關(guān)聯(lián)自適應(yīng)圖卷積,將骨骼與關(guān)節(jié)數(shù)據(jù)作為輸入各訓(xùn)練50周期的單流訓(xùn)練時間約為120 h,雙流訓(xùn)練時間為240 h。在識別過程中,本文分別對RA-AGCN、2S-AGCN方法采用基于Sub 基準(zhǔn)的測試集和拍攝短視頻上傳給action-recognition 這兩種識別方式進(jìn)行了測試。在相同實驗環(huán)境下,兩種方法識別時間基本相同,但RA-AGCN 的識別率優(yōu)于2S-AGCN。
對于大部分骨架動作識別研究中圖的拓?fù)浣Y(jié)構(gòu)固定、遺漏非物理連接關(guān)節(jié)的潛在依賴關(guān)系等問題,提出了基于區(qū)域關(guān)聯(lián)自適應(yīng)圖卷積的骨架動作識別網(wǎng)絡(luò)(RA-AGCN)。它參數(shù)化了全局圖和單個數(shù)據(jù)圖形,在自適應(yīng)圖卷積中其結(jié)構(gòu)與模型的卷積參數(shù)一起訓(xùn)練和更新,這兩種類型的圖也在不同的層中分別進(jìn)行優(yōu)化。這種數(shù)據(jù)驅(qū)動的方法增加了模型對圖形構(gòu)造的靈活性,并更方便應(yīng)用于各種數(shù)據(jù)樣本。在非物理連接關(guān)節(jié)依賴關(guān)系方面,加入?yún)^(qū)域關(guān)聯(lián)圖卷積來捕獲關(guān)節(jié)之間潛在的依賴性。融合這兩種圖卷積提出了一種區(qū)域關(guān)聯(lián)自適應(yīng)圖卷積以捕獲空間特征。并且應(yīng)用雙流網(wǎng)絡(luò)加入骨架的二階信息進(jìn)一步提升性能。模型在NTU-RGBD 數(shù)據(jù)集上進(jìn)行了驗證,得到了較高的準(zhǔn)確率。但本文所提出的網(wǎng)絡(luò)側(cè)重于空間維度上信息的交流,未來將對該網(wǎng)絡(luò)的時空信息交流方式做進(jìn)一步的研究。