王華鋒 張 鵬
(北方工業(yè)大學信息學院,北京100144)
人體的骨架圖是對人體輪廓的抽象,是一種包含了人體主要關節(jié)點信息和骨架連接結構信息的圖形。與傳統(tǒng)的卷積神經網絡不同的是,本此研究提出的網絡輸入中包含了人體的骨架信息。其特征用如下公式來表示:
其中V 為骨架圖中所有關節(jié)點的集合,包含了兩個子集,第一個子集描述每個幀的骨架內連接,第二個子集包含幀間邊緣信息,代表了關節(jié)隨著時間的運動軌跡。在此網絡的傳播規(guī)則如下:
Wi表示第i 層的權重矩陣,σ 表示ReLU 激活函數(shù),I 為輸入鄰接矩陣,它是某一關節(jié)點和其他關節(jié)點連接特征的數(shù)學表示。首先在鄰接矩陣左側乘以特征矩陣,完成了特征的融合操作,然后再在右側乘以權重矩陣,實現(xiàn)了傳統(tǒng)卷積神經網絡加權操作。具體到x 層卷積其輸出為:
其中,p 為采樣函數(shù),表示對輸入信息的特征提取,列舉了位置x 的近鄰區(qū)域,K 為卷積核的維度,加權函數(shù)w提供了一個權重向量,來計算其與經過采樣的輸入向量的內積。在網絡中將骨骼節(jié)點的近鄰劃分為固定的K 個子集,W 通過索引一個K維的張量來實現(xiàn)。則上述公式被重新定義如下:
本次研究在上述提到的骨架網絡結構里創(chuàng)新性地引入了注意力模塊,模塊中包括了兩種注意力機制:時間注意力機制和空間注意力機制。在空間維度上不同關節(jié)點之間存在連通,具有很強的動態(tài)性,可以用注意力機制去自適應調節(jié)空間維度上節(jié)點之間的動態(tài)相關性:
其中為前一層的輸入,V 是骨架關節(jié)點的集合,W 為需要進行學習的參數(shù)。在S 中代表了索引i 的點和索引j 的點的相關性。在進行卷積操作時將使用鄰接矩陣A 與空間注意力矩陣S 一起對兩點之間的動態(tài)權重值進行更新。
圖1 時空注意力機制示意圖
時空注意力模塊能夠使網絡對不同時刻的信息賦予不同的權重。在時間維度上,不同的幀之間的行為特征也存在著相關性,這些相關性在不同點之間也是時刻發(fā)生著變化,因此,網絡使用一個時間注意力機制去調整數(shù)據(jù)在各個時間的權重:
本研究中構建了自己的行為識別骨架數(shù)據(jù)集。數(shù)據(jù)集中主要有五類日常的動作:跌倒,坐下,站立,喝水,太極,其中每個動作有30-40 個視頻剪輯,共計170 個。其中一部分視頻片段在實驗室拍攝完成,一部分從網絡的視頻中提取。首先通過ffmpeg將視頻的幀率轉到30FPS,并將視頻的分辨率進行統(tǒng)一調整為340*256,然后開始對視頻中的人體骨架信息進行提取,每個信息元組中包含三組數(shù)據(jù)包括人體關節(jié)點的2D 坐標和置信度,最終將其保存為json 文件。
本文從傳統(tǒng)的卷積神經網絡模型出發(fā),引入了骨架網絡模型,并對日常中常見的動作進行了分類和識別。實驗完成了行為動作的分類任務,但當檢測目標在快速運動下的采樣會出現(xiàn)模糊,導致骨架信息丟失。
圖2 行為檢測結果圖(1)
圖3 行為檢測結果圖(2)
如圖所示,骨架關節(jié)點的亮度半徑代表了其權重的大小,不同關節(jié)點在不同動作中的權重有高有低,其中的空間注意力模塊決定了不同關節(jié)點在行為構成中占的權重,時間注意力決定了不同幀在行為識別中占的比重。
具體而言在跌倒中的肩部關節(jié)點的權重較高,關節(jié)點亮度范圍較大;喝水的動作中手部和胳膊的關節(jié)點權重更高,而下肢的權重則相對較低。
在行為識別任務上與四種不同的算法進行了對比,Two Stream Networks[1]以堆疊的光流矢量的形式對運動特征進行了建模,然后通過兩個單獨的網絡進行訓練。C3D[2]利用3x3x3 的三維卷積網絡在大規(guī)模有監(jiān)督的數(shù)據(jù)集上進行訓練。LRCN 網絡[3]輸入圖片后先使用傳統(tǒng)CNN 來提取輸入圖片的特征,然后送入后續(xù)的LSTM網絡進行處理。TSN 網絡[4]對整個視頻進行稀疏采樣,而不是采用單幀分析的方法,然后網絡對各個片段進行動作類別的初步預測。可以看出,本文提出的模型在識別率上更有優(yōu)勢。
本文從傳統(tǒng)的卷積神經網絡模型出發(fā),引入了骨架網絡模型,并對日常中常見的動作進行了分類和識別。主要的研究成果主要體現(xiàn)在如下方面:
表1 實驗結果
(1)本文提出了一種基于骨架信息的神經網絡模型,并且在其中引入了注意力模塊,對時間和空間的特征進行了研究。
(2)構建了行為識別的數(shù)據(jù)集。對生活中常見的行為如跌倒,坐下,站起等進行了拍攝剪輯,最后利用相關算法對骨架信息進行了采集,得到了經過預處理的行為識別數(shù)據(jù)集。