張蔚瀾,齊 華,李 勝
1.西安工業(yè)大學 電子信息工程學院,西安 710021
2.南昌工程學院 信息工程學院,南昌 330200
監(jiān)控攝像頭在公共安防中發(fā)揮著巨大的作用。目前在許多公共場所的安防監(jiān)控系統中,大多僅由一位或少數幾位監(jiān)控人員依靠“多畫面分割器”來發(fā)現可疑目標。這種方式會給監(jiān)控人員帶來一定的視覺疲勞,導致監(jiān)控效率低下,很大程度上失去了實時監(jiān)控的意義。因此,通過對監(jiān)控視頻進行算法分析,輔助監(jiān)控人員的安防工作,為保證社會公共安全提供強力而有效的手段。目前,深度學習使用特征學習和分層特征提取的高效算法自動提取來代替人工獲得特征,以其強大的學習能力、高適應性、可移植性等優(yōu)點成為研究的熱門[1]。
近年來,行為識別是視頻理解任務中一個重要的研究方向。行人的動作可以通過多種信息識別出來,如人體骨架[2]、時空信息[3-4]、光流信息[5-6]以及時間特征[7]等。文獻[8]將視頻分為描述靜態(tài)信息的空間部分和描述運動信息的時間部分,分別訓練模型再進行融合,獲得較好的性能,但該方法不適用于長時間跨度結構的建模,且視頻中提取光流需要大量的計算,很難達到實時性的要求。文獻[9]和[10]采用三維卷積核提取動作的時空特征從而獲取視頻流的運動信息,該模型在機場監(jiān)控視頻下對人體行為識別,取得了較好的性能,但是由于三維卷積網絡計算量大,影響算法效率。
人體骨架在行為識別任務中往往能傳達更多的信息,現有使用循環(huán)神經網絡[11-12]、時域卷積神經網絡[13-14]等多種方法來提取骨架信息并對行為進行識別。文獻[15]提出一種三維圖卷積方法,引入具有三維采樣空間的圖卷積核,從時間與空間兩個維度同時實現行為空間與時間信息的采集,同時設計了注意力增強結構來增強對于特定關節(jié)的關注,提升網絡的識別能力;Yan等[16]提出一種在時間和空間分別卷積的動作識別網絡,每個卷積層用一個圖卷積算子描述空間特征,一個卷積算子描述時間特征,在NTU-RGB+D[17]和Kinetics數據集[18]上的識別精度達到較高水平,但該網絡聚合節(jié)點特征僅用邊上權值替代聚合操作中的權重,這種方式使網絡對部分行為的識別能力有限?;谀壳暗难芯楷F狀,本文提出了一種基于時空圖卷積網絡的行為識別方法,通過姿態(tài)估計算法來提取骨骼關節(jié)點,并與融合了圖注意力機制的行為識別算法相結合,進行人體姿態(tài)行為分析,從而有效提高了行為識別準確率。
基于時空圖卷積網絡的人體異常行為識別系統的實現框架如圖1所示,主要包括人體行為獲取模塊、骨骼關節(jié)點檢測模塊和行為識別模塊這3個部分。該系統首先通過OpenPose算法對人體骨骼點進行檢測,然后利用關節(jié)點數據進行骨架拓撲圖結構搭建,最后與改進的時空圖卷積行為識別算法相結合以實現人體異常行為識別。
基于時空圖卷積網絡的人體異常行為識別系統處理流程如圖2所示,其主要處理步驟如下。
圖2 人體異常行為識別系統處理流程圖Fig.2 Processing flow of human abnormal behavior recognition system
骨骼關節(jié)點檢測模塊主要檢測人體骨骼關節(jié)點,本文使用OpenPose[19]人體姿態(tài)估計算法完成該模塊的檢測,使用COCO數據集中人體關節(jié)點標注模型得到18個骨骼關節(jié)點,最終拼接成人體姿態(tài)特征生成樹,身體關節(jié)點與序號映射關系如圖3所示,18個身體關節(jié)點序號將作為后續(xù)行為識別模塊拓撲圖結構構建的依據。
圖3 人體姿態(tài)特征生成樹、人體關節(jié)點映射關系圖Fig.3 Spanning tree of human posture features and mapping relation diagram of human joints
2.1.1 基于OpenPose的人體關節(jié)點檢測原理
(1)關節(jié)點的檢測
OpenPose首先通過關節(jié)點置信圖(confidence maps)來檢測骨骼點的位置。每個關節(jié)點置信圖表示不同關節(jié)在每個像素位置的可能性。
首先為幀圖像中行人k生成單人置信圖,如式(1)所示,xj,k∈?2是行人k的身體關節(jié)點j的標注點位置,δ控制峰值的擴散。當像素點p靠近標注點xj,k時為置信圖的峰值,如果圖片中只有一個人,則每個關節(jié)點置信圖中只有一個峰值。
當圖像中存在多人時,取多個關節(jié)點置信圖中的最大值作為關節(jié)點的峰值,則每一個人k的每個可見關節(jié)點j都有一個峰值,如公式(2)所示,置信圖的峰值點即為檢測的關節(jié)點。
(2)關節(jié)點的關聯
接下來利用候選關節(jié)對之間的部分親和域(part affinity fields,PAFs)來建立骨骼區(qū)域模型,2D向量來綜合像素點的位置和方向兩種信息,如圖4所示,以人體小臂檢測為例,已知肘部關節(jié)點xj1,k和手部關節(jié)點xj2,k的位置,當像素點p在小臂c上時,則L*c,k()p的值是一個從xj1,k指向xj2,k的單位向量υ;對于其他點,值為0:
圖4 小臂處關節(jié)點連接示意圖Fig.4 Schematic diagram of joint connection at forearm
幀圖像所有人的PAFs求平均得到標注的人體親和字段,如式(4)所示。其中nc(p)是所有人體部分親和字段在像素點p是非零向量的個數。
對于任意兩個關節(jié)點位置xj1和xj2,計算PAFs的線性積分來表征關節(jié)點對的關聯置信度E,如式(5)所示,p(u)為xj1和xj2連線上的像素點。
(3)多人關節(jié)點匹配
當監(jiān)測畫面中存在多人,對置信度圖執(zhí)行非極大值抑制,獲得離散的關節(jié)點位置候選集,同時對存在的若干個節(jié)點匹配候選。根據關節(jié)點的關聯性PAFs,將關節(jié)點作為圖的頂點,關聯置信度E為圖的邊權,多人關節(jié)點連接問題就轉化為二分圖匹配問題的集合,用匈牙利算法找出肢體c連接集合Zc邊權和最大的組合,其數學表達如式(6)。每兩個節(jié)點之間同步匹配,得到最佳的時間復雜度。m、n分別為關節(jié)點類型為j1、j2的集合Dj1、Dj2中的點,Zmn j1j2的值為0或1來表示第n個j1關節(jié)和第m個j2關節(jié)是否相連。
區(qū)別于“Up-Bottom”的姿態(tài)估計算法依賴人體檢測框的結果,Openpose采用“Bottom-Top”的檢測思想,避免了檢測框漏檢而檢測失敗的問題,檢測過程快速高效;創(chuàng)新地使用了PAFs,即使圖像中人數較多,但結合肢體向量與位置信息進行關節(jié)點快速匹配,使檢測更具有魯棒性,完成了多人實時的關節(jié)點檢測。
2.1.2 骨骼數據的優(yōu)化
OpenPose算法完成了從圖像格式(.jpg)到骨骼數據格式(.txt)轉換,將獲取到的多幀骨架圖數據保存為形式。x,y表示該關節(jié)點在當前幀畫面中的橫、縱坐標,s表示該關節(jié)點的置信度,m表示幀畫面中第m個人員實例。由于同一個動作的不同幀之間可能會出現漏檢的情況,需要對骨骼關節(jié)點數據進行處理,過程如下:
(1)確定主關節(jié)點。由圖3可知,有且僅有脖子關節(jié)點(No.1 neck)連接所有關節(jié),所以將脖子關節(jié)點定為主關節(jié)點。若一套動作的圖像中,某個人所有的幀都未檢測到主關節(jié)點則剔除該套動作,并在剔除后根據檢測到的主關節(jié)點數重新確認圖像中的人數。
(2)部分關節(jié)點缺失的處理。檢測時當人體某一部位被遮擋或側身于攝像頭,部分幀會丟失部分關節(jié)點,但行為識別的網絡要求輸入的關節(jié)點數量是一定的,因此需要對缺失的關節(jié)點進行處理。由于關節(jié)點數據以每一幀的順序進行排列保存,這里采用K最近距離鄰法(K-means clustering)的思想,選擇鄰居K的值為2,以幀距離為度量,根據最近鄰幀特征加權[20]預測:若第t幀的第i個關節(jié)點數據pi()t缺失,則利用與該幀最鄰近的、第i個關節(jié)點數據未缺失的前后兩幀t1、t2,將不同距離的鄰幀對缺失幀產生的影響給予不同的權值,補充后的關節(jié)點數據為:
該缺失值補充方法得到的值較為科學準確,由于僅利用前后兩幀的數據進行估計,計算量小,幾乎對檢測過程沒有影響,并且缺失值的補充使后續(xù)行為拓撲圖結構的構建更加完整,提高了網絡識別的準確性。
(3)關節(jié)點數據歸一化處理。Openpose算法提取的關節(jié)點坐標不僅與行為動作有關,還與人體在畫面中的位置,距離攝像頭的遠近都有關系,用來識別的關節(jié)點特征應只與當前的行為動作有關,應對其進行歸一化的處理[21]。歸一化處理如式(8)所示:
其中,(x,y)表示關節(jié)點坐標,(xc,yc)表示主關節(jié)點的坐標,w、h表示圖像的尺寸,(xn,yn)為歸一化后的關節(jié)點坐標。
本文主要針對百貨商場這類室內公共場所,通過對行人的關節(jié)點坐標及置信度進行時空圖卷積建模來實現行人的行為識別。模型從空間上的圖卷積來提取空間信息,前后相鄰幀的常規(guī)卷積來提取時間信息,二者的串聯疊加逐步將每個節(jié)點的感受野擴大到時空范圍。
2.2.1 空間圖卷積網絡
骨架數據是由OpenPose算法得到一系列幀關節(jié)坐標,已知人體關節(jié)點與序號的映射關系,以關節(jié)點為圖節(jié)點V,以時間和關節(jié)點的自然連接為邊E,構造時空圖G。
圖卷積網絡能夠將卷積神經網絡的特性運用到圖結構數據中去,核心思想是將邊的信息發(fā)揮到節(jié)點信息中,利用聚合操作來表示新的節(jié)點特征。圖卷積層節(jié)點聚合如公式(9)所示:
在考慮聚合節(jié)點i的度D?ii同時,還應考慮被聚合的領節(jié)點j的度D?jj,因此使用幾何平均數來對度節(jié)點的特征值進行歸一化從而降低不同度數量上特征值之間的差距。歸一化處理后圖卷積網絡定義如公式(11)所示,W為圖卷積層的權值矩陣。
在骨架圖上卷積時,每一個節(jié)點的鄰節(jié)點數是不固定的,無法進行卷積操作,因此定義空間配置劃分將鄰域分為3個子集,如圖5所示。其中重心是骨骼節(jié)點坐標的幾何中心。
圖5 圖卷積領域劃分規(guī)則圖Fig.5 Graph convolution domain division rule graph
2.2.2 時間卷積網絡
時間卷積中節(jié)點形狀固定,使用傳統的卷積層進行時間特征提?。喊磿r序排列得到骨架空間-時序信息表達矩陣,如公式(12)所示。矩陣的維度為C×T,T為幀數,C為關節(jié)點信息,這里用姿態(tài)估計算法得到的關節(jié)點信息(x,y,s)可以類比于RGB圖的R、G、B三個通道,該矩陣中的每個元素代表了一類特征通道在某一幀中的人體的關節(jié)點特征信息,V為18個關節(jié)點,M代表圖像中人數。
2.2.3 融合圖注意力的人體關節(jié)點動作識別
由公式(11)可知,原始圖卷積在聚合鄰節(jié)點特征時僅利用鄰接矩陣A這一基于圖結構的標準化常數來表示節(jié)點聚合的權值,這一點限制了模型對于空間信息相關性的捕捉能力,因此本文借鑒圖注意力網絡[22]的思想對關鍵節(jié)點進行自適應聚焦,通過計算中心節(jié)點與鄰節(jié)點之間的注意力系數,捕捉骨骼節(jié)點之間的動態(tài)關聯,突出具有行為判別性關節(jié)點,從而提升模型識別能力。
圖注意力機制利用隱藏的自注意(self-attention)層,為圖中的每個節(jié)點依據鄰節(jié)點的特征分配不同的權值,并通過模糊注意力(masked-attention)將注意力機制引入到骨骼圖結構中。關節(jié)點特征聚合與圖注意力機制融合過程如下:
(1)關節(jié)點特征自注意力處理,來表示節(jié)點j對節(jié)點i的相關性,公式為:
其中,Xi、Xj分別為中心點i與其鄰節(jié)點j的特征向量;W∈RCin×Cout是可學習權重矩陣,得到相應的輸入與輸出節(jié)點特征的轉換。a()?表示對節(jié)點實行自注意力機制,利用拼接好節(jié)點特征及可學習的權重向量進行點積運算,學習節(jié)點i與節(jié)點j之間的相對重要性,a:RCout×RCout→R。這種方式可以忽略圖結構性的信息,允許所有節(jié)點之間計算相互影響。
(2)時空圖卷積層間數據變換。為增強層間特征聚合變換的非線性表達能力,引入LeakyReLU函數對層間的數據進行變換。經過激活函數處理后的注意力系數如式(14)所示:
(3)模糊注意力處理及歸一化。在構建好的鄰接矩陣A基礎上,利用模糊注意力,將注意力分配到節(jié)點i的鄰居節(jié)點集B( )vti來聚合一階鄰節(jié)點的信息,并對所有i的鄰節(jié)點j進行正則化,αij∈R3×V×V,因此注意力系數為:
(4)節(jié)點間特征加權求和。節(jié)點i經過融合圖注意力機制的圖卷積層加權求和后的特征為:
Aatt是經過注意力系數加權后的鄰接矩陣。
在原有特征更新的基礎上,圖注意力網絡更巧妙地利用了骨骼節(jié)點之間的特征相互聯系,多節(jié)點計算并行,為每個節(jié)點區(qū)分出了不同的重要度,增強了行為識別任務中需要的有效信息,對干擾節(jié)點信息更加魯棒;且中心節(jié)點特征的注意力權重以鄰節(jié)點特征為依據,獨立于圖結構,使得該模型可以處理不同的鄰節(jié)點數目的骨骼關節(jié)點。
2.2.4 時空圖卷積網絡模型搭建
基于上述圖卷積操作,構建用于人體異常行為識別的時空圖卷積網絡模型。模型建立過程如下:
(1)為了加快模型收斂,首先設置歸一化層(batchnorm layer)對batch方向數據進行歸一化。
(2)為提取更大范圍的動態(tài)時空相關性,時空圖卷積網絡模型由9個時空圖卷積層疊加,每層交替地使用融合了圖注意力機制的圖卷積A-GCN和時域卷積TCN,并在第4層和第7層時間卷積后設置步長為2。
(3)對上一層輸出的數據使用全局池化層(global pooling layer)匯總節(jié)點特征來表示整個圖的特征。
(4)最后一層為全連接層(fully connected layer),輸出結果為模型識別行為的類別。網絡模型結構如圖6所示。
圖6 基于時空圖卷積網絡的行為識別模型宏結構Fig.6 Macro structure of behavior recognition model based on spatial temporal graph convolutional networks
本文用[B,C,T,V,M]的張量來表示一個人體骨骼行為識別初始輸入數據,其中B為訓練批次;T代表行為關鍵幀的數量;M表示關鍵幀中的人數;V表示關節(jié)點數量;C代表關節(jié)的特征數。表1展示了模型每層參數配置。
表1 時空圖卷積網絡參數配置Table 1 Spatial temporal graph convolution network layer parameter configuration
為驗證OpenPose對實際環(huán)境的適用性,該部分實驗將光線環(huán)境、待檢測人數以及目標大小作為變量,來驗證不同條件下的檢測效果,檢測結果如圖7、圖8所示。
圖7顯示了在光照充足環(huán)境下OpenPose對行人的關節(jié)點檢測效果:幀圖像中行人四肢拍攝完全時,檢測效果良好,關節(jié)點基本匹配正確,即使圖7(b)畫面右側行人四肢拍攝不完全,但檢測算法對被遮擋部分的關節(jié)點不會任意獲取,只對看得到的部分進行檢測,不會造成后續(xù)行為的誤判;圖8以傍晚的拍攝條件來模擬光線較暗的情況,可以看出,即使光照較暗時也能夠對行人進行匹配,證明OpenPose對光線條件不充足的環(huán)境有很好的適應性。
圖7 光照充足環(huán)境下的OpenPose檢測圖Fig.7 OpenPose detection diagram in well-light environment
圖8 光線較暗環(huán)境下的OpenPose檢測圖Fig.8 OpenPose detection diagram in low light environment
根據檢測結果可知,在光照環(huán)境、人數以及目標大小三種變量變化的情況下,基于OpenPose的骨骼關節(jié)點檢測方法可以有效提取人體的骨骼關節(jié)點,后續(xù)結合骨骼關節(jié)點的優(yōu)化方法,使得到的骨骼節(jié)點數據信息更加完整,有利于行為識別任務的推進。
本文使用的數據來源主要為新加坡南洋理工大學制作的NTU-RGB+D人體行為數據集。為增加模型識別的對比性,識別的行為分為正、異常兩大類,包括站立(stand up)、坐下(sit down)、行走(walking)、摔倒(falling down)、腳踢破壞(kicking something)、腳踢(kicking)、推搡(pushing)、出拳(punch)、指點(point finger)。
3.2.1 模型評價指標
數據集包括4 314個骨架訓練數據,1 074個骨架測試數據。訓練過程進行576 000次迭代,優(yōu)化器為Adam,權重衰減系數為10-4,學習率為10-3,測試集上評價指標使用交叉熵損失函數以及準確率,定義如式(17)、(18)所示:
yi是全連接層的第i個輸出,表示第i類動作的概率值;m是批量大??;N是動作的類別數;TP(True Positives)為正確識別行為的樣本數;FN(False Negatives)為錯誤識別為其他類的樣本數。
3.2.2 模型性能實驗
首先驗證模型使用不同激活函數對網絡性能的影響,在融合圖注意力的模型上進行實驗,測試集上結果如表2所示,LeakyReLU函數明顯提高了模型的識別準確率。這是由于訓練中,LeakyReLU函數在輸入為負數區(qū)域內給予非常小的線性分量來調整負值的零梯度,本文搭建網絡層較深,使用Leakyrelu函數有助于確保梯度能夠貫穿整個模型架構,同時加快網絡收斂速度,提升網絡性能。而ReLU函數在輸入為負時轉換為0,激活層可能對一些特征屏蔽,造成網絡中存在部分“壞死”,有效特征的學習能力相較于LeakyReLU函數弱。
表2 不同激活函數對網絡性能的影響Table 2 Impact of different activation functions onnetwork performance
對模型在本文建立異常行為數據集上進行驗證。使用融合注意力機制識別模型與未融合的模型在數據集上得到的損失變化對比如圖9所示,兩種模型整體均趨于收斂狀態(tài),但融合前的模型總體收斂趨勢相比于融合后模型收斂趨勢慢,融合后的模型在迭代25 000次左右時呈現出逐漸收斂的狀態(tài),對比融合前收斂速度要快。
圖9 模型損失值變化對比圖Fig.9 Comparison diagram of model loss value change
圖10為測試集平均準確率變化情況,融合前模型在測試集上的平均準確率在訓練120輪次之后最高僅維持在80%左右;融合后的平均準確率在訓練60輪次之后穩(wěn)定在80%~90%,最高時為87.96%,相比融合前高。
圖10 模型準確率變化對比圖Fig.10 Comparison diagram of model accuracy change
然后調用torchstat對模型相關參數進行分析,如表3所示。該表是輸入尺寸為(16,3,150,18,2)的Tensor后的結果,為了表簡潔直觀,9個時空圖卷積層中各卷積層的參數已做合并處理。
表3 人體異常行為識別網絡模型參數Table 3 Human abnormal behavior recognitionmodel parameters
從模型的空間與時間復雜度兩個方向分析:空間復雜度與模型的參數量(params)有關,由于空間復雜度只與卷積核大小、通道數以及網絡深度相關,本文對模型融合注意力的操作并未改變這三種變量,因此融合后參數數量與融合前變換不大,空間復雜度低,約為2.89 MB(對結果進行單位轉換);模型計算量影響時間復雜度,本文使用模型的運算次數(multiply accumulate operation,Macc)來衡量,融合后每一層空間圖卷積增加了關節(jié)點間特征變換的拼接,但自注意力的拼接操作是在所有邊上并行,且圖卷積輸出特征的計算在所有節(jié)點上并行,不需要特征分解或復雜的矩陣運算,未給融合前的模型增加大量的計算復雜度。但模型運算量約為5.23 GB,預測速度、實時性在算力較低的計算平臺上可能會受到一定影響。
經分析,模型在本實驗使用計算平臺上雖然會略微犧牲檢測時間,但關節(jié)點特征融合注意力的方式,使節(jié)點特征隨著行為自適應聚焦,從而區(qū)分行為識別中的關鍵節(jié)點,提高了識別準確性。
3.2.3 圖注意力機制對行為識別影響的驗證實驗
為驗證融合圖注意力機制是否能提升模型對行為的識別能力,本文分別對圖注意力機制的節(jié)點特征自適應聚焦和行為識別的準確性進行實驗。首先對打架、摔倒以及破壞公物(腳踢)三種異常行為的視頻截取關鍵幀,將骨骼結構的18個關節(jié)點注意力權重進行可視化,如圖11所示,該熱力圖顯示了模型對不同關節(jié)點的關注程度。
圖中行為執(zhí)行時關節(jié)點位置的圓點大小代表不同節(jié)點特征的重要程度,而熱力圖色調越暖代表該關節(jié)所占權重越高。圖11(a)的行人在有腳踢和推搡行為的打架過程中,模型將節(jié)點注意力關注在頭部(鼻子)、胯部、膝蓋、肩部、手肘和腳這些關節(jié)點上;圖11(b)的摔倒行為有身體側倒向地面和側躺于地面,摔倒過程中胯部、膝蓋、手腕和手肘關節(jié)點對摔倒行為識別的貢獻程度較大,因此模型更關注這些關節(jié)點的信息;圖11(c)的破壞行為執(zhí)行人側向站立于攝像頭,腳踢行為更集中于執(zhí)行動作的腿部多個關節(jié)點,且胳膊擺動的動作,因此模型更關心胯部、膝蓋、腳部和手肘的動作變化。以上實驗表明,在注意力機制的作用下,模型能夠基于時空信息對鄰節(jié)點間信息進行聚焦,強調提供關鍵信息的身體關節(jié),并對其進行更多的關注,驗證了圖注意力機制在自適應聚焦行為特征上的有效性。
圖11 注意力熱力圖Fig.11 Attention heat map
接下來在包含九種行為的測試集上驗證圖注意力機制對識別準確性的影響,這里利用混淆矩陣來表示。融合圖注意力機制前后模型的識別結果如表4和表5所示,表中數字代表模型識別的統計結果。
表4 未融合注意力機制的行為識別混淆矩陣Table 4 Behavior recognition confusion matrix for unfused attention mechanism
表5 融合注意力機制后的行為識別混淆矩陣Table 5 Behavior recognition confusion matrix after integrating attention mechanism
通過對比,九種行為的識別準確數量(矩陣主對角線方向)在融合后均有不同程度的增加,以出拳為例,準確識別數相比融合前增加了12個(約10.1%),同時對推搡行為的錯誤識別減少了10個(約8.4%),結合之前關節(jié)點特征聚焦的效果來分析:圖注意力機制能夠自動衡量出不同節(jié)點的重要性,指導模型根據動作尋找關鍵的骨骼節(jié)點,使其在識別過程中突出了具有判別性的關節(jié)點,弱化不同動作中對識別影響很小的節(jié)點信息,證明了利用注意力機制區(qū)分節(jié)點重要性對提高模型識別的準確性具有明顯作用,同時對表現相似的行為,模型也能根據有效的時空節(jié)點特征學習節(jié)點之間的動態(tài)關聯,對部分不易區(qū)分行為的識別準確性也有所提升,進而證明了融合圖注意力機制的時空圖卷積網絡對識別異常行為的優(yōu)越性。
3.2.4 模型有效性驗證實驗
在540個短視頻驗證集上驗證本文的異常行為識別模型,視頻來源于真實監(jiān)控、志愿者模擬以及本文定義的相關行為視頻,所有視頻拍攝角度均符合真實監(jiān)控攝像角度。圖12為本文所提模型對定義的行為進行識別的部分結果,其中對于雙人打架的行為,由于在日常中打架行為過程復雜,通常由多個行為組成,因此將打架行為分解為本文定義中的腳踢、推搡、出拳、指點這些行為,在識別時,檢測到這四類行為中的兩類則認為成功識別出打架行為。
圖12 行人行為識別部分結果Fig.12 Partial results of pedestrian behavior recognition
表6為行為識別模型在540個短視頻驗證集上的分類結果。可以看出,模型對這9類行為的識別準確率絕大部分達到80%以上,但對于出拳行為識別結果較差,這是因為出拳側重于人體雙臂部分的動作,相較于指點這種同樣側重手部行為的動作來說,行為特征相似,不易區(qū)分,并且識別同樣也受行為執(zhí)行者拍攝角度的影響,動作的關節(jié)信息可能提取無效,模型無法學習到行人手肘部位間的行為特征,使得識別的準確率存在一定的偏差。但本文所使用的實驗平臺上,基于時空圖卷積網絡的人體異常行為識別方法在驗證集中的準確率高達85.48%,其中對異常行為識別的準確率達到81.63%,這說明該模型對公共場景中的異常行為有良好的識別效果,在實際監(jiān)控視頻中具有一定的檢測有效性。
表6 融合注意力機制的模型識別結果Table 6 Model recognition results integrating attention mechanism
為了解決室內公共場合下監(jiān)控資源短缺,行人異常行為容易發(fā)生漏檢的問題,本文結合姿態(tài)估計算法,通過OpenPose檢測到人體骨骼關節(jié)點特征信息來構建骨骼關節(jié)點圖拓撲結構,利用融合了圖注意力機制的時空圖卷積網絡對行人的異常行為進行識別,在數據集上9類行為的平均識別準確率達到87.96%,在驗證集上的平均識別準確率達到85.48%。實驗結果表明,所提融合圖注意力機制的時空圖卷積行為識別模型可以有效聚合節(jié)點特征,為每個關節(jié)點區(qū)分不同的重要程度,最終提高了異常行為識別的準確率。
需要指出的是,本文在對行人的破壞公物行為進行識別時,雖然利用所提的行為識別模型得到了較為準確的識別結果,但這僅說明模型能夠較好地提取出能區(qū)分這些動作之間的特征,并未考慮動作與已知公共設施的相對位置。針對在實際的行為識別中,如何結合異常行為與公共設施的交互進行判斷,擬在后續(xù)研究中進一步展開。