基于輕量級圖卷積網(wǎng)絡(luò)的校園暴力行為識別

2022-04-29 01:34:50鄧耀輝

液晶與顯示 2022年4期

李頎，鄧耀輝，王嬌

（1. 陜西科技大學(xué) 電子信息與人工智能學(xué)院，陜西西安 710021；2. 陜西科技大學(xué) 電氣與控制工程學(xué)院，陜西西安 710021）

1 引言

我國校園安全在依賴人工巡查的基礎(chǔ)上，逐步向智能化方向發(fā)展，有關(guān)人臉檢測［1］與人臉識別［2］系統(tǒng)應(yīng)用已經(jīng)非常廣泛，然而缺乏成熟的異常行為識別系統(tǒng)。深度學(xué)習(xí)中基于卷積神經(jīng)網(wǎng)絡(luò)的暴力行為識別方法受圖像光照和顏色等因素影響較大，識別速度和準(zhǔn)確率有待大幅提高［3］。人體骨架序列不受光照和顏色影響，可以表征人體關(guān)節(jié)點(diǎn)和骨架變化與人體行為的關(guān)聯(lián)信息，但基于骨架數(shù)據(jù)的圖卷積網(wǎng)絡(luò)的方法識別速度和識別率未能滿足實(shí)際應(yīng)用，有望通過改進(jìn)圖卷積網(wǎng)絡(luò)提高實(shí)時性和可靠性。

早期人體行為識別通過專家手工設(shè)計特征模擬關(guān)節(jié)之間的相關(guān)性實(shí)現(xiàn)［4］。Yang 和Tian 采用樸素貝葉斯最近鄰分類器（Na?ve-Bayes-Nearest-Neighbor，NBNN）實(shí)現(xiàn)了多類動作的識別［5］，但手工提取和調(diào)參表征能力有限且工作量大；Li和He 等人通過深度卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）提取不同時間段的多尺度特征并得到最終識別結(jié)果，但映射過程信息丟失、網(wǎng)絡(luò)參數(shù)量龐大［6］；Zhao 和Liu 等人通過對原始骨架關(guān)節(jié)坐標(biāo)進(jìn)行尺度變換后輸入殘差獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，RNN）得到識別結(jié)果，表征時間信息的能力增強(qiáng)，但易丟失原始關(guān)節(jié)點(diǎn)之間的關(guān)聯(lián)信息［7］；Yan 和Xiong 等人首次提出用圖卷積網(wǎng)絡(luò)（Graph Convolutional Network，GCN）進(jìn)行行為識別，避免了手工設(shè)計遍歷規(guī)則帶來的缺陷［8］。

基于人體骨架的行為識別受光照和背景等因素影響非常小，與基于RGB 數(shù)據(jù)的方法相比具有很大優(yōu)勢。人體的關(guān)節(jié)骨架數(shù)據(jù)是一種拓?fù)鋱D，圖中每個關(guān)節(jié)點(diǎn)在相鄰關(guān)節(jié)點(diǎn)數(shù)不同的情況下，傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)不能直接使用同樣大小的卷積核進(jìn)行卷積計算去處理這種非歐式數(shù)據(jù)［9］。因此，在基于骨架的行為識別領(lǐng)域，基于圖卷積網(wǎng)絡(luò)的方法更為適合。從研究到應(yīng)用階段的轉(zhuǎn)換，需要在保證準(zhǔn)確率的同時實(shí)現(xiàn)網(wǎng)絡(luò)的輕量化：（1）需要在多種信息流數(shù)據(jù)構(gòu)成的數(shù)據(jù)集上分別多次訓(xùn)練，融合各訓(xùn)練結(jié)果得到最終結(jié)果，增加了網(wǎng)絡(luò)參數(shù)量和計算復(fù)雜度；（2）輸入的骨架序列中，存在冗余的關(guān)節(jié)點(diǎn)信息，導(dǎo)致識別速度和識別率降低。

2 輕量級圖卷積網(wǎng)絡(luò)搭建

2.1 圖卷積網(wǎng)絡(luò)

以圖像為代表的歐式空間中，將圖像中每個像素點(diǎn)當(dāng)作一個結(jié)點(diǎn)，則結(jié)點(diǎn)規(guī)則排布且鄰居結(jié)點(diǎn)數(shù)量固定，邊緣上的點(diǎn)可進(jìn)行Padding 填充操作。但在圖結(jié)構(gòu)這種非歐空間中，結(jié)點(diǎn)排布無序且鄰居結(jié)點(diǎn)數(shù)量不固定，無法通過傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)固定大小的卷積核實(shí)現(xiàn)特征提取，需要一種能夠處理變長鄰居結(jié)點(diǎn)的卷積核［10］。對圖而言，需要輸入維度為N×F的特征矩陣X和N×N的鄰接矩陣A提取特征，其中N為圖中結(jié)點(diǎn)數(shù)，F(xiàn)為每個結(jié)點(diǎn)輸入特征個數(shù)。相鄰隱藏層的結(jié)點(diǎn)特征變換公式為：

其中i為層數(shù)，第一層H0=X；f(·)為傳播函數(shù)，不同的圖卷積網(wǎng)絡(luò)模型傳播函數(shù)不同。每層Hi對應(yīng)N×Fi維度特征矩陣，通過傳播函數(shù)f(·)將聚合后的特征變換為下一層的特征，使得特征越來越抽象。

2.2 輕量級圖卷積網(wǎng)絡(luò)框架

為了使人體骨架序列中的動作特征被充分利用，且在識別準(zhǔn)確率提高的同時實(shí)現(xiàn)動作識別模型的輕量化，本文提出了一種結(jié)合多信息流數(shù)據(jù)融合和時空注意力機(jī)制的輕量級自適應(yīng)圖卷積網(wǎng)絡(luò)。以輸入的人體骨架序列為研究對象，首先融合關(guān)節(jié)點(diǎn)信息流、骨長信息流、關(guān)節(jié)點(diǎn)偏移信息流和骨長變化信息流4 種數(shù)據(jù)信息；接著構(gòu)建基于非局部運(yùn)算的可嵌入的時空注意力模塊，關(guān)注信息流數(shù)據(jù)融合后人體骨架序列中最具動作判別性的關(guān)節(jié)點(diǎn)；最后通過Softmax 得到對動作片段的識別結(jié)果，網(wǎng)絡(luò)主體框架如圖1 所示。

2.3 多信息流數(shù)據(jù)融合

現(xiàn)階段基于圖卷積的方法［11］多采用在多種不同數(shù)據(jù)集下多次訓(xùn)練，根據(jù)訓(xùn)練結(jié)果進(jìn)行決策級融合，導(dǎo)致網(wǎng)絡(luò)參數(shù)量大。因此，在訓(xùn)練之前對原始關(guān)節(jié)點(diǎn)坐標(biāo)數(shù)據(jù)進(jìn)行預(yù)處理，實(shí)現(xiàn)關(guān)節(jié)點(diǎn)信息流、骨長信息流、關(guān)節(jié)點(diǎn)偏移信息流和骨長變化信息流的數(shù)據(jù)級融合，減少網(wǎng)絡(luò)參量，從而降低計算要求。

人體骨架序列關(guān)節(jié)點(diǎn)的定義如公式（2）所示：

其中：T為序列中的總幀數(shù)，N為總關(guān)節(jié)點(diǎn)數(shù)18，i為在t時刻的關(guān)節(jié)點(diǎn)。融合多信息流之前，需要進(jìn)行骨架序列s的多樣化預(yù)處理。關(guān)節(jié)點(diǎn)信息流由人體姿態(tài)估計算法OpenPose 獲取到的18 個關(guān)節(jié)點(diǎn)坐標(biāo)得到，相對于動作捕獲設(shè)備成本大幅降低［12-13］。其他信息流數(shù)據(jù)定義如下。

骨長信息流（Bone Length Information Flow）：將靠近人體重心的關(guān)節(jié)點(diǎn)定義為源關(guān)節(jié)點(diǎn)，坐標(biāo)表示為Vi，t=(xi，t，yi，t)；遠(yuǎn) 離重心點(diǎn) 的關(guān) 節(jié) 點(diǎn) 定位為目標(biāo) 關(guān) 節(jié) 點(diǎn)，坐標(biāo) 表示為Vj，t=(xj，t，yj，t)。通過兩關(guān)節(jié)點(diǎn)作差獲取骨長信息流：

關(guān)節(jié)點(diǎn)偏移信息流（Joint Difference Information Flow）：定義第t幀的關(guān)節(jié)點(diǎn)i的坐標(biāo)表示為Vi，t=(xi，t，yi，t)，第t+1 幀的關(guān)節(jié)點(diǎn)i的坐標(biāo)表示為Vi，t+1=(xi，t+1，yi，t+1)，關(guān) 節(jié) 點(diǎn) 偏移信息流可通過對相鄰幀同一關(guān)節(jié)點(diǎn)坐標(biāo)位置作差獲得：

骨長變化信息流（Change of Bone Length Information Flow）：相鄰兩幀中，同一節(jié)骨骼由于動作變化導(dǎo)致所表現(xiàn)出的長度不同，由公式（3）定義第t幀的骨長信息流為Bi，j，t，則第t+1 幀的骨長信息流為Bi，j，t+1，通過對相鄰幀同一骨骼長度作差獲得骨長變化信息流：

如圖2 所示，根據(jù)對關(guān)節(jié)點(diǎn)信息流、骨長信息流、關(guān)節(jié)點(diǎn)偏移信息流和骨長變化信息流的定義，將多數(shù)據(jù)流加權(quán)融合成單一的特征向量，骨架序列維度由4×T×J×C1變?yōu)?×T×J×4C1：

圖2 信息流數(shù)據(jù)融合Fig.2 Data fusion of information flow

其中：權(quán)重ω1～ω4由關(guān)節(jié)點(diǎn)偏移度σ1(σ1∈[0°～360°])和骨長變化度σ2(σ2∈[0～100%])決定，σ1為前一幀坐標(biāo) 點(diǎn)Vi，t與后一幀坐標(biāo) 點(diǎn)Vi，t+1分別和坐標(biāo)原點(diǎn)所構(gòu)成直線的夾角，σ2如式（7）定義：

式中：絕對值運(yùn)算代表骨骼長度，當(dāng)σ1≥30°且σ2≤50%時，ω1和ω3權(quán)值為2，ω2和ω4權(quán)值為1；當(dāng)σ1≤30°且σ2≥50%時，ω1和ω3權(quán)值為1，ω2和ω4權(quán)值為2；當(dāng)σ1和σ2都小于閾值時，權(quán)值均為1；當(dāng)σ1和σ2都大于閾值時，權(quán)值均為2。通過計算關(guān)節(jié)點(diǎn)偏移程度以及骨長變化程度，為變化程度大的信息流數(shù)據(jù)賦予了更高的權(quán)重，從而增強(qiáng)了信息流對動作的表征。再使用融合后的單一特征向量表示多信息流數(shù)據(jù)，將訓(xùn)練次數(shù)由4 次減少為1 次，降低了總體參數(shù)量，從而提高網(wǎng)絡(luò)運(yùn)算速度。

2.4 時空注意力模塊構(gòu)建

在保證網(wǎng)絡(luò)運(yùn)算速度提升的基礎(chǔ)上，也要保證動作識別的準(zhǔn)確性。一段人體骨架序列包含時間域和空間域的所有信息，但是只有對拳打、腳踢和倒地動作具有判別性的關(guān)節(jié)點(diǎn)關(guān)聯(lián)信息值得關(guān)注，注意力機(jī)制大多只是去除無關(guān)項而關(guān)注感興趣動作區(qū)域，但真正的冗余信息來自兩個方面：（1）拳打動作發(fā)生時，只有肩膀、手肘和手腕3 個關(guān)節(jié)點(diǎn)相互之間相關(guān)性強(qiáng)；腳踢動作發(fā)生時，只有髖、膝蓋、腳踝跟3 個關(guān)節(jié)點(diǎn)相互之間相關(guān)性強(qiáng)，這些關(guān)鍵關(guān)節(jié)點(diǎn)與其他關(guān)節(jié)點(diǎn)相關(guān)性弱或不相關(guān)。（2）受到暴力拳打或腳踢而倒地后，各關(guān)節(jié)點(diǎn)偏移幅度較小，前后幀的各關(guān)節(jié)點(diǎn)相關(guān)性幾乎不變，無需對后一幀骨架信息進(jìn)行提取。

將每個關(guān)節(jié)點(diǎn)偏移度σ1≥30°的關(guān)節(jié)點(diǎn)定義為源關(guān)節(jié)點(diǎn)，每次選取一個源關(guān)節(jié)點(diǎn)，其他關(guān)節(jié)點(diǎn)則為目標(biāo)關(guān)節(jié)點(diǎn)，神經(jīng)網(wǎng)絡(luò)中的局部運(yùn)算方法只能對目標(biāo)關(guān)節(jié)點(diǎn)遍歷后單獨(dú)計算兩兩的相關(guān)性，使源關(guān)節(jié)點(diǎn)丟失全局表征能力。為了表征所有目標(biāo)關(guān)節(jié)點(diǎn)對源關(guān)節(jié)點(diǎn)的相關(guān)性，如圖3 所示，將非局部運(yùn)算（Non-local operations）的思想融入時空注意力模塊，并在特征輸入后添加尺寸為2×2、步長為2 的最大池化層（Maxpool layer），以保證壓縮數(shù)據(jù)和參數(shù)數(shù)量的同時盡可能保留原有特征。

圖3 時空注意力模塊Fig.3 Spatio-temporal attention module

時空注意力模塊（Spatio-temporal Attention Module，STA）包含一個空間注意力模塊和時間注意力模塊，其中空間注意力模塊（Spatial Attention Module，SA）捕獲幀內(nèi)關(guān)節(jié)相關(guān)性，時間注意力模塊（Temporal Attention Module，TA）捕獲幀間關(guān)節(jié)的相關(guān)性，最終二者與輸入特征相加融合。時空注意力模塊輸出特征的維度和輸入相同，因此可以嵌入圖卷積網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)之間。模塊功能的實(shí)現(xiàn)分為4 個步驟：

（1）輸入特征X的維度為T×N×C，其中T、N和C分別對應(yīng)幀、關(guān)節(jié)和通道的數(shù)目，將空間注意力模塊的輸入特征表示為zs=[z，z，...，z]∈RT×N×C。

（2）將特征嵌入到高斯函數(shù)（θ和φ，卷積內(nèi)核尺寸1×1）中計算任意位置兩個關(guān)節(jié)i和j的相關(guān)性，由j進(jìn)行枚舉，得到關(guān)節(jié)點(diǎn)i的加權(quán)表示：

其中：z和z分別表示關(guān)節(jié)點(diǎn)i和j的特征；函數(shù)g用來計算關(guān)節(jié)點(diǎn)j特征表示，g(z)=Wz，W是待學(xué)習(xí)的權(quán)重矩陣；高斯函數(shù)f定義為：

通過基于非局部運(yùn)算的注意力機(jī)制得到具有判別性的關(guān)節(jié)點(diǎn)時空關(guān)聯(lián)信息，去除了動作區(qū)域無關(guān)項和輸入的冗余關(guān)節(jié)點(diǎn)信息的干擾，減少了不必要的計算，從而提高了準(zhǔn)確率。

2.5 時空特征提取模塊構(gòu)建

為了提取骨架序列在空間和時間維度上的特征，首先利用時空圖卷積網(wǎng)絡(luò)和空間劃分策略對動態(tài)骨架進(jìn)行建模，原始表達(dá)式為：

其中，Xin和Xout分別為圖卷積輸入和輸出特征，K為空間域卷積核尺寸，Wi為權(quán)重，Ai為關(guān)節(jié)點(diǎn)i的鄰接矩陣，⊙代表點(diǎn)乘，Mi為賦予連接權(quán)重的關(guān)節(jié)點(diǎn)映射矩陣。

使用預(yù)先定義好的骨架結(jié)構(gòu)數(shù)據(jù)無法對所有未知動作準(zhǔn)確識別，因此需要設(shè)計一種具有自適應(yīng)性的鄰接矩陣Ai，使得圖卷積網(wǎng)絡(luò)模型具有自適應(yīng)性。因此，為了在網(wǎng)絡(luò)學(xué)習(xí)中改變骨架序列圖的拓?fù)浣Y(jié)構(gòu)，將式（12）中決定拓?fù)浣Y(jié)構(gòu)的鄰接矩陣和映射矩陣分成Ai、Hi和Li，自適應(yīng)圖卷積模塊框圖如圖4 所示，輸出特征重新構(gòu)造為：

圖4 自適應(yīng)圖卷積模塊Fig.4 Adaptive graph convolutional module

Xout=∑i KWi Xin(Ai+Hi+Li). （13）

圖4 中θ和φ即式（9）中高斯嵌入函數(shù)，卷積內(nèi)核尺寸為1×1；第一部分Ai仍為關(guān)節(jié)點(diǎn)i的鄰接矩陣；第二部分Hi作為對原始鄰接矩陣的加法補(bǔ)充，能通過網(wǎng)絡(luò)訓(xùn)練不斷迭代更新；第三部分Li由數(shù)據(jù)不斷驅(qū)動更新來學(xué)習(xí)連接權(quán)重，關(guān)節(jié)點(diǎn)相關(guān)性可由式（8）計算得到后與1×1 卷積相乘得到相似性矩陣Li：

通過以上計算，構(gòu)建出具有自適應(yīng)性的圖卷積模塊，接下來對骨架序列包含的時空信息進(jìn)行提取。

本文提出的時空特征提取模塊如圖5 所示。在每次完成卷積操作后通過BN（Batch normalization）層將數(shù)據(jù)歸一化，再通過ReLU 層提高模型表達(dá)能力?？汕度氲臅r空注意力模塊STA 已在2.4 一節(jié)中搭建完成，將特征輸入提取模塊后對感興趣動作關(guān)節(jié)點(diǎn)進(jìn)行提取。接著通過具有自適應(yīng)性的GCN 在空間維度上獲得骨架數(shù)據(jù)中同一幀各關(guān)節(jié)點(diǎn)的相關(guān)性，通過時間卷積網(wǎng)絡(luò)（Temporal Convolutional Network，TCN）在時間維度上獲得相鄰幀同一關(guān)節(jié)點(diǎn)的關(guān)系。丟棄層（Dropout）減少隱層結(jié)點(diǎn)的相互作用避免了圖卷積網(wǎng)絡(luò)的過度擬合，參數(shù)設(shè)置為0.5，同時為了增加模型穩(wěn)定性進(jìn)行了殘差連接。

圖5 時空特征提取模塊Fig.5 Spatio-temporal feature extracting module

2.6 整體網(wǎng)絡(luò)結(jié)構(gòu)搭建

如圖6 所示，將9 個時空特征提取模塊B1～B9進(jìn)行堆疊，從特征輸入X到行為標(biāo)簽Label 輸出方向上，BN 層用于骨架圖輸入后進(jìn)行標(biāo)準(zhǔn)化，B1～B3輸出特征維度為Batch×64×T×N，B4～B6輸出特征維度為Batch×128×T/2×N，B7～B9輸出特征維度為Batch×256×T/4×N，其中通道數(shù)分別為64，64，64，128，128，128，256，256，256。在空間和時間維度上應(yīng)用全局平均池化操作（Global Average Pooling，GAP）將樣本的特征圖大小進(jìn)行統(tǒng)一，最終使用softmax層得到0～1 的數(shù)據(jù)進(jìn)行人體行為的識別。

圖6 整體網(wǎng)絡(luò)架構(gòu)Fig.6 Overall network architecture

3 實(shí)驗結(jié)果與分析

3.1 實(shí)驗配置

實(shí)驗平臺的配置為8 代i7 CPU，64 G 內(nèi)存，4 TB 固態(tài)硬盤存儲，顯卡為RTX2080Ti。深度學(xué)習(xí)框架為PyTorch1.3，Python 版本為3.6。優(yōu)化策略采用隨機(jī)梯度下降（Stochastic gradient descent，SGD），每批次訓(xùn)練樣本數(shù)（Batch size）設(shè)置為64，迭代次數(shù)（Epoch）設(shè)置為60，初始學(xué)習(xí)率（Learning rate）為0.1，Epoch 達(dá)到20 以后學(xué)習(xí)率設(shè)置為0.01。

3.2 行為識別實(shí)驗

3.2.1 校園安防實(shí)景測試

本文面向?qū)嶋H應(yīng)用，對校園馬路、操場和湖邊等不同場景制作了12 000 個視頻片段，拳打、腳踢、倒地、推搡、打耳光和跪地6 種典型動作各2 000 個，單個時長不大于5 s。所有人員身高、體重和身體比例等方面有所差異，以增強(qiáng)模型的泛化能力。根據(jù)實(shí)驗配置進(jìn)行訓(xùn)練，圖7 為模型的訓(xùn)練損失與綜合測試準(zhǔn)確率的變化曲線。

圖7 模型訓(xùn)練損失與測試準(zhǔn)確率變化圖Fig.7 Variation diagram of model training loss and test accuracy

可以看出隨著迭代次數(shù)的增長，模型的訓(xùn)練損失逐漸下降。當(dāng)epoch 在20 左右時，由于學(xué)習(xí)率的下降，測試準(zhǔn)確率開始大幅提高；當(dāng)epoch 超過35 之后，訓(xùn)練損失與測試準(zhǔn)確率幾乎保持不變。使用訓(xùn)練好的模型分別對6 類動作對應(yīng)的測試集進(jìn)行測試，主要識別過程如圖8 所示。

圖8 6 種典型動作識別過程Fig.8 Six typical action recognition processes

圖8 中處理的5 組動作片段從左至右分別為拳打和腳踢、倒地、推搡、打耳光及跪地，圖8（a）是原視頻；圖8（b）是對輸入的含有拳打和腳踢動作的視頻片段使用OpenPose 進(jìn)行人體關(guān)節(jié)點(diǎn)提取，正確匹配各關(guān)節(jié)點(diǎn)后得到人體骨架；圖8（c）是將骨架序列輸入本文改進(jìn)的時空圖卷積網(wǎng)絡(luò)得到動作片段的識別結(jié)果。改進(jìn)后模型的處理速度最大可達(dá)20.6 fps，對校園安防實(shí)景中拳打、腳踢、倒地、推搡、打耳光和跪地6 種典型動作識別準(zhǔn)確率分別為94.5%，97.0%，98.5%，95.0%，94.5%，95.5%，測試結(jié)果如表1 所示。

表1 6 種典型動作識別結(jié)果Tab.1 Six typical action recognition results

為了驗證不同體型（身高、體重和肩寬表示）人員對識別準(zhǔn)確率存在影響，選取參與數(shù)據(jù)集制作的1～6 號實(shí)驗人員，每次使用由單一實(shí)驗人員獲取的6 種典型動作片段作為訓(xùn)練集，將由其他5 個實(shí)驗人員獲取的6 種動作片段作為測試集，并記錄對所有動作的平均識別準(zhǔn)確率，實(shí)驗參數(shù)及結(jié)果如表2 所示。

由表2 數(shù)據(jù)可知，使用單一實(shí)驗人員所拍攝的6 類動作片段作為數(shù)據(jù)集進(jìn)行訓(xùn)練，并分別對其他人員的動作片段測試，測試結(jié)果最佳僅為85.6%，而使用所有實(shí)驗人員視頻片段識別準(zhǔn)確率在94.5%以上，說明了不同人員體型的差異性可以增強(qiáng)模型的泛化能力，即魯棒性。

表2 不同體型人員動作識別結(jié)果Tab.2 Action recognition results of personnel with different body types

表2 的1～6 號實(shí) 驗人員中，2 號的體型為179 cm/67 kg，身材過瘦；3 號的體型為155 cm/46 kg，身材矮小，但身高體重比例正常；6 號的體型為163 cm/103 kg，身材肥胖；1 號、4 號和5 號體型基本正常。不同體型的人做同一種動作時，姿態(tài)檢測算法獲取的18 個人體骨骼點(diǎn)坐標(biāo)有差異，從而骨長也會產(chǎn)生差異，關(guān)節(jié)點(diǎn)信息流、骨長信息流、關(guān)節(jié)點(diǎn)偏移信息流和骨長變化信息流4 種數(shù)據(jù)信息也有區(qū)別。因為2 號過瘦，各關(guān)節(jié)點(diǎn)坐標(biāo)較為集中，而6 號過胖，各關(guān)節(jié)點(diǎn)坐標(biāo)較為分散，導(dǎo)致2 號和6 號的平均識別準(zhǔn)確率最低，僅為68.7%和64.5%；而3 號身材比例正常，但身高過于矮小，也導(dǎo)致了關(guān)節(jié)坐標(biāo)點(diǎn)分布不均勻，72.4%的準(zhǔn)確率低于其他正常體型。

綜上，在數(shù)據(jù)集的制作過程中所有人員體型差異的多樣性可以增強(qiáng)模型的泛化能力，實(shí)驗結(jié)果也表明本文方法可快速有效地識別出校園暴力的典型動作。

3.2.2 方法對比實(shí)驗

為了驗證本文方法的有效性，采用具有挑戰(zhàn)性的UCF101 數(shù)據(jù)集進(jìn)行行為識別對比實(shí)驗。該數(shù)據(jù)集有101 類動作，13 320 段視頻，在人員姿態(tài)、外觀、攝像機(jī)運(yùn)動狀態(tài)、和物體大小比例等方面具有多樣性。

按照6∶2∶2 的比例，參與訓(xùn)練和驗證的視頻數(shù)據(jù)10 656 個，測試視頻2 664 個，使用表3中5 種方法進(jìn)行對比實(shí)驗，在當(dāng)前配置下對視頻片段處理速度由9.2～15.5 fps 最大提高至19.3 fps，對數(shù)據(jù)集中101 類動作平均識別準(zhǔn)確率以及參數(shù)量變化對比結(jié)果如表3 所示，并在表4 中給出了數(shù)據(jù)集中6 種動作的識別準(zhǔn)確率。

表3 數(shù)據(jù)表明：本文方法（無注意力模塊）相對于兩種卷積神經(jīng)網(wǎng)絡(luò)的方法，參數(shù)量分別減少約92.6%和94.7%，而識別準(zhǔn)確率提高21.4%和4.0%；相對于改進(jìn)前時空圖卷積網(wǎng)絡(luò)的方法，參數(shù)量減少約59.6%，而準(zhǔn)確率提高1.2%。說明本文的多信息流數(shù)據(jù)融合方法可有效減少網(wǎng)絡(luò)參數(shù)量，實(shí)現(xiàn)網(wǎng)絡(luò)輕量化。其中，使用基于非局部運(yùn)算的時空注意力機(jī)制相對于未使用時參數(shù)量減少約37.6%，準(zhǔn)確率提高2.9%，說明改進(jìn)后的時空注意力機(jī)制可有效減少冗余關(guān)節(jié)點(diǎn)信息，提高了特征的利用率，從而提高了識別準(zhǔn)確率。表4 數(shù)據(jù)列出了改進(jìn)后方法在UCF101 數(shù)據(jù)集中6 種動作的識別準(zhǔn)確率。由于該數(shù)據(jù)集中動作片段來源于不受約束的網(wǎng)絡(luò)視頻，存在相機(jī)運(yùn)動、部分遮擋和低分辨率等影響導(dǎo)致視頻質(zhì)量差，實(shí)驗中在OpenPose 進(jìn)行人體關(guān)節(jié)點(diǎn)提取階段csv 文件中所存的關(guān)節(jié)點(diǎn)坐標(biāo)有部分缺失，因此相較于表1 中實(shí)測數(shù)據(jù)集識別準(zhǔn)確率均偏低。

表3 不同識別方法的對比結(jié)果Tab.3 Comparison results of different recognition methods

綜上，本文方法在保證準(zhǔn)確率提升的同時實(shí)現(xiàn)了網(wǎng)絡(luò)的輕量化，從而提高了可靠性與實(shí)時性。

4 結(jié) 論

針對校園智能安防識別速度和識別率不高導(dǎo)致可靠性和實(shí)時性差的問題，本文提出了一種基于輕量級圖卷積的人體骨架數(shù)據(jù)的行為識別方法，通過多信息流數(shù)據(jù)融合與自適應(yīng)圖卷積相結(jié)合的方式，同時通過嵌入時空注意力模塊提高特征的利用率，在校園安防實(shí)景中對拳打、腳踢、倒地、推搡、打耳光和跪地6 種典型動作識別準(zhǔn)確率分別為94.5%，97.0%，98.5%，95.0%，94.5%，95.5%，識別速度最快為20.6 fps，且驗證了模型的泛化能力。同時在行為識別數(shù)據(jù)集UCF101 上驗證了方法的通用性，可以擴(kuò)展至人體其他動作，在參數(shù)量比原始時空圖卷積網(wǎng)絡(luò)減少了74.8% 的情況下，平均識別準(zhǔn)確率由85.6% 提高到89.7%，識別速度最大提高至19.3 fps，能夠較好地完成校園實(shí)際安防中出現(xiàn)最多的典型暴力行為識別任務(wù)。