關(guān)鍵詞:礦工行為識(shí)別;人體關(guān)鍵點(diǎn)提取;骨架序列;圖卷積;輕量化姿態(tài)估計(jì)網(wǎng)絡(luò);特征融合;多維特征融合注意力模塊
中圖分類號(hào):TD67 文獻(xiàn)標(biāo)志碼:A
0引言
煤礦生產(chǎn)環(huán)境較為復(fù)雜,存在各種安全隱患,這些隱患可能導(dǎo)致煤礦事故發(fā)生。我國(guó)重大礦井事故中,超過(guò)90% 是由井下人員的不安全行為引起的[1]。因此,快速準(zhǔn)確地識(shí)別礦工的不安全行為對(duì)于確保煤礦安全開(kāi)采至關(guān)重要。隨著煤礦產(chǎn)業(yè)的智能化發(fā)展,人工智能技術(shù)在礦工不安全行為識(shí)別領(lǐng)域取得了較大進(jìn)展[2]。采用深度學(xué)習(xí)人工智能高效、快速地識(shí)別礦工行為,能減少因礦工不安全行為導(dǎo)致的礦井事故,確保煤礦安全開(kāi)采。
目前,針對(duì)礦工不安全行為的識(shí)別方法主要分為基于視頻的方法[3-6]、基于深度圖的方法[7]和基于骨架序列的方法[8-9]3 類。視頻具有行為識(shí)別所需要的空間和時(shí)間信息,且視頻方便收集,直接采用視頻數(shù)據(jù)進(jìn)行行為識(shí)別是一種非常有效的方法。但基于視頻的行為識(shí)別方法會(huì)受到視頻中無(wú)關(guān)背景信息的干擾,此外遮擋和視點(diǎn)變化也會(huì)影響識(shí)別效果[10]。深度圖所包含的深度信息可在一定程度上增強(qiáng)對(duì)視點(diǎn)變化和遮擋等干擾的魯棒性[11],但深度圖需要占據(jù)更大的存儲(chǔ)空間來(lái)保存深度信息,對(duì)設(shè)備性能要求較高。骨架數(shù)據(jù)是視頻中人體姿態(tài)和動(dòng)作的抽象表示,即使沒(méi)有外觀信息也能夠僅通過(guò)骨架的運(yùn)動(dòng)來(lái)識(shí)別動(dòng)作的類別,且對(duì)環(huán)境、遮擋和視點(diǎn)變化具有較強(qiáng)的魯棒性?;诠羌苄蛄械男袨樽R(shí)別模型具有速度快、算力要求低、模型簡(jiǎn)單等優(yōu)勢(shì)[12]??紤]煤礦場(chǎng)景下的復(fù)雜環(huán)境及算力限制,基于骨架序列的方法適用于煤礦應(yīng)用場(chǎng)景。
近幾年, 圖卷積神經(jīng)網(wǎng)絡(luò)在處理骨架序列數(shù)據(jù)時(shí)占據(jù)優(yōu)勢(shì),在多個(gè)數(shù)據(jù)集上取得了較好的結(jié)果[13-15]。許多學(xué)者將基于圖卷積的行為識(shí)別方法應(yīng)用于井下環(huán)境。文獻(xiàn)[16]提出了一種多層感知圖卷積神經(jīng)網(wǎng)絡(luò),在自適應(yīng)鄰接矩陣基礎(chǔ)上為每個(gè)鄰接矩陣分配一個(gè)權(quán)重參數(shù),使用注意力機(jī)制動(dòng)態(tài)約束多個(gè)鄰接矩陣,增強(qiáng)圖的特征表達(dá)能力,提升模型在煤礦場(chǎng)景下的魯棒性。文獻(xiàn)[17] 提出了一種基于深度學(xué)習(xí)的井下人員不安全行為識(shí)別與預(yù)警系統(tǒng),利用YOLOv4 模型識(shí)別礦工及安全帽佩戴情況,并結(jié)合OpenPose 和時(shí)空?qǐng)D卷積神經(jīng)網(wǎng)絡(luò)(Spatial-Temporal" Graph Convolutional Network, ST?GCN) 模型對(duì)礦工行為進(jìn)行分析,實(shí)現(xiàn)了井下環(huán)境中不安全行為的自動(dòng)識(shí)別與預(yù)警。文獻(xiàn)[18]設(shè)計(jì)了一種面向煤礦井下員工的不安全行為智能識(shí)別系統(tǒng), 將不安全行為劃分為靜態(tài)、動(dòng)態(tài)和互動(dòng)3 類, 采用YOLOv3識(shí)別設(shè)備與環(huán)境, 結(jié)合MobileNetV3 和ST?GCN 識(shí)別靜態(tài)和動(dòng)態(tài)行為,通過(guò)規(guī)則推理識(shí)別互動(dòng)行為,實(shí)現(xiàn)了在實(shí)際生產(chǎn)環(huán)境中的部署與應(yīng)用。文獻(xiàn)[19]提出了一種基于時(shí)空?qǐng)D卷積網(wǎng)絡(luò)的組合注意力機(jī)制和密集殘差網(wǎng)絡(luò),組合注意力機(jī)制可以增強(qiáng)模型的特征提取能力,同時(shí)利用密集殘差網(wǎng)絡(luò)對(duì)動(dòng)作特征進(jìn)行補(bǔ)償,提高模型識(shí)別礦工行為特征的能力。
上述基于圖卷積的礦工行為識(shí)別模型都取得了較好的效果,但存在識(shí)別精度不高、模型參數(shù)量大、計(jì)算復(fù)雜度較高等問(wèn)題。本文提出一種基于輕量高分辨率網(wǎng)絡(luò)(Lightweight High-Resolution Network,Lite?HRNet)和多維特征增強(qiáng)時(shí)空?qǐng)D卷積網(wǎng)絡(luò)(MultidimensionalFeature Enhanced Spatial Temporal GraphConvolution Network, MEST?GCN) 的行為識(shí)別模型。首先利用Lite?HRNet 提取礦工關(guān)鍵點(diǎn)坐標(biāo),生成具有17 個(gè)礦工關(guān)鍵點(diǎn)的骨架序列,然后將骨架序列輸入MEST?GCN 進(jìn)行動(dòng)作識(shí)別,最后引入多維特征融合注意力模塊(Multi-Dimensional Feature FusionAttention Module, M2FA),增強(qiáng)行為特征在時(shí)間、空間和通道維度的表達(dá)能力,提高模型在煤礦情境下的行為識(shí)別能力。
1礦工行為識(shí)別模型整體架構(gòu)
基于Lite?HRNet 和MEST?GCN 的行為識(shí)別模型結(jié)構(gòu)如圖1 所示,主要分為人體關(guān)鍵點(diǎn)提取模塊和人體動(dòng)作識(shí)別模塊2 個(gè)部分。對(duì)于輸入的礦工行為視頻,通過(guò)Lite?HRNet 獲得人體關(guān)鍵點(diǎn)坐標(biāo),得到初始的礦工骨架序列。礦工骨架序列由一個(gè)四維矩陣(N,C,T,V)組成, 其中N 為批量大小, C為通道數(shù), T 為骨架序列的總幀數(shù), V 為每幀骨架中的關(guān)鍵點(diǎn)總數(shù)量。骨架序列經(jīng)由批量標(biāo)準(zhǔn)化(BatchNormalization, BN)層對(duì)輸入數(shù)據(jù)進(jìn)行批量標(biāo)準(zhǔn)化處理, 經(jīng)過(guò)6個(gè)多維特征增強(qiáng)圖卷積(Multi-Dimensional Feature Enhanced Graph" Convolution,ME?GC)模塊B1—B6提取礦工行為特征。ME?GC中包含多維特征融合注意力模塊,可以提高時(shí)間、空間和通道維度的特征表現(xiàn)能力。最后經(jīng)由全局平均池化層(Global" Average Pooling, GAP)和Softmax層得到行為的置信度,獲得預(yù)測(cè)結(jié)果。
2基于姿態(tài)估計(jì)網(wǎng)絡(luò)和圖卷積的礦工行為識(shí)別
2.1人體關(guān)鍵點(diǎn)提取模塊
2.1.1Lite?HRNet
人體關(guān)鍵點(diǎn)位置檢測(cè)方法主要分為“自頂向下”和“自底向上”2 類?!白皂斚蛳隆狈椒ㄏ葯z測(cè)人體目標(biāo)并標(biāo)記矩形區(qū)域,再進(jìn)行關(guān)鍵點(diǎn)檢測(cè),精度高,但速度受限?!白缘紫蛏稀狈椒▌t先檢測(cè)所有關(guān)鍵點(diǎn),再區(qū)分歸屬,速度快,但精度較低。人體關(guān)鍵點(diǎn)的檢測(cè)質(zhì)量在一定程度上會(huì)影響基于骨架序列的行為識(shí)別模型的結(jié)果,因此,姿態(tài)估計(jì)模型既需要較高的檢測(cè)精度,也需要較快的檢測(cè)速度,以適應(yīng)井下礦工不安全行為識(shí)別的需要。Lite?HRNet[20]屬于“自頂向下” 的方法, 是HRNet[21]的一個(gè)改進(jìn)版本。Lite?HRNet 能夠高效且準(zhǔn)確地完成姿態(tài)估計(jì),適合在資源受限的環(huán)境中應(yīng)用,可應(yīng)用于礦井場(chǎng)景下的輕量級(jí)人體關(guān)鍵點(diǎn)檢測(cè)。Lite?HRNet 從輸入的礦工行為視頻中提取17個(gè)人體關(guān)鍵點(diǎn), 如圖2所示。Lite?HRNet 通過(guò)目標(biāo)檢測(cè)器進(jìn)行人體檢測(cè),利用卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,并通過(guò)區(qū)域提議網(wǎng)絡(luò)生成錨框,對(duì)每個(gè)錨框進(jìn)行分類以判斷是否包含目標(biāo)。區(qū)域提議網(wǎng)絡(luò)對(duì)被判定為目標(biāo)的錨框進(jìn)行邊界框回歸,輸出人體邊界框,并通過(guò)非極大值抑制篩選出最優(yōu)檢測(cè)結(jié)果。最后Lite?HRNet 將每個(gè)檢測(cè)到的人體區(qū)域裁剪出來(lái)并輸入到姿態(tài)估計(jì)網(wǎng)絡(luò),生成每個(gè)人體關(guān)鍵點(diǎn)的熱圖,精確預(yù)測(cè)各個(gè)關(guān)鍵點(diǎn)的位置。
2.1.2礦工行為數(shù)據(jù)集構(gòu)建
基于骨架序列的圖卷積行為識(shí)別模型大多采用具有人體3D 空間坐標(biāo)的公共數(shù)據(jù)集, 3D 坐標(biāo)由Kinect 相機(jī)捕獲,不適用于井下環(huán)境。本文構(gòu)建了礦工行為數(shù)據(jù)集(Miner Behavior" Dataset, MBD) ,MBD是以煤礦人員的站立、行走、坐、跨越、違規(guī)扒車(chē)、摔倒6 類行為動(dòng)作為基礎(chǔ)制作的礦工行為數(shù)據(jù)集。視頻樣本在礦山模擬實(shí)驗(yàn)室中拍攝,并使用翻轉(zhuǎn)、旋轉(zhuǎn)等數(shù)據(jù)增強(qiáng)方法進(jìn)行了擴(kuò)展。
由于該數(shù)據(jù)集只包括沒(méi)有骨架序列的原始視頻,所以采用Lite?HRNet 提取人體關(guān)鍵點(diǎn)。針對(duì)單個(gè)人體,使用(x, y, c)來(lái)表示每個(gè)關(guān)鍵點(diǎn),其中x,y 分別為關(guān)鍵點(diǎn)在圖像中的橫、縱坐標(biāo),c為關(guān)鍵點(diǎn)的置信度分?jǐn)?shù)。對(duì)于多人情況,則選擇平均置信度最高的2 個(gè)個(gè)體作為具體目標(biāo)。共得到600個(gè)骨架序列,其中80% 作為訓(xùn)練集,20% 作為測(cè)試集。該數(shù)據(jù)集提供的評(píng)價(jià)標(biāo)準(zhǔn)為T(mén)op?1,并以準(zhǔn)確率作為主要評(píng)價(jià)指標(biāo)。
2.2人體動(dòng)作識(shí)別模塊
MEST?GCN 模型采用空間配置劃分策略將空間圖劃分為3 個(gè)子集:① 選擇1 個(gè)節(jié)點(diǎn)作為根節(jié)點(diǎn)。② 比根節(jié)點(diǎn)更靠近骨架重心的相鄰節(jié)點(diǎn)為向心集。③ 比根節(jié)點(diǎn)更遠(yuǎn)離骨架重心的相鄰節(jié)點(diǎn)為離心集。這3 個(gè)子集的卷積結(jié)果表達(dá)了不同尺度的運(yùn)動(dòng)特征。
2.2.2MEST?GCN模型
MEST?GCN是在ST?GCN基礎(chǔ)上進(jìn)行改進(jìn)。ST?GCN 模型的骨干網(wǎng)絡(luò)由9 個(gè)時(shí)空?qǐng)D卷積(Spatial Temporal Graph Convolution, ST?GC) 單元組成。每個(gè)ST?GC 單元包含1 個(gè)圖卷積層(GraphConvolutional Network, GCN) 、1 個(gè)時(shí)間卷積層(Temporal Convolutional Network, TCN)和1 個(gè)殘差結(jié)構(gòu)(Residual Structure) [13],如圖4(a)所示,可看出模型第2 層和第3 層、第5 層和第6 層、第8 層和第9 層的輸入輸出通道數(shù)完全相同,第3、6 和9 層與前一層重復(fù),屬于冗余設(shè)計(jì)。因此對(duì)ST?GCN 模型進(jìn)行改進(jìn)(圖4(b)),刪除3 個(gè)重復(fù)的ST?GC單元,以減少模型參數(shù),提高模型計(jì)算速度。
ST?GCN模型在GCN層利用預(yù)定義的圖拓?fù)浣Y(jié)構(gòu)提取空間特征,在TCN 層采用固定大小的卷積核進(jìn)行卷積操作,學(xué)習(xí)時(shí)間維度的信息。但礦工的行為習(xí)慣存在較大差異,這種固定特征提取方法難以適應(yīng)復(fù)雜的動(dòng)作變化,導(dǎo)致模型在真實(shí)煤礦場(chǎng)景下的魯棒性下降。為了解決該問(wèn)題,引入M2FA,通過(guò)增強(qiáng)模型在時(shí)間、空間和通道維度的特征提取能力,使模型能夠更充分地學(xué)習(xí)骨架序列的行為特征,從而提升圖卷積模型在煤礦場(chǎng)景中的性能。
M2FA 主要分為多維特征融合、多尺度特征融合、注意力權(quán)重圖生成3個(gè)階段。在多維特征融合階段,通過(guò)融合不同維度的壓縮特征得到全局信息特征,加強(qiáng)骨架序列中關(guān)鍵幀與關(guān)鍵節(jié)點(diǎn)間的依賴關(guān)系;在多尺度特征融合階段,通過(guò)對(duì)原始特征逐點(diǎn)卷積得到局部信息特征,并與全局信息特征相結(jié)合得到多尺度特征,增強(qiáng)行為特征的表達(dá)能力;在注意力權(quán)重圖生成階段,將原始特征與注意力權(quán)重逐點(diǎn)相乘,得到由M2FA 模塊增強(qiáng)后的特征。
在得到上述3 個(gè)特征描述符后,分別將其特征維度沿著時(shí)間和空間維度復(fù)制,拓展為輸入特征的維度N×C×T×V,并將拓展后的描述符在通道維度拼接,此時(shí)的行為特征的通道數(shù)為3C,然后用逐點(diǎn)卷積操作將特征映射的通道數(shù)由3C 恢復(fù)至C,多維特征融合階段完成。
在多尺度特征融合階段,采用逐點(diǎn)卷積直接學(xué)習(xí)原始輸入特征fin的局部信息,并與多維特征融合階段得到的全局壓縮信息逐位相加,融合多尺度的特征,進(jìn)一步增強(qiáng)行為特征的表達(dá)能力。
在經(jīng)過(guò)上述多維特征融合階段和多尺度特征融合階段后,得到新的融合特征fscale,大小為N×C×T×V,該特征同時(shí)具備多個(gè)維度的全局信息和局部上下文信息,進(jìn)行批量標(biāo)準(zhǔn)化和激活處理后,得到原始輸入特征的注意力權(quán)重M,大小為N×C×T×V。將權(quán)重M與原始特征F逐點(diǎn)相乘即可得到通過(guò)M2FA增強(qiáng)后的特征映射。
3實(shí)驗(yàn)結(jié)果及分析
3.1數(shù)據(jù)集
NTU?RGB+D 60 數(shù)據(jù)集[23]是人體行為識(shí)別任務(wù)中最大的數(shù)據(jù)集,具有56880個(gè)骨骼序列,包含了60 個(gè)動(dòng)作類別。因?yàn)樵摂?shù)據(jù)集具有不同的主體和視角, 所以其評(píng)價(jià)準(zhǔn)則包括交叉主體(Cross Subject,X?sub)和交叉視角(Cross View,X?view)2 個(gè)部分。交叉主體指40個(gè)主體中有一半用于訓(xùn)練,另一半用于測(cè)試。交叉視角指3 個(gè)攝像機(jī)拍攝角度中有2 個(gè)視角所捕獲的骨架序列用于訓(xùn)練,另一個(gè)視角捕獲的序列用于測(cè)試。本文除了使用NTU60官方提供的3D 骨骼序列進(jìn)行訓(xùn)練外,還采用Lite?HRNet 對(duì)數(shù)據(jù)集的視頻進(jìn)行提取,獲得2D骨架序列來(lái)進(jìn)行訓(xùn)練。
3.2參數(shù)配置
本文提出的模型基于PyTorch 框架實(shí)現(xiàn)。對(duì)于不同的數(shù)據(jù)集,模型訓(xùn)練均采用隨機(jī)梯度下降優(yōu)化算法,其中 Nesterov 動(dòng)量設(shè)置為 0.9,權(quán)重衰減系數(shù)設(shè)為 0.0005。初始學(xué)習(xí)率為 0.1,采用線性縮放策略調(diào)整學(xué)習(xí)率,總訓(xùn)練輪數(shù)為 16。
3.3對(duì)比實(shí)驗(yàn)
為了驗(yàn)證不同關(guān)鍵點(diǎn)數(shù)據(jù)對(duì)圖卷積模型性能的影響,本文在NTU60 數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn),采用去除冗余層后的時(shí)空?qǐng)D卷積模型(ST?GCN?6)進(jìn)行訓(xùn)練和測(cè)試, 結(jié)果見(jiàn)表1, 其中模型1 表示ST?GCN?6 模型直接使用NTU60 官方提供的3D 關(guān)鍵點(diǎn)數(shù)據(jù)進(jìn)行訓(xùn)練和測(cè)試;模型2 和模型3 分別表示ST?GCN?6 模型使用HRNet 和Lite?HRNet 提取的2D 關(guān)鍵點(diǎn)數(shù)據(jù)進(jìn)行訓(xùn)練和測(cè)試;模型4 表示本文提出的MEST?GCN 模型使用Lite?HRNet 提取的2D 關(guān)鍵點(diǎn)數(shù)據(jù)進(jìn)行訓(xùn)練和測(cè)試。由表1 可看出,模型2 在X?sub 和X?view 評(píng)價(jià)指標(biāo)下的準(zhǔn)確率分別為86.9% 和92.5%,模型3 的準(zhǔn)確率分別為86.5% 和91.8%,模型2 和模型3 在2 個(gè)評(píng)價(jià)指標(biāo)下的準(zhǔn)確率均優(yōu)于模型1。表明與3D 關(guān)鍵點(diǎn)數(shù)據(jù)相比, Lite?HRNet 提取的2D 關(guān)鍵點(diǎn)數(shù)據(jù)結(jié)合ST?GCN?6 模型能提升模型行為識(shí)別準(zhǔn)確率。模型3 在X?sub 和X?view 指標(biāo)上的準(zhǔn)確率比模型2 分別低0.4% 和0.7%,但Lite?HRNet 作為輕量化模型,計(jì)算復(fù)雜度顯著低于HRNet,在煤礦場(chǎng)景實(shí)際應(yīng)用中具有更高的實(shí)用性。模型4在X?sub 和X?view 評(píng)價(jià)指標(biāo)下的準(zhǔn)確率分別達(dá)到88.0% 和92.6%,相比模型3 分別提高1.5% 和0.8%。與ST?GCN?6 模型相比, MEST?GCN 模型能夠提升模型行為識(shí)別準(zhǔn)確率。
為了驗(yàn)證不同注意力模塊對(duì)ST?GCN?6 性能的影響,本文對(duì)比了ST?GCN?6 結(jié)合不同注意力模塊(SE 模塊、CBAM 模塊和M2FA 模塊)的表現(xiàn),并在NTU60 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn), 數(shù)據(jù)集使用Lite?HRNet 提取關(guān)鍵點(diǎn)數(shù)據(jù)。其中,SE 模塊[24]通過(guò)全連接操作增強(qiáng)了通道維度的特征表達(dá)能力, CBAM模塊[25]通過(guò)并行機(jī)制同時(shí)增強(qiáng)了通道和空間維度的特征表達(dá)能力。實(shí)驗(yàn)結(jié)果見(jiàn)表2。ST?GCN 在X?sub和X?view 評(píng)價(jià)指標(biāo)下的準(zhǔn)確率分別為87.3% 和92.4%, 參數(shù)量為3.12 Mib。刪除冗余層后的ST?GCN?6 在2 個(gè)評(píng)價(jià)指標(biāo)下的準(zhǔn)確率分別下降了0.8% 和0.6%,達(dá)86.5% 和91.8%,雖然模型準(zhǔn)確率有所下降,但參數(shù)量減少一半,僅為1.30 Mib,顯著降低模型計(jì)算復(fù)雜度。MEST?GCN 在X?sub 和X?view指標(biāo)下的準(zhǔn)確率分別提升至88.0% 和92.6%,相比ST?GCN?6 分別提高了1.5% 和0.8%。雖然參數(shù)量增加至1.87 Mib,但仍低于ST?GCN 模型的3.12 Mib。與其他注意力模塊相比,在ST?GCN?6 中引入SE 模塊的模型在X?sub 和X?view 指標(biāo)下的準(zhǔn)確率分別為86.9% 和91.8%,引入CBAM 模塊的模型分別達(dá)到了87.2% 和92.0%,SE 模塊和CBAM 模塊對(duì)模型性能提升相對(duì)有限。這是由于SE 模塊僅增強(qiáng)了通道維度的特征表達(dá),CBAM 模塊結(jié)合了通道和空間維度的特征表達(dá),而M2FA 模塊同時(shí)增強(qiáng)了通道、空間和時(shí)間維度的特征表達(dá)能力,因此在各項(xiàng)指標(biāo)中表現(xiàn)最佳,驗(yàn)證了其在提高圖卷積模型學(xué)習(xí)能力上的有效性。
為了驗(yàn)證MEST?GC 在ST?GCN 基礎(chǔ)上對(duì)精度、收斂速度和損失等方面的性能改進(jìn),記錄了訓(xùn)練過(guò)程中驗(yàn)證精度和平均損失隨迭代次數(shù)變化的曲線,如圖6 所示。從圖6(a)和圖6(b)可看出,MEST?GCN 驗(yàn)證精度和平均損失變化曲線與ST?GCN 具有較高的重合度,這表明改進(jìn)后的模型能夠保持與ST?GCN 相似的訓(xùn)練趨勢(shì)和特性,確保了模型的訓(xùn)練穩(wěn)定性和整體性能。對(duì)比圖6(c)和圖6(d)可看出MEST?GCN 的驗(yàn)證精度更高,收斂速度更快,表明M2FA 模塊能更有效地捕捉到關(guān)鍵特征,加速模型學(xué)習(xí)過(guò)程并提高模型性能。
為了驗(yàn)證Lite?HRNet 提取礦工關(guān)鍵點(diǎn)的效果,對(duì)礦工的站立、行走、坐、跨越、違規(guī)扒車(chē)和摔倒6 種動(dòng)作進(jìn)行了測(cè)試,如圖7 所示,結(jié)果表明Lite?HRNet 能有效地提取出人體關(guān)鍵點(diǎn),在昏暗場(chǎng)景和小尺度跨越動(dòng)作中依然表現(xiàn)出較強(qiáng)的魯棒性,證明了其對(duì)復(fù)雜工作環(huán)境的適應(yīng)能力。此外,對(duì)比Lite?HRNet 與HRNet 在礦工摔倒動(dòng)作上的關(guān)鍵點(diǎn)提取效果(圖8) ,可看出2 種網(wǎng)絡(luò)均能準(zhǔn)確識(shí)別出礦工的關(guān)鍵點(diǎn),但Lite?HRNet 在保證精確度的同時(shí)具備更低的參數(shù)量和計(jì)算復(fù)雜度,顯示出更高的實(shí)用性和實(shí)時(shí)性,滿足礦工動(dòng)作檢測(cè)任務(wù)的實(shí)時(shí)應(yīng)用需求。
為進(jìn)一步驗(yàn)證MEST?GCN 在真實(shí)場(chǎng)景下的有效性,在MBD 數(shù)據(jù)集上與其他圖卷積模型進(jìn)行了對(duì)比實(shí)驗(yàn), 并以準(zhǔn)確率作為評(píng)價(jià)指標(biāo)。實(shí)驗(yàn)采用Lite?HRNet 提取MBD 數(shù)據(jù)集中礦工的關(guān)鍵點(diǎn),生成骨架序列,然后輸入不同圖卷積模型提取行為特征,得到最終的識(shí)別結(jié)果,見(jiàn)表3。
由表3 可看出,在MBD 數(shù)據(jù)集上,與ST?GCN相比, MEST?GCN 在保持88.5% 準(zhǔn)確率的同時(shí),參數(shù)量減少至1.87 Mib。這是由于MEST?GCN 刪除了ST?GCN 中的冗余層,同時(shí)引入M2FA 注意力模塊,減少參數(shù)量的同時(shí)加強(qiáng)了對(duì)礦工骨架序列中節(jié)點(diǎn)、幀和通道的特征提取能力。與其他模型相比,MEST?GCN 的識(shí)別效果不如2s?AGCN 模型,這是由于2s?AGCN 模型在人為定義的圖拓?fù)浣Y(jié)構(gòu)基礎(chǔ)上增加了可學(xué)習(xí)的圖拓?fù)浣Y(jié)構(gòu),提高了對(duì)復(fù)雜動(dòng)作的識(shí)別準(zhǔn)確率,但這同時(shí)會(huì)增加額外的計(jì)算量和模型參數(shù),降低模型處理速度。MEST?GCN 的實(shí)時(shí)性能顯著優(yōu)于其他模型,幀率達(dá)到了18.26 幀/s。綜上,本文提出的模型在MBD 數(shù)據(jù)集上實(shí)現(xiàn)了88.5% 的準(zhǔn)確率,同時(shí)具備最小的參數(shù)量和最快的視頻處理速度,表明本文模型在煤礦場(chǎng)景下具有優(yōu)秀的性能和實(shí)際應(yīng)用價(jià)值。
不同模型在MBD 數(shù)據(jù)集上的可視化識(shí)別效果如圖9 所示。所展示的動(dòng)作分別為“站立”“行走”“ 坐”“ 跨越”“ 違規(guī)扒車(chē)” 和“ 摔倒” ??煽闯鯩EST?GCN 可以準(zhǔn)確識(shí)別礦工的動(dòng)作類別,表明其可以應(yīng)用于煤礦場(chǎng)景。
4結(jié)論
1)提出了一種結(jié)合Lite?HRNet 與的MEST?GCN 模型的礦工行為識(shí)別方法。利用Lite?HRNet提取視頻中礦工的關(guān)鍵點(diǎn)坐標(biāo),得到骨架序列;采用MEST?GCN 模型提取骨架序列中的行為特征,得到礦工行為識(shí)別結(jié)果。
2)改進(jìn)后的MEST?GCN 模型參數(shù)量下降至1.87 Mib。采用Lite?HRNet 提取NTU60 數(shù)據(jù)集的2D 關(guān)鍵點(diǎn)坐標(biāo)并進(jìn)行實(shí)驗(yàn),在X?sub 和X?view 評(píng)價(jià)標(biāo)準(zhǔn)下,模型識(shí)別準(zhǔn)確率分別達(dá)88.0% 和92.6%。
3) 在自建MBD 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,MEST?GCN 實(shí)現(xiàn)了88.5% 的識(shí)別準(zhǔn)確率,視頻處理速度達(dá)到了18.26 幀/s,可以應(yīng)用于煤礦場(chǎng)景。