融合雙目信息的隊(duì)列姿態(tài)檢測(cè)

2024-11-04 00:00:00趙繼發(fā)王呈榮英佼

計(jì)算機(jī)應(yīng)用研究 2024年9期

摘要：為實(shí)現(xiàn)隊(duì)列姿態(tài)動(dòng)作的準(zhǔn)確評(píng)估，針對(duì)訓(xùn)練場(chǎng)景中踢腿高度等三維人體姿態(tài)特征難以準(zhǔn)確測(cè)量的問題，提出融合雙目信息的隊(duì)列三維姿態(tài)特征檢測(cè)方法。方法分為2D姿態(tài)估計(jì)和雙目立體匹配兩個(gè)階段。為提高2D人體姿態(tài)檢測(cè)精度，設(shè)計(jì)基于改進(jìn)HRNet網(wǎng)絡(luò)的2D姿態(tài)估計(jì)模型。首先，在主干網(wǎng)絡(luò)引入空間通道注意力，增強(qiáng)特征提取能力。特征融合層采用自適應(yīng)空間特征融合模塊，融合網(wǎng)絡(luò)多尺度特征。其次，采用無偏數(shù)據(jù)處理方法進(jìn)行熱圖編解碼，減小數(shù)據(jù)統(tǒng)計(jì)誤差。最后，在模型訓(xùn)練時(shí)采用由粗到細(xì)的多階段監(jiān)督方法，提高關(guān)鍵點(diǎn)的檢測(cè)準(zhǔn)確率。在2D姿態(tài)估計(jì)模型基礎(chǔ)上，采用標(biāo)準(zhǔn)相關(guān)匹配函數(shù)實(shí)現(xiàn)雙目立體匹配，再通過坐標(biāo)變換得到三維人體姿態(tài)。實(shí)驗(yàn)結(jié)果表明，改進(jìn)的姿態(tài)估計(jì)網(wǎng)絡(luò)有較好的精度，在COCO數(shù)據(jù)集精度達(dá)到77.1%，在自制的隊(duì)列訓(xùn)練數(shù)據(jù)集上精度達(dá)到86.3%，相比原網(wǎng)絡(luò)分別提升2.2%和3.1%。在三維人體姿態(tài)的踢腿高度實(shí)驗(yàn)中，該方法測(cè)得平均相對(duì)誤差為2.5%，充分驗(yàn)證了算法的有效性。

關(guān)鍵詞：圖像處理；雙目視覺；注意力機(jī)制；姿態(tài)估計(jì)

中圖分類號(hào)：TP391 文獻(xiàn)標(biāo)志碼：A

文章編號(hào)：1001-3695（2024）09-041-2860-07

doi：10.19734/j.issn.1001-3695.2023.11.0595

Queue posture detection with fusion of binocular information

Zhao Jifa1， Wang Cheng1， Rong Yingjiao2

（1.School of Internet of Things， Jiangnan University， Wuxi Jiangsu 214122， China; 2.Science & Technology on Near-surface Detection Laboratory， Wuxi Jiangsu 214000， China）

Abstract：In order to realize the accurate evaluation of queue posture and action， aiming at the problem that it is difficult to accurately measure the three-dimensional human posture characteristics such as kick height in the training scene， this paper proposed a queue three-dimensional posture feature detection method based on binocular information. The method is divided into two stages： the 2D pose estimation stage and binocular stereo matching stage. In order to improve the accuracy of 2D human pose detection， it designed a 2D pose estimation model based on the improved HRNet network. Firstly， it introduced spatial channel attention in the back-bone network to enhance feature extraction capabilities. The feature fusion layer used an adaptive spatial feature fusion module to fuse multi-scale features of the network. Secondly， it used the unbiased data processing method to encode and decode the heat map to reduce the statistical error of the data. Finally，it adopted a coarse-to-fine multi-stage supervision method during model training to improve the detection accuracy of key points. Based on the 2D pose estimation model， it used the standard correlation matching function to achieve binocular stereo matching， and then obtained the 3D human pose through coordinate transformation. The experimental results show that the improved pose estimation network has better accuracy， the accuracy of the COCO dataset reaches 77.1%， and the detection accuracy of the self-made queue training dataset reaches 86.3%， which are respectively 2.2% and 3.1% higher than the original network. In the kick height experiment of the three-dimensional human body posture， the average relative error measured by the proposed method is 2.5%， which fully verifies the effectiveness of the algorithm.

Key words：image processing; binocular vision; attention mechanism; pose estimation

0 引言

傳統(tǒng)隊(duì)列訓(xùn)練中士兵姿態(tài)動(dòng)作的標(biāo)準(zhǔn)性都由教官人眼主觀評(píng)判，無法對(duì)士兵隊(duì)列動(dòng)作進(jìn)行量化判斷?；谟?jì)算機(jī)視覺評(píng)估隊(duì)列訓(xùn)練姿態(tài)，能夠?qū)崿F(xiàn)更高效的隊(duì)列訓(xùn)練。由于隊(duì)列訓(xùn)練場(chǎng)景存在人體尺度變化大、光照不均以及遮擋等問題，傳統(tǒng)姿態(tài)估計(jì)方法難以實(shí)現(xiàn)復(fù)雜場(chǎng)景的姿態(tài)檢測(cè)［1］。近年來，基于深度學(xué)習(xí)的2D姿態(tài)估計(jì)方法快速發(fā)展，姿態(tài)檢測(cè)效果顯著提升，被廣泛應(yīng)用于復(fù)雜場(chǎng)景的人體姿態(tài)檢測(cè)［2］。

2D人體姿態(tài)估計(jì)是一種基于RGB圖像數(shù)據(jù)來檢測(cè)人體骨骼關(guān)鍵點(diǎn)的方法［3］。目前主流姿態(tài)估計(jì)方法有RSN［4］、Hourglass［5］、ViTPose［6］、HRNet［7］等方法。RSN網(wǎng)絡(luò)采用密集連接結(jié)構(gòu)，充分融合特征的空間信息和語義信息，提高姿態(tài)估計(jì)精度。Hourglass網(wǎng)絡(luò)通過重復(fù)上下采樣操作，堆疊多個(gè)Hourglass模塊提高網(wǎng)絡(luò)表達(dá)能力，而反復(fù)上下采樣會(huì)導(dǎo)致大量有效特征丟失。針對(duì)有效特征丟失問題，Zou等人［8］提出了結(jié)合CBAM注意力［9］的層內(nèi)特征殘差類模塊IFRM學(xué)習(xí)有效的通道與空間特征，Hua等人［10］提出仿射模塊affinage block與殘差注意力模塊RAM，取代上采樣操作來獲得高分辨率特征，這兩種方法均有效緩解了特征丟失問題，提高了網(wǎng)絡(luò)性能。ViTPose是基于Vison Transformer結(jié)構(gòu)的人體姿態(tài)估計(jì)模型，該模型具有非常好的可拓展性。通過增大模型規(guī)模，引入額外數(shù)據(jù)集等方法， ViTPose-G*在人體姿態(tài)估計(jì)任務(wù)中達(dá)到了最先進(jìn)水平。但隨著模型增大，模型訓(xùn)練與推理對(duì)硬件設(shè)備有更高的要求，不便于實(shí)際場(chǎng)景的應(yīng)用與部署。HRNet網(wǎng)絡(luò)采樣多分支并行結(jié)構(gòu)，不僅保留不同尺度的特征信息，并在不同層次和尺度進(jìn)行特征融合，充分利用高分辨率特征的空間信息和低分辨率特征的語義信息，有效提高模型的表達(dá)能力。

二維姿態(tài)估計(jì)模型一般采用有監(jiān)督方法進(jìn)行訓(xùn)練，根據(jù)標(biāo)簽類型分為基于坐標(biāo)回歸和基于熱圖回歸［11］?；谧鴺?biāo)回歸的方法忽略了關(guān)鍵點(diǎn)周圍區(qū)域的空間信息，這對(duì)關(guān)鍵點(diǎn)的預(yù)測(cè)精度有較大的影響。為了得到更高精度的姿態(tài)估計(jì)模型，目前的主流姿態(tài)估計(jì)方法都采用基于熱圖回歸的方法預(yù)測(cè)關(guān)鍵點(diǎn)坐標(biāo)。但是，基于熱圖回歸的模型對(duì)標(biāo)簽坐標(biāo)進(jìn)行編解碼和翻轉(zhuǎn)策略時(shí)，數(shù)據(jù)存在統(tǒng)計(jì)誤差［11］，導(dǎo)致模型的檢測(cè)精度下降。為緩解數(shù)據(jù)誤差的影響，提高模型的魯棒性與檢測(cè)精度，Huang等人［12］提出了一種采用分類和回歸相結(jié)合的方法進(jìn)行編碼解碼，實(shí)現(xiàn)無偏數(shù)據(jù)處理（UDP），提高了現(xiàn)有姿態(tài)估計(jì)方法的關(guān)鍵點(diǎn)檢測(cè)精度。

注意力機(jī)制能夠自適應(yīng)學(xué)習(xí)特征權(quán)重系數(shù)，對(duì)網(wǎng)絡(luò)更關(guān)注的區(qū)域分配更大權(quán)重以增強(qiáng)重要特征［13］，在基本不增加參數(shù)的情況下提高特征提取能力。Yuan等人［14］在Vison Transformer結(jié)構(gòu)中提出一種輕量高效的注意力，能夠有效地對(duì)局部細(xì)粒度信息編碼和全局空間信息聚合，大幅提高了ViTs模型在ImageNet分類任務(wù)的精度。在尺度變化劇烈的場(chǎng)景中檢測(cè)小尺度目標(biāo)往往比較困難。為了提高小尺度目標(biāo)的檢測(cè)效果，Liu等人［15］提出自適應(yīng)空間特征融合（adaptive spatial feature fusion，ASFF）網(wǎng)絡(luò)改進(jìn)特征融合模塊，使模型融合多尺度特征圖權(quán)重，充分利用淺層特征與深層特征，提高對(duì)小尺度目標(biāo)的檢測(cè)精度。

隊(duì)列訓(xùn)練正步前進(jìn)時(shí)，還需要檢測(cè)步幅、步速及踢腿高度等三維人體姿態(tài)特征，根據(jù)2D姿態(tài)估計(jì)結(jié)果無法得到準(zhǔn)確的量化判斷。但在多視圖環(huán)境下，利用多視圖匹配能實(shí)現(xiàn)人體姿態(tài)的三維重建［16］。在雙目視覺中，立體匹配是實(shí)現(xiàn)立體視覺的關(guān)鍵步驟，根據(jù)匹配函數(shù)作用范圍，可分為局部匹配與全局匹配。全局匹配效率較低，而局部匹配缺乏全局參數(shù)導(dǎo)致匹配精度較差［17］。Hirschmuller［18］提出半全局立體匹配方法（semi-global matching，SGBM），通過聚合多個(gè)路徑代價(jià)進(jìn)行匹配，較好地兼顧匹配精度和效率。Hosni等人［19］采用分割算法選擇待匹配區(qū)域，有效提高局部匹配精度。基于2D姿態(tài)估計(jì)模型預(yù)測(cè)結(jié)果選擇待匹配區(qū)域，對(duì)左右視圖的人體關(guān)鍵點(diǎn)進(jìn)行局部匹配，既避免全局匹配的計(jì)算消耗，又充分利用了姿態(tài)估計(jì)模型性能，很好地平衡了整體算法檢測(cè)精度與檢測(cè)速度。

綜上，針對(duì)隊(duì)列訓(xùn)練場(chǎng)景中三維人體姿態(tài)特征檢測(cè)問題，本文設(shè)計(jì)了基于改進(jìn)HRNet的姿態(tài)估計(jì)模型PoseHRNet，再融合雙目姿態(tài)信息實(shí)現(xiàn)隊(duì)列三維姿態(tài)檢測(cè)，主要工作如下：

a）提出了空間通道注意力SCA，實(shí)現(xiàn)細(xì)粒度信息編碼和全局空間信息聚合，增強(qiáng)主干網(wǎng)絡(luò)的表達(dá)能力，并且改進(jìn)了主干網(wǎng)絡(luò)的特征融合層，通過自適應(yīng)空間特征融合模塊ASFF聚合多尺度特征。

b）重新設(shè)計(jì)損失函數(shù)，在模型訓(xùn)練階段實(shí)現(xiàn)由粗到細(xì)的多階段監(jiān)督，提高關(guān)鍵點(diǎn)的檢測(cè)準(zhǔn)確率。

c）根據(jù)關(guān)鍵點(diǎn)預(yù)測(cè)結(jié)果選擇待匹配區(qū)域，有效平衡了左右視圖匹配的精度與速度，實(shí)現(xiàn)高效的三維人體姿態(tài)估計(jì)。

1 基于PoseHRNet的2D姿態(tài)估計(jì)方法

本文算法重點(diǎn)關(guān)注隊(duì)列訓(xùn)練時(shí)二維人體姿態(tài)檢測(cè)，針對(duì)二維人體姿態(tài)估計(jì)任務(wù)，提出一種改進(jìn)網(wǎng)絡(luò)模型PoseHRNet。該模型在HRNet基礎(chǔ)上引入了空間通道注意力SCA和自適應(yīng)姿態(tài)特征融合ASSF模塊，構(gòu)建多階段損失函數(shù)，并采用無偏數(shù)據(jù)處理方法UDP進(jìn)行熱圖編碼和解碼，提高模型檢測(cè)準(zhǔn)確性和魯棒性。

1.1 PoseHRNet的網(wǎng)絡(luò)結(jié)構(gòu)

PoseHRNet的主體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示，網(wǎng)絡(luò)分為四個(gè)階段，分支數(shù)依次增加，最后輸出四條不同尺度的特征分支。首先輸入RGB圖片經(jīng)過兩個(gè)步長(zhǎng)為2的3×3卷積的基礎(chǔ)層Stem預(yù)處理后，分辨率降為1/4，通道數(shù)由3通道增加到64通道。第一條主分支全程保持1/4高分辨率，下采樣的子分支通過分辨率減半通道數(shù)加倍的方式充分表征特征。第一階段由四個(gè)bottleneck模塊和SCA注意力組成。后面的三個(gè)階段都有若干個(gè)HRModule和SCA注意力模塊組成，每個(gè)階段之間，會(huì)采用一個(gè)下采樣模塊增加輸出分支。第四階段末尾采用ASFF模塊自適應(yīng)融合4個(gè)不同尺度的特征分支生成17個(gè)表征人體關(guān)鍵點(diǎn)熱圖。

HRModule是由四個(gè)basic模塊和特征融合模塊組成。特征模塊融合模塊將各個(gè)分支輸出的不同尺度特征通過上采樣和下采樣操作達(dá)到同一尺度進(jìn)行融合。每個(gè)輸出支路特征都融合所有輸入分支特征，有效減少了特征傳遞過程中的信息丟失問題。basic模塊由兩個(gè)3×3卷積和一條殘差連接組成。bottleneck模塊由1個(gè)3×3卷積和兩個(gè)1×1卷積和一條殘差連接組成，特征通道數(shù)先減小為輸入的1/4再恢復(fù)到輸入的通道數(shù)。basic模塊和bottleneck模塊均來自ResNet［20］的殘差模塊，通過殘差連接有效解決了主干網(wǎng)絡(luò)加深導(dǎo)致的梯度消失問題。

算法1 PoseHRNet人體姿態(tài)估計(jì)算法

輸入：預(yù)處理后的RGB圖像I。

輸出：人體關(guān)鍵點(diǎn)坐標(biāo)Coord。

1） function PoseHRNet（I）

2） S ← stem （I） /*通過stem層卷積操作提取輸入圖像I的底層特征S*/

3） S_1 ← stage1（S） /*stage1通過4個(gè)bottleneck模塊進(jìn)一步提取圖像特征，得到S_1*/

4） S_1 ← SCA（S_1） /*SCA注意力匯聚局部空間特征與全局語義信息*/

5） for k=2 to 4 do

6） S_k ← stage_k（S_{k-1}） /*stage_k通過HRModule模塊提取更高層次的特征S_k*/

7） S_k ← SCA（S_k）

8） end for

9） Predheatmap ← ASFF（S_4） /*ASFF模塊聚合多尺度特征，得到預(yù)測(cè)熱圖結(jié)果*/

10） MaxCoord ← argmax（PredHeatmap） /*獲取預(yù)測(cè)熱圖中的最大值點(diǎn)的坐標(biāo)*/

11） Coord ← MaxCoord * I_size /*根據(jù)原始圖像的尺寸I_size將熱圖坐標(biāo)轉(zhuǎn)換回原始圖像的坐標(biāo)*/

12） return Coord

13） end function

1.2 空間通道注意力SCA

姿態(tài)估計(jì)的任務(wù)是檢測(cè)人體關(guān)鍵點(diǎn)的空間位置坐標(biāo)，而骨骼關(guān)鍵點(diǎn)之間又有特定的空間聯(lián)系，姿態(tài)估計(jì)網(wǎng)絡(luò)需要關(guān)注局部空間特征與全局空間特征。本文受CBAM［9］機(jī)制啟發(fā)，設(shè)計(jì)了空間通道注意力SCA，SCA中的空間注意力模塊（spatial attention module，SAM）能夠?qū)γ總€(gè)空間位置計(jì)算其相鄰區(qū)域的局部空間信息，通過聚合密集的局部空間信息實(shí)現(xiàn)細(xì)粒度的空間特征編碼。同時(shí)SCA通道注意力模塊（channel attention module，CAM）采用全局平均池化與最大池化來計(jì)算全局通道注意力。SCA模塊兼顧了全局上下文信息與局部空間特征，從而有效提升了關(guān)鍵點(diǎn)檢測(cè)精度，SCA注意力結(jié)構(gòu)如圖2所示。

圖2空間注意力模塊中，給定輸入特征圖Xi∈RH×W×C，通過對(duì)Xi空間位置（i，j）的C維特征向量進(jìn)行線性投影，將投影后的特征通過reshape操作進(jìn)行維度變換，得到（i，j）相鄰K×K局部窗口區(qū)域的空間注意力權(quán)重A^i，j∈RK2×K2。VΔi， j∈RC×K2表示以（i，j）為中心的局部窗口特征，與softmax操作后的空間注意力權(quán)重A^i，j相乘，得到具有空間信息的局部輸出XΔi，j。然后把每個(gè)位置窗口內(nèi)所有通過注意力權(quán)重調(diào)整過的特征向量累加起來，實(shí)現(xiàn)局部空間信息聚合，即對(duì)應(yīng)圖中的fold操作，得到具有細(xì)粒度空間信息的特征圖Xs。

3.3 人體姿態(tài)估計(jì)實(shí)驗(yàn)結(jié)果與分析

表1為本文方法和其他姿態(tài)估計(jì)方法在COCO驗(yàn)證集上的性能對(duì)比。

由表1中數(shù)據(jù)可知，PoseHRNet的檢測(cè)精度AP為77.1%，模型的參數(shù)量和浮點(diǎn)計(jì)算量分別為28.83 M和8.05 GFlops。與基線模型HRNet-w32相比，PoseHRNet參數(shù)量和浮點(diǎn)運(yùn)算量少量增加，模型檢測(cè)平均精度AP提高了2.2%，中小目標(biāo)檢測(cè)準(zhǔn)確率APM提高了2.8%，在檢測(cè)精度和模型復(fù)雜度之間取得了更好的平衡。表1中ViTPose-G*通過增大模型參數(shù)到1 000 M，引入額外數(shù)據(jù)集AIC，提高輸入圖片尺寸，在人體姿態(tài)估計(jì)任務(wù)中達(dá)到了最先進(jìn)水平，但實(shí)際應(yīng)用中有諸多限制。與同等規(guī)模的ViTPose-B相比，PoseHRNet以更小的模型復(fù)雜度達(dá)到更高檢測(cè)精度，便于實(shí)際場(chǎng)景的部署與應(yīng)用。

為驗(yàn)證PoseHRNet在隊(duì)列訓(xùn)練應(yīng)用場(chǎng)景中姿態(tài)檢測(cè)的性能，通過在自制隊(duì)列訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練來評(píng)估模型的有效性，表2為不同方法在自制數(shù)據(jù)集上性能比較。

根據(jù)表2結(jié)果顯示，PoseHRNet在自制數(shù)據(jù)集平均檢測(cè)精度達(dá)到了86.3%。與原基線模型HRNet-w32相比，AP提升了3.1%，AP50和AP75分別提高了2.2%和1.4%。相比其他方法，PoseHRNet取得了更佳檢測(cè)精度，驗(yàn)證了本文算法在隊(duì)列訓(xùn)練場(chǎng)景的有效性。二維人體姿態(tài)檢測(cè)結(jié)果對(duì)三維姿態(tài)結(jié)果的準(zhǔn)確性和可靠性有顯著影響，提高二維姿態(tài)估計(jì)模型的檢測(cè)精度可以實(shí)現(xiàn)更精確的三維隊(duì)列姿態(tài)特征檢測(cè)效果。

3.4 姿態(tài)估計(jì)模型消融實(shí)驗(yàn)

為研究不同模塊對(duì)人體姿態(tài)估計(jì)模型性能的影響，本節(jié)基于COCO數(shù)據(jù)集對(duì)各個(gè)模塊進(jìn)行消融實(shí)驗(yàn)，消融實(shí)驗(yàn)結(jié)果如表3所示。

由表3消融實(shí)驗(yàn)結(jié)果可知，通過對(duì)原始數(shù)據(jù)無偏數(shù)據(jù)處理，減小熱圖編解碼過程中統(tǒng)計(jì)誤差，各項(xiàng)性能指標(biāo)都有提升，其中檢測(cè)精度提升1.3%。通過引入多階段監(jiān)督，構(gòu)建各階段的損失函數(shù)并加權(quán)求和，使得模型收斂效果更好，檢測(cè)精度提高0.6%。ASFF模塊能夠融合多尺度分支特征，引入ASFF后模型檢測(cè)精度提升1.1%。SCA注意力機(jī)制能夠更細(xì)粒度地提取空間信息與通道信息，有效提升模型檢測(cè)性能，與基線模型相比，引入SCA模塊后，精度提高1.7%。

3.5 三維姿態(tài)檢測(cè)結(jié)果與分析

本文對(duì)隊(duì)列訓(xùn)練場(chǎng)景典型的踢腿動(dòng)作進(jìn)行檢測(cè)，采集了28個(gè)踢腿動(dòng)作進(jìn)行檢測(cè)，測(cè)量踢腿高度與實(shí)際踢腿高度，通過比較測(cè)量值與實(shí)際值的誤差驗(yàn)證隊(duì)列三維姿態(tài)檢測(cè)效果。踢腿高度值實(shí)際值通過AimPosition光學(xué)定位系統(tǒng)AP-STD-200測(cè)量獲得，AimPosition在視場(chǎng)范圍1～2.4 m內(nèi)的定位精度為0.12 mm，滿足實(shí)驗(yàn)需求。

為驗(yàn)證基于CCORR_NORMED的三維姿態(tài)估計(jì)方法性能，設(shè)計(jì)了基于半全局立體匹配方法SGBM的三維重建方法作為對(duì)比實(shí)驗(yàn)。SGBM通過對(duì)雙目相機(jī)左右視圖直接進(jìn)行立體匹配與視差計(jì)算，得到左視圖的三維點(diǎn)云圖，實(shí)現(xiàn)二維像素坐標(biāo)到三維空間坐標(biāo)的映射。根據(jù)姿態(tài)估計(jì)模型預(yù)測(cè)的關(guān)鍵點(diǎn)像素坐標(biāo)即可獲得對(duì)應(yīng)的三維空間坐標(biāo)。兩種方法的部分檢測(cè)結(jié)果如表4所示。

表中：Vactual表示踢腿高度實(shí)際測(cè)量值；Vmeasured為測(cè)量值；Erelative相對(duì)檢測(cè)誤差；Tmatching匹配耗時(shí)；Tdetection模型檢測(cè)圖像耗時(shí)；Ttotal表示方法總耗時(shí)。本文采用的方法為融合雙目姿態(tài)信息，基于CCORR_NORMED局部匹配實(shí)現(xiàn)三維人體姿態(tài)檢測(cè)。表中SGBM方法需要對(duì)雙目圖像進(jìn)行半全局立體匹配，再結(jié)合單目圖像的姿態(tài)信息實(shí)現(xiàn)三維人體姿態(tài)檢測(cè)。

由表4的實(shí)驗(yàn)結(jié)果可知，融合雙目姿態(tài)信息的三維姿態(tài)檢測(cè)方法在踢腿高度實(shí)驗(yàn)的平均相對(duì)誤差為2.51%，基于SGBM的三維姿態(tài)檢測(cè)方法的平均相對(duì)誤差為49.8%。姿態(tài)估計(jì)網(wǎng)絡(luò)預(yù)測(cè)雙目姿態(tài)信息平均耗時(shí)為32.98 ms，而僅計(jì)算單目姿態(tài)信息平均耗時(shí)為24.71 ms。雖然計(jì)算雙目姿態(tài)信息需要耗費(fèi)更多時(shí)間，但基于雙目信息進(jìn)行局部立體匹配大幅度減少計(jì)算消耗，整體上以更少的時(shí)間消耗達(dá)到更高的檢測(cè)精度，實(shí)現(xiàn)了高效的三維人體姿態(tài)估計(jì)。為更直觀地表示兩種方法的檢測(cè)效果，繪制了完整實(shí)驗(yàn)的檢測(cè)結(jié)果圖與檢測(cè)誤差圖，如圖8與9所示。

圖8（a）為基于CCORR_NORMED的檢測(cè)值與實(shí)際值對(duì)比，縱坐標(biāo)為踢腿高度，橫坐標(biāo)為數(shù)據(jù)編號(hào)，圖8（b）為基于SGBM方法得到的檢測(cè)對(duì)比圖。圖9（a）（b）為兩種方法的誤差曲線圖，縱坐標(biāo)為相對(duì)誤差，橫坐標(biāo)為數(shù)據(jù)編號(hào)。從圖8和9可以看出，基于CCORR_NORMED方法的檢測(cè)誤差明顯更小。分析可知，在2D姿態(tài)估計(jì)模型的檢測(cè)結(jié)果基礎(chǔ)上對(duì)關(guān)鍵點(diǎn)進(jìn)行立體匹配，能夠準(zhǔn)確快速獲得關(guān)鍵點(diǎn)的三維信息從而實(shí)現(xiàn)高效的三維姿態(tài)檢測(cè)。傳統(tǒng)的SGBM是對(duì)全圖進(jìn)行三維重建，不但耗時(shí)長(zhǎng)，而且受圖片的噪點(diǎn)影響大，進(jìn)而導(dǎo)致局部點(diǎn)檢測(cè)精度不足?；贑CORR_NORMED的三維姿態(tài)估計(jì)方法對(duì)人體關(guān)鍵點(diǎn)進(jìn)行三維重建有明顯精度優(yōu)勢(shì)和速度優(yōu)勢(shì)。

3.6 可視化結(jié)果分析

姿態(tài)估計(jì)網(wǎng)絡(luò)檢測(cè)結(jié)果如圖10和11所示，共檢測(cè)17個(gè)人體關(guān)鍵點(diǎn)，人體左側(cè)關(guān)鍵點(diǎn)、右側(cè)人體關(guān)鍵點(diǎn)以及頭部區(qū)域關(guān)鍵點(diǎn)分別采用綠色、藍(lán)色和橘黃色表示（見電子版）。圖10給為COCO驗(yàn)證集上的部分檢測(cè)結(jié)果，圖（a）是單人有遮擋場(chǎng)景，圖（b）是較遠(yuǎn)距離逆光場(chǎng)景，圖（c）為光線較暗場(chǎng)景，圖（d）（e）為多人有遮擋的場(chǎng)景。上述結(jié)果表明PoseHRNet在單人、多人、有遮擋、弱光照等復(fù)雜場(chǎng)景下均能準(zhǔn)確檢測(cè)出人體關(guān)鍵點(diǎn)。圖11（a）（b）為自制隊(duì)列訓(xùn)練數(shù)據(jù)集的檢測(cè)效果圖，圖中給出了單人多人以及不同光照下隊(duì)列訓(xùn)練場(chǎng)景的人體關(guān)鍵點(diǎn)檢測(cè)結(jié)果，圖11（c）還給出了基于SGBM算法得到的深度圖。從檢測(cè)結(jié)果可以看出，在復(fù)雜場(chǎng)景PoseHRNet都能較準(zhǔn)確地檢測(cè)出關(guān)鍵點(diǎn)位置，達(dá)到了預(yù)期效果。

4 結(jié)束語

針對(duì)隊(duì)列訓(xùn)練場(chǎng)景中三維姿態(tài)檢測(cè)問題，本文提出了融合雙目信息的隊(duì)列三維姿態(tài)特征檢測(cè)方法。通過2D姿態(tài)估計(jì)模型與標(biāo)準(zhǔn)相關(guān)匹配函數(shù)實(shí)現(xiàn)雙目相機(jī)左右視圖中人體關(guān)鍵點(diǎn)的精確匹配，再利用坐標(biāo)變換得到人體關(guān)鍵點(diǎn)的三維空間坐標(biāo)，進(jìn)而得到三維姿態(tài)特征。2D姿態(tài)估計(jì)模型基于HRNet進(jìn)行改進(jìn)，在COCO數(shù)據(jù)集精度達(dá)到77.1%，在自制數(shù)據(jù)集上檢測(cè)精度達(dá)到86.3%，相比原網(wǎng)絡(luò)分別提升2.2%和3.1%，本文的改進(jìn)方法有效提升了2D姿態(tài)估計(jì)的檢測(cè)精度。在隊(duì)列三維姿態(tài)檢測(cè)的踢腿高度實(shí)驗(yàn)上，本文基于2D姿態(tài)估計(jì)模型預(yù)測(cè)結(jié)果對(duì)左右視圖人體關(guān)鍵點(diǎn)進(jìn)行局部匹配，匹配平均耗時(shí)3.4 ms，測(cè)得踢腿高度平均相對(duì)誤差為2.5%，很好地平衡了三維人體姿態(tài)估計(jì)的檢測(cè)精度和檢測(cè)速度。

參考文獻(xiàn)：

［1］張宇，溫光照，米思婭，等. 基于深度學(xué)習(xí)的二維人體姿態(tài)估計(jì)綜述［J］. 軟件學(xué)報(bào)， 2022， 33（11）： 4173-4191. （Zhang Yu， Wen Guangzhao， Mi Siya， et al. Overview on 2D human pose estimation based on deep learning［J］. Journal of Software， 2022， 33（11）： 4173-4191.）

［2］鐘寶榮，吳夏靈. 基于高分辨率網(wǎng)絡(luò)的輕量型人體姿態(tài)估計(jì)研究［J］. 計(jì)算機(jī)工程， 2023， 49（4）： 226-232，239. （Zhong Baorong， Wu Xialing. Research on lightweight human pose estimation based on high-resolution network［J］. Computer Engineering， 2023， 49（4）： 226-232，239.）

［3］渠涵冰，賈振堂. 輕量級(jí)高分辨率人體姿態(tài)估計(jì)研究［J］. 激光與光電子學(xué)進(jìn)展， 2022， 59（18）： 129-136. （Qu Hanbing， Jia Zhentang. Lightweight and high-resolution human pose estimation method［J］. Laser & Optoelectronics Progress， 2022， 59（18）： 129-136.）

［4］Cai Yuanha， Wang Zhicheng， Luo Zhengxiong， et al. Learning delicate local representations for multi-person pose estimation［C］//Proc of European Conference on Computer Vision. Cham： Springer， 2020： 455-472.

［5］Newell A， Yang Kaiyu， Deng Jia. Stacked Hourglass networks for human pose estimation［C］//Proc of European Conference on Computer Vision. Cham： Springer， 2016： 483-499.

［6］Xu Yufei， Zhang Jing， Zhang Qiming， et al. ViTPose： simple vision transformer baselines for human pose estimation［EB/OL］. （2022-04-26）. https：//arxiv.org/abs/2204.12484.

［7］Sun Ke， Xiao Bin， Liu Dong， et al. Deep high-resolution representation learning for human pose estimation［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway，NJ： IEEE Press， 2019： 5686-5696.

［8］Zou Xuelian， Bi Xiaojun， Yu Changdong. Improving human pose estimation based on stacked hourglass network［J］. Neural Processing Letters， 2023， 55（7）：9521-9544.

［9］Woo S， Park J， Lee J Y， et al. CBAM： convolutional block attention module［C］//Proc of European Conference on Computer Vision. Cham： Springer， 2018： 3-19.

［10］Hua Guoguang， Li Lihong， Liu Shiguang. Multipath affinage stacked-hourglass networks for human pose estimation［J］. Frontiers of Computer Science， 2020， 14（4）： 1447011.

［11］王仕宸，黃凱，陳志剛，等. 深度學(xué)習(xí)的三維人體姿態(tài)估計(jì)綜述［J］. 計(jì)算機(jī)科學(xué)與探索， 2023， 17（1）： 74-87. （Wang Shichen， Huang Kai， Chen Zhigang， et al. Survey on 3D human pose estimation of deep learning［J］. Journal of Frontiers of Computer Science and Technology， 2023， 17（1）： 74-87.）

［12］Huang Junjie， Zhu Zheng， Guo Feng， et al. The devil is in the details： delving into unbiased data processing for human pose estimation［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway，NJ：IEEE Press，2020： 5699-5708.

［13］李麗，張榮芬，劉宇紅，等. 基于多尺度注意力機(jī)制的高分辨率網(wǎng)絡(luò)人體姿態(tài)估計(jì)［J］. 計(jì)算機(jī)應(yīng)用研究， 2022， 39（11）： 3487-3491，3497. （Li Li， Zhang Rongfen， Liu Yuhong， et al. High resolution network human pose estimation based on multi-scale attention mechanism［J］. Application Research of Computers， 2022， 39（11）： 3487-3491，3497.）

［14］Yuan Li， Hou Qibin， Jiang Zihang， et al. VOLO： vision outlooker for visual recognition［J］. IEEE Trans on Pattern Analysis and Machine Intelligence， 2022， 45（5）： 6575-6586.

［15］Liu Songtao， Huang Di， Wang Yunhong. Learning spatial fusion for single-shot object detection［EB/OL］. （2019）. https：//arxiv.org/abs/1911.09516.

［16］Qiu Haibo， Wang Chunyu， Wang Jingdong， et al. Cross view fusion for 3D human pose estimation［C］//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway，NJ：IEEE Press，2019： 4341-4350.

［17］暢雅雯，趙冬青，單彥虎. 多特征融合和自適應(yīng)聚合的立體匹配算法研究［J］. 計(jì)算機(jī)工程與應(yīng)用， 2021， 57（23）： 219-225. （Chang Yawen， Zhao Dongqing， Shan Yanhu. Research on stereo matching algorithm based on multi-feature fusion and adaptive aggregation［J］. Computer Engineering and Applications， 2021， 57（23）： 219-225.）

［18］Hirschmuller H. Stereo processing by semiglobal matching and mutual information［J］. IEEE Trans on Pattern Analysis and Machine Intelligence， 2007， 30（2）： 328-341.

［19］Hosni A， Bleyer M， Gelautz M， et al. Local stereo matching using geodesic support weights［C］//Proc of the 16th IEEE International Conference on Image Processing. Piscataway，NJ： IEEE Press， 2009： 2093-2096.

［20］He Kaiming， Zhang Xiangyu， Ren Shaoqing， et al. Deep residual learning for image recognition［C］//Proc of IEEE Conference on Computer Vision and Pattern Recognition. 2016： 770-778.

［21］Li Wenbo， Wang Zhicheng， Yin Binyi， et al. Rethinking on multi-stage networks for human pose estimation［EB/OL］. （2019-01-01）. https：//arxiv.org/abs/1901.00148.

［22］Zhang Hang， Wu Chongruo， Zhang Zhongyue， et al. ResNeSt： split-attention networks［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. 2022： 2735-2745.

［23］Hu Jie， Shen Li， Sun Gang， et al. Squeeze-and-excitation networks［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2018： 7132-7141.

［24］Wei S E， Ramakrishna V， Kanade T， et al. Convolutional pose machines［C］//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press， 2016： 4724-4732.

［25］Yu Changqian， Xiao Bin， Gao Changxin， et al. Lite-HRNet： a lightweight high-resolution network［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021： 10435-10445.

［26］Ma Ningning， Zhang Xiangyu， Zheng Haitao， et al. ShuffleNet V2： practical guidelines for efficient CNN architecture design［C］//Proc of European Conference on Computer Vision. Cham： Springer， 2018： 122-138.

收稿日期：2023-11-15；修回日期：2024-01-15 基金項(xiàng)目：近地面探測(cè)技術(shù)重點(diǎn)實(shí)驗(yàn)室基金資助項(xiàng)目（6142414220203）

作者簡(jiǎn)介：趙繼發(fā)（1998—），男，碩士，主要研究方向?yàn)閳D像處理和姿態(tài)估計(jì)；王呈（1983—），男（通信作者），副教授，博士，主要研究方向?yàn)榉蔷€性系統(tǒng)建模與控制、機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘（wangc@jiangnan.edu.cn）；榮英佼（1978—），女，工程師，主要研究方向?yàn)槟繕?biāo)檢測(cè)和信號(hào)處理．

計(jì)算機(jī)應(yīng)用研究2024年9期

計(jì)算機(jī)應(yīng)用研究的其它文章: 基于頻譜特征混合Transformer的紅外和可見光圖像融合; 基于全局頻域池化的行為識(shí)別算法; 基于集中注意力接受場(chǎng)網(wǎng)絡(luò)的偏振成像偽裝目標(biāo)檢測(cè); 抗惡意敵手的線性門限隱私集合交集協(xié)議; 基于上下文感知的自適應(yīng)訪問控制模型; 車聯(lián)網(wǎng)基于稀疏用戶環(huán)境的LBS隱私保護(hù)方案