(河北工業(yè)大學(xué)人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津 300401)
目前,多人姿態(tài)估計(jì)已成為人體姿態(tài)估計(jì)研究的熱點(diǎn)問(wèn)題?,F(xiàn)有的多人姿態(tài)估計(jì)方法分為兩類:自頂向下的方法和自底向上的方法。自頂向下的方法首先從圖像中定位人體位置,然后對(duì)每個(gè)人體目標(biāo)使用單人姿態(tài)估計(jì)獲得最終姿態(tài)估計(jì)結(jié)果;自底向上的方法則首先直接檢測(cè)圖像中所有人體關(guān)鍵點(diǎn),并根據(jù)圖像中的其它關(guān)聯(lián)信息將屬于同一人體目標(biāo)的關(guān)鍵點(diǎn)組合成一個(gè)完整的人體姿態(tài)。
為了提高關(guān)鍵點(diǎn)檢測(cè)精度,本文提出級(jí)聯(lián)特征網(wǎng)絡(luò)(Cascaded High-resolution Representation Network,CHRN),該網(wǎng)絡(luò)以HRNet[1]網(wǎng)絡(luò)為基礎(chǔ),通過(guò)構(gòu)建主體網(wǎng)絡(luò)與微調(diào)網(wǎng)絡(luò)的結(jié)構(gòu)定位人體關(guān)鍵點(diǎn)。主體網(wǎng)絡(luò)利用多通道、多階段模式提取深度特征,并以多尺度融合方式將多階段深度特征進(jìn)行融合,獲得圖像中更加全面且綜合的信息;微調(diào)網(wǎng)絡(luò)級(jí)聯(lián)整合主體網(wǎng)絡(luò)提取的多階段深度特征,對(duì)主體網(wǎng)絡(luò)中識(shí)別率較低的人體關(guān)鍵點(diǎn)進(jìn)行在線挖掘[2]。
本文主要貢獻(xiàn)為:①提出級(jí)聯(lián)特征網(wǎng)絡(luò)的高效網(wǎng)絡(luò)模型,通過(guò)級(jí)聯(lián)深度特征并結(jié)合在線關(guān)鍵點(diǎn)挖掘提高不易識(shí)別關(guān)鍵點(diǎn)的識(shí)別率,進(jìn)而提升關(guān)鍵點(diǎn)整體識(shí)別率;②將本文方法與其它經(jīng)典算法進(jìn)行系統(tǒng)比較,在MPII[3]數(shù)據(jù)集上對(duì)人體姿態(tài)估計(jì)的直觀效果和識(shí)別精度進(jìn)行評(píng)估。實(shí)驗(yàn)結(jié)果證明,本文方法具有一定有效性和先進(jìn)性。
隨著深度學(xué)習(xí)方法在計(jì)算機(jī)視覺(jué)領(lǐng)域的廣泛應(yīng)用,卷積神經(jīng)網(wǎng)絡(luò)(CNN Convolutional Neural Network)[4-5]在人體姿態(tài)估計(jì)方面得到了良好發(fā)展。最近研究[6-13]主要依賴于卷積神經(jīng)網(wǎng)絡(luò),韓金貴等[4]對(duì)此作了比較全面的研究綜述,本文主要關(guān)注基于卷積神經(jīng)網(wǎng)絡(luò)的多人姿態(tài)估計(jì)方法。多人姿態(tài)估計(jì)方法可分為兩類:自頂向下的方法和自底向上的方法。
自頂向下的方法[2,14,16]通過(guò)將單人姿態(tài)估計(jì)與目標(biāo)檢測(cè)相結(jié)合,以解決多人人體姿態(tài)估計(jì)問(wèn)題。Fang 等[14]使用空間轉(zhuǎn)換網(wǎng)絡(luò)(Spatial Transformer Networks,STN)[15]處理不準(zhǔn)確的邊界框,然后使用堆疊沙漏網(wǎng)絡(luò)完成關(guān)鍵點(diǎn)檢測(cè);He 等[16]在Mask-RCNN 模型中結(jié)合實(shí)例分割和關(guān)鍵點(diǎn)檢測(cè),將關(guān)鍵點(diǎn)附加在RoI 對(duì)齊的特征映射上,通過(guò)堆疊沙漏網(wǎng)絡(luò)獲得每個(gè)關(guān)鍵點(diǎn)的位置;Chen 等[2]在特征金字塔網(wǎng)絡(luò)[17]上開(kāi)發(fā)GlobalNet 用于多尺度推理,并通過(guò)在線關(guān)鍵點(diǎn)挖掘重新預(yù)測(cè)。自頂向下的方法將關(guān)鍵點(diǎn)檢測(cè)模型的注意力集中到圖像中各人體目標(biāo)上,這樣減少了圖像中其它冗余信息干擾,獲得了良好表現(xiàn)。
自底向上的方法首先直接預(yù)測(cè)所有關(guān)鍵點(diǎn),并將它們組合成所有人的完整姿勢(shì)。在Ladicky 等[18]提出使用基于HOG[19]的特征和概率方法聯(lián)合預(yù)測(cè)人體部分分割和部分位置;Pishchulin 等[20]提出DeepCut 方法,該方法將圖像中的多人人體姿態(tài)估計(jì)問(wèn)題轉(zhuǎn)換為整數(shù)線性編程(Integer Linear Program,ILP)問(wèn)題;Insafutdinov 等[21]使用更深層次的ResNet[22]改進(jìn)DeepCut 提出DeeperCut,并采用圖像條件成對(duì)匹配獲得更好性能;Cao 等[23]使用CPM(Convolu?tional Pose Machines)將關(guān)鍵點(diǎn)之間的關(guān)系映射到部分親和域(Part Affinity Fields,PAF),并將關(guān)鍵點(diǎn)組合成不同的人體姿態(tài);Kocabas 等[24]提出MultiposeNet 在檢測(cè)人體關(guān)鍵點(diǎn)的同時(shí),利用另一個(gè)分支檢測(cè)人體目標(biāo)位置,為關(guān)鍵點(diǎn)聚類提供依據(jù)。由于目標(biāo)不明確,關(guān)鍵點(diǎn)定位空間過(guò)大,目前自底向上的方法在精度上仍然低于自頂向下的方法。
為提高關(guān)鍵點(diǎn)檢測(cè)精度,本文提出級(jí)聯(lián)特征網(wǎng)絡(luò)(CHRN),將主體網(wǎng)絡(luò)與微調(diào)網(wǎng)絡(luò)相結(jié)合,增加對(duì)不易識(shí)別關(guān)鍵點(diǎn)的關(guān)注度,從而提高關(guān)鍵點(diǎn)檢測(cè)整體精度。
CHRN 使用HRNet 提取圖像特征,并借鑒CPN 模型思想,包含主體和微調(diào)兩個(gè)分支子網(wǎng)絡(luò)。
在CHRN 中,主體網(wǎng)絡(luò)負(fù)責(zé)提取圖像特征并檢測(cè)容易檢測(cè)到的關(guān)鍵點(diǎn),微調(diào)網(wǎng)絡(luò)使用瓶頸模塊和級(jí)聯(lián)整合主體網(wǎng)絡(luò)各階段特征,并通過(guò)關(guān)鍵點(diǎn)在線挖掘檢測(cè)不易識(shí)別的關(guān)鍵點(diǎn)。
主體網(wǎng)絡(luò)部分以HRNet 網(wǎng)絡(luò)模型為基礎(chǔ),通過(guò)該模型結(jié)構(gòu)中不同分辨率的深度特征輸出層構(gòu)建而得。該網(wǎng)絡(luò)共有4 個(gè)并行的深度特征提取子網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)如式(1)所示。
式(1)中,Nij為HRNet 網(wǎng)絡(luò)的基本處理單元,其中橫向?yàn)榉种?,包? 個(gè)分支,分支數(shù)j=1,2,3,4,縱向?yàn)殡A段,包括4 個(gè)階段,階段數(shù)為i=1,2,3,4。
將4 個(gè)并行的深度特征提取子網(wǎng)中第i個(gè)階段的輸入記 為C={C1,C2,…,Ci},第i階段的輸出記為,輸出的分辨率和寬度與輸入的分辨率和寬度相同,在同一個(gè)階段的不同分支中,交換單元多尺度融合方式如式(2)所示。
式(2)中,函數(shù)a(Cr,m)表示將Cr從分辨率r上采樣或下采樣到分辨率m,Cm’為C’包含的元素,上采樣使用最鄰近采樣,然后使用1×1 的卷積進(jìn)行通道對(duì)齊,下采樣使用3×3 的卷積,當(dāng)r=m,如式(3)所示。
本文在基于主體網(wǎng)絡(luò)生成的高分辨率特征圖上附加使用OHKM 的微調(diào)網(wǎng)絡(luò)分支,對(duì)主體網(wǎng)絡(luò)預(yù)測(cè)的關(guān)鍵點(diǎn)進(jìn)行修正。微調(diào)網(wǎng)絡(luò)將上述構(gòu)建的主體網(wǎng)絡(luò)各階段提取的深度特征:C111、C212、C313、C414以及人體關(guān)鍵點(diǎn)置信度熱圖H作進(jìn)一步特征提取,具體結(jié)構(gòu)如式(4)所示。
式(4)中,C111、C212、C313、C414、H經(jīng)過(guò)進(jìn)一步特征提取后分別生成F1、F2、F3、F4、F5,其中F1、F2、F3、F4、F5的寬度和分辨率都相同,C為F1、F2、F3、F4、F5的特征級(jí)聯(lián),H*為經(jīng)過(guò)人體關(guān)鍵點(diǎn)在線挖掘的人體關(guān)鍵點(diǎn)置信度熱圖。
為驗(yàn)證本文方法的有效性,在公開(kāi)的MPII 數(shù)據(jù)集上對(duì)本文方法進(jìn)行評(píng)估,并與一些優(yōu)秀方法進(jìn)行對(duì)比。
MPII 數(shù)據(jù)集包含約25 000 張圖像,其中有5 000 張圖像用于測(cè)試,其余圖像用于訓(xùn)練。評(píng)價(jià)指標(biāo)為:頭部標(biāo)準(zhǔn)化概率(Percentage of Correct Keypoints According to Head Size,PCKh)。
為驗(yàn)證級(jí)聯(lián)特征網(wǎng)絡(luò)關(guān)鍵點(diǎn)定位有效性,將該網(wǎng)絡(luò)應(yīng)用于單人姿態(tài)估計(jì),表1 展示了本文方法在MPII 測(cè)試集上進(jìn)行單人姿態(tài)估計(jì)PCKh@0.5 獲得的定量性能。實(shí)驗(yàn)表明,HRNet+RefineNet 模型結(jié)構(gòu)加入微調(diào)網(wǎng)絡(luò)后,對(duì)于肩部、髖關(guān)節(jié)、膝關(guān)節(jié)和踝關(guān)節(jié)的平均精度比HRNet 均有所提升。加入OHKM 后的結(jié)果表明,本文提出的CHRN 人體姿態(tài)估計(jì)使HRNet 的平均精度由92.3% 提高至92.7%。
為了證明級(jí)度特征網(wǎng)絡(luò)對(duì)多人姿態(tài)估計(jì)的有效性,在MPII 數(shù)據(jù)集中進(jìn)行多人姿態(tài)估計(jì)對(duì)比實(shí)驗(yàn)驗(yàn)證。其中,對(duì)比方法相關(guān)數(shù)據(jù)來(lái)源于MPII 數(shù)據(jù)庫(kù)排行榜。實(shí)驗(yàn)結(jié)果如表2 所示。
Table 1 Performance comparison of MPII test sets(PCKh@0.5)(single-person pose estimation)表1 MPII 測(cè)試集性能比較(PCKh@0.5)(單人姿態(tài)估計(jì))
Table 2 Performance comparison of MPII test sets(PCKh@0.5)(multi-person pose estimation)表2 MPII 測(cè)試集性能比較(PCKh@0.5)(多人姿態(tài)估計(jì))
表2 展示了本文方法在MPII 測(cè)試集上進(jìn)行多人姿態(tài)估計(jì)的定量性能。表2 中的對(duì)比算法為MPII 數(shù)據(jù)集排行榜前3 名的識(shí)別精度。其中,“CHRN”表明,級(jí)聯(lián)深度特征網(wǎng)絡(luò)模型使用自頂向下方法得到平均精度為80.4%,高于其它算法。同時(shí),CHRN 模型對(duì)于踝關(guān)節(jié)、膝關(guān)節(jié)和髖關(guān)節(jié)等較難識(shí)別關(guān)鍵點(diǎn)的識(shí)別精度有所提升,證明CHRN 對(duì)于較難識(shí)別的關(guān)鍵點(diǎn)有更強(qiáng)的定位能力。
本文提出的級(jí)聯(lián)特征網(wǎng)絡(luò)通過(guò)提升不易識(shí)別關(guān)鍵點(diǎn)的識(shí)別精度以提高人體姿態(tài)估計(jì)準(zhǔn)確率。研究表明,在人體姿態(tài)估計(jì)中由于關(guān)鍵點(diǎn)本身特性不同,關(guān)鍵點(diǎn)在模型訓(xùn)練過(guò)程中應(yīng)區(qū)別對(duì)待,即為不易識(shí)別的關(guān)鍵點(diǎn)分配更多計(jì)算資源。下一步工作主要是對(duì)關(guān)鍵點(diǎn)進(jìn)行分類細(xì)化,具體到各類關(guān)鍵點(diǎn)應(yīng)分配多少計(jì)算資源可達(dá)到最優(yōu)結(jié)果。