張大勇,陳一茗
(中國技術(shù)經(jīng)濟(jì)學(xué)會(huì)數(shù)字體育專業(yè)委員會(huì),北京 100081)
關(guān)鍵字:多人姿態(tài)估計(jì);熱力圖;變形感受野;尺度感知
關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)是多人姿態(tài)估計(jì)研究的一大核心工作,能否準(zhǔn)確定位多人關(guān)鍵點(diǎn)直接關(guān)乎姿態(tài)結(jié)果的精度高低。卷積神經(jīng)網(wǎng)絡(luò)是最常用且最強(qiáng)大的圖像特征提取網(wǎng)絡(luò)。Zeiler等人[1]將每層卷積輸出可視化發(fā)現(xiàn),隨著卷積堆疊和網(wǎng)絡(luò)加深,卷積網(wǎng)絡(luò)抽取的特征從高分辨率低層次的邊緣輪廓、方向細(xì)節(jié)和幾何形態(tài)演變到低分辨率高層次的語義抽象信息。自深度卷積發(fā)展以來,許多工作通過特征提取網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)和多尺度特征融合技術(shù),成功地增強(qiáng)了人體姿態(tài)估計(jì)模型對(duì)精細(xì)關(guān)鍵點(diǎn)的檢測(cè)能力和對(duì)人體尺度變化的感知能力。
人體姿態(tài)估計(jì)任務(wù)對(duì)位置敏感度很高,基于熱力圖預(yù)測(cè)的網(wǎng)絡(luò)中,特征和熱力圖的分辨率將直接影響最終的定位結(jié)果。近年,深度神經(jīng)網(wǎng)絡(luò)的發(fā)展啟發(fā)了研究人員對(duì)網(wǎng)絡(luò)結(jié)構(gòu)的革新,許多工作開始從分辨率的角度思考如何提升關(guān)鍵點(diǎn)的表征能力。其中,HRNet[2]及其團(tuán)隊(duì)另一力作HigherHRNet[3]成功登頂當(dāng)年自頂向下和自底向上多人姿態(tài)估計(jì)的榜單,并持續(xù)為后續(xù)工作提供方向與靈感。
本文先從分辨率和感受野兩方面對(duì)現(xiàn)有的多人姿態(tài)關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行影響分析,然后提出多人關(guān)鍵點(diǎn)特征提取模塊設(shè)計(jì)理念和特征融合修正策略。通過優(yōu)化關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò),提升自底向上多人姿態(tài)估計(jì)方法的尺度感知性。
以往關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)方法大多通過重復(fù)級(jí)聯(lián)獨(dú)立網(wǎng)絡(luò),多階段地預(yù)測(cè)并修正同一學(xué)習(xí)目標(biāo)。隨著多人姿態(tài)估計(jì)問題研究的深入,關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)不斷更新迭代。圖1中給出了多人姿態(tài)關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)組成。首先,原始圖像會(huì)在Stem部分進(jìn)行分辨率調(diào)整,得到縮放后的網(wǎng)絡(luò)輸入。其次,通過特征提取網(wǎng)絡(luò)進(jìn)行圖像語義的學(xué)習(xí),獲得關(guān)鍵點(diǎn)特征圖。最后,特征圖傳入熱力圖預(yù)測(cè)網(wǎng)絡(luò)估計(jì)關(guān)鍵點(diǎn)的位置,獲得高斯響應(yīng)熱力圖。整個(gè)關(guān)鍵點(diǎn)檢測(cè)過程中,特征圖和熱力圖在網(wǎng)絡(luò)里前向傳遞、反向修正,不斷訓(xùn)練。近年許多圍繞特征圖、熱力圖的改進(jìn)工作卓有成效,下面分別從分辨率和感受野兩方面對(duì)關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)進(jìn)行影響分析。
圖1 多人姿態(tài)關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)組成部分示意圖
導(dǎo)致嚴(yán)重定位精度誤差的原因之一是網(wǎng)絡(luò)中的低分辨率表征。在特征金字塔理論里,高分辨率的表征一般可以保留更多的空間位置信息,而低分辨率的表征則能展現(xiàn)出更強(qiáng)的語義分析能力。因此許多經(jīng)典工作一般從如何恢復(fù)高分辨率、如何維持高分辨率和如何融合多分辨率三方面入手。
PersonLab[7]方法簡(jiǎn)單粗暴,直接在輸入網(wǎng)絡(luò)前數(shù)倍放大原圖,提升人體姿態(tài)估計(jì)模型的整體分辨率。同年,Magnify-Net[8]和Simple Baseline[9]通過對(duì)網(wǎng)絡(luò)中的特征圖進(jìn)行線性插值或反卷積等上采樣操作恢復(fù)高分辨率。然而,Sun[2]認(rèn)為僅憑上述的上采樣操作無法真正恢復(fù)有效的高分辨率特征,應(yīng)該在不同語義階段自始至終都維持高分辨率表征;同時(shí)受到Hourglass[4]和CPN[10]的多尺度連接思想啟發(fā),提出特征多次重復(fù)融合的高分辨率網(wǎng)絡(luò)——HRNet[2]。其團(tuán)隊(duì)的另一力作HigherHRNet[3]則是同時(shí)針對(duì)特征圖和熱力圖,利用HRNet提取高分辨率特征,再使用反卷積放大熱力圖的分辨率,最后提出多尺度熱力圖平均融合策略,大大增強(qiáng)了網(wǎng)絡(luò)對(duì)尺度變化的魯棒性。對(duì)于多尺度特征的融合方式除了上述提及的平均融合外,Su等人[11]也嘗試在熱力圖上進(jìn)行加權(quán)融合。關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)中的表征(特征圖、熱力圖)分辨率對(duì)定位精度至關(guān)重要,因此選用高分辨率的網(wǎng)絡(luò)設(shè)計(jì)往往可以事半功倍。
在卷積神經(jīng)網(wǎng)絡(luò)中,感受野(Receptive Field)指的是中層特征圖上某神經(jīng)元位置計(jì)算輸出所用到的有效圖像區(qū)域,示意圖如圖2(a)左圖所示。相關(guān)工作[12,13]認(rèn)為,如果僅從局部細(xì)節(jié)出發(fā),容易出現(xiàn)人體姿態(tài)的漏檢和交叉誤判;足夠大的感受野可以包含更多的上下文信息,協(xié)助推理復(fù)雜場(chǎng)景下的多人姿態(tài)結(jié)果。
圖2 可變形卷積DCN示意圖
常見的增強(qiáng)感受野方式有使用更大的卷積核和采用擴(kuò)張的空洞卷積(Dilated Convolution)[14],例如經(jīng)典的算法CPM[15]采用9×9卷積配合多階段級(jí)聯(lián)網(wǎng)絡(luò)來增大感受野,獲得明顯效果。類似地,循環(huán)(Recurrent)姿態(tài)網(wǎng)絡(luò)[16]設(shè)計(jì)了一種循環(huán)遞歸模塊來提升感受野。
由于人體姿態(tài)關(guān)鍵點(diǎn)尺度不一,處于較為精細(xì)位置的關(guān)鍵點(diǎn)需要較小的感受野才能捕獲細(xì)節(jié)信息。因此一味地增大感受野不一定持續(xù)受益,反而會(huì)引入許多干擾信息。針對(duì)感受野的研究大體分為兩類:第一,特征尺度金字塔;第二,幾何變換自適應(yīng)??勺冃尉矸eDCN[17]的思想和實(shí)現(xiàn)過程如圖2(b)所示,通過一個(gè)3×3卷積,對(duì)感受野上的每個(gè)卷積采樣點(diǎn)學(xué)習(xí)相應(yīng)的偏移量,使得常規(guī)的N×N卷積區(qū)域變形為不規(guī)則感受野,從而更好地?cái)M合尺度不一的困難目標(biāo),與常規(guī)卷積的效果對(duì)比見圖2(a)右圖。然而,近年受其影響的多人姿態(tài)估計(jì)工作更傾向于在分組網(wǎng)絡(luò)上遷移“偏移修正”概念,例如CenterNet[18提出無錨偏移思想修正人體關(guān)鍵點(diǎn);DEKR[19]參照空間變換網(wǎng)絡(luò)STN[20]來設(shè)計(jì)自適應(yīng)卷積(Adaptive Convolution)并構(gòu)建多分支的關(guān)鍵點(diǎn)回歸網(wǎng)絡(luò)。
有效的高分辨率表征和適度變形的卷積感受野對(duì)尺度不一的多人關(guān)鍵點(diǎn)檢測(cè)大有裨益。結(jié)合多尺度的高分辨率網(wǎng)絡(luò)和變形感受野思想,本節(jié)設(shè)計(jì)基于變形卷積的關(guān)鍵點(diǎn)檢測(cè)模塊DB-Module,并用優(yōu)化后的模塊批量更新高分辨率網(wǎng)絡(luò),配合熱力圖指導(dǎo)的特征融合修正策略,完成多尺度的自適應(yīng)檢測(cè)網(wǎng)絡(luò)優(yōu)化。
卷積網(wǎng)絡(luò)發(fā)展至今,依靠更大、更多卷積的笨重設(shè)計(jì)已經(jīng)暴露出明顯缺點(diǎn):計(jì)算量大且面臨性能退化。Simonyan等人[21]提出使用多個(gè)3×3卷積代替較大卷積核,堆疊而成的感受野等大,同時(shí)引入更多非線性變換增強(qiáng)學(xué)習(xí)能力。He等人[22]針對(duì)深度網(wǎng)絡(luò)的性能退化問題,推出跳躍連接的殘差網(wǎng)絡(luò)(Residual Network,ResNet)結(jié)構(gòu)設(shè)計(jì),利用殘差學(xué)習(xí)思想緩解梯度爆炸和梯度彌散問題。
模塊化設(shè)計(jì)這種“即插即用”的特征,使網(wǎng)絡(luò)的改進(jìn)變得簡(jiǎn)單快速。下面基于高分辨率網(wǎng)絡(luò)HRNet[2]的主體部分,對(duì)每個(gè)階段的子模塊進(jìn)行重新設(shè)計(jì),并封裝成DB-Module模塊,然后批量替換整個(gè)網(wǎng)絡(luò),簡(jiǎn)單、快速地實(shí)現(xiàn)關(guān)鍵點(diǎn)網(wǎng)絡(luò)的優(yōu)化。
圖3中展示了特征提取模塊DB-Module的組成結(jié)構(gòu)。DB-Module是本文關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)的基本模塊,其中包含4個(gè)特征提取單元。模塊中的特征提取單元分2種,藍(lán)色方框部分采用殘差結(jié)構(gòu)[22]的Basic Block基礎(chǔ)塊;橙色變形方框部分則是以變形卷積[17]為靈感設(shè)計(jì)的Deformable Block變形塊。卷積層的卷積核(Kernel))大小和通道數(shù)(Channel)分別表示為“k×k”和“(C)”,空心塊均由普通卷積/變形卷積和整流線性單位(Rectified Linear Unit,ReLU)[67]共同構(gòu)成。
圖3 特征提取模塊DB-Module示意圖
考慮到多人姿態(tài)場(chǎng)景中的復(fù)雜姿勢(shì)和人體關(guān)鍵點(diǎn)的尺度變化,既需要足夠大的感受野來適應(yīng)變化的困難姿勢(shì),還應(yīng)該保留較小的局部卷積區(qū)域來感知精細(xì)關(guān)鍵點(diǎn)。因此在DB-Module的模塊設(shè)計(jì)中,僅允許1/4的特征提取單元進(jìn)行不規(guī)則的感受野變形,同時(shí)采用跳躍連接減緩堆疊卷積造成的感受野發(fā)散和網(wǎng)絡(luò)退化問題。參照經(jīng)典目標(biāo)檢測(cè)工作[23,24],選取第2個(gè)連接單元進(jìn)行變形操作可以將變形空間限制在整個(gè)模塊的感受野中,讓封裝好的特征提取模塊既保留高效的圖像語義學(xué)習(xí)能力,又能發(fā)揮可變形卷積的尺度特性,更精準(zhǔn)地捕捉困難人體實(shí)例。
優(yōu)秀的多尺度表征不僅可以通過高分辨率網(wǎng)絡(luò)和變形感受野提取得到,還可以利用特征融合策略進(jìn)一步放大其尺度感知特性。Cheng等人[3]認(rèn)為不同分辨率大小的高斯分布熱力圖可以“響應(yīng)”不同尺度的人體關(guān)鍵點(diǎn),因此在2020年提出了更高的高分辨率網(wǎng)絡(luò)——HigherHRNet。其核心在于對(duì)熱力圖進(jìn)行尺度增強(qiáng),并在訓(xùn)練、推理階段都使用多尺度融合策略,成功提升了中小尺度目標(biāo)的解碼定位精度。近期,該團(tuán)隊(duì)推出最新研究DEKR[19],將高斯響應(yīng)熱力圖的注意力機(jī)制特性與特征融合策略結(jié)合,通過熱力圖進(jìn)行局部指導(dǎo),也在定位精度上取得進(jìn)步。
本節(jié)基于骨干網(wǎng)絡(luò)HRNet[2]和分組方法AE[25]結(jié)合的多人姿態(tài)估計(jì)流程,提出一個(gè)簡(jiǎn)單的尾部融合策略:將熱力圖與高分辨率特征對(duì)齊平均相加后,再利用反卷積模塊預(yù)測(cè)更高分辨率的熱力圖并在分組前對(duì)熱力圖進(jìn)行融合修正(Aggregation Refine,ARefine)。
圖4中可視化了熱力圖指導(dǎo)特征融合策略主要流程。由上一節(jié)的特征提取網(wǎng)絡(luò)得到尺度感知特征圖后,先照慣例通過一個(gè)1×1卷積層預(yù)測(cè)所需的熱力圖。一般該預(yù)測(cè)模塊還同時(shí)預(yù)測(cè)標(biāo)簽集合用作分組關(guān)聯(lián)信息指導(dǎo),但分組算法不是本文重點(diǎn),此處只形式化表示。按照尺度金字塔理論,低分辨率的熱力圖里含有較強(qiáng)的分類指導(dǎo)作用,再加上高斯響應(yīng)本身自帶的注意力機(jī)制,兩者共同作用在尺度感知的特征圖上可以融合成更強(qiáng)大的高分辨率表征,從而更精準(zhǔn)地指導(dǎo)熱力圖預(yù)測(cè)。受到Simple Baseline[9]的啟發(fā),反卷積通常也被叫做轉(zhuǎn)置卷積,通過反向捕捉卷積規(guī)律,既能夠恢復(fù)部分有效的高分辨率表征,又可以在一定程度上擁有卷積的語義學(xué)習(xí)特性。本文沿用HigherHRNet[3]中反卷積層的結(jié)構(gòu)設(shè)計(jì)與參數(shù)設(shè)定,在上采樣出更大分辨率熱力圖的同時(shí)進(jìn)行關(guān)鍵點(diǎn)的預(yù)測(cè),并為多分辨率熱力圖設(shè)計(jì)A-Refine融合修正模塊。以往工作中多使用連續(xù)的殘差基礎(chǔ)結(jié)構(gòu)(Basic Res-Block)進(jìn)行修正,本文額外增設(shè)變形模塊DBModule與DEKR[19]方法中的自適應(yīng)矩陣(Adaptive Metrix)對(duì)比,從網(wǎng)絡(luò)自行學(xué)習(xí)和手工主動(dòng)設(shè)計(jì)兩種改進(jìn)角度尋求良好的修正模式。
圖4 熱力圖指導(dǎo)特征融合策略流程示意圖
本質(zhì)上說,DCN[17,24]和STN[20]均研究如何擬合物體的空間幾何變換,前者使用非參數(shù)式的網(wǎng)絡(luò)自主學(xué)習(xí)思路進(jìn)行模塊級(jí)別設(shè)計(jì),后者通過參數(shù)式的網(wǎng)絡(luò)人工設(shè)計(jì)進(jìn)行網(wǎng)絡(luò)級(jí)別搭建。DCN方法易于泛化,即插即用但不可避免增加一定參數(shù)量;STN結(jié)構(gòu)通過手動(dòng)規(guī)劃且在后續(xù)工作[19,26]中被提煉成自適應(yīng)矩陣(Adaptive Metrix)用于卷積改造,詳見式(1)至(3),參數(shù)量可觀但針對(duì)性強(qiáng)、不易泛化。
其中,c=(xc,yc)表示中心(center)坐標(biāo),wi為卷積核的權(quán)值,oi=(xo,yo)表示距離中心的偏移量(offset)。其中oi屬于表示感受野偏移的2×9矩陣Ot={oi,…,o9}中元素。
DEKR將STN設(shè)計(jì)的矩陣放入MSCOCO[27]訓(xùn)練集中學(xué)習(xí),獲得整體的仿射變換矩陣A∈?2×2和翻轉(zhuǎn)向量t∈?2×1。然后對(duì)常規(guī)(regular)卷積進(jìn)行幾何變換捕捉,求得變換(transformation)后的Ot,以下以3×3卷積為例:
本文將可變形卷積和自適應(yīng)矩陣應(yīng)用到基于熱力圖預(yù)測(cè)的多人姿態(tài)估計(jì)中,通過在A-Refine融合修正模塊上的實(shí)驗(yàn)對(duì)比擇優(yōu),尋找良好的特征融合策略。
本文提出的關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)模塊DB-Module和特征融合修正策略A-Refine均在MSCOCO[26]數(shù)據(jù)集上進(jìn)行訓(xùn)練和驗(yàn)證。表1中給出了姿態(tài)估計(jì)任務(wù)常用的評(píng)價(jià)指標(biāo)。
表1 人體姿態(tài)估計(jì)常用評(píng)價(jià)指標(biāo)
MSCOCO關(guān)鍵點(diǎn)挑戰(zhàn)為人體姿態(tài)估計(jì)任務(wù)設(shè)計(jì)了一套多標(biāo)準(zhǔn)評(píng)價(jià)指標(biāo),以目標(biāo)關(guān)鍵點(diǎn)相似度(Object Keypoint Similarity,OKS)系數(shù)和目標(biāo)尺度為基準(zhǔn),計(jì)算平均精確度(Average Precision,AP)和平均召回率(Average Recall,AR)。
OKS主要計(jì)算預(yù)測(cè)的姿態(tài)關(guān)鍵點(diǎn)與標(biāo)注之間的相似度,數(shù)值在0~1之間。公式如下:
此處,ks為預(yù)測(cè)的人體的第i種姿態(tài)關(guān)鍵點(diǎn)坐標(biāo)和實(shí)際的關(guān)鍵點(diǎn)坐標(biāo)pi的相似度;s2是當(dāng)前人體分割掩碼(Segmentation Mask)區(qū)域面積;ki=2σi為當(dāng)前關(guān)鍵點(diǎn)的標(biāo)注抖動(dòng)分布?xì)w一化,用于調(diào)節(jié)關(guān)鍵點(diǎn)相對(duì)當(dāng)前人體尺度的標(biāo)注抖動(dòng)。
AP和AR針對(duì)預(yù)測(cè)中得分前20的姿態(tài)估計(jì)結(jié)果進(jìn)行計(jì)算,計(jì)算OKS=.50:.05:.95區(qū)域的AP和AR值,在不同的閾值下分別對(duì)兩者求平均,可以得到最后使用的主流指標(biāo)meanAP(mAP)和meanAR(mAR)。MSCOCO評(píng)價(jià)指標(biāo)里還提供與尺度相關(guān)的指標(biāo)APM、APL和ARM、ARL。
本文提出的關(guān)鍵點(diǎn)檢測(cè)模塊設(shè)計(jì)和融合修正策略更關(guān)注于中小尺度人體關(guān)鍵點(diǎn)定位情況和召回能力的提升,而不是大尺度目標(biāo)的評(píng)測(cè)情況,因此在后續(xù)的評(píng)估中,將針對(duì)與人物尺度相關(guān)的精細(xì)化評(píng)價(jià)指標(biāo)mAP、APM、mAR、ARM進(jìn)行重點(diǎn)觀測(cè)與分析。
本文使用Python語言和PyTorch深度學(xué)習(xí)框架實(shí)現(xiàn)基于變形卷積的關(guān)鍵點(diǎn)檢測(cè)模塊DB-Module,并批量更新自底向上的多人姿態(tài)模型HigherHRNet中關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)主體部分的HRNet,最后在分組網(wǎng)絡(luò)AE[25]前置部分實(shí)現(xiàn)特征融合修正策略。
4.2.1 數(shù)據(jù)處理
在多人姿態(tài)估計(jì)網(wǎng)絡(luò)的輸入階段,為便于數(shù)據(jù)并行,先對(duì)原圖集體進(jìn)行填充并縮放到512×512的固定尺寸,然后在訓(xùn)練階段使用了隨機(jī)裁剪、隨機(jī)縮放、隨機(jī)旋轉(zhuǎn)和隨機(jī)翻轉(zhuǎn)等數(shù)據(jù)增廣技術(shù)進(jìn)行數(shù)據(jù)預(yù)處理。
根據(jù)本文3.2節(jié)提出的熱力圖指導(dǎo)特征融合修正策略,生成兩種尺寸的Ground-Truth關(guān)鍵點(diǎn)熱力圖作訓(xùn)練標(biāo)簽,分別是128×128和256×256。
4.2.2 訓(xùn)練參數(shù)
隨機(jī)初始化網(wǎng)絡(luò)的權(quán)值,使用初始學(xué)習(xí)率為1.875e-3的Adam優(yōu)化器對(duì)網(wǎng)絡(luò)損失進(jìn)行優(yōu)化,訓(xùn)練的批尺度大小為8。學(xué)習(xí)率調(diào)整策略為先線性預(yù)熱,后階梯下降。本文實(shí)驗(yàn)訓(xùn)練了120個(gè)周期,總耗時(shí)約5.5天。學(xué)習(xí)率從lr×0.01開始預(yù)熱500個(gè)輪次,60個(gè)周期后開始階梯式下降,在第80個(gè)周期降至1.875e-4。多次實(shí)驗(yàn)保留最佳驗(yàn)證結(jié)果并取平均。
整個(gè)網(wǎng)絡(luò)在2張NVIDIA GTX 1080Ti GPU上進(jìn)行分布式訓(xùn)練,同時(shí)采用線性尺度規(guī)則(Linear Scaling Rule)對(duì)基準(zhǔn)網(wǎng)絡(luò)預(yù)設(shè)的學(xué)習(xí)率進(jìn)行調(diào)整,使之在不同批尺度大小和不同GPU數(shù)量的情況下,依舊獲得接近原始訓(xùn)練精度的復(fù)現(xiàn)結(jié)果。
本文提出的特征融合策略中應(yīng)用了兩款融合修正模塊:DB-Module和Adaptive-Metrix。兩者均在模塊更新后的網(wǎng)絡(luò)上進(jìn)行實(shí)驗(yàn),各自分配1張NVIDIA GTX 1080Ti GPU并行訓(xùn)練。公平起見,模型微調(diào)(fine-tune)期間其余參數(shù)保持一致。整個(gè)實(shí)驗(yàn)過程中,前80個(gè)周期訓(xùn)練就變形模塊DB-Module的DBPose網(wǎng)絡(luò),后40個(gè)周期內(nèi)學(xué)習(xí)率×0.1并列進(jìn)行最優(yōu)融合修正模塊的探索。
4.2.3 驗(yàn)證細(xì)節(jié)
本文的基準(zhǔn)網(wǎng)絡(luò)選定為HigherHRNet[3],其分組算法沿用AE[25]。但是,由于HigherHRNet中自帶多尺度熱力圖融合機(jī)制,容易混淆特征融合修正策略的有效來源,公平起見,本文將HigherHRNet中去除熱力圖融合策略后的主體網(wǎng)絡(luò)HRNet[2]與分組算法AE拼合,作為第二基準(zhǔn)網(wǎng)絡(luò)進(jìn)行參考。上述工作的源代碼在驗(yàn)證、測(cè)試階段均使用了[ ]×0.5,×1,×1.5,×2尺度金字塔技術(shù)對(duì)預(yù)測(cè)的不同尺度的人體實(shí)例進(jìn)行融合增強(qiáng)。為公平地驗(yàn)證尺度感知的關(guān)鍵點(diǎn)檢測(cè)模塊有效性,本文去除基準(zhǔn)網(wǎng)絡(luò)中的多尺度部分,并在本地環(huán)境下按與本文實(shí)驗(yàn)的相同配置重新運(yùn)行和驗(yàn)證其開源模型,從而排除原文中額外進(jìn)行姿態(tài)修正后帶來的漲幅偏差。
本文以2020年榜首HigherHRNet作為第一基準(zhǔn)網(wǎng)絡(luò);同時(shí)將2020年的多任務(wù)骨干網(wǎng)絡(luò)HRNet和經(jīng)典分組算法AE拼合,作為第二基準(zhǔn)網(wǎng)絡(luò)共同進(jìn)行對(duì)比實(shí)驗(yàn)。為節(jié)省成本,僅在使用最小模型(w32)在MSCOCO[26]驗(yàn)證集上進(jìn)行實(shí)驗(yàn)。
4.3.1 定量分析
在MSCOCO[26]驗(yàn)證集上的各項(xiàng)精細(xì)指標(biāo)評(píng)測(cè)結(jié)果參見表2。驗(yàn)證集上的本地消融實(shí)驗(yàn)數(shù)據(jù)額外保留兩位小數(shù)。
為便于區(qū)分,本文3.1節(jié)的DB-Module模塊化設(shè)計(jì)對(duì)應(yīng)模型表示為“DBPose”;后續(xù)加入本文3.2節(jié)特征融合修正策略A-Refine后,對(duì)應(yīng)模型表示為“SSRPose”,進(jìn)行如表2所示的消融實(shí)驗(yàn)。
(1)關(guān)鍵點(diǎn)檢測(cè)模塊DB-Module的評(píng)測(cè)結(jié)果
根據(jù)表2中結(jié)果可知,單純對(duì)基準(zhǔn)網(wǎng)絡(luò)HigherHRNet進(jìn)行DB-Block批量更新得到的DBPose,無需微調(diào)即可得到66.83%的mAP精度,比第一基準(zhǔn)模型提升1.14%。并且在各項(xiàng)與尺度變化相關(guān)的精細(xì)指標(biāo)上都超越了基準(zhǔn),其中APM和ARM較為明顯,分別是1.41%和1.45%的漲幅,體現(xiàn)了DB-Module變形感受野在捕捉尺度不一人體方面的優(yōu)勢(shì)。
表2 MSCOCO驗(yàn)證集上的結(jié)果
采取特征融合修正策略A-Refine將兩者融合形成本文的尺度感知多人姿態(tài)估計(jì)模型SSR-Pose,通過下述消融實(shí)驗(yàn)探索“性價(jià)比”更高的最終模型。表2中的最后實(shí)驗(yàn)條目,整體平均精度mAP達(dá)到67.83%。與第一和第二基準(zhǔn)網(wǎng)絡(luò)相比,分別提升2.14%和5.95%的平均精度,尺度指標(biāo)APM上的漲幅更是高達(dá)2.36%和6.50%。
(2)特征融合修正模塊A-Refine的消融實(shí)驗(yàn)
表3中分別對(duì)三種類型的特征融合修正模塊進(jìn)行實(shí)驗(yàn)評(píng)測(cè),實(shí)驗(yàn)條目1,2為基于STN和DCN設(shè)計(jì)的Adaptive Metrix和DB-Module。實(shí)驗(yàn)條目3為使用HR-Module的基礎(chǔ)模式搭建的高分辨率修正模塊。
表3 特征融合修正模塊的消融實(shí)驗(yàn)
從實(shí)驗(yàn)數(shù)據(jù)上看,手工設(shè)計(jì)的Adaptive Metrix自適應(yīng)矩陣在微調(diào)的情況下仍需要更復(fù)雜的參數(shù)調(diào)整才能獲得理想精度,泛化性和拓展性不強(qiáng)。本文提出的DB-Module雖能得到與HR-Module高分辨率修正模塊相同的精度,但對(duì)比尺度指標(biāo)發(fā)現(xiàn),變形感受野更擅長捕捉困難的大型人體,而高分辨率的基礎(chǔ)模塊才更適合用于修正精細(xì)關(guān)鍵點(diǎn)坐標(biāo)的偏移;同時(shí)變形卷積DB-Module代碼量稍大,耗時(shí)略久,因此性價(jià)比更高的方法為使用HR-Module(Basic)。本文SSRPose的最終版本搭建擬使用基于高分辨率的特征融合修正模塊。
4.3.2 誤差分析
采用coco-analyze誤差分析工具[28]對(duì)基準(zhǔn)網(wǎng)絡(luò)HigherHRNet[3]和本文的變形感受野檢測(cè)網(wǎng)絡(luò)DBPose以及應(yīng)用特征融合修正策略后的SSR-Pose進(jìn)行定量評(píng)價(jià)誤差分析。定位誤差的結(jié)果是從被成功檢測(cè)的姿態(tài)關(guān)鍵點(diǎn)中求得,與驗(yàn)證集評(píng)測(cè)結(jié)果有所出入,因此以下主要對(duì)比分析誤差趨勢(shì)。
圖5中三種方法在定位誤差上的分布大致相同,均有較高的Jitter抖動(dòng)誤差,和較小的Swap交換誤差和Inversion逆轉(zhuǎn)誤差,具體數(shù)值結(jié)果和比較見表4。
圖5 不同類型定位誤差得分布情況
表4 四類定位誤差的數(shù)值結(jié)果與趨勢(shì)
通過條目1和2的對(duì)比發(fā)現(xiàn),使用變形感受野模塊DB-Module更新高分辨率的關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò),可以明顯緩解Miss遺漏誤差和Swap交換誤差。這說明對(duì)本文提出的特征提取模塊優(yōu)化同時(shí)擁有高分辨率和尺度感知的特性,共同作用緩解因分辨率變化帶來的定位丟失問題;同時(shí)得益于更高質(zhì)量關(guān)鍵點(diǎn)預(yù)測(cè)熱力圖,其分組效果也有所提升。對(duì)比條目2和3,最終的SSR-Pose通過熱力圖指導(dǎo)的融合修正策略,對(duì)重點(diǎn)的局部精細(xì)區(qū)域投入更多注意力,使得最終預(yù)測(cè)的關(guān)鍵點(diǎn)熱力圖具備更強(qiáng)尺度感知能力,因而有更小的Miss遺漏誤差和Jitter抖動(dòng)誤差。Good優(yōu)秀分類指標(biāo)得分大幅提升,最終SSR-Pose的每項(xiàng)定位誤差指標(biāo)均低于基準(zhǔn)網(wǎng)絡(luò),較難察覺、看似影響較小的Jitter抖動(dòng)誤差都獲得明顯的緩解??梢?,本文提出的自適應(yīng)檢測(cè)網(wǎng)絡(luò)在困難姿勢(shì)和精細(xì)關(guān)鍵點(diǎn)的檢測(cè)上具有優(yōu)勢(shì)。
本文通過分析高分辨率和變形感受野對(duì)網(wǎng)絡(luò)性能的影響,設(shè)計(jì)一款基于可變形卷積的特征提取子模塊。通過模塊化的設(shè)計(jì)批量更新迭代網(wǎng)絡(luò)架構(gòu),實(shí)現(xiàn)特征提取骨干網(wǎng)絡(luò)的優(yōu)化。為增強(qiáng)整體結(jié)構(gòu)的尺度感知能力,在任務(wù)頭部處提出了一個(gè)簡(jiǎn)單的尾部融合策略,利用網(wǎng)絡(luò)中增強(qiáng)的高分辨率熱力圖指導(dǎo)特征,配合特征融合修正模塊,共同完成尺度感知的關(guān)鍵點(diǎn)自適應(yīng)檢測(cè)網(wǎng)絡(luò)優(yōu)化,豐富了表征的多尺度表達(dá),表現(xiàn)出對(duì)困難姿勢(shì)和中小尺度關(guān)鍵點(diǎn)的檢測(cè)優(yōu)勢(shì)。