時(shí)維國(guó),于曉慧
(大連交通大學(xué) 自動(dòng)化與電氣工程學(xué)院,遼寧 大連 116028)
人體姿態(tài)估計(jì)(Human Pose Estimation)是計(jì)算機(jī)視覺中的一個(gè)重要分支,是對(duì)視覺目標(biāo)進(jìn)行感知、定位、結(jié)構(gòu)化信息獲取以及行為分析的前提。姿態(tài)估計(jì)技術(shù)廣泛應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域,例如人機(jī)交互[1]、行為識(shí)別[2-3]、視頻監(jiān)控[4]和運(yùn)動(dòng)捕捉[5-6]等,是多個(gè)視覺任務(wù)中不可缺少的一環(huán); 同時(shí)現(xiàn)有的目標(biāo)姿態(tài)技術(shù)已深入到生活的方方面面,例如虛擬現(xiàn)實(shí)、交通違章駕駛、安防異常行為識(shí)別、商品無感支付等。姿態(tài)估計(jì)技術(shù)應(yīng)用范圍廣闊, 是一個(gè)非常熱門的研究方向。
人體姿態(tài)估計(jì)是對(duì)二維和三維的人體進(jìn)行建模,檢測(cè)出人體關(guān)鍵點(diǎn)位置信息。由于傳統(tǒng)模型匹配方法具有局限性[7-9],人體姿態(tài)估計(jì)主要用深度學(xué)習(xí)方法解決,其中卷積網(wǎng)絡(luò)為首選。 2014年Toshev等[10]將深度神經(jīng)網(wǎng)絡(luò)引入人體姿態(tài)估計(jì)算法,有效提高了人體關(guān)鍵點(diǎn)的檢測(cè)性能。但隨著對(duì)人體姿態(tài)估計(jì)網(wǎng)絡(luò)性能要求的不斷提高,運(yùn)算復(fù)雜度也隨之快速升高,因此在保持網(wǎng)絡(luò)模型運(yùn)行速度的前提下,如何保持網(wǎng)絡(luò)模型對(duì)人體的關(guān)鍵點(diǎn)檢測(cè)精度,是當(dāng)前人體姿態(tài)估計(jì)網(wǎng)絡(luò)模型改進(jìn)和優(yōu)化所面臨的重要問題。
基于深度學(xué)習(xí)的姿態(tài)估計(jì)方法主要分為Single-stage、Bottom-Up、Top-Down 3種檢測(cè)方法。Single-stage方法可一次性定位關(guān)鍵點(diǎn)位置和關(guān)鍵點(diǎn)所屬目標(biāo),推理邏輯簡(jiǎn)單、速度快,但準(zhǔn)確度低。Bottom-Up方法[11]是先定位得到所有人的關(guān)鍵點(diǎn)位置,然后將關(guān)鍵點(diǎn)進(jìn)行聚類,得到關(guān)鍵點(diǎn)所屬目標(biāo),該方法的計(jì)算和運(yùn)行時(shí)間隨著人數(shù)的增加幾乎保持不變; 當(dāng)使用上下文信息無法獲得關(guān)節(jié)點(diǎn)相互關(guān)系時(shí),便會(huì)出現(xiàn)關(guān)節(jié)點(diǎn)錯(cuò)組、雜亂等現(xiàn)象,該類方法推理速度快,但精度低。在COCO 2016關(guān)節(jié)點(diǎn)挑戰(zhàn)[12]中取得了最好成績(jī)的Cao等[13]提出了人體關(guān)節(jié)點(diǎn)親和場(chǎng)來改進(jìn)其中缺點(diǎn)。Kocabas等[14]提出將多任務(wù)模型與一種新的分配方法相結(jié)合,通過姿態(tài)殘差網(wǎng)絡(luò)來接收關(guān)節(jié)點(diǎn)和人體目標(biāo)。Top-Down檢測(cè)方法分為人體目標(biāo)檢測(cè)和單個(gè)人體姿態(tài)兩部分,先通過檢測(cè)區(qū)分目標(biāo),再將檢測(cè)的人體送入單人姿態(tài)估計(jì)網(wǎng)絡(luò),例如文獻(xiàn)[15-16]提出按順序級(jí)聯(lián)檢測(cè)器和人體估計(jì),文獻(xiàn)[17-18]提出在整個(gè)網(wǎng)絡(luò)中,直接預(yù)測(cè)人體目標(biāo)框和關(guān)節(jié)點(diǎn)情況。Top-Down方法的優(yōu)點(diǎn)在于精度高,缺點(diǎn)在于速度慢,跟檢測(cè)人數(shù)有關(guān),同時(shí)依賴于檢測(cè)準(zhǔn)確度。主要優(yōu)化的角度一般包括網(wǎng)絡(luò)模型結(jié)構(gòu)、關(guān)鍵點(diǎn)編解碼方法、中間層監(jiān)督、損失函數(shù)等[19-20]。
本文使用Top-Down姿態(tài)估計(jì)方法,設(shè)計(jì)了一種特征高分辨率表征的姿態(tài)估計(jì)方法,該方法是基于Mask RCNN模型,提升姿態(tài)特征的空間位置信息,減少姿態(tài)估計(jì)的預(yù)測(cè)誤差,進(jìn)一步提升姿態(tài)估計(jì)性能。 該方法從模型結(jié)構(gòu)角度,通過Mask RCNN模型檢測(cè)實(shí)例,將實(shí)例的檢測(cè)結(jié)果映射到特征金字塔的高分辨率特征層,通過Roi-Align提取特征金字塔的高分辨率特征輸入關(guān)鍵點(diǎn)預(yù)測(cè)模塊,然后上采樣提高特征分辨率,最后將預(yù)測(cè)特征進(jìn)行空間位置編碼成分類任務(wù),來獲取實(shí)例的關(guān)鍵點(diǎn)二維空間位置,實(shí)現(xiàn)多人姿態(tài)估計(jì)。
基于Mask RCNN將分割任務(wù)分成四部分:主干+FPN獲取不同level特征、RPN候選框提取、RCNN實(shí)例檢測(cè)以及FCN全卷積網(wǎng)絡(luò)進(jìn)行實(shí)例分割預(yù)測(cè)。Mask RCNN網(wǎng)絡(luò)結(jié)構(gòu)示意圖見圖1,主干可以采用ResNet、DenseNet等網(wǎng)絡(luò),接一個(gè)FPN特征金字塔,提取不同分辨率特征,然后通過側(cè)連接將低層空間位置信息與深層語義信息相連接。對(duì)于不同分辨率特征既包含語義分類信息又包含不同的空間位置信息,得到不同感受野大小特征之后,基于多層特征進(jìn)行檢測(cè)和分割的預(yù)測(cè)。首先對(duì)于每一層FPN特征都會(huì)預(yù)設(shè)不同尺度的錨框,對(duì)于高分辨率FPN特征則預(yù)設(shè)較小錨框,預(yù)測(cè)較小的目標(biāo),因?yàn)楦叻直媛侍卣鞯母惺芤拜^小;然后通過RPN候選框提取網(wǎng)絡(luò),該網(wǎng)絡(luò)主要是對(duì)預(yù)設(shè)的錨框進(jìn)行前景背景二分類和回歸任務(wù),用于候選前景區(qū)域的提取,對(duì)提取的候選框在多層level特征進(jìn)行ROI-align,選取正負(fù)樣本送入RCNN進(jìn)行多類分類與坐標(biāo)二次回歸;同時(shí)對(duì)于包含分割信息的正樣本候選框送入全卷積 FCN模塊, 用于分割的預(yù)測(cè),分割預(yù)測(cè)模塊由多層卷積加分割編碼預(yù)測(cè)層組成,預(yù)測(cè)每個(gè)目標(biāo)的前景背景。
圖1 Mask RCNN網(wǎng)絡(luò)結(jié)構(gòu)示意圖
姿態(tài)估計(jì)訓(xùn)練樣本中按照目標(biāo)面積大小,將候選框分配到不同分辨率大小的金字塔特征進(jìn)行預(yù)測(cè),原則為根據(jù)特征的感受野大小,低分辨率特征具有大的感受野,高分辨率特征具有小的感受野,將大目標(biāo)分配到低分辨率特征進(jìn)行預(yù)測(cè),小目標(biāo)分配到高分辨率特征進(jìn)行預(yù)測(cè),與檢測(cè)任務(wù)的分配方式一致;同時(shí)關(guān)鍵點(diǎn)對(duì)空間位置高度敏感,所以姿態(tài)估計(jì)預(yù)測(cè)模塊輸入特征需要通過ROI-align方式進(jìn)行特征提取,來避免位置量化誤差;同時(shí)關(guān)鍵點(diǎn)輸入模塊需要豐富的空間位置信息(圖2),ROI-align得到的特征分辨率大小設(shè)為14×14。
圖2 KeyPoint-RCNN網(wǎng)絡(luò)結(jié)構(gòu)示意圖
把14×14的特征輸入到關(guān)鍵點(diǎn)預(yù)測(cè)模塊,關(guān)鍵點(diǎn)預(yù)測(cè)模塊由多層卷積構(gòu)成,為了保證特征的感受野大小,設(shè)置8層連續(xù)的卷積層,卷積核大小設(shè)置為3×3,卷積滑窗大小為1,卷積核數(shù)量設(shè)為512,卷積方式為same卷積,不改變特征分辨率大小;然后接一層反卷積層,反卷積通道數(shù)為關(guān)鍵點(diǎn)預(yù)測(cè)個(gè)數(shù),在COCO數(shù)據(jù)集上預(yù)測(cè)17個(gè)點(diǎn),則通道數(shù)為17,反卷積將14×14分辨率大小特征增大到28×28,最后連接一個(gè)雙線性上采樣層,將特征雙線性插值到56×56,保證了特征的空間位置信息。
測(cè)試過程:先將RPN候選框生成器中分?jǐn)?shù)最高的前1 000個(gè)候選框輸入RCNN中, RCNN通過回歸和分類, 得到一系列的檢測(cè)框; 再將檢測(cè)框根據(jù)其尺度在輸入多層特征上進(jìn)行ROI-align, 把14×14的特征輸入到姿態(tài)估計(jì)模塊, 通過8層卷積、一層反卷積和一層雙線性插值得到56×56的特征圖, 將56×56大小的特征圖先插值到檢測(cè)框大小, 然后在特征圖上, 每個(gè)通道尋找最大位置點(diǎn), 得到的位置點(diǎn)再加上檢測(cè)框左上角位置, 就得到原圖上關(guān)鍵點(diǎn)位置信息。
檢測(cè)任務(wù)是將候選框分發(fā)到不同F(xiàn)PN特征金字塔上進(jìn)行特征提取,分別為P2、P3、P4、P5 4層,將ROI-Align之后的特征聯(lián)合起來輸入RCNN進(jìn)行分類與回歸預(yù)測(cè)。其檢測(cè)分發(fā)的原則為:按照檢測(cè)候選框的尺度進(jìn)行分發(fā),大目標(biāo)對(duì)應(yīng)到小分辨率進(jìn)行特征提取,小目標(biāo)對(duì)應(yīng)到高分辨率進(jìn)行特征提取,FPN預(yù)測(cè)結(jié)構(gòu)示意圖見圖3。
圖3 FPN預(yù)測(cè)結(jié)構(gòu)示意圖
按照以上P2~P5 4層的分發(fā)方式,對(duì)一個(gè)目標(biāo)分發(fā)到哪一層進(jìn)行特征提取,根據(jù)尺度大小, 對(duì)應(yīng)分配到FPN的具體層level的公式為:
(1)
式中:k0為基礎(chǔ)level層,對(duì)應(yīng)224×224尺度分配對(duì)應(yīng)的層,選擇P4作為k0層;w和h分別為圖像的寬與高;?」為向下取整。當(dāng)目標(biāo)大于224×224, 設(shè)目標(biāo)為448×448,則返回的k值為k0+1, 即返回到P5層,正好對(duì)應(yīng)低分辨率特征,預(yù)測(cè)大尺度目標(biāo)。當(dāng)存在目標(biāo)更大時(shí),k值返回k0+2,由于最高層為P5預(yù)測(cè)層,也會(huì)只在P5層上提取特征。
對(duì)于姿態(tài)估計(jì)任務(wù),候選框中選擇帶有關(guān)鍵點(diǎn)的候選框訓(xùn)練關(guān)鍵點(diǎn)分支。根據(jù)上述分析,關(guān)鍵點(diǎn)與分割任務(wù)不同于檢測(cè),對(duì)位置信息異常敏感,關(guān)鍵點(diǎn)任務(wù)會(huì)將ROI區(qū)域關(guān)鍵點(diǎn)映射到56×56固定特征圖大小,同時(shí)會(huì)向下取整導(dǎo)致量化誤差。當(dāng)大目標(biāo)分配到P5層低分辨率特征進(jìn)行預(yù)測(cè)時(shí),會(huì)導(dǎo)致提取的特征誤差更大,但對(duì)于檢測(cè)任務(wù),大目標(biāo)返回到原圖32個(gè)像素誤差,依然是可以滿足檢測(cè)需求且一般滿足檢測(cè)框相似度大于0.5;但關(guān)鍵點(diǎn)大目標(biāo)相差32個(gè)像素誤差是致命的,所以將關(guān)鍵點(diǎn)在檢測(cè)任務(wù)分配的基礎(chǔ)上,對(duì)任意候選框尺度都分配到高分辨率特征層進(jìn)行預(yù)測(cè),來減少檢測(cè)特征提取的量化誤差,考慮到當(dāng)分配到P2層,特征提取耗時(shí)更加嚴(yán)重,這里選取P3層進(jìn)行關(guān)鍵點(diǎn)預(yù)測(cè)特征提取,高分辨率表征姿態(tài)估計(jì)網(wǎng)絡(luò)結(jié)構(gòu)示意圖見圖4。
圖4 高分辨率表征姿態(tài)估計(jì)網(wǎng)絡(luò)結(jié)構(gòu)示意圖
在 P3 層上進(jìn)行預(yù)測(cè)而不是采用在 P2 層進(jìn)行預(yù)測(cè),其第二個(gè)原因主要是 P3 的感受野更大, 能夠更加充分感知整個(gè)姿態(tài)之間的連接關(guān)系與姿態(tài)結(jié)構(gòu)。
本文是基于高分辨率特征表征的姿態(tài)估計(jì)方法研究,主要是根據(jù)檢測(cè)任務(wù)與姿態(tài)估計(jì)任務(wù)對(duì)空間位置信息的要求,以及現(xiàn)有基于Mask RCNN架構(gòu)的姿態(tài)估計(jì)方法其存在的問題,提出了基于高分辨率特征表征的方法,即對(duì)任意候選框都通過豐富的空間位置信息進(jìn)行表征,減少量化誤差。同時(shí)考慮到在姿態(tài)預(yù)測(cè)結(jié)構(gòu)中,加入了多層卷積,預(yù)測(cè)特征本身具有更加豐富的感受野,所以在FPN特征結(jié)構(gòu)中,采用高分辨率特征進(jìn)行關(guān)鍵點(diǎn)姿態(tài)信息的提取。基于高分辨率表征的姿態(tài)估計(jì)算法步驟如下:
Step1 特征提取:輸入大小為1 333×800,訓(xùn)練過程進(jìn)行多尺度訓(xùn)練,輸入圖像先進(jìn)行主干特征提取,采用基礎(chǔ)主干模型 ResNet-50,主干ResNet-50是基于ImageNet檢測(cè)預(yù)訓(xùn)練模型去除分類全連接層得到的;然后輸入FPN特征金字塔結(jié)構(gòu),提取多層level信息,分別是P2~P7層特征提取。
Step2 對(duì)P2~P7每一個(gè)level層,都連接RPN 候選框提取器進(jìn)行候選框提取,然后從提取的候選框中篩選512個(gè)候選框,訓(xùn)練RCNN檢測(cè)分支。512個(gè)候選框中,正負(fù)樣本的比例為1∶3,正樣本訓(xùn)練回歸分支,正負(fù)樣本聯(lián)合訓(xùn)練RCNN的分類分支。
Step3 對(duì)候選框正樣本進(jìn)行進(jìn)一步篩選,篩選正樣本中含有關(guān)鍵點(diǎn)信息的候選框作為關(guān)鍵點(diǎn)候選框訓(xùn)練樣本Pkey,同時(shí)將真值框也作為關(guān)鍵點(diǎn)候選框,真正訓(xùn)練的候選框樣本為:
(2)
Step4 將關(guān)鍵點(diǎn)候選框在P3高分辨率特征上進(jìn)行 ROI-Align 特征提取,得到固定14×14 大小的特征,然后輸入關(guān)鍵點(diǎn)預(yù)測(cè)模塊進(jìn)行關(guān)鍵點(diǎn)預(yù)測(cè);關(guān)鍵點(diǎn)預(yù)測(cè)模塊由8個(gè)3×3卷積層組成,然后通過反卷積以及上采樣得到56×56分辨率大小特征,將關(guān)鍵點(diǎn)編碼成空間位置進(jìn)行訓(xùn)練,最后聯(lián)合檢測(cè)RCNN的分類與回歸loss、RPN 的分類與回歸loss,以及關(guān)鍵點(diǎn)loss。
Step5 在訓(xùn)練過程中,訓(xùn)練檢測(cè)類別數(shù)為1, 因?yàn)橹粚?duì)人體進(jìn)行檢測(cè)。采用SGD優(yōu)化器, 單卡 batch為8,總batch size為64,學(xué)習(xí)率設(shè)為0.08,warm-up為500 個(gè)iter;訓(xùn)練總的迭代次數(shù)為 22,訓(xùn)練檢測(cè)類為人體1類,最后得到總的訓(xùn)練模型。
Step6 檢測(cè)測(cè)試:測(cè)試過程首先輸入圖像為 1 333×800,通過主干和FPN特征金字塔特征提取,然后通過RPN候選框提取,取得分前1 000的候選框,通過其尺度分配到FPN不同level進(jìn)行 ROI-Align,得到7×7固定大小分辨率特征輸入RCNN,取得分前100個(gè)檢測(cè)框作為人體目標(biāo)的檢測(cè)結(jié)果。
Step7 關(guān)鍵點(diǎn)測(cè)試:將檢測(cè)目標(biāo)全部分配到 P3層上進(jìn)行ROI-Align特征提取,得到固定大小14×14分辨率特征輸入關(guān)鍵點(diǎn)head模塊,然后通過8層卷積核反卷積以及雙線性插值得到56×56大小分辨率特征,然后在特征圖上取最大位置點(diǎn)作為關(guān)鍵點(diǎn)檢測(cè)結(jié)果,最后返回大圖位置。
數(shù)據(jù)集采用COCO數(shù)據(jù)集進(jìn)行試驗(yàn),分別為訓(xùn)練集與驗(yàn)證集,COCO關(guān)鍵點(diǎn)個(gè)數(shù)為17,訓(xùn)練目標(biāo)類為人體目標(biāo),訓(xùn)練與測(cè)試均為多人場(chǎng)景。
試驗(yàn)條件:算法與對(duì)比試驗(yàn)的環(huán)境一致,處理器為i7,內(nèi)存為8GB,系統(tǒng)為L(zhǎng)inux Ubuntu系統(tǒng),顯卡為英偉達(dá)GeForce GTX 1080,顯存為8G。本方法采用的深度學(xué)習(xí)框架為Pytorch,開發(fā)編程語言為Python。
本文提出的高分辨率特征表征的姿態(tài)估計(jì)算法評(píng)價(jià)指標(biāo)為OKS與mAP,其中OKS為姿態(tài)相似度,mAP為姿態(tài)估計(jì)平均精度,OKS主要是通過關(guān)鍵點(diǎn)之間的聚類衡量,第p個(gè)目標(biāo)的OKSp的計(jì)算方式為:
(3)
基于高分辨率表征的姿態(tài)估計(jì)方法和Mask RCNN架構(gòu),本試驗(yàn)將與Mask RCNN 公開論文中的姿態(tài)估計(jì)性能在COCO數(shù)據(jù)集上進(jìn)行對(duì)比。高分辨率特征姿態(tài)估計(jì)訓(xùn)練參數(shù)設(shè)置:訓(xùn)練輸入大小為多尺度方式,短邊范圍為640~800,長(zhǎng)邊與短邊成比例,最長(zhǎng)為1333; 輸入數(shù)據(jù)預(yù)處理方式為減均值除以方差,3個(gè)通道的均值為[123.675, 116.28, 103.53],方差為[58.395, 57.12, 57.375],訓(xùn)練卡數(shù)為8卡,單卡batch size為8,訓(xùn)練卡為英偉達(dá)V100,學(xué)習(xí)率為0.08,SGD優(yōu)化器,動(dòng)量項(xiàng)為0.9,weight decay為1e-4,其中設(shè)置 police的學(xué)習(xí)率下降方式,在15,22個(gè)epoch下降學(xué)習(xí)率,學(xué)習(xí)率下降倍率為0.1,采樣warm-up的起始學(xué)習(xí)率更新,warm-up代數(shù)為1000,warm-up的倍率為1e-3;訓(xùn)練迭代次數(shù)為22,訓(xùn)練總的迭代次數(shù)與論文中設(shè)置一致,所有的參數(shù)選擇更新學(xué)習(xí)。測(cè)試參數(shù)設(shè)置: 測(cè)試分辨率大小為1333×800單尺度測(cè)試,測(cè)試過程也進(jìn)行圖像預(yù)處理減均值除方差。
高分辨表征姿態(tài)估計(jì)方法在COCO數(shù)據(jù)集中每個(gè)batch size訓(xùn)練總損失與關(guān)鍵點(diǎn)分類損失如圖5所示。從圖中可以看出,模型總的損失函數(shù)以及關(guān)鍵點(diǎn)損失在訓(xùn)練過程都在整體下降,在所有的迭代次數(shù)之后,損失基本上優(yōu)化到全局最優(yōu)解。
圖5 高分辨率表征姿態(tài)估計(jì)損失loss示意圖
在訓(xùn)練的過程中為了跟蹤RCNN模塊的分類性能,計(jì)算每個(gè)batch中所有候選框的分類準(zhǔn)確率,采用Accuracy進(jìn)行評(píng)價(jià),負(fù)樣本候選框也參與評(píng)測(cè),整個(gè)訓(xùn)練過程候選框的精度如圖6所示??梢钥闯鰧?duì)人體實(shí)例的檢測(cè)性能不斷提升,當(dāng)檢測(cè)越準(zhǔn)確,才能將人體目標(biāo)進(jìn)行進(jìn)一步的姿態(tài)估計(jì)。
圖6 RCNN模塊在訓(xùn)練集的精度變化
對(duì)訓(xùn)練完成的模型進(jìn)行檢測(cè)與關(guān)鍵點(diǎn)可視化,在COCO驗(yàn)證集的檢測(cè)結(jié)果與姿態(tài)估計(jì)結(jié)果可視化見圖7。對(duì)檢測(cè)的人體,進(jìn)一步進(jìn)行姿態(tài)估計(jì),采用高分辨率特征表征的方法,無論對(duì)大目標(biāo)還是小目標(biāo)都能進(jìn)行完整的姿態(tài)估計(jì),姿態(tài)估計(jì)的對(duì)稱姿態(tài)點(diǎn)誤檢較少,且關(guān)鍵點(diǎn)定位較為準(zhǔn)確。
圖7 COCO數(shù)據(jù)集測(cè)試可視化示意圖
為了驗(yàn)證提出的高分辨率特征姿態(tài)估計(jì)方法的有效性,與Mask RCNN[18]姿態(tài)估計(jì)方法進(jìn)行對(duì)比,驗(yàn)證集的性能見表1。姿態(tài)估計(jì)的評(píng)測(cè)指標(biāo)為mAP,其中檢測(cè)的評(píng)測(cè)指標(biāo)也為mAP,對(duì)于姿態(tài)估計(jì)mAP會(huì)進(jìn)一步對(duì)比不同相似度閾值下的AP以及不同大小目標(biāo)的AP。
表1 高分辨率特征表征與Mask RCNN姿態(tài)估計(jì)方法 COCO驗(yàn)證集對(duì)比結(jié)果
由表1可以得到,本文提出的高分辨率表征姿態(tài)估計(jì)方法檢測(cè)任務(wù)性能提升1.0%,姿態(tài)估計(jì)任務(wù)提升0.5%,其中在IOU50以及IOU75下都有對(duì)應(yīng)的性能提升,IOU50 提升只有0.4%,可以看出高IOU下姿態(tài)估計(jì)性能提升更為明顯,說明其高分辨率降低了特征下采樣誤差,其空間位置定位更準(zhǔn)確。
為了進(jìn)一步驗(yàn)證其在P3層提取高分辨率特征的有效性,還對(duì)不同層的特征進(jìn)行了試驗(yàn),試驗(yàn)對(duì)比見表2,可以得到在P3層上ROI-align的特征效果最好。
以上試驗(yàn)充分說明,P3層高分辨率特征表征,相比P2層其語義分類性能更優(yōu),但如果在更低分辨率特征進(jìn)行特征提取,其姿態(tài)估計(jì)性能不斷降低。同時(shí)由于訓(xùn)練過程中檢測(cè)與姿態(tài)估計(jì)是相關(guān)的,姿態(tài)估計(jì)損失會(huì)影響檢測(cè)的優(yōu)化,導(dǎo)致其檢測(cè)性能進(jìn)一步降低。綜上所述,本文設(shè)計(jì)的高分辨率特征表征的姿態(tài)估計(jì)其檢測(cè)、姿態(tài)估計(jì)任務(wù)都相比論文Mask RCNN性能更高,充分驗(yàn)證了高分辨率特征表征具有一定的有效性。
本文首先介紹了 Mask RCNN 模型結(jié)構(gòu),然后分析了基于 Mask RCNN 的姿態(tài)估計(jì)任務(wù)方法與原理,分析了其對(duì)應(yīng)的優(yōu)缺點(diǎn)。將檢測(cè)任務(wù)與姿態(tài)估計(jì)任務(wù)進(jìn)行對(duì)比,分析得到姿態(tài)估計(jì)任務(wù)對(duì)空間位置信息更加敏感,在特征金字塔特征提取的基礎(chǔ)上,將特征金字塔提取更高高分辨率特征輸入姿態(tài)估計(jì)模塊,一方面是降低關(guān)鍵點(diǎn)下采樣量化誤差,同時(shí)高分辨率特征具有豐富的空間位置信息, 提升關(guān)鍵點(diǎn)的檢測(cè)性能。為了高分辨率特征提取,考慮到特征提取耗時(shí),將特征金字塔中間層特征進(jìn)行關(guān)鍵點(diǎn)任務(wù)的特征提取。通過試驗(yàn)對(duì)比,基于高分辨率特征表征的關(guān)鍵點(diǎn)預(yù)測(cè)方法準(zhǔn)確度更高。