林浩翔,李萬益,鄔依林,黃靖敏,黃用有
(廣東第二師范學(xué)院計(jì)算機(jī)學(xué)院,廣州 510303)
長期以來,人體姿態(tài)估計(jì)是計(jì)算機(jī)視覺中一個(gè)熱門研究課題。近年來,由于該技術(shù)的應(yīng)用需求不斷增加,它受到越來越多的關(guān)注。盡管先進(jìn)的深度學(xué)習(xí)技術(shù)在這一領(lǐng)域已經(jīng)取得了重大進(jìn)展,但遮擋問題比較困難,人群場景中的姿態(tài)估計(jì)仍然極具挑戰(zhàn)性。人群姿態(tài)估計(jì)的趨勢模型強(qiáng)烈依賴于熱圖表示來估計(jì)關(guān)節(jié): 雖然這些方法對可見關(guān)節(jié)有效,但在遮擋上的性能卻不夠完善。迄今為止,許多研究人員在遮擋問題中付出了艱苦的努力,采取了許多對應(yīng)的措施。然而,遮擋問題受到的關(guān)注很少,解決它的方法也比較少。 由于復(fù)雜的背景圖、復(fù)雜的人體姿態(tài)和隨機(jī)的遮擋形狀,最先進(jìn)的SOTA 法仍會(huì)產(chǎn)生不準(zhǔn)確的姿勢。為了揭示隱藏的關(guān)節(jié),我們提出了一種方法進(jìn)行全面推理,例如:人類可以利用來自動(dòng)作類型和圖像上下文的線索推斷出不可見關(guān)節(jié)的位置。因此,我們提出一個(gè)新的框架OPEC-Net并深入研究了隱形關(guān)節(jié)推理所需的線索,并將這些線索納入多人姿態(tài)估計(jì),最后實(shí)驗(yàn)得出結(jié)果。
圖1 兩種方法的比較
基于熱圖的用于姿態(tài)估計(jì)的模型。多人姿態(tài)估計(jì)模型(MPPE)可分為兩類,即自下而上兩種方法和自上而下兩種方法。
自下而上的方法:首先檢測關(guān)節(jié),然后將它們分配給匹配的人。作為自下而上方法的先鋒工作,試圖設(shè)計(jì)不同的聯(lián)合分組策略。DeepCut提出了一個(gè)整數(shù)線性規(guī)劃(ILP)。根據(jù)學(xué)習(xí)的評(píng)分功能數(shù)將關(guān)節(jié)分組,提出了一種新的二維向量場部分親和場(PAFs)來進(jìn)行關(guān)聯(lián)。然而,之前的工作都存在一個(gè)嚴(yán)重的缺陷,隱形關(guān)節(jié)會(huì)大大降低性能。
自上而下的方法:首先檢測場景中的所有人,然后對每個(gè)人進(jìn)行姿態(tài)估計(jì)?,F(xiàn)有的大多數(shù)自上而下的方法都集中于提出一種更有效的人體探測器,以獲得更好的結(jié)果。大多數(shù)主流的方法都是基于熱圖的,因此僅限于估計(jì)缺乏視覺信息的無形關(guān)節(jié)。因此,我們提出了一個(gè)與這些工作完全不同的OPEC-Net,它能夠通過推理而不是本地化來估計(jì)不可見的關(guān)節(jié)。
圖2 管道示意圖(描述了一個(gè)項(xiàng)目的兩個(gè)評(píng)估階段單體式)
在此階段,使用AlphaPose+作為基礎(chǔ)模塊來生成可見關(guān)節(jié)的熱圖,我們將在下面描述一個(gè)實(shí)例級(jí)的人體姿態(tài)估計(jì)的過程。
首先,基本模塊的三層解碼器生成三個(gè)不同層次的對應(yīng)特征圖: 粗糙特征圖、中間特征圖和精細(xì)特征圖?;灸K輸出一個(gè)熱圖,從熱圖H 中估計(jì)的姿態(tài)可以表示為P,其中包含了每個(gè)關(guān)節(jié)的估計(jì)結(jié)果:
其中x和y是第一個(gè)關(guān)節(jié)的位置,c是置信度得分,是骨架中關(guān)節(jié)的數(shù)量。
我們提出了一種圖像引導(dǎo)圖來校正網(wǎng)絡(luò),采用上述模塊生成的初始姿勢并調(diào)整關(guān)節(jié)的隱式關(guān)系來估計(jì)結(jié)果。
我們用G∈R 作為訓(xùn)練集中第個(gè)姿態(tài)的輸入特征,其中為特征維數(shù)。
我們建立了一個(gè)新的數(shù)據(jù)集Occluded Pose(OCPose),它包含了具有挑戰(zhàn)性的隱形關(guān)節(jié)和復(fù)雜的相互交織在一起的人體姿勢。我們大多考慮雙人互動(dòng)的姿勢場景,如舞蹈、滑冰和摔跤, 因?yàn)樗鼈冇懈煽康淖⑨尯蛯?shí)用價(jià)值。當(dāng)遮擋非常嚴(yán)重時(shí),人體姿態(tài)的關(guān)鍵點(diǎn)位可能很難識(shí)別。我們首先使用拳擊、舞蹈和摔跤等關(guān)鍵詞從互聯(lián)網(wǎng)上搜索視頻。然后,手動(dòng)篩選剪輯網(wǎng)上視頻,在隱私問題許可下,選擇高質(zhì)量的圖像。各數(shù)據(jù)集的比較見表1。
表1 光遮擋水平的比較
(1)實(shí)施細(xì)節(jié)。對于訓(xùn)練,我們設(shè)置了參數(shù)= 0.3、= 0.5、= 1 和epochs=30。每 批提供10 張圖像來訓(xùn)練整個(gè)框架。初始學(xué)習(xí)速率設(shè)置為1,并以余弦函數(shù)的規(guī)律衰減。MSCOCO 的輸入圖像尺寸大小為384×288,其他數(shù)據(jù)集的輸入圖像尺寸大小為320×256。采用自適應(yīng)優(yōu)化算法對參數(shù)進(jìn)行反向傳播優(yōu)化。
(2)評(píng)價(jià)指標(biāo)。我們遵循MSCOCO 的標(biāo)準(zhǔn)評(píng)價(jià)度量,報(bào)告了平均精度(mAP)值為0.5∶0.95、0.5、0.75、0.80和0.90。建議姿態(tài)必須包含超過5 個(gè)可見點(diǎn),OKS 值大于0.3。這是現(xiàn)有工作和廣泛使用的指標(biāo)。
(3)基線。為了進(jìn)行比較,我們使用三種最先 進(jìn) 方 法 的MPPE: Mask RCNN, Alpha-Pose+和SimplePose來評(píng)估性能。這是現(xiàn)有工作和廣泛使用的基線。
各數(shù)據(jù)集的定量結(jié)果見表2。
表2 OCPose數(shù)據(jù)集的比較
與所有基線相比,本文的方法獲得了最好的映射。與AlphaPose+ 相比,該方法提高了2.0mAP@0.5:0.95。與定位方法相比,本文的OPEC-Net 推理能力比較準(zhǔn)確??傊?,這些結(jié)果驗(yàn)證了本文的OPEC-Net 模塊在MPPE 任務(wù)上的顯著有效性。雙聯(lián)曲線圖的評(píng)價(jià)結(jié)果見表2和圖3。與OPEC-Net 相比,雙聯(lián)曲線圖基線也顯示提升了0.8mAP@0.5∶0.95,這驗(yàn)證了人類的互動(dòng)線索是相當(dāng)突出的。如圖3 所示,CoupleGraph曲線圖在質(zhì)量上顯著優(yōu)于OPEC-Net。
圖3 人體姿態(tài)估計(jì)CoupleGraph和OPEC-Net的定性評(píng)價(jià)
圖3 人體姿態(tài)估計(jì)CoupleGraph和OPEC-Net的定性評(píng)價(jià)(續(xù))
在大量基準(zhǔn)數(shù)據(jù)集上的廣泛評(píng)估證明了我們的模型對遮擋問題的有效性。在現(xiàn)有基準(zhǔn)測試上的實(shí)驗(yàn)結(jié)果如表3、表4、圖4 所示。我們的模型超過了所有的基線。
表3 關(guān)于數(shù)據(jù)遮擋數(shù)據(jù)集的定性結(jié)果
表4 MSCOCO 2017 測試-開發(fā)集
圖4 不同數(shù)據(jù)集的評(píng)估結(jié)果對比
CrowdPose 如表3 所示,OPEC-Net 在AlphaPose+上的估計(jì)結(jié)果提高了2.1mAP@0.5∶0.95。
在最大的基準(zhǔn)測試MSCOCO 上的結(jié)果顯示,我們的模型只略微提高了精度的準(zhǔn)確性。此外許多不可見的關(guān)節(jié)在MSCOCO上缺乏注釋。
為了分別研究對不可見(Inv)和可見(V)關(guān)節(jié)的有效性,我們根據(jù)類似的OKS 規(guī)則報(bào)告了每種類型關(guān)節(jié)的統(tǒng)計(jì)數(shù)據(jù)。從表5 可以看出,本文的OPEC 網(wǎng)絡(luò)主要改進(jìn)了看不見的關(guān)節(jié),而不是可見的關(guān)節(jié)。
表5 CrowdPose和OCPose上可見和不可見關(guān)節(jié)的結(jié)果
在本文中,我們提出了一個(gè)新的OPEC-Net模塊和一個(gè)具有挑戰(zhàn)性的遮擋姿態(tài)(OCPose)數(shù)據(jù)集來解決群體姿態(tài)估計(jì)中的遮擋問題。兩個(gè)復(fù)雜的組件,圖像引導(dǎo)漸進(jìn)GCN 和級(jí)聯(lián)特征適應(yīng),設(shè)計(jì)利用自然人體約束和圖像上下文。我們對四個(gè)基準(zhǔn)和消融研究進(jìn)行了徹底的實(shí)驗(yàn),以證明其有效性并提供各種見解。熱圖和坐標(biāo)模塊可以協(xié)同工作,在各個(gè)方面都取得了顯著的改進(jìn)。通過提供該數(shù)據(jù)集,我們希望能引起人們的注意,并增加人們對姿態(tài)估計(jì)中的遮擋問題的研究興趣。