• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      擁擠場景下的行人姿態(tài)估計研究*

      2022-08-01 02:50:24張偉偉
      計算機與數(shù)字工程 2022年6期
      關(guān)鍵詞:關(guān)鍵點行人姿態(tài)

      任 超 趙 波 張偉偉

      (上海工程技術(shù)大學(xué) 上海 201620)

      1 引言

      二維人體姿態(tài)估計一直是計算機視覺領(lǐng)域的一個基本問題。目標是定位人體骨骼關(guān)鍵點(如肘部、腕部等)或部位。近年來,對于單個行人的姿態(tài),通過各個行人的預(yù)測框和骨骼關(guān)鍵點的位置來預(yù)測單個行人位姿,整體方法較簡單,預(yù)估姿態(tài)精度較低,且無法滿足行人擁擠環(huán)境。最近的工作解決多人姿態(tài)估計主要有自上向下和自下而上兩種方法[1~2]:1)自下而上方法,檢測關(guān)節(jié)并將關(guān)節(jié)與相對應(yīng)的行人聯(lián)系起來。Cao[3]等利用部分親和域和貪婪算法將關(guān)節(jié)關(guān)聯(lián)起來,帕潘德里歐等[4]檢測單獨的關(guān)節(jié)并且預(yù)測關(guān)節(jié)的相對位移,基于身體部分檢測方法由于只考慮局部小區(qū)域和輸出較小的響應(yīng)熱圖,所以輸出結(jié)果相對容易受到干擾;2)自上而下方法,該兩步法首先進行行人檢測[5~6],然后再進行單人姿態(tài)估計[7~8]。目前最先進方法評價得分明顯高于自下而上框架的方法。然而,該方法很大程度上依賴于人類的檢測結(jié)果,在擁擠的場景[9]中是失敗的。當人們在人群中彼此靠得很近時,現(xiàn)有的姿態(tài)估計方法的效果急劇下降。

      針對以上問題,本文提出了一種新的有效的解決擁擠狀態(tài)下多人檢測以及姿態(tài)估計的方法。該方法遵循自上而下的框架方法由兩部分組成,首先利用Faster-RCNN 行人檢測器預(yù)測出包含行人位置和大小相接近的多個矩形框,實現(xiàn)行人檢測。在第二階段,在行人檢測矩形框中預(yù)測行人每個關(guān)鍵點位置。在全卷積方式中應(yīng)用ResNet[10]預(yù)測每個關(guān)鍵點的熱力圖和偏移量,再與一種新的熱圖偏移量聚合形式相結(jié)合完成行人姿態(tài)預(yù)測。通過一種新的基于關(guān)鍵點的非最大抑制(NMS)機制避免重復(fù)位姿檢測(稱之為KS-NMS),提出一個新穎的基于關(guān)鍵點的置信度分數(shù)預(yù)測器,最終預(yù)測結(jié)果與使用Faster-RCNN 框分數(shù)相比較提高了平均精度(AP)。使用了基于骨骼關(guān)鍵點的非極大值抑制和熱力圖置信度分數(shù)預(yù)測的新方式,最終輸出的行人姿態(tài)結(jié)果更加精確。

      2 多人姿態(tài)估計方法

      本文提出的多人姿態(tài)估計方法是基于自上而下框架的兩步級聯(lián)方法,如圖1 所示。第一步以Faster-RCNN 為特征提取的基礎(chǔ)結(jié)構(gòu),可以獲得輸入圖像的多通道高層低維特征表達。顯著性區(qū)域候選網(wǎng)絡(luò)(RPN)可以整合傳統(tǒng)RPN 網(wǎng)絡(luò)和顯著性區(qū)域搜索算法的優(yōu)勢,融合候選區(qū)域和顯著性區(qū)域,為獲得精細化候選區(qū)域奠定基礎(chǔ)。ROI 抽樣層在輸入圖像坐標參考系范疇內(nèi),對深度卷積特征進行尺寸裁剪歸一化和坐標調(diào)整,最終精確判定各候選區(qū)域內(nèi)的行人分類邊界框。第二步在行人分類邊界框中預(yù)測骨骼關(guān)鍵點,結(jié)合骨骼關(guān)鍵點的非極大值抑制和熱力圖置信度分數(shù)預(yù)測的新方式,輸出擁擠場景下較為精確的姿態(tài)估計結(jié)果。

      圖1 多人姿態(tài)估計方法

      2.1 行人檢測

      行人檢測器主要基于Faster-RCNN 利用ResNet-101 網(wǎng)絡(luò)主干,通過對空洞卷積進行修改,在不做池化損失信息的情況下增大感受野,加強網(wǎng)絡(luò)的特征提取能力,以生成輸出步幅為8 像素的更密集熱力圖。CNN 的主干已經(jīng)在ImageNet 中進行了圖像分類預(yù)訓(xùn)練,F(xiàn)aster-RCNN 檢測器的區(qū)域建議和預(yù)測框分類器組件都使用COCO 數(shù)據(jù)集中的行人類別進行訓(xùn)練,其余79個COCO類別的框注釋都被忽略,為了簡單便于實現(xiàn),F(xiàn)aster-RCNN 在行人檢測框階段沒有使用多尺度預(yù)測,這樣的增強可以進一步改進行人預(yù)測的結(jié)果。

      2.2 行人姿態(tài)估計

      基于第一階段輸入的每個行人分類邊界框,通過姿態(tài)估計方法預(yù)測出行人17 個骨骼關(guān)鍵點所對應(yīng)的位置。

      2.2.1 利用卷積神經(jīng)網(wǎng)絡(luò)的熱力圖與偏移量預(yù)測

      針對擁擠場景下,輸入圖像中包含多個行人導(dǎo)致骨骼關(guān)鍵點相重疊的問題,本文采用了分類與回歸相結(jié)合的方法。在裁剪后的圖像上以全卷積的方式應(yīng)用ResNet-101,生成熱力圖(每個關(guān)鍵點一個通道)和偏移量(x 和y 方向的每個關(guān)鍵點兩個通道),總共3K 輸出通道,其中K=17 是關(guān)鍵點的數(shù)量。在公開可用的Imagenet 預(yù)訓(xùn)練ResNet-101 模型初始化本文模型,用3×K 輸出的1×1 卷積替換其最后一層。使用空洞卷積生成3·K 預(yù)測,輸出步幅為8像素,并將它們雙上采樣達到353×257裁剪大小。

      其中G(·)是是雙線值插值的內(nèi)核。式(1)是霍夫投票的一種形式:圖像裁剪網(wǎng)格中的每個點j 通過對每個關(guān)鍵點估計的位置進行投票,投票的權(quán)重依賴于點j 在對應(yīng)的關(guān)鍵點影響磁盤圓中的概率,正則化因素等同于磁盤圓的面積,確保在熱力圖和偏移量較合理下,pk( )xi是一個以第k 個關(guān)鍵點為中心的單位質(zhì)量函數(shù)。

      該過程由圖2 展示,通過預(yù)測單獨的熱力圖和偏移通道并融合投票過程的建議結(jié)果,得到高度本地化的激活映射圖,精確定位關(guān)鍵點的位置。

      圖2 預(yù)測單個行人全部骨骼關(guān)鍵點本地化過程

      2.2.2 模型訓(xùn)練

      本文使用一個帶有兩個卷積輸出的單一ResNet 模型。第一個卷積經(jīng)過一個sigmoid 函數(shù)輸出,產(chǎn)生每個位置xi和每個關(guān)鍵點k對應(yīng)的熱力圖概率hk(xi)。訓(xùn)練目標hk(xi)是一個由0 和1 組成的熱力圖,如果||xi-li||≤R,則hk(xi) = 1,否則為hk(xi)=0。hk(xi)相對應(yīng)的損失函數(shù)Lh(θ)是每個位置和單獨關(guān)鍵點邏輯損失的總和。為加快訓(xùn)練速度,在ResNet-50 中間層增加了一個額外的熱力圖預(yù)測層提供相應(yīng)的輔助損失。第二個卷積訓(xùn)練偏移量回歸,對預(yù)測值與地面真實值之間的偏差進行了補償。相應(yīng)的損失函數(shù)為

      該方法使用式(4)中的的姿態(tài)評估與Faster-RCNN檢測器評分相比,顯著提升了平均精度。

      2.2.3 KS非極大值抑制方法(KS-NMS)

      為避免擁擠場景下行人關(guān)鍵點檢測階段的重復(fù)多次檢測,應(yīng)用KS-NMS方法。通常使用盒的交并比(IOU)來測量重疊,本文KS-NMS 方法是考慮關(guān)鍵點的極大值抑制方法改進。對于兩個候選的姿態(tài)檢測使用行人關(guān)鍵點相似度來測量,通常在行人矩形框檢測器的輸出處使用一個相對較高的IOU-NMS 閾值(設(shè)置為0.6)來過濾高度重疊的矩形框。KS-NMS 方法在姿態(tài)估計中能夠輸出更適合于確定兩個候選檢測是對應(yīng)于假陽性(同一人的兩次重復(fù)檢測)還是真陽性(兩個相距很近的倆個人)的預(yù)測結(jié)果。

      3 實驗結(jié)果與分析

      3.1 數(shù)據(jù)集

      本文使用兩個數(shù)據(jù)集進行實驗,分別為COCO數(shù)據(jù)集和SUES 行人數(shù)據(jù)集。COCO 數(shù)據(jù)集使用關(guān)鍵點標注數(shù)據(jù)集[11],COCO數(shù)據(jù)集中使用2174個作為模型訓(xùn)練集和1200 個模型驗證集,均包含行人實例。COCO 數(shù)據(jù)集中包含的擁擠的行人圖像較少,出于驗證本方法在部分擁擠狀態(tài)下的姿態(tài)估計情況,本文以圖3 所示的自主研制的智能車采集校園內(nèi)學(xué)生上下課時間段,采集行人擁擠場景下數(shù)據(jù)集,并定義一個人群指數(shù)衡量一幅圖像的擁擠程度,即建成SUES 行人數(shù)據(jù)集。表1 提供了數(shù)據(jù)集具體分配信息,單人或者多人不擁擠場景下的行人數(shù)據(jù)集來自于COCO 數(shù)據(jù)集,行人部分較擁擠狀態(tài)場景來自于SUES 校園行人數(shù)據(jù)集。訓(xùn)練Faster-RCNN 行人檢測矩形框模塊應(yīng)用COCO 數(shù)據(jù)集,訓(xùn)練ResNet 姿態(tài)估計模塊運用COCO 數(shù)據(jù)集或SUES校園行人數(shù)據(jù)集進行訓(xùn)練。

      圖3 SUES行人數(shù)據(jù)采集車

      表1 數(shù)據(jù)集分配信息

      3.2 關(guān)鍵點檢測試驗結(jié)果

      表2 顯示本文方法在COCO 或SUES 校園行人數(shù)據(jù)集上訓(xùn)練的關(guān)鍵點測試與驗證集上表現(xiàn)。

      表2 不同方法檢測AP和AR對比結(jié)果

      表3 顯示了本文方法在關(guān)鍵點測試標準分割結(jié)果,其中姿態(tài)估計器在COCO 或SUES 校園行人數(shù)據(jù)集上訓(xùn)練。

      表3 關(guān)鍵點測試標準分割結(jié)果對比圖

      即使僅在COCO 數(shù)據(jù)集中訓(xùn)練,在COCO 測試開發(fā)和測試標準分割上也取得了較好的結(jié)果,超過了CMUPose團隊[12]和最近的Mask-RCNN的方法[13]。最佳結(jié)果是使用基于SUES校園行人數(shù)據(jù)集的姿態(tài)估計器訓(xùn)練得到的,AP 評分為0.673,與CMUPose[14]的0.611測試標準分數(shù)相比,提升了6.2%。

      3.3 消融實驗

      3.3.1 行人檢測矩形框模塊消融實驗

      測試了基于Faster-RCNN 行人檢測器ResNet-101 網(wǎng)絡(luò)的倆個變體:1)使用小邊600 像素和大邊900 像素作為輸入圖像的一個600×900 變體,2)精確的800×1200 變體,使用小邊800 像素和大邊1200 像素的輸入圖像。在COCO 驗證集中行人檢測AP 分別是0.466 和0.500。在COCO 測試集上行人檢測AP[15]分別為0.456 和0.487。向姿態(tài)估計器模塊提供真實檢測框,以便在框檢測模塊隔離的情況下檢查它的預(yù)測性能。表4中表明了在COCO 數(shù)據(jù)集或SUES 行人數(shù)據(jù)集中訓(xùn)練的姿態(tài)估計器COCO驗證集的結(jié)果。

      3.3.2 姿態(tài)估計模塊消融實驗

      為姿態(tài)估計模塊實驗替代的CNN 設(shè)置,測試了更快的ResNet-50 或更準確的ResNet-101 的CNN 網(wǎng)絡(luò)主干,同時保留ResNet-101 作為Faster-RCNN 行人矩形框檢測模塊的CNN 主干。使用兩種不同尺寸的圖像作為姿態(tài)估計的輸入[16]。表4 展示了使用SUES 行人數(shù)據(jù)集進行姿態(tài)估計訓(xùn)練,在COCO 數(shù)據(jù)集測試和驗證集下,關(guān)于四種不同CNN主干/裁剪圖像大小組合所展示的結(jié)果。由表可知ResNet-101 性能提高了2%,本文使用ResNet-101(353×257)姿態(tài)估計器,其磁盤半徑R=25像素。

      表4 COCO數(shù)據(jù)集或SUES行人數(shù)據(jù)集中行人檢測模塊消融對比結(jié)果

      表5 SUES數(shù)據(jù)集下四種不同CNN主干/裁剪圖像大小組合對比結(jié)果

      3.4 行人檢測與姿態(tài)估計結(jié)果

      利用本文方法從COCO 測試和驗證數(shù)據(jù)集中隨機選擇部分圖片進行行人檢測檢測和姿態(tài)估計。部分擁擠環(huán)境下,對于每個被檢測到的行人,顯示檢測到的邊界框和估計的關(guān)鍵點。對于同一個行人的所有檢測使用同樣的方式著色,同一幅圖片中的不同的行人人采取不同的方式顏色表明檢測和姿態(tài)估計結(jié)果。值得注意的是,該方法在SUES行人數(shù)據(jù)集(環(huán)境復(fù)雜,遮擋較嚴重)中,也表現(xiàn)出較好的性能。

      圖6 行人姿態(tài)估計結(jié)果展示

      4 結(jié)語

      針對行人擁擠場景下姿態(tài)密集交叉、識別能力急劇下降等問題,本文提出了一種有效解決擁擠場景下多人檢測以及姿態(tài)估計的方法。該方法主要由兩個關(guān)鍵部分組成,首先利用Faster-RCNN 行人檢測器,預(yù)測出包含行人位置和大小規(guī)模的矩形框。然后,預(yù)測每個矩形框中可能包含的行人骨骼關(guān)鍵點,使用全卷積ResNet 網(wǎng)絡(luò)來預(yù)測每個骨骼關(guān)鍵點的熱力圖和偏移量并輸出。對于擁擠狀態(tài)下的行人姿態(tài)估計也變現(xiàn)較好的性能。實驗結(jié)果表明,本文提出的方法在包含大量部分擁擠場景下的SUES 行人數(shù)據(jù)集以及COCO 數(shù)據(jù)集中,具備較強的魯棒性和較高的行人檢測與姿態(tài)估計準確度。

      猜你喜歡
      關(guān)鍵點行人姿態(tài)
      聚焦金屬關(guān)鍵點
      肉兔育肥抓好七個關(guān)鍵點
      毒舌出沒,行人避讓
      意林(2021年5期)2021-04-18 12:21:17
      攀爬的姿態(tài)
      路不為尋找者而設(shè)
      揚子江(2019年1期)2019-03-08 02:52:34
      全新一代宋的新姿態(tài)
      汽車觀察(2018年9期)2018-10-23 05:46:40
      跑與走的姿態(tài)
      中國自行車(2018年8期)2018-09-26 06:53:44
      我是行人
      醫(yī)聯(lián)體要把握三個關(guān)鍵點
      鎖定兩個關(guān)鍵點——我這樣教《送考》
      語文知識(2014年7期)2014-02-28 22:00:26
      新宾| 海丰县| 绥中县| 台安县| 龙岩市| 肥西县| 巴青县| 长沙市| 塘沽区| 保德县| 阿拉善右旗| 清徐县| 金寨县| 台东市| 虞城县| 广汉市| 佛教| 舟曲县| 泾源县| 滨海县| 中牟县| 南康市| 青龙| 楚雄市| 社会| 梁山县| 庄浪县| 盖州市| 龙岩市| 满城县| 沧州市| 清远市| 康保县| 新闻| 苍南县| 伊春市| 星座| 张掖市| 吕梁市| 板桥市| 新竹县|