• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于距離感知自上而下的多人三維姿態(tài)估計

      2022-05-31 01:13:50林浩翔李萬益鄔依林黃用有林慕飛
      電腦知識與技術(shù) 2022年11期
      關(guān)鍵詞:計算機視覺深度學(xué)習(xí)

      林浩翔 李萬益 鄔依林 黃用有 林慕飛

      摘要:人體姿態(tài)估計是計算機視覺領(lǐng)域的一個熱門研究方向。人體姿態(tài)估計的技術(shù)發(fā)展已有一段時間,相關(guān)的方法已經(jīng)提出比較多,這些方法基本都局限于單人的三維姿態(tài)處理。在大多場景下,三維運動形態(tài)呈現(xiàn)多人交互的情況,所以多人姿態(tài)估計的問題需要處理。隨著深度學(xué)習(xí)的理論發(fā)展,該文提出基于距離感知自上而下深度學(xué)習(xí),處理多人三維姿態(tài)估計的問題。

      關(guān)鍵詞:計算機視覺;多人三維姿態(tài)估計;深度學(xué)習(xí)

      中圖分類號:TP391.41? ? ? 文獻標識碼:A

      文章編號:1009-3044(2022)11-0077-02

      1 引言

      基于深度學(xué)習(xí)的三維單人姿態(tài)估計研究已經(jīng)取得了一定的成果[1-5]。單人姿態(tài)估計方法適用的模型也比較多,其估計效果已經(jīng)比較理想。單人估計的模型可以將角色模型融合到真實世界的視頻和場景[6],可實現(xiàn)和場景的人物交互。但是在大多場景中,多人姿態(tài)交互的情況出現(xiàn)也有很多,比如集體舞蹈教學(xué)、多人體育競技展示、多人動作交互三維重構(gòu)等[7-9],多人三維姿態(tài)估計是常見并且需要處理的問題。該問題能否有效解決關(guān)系到三維姿態(tài)估計的核心技術(shù)能否有所突破。

      在多人三維姿態(tài)估計中,人體肢體的相互遮擋、三維與二維圖像的映射歧義以及模型建立與訓(xùn)練的問題比之前單人三維姿態(tài)估計要嚴重很多[10]。因此,為了較好實現(xiàn)多人三維運動形態(tài)估計,本文提出基于距離感知自上而下深度學(xué)習(xí)處理。該方法結(jié)合圖像深度值計算,關(guān)鍵點檢測進行估計,提出的方法不僅繼承了傳統(tǒng)單人三維姿態(tài)估計方法的優(yōu)點,還具有多人檢測并實時估計的特點,具有良好的穩(wěn)定性。所提方法估計出的三維模型為常用的骨架模型[11],該模型可以轉(zhuǎn)換成更高級的體型模型[12],對該高級模型的身高、體重、皮膚、肢體粗細等細節(jié)計算具有良好的促進作用。

      本文提出的方法,首先檢測二維圖像的中心根節(jié)點,然后自上而下尋找其他肢體的節(jié)點,如腕部、腳踝位置的節(jié)點等,將這些關(guān)節(jié)點進行連接,組成一個人體二維骨架模型,接著計算中心根節(jié)點的深度值,確定相應(yīng)三維模型的空間位置,最后通過神經(jīng)網(wǎng)絡(luò)估計出三維姿態(tài)。多人估計的實現(xiàn)依靠對二維圖像人體個數(shù)的檢測,還有對單幅圖像多人肢體中心根節(jié)點和其他肢體關(guān)鍵點進行檢測,以及神經(jīng)網(wǎng)絡(luò)在三維空間中估計的相應(yīng)位置。本文進一步討論所提方法并進行實驗測試,測試分為單人三維姿態(tài)測試,體型模型轉(zhuǎn)換測試以及多人三維姿態(tài)估計測試,測試結(jié)果顯示所提算法具有較強的有效性、穩(wěn)定性和準確性。

      2 基于距離感知自上而下深度學(xué)習(xí)

      深度學(xué)習(xí)是最近幾年提出的熱點理論,其可以處理語音、圖像,以及語言數(shù)據(jù)等,對大量的數(shù)據(jù)可以成功地構(gòu)建復(fù)雜的映射關(guān)系,并且能成功地進行訓(xùn)練和預(yù)測。本文提出的方法以深度學(xué)習(xí)理論為基礎(chǔ),可以處理大量的人體姿態(tài)數(shù)據(jù)樣本。由于多人動作交互的圖像需要標注人體的肢體關(guān)鍵點,對關(guān)鍵點的三維空間位置進行預(yù)測,所以本文所提方法要計算圖像的相關(guān)信息深度值,以此確定其關(guān)鍵點具體的三維空間位置。本文提出的方法基于文獻[8],其方法框架如圖1所示。

      所提出方法是通過計算各個單人三維骨架模型的主要根節(jié)點位置以及其他關(guān)鍵節(jié)點(無空間位置信息) 的關(guān)鍵點整合到一個空間來實現(xiàn)。檢測網(wǎng)絡(luò)用于檢測二維圖像中的人體姿態(tài)在圖像中的位置,以便能進行圖片切割,得到相應(yīng)的人體姿態(tài)二維圖像,縮小二維圖像的處理范圍,如圖2所示。得到人體姿態(tài)二維圖像后,通過根節(jié)點網(wǎng)絡(luò)預(yù)測二維圖像中人體的根節(jié)點的位置,并對其深度值進行計算,如圖3所示。然后通過二維圖像的根節(jié)點計算其深度值,確定其在三維空間的位置,其具體方法如圖4所示。用姿態(tài)預(yù)測網(wǎng)絡(luò)預(yù)測非根節(jié)點的其他關(guān)鍵點(肢體關(guān)鍵點) ,得出絕對三維姿態(tài)和根節(jié)點的三維空間信息進行結(jié)合,輸出三維空間中的單個三維姿態(tài)骨架模型。

      3 實驗與評價

      本文提出的基于距離感知自上而下深度學(xué)習(xí)方法,不僅可以處理單人三維姿態(tài)估計,還可以處理多人三維姿態(tài)估計。下面對所提出方法進行實驗測試。首先,進行單人的三維姿態(tài)估計進行測試,測試數(shù)據(jù)選用Human3.6M數(shù)據(jù)[6]進行測試,動作姿態(tài)選“吃東西”姿態(tài)片段,選取任意一幀進行展示,如圖5所示。從圖5中,發(fā)現(xiàn)所提方法估計的三維姿態(tài)與真實值很接近,該現(xiàn)象表明所提的方法估計單人三維姿態(tài)的準確度比較理想,不會出現(xiàn)左右相反的情況。

      接下來,用所提出的方法對所估計的三維動作姿態(tài)進行體型模型轉(zhuǎn)換測試,測試結(jié)果如圖6所示。首先用所提方法進行二維動作姿態(tài)估計,得到二維圖像的動作姿態(tài),然后通過根節(jié)點預(yù)測網(wǎng)絡(luò)、姿態(tài)預(yù)測網(wǎng)絡(luò)以及深度值計算,得到骨架模型的根節(jié)點和其他肢體關(guān)鍵點組成相應(yīng)的骨架三維模型,再通過體型計算得到相應(yīng)的體型模型。從圖6中發(fā)現(xiàn),所得到的體型模型和相應(yīng)的圖像很匹配,說明所提出的方法估計的骨架模型對體型模型的計算有良好的輔助作用。

      最后,在Human3.6M數(shù)據(jù)庫[6]及其他數(shù)據(jù)庫中選用不同的視頻片段進行單人和多人的三維姿態(tài)估計測試,如圖7所示。從實驗測試可知,所提方法的性能較穩(wěn)定,估計出的三維人體骨架模型投影到原圖像后,與二維圖像的人體肢體很匹配,并且估計的視覺效果比較理想,動作姿態(tài)展示準確。在多人姿態(tài)相互遮擋的情況下,所提的方法也能克服,得到比較理想的結(jié)果。圖7的結(jié)果再次證明所提算法的有效性、穩(wěn)定性和準確性。

      4 結(jié)束語

      基于距離感知自上而下深度學(xué)習(xí)的訓(xùn)練需要通過大量數(shù)據(jù)樣本的收集來實現(xiàn),這樣才能構(gòu)成較完美的根節(jié)點預(yù)測網(wǎng)絡(luò)和姿態(tài)預(yù)測網(wǎng)絡(luò),最終實現(xiàn)較理想的實驗效果。再者,經(jīng)過實驗測試,所提方法估計的骨架模型對體型模型的轉(zhuǎn)換也起著較好的基礎(chǔ)作用。隨著社會的現(xiàn)代化發(fā)展,人體三維姿態(tài)估計作為計算機視覺領(lǐng)域的研究分支,其技術(shù)日益顯得重要。該技術(shù)對集體舞蹈教學(xué)、多人體育競技三維展示、多人動作交互三維重構(gòu)等有良好的促進作用。

      參考文獻:

      [1] Zhou XW,ZhuML,PavlakosG,etal.MonoCap:monocularhuman motion capture using a CNN coupled with a geometric prior[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2019,41(4):901-914.

      [2] Hassanpour M,MalekH.Learning document image features with SqueezeNet convolutional neural network[J].International Journal of Engineering,2020,33(7):1201-1207.

      [3] HosnyKM,KassemMA,F(xiàn)ouad M M.Classification of skin lesions into seven classes using transfer learning with AlexNet[J].Journal of Digital Imaging,2020,33(5):1325-1334.

      [4] McNeely-WhiteD,Beveridge J R,DraperBA.Inception and ResNet features are (almost) equivalent[J].Cognitive Systems Research,2020,59:312-318.

      [5] Wang JB,TanSJ,ZhenXT,etal.Deep 3D human pose estimation:a review[J].Computer Vision and Image Understanding,2021,210:103225.

      [6] IonescuC,PapavaD,OlaruV,etal.Human3.6M:large scale datasets and predictive methods for 3D human sensing in natural environments[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,36(7):1325-1339.

      [7] KamelA,LiuBW,LiP,etal.Aninvestigation of 3D human pose estimation for learning Tai chi:ahumanfactor perspective[J].International Journal of Human-Computer Interaction,2019,35(4/5):427-439.

      [8] Moon G,ChangJY,LeeKM.Camera distance-aware top-down approach for 3D multi-person pose estimation from a single RGB image[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV).October 27 - November 2,2019,Seoul,Korea (South).IEEE,2019:10132-10141.

      [9] Jianan Zhen, Qi Fang, Jiaming Sun, Wentao Liu, Wei Jiang, HujunBao, Xiaowei Zhou. SMAP: Single-Shot Multi-person Absolute 3D Pose Estimation[C]//Proceedings of the ECCV 2020, Glasgow, United kingdom, Springer Science and Business Media Deutschland GmbH,2020:550-566.

      [10] BenzineA,LuvisonB,PhamQC,etal.Single-shot 3D multi-person pose estimation in complex images[J].Pattern Recognition,2021,112:107534.

      [11] Li WY,ZengYQ,ZhangQ,etal.Humanmotion capture based on incremental dimension reduction and projection position optimization[J].Wireless Communications and Mobile Computing,2021,2021:5589100.

      [12] BogoF,KanazawaA,LassnerC,etal.Keep it SMPL:automatic estimation of 3D human pose and shape from a single image[C]//Proceedings of the 21st ACM Conference on Computer and Communications Security, CCS 2014, Scottsdale, AZ, United states, Springer Verlag:2016: 561-578.

      收稿日期:2021-12-20

      基金項目:本課題由國家級大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計劃項目(No. 202114278009X),廣州市基礎(chǔ)與應(yīng)用基礎(chǔ)研究項目(No. 202002030232),廣東省普通高校青年創(chuàng)新人才項目(No. 2019KQNCX095),廣東省高等學(xué)校教學(xué)質(zhì)量與教學(xué)改革工程項目(廣東第二師范學(xué)院計算機實驗教學(xué)示范中心, 2019年, No. 18),廣東第二師范學(xué)院網(wǎng)絡(luò)工程重點學(xué)科(No. ZD2017004) 資助

      作者簡介:林浩翔,男,本科生,研究方向為圖像處理,深度學(xué)習(xí);通信作者:李萬益,男,博士,講師,研究方向為圖像理解、機器學(xué)習(xí)、深度學(xué)習(xí)。

      猜你喜歡
      計算機視覺深度學(xué)習(xí)
      基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識別算法
      雙目攝像頭在識別物體大小方面的應(yīng)用
      機器視覺技術(shù)發(fā)展及其工業(yè)應(yīng)用
      危險氣體罐車液位計算機視覺監(jiān)控識別報警系統(tǒng)設(shè)計
      有體驗的學(xué)習(xí)才是有意義的學(xué)習(xí)
      計算機視覺在交通領(lǐng)域的應(yīng)用
      電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識別研究
      MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
      大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
      基于計算機視覺的細小顆粒團重量測量的研究
      余干县| 益阳市| 湖北省| 团风县| 小金县| 固安县| 建昌县| 汤阴县| 营山县| 涪陵区| 政和县| 桂平市| 荔波县| 定安县| 裕民县| 睢宁县| 谷城县| 马边| 关岭| 夹江县| 桑日县| 中牟县| 定日县| 延长县| 东山县| 安远县| 江达县| 象山县| 涞水县| 竹山县| 望城县| 长葛市| 海口市| 兴隆县| 阿瓦提县| 黄龙县| 建瓯市| 四会市| 阿图什市| 南丰县| 临夏市|