• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      熱圖引導連接的人體姿態(tài)估計方法

      2021-11-16 01:53:08王倉龍劉沫萌
      西安工程大學學報 2021年5期
      關鍵詞:熱圖關鍵點主干

      王 偉,王倉龍,裴 哲,劉沫萌

      (西安工程大學 計算機科學學院,陜西 西安710048)

      0 引 言

      人體姿態(tài)估計旨在根據(jù)圖像預測每個人的關鍵點位置。實際應用十分廣泛,包括動作識別[1]、行人重識別[2]及人機交互[3]等。隨著深度學習的發(fā)展,卷積神經網絡在人體姿態(tài)估計領域所表現(xiàn)出的性能遠高于其他傳統(tǒng)方法,例如概率圖模型[4]或圖結構模型[5],并且近年來的研究表明,基于熱圖引導來預測關鍵點的方法[6-8],預測的精度遠優(yōu)于直接對關鍵點位置的預測[9-10],而獲得關鍵點位置后,更重要的是如何將關鍵點連接為人體姿態(tài)數(shù)據(jù)。

      目前人體姿態(tài)估計方法主要分為:自上而下(Top-down)和自下而上(Bottom-up)。Top-down首先檢測人體,使用前置的目標檢測網絡標識出畫面中人體的邊界框(bounding-box,b-box)[11],該方法將多人人體姿態(tài)估計問題轉化為單人人體姿態(tài)估計[12-15]。文獻[16-17]提出的HRNet通過多分辨率融合以及保持高分辨率的方法極大的提高了關鍵點的預測精度。由于Top-down在目標檢測階段就消除了大部分背景,因此很少有背景噪點或者其他人體的關鍵點,簡化了關鍵點熱圖估計,但是在人體目標檢測階段會消耗大量的計算成本,并且不是端到端的算法。

      與之相反,Bottom-up首先預測圖像中所有人體關鍵點位置,然后將關鍵點鏈接為不同的人體實例。代表性工作有:DeepCut方法和DeeperCut方法開創(chuàng)性地將關鍵點關聯(lián)問題表示為整數(shù)線性規(guī)劃問題[18-19],可以有效求解,但處理時間長達數(shù)小時。而Openpose方法基本可以做到實時檢測,其中的PAF組件用來預測人體部件,連接可能屬于同一人體的關鍵點[20],并且PifPaf方法對該方法進一步拓展,提高了連接的準確度[11]。Associative embedding方法將每個關鍵點映射一個識別對象所屬組的“標簽”,標簽將每個預測的關鍵點與同一組中的其他關鍵點直接關聯(lián),從而得到預測的人體姿態(tài)[21]。PersonLab方法采用短距偏移提高關鍵點預測的精度,再通過貪婪解碼和霍夫投票方法的分組,將預測的關鍵點聯(lián)合為一個姿態(tài)估計實例[22]。Bottom-up普遍比Top-down算法復雜度低、速度更快,并且這是端到端的算法,本文所使用的方法屬于此類。此外熱圖回歸廣泛應用于語義標注的關鍵點定位,例如:人臉[23]、手部[24]、人體[25]或者日常物品[26]的關鍵點,目前高斯核覆蓋所有的關鍵點使用固定標準差,然而在Bottom-up方法中,圖像中的人體尺度普遍存在多樣性,若可根據(jù)不同人體尺度調整每個關鍵點的標準差,可以取得更好的回歸效果。

      基于此,本文提出了一種基于熱圖引導的人體姿態(tài)估計方法,其中主要創(chuàng)新點:①將預測的關鍵點熱圖和特征表示相結合,使用熱圖引導像素級關鍵點回歸,從而獲取更高的回歸質量;②其中在熱圖回歸階段,受Focal loss方法的啟發(fā)[27],提出一種尺度自適應熱圖估計,用來自適應學習處理局部特征的尺度多樣性;③在關鍵點分組之后,提出一種基于姿態(tài)結構和關鍵點熱值評分網絡,預測每個估計的姿勢與真實姿態(tài)數(shù)據(jù)擬合的程度,用來提高姿態(tài)的預測精度;④考慮到熱圖的背景噪點問題,重新設計了相關的熱圖估計損失函數(shù),從而進一步提高熱圖估計質量。

      1 HGC人體姿態(tài)估計方法

      基于當前的研究,與主流的Bottom-up方法相同,先檢測關鍵點再給關鍵點分組。在獲取到一張圖片之后,多人人體姿態(tài)識別估計旨在預測出圖像中的一組人體姿態(tài)實例:{P1,P2,…,Pn,…,PN},共N個人體實例,Pn為第n個人體實例,其中每個人體姿態(tài)Pn={pn1,pn2,…,pnk,…,pnK}由K個關鍵點組成,方法框架如圖1所示。

      圖1 基于HGC的人體姿態(tài)估計方法框架Fig.1 The framework of human posture estimation based on heatmap-guided connection

      在獲取到圖像之后,首先通過主干網絡提取出圖像的特征圖,神經網絡所提出的特征圖無法直接讀取圖像中的語義信息,因此使用關鍵點識別頭提取特征圖中的關鍵點熱圖信息,其中關鍵性的技術為尺度自適應熱圖估計和遮罩損失。然后在熱圖的監(jiān)督下,再使用像素級關鍵點回歸頭提取出特征圖中,圖像里各個實例的中心點,以及中心點到各個關鍵點的偏移,此處的偏移到真實關鍵點的誤差較大,僅作為后續(xù)關鍵點分組的依據(jù)。

      對于同一個人體實例,HGC方法用分組依據(jù)以及關鍵點熱圖,預測出多個人體姿態(tài)數(shù)據(jù),將其作為姿態(tài)推薦,然后通過學習出的姿態(tài)評分網絡對姿態(tài)推薦進行評估,最終在姿態(tài)推薦中選取得分最高,也就是最擬合真實姿態(tài)的人體姿態(tài)數(shù)據(jù),作為最終預測結果。

      1.1 關鍵點生成

      輸入圖像首先通過主干網絡(如HRNet-W32)生成特征圖F,通過F得到關鍵點熱圖及像素級關鍵點回歸,其中關鍵點熱圖H={h1,h2,…,hk,…,hK}由K個局部熱圖組成,其中hk為第k類關鍵點的單類熱圖,每次只識別一類關鍵點,通過多次識別之后,將識別結果匯總重合就得到一張檢測關鍵點熱圖H。

      像素級關鍵點回歸由2部分組成:中心熱圖C和關鍵點偏移圖O。C的每個點是當前人體n整體中心點的置信度。O中包含2K個子圖,顯示為關鍵點k到姿態(tài)中心c的偏移量o。

      1.1.1 熱圖引導的像素級關鍵點回歸 得到特征圖F之后,通過關鍵點識別頭處理后生成關鍵點熱圖H。在以往對關鍵點偏移的研究中[28-29],預測中心熱圖C和關鍵點偏移圖O僅使用主干網絡生成的特征圖F,設計了一種新的像素級關鍵點回歸頭,將上一步生成的關鍵點熱圖H用來引導中心熱圖C和偏移圖O的生成。

      HGC方法的優(yōu)勢是通過關鍵點熱圖的引導,將像素級關鍵點回歸中關鍵點偏移圖的誤差,從一個人體實例整體的尺度,降低到了一個關鍵點熱圖局部的尺度,對偏移圖精度的提升顯著。

      (1)

      (2)

      式中:‖·‖2為L2-范數(shù);M為對應著K個關鍵點遮罩上的權值。

      1.1.3 尺度自適應熱圖估計 在以往的研究中,對所有的關鍵點構造熱圖時,高斯核函數(shù)一般會用固定的標準差σ0,用來生成真實熱圖Hσ0。然而不同尺度的關鍵點也應該具有不同尺度的語義信息,因此文中希望將高斯核函數(shù)設置為具有異化的標準差,以在不同尺度關鍵點的情況下去覆蓋其中尺度的語義信息,然而對數(shù)據(jù)集上不同尺度的關鍵點手動標注尺度信息是幾乎不可能的,因此希望模型可以自適應調整σ以應對不同尺度的關鍵點。

      (3)

      (4)

      Hσ0·d就是尺度自適應的熱圖估計,通過對原始熱圖進行元素乘積操作獲得,實現(xiàn)難度較低。對于縮放因子大于1的關鍵點,自適應標準差將大于σ0,該高斯核函數(shù)覆蓋的區(qū)域也將變大,否則將變小。因此,在某種程度上,尺度因子也反映了相應人體實例的尺度。

      此外,在訓練尺度預測網絡時,同樣需要考慮背景噪點的影響,所以同樣對損失函數(shù)進行遮罩操作,則尺度自適應損失函數(shù)Ls為

      (5)

      最終得到總熱圖損失函數(shù)LH為

      LH=Lm+λ1Ls

      (6)

      式中:λ1為尺度自適應熱圖的權重,在訓練中,λ1=1。

      尺度自適應熱圖與固定標準差熱圖的對比如圖2所示。

      在圖2(a)中,預測人體實例的右肩點時,高斯核函數(shù)使用的標準差是固定的,即便是圖像中人體實例尺度相差較大,所回歸出的關鍵點熱圖是固定的,而在圖2(b)中,人體實例由于距離的不同導致其在尺度上也存在較大的差別,在回歸左肩關鍵點的熱圖時,根據(jù)尺度自適應調整高斯核函數(shù)的標準差,顯然尺度較小的人體實例熱圖精度得到了提升,因此提高整體的關鍵點回歸精度。

      (a) 固定標準差

      1.1.4 像素級回歸損失 在像素級關鍵點回歸損失LP中采用歸一化的平滑L1損失:

      (7)

      (8)

      將像素級關鍵點回歸損失和熱圖損失匯總后,得到最終損失函數(shù)為

      L=LH+λ2LP

      (9)

      式中:λ2為像素級回歸損失權重,考慮到像素級關鍵點回歸僅作為后期的分組提示,因此令λ2=0.01。

      1.2 最終姿態(tài)生成

      1.2.1 分組 輸入所需要預測人體姿態(tài)圖像,首先計算關鍵點熱圖H,以及像素級關鍵點回歸結果(C,O)。然后使用非最大抑制找到一組30個關鍵點推薦集S={S1,S2,…,Sk,…,SK},其中每個Sk由關鍵點熱圖H中選取的第k個關鍵點的推薦組組成,同時刪除其中熱值太小(小于0.01)的點。同樣,HGC方法也通過非極大抑制在中心熱圖C中篩選出像素級關鍵點回歸的結果,從而得到M組(M=30)回歸結果:{G1,G2,…,Gm,…,GM},其中每個Gm含有K個關鍵點。

      2 實驗結果與分析

      2.1 數(shù)據(jù)集和實驗環(huán)境

      COCO數(shù)據(jù)集是微軟發(fā)布的大型圖像數(shù)據(jù)集[31],專為對象檢測、分割、人體關鍵點檢測、語義分割和字幕生成而設計,本文研究基于COCO數(shù)據(jù)集中目標關鍵點集進行訓練和測試。COCO數(shù)據(jù)集包含超過2×105幅圖像和2.5×105個帶有17個關鍵點的人體實例。本文在COCO Train2017數(shù)據(jù)集上訓練模型,包括5.7×104個圖像和1.5×105個人體實例。Val2017集包含5 000幅圖,test-dev2017集則包含2×104幅圖像,并在Val2017和test-dev2017上進行評估。

      在Ubuntu 18.04上使用Python 3.6開發(fā),基于Tensorflow平臺實現(xiàn),使用1個NVIDIA GPU。

      2.2 評價指標

      標準的評估指標是基于圖像關鍵點的相似性OKS評分,核心指標是關鍵點的預測精度和召回率,設關鍵點相似評分為KOS,其公式為

      (10)

      式中:di為檢測到的關鍵點和相應的關鍵點真值之間的歐式距離;vi為真實值的可見性;s為物體的尺寸;ki為每個關鍵點控制衰減的常量。

      評價指標主要為標準平均精度(average precision,AP)和平均召回率(average recall,AR)。本文主要采用以下指標,AP (KOS=0.50,0.55,…,0.90,0.95的平均精度),AP50(KOS=0.50的精度),AP75(KOS=0.75的精度),APM表示中等尺度目標的精度,APL表示大尺度目標的精度,AR(KOS=0.50,0.55,…,0.90,0.95的平均召回率)。

      2.3 訓練過程

      在文獻[21]的實驗中,使用隨機旋轉平移等的優(yōu)化方法,使AP從0.566提高到了0.628,增加了多尺度測試后AP更是提高到了0.655,故數(shù)據(jù)增強遵循文獻[21]中的方法,包括隨機旋轉([-30°,30°]),隨機縮放([0.75,1.5]),隨機平移([-40,40]),將圖像裁切到512×512(對于HRNet-W32)和640×640(對于HRNet-W48和HrHRNet-W48),同時設置隨機翻轉。

      訓練時使用Adam優(yōu)化器[32],基礎學習率設置為10-3,隨后在90次和120次的時候將學習率設置為10-4和10-5,總共訓練140次。

      2.4 實驗結果

      2.4.1 Val2017結果 表1展示了HGC方法與其他比較具有代表性方法的參數(shù)值和計算復雜度,使用HRNet-W32等作為主干網絡,其中復雜度計算單位為每秒109次的浮點運算數(shù)(giga floating-point operations per second,GFLOPs)。

      表1 參數(shù)量、復雜度對比Tab.1 Comparison of parameters and complexity

      從表1中可以看出,HGC的參數(shù)量和復雜度都保持在低水平,在主干網絡為HRNet-W32時,與目前最先進的算法HrHRNet[33]的相比,參數(shù)量為其51%,復雜度僅有42%,即便是在主干網絡為HrHRNet-W48時,參數(shù)量和復雜度也保持在與HrHRNet[33]相似的水平,但在表2中相對的準確度有了顯著提升。

      本文HGC方法與其他方法的AP/AR指標比較如表2所示,其中缺失值使用“—”填充。

      表2 在COCO Val2017上的實驗對比Tab.2 Comparison on the COCO Val2017 dataset

      從表2可以看出,單尺度測試中,HGC方法在主干網絡為HRNet-W32時,AP達到了67.8,與HGC復雜度相近的方法對比,如CenterNet-DLA方法和低分辨率PersonLab方法,AP提高了8.9。而對于模型參數(shù)量遠大于HGC(主干網絡HRNet-W32)的方法,如CenterNet-HG方法,依舊提高了3.8。在HGC方法中,更高分辨率的圖像輸入、更高的模型參數(shù)和更高的分辨率特征有助于獲取更好的表現(xiàn),當主干網絡為HRNet-W48,并且將輸入尺寸提高到640×640, AP達到了70.1,比主干網絡HRNet-W32高出2.3。與其他表現(xiàn)優(yōu)秀的方法相比,如CenterNet-HG方法,高出6.1,比高分辨率PersonLab方法高出3.6,并且與PifPaf方法相比,在復雜度指標GFLOPs僅為其一半不到的情況下,AP值高出了2.7。另外訓練了在高分辨率輸入下(主干網絡HrHRNet-W48)的模型,比主干網絡HRNet-W48提高了1.2。同樣,實驗驗證了HGC方法在多尺度測試中的表現(xiàn),與單尺度測試相比,AP在HRNet-W32中提高了2.9,HRNet-W48提高了2.4,在HrHRNet-W48中提高了1.6了,此外姿態(tài)估計效果如圖3所示。

      圖3 HGC方法人體姿態(tài)估計定性結果Fig.3 Qualitative results of human pose estimation by HGC mthod

      圖3中的圖像選自Val2017,用HGC預測其姿態(tài),其中涵蓋了黑白、彩色、單人、多人、多尺度和遮擋等多種在現(xiàn)實中具有代表性的常見情況??梢钥闯鯤GC方法在實際應用中表現(xiàn)出了良好的魯棒性和準確性,可以準確地分辨出不同人體實例的關鍵點,并且關鍵點的位置基本符合先驗的常識。

      2.4.2 test-dev2017結果 在test-dev2017數(shù)據(jù)集AP/AR指標對比如表3所示,缺失值使用“-”填充。

      表3 在COCO test-dev 2017上的實驗對比Tab.3 Comparison on the COCO test-dev 2017 dataset

      從表3可以看出,單尺度測試中,在主干網絡HRNet-W32中AP達到了66.6,顯著優(yōu)于復雜度類似的方法。在主干網絡HrHRNet-W48中達到了最優(yōu)AP,為70.2,比Personlab方法高出3.7,比PifPaf方法高出3.5,并且比HrHRNet方法高出1.8分。在多尺度測試中,即便是主干網絡HRNet-W32的AP也高達69.4,優(yōu)于Personlab方法的大分辨率模型,在主干網絡HrHRNet-W48中達到了最高AP,為71.8,比AE方法高出6.3,比PersonLab放啊高出3.1,比HrHRNet方法高出1.3。

      2.4.3 消融學習 本文研究了各個組件對于HGC的影響:①熱圖引導像素級關鍵點回歸;②遮罩損失;③熱圖尺度自適應;④姿態(tài)推薦評分網絡。本文選取了3個指標分析以上組件對整體的影響:像素級關鍵點回歸質量、熱圖估計質量以及最終的姿態(tài)估計質量。像素級關鍵點回歸質量是直接使用回歸結果并對其AP分數(shù)進行評估所得。熱圖估計質量通過以真實姿態(tài)作為分組依據(jù),對熱圖所檢測到的關鍵點分組所得姿態(tài)評估,即用真實姿態(tài)替換回歸姿勢,最終質量是HGC方法整體的質量。消融學習結果列于表4,表中標注為“使用”則表示為使用了該組件的評估結果,“-”為未使用。

      表4 消融學習Tab.4 Ablation study

      表4中,熱圖引導確實促進了像素級關鍵點回歸的精度,回歸質量提高了0.9,并且使最終質量提高了0.4;遮罩損失對熱圖質量的提升顯著,高達0.9;熱圖尺度自適應對熱圖質量也提高了0.6,并且對最終質量也提升了1.0;姿態(tài)推薦評分網絡通過對預測出的姿態(tài)推薦進行評分排序,選出最優(yōu)的姿態(tài)估計,最終估計質量因此也獲得了0.6的增益。

      3 結 論

      1) 本文給出一種基于熱圖引導像素級關鍵點回歸。

      2) 用遮罩損失對熱圖損失加權,提高了熱圖估計的精度。

      3) 進一步提出的尺度自適應熱圖估計可以很好地處理圖像中人體的尺度上的多樣性。

      4) 得出一個評分網絡來促進在姿態(tài)推薦中選取更加貼近圖像中真實的姿態(tài)。

      猜你喜歡
      熱圖關鍵點主干
      全球首條1.2T超高速下一代互聯(lián)網主干通路
      軍事文摘(2024年2期)2024-01-10 01:58:34
      抓主干,簡化簡單句
      聚焦金屬關鍵點
      肉兔育肥抓好七個關鍵點
      二代支架時代數(shù)據(jù)中糖尿病對無保護左主干患者不同血運重建術預后的影響
      高齡無保護左主干病變患者血運重建術的長期預后
      熱圖
      攝影之友(2016年12期)2017-02-27 14:13:20
      熱圖
      每月熱圖
      攝影之友(2016年8期)2016-05-14 11:30:04
      熱圖
      家庭百事通(2016年3期)2016-03-14 08:07:17
      黄大仙区| 德庆县| 来宾市| 本溪市| 岳阳县| 贞丰县| 申扎县| 星子县| 双峰县| 克拉玛依市| 潞西市| 定边县| 杭锦后旗| 布尔津县| 广安市| 咸丰县| 新乡市| 牡丹江市| 石台县| 四子王旗| 泰州市| 工布江达县| 万年县| 大同县| 潮州市| 额尔古纳市| 防城港市| 泰宁县| 旬邑县| 潜山县| 农安县| 长兴县| 电白县| 亳州市| 江安县| 富源县| 新闻| 嘉禾县| 分宜县| 桂阳县| 沁源县|