• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于HRNet 的輕量化人體姿態(tài)估計網(wǎng)絡(luò)

      2023-03-08 06:32:50梁橋康吳樾
      關(guān)鍵詞:關(guān)節(jié)點(diǎn)力圖輕量化

      梁橋康 ,吳樾

      (1.湖南大學(xué) 電氣與信息工程學(xué)院,湖南 長沙 410082;2.航天江南集團(tuán)有限公司,貴州 貴陽 550009)

      人體姿態(tài)估計是計算機(jī)視覺中最基本和最具有挑戰(zhàn)性的任務(wù)之一,旨在從圖像或者視頻序列中檢測并識別人體關(guān)鍵點(diǎn)的位置和類型.其在行為識別[1]、自動駕駛和行人檢測[2]等后續(xù)任務(wù)中具有廣泛的應(yīng)用.

      近年來,隨著深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Net?works,DNN)的不斷發(fā)展,DNN 在計算機(jī)視覺領(lǐng)域得到了廣泛的應(yīng)用并取得了巨大的成功,人體姿態(tài)估計取得了顯著的進(jìn)展.

      早期的基于卷積神經(jīng)網(wǎng)絡(luò)的(Convolutional Neu?ral Networks,CNN)方法直接從圖像中預(yù)測關(guān)節(jié)點(diǎn)的位置,DeepPose[3]利用深度神經(jīng)網(wǎng)絡(luò)直接從圖像中回歸關(guān)鍵點(diǎn)坐標(biāo),這種方法很難獲得精確的坐標(biāo),而且網(wǎng)絡(luò)的收斂速度非常緩慢.Tompson 等人[4]使用馬爾可夫隨機(jī)場為每個關(guān)節(jié)點(diǎn)創(chuàng)建一個與其他關(guān)節(jié)點(diǎn)相關(guān)的圖模型(Graphical Model)結(jié)構(gòu),并利用熱力圖表示關(guān)節(jié)點(diǎn)信息,熱力圖數(shù)值的大小表示該位置是關(guān)節(jié)點(diǎn)的概率大小,熱力圖中最大值的坐標(biāo)即為關(guān)節(jié)點(diǎn)的坐標(biāo).由于熱力圖可以通過卷積操作直接得到,因此,使用熱力圖表示關(guān)節(jié)點(diǎn)位置這一方法很大程度上促進(jìn)了基于CNN 的人體姿態(tài)估計方法的發(fā)展.現(xiàn)有的大多數(shù)人體姿態(tài)估計方法都是基于熱力圖預(yù)測.Huang 等人[5]提出了一種由無偏坐標(biāo)系統(tǒng)變換和無偏關(guān)鍵點(diǎn)格式變換組成的無偏數(shù)據(jù)處理(Unbi?ased Data Processing,UDP)系統(tǒng),該系統(tǒng)可以很容易地與任何人體姿態(tài)估計網(wǎng)絡(luò)相結(jié)合,進(jìn)一步提高預(yù)測精度.DARK(Distribution-Aware Coordinate Repre?sentation of Keypoints)[6]提出了一種基于泰勒展開的坐標(biāo)解碼和無偏亞像素中心坐標(biāo)編碼方法.

      目前,多人姿態(tài)估計主要有兩種主流策略,即自上而下和自下而上兩種方法.自上而下的方法需要先檢測出人體邊界框,然后對識別到的人體進(jìn)行單人姿態(tài)估計.自下而上的方法不進(jìn)行人體框的檢測,而是直接檢測出所有的關(guān)鍵點(diǎn),然后將它們進(jìn)行分組.自上而下的方法精度更高但是會犧牲速度,而且受人體框檢測精度的影響.自下而上方法速度更快但是精度相對不高,現(xiàn)有的自下而上方法主要集中在如何將檢測到的屬于同一個人的關(guān)節(jié)點(diǎn)關(guān)聯(lián)在一起.

      OpenPose[7]提出部分親和力場(Part Affinity Fields,PAFs)的概念,PAFs 存儲了肢體的位置和方向信息,結(jié)合預(yù)測的熱力圖快速地將各關(guān)節(jié)點(diǎn)分組到每個人.Kreiss 等人[8]提出用部分強(qiáng)度場(Part In?tensity Field,PIF)來表示關(guān)節(jié)點(diǎn)的位置和用部分關(guān)聯(lián)場(Part Association Field,PAF)來表示關(guān)節(jié)點(diǎn)之間的關(guān)聯(lián),利用部分關(guān)聯(lián)場特征將屬于同一個人體的關(guān)節(jié)點(diǎn)關(guān)聯(lián)起來.DEKR(Disentangled Keypoint Re?gression)[9]提出了一種多分支結(jié)構(gòu)的解耦關(guān)鍵點(diǎn)回歸方法,每個分支分別對特定關(guān)鍵點(diǎn)進(jìn)行獨(dú)立的特征提取和回歸,實現(xiàn)了關(guān)鍵點(diǎn)之間的解耦,解耦后的特征能夠獨(dú)立地表示特定關(guān)鍵點(diǎn)區(qū)域.Pishchulin 等人[10]提出把所有的關(guān)節(jié)點(diǎn)作為節(jié)點(diǎn)形成一個圖結(jié)構(gòu),然后利用預(yù)測的人體框信息,將屬于同一個人的關(guān)節(jié)點(diǎn)歸入同一個類別.AE(Associative Embedding)[11]提出了一個端到端的單階段網(wǎng)絡(luò),同時為每個關(guān)節(jié)點(diǎn)生成熱力圖和分類標(biāo)簽,標(biāo)簽值接近的關(guān)節(jié)點(diǎn)屬于同一個人.

      CPM(Convolutional Pose Machines)[12]通過序列化的多階段網(wǎng)絡(luò)逐步細(xì)化關(guān)鍵點(diǎn)預(yù)測,利用中間監(jiān)督信息可以有效地解決梯度消失的問題.Chen 等人[13]提出了一個兩階段的級聯(lián)金字塔網(wǎng)絡(luò),前一階段用于預(yù)測一個粗略的姿態(tài),后一階段在前一階段的基礎(chǔ)上改進(jìn)預(yù)測結(jié)果.模擬人類認(rèn)知的過程,即先注意能夠直接看到的關(guān)節(jié)點(diǎn),然后利用已知的關(guān)節(jié)點(diǎn)信息推測出看不見的部分,RSN(Residual Steps Network)[14]提出了姿態(tài)調(diào)整機(jī),能夠進(jìn)一步細(xì)化初始姿態(tài),提高姿態(tài)估計的精度.HRNet(High Resolu?tion Net)[15]以一個高分辨率的子網(wǎng)絡(luò)作為第一階段,之后的每個階段比前一階段多一個并行的低分辨率子網(wǎng)絡(luò),在同一階段內(nèi),不同分辨率子網(wǎng)絡(luò)的信息被反復(fù)融合,這種保持高分辨率特征的策略能夠顯著提高人體姿態(tài)估計的精度.

      由于算力和內(nèi)存限制,移動設(shè)備和嵌入式平臺不適合部署大型網(wǎng)絡(luò)[16],因此,目前的人體姿態(tài)估計網(wǎng)絡(luò)難以得到廣泛應(yīng)用.Osokin 等人[17]利用減少細(xì)化階段層數(shù)減少網(wǎng)絡(luò)參數(shù)量和使用空洞卷積提升感受野的大小等方法提出了一個輕量化的Openpose網(wǎng)絡(luò),在CPU 上實現(xiàn)了實時的人體姿態(tài)估計.Lite-HRNet[18]提出條件通道加權(quán),從所有通道中學(xué)習(xí)權(quán)重,實現(xiàn)跨通道和分辨率交換信息,與其他輕量化網(wǎng)絡(luò)相比,取得了更好的精度.Zhang 等人[19]構(gòu)建了一個輕量化的沙漏網(wǎng)絡(luò),利用快速姿態(tài)蒸餾模型學(xué)習(xí)策略,能夠更有效地訓(xùn)練輕量化人體姿態(tài)估計網(wǎng)絡(luò).

      與以往的輕量化人體姿態(tài)估計方法不同,本文提出了一種兼顧精度和輕量化人體姿態(tài)估計網(wǎng)絡(luò),在保持精度的前提下有效地減少了網(wǎng)絡(luò)的計算量和參數(shù)量,為移動設(shè)備、嵌入式平臺等運(yùn)算能力、內(nèi)存大小有限的設(shè)備提出了一種有效的輕量化人體姿態(tài)估計網(wǎng)絡(luò).

      1 輕量化網(wǎng)絡(luò)設(shè)計

      增加網(wǎng)絡(luò)的容量(更深或更寬)能夠促使網(wǎng)絡(luò)提取到更加復(fù)雜、高級的特征信息,可以相對容易地提高網(wǎng)絡(luò)的精度.然而,網(wǎng)絡(luò)的性能并不會隨著網(wǎng)絡(luò)深度或?qū)挾鹊倪f增線性地增長,可能會出現(xiàn)性能飽和甚至下降,網(wǎng)絡(luò)的參數(shù)量和內(nèi)存消耗量也會越來越高,其對硬件計算能力和內(nèi)存的要求也增大.動態(tài)卷積[20]根據(jù)注意力程度動態(tài)地聚合多個卷積核,能夠在不增加網(wǎng)絡(luò)深度和寬度的條件下增加模型的復(fù)雜度.Inception[21]提出的在同一模塊中使用不同尺寸的卷積核,使得網(wǎng)絡(luò)能夠自主地提取不同尺寸目標(biāo)的特征.Szegedy 等人[22]提出使用兩個一維卷積核替代一個二維卷積核,以此來減小網(wǎng)絡(luò)的參數(shù)量.ResNet(Residual Net)[23]提出殘差學(xué)習(xí)來解決網(wǎng)絡(luò)退化的問題,其提出了兩種不同的殘差塊,Basic 塊和Bottle?neck塊,如圖1所示.

      圖1 殘差塊Fig.1 ResNet blocks

      ResNet模塊可表示為:

      式中,x為輸入特征,y是輸出特征,F(xiàn)(?)是ResNet 學(xué)習(xí)到的映射變換,殘差連接的主要優(yōu)點(diǎn)是特性再利用,可以減少特性冗余.

      當(dāng)輸入特征大小為Hin×Win×Din,輸出特征大小為Hout×Wout×Dout,卷積核大小為S×S時,標(biāo)準(zhǔn)卷積可學(xué)習(xí)的參數(shù)量為:

      Basic 塊由兩個3 × 3 卷積組成,當(dāng)保持特征輸入輸出通道數(shù)D不變時,其可學(xué)習(xí)的參數(shù)量為:

      Bottleneck 塊由兩個1 × 1 卷積和一個3 × 3 卷積組成,其可學(xué)習(xí)的參數(shù)量為:

      由計算可知Bottleneck 模塊的參數(shù)量下降為Ba?sic模塊的.

      分組卷積(Grouped Convolution,GC)是指在通道方向上對輸入特征進(jìn)行分組,每組特征被相應(yīng)分組的卷積核單獨(dú)卷積,之后通過拼接組合產(chǎn)生輸出特征.分組卷積最早由AlexNet[24]提出,由于當(dāng)時硬件的運(yùn)算能力和內(nèi)存資源有限,在網(wǎng)絡(luò)訓(xùn)練時,一個GPU 無法處理所有的卷積操作,所以作者將模型部署在兩個GPU 上,最后將兩個GPU 的結(jié)果融合在一起.

      在分組卷積中,輸入特征和卷積核都會被分成g組,每組特征的大小為,每組卷積核的數(shù)量為,每個卷積核大小為,每組卷積核只對相應(yīng)分組的特征進(jìn)行卷積操作,則分組卷積可學(xué)習(xí)的參數(shù)量為:

      深度可分離卷積(Depthwise Separable Convolu?tion,DSC)[26-27]是將標(biāo)準(zhǔn)卷積分解成兩部分,即深度卷積和1 × 1 卷積,每個深度卷積核只對輸入特征的一個通道進(jìn)行卷積操作,卷積核的數(shù)量與特征的通道數(shù)相同,因此,深度卷積不改變特征的通道數(shù)量.1×1 卷積用于實現(xiàn)特征的升維或降維.與常規(guī)的卷積操作相比,深度可分離卷積的參數(shù)量和運(yùn)算成本相對更低.

      如圖2 所示,ResNeXt[28]提出了深度和寬度之外的下一個維度,即基數(shù)(Cardinality),增加基數(shù)可以在保持模型復(fù)雜度的情況下提高模型的性能.ResNeXt 在圖像分類方面的巨大成功促使我們將其引入人體姿態(tài)估計領(lǐng)域,并用其改進(jìn)當(dāng)前的人體姿態(tài)估計方法.

      圖2 兩種ResNeXt模塊Fig.2 ResNeXt blocks

      ResNeXt模塊可表示為:

      式中,x為輸入特征,y是輸出特征,Ti是ResNeXt 第i個分支學(xué)習(xí)到的映射變換,g是基數(shù),即分組數(shù).

      ResNeXt 模塊由兩個1×1 卷積和一個3×3 分組卷積組成,其可學(xué)習(xí)的參數(shù)量為:

      由式(3)、式(7)可得:

      2 方法描述

      在神經(jīng)網(wǎng)絡(luò)中,不同像素大小的特征分別蘊(yùn)含著不同層次的信息.

      檢測任務(wù)的目標(biāo)是準(zhǔn)確地檢測目標(biāo)在圖像中的空間位置.一般來說,高像素特征蘊(yùn)含豐富的空間位置信息,其位置敏感性更強(qiáng),有利于檢測任務(wù).

      分類任務(wù)的目標(biāo)是對圖片中的目標(biāo)進(jìn)行分類.實驗表明,隨著卷積神經(jīng)網(wǎng)絡(luò)層數(shù)的不斷增加,輸出特征具有的語義信息逐漸增強(qiáng),其位置不變性更強(qiáng),有助于分類任務(wù)[29].人體姿態(tài)估計既包含定位關(guān)節(jié)點(diǎn)位置的檢測任務(wù),又包含分類不同關(guān)節(jié)點(diǎn)的分類任務(wù),因此,人體姿態(tài)估計任務(wù)的性質(zhì)決定了網(wǎng)絡(luò)既要具有分類任務(wù)的位置不變性,又要具有檢測任務(wù)的位置敏感性.

      HRNet 采用多分支結(jié)構(gòu),在網(wǎng)絡(luò)中高像素特征分支與低像素特征分支并行排列,不同分辨率特征的相互融合提高了神經(jīng)網(wǎng)絡(luò)的位置敏感性和位置不變性.一方面這使得其在目標(biāo)檢測、語義分割和人體姿態(tài)估計等方面展示出了卓越的能力.另一方面也產(chǎn)生了參數(shù)量巨大、難以訓(xùn)練和內(nèi)存消耗大等問題.

      本文聚焦于在HRNet的基礎(chǔ)上設(shè)計一個輕量化的人體姿態(tài)估計網(wǎng)絡(luò).首先利用Bottleneck 模塊替換掉HRNet 中大量使用的Basic 模塊,然后利用ResNeXt 替換Bottleneck 模塊進(jìn)一步減少網(wǎng)絡(luò)的參數(shù).為了向HRNet 和ResNeXt 致敬,將本章提出的方法命名為X-HRNet.

      X-HRNet 網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示,X-HRNet 與HRNet 具有相同的網(wǎng)絡(luò)構(gòu)架,總共有四個階段,每個階段分別有1、2、3、4 個不同分辨率的分支.預(yù)處理階段使用兩個步長為2 的3×3 卷積將輸入圖片的分辨率降低為1/4,通道數(shù)由3增加為64.第一階段利用4 個Bottleneck 模塊進(jìn)行特征提取.從第二階段開始使用ResNeXt 模塊替換原始HRNet 網(wǎng)絡(luò)中大量使用的Basic 模塊進(jìn)行特征提取,各分支的分辨率分別為1/4、1/8、1/16、1/32,通道數(shù)分別為48、96、192、384.為了避免分辨率下降造成特征圖信息丟失,每個新增的低分辨率分支通道數(shù)增加一倍.第四階段的末尾,將四個分支的特征上采樣到相同的分辨率,然后使用元素加得到最終的輸出,最終的輸出為17 個關(guān)節(jié)點(diǎn)的熱力圖.網(wǎng)絡(luò)的具體結(jié)構(gòu)如表1 所示.其中,(3 ×3,s=2) × 2 表示兩個步長為2 的3 × 3 卷積,(3 ×3,GC)表示3×3分組卷積.

      表1 X-HRNet的結(jié)構(gòu)Tab.1 Architecture of X-HRNet

      圖3 X-HRNet模型的結(jié)構(gòu)Fig.3 The structure of X-HRNet

      3 實驗結(jié)果與分析

      3.1 實驗方法

      網(wǎng)絡(luò)的訓(xùn)練使用了NVIDIA RTX 2080Ti GPU,操作系統(tǒng)為Ubuntu 18.04 LTS,使用的深度學(xué)習(xí)框架為Pytorch,代碼框架基于MMpose[30].訓(xùn)練過程中使用了隨機(jī)縮放、水平翻轉(zhuǎn)、隨機(jī)剪裁等常用數(shù)據(jù)增強(qiáng)方法.使用DARK[6]作為坐標(biāo)編解碼方法.輸入圖片固定為384 × 288,使用Adam 作為網(wǎng)絡(luò)優(yōu)化器,總訓(xùn)練輪數(shù)為210輪,初始學(xué)習(xí)率為5e-4,在第170輪時,學(xué)習(xí)率下降為5e-5,在第200 輪時,學(xué)習(xí)率下降為1e-5.最小批次大小為14.數(shù)據(jù)集為COCO[31],COCO數(shù)據(jù)集是目前最主流的二維人體姿態(tài)估計數(shù)據(jù)集之一,它包含20萬張以上的圖像和25萬個帶有關(guān)鍵點(diǎn)注釋的人體實例.

      3.2 損失函數(shù)

      高斯熱力圖已被廣泛應(yīng)用于關(guān)鍵點(diǎn)坐標(biāo)的編碼和解碼.關(guān)節(jié)點(diǎn)P={p1,p2,...,pk:pi=(ai,bi)},其高斯熱力圖可表示為:

      式中,Gi為第i個關(guān)節(jié)點(diǎn)的熱力圖,ai、bi分別是關(guān)節(jié)點(diǎn)pi的橫坐標(biāo)和縱坐標(biāo),λ是控制高斯熱力圖大小的常數(shù).

      在網(wǎng)絡(luò)訓(xùn)練期間使用的損失函數(shù)為:

      在網(wǎng)絡(luò)預(yù)測過程中,利用公式(11)將高斯熱力圖解碼為關(guān)節(jié)點(diǎn)的坐標(biāo).

      3.3 評價指標(biāo)

      1)基于對象關(guān)節(jié)點(diǎn)相似度(Object Keypoint Similarity,OKS)的平均精度(Average Precision,AP)

      本文使用COCO 數(shù)據(jù)集人體姿態(tài)估計任務(wù)標(biāo)準(zhǔn)的評價指標(biāo),即基于OKS 的AP,評估了不同閾值和不同對象大小下的平均精度:AP、AP50、AP75、APM、APL和平均召回率AR.

      式中,di是預(yù)測關(guān)鍵點(diǎn)位置與真實值之間的歐式距離,s是目標(biāo)尺度因子,ki是與關(guān)節(jié)點(diǎn)相關(guān)的衰減常數(shù),vi是關(guān)鍵點(diǎn)是否可見的標(biāo)識符,當(dāng)關(guān)節(jié)點(diǎn)標(biāo)注時,δ=1,當(dāng)關(guān)節(jié)點(diǎn)未標(biāo)注時,δ=0.

      2)浮點(diǎn)運(yùn)算次數(shù)(Floating-point of Operations,F(xiàn)LOPs)

      浮點(diǎn)運(yùn)算次數(shù)主要用來衡量算法復(fù)雜度.卷積操作的計算量為:

      式中,Din是輸入特征的通道數(shù),S為卷積核的大小,Hout、Wout、Dout分別為輸出特征的高、寬和通道數(shù).

      3.4 結(jié)果分析

      表2 展示了本文所提出的方法與其他方法在COCO 驗證集上的表現(xiàn).結(jié)果顯示,X-HRNet-W48-G12(表示ResNeXt 模塊的基數(shù)為12)達(dá)到了77.8%的精度,顯著優(yōu)于其他輕量化網(wǎng)絡(luò).與FastNet-W48相比,獲得了3.3%的精度增長,參數(shù)量下降了4.4M,計算量減少了7.4GFLOPs(Giga Floating-point of Op?erations).與Lite-HRNet-30 和Lite-HRNet-18 相比,精度分別增長了7.4%和10.2%.相比MobileNet V2和ShufflfleNet V2,精度分別增加了10.5%和14.2%.

      表2 與現(xiàn)有算法在COCO驗證集上的性能比較Tab.2 Performance comparison with the existing algorithms on the COCO validation set

      X-HRNet-W48-G1 的精度為78.2%,參數(shù)量為41.4M,計算量為5.6GFLOPs.相比HRNet,精度上升了1.9%,參數(shù)量下降了22.2M,計算量下降了27.3GFLOPs.相比HRNet-W48+DARK,精度上升了1.0%,參數(shù)量下降了22.2M,計算量下降了27.4GFLOPs.與MSPN 相比,X-HRNet-W48-G1 的精度取得了1.3%增長,參數(shù)量下降了78.6M,計算量下降39.23GFLOPs.與4×RSN-50 相比,雖然精度由79.2%下降到了78.2%,但是參數(shù)量下降了70.4M,計算量下降了27.43GFLOPs.

      與大模型相比,X-HRNet 以更低的參數(shù)量和計算量取得了可以媲美的精度.

      表3 展示了X-HRNet 和其他方法在COCO testdev 測試集上的表現(xiàn).X-HRNet-W48-G12 取得了74.7%的精度,相比FastNet-W48 精度增加了0.9%.相比Lite-HRNet-30 精度值提高了5.0%.與Mo?bileNet V2 相比,精度值增加了7.9%,和ShuffleNet-V2 相比,精度值提高了11.8%.X-HRNet 在COCO test-dev 測試集上取得了比其他輕量化網(wǎng)絡(luò)更高的精度值.

      表3 與現(xiàn)有算法在COCO test-dev上的性能比較Tab.3 Performance comparison with the existing algorithms on the COCO test-dev set

      X-HRNet-W48-G1 取得了75.0%的精度,相比Simple Baseline、CPN 和CFN,精度值分別提高了1.3%、2.9%、2.4%.雖然X-HRNet 在精度上與其他大模型相比存在差距,但是X-HRNet 的優(yōu)點(diǎn)是參數(shù)量和計算量很低.

      由實驗結(jié)果可知,X-HRNet在保持精度的同時,有效地降低了網(wǎng)絡(luò)的參數(shù)量和計算量,更好地實現(xiàn)了精度和網(wǎng)絡(luò)計算量之間的平衡.

      3.5 消融實驗

      3.5.1 基數(shù)的消融實驗

      為了研究不同基數(shù)對人體姿態(tài)估計精度的影響,本節(jié)在COCO 數(shù)據(jù)集上進(jìn)行消融實驗.所有網(wǎng)絡(luò)都從隨機(jī)初始化狀態(tài)開始訓(xùn)練,輸入圖片固定為384 × 288.

      消融實驗的結(jié)果如表4 和圖4 所示,X-HRNet-W48-G12與X-HRNet-W48-G1相比,精度只下降了0.4%,參數(shù)量下降了26.1 M.當(dāng)基數(shù)繼續(xù)增加到24和48 時,關(guān)節(jié)點(diǎn)定位精度分別比X-HRNet-W48-G1 下降了0.9% 和2.0%,參數(shù)量分別下降了27.3M 和27.9M.

      圖4 消融實驗結(jié)果Fig.4 Results of ablation experiments

      值得注意的是,精度最低的網(wǎng)絡(luò)X-HRNet-W48-G48 取得了76.2%的精度,僅比HRNet-W48 低0.1%,參數(shù)量減少了50.1 M.

      消融實驗1 的結(jié)果表明,增加基數(shù)可以有效地降低網(wǎng)絡(luò)的參數(shù)量,但是精度也會降低.對于基數(shù)的選擇,需要結(jié)合實際情況合理平衡精度和參數(shù)量的關(guān)系.

      3.5.2 解耦關(guān)節(jié)點(diǎn)特征表示

      基于熱力圖的姿態(tài)估計方法通常會為每個關(guān)節(jié)點(diǎn)預(yù)測一個熱力圖,熱力圖上最大值處即為對應(yīng)關(guān)節(jié)點(diǎn)的坐標(biāo).理想情況下,不同的熱力圖只會關(guān)注于特定的區(qū)域.在自下而上的方法中,為了讓每個通道更加專注于一個關(guān)節(jié)點(diǎn)而不受其他關(guān)節(jié)點(diǎn)的干擾,Geng 等人[9]提出解耦各關(guān)節(jié)點(diǎn)之間的特征表示,利用多分支結(jié)構(gòu)回歸關(guān)節(jié)點(diǎn)坐標(biāo).該方法可以表示為:

      式中,是第i個關(guān)節(jié)點(diǎn)的預(yù)測熱力圖.Bi為分支i的輸入特征,Ui(?)為第i個分支學(xué)習(xí)到的映射.

      在COCO 數(shù)據(jù)中,共標(biāo)注了17個關(guān)節(jié)點(diǎn),由于通道數(shù)必須能整除基數(shù),為了保持相近的參數(shù)量,本節(jié)的消融實驗將最高分辨率分支的通道數(shù)設(shè)為51,基數(shù)設(shè)為17,得到X-HRNet-W51-G17.

      由表4 和圖4 可知,與X-HRNet-W48-G12 相比,X-HRNet-W51-G17 的精度下降了0.5%,參數(shù)量上升了1.2M.與X-HRNet-W48-G24 相比,精度下降了0.1%,參數(shù)量增加了1.4M.

      表4 消融實驗結(jié)果Tab.4 Results of ablation experiments

      消融實驗2 的結(jié)果表明,雖然多分支結(jié)構(gòu)可以使每個分支專注于一個關(guān)節(jié)點(diǎn),但是,人體姿態(tài)是一個整體的結(jié)構(gòu),不同關(guān)節(jié)點(diǎn)之間存在著相互依賴的關(guān)系,為了能夠利用不同關(guān)節(jié)點(diǎn)之間相互依賴的信息,保持多個分支之間的信息融合更加有利于提高自上而下人體姿態(tài)估計方法的精度.X-HRNet 在COCO 驗證集上取得了較好的效果,部分結(jié)果如圖5所示.

      圖5 在COCO驗證集上的部分結(jié)果Fig.5 Some results on the COCO validation set

      4 結(jié)束語

      由于嵌入式平臺計算能力和內(nèi)存限制,常用的基于神經(jīng)網(wǎng)絡(luò)的人體姿態(tài)估計算法難以部署在嵌入式平臺上.為了滿足實際應(yīng)用中對神經(jīng)網(wǎng)絡(luò)輕量化的要求,本文在HRNet 的基礎(chǔ)上,利用ResNeXt 替換原模型中的Basic 模塊,利用深度可分離卷積對網(wǎng)絡(luò)進(jìn)行改進(jìn),在保證精度的前提下,達(dá)到減少網(wǎng)絡(luò)的參數(shù)量和計算量的目的,提出了一種改進(jìn)的輕量化人體姿態(tài)估計算法.實驗表明,相比其他輕量化人體姿態(tài)估計網(wǎng)絡(luò),本文提出的方法在COCO 數(shù)據(jù)集上取得了更高的精度,是一種有效平衡了精度和網(wǎng)絡(luò)復(fù)雜度的方法.

      猜你喜歡
      關(guān)節(jié)點(diǎn)力圖輕量化
      汽車輕量化集成制造專題主編
      喬·拜登力圖在外交政策講話中向世界表明美國回來了
      英語文摘(2021年4期)2021-07-22 02:36:30
      基于深度學(xué)習(xí)和視覺檢測的地鐵違規(guī)行為預(yù)警系統(tǒng)研究與應(yīng)用
      關(guān)節(jié)點(diǎn)連接歷史圖與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的雙人交互動作識別
      血栓彈力圖在惡性腫瘤相關(guān)靜脈血栓栓塞癥中的應(yīng)用進(jìn)展
      一種輕量化自卸半掛車結(jié)構(gòu)設(shè)計
      智富時代(2019年2期)2019-04-18 07:44:42
      時空觀指導(dǎo)下的模塊整合教學(xué)——以《20世紀(jì)四五十年代力圖稱霸的美國》為例
      搞好新形勢下軍營美術(shù)活動需把握的關(guān)節(jié)點(diǎn)
      瞄準(zhǔn)掛車輕量化 鑼響掛車正式掛牌成立
      專用汽車(2016年1期)2016-03-01 04:13:19
      用戶:輕量化掛車的使用體驗
      專用汽車(2015年4期)2015-03-01 04:09:07
      延川县| 广东省| 罗甸县| 河间市| 文成县| 时尚| 娄烦县| 离岛区| 南宫市| 涡阳县| 五台县| 惠东县| 大名县| 玛纳斯县| 马公市| 宜宾市| 民丰县| 贵州省| 和田市| 岚皋县| 横峰县| 福清市| 荥经县| 莆田市| 伊金霍洛旗| 吕梁市| 邛崃市| 安顺市| 东丽区| 朝阳县| 油尖旺区| 博野县| 苗栗市| 同江市| 永宁县| 新绛县| 五寨县| 日照市| 滦南县| 多伦县| 阿合奇县|