• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于高分辨率網(wǎng)絡(luò)的輕量型人體姿態(tài)估計(jì)方法

      2023-06-15 23:55:14朱寬堂呂曄
      計(jì)算機(jī)時(shí)代 2023年6期

      朱寬堂 呂曄

      摘? 要: 在高分辨率網(wǎng)絡(luò)(HRNet)的基礎(chǔ)上,提出一種融合Ghost卷積的輕量型高分辨率網(wǎng)絡(luò)(GLHRNet)。首先使用Ghost卷積模塊和極化自注意力(PSA)模塊在HRNet中構(gòu)建新的殘差塊結(jié)構(gòu),新的殘差塊結(jié)構(gòu)可以在減少網(wǎng)絡(luò)模型參數(shù)量和計(jì)算量的同時(shí),建模高分辨率圖像的長(zhǎng)距離依賴關(guān)系。接著在新網(wǎng)絡(luò)模型中引入IBN-Net的設(shè)計(jì)思想,在新網(wǎng)絡(luò)模型的淺層同時(shí)使用批量歸一化和實(shí)例歸一化,為網(wǎng)絡(luò)模型引入外觀不變性,減小光照變化問(wèn)題對(duì)模型的影響。算法在COCO人體姿態(tài)估計(jì)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與HRNet相比新網(wǎng)絡(luò)模型的參數(shù)量降低了36.1%,計(jì)算量降低了35.2%,人體姿態(tài)估計(jì)的平均準(zhǔn)確率提高了1.4個(gè)百分點(diǎn)。

      關(guān)鍵詞: 人體姿態(tài)估計(jì); 高分辨率網(wǎng)絡(luò); Ghost卷積; 極化自注意力; 批量歸一化; 實(shí)例歸一化

      中圖分類號(hào):TP391.4? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ?文章編號(hào):1006-8228(2023)06-69-06

      Lightweight human pose estimation method based on high-resolution network

      Zhu Kuantang, Lv Ye

      (Lenovo (Shanghai) Information Technology Co., Ltd., Shanghai 201203, China)

      Abstract: Based on HRNet, a lightweight HRNet fused with Ghost convolution is proposed. Firstly, a new residual block structure is constructed in HRNet using Ghost convolution module and PSA module, which can model the long-distance dependence of high-resolution images while reducing the number of network model parameters and FLOPs. Then, the design idea of IBN-Net is introduced in the new network model, and both batch normalization and instance normalization are used in the shallow layer of the new network model, which can introduce appearance invariance for the network model and reduce the influence of lighting changes on the model. The experimental results on COCO human pose estimation dataset show that compared with HRNet, the number of parameters of the new network model is reduced by 36.1%, the FLOPs is reduced by 35.2%, and the average accuracy of human pose estimation is improved by 1.4 percentage points.

      Key words: human pose estimation; high-resolution network (HRNet); Ghost convolution; polarized self-attention (PSA); batch normalization; instance normalization

      0 引言

      人體姿態(tài)估計(jì)是對(duì)圖片中眼睛、手肘等人體關(guān)鍵點(diǎn)的位置估計(jì)。其對(duì)于描述人體姿態(tài)、人體行為等至關(guān)重要,有許多的計(jì)算機(jī)視覺(jué)任務(wù)都是以人體姿態(tài)估計(jì)任務(wù)作為基礎(chǔ)的,如行為識(shí)別、行為檢測(cè)等[1]。

      人體姿態(tài)估計(jì)任務(wù)擁有以下幾個(gè)困難點(diǎn)或挑戰(zhàn)。①尺度問(wèn)題,圖片中不同人體的尺度可能不一樣。②姿態(tài)問(wèn)題,圖片中不同人體的姿態(tài)會(huì)是多種多樣的。③圖片遮擋問(wèn)題,圖片中人體的關(guān)鍵點(diǎn)可能被遮擋,一般可分成被本人的其他部位遮擋、被其他的人體遮擋、被其他物體遮擋三種。④光照問(wèn)題,不同環(huán)境中的光照可能不同,這可能會(huì)改變圖像中人體的外觀。⑤實(shí)用性問(wèn)題,對(duì)于實(shí)時(shí)檢測(cè)人體姿態(tài)的場(chǎng)景,算法對(duì)于模型的精度和大小都有一定的要求。

      雖然高分辨率網(wǎng)絡(luò)的精度是比較高的,但是其參數(shù)量和計(jì)算量也是比較高的,若要將其部署在嵌入式設(shè)備上是比較困難的。為了解決此問(wèn)題,本文將Ghost卷積模塊和極化自注意力模塊融合進(jìn)HRNet原有的殘差塊結(jié)構(gòu)中得到新的GLneck模塊和GLblock模塊,新的殘差塊結(jié)構(gòu)能在減少網(wǎng)絡(luò)參數(shù)量和計(jì)算量的同時(shí)進(jìn)一步提高網(wǎng)絡(luò)的精度。針對(duì)光照問(wèn)題對(duì)人體姿態(tài)估計(jì)任務(wù)的影響,接著將IBN-Net的設(shè)計(jì)引入新的網(wǎng)絡(luò)模型中,讓網(wǎng)絡(luò)模型提取的特征具有外觀不變性,從而進(jìn)一步提高模型的泛化能力。

      1 相關(guān)工作

      2014年,Google提出了單人姿態(tài)估計(jì)算法DeepPose[2],其第一次將卷積神經(jīng)網(wǎng)絡(luò)引入人體姿態(tài)估計(jì)任務(wù),該算法直接回歸關(guān)鍵點(diǎn)的數(shù)值坐標(biāo),模型雖然不能得到很好的空間泛化能力,但是相對(duì)于傳統(tǒng)算法取得了良好的效果。Tompson等[3]針對(duì)DeepPose的缺點(diǎn),提出了基于熱圖(Heatmap)回歸的人體姿態(tài)方法,該方法通過(guò)高斯函數(shù),將姿態(tài)估計(jì)任務(wù)從回歸問(wèn)題轉(zhuǎn)變?yōu)闄z測(cè)問(wèn)題,其可以保留關(guān)鍵點(diǎn)坐標(biāo)的空間信息,從而增加模型的空間泛化能力和算法的精度,之后大部分的人體姿態(tài)估計(jì)算法都使用基于熱圖回歸的方法。2016年,Newell等[4]提出了堆疊沙漏網(wǎng)絡(luò)(Stacked Hourglass Networks, SHN),該網(wǎng)絡(luò)由多個(gè)類似沙漏的結(jié)構(gòu)堆疊而成,每個(gè)沙漏結(jié)構(gòu)將特征圖先下采樣到低分率,再上采樣恢復(fù)到高辨率,通過(guò)跨層連接將不同尺度的特征進(jìn)行融合,從而提高人體姿態(tài)估計(jì)的精度。

      單人姿態(tài)估計(jì)是多人姿態(tài)估計(jì)方法的基礎(chǔ),多人姿態(tài)估計(jì)有兩種實(shí)現(xiàn)方法,一種是自頂向下(top-down)的多人姿態(tài)估計(jì)方法,另一種是自底向上(bottom-up)的多人姿態(tài)估計(jì)方法。自頂向下的多人姿態(tài)估計(jì)方法是先使用行人檢測(cè)器檢測(cè)出圖片中所有行人的邊界框,然后對(duì)每個(gè)行人進(jìn)行單人姿態(tài)估計(jì)。2017年,曠視科技[5]提出的級(jí)聯(lián)金字塔網(wǎng)絡(luò) (Cascaded Pyramid Networks,CPN),該算法使用GlobalNet定位簡(jiǎn)單的關(guān)鍵點(diǎn),然后使用RefineNet集合GlobalNet提取的特征定位困難的關(guān)鍵點(diǎn)。2018年,微軟亞洲研究院[6]提出了一個(gè)用于人體姿態(tài)估計(jì)任務(wù)的簡(jiǎn)單基線(Simple Baseline),該算法使用類似堆疊沙漏網(wǎng)絡(luò)的結(jié)構(gòu),取消了跳躍連接,并使用反卷積操作實(shí)現(xiàn)上采樣,模型的結(jié)構(gòu)簡(jiǎn)單明了,卻取得了當(dāng)時(shí)最好的效果。2019年,微軟亞洲研究院又提出了高分辨率網(wǎng)絡(luò)HRNet[7],其是在以堆疊沙漏網(wǎng)絡(luò)為代表的一系列多分辨率融合網(wǎng)絡(luò)的進(jìn)一步改進(jìn)。整個(gè)HRNet模型采用并行子網(wǎng)的方式,實(shí)現(xiàn)了多個(gè)分辨率特征圖的充分融合,增強(qiáng)了特征圖的特征信息,但是,由于模型始終保持高分辨率特征圖,在提高預(yù)測(cè)人體關(guān)鍵點(diǎn)精度的同時(shí),也增加了模型的參數(shù)量和運(yùn)算復(fù)雜度[8]。

      自底向上的多人姿態(tài)估計(jì)方法是先檢測(cè)出圖片中所有的行人關(guān)鍵點(diǎn),然后將這些關(guān)鍵點(diǎn)分組,進(jìn)而組裝成行人。2017年,卡梅隆大學(xué)的團(tuán)隊(duì)提出了多階段的實(shí)時(shí)姿態(tài)估計(jì)算法Openpose[9],該算法同時(shí)預(yù)測(cè)部分置信圖(Part Confidence Maps)和部分關(guān)系場(chǎng)(Part Affinity Fields),前者預(yù)測(cè)行人的關(guān)鍵點(diǎn)位置,后者在關(guān)鍵點(diǎn)之間建立的一個(gè)向量場(chǎng),最終使用二分圖最大權(quán)匹配算法來(lái)對(duì)關(guān)鍵點(diǎn)進(jìn)行組裝。Newell等人[10]提出了依賴于聯(lián)系嵌入向量(Associative Embedding)的方法進(jìn)行關(guān)鍵點(diǎn)分組,該算法為每一個(gè)關(guān)鍵點(diǎn)熱圖對(duì)應(yīng)分配一個(gè)標(biāo)記熱圖(TagHeatmap),其將每個(gè)檢測(cè)與同一組中的其他檢測(cè)相關(guān)聯(lián)。

      2 模型框架

      人體姿態(tài)估計(jì)是位置敏感的計(jì)算機(jī)視覺(jué)任務(wù),為了使關(guān)鍵點(diǎn)的位置更加精準(zhǔn),維持高分辨率的特征圖是常用的策略,一般是先將特征圖下采樣得到強(qiáng)的語(yǔ)義信息,然后再上采樣將特征圖恢復(fù)為高分辨率的特征圖,從而得到關(guān)鍵點(diǎn)的位置信息,但是很多有用的信息會(huì)在下采樣和上采樣的過(guò)程中丟失。為了避免這種損失,本文以HRNet作為骨干網(wǎng)絡(luò),在此基礎(chǔ)上構(gòu)建了新的模型GLHRNet。新模型使用Ghost模塊和極化自注意力模塊構(gòu)建新的殘差塊結(jié)構(gòu),并在新的網(wǎng)絡(luò)模型中融入IBN-Net設(shè)計(jì)思想,其結(jié)構(gòu)如圖1所示。

      輸入圖像首先經(jīng)過(guò)二個(gè)卷積核大小為3×3的卷積層,將其分辨率變成原圖大小的1/4、通道數(shù)變成64。接著將處理后的特征圖送入由四個(gè)Stage組成的模型結(jié)構(gòu),在每個(gè)Stage中分別使用1、2、3、4個(gè)不同分辨率和通道數(shù)的平行分支得到不同分辨率的特征圖,在中間進(jìn)行不同分辨率特征的融合,從而進(jìn)行不同分支之間的信息交互,得到的高分辨率特征圖能同時(shí)含有很強(qiáng)的語(yǔ)義信息和位置信息。第一個(gè)Stage由四個(gè)GLneck模塊組成,后三個(gè)Stage分別由四個(gè)GLblock模塊組成。具體實(shí)現(xiàn)的模塊有Ghost、極化自注意力、IBN-Net、GLneck和GLblock。

      2.1 Ghost卷積

      在卷積神經(jīng)網(wǎng)絡(luò)中,某一層輸出的特征圖中有許多是相似的,以前的想法是這些特征圖是冗余的,HAN等人[11]從另一個(gè)角度出發(fā),認(rèn)為這些相似的特征圖(Ghost對(duì))可以增強(qiáng)網(wǎng)絡(luò)模型的特征提取能力,不去避免產(chǎn)生相似的特征圖,而是使用簡(jiǎn)單的線性操作獲得更多的相似特征圖。

      假設(shè)普通卷積的輸入數(shù)據(jù)是[X∈Rh×w×c],c代表輸入數(shù)據(jù)的通道數(shù),h和w分別是輸入數(shù)據(jù)的高和寬,輸出數(shù)據(jù)是[Y∈Rh'×w'×n],n是輸出數(shù)據(jù)的通道數(shù),h′和 w′代表輸出數(shù)據(jù)的高和寬,卷積濾波器是[f∈Rc×k×k×n],k×k 代表卷積濾波器f的卷積核大小,此時(shí)每秒浮點(diǎn)運(yùn)算量是[n×h'×w'×c×k×k],普通卷積的參數(shù)量是[n×c×k×k],由于濾波器和通道數(shù)非常大,因此 FLOPs通常高達(dá)數(shù)十萬(wàn)[12]。

      為了得到與普通卷積相同大小的輸出,Ghost卷積將普通的卷積操作分成了兩個(gè)部分,其結(jié)構(gòu)如圖2所示。第一部分是通過(guò)普通卷積得到通道數(shù)為m的本征特征圖(Intrinsic feature maps),m的值是小于等于n的,第二部分是使用線性操作將本征特征圖變成s個(gè)Ghost特征圖,最后將兩部分得到的本征特征圖和Ghost特征圖拼接在一起作為Ghost卷積的輸出結(jié)果。

      為了比較Ghost卷積和普通卷積的性能,在以上基礎(chǔ)上,假設(shè)線性變換的卷積核大小為d。普通卷積和Ghost卷積的參數(shù)量對(duì)比如公式⑴所示,普通卷積和Ghost卷積的計(jì)算量對(duì)比如公式⑵所示,從公式中可知,Ghost卷積的參數(shù)量和計(jì)算量都只有普通卷積的1/s。

      [rc=n×c×k×kns×c×k×k+(s-1)×ns×d×d≈s] ⑴

      [rs=n×h'×w'×c×k×kns×h'×w'×c×k×k+(s-1)×ns×h'×w'×d×d≈s] ⑵

      2.2 極化自注意力

      針對(duì)人體姿態(tài)估計(jì)任務(wù),極化自注意力(Polarized Self-Attention,PSA)[13]是結(jié)合空間注意力和通道注意力的雙重注意力機(jī)制,在空間維度和通道維度上,都沒(méi)有進(jìn)行很大程度的壓縮,圖像的信息損失比較小,其結(jié)構(gòu)如圖3所示。極化自注意力由兩個(gè)分支組成,一個(gè)分支是通道維度的自注意力機(jī)制,另一個(gè)分支是空間維度的自注意力機(jī)制,極化自注意力機(jī)制結(jié)構(gòu)的最終結(jié)果由兩個(gè)分支的輸出融合而成。在通道分支中,輸入特征X經(jīng)過(guò)兩個(gè)1×1的卷積分別得到特征Q和特征V,特征Q的通道維度被壓縮為1,而特征V的通道維度只被壓縮為原來(lái)的一半,接著使用softmax對(duì)Q的信息進(jìn)行增強(qiáng),讓兩個(gè)特征進(jìn)行矩陣乘法,然后經(jīng)過(guò)1×1卷積、LN和Sigmoid函數(shù)將特征通道恢復(fù)到原本的維度,并歸一化到0到1之間,得到通道分支的特征權(quán)重,最后將特征權(quán)重乘以原特征圖得到通道分支的輸出。在空間分支中,與通道分支的操作類似,輸入特征X同樣經(jīng)過(guò)1×1的卷積得到特征Q和特征V,不同的點(diǎn)在于,特征Q經(jīng)過(guò)全局池化操作將特征圖壓縮為1×1大小,兩個(gè)特征進(jìn)行矩陣乘法之后經(jīng)過(guò)reshape和sigmoid函數(shù)得到空間分支的特征權(quán)重,最后將同樣特征權(quán)重乘以原特征圖得到通道分支的輸出。整個(gè)極化自注意力模塊的輸出是從兩個(gè)分支輸出的融合得到的。

      相比于其他使用全連接層和卷積層得到注意力權(quán)重的注意力機(jī)制,極化自注意力機(jī)制使用自注意力結(jié)構(gòu)得到注意力權(quán)重,可以充分利用自注意力結(jié)構(gòu)的建模能力,且其他注意力機(jī)制一般只使用softmax函數(shù)和sigmoid函數(shù),極化自注意力機(jī)制在兩個(gè)分支都同時(shí)使用了softmax函數(shù)和sigmoid函數(shù),從而可以擬合細(xì)粒度回歸結(jié)果的輸出分布。整個(gè)結(jié)構(gòu)只增加了少量的計(jì)算量,可以建模高分辨率圖像的長(zhǎng)距離依賴關(guān)系。

      2.3 IBN-Net

      數(shù)據(jù)集通常是不同時(shí)間、不同環(huán)境中采集的,因現(xiàn)實(shí)場(chǎng)景復(fù)雜導(dǎo)致數(shù)據(jù)集中不同圖像的光照可能不一樣。在人體姿態(tài)估計(jì)任務(wù)中,光照變化可能導(dǎo)致人體的外觀發(fā)生變化。2018年,Pan等人[14]提出了IBN-Net網(wǎng)絡(luò)結(jié)構(gòu),該結(jié)構(gòu)可以很容易的融入到ResNet等主流網(wǎng)絡(luò)結(jié)構(gòu)中,其可以在不增加模型計(jì)算量的同時(shí),保存內(nèi)容相關(guān)信息,為網(wǎng)絡(luò)引入外觀不變性,提高模型的泛化能力。批量歸一化(BatchNormalization,BN)[15]是將每個(gè)Batch的數(shù)據(jù)歸一化,其可以讓模型保存更多的內(nèi)容相關(guān)信息,并學(xué)習(xí)到有用的特征信息,但是會(huì)影響網(wǎng)絡(luò)在外觀上的轉(zhuǎn)換,一般用于判別模型。實(shí)例歸一化(InstanceNormalization,IN)[16]是將每張圖像歸一化,其可以讓模型學(xué)習(xí)到具有外觀不變性的特征信息,但是會(huì)損失圖像中有用的特征信息,一般用于生成模型。IBN-Net研究發(fā)現(xiàn)如果同時(shí)將批量歸一化和實(shí)例歸一化應(yīng)用在網(wǎng)絡(luò)模型的淺層,只將批量歸一化應(yīng)用在網(wǎng)絡(luò)的深層,可以讓模型同時(shí)具有兩種歸一化操作的優(yōu)點(diǎn),避免其缺點(diǎn)。

      2.4 GLneck模塊和GLblock模塊

      本文將HRNet中Bottleneck模塊和Basicblock模塊重新改造為GLneck模塊和GLblock模塊,GLblock模塊和GLneck模塊的結(jié)構(gòu)分別如圖4(a)和圖4(b)所示。首先使用Ghost卷積替換原本殘差塊結(jié)構(gòu)中的普通3×3卷積,然后將PSA模塊設(shè)置在第一個(gè)Ghost卷積后面,從而在減少模型參數(shù)量和計(jì)算復(fù)雜度的基礎(chǔ)上,建模高分辨率圖像的長(zhǎng)距離依賴關(guān)系,增加模型的精度。為了降低光照變換對(duì)模型的影響,在模型中引入IBN-Net的設(shè)計(jì)思想,將批量歸一化和實(shí)例歸一化同時(shí)作用在模型的淺層能讓模型提取的特征具有外觀不變性且保存內(nèi)容相關(guān)信息,所以本文只在Stage1的四個(gè)GLneck模塊的第一個(gè)1×1卷積后面同時(shí)使用批量歸一化和實(shí)例歸一化,具體使用方法將把GLneck中第一個(gè)1×1卷積輸出的特征按通道平均分成了兩部分,分別進(jìn)行批量歸一化和實(shí)例歸一化。

      3 實(shí)驗(yàn)和結(jié)果分析

      本文算法由Pytorch框架實(shí)現(xiàn)的,其實(shí)驗(yàn)是在64位Windows11系統(tǒng)、英偉達(dá)3070Ti的GPU上進(jìn)行的。在COCO人體姿態(tài)估計(jì)數(shù)據(jù)集上進(jìn)行算法的訓(xùn)練和測(cè)試。訓(xùn)練時(shí),將數(shù)據(jù)集中的人體目標(biāo)裁剪出來(lái),將其縮放成固定的256×192大小,使用Adam優(yōu)化器訓(xùn)練210個(gè)epoch,模型的初始學(xué)習(xí)率是1e-3,在第170個(gè)epoch和第200個(gè)epoch降低為之前的0.1倍,模型結(jié)構(gòu)的基本通道數(shù)設(shè)置為32。測(cè)試使用COCO數(shù)據(jù)集的驗(yàn)證集,訓(xùn)練和測(cè)試的批量大小都設(shè)置為32。

      3.1 數(shù)據(jù)集

      COCO(Common Objects in COntext)人體姿態(tài)估計(jì)數(shù)據(jù)集[17]來(lái)源于微軟舉辦的姿態(tài)估計(jì)挑戰(zhàn)賽,數(shù)據(jù)集內(nèi)含有超過(guò)200000張樣本圖片和250000個(gè)人體目標(biāo),訓(xùn)練集有118287張圖片,驗(yàn)證集中有5000張圖片,測(cè)試集中有33619張圖片。完整的人體標(biāo)注了17個(gè)姿態(tài)關(guān)鍵點(diǎn),按順序從0到16分別是:鼻子、左眼、右眼、左耳、右耳、左肩、右肩、左肘、右肘、左手腕、右手腕、左臀、右臀、表示左膝、右膝、左腳踝、右腳踝。并用mask標(biāo)明關(guān)鍵點(diǎn)的狀態(tài),0表示沒(méi)有標(biāo)注,1表示標(biāo)注了但不可見(jiàn),2表示標(biāo)注了且可見(jiàn)。

      3.2 評(píng)估標(biāo)準(zhǔn)

      COCO數(shù)據(jù)集使用平均準(zhǔn)確率(Average Precision,AP)作為評(píng)價(jià)標(biāo)準(zhǔn),其是根據(jù)關(guān)鍵點(diǎn)相似度(Object Keypoint Similarity,OKS)計(jì)算得到的,關(guān)鍵點(diǎn)相似度表示兩個(gè)關(guān)鍵點(diǎn)之間的相似度,其如公式⑶所示。

      [OKS=iexp(-d2i2s2k2i)δ(vi>0)iδ(vi>0)]? ⑶

      其中,[δ(vi>0)]表示數(shù)據(jù)集中這個(gè)關(guān)鍵點(diǎn)i是被標(biāo)注的,[di]表示預(yù)測(cè)關(guān)鍵點(diǎn)與標(biāo)注關(guān)鍵點(diǎn)之間的歐式距離,[s]是目標(biāo)尺度因子,[ki]是關(guān)鍵點(diǎn)i的歸一化因子。

      在計(jì)算COCO數(shù)據(jù)集的評(píng)價(jià)指標(biāo)時(shí),若某個(gè)關(guān)鍵點(diǎn)的OKS大于一定的閾值,則這個(gè)關(guān)鍵點(diǎn)是正例。AP50表示關(guān)鍵點(diǎn)相似度閾值為0.5時(shí)預(yù)測(cè)關(guān)鍵點(diǎn)的準(zhǔn)確率, AP75表示關(guān)鍵點(diǎn)相似度閾值為0.75時(shí)預(yù)測(cè)關(guān)鍵點(diǎn)的準(zhǔn)確率,AP表示關(guān)鍵點(diǎn)相似度閾值為(0.5、0.55…0.90、0.95)時(shí)所有預(yù)測(cè)關(guān)鍵點(diǎn)準(zhǔn)確率的平均值, APM表示人體尺度為中等時(shí)預(yù)測(cè)關(guān)鍵點(diǎn)的準(zhǔn)確率, APL表示人體尺度為大時(shí)預(yù)測(cè)關(guān)鍵點(diǎn)的準(zhǔn)確率,AR表示關(guān)鍵點(diǎn)相似度閾值為(0.5、0.55…0.90、0.95)時(shí)的平均召回率。

      3.3 實(shí)驗(yàn)仿真與結(jié)構(gòu)分析

      3.3.1 與其他先進(jìn)人體姿態(tài)估計(jì)算法的比較

      為了驗(yàn)證本文算法的有效性,選擇幾個(gè)經(jīng)典先進(jìn)的人體姿態(tài)估計(jì)算法與本文算法進(jìn)行比較,這些先進(jìn)的人體姿態(tài)估計(jì)算法分別是Hourglass[4]、CPN[5]、CPN+ OHKM[5]、SimpleBaseLine[6]、HRNet[7]和SCANet[8],其結(jié)果如表1表所示。

      如表1,在輸入圖像尺寸同為256×192情況下,本文提出的網(wǎng)絡(luò)模型的參數(shù)量只有18.2×106且計(jì)算量只有4.6GFLOPs,相比于高分辨率網(wǎng)絡(luò)HRNet,本文算法的參數(shù)量降低了36.1%,計(jì)算量降低了35.2%。本文算法的參數(shù)量和計(jì)算量降低了,而算法的平均準(zhǔn)確率AP值進(jìn)一步提升了1.4個(gè)百分點(diǎn),其他設(shè)定OKS為不同閾值的AP值和平均召回率均有一定程度的提升。與Hourglass[4]、CPN[5]、CPN+OHKM[5]、SimpleBaseLine[6]和SCANet[8]網(wǎng)絡(luò)模型相比,本文網(wǎng)絡(luò)模型的平均準(zhǔn)確率分別提高了8.9、7.2、6.4、5.4和3.5個(gè)百分點(diǎn),證明了本文算法的先進(jìn)性。

      3.3.2 消融實(shí)驗(yàn)

      為了驗(yàn)證本文算法加入的各個(gè)模塊的有效性,本節(jié)將只把Ghost卷積模塊融入HRNet定義為新結(jié)構(gòu)1,將同時(shí)把Ghost卷積模塊和極化自注意力機(jī)制模塊融入HRNet定義為新結(jié)構(gòu)2,在COCO數(shù)據(jù)集上進(jìn)行相關(guān)消融實(shí)驗(yàn),其結(jié)果如表2所示。

      從表2可知,相比于高分辨率網(wǎng)絡(luò)HRNet,新結(jié)構(gòu)1的參數(shù)量從28.5×106降低到15.8×106,平均準(zhǔn)確率卻從74.4%降低到73.1%,雖然平均準(zhǔn)確率降低了,但是模型的參數(shù)量也降低了,證明了Ghost卷積模塊降低模型參數(shù)量的能力。相比于新結(jié)構(gòu)1,新結(jié)構(gòu)2的參數(shù)量從15.8×106增加到18.2×106,平均準(zhǔn)確率從71.1%增加到74.9%,證明了Ghost極化自注意力模塊可以在只增加少量模型參數(shù)量的情況下增加模型的精度。相比于結(jié)構(gòu)二,GLHRNet的平均準(zhǔn)確率從74.9%提升到75.8%,證明了IBN-Net的設(shè)計(jì)思想可以進(jìn)一步提升模型的泛化能力。

      4 結(jié)束語(yǔ)

      本文針對(duì)如何在降低高分辨人體姿態(tài)估計(jì)網(wǎng)絡(luò)模型參數(shù)量和計(jì)算復(fù)雜度的同時(shí),提高模型精度的問(wèn)題,使用Ghost卷積模塊和極化自注意力模塊重新構(gòu)建高分辨率網(wǎng)絡(luò)的殘差塊結(jié)構(gòu),并在此基礎(chǔ)上,在模型中引用IBN-Net的思想,提升模型對(duì)圖像外觀變化的適應(yīng)性,進(jìn)一步提高模型的泛化能力,最后在COCO數(shù)據(jù)集中做了相關(guān)實(shí)驗(yàn),證明了本文的算法的有效性。如何在大幅降低模型參數(shù)量的情況下,進(jìn)一步提高人體姿態(tài)估計(jì)模型的精度是今后研究的重點(diǎn)。

      參考文獻(xiàn)(References):

      [1] Zhao X, Liu Y, Fu Y. Exploring discriminative pose sub-

      patterns for effective action classification. In: Proc. of the ACM Multimedia. Barcelona:ACM,2013:273?282

      [2] TOSHEV A,SZEGEDY C. DeepPose:human pose

      estimation via deep neural networks [C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE,2014:1653-1660

      [3] Tompson J J, Jain A, LeCun Y, et al. Joint training of a

      convolutional network and a graphical model for human pose estimation. Advances in neural information processing systems,2014,27:1799-1807

      [4] Newell A, Yang K, Deng J. Stacked hourglass networks for

      human pose estimation. European conference on computer vision. Springer, Cham,2016:483-499

      [5] Chen Y, Wang Z, Peng Y, et al. Cascaded pyramid

      network for multi-person pose estimation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2018:7103-7112

      [6] Xiao B, Wu H, Wei Y. Simple baselines for human pose

      estimation and tracking. In: Proceedings of the European Conference on Computer Vision (ECCV),2018:466-481

      [7] Sun K, Xiao B, Liu D, et al. Deep high-resolution

      representation learning for human pose estimation[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE,2019:5686-5696

      [8] 李坤,侯慶.基于注意力機(jī)制的輕量型人體姿態(tài)估計(jì)[J].計(jì)算

      機(jī)應(yīng)用,2022,42(8):2407-2414

      [9] Cao Z, Simon T, Wei S E, et al. Realtime multi-person 2d

      pose estimation using part affinity fields. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017: 7291-7299

      [10] Newell A, Huang Z, Deng J. Associative embedding:

      End-to-end learning for joint detection and grouping. Advances in Neural Information Processing Systems,2017:2277-2287

      [11] HAN K,WANG Y H,TIAN Q,et al. GhostNet:more

      features from cheap operations[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE,2020:1577-1586

      [12] 孫琪翔,何寧,張聰聰,等.基于輕量級(jí)圖卷積的人體骨架動(dòng)

      作識(shí)別方法[J].計(jì)算機(jī)工程,2022,48(5):306-313

      [13] Liu H, Liu F, Fan X, et al. Polarized self-attention:

      towards high-quality pixel-wise regression[J]. arXiv preprint arXiv:2107.00782,2021

      [14] Pan X, Luo P, Shi J, et al. Two at once: Enhancing

      learning and generalization capacities via ibn-net[C]//Proceedings of the European Conference on Computer Vision (ECCV),2018:464-479

      [15] Ioffe S, Szegedy C. Batch normalization: Accelerating

      deep network training by reducing internal covariate shift[C]//International conference on machine learning. PMLR,2015:448-456

      [16] Ulyanov D, Vedaldi A, Lempitsky V. Instance

      normalization: The missing ingredient for fast stylization[J]. arXiv preprint arXiv:1607.08022, 2016.

      [17] LIN T Y,MAIRE M,BELONGIE S,et al. Microsoft

      COCOcommon objects in context[C]// Proceedings of the 2018 European Conference on Computer Vision. Cham:Springer,2014:740-755

      枝江市| 通州市| 分宜县| 庄浪县| 济阳县| 万盛区| 铁力市| 陇南市| 湘乡市| 浠水县| 修武县| 永德县| 洱源县| 玛沁县| 陇西县| 什邡市| 石屏县| 富顺县| 淮滨县| 肥东县| 新巴尔虎右旗| 韶关市| 临武县| 余姚市| 江源县| 尉犁县| 元阳县| 定兴县| 镇原县| 淳安县| 会理县| 衡阳县| 陇西县| 宁城县| 云南省| 九台市| 通榆县| 芒康县| 呼玛县| 佛山市| 阳江市|