• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于多尺度對抗學(xué)習(xí)的人體姿態(tài)估計(jì)

      2020-12-11 05:12:22李曉明徐建華
      實(shí)驗(yàn)室研究與探索 2020年11期
      關(guān)鍵詞:熱圖堆棧真值

      李曉明,黃 慧,應(yīng) 毅,徐建華,曾 岳,劉 洋

      (1.三江學(xué)院計(jì)算機(jī)科學(xué)與工程學(xué)院,南京 210012;2.金陵科技學(xué)院軟件工程學(xué)院,南京 211169;3.江蘇省清江中學(xué),江蘇淮安 223001)

      0 引言

      機(jī)器視覺與模式識(shí)別技術(shù)應(yīng)用于安全監(jiān)控領(lǐng)域始于20 世紀(jì)90 年代,包括美國國防高等研究計(jì)劃署資助的視頻圖像檢索分析工具和遠(yuǎn)距離人體識(shí)別系統(tǒng),巴黎公共交通網(wǎng)絡(luò)提出的實(shí)時(shí)事件監(jiān)測方案等。在公眾場景下,人作為視頻監(jiān)控中的主要對象,需要對人體動(dòng)作進(jìn)行準(zhǔn)確識(shí)別,以加強(qiáng)對圖像的理解及異常行為的預(yù)警。人體姿態(tài)估計(jì)是人體行為識(shí)別的基礎(chǔ),它是在給定一幅圖像或者一段視頻中進(jìn)行人體關(guān)鍵點(diǎn)位置定位的過程,對智慧醫(yī)療、智能安防及增強(qiáng)現(xiàn)實(shí)等領(lǐng)域具有廣闊的應(yīng)用前景。

      近年來,學(xué)者們提出了多種人體姿態(tài)估計(jì)算法,這些算法大致可以分為兩類:基于特征描述子的人體姿態(tài)估計(jì)算法和基于深度學(xué)習(xí)的人體姿態(tài)估計(jì)算法,該算法一般使用了大量特征,其中包括顏色、紋理、邊緣、形狀、全局特征、局部特征和塊特征。其中HOG(Histogram of Oriented Gradient)特征是由Dalal 等[1]在行人檢測中第一次提出來的,具有圖像局部信息良好的幾何和光照不變性。該特征已經(jīng)廣泛應(yīng)用于人體姿態(tài)估計(jì),并對人體姿態(tài)估計(jì)領(lǐng)域產(chǎn)生積極的推動(dòng)作用[2-5]?;谏疃葘W(xué)習(xí)的人體姿態(tài)估計(jì)算法一般通過卷積神經(jīng)網(wǎng)絡(luò)來提取人體各部件的特征,具有更強(qiáng)特征表達(dá)和學(xué)習(xí)能力。Chu等[6]提出多語境注意力機(jī)制提升模型對人體關(guān)鍵點(diǎn)空間信息建模的性能。Yang等[7]設(shè)計(jì)了金字塔殘差模塊來有效提取人體多尺度信息。Newell等[8]提出了堆棧沙漏網(wǎng)絡(luò),在人體姿態(tài)估計(jì)領(lǐng)域取得較理想的結(jié)果。在沙漏網(wǎng)絡(luò)基礎(chǔ)上,學(xué)者們又提出了多種改進(jìn)模型。Chou 等[9]將生成對抗學(xué)習(xí)引入到人體姿態(tài)估計(jì)中,進(jìn)一步改善生成人體部件特征的圖質(zhì)量。但是,現(xiàn)有基于對抗學(xué)習(xí)的人體姿態(tài)估計(jì)算法中,缺少對尺度人體部件信息的融合。近年來,大量的研究表明人體目標(biāo)檢測框一旦發(fā)生細(xì)微變化,將會(huì)對人體姿態(tài)估計(jì)的結(jié)果產(chǎn)生較大影響。這一現(xiàn)象表明人體姿態(tài)估計(jì)對人體尺度的變化非常敏感。此外,不同人體部件的尺度也不一樣,這些因素均對人體姿態(tài)估計(jì)造成了嚴(yán)峻的挑戰(zhàn)。本文研究基于對抗學(xué)習(xí)的人體姿態(tài)估計(jì)算法,通過堆棧沙漏網(wǎng)絡(luò)分別構(gòu)建對抗網(wǎng)絡(luò)中的生成器和判別器,再分別在生成器和判別器中融合多尺度人體部件信息,從而改善人體姿態(tài)估計(jì)算法的性能。

      1 基于對抗學(xué)習(xí)的人體姿態(tài)估計(jì)算法

      生成式對抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)是Goodfellow 等[10]提出的一種生成式模型,它由一個(gè)生成器和一個(gè)判別器構(gòu)成,生成器的目標(biāo)是盡量去學(xué)習(xí)真實(shí)數(shù)據(jù)樣本的潛在分布,并生成新的數(shù)據(jù)樣本;而判別器是一個(gè)二分類器,目標(biāo)是盡量正確判別輸入是來自真實(shí)數(shù)據(jù)還是生成的樣本。如圖1 所示,G表示生成器,用于生成人體各部件熱圖;D表示判別器,用于重構(gòu)人體各部件的熱圖。給定一張輸入圖像,通過生成器G得到生成熱圖,然后生成熱圖和真值熱圖一起輸入到判別器D中,并輸出由生成熱圖重構(gòu)的熱圖和由真值熱圖重構(gòu)的熱圖。因此,生成器和判別器的構(gòu)建在基于對抗學(xué)習(xí)的人體姿態(tài)估計(jì)中起著至關(guān)重要的作用。近年來,由于堆棧沙漏網(wǎng)絡(luò)廣泛應(yīng)用于人體姿態(tài)估計(jì)的任務(wù)中,并且取得較好預(yù)測效果,本文采用堆棧沙漏網(wǎng)絡(luò)來構(gòu)建對抗網(wǎng)絡(luò)中的生成器和判別器。

      圖1 基于對抗學(xué)習(xí)的人體姿態(tài)估計(jì)模型

      1.1 基于沙漏網(wǎng)絡(luò)的生成器

      沙漏網(wǎng)絡(luò)一般由殘差模塊、池化、卷積和反卷積部分組成,具有較好的感受野,如圖2 所示。堆棧沙漏網(wǎng)絡(luò)由多個(gè)沙漏網(wǎng)絡(luò)串聯(lián)而成。生成器主要用于學(xué)習(xí)并生成人體各部件熱圖,通過沙漏網(wǎng)絡(luò)來構(gòu)造生成器可以在輸入圖像中提取上下文特征,該沙漏網(wǎng)絡(luò)單元由一個(gè)7 ×7 卷積層和幾個(gè)殘差模塊構(gòu)成,再輸入到下一個(gè)沙漏網(wǎng)絡(luò)單元中形成堆棧沙漏網(wǎng)絡(luò)結(jié)構(gòu),最終輸出各個(gè)關(guān)節(jié)點(diǎn)的熱圖。本文中生成器由4 個(gè)沙漏網(wǎng)絡(luò)堆棧而成,在訓(xùn)練中,生成器損失函數(shù)分別來自生成器本身損失LMSE和判別器的對抗損失Ladv。來自于生成器本身的損失函數(shù)可以定義為

      式中:Cij是第i個(gè)堆棧中第j個(gè)關(guān)節(jié)點(diǎn)的真值熱圖,通過2D高斯函數(shù)得到是生成的熱圖;N表示沙漏網(wǎng)絡(luò)堆棧數(shù);M表示每個(gè)沙漏網(wǎng)絡(luò)生成熱圖的數(shù)量。

      圖2 沙漏網(wǎng)絡(luò)結(jié)構(gòu)圖

      自判別器的對抗損失函數(shù)可以表示為

      式中:λG是控制兩種損失權(quán)重的超參數(shù)。

      1.2 基于沙漏網(wǎng)絡(luò)的判別器

      針對給定的訓(xùn)練圖像,通過生成器得到生成熱圖,并和真值熱圖分別輸入到判別器中,生成重構(gòu)熱圖。重構(gòu)熱圖將分別用于計(jì)算Lreal和Lfake,在每次迭代中,判別器都使用累積梯度進(jìn)行更新,該梯度是通過Lreal和Lfake進(jìn)行計(jì)算。在圖1 中,當(dāng)判別器的輸入為真實(shí)熱圖時(shí),其輸出為重構(gòu)真值熱圖,需要最小化真值熱圖和重構(gòu)真值熱圖之間的誤差;當(dāng)判別器的輸入為生成熱圖時(shí),需要最大化生成熱圖和重構(gòu)生成熱圖之間的誤差。因此,判別器的損失函數(shù)表示為:

      式中:kt表示超參數(shù),用于控制生成器和判別器之間的平衡,防止整個(gè)網(wǎng)絡(luò)由于判別器優(yōu)化過快而引起的模式崩潰問題。

      2 基于多尺度對抗學(xué)習(xí)的人體姿態(tài)估計(jì)算法

      沙漏網(wǎng)絡(luò)通過卷積和反卷積運(yùn)算來獲取豐富的人體部件特征,但是這種性能易受到多尺度金字塔結(jié)構(gòu)中某一特定的尺度影響,同時(shí)還缺少魯棒的跨尺度感知性能。因此,本文針對現(xiàn)有人體姿態(tài)估計(jì)算法對人體尺度變化敏感的特性,提出了基于多尺度對抗學(xué)習(xí)的人體姿態(tài)估計(jì)算法。如圖3 所示,該生成器共由4個(gè)相同的沙漏網(wǎng)絡(luò)堆棧而成,并在每個(gè)沙漏網(wǎng)絡(luò)中引入了多尺度監(jiān)督損失函數(shù),從而提高整個(gè)網(wǎng)絡(luò)檢測不同尺度人體部件的性能。多尺度監(jiān)督學(xué)習(xí)跨多個(gè)尺度的深層次特征,是通過在生成器和鑒別器沙漏模塊中的每個(gè)反卷積層上添加了監(jiān)督,即每一層對應(yīng)著一個(gè)特征的尺度來實(shí)現(xiàn)的。該損失函數(shù)是由每個(gè)反卷積層上的特征圖和對應(yīng)尺度的真值熱圖運(yùn)算得到:例如真值熱圖通過做1/2、1/4、1/8 的向下采樣得到多尺度真值熱圖。此外,為了保證特征圖和真值熱圖在維度上的一致性,本文使用1 ×1 卷積核降維,將高維反卷積特征圖轉(zhuǎn)化為所需的數(shù)量。由式(1)~(3),本文的多尺度對抗學(xué)習(xí)的生成器損失函數(shù)可以定義為:

      圖3 多尺度對抗學(xué)習(xí)的生成器網(wǎng)絡(luò)結(jié)構(gòu)

      在判別器中,同樣采用了多尺度監(jiān)督,其網(wǎng)絡(luò)結(jié)構(gòu)和生成器類似。判別器的輸入是生成器最后一個(gè)沙漏堆棧的輸出熱圖和真值熱圖,然后經(jīng)過4 個(gè)相同的多尺度沙漏網(wǎng)絡(luò),形成多尺度對抗學(xué)習(xí)的判別器(見圖4)。由式(4)~(6),多尺度對抗學(xué)習(xí)的生成器損失函數(shù)可以定義為:

      圖4 多尺度對抗學(xué)習(xí)的鑒別器網(wǎng)絡(luò)結(jié)構(gòu)

      3 實(shí) 驗(yàn)

      本文采用LSP數(shù)據(jù)集(Leeds Sports Pose Dataset)、LSPE 數(shù)據(jù)集(Leeds Sports Pose -extended Dataset)、FLIC 數(shù)據(jù)集(Frames Labeled In Cinema Dataset)和MPII數(shù)據(jù)集進(jìn)行人體姿態(tài)估計(jì)模型的訓(xùn)練與測試。LSPE數(shù)據(jù)集用來補(bǔ)充LSP數(shù)據(jù)集訓(xùn)練樣本,一共包含11 000 張訓(xùn)練圖像和1 000 張測試圖像,每張圖像包含一個(gè)人且標(biāo)記了14 個(gè)關(guān)節(jié)點(diǎn)。FLIC 數(shù)據(jù)集中3 987張圖像用于訓(xùn)練,剩余1 016 張圖像用于測試,且數(shù)據(jù)集只標(biāo)注了上半身人體姿態(tài)。這兩類數(shù)據(jù)集中人體尺寸和著裝多變,場景豐富多樣,對人體姿態(tài)估計(jì)有著很大的挑戰(zhàn)。MPII 數(shù)據(jù)集包含25 000 張帶標(biāo)注圖片超過40 000 人,其中30 000 人用于訓(xùn)練,10 000 人用于測試。為了增加訓(xùn)練樣本,本文將訓(xùn)練樣本進(jìn)行了順時(shí)針和逆時(shí)針分別旋轉(zhuǎn)30°,并做了翻轉(zhuǎn)變換。整個(gè)模型采用Torch7 在NVIDIA GPU 上進(jìn)行訓(xùn)練與測試。為了更加客觀地評價(jià)模型的性能,本文采用了通用評價(jià)指標(biāo)PCK(Percentage of Correct Keypoints)和PCKh(Percentage of Correct Keypoints with respect to head)。

      為了驗(yàn)證多尺度對抗學(xué)習(xí)的有效性,在LSP 數(shù)據(jù)集上對比了基于對抗學(xué)習(xí)的有/無融合多尺度信息的人體姿態(tài)估計(jì)算法的結(jié)果。如表1 所示,本文分別對人體的不同關(guān)節(jié)點(diǎn)計(jì)算了PCK指標(biāo),實(shí)驗(yàn)結(jié)果表明多尺度對抗學(xué)習(xí)能提升各個(gè)關(guān)節(jié)點(diǎn)預(yù)測的正確率。此外,在平均值上,加入多尺度信息的人體姿態(tài)估計(jì)模型比沒有多尺度信息的模型提高了0.7%。

      表1 對抗學(xué)習(xí)實(shí)驗(yàn)結(jié)果比較

      表2 和表3 給出了本文算法和現(xiàn)有部分人體姿態(tài)估計(jì)算法分別在LSP數(shù)據(jù)集和MPII 數(shù)據(jù)集的測試樣本上的正確率。從表中可以看出,本文算法和現(xiàn)有人體姿態(tài)估計(jì)算法相比,較為明顯地提高了肢體上的關(guān)節(jié)點(diǎn)(肘、手腕、膝、踝)預(yù)測正確率。表4 中給出了在FLIC數(shù)據(jù)集上人體姿態(tài)估計(jì)的正確率比較,結(jié)果表明在肘和手腕的關(guān)節(jié)點(diǎn)上正確率均高出了傳統(tǒng)方法。

      表2 LSP數(shù)據(jù)集上PCK準(zhǔn)確率比較

      表3 MPII數(shù)據(jù)集上PCKh準(zhǔn)確率比較

      表4 FLIC數(shù)據(jù)集上PCK準(zhǔn)確率比較

      圖5 給出了本文提出的基于多尺度對抗學(xué)習(xí)人體姿態(tài)估計(jì)模型對LSP 數(shù)據(jù)集中幾幅示例圖片的人體姿態(tài)估計(jì)結(jié)果。示例圖像存在自遮擋、不同衣著、不同尺度、圖像模糊等樣本,從圖5 中可以看出,本文提出的算法可以在這些非常具有挑戰(zhàn)性的圖像中成功定位出人體關(guān)節(jié)點(diǎn),這表明了本文提出的算法具有較好魯棒性。

      圖5 人體姿態(tài)估計(jì)示例

      4 結(jié)語

      本文主要對基于對抗學(xué)習(xí)的人體姿態(tài)估計(jì)算法進(jìn)行了研究,提出了一種基于多尺度對抗學(xué)習(xí)的策略。通過堆棧沙漏網(wǎng)絡(luò)來構(gòu)造對抗學(xué)習(xí)的生成器和判別器,然后分別在生成器和判別器上融合多尺度人體部件特征。實(shí)驗(yàn)結(jié)果表明本文提出的基于多尺度對抗學(xué)習(xí)的人體姿態(tài)估計(jì)算法可以較明顯提升姿態(tài)估計(jì)的正確率。

      猜你喜歡
      熱圖堆棧真值
      嵌入式軟件堆棧溢出的動(dòng)態(tài)檢測方案設(shè)計(jì)*
      基于堆棧自編碼降維的武器裝備體系效能預(yù)測
      10kV組合互感器誤差偏真值原因分析
      電子制作(2017年1期)2017-05-17 03:54:35
      熱圖
      攝影之友(2016年12期)2017-02-27 14:13:20
      熱圖
      每月熱圖
      攝影之友(2016年8期)2016-05-14 11:30:04
      熱圖
      家庭百事通(2016年3期)2016-03-14 08:07:17
      真值限定的語言真值直覺模糊推理
      基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評價(jià)算法
      寫真法、寫假法探析
      安仁县| 台中市| 微博| 静海县| 镇江市| 柘城县| 南京市| 宜州市| 日土县| 建瓯市| 望谟县| 建昌县| 宿迁市| 七台河市| 樟树市| 台北市| 南和县| 噶尔县| 岑巩县| 全椒县| 石狮市| 齐河县| 墨脱县| 台安县| 罗甸县| 天柱县| 三都| 新邵县| 宿迁市| 通渭县| 阿克陶县| 万州区| 平泉县| 蓬莱市| 久治县| 龙南县| 瓦房店市| 广饶县| 乐昌市| 交口县| 融水|