• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      動(dòng)態(tài)視角下人體行為識(shí)別研究

      2019-06-06 04:21:26紀(jì)亮亮趙敏
      軟件導(dǎo)刊 2019年3期
      關(guān)鍵詞:人體動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)

      紀(jì)亮亮 趙敏

      摘 要:3D人體行為識(shí)別數(shù)據(jù)庫(kù)發(fā)展給人體行為識(shí)別研究者提供了便利,然而現(xiàn)存數(shù)據(jù)庫(kù)視角固定等問(wèn)題限制了機(jī)器人移動(dòng)范圍。為了研究真實(shí)環(huán)境下的人體行為識(shí)別,建立一個(gè)基于RGB-D攝像機(jī)的動(dòng)態(tài)多視角人體行為數(shù)據(jù)庫(kù)DMV Action3D,收集了20人的600多個(gè)行為視頻,約60萬(wàn)幀彩色圖像和深度圖像。另外,在DMV Action3D數(shù)據(jù)庫(kù)基礎(chǔ)上,利用CRFasRNN圖片分割技術(shù)將人像進(jìn)行分割并分別提取Harris3D特征,利用隱馬爾可夫模型對(duì)動(dòng)態(tài)視角下的人體行為進(jìn)行識(shí)別。實(shí)驗(yàn)結(jié)果表明,在動(dòng)態(tài)視角下使用CRFasRNN圖像分割方法,人像分割效果突出,且不受環(huán)境、場(chǎng)景、光照因素影響,與真實(shí)環(huán)境下人體輪廓的相似度極高。DMV Action3D數(shù)據(jù)集對(duì)于研究真實(shí)環(huán)境下人體行為具有較大優(yōu)勢(shì),為服務(wù)機(jī)器人識(shí)別真實(shí)環(huán)境下人體行為提供了一個(gè)較佳資源。

      關(guān)鍵詞:人體行為識(shí)別;3D數(shù)據(jù)庫(kù);CRFasRNN

      DOI:10. 11907/rjdk. 182080

      中圖分類(lèi)號(hào):TP317.4文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1672-7800(2019)003-0178-05

      0 引言

      基于視覺(jué)的行為識(shí)別研究在人機(jī)交互、智能監(jiān)控和視頻檢索中有重要應(yīng)用價(jià)值。隨著立體視覺(jué)和深度傳感器的發(fā)展,3D場(chǎng)景和深度信息獲取為人體行為識(shí)別分析提供了多樣化的研究手段和方法。人體行為數(shù)據(jù)庫(kù)的建立給行為識(shí)別研究提供了便利,常用的人體行為3D數(shù)據(jù)庫(kù)包括:微軟MSR Action3D[1]、MSR Daily Activity[2]、康奈爾大學(xué)CAD-60[3]和CAD-120[4]、UTD-MHAD[5]、UWA3D Multiview II[6]、南陽(yáng)理工大學(xué)的NTU RGB+D[7]等。其中,NTU RGB+D數(shù)據(jù)庫(kù)極其豐富,包含17個(gè)視角、80個(gè)場(chǎng)景、40個(gè)采集動(dòng)作對(duì)象、60組動(dòng)作、56 880個(gè)樣本,存有RGB+D+IR+3DJoints數(shù)據(jù)提供研究者使用。然而,這些數(shù)據(jù)庫(kù)在滿足場(chǎng)景多變、視角多變、動(dòng)作類(lèi)別豐富的條件下卻忽略了重要一點(diǎn):所有機(jī)器視角都為靜態(tài)視角,服務(wù)型機(jī)器人在移動(dòng)情況下,其視角信息會(huì)隨著移動(dòng)路徑發(fā)生背景變化、光照變化、遮擋等情況,因此靜態(tài)視角提供的數(shù)據(jù)信息對(duì)于移動(dòng)機(jī)器人識(shí)別研究不再適用。

      研究動(dòng)態(tài)機(jī)器視角信息需要建立動(dòng)態(tài)視角人體行為數(shù)據(jù)庫(kù)。本文使用Microsoft Kinect傳感器,選取30組復(fù)雜人體行為,包括日常生活行為、運(yùn)動(dòng)行為和異常行為三大類(lèi),設(shè)計(jì)多個(gè)人體、物體、環(huán)境具有交互作用的動(dòng)作,采集20個(gè)人的習(xí)慣動(dòng)作,建成一個(gè)超過(guò)60萬(wàn)幀的人類(lèi)行為識(shí)別3D數(shù)據(jù)庫(kù)DMV3 Dataset。Kinect從3個(gè)視角出發(fā),其中2個(gè)為固定垂直視角(正視角、側(cè)視角),1個(gè)為為動(dòng)態(tài)視角,用一款ROS機(jī)器人圍繞人體作半圓運(yùn)動(dòng),動(dòng)態(tài)錄制了人體行為動(dòng)作的整個(gè)過(guò)程。

      數(shù)據(jù)庫(kù)人體行為的復(fù)雜性和多變性使得識(shí)別算法復(fù)雜度大幅增加?;趫D像的常用算法如幀差法[9]、光流算法[10]在動(dòng)態(tài)機(jī)器視角下完全失效,使得動(dòng)態(tài)視角下行為識(shí)別難度遠(yuǎn)遠(yuǎn)超過(guò)靜態(tài)視角。本文提出使用CRFasRNN[8]對(duì)移動(dòng)視頻序列幀中的人體進(jìn)行分割,CRFasRNN是一個(gè)端到端的深度學(xué)習(xí)方法,將神經(jīng)網(wǎng)絡(luò)與概率圖模型的優(yōu)勢(shì)結(jié)合,用于解決像素級(jí)圖像分割問(wèn)題。該方法不受場(chǎng)景和光照變化影響,對(duì)分割后的人像提取人體特征,最后利用隱馬爾可夫模型進(jìn)行訓(xùn)練分類(lèi)。

      1 相關(guān)工作

      人體行為識(shí)別方法研究隨著3D深度圖像的發(fā)展有了很多突破。隨著人體數(shù)據(jù)庫(kù)更新,人體識(shí)別方法經(jīng)歷了3個(gè)階段:第一階段,基于灰度視頻序列的特征提取方法,例如幀差算法、光流算法等;第二階段,基于彩色圖、深度圖以及關(guān)節(jié)點(diǎn)的特征提取方法,例如三通道HOG特征[11]、SIFT[12]、BRISK[13]等;第三階段,基于深度學(xué)習(xí)的特征提取方法,例如文獻(xiàn)[14]提出用3D CNN模型自動(dòng)識(shí)別視頻序列中的人體動(dòng)作。但是,也存在一定不足:一是現(xiàn)有的數(shù)據(jù)庫(kù)動(dòng)作類(lèi)別較少且部分行為數(shù)據(jù)不完整,如MSR Action3D數(shù)據(jù)庫(kù)僅限于游戲動(dòng)作,沒(méi)有與物體交互的行為,CAD數(shù)據(jù)庫(kù)具有多背景特點(diǎn),但視頻樣本數(shù)量有限;二是目前已經(jīng)存在的數(shù)據(jù)庫(kù)多數(shù)都為固定單視角,多視角數(shù)據(jù)能給研究者提供多角度間信息相關(guān)研究,以此判斷視角的優(yōu)劣性問(wèn)題;三是目前采集的數(shù)據(jù)庫(kù)背景都是靜態(tài)的,靜態(tài)視角下人體行為識(shí)別方法在動(dòng)態(tài)視角下出現(xiàn)了不適用性,在機(jī)器人移動(dòng)視角下,無(wú)法驗(yàn)證跟隨機(jī)器人動(dòng)態(tài)識(shí)別人體行為,或者為移動(dòng)機(jī)器人尋找最佳視角。

      在神經(jīng)網(wǎng)絡(luò)和概率圖模型結(jié)合方面,使用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)結(jié)構(gòu)化輸出研究中較為杰出的方法有:Do等[15]提出了神經(jīng)網(wǎng)絡(luò)和馬爾可夫網(wǎng)絡(luò)進(jìn)行組合,對(duì)序列標(biāo)簽進(jìn)行分類(lèi)識(shí)別;Bell等[16]和Chen[17]使用CRF改進(jìn)從CNN中獲得的分割結(jié)果,前者重點(diǎn)為材料識(shí)別和分割,后者則在語(yǔ)意圖像分割上提出了顯著的改進(jìn)方法;在自然語(yǔ)言處理中,Yao等[18]表明通過(guò)引入CRF模型可以顯著提高基于RNN的字體識(shí)別性能。在此之前所有方法都是利用神經(jīng)網(wǎng)絡(luò)提取特征,再將特征輸入圖模型進(jìn)行訓(xùn)練分類(lèi),而文獻(xiàn)[19]則將卷積網(wǎng)絡(luò)中可變形的部分模型表示為一種MRF,作為神經(jīng)網(wǎng)絡(luò)的一層,將圖模型結(jié)構(gòu)直接變?yōu)樯窠?jīng)網(wǎng)絡(luò)的迭代層。而CRFasRNN的突出貢獻(xiàn)在于將密集CRF作為RNN,形成端到端可訓(xùn)練的圖像分割系統(tǒng)。

      2 動(dòng)態(tài)多視角數(shù)據(jù)庫(kù)建立

      TurtleBot[20]是一款移動(dòng)機(jī)器人,其硬件主要有Yujin Kobuki移動(dòng)底座、Kinect視覺(jué)傳感器、2 200mAh(或?????????? 4 400mAh)電池和可裝卸的結(jié)構(gòu)模塊,使用著名的ROS(Robot Operating System)作為操作系統(tǒng),能實(shí)現(xiàn)3D地圖導(dǎo)航、跟隨等功能。

      在DMV3 Dataset數(shù)據(jù)庫(kù)中,所有動(dòng)作都是在復(fù)雜背景中使用Kinect從兩個(gè)靜態(tài)視角和一個(gè)動(dòng)態(tài)視角進(jìn)行攝制完成的。動(dòng)態(tài)攝像頭由TurtleBot機(jī)器人外接Kinect,從正面到側(cè)面以人為圓心、半徑2.5m的軌道上隨機(jī)進(jìn)行錄制。圖2為攝像機(jī)錄制場(chǎng)景。兩個(gè)靜態(tài)攝像頭的角度為90°,攝像頭1從正面錄制,攝像頭2從側(cè)面錄制。

      數(shù)據(jù)庫(kù)包含3個(gè)不同場(chǎng)景下的30個(gè)不同人體行為。每類(lèi)行為包含20個(gè)動(dòng)作,是一個(gè)多角度、動(dòng)態(tài)視角下交互式人體行為數(shù)據(jù)庫(kù)。人體行為包含三大類(lèi),分別為基本動(dòng)作類(lèi)(10個(gè))、與物體交互類(lèi)(15個(gè))和行為異常類(lèi)(5個(gè))?;緞?dòng)作類(lèi)有單手高舉揮舞、拋出、鼓掌、雙手揮舞、慢跑、坐下起立、原地向上跳、自拍、看手表、坐在地上。與物體交互類(lèi)有讀書(shū)、寫(xiě)字、擦汗、脫外套、穿/脫鞋子、戴/摘眼鏡、踢箱子、從口袋里拿東西、打電話、喝水、吃零食、在黑板上寫(xiě)字、使用電腦、搬箱子、搬椅子。行為異常類(lèi)包含摔倒、躺在地上、摔杯子、從椅子上跌落、肚子疼。DMV Action3D數(shù)據(jù)庫(kù)包含彩色圖、深度圖、關(guān)節(jié)點(diǎn)位置和時(shí)間等信息,既保證了多視角、多背景、多樣本和多交互行為,還增加了一個(gè)動(dòng)態(tài)視角,為實(shí)驗(yàn)者分析視角和尋找最佳角度提供了可供驗(yàn)證的數(shù)據(jù)庫(kù)。

      3 CRFasRNN人像提取

      人體行為識(shí)別研究重點(diǎn)在于如何提取視頻序列中的人體特征。人體特征值是指可以描述人體運(yùn)動(dòng)信息的特征,一般方法有:提取圖像的顏色、紋理特征、角點(diǎn)或者利用關(guān)節(jié)點(diǎn)狀態(tài)獲取人體運(yùn)動(dòng)的方向、速度等。本文提出使用CRFasRNN方法對(duì)移動(dòng)視頻序列幀中的人體進(jìn)行分割并提取特征。CRFasRNN是一個(gè)端到端的深度學(xué)習(xí)方法,其將神經(jīng)網(wǎng)絡(luò)與概率圖模型的優(yōu)勢(shì)結(jié)合,用于解決像素級(jí)圖像分割問(wèn)題。本文將簡(jiǎn)單介紹用于分割圖像的條件隨機(jī)場(chǎng)圖模型和CRFasRNN方法中用到的公式標(biāo)簽等。

      圖像中每個(gè)像素[i]具有類(lèi)別標(biāo)簽[xi],還有對(duì)應(yīng)的觀測(cè)值[yi],每個(gè)像素點(diǎn)作為圖模型的節(jié)點(diǎn),像素與像素間的關(guān)系作為邊,即構(gòu)成了一個(gè)條件隨機(jī)場(chǎng),通過(guò)觀測(cè)變量[yi]推測(cè)像素[i]對(duì)應(yīng)的類(lèi)別標(biāo)簽[xi]。條件隨機(jī)場(chǎng)滿足吉布斯分布,如式(1)。

      CRF-RNN網(wǎng)絡(luò)使用反向傳播算法[21]和隨機(jī)梯度下降法形成了端到端可訓(xùn)練網(wǎng)絡(luò)。在訓(xùn)練期間,將一張完整的圖片作為輸入,使用損失函數(shù)計(jì)算網(wǎng)絡(luò)中每個(gè)像素輸出的誤差,例如圖4中Softmax函數(shù)表示相對(duì)于真實(shí)圖片分割的誤差。FCN-8s作為網(wǎng)絡(luò)的第一部分,輸出作為CRF的一元?jiǎng)莺瘮?shù),在網(wǎng)絡(luò)的正向傳輸中,通過(guò)CNN階段進(jìn)入CRF-RNN網(wǎng)絡(luò)中后,需要[T]次迭代才可以輸出,Softmax損失函數(shù)隨著CRF-RNN網(wǎng)絡(luò)迭代的結(jié)束而結(jié)束。在反向傳播期間,一旦誤差達(dá)到了CRF-RNN網(wǎng)絡(luò)輸出[Y],則在RNN網(wǎng)絡(luò)輸入[U]到來(lái)之前進(jìn)行[T]次迭代。訓(xùn)練期間,平均場(chǎng)迭代次數(shù)[T]設(shè)置為5,避免了網(wǎng)絡(luò)崩潰,也減少了訓(xùn)練時(shí)間,測(cè)試時(shí)迭代次數(shù)為10。

      4 實(shí)驗(yàn)與分析

      CRFasRNN分割人像不受光照變化和場(chǎng)景變化影響,在機(jī)器震動(dòng)或者人速度較快、圖片幀出現(xiàn)模糊的情況下分割效果依然顯著,人像分割精確,邊緣少有毛刺現(xiàn)象。圖5展示動(dòng)態(tài)機(jī)器視角下復(fù)雜環(huán)境中的30組人體分割效果。

      對(duì)分割好的圖片分別利用Harris3D方法[24]提取特征,3D特征的優(yōu)勢(shì)在于增加了時(shí)間維度,保留了動(dòng)作的運(yùn)動(dòng)趨勢(shì)特征。圖6、圖7分別展示分割前與分割后的角點(diǎn)檢測(cè)對(duì)比,可以看出,經(jīng)過(guò)分割后的圖片去除了大量背景干擾,由于在運(yùn)動(dòng)視角下,人和背景相對(duì)于攝像頭產(chǎn)生的復(fù)雜運(yùn)動(dòng)使得人體運(yùn)動(dòng)檢測(cè)變得困難,利用CRFasRNN進(jìn)行人像提取去除背景后,在移動(dòng)視角下能夠準(zhǔn)確提取人體運(yùn)動(dòng)特征信息。

      最后,利用HMM模型對(duì)獲取的人體邊緣特征進(jìn)行訓(xùn)練分類(lèi),最終得到行為識(shí)別率為94.74%,混淆矩陣如圖8所示。

      5 結(jié)語(yǔ)

      本文提出一種動(dòng)態(tài)機(jī)器視角下的人體姿態(tài)識(shí)別方法,利用CRFasRNN對(duì)移動(dòng)機(jī)器視角下的人像進(jìn)行分割并提取角點(diǎn)信息。實(shí)驗(yàn)證明,在動(dòng)態(tài)視角下CRFasRNN圖像分割方法使人像分割效果突出、邊界清晰,與真實(shí)環(huán)境下的人體輪廓相似度極高,超越了其它圖像分割方法。CRFasRNN對(duì)視頻幀進(jìn)行分割后去除了大量背景環(huán)境干擾,該方法不受環(huán)境、場(chǎng)景、光照因素影響,也不受機(jī)器視角中人數(shù)的影響,可以識(shí)別多人的行為。另外,本文提供了一個(gè)較大規(guī)模的動(dòng)態(tài)視角人體行為識(shí)別數(shù)據(jù)庫(kù)DMV3 Dataset,數(shù)據(jù)庫(kù)場(chǎng)景多變、動(dòng)作復(fù)雜,對(duì)于研究真實(shí)環(huán)境下的人體行為具有顯著優(yōu)勢(shì)和較大使用價(jià)值。

      參考文獻(xiàn):

      [1] LI W,ZHANG Z,LIU Z. Action recognition based on a bag of 3D points[C]. IEEE Computer Society Conference on Computer Vision and Pattern Recognition-Workshops ,2010:9-14.

      [2] WANG J, LIU Z, WU Y, et al. Mining action let ensemble for action recognition with depth cameras[C]. Computer Vision and Pattern Recognition (CVPR), 2012: 1290-1297.

      [3] SUNG J, PONCE C, SELMAN B, et al. Unstructured human activity detection from RGBD images[J]. IEEE International Conference on Robotics & Automation, 2011, 44(8):47-55.

      [4] KOPPULA H S,GUPTA R,SAXENA A. Learning human activities and object affordances from RGB-D videos[J]. International Journal of Robotics Research, 2013, 32(8):951-970.

      [5] CHEN C,JAFARI R,KEHTARNAVAZ N. UTD-MHAD: a multimodal dataset for human action recognition utilizing a depth camera and a wearable inertial sensor[C]. IEEE International Conference on Image Processing, 2015:168-172.

      [6] RAHMANI H,MAHMOOD A,DU H,et al. Histogram of oriented principal components for cross-view action recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2016,38(12):2430-2443.

      [7] SHAHROUDY A, LIU J, NG T T, et al. NTU RGB+D: a large scale dataset for 3D human activity analysis[C]. Computer Vision & Pattern Recognition ,2016:1010-1019.

      [8] ZHENG S,JAYASUMANA S, ROMERA-PAREDES B, et al. Conditional random fields as recurrent neural networks[C]. IEEE International Conference on Computer Vision, 2016:1529-1537.

      [9] YAMADA T,HAYAMIZU Y, YAMAMOTO Y, et al. A stretchable carbon annotate strain sensor for human-motion detection[J]. Nature Nanotechnology, 2011, 6(5):296-301.

      [10] TAO M,BAI J,KOHLI P, et al. Simple flow: a non iterative, sub linear optical flow algorithm[J]. Computer Graphics Forum, 2012, 31(2pt1):345-353.

      [11] LI N, CHENG X, ZHANG S, et al. Realistic human action recognition by fast HOG3D and self-organization feature map[J]. Machine Vision & Applications, 2014, 25(7):1793-1812.

      [12] TOMPSON J, JAIN A, LECUN Y, et al. Joint training of a convolution network and a graphical model for human pose estimation[C]. Eprint Arxiv, 2014:1799-1807.

      [13] LEUTENEGGER S, CHLI M, SIEGWART R Y. BRISK: binary robust invariant scalable key points[J]. International Conference on Computer Vision(ICCV), 2011, 58(11):2548-2555.

      [14] XU W, XU W, YANG M, et al. 3D Convolution neural networks for human action recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2012: 35(1):221-231.

      [15] DO T M T, ARTIERES T. Neural conditional random fields[C]. Thirteenth International Conference on Artificial Intelligence & Statistics, 2010:177-184.

      [16] BELL S,UPCHURCH P,SNAVELY N, et al. Material recognition in the wild with the Materials in context database[C]. IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2015:3479-3487.

      [17] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. Deep lab: semantic image segmentation with deep convolution nets, aurous convolution, and fully connected CRFs[J]. IEEE Trans Pattern Anal Mach Intel, 2016, 40(4):834-848.

      [18] YAO K, PENG B, ZWEIG G, et al. Recurrent conditional random field for language understanding[C]. IEEE International Conference on Acoustics, Speech and Signal Processing, 2014:4077-4081.

      [19] GIRSHICK R R,IANDOLA F,DARRELL T,et al. Deformable part models are convolutional neural networks[C]. Computer Vision and Pattern Recognition, 2015:437-446.

      [20] KNISS J, JIN K, IVANS R, et al. Robotics Research with TurtleBot 2016[D]. Idaho:Boise State University Scholar Works, 2016.

      [21] LéCUN Y,BOTTOU L,BENGIO Y,et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11):2278-2324.

      [22] LONG J,SHELHAMER E,DARRELL T. Fully convolution networks for semantic segmentation[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2015:3431-3440.

      [23] KOLTUN V. Efficient inference in fully connected CRFs with Gaussian edge potentials[C]. International Conference on Neural Information Processing Systems, 2011:109-117.

      [24] SIPIRAN I, BUSTOS B. Harris 3D: a robust extension of the Harris operator for interest point detection on 3D meshes[J]. Visual Computer, 2011, 27(11):963.

      (責(zé)任編輯:何 麗)

      猜你喜歡
      人體動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)
      國(guó)內(nèi)動(dòng)態(tài)
      國(guó)內(nèi)動(dòng)態(tài)
      人體“修補(bǔ)匠”
      國(guó)內(nèi)動(dòng)態(tài)
      人體冷知識(shí)(一)
      排便順暢,人體無(wú)毒一身輕
      神經(jīng)網(wǎng)絡(luò)抑制無(wú)線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      動(dòng)態(tài)
      奇妙的人體止咳點(diǎn)
      特別健康(2018年3期)2018-07-04 00:40:10
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
      康马县| 锦屏县| 乐安县| 星子县| 平乐县| 宁强县| 红桥区| 洛扎县| 乌鲁木齐市| 金秀| 墨江| 保定市| 南投市| 长白| 塔城市| 鹤庆县| 丹巴县| 兴业县| 博湖县| 吴旗县| 保山市| 渝北区| 竹山县| 望江县| 邢台市| 甘德县| 丰顺县| 祁东县| 鹿邑县| 都昌县| 新民市| 荃湾区| 浦县| 永修县| 新安县| 德安县| 扶沟县| 武鸣县| 射阳县| 上林县| 东源县|