• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于深度信息的人體動作識別研究綜述

      2015-02-21 08:10:07陳萬軍張二虎
      西安理工大學學報 2015年3期
      關(guān)鍵詞:關(guān)節(jié)點人體深度

      陳萬軍, 張二虎

      (西安理工大學 印刷包裝與數(shù)字媒體學院,陜西 西安 710048)

      基于深度信息的人體動作識別研究綜述

      陳萬軍, 張二虎

      (西安理工大學 印刷包裝與數(shù)字媒體學院,陜西 西安 710048)

      隨著低成本深度傳感器的發(fā)明,尤其是微軟Kinect的出現(xiàn),高分辨率的深度與視覺(RGB)感知數(shù)據(jù)被廣泛使用,并為解決計算機視覺領(lǐng)域中的基本問題開拓了新的機遇。本文針對基于深度信息的人體動作識別研究,首先提出了一種基于特征和數(shù)據(jù)類型的分類框架,并對最近幾年提出的相關(guān)方法進行了全面回顧。隨后,對文獻中描述的算法進行了性能對比分析,同時對所引用的公共測試數(shù)據(jù)集進行了總結(jié)。最后,筆者對未來的研究方向進行了討論并給出了相關(guān)建議。

      人體動作識別; 深度傳感器; Kinect; 骨架關(guān)節(jié)點; 深度數(shù)據(jù)

      人類具有從視覺信息感知人體動作的非凡能力,能夠定位人、物并跟蹤人體運動,通過分析人與物體的交互來理解人們在做什么甚至推斷其意圖。自動進行人體動作的理解與識別對許多人工智能系統(tǒng)來說是至關(guān)重要的,可廣泛地應(yīng)用于智能視頻監(jiān)控、人機交互、視頻分析與檢索以及機器人等領(lǐng)域中。例如,為了建造一個能智能化地服務(wù)于人類的人機交互系統(tǒng),該系統(tǒng)不僅需要感知人體的運動,而且還要理解人體動作的語義并推斷其意圖。

      基于視覺(RGB)信息的人體動作識別在過去數(shù)十年間取得了很大進展[1-2],許多方法被相繼提出。這些方法包括人體關(guān)鍵姿態(tài)[3]、運動模板[4]、剪影[5]和時-空形狀[6]。最近,時-空興趣點[7]和密集運動軌跡[8]由于其出色的性能而備受人們的關(guān)注。盡管這些方法在相關(guān)標準測試數(shù)據(jù)集上均取得了較好的識別結(jié)果,但是由于人體動作具有高度的靈活性,人體的姿態(tài)、運動、衣著具有顯著的個體差異性,相機視角、相機的運動、光照條件的變化、遮擋、自遮擋并同時包含人-物的交互以及復雜的時-空結(jié)構(gòu)等因素的綜合影響,使得人體動作識別仍極具挑戰(zhàn)性[1]。

      最近,傳感器技術(shù)的進步為我們帶來了低廉的高清晰的深度傳感器,例如微軟公司的Kinect和華碩公司的Xtion PRO LIVE。深度傳感器利用結(jié)構(gòu)光實時地感知世界并形成深度映射(Depth Map)圖像。深度映射圖像中的每個像素記錄著場景的深度值,與普通的RGB圖像中像素所表示的光強度值截然不同。深度傳感器的引入能夠極大地拓展計算機系統(tǒng)感知三維世界并提取低層視覺信息的能力,并在計算機視覺領(lǐng)域中受到越來越廣泛的應(yīng)用[9]。2013年10月,IEEE會刊Cybernetics出版了題為“Computer Vision For RGB-D Sensors: Kinect And Its Applications”的??源龠M深度傳感器在人體動作識別、手勢識別及人體姿態(tài)估計等熱點研究領(lǐng)域的發(fā)展。2014年,國際頂級會議——計算機視覺與模式識別(CVPR 2014)也設(shè)立了有關(guān)深度相機在解決計算機視覺領(lǐng)域問題的專題研討會(Towards solving real-world vision problems with RGB-D cameras)。深度傳感器較傳統(tǒng)RGB相機在人體動作識別方面具有無可比擬的優(yōu)勢,即它不受光照條件的影響,具有顏色與紋理不變性,同時深度信息能極大簡化目標的檢測與分割任務(wù)。因此,近來人們提出了各種基于深度傳感器的人體動作識別方法。本文依據(jù)這些方法所采用的特征和依賴的原始數(shù)據(jù)類型對其進行分類,具體可分為:基于骨架關(guān)節(jié)點的方法、基于深度映射圖像的方法、基于3D點云的方法、RGB圖像與深度信息融合的多模態(tài)方法以及基于深度學習的方法。

      1 分類方法

      1.1 基于骨架關(guān)節(jié)點的方法

      骨架關(guān)節(jié)點是人體的視覺顯著點,其在4D空間中的運動能夠反映動作的語義信息?;陉P(guān)節(jié)點的動作識別研究可追溯至早期Johansson的工作[10]。他們通過實驗表明絕大部分動作可僅根據(jù)關(guān)節(jié)點的位置進行識別。這一觀點被后續(xù)大量的研究者采用并逐漸形成人體動作識別方法的一個重要分支。由于不同時刻的關(guān)節(jié)點具有自然的對應(yīng)性,而在傳統(tǒng)的RGB圖像中很難建立起這種對應(yīng)關(guān)系,因此大多數(shù)基于關(guān)節(jié)點的方法利用它們來顯示建模人體動作的時間動態(tài)特性。目前,人們主要通過2種手段來獲得關(guān)節(jié)點的位置信息:基于運動捕捉系統(tǒng)(Motion Capture system,MoCap)[11]和基于深度映射圖像的關(guān)節(jié)點位置估計[10]。需要指出的是,這2種方法所獲得的關(guān)節(jié)點位置信息的精度存在一定的差異。MoCap方法利用多相機并配以關(guān)節(jié)點標記來進行可靠的關(guān)節(jié)點位置估計,因而具有更低的嵌入噪聲。而后者由于使用單一的深度相機而產(chǎn)生的自遮擋或互遮擋問題,往往使得提取的關(guān)節(jié)點位置信息具有較低的質(zhì)量。另外,MoCap是基于標記點的,只能在特殊的室內(nèi)環(huán)境中使用,且其價格昂貴。早期的基于骨架關(guān)節(jié)點的動作識別方法多基于此[12-13]。隨著2009年Kinect深度相機的問世,使得關(guān)節(jié)點位置的估計與跟蹤只需一架深度相機,其裝置簡單,成本低廉,且具有很強的適用性等優(yōu)點,因而,目前的人體動作識別研究工作更多地集中在基于深度相機的含噪聲的關(guān)節(jié)點數(shù)據(jù)上。下面,筆者首先介紹基于MoCap數(shù)據(jù)的方法,然后重點討論基于深度相機的關(guān)節(jié)點數(shù)據(jù)方法。

      1.1.1 基于MoCap的方法

      利用運動捕捉系統(tǒng)來采集人體關(guān)節(jié)點的運動數(shù)據(jù)需要在特定的場景中進行,并且需要演員穿上特制的帶有發(fā)光標志的衣服。這些發(fā)光標志均位于人體的各個關(guān)節(jié)點上。多個經(jīng)標定后的高精度相機陣列環(huán)繞排列于場景中用以跟蹤并記錄這些標志點的2D圖像,最后經(jīng)由系統(tǒng)精確地重構(gòu)出這些標志點(關(guān)節(jié)點)的3D坐標。為了有效刻畫MoCap數(shù)據(jù)的本質(zhì)特征,Müller等人[12-13]采用關(guān)系運動特征(Relational Motion Features)來描述運動姿態(tài)的關(guān)節(jié)點間的幾何(語義)關(guān)系。關(guān)系運動特征具有全局方向、位置、體型以及姿態(tài)的局部空間變形的不變特性。同時,為了解決與運動模板的時間對齊問題,他們采用動態(tài)時間規(guī)整(Dynamic Temporal Warping,DTW)的模板匹配方法來進行動作識別。雖然該方法對于無噪聲的MoCap數(shù)據(jù)具有很好的擴展性和有效性,但是對于具有高復雜度的人體動作,例如“跳舞”,要定義出具有強判別性和魯棒性的關(guān)節(jié)點間的幾何關(guān)系并非易事。

      即使是同類動作序列,MoCap數(shù)據(jù)也存在很大的時-空差異??臻g上的差異主要來自于動作執(zhí)行過程中對象的位置、角度以及相機視角等的變化,其可以用一個剛體變換矩陣來刻畫;而時間上的非線性差異則主要是由于不同對象的執(zhí)行過程差異,或者是同一對象的2次不同節(jié)奏的執(zhí)行。因此,需要有一個合適的空間表示和時間對齊方法來進行動作的比較?;诖?,文獻[13]提出了一種新的基于距離矩陣的不變特征來表示運動姿態(tài)。該距離矩陣的每個元素定義為任意兩個關(guān)節(jié)點之間的歐式距離。為了克服對象的個體外表差異,在計算距離之前進行了歸一化處理。由于剛體變換具有距離保持不變性,因此,具有相等關(guān)節(jié)點的距離矩陣所描述的動作姿態(tài)相同。從而使得該特征具有魯棒的空間不變性。最后,文中采用動作圖(Action Graph)來描述運動的動態(tài)性,而轉(zhuǎn)移模型通過學習獲得,從而有效地解決了時間差異,即時間對齊問題。

      1.1.2 基于深度相機的關(guān)節(jié)點方法

      深度相機能夠感知距離信息,并通過OpenNI算法[14]來實時估計人體的骨架關(guān)節(jié)點位置。但這些關(guān)節(jié)點數(shù)據(jù)含有較大的噪聲,因此,很難將基于MoCap數(shù)據(jù)的方法直接遷移過來。近來,學術(shù)界提出了不少有效的針對深度相機的關(guān)節(jié)點方法, 主要是采用關(guān)節(jié)的位置及其相對位置關(guān)系來建模人體姿態(tài)。

      1) 關(guān)節(jié)點位置

      基于關(guān)節(jié)點位置的方法多采用詞袋(Bag of Word,BoW)技術(shù)來建模人體運動姿態(tài)。文獻[15]首先用關(guān)節(jié)位置處的時-空描述子來構(gòu)造視覺單詞,每個視覺單詞表示一個具有強判別性的運動姿態(tài)。然后將動作實例用詞典中單詞出現(xiàn)的頻率來表示,從而獲得每個動作的一個視覺單詞直方圖,并作為SVM的輸入來對動作進行分類。Xia等人[16]提出了一種基于關(guān)節(jié)點位置直方圖(Histograms of 3D Joint Locations, HOJ3D))的緊湊人體姿態(tài)表示方法。他們首先采用修正的球坐標系統(tǒng)將3D空間劃分84個特定方向,每個方向作為直方圖的一個bin。然后將關(guān)節(jié)點位置投影到這84個方向bins上構(gòu)成HOJ3D,并采用LDA對特征空間進行降維以獲得更加魯棒的特征表示。隨后,將降維后的特征空間聚類為k個姿態(tài)視覺單詞并進行量化,每個視覺單詞表示動作的一個原型姿態(tài)。最后,采用離散隱馬爾科夫模型來建模視覺單詞的時間進化過程并進行分類。

      2) 關(guān)節(jié)點間的時-空相對位置關(guān)系

      關(guān)節(jié)點間的時-空相對位置關(guān)系能夠提供更豐富的動作姿態(tài)與運動信息。文獻[17-18]提出了一種新的名為EigenJoints的特征,它是姿態(tài)特征fcc、運動特征fcp和偏移特征fci三個子特征的組合。以單幀圖像內(nèi)關(guān)節(jié)點之間的位置差作為靜態(tài)的姿態(tài)特征,而運動特征則由關(guān)節(jié)點在前后相鄰兩幀間的位置差構(gòu)成。偏移特征表示為當前幀與初始幀內(nèi)對應(yīng)關(guān)節(jié)點的位置差,前提是假設(shè)初始姿態(tài)為中立姿態(tài)。然后對這三個通道的特征進行歸一化和PCA降維處理,以獲得低冗余度和低噪聲的EigenJoints描述子。最后采用樸素Bayes最近鄰 (Naive Bayes Nearest Neighbor,NBNN)分類器進行分類。與此類似,文獻[19]同樣是采用NBNN分類器,所不同的是其采用關(guān)節(jié)點位置在一定時間段內(nèi)的偏移作為動作的描述特征,并結(jié)合視覺詞袋模型來進行動作識別。

      3) 低延時(Low Latency)的動作識別

      最近有一些研究者將工作重點轉(zhuǎn)移到處理更具挑戰(zhàn)性的在線動作識別系統(tǒng)或交互式動作識別問題上,即低延時(Low Latency)的動作識別。所謂延時,指的是開始執(zhí)行動作的時間與該動作被正確識別出來的時間之差。該類問題的主要挑戰(zhàn)在于識別精度與低延時之間要有一個合理的權(quán)衡。為此,Ellis 等人[20]提出了一種基于3D關(guān)節(jié)點位置序列的延時感知(Aware)學習方法來漸少動作識別時的延時。他們使用一個具有延時感知的多實例學習算法來訓練一個基于邏輯回歸的分類器用以自動從3D關(guān)節(jié)點數(shù)據(jù)序列中抽取最具強判別性的典型人體姿態(tài)并實時用這些姿態(tài)與模板庫中的人體姿態(tài)進行比對以盡可能早地對動作類別進行判決。文獻[21]提出一種快速、簡單且強有力的運動姿態(tài)(Moving Pose,MP)特征來進行低延時的人體動作識別。MP描述子由關(guān)節(jié)點的位置、速度和加速度信息3個元素構(gòu)成。前者用于描述動作的靜態(tài)姿態(tài)特征,而后兩者對運動的動態(tài)過程進行刻畫。最后采用改進的KNN分類器來進行識別。

      4) 流形學習方法

      上述方法均在歐式空間中進行人體動作識別,然而,新近出現(xiàn)了一些基于非歐式空間的流形學習方法。Devanne 等人[22]提出了一種人體動作的緊湊表示方法,將關(guān)節(jié)點的3D坐標及其隨時間的變化表示為動作空間中的一條軌跡,從而將動作識別歸結(jié)為在Riemannian流形上計算軌跡形狀的相似性,并采用KNN分類器進行動作的分類。該表示能夠同時捕獲人體動作的形狀和動態(tài)性,這些特征對于建模人體動作來說至關(guān)重要。與此類似,文獻[23]采用自回歸移動平均模型(Auto Regressive and Moving Average model,ARMA)來建模人體關(guān)節(jié)點運動軌跡的動態(tài)過程,最終將動作的分類問題轉(zhuǎn)化為ARMA觀測矩陣的比較問題。ARMA觀測矩陣的列向量所張成的子空間為Grassmann流形上的一個點,該點可用局部切叢(Local Tangent Bandle,LTB)來表示。最后將LTB作為SVM分類器的輸入來進行動作識別。

      1.2 基于深度映射圖像的方法

      相對于精簡的骨架關(guān)節(jié)點數(shù)據(jù)而言,深度映射圖像能夠提供更豐富的有關(guān)動作的形狀和運動信息?;谏疃扔成鋱D像的人體動作識別技術(shù)可分為整體方法和局部方法2種。下面分別對其進行介紹。

      1.2.1 整體方法

      整體方法通常使用投影和時-空體這樣的全局特征來建模人體動作姿態(tài)和運動的動態(tài)性。

      1) 投影方法

      投影方法首先將深度映射序列所構(gòu)成的四維時-空體投影到特定平面視圖中,然后提取有意義的描述子來建模人體動作。Yang等人[24]提出了一種稱為深度運動映射(Depth Motion Map,DMM)的方法來捕獲時間聚集的運動能量。具體來說,首先將深度映射圖像投影到前視圖、頂視圖和側(cè)視圖3正交平面上并歸一化。接著,在每個投影視圖下計算前后連續(xù)2幀圖像的差分并閾值化后產(chǎn)生一個二值映射圖像,并將二值映射圖像累積疊加起來以獲得每個投影視圖的DMM。然后,方向梯度直方圖(Histogram of Oriented Gradients, HOG)被應(yīng)用到每個視圖來提取特征,最后將3個視圖的特征串接起來形成DMM-HOG描述子,并用SVM分類器進行識別。同樣,Chen等人[25]提出的TriViews框架也是基于前、頂和側(cè)視圖投影,分別在3個投影視圖中提取軌跡形狀、運動邊界和時-空興趣點特征,并以概率融合方法(Probabilistic Fusion Approach,PFA)[26]來進行多種特征的有效組合,從而形成一種基于3視圖的通用動作識別框架。

      2) 時-空體方法

      與投影方法不同,文獻[27]直接將深度映射序列作為一個時-空四維體,然后以不同位置和尺寸隨機采樣該四維體來獲得子體并計算子體中的占有信息(即落入子體中的像素個數(shù)),以此構(gòu)成一種新的隨機占有模式(Random Occupancy Pattern,ROP)特征,隨后對這些特征進行稀疏編碼,其編碼系數(shù)作為SVM的輸入來進行人體動作識別。與此類似,Vieira等人[28]提出的時-空占有模式(Space-Time Occupancy Pattern, STOP)特征也對子體中的占有信息進行編碼,所不同的是,他們采用相同尺寸的網(wǎng)格來采樣四維體。

      1.2.2 局部方法

      相對于整體方法,基于深度映射圖像序列的局部特征方法首先提取興趣點,然后在興趣點周圍鄰域內(nèi)計算一個局部特征描述子來進行動作識別。較整體方法而言,局部方法對噪聲、視角和遮擋具有更好的魯棒性。由于采集的深度序列圖像中混有噪聲,將RGB圖像中廣泛使用的興趣點檢測子,如Cuboid、3D Hessian和3D Harris角點,簡單地拓展到深度圖像中效果并不理想。近來,出現(xiàn)了一些針對深度數(shù)據(jù)的局部特征描述子。Cheng等人[29]提出一種新的深度信息描述子:比較編碼描述子(Comparative Coding Descriptor),用于刻畫動作體中時-空點的結(jié)構(gòu)關(guān)系。他們首先使用3D Harris角點檢測算法提取時-空興趣點作為顯著點,然后以顯著點為中心構(gòu)造一個3×3×3的Cuboid,在此Cuboid中比較中心點與其它26個點的深度值,將差值按順序進行編碼從而構(gòu)成CCD特征。文獻[30]構(gòu)建了一種局部深度模式(Local Depth Pattern,LDP),用它來描述以特征點為中心的局部鄰域內(nèi)像素的深度值差異。最近,Xia等人[31]提出以DCSF(Depth Cuboid Similarity Feature)作為時-空深度Cuboid的描述子。DCSF主要是基于內(nèi)容的自相似性來描述深度視頻的局部外觀模式,即通過施加共享相同的視覺模式約束來捕獲視頻局部Patch的內(nèi)部幾何分布信息。該方法同樣具有多模態(tài)適應(yīng)性,能夠同時適用于RGB和深度數(shù)據(jù)。

      1.3 基于深度相機3D點云數(shù)據(jù)的方法

      通過深度相機采集的深度映射圖像可以直接轉(zhuǎn)換為3D點云數(shù)據(jù)。利用點云數(shù)據(jù)的動作識別可分為基于局部占有模式和基于曲面法線2種方法。前者主要是以關(guān)節(jié)點為錨點,計算其周圍鄰域內(nèi)點云數(shù)據(jù)的局部占有模式(Local Occupancy Pattern,LOP)特征[32],主要用于描述動作的類內(nèi)變異。而基于法線的方法則在3D點云序列中的每個點的局部時-空體鄰域內(nèi)提取曲面的法線特征來描述動作的幾何和運動信息[33-35]。目前,這方面的研究相對較新穎,相關(guān)的文獻也較少。

      1.3.1 局部占有模式

      人與周圍物體和環(huán)境的交互時有發(fā)生,使得采集的深度圖像有可能產(chǎn)生嚴重的遮擋,最終導致跟蹤的關(guān)節(jié)點精度急劇下降甚至完全錯誤,從而增加了動作的類內(nèi)可變性。為此,文獻[32]提出了一種新的LOP特征。它以關(guān)節(jié)點周圍區(qū)域點云數(shù)據(jù)為基礎(chǔ),首先將該局部空間劃分為一定大小的網(wǎng)格,然后計算每個網(wǎng)格內(nèi)的占有信息,并通過Sigmoid函數(shù)歸一化后構(gòu)成LOP特征向量。除此之外,他們還將關(guān)節(jié)點特征與LOP特征串接起來進行短時傅立葉變換,并將其系數(shù)作為每個關(guān)節(jié)點的傅里葉時間金字塔特征。這樣生成的特征無需嚴格的時間對齊,并對噪聲具有很好的魯棒性。為了獲得對每個動作有判別性的關(guān)節(jié)點組合,即Actionlet,他們引入了基于先驗的數(shù)據(jù)挖掘方法并通過多核學習算法來獲得該動作的Actionlet集成模型。

      1.3.2 曲面法線

      與基于局部占有模式的方法不同,Oreifej等人[34]采用直方圖來捕獲點云序列所構(gòu)成的4D曲面法線的方向分布(Histogram of Oriented 4D surface Normals, HON4D)。為了構(gòu)建HON4D,首先將點云序列看作一個由時間、深度和空間坐標構(gòu)成的4D空間,并用600個單元、120個頂點的四維體對該4D空間進行初始量化,每個頂點稱為一個投影子(Projector)。接著以差分的方式計算該4D空間的曲面法線方向并投影到這120個投影子上。由于計算HON4D描述子需要在整個視頻序列上進行,不能夠進行實時動作識別,且該方法首先需要對動作進行時-空對齊,因此具有一定的局限性。與HON4D特征類似,最近,Yang等人[35]則通過聚類點云序列中每個點鄰域內(nèi)的4D法線形成新的超級法向量描述子(Super Normal Vector, SNV)來擴展HON4D,它能夠同時捕獲局部運動和幾何信息,因此具有更強的描述能力。文獻[33]提出了一種新的點云數(shù)據(jù)描述子:方向主成分直方圖(Histogram of Oriented Principal Components,HOPC)。該方法以3D點云序列中的每個點P為中心,計算落入半徑為r的球體內(nèi)所有點的散布矩陣(Scatter Matrix)的3個特征向量,即3個主成分向量,并將它們投影到以正20面體的每個頂點向量所確定的方向上。最后將投影分量串接起來,構(gòu)成一個大小為60維的描述向量作為該點的HOPC描述子,用于從局部幾何形狀上來刻畫動作。該方法本質(zhì)上仍然是對以3D點云所確立的曲面法線進行方向直方圖編碼,因為局部曲面的最小主成分是該曲面法線的最小二乘估計。因此,較基于差分的方法[34-35],HOPC對噪聲具有更好的魯棒性。

      1.4 RGB圖像與深度信息融合的多模態(tài)(Multi-Modal)方法

      微軟Kinect相機的輸出是一個多模態(tài)信號,它能夠同時提供RGB視頻、深度映射圖像序列以及骨架關(guān)節(jié)點信息,從而有效克服了由于傳統(tǒng)的RGB相機將3D物理世界投影到2D圖像平面而失去深度信息并導致物體間的空間位置關(guān)系丟失、運動目標檢測與上下環(huán)境建模的精度顯著下降的問題。同時,不同模態(tài)下的特征彼此相互獨立但又具有很強的互補性。為了獲得更好的識別性能,目前一些研究工作將多模態(tài)下的特征進行有效融合并設(shè)計出了具有高判別性的描述向量,即同時利用深度、骨架與視覺信息來改進識別結(jié)果。其融合方式可分為特征層和決策層2種融合模式。

      1.4.1 特征層融合

      特征層融合又稱為早期融合,是一種較簡單、直接的融合方法,即將不同模態(tài)下提取的特征向量組合起來以形成一個更具描述力的向量。文獻[36]提出了一種將深度數(shù)據(jù)的骨架特征與RGB圖像中提取的基于剪影的特征進行直接串接融合的方法。骨架特征按文獻[37]所描述的方法進行了歸一化,使其具有尺度與旋轉(zhuǎn)不變性;而基于剪影的特征則通過徑向提取剪影的輪廓點來生成[38]。該融合方法能夠同時保留由兩種模態(tài)下的特征所提供的特性信息,融合后的特征仍然是一個相對低維的向量,適合實時識別。Shahroudy等人[39]提出了一種無監(jiān)督的結(jié)構(gòu)化稀疏特征融合方法。他們分別提取了RGB通道中的密集軌跡特征與深度通道中的骨架數(shù)據(jù),然后對這些特征進行加權(quán)組合,權(quán)重為無監(jiān)督的結(jié)構(gòu)化稀疏表示系數(shù)。該方法有效避免了由于不同模態(tài)下的特征直接進行組合時有可能降低其判別性能的問題。

      1.4.2 決策層融合

      不同于特征層的融合,決策層的融合又稱為后期融合,主要是將針對各模態(tài)特征分別設(shè)計的分類器輸出結(jié)果進行組合以作最終的判決。文獻[40]分別從RGB圖像中提取3D Harris角點、時-空梯度自相關(guān)特征[41]和從深度數(shù)據(jù)中提取EigenJoints[17-18]、 HON4D[34]特征進行決策層的融合,并詳細討論了5種不同的決策層融合方法對識別性能的影響,具體流程如圖1所示。

      1.5 基于深度學習(Deep Learning)的方法

      深度學習是一種無監(jiān)督的學習方法,相對于人工設(shè)計的特征,它能夠從大量訓練樣本數(shù)據(jù)中自主學習到具有強判別力和表示能力的特征。隨著深度學習在語音識別、自然語言處理以及計算機視覺領(lǐng)域的成功應(yīng)用,人體動作識別研究領(lǐng)域也相繼出現(xiàn)了一些基于該技術(shù)的方法。

      Cho Kyunghyun等人[42]提出了一種基于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)的人體動作識別方法。他們首先從每幀中抽取以下特征:關(guān)節(jié)點的相對位置、時間差分和歸一化的運動軌跡,然后基于這些特征來訓練一個多層感知機(Multi Layer Perceptron,MLP)并用于對輸入數(shù)據(jù)進行重構(gòu)和分類。

      最近,Wang等人[43]設(shè)計了一種多層深度運動映射的CNN架構(gòu)來進行人體動作識別。首先,為了有效提取與視角無關(guān)的人體形狀與運動信息,他們對原始3D點云數(shù)據(jù)進行了旋轉(zhuǎn)并投影到前視圖、頂視圖和側(cè)視圖3正交平面視圖中,然后對每個視圖在不同時間尺度上生成多層深度運動映射圖(Hierarchical Depth Motion Maps,HDMM)并輸入到CNN網(wǎng)絡(luò)中進行特征提取,最后對3個視圖通道的識別結(jié)果進行決策層的融合。

      1.6 對各方法的總結(jié)

      在此節(jié)中,筆者對綜述文獻分別從文獻所屬的分類類別、發(fā)表的時間、文中所使用的特征及對特征的表示方法、所采用的分類器和實驗中用到的測試數(shù)據(jù)集5個指標進行了總結(jié),如表1所示。

      各種方法所采用的數(shù)據(jù)集和驗證策略差別很大,因此很難采用一個統(tǒng)一標準來對它們的性能優(yōu)劣做出一個客觀、真實的評價。由于MSR Action3D[15]數(shù)據(jù)集是最早建立的、使用最廣泛的基于深度相機的公用測試集,大多數(shù)方法都將其作為性能評價的一個基準。但盡管這樣,仍然有許多方法在測試樣本與訓練樣本的劃分方式和數(shù)量上存在很大差異。

      因此,筆者以MSR Action3D數(shù)據(jù)集為討論基礎(chǔ),采用跨目標(Cross-subject)和交叉(Cross-validation)驗證兩種驗證方式以從不同角度來全面匯總和比較各種算法的性能差異。

      首先對MSR Action3D數(shù)據(jù)集做一個簡單介紹。MSR Action3D數(shù)據(jù)集包含20個類別的動作數(shù)據(jù),由10個演員執(zhí)行,每類動作每個演員執(zhí)行2~3次,總共構(gòu)成567個樣本序列。該數(shù)據(jù)集的其他描述信息見表2。為了減少測試時的計算復雜度,數(shù)據(jù)集依據(jù)動作的復雜程度被再次劃分為3個子集:AS1,AS2和AS3。其中子集AS1和AS2中包含的動作復雜度相對較低,但每個子集內(nèi)的動作相似度較高。子集AS3中的動作復雜度最高。每個子集具體包含的動作類別如表3所示。

      1.6.1 跨目標驗證(Cross-subject test)

      跨目標測試的思想是:訓練樣本與測試樣本分別來自不同演員執(zhí)行的動作序列。即使是同類型的動作,由于個體在執(zhí)行時的差異性,往往使得采集的樣本具有較大的類內(nèi)方差。該類驗證機制可以有效評估算法的泛化性能和魯棒性。在此數(shù)據(jù)集上,有9篇文獻采用以下策略來進行測試:對于每個子集中的樣本數(shù)據(jù),由1、3、5、7、9號演員執(zhí)行動作所采集的樣本作為訓練數(shù)據(jù),剩余樣本作為測試數(shù)據(jù)。按照方法、時間、每類子集上的識別率(%)、平均識別率(%)和在整個數(shù)據(jù)集上的識別率(%)進行匯總與比較,具體內(nèi)容如表4所示。另外,有3篇文獻采用1~5號演員執(zhí)行動作所采集的樣本作為訓練數(shù)據(jù),剩余樣本作為測試數(shù)據(jù)。其識別率如表5所示。

      說明:1、3、5、7、9號演員作為訓練樣本,其余作為測試樣本。

      說明:1~5號演員作為訓練樣本,其余作為測試樣本。

      1.6.2 交叉驗證(Cross-validation)

      交叉驗證是用來驗證分類器性能的一種常用統(tǒng)計分析方法,基本思想是按照一定的劃分方式將原始數(shù)據(jù)集進行分組,一部分作為訓練集,另一部分作為驗證集。首先用訓練集對分類器進行訓練,再利用驗證集來測試訓練得到的模型,以此來作為評價分類器的性能指標。根據(jù)其劃分方式不同可分為:2-折交叉驗證(2-fold cross-validation)和留一法交叉驗證(Leave-One-Out cross-validation)等。前者隨機將原始數(shù)據(jù)均分為2組,將每組分別做一次驗證子集和訓練子集,這樣會得到2個模型,用在2個模型最終的驗證子集的分類精度的平均值作為分類器的性能指標。文獻[37]便采用此種驗證方式,其識別性能如表6所示。

      而對于留一法交叉驗證,其基本思路是:假設(shè)原始數(shù)據(jù)有N個樣本,每個樣本單獨作為驗證集,其余的N-1個樣本作為訓練集,這樣會得到N個模型,用這N個模型最終的驗證集的分類準確率的平均數(shù)作為分類器的性能指標。留一法評估結(jié)果的客觀度和準確性較前面幾種驗證方法均要高,但計算量也是該方法的致命弱點。文獻[36]采用此種驗證方法,其結(jié)果如表6所示。

      2 公用測試數(shù)據(jù)集

      人體動作識別技術(shù)的巨大進步得益于各種公用標準測試數(shù)據(jù)集的建立。筆者對綜述文獻中引用的14個數(shù)據(jù)集從建立的時間、所包含的動作類別數(shù)、樣本數(shù)和特性等角度進行了總結(jié),如表2所示。這些數(shù)據(jù)集中的絕大多數(shù)均采用微軟的Kinect相機作為采集工具,它們?yōu)楦鞣N動作識別算法的性能分析搭建了一個公平的環(huán)境,并將繼續(xù)推動和促進相關(guān)研究工作的進一步發(fā)展。

      3 未來的研究方向

      低成本的深度傳感器為人體動作識別的研究提供了極好的發(fā)展機會,在過去的幾年中,基于深度相機的人體動作識別研究雖然取得了巨大的進步,但仍然存在許多挑戰(zhàn)亟待解決。在未來的研究工作中,一方面要從深度和骨架數(shù)據(jù)中設(shè)計更具判別力和緊致的特征向量來描述人體動作,另一方面是拓展當前已有的方法來應(yīng)對更加復雜的人體動作,如交互和群體活動等,具體來說,將涉及到以下4個方面的問題。

      1) 交互動作與群體活動識別

      理解與解釋人-人、人-物之間的交互動作/活動的語義信息在諸如機器人和人-機交互等領(lǐng)域中有著廣泛而實際的應(yīng)用。交互動作中必然會產(chǎn)生身體部分被遮擋、人與物間的相互遮擋和復雜背景問題,從而使得各種動作描述方法的刻畫、判別能力顯著下降。目前的動作識別方法主要聚焦在手勢與簡單的動作識別上,僅有少數(shù)工作針對較為復雜的人-人或人-物交互動作的識別。在這方面仍需要深入的研究來取得更好的處理能力以滿足實際應(yīng)用的需要。另外,在包括多個人體目標的群體活動識別方面,目前還沒有相關(guān)的研究工作,其中一個主要原因是當前的低成本深度傳感器還不具備捕獲大范圍場景數(shù)據(jù)的能力。

      2) 多視角與跨視角動作識別

      視角變化問題,無論是在傳統(tǒng)的RGB圖像中,還是在深度數(shù)據(jù)中,對于動作識別來說始終是一個大的挑戰(zhàn)。在現(xiàn)實世界的動作識別系統(tǒng)中,視頻序列往往是以任意相機視點捕獲;因此,系統(tǒng)性能必須具備視角不變性。然而,目前的大多數(shù)算法仍然是基于有約束的視角,如要求演員正對著相機執(zhí)行動作。此外,當前被廣泛使用的標準測試數(shù)據(jù)集絕大部分也是在單一視角下拍攝的。由于視角的隨意性、動作的多變性以及訓練樣本的有限性,實際應(yīng)用中更一般的情況是在某一視角下的特征仍然適用于其它視角下的識別任務(wù),即交叉視角下的動作識別問題。因此,未來需要更復雜的視角不變算法來應(yīng)對這些問題。而從深度相機捕獲的點云數(shù)據(jù)中設(shè)計與提取視角不變特征將是一種行之有效的方法。

      3) 低延時動作識別

      目前的人體動作識別方法在追求高識別率的同時其算法的復雜度也隨之增加,即具有高的計算延時性。而作為動作識別的一個重要應(yīng)用領(lǐng)域,人-機交互對算法的實時性要求非常高,甚至在一個動作還沒有完全執(zhí)行完整時就能準確判斷或預測動作所傳達的語義信息,稱之為低觀測延時性。因此,設(shè)計與開發(fā)具有低延時性的動作識別算法是朝著未來實用型人-機交互系統(tǒng)邁出的關(guān)鍵一步。

      4) 多模態(tài)特征與融合技術(shù)

      不同模態(tài)下的人體動作數(shù)據(jù)具有各自的特性,同時擁有很強的描述互補性,能夠進一步提高動作識別系統(tǒng)的性能,這一點已經(jīng)在目前一些基于多模態(tài)特征融合的方法中得到了強有力的證實。充分利用和挖掘深度傳感器所提供的多模態(tài)數(shù)據(jù)并進行強有效的融合仍然是未來設(shè)計高精度人體動作識別系統(tǒng)的一個行之有效的途徑。當前,仍然沒有一種具有絕對優(yōu)勢的特征描述算法來進行有效的人體動作識別,能否將不同模態(tài)下的各種動作識別方法統(tǒng)一在一個框架下進行,即設(shè)計出具有適用于不同模態(tài)數(shù)據(jù)的自適應(yīng)特征檢測與描述算法將是另一個新的起點。

      總之,人體動作識別系統(tǒng)不僅需要從視覺信號中提取低層的外觀及運動信息,而且還需要復雜的機器學習模型來理解這些信息的語義含義。為此,需要綜合利用多方面的知識,包括采用兼具視覺與深度信息的多模態(tài)傳感器來精確地獲得視覺信號,能有效描述高維視覺數(shù)據(jù)的視頻或圖像表示方法,發(fā)掘有意義知識的模式挖掘技術(shù)以及能夠從大數(shù)據(jù)中進行自主學習的機器學習算法。

      4 結(jié) 語

      深度傳感器的發(fā)展,尤其是微軟Kinect相機的出現(xiàn),為人體動作識別提供了新的機遇。越來越多的方法采用深度數(shù)據(jù)來進行人體動作識別。本文對最近幾年中基于深度數(shù)據(jù)的人體動作識別算法進行了較全面的綜述。并對相關(guān)的標準測試數(shù)據(jù)集進行了較詳細的描述。最后給出了未來的研究方向。

      [1]Ramanathan M, Yau Wei-Yun, Teoh Eam Khwang. Human action recognition with video data: research and evaluation challenges[J]. Human-Machine Systems, IEEE Transactions on, 2014, 44(5): 650-663.

      [2]Weinland Daniel, Ronfard Remi, Boyer Edmond. A survey of vision-based methods for action representation, segmentation and recognition[J]. Computer Vision and Image Understanding, 2011, 115(2): 224-241.

      [3]Weinland D, Boyer E. Action recognition using exemplar-based embedding[C]//Computer Vision and Pattern Recognition, 2008. CVPR 2008. IEEE Conference on, 2008:1-7.

      [4]Bobick A F, Davis J W. The recognition of human movement using temporal templates[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2001, 23(3): 257-267.

      [5]Guo K, Ishwar P, Konrad J. Action recognition in video by sparse representation on covariance manifolds of silhouette tunnels[C]//Recognizing patterns in signals, speech, images, and videos, 2010: 294-305.

      [6]Gorelick L, Blank M, Shechtman E, et al. Actions as space-time shapes[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2007, 29(12): 2247-2253.

      [7]Klaser Alexander, Marszalek Marcin. A spatio-temporal descriptor based on 3d-gradients[C]. British Mach. Vision Conf., 2008.

      [8]Wang Heng, A Klaser, C Schmid, et al. Action recognition by dense trajectories[C]//Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on, 2011: 3169-3176.

      [9]Han Jungong, Shao Ling, Xu Dong, et al. Enhanced computer vision with microsoft kinect sensor: A review[J]. Cybernetics, IEEE Transactions on, 2013, 43(5): 1318-1334.

      [10]Johansson Gunnar. Visual motion perception[J]. Scientific American, 1975, 232(6): 76-88.

      [11]Cmu: Carnegie-mellon mocap database[EB/OL].[2014-12-21]. http://mocap.cs.cmu.edu/, 2003.

      [12]Müller Meinard, R?der Tido, Clausen Michael. Efficient content-based retrieval of motion capture data[C]//ACM Transactions on Graphics (TOG), 2005: 677-685.

      [13]Vieira A W, Lewiner T, Schwartz W R, et al. Distance matrices as invariant features for classifying mocap data[C]//Pattern Recognition (ICPR), 2012 21st International Conference on, 2012: 2934-2937.

      [14]Shotton J, Fitzgibbon A, Cook M, et al. Real-time human pose recognition in parts from single depth images[C]//Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on, 2011: 1297-1304.

      [15]Li Wanqing, Zhang Zhengyou, Liu Zicheng. Action recognition based on a bag of 3d points[C]//Computer Vision and Pattern Recognition Workshops (CVPRW), 2010 IEEE Computer Society Conference on, 2010: 9-14.

      [16]Xia Lu, Chen Chia-Chih, Aggarwal J K. View invariant human action recognition using histograms of 3d joints[C]//Computer Vision and Pattern Recognition Workshops (CVPRW), 2012 IEEE Computer Society Conference on, 2012: 20-27.

      [17]Yang Xiaodong, Tian Yingli. Eigenjoints-based action recognition using naive-bayes-nearest-neighbor[C]//Computer Vision and Pattern Recognition Workshops (CVPRW), 2012 IEEE Computer Society Conference on, 2012: 14-19.

      [18]Yang Xiaodong, Tian Yingli. Effective 3d action recognition using eigenjoints[J]. Journal of Visual Communication and Image Representation, 2014, 25(1): 2-11.

      [19]Lu Guoliang, Zhou Yiqi, Li Xueyong, et al. Efficient action recognition via local position offset of 3d skeletal body joints[J]. Multimedia Tools and Applications, 2015: 1-16(DOI: 10.1007/s11042-015-2448-1).

      [20]Ellis Chris, Masood SyedZain, Tappen MarshallF, et al. Exploring the trade-off between accuracy and observational latency in action recognition[J]. International Journal of Computer Vision, 2013, 101(3): 420-436.

      [21]Zanfir M, Leordeanu M, Sminchisescu C. The moving pose: An efficient 3d kinematics descriptor for low-latency action recognition and detection[C]//Computer Vision (ICCV), 2013 IEEE International Conference on, 2013: 2752-2759.

      [22]Devanne M, Wannous H, Berretti S, et al. 3-d human action recognition by shape analysis of motion trajectories on riemannian manifold[J]. Cybernetics, IEEE Transactions on, 2014, PP(99): 1-1.

      [23]Slama Rim, Wannous Hazem, Daoudi Mohamed, et al. Accurate 3d action recognition using learning on the grassmann manifold[J]. Pattern Recognition, 2015, 48(2): 556-567.

      [24]Yang Xiaodong, Zhang Chenyang, Tian Yingli. Recognizing actions using depth motion maps-based histograms of oriented gradients[C]//Proceedings of the 20th ACM international conference on Multimedia, 2012: 1057-1060.

      [25]Chen Wenbin, Guo Guodong. Triviews: A general framework to use 3d depth data effectively for action recognition[J]. Journal of Visual Communication and Image Representation, 2015, 26: 182-191.

      [26]Guo Guodong, Fu Yun, Dyer Charles R, et al. A probabilistic fusion approach to human age prediction[C]//Computer Vision and Pattern Recognition Workshops, 2008. CVPRW'08. IEEE Computer Society Conference on, 2008: 1-6.

      [27]Wang Jiang, Liu Zicheng, Chorowski Jan, et al. Robust 3d action recognition with random occupancy patterns[C]//Computer vision-eccv 2012, Springer Berlin Heidelberg, 2012: 872-885.

      [28]Vieira Antonio W, Nascimento Erickson R, Oliveira Gabriel L, et al. Stop: Space-time occupancy patterns for 3d action recognition from depth map sequences.[C]//Progress in pattern recognition, image analysis, computer vision, and applications, Springer Berlin Heidelberg, 2012: 252-259.

      [29]Cheng Zhongwei, Qin Lei, Ye Yituo, et al. Human daily action analysis with multi-view and color-depth data[C]//Computer Vision-ECCV 2012. Workshops and Demonstrations, 2012: 52-61.

      [30]Zhao Yang, Liu Zicheng, Yang Lu, et al. Combing rgb and depth map features for human activity recognition[C]//Signal & Information Processing Association Annual Summit and Conference (APSIPA ASC), 2012 Asia-Pacific, 2012: 1-4.

      [31]Lu Xia, Aggarwal J K. Spatio-temporal depth cuboid similarity feature for activity recognition using depth camera[C]//Computer Vision and Pattern Recognition (CVPR), 2013 IEEE Conference on, 2013: 2834-2841.

      [32]Wang Jiang, Liu Zicheng, Wu Ying, et al. Mining actionlet ensemble for action recognition with depth cameras[C]//Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on, 2012: 1290-1297.

      [33]Rahmani Hossein, Mahmood Arif, Huynh Du Q, et al. Hopc: Histogram of oriented principal components of 3d pointclouds for action recognition[C]//Computer vision-eccv 2014, Springer, 2014: 742-757.

      [34]Oreifej Omar, Liu Zicheng. Hon4d: Histogram of oriented 4d normals for activity recognition from depth sequences[C]//Computer Vision and Pattern Recognition (CVPR), 2013 IEEE Conference on, 2013: 716-723.

      [35]Yang Xiaodong, Tian Yingli. Super normal vector for activity recognition using depth sequences[C]//Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on, 2014: 804-811.

      [36]Chaaraoui Alexandros Andre, Padilla-López José Ramón, Flórez-Revuelta Francisco. Fusion of skeletal and silhouette-based features for human action recognition with rgb-d devices[C]//Computer Vision Workshops (ICCVW), 2013 IEEE International Conference on, 2013: 91-97.

      [37]Chaaraoui Alexandros Andre, Padilla-López José Ramón, Climent-Pérez Pau, et al. Evolutionary joint selection to improve human action recognition with rgb-d devices[J]. Expert Systems with Applications, 2014, 41(3): 786-794.

      [38]Chaaraoui Alexandros Andre, Flórez-Revuelta Francisco. Human action recognition optimization based on evolutionary feature subset selection[C]//Proceedings of the 15th annual conference on Genetic and evolutionary computation, 2013: 1229-1236.

      [39]Shahroudy Amir, Wang Gang, Ng Tian-Tsong. Multi-modal feature fusion for action recognition in rgb-d sequences[C]//Communications, Control and Signal Processing (ISCCSP), 2014 6th International Symposium on, 2014: 1-4.

      [40]Zhu Yu, Chen Wenbin, Guo Guodong. Fusing multiple features for depth-based action recognition[J]. ACM Trans. Intell. Syst. Technol., 2015, 6(2): 1-20.

      [41]Kobayashi Takumi, Otsu Nobuyuki. Motion recognition using local auto-correlation of space-time gradients[J]. Pattern Recognition Letters, 2012, 33(9): 1188-1195.

      [42]Cho Kyunghyun, Chen Xi. Classifying and visualizing motion capture sequences using deep neural networks[J]. arXiv preprint arXiv:1306.3874, 2013.

      [43]Wang Pichao, Li Wanqing, Gao Zhimin, et al. Deep convolutional neural networks for action recognition using depth map sequences[J]. arXiv preprint arXiv:1501.04686, 2015.

      [44]Müller Meinard, Baak Andreas, Seidel Hans-Peter. Efficient and robust annotation of motion capture data[C]//Proceedings of the 2009 ACM SIGGRAPH/Eurographics Symposium on Computer Animation, 2009: 17-26.

      [45]Müller Meinard, R?der Tido, Clausen Michael, et al. Documentation mocap database hdm05[R].Technical report, No. CG-2007-2, Universit?t Bonn, June 2007.

      [46]Fothergill Simon, Mentis Helena, Kohli Pushmeet, et al. Instructing people for training gestural interactive systems[C]//Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, 2012: 1737-1746.

      [47]Seidenari Lorenzo, Varano Vincenzo, Berretti Stefano, et al. Recognizing actions from depth cameras as weakly aligned multi-part bag-of-poses[C]//Computer Vision and Pattern Recognition Workshops (CVPRW), 2013 IEEE Conference on, 2013: 479-485.

      [48]Kurakin Alexey, Zhang Zhengyou, Liu Zicheng. A real time system for dynamic hand gesture recognition with a depth sensor[C]//Signal Processing Conference (EUSIPCO), 2012 Proceedings of the 20th European, 2012: 1975-1979.

      [49]Ni Bingbing, Wang Gang, Moulin Pierre. Rgbd-hudaact: A color-depth video database for human daily activity recognition[C]//2011 IEEE International Conference on Computer Vision Workshops (ICCV Workshops), 2011: 1147-1153.

      [50]Jaeyong Sung, Ponce C, Selman B, et al. Unstructured human activity detection from rgbd images[C]//Robotics and Automation (ICRA), 2012 IEEE International Conference on, 2012: 842-849.

      [51]Ellis Chris, Masood Syed Zain, Tappen Marshall F, et al. Exploring the trade-off between accuracy and observational latency in action recognition[J]. International Journal of Computer Vision, 2013, 101(3): 420-436.

      (責任編輯 王衛(wèi)勛)

      A review for human action recognition based on depth data

      CHEN Wanjun, ZHANG Erhu

      (Faculty of Printing,Packaging Engineering and Digital Media Technology,Xi’an University of Technology,Xi’an 710048,China)

      With the invention of the low-cost depth sensors, especially the emergence of Microsoft Kinect, high-resolution depth and visual (RGB) sensing data has become available for widespread use, which opens up new opportunities to solve fundamental problems in computer vision community. This paper presents a comprehensive review of recent depth-based human action recognition algorithms. Firstly, we develop a taxonomic framework according to features and original data type. Following our taxonomy, recent published research on the use of depth data for recognizing human action is reviewed. Then, the publicly available datasets cited in their work are listed. Finally, the authors discuss and suggest future research directions.

      human action recognition; depth sensors; Kinect; skeleton joints; depth data

      1006-4710(2015)03-0253-12

      2015-03-12

      國家自然科學基金資助項目(61073092 )。

      陳萬軍,男,博士生,研究方向為計算機視覺和模式識別。E-mail: wjchen@xaut.edu.cn。

      張二虎,男,教授,博導,研究方向為圖像處理、模式識別與智能信息處理。E-mail: eh-zhang@xaut.edu.cn。

      TP391

      A

      猜你喜歡
      關(guān)節(jié)點人體深度
      人體“修補匠”
      人體冷知識(一)
      排便順暢,人體無毒一身輕
      基于深度學習和視覺檢測的地鐵違規(guī)行為預警系統(tǒng)研究與應(yīng)用
      關(guān)節(jié)點連接歷史圖與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的雙人交互動作識別
      深度理解一元一次方程
      深度觀察
      深度觀察
      深度觀察
      奇妙的人體止咳點
      特別健康(2018年3期)2018-07-04 00:40:10
      上林县| 嘉义县| 上蔡县| 东宁县| 保定市| 项城市| 桐柏县| 安康市| 淅川县| 资源县| 通许县| 松原市| 肇东市| 筠连县| 达尔| 溆浦县| 邛崃市| 昭通市| 汕头市| 安多县| 康定县| 兰西县| 临西县| 高青县| 太保市| 武平县| 特克斯县| 德阳市| 开平市| 武安市| 泌阳县| 万年县| 凤翔县| 新龙县| 淮安市| 横峰县| 沁水县| 长宁县| 搜索| 孝昌县| 新密市|