• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      人的視覺行為識(shí)別研究回顧、現(xiàn)狀及展望

      2016-04-28 08:55:02單言虎黃凱奇
      關(guān)鍵詞:計(jì)算機(jī)視覺綜述

      單言虎 張 彰 黃凱奇

      (模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室(中國(guó)科學(xué)院自動(dòng)化研究所) 北京 100080)

      (yanhu.shan@nlpr.ia.ac.cn)

      ?

      人的視覺行為識(shí)別研究回顧、現(xiàn)狀及展望

      單言虎張彰黃凱奇

      (模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室(中國(guó)科學(xué)院自動(dòng)化研究所)北京100080)

      (yanhu.shan@nlpr.ia.ac.cn)

      Visual Human Action Recognition: History, Status and Prospects

      Shan Yanhu, Zhang Zhang, and Huang Kaiqi

      (NationalLaboratoryofPatternRecognition(InstituteofAutomation,ChineseAcademyofSciences),Beijing100080)

      AbstractHuman action recognition is an important issue in the field of computer vision. Compared with object recognition in still images, human action recognition has more concerns on the spatio-temporal motion changes of interesting objects in image sequences. The extension of 2D image to 3D spatio-temporal image sequence increases the complexity of action recognition greatly, Meanwhile, it also provides a wide space for various attempts on different solutions and techniques on human action recognition. Recently, many new algorithms and systems on human action recognition have emerged, which indicates that it has become one of the hottest topics in computer vision. In this paper, we propose a taxonomy of human action recognition in chronological order to classify action recognition methods into different periods and put forward general summaries of them. Compared with other surveys, the proposed taxonomy introduces human action recognition methods and summarizes their characteristics by analyzing the action dataset evolution and responding recognition methods. Furthermore, the introduction of action recognition datasets coincides with the trend of big data-driven research idea. Through the summarization on related work, we also give some prospects on future work.

      Key wordscomputer vision; action recognition; spatio-temporal motion; dataset evolution; survey

      摘要人的行為識(shí)別是計(jì)算機(jī)視覺領(lǐng)域中的重點(diǎn)研究問題之一.相對(duì)于靜態(tài)圖像中物體識(shí)別研究,行為識(shí)別更加關(guān)注如何感知感興趣目標(biāo)在圖像序列中的時(shí)空運(yùn)動(dòng)變化.視覺行為的存在方式從二維空間到三維時(shí)空的擴(kuò)展大大增加了行為表達(dá)及后續(xù)識(shí)別任務(wù)的復(fù)雜性,同時(shí)也為視覺研究者提供了更廣闊的空間以嘗試不同的解決思路和技術(shù)方法.近年來,人的行為識(shí)別相關(guān)工作層出不窮,已成為計(jì)算機(jī)視覺研究中的熱點(diǎn)方向.以時(shí)間為順序,對(duì)從21世紀(jì)初至今約15年中出現(xiàn)的視覺行為識(shí)別研究方法進(jìn)行了梳理、歸類和總結(jié).相比其他綜述性文章,以不同時(shí)期人的行為識(shí)別數(shù)據(jù)庫的演化為線索,介紹不同時(shí)期行為識(shí)別研究所關(guān)注的研究重點(diǎn)問題和主要研究思路,能更清晰直觀地體現(xiàn)行為識(shí)別研究的發(fā)展歷程.同時(shí),以數(shù)據(jù)庫演化歷程為順序介紹行為識(shí)別,能更好地呼應(yīng)當(dāng)前視覺領(lǐng)域愈來愈受人關(guān)注的大數(shù)據(jù)驅(qū)動(dòng)的研究思路.通過對(duì)相關(guān)工作的梳理和總結(jié),還對(duì)今后行為識(shí)別研究的發(fā)展方向做出展望,希望對(duì)各位研究者方向把握上提供一些幫助.

      關(guān)鍵詞計(jì)算機(jī)視覺;行為識(shí)別;時(shí)空運(yùn)動(dòng);數(shù)據(jù)庫演化;綜述

      自古以來,人類就利用自身的智慧,試圖讓機(jī)器代替人類勞動(dòng).尤其是第1臺(tái)電子計(jì)算機(jī)的出現(xiàn),使得人類可以有機(jī)會(huì)利用計(jì)算機(jī)完成更為復(fù)雜的計(jì)算任務(wù).隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,讓計(jì)算機(jī)代替人類思考已經(jīng)逐漸從夢(mèng)想走進(jìn)現(xiàn)實(shí).如1997年IBM公司研制的深藍(lán)計(jì)算機(jī)在國(guó)際象棋比賽中戰(zhàn)勝了人類,在人工智能的發(fā)展史上記上了濃墨重彩的一筆.計(jì)算機(jī)視覺作為人工智能的重要組成部分,在人工智能的發(fā)展中起到了重要的作用.研究表明,人類從外界獲取的信息中,視覺信息占各種器官獲取信息總量的80%.“眼見為實(shí),耳聽為虛”、“百聞不如一見”等成語都反映了視覺信息對(duì)于了解事物本質(zhì)的重要性.計(jì)算機(jī)視覺技術(shù)是研究怎樣讓計(jì)算機(jī)通過攝像機(jī)去獲取外界的視覺信息,然后像人類一樣知道“看”到的是什么,并且理解“看”到的東西在哪里、在“干”什么.因而,物體識(shí)別、目標(biāo)跟蹤和行為識(shí)別是計(jì)算機(jī)視覺研究的重要問題.

      行為識(shí)別研究的主要內(nèi)容是分析視頻中人的行為.作為計(jì)算機(jī)視覺領(lǐng)域的重要研究問題,行為識(shí)別具有重要的科學(xué)意義.

      相對(duì)于靜態(tài)圖像中物體識(shí)別研究[1],行為識(shí)別更加關(guān)注如何感知感興趣目標(biāo)在圖像序列中的時(shí)空運(yùn)動(dòng)變化.視覺行為的存在方式從二維空間到三維時(shí)空的擴(kuò)展大大增加了行為表達(dá)及后續(xù)識(shí)別任務(wù)的復(fù)雜性,同時(shí)也為視覺研究者提供了更廣闊的空間以嘗試不同的解決思路和技術(shù)方法.近年來,人的行為識(shí)別相關(guān)工作層出不窮,已成為計(jì)算機(jī)視覺研究中的熱點(diǎn)方向.此外,研究人的行為對(duì)于研究大腦的視覺認(rèn)知機(jī)理也具有重要的科學(xué)意義.很多行為識(shí)別方法從大腦認(rèn)知的角度構(gòu)建視覺行為的表達(dá)與計(jì)算模型,這類方法不僅可對(duì)大腦認(rèn)知機(jī)理相關(guān)研究提供實(shí)驗(yàn)證明,還通過實(shí)驗(yàn)對(duì)認(rèn)知科學(xué)進(jìn)行反饋和促進(jìn).

      除了重要理論意義外,行為識(shí)別同樣具有重要的應(yīng)用價(jià)值.隨著硬件技術(shù)的發(fā)展,監(jiān)控?cái)z像頭已經(jīng)非常廉價(jià),在物聯(lián)網(wǎng)技術(shù)的推動(dòng)下,監(jiān)控?cái)z像頭已經(jīng)無處不在.在廣場(chǎng)、銀行、學(xué)校、公路等公共場(chǎng)所,攝像頭記錄著人類生活的每個(gè)角落.尤其是近幾年發(fā)生的恐怖事件,如倫敦地鐵爆炸案、美國(guó)911事件、俄羅斯火車站爆炸案以及波士頓爆炸案,這些重大公共安全事件促使全球各國(guó)政府加大設(shè)備投入,在公共場(chǎng)所搭建大規(guī)模視頻監(jiān)控系統(tǒng).據(jù)2007年英國(guó)《每日郵報(bào)》報(bào)道,約420萬個(gè)攝像頭覆蓋在英國(guó)的各個(gè)角落,每個(gè)英國(guó)公民平均每天會(huì)出現(xiàn)在300個(gè)不同的攝像頭錄像中.傳統(tǒng)的視頻監(jiān)控主要是靠人對(duì)攝像頭捕獲的信息進(jìn)行觀測(cè),靠肉眼檢測(cè)視頻中的異常行為.研究表明,人眼在注視監(jiān)控畫面20分鐘以后,注意力將嚴(yán)重渙散,畫面中95%以上的視覺信息將被人眼“視而不見”.對(duì)于當(dāng)今如此大規(guī)模的攝像頭網(wǎng)絡(luò),人力已經(jīng)無法勝任視頻監(jiān)控這一工作了.基于此,以計(jì)算機(jī)視覺技術(shù)為基礎(chǔ)的智能視頻監(jiān)控系統(tǒng)應(yīng)運(yùn)而生.通過行為識(shí)別技術(shù),計(jì)算機(jī)可以實(shí)時(shí)判斷公共區(qū)域中行人、車輛等感興趣目標(biāo)的狀態(tài)變化,自動(dòng)識(shí)別其中的異常行為,從而實(shí)現(xiàn)對(duì)威脅公共安全的行為進(jìn)行預(yù)警和主動(dòng)防御.在公共安全領(lǐng)域以外,隨著人們生活水平的提高,個(gè)體家庭中的安全防護(hù)問題也日益突出.借助網(wǎng)絡(luò)的普及和發(fā)展,智能監(jiān)控系統(tǒng)已經(jīng)走入了千家萬戶.智能家庭監(jiān)控系統(tǒng)在降低由一些危險(xiǎn)行為(如入侵、盜竊、獨(dú)居老人跌倒等)帶來的生命財(cái)產(chǎn)損失的工作中起著關(guān)鍵性作用.

      除此之外,基于視頻的行為識(shí)別也是視頻信息檢索的關(guān)鍵技術(shù).隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,人類已經(jīng)生活在一個(gè)信息化時(shí)代.網(wǎng)絡(luò)傳播速度的大幅度提升使得信息實(shí)現(xiàn)了全球化共享,如視頻數(shù)據(jù)現(xiàn)在可以較快的速度在網(wǎng)絡(luò)上傳輸、大量的國(guó)內(nèi)外視頻網(wǎng)站(如YouTube、Hulu、優(yōu)酷等)紛紛涌現(xiàn).據(jù)統(tǒng)計(jì),用戶每分鐘通過YouTube網(wǎng)站上傳的視頻時(shí)長(zhǎng)超過100 h.如此大規(guī)模的視頻數(shù)據(jù)除了為我們帶來豐富的信息共享外,也給存儲(chǔ)和檢索帶來了巨大的挑戰(zhàn).由于上傳用戶對(duì)視頻的文字描述過于簡(jiǎn)單,不足以描述視頻中所蘊(yùn)含的豐富內(nèi)容,如何有效地對(duì)視頻進(jìn)行壓縮而不損失用戶感興趣的內(nèi)容、如何在文字描述不充分的情況下找到符合用戶要求的視頻,這些都是工業(yè)界和學(xué)術(shù)界所共同關(guān)注的問題.基于內(nèi)容的視頻壓縮和檢索技術(shù)利用行為識(shí)別方法檢測(cè)視頻中用戶感興趣的行為,可有效對(duì)視頻進(jìn)行壓縮和索引標(biāo)注.

      另外,行為識(shí)別在人機(jī)交互中也發(fā)揮著重要的作用.近幾年,隨著人機(jī)交互技術(shù)的發(fā)展,人與計(jì)算機(jī)之間的交互方式已經(jīng)有了長(zhǎng)足的進(jìn)步.從傳統(tǒng)的按鍵式交互方式(如鼠標(biāo)、鍵盤)發(fā)展到現(xiàn)在的觸摸式交互(如觸摸屏).然而這些交互方式都需要人與計(jì)算機(jī)接觸才能達(dá)到操作的目的,而在現(xiàn)實(shí)生活中,人與人之間直接通過眼神或動(dòng)作就可以達(dá)到簡(jiǎn)單的交互目的.為了實(shí)現(xiàn)人機(jī)之間的非接觸式交互,人們利用手勢(shì)和行為識(shí)別技術(shù)實(shí)現(xiàn)了人與計(jì)算機(jī)之間的信息傳遞.如微軟XBox中結(jié)合Kinect深度傳感器利用運(yùn)動(dòng)姿態(tài)識(shí)別技術(shù)實(shí)現(xiàn)了自然的人機(jī)交互和體感游戲.除此之外,很多公司也致力于研究眼球運(yùn)動(dòng)估計(jì),利用眼球運(yùn)動(dòng)追蹤實(shí)現(xiàn)人與機(jī)器(如手機(jī))的交互.

      可以看出,人的行為識(shí)別具有重大的研究和應(yīng)用意義.因此,該研究領(lǐng)域受到了越來越多研究者的關(guān)注,主要體現(xiàn)在以下4個(gè)方面:

      1) 大量的知名期刊,如IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI),International Journal for Computer Vision (IJCV),Computer Vision and Image Understanding (CVIU),IEEE Transactions on Circuits and Systems for Video Technology (CSVT),Pattern Recognition Letter (PRL)和Image and Vision Computing (IVC)等都分別開設(shè)了行為識(shí)別相關(guān)??_設(shè)時(shí)間和題目如表1所示:

      Table 1 Special Issues About Action Recognition

      2) 近年來很多新的行為識(shí)別工作也愈來愈多地出現(xiàn)在計(jì)算機(jī)視覺和模式識(shí)別領(lǐng)域以IEEE國(guó)際計(jì)算機(jī)視覺大會(huì)(International Conference on Computer Vision, ICCV)、IEEE國(guó)際計(jì)算機(jī)視覺與模式識(shí)別會(huì)議(IEEE Conference on Computer Vision and Pattern Recognition, CVPR)和歐洲計(jì)算機(jī)視覺會(huì)議(European Conference on Computer Vision, ECCV)三大會(huì)議為代表的重要學(xué)術(shù)會(huì)議中.

      我們統(tǒng)計(jì)了20多年來三大會(huì)議中與行為識(shí)別相關(guān)文章的數(shù)目,如圖1所示,該圖很直觀地顯示了行為識(shí)別相關(guān)研究呈明顯的逐年上升趨勢(shì).

      3) 為了讓更多研究者了解行為識(shí)別,很多組織在一些重要的會(huì)議中進(jìn)行了行為識(shí)別專題講座,這些講座追根溯源介紹了行為識(shí)別的發(fā)展以及未來的發(fā)展方向,很好地推動(dòng)了行為識(shí)別領(lǐng)域的發(fā)展.

      4) 為了促進(jìn)行為識(shí)別的發(fā)展,該領(lǐng)域也出現(xiàn)了多個(gè)行為識(shí)別相關(guān)的競(jìng)賽,如美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究所(NIST)從2008年起到現(xiàn)在一直開展的TRECVID監(jiān)控場(chǎng)景下的事件檢索[2]、CVPR2010年開展的行為識(shí)別競(jìng)賽以及由美國(guó)中佛羅里達(dá)大學(xué)(UCF)牽頭的THUMOS大數(shù)據(jù)真實(shí)場(chǎng)景下的行為識(shí)別競(jìng)賽[3]等.這些競(jìng)賽不僅吸引了大量研究者對(duì)行為識(shí)別領(lǐng)域的關(guān)注,也極大地促進(jìn)了該領(lǐng)域的發(fā)展.

      Fig. 1 Articles about action recognition in the top-3 computer vision conferences (ICCV,CVPR,ECCV).圖1 ICCV,CVPR和ECCV三大會(huì)議上行為識(shí)別相關(guān)論文統(tǒng)計(jì)

      Fig. 2 Typical human action recognition datasets in recent years.圖2 各個(gè)時(shí)期比較有代表性的行為數(shù)據(jù)庫

      目前,行為識(shí)別的研究者已撰寫了一些行為識(shí)別相關(guān)的綜述性文章[4-13],對(duì)行為識(shí)別領(lǐng)域的發(fā)展進(jìn)行回顧和總結(jié).這些文章對(duì)行為識(shí)別方法進(jìn)行了不同角度的方法歸類和介紹.一般來說,按照行為的復(fù)雜程度來劃分,行為由簡(jiǎn)單到復(fù)雜可以分為姿態(tài)(gesture)、單人行為(action)、交互行為(interaction)和群行為(group activity).姿態(tài)和單人行為主要關(guān)注如何為行為主體本身的形態(tài)、位置變化建立模型;而交互行為和群行為的研究重點(diǎn)是如何刻畫更大時(shí)空尺度中行為主體與場(chǎng)景物體或行為主體之間的空間、時(shí)間和邏輯關(guān)系.本文前2類簡(jiǎn)單行為相關(guān)工作被稱為行為識(shí)別方法,而后2種復(fù)雜的行為識(shí)別方法被稱為事件分析方法.

      本文以時(shí)間為順序,以數(shù)據(jù)庫的發(fā)展歷程為線索,對(duì)不同時(shí)期的行為識(shí)別方法進(jìn)行歸類.公開的行為識(shí)別數(shù)據(jù)庫對(duì)行為識(shí)別方法的評(píng)測(cè)起到了關(guān)鍵的作用,也為研究者們提供了一些研究規(guī)范.行為識(shí)別數(shù)據(jù)庫的更新和發(fā)展在行為識(shí)別領(lǐng)域起到了方向標(biāo)的作用.每一個(gè)優(yōu)秀的行為識(shí)別數(shù)據(jù)庫被發(fā)布,都會(huì)伴隨著大量的新的行為識(shí)別方法的提出.

      圖2展示了2001—2014年一些引用較高被廣泛使用的公開行為識(shí)別數(shù)據(jù)庫.

      早期的行為數(shù)據(jù)庫(如KTH[14]和WEIZANN[15]等)主要的出發(fā)點(diǎn)集中在對(duì)一些基本行為識(shí)別上.這些行為數(shù)據(jù)大多都是在可控場(chǎng)景下進(jìn)行的單人行為,行為類別與樣本數(shù)量都比較少.很多經(jīng)典的行為識(shí)別方法如文獻(xiàn)[16-19]等都在這些數(shù)據(jù)庫中進(jìn)行了驗(yàn)證.這些簡(jiǎn)單的行為數(shù)據(jù)庫對(duì)于我們從計(jì)算機(jī)視覺角度去了解行為表達(dá)的本質(zhì)做出了巨大的貢獻(xiàn),這些數(shù)據(jù)庫現(xiàn)在仍然作為行為識(shí)別的基線數(shù)據(jù)被廣泛地使用.

      隨著研究者對(duì)行為識(shí)別方法認(rèn)識(shí)得不斷深入,一些特定問題被提了出來.為解決視角不變問題,法國(guó)國(guó)家信息與自動(dòng)化研究所(French Institute for Research in Computer Science and Automation, INRIA)和中國(guó)科學(xué)院自動(dòng)化研究所(Institute of Automation, Chinese Academy of Sciences, CASIA)等一些研究機(jī)構(gòu)發(fā)布了多視角的行為數(shù)據(jù),如IXMAS Actions[20]數(shù)據(jù)庫、CASIA[21]行為數(shù)據(jù)庫.針對(duì)此類數(shù)據(jù)庫,有些方法[22-24]通過利用多個(gè)視角信息的互補(bǔ)性來提高行為的表達(dá)能力;也有些工作[25-26]則是對(duì)不同視角之間的行為特征遷移進(jìn)行學(xué)習(xí),以獲得一個(gè)更為泛化的特征表達(dá).

      前面提到的包括多視角在內(nèi)的行為數(shù)據(jù)庫中,行為類別主要是單人簡(jiǎn)單行為,場(chǎng)景相對(duì)比較簡(jiǎn)單和單一;但在真實(shí)生活的視頻里,行為類別是非常豐富的,并且影響行為在視頻中表達(dá)的因素也非常多,如視角、光照,攝像機(jī)運(yùn)動(dòng)、環(huán)境變化等.對(duì)此,網(wǎng)絡(luò)及多媒體視頻由于其更為自然真實(shí),并且具有海量、多樣、易獲取等特點(diǎn),成為行為識(shí)別數(shù)據(jù)庫的又一重要來源.用戶上傳的海量視頻數(shù)據(jù)為我們提供了大量真實(shí)生活中的行為素材.基于此,在2008年和2009年,有很多真實(shí)場(chǎng)景下的行為數(shù)據(jù)庫被發(fā)布,如Hollywood[27],UCF Sports[28],UCF YouTube[29]等.

      除網(wǎng)絡(luò)多媒體視頻外,還有一些研究者通過模仿真實(shí)場(chǎng)景(考慮復(fù)雜的運(yùn)動(dòng)背景)構(gòu)建了諸如MSR Action[30]和Collective Activity Data[31]等行為數(shù)據(jù)庫.由于局部特征對(duì)于視角和光照等變化具有很好的魯棒性,基于局部特征點(diǎn)的行為識(shí)別方法[14,32-36]在這類真實(shí)場(chǎng)景數(shù)據(jù)庫中得到廣泛的應(yīng)用.

      自2010年以來,隨著計(jì)算機(jī)視覺的發(fā)展,行為識(shí)別數(shù)據(jù)庫也呈現(xiàn)出新的特點(diǎn):

      1) 行為識(shí)別數(shù)據(jù)庫的規(guī)模越來越大.自2009年開始,隨著“大數(shù)據(jù)”在互聯(lián)網(wǎng)信息行業(yè)被推向高潮,計(jì)算機(jī)視覺領(lǐng)域也出現(xiàn)了以ImageNet[37]圖像庫為代表的超大規(guī)模數(shù)據(jù)庫.雖然當(dāng)前行為識(shí)別數(shù)據(jù)庫的規(guī)模還遠(yuǎn)遠(yuǎn)不及圖像識(shí)別數(shù)據(jù)庫,但其行為類別和樣本數(shù)量也在迅速增加.Hollywood2在原有Hollywood數(shù)據(jù)庫的基礎(chǔ)上將行為類別從8類提升到12類,視頻樣本也從430個(gè)增加到2 859個(gè).美國(guó)中弗羅里達(dá)大學(xué)(UCF)計(jì)算機(jī)視覺研究中心將UCF Sports,UCF YouTube等一些數(shù)據(jù)庫進(jìn)行融合和擴(kuò)展,構(gòu)成了一個(gè)50類共6 680個(gè)視頻片段的UCF50[38]行為數(shù)據(jù)庫.不久前,規(guī)模更大、包含101個(gè)行為類別的UCF101[3]行為數(shù)據(jù)庫也應(yīng)運(yùn)而生.除此之外,布朗大學(xué)的SERRE實(shí)驗(yàn)室構(gòu)建了包含51類行為共6 849個(gè)視頻片段的HMDB[39]行為數(shù)據(jù)庫.英國(guó)Kingston大學(xué)和西弗吉尼亞大學(xué)分別發(fā)布的多視角行為數(shù)據(jù)庫采用8個(gè)視角的攝像機(jī)同時(shí)對(duì)一個(gè)行為進(jìn)行拍攝,行為類別也從IXMAS Actions的13類增加到了17類.

      2) 除數(shù)據(jù)庫規(guī)模的增加,行為識(shí)別數(shù)據(jù)庫在近期的另外一個(gè)特點(diǎn)是多樣化.行為識(shí)別從簡(jiǎn)單的單人行為上升到了多人的交互行為。如2010年發(fā)布的監(jiān)控場(chǎng)景下的UT-Interaction[40]數(shù)據(jù)庫,其研究?jī)?nèi)容是多個(gè)目標(biāo)之間的交互行為.另外,借助傳感技術(shù)的發(fā)展,MSR先后發(fā)布了MSR Action 3D[41]和MSR Daily Activity 3D[42]行為數(shù)據(jù)庫,這2個(gè)數(shù)據(jù)庫利用KinectRGB-D傳感器獲取除彩色圖像以外的人體深度圖像序列,利用Kinect采集的深度數(shù)據(jù)可獲取較為精準(zhǔn)的人體關(guān)節(jié)點(diǎn)骨架序列,這些包含深度和骨架結(jié)構(gòu)的視頻序列為深入研究人體的運(yùn)動(dòng)模式提供了很好的研究數(shù)據(jù).美國(guó)西北大學(xué)和加州大學(xué)洛杉磯分校則將深度、骨架和多視角數(shù)據(jù)融合在一起構(gòu)建了Northwestern-UCLA Multiview Action 3D[43]數(shù)據(jù)庫.為了更好地研究人體運(yùn)動(dòng)過程中各個(gè)關(guān)節(jié)點(diǎn)的運(yùn)動(dòng)規(guī)律,CMU Graphics Lab利用8個(gè)紅外攝像頭對(duì)帶有41個(gè)標(biāo)記點(diǎn)的人體進(jìn)行重構(gòu),更為精確地估計(jì)出人體的骨架結(jié)構(gòu),并發(fā)布了CMU Motion Capture[44]行為數(shù)據(jù)庫.除此之外,隨著穿戴式智能設(shè)備(如Google Glass)的發(fā)展,近幾年來也出現(xiàn)了一些第1人稱視角的行為數(shù)據(jù)庫,如H.Pirsiavash構(gòu)建的第1人稱視角下的Activities of Daily Living (ADL) Dataset[45]和佐治亞理工發(fā)布的First-Person Social Interactions[46]數(shù)據(jù)庫.

      Fig. 3 Taxonomy of human action recognition.圖3 行為識(shí)別分類框架

      通過對(duì)行為識(shí)別數(shù)據(jù)庫的介紹可以看出,在行為識(shí)別研究前期,研究對(duì)象主要是在簡(jiǎn)單場(chǎng)景下的單人行為,行為類別比較少,場(chǎng)景比較簡(jiǎn)單.針對(duì)這些數(shù)據(jù)庫中的行為,研究者們提出的行為識(shí)別方法大多集中在單人簡(jiǎn)單行為的表達(dá).在這段時(shí)間,出現(xiàn)了一些基于序列和基于時(shí)空體的經(jīng)典行為識(shí)別算法,為后期相對(duì)復(fù)雜的行為識(shí)別打下了堅(jiān)實(shí)的基礎(chǔ).在后期的行為識(shí)別中,研究對(duì)象相對(duì)比較復(fù)雜.除了從單人發(fā)展到多人、場(chǎng)景更為復(fù)雜外,數(shù)據(jù)庫的規(guī)模逐步擴(kuò)大,數(shù)據(jù)類型也隨著計(jì)算機(jī)視覺及硬件技術(shù)的進(jìn)步變得更加多樣化.基于此,我們按時(shí)間順序?qū)⑿袨樽R(shí)別方法分為早期和近期2部分,分別對(duì)不同階段的行為識(shí)別方法進(jìn)行綜述性介紹,通過分析不同階段行為識(shí)別方法的差異來了解行為識(shí)別這一領(lǐng)域的發(fā)展趨勢(shì).圖3為整個(gè)行為識(shí)別分類的框架:首先,2001—2009年這段時(shí)間的行為數(shù)據(jù)庫主要是用來研究可控環(huán)境及規(guī)模較小的真實(shí)環(huán)境下的行為分析方法,本文將在這些數(shù)據(jù)庫上進(jìn)行研究的方法歸為早期行為識(shí)別方法.這段時(shí)間的行為識(shí)別方法按照行為表達(dá)方式的不同,可以分為一般行為識(shí)別、多視角行為識(shí)別和真實(shí)場(chǎng)景下的行為識(shí)別.然后,2010—2014年發(fā)布的行為數(shù)據(jù)庫則著重于與實(shí)際應(yīng)用相結(jié)合,在這些數(shù)據(jù)庫上進(jìn)行研究的方法在本文中被稱為近期行為識(shí)別方法.按照數(shù)據(jù)類型的不同,這些方法可以分為大數(shù)據(jù)真實(shí)場(chǎng)景下的行為識(shí)別、基于深度圖像序列的行為識(shí)別、基于骨架序列的行為識(shí)別、基于第1人稱視角的行為識(shí)別以及多人交互行為識(shí)別.本文將按這種分類方法對(duì)行為識(shí)別的相關(guān)工作進(jìn)行介紹.

      1一般行為識(shí)別方法

      一般行為識(shí)別方法的研究對(duì)象是包含一個(gè)簡(jiǎn)單行為(如走、跑、揮拳等)或由這些簡(jiǎn)單行為組合而成的復(fù)雜行為(如徘徊、打架)的視頻.按照行為復(fù)雜度,一般行為識(shí)別方法可以分為簡(jiǎn)單行為識(shí)別方法和復(fù)雜行為識(shí)別方法.

      1.1簡(jiǎn)單行為識(shí)別方法

      對(duì)于相對(duì)簡(jiǎn)單的行為,即手勢(shì)和單人行為,這類行為通常被看作是一個(gè)物體在時(shí)間序列中的動(dòng)態(tài)變化,因此,這類行為可以直接通過對(duì)圖像序列進(jìn)行分析來達(dá)到行為識(shí)別的目的.簡(jiǎn)單的行為識(shí)別方法主要包括時(shí)空體模型方法和時(shí)序方法2類.

      1) 時(shí)空體模型(space-time volume model)方法

      Fig. 4 MEI and MHI[16].圖4 運(yùn)動(dòng)能量圖和運(yùn)動(dòng)歷史圖

      基于時(shí)空體模型的方法是將一個(gè)包含行為的視頻序列看作在時(shí)空維度上的三維立方體,然后對(duì)整個(gè)三維立方體進(jìn)行建模.如Bobick等人[16]利用人體在三維立方體中沿時(shí)間軸進(jìn)行投影,構(gòu)造了運(yùn)動(dòng)能量圖和運(yùn)動(dòng)歷史圖,然后利用模板匹配的方法對(duì)行為進(jìn)行分類.圖4給出了不同行為的運(yùn)動(dòng)能量圖(motion energy image, MEI)和運(yùn)動(dòng)歷史圖(motion history image, MHI).從圖4可以看出,運(yùn)動(dòng)歷史圖可以看作是人體在三維立方體中沿時(shí)間軸的加權(quán)投影,該投影不僅能反映出運(yùn)動(dòng)物體的姿態(tài),還包含了不同姿態(tài)的時(shí)序性信息.為了能在更復(fù)雜的場(chǎng)景下對(duì)人的行為進(jìn)行識(shí)別,Ke等人[17]利用層級(jí)的均值漂移算法對(duì)時(shí)空立方體進(jìn)行分割并自動(dòng)找到人的行為對(duì)應(yīng)的時(shí)空區(qū)域,然后利用該部分時(shí)空區(qū)域?qū)θ说男袨檫M(jìn)行建模.此類將行為作為一個(gè)整體進(jìn)行建模和分類的方法比較直觀,對(duì)于識(shí)別一些簡(jiǎn)單場(chǎng)景的行為比較有效;但對(duì)于復(fù)雜場(chǎng)景的行為,由于光照、視角以及動(dòng)態(tài)背景等因素的影響,此類方法的有效性將大大降低.表2列出了基于時(shí)空體模型的行為識(shí)別方法.

      Table 2Space-Time Volume Model Methods for Action

      Recognition

      表2 基于時(shí)空體模型的行為識(shí)別方法

      2) 時(shí)序方法

      基于時(shí)序的行為識(shí)別方法是將視頻中的行為看作人體的不同觀測(cè)姿態(tài)的序列,通過分析行為的時(shí)序變化來提升行為的表達(dá)能力.此類方法可簡(jiǎn)單地分為基于模本的方法和基于狀態(tài)的方法2種.

      ① 模本(exemplar).基于模本的方法把行為表達(dá)為一個(gè)模板序列,通過把新的圖像序列特征和模板序列特征進(jìn)行比較來進(jìn)行行為識(shí)別.當(dāng)它們的相似度足夠高時(shí),系統(tǒng)認(rèn)為輸入圖像序列包含模板序列對(duì)應(yīng)的行為.人們做同樣的行為可能有不同的風(fēng)格和速度,因此計(jì)算相似度時(shí)需要考慮這些因素.早期語音識(shí)別方法中的動(dòng)態(tài)時(shí)間歸整(dynamic time warping, DTW)算法被廣泛用于匹配2個(gè)有變化的序列[50-51],DTW算法能夠在2個(gè)序列之間尋找一個(gè)最優(yōu)的非線性匹配.圖5展示了匹配2個(gè)不同速度序列的DTW的概念.

      Fig. 5 Exemplar-based action recognition with DTW.圖5 基于模本DTW匹配的行為識(shí)別方法

      ② 狀態(tài)(state).基于狀態(tài)的方法把一種行為表示為由一組狀態(tài)組成的模型.該模型經(jīng)過統(tǒng)計(jì)方法訓(xùn)練得到,對(duì)應(yīng)屬于該行為的一組特征向量序列.對(duì)每個(gè)模型,它生成觀測(cè)特征向量序列的概率是通過測(cè)量行為模型和輸入圖像序列之間的似然度計(jì)算得到的.使用最大似然估計(jì)(maximum likelihood)或者最大后驗(yàn)概率(maximum posteriori probability)分類器來進(jìn)行行為識(shí)別.隱Markov模型(hidden Markov model, HMM)和動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(dynamic Bayesian networks, DBN)被廣泛用于基于狀態(tài)的方法[52-55],這2種方法都把行為表達(dá)為一組隱狀態(tài).假設(shè)人在每幀都處于一個(gè)隱狀態(tài),每個(gè)狀態(tài)會(huì)根據(jù)觀測(cè)概率生成一個(gè)觀測(cè)向量(例如特征向量).在下一幀,系統(tǒng)根據(jù)隱狀態(tài)之間的轉(zhuǎn)移概率轉(zhuǎn)移到另一個(gè)狀態(tài).一旦轉(zhuǎn)移概率和觀測(cè)概率經(jīng)訓(xùn)練過程獲取后,行為識(shí)別的測(cè)試過程就是計(jì)算一個(gè)給定狀態(tài)模型生成輸入序列的概率.如果這個(gè)概率足夠高,就能夠確定該狀態(tài)模型對(duì)應(yīng)的行為在輸入序列里發(fā)生了.圖6給出了一個(gè)序列HMM的示例.DBN是HMM的一個(gè)擴(kuò)展,由多個(gè)在每幀直接或者間接生成觀測(cè)的條件獨(dú)立的隱節(jié)點(diǎn)組成.基于時(shí)序的行為識(shí)別方法能夠通過概率圖模型幫助我們更好地理解行為的內(nèi)在時(shí)序、因果結(jié)構(gòu),因此,這類方法具有很好的發(fā)展前景.現(xiàn)在制約這類方法的關(guān)鍵是對(duì)單幀圖像的表達(dá).怎樣獲得更好的人體結(jié)構(gòu)表達(dá)和確定關(guān)鍵狀態(tài)的個(gè)數(shù)是影響這類方法性能的關(guān)鍵,同時(shí)訓(xùn)練數(shù)據(jù)的規(guī)模和多樣性對(duì)模型的泛化能力影響巨大.表3列出了基于序列的行為識(shí)別方法.

      Fig. 6 HMM-based state transition model for action recognition.圖6 基于HMM狀態(tài)轉(zhuǎn)移模型的行為識(shí)別方法

      TypeAuthorsFromYearExemplarStateGavrilaetal.[50]CVPR1996Veeraraghavanetal.[51]CVPR2006Yamatoetal.[53]CVPR1992Bobicketal.[54]PAMI1997Oliveretal.[55]PAMI2000Aggarwaletal.[52]3DPVT2004Lvetal.[56]ECCV2006Natarajanetal.[57]WMVC2007

      1.2復(fù)雜行為識(shí)別方法

      對(duì)于一些由多個(gè)簡(jiǎn)單行為組合而成的相對(duì)復(fù)雜的行為,由一般行為識(shí)別方法是無法對(duì)此類行為進(jìn)行識(shí)別的.這類行為識(shí)別的思路是先識(shí)別容易建模的簡(jiǎn)單的子行為,在此基礎(chǔ)上再識(shí)別高層的復(fù)雜行為.這些子行為可能被進(jìn)一步分解為原子行為,因此,復(fù)雜行為識(shí)別方法常出現(xiàn)層級(jí)現(xiàn)象.經(jīng)典的復(fù)雜行為識(shí)別方法可以分為統(tǒng)計(jì)模型方法和句法模型方法.

      1) 統(tǒng)計(jì)模型(statistical model)

      統(tǒng)計(jì)模型使用基于狀態(tài)的統(tǒng)計(jì)模型來識(shí)別行為,子行為被看作概率狀態(tài),行為被看作這些子行為沿時(shí)間序列轉(zhuǎn)移的一條路徑.底層的一些子行為可以通過上面提到的時(shí)序方法進(jìn)行識(shí)別,這些子行為進(jìn)一步地構(gòu)成了一個(gè)高層行為序列.在高層的模型中,每一個(gè)子行為在這個(gè)序列中作為一個(gè)觀測(cè)值.Nguyen等人[58]以及Shi等人[59]等利用HMM對(duì)子行為序列建模來進(jìn)行復(fù)雜行為識(shí)別;Damen等人[60]則利用子行為構(gòu)建DBN(動(dòng)態(tài)貝葉斯網(wǎng)絡(luò))來實(shí)現(xiàn)復(fù)雜行為的識(shí)別問題.利用HMM和DBN模型可以很好地對(duì)子行為序列進(jìn)行建模,但對(duì)于描述一些具有空間關(guān)系的子行為,即子行為之間存在著時(shí)間的重疊,直接利用這2種模型則無法對(duì)復(fù)雜行為進(jìn)行描述.為了能夠更好地描述復(fù)雜行為中子行為之間的相互關(guān)系,Tran等人[61]利用一定的先驗(yàn)知識(shí)構(gòu)建了Markov邏輯網(wǎng)絡(luò)(Markov logic networks, MLNs)來對(duì)子行為之間的時(shí)空關(guān)系進(jìn)行描述.

      2) 句法模型(grammar model)

      句法模型把子行為看作一系列離散的符號(hào),行為被看作這些符號(hào)組成的符號(hào)串.子行為可以通過上面提到的時(shí)空或時(shí)序方法進(jìn)行識(shí)別,而復(fù)雜行為可以用一組生成這些子行為符號(hào)串的生成規(guī)則來表示,自然語言處理領(lǐng)域的語法分析技術(shù)可以被用來對(duì)這種生成規(guī)則進(jìn)行建模,從而實(shí)現(xiàn)對(duì)復(fù)雜行為的識(shí)別.這一類基于語法分析技術(shù)構(gòu)建的模型被稱為句法模型,常用的有上下文無關(guān)語法模型(context-free grammars, CFG)和上下文無關(guān)的隨機(jī)語法模型(stochastic context-free grammars)[62-63].一般的句法模型也只能識(shí)別子行為序列構(gòu)成的復(fù)雜行為,對(duì)于處理同時(shí)發(fā)生的子行為則無能為力.為了克服這個(gè)局限,Ryoo和Aggarwal[64]在CFG的基礎(chǔ)上加入了描述子行為之間復(fù)雜時(shí)空關(guān)系的邏輯連接,即and,or和not,使得構(gòu)建的句法模型可以解決子行為共同發(fā)生的問題.

      表4列出了本文引用的復(fù)雜行為識(shí)別方法:

      Table 4 Complex Action Recognition Methods

      2多視角行為識(shí)別

      在多視角的視頻數(shù)據(jù)庫中,如圖7所示,主要存在2種研究方式:1)利用多視角下數(shù)據(jù)的互補(bǔ)性對(duì)行為進(jìn)行表達(dá)和識(shí)別;2)通過分析多個(gè)視角下行為表達(dá)之間的聯(lián)系來學(xué)習(xí)行為特征在多個(gè)視角下的轉(zhuǎn)移過程,從而得到更為魯棒的行為表達(dá).基于這2種研究方式,我們將多視角行為識(shí)別分為多視角互補(bǔ)(multi-view information complementary)行為識(shí)別和視角不變(view invariant)行為識(shí)別.

      Fig. 7   Images and 3D objects in i3DPost multi-view   action dataset.圖7 i3DPost多視角行為數(shù)據(jù)庫的圖像和三維前景

      1) 多視角互補(bǔ)的行為識(shí)別

      多數(shù)行為識(shí)別方法只是在單個(gè)視角下對(duì)行為進(jìn)行分析,這里面存在一個(gè)非常強(qiáng)的假設(shè),即由單個(gè)視角提取的底層特征足以描述更高層次的行為.但事實(shí)上,單個(gè)視角的圖像序列存在著自遮擋,人體只有部分的表觀數(shù)據(jù)是可用的,因此,當(dāng)人體的行為朝向發(fā)生變化時(shí),圖像序列中表觀數(shù)據(jù)的巨大差異會(huì)導(dǎo)致行為無法正確識(shí)別.為解決這個(gè)問題,很多研究者提出了多視角的行為識(shí)別方法,通過分析人體行為在不同視角下的互補(bǔ)特征來對(duì)行為進(jìn)行更為完整的表達(dá).Huang等人[22]利用來自2個(gè)正交的攝像機(jī)的圖像序列中的物體輪廓來提取一種形狀表達(dá).Bui等人[23]通過構(gòu)建抽象的HMM對(duì)來自不同角度的空間位置信息進(jìn)行層級(jí)編碼,然后在每一層對(duì)行為進(jìn)行更為精細(xì)的描述.還有一些方法通過多視角圖像構(gòu)建三維前景,如圖7所示,然后對(duì)三維前景序列進(jìn)行行為特征表達(dá).如Huang等人[24]利用顏色信息構(gòu)建前景的輪廓直方圖對(duì)三維前景進(jìn)行表達(dá),然后通過模板匹配的方式對(duì)視頻序列進(jìn)行識(shí)別.

      2) 視角不變的行為識(shí)別

      雖然利用多視角的互補(bǔ)信息可以對(duì)行為進(jìn)行更為完整的表達(dá),但在實(shí)際監(jiān)控場(chǎng)景下,一般只有一個(gè)攝像機(jī)在某一時(shí)刻記錄了人的行為,但由于視角的不同,在不同的攝像機(jī)視野下同一行為的表觀特征是不同的.為了學(xué)習(xí)視角不變的行為特征,很多研究者利用多視角下的行為數(shù)據(jù)進(jìn)行跨視角行為識(shí)別.在文獻(xiàn)[25]中,Souvenir等人通過計(jì)算輪廓的R變換并利用流形學(xué)習(xí)來對(duì)行為進(jìn)行視角不變的特征表達(dá).Gkalelis等人利用離散傅里葉變化(discrete Fourier transform, DFT)的循環(huán)轉(zhuǎn)移不變性,并結(jié)合模糊矢量化(fuzzy vector quantization, FVQ)和線性判別分析(linear discriminant analysis, LDA)的方法對(duì)行為進(jìn)行表達(dá)和識(shí)別.對(duì)于視角不變的行為表達(dá)方法,文獻(xiàn)[26]有較為詳細(xì)的綜述性介紹.表5列出了多視角行為識(shí)別的相關(guān)方法.

      Table 5 Multi-view Action Recognition Methods

      3真實(shí)場(chǎng)景下的行為識(shí)別

      相對(duì)簡(jiǎn)單場(chǎng)景下的行為,在真實(shí)場(chǎng)景中的行為由于存在大量的遮擋、光照變化以及攝像機(jī)運(yùn)動(dòng)等影響,使得提取真實(shí)場(chǎng)景下的前景信息非常困難,用基于前景的行為表達(dá)方法來對(duì)這類行為進(jìn)行識(shí)別達(dá)不到令人滿意的效果.為了獲取更為魯棒的行為表達(dá),受局部特征在圖像識(shí)別領(lǐng)域成功的啟發(fā),很多方法試圖從時(shí)空立方體的局部出發(fā),獲取更多的時(shí)空局部特征(local feature).局部特征可以通過構(gòu)建三維時(shí)空濾波器的方式快速地提取時(shí)空立方體中的興趣點(diǎn),如圖8所示,這些底層的時(shí)空局部興趣點(diǎn)(space-time interest point, STIP)具有旋轉(zhuǎn)和尺度不變性,可以很好地提高行為識(shí)別方法的魯棒性.基于局部特征的行為識(shí)別方法首先構(gòu)建興趣點(diǎn)檢測(cè)子,如Harris3D檢測(cè)子[32]、Cuboid檢測(cè)子[33]和Hessian檢測(cè)子[34]檢測(cè)感興趣點(diǎn);然后構(gòu)建局部特征描述子,在興趣點(diǎn)周圍提取表觀和運(yùn)動(dòng)信息形成局部特征向量,如Cuboid描述子[33]、HOG3D描述子[35]、HOGHOF描述子[32,66]和ESURF描述子[34].此類方法可以直接與詞袋模型(bag of words, BoW)結(jié)合得到局部特征視覺單詞的直方圖特征,將該直方圖特征作為最終的行為特征送入分類器進(jìn)行分類學(xué)習(xí)[14].

      Fig. 8 STIPs of action walk[31]. 圖8 行為walk中的時(shí)空局部興趣點(diǎn).

      基于簡(jiǎn)單詞頻統(tǒng)計(jì)的BoW模型由于丟失了特征點(diǎn)在視頻中的空間分布信息,使得單純的基于特征點(diǎn)統(tǒng)計(jì)的行為特征欠缺對(duì)行為內(nèi)在整體結(jié)構(gòu)的表達(dá).為了解決這個(gè)問題,Kovashka和Grauman[67]利用時(shí)空上下文(context)信息挖掘出時(shí)空局部特征點(diǎn)緊鄰之間的顯著形狀,然后利用該形狀作為較大尺度的局部特征,并以此往上逐層進(jìn)行學(xué)習(xí),利用得到的不同層次的特征結(jié)合BoW模型進(jìn)行行為表達(dá).Hu等人[68]利用局部特征點(diǎn)周圍的近鄰特征點(diǎn)構(gòu)建局部直方圖,然后用該直方圖對(duì)特征點(diǎn)進(jìn)行特征表達(dá)以提高特征點(diǎn)的中層表達(dá)能力.一些其他的方法[69-72]也通過利用時(shí)空上下文關(guān)系獲取更為顯著的特征表達(dá).

      雖然時(shí)空上下文可從一定程度上提高局部特征點(diǎn)的全局性表達(dá)能力,但只靠上下文是無法真正對(duì)行為的全局進(jìn)行描述的.受二維圖像中物體表達(dá)方法的影響,一些研究者將圖像中的基于部件模型(deformable part-based model)[73]的物體表達(dá)從二維圖像空間擴(kuò)展到三維時(shí)空空間,對(duì)行為進(jìn)行表達(dá).Wang和Mori[19]利用全局和局部的運(yùn)動(dòng)特征結(jié)合隱狀態(tài)隨機(jī)場(chǎng)構(gòu)建行為的部件模型.Xie等人[74]利用部件模型對(duì)每一幀的人體進(jìn)行表達(dá),然后將這些部件特征延時(shí)間方向串聯(lián)起來作為行為的表達(dá).Tian等人[75]則直接將文獻(xiàn)[73]在三維空間進(jìn)行擴(kuò)展,構(gòu)建了時(shí)空可形變部件模型.

      表6列出了一些基于局部特征的真實(shí)場(chǎng)景下的行為識(shí)別方法:

      Table 6Local Feature Based Action Recognition Methods in

      Realistic Scenes

      表6 基于局部特征的真實(shí)場(chǎng)景下的行為識(shí)別方法

      4大數(shù)據(jù)真實(shí)場(chǎng)景下的行為識(shí)別

      基于局部特征點(diǎn)的行為識(shí)別方法雖然可以通過加入時(shí)空上下文信息來提升局部特征的表達(dá)能力,但由于時(shí)空局部特征點(diǎn)本身包含大量的噪聲,這決定了基于局部特征點(diǎn)的行為特征的表達(dá)能力是有限的.另外,由于真實(shí)場(chǎng)景的復(fù)雜性,以及數(shù)據(jù)量的增加所帶來的巨大的行為類內(nèi)差,使得基于部件模型的行為表達(dá)也受到限制.為了獲取更具表達(dá)性和區(qū)分性的行為表達(dá),研究者利用行為的時(shí)序性信息和卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)的自學(xué)習(xí)機(jī)制提出了基于時(shí)空軌跡(space-time trajectory)和深度學(xué)習(xí)(deep learning)的行為識(shí)別方法.

      1) 時(shí)空軌跡

      該方法是時(shí)空局部特征點(diǎn)方法的擴(kuò)展,通過跟蹤運(yùn)動(dòng)物體的關(guān)鍵點(diǎn)來構(gòu)建更具有表達(dá)能力的時(shí)空局部軌跡特征.Messing等人[76]結(jié)合局部特征檢測(cè)方法提出了基于局部興趣點(diǎn)軌跡的行為識(shí)別方法.該方法利用Harris3D檢測(cè)子檢測(cè)時(shí)空興趣點(diǎn),然后利用KLT跟蹤器[77]跟蹤這些興趣點(diǎn)以獲得軌跡.更進(jìn)一步地,Wang等人[78]為了獲得更稠密的軌跡,在每幀中稠密地采樣很多特征點(diǎn),然后利用光流場(chǎng)對(duì)這些特征點(diǎn)進(jìn)行跟蹤.在得到原始的特征點(diǎn)軌跡后,這些方法一般會(huì)加入一定的約束來對(duì)軌跡進(jìn)行篩選和優(yōu)化,然后利用軌跡周圍的表觀信息以及軌跡之間的時(shí)空信息對(duì)每個(gè)軌跡或是多個(gè)軌跡進(jìn)行表達(dá).其中,基于稠密軌跡的行為識(shí)別方法在很多公開的真實(shí)場(chǎng)景行為數(shù)據(jù)庫中都達(dá)到了最好的結(jié)果.

      2) 深度學(xué)習(xí)

      深度學(xué)習(xí)模型是受人腦的認(rèn)知機(jī)理啟發(fā)利用底層特征來學(xué)習(xí)事物高層抽象的層級(jí)式特征.深度學(xué)習(xí)方法通過構(gòu)建具有分析學(xué)習(xí)能力的層級(jí)式神經(jīng)網(wǎng)絡(luò)來對(duì)數(shù)據(jù)進(jìn)行解釋,該方法已經(jīng)在大數(shù)據(jù)下的圖像分類與檢測(cè)、語音識(shí)別以及文本分類等領(lǐng)域取得了最好的結(jié)果.CNN是生物啟發(fā)式深度學(xué)習(xí)模型的一種,也是在圖像識(shí)別和語音識(shí)別中比較常用的模型.CNN是一種前饋人工神經(jīng)網(wǎng)絡(luò),包含多個(gè)卷積層,該網(wǎng)絡(luò)利用局部感受野、權(quán)值共享以及空間聚合(pooling)來實(shí)現(xiàn)位移、尺度、形狀不變的特征表達(dá).Ji等人[79]對(duì)二維圖像中的CNN作擴(kuò)展,通過對(duì)多幀的局部時(shí)空體做卷積來構(gòu)建一個(gè)三維CNN.該方法是深度學(xué)習(xí)模型在行為識(shí)別領(lǐng)域中的一次很好的嘗試,在一些真實(shí)場(chǎng)景數(shù)據(jù)庫中也取得了不錯(cuò)的效果.Karpathy等人[80]等利用慢融合模型(slow fusion model)對(duì)視頻中不同的圖像幀進(jìn)行融合,構(gòu)建圖像序列的CNN模型,如圖9所示.通過這種融合方式,可以有效地將視頻的時(shí)序性信息加入到網(wǎng)絡(luò)中,用于提高行為特征的表達(dá)能力.

      Fig. 9 Different temporal fusion methods in CNN[80].圖9 CNN網(wǎng)絡(luò)中不同的時(shí)序融合方法

      Fig. 10 Fusion of space-time CNN[81].圖10 時(shí)空CNN融合

      Fig. 11 Trajectory feature extraction based on CNN[82].圖11 基于CNN的時(shí)空軌跡特征提取方法

      而Simonyan等人[81]則分別對(duì)單幀圖像和多幀的運(yùn)動(dòng)信息(光流)分別構(gòu)建2個(gè)CNN網(wǎng)絡(luò),然后在分?jǐn)?shù)層上對(duì)2種網(wǎng)絡(luò)的輸出作融合,如圖10所示,進(jìn)而提升特征的表達(dá)能力.Wang等人[82]結(jié)合時(shí)空軌跡和CNN,提出了利用CNN對(duì)軌跡進(jìn)行特征表達(dá)的方法,極大地提高了行為特征的表達(dá)能力,如圖11所示.實(shí)驗(yàn)表明,這種融合方法在UCF101和HMDB51兩個(gè)大數(shù)據(jù)下的真實(shí)場(chǎng)景行為數(shù)據(jù)庫中均達(dá)到了深度學(xué)習(xí)模型所能達(dá)到的最好結(jié)果.表7列出了大數(shù)據(jù)真實(shí)場(chǎng)景下的一些行為識(shí)別方法:

      Table 7 Large Scale Realistic Action Recognition Methods

      5基于深度圖像序列的行為識(shí)別

      相比一般的投影視覺數(shù)據(jù),深度圖可以提供一個(gè)光照不變的具有深度幾何結(jié)構(gòu)的前景信息,如圖12所示:

      Fig. 12 Two depth action image sequences[41].圖12 2種行為的深度圖像序列

      然而,由于深度相對(duì)彩色圖片來說包含較少的紋理信息,并且深度數(shù)據(jù)中常常伴有大量噪聲,這使得直接使用一般的特征描述方法(如梯度)對(duì)深度圖像序列進(jìn)行描述不能取得令人滿意的效果.針對(duì)深度數(shù)據(jù)的優(yōu)勢(shì)和問題,很多研究者提出了不同的深度圖像序列表達(dá)方法用于行為識(shí)別.類似于上文簡(jiǎn)單行為識(shí)別方法,按照對(duì)深度圖像序列處理方式的不同,深度圖像序列的表達(dá)也可分為時(shí)空體模型和時(shí)序方法2種.

      Fig. 13   DMM behavior feature description based on    depth image sequence data[86].圖13 基于深度圖像序列的DMM特征表達(dá)

      1) 時(shí)空體模型.基于深度圖像序列的時(shí)空體模型主要是將深度圖像構(gòu)成的四維數(shù)據(jù)作為一個(gè)整體,通過提取包含時(shí)空和深度的特征對(duì)行為進(jìn)行表達(dá).Li等人[41]引入了bag-of-points的思想,用少部分從深度圖像中提取的三維點(diǎn)來描述身體的顯著姿態(tài),然后結(jié)合圖模型框架利用這些顯著姿態(tài)構(gòu)建一個(gè)行為圖(action graph)來對(duì)行為進(jìn)行表達(dá).該方法用1%的三維點(diǎn)即可在MSR Action3D數(shù)據(jù)庫中達(dá)到90%的識(shí)別率.雖然此方法非常高效,但由于缺少對(duì)時(shí)空點(diǎn)之間上下文信息的描述,使得該方法應(yīng)對(duì)處理深度數(shù)據(jù)中遮擋、噪聲以及多視角等問題比較困難.為了解決這個(gè)問題,Vieira等人[85]提出了一種稱為時(shí)空占有模式(space-time occupancy patterns)的特征表達(dá)方法.該方法通過將深度圖像序列沿空間軸和時(shí)間軸劃分來構(gòu)建一個(gè)四維網(wǎng)格,然后利用網(wǎng)格中時(shí)空塊之間的時(shí)空上下文關(guān)系構(gòu)成時(shí)空占有模式.通過這種方法可以很好地解決深度圖像序列中的遮擋和噪聲問題,降低行為特征的類內(nèi)差.Yang等人[86]對(duì)相鄰幀深度圖沿不同的方向投影做差值構(gòu)建深度運(yùn)動(dòng)圖(depth motion maps, DMM)來表達(dá)深度圖像序列的時(shí)序信息,如圖13所示.通過提取各種角度DMM中的HOG特征,并將整個(gè)序列中所有的HOG特征串聯(lián)起來對(duì)行為進(jìn)行表達(dá).Oreifej和Liu[87]則通過統(tǒng)計(jì)深度圖形序列中的四位法向量來對(duì)行為進(jìn)行表達(dá).除此之外,Zhang等人[88]則對(duì)時(shí)空局部特征描述子進(jìn)行了擴(kuò)展,分別提出了一種時(shí)空和深度的四維局部特征描述子對(duì)行為進(jìn)行表達(dá).

      2) 時(shí)序方法.基于序列的深度數(shù)據(jù)行為表達(dá)方法的主要思想同1.1節(jié)對(duì)簡(jiǎn)單行為識(shí)別中的序列方法一樣,通過對(duì)每一幀的深度圖像進(jìn)行特征表達(dá),然后對(duì)構(gòu)建這些特征之間的狀態(tài)轉(zhuǎn)移模型.Jalal等人[89]對(duì)深度圖像輪廓進(jìn)行R變換得到前景輪廓更緊致的特征表達(dá),然后通過對(duì)特征進(jìn)行主成分分析(principal component analysis, PCA)降維,并利用HMM構(gòu)建各時(shí)刻輪廓特征的狀態(tài)轉(zhuǎn)移模型.

      表8列出了基于深度圖像序列的相關(guān)行為識(shí)別方法:

      Table 8 Action Recognition Methods on Depth Image Sequence

      6基于骨架序列的行為識(shí)別

      在行為表達(dá)過程中,空間信息來源于了物體的姿態(tài),而運(yùn)動(dòng)信息則反映在時(shí)間空間中.因此,時(shí)間的動(dòng)態(tài)信息對(duì)于行為表達(dá)至關(guān)重要.為了更好地描述行為的運(yùn)動(dòng)信息,一些方法單獨(dú)對(duì)骨架序列進(jìn)行分析.骨架序列提供的主要運(yùn)動(dòng)信息反映在骨架節(jié)點(diǎn)沿時(shí)間軸連接在一起形成的軌跡曲線.節(jié)點(diǎn)的軌跡由于能夠在更大的時(shí)間范圍內(nèi)對(duì)行為的動(dòng)態(tài)信息進(jìn)行描述,因此可以有效地提高行為的表達(dá)能力.基于骨架節(jié)點(diǎn)軌跡的行為識(shí)別方法由來已久.早在1973年,Gunnar[90]就通過如圖14所示的MLD(moving light display)實(shí)驗(yàn)在黑色背景中人的骨架關(guān)節(jié)點(diǎn)處貼亮點(diǎn)來獲取關(guān)節(jié)點(diǎn)的運(yùn)動(dòng)軌跡數(shù)據(jù).這些在單個(gè)圖像中看似毫無意義的亮點(diǎn)在動(dòng)態(tài)圖像序列中通過相互運(yùn)動(dòng)能夠明顯地表達(dá)人的各種動(dòng)作.這些數(shù)據(jù)拋開了所有的運(yùn)動(dòng)獲取技術(shù)對(duì)前景帶來的噪聲,給研究者提供了更好的空間來單獨(dú)研究運(yùn)動(dòng)的模式.Campbel和Bobick[91]通過將一個(gè)行為的軌跡映射為一個(gè)相空間中的一條線,通過對(duì)相空間中曲線的劃分來進(jìn)行行為的識(shí)別.這類方法由于對(duì)軌跡的描述比較簡(jiǎn)單,所以只能識(shí)別一些很簡(jiǎn)單的行為,但是這個(gè)工作展示了時(shí)空軌跡方法的潛力.Sheikh等人[92]通過將如圖15(a)中16個(gè)關(guān)節(jié)點(diǎn)軌跡進(jìn)行仿射投影得到如圖15(b)中所示的歸一化的XYT空間中的軌跡.通過構(gòu)建不同樣本軌跡之間的視角不變相似度來實(shí)現(xiàn)行為的識(shí)別.

      Fig. 14 MLD[90] experiment.圖14 MLD實(shí)驗(yàn)

      Fig. 15 XYZT skeleton trajectories[91].圖15 XYZT關(guān)節(jié)點(diǎn)軌跡

      Lv等人[57]對(duì)每個(gè)關(guān)節(jié)點(diǎn)的軌跡學(xué)習(xí)一個(gè)HMM作為弱分類器,然后利用Adaboost方法將這些弱的分類器組合在一起構(gòu)成一個(gè)強(qiáng)分類器來達(dá)到行為識(shí)別的目的.與之前的方法相比,Lv提出的方法能夠更好地利用HMM描述各個(gè)節(jié)點(diǎn)在時(shí)間軸上的變化.以上方法都是利用一些通過運(yùn)動(dòng)捕獲系統(tǒng)(motion capture system)獲取的,但在現(xiàn)實(shí)應(yīng)用中,獲取RGB圖像的關(guān)節(jié)點(diǎn)需要用到前景提取、姿態(tài)估計(jì)和跟蹤等相關(guān)技術(shù),因此精度不能得到很好的保證.隨著硬件技術(shù)的發(fā)展,一些運(yùn)動(dòng)捕獲系統(tǒng)如文獻(xiàn)[93]可以利用深度攝像機(jī)(如Kinect)提供的深度信息精確地估計(jì)出人體骨架.基于此,Zhao等人[94]提出了一種基于軌跡的實(shí)時(shí)手勢(shì)識(shí)別方法.該方法利用文獻(xiàn)[93]中的方法估計(jì)出深度圖像序列的關(guān)節(jié)點(diǎn)軌跡,結(jié)合各個(gè)關(guān)節(jié)點(diǎn)隨時(shí)間變化的距離,利用BoW對(duì)行為進(jìn)行描述,然后利用DTW的方法實(shí)現(xiàn)行為的在線識(shí)別.Xia等人[95]提出了一種Histogram of 3D Joint Locations (HOJ3D)的骨架描述方法,通過K-means學(xué)習(xí)出這些骨架的姿態(tài)視覺詞典作為不同時(shí)刻骨架的狀態(tài),然后結(jié)合HMM模型對(duì)行為進(jìn)行識(shí)別.

      除此之外,也有一些同時(shí)使用骨架信息和深度信息的方法.如Wang等人[96]同時(shí)使用骨架和骨架節(jié)點(diǎn)周圍的深度點(diǎn)學(xué)習(xí)由不同節(jié)點(diǎn)特征構(gòu)成的actionlet模型,然后,通過多核學(xué)習(xí)對(duì)不同的actionlet特征進(jìn)行融合和分類.

      表9列出了一些已發(fā)表的基于骨架的行為識(shí)別方法:

      Table 9Skeleton Sequence Based Action Recognition Methods

      表9 基于骨架序列的行為識(shí)別

      7第1人稱視角下的行為識(shí)別

      第1~6節(jié)介紹的行為識(shí)別方法都是對(duì)一般攝像機(jī)拍攝的行為視頻進(jìn)行特征表達(dá)和分類學(xué)習(xí).隨著穿戴式智能設(shè)備的興起,我們可以隨時(shí)記錄日常生活中的時(shí)間,為我們帶來了很多的視頻素材.攝像機(jī)除了記錄外界發(fā)生的情況以外,也記錄了佩戴者本身的行為動(dòng)作,如倒水、做飯或者跑步等.基于第1人稱視角的行為識(shí)別方法主要是利用物體檢測(cè)和手勢(shì)識(shí)別技術(shù),結(jié)合場(chǎng)景理解和語義理解等方法對(duì)第1人稱視角下的行為進(jìn)行識(shí)別.通過挖掘來自第1人稱視角下行為動(dòng)作所包含的固有物體、手以及物體運(yùn)動(dòng)的信息,F(xiàn)athi等人[100]構(gòu)建了一種層級(jí)模型用于行為識(shí)別,通過物體與手之間的交互行為進(jìn)行表達(dá),可以很好地反映出運(yùn)動(dòng)主體的行為.Pirsiavash等人[101]分別對(duì)物體圖像和物體與手勢(shì)共同出現(xiàn)的圖像進(jìn)行建模來區(qū)分運(yùn)動(dòng)主體與物體的交互,然后結(jié)合時(shí)間金字塔模型來對(duì)運(yùn)動(dòng)主體在日常生活中的行為進(jìn)行特征表達(dá).為了判別更復(fù)雜的第1人稱視角下的運(yùn)動(dòng)行為,Kitani等人[102]提出了一種非監(jiān)督的學(xué)習(xí)方法,使用Dirichlet過程混合模型自動(dòng)學(xué)習(xí)第1人稱視角視頻中的運(yùn)動(dòng)直方圖詞典和不同的行為類別集.利用該方法可以非常有效和快速地對(duì)第1人稱視角下的行為進(jìn)行識(shí)別.以上的第1人稱視角下的行為都是描述行為主體在干什么,而Ryoo等人[103]則研究在第1人稱視角下別人對(duì)觀察者做了什么的問題上提出了自己的方法.該方法分別提取了視頻中的全局運(yùn)動(dòng)表達(dá)和局部運(yùn)動(dòng)表達(dá)來分別描述觀測(cè)者和交互者的運(yùn)動(dòng)信息,然后利用多通道核方法對(duì)這2種描述進(jìn)行融合,并提出一種可以準(zhǔn)確學(xué)習(xí)行為結(jié)構(gòu)的核方法對(duì)行為進(jìn)行分類.

      表10列出了第1人稱視角下的行為識(shí)別相關(guān)方法:

      Table 10 First Person View Action Recognition Methods

      8多人行為識(shí)別方法

      多人行為識(shí)別方法是為了識(shí)別人與人(或物)之間的交互行為以及人的群體行為.雖然多人行為識(shí)別方法基本可以包含在前面提到的不同的行為識(shí)別方法中,但對(duì)于多人的行為識(shí)別方法本身,此類方法擁有自身的特性.本文將多人行為識(shí)別方法分為交互行為(interaction)識(shí)別方法和群體行為(crowd behavior)識(shí)別方法2類.

      1) 交互行為

      為了識(shí)別人與物的交互行為,首先要做的是識(shí)別物體和分析人的運(yùn)動(dòng)信息,然后聯(lián)合這2種信息進(jìn)行交互行為的識(shí)別.最經(jīng)典的交互行為識(shí)別方法[59-60,104-106]是忽略物體識(shí)別和運(yùn)動(dòng)估計(jì)的相互影響,即先利用物體分類方法來識(shí)別物體,然后再識(shí)別這些物體參與的運(yùn)動(dòng)行為.也就是說這沒有利用物體識(shí)別和運(yùn)動(dòng)分析兩者的相互關(guān)系,運(yùn)動(dòng)估計(jì)是嚴(yán)格依賴于物體檢測(cè)的.為了利用物體與動(dòng)作之間的相互關(guān)系來提高物體檢測(cè)和行為識(shí)別的性能,Moore等人[107]利用簡(jiǎn)單行為識(shí)別的結(jié)果來提升物體分類的性能.一般情況下,行為識(shí)別還是依賴于物體分類的,但當(dāng)物體分類出現(xiàn)錯(cuò)誤時(shí),行為信息通過構(gòu)建的貝葉斯網(wǎng)絡(luò)對(duì)物體分類進(jìn)行補(bǔ)償.更進(jìn)一步地,Gupta和Davis[108]提出了一種概率模型來整合物體表觀、人體對(duì)物體的動(dòng)作以及動(dòng)作對(duì)物體的反作用.這些信息通過貝葉斯網(wǎng)絡(luò)被整合在一起來對(duì)物體和行為進(jìn)行分類和識(shí)別.

      2) 群體行為

      群體行為是由一個(gè)或多個(gè)人群構(gòu)成的行為,其研究對(duì)象是多人形成的群體.群體行為分析根據(jù)所要獲取的知識(shí)的不同,可以分為2類:①每個(gè)個(gè)體在整個(gè)群體行為中發(fā)揮不同的作用[109-111].例如我們分析一個(gè)“做報(bào)告”的行為,我們需要分析其中報(bào)告者的行為和聽眾的行為.此類群體行為可以很自然地通過由多個(gè)個(gè)體的子行為構(gòu)建的多層模型對(duì)群體行為進(jìn)行表達(dá).②所有個(gè)體的運(yùn)動(dòng)信息作為一個(gè)整體來進(jìn)行群體行為分析,如“軍隊(duì)行軍”和“游行”等都屬于這類群體行為.在此類群體行為方法中[112],每個(gè)個(gè)體經(jīng)常被當(dāng)作一個(gè)點(diǎn),然后利用這些點(diǎn)的軌跡對(duì)整體行為進(jìn)行分析.

      表11列出了引用的事件分析方法的相關(guān)工作:

      Table 11 Multi-Person Action Recognition Methods

      9總結(jié)與展望

      本文對(duì)人的行為識(shí)別方法進(jìn)行了系統(tǒng)性地介紹,以數(shù)據(jù)庫的發(fā)展歷程為線索介紹了行為識(shí)別近15年的發(fā)展?fàn)顩r.通過以上的分析可以看出,由于行為數(shù)據(jù)的類別多種多樣,導(dǎo)致行為識(shí)別方法也各有差異.但對(duì)于每一種行為數(shù)據(jù)的行為方法來說,不管是將時(shí)間和空間作為一個(gè)整體的時(shí)空體模板、局部特征直方圖等,還是將時(shí)間和空間分開進(jìn)行處理的時(shí)序方法,時(shí)空的運(yùn)動(dòng)變化信息對(duì)于行為的描述都是非常重要的.只用合理組織表達(dá)行為內(nèi)在的時(shí)空運(yùn)動(dòng)變化信息,才能得到好的識(shí)別性能.

      隨著數(shù)據(jù)技術(shù)和行為,行為識(shí)別的發(fā)展將呈現(xiàn)以下特點(diǎn):

      1) 行為識(shí)別將聚焦更具挑戰(zhàn)性的真實(shí)場(chǎng)景中的行為檢測(cè)問題

      當(dāng)前大部分行為識(shí)別工作中對(duì)行為的檢測(cè)問題進(jìn)行了回避或簡(jiǎn)化.尤其在如UCF101, HMDB51等數(shù)據(jù)庫中的行為識(shí)別工作,可看作是視頻分類問題,對(duì)其中決定行為發(fā)生的關(guān)鍵動(dòng)作以及行為發(fā)生的起始、終止時(shí)刻不能準(zhǔn)確檢測(cè).在TRECVID監(jiān)控事件檢測(cè)競(jìng)賽中,當(dāng)前最好的事件檢測(cè)效果也遠(yuǎn)遠(yuǎn)不能令人滿意.對(duì)此,研究者需要結(jié)合更多中層或高層語義特征如物體檢測(cè)、人姿態(tài)估計(jì)等結(jié)果,與底層運(yùn)動(dòng)特征相結(jié)合來實(shí)現(xiàn)對(duì)行為的語義表達(dá)建模和準(zhǔn)確檢測(cè).

      2) 深度學(xué)習(xí)在時(shí)序數(shù)據(jù)中的應(yīng)用將成為研究熱點(diǎn)

      深度學(xué)習(xí)在許多傳統(tǒng)視覺任務(wù)中取得了巨大進(jìn)步,但在行為識(shí)別任務(wù)中,深度學(xué)習(xí)還尚未完全取得顯著性的性能提升.原因是:相比圖像樣本,由于時(shí)間維度的引入,行為樣本的類內(nèi)差異更加豐富、行為模本的特征維度更高、需要的樣本數(shù)量更多;同時(shí)在行為標(biāo)注中,很難在視頻中精確標(biāo)記行為發(fā)生的時(shí)空區(qū)域(如圖像中物體邊框),從而無法實(shí)現(xiàn)樣本對(duì)齊(alignment),導(dǎo)致模型訓(xùn)練難度更大.因此如何從時(shí)間維度入手建立深度神經(jīng)網(wǎng)絡(luò)模型對(duì)行為數(shù)據(jù)進(jìn)行訓(xùn)練,如Recurrent Neural Network是當(dāng)前的一個(gè)研究熱點(diǎn).

      3) 新型傳感數(shù)據(jù)將為行為識(shí)別的實(shí)用化提供可能

      新型的RGB-D傳感器可以有效克服光照、遮擋和視角變化的影響,獲得準(zhǔn)確的前景位置及人體的姿態(tài)參數(shù),因此大大降低了行為識(shí)別的難度.當(dāng)前,基于RGB-D傳感器的行為識(shí)別在一些使用環(huán)境中如體感游戲,已被推向?qū)嵱?未來基于RGB-D數(shù)據(jù)的行為識(shí)別技術(shù)還將進(jìn)一步發(fā)展,預(yù)計(jì)在更多的領(lǐng)域如汽車輔助駕駛等取得令人矚目的成就.

      參考文獻(xiàn)

      [1]Huang Kaiqi, Ren Weiqiang, Tan Tieniu. A review on image object classification and detection[J]. Chinese Journal of Computers, 2014, 37(6): 1-18 (in Chinese)(黃凱奇, 任偉強(qiáng), 譚鐵牛. 圖像物體分類與檢測(cè)算法綜述[J]. 計(jì)算機(jī)學(xué)報(bào), 2014, 37(6): 1-18)

      [2]Over P, Awad G, Martial M, et al. Trecvid 2014-anoverview of the goals, tasks, data, evaluation mechanisms and metrics[COL]Proc of TRECVID 2014. [2014-07-09]. http:www.nist.govitliadmigtrecvid_sed_2014.cfm

      [3]Soomro K, Zamir A, Shah M. UCF101: A dataset of 101 human actions classes from videos in the wild, CRCV-TR-12-01[ROL]. (2012-12-01) [2015-04-15]. http:crcv.ucf.edudataUCF101.php

      [4]Aggarwal J, Ryoo M. Human activity analysis: A review[J]. ACM Computing Surveys, 2011, 43(3): 1-43

      [5]Turaga P, Chellappa R, Subrahmanian V, et al. Machine recognition of human activities: A survey[J]. IEEE Trans on Circuits and Systems for Video Technology, 2008, 18(11): 1473-1488

      [6]Poppe R. A survey on vision-based human action recognition[J]. Image and Vision Computing, 2010, 28(6): 976-990

      [7]Kru¨ger V, Kragic D, Ude A, et al. The meaning of action: A review on action recognition and mapping[J]. Advanced Robotics, 2007, 21(13): 1473-1501

      [8]Ye Mao, Zhang Qing, Wang Liang, et al. A survey on human motion analysis from depth data[C]Proc of Time-of-Flight and Depth Imaging, Sensors, Algorithms, and Applications. New York: Elsevier Science Inc, 2013: 495-187

      [9]Ke S, Thuc H, Lee Y, et al. A review on video-based human activity recognition[J]. Computers, 2013, 2(2): 88-131

      [10]Vishwakarma S, Agrawal A. A survey on activity recognition and behavior understanding in video surveillance[J]. The Visual Computer, 2013, 29(10): 983-1009

      [11]Chaquet J, Carmona E, Caballero A. A survey of video datasets for human action and activity recognition[J]. Computer Vision and Image Understanding, 2013, 117(6): 633-659

      [12]Popoola O, Wang Kejun. Video-based abnormal human behavior recognition—A review[J]. IEEE Trans on Systems, Man, and Cybernetics, Part C: Applications and Reviews, 2012, 42(6): 865-878

      [13]Huang Kaiqi, Chen Xiaotang, Kang Yunfeng, et al. Intelligent visual surveillance: A review[J]. Chinese Journal of Computers, 2015, 38(6): 1093-1118 (in Chinese)(黃凱奇, 陳曉棠, 康運(yùn)鋒, 等. 智能視頻監(jiān)控技術(shù)綜述[J]. 計(jì)算機(jī)學(xué)報(bào), 2015, 38(6): 1093-1118)

      [14]Schuldt C, Laptev I, Caputo B. Recognizing human actions: A local SVM approach[C]Proc of the 17th Int Conf on Pattern Recognition. Piscataway, NJ: IEEE, 2004: 1051-4651

      [15]Blank M, Gorelick L, Shechtman E, et al. Actions as space-time shapes[C]Proc of the 13th IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2005: 1395-1402

      [16]Bobick A, Davis J. The recognition of human movement using temporal templates[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2001, 23(3): 257-267

      [17]Ke Yan, Sukthankar R, Hebert M. Spatio-temporal shape and flow correlation for action recognition[C]Proc of the 20th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2007: 1-8

      [18]Jhuang H, Serre T, Wolf L, et al. A biolog-ically inspired system for action recognition[C]Proc of the 14th IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2007: 1-8

      [19]Wang Yang, Mori G. Hidden part models for human action recognition: Probabilistic vs max-margin[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2011, 33(7): 1310-1323

      [20]Weinland D, Boyer E, Ronfard R. Action recognition from arbitrary views using 3D exemplars[C]Proc of the 14th IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2007: 1-7

      [21]Zhang Zhang, Tao Dacheng. Slow feature analysis for human action recognition[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2012, 34(3): 436-450

      [22]Huang Feiyue, Di Huijun, Xu Guangyou. Viewpoint insensitive posture representation for action recognition[C]Proc of the Articulated Motion and Deformable Objects. Berlin: Springer, 2006: 143-152

      [23]Bui W, Venkatesh S, West S. Policy recognition in the abstract hidden Markov model[J]. Journal of Artificial Intelligence Research, 2002, 17: 451-499

      [24]Huang Peng, Hilton A. Shape-colour histograms for matching 3D video sequences[C]Proc of the 15th IEEE Int Conf on Computer Vision Workshops. Piscataway, NJ: IEEE, 2009: 1510-1517

      [25]Souvenir R, Babbs J. Learning the viewpoint manifold for action recognition[C]Proc of the 21st IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2008: 1-7

      [26]Ji Xiaofei, Liu Honghai. Advances in view-invariant human motion analysis: A review[J]. IEEE Trans on Systems, Man, and Cybernetics, Part C: Applications and Reviews, 2010, 40(1): 13-24

      [27]Marszalek M, Laptev I, Schmid C. Actions in context[C]Proc of the 22nd IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 2929-2936

      [28]Rodriguez M, Ahmed J, Shah M. Action mach a spatio-temporal maximum average correlation height filter for action recognition[C]Proc of the 21st IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2008: 1-8

      [29]Liu Jingen, Luo Jiebo, Shah M. Recognizing realistic actions from videos in the wild world[C]Proc of the 22nd IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 1996-2003

      [30]Yuan Junsong, Liu Zicheng, Wu Ying. Discriminative video pattern search for efficient action detection[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2011, 33(9): 1728-1743

      [31]Choi Wongun, Shahid K, Savarese S. What are they doing? Collective activity classification using spatio-temporal relationship among people[C]Proc of the 15th IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2009: 1282-1289

      [32]Laptev I, Lindeberg T. Space-time interest points[C]Proc of the 9th IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2003: 432-439

      [33]Dollar P, Rabaud V, Cottrell G, et al. Behavior recognition via sparse spatio-temporal features[C]Proc of the 2nd Joint IEEE Int Workshop on Visual Surveillance and Performance Evaluation of Tracking and Surveillance. Piscataway, NJ: IEEE, 2005: 65-72

      [34]Willems G, Tuytelaars T, Gool L. An efficient dense and scale-invariant spatio-temporal interest point detector[C]Proc of the 11th European Conf on Computer Vision. Berlin: Springer, 2008: 650-663

      [35]Alexander K, Marszalek M, Schmid C. A spatio-temporal descriptor based on 3D-gradients[C]Proc of the 19th British Machine Vision Conf. Berlin: Springer, 2008: 1-10

      [36]Shan Yanhu, Zhang Zhang, Zhang Junge, et al. Interest point selection with spatio-temporal context for realistic action recognition [C]Proc of the 9th Int Conf on Advanced Video and Signal-Based Surveillance. Piscataway, NJ: IEEE, 2012: 94-99

      [37]Deng Jia, Dong Wei, Socher R, et al. ImageNet: A large-scale hierarchical image database[C]Proc of the 22nd IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 248-255

      [38]Kishore K, Shah M. Recognizing 50 human action categories of Web videos[J]. Machine Vision Applications, 2013, 24(5): 971-981

      [39]Kuehne H, Jhuang H, Garrote E, et al. HMDB: A large video database for human motion recognition[C]Proc of the 24th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2011: 2556-2563

      [40]Ryoo M, Aggarwal J. Ut-interaction dataset, icpr contest on semantic description of human activities (sdha)[DBOL]. 2010 [2010-09-08]. http:cvrc.ece.utexas.eduSDHA2010Human_Interaction.html

      [41]Li Wanqing, Zhang Zhengyou, Liu Zicheng. Action recognition based on a bag of 3D points[C]Proc of the 23rd IEEE Conf on Computer Vision and Pattern Recognition Workshop. Piscataway, NJ: IEEE, 2010: 9-14

      [42]Wang Jiang, Liu Zicheng, Wu Ying, et al. Mining action-let ensemble for action recognition with depth cameras[C]Proc of the 25th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012: 1290-1297

      [43]Wang Jiang, Nie Xiaohan, Xia Yin, et al. Mining discriminative 3D poselet for cross-view action recognition[C]Proc of the IEEE Winter Conf on Applications of Computer Vision (WACV). Piscataway, NJ: IEEE, 2014: 634-639

      [44]Han Lei, Wu Xinxiao, Liang Wei, et al. Discriminative human action recognition in the learned hierarchical manifold space[J]. Image and Vision Computing, 2010, 28(5): 836-849

      [45]Messing R, Pal C, Kautz H. Activity recognition using the velocity histories of tracked keypoints[C]Proc of the 22nd IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 1550-5499

      [46]Fathi A, Hodgins J, Rehg J. Social interactions: A first-person perspective[C]Proc of the 25th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012: 1226-1233

      [47]Schindler K, Gool L. Action snippets: How many frames does human action recognition require?[C]Proc of the 21st IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2008: 1-8

      [48]Junejo I, Dexter E, Laptev I, et al. View-independent action recognition from temporal self-similarities[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2011, 33(1): 172-185

      [49]Shan Yanhu, Zhang Zhang, Yang Peipei, et al. Adaptive slice representation for human action classification[J]. IEEE Trans on Circuits and Systems for Video Technology (T-CSVT), 2015, 25(10): 1624-1636

      [50]Gavrila D, Davis L. 3D model-based tracking of humans in action: A multi-view approach[C]Proc of the 9th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 1996: 18-20

      [51]Veeraraghavan A, Chellappa R, Chowdhury A. The function space of an activity[C]Proc of the 19th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2006: 959-568

      [52]Aggarwal J, Park S. Human motion: Modeling and recognition of actions and interactions[C]Proc of the 2nd Int Symp on 3D Data Processing, Visualization and Transmission(3DPVT 2004). Piscataway, NJ: IEEE, 2004: 640-647

      [53]Yamato J, Ohya J, Ishii K. Recognizing human action in time-sequential images using hidden Markov model[C]Proc of the 5th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 1992: 379-385

      [54]Bobick A, Wilson A. A state-based approach to the representation and recognition of gesture[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 1997, 19(12): 1325-1337

      [55]Oliver N, Rosario B, Pentland A. A Bayesian computer vision system for modeling human interactions[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2000, 22(8): 831-843

      [56]Lv Fengjun, Nevatia R. Recognition and segmentation of 3-D human action using hmm and multi-class adaboost[C]Proc of the 9th European Conf on Computer Vision. Berlin: Springer, 2006: 359-372

      [57]Natarajan P, Nevatia R. Coupled hidden semi Markov models for activity recognition[C]Proc of the IEEE Workshop on Motion and Video Computing (WMVC 2007). Piscataway, NJ: IEEE, 2007: 1-10

      [58]Nguyen N, Phung D, Venkatesh S, et al. Learning and de-tecting activities from movement trajectories using the hierarchical hidden Markov model[C]Proc of the 18th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2005: 955-960

      [59]Shi Yifan, Huang Yan, Minnen D, et al. Propagation networks for recognition of partially ordered sequential action[C]Proc of the 17th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2004: 862-869

      [60]Damen D, Hogg D. Recognizing linked events: Searching the space of feasible explanations[C]Proc of the 22nd IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 927-934

      [61]Tran S, Davis L. Event modeling and recognition using Markov logic networks[C]Proc of the 10th European Conf on Computer Vision. Berlin: Springer, 2008: 610-623

      [62]Ivanov Y A, Bobick A F. Recognition of visual activities and inter-actions by stochastic parsing[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2000, 22(8): 852-872

      [63]Joo S, Chellappa R. Attribute grammar-based event recognition and anomaly detection[C]Proc of the 18th IEEE Conf on Computer Vision and Pattern Recognition Workshop. Piscataway, NJ: IEEE, 2006: 1-11

      [64]Ryoo M, Aggarwal J. Semantic understanding of continued and recursive human activities[C]Proc of the 18th Int Conf on Pattern Recognition. Piscataway, NJ: IEEE, 2006: 379-378

      [65]Zhang Zhang, Huang Kaiqi, Tan Tieniu. An extended grammar system for learning and recognizing visual events in motion trajectory stream[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2011, 33(2): 240-255

      [66]Laptev I, Marszalek M, Schmid C, et al. Learning realistic human actions from movies[C]Proc of the 21st IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2008: 1-8

      [67]Kovashka A, Grauman K. Learning a hierarchy of discriminative space-time neighborhood features for human action recognition[C]Proc of the 23rd IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2010: 2046-2053

      [68]Hu Qiong, Qin Lei, Huang Qingming, et al. Action recognition using spatial-temporal context[C]Proc of the 23rd IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2010: 1521-1524

      [69]Wang Yang, Sabzmeydani P, Mori G. Semi-latent dirichlet allocation: A hierarchical model for human action recognition[C]Proc of the 2nd Workshop on HUMAN MOTION Understanding, Modeling, Capture and Animation. Berlin: Springer, 2007: 240-254

      [70]Han Dong, Bo Liefeng, Sminchisescu C. Selection and context for action recognition[C]Proc of the 12th IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2009: 1933-1940

      [71]Ziaeefard M, Ebrahimnezhad H. Hierarchical human action recognition by normalized-polar histogram[C]Proc of the 23rd IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2010: 3720-3723

      [72]Gilbert A, Illingworth J, Bowden R. Action recognition using mined hierarchical compound features[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2011, 33(5): 883-897

      [73]Felzenszwalb P, Girshick R, McAllester D, et al. Object detection with discriminatively trained part-based models[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627-1645

      [74]Xie Yuelei, Chang Hong, Li Zhe, et al. A unified framework for locating and recognizing human actions[C]Proc of the 24th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2011: 25-32

      [75]Tian Yicong, Sukthankar R, Shah M. Spatiotemporal de-formable part models for action detection[C]Proc of the 26th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2013: 2642-2649

      [76]Messing R, Pal C, Kautz H. Activity recognition using the velocity histories of tracked keypoints[C]Proc of the 12th IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2009: 104-111

      [77]Lucas B, Kanade T. An iterative image registration technique with an application to stereo vision[C]Proc of the 1st Int Conf on Artificial Intelligence. San Francisco, CA: Morgan Kaufmann, 1981: 674-679

      [78]Wang Heng, Klaser A, Schmid C, et al. Dense trajectories and motion boundary descriptors for action recognition[J]. International Journal of Computer Vision, 2013, 103(1): 60-79

      [79]Ji Shuiwang, Xu Wei, Yang Ming, et al. 3D convolutional neural networks for human action recognition[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2013, 35(1): 221-231

      [80]Karpathy A, Toderici G, Shetty S, et al. Large-scale video classification with convolutional neural networks[C]Proc of the 27th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2014: 1725-1732

      [81]Simonyan K, Zisserman A. Two-stream convolutional net-works for action recognition in videos[C]Proc of the 28th Annual Conf on Neural Information. Cambridge, MA: MIT, 2014: 568-576

      [82]Wang Limin, Qiao Yu, Tang Xiaoou. Action recognition with trajectory-pooled deep-convolutional descriptors[C]Proc of the 28th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 4305-4314

      [83]Wang Heng, Klaser A, Schmid C, et al. Action recognition by dense trajectories[C]Proc of the 24th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2011: 3169-3176

      [84]Wang Heng, Schmid C. Action recognition with improved trajectorie[C]Proc of the 14th IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2013: 3551-3558

      [85]Vieira A, Nascimento E, Oliveira G, et al. Stop: Space-time occupancy patterns for 3D action recognition from depth map sequences[C]Proc of the 19th Iberoamerican Congress on Pattern Recognition. Berlin: Springer, 2012: 252-259

      [86]Yang Xiaodong, Zhang Chenyang, Tian YingLi. Recognizing actions using depth motion maps-based histograms of oriented gradients[C]Proc of the 18th ACM Int Conf on MultiMedia Modeling. New York: ACM, 2012: 1057-1060

      [87]Oreifej O, Liu Zicheng. Hon4d: Histogram of oriented 4D normals for activity recognition from depth sequences[C]Proc of the 26th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2013: 716-723

      [88]Zhang Hao, Parker L. 4-dimensional local spatio-temporal fea-tures for human activity recognition[C]Proc of IEEERSJ Int Conf on Intelligent Robots and Systems. Piscataway, NJ: IEEE, 2011: 2044-2049

      [89]Jalal A, Uddin M, Kim J, et al. Recognition of human home activities via depth silhouettes and transformation for smart homes[J]. Indoor and Built Environment, 2012, 21(1): 184-190

      [90]Gunnar J. Discriminative video pattern search for efficient action detection[J]. Perception and Psychophysics, 1973, 14(2): 201-211

      [91]Campbell L, Bobick A. Recognition of human body motion using phase space constraints[C]Proc of the 5th Int Conf on Computer Vision. Piscataway, NJ: IEEE, 1995: 624-630

      [92]Sheikh Y, Sheikh M, Shah M. Exploring the space of a human action[C]Proc of the 10th IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2005: 144-149

      [93]Shotton J, Fitzgibbon A, Cook M, et al. Real-time human pose recognition in parts from single depth images[C]Proc of the 24th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2011: 1297-1304

      [94]Zhao Xin, Li Xue, Pang Chaoyi, et al. Online human gesture recognition from motion data streams[C]Proc of the 19th ACM Int Conf on MultiMedia Modeling. New York: ACM, 2013: 23-32

      [95]Xia Lu, Chen Chiachih, Aggarwal J. View invariant human action recognition using histograms of 3D joints[C]Proc of the 25th IEEE Conf on Computer Vision and Pattern Recognition Workshop. Piscataway, NJ: IEEE, 2012: 20-27

      [96]Wang Jiang, Liu Zicheng, Wu Ying, et al. Mining action-let ensemble for action recognition with depth cameras[C]Proc of the 25th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012: 1290-1297

      [97]Vemulapalli R, Arrate F, Chellappa R. Human action recognition by representing 3D skeletons as points in a lie group[C]Proc of the 27th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2014: 588-595

      [98]Huang Kaiqi, Tao Dacheng, Yuan Yuan, et al. View independent human behavior analysis[J]. IEEE Trans on Systems, Man and Cybernetics, Part B: Cybernetics, 2009, 39(4): 1028-1035

      [99]Huang Kaiqi, Zhang Yeyin, Tan Tieniu. A discriminative model of motion and cross ratio for view-invariant action recognition[J]. IEEE Trans on Image Processing, 2012, 21(5): 2187-2197

      [100]Fathi A, Farhadi A, Rehg J. Understanding egocentric activities[C]Proc of the 13th Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2011: 407-414

      [101]Pirsiavash H, Ramanan D. Detecting activities of daily living in first-person camera views[C]Proc of the 25th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012: 2847-2854

      [102]Kitani K, Okabe T, Sato Y, et al. Fast unsupervised ego-action learning for first-person sports videos[C]Proc of the 24th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2011: 3241-3248

      [103]Ryoo M, Matthies L. First-person activity recognition: What are they doing to me?[C]Proc of the 26th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2013: 2730-2737

      [104]Siskind M. Grounding the lexical semantics of verbs in visual perception using force dynamics and event logic[J]. Journal of Artificial Intelligence Research, 2001, 15: 31-90

      [105]Vu V, Francois B, Monique T. Automatic video interpretation: A novel algorithm for temporal scenario recognition[C]Proc of the 23rd Int Joint Conf on Artificial Intelligence. San Francisco, CA: Morgan Kaufmann, 2003: 1295-1300

      [106]Nevatia R, Hobbs J, Bolles B. An ontology for video event representation[C]Proc of the 17th IEEE Conf on Computer Vision and Pattern Recognition Workshop. Piscataway, NJ: IEEE, 2004: 119-119

      [107]Moore D, Essa I, Hayes I. Exploiting human actions and object context for recognition task[C]Proc of the 7th Int Conf on Computer Vision. Piscataway, NJ: IEEE, 1999: 80-86

      [108]Gupta A, Davis L. Objects in action: An approach for combining action understanding and object perception[C]Proc of the 20th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2007: 1-8

      [109]Gong Shaogang, Xiang Tao. Recognition of group activities using dynamic probabilistic networks[C]Proc of the 9th Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2003: 742-749

      [110]Zhang D, Perez D, Bengio S, et al. Modeling individual and group actions in meetings with layered hmms[J]. IEEE Trans on Multimedia, 2006, 8(3): 509-520

      [111]Dai Peng, Di Huijun, Dong Ligeng, et al. Group interaction analysis in dynamic context[J]. IEEE Trans on Systems, Man, and Cybernetics, Part B: Cybernetics, 2008, 38(1): 275-282

      [112]Vaswani N, Chowdhury A, Chellappa R. Activity recognition using the dynamics of the configuration of interacting objects[C]Proc of the 16th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2003: 633-642

      Shan Yanhu, born in 1987. Received his PhD degree in pattern recognition and intelligent system from the National Laboratory of Pattern Recognition (NLPR), Institute of Automation, Chinese Academy of Sciences (CASIA), Beijing, China, in 2015, and received his BS degree from Beijing Information Science & Technology University (BISTU), Beijing, China, in 2009. He is currently a researcher in Samsung R&D Institute, Beijing, China. His main research interests include human action recognition, video surveillance and face recognition.

      Zhang Zhang, born in 1980. Received his BS degree in computer science and technology from Hebei University of Technology, Tianjin, China, in 2002, and received his PhD degree in pattern recognition and intelligent system from the National Laboratory of Pattern Recognition (NLPR), Institute of Automation, Chinese Academy of Sciences, Beijing, China in 2008. Associate professor. Member of IEEE. His main research interests include activity recognition, video surveillance, and time series analysis (zzhang@nlpr.ia.ac.cn).

      Huang Kaiqi, born in 1977. Received his MS degree in electrical engineering from Nanjing University of Science and Technology, Nanjing, China, and received his PhD degree in signal and information processing from Southeast University, Nanjing. After receiving his PhD degree, he became a postdoctoral researcher in the National Laboratory of Pattern Recognition, Institute of Automation, Chinese Academy of Sciences, Beijing, China. Professor. Senior Member of IEEE. His main research interests include visual surveillance, image and video analysis, human vision and cognition, computer vision, etc.

      中圖法分類號(hào)TP391

      通信作者:黃凱奇(kaiqi.huang@nlpr.ia.ac.cn)

      基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目(61322209,61473290);國(guó)家“九七三”重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃基金項(xiàng)目(2012CB316302);新疆維吾爾族自治區(qū)科技專項(xiàng)基金項(xiàng)目(201230122)

      收稿日期:2015-05-28;修回日期:2015-11-09

      This work was supported by the National Natural Science Foundation of China (61322209,61473290), the National Basic Research Program of China (973 Program) (2012CB316302), and Xinjiang Uygur Autonomous Region Science and Technology Project (201230122).

      猜你喜歡
      計(jì)算機(jī)視覺綜述
      SEBS改性瀝青綜述
      石油瀝青(2018年6期)2018-12-29 12:07:04
      NBA新賽季綜述
      NBA特刊(2018年21期)2018-11-24 02:47:52
      近代顯示技術(shù)綜述
      電子制作(2018年14期)2018-08-21 01:38:34
      基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法
      雙目攝像頭在識(shí)別物體大小方面的應(yīng)用
      機(jī)器視覺技術(shù)發(fā)展及其工業(yè)應(yīng)用
      危險(xiǎn)氣體罐車液位計(jì)算機(jī)視覺監(jiān)控識(shí)別報(bào)警系統(tǒng)設(shè)計(jì)
      計(jì)算機(jī)視覺在交通領(lǐng)域的應(yīng)用
      基于計(jì)算機(jī)視覺的細(xì)小顆粒團(tuán)重量測(cè)量的研究
      JOURNAL OF FUNCTIONAL POLYMERS
      灵宝市| 柳林县| 玛多县| 阜南县| 浪卡子县| 枞阳县| 仁寿县| 和平区| 来安县| 缙云县| 漯河市| 南宁市| 武定县| 游戏| 黄骅市| 五常市| 内乡县| 新田县| 永昌县| 屏边| 疏附县| 黔西| 福贡县| 马关县| 日喀则市| 武功县| 云南省| 盐津县| 得荣县| 宁乡县| 长岛县| 彰武县| 育儿| 清原| 甘南县| 玉田县| 高陵县| 梧州市| 河津市| 普格县| 大厂|