• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      人體動(dòng)作識(shí)別與評(píng)價(jià)
      ——區(qū)別、聯(lián)系及研究進(jìn)展

      2022-05-17 06:01:24張宇姝
      計(jì)算機(jī)與生活 2022年5期
      關(guān)鍵詞:特征描述骨骼動(dòng)作

      楊 剛,張宇姝,宋 震

      1.北京林業(yè)大學(xué) 信息學(xué)院,北京100083

      2.中央戲劇學(xué)院 傳統(tǒng)戲劇數(shù)字化高精尖研究中心,北京100710

      人體動(dòng)作識(shí)別和動(dòng)作評(píng)價(jià)是當(dāng)前的研究熱點(diǎn)。動(dòng)作識(shí)別是對(duì)輸入的視頻或3D 動(dòng)作數(shù)據(jù)進(jìn)行分析處理,以判斷不同動(dòng)作分別屬于哪種類(lèi)別。動(dòng)作識(shí)別技術(shù)在人機(jī)交互場(chǎng)景、監(jiān)控視頻、手勢(shì)識(shí)別、康復(fù)訓(xùn)練、機(jī)器人和行為理解等各種行業(yè)都有著實(shí)際的運(yùn)用價(jià)值。動(dòng)作評(píng)價(jià)則是對(duì)特定動(dòng)作的完成質(zhì)量進(jìn)行評(píng)判。它一般應(yīng)用于體育、舞蹈、太極拳等專(zhuān)業(yè)領(lǐng)域之中,不僅可以輔助裁判、教練進(jìn)行評(píng)分,更重要的是幫助人們進(jìn)行動(dòng)作分析與訓(xùn)練。

      動(dòng)作識(shí)別與動(dòng)作評(píng)價(jià)的區(qū)別在于:動(dòng)作識(shí)別其實(shí)是一種多分類(lèi)性質(zhì)的問(wèn)題,它的側(cè)重點(diǎn)是實(shí)現(xiàn)將輸入的數(shù)據(jù)和作為參考的標(biāo)準(zhǔn)數(shù)據(jù)進(jìn)行相似度的對(duì)比,然后為不同動(dòng)作分配所屬的類(lèi)型標(biāo)簽;而動(dòng)作評(píng)價(jià)則有更強(qiáng)的專(zhuān)業(yè)領(lǐng)域針對(duì)性,它必須與領(lǐng)域內(nèi)的專(zhuān)家經(jīng)驗(yàn)相結(jié)合,構(gòu)建專(zhuān)業(yè)的評(píng)價(jià)標(biāo)準(zhǔn),其不僅需要對(duì)比動(dòng)作的外觀相似性,還需要對(duì)動(dòng)作的規(guī)范性、完成質(zhì)量甚至藝術(shù)性進(jìn)行評(píng)價(jià),從而輔助人們對(duì)動(dòng)作的深度分析。但同時(shí),動(dòng)作識(shí)別與動(dòng)作評(píng)價(jià)也有緊密聯(lián)系,二者在技術(shù)流程和方法上也有著很多共通之處。動(dòng)作評(píng)價(jià)往往需要在動(dòng)作識(shí)別的基礎(chǔ)上完成。

      早在20 世紀(jì)70 年代,Johansson的移動(dòng)光斑的運(yùn)動(dòng)感知實(shí)驗(yàn),就證實(shí)了可以借助二維模型分析三維的人體運(yùn)動(dòng)信息,引發(fā)了很多研究人員對(duì)人體動(dòng)作識(shí)別的研究興趣,后續(xù)關(guān)于動(dòng)作識(shí)別的研究工作大量涌現(xiàn),并取得了顯著成果。另一方面,有關(guān)動(dòng)作評(píng)價(jià)的研究則還處于起步階段,雖然有一些成功案例,例如高爾夫揮桿動(dòng)作、羽毛球揮拍動(dòng)作等體育運(yùn)動(dòng)中的動(dòng)作,但所能處理的主要是單一且重復(fù)度高的動(dòng)作。而對(duì)于更為復(fù)雜的動(dòng)作,比如競(jìng)技健美操、舞蹈、24 式太極、戲曲等則力不從心。對(duì)于這些復(fù)雜動(dòng)作,不應(yīng)該只是單純地比較“外觀相似度”,還需要在更深層次的“專(zhuān)業(yè)相似度”上有所突破。

      經(jīng)過(guò)充分而深入的調(diào)研,論述了動(dòng)作識(shí)別與動(dòng)作評(píng)價(jià)存在的區(qū)別與聯(lián)系,并從完整的數(shù)據(jù)處理流程的角度出發(fā),歸納了動(dòng)作識(shí)別與動(dòng)作評(píng)價(jià)的技術(shù)框架。圍繞這一框架,從數(shù)據(jù)類(lèi)型、預(yù)處理、特征描述、識(shí)別方法、評(píng)價(jià)方法等各個(gè)環(huán)節(jié)分析、總結(jié)了經(jīng)典方法以及最新研究進(jìn)展,并將其按照技術(shù)特點(diǎn)分類(lèi)。最后探討了當(dāng)前研究所面臨的關(guān)鍵問(wèn)題及未來(lái)發(fā)展趨勢(shì)。

      1 相關(guān)工作及技術(shù)框架概述

      動(dòng)作識(shí)別是計(jì)算機(jī)視覺(jué)領(lǐng)域一個(gè)重要的研究課題,人們已經(jīng)開(kāi)展了大量的研究,并且已經(jīng)出現(xiàn)了一些相關(guān)的綜述論文。徐光祐等人主要從視覺(jué)處理的角度來(lái)分析動(dòng)作識(shí)別,從動(dòng)作的定義、特征提取和動(dòng)作表示、動(dòng)作理解的推理方法三方面對(duì)動(dòng)作識(shí)別進(jìn)行了綜述。Wu 等人則將重點(diǎn)放在了深度學(xué)習(xí)上,綜述了各種最新的基于深度學(xué)習(xí)的技術(shù),用于三種類(lèi)型的數(shù)據(jù)集:?jiǎn)我朁c(diǎn)、多視點(diǎn)和RGB-D 視頻上進(jìn)行人體動(dòng)作識(shí)別。Presti 等人則總結(jié)了基于3D 骨骼的動(dòng)作識(shí)別的技術(shù)和方法,側(cè)重于分析數(shù)據(jù)預(yù)處理、公開(kāi)可用的3D 數(shù)據(jù)集和精度度量標(biāo)準(zhǔn)等方面,此外他們還提出了基于骨骼的動(dòng)作特征描述的分類(lèi)。

      上面這些綜述工作各有其側(cè)重點(diǎn),或者聚焦于視覺(jué)處理的關(guān)鍵問(wèn)題,或者聚焦于骨骼數(shù)據(jù)識(shí)別方法,或者聚焦于深度學(xué)習(xí)方法。而本文的思路與這些綜述不同,是從整體的數(shù)據(jù)處理流程的角度出發(fā)進(jìn)行關(guān)鍵模塊的梳理,并將動(dòng)作識(shí)別與動(dòng)作評(píng)價(jià)兩類(lèi)問(wèn)題歸納到了一個(gè)統(tǒng)一的技術(shù)框架中(圖1)。如圖1 所示,動(dòng)作識(shí)別與動(dòng)作評(píng)價(jià)這兩類(lèi)問(wèn)題既有相同的部分,也有各自獨(dú)特的部分。其中,數(shù)據(jù)類(lèi)型、數(shù)據(jù)預(yù)處理、特征描述三部分是動(dòng)作識(shí)別與動(dòng)作評(píng)價(jià)的共通之處,它們對(duì)動(dòng)作識(shí)別和評(píng)價(jià)都有基礎(chǔ)意義;而在隨后的方法部分,則由于應(yīng)用需求和研究目標(biāo)之不同,動(dòng)作識(shí)別與動(dòng)作評(píng)價(jià)有顯著差異。本文即依據(jù)此技術(shù)框架對(duì)各個(gè)模塊進(jìn)行系統(tǒng)的介紹與分析。

      圖1 動(dòng)作識(shí)別與動(dòng)作評(píng)價(jià)的技術(shù)框架圖Fig.1 Technical framework of action recognition and action evaluation

      值得一提的是,目前尚無(wú)動(dòng)作評(píng)價(jià)相關(guān)的綜述,本文首次將這一問(wèn)題進(jìn)行了比較系統(tǒng)的介紹和討論,可以為希望從事相關(guān)研究的人員提供一定的參考。

      有很多與動(dòng)作識(shí)別有密切關(guān)系的概念和技術(shù),如人體姿態(tài)估計(jì)(human pose estimation)、動(dòng)作檢測(cè)(action detection)、行為識(shí)別(activity recognition)等。姿態(tài)估計(jì)是將圖像和視頻中存在的人物肢體檢測(cè)出來(lái)的技術(shù)。姿態(tài)估計(jì)不僅要檢測(cè),還要進(jìn)一步重建人的肢體和關(guān)節(jié),它得到的是重建出的人體關(guān)節(jié)向量,而不是類(lèi)別的標(biāo)簽。與之不同,動(dòng)作識(shí)別的目的就是要得到動(dòng)作的類(lèi)別標(biāo)簽。姿態(tài)估計(jì)與動(dòng)作識(shí)別之間有密切聯(lián)系,很多動(dòng)作識(shí)別算法就是在姿態(tài)估計(jì)基礎(chǔ)上進(jìn)行特征提取與分類(lèi)。文獻(xiàn)[23-24]等對(duì)姿態(tài)估計(jì)進(jìn)行了系統(tǒng)介紹,而本文的重點(diǎn)則不放在姿態(tài)估計(jì)上,而是放在了動(dòng)作的特征描述與識(shí)別、評(píng)價(jià)上。

      動(dòng)作檢測(cè)是指從視頻中定位出發(fā)生特定動(dòng)作的視頻段,并將其分類(lèi)。標(biāo)記出目標(biāo)動(dòng)作的邊界后,再對(duì)這種“已修剪”(trimmed)的動(dòng)作序列進(jìn)行識(shí)別。本文主要討論的是對(duì)已修剪的動(dòng)作序列進(jìn)行動(dòng)作識(shí)別,而并不討論動(dòng)作邊界檢測(cè)問(wèn)題。

      行為識(shí)別與動(dòng)作識(shí)別的區(qū)別在于動(dòng)作(action)比行為(activity)的粒度更細(xì)??梢哉J(rèn)為一個(gè)動(dòng)作僅包含單人的簡(jiǎn)單行為;而行為是由一系列動(dòng)作組成,并可能包含人-人或人-物間的互動(dòng)。顯然,動(dòng)作識(shí)別與行為識(shí)別的研究是有交叉的,一些行為識(shí)別方法正是基于動(dòng)作識(shí)別技術(shù)進(jìn)行計(jì)算的。而相對(duì)于動(dòng)作識(shí)別,行為識(shí)別更為關(guān)注對(duì)較長(zhǎng)時(shí)間內(nèi)復(fù)雜行為序列的理解。本文重點(diǎn)放在動(dòng)作識(shí)別的相關(guān)研究上,主要關(guān)注單人在較短時(shí)間內(nèi)單位動(dòng)作的分類(lèi)與評(píng)價(jià)。

      為了不偏離本文的討論框架,聚焦于動(dòng)作識(shí)別與動(dòng)作評(píng)價(jià)的關(guān)鍵問(wèn)題,后文將不再對(duì)姿態(tài)估計(jì)、動(dòng)作檢測(cè)、行為識(shí)別等內(nèi)容展開(kāi)敘述。

      2 數(shù)據(jù)類(lèi)型

      當(dāng)前動(dòng)作識(shí)別與動(dòng)作評(píng)價(jià)所處理的動(dòng)作數(shù)據(jù)源主要分為兩種:視頻數(shù)據(jù)和骨骼數(shù)據(jù)。數(shù)據(jù)源的類(lèi)型不同,則后期的預(yù)處理和特征描述等環(huán)節(jié)將會(huì)有顯著差別。

      2.1 視頻數(shù)據(jù)

      視頻動(dòng)作數(shù)據(jù)是動(dòng)作識(shí)別與評(píng)價(jià)任務(wù)中最常用的一種數(shù)據(jù),它是利用相機(jī)拍攝的動(dòng)作視頻序列,由于其每幀畫(huà)面都是由RGB 三通道形成的圖像,故而也被稱(chēng)為RGB 數(shù)據(jù)。基于視頻數(shù)據(jù)的動(dòng)作識(shí)別方法主要有兩種思路:

      (1)基于視頻數(shù)據(jù)的直接識(shí)別。即直接從視頻畫(huà)面中提取動(dòng)作序列的時(shí)域以及空域特征并進(jìn)行分類(lèi)。

      (2)先提取骨骼信息再識(shí)別。即首先從視頻中提取(2D 或3D)骨骼信息(如前面第1 章所述,這個(gè)過(guò)程被稱(chēng)為姿態(tài)估計(jì)),再進(jìn)行分類(lèi)。

      近年來(lái),深度攝像頭獲得了很大發(fā)展,利用深度攝像頭可使得獲取的視頻信息中含有場(chǎng)景的深度信息(被稱(chēng)為RGB+D 數(shù)據(jù))。利用增加的深度信息,姿態(tài)估計(jì)往往可以取得更好的效果,從而有利于后續(xù)的動(dòng)作識(shí)別。

      隨著設(shè)備的進(jìn)步,視頻數(shù)據(jù)的獲取越來(lái)越便捷和普遍,這使得基于視頻數(shù)據(jù)的動(dòng)作識(shí)別具有廣闊的應(yīng)用空間,相關(guān)工作層出不窮。但采集視頻數(shù)據(jù)時(shí)不可避免地會(huì)產(chǎn)生遮擋、抖動(dòng)、明暗變化等噪聲,這也為其帶來(lái)了挑戰(zhàn)。

      2.2 骨骼數(shù)據(jù)

      骨骼數(shù)據(jù)出現(xiàn)的時(shí)間較晚,相比于視頻數(shù)據(jù),它可以更加直接地表示身體各部位的運(yùn)動(dòng)特征,如關(guān)節(jié)角度、速度等,從而可以更方便、準(zhǔn)確地進(jìn)行動(dòng)作識(shí)別,因此它成為了近年來(lái)人們關(guān)注的焦點(diǎn)。它是通過(guò)關(guān)鍵點(diǎn)來(lái)描述整個(gè)人體動(dòng)作的數(shù)據(jù)模式,這些關(guān)鍵點(diǎn)往往依據(jù)人體骨骼關(guān)節(jié)來(lái)確定,故而被稱(chēng)為骨骼數(shù)據(jù)。圖2 是一種典型的關(guān)鍵點(diǎn)布局圖,其中黑色點(diǎn)為骨骼關(guān)節(jié)點(diǎn),紅色點(diǎn)則用來(lái)標(biāo)識(shí)身體主要部位。在動(dòng)作計(jì)算過(guò)程中,人們普遍會(huì)將模型的盆骨位置作為“根骨骼”,基于根骨骼進(jìn)行遞推,就能得到其他骨骼的相對(duì)位置。

      圖2 人體骨骼示例圖Fig.2 Sketch map of human skeleton

      按照維度不同,可以把骨骼數(shù)據(jù)分為兩類(lèi):

      (1)2D 骨骼。一般是利用姿態(tài)估計(jì)算法從視頻中識(shí)別獲得的2D 骨骼數(shù)據(jù)。

      (2)3D 骨骼。根據(jù)獲取設(shè)備或者原始模態(tài)的不同,又可以分為兩類(lèi):①通過(guò)光學(xué)和慣性動(dòng)作捕捉設(shè)備直接捕捉的人體動(dòng)作3D 骨骼數(shù)據(jù)。②從視頻中提取出2D 骨骼數(shù)據(jù),再重建為3D 骨骼數(shù)據(jù)。

      根據(jù)調(diào)研,動(dòng)作評(píng)價(jià)相關(guān)研究工作多數(shù)使用的是骨骼數(shù)據(jù),因?yàn)樗P(guān)注動(dòng)作本身完成的質(zhì)量;而動(dòng)作識(shí)別問(wèn)題中使用視頻以及骨骼數(shù)據(jù)的工作都很豐富。骨骼數(shù)據(jù)相比視頻數(shù)據(jù)優(yōu)點(diǎn)在于,它包含的信息密集而精煉。但是也有其局限之處:(1)正是由于骨骼數(shù)據(jù)的冗余較少,對(duì)噪聲極其敏感,容易影響動(dòng)作識(shí)別和評(píng)價(jià)的性能。(2)從全局來(lái)看,骨骼數(shù)據(jù)的整體信息量比視頻數(shù)據(jù)少。因?yàn)橐曨l數(shù)據(jù)還會(huì)包括環(huán)境、物體等,而它們并不存在骨骼信息,因此骨骼信息對(duì)于人與物交互的動(dòng)作的識(shí)別不具有優(yōu)勢(shì)。

      2.3 數(shù)據(jù)集

      目前已經(jīng)有很多針對(duì)動(dòng)作識(shí)別的公開(kāi)數(shù)據(jù)集供研究人員使用,表1 提到了一些常用的數(shù)據(jù)集,并列出各數(shù)據(jù)集的類(lèi)別數(shù)、樣本量、數(shù)據(jù)模態(tài)以及數(shù)據(jù)集內(nèi)容。

      表1 常用的公開(kāi)動(dòng)作識(shí)別數(shù)據(jù)集Table 1 Commonly used publicly available action recognition datasets

      這些數(shù)據(jù)集都提供了動(dòng)作類(lèi)別的標(biāo)注。從數(shù)據(jù)規(guī)模來(lái)看,采集年代較早的數(shù)據(jù)集,比如UCF101、HMDB51、MSR Action 3D 等,一般來(lái)說(shuō)規(guī)模普遍較小,場(chǎng)景相對(duì)簡(jiǎn)單,而且視頻的分辨率也偏低。但它們應(yīng)用廣泛,在很多研究中被作為基準(zhǔn)來(lái)使用。而2016 年之后的數(shù)據(jù)集,規(guī)模顯著增大,比如Activity-Net、NTU RGB+D、NTU RGB+D 120 等,它們具有更豐富的類(lèi)別和更大的數(shù)據(jù)量。尤其是YouTube-8M,提供了多達(dá)4 716 的動(dòng)作類(lèi)別和800 萬(wàn)的樣本。這也反映出隨著研究的發(fā)展,人們能夠建立更為復(fù)雜的預(yù)測(cè)模型,需要更大量的訓(xùn)練數(shù)據(jù),同時(shí)能夠處理更為復(fù)雜的任務(wù)。此時(shí)基于深度學(xué)習(xí)的動(dòng)作識(shí)別方法逐漸成為主流,這些大規(guī)模的數(shù)據(jù)集也為深度學(xué)習(xí)在動(dòng)作識(shí)別中的應(yīng)用提供了有力的支持。

      從數(shù)據(jù)模態(tài)來(lái)看,表1 中給出的所有數(shù)據(jù)集都提供了RGB 數(shù)據(jù)。RGB 視頻數(shù)據(jù)是動(dòng)作識(shí)別領(lǐng)域最常用的數(shù)據(jù)源,相關(guān)的研究工作數(shù)量也最多。表1 中后4 個(gè)數(shù)據(jù)集除了RGB 數(shù)據(jù)外,還提供了深度數(shù)據(jù)以及骨骼數(shù)據(jù)。利用這些數(shù)據(jù)集可以更好地檢測(cè)出三維骨骼,從而為基于3D 骨骼的動(dòng)作識(shí)別與評(píng)價(jià)提供更好的支撐。

      從數(shù)據(jù)內(nèi)容來(lái)看,有些數(shù)據(jù)集主要是從公共資源中獲得的視頻數(shù)據(jù),如UCF101、HMDB51、YouTube-8M、ActivityNet 等,它們所包含的動(dòng)作類(lèi)別主要是各種各樣的人類(lèi)日?;顒?dòng);這些數(shù)據(jù)集一般只包含RGB 視頻。還有一些數(shù)據(jù)集,如MSR Action 3D、NTU RGB+D、G3D 等,則是專(zhuān)門(mén)錄制或捕獲得到的,它們往往包含了針對(duì)某些特定應(yīng)用領(lǐng)域的動(dòng)作(如醫(yī)療衛(wèi)生、游戲動(dòng)作等),并具有深度數(shù)據(jù)和骨骼數(shù)據(jù),適用于進(jìn)行更有針對(duì)性的動(dòng)作識(shí)別與評(píng)價(jià)。

      3 數(shù)據(jù)預(yù)處理

      在動(dòng)作識(shí)別和動(dòng)作評(píng)價(jià)之前,首先要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。研究中盡管有一些常用的預(yù)處理方法,但實(shí)際上并沒(méi)有統(tǒng)一的標(biāo)準(zhǔn),而且由于任務(wù)的不同,所需要的處理方式也有較大差異。一般來(lái)說(shuō),對(duì)于視頻數(shù)據(jù),預(yù)處理的主要任務(wù)是去噪;而對(duì)于3D 骨骼數(shù)據(jù),預(yù)處理的主要任務(wù)則是歸一化。

      (1)視頻數(shù)據(jù)的去噪

      對(duì)于動(dòng)作捕捉設(shè)備采集的3D 骨骼數(shù)據(jù),一般不需要進(jìn)行去噪處理,因?yàn)樗苌偈墉h(huán)境影響,噪聲很小。然而,視頻數(shù)據(jù)必須去噪,因?yàn)榕臄z過(guò)程中受外界不確定因素的影響,原始數(shù)據(jù)中包含很多不穩(wěn)定或干擾信息。視頻的去噪基于圖像去噪技術(shù),但相比于圖像多了一個(gè)時(shí)序維度。

      該領(lǐng)域的經(jīng)典方法是BM3D(block matching 3D)算法,該算法先計(jì)算相似性來(lái)定位與當(dāng)前待處理的塊相似的二維圖像塊,然后按照一定的規(guī)則將它們堆疊成三維組,最后通過(guò)濾波實(shí)現(xiàn)降噪。BM3D 以及由此延伸出的方法是圖像去噪領(lǐng)域公認(rèn)的效果最好的方法,直到如今對(duì)后續(xù)研究都有著指導(dǎo)意義。Maggioni等人提出的VBM4D(video block matching 4D)方法即將BM3D 方法從圖像擴(kuò)展到時(shí)域,從而轉(zhuǎn)變?yōu)閷?duì)視頻的去噪。它把連續(xù)動(dòng)作前后幀形成的區(qū)域稱(chēng)作補(bǔ)?。╬atch),尋找當(dāng)前待處理補(bǔ)丁的相似補(bǔ)丁,之后通過(guò)兩種濾波處理并取加權(quán)平均,來(lái)實(shí)現(xiàn)去噪。

      這種基于補(bǔ)丁的視頻去噪方法(patch-based method)成為傳統(tǒng)的主流思路。但近年來(lái),隨著深度學(xué)習(xí)的發(fā)展,研究者們開(kāi)始嘗試基于神經(jīng)網(wǎng)絡(luò)進(jìn)行視頻去噪。最早用于視頻去噪的神經(jīng)網(wǎng)絡(luò)方法是遞歸神經(jīng)網(wǎng)絡(luò),但它只能對(duì)灰度圖像進(jìn)行處理而且效果一般,隨后出現(xiàn)的VNLnet(non-local video denoising by CNN)、VNLB(video denoising via empirical Bayesian estimation of space-time patches)和DVDNet(fast network for deep video denoising)等算法大大增強(qiáng)了去噪效果。但是已經(jīng)出現(xiàn)的基于神經(jīng)網(wǎng)絡(luò)的視頻去噪方法尚無(wú)法與最好的patch-based的方法競(jìng)爭(zhēng)。不過(guò)最近,Tassano等人提出了一種最新的基于卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的視頻去噪算法,達(dá)到了可與當(dāng)前最好算法比擬的效果,同時(shí)具有更低的計(jì)算負(fù)載,這表明深度學(xué)習(xí)方法在視頻去噪領(lǐng)域有進(jìn)一步發(fā)展的潛力。

      (2)3D 骨骼數(shù)據(jù)的歸一化

      對(duì)于3D 數(shù)據(jù)來(lái)說(shuō),不同人體的骨骼尺寸及骨骼比例都不相同,在對(duì)骨骼數(shù)據(jù)進(jìn)行比較、匹配時(shí),需要首先對(duì)骨骼數(shù)據(jù)進(jìn)行轉(zhuǎn)換,使不同的骨骼具有相同的比例或尺度。這種處理被稱(chēng)為骨骼數(shù)據(jù)的歸一化。比如,Ping 等人將四肢和肩膀作為基準(zhǔn),來(lái)使人體骨骼標(biāo)準(zhǔn)化;Wu 等人以髖關(guān)節(jié)為原點(diǎn),進(jìn)行對(duì)齊和比較;Wang 等人則是選擇頭部位置為原點(diǎn)對(duì)齊。歸一化不是簡(jiǎn)單地同比例縮放,而是根據(jù)各自不同的方法需求實(shí)施適宜的歸一化策略??偨Y(jié)來(lái)看,3D 骨骼數(shù)據(jù)的歸一化一般首先選定基準(zhǔn)點(diǎn)進(jìn)行位置的對(duì)齊,然后需要選定基準(zhǔn)長(zhǎng)度進(jìn)行關(guān)節(jié)長(zhǎng)度的歸一。不過(guò),人體各關(guān)節(jié)的長(zhǎng)度比例存在個(gè)體差異,這種個(gè)體差異有可能會(huì)對(duì)后面的動(dòng)作評(píng)價(jià)產(chǎn)生影響,是否應(yīng)當(dāng)在歸一化階段將所有人體歸一化到相同的長(zhǎng)度比例,這還是一個(gè)待探討的問(wèn)題。

      4 特征描述的方法

      特征描述是指將原始動(dòng)作序列數(shù)據(jù)構(gòu)建成具有顯著物理或統(tǒng)計(jì)意義的特征,提煉出的特征通常被稱(chēng)為特征描述符。可以說(shuō),選擇合適的特征描述符是動(dòng)作識(shí)別的關(guān)鍵。而動(dòng)作評(píng)價(jià)問(wèn)題則在此基礎(chǔ)上需要進(jìn)一步將專(zhuān)家知識(shí)引入特征描述中,以達(dá)到評(píng)價(jià)目的。

      視頻數(shù)據(jù)與3D 骨骼數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)、信息模式差別很大,導(dǎo)致其特征描述方式也顯著不同。綜合分析當(dāng)前的特征描述相關(guān)工作,對(duì)視頻數(shù)據(jù)和骨骼數(shù)據(jù)分別進(jìn)行歸類(lèi)與總結(jié)。對(duì)于視頻數(shù)據(jù),從特征區(qū)域的角度出發(fā),將其特征描述劃分為全局描述和局部描述兩大類(lèi)。對(duì)于3D 骨骼數(shù)據(jù),則從特征抽取手段的角度,將其特征描述劃分為三類(lèi):(1)原始數(shù)據(jù)(角度、坐標(biāo)等);(2)手工特征;(3)深度特征。下面具體地介紹各種典型的特征描述方法。

      4.1 視頻數(shù)據(jù)的特征描述

      全局特征描述將要識(shí)別或評(píng)價(jià)的目標(biāo)作為一個(gè)整體來(lái)考慮,其覆蓋人體姿態(tài)的全部信息;而局部特征描述則是在選定的特征點(diǎn)周?chē)鷦澐殖鲆粔K局部幾何區(qū)域,然后生成一個(gè)能夠表示這塊區(qū)域特征的標(biāo)識(shí)性向量。

      常見(jiàn)的全局特征有顏色特征、紋理特征和形狀特征等。Bobick等人最早采用輪廓和能量來(lái)描述人體的運(yùn)動(dòng)信息,提出運(yùn)動(dòng)能量圖(motion energy image,MEI)和運(yùn)動(dòng)歷史圖(motion history image,MHI)兩個(gè)模板結(jié)合起來(lái)表示對(duì)應(yīng)的一個(gè)動(dòng)作信息。方向梯度直方圖(histogram of oriented gradient,HOG)是另一種非常經(jīng)典的全局圖像特征描述方式。Dalal 等人首先使用HOG 進(jìn)行行人識(shí)別,并取得了很好的效果。后來(lái)的很多研究工作都是基于HOG 來(lái)進(jìn)行的。

      全局特征描述具有穩(wěn)定性好、簡(jiǎn)潔直觀等優(yōu)點(diǎn),但它也有一些缺點(diǎn),比如容易受到背景負(fù)面影響、計(jì)算量大等。

      局部特征是從局部區(qū)域中抽取的特征,包含邊緣、角點(diǎn)、曲線等類(lèi)別。一般來(lái)說(shuō),局部特征的提取分為局部特征區(qū)域檢測(cè)和對(duì)局部特征區(qū)域描述兩部分。文獻(xiàn)[24]認(rèn)為局部特征區(qū)域檢測(cè)是為了找出能標(biāo)識(shí)動(dòng)作信息的特征點(diǎn),并將其稱(chēng)作“時(shí)空興趣點(diǎn)”。人們發(fā)現(xiàn)人體動(dòng)作特征往往反映在突變狀態(tài)時(shí),因此這些興趣點(diǎn)通常在運(yùn)動(dòng)發(fā)生突變時(shí)產(chǎn)生的點(diǎn)中選取。角點(diǎn)檢測(cè)是最早提出的特征點(diǎn)檢測(cè)之一。Moravec角點(diǎn)檢測(cè)算法把那些與周?chē)袼氐奶卣鞫加泻艽蟛町惖南袼?,認(rèn)為是“角”,這就屬于發(fā)生了突變的點(diǎn)。Laptev提出的3D Harris 算子對(duì)Moravec算子進(jìn)行了改進(jìn),將2D Harris 角點(diǎn)檢測(cè)擴(kuò)展到了時(shí)序和空序中,能夠捕捉到運(yùn)動(dòng)目標(biāo)同時(shí)在局部的時(shí)空域里,都產(chǎn)生了劇變的點(diǎn)。

      在檢測(cè)得到特征區(qū)域后,即可對(duì)局部特征區(qū)域進(jìn)行描述。常用的特征包括梯度和光流信息等。Laptev等人在文獻(xiàn)[49]中使用了局部梯度直方圖(HOG)和光流直方圖(histograms of oriented optical flow,HOF),將本是全局特征的描述方法轉(zhuǎn)換為局部特征描述。Wang 等人則是將各種局部描述符進(jìn)行了總結(jié)和比較,他們認(rèn)為,描述效果最好的是同時(shí)采用了梯度和光流信息的方法。

      與全局特征比起來(lái),局部特征的優(yōu)點(diǎn)是可獲得的數(shù)量豐富,特征之間的相互約束弱,因此受遮擋影響小、穩(wěn)定性高。相對(duì)地,它涵蓋的范圍不夠全面,可能漏掉重要信息。

      4.2 3D 骨骼數(shù)據(jù)的特征描述

      3D 骨骼數(shù)據(jù)由關(guān)鍵點(diǎn)的三維信息組成,所謂原始數(shù)據(jù)特征是指將這些關(guān)鍵點(diǎn)本身的一些屬性,比如坐標(biāo)、角度、變化速率等作為動(dòng)作特征。它們通??梢员硎緸榻^對(duì)或相對(duì)的關(guān)節(jié)坐標(biāo)向量。使用原始骨架數(shù)據(jù)特征非常直接,但其對(duì)動(dòng)作語(yǔ)義特征的表達(dá)不足,并且數(shù)據(jù)量過(guò)大,因此除了用于基線評(píng)估外很少被使用。

      手工特征(hand-crafted features)是指在原始數(shù)據(jù)基礎(chǔ)上,通過(guò)描述關(guān)節(jié)間的某些關(guān)系,人為定義的一些特征。這些手工特征經(jīng)常會(huì)利用不同關(guān)節(jié)間的相對(duì)旋轉(zhuǎn)和平移等信息。Masood 等人通過(guò)測(cè)量關(guān)節(jié)對(duì)之間的距離來(lái)表示身體姿勢(shì)。Müller 等人則利用布爾特征來(lái)表達(dá)身體幾何關(guān)系,通過(guò)描述不同身體部位之間的幾何關(guān)系來(lái)表示人體骨架,可以使得對(duì)特征的描述不受骨骼大小的影響。不過(guò),目前這些手工特征都沒(méi)有考慮時(shí)域信息,對(duì)動(dòng)作的描述不夠充分。而且手工特征的另一個(gè)問(wèn)題是,不同領(lǐng)域提取的手工特征往往具有特殊性,在另一個(gè)領(lǐng)域的數(shù)據(jù)上可能無(wú)法適用,使得基于此特征的動(dòng)作識(shí)別算法難以推廣應(yīng)用。

      手工特征的發(fā)展逐漸進(jìn)入瓶頸,而深度學(xué)習(xí)的發(fā)展為動(dòng)作數(shù)據(jù)的特征提取帶來(lái)了新的可能。深度神經(jīng)網(wǎng)絡(luò)能夠從復(fù)雜數(shù)據(jù)中自動(dòng)學(xué)習(xí)出特征,從而可用于動(dòng)作識(shí)別。近年來(lái),人們使用RNN(recurrent neural network)、CNN(convolutional neural network)和GCN(graph convolutional network)等開(kāi)展了骨骼數(shù)據(jù)的特征描述工作。

      RNN將數(shù)據(jù)相鄰時(shí)刻整合成遞歸結(jié)構(gòu),因此它很適合描述動(dòng)態(tài)數(shù)據(jù)。文獻(xiàn)[58]提出在RNN網(wǎng)絡(luò)中加入注意力機(jī)制,使之成為EleAttG(elementwise-attention gate)結(jié)構(gòu),給輸入數(shù)據(jù)里不同元素賦予不同的重要程度,并將之用于動(dòng)作識(shí)別。作者在NTU RGB+D 數(shù)據(jù)集中的骨骼以及視頻數(shù)據(jù)都進(jìn)行了測(cè)試,對(duì)骨骼數(shù)據(jù)的識(shí)別率由基線方法的75.2%提升到了80.7%,對(duì)視頻數(shù)據(jù)的識(shí)別率由基線方法的81.5%提升到了88.4%,結(jié)果表明加入這個(gè)模塊后RNN 的性能得到了極大的提升。

      以前CNN 通常被用于圖像處理,它學(xué)習(xí)、描述高層語(yǔ)義的能力十分強(qiáng)大,將其作為一種骨骼特征提取方式可以極大提高識(shí)別效率。但圖像問(wèn)題與時(shí)序無(wú)關(guān),因此基于CNN 的方法進(jìn)行骨骼特征的描述,并用于動(dòng)作識(shí)別,必須思考如何更好地加入時(shí)域信息。

      GCN 將CNN 拓展到了任意結(jié)構(gòu)的圖(graphs)結(jié)構(gòu)上來(lái),并且在諸如圖像分類(lèi)、半監(jiān)督學(xué)習(xí)任務(wù)中得到了廣泛的應(yīng)用,但之前尚未有人將GCN 應(yīng)用于人體骨骼序列的特征描述中。最近,Yan 等人提出的時(shí)空?qǐng)D卷積網(wǎng)絡(luò)模型(spatial temporal graph convolutional networks,ST-GCN)首次使用GCN 方法對(duì)骨骼信息進(jìn)行時(shí)空特征描述。一般來(lái)說(shuō),骨骼信息只包含各個(gè)關(guān)節(jié)點(diǎn)坐標(biāo)和它們的連線。而該方法將骨骼序列作為輸入,將人體骨骼作為圖結(jié)構(gòu)進(jìn)行描述,即由關(guān)節(jié)點(diǎn)、關(guān)節(jié)間連線以及時(shí)序上對(duì)應(yīng)的關(guān)節(jié)點(diǎn)連成的虛擬的“時(shí)間邊”組成。該方法在NTU-RGB+D數(shù)據(jù)集上,將當(dāng)時(shí)的最高識(shí)別率提高了近4 個(gè)百分點(diǎn),效果顯著。

      深度特征的優(yōu)勢(shì)是無(wú)需手工參與,而能提取到較高層次的特征;而且,借助于大量的訓(xùn)練數(shù)據(jù),深度特征受光照、姿態(tài)等影響較小。不過(guò),深度特征的提取類(lèi)似于一種“黑盒”計(jì)算模式,無(wú)法得到其顯式的特征表達(dá)方式。

      上面介紹了針對(duì)不同數(shù)據(jù)的多種類(lèi)別的特征描述方式。目前并沒(méi)有特別主流的、占主導(dǎo)優(yōu)勢(shì)的特征描述方法,不同特征描述最終能達(dá)到的效果與數(shù)據(jù)集特點(diǎn)、要識(shí)別的目標(biāo)以及所采用的動(dòng)作識(shí)別方法等都有很大關(guān)系。往往需要根據(jù)所處理的動(dòng)作對(duì)象特點(diǎn)進(jìn)行有針對(duì)性的特征描述。這一點(diǎn)對(duì)于“動(dòng)作評(píng)價(jià)”而言更為重要,必須根據(jù)所評(píng)價(jià)的對(duì)象,增加專(zhuān)家知識(shí),制定有針對(duì)性的特征。

      5 動(dòng)作識(shí)別的分類(lèi)方法

      在明確了動(dòng)作數(shù)據(jù)的特征描述之后,即可進(jìn)行動(dòng)作識(shí)別或動(dòng)作評(píng)價(jià)工作,本章介紹動(dòng)作識(shí)別相關(guān)方法。動(dòng)作識(shí)別的下一步就是構(gòu)建分類(lèi)器進(jìn)行動(dòng)作的分類(lèi)。分類(lèi)算法是動(dòng)作識(shí)別過(guò)程中最后,同時(shí)也是最關(guān)鍵的一部分,它依據(jù)特征向量進(jìn)行訓(xùn)練,從而輸出每一個(gè)識(shí)別對(duì)象的類(lèi)別標(biāo)簽。至今已經(jīng)出現(xiàn)了很多有關(guān)動(dòng)作的分類(lèi)算法,本章將它們分成兩大類(lèi)進(jìn)行介紹:基于統(tǒng)計(jì)模型的方法和基于深度學(xué)習(xí)的方法?;诮y(tǒng)計(jì)模型的方法包括隱馬爾可夫模型、動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)、支持向量機(jī)、模板匹配等;而基于深度學(xué)習(xí)的方法則是目前的主流方法,這里介紹當(dāng)前三類(lèi)主流的動(dòng)作識(shí)別深度學(xué)習(xí)框架。

      5.1 基于統(tǒng)計(jì)模型的方法

      動(dòng)作識(shí)別中最簡(jiǎn)單、直接的方法是模板匹配法,這種方法首先將一些人體動(dòng)作作為模板庫(kù),然后計(jì)算待識(shí)別的動(dòng)作與模板之間的相似度,如達(dá)到某閾值即可判定為此動(dòng)作類(lèi)型。用于動(dòng)作識(shí)別的典型模板有ASM(active shape models)、AAM(active appearance models)、MHI、MEI等,它們采取的有形狀、外觀、歷史圖、能量圖等各種特征模態(tài)。模板匹配法有著思想容易理解,模板設(shè)計(jì)復(fù)雜度低的優(yōu)勢(shì),但也存在著易受噪聲和持續(xù)的動(dòng)作變化影響,魯棒性不強(qiáng),識(shí)別準(zhǔn)確度不高的缺陷。

      該方法將每個(gè)動(dòng)作定義為一個(gè)狀態(tài),通過(guò)概率來(lái)描述狀態(tài)和狀態(tài)之間的轉(zhuǎn)移,因此一個(gè)動(dòng)作序列可以表示為一系列狀態(tài)的轉(zhuǎn)移過(guò)程。典型的狀態(tài)空間模型有隱馬爾可夫模型(hidden Markov models,HMMs)和動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(dynamic Bayesian network,DBN)。

      經(jīng)典的隱馬爾可夫模型(HMMs)是一種基于時(shí)序、轉(zhuǎn)移概率和傳輸概率的隨機(jī)模型。在確定了特征向量之后,根據(jù)訓(xùn)練的模型參數(shù)獲得狀態(tài)序列,然后進(jìn)行動(dòng)作的分類(lèi)。HMMs 模型最早是一種數(shù)學(xué)統(tǒng)計(jì)概念,而Yamato 等人首先將其用于動(dòng)作識(shí)別,經(jīng)過(guò)幾十年的發(fā)展,已經(jīng)在語(yǔ)音識(shí)別、故障診斷和動(dòng)作識(shí)別等領(lǐng)域成功實(shí)現(xiàn)應(yīng)用,甚至成為了人體動(dòng)作識(shí)別的主流方法之一。在這之后又出現(xiàn)了HMMs 的各種改進(jìn)模型,比如Nguyen 等人提出的分層隱馬爾可夫模型(hierarchical hidden Markov models,HHMMs)。作者使用該模型,依據(jù)運(yùn)動(dòng)軌跡學(xué)習(xí)和識(shí)別動(dòng)作,取得了良好的效果。近年仍然有人在改進(jìn)HMMs 模型,梅雪等人提出了一種基于多尺度特征的雙層隱馬爾可夫模型,在雙層HMMs 模型中添加運(yùn)動(dòng)軌跡和人體姿態(tài)邊緣小波矩,提供更為豐富的層次信息。仿真實(shí)驗(yàn)的結(jié)果證明,此模型達(dá)到了很高的識(shí)別準(zhǔn)確率。

      動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(DBN)是一種考慮了相鄰變量轉(zhuǎn)化的貝葉斯網(wǎng)絡(luò),它的框架簡(jiǎn)潔合理,邏輯關(guān)系更加清晰、更易于理解。相比HMMs,DBN 的表達(dá)能力更強(qiáng),因此DBN 對(duì)于需要多信息交叉融合的場(chǎng)景識(shí)別效果更佳。HMMs 模型需要巨大的訓(xùn)練樣本量,而DBN 因?yàn)樽陨淼慕Y(jié)構(gòu)的優(yōu)勢(shì),訓(xùn)練復(fù)雜度要低很多,但正因如此,它比HMMs 的設(shè)計(jì)復(fù)雜度要高。Du等人提出了一種新的帶有狀態(tài)持續(xù)時(shí)間的DBN 模型結(jié)構(gòu),將全局特征和局部特征協(xié)調(diào)地結(jié)合起來(lái),以模擬人類(lèi)的交互活動(dòng),達(dá)到了很好的效果。Oliver 等人則探討了使用DBN 模型進(jìn)行動(dòng)作識(shí)別時(shí)的幾個(gè)重要問(wèn)題:(1)觀測(cè)到變量的可能性;(2)數(shù)據(jù)是否存在內(nèi)在的聯(lián)系;(3)進(jìn)行實(shí)際應(yīng)用的復(fù)雜程度。

      支持向量機(jī)(support vector machine,SVM)是一種經(jīng)典的機(jī)器學(xué)習(xí)分類(lèi)方法,它是一種廣義的線性分類(lèi)器,通過(guò)監(jiān)督學(xué)習(xí)的方式進(jìn)行數(shù)據(jù)的二元分類(lèi)。但SVM 使用的是一對(duì)一識(shí)別策略,將其應(yīng)用在動(dòng)作識(shí)別上,輸出結(jié)果需要經(jīng)歷多次篩選,會(huì)降低識(shí)別效率。為了提高識(shí)別性能,相關(guān)研究都致力于找到更好的方法來(lái)表示關(guān)節(jié)特征。比如,Pontil 等人使用SVM 在高維空間上處理圖像的像素點(diǎn),以此來(lái)進(jìn)行動(dòng)作識(shí)別。Manzi等人采用X-means 方法進(jìn)行特征描述,最后運(yùn)用SVM 進(jìn)行動(dòng)作分類(lèi)。Schuldt 等人則是將時(shí)域和空域特征結(jié)合起來(lái),使用SVM 方法,對(duì)動(dòng)作進(jìn)行局部表征,最后實(shí)現(xiàn)動(dòng)作識(shí)別。

      5.2 基于深度學(xué)習(xí)的方法

      近年來(lái),一些研究者將深度學(xué)習(xí)方法應(yīng)用于動(dòng)作識(shí)別,使得動(dòng)作識(shí)別的準(zhǔn)確率有了顯著提升。目前,深度學(xué)習(xí)方法已成為動(dòng)作識(shí)別研究中的主流方法。下面介紹三種最典型的用于動(dòng)作識(shí)別的深度學(xué)習(xí)算法框架:CNN、雙流網(wǎng)絡(luò)框架(two-stream network)以及融合CNN-LSTM(convolutional neural network-long short term memory network)結(jié)構(gòu)。

      4.2.3小節(jié)提到了用CNN 進(jìn)行動(dòng)作特征的描述。顯然,在采用CNN 進(jìn)行特征描述的基礎(chǔ)上,可以進(jìn)一步完成動(dòng)作識(shí)別任務(wù)。Mohamed 等人將SVM 和CNN 兩種方法進(jìn)行了比較,用它們來(lái)處理RGB-D 相機(jī)采集到的同一套但數(shù)據(jù)類(lèi)型不同的數(shù)據(jù)。SVM 處理3D 骨骼數(shù)據(jù),而CNN 則是處理2D 深度圖數(shù)據(jù)。實(shí)驗(yàn)發(fā)現(xiàn),這兩種方法性能相差不多,但CNN 方法在深度圖像上的效果更佳。

      4.2.3小節(jié)介紹的Yan 等人提出的ST-GCN 模型,能夠更好表示人體重要關(guān)節(jié)之間的空間關(guān)系和時(shí)序關(guān)系,從而可以用于3D 骨骼數(shù)據(jù)的動(dòng)作識(shí)別。在此基礎(chǔ)上,劉鎖蘭等人提出了一種ST-GCN 方法的新型分區(qū)策略,相比于之前的工作加強(qiáng)了骨骼關(guān)節(jié)點(diǎn)信息在時(shí)間和空間上的聯(lián)系,然后通過(guò)迭代學(xué)習(xí)率進(jìn)一步提升識(shí)別精度的目的。結(jié)果在Kinetics 和NTU RGB+D 數(shù)據(jù)集上比現(xiàn)有方法識(shí)別效果均有顯著提高。

      運(yùn)用CNN 進(jìn)行動(dòng)作識(shí)別取得了不錯(cuò)的效果,不過(guò)當(dāng)前方法在投入應(yīng)用時(shí)存在的問(wèn)題在于:很多方法都對(duì)應(yīng)用場(chǎng)景進(jìn)行了一些實(shí)際生活中難以滿足的假設(shè),比如視角或背景固定不變、無(wú)遮擋等。針對(duì)這個(gè)問(wèn)題,Ji 等人提出了一個(gè)新的用于運(yùn)動(dòng)識(shí)別的3D CNN 模型。該模型從連續(xù)視頻幀中產(chǎn)生多通道的信息,然后在每一個(gè)通道都分離地進(jìn)行卷積和下采樣操作,最后將所有通道的信息組合起來(lái)得到最終的特征描述。而李元祥等人提出一種基于深度運(yùn)動(dòng)圖(depth motion maps,DMMs)和密集軌跡的人體動(dòng)作識(shí)別算法。作者利用CNN 訓(xùn)練DMMs 數(shù)據(jù)并提取高層特征作為靜態(tài)特征描述符,使用密集軌跡作為動(dòng)態(tài)特征描述符,最后整合靜態(tài)和動(dòng)態(tài)特征作為整體特征描述符,取得了良好的識(shí)別結(jié)果。這兩種模型都通過(guò)計(jì)算高層運(yùn)動(dòng)特征來(lái)增強(qiáng)特征提取能力,并綜合了多種特征去判斷識(shí)別結(jié)果,因此可適用于各種不同環(huán)境,一定程度上解決了對(duì)場(chǎng)景要求比較嚴(yán)苛的問(wèn)題。不過(guò),多通道特征的學(xué)習(xí)和融合也在一定程度上增大了計(jì)算復(fù)雜度,降低了識(shí)別效率。

      雙流網(wǎng)絡(luò)框架通過(guò)模仿人體視覺(jué)形成過(guò)程,來(lái)理解視頻信息,以達(dá)到更好的視頻內(nèi)容理解能力。雙流網(wǎng)絡(luò)將分類(lèi)任務(wù)分成兩個(gè)模塊,一個(gè)處理圖像RGB信息,另一個(gè)處理光流信息,然后聯(lián)合訓(xùn)練CNN模型,融合兩個(gè)網(wǎng)絡(luò)的訓(xùn)練結(jié)果,得到動(dòng)作的類(lèi)別。Simonyan等人最先使用了雙流網(wǎng)絡(luò)進(jìn)行動(dòng)作識(shí)別,他們的方法后來(lái)成為相關(guān)研究的基準(zhǔn)之一。Feichtenhofer 等人在雙流網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,改進(jìn)了融合空域和時(shí)域的方法,以便更好地理解雙流框架中的時(shí)空信息。

      雙流網(wǎng)絡(luò)的應(yīng)用使得動(dòng)作識(shí)別精度上了一個(gè)臺(tái)階。然而,雙流網(wǎng)絡(luò)也存在一定的問(wèn)題,比如它不會(huì)專(zhuān)門(mén)分辨不同通道的差異性,不能很好區(qū)分冗余幀和背景等信息,而減弱了其整體特征表達(dá)能力。石祥濱等人提出了一種基于雙流時(shí)空注意力機(jī)制的端到端的動(dòng)作識(shí)別方法(end-to-end action recognition model based on two-stream network with spatio-temporal attention mechanism,T-STAM)。首先在雙流結(jié)構(gòu)中加入通道注意力來(lái)校準(zhǔn)包含的信息,然后設(shè)計(jì)時(shí)間注意力模型和多空間注意力模型來(lái)對(duì)關(guān)鍵幀上的動(dòng)作顯著區(qū)域進(jìn)行重點(diǎn)關(guān)注。實(shí)驗(yàn)表明,該方法在數(shù)據(jù)集UCF101 和HMDB51 上比近年來(lái)提出的其他先進(jìn)方法,取得了更高的精度。這也說(shuō)明,有效地區(qū)分不同通道特征,將注意力集中在關(guān)鍵時(shí)空信息上,能夠進(jìn)一步提高雙流網(wǎng)絡(luò)的效率。

      動(dòng)作識(shí)別問(wèn)題最重要的任務(wù)之一就是對(duì)時(shí)域維度的處理。如果能很好地處理時(shí)域信息,識(shí)別效果一定會(huì)顯著提升。而RNN能夠很好表達(dá)時(shí)序特征,適于處理動(dòng)態(tài)動(dòng)作序列。在各種RNN 模型中,LSTM性能優(yōu)異,可以完整地學(xué)習(xí)序列的空域和時(shí)域特征。Donahue 等人將CNN 與LSTM 相結(jié)合來(lái)提取視頻數(shù)據(jù)中的時(shí)空信息。該CNN-LSTM 框架首先基于CNN 來(lái)提取每幀圖像的特征,之后用LSTM 挖掘特征之間的時(shí)序關(guān)系來(lái)完成動(dòng)作識(shí)別,這種方法不僅精度高,速度也快。大多數(shù)之前的動(dòng)作識(shí)別方法,如卷積神經(jīng)網(wǎng)絡(luò)、雙流網(wǎng)絡(luò),使用的特征僅包含全局時(shí)域信息,而忽略了局部時(shí)序特征。為了解決這個(gè)問(wèn)題,楊珂等人提出了一種基于時(shí)序交互感知模塊的長(zhǎng)短時(shí)序關(guān)注網(wǎng)絡(luò)(long and short sequence concerned networks,LSCN),通過(guò)融合時(shí)序信息,利用不同卷積層時(shí)序特征的交互加強(qiáng),來(lái)表示不同時(shí)長(zhǎng)的動(dòng)作,在長(zhǎng)動(dòng)作和短動(dòng)作的識(shí)別上均有很好的效果。實(shí)驗(yàn)結(jié)果證明,此方法在UCF101 和HMDB51 兩個(gè)公共數(shù)據(jù)集上,比基礎(chǔ)的方法在精度上分別有0.4 個(gè)百分點(diǎn)和2.9 個(gè)百分點(diǎn)的提升。

      5.3 動(dòng)作識(shí)別方法總結(jié)

      由以上論述可見(jiàn),不同的動(dòng)作識(shí)別方法的算法結(jié)構(gòu)及所采用的特征描述各有不同,導(dǎo)致其適用范圍各有差別,并不存在可以解決所有的分類(lèi)問(wèn)題的完美算法。表2 列舉了以上提到的各種動(dòng)作分類(lèi)方法,并總結(jié)了它們的優(yōu)缺點(diǎn)。表中重點(diǎn)比較了各種方法在精度、魯棒性、計(jì)算復(fù)雜度、計(jì)算速度等方面的表現(xiàn),同時(shí)也保留了不同方法的一些其他特點(diǎn),簡(jiǎn)潔明了地展現(xiàn)了各種動(dòng)作分類(lèi)方法的優(yōu)勢(shì)與缺陷。而目前看來(lái),基于深度學(xué)習(xí)的方法和傳統(tǒng)方法相比,具有更高的精度和計(jì)算性能,例如,文獻(xiàn)[70]中開(kāi)發(fā)的雙流網(wǎng)絡(luò)方法,在UCF101 數(shù)據(jù)集上取得了88%的準(zhǔn)確率,比當(dāng)時(shí)最先進(jìn)的算法又提高了0.1 個(gè)百分點(diǎn);文獻(xiàn)[56]中采用的ST-GCN 方法,在NTU-RGB+D數(shù)據(jù)集上,在指標(biāo)cross-subject 上將當(dāng)時(shí)的最高準(zhǔn)確率提高了2 個(gè)百分點(diǎn)左右,在cross-view 上將當(dāng)時(shí)的最高準(zhǔn)確率提高了近4 個(gè)百分點(diǎn),可以說(shuō)是巨大的提升。而Peng 等人在NTU RGB+D 和Kinetics 數(shù)據(jù)集上,首次基于神經(jīng)架構(gòu)搜索自動(dòng)生成圖卷積結(jié)構(gòu),甚至將準(zhǔn)確率刷新到了95.7%。

      表2 動(dòng)作分類(lèi)方法總結(jié)Table 2 Summary of action classification methods

      6 動(dòng)作評(píng)價(jià)的研究現(xiàn)狀

      動(dòng)作評(píng)價(jià)是最近幾年逐步受到關(guān)注的研究課題,但目前尚未有明確的概念定義和理論闡述。從動(dòng)作評(píng)價(jià)的目的和主要處理過(guò)程來(lái)看,將動(dòng)作評(píng)價(jià)描述為:將輸入的“學(xué)習(xí)者”數(shù)據(jù)經(jīng)過(guò)動(dòng)作識(shí)別之后,與相對(duì)應(yīng)的“教師”數(shù)據(jù)進(jìn)行對(duì)比,結(jié)合定量指標(biāo)及專(zhuān)家知識(shí),評(píng)價(jià)“學(xué)習(xí)者”動(dòng)作的完成質(zhì)量,并給予“學(xué)習(xí)者”以動(dòng)作改進(jìn)的反饋。目前動(dòng)作評(píng)價(jià)相關(guān)的研究還比較少,但其在體育訓(xùn)練、醫(yī)療康復(fù)、藝術(shù)表演等真實(shí)場(chǎng)景下的迫切需求,使其逐漸成為新的研究熱點(diǎn)。

      動(dòng)作評(píng)價(jià)和動(dòng)作識(shí)別在整體處理流程上有共通之處(如圖1),也需要經(jīng)歷數(shù)據(jù)預(yù)處理和特征描述等步驟。并且,動(dòng)作識(shí)別往往是動(dòng)作評(píng)價(jià)的基礎(chǔ)和前提。但是,與動(dòng)作識(shí)別最大的不同在于:動(dòng)作評(píng)價(jià)不僅需要對(duì)動(dòng)作外觀進(jìn)行相似性判定,還需要專(zhuān)家知識(shí)的介入,對(duì)動(dòng)作的規(guī)范性、流暢性、藝術(shù)性等一些內(nèi)在的、隱含的特征進(jìn)行評(píng)價(jià)??梢哉J(rèn)為:正是因?yàn)樵黾恿藢?zhuān)家的經(jīng)驗(yàn),才使得對(duì)動(dòng)作的處理從分類(lèi)問(wèn)題向評(píng)價(jià)問(wèn)題轉(zhuǎn)變。因此,在深入分析相關(guān)工作之后,本文采取了以專(zhuān)家知識(shí)介入方式為依據(jù)的分類(lèi)方式,將當(dāng)前的動(dòng)作評(píng)價(jià)相關(guān)工作劃分為如下幾類(lèi):(1)為專(zhuān)家提供可視化工具,構(gòu)建專(zhuān)家經(jīng)驗(yàn)與定量參數(shù)間的聯(lián)系;(2)在特征描述中引入專(zhuān)家知識(shí);(3)基于專(zhuān)家知識(shí)制定動(dòng)作規(guī)范;(4)基于大數(shù)據(jù)的動(dòng)作評(píng)價(jià),采用大數(shù)據(jù)分析來(lái)替代專(zhuān)家知識(shí)。下面分別進(jìn)行介紹。

      6.1 動(dòng)作評(píng)價(jià)的可視化工具

      想要在動(dòng)作識(shí)別的基礎(chǔ)上加入專(zhuān)家知識(shí)其實(shí)是很困難的,這很大程度是因?yàn)樵S多領(lǐng)域的專(zhuān)家知識(shí)是專(zhuān)家常年積累出的感性感受,是一種經(jīng)驗(yàn)式的知識(shí),專(zhuān)家可能也不清楚影響動(dòng)作質(zhì)量的具體參數(shù)。因此,動(dòng)作評(píng)價(jià)的第一階段不是隨意增加專(zhuān)家知識(shí),而是為專(zhuān)家提供工具,使他們能夠更加全方位地、定量地、可視化地觀察各種動(dòng)作參數(shù),從而輔助專(zhuān)家發(fā)現(xiàn)規(guī)律。

      近年來(lái),不少研究者們開(kāi)發(fā)出了各種動(dòng)作評(píng)價(jià)系統(tǒng)。這些動(dòng)作評(píng)價(jià)系統(tǒng)無(wú)一例外都采用了對(duì)三維動(dòng)作數(shù)據(jù)的可視化手段。如陳學(xué)梅所開(kāi)發(fā)的高爾夫揮桿動(dòng)作評(píng)價(jià)系統(tǒng),能夠?qū)Ρ扔?xùn)練者進(jìn)行揮桿動(dòng)作時(shí)的關(guān)節(jié)角度與標(biāo)準(zhǔn)揮桿動(dòng)作的差異,并直觀地將差異展現(xiàn)出來(lái),輔助球員進(jìn)行練習(xí)。圖3 則提供了諾亦騰公司開(kāi)發(fā)的高爾夫評(píng)估和訓(xùn)練系統(tǒng)的應(yīng)用場(chǎng)景和軟件界面,從圖中可見(jiàn),其將動(dòng)作數(shù)據(jù)三維可視地顯示,用戶可以360°觀察動(dòng)作骨骼,并獲得重要?jiǎng)幼麝P(guān)節(jié)的數(shù)值。圖3(a)為運(yùn)動(dòng)員佩戴動(dòng)作捕捉設(shè)備進(jìn)行訓(xùn)練的實(shí)景展示,圖3(b)為高爾夫評(píng)價(jià)系統(tǒng)的界面。它可以提供運(yùn)動(dòng)員的關(guān)節(jié)角度、揮桿速度、加速度、動(dòng)力鏈等多項(xiàng)數(shù)據(jù),并可以與其他運(yùn)動(dòng)員進(jìn)行對(duì)比,幫助運(yùn)動(dòng)員更好地訓(xùn)練和提高。

      圖3 諾亦騰開(kāi)發(fā)的高爾夫評(píng)估和訓(xùn)練系統(tǒng):mySwingFig.3 Golf evaluation and training system developed by Noitom:mySwing

      京劇是一種非常復(fù)雜的藝術(shù)表演形式,很難進(jìn)行定量化動(dòng)作評(píng)價(jià)。最近,一些研究者在京劇動(dòng)作評(píng)價(jià)方面進(jìn)行了探索,他們充分利用了可視化工具來(lái)發(fā)現(xiàn)動(dòng)作規(guī)律。王臺(tái)瑞基于3D 動(dòng)捕設(shè)備采集的數(shù)據(jù),分析了京劇表演中專(zhuān)業(yè)表演者與學(xué)習(xí)者動(dòng)作的異同。他將表演者的三維動(dòng)作數(shù)據(jù)可視化為三維空間中的離散點(diǎn)集,通過(guò)研究點(diǎn)集的分布規(guī)律來(lái)進(jìn)行動(dòng)作評(píng)價(jià)。研究有9 個(gè)受試者,其中既有科班學(xué)生、戲曲學(xué)校學(xué)生(非科班)、有扎實(shí)舞蹈基礎(chǔ)的學(xué)生,也有其他的普通學(xué)生。結(jié)果發(fā)現(xiàn),得到京劇專(zhuān)家很高評(píng)分的學(xué)生,通過(guò)動(dòng)捕獲得的骨骼數(shù)據(jù)與專(zhuān)家之間的相似性并不一定高。因此要把數(shù)據(jù)和人類(lèi)感受很好地結(jié)合起來(lái)還是很具有挑戰(zhàn)性的。將動(dòng)作序列中的關(guān)鍵參數(shù)(如關(guān)節(jié)角度、關(guān)節(jié)變化速度、運(yùn)動(dòng)軌跡等)進(jìn)行可視化,并以直觀的方式進(jìn)行對(duì)比,可以為專(zhuān)家提供有力的分析工具,有望輔助于將定性的專(zhuān)家知識(shí)轉(zhuǎn)化為定量的動(dòng)作標(biāo)準(zhǔn),并發(fā)現(xiàn)動(dòng)作的內(nèi)在規(guī)律。這項(xiàng)工作可以作為動(dòng)作評(píng)價(jià)的必要模式,而其中復(fù)雜運(yùn)動(dòng)參數(shù)的可視化方法及分析策略可作為進(jìn)一步研究的要點(diǎn)。

      6.2 在特征描述中引入專(zhuān)家知識(shí)

      特征描述方法對(duì)于動(dòng)作評(píng)價(jià)具有重要意義。與動(dòng)作識(shí)別不同的是,動(dòng)作評(píng)價(jià)的特征描述不僅僅用來(lái)評(píng)價(jià)動(dòng)作外觀的相似性,更要能反映出此類(lèi)動(dòng)作的專(zhuān)業(yè)特征。因此,動(dòng)作評(píng)價(jià)的關(guān)鍵就是要引入更有科學(xué)性、專(zhuān)業(yè)性的特征描述。在這個(gè)問(wèn)題上,專(zhuān)家知識(shí)必不可少。

      在很多體育運(yùn)動(dòng)的動(dòng)作評(píng)價(jià)中,都可以在特征描述階段引入專(zhuān)家知識(shí)。例如,各種運(yùn)動(dòng)都有比較固定的評(píng)價(jià)規(guī)則,這些規(guī)則代表了裁判或?qū)<以谶M(jìn)行動(dòng)作評(píng)價(jià)時(shí)所關(guān)注的重點(diǎn),可以將這些規(guī)則轉(zhuǎn)化成容易評(píng)價(jià)的定量指標(biāo),從而用于動(dòng)作的相似性度量。

      所謂相似性度量,即綜合評(píng)定兩個(gè)事物之間相近程度的一種度量。將相似性度量引申運(yùn)用在人體動(dòng)作評(píng)價(jià)中,就是基于定量的評(píng)價(jià)指標(biāo),對(duì)“學(xué)習(xí)者”動(dòng)作與“教師”動(dòng)作進(jìn)行相似性比較,從而實(shí)現(xiàn)對(duì)動(dòng)作完成質(zhì)量的評(píng)價(jià)。這其中的關(guān)鍵點(diǎn)是:(1)由領(lǐng)域?qū)<掖_定應(yīng)采用哪些特征描述符作為動(dòng)作評(píng)價(jià)的指標(biāo);(2)如何定義樣本之間的相似性測(cè)度。

      上節(jié)中的陳學(xué)梅所研制出的高爾夫揮桿評(píng)價(jià)系統(tǒng),主要使用了和揮桿動(dòng)作聯(lián)系最緊密的關(guān)節(jié)角度的指標(biāo)。李奎的工作則根據(jù)對(duì)羽毛球揮拍動(dòng)作的研究,使用非定長(zhǎng)稠密軌跡算法來(lái)表征這些動(dòng)作,然后計(jì)算待分析動(dòng)作與標(biāo)準(zhǔn)動(dòng)作之間的切比雪夫距離來(lái)衡量它們的相似度。張曉瑩等人對(duì)兩名男子競(jìng)技健美操世界冠軍完成難度動(dòng)作C289 不同技術(shù)的運(yùn)動(dòng)學(xué)特征進(jìn)行深入分析與量化研究,并進(jìn)行相應(yīng)的技術(shù)診斷,揭示完成此難度的運(yùn)動(dòng)學(xué)特征與核心技術(shù),為運(yùn)動(dòng)員提高難度動(dòng)作成功率奠定基礎(chǔ),同時(shí)也為難度動(dòng)作的科學(xué)訓(xùn)練提供可靠的理論依據(jù)和實(shí)踐參考。Alexiadis 等人采用關(guān)節(jié)旋轉(zhuǎn)的四元數(shù)特征對(duì)舞蹈動(dòng)作進(jìn)行評(píng)價(jià),并基于此實(shí)現(xiàn)了動(dòng)作序列的評(píng)估。

      人們發(fā)現(xiàn)對(duì)于不同的專(zhuān)業(yè)動(dòng)作,各個(gè)身體關(guān)節(jié)在動(dòng)作中起到的作用是不同的,因此在動(dòng)作評(píng)價(jià)中,應(yīng)給各個(gè)關(guān)節(jié)賦予一個(gè)權(quán)重,由此可突出重點(diǎn)關(guān)節(jié)的作用。各關(guān)節(jié)的權(quán)重參數(shù)一般就需要根據(jù)專(zhuān)家經(jīng)驗(yàn)來(lái)設(shè)置,這種設(shè)置方式顯然具有一定的主觀性。也有人通過(guò)對(duì)動(dòng)作的分析來(lái)自動(dòng)為骨骼關(guān)節(jié)計(jì)算權(quán)重。如Patrona 等人提出了一種自動(dòng)和動(dòng)態(tài)加權(quán)的方法,根據(jù)動(dòng)作參與程度的差異,賦予關(guān)節(jié)相應(yīng)的權(quán)重,再整合基于動(dòng)能的描述符采樣,進(jìn)行相似性度量。隨后利用模糊邏輯提供語(yǔ)義反饋,指導(dǎo)用戶如何更準(zhǔn)確地執(zhí)行操作。

      由上述研究可以發(fā)現(xiàn),速度、加速度、關(guān)節(jié)角度等基本動(dòng)作參數(shù),往往并不能滿足動(dòng)作評(píng)價(jià)的需求,而需要在這些參數(shù)基礎(chǔ)上結(jié)合專(zhuān)家經(jīng)驗(yàn)進(jìn)行綜合分析與特征描述,以得出綜合的評(píng)價(jià)指標(biāo)。

      6.3 基于專(zhuān)家知識(shí)制定動(dòng)作規(guī)范

      確定動(dòng)作的特征描述方式之后,可以更進(jìn)一步基于專(zhuān)家知識(shí)建立動(dòng)作規(guī)范:即可依據(jù)此規(guī)范評(píng)估動(dòng)作做到何種程度可以被認(rèn)為是合格的、優(yōu)秀的或者是錯(cuò)誤的。

      在醫(yī)療康復(fù)訓(xùn)練的動(dòng)作評(píng)價(jià)中,制定動(dòng)作規(guī)范的方式比較常見(jiàn)。李睿敏針對(duì)發(fā)展性協(xié)調(diào)障礙疾病,提出了一種基于時(shí)域?yàn)V波卷積神經(jīng)網(wǎng)絡(luò)的動(dòng)作檢測(cè)方法,實(shí)現(xiàn)了交互過(guò)程中的精細(xì)動(dòng)作評(píng)估。Richter等人針對(duì)髖部外展、髖關(guān)節(jié)伸展和髖部彎曲這三種運(yùn)動(dòng)錯(cuò)誤進(jìn)行了研究。他們定義正確的運(yùn)動(dòng)練習(xí)動(dòng)作帶有類(lèi)別標(biāo)簽C,其余的類(lèi)別標(biāo)簽UB、FO、BK、WP和NBK 分別對(duì)應(yīng)不同的運(yùn)動(dòng)錯(cuò)誤,以此分析病人的動(dòng)作執(zhí)行情況,針對(duì)性地給出評(píng)價(jià)和指導(dǎo)。在康復(fù)醫(yī)療場(chǎng)景下,有很多與動(dòng)作相關(guān)的障礙性疾病,此類(lèi)疾病的臨床診斷通常是由專(zhuān)業(yè)醫(yī)師通過(guò)觀察和分析病人在一些特定動(dòng)作評(píng)估任務(wù)中的表現(xiàn)給出的。但醫(yī)師評(píng)估的花費(fèi)的時(shí)間長(zhǎng)、費(fèi)用昂貴,很難大規(guī)模篩查,因此,進(jìn)行自動(dòng)化動(dòng)作評(píng)價(jià)既能滿足計(jì)算機(jī)領(lǐng)域?qū)?dòng)作評(píng)價(jià)的研究需要,又能推進(jìn)自動(dòng)化醫(yī)療輔助診斷的發(fā)展。

      制定動(dòng)作規(guī)范的方式在其他領(lǐng)域中也有應(yīng)用。徐錚提出了一種24 式太極拳動(dòng)作評(píng)價(jià)方法。他首先通過(guò)與太極專(zhuān)家的交流溝通,建立了太極拳動(dòng)作原語(yǔ)庫(kù),然后據(jù)此制定了太極拳動(dòng)作相似度金字塔模型以及相應(yīng)的動(dòng)作規(guī)范。在此基礎(chǔ)上,采用典型相關(guān)分析(canonical correlation analysis,CCA)方法對(duì)動(dòng)作數(shù)據(jù)進(jìn)行局部關(guān)節(jié)特征向量相似度量,并依據(jù)所制定的動(dòng)作規(guī)范對(duì)用戶的太極拳動(dòng)作給出評(píng)價(jià)和指導(dǎo)建議。

      在運(yùn)動(dòng)或表演領(lǐng)域,“動(dòng)作評(píng)價(jià)”一般都是一種主觀方式,而基于專(zhuān)家知識(shí)來(lái)制定定量化動(dòng)作評(píng)價(jià)標(biāo)準(zhǔn)及動(dòng)作規(guī)范,則可以將原本比較模糊的評(píng)價(jià)任務(wù)變得清晰明確,使評(píng)價(jià)具有更好的客觀性和科學(xué)性。

      6.4 基于大數(shù)據(jù)的動(dòng)作評(píng)價(jià)

      在復(fù)雜表演動(dòng)作的評(píng)價(jià)方面,專(zhuān)家知識(shí)具有主觀性、模糊性和隱含性,很難獲得顯式的、定量化的表達(dá)。事實(shí)上,目標(biāo)動(dòng)作的特征都蘊(yùn)含在其動(dòng)作數(shù)據(jù)中,如果采用大數(shù)據(jù)分析的方式,通過(guò)對(duì)大量教師動(dòng)作(或?qū)<覄?dòng)作)的數(shù)據(jù)分析,也許能發(fā)現(xiàn)動(dòng)作中的合理評(píng)價(jià)標(biāo)準(zhǔn)。這種方式相當(dāng)于是采用大數(shù)據(jù)分析的手段來(lái)替代專(zhuān)家的主觀評(píng)價(jià),也許能夠?yàn)閷?zhuān)業(yè)動(dòng)作評(píng)價(jià)提供一種新的有效手段。

      現(xiàn)有的數(shù)據(jù)集中記錄的數(shù)據(jù)多為簡(jiǎn)單的日常動(dòng)作,并不能滿足專(zhuān)業(yè)領(lǐng)域動(dòng)作的識(shí)別和評(píng)價(jià),因此需要構(gòu)建專(zhuān)用的動(dòng)作數(shù)據(jù)集來(lái)實(shí)現(xiàn)專(zhuān)業(yè)動(dòng)作的大數(shù)據(jù)分析。呂默等人采集了大量高水平運(yùn)動(dòng)員的標(biāo)準(zhǔn)動(dòng)作,擴(kuò)充了MSR Action3D 數(shù)據(jù)集,再結(jié)合健美操?lài)?guó)際權(quán)威標(biāo)準(zhǔn)制備對(duì)比數(shù)據(jù)庫(kù),然后將骨骼特征與深度局部特征進(jìn)行傅里葉金字塔過(guò)濾并融合,根據(jù)融合特征進(jìn)行動(dòng)作的識(shí)別與評(píng)價(jià)?;诖朔椒ㄩ_(kāi)發(fā)的健美操輔助評(píng)審系統(tǒng)可以有效幫助裁判對(duì)競(jìng)技健美操難度動(dòng)作給出正確的分?jǐn)?shù)。

      基于大數(shù)據(jù)的動(dòng)作評(píng)價(jià)相關(guān)工作目前還非常少,呂默等也只是采用了傳統(tǒng)的分類(lèi)方法來(lái)對(duì)動(dòng)作數(shù)據(jù)進(jìn)行分類(lèi)與識(shí)別;尚需進(jìn)一步解決的問(wèn)題包括:專(zhuān)業(yè)動(dòng)作數(shù)據(jù)集的建設(shè)、適用于專(zhuān)業(yè)動(dòng)作評(píng)價(jià)的網(wǎng)絡(luò)構(gòu)建、評(píng)價(jià)結(jié)果的合理性評(píng)估等諸多問(wèn)題,有待研究者的進(jìn)一步探索。

      綜上所述,表3 列出了動(dòng)作評(píng)價(jià)相關(guān)方法的類(lèi)別、內(nèi)容和方法。

      表3 動(dòng)作評(píng)價(jià)方法總結(jié)Table 3 Summary of action evaluation methods

      7 結(jié)束語(yǔ)

      近年來(lái),人體動(dòng)作識(shí)別和動(dòng)作評(píng)價(jià)的相關(guān)研究獲得了長(zhǎng)足發(fā)展。本文首先給出了二者較為明確的概念定義,探討了二者之間存在的區(qū)別與聯(lián)系。以此為基礎(chǔ),從數(shù)據(jù)處理流程的角度出發(fā)系統(tǒng)地梳理了兩者的技術(shù)模塊,并將這兩類(lèi)問(wèn)題歸納到了一個(gè)統(tǒng)一的技術(shù)框架中。之后,依據(jù)該技術(shù)框架,對(duì)各個(gè)技術(shù)模塊的相關(guān)工作進(jìn)行了系統(tǒng)的介紹與分析。

      在動(dòng)作識(shí)別問(wèn)題上,隨著深度學(xué)習(xí)的應(yīng)用,普通動(dòng)作的識(shí)別精度已經(jīng)可以達(dá)到相當(dāng)高的程度,如前文提到的,Peng 等人在NTU RGB+D 和Kinetics 數(shù)據(jù)集上,已經(jīng)將識(shí)別準(zhǔn)確率刷新到了95.7%。雖然可以取得如此優(yōu)異的實(shí)驗(yàn)結(jié)果,但人體運(yùn)動(dòng)的高復(fù)雜性和多變化性使得當(dāng)前的識(shí)別方法并沒(méi)有完全滿足實(shí)際應(yīng)用需求。當(dāng)前存在的瓶頸及未來(lái)的研究重點(diǎn)包括:

      (1)缺乏標(biāo)注良好的大型數(shù)據(jù)集。雖然表1 給出了不少動(dòng)作識(shí)別相關(guān)數(shù)據(jù)集,但與圖像處理領(lǐng)域的諸多經(jīng)典數(shù)據(jù)庫(kù)(如ImageNet、MS-COCO、Open Images等)相比,其數(shù)據(jù)集的完備性和標(biāo)注程度還有待提高,動(dòng)作識(shí)別領(lǐng)域依然缺乏大規(guī)模且標(biāo)注良好的基準(zhǔn)數(shù)據(jù)集。在深度學(xué)習(xí)成為主流方法的當(dāng)今時(shí)代,標(biāo)注良好的大型數(shù)據(jù)集對(duì)動(dòng)作識(shí)別領(lǐng)域的發(fā)展具有十分關(guān)鍵的作用。今后在數(shù)據(jù)集建設(shè)中,一方面可以考慮進(jìn)一步細(xì)化動(dòng)作粒度,將數(shù)據(jù)集中的動(dòng)作進(jìn)行子動(dòng)作劃分及標(biāo)注;另一方面需要提供更豐富的標(biāo)注標(biāo)簽,例如對(duì)于視頻數(shù)據(jù)不僅提供動(dòng)作類(lèi)別標(biāo)簽,還可進(jìn)一步提供人體部位、骨架甚至與人體進(jìn)行互動(dòng)的環(huán)境物體等標(biāo)注。

      (2)大部分研究仍處于實(shí)驗(yàn)室階段,在實(shí)際應(yīng)用場(chǎng)景中的魯棒性不強(qiáng)。在實(shí)際應(yīng)用環(huán)境中所采集的數(shù)據(jù),大都存在著多人體目標(biāo)、遮擋、攝像機(jī)移位等干擾因素,目前方法對(duì)這些實(shí)際數(shù)據(jù)中的干擾能力還不夠強(qiáng),導(dǎo)致其實(shí)用化程度十分有限。一個(gè)可行的解決策略是采用多特征融合的方法,提高模型泛化能力,解決多樣化場(chǎng)景下的人體動(dòng)作識(shí)別問(wèn)題。一些研究者已經(jīng)在這方面做出了初步嘗試,例如文獻(xiàn)[74]采用了多通道特征融合的方式,文獻(xiàn)[75]則綜合考慮靜態(tài)、動(dòng)態(tài)和高層次特征,文獻(xiàn)[80]則融合了不同時(shí)長(zhǎng)的動(dòng)作特征。利用多特征融合的策略,這些方法在抗環(huán)境干擾方面都取得了不錯(cuò)的效果。該思路依然值得進(jìn)一步深入探討。

      (3)對(duì)于速度很快的動(dòng)作,尚無(wú)法達(dá)到滿意的識(shí)別效果。在一些專(zhuān)業(yè)運(yùn)動(dòng)領(lǐng)域,例如健美操等,其動(dòng)作密集而快速(如健美操中的各種空翻動(dòng)作),準(zhǔn)確識(shí)別出每一次的動(dòng)作難度依然很大。對(duì)于這種數(shù)秒內(nèi)完成多次的動(dòng)作,需要應(yīng)用更細(xì)粒度的數(shù)據(jù)標(biāo)簽進(jìn)行訓(xùn)練,而另一個(gè)值得考慮的思路是結(jié)合注意力機(jī)制,對(duì)關(guān)鍵幀中的快速動(dòng)作區(qū)域進(jìn)行重點(diǎn)關(guān)注,以提高識(shí)別效果。

      (4)尚缺乏對(duì)動(dòng)作中的語(yǔ)義信息的理解。如在京劇表演中相似的腿部姿態(tài)卻可能代表著不同的自然語(yǔ)義。但目前的動(dòng)作識(shí)別技術(shù)僅通過(guò)當(dāng)前動(dòng)作外觀進(jìn)行分類(lèi),很難對(duì)這種動(dòng)作的語(yǔ)義差別進(jìn)行區(qū)分。因此,借助上下文及環(huán)境等對(duì)動(dòng)作的語(yǔ)義信息進(jìn)行識(shí)別理解是一個(gè)重要的研究點(diǎn),該問(wèn)題研究也能為動(dòng)作評(píng)價(jià)打下良好的基礎(chǔ)。

      在動(dòng)作評(píng)價(jià)問(wèn)題上,當(dāng)前的研究還比較初步,目前出現(xiàn)的針對(duì)羽毛球、高爾夫球、康復(fù)醫(yī)療等專(zhuān)業(yè)領(lǐng)域的動(dòng)作評(píng)價(jià)工作,所針對(duì)的都是比較簡(jiǎn)單、標(biāo)準(zhǔn)化的動(dòng)作;其所采用的指標(biāo)也比較單一,主要考慮關(guān)節(jié)角度、速度、加速度等基本方位指標(biāo)。分析來(lái)看,動(dòng)作評(píng)價(jià)研究所面臨的關(guān)鍵問(wèn)題包括:

      (1)構(gòu)建符合專(zhuān)業(yè)評(píng)價(jià)要求的數(shù)字化評(píng)價(jià)標(biāo)準(zhǔn)。這是進(jìn)行專(zhuān)業(yè)動(dòng)作評(píng)價(jià)的關(guān)鍵問(wèn)題,其重點(diǎn)是需要將專(zhuān)業(yè)動(dòng)作規(guī)范及專(zhuān)家的感性認(rèn)知轉(zhuǎn)化為量化的指標(biāo)。目前雖然已經(jīng)有了一些相關(guān)的工作,但其方法主要針對(duì)特定的動(dòng)作領(lǐng)域,很難推廣,在這方面還沒(méi)有特別成熟而系統(tǒng)的方法。一種值得探索的方式是利用相似性度量算法自動(dòng)發(fā)現(xiàn)“學(xué)習(xí)者”動(dòng)作與“教師”動(dòng)作的差異之處,再進(jìn)一步結(jié)合專(zhuān)家知識(shí)或者直接啟發(fā)專(zhuān)家形成定量化動(dòng)作規(guī)范。

      (2)從“形似”到“神似”。當(dāng)前的動(dòng)作評(píng)價(jià)工作僅僅局限在外在動(dòng)作相似度的比較上。而一些專(zhuān)業(yè)領(lǐng)域的動(dòng)作,如京劇表演、舞蹈等,講究“以形傳神,形神兼?zhèn)洹保洳粌H要求在身段、身法上“形似”,還需要通過(guò)動(dòng)作、表情等將內(nèi)在的“神韻”表達(dá)出來(lái)。對(duì)這類(lèi)動(dòng)作的評(píng)價(jià)不能僅僅停留在動(dòng)作相似性的度量上,還需有平衡性、流暢性、穩(wěn)定性等更高級(jí)別特征的評(píng)估,需要思考如何在有形的“數(shù)據(jù)”和無(wú)形的“美感”之間搭建橋梁,實(shí)現(xiàn)更能反映藝術(shù)性的定量化評(píng)價(jià)。這方面的工作尚未見(jiàn)開(kāi)展,卻有重要研究意義。采用深度學(xué)習(xí)方法對(duì)大量表演數(shù)據(jù)進(jìn)行分析,從中發(fā)現(xiàn)高層次的藝術(shù)特征,也許可以作為一條可探索的思路。

      猜你喜歡
      特征描述骨骼動(dòng)作
      船舶尾流圖像的數(shù)字化處理和特征描述技術(shù)
      做家務(wù)的女性骨骼更強(qiáng)壯
      中老年保健(2021年5期)2021-12-02 15:48:21
      三減三健全民行動(dòng)——健康骨骼
      中老年保健(2021年5期)2021-08-24 07:06:28
      動(dòng)作描寫(xiě)要具體
      骨骼和肌肉
      小布老虎(2017年1期)2017-07-18 10:57:27
      目標(biāo)魯棒識(shí)別的抗旋轉(zhuǎn)HDO 局部特征描述
      畫(huà)動(dòng)作
      動(dòng)作描寫(xiě)不可少
      用于三維點(diǎn)云表示的擴(kuò)展點(diǎn)特征直方圖算法*
      非同一般的吃飯動(dòng)作
      固阳县| 嘉峪关市| 通海县| 新邵县| 新竹市| 侯马市| 齐河县| 海南省| 宁陵县| 临潭县| 平顺县| 衡山县| 郑州市| 新邵县| 南涧| 丰镇市| 库伦旗| 通化市| 尉氏县| 平南县| 巴林右旗| 平远县| 屏山县| 鄱阳县| 璧山县| 安宁市| 新泰市| 沙河市| 通河县| 额敏县| 惠东县| 元氏县| 措勤县| 九江市| 绥阳县| 永川市| 遂川县| 乌兰浩特市| 房产| 开江县| 搜索|