陸衛(wèi)忠,宋正偉,吳宏杰,曹 燕,丁漪杰 ,張 郁
(1.蘇州科技大學(xué)電子與信息工程學(xué)院,江蘇 蘇州 215009;2.江蘇省建筑智慧節(jié)能重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州 215009;3.蘇州工業(yè)園區(qū)工業(yè)技術(shù)學(xué)校,江蘇 蘇州 215123)
隨著智能監(jiān)控需求的不斷提高,監(jiān)控設(shè)備在學(xué)校、街道等人員密集區(qū)域被廣泛部署,給人們的日常生活帶來(lái)了安全性保障。在視頻監(jiān)控的處理過(guò)程中難免會(huì)遇到一些棘手的問(wèn)題,而如何在海量的視頻數(shù)據(jù)中實(shí)現(xiàn)人體行為檢測(cè)則是一個(gè)關(guān)鍵問(wèn)題[1]。人體行為檢測(cè)方法是視頻理解的一項(xiàng)關(guān)鍵技術(shù),也是近年來(lái)計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)研究熱點(diǎn),備受?chē)?guó)內(nèi)外學(xué)者的關(guān)注,其核心是結(jié)合人工智能技術(shù)、計(jì)算機(jī)視覺(jué)和模式識(shí)別等多領(lǐng)域知識(shí)實(shí)現(xiàn)對(duì)視頻圖像中人體運(yùn)動(dòng)的智能分析。
人體的行為檢測(cè)要求對(duì)人的行為具備一定的認(rèn)知與理解能力,便于檢測(cè)其內(nèi)在的異常事件。隨著拍攝設(shè)備的智能化發(fā)展,視頻圖像也呈現(xiàn)多樣化趨勢(shì)。采集的行為數(shù)據(jù)中視頻圖像種類(lèi)從黑白視頻的USC行人檢測(cè)USCD (USC pedestrian Detection)[2]數(shù)據(jù)集等變?yōu)槭謩?shì)識(shí)別數(shù)據(jù)集[3],從行為識(shí)別數(shù)據(jù)集UCF101[4]發(fā)展成攜帶距離信息的RGB-D數(shù)據(jù)集[5]。傳統(tǒng)的行為檢測(cè)方法大多采用人工提取特征的方法,借助檢測(cè)器從視頻圖像中尋找興趣點(diǎn),然后針對(duì)興趣點(diǎn)周邊空間,利用算子進(jìn)行特征建模,最后將特征輸入到分類(lèi)器,輸出分類(lèi)結(jié)果。這類(lèi)方法不僅過(guò)程復(fù)雜,而且識(shí)別的準(zhǔn)確率較低。而近年來(lái),深度學(xué)習(xí)[6]在目標(biāo)檢測(cè)、語(yǔ)音識(shí)別等領(lǐng)域展現(xiàn)了其獨(dú)特的魅力?;谏疃葘W(xué)習(xí)的算法模型模擬人的大腦對(duì)數(shù)據(jù)進(jìn)行處理,通過(guò)從低層特征到高層特征的有效行為進(jìn)行特征提取來(lái)實(shí)現(xiàn)對(duì)視頻圖像中人體行為的非線(xiàn)性描述[7]。相較于傳統(tǒng)的方法而言,基于深度學(xué)習(xí)的方法更適用于檢測(cè)視頻圖像中的人體行為。此外,“智慧城市”“平安校園”等一系列的安全項(xiàng)目的提出以及智能產(chǎn)業(yè)發(fā)展政策的出臺(tái),意味著國(guó)家對(duì)公共安全及智能技術(shù)產(chǎn)業(yè)的高度重視,將進(jìn)一步加大對(duì)智能安防領(lǐng)域的投資。因此,基于深度學(xué)習(xí)的人體行為檢測(cè)方法的研究,不僅展現(xiàn)了智能安防監(jiān)控在社會(huì)公共安全方面的應(yīng)用價(jià)值,還有助于經(jīng)濟(jì)效益的提升。
本文旨在對(duì)基于深度學(xué)習(xí)方法的人體行為檢測(cè)方法進(jìn)行論述,文章的組織結(jié)構(gòu)可分為4個(gè)部分:
(1)行為數(shù)據(jù)集:對(duì)4類(lèi)常用的公開(kāi)行為數(shù)據(jù)集進(jìn)行簡(jiǎn)要說(shuō)明。
(2)人體行為檢測(cè):總結(jié)近些年基于深度學(xué)習(xí)的人體行為檢測(cè)方法的研究狀況,對(duì)行為檢測(cè)的基本流程進(jìn)行了相關(guān)說(shuō)明。
(3)基于深度學(xué)習(xí)的行為檢測(cè)方法:分析了幾種常用的基于深度學(xué)習(xí)的行為檢測(cè)方法,如雙流卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Networks)、循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)和3D CNN等。
(4)研究難點(diǎn)與發(fā)展趨勢(shì)展望:對(duì)人體行為檢測(cè)及其數(shù)據(jù)采集模式的未來(lái)趨勢(shì)進(jìn)行了展望,同時(shí)從人的行為復(fù)雜性、檢測(cè)方法的局限性等方面闡述了當(dāng)前行為檢測(cè)方法的研究難點(diǎn)。
目前,國(guó)內(nèi)外有多個(gè)人體行為數(shù)據(jù)集可供科研人員下載和使用,可以更為便捷地驗(yàn)證相關(guān)算法的可行性。根據(jù)數(shù)據(jù)集的特點(diǎn)與獲取方式的不同,可將常用于人體行為識(shí)別的公開(kāi)數(shù)據(jù)集劃分為4類(lèi):通用數(shù)據(jù)集、真實(shí)場(chǎng)景數(shù)據(jù)集、多視角數(shù)據(jù)集和特殊數(shù)據(jù)集。
(1)通用數(shù)據(jù)集。
通用數(shù)據(jù)集包含受試者在受限場(chǎng)景下的一系列簡(jiǎn)單動(dòng)作,如KTH[8]和Weizman[9]數(shù)據(jù)集。其中,KTH數(shù)據(jù)集發(fā)布于2004年,提供了4類(lèi)場(chǎng)景下受試者的6種動(dòng)作:行走、跳躍、跑步、拳擊、揮手和拍手,數(shù)據(jù)集由25位受試者參與,包含了599個(gè)視頻,拍攝背景相對(duì)靜止。Weizman數(shù)據(jù)集發(fā)布于2005年,由以色列Weizman科學(xué)研究所錄制拍攝,包含了9位受試者的10種不同行為:行走、跑步、彎腰、前跳、側(cè)身跳、原地跳、全身跳、單腿跳、揮單手和揮雙手,共93個(gè)視頻,分辨率較低,拍攝背景和視角固定,且給出了場(chǎng)景中運(yùn)動(dòng)前景的輪廓。
(2)真實(shí)場(chǎng)景數(shù)據(jù)集。
真實(shí)場(chǎng)景數(shù)據(jù)集主要由從電影或者視頻中采集的數(shù)據(jù)構(gòu)建,如Hollywood[10]和UCF Sports[11]數(shù)據(jù)集。其中,UCF Sports數(shù)據(jù)集源自于BBC、YouTube等,涵蓋場(chǎng)景類(lèi)型與視角區(qū)域較廣,拍攝視角多樣化,包含10種動(dòng)作:跳水、打高爾夫、舉重、踢腿、跑步、騎馬、滑板、行走、平衡木和雙杠,共150個(gè)視頻,包含一系列子數(shù)據(jù)集,有一定的視角和場(chǎng)景變化。Hollywood數(shù)據(jù)集采集自32部好萊塢電影,包含8類(lèi)動(dòng)作:接電話(huà)、下車(chē)、握手、擁抱、接吻、坐下、坐著和起立,共計(jì)633個(gè)視頻樣本,樣本具有一個(gè)或多個(gè)標(biāo)簽,可分為2部分:采集自12部電影的2個(gè)訓(xùn)練集和采集自剩余20部電影的測(cè)試集,2個(gè)訓(xùn)練集包括1個(gè)自動(dòng)訓(xùn)練集和1個(gè)干凈訓(xùn)練集。其中,自動(dòng)訓(xùn)練集利用自動(dòng)腳本進(jìn)行行為標(biāo)注,包含233個(gè)視頻;干凈訓(xùn)練集具有手動(dòng)驗(yàn)證標(biāo)簽,包含219個(gè)視頻;測(cè)試集也具有手動(dòng)驗(yàn)證標(biāo)簽,包含211個(gè)視頻。
(3)多視角數(shù)據(jù)集。
多視角數(shù)據(jù)集提供了變化視角下研究行為的旋轉(zhuǎn)不變性的基準(zhǔn)數(shù)據(jù)集,常見(jiàn)的有IXMAS[12]和MuHAVi[13]數(shù)據(jù)集。其中,IXMAS數(shù)據(jù)集發(fā)布自法國(guó)的INRIA(Institute for Research in Computer Science and Automation),是多視角與3D研究的校驗(yàn)基石。該數(shù)據(jù)集從室內(nèi)的4個(gè)方向和頂部的1個(gè)方向進(jìn)行拍攝,包含13種行為:看表、抱胳膊、抓頭、坐下、起立、轉(zhuǎn)身、行走、揮手、拳擊、踢腿、指、彎腰撿和扔?xùn)|西,共計(jì)180個(gè)視頻。MuHAVi數(shù)據(jù)集最先是由英國(guó)工程和物理科學(xué)研究委員會(huì)EPSRC(Engineering and Physical Sciences Research Council)項(xiàng)目支持,目前由智力科學(xué)技術(shù)研究委員會(huì)CONICYT(COmision Nacional de Investigacion Cientificay Tecnologica)常規(guī)項(xiàng)目支持,包含8個(gè)視角的18種行為:來(lái)回走動(dòng)、跑步停止、拳擊、踢腿、強(qiáng)迫倒、拉重物、撿物扔、行走、摔倒、看車(chē)、膝蓋爬行、揮手、涂鴉、跳躍、醉走、爬梯、打碎物品和跳過(guò)間隙,數(shù)據(jù)集由7位受試者參與,共計(jì)952個(gè)視頻。
(4)特殊數(shù)據(jù)集。
特殊數(shù)據(jù)集指通過(guò)特殊技術(shù)(如運(yùn)動(dòng)傳感器、Kinect相機(jī)等)捕捉的動(dòng)作數(shù)據(jù)而形成的數(shù)據(jù)集,常見(jiàn)數(shù)據(jù)集有WARD[14]和UCF Kinect[15]數(shù)據(jù)集。其中,WARD數(shù)據(jù)集將無(wú)線(xiàn)運(yùn)動(dòng)傳感器放置在人體腰部、左右手腕和左右腳踝5個(gè)位置,構(gòu)成一個(gè)身體傳感器系統(tǒng),記錄了20位受試者在自然狀態(tài)下執(zhí)行的13種動(dòng)作:站著、坐著、躺著、前進(jìn)走、順時(shí)針走、逆時(shí)針走、左轉(zhuǎn)、右轉(zhuǎn)、上樓、下樓、跑步、跳躍和推輪椅,每種動(dòng)作重復(fù)執(zhí)行5次,共計(jì)1 298個(gè)行為樣本。UCF Kinect數(shù)據(jù)集利用微軟Kinect傳感器和OpenNI平臺(tái)估計(jì)骨架,采集了16位年齡在20~35歲的受試者的16種行為:平衡、上爬、爬梯、躲閃、單腿跳、跳躍、飛躍、跑步、踢腿、拳擊、左右扭、前進(jìn)走、后退和左右速移,每個(gè)動(dòng)作重復(fù)執(zhí)行5次,每幀包含15個(gè)關(guān)節(jié)點(diǎn)的3D坐標(biāo)與方向數(shù)據(jù),共計(jì)1 280個(gè)行為樣本。
人體行為檢測(cè)方法的研究起步于1997年,由美國(guó)國(guó)防部高級(jí)項(xiàng)目研究署DARPA(Defense Advanced Research Projects Agency)贊助的視覺(jué)監(jiān)控項(xiàng)目組VSAM(Video Surveillance and Monitoring)開(kāi)始了一系列的行為分類(lèi)研究[16]。波斯頓大學(xué)計(jì)算機(jī)研究室[17]、中央弗洛里達(dá)大學(xué)的視覺(jué)實(shí)驗(yàn)室[18]也相繼對(duì)異常行為檢測(cè)方法有了研究成果。
相較于國(guó)外的研究情況而言,雖然國(guó)內(nèi)相關(guān)研究起步較晚,但由于智能監(jiān)控的普及,一系列的研究工作也相繼展開(kāi)。中國(guó)科學(xué)院建立了異常行為分類(lèi)數(shù)據(jù)集(CASIA);Zhang等人[19]通過(guò)高斯混合模型GMM(Gaussian Mixed Model)與K均值(K-Means)聚類(lèi)算法相結(jié)合的方法對(duì)目標(biāo)物體進(jìn)行行為分類(lèi);香港中文大學(xué)的Li等人[20]對(duì)目標(biāo)進(jìn)行建模并提取人體的幾何特征,開(kāi)發(fā)了異常行為檢測(cè)系統(tǒng)。
近年來(lái),隨著計(jì)算資源的逐漸成熟,基于深度學(xué)習(xí)的行為分類(lèi)模型發(fā)展迅速,諸多的研究機(jī)構(gòu)與學(xué)者在行為分類(lèi)算法研究中采用了卷積神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)的方法。相關(guān)研究進(jìn)展如表1所示。
人體行為檢測(cè)的過(guò)程一般包括:目標(biāo)檢測(cè)與目標(biāo)跟蹤、特征提取和行為識(shí)別,具體如下所示:
(1)目標(biāo)檢測(cè)。
目標(biāo)檢測(cè)是行為理解、分析與識(shí)別的基礎(chǔ),負(fù)責(zé)從背景圖像中提取感興趣的運(yùn)動(dòng)前景區(qū)域,目標(biāo)檢測(cè)的準(zhǔn)確與否將直接影響后續(xù)工作。目前研究較多的目標(biāo)檢測(cè)算法有3個(gè):幀差法、背景差法和光流法[43]。
(2)目標(biāo)跟蹤。
目標(biāo)跟蹤研究的是如何快速、準(zhǔn)確且穩(wěn)定地對(duì)目標(biāo)進(jìn)行定位,常用跟蹤方法有4種:基于特征的跟蹤、基于區(qū)域的跟蹤、基于模型的跟蹤和基于主動(dòng)輪廓的跟蹤[44]。
(3)特征提取。
特征提取是將目標(biāo)視頻圖像中適合的特征數(shù)據(jù)提取出來(lái)后構(gòu)成特征向量來(lái)描述視頻圖像中人體行為狀態(tài)的一種技術(shù),常見(jiàn)特征主要有:外形特征、時(shí)空特征、運(yùn)動(dòng)特征以及兩兩結(jié)合的混合特征[45]。
(4)行為識(shí)別。
行為識(shí)別本質(zhì)上可看作是實(shí)現(xiàn)對(duì)數(shù)據(jù)的歸類(lèi)問(wèn)題,這類(lèi)數(shù)據(jù)會(huì)隨著時(shí)間發(fā)生變化,即比較待測(cè)目標(biāo)行為特征序列與已知的特定行為特征序列的相似性,相似性高者歸為一類(lèi),相似性低者歸為一類(lèi)[46]。常用行為識(shí)別方法有2種:基于模板匹配的識(shí)別方法和基于狀態(tài)空間的識(shí)別方法。
Table 1 Research of behavior detection methods based on deep learning表1 基于深度學(xué)習(xí)的行為檢測(cè)方法的研究分析
傳統(tǒng)特征提取方法一般是經(jīng)由人工觀(guān)察,然后手工設(shè)計(jì)能夠表征動(dòng)作特征的特征提取方法,可分成2部分:基于人體幾何或運(yùn)動(dòng)信息的特征提取和基于時(shí)空興趣點(diǎn)的特征提取。然而,傳統(tǒng)手工特征在處理不同的、復(fù)雜的場(chǎng)景中的光照、遮擋等問(wèn)題時(shí)并不具備普遍性,因此使用基于深度學(xué)習(xí)的方法提取學(xué)習(xí)特征或許效果更好?;谏疃葘W(xué)習(xí)的人體行為檢測(cè)方法通過(guò)可訓(xùn)練的特征提取模型以端到端的方式實(shí)現(xiàn)對(duì)視頻圖像的自學(xué)習(xí)行為表征,進(jìn)而實(shí)現(xiàn)行為分類(lèi)。圖1是基于深度學(xué)習(xí)的人體行為檢測(cè)方法的流程示意圖,常用的基于深度學(xué)習(xí)的檢測(cè)方法主要有:基于雙流卷積神經(jīng)網(wǎng)絡(luò)的檢測(cè)方法、基于殘差網(wǎng)絡(luò)的檢測(cè)方法、基于3D卷積神經(jīng)網(wǎng)絡(luò)的檢測(cè)方法和基于循環(huán)神經(jīng)網(wǎng)絡(luò)的檢測(cè)方法等。
Figure 1 Flow chart of human behavior detection based on deep learning圖1 基于深度學(xué)習(xí)的人體行為檢測(cè)流程圖
視頻包含時(shí)間與空間2部分信息,空間信息中每一幀表示的是場(chǎng)景、人體等表面信息,時(shí)間信息則指的是幀與幀之間的運(yùn)動(dòng)信息,包括相機(jī)與目標(biāo)物體的運(yùn)動(dòng)信息。Ng等人[25]提出了一種基于雙流網(wǎng)絡(luò)結(jié)構(gòu)的人體行為檢測(cè)方法,其認(rèn)為網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)該由2個(gè)深度網(wǎng)絡(luò)構(gòu)成,分別負(fù)責(zé)處理時(shí)間維度信息與空間維度信息。因此,雙流卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)可分為時(shí)間流卷積神經(jīng)網(wǎng)絡(luò)與空間流卷積神經(jīng)網(wǎng)絡(luò)2部分,且兩者具有相同的網(wǎng)絡(luò)結(jié)構(gòu)。時(shí)間流卷積神經(jīng)網(wǎng)絡(luò)通過(guò)計(jì)算視頻圖像序列相鄰2幀的光流圖像,可以實(shí)現(xiàn)對(duì)多幀堆疊的光流圖像的時(shí)序信息(Temporal Information)的提?。豢臻g流卷積神經(jīng)網(wǎng)絡(luò)則是提取RGB圖像中的空間特征(Spatial Feature),然后融合2個(gè)網(wǎng)絡(luò)的得分,最后輸出分類(lèi)結(jié)果?;陔p流卷積神經(jīng)網(wǎng)絡(luò)的檢測(cè)方法可有效提高視頻中行為信息的識(shí)別率。圖2是雙流卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)圖。每個(gè)網(wǎng)絡(luò)均由卷積神經(jīng)網(wǎng)絡(luò)CNN與Softmax構(gòu)成,Softmax之后的信息融合在打分時(shí)采取了平均和訓(xùn)練SVM 2種方法。
基于雙流卷積神經(jīng)網(wǎng)絡(luò)的檢測(cè)方法結(jié)合了時(shí)空信息,多幀密集光流有助于檢測(cè)性能的提升,在UCF 101和HMDB-51 2個(gè)數(shù)據(jù)集上具有較好的性能表現(xiàn)。雖然該方法的識(shí)別率較高,但需要預(yù)先提取視頻中的光流圖像,并且2個(gè)網(wǎng)絡(luò)是分開(kāi)訓(xùn)練的,耗時(shí)久,無(wú)法達(dá)到實(shí)時(shí)性的效果。
Figure 2 Structure of two-stream CNN圖2 雙流卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
在數(shù)理統(tǒng)計(jì)學(xué)中,殘差指實(shí)際觀(guān)察值與擬合值(估計(jì)值)間的差,在集成學(xué)習(xí)中可通過(guò)基模型來(lái)對(duì)殘差進(jìn)行模擬,從而提高模型的準(zhǔn)確度,而在深度學(xué)習(xí)中則有人通過(guò)使用層次結(jié)構(gòu)擬合殘差來(lái)提高深度神經(jīng)網(wǎng)絡(luò)的性能。殘差網(wǎng)絡(luò)可實(shí)現(xiàn)信號(hào)分流至下層,殘差塊則是構(gòu)成殘差網(wǎng)絡(luò)的重要元素,將多個(gè)殘差塊首尾相連即可構(gòu)成殘差網(wǎng)絡(luò),其基本結(jié)構(gòu)如圖3所示。針對(duì)深度學(xué)習(xí)中梯度消失和梯度爆炸的問(wèn)題,傳統(tǒng)的解決方法是初始化、正則化數(shù)據(jù),這樣雖解決了梯度問(wèn)題,卻加深了網(wǎng)絡(luò)的深度,影響了網(wǎng)絡(luò)性能,而利用殘差則易于訓(xùn)練深度網(wǎng)絡(luò),可以有效解決梯度問(wèn)題。通過(guò)將網(wǎng)絡(luò)梯度流從后期網(wǎng)絡(luò)層連接到早期網(wǎng)絡(luò)層,可提升網(wǎng)絡(luò)性能,進(jìn)而增強(qiáng)行為檢測(cè)的效果。
Figure 3 Basic structure of residual network圖3 殘差網(wǎng)絡(luò)基本結(jié)構(gòu)
對(duì)一個(gè)由幾何堆積而成的堆積層結(jié)構(gòu),假設(shè)輸入為x,則學(xué)習(xí)的特征為H(x);若其學(xué)習(xí)到殘差F(x)=H(x)-x,則原始學(xué)習(xí)特征為F(x)+x。圖3表示在殘差網(wǎng)絡(luò)中第2層進(jìn)行線(xiàn)性變化激活前,F(xiàn)(x)加入了該層輸入值x后再激活后輸出,該操作稱(chēng)作直連(shortcut)。
此外,F(xiàn)eichtenhofer等人[47]受到殘差網(wǎng)絡(luò)在圖像識(shí)別領(lǐng)域的應(yīng)用啟發(fā),提出了將殘差網(wǎng)絡(luò)與雙流卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的行為識(shí)別方法,實(shí)驗(yàn)表明,利用殘差網(wǎng)絡(luò)的2D卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別效果很好,但在處理大規(guī)模數(shù)據(jù)集時(shí),3D殘差神經(jīng)網(wǎng)絡(luò)的性能較2D殘差神經(jīng)網(wǎng)絡(luò)更佳。
卷積神經(jīng)網(wǎng)絡(luò)通過(guò)利用權(quán)值來(lái)解決普通神經(jīng)網(wǎng)絡(luò)中參數(shù)膨脹的問(wèn)題,在前向計(jì)算時(shí)用卷積核對(duì)輸入進(jìn)行卷積操作,并通過(guò)非線(xiàn)性函數(shù)將結(jié)果作為卷積層的輸出,而卷積層之間又有下采樣層,用于獲取局部特征的不變性,降低特征空間尺度[42]。最后則用一個(gè)全連接的神經(jīng)網(wǎng)絡(luò)進(jìn)行行為識(shí)別。
當(dāng)前大多數(shù)研究使用基于2D的卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)單幀圖像的CNN特征,卻忽略了連續(xù)幀之間的聯(lián)系,有丟失關(guān)鍵信息的可能,所以基于3D的卷積神經(jīng)網(wǎng)絡(luò)則成為新的選擇,利用3D卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)視頻行為表征是人體行為檢測(cè)的一個(gè)重要研究方向。圖4顯示了2D卷積神經(jīng)網(wǎng)絡(luò)與3D卷積神經(jīng)網(wǎng)絡(luò)的差異?;?D卷積神經(jīng)網(wǎng)絡(luò)的行為識(shí)別最先是由Ji等人[48]提出的,在KTH數(shù)據(jù)集上識(shí)別率較高,高達(dá)90.2%,其特點(diǎn)是從視頻圖像數(shù)據(jù)中提取時(shí)間特征與空間特征,捕捉視頻流的運(yùn)動(dòng)信息,進(jìn)而實(shí)現(xiàn)行為檢測(cè)。3D卷積神經(jīng)網(wǎng)絡(luò)的構(gòu)成要素是:1個(gè)硬連接層、3個(gè)卷積層、2個(gè)下采樣層和1個(gè)全連接層。硬連接層產(chǎn)生3個(gè)通道信息:灰度、梯度和光流,再在每個(gè)通道進(jìn)行卷積操作及下采樣操作,最后將全部的通道信息串聯(lián)起來(lái)實(shí)現(xiàn)最后的行為表征。
Figure 4 2D CNN and 3D CNN圖4 2D CNN與3D CNN
3D卷積神經(jīng)網(wǎng)絡(luò)對(duì)連續(xù)幀組成的立方體進(jìn)行特征提取,同時(shí)捕捉時(shí)間與空間維度的特征信息,一次處理多幀圖像,運(yùn)行速度較快,但計(jì)算開(kāi)銷(xiāo)較大,且對(duì)硬件的要求也很高。因此,為進(jìn)一步增強(qiáng)效果,目前研究人員開(kāi)始考慮結(jié)合雙流網(wǎng)絡(luò)的思想,利用光流圖像來(lái)提升性能。
傳統(tǒng)神經(jīng)網(wǎng)絡(luò)(包括CNN)的輸入與輸出是相互獨(dú)立的,在深度學(xué)習(xí)領(lǐng)域雖然進(jìn)展不錯(cuò),但隨著研究的深入,傳統(tǒng)神經(jīng)網(wǎng)絡(luò)對(duì)視頻、聲音等信息進(jìn)行表征時(shí)無(wú)法學(xué)習(xí)到當(dāng)前信息的邏輯順序,會(huì)忽略整體與部分的關(guān)聯(lián),丟失一些有價(jià)值的信息。故引入循環(huán)神經(jīng)網(wǎng)絡(luò)RNN。基于循環(huán)神經(jīng)網(wǎng)絡(luò)的行為檢測(cè)方法能有效利用相鄰視頻幀之間的時(shí)間相關(guān)性對(duì)視頻數(shù)據(jù)的人體行為的時(shí)序特征建模,但檢測(cè)效果不太理想,準(zhǔn)確率還有待提高。RNN的網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。Xt∈Rx表示t時(shí)刻的輸入,x是維度,表示該層的神經(jīng)元數(shù)量;Ht∈Rh表示t時(shí)刻隱藏層的輸出,假設(shè)該層有h個(gè)神經(jīng)元;Ot∈Ro表示t時(shí)刻的預(yù)測(cè)輸出,o表示輸出數(shù)據(jù)的維度。時(shí)間步t的隱藏變量計(jì)算由當(dāng)前時(shí)間步的輸入與上一時(shí)間步的隱藏變量共同決定。
Figure 5 Structure of RNN 圖5 RNN網(wǎng)絡(luò)結(jié)構(gòu)圖
雖然在時(shí)域動(dòng)態(tài)特征建模和特征學(xué)習(xí)2個(gè)方面RNN具有很好的效果,但普遍存在梯度消失的問(wèn)題,為解決該問(wèn)題,研究人員對(duì)普通RNN進(jìn)行擴(kuò)展,提出了長(zhǎng)短時(shí)記憶型RNN模型-LSTM[49],LSTM單元結(jié)構(gòu)如圖6所示。
Figure 6 Structure of LSTM unit圖6 LSTM單元結(jié)構(gòu)圖
Donahue等人[24]將CNN與LSTM相結(jié)合,提出了長(zhǎng)時(shí)遞歸卷積神經(jīng)網(wǎng)絡(luò)LRCN(Long-term Recurrent Convolutional Network)。該網(wǎng)絡(luò)的輸入是單獨(dú)的圖像或視頻中的一幀,通過(guò)對(duì)視頻數(shù)據(jù)進(jìn)行特征提取,得到一個(gè)定長(zhǎng)向量,用于表示數(shù)據(jù)特征,然后將其放到LSTM中學(xué)習(xí),最后得到視頻數(shù)據(jù)的行為特征,實(shí)現(xiàn)對(duì)目標(biāo)行為的檢測(cè),在UCF101數(shù)據(jù)集上獲得了82.92%的平均檢測(cè)準(zhǔn)確率?;谘h(huán)神經(jīng)網(wǎng)絡(luò)的檢測(cè)方法能夠很好地利用相鄰幀之間的時(shí)間相關(guān)性對(duì)視頻中人體行為的時(shí)序特征進(jìn)行建模,但識(shí)別率有待提高,除了可與CNN結(jié)合來(lái)提升性能,還可考慮與雙流網(wǎng)絡(luò)相結(jié)合。Wu等人[34]提出的雙流網(wǎng)絡(luò)與LSTM相結(jié)合的混合學(xué)習(xí)框架,將時(shí)間流與空間流提取的卷積特征作為L(zhǎng)STM網(wǎng)絡(luò)的輸入,以此對(duì)長(zhǎng)時(shí)時(shí)序進(jìn)行建模,在UCF 101數(shù)據(jù)集上具有較好的檢測(cè)效果,準(zhǔn)確率高達(dá)90.1%。
人體行為檢測(cè)是一個(gè)多學(xué)科融合的研究領(lǐng)域,涉及諸多的技術(shù)環(huán)節(jié),應(yīng)用范圍也較廣,其發(fā)展趨勢(shì)一方面受到如深度學(xué)習(xí)方法等相關(guān)技術(shù)發(fā)展的推動(dòng),另一方面又面臨著不斷變化的實(shí)際應(yīng)用需求所引發(fā)的如大范圍監(jiān)控環(huán)境下的群體行為識(shí)別等問(wèn)題。
(1)行為檢測(cè)發(fā)展趨勢(shì)。
人體行為檢測(cè)在各類(lèi)生活場(chǎng)景中具有非常重要的應(yīng)用價(jià)值,相關(guān)技術(shù)的應(yīng)用領(lǐng)域與研究范圍也在日益擴(kuò)展,行為檢測(cè)方法正逐漸從滿(mǎn)足理想與半理想的假設(shè)環(huán)境向現(xiàn)實(shí)環(huán)境進(jìn)行延伸。盡管近年來(lái)人體行為檢測(cè)研究領(lǐng)域取得了極大的進(jìn)步,但仍需要開(kāi)展大量的研究工作,其未來(lái)的研究方向可以考慮以下2個(gè)方面:
①結(jié)合語(yǔ)音信息的識(shí)別研究。
行為檢測(cè)在人體行為識(shí)別方面的分析不單是理論研究,將進(jìn)一步貼近社會(huì)實(shí)際需求,并在感知、網(wǎng)絡(luò)和算法等方面進(jìn)行更為廣泛的研究。此外,人類(lèi)交流過(guò)程中的語(yǔ)音也十分重要,語(yǔ)音信息內(nèi)容豐富但易受距離與環(huán)境影響。而現(xiàn)階段人體行為理解研究由于信息的缺乏只能局限于有限的特定姿勢(shì)識(shí)別,一旦姿勢(shì)視角有了變化,機(jī)器便難以理解。雖然目前語(yǔ)音與視頻圖像分析相對(duì)獨(dú)立,但有效結(jié)合語(yǔ)音與視覺(jué)方便機(jī)器理解進(jìn)而更好地實(shí)現(xiàn)行為的識(shí)別將是未來(lái)的一個(gè)趨勢(shì)和挑戰(zhàn)。
②高層次人體行為理解研究。
目前,單人行為檢測(cè)雖已取得突破性進(jìn)展,但人體的非剛性和特征的高位復(fù)雜性等問(wèn)題仍難以克服。此外,人體行為的理解還停留在簡(jiǎn)單行為與標(biāo)準(zhǔn)姿勢(shì)的識(shí)別分析上,而如何將行為檢測(cè)算法優(yōu)化至能夠?qū)崿F(xiàn)對(duì)人體行為進(jìn)行高層次的理解與描述也是當(dāng)前的研究難點(diǎn)。
(2)數(shù)據(jù)采集的大數(shù)據(jù)化趨勢(shì)。
隨著技術(shù)的不斷進(jìn)步,諸多的新型人體運(yùn)動(dòng)感知設(shè)備也不斷出現(xiàn),使得人體運(yùn)動(dòng)數(shù)據(jù)的多源與多樣化采集方式有了可能,采集的數(shù)據(jù)形式不僅包含了從2D空間的RGB圖像、3D時(shí)空的圖像序列到4D時(shí)空的RGBD圖像序列,還綜合考慮了采集時(shí)的人體姿勢(shì)視角、環(huán)境光照等采集條件。再加上用作訓(xùn)練的行為數(shù)據(jù)的質(zhì)量與規(guī)模均對(duì)行為檢測(cè)算法的結(jié)果優(yōu)劣有著重大的影響,尤其是深度學(xué)習(xí)方法的應(yīng)用更進(jìn)一步強(qiáng)化了識(shí)別算法對(duì)數(shù)據(jù)的依賴(lài)程度,出現(xiàn)了數(shù)據(jù)的大數(shù)據(jù)化采集需求。由此不難發(fā)現(xiàn),數(shù)據(jù)的大數(shù)據(jù)化采集與數(shù)據(jù)的自標(biāo)注將是行為識(shí)別領(lǐng)域的研究趨勢(shì)之一。
(3)模型性能與算法效率并行的趨勢(shì)。
根據(jù)行為檢測(cè)算法的性能分析可發(fā)現(xiàn),相較于自定義特征表示模型而言,多特征融合和基于學(xué)習(xí)特征的表示模型的識(shí)別效果更好。但是,在搭建復(fù)雜性更高的模型進(jìn)行行為識(shí)別時(shí)將難以避免算法效率的降低,所以從發(fā)展的角度看,二者并行提升將是順應(yīng)技術(shù)發(fā)展的必然趨勢(shì),具體可表現(xiàn)為低延時(shí)的高性能算法設(shè)計(jì)和基于融合特征模型的高效率識(shí)別算法設(shè)計(jì)2方面。
人工智能技術(shù)的發(fā)展極大促進(jìn)了行為檢測(cè)領(lǐng)域的發(fā)展,人體行為檢測(cè)則是當(dāng)前異常行為檢測(cè)的主要發(fā)展趨勢(shì)。近些年,機(jī)器學(xué)習(xí)方法的應(yīng)用雖然在行為檢測(cè)中獲得了較好的進(jìn)展,但就整體而言,仍存在不少問(wèn)題有待解決。
(1)利用視頻圖像進(jìn)行行為檢測(cè),不僅要考慮背景的復(fù)雜性與多樣性,還需考慮光照強(qiáng)度、遮擋物等因素,以及圖像分辨率等數(shù)據(jù)質(zhì)量問(wèn)題。
(2)人是一個(gè)高復(fù)雜性的研究目標(biāo),行為多樣且不一,對(duì)于復(fù)雜度較高的行為的定義與分類(lèi)難以明確。此外,人的年齡不同、性別不同、文化程度不同、心理變化不同以及不同的身體實(shí)際狀態(tài)都會(huì)對(duì)行為產(chǎn)生一定的影響,而這些差異對(duì)用于識(shí)別的數(shù)據(jù)庫(kù)卻是十分重要的。
(3)基于深度學(xué)習(xí)的行為檢測(cè)方法因GPU與CPU的限制無(wú)法實(shí)現(xiàn)在模型中對(duì)整幅視頻圖像提取特征,只能利用連續(xù)幀之間的信息冗余性提取部分幀代替,或是利用整幅視頻圖像平均提取特征,無(wú)法很好地區(qū)分運(yùn)動(dòng)信息,可能丟失關(guān)鍵行為信息。
(4)缺乏統(tǒng)一的、大規(guī)模的、高質(zhì)量的行為數(shù)據(jù)庫(kù),現(xiàn)有的數(shù)據(jù)集中的動(dòng)作類(lèi)不一,難以評(píng)價(jià)不同檢測(cè)方法的性能優(yōu)劣。有限的行為類(lèi)與樣本數(shù)量是當(dāng)前的一個(gè)局限性所在,而且現(xiàn)有的數(shù)據(jù)集采集時(shí)所用相機(jī)的拍攝視角受限度較大,大多視角單一且固定,且拍攝的場(chǎng)景較為理想,難以實(shí)現(xiàn)復(fù)雜場(chǎng)景下的多個(gè)人體目標(biāo)的群體行為檢測(cè)。
人體行為檢測(cè)的研究最初僅是對(duì)人體行為信息的簡(jiǎn)單分析,之后逐步發(fā)展到對(duì)規(guī)則行為與特殊行為的檢測(cè),最終提升至現(xiàn)在的從高層次角度理解行為信息。結(jié)合當(dāng)前的研究狀況可知,人體行為檢測(cè)方法的分析與研究目前還停留在理論研究的層面,仍需深入研究感知、網(wǎng)絡(luò)和算法等,并盡量貼合人類(lèi)行為的真實(shí)需求。從未來(lái)的發(fā)展趨勢(shì)來(lái)看,對(duì)人體行為檢測(cè)而言,基于深度學(xué)習(xí)的檢測(cè)方法無(wú)疑是一個(gè)很有效的手段。隨著技術(shù)的不斷發(fā)展與進(jìn)步,今后人體行為檢測(cè)應(yīng)該向適用范圍廣、可靠性強(qiáng)、便捷實(shí)用、辨識(shí)度高和抗干擾性強(qiáng)的方向發(fā)展,并融入交通服務(wù)、智慧城市建設(shè)和智能家居等社會(huì)領(lǐng)域,從而在社會(huì)公共安全等方面發(fā)揮重要作用。