基于深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)的人體行為識(shí)別研究

2020-05-25 11:07:46胡韜

科技傳播 2020年6期

胡韜

1 深度學(xué)習(xí)在人體行為識(shí)別的應(yīng)用現(xiàn)狀

美國(guó)、歐洲對(duì)人體行為識(shí)別已開(kāi)展了深入的研究，國(guó)內(nèi)的研究機(jī)構(gòu)比如中科院、浙江大學(xué)對(duì)人體行為識(shí)別也積極地開(kāi)展了研究。人體行為識(shí)別中已有各種算法，而把深度學(xué)習(xí)技術(shù)應(yīng)用于人體行為識(shí)別于近幾年來(lái)才慢慢開(kāi)展。深度學(xué)習(xí)在人體行為識(shí)別中進(jìn)展迅速并且有著不錯(cuò)的表現(xiàn)，長(zhǎng)時(shí)遞歸卷積神經(jīng)網(wǎng)絡(luò)、雙數(shù)據(jù)流卷積神經(jīng)網(wǎng)絡(luò)在不同的數(shù)據(jù)集中都能表現(xiàn)良好，并且所用的特征提取方法代替了原先低效、復(fù)雜的人工特征提取。因此，深度學(xué)習(xí)在人體行為識(shí)別有著巨大的研究?jī)r(jià)值和潛力。

2 人體行為識(shí)別數(shù)據(jù)集

在人體行為識(shí)別中有兩個(gè)常用的簡(jiǎn)單數(shù)據(jù)集：Weizmann 數(shù)據(jù)集和KTH 數(shù)據(jù)集。這兩個(gè)數(shù)據(jù)收集人體行為數(shù)據(jù)，將數(shù)據(jù)分成樣本集和標(biāo)簽集。Weizmann 數(shù)據(jù)集發(fā)布于2005 年，標(biāo)簽集中共包含10 種人體行為，分別為走路、跑步、前跳、跑步、彎腰、揮單手、揮雙手、原位置跳、連續(xù)跳和單腳跳，數(shù)據(jù)集一共90 個(gè)視頻，視頻的分辨率為180×44。KTH 數(shù)據(jù)集發(fā)布于2004 年，由25 個(gè)實(shí)驗(yàn)員在4 個(gè)場(chǎng)景中完成，標(biāo)簽集中共有6 種人體行為，分別為拳擊，拍手，揮手，慢跑和走路，一共包含600 個(gè)視頻，視頻的分辨率為160×120。

3 深度學(xué)習(xí)特征提取方法

在深度學(xué)習(xí)特征提取方法之前，大量采用了人工特征提取方法，即人基于自己的經(jīng)驗(yàn)從視頻中找出所需要的特征。2013 年，iDT 算法逐漸被廣泛接受和使用，其準(zhǔn)確率和效率遠(yuǎn)遠(yuǎn)高于傳統(tǒng)的人工特征提取方法，但其計(jì)算過(guò)程較復(fù)雜。而深度學(xué)習(xí)的算法在某些方面表現(xiàn)更優(yōu)，深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)一般由以下3 種結(jié)構(gòu)組成：卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和全連接神經(jīng)網(wǎng)絡(luò)，通過(guò)這三種不同的結(jié)構(gòu)可以組合出無(wú)數(shù)種神經(jīng)網(wǎng)絡(luò)，適用于不同的特征提取情況。在組合出神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)以后，我們通過(guò)已有的數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)，正向傳播得到預(yù)測(cè)值，通過(guò)預(yù)測(cè)值和真實(shí)值之間的差距，反向傳播不斷調(diào)整神經(jīng)網(wǎng)絡(luò)中的參數(shù)，直到參數(shù)達(dá)到最佳值，保存模型和最佳值，用于特征提取。

4 雙通道深度卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計(jì)

4.1 雙通道深度卷積神經(jīng)網(wǎng)絡(luò)行為識(shí)別的基本思想

雙通道深度卷積神經(jīng)網(wǎng)絡(luò)模仿人類(lèi)大腦視覺(jué)皮層的信息處理，人類(lèi)大腦視覺(jué)皮層的信息處理有兩個(gè)通道：一個(gè)通道用于對(duì)目標(biāo)物體的感知，另一個(gè)通道用于處理物體的動(dòng)作信息的處理。雙通道深度卷積神經(jīng)網(wǎng)絡(luò)采用了雙通道來(lái)獲取視頻信息，空間通道用于獲取物體的靜態(tài)特征，時(shí)間通道用于獲取物體的動(dòng)態(tài)特征，最后綜合空間和時(shí)間通道信息來(lái)綜合分析和判斷。

4.2 雙通道深度卷積神經(jīng)網(wǎng)絡(luò)總體結(jié)構(gòu)設(shè)計(jì)

雙通道深度卷積神經(jīng)網(wǎng)絡(luò)通過(guò)兩個(gè)通道來(lái)獲取信息，空間通道處理視頻中每一幀的圖像信息，時(shí)間通道處理光流圖像信息，最后將兩個(gè)通道的信息融合來(lái)分析最終結(jié)果，如圖1。時(shí)間通道處理光流圖像信息基于高精度光流估算算法，該算法有以下假設(shè)：像素值連續(xù)假設(shè)，即視頻中同一像素點(diǎn)在位置發(fā)生變化以后，像素點(diǎn)的值不發(fā)生變化；光滑性假設(shè)：位移場(chǎng)在物體的邊緣處保持連續(xù)。在以上假設(shè)的基礎(chǔ)上，我們可以用能量方程和歐拉-拉格朗日定理對(duì)光流圖像信息進(jìn)行提取。在提取水平和豎直方向的光流值后，將光流值存入一張RBG 圖片的三個(gè)通道值，得到一張彩色圖片，即實(shí)現(xiàn)光流信息的表達(dá)。

圖1

4.3 雙通道深度卷積神經(jīng)網(wǎng)絡(luò)具體設(shè)計(jì)

雙通道深度卷積神經(jīng)網(wǎng)絡(luò)空間通道結(jié)構(gòu)基于VGGNet 卷積神經(jīng)網(wǎng)絡(luò)，一共有13 個(gè)卷積層和三個(gè)全連接層，具體如下：

輸入層的圖像采用224×224 的彩色三通道RGB圖像，并隨即調(diào)整圖像的順序。

第一復(fù)合卷積層共包含兩個(gè)卷積層和一個(gè)池化層，兩個(gè)卷積層的卷積核的大小都為3×3，兩個(gè)卷積核的個(gè)數(shù)都是64，步長(zhǎng)為1。池化層采用最大池化，池化層的窗口大小為2×2，步長(zhǎng)為2。

第二復(fù)合卷積層包含兩個(gè)卷積層和一個(gè)池化層，兩個(gè)卷積層的卷積核的大小都為3×3，兩個(gè)卷積核的個(gè)數(shù)都是128，步長(zhǎng)為1。池化層采用最大池化，池化層的窗口大小為2×2，步長(zhǎng)為2。

第三復(fù)合卷積層包含三個(gè)卷積層和一個(gè)池化層，三個(gè)卷積層的卷積核的大小都為3×3，三個(gè)卷積核的個(gè)數(shù)都是256，步長(zhǎng)為1。池化層采用最大池化，池化層的窗口大小為2×2，步長(zhǎng)為2。

第四復(fù)合卷積層包含三個(gè)卷積層和一個(gè)池化層，三個(gè)卷積層的卷積核的大小都為3×3，三個(gè)卷積核的個(gè)數(shù)都是512，步長(zhǎng)為1。池化層采用最大池化，池化層的窗口大小為2×2，步長(zhǎng)為2。

圖2

第五復(fù)合卷積層包含三個(gè)卷積層和一個(gè)池化層，三個(gè)卷積層的卷積核的大小都為3×3，三個(gè)卷積核的個(gè)數(shù)都是512，步長(zhǎng)為1。池化層采用最大池化，池化層的窗口大小為2×2，步長(zhǎng)為2。

全連接層共包含三個(gè)全連接層，第一個(gè)全接連層包含4 096 個(gè)神經(jīng)元，第二個(gè)全連接層也包含4 096 個(gè)神經(jīng)元，第三個(gè)全連接層的神經(jīng)元個(gè)數(shù)根據(jù)識(shí)別類(lèi)別個(gè)數(shù)確定。前兩個(gè)全連接層都采用dropout 策略，以防止過(guò)擬合。

最后一個(gè)輸出層采用softmax 分類(lèi)器，對(duì)各個(gè)類(lèi)別的概率進(jìn)行計(jì)算。

雙通道深度卷積神經(jīng)網(wǎng)絡(luò)空間通道結(jié)構(gòu)如圖2所示。雙通道深度卷積神經(jīng)網(wǎng)絡(luò)時(shí)間通道結(jié)構(gòu)和空間通道的網(wǎng)絡(luò)結(jié)構(gòu)類(lèi)似，在全連接層的神經(jīng)元個(gè)數(shù)有所不同，神經(jīng)元的個(gè)數(shù)從4 096 改成1 024?？臻g通道和時(shí)間通道的激活函數(shù)都采用Relu 函數(shù)。

雙通道深度卷積神經(jīng)網(wǎng)絡(luò)空間通道和時(shí)間通道的層數(shù)都較深，有16 層，但因?yàn)榫矸e核的個(gè)數(shù)有限，總共的參數(shù)并不多，因此訓(xùn)練的收斂時(shí)間較快。通道中用到連續(xù)卷積層，這樣能夠提高準(zhǔn)確率，突出圖像特征。模型中大量采用了小卷積的網(wǎng)絡(luò)結(jié)構(gòu)，該結(jié)構(gòu)不僅能夠加強(qiáng)網(wǎng)絡(luò)的特征提取能力，還能夠大量減少參數(shù)的個(gè)數(shù)。

5 結(jié)語(yǔ)

本文從4 個(gè)方面闡述了深度學(xué)習(xí)在人體行為識(shí)別中的應(yīng)用：深度學(xué)習(xí)在人體行為識(shí)別的應(yīng)用現(xiàn)狀、兩大重要的人體行為識(shí)別數(shù)據(jù)集、深度學(xué)習(xí)特征提取方法和雙通道深度卷積神經(jīng)網(wǎng)絡(luò)。重點(diǎn)闡述了雙通道深度卷積神經(jīng)網(wǎng)絡(luò)的原理、結(jié)構(gòu)和具體設(shè)計(jì)。