基于自動(dòng)編碼器與概率神經(jīng)網(wǎng)絡(luò)的人體運(yùn)動(dòng)行為識(shí)別方法

2018-02-01 20:25:31李興肖秦琨

軟件導(dǎo)刊 2018年1期

李興+肖秦琨

摘要：

為了準(zhǔn)確而快速地識(shí)別出圖像中人體的某種行為特征，提出了一種全新的三層自動(dòng)編碼器與PNN概率神經(jīng)網(wǎng)絡(luò)結(jié)合的網(wǎng)絡(luò)模型。把人體行為的關(guān)鍵幀從包含10種人體行為的視頻庫中提取出來，用背景減除法提取人體輪廓圖并進(jìn)行二值化圖像處理，根據(jù)時(shí)間序列疊加輪廓圖，組成含有10個(gè)特征輪廓的數(shù)據(jù)庫，隨后將特征輪廓數(shù)據(jù)在自動(dòng)編碼器中編碼，編好碼的特征數(shù)據(jù)隨即進(jìn)入概率神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練學(xué)習(xí)。將訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)對這10種人體行為進(jìn)行準(zhǔn)確識(shí)別。實(shí)驗(yàn)結(jié)果表明，經(jīng)過自動(dòng)編碼器處理后的人體特征進(jìn)行PNN神經(jīng)網(wǎng)絡(luò)識(shí)別，比單純用BP神經(jīng)網(wǎng)絡(luò)識(shí)別準(zhǔn)確率提高5%以上，由此證明該方法有效可行。

關(guān)鍵詞：

人體行為識(shí)別；自動(dòng)編碼器；PNN概率神經(jīng)網(wǎng)絡(luò)；BP神經(jīng)網(wǎng)絡(luò)

DOIDOI：10.11907/rjdk.173068

中圖分類號(hào)：TP301

文獻(xiàn)標(biāo)識(shí)碼：A文章編號(hào)文章編號(hào)：16727800（2018）001001103

Abstract：In order to identify the behavior characteristics of the human body accurately and quickly， this paper proposes a new network model combining the three layer automatic encoder with the PNN probabilistic neural network. The first step of the key frames extracted from human behavior includes 10 kinds of human behavior video library， the second step with the background subtraction method to extract the body contour map and binarization image processing， according to the time sequence superimposed contour map containing 10 component feature contour database， with the data after feature contour in the auto encoder encoding， coding and feature data code immediately into the probabilistic neural network learning and training， the trained neural network is good for accurate identification of these 10 kinds of human behavior. The experimental results show that the recognition accuracy of PNN neural network is 5% higher than that of the pure BP neural network， and the validity and feasibility of the method are verified.

Key Words：human behavior recognition； autoencoder； BP neural network； probabilistic neural network

0引言

人體姿態(tài)識(shí)別在智能視頻監(jiān)控、動(dòng)態(tài)人機(jī)交互、無人汽車駕駛等[12]領(lǐng)域應(yīng)用廣泛，是模式識(shí)別的一大熱門研究方向。人體運(yùn)動(dòng)在時(shí)間和空間上都很復(fù)雜，因此需要有一個(gè)前期處理的清晰圖像，目的在于提取有效的運(yùn)動(dòng)特征。

視頻幀進(jìn)行處理的方法有3種：背景剪除法、差分法和光流法，檢測出人體行為區(qū)域，然后將該區(qū)域作為研究對象，從中獲得人體行為特征[35]。Bobick和Davis 提出的基于視頻的輪廓提取方法[6]，剪除從背景場景中獲取的有效輪廓特征，從視頻中提取人體行為輪廓圖。因?yàn)槎祱D像（Binary Image）按名字理解只有兩個(gè)值：0和1，0代表黑，1代表白，或者說0表示背景， 1表示前景。每個(gè)像素存儲(chǔ)信息只需要1Bit。把每個(gè)像素當(dāng)作隨機(jī)變量，圖像一共有N個(gè)像素，那么二值圖有2的N次方種變化，RGB圖像有255*255*255的N次方種變化。彩色圖像維度高，神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)間長，需要將圖像轉(zhuǎn)化為二值圖像便于后期神經(jīng)網(wǎng)絡(luò)訓(xùn)練。使用內(nèi)邊界跟蹤法提取二值圖像的邊界即人體行為特征輪廓，最終建立人體行為特征輪廓庫，以進(jìn)行深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練識(shí)別。

運(yùn)用多層感知機(jī)（MLP）[7]以及學(xué)習(xí)向量，量化神經(jīng)網(wǎng)絡(luò)（LVQNN）[8]在人體步態(tài)識(shí)別研究中的數(shù)據(jù)。一旦樣本數(shù)量龐大，其網(wǎng)絡(luò)訓(xùn)練將變得極其緩慢，并且識(shí)別率欠佳?；赯ernike和BP神經(jīng)網(wǎng)絡(luò)的步態(tài)識(shí)別[9]技術(shù)，前提是人體背景必須單一且不能有噪聲，因此該技術(shù)實(shí)用性不足。為此，采用升級(jí)的三層自動(dòng)編碼器，結(jié)合PNN神經(jīng)網(wǎng)絡(luò)組成的APNN（Autoencoder PNN）模型對樣本學(xué)習(xí)并分類。

基于運(yùn)動(dòng)的人體姿態(tài)識(shí)別研究，是在肢體動(dòng)作內(nèi)容基礎(chǔ)上，在系統(tǒng)學(xué)習(xí)時(shí)將運(yùn)動(dòng)序列中的每一幅圖像從背景中分割出來，并根據(jù)序列的間隔順序結(jié)合輪廓，建立一個(gè)組合的疊加輪廓圖像，利用疊加圖像集訓(xùn)練自動(dòng)編碼器和PNN神經(jīng)網(wǎng)絡(luò)，最后建立串聯(lián)的三層自動(dòng)編碼器和PNN神經(jīng)網(wǎng)絡(luò)模型，利用該模型進(jìn)行行為識(shí)別。

2運(yùn)動(dòng)數(shù)據(jù)特征描述

2.1實(shí)驗(yàn)數(shù)據(jù)庫建立

從以色列魏茨曼科學(xué)院計(jì)算機(jī)視覺實(shí)驗(yàn)室Weizmann數(shù)據(jù)庫中下載捕獲的人體運(yùn)動(dòng)數(shù)據(jù)，行為庫包含10種人體行為，即行走、奔跑、側(cè)行、雙腳跳、單腳跳、揮手跳、原地跳、彎腰、單臂揮手和雙臂揮手。endprint

2.2人體運(yùn)動(dòng)行為輪廓圖

背景減除法通過當(dāng)前圖像與背景圖像的差分，對所得差分圖像用合適的閾值二值化后得到完整運(yùn)動(dòng)目標(biāo)。利用背景減除法對當(dāng)前幀圖像Ik（x，y）與已知背景Ibg（x，y）做差，則差分后圖像dk（x，y）=Ik（x，y）-Ibg（x，y）。

二值輪廓特征提取首先是內(nèi)邊界跟蹤，步驟如圖1所示。

2.3疊加輪廓圖

由于人體行為是一組時(shí)間序列的動(dòng)態(tài)特征數(shù)據(jù)，為了精確表達(dá)出運(yùn)動(dòng)特征，要在前階段的二值輪廓圖像上，根據(jù)時(shí)間序列順序，結(jié)合8個(gè)動(dòng)作序列的圖像，勾勒成一個(gè)二進(jìn)制疊加圖像。

如動(dòng)作序列B={bi}i=1：n， bi是第i幀的輪廓圖像，根據(jù)時(shí)間序列順序，結(jié)合K個(gè)動(dòng)作序列圖像勾勒成一個(gè)二進(jìn)制疊加圖像。一個(gè)雙臂揮手疊加輪廓圖像通過視頻第1、3、5、7、9、11、13、15幀的二值化輪廓圖像構(gòu)成。總共建立了744個(gè)疊加輪廓圖庫，分為10種動(dòng)作，每種動(dòng)作有5個(gè)，單個(gè)圖片為1600個(gè)像素點(diǎn)，長40，寬40，每個(gè)動(dòng)作類包括足夠的訓(xùn)練樣本。

3神經(jīng)網(wǎng)絡(luò)

3.1自動(dòng)編碼器

自動(dòng)編碼器可以看作最基本的神經(jīng)網(wǎng)絡(luò)，它由三層網(wǎng)絡(luò)組成：第一層輸入層，第二層隱含層，第三層輸出層，編碼器在編碼過程中可以用作數(shù)據(jù)的降維以及特征值提取[10]。本文選取的隱含層為三層，第一層1000個(gè)節(jié)點(diǎn)，第二層500個(gè)節(jié)點(diǎn)，第三層100節(jié)點(diǎn)，逐層用于輸入圖像的降維處理，最終在編碼器輸出100維的數(shù)據(jù)，使后邊概率神經(jīng)網(wǎng)絡(luò)的訓(xùn)練學(xué)習(xí)縮短了處理時(shí)間，提高了網(wǎng)絡(luò)學(xué)習(xí)效率。自動(dòng)編碼器是輸入到隱含層h的映射，數(shù)據(jù)編碼過程見公式（1）。

實(shí)驗(yàn)中，先將像素為40×40的二值化特征圖像數(shù)據(jù)自動(dòng)編碼，逐層進(jìn)行圖像編碼，就是對1 600的圖像降維成100維的圖像數(shù)據(jù)，逐層降維。第一層隱含層輸出層為1 000個(gè)節(jié)點(diǎn)，編碼后1 600維降維成1 000維，第二層隱含層500個(gè)節(jié)點(diǎn)，1 000維降維成500維，第三層隱含層100個(gè)節(jié)點(diǎn)，40×40圖像最終降維成10×10的圖像。

3.2基于神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練

744個(gè)疊加特征輪廓圖包含10個(gè)人9個(gè)不同的動(dòng)作，現(xiàn)在經(jīng)PNN神經(jīng)網(wǎng)絡(luò)隱含層、輸出層訓(xùn)練，輸入層為100個(gè)節(jié)點(diǎn)代表10個(gè)人9個(gè)不同動(dòng)作，不斷調(diào)整隱含層權(quán)值更新，直到達(dá)到一個(gè)穩(wěn)定的權(quán)值，從而分類出行為姿態(tài)，即輸出層為10個(gè)節(jié)點(diǎn)，如圖2所示。

3.3PNN神經(jīng)網(wǎng)絡(luò)

概率神經(jīng)網(wǎng)絡(luò)是一種特殊的徑向基網(wǎng)絡(luò)[12]，其理論精髓是建立在最小錯(cuò)誤率的貝葉斯決策理論上。貝葉斯分類器在樣本有錯(cuò)誤時(shí)分類效果大打折扣，而概率神經(jīng)網(wǎng)絡(luò)因?yàn)榱己玫娜蒎e(cuò)能力和自我學(xué)習(xí)調(diào)整參數(shù)正好彌補(bǔ)了這一弱點(diǎn)，在實(shí)際分類識(shí)別中效果很好。概率神經(jīng)網(wǎng)絡(luò)分為輸入層、隱含層和輸出層三層。其中，輸入層將自動(dòng)編碼器降維的人體動(dòng)作特征向量輸入網(wǎng)絡(luò)，輸入層個(gè)數(shù)為1 600，等于樣本特征的個(gè)數(shù)。隱含層根據(jù)高斯公式（6）計(jì)算特征向量及與各個(gè)模式的相似程度，然后將每個(gè)類別通過高斯公式計(jì)算的相似度累加求和后取平均值，得到輸入樣本的所屬類別，輸出層神經(jīng)元的數(shù)量等于樣本矢量的個(gè)數(shù)，高斯公式如下：

3.4連接自動(dòng)編碼器與PNN神經(jīng)網(wǎng)絡(luò)

編碼器把每個(gè)疊加特征圖降維處理，輸入層1 600節(jié)點(diǎn)，第一層隱含層輸出層為1 000個(gè)節(jié)點(diǎn)，第二層隱含層500個(gè)節(jié)點(diǎn)，第三層隱含層100個(gè)節(jié)點(diǎn)，40×40圖像降維成10×10的圖像；接下來把90個(gè)不同人不同動(dòng)作的圖像特征輸入PNN神經(jīng)網(wǎng)絡(luò)。輸入層90節(jié)點(diǎn)、隱含層500節(jié)點(diǎn)、輸出層10個(gè)節(jié)點(diǎn)表示10個(gè)不同動(dòng)作，經(jīng)過網(wǎng)絡(luò)自我訓(xùn)練，最終得到輸出為10個(gè)不同動(dòng)作的目標(biāo)，網(wǎng)絡(luò)拓?fù)鋱D如圖3所示。

4實(shí)驗(yàn)

隨機(jī)選取70%的樣本（521個(gè)樣本）來訓(xùn)練網(wǎng)絡(luò)，剩下的30%樣本（223個(gè)樣本）是測試樣本。15%正交測試，15%普通測試，最大的訓(xùn)練周期或迭代次數(shù)是1 000。實(shí)驗(yàn)中70%的樣本（521個(gè)樣本）訓(xùn)練深層網(wǎng)絡(luò)，得到識(shí)別率是95.5%， 15%的樣本（223個(gè)樣本）正交測試得到識(shí)別率是75.5%，最后全體樣本測試得到識(shí)別率是91.8%，見圖4、圖5、圖6。10個(gè)行為動(dòng)作經(jīng)過APNN深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的識(shí)別率ROC曲線如圖7所示，交叉熵函數(shù)擬合網(wǎng)絡(luò)最優(yōu)解出現(xiàn)在第12次迭代時(shí)，如圖8所示。

5結(jié)語

本文提出一種全新的三層自動(dòng)編碼器與PNN神經(jīng)網(wǎng)絡(luò)結(jié)合的神經(jīng)網(wǎng)絡(luò)模型，從視頻中提取出人體行為關(guān)鍵幀，通過背景減除法提取人體輪廓圖，然后進(jìn)行二值化圖像處理，并依據(jù)時(shí)間序列疊加輪廓圖組成特征輪廓數(shù)據(jù)庫，將特征輪廓數(shù)據(jù)放入自動(dòng)編碼器中進(jìn)行編碼，編好碼的特征數(shù)據(jù)隨即進(jìn)入PNN神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練學(xué)習(xí)，經(jīng)過訓(xùn)練好的深度神經(jīng)網(wǎng)絡(luò)用于識(shí)別未知的人體行為。

實(shí)驗(yàn)證明，本文的深度神經(jīng)網(wǎng)絡(luò)在樣本數(shù)據(jù)的人體運(yùn)動(dòng)識(shí)別率達(dá)91.8%（見表1），與普通BP神經(jīng)網(wǎng)絡(luò)和PNN神經(jīng)網(wǎng)絡(luò)相比，訓(xùn)練時(shí)間縮短，識(shí)別率得到提高。

參考文獻(xiàn)：

[1]胡瓊，秦磊，黃慶明.基于視覺的人體動(dòng)作識(shí)別綜述[J].計(jì)算機(jī)學(xué)報(bào)，2013，36（12）：25122524.

[2]曲建嶺，杜辰飛，邸亞洲，等.深度自動(dòng)編碼器的研究與展望[J].計(jì)算機(jī)與現(xiàn)代化，2014（8）：128134.

[3]黃凱奇，任偉強(qiáng)，譚鐵牛.圖像物體分類與檢測算法綜述[J].計(jì)算機(jī)學(xué)報(bào)，2013，36（12）：118.

[4]莫林，廖鵬，劉勛.一種基于背景減除與三幀差分的運(yùn)動(dòng)目標(biāo)檢測算法[J].微計(jì)算機(jī)信息，2009（12）：274276.

[5]陳燕萍.基于背景減除的運(yùn)動(dòng)目標(biāo)檢測算法研究[D].廈門：廈門大學(xué)，2008.

[6]BOBICK A F， DAVIS J W. The Recognition of human movement using temporal templates[M]. IEEE Computer Society， 2001.

[7]后銳，張畢西，HOURUI，等.基于MLP神經(jīng)網(wǎng)絡(luò)的區(qū)域物流需求預(yù)測方法及其應(yīng)用[J].系統(tǒng)工程理論與實(shí)踐，2005，25（12）：4347.

[8]段明秀，何迎生.基于LVQ神經(jīng)網(wǎng)絡(luò)的手寫字母識(shí)別[J].吉首大學(xué)學(xué)報(bào)：自科版，2010，31（2）：4143.

[9]賈楷熙，薛靜.基于Zernike矩和BP網(wǎng)絡(luò)的步態(tài)識(shí)別技術(shù)研究[J].西北工業(yè)大學(xué)學(xué)報(bào)，2010，28（5）：669673.

[10]鄧俊鋒，張曉龍.基于自動(dòng)編碼器組合的深度學(xué)習(xí)優(yōu)化方法[J].計(jì)算機(jī)應(yīng)用，2016，36（3）：697702.

[11]劉勘，袁蘊(yùn)英.基于自動(dòng)編碼器的短文本特征提取及聚類研究[J].北京大學(xué)學(xué)報(bào)：自然科學(xué)版，2015，51（2）：282288.

[12]郭聯(lián)金，羅炳軍，GUOLIANJIN，等.PNN與BP神經(jīng)網(wǎng)絡(luò)在鋼板表面缺陷分類中的應(yīng)用研究[J].機(jī)電工程，2015，32（3）：352357.

（責(zé)任編輯：杜能鋼）endprint