• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于3D卷積神經(jīng)網(wǎng)絡(luò)的人體行為識別方法

      2017-12-02 15:08:12張穎袁和金
      軟件導(dǎo)刊 2017年11期
      關(guān)鍵詞:池化立方體特征提取

      張穎 袁和金

      摘要:

      為了提高視頻中人體行為識別的準(zhǔn)確率,更好地利用視頻中的原始信息,提取出更具有代表性的特征,提出一種基于3D卷積神經(jīng)網(wǎng)絡(luò)的人體行為識別方法。該方法構(gòu)建了一個深層三維卷積神經(jīng)網(wǎng)絡(luò)模型,使用三維卷積核進行卷積操作,提取視頻中人體行為的時域和空域特征,通過多層卷積操作對底層特征進行再組合,得到抽象的高維特征。在KTH數(shù)據(jù)集上的實驗結(jié)果表明,該方法有較好的識別效果。

      關(guān)鍵詞關(guān)鍵詞:

      人體行為識別;3D卷積神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí)

      DOIDOI:10.11907/rjdk.172515

      中圖分類號:TP301

      文獻標(biāo)識碼:A文章編號文章編號:16727800(2017)011000903

      0引言

      智能視頻分析一直是具有重要學(xué)術(shù)價值的研究領(lǐng)域,人體行為識別作為該領(lǐng)域必不可少的一部分,成為新的研究熱點,在智能視頻監(jiān)控、高級人機交互、體育運動分析和基于內(nèi)容的視頻檢索等方面有著廣闊的應(yīng)用前景。

      目前主流的人體行為識別方法大多使用人工設(shè)計的特征對視頻中的人體運動進行表征,如輪廓、剪影、HOG、Harris、SIFT以及這些特征在三維上的擴展等。人工設(shè)計特征是一種利用人類智慧和先驗知識,將這些知識應(yīng)用到目標(biāo)和行為識別技術(shù)中的很好方式[1]。但這種方式需要人工發(fā)掘能夠表現(xiàn)運動的特征,而人工選擇的特征有時較難表現(xiàn)出動作的本質(zhì)特征,對識別結(jié)果影響較大。

      深度學(xué)習(xí)作為機器學(xué)習(xí)的重要發(fā)展,能夠自動學(xué)習(xí)合適的表示特征,因而在眾多領(lǐng)域得到了廣泛應(yīng)用。其典型應(yīng)用之一的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN),它繼承了深度神經(jīng)網(wǎng)絡(luò)強大的特征提取能力,模擬人腦認(rèn)知過程的多層次模型結(jié)構(gòu),建立特征層次結(jié)構(gòu)以獲得更有效的特征,通過局部感知、權(quán)值共享等減少訓(xùn)練參數(shù),在圖像處理方面有著突出表現(xiàn)。卷積神經(jīng)網(wǎng)絡(luò)最早由Fuksushima[2]提出,之后,LeCun等對神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)等進行了大規(guī)模改進,先后出現(xiàn)了如LeNet5[3]、AlexNet[4]、VGGNet[5]、GoogleNet[6]和ResNet[7]等一系列具有良好性能的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),這些網(wǎng)絡(luò)在被應(yīng)用到各類不同的圖像識別任務(wù)中時有不錯的表現(xiàn)。

      視頻作為相互關(guān)聯(lián)的圖像在時間維度上的連續(xù)序列,同樣可以通過卷積神經(jīng)網(wǎng)絡(luò)進行處理。為了利用CNN的良好特性識別視頻中的人體行為,本文構(gòu)建了3DCNN模型,通過三維卷積操作對視頻中的人體行為進行時域和空域的特征提取。

      1卷積神經(jīng)網(wǎng)絡(luò)

      卷積神經(jīng)網(wǎng)絡(luò)主要由特征提取和分類器兩部分組成,其中特征提取部分由多個卷積層和下采樣層交疊組成,分類器一般使用一層或兩層全連接神經(jīng)網(wǎng)絡(luò)。圖像數(shù)據(jù)無需過多預(yù)處理直接作為網(wǎng)絡(luò)輸入,經(jīng)過多個特征提取階段后連接分類器得到輸出。

      (1)卷積層。卷積層包括一系列可學(xué)習(xí)的卷積核,卷積核有一個很小的感受域,局部感受區(qū)域以一定步長在輸入圖像上滑動并卷積,計算像素的點積加偏置后,通過一個激活函數(shù)產(chǎn)生一個激活映射輸出,通過卷積操作提取圖像的局部特征得到特征圖,遍歷整個原始圖像之后得到的所有輸出組成特征圖。

      (2)下采樣層。原始圖像經(jīng)過卷積操作幾乎不損失信息,如果將卷積操作后得到的特征直接進行分類,將產(chǎn)生很大的計算量。另外,原始圖像中豐富的細(xì)節(jié)信息容易使網(wǎng)絡(luò)出現(xiàn)過擬合現(xiàn)象。通過下采樣可以逐步減小特征圖規(guī)模,計算量也隨之減少,分類變得較為容易,也使特征具有平移、縮放不變性。通常的做法是在卷積層之間加入池化層,具體方法包括平均池化、最大池化、隨機池化等。

      23D卷積神經(jīng)網(wǎng)絡(luò)

      3D卷積神經(jīng)網(wǎng)的輸入是多個連續(xù)幀堆疊在一起的立方體,可以在3個尺度上同時提取特征。通過三維卷積核,可以對連續(xù)的多個幀進行特征提取,特征立方體可以連接到上一層中的多個連續(xù)幀,從而捕獲一段時間內(nèi)的運動信息。

      (1)3D 卷積層。3D卷積神經(jīng)網(wǎng)中的卷積核是三維立方體,在網(wǎng)絡(luò)當(dāng)中,卷積層中的每個特征立方體都可與上一層中多個鄰近的連續(xù)幀相連,進行卷積操作。三維卷積過程如圖1所示,一個特征立方體某一位置的值是通過卷積上一層的多個連續(xù)幀同一位置的局部感受得到的。

      第k層隱含層第m個特征立方體位置 (x, y, z) 處神經(jīng)元的輸出值計算公式如下:

      vxyzkm=f(bkm+Pk-1p=0Qk-1q=0Rk-1r=0wpqrkmnu(x+p)(y+q)(z+r)(k-1)n) (1)

      式中,v為第k層(x, y, z)處的輸出,u為第k-1層隱含層到第k層的輸入,第k層卷積核大小為Pk ×Qk×Rk,f(·)是激活函數(shù),bkm為該特征立方體共享的偏置,n為k-1層與當(dāng)前特征立方體連接的特征立方體索引;wpqrkmn為第k層第m個特征圖位置(p, q, r)上的神經(jīng)元和k-1層第n個特征圖之間的權(quán)值。

      (2)3D下采樣層。在將視頻序列輸入3D卷積神經(jīng)網(wǎng)中時,如果想要表達完整的動作信息,就要持續(xù)采集較長的連續(xù)幀,使數(shù)據(jù)量急劇增加。所以同時在時間、空間維度上進行三維下采樣,逐步縮小特征圖規(guī)模,減少卷積層之間的連接,也能起到降低訓(xùn)練難度、提高訓(xùn)練準(zhǔn)確率的目的。同2D卷積神經(jīng)網(wǎng)一樣,常用的下采樣方法也有最大池化、平均池化、隨機池化等。三維最大池化公式如下:

      vx,y,z=max0≤i≤S1,0≤j≤S2,0≤k≤S3(ux×s+i,y×t+j,z×r+k)(2)

      式中,u為池化層三維輸入向量,v為池化后得到的輸出,s、t、r分別為3個方向的采樣步長。采樣后特征圖尺寸減少,計算量也會大大減少,同時網(wǎng)絡(luò)對時間域和空間域上的變化更加魯棒。

      33D卷積神經(jīng)網(wǎng)絡(luò)框架構(gòu)建

      本文構(gòu)建的3D卷積神經(jīng)網(wǎng)絡(luò)框架如圖2所示,1個輸入層、5個3D卷積層和5個3D池化層互相交錯穿插,最終連接兩個全連接層后得到分類結(jié)果。endprint

      第一層為輸入層。由連續(xù)15個相鄰視頻幀的灰度圖像組成,尺寸為120×160。C1~C5為卷積層,每層的卷積核均為3×3×3,卷積核數(shù)量由16~256依次遞增,以便從低級的特征組合產(chǎn)生更多類型的高層特征;S1~S5層為下采樣層,使用最大池化方法,降低特征圖分辨率,縮小特征圖規(guī)模,減小計算量,提高對輸入圖像畸變的容忍能力。其中S2、S4層使用2×2×2的窗口同時對時間維度和空間維度進行下采樣,其它層使用1×2×2的窗口,只在空間維度上進行下采樣。D1層是全連接層,包含256個神經(jīng)元。S5層輸出的特征立方體與D1層的256個神經(jīng)元相連。D2層是第二個全連接層同時也是輸出層,神經(jīng)元個數(shù)為6,與目標(biāo)類別數(shù)目相同。D2層每個神經(jīng)元與D1層256個神經(jīng)元全連接,最后由分類器softmax回歸進行分類,得出能夠標(biāo)記行為類別的輸出。

      4實驗結(jié)果及分析

      4.1數(shù)據(jù)集

      本文在KTH人體行為數(shù)據(jù)集上進行實驗。KTH數(shù)據(jù)庫包括在4個不同場景下25個人完成的6類動作(walking、jogging、running、boxing、hand waving和hand clapping),共計600個視頻,每個視頻中相同行為進行了3~4次,總共可提取出2 391段視頻樣本,包含了尺度變化、衣著變化和光照變化。本文選取數(shù)據(jù)集25人中的16人作為訓(xùn)練樣本,9人作為測試樣本。

      4.2實驗過程

      實驗首先將數(shù)據(jù)集中的人體行為視頻處理為灰度模式,提取一個動作序列中的15幀關(guān)鍵幀作為本文構(gòu)建的3D卷積神經(jīng)網(wǎng)的原始視頻輸入,每幀大小為120×160。其中,卷積層使用的卷積核大小為3×3×3,D卷積層C1~C5和全連接層D1使用ReLU作為激活函數(shù),輸出層D2使用Softmax作為激活函數(shù),優(yōu)化函數(shù)使用SGD(隨機梯度下降)函數(shù),學(xué)習(xí)率為0.01,損失函數(shù)使用多類交叉熵函數(shù)。訓(xùn)練迭代50次,每訓(xùn)練10個樣本進行一次梯度計算。

      4.3結(jié)果及分析

      圖3顯示了在本文構(gòu)建的3D CNN模型下,KTH數(shù)據(jù)集上訓(xùn)練次數(shù)和人體行為識別準(zhǔn)確率的關(guān)系曲線??梢钥闯霰疚臉?gòu)建的模型在進行30輪左右的訓(xùn)練后開始收斂,訓(xùn)練好的網(wǎng)絡(luò)擁有較好的人體行為識別效果。

      圖3訓(xùn)練次數(shù)與人體行為識別準(zhǔn)確率關(guān)系曲線

      表1給出了KTH數(shù)據(jù)集上一些常用的人體行為識別方法的識別準(zhǔn)確率[810]。本文構(gòu)建的3D卷積神經(jīng)網(wǎng)模型識別準(zhǔn)確率為91.67%,高于Ji[8]構(gòu)建的3D CNN模型。Ji構(gòu)建的3D卷積神經(jīng)網(wǎng)模型只有2層卷積層,每層卷積核數(shù)較少,較少的卷積核只能提取出少量特征,而較少的卷積層層數(shù),則使網(wǎng)絡(luò)無法提取出更為抽象的高層特征。本文構(gòu)建的網(wǎng)絡(luò)模型,使用了多層卷積層,卷積核數(shù)依次增加,后面的卷積層可以通過對前面卷積層提取出的特征進行組合,得到更加抽象的特征。

      另外可以看出,使用HOG、光流、SIFT等人工設(shè)計特征的模型相對準(zhǔn)確率較高,其原因是這類方法通常需要對視頻進行充分的預(yù)處理,然后進行特征提取,而在復(fù)雜環(huán)境下,視頻中難以提取到足以描述復(fù)雜行為的準(zhǔn)確特征。而本文方法不依賴于人工設(shè)計的各種特征,輸入網(wǎng)絡(luò)的是原始視頻數(shù)據(jù),利用深度神經(jīng)網(wǎng)絡(luò)強大的自學(xué)習(xí)能力,從大量訓(xùn)練樣本中自行習(xí)得人體行為特征。隨著層數(shù)加深,學(xué)習(xí)到的特征會更加抽象,更加能夠從本質(zhì)上描述不同的人體行為,同樣取得了較好的識別效果。

      5結(jié)語

      本文構(gòu)建了識別視頻中人體行為的3D卷積神經(jīng)網(wǎng),通過3D卷積神經(jīng)網(wǎng)對視頻中的人體行為進行識別。使用3D卷積神經(jīng)網(wǎng)可以將原始視頻數(shù)據(jù)進行簡單預(yù)處理后直接作為網(wǎng)絡(luò)輸入,同傳統(tǒng)的人工提取行為特征的方法相比,避免了傳統(tǒng)行為識別算法中復(fù)雜的特征提取和數(shù)據(jù)重建過程,能夠充分利用原始視頻數(shù)據(jù)信息,捕捉深層次特征;同2D卷積神經(jīng)網(wǎng)絡(luò)相比,3D卷積核可以同時在時間維度上進行特征提取,讓網(wǎng)絡(luò)自行學(xué)習(xí)時間維度上的特征,使得人體行為識別更加準(zhǔn)確。該模型在KTH數(shù)據(jù)集上有較好表現(xiàn)。

      參考文獻參考文獻:

      [1]鄭胤,陳權(quán)崎,章毓晉.深度學(xué)習(xí)及其在目標(biāo)和行為識別中的新進展[J].中國圖象圖形學(xué)報,2014,19(2):175184.

      [2]FUKUSHIMA K.Neocognitron:a hierarchical neural network capable of visual pattern recognition[J]. Neural Networks, 1988(2):119130.

      [3]Y LECUN, L BOTTOU, Y BENGIO, et al. Gradientbased learning applied to document recognition[J]. Proceedings of the IEEE, 1998,86(11):22782324.

      [4]ALEX KRIZHEVSKY, ILYA SUTSKEVER, GEOFFREY E HINTON. ImageNet classification with deep convolutional neural networks[C].NIPS12 Proceedings of the 25th International Conference on Neural Information Processing Systems,2012:10971105.

      [5]K SIMONYAN,A ZISSERMAN. Very deep convolutional networks for largescale image recognition[J]. Computer Science, 2014.

      [6]SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C].Computer Vision and Pattern Recognition(CVPR), 2015:19.

      [7]HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C].Computer Vision and Pattern Recognition (CVPR), 2016 IEEE Conference on.2016:770778.

      [8]SHUIWANG JI,WEI XU,MING YANG,et al. 3D convolutional neural networks for human action recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,5(1):221231.

      [9]WANG H, ULLAH M M, KLSER A, et al. Evaluation of local spatiotemporal features for action recognition[C]. British Machine Vision Conference, BMVC ,2009:710.

      [10]謝飛,龔聲蓉,劉純平,等.基于局部和全局特征視覺單詞的人物行為識別[J].計算機科學(xué),2015,42(11):293298.

      責(zé)任編輯(責(zé)任編輯:黃健)endprint

      猜你喜歡
      池化立方體特征提取
      基于緊湊型雙線性網(wǎng)絡(luò)的野生茵識別方法研究
      無線電工程(2024年8期)2024-09-16 00:00:00
      疊出一個立方體
      基于Sobel算子的池化算法設(shè)計
      卷積神經(jīng)網(wǎng)絡(luò)中的自適應(yīng)加權(quán)池化
      基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
      電子制作(2019年15期)2019-08-27 01:12:00
      基于卷積神經(jīng)網(wǎng)絡(luò)和池化算法的表情識別研究
      圖形前線
      一種基于LBP 特征提取和稀疏表示的肝病識別算法
      立方體星交會對接和空間飛行演示
      太空探索(2016年9期)2016-07-12 09:59:53
      折紙
      达州市| 商河县| 阿克陶县| 绿春县| 临桂县| 平阴县| 浑源县| 晋宁县| 南丰县| 会东县| 凤山市| 海门市| 黄冈市| 谷城县| 琼海市| 金沙县| 吉林省| 平乡县| 汾西县| 侯马市| 赤水市| 灌阳县| 株洲市| 庆城县| 稻城县| 垫江县| 康保县| 昭通市| 乌拉特中旗| 崇明县| 淳安县| 同德县| 渑池县| 深圳市| 赣州市| 乐东| 苍南县| 万年县| 彭州市| 莒南县| 阜城县|