• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于長效遞歸深度卷積網(wǎng)絡(luò)的實時人物動作識別

      2021-03-12 07:00:44史佳成王仁杰葉科淮
      軟件導(dǎo)刊 2021年2期
      關(guān)鍵詞:光流暫態(tài)梯度

      史佳成,陳 志,胡 宸,王仁杰,葉科淮

      (1.南京郵電大學(xué)計算機學(xué)院,江蘇 南京 210023;2.南京郵電大學(xué)通信與信息工程學(xué)院,江蘇南京 210003)

      0 引言

      視頻中的人物動作識別分為兩個部分:①對于類似背景之類的靜態(tài)信息處理;②對于動態(tài)對象的跟蹤和識別。如何使視頻中的靜態(tài)信息和動態(tài)信息在互不影響特征提取的同時又能保持兩者相互結(jié)合,需要確定結(jié)合過程中的動態(tài)特征向量和靜態(tài)特征向量貢獻率。

      跟蹤方法主要有光流法,常用的神經(jīng)網(wǎng)絡(luò)包括RNN神經(jīng)網(wǎng)絡(luò)、LSTM 神經(jīng)網(wǎng)絡(luò)等。光流法優(yōu)點是在不知道任何場景信息情況下檢測出運動目標(biāo),但是計算復(fù)雜度高、實時性差,對硬件有較高要求,而訓(xùn)練標(biāo)準(zhǔn)的RNN 需要解決長時間學(xué)習(xí)依賴問題。

      在計算機視覺領(lǐng)域,研究重點是如何對一個圖片序列或由圖片幀組成的視頻進行識別。按照拓撲結(jié)構(gòu),CNN 分為多個學(xué)習(xí)階段,由卷積層、非線性處理單元和采樣層組合組成[1]。CNN 在圖像識別領(lǐng)域表現(xiàn)很好,廣泛運用于圖像識別領(lǐng)域中的特征提取、目標(biāo)檢測、圖像分類等。文獻[2]提出Two_Stream 的動作識別方法,將視頻分為一連串的圖片幀作為CNN 輸入,將其分為時域光流和空間域的靜態(tài)視頻幀,其中空間流對各個視頻幀進行操作,對靜止圖像進行有效識別。而靜態(tài)外觀是一個有用線索,因為某些動作與特定對象密切相關(guān);光流模型輸入通過在幾個連續(xù)幀之間堆疊光流位移場而形成,輸入明確描述視頻幀之間的運動,使識別更加容易。在經(jīng)過大量圖像識別數(shù)據(jù)集[3]訓(xùn)練之后,利用Softmax 函數(shù)對動作進行分類,提高模型精度,但訓(xùn)練該模型需要經(jīng)過預(yù)處理階段,空間池化層沒有考慮目標(biāo)軌跡。

      在目前人物動作識別算法中,文獻[4]提出的LRCN算法十分獨特且高效,受到廣泛認可。LRCN 神經(jīng)網(wǎng)絡(luò)模型是一種結(jié)合CNN、RNN 各種優(yōu)點于一身的數(shù)學(xué)模型,對視頻中的每一個圖片幀利用CNN 算法對人眼可見的特征進行提取,再結(jié)合RNN 中的分支LSTM 對圖像序列進行學(xué)習(xí),可有效解決RNN 梯度下降問題,在時域和空間域都達到很深層次,并且不需要人的干預(yù),幾乎不需要進行輸入預(yù)處理。

      本文在LRCN 基礎(chǔ)上提出LRDCN 模型,利用雙流模型與CNN 結(jié)合提取視頻特征,利用GRU 對前后特征進行關(guān)聯(lián),采用編碼—譯碼與極大似然估計法,從已知的動作序列推出新的人物動作,從而在有限的運算速度條件下更快地更新網(wǎng)絡(luò)參數(shù),增加網(wǎng)絡(luò)深度。在不同訓(xùn)練集上進行訓(xùn)練,使模型精度更高、泛化能力更強。

      1 基于TWO-STREAM 卷積神經(jīng)網(wǎng)絡(luò)的動作特征提取

      為捕捉每一幀靜態(tài)特征與相鄰兩幀之間表現(xiàn)出的動作,構(gòu)造一個層次更深的卷積神經(jīng)網(wǎng)絡(luò)模塊,提升網(wǎng)絡(luò)模型精確度,達到手工提取特征的最高水平,對視頻動作特征提取算法描述如下:

      (1)分別在時間和空間上建立TWO-STREAM 模型,在時間上從單獨的幀中提取出場景和目標(biāo)信息,空間上提取人物和相機的運動信息。

      (2)將時間流信息分為x方向與y方向?qū)ζ溥M行光流堆疊,將不同幀對同一位置的位移信息進行采樣,軌跡堆疊沿著人物運動的軌跡對位移信息進行采樣。

      一個密集的光流場可以由t與t+1 時刻的兩個連續(xù)幀之間的矢量場dt表示,在t時刻取一點pk,假設(shè)其位置為(u,v),而每個點經(jīng)過矢量場作用后對應(yīng)的時刻為t+1,對應(yīng)的坐標(biāo)為,如圖1 所示。

      Fig.1 Optical flow field圖1 光流場

      神經(jīng)網(wǎng)絡(luò)輸入由w×h× 2L的三維矩陣構(gòu)成,假設(shè)輸入視頻從第τ幀開始提取,則每一幀的光流可由式(1)、式(2)表示。

      其中,Iτ(u,v,a),a∈[1,2L]可看作是對L 幀中一個點進行的編碼。

      (3)第(2)步提取的是方向向前的單向光流,其中式(1)表示x軸方向的光流,式(2)表示y軸方向的光流,通過相反方向上的另一組位移場形成雙向光流。對模型進行擴展,將時間間隔τ從時刻T-τ/2 到T+τ/2 單向流分割為兩個時間間隔為方向相反的單向流,開始時間、結(jié)束時間分別從T-τ/2 時刻到T時刻和從T時刻到T+τ/2 時刻,最終得到雙向光流。

      (4)正常情況下可采取零中心化使CNN 模型更好地利用整流非線性。文獻[5]描述由于攝像機移動,第(3)步得到的視頻輸入所有向量有可能都被加上一個特殊值,使整個視頻幀呈現(xiàn)運動趨勢。為防止這種情況發(fā)生,將輸入到卷積神經(jīng)網(wǎng)絡(luò)中的每個向量減去它們的平均值。

      (5)將每一幀的RGB 圖像組合成一個w×h× 3L的三維矩陣Iτ2(u,v,a),a∈[1,3L],其中3 個大小為w×h×L的子矩陣分別代表圖像的R,G,B值。

      (6)將基于特征編碼的時間矩陣Iτ(u,v,a) 與RGB 圖像組成的三維矩陣Iτ2(u,v,a) 分別作為時空卷積神經(jīng)網(wǎng)絡(luò)輸入,其中時間域上的神經(jīng)網(wǎng)絡(luò)多次經(jīng)過方向敏感的卷積神經(jīng)網(wǎng)絡(luò)層、整流層和池化層迭代,其散度、卷曲和剪切力可通過光流梯度計算,而RGB 圖像組成的那部分三維矩陣只需通過正常CNN 的多次卷積池化濾波層迭代,最終得到在時間和空間上幀與幀之間的相互獨立的特征向量。

      將時間和空間分量分開的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)有助于抑制過擬合現(xiàn)象,同時不會減少表達式所承載的信息量,因為僅僅通過減少參數(shù)的數(shù)量并不能優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)模型性能[6]。

      2 GRU 遞歸神經(jīng)網(wǎng)絡(luò)

      傳統(tǒng)的遞歸神經(jīng)網(wǎng)絡(luò)(見圖2)將輸入序列<x1,x2,…,xT>映射到隱藏狀態(tài)<h1,h2,…,hT>,并通過式(3)、式(4)將隱藏狀態(tài)映射到輸出狀態(tài)。

      Fig.2 Recursive neural network圖2 遞歸神經(jīng)網(wǎng)絡(luò)

      其中f為非線性激活函數(shù),如Sigmoid函數(shù),用于連接輸入層和輸出層。對于長度為T的輸入序列<x1,x2,…,xT>,先后依次計算更新h1,y1,h2,y2,…,hT,zT。

      雖然純粹的RNN 在語音識別和文本生成方面性能極佳,但是RNN 很難用于學(xué)習(xí)一個長期動態(tài)變化的數(shù)據(jù),在深層次的遞歸網(wǎng)絡(luò)中梯度反向傳播時,會引起梯度下降或梯度爆炸問題[7]。本文引入門循環(huán)神經(jīng)網(wǎng)絡(luò),其結(jié)構(gòu)類似LSTM,如圖3 所示。

      Fig.3 GRU helped internal structure圖3 GRU 內(nèi)部結(jié)構(gòu)

      2014 年Cho 等[8]提出門循環(huán)神經(jīng)網(wǎng)絡(luò)GRU 對RNN進行改進,解決梯度爆炸和梯度消失現(xiàn)象。GRU 內(nèi)部由更新門與重置門組成,在第t時刻輸入xt,并且一組重置門rt用于控制ht-1,再與xt進行拼接,在雙取正切激活函數(shù)作用下,將結(jié)果h't縮放至-1~1 之間,如式(7)所示,其中?表示兩個矩陣對應(yīng)元素的乘積,σ表示Sigmoid 函數(shù),rt更新如公式(5)所示。最終利用一個更新門zt將遺忘和記憶兩步進行合并,其中(1-zt)ht-1表示對之前的狀態(tài)進行選擇性遺忘,zt h't表示對當(dāng)前節(jié)點信息進行記憶,最終輸出ht,如公式(6)所示。

      根據(jù)文獻[9],GRU 和LSTM 的主要區(qū)別在于LSTM中的記憶門。LSTM 由輸入門、遺忘門和輸出門3 個門控和一個記憶單元組成,其中記憶單元用于統(tǒng)計上一個隱藏層的信息與當(dāng)前時刻的輸入信息,輸入門、遺忘門和輸出門的激活與當(dāng)前輸入之前的記憶及上一層的輸入有關(guān)。但在GRU 中,門控數(shù)量比LSTM 少一個。GRU 中門控的更新只與當(dāng)前層的輸入和之前的輸出有關(guān)。由于GRU 參數(shù)減少,所以GRU 更新速度更快、計算代價更小。

      3 基于LRDCN 的序列學(xué)習(xí)與動作識別

      一般長效遞歸深度卷積神經(jīng)網(wǎng)絡(luò)模型(RNN)將深度分層的視覺特征提取器(如CNN)與訓(xùn)練好的模型進行結(jié)合,這些模型能綜合時間上的動態(tài)特征進行學(xué)習(xí)。RNN 主要用于序列數(shù)據(jù)<x1,x2,…xT>如文字、多個幀組成的視頻等。

      LRDCN 中的CNN 將序列中的每個元素輸入到一個元素-特征轉(zhuǎn)換器φv(.) 中,得到一個定長的輸出特征序列φv(xt),然后再將其輸入到遞歸序列學(xué)習(xí)模塊。

      通常情況下,遞歸神經(jīng)網(wǎng)絡(luò)模型有一個參數(shù)W,用于將輸入xt和前一層的隱藏狀態(tài)ht-1映射為輸出ht。因此,序列的推理必須自上而下進行,先計算h1=fw(x1,h0),再依次計算h2=fw(x2,h1),h3=fw(x2,h1),以此類推。

      對于輸入yt∈C,C是一個離散值的集合,RNN 計算出的概率P(yt)和序列模型每一層單獨的輸出yt有關(guān),其預(yù)測值可用公式(8)表示:

      式(8)中,Wtt與bt來自于模型通過學(xué)習(xí)最終得到的結(jié)果。利用Softmax 函數(shù),輸出結(jié)果為x的概率如公式(9)所示。

      須指出,GRU 某一時刻所預(yù)測到的動作為動作備選集合中最可能發(fā)生的那個動作,即。

      文獻[10-12]指出,當(dāng)層數(shù)增多時,使用非線性函數(shù)對于感知類問題有很大幫助。對于更大的時間跨度T,遞歸神經(jīng)網(wǎng)絡(luò)能夠得到層次更深的非線性函數(shù),并且其冪次與T成某種正相關(guān)聯(lián)系。而線性網(wǎng)絡(luò)經(jīng)過多層更新迭代,序列模型的參數(shù)W得到復(fù)用,使最終的輸出永遠是輸入的線性組合,與輸入的時間跨度T無關(guān)。

      Softmax 函數(shù)的優(yōu)點在于得出的所有可能結(jié)果概率之和為1,符合概率特性,且Softmax 是非線性函數(shù),能夠使得遞歸神經(jīng)網(wǎng)絡(luò)訓(xùn)練后的輸出隨著時間跨度T變化而變化。

      本文結(jié)合GRU 模型實現(xiàn)實時人物動作識別,將基于GRU 的RNN 分為暫態(tài)RNN 與譯碼RNN。與GRU 模型不同的是,暫態(tài)RNN 組件輸入為經(jīng)過CNN 處理后的特征序列,在得到每一時刻的暫態(tài)序列輸出<y'1,y'2,…,y'n>(如圖2 所示)后,根據(jù)文獻[8]提出的編碼—解碼方法,對暫態(tài)RNN 組件進行改進:編碼器將輸入的暫態(tài)序列<y'1,y'2,…,y'n>映射為一個單個的值y1,隨后通過梯度下降算法,在計算暫態(tài)序列與從y1到暫態(tài)序列<y'1,y'2,…,y'n>的映射匹配程度后,對暫態(tài)RNN 組件進行更新。其中每一階段的y't為之前所有輸入特征xt的一個總結(jié),如公式(10)所示。

      譯碼器將這個序列輸出為一個長度為T'的另一個序列。在前n個時間單位,編碼器處理輸入暫態(tài)序列<y'1,y'2,…,y'n>,隨后將其輸出y1放入譯碼器,在后m-1個時間單位中,譯碼器利用前面所有的輸入推出<y2,…,ym>,即推出人物每個時刻最有可能的動作yt。

      在對yt進行極大似然估計過程中,算法更新譯碼RNN組件參數(shù)。基于輸入序列和之前得到的動作序列組合<x1,x2,…,xt,y1,y2,…,yt-1>得到y(tǒng)t的條件分布,如公式(11)所示。

      若將序列<x1,x2,…,xt,y1,y2,…,yt-1>合并為矩陣xk,則LRDCN 中的編碼譯碼器組件的學(xué)習(xí)目標(biāo)是最大化yt的條件概率,如公式(12)所示。

      為提升系統(tǒng)端到端更新參數(shù)能力,更好地在特征序列與最終動作預(yù)測序列之間建立聯(lián)系,利用反向傳播法與隨機梯度下降法訓(xùn)練LRDCN 參數(shù)?h,t g(ht-1,xt-1)。這種方法與單純的Softmax 函數(shù)模型相比,能將時刻t的動作與之前預(yù)測動作結(jié)合,增加動作識別的精度與泛化性能。

      將測試集輸入TWO-STREAM 算法,時間流Iτ(u,v,a),a∈[1,2L]和Iτ2(u,v,a),a∈[1,3L]分別輸入到時間域CNN與空間域CNN,得到長度分別為L 和2L 的特征序列;通過極大似然估計法得出每一時刻對應(yīng)的最有可能產(chǎn)生的動作;通過在UCF-101 與Weizman 測試集上訓(xùn)練LRDCN,找到每個特征對于特定動作最精確的貢獻率。

      4 實驗結(jié)果與分析

      4.1 實驗準(zhǔn)備

      為驗證LRDCN 識別算法的準(zhǔn)確性及實時性,實驗過程分為兩步:①在UCF-101 數(shù)據(jù)集上進行測試,將實驗結(jié)果 與Resnet-18算法、Resnet-30算法、Resnet-50算法、Resnet-101算法、Densenet-152 算法以及Densenet-201 算法進行對比;②測試人物動作識別算法的實時性,將包含一系列人物動作序列的視頻(待定)作為輸入,經(jīng)處理得到人物動作序列,再將每一類動作視頻放在對應(yīng)文件夾中,將文件名用于標(biāo)注每一動作類別,最終形成包含訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)的Trainlist 文件與Testlist 文件。在動作識別實驗中LRDCN 使用CNN 參考文獻[13]提出的模型Caffenet(Alexnet[14]的變種),使用Imagenet數(shù)據(jù)集子集ILSVRC-2012 對模型進行訓(xùn)練。

      數(shù)據(jù)集包含101 類來自YouTube 的人物動作視頻,其中每個視頻包含的幀長度不等,每幀的像素為320 × 240。動作類別可分為人與物體互動、僅身體動作、人與人互動、演奏樂器以及體育運動等,其中動作包括眼部化妝、涂口紅、射箭、漂流、攀巖、室內(nèi)攀繩、劃船、刮胡子、鉛球運動、滑板、滑雪、跳傘、足球、吊環(huán)、相撲、沖浪、秋千、乒乓球、太極拳、網(wǎng)球擺、擲鐵餅、跳蹦蹦床、打字、俯臥撐、板書等。所有實驗均采用TensorFlow 開發(fā),運行于Windows 平臺。

      實驗采用UCF-101 數(shù)據(jù)集,使用每一類視頻中的前2/3 進行訓(xùn)練,后1/3 視頻進行測試。實驗將Batch_size 設(shè)為15,輸入長度為T,圖片按照R,G,B 分為3 個通道,將輸出動作序列的時間長度暫定為1(僅識別一個動作),最終將測試結(jié)果正確的視頻數(shù)量除以測試集總視頻數(shù)量乘以100,得到精確度的百分比數(shù)值;隨后在Weizmann 數(shù)據(jù)集通過LRDCN 進行數(shù)據(jù)集訓(xùn)練,測試模型動作序列識別的精確程度,最終得到誤差矩陣(見表1)。Weizmann 由9個人分別執(zhí)行10個不同的動作視頻(bend,jack,jump,pjump,run,side,skip,walk,wave1,wave2),視頻中的背景、視角都是靜止的。由于skip 動作會影響其它動作識別,因此在實驗過程中舍棄skip 這一動作識別。

      4.2 結(jié)果分析

      如圖4 所示,LRDCN 算法在人物動作識別精確度上優(yōu)于上述6 種算法。相對于其它算法,LRDCN 算法的個人動作語義準(zhǔn)確率較高。當(dāng)進一步獲得時間和空間上的人物運動軌跡后,依靠精準(zhǔn)的人物追蹤,LRDCN 算法特征提取能力得到進一步增強。通過在RNN 中引入GRU,可提高長視頻序列動作識別精確度,避免梯度下降和梯度爆炸情況。在去除skip 動作之后,得到的動作序列識別平均正確率為93.8%,如表1 所示。由于跑步與走路的動作特征十分相似,加上之前動作序列干擾,算法容易將跑步動作誤認為走路。

      Fig.4 Accuracy comparison among LRDCN algorithm and others on the data set UCF-01圖4 LRDCN 算法與各算法在數(shù)據(jù)集UCF-01 的準(zhǔn)確性比較

      Table 1 Action LRDCN algorithm error matrix(remove the skip action)表1 LRDCN 算法動作誤差矩陣(去除skip 動作)

      5 結(jié)語

      LRDCN 通過在編碼—譯碼RNN 中增加GRU,避免了梯度下降和梯度爆炸等現(xiàn)象;將RGB 圖像與光流圖像結(jié)合作為網(wǎng)絡(luò)輸入得到光流圖,以更精確地反映時空動作特征;在UCF-101 和Weizman 數(shù)據(jù)集上訓(xùn)練LRDCN,找到最佳的人物動作行為模式識別貢獻率;對單個物體進行跟蹤分析,采用極大似然估計法以及譯碼RNN 實現(xiàn)實時動作識別;不僅提高了LRDCN 模型精度,而且泛化能力也得到了提升。

      但是,本算法步驟過于繁瑣,對計算機性能要求偏高,識別單個動作比普通算法更加耗時。在后續(xù)的研究中將減少算法步驟,如減少卷積池化步驟,犧牲一部分算法精確度以提升算法效率等,并對算法進行拓展,對視頻中多個個體進行群體動作語義分析。

      猜你喜歡
      光流暫態(tài)梯度
      利用掩膜和單應(yīng)矩陣提高LK光流追蹤效果
      一個改進的WYL型三項共軛梯度法
      300Mvar空冷隱極同步調(diào)相機暫態(tài)特性仿真分析
      一種自適應(yīng)Dai-Liao共軛梯度法
      一類扭積形式的梯度近Ricci孤立子
      基于物理學(xué)的改善粒子圖像測速穩(wěn)健光流方法研究
      電力系統(tǒng)全網(wǎng)一體化暫態(tài)仿真接口技術(shù)
      電子制作(2018年14期)2018-08-21 01:38:28
      除氧器暫態(tài)計算研究
      電子測試(2017年23期)2017-04-04 05:07:02
      融合光流速度場與背景差分的自適應(yīng)背景更新方法
      基于PSD-BPA的暫態(tài)穩(wěn)定控制批處理計算方法的實現(xiàn)
      庆元县| 赣州市| 化州市| 饶河县| 延吉市| 蓬莱市| 绥江县| 靖边县| 建湖县| 潢川县| 甘谷县| 旌德县| 喜德县| 阿拉善左旗| 芜湖市| 正阳县| 新平| 雷波县| 富锦市| 崇左市| 成都市| 加查县| 基隆市| 山阳县| 定边县| 澎湖县| 仁布县| 阿鲁科尔沁旗| 雅江县| 深圳市| 进贤县| 林芝县| 铁力市| 即墨市| 昌图县| 临汾市| 长海县| 和顺县| 白水县| 张掖市| 道孚县|