• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      雙流融合的動作識別方法研究

      2021-02-04 06:53:16
      軟件導(dǎo)刊 2021年1期
      關(guān)鍵詞:關(guān)節(jié)點(diǎn)骨骼卷積

      (安慶師范大學(xué)計(jì)算機(jī)與信息學(xué)院,安徽安慶 246133)

      0 引言

      動作識別在各種領(lǐng)域應(yīng)用廣泛,如公共場所安全、醫(yī)療服務(wù)和教育教學(xué)等[1]。人體動作識別中的數(shù)據(jù)獲取大都依賴視覺傳感器(如相機(jī))或者可穿戴慣性傳感器,通過構(gòu)建合適的網(wǎng)絡(luò)模型對數(shù)據(jù)中的特征進(jìn)行學(xué)習(xí),實(shí)現(xiàn)動作分類[2-3]。大規(guī)模人體動作數(shù)據(jù)集[3-4]的建立和多種檢測方法[5-7]的引入,加快了人體動作識別領(lǐng)域的發(fā)展。目前,在面部動作及常見肢體動作如行走、跳躍等方面實(shí)現(xiàn)了較高的識別精度。

      深度學(xué)習(xí)(Deep Learning)通過網(wǎng)絡(luò)擬合方式自動挖掘數(shù)據(jù)中的信息特征,成為動作識別領(lǐng)域的新方向。對于數(shù)據(jù)集而言,基于深度學(xué)習(xí)的動作識別方法可以分為基于視頻數(shù)據(jù)(Video-based)的識別方法與基于骨骼數(shù)據(jù)(Skele?ton-based)的識別方法。

      傳統(tǒng)基于視頻數(shù)據(jù)的動作分類方法根據(jù)視頻幀中的空間信息和時間域上的信息表示進(jìn)行建模。Simonyan 等[2]提出雙流(Two-Stream)的識別方法,對視頻圖像和密集光流(Optical flow)分別訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neu?ral Network,CNN),再對輸出的概率求均值并輸出最終識別率;Donahue 等[8]使用遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)替代基于流的設(shè)計(jì);Wang 等[9]通過稀疏采樣,使用加權(quán)平均方法處理時間/空間流特征圖,提升算法準(zhǔn)確性。雙流方法既可以學(xué)習(xí)視頻圖片的色彩輪廓信息,又可以學(xué)習(xí)動作的短時時序信息,但對于動作的長時時序信息網(wǎng)絡(luò)無法較好處理。

      三維卷積神經(jīng)網(wǎng)絡(luò)(3D Convolutional Neural Network,3D CNN)對若干連續(xù)幀的視頻圖像建立模型,可以較好地處理時間序列信息。如Tran 等[10]引入3D CNN 作為特征提取器,使用反卷積解釋模型;王永雄等[11]將3D CNN 融入殘差網(wǎng)絡(luò),提取動作的時空特征,實(shí)現(xiàn)了較好結(jié)果。3D CNN 既可以通過網(wǎng)絡(luò)模型學(xué)習(xí)視頻數(shù)據(jù)單幀圖像的位置輪廓信息,又可以學(xué)習(xí)連續(xù)幀之間的時間信息。但是網(wǎng)絡(luò)參數(shù)量巨大,訓(xùn)練速度較慢。

      目前,通過在視頻圖像中添加注意力機(jī)制,一些方法也達(dá)到了較好分類結(jié)果。Sharma 等[12]使用帶有注意力模塊的CNN 網(wǎng)絡(luò)作為圖像編碼器,對編碼過的圖像信息使用三層長短時記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)學(xué)習(xí)圖像在時序上的變化,最終達(dá)到較好動作識別效果;Yao等[13]使用3D CNN 和RNN 結(jié)合的網(wǎng)絡(luò)作為編碼/解碼器,引入注意力機(jī)制學(xué)習(xí)全局上下文信息;Sudhakaran 等[14]使用添加注意力機(jī)制的網(wǎng)絡(luò)自發(fā)關(guān)注手部運(yùn)動,再利用卷積長短時記憶網(wǎng)絡(luò)(convolutional Long Short-Term Memory,conv LSTM)學(xué)習(xí)時間序列信息,達(dá)到較好效果;曹晉其等[15]使用CNN 與LSTM 相結(jié)合的方式,在CNN 中添加注意力機(jī)制,達(dá)到較好識別效果。注意力機(jī)制在一定程度上讓網(wǎng)絡(luò)模型的參數(shù)聚焦于某些關(guān)鍵像素,更好地學(xué)習(xí)視頻圖像的色彩信息和輪廓信息。但網(wǎng)絡(luò)過度關(guān)注某一區(qū)域也會導(dǎo)致全局信息缺失。

      視頻數(shù)據(jù)有良好的色彩信息和輪廓信息,通過網(wǎng)絡(luò)模型可以充分地學(xué)習(xí)到這些信息。并且,視頻數(shù)據(jù)采集方便,構(gòu)建大規(guī)模數(shù)據(jù)集也相對容易。但是視頻數(shù)據(jù)通過相機(jī)采集,只存在二維平面的位置特征。對于視頻圖像,目前大部分網(wǎng)絡(luò)模型只能學(xué)習(xí)人員的色彩輪廓信息,信息豐富度較低,這也是此類方法識別精度較低的原因。

      基于骨骼數(shù)據(jù)的識別方法通過構(gòu)建可以學(xué)習(xí)關(guān)節(jié)點(diǎn)坐標(biāo)的空間位置信息和關(guān)節(jié)點(diǎn)在時序上變化信息的網(wǎng)絡(luò)模型,實(shí)現(xiàn)分類效果。Du 等[16]根據(jù)人體結(jié)構(gòu)將骨骼分為5個部分,然后分別將它們輸入到分層遞歸神經(jīng)網(wǎng)絡(luò)(Bidi?rectional Recurrent Neural Network,BRNN)中以識別動作;Song 等[5]使用3 層LSTM 網(wǎng)絡(luò),并在空間和時間上加入At?tention 機(jī)制,使網(wǎng)絡(luò)關(guān)注重要的關(guān)節(jié)點(diǎn)和時間點(diǎn),達(dá)到較好識別效果;胡立樟[17]提出一種綜合LSTM 與最大池化的設(shè)計(jì),能夠?qū)W習(xí)不定時間跨度的上下文特征;Li 等[18]提出分層CNN 網(wǎng)絡(luò),學(xué)習(xí)聯(lián)合共現(xiàn)和時間演化的表示形式。通過將人體關(guān)節(jié)點(diǎn)的三維坐標(biāo)作為輸入,可以學(xué)習(xí)更豐富的空間位置信息;而以LSTM 處理時間序列信息,可以讓網(wǎng)絡(luò)模型學(xué)習(xí)更長時間。但只是簡單地將人體關(guān)節(jié)的三維坐標(biāo)作為一個整體輸入到網(wǎng)絡(luò)模型中,并未充分考慮人體關(guān)節(jié)點(diǎn)之間的連接關(guān)系。

      圖卷積(GraphConvolutional Network,GCN)在動作識別領(lǐng)域的應(yīng)用讓這一領(lǐng)域有了新的發(fā)展。Yan 等[7]首次將GCN 引入動作識別領(lǐng)域,使識別結(jié)果有了較大突破。Si等[19]應(yīng)用圖神經(jīng)網(wǎng)絡(luò)捕獲空間結(jié)構(gòu)信息,使用LSTM 建模時間動態(tài);Si 等[6]在已有基礎(chǔ)上引入Attention 機(jī)制,使用LSTM 網(wǎng)絡(luò)學(xué)習(xí)時間特征,獲得NTU RGB+D 數(shù)據(jù)集[3]的較好分類結(jié)果。該方法通過圖卷積,讓網(wǎng)絡(luò)模型學(xué)習(xí)人體關(guān)節(jié)點(diǎn)之間的相對位置關(guān)系,豐富空間位置信息內(nèi)容。

      骨骼數(shù)據(jù)具有空間三維信息,可以直接體現(xiàn)人體運(yùn)動的空間變換。但由于缺乏圖像的輪廓信息,對于差異度較小的動作,只使用骨骼數(shù)據(jù),網(wǎng)絡(luò)往往難以區(qū)分。同時,采集人體關(guān)節(jié)點(diǎn)數(shù)據(jù)需要專業(yè)設(shè)備,在某些情況下并沒有采集數(shù)據(jù)的條件。

      以上方法均是對單一類型數(shù)據(jù)進(jìn)行建模,各有利弊。本文分別對兩種數(shù)據(jù)建立不同的網(wǎng)絡(luò)模型,并對兩種模型輸出結(jié)果進(jìn)行概率融合。該方法在一定程度上結(jié)合了兩種數(shù)據(jù)的優(yōu)點(diǎn),較為有效地實(shí)現(xiàn)了兩種數(shù)據(jù)的信息融合。

      1 相關(guān)原理

      1.1 圖卷積原理

      圖卷積是對于輸入數(shù)據(jù)首先構(gòu)建圖拓?fù)浣Y(jié)構(gòu),再使用類似卷積運(yùn)算的方式處理這些數(shù)據(jù)。對于基于骨骼數(shù)據(jù)的動作識別,通過圖卷積可以很好地學(xué)習(xí)骨骼關(guān)節(jié)點(diǎn)之間的空間位置關(guān)系,從而對動作進(jìn)行較好地分類識別。

      圖卷積與傳統(tǒng)卷積類似之處便在于,圖卷積的計(jì)算過程也是一個先采樣再加權(quán)求和的過程。圖卷積的采樣方式與傳統(tǒng)卷積類似,傳統(tǒng)卷積對中心像素點(diǎn)及周圍像素點(diǎn)進(jìn)行采樣后輸入卷積網(wǎng)絡(luò),而圖卷積則對中心節(jié)點(diǎn)及鄰居節(jié)點(diǎn)進(jìn)行采樣后輸入網(wǎng)絡(luò)。本文方法只對中心節(jié)點(diǎn)及周圍一階鄰居點(diǎn)進(jìn)行采樣,對于與中心節(jié)點(diǎn)相連節(jié)點(diǎn)個數(shù)不足3 個的,會補(bǔ)上節(jié)點(diǎn)信息為空的啞節(jié)點(diǎn)。兩者卷積參數(shù)有不同定義,傳統(tǒng)卷積參數(shù)完全由網(wǎng)絡(luò)反向傳播計(jì)算,而圖卷積參數(shù)是通過添加拉普拉斯矩陣后反向傳播并訓(xùn)練得到[20]。對于任意圖結(jié)構(gòu),在已知節(jié)點(diǎn)所包含的初始特征信息后都可以通過圖卷積的方式計(jì)算聚合后的信息F:

      其中,D 表示采樣后圖結(jié)構(gòu)的度矩陣(Degree Matrix),A 表示采樣后圖結(jié)構(gòu)的鄰接矩陣(Adjacency Matrix),X 表示鄰居節(jié)點(diǎn)所包含的信息,ω表示網(wǎng)絡(luò)參數(shù)。通過合適的網(wǎng)絡(luò)訓(xùn)練參數(shù)ω,可以將周圍節(jié)點(diǎn)的信息聚合到中心節(jié)點(diǎn),從而構(gòu)建更豐富的節(jié)點(diǎn)信息。再對這些信息使用分類器分類,可以實(shí)現(xiàn)較好的動作分類效果。

      1.2 注意力機(jī)制原理

      卷積神經(jīng)網(wǎng)絡(luò)對圖像進(jìn)行卷積計(jì)算并不斷凝煉圖像像素特征,其網(wǎng)絡(luò)最后一層的輸出包含豐富的信息。而將這些信息輸入全連接層時訓(xùn)練得到的參數(shù)客觀上反映了最后特征圖有哪些區(qū)域應(yīng)該值得關(guān)注。通過對所有通道的結(jié)果求和,輸出注意力熱圖(見圖1)[21],這樣的模塊稱之為注意力模塊。注意力參數(shù)α可以表示為:

      其中,?表示元素乘法(Hadamard Product)。

      通過這種方法可以使網(wǎng)絡(luò)模型自發(fā)關(guān)注重要部位,從而有利于后續(xù)動作分類。

      Fig.1 Attention heat map generation圖1 注意力熱圖生成

      2 本文方法

      2.1 基于骨骼數(shù)據(jù)的動作識別方法

      在具有N個關(guān)節(jié)點(diǎn)和T幀的骨骼序列上構(gòu)造空間無向圖結(jié)構(gòu)G=(V,E)。其中,節(jié)點(diǎn)集合V={vti|t=1,…,T,i=1,…,N}包括了骨骼序列的所有節(jié)點(diǎn)。作為網(wǎng)絡(luò)輸入,節(jié)點(diǎn)vti上的特征向量X(vti)由第t幀第i個關(guān)節(jié)點(diǎn)的三維坐標(biāo)向量組成。根據(jù)人體結(jié)構(gòu)的連通性將一幀內(nèi)的關(guān)節(jié)用邊連接,每個關(guān)節(jié)將在連續(xù)的幀中連接到同一關(guān)節(jié)點(diǎn)。而邊的集合E由兩個子集組成:第1 個子集ES={vtivtj|(i,j)∈H}表示每一幀的骨骼連接,其中H是人體關(guān)節(jié)點(diǎn)的總數(shù);第2 個子集EF={vtiv(t+1)i}表示連續(xù)幀中相連的關(guān)節(jié)點(diǎn)(見圖2)。

      Fig.2 Visual structure of input data圖2 輸入數(shù)據(jù)可視化結(jié)構(gòu)

      對于輸入數(shù)據(jù),先使用圖卷積編碼關(guān)節(jié)點(diǎn)在空間中的位置關(guān)系。在單幀的人體關(guān)節(jié)點(diǎn)連接結(jié)構(gòu)中,在關(guān)節(jié)點(diǎn)vti的鄰居集上定義采樣函數(shù)。其中,表示到vti的任意路徑的最小長度。設(shè)置D=1,即只選取節(jié)點(diǎn)vti的一階鄰居節(jié)點(diǎn),這一步稱之為采樣。同時,保證每次采樣N=4 個關(guān)節(jié)點(diǎn),對不滿足這一條件的采樣通過添加節(jié)點(diǎn)信息為空的啞節(jié)點(diǎn)予以解決。結(jié)合式(1),單幀視頻的單個節(jié)點(diǎn)vti通過圖卷積聚合后的特征輸出可表示為:

      而對于時間維度的關(guān)節(jié)點(diǎn)連接則簡單得多。本文對時間維度按照完全相同的時間間隔采樣,因此時間維度的關(guān)節(jié)連接是規(guī)則的,可按照傳統(tǒng)卷積方法計(jì)算。對于時間維度的關(guān)節(jié)點(diǎn)連接結(jié)構(gòu),設(shè)計(jì)一個大小為3×1 的卷積核,在時序上以步長為1 的方式移動。對所有時間序列進(jìn)行卷積處理,構(gòu)建更豐富的信息。這樣的模塊被稱為TCN 模塊。

      本文方法對于空間維度和時間維度兩個不同維度的處理是交替進(jìn)行的,本文人體動作識別網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。

      Fig.3 Human action recognition network based on skeleton data圖3 基于骨骼數(shù)據(jù)的人體動作識別網(wǎng)絡(luò)

      2.2 基于視頻數(shù)據(jù)的動作識別方法

      基于視頻數(shù)據(jù)的動作識別方法在識別效果上會受到視頻背景信息的影響,因此,本文首先對輸入的視頻數(shù)據(jù)進(jìn)行處理,手動裁剪出人員所在區(qū)域,并將這些區(qū)域的圖片作為數(shù)據(jù)輸入識別網(wǎng)絡(luò)。

      將處理過的視頻數(shù)據(jù)按時間序列逐幀輸入殘差網(wǎng)絡(luò)[22](ResNet),通過殘差網(wǎng)絡(luò)編碼視頻幀所包含的色彩信息和輪廓信息,并將添加注意力機(jī)制的已編碼數(shù)據(jù)輸入conv LSTM[23](對時間序列信息進(jìn)行編碼)。整體網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示。

      Fig.4 Action recognition network based on video data圖4 基于視頻數(shù)據(jù)的動作識別網(wǎng)絡(luò)

      2.3 雙流融合的動作識別方法

      基于視頻數(shù)據(jù)的雙流融合方法會先提取出視頻數(shù)據(jù)的密集光流,使用CNN 同時處理視頻數(shù)據(jù)和光流數(shù)據(jù)。將使用CNN 編碼過后的特征信息輸入SoftMax 分類器,該分類器會對每一組用于測試的數(shù)據(jù)進(jìn)行分類,并輸出該組數(shù)據(jù)屬于某種類別的概率。對兩種數(shù)據(jù)流的輸出概率求均值,實(shí)現(xiàn)信息融合,信息融合后的綜合識別率往往高于單個數(shù)據(jù)流的識別率。

      本文借鑒這種信息融合方法,分別使用時空圖卷積框架下的人體動作識別網(wǎng)絡(luò)和基于視頻數(shù)據(jù)的人體動作識別網(wǎng)絡(luò),并對網(wǎng)絡(luò)進(jìn)行訓(xùn)練。使用收斂后的參數(shù)進(jìn)行測試,將每個視頻片段的分類概率以矩陣形式保存。對兩種數(shù)據(jù)流輸出概率求均值后輸出最終分類結(jié)果,如圖5 所示。

      Fig.5 Two-stream fusion method圖5 雙流融合方法

      3 實(shí)驗(yàn)結(jié)果與分析

      使用NTU RGB+D 數(shù)據(jù)集[3]測試本文方法有效性。該數(shù)據(jù)集是目前較大的公開動作識別數(shù)據(jù)集,該數(shù)據(jù)集由56 880 個動作樣本組成,包括40 名人員的60 種日常單人/雙人動作(如喝水、脫衣服、鍵盤打字與走向某人等)。該數(shù)據(jù)集通過Kinect v2.0 采集包含25 個關(guān)節(jié)點(diǎn)的三維坐標(biāo)的骨骼數(shù)據(jù),并通過相機(jī)采集視頻數(shù)據(jù)。

      對于基于骨骼數(shù)據(jù)的動作識別網(wǎng)絡(luò),設(shè)置初始學(xué)習(xí)率為0.1,并且每10 個epochs 學(xué)習(xí)率縮小為原來的10%。網(wǎng)絡(luò)訓(xùn)練共80 個epochs,使用標(biāo)準(zhǔn)交叉熵?fù)p失函數(shù)進(jìn)行反向傳播。

      對于基于視頻數(shù)據(jù)的動作識別完成后,設(shè)置初始學(xué)習(xí)率為0.001。網(wǎng)絡(luò)訓(xùn)練300 個epochs,使用標(biāo)準(zhǔn)交叉熵?fù)p失函數(shù)進(jìn)行反向傳播。

      Table 1 NTU RGB+D data set recognition results表1 NTU RGB+D 數(shù)據(jù)集識別結(jié)果

      本文方法識別率達(dá)83.76%,比H-RNN、STA-LSTM、ST-GCN 方法的識別率均有不同程度的提升,對比結(jié)果如表1 所示。通過多人動作注意力熱圖可視化(見圖6)結(jié)果可以發(fā)現(xiàn),對于數(shù)據(jù)集中的雙人動作,注意力熱圖往往只能關(guān)注其中一人,而對另一人關(guān)注度不足,導(dǎo)致該識別方法對動作分辨能力不佳,從而影響最終識別精度。

      Fig.6 Multi-person action attention heat map visualization圖6 多人動作注意力熱圖可視化

      4 結(jié)語

      本文提出一種針對動作識別的結(jié)合骨骼數(shù)據(jù)與視頻數(shù)據(jù)的雙流融合方法。該方法通過對人體動作的骨骼數(shù)據(jù)和視頻數(shù)據(jù)分別建立網(wǎng)絡(luò)模型,并對兩種網(wǎng)絡(luò)分類器的輸出概率進(jìn)行融合,有效地實(shí)現(xiàn)了骨骼數(shù)據(jù)與視頻數(shù)據(jù)的信息融合,提高了人體動作識別率。

      下一步計(jì)劃是提出更好的信息融合方式,充分發(fā)揮不同類項(xiàng)數(shù)據(jù)優(yōu)點(diǎn),實(shí)現(xiàn)信息互補(bǔ),進(jìn)一步提高識別率。

      猜你喜歡
      關(guān)節(jié)點(diǎn)骨骼卷積
      做家務(wù)的女性骨骼更強(qiáng)壯
      中老年保健(2021年5期)2021-12-02 15:48:21
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      三減三健全民行動——健康骨骼
      中老年保健(2021年5期)2021-08-24 07:06:28
      基于深度學(xué)習(xí)和視覺檢測的地鐵違規(guī)行為預(yù)警系統(tǒng)研究與應(yīng)用
      關(guān)節(jié)點(diǎn)連接歷史圖與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的雙人交互動作識別
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      骨骼和肌肉
      小布老虎(2017年1期)2017-07-18 10:57:27
      搞好新形勢下軍營美術(shù)活動需把握的關(guān)節(jié)點(diǎn)
      一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
      威远县| 洪洞县| 安多县| 兰溪市| 新乡县| 安国市| 吴江市| 原阳县| 漠河县| 七台河市| 泉州市| 奉新县| 临邑县| 顺昌县| 绥芬河市| 垦利县| 天门市| 从化市| 东兴市| 章丘市| 辉南县| 天津市| 兴和县| 长白| 安溪县| 察隅县| 钟祥市| 珲春市| 板桥市| 黎川县| 买车| 广安市| 舒兰市| 曲靖市| 金坛市| 紫阳县| 五指山市| 昌平区| 常德市| 华宁县| 东光县|