• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      結(jié)合低秩分解與多流融合的行為識(shí)別方法

      2022-08-29 09:55:20黃思翔高陳強(qiáng)
      關(guān)鍵詞:光流集上時(shí)域

      黃思翔,高陳強(qiáng),陳 旭,趙 悅,楊 烽

      (1.重慶郵電大學(xué) 通信與信息工程學(xué)院,重慶 400065; 2.信號(hào)與信息處理重慶市重點(diǎn)實(shí)驗(yàn)室,重慶 400065)

      0 引 言

      行為識(shí)別任務(wù)旨在讓計(jì)算機(jī)識(shí)別出視頻中發(fā)生的感興趣的行為類別,在智能監(jiān)控、自動(dòng)駕駛、視頻推薦與娛樂(lè)等領(lǐng)域有廣泛的應(yīng)用[1]。然而,由于視頻行為的多樣性和場(chǎng)景的復(fù)雜性,行為識(shí)別任務(wù)在實(shí)際應(yīng)用中依舊存在較大的挑戰(zhàn)。

      近年來(lái),深度學(xué)習(xí)在行為識(shí)別任務(wù)中發(fā)揮著越來(lái)越重要的作用。在先前的研究中[2-11],研究者們大多聚焦于對(duì)網(wǎng)絡(luò)模型結(jié)構(gòu)進(jìn)行修改[2-4,6-8],或者使用更大規(guī)模的視頻數(shù)據(jù)集進(jìn)行模型預(yù)訓(xùn)練[3-5,9-11],從而讓模型能夠提取魯棒性更強(qiáng)的特征以提升行為識(shí)別精度。這些方法的輸入模態(tài)一般僅為原始視頻,通過(guò)計(jì)算輸入視頻直方圖特征或者用二維、三維卷積提取視頻特征,并對(duì)獲取的特征進(jìn)行分類。雙流模型[12]被提出后,通過(guò)大量的實(shí)驗(yàn)[2-4,13-14],驗(yàn)證了視頻光流信息與RGB流信息進(jìn)行融合后能進(jìn)一步提高模型的行為識(shí)別準(zhǔn)確率。然而,在獲取視頻光流信息時(shí),由于僅參考了相鄰兩幀圖像之間的像素運(yùn)動(dòng),模型只能提取采樣片段的局部時(shí)域信息,忽略了整個(gè)視頻的全局時(shí)域信息的學(xué)習(xí),這導(dǎo)致模型對(duì)視頻行為類別的判別并不可靠。

      對(duì)于場(chǎng)景固定的數(shù)據(jù)集[15-18],運(yùn)動(dòng)區(qū)域相對(duì)原圖所占比例較少,穩(wěn)定不變的區(qū)域較多。因此,原始視頻可以粗略地看成是由大部分穩(wěn)定的區(qū)域與少部分變化的運(yùn)動(dòng)信息組合而成。穩(wěn)定的區(qū)域在整個(gè)視頻中是不變或者近似不變的,該區(qū)域視頻可以近似地用少量甚至一幀圖像來(lái)代替。對(duì)于視頻的運(yùn)動(dòng)部分,運(yùn)動(dòng)信息通常只占視頻中的小部分。因此,可以認(rèn)為運(yùn)動(dòng)部分對(duì)應(yīng)的視頻矩陣為稀疏矩陣,能夠借助低秩分解來(lái)提取整個(gè)視頻的全局時(shí)域信息。

      為了更好地利用視頻全局時(shí)域信息,本文先把原始視頻進(jìn)行低秩分解為低秩流和稀疏流兩部分。低秩流包含視頻中比較穩(wěn)定的內(nèi)容,稀疏流包含視頻中運(yùn)動(dòng)信息,且這種信息具有全局性。把包含全局運(yùn)動(dòng)信息的稀疏流、包含局部運(yùn)動(dòng)信息的光流和RGB流分別輸入3D CNN網(wǎng)絡(luò),并進(jìn)行后期融合。模型在后期融合中聚合了光流和稀疏流兩個(gè)不同尺度的時(shí)域運(yùn)動(dòng)信息與豐富的空域信息,多流融合的結(jié)果相較于僅融合單個(gè)尺度的時(shí)域信息與空域信息更可靠。

      1 相關(guān)工作

      近年來(lái),深度學(xué)習(xí)方法在圖像識(shí)別領(lǐng)域取得了巨大的成功[19-25],許多研究者開(kāi)始將深度學(xué)習(xí)方法應(yīng)用于行為識(shí)別領(lǐng)域[5,12,22-23]。

      行為識(shí)別的難點(diǎn)是如何提高模型的時(shí)域建模能力,現(xiàn)有方法通常遵循兩種思路來(lái)提高時(shí)域建模能力。

      1)基于二維卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)的方法。文獻(xiàn)[12]提出了雙流CNN,將單幀圖像和多幀光流堆疊分別送入CNN網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并將其預(yù)測(cè)結(jié)果進(jìn)行融合。這種方法能夠有效地提升模型的識(shí)別準(zhǔn)確率,證實(shí)了光流與RGB流的雙流融合能夠有效提升識(shí)別準(zhǔn)確率。雖然該方法以引入光流模態(tài)來(lái)引入相鄰幀的時(shí)域信息,但是模型只獲取了短時(shí)運(yùn)動(dòng)信息,無(wú)法對(duì)長(zhǎng)時(shí)運(yùn)動(dòng)信息進(jìn)行有效建模。文獻(xiàn)[24-25]針對(duì)雙流融合中只能處理短時(shí)運(yùn)動(dòng)而對(duì)長(zhǎng)時(shí)運(yùn)動(dòng)的時(shí)間結(jié)構(gòu)無(wú)法有效捕捉的問(wèn)題,提出了時(shí)域分割網(wǎng)絡(luò)(temporal segment network, TSN)。TSN采用稀疏時(shí)間采樣策略,擴(kuò)大了對(duì)原始視頻的時(shí)域感受野,從而提高時(shí)域建模能力,但其比雙流融合僅獲得了較多的局部運(yùn)動(dòng)信息。文獻(xiàn)[5]在分析了3D卷積相對(duì)于2D卷積的優(yōu)勢(shì)后,提出將3D卷積拆分為一個(gè)2D空間卷積與一個(gè)1D時(shí)間卷積的串聯(lián)形式,構(gòu)成新的時(shí)空卷積塊R(2+1)D,極大地提升了模型的實(shí)時(shí)性且保證了模型的精度。

      2)基于文獻(xiàn)[2]的3D CNN行為識(shí)別方法。該方法使用更適合學(xué)習(xí)時(shí)空特征的3D卷積替換了原本的2D卷積,文獻(xiàn)[3,13]分別針對(duì)3D卷積中參數(shù)過(guò)多而數(shù)據(jù)集較小的問(wèn)題提出了P3D和T3D網(wǎng)絡(luò),借鑒ImageNet網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練權(quán)重遷移,將對(duì)應(yīng)2D CNN的預(yù)訓(xùn)練權(quán)重向3D網(wǎng)絡(luò)遷移。這表明,圖像識(shí)別領(lǐng)域中模型在ImageNet數(shù)據(jù)集上進(jìn)行的預(yù)訓(xùn)練可以很好地應(yīng)用到其他領(lǐng)域。文獻(xiàn)[4]提出了大規(guī)模的Kinetice數(shù)據(jù)集,并根據(jù)基于2D卷積的LSTM模型、3D卷積與雙流CNN的優(yōu)缺點(diǎn),設(shè)計(jì)了一種基于3D卷積的雙流I3D(two-stream inflated 3D convNets)模型,表明在大數(shù)據(jù)集上預(yù)訓(xùn)練的3D網(wǎng)絡(luò)能夠在小數(shù)據(jù)集上大幅度提升精度。

      上述方法都是擴(kuò)大時(shí)域感受野來(lái)提升模型的精度,模型所得到的數(shù)據(jù)仍為局部運(yùn)動(dòng)信息,忽視了全局運(yùn)動(dòng)信息的顯示提取。針對(duì)此問(wèn)題,本文通過(guò)低秩分解從RGB流中顯式地提取動(dòng)態(tài)的全局運(yùn)動(dòng)成分與精致的紋理,有效地提升所提取特征的區(qū)分度,從而提升模型精度。

      2 低秩分解基礎(chǔ)

      本文采用加速近端梯度算法(accelerated proximal gradient, APG)[26]來(lái)進(jìn)行低秩分解,APG算法進(jìn)行低秩分解是求解最優(yōu)化問(wèn)題,表示為

      (1)

      求解(1)式為NP難問(wèn)題,需要通過(guò)凸松弛轉(zhuǎn)化為新的最優(yōu)化問(wèn)題,表示為

      (2)

      3 本文方法

      本文提出的基于低秩分解與雙流融合的行為識(shí)別方法如圖1所示。第1步,將原始視頻進(jìn)行光流提取與低秩分解,由于當(dāng)前的低秩分解算法不能直接處理三維視頻數(shù)據(jù),需要對(duì)原始視頻先進(jìn)行二維轉(zhuǎn)化、低秩分解、三維還原,得到對(duì)應(yīng)的低秩視頻與稀疏視頻;第2步,將原始視頻以及提取得到的稀疏視頻、光流視頻分別通過(guò)對(duì)應(yīng)的卷積神經(jīng)網(wǎng)絡(luò)處理得到對(duì)應(yīng)的各行為概率;第3步,對(duì)3個(gè)模態(tài)的各行為概率進(jìn)行后融合,得到最終預(yù)測(cè)結(jié)果。

      圖1 本文提出的基于低秩分解與雙流融合的行為識(shí)別方法

      3.1 基于低秩模型的視頻全局運(yùn)動(dòng)信息提取

      本文需要對(duì)視頻的穩(wěn)定區(qū)域與運(yùn)動(dòng)區(qū)域進(jìn)行顯式提取得到低秩流、稀疏流。低秩分解算法目前已經(jīng)比較成熟,因此,本文直接使用經(jīng)典的加速近端梯度算法[26-28]來(lái)進(jìn)行低秩分解。

      在現(xiàn)有的視頻數(shù)據(jù)集[15-16]中,運(yùn)動(dòng)視頻往往是由大部分的穩(wěn)定區(qū)域與少部分的變化運(yùn)動(dòng)信息組合而成,可以借助低秩分解進(jìn)行分離,即將原始視頻數(shù)據(jù)矩陣HRGB分解為低秩流矩陣HA與稀疏流矩陣HE之和,表示為

      HRGB=HA+HE

      (3)

      (3)式中,HRGB、HA、HE均為三維矩陣。傳統(tǒng)的低秩分解算法通常只對(duì)二維矩陣進(jìn)行低秩分解得到一個(gè)二維低秩矩陣與二維稀疏矩陣。然而,視頻數(shù)據(jù)為三維矩陣,無(wú)法直接套用傳統(tǒng)的低秩分解算法。本文對(duì)視頻數(shù)據(jù)進(jìn)行適當(dāng)轉(zhuǎn)化,使其轉(zhuǎn)變?yōu)閭鹘y(tǒng)低秩分解算法所匹配的二維矩陣后再進(jìn)行低秩分解。視頻數(shù)據(jù)低秩分解的預(yù)處理方法如圖2所示。首先,對(duì)三維結(jié)構(gòu)進(jìn)行轉(zhuǎn)化;然后,對(duì)二維結(jié)構(gòu)進(jìn)行低秩分解,得到低秩部分與稀疏部分;最后,將低秩部分與稀疏部分按轉(zhuǎn)化方法的逆過(guò)程還原為三維結(jié)構(gòu)。

      圖2 視頻數(shù)據(jù)低秩分解的預(yù)處理方法

      (4)

      視頻數(shù)據(jù)的三維矩陣HRGB,經(jīng)過(guò)上述操作以后轉(zhuǎn)化為一個(gè)t×n×m的二維矩陣D,表示為

      D=[C1,C2,…,Ct]

      (5)

      (6)

      (7)

      (8)

      同理有

      (9)

      將得到的A、E還原為HA、HE。

      從上述過(guò)程可以得到,在進(jìn)行低秩分解時(shí),整個(gè)視頻的時(shí)域信息被整合為一個(gè)二維矩陣,每一幀的運(yùn)動(dòng)信息均包含了整個(gè)視頻的時(shí)域信息。因此,其比光流包含更加豐富的時(shí)域信息。

      3.2 卷積神經(jīng)網(wǎng)絡(luò)模型

      為了驗(yàn)證本文方法的有效性與泛化性,選用雙流I3D[4]、C3D[2]、R(2+1)D[5]、TSM[29]4個(gè)卷積神經(jīng)網(wǎng)絡(luò)作為驗(yàn)證模型。

      I3D模型網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。I3D的輸入為一段長(zhǎng)度為64幀、單幀圖像大小為224×224的視頻段,其損失函數(shù)使用分類中常用的交叉熵,定義為

      圖3 I3D網(wǎng)絡(luò)結(jié)構(gòu)

      (10)

      (10)式中:yi為第i類的真實(shí)概率;pi為第i類的預(yù)測(cè)概率;C為類別數(shù)。雙流I3D網(wǎng)絡(luò)借鑒了ImageNet中的Inception-v1網(wǎng)絡(luò)[29],經(jīng)證實(shí),在Kinetics[4]大數(shù)據(jù)集上預(yù)訓(xùn)練過(guò)的I3D模型在UCF101和HMDB51上能取得很高的識(shí)別準(zhǔn)確率。不過(guò),此預(yù)訓(xùn)練模型是在對(duì)應(yīng)模態(tài)(即RGB和光流數(shù)據(jù))上進(jìn)行的,缺少低秩、稀疏部分在大規(guī)模數(shù)據(jù)集上的預(yù)訓(xùn)練模型,而直接加載對(duì)應(yīng)模態(tài)預(yù)訓(xùn)練模型會(huì)因?yàn)槟B(tài)信息不匹配而造成實(shí)驗(yàn)結(jié)果不夠好。因此,為了保證對(duì)比實(shí)驗(yàn)的公平性,本文所有實(shí)驗(yàn)在訓(xùn)練時(shí)不加載任何的預(yù)訓(xùn)練模型,所有的模態(tài)采用I3D單獨(dú)訓(xùn)練一個(gè)模型直至在對(duì)應(yīng)模態(tài)上收斂,并融合所有模態(tài)的測(cè)試集結(jié)果作為最終結(jié)果。

      C3D模型是在2D CNN上將2D卷積核擴(kuò)展為3D卷積核得到的模型,3D卷積擁有更加強(qiáng)大的時(shí)域建模能力,在行為識(shí)別上相對(duì)2D卷積表現(xiàn)更好。C3D有8個(gè)卷積層、5個(gè)全連接層以及2個(gè)全連接層,并且卷積核的大小為3×3×3,其損失函數(shù)為交叉熵。

      R(2+1)D模型是將3D卷積用一個(gè)2D空間卷積和1D時(shí)間卷積串聯(lián)代替,總體結(jié)構(gòu)與R3D結(jié)構(gòu)相似,不同之處是R(2+1)D在塊與塊的連接中有更多的ReLU(rectified linear unit)激活層。R(2+1)D使用了和R3D相同的參數(shù)量卻獲得了兩倍的非線性參數(shù),損失函數(shù)為交叉熵。

      TSM[29]模型提出將用于時(shí)域建模的時(shí)間轉(zhuǎn)移模塊聚合時(shí)域特征,保證在二維卷積模型的結(jié)構(gòu)不被破壞的前提下聚合到豐富的時(shí)域信息[30]。TSM保證了整體網(wǎng)絡(luò)的輕量級(jí)并取得了較好的識(shí)別效果,損失函數(shù)為交叉熵。

      本文參考文獻(xiàn)[27]的模型設(shè)置對(duì)C3D網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行同樣的改進(jìn)。在每一個(gè)卷積層后加上了批歸一化層,這樣可以幫助模型在訓(xùn)練過(guò)程中抑制過(guò)擬合。

      3.3 后融合

      本文方法采用的融合方式為后融合,對(duì)所有支路的預(yù)測(cè)結(jié)果進(jìn)行融合,將每個(gè)模態(tài)所預(yù)測(cè)的每個(gè)行為類別的分?jǐn)?shù)進(jìn)行加權(quán)平均得到最終每個(gè)行為類別預(yù)測(cè)概率,取最高的加權(quán)平均概率行為作為最終的行為識(shí)別結(jié)果,表示為

      (11)

      4 實(shí)驗(yàn)與分析

      4.1 實(shí)驗(yàn)數(shù)據(jù)集

      本文在行為識(shí)別中使用最經(jīng)典且常用的UCF101[15]、HMDB51[16]以及紅外視頻行為識(shí)別InfAR[31]數(shù)據(jù)集。

      UCF101數(shù)據(jù)集是從YouTube收集,具有101個(gè)操作類別的真實(shí)行為視頻行為識(shí)別數(shù)據(jù)集。憑借來(lái)自101個(gè)行為類別的13 320個(gè)視頻,UCF101在行為方面提供了良好的行為多樣性,并且在相機(jī)運(yùn)動(dòng)、物體外觀和姿勢(shì)、物體比例、視點(diǎn)、雜亂背景、照明條件等方面存在較大的變化,它是迄今為止仍具有一定挑戰(zhàn)性的數(shù)據(jù)集。

      HMDB51數(shù)據(jù)集在電影中剪輯而得,有小部分?jǐn)?shù)據(jù)來(lái)源于Prelinger檔案庫(kù)、YouTube和Google視頻。數(shù)據(jù)集包含了6 849個(gè)剪輯視頻,共劃分為51個(gè)行為類別,每個(gè)行為類別至少包含101個(gè)剪輯視頻。

      InfAR數(shù)據(jù)集是由40多名不同的志愿者在多個(gè)不同場(chǎng)景下采集的紅外視頻行為識(shí)別數(shù)據(jù)集。數(shù)據(jù)集包含了12個(gè)行為,每個(gè)行為類別包含50個(gè)視頻,總共600個(gè)視頻。

      4.2 實(shí)驗(yàn)細(xì)節(jié)

      本文先在UCF101與HMDB51兩個(gè)數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試,對(duì)數(shù)據(jù)集的劃分參考文獻(xiàn)[2,5-6,30]。在未加說(shuō)明的情況下,本文實(shí)驗(yàn)中所有模態(tài)的訓(xùn)練過(guò)程均不加載任何的預(yù)訓(xùn)練模型。I3D訓(xùn)練使用標(biāo)準(zhǔn)的SGD優(yōu)化算法,其動(dòng)量設(shè)置為0.9,權(quán)重衰減因子10-7,均使用2張2080Ti顯卡,學(xué)習(xí)率在60輪和100輪衰減至10%。C3D與R(2+1)D訓(xùn)練均使用標(biāo)準(zhǔn)的SGD優(yōu)化器算法,其動(dòng)量設(shè)置為0.9,權(quán)重衰減因子為5×10-4,訓(xùn)練使用1張2080Ti顯卡,學(xué)習(xí)率每10輪衰減一半,初始學(xué)習(xí)率為0.001。所有模型均在UCF101或HMDB51上訓(xùn)練120輪,初始學(xué)習(xí)率為0.001。

      在I3D的訓(xùn)練過(guò)程中,本文使用隨機(jī)裁剪的方式,在視頻幀上隨機(jī)裁剪出224×224的區(qū)域。對(duì)視頻幀的長(zhǎng)或者寬小于256的視頻,在保證視頻長(zhǎng)寬比不變的基礎(chǔ)上將長(zhǎng)和寬的最小值擴(kuò)展到256,然后隨機(jī)裁剪一塊224×224的區(qū)域。在時(shí)域上,隨機(jī)選擇足夠早的起始幀,以保證能夠取到所需的幀數(shù)。對(duì)于幀數(shù)不足64的視頻,循環(huán)視頻直到視頻達(dá)到64幀。在訓(xùn)練過(guò)程中,隨機(jī)對(duì)視頻進(jìn)行左右翻轉(zhuǎn)。在測(cè)試過(guò)程中,對(duì)所有視頻均在中心裁剪出224×224的圖像塊,并將整個(gè)視頻進(jìn)行8幀的等間隔采樣,將所有采樣數(shù)據(jù)的預(yù)測(cè)結(jié)果取平均后作為最終的預(yù)測(cè)結(jié)果,并據(jù)此計(jì)算各項(xiàng)指標(biāo)。在C3D與R(2+1)D的訓(xùn)練過(guò)程中,先將原始的視頻按照4幀的等間隔采樣,并將采樣的幀縮放到128×171。每次隨機(jī)從采樣幀選取16幀后隨機(jī)裁剪一塊112×112的區(qū)域,在訓(xùn)練過(guò)程中隨機(jī)進(jìn)行左右翻轉(zhuǎn)。測(cè)試時(shí),保證選取的幀為中心裁剪以及對(duì)整個(gè)采樣的數(shù)據(jù)進(jìn)行12幀等間隔采樣,取平均后作為最終的預(yù)測(cè)結(jié)果。在TSM訓(xùn)練過(guò)程中,對(duì)整個(gè)視頻采樣8幀,其余參數(shù)參考TSM的默認(rèn)訓(xùn)練配置。

      在InfAR數(shù)據(jù)集上本文采用I3D進(jìn)行訓(xùn)練,其訓(xùn)練參數(shù)與UCF101、HMDB51數(shù)據(jù)集訓(xùn)練參數(shù)一致。用TV-L1算法[28]計(jì)算光流,用APG算法[26]對(duì)原始視頻進(jìn)行低秩分解,得到低秩部分與稀疏部分。

      表1所示為I3D、C3D、R(2+1)D、TSM方法在UCF101與HMDB51數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。從表1可得,稀疏流對(duì)RGB流的全局時(shí)域信息進(jìn)行提取,在單流識(shí)別、雙流融合和多流融合的實(shí)驗(yàn)中,也能明顯地提升模型的行為識(shí)別準(zhǔn)確率。

      表1 各種方法的實(shí)驗(yàn)結(jié)果

      4.3 實(shí)驗(yàn)結(jié)果與分析

      單流識(shí)別實(shí)驗(yàn)中,與RGB流相比,稀疏流在UCF101數(shù)據(jù)集上準(zhǔn)確率平均提升了6.97%(其中I3D上提升5.37%,C3D上提升8.22%,R(2+1)D上提升10.66%,TSM上提升3.65%);在HMDB51數(shù)據(jù)集上平均提升6.24%(I3D上提升8.24%,C3D上提升5.75%,R(2+1)D上提升8.56%,TSM上提升2.42%)。這表明稀疏流所提供的全局時(shí)域信息更有利于模型對(duì)視頻運(yùn)動(dòng)特征的提取。

      在雙流融合實(shí)驗(yàn)中,稀疏流和RGB流進(jìn)行融合后,最優(yōu)結(jié)果得到了提升,在UCF101數(shù)據(jù)集上準(zhǔn)確率平均提升4.44%(I3D上提升3.12%,C3D上提升2.88%,R(2+1)D上提升7.66%,TSM上提升4.10%);在HMDB51數(shù)據(jù)集上平均提升3.45%(I3D上提升3.79%, C3D上提升3.66%,R(2+1)D上提升3.21%,TSM上提升3.13%)。這表明稀疏流所提供的全局時(shí)域信息能夠很好地與RGB流所提供的空間信息互補(bǔ)。在稀疏流與光流進(jìn)行雙流融合后,最優(yōu)結(jié)果得到了進(jìn)一步提升,在UCF101數(shù)據(jù)集上準(zhǔn)確率平均提升5.57%(I3D上提升1.69%,C3D上提升8.01%,R(2+1)D上提升5.32%,TSM上提升7.27%);在HMDB51數(shù)據(jù)集上準(zhǔn)確率平均提升6.29%(I3D上提升4.57%,C3D上提升8.89%,R(2+1)D上提升8.75%,TSM上提升2.94%)。本文所有雙流融合實(shí)驗(yàn)都取得了最佳的識(shí)別效果。

      光流、RGB流與稀疏流進(jìn)行三流融合,效果超過(guò)了本文所有的雙流融合方法,達(dá)到了最佳分類精度。相對(duì)于原始RGB流與光流融合,本文方法在UCF101數(shù)據(jù)集的識(shí)別精度比I3D提升了0.64%,比C3D提升了3.47%,比R(2+1)D提升了4.39%,比TSM提升了0.43%;而在HMDB51數(shù)據(jù)集上,比I3D提升了3.07%,比 C3D提升了4.06%,比R(2+1)D提升了7.32%,比TSM上提升4.38%。這進(jìn)一步說(shuō)明,稀疏部分提供的時(shí)域全局運(yùn)動(dòng)信息是有助于模型提升識(shí)別精度的。

      本文在InfAR數(shù)據(jù)集上補(bǔ)充了多流融合的對(duì)比實(shí)驗(yàn),其結(jié)果如表2所示。由表2可以看出,本文方法在多流融合方法中具有較大優(yōu)勢(shì),超過(guò)了其他多流融合方法,達(dá)到最佳精度。

      表2 InfAR數(shù)據(jù)集的多流融合實(shí)驗(yàn)結(jié)果

      5 總結(jié)與展望

      本文通過(guò)分析行為數(shù)據(jù)中運(yùn)動(dòng)信息的本質(zhì),將原始視頻分為穩(wěn)定區(qū)域與運(yùn)動(dòng)區(qū)域,并且通過(guò)低秩分解將這兩個(gè)區(qū)域分離,得到涵蓋了全時(shí)域的稀疏運(yùn)動(dòng)信息,用神經(jīng)網(wǎng)絡(luò)驗(yàn)證了稀疏運(yùn)動(dòng)信息讓模型提取的特征具有更高的特征識(shí)別度。實(shí)驗(yàn)表明,低秩分解對(duì)RGB流中的運(yùn)動(dòng)信息進(jìn)行提取后,其稀疏表示能夠極大提升模型的識(shí)別精度,與原始RGB或者光流有很好的融合效果,并在三流融合后顯著提升效果。

      猜你喜歡
      光流集上時(shí)域
      利用掩膜和單應(yīng)矩陣提高LK光流追蹤效果
      Cookie-Cutter集上的Gibbs測(cè)度
      鏈完備偏序集上廣義向量均衡問(wèn)題解映射的保序性
      基于時(shí)域信號(hào)的三電平逆變器復(fù)合故障診斷
      基于物理學(xué)的改善粒子圖像測(cè)速穩(wěn)健光流方法研究
      復(fù)扇形指標(biāo)集上的分布混沌
      基于極大似然準(zhǔn)則與滾動(dòng)時(shí)域估計(jì)的自適應(yīng)UKF算法
      基于時(shí)域逆濾波的寬帶脈沖聲生成技術(shù)
      基于時(shí)域波形特征的輸電線雷擊識(shí)別
      融合光流速度場(chǎng)與背景差分的自適應(yīng)背景更新方法
      桓台县| 扎赉特旗| 突泉县| 天柱县| 昌平区| 岚皋县| 白银市| 太仓市| 台安县| 湘西| 云梦县| 利辛县| 芦山县| 望江县| 廊坊市| 抚宁县| 昌乐县| 承德县| 宣化县| 建宁县| 河东区| 蓝田县| 韶山市| 阳泉市| 惠来县| 毕节市| 灵丘县| 莱州市| 甘谷县| 碌曲县| 宁德市| 大城县| 准格尔旗| 大连市| 宁强县| 逊克县| 沈阳市| 惠东县| 太康县| 长海县| 内黄县|