車維崧,彭書華,李俊杰
(北京信息科技大學(xué) 自動(dòng)化學(xué)院,北京 100192)
人的行為識(shí)別一直是計(jì)算機(jī)視覺領(lǐng)域中的研究熱點(diǎn)。近年來(lái)深度神經(jīng)網(wǎng)絡(luò)成為處理行為識(shí)別問(wèn)題的主要工具。Tran等[1]最早使用3D卷積網(wǎng)絡(luò)C3D (convolutional 3D)處理行為識(shí)別問(wèn)題并為此后的研究打下了基礎(chǔ)。Hara等[2]系統(tǒng)比較了多種3D卷積網(wǎng)絡(luò)結(jié)構(gòu)在不同數(shù)據(jù)集上的表現(xiàn),發(fā)現(xiàn)3D-ResNeXt是當(dāng)時(shí)性能最好的網(wǎng)絡(luò)結(jié)構(gòu)。但另一方面,3D卷積網(wǎng)絡(luò)結(jié)構(gòu)的研究總體落后于2D卷積網(wǎng)絡(luò),很多性能優(yōu)秀的二維網(wǎng)絡(luò)結(jié)構(gòu)在三維領(lǐng)域沒有得到充分利用,并且缺乏輕量級(jí)的多尺度機(jī)制。
隨著傳感器技術(shù)的發(fā)展,結(jié)構(gòu)光及飛光(time of flight)攝像頭開始快速普及,這類攝像頭可以采集被攝物體的深度信息。同時(shí)包含RGB及深度視頻的多特征數(shù)據(jù)集開始出現(xiàn),基于多特征融合的行為識(shí)別模型也在快速涌現(xiàn)。許艷等[3]使用通過(guò)梯度局部自相關(guān)提取的深度信息與通過(guò)高斯混合模型及Fisher向量提取的骨架位置進(jìn)行融合,在基于人工設(shè)計(jì)特征的方法中取得了較好的效果。黃友文等[4]提出將2D-CNN與LSTM結(jié)合用于RGB和光流輸入特征的行為識(shí)別,并在網(wǎng)絡(luò)的決策層對(duì)兩種特征的分類結(jié)果進(jìn)行加權(quán)融合,改善了網(wǎng)絡(luò)性能。基于多特征融合的行為識(shí)別方法可以有效去除噪聲對(duì)各單一模態(tài)的影響,提升網(wǎng)絡(luò)的分類能力。
本文提出了一種新的帶有多尺度特征融合層及時(shí)空注意力機(jī)制的雙路徑3D卷積網(wǎng)絡(luò)結(jié)構(gòu)和一種新的加權(quán)深度多特征典型相關(guān)分析網(wǎng)絡(luò)。在兩個(gè)多特征行為數(shù)據(jù)集上對(duì)本文模型進(jìn)行了實(shí)驗(yàn),證明了該方法的有效性。
為保留時(shí)間序列信息,循環(huán)神經(jīng)網(wǎng)絡(luò)引入了隱狀態(tài)h的概念。為使網(wǎng)絡(luò)更好地保留完整的時(shí)間信息,Chen等[5]提出了廣義高階循環(huán)網(wǎng)絡(luò):
(1)
記第t個(gè)殘差單元的輸出為rt,每個(gè)殘差單元的兩個(gè)卷積層對(duì)應(yīng)的卷積運(yùn)算分別記為ft和gt,第一個(gè)卷積層的輸出記為ht,則:
rt=gt(ft(rt-1))+rt-1
(2)
ht=ft(rt-1)
(3)
(4)
式(4)為廣義高階循環(huán)網(wǎng)絡(luò)形式的殘差連接定義式。以同樣的方式對(duì)密集連接進(jìn)行分析,3D密集連接的結(jié)構(gòu)如圖2所示。
記密集連接單元中兩個(gè)卷積層分別為gt和ft,單元的輸出為
ht=ft(gt([h0,h1,…,ht-1]))
(5)
式中[·]表示按特征維進(jìn)行拼接。對(duì)特征拼接后進(jìn)行卷積運(yùn)算等價(jià)于分別進(jìn)行卷積運(yùn)算后再相加,即:
(6)
為利用兩種連接的優(yōu)勢(shì),將殘差連接和密集連接兩種結(jié)構(gòu)進(jìn)行拼接可以得到雙路徑時(shí)空卷積單元。將殘差連接和密集連接的表達(dá)式分別改寫為
xt=φt(xt-1)+xt-1
(7)
(8)
則第t個(gè)雙路徑卷積單元的輸出為
ht=[xt,yt]
(9)
雙路徑卷積單元首先將輸入特征圖分割為兩部分,兩部分分別通過(guò)殘差路徑和密集連接路徑后再進(jìn)行拼接。由于對(duì)輸入特征在特征維分割后分別進(jìn)行卷積與直接對(duì)特征進(jìn)行卷積運(yùn)算后再進(jìn)行特征維分割是嚴(yán)格等價(jià)的,故其實(shí)際結(jié)構(gòu)如圖3所示。
視覺問(wèn)題與圖像或視頻的尺寸息息相關(guān),從不同的尺度對(duì)特征進(jìn)行描述會(huì)產(chǎn)生不同的效果。在行為識(shí)別中由于動(dòng)作的幅度和持續(xù)時(shí)間存在差異,在時(shí)空網(wǎng)絡(luò)中加入多尺度方法可以提升網(wǎng)絡(luò)的分類能力。由于視頻樣本的規(guī)模明顯大于圖像,在圖像領(lǐng)域常見的多尺度金字塔等方法由于顯存限制很難直接應(yīng)用于視頻領(lǐng)域。針對(duì)現(xiàn)階段3D卷積網(wǎng)絡(luò)結(jié)構(gòu)中缺乏輕量級(jí)多尺度特征提取方法的問(wèn)題,本文將二維Rse2Net[6]網(wǎng)絡(luò)結(jié)構(gòu)三維化并進(jìn)行了改進(jìn),將其作為時(shí)空多尺度特征融合層嵌入到3D卷積單元中。
其計(jì)算過(guò)程用公式表示為
(10)
(11)
式中:*表示卷積運(yùn)算;Wi為第i組輸入特征對(duì)應(yīng)的卷積核。時(shí)空多尺度特征融合層除第一組特征不進(jìn)行卷積直接輸出外,其余各組輸入均與上一組的輸出結(jié)果相加后進(jìn)行卷積運(yùn)算。第二組到第s組對(duì)應(yīng)的卷積核尺寸均為(3×3×3),故第一組輸入特征對(duì)應(yīng)的感受野范圍為1×1×1,第二組為3×3×3,第i組感受野范圍為3i-1×3i-1×3i-1。使用時(shí)空多尺度特征融合層替代傳統(tǒng)卷積單元中間層(3×3×3)卷積后,該層各組輸出特征對(duì)應(yīng)的激活區(qū)域范圍出現(xiàn)了明顯差異。最后通過(guò)第三層(1×1×1)卷積對(duì)不同時(shí)空尺度的特征進(jìn)行非線性組合,使得網(wǎng)絡(luò)獲得更有利于分類的特征表示。
將前述的雙路徑、時(shí)空多尺度特征融合層和改進(jìn)的時(shí)空注意力機(jī)制[7]相結(jié)合,組成新的3D卷積網(wǎng)絡(luò)結(jié)構(gòu)。將其簡(jiǎn)稱為3D-MsDPN(3D multi-scale dual path networks)。該網(wǎng)絡(luò)的整體結(jié)構(gòu)如圖5所示。
網(wǎng)絡(luò)包含4個(gè)時(shí)空卷積塊,每個(gè)卷積塊中包含多個(gè)時(shí)空卷積單元,各時(shí)空卷積單元由帶有殘差和密集連接雙路徑的3層3D卷積層組成,其中第二層為時(shí)空多尺度特征融合層,在第三層卷積層后加入時(shí)空注意力機(jī)制。網(wǎng)絡(luò)的最后通過(guò)全局池化和激活函數(shù)為log softmax的全連接層得到分類輸出。
記第i個(gè)輸入隨機(jī)變量對(duì)應(yīng)的深度神經(jīng)網(wǎng)絡(luò)非線性變換為fi,則DMCCA的目標(biāo)是求:
(12)
式中:corr為相關(guān)系數(shù);βij為第i和j典型向量在總相關(guān)系數(shù)中的權(quán)重。該權(quán)重通過(guò)Nelder-Mead方法進(jìn)行啟發(fā)式搜索得到。記輸入特征Xi對(duì)應(yīng)的神經(jīng)網(wǎng)絡(luò)的輸出為Hi:
Hi=fi(Xi)
(13)
(14)
(15)
(16)
其中ri為使協(xié)方差矩陣非奇異的正則化項(xiàng)。令:
(17)
則Hi和Hj的相關(guān)系數(shù)為矩陣Tij的核范數(shù)??傁嚓P(guān)系數(shù)即網(wǎng)絡(luò)訓(xùn)練的損失函數(shù)為
(18)
在網(wǎng)絡(luò)誤差梯度反向傳播時(shí),記Tij的奇異值分解為UDVT,則損失函數(shù)對(duì)Hi的偏導(dǎo)數(shù)為
(19)
(20)
(21)
DMCCA可以用于特征層級(jí)或決策層級(jí)的多特征融合。鑒于決策層的特征數(shù)目與分類數(shù)目相同,采用決策層融合可以減少運(yùn)算量,并達(dá)到與特征層融合相近的結(jié)果。在決策層DMCCA融合時(shí),設(shè)以灰度、光流和深度視頻為輸入,分別訓(xùn)練的3D-MsDPN網(wǎng)絡(luò)的決策層輸出為(Yg,Yf,Yd)(Yg,Yf,Yd∈Rn×m,n為樣本數(shù)目,m為分類的類別數(shù)目),將其按特征維拼接后送入深度多特征典型相關(guān)分析網(wǎng)絡(luò),該網(wǎng)絡(luò)為3層全連接結(jié)構(gòu)。記其對(duì)應(yīng)的非線性映射為f,分別計(jì)算網(wǎng)絡(luò)的輸出f([Yg,Yf,Yd])∈Rn×m與(Yg,Yf,Yd)的加權(quán)相關(guān)系數(shù),并以此為損失函數(shù)對(duì)典型相關(guān)分析網(wǎng)絡(luò)進(jìn)行訓(xùn)練,最終得到使加權(quán)相關(guān)系數(shù)最大的非線性映射
(22)
式中βi為輸入特征對(duì)應(yīng)的權(quán)重,通過(guò)Nelder-Mead方法啟發(fā)式搜索獲得。在線性特征融合中通過(guò)加權(quán)可以改善融合效果[10],在使用典型相關(guān)分析進(jìn)行特征融合時(shí)由于各輸入特征在分類準(zhǔn)確率上存在差異,在總相關(guān)系數(shù)中對(duì)分類準(zhǔn)確率高的特征賦予較大權(quán)重、對(duì)分類準(zhǔn)確率較低的特征賦予較小權(quán)重同樣可以起到改善融合效果的作用。將融合后的輸出通過(guò)SVM進(jìn)行分類可以進(jìn)一步提升分類準(zhǔn)確率。上述方法整體結(jié)構(gòu)如圖6所示。
選擇UTD-MHAD[12]和IsoGD[13]兩個(gè)多特征行為數(shù)據(jù)集對(duì)本文模型進(jìn)行實(shí)驗(yàn)。UTD-MHAD為27分類單人行為數(shù)據(jù)集,包含861段樣本。本文將編號(hào)為奇數(shù)的實(shí)驗(yàn)對(duì)象視頻作為訓(xùn)練樣本,偶數(shù)實(shí)驗(yàn)對(duì)象作為測(cè)試樣本。IsoGD為249分類單人手勢(shì)行為數(shù)據(jù)集,包含47 933段樣本,其中有35 878段訓(xùn)練樣本、5784段驗(yàn)證樣本、6271段測(cè)試樣本。
CPU:Intel i5-9600K;GPU:RTX2080;顯卡運(yùn)算平臺(tái):CUDA 10.1.0;顯卡加速庫(kù):Cudnn 7.6.0;編程語(yǔ)言:Python 3.6;開發(fā)框架:Pytorch 1.3.1。
本文提出了一種輸入幀速率抖動(dòng)的視頻數(shù)據(jù)增強(qiáng)方法。記視頻樣本原始幀速率為ft;由于原始樣本存在一定時(shí)間冗余,通過(guò)實(shí)驗(yàn)確定對(duì)原始視頻時(shí)間軸的下采樣程度即確定一個(gè)最佳網(wǎng)絡(luò)輸入幀速率,記為fh,令k=ft/fh。設(shè)置抖動(dòng)范圍L、X為離散隨機(jī)變量,則第i輪訓(xùn)練時(shí)的實(shí)際輸入幀速率:
(23)
令L=3,X服從-(L-1)/2到(L-1)/2的離散均勻分布。UTD-MHAD數(shù)據(jù)集ft=30幀/s,經(jīng)實(shí)驗(yàn)確定fh=10幀/s,故每個(gè)最小批次的輸入樣本幀速率在5幀/s、10幀/s和15幀/s中隨機(jī)抖動(dòng)。IsoGD數(shù)據(jù)集ft=10幀/s,實(shí)驗(yàn)確定fh=5幀/s,輸入樣本幀速率在3.33幀/s、5幀/s和10幀/s中隨機(jī)抖動(dòng)。
在時(shí)間維數(shù)據(jù)增強(qiáng)的基礎(chǔ)上,繼續(xù)使用了一種視頻MixUp增強(qiáng)方法。MixUp[11]通過(guò)對(duì)兩個(gè)不同類別的樣本和標(biāo)簽進(jìn)行線性插值來(lái)構(gòu)造新的虛擬樣本標(biāo)簽對(duì),以此擴(kuò)展訓(xùn)練樣本的分布,提升網(wǎng)絡(luò)的泛化能力。此前該方法主要用于圖像的數(shù)據(jù)增強(qiáng),本文通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)該方法對(duì)視頻樣本同樣有效。
灰度輸入:將兩數(shù)據(jù)集RGB視頻樣本轉(zhuǎn)換為灰度圖像序列,輸入采用前述輸入幀速率抖動(dòng)和Mixip進(jìn)行數(shù)據(jù)增強(qiáng),依據(jù)輸入幀速率截取16幀圖像序列,采用空間隨機(jī)剪裁和隨機(jī)翻轉(zhuǎn)。對(duì)于UTD-MHAD數(shù)據(jù)集樣本不進(jìn)行分辨率壓縮直接截取,輸入維度為1×16×192×160。對(duì)于IsoGD數(shù)據(jù)集先將視頻分辨率壓縮到192×144后隨機(jī)截取128×128窗口,輸入維度為1×16×128×128。
光流輸入:采用TV-L1方法提取光流。UTD-MHAD數(shù)據(jù)集樣本每隔1幀提取光流,IsoGD數(shù)據(jù)集提取相鄰兩幀光流。通過(guò)極坐標(biāo)轉(zhuǎn)換為HSV序列后輸入網(wǎng)絡(luò)。UTD-MHAD光流輸入維度為3×16×192×160,IsoGD數(shù)據(jù)集為3×16×128×128。
深度輸入:與灰度輸入預(yù)處理完全一致。
網(wǎng)絡(luò)訓(xùn)練采用自適應(yīng)的Radam(rectified adam)和Lookahead方法結(jié)合作為優(yōu)化器,初始學(xué)習(xí)率設(shè)置為1×10-3,Lookahead機(jī)制設(shè)置k=5。
以50層的3D-ResNeXt-50作為基準(zhǔn)模型,分別與只加入雙路徑結(jié)構(gòu)的3D-DPN-50、只加入時(shí)空多尺度特征融合層的3D-Res2Net-50,以及同時(shí)加入兩種改進(jìn)結(jié)構(gòu)的3D-MsDPN-50進(jìn)行比較。4種網(wǎng)絡(luò)第1層卷積均為64個(gè)的(7×7×7)卷積核,之后有4個(gè)時(shí)空卷積塊。每個(gè)卷積塊前均有時(shí)空池化層,采用平均和最大兩種池化方式,第1層池化窗口為(3×3×3)、步長(zhǎng)為(2,2,2),其余各層池化窗口均為(2×2×2)。在第4個(gè)卷積塊后進(jìn)行全局池化,使用以log softmax為激活函數(shù)的全連接層作為分類器。各網(wǎng)絡(luò)卷積塊內(nèi)的具體結(jié)構(gòu)如表1所示,表中括號(hào)內(nèi)數(shù)字為每層卷積核數(shù)量,G=x為分組卷積的分組數(shù),(+x)表示密集連接路徑的特征增長(zhǎng)數(shù)。
表1 不同3D卷積網(wǎng)絡(luò)各卷積塊結(jié)構(gòu)對(duì)比
表2對(duì)4種網(wǎng)絡(luò)對(duì)應(yīng)的參數(shù)量、計(jì)算復(fù)雜度及實(shí)驗(yàn)數(shù)據(jù)集分類準(zhǔn)確率進(jìn)行了對(duì)比。可以看到3D-DPN結(jié)構(gòu)由于同時(shí)具有殘差和密集連接,其參數(shù)量和計(jì)算復(fù)雜度相比于基準(zhǔn)模型小幅提升。3D-Res2Net結(jié)構(gòu)由于其時(shí)空多尺度特征融合層第一組特征圖不進(jìn)行卷積,相比于基準(zhǔn)模型減少了參數(shù)量及計(jì)算復(fù)雜度。雙路徑結(jié)構(gòu)及時(shí)空多尺度特征融合層的加入均可以提升網(wǎng)絡(luò)的分類準(zhǔn)確率,兩者共同作用下,3D-MsDPN相比基準(zhǔn)模型在參數(shù)量及計(jì)算復(fù)雜度分別增加3.19%和 1.49%的前提下,在UTD-MHAD和IsoGD兩個(gè)數(shù)據(jù)集以深度視頻為輸入的測(cè)試集分類準(zhǔn)確率分別提升了1.86%和3.76%。
表2 不同3D網(wǎng)絡(luò)參數(shù)量、計(jì)算復(fù)雜度及實(shí)驗(yàn)數(shù)據(jù)集分類準(zhǔn)確率
圖7顯示了4種網(wǎng)絡(luò)結(jié)構(gòu)在IsoGD數(shù)據(jù)集訓(xùn)練過(guò)程中測(cè)試樣本損失函數(shù)的收斂過(guò)程。可以看到雙路徑結(jié)構(gòu)和時(shí)空多尺度特征融合層的加入并沒對(duì)網(wǎng)絡(luò)收斂速度造成影響,Res2Net和MsDPN由于加入多尺度特征融合層在訓(xùn)練過(guò)程中收斂更加穩(wěn)定。
為進(jìn)一步分析多尺度特征融合層的作用,將DPN和MsDPN網(wǎng)絡(luò)卷積塊1的第3個(gè)卷積單元的中間層輸出進(jìn)行比較,該層輸出時(shí)空特征圖的時(shí)間步長(zhǎng)為8,抽取中間4個(gè)時(shí)間步的輸出結(jié)果,將所有特征通道相加后進(jìn)行顯示,結(jié)果如圖8所示。展示樣本為UTD-MHAD數(shù)據(jù)集中編號(hào)為12的拋保齡球動(dòng)作,其中圖8(b)中每行依次為多尺度融合層4個(gè)分組的輸出??梢钥吹讲缓喑叨葘拥腄PN網(wǎng)絡(luò)輸出特征圖主要在腳部和右臂區(qū)域激活且激活區(qū)域尺寸固定,范圍相對(duì)較小。加入多尺度融合層后網(wǎng)絡(luò)在雙腳、頭部和手臂區(qū)域都有較大激活,且不同分組的激活范圍存在明顯差異,這說(shuō)明多尺度融合層為后面卷積層提供了更豐富的特征選擇空間。
網(wǎng)絡(luò)深度、寬度和多尺度融合層的分組數(shù)目對(duì)網(wǎng)絡(luò)性能的影響如表3所示。
表3 網(wǎng)絡(luò)規(guī)模對(duì)參數(shù)量及分類準(zhǔn)確率的影響
表3中38層網(wǎng)絡(luò)各卷積塊卷積單元數(shù)依次為3、3、3、3,101層依次為3、4、23、3。將表1展示的MsDPN結(jié)構(gòu)寬度記為W,每層卷積核數(shù)量減半的網(wǎng)絡(luò)寬度記為0.5W,翻倍的為2W。通過(guò)表3的對(duì)比結(jié)果可以看到,隨著網(wǎng)絡(luò)深度和寬度的提升,在IsoGD數(shù)據(jù)集深度視頻測(cè)試樣本的分類準(zhǔn)確率也在提升,當(dāng)網(wǎng)絡(luò)深度達(dá)到50層、寬度達(dá)到W時(shí)分類準(zhǔn)確率接近飽和。對(duì)多尺度特征融合層分組數(shù)進(jìn)行分析,當(dāng)分組數(shù)為1時(shí)網(wǎng)絡(luò)退化為3D-DPN結(jié)構(gòu),參數(shù)量最大。當(dāng)分組數(shù)為2時(shí)只有一半特征通道進(jìn)行卷積運(yùn)算,參數(shù)量下降但分類性能也隨之下降。當(dāng)分組數(shù)為8時(shí)多尺度結(jié)構(gòu)過(guò)于冗余難于訓(xùn)練,分類準(zhǔn)確率同樣出現(xiàn)下降。綜合來(lái)看,選擇50層卷積、寬度為W、多尺度融合層分組數(shù)為4的網(wǎng)絡(luò)可以達(dá)到參數(shù)量和分類準(zhǔn)確率的平衡。
用灰度、光流和深度3種輸入模態(tài)分別訓(xùn)練3D-MsDPN-50網(wǎng)絡(luò),將網(wǎng)絡(luò)全局池化層輸出作為特征層融合輸入特征、網(wǎng)絡(luò)最后的全連接層輸出作為決策層融合輸入特征。將DMCCA方法與其他特征融合方法進(jìn)行比較,結(jié)果如表4所示。
表4 不同特征融合方法分類準(zhǔn)確率對(duì)比
表4中特征層融合時(shí)的DCCA和DMCCA方法均采用3層全連接神經(jīng)網(wǎng)絡(luò),3層神經(jīng)元數(shù)量依次為2560、2560、1024,均采用sigmoid為激活函數(shù)。在決策層進(jìn)行如圖6所示的DMCCA融合時(shí),IsoGD數(shù)據(jù)集其對(duì)應(yīng)的3層全連接網(wǎng)絡(luò)的神經(jīng)元個(gè)數(shù)分別為1024、512、249,參數(shù)量為1.42×106,單樣本FLOPs為2.83×106,UTD-MHAD數(shù)據(jù)集對(duì)應(yīng)的DMCCA網(wǎng)絡(luò)3層神經(jīng)元個(gè)數(shù)分別為128、64、27,其計(jì)算復(fù)雜度相較于時(shí)空卷積網(wǎng)絡(luò)基本可以忽略不計(jì)。從表4可以看到,在不使用典型相關(guān)分析的特征融合方法中,在特征層進(jìn)行拼接融合并使用線性SVM作為分類器的效果最好。在特征層和決策層進(jìn)行DMCCA融合的效果好于CCA、DCCA方法及其他融合算法。在特征層通過(guò)加權(quán)的DMCCA相比于未加權(quán)的DMCCA在兩個(gè)數(shù)據(jù)集上的分類準(zhǔn)確率分別提升了0.73%和0.47%,在決策層分別提升了0.49%和0.47%,這證明了在總相關(guān)系數(shù)中進(jìn)行加權(quán)可以起到提升分類準(zhǔn)確率的作用。最終使用線性加權(quán)的DMCCA進(jìn)行決策層融合在兩個(gè)數(shù)據(jù)集上分類準(zhǔn)確率達(dá)到了72.65%和98.14%。
將本文方法在UTD-MHAD和IsoGD兩個(gè)數(shù)據(jù)集上與基于其他模型的研究結(jié)果進(jìn)行了對(duì)比,結(jié)果如表5和表6所示。本文方法在UTD-MHAD數(shù)據(jù)集上相比于此前最好的研究結(jié)果[16]將測(cè)試集分類準(zhǔn)確率提升了3.86%,在IsoGD數(shù)據(jù)集上相比于此前最好的研究結(jié)果[19]將測(cè)試集分類準(zhǔn)確率提升了4.51%。分類準(zhǔn)確率的提升是時(shí)空網(wǎng)絡(luò)結(jié)構(gòu)改進(jìn)、新的視頻數(shù)據(jù)增強(qiáng)方式以及新的特征融合算法3個(gè)方面因素共同作用的結(jié)果,其中網(wǎng)絡(luò)結(jié)構(gòu)改進(jìn)和特征融合的作用更為顯著。
表5 在UTD-MHAD數(shù)據(jù)集上與其他研究的對(duì)比
表6 在IsoGD數(shù)據(jù)集上與其他研究的對(duì)比
本文提出了一種新的3D卷積網(wǎng)絡(luò)結(jié)構(gòu)3D-MsDPN并將其用于行為識(shí)別。該網(wǎng)絡(luò)通過(guò)雙路徑結(jié)構(gòu)提升了特征提取能力,通過(guò)時(shí)空多尺度特征融合層提升了對(duì)不同時(shí)空尺度特征的表達(dá)能力。設(shè)計(jì)了一種新的深度多特征典型相關(guān)分析網(wǎng)絡(luò)用于灰度、光流和深度輸入的決策層多特征融合。本文方法在UTD-MHAD和IsoGD兩個(gè)公開行為識(shí)別數(shù)據(jù)集上的分類準(zhǔn)確率分別達(dá)到了98.14%和72.65%,高于現(xiàn)有其他研究。將該網(wǎng)絡(luò)結(jié)構(gòu)與循環(huán)網(wǎng)絡(luò)結(jié)合用于長(zhǎng)時(shí)間復(fù)合行為識(shí)別是下一步的工作重點(diǎn)。