摘 要:目前基于3D-ConvNet的行為識(shí)別算法普遍使用全局平均池化(global average pooling,GAP)壓縮特征信息,但會(huì)產(chǎn)生信息損失、信息冗余和網(wǎng)絡(luò)過擬合等問題。為了解決上述問題,更好地保留卷積層提取到的高級(jí)語義信息,提出了基于全局頻域池化(global frequency domain pooling,GFDP)的行為識(shí)別算法。首先,根據(jù)離散余弦變換(discrete cosine transform,DCT)看出,GAP是頻域中特征分解的一種特例,從而引入更多頻率分量增加特征通道間的特異性,減少信息壓縮后的信息冗余。其次,為了更好地抑制過擬合問題,引入卷積層的批標(biāo)準(zhǔn)化策略,并將其拓展在以ERB(efficient residual block)-Res3D為骨架的行為識(shí)別模型的全連接層以優(yōu)化數(shù)據(jù)分布。最后,將該方法在UCF101數(shù)據(jù)集上進(jìn)行驗(yàn)證。結(jié)果表明,模型計(jì)算量為3.5 GFlops,參數(shù)量為7.4 M,最終的識(shí)別準(zhǔn)確率在ERB-Res3D模型的基礎(chǔ)上提升了3.9%,在原始Res3D模型基礎(chǔ)上提升了17.4%,高效實(shí)現(xiàn)了更加準(zhǔn)確的行為識(shí)別結(jié)果。
關(guān)鍵詞:3D-ConvNet; 人體行為識(shí)別; 全局平均池化; 離散余弦變換
中圖分類號(hào):TP319 文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2024)09-042-2867-07
doi:10.19734/j.issn.1001-3695.2023.11.0596
Action recognition algorithm based on global frequency domain pooling
Jia Zhichao1, Zhang Haichao1, Zhang Chuang1,2, Yan Mengmeng1, Chu Jinqi1, Yan Zhiyue1
(1.College of Electronic & Information Engineering, Nanjing University of Information Science & Technology, Nanjing 210044, China; 2.Jiangsu Key Laboratory of Meteorological Observation & Information Processing, Nanjing 210044, China)
Abstract:The current 3D-ConvNet-based action recognition algorithms generally use GAP to compress feature information. However, it leads to issues of information loss, redundancy, and network overfitting. To address these issues and enhance the retention of high-level semantic information extracted by the convolutional layer, this paper proposed an action recognition algorithm based on GFDP. Firstly, DCT shows that GAP is a special case of feature decomposition in the frequency domain. Therefore, the algorithm introduced more frequency components to increase the specificity between feature channels and reduce the information redundancy after information compression. Secondly, to better suppress the overfitting problem, the algorithm introduced the batch normalization strategy to the convolutional layer and extended it to the fully connected layer of the action recognition model with ERB-Res3D as the skeleton to optimize the data distribution. Finally, this paper verified the proposed method on the UCF101 dataset. The results reveals that the model’s computational load is 3.5 GFlops, with 7.4 million para-meters. The final recognition accuracy improved by 3.9% based on the ERB-Res3D model and 17.4% based on the original Res3D model. This improvement effectively achieves more accurate behavior recognition results.
Key words:3D-ConvNet; human action recognition; global average pooling; discrete cosine transform
0 引言
隨著智能手機(jī)、便攜式設(shè)備的普及,以及短視頻APP的蓬勃發(fā)展,每個(gè)人都可以成為短視頻的生產(chǎn)者。視頻的內(nèi)容包含人們生活的方方面面,其中以人為中心,旨在分析出視頻中人與人、人與物互動(dòng)時(shí)表現(xiàn)出的動(dòng)作類別的技術(shù),被稱為人體行為識(shí)別(HAR)技術(shù)。HAR是利用模式識(shí)別技術(shù)進(jìn)行視頻理解的重要研究方向[1~3],在智能安防、人機(jī)交互、智慧教育等領(lǐng)域都有著重要的應(yīng)用[4~6]。
近年來,基于深度學(xué)習(xí)的行為識(shí)別方法層出不窮,其中主流的方法大致可以分為三類,即基于Two-Stream[7]的行為識(shí)別方法、基于RNN[8]的行為識(shí)別方法和基于3D-ConvNet[9]的行為識(shí)別方法?,F(xiàn)在,有的研究依舊使用光流來描述視頻中的運(yùn)動(dòng)信息[10, 11],但這對(duì)計(jì)算和存儲(chǔ)要求較高,不利于數(shù)據(jù)集大規(guī)模的訓(xùn)練和部署,因此3D-ConvNet開始作為建模視頻中時(shí)間信息的重要手段。在基于3D-ConvNet的行為識(shí)別方法中,諸如Res3D[12]、I3D[13]、R(2+1)D[14]、TSM[15]等眾多算法模型大都以ResNet[16]為基礎(chǔ)骨架,而ResNet在卷積層向全連接層過渡時(shí),采用全局平均池化對(duì)最末層卷積輸出的特征圖進(jìn)行信息壓縮,只保留一個(gè)均值表示該通道特征圖所蘊(yùn)涵的高級(jí)語義信息。這種做法雖然實(shí)現(xiàn)了較大程度的信息壓縮,減少了后續(xù)全連接層的參數(shù)量和浮點(diǎn)運(yùn)算量,但當(dāng)不同通道的特征圖均值相同時(shí),原本表示不同特征信息的特征圖就會(huì)表達(dá)出相同的語義,使得壓縮后的均值特征缺乏多樣性,從而產(chǎn)生信息損失和信息冗余的問題[17]。
離散余弦變換作為有損壓縮的核心成員之一,在深度學(xué)習(xí)領(lǐng)域中具有廣泛的應(yīng)用。研究者們發(fā)現(xiàn)將數(shù)據(jù)轉(zhuǎn)換至頻域,以頻域視角重新思考數(shù)據(jù)的處理流程,通過引入更多的頻率分量來充分利用網(wǎng)絡(luò)中的數(shù)據(jù)信息,能夠?qū)NN模型的性能有很好的改善效果。其中,李長(zhǎng)海[18]以數(shù)據(jù)預(yù)處理為切入點(diǎn),認(rèn)為常見的預(yù)處理主要針對(duì)RGB圖像進(jìn)行數(shù)據(jù)增強(qiáng)、歸一化等,單一的RGB圖像表達(dá)的時(shí)空特征有限,因此李長(zhǎng)海利用DCT將空域中的RGB圖像數(shù)據(jù)變換到頻域,并作為CNN的輸入來提取頻域特征,再與原RGB圖像為輸入的時(shí)域通道提取的時(shí)空特征相融合,豐富模型的特征信息,進(jìn)而提高模型性能。Qin等人[19]提出了FcaNet,在注意力機(jī)制中以頻域視角重視全局平均池化,通過引入多個(gè)頻率分量來充分利用CNN提取到的特征信息,彌補(bǔ)GAP造成的特征損失,最終在ImageNet、COCO等圖像分類任務(wù)中表現(xiàn)出了較好的效果。Yang等人[20]基于DCT卷積,提出了CDF-Net,能夠有效提取和融合輸入樣本的頻域和空間特征。Yu等人[21]在不壓縮信道的情況下,將頻域信息與空間信息相結(jié)合,提出了一種基于頻空域轉(zhuǎn)換的服裝分類網(wǎng)絡(luò),該算法有效地提高了服裝分類的準(zhǔn)確率。
針對(duì)上述GAP中存在的特征損失問題,以及研究者們?cè)陬l域視角里對(duì)人體行為特征提取尚未深入研究,本文提出了一種基于全局頻域池化的人體行為識(shí)別算法。一方面,通過離散余弦變換分析了全局平均池化出現(xiàn)信息損失和信息冗余問題的原因是全局平均池化在壓縮特征信息時(shí)只保留了最低頻率分量而沒有考慮其他頻率分量帶來的影響,本文通過引入多個(gè)低頻分量提出了全局頻域池化方法,來豐富算法模型降采樣后特征信息的多樣性。另一方面,引入卷積層的批標(biāo)準(zhǔn)化策略并拓展至全連接輸出層,降低了模型過擬合的風(fēng)險(xiǎn)。最終在UCF101數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),驗(yàn)證全局頻域池化對(duì)模型的性能具有提升效果。
1 方法
1.1 全局平均池化的頻域分析
為了能夠?qū)r(shí)域中的GAP映射在頻域中,本文采用在圖像處理領(lǐng)域經(jīng)常使用的離散余弦正變換DCT-Ⅱ和反變換DCT-Ⅲ,其中二維DCT表達(dá)式為
由上述計(jì)算流程可知,GAP與GFDP的區(qū)別在于圖5中權(quán)重矩陣B的不同。GAP只含有(0,0)分量(圖中DCT0),使得權(quán)重矩陣每個(gè)位置恒為1,因此通道壓縮后易產(chǎn)生相同的語義;而GFDP除了有(0,0)分量之外,引入的其他頻率分量改變了權(quán)重矩陣各個(gè)位置的權(quán)值分布,使得通道壓縮后出現(xiàn)相同語義的概率大幅減小。GAP與GFDP的壓縮效果如圖5所示,以兩個(gè)通道的feature map為例,經(jīng)過GAP后,原本特征信息不同的兩個(gè)通道表達(dá)出了相同的語義信息,出現(xiàn)了信息冗余的問題;而GFDP在引入4個(gè)頻率分量后,兩個(gè)通道仍然保留了自身的獨(dú)特語義,有效抑制了信息冗余的影響。
1.3 網(wǎng)絡(luò)結(jié)構(gòu)
在上一節(jié)中,由于采取了頻域池化特征融合與單次計(jì)算權(quán)重矩陣的策略,使得GFDP相比于GAP能夠進(jìn)一步豐富特征信息的同時(shí),時(shí)間復(fù)雜度和空間復(fù)雜度基本保持一致。然而,在基于3D-ConvNet的行為識(shí)別方法中,由于卷積核維度的增加以及視頻數(shù)據(jù)量的提升,網(wǎng)絡(luò)模型的參數(shù)量及計(jì)算量顯著增加,這也會(huì)導(dǎo)致模型在訓(xùn)練和推理階段的計(jì)算復(fù)雜度上升。所以,在追求行為識(shí)別模型性能的同時(shí),需要考慮并平衡計(jì)算效率。
本文在之前的研究ERB-Res3D[22]中,將Res3D網(wǎng)絡(luò)模型和ERB(efficient residual block)結(jié)構(gòu)融合,有效解決了3D-ConvNet存在的參數(shù)量多、時(shí)序信息提取不充分和信息冗余問題,該結(jié)構(gòu)能在減少模型參數(shù)量和計(jì)算量的前提下保持較高的行為識(shí)別精度。其中ERB結(jié)構(gòu)如圖6所示,ERB-Res3D網(wǎng)絡(luò)結(jié)構(gòu)如表1所示。
本文的網(wǎng)絡(luò)模型以ERB-Res3D18為基礎(chǔ)骨架,將提出的全局頻域池化(GFDP)嵌入在CNN向全連接層過渡處,用來壓縮CNN提取到的高級(jí)語義信息,最后由softmax輸出層輸出識(shí)別結(jié)果??傮w網(wǎng)絡(luò)框圖如圖7所示,網(wǎng)絡(luò)的輸入為(batch size,8,112,112,3),第一個(gè)卷積層的卷積核為3×7×7、步長(zhǎng)為1×2×2,后面共四個(gè)卷積層包含8個(gè)ERB結(jié)構(gòu),每經(jīng)過兩個(gè)ERB結(jié)構(gòu)進(jìn)行一次池化核為2×2×2的最大池化,以降采樣特征信息,最終最后一個(gè)ERB的輸出維度為(batch size,1,7,7,1536),然后由GFDP壓縮每個(gè)通道的特征信息,使得全連接層的輸入維度為(batch size,1536),最后由softmax函數(shù)輸出識(shí)別結(jié)果。同時(shí)為了使網(wǎng)絡(luò)模型更好地適應(yīng)每個(gè)batch size的輸入數(shù)據(jù),本文在所有卷積層和全連接層后都加入了批標(biāo)準(zhǔn)化(BN)來標(biāo)準(zhǔn)化數(shù)據(jù)。
2 實(shí)驗(yàn)與分析
2.1 數(shù)據(jù)集
本文選用UCF101行為識(shí)別數(shù)據(jù)集[23]進(jìn)行實(shí)驗(yàn)驗(yàn)證。該數(shù)據(jù)集中的視頻主要從You Tube中獲取。行為類別涉及人與物體交互、單純的肢體動(dòng)作、人與人交互、演奏樂器、體育運(yùn)動(dòng)五個(gè)方面,共包含101類行為動(dòng)作。每類動(dòng)作被分為25組,每組包含一個(gè)動(dòng)作的4~7個(gè)視頻,共13 320個(gè)視頻,總計(jì)時(shí)長(zhǎng)約有27 h。數(shù)據(jù)集部分行為實(shí)示例如圖8所示。
對(duì)于UCF101數(shù)據(jù)集的劃分,官網(wǎng)有3種訓(xùn)練集和測(cè)試集的劃分策略。本文選擇split01方法進(jìn)行劃分,其中訓(xùn)練集共有9 537個(gè)視頻序列,約占數(shù)據(jù)集總量的70%,測(cè)試集共有3 783個(gè)視頻序列,約占數(shù)據(jù)集總量的30%。實(shí)驗(yàn)時(shí)先通過訓(xùn)練集訓(xùn)練模型參數(shù),最后用訓(xùn)練好的模型在測(cè)試集上的識(shí)別精度作為最終的實(shí)驗(yàn)結(jié)果。
2.2 實(shí)驗(yàn)設(shè)置
2.2.1 實(shí)驗(yàn)環(huán)境
本文在Intel CoreTM I5-9400F,NVIDIA GeForce GTX 1600 SUPER(6 GB),2.9 GHz CPU、64位Windows 10操作系統(tǒng)上進(jìn)行實(shí)驗(yàn),采用Python語言編程,TensorFlow-Slim輕量級(jí)庫搭建神經(jīng)網(wǎng)絡(luò)模型。
2.2.2 超參數(shù)設(shè)置
訓(xùn)練階段,使用Xavier方法[24]初始化網(wǎng)絡(luò)參數(shù),采用小批量數(shù)據(jù)(mini-batch)進(jìn)行訓(xùn)練,根據(jù)顯卡性能batch大小設(shè)置為12。學(xué)習(xí)率的調(diào)整采用分段常數(shù)衰減策略,前50個(gè)epoch設(shè)置為0.001,之后每20個(gè)epoch衰減為原來1/10,直至網(wǎng)絡(luò)收斂;反向傳播時(shí),采用交叉熵?fù)p失函數(shù)衡量網(wǎng)絡(luò)損失,使用Adam優(yōu)化算法[25]更新模型參數(shù),采用L2正則化和BN[26]兩種策略防止網(wǎng)絡(luò)出現(xiàn)過擬合。網(wǎng)絡(luò)訓(xùn)練的參數(shù)設(shè)置如表2所示。
測(cè)試階段,首先等間隔地抽取測(cè)試集中一段視頻的8幀圖像,并采用中心剪裁的方式處理抽取到的圖像序列作為網(wǎng)絡(luò)輸入,然后通過前向傳播輸出101個(gè)行為分類得分,最終取得分最高的類別為預(yù)測(cè)結(jié)果。
2.3 消融實(shí)驗(yàn)
在對(duì)Res3D網(wǎng)絡(luò)進(jìn)行改進(jìn)時(shí),本文采取了一系列的優(yōu)化手段,有引入的數(shù)據(jù)增強(qiáng)、ERB模塊以及softmax層標(biāo)準(zhǔn)化,也有本文設(shè)計(jì)的全局頻域池化。為了充分驗(yàn)證四個(gè)策略,無論是單獨(dú)使用還是結(jié)合使用都對(duì)模型的性能有提升效果,本文先沿用最初的GAP操作,以UCF101為基準(zhǔn)數(shù)據(jù)集,按照官方提供的split01劃分訓(xùn)練集和測(cè)試集,通過數(shù)據(jù)增強(qiáng)、softmax層標(biāo)準(zhǔn)化在原始Res3D模型和ERB-Res3D模型上的表現(xiàn),驗(yàn)證除全局頻域池化之外的三個(gè)優(yōu)化策略的有效性(對(duì)于全局頻域池化對(duì)模型的影響將在下一節(jié)探索)。不同的優(yōu)化策略在兩個(gè)模型中的準(zhǔn)確率如表3所示。
首先按列分析,從表中數(shù)據(jù)可知,數(shù)據(jù)增強(qiáng)、softmax層標(biāo)準(zhǔn)化單獨(dú)使用時(shí),無論是在Res3D模型中還是ERB-Res3D模型中,識(shí)別準(zhǔn)確率都高于無優(yōu)化策略時(shí)的模型,而且當(dāng)兩種策略結(jié)合使用時(shí),對(duì)識(shí)別準(zhǔn)確率會(huì)有進(jìn)一步的提升。但對(duì)于不同模型,兩者單獨(dú)使用時(shí)雖都有明顯的效果,但提升的幅度卻因模型而異。其中在Res3D模型中,softmax層標(biāo)準(zhǔn)化提升的準(zhǔn)確率比數(shù)據(jù)增強(qiáng)高了2.9%,表明在Res3D中softmax層標(biāo)準(zhǔn)化發(fā)揮的作用更大;在ERB-Res3D模型中,數(shù)據(jù)增強(qiáng)提升的準(zhǔn)確率只比softmax層標(biāo)準(zhǔn)化高了0.3%,兩者相差無幾,表明在該模型中兩種策略都發(fā)揮了自身該有的作用。
其次按行分析,對(duì)于數(shù)據(jù)增強(qiáng)和輸出層標(biāo)準(zhǔn)化兩種優(yōu)化策略,無論是不使用、單獨(dú)使用還是結(jié)合使用,ERB-Res3D都表現(xiàn)出了比Res3D更好的性能,這再次印證了ERB模塊對(duì)模型性能的提升效果。但是逐行分析可知,在無優(yōu)化策略時(shí),相較于Res3D的準(zhǔn)確率,ERB-Res3D有12.8%的提升;單獨(dú)使用數(shù)據(jù)增強(qiáng)和softmax層標(biāo)準(zhǔn)化時(shí)分別有6.9%、3.7%的提升,兩者共同使用時(shí)有0.9%的提升,準(zhǔn)確率提升的幅度隨著優(yōu)化策略的增加而減弱,表明ERB模塊在過擬合較嚴(yán)重的網(wǎng)絡(luò)中能表現(xiàn)出更好的效果,體現(xiàn)了ERB隱含的解決過擬合的能力,而且當(dāng)數(shù)據(jù)量充足、網(wǎng)絡(luò)不存在過擬合問題時(shí),ERB也可減少模型的參數(shù)量和浮點(diǎn)運(yùn)算量,實(shí)現(xiàn)輕量化。
最后,綜合分析表中數(shù)據(jù),以Res3D模型無優(yōu)化策略為基準(zhǔn),當(dāng)數(shù)據(jù)增強(qiáng)、softmax層標(biāo)準(zhǔn)化和ERB三種策略單獨(dú)使用時(shí),準(zhǔn)確率分別為52.2%、55.1%和58.3%,相較于基準(zhǔn)的45.5%都有不同程度的提升,表明三種策略都對(duì)模型性能的提升有效,而且當(dāng)三種策略共同使用時(shí),準(zhǔn)確率達(dá)到了61.1%,在所有方案中表現(xiàn)出了最好的效果。因此在接下來的實(shí)驗(yàn)中,將以三種策略共同使用時(shí)的Res3D模型為基礎(chǔ)骨架,探索全局頻域池化中不同類型和不同數(shù)量的頻率分量對(duì)識(shí)別結(jié)果的影響。
2.4 頻率分量的選擇實(shí)驗(yàn)
從圖1中圖像在頻域中的頻譜分布可知,低頻分量蘊(yùn)涵了絕大部分圖像信息,因此理論上,當(dāng)全局頻域池化引入有限低頻分量時(shí),feature map壓縮后的特征信息更豐富,進(jìn)而更能提升模型的性能。為了驗(yàn)證低頻分量在全局頻域池化中的效果,本節(jié)設(shè)置實(shí)驗(yàn),從低頻分量、高頻分量以及混合分量(低頻、高頻混合)三類頻率分量出發(fā),觀察引入不同數(shù)目的分量時(shí)模型的識(shí)別準(zhǔn)確率,驗(yàn)證低頻分量對(duì)全局頻域池化的有效性,同時(shí)探究分量數(shù)目對(duì)全局頻域池化的影響。
對(duì)于引入的頻率分量數(shù)目,因Res3D最終輸出的單通道特征圖維度是(1,7,7),所以在頻域中共有49個(gè)頻率分量,本次實(shí)驗(yàn)通過分別引入1、2、4、8、16個(gè)頻率分量來觀察全局頻域池化對(duì)模型性能的影響,最終確定合適的頻率分量數(shù)目,實(shí)驗(yàn)結(jié)果如圖9所示。首先,對(duì)于分量的類型,低頻分量和混合分量明顯比高頻分量表現(xiàn)的效果要好,且低頻分量效果整體更佳,表明模型對(duì)低頻分量蘊(yùn)涵的特征信息更加敏感。當(dāng)引入高頻分量時(shí),模型與引入1個(gè)分量(GAP)相比,識(shí)別準(zhǔn)確率不升反降,表明高頻分量雖然也包含特征圖的相關(guān)信息,但并不適合模型性能的提升,所以應(yīng)盡量減少高頻分量的引入;其次,對(duì)于引入的分量數(shù)目,從圖中可以看出引入2個(gè)或者8個(gè)分量的準(zhǔn)確率相近,當(dāng)引入4個(gè)分量時(shí),無論低頻分量還是高頻分量、混合分量,都在該類型分量中表現(xiàn)最好,表明引入分量的多少,并非與模型表現(xiàn)出的效果呈正比,選擇合適數(shù)目的分量才能實(shí)現(xiàn)最佳的識(shí)別效果。
2.5 與其他行為識(shí)別方法比較
經(jīng)上述的消融實(shí)驗(yàn)和頻率選擇實(shí)驗(yàn),本文以ERB-Res3D模型為基礎(chǔ)骨架,選擇引入4個(gè)低頻分量的全局頻域池化和softmax層標(biāo)準(zhǔn)化為最終的行為識(shí)別模型。首先,模型的識(shí)別準(zhǔn)確率和loss曲線如圖10和11所示。
前80個(gè)epoch的學(xué)習(xí)率為10-3,在0~20 epoch中訓(xùn)練集和測(cè)試集的準(zhǔn)確率上升幅度較大,但在21~80 epoch中訓(xùn)練集準(zhǔn)確率和損失值變化較為平緩,且呈現(xiàn)出緩慢上升的趨勢(shì),測(cè)試集的準(zhǔn)確率和損失值振蕩明顯,表明模型不穩(wěn)定;在80 epoch之后學(xué)習(xí)率為10-4,無論是訓(xùn)練集還是測(cè)試集,準(zhǔn)確率和loss值均在開始時(shí)有較大幅度的變化,之后振蕩幅度逐漸趨于平緩,模型逐漸穩(wěn)定。最終訓(xùn)練集和測(cè)試集的準(zhǔn)確率分別保持在99.6%和62.3%左右,且loss值分別在0.01和2.22上下浮動(dòng)。
其次,為了方便觀察模型對(duì)不同類別的識(shí)別精度,本文將ERB-Res3D模型不使用GFDP和使用GFDP時(shí),在UCF101測(cè)試集上的預(yù)測(cè)結(jié)果分別繪制成混淆矩陣,如圖12所示。
圖12為ERB-Res3D在UCF101數(shù)據(jù)集前10種類別的識(shí)別結(jié)果局部混淆矩陣,橫坐標(biāo)為模型預(yù)測(cè)的行為標(biāo)簽,縱坐標(biāo)為真實(shí)行為標(biāo)簽。通常情況下,當(dāng)預(yù)測(cè)標(biāo)簽與真實(shí)標(biāo)簽相同即為識(shí)別正確,在混淆矩陣中為對(duì)角線的位置。從圖中可以看出,對(duì)于大部分行為類別,ERB-Res3D模型識(shí)別正確的樣本個(gè)數(shù)遠(yuǎn)大于識(shí)別錯(cuò)誤的樣本個(gè)數(shù)(圖中顏色越深,表示數(shù)值越大),但也存在少部分行為識(shí)別誤差較大。
為了更好地證明GFDP的有效性,對(duì)比圖12(a)與(b),可以看出本文模型在對(duì)角線位置上的色度更深,表明識(shí)別正確的數(shù)量更多。特別是左上角中動(dòng)作存在相似性的apply eye makeup(化眼妝)和apply lipstick(涂口紅)兩類行為,本文模型預(yù)測(cè)結(jié)果基本集中在正確位置(對(duì)角線),而ERB-Res3D模型會(huì)有一定的概率錯(cuò)誤地識(shí)別兩類行為。圖13為ERB-Res3D識(shí)別結(jié)果具體樣本案例,在同一樣本案例下,使用GFDP能夠準(zhǔn)確識(shí)別出原先識(shí)別錯(cuò)誤的視頻樣本,表明本文模型在區(qū)分相似行為時(shí)能夠表現(xiàn)出更高的魯棒性。
最后,為了驗(yàn)證所提模型的優(yōu)勢(shì),將本文模型與當(dāng)下流行的行為識(shí)別方法分別在浮點(diǎn)運(yùn)算量、模型參數(shù)量和識(shí)別準(zhǔn)確率三個(gè)性能指標(biāo)上進(jìn)行比較,其結(jié)果如表4所示。
從計(jì)算量和浮點(diǎn)運(yùn)算量上分析,相比于ERB-Res3D方法,本文方法參數(shù)量并沒有增加,浮點(diǎn)運(yùn)算量上增加了DCT變換帶來的計(jì)算量,由于數(shù)值較小可基本忽略,所以在這兩個(gè)性能指標(biāo)上與ERB-Res3D方法對(duì)比其他行為識(shí)別方法的分析相同。從表4中可以看出,本文方法最后的浮點(diǎn)運(yùn)算量對(duì)比基準(zhǔn)模型Res3D下降了81%,而參數(shù)量也降低了77%,可以直觀地看出模型具有很好的輕量化效果。
對(duì)表中數(shù)據(jù)綜合分析可知,本文方法的識(shí)別準(zhǔn)確率對(duì)比ERB-Res3D方法提高了3.9%,對(duì)比基準(zhǔn)模型Res3D提高了17.4%;T3D的準(zhǔn)確率最高,比本文方法高了3.8%,但浮點(diǎn)運(yùn)算量和參數(shù)量卻是本文的5.7倍和11.6倍;3D-MobileNetV3的計(jì)算量和浮點(diǎn)運(yùn)算量最低,但準(zhǔn)確率比本文方法低了9.6%。結(jié)果表明,本文方法在維持計(jì)算量和浮點(diǎn)運(yùn)算量的基礎(chǔ)上,提升了模型的識(shí)別準(zhǔn)確率,使模型表現(xiàn)出了更高的性能。
3 結(jié)束語
針對(duì)3D-ConvNet中全局平均池化存在的信息損失和信息冗余問題,為了更好地保留卷積層提取到的高級(jí)語義信息,本文提出了一種基于全局頻域池化的人體行為/D6pyHNKQwWeQ25dqRQ9LmGV4pd8R7KUwKUK17s8Rhg=識(shí)別算法。一方面,由離散余弦變換分析了全局平均池化出現(xiàn)信息損失和信息冗余問題的原因是全局平均池化在壓縮特征信息時(shí)只保留了最低頻率分量而沒有考慮其他頻率分量帶來的影響,并通過引入多個(gè)低頻分量提出了全局頻域池化方法,來豐富算法模型降采樣后特征信息的多樣性。另一方面,引入卷積層的批標(biāo)準(zhǔn)化策略并拓展至全連接輸出層,降低了模型過擬合的風(fēng)險(xiǎn)。在相關(guān)數(shù)據(jù)集上的消融實(shí)驗(yàn)可以看出,引入四個(gè)低頻分量的全局頻域池化對(duì)模型性能的提升效果最佳。最終的實(shí)驗(yàn)結(jié)果表明,本文方法可以利用較低的浮點(diǎn)運(yùn)算量和參數(shù)量實(shí)現(xiàn)更高的識(shí)別準(zhǔn)確率。
下一步的研究方向可以從更加細(xì)粒度的角度出發(fā),先觀察每個(gè)頻率分量單獨(dú)使用時(shí)模型表現(xiàn)出的性能,然后按照性能提升的幅度,從高到低依次引入不同數(shù)目的頻率分量,以便更好地補(bǔ)充特征信息,解決信息損失問題。隨后,可以延伸至卷積神經(jīng)網(wǎng)絡(luò)中非全局的最大池化和平均池化,以尋找更為優(yōu)越的降采樣技術(shù)。
參考文獻(xiàn):
[1]朱相華, 智敏, 殷雁君. 基于2D CNN和Transformer的人體動(dòng)作識(shí)別[J]. 電子測(cè)量技術(shù), 2022, 45(15): 123-129. (Zhu Xianghua, Zhi Min, Yin Yanjun. Human action recognition based on 2D CNN and Transformer[J]. Electronic Measurement Technology, 2022, 45(15): 123-129.)
[2]張銀環(huán). 基于IA-Net的人體行為識(shí)別方法[J]. 國(guó)外電子測(cè)量技術(shù), 2022, 41(6): 52-59. (Zhang Yinhuan. Human action recognition method based on IA-Net[J]. Foreign Electronic Measurement Technology, 2022, 41(6): 52-59.)
[3]Ahn D, Kim S, Hong H, et al. STAR-Transformer: a spatio-temporal cross attention transformer for human action recognition[C]//Proc of IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway, NJ: IEEE Press, 2023: 3319-3328.
[4]Mobasheri B, Tabbakh S R K, Forghani Y. An approach for fall prediction based on kinematics of body key points using LSTM[J]. International Journal of Environmental Research and Public Health, 2022, 19(21): 13762.
[5]梁緒, 李文新, 張航寧. 人體行為識(shí)別方法研究綜述[J]. 計(jì)算機(jī)應(yīng)用研究, 2022, 39(3): 651-660. (Liang Xu, Li Wenxin, Zhang Hangning. Review of research on human action recognition methods[J]. Application Research of Computers, 2022, 39(3): 651-660.)
[6]Mo Jianwen, Zhu Rui, Yuan Hua, et al. Student behavior recognition based on multitask learning[J]. Multimedia Tools and Applications, 2023, 82(12): 19091-19108.
[7]Simonyan K, Zisserman A. Two-Stream convolutional networks for action recognition in videos[C]//Proc of the 27th International Confe-rence on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014: 568-576.
[8]Wang Xianyuan, Miao Zhenjiang, Zhang Ruyi, et al. I3D-LSTM: a new model for human action recognition[J]. IOP Conference Series: Materials Science and Engineering, 2019, 569(3): 032035.
[9]Tran D, Bourdev L, Fergus R, et al. Learning spatiotemporal features with 3D convolutional networks[C]//Proc of IEEE International Conference on Computer Vision. Piscataway,NJ:IEEE Press,2015: 4489-4497.
[10]周生運(yùn), 張旭光, 方銀鋒. 基于行人組運(yùn)動(dòng)信息表達(dá)的人群異常檢測(cè)[J]. 儀器儀表學(xué)報(bào), 2022, 43(6): 221-229. (Zhou Shengyun, Zhang Xuguang, Fang Yinfeng. Crowd anomaly detection based on pedestrian group motion information expression[J]. Chinese Journal of Scientific Instrument, 2022, 43(6): 221-229.)
[11]Liu Daizong, Fang Xiang, Hu Wei, et al. Exploring optical-flow-guided motion and detection-based appearance for temporal sentence grounding[J]. IEEE Transactions on Multimedia, 2023,25:8539-8553.
[12]Du T, Ray J, Shou Zheng, et al. ConvNet architecture search for spatiotemporal feature learning[EB/OL]. (2017-08-16). https://arxiv.org/abs/1708.05038.
[13]Carreir J, Zisserman A. Vadis Q. Action recognition?A new model and the kinetics dataset[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2017: 4724-4733.
[14]Tran D, Wang Heng, Torresani L, et al. A closer look at spatiotemporal convolutions for action recognition[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 6450-6459.
[15]Lin Ji, Gan Chuang, Han Song. TSM: temporal shift module for efficient video understanding[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2019: 7082-7092.
[16]He Kaiming, Zhang Xia, Ren Shaoqing, et al. Deep residual lear-ning for image recognition[C]//Proc of IEEE Conference on Compu-ter Vision and Pattern Recognition. Piscataway, NJ: IEEE Press,2016: 770-778.
[17]Ehrlich M, Davis L. Deep residual learning in the JPEG transform domain[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2019: 3483-3492.
[18]李長(zhǎng)海. 基于深度學(xué)習(xí)的人體行為識(shí)別算法研究[D]. 成都:電子科技大學(xué), 2021. (Li Changhai. Research on human action recognition algorithm based on deep learning[D]. Chengdu: University of Electronic Science and Technology of China, 2021.)
[19]Qin Zequn, Zhang Pengyi, Wu Fei, et al. FcaNet: frequency channel attention networks[C]//Proc of IEEE/CVF International Confe-rence on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 763-772.
[20]Yang Aitao, Li Min, Wu Zhaoqing, et al. CDF-Net: a convolutional neural network fusing frequency domain and spatial domain features[J]. IET Computer Vision, 2023, 17(3): 319-329.
[21]Yu Feng, Li Huiyin, Shi Yankang, et al. FFENet: frequency-spatial feature enhancement network for clothing classification[J]. PeerJ Computer Science, 2023, 9: e1555.
[22]張海超, 張闖. 融合注意力的輕量級(jí)行為識(shí)別網(wǎng)絡(luò)研究[J]. 電子測(cè)量與儀器學(xué)報(bào), 2022, 36(5): 173-179. (Zhang Haichao, Zhang Chuang. Research on lightweight action recognition network fusing attention[J]. Journal of Electronic Measurement and Instrumentation, 2022, 36(5): 173-179.)
[23]Soomr K, Zamir A R, Shan M. UCF101: a dataset of 101 human actions classes from videos in the wild[EB/OL]. (2012-12-03). https://arxiv.org/abs/1212.0402.
[24]Gloro X, Bengio Y. Understanding the difficulty of training deep feedforward neural networks[C]//Proc of the 13th International Conference on Artificial Intelligence and Statistics.[S.l.]:PMLR,2010: 249-256.
[25]De S, Mukherjee A, Ullah E. Convergence guarantees for RMSProp and ADAM in non-convex optimization and an empirical comparison to Nesterov acceleration[EB/OL]. (2018-11-20). https://arxiv.org/abs/1807.06766.
[26]Ioffe S, Szeged C. Batch normalization: accelerating deep network training by reducing internal covariate shift[C]//Proc of the 32nd International Conference on Machine Learning.[S.l.]: JMLR.org,2015: 448-456.
[27]Qiu Zhaofan, Yao Ting, Mei Tao. Learning spatio-temporal representation with Pseudo-3D residual networks[C]//Proc of IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2017: 5534-5542.
[28]劉釗, 楊帆, 司亞中. 時(shí)域非填充網(wǎng)絡(luò)視頻行為識(shí)別算法研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2023, 59(1): 162-168. (Liu Zhao, Yang Fan, Si Yazhong. Research on time Domain unfilled network video behavior recognition algorithm[J]. Computer Engineering and Applications, 2023, 59(1): 162-168.)
[29]Diba A, Fayya M, Sharm V, et al. Temporal 3D ConvNets: new architecture and transfer learning for video classification[EB/OL]. (2017-11-22). https://arxiv.org/abs/1711.08200.
[30]胡希國(guó). 基于視頻的輕量級(jí)人體行為識(shí)別算法研究[D]. 成都: 電子科技大學(xué), 2021. (Hu Xiguo. Research on lightweight human action recognition algorithm based on video[D]. Chengdu: University of Electronic Science and Technology of China, 2021.)
[31]徐鵬飛, 張鵬超, 劉亞恒,等. 一種基于SR3D網(wǎng)絡(luò)的人體行為識(shí)別算法[J]. 電腦知識(shí)與技術(shù), 2022, 18(1): 10-11. (Xu Pengfei, Zhang Pengchao, Liu Yaheng et al. A human action recognition algorithm based on SR3D network[J]. Computer Knowledge and Technology, 2022, 18(1): 10-11.)
收稿日期:2023-11-02;修回日期:2024-01-10 基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(62272234)
作者簡(jiǎn)介:賈志超(2000—),男,安徽天長(zhǎng)人,碩士研究生,主要研究方向?yàn)樯疃葘W(xué)習(xí);張海超(1997—),男,河南洛陽人,碩士,主要研究方向?yàn)樯疃葘W(xué)習(xí)、行為識(shí)別;張闖(1976—),女(通信作者),河北唐山人,副教授,碩導(dǎo),博士,主要研究方向?yàn)楣怆娦畔?、視覺信息采集與處理(zhch_76@163.com);顏蒙蒙(1995—),女,江蘇連云港人,碩士研究生,主要研究方向?yàn)樯疃葘W(xué)習(xí)、行為識(shí)別;儲(chǔ)金祺(1998—),男,江蘇泰州人,碩士研究生,主要研究方向?yàn)樯疃葘W(xué)習(xí)、目標(biāo)檢測(cè);顏之岳(1999—),男,江蘇常州人,碩士研究生,主要研究方向?yàn)樾∧繕?biāo)檢測(cè).