• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      FFConvNeXt3D: 提取中大規(guī)模目標(biāo)特征的大卷積核網(wǎng)絡(luò)

      2025-01-01 00:00:00黃乾坤黃蔚凌興宏

      摘要: 目前大卷積核模型在圖像領(lǐng)域已經(jīng)證明其有效性,但是在視頻領(lǐng)域還沒(méi)有優(yōu)秀的3D大卷積核模型。此外,之前的工作中忽視了時(shí)空行為檢測(cè)任務(wù)主體是人的特點(diǎn),其中的骨干網(wǎng)絡(luò)只針對(duì)通用目標(biāo)提取特征。針對(duì)上述原因,提出了一種含有特征融合結(jié)構(gòu)的3D大卷積核神經(jīng)網(wǎng)絡(luò)feature fusion ConvNeXt3D(FFConvNeXt3D)。首先,將成熟的ConvNeXt網(wǎng)絡(luò)膨脹成用于視頻領(lǐng)域的ConvNeXt3D網(wǎng)絡(luò),其中,預(yù)訓(xùn)練權(quán)重也進(jìn)行處理用于膨脹后的網(wǎng)絡(luò)。其次,研究了卷積核時(shí)間維度大小和位置對(duì)模型性能的影響。最后,提出了一個(gè)特征融合結(jié)構(gòu),著重提高骨干網(wǎng)絡(luò)提取人物大小目標(biāo)特征的能力。在UCF101-24數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)和對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果驗(yàn)證了特征融合結(jié)構(gòu)的有效性,并且該模型性能優(yōu)于其他方法。

      關(guān)鍵詞: 大卷積核; 目標(biāo)檢測(cè); 時(shí)空行為檢測(cè); 行為識(shí)別; 特征融合

      中圖分類號(hào): TP391

      文獻(xiàn)標(biāo)志碼: A

      文章編號(hào): 1671-6841(2025)02-0037-07

      DOI: 10.13705/j.issn.1671-6841.2023124

      FFConvNeXt3D: Large Convolutional Kernel Network for Extracting

      Target Features of Medium and Large Size

      HUANG Qiankun1, HUANG Wei2, LING Xinghong1,3,4

      (1.School of Computer Science and Technology, Soochow University, Suzhou 215006, China;

      2.Department of Computer Science, Soochow College, Soochow University, Suzhou 215006, China;

      3.School of Computer Science and Artificial Intelligence, Suzhou City University, Suzhou

      215104, China;

      4.Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education,

      Jilin University, Changchun 130012, China)

      Abstract: Large convolutional kernel models was proven effective in the image domain, but the available 3D large convolutional kernel models were not good enough in the video domain. Additionally,

      the backbone network only could extract features for generic targets, and human was ignored as the subject in the spatio-temporal action detection task in previous work. To address these issues, a 3D large convolutional kernel neural network containing a feature fusion structure feature fusion ConvNeXt3D (FFConvNeXt3D) was proposed. Firstly, the mature ConvNeXt network into a ConvNeXt3D network was extended to the video domain, where pre-training weights were also processed for the expanded network. Secondly, the effect of the size and position of the temporal dimension of the convolutional kernel on the performance of the model was investigated. Finally, a feature fusion structure that would focus on improving the ability of the backbone network to extract features from targets of medium or larger size such as humans was proposed. The ablation experiments and comparison experiments were conducted on the UCF101-24 dataset. The experimental results verified the effectiveness of the feature fusion structure, and the model performed better than other methods.

      Key words: large convolution kernel; object detection; spatio temporal action detection; action recognition; feature fusion

      0 引言

      視頻理解任務(wù)是指計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)領(lǐng)域中,對(duì)視頻內(nèi)容進(jìn)行分析、理解和處理的任務(wù)。時(shí)空行為檢測(cè)(spatio temporal action detection)任務(wù)是視頻理解任務(wù)里一個(gè)重要的子任務(wù),除了需要分類目標(biāo)人物的動(dòng)作,也需要確定人物的位置[1-2。模型的性能非常依賴特征提取網(wǎng)絡(luò)的性能。Tang等[3使用SlowFast[4作為骨干網(wǎng)絡(luò),Zhao等[5使用CSN(channel-separated convolutional networks)[6,這些檢測(cè)網(wǎng)絡(luò)的分類性能都隨著骨干網(wǎng)絡(luò)性能提升得到了提升。

      在圖像領(lǐng)域,ConvNeXt網(wǎng)絡(luò)吸收了swin transformer網(wǎng)絡(luò)的優(yōu)秀設(shè)計(jì)[7-8,重新對(duì)ResNet網(wǎng)絡(luò)改進(jìn)[9,在速度和準(zhǔn)確率上較為優(yōu)秀。而I3D(inflated 3D ConvNet)[10證明了將成熟的2D網(wǎng)絡(luò)擴(kuò)展成3D網(wǎng)絡(luò)是行之有效的方法。因此本文將ConvNeXt2D擴(kuò)展為ConvNeXt3D網(wǎng)絡(luò)。保留ConvNeXt的一系列優(yōu)秀設(shè)計(jì),同時(shí)將網(wǎng)絡(luò)的卷積核擴(kuò)張成3D卷積核,在網(wǎng)絡(luò)結(jié)構(gòu)里加入了提取時(shí)間信息的能力。通過(guò)I3D中提到的方法,將ConvNeXt的預(yù)訓(xùn)練權(quán)重?cái)U(kuò)張成3D預(yù)訓(xùn)練權(quán)重。同時(shí)對(duì)比了時(shí)間卷積核大小和位置對(duì)性能和速度的影響。

      此外,目前的骨干網(wǎng)絡(luò)對(duì)所有尺寸的目標(biāo)都統(tǒng)一提取特征,忽略了動(dòng)作檢測(cè)任務(wù)的特點(diǎn)。動(dòng)作檢測(cè)任務(wù)的目標(biāo)主體是人,而人往往是中等和相對(duì)較大的物體,根據(jù)這一點(diǎn),提出了一種特征融合結(jié)構(gòu),用于提取中等和較大尺寸物體的特征。在UCF101-24數(shù)據(jù)集上進(jìn)行的大量對(duì)比實(shí)驗(yàn)證明,本文提出的feature fusion ConvNeXt3D(FFConvNeXt3D)網(wǎng)絡(luò)具有優(yōu)秀的性能。

      本文主要貢獻(xiàn)如下。

      1) 提出了一種含有特征融合結(jié)構(gòu)的3D大卷積核神經(jīng)網(wǎng)絡(luò)(FFConvNeXt3D),用于視頻理解中的時(shí)空行為定位任務(wù),模型性能在UCF101-24數(shù)據(jù)集上達(dá)到了最優(yōu)。

      2) 在UCF101-24數(shù)據(jù)集上進(jìn)行了充分的消融實(shí)驗(yàn),證明了3×7×7卷積核和先2D再3D卷積的合理性。

      3) 提出了一個(gè)有效的特征融合結(jié)構(gòu),能夠很好提升骨干網(wǎng)絡(luò)提取尺寸在中等及以上目標(biāo)特征的能力。

      1 相關(guān)工作

      圖像領(lǐng)域的分類和檢測(cè)在視頻領(lǐng)域都有對(duì)應(yīng)的任務(wù),如行為識(shí)別、行為檢測(cè)。在實(shí)際生活中,大量的應(yīng)用場(chǎng)景往往以視頻居多,視頻理解是非常值得研究且很有難度的方向。而視頻理解中以人為主體的行為識(shí)別和行為檢測(cè)任務(wù)更為重要。

      1.1 時(shí)空行為檢測(cè)

      行為識(shí)別任務(wù)是最基礎(chǔ)的視頻理解任務(wù),給定一個(gè)剪輯好的視頻片段,片段中只會(huì)有一個(gè)動(dòng)作。時(shí)空行為檢測(cè)任務(wù)類似于目標(biāo)檢測(cè)在視頻領(lǐng)域的擴(kuò)展,需要在樣本幀中識(shí)別待檢測(cè)人物,同時(shí)給出人物動(dòng)作。行為檢測(cè)分為目標(biāo)檢測(cè)和行為識(shí)別兩個(gè)任務(wù),先利用優(yōu)秀的目標(biāo)檢測(cè)器(如FasterRCNN[11)檢測(cè)人物邊界框,與此同時(shí)將視頻片段送入3D骨干網(wǎng)絡(luò)(如I3D等)得到特征[10,之后在3DCNN特征的基礎(chǔ)上執(zhí)行區(qū)域特征聚集,最后對(duì)得到的特征行為分類。

      1.2 3D骨干網(wǎng)絡(luò)

      在行為識(shí)別任務(wù)上,Carreira等[10提出了I3D網(wǎng)絡(luò),驗(yàn)證了網(wǎng)絡(luò)從ImageNet圖像數(shù)據(jù)集學(xué)習(xí)的知識(shí)遷移到視頻領(lǐng)域。R(2+1)D[12 和S3D[13網(wǎng)絡(luò)用分解3D卷積的思想,將3D卷積分解成2D空間卷積和1D時(shí)間卷積,探索降低3D網(wǎng)絡(luò)方向計(jì)算量。SlowFast借鑒雙流網(wǎng)絡(luò)和分解3D卷積網(wǎng)絡(luò)的思想[4,利用快和慢兩個(gè)網(wǎng)絡(luò)分別融合不同幀率的網(wǎng)絡(luò)。CSN和X3D網(wǎng)絡(luò)借鑒了圖像領(lǐng)域分組卷積和深度可分離卷積的思想[6,14,保證精度的情況下大幅度降低了計(jì)算量15。本文將ConvNeXt,結(jié)合3DCNN網(wǎng)絡(luò)設(shè)計(jì)思路[15,重新設(shè)計(jì)了一個(gè)高效的大卷積核骨干網(wǎng)絡(luò)FFConvNext3D。

      2 模型設(shè)計(jì)

      本文提出了一個(gè)基于ConvNeXt2D設(shè)計(jì)的3DCNN網(wǎng)絡(luò):FFConvNeXt3D網(wǎng)絡(luò),它是由一個(gè)檢測(cè)器和一個(gè)骨干網(wǎng)絡(luò)構(gòu)成。檢測(cè)器可以是任意的人體檢測(cè)器,本文使用文獻(xiàn)[16]中提到的檢測(cè)器。圖1顯示了FFConvNeXt3D的總體架構(gòu)設(shè)計(jì)。具體為,輸入視頻片段并提取成連續(xù)的圖像幀Xi,輸入3D骨干網(wǎng)絡(luò)得到特征圖Xb,之后進(jìn)入特征融合模塊后得到特征圖Xf∈RT×C×H×W,T、C、H、W分別是時(shí)間、通道、高度、寬度。

      經(jīng)過(guò)3D平均池化后,去除時(shí)間維度,調(diào)整為Xo∈RC×H×W,

      用公式表示為

      Xo=AvgPool3D{ffeaturefusion[fbackbone(Xi)]}。

      在Xi中取最后一幀F(xiàn)k作為關(guān)鍵幀,進(jìn)入目標(biāo)檢測(cè)器,得到N個(gè)人物的邊界框,同時(shí)在通道維度上復(fù)制C次,

      {Bi}Ni=1=ObjectDetector(Fk),{Bi,j}NCi=1, j=1=fθ({Bi}Ni=1),

      其中:fθ(·)表示通道維度上的復(fù)制。通過(guò)RoIAlign后得到人物特征{Pi∈RC×7×7}Ni=1,進(jìn)行空間最大池化得到人物特征{Pi∈RC}Ni=1,將人物特征放入關(guān)系推理模塊進(jìn)行關(guān)系建模17。用全連接層對(duì)人物特征進(jìn)行分類??偨Y(jié)為

      {Pi}Ni=1=RoIAlign(XO,{Bi,j}NCi=1, j=1),

      {Pi}Ni=1=MaxPool({Pi}Ni=1),

      Actioni=softmax{fc[RelationModule({Pi}Ni=1)]}。

      2.1 時(shí)間維度膨脹

      本文使用文獻(xiàn)[10]中2DCNN遷移3DCNN架構(gòu)的方法,將N×N的2D卷積核擴(kuò)張成N×N×N的3D卷積核,將預(yù)訓(xùn)練權(quán)重也同步膨脹相應(yīng)維度,并且將預(yù)訓(xùn)練權(quán)重?cái)?shù)值除以相應(yīng)維度。

      ConvNeXt是7×7的大卷積核,本文首先將卷積核擴(kuò)張成7×7×7,但針對(duì)視頻樣本,時(shí)間維度和空間維度需要的感受野是不一樣的。本文空間分辨率從224×224開(kāi)始下采樣,而時(shí)間分辨率是從32幀或者16幀開(kāi)始,如果3D卷積核的時(shí)間維度和空間維度采用一樣的大小,會(huì)對(duì)提取該特征點(diǎn)的語(yǔ)義信息造成負(fù)面影響?,F(xiàn)實(shí)中人眼通過(guò)望遠(yuǎn)鏡看一個(gè)固定的、有人物活動(dòng)的區(qū)域時(shí),當(dāng)人物原地活動(dòng)時(shí),可以準(zhǔn)確理解該人物動(dòng)作,但如果人物的活動(dòng)超出了望遠(yuǎn)鏡的觀察范圍,則會(huì)對(duì)一個(gè)動(dòng)作造成誤解,所以望遠(yuǎn)鏡的視野(空間感受野)要跟上人物動(dòng)作的變化速度(時(shí)間感受野)。如圖2,第一行框內(nèi)是3D卷積核當(dāng)前的感受野范圍,當(dāng)時(shí)間卷積核為3時(shí),感受野范圍內(nèi)語(yǔ)義信息沒(méi)有過(guò)多的干擾信息。當(dāng)時(shí)間卷積核為7時(shí),空間感受野并沒(méi)有跟上時(shí)間感受野擴(kuò)張的速度,所以感受野內(nèi)缺少了有效信息,多了干擾信息。所以我們將時(shí)間膨脹維度設(shè)置為3,實(shí)驗(yàn)證明,3×7×7的卷積核更為合理,提取的語(yǔ)義特征更加明確。

      2.2 慢速路徑

      與以前的3DCNN網(wǎng)絡(luò)(如C3D等)不同的是,在第一個(gè)和第二個(gè)殘差塊中,本文沒(méi)有對(duì)時(shí)間維度進(jìn)行卷積,因?yàn)樵诘蛯诱Z(yǔ)義中,每個(gè)特征圖的像素點(diǎn)在時(shí)間維度上的相關(guān)性很低。之前一系列對(duì)卷積網(wǎng)絡(luò)可視化的工作表明,低層殘差塊輸出的特征圖局部細(xì)節(jié)信息豐富,而殘差塊的層數(shù)越往后,特征圖的語(yǔ)義信息愈加豐富。

      如圖3,本文借鑒了SlowFast中慢速路徑的設(shè)計(jì),只在第3個(gè)和第4個(gè)殘差塊中進(jìn)行時(shí)間卷積,用灰色方塊標(biāo)出。目前多數(shù)3DCNN架構(gòu)的模型輸入圖片幀長(zhǎng)度在8~64幀,最長(zhǎng)為2 s左右,這在時(shí)空行為檢測(cè)任務(wù)中屬于較低的時(shí)間分辨率。因此本文在整個(gè)骨干網(wǎng)絡(luò)中不進(jìn)行時(shí)間下采樣,在時(shí)間維度上保持高分辨率。網(wǎng)絡(luò)架構(gòu)的細(xì)節(jié)如圖3所示。

      2.3 特征融合

      在目標(biāo)檢測(cè)任務(wù)中,每個(gè)物體的尺寸不會(huì)完全相同,在特征金字塔結(jié)構(gòu)(FPN)出現(xiàn)以前,小目標(biāo)的檢測(cè)是一個(gè)難題,原因是通過(guò)類ResNet骨干網(wǎng)絡(luò)時(shí),隨著空間分辨率的降低,網(wǎng)絡(luò)的提取特征變抽象的同時(shí)會(huì)損失定位信息。在行為識(shí)別這個(gè)領(lǐng)域里,任務(wù)檢測(cè)目標(biāo)是人,往往是占據(jù)圖像中相當(dāng)大的位置,而小目標(biāo)應(yīng)該是被剔除的對(duì)象。

      針對(duì)如何去除干擾的背景,讓網(wǎng)絡(luò)將注意力集中在圖中的人物對(duì)象上,本文提出了一種特征融合結(jié)構(gòu),它將高層語(yǔ)義和低層定位信息相融合,得到的特征輸出層既包含用于分類的高層語(yǔ)義,又包含用于定位的低層信息。在對(duì)高層特征圖進(jìn)行上采樣后,與低層特征圖融合出現(xiàn)的混疊效應(yīng),特征金字塔利用3×3的卷積來(lái)改善。本文采用了CSPConvNeXt3D塊來(lái)改善混疊效應(yīng),這對(duì)高層特征和低層特征的融合會(huì)更加有效。

      特征金字塔是由上向下融合低層特征,目的是傳遞頂層的高級(jí)語(yǔ)義特征,但這遺漏了低層定位信息的傳遞。所以本文用路徑聚合結(jié)構(gòu)加強(qiáng)了低層定位信息的傳遞[18。在融合低層語(yǔ)義和高層語(yǔ)義之后,用CSPConvNeXt3D塊來(lái)加強(qiáng)特征融合,經(jīng)過(guò)路徑聚合結(jié)構(gòu)后會(huì)得到三種分辨率的特征圖,取中等分辨率和高分辨率的特征圖,對(duì)應(yīng)中等目標(biāo)和大目標(biāo)的人物。詳細(xì)的結(jié)構(gòu)如圖4所示,其中28×28,14×14,7×7三種類型的箭頭分別代表了三種不同分辨率特征圖的傳遞。

      特征金字塔是由上向下融合低層特征,目的是為了傳遞頂層的高級(jí)語(yǔ)義特征,但會(huì)遺漏低層定位信息的傳遞。本文用路徑聚合結(jié)構(gòu)進(jìn)行加強(qiáng)[18,同樣,在融合低層語(yǔ)義和高層語(yǔ)義之后,用CSPConvNext3D塊來(lái)加強(qiáng)特征融合。經(jīng)過(guò)路徑聚合結(jié)構(gòu)后會(huì)得到三個(gè)分辨率的特征,取中等分辨率和高分辨率的特征圖,對(duì)應(yīng)中等目標(biāo)和大目標(biāo)的人物。如圖4所示。

      輸入圖像幀在經(jīng)過(guò)骨干網(wǎng)絡(luò)后取低、中、高三層特征圖,進(jìn)入特征融合模塊。CSPConvNeXt3D塊的結(jié)構(gòu)如圖4所示,輸入特征通過(guò)兩個(gè)3DConvBNSiLU塊將通道降維至原來(lái)的1/2。ConvNeXt3D塊和骨干網(wǎng)絡(luò)中ConvNeXt3D塊不同的是,沒(méi)有使用殘差連接。3DConvBNSiLU塊如圖4所示,由Conv3D、BatchNorm3D、SiLU激活函數(shù)組成,用于調(diào)整通道,融合特征。

      3 實(shí)驗(yàn)與分析

      本文在UCF101-24數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn)和消融實(shí)驗(yàn),驗(yàn)證FFConvNext3D模型的有效性。

      3.1 實(shí)驗(yàn)設(shè)置

      3.1.1 數(shù)據(jù)集 本文選用在行為檢測(cè)任務(wù)中常用的數(shù)據(jù)集UCF101-24。UCF101-24是UCF101數(shù)據(jù)集里面一個(gè)子集,并進(jìn)行了重新標(biāo)注,訓(xùn)練集和測(cè)試集分別是2 284和923個(gè)視頻,數(shù)據(jù)集中包含24類動(dòng)作。數(shù)據(jù)集樣本視頻分辨率為320×240,所有動(dòng)作實(shí)例時(shí)長(zhǎng)占了整個(gè)數(shù)據(jù)集時(shí)長(zhǎng)的78%。

      3.1.2 實(shí)驗(yàn)方法 本文在訓(xùn)練階段,目標(biāo)人物邊界框使用真實(shí)邊界框(ground truth boxes),在測(cè)試階段,使用文獻(xiàn)[16]的人體檢測(cè)器,該檢測(cè)器在ImageNet和COCO數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練。設(shè)置批處理大小為12,學(xué)習(xí)率為0.0001,權(quán)重衰減系數(shù)為0.0005,在UCF101-24數(shù)據(jù)集上進(jìn)行微調(diào)10個(gè)輪次,定位精度可以達(dá)到91.7%。

      在UCF101-24上,動(dòng)作被分為24類獨(dú)立的動(dòng)作,每個(gè)人物在一個(gè)視頻片段中只能有一類動(dòng)作,因此這24類動(dòng)作都是互斥的,后續(xù)使用softmax函數(shù)分類,并使用交叉熵?fù)p失函數(shù)進(jìn)行訓(xùn)練。在訓(xùn)練階段,采用一些常規(guī)的數(shù)據(jù)增強(qiáng)的方法。

      3.1.3 評(píng)價(jià)指標(biāo)

      在行為檢測(cè)任務(wù)中,需要綜合考慮分類與定位的性能。因此本文采用每幀檢測(cè)的各類別AP平均值

      (frame-mean average precision,F(xiàn)rame-mAP)

      作為評(píng)價(jià)指標(biāo)。該指標(biāo)考慮了模型的精度(P)和召回率(R),可以客觀地評(píng)估行為檢測(cè)算法的性能。交并比(IoU)是衡量預(yù)測(cè)框和真實(shí)框之間重疊程度的指標(biāo)。當(dāng)IoU大于等于某個(gè)閾值時(shí),我們認(rèn)為預(yù)測(cè)框和真實(shí)框匹配成功。本文取閾值為0.5,即統(tǒng)計(jì)所有IoU

      0.5人物框的動(dòng)作分類。Frame-mAP的計(jì)算方法如下,

      P=TPTP+FP,

      R=TPTP+FN,

      AP=∫10Pd(R),

      Frame-mAP=∑Ni=1AAPiN,

      其中:TP是正確檢測(cè)到人且動(dòng)作分類正確的邊界框;

      FP是正確檢測(cè)到人但動(dòng)作分類錯(cuò)誤的邊界框;

      FN是漏檢的含人物邊界框和分類錯(cuò)誤的含人物邊界框;

      AAPi值為P-R曲線下面積,

      i表示第i個(gè)類別;Frame-mAP表示每一幀中所有行為類別的平均精度,F(xiàn)rame-mAP50表示IoU為0.5時(shí)的Frame-mAP;N表示類別總數(shù),UCF101-24數(shù)據(jù)集有24個(gè)類別,因此N為24。

      3.2 對(duì)比方法

      如表1所示,本文分兩組進(jìn)行對(duì)比實(shí)驗(yàn),第一組分別與以C3D為骨干網(wǎng)絡(luò)的T-CNN[19、以ResNeXt3D-101為骨干網(wǎng)絡(luò)的YOWO[16、以CSN-152為骨干網(wǎng)絡(luò)的TubeR和以SlowFast-50為骨干網(wǎng)絡(luò)的AIA進(jìn)行比較[5,3。第二組分別與TacNet[20、ACT[21、MOC[22、STEP[23、I3D[10這5個(gè)雙流網(wǎng)絡(luò)對(duì)比。表中黑色加粗的結(jié)果是本文模型的結(jié)果。另外,本文提出了兩種規(guī)格模型,F(xiàn)FConvNeXt3D-Tiny和FFConvNeXt3D-Small。在僅使用ImageNet22K預(yù)訓(xùn)練權(quán)重的情況下,F(xiàn)rame-mAP50指標(biāo)達(dá)到了最優(yōu)。在所有動(dòng)作中,識(shí)別效果較好的是擊劍類動(dòng)作,這類動(dòng)作的特征是圖片中背景干凈,沒(méi)有多余的干擾人群。識(shí)別效果較差的是籃球的扣籃類動(dòng)作,這類動(dòng)作背景里人物眾多,對(duì)識(shí)別目標(biāo)人物的動(dòng)作造成了干擾。

      3.3 消融研究

      所有消融實(shí)驗(yàn)均在ConvNeXt-Tiny的基礎(chǔ)上進(jìn)行,均用ImageNet22K數(shù)據(jù)集的預(yù)訓(xùn)練權(quán)重,使用相同的人體檢測(cè)器。模型的輸入樣本為連續(xù)的16幀。不包含特征融合模塊時(shí),骨干網(wǎng)絡(luò)的最后一個(gè)下采樣層不進(jìn)行下采樣,保持14×14的空間分辨率。

      1) 時(shí)間感受野。我們以ConvNeXt2D-Tiny作為基礎(chǔ)網(wǎng)絡(luò),分別嘗試了3×7×7和7×7×7卷積核的效果。如表2所示,實(shí)驗(yàn)結(jié)果證明3×7×7的3D卷積核大小效果是最好的,時(shí)間維度為7時(shí),預(yù)測(cè)精度反而下降。這可能是因?yàn)闀r(shí)間維度和空間維度感受野并不相同,正如Transformer結(jié)構(gòu)優(yōu)勢(shì)是對(duì)全局信息的獲取,更大的空間感受野也有助于提高目標(biāo)特征的提取能力。

      而時(shí)間感受野過(guò)大,且人物邊界框除關(guān)鍵幀以外均為復(fù)制過(guò)去的邊界框時(shí),造成人物動(dòng)作管不吻合實(shí)際人物位置的情況,影響了特征提取效果。人物動(dòng)作管(action tubelets)是由一連串緊密相連的人物邊界框組成的,用于更細(xì)致地描述視頻中人物動(dòng)作發(fā)生的位置。

      而時(shí)間感受野過(guò)大,且人物邊界框除關(guān)鍵幀以外均為復(fù)制過(guò)去的邊界框時(shí),造成人物動(dòng)作管不吻合實(shí)際情況,影響了特征提取效果。

      2) 2D卷積和3D卷積的順序。本文將模型分為兩個(gè)部分,第1部分為Stem、Res2、Res3層,第2部分為Res4、Res5層。如表3所示,分別在這兩部分使用不同的卷積,實(shí)驗(yàn)結(jié)果證明先2D后3D卷積的效果更好且計(jì)算量更少。最后使用的結(jié)構(gòu)是將ConvNeXt-Tiny的Res4和Res5的卷積核設(shè)置為3×7×7,其余各層大小均為1×7×7,不使用時(shí)間卷積。

      3) 特征融合。本文比較了FPN和PAN的效果,表4中基線是不加特征融合,F(xiàn)PN只取7×7和14×14分辨率的特征圖,將7×7上采樣至14×14,并與14×14的特征圖進(jìn)行拼接(Concat)操作。PAN同樣如此,取7×7和14×14分辨率的特征圖。如表4,我們嘗試了加入28×28的特征圖,平均精度反而

      下降,產(chǎn)生該現(xiàn)象的原因是28×28的特征圖中存在較多的小面積人物特征,一般不是目標(biāo)人物,導(dǎo)致了對(duì)正確識(shí)別目標(biāo)人物的干擾。

      4 結(jié)論

      本文基于ConvNeXt網(wǎng)絡(luò)提出了FFConv-NeXt3D。在保留了ConvNeXt的大卷積核基礎(chǔ)上,分組卷積設(shè)計(jì)并同時(shí)改造成3D卷積網(wǎng)絡(luò)。本文還提出了新的特征融合結(jié)構(gòu),有效提高了骨干網(wǎng)絡(luò)的特征提取能力。在UCF101-24公開(kāi)數(shù)據(jù)集的消融實(shí)驗(yàn)證明,時(shí)間感受野需要和空間感受野匹配,因此3×7×7卷積核更合理。此外先2D再3D卷積效果更好,本文所提方法比單純特征金字塔的效果更好。將本文所提出的方法在UCF101-24數(shù)據(jù)集上和單純圖像幀輸入網(wǎng)絡(luò)、雙流輸入網(wǎng)絡(luò)進(jìn)行了對(duì)比實(shí)驗(yàn),效果達(dá)到了最優(yōu)。

      參考文獻(xiàn):

      [1] 王陽(yáng), 袁國(guó)武, 瞿睿, 等. 基于改進(jìn)YOLOv3的機(jī)場(chǎng)停機(jī)坪目標(biāo)檢測(cè)方法[J]. 鄭州大學(xué)學(xué)報(bào)(理學(xué)版), 2022, 54(5):22-28.

      WANG Y, YUAN G W, QU R, et al. Target detection method of airport apron based on improved YOLOv3[J]. Journal of Zhengzhou university (natural science edition), 2022, 54(5):22-28.

      [2] 蔣韋曄, 劉成明. 基于深度圖的人體動(dòng)作分類自適應(yīng)算法[J]. 鄭州大學(xué)學(xué)報(bào)(理學(xué)版), 2021, 53(1):16-21.

      JIANG W Y, LIU C M. Adaptive algorithm for human motion classification based on depth map[J]. Journal of Zhengzhou university (natural science edition), 2021, 53(1):16-21.

      [3] TANG J J, XIA J, MU X Z, et al. Asynchronous interaction aggregation for action detection[EB/OL].(2020-04-16)[2023-03-11]. https:∥arxiv.org/abs/2004.07485.pdf.

      [4] FEICHTENHOFER C, FAN H Q, MALIK J, et al. SlowFast networks for video recognition[C]∥IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE Press, 2020: 6201-6210.

      [5] ZHAO J J, ZHANG Y Y, LI X Y, et al. TubeR: tubelet transformer for video action detection[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2022: 13588-13597.

      [6] TRAN D, WANG H, FEISZLI M, et al. Video classification with channel-separated convolutional networks[C]∥IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE Press, 2020: 5551-5560.

      [7] LIU Z, MAO H Z, WU C Y, et al. A ConvNet for the 2020s[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2022: 11966-11976.

      [8] LIU Z, LIN Y T, CAO Y, et al. Swin transformer: hierarchical vision transformer using shifted windows[EB/OL]. (2021-03-25)[2023-03-11]. https:∥arxiv.org/abs/2103.14030.pdf.

      [9] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]∥IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2016: 770-778.

      [10]CARREIRA J, ZISSERMAN A. Quo vadis, action recognition? A new model and the kinetics dataset[C]∥IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2017: 4724-4733.

      [11]REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(6): 1137-1149.

      [12]TRAN D, WANG H, TORRESANI L, et al. A closer look at spatiotemporal convolutions for action recognition[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2018: 6450-6459.

      [13]XIE S N, SUN C, HUANG J, et al. Rethinking spatiotemporal feature learning: speed-accuracy trade-offs in video classification[C]∥European Conference on Computer Vision. Cham: International Springer Publishing, 2018: 318-335.

      [14]FEICHTENHOFER C. X3D: expanding architectures for efficient video recognition[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2020: 200-210.

      [15]佘顥, 吳伶, 單魯泉. 基于SSD網(wǎng)絡(luò)模型改進(jìn)的水稻害蟲(chóng)識(shí)別方法[J]. 鄭州大學(xué)學(xué)報(bào)(理學(xué)版), 2020, 52(3)49-54.

      SHE H, WU L, SHAN L Q. Improved rice pest recognition based on SSD network model[J]. Journal of Zhengzhou university (natural science edition), 2020, 52(3): 49-54.

      [16]KPKL O, WEI X Y, RIGOLL G. You only watch once: a unified CNN architecture for real-time spatiotemporal action localization[EB/OL]. (2019-11-15)[2023-03-11]. https:∥arxiv.org/abs/1911.06644.pdf.

      [17]PAN J T, CHEN S Y, SHOU M Z, et al. Actor-context-actor relation network for spatio-temporal action localization[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2021: 464-474.

      [18]LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2018: 8759-8768.

      [19]HOU R, CHEN C, SHAH M. Tube convolutional neural network (T-CNN) for action detection in videos[EB/OL]. (2017-03-30)[2023-03-11]. https:∥arxiv.org/abs/1703.10664.pdf.

      [20]SONG L, ZHANG S W, YU G, et al. TACNet: transition-aware context network for spatio-temporal action detection[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2020: 11979-11987.

      [21]KALOGEITON V, WEINZAEPFEL P, FERRARI V, et al. Action tubelet detector for spatio-temporal action localization[C]∥IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2017: 4415-4423.

      [22]LI Y X, WANG Z X, WANG L M, et al. Actions as moving points[C]∥European Conference on Computer Vision. Cham: Springer International Publishing, 2020: 68-84.

      [23]YANG X T, YANG X D, LIU M Y, et al. STEP: spatio-temporal progressive learning for video action detection[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2020: 264-272.

      萝北县| 广州市| 大石桥市| 湛江市| 利辛县| 玛曲县| 凤台县| 酒泉市| 涡阳县| 淮北市| 鱼台县| 长阳| 隆回县| 大厂| 清新县| 格尔木市| 牡丹江市| 徐州市| 扶沟县| 当雄县| 东宁县| 泰州市| 泸定县| 积石山| 买车| 抚顺县| 乌拉特中旗| 樟树市| 南乐县| 夏邑县| 铅山县| 嘉荫县| 宁晋县| 马边| 临夏县| 潜山县| 宣武区| 九龙县| 巴东县| 九台市| 筠连县|