• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      利用多時(shí)間尺度卷積的視頻行為識(shí)別網(wǎng)絡(luò)

      2023-06-10 07:08:58陳西江梁全恩韓賢權(quán)
      關(guān)鍵詞:時(shí)間尺度時(shí)空準(zhǔn)確率

      陳西江,梁全恩,韓賢權(quán),安 慶

      (1. 武漢理工大學(xué) 安全科學(xué)與應(yīng)急管理學(xué)院, 湖北 武漢 430070; 2. 長(zhǎng)江科學(xué)院, 湖北 武漢 430010; 3. 武昌理工學(xué)院 人工智能學(xué)院, 湖北 武漢 430223)

      得益于計(jì)算機(jī)設(shè)備的進(jìn)步與算力的提升,深度學(xué)習(xí)技術(shù)得到了快速發(fā)展。許多學(xué)者提出了基于卷積神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別算法,如:AlexNet[1]、VGG[2]、ResNet[3]等。由于神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別領(lǐng)域的優(yōu)勢(shì),許多學(xué)者嘗試運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行行為的識(shí)別與分類(lèi)?;诓煌墓羌芫W(wǎng)絡(luò),行為識(shí)別網(wǎng)絡(luò)一般分為2D行為識(shí)別網(wǎng)絡(luò)與3D行為識(shí)別網(wǎng)絡(luò)。

      2D的行為識(shí)別網(wǎng)絡(luò)使用2D卷積神經(jīng)網(wǎng)絡(luò)作為骨架網(wǎng)絡(luò)進(jìn)行行為識(shí)別。Simonyan等[4]設(shè)計(jì)了包含兩個(gè)獨(dú)立卷積神經(jīng)網(wǎng)絡(luò)的雙流網(wǎng)絡(luò),其以密集的連續(xù)幀作為網(wǎng)絡(luò)輸入提取時(shí)序信息。但是密集的連續(xù)幀無(wú)法對(duì)動(dòng)作進(jìn)行大時(shí)間尺度的建模。為改進(jìn)這一缺點(diǎn),Wang等設(shè)計(jì)了時(shí)間分割網(wǎng)絡(luò)(temporal segment network,TSN)[5]。TSN將視頻分段,將每段視頻輸入到雙流網(wǎng)絡(luò)中再對(duì)每段的結(jié)果進(jìn)行融合從而使網(wǎng)絡(luò)具有長(zhǎng)時(shí)時(shí)空建模的能力。Zhou等提出時(shí)間關(guān)系網(wǎng)絡(luò)(temporal relation network,TRN)[6]。TRN主要關(guān)注不同時(shí)間尺度上的不同幀的相關(guān)性,其將圖像特征依照不同的時(shí)間尺度進(jìn)行時(shí)間關(guān)系推理得到不同時(shí)間尺度下的行為分類(lèi)結(jié)果,最后融合多尺度的分類(lèi)結(jié)果得到最終的分類(lèi)結(jié)果。Zolfaghari等提出了一種高效的行為識(shí)別網(wǎng)絡(luò)[7],其創(chuàng)新在于在網(wǎng)絡(luò)底部使用3D卷積神經(jīng)網(wǎng)絡(luò)來(lái)獲得最后的分類(lèi)結(jié)果。基于動(dòng)作主體語(yǔ)義變化相較于動(dòng)作變化本身更慢,Feichtenhofer等設(shè)計(jì)了SlowFast網(wǎng)絡(luò)[8],SlowFast網(wǎng)絡(luò)包含了兩個(gè)不同設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò),分別側(cè)重于提取不同變化速率的特征。Yang等[9]設(shè)計(jì)了一個(gè)金字塔結(jié)構(gòu)的時(shí)間金字塔網(wǎng)絡(luò)(temporal pyramid network,TPN)用以對(duì)動(dòng)作的不同速率進(jìn)行采樣,其利用不同層次網(wǎng)絡(luò)的輸出特征,應(yīng)用不同的空間采樣率與時(shí)間采樣率進(jìn)行采樣,最后將采樣后的特征融合獲得行為的分類(lèi)結(jié)果。劉董經(jīng)典等出了2D時(shí)空卷積密集連接神經(jīng)網(wǎng)絡(luò)[10]。他們選取視頻中用于表征行為的幀,將這些幀依照不同的時(shí)空次序組成藍(lán)綠紅(blue green red,BGR)格式的數(shù)據(jù),將組成的圖片數(shù)據(jù)輸入2D時(shí)空卷積密集連接神經(jīng)網(wǎng)絡(luò)以對(duì)行為進(jìn)行識(shí)別分類(lèi)。

      3D的行為識(shí)別網(wǎng)絡(luò)利用3D卷積核構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò),卷積核本身擴(kuò)張了時(shí)間維度,從而在卷積過(guò)程直接提取輸入圖像間的時(shí)序信息。3D卷積神經(jīng)網(wǎng)絡(luò)C3D[11]由Tran等首次提出用于行為識(shí)別。但3D卷積核擴(kuò)展維度會(huì)使網(wǎng)絡(luò)的參數(shù)量成倍增加。因此,Qiu等提出了Pseudo-3D網(wǎng)絡(luò)[12],P3D網(wǎng)絡(luò)將3D卷積核進(jìn)行了分解以降低參數(shù)量。Tran等提出了R(2+1)D網(wǎng)絡(luò)[13],其思路與P3D網(wǎng)絡(luò)的思路相似,但在分解卷積核時(shí)保持了參數(shù)量一致。張小俊等[14]借鑒P3D網(wǎng)絡(luò),但相比直接替換卷積核,他們?cè)O(shè)計(jì)了一種雙流的網(wǎng)絡(luò)結(jié)構(gòu)。Carreira等設(shè)計(jì)了一個(gè)雙流3D卷積神經(jīng)網(wǎng)絡(luò)I3D[15],他們探討了如何應(yīng)用圖像分類(lèi)和識(shí)別模型的預(yù)訓(xùn)練參數(shù)于3D卷積神經(jīng)網(wǎng)絡(luò)中。Xie等提出了S3D網(wǎng)絡(luò)[16],S3D在I3D網(wǎng)絡(luò)的基礎(chǔ)上對(duì)I3D網(wǎng)絡(luò)內(nèi)的Inception block中的3D卷積核進(jìn)行分解。Qiu等[17]基于分組卷積設(shè)計(jì)了一個(gè)提取時(shí)空特征的卷積模塊組分解模塊(grouped decomposed module, GDM)并構(gòu)建了行為識(shí)別網(wǎng)絡(luò)組分解網(wǎng)絡(luò)(grouped decomposed network, GDN)。GDM將輸入特征沿通道分為三部分,分別使用不同的卷積核計(jì)算,最后將計(jì)算結(jié)果沿通道拼接從而融合不同時(shí)空信息。郭明祥等提出三維殘差稠密的行為識(shí)別網(wǎng)絡(luò)[18]。他們將DenseNet中的卷積核替換為3D卷積核,利用網(wǎng)絡(luò)本身的密集連接融合不同層級(jí)的時(shí)空特征,使用自適應(yīng)的局部特征與全局聚合來(lái)學(xué)習(xí)行為的局部密集特征與全局特征。

      基于2D卷積神經(jīng)網(wǎng)絡(luò)的行為識(shí)別網(wǎng)絡(luò)在卷積過(guò)程缺少對(duì)時(shí)空特征的提取,因而限制了其性能。Lin等提出了時(shí)間位移模塊(temporal shift module,TSM)[19]嘗試解決2D的行為識(shí)別網(wǎng)絡(luò)存在的問(wèn)題。本文受TSM的啟發(fā)提出了多時(shí)間尺度卷積。相比TSM,本文提出的多時(shí)間尺度卷積能夠更好地融合前后多幀的信息到當(dāng)前幀中,使網(wǎng)絡(luò)獲得更好的時(shí)空建模能力。本文討論了多時(shí)間尺度卷積的具體設(shè)計(jì)與其在骨架網(wǎng)絡(luò)ResNet50中插入的位置與數(shù)量,構(gòu)建了行為識(shí)別網(wǎng)絡(luò),并在大型開(kāi)源數(shù)據(jù)集Something-Something v2上進(jìn)行實(shí)驗(yàn)對(duì)比。

      1 多時(shí)間尺度卷積設(shè)計(jì)與網(wǎng)絡(luò)構(gòu)建

      1.1 卷積神經(jīng)網(wǎng)絡(luò)與殘差神經(jīng)網(wǎng)絡(luò)

      卷積神經(jīng)網(wǎng)絡(luò)由多個(gè)卷積層、池化層與全連接層組成。卷積層一般由卷積核和激活函數(shù)或其他組件組合而成。這些基礎(chǔ)的組件以串聯(lián)或并聯(lián)的方式連接,輸入的圖像特征依照順序送入每一個(gè)組件最后得到該卷積層的輸出。卷積層計(jì)算式可以表達(dá)為:

      O=f(W(θ)(x))

      (1)

      式中,x為卷積層輸入,O為卷積層輸出,W代表卷積核,f為激活函數(shù),θ為卷積核參數(shù)。輸入圖像經(jīng)過(guò)多個(gè)卷積層的計(jì)算被提取為高維特征,之后將高維特征展開(kāi)以一維向量的形式輸入到全連接層中得到分類(lèi)結(jié)果。得益于卷積核強(qiáng)大的特征提取能力,卷積神經(jīng)網(wǎng)絡(luò)在多個(gè)數(shù)據(jù)集上的性能表現(xiàn)都超過(guò)了滑動(dòng)窗口、手工特征、多層感知機(jī)等傳統(tǒng)方法。同時(shí)卷積核共享參數(shù)的特性使得卷積神經(jīng)網(wǎng)絡(luò)計(jì)算更高效且易于訓(xùn)練。

      殘差神經(jīng)網(wǎng)絡(luò)ResNet是由He等提出的一系列卷積神經(jīng)網(wǎng)絡(luò),其在多個(gè)開(kāi)源數(shù)據(jù)集上取得了較高的分類(lèi)準(zhǔn)確率。ResNet依照網(wǎng)絡(luò)層數(shù)不同可以劃分為ResNet18、ResNet34、ResNet50等網(wǎng)絡(luò)。以ResNet50為例,如表1所示,其網(wǎng)絡(luò)由49個(gè)卷積核和1個(gè)全連接層組成,依照不同輸出特征大小,這些卷積核被分入不同的網(wǎng)絡(luò)層。在網(wǎng)絡(luò)層中,這些卷積核又被組織成瓶頸結(jié)構(gòu)的形式。

      表1 ResNet 50結(jié)構(gòu)

      瓶頸結(jié)構(gòu)如圖1所示,每個(gè)瓶頸結(jié)構(gòu)包含參數(shù)為1×1,3×3和1×1的三個(gè)卷積核。兩個(gè)大小為1×1的卷積核置于串聯(lián)結(jié)構(gòu)的頂部與底部,大小為3×3的卷積核置于結(jié)構(gòu)的中部。瓶頸結(jié)構(gòu)中1×1卷積核將輸入特征的通道進(jìn)行壓縮與還原,3×3卷積核在計(jì)算過(guò)程中保持通道數(shù)不變。瓶頸結(jié)構(gòu)通過(guò)降低中間特征的通道數(shù),顯著地減少網(wǎng)絡(luò)的參數(shù)量并加快網(wǎng)絡(luò)的訓(xùn)練速度。

      圖1 瓶頸結(jié)構(gòu)Fig.1 Bottleneck block

      ResNet在卷積核后使用激活函數(shù)ReLU和歸一層BN。BN層通過(guò)歸一化網(wǎng)絡(luò)輸出,加快網(wǎng)絡(luò)訓(xùn)練的收斂速度,緩解梯度爆炸或梯度彌散的出現(xiàn),同時(shí)抑制網(wǎng)絡(luò)過(guò)擬合現(xiàn)象,因此BN層被廣泛應(yīng)用于各種神經(jīng)網(wǎng)絡(luò)中。BN層的計(jì)算公式為:

      (2)

      式中:x為輸入數(shù)據(jù);μ為輸入數(shù)據(jù)的均值;σ2為輸入數(shù)據(jù)的方差;γ與β為可訓(xùn)練參數(shù)參與到神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程,用于還原數(shù)據(jù)的分布。

      激活函數(shù)ReLU將輸入數(shù)據(jù)中小于0的數(shù)值置為0,大于0的數(shù)值保持不變,增加卷積神經(jīng)網(wǎng)絡(luò)的非線(xiàn)性因素。激活函數(shù)ReLU可以表述為:

      ReLU(x)=max(0,x)

      (3)

      如圖1所示,ResNet的瓶頸結(jié)構(gòu)引入了殘差連接。通常,卷積神經(jīng)網(wǎng)絡(luò)的層數(shù)增加可以對(duì)輸入特征進(jìn)行更細(xì)致地?cái)M合,但是隨著網(wǎng)絡(luò)層增加,網(wǎng)絡(luò)變得難以訓(xùn)練,且其性能也不一定超越淺層網(wǎng)絡(luò)。殘差連接的提出有效地解決了深層網(wǎng)絡(luò)的以上問(wèn)題。設(shè)xin為輸入特征,xout為輸出特征,φ(xin,ω)為卷積層代表的輸入到輸出的映射,其中ω為卷積運(yùn)算。一個(gè)包含殘差連接的瓶頸結(jié)構(gòu)的計(jì)算過(guò)程可以表示為:

      xout=xin+φ(xin,ω)

      (4)

      當(dāng)映射φ(xin,ω)的值逼近于0時(shí)有xin≈xout,此時(shí)認(rèn)為該層網(wǎng)絡(luò)沒(méi)有學(xué)習(xí)到新的特征,即該層網(wǎng)絡(luò)是輸入到輸出的一個(gè)近似的恒等映射。通過(guò)殘差連接,使網(wǎng)絡(luò)在層數(shù)增加時(shí)更易訓(xùn)練,并且維持網(wǎng)絡(luò)性能不會(huì)退化。

      表2是不同層數(shù)ResNet網(wǎng)絡(luò)在ImageNet[20]數(shù)據(jù)集上進(jìn)行圖像分類(lèi)的準(zhǔn)確率。由表2可以看到,隨著網(wǎng)絡(luò)層數(shù)增加網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率呈現(xiàn)上升趨勢(shì),說(shuō)明殘差連接有效地解決了前文提到深層網(wǎng)絡(luò)存在的問(wèn)題。

      表2 ResNet在ImageNet數(shù)據(jù)集上的準(zhǔn)確率

      ResNet系列網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單,適合根據(jù)需求對(duì)其進(jìn)行不同修改。通過(guò)對(duì)比表2中不同層數(shù)ResNet的準(zhǔn)確率與參數(shù)量,選取在兩者之間取得較好平衡的ResNet50作為本文的骨架網(wǎng)絡(luò)。

      1.2 TSM

      TSM由Lin等提出。TSM通過(guò)移動(dòng)輸入特征的部分通道將相鄰兩幀的部分特征引入當(dāng)前幀中達(dá)到信息融合的目的,使骨架網(wǎng)絡(luò)獲得時(shí)空建模能力。TSM的結(jié)構(gòu)如圖2所示,其中不同顏色的行對(duì)應(yīng)不同時(shí)間點(diǎn)T的圖像特征,兩個(gè)箭頭分別為前向移動(dòng)與后向移動(dòng)。前向移動(dòng)將部分特征沿著時(shí)間維度的順序向前移動(dòng)一個(gè)時(shí)間單位,通過(guò)前向移動(dòng)每一幀都將融合后一幀的部分信息。后向移動(dòng)沿著時(shí)間維度將部分特征向后移動(dòng)一個(gè)時(shí)間單位,從而使每一幀獲得前一幀的部分信息。T0與T4的部分通道由于移動(dòng)會(huì)出現(xiàn)數(shù)據(jù)缺失,TSM中使用零值進(jìn)行填充,對(duì)于超出時(shí)間范圍的特征則舍去。TSM使用α控制移動(dòng)的通道數(shù),通過(guò)參數(shù)控制,在不影響骨架網(wǎng)絡(luò)空間建模能力的基礎(chǔ)上最大限度地融合前后幀的信息。此外,TSM可以不經(jīng)修改原網(wǎng)絡(luò)結(jié)構(gòu)快速地插入到任意ResNet系列的網(wǎng)絡(luò)中實(shí)現(xiàn)即插即用。

      圖2 TSM結(jié)構(gòu)Fig.2 Architecture of TSM

      TSM的通道移動(dòng)操作主要涉及數(shù)據(jù)在內(nèi)存之中的移動(dòng),本文結(jié)合文獻(xiàn)[19]說(shuō)明TSM可以視作一個(gè)特殊的卷積模塊。設(shè)輸入特征F含有n幀圖像,設(shè)t1,t2,…,tn為F中不同幀的圖像特征對(duì)應(yīng)的時(shí)間點(diǎn)。將每一幀特征的通道分為三部分,Fforward為T(mén)SM中需要前向移動(dòng)的特征,Fbackward為需要后向移動(dòng)的特征,Fremain為不需要移動(dòng)的特征。又設(shè)三個(gè)固定參數(shù)的3D卷積核為c1、c2、c3,將其時(shí)間維度的參數(shù)設(shè)為[0,0,1],[1,0,0],[0,1,0]。將c1、c2與c3分別與Fforward、Fbackward、Fremain進(jìn)行卷積計(jì)算。以c1與Fforward進(jìn)行卷積計(jì)算為例,F′forward為輸出特征,計(jì)算過(guò)程為:

      (5)

      式(5)中的時(shí)間范圍為t1~tn。該式中上標(biāo)為t0與tn+1的F的值設(shè)為0,其為卷積過(guò)程中為維持特征大小不變所設(shè)置的參數(shù)。由式(5),與c1計(jì)算后,Fforward中當(dāng)前時(shí)間點(diǎn)的特征變?yōu)榱撕笠粫r(shí)間點(diǎn)的特征。同理可推c2與Fbackward,c3與Fremain相應(yīng)的計(jì)算過(guò)程。經(jīng)推導(dǎo)可知,通過(guò)固定卷積核時(shí)間維度上不同位置參數(shù),可以使卷積舍去或保留不同時(shí)間點(diǎn)的特征,從而等價(jià)于不同的移動(dòng)操作。綜上所述,TSM的移動(dòng)過(guò)程可以表達(dá)為:

      F′=CCat[c1(Fforward),c2(Fbackward),c3(Fremain)]

      (6)

      式中,CCat為拼接操作。由上述討論,TSM的通道移動(dòng)操作可以視為使用不同的固定參數(shù)的3D卷積核與特征不同部分的通道進(jìn)行卷積。與普通卷積核不同的是這些卷積核在訓(xùn)練過(guò)程中不學(xué)習(xí)參數(shù)。

      1.3 多時(shí)間尺度卷積

      TSM證明了在2D骨架網(wǎng)絡(luò)的基礎(chǔ)上,使用部分輸入特征進(jìn)行信息融合可以使模型具有捕獲時(shí)空信息的能力。受TSM的啟發(fā),本文設(shè)計(jì)了多時(shí)間尺度卷積(multi time-scale convolution,MTSC)提取融合幀間時(shí)空特征。多時(shí)間尺度卷積由兩個(gè)時(shí)間1D卷積核組成:其一為大小3×1×1的時(shí)間1D卷積核用于提取當(dāng)前幀及鄰近前后兩幀的特征,時(shí)間跨度為3幀;其二為大小3×1×1的空洞時(shí)間1D卷積核,用于提取當(dāng)前幀及前后隔幀的特征,時(shí)間跨度為5幀。MTSC的運(yùn)算過(guò)程如圖3所示,首先將原特征沿著通道順序分割為截取特征Fconv與保留特征Funconv,之后將截取特征分別輸入到兩個(gè)不同的時(shí)間1D卷積核中進(jìn)行計(jì)算以提取不同尺度的時(shí)空的信息,最后將卷積輸出特征相加融合再依照通道順序與保留特征拼接。如1.2小節(jié)討論,TSM可以視作對(duì)特征的不同部分進(jìn)行固定參數(shù)的卷積計(jì)算,但其存在兩個(gè)缺點(diǎn):參數(shù)不能學(xué)習(xí);部分通道出現(xiàn)信息缺失。多時(shí)間尺度卷積使用可訓(xùn)練的時(shí)間1D卷積解決了以上兩個(gè)問(wèn)題,其表達(dá)式為:

      圖3 多時(shí)間尺度卷積Fig.3 Multi time-scale convolution

      Fout=CCat[k1(Fconv)+k2(Fconv),Funconv]

      (7)

      式中,k1,k2代表兩個(gè)時(shí)間尺度的時(shí)間1D卷積。通過(guò)融合不同時(shí)間尺度的特征,輸入中的每一幀特征獲得前后不同時(shí)間尺度上的信息從而使網(wǎng)絡(luò)具有更好的時(shí)空建模能力。

      1.4 行為識(shí)別網(wǎng)絡(luò)設(shè)計(jì)

      行為識(shí)別網(wǎng)絡(luò)由若干個(gè)多時(shí)間尺度卷積嵌入ResNet50構(gòu)成,因此本文提出的行為識(shí)別網(wǎng)絡(luò)同時(shí)考慮了多時(shí)間尺度卷積結(jié)構(gòu)與多時(shí)間尺度卷積的嵌入位置。

      提出的多時(shí)間尺度卷積的結(jié)構(gòu)為圖3中截取特征的通道數(shù)量。截取特征通道數(shù)量不僅影響多時(shí)間尺度卷積提取融合時(shí)空特征的能力,并且隨著通道數(shù)的增加,多時(shí)間尺度卷積的參數(shù)量也會(huì)上升。本文參考TSM,使用參數(shù)α來(lái)控制截取特征的通道數(shù)。α代表輸入特征總通道數(shù)Cin與截取特征通道數(shù)Cconv的比值。

      (8)

      多時(shí)間尺度卷積的嵌入位置指多時(shí)間尺度在骨架網(wǎng)絡(luò)中具體嵌入的層數(shù)與數(shù)量。本文選取的骨架網(wǎng)絡(luò)ResNet50含有多個(gè)瓶頸結(jié)構(gòu),多時(shí)間尺度卷積可以方便地嵌入到瓶頸結(jié)構(gòu)之前。插入多時(shí)間尺度卷積的數(shù)量影響著網(wǎng)絡(luò)的時(shí)空特征提取能力,并且嵌入多時(shí)間尺度卷積的數(shù)量也在影響模型的參數(shù)量,因此需要研究如何取得性能與參數(shù)之間的平衡。如表1所示, ResNet50包含網(wǎng)絡(luò)層1至網(wǎng)絡(luò)層4四個(gè)網(wǎng)絡(luò)層,將多時(shí)間尺度卷積插入不同網(wǎng)絡(luò)層的瓶頸結(jié)構(gòu)前并進(jìn)行對(duì)比,研究多時(shí)間尺度卷積在骨架網(wǎng)絡(luò)中的最佳插入位置與數(shù)量。

      本文提出的基于多時(shí)間尺度卷積的行為識(shí)別網(wǎng)絡(luò)總體結(jié)構(gòu)如圖4所示。首先對(duì)視頻進(jìn)行稀疏采樣,每個(gè)視頻抽取8幀圖像堆疊組成網(wǎng)絡(luò)的輸入。然后網(wǎng)絡(luò)使用多個(gè)卷積層對(duì)輸入圖像進(jìn)行特征提取。最后將卷積層輸出的特征平鋪為一維向量輸入到fc層中,將fc層的輸出相加并按幀數(shù)取均值得到識(shí)別結(jié)果。

      圖4 行為識(shí)別網(wǎng)絡(luò)總體結(jié)構(gòu)Fig.4 Overall of behavior recognition network

      算法1 Top-1準(zhǔn)確率與Top-5準(zhǔn)確率

      2 實(shí)驗(yàn)與結(jié)果

      2.1 網(wǎng)絡(luò)性能評(píng)價(jià)指標(biāo)與數(shù)據(jù)集

      使用行為識(shí)別領(lǐng)域中常用的Top-1準(zhǔn)確率與Top-5準(zhǔn)確率作為性能評(píng)價(jià)指標(biāo)。Top-1準(zhǔn)確率是指網(wǎng)絡(luò)的輸出中概率最高的類(lèi)別和視頻實(shí)際類(lèi)別一致的比例,Top-5準(zhǔn)確率是指網(wǎng)絡(luò)輸出中概率最高的前五個(gè)類(lèi)別中包含視頻實(shí)際類(lèi)別的比例。Top-1準(zhǔn)確率與Top-5準(zhǔn)確率的偽代碼見(jiàn)算法1。

      Something-Something v2數(shù)據(jù)集是一個(gè)大型的開(kāi)源行為識(shí)別數(shù)據(jù)集。Something-Something v2數(shù)據(jù)集涵蓋了174個(gè)行為類(lèi)別,包括日常中常見(jiàn)的行為如:移動(dòng)某物靠近某物、上移某物、打開(kāi)某物等。Something-Something v2數(shù)據(jù)集中的動(dòng)作類(lèi)別注重時(shí)空上的關(guān)系,對(duì)于模型理解動(dòng)作主客體之間的交互要求較高。Something-Something v2數(shù)據(jù)集共包含220 847個(gè)視頻,其中訓(xùn)練集168 913個(gè)視頻,測(cè)試集27 157個(gè)視頻,驗(yàn)證集24 777個(gè)視頻。為了在實(shí)驗(yàn)階段快速驗(yàn)證網(wǎng)絡(luò)性能,本文對(duì)訓(xùn)練集中所有類(lèi)行為的視頻進(jìn)行等比例選取,選取比例為1/5,構(gòu)成了包含33 689個(gè)視頻的訓(xùn)練集子數(shù)據(jù)集(后文簡(jiǎn)稱(chēng)為訓(xùn)練子集),數(shù)據(jù)集劃分情況如圖5所示。

      圖5 數(shù)據(jù)集劃分Fig.5 Splits of dataset

      2.2 訓(xùn)練測(cè)試設(shè)置

      實(shí)驗(yàn)環(huán)境為Ubuntu16.04,一塊NVIDIA RTX 2080ti GPU,Pytorch版本1.4,Cuda版本10.0。由前文所述,選擇ResNet50作為骨架網(wǎng)絡(luò)并使用ImageNet預(yù)訓(xùn)練參數(shù)。本文選擇SGD作為優(yōu)化器,初始的學(xué)習(xí)率設(shè)置為0.01,在第20和第40輪次時(shí)學(xué)習(xí)率下降為當(dāng)前學(xué)習(xí)率的1/10,優(yōu)化器動(dòng)量momentum為0.8,模型訓(xùn)練的輪次為50epoch。全連接層的dropout設(shè)置為0.5。使用梯度累加將批大小模擬為64。在訓(xùn)練時(shí),在視頻中抽取8幀的視頻切片,將視頻切片中的每一幀圖像隨機(jī)剪裁出224×224大小的圖像,之后重新組成一個(gè)視頻切片輸入網(wǎng)絡(luò)。在測(cè)試階段與驗(yàn)證階段,選取8幀視頻切片,每一幀圖像都在中心剪裁224×224大小的圖像,之后重新堆疊輸入網(wǎng)絡(luò)進(jìn)行測(cè)試。在實(shí)驗(yàn)部分,使用訓(xùn)練子集訓(xùn)練網(wǎng)絡(luò)研究多時(shí)間尺度卷積的設(shè)計(jì)與卷積插入的層數(shù)選擇。在進(jìn)行與其他網(wǎng)絡(luò)性能對(duì)比時(shí),將使用完整的訓(xùn)練集訓(xùn)練網(wǎng)絡(luò)。由于Something-Something v2數(shù)據(jù)集的測(cè)試集并未提供標(biāo)簽信息,因此將在提供標(biāo)簽信息的驗(yàn)證集上測(cè)試網(wǎng)絡(luò)的性能。

      2.3 實(shí)驗(yàn)

      2.3.1 最優(yōu)α值確定

      參考TSM的研究,選取了三個(gè)α值分別為2、4、8。在該實(shí)驗(yàn)中,多時(shí)間尺度卷積與TSM插入的位置為網(wǎng)絡(luò)層1至網(wǎng)絡(luò)層4的瓶頸結(jié)構(gòu)前。表3為在訓(xùn)練子集上對(duì)不同α值的網(wǎng)絡(luò)進(jìn)行訓(xùn)練并在驗(yàn)證集上測(cè)試的結(jié)果。α值越小代表圖3中截取特征的通道數(shù)越多。

      表3 不同α值對(duì)應(yīng)不同的網(wǎng)絡(luò)精度

      表中Top-1與Top-5分別為T(mén)op-1 準(zhǔn)確率與Top-5 準(zhǔn)確率,在無(wú)其他說(shuō)明的情況下后文中的其余表格與此相同。針對(duì)Top-1準(zhǔn)確率,由表3可明顯看出,α=4時(shí)的網(wǎng)絡(luò)精度相對(duì)α=2與α=8的網(wǎng)絡(luò)分別提升1.67%和0.74%,同時(shí)比TSMα=4時(shí)提升0.74%。針對(duì)Top-5準(zhǔn)確率,α=4時(shí)的網(wǎng)絡(luò)精度相對(duì)α=2與α=8的網(wǎng)絡(luò)分別提升1.97%和1.37%,同樣比TSMα=4時(shí)的網(wǎng)絡(luò)精度提升了0.98%。因此,當(dāng)α=2與α=8時(shí),網(wǎng)絡(luò)的性能都有不同程度的下降。根據(jù)文獻(xiàn)[19]可以確定,造成該現(xiàn)象的原因如下:當(dāng)α=2時(shí),輸入特征每一幀的特征都只保留了一半的原特征,這造成了較為嚴(yán)重的信息丟失,因此損害了網(wǎng)絡(luò)的空間建模能力,進(jìn)而導(dǎo)致網(wǎng)絡(luò)性能下降。當(dāng)α=8時(shí),雖然保留了輸入特征的絕大部分特征,但是時(shí)序信息融合較少,因此網(wǎng)絡(luò)性能仍有上升空間。從表3可以看到,α=8時(shí)多時(shí)間尺度卷積的性能與TSMα=4時(shí)的性能相似,證明了多尺度卷積比TSM具有更好的時(shí)空信息提取融合能力,能使用較少的通道數(shù)達(dá)到TSM中移動(dòng)較多通道的效果。通過(guò)該實(shí)驗(yàn)可以確定α=4時(shí)網(wǎng)絡(luò)取得了最優(yōu)性能,因此,多時(shí)間尺度卷積的最優(yōu)α值為4。

      圖6展示了部分行為類(lèi)別在不同α值下的識(shí)別情況。由圖6可以看到在α為2時(shí),網(wǎng)絡(luò)對(duì)某些類(lèi)別的識(shí)別正確率下降嚴(yán)重,如“扭某物”?!芭つ澄铩鳖?lèi)別對(duì)空間信息較為敏感,因此可以印證前文的推測(cè)即α取值過(guò)大導(dǎo)致網(wǎng)絡(luò)空間建模能力下降。

      圖6 不同α對(duì)應(yīng)的部分類(lèi)別識(shí)別結(jié)果Fig.6 Classification result of some behavior categories by different α setting

      2.3.2 多時(shí)間尺度卷積插入位置確定

      多時(shí)間尺度卷積可以簡(jiǎn)單地插入骨架網(wǎng)絡(luò)中,將多時(shí)間尺度卷積分別在不同層內(nèi)的瓶頸結(jié)構(gòu)之前插入。選擇了3種插入位置組合:[1,2,3,4]、[2,3,4]、[3,4]。[1,2,3,4]代表在第1、2、3、4層的每一個(gè)瓶頸結(jié)構(gòu)前插入多時(shí)間尺度卷積,其余以此類(lèi)推。在該實(shí)驗(yàn)中,多時(shí)間尺度卷積與TSM的α=4。實(shí)驗(yàn)結(jié)果見(jiàn)表4。

      表4 不同插入位置的網(wǎng)絡(luò)精度

      可以看到,隨著插入層數(shù)的減少網(wǎng)絡(luò)性能呈現(xiàn)下降趨勢(shì),這說(shuō)明卷積插入數(shù)量的提升可以顯著地增強(qiáng)網(wǎng)絡(luò)的時(shí)空建模能力。但隨著卷積核數(shù)量增加,網(wǎng)絡(luò)的參數(shù)和計(jì)算消耗也會(huì)增大,因此對(duì)于部分計(jì)算量敏感的應(yīng)用場(chǎng)景可以選擇插入較少的層次如[2,3,4]。圖7展示了不同插入位置對(duì)應(yīng)的部分類(lèi)別識(shí)別結(jié)果,說(shuō)明隨著插入層數(shù)的增加即插入多時(shí)間尺度卷積的數(shù)量增加,有利于模型的識(shí)別性能提高。

      圖7 不同插入位置對(duì)應(yīng)的部分類(lèi)別識(shí)別結(jié)果 Fig.7 Classification result of some behavior categories by different insertion position setting

      2.4 模型性能對(duì)比

      通過(guò)2.3.1節(jié)與2.3.2節(jié)的討論,行為識(shí)別網(wǎng)絡(luò)在多時(shí)間尺度卷積的α=4、插入層次為[1,2,3,4]時(shí)取得最好的性能。本節(jié)利用Something-Something v2數(shù)據(jù)集驗(yàn)證本文提出的網(wǎng)絡(luò)與TSN、TRN、TRN-2Stream等網(wǎng)絡(luò)的性能,使用Top-1和Top-5準(zhǔn)確率對(duì)不同方法性能進(jìn)行比較,結(jié)果見(jiàn)表5。

      表5 與其他模型的對(duì)比

      TSN為早期方法,其使用16幀圖像作為輸入僅取得了30%的Top-1準(zhǔn)確率,落后于其他行為識(shí)別模型。由表5可以看出,針對(duì)Top-1準(zhǔn)確率,基于多時(shí)間尺度卷積的行為識(shí)別網(wǎng)絡(luò)超過(guò)了TRN以及使用光流輸入的TRN-2Stream 10.67%和3.97%。相比于TSN+TPN與GDN網(wǎng)絡(luò),MTSC的Top-1準(zhǔn)確率分別提升了4.27%與1.87%。同時(shí),MTSC超過(guò)了相同設(shè)置的TSM 0.77%。針對(duì)Top-5準(zhǔn)確率,以8幀作為輸入的TSM和以16幀作為輸入的GDN網(wǎng)絡(luò)性能與以8幀作為輸入的MTSC接近,但仍然低于MTSC 0.07%和0.44%。同時(shí),以8幀作為輸入,MTSC的Top-5準(zhǔn)確率明顯高于TRN、TRN-2Stream及GDN。圖8顯示了部分類(lèi)別的分類(lèi)情況,對(duì)于TSM難以識(shí)別的“推某物使其旋轉(zhuǎn)”類(lèi)別,使用多時(shí)間尺度卷積取得了較大的提升,其他類(lèi)別的識(shí)別數(shù)也獲得了不同幅度的增加。這說(shuō)明多時(shí)間尺度卷積使骨架網(wǎng)絡(luò)獲得了更強(qiáng)的時(shí)空特征提取能力。

      圖8 TSM與多時(shí)間尺度卷積的部分類(lèi)別識(shí)別情況 Fig.8 Classification result of some behavior categories of TSM and MTSC

      3 結(jié)論

      本文研究了TSM,并利用公式推導(dǎo)了TSM可以等效為一組特殊的固定參數(shù)卷積核。同時(shí),在分析過(guò)往基于卷積神經(jīng)網(wǎng)絡(luò)的行為識(shí)別模型的基礎(chǔ)上,提出了多時(shí)間尺度卷積提取融合不同時(shí)間尺度的時(shí)空特征,以ResNet50為骨架構(gòu)建了行為識(shí)別網(wǎng)絡(luò)。

      在行為識(shí)別網(wǎng)絡(luò)構(gòu)建方面,研究了多時(shí)間尺度卷積插入位置和控制截取特征通道數(shù)的參數(shù)α的取值對(duì)模型性能的影響。實(shí)驗(yàn)表明,當(dāng)截取特征通道數(shù)為原通道數(shù)的1/4,插入位置為網(wǎng)絡(luò)層1至網(wǎng)絡(luò)層4時(shí)網(wǎng)絡(luò)取得最好性能。通過(guò)實(shí)驗(yàn)對(duì)比驗(yàn)證了本文提出的網(wǎng)絡(luò)優(yōu)于TSM及其他網(wǎng)絡(luò),在Something-Something v2數(shù)據(jù)集上取得了59.47%的Top-1準(zhǔn)確率。后續(xù),將深入研究多時(shí)間尺度卷積瓶頸結(jié)構(gòu)插入位置、如何選取截取特征以及降低網(wǎng)絡(luò)參數(shù)量等問(wèn)題,并更仔細(xì)地設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)以取得更好的識(shí)別性能。

      猜你喜歡
      時(shí)間尺度時(shí)空準(zhǔn)確率
      時(shí)間尺度上非完整系統(tǒng)的Noether準(zhǔn)對(duì)稱(chēng)性與守恒量
      跨越時(shí)空的相遇
      時(shí)間尺度上Lagrange 系統(tǒng)的Hojman 守恒量1)
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      交直流混合微電網(wǎng)多時(shí)間尺度協(xié)同控制
      能源工程(2021年1期)2021-04-13 02:06:12
      2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
      鏡中的時(shí)空穿梭
      玩一次時(shí)空大“穿越”
      高速公路車(chē)牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
      红河县| 剑阁县| 徐水县| 铜陵市| 通州市| 沙河市| 巴青县| 开封市| 太仆寺旗| 扶风县| 潢川县| 积石山| 克东县| 双桥区| 隆尧县| 无棣县| 彭阳县| 连云港市| 文成县| 桂阳县| 文化| 桦川县| 溆浦县| 奎屯市| 大安市| 临邑县| 开远市| 营口市| 平阳县| 晋宁县| 武山县| 巴林右旗| 凤凰县| 红安县| 清河县| 大余县| 上饶市| 股票| 阿图什市| 游戏| 洪泽县|