基于連續(xù)幀的在線實時人體行為檢測

2018-06-28 02:44:28周道洋關(guān)勝曉夏雨薇

網(wǎng)絡(luò)安全與數(shù)據(jù)管理 2018年6期

周道洋，關(guān)勝曉，夏雨薇

(中國科學(xué)技術(shù)大學(xué) 信息科學(xué)技術(shù)學(xué)院，安徽合肥 230026)

0 引言

近年來隨著深度學(xué)習(xí)的快速發(fā)展,計算機視覺蓬勃發(fā)展，極大地推動了人體行為檢測的發(fā)展。人體行為檢測作為計算機視覺中一個極具挑戰(zhàn)性的課題，涉及圖像處理、模式識別、計算機視覺、人工智能等多個交叉學(xué)科，廣泛應(yīng)用于視頻監(jiān)控和安全、人機交互、醫(yī)療康復(fù)運動分析、環(huán)境控制和預(yù)測等領(lǐng)域[1]。當(dāng)前人體行為檢測主要受攝像頭視角變化、光照變化、個體差異等的影響[2]。

深度學(xué)習(xí)方法在計算機視覺中的廣泛應(yīng)用得益于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的普遍使用。卷積神經(jīng)網(wǎng)絡(luò)因其特殊的網(wǎng)絡(luò)結(jié)構(gòu)使其特別適合處理計算機視覺任務(wù)，近年來被廣泛應(yīng)用于圖像分類，物體檢測、分割，視頻理解等任務(wù)[3]。

目前基于卷積神經(jīng)網(wǎng)絡(luò)的人體行為檢測方法主要是直接提取視頻的時空特征，然后基于時空特征進(jìn)行分類和回歸以達(dá)到行為檢測的目的。例如SIMONYAN K等的雙流網(wǎng)絡(luò)[4]，使用視頻幀提取空間信息，同時使用光流提取運動信息(時間流)，然后結(jié)合時間流和空間流的輸出得到最終結(jié)果；Wang Limin等的TSN(Temporal Segment Networks)網(wǎng)絡(luò)進(jìn)一步研究了時空流融合的方法[5]；Zhao Yue等提出了時序動作提名算法TAG(Temporal Actionness Grouping)以及后面的分類、邊框回歸網(wǎng)絡(luò)SSN(Structured Segment Networks)用于行為檢測[6]。這類方法要求網(wǎng)絡(luò)能很好地處理視頻的時序信息，盡可能地提取時序信息，然后將時空信息融合在一起，受光流的影響，這種方法處理速度較慢。隨著對人體行為檢測實時性要求的提高，在線實時人體行為檢測算法被提出。首先使用物體檢測算法將每幀圖像里面的物體檢測出來，然后再使用貪心連接算法將離散的候選框連接起來，以此實現(xiàn)行為檢測。由于物體檢測方法運行很快，又是逐幀檢測，因此很自然地可以設(shè)計連接算法實現(xiàn)在線實時人體行為檢測。例如SINGH G等提出Real-time Online Action Detection(ROAD)[7]，基于SSD實現(xiàn)物體檢測[8]，然后使用貪心連接算法將候選框連接成行為實例，并進(jìn)行分類，算法最快可以達(dá)到40幀每秒的速度。

本文基于SINGH G等提出的ROAD算法，設(shè)計了連續(xù)幀作為輸入來進(jìn)一步提高實時在線系統(tǒng)的準(zhǔn)確性，同時研究了時空流的融合方法讓網(wǎng)絡(luò)能更好地利用和提取時空信息。實驗結(jié)果表明改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)在保證實時在線的同時提高了準(zhǔn)確率。

1 在線實時人體行為檢測算法

SINGH G等提出的ROAD使用物體檢測算法SSD實現(xiàn)幀等級的物體檢測，然后使用貪心連接算法將檢測框連接起來并得到人體行為的分類和定位，當(dāng)只使用視頻幀的RGB信息時，處理速度高達(dá)40幀每秒，同時還可以選擇使用快速光流作為補充，處理速度也達(dá)到了28幀每秒，滿足了在線實時系統(tǒng)的要求。

1.1 物體檢測算法SSD

物體檢測算法SSD的主要思想是在不同層次的特征圖上分別生成不同寬高比的邊界框，以此適應(yīng)不同大小、不同寬高比的物體。由于沒有了候選框提取步驟，整個物體檢測完全在一個網(wǎng)絡(luò)結(jié)構(gòu)里面完成，真正實現(xiàn)了端到端的訓(xùn)練，因此SSD網(wǎng)絡(luò)更容易優(yōu)化訓(xùn)練，更容易將檢測結(jié)果融合進(jìn)系統(tǒng)之中，最主要的是省去了耗時的候選框提取，SSD網(wǎng)絡(luò)運行的速度更快。這也使得SSD網(wǎng)絡(luò)更加適合作為在線實時人體行為檢測系統(tǒng)的基礎(chǔ)網(wǎng)絡(luò)。

SSD網(wǎng)絡(luò)主要由4部分組成：基礎(chǔ)網(wǎng)絡(luò)部分、附加的特征提取層、默認(rèn)框生成部分和卷積預(yù)測部分。將不同尺寸大小的圖片變化成300×300后作為模型的輸入，然后經(jīng)過基礎(chǔ)網(wǎng)絡(luò)和附加的特征提取層提取原始圖像的大量卷積特征。選擇一部分特征層作為目標(biāo)預(yù)測的依據(jù)，分別送入默認(rèn)框生成部分和卷積預(yù)測部分得到多種尺度的默認(rèn)框和在每個位置處的默認(rèn)框偏移及類別概率。最后默認(rèn)框、預(yù)測結(jié)果與圖片的真實標(biāo)記通過Loss層計算損失，并進(jìn)行誤差的反向傳播訓(xùn)練模型的參數(shù)。

1.2 貪心連接算法

算法總結(jié)如下：

(1)對于每一個類別c，算法執(zhí)行步驟(2)～(7)。

(2)對于已經(jīng)存在的屬于類別c的行為管道按得分進(jìn)行降序排序，行為管道的得分為管道里每個檢測框得分的平均值。

(6)結(jié)束循環(huán)。

(7)對于沒有匹配的檢測框，以它們?yōu)殚_始初始化新的行為管道。

1.3 在線實時人體行為檢測算法的不足

ROAD處理速度很快，但是準(zhǔn)確率還有提升的空間，網(wǎng)絡(luò)結(jié)構(gòu)還可以進(jìn)一步優(yōu)化，且這種方法是在單幀視頻上進(jìn)行物體檢測，沒有有效利用視頻里面的時序信息。同時作者使用了快速光流作為補充，但光流與空間流也沒有很好地融合，而這種時序信息和光流與空間流的融合是人體行為檢測里至關(guān)重要的?；诖?，本文提出一種基于連續(xù)幀的在線實時人體行為檢測算法，并考慮空間流和光流的融合進(jìn)一步提高準(zhǔn)確率。

2 基于連續(xù)幀的在線實時人體行為檢測算法

在SINGH G等提出的ROAD[7]基礎(chǔ)上，首先考慮時空流的融合，然后使用連續(xù)幀作為輸入改進(jìn)網(wǎng)絡(luò)，最后通過對比實驗驗證網(wǎng)絡(luò)效果。

2.1 空間流與時間流的融合

現(xiàn)在視頻處理的經(jīng)典算法一般都會使用雙流網(wǎng)絡(luò)提取特征：一個空間流，使用視頻幀的RGB通道作為輸入，通過網(wǎng)絡(luò)提取空間信息；一個光流，使用視頻連續(xù)幀之間的光流作為輸入，通過網(wǎng)絡(luò)提取運動時間信息。分別使用兩個網(wǎng)絡(luò)去訓(xùn)練并做預(yù)測，然后將兩者的結(jié)果取平均，或是訓(xùn)練一個SVM分類器，這種方法較單一的一個流準(zhǔn)確率有明顯提高，但是這種融合只發(fā)生在最終的結(jié)果上，中間的特征并沒有進(jìn)行融合。本文研究了在中間特定層進(jìn)行特征融合然后基于融合的特征進(jìn)行人體行為檢測。

總結(jié)FEICHTENHOFER C等關(guān)于人體行為識別中雙流網(wǎng)絡(luò)融合的研究[9]，發(fā)現(xiàn)卷積融合是最好的融合方法，本文借鑒這種卷積融合方法。

考慮到光流對幀等級邊框檢測的不準(zhǔn)確性，本文的融合只發(fā)生在分類任務(wù)上，對于邊框回歸任務(wù)，只使用空間流的特征，但是在訓(xùn)練的時候邊框回歸的誤差同樣會傳播到光流，因為光流網(wǎng)絡(luò)也是使用了SSD，這樣能更好地訓(xùn)練光流網(wǎng)絡(luò)。

本文的基礎(chǔ)網(wǎng)絡(luò)仍然使用SSD來進(jìn)行物體檢測，在每一個要使用的特征層上先進(jìn)行卷積融合，然后再執(zhí)行卷積進(jìn)行分類任務(wù)，即在最后的特征層上分別進(jìn)行融合。時空流融合如圖1所示。

圖1 時空融合及多幀輸入

2.2 連續(xù)幀輸入

考慮到連續(xù)幀更能描述行為的具體類別，本文使用連續(xù)K幀代替單一幀作為輸入，使用相同的卷積網(wǎng)絡(luò)結(jié)構(gòu)分別處理每一幀，這些網(wǎng)絡(luò)共享參數(shù)。

對于分類任務(wù)，在進(jìn)行了時空流的卷積融合以后得到每一幀的時空特征，對于連續(xù)K幀，使用3D卷積和3D池化進(jìn)一步提取時空信息。網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

連續(xù)K幀得到的行為立方體可以類比單幀得到的檢測框，后面經(jīng)過相同的貪心連接算法，唯一不同的地方在于計算兩個行為立方體的重疊度，兩個行為立方體的重疊度定義為連續(xù)K幀重疊度的平均值。

由于使用了連續(xù)幀作為輸入，每一幀都會包含于多個行為立方體中。對于每一幀，使用多個關(guān)聯(lián)的行為立方體中對應(yīng)幀檢測框的平均值作為當(dāng)前幀的檢測框，這種處理能得到更加平滑的行為管道。由于本文的連續(xù)幀輸入已經(jīng)得到了較準(zhǔn)確的檢測框信息，因此通過算法的初始化和中間的處理已經(jīng)能很好地檢測行為的開始和結(jié)束，1.2節(jié)中算法的第5步不需要執(zhí)行。

KALOGEITON V等通過實驗論證了對于連續(xù)幀輸入當(dāng)K=6時能更好地表示人體行為的特征[10]，本文中，使用K=6幀作為輸入，而且使用重疊的輸入，即連續(xù)兩次的輸入有K-1幀是重疊的，這樣進(jìn)一步使用時序信息。分類使用softmax損失，邊框回歸使用Smooth-L1損失。光流的邊框回歸損失不計入總損失，誤差反向傳播時將空間流的邊框回歸損失傳入光流網(wǎng)絡(luò)。

3 實驗結(jié)果對比分析

為了對本文提出的方法進(jìn)行有效評估，在公共基準(zhǔn)數(shù)據(jù)集J-HMDB-21和UCF101-24上進(jìn)行對比實驗。UCF101-24是UCF101子集，包含24類行為，視頻未經(jīng)修剪，每個視頻都有明確的時空標(biāo)注。J-HMDB-21是J-HMDB的子集，包含21個行為類別，928段視頻，每一個視頻都只包含一個按行為發(fā)生時間修剪好的行為實例。

下面針對本文提出的方法在不同的數(shù)據(jù)集上分別進(jìn)行試驗。評價指標(biāo)為不同重疊度閾值(0.2，0.5，0.75，0.5:0.95)下視頻等級mAP的值，其中0.5:0.95表示此范圍內(nèi)以0.05為等差計算出來的重疊度對應(yīng)的視頻等級mAP的平均值。

3.1 關(guān)鍵幀檢測

本文算法使用連續(xù)6幀作為輸入，對于每一幀都進(jìn)行邊框回歸，但是6幀作為一個整體進(jìn)行分類，如圖2所示。從圖中可以看出，相對于單幀輸入使用連續(xù)幀能更好地提取視頻的時序信息，從而實現(xiàn)更精確的分類。同時隨著視頻幀的推移，人體的動作在變，檢測框的位置和形狀也能適應(yīng)性地跟著變化，這都反映出本文算法在幀等級有很好的表現(xiàn)。

圖2 連續(xù)幀輸入

3.2 視頻等級mAP平均值對比

表1和表2分別列出不同重疊度閾值(0.2，0.5，0.75，0.5:0.95)下的視頻等級mAP，其中表1是在J-HMDB -21(all splits)數(shù)據(jù)集上本文算法與ROAD的視頻等級mAP值對比，表2是在UCF101-24(split 1)數(shù)據(jù)集上本文算法與ROAD的視頻等級mAP值對比。

表1 J-HMDB-21視頻等級mAP結(jié)果對比

表2 UCF101-24視頻等級mAP結(jié)果對比

從表1和表2中可以看出本文算法相對于ROAD[7]在不同數(shù)據(jù)集上準(zhǔn)確率都有明顯提升，特別是在重疊度閾值比較低的時候，準(zhǔn)確度提升更明顯。這說明時空流的融合及連續(xù)幀輸入的確能更好地提取視頻的時序信息，從而更好地表示視頻，這也驗證了本文方法的有效性。

試驗均在Linux14.04操作系統(tǒng)、CPU(16核，3.0 GHz)、GPU GTX TITAN X(顯存12 GB)上使用caffe完成。連續(xù)幀輸入算法的運行速度達(dá)到25～30幀每秒，滿足在線實時系統(tǒng)的要求。

4 結(jié)束語

本文基于SINGH G等提出的實時在線人體行為檢測算法，對網(wǎng)絡(luò)結(jié)構(gòu)和輸入進(jìn)行了改進(jìn)。首先進(jìn)行時空流的融合，充分利用視頻時序信息；其次使用連續(xù)幀作為輸入，進(jìn)一步利用視頻的時序信息，同時在分類任務(wù)中對連續(xù)幀的特征使用3D卷積和3D池化融合時空信息。試驗表明，在保證在線實時的條件下，人體行為檢測準(zhǔn)確率提升明顯。下一步將通過研究時空流更好的融合方法以縮小模型的大小，使其能運行在嵌入式設(shè)備中，讓在線實時人體行為檢測更有意義。

[1] 徐勤軍, 吳鎮(zhèn)揚. 視頻序列中的行為識別研究進(jìn)展[J]. 電子測量與儀器學(xué)報, 2014, 28(4):343-351.

[2] 雷慶, 陳鍛生, 李紹滋. 復(fù)雜場景下的人體行為識別研究新進(jìn)展 [J]. 計算機科學(xué), 2014, 41(12):1-7.

[3] 李岳云, 許悅雷, 馬時平,等. 深度卷積神經(jīng)網(wǎng)絡(luò)的顯著性檢測[J]. 中國圖象圖形學(xué)報, 2016, 21(1):53-59.

[4] SIMONYAN K, ZISSERMAN A. Two-stream convolutional networks for action recognition in videos[C]//Advances in Neural Information Processing Systems, 2014: 568-576.

[5] Wang Limin, Xiong Yuanjun, Wang Zhe, et al. Temporal segment networks: towards good practices for deep action recognition[C]//European Conference on Computer Vision, Springer International Publishing, 2016: 20-36.

[6] Zhao Yue, Xiong Yuanjun, Wang Limin, et al. Temporal action detection with structured segment networks[C]//The IEEE International Conference on Computer Vision (ICCV), 2017:2933-2942.

[7] SINGH G, SAHA S, SAPIENZA M, et al. Online real-time multiple spatiotemporal action localisation and prediction[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 3637-3646.

[8] LIU W, AAGUELOV D, ERHAN D, et al. SSD: single shot multibox detector[C]//European Conference on Computer Vision, Springer, Cham, 2016: 21-37.

[9] FEICHTENHOFER C, PINZ A, ZISSERMAN A. Convolutional two-stream network fusion for video action recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 1933-1941.

[10] KALOGEITON V, WWINZAEPFEL P, FERRARI V, et al. Action tubelet detector for spatio-temporal action localization[C]//ICCV-IEEE International Conference on Computer Vision, 2017.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看