郭晶晶 劉歡歡
摘 要:視覺特征提取與特征表達(dá)方法在圖像分類及識別中十分重要,從特征學(xué)習(xí)和特征表達(dá)角度出發(fā),提出一種基于改進(jìn)堆疊獨(dú)立子空間分析模型提取特征的行為識別算法。首先采用兩層獨(dú)立子空間神經(jīng)網(wǎng)絡(luò)構(gòu)建堆疊網(wǎng)絡(luò),在特征學(xué)習(xí)過程中融入正則化約束項(xiàng),并結(jié)合時(shí)空卷積算法,獲取視頻時(shí)空層次化不變性特征基元;然后以堆疊卷積網(wǎng)絡(luò)兩層特征基元的非線性映射獲取一種規(guī)則網(wǎng)格劃分下的視頻塊狀局部特征描述符;最后結(jié)合時(shí)空金字塔匹配模型構(gòu)建時(shí)空層次特征,采用一對多支持向量機(jī)分類方法對視頻中的動(dòng)作進(jìn)行分類。在KTH視頻數(shù)據(jù)庫中進(jìn)行實(shí)驗(yàn)。結(jié)果表明,該算法學(xué)習(xí)到的特征基元可對視頻構(gòu)建低維高效的特征描述符,與現(xiàn)有多種行為識別算法進(jìn)行對比,改進(jìn)行為識別算法有效性進(jìn)一步提高。
關(guān)鍵詞:行為識別;堆疊獨(dú)立子空間分析;時(shí)空卷積;正則化;時(shí)空金字塔
DOI:10. 11907/rjdk. 191103
中圖分類號:TP317.4 文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7800(2019)005-0192-05
Abstract: Aimed at the importance of effective feature extraction and expression method of visual features in an image classification and recognition, a behavior recognition algorithm based on improved stacking independent subspace analysis Model to extract features is proposed. First of all, this algorithm adopts two layers of independent subspace neural networks to form stacked networks. The regularized constrained items are assimilated into in the process of learning features, and the spatio-temporal hierarchical invariant feature primitives of the video are obtained by combining with spatio-temporal convolution algorithm. Then, the video block local feature descriptors are obtained by the nonlinear mapping of the two layer feature primitives of the stacked convolutional network. Finally, the spatio-temporal hierarchical feature descriptors are constructed based on the spatio-temporal pyramid matching model and the actions in the video are classified by using a one to many support vector machine classification method. Experimental results on KTH video database show that the proposed algorithm can form the feature descriptor with low dimension and efficiency, and compared with a variety of existed algorithms, the proposed algorithm is proved to have better effectiveness.
Key Words: action recognition; stacked independent subspace analysis; spatio-temporal convolution; regularization; spatio-temporal pyramid matching
0 引言
人體行為識別指從輸入視頻提取描述行為特征的信息,通過機(jī)器學(xué)習(xí)理解特征信息,并依據(jù)學(xué)習(xí)到的特征對新的視頻進(jìn)行識別[1]。隨著模式識別和機(jī)器學(xué)習(xí)的發(fā)展,包括稀疏編碼、局部感受野、視覺信息層次式處理等新思想被引入特征提取研究中[2]??傮w上,視覺特征研究經(jīng)歷了3個(gè)階段:基本視覺特征提取階段、視覺特征表達(dá)階段、視覺特征學(xué)習(xí)階段。其中,有效的特征表達(dá)可提升圖像分類與識別性能[3]。特征學(xué)習(xí)相對于基本視覺特征提取而言,在方法上具有通用性,即針對不同形式的輸入圖像,可采用同樣的網(wǎng)絡(luò)進(jìn)行特征提取,無需對問題儲備較強(qiáng)的先驗(yàn)知識,可減少人工設(shè)計(jì)特征的復(fù)雜性。因此,特征表達(dá)與特征學(xué)習(xí)具有廣泛的應(yīng)用價(jià)值,成為重點(diǎn)研究方向。
經(jīng)典特征表達(dá)方法有基于詞匯包的詞帶(BOW)模型[4]。Lazebnik[5]在此基礎(chǔ)上引入金字塔模型,提出空間金字塔匹配模型(Spatial Pyramid Matching,SPM)。常見的特征學(xué)習(xí)包括兩種結(jié)構(gòu):單層網(wǎng)絡(luò)結(jié)構(gòu)的特征學(xué)習(xí)與深度學(xué)習(xí)的特征學(xué)習(xí)[6]。單層網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)少,特征學(xué)習(xí)速度較快,且能夠取得較好的效果,最典型代表為斯坦福大學(xué)Coates等[7]描述的一層單層網(wǎng)絡(luò)學(xué)習(xí)框架,包括網(wǎng)絡(luò)訓(xùn)練階段和特征提取階段。在訓(xùn)練階段,通過單層網(wǎng)絡(luò)從圖像塊學(xué)習(xí)一個(gè)特征映射矩陣,該映射矩陣即為學(xué)習(xí)核心部分,然后對新輸入的圖像按照一定規(guī)則通過特征映射矩陣映射成一個(gè)特征向量。獨(dú)立成分分析[8](ICA)是一種可有效學(xué)習(xí)單層網(wǎng)絡(luò)映射的結(jié)構(gòu)。Hyvarinen等[9]在ICA基礎(chǔ)上提出獨(dú)立子空間分析(Independent Subspace Analysis, ISA),這是一種可以有效模擬人類視覺系統(tǒng)V1區(qū)簡單細(xì)胞與復(fù)雜細(xì)胞感受野響應(yīng)模式的層次化結(jié)構(gòu)模型。
本文從特征學(xué)習(xí)和特征表達(dá)的角度出發(fā),構(gòu)建一種堆疊獨(dú)立子空間分析網(wǎng)絡(luò)(stack Independent Subspace Analysis,SISA),該網(wǎng)絡(luò)可直接作用于原始視頻圖像,并結(jié)合時(shí)空卷積算法提取局部抽象特征,在優(yōu)化過程中引入正則化函數(shù)項(xiàng),并采用時(shí)空金字塔匹配模型對視頻圖像進(jìn)行分類,將其應(yīng)用于高維度數(shù)據(jù)可獲得較好的分類效果。
1 理論與方法
1.1 獨(dú)立子空間分析
ISA是一種從無標(biāo)簽數(shù)據(jù)集上無監(jiān)督學(xué)習(xí)獲得圖像內(nèi)部隱含嵌入信息的網(wǎng)絡(luò)結(jié)構(gòu)[10]。ISA網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
1.2 SISA神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與訓(xùn)練方法
為提高深度網(wǎng)絡(luò)性能,在ISA神經(jīng)網(wǎng)絡(luò)中引入堆疊和時(shí)空卷積思想,提取視頻特征描述符,即構(gòu)建兩層堆疊的ISA神經(jīng)網(wǎng)絡(luò),通過用一個(gè)時(shí)空卷積核在多個(gè)連續(xù)視頻幀中進(jìn)行時(shí)空卷積獲取運(yùn)動(dòng)信息。僅提取一種特征不足以分類,因此從原始視頻塊的時(shí)域和空域中分別選擇不同的特征組合進(jìn)行卷積,從而獲得不同的時(shí)空特征。該算法提取的特征具有平移不變性,且對于輕度變形不敏感。
在本文實(shí)驗(yàn)中,SISA神經(jīng)網(wǎng)絡(luò)隱含層共有兩層ISA網(wǎng)絡(luò),第一層為卷積層,SISA神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,其訓(xùn)練步驟為:
步驟1:選取大量視頻圖像對視頻進(jìn)行采樣,分塊大小為[16×16×10],將經(jīng)過PCA降維、白化后的輸出作為輸入,訓(xùn)練單層ISA神經(jīng)網(wǎng)絡(luò)獲得特征基元。
步驟2:把步驟1得到的特征基元作為ISA1卷積神經(jīng)網(wǎng)絡(luò)卷積核,對原視頻重新采樣,分塊大小為[20×20×14],將采樣得到的視頻塊作為輸入,通過不同組合的卷積映射得到對應(yīng)輸出響應(yīng)。
步驟3:把步驟2得到的輸入響應(yīng)作為ISA2網(wǎng)絡(luò)的輸入,訓(xùn)練ISA2網(wǎng)絡(luò)獲得特征基元。
步驟 4:獲取SISA的特征基元之后,把視頻塊以不同的輸入組合分別帶入式(3)中,計(jì)算ISA1基元響應(yīng)P1,將P1再次帶入式(3)中,計(jì)算 ISA2基元響應(yīng)P2,把兩層網(wǎng)絡(luò)得到的基元響應(yīng)經(jīng)過PCA降維,作為視頻塊特征描述子,用于后續(xù)分類任務(wù)。
2 算法設(shè)計(jì)
2.1 正則化批量投影特征學(xué)習(xí)算法
在SISA神經(jīng)網(wǎng)絡(luò)基元特征訓(xùn)練過程中,一般情況下通過梯度下降的優(yōu)化算法學(xué)習(xí)特征基元,由于視頻數(shù)據(jù)特征量較大,在尋找目標(biāo)函數(shù)極小值時(shí),學(xué)習(xí)得到的特征基元大小不一,導(dǎo)致該優(yōu)化算法泛化能力較差(對未知數(shù)據(jù)的預(yù)測能力降低)[14]。因此本文對目標(biāo)函數(shù)增加一個(gè)L2正則項(xiàng),防止數(shù)據(jù)在迭代過程中造成過擬合現(xiàn)象,使整個(gè)網(wǎng)絡(luò)可學(xué)習(xí)到一個(gè)更好的權(quán)值矩陣,增強(qiáng)泛化能力。
按照金字塔劃分方法對視頻進(jìn)行劃分,得到不同的層,第一層有1個(gè)子部分,第二層僅從時(shí)間維度上劃分,得到2個(gè)子部分,第三層、第四層分別從時(shí)間和空間維度上劃分,各自得到4個(gè)子部分和8個(gè)子部分。圖3中的金字塔為4層,對每個(gè)子部分在SISA神經(jīng)網(wǎng)絡(luò)中的特征描述符構(gòu)造一個(gè)K維詞頻直方圖,在金字塔級數(shù)為L的模型中,統(tǒng)計(jì)所有視頻詞匯在金字塔級別下所有子部分的直方圖,最后結(jié)合所有子部分直方圖生成特征向量維數(shù)為[D=(2L-1)K],該向量為輸入視頻的STPM表達(dá)。
提取訓(xùn)練樣本在SISA神經(jīng)網(wǎng)絡(luò)局部特征描述符,通過K-means聚類的方法計(jì)算得到字典,對新輸入的視頻進(jìn)行STPM表達(dá),用于后續(xù)分類任務(wù)。該匹配模型可與支持向量機(jī)判決算法很好地結(jié)合,完成不同動(dòng)作的分類。
3 仿真實(shí)驗(yàn)與結(jié)果分析
3.1 測試數(shù)據(jù)集
為驗(yàn)證本文算法的有效性,采用KTH視頻數(shù)據(jù)庫對本文模型進(jìn)行仿真試驗(yàn)。KTH數(shù)據(jù)集共有600個(gè)視頻片段,在4種不同場景下采集25個(gè)人的6種不同行為,每種行為重復(fù)若干次,圖4給出了KTH視頻庫6類行為,分別為拳擊(box)、拍手(clap)、揮手(wave)、慢跑(jog)、跑(run)、走(walk)。
3.2 特征學(xué)習(xí)與分析
本實(shí)驗(yàn)基于Matlab平臺實(shí)現(xiàn),如圖5、圖6為梯度下降特征學(xué)習(xí)算法和本文提出的正則化批量投影特征學(xué)習(xí)算法在KTH數(shù)據(jù)集上經(jīng)過300次迭代之后學(xué)習(xí)出的權(quán)值(即大小為[300×2560]的矩陣[W]),選出權(quán)值的前12行,并將每行轉(zhuǎn)換成圖像塊進(jìn)行顯示,這些圖像塊是將原始視頻塊的像素塊映射到隱含層的一個(gè)節(jié)點(diǎn)。圖中每個(gè)小塊大小為[16×16]。將梯度下降(Gradient Descent)特征學(xué)習(xí)算法簡寫為GD特征學(xué)習(xí)算法[20],將基于正則化(Regularization)的優(yōu)化學(xué)習(xí)算法簡寫為RGD優(yōu)化學(xué)習(xí)算法。從圖中看出,本文優(yōu)化算法較原算法能夠更好地學(xué)習(xí)出視頻塊局部、邊緣及方向性特征。
比較兩種特征學(xué)習(xí)算法在SISA神經(jīng)網(wǎng)絡(luò)下的識別效果,在特征表達(dá)階段采用經(jīng)典BOW模型構(gòu)建詞頻直方圖,并結(jié)合SVM分類器對視頻進(jìn)行分類。兩種優(yōu)化算法迭代次數(shù)均為300次,結(jié)果如表1所示。
由表1可知,在設(shè)置迭代次數(shù)相同的情況下對SISA網(wǎng)絡(luò)進(jìn)行訓(xùn)練,本文提出的優(yōu)化算法高于梯度下降算法約兩個(gè)百分點(diǎn)??傮w上看,由于迭代次數(shù)影響,該算法沒有達(dá)到很高的識別準(zhǔn)確率要求。
3.3 測試結(jié)果分析
本文基于正則化批量投影特征學(xué)習(xí)算法訓(xùn)練SISA神經(jīng)網(wǎng)絡(luò),獲取訓(xùn)練視頻特征描述符,采用經(jīng)典BOW模型和本文設(shè)計(jì)的STPM,在不同字典數(shù)下對測試視頻進(jìn)行特征表達(dá),比較平均準(zhǔn)確率。兩種特征表達(dá)算法均采用Average Pooling的方法構(gòu)建視頻詞頻直方圖,結(jié)合SVM分類器對視頻進(jìn)行分類,統(tǒng)計(jì)不同字典維數(shù)上兩種特征表達(dá)算法平均識別準(zhǔn)確率,如圖7所示。
圖7的兩條曲線分別表示STPM特征表達(dá)算法和經(jīng)典BOW模型在不同字典數(shù)目下的識別準(zhǔn)確率,從平均識別準(zhǔn)確率隨字典變化的情況看,兩種算法隨字典數(shù)目的增加識別率均有提高,本文算法在字典維數(shù)為3 000時(shí)效果最佳,平均識別率高于BOW模型特征表達(dá)算法最優(yōu)效果。
為了更進(jìn)一步說明本文算法對視頻中行為識別的有效性,利用本文算法在KTH數(shù)據(jù)庫進(jìn)行仿真實(shí)驗(yàn),將其結(jié)果和其它識別方法在KTH數(shù)據(jù)庫的實(shí)驗(yàn)結(jié)果進(jìn)行對比,如圖8所示,分別列出Harris3D+HOG特征[22]、3DCNN[23]和本文算法在KTH數(shù)據(jù)庫的6種動(dòng)作識別率,本文算法對拳擊、揮手、跑3個(gè)動(dòng)作的識別率明顯高于其它兩種算法,拍手、走兩個(gè)動(dòng)作識別率略低或持平于其它兩種算法,由此說明本文方法能夠準(zhǔn)確把握視頻中動(dòng)作基本成份,給出有效的場景編碼表達(dá)。
表2展示了本文算法和現(xiàn)有行為識別算法在KTH數(shù)據(jù)集上的平均識別率。由于文獻(xiàn)[21]在特征學(xué)習(xí)過程中,對特征基元沒有約束性限制,使得代過程中泛化能力較差,降低了分類準(zhǔn)確率。文獻(xiàn)[21]在對視頻進(jìn)行表達(dá)時(shí),針對一個(gè)整體視頻進(jìn)行量化,而本文算法對視頻進(jìn)行金字塔劃分,然后對劃分的金字塔子區(qū)域進(jìn)行量化,因此總體上較原算法提高了最終分類效果。從表2可以看出本文算法在識別精度上超越了部分現(xiàn)有算法,說明本文算法在動(dòng)作識別方面的有效性。
4 結(jié)語
本文結(jié)合SISA網(wǎng)絡(luò)和時(shí)空卷積,并在特征學(xué)習(xí)中引入正則化約束項(xiàng)學(xué)習(xí)層次結(jié)構(gòu)化的特征基元,該算法在保證稀疏特征學(xué)習(xí)的同時(shí)對基元矩陣進(jìn)行約束,增強(qiáng)了算法泛化能力;然后以層次特征基元的非線性映射獲取局部特征描述符,解決了特征自動(dòng)選擇和高層特征提取的難題,構(gòu)造了低維高效的特征描述子;最后在特征表達(dá)階段,采用平均池的時(shí)空金字塔匹配模型對視頻進(jìn)行多尺度劃分提高分類效果。
本文網(wǎng)絡(luò)模型可自動(dòng)化和層次化提取、選擇特征,高層次不同類別之間共享低層次特征,使高層次特征比低層次特征具有更高的全局性與不變性。如何實(shí)現(xiàn)合理的網(wǎng)絡(luò)框架、高效的特征學(xué)習(xí)算法和有效的特征表達(dá)算法是下一步研究重點(diǎn)。
參考文獻(xiàn):
[1] 朱煜,趙江坤,王逸寧,等. 基于深度學(xué)習(xí)的人體行為識別算法綜述[J]. 自動(dòng)化學(xué)報(bào),2016, 42(6):848-857.
[2] 張盛博,劉娜,霍宏,等. 基于層次形狀特征提取模型的圖像分類[J]. 高技術(shù)通訊,2016,26(1):81-88.
[3] 李欽,游雄,李科,等. 圖像深度層次特征提取算法[J]. 模式識別與人工智能,2017,30(2):127-136.
[4] LI F F, PERONA P. A Bayesian hierarchical model for learning natural scene categories[C]. Proceedings of the IEEE Computer Society, 2005:524-531.
[5] LAZEBNIK S, SCHMID C, PONCE J. Beyond bags of features: spatial pyramid matching for recognizing natural scene categories[J]. IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2006, 2:2169-2178.
[6] 李寰宇,畢篤彥,楊源,等. 基于深度特征表達(dá)與學(xué)習(xí)的視覺跟蹤算法研究[J]. 電子與信息學(xué)報(bào), 2015, 37(9):2033-2039.
[7] COATES A, LEE H, NG A Y. An analysis of single-layer networks in unsupervised feature learning[C]. Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics, 2011: 215-223.
[8] HYVARINEN A,OJA E. Independent component analysis:algorithms and applications.[J]. Neural Networks,2000,13(4-5):411-430.
[9] HYVARINEN A, HOYER P. Emergence of phase and shift invariant features by decomposition of natural images into independent feature subspaces[J]. Neural Computation, 2000, 12(7): 1705-1720.
[10] 鐘忺,王燦,鐘珞. 一種圖像場景的獨(dú)立子空間ISA分類方法[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2018, 39(7):205-210.
[11] 仿射不變子空間特征及其在圖像匹配中的應(yīng)用[J]. 紅外與激光工程, 2014, 43(2):659-664.
[12] LEE H, GROSSE R, RANGANATH R, et al. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations[C]. Proceedings of the 26th Annual International Conference on Machine Learning. 2009: 609-616.
[13] LE Q V,NGIAM J,CHEN Z, et al .Tiled convolution neural networks[C]. Workshop on Neural Information Processing Systems, 2010:1279-1287.
[14] RANZATO M,HUANG F J,BOUREAU Y L,et al. Unsupervised learning of invariant feature hierarchies with applications to object recognition[C]. Computer Vision and Pattern Recognition Conference,2007:1-8.
[15] 孫艷豐,張坤,胡永利. 基于深度視頻的人體行為特征表示與識別[J]. 北京工業(yè)大學(xué)學(xué)報(bào),2016, 42(7):1001-1008.
[16] 程海粟,李慶武,仇春春,等. 基于改進(jìn)密集軌跡的人體行為識別算法[J]. 計(jì)算機(jī)工程,2016, 42(8):199-205.
[17] YANG J C,YU K,GONG Y, et al. Linear spatial pyramid matching using sparse coding for image classification[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2009: 1794-1801.
[18] WANG H,ULLAH M M,KLASER A, et al. Evaluation of local spatio-temporal features for action recognition[C]. London:British Machine Vision Conference, 2009.
[19] 趙曉麗,田麗華,李晨. 基于稀疏編碼局部時(shí)空描述子的動(dòng)作識別方法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2018(7):29-35.
[20] 王功鵬, 段萌,牛常勇. 基于卷積神經(jīng)網(wǎng)絡(luò)的隨機(jī)梯度下降算法[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2018, 39(2):441-445+462.
[21] LE Q V,ZOU W Y,et al. Learning hierarchical invariant spatial-temporal feature for action recognition with independent subspace analysis[C]. Computer Vision and Pattern Recognition,2011,42: 3361-3368.
[22] LAPTEV I,MARSZALEK M, SCHMID C,et al. Learning realistic human actions from movies[C]. Computer Vision and Pattern Recognition, 2008:1-8.
[23] JI S, YANG M, YU K. 3D convolution neural networks for human action recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(1):221-231.
[24] WANG J, CHEN Z Y, WU Y. Action recognition with multiscale spatio-temporal contexts[C]. IEEE Computer Society Conference on Computer Vision and Patter recognition.,2011,32(14): 3185-3192.
(責(zé)任編輯:江 艷)