馬偉 高振懷
摘要:該文對(duì)相關(guān)概念進(jìn)行分析,并分別闡述卷積神經(jīng)網(wǎng)絡(luò)與布谷鳥(niǎo)搜素算法在人體行為識(shí)別中的應(yīng)用。以未剪切長(zhǎng)視頻為例,提出三維卷積與循環(huán)神經(jīng)網(wǎng)絡(luò)相結(jié)合的方式,根據(jù)識(shí)別結(jié)果可知,與前人研究相比,識(shí)別準(zhǔn)確率有顯著提升,說(shuō)明該方案科學(xué)可行,人體行為檢測(cè)變得更加實(shí)用高效。
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);布谷鳥(niǎo)搜索;人體行為
中圖分類號(hào):TP183? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2022)01-0090-02
在科技飛速發(fā)展下,高清視頻監(jiān)控產(chǎn)品陸續(xù)誕生,人體行為識(shí)別在軍事安防、智能家居與智慧城市等領(lǐng)域得到廣泛應(yīng)用。在智能終端逐漸普及下,大量短視頻產(chǎn)生,需要更加便利地檢索、分類與審核,而視頻主體便是人體行為,應(yīng)采用卷積神經(jīng)網(wǎng)絡(luò)、布谷鳥(niǎo)搜索等方式,使人體行為得到準(zhǔn)確快速地識(shí)別。
1相關(guān)概念分析
1.1人體行為識(shí)別
人體行為代表的是人類行為,主要是對(duì)環(huán)境或者其他物體產(chǎn)生的反應(yīng)。在人體行為研究中可分為整體與部分兩項(xiàng)內(nèi)容。其中局部行為包括手勢(shì)、面部表情等;而整體行為以行為、姿勢(shì)和動(dòng)作為主。因行為復(fù)雜程度不同,可將其分為手勢(shì)、姿態(tài)、表情與交互行為等。從本質(zhì)上看,人體行為識(shí)別主要對(duì)個(gè)人行為、群體行為以及人與外界環(huán)境間的行為進(jìn)行理解和分析。在靜態(tài)手勢(shì)、表情識(shí)別與人體行為等方面較為成熟,取得一定成就。
1.2卷積神經(jīng)網(wǎng)絡(luò)
1)局部連接。受生物學(xué)影響,視覺(jué)皮層的神經(jīng)元可接受局部信息。圖像像素的空間關(guān)聯(lián)與距離較近的像素有較強(qiáng)關(guān)聯(lián)性,反之則較弱。對(duì)此,神經(jīng)元單純接收自己所負(fù)責(zé)的局部感受范圍,無(wú)需感知全部像素,個(gè)別信息科由下一層信息融合起來(lái),變?yōu)槿娌季?
2)卷積原理。該原理主要體現(xiàn)在利用相同卷積核對(duì)整體圖像進(jìn)行處理,對(duì)個(gè)別特點(diǎn)與其他位置特征進(jìn)行提取,使其他位置均能利用相同的學(xué)習(xí)特點(diǎn)。通過(guò)權(quán)值共享的方式,可使特征唯獨(dú)、參數(shù)量等得到顯著降低,神經(jīng)網(wǎng)絡(luò)時(shí)空復(fù)雜度也會(huì)隨之下降。通過(guò)對(duì)圖像結(jié)構(gòu)特點(diǎn)進(jìn)行分析,依靠深層特點(diǎn)可將圖像本身含義體現(xiàn)出來(lái),卷積定義為:對(duì)R上可積的函數(shù)[f(x)]與[g(x)]的卷積[h(x)]表示為:
[h(x)=f(τ)g(x-τ)dτ]
式中,[f(x)]在[g(x)]中卷積用[f(x)]·[g(x)]表示,在定義域內(nèi)[f(x)]與[g(a-x)]乘積積分;[a]代表的是卷積函數(shù)自變量,也就是卷積所處位置。
3)多層卷積核。首個(gè)卷積層在運(yùn)行后,卷積層內(nèi)特征圖像帶有淺層特征,如線條輪廓、邊緣信息等。在圖像識(shí)別時(shí)要求采用深層特征,而淺層特點(diǎn)無(wú)法將圖像語(yǔ)義充分體現(xiàn)出來(lái)。一種卷積核只可利用相同的特征圖,要想取得更深層的特點(diǎn),便要對(duì)多層卷積的特點(diǎn)全面提取,繪制帶有眾多信息的特征圖。在圖像識(shí)別方面,從初始階段到利用像素勾勒的簡(jiǎn)單紋理曲線,最終形成圖案,變成圖像中的各個(gè)物體[1]。
1.3布谷鳥(niǎo)搜索算法
布谷鳥(niǎo)是具有代表性的巢寄生育雛行為的鳥(niǎo)類,一些布谷鳥(niǎo)自己不筑巢和產(chǎn)卵,而是偷偷將蛋產(chǎn)在其他鳥(niǎo)巢中,由宿主代為孵化與養(yǎng)育。在繁殖過(guò)程中,先要尋找育雛期與自己相近、卵顏色相似的宿主,再趁其外出時(shí)迅速將蛋產(chǎn)在宿主的巢中。為不被宿主察覺(jué),在產(chǎn)卵之前還會(huì)將宿主原本巢中的一枚或者多枚蛋拿走,使巢內(nèi)原本卵量不變。一旦寄生卵被發(fā)現(xiàn),便會(huì)被宿主移走,寄生繁殖便失敗。根據(jù)上述行為,布谷鳥(niǎo)搜索算法誕生,實(shí)現(xiàn)流程如下:一是對(duì)搜索空間、種群規(guī)模、迭代最大值等進(jìn)行設(shè)置,對(duì)鳥(niǎo)巢位置初始化,將目標(biāo)函數(shù)定義為[F(x)],其中X的取值范圍為[x1]到[xn];二是對(duì)各個(gè)鳥(niǎo)巢位置目標(biāo)函數(shù)值進(jìn)行對(duì)比,獲得最佳函數(shù)值;三是依靠萊維飛行對(duì)除最佳鳥(niǎo)巢外的剩余鳥(niǎo)巢位置進(jìn)行優(yōu)化,計(jì)算明確的目標(biāo)函數(shù)值,將其與最佳函數(shù)值對(duì)比,如若良好,則記錄最優(yōu)值;四是當(dāng)位置更新后,將隨機(jī)數(shù)與Pa對(duì)比,如若[r]值大于Pa,便可隨機(jī)更新鳥(niǎo)巢位置,否則巢位置不發(fā)生改變;五是在滿足搜索精度要求情況下,輸出最佳鳥(niǎo)巢位置[2]。
2布谷鳥(niǎo)搜索算法在人體行為識(shí)別中的應(yīng)用
2.1算法原理
在布谷鳥(niǎo)繁殖行為的啟發(fā)下,布谷鳥(niǎo)搜索算法誕生,該算法具有較強(qiáng)的智能性,先定義3種假設(shè),一是每只布谷鳥(niǎo)只產(chǎn)下一顆蛋,并隨機(jī)分布到鳥(niǎo)巢中;二是一些優(yōu)質(zhì)鳥(niǎo)巢會(huì)被保留給后代,質(zhì)量較差的鳥(niǎo)巢會(huì)被更新;三是宿主識(shí)別鳥(niǎo)蛋的概念為[Pa∈[0,1]]。鳥(niǎo)巢尋找路徑與位置變換操作公式如下:
[Xik+1=Xik+a⊕levy(λ)]
式中,[Xik]代表的是第[k]代鳥(niǎo)巢位置向量;[Xik+1]代表的是第[k+1]代鳥(niǎo)巢位置向量;[⊕]代表的是點(diǎn)與點(diǎn)間的運(yùn)算;[Levy(λ)]代表的是鳥(niǎo)飛行路徑;[a]代表的是調(diào)節(jié)因子。
在CS算法運(yùn)行中,許多鳥(niǎo)巢利用隨機(jī)更新形式,使鳥(niǎo)巢周圍區(qū)域的關(guān)鍵信息得到充分利用,并采取選擇性淘汰策略。在CS算法基礎(chǔ)上,全局搜索能力增強(qiáng),但局部搜索能力較弱,可利用淘汰策略進(jìn)行計(jì)算,如下:
[Xki,newnest=Xki,pnest+c×(Xki,pnest-Xki)]
式中,[Xki,newnest]、[Xki,pnest]與[Xki,pnest]均為不同時(shí)段鳥(niǎo)巢位置。
2.2識(shí)別平臺(tái)搭建
為探究CS-RVM行為識(shí)別模型的可行性,利用Win 8電腦、Matlab軟件開(kāi)展識(shí)別實(shí)驗(yàn),隨機(jī)選擇10個(gè)人,要求他們演示各種行為,獲得300個(gè)樣本訓(xùn)練集與200個(gè)測(cè)試樣集,每人做6種不同行為。在實(shí)驗(yàn)條件不變情況下,采用不同模型進(jìn)行對(duì)照實(shí)驗(yàn)。一是利用布谷鳥(niǎo)算法對(duì)向量機(jī)核特征進(jìn)行優(yōu)化,參數(shù)設(shè)定為1.75,模型編號(hào)為1號(hào);二是特征參數(shù)為64個(gè),用布谷鳥(niǎo)算法進(jìn)行向量機(jī)核參數(shù)優(yōu)化,模型編號(hào)為2號(hào);三是布谷鳥(niǎo)算法分別對(duì)特征與參數(shù)進(jìn)行優(yōu)化,且忽視二者間的聯(lián)系,模型編號(hào)為3號(hào)[3]。
2.3人體行為識(shí)別
通過(guò)離散傅里葉變換特點(diǎn),對(duì)人體行為特征進(jìn)行提取,對(duì)其歸一化處理后,再對(duì)相關(guān)向量函數(shù)參數(shù)[σ]的取值范圍;起初鳥(niǎo)巢位置向量由人體行為與[σ]表示;采用以下公式對(duì)鳥(niǎo)巢位置的適應(yīng)度進(jìn)行計(jì)算,公式為:
[f=ω×precison+(1-ω)(i=1Nfi)-1]
式中,[fi]代表的是特征狀態(tài);[ω]代表的是權(quán)值。針對(duì)一些質(zhì)量較低的鳥(niǎo)巢向量?jī)?yōu)化處理,由此形成新的鳥(niǎo)巢位置。在滿足算法結(jié)束條件后,由最佳鳥(niǎo)巢向量可獲得人體行為集合,在此基礎(chǔ)上創(chuàng)建人體行為識(shí)別模型。在布谷鳥(niǎo)算法應(yīng)用下,創(chuàng)建行為識(shí)別模型的運(yùn)行流程如下:先是離散傅里葉變換,對(duì)行為特征進(jìn)行提取后歸一化處理,訓(xùn)練樣本集合,將訓(xùn)練集簡(jiǎn)化后估計(jì)適應(yīng)度,判斷是否滿足算法結(jié)束要求,若滿足則創(chuàng)建行為識(shí)別模型;若未滿足,則對(duì)個(gè)別質(zhì)量較差的鳥(niǎo)巢位置更新處理,將鳥(niǎo)巢位置分為向量機(jī)核參數(shù)與特征子集,對(duì)前者估計(jì)適應(yīng)度值,對(duì)后者簡(jiǎn)化訓(xùn)練集,然后判斷是否滿足算法結(jié)束要求,若滿足,則創(chuàng)建行為識(shí)別模型,若不滿足則重復(fù)上述操作,直至與算法結(jié)束條件相符。
2.4識(shí)別結(jié)果
針對(duì)上述三個(gè)模型分別開(kāi)展10次方針實(shí)驗(yàn),對(duì)平均值進(jìn)行統(tǒng)計(jì),獲得以下識(shí)別結(jié)果。
1)與1號(hào)和2號(hào)相比,3號(hào)行為識(shí)別準(zhǔn)確率更高,可有效降低行為識(shí)別錯(cuò)誤率,意味著1號(hào)與2號(hào)單純對(duì)行為識(shí)別影響因素進(jìn)行分析,在識(shí)別準(zhǔn)確性方面難以滿足相關(guān)要求[4];
2)與3號(hào)相比,CS-RVM能夠取得理想的行為識(shí)別結(jié)果,但二者間互為獨(dú)立,沒(méi)有深入分析與參數(shù)間的關(guān)系,無(wú)法確保二者均達(dá)到最佳狀態(tài),CS-RVM模型能夠?qū)Χ唛g的關(guān)系充分考慮,使行為識(shí)別準(zhǔn)確率得到極大提升。在應(yīng)用期間,一些行為實(shí)時(shí)性要求較高,如智能監(jiān)控等,要對(duì)人體各種行為模型的識(shí)別用時(shí)均值進(jìn)行分析,以“走”“跑”“蹲”“坐”和“彎腰”為例,對(duì)四種模型的識(shí)別時(shí)間進(jìn)行對(duì)比。1號(hào)模型中“走”識(shí)別用時(shí)為0.461s,“跑”識(shí)別時(shí)間0.410s,“蹲”識(shí)別用時(shí)0.425s,“坐”用時(shí)0.405s,“彎腰”用時(shí)0.421s;2號(hào)模型中“走”識(shí)別用時(shí)為0.421s,“跑”識(shí)別時(shí)間0.406s,“蹲”識(shí)別用時(shí)0.415s,“坐”用時(shí)0.403s,“彎腰”用時(shí)0.414s;3號(hào)模型中“走”識(shí)別用時(shí)為0.495s,“跑”識(shí)別時(shí)間0.484s,“蹲”識(shí)別用時(shí)0.436s,“坐”用時(shí)0.403s,“彎腰”用時(shí)0.425s;CS-RVM模型中“走”識(shí)別用時(shí)為0.359s,“跑”識(shí)別時(shí)間0.396s,“蹲”識(shí)別用時(shí)0.374s,“坐”用時(shí)0.375s,“彎腰”用時(shí)0.385s。
3卷積神經(jīng)網(wǎng)絡(luò)的人體行為識(shí)別實(shí)驗(yàn)分析
3.1數(shù)據(jù)采集
本文選擇25人在4個(gè)場(chǎng)景中完成24類動(dòng)作,共采集2395個(gè)樣品,且尺度、衣著與光照存在不同變化,但背景相對(duì)靜止,使用同一臺(tái)相機(jī)拍攝,識(shí)別較為簡(jiǎn)單。食品已經(jīng)按照行為發(fā)生時(shí)間剪切完畢,并對(duì)空間場(chǎng)景進(jìn)行標(biāo)注。在數(shù)據(jù)及中包括兩項(xiàng)目標(biāo),一個(gè)是行為識(shí)別,另一個(gè)是時(shí)序檢測(cè)。在時(shí)序檢測(cè)中共有20類動(dòng)作沒(méi)有剪切視頻,采用片段形式標(biāo)注,此類樣本可用于創(chuàng)建測(cè)試時(shí)序行為的檢驗(yàn)?zāi)P?。在本文研究中,時(shí)序檢測(cè)中的驗(yàn)證集當(dāng)作訓(xùn)練數(shù)據(jù),對(duì)未剪切的場(chǎng)視頻進(jìn)行性能測(cè)試。
3.2網(wǎng)絡(luò)訓(xùn)練
為將本文構(gòu)建的模型與其他模型對(duì)比,利用數(shù)據(jù)集的時(shí)序行為對(duì)子集進(jìn)行實(shí)驗(yàn)檢驗(yàn),對(duì)該子集中的時(shí)序行為片段標(biāo)注出來(lái),帶有200個(gè)驗(yàn)證視頻與230個(gè)測(cè)試視頻。根據(jù)相關(guān)規(guī)定,利用驗(yàn)證集進(jìn)行數(shù)據(jù)訓(xùn)練,再利用5個(gè)交叉驗(yàn)證法對(duì)超參數(shù)進(jìn)行優(yōu)化。在Sports M數(shù)據(jù)集基礎(chǔ)上預(yù)訓(xùn)練,對(duì)網(wǎng)絡(luò)convl初始化操作后,對(duì)網(wǎng)絡(luò)后續(xù)層展開(kāi)訓(xùn)練,學(xué)習(xí)率設(shè)定為0.001。為提高網(wǎng)絡(luò)訓(xùn)練效果,還要利用循環(huán)記憶模塊對(duì)語(yǔ)義進(jìn)行約束,使其嚴(yán)格遵循設(shè)計(jì)要求完成任務(wù),對(duì)候選視頻進(jìn)行分離。在損失函數(shù)設(shè)計(jì)期間,可對(duì)不同模塊的損失函數(shù)進(jìn)行單獨(dú)設(shè)計(jì),并通過(guò)多模塊間的加權(quán)系數(shù)獲得損失函數(shù),為網(wǎng)絡(luò)端與端之間的訓(xùn)練提供科學(xué)方式。網(wǎng)絡(luò)總體是對(duì)個(gè)人行為的檢測(cè),但損失函數(shù)中帶有循環(huán)記憶P與C兩個(gè)模塊,依靠控制訓(xùn)練,可在不同階段對(duì)損失函數(shù)比重進(jìn)行明確,從而完成全部任務(wù)訓(xùn)練,由此達(dá)到語(yǔ)義約束目標(biāo)。具體措施為:針對(duì)模塊P,每實(shí)施5次批量梯度下降時(shí),約束權(quán)值便可降低50%;對(duì)于模塊C來(lái)說(shuō),每實(shí)施8.5K次批量下降,約束權(quán)值便降低50%。在性能評(píng)價(jià)方面,在人體行為檢測(cè)方面,可采用mAP指標(biāo),利用計(jì)算幀與視頻等級(jí)對(duì)時(shí)空性能進(jìn)行檢測(cè)。在應(yīng)用中先對(duì)各個(gè)類別的平均準(zhǔn)確率進(jìn)行計(jì)算,再獲得多個(gè)類別的平均數(shù)。AP是準(zhǔn)確率、召回率曲線下的面積。P-R曲線可對(duì)準(zhǔn)確率、召回率間的函數(shù)關(guān)系進(jìn)行介紹,其中前者是指真正為正例的數(shù)據(jù)比例,后者為預(yù)測(cè)為正例的數(shù)據(jù)比例,P-R曲線關(guān)鍵是對(duì)P-R進(jìn)行計(jì)算[5]。
3.4實(shí)驗(yàn)結(jié)果
網(wǎng)絡(luò)通過(guò)訓(xùn)練在驗(yàn)證集中檢驗(yàn)?zāi)P托阅?,針?duì)沒(méi)有剪切的視頻,通過(guò)可視化檢驗(yàn)結(jié)果可更加直觀地理解模型性能。隨機(jī)選出一段驗(yàn)證視頻,根據(jù)檢測(cè)結(jié)果可知,針對(duì)未剪切的長(zhǎng)視頻,其實(shí)際行為只有視頻中的一小部分,且一段視頻可能包含多種行為,但網(wǎng)絡(luò)均可將其檢測(cè)出來(lái)。根據(jù)可視化模型可知,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)可使人體行為檢驗(yàn)準(zhǔn)確率顯著提升,主要因網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)準(zhǔn)確,且接受過(guò)合理的訓(xùn)練與約束。同時(shí),網(wǎng)絡(luò)還輸出諸多類型的準(zhǔn)確率,根據(jù)本文算法可知“投籃”識(shí)別時(shí)長(zhǎng)為0.195s,“跳遠(yuǎn)”識(shí)別時(shí)長(zhǎng)為0.725s,“打臺(tái)球”識(shí)別時(shí)長(zhǎng)為0.047s,“跳水”識(shí)別時(shí)長(zhǎng)為0.278s,“打高爾夫球”識(shí)別時(shí)長(zhǎng)為0.185s。通過(guò)對(duì)不同類型準(zhǔn)確率分析可知,人體行為檢測(cè)的類型差別較為相似,個(gè)別行為的識(shí)別準(zhǔn)確率良好,如跳遠(yuǎn)等,但個(gè)別行為識(shí)別有些困難,如打臺(tái)球等。通過(guò)對(duì)視頻數(shù)據(jù)的深入分析,很容易辨別算法的類型,類間差異相對(duì)較大,類內(nèi)差異相對(duì)較小,但一些識(shí)別難度較大的類別則相反,這主要受行為的自身特點(diǎn)決定,應(yīng)區(qū)別看待。
4 結(jié)論
綜上所述,在網(wǎng)絡(luò)飛速發(fā)展下,每日產(chǎn)生的視頻量爆炸式增長(zhǎng),在視頻審核與檢驗(yàn)中,可采用卷積神經(jīng)網(wǎng)絡(luò)、布谷鳥(niǎo)搜索算法等方式進(jìn)行人體行為識(shí)別,從而快速審核視頻信息。將其應(yīng)用到未剪輯長(zhǎng)視頻中,與以往技術(shù)相比,能夠更加快速準(zhǔn)確地識(shí)別行為,使動(dòng)作識(shí)別更具實(shí)用性。同時(shí),個(gè)別行為因訓(xùn)練樣本較少,對(duì)識(shí)別精準(zhǔn)度產(chǎn)生不良影響,主要因模型訓(xùn)練不充分所致,可通過(guò)增加訓(xùn)練樣本等方式,使檢測(cè)精度進(jìn)一步提升。
參考文獻(xiàn):
[1] 劉波,易輝,薄翠梅,等.MCKD與改進(jìn)的LSSVM在滾動(dòng)軸承故障診斷中的應(yīng)用[J].電子技術(shù)應(yīng)用,2018,44(7):81-85.
[2] 賀海龍.基于卷積神經(jīng)網(wǎng)絡(luò)的人體行為識(shí)別研究[D].秦皇島:燕山大學(xué),2019.
[3] 薛路強(qiáng).基于雙流融合卷積神經(jīng)網(wǎng)絡(luò)的人體行為識(shí)別研究[D].合肥:安徽大學(xué),2018.
[4] 于清,姜佩京,王耀國(guó),等.基于卷積神經(jīng)網(wǎng)絡(luò)人體行為識(shí)別的院前急救措施研究[J].中華危重病急救醫(yī)學(xué),2020,32(11):1385-1387.
[5] 諶頏,孫道宗.基于CS優(yōu)化深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)算法[J].機(jī)床與液壓,2020,48(6):187-192.
【通聯(lián)編輯:唐一東】
收稿日期:2021-10-15
基金項(xiàng)目:寧夏大學(xué)新華學(xué)院科學(xué)研究基金項(xiàng)目(19XHKY04)
作者簡(jiǎn)介:馬偉(1982—),男(回族),寧夏固原人,副教授,碩士,主要研究方向?yàn)橛?jì)算機(jī)應(yīng)用技術(shù),計(jì)算機(jī)系統(tǒng)結(jié)構(gòu),人工智能。
3260500338278