王瀟齊 劉銘原 孫宜帆 崔鈺涵
摘 要:針對機器人視覺領域中的人體行為識別存在的行為識別正確率低的問題,提出一種基于改進稠密軌與 Fisher向量編碼的人體行為識別方法。首先利用改進稠密軌對視頻中的人體行為特征進行提取,再計算速度特征及方向角,最后基于Fisher向量編碼對不同的人體行為軌跡特征進行量化和識別。通過對比實驗證明,該方法與傳統(tǒng)人體行為識別方法相比,大幅提高了正確識別的目標數(shù)量,可有效抑制外界環(huán)境因素對識別結果造成的影響。
關鍵詞:改進稠密軌;Fisher向量編碼;人體行為識別;特征提取;量化;稠密光流
中圖分類號:TP393;P407.8文獻標識碼:A文章編號:2095-1302(2020)09-00-03
0 引 言
人體行為識別是計算機視覺領域中一項十分重要的內(nèi)容,被廣泛運用在安全防盜、人機交互、視頻分析等領域中?;ヂ?lián)網(wǎng)技術、移動終端設備技術的快速發(fā)展使得人體行為識別在豐富人們?nèi)粘I畹耐瑫r也為人們提供了安全保障[1]。人體行為識別通常是由行為特征的提取和特征量化、分類等部分組成。與傳統(tǒng)的二維圖像對靜止物體進行識別不同,人體行為識別的研究內(nèi)容更加注重如何獲取被識別目標對象在連續(xù)視頻幀當中時空運動上的變化情況。目前現(xiàn)有的局部提取特征的人體行為識別方法存在一定誤差,主要原因在于人體在運動過程中的復雜性,以及拍攝視頻的設備抖動、視頻分辨率低等外界因素的影響[2]。對此本文提出一種基于改進稠密軌與Fisher向量編碼的人體行為識別方法。軌跡是人體行為識別中最常見的時空特征,用于描述同一特征點在某一段時間當中的變化情況。Fisher向量是同一人體行為中不同方向上的分布軌跡特征差異。
1 基于改進稠密軌與Fisher向量編碼的人體行為識別方法
1.1 基于改進稠密軌的人體行為特征提取
采用改進稠密軌道提取的方法對人體行為特征信息進行提取,具體步驟:在源視頻播放過程中,對視頻中的每幀進行隨機樣本提取,再通過稠密光流場對人體行為的位移信息采樣點進行跟蹤[3]。通常情況下,稠密軌跡提取分為稠密采樣、采樣點過濾、稠密光流提取以及特征點跟蹤。
稠密采樣的目的在于確保人體行為特征點在空間及尺度上符合稠密覆蓋,對源視頻的每幀圖像按照一定比例進行降尺度處理和等間隔采樣,從而獲取對應的稠密采樣點。采樣點過濾操作的目的在于篩選出具有顯著特征的采樣點,從而進一步降低后續(xù)采樣點跟蹤時的計算難度,采用人體行為特征準則對采集的樣本點進行過濾[4]。首先計算出采樣點的自相關矩陣和矩陣對應的特征數(shù)值,再比較出最小的特征值與事先預設的閾值之間的關系,其表達式如下:
式中:A表示自相關矩陣;T表示設定的閾值;I表示采集的某一特征點;(γ1, γ2)表示特征點I的特征值。通過上述公式計算得出的最小特征值大于閾值,則說明該采樣點為顯著特征采樣點,可保留用于后續(xù)追蹤;反之,最小特征值小于閾值,則說明該采樣點不具備顯著特征采樣點的要求,應過濾。
根據(jù)稠密光流的計算方法,對每個運動視頻進行提取稠密光流處理,利用多項式擴展建立源視頻幀圖像間的運動函數(shù),再將相應參數(shù)添加到函數(shù)中計算軌跡點的運動位移,其中多項式擴展的表達式如下:
式中:y(d)表示視頻第i幀圖像上某一像素點的鄰域像素值;d表示某一像素點;Pi表示對稱矩陣;Mi表示向量;Ni表示標量。通過視頻中人體行為的不斷位移變化,可依次獲取第i+1幀圖像對應的多項式,若Pi為非奇異矩陣,則根據(jù)二次多項式系數(shù)相同的原則,求解相應的位移變化量。重復上述計算,得到源視頻中所有人體行為變化對應的像素點的稠密光流。
特征點的跟蹤可看作是一個特征點連續(xù)配對的過程,在已知特征點坐標的情況下,利用本文上述計算方法提取稠密光流,再計算該點在源視頻中后續(xù)相應幀的位置,完成對特征點的跟蹤[5]。在跟蹤過程中可適當添加中值濾波器,用于對邊界處的軌跡特征點進行跟蹤,從而使其不被重新配對。當完成本文上述的所有環(huán)節(jié)后,得到一個完整的軌跡點。再將其平滑曲線串聯(lián),得到一條具有一定長度的軌跡[6]。在實際計算過程中會出現(xiàn)軌跡點偏離初始位置的問題,因此在形成軌跡前,還需設定一個位置偏移的取值范圍,當出現(xiàn)軌跡點跳變時,排除該軌跡上的所有已經(jīng)獲取的軌跡點,并重新對特征點進行跟蹤。
1.2 速度特征及方向角計算
在獲取了軌跡點坐標的基礎上,計算人體行為的速度特征及方向角,之后對每條特征軌跡進行運動方向變化的Fisher向量編碼,并將歸一化處理后的碼字頻數(shù)生成為對應的軌跡運動方向變化圖,最終將速度特征與軌跡運動方向變化圖組合得到軌跡形狀特征,流程如圖1所示。
由于正切函數(shù)在區(qū)間內(nèi)單調(diào)遞增,因此通過斜率的計算可以求出軌跡點瞬時運動的方向和相應的夾角。
1.3 基于Fisher向量編碼的不同行為軌跡特征量化
通過對源視頻中跑、慢跑、走、彎腰、原地縱跳等多種不同人體運動行為軌跡分析得出,同一種人體行為在不同方向上的運動軌跡具有不同的凹凸性,且稠密軌跡也存在較大的區(qū)別[7]。其中,在人走和跑的過程中,稠密軌跡主要沿著與地面水平的方向運動,其軌跡在水平方向上的變化與在其他方向上的變化更加明顯;而當人在彎腰和原地縱跳的過程中,稠密軌跡主要沿著垂直于地面的方向運動,其在垂直地面方向上的變化與在其他方向上的變化相比更加明顯[8]。因此,在對人體各行為的凹凸性進行識別時,需要將時空當中的軌跡投影到垂直于地面和平行于地面的兩個平面上,再分別計算各平面上軌跡的特征,由此得到在不同方向平面上的軌跡運動信息,使得到的軌跡形狀特征更具有判別性[9]。同時為了保證在處理過程中盡可能降低人體行為特征信息的丟失,基于Fisher向量編碼對不同行為軌跡特征進行量化。具體量化步驟如下:
(1)對訓練樣本集中的多個不同的源視頻分別提取稠密軌跡,并生成對應數(shù)量的軌跡;
(2)將時間與空間中的軌跡分別投影到垂直于地面和平行于地面的平面中,得到兩個方向上的平面軌跡,再分別計算出各方向上的軌跡特征;
(3)沿多條軌跡搜索,并重復步驟(2),獲得在不同方向上的軌跡特征集合;
(4)判斷軌跡特征集合是否符合高斯分布,若符合則可建立由高斯單元線性組合成的高斯混合模型,之后再根據(jù)高斯混合參數(shù)計算得出對應的參數(shù)集,若不符合則重復步驟(3);
(5)根據(jù)參數(shù)集生成源視頻中在兩個方向上的軌跡Fisher向量;
(6)將步驟(5)的向量聯(lián)合起來得到源視頻中對應的復合向量,再對Fisher向量進行編碼,完成對軌跡特征的量化和編碼。
本文選用Fisher向量編碼的形式對源視頻中人體行為的運動趨勢進行識別。將上文得到的軌跡點在某一時刻的前后運動方向看作一個整體,通過比較運動方向角之間的大小關系得出在該時刻源視頻中人體行為的運動方向變化情況,并用Fisher向量編碼表示[10]。本文Fisher向量編碼的規(guī)則見表1所列。
表1中:αt表示某一時刻t的運動方向夾角;αt-1表示時刻t的前一時刻運動方向夾角;αt+1表示時刻t后一時刻的運動方向夾角。根據(jù)表1可知,F(xiàn)isher向量編碼由2位二進制碼字組成。其中第1位編碼代表某一時刻t與其前一時刻的運動方向角之間的大小比較結果;第2位編碼代表某一時刻t與后一時刻的運動方向角之間的大小比較結果。因此,F(xiàn)isher向量編碼共有00,01,10,11四種不同的編碼結果,根據(jù)編碼對應的人體行為完成對源視頻中人體行為的識別。
2 實驗論證分析
2.1 實驗準備及過程
本文對比實驗將BNC B20 6400K作為實驗硬件平臺,其主頻為4.8 GHz。實驗軟件平臺為Windows 2019。在實驗平臺中添加兩組5個源視頻組成完全相同的視頻集,視頻集中的數(shù)據(jù)分別為數(shù)據(jù)集上慢跑、跑、走和縱向跳躍,四種運動軌跡差異較大的行為多次出現(xiàn)在視頻中,并將其作為實驗對象。其中5個源視頻選用傳統(tǒng)人體行為識別方法,并將其設置為對照組;另外5個源視頻選用本文提出的基于改進稠密軌與Fisher向量編碼的人體行為識別方法,并將其設置為實驗組。同時,設置實驗組在稠密采樣過程中的降尺度比例為1/4,尺度數(shù)為16,各層圖像中的稠密采樣間隔為4;在軌跡跟蹤過程中,每幀間的位移不超過2像素或剔除掉超過15像素的軌跡。為了保證實驗結果的客觀性,實驗組嚴格按照本文提出的各環(huán)節(jié)的具體步驟操作,對照組嚴格按照傳統(tǒng)人體行為識別方法的操作步驟完成識別。
2.2 實驗結果及分析
記錄實驗結果,包括人體行為源視頻編號、正確識別人體行為個數(shù)等,并將實驗結果繪制成如圖2所示的實驗組與對照組實驗結果對比圖。
從圖2中的各項數(shù)據(jù)可以看出,在對5個不同源視頻進行人體行為識別過程中,實驗組的正確識別個數(shù)明顯高于對照組的識別個數(shù)。因此通過實驗可以證明,本文提出的人體行為識別方法將改進稠密軌與Fisher向量編碼融入其中,考慮到了在不同時刻軌跡上人體行為局部運動信息之間的關聯(lián)性問題,可以更好地將軌跡局部的運行趨勢利用編碼表達出來,體現(xiàn)了不同軌跡之間的凹凸特性,進一步提高了對源視頻中人體行為識別的準確率。因此,本文提出的人體行為識別方法更適用于在計算機視覺領域中對視頻中的運動行為進行識別。
3 結 語
本文通過對人體行為識別中的軌跡特征描述和軌跡特征量化進行深入研究,基于改進稠密軌與Fisher 向量編碼,提出一種提高識別正確率的方法。通過對比實驗進一步驗證了該方法的有效性。結合本文方法存在的不足之處及當前人體行為識別研究中存在的難點問題,在后續(xù)的研究中還將對以下幾方面的問題進行研究:影響人體行為識別結果的關鍵因素;不同相機、不同拍攝角度下的行為軌跡特征融合以及降低行為識別算法的復雜程度等,希望通過更加深入的研究將人體行為識別方法更多的應用于實際生活中。
參考文獻
[1]鹿天然,于鳳芹,陳瑩.一種基于線性序列差異分析降維的人體行為識別方法[J].計算機工程,2019,45(3):237-241.
[2]鄒小武,盛蒙蒙,毛家發(fā),等.一種用于人體行為識別的CNN-BLSTM模型[J].小型微型計算機系統(tǒng),2019,40(11):2313-2317.
[3]謝國亞,劉宇,路永樂,等.基于MEMS慣性傳感器時域特征的人體行為識別[J].壓電與聲光,2019,41(2):221-224.
[4]張烈平,匡貞伍,李昆鍵,等.基于加速度傳感器和神經(jīng)網(wǎng)絡的人體活動行為識別[J].現(xiàn)代電子技術,2019,42(16):71-74.
[5]楊豐嘉.基于Log-Euclidean詞袋模型與基于Stein核稀疏編碼的人體行為識別算法的優(yōu)化與改進[J].科技創(chuàng)新與應用,2019,36(35):10-11.
[6]王華華,黃龍,周遠文,等.改進的mRmR特征選擇方法在人體行為識別中的應用[J].重慶郵電大學學報(自然科學版),2019,31(2):261-269.
[7]莫宇劍,侯振杰,常興治,等.面向行為識別的人體空間協(xié)同運動結構特征表示與融合[J].北京航空航天大學學報,2019,45(12):2495-2505.
[8]石英,孫明軍,李之達,等.基于運動歷史圖像與卷積神經(jīng)網(wǎng)絡的行為識別[J].湘潭大學學報(自然科學版),2019,41(2):109-117.
[9]郭明祥,宋全軍,徐湛楠,等.基于三維殘差稠密網(wǎng)絡的人體行為識別算法[J].計算機應用,2019,39(12):3482-3489.
[10]田聯(lián)房,吳啟超,杜啟亮,等.基于人體骨架序列的手扶電梯乘客異常行為識別[J].華南理工大學學報(自然科學版),2019,47(4):10-19.