王 燦,高陳強(qiáng),杜 蓮
(重慶郵電大學(xué) 信號與信息處理重慶市重點(diǎn)實(shí)驗(yàn)室,重慶 400065)
行為識別是智能視頻監(jiān)控系統(tǒng)的關(guān)鍵技術(shù)之一,也是目前計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)之一。它的主要任務(wù)是從包含人的視頻序列中自動(dòng)識別人體行為。有效的行為識別技術(shù)除了應(yīng)用于視頻監(jiān)控系統(tǒng),還可以廣泛應(yīng)用于視頻檢索、人機(jī)交互等領(lǐng)域。
目前大部分行為識別研究主要針對可見光視頻進(jìn)行處理。由于可見光是靠反射成像,因此,目前的研究成果在光照條件不佳的情況下面臨諸多挑戰(zhàn)。相比而言,依靠物體熱輻射成像的紅外視頻監(jiān)控系統(tǒng)不僅能排除煙、塵、霧等惡劣天氣的干擾,同時(shí)能實(shí)現(xiàn)晝夜連續(xù)成像工作。隨著紅外成像設(shè)備制造成本的不斷降低,其應(yīng)用會(huì)越來越廣泛。因此,基于紅外視頻的行為識別技術(shù)具有重要的應(yīng)用價(jià)值和廣闊的應(yīng)用前景。
盡管可見光和紅外在成像原理上有很大的不同,但是行為識別方法具有很大的相通性??傮w上,目前提出的大部分行為識別方法可以分為以下4類:①基于人體結(jié)構(gòu)模型的方法;②基于全局特征的方法;③基于局部特征的方法;④基于卷積神經(jīng)網(wǎng)絡(luò)的方法?;谌梭w結(jié)構(gòu)模型的方法分為線圖法[1]、二維輪廓法[2]和立體模型法[3],其中,線圖法用骨骼節(jié)點(diǎn)間的連線來表示人體姿勢,是最簡單常用的方法?;谌梭w結(jié)構(gòu)模型的方法將人體簡化為姿勢,簡明直觀。缺點(diǎn)在于行為識別效果非常依賴于姿勢估計(jì)的準(zhǔn)確性,而姿態(tài)估計(jì)本身較為復(fù)雜?;谌痔卣鞯姆椒ㄓ斜尘皽p除法、光流法(optical flow,OF)[4]、運(yùn)動(dòng)歷史圖(motion history image,MHI)[5]等。在這些方法中,OF和MHI更為常用,兩者均能反映人體運(yùn)動(dòng)特征。基于全局特征的方法對提取運(yùn)動(dòng)信息較為有效,但在攝像頭有明顯運(yùn)動(dòng)的情況下需要增加額外的視頻穩(wěn)定模塊?;诰植刻卣鞯拇硇苑椒ㄓ泄饬鞣较蛑狈綀D(histogram of oriented optical flow,HOF)[6]、基于時(shí)空的梯度描述符(3-dimentional histogram of oriented gradient,HOG-3D)[7-8]、時(shí)空興趣點(diǎn)(space-time interest point,STIP)[9]等?;诰植刻卣鞯淖R別在可見光中較易實(shí)現(xiàn),但由于紅外視頻中缺乏色彩、紋理、角點(diǎn)等信息,這將導(dǎo)致基于局部特征的方法在紅外圖像中識別效果較差?;诰矸e神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[10]的方法是當(dāng)下主流的方法。Wang等[11]結(jié)合時(shí)空軌跡和CNN,提出了利用CNN對軌跡進(jìn)行特征表達(dá)的方法,極大地提高了行為特征的表達(dá)能力。卷積神經(jīng)網(wǎng)絡(luò)近年來在結(jié)構(gòu)上有里程碑式的突破,網(wǎng)絡(luò)結(jié)構(gòu)趨于更深、更復(fù)雜,識別準(zhǔn)確率也隨之提升。目前,采用雙通道CNN[12-14]進(jìn)行行為識別研究也引起了廣泛的關(guān)注。
總體上,行為識別的精度非常依賴于視頻特征的提取和表達(dá)。有效的特征提取與表達(dá)對行為識別結(jié)果往往具有決定性作用。
紅外視頻由于自身的成像特性,其成像目標(biāo)往往比較模糊,并且缺少色彩紋理信息。同時(shí),紅外圖像的背景,如車輛、馬路、樹木等,都可能與人體目標(biāo)呈現(xiàn)出相似的亮度,從而易與人體目標(biāo)相混淆。這些因素使得傳統(tǒng)的方法不能較好地進(jìn)行特征提取與表達(dá),進(jìn)而造成行為識別準(zhǔn)確率不高。
為此,提出了基于顯著性區(qū)域的紅外行為識別方法。采用有效的顯著性檢測技術(shù)重點(diǎn)關(guān)注行為發(fā)生區(qū)域,盡可能地消除背景雜波的干擾,由此,提高視頻特征提取與表達(dá)的有效性。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的方法相比,本文的方法具有較高的識別準(zhǔn)確率。
本文的算法框架如圖1所示。第1步,對紅外視頻序列提取光流運(yùn)動(dòng)歷史圖(optical flow-motion history image, OF-MHI)[15]特征,用以充分挖掘原始視頻的運(yùn)動(dòng)信息;第2步,采用類別激活映射(class activation map,CAM)[16]方法,獲得圖像中興趣目標(biāo)的顯著性區(qū)域圖,并把該顯著性區(qū)域圖當(dāng)作興趣目標(biāo)權(quán)重圖與提取的OF-MHI特征圖進(jìn)行融合,從而獲得消除干擾的顯著性區(qū)域特征圖;第3步,把獲得的顯著性區(qū)域特征圖輸入CNN網(wǎng)絡(luò)中進(jìn)一步提取有效特征,作為行為視頻的最終特征表達(dá),然后采用支持向量機(jī)(support vector machine,SVM)[17]分類器完成行為分類。
在行為識別領(lǐng)域,已經(jīng)廣泛證明視頻的運(yùn)動(dòng)信息對行為識別的性能具有決定作用。提取運(yùn)動(dòng)信息可以在一定程度上減小紅外視頻中缺少色彩、紋理等因素的影響。同時(shí)也可以減少非運(yùn)動(dòng)目標(biāo)的影響。本文選取流行的OF-MHI[15]視頻特征。
OF-MHI方法將光流與MHI兩者相結(jié)合。在傳統(tǒng)的MHI方法中,每個(gè)被檢測出來的前景像素點(diǎn)都會(huì)被分配一個(gè)固定的強(qiáng)度值τ。身體運(yùn)動(dòng)快和慢的部分會(huì)被分配同樣的運(yùn)動(dòng)強(qiáng)度。在光流法中,時(shí)空上的光流強(qiáng)度s(x,y)是由每個(gè)獨(dú)立的像素點(diǎn)(x,y)在時(shí)間上累加得到,由此產(chǎn)生的強(qiáng)度值表示該位置的歷史運(yùn)動(dòng)速度。它能更好地描述運(yùn)動(dòng)物體的局部運(yùn)動(dòng)。光流本身也用作前景分割提取運(yùn)動(dòng)物體。在傳統(tǒng)的MHI中,運(yùn)動(dòng)持續(xù)時(shí)間由固定參數(shù)值τ決定。它用一個(gè)指數(shù)更新過程來調(diào)節(jié)每個(gè)像素位置運(yùn)動(dòng)的時(shí)空變化。OF-MHI[15]的表達(dá)式為
E(x,y,t)=s(x,y,t)+α·E(x,y,t-1)
(1)
(1)式中:s(x,y,t)表示像素(x,y)在第t幀的光流強(qiáng)度;α是更新速率(0<α<1);運(yùn)動(dòng)強(qiáng)度E由每個(gè)像素點(diǎn)的光流強(qiáng)度s(x,y,t)自適應(yīng)地給出。
圖1 本文的算法框圖Fig.1 Framework of the proposed method
在OF-MHI中,前景點(diǎn)的像素值會(huì)被加強(qiáng)。如果像素點(diǎn)持續(xù)是前景點(diǎn),則像素值會(huì)以指數(shù)權(quán)重α累加。當(dāng)像素點(diǎn)變成背景點(diǎn)時(shí),就以衰減率為α的指數(shù)衰減。較大的α值會(huì)使累計(jì)運(yùn)動(dòng)強(qiáng)度緩慢衰減,時(shí)間模板會(huì)記錄下長時(shí)間的運(yùn)動(dòng)過程。一個(gè)較小的α值會(huì)使運(yùn)動(dòng)強(qiáng)度加速衰減,時(shí)間模板只會(huì)記錄下短時(shí)間運(yùn)動(dòng)過程。對于場景中的緩慢移動(dòng)的目標(biāo),例如走路的人,只需要一個(gè)較小的更新率(大約0.95)來描述運(yùn)動(dòng)。
為防止指數(shù)更新過程產(chǎn)生的量化誤差,OF-MHI[15]的表達(dá)式定義為
(2)
(2)式中,
如果光流長度s(x,y,t)非常小,表明像素點(diǎn)(x,y)是一個(gè)背景點(diǎn)。εs是一個(gè)閾值參數(shù)。本文通過實(shí)驗(yàn)確定該閾值為0.85時(shí),可以取得較好的效果。由于運(yùn)動(dòng)目標(biāo)在相鄰幀之間的光流變化并不明顯,本文通過調(diào)節(jié)實(shí)驗(yàn)參數(shù)觀察特征圖效果,選擇將原始光流長度s(x,y,t)按照初始值20放大4倍,這個(gè)參數(shù)設(shè)定下特征圖的效果最明顯。
OF-MHI提取的是所有運(yùn)動(dòng)信息,在這些運(yùn)動(dòng)信息中還包含很多干擾信息,比如場景中走動(dòng)的與行為無關(guān)的行人、運(yùn)動(dòng)的車輛、晃動(dòng)的樹木等。這些干擾信息往往會(huì)影響視頻特征的描述能力。為此,引入顯著性區(qū)域檢測機(jī)制來重點(diǎn)關(guān)注行為發(fā)生的區(qū)域。
本文采用CAM[16]方法獲取顯著性區(qū)域,其流程圖如圖2所示。對于行為類別c,該類行為的CAM表示通過CNN得到的與該類行為密切相關(guān)的區(qū)域顯著性程度激活映射圖。本文中將得到的CAM轉(zhuǎn)換為0~255的二維權(quán)重矩陣使用。
CAM提取顯著性區(qū)域的主要過程是首先選擇一個(gè)主要由卷積層(convolutional layer)構(gòu)成的網(wǎng)絡(luò)模型。本文中用的是VGG-16網(wǎng)絡(luò)模型。然后去掉原網(wǎng)絡(luò)模型的全連接層(fully connection layer),得到新的網(wǎng)絡(luò)模型VGG-CAM。在最后的輸出層(softmax層)之前,對卷積特征圖作全局平均池化(global average pooling,GAP),輸出的是最后一個(gè)卷積層的每個(gè)單元的特征映射的空間平均值。將得到的特征作為全連接層的特征來產(chǎn)生理想的輸出。再把輸出層的權(quán)重值映射回卷積特征圖上。最后,通過計(jì)算最后一個(gè)卷積層的特征映射的加權(quán)和來生成需要的CAM。下面針對softmax層具體地介紹這個(gè)過程。
圖2 顯著性區(qū)域檢測過程Fig.2 Process of saliency region detection
給定一幀圖像,fk(x,y)表示最后一個(gè)卷積層上第k個(gè)單元在空間位置(x,y)的激活程度。對于第k個(gè)單元,全局平均池化之后的總激活程度為
(x,y)
(3)
所以,對于給定的行為類別c,輸入到softmax層的對應(yīng)類別分?jǐn)?shù)為
(4)
(5)
(6)
定義Mc為行為類別c的CAM,每個(gè)空間元素則是
(7)
得到顯著性區(qū)域特征圖之后,將其縮放到227×227大小,輸入VGG-16網(wǎng)絡(luò),取倒數(shù)第2個(gè)全連接層(圖1中fc7層)的輸出作為最后的視頻特征表達(dá)。之后用SVM對其進(jìn)行行為分類,得出每個(gè)視頻的行為識別結(jié)果。
在對輸入的原始視頻流提取OF-MHI特征時(shí),嘗試了對參數(shù)α取不同值比較特征圖效果,如圖3所示。當(dāng)α=0.96時(shí),特征圖中運(yùn)動(dòng)信息最為豐富。α值越小,運(yùn)動(dòng)信息越不明顯。
圖3 不同參數(shù)值設(shè)置下的特征圖對比Fig.3 Comparison of feature maps of differentparameter values
本文的算法實(shí)現(xiàn)中,用到了2個(gè)CNN網(wǎng)絡(luò),分別是原始的VGG-16和VGG-CAM。在微調(diào)(fine-tune)網(wǎng)絡(luò)這個(gè)步驟,本文不采用傳統(tǒng)微調(diào)網(wǎng)絡(luò)的方法,即對網(wǎng)絡(luò)的所有層進(jìn)行微調(diào)。本文方法首先是固定其余層的參數(shù),對VGG-CAM網(wǎng)絡(luò)的前3層卷積層進(jìn)行微調(diào)。訓(xùn)練適當(dāng)輪數(shù)后,再對整個(gè)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。VGG-16也用同種方法進(jìn)行微調(diào)。表1中為用不同方法微調(diào)網(wǎng)絡(luò),最終選取網(wǎng)絡(luò)模型的softmax層對測試數(shù)據(jù)計(jì)算出的準(zhǔn)確率。結(jié)果表明,本文采用的網(wǎng)絡(luò)微調(diào)方法能取得更高的識別準(zhǔn)確率。
表1 網(wǎng)絡(luò)反饋結(jié)果對比
在網(wǎng)絡(luò)的訓(xùn)練過程中,為防止過擬合現(xiàn)象,在確保訓(xùn)練、測試樣本均能體現(xiàn)背景復(fù)雜度及季節(jié)變化等前提下,我們從每個(gè)行為類別中隨機(jī)選取35個(gè)視頻作為訓(xùn)練樣本,其余15個(gè)作為測試樣本。VGG-CAM與VGG-16所使用的訓(xùn)練樣本和測試樣本一致。在最后的SVM分類步驟,也用同樣的訓(xùn)練、測試樣本。
我們在紅外行為識別數(shù)據(jù)集InfAR[18]上對本文提出的方法進(jìn)行了測試。該紅外數(shù)據(jù)集包含12類動(dòng)作:wave1,wave2,handclap,walk,jog,jump,skip,fight,handshake,hug,push,punch,如圖4所示。每類動(dòng)作有50個(gè)視頻樣本,每個(gè)視頻樣本持續(xù)時(shí)間為3~7 s,幀率為25幀/s,分辨率為293×256 。視頻的拍攝場景貼合實(shí)際情況,體現(xiàn)出了背景復(fù)雜度、季節(jié)差異、行為的類間差異、遮擋的有無以及視角的變化等。
圖4 InfAR 紅外行為數(shù)據(jù)集的12類動(dòng)作Fig.4 12 action types of the InfAR dataset
在基于深度學(xué)習(xí)技術(shù)的識別中,對現(xiàn)有網(wǎng)絡(luò)進(jìn)行微調(diào)是一個(gè)重要的步驟。對于本文的方法,在采用1.4節(jié)介紹的方法對VGG-CAM網(wǎng)絡(luò)進(jìn)行微調(diào)時(shí),有2種選擇,即采用原始紅外圖像進(jìn)行微調(diào)和采用OF-MHI特征圖像進(jìn)行微調(diào)。
圖5為2種數(shù)據(jù)微調(diào)網(wǎng)絡(luò)獲得的顯著性區(qū)域圖的對比。圖5a為紅外原圖;圖5b為基于紅外圖像的微調(diào)結(jié)果;圖5c為基于運(yùn)動(dòng)特征圖的微調(diào)結(jié)果。由圖5c可知,基于OF-MHI特征圖的微調(diào)策略可以獲得更干凈的背景,其顯著性區(qū)域更加準(zhǔn)確可靠。表2中為基于2種數(shù)據(jù)微調(diào)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)果與最終結(jié)果比較。進(jìn)一步說明這種顯著性區(qū)域檢測可靠性對最終行為識別算法準(zhǔn)確率的影響非常明顯。
圖5 不同數(shù)據(jù)微調(diào)網(wǎng)絡(luò)獲得的顯著性區(qū)域圖Fig.5 Saliency regions based on different networktraining data
%
為了驗(yàn)證本文方法的有效性,選取常用的幾種行為識別方法與本文算法的結(jié)果進(jìn)行比較,包括基于運(yùn)動(dòng)歷史圖的梯度特征(motion history image-histogram of oriented gradient,MHI-HOG)[19],密集軌跡特征(dense trajectory,DT)[20],HOF[6],HOG-3D[7]與STIP[9]等特征提取方法,獲取特征之后,采用目前效果較好的Fisher Vector編碼方法[21]進(jìn)行特征編碼,最后用SVM分類器進(jìn)行分類識別,得出識別準(zhǔn)確率。此外,還有基于雙通道CNN的Two Stream方法[22]。以上方法均是對整張圖像提取特征。
此外,為了驗(yàn)證顯著性區(qū)域?qū)π袨樽R別效果的重要性,在本文方法基礎(chǔ)上移除顯著性區(qū)域提取模塊,再構(gòu)造了一種對比方法。該算法框圖如圖6所示,首先對紅外視頻流直接提取OF-MHI特征,微調(diào)VGG-16網(wǎng)絡(luò)后,再把特征圖輸入VGG-16網(wǎng)絡(luò)中進(jìn)一步提取特征,最后輸入SVM分類器進(jìn)行識別。本文采用行為識別領(lǐng)域通用的識別準(zhǔn)確率(又稱查準(zhǔn)率)作為算法的評價(jià)標(biāo)準(zhǔn),即分類正確的樣本數(shù)占樣本總數(shù)的比例。
圖6 本文方法移除顯著性區(qū)域檢測模塊后的算法框圖Fig.6 Proposed method without saliency region detection module
為了保證實(shí)驗(yàn)對比的公平性,所有對比方法的訓(xùn)練集與測試集的選取均與本文方法一致。各種方法的實(shí)驗(yàn)結(jié)果如表3所示。從表3中可以看出,相對于所有對比方法,本文提出的方法性能得到了顯著性的提高。在所有的對比方法中,密集軌跡特征方法的識別效果最好,為66.7%。這是因?yàn)樵摲椒ň哂休^為強(qiáng)大的特征表達(dá)能力。盡管如此,這些傳統(tǒng)方法的特征表達(dá)仍然面臨背景雜波干擾的影響。本文的方法加入了顯著性區(qū)域檢測模塊,重點(diǎn)關(guān)注行為發(fā)生的區(qū)域,從而減少背景雜波的干擾。因此,本文方法可以達(dá)到最高的(74.4%)的識別準(zhǔn)確率。而移除顯著性檢測模塊后,算法的性能明顯降低(見表3倒數(shù)第2行)。這進(jìn)一步驗(yàn)證了顯著性區(qū)域檢測模塊在視頻特征提取中的重要性。
表3 不同方法的實(shí)驗(yàn)結(jié)果對比Tab.3 Comparison of experimental results of different methods %
表4中為本文方法在每類行為分類上的準(zhǔn)確率,并與同樣采用深度學(xué)習(xí)技術(shù)的Two Stream[21]方法進(jìn)行了對比。由表4可知,由于walk,wave1和wave2動(dòng)作的簡單重復(fù)性,2種方法在其上均取得較高準(zhǔn)確率。而punch和push動(dòng)作復(fù)雜且互相難以區(qū)分,2類方法在其上取得的準(zhǔn)確率較低。本文方法在絕大部分行為類別上的識別準(zhǔn)確率均比Two Stream方法更高或者持平。
表4 每類行為識別準(zhǔn)確率Tab.4 Recognition accuracy of each action type %
我們對算法的運(yùn)行時(shí)間做了評估。實(shí)驗(yàn)環(huán)境為Linux操作系統(tǒng)的PC機(jī),其中,CPU為Intel I7,GPU為Nvidia Geforce GTX TITAN X,內(nèi)存64 GByte。測試樣本共有180個(gè)視頻,共有29 858幀,在Matlab平臺(tái)下總運(yùn)行時(shí)長為3.299 h,處理速度為2.519幀/s。
提出了一種基于顯著性區(qū)域的紅外行為識別方法。該方法將運(yùn)動(dòng)特征OF-MHI與顯著性區(qū)域結(jié)合,最大可能地消除背景雜波與行人的干擾。同時(shí),采用深度學(xué)習(xí)技術(shù)提取有效的特征表達(dá)。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的行為識別方法相比,提出方法具有較高的準(zhǔn)確率。在未來的研究中,將對算法進(jìn)行進(jìn)一步優(yōu)化,提高算法的運(yùn)算速度。