馬國祥 楊文忠 溫杰彬 姚苗 秦旭
摘 ?要: 針對視頻中人群異常行為檢測問題,提出一種基于場景相似性和光流的人群異常行為檢測方法。該方法分別使用卷積網(wǎng)絡(luò)和光流提取視頻中人群的外觀特征和運(yùn)動特征。在外觀特征方面,使用感知哈希算法得到場景相似性異常值;在運(yùn)動特征方面,改進(jìn)Shi?Tomasi特征提取算法,并利用局部光流法提取運(yùn)動特征異常值。文中將兩種特征的異常值融合作為異常行為的判定依據(jù)。在異常行為建模方面,使用單分類SVM對異常值進(jìn)行建模。在UMN基準(zhǔn)數(shù)據(jù)集上進(jìn)行對比試驗(yàn),文中提出的融合方法取得了較好的檢測效果,AUC值能夠達(dá)到0.91。
關(guān)鍵詞: 異常行為檢測; 外觀特征提取; 運(yùn)動特征提取; 特征融合; 行為建模; 對比試驗(yàn)
中圖分類號: TN911.23?34; TP391.4 ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼: A ? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2020)02?0090?07
Method of crowd anomaly detection based on scene similarity and optical flow
MA Guoxiang1, YANG Wenzhong2, WEN Jiebin2, YAO Miao1, QIN Xu1
Abstract: As the detection of the crowd abnormal behavior in the video, a method of crowd abnormal behavior detection based on scene similarity and optical flow is proposed. In this method, the convolutional network and optical flow is respectively used to extract the appearance features and the motion features of the crowd in the video. In terms of the appearance features, the abnormal values of scene similarity are obtained by means of the perceptual hash algorithm (PHA). In the aspect of the motion features, the Shi?Tomasi feature extraction algorithm is improved, and the abnormal values of motion features are extracted by means of the local optical flow method. The fusion of the two features′ abnormal values is taken as the basis for the determination of abnormal behavior. In the aspect of the abnormal behavior modeling, modeling of the abnormal values is carried out with the single classification SVM. The contrast test was performed on the UMN benchmark data sets. The fusion method proposed in this paper has achieved good detection results, and the AUC value can reach 0.91.
Keywords: abnormal behavior detection; appearance feature extraction; motion feature extraction; feature fusion; behavior modeling; contrast test
0 ?引 ?言
近年來,群體斗毆、非法聚集等群體異常行為時有發(fā)生,對社會的公共安全造成很大的威脅[1]。因此,對監(jiān)控場景的群體異常行為檢測,實(shí)現(xiàn)在線預(yù)警成為計(jì)算機(jī)視覺和模式識別等領(lǐng)域重要的前沿課題。然而,由于視頻中人群運(yùn)動的復(fù)雜性和異常事件的多樣性,難以對視頻中的異常行為進(jìn)行準(zhǔn)確描述。其次,視頻監(jiān)控大都部署在人群密集的公共場所,監(jiān)控場景多樣且人群中個體之間存在相互遮擋,導(dǎo)致提取的行為特征不準(zhǔn)確、異常行為建模困難等問題。
目前,國內(nèi)外學(xué)者在群體異常行為檢測方面已經(jīng)取得了一定成果。其中,Mehran等人提出了社會力異常行為檢測模型,該方法利用社會力模型描述的視頻序列中的運(yùn)動特征與周圍空間的相互作用力,并根據(jù)社會力的強(qiáng)度描述視頻圖像中運(yùn)動物體的行為,最后使用詞袋模型對當(dāng)前幀的異常行為進(jìn)行檢測[2]?;诠饬餍畔?,研究人員建立了多種模型進(jìn)行異常行為檢測,如運(yùn)動影響系數(shù)矩陣[3]、運(yùn)動能量模型[4]、能量模型[5]等。
另外,文獻(xiàn)[6]提出對時空視頻序列進(jìn)行聚類的異常行為檢測方法,該方法首先利用交互式視頻摳像技術(shù)提取訓(xùn)練模板,并利用改進(jìn)的均值漂移算法將視頻自動分割成三維時空塊;然后在視頻上滑動模板并計(jì)算匹配距離,從而實(shí)現(xiàn)對異常行為的檢測。這些方法主要關(guān)注的是視頻序列中運(yùn)動目標(biāo)軌跡或光流和梯度等底層次特征的表示[7?9],并且需要手動提取特征。這種人工干預(yù)的特征提取方式,導(dǎo)致從視頻序列中提取出的運(yùn)動和外觀特征主觀性強(qiáng)、描述性弱,只能適用于單一場景的異常檢測,難以應(yīng)用于復(fù)雜多變的現(xiàn)實(shí)場景中。
近年來,深度學(xué)習(xí)的方法在圖像領(lǐng)域得到了廣泛的研究,如物體分類[10]、人臉識別[11]、文字識別[12]、行為識別[13]等。其中,卷積神經(jīng)網(wǎng)絡(luò)以其優(yōu)秀的特征提取能力成為圖像研究領(lǐng)域最為有效的工具之一,并得到廣泛的應(yīng)用。因此,本文將卷積網(wǎng)絡(luò)應(yīng)用于人群異常行為檢測中,提取更深層次的圖像特征。然而,在人群異常行為檢測問題中,由于異常數(shù)據(jù)集常常難以收集,所以無法完成對多層卷積網(wǎng)絡(luò)反向傳播的訓(xùn)練過程,即使可以完成訓(xùn)練,也會由于數(shù)據(jù)集中訓(xùn)練樣本數(shù)量較少,導(dǎo)致過擬合等問題。
根據(jù)文獻(xiàn)[14],可以使用已經(jīng)訓(xùn)練好的AlexNet卷積網(wǎng)絡(luò)模型進(jìn)行特征提取,不僅降低模型訓(xùn)練復(fù)雜度,而且增加了卷積網(wǎng)絡(luò)的靈活性。由于卷積網(wǎng)絡(luò)提取的特征映射較多,本文使用感知哈希算法進(jìn)行編碼壓縮后再進(jìn)行相似度比較。此外,為了提高模型的魯棒性,將局部光流方法融合到基于CNN的感知哈希算法中;然后融合兩種異常值并使用單分類SVM進(jìn)行異常行為建模。經(jīng)過在UMN[15]基準(zhǔn)數(shù)據(jù)集上驗(yàn)證,本文提出的算法能夠取得較好的異常檢測效果。
1 ?算法思路及步驟
本文從場景相似性和局部光流值變化的角度出發(fā),提出了一種魯棒的視頻人群異常行為檢測模型。首先,利用遷移學(xué)習(xí)的思想,將視頻序列輸入已經(jīng)預(yù)訓(xùn)練好的卷積網(wǎng)絡(luò)提取人群外觀特征;并使用感知哈希算法對提取到的特征圖進(jìn)行編碼,得到當(dāng)前圖像特征指紋;計(jì)算相鄰幀間圖像指紋相似度,并根據(jù)相似度的大小確定當(dāng)前幀的異常程度。視頻文件的特征不僅包含了圖像外觀高層語義特征,還包括視頻中目標(biāo)移動所產(chǎn)生的運(yùn)動特征。
本文提出使用基于Shi?Tomasi特征點(diǎn)增強(qiáng)的Lucas?Kanade光流方法提取目標(biāo)的局部光流特征。最后,將幀間相似度和光流值融合作為最終異常行為判定的依據(jù)。在異常行為建模方面,本文使用One?class SVM對正常情況下的融合值進(jìn)行建模,從而避免閾值等不確定性因素對人群異常檢測的影響。
具體框架如圖1所示。
1.1 ?深度外觀特征提取
外觀特征提取是進(jìn)行圖像高層語義識別的重要一步。為了能夠提取更好的外觀特征,本文使用卷積網(wǎng)絡(luò)作為特征提取的工具。目前很少有專門為異常檢測任務(wù)訓(xùn)練的卷積網(wǎng)絡(luò)模型。但是,卷積網(wǎng)絡(luò)在圖像處理中擴(kuò)展性較強(qiáng),可以將圖像分類任務(wù)中得到極好驗(yàn)證的網(wǎng)絡(luò)模型遷移在其他類似的圖像處理任務(wù)中。
本文使用AlexNet[10]卷積網(wǎng)絡(luò)模型,包含5個卷積層和兩個全連接層。該模型訓(xùn)練了1 183個類別,每個類別都有來自MIT數(shù)據(jù)庫的205個場景類別,以及360萬幅來自ILSVRC2012 (ImageNet)訓(xùn)練數(shù)據(jù)集的978個對象類別[16]。本文為了能夠得到輸入圖像的特征圖,移除AlexNet卷積網(wǎng)絡(luò)的最后兩個全連接層。通過該模型提取的特征圖,能夠保持原圖更多的局部和全局信息,對應(yīng)著原圖中更大范圍的感受野。因此,可以保持更多的空間上下文信息。當(dāng)一幀圖像經(jīng)過本文的卷積網(wǎng)絡(luò),會產(chǎn)生256個6×6的特征圖[It],記為:
[It=fti,j,1,fti,j,2,…,fti,j,K]
式中:[K]的值為256,表示第[t]幀的圖像經(jīng)過卷積網(wǎng)絡(luò)提取的256個特征圖;[i,j]表示二維特征圖的第[i]行第[j]列的像素坐標(biāo)點(diǎn)。AlexNet網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
1.2 ?感知哈希編碼
由于視頻圖像的計(jì)算代價較高,為了提高視頻中幀間的異常檢測的處理效率,降低模型的計(jì)算復(fù)雜度,本文使用基于圖像指紋的感知哈希算法。感知哈希(Perceptual Hash)是一種基于認(rèn)知心理學(xué)的信息加工理論,由多媒體數(shù)據(jù)集到多媒體感知摘要集的一類單向映射,將具有相同感知內(nèi)容的多媒體數(shù)字表示成唯一的映射作為一段數(shù)字摘要,并滿足感知安全性要求的哈希算法[17]。
此外,為了壓縮數(shù)據(jù)量,消除冗余數(shù)據(jù),感知哈希算法使用2?D離散余弦變換(Discrete Cosine Transform,DCT)[18]進(jìn)行數(shù)據(jù)壓縮,DCT圖像變換編碼技術(shù)可以在消除冗余數(shù)據(jù)的同時,盡可能多地保留原始圖片的有用信息,能夠有效地避免在存儲、傳輸、處理等階段帶來的額外計(jì)算代價。本文對視頻每一幀提取到的卷積特征使用感知哈希算法進(jìn)行編碼。根據(jù)第1.1節(jié)可知,第t幀圖像經(jīng)過AlexNet卷積網(wǎng)絡(luò)后產(chǎn)生的卷積特征圖為[It=fti,j,1,fti,j,2,…,fti,j,K]。本文針對卷積網(wǎng)絡(luò)提取到的特征圖使用感知哈希算法進(jìn)行編碼,得到第[t]幀圖像的[K]個特征圖指紋集合[Φt]:
[Φt=T1,T2,…,TK]
式中:[TK]為每個特征圖[ft]生成一個64位的特征圖像指紋;[K]的值為256,表示256個特征圖。提取視頻幀的圖像指紋結(jié)構(gòu)圖如圖3所示。
為了有效地捕捉視頻序列在時域上的變化,本文取連續(xù)10幀視頻塊的特征相似度的均值作為當(dāng)前幀的異常度。由于提取到的圖像指紋編碼為二進(jìn)制編碼,所以本文使用海明距離度量幀間相似度。計(jì)算公式如下:
[Asimilarity=1Nt-10≤i≤tHΦi,Φi]
式中:[N]取10,即前10幀與當(dāng)前哈希編碼比較相似度;[H·]為相似性度量函數(shù),取海明距離;[Φi]為當(dāng)前圖像的特征指紋。
1.3 ?改進(jìn)Shi?Tomasi特征點(diǎn)檢測方法
Shi?Tomasi算法是對Harris算法的簡單改進(jìn),用于檢測圖像中沿著各個方向灰度值均發(fā)生劇烈變化的點(diǎn),或是邊緣曲線上取極大值的點(diǎn)[19]。該算法中引入了一階偏導(dǎo)數(shù)即圖像中鄰域像素梯度,計(jì)算圖像局部的小窗口沿著各個方向以微小量移動后圖像灰度的變化。其基本思想為:若沿著任意方向移動灰度變化都很小,則小窗口處于圖像的平坦區(qū)域;若沿某一特定方向移動灰度變化很小,且沿著其垂直的方向移動,灰度變化很大,則小窗口在圖像邊緣處;若沿任意的方向移動灰度變化都很大,則小窗口在角點(diǎn)處。若局部窗口[W(x,y)]平移[Δx,Δy]后,灰度變化的形式化表示如下:
[GΔx,Δy=W(x,y)ω(x,y)Ix,y-I(x+Δx,y+Δy)2] (1)
式中:[ω(x,y)]為加權(quán)函數(shù),常用高斯加權(quán)函數(shù);[Ix,y]表示點(diǎn)[x,y]處的灰度值。將式(1)泰勒展開,得:
[GΔx,Δy=Δx,ΔyM(x,y)ΔxΔy]
[Mx,y=W(x,y)ω(x,y)I2xIxIyIxIyI2y]
式中,[Ix],[Iy]分別表示圖像灰度在[x],[y]方向上的梯度值。定義特征點(diǎn)響應(yīng)函數(shù)為:
[R=min (λ1,λ2)]
通過計(jì)算自相關(guān)函數(shù)的兩個特征值,若最小的特征值[R]大于閾值時,當(dāng)前特征點(diǎn)即為Shi?Tomasi角點(diǎn)。
Shi?Tomasi角點(diǎn)提取方法具有較好的穩(wěn)定性,不易受到光照條件、噪聲等影響。但是由于人群場景的復(fù)雜性,利用該方法檢測出的角點(diǎn)數(shù)量有限,不能很好地表示關(guān)鍵位置的運(yùn)動特征。所以,為了提高表征顯著運(yùn)動特征的能力,本文提出將LOF(Local Outlier Factor)[20]異常檢測算法應(yīng)用在角點(diǎn)特征的檢測中增加異常角點(diǎn)數(shù)量。當(dāng)前幀初始角點(diǎn)[Pt]為Shi?Tomasi檢測的默認(rèn)角點(diǎn)[Pt0]以及前兩幀的LOF算法檢測出的光流顯著變化的角點(diǎn)[St-1],[St-2]的總和。具體算法如下:
算法描述:
begin
for each frame in T:
1) 計(jì)算當(dāng)前幀圖像的Shi?Tomasi角點(diǎn)[Pt0]
2) 計(jì)算前兩幀每一個特征點(diǎn)的光流;
[Vt-1=Vt-1p0,Vt-1p2,…,Vt-1pn]
[Vt-2=Vt-2p0,Vt-2p2,…,Vt-2pn ]
3) 使用LOF算法提取顯著特征點(diǎn);
[St-1=LOFVt-1]
[St-2=LOFVt-2]
4) 保留前兩幀檢測出的顯著角點(diǎn),添加到當(dāng)前初始角點(diǎn)中,作為檢測下一幀的初始局部特征點(diǎn);
[Pt=Pt0∪St-1∪St-2]
end
改進(jìn)Shi?Tomasi特征點(diǎn)檢測算法后,特征點(diǎn)檢測在UMN數(shù)據(jù)集上的檢測結(jié)果如圖4所示。
圖4中,左邊是原始Shi?Tomasi算法檢測后的特征角點(diǎn);右邊是經(jīng)過改進(jìn)后的Shi?Tomasi特征點(diǎn)增強(qiáng)算法。其中綠色為增強(qiáng)到當(dāng)前幀的特征角點(diǎn),黃色為原始角點(diǎn)。從圖中可以看出,在運(yùn)動較劇烈的位置,角點(diǎn)數(shù)量有了明顯提高。
1.4 ?金字塔Lucas?Kanade光流提取算法
光流(Optical Flow)的基本定義是三維空間中運(yùn)動目標(biāo)在成像平面中對應(yīng)像素的二維運(yùn)動瞬時速度。其中,LK(Lucas?Kanade)算法是一種稀疏光流跟蹤方法,與Horn?Schunck算法的全局平滑約束條件不同,LK光流法認(rèn)為像素在小范圍區(qū)域有近似相同的運(yùn)動。因此,只需要獲取興趣點(diǎn)領(lǐng)域內(nèi)的局部信息即可,即光流的局部平滑約束。但是,利用小范圍領(lǐng)域來度量光流的方法存在不足之處,當(dāng)較大的運(yùn)動出現(xiàn)時,會導(dǎo)致特征點(diǎn)移出度量領(lǐng)域的情況發(fā)生,從而造成無法再找到這些點(diǎn)。因此,有學(xué)者提出金字塔LK光流算法,即從圖像金字塔的最高層開始向金字塔的底層進(jìn)行迭代跟蹤。基于金字塔模型的LK光流跟蹤方法既可以估計(jì)小范圍內(nèi)微小的光流變化,也可以估計(jì)特征角點(diǎn)運(yùn)動較大時的光流。金字塔光流如圖5所示。
因此,本文針對提取到的人群特征點(diǎn),使用光流檢測效果較好的金字塔LK光流方法計(jì)算特征點(diǎn)光流變化情況,并將光流作為運(yùn)動特征用于人群異常事件建模。
2 ?群體異常行為建模
由于在復(fù)雜的人群視頻場景中,異常行為發(fā)生的次數(shù)較少且模式多變[21]。針對這個特點(diǎn),本文使用基于單類別的異常檢測技術(shù)One?class SVM。該方法假設(shè)訓(xùn)練數(shù)據(jù)集服從一個統(tǒng)一的分布,并學(xué)習(xí)該分布的邊界,以此界定當(dāng)前觀測樣本是否屬于該類。如果觀測樣本被分在邊界之外,則被認(rèn)為是異常樣本點(diǎn)。所以,根據(jù)計(jì)算到的幀間相似性和局部光流的異常值,選用正常情況下的數(shù)據(jù)樣本,對One?class SVM進(jìn)行訓(xùn)練,從而完成對異常事件的建模。
2.1 ?One?class SVM模型
One?class SVM是一個使用廣泛的異常檢測算法,該方法的主要思路是學(xué)習(xí)訓(xùn)練數(shù)據(jù)集的外接超平面。當(dāng)觀測樣本數(shù)據(jù)落在超平面的外面,則當(dāng)前觀測判定為異常。假設(shè)給定訓(xùn)練樣本數(shù)據(jù)為[D=dkiNki=1],則One?class SVM模型優(yōu)化方程形式化為:
[minw,ρ12w2+1vNki=1Nkξi-ρ]
[s.t. ?wTΦdki≥ρ-ξi,ξi≥0]
式中:[w]為需要根據(jù)訓(xùn)練數(shù)據(jù)學(xué)習(xí)的權(quán)重向量;[ρ]為偏置值;超參數(shù)[v∈(0,1]]表示訓(xùn)練誤差分?jǐn)?shù)的上界和支持向量分?jǐn)?shù)的下界;[Φ?]為特征映射函數(shù),將原始空間的樣本數(shù)據(jù)[dki]映射到更高維的空間,使其能夠線性可分,進(jìn)而求解最大超平面。本文由于異常值樣本數(shù)據(jù)維度不高,數(shù)據(jù)分布較為簡單,所以[Φ?]選用線性映射函數(shù)。本文中,使用UMN數(shù)據(jù)集中正常情況下的融合異常值,進(jìn)行單分類SVM模型的訓(xùn)練。
2.2 ?異常值融合
根據(jù)計(jì)算的幀間不規(guī)則度和局部光流的異常值,本文采用乘積的方式進(jìn)行融合操作,具體公式如下:
[At=(1-Atsimilarity)R(Atlk)]
式中:[(1-Atsimilarity)]表示幀間不規(guī)則度;[Atlk]表示局部光流值。此外,對當(dāng)前幀的局部光流值進(jìn)行歸一化操作,歸一化函數(shù)[R(?)]使用雙曲正切函數(shù)。根據(jù)異常規(guī)則,當(dāng)場景中發(fā)生異常行為時,幀間不規(guī)則度和局部光流值會出現(xiàn)急劇突變的情況。
計(jì)算得到當(dāng)前幀的異常值[At]后,根據(jù)已經(jīng)訓(xùn)練好的One?class SVM模型確定當(dāng)前幀是否為異常幀,判別公式如下:
[正常幀, ? ? 模型為inlier異常幀, ? ? 模型為outlier]
3 ?實(shí)驗(yàn)結(jié)果與分析
本實(shí)驗(yàn)的硬件平臺采用Intel i5 2.3 GHz,4 GB內(nèi)存,軟件平臺為Windows環(huán)境下Python語言編寫試驗(yàn)代碼。選取UMN人群異常數(shù)據(jù)庫作為模型測試數(shù)據(jù)集。試驗(yàn)結(jié)果表明本文提出的方法能夠有效地對人群異常事件進(jìn)行檢測。
3.1 ?數(shù)據(jù)集
UMN數(shù)據(jù)集包括綠地、室內(nèi)、廣場三個場景共11個視頻片段,視頻像素分辨率均為240×320。場景中包含的正常行為定義為:一群人停住、行走或游蕩;異常行為有:人群奔跑、人群逃散等視頻場景中目標(biāo)的劇烈運(yùn)動情況。UMN數(shù)據(jù)集人群正常與異常行為舉例如圖6所示。
3.2 ?實(shí)驗(yàn)設(shè)計(jì)
為了驗(yàn)證本文提出方法的有效性,分別在場景相似性、局部光流、融合場景相似性和局部光流三種情況下進(jìn)行測試。在UMN數(shù)據(jù)集中各場景的檢測結(jié)果圖7所示。其中,圖7為三種方法的異常值波動曲線,陰影區(qū)域?yàn)樗惴z測到的異常幀,曲線綠色部分表示標(biāo)記為正常幀的波動情況,曲線紅色部分表示標(biāo)記為異常的波動情況。表1為綠地場景一的量化數(shù)據(jù)。本文取綠地場景一中前600幀作為實(shí)驗(yàn)數(shù)據(jù)。
從圖7可以明顯地看出異常值的幅度變化情況,當(dāng)異常值出現(xiàn)急劇變化的情況時,則表明當(dāng)前時刻該場景發(fā)生了異常事件。三種方法均能檢測到異常事件的發(fā)生,但是可以從圖7a)明顯看出在使用CNN及感知哈希算法情況下,檢測到的異常事件存在一定的滯后;而圖7b)使用LK局部光流算法雖然在檢測及時性方面有所改善,但是存在誤檢的情況;圖7c)是融合了兩種算法后的異常值波動情況,可以看出在誤檢率和檢測精度方面都有所改善。
表1為三種方法檢測結(jié)果的具體量化,對比三種檢測方法,在檢測準(zhǔn)確率方面結(jié)合CNN的感知哈希算法、LK局部光流、融合算法分別為0.90,0.97,0.97。但是,融合兩種算法的檢測結(jié)果在正常幀標(biāo)記下的誤檢幀數(shù)有所降低。
本文方法在室內(nèi)場景一數(shù)據(jù)集中前468幀的實(shí)驗(yàn)結(jié)果如圖8、表2所示。
從圖8可以看出在該場景下的檢測效果比綠地場景稍差一些。具體體現(xiàn)在圖中,表現(xiàn)為異常幀波動情況較小,異常值抖動較為劇烈。從圖8a)明顯看出,在使用CNN及感知哈希算法情況下,當(dāng)異常事件發(fā)生時,曲線雖然有所上升但是起伏程度不明顯;LK光流(圖8b))、融合方法(圖8c))兩種方法在異常值發(fā)生時,抖動劇烈,會出現(xiàn)在異常時刻曲線驟降的情況。本文歸結(jié)該現(xiàn)象的原因?yàn)閿?shù)據(jù)集場景受明暗、對比度等客觀因素影響過大。導(dǎo)致比較幀間相似度時人群處于較暗部分,未能有效提取到人群差異和LK局部光流信息。
在室內(nèi)場景的量化數(shù)據(jù)如表2所示,三種方法準(zhǔn)確率分別為0.74,0.89,0.90。其中融合感知哈希算法和LK局部光流方法在正常標(biāo)記下誤檢幀的數(shù)量有所上升,但是在準(zhǔn)確率方面可以保持較好的檢測效果。
本文方法在廣場場景一數(shù)據(jù)集前625幀的測試情況如圖9、表3所示。
從圖9可直觀地看到,三種方法均能較好地檢測到異常事件的變化過程。但是CNN及感知哈希算法(圖9a)和LK局部光流(圖9b))均存在一定的誤檢幀;而圖9c)是融合了兩種算法,可以看出在正常標(biāo)記下誤檢幀數(shù)和檢測精度方面均有所改善。從表3試驗(yàn)結(jié)果可以看出,檢測結(jié)果較好。結(jié)合CNN的感知哈希算法、LK局部光流、融合算法準(zhǔn)確率分別達(dá)到0.97,0.96,0.98。
3.3 ?對比實(shí)驗(yàn)
為了評估和量化本文算法的有效性,本文選用一些已經(jīng)取得較好效果的經(jīng)典算法光流(Optical Flow)、社會力模型(Social Force)[2]作相關(guān)對比試驗(yàn)。結(jié)果顯示,本文提出的算法在準(zhǔn)確率方面能夠達(dá)到與最好算法接近的水平。此外,為了說明卷積網(wǎng)絡(luò)和感知哈希算法的結(jié)合能夠有效地檢測密集人群的異常行為,測試了不使用卷積網(wǎng)絡(luò)的情況下感知哈希算法對異常行為的檢測情況,對比試驗(yàn)結(jié)果如表4所示。
對比上述算法的AUC值,在不使用卷積網(wǎng)絡(luò)提取高層外觀特征的情況下,感知哈希算法的AUC值僅為0.51;基于CNN的感知哈希方法和LK局部光流的方法的AUC值分別為0.79,0.88;而融合了基于CNN的感知哈希方法和LK局部光流的方法取得了比使用單一算法更好的效果,AUC最終取得了0.91的良好效果。
4 ?結(jié) ?語
本文針對視頻中人群的異常行為,提出一種基于場景相似性和光流的人群異常行為檢測模型。首先,利用卷積網(wǎng)絡(luò)提取人群外觀特征,并使用感知哈希算法對提取到的特征圖進(jìn)行編碼,計(jì)算相鄰幀間圖像指紋的相似度,根據(jù)相似度的大小確定當(dāng)前幀外觀特征的異常程度。在運(yùn)動特征異常檢測方面,本文使用基于Shi?Tomasi特征點(diǎn)增強(qiáng)的Lucas?Kanade光流方法提取目標(biāo)的局部光流特征。最后,將幀間相似度和光流值融合作為最終異常行為判定的依據(jù)。在異常行為建模方面,本文使用單分類SVM對正常情況下的融合值進(jìn)行建模,從而避免閾值等不確定性因素對人群異常檢測的影響。經(jīng)過在UMN人群數(shù)據(jù)集上驗(yàn)證,本文提出的算法能夠較好地檢測出視頻中人群異常,并取得較好的檢測效果。
注:本文通訊作者為楊文忠。
參考文獻(xiàn)
[1] HALBE M, VYAS V, VAIDYA Y M. Abnormal crowd behavior detection based on combined approach of energy model and threshold [C]// International Conference on Pattern Recognition and Machine Intelligence. Kolkata: Springer, 2017: 187?195.
[2] MEHRAN R, OYAMA A, SHAH M. Abnormal crowd behavior detection using social force model [C]// 2009 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Miami: IEEE, 2009: 935?942.
[3] LEE D G, SUK H I, LEE S W. Crowd behavior representation using motion influence matrix for anomaly detection [C]// 2013 2nd IAPR Asian Conference on Pattern Recognition. Naha: IEEE, 2013: 110?114.
[4] XIONG G, WU X, CHEN Y L, et al. Abnormal crowd behavior detection based on the energy model [C]// IEEE International Conference on Information and Automation. Shenzhen: IEEE, 2011: 495?500.
[5] CHEN T, HOU C, WANG Z, et al. Anomaly detection in crowded scenes using motion energy model [J]. Multimedia tools and applications, 2017, 77(11): 14137?14152.
[6] YONG L, HE D. Video?based detection of abnormal behavior in the examination room [C]// International Forum on Information Technology and Applications. Chengdu: IEEE, 2010: 295?298.
[7] ZHANG Y, QIN L, YAO H, et al. Beyond particle flow: bag of trajectory graphs for dense crowd event recognition [C]// IEEE International Conference on Image Processing. Melbourne: IEEE, 2014: 3572?3576.
[8] YANG C, YUAN J, LIU J. Abnormal event detection in crowded scenes using sparse representation [M]. Amsterdam: Elsevier Science Inc, 2013.
[9] LU C, SHI J, JIA J. Abnormal event detection at 150 FPS in Matlab [C]// IEEE International Conference on Computer Vision. Sydney: IEEE, 2014: 2720?2727.
[10] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [J]. Neural information processing systems. 2012, 25(2): 1097?1105.
[11] HAN X, DU Q. Research on face recognition based on deep learning [C]// 2018 Sixth International Conference on Digital Information, Networking, and Wireless Communications. Beirut: IEEE, 2018: 147?155.
[12] QU X, WANG W, LU K, et al. In?air handwritten Chinese character recognition with locality?sensitive sparse representation toward optimized prototype classifier [J]. Pattern recognition, 2018(78): 267?276.
[13] LUVIZON D C, PICARD D, TABIA H. 2D/3D Pose estimation and action recognition using multitask deep learning [J]. Computer vision and pattern recognition, 2018(2): 267?276.
[14] RAZAVIAN A S, AZIZPOUR H, SULLIVAN J, et al. CNN features off?the?shelf: an astounding baseline for recognition [J]. Computer science, 2014(15): 512?519.
[15] Anon. Umn anomaly dataset [EB/OL]. [2017?12?05]. http://mha.cs.umn.edu/Movies/Crowd?Activity?All.avi.
[16] SABOKROU M, FAYYAZ M, FATHY M, et al. Deep?anomaly: fully convolutional neural network for fast anomaly detection in crowded scenes [J]. Computer vision & image understanding, 2016, 47: 215?221.
[17] LIN K, YANG H F, HSIAO J H, et al. Deep learning of binary hash codes for fast image retrieval [C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Boston: IEEE, 2015: 12110?12115.
[18] 章毓晉.圖像工程(下冊):圖像理解[M].4版.北京:清華大學(xué)出版社,2018.
[19] ZHENG S, WEI W. Video?based abnormal crowd behavior detection on bus [J]. Journal of Nanjing University of Science and Technology, 2017, 41(1): 65?73.
[20] BREUNIG M M, KRIEGEL H P, NG R T. LOF: identifying density?based local outliers [C]// ACM Sigmod International Conference on Management of Data. Dallas: ACM, 2000: 93?104.
[21] 周培培,丁慶海,羅海波,等.視頻監(jiān)控中的人群異常行為檢測與定位[J].光學(xué)學(xué)報,2018(8):89?97.
作者簡介:馬國祥(1993—),男,新疆人,碩士研究生,研究領(lǐng)域?yàn)橛?jì)算機(jī)視覺、圖像理解。
楊文忠(1971—),男,河南人,博士,副教授,CCF會員,研究領(lǐng)域?yàn)檩浨榉治?、信息安全、機(jī)器學(xué)習(xí)。
溫杰彬(1994—),男,河南人,碩士研究生,研究領(lǐng)域?yàn)橛?jì)算機(jī)視覺。
姚 ?苗(1993—),女,新疆人,碩士研究生,研究領(lǐng)域?yàn)樽匀徽Z言處理。
秦 ?旭(1994—),女,碩士研究生,研究領(lǐng)域?yàn)樽匀徽Z言處理。