王曉龍, 郭 捷, 邱衛(wèi)東, 徐 鵬, 郭 曼, 張 茜
(1上海交通大學(xué)電子信息與電氣工程學(xué)院,上海 200240;(2山東省警官培訓(xùn)學(xué)院信息技術(shù)研究所,山東 濟(jì)南 250000;(3科學(xué)技術(shù)部火炬高技術(shù)產(chǎn)業(yè)開發(fā)中合,山東 濟(jì)南 250000;
(4山東省警官培訓(xùn)學(xué)院,山東 濟(jì)南 250000;)
基于軌跡分析的異常行為識(shí)別與管控研究*
王曉龍1, 郭 捷1, 邱衛(wèi)東1, 徐 鵬2, 郭 曼3, 張 茜4
(1上海交通大學(xué)電子信息與電氣工程學(xué)院,上海 200240;(2山東省警官培訓(xùn)學(xué)院信息技術(shù)研究所,山東 濟(jì)南 250000;(3科學(xué)技術(shù)部火炬高技術(shù)產(chǎn)業(yè)開發(fā)中合,山東 濟(jì)南 250000;
(4山東省警官培訓(xùn)學(xué)院,山東 濟(jì)南 250000;)
人類行為識(shí)別是模式識(shí)別領(lǐng)域的一個(gè)重要研究方向,是綜合了計(jì)算機(jī)視覺與機(jī)器學(xué)習(xí)的多領(lǐng)域?qū)W科。 而異常行為的識(shí)別與管控,因?yàn)槠湫袨橹黧w與行為模式的復(fù)雜性,是人類行為識(shí)別領(lǐng)域中的重點(diǎn)與難點(diǎn)。 本文采用了一種新的運(yùn)動(dòng)目標(biāo)軌跡提取算法,通過計(jì)算軌跡的特征向量,采用詞袋模型進(jìn)行建模,再把提取到的特征投入到支持向量機(jī)SVM(Support Vector Machine)中進(jìn)行學(xué)習(xí)。 我們?cè)趪H標(biāo)準(zhǔn)暴力行為視頻數(shù)據(jù)庫 HockyFights 上實(shí)現(xiàn)了實(shí)驗(yàn)仿真,獲得了很好的識(shí)別分類效果。監(jiān)獄內(nèi)罪犯的暴力行為的識(shí)別將是我們下一步研究的重點(diǎn)。
行為識(shí)別;軌跡分析;機(jī)器學(xué)習(xí)
隨著監(jiān)控?cái)z像頭在民用與軍用領(lǐng)域的大范圍普及,如何分析浩如煙海的視頻資料,從中及時(shí)獲得所感興趣的信息,已經(jīng)成為日益迫在眉睫的需求。傳統(tǒng)的人工監(jiān)控的方法需要大量的人力成本,不僅費(fèi)時(shí)費(fèi)力,而且容易導(dǎo)致漏檢誤報(bào)。而新興的視頻行為分析方法,可自動(dòng)分析視頻中人類行為的模式及特征,可針對(duì)特定行為進(jìn)行實(shí)時(shí)監(jiān)控報(bào)警,從而大幅度地降低人工勞動(dòng),并提高響應(yīng)時(shí)間與準(zhǔn)確率。人類行為識(shí)別(Human action recognition),是模式識(shí)別與計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要研究方向,也是當(dāng)前世界范圍內(nèi)學(xué)界研究的熱點(diǎn)與難點(diǎn)。
經(jīng)典的行為分析模式包括計(jì)算運(yùn)動(dòng)能量圖MEI(Motion Energy Image)和運(yùn)動(dòng)歷史圖MHI(Motion History Image)[1],它們需要提取到完整的前景目標(biāo),再分析前景目標(biāo)的輪廓變化,由于需要其對(duì)背景的穩(wěn)定性有著很高的要求,因此在視頻背景多變的環(huán)境下,不能很好地鑒別出特定行為。
近年來,采用局部特征描述視頻的方法,日益流行。Laptev通過擴(kuò)展Harris角點(diǎn)算法到3D視頻序列中,獲得了一種被稱為時(shí)空特征點(diǎn)STIP(Space-Temporal Interest Point)[2]的行為檢測(cè)算法。
不過,空間二維和時(shí)間一維對(duì)于視頻而言具有不一樣的特性,而 STIP 等方法不能很好地區(qū)分它們。因此,作為STIP的延伸與發(fā)展,新的局部特征提取與分類方法[3-5]獲得了較好的分類效果。通過跟蹤興趣點(diǎn)在視頻序列中的流動(dòng),獲得運(yùn)動(dòng)軌跡就是其中一種簡練的方法。 Messing 等人[6]通過跟蹤 Harris3D 特征點(diǎn)獲得軌跡獲得不錯(cuò)的效果。 Sun[7]通過匹配 SIFT(Scale-Invariant Feature Transform)描述子的方式獲得了軌跡。 Wang[8]通過在興趣點(diǎn)附近密集采樣和光流法等來提取軌跡,均獲得了不錯(cuò)的分類效果。
暴力行為是視頻監(jiān)控的重點(diǎn)與難點(diǎn),由于暴力行為涉及的前景對(duì)象較多,動(dòng)作模式更加繁雜無序,因此區(qū)分也較為困難。實(shí)時(shí)的暴力識(shí)別算法較少,F(xiàn)illipe 等人[9]利用了STIP對(duì)暴力行為進(jìn)行了分類。Tai[10]通過計(jì)算光流矢量來對(duì)暴力行為進(jìn)行監(jiān)控,Martin[11]則采用了多尺度上的局部二相模式直方圖(Muti-Scale Binary Pattern Histogram) 。
為此,我們希望將軌跡分析的分類方法應(yīng)用到暴力行為的識(shí)別管控中。通過對(duì)暴力行為軌跡形態(tài)的提取與分析,從而得到暴力行為的分類依據(jù)。
在我們的研究中,首先采用新型的ORB(Oriented FAST and Rotated BRIEF)[12]算法逐幀對(duì)暴視頻提取軌跡;之后針對(duì)這些軌跡進(jìn)行了優(yōu)化,弱化了背景噪音對(duì)于軌跡的影響。我們分別采用ORB 描述子與馬爾可夫過程來描述這些軌跡,并提取特征向量。對(duì)于提取到的特征向量,采用詞袋模型(bag-of-words model)建模。我們用多核支持向量機(jī)(Muti-kernel Support Vector Machine)[18],對(duì)所獲得的向量進(jìn)行學(xué)習(xí)與分類。 具體的算法流程見圖1所示。
圖1 算法的基本流程
1.1 軌跡提取算法
為了克服傳統(tǒng)的軌跡提取算法所提取的軌跡較為破碎且易受環(huán)境噪音干擾的缺點(diǎn),本文采用了一種新的軌跡提取算法,對(duì)視頻序列進(jìn)行軌跡提取。
我們所采用的是基于 ORB[12]興趣點(diǎn)算法的逐幀匹配算法。本質(zhì)上講, ORB算法是FAST(Features from Accelerated Segment Test)[13]和 BRIEF(Binary Robust Independent Elementary Features)[14]的混合與改進(jìn)。 首先,它應(yīng)用 FAST 算法來找到興趣點(diǎn),接著采用 Harris 角點(diǎn)的測(cè)量方法,來找到其中最重要的 N 個(gè)興趣點(diǎn)。 為了計(jì)算 FAST 所找到的興趣點(diǎn)的主方向角,ORB 算法計(jì)算了該興趣點(diǎn)的質(zhì)心:
其中,mpq被定義為:
而主方向角為:
同時(shí),為了保證 BRIEF 描述子具有旋轉(zhuǎn)不變性,我們需要使得該描述子緊貼這個(gè)主方向角。 對(duì)于在興趣點(diǎn)(Xi, Yi) 處的 n維特征向量
我們通過下式將S緊貼到主方向角上:
此時(shí),BRIEF 算子變?yōu)椋?/p>
我們采用計(jì)算海明碼距離的方式,對(duì)相鄰兩幀間的興趣點(diǎn)集進(jìn)行匹配。
1.2 特征向量描述
特征向量是下一步機(jī)器學(xué)習(xí)的輸入,優(yōu)秀的特征向量需要能代表軌跡的根本性質(zhì),并且具有更高的辨識(shí)度。 軌跡的特性有兩方面,一是軌跡所跟蹤的特征點(diǎn)的外形特征,二是軌跡的幾何特征。
對(duì)于外形特征,我們采用的是ORB的描述子向量,這是一個(gè)25 維的向量。如前一節(jié)所述,該描述子向量具有均方差大,辨識(shí)度好的特征。
對(duì)于軌跡的幾何特征,常見的特征向量是HOG(Histogram of Gradient)[15],MBH(Motion Boundary Histogram)[16]等。這兩種特征統(tǒng)計(jì)的是軌跡周圍的梯度或光流直方圖。另外也有直接統(tǒng)計(jì)軌跡的方向的算法存在[8],但對(duì)于軌跡形狀的近似統(tǒng)計(jì)并不能很好的描述軌跡的幾何特性,因此我們采用了文獻(xiàn)[6]所闡述的觀點(diǎn),認(rèn)為運(yùn)動(dòng)軌跡是一個(gè)馬爾科夫過程(Markov Procedure),并計(jì)算狀態(tài)轉(zhuǎn)移矩陣的特征向量,作為特征向量的另一部分。
所謂馬爾科夫鏈,是指一系列隨機(jī)變量[X1,X2,X3,…] ,其具有馬爾科夫性,即給定一個(gè)現(xiàn)有的狀態(tài),那么過去的狀態(tài)和未來的狀態(tài)都是獨(dú)立的,亦即每個(gè)狀態(tài)都只取決于它之前的狀態(tài)。Xi的所有可能取值構(gòu)成的表 S 稱之為狀態(tài)空間表。 當(dāng)該空間有限時(shí)(假設(shè)有 K 個(gè)狀態(tài)),其狀態(tài)轉(zhuǎn)移的概率分布可以被表述成為一個(gè)矩陣 Pkxk。 假設(shè)從任何狀態(tài)都可到達(dá)所有狀態(tài)( 可遍歷馬爾鏈),則該矩陣有著如下特性:存在唯一的向量 π,使得
且存在如下的近似算法:
定理:1)對(duì)于所有的遍歷馬爾可夫鏈,存在極限:
其中
2)A 中的每一行都是 π[1]
根據(jù)此定理,我們可以用一個(gè)較大的 n值來近似計(jì)算 A。我們將軌跡離散化成 25 個(gè)狀態(tài)(包括 0 狀態(tài)),因此,A 的是一個(gè) 25維的向量,該向量與 ORB 的描述子向量聯(lián)合起來,成為我們的 50維特征向量。
1.3 建立詞袋模型
詞袋模型是我們?cè)谝曨l行為分析中,最常用的一個(gè)統(tǒng)計(jì)模型。 該模型利用 K 聚類(K-Cluster) 算法,將我們所得到的特征向量聚為 K類,稱為一個(gè)詞典。
有了這個(gè)詞典,我們就可以對(duì)視頻中的每個(gè)特征向量,計(jì)算與該向量距離最近的詞,從而可以得到一個(gè)K維的分布向量。 這個(gè)K維的向量就稱為該視頻的詞袋模型
1.4 多核支持向量機(jī)進(jìn)行訓(xùn)練與分類
當(dāng)我們建立了詞袋模型,獲得了輸入向量之后,為了能獲得更好的分類效果,需要將兩種特征向量結(jié)合起來。
為此,我們需要謹(jǐn)慎地挑選一種機(jī)器學(xué)習(xí)的方法,使之能夠更好地 對(duì)其進(jìn)行分類。 我們所采用的方法是 Muti-channel SVM[18],不同的描述子通過多頻道的途徑結(jié)合起來[17]
其中,是視頻 xi和 xj之間,在第 c 個(gè)特征向量下的 χ2距離。Ac是第 c個(gè)特征向量中,訓(xùn)練集平均距離。
HockyFights 數(shù)據(jù)集[22]是一個(gè)收錄了各種冰球比賽打架集錦的暴力分析數(shù)據(jù)集。 其共由 500 段打架視頻和 500 段非打架視頻組成。是目前常用的暴力行為檢測(cè)數(shù)據(jù)集。我們?cè)谠摂?shù)據(jù)集上對(duì)算法進(jìn) 行了測(cè)試, 硬件環(huán)境是: Intel Core I3-3227U 1.9HZ CPU, 4GB 內(nèi)存,64 位 Windows 8.1 操作系統(tǒng)。
2.1 詞袋模型的參數(shù)設(shè)定
詞袋模型中,詞數(shù) K 值的大小,對(duì)于之后的分類效果有著重要的影響。
在實(shí)踐中,我們發(fā)現(xiàn),詞數(shù) K 對(duì)于之后的分類效果有著較大的影響,當(dāng)K值在1000左右時(shí),分類效果較好,因此之后的實(shí)驗(yàn)中,我們?nèi)=1000。具體參見圖 2。
圖2 詞數(shù)對(duì)分類效果的影響
2.2 軌跡提取算法的效果對(duì)比實(shí)驗(yàn)
在很多算法中,都是采用 SIFT[19]和 SURF[20]算法逐幀匹配從而獲得視頻序列中的軌跡的。我們分別利用SIFT 算法、SURF算法,ORB 算法,提取測(cè)試視頻的時(shí)空興趣點(diǎn),實(shí)驗(yàn)仿真結(jié)果如圖 3所示。從實(shí)驗(yàn)結(jié)果可以看出,ORB所提取的興趣點(diǎn)顯然比SURF和SIFT更多地集中在前景目標(biāo)上,在三幅圖像中表現(xiàn)得最好,而SURF和SIFT所提取到的興趣點(diǎn)則更分散。
相較于SIFT和SURF算法,ORB算法有著如下幾個(gè)特性:
1)計(jì)算速度快:相同條件下,ORB算法速度與標(biāo)準(zhǔn)的 SIFT 算法速度相差一個(gè)數(shù)量級(jí)。
2)興趣點(diǎn)檢測(cè)效果更好:如圖4所示,ORB算法對(duì)于前景目標(biāo)中的特征點(diǎn)檢測(cè)效果更好,也就在更大程度上減少了背景對(duì)之后軌跡計(jì)算所產(chǎn)生的干擾。
3)描述子向量區(qū)分度更好:由于BRIEF描述子在概率分布上具有較大的方差,因此特征間的區(qū)分度更高,也為之后進(jìn)行機(jī)器學(xué)習(xí)奠定了基礎(chǔ)。
圖3不同特征點(diǎn)算法的效果
我們分別將 SIFT,SURF 和 ORB 算法應(yīng)用到視頻序列中,通過匹配相鄰幀中的興趣點(diǎn),以獲得軌跡。在實(shí)踐中,我們發(fā)現(xiàn),軌跡的長度對(duì)分類結(jié)果有著重要影響。 對(duì)于標(biāo)準(zhǔn)的24幀每秒的圖像,我們認(rèn)為,長度小于 7 的軌跡都不具有代表性,因此只統(tǒng)計(jì)長度在7以上的軌跡。 我們對(duì)10個(gè)視頻片段的軌跡平均長度和軌跡數(shù)進(jìn)行了統(tǒng)計(jì),具體參見表 1。
實(shí)驗(yàn)結(jié)果表明 ORB 算法的魯棒性和完整性更高,更能提取出前景目標(biāo)的運(yùn)動(dòng)軌跡,因此也更適合用在視頻行為分析的場合。
2.3 在 HockyFights 數(shù)據(jù)集上對(duì)算法的實(shí)驗(yàn)。
我們分別采用了 ORB 描述子,馬爾可夫矩陣的特征向量,以及兩者結(jié)合,對(duì)該數(shù)據(jù)集進(jìn)行了測(cè)試。 我們分別在 fi399-xvid.avi和 no399-xvid.avi上做了測(cè)試,獲得的軌跡如圖 4 所示。
圖4提取出的軌跡
據(jù)此將1 000份測(cè)試集分為十組(每組由 50 個(gè)打架片段和 50個(gè)非打架片段)。 采用交叉驗(yàn)證的方式,我們將其中的九組作為訓(xùn)練集,一組作為測(cè)試集進(jìn)行測(cè)試,并統(tǒng)計(jì)它們的平均正確率如表2所示。
表 2 在 HockyFights 上的實(shí)驗(yàn)結(jié)果
從實(shí)驗(yàn)結(jié)果上,我們的算法據(jù)有較好的性能,達(dá)到了當(dāng)前學(xué)界的先進(jìn)水平。
針對(duì)暴力行為識(shí)別這一問題,我們的主要貢獻(xiàn)在于,基于ORB 算法,提出了一種新的軌跡提取方法,該方法較之前的方法速度更快,魯棒性更好。 同時(shí)我們將軌跡分析與暴力行為分類相結(jié)合,通過提取暴力行為的軌跡特征,進(jìn)行機(jī)器學(xué)習(xí)的訓(xùn)練與分類,并在測(cè)試數(shù)據(jù)集上進(jìn)行了翔實(shí)的實(shí)驗(yàn),獲得了良好的分類效果。 該算法時(shí)間復(fù)雜度較低,經(jīng)過進(jìn)一步優(yōu)化能夠達(dá)到處理實(shí)時(shí)視頻的目的。 下一步,我們還將此識(shí)別算法,應(yīng)用于監(jiān)獄內(nèi)罪犯打架斗毆等異常行為的識(shí)別。 監(jiān)獄罪犯不同于普通人群,其統(tǒng)一著樣式囚服,理短發(fā),體態(tài)行為等方面較為一致,可能需要在識(shí)別算法上進(jìn)一步完善,以滿足對(duì)監(jiān)獄罪犯暴力行為的識(shí)別。
[1]Aaron F.BOBICK, James W.DAVIS.The Recognition of Human Movement using Temporal Templates[J] .IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001,23(3):257-267.
[2]I.LAPTEV.On Space-Time Interest Points[J] .International Journal of Computer Vision, 2005(2-3) :107-123.
[3]CHENGZhongwei, QIN Lei, HUANG Qingming, etc.Human Group Action by Layered Model with Multiple Cues[J] .Neurocomputing, 2014(136) :124-135.
[4]Ramanathan MAONJ, YAU Wei-Yun, Teoh Eam KHWANG,etc.Human Action Recognition with Video Data: Research and Evaluation Challenges[J] .IEEE Transactions on Human-Machine Systems, 2014(138) :67-78.
[5]YU Jeongmin, Jeon Moongu, and Pedrycz WITLOD.Weighted Feature Trajectories and Concatenated Bag-of-Features for Action Recognition[J].Neurocomputing, 2014(131):200-207.
[6]R.MESSING, C.PAL, and H.KAUTZ.Activity Recognition using the Velocity Histories of Tracked Keypoints[C ] //Proceedings of the IEEE International Conference on ComputerVision.Kyoto, Japan, 2009:104-111.
[7]J.SUN, X.WU, S.YAN, etc.Hierarchical spatio-temporal Context Modeling for Action Recognition[C] //IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops.Colorado Springs, USA, 2009:2004-2011
[8]H.Wang, A.KLAESER, C.SCHMID, and C.-L LIU.Action Recognition by Dense Trajectories[C ] //Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Colorado Springs, USA, 2011:3169-3176.
[9]De Souza FILLIPE, D.M.CHAVEZ, etc.Violence Detection in Video using Spatio-Temporal features[C] //Proceedings-23rd SIBGRAPI Conference on Graphics, Patterns and Images.Rio de Janeiro, Brazil, 2010:224-230.
[10]MARTIN V., GLOTIN H., PARIS S., etc.Violence Detection in Video by Large scale Multi-Scale Local Binary Patterns Dynamics[C] //CEUR Workshop Proceedings.Fossabanda, Pisa, Italy, 2012:160-167.
[11]H.TAL, I.YOSSI,K.ORIT.Violent Flows: Real-Time Detection of Violent Crowd Behavior[C] //IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops.Colorado Springs, USA, 2012:1-6.
[12] E.RUBLEE, V.RABAUD, K.KONIGE, and G.BRADSKI. ORB: an Efficient Alternative to SIFT or SURF[C] //Proceedings of the IEEE International Conference on Computer Vision.Barcelona, Spain, 2011:2564-2571.
[13]R.EDWARD, D.TOM.Machine Learning for High-Speed Corner detection[C ] //Proceedings of European Conference of Computer Vision.Graz, Austria, 2006:430-443.
[14] Michael CALONDER, Vincent LEPTET, Christophe STRECHA,and Pascal FUA.BRIEF: Binary Robust Independent Elementary Features[C] //Proceedings of European Conference of Computer Vision.Heraklion, Greece, 2010:778-792.
[15]Dalal NAVNEET.Histograms of Oriented Gradients for Human Detection[C] //Proceedings-2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Colorado Springs, USA, 2005:886-893.
[16]Dalal NAVNEET, Triggs BILL, and Schmid CORDELIA.Human Detection Using Oriented Histograms of Flow and Appearance[C] //Proceedings of European Conference of Computer Vision.Graz, Austria, 2006:428-441.
[17] I.LAPTEV, M.MARSZALEK, C.SCHMID, and B.ROZENFELD.Learning Realistic Human Actions from Novies[C] // Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Colorado Springs, USA, 2008:11-19.
[18]M.M.ULLAH, S.N.PARIZI, and I.LAPTEV.Improving Bag-of-Features Action Recognition with non-local Cues [C ] //Proceedings of British Machine Vision Conference. Aberystwy, British, 2010:23-35.
[19]Lowe David G.Distinctive Image Features from Scale-Invariant Keypoints[J] .International Journal of Computer Vision,2004, 60(2):91-110.
[20]Bay HERBERT, Ess ANDREAS, Tuytelaars TINNE, etc. SURF: Speeded Up Robust Features[C ] //Proceedings of European Conference of Computer Vision.Graz, Austria,2006:404-417.
Abnormal Behavior Detection and Control based on Trajectory Analysis
WANG Xiao-long1,GUO Jie1,QIU Wei-dong1,XU Peng2, GUO Man3, ZHANG Han4
(1School of Electronic Information and Electrical Engineering, SJTU,Shanghai 200240, China;
2Research Institute of Information Technology, Shandong Provincial Police Training School,Jinan Shandong 250000, China;3TORCH High-Tech Industry Development Center, Ministry of Science and Technology, Jinan Shandong 250000, China;4Shandong Provincial Police Training School, Jinan Shandong 250000, China)
Human behavior recognition, as an important branch of pattern recognition, is a multi-field subject integrating computer vision and machine learning.Abnormal-behavior detection and control, due to the complexity of behavers and behavior pattern, is the focal point and difficult point as well in human-behavior recognition.A novel algorithm to extract motion trajectories is proposed in this paper.By calculating feature vectors, a bag-of-words model is constructed,and the extracted vectors are put into muti-kernel SVM (Support Vector Machine) for study.Experienmental simulation on the violent behavoir video dataset HockyFights achieves fairly good result of recognition and classification.In addition, the subsequent research would focus on violent-behavior recognition of prisoners in jail.
behavior recognition;trajectory analysis;machine learning
TP391
A
1009-8054(2015)03-0076-05
王曉龍(1988—),男,碩士,主要研究方向?yàn)槟J阶R(shí)別、計(jì)算機(jī)視覺;
郭 捷(1980—),女,博士,副研究員,碩士生導(dǎo)師,主要研究方向?yàn)槎嗝襟w安全、數(shù)據(jù)庫安全、網(wǎng)絡(luò)安全、圖象處理與視頻通信等;
邱衛(wèi)東(1973—),男,博士,教授,博士生導(dǎo)師,主要研究方向?yàn)橛?jì)算機(jī)取證、密碼分析破解、密鑰防護(hù)及電子信息對(duì)抗;
徐 鵬(1978—),男,碩士,研究所所長,主要研究方向?yàn)楸O(jiān)獄智能化安全防范、計(jì)算機(jī)軟件設(shè)計(jì)、物聯(lián)網(wǎng)應(yīng)用、大數(shù)據(jù)挖掘;
郭 曼(1982—),女,碩士,工程師,主要研究方向?yàn)檗r(nóng)業(yè)數(shù)據(jù)集成研究;
張 苗(1980—),女,碩士,講師,主要研究方向?yàn)楸O(jiān)獄數(shù)據(jù)集成研究?!?/p>
2014-11-03
國家科技支撐計(jì)劃課題(No.2014BAK06B00),上海市教育委員會(huì)科研創(chuàng)新項(xiàng)目(No.12ZZ019)