張君軍,石志廣,李吉成
(國防科技大學電子科學學院ATR實驗室,湖南 長沙 410073)
隨著人口的增長以及人群活動的多樣化,人群擁擠的場景隨處可見,如機場、車站、景點等,這將成為公共管理以及公共安全巨大的挑戰(zhàn)。人群密度與人群安全密切相關,當人群密度過高時,容易引起恐慌、擁擠以及踩踏。在很多場合中,都曾因人群密度過高而引發(fā)災禍。隨著人們對安全性要求的提高以及經(jīng)濟條件的改善,監(jiān)控攝像頭越來越多,覆蓋范圍也越來越廣。傳統(tǒng)的視頻監(jiān)控系統(tǒng)需要監(jiān)控人員一刻不停地值守,但長時間盯著畫面,人容易疲憊,很難對一些異常事件及時做出反應。為防止人群踩踏等致命事故的發(fā)生,研究人員轉向了基于計算機視覺的人數(shù)統(tǒng)計和人群密度估計領域。自動可靠地獲取監(jiān)控中的人數(shù)或者人群密度,不僅能對一些人群異常情況進行自動預警和報警,而且還能用于人群模擬、人群行為和人群心理學的研究。
人數(shù)統(tǒng)計和人群密度估計屬于智能監(jiān)控范疇,目前已有較多的工作對智能監(jiān)控和人群分析方面進行了總結和闡述。黃凱奇等人[1]從底層、中層、高層對智能監(jiān)控計數(shù)進行了分類,并分析了一些典型算法的優(yōu)缺點以及總結了待解決的問題和難點;文獻[2-4]闡述了很多人群分析技術,文獻[2]從人群特征提取、人群建模和人群事件推理方面進行了介紹;文獻[3]對人數(shù)統(tǒng)計/人群密度估計、人群跟蹤以及人群行為理解這三個重要的人群分析問題進行了詳細的介紹,并將人數(shù)統(tǒng)計算法分為基于像素的方法、基于紋理的方法以及基于目標檢測的方法;文獻[4]從運動模式分割、人群行為識別以及異常檢測三個方面對人群分析的現(xiàn)狀進行了詳細的綜述。雖然以上這些綜述性論文介紹了很多智能監(jiān)控和人群分析方面的優(yōu)秀算法,但他們并沒有特別關注人數(shù)統(tǒng)計和人群密度估計技術。為彌補這一漏洞,文獻[5]對人群計數(shù)中所用的特征以及回歸模型做了詳細的評價,給出評估準則,并對不同方法的性能進行了評估,香港中文大學Loy[6]也做了類似的工作。另外,文獻[7]對基于計算機視覺的人群密度估計和計數(shù)技術進行了總結,涉及的方法主要有直接法(即基于檢測的方法)和間接法(如基于像素的方法、基于紋理的方法以及基于角點的方法)。以上綜述論文雖然將重點放在了人群密度估計和計數(shù)上,但所總結的方法都是基于淺層學習模型的,本文將在上述綜述論文的基礎上,補充深度學習在人群密度估計和計數(shù)上的應用。
具體地,本文從機器學習角度,把人數(shù)統(tǒng)計與人群密度估計算法分為淺層學習的方法和深度學習的方法。同時,從學習到的人群模型角度,將其分為直接法和間接法。本文第2節(jié)介紹人數(shù)統(tǒng)計與人群密度估計技術的興起;第3節(jié)系統(tǒng)地介紹基于淺層學習模型的人數(shù)統(tǒng)計與人群密度估計算法,包括直接法和間接法;第4節(jié)從深度學習的角度入手,闡述人數(shù)統(tǒng)計與人群密度估計算法;第5節(jié)給出人群密度估計過程中常用的性能評估方法和基準數(shù)據(jù)集;第6節(jié)總結了人數(shù)統(tǒng)計與人群密度估計存在的挑戰(zhàn)以及未來的研究方向。
視頻監(jiān)控是安防的重要組成部分,而人數(shù)和人群密度是視頻監(jiān)控所關注的一個重要因素。為了清楚地介紹人數(shù)統(tǒng)計/人群密度估計技術的發(fā)展歷程,我們從監(jiān)控設備的發(fā)展進行闡述。
20世紀70年代開始出現(xiàn)電子監(jiān)控系統(tǒng),至今視頻監(jiān)控技術的發(fā)展可分為三個階段:(1)第一代模擬視頻監(jiān)控系統(tǒng)。20世紀70年代,依賴同軸電纜傳輸?shù)拈]路電視監(jiān)控系統(tǒng)CCTV(Closed Circuit TeleVision)開始出現(xiàn),這一代技術傳輸?shù)膱D像質(zhì)量差,難以適應大規(guī)模監(jiān)控。(2)第二代數(shù)字視頻監(jiān)控系統(tǒng)。20世紀90年代中期,得益于數(shù)字編碼技術和芯片技術的進步,數(shù)字視頻監(jiān)控系統(tǒng)應運而生,這一代技術圖像質(zhì)量好,城市級規(guī)模的安防系統(tǒng)也適用。(3)第三代智能視頻監(jiān)控系統(tǒng)。第二代數(shù)字視頻監(jiān)控系統(tǒng)催生了大規(guī)模的視頻監(jiān)控,人們對視頻監(jiān)控系統(tǒng)的需求空前高漲,人們所感興趣的“是誰,在哪,干什么”的問題,智能視頻監(jiān)控系統(tǒng)通過對原始視頻圖像進行一系列的基于計算機視覺的算法分析,使得自動回答這些問題成為可能。
第二代數(shù)字視頻監(jiān)控系統(tǒng)的出現(xiàn)使得監(jiān)控規(guī)模越來越大,當監(jiān)控人員面對多路監(jiān)控視頻時就會應接不暇,而且長時間盯著畫面人也容易疲憊。為解放監(jiān)控人員,減輕監(jiān)控人員的負擔,研究人員開始關注基于計算機視覺的監(jiān)控領域,而人數(shù)和人群密度一直都是視頻監(jiān)控中的一個比較重要的內(nèi)容。另一方面,第二代數(shù)字視頻監(jiān)控系統(tǒng)圖像畫質(zhì)的變好,也使得基于計算機視覺的人數(shù)統(tǒng)計與人群密度估計成為可能。1995年,英國學者開始研究人群運動估計和密度估計,以及潛在的人群危險情形,其中最主要的研究者是Davies等人[8]。之后,相繼出現(xiàn)了Marana等[9 - 12]重要學者。Davies和Marana可以說是基于計算機視覺進行人群密度估計領域的鼻祖。Davies的研究工作關注人數(shù)統(tǒng)計,代表定量統(tǒng)計領域;而Marana將人群分為不同的密度等級,是定性估計領域的代表。
第三代智能視頻監(jiān)控系統(tǒng)提供了海量的監(jiān)控數(shù)據(jù),為發(fā)展基于深度學習的人數(shù)統(tǒng)計和人群密度估計技術提供了條件。而深度學習算法的發(fā)展,也使得視頻監(jiān)控系統(tǒng)越來越智能。
可以看出,隨著視頻監(jiān)控設備的更新,以及人們對安防領域的重視,使得智能監(jiān)控技術蓬勃發(fā)展。下面我們分別從淺層學習和深度學習方面,對人數(shù)統(tǒng)計和人群密度估計技術進行詳細介紹。
一般來說,基于淺層學習的人數(shù)統(tǒng)計與人群密度估計技術的具體流程包括圖像獲取、預處理、特征提取、特征分類和結果輸出,如圖1所示。
Figure 1 Process of crowd counting and crowd density estimation algorithm圖1 人數(shù)統(tǒng)計與人群密度估計算法基本流程
通過攝像機獲取人群圖像,人群密度估計中攝像機的位置一般固定不變,因此可用一些能達到實時性要求的基于背景建模的方法提取前景,常用的有基于時空背景隨機更新的VIBE(VIsual Background Extractor)方法[13]、混合多高斯背景GMM(Gaussian Mixture Model)建模方法[14,15]等。人群密度估計的過程中常用幾何矯正[16,17]對圖像進行預處理,以減小由攝影畸形帶來的誤差。特征提取、特征分類是人群密度估計的核心部分。如何設計出有區(qū)分度的特征以便更好地進行人群密度估計,一直以來都是學者們所關注的內(nèi)容。常用的特征有Edgelet特征[18]、梯度統(tǒng)計特征[16,19,20]、局部二值模式LBP(Local Binary Pattern)特征[21,22]、Harris特征[23]等。特征分類則是根據(jù)提取到的特征采用機器學習的方法學習一個分類模型或分類函數(shù)來擬合分類對象。目前主要有兩種人群密度估計的方法:直接法和間接法。特征分類的過程中,如果學習的是一個分類模型則為直接法,若學習的是一個分類函數(shù)則為間接法(或基于特征的方法),如圖2所示。直接法學習到的可以是人的整體模型,也可以是部分模型。針對運動個體,還可利用其運動信息進行軌跡聚類分析[24,25]。間接法中根據(jù)特征提取的不同,可將其分為基于像素的方法、基于紋理的方法以及基于角點的方法。
Figure 2 Examples of direct method圖2 直接法示例
直接法試圖檢測圖像中每一個體,直接法又可進一步分為基于模型的方法和基于軌跡聚類的方法?;谀P偷姆椒ɡ脠D像的局部信息,訓練出一個人體模型檢測器來檢測個體。基于軌跡聚類的方法假定人群由單個個體組成,且每一個個體都有著獨特而連貫的運動模式,通過對軌跡進行聚類就可以得到近似的人數(shù)。
3.1.1 基于模型的方法
人體模型可以指整體模型,也可以指頭部等部件模型,模型也稱為檢測器。通過在圖像空間上滑動檢測器來檢測圖像中的每一個個體,以達到統(tǒng)計人數(shù)的目的。
(1)整體檢測。最直觀、最直接的方法就是整體檢測[26],通過一組行人圖像訓練出一個行人檢測器,如圖2a所示。通??梢杂脕肀硎拘腥苏w的特征有Haar小波[27]、梯度方向直方圖HOG(Histograms of Oriented Gradients)[28]、edgelet[18]以及shapelet[29]。Haar小波是較早用于行人檢測的特征,HOG、edgelet以及shapelet都是基于梯度的特征,其中Dalal等人[28]提出的HOG影響最大,HOG特征也成為行人檢測中的主流特征。分類器的選擇對檢測速度和檢測的正確率的影響很大,通常速度和正確率無法兼得,比如徑向基函數(shù)RBF(Radial Basis Function)、支持向量機的檢測正確率比較高,但是卻面臨檢測速度慢的問題。行人檢測中常用的分類器有Boosting、線性支持向量機、隨機森林以及霍夫森林[30]等。當人群比較稀疏、人與人之間不存在較大的重疊時,利用整體檢測能得到一個比較準確的人數(shù),但當人群變得比較密集時,這種方法得出的結果將不可信。
(2)部件檢測。部件檢測能在一定程度上解決人群密集情況下的人數(shù)統(tǒng)計的問題,當人與人之間存在部分遮擋時,部件模型[31 - 37]同樣有效。文獻[31,32]通過檢測監(jiān)控區(qū)域內(nèi)的人頭來實現(xiàn)人數(shù)統(tǒng)計,在其工作中,Haar小波變換用于提取人頭的輪廓特征。單純利用人頭模型來進行人數(shù)統(tǒng)計結果精度不高,如果加入肩膀區(qū)域,通過檢測人頭和肩膀區(qū)域類似于Ω的形狀,統(tǒng)計結果將變得更加準確[37],如圖2b所示。
3.1.2 基于軌跡聚類的方法
基于軌跡聚類的方法依賴于假定個體運動場或視覺特征相對一致,因此相干的特征軌跡可以被聚合到一起表示移動的個體。遵循這一范式的研究包括:Brostow和Cipolla[24]提出非監(jiān)督的貝葉斯聚類方法跟蹤局部特征,并將其聚合成簇,如圖2c所示;Rabaud和Belongie[25]利用KLT(KanadeLucasTomasi)跟蹤器來獲取一組豐富的低級跟蹤特征,然后通過對軌跡聚類來推斷監(jiān)控區(qū)域中的人數(shù),如圖2d所示,類似的工作還可參考文獻[38-40]等。
基于軌跡聚類的方法依賴于非監(jiān)督的對個體的運動進行聚類,避免了顯式地對個體的外觀進行建模。然而,如果場景中兩個個體具有共同的軌跡,統(tǒng)計結果將變得不可信。
間接法又被稱為基于回歸的方法或基于映射的方法,一般通過回歸模型求出人群特征與人數(shù)之間的函數(shù)或利用分類器將人群特征映射到對應的人群密度等級。前者為定量估計,主要代表人物為Davies;后者為定性估計,主要代表人物為Marana。定性估計一般分為五個不同的密度等級,分別為很低、低、中等、高以及很高。其均參照1983年Polus[41]定義的服務級別,如表1所示。
Table 1 Service levels defined by Polus
間接的人數(shù)統(tǒng)計與人群密度估計方法中,常用的人群特征有前景像素特征、紋理特征和角點特征,分類器有支持向量機SVM(Support Vector Machine)、反向傳播BP(Back Propagation)神經(jīng)網(wǎng)絡以及自組織映射SOM(Self Organizing Maps)神經(jīng)網(wǎng)絡等,回歸模型有高斯處理回歸、線性回歸、SVM回歸等。根據(jù)特征提取的不同,可將人數(shù)統(tǒng)計與人群密度估計方法分為基于像素的方法、基于紋理的方法以及基于角點的方法。
3.2.1 基于像素的方法
像素統(tǒng)計特征最先被用于人數(shù)統(tǒng)計,Davies等人[13]利用圖像和背景相減的方法得到運動前景,然后以前景像素面積和前景邊緣為特征做線性回歸。Yang和Ma等人[42,43]則僅提取人群圖像的前景面積特征,其系統(tǒng)分別針對室內(nèi)以及室外監(jiān)控。Cho等[44 - 46]同樣利用前景像素面積和前景邊緣特征基于前向神經(jīng)網(wǎng)絡估計人群密度。Regazzoni等人[47]則認為前景像素與人數(shù)是非線性的關系,盡管作了一些改進,但他們的方法主要專注于室內(nèi)的場景,人群數(shù)量也有限(30人)。Damian等人[17]于2007年提出射影畸形矯正方法,通過對每個網(wǎng)格內(nèi)的像素賦予不同的權值的方法,提取出像素統(tǒng)計特征,最后采用SVM進行分析,得出相應的人群密度信息。而Hussain等人[48]組合使用背景消除和邊緣檢測來進行特征提取,并對前景像素塊進行縮放以矯正透視失真,然后輸入BP神經(jīng)網(wǎng)絡進行人群密度估計,將人群分為“很低”“低”“中”“高”和“很高”五個密度等級。
綜上所述,像素統(tǒng)計特征不僅可用于人數(shù)統(tǒng)計,還可以用來進行密度估計。基于像素的方法的一般流程包括:前景分割、人群特征提取以及學習分類或者回歸,如圖3所示。
Figure 3 Process of pixel based method圖3 基于像素的方法流程
總體上來說,基于像素統(tǒng)計的算法比較直觀,易于理解。其基本思想是:人群越密集,分離出人群前景的像素點或邊緣像素點的數(shù)量就越大。像素統(tǒng)計特征與人群密度或者人群數(shù)量之間的關系比較簡單,容易訓練,并且訓練后的分類器或者函數(shù)關系的泛化能力強。但是,該類方法依賴于提取前景,若前景提取不好則估計結果將失效,而且高密度人群環(huán)境下正確率低。
3.2.2 基于紋理的方法
Marana認為人群圖像具有紋理特征,低密度的圖像具有較粗的紋理模式,而高密度的人群圖像具有較細的紋理模式,根據(jù)這個特點,統(tǒng)計人群紋理圖像的灰度共生矩陣GLDM(Grey Level Dependence Matrices)[9 - 11]或閔科夫斯基分形維數(shù)MFD(Minkowski Fractal Dimensions)[12]作為特征,利用SOM神經(jīng)網(wǎng)絡進行分類,將人群分為“很低”“低”“中”“高”和“很高”五個密度等級。隨后Marana又引入信號處理的方法,將小波變換應用到人群密度估計中。他首先對人群圖像進行二級小波包分解,得到小波系數(shù)矩陣,然后計算小波系數(shù)矩陣的能量,最后將能量值作為特征值送入自組織神經(jīng)網(wǎng)絡進行分類。小波包的多尺度分類特性能有效解決圖像的透視效果,該算法的精度比較高。Li[49]追隨Marana的工作,同樣將二維離散小波變換引入人群密度估計中,并基于SVM將人群密度分為四個等級。Rahmalan等人[50]提出基于切比雪夫平移正交不變矩TIOCM(Translation Invariant Orthonormal Chebyshev Moments)的人群紋理描述特征,同樣用SOM神經(jīng)網(wǎng)絡將人群密度分為五個范圍。并將TIOCM與GLDM和MFD特征做比較,在其數(shù)據(jù)集上TIOCM取得了較好的效果,而MFD效果最差。Wu等人[51]同樣結合GLDM和SVM進行自動的人群密度估計,并能檢測出不正常的人群密度。
當前的研究工作中,紋理特征主要用于人群密度估計。該類方法一般在原始圖像上提取紋理特征,然后進行特征分類得到相對應的人群密度等級,如圖4所示。
Figure 4 Process of texture based method圖4 基于紋理的方法流程
基于圖像的紋理特征對人群密度進行估計雖在一定程度上解決了基于像素的方法在高密度人群場景中估計效果差的問題,但此方法在低密度人群環(huán)境下表現(xiàn)不是太好。此外,由于直接在原始圖像上提取紋理特征,容易被背景紋理干擾。
3.2.3 基于角點的方法
Albiol等人[23]最先將Harris角點特征引入人數(shù)統(tǒng)計中,其方法以優(yōu)越的性能在PETS2009(Performance Evaluation of Tracking and Surveillance)勝出。2010年,Conte等人[52,53]在Albiol的方法基礎上做了改進,他們選用了加速穩(wěn)健特征SURF(Speeded Up Robust Feature)點作為特征點來解決Harris角點檢測的不穩(wěn)定性問題,同時引入逆投影變換IPM(Inverse Perspective Mapping)來解決透視效應。呂濟民等人[54]在Albiol和Conte的方法的基礎上,使用了“非最大抑制聚類”——對不同拍攝距離的人群采取不同的聚類標準,該研究成果在處理遠距離人群上的精度比較高。
目前,大多數(shù)人用此類方法進行人數(shù)統(tǒng)計,其一般經(jīng)過角點檢測、背景角點剔除,然后以前景角點個數(shù)進行回歸得出相應的人數(shù),如圖5所示。
Figure 5 Process of corner point based method圖5 基于角點的方法流程
角點特征被最后引入人群密度估計領域,從2009年出現(xiàn)后,以其優(yōu)越的性能獲得了大量學者的關注。
2006年以來,深度學習(尤其是卷積神經(jīng)網(wǎng)絡)迅速成為研究的熱點,已被廣泛應用到目標檢測和識別、圖像分割等領域。研究人員也開始轉入到基于深度學習的人數(shù)統(tǒng)計與人群密度估計技術,基于深度學習的方法同樣包括直接法和間接法。接下來將介紹一些經(jīng)典的算法。
基于深度學習的直接法試圖訓練出行人檢測器,檢測出圖像中的每一個個體,文獻[55]最先將卷積神經(jīng)網(wǎng)絡應用于行人檢測,該方法也被稱為ConvNet。ConvNet混合使用了監(jiān)督學習和非監(jiān)督學習,該項工作還提供了有限的樣本(614個正樣本,1 218個負樣本)訓練深度網(wǎng)絡的策略。另一項經(jīng)典的工作是將2007~2009年連續(xù)三年獲得VOC(Visual Object Class)冠軍的目標檢測算法DPM(Deformable Parts Model)用于行人檢測。文獻[56]通過一組受限玻爾茲曼機RBM(Restricted Boltzmann Machine)擴展DPM,來解決行人檢測中的遮擋問題。其后,文獻[57]又在此基礎上訓練出多人的檢測器,該算法可以正確檢測出人群中無法通過單人檢測器檢測出的行人。一些學者將深度學習模型視為黑盒子,事實上這種看法并不全面。聯(lián)合深度學習[58]則利用傳統(tǒng)計算機視覺系統(tǒng)與深度模型之間的密切聯(lián)系,成為行人檢測方面的一個成功例子。聯(lián)合深度學習包括特征提取、部件幾何形變建模、部件檢測器、部件遮擋處理以及分類器等組成模塊。文獻[59]提出的多尺度相關池化MultiSDP(Multi Scale Dependent Pooling)網(wǎng)絡組合使用多級分類器和深度模型對網(wǎng)絡進行優(yōu)化,該方法能有效避免訓練的過擬合。SDN(Switchable Deep Network)[60]是目前行人檢測領域表現(xiàn)最好的算法,其引入了一個可切換的受限玻爾茲曼機來自動學習層次特征、顯著圖以及身體部位的混合表示。
除此之外,還有一類方法通過深度網(wǎng)絡直接回歸出人數(shù)或給出一個密度等級。Fu等人[61]提出了一個多級的卷積神經(jīng)網(wǎng)絡,將人群分為“很低”“低”“中”“高”“很高”五個密度等級,且分類正確率能達到96.8%。中國科學院自動化研究所錄制了包括不同天氣條件的人群視頻,且視頻來源于不同地點共6個場景。黃凱奇的研究團隊[62]以6個場景的視頻切片的源圖像以及光流圖像分別作為卷積神經(jīng)網(wǎng)絡的輸入,回歸出了場景中兩個不同方向(進入以及離開)的人數(shù)。另一項比較新的工作來自于香港中文大學的王曉剛的研究團隊[63],他們提供的方法不僅能同時估計出人群密度以及人數(shù),而且還能夠適用于不同的場景。
當前,大多數(shù)基于深度學習的人數(shù)統(tǒng)計方法為直接法,為解決人數(shù)統(tǒng)計中的遮擋問題,很多學者做了大量的研究工作。但是,這種基于檢測的直接法最大的缺點就是在檢測的過程中,需要大量的候選窗口,這樣大大降低了算法的時效性。通常,人數(shù)統(tǒng)計或者密度估計不應該關注個體,近兩年也有部分工作開始注重基于深度學習回歸的人數(shù)統(tǒng)計和人群密度估計算法。
為了對人群人數(shù)統(tǒng)計和密度估計算法進行性能評估,需要一些有效的評價指標。對于人數(shù)統(tǒng)計,常用的評價指標有三個,分別為平均絕對誤差MAE(Mean Absolute Error)、均方誤差MSE(Mean Squared Error)以及平均偏差誤差MDE(Mean Deviation Error)[6]。
MAE的定義如式(1)所示:
MSE的定義如式(2)所示:
MDE的定義如式(3)所示:
MAE和MSE被廣泛用于評價算法的性能,但對于人數(shù)統(tǒng)計,這兩項指標無法反映密度的變化,而MDE不僅能評測算法性能,還可以反映出密度的變化,因此被大量用于評價人數(shù)統(tǒng)計算法。
對于人群密度估計,常常被看作是一個分類問題,因此一般都用正確率來評價算法的性能。
人數(shù)統(tǒng)計和人群密度估計技術常用的基準數(shù)據(jù)集如下:
(1)PETS2009[64]:第11屆國際跟蹤與監(jiān)控性能評價研討會上引入的數(shù)據(jù)集,包含3個不同的人群場景S1、S2和S3,其中S1主要用于人數(shù)統(tǒng)計和密度估計,S2用于行人跟蹤,S3用于光流分析以及事件識別。
(2)Fudan[65]:錄制于上海復旦大學光華樓的入口,總共1 500幀,被分為5個不同的部分。這個數(shù)據(jù)集不僅提供了原圖像,而且還提供了分割出的前景二值圖,以及一些提取的人群特征供研究者使用。
(3)Grand Central[66]:由香港中文大學Zhou提供,拍攝了一段包含33 min的紐約中央火車站的人群視頻,監(jiān)控的范圍比較大,且行人比較多。
(4)UCSD[67]:包含2 000幀標記好的行人視頻,視頻中行人相向而行,且人群密度從稀疏到密集變化。
(5)Mall[68]:由香港中文大學Loy提供,是一段通過公共監(jiān)控攝像頭拍攝的商場的行人視頻。
(6)Chunxi_Road[69]:由成都電子科技大學的付敏提供,拍攝于春熙路,包含的行人比較多,且行人姿態(tài)(有運動的也有靜止的)和著裝各異,該數(shù)據(jù)集更接近于真實的人群場景。
基于計算機視覺的人數(shù)統(tǒng)計與人群密度估計歷來都是一項比較富有挑戰(zhàn)性的任務,主要需要克服以下幾方面的困難:
(1)監(jiān)控圖像(尤其是室外監(jiān)控)容易受到光照、天氣等因素的影響;
(2)對于不同的場景,相機參數(shù)的不同使得人群圖像有著不同程度的攝影畸形;
(3)人群姿態(tài)各異,有擁擠以及遮擋現(xiàn)象的存在。
以上是幾個常見的挑戰(zhàn),這些因素要么影響人群的分割,要么使得模型在不同場景中無法通用,要么使得檢測個體變得很困難。
現(xiàn)有的算法大多數(shù)僅僅針對運動人群,且依賴于人群分割,若無法正確分割出人群,將無法有效地估計出人數(shù)。傳統(tǒng)的背景建模方法無法克服人群分割中的所有問題,F(xiàn)CN(Fully Convolutional Networks)[70]是一個比較優(yōu)秀的用于分割的深度網(wǎng)絡,未來將應用于人群分割。
監(jiān)控攝像頭日益增多,要想讓自己的算法得到大范圍的推廣,唯有設計出只需輕微修改參數(shù)就能應用的算法?,F(xiàn)階段這方面的研究工作還很少,且現(xiàn)有的基準數(shù)據(jù)集也很少有提供多個場景的,多場景的人數(shù)統(tǒng)計與人群密度估計技術將成為未來的熱點。
人群姿態(tài)與遮擋一直以來是研究者所關心的問題,并且有大量的研究用于解決這方面的問題。香港中文大學的王曉剛等人對DPM的應用一定程度上解決了此問題,而這兩年目標檢測領域的另幾個優(yōu)秀的算法分別為R-CNN[71]、SPP-NET[72]、Fast R-CNN[73]以及FasterR-CNN[74],如何將這些算法應用于行人檢測也是一個值得研究的課題。
總之,人數(shù)統(tǒng)計與人群密度估計的首要任務是設計出能更好表征人群的方法,Sermanet等人[75]指出,深度學習在很多應用上比人工設計的特征表現(xiàn)更優(yōu)異,近幾年來,也有很多學者轉向研究基于深度學習的人群密度估計算法,未來人數(shù)統(tǒng)計與人群密度估計領域也將涌現(xiàn)出更多的基于深度學習的方法。
作為人群分析方面的一項富有挑戰(zhàn)性的任務,人數(shù)統(tǒng)計與人群密度估計吸引了大量學者的注意力。20世紀90年代出現(xiàn)的數(shù)字視頻監(jiān)控系統(tǒng),使得學者們開始研究基于計算機視覺的人數(shù)統(tǒng)計與人群密度估計。從這二十多年的發(fā)展來看,人數(shù)統(tǒng)計與人群密度估計技術經(jīng)歷了從基于淺層學習的方法到基于深度學習的方法兩個階段。近些年來,基于淺層學習的方法的發(fā)展速度開始放慢,該領域具有影響力的研究成果大多集中在深度學習方面。隨著人們對安防方面要求的提高,基于計算機視覺的人數(shù)統(tǒng)計與人群密度估計系統(tǒng)勢必會得到大范圍的應用。而現(xiàn)有的方法普遍存在無法適用于不同場景的問題,這給系統(tǒng)的安裝帶來了不便,從而影響系統(tǒng)的推廣。但是,目前也有學者關注這個問題,相信在不久的將來,視頻監(jiān)控將變得更加智能。
[1] Huang Kai-qi, Chen Xiao-tang, Kang Yun-feng, et al. Intelligent visual surveillance: A review[J]. Chinese Journal of Computers, 2015,38(6):1093-1118.(in Chinese)
[2] Zhan B,Monekosso D N,Remagnino P,et al.Crowd analysis: A survey[J].Machine Vision & Applications,2008,19(5-6):345-357.
[3] Jacques Junior J C S,Musse R S,Jung C R.Crowd analysis using computer vision techniques[J].Signal Processing Magazine IEEE,2010,27(5):66-77.
[4] Li T, Chang H, Wang M,et al.Crowded scene analysis: A survey [J].IEEE Transactions on Circuits & Systems for Video Technology,2015,X(1):367-386.
[5] Ryan D,Denman S,Sridharan S,et al.An evaluation of crowd counting methods,features and regression models[J].Computer Vision & Image Understanding,2015,130(C):1-17.
[6] Loy C C,Chen K,Gong S,et al.Crowd counting and profiling: Methodology and evaluation[M]∥Ali S, Nishino K, Manocha D,et al.Modeling,Simulation and Visual Analysis of Crowds.Berlin:Springer,2013:347-382.
[7] Saleh S A M,Suandi S A,Ibrahim H.Recent survey on crowd density estimation and counting for visual surveillance [J].Engineering Applications of Artificial Intelligence,2015,41:103-114.
[8] Davies A C,Jia H Y A V.Crowd monitoring using image processing [J].Electronics & Communications Engineering Journal,1995,7(1):37-47.
[9] Marana A N, Velastin S A,Costa L F,et al.Estimation of crowd density using image processing[C]∥Proc of IEE Colloquium on Image Processing for Security Applications 1997,Digest No.074.
[10] Marana A N,Velastin S A,Costa L F,et al.Automatic estimation of crowd density using texture[J].Safety Science,1998,28(3):165-175.
[11] Marana A N,Costa L F,Lotufo R A,et al.On the efficacy of texture analysis for crowd monitoring[C]∥Proc of the 25th International Symposium on Computer Graphics, Image Processing, and Vision,1998:354-354.
[12] Marana A N, Da Fontoura Costa L,Lotufo R A,et al.Estimating crowd density with Minkowski fractal dimension[C]∥Proc of 1988 International Conference on Acoustics,Speech,and Signal Processing(ICASSP’88),1999:3521-3524.
[13] Wang Qiang, Sun Hong. Crowd density estimation based on pixel and texture[J]. Electronic Science and Technology, 2015,28(7):129-132.(in Chinese)
[14] Shen Na-li, Li Ning, Chang Qing-long. Crowd density estimation based on improved Gaussian mixture model[J]. Computer & Digital Engineering, 2012, 40(7):108-111. (in Chinese)
[15] Zhang Ying, Chen Lin-qiang, Yang Li-kun. People counting based on object segmentation and SVM[J]. Journal of Hangzhou Dianzi University, 2013,33(6):86-90.(in Chinese)
[16] Chan A B,Liang Z S J,Vasconcelos N.Privacy preserving crowd monitoring: Counting people without people models or tracking[C]∥Proc of IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2008:1-7.
[17] Roqueiro D, Petrushin V A. Counting people using video cameras [J].International Journal of Parallel Emergent & Distributed Systems,2007,22(3):193-209.
[18] Wu B,Nevatia R.Detection of multiple,partially occluded humans in a single image by Bayesian combination of edgelet part detectors[C]∥Proc of the 10th IEEE International Conference on Computer Vision(ICCV’05),2005:90-97.
[19] Chan A B, Vasconcelos N.Counting people with low-level features and Bayesian regression [J].IEEE Transactions on Image Processing,2012,21(4):2160-2177.
[20] Kong D,Gray D,Tao H.A viewpoint invariant approach for crowd counting[C]∥Proc of the 18th International Conference on Pattern Recognition(ICPR 2006),2006:1187-1190.
[21] Qin Xun-hui, Wang Xiu-fei, Zhou Xi, et al. Counting people in various crowed density scenes using support vector regression[J]. Journal of Image and Graphics, 2013,18(4):392-398. (in Chinese)
[22] Li Xue-feng, Li Xiao-hua, Zhou Ji-liu . Crowd density estimation based on completed local binary pattern[J]. Computer Engineering and Design, 2012, 33(3):1027-1031.(in Chinese)
[23] Albiol A,Silla M J,Mossi J M.Video analysis using corner motion statistics[C]∥Proc of IEEE International Workshop on Performance Evaluation of Tracking and Surveillance,2009:31-38.
[24] Brostow G J,Cipolla R.Unsupervised Bayesian detection of independent motion in crowds[C]∥Proc of 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR’06),2006:594-601.
[25] Rabaud V,Belongie S.Counting crowded moving objects[C]∥Proc of 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR’06),2006:705-711.
[26] Leibe B, Seemann E, Schiele B. Pedestrian detection in crowded scenes[C]∥Proc of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05), 2005:878-885.
[27] Jones M J,Snow D.Pedestrian detection using boosted features over many frames[C]∥Proc of the 19th International Conference on Pattern Recognition(ICPR 2008),2008:1-4.
[28] Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]∥Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2005:886-893.
[29] Sabzmeydani P,Mori G.Detecting pedestrians by learning shapelet features[C]∥Proc of 2013 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2010:1-8.
[30] Juergen G,Angela Y,Nima R,et al.Hough forests for object detection,tracking,and action recognition[J].IEEE Transactions on Software Engineering,2011,33(11):2188-2202.
[31] Lin S F,Chen J Y,Chao H X.Estimation of number of people in crowded scenes using perspective transformation [J].IEEE Transactions on Systems Man & Cybernetics Part A Systems & Humans,2001,31(6):645-654.
[32] Lin S F,Lin C D.Estimation of the pedestrians on a crosswalk[C]∥Proc of 2006 SICE-ICASE,2006:4931-4936.
[33] Felzenszwalb P F,Girshick R B,David M A,et al.Object detection with discriminatively trained part-based models[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2010,32(9):1627-1645.
[34] Lin T Y,Lin Y Y,Weng M F,et al.Cross camera people counting with perspective estimation and occlusion handling[C]∥Proc of 2011 IEEE International Workshop on Information Forensics and Security (WIFS’11),2011:1-6.
[35] Wu B,Nevatia R.Detection and tracking of multiple,partially occluded humans by Bayesian combination of edgelet based part detectors [J].International Journal of Computer Vision,2007,75(2):247-266.
[36] Wu B,Nevatia R,Nevatia R.Detection and tracking of multiple,partially occluded humans by Bayesian combination of edgelet based part detectors[J].International Journal of Computer Vision,2007,75(2):247-266.
[37] Li M,Zhang Z,Huang K,et al.Estimating the number of people in crowded scenes by MID based foreground segmentation and head-shoulder detection[C]∥Proc of the 19th International Conference on Pattern Recognition(ICPR’08),2008:1-4.
[38] Sidla O,Lypetskyy Y,Brandle N,et al.Pedestrian detection and tracking for counting applications in crowded situations[C]∥Proc of 2013 10th IEEE International Conference on Advanced Video & Signal Based Surveillance,2006:70.
[39] Cheriyadat A M,Bhaduri B L,Radke R J.Detecting multiple moving objects in crowded environments with coherent motion regions[C]∥Proc of 2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2008:1-8.
[40] Cheriyadat A M,Radke R J.Detecting multiple moving objects in crowded environments with coherent motion regions: US,US8462987[P].2013.
[41] Polus A, Livneh M,Craus.Geometry-flow-speed relationships and their effect on level of service[J].Publication of Council for Scientific & Industrial Res S Africa,1983(S316):253-260.
[42] Yang D B,Gonzalez-Banos H H,Guibas L J.Counting people in crowds with a real-time network of simple image sensors[C]∥Proc of the 9th IEEE International Conference on Computer Vision,2003:122-129.
[43] Ma R,Li L,Huang W,et al.On pixel count based crowd density estimation for visual surveillance[C]∥Proc of 2004 IEEE Conference on Cybernetics and Intelligent Systems,2004:170-173.
[44] Chow T W S,Yam Y F,Cho S Y.Fast training algorithm for feedforward neural networks:Application to crowd estimation at underground stations [J].Artificial Intelligence in Engineering,1999,13(3):301-307.
[45] Cho S Y,Chow T S,Leung C T.A neural-based crowd estimation by hybrid global learning algorithm[J].IEEE Transactions on Systems Man & Cybernetics Part B Cybernetics,1999,29(4):535-541.
[46] Chow T W S,Cho S Y.Industrial neural vision system for underground railway station platform surveillance[J].Advanced Engineering Informatics,2002,16(1):73-83.
[47] Regazzoni C S,Tesei A.Distributed data fusion for real-time crowding estimation[J].Signal Processing,1996,53(1):47-63.
[48] Hussain N, Yatim H S M,Hussain N L,et al.CDES: A pixel-based crowd density estimation system for Masjid al-Haram[J].Safety Science,2011,49(6):824-833.
[49] Li X,Shen L,Li H.Estimation of crowd density based on wavelet and support vector machine[J].Transactions of the Institute of Measurement & Control,2006,28(3):299-308.
[50] Rahmalan H,Nixon M S,Carter J N.On crowd density estimation for surveillance[C]∥Proc of 2006 the Institution of Engineering and Technology Conference on Crime and Security,2006:540-545.
[51] Wu X,Liang G,Lee K K,et al.Crowd density estimation using texture analysis and learning[C]∥Proc of IEEE International Conference on Robotics and Biomimetics(ROBIO 2006),2006:214-219.
[52] Conte D,Foggia P,Percannella G,et al.A method for counting people in crowded scenes[C]∥Proc of 2010 7th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS 2010),2010:225-232.
[53] Conte D, Foggia P,Percannella G,et al.Counting moving people in videos by salient points detection[C]∥Proc of International Conference on Pattern Recognition,2010:1743-1746.
[54] Lü Ji-min,Zeng Zhao-xian,Zhang Mao-jun. Counting pedestrains in video sequences based on non-maxima suppression clustering[J].Pattern Recognition and Artificial Intelligence, 2012, 25(1):150-156.(in Chinese)
[55] Sermanet P,Kavukcuoglu K,Chintala S,et al.Pedestrian detection with unsupervised multi-stage feature learning[C]∥Proc of 2013 IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR 2013),2013:3626-3633.
[56] Ouyang W.A discriminative deep model for pedestrian detection with occlusion handling[C]∥Proc of 2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2012),2012:3258-3265.
[57] Ouyang W, Wang X.Single-pedestrian detection aided by multi-pedestrian detection[C]∥Proc of IEEE Conference on Computer Vision and Pattern Recognition(CVPR 2013),2013:3198-3205.
[58] Ouyang W,Wang X.Joint deep learning for pedestrian detection[C]∥Proc of 2013 IEEE International Conference on Computer Vision, 2013:2056-2063.
[59] Zeng X, Ouyang W,Wang X.Multi-stage contextual deep learning for pedestrian detection[C]∥Proc of 2013 IEEE International Conference on Computer Vision (ICCV 2013),2013:121-128.
[60] Luo P,Tian Y,Wang X,et al.Switchable deep network for pedestrian detection[C]∥Proc of 2014 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2014),2014:899-906.
[61] Fu Min, Xu Pei, Li Xu-dong,et al.Fast crowd density estimation with convolutional neural networks[J].Engineering Applications of Artificial Intelligence,2015,43:81-88.
[62] Cao L,Zhang X,Ren W,et al.Large scale crowd analysis based on convolutional neural network[J].Pattern Recognition,2015,48(10):3016-3024.
[63] Zhang C,Li H,Wang X,et al.Cross-scene crowd counting via deep convolutional neural networks[C]∥Proc of 2015 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2015),2015:833-841.
[64] Pets2009 dataset[DS/OL].[2016-01-20].http://ftp.pets.rdg.ac.uk/pub/PETS2009/Crowd_PETS09_dataset/a_data/a.html.
[65] Fudan dataset [DS/OL].[2016-01-20].http://www.iipl.fudan.edu.cn/~zhangjp/Dataset/fd_pede_dataset_intro.htm.
[66] Grand central dataset [DS/OL]. [2016-01-20].http://www.ee.cuhk.edu.hk/~xgwang/grandcentral.html.
[67] UCSD dataset[DS/OL].[2016-01-20].http://www.svcl.ucsd.edu/projects/peoplecnt/.
[68] Mall dataset[DS/OL].[2016-01-20].http://www.eecs.qmul.ac.uk/~ccloy/downloads_mall_dataset.html.
[69] Chunxi_Road[DS/OL].[2016-01-20].http://cvlab.uestc.edu.cn/CDE_CNN/Dataset_Chunxi_Road.zip.
[70] Long J, Shelhamer E,Darrell T.Fully convolutional networks for semantic segmentation [J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017,39(4):640-651.
[71] Ross Girshick,Jeff Donahue,et al.Region-based convolutional networks for accurate object detection and segmentation[C]∥Proc of 2014 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2014), 2014:1.
[72] He K,Zhang X,Ren S,et al.Spatial pyramid pooling in deep convolutional networks for visual recognition[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2015,37(9):1904-1916.
[73] Girshick R.Fast r-cnn[C]∥Proc of IEEE International Conference on Computer Vision,2015: 1440-1448.
[74] Ren S,He K,Girshick R,et al.Faster R-CNN: Towards real-time object detection with region proposal networks[C]∥Proc of Advances in Neural Information Processing Systems,2015: 91-99.
[75] Sermanet P,Eigen D,Zhang X,et al.Overfeat: Integrated recognition,localization and detection using convolutional networks.arXiv preprint[J].2014: arXiv:1312.6229v4.
附中文參考文獻:
[1] 黃凱奇,陳曉棠,康運鋒,等.智能視頻監(jiān)控技術綜述[J].計算機學報,2015,38(6):1093-1118.
[13] 王強,孫紅.基于像素統(tǒng)計和紋理特征的人群密度估計[J].電子科技,2015,28(7):129-132.
[14] 沈娜黎,黎寧,常慶龍.基于改進混合高斯模型的人群密度估計方法[J].計算機與數(shù)字工程,2012,40(7):108-111.
[15] 張英,陳臨強,楊禮坤.基于目標分割與SVM的人數(shù)統(tǒng)計[J].杭州電子科技大學學報,2013,33(6):86-90.
[21] 覃勛輝,王修飛,周曦,等.多種人群密度場景下的人群計數(shù)[J].中國圖象圖形學報,2013,18(4):392-398.
[22] 李雪峰,李曉華,周激流.基于完全局部二值模式的人群密度估計[J].計算機工程與設計,2012,33(3):1027-1031.
[54] 呂濟民,曾昭賢,張茂軍.基于非最大抑制聚類的視頻人數(shù)估測方法[J].模式識別與人工智能,2012,25(1):150-156.