張曉 李峰 秦曉飛 張曉初
摘 要:針對俯視的行人,提出一種基于俯視行人特征、矩形分塊特征、顏色均勻特征等多特征融合的行人檢測和跟蹤方法。該方法主要由4個部分組成:運動檢測、目標識別、目標跟蹤建模、目標跟蹤。系統(tǒng)在整張圖像上用檢測窗遍歷掃描的方式檢測是否含有人頭目標,每次移動都是在原圖像的一個采樣,將所有候選目標都依次檢測,保留目標圖像;同時,對檢測到的目標重新建模以便后續(xù)跟蹤;最終利用MeanShift算法跟蹤檢測到的目標。實驗表明:該算法精度高、速度快,能有效避免漏檢、誤檢等情況,可以很好地適應復雜場景下的行人檢測。
關鍵詞:行人檢測;客流計數(shù);MeanShift算法;跟蹤算法
DOI:10.11907/rjdk.172876
中圖分類號:TP301
文獻標識碼:A 文章編號:1672-7800(2018)006-0027-05
Abstract:In this paper, a pedestrian detection and tracking method based on multi-feature fusion such as pedestrian character, rectangular block feature and color uniform feature is proposed. The method mainly includes four components: motion detection, target recognition, target tracking modeling and target tracking. The system employs the the detection window traversal scan to detect if there are head targets in the whole image and each move is a sampling of the original image of. All the candidate targets are detected in turn, and the target images are kept and remodeled for subsequent tracking; Finally, the MeanShift algorithm is used to track the detected targets. Experiments show that the algorithm is of high precision and speed and it can well adapt to the pedestrian detection in complex scenes for it can effectively avoid misdiagnosis and false detection.
Key Words:pedestrian detection; passenger flow counting; MeanShift algorithm; tracking; algorithm
0 引言
當今社會對行人檢測的需求越來越多[1],比如商場的進出口、火車站或地鐵的進出口、小區(qū)的安防系統(tǒng)[2]。隨著社會的發(fā)展,行人檢測的重要性日益突出,行人檢測儀器及原理也愈加豐富。人頭檢測可以用于行人計數(shù)[14-15]、行人檢測等[16],具有很好的應用前景,并且在工程中易于實現(xiàn),只需要將攝像機安裝在人流通過區(qū)域的正上方,這樣拍攝到的圖像幾乎都會包含完整的人頭。
該領域最有影響力的早期作品之一是Papageorgiou等[3]的方法,他們使用幾個尺度的哈爾小波濾波器提取人物的特征。對于面部檢測的問題,類似Haar特征被證明是非常有效的,但對行人外觀和形狀變化較大的處理能力較差。在引入SIFT描述符之后出現(xiàn)了重大突破。受SIFT的啟發(fā),Dalal和Triggs[5]提出了方向梯度直方圖(HOG)特征。 HOG出現(xiàn)后,引入了HOG的幾個推導。Wu等[6]與HOG和Wang等[7]將局部二值模式(LBP)與HOG結合在一起[8]。盡管看起來與HOG的所有可能功能組合已被徹底探索,但事實并非如此。如Dollar等[9]回顧了原始的HOG,并開發(fā)了積分通道特征(ICF),它是多個通道的矩形總和,如LUV顏色、灰度、梯度和方向。Benenson等[10]采用平方和代替矩形計算ICF特征,并命名為平方通道特征(SCF)。此外還引入了聚合通道特征(ACF)[11],以多尺度加速特征計算,不再利用矩形而是使用像素查找。 Nam等引入局部去相關濾波器消除鄰域中信道特征的相關性,將其命名為局部相關通道特征(LDCF),該方法提高了ACF的性能。ZLD等[12]受LDCF啟發(fā),創(chuàng)建了過濾通道特征(FCF)的框架,比較了幾種過濾組合的性能,并打破了LDCF的記錄。Park等[13]提高了ACF的性能,增加了從弱穩(wěn)定序列提取的光流特征,并將其命名為SDt。
為了從視頻序列中提取移動的行人區(qū)域,已經(jīng)提出幾種方法:幀差分法、光流法和背景減法。幀差分法不能很好地適應環(huán)境。光流法可以分析從圖像序列到近似計算移動的目標字段的光流場,可以通過分割場景圖像來檢測對象領域。然而,流量不能在本地計算,因為在圖像序列的某一點只能獲得一個獨立的測量值,而流速具有兩個分量[12]。本文提出用一種通用的背景減法提取前景。前景圖像可以從背景減去的輸入圖像中快速提取。背景減法的結果可以呈現(xiàn)目標形狀、位置和大小信息。
綜合以上幾類方法為基礎,本文提出了基于多特征融合的人頭檢測和跟蹤算法。該算法主要包括運動檢測、目標識別、目標跟蹤建模、目標跟蹤4個部分。通過檢測窗對候選目標快速篩選,檢測出目標圖像,然后用MeanShift算法進行目標跟蹤識別。
1 俯視行人特征分析
根據(jù)實際拍攝的圖片,檢測窗體大小設為 75×75,滑動檢測窗,矩形框每一次移動都是在原圖像的一個采樣,如圖1。
其中圖1中的(1)、(2)、(3)、(4)、(6)、(7)、(13)、(14)、(15)為人頭圖像,且圖(2)和圖(3),圖(6)和圖(7)都分別為同一個人。遍歷方框采用75×75,由于白色部分為1,黑色部分為0,75×75=5 625,白色部分積分值大概在1 700—3 500之間,其中1 700是直徑為75的圓,5 625-75^2/4*3.14=1 700,3 500是測得的人頭最小極限。圖(5)、(8)、(9)、(10)、(11)、(12)均為干擾項,其中圖1的(5)為一個黑色肩膀,圖1的(8)、(9)、(10)為同一條褲子,圖1的(11)、(12)是同一個書包。(圖1的(1)、(2)、(3)來自圖2(1);圖1的(5)、(6)、(7)來自圖2(2);圖1的(8)、(9)、(10)來自圖2(3);圖1的(14)、(15)來自圖2(4)。
針對圖1(1-15)進行特征分析,其中圖1(3)是最理想的目標對象。二值化人頭特征是把不符合條件特征的樣本刪去,無論是HOUGH變換圓檢測、輪廓特征檢測,還是矩形分塊特征檢測,圖(3)都是最理想的樣本,但實際檢測中背景變換太復雜,當行人穿著為黑色衣褲,或者披長發(fā),檢測就比較困難,因此有必要分析復雜背景下人頭特征。具體特征描述如下:(遍歷取樣取積分值為1 700-3 500)
(1)一個人頭后面的背景如果不是黑色,那么取樣結果任意三條邊不能同時含有黑色,也就是說任意三條邊的積分值不能同時不等于75,否則刪除所得樣本。
(2)當然對于圖1(11)、(12)特征二同樣有效,但圖1(8)特征二并不能剔除,因此提出檢測直線的方法,,圖1(8)、(9)、(10)中直線形成的原因主要是,在腐蝕膨脹后,圖像中一些近似直線的線條會變成純粹的直線,而人頭圖像不會產(chǎn)生長度超過20個像素的直線。圖4是圖1(9)放大后的圖像,可以清楚看出圖中左下方有一條直線,以及中上方有一條短直線,因此建立函數(shù)detectline,檢測采樣樣本中是否含有長度超過20像素的直線。
(3)假定一個人頭圖像只能位于檢測窗的左下角,不能位于右上部分,即類似圖1(2)、(3)的人頭,這樣可以剔除圖1(10)、(11)的干擾?;诖?,設定任意一個采樣樣本黑色部分如果與兩條邊相交,那它只能與左邊和下邊相交,而右邊和上邊設定為白色,按照這個標準能采到一個人頭圖像相應樣本。同時也直接排除了圖1(9)、(10)、(11)。
(4)頭部顏色也是突出特征,但本文沒有直接用黑色作為目標特征,而是通過計算矩形框內(nèi)所有像素值的方差來確定。這樣,也可以有效辨識那些頭發(fā)染色或禿頭的行人。
2 矩形分塊特征
本文將矩形分塊特征應用于俯視人頭檢測。根據(jù)其左右、上下邊界特征作為判斷標準,如圖5為人頭矩形分塊。
左右邊界特征:即將矩形框從左到右分成4個列,如果目標在矩形框的中間,則矩形框左側兩列矩形塊之間和右側兩列矩形塊之間都會存在很明顯差異,如圖1。檢測窗從左向右第 1、2、3、4 列矩形分塊的積分值分別用R(1L)、R(2L)、R(3L)、R(4L)表示;分別用F-1、F-2檢測矩形框左右兩邊是否存在邊界。
上下邊界特征,同左右邊界特征類似,如果被檢測目標在矩形框中間,將矩形框從上到下分為4行,如果目標在中間,那么矩形框上邊的兩行和下邊的兩行之間都會存在較大差異。因此可將式(1)-(6)稍加改動,作為上下邊界特征的判斷準則。
矩形特征閾值的確定只需要正樣本,每一種矩形特征都需要通過所有的正樣本確定相應的閾值。
3 目標檢測及跟蹤
3.1 目標檢測
此外,將前兩節(jié)得到的每一個特征都設計為簡單的分類器,分類器之間是級聯(lián)的關系,只有滿足所有特征的目標才是真正的目標。
3.2 人頭目標跟蹤
3.2.1 目標模型建立
3.2.2 候選模型建立
H表示核函數(shù)窗口的大小,決定權重的分布,其它參數(shù)則同目標模型。
3.2.3 相似性度量
本文采用Bhattacharyya系數(shù)作為相似函數(shù),其定義為:
以前一幀中的目標中心位置為搜索窗口中心,逐漸尋找候選區(qū)域。若在該區(qū)域中相似函數(shù)最大,則該區(qū)域即是本幀中的目標位置。
3.2.4 MeanShift區(qū)域搜索
對式(18)進行泰勒展開,得到Bhattacharyya系數(shù)的近似表達式為:
通過候選區(qū)域中心向真實區(qū)域中心的MeanShift迭代方程完成其極大化過程:
根據(jù)2.2.1-2.2.3所建立的狀態(tài)方程估算出目標存在的粗略位置,進而采用 Mean Shift 算法在該區(qū)域對目標位置搜索,減少了對整幅圖像搜索帶來的無效計算,提高了算法效率。
3.3 算法總體框架
系統(tǒng)整體架構如圖6所示。系統(tǒng)主要包括3個模塊:運動目標檢測模塊、人頭檢測模塊、目標跟蹤模塊。
4 實驗結果與分析
選取監(jiān)控視頻,并選取500幀圖片作為測試樣本,圖像大小為320×240,采用64×64尺度的檢驗窗,依次遍歷掃描,每次步長6個像素。檢測效果如圖7所示。
為驗證本文方法有效性,利用基于多特征融合的人頭檢測算法,對上述500幀圖片進行檢測,并與傳統(tǒng)的基于Hough變換的人頭檢測方法進行對比。如表1和表2所示。
由表1可知本文算法與Though變換算法相比,漏檢率降低14.44%,查全率提高14.44%,查準率提高3.76%,因此本文算法更有效。由表2可得本文算法與Though變換算法相比,速度提高7.205s,實時性更好,更有利于實時監(jiān)測。
5 結語
本文提出一種基于多特征融合的俯視行人檢測與跟蹤方法,通過檢測窗對候選目標快速篩選,將不符合人頭特征和非人頭干擾特征的采樣目標刪去,最終保留目標圖像,然后用MeanShift算法進行目標跟蹤識別。該方法精度高、抗干擾性好,對于復雜場景中的人頭圖像可以有效地檢測、實時處理數(shù)據(jù),具有較強的實用性和推廣性。
參考文獻:
[1] 蘇松志,李紹滋,陳淑媛等.行人檢測技術綜述[J].電子學報,2012,40(4):814-820.
[2] NGUYEN D T, LI W Q ,OGUNBONA P O. Human detection from images and videos: a survey[J]. Pattern Recognition, 2016,51:148-175.
[3] EUM H, YOON C, LEE H, et al.Continuous human action recognition using Depth MHI-HOG and a Spotter Model[J]. Sensors, 2015(15):5197-5227.
[4] HAN J,BHANU B. Human activity recognition in thermal infrared imagery[C]. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops,2005:17-24.
[5] ANTONUCCI A, ROSA R D, GIUSTI A. Action recognition by imprecise Hidden Markov Models[C]. In Proceedings of the 2011 International Conference on Image Processing, Computer Vision and Pattern Recognition, 2011:474-478.
[6] Human activity video datasets. accessed on 26 January (2017)[EB/OL].https://www.cs.utexas.edu/~chaoyeh/web_action_data/dataset_list.htmal.
[7] HARDING P R G, ELLIS T.Recognizing hand gesture using Fourier descriptors[C]. Proceedings of the IEEE International Conference on Pattern Recognition,2004:286-289.
[8] DIAZ-RODRIGUEZ N, CADAHIA O L, CUELLAR M P, et al. Handling real-world context awareness, uncertainty and vagueness in real-time human activity tracking and recognition with a fuzzy ontology-based hybrid method[J]. Sensors, 2014,14(10):18131-18171.
[9] BATCHULUUN G, KIM Y G, KIM J H,et al. Robust behavior recognition in intelligent surveillance environments[J]. Sensors,2016(16):1-23.
[10] Actions as space-time shapes. [EB/OL]. http://www.wisdom.weizmann.ac.il/~vision/SpaceTimeActions.html
[11] BARUA A, MUDUNURI L S, KOSHELEVA O. Why trapezoidal and triangular membership functions work so well: towards a theoretical explanation[J].Uncertain System,2014(8):164-168.
[12] JIANG H, DREW M S, LI Z N. Successive convex matching for action detection[C]. Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2006:1646-1653
[13] FATING K,GHOTKAR A. Performance analysis of chain code descriptor for hand shape classification[J]. International Journal of Computer Graphics and Animation,2014(4):9-19.
[14] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C].IEEE International Conference on Computer Vision and Pattern Recognition, 2014:580-587.
[15] WANG Z,CAO X B, YANG P K . Transfer learning for pedestrian detection [J]. Neurocomputing, 2013,100(1):51-57.
[16] GERONIMO D,LOPEZ A M. Vision-based pedestrian protection systems for intelligent vehicles[M],New York:Springer Publishing Company, 2013 .
[17] 朱夢超,潘今一 .基于 HOG-PCA 和 SVM 的人行橫道信號燈識別方法[J].工業(yè)控制計算機,2015,28(4):125-126.
[18] 牛勝石,毛曉暉,侯建華,等.基于 Adaboost 和SVM 的人頭實時檢測[J].微型機及應用,2010(3):33-36.
[19] 文嘉俊,徐勇,戰(zhàn)蔭偉.基于 Ada Boost 和幀間特征的人數(shù)統(tǒng)計[J].中國圖像圖形學報,2011,16(9):1729-1735.
[20] 張海洋,陳國龍,李現(xiàn)偉.基于曲率尺度空間的人頭檢測方法研究[J].計算機工程與應用,2012,48(14):195-197.
[21] 鄭佳,李江勇.基于背景差分和信息熵的運動目標檢測算法[J].激光與紅外,2014,44(5):563-566.
[22] 陳磊,鄒北驥.基于動態(tài)閾值對稱差分和背景差法的運動對象檢測算法[J].計算機應用研究,2008,25(2):488-494.
[23] KRYIAK T,GORGON M. Real-time implementation of the ViBe foreground object segmentation algorithm[C]. Computer Science and Information Systems, 2013:591-596.
[24] LI Y, CHEN W, JIANG R. The integration adjacent frame difference of improved Vi Be for foreground object detection[C]. Wuhan:IEEE Conference on WiCOM, 2011:1-4.
[25] 洪虹,李文耀.基于背景重構的運動對象越界偵測方法[J].電視技術,2012,36(7):123-126.
(責任編輯:江 艷)