莊家俊 劉瓊
(華南理工大學(xué)軟件學(xué)院∥計算機科學(xué)與工程學(xué)院,廣東廣州510006)
基于視頻的行人檢測是計算機視覺領(lǐng)域中的一個研究熱點,是車輛輔助駕駛系統(tǒng)中保障行人與駕駛員安全的重要功能模塊,具有重要的應(yīng)用價值.駕駛員在夜間行車時的視覺范圍受到較大限制,相對于白天,在夜晚與行人發(fā)生交通事故的概率更高[1-2],因此探索夜間行人檢測方法的需求和意義更大.當(dāng)前,多數(shù)夜間行人檢測系統(tǒng)以紅外攝像頭為基礎(chǔ).Viola等[3-4]提出了基于Haar-like特征和AdaBoost算法的瀑布型級聯(lián)分類器,該方法具備一定的實時性,但與人臉相比,行人模式具有更大的外觀差異,直接應(yīng)用于行人檢測的效果并不理想;O’Malley等[5]利用方向梯度直方圖(HOG)特征對遠紅外行人進行描述,結(jié)合支持向量機(SVM)實現(xiàn)行人檢測,該方法檢測效果較好,但計算開銷稍大,在Matlab平臺下檢測速度為1~2幀/s;利用Haar-like特征計算速度快、HOG特征描述能力強的特點,Ge等[6]提出一種基于Haar-like和HOG特征及Gentle-AdaBoost算法的兩級樹型結(jié)構(gòu)的近紅外行人檢測器,在保證檢測性能的同時于一定程度上降低了運算復(fù)雜度;梁英宏[7]利用遠紅外圖像中人體比背景亮的特點,通過檢測圖像中的高亮區(qū)域,利用其灰度-投影直方圖進行行人檢測,該方法復(fù)雜度小,容易實現(xiàn),但其僅在簡單場景下可行,且虛警較多;Bertozzi等[8]根據(jù)行人的步態(tài)模式建立4個人體概率模板,再通過模板計算各像素的聯(lián)合概率判斷輸入圖像是否包含人體,計算開銷較低,但這種模板建立模式比較適合站立且腿部可見的行人;Sun等[9]提出一種描述性能較強的多級二元模式(PBP)特征,在多級網(wǎng)格劃分密度下利用每個網(wǎng)格中紋理信息的空間布局來描述紅外行人的對稱性特點,并采用SVM實現(xiàn)行人檢測,檢測性能優(yōu)于文獻[5]采用的HOG描述子,但PBP特征計算開銷較高,在Visual C++環(huán)境中也僅有平均10幀/s的處理速度.
面向輔助駕駛的行人檢測方法受其應(yīng)用條件和需求限制,必須具備良好的實時性和較高的準(zhǔn)確度[10].上述多數(shù)基于機器學(xué)習(xí)的檢測方法雖具備較高的準(zhǔn)確度,但其高計算復(fù)雜度的不足制約了算法的實時性.文中在前人研究成果的基礎(chǔ)上,采用單目遠紅外攝像頭,提出一種基于概率模板匹配的夜間行人檢測方法,并將該方法分為3個階段來介紹:(1)利用局部水平鄰域像素的灰度統(tǒng)計特性,獲得局部分割閾值,實現(xiàn)輸入圖像的二值化,并對分割結(jié)果進行形態(tài)學(xué)處理,通過8連通標(biāo)記提取出感興趣區(qū)域(ROIs);(2)采用人工分割獲得的訓(xùn)練樣本建立多尺度行人概率模板,對ROIs進行匹配判別;(3)結(jié)合目標(biāo)跟蹤和概率模板匹配,進行多幀處理結(jié)果的綜合判斷.
ROIs提取是為了提取紅外圖像中可能存在行人的區(qū)域,以降低計算開銷,便于后續(xù)目標(biāo)檢測,包括圖像分割、形態(tài)學(xué)處理和ROIs選取.
遠紅外圖像是熱圖像,一般情況下,人體散發(fā)的熱量高于周圍環(huán)境散發(fā)的熱量,對應(yīng)到圖像中則表現(xiàn)為行人區(qū)域比周圍背景亮[6],如圖1所示.從每一條水平線方向看,行人區(qū)域的像素比兩邊的背景亮,且在邊緣位置有一個突變,因此可利用局部水平鄰域像素的灰度統(tǒng)計特性實現(xiàn)圖像的二值化.文中采用一種局部閾值分割算法,按式(1)和(2)分別計算圖像中每個像素的兩個閾值,即低閾值TL和高閾值TH:
式中,(i,j)為當(dāng)前水平鄰域中心像素點的坐標(biāo),I(z,j)是局部水平鄰域中像素(z,j)的灰度值,ω為水平鄰域的半寬度,σ為該鄰域像素灰度值標(biāo)準(zhǔn)差的平方根為控制參數(shù),用于調(diào)節(jié)TH的取值.輸入圖像中坐標(biāo)為(i,j)的像素點的二值化結(jié)果I'(i,j)由式(3)確定:
圖1 行人區(qū)域灰度分布拓撲圖Fig.1 Topographic surface of intensity in a pedestrian area
由上述分析可以得出,半寬度ω較大時,局部水平鄰域?qū)⑼瑫r包含目標(biāo)及其兩邊背景區(qū)域的像素,獲取的高低閾值較為合理,更能凸顯目標(biāo)區(qū)域并抑制兩邊背景,故分割后人體的完整性較好,但計算開銷也較大;半寬度ω較小時,局部水平鄰域像素可能全部落入目標(biāo)內(nèi)部,這時局部鄰域灰度同質(zhì)性較高,導(dǎo)致得到較大的TL,容易降低分割后目標(biāo)的完整度.另一方面,控制參數(shù)較大時,得到的TH較大,也可能降低分割后目標(biāo)的完整度;控制參數(shù)較小時,容易導(dǎo)致分割結(jié)果中包含較多的噪聲.采用通過大量實驗確定參數(shù)的方式,文中發(fā)現(xiàn)當(dāng)ω和分別為12和2時,分割算法對輸入圖像具有較好的二值化效果,如圖2所示.
圖2 圖像的二值化效果及候選區(qū)域選取Fig.2 Binary segmentation result of an input image and corresponding candidates selection
為了消除二值圖像中的噪聲和填補弱連接區(qū)域,先后采用形態(tài)學(xué)腐蝕與膨脹操作來改善圖像中的連通區(qū)域.由于二值化階段采用了水平鄰域像素的灰度統(tǒng)計特性計算分割閾值,當(dāng)連續(xù)多個水平鄰域中的絕大部分像素位于人體內(nèi)部時,獲得的閾值TH和TL可能偏高,容易造成二值圖像中行人區(qū)域上下部位的弱連接甚至“斷裂”現(xiàn)象.為緩解該問題,文中采用1×3的結(jié)構(gòu)元素進行腐蝕操作以濾除噪聲,繼而采用3×3的結(jié)構(gòu)元素進行膨脹運算以填補弱連接區(qū)域.圖2(a)為實拍的紅外圖像,對其處理后的二值化效果見圖2(b),圖中所有區(qū)域均采用8連通標(biāo)記獲得.
圖2(b)表明,二值圖像中連通區(qū)域數(shù)量較多,且大部分屬于非行人區(qū)域.如果對所有區(qū)域進行后續(xù)檢測,不僅計算開銷較大,而且容易出現(xiàn)虛警.因此,可利用一些先驗知識對這些區(qū)域進行過濾.根據(jù)行人區(qū)域最小外接矩形寬高比的統(tǒng)計分布(見圖3)以及行人在圖像中可能出現(xiàn)的位置信息(即行人位于路面上的物理約束),過濾了絕大多數(shù)明顯的非行人區(qū)域,有效地提升了系統(tǒng)的執(zhí)行效率,最終獲取的ROIs如圖2(a)所示.
圖3 行人區(qū)域?qū)捀弑确植糉ig.3 Distribution of aspect ratio of pedestrian regions
行人檢測是車輛輔助駕駛系統(tǒng)的核心組成部分,與ROIs提取階段不同,其必須具備出色的分類性能.基于知識的檢測方法通過人為歸納出描述行人的某些特征或規(guī)律來判別行人模式,普遍具有計算復(fù)雜度低的優(yōu)點.
考慮到行人是非剛體,姿態(tài)多樣化容易造成行人類內(nèi)方差較大,所需建立的形狀/輪廓模板的數(shù)量將非常龐大(如文獻[11]中構(gòu)造了近1000個行人輪廓模板),在真實硬件平臺(如DSP)上實現(xiàn)時需要較大的存儲和匹配計算開銷.行人概率模板是對行人外觀模式的一種歸納,模板數(shù)量容易控制,在檢測階段可方便地通過模板與輸入圖像的相似性匹配程度來確認行人.
與基于機器學(xué)習(xí)的檢測方法類似,文中也需要利用行人樣本來構(gòu)建概率模板.運動方向的不同是造成行人外觀模式多樣性的主要原因之一,如圖4所示.不同于文獻[8]的方法,為降低行人類內(nèi)方差,提高每一個概率模板對相應(yīng)姿態(tài)下行人外觀模式的歸納準(zhǔn)確度,根據(jù)不同的運動方向,文中將樣本集劃分為沿著攝像頭運動(包括踩單車、跑步和行走等運動方式)、橫跨攝像頭由右向左運動和橫跨攝像頭由左向右運動3個子類,每個子類中各包含80個樣本.這種劃分方式使得在檢測階段不僅能判斷ROIs是否包含行人,而且即使在不加入目標(biāo)跟蹤與行為分析模塊時也能對行人的運動方向進行估計.
圖4 部分訓(xùn)練樣本Fig.4 Some examples of training dataset images
接下來,對所有樣本進行預(yù)處理,包括尺度調(diào)整和0-1二值化.首先將所有樣本通過插值調(diào)整至96像素×40像素.其次,在觀察了大量樣本的灰度分布情況后,發(fā)現(xiàn)每個樣本中屬于人體的像素高于周圍背景的像素灰度值,且多數(shù)情況下高于該局部區(qū)域的平均灰度值,為此,選取每個樣本的灰度均值作為對該樣本進行0-1二值化時的動態(tài)閾值,以凸顯行人的高亮像素區(qū)域.
根據(jù)樣本集的劃分方式,分別對應(yīng)建立3個運動方向的行人概率模板,如圖5所示.每個模板中相應(yīng)的像素取值代表該像素在該類樣本中高于樣本灰度均值的頻率,即該像素隸屬于人體區(qū)域的概率.
圖5 行人概率模板Fig.5 Pedestrian probabilistic templates
由于攝像頭安裝在運動平臺上,因此圖像中行人的成像尺寸是不斷變化的,而且受特定應(yīng)用背景的限制,即使及時檢測到車輛前方近距離處的行人,也難以保證駕駛員擁有足夠的反應(yīng)時間來采取緊急應(yīng)對措施,因此檢測位于中遠距離(15m之外)處的目標(biāo)顯得更有意義.文中采用的遠紅外攝像頭的空間分辨率(352×288)較低,位于中遠距離外的行人成像尺寸較小,而且這類目標(biāo)通常數(shù)量較多,若將每一個ROI調(diào)整至與模板同等大小的尺寸,所需的插值運算開銷較大,會影響系統(tǒng)的實時性.因此,文中將上述大尺度行人概率模板通過降采樣的方式重新建立3個尺度(分別是96像素×40像素、64像素×24像素和24像素×10像素)下的概率模板,分別對應(yīng)位于近(15 m之內(nèi))、中(15~45 m之間)、遠(約45m之外)距離下的目標(biāo)匹配運算.
受人體手臂擺動幅度的影響,ROIs的寬度變化較大,不適合估計當(dāng)前目標(biāo)的距離.文中根據(jù)視頻中所有行人樣本高度的統(tǒng)計分布規(guī)律,利用高度估計當(dāng)前ROIs與攝像頭之間的距離.將高度多于64像素的ROIs視為近距離目標(biāo),高度在24~64像素之間的視為中距離目標(biāo),其余的視為遠距離目標(biāo).進而對ROIs進行尺度調(diào)整,使其與相應(yīng)距離下模板的尺度相同,并對其進行0-1二值化處理(與訓(xùn)練樣本的處理過程相同).進一步根據(jù)式(4)與相應(yīng)尺度下的3個模板進行匹配運算:
式中,C為匹配值,R為進行預(yù)處理后的ROI,P為概率模板,n為R和P的像素數(shù).
式(4)表明,當(dāng)概率模板P中某個像素取值大于0.5且感興趣區(qū)域R中相應(yīng)像素取值也大于0.5時,即P中該像素隸屬于人體而R中該像素也隸屬于人體時,該像素將對最終的匹配值C賦予正貢獻;同理,當(dāng)P和R中某個像素取值同時小于0.5時,該像素也對C賦予正貢獻;反之,則對C賦予負貢獻.故式(4)表征了ROI各像素對匹配值C的聯(lián)合貢獻和.其中分母的作用在于將匹配值C規(guī)范化到[-0.5,0.5]之間,C 值越大表明匹配程度越高.
由于動態(tài)場景的復(fù)雜多變和不穩(wěn)定分割,難以保證目標(biāo)在每一幀中都能被準(zhǔn)確分割,容易造成目標(biāo)的漏檢,若能利用前一幀的檢測結(jié)果估計目標(biāo)在后一幀中的位置與尺寸,將估計結(jié)果與后一幀的分割結(jié)果一起作為ROIs,通過模板匹配進行判別,可提高對單個目標(biāo)的檢測率;若能準(zhǔn)確分割出后一幀中的目標(biāo),那么前一幀的估計結(jié)果將與后一幀的分割結(jié)果相互重疊,此時則采用極大化抑制的方法進行區(qū)域合并,形成一個完整的ROI.雖然部分干擾源(如樹干、燈柱、郵筒等)的外形輪廓與行人相似度較大,在匹配階段容易產(chǎn)生虛警,但一般來說,行人可在連續(xù)多幀中被持續(xù)檢測到,而干擾源僅在個別幀中被誤檢,因此通過多幀的檢測結(jié)果進行綜合判斷有利于抑制虛警.
行人與背景相對于攝像頭的運動主要是由車輛的運動引起的,故相鄰兩幀中同一目標(biāo)的位置與尺寸變化較小,可近似將該目標(biāo)在視頻中的運動視為勻加速運動,其運動狀態(tài)可表示為 S={x,dx,y,dy,w,dw,h,dh}.其中,x與 y分別為目標(biāo)在圖像中水平與垂直方向的起始位置坐標(biāo),dx與dy為位置的變化量,w與h分別為目標(biāo)的寬度與高度,dw與dh分別為w與h的變化量.
目標(biāo)檢測系統(tǒng)中常用的跟蹤算法有Kalman濾波[6,12]和粒子濾波算法[13-14]等,其中粒子濾波算法計算量大,與實際應(yīng)用存在距離.鑒于Kalman濾波算法具備較強的實時性,而本系統(tǒng)中目標(biāo)的運動近似為勻加速運動,因此可利用Kalman濾波算法來估計目標(biāo)在視頻中的線性運動狀態(tài).以x方向為例,即對狀態(tài) Sx={x,dx,w,dw},其 Kalman 濾波的狀態(tài)方程和觀測方程可表示為
文中從實拍視頻中分別提取1200個行人樣本和1000個與行人外形相似的干擾樣本,以測試概率模板對目標(biāo)匹配的性能,并與文獻[8]中的方法進行比較,匹配結(jié)果使用接受者操作特性曲線(ROC)進行評估,如圖6所示.
圖6 不同概率模板匹配性能的比較Fig.6 Comparison of matching performance of different probabilistic templates
圖6表明,在目標(biāo)匹配階段,文中的模板建立方式優(yōu)于文獻[8]中的方法.原因在于文獻[8]是通過行人樣本的步態(tài)模式建立相應(yīng)的概率模板,使得運動方向不同但腿部模式一致的樣本被歸納到同一個概率模板中,這有悖于本研究基于運動方向劃分多個子類樣本以降低行人樣本類內(nèi)方差的做法,因此影響了每一個概率模板對相應(yīng)姿態(tài)下行人外觀模式的歸納準(zhǔn)確度.
匹配階段的時間復(fù)雜度由式(4)決定.在模板建立之后,式中的分母項可以事先獲得,故實際計算時間開銷取決于ROI的像素數(shù)n.因此每個ROI與模板之間相似度匹配過程的時間復(fù)雜度為O(n),是一個線性時間復(fù)雜度,表明該方法具備較高的執(zhí)行效率.值得指出的是,通過設(shè)置合適的閾值(匹配值),概率模板匹配法亦可在級聯(lián)檢測框架中作為前端分類器.
為了驗證文中方法的實際性能,從拍攝總長約為80min的視頻中抽取4個片段,對應(yīng)郊區(qū)(廣州大學(xué)城)和市區(qū)(廣州大道南)兩種場景的視頻各占2個片段,每段視頻長度均為30s(即每段包含750幀圖像),并人工標(biāo)注了視頻中的所有行人目標(biāo),作為方法驗證的客觀標(biāo)準(zhǔn).文中將檢測率定義為正確檢測到行人的幀數(shù)與含有行人的總幀數(shù)的比值,虛警率定義為出現(xiàn)誤檢測的幀數(shù)與總幀數(shù)的比值.
測試實驗運行在Intel Dual-Core E5800 3.2GHz的PC平臺上,用Matlab實現(xiàn),圖7為部分檢測結(jié)果.圖中實線矩形為正確檢測到的行人區(qū)域,點線矩形為漏檢的行人(圖中在漏檢位置用“miss”標(biāo)識),虛線矩形為虛警(圖中在虛警位置用“FA”標(biāo)識).實線矩形下方的數(shù)字為對被檢測到的行人運動方向的判斷情況,根據(jù)模板構(gòu)建階段對樣本集的劃分,數(shù)字“1”表示目標(biāo)沿著攝像頭運動,“2”表示橫跨公路由右向左運動,“3”表示橫跨公路由左向右運動.
圖7 部分實測結(jié)果Fig.7 Some detection results
方法的統(tǒng)計性能見表1,除了系統(tǒng)級的檢測率與虛警率,表中也給出了兩種場景中出現(xiàn)的行人總數(shù)、實際被檢出的個數(shù)和虛警數(shù)(一幀可能存在多個虛警),便于從分類器級的角度考察文中方法對行人目標(biāo)的檢測性能.
表1 文中方法的性能統(tǒng)計Table 1 Statistical performance of the proposed method
表1表明,文中方法在郊區(qū)路段的檢測效果較好,因場景相對簡單,漏檢數(shù)較少,虛警率也較低,獲得了不低于90%的檢測率和不高于10%的虛警率.但在市區(qū)路段,場景復(fù)雜度的提高導(dǎo)致行人與背景的對比度下降,甚至與背景融為一體,在ROIs提取階段難以連續(xù)、準(zhǔn)確地選取目標(biāo),造成后續(xù)檢測與跟蹤環(huán)節(jié)較難填補該漏檢目標(biāo),使得總體檢測率有一定幅度的降低,檢測率約為75%;同時,場景中干擾熱源的顯著增多導(dǎo)致較多的虛警產(chǎn)生,虛警率約為22%.Matlab平臺下,文中方法在行人檢測階段的處理速率為4~8幀/s(取決于ROIs的數(shù)量),若改為VC或?qū)S脠D像處理平臺,實時性將得到進一步的提高.
文中提出一種面向車輛輔助駕駛的夜間行人檢測方法,從局部雙閾值分割算法獲得的二值圖像中提取潛在的行人區(qū)域,并與離線構(gòu)造的多尺度概率模板通過相似度匹配進行行人檢測,最后對被檢目標(biāo)通過多幀校驗的方式進行魯棒的綜合判斷.相對于基于機器學(xué)習(xí)的檢測方法,該方法所需訓(xùn)練樣本數(shù)量較少,且無需收集大量的“困難”負樣本以應(yīng)對分類器推廣性能的問題.實驗結(jié)果表明文中方法檢測效果較好,實時性可得到保障,具有一定的應(yīng)用前景,但在市區(qū)場景中虛警率偏高.下一步將考慮結(jié)合運動方向和更多的人體形態(tài)特征,進一步提高概率模板歸納行人外觀模式的準(zhǔn)確度,并抑制系統(tǒng)的虛警率.
[1]Soga M,Hiratsuka S,F(xiàn)ukamachi H,et al.Pedestrian detection for a near infrared imaging system[C]∥Proceedings of IEEE Conference on Intelligent Transportation Systems.Beijing:IEEE,2008:1167-1172.
[2]Gerónimo D,López A M,Sappa A D,et al.Survey of pedestrian detection for advanced driver assistance systems[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(7):1239-1258.
[3]Viola P,Jones M.Rapid object detection using a boosted cascade of simple features[C]∥Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Kauai:IEEE,2001:511-518.
[4]Viola P,Jones M,Snow D.Detecting pedestrians using patterns of motion and appearance[C]∥Proceedings of IEEE International Conference on Computer Vision.Nice:IEEE,2003:734-741.
[5]O’Malley R,Jones E,Glavin M.Detection of pedestrians in far-infrared automotive night vision using region-growing and clothing distortion compensation[J].Infrared Physics & Technology,2010,53(6):439-449.
[6]Ge J F,Luo Y P,Tei G.Real-time pedestrian detection and tracking at nighttime for driver-assistance systems[J].IEEE Transactions on Intelligent Transportation Systems,2009,10(2):283-298.
[7]梁英宏.紅外視頻圖像中的人體目標(biāo)檢測方法[J].紅外與激光工程,2009,38(5):931-935.Liang Ying-hong.Human detection method in infrared video images[J].Infrared and Laser Engineering,2009,38(5):931-935.
[8]Bertozzi M,Broggi A,Gomez C H,et al.Pedestrian detection in far infrared images based on the use of probabilistic templates[C]∥Proceedings of IEEE Intelligent Vehicles Symposium.Istanbul:IEEE,2007:327-332.
[9]Sun H,Wang C,Wang B L,et al.Pyramid binary pattern features for real-time pedestrian detection from infrared videos[J].Neurocomputing,2011,74(5):797-804.
[10]郭烈,高龍,趙宗艷.基于車載視覺的行人檢測與跟蹤方法[J].西南交通大學(xué)學(xué)報,2012,47(1):19-25.Guo Lie,Gao Long,Zhao Zong-yan.Pedestrian detection and tracking based on automotive vision [J].Journal of Southwest Jiaotong University,2012,47(1):19-25.
[11]Gavrila D M.A bayesian,exemplar-based approach to hierarchical shape matching [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2007,29(8):1408-1421.
[12]Gavrila D M,Munder S.Multi-cue pedestrian detection and tracking from a moving vehicle[J].International Journal of Computer Vision,2007,73(1):41-59.
[13]Giebel J,Gavrila D M,Schn?rr C.A Bayesian framework for multi-cue 3D object tracking[C]∥Proceedings of EuropeanConferenceonComputerVision.Prague:Springer-Verlag,2004:241-252.
[14]趙運基,裴海龍.基于增量學(xué)習(xí)的關(guān)節(jié)式目標(biāo)跟蹤算法[J].華南理工大學(xué)學(xué)報:自然科學(xué)版,2012,40(3):88-93.Zhao Yun-ji,Pei Hai-long.Articulated object tracking algorithm based on incremental learning[J].Journal of South China University of Technology:Natural Science Edition,2012,40(3):88-93.