孟曉燕,董增壽,武 霞
(太原科技大大學(xué)電子信息工程學(xué)院,太原 030024)
前景目標(biāo)的檢測(cè)是指從視頻序列中將發(fā)生變化的區(qū)域從相對(duì)靜止的背景圖像提取出來的過程。在智能監(jiān)控研究中,運(yùn)動(dòng)目標(biāo)能否準(zhǔn)確并且及時(shí)有效地檢測(cè)出來對(duì)后續(xù)進(jìn)行目標(biāo)分類、跟蹤、行為理解等處理起到非常關(guān)鍵的作用。
前景目標(biāo)的檢測(cè)方法有:幀差法[1-3]、光流法[4-5]和背景減除法[6-8],其中背景減除法是目前較為普遍的檢測(cè)方法。它的基本思想是利用背景的參數(shù)模型來近似背景圖像的像素值,將當(dāng)前讀入的視頻幀與背景圖像進(jìn)行比較來判斷哪些是前景區(qū)域,哪些是背景區(qū)域,所以能否準(zhǔn)確地檢測(cè)出前景區(qū)域與背景模型建立的好壞是密切相關(guān)的。很多專家學(xué)者為此進(jìn)行了大量的研究,例如,文獻(xiàn)[9]利用前n幀的像素中值作為背景模型,雖然算法簡(jiǎn)單易于實(shí)現(xiàn),但是背景模型會(huì)被檢測(cè)到的前景污染;文獻(xiàn)[10]用單個(gè)模型來描述每個(gè)像素點(diǎn),這種方法雖然可以在一定程度上克服場(chǎng)景中光照變化帶來的干擾,但是處理復(fù)雜場(chǎng)景的能力太差;文獻(xiàn)[11]把像素分布看作是高斯分布,對(duì)其背景建模,并在此基礎(chǔ)上用K個(gè)高斯混合模型(Gaussian Mixture Model,GMM)表示像素分布,克服了光照變化等造成的影響,解決了像素多峰分布的問題。但是它仍然存在如下缺點(diǎn):(1)混合高斯背景建模方法通常用固定個(gè)數(shù)的高斯分布來描述場(chǎng)景,這樣會(huì)產(chǎn)生一些不必要的模型,造成資源的浪費(fèi)。(2)現(xiàn)在使用的匹配更新機(jī)制使得混合高斯建模速度過慢,不能夠反映實(shí)際背景的變化。當(dāng)原來靜止的物體運(yùn)動(dòng)或者運(yùn)動(dòng)的物體停止運(yùn)動(dòng)等情況發(fā)生的時(shí)候,不能夠及時(shí)更新背景,造成誤檢或漏檢等問題。
本文針對(duì)傳統(tǒng)混合高斯背景建模法存在的一些不足,提出了以下三點(diǎn)改進(jìn)措施,提高算法的實(shí)用性。
(1)對(duì)視頻幀進(jìn)行分塊處理,用塊建模來代替點(diǎn)建模。通過分析監(jiān)控場(chǎng)景來確定像素塊的大小,在不影響識(shí)別的基礎(chǔ)上提高混合高斯模型的運(yùn)算速度。
(2)以像素塊為單位,改變傳統(tǒng)高斯建模采用固定高斯成分個(gè)數(shù)的算法,根據(jù)不同像素塊描述的背景特點(diǎn),自適應(yīng)地為像素塊分布不同個(gè)數(shù)的模型。這樣就將目標(biāo)出現(xiàn)概率極小的區(qū)域和概率較大的區(qū)域區(qū)分開處理,避免了反復(fù)運(yùn)算浪費(fèi)時(shí)間,而且節(jié)省了存儲(chǔ)空間。
(3)引入新的學(xué)習(xí)率調(diào)整機(jī)制,從時(shí)域和空域兩方面自適應(yīng)調(diào)整學(xué)習(xí)率的大小,從而既加速背景的形成,又避免產(chǎn)生過多的噪聲干擾整個(gè)前景檢測(cè)過程。
混合高斯背景模型[12]是由Grimson和Stauffer提出的。它的依據(jù)是視頻圖像的像素值在時(shí)間軸上服從高斯分布,用多個(gè)高斯分布對(duì)每個(gè)像素值進(jìn)行背景建模,并通過對(duì)高斯模型的參數(shù)的更新來適應(yīng)場(chǎng)景中背景的變化。
假設(shè)在一個(gè)時(shí)間段里,某一個(gè)像素點(diǎn)的像素值分別為{X1,X2,…,Xt},根據(jù)這些像素值,用K個(gè)高斯分布來描述該像素點(diǎn)的像素值分布情況。在t時(shí)刻,像素值Xt屬于背景的概率為 :
(1)
(2)
其中μi,t為均值,∑i,t是第i個(gè)高斯分布在t時(shí)刻的協(xié)方差矩陣。背景模型初始化時(shí)將讀入第一幀圖像的像素值作為均值,方差取一個(gè)較大的值σ0,權(quán)值取一個(gè)較小的值ω0.
將新讀入像素點(diǎn)Xt依次與K個(gè)高斯分布進(jìn)行匹配,匹配條件為:
|Xt-μi,t-1|≤2.5σi,t-1
(3)
按匹配結(jié)果更新高斯模型的各參數(shù):
ωi,t=(1-a)ωi,t-1+aMi,t
(4)
μi,t=(1-β)μi,t-1+βXi,t
(5)
(6)
其中α是整個(gè)檢測(cè)過程的學(xué)習(xí)率,Mi,t的值是變化的,取值為1或0由像素與模型之間是否匹配來決定。β是第2個(gè)學(xué)習(xí)率,β=αη(Xt/μk,σk).
(7)
在進(jìn)行前景檢測(cè)時(shí),如果所檢測(cè)的像素點(diǎn)Xt與描述背景的B個(gè)高斯模型中的任意一個(gè)相匹配,則該像素點(diǎn)屬于背景;否則屬于前景。
攝像機(jī)固定的情況下,所監(jiān)控的場(chǎng)景的背景也是相對(duì)穩(wěn)定的。一般只會(huì)出現(xiàn)局部細(xì)微的變化,而其他大部分區(qū)域是保持不變的。背景中很多相鄰的像素點(diǎn)可能具有相同的像素值,通過高斯模型對(duì)這些點(diǎn)建模的時(shí)候,它們的模型參數(shù)應(yīng)該相同或者相近,所以可以把這些點(diǎn)聚為一個(gè)整體來進(jìn)行建模。而在傳統(tǒng)的高斯模型背景建模過程中,每一個(gè)像素點(diǎn)都由多個(gè)高斯模型來共同描述。這樣模型依次與讀入像素進(jìn)行匹配更新操作過于浪費(fèi)時(shí)間,并且當(dāng)場(chǎng)景發(fā)生突變時(shí),背景模型不能及時(shí)做出相應(yīng)的改變。于是,本文首先對(duì)視頻幀進(jìn)行了分塊處理,分成N*N的像素塊,然后用每個(gè)塊的像素均值來代替這個(gè)塊中所有的像素值。在高斯模型建立和匹配過程中都以像素塊為單位進(jìn)行計(jì)算,從而節(jié)省了計(jì)算機(jī)的運(yùn)行時(shí)間和存儲(chǔ)空間。
考慮到對(duì)于一個(gè)監(jiān)控場(chǎng)景,視頻中的每個(gè)像素塊的活躍程度是不同的。背景中的點(diǎn)并不是每一時(shí)刻和每一個(gè)位置都存在著目標(biāo)運(yùn)動(dòng)等情況,這些情況不存在或者出現(xiàn)概率極小的區(qū)域是相對(duì)穩(wěn)定的.傳統(tǒng)混合高斯背景建模時(shí),沒有對(duì)背景進(jìn)行分析判斷,從而對(duì)穩(wěn)定區(qū)域和不穩(wěn)定區(qū)域進(jìn)行差別對(duì)待,導(dǎo)致了一定程度的資源浪費(fèi)。所以本文開始只用一個(gè)高斯模型來描述每一個(gè)像素塊。然后讀入視頻幀,將新像素塊與高斯模型按照公式(3)進(jìn)行匹配,如果匹配成功,則按照公式(4)-(6)對(duì)模型參數(shù)進(jìn)行更新,增大該模型的權(quán)重。如果不匹配,不僅把這個(gè)模型的權(quán)重減小,而且把新的像素塊作為第二個(gè)模型的均值加進(jìn)去。為了避免高斯模型的個(gè)數(shù)無止境增加,為高斯分布的個(gè)數(shù)設(shè)一個(gè)上限,當(dāng)模型個(gè)數(shù)未達(dá)到上限且當(dāng)前像素塊與已有模型都不匹配的話,則增加模型個(gè)數(shù)。如果已經(jīng)達(dá)到上限,就用新模型將已有模型中描述背景可能性最小的模型替代掉。
圖1顯示了本文將高斯模型個(gè)數(shù)自適應(yīng)分布后在一段街道視頻序列上的運(yùn)行結(jié)果。第一列表示的是第12幀、76幀和120幀的原始圖像,第二列分別顯示了對(duì)應(yīng)幀上每個(gè)像素塊是由幾個(gè)高斯模型描述的。每個(gè)像素塊最多可以分布三個(gè)模型,即Kmax=3.圖中分別用黑色、灰色和白色來代表一個(gè)、兩個(gè)和三個(gè)高斯模型。
圖1 混合高斯模型的高斯成分個(gè)數(shù)分布Fig.1 Components number distribution of mixture Gaussian model
從圖1可以看出如果初始化只給每個(gè)像素塊分布一個(gè)高斯模型的話,在很長(zhǎng)一段時(shí)間里,場(chǎng)景中的很多區(qū)域只需要用這一個(gè)模型就能夠描述,如草地等這些車輛及行人經(jīng)過概率極小的地方。而在那些目標(biāo)出現(xiàn)相對(duì)頻繁的區(qū)域,隨著幀數(shù)的增加,像素塊的高斯模型個(gè)數(shù)會(huì)自適應(yīng)地增加為兩個(gè)或三個(gè)。此外,由于光線變化或者攝像機(jī)發(fā)生輕微抖動(dòng)等會(huì)造成一定的干擾,可能有一些目標(biāo)出現(xiàn)概率小的區(qū)域的像素塊的高斯分布個(gè)數(shù)也會(huì)增加。
前景目標(biāo)檢測(cè)過程中學(xué)習(xí)率α的選取是一個(gè)很關(guān)鍵的因素。學(xué)習(xí)率選取過大或過小都會(huì)對(duì)背景模型的建立和前景檢測(cè)造成一定的干擾。為解決這個(gè)矛盾,本文從時(shí)域和空域兩個(gè)方面對(duì)學(xué)習(xí)率的選取方式進(jìn)行了改進(jìn)。從讀入第一幀圖像開始,就進(jìn)入了背景形成階段,這個(gè)階段是高斯模型的方差由初始值不斷減小,直到達(dá)到一個(gè)穩(wěn)定值,而權(quán)重不斷變大,最終成為背景模型的一個(gè)過程。如果想要在較短時(shí)間內(nèi)快速達(dá)到方差的收斂,以及權(quán)重優(yōu)先級(jí)的排序,應(yīng)該選用較大的學(xué)習(xí)率,從而快速建立相對(duì)穩(wěn)定的背景模型。當(dāng)背景模型可以相對(duì)準(zhǔn)確描述場(chǎng)景的時(shí)候,就可以改用較小的學(xué)習(xí)率,維持背景的穩(wěn)定與更新。學(xué)習(xí)率計(jì)算公式如下:
(8)
其中α是混合高斯建模典型算法的學(xué)習(xí)率,n是視頻幀中當(dāng)前流過的幀數(shù)。
本文在進(jìn)行分塊的基礎(chǔ)上,對(duì)于不同的塊,采用不同的學(xué)習(xí)率。對(duì)于只用一個(gè)高斯模型就可以描述的像素塊,即單模態(tài)區(qū)域,不考慮當(dāng)前的幀數(shù),采用固有的相對(duì)小的學(xué)習(xí)率。而對(duì)于多模態(tài)區(qū)域,則按照上面給出的計(jì)算公式來進(jìn)行學(xué)習(xí)率的選取。
針對(duì)混合高斯模型存在的不足,本文對(duì)其做出了改進(jìn),算法流程圖如圖2.
為了檢驗(yàn)算法的有效性,基于上述算法流程,在Matlab 2012,普通PC機(jī)(CoreII 2.4GHz)上對(duì)一段街道監(jiān)控視頻進(jìn)行測(cè)試,測(cè)試視頻的分辨率為320×240.在測(cè)試視頻序列時(shí)所取參數(shù):Kmax=3,α1=1/n(n?50),α2=0.02,σ0=15,ω0=1,T=0.7,δ=2.5,每個(gè)像素塊的大小為3×3.
圖3中a是測(cè)試視頻中第48幀的原圖像,b和c分別是傳統(tǒng)方法和本文方法建立的背景。從圖3可以看出,傳統(tǒng)方法建立背景的速度比較慢,并且前景和背景不能準(zhǔn)確分割。而本文算法不僅可以在較短的時(shí)間內(nèi)形成背景,而且建立的背景更接近真實(shí)場(chǎng)景。圖4是對(duì)所用的街道監(jiān)控視頻的第74幀、第146幀和第189幀前景目標(biāo)的檢測(cè)結(jié)果。傳統(tǒng)的混合高斯背景建模方法檢測(cè)到的前景目標(biāo)內(nèi)部包含了很多的空洞,并且會(huì)出現(xiàn)一定的延時(shí),而本文的檢測(cè)方法與傳統(tǒng)方法相比,殘留的像素點(diǎn)更少。在攝像機(jī)固定的情況下,對(duì)行人的檢測(cè)更加準(zhǔn)確,而且沒有出現(xiàn)虛假前景等干擾,目標(biāo)輪廓相對(duì)清晰。
從算法的執(zhí)行速度來看,本文可以達(dá)到20幀/s的平均檢測(cè)速度,明顯優(yōu)于傳統(tǒng)的5.5幀/s的運(yùn)算速度。原因是本文方法在保持精確度的前提下,對(duì)視頻幀進(jìn)行了分塊處理,并且對(duì)不同的像素塊區(qū)別對(duì)待,自適應(yīng)地改變高斯分布的個(gè)數(shù)和學(xué)習(xí)率,從而減少了計(jì)算量。
為了客觀的評(píng)價(jià)本文的方法,使用如下指標(biāo):
(9)
其中,NS是算法檢測(cè)出來的前景像素;NC是算法正確檢測(cè)出來的前景像素;NM是人工檢測(cè)出來的前景像素。D代表DetectionRatio體現(xiàn)了前景檢測(cè)的正確率,F(xiàn)代表FalseRatio是前景檢測(cè)的錯(cuò)誤率。圖5、圖6是選取檢測(cè)視頻序列第100幀到140幀進(jìn)行分析的結(jié)果。本文算法在準(zhǔn)確度上明顯優(yōu)于傳統(tǒng)混合高斯背景建模法。
圖4 前景目標(biāo)檢測(cè)結(jié)果Fig.4 Detection results of foreground objects
圖5 前景像素檢測(cè)的正確率Fig.5 The accuracy rate of foreground pixels detection
圖6 前景像素檢測(cè)的錯(cuò)誤率Fig.6 The error rate of foreground pixels detection
在傳統(tǒng)混合高斯模型的基礎(chǔ)上做出了改進(jìn),在對(duì)視頻幀進(jìn)行分塊處理的基礎(chǔ)上,用每個(gè)像素塊的均值來代替這個(gè)塊內(nèi)所有的像素值進(jìn)行建模。根據(jù)不同塊描述的場(chǎng)景的特點(diǎn)自適應(yīng)地改變每個(gè)像素塊上的高斯模型個(gè)數(shù),并且在時(shí)域和空域上對(duì)學(xué)習(xí)率的選取進(jìn)行了改進(jìn),加速了背景的建立和及時(shí)更新,從而準(zhǔn)確的檢測(cè)出前景目標(biāo)。實(shí)驗(yàn)結(jié)果表明,在攝像機(jī)固定背景環(huán)境比較穩(wěn)定的環(huán)境中,本文算法有較好的檢測(cè)效果,為后續(xù)的跟蹤、識(shí)別和行為理解奠定了良好的基礎(chǔ)。
參考文獻(xiàn):
[1] MEIER T,NGUN K N.Video segmentation for cintent-based coding[J].IEEE Trans on circuits and Systems for Video Technology,1999,9(9):1190-1203.
[2] 楊學(xué)超,劉文萍.視頻圖像序列中的運(yùn)動(dòng)目標(biāo)檢測(cè)技術(shù)[J].計(jì)算機(jī)應(yīng)用與軟件,2008,25(1):215-218.
[3] POWER P W,SCHOONERS J A.Understanding background mixture models for foreground segmentation[C]∥Proceedings of Image and Vision Computing.Auckland,New Zealand:Amuck and University Press,2002:267-271.
[4] RIBARIC S,ADRINEK G,SEGVICS.Real-time Active Visual Tracking System[J].IEEE Melecon,2004,1:231-234.
[5] BARRON J L,BEAUCHEMIN S S,F(xiàn)LEET D J.On Optional Flow[C]∥6Int Conf on Artificial intelligence and Information Control Systems of Robots.Bratislava,Slovakia,1994:3-14.
[6] 彭可,陳燕紅,唐宜清.一種室內(nèi)環(huán)境的運(yùn)動(dòng)目標(biāo)檢測(cè)混合運(yùn)算法[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(5):239-341.
[7] 陳高華,卓東風(fēng),楊鐵梅.基于數(shù)學(xué)形態(tài)學(xué)的遙感圖像邊緣檢測(cè)方法研究[J].太原科技大學(xué)學(xué)報(bào),2009,30(4):280-282.
[8] 代科學(xué),李國(guó)輝,涂丹,等.監(jiān)控視頻運(yùn)動(dòng)目標(biāo)檢測(cè)減背景技術(shù)的研究現(xiàn)狀和展望[J].中國(guó)圖像圖形學(xué)報(bào),2006,11(7):919-927.
[9] LO B P L,VELASTIN S A.Automatic Congestion Detection System for Underground Platforms[C]∥Proc of Int′l Symp on Intelligent Multimedia,Video,and Speech Processing.Hong Kong,China,2001.
[10] RIDDER C,MUNKELT O,KIRCHNER H.Adaptive Background Estimation and Foreground Detection Using Kalman Filtering[C]∥Proc of the Int′l Conf.on Recent Advances in Mechatronics.Istanbul,Turkey,1995.
[11] COLOMBARI A,F(xiàn)USIELLO A,MURINO V.Segmentation and Tracking of Multiple Video Objects[J].Pattern Recognition,2007,40(4):1307-1317.
[12] STAUFFER C,GRIMSON W E L.Learning patterns of activity using real-time trackin[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2000,22(8):747-757.