張明杰,康寶生
(1.西北大學(xué)信息科學(xué)與技術(shù)學(xué)院,陜西西安710127;2.西安郵電大學(xué)管理工程學(xué)院,陜西西安710061)
針對(duì)目標(biāo)檢測(cè)和圖像分割方法,研究人員做了大量的研究工作[1-4]提出了許多實(shí)際的方法,但是提出的方法中都是針對(duì)某一具體問題的,還沒有一種通用的方法。例如國內(nèi)外主要運(yùn)用的方法有:對(duì)稱差分法[5]、幀間差分法、背景差法[6]、基于活動(dòng)輪廓的方法[7]、光流場(chǎng)法和塊匹配方法、機(jī)器學(xué)習(xí)的方法[8]等方法,這些方法各有優(yōu)缺點(diǎn),它們可以聯(lián)合使用。
目標(biāo)跟蹤技術(shù)就是在時(shí)域上進(jìn)行跟蹤,在連續(xù)幀中將相同的目標(biāo)對(duì)應(yīng)起來。跟蹤的難點(diǎn)在于環(huán)境和目標(biāo)的復(fù)雜性,因此算法直接影響著跟蹤的準(zhǔn)確性和魯棒性。隨著人們對(duì)跟蹤系統(tǒng)的穩(wěn)定性、魯棒性要求的提高,研究一種精確、高性能、魯棒性好的運(yùn)動(dòng)目標(biāo)跟蹤方法仍然是計(jì)算機(jī)視覺領(lǐng)域所面臨的一個(gè)巨大挑戰(zhàn)。目前常用的跟蹤方法是預(yù)測(cè)方法,如基于濾波理論的目標(biāo)跟蹤方法,基于Mean Shift方法[9]、基于增量學(xué)習(xí)的方法[10]、基于卡爾曼濾波器的方法[11]、基于偏微分方程方法、基于Monto Carlo的方法[12]以及多假設(shè)跟蹤的方法[13]等。
在單目靜態(tài)、復(fù)雜的環(huán)境下,目標(biāo)遮擋通常會(huì)引起目標(biāo)檢測(cè)錯(cuò)誤。為了克服遮擋的影響,我們提出一種目標(biāo)檢測(cè)和跟蹤方法,可以提高視頻監(jiān)控系統(tǒng)的跟蹤的準(zhǔn)確性。首先使用動(dòng)態(tài)背景差分算法檢測(cè)目標(biāo)是否存在,然后使用目標(biāo)的合并和分離狀態(tài)解決遮擋條件下的錯(cuò)誤跟蹤。最后,實(shí)現(xiàn)了一個(gè)改進(jìn)的重疊跟蹤方法,通過對(duì)相鄰目標(biāo)質(zhì)心的距離的分析來完成對(duì)象標(biāo)定和目標(biāo)的自動(dòng)跟蹤。
本文提出的算法的框架圖如圖1所示。首先,使用動(dòng)態(tài)背景差分模型分割每一幀中的運(yùn)動(dòng)目標(biāo)。為了克服光照變化,設(shè)置一個(gè)與差分圖像中興趣區(qū)域檢測(cè)相關(guān)的動(dòng)態(tài)閾值,這個(gè)閾值根據(jù)每一幀中背景和前景像素的分布迭代計(jì)算。獲得前景區(qū)域后,定義出現(xiàn)、離開、合并、分離4個(gè)狀態(tài),根據(jù)下一幀中目標(biāo)的出現(xiàn)情況,將4個(gè)狀態(tài)分別分配給檢測(cè)的運(yùn)動(dòng)目標(biāo)。特別,目標(biāo)確定為合并和分離狀態(tài)時(shí),為了減少遮擋的影響,通過分析前一幀中目標(biāo)中心的距離來實(shí)現(xiàn)進(jìn)一步繼續(xù)跟蹤。最后,為了得到目標(biāo)跟蹤的結(jié)果,4種狀態(tài)的目標(biāo)被標(biāo)定。再由標(biāo)定的目標(biāo)完成跟蹤。
圖1 本文提出的算法的框架
在背景差分階段,通過當(dāng)前幀減去背景圖像得到差分圖像,并且通過差分圖像的閾值識(shí)別前景區(qū)域。因此,兩個(gè)變量對(duì)應(yīng)于環(huán)境中光照變化:一個(gè)是建立動(dòng)態(tài)背景模型,另一個(gè)是選擇一個(gè)合適的閾值來提取前景目標(biāo)。背景建模和閾值均根據(jù)幀內(nèi)容自適應(yīng)確定。
自適應(yīng)建立背景模型依據(jù)后續(xù)幀的像素灰度值的一致性分析。設(shè)Fm(x,y)為第m幀(x,y)處的像素灰度值,Bm(x,y)代表從前一幀計(jì)算的相應(yīng)的背景像素的灰度值,每一個(gè)背景像素的灰度值更新如下
式中:m——當(dāng)前幀的序號(hào)。
式(1)也表示累計(jì)幀的背景像素平均值。在我們的實(shí)驗(yàn)中,初始化建立背景模型,使用的是視頻序列中的前100幀。然后,通過獲得和它們相應(yīng)的背景像素的平均值來得到背景圖像。當(dāng)m逐漸變大時(shí),被運(yùn)動(dòng)目標(biāo)占有的像素平滑接近背景模型的真實(shí)像素。
一個(gè)差分圖像通過當(dāng)前幀和二值背景圖像的差分獲得。為了檢測(cè)前景區(qū)域,閾值的計(jì)算需要考慮幀的內(nèi)容的隨機(jī)變化。根據(jù)背景和前景區(qū)域的分布,迭代計(jì)算每個(gè)差分圖像的閾值。估計(jì)閾值的步驟如下:
(1)通過平均差分圖像的像素值獲得初始的閾值,然后利用初始閾值將圖像分割成前景區(qū)域和背景區(qū)域。觀察這兩個(gè)區(qū)域的分布,屬于背景和前景區(qū)域的像素被分別計(jì)算,分別表示為μB和μO
(2)設(shè)臨時(shí)變量T,T=(μB+μO)/2。
(3)更新的T設(shè)置為差分圖像的閾值。
(4)重復(fù)(1)到(3),當(dāng)μB接近于μO時(shí)結(jié)束。
獲得二值前景圖像之后,我們使用形態(tài)學(xué)方法消除噪聲,并且修復(fù)破碎的輪廓區(qū)域。
假設(shè)A表示原圖像,B表示結(jié)構(gòu)元素,數(shù)學(xué)形態(tài)學(xué)的腐蝕、膨脹、開運(yùn)算和閉運(yùn)算的濾波方法如下:
腐蝕運(yùn)算記為AΘB,表達(dá)式如式(4)所示
膨脹運(yùn)算記為A⊕B,表達(dá)式如式(5)所示
開運(yùn)算用A B表示,它是先進(jìn)行腐蝕運(yùn)算在進(jìn)行膨脹運(yùn)算,定義如式(6)所示。
閉運(yùn)算用A·B表示,閉運(yùn)算是先進(jìn)行膨脹運(yùn)算,再進(jìn)行腐蝕運(yùn)算,定義如式(7)所示
在這里我們選擇八鄰域結(jié)構(gòu)元素,利用數(shù)學(xué)形態(tài)學(xué)的腐蝕、膨脹、開運(yùn)算和閉運(yùn)算的濾波性質(zhì),選擇先閉后開的形態(tài)學(xué)的濾波方法。通過這種方法能夠較好的消除噪聲和修復(fù)破碎的輪廓區(qū)域。
在視頻監(jiān)控系統(tǒng)中,我們所最關(guān)心的是獲得目標(biāo)的空間位置和監(jiān)視他們隨時(shí)間變化的軌跡。因此,為了避免在遮擋環(huán)境下錯(cuò)誤跟蹤目標(biāo),通過考慮目標(biāo)質(zhì)心之間的距離,我們實(shí)現(xiàn)了一種改進(jìn)的重疊跟蹤方法[14]。
使用背景差分方法得到分割結(jié)果后,根據(jù)區(qū)域輪廓的完整性,從前景圖像中識(shí)別出感興趣區(qū)域。另外,從感興趣區(qū)域中檢測(cè)人物區(qū)域需要考慮人體的物理約束,包括區(qū)域的外形和像素灰度值的動(dòng)態(tài)范圍。當(dāng)對(duì)象符合約束時(shí),我們可以由橢圓半徑,質(zhì)心和距離等位置參數(shù)構(gòu)造覆蓋這一區(qū)域的最小橢圓。
如圖2所示,在改進(jìn)的重疊跟蹤方法中,我們?cè)O(shè)置4種跟蹤狀態(tài):新目標(biāo)、離開目標(biāo)、合并目標(biāo)、分離目標(biāo),這4種跟蹤狀態(tài)來理解當(dāng)前幀。新目標(biāo)表示對(duì)象進(jìn)入視頻場(chǎng)景,離開目標(biāo)表示對(duì)象離開視頻場(chǎng)景。對(duì)于合并和分離目標(biāo)狀態(tài),目標(biāo)的接觸在相鄰幀中被檢測(cè)。在當(dāng)前幀中目標(biāo)合并和分離狀態(tài)的判斷也要考慮目標(biāo)狀態(tài),它通過繼續(xù)跟蹤在前一幀中出現(xiàn)的目標(biāo)來實(shí)現(xiàn)。依靠前一幀中標(biāo)定的人物對(duì)象的位置的連續(xù)性,我們分配標(biāo)簽給單個(gè)目標(biāo)。
圖2 跟蹤和標(biāo)定目標(biāo)流程
和傳統(tǒng)的重疊跟蹤方法相比,我們改進(jìn)的跟蹤方法實(shí)現(xiàn)跟蹤前一幀中的標(biāo)定目標(biāo)。在當(dāng)前幀和前一幀中,我們分析合并和分離狀態(tài)的目標(biāo)之間的質(zhì)心距離。在3.1節(jié)中提到表示目標(biāo)的橢圓的長軸和短軸求平均,可以得到一個(gè)動(dòng)態(tài)半徑s=(w+h)/2,這里w和h分別表示橢圓的長軸和短軸。在當(dāng)前幀中,合并狀態(tài)目標(biāo)的識(shí)別是通過分析兩個(gè)相鄰橢圓的質(zhì)心距離是否小于前一幀中它們動(dòng)態(tài)半徑之和。另一方面,對(duì)于確定分離目標(biāo),看它是否符合兩個(gè)相鄰橢圓的動(dòng)態(tài)半徑之和大于當(dāng)前幀中它們質(zhì)心的距離。
分析了當(dāng)前幀中目標(biāo)的狀態(tài)之后,最后分配標(biāo)簽給單個(gè)目標(biāo)。而且,每一個(gè)目標(biāo)的標(biāo)簽被記錄,并且為下一幀中跟蹤目標(biāo)提供參考。
圖3 3個(gè)視頻序列的背景差分和跟蹤結(jié)果
我們使用公共測(cè)試數(shù)據(jù)集中的3段視頻序列對(duì)本文提出的方法進(jìn)行驗(yàn)證。其中兩個(gè)序列是不同視角的商場(chǎng)走廊視頻,另一個(gè)是室外街道視頻。算法在Matlab2009下編寫,實(shí)驗(yàn)的硬件平臺(tái)為Pentium Dual-Core,2.6GHz,內(nèi)存為2G。圖3是實(shí)驗(yàn)序列的背景差分圖像和跟蹤的結(jié)果。從圖3的結(jié)果可以看出動(dòng)態(tài)運(yùn)動(dòng)目標(biāo)檢測(cè)方法能有效的、可靠地分離目標(biāo),并且可以獲得較好的跟蹤效果。
為了評(píng)價(jià)跟蹤的準(zhǔn)確性,我們分別使用了本文提出的方法、ground truth方法和Yilmaz等提出的方法[11]實(shí)驗(yàn),比較它們的檢測(cè)率和均方誤差(RMS)。檢測(cè)率和均方誤差可以通過如下公式計(jì)算每一幀的檢測(cè)率和均方誤差
式中:D(i)——第i幀的檢測(cè)率,T(i)和C(i)——目標(biāo)真實(shí)位置和使用各種跟蹤方法目標(biāo)的位置結(jié)果。Erms——視頻序列中目標(biāo)的均方誤差。3個(gè)視頻序列的平均檢測(cè)率和RMS如表1和表2所示,可以看出,在3個(gè)序列中,本文提出的方法和Ground Truth方法、卡爾曼濾波方法相比,本文提出的方法具有更高的檢測(cè)率和較低的錯(cuò)誤率。本文提出的方法在跟蹤方面性能更好。3個(gè)視頻序列的時(shí)間開銷見表3,3個(gè)序列中,本文方法較之Ground Truth方法和卡爾曼濾波方法,其運(yùn)行時(shí)間少、效率高。
表1 3個(gè)視頻序列的平均檢測(cè)率的比較
表2 3個(gè)視頻序列的RMS的比較
表3 3個(gè)視頻序列運(yùn)行時(shí)間的比較(單位:s)
本文提出了一種視頻監(jiān)控系統(tǒng)中單目靜態(tài)視頻場(chǎng)景的目標(biāo)檢測(cè)與自動(dòng)跟蹤方法。前景區(qū)域通過一個(gè)動(dòng)態(tài)背景差分模塊進(jìn)行分割,這個(gè)模塊適用于光照變化的條件。通過選擇合適的動(dòng)態(tài)閾值獲得前景目標(biāo)。為了跟蹤目標(biāo),我們實(shí)現(xiàn)了一種改進(jìn)的重疊跟蹤方法,用于提高在目標(biāo)分開和合并時(shí)遮擋條件下的跟蹤效果。實(shí)驗(yàn)結(jié)果表明本文提出的方法在跟蹤方面性能更好。
[1]LakshmiDevasena C,Revathi R.Video surveillance systems-a survey[J].International Journal of Computer Science Issues,2011,8(4):635-642.
[2]Cristani M,Raghavendra R,Del Bue A.Human behavior analysis in video surveillance:A social signal processing perspective[J].Neurocomputing,2013,100(1):86-97.
[3]HOU Zhiqiang,HAN Chongzhao.A survey of visual tracking[J].Acta Automatica Sinica,2006,32(6):603-618(in Chinese).[候志強(qiáng),韓崇昭.視覺跟蹤技術(shù)綜述.自動(dòng)化學(xué)報(bào),2006,32(6):603-618.]
[4]Krahnstoever N,Yu T,Patwardhan K A,et al.Multi-camera person tracking in crowded environments[C]//Proc Twelfth IEEE 1nt Performance Evaluation of Tracking and Surveillance Workshop,2009:1-7.
[5]Zivkovic Z.Improved adaptive Gaussian mixture model for background subtraction[C]//Proceedings of the 17th International Conference on Pattern Recognition.2004,22(2):28-31.
[6]Davis J,Sharma V.Background-subtraction using contourbased fusion of thermal and visible imagery[J].Computer Vision and Image Understanding,2007,106,162-182.
[7]Bresson X,Esedoglu S,Vandergheynst P,et al.Fast global minimization of the active contour/snake model[J].Journal of Mathematical Imaging and Vision,2007,28(2):151-167.
[8]Hao Z,Wen W,Liu Z,et al.Real-time foreground-background segmentation using adaptive support vector machine algorithm[C]//Artificial Neural Networks,2007.
[9]Fashing M,Tomasi C.Mean shift is a bound optimization[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(3),471-474.
[10]Ross D,Lim J,Lin R,et al.Incremental learning for robust visual tracking[J].International Journal of Computer Vision,2008,77(1-3):125-141.
[11]Yilmaz A,Javed O,Shah M.Object tracking:A survey[J].ACM Computing Surveys,2006,38(4):1-45.
[12]Wu Y,Huang T S.Robust visual tracking by integrating multiple cues based on co-inference learning[J].International Journal of Computer Vision,2004,58(1):55-71.
[13]Blackman S S.Multiple hypothesis tracking for multiple target tracking[J].IEEE Aerospace and Electronic Systems Magazine.2004,19(1):5-18.
[14]Van der Tuin V.Computer-aided security surveillance design of the quo vadis object tracker[D].Enshede,Netherland:University of Twente,2007.