謝永亮,洪留榮,葛方振,鄭 穎,孫 雯,賈平平
(淮北師范大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 淮北235000)
運(yùn)動背景下任意目標(biāo)跟蹤方法研究
謝永亮,洪留榮*,葛方振,鄭穎,孫雯,賈平平
(淮北師范大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 淮北235000)
針對動態(tài)場景的特點(diǎn),提出了一種基于背景信息上下文的運(yùn)動物體跟蹤方法。算法利用場景中當(dāng)前幀的邊緣信息,建立上下文模型,在下一幀中通過該上下文模型估計(jì)攝像機(jī)移動方向和速度,預(yù)測當(dāng)前幀中物體邊緣在下一幀中的位置,構(gòu)造出下一幀邊緣的估計(jì)圖像。然后通過建立的估計(jì)圖像與下一幀中真實(shí)的背景圖像進(jìn)行比較達(dá)到檢測運(yùn)動目標(biāo)的目的。實(shí)驗(yàn)結(jié)果表明:文中提出的算法能夠較好地檢測出運(yùn)動目標(biāo),在效率、精確性、魯棒性、實(shí)時性等方面都獲得了很好的效果。
動態(tài)場景;背景信息上下文;攝像機(jī)移動;實(shí)時性;目標(biāo)跟蹤
運(yùn)動目標(biāo)跟蹤是計(jì)算機(jī)視覺中最基本的一個研究問題,它是行為分析、人機(jī)交互、智能視頻監(jiān)控系統(tǒng)等應(yīng)用領(lǐng)域研究的基礎(chǔ)。目前,相繼提出了許多跟蹤算法。如幀差法[1]、背景減除法[2-3]、光流法[4-6]、空間時間上下文方法[7-11]、動態(tài)圖目標(biāo)跟蹤法[12-14]等。幀差法的基本原理是在視頻序列的相鄰兩幀或者三幀間使得對應(yīng)位置像素值相減,通過對相減后的圖像進(jìn)行閾值化處理,提取出圖像中的運(yùn)動區(qū)域。該方法簡單、計(jì)算量相對較小,但是容易受到環(huán)境噪聲的影響,對一些較大運(yùn)動物體和每個部分顏色較一致的物體檢測時,在檢測到的運(yùn)動物體內(nèi)部有空洞,這就會使提取出的運(yùn)動目標(biāo)不完整。背景減除法則是首先通過把一些幀進(jìn)行訓(xùn)練,構(gòu)造出能夠表現(xiàn)背景信息的背景模型,然后把后續(xù)幀中的每個像素與背景模型中對應(yīng)位置的像素進(jìn)行比較,若相似性達(dá)到某個閾值,則檢測該像素位置為運(yùn)動目標(biāo)包含的位置。該方法能很好地檢測目標(biāo)和提取目標(biāo),較好地獲得目標(biāo)的特征數(shù)據(jù),但是對于遮擋的目標(biāo)無法很好地進(jìn)行檢測和提取,一些跟蹤效果比較好的背景模型建立過程對時間和空間要求較高。光流法則是通過給圖像中的每個像素位置賦予一個速度矢量,構(gòu)成運(yùn)動矢量場。在任意一個特定時刻,圖像中的像素點(diǎn)與三維場景中物體上的點(diǎn)逐個對應(yīng),根據(jù)每一個像素位置的速度矢量特征,對圖像進(jìn)行動態(tài)分析。當(dāng)圖像中無運(yùn)動物體時,則整個圖像區(qū)域的光流矢量幾乎是連續(xù)變化的。如果圖像中有運(yùn)動物體,運(yùn)動物體和背景之間會有相對運(yùn)動趨勢,運(yùn)動物體所形成的運(yùn)動矢量必然和非運(yùn)動物體區(qū)域的運(yùn)動矢量有所不同,因此,通過把運(yùn)動矢量與一個閾值進(jìn)行比較,便可以檢測出運(yùn)動物體的位置。該方法可以在不知道場景的任何信息情況下,就能夠檢測出運(yùn)動物體,可以應(yīng)用于攝像機(jī)移動拍攝的動態(tài)視頻場景下的運(yùn)動物體檢測,但是在噪聲和多光源以及存在陰影和遮擋等場景下,會對光流場分布的計(jì)算結(jié)果的正確性造成嚴(yán)重影響,進(jìn)而降低了檢測的正確率,而且光流法的時間高復(fù)雜性,幾乎不能夠?qū)崿F(xiàn)實(shí)時處理。動態(tài)圖目標(biāo)跟蹤法則通過把目標(biāo)內(nèi)部幾何結(jié)構(gòu)信息,構(gòu)造成一個動態(tài)無向圖或者樹,把跟蹤問題轉(zhuǎn)化成了圖或者樹的匹配問題。近年來,利用運(yùn)動目標(biāo)和其上下文信息之間關(guān)系的算法,在運(yùn)動目標(biāo)跟蹤和行為識別中獲得了很大的成功。在文獻(xiàn)[7]中,作者利用空間時間上下文信息提出了一個快速和魯棒的跟蹤算法。該方法首先利用目標(biāo)和其周圍背景信息學(xué)習(xí)得到空間上下文模型,然后,在下一幀中,用剛學(xué)到的空間上下文模型更新空間時間上下文模型。利用空間時間上下文模型計(jì)算置信圖。在置信圖中取得的最大值所對應(yīng)的那個位置就是目標(biāo)中心在該幀中最好的位置。最后,作者還基于估計(jì)的置信圖,提出一個新穎的尺寸自適應(yīng)問題。
綜上所述,這些工作可以分為兩類:一是固定場景下的目標(biāo)跟蹤;二是運(yùn)動場景下的目標(biāo)跟蹤。在運(yùn)動場景下,上述方法通常需要預(yù)先標(biāo)定跟蹤的目標(biāo)。該文主要針對運(yùn)動背景下目標(biāo)跟蹤問題,提出基于背景物體空間時間上下文方法解決了運(yùn)動背景下非標(biāo)定運(yùn)動目標(biāo)的跟蹤問題。
利用背景物體的空間上下文信息,估計(jì)攝像機(jī)移動狀態(tài),提出一個快速且魯棒的運(yùn)動目標(biāo)跟蹤方法。算法首先進(jìn)行邊緣提取,在邊緣中隨機(jī)選擇若干點(diǎn),計(jì)算空間上下文。在下一幀中,計(jì)算選定點(diǎn)在下一幀中所處的最佳位置。其次,通過相鄰兩幀中選定點(diǎn)的位置移動,估計(jì)攝像機(jī)移動狀態(tài)。通過攝像機(jī)移動狀態(tài)數(shù)據(jù),估計(jì)前一幀中物體邊緣在該幀中所處的位置,構(gòu)造一幅預(yù)測圖像。由于場景中背景物體的移動速度往往小于運(yùn)動目標(biāo)的速度,通過把該幀邊緣圖像與預(yù)測的邊緣圖像相比較,檢測出運(yùn)動目標(biāo)。最后,如果動態(tài)場景中存在多個運(yùn)動目標(biāo),則通過塊距離把同一個運(yùn)動物體的不同部分聚類在一組中。算法基本流程見圖1。
圖1 文中跟蹤算法的基本流圖
對于進(jìn)行移動拍攝的攝像機(jī)來說,場景中大部分都是背景區(qū)域,目標(biāo)物體所占區(qū)域往往較少,如果在整個場景中隨機(jī)選取點(diǎn),取這個點(diǎn)為中心的一個小區(qū)域,把這個小區(qū)域作為一個標(biāo)定目標(biāo)加以跟蹤,就可以獲取這些小區(qū)域在前后幀中移動的方向和位移信息。如果這些小區(qū)域是背景區(qū)域,那么它們在位移和方向上的改變應(yīng)該是較為一致的。反之,如果這些小區(qū)域在移動目標(biāo)上,則它們的位移和方向就與背景小區(qū)域上的位移和方向存在較大差異。利用這種差異就可以確定運(yùn)動目標(biāo)的區(qū)域。但是如果在場景中以均勻分布的方式選擇點(diǎn),由于自然場景圖像大部分區(qū)域具有顏色一致性,如果選擇點(diǎn)與它的周圍小區(qū)域顏色一致,那么跟蹤效果就很差,甚至認(rèn)為是不移動的,得不到位移與方向信息,因此,文中首先提取場景內(nèi)邊緣信息,在邊緣上隨機(jī)選擇點(diǎn),以避免出現(xiàn)上述情況。
2.1邊緣提取和參數(shù)估計(jì)及運(yùn)動物體檢測
邊緣提取方法很簡單,文中假設(shè)如果一個像素梯度幅度大于一個閾值就認(rèn)為是一個邊緣像素,提取出物體邊緣。
在第t幀中,從提取的邊緣中以均勻分布隨機(jī)選擇k個邊緣點(diǎn),坐標(biāo)分別記為(,其中i=1,2,…,k(實(shí)驗(yàn)中k=20,下同)。由于文獻(xiàn)[7]提供的算法,在跟蹤事先標(biāo)定的目標(biāo)上具有速度快,對光照、遮擋具有很強(qiáng)的魯棒性等特點(diǎn),筆者應(yīng)用這種方法獲取各小區(qū)域的移動信息。根據(jù)文獻(xiàn)[7]提供的空間上下文模型分別計(jì)算以(xit,yit)為中心、寬度為δ的k個區(qū)域空間上下文Hscf,利用Hscf計(jì)算k點(diǎn)在第t+1幀中的最佳位置,記為(xit+1,yit+1),i=1,2,…,k。該處利用空間上下文求最佳位置的方法與文獻(xiàn)[7]中稍微有一些不同。文獻(xiàn)[7]中考慮了標(biāo)定的目標(biāo)在運(yùn)動過程中,經(jīng)過若干幀后尺度可能會發(fā)生變化,在計(jì)算空間時間上下文時,運(yùn)用了一個尺度自適應(yīng)算法。文中提出的算法選擇的是視頻中前后兩幀的邊緣信息,由于前后兩幀邊緣形狀變化較小,因此,沒有考慮它們的尺度變化。
在獲得同一個邊緣點(diǎn)在相鄰兩幀中不同位置后,通過(1)式和(2)式分別計(jì)算這k個點(diǎn)在水平方向X和垂直方向Y上的偏移量并保存在向量Ωx、Ωy中。
通過(3)式和(4)式,分別在向量Ωx、Ωy中找到出現(xiàn)次數(shù)最多的元素,得到X、Y方向的最佳移動距離和移動方向。
其中dj、dp分別為向量Ωx、Ωy中元素的投影,px,py為向量Ωx、Ωy中元素的投影長度,xi為Ωx中的元素,yi為Ωy中的元素,resultX、resultY分別是在Ωx、Ωy中出現(xiàn)次數(shù)最多的元素。
把第t幀邊緣圖像I1,在X方向上移動resultX單位,在Y方向上移動resultY單位,得到預(yù)測的第t+1幀邊緣圖像G1。在視頻中,提取第t+1幀邊緣圖像I2。運(yùn)動物體檢測問題被構(gòu)建為兩個圖像的比較問題,即在G1中如果某個邊緣點(diǎn)位置坐標(biāo)為(ri,ci),判斷在I2中相應(yīng)位置的4×4鄰域內(nèi)是否有邊緣點(diǎn),若在該鄰域內(nèi)有邊緣點(diǎn),則說明在沒有移動resultX、resultY位置之前的第t幀中該位置為場景中背景物體的邊緣,若在該鄰域內(nèi)沒有邊緣點(diǎn),則說明在沒有移動之前的第t幀中該位置為運(yùn)動物體的邊緣,基于此構(gòu)造出圖像G2,為了減少噪聲的影響,筆者選擇了4×4鄰域。對于場景中運(yùn)動物體來說,它們的運(yùn)動速度往往大于攝像機(jī)移動速度,也大于場景中背景物體的移動速度,這樣導(dǎo)致在第t+1幀檢測到的運(yùn)動物體邊緣,與借助背景物體移動估計(jì)到的第t+1幀的邊緣不一致,但是,對于真實(shí)的背景邊緣移動來說,它們在預(yù)測圖像G1中的位置和真實(shí)背景圖像I2中的位置變化不大。圖像G2表征了預(yù)測圖像G1與真實(shí)背景圖像I2的差別,這些差別就是由于在第t幀中存在運(yùn)動目標(biāo)導(dǎo)致的,通過做I1和G2的差檢測出場景中運(yùn)動目標(biāo)。
2.2同一運(yùn)動目標(biāo)歸類
在檢測運(yùn)動目標(biāo)過程中,運(yùn)動目標(biāo)的邊緣與場景中背景物體邊緣容易摻雜在一起以及受攝像機(jī)自身噪聲等因素的影響,文中提出的算法容易把同一個運(yùn)動物體邊緣分配到不同的連通域中,如圖2所示,圖2(c)中有兩個運(yùn)動物體,可以清晰地看到每個物體的邊緣都不是一條封閉的曲線,而是被分配到不同的白色區(qū)域中(連通域)。
圖2 不同運(yùn)動物體的連通域
對于這種情況,文中提出一種“塊”距離來聚類這些連通域。所謂塊距離是指在二值圖像中每個連通域矩形邊界框之間的距離。設(shè)連通域L1所在的矩形邊界框最大坐標(biāo)為(rmax,cmax),連通域L2所在的矩形邊界框最小坐標(biāo)為(rmin,cmin),那么這兩個連通域之間的塊距離定義為
由于場景中具體有多少個運(yùn)動物體,提前并不知道,因此,使用聚類分析中的最大最小距離算法來聚類場景中出現(xiàn)的連通域。最大最小距離算法充分利用同一個物體不同連通域內(nèi)部特性,提前指定一個聚類中心(文中算法選擇所有連通域中左上角坐標(biāo)最小的一個連通域?yàn)榈谝粋€聚類中心),并設(shè)定一個距離閾值(文中th=200),找出其他連通域到該聚類中心的最大塊距離maxdistance,使用(6)式判斷是否要建立新的聚類中心,在flag=1時建立新的聚類中心。逐個計(jì)算其余連通域到各個聚類中心的距離,查看其余連通域距離哪一個聚類中心最近,找出最近的中心記為M,連通域到該中心的距離為tdistance,使用(7)式判斷該連通域是否要?dú)w入M,當(dāng)tdistance≥th時,以該連通域?yàn)橹行模⑿碌木垲愔行?。重?fù)上述操作,直到所有連通域聚類完畢。最后把同一個運(yùn)動物體的連通域用一個矩形框標(biāo)記在一塊。
為驗(yàn)證算法的有效性,在3個動態(tài)場景視頻中,將文中算法與光流法[4]、GMG算法[15]、T2FMRF_UM算法[16]、LBFuzzyAdaptiveSOM算法(LBFASOM)[17]、VIBE算法[18]進(jìn)行了比較分析。測試視頻場景包含只有一個人運(yùn)動的情況、多個人運(yùn)動的情況、交通工具運(yùn)動的情況等,分別編號為A、B、C。
為了對各個算法提取到的前景進(jìn)行比較,引入PCC(Percentage of Correct Classification)曲線進(jìn)行描述[18]。PCC的計(jì)算公式為
其中,TP為前景像素點(diǎn)被正確歸類為前景的數(shù)目;FP為背景像素點(diǎn)被錯歸類為前景像素點(diǎn)的數(shù)目;TN為背景像素點(diǎn)被正確歸類為背景的數(shù)目;FN為前景像素點(diǎn)被錯歸類為背景的數(shù)目。
3.1算法參數(shù)值設(shè)置
為了降低噪聲對實(shí)驗(yàn)結(jié)果的影響,在對灰度圖像進(jìn)行邊緣提取的時候,筆者對不同閾值情況下提取的邊緣進(jìn)行了比較,選擇閾值threshold=30。
3.2與其他跟蹤算法比較
在視頻A中,分別測試上面不同的算法,圖3展示了對一個相同幀用不同算法提取出的前景。圖中的白色代表前景像素點(diǎn),黑色代表背景像素點(diǎn)。
圖3 不同跟蹤方法對同一個人前景提取
通過圖3可以看出,GMG算法、LBFASOM算法、VIBE算法、光流法容易把背景檢測為前景,T2FMRF_UM算法會把運(yùn)動物體檢測為背景,相比之下,文中提出的算法與Ground-truth相比具有更少的誤報(bào)率,可以通過它們的PCC曲線進(jìn)一步確定。圖4(a)顯示了這6個算法歸類的PCC的值,由于文中算法把場景中大部分的背景和前景都能正確的歸類,因此,跟蹤法PCC的值較高。
在視頻B中,也對上述提及的跟蹤方法與文中提出的算法進(jìn)行了實(shí)驗(yàn)。圖5展示了某一幀跟蹤效果圖,圖4(b)是它們跟蹤正確率PCC的值。圖5中的白色代表前景像素點(diǎn),黑色代表背景像素點(diǎn)。由于受背景邊緣和攝像機(jī)噪聲的影響,有可能導(dǎo)致同一個物體邊緣不屬于同一個連通域的情況,這時需要判斷哪些連通域是同一個物體的。為此,在算法中使用了“塊”距離來聚類幀中的不同連通域,使得對于同一個目標(biāo)的連通域能夠標(biāo)記在一起。
圖4 場景中不同情況下幾種算法歸類正確率百分比
圖5 不同跟蹤方法對多個人前景提取
在視頻C中,即動態(tài)場景中存在快速運(yùn)動物體(如車輛等)的時候,也對上述提及的跟蹤方法與文中提出的算法進(jìn)行了實(shí)驗(yàn),圖6展示了對視頻中某一幀跟蹤效果圖。圖4(c)是這些算法跟蹤正確率PCC的值。
圖6 不同跟蹤方法對一個快速移動目標(biāo)前景提取
實(shí)驗(yàn)所使用的計(jì)算機(jī)配置是:4G內(nèi)存,Intel Corei5-4670處理器,Windows7旗艦版32位操作系統(tǒng)。在Matlab R2009a版本下,文中算法在三個測試視頻中的平均每幀執(zhí)行時間見表1。
由表1可見,文中提出的算法可以應(yīng)用于動態(tài)場景下運(yùn)動物體的實(shí)時跟蹤。
表1 算法執(zhí)行時間/ms
通過對隨機(jī)選擇的若干背景邊緣點(diǎn)在相鄰幀中移動位置的觀察,估計(jì)攝像機(jī)移動的速度和方向并預(yù)測當(dāng)前幀邊緣信息在下一幀中的位置,構(gòu)造出一幅對下一幀邊緣信息的估計(jì)圖像,實(shí)現(xiàn)運(yùn)動場景中運(yùn)動目標(biāo)檢測。實(shí)驗(yàn)結(jié)果表明,筆者提出的算法能夠很好地檢測出運(yùn)動目標(biāo),具有很好的實(shí)時性。
[1]NISHUU S.Motion detection based on frame difference method[J].International Journal of Information&Computation Technology,2014,4(15):1559-1565.
[2]RITA C,COSTANTINO G,MASSIMO P,et al.Detecting moving objects,ghosts,and shadows in video streams[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2003,25(10):1337-1342.
[3]CHRISTOPHER R,ALI J A,TREVOR D,et al.Pfinder:real-time tracking of the human body[J].IEEE Transactions on Pattern Analysis and Machine Intelligenc,1997,19(7):780-785.
[4]SHAHRIAR N.Revised Definition of optical flow:integration of radiometric and geometric cues for dynamic scene analysis[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(9):961-979.
[5]王滿一,宋亞玲,李玉,等.結(jié)合區(qū)域光流特征的時序模板行為識別[J].系統(tǒng)仿真學(xué)報(bào),2015,27(5):1146-1151.
[6]程德強(qiáng),郭政,劉潔,等.一種基于改進(jìn)光流法的電子穩(wěn)像算法[J].煤炭學(xué)報(bào),2015,40(3):707-712.
[7]ZHANG Kaihua,ZHANG Lei,LIU Qingshan,et al.Fast Tracking via Dense Spatio-Temporal Context Learning[C]//ECCV,Zurich,Switzerland:Springer,2014:127-141.
[8]XU Jianqiang,LU Yao,LIU Jinwu.Robust tracking via weighted spatio-temporalcontext learning[C]//2014 IEEE International Conference on Image Processing(ICIP),Paris,F(xiàn)rance:IEEE,2014:413-416.
[9]LIN Liang,XU Yuanlu,LIANG Xiaodan,et al.Complex background subtraction by pursuing dynamic spatio-temporal models[J].IEEE Transactions on Image Processing,2014,23(7):3191-3202.
[10]CHOI W,SHAHID K,SAVARESE S.Learning context for collective activity recognition[J].2011 IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2011,32(14):3273-3280.
[11]WEN Longyin,CAI Zhaowei,ZHEN Lei,et al.Robust online learned spatio-temporal context model for visual tracking[J].IEEE Transactions onImage Processing,2014,23(2):785-796.
[12]ZHAO Weicai,LONG Yinwen,ZHEN Lei,et al.Robust deformable and occluded object tracking with dynamic graph[J].IEEE Transactions on Image Processing,2014,23(12):5497-5509.
[13]LIN Liang,WANG Xiaolong,YANG Wei,et al.Discriminatively trained and-or graph models for object shape detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,37(5):959-972.
[14]SONG Xi,WU Tianfu,JIA Yunde,et al.Discriminatively trained and-or tree models for object detection[J].2013 IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2013,9(4):3278-3285.
[15]ANDREW B,GODBEHERE,AKIHIRO M,et al.Visual tracking of human visitors under variable-lighting conditions for a responsive audio art installationC]//American Control Conference(ACC),American:IEEE,2012:4305-4312.
[16]ZHAO Zhenjie,THIERRY B,ZHANG Xuebo,et al.A fuzzy background modeling approach for motion detection in dynamic backgrounds[M]. Berlin Heidelberg:Multimedia and Signal Processing,2012:177-185.
[17]LUCIA M,ALFREDO P.A fuzzy spatial coherence-based approach to background/foreground separation for moving object detection[J].Neural Computing and Applications,2010,19:179-186.
[18]BARNICH O,MARC V D.ViBE:a powerful random technique to estimate the background in video sequences[C]//Proceedings of 2009 IEEE International Conference on Acoustics,Speech and Signal Processing,Belgium:IEEE,2009:945-948.
責(zé)任編輯:艾淑艷
The tracking method under no calibration target in dynamic scenes
XIE Yongliang,HONG Liurong,GE Fangzhen,ZHENG Ying,SUN Wen,JIA Pingping
(College of Computer Science and Technology,Huaibei Normal University,Huaibei 235000,China)
According to the characteristics of dynamic scenes,this paper proposed a tracking method based on background information context.In the first place,the context model was established by using the current frame in the scene information,and the camera movement parameters were established through the context model in the next frame.The estimated background images in the next frame were predicted by camera movement parameters. Then,the purpose of detecting moving targets was achieved by estimated images compared with the true background image in the next frame.Experimental results show that the proposed algorithm can effectively detect moving targets and has performed well in terms of efficiency,accuracy,robustness and timeliness.
dynamic scenes;context of background information;camera movement;real-time performance;target tracking
TP301
A
1672-0687(2016)03-0059-07
2015-06-10
安徽省自然科學(xué)基金資助項(xiàng)目(1408085MF130);安徽省高校自然科學(xué)研究一般項(xiàng)目(KJ2014B24)
謝永亮(1989-),男,安徽泗縣人,碩士研究生,研究方向:數(shù)字圖像處理與模式識別。*通信聯(lián)系人:洪留榮(1969-),男,教授,博士,碩士生導(dǎo)師,E-mail:hongliurong@126.com。