范新南,丁朋華,劉俊定,鄭慶元
(河海大學(xué) 計算機(jī)與信息學(xué)院 (常州),江蘇 常州213022)
在目前最新的核心文獻(xiàn)中,張娟[1]等人撰寫了運(yùn)動目標(biāo)跟蹤算法研究綜述,從運(yùn)動檢測和目標(biāo)跟蹤分別加以討論;杜友田[2]等人從人體運(yùn)動的類別、運(yùn)動表示方法和運(yùn)動識別方法3個方面分析,側(cè)重點為運(yùn)動識別;黎洪松[3]等人介紹了人體運(yùn)動分析的運(yùn)動目標(biāo)檢測、分類、人體運(yùn)動跟蹤、行為識別與描述的研究現(xiàn)狀和難點。
本文在前人研究分析的基礎(chǔ)上,側(cè)重介紹了近5年來人體運(yùn)動目標(biāo)檢測與跟蹤的最新研究進(jìn)展和常用的算法策略,并針對難點問題進(jìn)行了專門討論,最后探討了人體跟蹤算法未來的研究趨勢。
人體檢測是實現(xiàn)人體自動跟蹤的第一步,其目的是在視頻圖像序列中將運(yùn)動人體區(qū)域從背景中提取出來。常用的運(yùn)動目標(biāo)檢測方法也可以用于人體運(yùn)動目標(biāo)檢測。
背景差分法是將當(dāng)前圖像與背景模型相減,與背景偏離超過一定閾值的區(qū)域即為運(yùn)動區(qū)域。這種算法實現(xiàn)簡單,能夠較為完整的提取出運(yùn)動目標(biāo)的位置、大小、形狀等信息,特別是攝像機(jī)靜止的情況,背景差分法是首選方法。但它對光照劇烈變化、背景中對象的擾動和固定對象的移動、陰影影響等特別敏感。因此,背景差分法核心問題是如何獲得一個較為準(zhǔn)確的背景模型,并對其進(jìn)行不斷的更新以保持與實際背景精確相似。
幀間差分方法又稱為時間差分法,它是利用圖像序列連續(xù)兩幀或幾幀圖像中逐個像素的差值來提取運(yùn)動目標(biāo)區(qū)域。由于相鄰幀時間間隔較短,因此該算法對場景中的動態(tài)變化不太敏感,對動態(tài)環(huán)境具有較強(qiáng)的自適應(yīng)性,適合背景固定不變的情況。但一般不能完整地提取出運(yùn)動目標(biāo)區(qū)域,容易在人體內(nèi)部產(chǎn)生空洞和重像現(xiàn)象,對噪聲較敏感,要求運(yùn)動目標(biāo)速度不能太快。
光流法通過研究運(yùn)動目標(biāo)在圖像序列間的光流場來進(jìn)行目標(biāo)檢測和提取。光流場是空間運(yùn)動物體被觀測表面上的像素點運(yùn)動產(chǎn)生的瞬時速度場,它包含了物體編碼結(jié)構(gòu)和動態(tài)行為的重要信息。光流法實際就是通過此光流場近似計算圖像序列中不能直接得到的運(yùn)動場,根據(jù)運(yùn)動場的特征對目標(biāo)進(jìn)行檢測。該方法不需要知道場景的任何先驗知識,適用于靜止或運(yùn)動背景,在攝像機(jī)運(yùn)動的前提下也能檢測出獨(dú)立的運(yùn)動目標(biāo)。缺點是該方法采用迭代的求解計算,計算相當(dāng)復(fù)雜,抗噪性能差,如果沒有特別的硬件裝置很難實現(xiàn)實時目標(biāo)檢測。
人體運(yùn)動目標(biāo)跟蹤的目的是通過對獲得的圖像序列進(jìn)行分析,計算出人體在每幀圖像上的位置,根據(jù)不同的特征值,將圖像序列中不同幀中的同一目標(biāo)關(guān)聯(lián)起來,并在目標(biāo)運(yùn)動過程中對其連續(xù)跟蹤,獲得連續(xù)的目標(biāo)運(yùn)動軌跡,等價于在連續(xù)的圖像幀間創(chuàng)建基于位置、速度、形狀、紋理、色彩等有關(guān)特征的對應(yīng)匹配問題。
中國調(diào)味品企業(yè)在產(chǎn)品結(jié)構(gòu)升級和技術(shù)創(chuàng)新上不斷發(fā)力,在包裝、品牌宣傳、產(chǎn)品創(chuàng)新方面都有了很大提升,推動了中國調(diào)味品行業(yè)品牌集中度和產(chǎn)業(yè)集中度不斷上升。目前在各個分支產(chǎn)業(yè)都涌現(xiàn)出家喻戶曉的品牌,如醬油產(chǎn)業(yè)的海天、加加、美味鮮、李錦記,食醋產(chǎn)業(yè)的鎮(zhèn)江香醋、山西老陳醋、福建永春、四川保寧醋,復(fù)合調(diào)味料產(chǎn)業(yè)的太太樂、家樂、佳隆,調(diào)味醬產(chǎn)業(yè)的李錦記、老干媽,火鍋調(diào)味料產(chǎn)業(yè)的周君記、天味等。除了大型品牌的強(qiáng)勁發(fā)展,各地區(qū)域性的中小企業(yè)也競相成長,并在不少地區(qū)形成了產(chǎn)業(yè)集群。
一個理想的跟蹤算法應(yīng)具有快捷性、魯棒性、透明性、高效性、穩(wěn)定性和簡單性,通常人們根據(jù)特定的應(yīng)用需求,做一個折衷的考慮。目前人體跟蹤方法主要分為4類[4]:
2.1.1 基于模型的人體跟蹤
基于模型的人體跟蹤首先通過一定的先驗知識建立人體模型并預(yù)測下一圖像中的模型姿態(tài),接著對預(yù)測模型進(jìn)行分析、合成、抽象,將得到的結(jié)果與實際圖像進(jìn)行比較,直到找到最匹配的模型,同時進(jìn)行模型的實時更新。這種方法優(yōu)點是能對自遮擋情況進(jìn)行判斷,可以結(jié)合人體運(yùn)動學(xué)特性,排除錯誤跟蹤狀態(tài),提高跟蹤的可靠性,缺點是計算復(fù)雜度高,人體的確切幾何模型不容易得到,這就限制了基于模型的跟蹤算法的使用。
人體模型可分為二維模型和三維模型。二維模型減少了參數(shù)的數(shù)量,簡化了跟蹤過程,一般用于基于單視頻的監(jiān)控和人機(jī)交互領(lǐng)域,因為這些應(yīng)用只需要知道人的位置即可;三維模型由于其包含較多的深度信息,有利于3D姿態(tài)數(shù)據(jù)的恢復(fù)與計算,大多用于多攝像機(jī)跟蹤環(huán)境,主要針對更高層次的應(yīng)用。隨著動畫技術(shù)和圖形學(xué)中人體建模技術(shù)的發(fā)展成熟,這類結(jié)合圖形學(xué)和視覺技術(shù)的方法得到了越來越多的研究。
2.1.2 基于區(qū)域的人體跟蹤
基于區(qū)域的人體跟蹤方法就是用圖像幀中的運(yùn)動區(qū)域或塊 (blob)來表示整個人體或人體的各個部分[5],跟蹤過程即在所有圖像幀中定位這些區(qū)域并建立它們之間的對應(yīng)關(guān)系。當(dāng)跟蹤整個人體時,不需要考慮精確的人體模型和人體細(xì)節(jié)部分,所以不需要對模型進(jìn)行初始化,通過對檢測到的前景區(qū)域進(jìn)行面積、幾何結(jié)構(gòu)的約束,對跟蹤區(qū)域加框線用以跟蹤;當(dāng)對人體部分進(jìn)行跟蹤時,需要得到更精確的運(yùn)動前景,通過對人體輪廓與顏色的分析,構(gòu)造不同部分的代表物。該方法應(yīng)用于跟蹤較小的目標(biāo)或?qū)Ρ榷容^差的目標(biāo),如果能正確預(yù)測目標(biāo)的姿態(tài)變化,可實現(xiàn)穩(wěn)定的跟蹤。優(yōu)點是計算復(fù)雜度低,難點是運(yùn)動目標(biāo)的影子和遮擋處理問題,可以借助色彩、紋理加以改善。
2.1.3 基于特征的人體跟蹤
基于特征的人體跟蹤只考慮人體一些顯著特征來進(jìn)行跟蹤,如顏色、紋理、局部不變特征、質(zhì)心、角點、光流等特征,通常用多個人體特征信息融合在一起作為跟蹤特征。此方法包括特征的提取和特征匹配兩個過程,特征提取的目的是進(jìn)行幀間目標(biāo)特征的匹配,并以最優(yōu)匹配來跟蹤目標(biāo)。該算法優(yōu)點是對運(yùn)動目標(biāo)的尺度、形變和亮度等變化不敏感,只要目標(biāo)還有一部分特征沒被遮擋,就可以完成跟蹤,缺點是對于圖像噪聲比較敏感。
例如,Huiyu Zhou[6]等人使用局部不變特征 (SIFT)與基于顏色的MeanShift算法相結(jié)合進(jìn)行目標(biāo)跟蹤,從而提高了傳統(tǒng)的MS和SIFT跟蹤算法的性能。楊戈與劉宏[7]等人結(jié)合人體運(yùn)動圖像的顏色特征、預(yù)測目標(biāo)位置特征和運(yùn)動連續(xù)性特征,提出一種多線索融合算法,可以處理目標(biāo)部分遮擋、顏色飽和度低等情況,但不能處理目標(biāo)被長時間、完全遮擋的情況。Min Li等人[8]提出了一個新的快速魯棒的人體檢測和跟蹤方法,該方法基于人體頭肩部分Ω形狀特征,用粒子濾波跟蹤檢測出的頭肩部分,在人群擁擠、背景雜亂、部分遮擋情況下具有較好的魯棒性。
2.1.4 基于主動輪廓的人體跟蹤
該方法基本思想是根據(jù)實際問題建立一個關(guān)于輪廓的能量函數(shù)、采用變分方法最小化該能量函數(shù)、最終得到輪廓的進(jìn)化方程。例如,Kass等人提出的Snake模型,是在圖像域內(nèi)定義的可變形曲線,通過對其能量函數(shù)的最小化,動態(tài)輪廓逐步調(diào)整自身形狀與目標(biāo)輪廓相一致。基于Snake模型的人體跟蹤,一般做法是將當(dāng)前幀得到的輪廓作為下一幀Snake模型的初始輪廓,演變得到當(dāng)前幀的運(yùn)動物體輪廓,重復(fù)直至完成所有圖像序列的人體目標(biāo)輪廓跟蹤。然而,Snake模型依賴于圖像本身的質(zhì)量和初始輪廓位置,不能解決快速運(yùn)動的目標(biāo)跟蹤。
跟蹤問題可以被看成是動態(tài)系統(tǒng)的狀態(tài)估計問題,算法可以分為兩種策略:確定性和概率跟蹤方法。
確定性跟蹤方法:其本質(zhì)上是一個優(yōu)化問題,基本思想是:首先通過手動或目標(biāo)檢測獲得目標(biāo)模板,建立代價函數(shù) (Cost Function)來表達(dá)目標(biāo)候選位置和目標(biāo)模板的相似程度,然后利用最優(yōu)化方法找到代價函數(shù)的最值,最值對應(yīng)的位置就是目標(biāo)在圖像序列中的位置?;诰灯?(MeanShift)的跟蹤算法是確定性跟蹤方法的典型代表。該方法選擇目標(biāo)模板與候選位置顏色柱狀圖之間的距離作為代價函數(shù),用MeanShift搜索代價函數(shù)的最大值。MeanShift算法以其無需參數(shù)、快速模式匹配的特性被廣泛應(yīng)用到目標(biāo)跟蹤領(lǐng)域,而且在非剛性物體跟蹤中具有很好的實用性。它的優(yōu)點在于,在目標(biāo)區(qū)域已知的情況下可以完成實時跟蹤,采用核函數(shù)直方圖建模,對邊緣遮擋、目標(biāo)旋轉(zhuǎn)、變形和背景運(yùn)動不敏感;不足之處在于:Mean-Shift沒有利用目標(biāo)運(yùn)動方向和速度等空間信息,跟蹤過程中寬窗大小保持不變,缺乏必要的模板更新,當(dāng)目標(biāo)出現(xiàn)遮擋,尺度變化,光線變化較快時,可能跟蹤失敗。許多學(xué)者為解決這些問題做了大量研究,如Hong Liu等人[9]提出一種基于MeanShift框架的多線索融合方法,利用一個質(zhì)量函數(shù)來判別運(yùn)動和顏色線索的可信度,可以解決由于目標(biāo)旋轉(zhuǎn)而產(chǎn)生的變形問題,此外,具有遮擋處理的直接線索融合方法與自適應(yīng)的融合方法相結(jié)合可以處理全遮擋的情況。
概率跟蹤方法:將目標(biāo)跟蹤轉(zhuǎn)換為在貝葉斯框架下推理目標(biāo)狀態(tài) (如位置、速度)后驗概率密度的過程。首先選擇狀態(tài)變量,通過狀態(tài)轉(zhuǎn)移方程進(jìn)行預(yù)測,然后利用最新觀測值對預(yù)測作出修正。常見的有卡爾曼濾波 (KF)、擴(kuò)展卡爾曼濾波 (EKF)和粒子濾波 (PF)等方法。當(dāng)過程噪聲和觀測噪聲都是高斯分布且狀態(tài)轉(zhuǎn)移方程和觀測方程是線性的,常規(guī)的KF能給出最優(yōu)解;當(dāng)狀態(tài)方程和觀測方程是非線性函數(shù)時,EKF能求解后驗概率。但在實際跟蹤中,狀態(tài)方程和觀測方程往往都是非線性的,噪聲是非高斯且狀態(tài)分布是多模態(tài)的,常用粒子濾波方法來進(jìn)行目標(biāo)跟蹤。粒子濾波特別適用于圖像跟蹤領(lǐng)域,已成為圖像跟蹤的研究熱點,它的主要問題是粒子退化問題,即經(jīng)過幾步迭代后,除少數(shù)粒子外,其他的粒子權(quán)值小到可以忽略不計。
以上兩種方法各有優(yōu)缺點,結(jié)合兩種方法可以獲得有效的跟蹤效果,例如,馬麗和常發(fā)亮[10]等人將均值漂移算法和粒子濾波分別改進(jìn)并有效結(jié)合,具有較好的實時性和魯棒性,能有效處理人體遮擋問題。
盡管視覺跟蹤技術(shù)近幾年得到了很大的發(fā)展,但仍存在很多問題需要解決:
(1)人與背景的自動分離。目前運(yùn)動跟蹤系統(tǒng)常用背景差分法來提取運(yùn)動目標(biāo),這就需要建立一個能夠?qū)崟r更新的背景模型。目前獲得背景模型的常用方法有,時間平均法、統(tǒng)計平均法[11]、混合高斯模型[12]等。
(2)遮擋處理問題,遮擋包括人體自遮擋和人與人之間的遮擋??衫媒y(tǒng)計方法從獲得的圖像信息中進(jìn)行目標(biāo)姿勢、位置等的預(yù)測。例如,Parrilla[13]等人提出了使用自適應(yīng)濾波和神經(jīng)網(wǎng)絡(luò)來預(yù)測跟蹤目標(biāo)的速度,有效克服了基于光流法的跟蹤不能處理目標(biāo)遮擋的問題。在解決遮擋問題時,將目標(biāo)分塊化也是一種常用的方法。例如,文獻(xiàn)[14]使用了大量的分塊,采用窮搜索的辦法來跟蹤目標(biāo),并采取積分直方圖的辦法來降低計算復(fù)雜度。不過,解決遮擋問題最有實際意義的潛在方法是基于多攝像機(jī)的跟蹤。
(3)基于模型跟蹤方法的困難。目前大部分基于視覺的三維跟蹤系統(tǒng)由于要求魯棒性而引入了簡化的約束條件。三維跟蹤也導(dǎo)致了攝像機(jī)標(biāo)定、目標(biāo)模型的獲取、遮擋處理、參數(shù)化建模等一系列難題。
通過總結(jié)近幾年相關(guān)文獻(xiàn),人體跟蹤研究趨勢有:融合使用多攝像機(jī)數(shù)據(jù),利用多攝像機(jī)數(shù)據(jù)來克服基于單攝像機(jī)跟蹤中無法處理的遮擋、三維信息丟失等問題;通過多線索融合,結(jié)合輔助物[15],建立視覺注意機(jī)制[16]等加強(qiáng)跟蹤算法的魯棒性;在多人跟蹤中,可以引入音頻跟蹤技術(shù),提高定位的準(zhǔn)確性,融合多種視覺傳感器,如結(jié)合激光掃描儀和視頻攝像機(jī)來跟蹤多人[17],使其相互配合,提高跟蹤系統(tǒng)的整體性能;通過全方位視覺來跟蹤人體目標(biāo)[18],全方位攝像機(jī)可以在圖像中獲取水平方向360°的環(huán)境信息,可全方位實時檢測人體運(yùn)動;融合2D和3D跟蹤算法等。
由于人體的非剛性運(yùn)動、背景圖像的動態(tài)變化和目標(biāo)之間相互遮擋、自遮擋等因素的影響,使獲得一個具有魯棒、實時和準(zhǔn)確的人體檢測與跟蹤算法成為一項極具挑戰(zhàn)性的研究課題。本文在前人研究分析的基礎(chǔ)上,著重介紹了近5年來人體運(yùn)動目標(biāo)檢測、跟蹤兩方面的最新研究進(jìn)展,對跟蹤方法進(jìn)行了分類和比較,總結(jié)了其常用的搜索策略,同時對目前的研究難點技術(shù)和發(fā)展趨勢做了闡述,希望能對相關(guān)領(lǐng)域的研究學(xué)者有所幫助。
[1]ZHANG Juan, MAO Xiao-bo,CHEN Tie-jun.Survey of moving object tracking algorithm [J].Application Research of Computers,2009,26 (12):4407-4410 (in Chinese). [張娟,毛曉波,陳鐵軍.運(yùn)動目標(biāo)跟蹤算法研究綜述 [J].計算機(jī)應(yīng)用研究,2009,26 (12):4407-4410.]
[2]DU You-tian,CHEN Feng.A survey on the vision-based human motion recognition [J].Chinese Journal of Electronics,2007,35 (1):84-90 (in Chinese).[杜友田,陳峰.基于視覺的人的運(yùn)動識別綜述 [J].電子學(xué)報,2007,35 (1):84-90.]
[3]LI Hong-song,LI Da.Some advances in human motion analysis [J].Pattern Recognition and Artificial Intelligence,2009,22 (1):70-78 (in Chinese).[黎洪松,李達(dá).人體運(yùn)動分析研究的若干新進(jìn)展 [J].模式識別與人工智能,2009,22(1):70-78.]
[4]Yilmaz A,Javed O,Shah M.Object tracking:a survey [J].ACM Computing Surveys,2006,38 (4):1-45.
[5]Hariharakrishnan K,Schonfeld D.Fast object tracking using adaptive block matching [J].IEEE Transactions on Multimedia,2005,7 (5):853-859.
[6]ZHOU Hui-yu,YUAN Yuan,SHI Chun-mei.Object tracking using SIFT features and mean shift [J].Computer Vision and Image Understanding,2009,113 (3):345-352.
[7]YI Yang,HONG Liu.A multi-cue fusion algorithm for visual tracking of human motion [J].Journal of Computer-Aided Design & Computer Graphics,2009,21 (10):1495-1499 (in Chinese).[楊戈,劉宏.面向人體運(yùn)動視覺跟蹤的多線索融合算法 [J].計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報,2009,21(10):1495-1499.]
[8]LI Min,ZHANG Zhao-xiang,HUANG Kai-qi,et al.Rapid and robust human detection and tracking based on Omega-shape features [C].16th IEEE International Conference on Image Processing,2009:2545-2548.
[9]Liu Hong,Yu Ze,Zha Hongbin,et al.Robust human tracking based on multi-cue integration and mean-shift [J].Pattern Recognition Letters,2009,30 (9):827-837.
[10]MA Li,CHANG Fa-liang.Target tracking based on mean shift algorithm and particle filtering algorithm [J].Pattern Recognition and Artificial Intelligence,2006,19 (6):787-793(in Chinese).[馬麗,常發(fā)亮.基于均值漂移算法和粒子濾波算法的目標(biāo)跟蹤 [J].模式識別與人工智能,2006,19(6):787-793.]
[11]QI Meibing,WANG Qian,JIANG Jianguo,et al.A background reconstruction algorithm based on the hypothesis of background pixel with maximum probability [J].Journal of Image and Graphics,2008,13 (4):723-728 (in Chinese).[齊美彬,王倩,蔣建國,等.基于背景像素值頻次最高假設(shè)的背景重構(gòu)算法 [J].中國圖象圖形學(xué)報,2008,13 (4):723-728.]
[12]WANG Chao,HOU Li-min.A new parameter estimation algorithm of Gaussian mixture model [J].Journal of Shanghai University (Natural Science Edition),2005,11 (5):475-480(in Chinese).[王超,侯麗敏.一種新的高斯混合模型參數(shù)估計算法 [J].上海大學(xué)學(xué)報:自然科學(xué)版,2005,11(5):475-480.]
[13]Parrilla E,GinestarD.Handling occlusion in optical flow algorithms for object tracking [J].Computers and Mathematics with Applications,2008,56 (3):733-742.
[14]Adam A,Rivlin E,Shimshon L. Robust fragments-based tracking using the integral histogram [C].Conference Computer Vision and Pattern Recognition.IEEE Computer Society,2006:798-805.
[15]Yang Ming,Wu Ying, Hua Gang.Context-aware visual tracking [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31 (7):1195-1209.
[16]ZHANG Geng,YUAN Ze-jian,ZHENG Nan-ning,et al.Visual saliency based object tracking [G].Lecture Notes in Computer Science 5995:9th Asian Conference on Computer Vision,2010:193-203.
[17]Cui J.Laser-based detection and tracking of multiple people in crowds [J].Computer Vision and Image Understanding,2007,106 (2-3):300-312.
[18]Liu Hong,Pi Wenkai,Zha Hongbin.Binocular omni-stereo based human tracking system in indoor environments for intelligent surveillance [C].2nd International Conference on Artificial Intelligence,2006:577-581.