戴 玥,陸小鋒,朱民耀,王曉麗
(上海大學(xué)視頻與空間信息學(xué)科組,上海 200072)
智能視覺監(jiān)控是當(dāng)今計算機領(lǐng)域的一個研究熱點,其中的一個關(guān)鍵問題是實現(xiàn)多攝像機場景下的運動目標(biāo)識別。而目標(biāo)識別問題可以通過目標(biāo)之間的特征匹配來解決。
常用于目標(biāo)匹配中的特征主要有顏色特征、點特征、紋理特征等。經(jīng)典的基于顏色直方圖(Color-histogram)的目標(biāo)匹配方法的基本思想是將目標(biāo)之間的匹配轉(zhuǎn)換為對應(yīng)的直方圖之間的距離相似度衡量?;邳c特征的目標(biāo)匹配法則是將目標(biāo)匹配轉(zhuǎn)換為穩(wěn)定關(guān)鍵點的描述子之間的相似性度量。相似性度量即通過計算目標(biāo)特征之間的巴氏距離、歐氏距離或者馬氏距離來判定目標(biāo)間的相似性。D.Comaniciu在文獻[1]中采用將Color-histogram與巴氏距離相結(jié)合的方法來尋找最佳匹配目標(biāo)的位置。Lowe提出了一種基于尺度空間的圖像局部特征描述算子—尺度不變特征變換(Scale Invariant Feature Transform,SIFT)[2],該算法對于目標(biāo)旋轉(zhuǎn)、尺度縮放、亮度變化及噪聲等具有較好的魯棒性,但是計算較復(fù)雜。因此,H.Bay[3]等人在此基礎(chǔ)上又提出了加速魯棒特征(Speeded Up Robust Features,SURF)算法,該算法對目標(biāo)的特征提取部分進行了改進,在保持良好的魯棒性的同時又提高了運算速度。A.Alahi將Color-histogram、梯度方向直方圖、SIFT和SURF等幾種不同的特征相結(jié)合[4],該方法提高了目標(biāo)的識別性能,但是速度降低,很難達到實時跟蹤的需求。
針對現(xiàn)已存在的這些特征提取與匹配方法,本文將Color-histogram、SIFT和SURF這三種不同的特征分別應(yīng)用于條件不同的場景視頻中進行實驗,通過對實驗結(jié)果的比較可以分析出每種基于不同特征的匹配方法各自較適用的場景條件,為此領(lǐng)域的研究人員提供一種關(guān)于特征選擇的參考。
多攝像機場景下的目標(biāo)匹配的算法思想是:首先對視頻幀圖像進行背景建模,然后采用背景相減法將運動目標(biāo)從場景中完整的檢測出來,接著進一步提取感興趣區(qū)域目標(biāo)的特征,最后進行特征匹配,實現(xiàn)目標(biāo)識別。
背景建模是對圖像中每個像素點的顏色值進行建模。每當(dāng)獲取到新一幀圖像后需要及時更新已存在的混合高斯模型,即將當(dāng)前圖像中的每個像素點與混合高斯模型進行匹配,若匹配成功則判定該點為背景點,反之則為前景像素點。Zivkovic在文獻[5]中提出了一種自適應(yīng)的背景建模算法,該算法中圖像的每一個像素點由M個高斯分布構(gòu)成的混合模型來表征,它的優(yōu)點在于這種混合高斯模型的分布參數(shù)會自動更新且每個像素所能選的高斯分布分量數(shù)M也會自適應(yīng)地隨著圖像變化而變化。這種M維的混合高斯分布模型定義為
生成背景模型后,則可利用背景減除法從視頻幀中提取出前景目標(biāo)。本文在文獻[5]的基礎(chǔ)上,又結(jié)合了一種基于輪廓檢測和最大連通域搜索的方法,先利用由OpenCV庫提供的cvFindContours()函數(shù)檢測出前景目標(biāo)中的所有輪廓,再進一步通過搜索其中的最大連通域來濾除一些誤檢區(qū)域的干擾,這樣就可以得到完整的感興趣目標(biāo)。
特征提取和匹配是目標(biāo)識別的關(guān)鍵技術(shù)。特征提取是指通過某種特定的方法得到相應(yīng)的一種圖像特征[6],特征匹配即對于某種特征之間的相似度進行測量[7]。
1.2.1 Color-histogram特征提取與基于巴氏距離的匹配
Color-histogram是在許多圖像檢索系統(tǒng)中被廣泛采用的顏色特征,它所描述的是不同色彩在整幅圖像中所占的比例[8]。Color-histogram 對于平移、旋轉(zhuǎn)、尺度變化和部分遮擋是相對不變的。通常先選擇一個合適的顏色空間來描述顏色特征。由于人眼對色彩細(xì)節(jié)的分辨能力遠低于對亮度細(xì)節(jié)的分辨能力,所以在進行圖像處理時,通常會將彩色圖像從RGB空間變換到HSV空間[9]。HSV顏色模型包括三要素:色調(diào)、飽和度和亮度。本文主要選用了其中的H和S分量,先將H和S顏色分量分別量化為Nh和Ns級,然后將由此創(chuàng)建出的Nh×Ns級二維直方圖作為目標(biāo)的Color-histogram,本文中的Nh和Ns的取值分別為16和8。此方法相比較于HSV三維直方圖的準(zhǔn)確性并未降低且大大減少了計算量。
得到歸一化的直方圖分布后,即可用一種客觀度量法來計算它們之間的相似度。巴氏距離(Bhattacharyya distance)可以測量兩離散概率分布的特性,本文選用它來計算直方圖間的距離。測出的直方圖距離和相似性是成反比的,距離越小,則相似性越大。一般當(dāng)計算得到的距離值小于某個閾值時,就判定為匹配,本文中此閾值取0.5。巴氏距離的公式為[10]
式中:H1和H2分別為兩個待匹配目標(biāo)對應(yīng)的歸一化的直方圖。
1.2.2 SIFT特征提取與基于歐氏距離的匹配
SIFT是由Lowe于1999年提出的局部特征描述子,并于2004年得到進一步的發(fā)展和完善[2]。基于SIFT特征的匹配算法同樣也包括兩個階段:一是SIFT特征的提取,即從多幅圖像中提取出對尺度縮放、亮度變化、旋轉(zhuǎn)保持不變的特征向量;第二階段是對于生成的SIFT特征向量進行相似性度量。SIFT特征向量的生成一般包括以下4個步驟:
1)構(gòu)建尺度空間并檢測出局部極值點;
2)精確確定關(guān)鍵點的位置和尺度,同時濾除低對比度的關(guān)鍵點和不穩(wěn)定的邊緣響應(yīng)點;
3)為每個關(guān)鍵點分配方向值,至此每個關(guān)鍵點應(yīng)有3個信息——位置、所處尺度和方向;
4)對每個關(guān)鍵點使用4×4共16個種子點來描述,而每個種子點又有8個方向向量信息,因此對于一個關(guān)鍵點就可以生成128維的SIFT特征向量。
當(dāng)分別生成兩幅圖像的SIFT特征向量后,對于下一步的匹配階段本文采用歐氏距離來度量兩幅圖像中關(guān)鍵點的相似性。歐氏距離是一個通常采用的距離定義,它是在m維空間中兩個點之間的真實距離[2]。歐氏距離公式為[10]
式中:xi1表示圖像1上某一點的第i維坐標(biāo),xi2表示圖像2上某一點的第i維坐標(biāo)。取圖像1中的某個關(guān)鍵點,并找出其與圖像2中歐式距離最近的前兩個關(guān)鍵點,在這兩個關(guān)鍵點中,如果最近的距離除以次近距離后所得的值小于某個比例閾值,則接受這一對匹配點。當(dāng)總的匹配點對數(shù)超過一定閾值時,就認(rèn)為二者匹配。本文中的比例閾值取0.49,匹配點對閾值取3。
1.2.3 SIFT特征提取與基于歐氏距離的匹配
SURF特征是一種圖像的局部特征,它與SIFT特征一樣,對于目標(biāo)圖像的旋轉(zhuǎn)、尺度縮放、亮度變化也保持不變性,并且運算速度更快[3]?;赟URF特征的匹配算法的流程主要包括:特征點檢測、特征點描述和特征點匹配3個部分[11]。它的整體思想流程實際上類似于SIFT特征匹配算法,主要的改進之處在于:SURF算法在建立圖像的尺度空間時采用了方框濾波近似代替二階高斯濾波,并運用了積分圖像加速卷積;特征點檢測部分則采用了基于Hessian矩陣的檢測器,其在穩(wěn)定性和可重復(fù)性方面都優(yōu)于基于Harris的檢測器;對于特征點的描述,選擇利用Haar小波代替直方圖來計算特征點的主方向并由此生成一個16×4=64維的SURF特征描述子。
本文所選用的測試視頻主要來源于PETS監(jiān)控視頻庫和實驗錄制視頻集。PETS是國際著名的開放監(jiān)控視頻庫,依據(jù)實驗所需僅選取了PETS2001[12]中的Dataset1和Dataset3兩個視頻數(shù)據(jù)集。另外的4個視頻組均是根據(jù)實驗所需的不同場景條件所錄制。根據(jù)場景分類,視頻組D3和D4為室內(nèi)場景,其他視頻組均為室外場景;根據(jù)視頻目標(biāo)分類,視頻組D3中的目標(biāo)是小車,其他視頻組中的目標(biāo)都為行人。6個視頻組(用D1~D6分別表示)的具體信息如表1所示。
表1 實驗所選用的6個視頻數(shù)據(jù)集的相關(guān)信息
圖1所示為6個視頻組的實際場景。從圖中可以看出,D1視頻組背景簡單,目標(biāo)大小適中、衣著顏色鮮亮,且目標(biāo)為正面朝攝像頭,所以是比較理想的場景;D2視頻組中目標(biāo)較小且其顏色與背景色彩難以區(qū)分;D3視頻組中兩輛小車面對著攝像頭的部分分別為車頭和車尾,視角變化很大;D4視頻組中的兩個場景完全不同,目標(biāo)人物的衣服顏色與背景顏色差別也不大,且目標(biāo)間視角差異明顯,分別為側(cè)面和背面;D5視頻組中雖然也存在目標(biāo)視角變化,但目標(biāo)的顏色卻極易與背景色彩區(qū)分開;D6視頻組兩個視頻間的光線差異相比其他的視頻組則更明顯。
圖1 D1~D6視頻組的實際場景圖
本文實驗環(huán)境為CPU Intel Core i3-380M,909 MHz,1.92 Gbyte內(nèi)存,軟件開發(fā)工具為Windows XP操作系統(tǒng),VS2008+OpenCV2.1。實驗視頻幀的大小為352×288,幀率為25幀/秒(f/s)。為了得到實驗的比較結(jié)果,首先需要利用VS2008和OpenCV2.1在一個MFC的界面框上逐一地實現(xiàn)Color-histogram、SIFT和SURF這三種特征匹配法應(yīng)用于多攝像機場景下的目標(biāo)匹配效果,如圖2所示。然后,選取6個不同的視頻組,分別用Color-histogram、SIFT和SURF方法對每個視頻組中的兩個視頻進行目標(biāo)匹配實驗。最后再將實驗得到的數(shù)據(jù),如目標(biāo)識別率和運行時間,進行相互比較。
圖2 MFC界面中的實驗效果(截圖)
3.2.1 同一視頻組中基于不同特征的目標(biāo)匹配方法的效果比較
圖3是3種特征提取及匹配方法在每個視頻組中的匹配效果對比圖。從圖中可以看出,總體的匹配效果是Color-histogram算法最佳,SIFT算法次之,最后是SURF算法。其中,D1視頻組由于錄制的時候選取的是比較理想的場景條件,所以3種方法的應(yīng)用效果都很好。而第二個視頻組中,SIFT算法的效果卻優(yōu)于Color-histogram算法,這是由于D2視頻組中2個視頻間的光線差異大、目標(biāo)顏色不鮮明,Color-histogram法顯然不適用于這種條件下的場景,并且因為2個視頻間的視角變化微小,所以比較利于SIFT算法。D3和D5視頻組中SIFT算法和SURF算法的效果相比Color-histogram算法的效果差很多,這是因為這2組視頻中的目標(biāo)顏色都十分鮮明但是視頻間的視角變化卻比較大。D4視頻組的特點是目標(biāo)顏色不鮮明,同時視頻間的視角變化也很大,可以看出在這種情況下,相比較而言還是Color-histogram法呈現(xiàn)的效果更佳。
圖3 同一視頻組中不同特征匹配方法的效果比較
3.2.2 基于同一特征的目標(biāo)匹配法應(yīng)用于不同視頻組時的效果比較
圖4為采用同一特征匹配法時不同視頻組間的效果比較。從這張圖表中可以看出,對于Color-histogram算法,D2視頻組由于受兩視頻間光線差異大且目標(biāo)顏色不鮮明這兩種不利因素影響而導(dǎo)致應(yīng)用效果最差;對于SIFT算法,則是D6視頻組的識別率最低;而對于SURF算法,D5視頻組的效果最不好。由此可分析出,光線差異大且目標(biāo)顏色不鮮明的情況最不適合采用Color-histogram算法,視角變化較大時最不適合用SIFT算法,而目標(biāo)很小且視角有變化的最不適合選用SURF算法。
圖4 采用同一特征匹配法時的不同視頻組間的效果比較
3.2.3 不同視頻組所對應(yīng)的三種目標(biāo)匹配方法的各自運行時間比較
表2中是三種目標(biāo)匹配算法應(yīng)用于不同視頻組時平均每幀視頻圖像的運行時間,平均每幀視頻圖像的運行時間是由每種算法的總運行時間除以視頻的總幀數(shù)所得。從中可以看出,運算速度從快到慢依次是Color-histogram,SIFT和SURF算法。由此可知,本文中SURF算法用于視頻目標(biāo)匹配時并未比SIFT算法的運行時間更少。
表2 不同視頻組所對應(yīng)的3種匹配方法的各自運行時間
綜合以上的所有比較結(jié)果,可以看出:基于Color-histogram特征的目標(biāo)匹配算法較適用于光線差異很小、背景簡單、目標(biāo)大小適中且顏色鮮明、視角變化小的場景中,而且它的運行速度比較快;而基于SIFT特征的目標(biāo)匹配算法比較適用于光線差異大、背景復(fù)雜、目標(biāo)顏色不鮮明且視角變化小的情況;對于視角變化較大的情況,一般選擇Color-histogram特征所得到的匹配效果會更好;但對于光線差異很大的場景,基于SIFT或SURF特征的目標(biāo)匹配算法通常所呈現(xiàn)出的匹配效果更佳。圖5為實驗的匹配效果圖直接對比。
圖5 實驗效果圖
本文選取了三種較經(jīng)典的特征Color-histogram,SIFT和SURF,并將它們分別應(yīng)用于多攝像機場景下的目標(biāo)匹配。通過對比這三種方法應(yīng)用于同一組視頻時的目標(biāo)識別率的高低可分析出不同的特征匹配法各自較適用和不適用的場景,該研究的結(jié)論可以為此領(lǐng)域的其他研究提供一種關(guān)于特征選擇方面的參考。在這些比較分析結(jié)果的基礎(chǔ)上,后續(xù)還可以考慮將其中的一些特征通過某些方式進行有效地融合運用,從而實現(xiàn)更好的匹配效果。
[1]COMANICIU D,RAMESH V,MEER P.Real-time tracking of non-rigid objects using mean shift[C]//Proc.IEEE Conference on Computer Vision and Pattern Recognition 2002.Hilton Head Island,SC:USA,2000:142-149.
[2]LOWE D G.Distinctive image features from scale-invariant keypoints[J].Computer Vision,2004,60(2):91-110.
[3]BAY H,TUYTELAARS T,GOOL L V.Speeded-Up Robust Features(SURF)[J].Computer Vision and Image Understanding,2008(110):346-359.
[4]ALAHI A,VANDERGHEYNST P,BIERLAIRE M,et al.Cascade of descriptors to detect and track objects across any network of cameras[J].Computer Vision and Image Understanding,2010(6):624-640.
[5]ZIVKOVIC Z.Improved adaptive gaussian mixture model for background subtraction[C]//Proc.the 17th International Conference on Pattern Recognition.[S.l.]:IEEE Press,2004:28-31.
[6]蔡榮太,吳元昊,王明佳,等.視頻目標(biāo)跟蹤算法綜述[J].電視技術(shù),2010,34(12):135-138.
[7]JEONG K,JAYNES C.Object matching in disjoint cameras using a color transfer approach[J].Machine Vision and Application,2008(19):443-455.
[8]ORAZIO T,MAZZEO P,SPAGNOLO P.Color brightness transfer function evaluation for non-overlapping multi camera tracking[C]//Proc.International Conference on Distributed Smart Cameras.Rome,Italy:[s.n.],2009:1-6.
[9]王娟,孔兵,賈巧麗.基于顏色特征的圖像檢索技術(shù)[J].計算機系統(tǒng)應(yīng)用,2011,20(7):160-164.
[10]于麗莉,戴青.一種改進的SIFT特征匹配算法[J].計算機工程,2011,37(2):210-212.
[11]RUBLEE E,RABAUD E,KONOLIGE K,et al.ORB:An Effecient Alternative to SIFT or SURF[C]//Proc.International Conference on Computer Vision.Barcelona,Spain:[s.n.],2011:2564-2571.
[12]MAKRIS D.PETS2001[EB/OL].[2012-11-20].http://www.cvg.cs.rdg.ac.uk/PETS2001/pets2001-dataset.html.