許慧芳,許亞軍
(太原理工大學 信息工程學院,山西 太原 030024)
智能視頻監(jiān)控系統(tǒng)中多攝像頭協(xié)同跟蹤算法
許慧芳,許亞軍
(太原理工大學 信息工程學院,山西 太原 030024)
為了提高智能視頻監(jiān)控系統(tǒng)中運動目標跟蹤的準確率和有效性,利用數(shù)據融合和協(xié)同跟蹤技術,實現(xiàn)了多攝像頭協(xié)同跟蹤系統(tǒng)中運動目標的有效跟蹤。首先,利用單攝像頭獨自跟蹤得到目標圖像,然后利用平面單應性和極線幾何約束結合實現(xiàn)多攝像頭視圖間的目標匹配和協(xié)同跟蹤,最后得到精確的目標跟蹤結果。通過在MATLAB上實驗仿真,并與單攝像頭目標跟蹤進行對比,得出該算法具有較好的跟蹤效果以及抗遮擋性能,可廣泛應用于智能視頻監(jiān)控系統(tǒng)中。
智能視頻監(jiān)控;數(shù)據融合;協(xié)同跟蹤;平面單應性;幾何約束
隨著計算機性能的不斷提高,以及圖像處理技術的不斷發(fā)展,智能視頻監(jiān)控(Intelligent Video Surveillance)已經逐步在國家經濟建設、國防力量支撐、智能家居安防等諸多領域得到了廣泛的應用。尤其當前我國提出了“互聯(lián)網+”的新一代信息技術創(chuàng)新革命,智能視頻監(jiān)控技術潛在的市場價值必然會促使更多研究人員投身這一科研行列。
智能視頻監(jiān)控技術的關鍵是從視頻序列中對運動目標進行檢測、分類、目標跟蹤以及目標行為的理解與描述這幾個部分,如圖1所示[1]。其中,低級視覺部分包括運動目標檢測、分類識別以及目標跟蹤;中級視覺部分即多攝像頭數(shù)據融合,主要是融合來自多個單攝像頭的數(shù)據,協(xié)同整個系統(tǒng)的跟蹤;高級視覺部分主要由行為理解和描述等部分組成。雖然智能視頻監(jiān)控經過了十幾年的快速發(fā)展,也取得了顯著的成就,但應用場景復雜性與多元化決定了在未來較長階段還需要科研學者投入大量的精力研究解決該技術的重點難點問題。尤其是,目標跟蹤作為智能視頻監(jiān)控的關鍵技術之一,當應用場景范圍較廣或者存在感興趣目標互相遮擋問題時,多攝像頭之間如何協(xié)同工作已經成為智能視頻監(jiān)控技術的一個發(fā)展瓶頸,引起了人們極大的研究熱情。
圖1 智能視頻監(jiān)控技術的研究內容
2.1 目標交接與數(shù)據融合
作為多攝像頭跟蹤系統(tǒng)的核心技術之一,多攝像頭之間目標交接的基礎往往是目標匹配。因此,對目標交接方法的研究也是對目標匹配的研究。目標交接技術解決的主要問題是,目標從一個攝像頭視野中消失或者進入另外一個攝像頭視野時,如何完成目標匹配和確認的問題[2]。Guler. S等[3]首次提出了一個基于視野分界線的多角度多攝像頭視圖跟蹤系統(tǒng),其中的目標交接就是利用了目標與視野分界線之間的關系。L. F. Teixeira等[4]提出的量化局部特征描述符與自適應學習相結合的方法來匹配目標,就是通過目標之間的對應關系來完成目標交接。
同時,數(shù)據融合也是建立在目標匹配的基礎之上的,數(shù)據融合能否進一步提取有效信息的關鍵就是能否進行良好的目標匹配。常用的數(shù)據融合理論包括卡爾曼濾波、模糊邏輯理論、神經網絡等,這里不再贅述。值得注意的是,現(xiàn)在所提出的目標匹配算法都有其一定的局限性,普適的匹配算法目前并未被人們所發(fā)現(xiàn)。
2.2 多攝像頭協(xié)同調度
在廣域的動態(tài)場景監(jiān)控系統(tǒng)中,多攝像頭協(xié)同調度技術在穩(wěn)定跟蹤性能、提高跟蹤質量以及有效分配計算資源等方面起著重要的作用。由于計算機性能的不斷提升,信息技術的持續(xù)革新,攝像機網絡化已經在逐步代替單純的多攝像頭協(xié)同。作為近兩年研究的熱點,攝像機網絡越來越多地受到相關學者的關注。
攝像機網絡主要分為集中式和分布式兩種結構,拓撲形式見圖2。攝像機網絡作為多攝像頭系統(tǒng)發(fā)展雛形出現(xiàn)的時候是建立在集中式基礎之上的,系統(tǒng)的整體性能更多地依賴于中央處理計算機,對攝像頭本身的計算性能要求較低。基于分布式結構的攝像機網絡已經逐步得到廣泛的應用,因為這種網絡化攝像機系統(tǒng)幾乎不需要中央處理器,并且對通信環(huán)境、通信帶寬以及數(shù)據中心等要求較低,但分布式網絡對每個攝像機的數(shù)據處理能力要求較高[5]。A. Alahi等[6]提出了一種基于視覺的攝像頭跟蹤調度算法,這種固定攝像頭與移動攝像頭相配合的主從分布系統(tǒng)其構成思想就是來源于無線傳感器網絡。
圖2 多攝像頭拓撲結構示意圖
本文研究實現(xiàn)的基于分布式多攝像頭協(xié)同跟蹤系統(tǒng),系統(tǒng)框架如圖3所示。分布式系統(tǒng)對單攝像頭的硬件性能有較高的要求,但隨著技術的不斷進步,目前的集成電路、計算機視覺技術已經能夠滿足這樣的要求。分布式主要體現(xiàn)在圖像處理和控制兩個方面,依賴每個攝像頭獨自的數(shù)據運算環(huán)節(jié),就可以實現(xiàn)單攝像頭對目標的跟蹤;同時,通過攝像頭之間網絡化通信,可以有效完成攝像頭之間的協(xié)同控制等;攝像頭之間目標匹配傳遞和運動狀態(tài)的交接確認,又為數(shù)據融合提供了平臺。下面首先對算法中2個關鍵內容進行研究。
《造紙裝備及材料》是為造紙裝備制造企業(yè)、材料制造企業(yè)專業(yè)服務的期刊,國內統(tǒng)一刊號CN43-1535/TS,國際連續(xù)出版物刊號:ISSN 2096—3092,全國公開發(fā)行。(2018年是第47卷,176期,季刊,大16開版)
3.1 平面單應性(Planar Homography)
一個平面到另一個平面的投影映射,在計算機視覺中這種投影映射被定義平面的單應性??臻g中同一平面的任意2幅不完全對應的圖像可以通過單應性關聯(lián)在一起,這一特性在很多現(xiàn)實應用中受到了廣泛的關注?;趫D像平面單應性來實現(xiàn)多視圖的目標融合,較基于標定的多攝像頭跟蹤方法易于實現(xiàn)而且算法相對簡單,因此本文中采用平面單應性來實現(xiàn)目標融合。
假設有2個攝像頭a和b,這2個相機都向平面π中的點P看去。點P在攝像頭a和b中的成像分別為Pa和Pb,如圖4所示。根據攝像頭投影成像原理[7]可知
Pa=HaπPπ
(1)
Pb=HbπPπ
(2)
式中:Haπ表示攝像頭a的投影矩陣,相應地,Hbπ為攝像頭b的投影矩陣,平面圖像上的點通過這種存在映射關系的投影矩陣與目標圖像上的點聯(lián)系了起來。由式(1)和(2)可推導出
(3)
平面中任一點在多個攝像頭中的成像點之間存在著一定的對應關系,即存在一個H矩陣,使得Pb=HPa。這個3×3的矩陣H稱為平面單應性矩陣(Planar Homography Matrix),這種投影對應關系稱為平面單應性(Planar Homography)。
圖4 平面點與成像點空間模擬圖
3.2 極線幾何約束(Epipolar Constraint)
在多視幾何系統(tǒng)中,有2個攝像頭在不同角度拍攝物理空間中的一實體點,在2幅圖像上分別成有2個成像點。立體匹配就是已知其中的一個成像點,在另一幅圖像上找出該成像點的對應點。極線幾何約束是立體匹配技術中應用較廣的一種,由于極線幾何約束提供的約束條件,使得目標圖像上的匹配對應點的范圍限制在一條直線上。極線約束這種點對直線的約束與點到點的平面單應性映射一樣,給出了對應點的重要約束條件,也常被用來進行多攝像頭融合。
如圖4所示,對于平面中任何一點P,點P在攝像頭a和b中的成像分別為Pa和Pb。根據極線約束原理,空間平面中任一點的多個成像點之間存在著一種約束關系,也就是這里的Pa和Pb之間存在一種約束關系,即Pb一定在與點P和Pa確定的直線L平行的直線L′上。直線L′可由下式確定
L′=FPaπ
(4)
其中,F(xiàn)是一個3×3的基礎矩陣(Fundamental Matrix)。與單應性矩陣相同,可以通過2幅圖像中的對應點來計算基礎矩陣F。本文使用findHomography函數(shù)以及findFundamentalMat函數(shù)來分別計算單應性矩陣H、基礎矩陣F,并將平面單應性和極線幾何約束相結合,來實現(xiàn)多攝像頭圖像之間的數(shù)據融合與目標關聯(lián)。
整個系統(tǒng)采用基于單攝像頭目標檢測進而跟蹤的方法,也即目標的檢測與跟蹤首先在單攝像頭層完成,對于每個攝像頭輸入的每一視頻幀,根據目標檢測提取的前景結果在單攝像頭上使用融合Mean Shift的粒子濾波算法對多目標進行自動跟蹤,單攝像頭目標跟蹤具體算法參見文獻[8],這里不再贅述。當各個攝像頭的獨立跟蹤完成后,再通過平面單應性和極線幾何約束,實現(xiàn)在不同攝像頭視圖中同一目標的匹配,通過對多個攝像頭的數(shù)據信息進行融合和協(xié)同跟蹤來確定目標的運動狀態(tài)。最后,對單攝像頭跟蹤結果進行修正,并輸出最終跟蹤結果。算法流程如圖5所示。
圖5 多攝像頭協(xié)同跟蹤算法流程圖
本文在MATLAB 7.10的仿真環(huán)境下,選用ICGLab6[9]數(shù)據集中的視頻測試序列“chap”(分辨率1 024×768,幀率 20 f/s (幀/秒),共3 760幀)來評估系統(tǒng)的跟蹤效果進而驗證算法的有效性,該數(shù)據集使用3個攝像頭搭建了一個有公共重疊區(qū)域的應用場景。然后在對比單攝像頭獨立跟蹤效果與多攝像頭協(xié)同跟蹤效果的基礎上,使用MOTA[10]等指標給出了跟蹤效果的數(shù)據對比。
ICG多攝像頭室內數(shù)據集“chap”的跟蹤效果如圖6所示。圖中第1、2、3列分別對應第1、2、3個攝像頭在第326幀、417幀和742幀的跟蹤結果。由圖可以看出,目標在行走狀態(tài)多變、遮擋面積較大的情況下,都能被多攝像頭準確穩(wěn)定地跟蹤。
圖6 ICG視頻測試序列“chap”多攝像頭協(xié)同跟蹤效果圖
圖7對比了在跟蹤目標之間存在互相遮擋的情況下,采用3個攝像頭協(xié)同跟蹤和使用單個攝像頭獨立跟蹤的結果。其中,圖7a展示了采用3個攝像頭進行協(xié)同跟蹤的時候,第1個攝像頭在第494幀、第539幀和第731幀的跟蹤結果。從跟蹤效果可以看出,本系統(tǒng)能夠相互交換視野中多目標的運動狀態(tài)數(shù)據信息,所以可以保持良好的跟蹤性能,并且克服了單攝像頭獨自跟蹤視野受限這種情況。而圖7b則展示了采用單攝像頭進行單獨跟蹤時第1個攝像頭在上述幀的跟蹤結果,由于視野中目標之間存在嚴重的互相遮擋,單個攝像頭無法像多攝像頭系統(tǒng)那樣從多個視角獲取目標的信息,無法對目標進行有效跟蹤,容易發(fā)生錯誤匹配和跟丟的現(xiàn)象。
圖7 多攝像頭協(xié)同跟蹤與單攝像頭跟蹤效果對比圖
計算機視覺領域有許多針對多目標跟蹤效果的衡量指標,MOTA(Multiple Object Tracking Accuracy)是其中公認度較高的一項,主要用來衡量跟蹤的準確度。設定t時刻的跟丟個數(shù)由mt來表征。同樣的,t時刻的誤判數(shù)、誤配數(shù)和目標總數(shù)分別由fpt,mmet和gt表征,計算如下
(5)
為了更好地評估該多攝像頭協(xié)同算法的跟蹤性能,這里使用MOTA、MT(跟丟個數(shù))、FP(誤報個數(shù))以及ID-Switch(目標ID變換次數(shù))等4個指標對ICG視頻測試序列“chap”中第1個攝像頭采集的視頻的前1 500幀(共計2 740個行人目標)在單攝像頭跟蹤和多攝像頭協(xié)同跟蹤2種情況下的跟蹤效果進行比較,對比結果如表1。單攝像頭跟蹤采用了系統(tǒng)中融合均值偏移的粒子濾波目標跟蹤算法。在該實驗室監(jiān)控場景中目標之間很多時候容易發(fā)生嚴重的遮擋,單攝像頭獨立跟蹤很難長時間準確地跟蹤目標。但是,多攝像頭的協(xié)同配合很好地克服了這一缺陷。由表1可知,多攝像頭協(xié)同跟蹤的MT僅有單攝像頭獨立跟蹤的12%。其次,由于算法中引入平面單應性和極線幾何約束函數(shù),多攝像頭之間受映射精度的影響,導致其FP和ID-Switch較單攝像頭獨立跟蹤稍多。但是,相比較好的跟丟個數(shù)指標,這個誤差在可接受的范圍之內。綜合對比,基于多攝像頭協(xié)同目標跟蹤算法的表現(xiàn)比單攝像頭單獨跟蹤算法要優(yōu)異很多。
表1 ICG場景單、多攝像頭跟蹤方法數(shù)據對比
方法MOTA/%MT/個FP/個ID-Switch/次單攝像頭跟蹤0 804516813多攝像頭跟蹤0 941625940
本文以智能視頻監(jiān)控系統(tǒng)的發(fā)展瓶頸——多攝像頭目標跟蹤為研究背景,詳細闡述了多攝像頭協(xié)同跟蹤的關鍵技術,在此基礎上設計了一個基于多攝像頭協(xié)同跟蹤系統(tǒng)的算法。算法采用融合均值偏移的粒子濾波方法來實現(xiàn)單攝像頭的獨自跟蹤,然后采用平面單應性和極線幾何約束的目標匹配方法,對不同攝像頭之間的目標進行映射,從而方便地實現(xiàn)了多攝像頭融合和協(xié)同跟蹤。最后,在實驗室環(huán)境下使用該算法實現(xiàn)了對多個目標的自動跟蹤。從仿真結果可以看出,該算法跟蹤效果與單攝像頭目標跟蹤相比較,具有跟蹤準確度高、抗遮擋干擾強等特點,是一種高性能的多目標跟蹤方法,可廣泛應用于廣域動態(tài)場景的多攝像頭智能視頻監(jiān)控系統(tǒng)中。
[1] 許亞軍, 許慧芳, 張艷春. 智能視頻監(jiān)控系統(tǒng)中運動目標檢測的研究[J]. 電視技術, 2014,38(9):228-231.
[2] 孫曉燕. 多攝像機接力目標跟蹤關鍵算法研究[D]. 濟南:山東大學, 2014.
[3] GULER S, GRIFFITH J M, PUSHEE I A. Tracking and handoff between multiple perspective camera views[C]//Proc. Applied Imagery Pattern Recognition Workshop. [S.l.]:IEEE Press,2003:275-281.
[4] TEIXEIRA L F, CORTE-REAL L. Video object matching across multiple independent views using local descriptors and adaptive learning[J]. Pattern Recognition Letters,2009,30(2): 157-167.
[5] AVED A J, HUA K A, GURAPPA V. An informatics-based approach to object tracking for distributed live video computing[J]. Multimedia Tools and Applications,2014,68(1):111-133.
[6] ALAHI A, MARIMON D, BIERLAIRE M, et al. A master-slave approach for object detection and matching with fixed and mobile cameras[C]// Proc. 15th IEEE International Conference on Image Processing. [S.l.]:IEEE Press,2008:1712-1715.
[7] CHU C, HWANG J. Fully unsupervised learning of camera link models for tracking humans across non-overlapping cameras[J]. IEEE Trans. Circuits and Systems for Video Technology, 2014,24(6):979 - 994.
[8] 許慧芳, 許亞軍. 智能視頻監(jiān)控系統(tǒng)中運動目標跟蹤的研究[J]. 電視技術, 2014,38(19):202-206.
[9] POSSEGGER H. Multi-Camera Datasets[EB/OL].[ 2015-03-20].http://lrs.icg.tugraz.at/download.php.
[10]ALANKAR S R B,BABU C S M. Efficient human tracking system[J]. International Journal of Research in Computer Applications and Robotics,2014,3(2): 21-28.
責任編輯:閆雯雯
Algorithm Research on Multiple Cameras Collaborative Tracking in Intelligent Video Surveillance System
XU Huifang, XU Yajun
(TaiyuanUniversityofTechnology,CollegeofInformationEngineering,Taiyuan030024,China)
To improve the accuracy and effectiveness of the moving objects tracking in intelligent video surveillance system, using data integration and collaborative tracking technology,effective tracking of moving targets in multi-camera tracking system is achieved. Firstly, the foreground image is got by every single camera targets tracking, and then use the planar homography and the epipolar constraint,targets correlation and collaborative tracking between multi-camera views are achieved, and finally accurate tracking results are got. Through experiments and simulations in MATLAB, comparing with single camera tracking results, the algorithm has better tracking performance and anti-blocking properties, and can be widely used in intelligent video surveillance system.
intelligent video surveillance; data integration; collaborative tracking; planar homography; epipolar constraint
山西省自然科學基金項目(2013011017-3)
TN949.6
A
10.16280/j.videoe.2015.18.020
2015-03-29
【本文獻信息】許慧芳,許亞軍.智能視頻監(jiān)控系統(tǒng)中多攝像頭協(xié)同跟蹤算法[J].電視技術,2015,39(18).