程 芳 察 豪
(海軍工程大學(xué)海洋電磁環(huán)境研究所 武漢 430033)
?
視頻監(jiān)控智能識別的關(guān)鍵技術(shù)研究*
程 芳 察 豪
(海軍工程大學(xué)海洋電磁環(huán)境研究所 武漢 430033)
隨著視頻監(jiān)控需求的迅速增長,人工監(jiān)視已遠(yuǎn)不能滿足監(jiān)控的要求,視頻監(jiān)控系統(tǒng)的“智能化”變得越來越迫切。論文研究的核心是從理論層面出發(fā),在視頻序列中檢測、跟蹤人體,獲取人體運(yùn)動數(shù)據(jù),描述和理解人體運(yùn)動。
視頻監(jiān)控; 智能化; 核心理論
Class Number TP391
美國911事件發(fā)生以后,各單位對于安全防范工作的重視程度逐漸加強(qiáng)。在信息化的今天,視頻監(jiān)控?zé)o疑是預(yù)警危險的最佳方式?,F(xiàn)在的視頻監(jiān)控的應(yīng)用越來越普及,但大量的圖像信息也成為困擾監(jiān)控管理員的一個難題。如何有效地采集信息,而且有效地對采集的信息進(jìn)行分析,將大量沒有威脅、無關(guān)緊要的信息剔除,并將有用信息能夠直接呈現(xiàn)給用戶,這就是智能化視頻監(jiān)控系統(tǒng)主要的任務(wù)之一?,F(xiàn)今智能視頻監(jiān)控主要應(yīng)用于銀行、超市、倉庫、停車場等對安全性要求比較高的場合中,要求能夠進(jìn)行物體識別、軌跡跟蹤、車牌識別、車速測量、行為識別等[1]。
1) 圖像
圖像是客觀對象的一種相似性的、生動的描述或?qū)懻?是人類社會活動中最常用的信息載體。圖就是物體透射或反射光的分布;像是人的視覺系統(tǒng)接受視覺信息而在人的大腦中形成的印象或認(rèn)識。前者是客觀存在的,而后者是人的感覺,二者的結(jié)合即為圖像。圖像處理中,僅僅把圖像看成是二維平面或三維立體空間中具有明暗或色彩變化的光分布是不全面的。圖像根據(jù)記錄方式不同可分為兩大類:模擬圖像和數(shù)字圖像。模擬圖像可以通過某種物理量(如光、電等)的強(qiáng)弱變化來記錄圖像亮度信息,例如模擬電視圖像;數(shù)字圖像是指由像素組成的二維矩陣,數(shù)字圖像在現(xiàn)代工程實(shí)踐中應(yīng)用最為廣泛。為了方便計算機(jī)運(yùn)算與儲存,傳統(tǒng)照片或錄像帶模擬圖像經(jīng)取樣及數(shù)字化后轉(zhuǎn)化為數(shù)字圖像。數(shù)字圖像的最基本單元稱為像素(Pixel)。像素的亮度以灰度值(Gray-level)表示,灰度值被劃分為256階,最暗為0,最亮為255。圖像按其灰度分成黑白圖像(是指圖像的每個像素只能是黑或者白,沒有中間的過渡,故又稱為二值圖像,二值圖像的像素值為0.1)、灰度圖像(灰度圖像是指每個像素的信息由一個量化的灰度級來描述的圖像,沒有彩色信息)、彩色圖像(彩色圖像是指每個像素的信息由RGB三原色構(gòu)成的圖像,其中RGB是由不同的灰度級來描述的)。
2) 圖片識別問題
智能視頻監(jiān)控實(shí)質(zhì)就是對一幀幀的視頻圖片進(jìn)行處理,圖片的模式識別涉及下列幾步[2]:
1) 圖片的取樣和量化:一張照片被轉(zhuǎn)化為一個計算機(jī)能識別的數(shù)組。
2) 圖片分割:按亮色、彩色或紋理的一致與否確定區(qū)域。
3) 景物分析:由分割獲得的區(qū)域被合并或修改,使計算機(jī)能定位其為物體。
4) 形狀描述:物體被編碼為反映它們形狀的定量的結(jié)構(gòu)。
5) 物體描述:根據(jù)服務(wù)需求進(jìn)行簡單分類或語言描述。
視頻監(jiān)控智能識別系統(tǒng)是防止人為的盜竊、破壞,不法分子的入侵,從而確保財產(chǎn)及生命的安全。它主要是對場景進(jìn)行實(shí)時監(jiān)控,自動檢測到闖入目標(biāo)(主要是人),并由預(yù)先設(shè)定好的規(guī)則判斷該目標(biāo)的行為是否合法。整個系統(tǒng)結(jié)構(gòu)將由運(yùn)動檢測、人體識別和目標(biāo)跟蹤三個部分組成,這種系統(tǒng)可以有效解決現(xiàn)有人工監(jiān)控系統(tǒng)的缺陷,能勝任無人值守情況下的智能監(jiān)控[3]。
1) 運(yùn)動檢測(motion detection)
應(yīng)用于任何場合的智能視頻監(jiān)控,一個首要問題就是運(yùn)動檢測[4],因?yàn)楸O(jiān)控區(qū)域潛在的危險通常是運(yùn)動的目標(biāo)。通過運(yùn)動目標(biāo)檢測過濾掉無用的靜止信息,把注意力集中在活動目標(biāo)上,然后再對運(yùn)動的目標(biāo)進(jìn)行跟蹤以及目標(biāo)分類識別、行為理解等處理,對相應(yīng)的情況做出反應(yīng),達(dá)到智能監(jiān)控的目的[5]。運(yùn)動檢測的結(jié)果會作為前提條件傳遞給跟蹤和識別,因此運(yùn)動檢測的好壞,直接關(guān)系到后續(xù)處理的準(zhǔn)確性??梢?運(yùn)動檢測是實(shí)現(xiàn)智能化的第一步,也是最關(guān)鍵的一步。針對不同的環(huán)境,對于如何從視頻流中準(zhǔn)確地提取運(yùn)動目標(biāo),許多研究者對此進(jìn)行了大量的研究,得到了許多適應(yīng)不同情況的方法。其中最常見是幀差法和背景相減法。
(1)幀差法
幀差法是通過判斷相鄰兩幀圖片之間的顯著差異來檢測運(yùn)動目標(biāo),是一種圖像序列運(yùn)動分析的基本方法[6]。它的思想是通過對相鄰的兩幀圖片作差,利用視頻序列相鄰幀間的強(qiáng)相關(guān)性進(jìn)行變化檢測,從而確定運(yùn)動目標(biāo)。如果差的絕對位大于某一設(shè)定的閾值,則存在運(yùn)動物體。反之,則不存在運(yùn)動物體。具體公式如下:
其中Pk(x,y)為當(dāng)前時刻t圖像的一個像素點(diǎn),Pk-1為對應(yīng)的t-1時刻圖像的一個像素點(diǎn)。當(dāng)它們的差大于預(yù)先設(shè)定的閾值,則認(rèn)為是前景點(diǎn),反之,則是背景點(diǎn)。再將差分后的圖片二值化,前景點(diǎn)置1,背景點(diǎn)置0。
幀差法的特點(diǎn)是:算法簡單;速度快;對場景光線的變化不太敏感;受目標(biāo)陰影的影響也不大;適用于實(shí)時性高的環(huán)境。缺點(diǎn)是:容易產(chǎn)生前景空洞,無法得到完整性的運(yùn)動目標(biāo)輪廓;無法處理復(fù)雜的噪聲;檢測效果有賴于運(yùn)動物體的運(yùn)動速度,如果運(yùn)動速度較快,可能會造成兩幀之間無覆蓋區(qū)域,從而無法分割出運(yùn)動物體;而如果運(yùn)動速度過慢或是運(yùn)動物體有所滯留時,則會造成過度覆蓋或是完全重疊,根本就檢測不到物體。
(2)背景相減法
背景相減法首先儲存一張圖片作為背景,并以一定的方法進(jìn)行更新。用當(dāng)前幀與背景幀絕對相減,然后以一定的閾值進(jìn)行前景劃分,從而檢測到運(yùn)動的物體。具體算法描述如下:
式中Pk(x,y)為當(dāng)前幀中坐標(biāo)為(x,y)的像素點(diǎn)的位,Bk(x,y)為對應(yīng)的背景模型的像素點(diǎn)的位,T為設(shè)定的閾值。若當(dāng)前幀像素與對應(yīng)背景幀差的像素絕對差值大于閾值T時,則此像素為判定為前景點(diǎn),否則為背景點(diǎn)。背景相減法的好壞,關(guān)鍵取決于背景模型的準(zhǔn)確性。
2) 人體識別(body recognition)
人體識別的目的是對檢測到的運(yùn)動區(qū)域做出是否存在活動人體的判斷。運(yùn)動檢測后得到運(yùn)動物體的區(qū)域表示(一般用二值圖像表示:1表示運(yùn)動目標(biāo),0表示靜態(tài)背景),而不同的運(yùn)動區(qū)域可能對應(yīng)于不同的運(yùn)動目標(biāo)。由于監(jiān)控系統(tǒng)的關(guān)注對象一般情況下就是人,所以根據(jù)運(yùn)動區(qū)域的目標(biāo)分類就可簡化為對人和非人的簡單判別。人體識別是監(jiān)控智能識別的核心問題之一,目前常用的人體識別方法有:基于人的形體知識的分類方法和基于人的運(yùn)動學(xué)知識的分類方法。基于形狀信息的分類方法有兩種,一種是利用檢測出的運(yùn)動區(qū)域的形狀特征進(jìn)行目標(biāo)分類的方法。例如,VSAM分散度、面積、寬高比等作為特征,利用三層神經(jīng)網(wǎng)絡(luò)方法將運(yùn)動目標(biāo)劃分為人、人群、車和背景干擾。另一種方法是建立人體形態(tài)模型庫的識別方法。這種方法一般比較復(fù)雜,多用在要求非常精準(zhǔn)識別的場合。基于人的運(yùn)動學(xué)知識的分類方法是利用人體運(yùn)動的周期特性,運(yùn)動方向的一致性來區(qū)分人或物的,這方面值得一提的是中國科學(xué)院自動化研究所模式識別國家重點(diǎn)實(shí)驗(yàn)室視覺監(jiān)控組,正在根據(jù)人體運(yùn)動的周期性進(jìn)行步態(tài)識別方而的研究,這項(xiàng)技術(shù)可以和人臉識別、指紋識別一起用于對特定人的識別方面,在刑事偵察領(lǐng)域有廣闊的應(yīng)用前景。
3) 目標(biāo)跟蹤((object tracking)
運(yùn)動目標(biāo)跟蹤是指通過對圖像序列中的運(yùn)動目標(biāo)進(jìn)行檢測、提取、識別和跟蹤,獲得目標(biāo)如位置、速度、加速度以及運(yùn)動軌跡等運(yùn)動參數(shù),從而進(jìn)行進(jìn)一步處理與分析,實(shí)現(xiàn)運(yùn)動目標(biāo)的行為理解,以完成更高一級的任務(wù)(智能視頻監(jiān)控系統(tǒng)目標(biāo)跟蹤與分類算法研究)。常用的數(shù)學(xué)工具有卡爾曼濾波(Kalman Filtering)、粒子濾波算法(particle filter)及隱式馬爾可夫模型(Hidden Markov Model,HMM)等。其中Kalman濾波是基于高斯分布的狀態(tài)預(yù)測方法,不能有效地處理多峰模式(Multi-mode)的分布情況;Condensation算法[7](粒子濾波算法的簡化模型)是以因子抽樣為基礎(chǔ)的條件密度傳播方法,結(jié)合可學(xué)習(xí)的動態(tài)模型,可完成穩(wěn)定的運(yùn)動跟蹤。下面依據(jù)不同的跟蹤方法加以分類介紹:
(1)基于區(qū)域的跟蹤
基于區(qū)域的跟蹤方法基本思想是:首先得到包含目標(biāo)的模板,該模板通過圖像分割獲得或是預(yù)先人為確定,模板通常為略大于目標(biāo)的矩形,也可為不規(guī)則形狀;然后在序列圖像中,運(yùn)用相關(guān)算法跟蹤目標(biāo),對灰度圖像可以采用基于紋理和特征的相關(guān),對彩色圖像還可利用基于顏色的相關(guān)。系統(tǒng)可將人體看作由頭、軀干、四肢等身體部分所對應(yīng)的小區(qū)域塊所組成,通過跟蹤各個小區(qū)域塊來完成整個人的跟蹤?;趨^(qū)域的跟蹤方法根據(jù)運(yùn)動目標(biāo)區(qū)域的屬性變化(比如目標(biāo)區(qū)域的位置、大小等)進(jìn)行跟蹤,在很少運(yùn)動目標(biāo)的場景下效果很好,但當(dāng)運(yùn)動目標(biāo)出現(xiàn)遮擋時很難持續(xù)地正確跟蹤。
(2)基于模型的跟蹤
通過匹配目標(biāo)模型跟蹤目標(biāo),通常有三種形式:①線圖模型—人的運(yùn)動是骨骼的運(yùn)動,該表達(dá)方法就是將身體的各個部分以直線來近似。②二維輪廓—該人體表達(dá)方法的使用直接與人體在圖像中的投影有關(guān),如紙板人模型[8],它將人的身體用一組連接的平面區(qū)域塊所表達(dá)。③立體模型:它是利用廣義橢圓柱、錐臺、球等三維模型來描述人體的結(jié)構(gòu)細(xì)節(jié),因此要求更多的計算參數(shù)和匹配過程中更大的計算量?;谀P偷母櫡椒ɡ媚繕?biāo)模型進(jìn)行匹配跟蹤,能達(dá)到較穩(wěn)定的跟蹤效果,但該方法需要事先構(gòu)造好目標(biāo)模型,運(yùn)動分析的精度取決于幾何模型的精度,在現(xiàn)實(shí)生活中獲得運(yùn)動目標(biāo)的精確幾何模型是非常困難的,并且跟蹤過程計算復(fù)雜、非常耗時,很難實(shí)現(xiàn)實(shí)時的運(yùn)動目標(biāo)跟蹤。
(3)基于活動輪廓的跟蹤
基于活動輪廓的跟蹤是利用封閉的曲線輪廓來表達(dá)運(yùn)動目標(biāo),并且該輪廓能夠自動連續(xù)地更新[9]。例如可以利用隨機(jī)微分方程去描述復(fù)雜的運(yùn)動模型,并與可變形模板相結(jié)合應(yīng)用于人的跟蹤。相對于基于區(qū)域的跟蹤方法,輪廓表達(dá)有減少計算復(fù)雜度的優(yōu)點(diǎn),然而初始化通常是很困難的。基于活動輪廓的跟蹤方法主要根據(jù)目標(biāo)的外形輪廓進(jìn)行跟蹤,輪廓描述正確與否決定了跟蹤的精度,該方法對跟蹤的初始化非常敏感,以致很難自動地啟動跟蹤。
(4)基于特征的跟蹤
基于特征的跟蹤包括特征的提取和特征的匹配兩個過程。Polana與Nelson的文章[10]給了一個很好的解決方案,文中將每個行人用一個矩形框封閉起來,封閉框的質(zhì)心被選擇作為跟蹤的特征,在跟蹤過程中若兩人出現(xiàn)相互遮擋時,只要質(zhì)心的速度能被區(qū)分開來,跟蹤仍能被成功地執(zhí)行。另外,利用區(qū)域的形狀、紋理、色彩和邊緣特征信息建立了活動模板,結(jié)合卡爾曼濾波的預(yù)測方法,使特征匹配能量函數(shù)最小化來完成運(yùn)動目標(biāo)的跟蹤過程,該活動模型對于非剛性物體的跟蹤具有很好的自適應(yīng)性?;谔卣鞯母櫡椒ㄖ饕ㄟ^目標(biāo)區(qū)域的全局特征(比如面積、周長等)或局部特征(比如點(diǎn)、線特征等)進(jìn)行跟蹤,該方法能處理部分遮擋下的跟蹤問題,其難點(diǎn)是如何確定目標(biāo)的唯一特征集,若采用特征過多,系統(tǒng)效率將降低,且容易產(chǎn)生錯誤。
智能視頻監(jiān)控系統(tǒng)所涉問題較多,一方面要對圖像識別有較為深入的了解,另一方面還要對相關(guān)的數(shù)學(xué)理論有較為透徹的認(rèn)識。智能系統(tǒng)性能的提升,重點(diǎn)還是能否選取最適合的數(shù)學(xué)解決方案解決具體的問題。
[1] 高振遠(yuǎn).基于視頻的幾種人體行為識別技術(shù)研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2011.
[2] 顧毅.數(shù)字圖像識別技術(shù)對危險化學(xué)品船舶監(jiān)控中的應(yīng)用[J].中國水運(yùn),2006(11):25-26.
[3] 欒海龍.基于視頻檢測的智能監(jiān)控系統(tǒng)及其關(guān)鍵技術(shù)研究[D].西安:西安電子科技大學(xué),2009.
[4] 文軍.如何有效的實(shí)現(xiàn)智能視頻監(jiān)控[J].中國安防(技術(shù)與應(yīng)用),2007(3):65-68.
[5] 房玲江.視頻監(jiān)控中的運(yùn)動檢測與跟蹤[D].長春:吉林大學(xué),2010.
[6] 何峻峰.運(yùn)動檢測技術(shù)在數(shù)字化監(jiān)控中的實(shí)現(xiàn)與應(yīng)用[J].中國安防產(chǎn)品信息技術(shù)論壇系統(tǒng)開發(fā),2004(4):47-49.
[7] Isard M, Blake A. CONDENSATION-Conditional density propagation for visual tracking[J]. International Journalof Computer Vision,1998,29(1):52-81.
[8] S. Ju, M. Black, Y. Yaccob. Cardboard people: a parameterized model of articulated image motion[C]//Proceedings of IEEE International Conference on Automatic Face and Gesture Recognition,1996:38-44.
[9] A. Galata, N. Johnson, D. Hogg. Learningvariable-length Markov models of behavior[J]. Computer Vision and Image Understanding,2001,81(3):398-413.
[10] R. Polana, R. Nelson. Low level recognition of human motion[C]//Proceedings of IEEE Workshop Motion of Non-Rigid and Articulated Objects, Austin, TX,1994:77-82.
Key Techniques Research of Intelligent Monitoring System
CHENG Fang CHA Hao
(Electromagnetism Institute of Ocean, Naval University of Engineering, Wuhan 430033)
With the rapid growth of video surveillance requirements, manual monitoring can’t meet the needs of surveillance and the intelligentization of video surveillance systems gets more and more urgent. Starting from the theoretical level, the core of this paper is how to detect and track human body, extract human motion data, describe and understand human movement, to judge people’s intentions from video sequences.
video surveillance, intelligentization, core theory
2014年9月1日,
2014年10月17日
程芳,女,碩士研究生,研究方向:通信與信息系統(tǒng)。察豪,男,教授,研究方向:雷達(dá)總體技術(shù)。
TP391
10.3969/j.issn1672-9730.2015.03.025