張 俊,任延珍
(1.湖北警官學(xué)院 信息技術(shù)系,湖北 武漢430034;2.武漢大學(xué) 計(jì)算機(jī)學(xué)院,湖北 武漢430072)
基于學(xué)習(xí)的視頻行為分析技術(shù)的特點(diǎn)和應(yīng)用
張 俊1,任延珍2
(1.湖北警官學(xué)院 信息技術(shù)系,湖北 武漢430034;2.武漢大學(xué) 計(jì)算機(jī)學(xué)院,湖北 武漢430072)
視頻行為分析(VBA,Video Behavioral Analytics)是智能視頻監(jiān)控(IVS,Intelligent Video Surveillance)技術(shù)領(lǐng)域近幾年來倍受關(guān)注的發(fā)展方向?;趯W(xué)習(xí)的視頻行為分析系統(tǒng)從攝像頭或視頻錄像中接受輸入,自動(dòng)學(xué)習(xí)場(chǎng)景中出現(xiàn)的正常行為和動(dòng)作,并在發(fā)現(xiàn)異常行為時(shí)用實(shí)時(shí)警報(bào)通知安全人員,它結(jié)合了計(jì)算機(jī)視覺和人工智能技術(shù),在公安工作中具有廣泛的應(yīng)用前景。
智能視頻監(jiān)控;視頻行為分析;應(yīng)用
當(dāng)前,隨著“暢通工程”、“平安城市”等警務(wù)信息化工程的加速建設(shè)和深入應(yīng)用,公安機(jī)關(guān)等社會(huì)管理部門建立了龐大的視頻監(jiān)控網(wǎng)絡(luò)。例如,武漢市2011年底投入使用,由25萬個(gè)攝像頭構(gòu)成的“天網(wǎng)”城市視頻監(jiān)控工程。這些視頻監(jiān)控系統(tǒng)在治安管理、交通管控、偵查破案等公安工作中發(fā)揮著越來越大的作用,受到各級(jí)部門的高度重視。然而,越來越大的監(jiān)控系統(tǒng)和越來越多的攝像機(jī)也給監(jiān)控人員帶來沉重的工作壓力,很多時(shí)候他們無法及時(shí)發(fā)現(xiàn)異常、獲取情報(bào)、采取措施。
智能視頻監(jiān)控(Intelligent Video Surveillance),或稱為視頻行為分析(VideoBehavioral Analytics)是近幾年來應(yīng)運(yùn)而生的一種新技術(shù),它綜合應(yīng)用了計(jì)算機(jī)視覺和人工智能的最新研究成果,可以對(duì)視頻場(chǎng)景內(nèi)的相關(guān)運(yùn)動(dòng)目標(biāo)(人或物體)進(jìn)行檢測(cè)、分類及軌跡追蹤,并根據(jù)制定的分析(觸發(fā))規(guī)則,由系統(tǒng)自動(dòng)分析、判斷運(yùn)動(dòng)目標(biāo)的行為信息,并將信息輸出到相應(yīng)的系統(tǒng)響應(yīng)平臺(tái)。根據(jù)監(jiān)控對(duì)異常行為的感知方法,視頻行為分析技術(shù)可以分為基于規(guī)則和基于學(xué)習(xí)兩大類。前者的技術(shù)和應(yīng)用較為成熟。后者的研究和應(yīng)用方興未艾,正吸引越來越多的重視,并必將成為未來視頻監(jiān)控技術(shù)的主要發(fā)展方向。
傳統(tǒng)的視頻監(jiān)控系統(tǒng)提供的是沒有經(jīng)過任何分析的視頻裸數(shù)據(jù),不能實(shí)現(xiàn)監(jiān)控系統(tǒng)應(yīng)有的實(shí)時(shí)、主動(dòng)監(jiān)督的作用,在安全性和實(shí)用性方面達(dá)不到人們的期望。主要表現(xiàn)在:第一,人類自身生理弱點(diǎn)導(dǎo)致監(jiān)控人員無法長(zhǎng)時(shí)間集中注意力工作而產(chǎn)生漏報(bào)和誤報(bào)。漏報(bào)是指發(fā)生了安全威脅,但沒有被系統(tǒng)或人員發(fā)現(xiàn);誤報(bào)是指安全活動(dòng)被誤認(rèn)為是威脅而產(chǎn)生錯(cuò)誤的報(bào)警。第二,響應(yīng)時(shí)間長(zhǎng),監(jiān)控人員無法及時(shí)發(fā)現(xiàn)控制場(chǎng)景內(nèi)的異常情況,導(dǎo)致監(jiān)控失效。這兩種問題都會(huì)降低用戶對(duì)視頻監(jiān)控系統(tǒng)的信任度。
視頻行為分析技術(shù)利用計(jì)算機(jī)視覺和圖像處理等技術(shù)對(duì)視頻信號(hào)進(jìn)行處理、分析和理解,并根據(jù)預(yù)定義的規(guī)則發(fā)出相應(yīng)的控制信號(hào)。比如自動(dòng)識(shí)別不同的物體,發(fā)現(xiàn)監(jiān)控畫面中的異常情況,并以最快的速度和最佳的方式發(fā)出警報(bào)和提供有用信息,從而更加高效地協(xié)助監(jiān)控人員獲取準(zhǔn)確信息和處理突發(fā)事件;或者過濾掉監(jiān)控人員不關(guān)心的信息,僅僅提供有用的關(guān)鍵信息,從而提高視頻監(jiān)控系統(tǒng)智能化和自動(dòng)化水平。這種監(jiān)控系統(tǒng)在特殊區(qū)域的接近控制、流量統(tǒng)計(jì)與阻塞分析、異常檢測(cè)與報(bào)警、特殊身份識(shí)別與多攝像頭的協(xié)同監(jiān)控等方面具有極高的應(yīng)用價(jià)值。
視頻行為分析監(jiān)控系統(tǒng)能有效解決傳統(tǒng)的視頻監(jiān)控系統(tǒng)存在的監(jiān)控效率低下和工作量大等問題,自從推出以來逐步成熟和實(shí)用,大大提高了視頻監(jiān)控的效率和效能。
基于規(guī)則的視頻行為分析技術(shù)需要事先設(shè)定某種判定特征或者規(guī)則,即由人教會(huì)軟件如何去識(shí)別異常,只有符合指定特征或者規(guī)則的異常行為才會(huì)引發(fā)報(bào)警響應(yīng)。規(guī)則可以是邊界、軌跡、時(shí)間窗口等,特征可以是物品狀態(tài)、人臉或步態(tài)特點(diǎn)等。根據(jù)設(shè)定規(guī)則的不同,基于規(guī)則的視頻分析技術(shù)可以衍生出許多不同的運(yùn)用模式,例如運(yùn)動(dòng)目標(biāo)的軌跡檢測(cè)和追蹤、周界警戒及入侵檢測(cè)、物品狀態(tài)檢測(cè)、絆線檢測(cè)等。
基于學(xué)習(xí)的視頻行為分析技術(shù)一般利用無監(jiān)督的機(jī)器學(xué)習(xí)算法,模擬人腦的觀察過程來發(fā)現(xiàn)異常,具有感知記憶、場(chǎng)景關(guān)聯(lián)、動(dòng)作學(xué)習(xí)等性能。整個(gè)過程無需人的干預(yù)和設(shè)定,因而具有更高的智能性。
基于學(xué)習(xí)的視頻行為分析技術(shù)綜合感知機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺,利用對(duì)人類大腦學(xué)習(xí)和記憶過程研究的成果并將此過程應(yīng)用到視覺數(shù)據(jù)的分析,實(shí)時(shí)、自動(dòng)識(shí)別監(jiān)控?cái)z像機(jī)視野內(nèi)的異常行為,使得安全人員能夠更高效和快速地監(jiān)視海量的視頻信息?;趯W(xué)習(xí)的視頻行為分析技術(shù)的優(yōu)勢(shì)在于能精確地分類目標(biāo),例如人、車輛、動(dòng)物等,以及高效地辨識(shí)和跟蹤場(chǎng)景內(nèi)的大量移動(dòng)目標(biāo)。這種技術(shù)就像人類對(duì)新環(huán)境的反應(yīng),行為分析通過眼睛(視頻攝像頭)觀察場(chǎng)景,用大腦(機(jī)器學(xué)習(xí)軟件)學(xué)習(xí)場(chǎng)景內(nèi)正常行為,然后對(duì)異常行為產(chǎn)生響應(yīng),特別適用于人群聚集場(chǎng)合。
視頻行為分析系統(tǒng)主要由管理單元、視頻分析單元、智能分析單元、觸發(fā)判定單元及響應(yīng)單元等部分構(gòu)成,完成觀察、分類和報(bào)告攝像機(jī)記錄事件的完整過程。在基于學(xué)習(xí)的視頻行為分析中,視頻分析和機(jī)器學(xué)習(xí)是兩個(gè)最核心的部分,下面對(duì)這兩個(gè)關(guān)鍵部分進(jìn)行介紹。
這個(gè)單元包括預(yù)處理、背景去除、目標(biāo)跟蹤和目標(biāo)描述四個(gè)部分,見圖1。
預(yù)處理完成將連續(xù)編碼的視頻信號(hào)轉(zhuǎn)換為視頻幀的工作,要從標(biāo)準(zhǔn)的MPEG-4或H.264信號(hào)中解碼出幀信號(hào),或者直接使用模擬信號(hào),這取決于系統(tǒng)的設(shè)置。
背景去除是從復(fù)雜的圖像中提取目標(biāo),即從連續(xù)的視頻幀中分離出不變的像素(代表背景),專注于變化的像素(代表前景移動(dòng)的物體),除了要克服噪聲和細(xì)微變化像素的影響,還必須考慮的關(guān)鍵因素是視覺場(chǎng)景改變(FOVC)的情況。攝像機(jī)的動(dòng)作(推進(jìn)、拉遠(yuǎn)或搖動(dòng))會(huì)產(chǎn)生視場(chǎng)變化,這種改變可以通過對(duì)背景的觀察得到。光線的變化會(huì)產(chǎn)生突發(fā)照明改變(SILC),導(dǎo)致背景移除和跟蹤算法混亂而立即跟蹤所有的物體。不管何種原因產(chǎn)生視覺場(chǎng)景改變,F(xiàn)OVC處理器都會(huì)感覺到這些變化,發(fā)出系統(tǒng)告警,停止背景去除運(yùn)算,等待場(chǎng)景穩(wěn)定后,從先前觀察的背景庫中識(shí)別新的背景,如果匹配,則加載場(chǎng)景記憶繼續(xù)處理,如果沒有匹配的,就開始新的學(xué)習(xí)過程。
跟蹤過程就是關(guān)聯(lián)多個(gè)視頻幀之間的相同目標(biāo),以理解目標(biāo)如何在場(chǎng)景中移動(dòng),收集其位置、速度和加速度。為了跟蹤多個(gè)目標(biāo),還利用目標(biāo)緩存器建立跟蹤目標(biāo)列表。傳統(tǒng)的基于規(guī)則的方法利用預(yù)定義的庫來區(qū)分目標(biāo),而基于學(xué)習(xí)的方法首先利用宏分類的方法測(cè)量目標(biāo)的多個(gè)屬性,例如外觀比例、亮度、顏色等,然后這些描述信息連同目標(biāo)列表一起編碼,送到下一步作進(jìn)一步的分析。
圖1 視頻分析單元的工作流程
視頻分析單元只負(fù)責(zé)觀察場(chǎng)景內(nèi)除了背景的所有事物,而不管它是什么、移動(dòng)還是靜止。所以它觀察到樹枝搖擺、灌木移動(dòng),觀察到汽車、人、兔子或鳥,然后記錄這些目標(biāo)的動(dòng)作,并描述其屬性。
這個(gè)單元通過建立記憶和假設(shè)概念來模擬人腦。它能夠自動(dòng)學(xué)習(xí),類似于反映人腦形成記憶和認(rèn)知關(guān)聯(lián)的方式。這些假設(shè)概念使得所觀察的行為模式能夠形成、存儲(chǔ)和衰退,并經(jīng)過一段時(shí)間后“遺忘”,這種模式不斷優(yōu)化而成為結(jié)構(gòu),以解釋系統(tǒng)的觀察結(jié)果。假設(shè)概念隨著時(shí)間而成熟,系統(tǒng)能從觀察中學(xué)習(xí)、記憶行動(dòng)模式,適應(yīng)環(huán)境、視場(chǎng)和設(shè)備的改變,不需要人的干預(yù)。
圖2 機(jī)器學(xué)習(xí)單元的工作流程
機(jī)器學(xué)習(xí)單元分為語義表達(dá)、建立模型、識(shí)別循環(huán)、算法處理、記憶五個(gè)階段,見圖2
第一個(gè)階段是語義表達(dá)。語義表達(dá)將計(jì)算機(jī)視覺觀察到的跟蹤目標(biāo)和目標(biāo)描述轉(zhuǎn)換成描述場(chǎng)景的語言流,然后輸出到識(shí)別循環(huán)。很多機(jī)器學(xué)習(xí)技術(shù)基于符號(hào)和文本,而不是視覺數(shù)據(jù),所以必須將視覺數(shù)據(jù)轉(zhuǎn)換為機(jī)器學(xué)習(xí)算法能理解的語言。這個(gè)過程分三步完成,第一步是段空間劃分,它將場(chǎng)景劃分為區(qū)域,以理解目標(biāo)在哪里、如何移動(dòng)和通過場(chǎng)景的路徑;第二步是基本事件檢測(cè),是一種壓縮觀察數(shù)據(jù)的方法,即把事件的描述信息用連接語法壓縮成描述序列;第三步是形式語言學(xué)習(xí),建立目標(biāo)的形式語言向量序列,以描述目標(biāo)的軌跡信息。這三步的信息連同原始的跟蹤目標(biāo)信息一起被編碼為語法符號(hào)流,送入識(shí)別循環(huán),然后生成機(jī)器學(xué)習(xí)建立的不同模型的基礎(chǔ)。
目標(biāo)描述的數(shù)據(jù)經(jīng)過類型聚合后,動(dòng)態(tài)地形成目標(biāo)類型,這是一個(gè)無監(jiān)督學(xué)習(xí)、動(dòng)態(tài)發(fā)現(xiàn)目標(biāo)類型的技術(shù)?;谝?guī)則的系統(tǒng)需要事先建立一套特征庫進(jìn)行匹配,而基于學(xué)習(xí)的系統(tǒng)并沒有關(guān)于人或物是什么樣子之類的先驗(yàn)知識(shí)。類型聚合能將具有相似形狀的目標(biāo)歸類,這意味著經(jīng)過一段時(shí)間的觀察后,系統(tǒng)能理解任何類型的生物或非生物目標(biāo)應(yīng)該長(zhǎng)什么樣,各自行為有什么不同等。
第二個(gè)階段是建立位置和動(dòng)作模型。依靠自適應(yīng)共振神經(jīng)網(wǎng)絡(luò)(ART),系統(tǒng)可以知道目標(biāo)出現(xiàn)在場(chǎng)景的位置和速度等信息。此模型是基于空間和時(shí)間的,例如在特定位置的特定時(shí)間段內(nèi)是否有目標(biāo)出現(xiàn)。
第三個(gè)階段是識(shí)別循環(huán),它在更高抽象層建立更復(fù)雜和豐富的模型。識(shí)別循環(huán)包括工作空間和代碼庫,模仿人腦神經(jīng)和認(rèn)知過程,加工輸入的語法符號(hào)流,然后輸出到學(xué)習(xí)算法。
第四個(gè)階段是各種不同的學(xué)習(xí)算法的處理。包括再一次使用ART網(wǎng)絡(luò)和支持向量機(jī)(SVM)等,從而建立目標(biāo)的行為模型和軌跡模型。這一階段從更高更精確的層面理解目標(biāo),發(fā)現(xiàn)異常的行為。
第五個(gè)階段是記憶?,F(xiàn)階段模擬了人腦記憶的三個(gè)階段:感知關(guān)聯(lián)記憶、情節(jié)記憶和長(zhǎng)期記憶,并依靠這些記憶模型領(lǐng)會(huì)識(shí)別循環(huán)輸出的符號(hào)流,并在更抽象的層面上理解場(chǎng)景。感知關(guān)聯(lián)記憶中引入了假設(shè)概念的元件,這是一些相互鏈接的列表類型的數(shù)據(jù)模塊,建立在一段時(shí)間內(nèi)學(xué)習(xí)引擎的描述數(shù)據(jù)上。如果相同的數(shù)據(jù)模式重復(fù)出現(xiàn),特定的假設(shè)概念就被標(biāo)記為“興奮的”,并擬用來構(gòu)建抽象模型而進(jìn)入情節(jié)記憶。也就是說,通過定期的觀察,得到增強(qiáng)的假設(shè)概念用來構(gòu)建更高的用來解釋場(chǎng)景的抽象層,而沒有得到增強(qiáng)的假設(shè)概念在一段時(shí)間后會(huì)衰退并消失。用同樣的方法再將場(chǎng)景模型從情節(jié)記憶過渡到長(zhǎng)期記憶,用來學(xué)習(xí)場(chǎng)景中目標(biāo)之間的相互關(guān)系,建立交互模型。長(zhǎng)期記憶用來描述目標(biāo)的活動(dòng),而假設(shè)概念不僅描述目標(biāo)的類型和活動(dòng),還描述目標(biāo)之間的相互關(guān)系,例如人沿著路邊行走和汽車在道路上行駛的不同。當(dāng)人停下靠近道路上的一輛汽車并與之交互,那么對(duì)長(zhǎng)期記憶中的假設(shè)概念就是異常,因?yàn)樵陂L(zhǎng)期記憶中沒有關(guān)于這兩個(gè)目標(biāo)互動(dòng)行為的描述。
依靠建立的4個(gè)模型:位置和動(dòng)作模型、行為模型、軌跡模型和交互模型,系統(tǒng)就能在接下來的響應(yīng)階段決定哪些行為是異常的。
基于學(xué)習(xí)的視頻行為分析技術(shù)具有廣泛的應(yīng)用前景,下面列舉若干應(yīng)用場(chǎng)景。
機(jī)場(chǎng)、港口、車站等人群流動(dòng)場(chǎng)所?;趯W(xué)習(xí)的視頻行為分析技術(shù)特別適合對(duì)異常行為,例如故意遺留可疑物品、人群的突然聚集和散開等進(jìn)行實(shí)時(shí)報(bào)警。系統(tǒng)不僅收集場(chǎng)景內(nèi)重要目標(biāo)的大小、顏色、形狀、亮度、反光度、單個(gè)或群體的一部分出現(xiàn)等信息,還跟蹤、觀察單目標(biāo)或群目標(biāo),進(jìn)而分辨出展現(xiàn)某種行為的目標(biāo)類型。如果加上人臉識(shí)別技術(shù),還能自動(dòng)鎖定、跟蹤場(chǎng)景內(nèi)的特定人員并報(bào)警。
政府機(jī)關(guān)、軍事重地、金融等限制性場(chǎng)所?;趯W(xué)習(xí)的視頻行為分析技術(shù)不僅能識(shí)別人,還能通過識(shí)別目標(biāo)的顏色、飽和度和色調(diào),區(qū)分制服和車輛,特別適合于安保人員和特定車輛經(jīng)常出入的限制性場(chǎng)合。
商場(chǎng)、廣場(chǎng)、商業(yè)街道等人群聚集場(chǎng)所?;趯W(xué)習(xí)的視頻行為分析技術(shù)能根據(jù)每個(gè)攝像頭獨(dú)特的視覺場(chǎng)景來自動(dòng)辨識(shí)和分類目標(biāo),也就是目標(biāo)分類規(guī)則是針對(duì)每個(gè)攝像頭自適應(yīng)的。更精確的目標(biāo)辨識(shí)加上描述性的架構(gòu),使得系統(tǒng)能夠?qū)W習(xí)人群運(yùn)動(dòng)模式,包括涌動(dòng)方向、速度和聚集程度,從而對(duì)場(chǎng)景內(nèi)異常的群體運(yùn)動(dòng)模式和擁擠情況進(jìn)行報(bào)警。
視頻行為分析技術(shù)在實(shí)踐中逐步得到廣泛應(yīng)用,但在實(shí)施時(shí)還有一些復(fù)雜問題需要考慮。一是誤報(bào)和漏報(bào),這是所有監(jiān)控系統(tǒng)重要的考量指標(biāo),誤報(bào)率和漏報(bào)率不可能同時(shí)降低,要根據(jù)實(shí)際需要側(cè)重選擇;二是對(duì)畫面質(zhì)量的要求比較高,主要是每秒幀數(shù)和像素;三是對(duì)場(chǎng)所的選擇和安裝有一定的要求,比如攝像機(jī)的安裝、調(diào)整和輔助照明設(shè)備;四是視頻行為分析技術(shù)與其他手段聯(lián)合使用的整合,例如被動(dòng)紅外傳感器(PIR)、地面震動(dòng)傳感器等傳統(tǒng)直線(或點(diǎn)式)傳感器等。
總之,視頻行為分析技術(shù)是視頻監(jiān)控發(fā)展的必然趨勢(shì),隨著方法的不斷成熟和計(jì)算能力的提高,必將得到愈來愈廣泛的應(yīng)用。
[1][EB/OL].http://www.policereview.com/sites/default/files/ppr/iss ues/ppr_fe b_mar11.pdf.
[2][EB/OL].http://www.brslabs.com/files/pdf/AISight_2%201_Fina l.pdf.
[3]視頻行為分析技術(shù)[EB/OL].http://www.firscom.cn/case_43_58.html.
[4]劉安安.感知,思維,行為:層次化的視頻內(nèi)容分析技術(shù)研究[D].天津:天津大學(xué),2010.
[5]張一.智能視頻監(jiān)控中的目標(biāo)識(shí)別與異常行為建模與分析[D].上海:上海交通大學(xué),2010.
[6]王立.步態(tài)識(shí)別及其在智能視頻監(jiān)控中的應(yīng)用[J].淮北煤炭師范學(xué)院學(xué)報(bào)(自然科學(xué)版),2010(3):51-54.
[7]黃永鑫.基于視覺的運(yùn)動(dòng)人體行為分析技術(shù)研究[J].黑龍江科技信息,2010(27):27-29.
[8]姜麗芬,鄭陶然.安全監(jiān)控系統(tǒng)中的運(yùn)動(dòng)檢測(cè)和運(yùn)動(dòng)方向的判定[J].天津師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2004(2):45-49.
[9]刁一平.理性與務(wù)實(shí)——點(diǎn)評(píng)智能視頻分析行業(yè)發(fā)展現(xiàn)狀[J].智能建筑與城市信息,2010(9):44-46.
[10]徐楊,吳成東,陳東岳.基于視頻圖像的交通事件自動(dòng)檢測(cè)算法綜述[J].計(jì)算機(jī)應(yīng)用研究,2011(4):23-27.
[11]張俊芳.智能視頻監(jiān)控技術(shù)在監(jiān)獄中的應(yīng)用[J].價(jià)值工程,2010(35):33-35.
[12]25萬只“智慧之眼”守護(hù)大武漢[EB/OL].http://ctdsb.cnhubei.com/html/ctdsb/20111229/ctdsb1608090.html,2011-12-19.
TP309
A
1673―2391(2012)05―0175―03
2012—01—10
張俊,男,湖北應(yīng)城人,湖北警官學(xué)院信息技術(shù)系;任延珍,女,陜西西安人,武漢大學(xué)計(jì)算機(jī)學(xué)院。
本研究得到2011年湖北公安中心工作理論研究課題支持。
【責(zé)任編校:李 烽】