張卓君
摘要:近年來(lái),異常行為檢測(cè)已經(jīng)成為計(jì)算機(jī)視覺和圖像處理中活躍的研究領(lǐng)域,備受研究人員關(guān)注。隨著越來(lái)越多的研究人員加入這項(xiàng)技術(shù)研究中,提出了很多具有一定突破的方法。該文將對(duì)相關(guān)檢測(cè)技術(shù)進(jìn)行總結(jié),主要就其過程中異常行為表示方法的發(fā)展現(xiàn)狀展開詳細(xì)介紹,此外,針對(duì)不同公共數(shù)據(jù)集的現(xiàn)狀及研究方向進(jìn)行介紹和展望。
關(guān)鍵詞:異常行為;異常檢測(cè);特征提取;光流法;計(jì)算機(jī)視覺
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)06-0199-03
異常檢測(cè)技術(shù)是采用計(jì)算機(jī)視覺分析監(jiān)控錄像。目前,異?;顒?dòng)一直是公共安全領(lǐng)域的一個(gè)重要問題,對(duì)其進(jìn)行準(zhǔn)確檢測(cè)具有廣泛的應(yīng)用空間,可在第一時(shí)間發(fā)現(xiàn)異常,并采取相應(yīng)的行動(dòng)和措施以確保相關(guān)對(duì)象的安全性。
由于異?;顒?dòng)的種類眾多,很難一概而論,因此對(duì)異常行為的定義也需要兼顧周圍環(huán)境才能確定,例如:公共場(chǎng)合發(fā)生打架事件、行人踐踏草坪、呈一定規(guī)律性運(yùn)動(dòng)的人群中出現(xiàn)打破規(guī)律運(yùn)動(dòng)的人等等。通常異常活動(dòng)會(huì)伴隨著正?;顒?dòng)一起進(jìn)行,因此對(duì)正常和異?;顒?dòng)進(jìn)行分類就顯得很重要,也逐漸成了計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)。隨著計(jì)算機(jī)視覺技術(shù)的發(fā)展,許多研究者提出不同的模型來(lái)進(jìn)行異常事件檢測(cè),以獲得更準(zhǔn)確的檢測(cè)。
1異常檢測(cè)技術(shù)的原理分析
異常行為檢測(cè)可看作是一個(gè)高層次的圖像理解操作,從輸入的圖像序列中提取邏輯信息并進(jìn)行行為建模。通常建模的思路有兩種:一種是首先學(xué)習(xí)正常行為的模型并以此為基礎(chǔ)檢測(cè)異常;另一種是通過批量或在線觀察數(shù)據(jù)的統(tǒng)計(jì)特性自動(dòng)學(xué)習(xí)正常和異常模型。
異常行為檢測(cè)技術(shù)(如圖1所示)可被分為四個(gè)階段:
1)視頻幀序列化階段:負(fù)責(zé)將視頻轉(zhuǎn)化成幀或片段。
2)預(yù)處理階段:完成數(shù)據(jù)的清理工作。
3)特征提取階段:從視頻中提取對(duì)象的運(yùn)動(dòng)特征。
4)檢測(cè)分類階段:使用分類器對(duì)數(shù)據(jù)進(jìn)行異常檢測(cè)。
2特征提取方法
異常檢測(cè)技術(shù)的性能直接與兩個(gè)方面有關(guān),分別是行為特征表示方法和異常識(shí)別模型,其中異常識(shí)別實(shí)質(zhì)為一個(gè)二分類問題,而行為特征表示用于表示時(shí)間和構(gòu)建行為模型的抽象,一直是計(jì)算機(jī)視覺中一個(gè)活躍的研究領(lǐng)域,同時(shí)由于特殊特征的上下文繁多,因此需要尋找更為健壯的特征描述性方法,以提取具有高度描述性和區(qū)別性的特征。因此,本文重點(diǎn)對(duì)國(guó)內(nèi)外常用的行為特征表示方法進(jìn)行概述。
行為特征表示分為兩種:(1)基于對(duì)象的方法。這種方法主要關(guān)注造成異常事件的單個(gè)對(duì)象的運(yùn)動(dòng)特征,例如對(duì)象的大小、形狀、軌跡和運(yùn)動(dòng)速度等。(2)基于整體的方法,此方法將運(yùn)動(dòng)的所有對(duì)象看作一個(gè)完整的部分,基于像素級(jí)對(duì)物體和人的運(yùn)動(dòng)和方向進(jìn)行描述,例如梯度、顏色、紋理、運(yùn)動(dòng)歷史圖像等。
Klaser等嘲基于此提出擴(kuò)展到時(shí)間域的思路,得到3DHOG特征(Histogram of Oriented 3D Spatio-temporal Gradients,三維時(shí)空方向梯度直方圖)。Laptev等、將HOF和HOG算子進(jìn)行級(jí)聯(lián),以達(dá)到對(duì)場(chǎng)景信息和運(yùn)動(dòng)信息同時(shí)表述的目的。Yang等人將具有不同尺度的兩個(gè)8箱HOF描述子進(jìn)行級(jí)聯(lián),從而構(gòu)成多尺度光流直方圖MHOF (Multi-scale Histogram of Optical Flowl。等人則基于MHOF進(jìn)一步探索提出了最大光流映射直方圖HMOFP(Histogram of Maximal Optical Flow Projectionsl。
光流法(Optical Flow)因其良好的時(shí)空特性,以及其可在未知的先驗(yàn)信息場(chǎng)中檢測(cè)到人群中的運(yùn)動(dòng)對(duì)象,同時(shí)對(duì)其運(yùn)動(dòng)速度進(jìn)行計(jì)算,因此被作為一種運(yùn)動(dòng)描述方法備受歡迎。其中,Wang等人提出稀疏光流(Lucas-Kanade,LKl只對(duì)指定的某些顯著特性的特征點(diǎn)進(jìn)行跟蹤計(jì)算。He等人提出全局光流(Horn-Schunck,HS)對(duì)圖像指定區(qū)域逐個(gè)點(diǎn)進(jìn)行匹配,通過對(duì)所有像素點(diǎn)的偏移量進(jìn)行計(jì)算從而形成稠密光流場(chǎng)。Mahmoodi等人嘲提出一種光學(xué)直方圖流量和方向(HOMO),該方法計(jì)算兩個(gè)幀之間的光流,然后分別比較各幀中各像素的光流強(qiáng)度和方向,從而獲取有意義的幅度和方向變化信息,然后將不同的閾值應(yīng)用于大小和方向的變化信息上,獲得六個(gè)二元指標(biāo),對(duì)這些二元指標(biāo)進(jìn)行分析,得到HOMO描述符。熊饒饒等人基于此提出將光流方向、大小和加速度三種直方圖融合獲取綜合光流直方圖。Direkoglu等人提出使用幀間光流向量的角度差和當(dāng)前幀光流量的乘積作為運(yùn)動(dòng)特征描述子,從而修正當(dāng)前幀光流的強(qiáng)度。Febin等人主要針對(duì)以往研究中在考慮局部時(shí)空特征時(shí),缺乏對(duì)運(yùn)動(dòng)過程中復(fù)雜光流信息的統(tǒng)計(jì),因此提出將SIFT、光流特征直方圖和MBH三種方法進(jìn)行融合,形成MoB-SIFT描述符。
3數(shù)據(jù)集
異常檢測(cè)算法中常用的公共數(shù)據(jù)集以及各數(shù)據(jù)集目前在準(zhǔn)確率和AUC兩個(gè)評(píng)價(jià)指標(biāo)中的最優(yōu)檢測(cè)效果。
3.1 UCSD數(shù)據(jù)集
UCSD(University of California,San Diego)數(shù)據(jù)集是由加州大學(xué)圣地亞哥分校創(chuàng)建,通過采集攝像機(jī)俯視人行道得到的自然狀態(tài)下發(fā)生的異常行為(如圖2所示)。數(shù)據(jù)集中的異常行為主要分為2種:人行為異常、非人實(shí)體闖入,包括騎自行車、小推車、行人侵入草地、穿行人行道、和滑冰等異常種類。
數(shù)據(jù)由98個(gè)視頻組成,分為2個(gè)不同的場(chǎng)景,每一個(gè)場(chǎng)景的視頻又分為200幀左右的視頻片段。目前此數(shù)據(jù)集的AUC已達(dá)到較好的效果(如表1所示)。
3.2UMN數(shù)據(jù)集
UMN(University of Minnesotal數(shù)據(jù)集,是明尼蘇達(dá)州大學(xué)創(chuàng)建的一個(gè)數(shù)據(jù)集。此數(shù)據(jù)集由11個(gè)視頻段組成,分別分為三個(gè)場(chǎng)景:草坪、室內(nèi)和廣場(chǎng),共有7700幀。
每個(gè)視頻都包含正常行為和異常行為,異常行為主要表現(xiàn)為人群向單方向跑動(dòng)、人群向四周散開等。如圖3所示,第一行為草坪場(chǎng)景中的正常行為和異常行為,第二行為室內(nèi)場(chǎng)景中的正常行為和異常行為,第三行為廣場(chǎng)場(chǎng)景中的正常行為和異常行為。
目前此數(shù)據(jù)集的準(zhǔn)確率已達(dá)到96.46,AUC線下面積已達(dá)到96。
3.3VIF數(shù)據(jù)集
VIF(violent fow)數(shù)據(jù)集,是由以色列開放大學(xué)創(chuàng)建的人群數(shù)據(jù)庫(kù)。由從YouTube上下載的246個(gè)現(xiàn)實(shí)事件視頻組成,其中有暴力事件視頻和非暴力事件視頻,每個(gè)視頻的長(zhǎng)度有所不同,分別為1.04秒到6.52秒不等,平均長(zhǎng)度為3.60秒。
如圖4所示,第一行為UMN數(shù)據(jù)集中非暴力行為,第二行為暴力行為。目前此數(shù)據(jù)集的檢測(cè)準(zhǔn)確率已達(dá)到93.09%。
4結(jié)束語(yǔ)
本文對(duì)視頻監(jiān)控中用于異常行為、暴力行為檢測(cè)的技術(shù)和數(shù)據(jù)集進(jìn)行了調(diào)查和綜述。目前一些方法對(duì)于公共數(shù)據(jù)集的檢測(cè)效果雖已有成效,然而仍不盡完美,且現(xiàn)實(shí)生活中存在更為復(fù)雜的異常場(chǎng)景,因此我們還面臨著一個(gè)很大的挑戰(zhàn)。希望本文的研究工作可以給您帶來(lái)一些思路上的創(chuàng)新。