武光利, 郭振洲, 李雷霆, 王成祥
(1. 甘肅政法大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院,蘭州 730070;2. 西北民族大學(xué) 中國(guó)民族語(yǔ)言文字信息技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,蘭州 730070)
在大數(shù)據(jù)時(shí)代,智能監(jiān)控技術(shù)在分析與處理視頻數(shù)據(jù)方面發(fā)揮著極其重要的作用.視頻異常事件檢測(cè)是智能監(jiān)控技術(shù)的一個(gè)重要應(yīng)用方向[1].人工檢測(cè)是傳統(tǒng)的視頻異常檢測(cè)方法,但人工檢測(cè)方法的缺點(diǎn)顯而易見.一方面,工作人員長(zhǎng)時(shí)間觀察監(jiān)控視頻會(huì)出現(xiàn)視覺(jué)疲勞和注意力不集中等狀況,進(jìn)而導(dǎo)致錯(cuò)檢、漏檢[2];另一方面,人工檢測(cè)方法較依賴于工作人員的日常經(jīng)驗(yàn)和反應(yīng)能力[3].與深度學(xué)習(xí)相結(jié)合的智能視頻監(jiān)控技術(shù)在一定程度上彌補(bǔ)了傳統(tǒng)檢測(cè)方法的不足[4],在節(jié)省人力的同時(shí),也更為準(zhǔn)確高效.國(guó)內(nèi)外研究人員大致基于兩個(gè)研究方向解決視頻異常事件的檢測(cè)問(wèn)題.
(1) 幀級(jí)檢測(cè).使用不同的方法提取特征,訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)[5]、支持向量機(jī)等模型并計(jì)算每一個(gè)視頻幀是否發(fā)生異常事件的概率.何傳陽(yáng)等[6]針對(duì)人群異常行為提出一種改進(jìn)的Lucas-Kanande光流方法.柳晶晶等[7]提出一種融合光流場(chǎng)和梯度的方法.都桂英等[8]提出一種改進(jìn)的光流計(jì)算方法,在原方法的基礎(chǔ)上融合加權(quán)光學(xué)能量特征(HOFO).Chen等[9]利用運(yùn)動(dòng)能量模型來(lái)表示人群中的局部運(yùn)動(dòng)模式.Luo等[10]提出一種與時(shí)間相關(guān)的稀疏編碼(TSC),使用時(shí)間相關(guān)項(xiàng)保留兩個(gè)相鄰幀之間的相似性.雷麗瑩等[11]提出一種基于AlexNet模型的異常檢測(cè)模型,其幀級(jí)檢測(cè)準(zhǔn)確率較高,但并不能體現(xiàn)異常事件發(fā)生的具體區(qū)域和內(nèi)容.
(2) 像素級(jí)檢測(cè).通過(guò)改進(jìn)全卷積神經(jīng)網(wǎng)絡(luò)[12]、生成式對(duì)抗網(wǎng)絡(luò)(GAN)等模型結(jié)構(gòu)對(duì)輸入對(duì)象中的每一個(gè)元素進(jìn)行檢測(cè).周培培等[13]利用ViBE算法結(jié)合光流強(qiáng)度信息對(duì)視頻背景進(jìn)行建模和提取運(yùn)動(dòng)區(qū)域.Wang等[14]提出兩個(gè)基于局部運(yùn)動(dòng)的視頻描述符,分別是SL-HOF(Spatially Localized Histogram of Optical Flow)描述符和ULGP-OF(Uniform Local Gradient Pattern Based Optical Flow)描述符.Ravanbakhsh等[15]利用生成式對(duì)抗網(wǎng)絡(luò)對(duì)視頻異常事件進(jìn)行檢測(cè)和定位.Sabokrou等[16]最先將全卷積神經(jīng)(FCN)網(wǎng)絡(luò)應(yīng)用于異常檢測(cè),提出一種級(jí)聯(lián)的方式檢測(cè)和定位異常區(qū)域.Fan等[17]提出Gaussian混合全卷積變分自編碼器(GMFC-VAE),采用雙流網(wǎng)絡(luò)框架對(duì)RGB圖像和光流進(jìn)行特征提取和融合.然而,像素級(jí)檢測(cè)雖然可以顯示異常區(qū)域,但無(wú)法體現(xiàn)視頻幀之間的時(shí)間相關(guān)性.
本文提出一種融合全卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短期記憶網(wǎng)絡(luò)(FCN-LSTM)的視頻異常事件檢測(cè)模型.首先,該模型利用卷積神經(jīng)網(wǎng)絡(luò)提取視頻幀的圖像特征,并輸出3個(gè)不同深度的中間層結(jié)果,這些中間層結(jié)果代表著視頻幀圖像的淺層紋理特征和深層邏輯特征.然后,把中間層結(jié)果分別輸入記憶網(wǎng)絡(luò)中,以時(shí)間為軸線分析前后幀之間語(yǔ)義信息的相關(guān)性.最后,利用殘差結(jié)構(gòu)融合不同深度的圖像特征和語(yǔ)義信息,構(gòu)成不同層級(jí)的多模態(tài)特征,并通過(guò)跳級(jí)結(jié)構(gòu)和上采樣把多模態(tài)特征擴(kuò)大成與原視頻幀大小相同的預(yù)測(cè)圖.
全卷積神經(jīng)網(wǎng)絡(luò)語(yǔ)義分割算法是由Shelhamer等[18]在2015年提出的,F(xiàn)CN模型通過(guò)將原始卷積神經(jīng)網(wǎng)絡(luò)中的全連接層替換為卷積核為1×1的卷積層來(lái)實(shí)現(xiàn)全卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu).由于1×1卷積在FCN網(wǎng)絡(luò)模型里的主要作用是降維,融合不同通道上的特征,既可以減少模型參數(shù)、減少計(jì)算量,也可以對(duì)不同特征進(jìn)行尺寸的歸一化.通過(guò)1×1卷積和跳級(jí)結(jié)構(gòu),F(xiàn)CN網(wǎng)絡(luò)可以將來(lái)自多個(gè)不同深度的特征圖通過(guò)求和的方式進(jìn)行融合并進(jìn)行上采樣,即對(duì)圖像中的每個(gè)像素點(diǎn)進(jìn)行預(yù)測(cè),最終輸出一個(gè)與輸入圖像大小相同的預(yù)測(cè)圖.FCN網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,其中數(shù)字代表每一層卷積核的個(gè)數(shù).
圖1 FCN網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Structure diagram of FCN network
圖2 LSTM網(wǎng)絡(luò)細(xì)胞結(jié)構(gòu)圖Fig.2 Cell structure diagram of LSTM network
由圖2可知,LSTM網(wǎng)絡(luò)的細(xì)胞狀態(tài)受到3個(gè)門的控制,也就是圖2中的σ,σ的本質(zhì)是Sigmoid激活函數(shù),輸出一個(gè)0~1之間的向量.LSTM在訓(xùn)練時(shí)第1步需要判斷是否激活遺忘門,通過(guò)上一個(gè)時(shí)刻的輸出和當(dāng)前時(shí)刻的輸入決定細(xì)胞狀態(tài)要遺忘前一時(shí)刻的哪些數(shù)據(jù).當(dāng)ft=0時(shí),前一時(shí)刻的細(xì)胞狀態(tài)Ct-1被遺忘;當(dāng)ft=1時(shí),Ct-1被全部保留;當(dāng)ft=0~1時(shí),Ct-1被部分遺忘.公式表示如下:
ft=σ(Wf×[ht-1,xt]+bf)
(1)
式中:ht-1為前一時(shí)刻的輸出;xt為當(dāng)前時(shí)刻的輸入;Wf為遺忘門權(quán)重;bf為遺忘門偏置.
it=σ(Wi×[ht-1,xt]+bi)
(2)
(3)
式中:Wi為輸入門權(quán)重;bi為輸入門偏置;Wc為新數(shù)據(jù)權(quán)重;bc為新數(shù)據(jù)偏置.
第3步更新細(xì)胞狀態(tài),通過(guò)遺忘門和輸入門分別控制著上一時(shí)刻的細(xì)胞狀態(tài)Ct-1是否被遺忘和更新.符號(hào)“○”表示兩個(gè)向量對(duì)應(yīng)位置的元素相乘.則
(4)
最后判斷是否激活輸出門,通過(guò)上一個(gè)時(shí)刻的輸出和當(dāng)前時(shí)刻的輸入決定細(xì)胞狀態(tài)要輸出哪些狀態(tài)特征,并利用tanh函數(shù)計(jì)算出要輸出的狀態(tài)特征.當(dāng)輸出門ot=1時(shí),細(xì)胞狀態(tài)Ct全部被輸出;當(dāng)ot=0時(shí),Ct不被輸出;當(dāng)ot=0~1之間時(shí),Ct部分被輸出.
式中:Wo為輸出門權(quán)重;bo為輸出門偏置.
FCN-LSTM模型的網(wǎng)絡(luò)結(jié)構(gòu)可以分為3個(gè)部分:圖像特征提取部分、語(yǔ)義信息提取部分、特征處理部分.其中,圖像特征提取部分由卷積層、池化層組成;語(yǔ)義信息提取部分由LSTM層組成;特征處理部分由反卷積層、跳級(jí)結(jié)構(gòu)、殘差結(jié)構(gòu)組成.模型結(jié)構(gòu)如圖3所示,其中1/8、1/16、1/32為卷積池化后獲得的特征圖與原圖的比例.
圖3 FCN-LSTM模型結(jié)構(gòu)圖Fig.3 Structure diagram of FCN-LSTM model
1.2.1圖像特征提取部分 圖像特征提取部分使用了5個(gè)卷積塊,每個(gè)卷積塊由2個(gè)卷積層和1個(gè)最大池化層組成.每個(gè)卷積塊利用卷積層提取視頻幀的圖像特征,利用池化層采樣突出局部特征,進(jìn)而提取出更有效的特征.使用卷積核為1×1的卷積層分別作用在第3、4、5個(gè)卷積塊的輸出結(jié)果上,獲得維度相同、不同深度的圖像特征,這些特征圖的大小分別是原圖像的1/8、1/16、1/32,代表原圖像的淺層紋理特征和深層邏輯特征.
1.2.2語(yǔ)義信息提取部分 語(yǔ)義信息提取部分的主體是3個(gè)獨(dú)立的LSTM層.為了能對(duì)不同的中間層結(jié)果提取語(yǔ)義信息,隱藏狀態(tài)的大小分別被設(shè)置為3個(gè)中間層輸出結(jié)果的特征圖大小,這樣就能夠以特征平面為信息、以維度為序列,由淺到深地提取3個(gè)層次的語(yǔ)義相關(guān)性.
1.2.3特征處理部分 特征處理部分是整個(gè)模型的核心,采用了多種特征處理方式,充分利用每個(gè)特征的優(yōu)勢(shì),使輸出結(jié)果更為精確.首先引用殘差結(jié)構(gòu),分別將3個(gè)層次的圖像特征和語(yǔ)義信息融合在一起,融合后的特征呈多元化,既保留了各方面的重要特征,又衍生出新特征.然后,利用跳級(jí)結(jié)構(gòu)集成不同層次的融合特征,多模態(tài)特征可以充分體現(xiàn)出不同深度的特點(diǎn),集成在一起不僅可以使不同特征之間粗細(xì)結(jié)合、優(yōu)勢(shì)互補(bǔ),還可以使特征更完整、攜帶信息更準(zhǔn)確.最后,利用反卷積將特征擴(kuò)大,獲得與原圖像大小相同的預(yù)測(cè)圖.
結(jié)合以上3個(gè)部分,本文提出了融合FCN和LSTM的視頻異常事件檢測(cè)模型.該模型把輸入的視頻逐幀分割,并通過(guò)圖像特征提取部分對(duì)視頻幀進(jìn)行提取,獲得視頻幀大小為1/8、1/16、1/32不同深度的圖像特征.然后,通過(guò)語(yǔ)義信息提取部分對(duì)3個(gè)圖像特征進(jìn)行分析,獲得深淺不同的3個(gè)層次的語(yǔ)義信息.最后,通過(guò)特征處理部分將相同深度的圖像特征和語(yǔ)義信息相融合,將不同深度的特征集成,再利用反卷積獲得與原圖像大小相同的預(yù)測(cè)圖.
1.2.4模型的詳細(xì)配置 圖像特征提取部分由14個(gè)卷積層、5個(gè)最大池化層和Relu激活函數(shù)組成.14個(gè)卷積層的輸出維度依次為32、32、64、64、128、256、512、512、256、128、64、2、2、2,卷積核大小均為3×3,步長(zhǎng)均為1,填充均為1.池化層的核大小均為2,步長(zhǎng)均為2.
語(yǔ)義信息提取部分是由3個(gè)LSTM層組成,其輸入維度依次為49、196、784,隱藏狀態(tài)大小依次為98、392、1568,均為單層單向.
特征處理部分是由3個(gè)反卷積層和歸一化函數(shù)組成.3個(gè)反卷積層的輸出大小依次為14×14×2、28×28×2、224×224×2,步長(zhǎng)依次為2、2、8,卷積核大小依次為4、4、16.
所提FCN-LSTM模型分別在加州大學(xué)圣地亞哥分校(UCSD)異常檢測(cè)數(shù)據(jù)集的ped 2子集和明尼蘇達(dá)大學(xué)(UMN)人群活動(dòng)數(shù)據(jù)集上進(jìn)行訓(xùn)練,以80%作為訓(xùn)練集,以20%作為測(cè)試集.訓(xùn)練時(shí)使用交叉熵?fù)p失函數(shù)和Adam優(yōu)化器,且學(xué)習(xí)率為0.001,通過(guò)不斷迭代求得最優(yōu)解或局部最優(yōu)解.異常檢測(cè)是通過(guò)模型的輸出結(jié)果獲得的,模型的輸出結(jié)果是與輸入圖像大小相同的預(yù)測(cè)圖,空間形狀為224×224×2.第0維表示每個(gè)像素是正常的概率,第1維表示每個(gè)像素屬于異常的概率,由此可以準(zhǔn)確定位圖像中的異常區(qū)域.
UCSD數(shù)據(jù)集是由加利福尼亞大學(xué)圣地亞哥分校創(chuàng)建,通過(guò)對(duì)準(zhǔn)人行橫道的攝像機(jī)采集,主要的異常行為是其他實(shí)體通過(guò)人行道.異常種類包括在行人乘坐輪椅、行人踩滑板滑行、機(jī)動(dòng)車通過(guò)人行道、行人騎自行車等,數(shù)據(jù)集一共有98個(gè)視頻,單獨(dú)一個(gè)視頻可以分為200幀,每幀圖像大小為238像素×158像素.4張UCSD數(shù)據(jù)集中異常事件的圖片如圖4所示.
UMN數(shù)據(jù)集是由明尼蘇達(dá)州大學(xué)創(chuàng)建,通過(guò)攝像機(jī)拍攝不同場(chǎng)景下的人群,并人為安排了一些異常行為.人群的異常行為有:人群的驟聚和驟散、人群的單向跑動(dòng).數(shù)據(jù)集一共有11個(gè)場(chǎng)景,每個(gè)場(chǎng)景都是先正常再異常.4張UMN數(shù)據(jù)集中異常事件的圖片如圖5所示.
圖4 UCSD數(shù)據(jù)集中的部分異常事件Fig.4 Some abnormal events in UCSD dataset
圖5 UMN數(shù)據(jù)集中的部分異常事件Fig.5 Some abnormal events in UMN dataset
所提FCN-LSTM模型以F1分?jǐn)?shù)、等錯(cuò)誤率(EER)e和曲線下面積(AUC)S作為評(píng)價(jià)指標(biāo),并在像素級(jí)下使用3種評(píng)價(jià)指標(biāo)與其他方法進(jìn)行比較.
2.2.1F1分?jǐn)?shù) 在介紹F1分?jǐn)?shù)之前,簡(jiǎn)要描述一下混淆矩陣.混淆矩陣也稱誤差矩陣,以類別個(gè)數(shù)n構(gòu)造n×n的矩陣來(lái)表示精度,主要用于對(duì)分類任務(wù)的預(yù)測(cè)結(jié)果統(tǒng)計(jì).
在二分類的混淆矩陣中,分為真實(shí)標(biāo)簽:真、假,預(yù)測(cè)標(biāo)簽:陽(yáng)、陰,如表1所示.其中:真陽(yáng)例(TP)代表真例的數(shù)據(jù)被標(biāo)記為正例;偽陽(yáng)例(FP)代表假例的數(shù)據(jù)被標(biāo)記為正例;真陰例(TN)代表假例的數(shù)據(jù)被標(biāo)記為負(fù)例;偽陰例(FN)代表真例的數(shù)據(jù)被標(biāo)記為負(fù)例.
表1 二分類混淆矩陣Tab.1 Binary confusion matrix
單一的精準(zhǔn)率p和召回率r只能表征模型某方面,F(xiàn)1分?jǐn)?shù)可看作為精準(zhǔn)率和召回率的一種調(diào)和平均,可以較全面地評(píng)價(jià)模型.三者的計(jì)算公式為
(7)
(8)
(9)
2.2.2曲線下面積 曲線下面積是指接收者操作特征曲線(ROC)與橫軸之間所圍成的面積.AUC是一種評(píng)價(jià)二分類模型好壞的指標(biāo),其取值范圍為0.5~1,數(shù)值越大說(shuō)明模型性能越好.
ROC曲線是以偽陽(yáng)例率(Pfp)為橫軸,真陽(yáng)例率(Ptp)為縱軸得到的圖像,可以直觀地反映出偽陽(yáng)例率和真陽(yáng)例率的關(guān)系,進(jìn)而判斷模型的優(yōu)劣.
根據(jù)表1計(jì)算偽陽(yáng)例率和真陽(yáng)例率,可表示為
(10)
(11)
2.2.3等錯(cuò)誤率 等錯(cuò)誤率是指錯(cuò)誤接受率(FAR)和錯(cuò)誤拒絕率(FRR)相等時(shí)的值.ROC曲線(像素級(jí))如圖6所示.由圖6可知,EER的值為ROC曲線與(0,1)(1,0)所在直線交點(diǎn)的橫坐標(biāo),即交點(diǎn)對(duì)應(yīng)的偽陽(yáng)例率.
圖6 ROC曲線(像素級(jí))Fig.6 ROC curve (pixel-level)
所提FCN-LSTM模型分別在UCSD和UMN數(shù)據(jù)集上進(jìn)行訓(xùn)練,以80%作為訓(xùn)練集,以20%作為測(cè)試集.在訓(xùn)練集上,通過(guò)迭代不斷更新參數(shù),尋求最優(yōu)解;在測(cè)試集上,通過(guò)訓(xùn)練好的模型對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè),并根據(jù)預(yù)測(cè)結(jié)果計(jì)算3種評(píng)價(jià)指標(biāo)的值.為了減小計(jì)算的開銷成本,在計(jì)算評(píng)價(jià)指標(biāo)時(shí)利用隨機(jī)抽樣的方法在每個(gè)視頻幀中抽取500個(gè)符合均勻分布的像素點(diǎn)作為樣本.由于樣本符合均勻分布,這就使得每個(gè)像素點(diǎn)被抽到的概率是相同的,被抽取的樣本可以代表整個(gè)數(shù)據(jù)空間的特征.通過(guò)式(7)~(9)計(jì)算模型的F1分?jǐn)?shù),通過(guò)式(10)~(11)計(jì)算樣本的偽陽(yáng)例率和真陽(yáng)例率并畫出樣本的ROC曲線.通過(guò)ROC曲線獲得e和S.實(shí)驗(yàn)結(jié)果如表2所示,ROC曲線見圖6.
由表2可知,F(xiàn)CN-LSTM模型在兩個(gè)數(shù)據(jù)集上均表現(xiàn)出較好的性能,獲得了較高的S和F1,說(shuō)明模型具有泛化能力.其中,在UCSD數(shù)據(jù)集上,e低至6.6%,S達(dá)到了98.2%,F(xiàn)1達(dá)到了94.96%;在UMN數(shù)據(jù)集上e低至7.1%,S達(dá)到了93.7%,F(xiàn)1達(dá)到了94.46%.由圖6可知,兩個(gè)數(shù)據(jù)集的ROC曲線在交點(diǎn)之前的部分均陡直上升,交點(diǎn)之后的部分都保持較高的值,說(shuō)明偽陽(yáng)例率的值對(duì)真陽(yáng)例率的值影響較小,模型有較好的預(yù)測(cè)能力.
表2 實(shí)驗(yàn)結(jié)果(像素級(jí))Tab.2 Experiment results (pixel-level)
FCN-LSTM模型與其他幾種達(dá)到像素級(jí)預(yù)測(cè)的先進(jìn)方法在UCSD數(shù)據(jù)集上進(jìn)行比較,分別為周培培等[13]提出的HOF-HOG模型、Wang等[14]提出的OCELM模型、Sabokrou等[16]提出的FCN模型、Fan等[17]提出的GM-FCN模型、Hinami等[19]提出的MT-FRCN模型,對(duì)比結(jié)果如表3所示.由表3可知,F(xiàn)CN-LSTM的e小于其他模型(降低了8.4%),并且S大于其他模型(提高了8.0%),說(shuō)明FCN-LSTM比其他模型擁有更好的預(yù)測(cè)能力.
表3 各模型對(duì)比分析(像素級(jí))Tab.3 Comparative analysis of different models (pixel-level)
在訓(xùn)練階段保存訓(xùn)練好的模型及模型參數(shù),在預(yù)測(cè)階段只需把全新數(shù)據(jù)(訓(xùn)練集和測(cè)試集之外的數(shù)據(jù))傳入模型就可以獲得預(yù)測(cè)結(jié)果,如圖7所示.
圖7(a)為UCSD ped1數(shù)據(jù)集中的4張視頻幀圖像和模型的預(yù)測(cè)結(jié)果.視頻幀中異常事件依次是一個(gè)人在玩滑板,一輛汽車在人行道上駛過(guò),一個(gè)人推著手推車,一個(gè)人在騎自行車,預(yù)測(cè)圖中白色部分標(biāo)示異常事件輪的廓和位置.
圖7(b)為UMN數(shù)據(jù)集中的4張視頻幀圖像和模型的預(yù)測(cè)結(jié)果.視頻幀中異常行為依次是人群聚散、人群?jiǎn)蜗蚺軇?dòng)、人群聚散、人群?jiǎn)蜗蚺軇?dòng),預(yù)測(cè)圖中的白色部分為跑動(dòng)的人的輪廓和位置.
圖7 兩個(gè)數(shù)據(jù)集中的部分預(yù)測(cè)結(jié)果Fig.7 Partial prediction results in two datasets
本文提出融合FCN和LSTM的視頻異常事件檢測(cè)模型FCN-LSTM.該模型不僅繼承了全卷積神經(jīng)網(wǎng)絡(luò)的像素級(jí)精度,還體現(xiàn)了記憶網(wǎng)絡(luò)的長(zhǎng)期依賴關(guān)系,故該模型擁有多角度的處理視頻數(shù)據(jù)的能力.在UCSD數(shù)據(jù)集上e低至6.6%、S達(dá)到98.2%、F1達(dá)到94.96%;在UMN數(shù)據(jù)集上e低至7.1%、S達(dá)到93.7%、F1達(dá)到了94.46%.
在未來(lái)的工作中,將嘗試不同的方法提取不同的特征來(lái)完善所提模型FCN-LSTM,使模型預(yù)測(cè)的輪廓和位置更精準(zhǔn),如加入條件隨機(jī)場(chǎng)、加入注意力機(jī)制等方法.另外,還將嘗試不同的數(shù)據(jù)集以及自己學(xué)校的監(jiān)控視頻,不斷完善本模型,使其更泛化、性能更好.