李文中 吳克偉 孫永宣 焦暢 熊思璇
摘 要:異常檢測使用有限的訓(xùn)練集獲得區(qū)分度高的特征,但是當異常實例與正常實例存在較多相似特征時,模型會因為異常特征參與正常特征編碼產(chǎn)生誤差。針對上述問題,提出了一種新型的對比記憶網(wǎng)絡(luò)的弱監(jiān)督視頻異常檢測方法。該方法在自動編碼器的基礎(chǔ)上使用對比學(xué)習(xí)框架,分離出與實際異常相似的樣本特征,并設(shè)計記憶網(wǎng)絡(luò)抑制正常樣本內(nèi)偏向異常的特征表達,提高了重建樣本的穩(wěn)定性。該算法構(gòu)建了一種兩階段的異常行為檢測網(wǎng)絡(luò)。在階段一,利用對比學(xué)習(xí)方法來增加正常行為特征和異常行為特征的差異,并利用該階段學(xué)習(xí)到的特征構(gòu)造記憶網(wǎng)絡(luò)的增強項與抑制項。在階段二,將記憶網(wǎng)絡(luò)增強項設(shè)為多時刻正常行為特征,并利用記憶網(wǎng)絡(luò)的抑制項更新增強項中偏向異常的特征信息,從而區(qū)分編碼中正常與異常特征。該方法在UCF Crime和ShanghaiTech數(shù)據(jù)集的平均AUC值達到83.26%和87.53%,相較于現(xiàn)有方法分別提升了1.14%和2.43%。結(jié)果顯示,該方法能夠有效預(yù)測異常事件的發(fā)生時間。
關(guān)鍵詞:異常檢測;對比學(xué)習(xí);記憶網(wǎng)絡(luò)
中圖分類號:TP381 文獻標志碼:A 文章編號:1001-3695(2023)10-043-3162-06
doi:10.19734/j.issn.1001-3695.2022.12.0829
Video anomaly detection combining with contrastive memory network
Li Wenzhong,Wu Kewei,Sun Yongxuan,Jiao Chang,Xiong Sixuan
(School of Computer Science & Information Engineering,Hefei University of Technology,Hefei 230601,China)
Abstract:Anomaly detection aims to capture the discriminative features with limited training samples.However,when some anomalies share common compositional patterns with the normal training data,the model likely reconstructs the anomalies well,leading to the miss detection of anomalies.To mitigate this drawback,this paper proposed a novel contrastive memory network,which used the contrast learning framework to separate the sample features based on the autoencoder,and then designed a memory network to suppress the normal features similar to anomaly.This method proposed a two-stage framework for detecting abnormal events.In the first stage,the method used contrastive learning to increase the difference between normal features and abnormal features,and gained representation to be the augment memory and suppression memory of memory network.In the second stage,the model used augment memory to record multi-time normal behavior features,and used suppression memory to constrain the expression of pseudo anomaly items in the augment memory.The AUC value reached 83.26% on UCF Crime datasets and 87.53% on ShanghaiTech datasets,which were 1.14% and 2.43% higher than the existing methods.The results demonstrate that this method can efficiently predict the temporal localization of anomaly events.
Key words:anomaly detection;contrastive learning;memory network
0 引言
視頻監(jiān)控中的異常檢測指的是對不涉及普通行為的異常檢測[1,2],在智能監(jiān)控等領(lǐng)域應(yīng)用廣泛。該技術(shù)主要存在兩個難點。首先是異常行為具有歧義性,在界定異常行為時,相似的動作在不同場合卻是不同類型,如自行車行駛在公路上是正常的,出現(xiàn)在人行道則是異常的。其次是異常樣本難以直接獲取,真實場景中正常動作多,而異常行為少,異常樣本不僅在長序列視頻中占比低,而且缺乏幀級標簽,這使異常檢測難以像有監(jiān)督學(xué)習(xí)般獲取與類型相匹配的特征,考慮到視頻級標簽容易獲取,因此多采用弱監(jiān)督方法定位異常視頻幀。
大多數(shù)現(xiàn)有弱監(jiān)督方法[3~8]依賴多實例學(xué)習(xí),雖然可以通過視頻級標簽檢測異常幀,但是當異常視頻片段與正常視頻片段存在較多相似特征時,多實例學(xué)習(xí)往往難以準確定位異常幀。文獻[9~13]通過重建視頻幀的方法檢測異常,使用正常視頻數(shù)據(jù)訓(xùn)練編碼器來獲得正常數(shù)據(jù)的分布。在測試過程中,正常測試樣本具有較小的重構(gòu)誤差,異常樣本具有較大的重構(gòu)誤差。只使用正常視頻樣本訓(xùn)練編碼器,在辨別異常樣本時,編碼器會因為從未見過異常樣本而給出較高的重建誤差,有利于區(qū)分異常,當異常外觀呈現(xiàn)多樣化時,編碼器又會因為沒有見過異常樣本而無法檢測微小的或者部分可見的異常。如在圖1中,編碼器獲得正常幀的分布表示,因為沒有用異常幀進行訓(xùn)練使得異常幀重建誤差大,但是針對不同的異常種類,如偷竊、辱罵、夜盜和奔跑,由于異常幀與正常幀外觀和運動動作差異小,編碼器會因為沒有見到異常導(dǎo)致誤判。如果以弱監(jiān)督異常視頻樣本訓(xùn)練編碼器,由于缺少異常幀級標簽而無法直接獲取異常特征。本文在自動編碼器的基礎(chǔ)上使用對比學(xué)習(xí)框架,考慮到對比學(xué)習(xí)能將相似特征間的距離拉近,并將不相似特征間的距離推遠[14~16],以對比學(xué)習(xí)分離正常與異常特征,然后設(shè)計記憶網(wǎng)絡(luò)分別存儲正常特征與異常特征,通過異常特征來約束正常樣本內(nèi)偏向異常的特征表達,使模型以有代表性的記憶項重構(gòu)正常樣本。
本文提出一種兩階段的對比記憶網(wǎng)絡(luò)模型用于異常行為檢測,該模型將對比學(xué)習(xí)捕獲的差異化分布特征用于構(gòu)建記憶網(wǎng)絡(luò),提高模型的準確率;使用視頻級異常數(shù)據(jù)構(gòu)建對比學(xué)習(xí)的正負例,并設(shè)計了緊湊性對比損失函數(shù)和描述性對比損失函數(shù),有效地區(qū)分了正常樣本特征與異常樣本特征。本文構(gòu)造記憶網(wǎng)絡(luò)的增強項和抑制項分別存儲特征空間中的兩種行為特征,并通過抑制項約束增強項中的無關(guān)特征表達,緩解相似特征參與編碼的現(xiàn)象。在UCF Crime和ShanghaiTech異常檢測數(shù)據(jù)集上的實驗表明,本文方法能夠有效區(qū)分正常行為特征和異常行為特征,并且檢測效果優(yōu)于現(xiàn)有的方法。
1 方法
1.1 總體框架描述
階段一,首先使用對比學(xué)習(xí)生成正常樣本與異常樣本的差異化特征表達空間??紤]到真實場景中正常實例與異常實例的多樣性,本文不追求細粒度特征表達的差異,而是通過緊湊性對比損失函數(shù),將結(jié)構(gòu)相似的正常特征拉近,描述性對比損失函數(shù)將結(jié)構(gòu)不相似的異常特征推遠。使正常和異常編碼特征分別呈現(xiàn)聚集效果,以用于構(gòu)建記憶網(wǎng)絡(luò)。階段二,本文將對比學(xué)習(xí)階段捕獲的特征用于構(gòu)造記憶網(wǎng)絡(luò)的增強項和抑制項,此時增強項的特征分布偏向于正常,而抑制項的特征分布更偏向于異常。根據(jù)圖像重建誤差判斷異常會因為正常與異常存在相似特征,使模型對正常數(shù)據(jù)編碼時部分異常特征也參與構(gòu)建正常模式。為避免這種現(xiàn)象,本文計算記憶抑制項與記憶增強項兩者間的余弦相似度,將相似度高的記憶項從記憶增強項中去除,實現(xiàn)約束增強項中偏向異常的記憶項表達。
1.2 對比學(xué)習(xí)階段
在階段一對比學(xué)習(xí)時,本文使用多種數(shù)據(jù)增強方式擴充訓(xùn)練數(shù)據(jù),如隨機裁剪、隨機顏色失真和隨機高斯模糊等,主要從隨機裁剪和隨機顏色失真兩相關(guān)視圖構(gòu)建正例[14]。假定以s表示視頻樣本特征,其中s1和s2取自正常視頻,s3和s4取自異常視頻。本文以{s,s+}表示構(gòu)建的正例對,其中*表示任意一種數(shù)據(jù)增強方式,{s,s+}表示使用同一片段的不同表示構(gòu)建的正例對,這里同一片段不同表示指的是使用同一正?;虍惓R曨l片段的隨機顏色裁剪和隨機顏色失真表示。在構(gòu)建對比學(xué)習(xí)負例樣本時,考慮到異常樣本的弱標簽屬性,本文不再關(guān)注如何獲取異常行為特征,而是通過隨機選擇正?;虍惓R曨l片段的方式構(gòu)造負例對{s,s-},這里負例對不一定表示樣本間存在較大的特征差異,而僅意味著構(gòu)建負例對的樣本來自不同的語義片段組合,例如將來自正常視頻的片段與來自異常異常的片段一起制作了負例對。在對比學(xué)習(xí)階段,本文使用視頻片段s1s2、s3s4構(gòu)建了正例對,使用視頻片段s1s3、s2s4構(gòu)造了負例對。
由于異常視頻的弱標簽屬性,異常特征無法直接獲取,且異常視頻中正常視頻片段占比多,而異常視頻片段占比少,造成異常特征表達不明顯的難題。為此本文設(shè)計了描述性對比損失函數(shù)以及緊湊性對比損失函數(shù),旨在增強正常與異常特征分布的差異性,使之呈現(xiàn)不同的聚集效果。描述性對比損失增強正常與異常分類效果,即正常與異常樣本在特征空間里良好的區(qū)分性,緊湊性對比損失增強相似數(shù)據(jù)的聚集效果,增加異常特征表達。本文將取自相同語義視頻片段s1s2、s3s4及其增強視頻片段組合構(gòu)建正例對{s,s+},不同語義的視頻片段s1s3、s2s4組合構(gòu)建負例對{s,s-},通過描述性以及緊湊性對比損失函數(shù)迫使模型拉近樣本與相似特征的距離,推遠與異類特征的距離。設(shè)計損失函數(shù)時,首先計算視頻片段間的相似度,如式(1)(2)所示。
通過階段一對比損失losscon約束編碼特征空間,使相似特征能夠拉近,不相似特征推遠。階段一模型訓(xùn)練結(jié)束后,輸出對比學(xué)習(xí)表示,將聚類以構(gòu)建記憶網(wǎng)絡(luò)的增強項與抑制項,由特征分布的差異性可知,增強項的特征分布更偏向于正常,而抑制項的特征分布更偏向于異常。本文使用最近鄰方法更新正常樣本特征分布的聚類中心Cp,在此基礎(chǔ)上找到相距最遠且由異常視頻中特征組成的負例樣本特征分布中心Cn。本文使用如下的更新策略不斷地調(diào)整特征分布中心。
a)當編碼特征取自正常樣本時,直接使用該特征調(diào)整Cp;
b)當編碼特征取自異常樣本時,通過計算該特征與Cp的余弦相似度,并將該值與異常偏向判定閾值ε比較:當相似度高于ε時,本文視編碼特征取自異常視頻的正常動作片段,即調(diào)整Cp;當相似度低于ε時,本文視編碼特征取自異常視頻的異常動作片段,即調(diào)整Cn。
即以Cp為中心選擇最相似的L項特征構(gòu)造記憶網(wǎng)絡(luò)的增強項,以Cn為中心選擇最相似的N項特征構(gòu)建記憶網(wǎng)絡(luò)的抑制項,詳情見1.3節(jié)。
1.3 記憶網(wǎng)絡(luò)
異常特征與正常特征有較多的相似性時,往往會因為異常特征參與正常編碼而使異常視頻幀被模型誤判為正常。記憶網(wǎng)絡(luò)[17,18]能夠存儲典型正常特征向量,緩解異常編碼重建的難題。與文獻[17,18]不同,本文的記憶網(wǎng)絡(luò)設(shè)計兩個類別的記憶項,將偏向于正常的特征構(gòu)建記憶網(wǎng)絡(luò)的增強項,偏向于異常的特征構(gòu)造記憶網(wǎng)絡(luò)的抑制項,并使用抑制項約束增強項內(nèi)偏向異常的特征表達,從而減少異常特征參與圖像重構(gòu)。
1.3.1 記憶網(wǎng)絡(luò)增強項
在階段一對比學(xué)習(xí)時,本文將對比學(xué)習(xí)表示聚類構(gòu)建了記憶網(wǎng)絡(luò)的記憶項M,記憶項M是由L+N個K維向量組成的二維矩陣(L+N)×K,L+N表示記憶網(wǎng)絡(luò)的記憶項數(shù)量,K表示記憶項特征維數(shù),矩陣的每一行向量1×K構(gòu)成了記憶項mi,其中記憶網(wǎng)絡(luò)的增強項Me是由二維矩陣前L行向量mei組成,記憶網(wǎng)絡(luò)的抑制項Mc由二維矩陣后N行向量mci組成。本文使用Me重構(gòu)輸入樣本,獲取特征。
如圖2所示,給定一個樣本x,則fe(·):x→z表示編碼器,fd(·):→表示解碼器。其中編碼器將輸入樣本編碼成特征z,特征z經(jīng)增強項內(nèi)相關(guān)記憶項重構(gòu)后輸出,再由解碼器反向解碼后輸出重構(gòu)樣本。獲取重構(gòu)特征時,首先查詢檢索與編碼特征z相似度最高的記憶項,使用強制收縮策略,使增強項能夠以最少的記憶項重構(gòu)z,減少無關(guān)信息的干擾。
本文利用記憶尋址計算輸入特征z與增強項內(nèi)各記憶項 mei的余弦相似度(式(6)),將相似度正則后獲得相似度量w(式(7)),wi則表示度量 w第i個元素。輸入特征z與相似度量w矩乘后,獲得輸出特征(式(8))。w描述了增強項內(nèi)各記憶項與輸入特征z的相關(guān)性,如果本文能以相關(guān)度最高的記憶項重構(gòu)輸入特征z,就能避免無關(guān)特征信息的干擾。由于記憶網(wǎng)絡(luò)的增強項內(nèi)存儲的是偏向正常特征的原型信息,這意味著本文能以有限且典型的代表特征重構(gòu)輸入特征z。為此對相似度量w采用強制收縮的策略使增強項能用代表性更高的記憶項重構(gòu)z,強制收縮策略本質(zhì)上是一種注意力機制,旨在輸出 時更關(guān)注典型記憶項,如式(9)所示。
其中:max(·,0)表示ReLU 激活函數(shù);δ表示正標量。實驗時本文發(fā)現(xiàn)模型在閾值λ∈[1/L,3/L]時有較高的性能。經(jīng)強制收縮后,本文對i進行正則化i=i/‖‖1,此時輸出特征=Me。此處的強制收縮策略有利于模型以較少但更具有代表性的原型特征表示正常樣本,學(xué)習(xí)更多抽象特征表達。
1.3.2 記憶網(wǎng)絡(luò)抑制項
與文獻[17,18]不同的是,本文在階段一用異常樣本構(gòu)造了記憶網(wǎng)絡(luò)的抑制項,所以更新記憶網(wǎng)絡(luò)的增強項時,階段二就間接使用了與測試集相重疊的異常樣本,實現(xiàn)使用抑制項約束增強項內(nèi)記憶項表達的目的。如圖2所示,記憶網(wǎng)絡(luò)抑制項使用Mc表示,與增強項類似,抑制項是N×K 的二維矩陣,N描述了抑制項內(nèi)記憶項數(shù)量,在UCF Crime和ShanghaiTech等常用異常檢測數(shù)據(jù)集中,正常動作視頻片段的時長要遠遠高于異常視頻片段時長,所以此處 N 文獻[17,18]訓(xùn)練模型時關(guān)注降低視頻幀的重建誤差,即模型以較少且更有代表的特征重建正常樣本,但同時也會忽略運動等細粒度信息。為避免這種現(xiàn)象,本文計算輸入特征z與輸出特征之間的相似度d(z,)(式(11)),并將其與異常偏向判定閾值ε相比較,當d(z,)低于閾值ε時,本文認為輸入特征z經(jīng)記憶網(wǎng)絡(luò)的增強項重構(gòu)后丟失信息較多,參考文獻[17]記憶項更新策略,本文使用輸入特征z更新抑制項,以使更多的細粒度特征參與視頻幀重建任務(wù)。當d(z,)高于閾值ε時,不再更新抑制項,而直接使用增強項重構(gòu)輸入特征z。為保留更多的記憶項特征,閾值ε初始設(shè)置為0.5。 為實現(xiàn)使用抑制項約束增強項內(nèi)偏向異常的記憶項表達,本文去除增強項內(nèi)與抑制項記憶項相似度高的部分,此處以更新式(10)的相似度量i實現(xiàn)。如式(12)所示,za由輸入特征z用記憶網(wǎng)絡(luò)的抑制項重構(gòu)獲得(圖2)。通過記憶尋址本文得到特征za與增強項內(nèi)各記憶項mei的相似度d(za,mei),并使用ReLU函數(shù)保留度量值高于ε的部分,調(diào)整i值,實現(xiàn)約束增強項內(nèi)偏向異常的記憶項表達。 1.3.3 模型訓(xùn)練 a)重建損失?;趫D像重構(gòu)的方法,其關(guān)鍵在于輸入正常圖像編解碼,并以降低重構(gòu)誤差為目標訓(xùn)練神經(jīng)網(wǎng)絡(luò)。在此過程中,較常用的損失函數(shù)是均方誤差[19],它用圖像重構(gòu)前后所有像素點的像素值之差的平方均值衡量圖像重構(gòu)的質(zhì)量。本文定義{xt}Tt=1為包含T個正常樣本特征的訓(xùn)練集,表示每個樣本特征相應(yīng)的重構(gòu)特征,如式(13)所示,本文首先最小化真實輸入xt與重建輸出t間的均方誤差。 其中:α是網(wǎng)絡(luò)訓(xùn)練時的超參數(shù),實驗表明當α=0.000 2時,模型性能表現(xiàn)良好。通過目標函數(shù) losssec的約束,視頻幀重建時,不僅能利用反向傳播和鏈式法則更新網(wǎng)絡(luò)參數(shù),也能使用記憶網(wǎng)絡(luò)的增強項和抑制項更新參數(shù),兩者共同作用使模型以有限且典型的記憶項重構(gòu)訓(xùn)練樣本。 階段一 對比學(xué)習(xí) 輸入:取自正常視頻與異常視頻的樣本特征s。 輸出:偏向正常的特征Me;偏向異常的特征Mc。 for 1 to 50 do //50表示迭代周期數(shù) 使用緊湊性對比損失losscom和描述性對比損失lossdesc迭代訓(xùn)練,輸出更新后的。 end for 使用最近鄰方法將聚類,更新正常樣本中心Cp,異常樣本中心Cn 輸出與Cp最相似的特征Me,與Cn最相似的特征Mc 階段二 記憶學(xué)習(xí) 輸入:正常視頻樣本特征x;偏向正常的特征Me;偏向異常的特征Mc。//x部分取自s 輸出:重建的正常樣本特征;更新后的特征Me。 for 1 to 50 do 使用編碼器fe(·):x→z將樣本特征x編碼成特征z,使用Me重構(gòu)z得到,計算z與的相似度d(z,),與異常偏向判定閾值ε比較。 if d(z,)>ε: 使用Me重構(gòu)z得到,通過解碼器fd(·):→輸出重建特征,利用重建損失函數(shù)lossrec和交叉熵函數(shù)lossentro迭代更新參數(shù)。 else: 使用Mc更新Me記憶項,以更新后的Me重構(gòu)特征z,將輸出輸入解碼器fd(·):→。 end for 輸出重建后正常樣本特征,更新后的特征Me。 階段二完成后,Me記錄著正常樣本典型的原型特征,模型通過學(xué)習(xí)正常樣本典型的原型特征,可用于解決不同數(shù)據(jù)類型的異常識別任務(wù)。 1.3.4 模型測試 本文使用均方誤差和峰值信噪比判斷視頻幀是正常還是異常。如圖3所示,由于增強項內(nèi)記憶項存儲的是偏向正常的特征,在假設(shè)正常樣本編碼特征z與記憶項mei類似的前提下,計算z與增強項內(nèi)各記憶項的均方誤差,如式(16)所示。 2 實驗分析 2.1 數(shù)據(jù)集 本文在UCF Crime和ShanghaiTech數(shù)據(jù)集評估了本文方法。UCF Crime數(shù)據(jù)集有14種異常類型,1 900個未剪輯的視頻,這些視頻都是在真實場景中捕獲的。它有290個帶有幀級時間注釋的視頻,本文使用僅具有視頻級標簽的樣本對幀級時間標簽的視頻進行訓(xùn)練和測試。訓(xùn)練集包括800個正常視頻和810個異常視頻,測試集包括150個正常和140個異常視頻。視頻的長度從1 min到40 min不等。每個視頻包含1~2個異常片段。劃分訓(xùn)練集和測試集時,按照參考文獻[4]提供的分割策略。ShanghaiTech數(shù)據(jù)集有437個視頻,包括13種場景中的130個異常事件。它具有像素級的真實值,表示幀級異常事件。訓(xùn)練集包括175個正常視頻和63個異常視頻,測試集包括155個正常視頻和44個異常視頻,視頻片段的長度從15 s到超過1 min不等。劃分訓(xùn)練集和測試集時,按照文獻[20]提供的分割策略。 2.2 實驗細節(jié) 本文使用 PyTorch 深度學(xué)習(xí)庫來實現(xiàn)整個框架,并用兩塊 NVIDIA GeForce GTX 1080Ti 圖形卡來進行實驗。在計算特征前,每個視頻幀的大小重新調(diào)整為256×256像素,并將幀速率固定為 30 fps,然后再進行階段一和二的訓(xùn)練。 在階段一,使用三維卷積編碼器即C3D編碼器作為輸入視頻的特征提取器。每個視頻片段的幀數(shù)都設(shè)置為16。C3D編碼器由四個卷積層組成,卷積核尺寸分別是3×2×96、3×2×128、3×2×256和3×2×256,除最后一個卷積層外,每個卷積層后存在批量正則層與激活層。訓(xùn)練樣本被編碼器映射至同一特征表示空間,在特征空間中檢索和比較正負例對的距離,此時無須額外的特征提取計算參數(shù)。即在特征空間內(nèi)最近鄰方法完成聚類后,以Cp為中心找到相距最近的L-1個特征項,一起組成含有L個記憶項的增強項,以Cn為中心找到相距最近的N-1個特征項,組成含有N個記憶項的抑制項。同文獻[18]的設(shè)置, 這里將L設(shè)置為2 000,N-1的大小在后續(xù)實驗中進行詳細討論。 在階段二,本文使用三維卷積的自動編解碼器提取視頻特征,網(wǎng)絡(luò)只輸入正常視頻數(shù)據(jù),幀數(shù)設(shè)置和編碼器結(jié)構(gòu)同階段一,解碼器的結(jié)構(gòu)被設(shè)計為Dconv3(3,2,256)-Dconv3(3,2,128)-Dconv3(3,2,96)-Dconv3(3,2,1),其中Dconv3表示反卷積??紤]到視頻特征的復(fù)雜性,本文讓記憶網(wǎng)絡(luò)增強項的各記憶項存儲編碼特征的像素級特征,即增強項的設(shè)置為2 000×256。記憶網(wǎng)絡(luò)的抑制項初始設(shè)置128×256,訓(xùn)練時使用抑制項約束記憶網(wǎng)絡(luò)增強項內(nèi)偏向異常的記憶項表達,使增強項能用更具代表性的特征重構(gòu)圖像。訓(xùn)練時使用學(xué)習(xí)率為0.001的Adam 優(yōu)化器,階段一特征空間的劃分和階段二記憶網(wǎng)絡(luò)的更新各持續(xù)50個周期。測試時,度量權(quán)重μ設(shè)置為0.7[17],并使用輸入數(shù)據(jù)的均方誤差和峰值信噪比判斷視頻幀是正常還是異常。 2.3 實驗結(jié)果分析 2.3.1 評價指標 本文使用兩個指標來評估模型的性能。第一個檢測指標是基于幀的受試者工作特征曲線ROC以及該曲線下方面積AUC。通過繪制不同閾值設(shè)置下的真陽性率TPR和假陽性率FPR,ROC曲線可以表現(xiàn)分類器性能。計算出上述各個指標值之后繪制ROC曲線,其中ROC曲線的橫坐標是FPR,縱坐標是TPR,ROC曲線越靠近左上角,說明該檢測器的效果越好,此時曲線下面積AUC越大,魯棒的檢測模型常具有較高的AUC值。另一個檢測指標是虛警率。由于FPR也被稱為虛警率,這里使用 50%閾值的 FPR 作為虛警率。由于實時監(jiān)控視頻的主要部分是正常的,所以健壯的模型在正常片段上也應(yīng)具有較低的虛警率。 2.3.2 消融實驗 為獲取更加真實的實驗效果,本文在ShanghaiTech數(shù)據(jù)集上進行了如下消融實驗,分別包括:a)評估對比記憶網(wǎng)絡(luò)不同級別的損失函數(shù)對實驗結(jié)果的影響;b)評估抑制項內(nèi)記憶項數(shù)量對于檢測結(jié)果的影響;c)評估異常判定閾值 ε對于檢測結(jié)果的影響。 1)評估對比記憶網(wǎng)絡(luò)中不同級別的損失函數(shù)對實驗結(jié)果的影響 圖4展示了網(wǎng)絡(luò)不同級別的損失函數(shù)對實驗結(jié)果的影響。由于缺少異常行為片段的幀級標簽,常見的基于記憶模型的異常行為檢測方法[17,18]中只使用和測試集不重疊的正常視頻計算重構(gòu)損失lossrec,讓網(wǎng)絡(luò)只記憶正常行為特征。本文以此為基線,在訓(xùn)練集中引入異常視頻,并提出緊湊性對比損失losscom和描述性對比損失lossdesc,從兩者的結(jié)合角度引入不同的訓(xùn)練樣本和損失函數(shù)約束網(wǎng)絡(luò),性能表現(xiàn)如圖4所示。 從圖4可以看出,在訓(xùn)練集中引入異常行為視頻可以有效提升網(wǎng)絡(luò)的檢測性能,這是因為異常行為視頻的引入增加了不同運動特征之間的差異性,此時網(wǎng)絡(luò)在學(xué)習(xí)的過程中不僅關(guān)注如何降低重構(gòu)誤差,而且關(guān)注如何學(xué)習(xí)區(qū)分度高的特征,避免只識別單一行為時導(dǎo)致網(wǎng)絡(luò)泛化能力過強。同時可以看到描述性對比損失lossdesc和緊湊性對比損失losscom在單獨使用時對檢測效果的提升類似,這是因為兩者只關(guān)注視頻內(nèi)部或者視頻之間的差異性和聯(lián)系性,當共同考慮兩者時,即考慮不同類別運動的差異性和同類運動的聯(lián)系性時,效果得到提升。 本節(jié)進一步展示了不同的損失對于聚類空間的影響,使用 t-SNE[21]對特征分布進行可視化分析,如圖5所示。圖5(a)~(d)分別對應(yīng)圖5中的不同方法。 圖(a)表示不引入正負例對,在訓(xùn)練的過程中只通過重構(gòu)損失lossrec調(diào)整網(wǎng)絡(luò)。由于沒有計算特征之間的相似度,來自正常視頻中的片段與來自異常視頻中的片段特征均勻地分布在特征空間中,此時沒有獲得運動特征的抽象表達。引入正負例后,圖(b)表示使用重構(gòu)損失lossrec和緊湊性對比損失losscom訓(xùn)練模型,圖(c)表示使用重構(gòu)損失lossrec和描述性對比損失lossdesc調(diào)整網(wǎng)絡(luò)。從圖(b)和(c)可以看出,動作特征相似的片段會在特征空間中聚集,但單獨的緊湊性對比損失losscom或描述性級損失lossdesc無法更加細致地描繪出各個特征之間的異同點,圖中出現(xiàn)了多個聚集區(qū)域,無法用于構(gòu)建記憶網(wǎng)絡(luò)的記憶項。 圖(d)表示引入正負例對后使用重構(gòu)損失lossrec、緊湊性對比損失lossrec以及描述性對比損失lossdesc來調(diào)整網(wǎng)絡(luò)。正常視頻之間的緊湊性級損失可以使正常特征相互吸引,異常視頻之間的緊湊性損失可以分離出視頻中的異常行為片段和正常行為片段,最后通過描述性對比損失拉近不同視頻中類似特征的距離,增加不相似特征間的距離。 2)評估抑制項內(nèi)記憶項數(shù)量對于檢測結(jié)果的影響 如表1所示,展示了抑制項的記憶項數(shù)量不同時對檢測結(jié)果的影響。根據(jù)文獻[17]的設(shè)置,記憶網(wǎng)絡(luò)增強項的項數(shù)設(shè)置為2 000,用于存儲正常行為特征。記憶網(wǎng)絡(luò)的抑制項主要存儲和正常行為相似度較低的特征,經(jīng)由式(12)選取相似度最低的N項特征進行更新,N取不同值時,抑制項對增強項的約束程度也會有變化。N從128開始,每隔128進行一次實驗,從表1中可以看出,當N=256時,檢測效率最高,當N超過256時,導(dǎo)致記憶網(wǎng)絡(luò)增強項內(nèi)需要更新的記憶項數(shù)超過了10%,使部分正常特征也被更新,造成最終檢測效率逐步下降。 3)評估異常判定閾值ε對于檢測結(jié)果的影響 表2給出了不同的判定閾值對于檢測結(jié)果的影響,當特征相似度高于閾值ε時,認為這兩項特征來自于同一類型的運動,反之認為這兩項特征屬于不同類型的運動。從表2可以看出,當ε過小或者過大的時候,檢測效果提升都不明顯。這是因為當ε過大的時候,檢測網(wǎng)絡(luò)對正常行為的要求增加,此時符合要求的數(shù)量減少,記憶網(wǎng)絡(luò)的增強項中存儲的特征無法很好地描述正常行為,導(dǎo)致將部分正常行為視為異常行為;當ε過小,檢測網(wǎng)絡(luò)對正常行為的要求降低,此時符合要求的數(shù)量增加,使部分異常行為也被判定為正常行為。從表2中可以看出,當ε=0.7 時檢測效果最佳。 2.3.3 對比實驗 為說明模型提高了異常檢測效果,將本文方法與其他現(xiàn)有的基于自動編碼器的主流方法進行比較,如表3所示。這些方法在訓(xùn)練過程中只學(xué)習(xí)正常視頻的正常模式,測試時根據(jù)樣本與模型的偏離程度判斷其異常性,屬于無監(jiān)督學(xué)習(xí)的范疇。由于在訓(xùn)練過程中沒有異常視頻參與,該類方法也會將異常樣本誤判為正常。本文方法從視頻和片段兩個層面進行特征對比,降低時空噪聲對檢測結(jié)果的影響,并利用記憶網(wǎng)絡(luò)存儲行為特征的抽象表達,避免無關(guān)運動的影響。在UCF Crime和ShanghaiTech數(shù)據(jù)集,平均AUC值達到83.26%和87.53%,證明了本文方法的改進,提升了異常事件的檢測。 從表3可以看出,相較于圖卷積編碼器[20],U-Net編碼器[22]、U-LSTM編碼器[24]和全卷積編碼器[25,26],采用C3D網(wǎng)絡(luò)[4,23]作為編碼器效果更好,說明C3D能夠獲得更加穩(wěn)健的深度特征。文獻[17,18]在自動編碼器的基礎(chǔ)上添加記憶網(wǎng)絡(luò),該網(wǎng)絡(luò)存儲的典型樣本特征提升了正常樣本重建的穩(wěn)定度,性能表現(xiàn)優(yōu)于普通的全卷積編碼器,但弱于C3D網(wǎng)絡(luò)作為編碼器的方法,這可能因為C3D網(wǎng)絡(luò)能更有效地捕捉時空特征,所以本文在對比學(xué)習(xí)階段也選擇C3D網(wǎng)絡(luò)編碼器,以提高模型特征提取效果。本文方法性能較文獻[17,18]有所提升,這是因為模型使用記憶網(wǎng)絡(luò)的抑制項約束了增強項內(nèi)偏向異常的記憶項表達,使模型不僅能夠根據(jù)正常樣本與異常樣本間特征差異進行聚類,還能在使用編碼器編碼、解碼器解碼的過程中清除原始視頻中的無關(guān)特征。 在UCF Crime和ShanghaiTech數(shù)據(jù)集上的實驗結(jié)果表明,本文方法能夠提高異常檢測的效果。特別地,UCF Crime數(shù)據(jù)集包含13個不同的場景,這增加了在該數(shù)據(jù)集上異常檢測的難度。ShanghaiTech數(shù)據(jù)集中的場景均為校園道路環(huán)境,此時正常事件和異常事件有相同的定義,同時在高層次特征上也有類似的表現(xiàn)。實驗表明,本文模型可以增加對異常事件的識別能力。 本文使用兩張NVIDIA GeForceGTX 1080Ti 圖形卡在ShanghaiTech數(shù)據(jù)集研究了所提方法的計算復(fù)雜度。測試時,對比記憶網(wǎng)絡(luò)檢測出視頻幀是否異??偤臅r35.4 ms(28 fps),優(yōu)于文獻U-Net編碼器[22]的40 ms,VGG-f[28]編碼器的50 ms。與每幀需要耗時35.4 ms相比,更新記憶網(wǎng)絡(luò)項幾乎不消耗額外的計算時間,每幀僅耗時0.5 ms。 本節(jié)將模型在 UCF Crime 和 ShanghaiTech 數(shù)據(jù)集上進一步可視化,并與文獻[24,26]對比檢測效果。如圖6、7所示,其中灰色填充部分表示異常行為發(fā)生的真實時間段。圖6展示了在ShanghaiTech數(shù)據(jù)集的01_0014.mp4視頻上的檢測結(jié)果,圖7展示了在UCF Crime數(shù)據(jù)集的Burglary021_x264.mp4視頻上的檢測結(jié)果。從圖6、7中可以看出,本文方法能有效檢測出異常行為的發(fā)生。 3 結(jié)束語 本文基于對比記憶網(wǎng)絡(luò)進行異常行為檢測,其目標是在無幀級標簽時劃分特征空間內(nèi)正常行為和異常行為,根據(jù)兩種行為的差異進行異常行為檢測。本文使用編碼器生成潛在特征空間,在該空間上對正常特征和異常特征進行聚類,然后選取聚類后的特征分別作為記憶網(wǎng)絡(luò)的增強項和抑制項,其中記憶網(wǎng)絡(luò)的抑制項約束了增強項內(nèi)偏向異常的特征表達,緩解了正常與異常的相似特征參與圖像重構(gòu)的難題。在UCF Crime和ShanghaiTech數(shù)據(jù)集上的實驗研究表明,本文方法能夠預(yù)測異常事件的發(fā)生時間,并且優(yōu)于現(xiàn)有方法。但缺點是記憶網(wǎng)絡(luò)只存儲正常行為與異常行為的典型特征,限制了部分低層次特征的表達。C3D編碼特征內(nèi)存在豐富的時序信息,接下來研究重點是找到高效的時序建模方法,提高模型對異常事件的識別能力。 參考文獻: [1]Cook A A,Msrl G,F(xiàn)an Zhong.Anomaly detection for IoT time-series data:a survey[J].IEEE Internet of Things Journal,2019,7(7):6481-6494. [2]呂承侃,沈飛,張正濤,等.圖像異常檢測研究現(xiàn)狀綜述[J].自動化學(xué)報,2022,48(6):1402-1428.(Lyu Chengkan,Shen Fei,Zhang Zhengtao,et al.Review of image anomaly detection[J].Acta Automatica Sinica,2022,48(6):1402-1428.) [3]Paszke A,Gross S,Massa F,et al.PyTorch:an imperative style,high-performance deep learning library[C]//Proc of the 33rd Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2019:8024-8035. [4]Sultani W,Chen Chen,Shah M.Real-world anomaly detection in surveillance videos[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:6479-6488. [5]Tian Yu,Pang Guansong,Chen Yuanhong,et al.Weakly-supervised video anomaly detection with robust temporal feature magnitude lear-ning[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:4955-4966. [6]Wu Peng,Liu Jing,Shi Yujia,et al.Not only look,but also listen:learning multimodal violence detection under weak supervision[M]//Vedaldi A,Bischof H,Brox T,et al.Computer Vision.Cham:Springer,2020:322-339. [7]Zhong J X,Li Nannan,Kong Weijie,et al.Graph convolutional label noise cleaner:train a plug-and-play action classifier for anomaly detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:1237-1246. [8]肖進勝,申夢瑤,江明俊,等.融合包注意力機制的監(jiān)控視頻異常行為檢測[J].自動化學(xué)報,2022,48(12):2951-2959.(Xiao Jinsheng,Shen Mengyao,Jiang Mingjun,et al.Abnormal behavior detection algorithm with video-bag attention mechanism in surveillance vi-deo[J].Acta Automatica Sinica,2022,48(12):2951-2959.) [9]Cai T T,F(xiàn)rankle J,Schwab D J,et al.Are all negatives created equal in contrastive instance discrimination?[EB/OL].(2020-10-25).https://arxiv.org/abs/2010.06682. [10]Gudovskiy D,Ishizaka S,Kozuka K.CFLOW-AD:real-time unsupervised anomaly detection with localization via conditional normalizing flows[C]//Proc of IEEE/CVF Winter Conference on Applications of Computer Vision.Piscataway,NJ:IEEE Press,2022:1819-1828. [11]Sepehr M,Sasan M,Jennings N R.Unsupervised anomaly detection with LSTM autoencoders using statistical data-filtering[J].Applied Soft Computing,2021,108:article ID 107443. [12]周佳航,邢紅杰.基于雙自編碼器和Transformer網(wǎng)絡(luò)的異常檢測方法[J].計算機應(yīng)用,2023,43(1):22-29.(Zhou Jiahang,Xing Hongjie.Novelty detection method based on dual autoencoders and Transformer network[J].Journal of Computer Applications,2023,43(1):22-29.) [13]陳澄,胡燕.融合記憶增強的視頻異常檢測[J].計算機工程與應(yīng)用,2022,58(15):253-259.(Chen Cheng,Hu Yan.Video anomaly detection combining memory-augmented[J].Computer Engineering and Applications,2022,58(15):253-259.) [14]Chen Ting,Kornblith S,Norouzi M,et al.A simple framework for con-trastive learning of visual representations[C]//Proc of the 37th International Conference on Machine Learning.[S.l.]:JMLR.org,2020:1597-1607. [15]Winkens J,Bunel R,Roy A G,et al.Contrastive training for improved out-of-distribution detection[EB/OL].(2020-07-10).https://arxiv.org/abs/2007.05566. [16]Bommes L,Hoffmann M,Buerhop-Lutz C,et al.Anomaly detection in IR images of PV modules using supervised contrastive learning[J].Progress in Photovoltaics:Research and Applications,2022,30(6):597-614. [17]Park H,Noh J,Ham B.Learning memory-guided normality for anomaly detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:14360-14369. [18]Gong Dong,Liu Lingqiao,Le V,et al.Memorizing normality to detect anomaly:memory-augmented deep autoencoder for unsupervised ano-maly detection[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:1705-1714. [19]Bergmann P,Lwe S,F(xiàn)auser M,et al.Improving unsupervised defect segmentation by applying structural similarity to autoencoders[C]//Proc of the 14th International Joint Conference on Computer Vision,Imaging and Computer Graphics Theory and Applications.Pisca-taway,NJ:IEEE Press,NJ,2019:372-380. [20]Zhong J X,Li Nannan,Kong Weijie,et al.Graph convolutional label noise cleaner:train a plug-and-play action classifier for anomaly detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:1237-1246. [21]Van Der Maaten L.Accelerating t-SNE using tree-based algorithms[J].The Journal of Machine Learning Research,2014,15(1):3221-3245. [22]Liu Wen,Luo Weixin,Lian Dongze,et al.Future frame prediction for anomaly detection:a new baseline[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:6536-6545. [23]Zhao Yiru,Deng Bing,Shen Chen,et al.Spatio-temporal autoencoder for video anomaly detection[C]//Proc of the 25th ACM International Conference on Multimedia.New York:ACM Press,2017:1933-1941. [24]Li Yuanyuan,Cai Yiheng,Liu Jiaqi,et al.Spatio-temporal unity networking for video anomaly detection[J].IEEE Access,2019,7:172425-172432. [25]Dubey S,Boragule A,Gwak J,et al.Anomalous event recognition in videos based on joint learning of motion and appearance with multiple ranking measures[J].Applied Sciences,2021,11(3):1344. [26]Zaheer M Z,Mahmood A,Astrid M,et al.CLAWS:clustering assisted weakly supervised learning with normalcy suppression for anomalous event detection[C]//Proc of the 16th European Conference on Computer Vision.Berlin:Springer-Verlag,2020:358-376. [27]Hasan M,Choi J,Neumann J,et al.Learning temporal regularity in video sequences[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:733-742. [28]Ionescu R T,Smeureanu S,Alexe B,et al.Unmasking the abnormal events in video[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:2914-2922. 收稿日期:2022-12-28;修回日期:2023-02-25基金項目:安徽省重點研究與開發(fā)計劃資助項目(202004d07020004);安徽省自然科學(xué)基金資助項目(2108085MF203);中央高?;究蒲袠I(yè)務(wù)費專項資金資助項目(PA2021GDSK0072,JZ2021HGQA0219) 作者簡介:李文中(1995-),男,河南信陽人,碩士研究生,主要研究方向為異常檢測、視頻圖像分析;吳克偉(1984-),男(通信作者),安徽合肥人,副教授,碩導(dǎo),博士,主要研究方向為計算機視覺、人工智能、模式識別(wu_kewei1984@163.com);孫永宣(1978-),男,安徽合肥人,講師,博士,主要研究方向為智能信息處理;焦暢(1998-),男,安徽黃山人,碩士研究生,主要研究方向為計算機視覺、群組行為識別;熊思璇(1997-),女,湖北襄陽人,碩士研究生,主要研究方向為計算機視覺.