于 闖, 楊 姝, 寇海蓮
(1. 沈陽師范大學 計算機與數(shù)學基礎(chǔ)教學部, 沈陽 110034;2. 沈陽師范大學 教育技術(shù)學院, 沈陽 110034)
目前,以定點視頻監(jiān)控為主要模式的視頻監(jiān)控系統(tǒng),在我國社會生產(chǎn)和人們?nèi)粘I钪?已經(jīng)得到廣泛的應(yīng)用[1-2]。對視頻監(jiān)控系統(tǒng)中監(jiān)控到的各種對象,尤其是對運動行人進行自動檢測與識別,有著非常重要的意義[3]。許多研究人員對運動行人檢測和識別算法進行了大量的研究。但由于監(jiān)控視頻中,遠景區(qū)域運動行人的目標過小,對監(jiān)控視頻遠景區(qū)域中的運動行人的檢測存在較明顯的漏檢和誤檢的問題。針對這個問題,本文提出了一種對監(jiān)控視頻中遠景區(qū)域增設(shè)輔助變焦攝像頭的方法,來解決遠景區(qū)域中運動行人漏檢和誤檢的問題。具體的方法如下:首先,增設(shè)輔助變焦攝像頭對系統(tǒng)中的遠景區(qū)域進行監(jiān)控,使得位于遠景區(qū)域中的視頻圖像分辨率提高至原來的2倍;其次,對監(jiān)控系統(tǒng)中遠景區(qū)域和增加的輔助攝像頭獲得的視頻圖像分別進行運動目標的檢測、去噪和提取,得到運動目標的圖像;然后,通過人工方法,對圖像中的運動目標進行類別標識,獲得訓練樣本和檢驗樣本,其中,遠景區(qū)域獲得2組視頻圖像檢驗樣本;最后,利用訓練樣本訓練卷積神經(jīng)網(wǎng)絡(luò),進行運動行人的識別[4]。實驗結(jié)果表明,使用本文提出的方法,可以有效提高遠景區(qū)域中運動行人的識別準確率,卷積神經(jīng)網(wǎng)絡(luò)準確率達到92.61%,行人目標的相對檢出率提高了95.29%,行人分類準確率提高了15.14%,可以滿足識別精度的要求。
監(jiān)控視頻中運動目標的檢測和提取包括對運動目標進行檢測、對檢測出的運動目標進行去噪處理和對運動目標進行提取3個步驟。
1.1.1 對運動目標進行檢測
在視頻圖像處理領(lǐng)域中,基于運動特征的目標檢測算法中比較常見的有幀間差分法[5]、光流法[6]和高斯背景建模法等[7]。幀間差分法適合應(yīng)用于背景固定的場景,但這種方法在運動檢測時容易出現(xiàn)空洞、幻影等問題,這嚴重影響到運動目標的檢測準確率[8]。光流法在使用時,需要滿足圖像亮度基本不變、物體的運行微小和空間一致性的3個條件。根據(jù)光流法對運動目標進行檢測的原理,其適合應(yīng)用在實時性要求不高的場景[9]?;旌细咚鼓P褪菃胃咚鼓P偷耐茝V,它克服了單高斯模型只能對背景建立單一模式的不足[10]。當背景中出現(xiàn)如樹枝晃動、水紋波動等多模態(tài)時,使用混合高斯模型對背景進行建模具有一定的魯棒性。
通過對3種不同算法的比對與分析,可以看出本文監(jiān)控視頻的場景不適宜采用幀間差分法和光流法,如背景中樹枝晃動造成背景多模態(tài)的情況以及行人快速通過監(jiān)控視頻的范圍而要求算法要有一定的實時性。而混合高斯模型恰恰符合本文的場景。
混合高斯模型原理為,當視頻圖像背景為單一模式時,背景像素分布符合高斯密度分布函數(shù),可以用高斯密度分布函數(shù)建模;當視頻圖像背景為多模態(tài)時,背景像素分布符合混合高斯密度分布,可以用混合高斯密度函數(shù)建模[11]。對于二維圖像,高斯密度和混合高斯密度的分布函數(shù)分別由公式(1)和(2)表示。
高斯密度分布函數(shù)為:
(1)
其中:X=(x,y)為二維隨機變量,u1,u2,σ1,σ2分別為變量x,y的均值和方差,ρ為變量x,y的協(xié)方差。
混合高斯密度分布函數(shù)為:
(2)
對于二維視頻中運動目標檢測的高斯模型由式(3)表示。
(3)
其中Xt為時刻t的像素值,μt和Σt表示像素點在t時刻的均方差。模型中的均值和方差的更新如下:
其中:ρ為學習率。
在混合高斯背景函數(shù)建立之后,背景進行實時更新計算,算法中結(jié)合權(quán)值、權(quán)值均值和實時計算出的背景圖像來判斷目標像素點是屬于前景還是背景。
1.1.2 對檢測出的運動目標進行去噪處理
使用高斯建模檢測出的運動目標,還存在噪聲、目標前景有空洞以及影子影響等問題,本文采取如下方法進行處理。
由于視頻畫面中的噪聲是由監(jiān)控攝像頭本身以及視頻壓縮存儲處理產(chǎn)生的,所以采用處理這些噪聲效果較好的中值濾波算法濾除噪聲的干擾[12]。
直接使用高斯背景建模法分離出的運動目標,容易產(chǎn)生空洞、邊緣缺失以及影子干擾等問題,需要使用不同方法對這些存在的問題進行處理。
對產(chǎn)生的空洞現(xiàn)象及邊緣缺失等問題,使用圖像膨脹算法來處理。對于影子的存在對運動目標檢測造成目標區(qū)域劃定位置不準確的問題,在高斯背景建模算法中,對隸屬于影子的像素點進行標記,可以對影子的不良影響有一定的抑制作用。關(guān)于目標頭部、足部缺失的問題,使用“目標范圍預(yù)伸縮方法”來解決,即將位于預(yù)先設(shè)定好的伸縮范圍內(nèi)并且不隸屬于任一運動目標的較小連通域劃定到原檢測目標范圍內(nèi),并重新計算目標坐標與范圍。
1.1.3 對運動目標進行提取
首先使用1.1.1中介紹的混合高斯模型對運動目標進行檢測,得到初步的前景目標集合,再經(jīng)1.1.2中介紹的去噪等處理,可得到各目標聯(lián)通區(qū)域,對其分別取得最大外接矩形,便得到運動目標的坐標、寬度和高度。然后對目標圖片進行截取與保存,將各目標圖像及相關(guān)原始圖像等數(shù)據(jù)保存起來,供實驗分析及后續(xù)數(shù)據(jù)處理過程使用。
對相同間隔時段內(nèi)由主、輔攝像頭錄制出的2組監(jiān)控視頻分別執(zhí)行運動目標提取算法,來獲得訓練樣本和檢驗樣本。由于采用逐幀檢測的方式會產(chǎn)生同一目標反復出現(xiàn)在樣本中的問題,使得樣本不具備普遍性,因而設(shè)計并采用固定間隔時間檢測的方法。監(jiān)控視頻文件的幀率預(yù)設(shè)為25幀/s,設(shè)定檢測間隔15 s。
對結(jié)果進行人工篩查,在主攝像頭所錄制的視頻中選定的遠景區(qū)域中檢測到的完整單個行人目標的數(shù)量為743個。在輔助攝像頭所錄制的視頻中檢測到的完整單個行人目標的數(shù)量為1 451個。采用輔助變焦攝像頭進行檢測,在運動目標檢測算法中,行人目標的相對檢出率提高了95.29%。同時,檢測到的運動目標的分辨率普遍得到提高,分辨率的提高將有利于特征的提取和分類,鑒于此,輔助監(jiān)控視頻中檢測到的目標將作為訓練樣本。
另選取一組監(jiān)控視頻,運行目標提取程序,分別取得數(shù)量各為300的2組行人目標用作檢驗樣本,用于對卷積神經(jīng)網(wǎng)絡(luò)的準確率進行檢驗。
采用輔助攝像頭對遠景區(qū)域進行行人的輔助檢測后,行人檢測整體算法發(fā)生以下變化。未采用輔助攝像頭對遠景區(qū)域進行行人的輔助檢測時,直接對視頻進行運動檢測,得到訓練樣本。使用樣本訓練卷積神經(jīng)網(wǎng)絡(luò),得到訓練好的卷積神經(jīng)網(wǎng)絡(luò)模型用于行人分類;采用輔助攝像頭對遠景區(qū)域進行行人的輔助檢測時,將監(jiān)控畫面平均分割為4個區(qū)域,上面2個區(qū)域?qū)?yīng)于遠景區(qū)域,下面2個區(qū)域?qū)?yīng)于近景區(qū)域。遠景區(qū)域采用輔助攝像頭進行行人的輔助檢測,非遠景區(qū)域直接進行行人檢測。本文的研究區(qū)域確定為遠景區(qū)域中的右半部分,對區(qū)域中行人檢測結(jié)果進行比對研究。先對輔助攝像頭錄制出的視頻進行運動檢測,得到分辨率較高的運動目標用作訓練樣本,再訓練卷積神經(jīng)網(wǎng)絡(luò),得到訓練好的卷積神經(jīng)網(wǎng)絡(luò)模型用于主、輔攝像頭分別錄制出的視頻的行人分類。
卷積神經(jīng)網(wǎng)絡(luò)屬于深度學習領(lǐng)域中的網(wǎng)絡(luò)模型,它在圖像目標識別、分類等領(lǐng)域應(yīng)用廣泛,并涌現(xiàn)出很多基于卷積神經(jīng)網(wǎng)絡(luò)的深度神經(jīng)網(wǎng)絡(luò)模型[13-14]。使用卷積神經(jīng)網(wǎng)絡(luò)對目標進行識別,不需要事先對圖像進行預(yù)處理,不需要預(yù)先設(shè)計特征提取算法。在卷積神經(jīng)網(wǎng)絡(luò)訓練過程中,把原始圖像直接輸入到網(wǎng)絡(luò)模型中,網(wǎng)絡(luò)能夠自動學習到各層參數(shù),從而實現(xiàn)在應(yīng)用環(huán)境中完成對目標的識別和分類。
卷積神經(jīng)網(wǎng)絡(luò)由卷積層和池化層所構(gòu)成,卷積層內(nèi)要進行非線性激活、批正則化等計算。卷積神經(jīng)網(wǎng)絡(luò)通常的處理單元可以描述為“卷積-激活-池化”,能夠?qū)崿F(xiàn)局部感知、權(quán)值共享和降維的目的,并能夠自動提取到高維特征[15]。其中,AlexNet卷積神經(jīng)網(wǎng)絡(luò)由于具有網(wǎng)絡(luò)層次清晰、識別精度高、系統(tǒng)硬件資源消耗較低等優(yōu)點,在圖像識別領(lǐng)域里得到廣泛應(yīng)用[16-17]。
AlexNet卷積神經(jīng)網(wǎng)絡(luò)共有13層結(jié)構(gòu)。第1層網(wǎng)絡(luò)數(shù)據(jù)輸入層Data;第2層卷積層conv1,卷積核設(shè)定為3×3,步長為4;第3層池化層pool1,池化核設(shè)定為3×3,步長為2;第4層卷積層conv2,卷積核設(shè)定為5×5,步長為1;第5層池化層pool2,池化核設(shè)定為3×3,步長為2;第6層卷積層conv3,卷積核設(shè)定為3×3,步長為1;第7層卷積層conv4,卷積核設(shè)定為3×3,步長為1;第8層卷積層conv5,卷積核設(shè)定為3×3,步長為1;第9層池化層pool5,池化核設(shè)定為3×3,步長為2;第10層全連接層fc6;第11層全連接層fc7;第12層全連接層fc8;第13層輸出層[15]。
本文以AlexNet結(jié)構(gòu)為基礎(chǔ),使用對監(jiān)控視頻處理后得到的行人數(shù)據(jù)集對卷積神經(jīng)網(wǎng)絡(luò)進行訓練,然后對檢驗樣本進行分類與數(shù)據(jù)統(tǒng)計分析。
在實驗中,我們在監(jiān)控系統(tǒng)中錄制時長約7.5 h的視頻,每隔15 s保存1次目標檢測結(jié)果,經(jīng)人工篩選,共獲得輸入圖像正樣本1 451幅,輸入圖像負樣本1 085幅。為解決因遠景行人目標過小等因素造成行人漏檢和誤檢等問題,增設(shè)了輔助攝像頭,輔助攝像頭錄制和截取幀的時間長度與監(jiān)控系統(tǒng)中主攝像頭相同。輔助變焦監(jiān)控頭的視頻監(jiān)控區(qū)域為主視頻監(jiān)控遠景區(qū)域的范圍,即右上部分,如圖1(a)所示,其中,整幅畫面為主攝像頭視頻監(jiān)控區(qū)域,圖中黑色矩形框內(nèi)為對應(yīng)于輔助變焦攝像頭視頻監(jiān)控區(qū)域。通過設(shè)置輔助變焦攝像頭,使得主視頻監(jiān)控區(qū)域中遠景區(qū)域監(jiān)控范圍視頻圖像的分辨率放大了2倍,如圖1(b) 所示。
(a)—主攝像頭中的遠景區(qū)域; (b)—輔助攝像頭放大的遠景區(qū)域。
使用高斯背景建模法、圖像降噪和目標提取算法,分別對主監(jiān)控視頻圖像和輔助攝像頭錄制的視頻圖像進行檢測和提取,一幀的處理結(jié)果分別如圖2(a)、圖2(b)、圖2(c)、圖2(d)所示。在時長為7.5 h的同一時間段視頻圖像中,主監(jiān)控視頻在遠景區(qū)域檢測到的完整單個運動行人的個數(shù)為743個,而輔助攝像頭錄制的監(jiān)控視頻中檢測出完整的單個行人個數(shù)為1 451個,是主監(jiān)控視頻遠景區(qū)域檢測出的1.98倍,行人目標的相對檢出率提高了95.29%。這種方法有效地克服了因遠景區(qū)域行人過小而漏檢的問題。
(a)—高斯模型檢測運動目標的結(jié)果; (b)—運動目標去噪處理的結(jié)果;(c)—主攝像頭遠景區(qū)域檢測結(jié)果; (d)—輔助攝像頭檢測結(jié)果。
其次,在運動目標檢測的基礎(chǔ)上,將人工標識出的運動行人圖像1 451幅和負樣本1 085幅作為訓練樣本,另取一段視頻,人工標識運動行人圖像各為300幅的2組行人目標作為檢測樣本。
最后,將2 536個訓練樣本輸入到1.3節(jié)構(gòu)造的卷積神經(jīng)網(wǎng)絡(luò),進行網(wǎng)絡(luò)訓練。根據(jù)卷積神經(jīng)網(wǎng)絡(luò)的訓練常規(guī)方法,網(wǎng)絡(luò)訓練初期的學習率應(yīng)選用較大值,這樣可以避免出現(xiàn)收斂于局部最小值的問題。隨著訓練的逐步進行,分階段調(diào)小學習率。網(wǎng)絡(luò)開始訓練時,設(shè)定學習率為0.01,然后分階段調(diào)小學習率使網(wǎng)絡(luò)訓練得到的參數(shù)優(yōu)化,如圖3所示。卷積神經(jīng)網(wǎng)絡(luò)的訓練準確率如圖4所示,訓練準確率達到95.16%,效果較好[15]。
圖3 學習率設(shè)置Fig.3 Learning rate setting
使用訓練好的卷積神經(jīng)網(wǎng)絡(luò)模型對數(shù)量各為300的2組行人檢驗樣本進行分類測試,主監(jiān)控視頻遠景區(qū)域中行人分類準確率為80.43%。采用輔助變焦攝像頭進行輔助檢測的方法,行人分類準確率為92.61%。行人分類準確率提高了15.14%,取得了較好的檢測效果。
通過上述實驗結(jié)果可以得出,采用輔助變焦攝像頭對遠景區(qū)域內(nèi)行人檢測,可以有效提高檢測目標的分辨率,從而有助于提高行人分類的準確率。
圖4 網(wǎng)絡(luò)訓練結(jié)果Fig.4 Network training results
對于視頻監(jiān)控系統(tǒng)來說,位于主監(jiān)控攝像頭遠景區(qū)域中的運動目標分辨率較低,清晰度較差,因此容易造成誤檢和漏檢等問題。借助輔助攝像頭錄制出的監(jiān)控視頻,從中檢測到的運動目標分辨率得到提高,可以降低遠景區(qū)域中行人的檢測誤差,從而提高行人分類的準確率。對視頻監(jiān)控中遠景區(qū)域增設(shè)輔助變焦攝像頭的方法,是一種行之有效的方法。