鈕嘉銘
武警工程大學信息工程學院 陜西 西安 710086
在早期的研究中,人們主要采用基于檢測的方法。根據(jù)采用的檢測器的不同,可以將其分為整體檢測法與部件檢測法兩種方法。Li等人[1]考慮到頭部形狀的變化對任務的不利影響,采用結(jié)合了頭部與肩部的檢測器來從分割出來的前景中檢測人體并進行計數(shù)。Zhao等人[2]進一步使用3D模型對人體進行建模,并在此基礎(chǔ)上得到人群計數(shù)結(jié)果。
基于回歸的方法在進行訓練時跳過檢測直接學習從圖像到人群計數(shù)的映射。其通常分特征提取與回歸建模兩步來進行。Davies等人經(jīng)分析得出人群密集程度與圖像前景及邊緣像素的個數(shù)成正比,并進一步設(shè)計了基于像素的回歸方法來估計密度。Marana等人認為人群密度與圖像紋理特征也存在一定關(guān)系,并引入了灰度共生矩陣來對圖像的紋理特征進行描述。
基于密度估計的方法不僅可以一定程度上消除遮擋與背景雜波的影響,而且也能解決回歸模型無法得到人群空間信息的問題。Lemptisky等人[3]通過學習局部特征與密度圖之間的線性映射將空間信息引入到密度估計模型中。Pham等人利用隨機森林建立了圖像與密度圖之間的非線性映射,取得了不錯的結(jié)果。
傳統(tǒng)方法特別是基于密度估計的方法使人群密度估計任務的效果得到了提升,但是其使用的特征往往受制于人工提取煩瑣復雜的缺點,無法適應尺度變化、光照變化及透視失真等干擾的影響。自在目標分類上取得巨大的成功后,卷積神經(jīng)網(wǎng)絡(luò)不斷地被人們應用到其他領(lǐng)域中。Fu等人將CNN引入密度估計模型中。其后,Wang等人于2015年10月設(shè)計了一個端到端的網(wǎng)絡(luò),并利用網(wǎng)絡(luò)建立了圖像與人群密度間的映射。
由透視失真及拍攝角度等造成的尺度變化是限制密度估計模型性能的主要因素,為此,人們引入了多列網(wǎng)絡(luò)模型,通常不同的列對應不同的尺度。Zhang等人設(shè)計的MCNN由三列具有不同感受野的CNN組成,較好地解決了尺度變化問題。Onoro等人使用了一種金字塔結(jié)構(gòu)來感知尺度變化,構(gòu)建了Hydra-CNN模型。Boominathan等人則建立了一種包含深層和淺層兩列網(wǎng)絡(luò)的模型CrowdNet來解決由拍攝視角等的不同帶來的尺度變化問題。
考慮到多列結(jié)構(gòu)存在訓練過擬合、參數(shù)量大、計算復雜及尺度適應性弱等缺點,人們提出了單列網(wǎng)絡(luò)模型。Li等人在提出的模型CSRNet中引入了空洞卷積。他們利用空洞卷積可獲取更多特征細節(jié)的特點很好地提升了網(wǎng)絡(luò)提取多尺度特征的能力,使模型得到了很好的估計結(jié)果。Chen等人使用尺度金字塔模塊SPM來提取多尺度特征,取得了良好的效果。同樣地,Dai等人也利用擴張卷積塊構(gòu)建了一個單列模型DSNet。Cao等人基于編解碼器模型提出了一種尺度聚集網(wǎng)絡(luò)SANet。它包括編碼器和解碼器兩部分。更進一步,Jiang等人使用多尺度編碼器和多路徑解碼器構(gòu)建了TEDNet,為解決尺度變化問題提供了新思路。
為了完成訓練,我們不僅需要輸入原始的人群圖片,也需要將對應的Ground Truth作為標簽輸入模型。高質(zhì)量標簽對模型性能的提升具有重要意義。研究人員通常使用高斯自適應核函數(shù)將人頭坐標數(shù)據(jù)轉(zhuǎn)化為Ground Truth圖。該過程的定義如下:
其中,F(xiàn)(x)表示 Ground Truth圖,N表示圖片中的像素數(shù)量,Gσ(x)表示高斯核,xi表示圖片中的像素。
近些年來,隨著CNN的快速發(fā)展及廣泛應用,人群密度估計模型的性能得到了逐步提升,但仍有一些問題沒有得到很好的解決?,F(xiàn)有模型在遮擋嚴重的高密度場景中的效果還需加強。照明、天氣條件對估計效果的影響還未得到很好的改善?,F(xiàn)有的高質(zhì)量數(shù)據(jù)集的數(shù)據(jù)量及多樣性等略有不足。
4.2.1 目前的密度估計模型大都是針對單個圖片而設(shè)計的,在處理視頻方面可能仍有欠缺。相對于單個圖像,對視頻的人群密度進行估計可能更具有現(xiàn)實意義當然也更復雜,因此,未來會有更多的人往這方面發(fā)力。
4.2.2 損失函數(shù)對模型的性能有著重要影響。與以前的方法不同,研究者往往會經(jīng)典的歐式損失的基礎(chǔ)上引入結(jié)構(gòu)相似性損失、對抗性損失等損失函數(shù),這在之后的研究中也是需考慮的因素。