關(guān) 華,萬 好劉冬華
(廣東機場白云信息科技有限公司,廣東 廣州 510470)
人群密度估計算法的發(fā)展歷程可歸結(jié)為3個階段:一是基于檢測的方法。早期研究大部分集中在基于檢測的方法,使用類似移動窗口的檢測器來檢測并統(tǒng)計人數(shù)。這些方法要求訓(xùn)練有素的分類器,從整個人體中提取低級特征,例如Haar 小波和HOG(方向梯度直方圖)。然而,由于大多數(shù)目標(biāo)對象被遮蓋,它們在高度擁擠的場景上表現(xiàn)不佳。二是基于回歸的方法。因基于檢測的方法無法適用于高度擁擠的場景,學(xué)者們嘗試研究基于回歸的方法來學(xué)習(xí)提取自裁剪圖像中特征之間的相互關(guān)系,以計算特定對象的數(shù)量,如圖像的前景和紋理特征,被用于生成底層信息。Idrees 等人提出一種模型,利用傅里葉分析提取特征并實現(xiàn)基于SIFT(尺度不變特征變換)興趣點的人群計數(shù)。三是基于密度估計的方法。由于卷積神經(jīng)網(wǎng)絡(luò)在分類和識別方面的成功,目前主流的方法是基于它來預(yù)測密度估計圖?;诰矸e神經(jīng)網(wǎng)絡(luò)生成密度估計圖原理比較簡單,但卻能取得比基于檢測的方法以及基于回歸的方法更加優(yōu)秀的性能。本文主要探討基于卷積神經(jīng)網(wǎng)絡(luò)的機場人群密度估計算法設(shè)計及其在機場環(huán)境中的應(yīng)用。
基于卷積神經(jīng)網(wǎng)絡(luò)的人群密度估計算法,首先需要有訓(xùn)練圖像和標(biāo)簽圖像,然后訓(xùn)練一個非線性函數(shù)f,將人群圖像x 映射到人群密度圖像y,即
最后使用高斯核(已歸一化為1)模糊每個頭部標(biāo)注即形成人群密度圖,即
從圖1、圖2可以了解到輸入圖像中人群的分布情況,并且由標(biāo)簽生成的人群密度圖是有具體數(shù)學(xué)意義的,從人群密度圖獲得人群總數(shù)只需要把密度圖的所有像素值加起來即可。
圖1 給定人群圖像
圖2 人群位置圖
3.1.1 MCNN
MCNN[1]是首次使用多列卷積神經(jīng)網(wǎng)絡(luò)進行人群密度估計的方法。針對人群密度檢測中如何捕獲大小、密度各異的人像特征的難題,設(shè)計了卷積核大小不同的3列卷積神經(jīng)網(wǎng)絡(luò),從而使得每一列神經(jīng)網(wǎng)絡(luò)的感受野不同,以接收不同大小的人像,最后將這3列神經(jīng)網(wǎng)絡(luò)的輸出進行concat(合并),從而使得網(wǎng)絡(luò)可以捕獲大、中、小三種尺寸的人像特征以生成密度估計圖。如圖3所示。
圖3 MCNN結(jié)構(gòu)
然而,作為早期應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)于人群密度估計的算法,MCNN 存在很大的局限性。首先MCNN 是多列卷積網(wǎng)絡(luò)結(jié)構(gòu),較難以訓(xùn)練,其次MCNN 存在冗余組織,增添了計算量。
3.1.2 Switch-CNN
Switch-CNN[2]首先將輸入圖像分成9個子圖像,然后設(shè)計專門的密度級別分類器SWITCH(3分類),依據(jù)9個子圖像人群密度的不同,分別送入3列不同的神經(jīng)網(wǎng)絡(luò)預(yù)測它們的人群密度,最后把9個子圖像輸出結(jié)果合并,得到整張圖像的人群密度估計圖。但是SWITCHCNN 結(jié)構(gòu)復(fù)雜,參數(shù)量大,將大量參數(shù)分配于密度級別分類,分配用于密度估計圖生成的參數(shù)十分稀少,導(dǎo)致網(wǎng)絡(luò)性能不佳,使得Switch-CNN 不適合用于機場人群密度估計。
3.2.1 CSRNet
CSRNet[3]針對存在的難訓(xùn)練、冗余結(jié)構(gòu)的缺陷,系統(tǒng)分析了采用多列卷積神經(jīng)網(wǎng)絡(luò)進行人流密度估計的方案,提出摒棄多列結(jié)構(gòu),采用更深的卷積神經(jīng)網(wǎng)絡(luò)來進行訓(xùn)練,并且采用擴張卷積的方法,有效地捕獲尺度、密度各異的人像特征,從而實現(xiàn)end-to-end 訓(xùn)練,并且采用更深層次地神經(jīng)網(wǎng)絡(luò)使得訓(xùn)練集性能與測試集均有大幅度的提升。
盡管CSRNet 比之前的人群密度估計網(wǎng)絡(luò)在效果上有不小的提升,然而它是基于“擴張卷積”這種較新型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),可能難以被所有硬件設(shè)備支持,所以在機場環(huán)境下部署CSRNet 可能不是最佳選擇。
3.2.2 SANet
SANet[4]先使用多列卷積網(wǎng)絡(luò)結(jié)構(gòu)提取特征,然后再使用反卷積結(jié)構(gòu)生成與原輸入圖像相同分辨率的高質(zhì)量分辨率圖像,網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
圖4 SANet網(wǎng)絡(luò)結(jié)構(gòu)
然而,這種結(jié)構(gòu)顯著的缺點是反卷積結(jié)構(gòu)網(wǎng)絡(luò)較難訓(xùn)練,且測試運行時間比一般卷積網(wǎng)絡(luò)要長,而SANet追求的是生成與原圖相同分辨率密度圖,圖上每個像素值代表的是在該像素值處存在行人的概率,這在機場實際應(yīng)用中用處不大。
PACNN[5]將透視圖集成到人群密度估計網(wǎng)絡(luò)中,以指導(dǎo)多尺度密度組合,獲得更好的密度圖以及人數(shù)估計。但是透視圖的獲取困難,且人工標(biāo)注的透視圖常常會有不小的誤差,這給網(wǎng)絡(luò)帶來噪聲干擾,導(dǎo)致了難以反映真實情況,限制了它的應(yīng)用。
圖5中,y 軸代表垂直距離,z 軸代表深度。高度為H 的行人被位于O 處的相機捕獲,該行人的頭部和腳部在Image 中分別為yh 和yf。相機光圈焦距為f,相機離地面高度為C。
圖5 攝像機幾何透視圖
3.4.1 ADCrowdNet
ADCrowdNet[6]使用不包含任何人像的圖像與訓(xùn)練集圖像構(gòu)成負類和正類樣本對,訓(xùn)練額外的卷積神經(jīng)網(wǎng)絡(luò)進行分類,依據(jù)中間圖包含與類別區(qū)分相關(guān)的特征信息的特點,生成注意力圖,然后將注意力圖與原始圖像進行點乘,再將得到的圖像送入密度估計網(wǎng)絡(luò)中,改善人群密度估計效果。但注意力圖生成器AMG 的結(jié)構(gòu)非常復(fù)雜,雖然AMG 的引入可以提高模型精度,但這在實際運用中勢必增加額外的計算開銷,對于人流視頻監(jiān)控模型而言弊大于利。
3.4.2 RANet
RANet[7]針對當(dāng)前密度估計方法執(zhí)行逐像素回歸,沒有考慮像素的相互依賴性,而獨立的逐像素預(yù)測可能會帶來噪聲且預(yù)測不一致問題,采用一種具有自我注意機制的關(guān)系網(wǎng)絡(luò)(RANet),以捕獲像素的相互依賴性。RANet 通過考慮近距離和遠距離像素間的相互依賴關(guān)系來分別實現(xiàn)局部自我注意力(LSA)和全局自我注意力機制(GSA),并引入一個關(guān)系模塊,將LSA 和GSA 融合在一起,以實現(xiàn)更具信息量的聚合特征表示。然而,所構(gòu)建的網(wǎng)絡(luò)模型結(jié)構(gòu)十分復(fù)雜,而且它要計算特征圖每個像素點與其他所有像素點之間的相似度,導(dǎo)致大量冗余,不利于模型快速輸出人群密度估計圖。
文獻[8]針對傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)用于生成人群密度估計圖采l2_loss 的不足之處,提出使用貝葉斯損失代替l2_loss,用于點監(jiān)督下的人群計數(shù)估計。通過對每個注釋點的計數(shù)期望值(而非注釋點在密度圖上的鄰域內(nèi)所有像素的計數(shù)值)進行監(jiān)督,從而無需全圖標(biāo)注,提高了算法性能。模型實現(xiàn)簡單,不需要復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),也不需要費力地制作人群透視圖,且在多個公開人群密度數(shù)據(jù)集上均達到2019年SOTA 效果,因此適用于機場人群密度估計。
靜態(tài)密度圖監(jiān)督學(xué)習(xí)框架已廣泛應(yīng)用于現(xiàn)有方法中,該方法使用高斯核生成密度圖作為學(xué)習(xí)目標(biāo),并利用歐氏距離對模型進行優(yōu)化。但是,該方法對數(shù)據(jù)標(biāo)記中的小偏差適應(yīng)力差,并且可能無法正確反映大小變化的人像的真實分布情況。文獻[9]提出了一種自適應(yīng)擴張卷積和一種稱為自校正(self-correction,SC)監(jiān)督的新型監(jiān)督學(xué)習(xí)框架,使用模型的輸出來迭代校正注釋,并使用SC 損失同時優(yōu)化模型。但是實際實現(xiàn)比較繁瑣,每一次迭代訓(xùn)練圖像都要計算估計和存儲每個人像的位置和高斯標(biāo)準(zhǔn)差,這樣做需要耗費大量的計算開銷和存儲開銷,也會使得訓(xùn)練時間加長。
本文分析了當(dāng)前先進的人群密度估計算法,并結(jié)合機場監(jiān)控視角分布的實際情況,對各方法在機場領(lǐng)域的適用性進行了論述,得出基于貝葉斯損失的人群密度估計算法更適用于機場環(huán)境,且該方法具有模型簡單、優(yōu)化性強的特點,使之在精度和速度上具有提升潛質(zhì),能為機場人群密度檢測提供有效的支撐。