李 瑞,李 平,代明睿,馬小寧,李國華
(1.中國鐵道科學(xué)研究院 研究生部,北京 100081;2.中國鐵道科學(xué)研究院集團(tuán)有限公司 科技和信息化部,北京 100081;3.中國鐵道科學(xué)研究院集團(tuán)有限公司 電子計算技術(shù)研究所,北京 100081)
作為集旅客購票、安檢、候車和換乘于一體的大型公共服務(wù)空間,鐵路客站內(nèi)人群聚集效應(yīng)明顯,特別是在周末、小長假和春節(jié)等節(jié)假日以及部分突發(fā)情況下,站內(nèi)人流量會在短時間內(nèi)急劇攀升,形成高密度人群聚集區(qū)。如果此時人群中出現(xiàn)異向客流,很容易在短時間內(nèi)發(fā)展形成高密度對沖,這不僅會造成站內(nèi)擁擠,使旅客候車乘車的效率和站內(nèi)服務(wù)體驗(yàn)大打折扣,甚至還有可能引發(fā)踩踏事件等安全風(fēng)險。因此,旅客高密度人群聚集對站內(nèi)運(yùn)營組織管理和服務(wù)管理提出極大考驗(yàn)。
目前應(yīng)對站內(nèi)旅客高密度聚集問題時,較為常見的做法是由管理人員現(xiàn)場巡邏監(jiān)督,一旦觀察到旅客人群有高密度聚集趨勢,便會通過設(shè)置柵欄限行、分流等措施進(jìn)行疏導(dǎo),但這種做法本來就存在現(xiàn)場管理難度較大、效率較低等問題,時常會因旅客聚集發(fā)現(xiàn)不及時而導(dǎo)致人群疏導(dǎo)工作滯后。而在新型冠狀病毒肺炎疫情常態(tài)化防控工作中,政府部門對人群密度管理又提出了更為嚴(yán)格的要求。在這種形勢下,在人流頻繁聚集的鐵路客站開展站內(nèi)人群密度研究,精準(zhǔn)掌握站內(nèi)人群密度數(shù)據(jù)信息,不僅有助于站內(nèi)旅客服務(wù)組織的科學(xué)化管理,更有利于站內(nèi)疫情常態(tài)化防控管理。
近年來,隨著深度神經(jīng)網(wǎng)絡(luò)在特征提取、識別分類等方面學(xué)習(xí)能力的不斷提升,以深度神經(jīng)網(wǎng)絡(luò)模型作為構(gòu)建基礎(chǔ)的人群密度估計算法逐步發(fā)展起來并取得了優(yōu)異的表現(xiàn)[1]。文獻(xiàn)[2]創(chuàng)新性地提出多列卷積的神經(jīng)網(wǎng)絡(luò)模型(MCNN),實(shí)現(xiàn)了同一視角下不同尺度目標(biāo)的估計,但由于計算參數(shù)太大,難以滿足當(dāng)時應(yīng)用需求。文獻(xiàn)[3]在MCNN的基礎(chǔ)上增加了卷積神經(jīng)網(wǎng)絡(luò)最優(yōu)化選擇器,進(jìn)一步提升了人群密度估計的準(zhǔn)確性。文獻(xiàn)[4]使用塊狀金字塔作為輸入來提取多尺寸的特征圖,提升了密度估計網(wǎng)絡(luò)的泛化能力,同時實(shí)現(xiàn)了對車流和人流的密度估計。文獻(xiàn)[5—6]以MCNN為骨干網(wǎng)絡(luò),在人群計數(shù)框架中融合圖像的全局和局部內(nèi)容信息,提出了基于圖像上下文的金字塔卷積網(wǎng)絡(luò)CP-CNN,通過生成高質(zhì)量的密度圖提升人群密度估計的準(zhǔn)確率,特別是在千人以上的超高密度人群估計中有很好的表現(xiàn)。文獻(xiàn)[7—8]對多尺度特征提取模型進(jìn)一步創(chuàng)新,通過引入注意力機(jī)制,提高了模型的自適應(yīng)性以及人群密度可視化的性能。文獻(xiàn)[9—10]主要以目標(biāo)檢測方式對人群圖像中不同尺寸的頭部進(jìn)行識別定位,并通過計數(shù)的方式估計整體人群數(shù)量。文獻(xiàn)[11]為獲取更多全局信息,采用空洞卷積層來擴(kuò)大感受野,不僅減少了訓(xùn)練參數(shù),還在保證準(zhǔn)確率的情況下提升了訓(xùn)練效率。文獻(xiàn)[12]提出一種網(wǎng)格化的編解碼網(wǎng)絡(luò)架構(gòu),通過對不同網(wǎng)絡(luò)層特征圖的編碼、解碼工作,學(xué)習(xí)特征圖與不同人群密度間的映射關(guān)系,實(shí)現(xiàn)對高密度人群的估計。上述方法雖然都實(shí)現(xiàn)了對人群密度的估計,并且模型準(zhǔn)確率和效率也都在不斷提升,但都是基于單個視覺場景的實(shí)現(xiàn)。
單個視覺場景下,多數(shù)人群密度估計模型無法覆蓋整個場景,例如一般很難在寬闊的站房空間內(nèi)或狹長的列車站臺上,利用單個視覺場景獲得準(zhǔn)確的全局信息。為解決這種寬廣區(qū)域下的人群密度估計問題,需要同時配置多路攝像頭,通過視野上的重疊即采用多視角融合的方法,盡量減少由環(huán)境遮擋造成的估計誤差,實(shí)現(xiàn)對整個目標(biāo)場景的覆蓋。在這一研究領(lǐng)域,文獻(xiàn)[13]在對多視角目標(biāo)人群特征圖提取的基礎(chǔ)上,采用貝葉斯估計的方法對行人進(jìn)行計數(shù),該方法對于稀疏場景(即圖像中的行人圖像獨(dú)立完整、無遮擋)有較好的效果,但沒有解決行人間遮擋嚴(yán)重情況下的人群計數(shù)問題。文獻(xiàn)[14]采用特征圖投影方法解決人群遮擋問題,在城市十字路口下通過對位于人行道的多路視頻圖像進(jìn)行投影融合,實(shí)現(xiàn)對整個路口的人群密度估計,但該應(yīng)用場景下的行人數(shù)量較少,尚不知對于高密度人群的密度估計效果。
基于上述各類人群密度研究方法的優(yōu)點(diǎn)和目前在超大視覺場景下人群密度估計的局限性,本文在歸納鐵路客站內(nèi)人群密度特點(diǎn)的基礎(chǔ)上,提出1種多視角特征圖投影融合的人群密度估計模型,主要包括多視角特征圖提取處理和多視角特征圖投影融合處理2個部分。首先,通過特征金字塔網(wǎng)絡(luò)實(shí)現(xiàn)旅客圖像的多尺度特征圖提取,并引入注意力機(jī)制進(jìn)一步豐富旅客人群特征信息;其次,將二維的多視角旅客人群特征圖投影到三維地面坐標(biāo)系,并進(jìn)行投影融合,實(shí)現(xiàn)鐵路客站大視野、復(fù)雜場景下旅客人群密度的估計;最后,通過訓(xùn)練選定的公開數(shù)據(jù)集和自行構(gòu)建的數(shù)據(jù)集,完成本文模型與當(dāng)前同類先進(jìn)模型在性能上的對比。
鐵路客站特別是新建的高鐵客站普遍具有站房結(jié)構(gòu)龐大、站內(nèi)場景布置復(fù)雜多樣的特點(diǎn),站房內(nèi)部除了主要的安檢區(qū)、檢票區(qū)和候車區(qū),還分布有大量的商鋪、巨型廣告牌、站內(nèi)引導(dǎo)牌、列車時刻表大屏等設(shè)施設(shè)備。由此,實(shí)踐發(fā)現(xiàn)站內(nèi)旅客人群視頻圖像處理中存在如下5個特點(diǎn),這些特點(diǎn)進(jìn)一步放大了站內(nèi)旅客的目標(biāo)識別難度,從技術(shù)可行性、模型有效性等方面給人群密度估計工作的開展帶來挑戰(zhàn)。
(1)旅客人群分布不均。站內(nèi)旅客人群聚集在時間上的分布是不均勻的,并且人群聚集密度會隨著不同檢票口發(fā)車時刻信息的變化而動態(tài)變化[15]。例如,發(fā)車前30 min內(nèi)旅客會在檢票口附近區(qū)域高度聚集,而其他未檢票的候車區(qū)域,旅客的人群密度則相對稀疏,如圖1所示。
圖1 站內(nèi)旅客不均勻分布場景
(2)旅客人群遮擋明顯。視頻圖像中,旅客人群在站內(nèi)明顯會受到各種類型的遮擋,這種遮擋又可進(jìn)一步分為靜態(tài)遮擋和動態(tài)遮擋2類。靜態(tài)遮擋主要指站內(nèi)設(shè)施設(shè)備對旅客的遮擋,以及旅客因坐、臥等靜態(tài)姿態(tài)造成的相互遮擋;動態(tài)遮擋指旅客進(jìn)站、排隊檢票和站內(nèi)購物等過程中,短時間內(nèi)旅客被站內(nèi)設(shè)施設(shè)備遮擋,以及因走動造成的相互遮擋[16]。典型的站內(nèi)旅客人群遮擋場景如圖2所示。
圖2 站內(nèi)旅客人群遮擋場景
(3)圖像中旅客尺寸差異大。攝像頭視角下,由于不同旅客與視頻監(jiān)控攝像機(jī)的距離遠(yuǎn)近不一,以及不同旅客的站內(nèi)行為姿態(tài)不一,會造成視頻圖像獲得的旅客尺寸大小相差較大,特別是在利用圖像估計人群密度時,長寬均小于50個像素單位的小尺寸旅客往往難以被識別檢測,如果不對圖像進(jìn)行處理就直接開展人群密度估計,準(zhǔn)確率會受到較大影響。
(4)圖像背景復(fù)雜。對視頻圖像進(jìn)行處理時,通常需根據(jù)識別任務(wù)目的對圖像進(jìn)行背景與前景人像分離。針對旅客進(jìn)行人群密度估計時,以站內(nèi)旅客為前景、以站內(nèi)容易形成遮擋的設(shè)施設(shè)備為背景,很容易看出圖像背景環(huán)境復(fù)雜多樣,既有立柱等站房自身結(jié)構(gòu),又有座椅、閘機(jī)等固定物,還有廣告牌、商鋪等可能不定期更換位置的設(shè)施,這些遮擋物會在一定程度上影響人群特征提取的準(zhǔn)確性,對圖像背景識別過程中的泛化能力提出了較高要求。
(5)站內(nèi)光線影響識別。鐵路客站一般站房寬敞宏大,為保證室內(nèi)采光充足,通常會通過寬大的落地窗和天窗引入自然光。自然光線的變化會導(dǎo)致部分?jǐn)z像頭有時處于逆光狀態(tài),有時局部光線過強(qiáng)甚至導(dǎo)致視頻圖像過曝或死黑,無法進(jìn)行圖像細(xì)節(jié)的分析與識別。此外,光滑地面產(chǎn)生的反射也會造成類似影響。
針對上述鐵路客站內(nèi)旅客人群密度場景圖像的特點(diǎn),構(gòu)建多視角特征圖投影融合的人群密度估計模型(以下簡稱為“MVPFCC模型”),主要包括多視角特征圖提取處理和多視角特征圖投影融合處理2個部分。在多視角特征圖提取處理時,設(shè)計圖像特征提取器,對多路視頻圖像分別進(jìn)行多尺度特征提??;在得到不同尺寸旅客圖像信息的基礎(chǔ)上,通過特征對齊、融合及注意力機(jī)制(Attention)處理后得到注意力密度特征圖。在多視角特征圖投影融合處理時,先將多路視頻圖像的注意力密度特征圖通過空間投影變化,使其從二維平面特征圖轉(zhuǎn)化為三維地面坐標(biāo)系下的投影特征圖,然后再對多路投影特征圖進(jìn)行融合,得到投影融合特征圖并在此基礎(chǔ)上完成人群密度估計。
2.1.1 旅客視頻圖像多尺度特征提取
由旅客人群視頻圖像的特點(diǎn)可知,站內(nèi)的復(fù)雜背景特征對小尺寸的旅客特征提取影響較大。為確保不同尺寸的旅客特征盡可能都被提取到,構(gòu)建模型時考慮采用多尺度特征提取特性較好的特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)[17]作為預(yù)訓(xùn)練網(wǎng)絡(luò),這樣能夠在特征提取時確保對站內(nèi)攝像頭視角下不同位置旅客,特別是鏡頭遠(yuǎn)端小尺寸旅客圖像信息的有效提取,在此基礎(chǔ)上,通過對融合特征圖進(jìn)行注意力機(jī)制[18]處理,實(shí)現(xiàn)對旅客特征的重定位。
以站內(nèi)3個不同位置攝像頭的多視角視頻圖像特征提取為例,其具體提取過程如圖3所示。首先利用特征金字塔預(yù)訓(xùn)練網(wǎng)絡(luò),按照256×256,128×128,64×64,32×32,16×16等不同尺寸,對原始圖像進(jìn)行旅客圖像特征提取[19];接著通過最鄰近上采樣操作,將不同尺寸特征圖均按照最大尺寸(即256×256)進(jìn)行上采樣特征對齊;然后將對齊后的特征圖進(jìn)行相加得到融合特征圖,同時采用3×3大小的卷積核進(jìn)行處理,消除多層特征融合中帶來的重疊效應(yīng);最后為提高旅客人群識別效果,對融合特征圖進(jìn)行注意力機(jī)制處理,實(shí)現(xiàn)基于背景圖像和前景人像的語義分割,得到注意力密度特征圖(Attention Map,AM)[20]。
圖3 多視角特征圖提取處理過程
2.1.2 特征圖注意力機(jī)制處理
為減少圖像特征提取時因站內(nèi)復(fù)雜背景帶來的信息干擾,使模型更專注于旅客人群信息的獲取,多尺度特征圖提取過程中引入了注意力機(jī)制處理模塊,將融合特征圖處理為注意力密度特征圖,實(shí)現(xiàn)了融合特征中背景環(huán)境信息和旅客特征信息的自動分類過濾[21]。在特征金字塔網(wǎng)絡(luò)預(yù)訓(xùn)練過程中,模型學(xué)習(xí)不同尺寸特征圖對應(yīng)的權(quán)重,在后續(xù)的站內(nèi)背景目標(biāo)和旅客人群目標(biāo)分類時據(jù)此對各局部特征圖做出分類判斷,并將結(jié)果表現(xiàn)為隱藏非重點(diǎn)信息(即環(huán)境特征信息)、只顯示關(guān)鍵目標(biāo)特征信息(即前文旅客人群信息)的形式,從而達(dá)到對關(guān)鍵信息形成注意力的效果,進(jìn)一步提高模型準(zhǔn)確率[22]。
在對站內(nèi)旅客人群特征圖引入注意力機(jī)制的處理時,由于只需對背景和人群特征信息進(jìn)行提取分離,可通過分類激活函數(shù)將其歸納為二分類問題,具體處理流程如圖4所示。圖中:Fb和Fc分別為用于提取背景和人群的特征層;Wb和Wc分別為特征圖在經(jīng)過全局平均池化后得到對應(yīng)背景特征圖和人群特征層的平均權(quán)重矩陣;Pb和Pc分別為Wb和Wc在經(jīng)過分類激活函數(shù)處理后得到的背景和人群的置信度,表示當(dāng)前該像素點(diǎn)被判別為背景圖像或旅客圖像的概率大小,Pb,Pc∈[0,1],當(dāng)Pb取0時表示像素點(diǎn)被判定為背景圖像,當(dāng)Pc取1時表示像素點(diǎn)被判定為旅客圖像;⊙和⊕分別為矩陣的乘法和加法運(yùn)算;藍(lán)色箭頭表示背景特征分類分支,由Fc與其置信度Pc相乘得到,同理黃色箭頭為人群特征分類分支。在分別完成背景、人群特征提取分離后,2個通道特征層相加得到新的特征圖層,即注意力密度特征圖。
圖4 特征圖注意力機(jī)制處理流程示意圖
常見的多視角圖像投影融合處理方式可分為以下3種:①無特征提取,直接對原始圖像先投影再融合;②原始圖像進(jìn)行特征提取后,對特征圖先投影再融合;③原始圖像進(jìn)行特征提取后,對特征圖先融合再投影。實(shí)驗(yàn)表明:采用第1種方式會損失大量的圖像信息,對后期的人群密度估計會有很大的影響;采用第3種方式會在融合過程中損失較多特征信息。本文采用能夠保留大多數(shù)特征信息,對后期的密度估計影響較小[14,23]的第2種方式。經(jīng)過圖3中多視角特征圖提取處理后,對得到的特征圖源(注意力密度特征圖)進(jìn)行特征圖投影融合,具體過程如圖5所示。
圖5 多視角特征圖投影融合過程
1)多視角特征圖空間投影
特征圖的投影過程是將二維的注意力密度特征圖投影到三維空間的地面坐標(biāo)系中。由于視覺投影中的參考坐標(biāo)系發(fā)生變化,在投影變化前,要對各個攝像頭進(jìn)行內(nèi)參和外參的標(biāo)定,以此確定二維圖像坐標(biāo)與三維地面坐標(biāo)系的映射關(guān)系。本文采用張氏標(biāo)定法[24]實(shí)現(xiàn)對多個攝像頭的內(nèi)參和外參標(biāo)定,具體的計算過程略,直接使用標(biāo)定后的參數(shù)。
視覺投影變化過程基于像素點(diǎn)在三維坐標(biāo)(x,y,z)和二維圖像的像素坐標(biāo)點(diǎn)(u,v)之間進(jìn)行的仿射變換,通過矩陣的增廣運(yùn)算實(shí)現(xiàn)不同維度下的坐標(biāo)轉(zhuǎn)換[25],即二維坐標(biāo)向量和三維坐標(biāo)向量中均增加1行行向量,并全部填充為1。
式中:ε為實(shí)數(shù)比例因子;Pθ為大小為3×4的視角變化參數(shù)矩陣;A為3×3的內(nèi)參矩陣;R為旋轉(zhuǎn)變換矩陣參數(shù);t為平移變換矩陣參數(shù);[R|t]為3×4大小的旋轉(zhuǎn)平移變換矩陣(外參矩陣)。
將旅客人群密度特征圖從二維坐標(biāo)投影到三維地面坐標(biāo)系的過程中,為最大程度減小因遮擋造成的人群密度估計誤差,考慮將坐標(biāo)系下所有坐標(biāo)點(diǎn)的z值設(shè)為零,即將所有像素投影坐標(biāo)點(diǎn)變?yōu)?x,y,0),得到特征圖的投影特征圖。具體變化過程由式 (1) 中矩陣Pθ與空間向量(x,y,0,1)通過矩陣乘法運(yùn)算得到,即
式中:Pθ,0為二維圖像投影到地面坐標(biāo)系下尺寸為3×3大小的視覺變換矩陣。
2)多視角投影特征圖融合
投影融合過程比較簡單,將不同投影特征圖通過矩陣加法運(yùn)算得到即可。由于在特征圖投影過程中,二維坐標(biāo)下的部分特征圖會發(fā)生形變,在特征圖投影融合后進(jìn)行密度圖估計時會造成一定誤差損失,因此融合后的特征圖通過大卷積核的空洞卷積減小這一誤差,使最后的特征圖盡量與標(biāo)注值接近[23,26],同時,大卷積核處理還可最大限度地保持多視角融合過程中空間信息。
在模型訓(xùn)練學(xué)習(xí)時,需要大量的訓(xùn)練數(shù)據(jù)集樣本圖像及對應(yīng)的人群標(biāo)注信息。訓(xùn)練數(shù)據(jù)集的原始圖像標(biāo)注文件包含了人群目標(biāo)個體的位置像素坐標(biāo),在標(biāo)注過程中,多以目標(biāo)旅客頭部的1個點(diǎn)作為對應(yīng)的1個標(biāo)注目標(biāo)。在實(shí)際模型訓(xùn)練開始前,首先根據(jù)訓(xùn)練數(shù)據(jù)集中的標(biāo)注文件信息,將樣本圖像轉(zhuǎn)化為單視角標(biāo)注密度圖,之后才能參與模型的學(xué)習(xí)訓(xùn)練過程,然后經(jīng)過特征提取、注意力密度圖生成、多視角的特征圖投影以及投影融合等一系列操作,生成最終的投影融合密度估計圖。
1)單視角標(biāo)注密度圖生成
對于訓(xùn)練數(shù)據(jù)集中的樣本圖像,其對應(yīng)的標(biāo)注文件由圖像中的旅客頭部標(biāo)注信息構(gòu)成,其中每條標(biāo)注信息均由1個稀疏矩陣表示。通過高斯核函數(shù)將該稀疏矩陣轉(zhuǎn)換為二維密度圖,估計過程為
式中:DGT為標(biāo)注圖像生成的人群密度特征圖;xi為標(biāo)注圖像中第i個旅客的頭部坐標(biāo)點(diǎn);δ(x?xi)為表示xi位置的沖擊函數(shù),通過自由變量x條件變換確定標(biāo)注對象是否存在;o為標(biāo)注圖像中人頭數(shù);Gμ,ρ2(x)為高斯核函數(shù);μ為確定頭部大小的參數(shù);ρ為標(biāo)準(zhǔn)差值。
2)注意力密度特征圖生成
完成多尺度特征提取之后會得到多尺度融合特征圖,經(jīng)過注意力機(jī)制處理,實(shí)現(xiàn)站內(nèi)背景和人群特征信息的分離,式(4)即為2類特征層二分類實(shí)現(xiàn)過程的主要函數(shù)。
式中:Matt為注意力密度特征圖;Sigmoid(·)為激活函數(shù),輸出值范圍[0,1];W和b分別為注意力模塊處理過程中的網(wǎng)絡(luò)權(quán)重和偏差值;fu為多攝像頭特征提取后的融合特征圖;?為卷積過程。
3)多視角特征圖投影融合特征圖生成
根據(jù)式(4)得到不同視角圖像的注意力密度特征圖,在此基礎(chǔ)上分別進(jìn)行特征圖投影變化,即
在完成投影后進(jìn)行投影特征融合,得到最終的投影融合特征圖Rf為
式中:R(·)為最終的投影特征圖融合函數(shù)。
在關(guān)于人群密度估計模型的諸多研究中,最常見的是采用歐氏距離損失函數(shù)作為訓(xùn)練收斂目標(biāo)的網(wǎng)絡(luò)訓(xùn)練優(yōu)化過程。本文在這一傳統(tǒng)損失函數(shù)的基礎(chǔ)上作了進(jìn)一步優(yōu)化。
首先,利用歐式距離進(jìn)行誤差反向傳播的損失函數(shù)設(shè)計,即
式中:Lden為歐式距離損失目標(biāo)函數(shù);Q為樣本圖像個數(shù);F(Xd;Θ)為第d個輸入圖像通過模型生成的密度估計特征圖;Xd為輸入的第d個樣本圖像矩陣;Θ為網(wǎng)絡(luò)中需要學(xué)習(xí)的參數(shù)集合;為對應(yīng)樣本圖像的標(biāo)注圖像的人群密度特征圖。
其次,在Lden的基礎(chǔ)上考慮到在對特征圖進(jìn)行注意力機(jī)制處理時,實(shí)際上進(jìn)行的是背景與人像的像素級語義分割過程,因此用Latt表示該步操作對真實(shí)的密度圖產(chǎn)生的誤差損失,這一損失過程可以通過二分類的交叉熵進(jìn)行表示,即
最終,損失目標(biāo)函數(shù)Lcon可由2個損失函數(shù)共同決定,其整體即為模型的誤差反向傳播損失函數(shù)
在迭代次數(shù)有限的模型訓(xùn)練過程中,當(dāng)Lcon達(dá)到最小值時,模型表現(xiàn)為局部最優(yōu)。
完成模型的算法框架設(shè)計后,需要進(jìn)一步對其效果進(jìn)行驗(yàn)證。先通過訓(xùn)練選定的公開數(shù)據(jù)集和自建數(shù)據(jù)集,對比MVPFCC模型與當(dāng)前同類先進(jìn)模型在均值絕對誤差上的性能差異,并驗(yàn)證模型中注意力機(jī)制模塊的應(yīng)用效果;再通過平均損失值這一指標(biāo),考察MVPFCC模型的收斂效果,驗(yàn)證梯度策略設(shè)置的合理性;最后依托實(shí)際的京張高鐵清河站應(yīng)用場景,驗(yàn)證模型對人群密度估計的有效性。
模型訓(xùn)練采用了2個不同數(shù)據(jù)集,其中1個是公開發(fā)布的用于多視角融合密度估計的城市街道數(shù)據(jù)集[14](CityStreet);考慮到公開的多視角數(shù)據(jù)集較少,同時也為驗(yàn)證模型對實(shí)際應(yīng)用場景的支持程度,還自行構(gòu)建了基于客站多攝像頭的清河站數(shù)據(jù)集(QingheStation)。2個數(shù)據(jù)集的視頻圖像數(shù)據(jù)均滿足多個視角交叉且能覆蓋監(jiān)控區(qū)域的場景要求,同時每個數(shù)據(jù)集中的訓(xùn)練數(shù)據(jù)集、驗(yàn)證數(shù)據(jù)集和測試數(shù)據(jù)集都按照7∶1∶2的比例從各數(shù)據(jù)集全樣本中隨機(jī)抽取生成。
1)城市街道數(shù)據(jù)集
該數(shù)據(jù)集由香港城市大學(xué)計算機(jī)視覺團(tuán)隊研究多攝像頭行人密度時制作發(fā)布,數(shù)據(jù)來自位于香港市中心某十字街道附近的5個同步攝像頭,主要用于對過往的道路和行人狀態(tài)進(jìn)行監(jiān)控。
數(shù)據(jù)采集時選取其中3個有視野交集的攝像頭,在同一時間點(diǎn)進(jìn)行圖像的同步采樣,得到各攝像頭下的視頻圖像500幀,分辨率為2 704像素×1 520像素,每幀圖像中的人群規(guī)模在20~50人左右。為便于后續(xù)實(shí)驗(yàn)開展,對同一時刻下不同視角圖像中的相同目標(biāo)進(jìn)行旅客位置和序號標(biāo)注,以保證同一時刻出現(xiàn)在3個視頻中的同一旅客具有相同的序號。
2)清河站數(shù)據(jù)集
該數(shù)據(jù)集來自站房結(jié)構(gòu)寬敞高大、站內(nèi)布設(shè)上百個攝像頭的清河站,先選取視野有交集的9個攝像頭進(jìn)行同步采樣,再篩選出視野交集較多且各路視野恰好可合成1個更大感受野的3個攝像頭,以同步采集得到的數(shù)據(jù)作為樣本源。
數(shù)據(jù)采集時同步截取各攝像頭在不同時間段的視頻圖像500幀,分辨率為1 080像素×1 920像素,每幀圖像中的人群規(guī)模在20~100人之間。各攝像頭下的圖像同樣進(jìn)行旅客位置和序號的唯一性標(biāo)注。
考慮到內(nèi)存限制要求和數(shù)據(jù)集的圖像分辨率,先對原始圖像(1 080像素×1 920像素)進(jìn)行下采樣,將得到的圖像按照720像素×1 280像素大小作為輸入圖像。在特征提取過程中,采用以殘差網(wǎng)絡(luò)ResNet50為骨干的特征金字塔網(wǎng)絡(luò),得到特征提取的通道數(shù)λ=512;運(yùn)用空洞卷積代替步長卷積,通過720像素×1 280像素大小的輸入圖像得到8倍下采樣率的特征圖。
多視角投影融合過程中,在投影前對多視角注意力密度特征圖采用線性插值方法,將其特征圖大小調(diào)整為270像素×480像素大小。待完成特征圖投影融合后,采用卷積核大小為3×3的3個卷積層(空洞卷積率分別為1,2,3),分別對2個數(shù)據(jù)集生成基于3個攝像頭的多視角特征投影融合密度圖。模型的總體網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。圖中:J1—J5均為原始圖像經(jīng)過特征提取器卷積操作后得到不同的卷積層;S2—S5均為對應(yīng)的卷積層經(jīng)過上采樣得到的特征層;箭頭表示神經(jīng)網(wǎng)絡(luò)參數(shù)前向傳輸過程。
圖6 多視角特征圖投影融合的人群密度估計(MVPFCC)模型網(wǎng)絡(luò)結(jié)構(gòu)
模型訓(xùn)練時,采用的實(shí)驗(yàn)硬件環(huán)境為1臺GPU服務(wù)器,配有4塊型號為GTX-1080TI的GPU加速卡,服務(wù)器系統(tǒng)環(huán)境為Linux Ubuntu 18.04,深度學(xué)習(xí)模型框架版本為pytorch 1.4和CUDA 10.1,編譯器編譯運(yùn)行環(huán)境版本為python 3.7。
考到訓(xùn)練時可能會在隨機(jī)梯度下降(Stochas?tic Gradient Descent,SGD)的優(yōu)化過程中出現(xiàn)對局部最優(yōu)的限制,模型采用Adam優(yōu)化器,根據(jù)一般神經(jīng)網(wǎng)絡(luò)訓(xùn)練中梯度下降經(jīng)驗(yàn),設(shè)動量值為0.5,L2正則為5×10?4;考慮模型訓(xùn)練中樣本批處理數(shù)量會受內(nèi)存的限制,設(shè)最大學(xué)習(xí)率為0.1,單次迭代的樣本量為4,訓(xùn)練迭代循環(huán)共900次。
模型訓(xùn)練完成后,采用均值絕對誤差Smae和均方差Smse對模型在測試數(shù)據(jù)集上進(jìn)行具體評估[22]。Smae通過對樣本的預(yù)測值與標(biāo)注值差異的平均值反應(yīng)預(yù)測結(jié)果的準(zhǔn)確性,Smse通過樣本預(yù)測值與標(biāo)注值的差異的波動程度反應(yīng)模型的魯棒性,兩者的具體定義為
式中:N為測試數(shù)據(jù)集中的樣本圖像數(shù)量,個;MGTr為第r個樣本圖像經(jīng)過標(biāo)注數(shù)據(jù)計算而成的人群密度標(biāo)注值,人;Mr為第r個樣本經(jīng)過模型輸出的特征圖所計算生成的人群密度估計值,人。
3.3.1 模型效果對比
實(shí)驗(yàn)時,為進(jìn)一步體現(xiàn)本文MVPFCC模型中注意力機(jī)制模塊的應(yīng)用效果,先將其分為2種版本進(jìn)行對比,分別是帶有注意力機(jī)制模塊的MVPF?CC(標(biāo)準(zhǔn))模型,以及去掉注意力機(jī)制模塊后的MVPFCC(no Attention)模型;再將2種MVPF?CC模型與香港城市大學(xué)在發(fā)布CityStreet數(shù)據(jù)集時提出的多視角融合密度估計模型[14](MVMS模型)進(jìn)行對比。以均值絕對誤差Smae和均方差Smse作為對比指標(biāo),3個模型經(jīng)過CityStreet和Qingh?eStation這2個數(shù)據(jù)集訓(xùn)練后的結(jié)果對比見表1。需要注意的是,因視角融合的數(shù)量維度差異,驗(yàn)證MVMS模型性能時僅在CityStreet數(shù)據(jù)集使用了Smae這1項(xiàng)指標(biāo)評估樣本預(yù)測值與標(biāo)注值的誤差結(jié)果。
表1 3個模型經(jīng)過不同數(shù)據(jù)集訓(xùn)練后的指標(biāo)對比
由表1可知:經(jīng)過CityStreet數(shù)據(jù)集訓(xùn)練后,3個模型在Smae指標(biāo)下的對比結(jié)果為MVPFCC(標(biāo)準(zhǔn))模型最優(yōu)、MVMS模型次之、MVPFCC(no At?tention)模型最后,2種MVPFCC模型在Smse指標(biāo)下的對比結(jié)果為MVPFCC(標(biāo)準(zhǔn))模型優(yōu)于MVPFCC(no Attention)模型;經(jīng)過QingheSta?tion數(shù)據(jù)集訓(xùn)練后,MVPFCC(標(biāo)準(zhǔn))模型總體優(yōu)于MVPFCC(no Attention)模型;對比結(jié)果表明在多視角融合的人群密度估計模型設(shè)計中,引入注意力機(jī)制是有效的。
經(jīng)過QingheStation數(shù)據(jù)集訓(xùn)練后,2種MVPF?CC模型的Smae和Smse指標(biāo)隨迭代次數(shù)變化的曲線分別如圖7和圖8所示。由圖7和圖8可知:經(jīng)過900次迭代訓(xùn)練后,MVPFCC(標(biāo)準(zhǔn))模型在2種指標(biāo)下的曲線收斂情況均優(yōu)于MVPFCC(no At?tention)模型,進(jìn)一步佐證了注意力機(jī)制對模型的優(yōu)化作用。
圖7 2種MVPFCC模型的訓(xùn)練結(jié)果均值絕對誤差Smae對比
圖8 2種MVPFCC模型的訓(xùn)練結(jié)果均方差Smse對比
模型在訓(xùn)練過程中,通常還會用到平均損失值這一指標(biāo)來反映模型的整體收斂情況。MVPFCC(標(biāo)準(zhǔn))模型平均損失值隨迭代次數(shù)變化的曲線如圖9所示。由圖9可知:經(jīng)過QingheStation數(shù)據(jù)集訓(xùn)練后,MVPFCC(標(biāo)準(zhǔn))模型平均損失值隨迭代次數(shù)的增加整體呈收斂趨勢;迭代最初,平均損失值梯度迅速下降,迭代200次左右梯度下降逐步穩(wěn)定,趨于平緩,說明損失函數(shù)、學(xué)習(xí)率、動量參數(shù)等梯度策略設(shè)置合理,模型收斂效果較好。
圖9 MVPFCC(標(biāo)準(zhǔn))模型經(jīng)過QingheStation數(shù)據(jù)集訓(xùn)練后的平均損失曲線
3.3.2 實(shí)際應(yīng)用場景下的模型有效性驗(yàn)證
MVPFCC(標(biāo)準(zhǔn))模型經(jīng)過QingheStation數(shù)據(jù)集訓(xùn)練后會生成新的網(wǎng)絡(luò)模型權(quán)重,在此基礎(chǔ)上,通過測試數(shù)據(jù)集樣本圖像進(jìn)行密度估計可以驗(yàn)證模型在實(shí)際應(yīng)用場景下的性能效果,驗(yàn)證過程中該模型基于3個不同視角視頻圖像準(zhǔn)確估計人群密度。具體估計過程如圖10所示。圖中:B1?B3為各輸入樣本標(biāo)注值,由DGT通過積分計算得到;E1?E3分別為單個注意力密度圖的估計值,由Matt通過積分計算得到;T為多視角特征圖融合后得到的區(qū)域內(nèi)人群密度估計值,由Rf通過積分計算得到。由圖10可知:輸入3個不同視角下的視頻樣本圖像后,經(jīng)過樣本標(biāo)注數(shù)據(jù)的可視化處理,可得到對應(yīng)的樣本標(biāo)注密度圖,樣本再經(jīng)過多尺度特征提取以及注意力機(jī)制處理后,形成對應(yīng)的注意力密度特征圖,3個注意力密度特征圖經(jīng)過投影融合,最終生成多視角投影融合密度圖;對單視角樣本特征經(jīng)過注意力機(jī)制處理后,得到的注意力密度估計值與對應(yīng)樣本的標(biāo)注值基本接近。多視角特征圖投影融合密度圖估計值準(zhǔn)確地反映了3個不同視角下的視頻樣本圖像標(biāo)注值總和,驗(yàn)證了多視角特征圖投影融合密度估計模型的有效性。
圖10 MVPFCC(標(biāo)準(zhǔn))模型對多視角融合的旅客人群密度估計過程
本文根據(jù)歸納得到的實(shí)踐中鐵路客站內(nèi)旅客人群視頻圖像特點(diǎn),基于特征金字塔網(wǎng)絡(luò)預(yù)訓(xùn)練模型,結(jié)合計算機(jī)視覺領(lǐng)域中的注意力機(jī)制、圖像特征投影和圖像特征融合思想,提出了1種多視角特征圖投影融合的人群密度估計模型,可用于鐵路客站內(nèi)旅客的目標(biāo)識別。該模型能夠?qū)φ緝?nèi)多路有視覺交叉的旅客視頻監(jiān)控圖像進(jìn)行多尺度特征提取和特征投影融合處理,將多視角下的旅客特征圖融合成1個整體特征圖并進(jìn)行密度估計,實(shí)現(xiàn)站內(nèi)更大視野范圍內(nèi)的人群密度感知。通過某公開數(shù)據(jù)集和基于清河站的自建數(shù)據(jù)集訓(xùn)練模型,證實(shí)模型引入的注意力機(jī)制模塊是有效的,模型梯度策略設(shè)置合理,收斂效果較好,能夠在清河站實(shí)際應(yīng)用場景下,基于3個不同視角視頻圖像準(zhǔn)確估計人群密度。然而,模型在多視角投影融合過程中,只考慮了采用大尺度卷積核減少融合誤差,沒有對具體的誤差損失進(jìn)行定量分析,下一步,考慮以投影融合誤差估計為改進(jìn)方向,重新設(shè)計優(yōu)化損失函數(shù),在誤差損失的反向傳播過程中,增加投影融合過程中旅客人群圖像特征信息損失計算方法,從而在大量的學(xué)習(xí)訓(xùn)練過程中,以不斷降低整體損失為目標(biāo),縮小模型預(yù)測值與真實(shí)值之間的差距,從而實(shí)現(xiàn)模型預(yù)測準(zhǔn)確性的提升。此外,可以對自建數(shù)據(jù)集樣本進(jìn)一步豐富,擴(kuò)大樣本容量和標(biāo)注數(shù)據(jù),在此基礎(chǔ)上不斷學(xué)習(xí)有助于模型泛化能力的提升。
本文模型不僅適用于鐵路客站,還可用于其他視頻監(jiān)控有視覺交叉的超大視野場景下的人群密度估計,如機(jī)場候機(jī)大廳、地鐵站臺等大型公共場所。