軌道交通復(fù)雜場景人群密度估計方法的應(yīng)用研究

2021-02-11 05:57:14李宇杰裴中陽

中國新技術(shù)新產(chǎn)品 2021年22期

劉京李宇杰李強(qiáng) 王璐裴中陽

（1.北京市地鐵運營有限公司，北京 100044；2.北京久譯科技有限公司，北京 100070）

0 引言

隨著社會的發(fā)展與經(jīng)濟(jì)的繁榮，城市化進(jìn)程使越來越多的人口涌入城市。作為大型城市的主要公共交通設(shè)施，軌道交通是人流密集的典型場所，它具有客流密度大（尤其是瞬時客流高峰大）的特點，客流高峰期容易出現(xiàn)嚴(yán)重?fù)頂D的情況，造成乘客滯留站臺的現(xiàn)象，甚至引發(fā)乘客糾紛、踩踏以及騷亂等安全事故，影響列車的正常運營。運營管理方對車站的大廳、站臺以及換乘通道等區(qū)域進(jìn)行實時監(jiān)控，利用視頻智能分析技術(shù)及時掌握車站整體和局部的客流密度情況，及時地對可能出現(xiàn)的客流擁堵情況進(jìn)行預(yù)判，保障軌道交通的安全運行。同時，可以實時地向乘客發(fā)布車站客流密度的相關(guān)情況。

基于公共安全的需求，在軌道交通車站內(nèi)部組建完善的監(jiān)控安防系統(tǒng)，對站內(nèi)重點區(qū)域進(jìn)行圖像采集[1]。早期主要依靠站內(nèi)工作人員（監(jiān)視監(jiān)控畫面）和安保人員（巡邏車站）來收集客流密度數(shù)據(jù)，在發(fā)生客流擁擠時通知站區(qū)其他工作人員對相關(guān)情況進(jìn)行處理。除了存在人力消耗大、智能化程度低等問題以外，還無法保證對所有監(jiān)控點位進(jìn)行全程、實時監(jiān)控，不能及時發(fā)現(xiàn)潛在的安全隱患。目前，深度學(xué)習(xí)在計算機(jī)視覺領(lǐng)域獲得了跨越式發(fā)展[2]。但是，在軌道交通場景下，會遇到人群遮擋、光線變化、監(jiān)視范圍大以及距離遠(yuǎn)等問題。因此，亟需建立1 個檢測精確度更高、效率更快的模型。

1 深度學(xué)習(xí)相關(guān)技術(shù)

人群密度估計是視頻監(jiān)控的重要信息之一，是軌道交通視頻智能化的核心需求[3]?；谝曨l的人群密度估計方法主要分為以下5 類：基于視頻幀的圖像處理方法、基于檢測的方法[4]、基于回歸的方法、基于密度圖的方法和基于卷積神經(jīng)網(wǎng)絡(luò)的方法[5]。

基于視頻幀的人群密度估計方法使用一系列視頻幀作為背景，相減提取前景人像所占據(jù)的空間，利用邊緣提取檢測人像的邊緣長度，用該特征進(jìn)行密度估計，該方法的局限是無法估計靜態(tài)圖片中的人群密度（并且在擁擠情況下估計精度較差）[6]?；跈z測的人群密度估計最早是采用滑動窗口檢測，通過預(yù)先定義的網(wǎng)格窗口遍歷整張圖像，以檢測相應(yīng)的目標(biāo)，然后增加窗口，以獲得大小不同的目標(biāo)，通過傳統(tǒng)圖像處理方法來判斷滑動窗口是否包括目標(biāo)。這種檢測方法的缺點是計算量很大，而且由于遮擋和空間變化的影響，因此無法計算密集人群，預(yù)測的準(zhǔn)確性較差，難以滿足軌道交通這類可能出現(xiàn)極密人群的復(fù)雜場景的需求，缺乏魯棒性。

估計人口密度的主要思想是研究人口的特征映射。首先，提取透視、邊緣特征、紋理和梯度等較低的場景特征。其次，研究線性回歸或高斯過程等回歸模型，研究低特征與人數(shù)的關(guān)系?；貧w法雖然能在一定程度上解決遮蔽問題，但是該方法采用回歸技術(shù)，以使用全光譜圖像為特征，忽略了圖像的空間信息，人口密度根據(jù)一定區(qū)域內(nèi)的人口數(shù)量來確定且計數(shù)過程中包括圖像的空間信息，便于教授如何顯示圖像的局部特征和相應(yīng)的密度圖。通過具有特殊功能的過濾器獲取圖像特征，用雙向濾波提取圖像邊緣以及用形態(tài)學(xué)濾波進(jìn)行形狀控制和紋理分析。傳統(tǒng)方法是輸入圖像的1 個色斑（patch），通常分為2 個步驟：特征的提取和回歸（或者分類），而基于 CNN 的方法則輸入是完整的圖片并對其進(jìn)行 end-to-end 的訓(xùn)練。無論是使用回歸還是密度圖，CNN 的方法都能取得較好的結(jié)果。最后，主干神經(jīng)網(wǎng)絡(luò)采用堆疊沙漏網(wǎng)絡(luò)（Stacked Hourglass Networks），該方法的優(yōu)勢是2 個網(wǎng)絡(luò)各司其職，可以更好地提取特征。

1.1 基于深度學(xué)習(xí)的人群密度估計方法

軌道交通場景具有背景復(fù)雜、相互遮擋、人群密集以及相機(jī)清晰度低等特點，目標(biāo)檢測和目標(biāo)跟蹤算法的性能無法滿足相關(guān)要求，而基于卷積神經(jīng)網(wǎng)絡(luò)的人群密度估計方法能夠從低清晰度的圖像中保持較高的精確度。該方法在計數(shù)的過程中加入了圖像的空間信息，從而學(xué)習(xí)圖像的局部特征和相應(yīng)的密度圖之間的映射。

圖像預(yù)處理主要對圖像進(jìn)行圖像降噪、尺度縮放和直方圖均衡化，對偏暗的場景可以采用逆向光線補(bǔ)償?shù)姆椒ㄟM(jìn)行處理；人群密度估計模型采用級聯(lián)神經(jīng)網(wǎng)絡(luò)，即移動網(wǎng)絡(luò)（Mobilenet）與堆疊沙漏網(wǎng)絡(luò)（Stacked Hourglass Networks）。

基于紋理分析技術(shù)的人群密度估計方法可以解決基于像素特征人群密度估計方法不能解決的問題（人群密度較高時估計的精確性）。圖1 是基于紋理分析技術(shù)的人群密度估計的結(jié)構(gòu)框架圖。其實現(xiàn)過程如下：首先，通過計算對輸入圖像的紋理進(jìn)行統(tǒng)計分析。其次，提取紋理特征。最后，通過機(jī)器學(xué)習(xí)對這些特征進(jìn)行分類，得到人群密度估計的結(jié)果。紋理分析方法通常分為4 類：統(tǒng)計的方法、基于結(jié)構(gòu)的方法、基于頻譜的方法以及基于模型的方法。一般來說，統(tǒng)計分析紋理描述方法是最常用的紋理分析方法，也是紋理分析研究最多、最早的方法。

圖1 紋理分析人群密度估計

1.2 模型訓(xùn)練

機(jī)器學(xué)習(xí)模型在訓(xùn)練過程中，由于存在數(shù)據(jù)有噪聲、正樣本不足或者模型過度復(fù)雜等因素，因此會導(dǎo)致模型過擬合，具體表現(xiàn)為模型在訓(xùn)練集上表現(xiàn)很好，但是在驗證集上的測試精度反而下降。其中，可以通過數(shù)據(jù)預(yù)處理技術(shù)優(yōu)化數(shù)據(jù)有噪聲（即數(shù)據(jù)質(zhì)量差）的問題；可以使用正則化和丟棄（Dropout）優(yōu)化模型過度復(fù)雜的問題，在卷積神經(jīng)網(wǎng)絡(luò)模型中常采用的正則化技術(shù)包括L1正則化、L2正則化。

1.2.1 正則化技術(shù)

機(jī)器學(xué)習(xí)的過程是通過修改參數(shù)來減小誤差的過程，可是誤差越小，非線性越強(qiáng)的參數(shù)變化越大，如果使用非線性強(qiáng)的參數(shù)就能使方程更加曲折，也能更好地擬合那些分布的樣本數(shù)據(jù)。因此，需要修正非線性強(qiáng)的參數(shù)，從而更好地刻畫模型的整體性能。在正樣本數(shù)量較少的情況下，通常采用正則化技術(shù)將有監(jiān)督學(xué)習(xí)轉(zhuǎn)變?yōu)閮?yōu)化問題?，F(xiàn)階段，深度學(xué)習(xí)常用的正則化技術(shù)包括L1正則化、L2正則化以及Dropout 操作等。

1.2.2 數(shù)據(jù)增廣技術(shù)

針對數(shù)據(jù)中正樣本少的情況，可以通過擴(kuò)增正樣本數(shù)據(jù)集來優(yōu)化模型過擬合的問題。目前，常用的方法為圖像仿射變換、圖像裁剪以及類別平衡等。

2 基于深層級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的人群密度估計

2.1 深層級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)相鄰層所有神經(jīng)元之間都有連接，稱為全連接（Fully-connected）。而卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）對全連接網(wǎng)絡(luò)的局限進(jìn)行修正，加入了卷積層（Convolution 層）和池化層（Pooling 層）。

表1 人群密度檢測結(jié)果

采用Mobilenet（1 種小巧而高效的卷積神經(jīng)網(wǎng)絡(luò)模型）作為前端網(wǎng)絡(luò)，由于該前端網(wǎng)絡(luò)主要負(fù)責(zé)利用注意力機(jī)制提取前景信息而忽略了背景信息，因此，該模型需要優(yōu)先保證速度。

2.2 堆疊沙漏網(wǎng)絡(luò)

后端網(wǎng)絡(luò)采用堆疊沙漏網(wǎng)絡(luò)（Stacked Hourglass Networks）作為網(wǎng)絡(luò)主架構(gòu)，其網(wǎng)絡(luò)結(jié)構(gòu)由高分辨率下采樣至低分辨率，再由低分辨率上采樣至高分辨率，整個網(wǎng)絡(luò)呈現(xiàn)沙漏形狀，并且在網(wǎng)絡(luò)中加入變形卷積來對圖像的變化進(jìn)行建模。該網(wǎng)絡(luò)在淺層和深層的特征之間有連接通道，可以很好地融合多個尺度特征信息，以應(yīng)對大小不同的目標(biāo)。

2.3 光流追蹤技術(shù)

由于人群具有明顯的運動特征，而背景往往不會在短時間內(nèi)突變。因此，在后端網(wǎng)絡(luò)中加入光流追蹤技術(shù)做為輔助。從物理意義的角度來看，光流描述了視頻中物體、對象在時間維度上的關(guān)聯(lián)性，從而建立了視頻中連續(xù)圖像之間的關(guān)聯(lián)關(guān)系。它是基于亮度恒定假設(shè)、時間持續(xù)性假設(shè)以及一般物體和人的移動在光流的表現(xiàn)上有所不同，因此，采用光流可以輔助預(yù)測2 幀圖像之間發(fā)生移動的是否為人群。

2.4 注意力機(jī)制

軌道交通車站（大規(guī)模公共空間）往往具有復(fù)雜的背景信息，為了盡可能排除無效區(qū)域?qū)λ惴ńY(jié)果造成的影響，需要采用注意力機(jī)制提取前景信息而忽略背景信息的方法。該文按照注意力關(guān)注的域劃分通道域（Channel Domain），從特征通道之間的關(guān)系入手，需要明確地建模特征通道之間的相互依賴關(guān)系。

該注意力機(jī)制分成3 個部分，擠壓（Squeeze），激勵（Excitation）以及范圍（Attention）。執(zhí)行流程如下：首先，對輸入特征進(jìn)行全局平均池化（Global AVE Pooling），得到 1×1×頻道。其次，經(jīng)過全連接操作，先壓縮頻道數(shù)，再重構(gòu)原來的頻道數(shù)。再次，經(jīng)過Sigmoid 激活函數(shù)生成頻道為0～1 的注意力權(quán)重（Attention Weights）。最后，對應(yīng)通道相乘輸出特征。

2.5 可變形卷積

在地鐵站臺（大范圍場景）應(yīng)用人群密度算法時，還面臨畫面中人的尺度變化范圍非常大的問題，采用可變性卷積的方法來適應(yīng)不同的感受野尺寸?？勺冃尉矸e是指卷積核在每個元素上額外增加了1 個方向參數(shù)，使卷積核的形態(tài)更貼近特征物?？勺冃尉矸e的學(xué)習(xí)過程的偏差是通過1 個卷積層獲得的，該卷積層的卷積核與普通卷積核一樣，輸出的偏差尺寸和輸入的特征圖尺寸一致，生成通道維度為2N，分別對應(yīng)原始輸出特征和偏移特征。采用雙線性插值反向傳播算法同時學(xué)習(xí)2 個卷積核。

2.6 高斯熱圖估計

在預(yù)測場景中每個人的位置時，傳統(tǒng)方案是采用全連接直接回歸坐標(biāo)點的方法，雖然該方法的訓(xùn)練和前向速度較快，但是對訓(xùn)練數(shù)據(jù)的依賴程度較高，非常容易出現(xiàn)過擬合的現(xiàn)象。

該文采用預(yù)測高斯熱圖的方式，用argmax 找出峰值對應(yīng)的索引，即坐標(biāo)點，這種方法的精度更高，原因是其輸出特征圖較大且空間泛化能力較強(qiáng)。在人群非常擁擠的低分辨率場景下，很難分辨每個人的位置，使用熱圖來表示人員分布的方式更加合理。

混合高斯背景模型就是將背景圖像中每個像素都定義K個高斯模型來表示該像素點在某段時間內(nèi)不同的狀態(tài)。假設(shè)Xt為某像素點在時刻t的顏色值，則其概率密度函數(shù)如公式（1）所示。

通過Vibe 算法和形態(tài)學(xué)處理前景圖像，可以很好地對不同密度等級的人群進(jìn)行密度估計，采用該方法的平均識別準(zhǔn)確率在97%以上，可以滿足正常視頻監(jiān)控對密度檢測的需要，但是在識別速讀上，還有進(jìn)一步提升的空間。

3 應(yīng)用在軌道交通場景的算法結(jié)果

采用軌道交通站臺監(jiān)控畫面采集的圖像測試算法除了可以給出畫面內(nèi)的人總數(shù)外，還可以把人員分布的熱力情況展示在圖上，可以對畫面近處和遠(yuǎn)處人的位置有比較合理的估計。

在這種情況下，人口密度可以分為低（0～15 人）、中低（15～30 人）、中（30～45 人）、高（45～60 人）和非常高的（60 人）。測試數(shù)據(jù)取自PETS2009 數(shù)據(jù)集，使用該數(shù)據(jù)集對5 個密度等級的SVM 參數(shù)進(jìn)行訓(xùn)練，然后選擇5 組測試參數(shù)，以獲得最終結(jié)果。

表2 基于該文所寫方法得到的人群密度檢測結(jié)果

以軌道交通站臺場景為例，利用人群密度估計算法可以得到多方面的數(shù)據(jù)。首先，可以用監(jiān)視畫面范圍內(nèi)的總?cè)藬?shù)除以該畫面的實際面積，從而得到人群密度值。其次，根據(jù)預(yù)先設(shè)定的閾值進(jìn)行擁擠度分檔，例如劃分為空曠、稀疏、正常、擁擠以及極度擁擠，更加直觀地展示站臺當(dāng)前的擁擠程度。最后，算法估計出人群的分布情況，可以統(tǒng)計不同劃分區(qū)域內(nèi)的人群密度值，分別統(tǒng)計站臺上每個車門前的人群密度值可以體現(xiàn)整個站臺上的客流分布情況。

綜合全站所有監(jiān)控相機(jī)分析的人群密度結(jié)果可以得到車站整體全景人群密度分布，可以直觀地看到站內(nèi)人員分布情況以及人員密度的實時變化情況。可以設(shè)定每個區(qū)域的人群密度閾值，當(dāng)局部或者整體人群密度超過閾值時自動報警。

4 結(jié)語

我國各城市的軌道交通正處于快速建設(shè)發(fā)展的時期，基于保障公共安全和提升乘客體驗的需求，亟需智能化的視頻監(jiān)控分析系統(tǒng)來輔助車站的安全運營和客流疏導(dǎo)，為管理者提供可靠的數(shù)據(jù)支持。以人群密度自動監(jiān)測和預(yù)警為代表的視頻圖像智能分析算法對構(gòu)建新一代智慧軌道交通具有重要意義。