• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      多元信息聚合的人群密度估計與計數(shù)

      2022-06-01 06:43:24劉光輝王秦蒙陳宣潤孟月波
      光學(xué)精密工程 2022年10期
      關(guān)鍵詞:密度估計空間信息步長

      劉光輝王秦蒙陳宣潤孟月波

      多元信息聚合的人群密度估計與計數(shù)

      劉光輝1*,王秦蒙1,陳宣潤1,2,孟月波1

      (1.西安建筑科技大學(xué) 信息與控制工程學(xué)院,陜西 西安 710055;2.中科星圖空間技術(shù)有限公司,陜西 西安 710199)

      人群密度估計與計數(shù)是指對擁擠場景中人群分布及數(shù)量進(jìn)行統(tǒng)計,對安全系統(tǒng)、交通控制等具有重要意義。針對高密度圖像在人群密度估計中特征提取困難、空間語義信息獲取較難、特征融合不充分等問題,本文提出一種多元信息聚合人群密度估計方法(Multivariate information aggregation,MIA)。首先,設(shè)計多元信息提取網(wǎng)絡(luò),采用VGG-19作為骨架網(wǎng)絡(luò)提高特征提取深度,利用多層語義監(jiān)督策略編碼低層特征方式提高低層特征的語義表達(dá),通過空間信息嵌入豐富高層特征空間信息表征;其次,設(shè)計多尺度上下文信息聚合網(wǎng)絡(luò),通過兩個帶有步長卷積的輕量級空洞空間金字塔池化(Simplify-atrous spatial pyramid pooling,S-ASPP)結(jié)構(gòu)在進(jìn)行全局多尺度上下文信息聚合的同時緩解模型參數(shù)冗余;最后,網(wǎng)絡(luò)末端采用步長卷積,在不影響精度的前提下加快網(wǎng)絡(luò)運行速度。采用ShanghaiTech、UCF-QNRF、NWPU數(shù)據(jù)集進(jìn)行對比實驗,實驗結(jié)果表明:在典型數(shù)據(jù)集ShanghaiTech的Part_A部分上的MAE、MSE分別為59.4、96.2,Part_B部分分別為7.7、11.9;超高密度多視角場景數(shù)據(jù)集UCF-QNRF的MAE為89.3,MSE為164.5;NWPU數(shù)據(jù)集的MAE為87.9,MSE為417.2。本文方法較對比方法性能有一定提升,且實際場景應(yīng)用結(jié)果驗證了本文方法效果較好。

      人群密度估計;語義監(jiān)督;空間信息嵌入;信息聚合;步長卷積

      1 引 言

      隨著我國人口的快速增長和城市化進(jìn)程加快,大型人群聚集活動日益增多,這同時也帶來了諸如人員擁擠導(dǎo)致踩踏事故、上班高峰交通調(diào)度壓力等各種問題。因此,人群密度估計與計數(shù)已經(jīng)成為公共安全領(lǐng)域的一個重要研究課題[1]。

      目前,圖像人群計數(shù)方法可分為基于檢測的方法[2-3]和基于回歸的方法[4-5]?;跈z測的方法主要通過類似滑動窗口探測器檢測圖像中人員全身或者諸如臉、頭等局部位置實現(xiàn)人群的計數(shù),但隨著圖像中人員數(shù)量及遮擋現(xiàn)象的逐步加劇,檢測效果明顯下降[6-7]?;诨貧w的方法通過學(xué)習(xí)圖像特征到人群數(shù)量之間的映射關(guān)系建立回歸模型,預(yù)測人群數(shù)量[8]。進(jìn)一步劃分,可分為傳統(tǒng)回歸方法與深度學(xué)習(xí)回歸方法。傳統(tǒng)回歸方法僅采用整體圖像特征,導(dǎo)致圖像空間和語義信息缺失,特征提取能力弱,無法滿足密度逐漸增長的計數(shù)任務(wù)對精度的要求[9]。

      近年來,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)憑借出色的深層特征獲取能力,在計算機(jī)視覺領(lǐng)域發(fā)展迅速[10-11],研究人員也將其應(yīng)用于人群計數(shù)領(lǐng)域,并取得了較好的效果[12-13]。2015年,Wang等[14]首次提出適用于高密度人群的端到端CNN回歸模型,但所提模型未考慮人群規(guī)模的變化,無法兼顧高低密度人群,導(dǎo)致在將該模型部署于新場景中時,計數(shù)精度明顯下降。Zhang等[15]對算法模型跨場景使用時性能大幅度下降問題進(jìn)行了研究,提出了一種多列結(jié)構(gòu)人群計數(shù)網(wǎng)絡(luò),通過多列CNN結(jié)構(gòu),利用不同大小感受野并行提取行人多尺度信息,從而提高計數(shù)的準(zhǔn)確性;在此基礎(chǔ)上,MCNN[16]、Switching CNN[17]、MSCNN[18]等多列結(jié)構(gòu)相繼被提出,然而,由于多列結(jié)構(gòu)每一列具有相似的學(xué)習(xí)功能,使其存在結(jié)構(gòu)冗余現(xiàn)象,造成尺度信息提取效率及精度不盡人意。相較于多列結(jié)構(gòu),文獻(xiàn)[19-22]提出利用單列結(jié)構(gòu)獲取圖像特征的方法,在保證精度的同時提升網(wǎng)絡(luò)的運算速度;但單列結(jié)構(gòu)對空間信息和深層特征提取能力相對較弱,不能很好地適應(yīng)視角變化帶來的空間信息丟失以及遮擋帶來的語義信息不足的問題,導(dǎo)致其在高密、多視角的人群場景下檢測效果不穩(wěn)定。

      信息聚合是解決視角變化與遮擋問題的有效途徑。文獻(xiàn)[20]利用上下文空間金字塔對圖像的局部和整體進(jìn)行信息聚合,將全局上下文信息引入特征圖中,提升密度圖生成質(zhì)量;但該方法并不能有效處理人數(shù)分布變化及圖像特征信息丟失問題。Liu等[21]提出可感知尺度上下文網(wǎng)絡(luò)(Context-Aware Network, CAN),通過聚合從多個不同大小感受野中提取的特征,獲取了豐富的空間位置信息;但其特征提取能力及特征融合效率較低,應(yīng)用于較密場景時效果不佳。文獻(xiàn)[22]將主干網(wǎng)絡(luò)的高低層特征直接融合,輔以通道注意力模塊優(yōu)化特征融合過程,利用空洞卷積擴(kuò)大感受野、回歸密度圖;有效解決了透視導(dǎo)致的尺度多樣性問題,但在特征融合時未考慮高低層特征之間的語義差距,精度仍有進(jìn)一步提升的空間。文獻(xiàn)[23]利用從“上-左-右-下”方向?qū)σ暯亲兓M(jìn)行信息編碼,通過遞進(jìn)聚合方式捕獲深層次全局上下文信息,同步提取多維度視角的尺度關(guān)系特征;在有效地解決視角問題的同時取得了較高的精度,但過于冗余的網(wǎng)絡(luò)結(jié)構(gòu)造成模型復(fù)雜度上升,網(wǎng)絡(luò)運行速度減慢。

      基于上述分析,本文提出了一種多元信息聚合的人群密度估計方法(Multivariate information aggregation,MIA)。首先,在特征提取部分,采用VGG-19作為骨架網(wǎng)絡(luò)提取初始特征,利用多層語義監(jiān)督策略提升低層特征質(zhì)量,采用空間信息嵌入策略優(yōu)化高層特征空間表征能力。其次,在信息聚合部分,設(shè)計雙步長卷積輕量空洞空間金字塔池化結(jié)構(gòu)(Simplify-atrous spatial pyramid pooling,S-ASPP)增大網(wǎng)絡(luò)感受野,捕獲豐富的上下文關(guān)系,利用逐點卷積與具有不同擴(kuò)張率的步長卷積在保留ASPP特征聚合能力的同時降低網(wǎng)絡(luò)冗余。最后,網(wǎng)絡(luò)末端采用步長卷積進(jìn)行上采樣回歸密度圖,在保證精度的同時降低計算量。

      2 多元信息聚合人群密度估計與計數(shù)

      高效多語義空間信息聚合人群密度估計網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,包括多元信息提?。∕ultivariate information extraction,MIE)部分、多尺度上下文信息聚合(Multi-scale context information aggregation,MCIA)部分及密度圖回歸部分。多元信息提取部分用于高低層特征的優(yōu)化;多尺度上下文信息聚合部分用于豐富感受野,實現(xiàn)高低層特征的有效融合。

      圖1 高效多語義空間信息聚合人群密度估計網(wǎng)絡(luò)結(jié)構(gòu)

      2.1 多元信息提取網(wǎng)絡(luò)

      通常,低層特征含有豐富的空間細(xì)節(jié)但缺乏語義信息,高層特征含有豐富的語義信息但缺乏空間信息。將高低層特征進(jìn)行直接融合是獲得空間、語義信息全面性表達(dá)的常用手段。然而,這種直接融合的方式忽略了高低層特征之間語義層次和空間層次的差異,融合效果不佳,特征利用率較低。文獻(xiàn)[24]證明,通過將更多語義信息引入低層特征或?qū)⒏嗫臻g信息嵌入高層特征可有效增強(qiáng)特征融合效果?;诖?,本文提出一個如圖2所示的高效多語義特征提取網(wǎng)絡(luò),用于強(qiáng)化高低層特征,為后續(xù)特征融合奠定基礎(chǔ)。主要包括三部分:骨架網(wǎng)絡(luò)VGG-19、多層語義監(jiān)督策略(Multi Semantic Supervision,MSS)與空間信息嵌入策略(Spatial Embedding,SE)。

      圖2 高效多語義特征提取網(wǎng)絡(luò)

      VGG-16網(wǎng)絡(luò)架構(gòu)對大部分物體檢測提供了較為合適的感受野且易于捕獲細(xì)節(jié)信息,是目前人群密度估計常用骨架網(wǎng)絡(luò)之一。但對于高密度圖像,VGG-16細(xì)節(jié)特征挖掘能力略顯不足。因此,本文選擇與VGG-16網(wǎng)絡(luò)結(jié)構(gòu)類似但有著更深網(wǎng)絡(luò)層數(shù)的VGG-19網(wǎng)絡(luò)獲取更優(yōu)的初始特征。實驗證明,去除VGG-19網(wǎng)絡(luò)全連接層對人群計數(shù)精度影響不大,且可有效降低網(wǎng)絡(luò)參數(shù),故本文采用去除全連接層的VGG-19作為骨架網(wǎng)絡(luò),在獲取深層特征的同時緩解網(wǎng)絡(luò)冗余。

      低層特征含有較多的位置、細(xì)節(jié)信息,但語義性低、噪聲較多。針對此問題,本文提出如圖2所示的多層語義監(jiān)督策略MSS處理低層特征,設(shè)計三個語義監(jiān)督模塊(Semantic Supervision,SS)附著在VGG-19骨干網(wǎng)絡(luò)的第2、4、6層,實現(xiàn)對骨干網(wǎng)絡(luò)低層特征的優(yōu)化。MSS和SE執(zhí)行結(jié)果如圖3所示,將圖1中的示意圖像作為輸入,以其第2層特征圖為例,說明SS模塊的執(zhí)行過程。首先通過一個3×3卷積和一個1×1卷積細(xì)化特征圖輸出,輸出的特征圖分別如圖3(c)、3(d)所示,降低特征映射維數(shù),增強(qiáng)特征細(xì)節(jié)表達(dá);之后通過一個全局平均池化降低參數(shù)量,整合全局空間信息,形成語義邊界約束,降低噪聲干擾,生成帶有部分語義信息的高質(zhì)量低層特征。對其他層采取相似操作,組合各層輸出,形成最終富含語義信息的高質(zhì)量低層特征。

      圖3 MSS與SE執(zhí)行結(jié)果

      隨著卷積層數(shù)加深,網(wǎng)絡(luò)在獲取富含語義信息的高層特征的同時也損失了較多的空間信息。如本文使用的VGG-19網(wǎng)絡(luò)在第13層時特征圖尺寸僅為輸入圖像的1/16。融合低層特征是為高層特征補(bǔ)充空間信息的有效途徑之一,但直接融合的方式會因為特征圖空間分辨率重疊度低帶來部分語義信息損失。因此,為強(qiáng)化高層特征的空間表征能力,本文提出如圖2中所示的空間信息嵌入策略SE。通過對VGG-19第13層特征采用雙線性插值上采樣,如圖3(f)所示,將通道尺寸縮放至與第6層相同維度,進(jìn)而將第6層特征與上采樣后的特征逐元素相乘,優(yōu)化特征融合方式,為高層特征補(bǔ)充空間信息的同時緩解因融合帶來的語義信息損失,獲取強(qiáng)化高層特征(High-level feature)。

      2.2 全局多尺度上下文信息聚合網(wǎng)絡(luò)

      捕捉豐富的上下文關(guān)系有助于網(wǎng)絡(luò)對復(fù)雜場景的理解,是緩解人群密度估計中視角多變、遮擋以及尺度變換問題的有效途徑。但在高密人群圖像中,隨著目標(biāo)數(shù)量的增多,圖像之間關(guān)聯(lián)劇增,上下文信息在提升回歸精度的同時,也無法避免地增加了模型計算量,制約了算法的實際應(yīng)用部署與落地。因此,如何高效聚合多尺度上下文信息是實現(xiàn)高密人群密度估計的核心。本文提出如圖4所示全局多尺度上下文信息聚合網(wǎng)絡(luò),通過兩個輕量級空洞空間金字塔池化(Simplify-atrous spatial pyramid pooling,S-ASPP)模塊逐級漸進(jìn)捕獲并融合低、高層特征不同尺度的上下文信息,在保證有限計算成本的前提下增強(qiáng)特征的全局性表達(dá)。為方便表述,將兩個S-ASPP模塊分別記作S1-ASPP、S2-ASPP。

      圖4 全局多尺度上下文信息聚合網(wǎng)絡(luò)

      221S-ASPP模塊

      文獻(xiàn)[25]提出空洞空間金字塔池化(Atrous spatial pyramid pooling,ASPP)思想,通過不同采樣率的空洞卷積對特征圖并行采樣,擴(kuò)張感受野,獲取不同尺度的上下文信息。但ASPP在特征映射過程中信道占比較大,造成計算量高,模型冗余?;诖?,本文設(shè)計輕量化空洞空間金字塔池化S-ASPP結(jié)構(gòu),以S1-ASPP為例:首先通過4個核大小為1的逐點卷積層,對多元信息提取網(wǎng)絡(luò)得到的高層特征進(jìn)行通道降維,執(zhí)行信道信息交互;其次,采用類Inception結(jié)構(gòu),采用步長卷積(章節(jié)2.2.2予以詳述)減小模型冗余,以1、6、12、18擴(kuò)張率方式豐富特征圖感受野,捕獲更多上下文信息;最后,對處理后的特征圖進(jìn)行融合操作,增強(qiáng)特征的全局性表達(dá)。

      222步長卷積

      空洞卷積(Atrous Convolution)是常用的上采樣方法之一,常規(guī)空洞卷積計算復(fù)雜度與計算代價較大。本文采用一種改進(jìn)的空洞卷積,簡化空洞卷積計算步驟,降低運行步長,其可被稱作“步長卷積”。本文對具有同等空洞率的空洞卷積與步長卷積進(jìn)行對比分析,驗證步長卷積在卷積運算上的優(yōu)勢。

      空洞卷積(以空洞率為2舉例)在計算的過程中可以分為圖5中所示的三步,圖1中的示意圖像執(zhí)行空洞卷積操作的結(jié)果如圖6所示。

      圖5 空洞率為2的空洞卷積計算過程圖

      圖6 空洞率為2的空洞卷積執(zhí)行結(jié)果

      圖7 步長卷積計算過程

      步長卷積計算過程等效于如圖7中兩步:

      由上述步驟描述可知,步長卷積相較于常規(guī)空洞卷積有著參數(shù)量少的優(yōu)點,且步長卷積在此過程中并未因參數(shù)量降低而影響密度圖輸出質(zhì)量,只是等效的簡化了空洞卷積的計算過程,因此在S-ASPP模塊中使用步長卷積進(jìn)行上采樣操作,有效緩解了網(wǎng)絡(luò)的冗余。

      在網(wǎng)絡(luò)末端進(jìn)行密度圖回歸時,也需要進(jìn)行上采樣操作回歸密度圖,為進(jìn)一步降低網(wǎng)絡(luò)冗余,本文使用步長卷積執(zhí)行密度圖回歸中的上采樣任務(wù)。因方法一致,此處不再進(jìn)行贅述。

      3 實驗結(jié)果與分析

      本文及對比算法實驗均在Ubuntu系統(tǒng)下進(jìn)行,GPU型號為GTX2080Ti,實驗軟件環(huán)境配置為CUDA10.2+anaconda3.7+Python3.7+pytorch1.8。本文算法所有層均使用標(biāo)準(zhǔn)差為0.01的高斯分布初始化,網(wǎng)絡(luò)初始訓(xùn)練學(xué)習(xí)率為104,迭代次數(shù)為1 200。

      3.1 評價指標(biāo)

      人群密度估計領(lǐng)域的大部分研究均采用平均絕對誤差(Mean Absolute Error,MAE)和均方誤差(Mean Square Error,MSE)作為評價指標(biāo)。為了能夠較好地進(jìn)行實驗對比分析,本文也使用平均絕對誤差和均方誤差作為評價指標(biāo)。

      MAE反映網(wǎng)絡(luò)預(yù)測人數(shù)與圖像真值人數(shù)之間的誤差,MSE描述網(wǎng)絡(luò)預(yù)測人數(shù)與圖像真值人數(shù)之間的差異程度,其定義分別為:

      3.2 ShanghaiTech數(shù)據(jù)集實驗與分析

      ShanghaiTech數(shù)據(jù)集[16]是人群密度估計與計數(shù)領(lǐng)域的典型數(shù)據(jù)集,包含1 198幅圖像,共計330 165個已標(biāo)記人頭。數(shù)據(jù)集共分為兩部分,Part_A和Part_B。Part_A包含482幅圖像,來源于互聯(lián)網(wǎng);Part_B包含716幅圖像,來源于上海的街道,含有較多稀疏人群場景。本文將Part_A的300幅和Part_B的400幅圖像用于訓(xùn)練,其余用于測試。ShanghaiTech數(shù)據(jù)集單幅圖像實驗結(jié)果如圖8所示,多算法性能指標(biāo)結(jié)果對比如表1所示。

      由ShanghaiTech數(shù)據(jù)集實驗結(jié)果可知,在Part_A中,本文算法MAE與文獻(xiàn)[21]方法相比下降了2.9,MSE下降了3.8;在Part_B部分,與文獻(xiàn)[21]方法相比,MAE下降了0.1,MSE下降了0.3,提升幅度較Part_A小。這主要由于本文多元信息提取方法側(cè)重提升高密場景特征捕獲能力,故在以密集人群為主的Part_A部分效果較好,而在以稀疏人群為主的Part_B部分檢測精度雖有所提升,但提升幅度略小。

      圖8 ShanghaiTech數(shù)據(jù)集實驗結(jié)果

      表1ShanghaiTech數(shù)據(jù)集多算法性能指標(biāo)結(jié)果對比

      Tab.1 Comparison of performance index results of multiple algorithm on ShanghaiTech

      3.3 UCF-QNRF數(shù)據(jù)集實驗與分析

      近年來,人們越來越關(guān)注高密度場景的計數(shù)性能,用于超高密度場景計數(shù)性能評價的數(shù)據(jù)集UCF-QNRF[27]隨之被提出。UCF-QNRF數(shù)據(jù)集拍攝于真實場景,包含建筑、植被、天空和道路等多樣化背景,同時具有視角、密度、光照變化多樣的特點。UCF-QNRF數(shù)據(jù)集包含1 535張圖像,本文將其中1 201張用于訓(xùn)練和334張用于測試。UCF-QNRF數(shù)據(jù)集單幅圖像實驗結(jié)果如圖9所示,多算法性能指標(biāo)結(jié)果對比如表2所示。

      由實驗結(jié)果可知,在UCF-QNRF數(shù)據(jù)集中,本文所提方法與文獻(xiàn)[28]方法相比,MAE降低12.7、MSE降低6.9,相較于其他算法均有提升。此外,UCF-QNRF數(shù)據(jù)集包含多元場景,導(dǎo)致視角、密度、光照變化多樣,而實驗結(jié)果表明,本文所提信息聚合方法能有效緩解上述因素帶來的影響,對多元復(fù)雜場景具有較好的魯棒性。

      圖9 UCF-QNRF數(shù)據(jù)集實驗結(jié)果

      表2UCF-QNRF數(shù)據(jù)集多算法性能指標(biāo)結(jié)果對比

      Tab.2 Comparison of performance index results of multiple algorithms in UCF-QNRF

      3.4 NWPU數(shù)據(jù)集實驗與分析

      NWPU數(shù)據(jù)集[29]是由Wang等人公開,目前為止在人群密度估計領(lǐng)域數(shù)據(jù)量最大、密度等級最高的數(shù)據(jù)集,擁有5 109張圖片和2 133 238個標(biāo)注實體;內(nèi)含部分負(fù)樣本,比如極高密度的人群,這樣可以提高訓(xùn)練模型的魯棒性;圖片的分辨率相比其他數(shù)據(jù)集更高,且單張圖片的標(biāo)注實體數(shù)量范圍非常大,區(qū)間是[0,200 33]。本文將NWPU的4 100張圖片用于進(jìn)行訓(xùn)練,其余用于測試。NWPU數(shù)據(jù)集單幅圖像實驗結(jié)果如圖10所示,多算法性能指標(biāo)結(jié)果對比如表3所示。

      由表3可知,本文方法較對比方法均有一定提升。與文獻(xiàn)[23]方法相比,本文方法在Val驗證集下的MAE降低1.4、MSE降低14.0,Test測試集下的MAE降低1.8、MSE降低14.7。驗證了本文方法對NWPU數(shù)據(jù)集中密度等級較高的場景保持有較好的檢測能力,且對于NWPU數(shù)據(jù)集中較高分辨率圖像同時具有穩(wěn)定的檢測效果,表明本文算法在高密、高分辨率數(shù)據(jù)下具有良好魯棒性。

      圖10 NWPU數(shù)據(jù)集實驗結(jié)果

      表3NWPU數(shù)據(jù)集多算法性能指標(biāo)結(jié)果對比

      Tab.3 Comparison of performance index results of multiple algorithms in the NWPU

      3.5 消融實驗與速度對比分析

      本文在人群密集程度較高、數(shù)據(jù)量較大、代表性強(qiáng)的NWPU數(shù)據(jù)集上進(jìn)行MIE消融實驗、MCIA消融實驗、模型大小與算法速度對比實驗。

      通過不采用MIE、單獨采用多層語義監(jiān)督策略MSS、單獨采用空間信息嵌入策略SE、同時采用兩種策略這四個實驗,驗證MIE及其各模塊的有效性,實驗結(jié)果如表4所示??梢钥闯觯捎枚鄬诱Z義監(jiān)督策略MSS,Val驗證集MAE、MSE分別降低1.7、12.9,Test測試集MAE、MSE分別降低2.4、15.1,驗證了多層語義監(jiān)督策略的有效性;采用空間信息嵌入策略SE,Val驗證集MAE、MSE分別降低1.2、11.0,Test測試集MAE、MSE分別降低0.6、11.4,驗證了空間信息嵌入策略的有效性;同時采用MSS、SE策略,Val驗證集MAE、MSE分別降低了4.0、44,Test測試集MAE、MSE分別降低9.1、52.3,計數(shù)精度提升幅度明顯,說明多層語義監(jiān)督策略、空間信息嵌入策略從不同角度提高了特征的表達(dá)能力,證明了本文多元信息提取網(wǎng)絡(luò)MIE的有效性。

      表4MIE消融實驗結(jié)果

      Tab.4 Ablation results of MIE

      令S-ASPP模塊分別采用步長卷積、同等擴(kuò)張率的空洞卷積,通過對比算法精度、速度的差異,驗證多尺度上下文信息聚合MCIA與步長卷積的有效性;同時,從訓(xùn)練模型參數(shù)量大小、模型運行速度兩方面與先進(jìn)算法進(jìn)行對比實驗,驗證本文算法在速度上的優(yōu)勢,實驗結(jié)果如表5所示。

      表5MCIA消融實驗、模型大小與算法速度實驗結(jié)果

      Tab.5 Results of MCIA ablation experiment, model size and algorithm speed

      本文在表5后三行分析對比了空洞卷積、步長卷積及步長卷積單S-ASPP模塊三種不同情況嵌入至MCIA的精度與模型復(fù)雜度差異,由“Ours(空洞卷積)”與“Ours(步長卷積)”兩種情況的對比結(jié)果可知,相比空洞卷積,使用步長卷積后MAE和MSE變化不大,但模型大小降低了約48.0%,運行速度增加了24%,驗證了步長卷積在降低算法冗余上的優(yōu)勢;由“Ours (步長卷積)”與“Ours (步長卷積單S-ASPP)”兩種情況的對比結(jié)果可知,可以發(fā)現(xiàn),通過增加一個S-ASPP模塊,算法MAE和MSE下降程度明顯,模型大小上升幅度較小,驗證了雙S-ASPP結(jié)構(gòu)的有效性,證明了本文MCIA特征聚合方法的優(yōu)勢。

      由表5總體可知,MCNN模型采用了多列結(jié)構(gòu),導(dǎo)致模型參數(shù)量高,運行速度較慢。相較而言,采用單列結(jié)構(gòu)的CSRNet網(wǎng)絡(luò),結(jié)構(gòu)簡單,運行速度較快。文獻(xiàn)[23]所提的HLMMNet雖然也是單列結(jié)構(gòu),但其信息聚合的方式在提升網(wǎng)絡(luò)精度的同時也帶來了模型的冗余。相比之下,本文方法在信息聚合部分采取更加高效輕量的步長卷積,有效降低了特征聚合時帶來的冗余參數(shù),且采用雙S-ASPP結(jié)構(gòu),在速度與精度上均取得了較好的結(jié)果。

      進(jìn)一步地,以圖1中的示意圖像為輸入圖像,分析圖11所示S1-ASPP、S2-ASPP捕獲到的多尺度特征,驗證全局多尺度上下文信息聚合網(wǎng)絡(luò)MCIA逐級漸進(jìn)捕獲并融合低、高層特征不同尺度上下文信息的有效性。

      圖11 S1-ASPP、S2-ASPP捕獲到的多尺度特征

      圖11中,1、2、3、4為S1-ASPP獲得的具有不同感受野的特征圖,5為融合1至4得到高層特征圖;1、2、3、4為S2-ASPP各層級輸出結(jié)果,5為融合C1至C4得到特征圖,獲取過程與S1-ASPP類似??梢钥闯?,S1-ASPP、S2-ASPP通過多擴(kuò)張率方式豐富了感受野,獲得了更多的上下文信息;S1-ASPP各級特征更關(guān)注圖像整體的變化,偏重深層語義信息的挖掘,S2-ASPP各級特征則更側(cè)重圖像局部細(xì)節(jié)的表征,對空間位置信息較為敏感。融合特征5、5,得到的特征圖包含豐富的全局多尺度上下文信息,可提升算法對人群密度的估計能力。

      3.6 實際應(yīng)用實驗

      人群密度估計與計數(shù)在公共安全領(lǐng)域有著極大的應(yīng)用價值,對于突發(fā)性聚集活動,如非法抗議、節(jié)日活動、疫情防控、車站人流控制等場景發(fā)揮著巨大的作用,為驗證本文算法的泛化能力與實際應(yīng)用效果,本文對現(xiàn)實生活中實際聚集性場景進(jìn)行實驗與分析,實驗結(jié)果如圖12和圖13所示。

      由圖12可知,本文算法在密度區(qū)域劃分及人數(shù)統(tǒng)計方面均表現(xiàn)優(yōu)異,且對于不同的拍攝高度、角度均效果穩(wěn)定。在此類異常聚集活動中,人數(shù)及密度區(qū)域準(zhǔn)確高效檢測可為維護(hù)公共安全提供有力的數(shù)據(jù)支撐,為快速高效的應(yīng)急處理提供助力。

      由圖13可知,本文算法對不同密度區(qū)域的大型活動場景保持較好的穩(wěn)定性,同時,可利用人群計數(shù)結(jié)果,為會場高效分配資源。并且,通過密度圖人群分布結(jié)果可較好的反映出相應(yīng)的隊列整齊程度,為大型表演的彩排提供助力。

      圖12 高密聚集場景檢測結(jié)果

      圖13 大型活動場景檢測結(jié)果

      4 結(jié) 論

      針對人群密度較高且有大量的背景干擾、多語義空間信息及人群特征提取困難的問題,本文設(shè)計多元信息聚合的人群密度估計方法,以VGG-19作為骨架網(wǎng)絡(luò),利用多層語義監(jiān)督策略及空間信息嵌入策略提升高低層特征質(zhì)量;而后,設(shè)計雙S-ASPP結(jié)構(gòu)捕獲全局多尺度上下文信息;最終,在網(wǎng)絡(luò)后端使用步長卷積進(jìn)行密度圖回歸,進(jìn)一步減少網(wǎng)絡(luò)參數(shù),提升網(wǎng)絡(luò)運行速度。實驗結(jié)果證明:典型數(shù)據(jù)集ShanghaiTech的Part_A部分MAE為59.4,MSE為96.2;Part_B部分MAE為7.7,MSE為11.9。超高密度多視角場景數(shù)據(jù)集UCF-QNRF的MAE為89.3,MSE為164.5。高密度等級數(shù)據(jù)集NWPU的MAE為87.9,MSE為417.2。此外,本文在現(xiàn)實場景中進(jìn)行了實際應(yīng)用實驗,算法穩(wěn)定性良好。實驗結(jié)果表明,本文模型在不同人群場景、視角、密度等級下都具有較好的性能,泛化能力較強(qiáng)。

      [1] LI X, CHEN M, NIE F,. A multiview-based parameterfree framework for group detection[C].49,2017,,.2017:4147-4153

      [2] LIN S F, CHEN J Y, CHAO H X. Estimation of number of people in crowded scenes using perspective transformation[J].,,:, 2001, 31(6): 645-654.

      [3] ZHAO T, NEVATIA R, WU B. Segmentation and tracking of multiple humans in crowded environments[J]., 2008, 30(7): 1198-1211.

      [4] VIOLA P, JONES M J, SNOW D. Detecting pedestrians using patterns of motion and appearance[J]., 2005, 63(2): 153-161.

      [5] KILAMBI P, RIBNICK E, JOSHI A J,. Estimating pedestrian counts in groups[J]., 2008, 110(1): 43-59.

      [6] 左靜,巴玉林. 基于多尺度融合的深度人群計數(shù)算法[J]. 激光與光電子學(xué)進(jìn)展, 2020, 57(24): 241502.

      ZUO J, BA Y L. Population-depth counting algorithm based on multiscale fusion[J]., 2020, 57(24): 241502.(in Chinese)

      [7] 趙建敏,李雪冬,李寶山. 基于無人機(jī)圖像的羊群密集計數(shù)算法研究[J]. 激光與光電子學(xué)進(jìn)展, 2021, 58(22): 2210013.

      ZHAO J M, LI X D, LI B S. Algorithm of sheep dense counting based on unmanned aerial vehicle images[J]., 2021, 58(22): 2210013.(in Chinese)

      [8] IDREES H, TAYYAB M, ATHREY K,. Composition loss for counting, density map estimation and localization in dense crowds[C].()814,,.2018: 532-546.

      [9] RODRIGUEZ M, LAPTEV I, SIVIC J,. Density-aware person detection and tracking in crowds[C]. 2011613,2011,,IEEE, 2011: 2423-2430.

      [10] 慕曉冬,白坤,尤軒昂,等. 基于對比學(xué)習(xí)方法的遙感影像特征提取與分類[J]. 光學(xué)精密工程, 2021, 29(9): 2222-2234.

      MU X D, BAI K, YOU X A,. Remote sensing image feature extraction and classification based on contrastive learning method[J]., 2021, 29(9): 2222-2234.(in Chinese)

      [11] 周濤,霍兵強(qiáng),陸惠玲,等. 融合多尺度圖像的密集神經(jīng)網(wǎng)絡(luò)肺部腫瘤識別算法[J]. 光學(xué)精密工程, 2021, 29(7): 1695-1708.

      ZHOU T, HUO B Q, LU H L,. Lung tumor image recognition algorithm with densenet fusion multi-scale images[J]., 2021, 29(7): 1695-1708.(in Chinese)

      [12] REN S Q, HE K M, GIRSHICK R,. Faster R-CNN: towards real-time object detection with region proposal networks[J]., 2017, 39(6): 1137-1149.

      [13] 常亮,鄧小明,周明全,等. 圖像理解中的卷積神經(jīng)網(wǎng)絡(luò)[J]. 自動化學(xué)報, 2016, 42(9): 1300-1312.

      CHANG L, DENG X M, ZHOU M Q,. Convolutional neural networks in image understanding[J]., 2016, 42(9): 1300-1312.(in Chinese)

      [14] WANG C, ZHANG H, YANG L,. Deep people counting in extremely dense crowds[C].23,,:, 2015: 1299-1302.

      [15] ZHANG C, LI H S, WANG X G,. Cross-scene crowd counting via deep convolutional neural networks[C]. 2015712,2015,,IEEE, 2015: 833-841.

      [16] ZHANG Y Y, ZHOU D S, CHEN S Q,. Single-image crowd counting via multi-column convolutional neural network[C]. 20162730,2016,,,IEEE, 2016: 589-597.

      [17] SAM D B, SURYA S, BABU R V. Switching convolutional neural network for crowd counting[C]. 20172126,2017,,,. IEEE, 2017: 4031-4039.

      [18] ZENG L K, XU X M, CAI B L,. Multi-scale convolutional neural networks for crowd counting[C]. 20171720,2017,,IEEE, 2017: 465-469.

      [19] LI Y H, ZHANG X F, CHEN D M. CSRNet: dilated convolutional neural networks for understanding the highly congested scenes[C].20181823,2018,,,IEEE, 2018: 1091-1100.

      [20] SINDAGI V A, PATEL V M. CNN-Based cascaded multi-task learning of high-level prior and density estimation for crowd counting[C]. 201714291,2017,,IEEE, 2017: 1-6.

      [21] LIU W Z, SALZMANN M, FUA P. Context-aware crowd counting[C]. 2019()1520,2019,,,IEEE, 2019: 5094-5103.

      [22] 張宇倩,李國輝,雷軍,等. FF-CAM:基于通道注意機(jī)制前后端融合的人群計數(shù)[J]. 計算機(jī)學(xué)報, 2021, 44(2): 304-317.

      ZHANG Y Q, LI G H, LEI J,. FF-CAM: crowd counting based on frontend-backend fusion through channel-attention mechanism[J]., 2021, 44(2): 304-317.(in Chinese)

      [23] 孟月波,陳宣潤,劉光輝,等. 高低密度多維視角多元信息融合人群計數(shù)方法[J/OL]. 控制與決策:1-10[2022-01-16].DOI:10.13195/j.kzyjc. 2021.0520.

      MENG Y B, CHEN X R, LIU G H,. High and low density multi-dimension perspective multivariate information fusion crowd counting method[J/OL].: 1-10[2022-01-16].DOI:10.13195/j.kzyjc.2021.0520.(in Chinese)

      [24] ZHANG Z L, ZHANG X Y, PENG C,.:[C].().2018: 269-284.

      [25] CHEN L C, PAPANDREOU G, KOKKINOS I,. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]., 2018, 40(4): 834-848.

      [26] OH M H, OLSEN P, RAMAMURTHY K N. Crowd counting with decomposed uncertainty[J]., 2020, 34(7): 11799-11806.

      [27] HAROON I, MUHMMAD T, KISHAN A,. Composition Loss for Counting, Density Map Estimation and Localization in Dense Crowds[C].(),814,,, 2018:532-546.

      [28] WANG Q, GAO J Y, LIN W,. Learning from synthetic data for crowd counting in the wild[C]. 2019()1520,2019,,,IEEE, 2019: 8190-8199.

      [29] WANG Q, GAO J Y, LIN W,. NWPU-crowd: a large-scale benchmark for crowd counting and localization[J]., 2021, 43(6): 2141-2149.

      [30] MA Z H, WEI X, HONG X P,. Bayesian loss for crowd count estimation with point supervision[C]. 2019()272,2019,,()IEEE, 2019: 6141-6150.

      A multivariate information aggregation method for crowd density estimation and counting

      LIU Guanghui1*,WANG Qinmeng1,CHEN Xuanrun1,2,MENG Yuebo1

      (1,,710055,;2,,710199,),:163

      In crowd density estimation, the crowd distribution and quantity in a crowded scene are counted, which is vital to safety systems and traffic control. A multivariate information aggregation method is proposed herein to solve difficult feature extractions, difficult spatial semantic information acquisitions, and insufficient feature fusions in the crowd density estimation of high-density images. First, a multi-information extraction network is designed, where VGG-19 is used as a skeleton network to enhance the depth of feature extraction, and a multilayer semantic surveillance strategy is adopted to encode low-level features to improve the semantic representation of low-level features. Second, a multiscale contextual information aggregation network is designed based on spatial information embedded into the high-level feature space, and two lightweight spatial pyramiding structures with step-size convolution are applied to reduce the redundancy of model parameters during global multiscale context information aggregation. Finally, step convolution is performed at the end of the network to accelerate the network operation without affecting the precision. The ShanghaiTech, UCF-QNRF, and NWPU datasets are applied for a comparison experiment. The experimental results demonstrate that the MAE and MSE of Part_A of the ShanghaiTech dataset are 59.4 and 96.2, respectively, whereas those of Part_B are 7.7 and 11.9, respectively. The ultradense multiview-scene UCF-QNRF dataset indicates an MAE and MSE of 89.3 and 164.5, respectively. The high-density NWPU dataset indicates an MAE and MSE of 87.9 and 417.2, respectively. The proposed method performs better than the comparison method, as indicated by actual application results.

      crowd density estimation; semantic supervision; spatial embedding; information aggregation; step-size convolution

      TP391

      A

      10.37188/OPE.20223010.1228

      1004-924X(2022)10-1228-12

      2022-01-19;

      2022-01-26.

      自然科學(xué)基礎(chǔ)研究計劃面上項目(No. 2020JM-473,No. 2020JM-472);陜西省重點研發(fā)計劃項目(No.2021SF-429)

      劉光輝(1976),男,陜西西安人,西安建筑科技大學(xué)信息與控制工程學(xué)院碩士生導(dǎo)師,2016年于西安建筑科技大學(xué)獲得工學(xué)博士學(xué)位,主要從事計算機(jī)視覺感知與理解、人工智能與智動化系統(tǒng)方面的研究。E-mail:guanghuil@163.com

      孟月波(1979),女,陜西西安人,西安建筑科技大學(xué)信息與控制工程學(xué)院碩士生導(dǎo)師,2014年于西安交通大學(xué)大學(xué)獲得工學(xué)博士學(xué)位,主要從事計算機(jī)感知與理解、人工智能與智動化系統(tǒng)、建筑智能化技術(shù)方面的研究。E-mail:mengyuebo@163.com

      猜你喜歡
      密度估計空間信息步長
      中國人均可支配收入的空間區(qū)域動態(tài)演變與差異分析
      m-NOD樣本最近鄰密度估計的相合性
      面向魚眼圖像的人群密度估計
      結(jié)合多層特征及空間信息蒸餾的醫(yī)學(xué)影像分割
      基于Armijo搜索步長的BFGS與DFP擬牛頓法的比較研究
      基于MATLAB 的核密度估計研究
      科技視界(2021年4期)2021-04-13 06:03:56
      《地理空間信息》協(xié)辦單位
      基于逐維改進(jìn)的自適應(yīng)步長布谷鳥搜索算法
      一種新型光伏系統(tǒng)MPPT變步長滯環(huán)比較P&O法
      電測與儀表(2014年2期)2014-04-04 09:04:00
      關(guān)于地理空間信息標(biāo)準(zhǔn)體系
      五原县| 横峰县| 鹰潭市| 罗甸县| 尉犁县| 镇宁| 潜江市| 石台县| 全州县| 成都市| 清远市| 塘沽区| 洱源县| 昌乐县| 九龙县| 左云县| 郎溪县| 眉山市| 龙海市| 腾冲县| 隆尧县| 怀集县| 金门县| 白沙| 麻阳| 高陵县| 宝兴县| 榆中县| 双江| 沈阳市| 镇原县| 盐池县| 桦川县| 孝昌县| 奈曼旗| 榆树市| 凯里市| 玛多县| 红桥区| 元朗区| 包头市|