• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于尺度自適應(yīng)卷積神經(jīng)網(wǎng)絡(luò)的人群計數(shù)算法

      2020-02-19 15:18:30王陸洋殷保群彭思凡邢思思
      計算機(jī)工程 2020年2期
      關(guān)鍵詞:尺度計數(shù)卷積

      翟 強(qiáng),王陸洋,殷保群,彭思凡,邢思思

      (中國科學(xué)技術(shù)大學(xué) 自動化系,合肥 230027)

      0 概述

      近些年來,發(fā)生在世界各地的大型人群踩踏事故屢見不鮮。及時檢測人群急劇變化,優(yōu)化公共交通調(diào)度可以避免類似安全事故的發(fā)生,因此準(zhǔn)確估計人群數(shù)量具有重要的研究價值,而透視效果導(dǎo)致的人群遮擋、尺度變化問題仍是人群計數(shù)面臨的重大挑戰(zhàn)。隨著深度學(xué)習(xí)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)模型[1-2]在圖像處理上表現(xiàn)優(yōu)異,使得研究人員將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于人群計數(shù)中[3]。文獻(xiàn)[4]提出使用卷積神經(jīng)網(wǎng)絡(luò)統(tǒng)計不同場景中的人群數(shù)目,先為某些場景預(yù)先訓(xùn)練一個網(wǎng)絡(luò),當(dāng)給定來自新場景的測試圖像時,根據(jù)透視信息和密度圖中的相似性選擇相似訓(xùn)練數(shù)據(jù)對預(yù)訓(xùn)練網(wǎng)絡(luò)進(jìn)行微調(diào)。該方法在大多數(shù)現(xiàn)有數(shù)據(jù)集上表現(xiàn)出良好的性能,但在訓(xùn)練和測試時對透視圖的需求,限制了該方法在實際人群場景中的適用性和擴(kuò)展性。文獻(xiàn)[5]提出一個端到端的CNN架構(gòu),將整個圖像作為輸入并直接輸出計數(shù)結(jié)果。但由于難以解決圖像尺度多變的問題,基于單列CNN的方法的計算精度和魯棒性效果均不佳。文獻(xiàn)[6]提出Switching CNN網(wǎng)絡(luò),先將圖像分塊,通過VGG16網(wǎng)絡(luò)把圖像塊密度分成高中低3類,選擇針對特定人群密度設(shè)計的CNN回歸模型來估計圖像塊的人群密度圖。然而人群在圖像中的分布通常是不均勻的,對圖像的簡單分塊影響了計數(shù)的準(zhǔn)確性。文獻(xiàn)[7]提出多列卷積網(wǎng)絡(luò),其能夠適應(yīng)部分人群的尺度變化,在一定程度上減少由于透視而導(dǎo)致的計數(shù)誤差,但其使用一個1×1卷積對多列密度圖進(jìn)行簡單平均融合,會給最終結(jié)果帶來一定的誤差。

      本文提出一種用于圖像人群計數(shù)的新型卷積神經(jīng)網(wǎng)絡(luò)模型??紤]到經(jīng)典VGG16網(wǎng)絡(luò)[8]具有良好的特征提取能力,該網(wǎng)絡(luò)模型前半部分采用VGG16的前13層提取圖像特征,后半部分利用具有3列不同感受野的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)一步提取多樣化的圖像特征。在此基礎(chǔ)上,構(gòu)建特征注意力模塊提取判別信息,對3列卷積神經(jīng)網(wǎng)絡(luò)得到的特征圖進(jìn)行評判打分,生成與特征圖尺寸相同的注意力特征圖,通過加權(quán)求和得到最終密度圖,并在Shanghai Tech和UCF_CC_50兩個數(shù)據(jù)集上訓(xùn)練并測試人群計數(shù)算法。

      1 基于尺度自適應(yīng)網(wǎng)絡(luò)的人群計數(shù)算法

      1.1 密度圖

      本文旨在準(zhǔn)確估計輸入圖像的人群密度圖,其積分值代表圖中的人數(shù)。人群計數(shù)數(shù)據(jù)庫只提供人頭標(biāo)記的坐標(biāo)點,在網(wǎng)絡(luò)訓(xùn)練前首先需要生成訓(xùn)練圖片的密度圖。對于圖片中坐標(biāo)為xi的人頭標(biāo)記點,可將其表示為δ(x-xi),那么對于一張具有N個人頭標(biāo)記點的圖片可以表示為:

      (1)

      然后結(jié)合高斯核濾波器Gσ與式(1)進(jìn)行卷積操作得到密度方程,表示為:

      (2)

      對于人群均勻分布的圖片,可以使用自適應(yīng)高斯濾波器[4]進(jìn)行卷積,密度圖生成過程中需考慮圖片視角扭曲因素。在此情況下的密度圖方程可以表示為:

      (3)

      1.2 網(wǎng)絡(luò)結(jié)構(gòu)

      針對人群計數(shù)中的人群遮擋和尺度變化問題,本文提出一個用于人群計數(shù)的尺度自適應(yīng)網(wǎng)絡(luò)。在圖1中,尺度自適應(yīng)網(wǎng)絡(luò)分為3個模塊,具體為:第一模塊引入經(jīng)典VGG16網(wǎng)絡(luò)的前13層對圖片提取特征,由于VGG 4個池化層的存在,導(dǎo)致輸出變?yōu)樵瓐D的1/16,而本文采用1/8密度圖作為輸出結(jié)果,因此加入上采樣層將特征圖變?yōu)樵瓐D尺寸的1/8;第二模塊基于多列卷積神經(jīng)網(wǎng)絡(luò)思想,分別用3×3、5×5、7×7不同感受野的卷積核對第一模塊輸出提取多尺度特征,在此階段本文引入在目標(biāo)檢測、語義分割領(lǐng)域的可變形卷積,憑借其良好的空間幾何形變學(xué)習(xí)能力,進(jìn)一步改善特征圖;第三模塊為特征注意力模塊,其對3列卷積神經(jīng)網(wǎng)絡(luò)得到的特征圖經(jīng)Softmax層進(jìn)行評判打分及優(yōu)化,從而生成高質(zhì)量的密度圖。

      圖1 尺度自適應(yīng)網(wǎng)絡(luò)結(jié)構(gòu)

      1.2.1 可變形卷積

      近年來卷積神經(jīng)網(wǎng)絡(luò)在視覺領(lǐng)域表現(xiàn)優(yōu)異,其良好的特征提取能力和端對端的學(xué)習(xí)方式,避免了傳統(tǒng)方法的弊端。但網(wǎng)絡(luò)模型的幾何形變能力來自于數(shù)據(jù)本身的多樣性,即卷積操作。該操作在輸入圖像的每個位置都會進(jìn)行基于對應(yīng)位置的采樣,然后對于采樣到的特征區(qū)域做卷積并作為該位置的輸出。以3×3卷積核為例,設(shè)R={(-1,-1),(-1,0),…,(0,1),(1,1)},R代表卷積核覆蓋特征圖的感受野區(qū)域。對于特征圖上的像素點p0,標(biāo)準(zhǔn)卷積方式表示為:

      (4)

      但該方式會導(dǎo)致網(wǎng)絡(luò)自身難以適應(yīng)尺度多變的人群計數(shù)問題,因此本文引入可變形卷積[9]??勺冃尉矸e是對卷積核的每個采樣點的位置都增加一個偏移的變量,通過這些變量,卷積核可以在當(dāng)前位置附近采樣,而不再局限于之前對應(yīng)的位置采樣??勺冃尉矸e方式表示為:

      (5)

      其中,Δpn通過對網(wǎng)絡(luò)訓(xùn)練得到。標(biāo)準(zhǔn)卷積加上該偏移量的學(xué)習(xí)后,可變形卷積核的大小和位置可以根據(jù)當(dāng)前需要識別的圖像內(nèi)容進(jìn)行動態(tài)調(diào)整,即不同位置的卷積核采樣點位置會根據(jù)圖像內(nèi)容發(fā)生自適應(yīng)變化,從而適應(yīng)不同場景人群形狀、大小、尺度變化等幾何形變。分析上述計算方式可知,若可變形卷積的偏移量Δpn為0,則可變形卷積退化成普通卷積,本文算法也能達(dá)到普通卷積的算法性能。當(dāng)可變形卷積起作用時,特別是卷積核在處理人群與樹木、馬路、房屋等干擾背景交界的區(qū)域時,普通卷積只能對卷積核相應(yīng)尺寸大小的特征進(jìn)行計算,這樣無形中把非人群的無用特征計算進(jìn)來,會給結(jié)果帶來一定的誤差。而可變形卷積可以有效地解決該問題,當(dāng)算法在訓(xùn)練過程中遇到上述場景時,通過訓(xùn)練卷積核附帶的偏移量參數(shù)Δpn,將普通卷積核部分對應(yīng)計算的非人群特征偏移到人群特征中,這樣整個卷積核提取的都是人群特征,有效避免了非人群特征的干擾,從而提高人群計數(shù)性能。

      1.2.2 特征注意力模塊

      人腦每個時刻接收的外界輸入信息非常多,當(dāng)人腦在接收這些信息時會自覺或不自覺地利用注意力機(jī)制獲取重要的信息。目前,這種注意力機(jī)制被引入自然語言處理、物體檢測、語義分割等領(lǐng)域,并具有很好的應(yīng)用效果。本文將注意力機(jī)制作為一個模塊加入卷積神經(jīng)網(wǎng)絡(luò),旨在優(yōu)化第二模塊的3列特征圖,因此本文將其命名為特征注意力模塊。為解決圖片中人群尺度變化問題,該注意力模塊將第一模塊結(jié)果作為輸入,對經(jīng)過可變形卷積處理的3列多尺度特征圖逐像素點生成具有判別能力的高級信息,即3列多尺度特征圖對應(yīng)的每個像素點都生成相應(yīng)的權(quán)重,以此衡量3列多尺度特征圖對應(yīng)像素點的重要程度??傮w來看,注意力模塊是對3列多尺度特征圖進(jìn)行打分,評判3列多尺度特征圖所有對應(yīng)像素點的重要程度。計算方式如下:假設(shè)Fk為注意力模塊輸出的3列特征圖中的某一列,Sk為經(jīng)過可變形卷積處理的多尺度特征圖中的某一列,則網(wǎng)絡(luò)經(jīng)Softmax層生成相應(yīng)的注意力特征圖(與特征圖相同尺寸的概率矩陣)。

      (6)

      注意力特征圖與特征圖相對應(yīng)的像素點相乘,再對其求和生成最終的密度圖。

      (7)

      通過該方式使網(wǎng)絡(luò)在3列多尺度特征圖上從像素點級別尋找與真實密度圖相關(guān)的有用信息,對密度圖生成有益的像素點獲得更高的權(quán)重,對密度圖生成無益的像素點獲得更低的權(quán)重,即評判特征圖的重要程度,從而提高最終密度圖的生成質(zhì)量。

      1.3 網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化

      本文采用自適應(yīng)學(xué)習(xí)率的Adam優(yōu)化算法進(jìn)行網(wǎng)絡(luò)優(yōu)化,使用歐氏距離作為目標(biāo)函數(shù),計算預(yù)測得到的密度圖與真實密度圖之間的差距。損失函數(shù)的定義如下:

      (8)

      其中,Θ是網(wǎng)絡(luò)參數(shù),N是訓(xùn)練集圖片總數(shù),Xi是第i張圖片,F(Xi;Θ)和Fi分別表示第i張圖片的估計密度圖和真實密度圖。

      2 實驗結(jié)果與分析

      本文在Shanghai Tech和UCF_CC_50數(shù)據(jù)集上訓(xùn)練并測試人群計數(shù)算法,借鑒經(jīng)典網(wǎng)絡(luò)VGG[8]、MCNN[7]、SANet[10]等的參數(shù)設(shè)置方法,若沒有特殊聲明,卷積核尺寸默認(rèn)為3×3,卷積核的激活函數(shù)均為ReLU非線性激活函數(shù)。網(wǎng)絡(luò)對VGG提取的特征(原圖片的1/16)進(jìn)行上采樣后,特征圖尺寸變?yōu)樵瓉淼?倍(原圖片的1/8),則卷積核通道變?yōu)樵瓉淼?/2,數(shù)目為256。本文基于1/8密度圖估計人群數(shù)目,因此卷積層通道數(shù)均采用256通道。在設(shè)置可變形卷積通道超參數(shù)時,由于該卷積方式的復(fù)雜性,實驗過程中發(fā)現(xiàn)對內(nèi)存的消耗較大,訓(xùn)練時間較長,因此對每列特征圖只設(shè)置32通道的可變形卷積。本文在Pytorch深度學(xué)習(xí)環(huán)境下進(jìn)行訓(xùn)練,在網(wǎng)絡(luò)訓(xùn)練權(quán)值初始化方面,VGG特征提取器使用已訓(xùn)練好的模型參數(shù)進(jìn)行初始化,其他層使用標(biāo)準(zhǔn)差為0.01的高斯分布進(jìn)行初始化,網(wǎng)絡(luò)的初始訓(xùn)練學(xué)習(xí)率為1e-5,共訓(xùn)練300個周期。

      2.1 評價標(biāo)準(zhǔn)

      本文使用平均絕對誤差(Mean Absolute Error,MAE)和均方誤差(Mean Squared Error,MSE)評價算法性能。MAE和MSE的定義如下:

      (9)

      (10)

      其中,zi和z′分別表示第i張圖片的真實人數(shù)和算法估計人數(shù)。

      2.2 Shanghai Tech數(shù)據(jù)集

      Shanghai Tech數(shù)據(jù)集共包含1 198張圖片,標(biāo)記人數(shù)達(dá)到330 165人。該數(shù)據(jù)集由Part_A和Part_B兩部分組成。兩個數(shù)據(jù)集無論是人群規(guī)模還是人群密度都有很大的區(qū)別。Part_A人群密度較大,Part_B人群密度中等但分布變化較大。

      在數(shù)量上,Part_A由482張從網(wǎng)絡(luò)抓取的圖片組成,Part_B包含從上海街頭拍攝的716張圖片,同時它們都分為訓(xùn)練集和測試集兩部分。Part_A中300張作為訓(xùn)練集,182張作為測試集。Part_B中訓(xùn)練集和測試集圖片分別為400張和316張。

      由于Part_A和Part_B數(shù)據(jù)集的訓(xùn)練集分別是300張和400張圖片,圖片數(shù)量太少,因此采用數(shù)據(jù)增強(qiáng)方式,從每一張訓(xùn)練圖片中截取36張圖片,同時過濾單幅少于5人的圖片,每一張圖片尺寸都為原圖片尺寸的1/4,采用該方式增加訓(xùn)練圖片的數(shù)量。在訓(xùn)練過程中,手動將初始學(xué)習(xí)率降低10倍再次訓(xùn)練,使本文算法達(dá)到更好效果。

      表1為本文算法與8種當(dāng)前主流人群計數(shù)算法的性能比較結(jié)果,由此可知:在Part_A數(shù)據(jù)集上,本文算法MAE和MSE均為最優(yōu);在Part_B數(shù)據(jù)集上,本文算法與其他算法性能接近。

      表1 Shanghai Tech數(shù)據(jù)集上各算法性能對比結(jié)果

      本文算法不僅在人群密集場景的Part_A數(shù)據(jù)集上有效,對于人群密度中等且分布變化較大的Part_B數(shù)據(jù)集依然表現(xiàn)良好,說明本文算法的適用性強(qiáng)和準(zhǔn)確性高。圖2分別展示了兩個數(shù)據(jù)集上測試圖片的估計密度圖和真實密度圖。

      圖2 測試圖片的估計密度圖與真實密度圖1

      2.3 UCF_CC_50數(shù)據(jù)集

      UCF_CC_50數(shù)據(jù)集[15]是一個復(fù)雜的數(shù)據(jù)集,該數(shù)據(jù)集人群密度大,僅有50張圖片,但卻有63 974人。同時,該數(shù)據(jù)集圖片的人群數(shù)目從94人到4 543人不等,平均每張圖片有1 280人。本文采用與當(dāng)前主流人群計數(shù)算法相同的方式,對原數(shù)據(jù)集進(jìn)行五折交叉驗證,并采取與Shanghai Tech數(shù)據(jù)集相同的方式進(jìn)行數(shù)據(jù)增強(qiáng),最后用本文算法分別在5個數(shù)據(jù)集上進(jìn)行訓(xùn)練和測試。表2為本文算法與該數(shù)據(jù)集上表現(xiàn)良好的9種當(dāng)前主流人群計數(shù)算法的性能比較結(jié)果,數(shù)據(jù)顯示本文算法的MAE和MSE兩項指標(biāo)均優(yōu)于其他算法,說明本文算法具有良好的泛化能力和較高的準(zhǔn)確性。

      表2 UCF_CC_50數(shù)據(jù)集上各算法性能對比結(jié)果

      圖3展示了兩張測試圖片的估計密度圖和真實密度圖。綜合來看,本文算法在Shanghai Tech和UCF_CC_50數(shù)據(jù)集上的實驗結(jié)果均已超越目前大部分計數(shù)算法,具有較高的準(zhǔn)確性和較好的魯棒性。數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而模型和算法只是逼近該上限且在深度學(xué)習(xí)領(lǐng)域同樣適用,算法對圖片特征的提取能力決定算法性能的優(yōu)劣。鑒于以上思想,本文算法設(shè)計以提取和優(yōu)化圖片特征為目的,基于VGG前13層及使用多列不同尺寸的卷積核提取特征,并從以下方面優(yōu)化特征:1)引入可變形卷積改進(jìn)3列多尺度特征;2)構(gòu)建注意力模塊對3列多尺度特征進(jìn)行打分評判,使對密度圖生成有益的特征獲得更高權(quán)重,對密度圖生成無益的特征獲得更低權(quán)重,從而優(yōu)化所得特征。通過圖2、圖3估計密度圖與真實密度圖的比較,算法生成的密度圖人群分布與真實密度圖接近,由此可知算法輸出了較高質(zhì)量的密度圖,從而提升了計數(shù)準(zhǔn)確度。而目前典型網(wǎng)絡(luò)大多只從多列網(wǎng)絡(luò)、更深層次網(wǎng)絡(luò)進(jìn)行設(shè)計,并未考慮影響模型性能的特征優(yōu)化這一因素,而上述兩方面保障了本文網(wǎng)絡(luò)結(jié)構(gòu)具有良好的特征提取能力,因此整體性能優(yōu)于現(xiàn)有大部分經(jīng)典網(wǎng)絡(luò)。

      圖3 測試圖片的估計密度圖與真實密度圖2

      為驗證本文算法引入可變形卷積和特征注意力模塊的有效性,并測試其對本文算法的性能影響,在Shanghai Tech數(shù)據(jù)集Part_A上進(jìn)行實驗,結(jié)果如表3所示。在驗證過程中,基于無可變形卷積網(wǎng)絡(luò)和無注意力模塊網(wǎng)絡(luò)的算法與本文算法的訓(xùn)練方法一致,手動將初始學(xué)習(xí)率降低10倍再次訓(xùn)練,可使算法達(dá)到更好效果。

      表3Shanghai Tech數(shù)據(jù)集Part_A驗證模塊對算法性能的影響

      Table 3 Impact of the Part_A verification module in the Shanghai Tech dataset on algorithm performance

      算法MAEMSE基于無可變形卷積網(wǎng)絡(luò)的算法69.6110.0基于無注意力模塊網(wǎng)絡(luò)的算法68.0101.6本文算法66.8100.0

      3 結(jié)束語

      本文提出一種尺度自適應(yīng)的基于多列卷積神經(jīng)網(wǎng)絡(luò)的人群計數(shù)算法。為解決圖片中的人群遮擋和尺度變化問題,引入具有良好空間幾何形變學(xué)習(xí)能力的可變形卷積,以提取多尺度特征。在此基礎(chǔ)上,構(gòu)建特征注意力模塊自適應(yīng)地融合多尺度特征并生成密度圖。在Shanghai Tech和UCF_CC_50數(shù)據(jù)集上的實驗數(shù)據(jù)顯示,本文算法具有較強(qiáng)的魯棒性和較高的準(zhǔn)確性。后續(xù)將通過提高密度圖質(zhì)量和改進(jìn)損失函數(shù)等技術(shù)進(jìn)一步優(yōu)化人群計數(shù)算法。

      猜你喜歡
      尺度計數(shù)卷積
      古人計數(shù)
      基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
      遞歸計數(shù)的六種方式
      財產(chǎn)的五大尺度和五重應(yīng)對
      古代的計數(shù)方法
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      這樣“計數(shù)”不惱人
      宇宙的尺度
      太空探索(2016年5期)2016-07-12 15:17:55
      9
      鹤山市| 莱西市| 始兴县| 凤阳县| 枣强县| 景德镇市| 综艺| 东平县| 永登县| 龙南县| 长岭县| 宾川县| 远安县| 东光县| 平邑县| 临沧市| 汶上县| 洛南县| 郑州市| 桂平市| 天峻县| 当雄县| 孟州市| 巍山| 邻水| 金门县| 永新县| 颍上县| 泰和县| 石嘴山市| 蕉岭县| 靖边县| 北京市| 江永县| 阳春市| 娄底市| 邢台县| 阳山县| 内丘县| 龙州县| 沁水县|