• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向密集人群計(jì)數(shù)的兩列串行空洞卷積神經(jīng)網(wǎng)絡(luò)

      2018-02-24 13:55趙傳強(qiáng)尚永生
      電腦知識與技術(shù) 2018年34期

      趙傳強(qiáng) 尚永生

      摘要:提出了一種簡稱為DSDCNN的面向密集人群計(jì)數(shù)的兩列串行空洞卷積神經(jīng)網(wǎng)絡(luò)。DSDCNN可以識別高度擁擠的場景,得到精確的人群估計(jì)數(shù)量和估計(jì)密度圖。DSDCNN是由兩列卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成,并通過使用空洞卷積,使得每列卷積具有不同大小視野域,可以輸入不同尺寸和像素的圖片,并通過空洞卷積代替了池化層。DSDCNN網(wǎng)絡(luò)是由小卷積核濾波器構(gòu)成,網(wǎng)絡(luò)架構(gòu)易于搭建和訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,DSDCNN能夠較精確得到人群計(jì)數(shù)和估計(jì)密度圖,具有較好的平均絕對誤差MAE。

      關(guān)鍵詞:人群計(jì)數(shù);估計(jì)密度圖;空洞卷積

      中圖分類號:TP311? ? ?文獻(xiàn)標(biāo)識碼:A? ? ?文章編號:1009-3044(2018)34-0164-04

      1引言

      現(xiàn)在越來越多的人群計(jì)數(shù)模型已經(jīng)被開發(fā)[1-7],為我們解決人群流量監(jiān)測提供了解決方案。而人群流量監(jiān)測是解決很多方面問題的關(guān)鍵,例如在安全監(jiān)控、災(zāi)難管理、公共空間設(shè)計(jì)、情報(bào)的收集及分析等,而在不同的領(lǐng)域需要我們開發(fā)出各種各樣的模型,如計(jì)算、密度估計(jì)、分割、行為分析、跟蹤、場景理解和異常檢測等。而人群計(jì)數(shù)和密度估計(jì)是最基本的任務(wù),是之前所說的各種任務(wù)模型的基礎(chǔ),因此人群計(jì)數(shù)和密度估計(jì)仍需深入研究。

      在過去的幾年里研究人員通過各種方法來解決人群計(jì)數(shù)和密度估計(jì)的問題,而最近基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neuarl Network , CNN)的方法與傳統(tǒng)的方法相比有了明顯的改進(jìn),并在人群計(jì)數(shù)領(lǐng)域取得了很好的成績,但是這些模型還存在一些不足的地方。

      因此,本文通過對張[6]和李[7]模型的借鑒和優(yōu)化,提出了一種新的網(wǎng)絡(luò)模型:基于兩列串行空洞卷積神經(jīng)網(wǎng)絡(luò)(double serial dilated convolutional neural network, DSDCNN)模型。DSDCNN模型是使用純卷積層作為主干,并通過使用兩列具有不同視野域的卷積層來保證可以輸入不同分辨率的圖像,同時(shí)為了限制網(wǎng)絡(luò)復(fù)雜性,所有的卷積層都使用小尺寸的卷積濾波器,并通過空洞卷積擴(kuò)展每列卷積的視野域[7]。

      2 相關(guān)工作

      遵循Loy等人[14]和Vishwanath A等人[16]的論述,人群計(jì)數(shù)模型可以根據(jù)網(wǎng)絡(luò)的特性以及訓(xùn)練方法,將基于CNN的方法大致分為四類:基于CNNs模型、基于標(biāo)度感知模型、基于上下文感知模型和基于多任務(wù)框架模型?;贑NNs的模型是指在網(wǎng)絡(luò)中包含了基本的CNN的方法,這些方法是用于人群計(jì)數(shù)和密度估計(jì)的初始深度學(xué)習(xí)方法之一;基于標(biāo)度感知模型是指在基于CNN方法之上形成的更復(fù)雜的模型,對于標(biāo)度具有魯棒性;基于上下文感知模型是指將圖片中出現(xiàn)的ground truth和全局上下文信息合并到CNN框架中;基于多框架任務(wù)模型是指將人群計(jì)數(shù)和估計(jì)與其他人結(jié)合到一起。以下是近幾年來基于CNN 的一些解方案大部分方法是2017年之后,2017年之前的方法可以參考文獻(xiàn)[16]。

      自2016年張[6]提出了經(jīng)典的多列卷積神經(jīng)網(wǎng)絡(luò)(MCNN)架構(gòu)以來,多列卷積神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用。Nair, V等人[8]提出了一個(gè)簡單到復(fù)雜框架,它使用初始DCNN作為分割網(wǎng)絡(luò)進(jìn)行訓(xùn)練,在基于初始DCNN以及圖像級注釋的簡單圖像的預(yù)測分割基礎(chǔ)上,進(jìn)行網(wǎng)絡(luò)監(jiān)督學(xué)習(xí)。Sindagil[5]提出了一種稱為上下文金字塔CNN的方法,它使用CNN網(wǎng)絡(luò)在不同級別估計(jì)上下文,以實(shí)現(xiàn)更低的計(jì)數(shù)誤差和更好質(zhì)量的估計(jì)密度圖。

      而Lokesh Boominathan等人[15]提出一種新穎的深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過使用深度可分離卷積,在不增加容量的前提下,使得性能增益,更有效地使用模型參數(shù)。Fisher Yu等人[9]則是在深度卷積上使用分類網(wǎng)絡(luò)來解決弱監(jiān)督語義分割問題。[15]提出了一種深度學(xué)習(xí)框架,通過使用深度、淺度多尺度完全卷積的網(wǎng)絡(luò)組合來預(yù)測給定人群圖像的密度圖,它即可以有效地捕獲高級語義信息(面部/身體檢測器),也可以捕獲低級特征(斑點(diǎn)檢測器)。李[7]則是在他們的基礎(chǔ)上提出了CSRNet網(wǎng)絡(luò)模型,它是通過使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行特征提取,并作為深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的前端,并使用空洞卷積來作為深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的后端。

      3 DSDCNN設(shè)計(jì)

      綜合相關(guān)文獻(xiàn)[6]、[7]、[14],基于卷積神經(jīng)網(wǎng)絡(luò)的人群計(jì)數(shù)的一般流程分為:原始圖像經(jīng)過CNN模型,得到其密度圖,進(jìn)行求和,得到人數(shù)。在整體流程中核心部分為CNN模型,因?yàn)镃NN模型的性能直接決定了人群計(jì)數(shù)的性能;而不同的CNN模型是由不同的網(wǎng)絡(luò)架構(gòu)進(jìn)行訓(xùn)練得到,因此網(wǎng)絡(luò)結(jié)構(gòu)的搭建至關(guān)重要。

      3.1 網(wǎng)絡(luò)架構(gòu)

      在構(gòu)建網(wǎng)絡(luò)架構(gòu)時(shí),本文借鑒了文獻(xiàn)[6]的MCNN網(wǎng)絡(luò)架構(gòu)以及文獻(xiàn)[7]的CRSCNN網(wǎng)絡(luò)架構(gòu)。選取MCNN中的多列分支架構(gòu),又通過選取CSRCNN網(wǎng)絡(luò)中的小核卷積以及空洞卷積,搭建兩列分支的串行空洞卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)(DSDCNN),具體架構(gòu)如圖1所示。圖中卷積層的參數(shù)表示為Conv X-Y-Z, X是指卷積層的卷積核大小,都設(shè)置為3;Y是指每層卷積所學(xué)習(xí)的特征值的個(gè)數(shù);Z是指空洞卷積的空洞率大小值。

      DSDCNN是由兩列卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成,又通過利用空洞卷積使得每一列卷積神經(jīng)網(wǎng)絡(luò)在保持小卷積核的前提下具有不同大小的感受域,因此可以輸入任意大小或分辨率的圖像,同時(shí)網(wǎng)絡(luò)中所有的卷積層都是使用padding來維持輸入和輸出圖片大小一致。

      3.1.1 具體參數(shù)

      本文所提出的網(wǎng)絡(luò)架構(gòu)如圖1所示,大體可分為兩部分,第一部分是由三個(gè)并列卷積層構(gòu)成;在第一部分第一小模塊中,包含了兩個(gè)濾波器大小均為3×3,不過第一個(gè)濾波器的空洞率設(shè)置為1,第二個(gè)濾波器的空洞率設(shè)置為2,然后每一個(gè)卷積層將會產(chǎn)生64個(gè)特征映射,然后通過線性函數(shù)進(jìn)行加權(quán)生成128個(gè)特征圖;第二小部分開始時(shí),每個(gè)卷積層將會輸入128個(gè)特征映射,并經(jīng)過兩層映射后,經(jīng)線性函數(shù)加權(quán)生成256個(gè)特征圖;同樣在第三小部分中,每層卷積會被輸入256個(gè)特征映射,然后加權(quán)生成為512個(gè)特征圖。在第二部分中,是由三個(gè)卷積層串行組成;第一小部分是由3X3的濾波器構(gòu)成,其空洞率為2,具有512個(gè)特征圖;第二小部分和第三小部分同第一部分構(gòu)成是一樣的,同樣具有512個(gè)特征圖,不過第三小部分具有256個(gè)特征圖。最后,使用1×1濾波器生成單個(gè)特征圖,即生成的密度圖。在整體模型中,只有最后1×1卷積層沒有應(yīng)用激活函數(shù)(Relu)[8],其余卷積層都設(shè)置一個(gè)Relu層來作為激活函數(shù)。表1列出模型架構(gòu)的詳細(xì)參數(shù)設(shè)置。

      3.1.2 空洞卷積

      空洞卷積又可以稱之為擴(kuò)張卷積,是本文網(wǎng)絡(luò)架構(gòu)的關(guān)鍵部分之一。在本文中,我們通過使用空洞卷積代替了卷積層和pooling層,因?yàn)槭褂每斩淳矸e可以在不增加網(wǎng)絡(luò)架構(gòu)的卷積層層數(shù)或計(jì)算量的情況下擴(kuò)大了感受野,這從根本上降低網(wǎng)絡(luò)架構(gòu)的復(fù)雜程度;同時(shí)空洞卷積允許靈活地聚合多尺度上下文信息,保持相同的分辨率[9,10,11],最重要的是,空洞卷積相對于Pooling和卷積層,它輸出以及包含的信息更詳細(xì)[7]。

      空洞卷積是將具有k×k小卷積核的濾波器[7],擴(kuò)大為KX×KX卷積核的濾波器,KX =k + (k-1)×(r-1),其中K為原濾波器的卷積核大小,r為空洞卷積的空洞率,KX為擴(kuò)張之后濾波器的卷積核大小。

      3.2 訓(xùn)練過程

      在這一小節(jié),我們闡述了具體的DSICNN訓(xùn)練細(xì)節(jié),與常規(guī)的基于CNN的網(wǎng)絡(luò)相比較,DSICNN是一種很方便搭建和能快速部署的網(wǎng)絡(luò)結(jié)構(gòu)。

      4 實(shí)驗(yàn)結(jié)果以及分析

      4.1條件環(huán)境平臺

      本文實(shí)驗(yàn)是在PC機(jī)上進(jìn)行的,PC機(jī)的硬件包含了一個(gè)CPU(Intel i7-7700),一個(gè)GPU(4G顯存NVIDIA GTX 1070Ti)和8G內(nèi)存,DSICNN是基于Caffe平臺[11]來訓(xùn)練的,PC機(jī)的操作系統(tǒng)是Ubuntu14.04。使用的隨機(jī)梯度下降(SGD)優(yōu)化訓(xùn)練網(wǎng)絡(luò),這個(gè)網(wǎng)絡(luò)的學(xué)習(xí)率為10-7,momentum是0.9。

      小為x,y,其中μx是x的平均值,μy是y的平均值,σ2x是x的方差,σ2y是y的方差,σxy是x和y的協(xié)方差,C1=(k1L)2,C2=(k2L)2,L為像素的動態(tài)范圍,k1=0.01,k2=0.03。

      4.4 實(shí)驗(yàn)結(jié)果

      本文分別使用了Shanghaitech數(shù)據(jù)集中的PartA,PartB數(shù)據(jù)圖像,得到相對應(yīng)的密度圖,圖2中的a,b,c,e,f,g分別對應(yīng)PartA,PartB中的原圖、 ground truth對應(yīng)的密度圖以及網(wǎng)絡(luò)模型訓(xùn)練得到的密度圖。

      為了評估所生成密度圖的質(zhì)量,使用A部分?jǐn)?shù)據(jù)集將我們的方法與MCNN和CP-CNN生成的密度圖通過PSNR和SSIM標(biāo)準(zhǔn)進(jìn)行比較,結(jié)果如表3所示,表明DSDCNN實(shí)現(xiàn)了較高的SSIM和PSNR。

      我們通過MAE和MSE對本文的方法進(jìn)行評估,并通過與其他五個(gè)最近相似工作進(jìn)行比較,其評估參數(shù)表4所示(其結(jié)果來自原始結(jié)果)。

      4.5 實(shí)驗(yàn)分析

      如表4所示,我們的網(wǎng)絡(luò)結(jié)果略好于其他幾個(gè)網(wǎng)絡(luò)。通過查閱相關(guān)文獻(xiàn),可以得知在基于CNN的方法中,網(wǎng)絡(luò)性能的改進(jìn)主要通過網(wǎng)絡(luò)結(jié)構(gòu)的調(diào)整,以及改進(jìn)密度圖質(zhì)量來實(shí)現(xiàn)。我們的網(wǎng)絡(luò)架構(gòu)是通過采用小核濾波器來限制網(wǎng)絡(luò)的復(fù)雜程度,并通過空洞卷積從更多維度中提取多尺度特征信息,并不斷對其進(jìn)行整合,以獲得新的尺寸特征信息,從而獲得更好的實(shí)驗(yàn)結(jié)果。

      5 結(jié)束語

      在本文中,我們提出了一個(gè)新的架構(gòu),稱之為DSDCNN,用于人群計(jì)數(shù)和生成密度圖。與其他模型相比,我們是通過空洞卷積來聚合擁擠場景的多尺度上下文信息,并通過多列卷積來整合不同尺度和像素圖片信息。我們將我們使用的方法與其他使用Shanghaitech數(shù)據(jù)集的方法進(jìn)行比較。DSDCNN模型由于文獻(xiàn)中的大部分模型,具有良好的性能。

      參考文獻(xiàn):

      [1] Beibei Zhan, Dorothy N Monekosso, Paolo Remagnino, Sergio A Velastin, and Li-Qun Xu[

      j]. Crowd analysis: a survey.Machine Vision and Applications, 19(5-6):345–357, 2008.

      [2] Teng Li, Huan Chang, Meng Wang, Bingbing Ni, Richang Hong, and Shuicheng Yan. Crowded scene analysis: A survey[J]. IEEE transactions on circuits and systems for video technology, 25(3):367–386, 2015.

      [3] Cong Zhang, Hongsheng Li, Xiaogang Wang, and Xiaokang Yang. Cross-scene crowd counting via deep convolutional neural networks[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 833–841,2015.

      [4] Deepak Babu Sam, Shiv Surya, and R Venkatesh Babu. Switching convolutional neural network for crowd counting[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, volume 1, page 6, 2017.

      [5] Vishwanath A Sindagi and Vishal M Patel. Generating high quality crowd density maps using contextual pyramid CNNs[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1861–1870, 2017.

      [6] Zhang, Y., Zhou, D., Chen, S., et al.: 'Single-image crowd counting via multi-column convolutional neural network'[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 589–597

      [7]Li Y, Zhang X, Chen D. CSRNet: Dilated Convolutional Neural Networks for Understanding the Highly Congested Scenes[J]. 2018.

      [8] Nair V, Hinton G E. Rectified linear units improve restricted boltzmann machines[C]// International Conference on International Conference on Machine Learning. Omnipress, 2010:807-814.

      [9] Fisher Yu and Vladlen Koltun. Multi-scale context aggregation by dilated convolutions. In ICLR, 2016.

      [10] L. C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille. Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, PP(99):1–1, 2017.

      [11] Liang-Chieh Chen, George Papandreou, Florian Schroff, and Hartwig Adam. Rethinking atrous convolution for semantic image segmentation. CoRR, abs/1706.05587, 2017.

      [12] Mark Marsden, Kevin McGuiness, Suzanne Little, and Noel E OConnor. Fully convolutional crowd counting on highly congested scenes. arXiv preprint arXiv:1612.00220,2016.

      [13] Vishwanath A Sindagi and Vishal M Patel. Cnn-based cascaded multi-task learning of high-level prior and density estimation for crowd counting[C]. In Advanced Video and Signal Based Surveillance (AVSS), 2017 14th IEEE International Conference on, pages 1–6. IEEE, 2017.

      [14] Chen Change Loy, Ke Chen, Shaogang Gong, and Tao Xiang. Crowd counting and profiling: Methodology and evaluation[C]. In Modeling, Simulation and Visual Analysis of Crowds, pages 347–382. Springer, 2013.

      [15] Lokesh Boominathan, Srinivas SS Kruthiventi, and R Venkatesh Babu. Crowdnet: a deep convolutional network for dense crowd counting[C]. In Proceedings of the 2016 ACM on Multimedia Conference, pages 640–644. ACM, 2016.

      [16] Sindagi V A, Patel V M. A survey of recent advances in CNN-based single image crowd counting and density estimation[J]. Pattern Recognition Letters, 2017.

      【通聯(lián)編輯:梁書】

      博乐市| 高要市| 华蓥市| 连南| 同江市| 永靖县| 黑龙江省| 武鸣县| 宁强县| 伊金霍洛旗| 泰和县| 萍乡市| 南靖县| 黎川县| 宜城市| 扶沟县| 十堰市| 寿阳县| 乌什县| 石渠县| 定边县| 辛集市| 长宁县| 二连浩特市| 镇沅| 万宁市| 宁阳县| 康保县| 峨眉山市| 比如县| 永川市| 崇左市| 曲阜市| 清苑县| 蓬安县| 清丰县| 车致| 长葛市| 沈丘县| 鄂州市| 封丘县|