• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于深度特征融合生成的密集人群計(jì)數(shù)網(wǎng)絡(luò)

      2021-03-16 13:58:00李鵬博王向文
      關(guān)鍵詞:語(yǔ)義卷積人群

      李鵬博 王向文

      (上海電力大學(xué)電子與信息工程學(xué)院 上海 200090)

      0 引 言

      在國(guó)內(nèi)外的各項(xiàng)大型活動(dòng)中,突發(fā)的人群踩踏事件,已經(jīng)造成了許多傷亡事故。例如2015年上海外灘發(fā)生的踩踏事件,已經(jīng)達(dá)到了我國(guó)重大傷亡事故級(jí)別。如果能基于視頻圖像來估計(jì)人群密度,并合理地安排相應(yīng)的安保措施,就可以有效減少和避免類似事件的發(fā)生。這也使得估計(jì)人群密度成為了計(jì)算機(jī)視覺領(lǐng)域的一大熱點(diǎn)問題。

      最初人群計(jì)數(shù)采用的是基于檢測(cè)的方法[1],通過滑動(dòng)窗口檢測(cè)器來檢測(cè)場(chǎng)景中的人群,并統(tǒng)計(jì)出相應(yīng)的人數(shù)。但是無論是采用檢測(cè)人整體的方法[2-3],還是基于人體局部信息的檢測(cè)方法[4],在人群密集場(chǎng)景中的應(yīng)用效果均不太理想。

      由于窗口檢測(cè)方法很難解決人群密集情況下的遮擋等問題,很多學(xué)者提出利用回歸的方式來解決人群計(jì)數(shù)問題?;貧w方法主要是利用回歸算法學(xué)習(xí)出一種由低級(jí)特征到人群人數(shù)的抽象映射[5-6]。回歸方法可以分為兩個(gè)步驟,首先提取圖片的邊緣、紋理、梯度等特征,然后基于這些特征訓(xùn)練一個(gè)回歸模型以估計(jì)最終的人數(shù)。但是由于這種回歸方法需要事先人為地構(gòu)建人群圖像特征,因此對(duì)于特征的有效性有較高的要求,最終的結(jié)果也不是非常好。

      近些年,由于深度學(xué)習(xí)的不斷發(fā)展,其被廣泛地應(yīng)用到計(jì)算機(jī)視覺的各個(gè)領(lǐng)域,并且針對(duì)一些問題取得了突破性的進(jìn)展。同時(shí)許多基于深度學(xué)習(xí)的人群密度估計(jì)算法被提出來,這些已經(jīng)提出的模型可以分為兩類。第一類是以MCNN[7]和Switch-CNN[8]為代表的多列多尺度結(jié)構(gòu)。但是該結(jié)構(gòu)會(huì)造成參數(shù)冗余,而且多列多尺度結(jié)構(gòu)相比單列結(jié)構(gòu)并沒有明顯的優(yōu)勢(shì)[9]。面對(duì)人群密度的多變性,多尺度特性對(duì)于提高人群計(jì)數(shù)性能具有積極意義。因此本文提出基于空洞卷積的多尺度特征融合結(jié)構(gòu),通過多個(gè)空洞卷積在不同尺度下的融合不僅不會(huì)增加模型參數(shù)量,而且可以得到場(chǎng)景的多尺度信息。將其作為整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)的中間部分能夠很好地解決不同人群密度場(chǎng)景下卷積感受野單一固定帶來的問題。第二類是以CSRNet[8]為代表的單列結(jié)構(gòu)。這類結(jié)構(gòu)前端用來獲取基本的語(yǔ)義信息,后端用來生成人群密度信息。但是文獻(xiàn)[8]中后端只是單一地通過堆疊卷積層數(shù)來實(shí)現(xiàn),并沒有很好地利用由前端得到的語(yǔ)義信息。因此本文提出語(yǔ)義重建塊,每一個(gè)語(yǔ)義重建塊學(xué)習(xí)到的是輸入到輸出的殘差。借助于這種殘差的思想,本文提出的語(yǔ)義重建塊,能夠更好地理解并利用前端的語(yǔ)義信息。最后無論是哪一種主體結(jié)構(gòu),由于在卷積的過程中加入了多次最大池化操作,導(dǎo)致圖像的分辨率被下采樣多次。但是之前的文獻(xiàn)[7-9]并沒有在生成人群密度信息的同時(shí)上采樣重建,而是到生成密度圖后再進(jìn)行上采樣。而本文通過提出的語(yǔ)義重建塊,在生成人群密度信息的同時(shí)進(jìn)行上采樣,解決了最后生成人群密度圖分辨率不高的問題以及由于圖像分辨率問題帶來的人群計(jì)數(shù)誤差。

      通過上述分析,本文提出的人群計(jì)數(shù)方法主體采用單列結(jié)構(gòu),其中前端用來實(shí)現(xiàn)基礎(chǔ)的語(yǔ)義信息獲取,后端采用本文提出的多尺度融合塊和語(yǔ)義重建塊進(jìn)行多次上采樣重建語(yǔ)義信息來得到最終的人群密度圖像和人群數(shù)量。將本文提出的人群密度估計(jì)網(wǎng)絡(luò)與其他歷年主流的人群密度估計(jì)方法在多個(gè)公開數(shù)據(jù)集上對(duì)比,本文提出的密集人群計(jì)數(shù)網(wǎng)絡(luò)不僅在人群計(jì)數(shù)精度上體現(xiàn)出了更優(yōu)異的性能而且網(wǎng)絡(luò)能夠生成質(zhì)量更佳的人群密度圖。

      1 模型設(shè)計(jì)

      1.1 模型整體架構(gòu)

      由于卷積神經(jīng)網(wǎng)絡(luò)對(duì)于圖像具有很好的特征提取能力,因此可以通過深度卷積網(wǎng)絡(luò)獲得圖像的高層次語(yǔ)義信息,這對(duì)于生成高質(zhì)量的人群密度圖像具有重要的作用。本文提出的方法先基于深度卷積網(wǎng)絡(luò)得到深度語(yǔ)義特征,然后通過深度語(yǔ)義特征進(jìn)一步表達(dá)和生成人群密度。其主要模型結(jié)構(gòu)如圖1所示。其中所有的卷積層都采用補(bǔ)零操作以保持圖像之前的尺寸,所有的卷積層參數(shù)可以表示為“Conv-卷積核尺寸-卷積核個(gè)數(shù)-膨脹率”。所有的最大池化層的窗長(zhǎng)和移動(dòng)步長(zhǎng)都為2。

      圖1 模型主要結(jié)構(gòu)

      本文提出的模型由前端結(jié)構(gòu)和后端結(jié)構(gòu)組成,前端結(jié)構(gòu)主要用來從原始圖像中提取深度語(yǔ)義特征,后端結(jié)構(gòu)用來逐步融合語(yǔ)義信息并生成最后的人群密度圖。由于VGG16[10-11]網(wǎng)絡(luò)具有優(yōu)秀的特征提取能力而且便于遷移學(xué)習(xí),因此本文移除了VGG16網(wǎng)絡(luò)中用于分類的全連接網(wǎng)絡(luò)部分,只保留全卷積結(jié)構(gòu)作為模型前端來獲取圖像深度語(yǔ)義特征。但是由于VGG16網(wǎng)絡(luò)只有一個(gè)固定且單一的卷積核,因此在后端結(jié)構(gòu)中為了更好地整合前端網(wǎng)絡(luò)學(xué)習(xí)到的深度語(yǔ)義特征,本文提出用多尺度融合塊(Multi-Scale Merge Block, MSMB)網(wǎng)絡(luò)來進(jìn)一步豐富和改善由前端網(wǎng)絡(luò)得到的深度語(yǔ)義特征。

      由于原始圖像在經(jīng)過前端網(wǎng)絡(luò)以后圖像語(yǔ)義特征尺寸變?yōu)樵瓉淼陌朔种?,而生成的人群密度圖的尺寸大小對(duì)最后的人數(shù)統(tǒng)計(jì)和密度圖質(zhì)量有直接的影響,因此本文模型利用圖像深度語(yǔ)義特征逐步上采樣生成的方式來表達(dá)人群密度信息。

      為了減小模型的大小,本文所有的上采樣采用雙線性插值方法,每次上采樣為原來的兩倍??紤]到經(jīng)過上采樣以后特征會(huì)變得稀疏,所以本文提出語(yǔ)義重建塊(Semantic ReconstructionBlock, SRB)來對(duì)上采樣后的語(yǔ)義信息進(jìn)行降維重建。多尺度融合語(yǔ)義特征經(jīng)過連續(xù)兩次上采樣和語(yǔ)義信息降維重建后,再通過一個(gè)上采樣將人群特征圖尺寸恢復(fù)到原來圖像一樣,最后通過兩個(gè)卷積層回歸得到人群密度。

      1.2 多尺度特征融合塊

      由于卷積神經(jīng)網(wǎng)絡(luò)的卷積核大小決定了卷積網(wǎng)絡(luò)的感受視野的大小,而不同的感受視野可以獲取到圖像不同尺度的語(yǔ)義信息,因此為了獲取更加豐富的語(yǔ)義信息,常見的方法都會(huì)設(shè)置多路不同卷積核尺寸的卷積網(wǎng)絡(luò)[7],最后通過將多路語(yǔ)義信息融合來獲取更多的語(yǔ)義信息。設(shè)置多路不同卷積核尺寸的卷積網(wǎng)絡(luò)必然會(huì)使用到大尺寸的卷積核以達(dá)到擴(kuò)大卷積感受野的目的。但是卷積核的尺寸越大,模型所需要學(xué)習(xí)的參數(shù)就越多,而且單純?cè)龃蟪叨纫矔?huì)導(dǎo)致參數(shù)冗余。

      由于如圖2所示的空洞卷積[12-13]通過設(shè)置卷積核的膨脹率可以在不增加參數(shù)量大小的情況下,增大卷積核感受野,當(dāng)空洞卷積的擴(kuò)張率=1時(shí),空洞卷積和正常的卷積相同,當(dāng)擴(kuò)張率≠1時(shí),空洞卷積在相同的參數(shù)下,具有更大的感受野?;诖?,本文設(shè)計(jì)了如圖3所示的多尺度融合塊(Multi-Scale Merge Block, MSMB)結(jié)構(gòu),通過設(shè)置多列不同膨脹率的空洞卷積來獲取不同尺度下的深度語(yǔ)義信息。并將不同尺度下的深度語(yǔ)義信息在深度上堆疊之后,再利用一個(gè)常規(guī)較小尺寸卷積核的卷積層去融合生成新的深度語(yǔ)義特征。

      圖2 空洞卷積

      四個(gè)空洞卷積的膨脹率依次為1,2,3,4

      值得注意的是,雖然空洞卷積具有不增加參數(shù)量的情況下,增大感受野的功能,但是其過大的膨脹率設(shè)置會(huì)導(dǎo)致網(wǎng)絡(luò)對(duì)于圖像細(xì)微的變化不敏感,因此在設(shè)置多尺度空洞卷積時(shí),選擇較小的膨脹率效果會(huì)更好。另外針對(duì)人群密集場(chǎng)景,要求網(wǎng)絡(luò)對(duì)于圖像的細(xì)節(jié)變化要更加敏感,而空洞卷積膨脹率為1時(shí),其與正常卷積相同,可以彌補(bǔ)空洞卷積對(duì)于細(xì)節(jié)不敏感的缺點(diǎn)?;诖?,本文將多尺度空洞卷積的膨脹率設(shè)置為1~4。

      1.3 語(yǔ)義重建

      為了生成質(zhì)量更好的人群密度圖,本文采用上采樣重建操作,逐步將圖片尺寸恢復(fù)到原始圖像的尺寸。為了利用深度語(yǔ)義特征更好地表達(dá)所需要的人群密度信息,需要將每次上采樣后稀疏的特征進(jìn)行降維重建。而殘差結(jié)構(gòu)有助于解決深度卷積網(wǎng)絡(luò)的梯度彌散問題和退化問題的同時(shí),能夠更好地利用語(yǔ)義信息[14]。因此本文提出語(yǔ)義重建塊(Semantic Reconstruction Block, SRB)來使得稀疏特征變得更加密集, 其主要結(jié)構(gòu)如圖4所示。其中:U表示上采樣,C表示將特征在深度上進(jìn)行堆疊;+表示將兩個(gè)特征直接相加;SRB1:m=256,n=128;SRB2:m=128,n=64。

      圖4 語(yǔ)義重建塊

      卷積神經(jīng)的網(wǎng)絡(luò)輸出的深度信息是網(wǎng)絡(luò)中不同濾波器對(duì)輸入信息的濾波結(jié)果。因此,為了使稀疏的特征變得更加密集,就需要對(duì)卷積神經(jīng)網(wǎng)絡(luò)的深度特征進(jìn)行處理。基于此,語(yǔ)義重建塊主要由兩部分構(gòu)成。第一部分,輸入信息對(duì)兩個(gè)卷積層的輸出分別進(jìn)行深度上的語(yǔ)義堆疊和相加操作來使得語(yǔ)義信息更加密集。雖然通過在深度上進(jìn)行堆疊等操作可以更好地利用語(yǔ)義信息,但是堆疊之后會(huì)使得整體參數(shù)過多,而且簡(jiǎn)單地進(jìn)行深度特征堆疊,其效果也一般。第二部分通過一個(gè)卷積核較小的卷積層來對(duì)前面堆疊生成的語(yǔ)義信息進(jìn)行融合,并降低輸出深度。

      2 實(shí) 驗(yàn)

      2.1 評(píng)價(jià)標(biāo)準(zhǔn)

      本文與其他文獻(xiàn)一樣[7],對(duì)于人群統(tǒng)計(jì)的準(zhǔn)確度采用式(1)和式(2)定義的絕對(duì)誤差(MAE)和均方誤差(MSE)作為評(píng)價(jià)標(biāo)準(zhǔn)。

      (1)

      (2)

      (3)

      式中:H和W分別表示模型生成密度圖的高和寬;z(h,w)則表示模型生成密度圖在(h,w)處的像素值。

      高質(zhì)量的人群密度圖,對(duì)于確定人群的實(shí)際空間位置分布很有助益。因此對(duì)于模型生成的密度圖質(zhì)量采用圖像的峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM)來評(píng)價(jià)。

      2.2 訓(xùn)練細(xì)節(jié)

      2.2.1數(shù)據(jù)處理

      1) 真實(shí)密度圖標(biāo)簽。與文獻(xiàn)[7]中的生成人群密度圖的方式一樣,采用自適應(yīng)幾何核解決人群密集場(chǎng)景。通過高斯核函數(shù)模糊圖片中每一個(gè)標(biāo)注來生成密度圖。通過這種方式可以更好地考慮在圖像中的幾何分布。其中幾何自適應(yīng)核由式(4)定義。

      (4)

      圖5 人群密度可視化

      2) 圖像增強(qiáng)。圖像數(shù)據(jù)增強(qiáng)以后,不僅可為深度卷積神經(jīng)網(wǎng)絡(luò)提供大量的訓(xùn)練數(shù)據(jù),還可以提高模型的魯棒性。因此對(duì)本文實(shí)驗(yàn)提到的數(shù)據(jù)集都進(jìn)行了下述方式的圖像增強(qiáng):

      (1) 對(duì)原始圖片進(jìn)行不重疊的四等分。

      (2) 對(duì)原始圖片隨機(jī)裁剪五次,且裁剪尺寸為原始圖像的四分之一。

      (3) 對(duì)(1)和(2)中得到的圖片進(jìn)行鏡像操作。

      2.2.2損失函數(shù)

      模型生成的人群密度圖和目標(biāo)密度圖之間的差距可以通過計(jì)算兩幅圖中每個(gè)對(duì)應(yīng)像素之間的歐氏距離來表示,因此損失函數(shù)可由式(5)定義。

      (5)

      2.2.3訓(xùn)練參數(shù)配置

      在訓(xùn)練網(wǎng)絡(luò)之前用在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的VGG16模型對(duì)前端卷積網(wǎng)絡(luò)參數(shù)初始化。對(duì)于后端的卷積層采用標(biāo)準(zhǔn)差為0.01的高斯分布初始化。通過多次實(shí)驗(yàn)對(duì)比,確定了如表1所示的其他參數(shù)。

      表1 訓(xùn)練參數(shù)配置

      2.3 評(píng)價(jià)和對(duì)比

      2.3.1ShanghaiTech數(shù)據(jù)集

      ShanghaiTech數(shù)據(jù)集[7]包含1 198幅標(biāo)注的圖片,共有330 165人,并分為Part_A和Part_B兩部分,Part_A包含482幅從互聯(lián)網(wǎng)隨機(jī)下載的高擁擠場(chǎng)景圖片。Part_B包含716幅拍自上海街區(qū)的人群較為稀疏的圖片。將本文所提出的模型分別在Part_A和Part_B上進(jìn)行訓(xùn)練和驗(yàn)證。

      本文所提模型的實(shí)驗(yàn)結(jié)果與其他歷年主流方法在ShanghaiTech數(shù)據(jù)集相比較,在Part_A上表現(xiàn)出了更好的性能,在Part_B上雖然并未像在Part_A上實(shí)現(xiàn)兩個(gè)指標(biāo)的超越,但是仍體現(xiàn)出了不錯(cuò)的性能。具體的對(duì)比結(jié)果如表2所示。其中生成的ShanghaiTech人群密度圖如圖5(a)、(b)所示。另外從表3的密度圖質(zhì)量評(píng)價(jià)指標(biāo)可以看出本文方法可以生成更好的人群密度圖。

      表2 ShanghaiTech估計(jì)誤差

      表3 密度圖質(zhì)量

      2.3.2UCF_CC_50數(shù)據(jù)集

      UCF_CC_50數(shù)據(jù)集包含50幅不同視角不同分辨率的圖片。每幅圖片標(biāo)注的人數(shù)范圍從94到4 543不等,平均人數(shù)達(dá)到了1 280。通過如前所述方法進(jìn)行數(shù)據(jù)增強(qiáng)以后,由于數(shù)據(jù)集本身圖片數(shù)量較少,因此用與文獻(xiàn)[17]一樣的方法,采用五折交叉驗(yàn)證來驗(yàn)證模型的性能。

      通過對(duì)比本文所提方法與其他主流人群計(jì)數(shù)方法在該數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,本文所提的方法表現(xiàn)出了更好的人群計(jì)數(shù)性能。具體對(duì)比結(jié)果如表4所示。另外UCF_CC_50數(shù)據(jù)集人群密度可視化結(jié)果如圖5(c)所示。由表3的人群密度圖質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)說明,本文方法能產(chǎn)生質(zhì)量更好的人群密度圖。

      表4 UCF_CC_50估計(jì)誤差

      2.3.3UCF-QNRF數(shù)據(jù)集

      UCF-QNRF數(shù)據(jù)集[18]是目前標(biāo)注人群最大的數(shù)據(jù)集。它包含最多樣化的視角、密度和照明變化場(chǎng)景。由于數(shù)據(jù)圖像是在野外現(xiàn)實(shí)場(chǎng)景中捕獲的,所以UCF-QNRF數(shù)據(jù)集包含建筑物、植被、天空和道路,使得圖像的內(nèi)容更加豐富,挑戰(zhàn)難度也隨之增大。該數(shù)據(jù)集共包含1 535幅圖片,其中1 201幅作為訓(xùn)練集,334幅圖像作為測(cè)試集。

      通過比較本文方法與其他方法的實(shí)驗(yàn)結(jié)果可以看出,本文方法表現(xiàn)出了更好的人群計(jì)數(shù)性能。具體結(jié)果如表5所示。除此之外,UCF-QNRF數(shù)據(jù)集人群密度可視化結(jié)果如圖5(d)所示。通過對(duì)比表3的人群密度質(zhì)量評(píng)價(jià)結(jié)果可知,本文方法能夠獲得更好的人群密度圖像質(zhì)量。

      表5 UCF-QNRF估計(jì)誤差

      3 結(jié) 語(yǔ)

      為了提高密集人群計(jì)數(shù)精度和人群密度圖的質(zhì)量,本文提出一種基于深度語(yǔ)義特征多級(jí)融合的人群計(jì)數(shù)網(wǎng)絡(luò)。該方法通過不斷地上采樣降維重建高階語(yǔ)義信息,在提高人群計(jì)數(shù)精度的同時(shí)還提高了模型生成的密度圖質(zhì)量。另外通過在一些公共數(shù)據(jù)集上與其他人群計(jì)數(shù)算法對(duì)比可知,本文提出的人群計(jì)數(shù)網(wǎng)絡(luò)取得了更好的計(jì)數(shù)精度的同時(shí),在多個(gè)數(shù)據(jù)集上也展現(xiàn)出了很好的魯棒性。

      猜你喜歡
      語(yǔ)義卷積人群
      在逃犯
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      糖尿病早預(yù)防、早控制
      語(yǔ)言與語(yǔ)義
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      我走進(jìn)人群
      百花洲(2018年1期)2018-02-07 16:34:52
      財(cái)富焦慮人群
      “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
      認(rèn)知范疇模糊與語(yǔ)義模糊
      修文县| 曲阜市| 墨脱县| 江口县| 奉贤区| 滦平县| 镇沅| 马龙县| 松潘县| 买车| 杂多县| 吉水县| 霞浦县| 景宁| 鄂州市| 涟水县| 肥城市| 昭通市| 南平市| 保康县| 竹北市| 中江县| 罗城| 千阳县| 青海省| 福建省| 米林县| 阿合奇县| 偏关县| 墨脱县| 马龙县| 姚安县| 天祝| 萍乡市| 白河县| 阿城市| 鄂温| 西林县| 荔浦县| 临颍县| 叙永县|