• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于多尺度多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)的人群計數(shù)

      2019-08-01 01:35曹金夢倪蓉蓉楊彪
      計算機應(yīng)用 2019年1期
      關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò)

      曹金夢 倪蓉蓉 楊彪

      摘 要:在智能監(jiān)控領(lǐng)域,實現(xiàn)人群計數(shù)具有重要價值,針對人群尺度不一、人群密度分布不均及遮擋等問題,提出一種多尺度多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(MMCNN)進行人群計數(shù)的方法。首先提出一種新穎的自適應(yīng)人形核生成密度圖描述人群信息,消除人群遮擋影響;其次通過構(gòu)建多尺度卷積神經(jīng)網(wǎng)絡(luò)解決人群尺度不一問題,以多任務(wù)學習機制同時估計密度圖及人群密度等級,解決人群分布不均問題;最后設(shè)計一種加權(quán)損失函數(shù),提高人群計數(shù)準確率。在UCF_CC_50和World Expo10數(shù)據(jù)庫上進行了評估,驗證了自適應(yīng)人形核的有效性。實驗結(jié)果表明:所提算法比最新算法Sindagi等的方法(SINDAGI V A, PATEL V M. CNN-based cascaded multi-task learning of high-level prior and density estimation for crowd counting. Proceedings of the 2017 14th IEEE International Conference on Advanced Video and Signal Based Surveillance. Piscataway, NJ: IEEE, 2017: 1-6)原稿描述算法不準確,需具體寫至某個算法,因為沒有相關(guān)算法的縮寫詞,只有用文獻的具體內(nèi)容來表達了,這兩個文獻是指代文獻[18]和[17]吧?請明確?;貜?fù):正確。在UCF_CC_50數(shù)據(jù)庫上平均絕對誤差(MAE)數(shù)值和均方誤差(MSE)數(shù)值分別降低約1.7和45;與Zhang等的方法(ZHANG Y, ZHOU D, CHEN S, et al. Single-image crowd counting via multi-column convolutional neural network. Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 589-597)相比,在World Expo10數(shù)據(jù)庫上所提算法的MAE值降低約1.5,且在真實公共汽車數(shù)據(jù)庫上僅0~3人的計數(shù)誤差,表明其實用性較強。

      關(guān)鍵詞:人群計數(shù);多尺度;多任務(wù)學習;卷積神經(jīng)網(wǎng)絡(luò);自適應(yīng)人形核;加權(quán)損失函數(shù)

      中圖分類號: TP391.4; TP18

      文獻標志碼:A

      Abstract: Crowd counting has played a significant role in the field of intelligent surveillance. Concerning the problem of scale variation, non-uniform density distribution and partial occlusion of crowds, a method of crowd counting using Multi-scale Multi-task Convolutional Neural Network (MMCNN) was proposed to solve existing challenges in crowd counting. Initially, a novel adaptive human-shaped kernel was used to generate a density map which described the population information, and the partial occlusion was eliminated. Then, scale variation was handled through constructing a multi-scale convolutional neural network and non-uniform density distribution was resolved by the multi-task learning mechanism, which simultaneously estimate the density map and density level of crowds. Further, a weighted loss function was proposed to improve the accuracy of crowd counting. Evaluations in UCF_CC_50 and World Expo10 datasets revealed the effectiveness of the proposed adaptive human-shaped kernel. The experimental results show that, compared with the method proposed by Sindagi et al. (SINDAGI V A, PATEL V M. CNN-based cascaded multi-task learning of high-level prior and density estimation for crowd counting. Proceedings of the 2017 14th IEEE International Conference on Advanced Video and Signal Based Surveillance. Piscataway, NJ: IEEE, 2017: 1-6), the Mean Absolute Error (MAE) and Mean Squared Error (MSE) of the proposed method in UCF_CC_50 dataset is decreased by 1.7 and 45 respectively. Compared with the method proposed by Zhang et al. (ZHANG Y, ZHOU D, CHEN S, et al. Single-image crowd counting via multi-column convolutional neural network. Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 589-597), the MAE of the proposed method in World Expo10 dataset is decreased by 1.5. Simultaneously, evaluations in practical bus videos with an error of approximately 0-3, which verifies the practicability of the proposed counting approach.

      Key words: crowd counting; multi-scale; multi-task learning; Convolutional Neural Network (CNN); adaptive human-shaped kernel; weighted loss function

      0 引言

      在智能監(jiān)控領(lǐng)域,利用計算機技術(shù)進行人群計數(shù)對公共安全具有重要意義,譬如可以控制密集場景下的人群數(shù)目,防止發(fā)生擁擠或踩踏事件,并提供安全預(yù)警。此外,計數(shù)技術(shù)也可用于車輛計數(shù)從而進行交通疏導(dǎo),估計水中微生物數(shù)目以分析水質(zhì)狀況等。

      現(xiàn)有的人群計數(shù)方法通常分為檢測計數(shù)、聚類計數(shù)和回歸計數(shù)[1]三類。前兩種方法適用于稀疏場景下人群計數(shù),但多數(shù)場景(如圖1所示)都存在嚴重遮擋、尺度不一、密度分布不均勻等問題(圖像均從基準數(shù)據(jù)庫中選擇得到)。盡管許多研究人員對基于回歸的人群計數(shù)進行了廣泛的研究,但在特征表示和回歸模型方面仍然存在缺陷。近年來,隨著深度學習的快速發(fā)展,越來越多的人致力于通過卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)自動提取圖像有效特征。

      本文提出的多尺度多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(Multi-scale Multi-task Convolutional Neural Network, MMCNN)能夠較好地解決人群分布不均、人群尺度不一等問題。本文的創(chuàng)新性主要體現(xiàn)在:1)提出一種新穎的自適應(yīng)人形核,生成更符合人群特點的密度圖;2)提出一種多尺度卷積神經(jīng)網(wǎng)絡(luò)預(yù)測人數(shù),結(jié)合多任務(wù)學習機制解決尺度不一、人群分布不均等問題;3)提出一種加權(quán)損失函數(shù),增強估計密度圖的準確性,提高人群估算精度。

      1 前人工作

      傳統(tǒng)人群計數(shù)方法分為三種:通過檢測計數(shù)、通過聚類計數(shù)和通過回歸計數(shù)。

      檢測計數(shù)方法,通過檢測場景中的每個個體實現(xiàn)人群計數(shù)[2]。由于檢測完整個體比較耗時,且易受遮擋影響,Gao等[3]根據(jù)檢測到的人頭數(shù)目估算人數(shù),而Luo等[4]建立頭肩模型估計人數(shù)。盡管基于局部部位檢測計數(shù)的方法對人群遮擋具備魯棒性,但在復(fù)雜背景中精度不高。聚類計數(shù)方法[5]通過將人群聚類估計場景中人群數(shù)量。例如,Rao等[6]提出一種使用運動線索和層次聚類估計人群密度的方法。雖然聚類計數(shù)方法易于實現(xiàn),但該方法需要從密集光流中提取可靠的運動模式,計算過程耗時。

      與上述兩種方法不同,回歸計數(shù)方法旨在學習特定特征和人群計數(shù)之間的直接映射[7],因此能在較為混亂的環(huán)境下進行人群計數(shù)。姬麗娜等[8]使用尺度不變特征變換(Scale-Invariant Feature Transform, SIFT)進行人群數(shù)量估算,Hashemzadeh等[9]基于關(guān)鍵點獲取多種特征組合,估計人群數(shù)量。此外,Shafiee等[10]提出一種新穎的低復(fù)雜度、尺度歸一化的移動梯度直方圖(Histogram of Moving Gradient, HoMG)。這些手動提取的特征在稀疏的人群中獲得較好的表現(xiàn),但不適用于人群密集場景。

      近年來,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)在目標檢測、語義分割等領(lǐng)域取得巨大的成功。對于人群計數(shù),CNN同時訓(xùn)練人群密度和人群數(shù)目兩個相關(guān)目標[11-13]。此外,Sheng等[14]使用CNN計算密集屬性特征圖,構(gòu)建局部感知特征獲取空間上下文信息和人群的局部信息。Kang等[15]則提出一種帶輔助信息的自適應(yīng)卷積神經(jīng)網(wǎng)絡(luò)。與上述專注于向網(wǎng)絡(luò)添加補充信息不同,一些研究人員側(cè)重于網(wǎng)絡(luò)結(jié)構(gòu)改進。時增林等[16]提出一種空間金字塔池化網(wǎng)絡(luò)進行人群計數(shù)。Zhang等[17]則設(shè)計了簡單、有效的多列卷積神經(jīng)網(wǎng)絡(luò),從不同人群密度和角度準確估計靜止圖像中的人群數(shù)目。受其啟發(fā),Ooro-Rubio等[12]提出Hydra-CNN,估計不同尺度下人群密度圖。除了人群尺度不一之外,人群分布不均是影響計數(shù)性能的另一重要問題。Sindagi等[18]提出了級聯(lián)多任務(wù)卷積神經(jīng)網(wǎng)絡(luò),同時估計密度等級和密度圖,而Marsden等[19]提出ResnetCrowd模型,同時預(yù)測人群數(shù)目、密度圖、計數(shù)類別等。

      因此,深度卷積神經(jīng)網(wǎng)絡(luò)能較好地解決不同尺度、人群分布不均情況下計數(shù)不精確的問題。以下將詳細介紹提出的方法,通過嘗試多種改進策略解決當前擁擠人群計數(shù)不準確的問題,并在多個通用數(shù)據(jù)庫上驗證該方法的有效性。

      2 多尺度多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)

      2.1 基于自適應(yīng)人形核的密度圖

      高斯核(如圖2(a)所示)常用于對標記點進行卷積,生成密度圖,該方法適用于描述細胞或細菌等圓形物體的密度分布。Zhang等[11]認為人體形狀更接近于橢圓形,但是在不同尺度場景下,人體形狀存在較大差異。人群密度較稀疏時,人體形狀可以看成一個圓形與橢圓的疊加(如圖2(b)所示),但其無法描述人群存在嚴重遮擋時的情況,因此,針對不同密度人群提出一種新穎的自適應(yīng)人形核(如圖2(c)所示),并通過對標記點進行卷積生成更貼合真實場景的人群密度圖,具體方法如下。

      其中人群密度分布核包含兩項:頭部為歸一化二維核函數(shù)Nh,身體部分為雙變量正態(tài)分布Nb。Pb表示行人身體位置,對于第i個點(一個點表示一個人),Pb由Ph的位置與當前人所處位置密度決定,即Pb=Ph+Di×Mp,Mp為場景透視圖的像素值,Di表示第i個點與其最近的10個(鄰近像素點的個數(shù)選擇主要是通過實驗試湊的方式完成)。實驗通過對與其最近的6、8、10、12個點分別計算平均距離,結(jié)果表明當取10個相鄰點時,獲取的人群密度圖更貼合真實人群密度圖,最終統(tǒng)計出來的人數(shù)更加貼近真實值(在標準數(shù)據(jù)庫上得到了更低的平均絕對誤差)。相鄰點之間的平均距離,由式(2)計算得到:

      其中:dij表示第i和第j個點之間的距離,Di通過max{dij}歸一化,dij越小表示場景越密集。

      為較好地表示行人輪廓,Nh項設(shè)定方差σh=0.2Mp,對于Nb項,σx=(0.6-Di/2)Mp,σy=(0.2+Di/2)Mp。對于稀疏人群,圖像中個體的密度圖如圖2(b)所示;而對于密集人群,圖像中個體的密度圖如圖2(c)所示。如果給定場景不存在透視圖,則基于像素的垂直位置粗略估計密度圖。為確保密度圖中密度值總和的積分等于原始圖像中的總?cè)巳簲?shù)量,整個分布通過場景實際人數(shù)Z進行歸一化。

      2.2 改進的多尺度多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)

      MMCNN模型如圖3所示,不同尺寸的濾波器使用不同的顏色紋理標注,右上角是不同的紋理及其對應(yīng)的特征大小。

      MMCNN模型采用三個不同CNN通道處理不同尺度圖像子塊(原始圖像子塊、1/2原始圖像子塊、1/4原始圖像子塊),每個通道有四個不同大小局部感受野的卷積層。一般來說,具有較大感受野的濾波器對頭部較大的密度圖建模更有效,考慮到第一通道處理的圖像中人群頭部較大,故使用較大局部感受野卷積層提取特征(1個9×9卷積、3個7×7卷積)。為降低計算復(fù)雜度,對于具有較大感受野的CNN通道,

      使用較少數(shù)量的濾波器。每個通道卷積后都連接Dropout層、參數(shù)化線性整流單元(Parametric Rectified Linear Unit, PReLU)激活層[21]和局部響應(yīng)歸一化(Local Response Normalization, LRN)層,且前兩層卷積之后連接步長為2的最大池化層,故不同通道第3層卷積的輸入(Conv1_3、Conv2_3和Conv3_3)是原圖大小的1/4。對于每個通道的最后一個卷積層,采用解卷積運算進行上采樣。解卷積運算次數(shù)取決于第4個卷積層輸出特征的大小。解卷積不僅保證合并的特征大小相同(W×H),還能彌補由于之前的池化操作導(dǎo)致丟失的細節(jié)信息。

      除了解決尺度變化問題,MMCNN以多任務(wù)學習方式聯(lián)合估計人群密度等級和人群密度圖,解決人群分布不均問題。密度圖估計通過將合并的特征輸出到大小為3×3的第5層卷積(Conv5),并且使用3×3濾波器代替1×1濾波器[22],從而估計出密度圖,以此估算人數(shù)。此外,依據(jù)Fu等[23]提出的方法將人群分為6個密度等級:極高密度、高密度、中等密度、低密度、極低密度以及無人情況,對圖像人群密度等級(即擁擠程度)作大致估計,作為輔助信息提高人數(shù)計數(shù)準確率。首先通過一組級聯(lián)卷積濾波器對卷積輸出進行處理,使用高度為3的空間金字塔池化(Spatial Pyramid Pooling, SPP)消除包含全連接層的深層網(wǎng)絡(luò)的固定尺寸約束,此外采用4個全連接層(FC),即FC1(512個神經(jīng)元)、FC2(256個神經(jīng)元)、FC3(32個神經(jīng)元)和FC4(6個神經(jīng)元)。前3個FC層后緊接著PReLU激活層,F(xiàn)C4之后連接sigmoid激活層,表示輸入圖像子塊的人群密度等級。

      2.3 加權(quán)損失函數(shù)

      網(wǎng)絡(luò)通過人群密度圖估計人群個數(shù),本文通過L1-L2加權(quán)損失函數(shù)計算估計的密度圖與其真實值之間的差異,即密度損失函數(shù)Ldensity,定義如下:

      其中:N表示圖像子塊的個數(shù),O表示網(wǎng)絡(luò)參數(shù),Pi表示第i個圖像子塊,F(xiàn)d(Pi,O)表示估計的密度圖,D(Pi)表示真實值?!ぁ?表示L2范數(shù),用于促使估計的密度圖逼近人群真實分布,‖·‖1表示L1范數(shù),用于增強估計的密度圖的細節(jié)信息,權(quán)重α根據(jù)交叉驗證設(shè)定為0.6。

      網(wǎng)絡(luò)通過密度等級劃分解決人群分布不均問題,使用交叉熵損失計算估計的密度等級與其真實值之間的差異,即密度等級損失函數(shù)Llevel,定義如下:

      其中:M表示密度等級數(shù)(文中設(shè)定為5個等級),F(xiàn)c(Pi,O)表示Pi的密度等級,Y(Pi)表示真實值。

      總的損失函數(shù)Ltotal通過將式(3)與式(4)所得損失加權(quán)得到,定義為:

      其中,λ1與λ2分別表示密度損失函數(shù)與密度等級損失函數(shù)的權(quán)重,由于估計人群密度圖為多任務(wù)學習中的主要任務(wù),而估計人群密度等級為輔助任務(wù),因此本文令λ1=0.7,λ2=0.3。

      2.4 訓(xùn)練及測試細節(jié)

      訓(xùn)練階段對人群圖像進行不重疊采樣,因為重疊采樣存在過多冗余信息,容易導(dǎo)致模型泛化能力差[18]。通過將人群圖像等分為16個圖像子塊(如圖4(a)所示),對每個圖像子塊,計算其密度圖以及人群密度等級。最后將所有圖像子塊和對應(yīng)的真實標記同時輸入網(wǎng)絡(luò),以多任務(wù)學習的方式進行訓(xùn)練。

      測試階段以相同步幅對輸入圖像進行重疊采樣(如圖4(b)所示)。依次采樣黑色方框、紅色點線框、黃色虛線框內(nèi)的圖像子塊,以此類推(每兩個圖像子塊之間的步長設(shè)為10個像素點)。將所有圖像子塊的密度圖疊加獲得整張圖像的密度圖,對于重疊部分,將該處密度值除以重疊次數(shù)進行歸一化。

      訓(xùn)練及測試階段均通過對整張人群圖像的密度值進行積分求和計算全局人群數(shù)量。需要注意的是,人群總數(shù)是一個小數(shù),而非整數(shù)。

      2.5 參數(shù)設(shè)置

      模型使用Ubuntu系統(tǒng)下Caffe框架及CUDNN5.1、CUDA8.0在配備有i7-7700K CPU、NVIDIA GTX 1080 GPU的臺式機上運行,顯卡顯存為8GB。由于顯存不夠大,在訓(xùn)練階段設(shè)定batchsize為16,為提高模型擬合速度,使用常數(shù)項為0.9的沖量,并通過常數(shù)項為0.05的權(quán)重衰減控制模型過擬合。表1詳細地列出了模型的參數(shù)。MSRA用于每個卷積層的初始化。

      3 實驗結(jié)果分析

      3.1 評價指標

      實驗中采用平均絕對誤差(Mean Absolute Error, MAE)和均方誤差(Mean Squared Error,MSE)兩個指標評估不同方法的有效性,指標定義如下:

      其中:Nt是測試圖片個數(shù),zn是第n張圖片中真實的人數(shù),n是第n張圖片中估計的人數(shù)。總的來說,MAE表明估計的準確性,而MSE表明估計的魯棒性。

      3.2 數(shù)據(jù)庫

      采用兩個基準數(shù)據(jù)庫驗證網(wǎng)絡(luò)的有效性,并通過對真實場景下公交車上的人數(shù)估算驗證網(wǎng)絡(luò)的實用性。

      1)UCF_CC_50數(shù)據(jù)庫。該數(shù)據(jù)庫由Idrees等[24]提出,包含50幅圖像,由于圖中人數(shù)變化很大而且多數(shù)圖像人群密集,故具有較大挑戰(zhàn),人數(shù)由94到4543人不等。

      2)World Expo10數(shù)據(jù)庫。該數(shù)據(jù)庫由Zhang等[17]提出,包含來自2010年上海世博會的108個攝像機拍攝的1132個視頻序列,人數(shù)由1到253人不等。

      3)公交車視頻。該數(shù)據(jù)庫包含來自公交車上前后兩個固定攝像頭拍攝的7個監(jiān)控視頻,共計近15000幅圖像,人數(shù)由0到25人不等。

      3.3 模型評估

      3.3.1 自適應(yīng)人形核有效性測試

      不同核函數(shù)在公共數(shù)據(jù)庫上的計數(shù)結(jié)果如表2所示。顯而易見,自適應(yīng)人形核比其他核函數(shù)有較好的效果,尤其在擁擠的UCF_CC_50數(shù)據(jù)庫上效果顯著。

      3.3.2 多尺度策略有效性測試

      如表3所示,通過對網(wǎng)絡(luò)三個通道的不同尺度與多尺度改進策略在公共數(shù)據(jù)庫上的計數(shù)結(jié)果比對,不難發(fā)現(xiàn),多尺度策略比單一尺度具有明顯的改進效果。

      3.4 UCF_CC_50數(shù)據(jù)庫評估

      一些典型的密度估計結(jié)果如圖5所示。圖5中第一行表示原始人群圖像,第二行表示密度圖真實值,第三行表示估計的密度圖??偟膩碚f,估計的密度圖大致接近真實密度圖的分布和強度(真實密度圖由公共數(shù)據(jù)庫提供的標簽值生成),表明構(gòu)建的網(wǎng)絡(luò)在劇烈的尺度變化和不均勻密度分布下同樣可以預(yù)測擁擠人群的數(shù)量。圖5(a)真實值1566人,估計值1525人;圖5(b)真實值1543人,估計值1823人;圖5(c)真實值3406人,估計值2807人。不難發(fā)現(xiàn),圖5(c)中估計密度圖與真實值有明顯的偏差。通過比較原圖發(fā)現(xiàn)某些特定區(qū)域人群過于模糊,導(dǎo)致網(wǎng)絡(luò)無法有效捕獲信息。

      在UCF_CC_50數(shù)據(jù)庫上與其他方法的實驗結(jié)果對比如表4所示。Zhang等[17]通過三個不同的CNN通道學習不同大小的特征;Ooro-Rubio等[12]采用多尺度非線性回歸模型解決尺度不一問題,但無法適應(yīng)人群分布不均的場景,魯棒性較差;Sindagi等[18]提出級聯(lián)多任務(wù)卷積神經(jīng)網(wǎng)絡(luò),同時估計密度等級和密度估計,取得較低的MAE值;本文方法不僅考慮尺度問題,同時使用多任務(wù)學習方式聯(lián)合人群密度等級劃分與密度圖估計,并以一種新穎的自適應(yīng)人形核模擬密集、稀疏場景下的人群分布,生成更貼合真實場景的人群密度圖,故在MAE值和MSE值上均達到最較佳性能。

      3.5 World Expo10數(shù)據(jù)庫評估

      一些典型的密度估計結(jié)果如圖6所示。圖6(a)真實值24人,估計值30人;圖6(b)真實值214人,估計值220人;圖6(c)真實值74人,估計值79人。圖6(a)中錯將欄桿檢測為行人,表明該網(wǎng)絡(luò)未能將背景與前景區(qū)分,這也是今后工作的重點之一。

      在World Expo10數(shù)據(jù)庫上與其他較新方法的實驗結(jié)果對比如表45所示。本文提出的網(wǎng)絡(luò)受Zhang等[11]的啟發(fā),在多列CNN網(wǎng)絡(luò)[17]基礎(chǔ)上添加多任務(wù)學習機制,取得更小的MAE值,達到目前方法最較優(yōu)性能。

      3.6 真實公共汽車數(shù)據(jù)庫評估

      公共汽車數(shù)據(jù)庫人群圖像示例如圖7所示。

      某場景下預(yù)測人數(shù)與真實人數(shù)對比如圖8所示。顯然網(wǎng)絡(luò)能基本預(yù)測真實場景下人群個數(shù),誤差約0~3人。通過觀察可以發(fā)現(xiàn),真實場景下的視頻轉(zhuǎn)換獲得的圖片清晰度較差且背景干擾較大,且在車尾攝像頭拍攝的場景下由于車后半部分臺階影響,存在嚴重的遮擋。盡管實驗中對圖像的透視畸變進行矯正[26],但對車尾臺階上的人仍不太適用,這也是今后工作的重點之一。

      4 結(jié)語

      本文提出一種自適應(yīng)人形核模擬不同密度情況下的人群分布狀況,與傳統(tǒng)核函數(shù)對比,表明自適應(yīng)人形核更能生成貼合真實場景人群分布的密度圖。通過采用三個不同通道處理不同尺度樣本,解決了尺度不一問題;以多任務(wù)學習聯(lián)合估計密度圖與人群密度等級,解決了人群分布不均問題;然后利用一種加權(quán)損失函數(shù)提高估計的密度圖的精度,進而提高了人群預(yù)測準確率;最后,在基準數(shù)據(jù)庫上與較新的人群計數(shù)方法進行了對比。實驗結(jié)果表明本文方法具有較高的計數(shù)性能,同時在真實公共汽車數(shù)據(jù)庫上預(yù)測人數(shù),驗證了該方法的實用性良好。

      參考文獻 (References)

      [1] RYAN D, DENMAN S, SRIDHARAN S, et al. An evaluation of crowd counting methods, features and regression models [J]. Computer Vision and Image Understanding, 2015, 130(C): 1-17.

      [2] FELZENSZWALB P F, GIRSHICK R B, MCALLESTER D, et al. Object detection with discriminatively trained part-based models [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627-1645.

      [3] GAO C, LIU J, FENG Q, et al. People-flow counting in complex environments by combining depth and color information [J]. Multimedia Tools and Applications, 2016, 75(15): 9315-9331.

      [4] LUO J, WANG J, XU H, et al. Real-time people counting for indoor scenes [J]. Signal Processing, 2016, 124: 27-35.

      [5] ANTIC B, LETIC D, CULIBRK D, et al. K-means based segmentation for real-time zenithal people counting[C]// Proceedings of the 2009 16th IEEE International Conference on Image Processing. Piscataway, NJ: IEEE, 2009: 2565-2568.

      [6] RAO A S, GUBBI J, MARUSIC S, et al. Estimation of crowd density by clustering motion cues [J]. The Visual Computer, 2015, 31(11): 1533-1552.

      [7] CHAN A B, LIANG Z S J, VASCONCELOS N. Privacy preserving crowd monitoring: counting people without people models or tracking[C]// Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2008: 1-7.

      [8] 姬麗娜,陳慶奎,陳圓金,等.基于GPU的視頻流人群實時計數(shù)[J].計算機應(yīng)用,2017,37(1):145-152.(JI L N, CHEN Q K, CHEN Y J, et al. Real-time crowd counting method from video stream based on GPU[J]. Journal of Computer Applications, 2017, 37(1): 145-152.)

      [9] HASHEMZADEH M, FARAJZADEH N. Combining keypoint-based and segment-based features for counting people in crowded scenes[J]. Information Sciences, 2016, 345: 199-216.

      [10] SIVA P, SHAFIEE M J, JAMIESON M, et al. Scene invariant crowd segmentation and counting using scale-normalized Histogram of Moving Gradients (HoMG)[J]. ArXiv Preprint, 2016, 2016: 1602.00386.

      [11] ZHANG C, LI H, WANG X, et al. Cross-scene crowd counting via deep convolutional neural networks[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 833-841.

      [12] OORO-RUBIO D, LPEZ-SASTRE R J. Towards perspective-free object counting with deep learning[C]// Proceedings of the 2016 European Conference on Computer Vision. Berlin: Springer, 2016: 615-629.

      [13] HU Y, CHANG H, NIAN F, et al. Dense crowd counting from still images with convolutional neural networks[J]. Journal of Visual Communication and Image Representation, 2016, 38: 530-539.

      [14] SHENG B, SHEN C, LIN G, et al. Crowd counting via weighted VLAD on dense attribute feature maps[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2016, 28(8): 1788-1797.

      [15] KANG D, DHAR D, CHAN A B. Crowd counting by adapting convolutional neural networks with side information[J]. ArXiv Preprint, 2016, 2016: 1611.06748.

      [16] 時增林,葉陽東,吳云鵬,等.基于序的空間金字塔池化網(wǎng)絡(luò)的人群計數(shù)方法[J].自動化學報,2016,42(6):866-874.(SHI Z L, YE Y D, WU Y P, et al. Crowd counting using rank-based spatial pyramid pooling network[J]. Acta Automatica Sinica, 2016, 42(6): 866-874.)

      [17] ZHANG Y, ZHOU D, CHEN S, et al. Single-image crowd counting via multi-column convolutional neural network[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 589-597.

      [18] SINDAGI V A, PATEL V M. CNN-based cascaded multi-task learning of high-level prior and density estimation for crowd counting[C]// Proceedings of the 2017 14th IEEE International Conference on Advanced Video and Signal Based Surveillance. Piscataway, NJ: IEEE, 2017: 1-6.

      [19] MARSDEN M, MCGUINNESS K, LITTLE S, et al. ResnetCrowd: a residual deep learning architecture for crowd counting, violent behaviour detection and crowd density level classification[C]// Proceedings of the 2017 14th IEEE International Conference on Advanced Video and Signal Based Surveillance. Piscataway,NJ:IEEE, 2017: 1-7.

      [20] ZHANG Y, ZHOU D, CHEN S, et al. Single-image crowd counting via multi-column convolutional neural network[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 589-597.

      [21] ZEILER M D, RANZATO M, MONGA R, et al. On rectified linear units for speech processing[C]// Proceedings of the 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2013: 3517-3521.

      [22] WANG T, LI G, LEI J, et al. Crowd counting based on MMCNN in still images[C]// Proceedings of the 2017 Scandinavian Conference on Image Analysis. Berlin: Springer, 2017: 468-479.

      [23] FU M, XU P, LI X, et al. Fast crowd density estimation with convolutional neural networks [J]. Engineering Applications of Artificial Intelligence, 2015, 43: 81-88.

      [24] IDREES H, SALEEMI I, SEIBERT C, et al. Multi-source multi-scale counting in extremely dense crowd images[C]// Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2013: 2547-2554.

      [25] KANG D, MA Z, CHAN A B. Beyond counting: comparisons of density maps for crowd analysis tasks — counting, detection, and tracking [J]. IEEE Transactions on Circuits & Systems for Video Technology, 2017, PP(99):1-1.

      [26] 覃勛輝,王修飛,周曦,等.多種人群密度場景下的人群計數(shù)[J].中國圖象圖形學報,2013,18(4):392-398.(QIN X H, WANG X F, ZHOU X, et al. Counting people in various crowed density scenes using support vector regression[J]. Journal of Image and Graphics, 2013, 18(4):392-398.)

      猜你喜歡
      卷積神經(jīng)網(wǎng)絡(luò)
      基于深度神經(jīng)網(wǎng)絡(luò)的微表情識別
      卷積神經(jīng)網(wǎng)絡(luò)中減少訓(xùn)練樣本時間方法研究
      卷積神經(jīng)網(wǎng)絡(luò)語言模型研究
      基于卷積神經(jīng)網(wǎng)絡(luò)的車輛檢索方法研究
      基于卷積神經(jīng)網(wǎng)絡(luò)溫室智能大棚監(jiān)控系統(tǒng)的研究
      基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識別算法
      深度學習算法應(yīng)用于巖石圖像處理的可行性研究
      基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實現(xiàn)
      深度學習技術(shù)下的中文微博情感的分析與研究
      基于卷積神經(jīng)網(wǎng)絡(luò)的樹葉識別的算法的研究
      册亨县| 罗平县| 白城市| 台南县| 景泰县| 冷水江市| 四川省| 凤城市| 桂阳县| 新民市| 井研县| 承德县| 钟祥市| 博乐市| 临清市| 崇左市| 盘山县| 卢湾区| 清镇市| 沂南县| 鄂温| 衡水市| 太康县| 资中县| 雷州市| 县级市| 太湖县| 高阳县| 深水埗区| 山西省| 前郭尔| 特克斯县| 西充县| 馆陶县| 阿克陶县| 垣曲县| 佛学| 华池县| 邮箱| 黎川县| 文登市|