• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于卷積神經(jīng)網(wǎng)絡(luò)的實(shí)時(shí)人群密度估計(jì)

      2018-09-17 11:35:46李白萍韓新怡吳冬梅
      圖學(xué)學(xué)報(bào) 2018年4期
      關(guān)鍵詞:密度估計(jì)實(shí)時(shí)性卷積

      李白萍,韓新怡,吳冬梅

      ?

      基于卷積神經(jīng)網(wǎng)絡(luò)的實(shí)時(shí)人群密度估計(jì)

      李白萍,韓新怡,吳冬梅

      (西安科技大學(xué)通信與信息工程學(xué)院,陜西 西安 710054)

      針對傳統(tǒng)實(shí)時(shí)人群密度估計(jì)方法存在誤差大、分類效果不佳等缺陷,提出了基于卷積神經(jīng)網(wǎng)絡(luò)的實(shí)時(shí)人群密度估計(jì)方法。通過對比4種常見網(wǎng)絡(luò)結(jié)構(gòu):AlexNet、VGGNet、GoogLeNet和ResNet的準(zhǔn)確度與實(shí)時(shí)性,選擇綜合性較好的GoogLeNet作為人群密度估計(jì)的模型,利用關(guān)鍵幀截取技術(shù)實(shí)現(xiàn)人群密度的實(shí)時(shí)估計(jì)并簡要分析人群密度特征圖。最后用實(shí)例驗(yàn)證了該方法的實(shí)時(shí)性與準(zhǔn)確度,證明了其可行性。

      人群密度;卷積神經(jīng)網(wǎng)絡(luò);視頻處理;實(shí)時(shí)估計(jì)

      1 研究背景

      人群密度作為描述人群聚集程度的參數(shù),可以用來衡量人群的可控性與安全性。當(dāng)人群密度上升時(shí),人的不適程度也會(huì)隨之增加,人群會(huì)更不穩(wěn)定、不易控制。FRUIN[1]提出人群密度達(dá)到7.5人/m2時(shí),人群易失去控制,發(fā)生災(zāi)難性事件的潛在可能性較大。傳統(tǒng)的人群密度估計(jì)方法采用人工統(tǒng)計(jì)法,費(fèi)時(shí)、費(fèi)力且效率低下。近幾年,人工智能正處于蓬勃發(fā)展的時(shí)期,特別是深度學(xué)習(xí),已在圖像處理領(lǐng)域取得了巨大的成功。目前,深度學(xué)習(xí)也逐漸被用于視頻分析上,并取得了一定的成果。因此,可考慮利用深度學(xué)習(xí)良好的圖像處理能力對視頻中人群進(jìn)行密度估計(jì)。

      大多數(shù)人群密度估計(jì)方法是將人群看作一個(gè)整體,尋找某種可以描述整個(gè)人群的特征,然后建立此特征與人群密度之間的關(guān)系,利用此關(guān)系估計(jì)人群密度。根據(jù)所選特征的不同,常規(guī)的人群密度估計(jì)方法分為像素統(tǒng)計(jì)法[2]和紋理分析法[3]。像素統(tǒng)計(jì)法的核心是認(rèn)為人群前景圖像的像素?cái)?shù)與人群密度存在正比例關(guān)系,借由計(jì)算整幅圖像中人群前景像素?cái)?shù)所占的比例大小,估計(jì)出人群密度。雖然此方法直觀易理解,但當(dāng)人群遮擋情況嚴(yán)重時(shí),人群前景圖像的像素?cái)?shù)無法真實(shí)反映人群密度情況,存在估計(jì)不準(zhǔn)確的現(xiàn)象。紋理分析法的思想是將密度與人群圖像的紋理特征聯(lián)系起來,當(dāng)人群密度高時(shí),圖像的紋理較細(xì),反之紋理較粗。一般來說,紋理分析主要采用較為傳統(tǒng)的灰度共生矩陣法(gray level dependence matrix, GLDM)[4],紋理粗時(shí)矩陣變化較為緩慢,反之則變化快。GLDM能夠很好地解決人群的重疊遮擋問題,在人群密度大時(shí)有良好的效果,但當(dāng)人群密度較低時(shí),此方法并不能保證良好的效果。上述兩種方法均是人工從視頻圖像上提取預(yù)先劃定好的特征,送入合適的分類器中分類。但人群場景較為復(fù)雜,人工選取的特征并不一定能完全地適用于各種情形,如像素統(tǒng)計(jì)法和紋理分析法均存在短板,且很難統(tǒng)一。

      使用卷積神經(jīng)網(wǎng)絡(luò)處理靜態(tài)人群圖片能克服上述缺點(diǎn),但靜態(tài)圖片不能滿足實(shí)際生活中的實(shí)時(shí)性要求。為此,本文使用卷積神經(jīng)網(wǎng)絡(luò),對視頻的關(guān)鍵幀進(jìn)行處理,完成視頻上的人群密度估計(jì)。且使用PETS2009視頻庫[5]中的視頻作為研究對象,將帶標(biāo)簽的視頻幀作為卷積神經(jīng)網(wǎng)絡(luò)的輸入訓(xùn)練模型,提取出可表征人群密度的特征,輸出則為人群密度的5個(gè)類別:Very Low (VL),Low (L),Medium (M),High (H),Very High (VH)。相比于常規(guī)方法,深度學(xué)習(xí)對人群視頻有較好的適應(yīng)性和魯棒性,可以克服上述兩種常規(guī)方法的缺點(diǎn),能夠真實(shí)地估計(jì)出人群密度情況。

      2 卷積神經(jīng)網(wǎng)絡(luò)模型的選取

      2.1 卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)

      卷積神經(jīng)網(wǎng)絡(luò)都是用卷積層、池化層等基本部件堆疊起來的結(jié)構(gòu)。其均是前向傳播計(jì)算輸出值,后向傳播調(diào)整權(quán)重與偏置。卷積層中包含多個(gè)卷積核,其分別與輸入進(jìn)行卷積,生成對應(yīng)的特征圖。設(shè)輸入為×的矩陣,卷積核的大小為×,偏置為1,卷積后可得到大小為(–+1)×(–+1)的特征圖。計(jì)算過程如下

      其中,F是為特征圖矩陣中的元素;I為輸入層與卷積核相對應(yīng)的元素;為激活函數(shù)。

      池化層是對原始特征圖的二次特征提取,使用一個(gè)新的特征代替小區(qū)域的總體特征。池化后的高層特征圖降低原特征圖的維度,避免過擬合問題。池化的方法分為平均池化和最大池化[6]:平均池化是對需要池化的區(qū)域中的左右元素求和,取平均數(shù)為最終特征;最大池化是取池化區(qū)域中最大的元素為特征。兩者的計(jì)算過程如下

      其中,為原始特征圖經(jīng)過步長為、池化區(qū)域?yàn)椤?、偏置?的池化層所得到的子采樣特征圖;max=1(F)為原始特征圖池化區(qū)域×中的最大元素。

      雖然采用的部件基本相同,但不同的網(wǎng)絡(luò)結(jié)構(gòu)由于卷積層尺寸大小和網(wǎng)絡(luò)深度之間的差異,對同一數(shù)據(jù)集會(huì)呈現(xiàn)出不同的效果。目前,較為經(jīng)典的網(wǎng)絡(luò)結(jié)構(gòu)有AlexNet、GoogLeNet、VGGNet和ResNet,由于其深度、參數(shù)量以及模型大小各異,因此需選擇一個(gè)較為合適的結(jié)構(gòu)完成視頻上的人群密度估計(jì)。

      2.2 基于準(zhǔn)確度考慮

      對于人群密度估計(jì),首先要保證密度估計(jì)準(zhǔn)確無誤。AlexNet、GoogLeNet、VGGNet和ResNet這些結(jié)構(gòu)在歷年的ImageNet挑戰(zhàn)賽均取得過很好的成績,在ImageNet 1000類別數(shù)據(jù)集上的top-5錯(cuò)誤率均可達(dá)到17%以下。但本文使用的PETS2009數(shù)據(jù)集規(guī)模遠(yuǎn)小于ImageNet,且類別更細(xì)化,因此需要網(wǎng)絡(luò)有更好的特征提取能力。

      從特征提取角度來看,網(wǎng)絡(luò)越深,提取特征的能力越強(qiáng),最終的分類結(jié)果也就越好。另外,網(wǎng)絡(luò)路徑數(shù)目的增加也成為卷積神經(jīng)網(wǎng)絡(luò)的一種設(shè)計(jì)趨勢,人們在增加網(wǎng)絡(luò)深度的同時(shí)擴(kuò)增網(wǎng)絡(luò)中的分支數(shù)量,使得模型的精度大幅度提高[7]。以下是對上述各網(wǎng)絡(luò)在準(zhǔn)確度和網(wǎng)絡(luò)深度與結(jié)構(gòu)上的討論。

      (1) AlexNet的深度為8層,前5層是卷積層,后3層是全連接層,在最后一個(gè)連接層可輸出1 000個(gè)類別;AlexNet的網(wǎng)絡(luò)分支較少,屬于簡單的鏈?zhǔn)浇Y(jié)構(gòu)。其在ImageNet上分類測試的top-5、top-1錯(cuò)誤率分別為15.3%和36.7%[8]。單從準(zhǔn)確度來看,AlexNet的效果并不十分出色,但其是第一個(gè)大規(guī)模卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),且思想對后續(xù)的網(wǎng)絡(luò)結(jié)構(gòu)具有指導(dǎo)作用,如第一次采用Dropout減少過擬合,使用ReLU加快網(wǎng)絡(luò)的收斂速度等。

      (2) VGGNet有6種網(wǎng)絡(luò)配置,這些網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)原則均相同,不同的是網(wǎng)絡(luò)深度,最深可達(dá)19層。目前,較為常用的深度分別為16層和19層。VGGNet由AlexNet發(fā)展而來,也為鏈?zhǔn)浇Y(jié)構(gòu),網(wǎng)絡(luò)不存在額外分支,從輸入到輸出只有一條路徑。VGGNet在分類與識(shí)別任務(wù)中均取得了不俗的成績:效果最好的16層的VGGNet-D的top-5、 top-1錯(cuò)誤率可分別低至7.3%和24.8%[9]。VGGNet取得如此優(yōu)秀的結(jié)果,不僅是因?yàn)榫W(wǎng)絡(luò)深,也因?yàn)槠涫褂昧硕鄠€(gè)小尺寸卷積核代替一個(gè)大尺寸卷積核,在增加網(wǎng)絡(luò)非線性能力的同時(shí)減少了參數(shù)。

      (3) GoogLeNet深度有22層,與前兩種網(wǎng)絡(luò)不同,GoogLeNet的路徑分支眾多,如圖1所示,Inception結(jié)構(gòu)增加了網(wǎng)絡(luò)的寬度,寬度與深度共同提升了GoogLeNet的性能。

      圖1 GoogLeNet的Inception結(jié)構(gòu)

      (4) 在Inception結(jié)構(gòu)中,使用了大小不同的卷積核,可融合不同尺度的特征,提高網(wǎng)絡(luò)性能。GoogLeNet在ImageNet上分類的top-5錯(cuò)誤率僅為6.66%[10],可見其性能十分優(yōu)秀,深而寬的網(wǎng)絡(luò)結(jié)構(gòu)可以有效地提取和融合不同尺寸的特征,符合人群密度分類任務(wù)的要求。

      (5) ResNet深度可達(dá)152層,引入身份捷徑鏈接”(identity shortcut connection)解決了梯度彌散問題,使網(wǎng)絡(luò)深度增加的同時(shí)性能不退化。最終,ResNet的top-5錯(cuò)誤率為3.6%[11]。

      2.3 基于實(shí)時(shí)性考慮

      實(shí)時(shí)性是影響視頻人群密度分類準(zhǔn)確性的重要因素。對于視頻,分類計(jì)算耗時(shí)長,將會(huì)導(dǎo)致預(yù)測結(jié)果滯后于視頻內(nèi)容,與實(shí)際結(jié)果偏差過大。因此,所選取的網(wǎng)絡(luò)結(jié)構(gòu)要在保證準(zhǔn)確度的同時(shí)高效運(yùn)算。網(wǎng)絡(luò)的深度對計(jì)算速度有著重要影響,一般而言,層數(shù)越多計(jì)算耗時(shí)越長[12]。另外,參數(shù)量也能反映計(jì)算效率,參數(shù)越多,計(jì)算開銷越大,效率就越低。以下是關(guān)于4種網(wǎng)絡(luò)運(yùn)算效率的討論。

      (1) AlexNet:8層網(wǎng)絡(luò)結(jié)構(gòu)。有3個(gè)全連接層,有60 M以上的參數(shù)量。由于結(jié)構(gòu)層數(shù)最少,計(jì)算耗時(shí)最短,但因全連接層的存在其參數(shù)量并不少。雖然AlexNet實(shí)時(shí)性好,但準(zhǔn)確度在4種網(wǎng)絡(luò)中最低,卷積層少從而特征抽取能力弱,泛化能力也較差。

      (2) VGGNet:深度和網(wǎng)絡(luò)結(jié)構(gòu)使得其計(jì)算單張圖片所需的時(shí)間更長。由于擁有3個(gè)全連接層,參數(shù)量在133 M以上。

      (3) GoogLeNet:參數(shù)量僅為7 M,遠(yuǎn)遠(yuǎn)小于AlexNet和VGGNet。雖然比VGGNet更深,但GoogLeNet的Inception架構(gòu)可以將稀疏矩陣聚類為較為密集的子矩陣來提高網(wǎng)絡(luò)性能,既保持網(wǎng)絡(luò)結(jié)構(gòu)的稀疏性,又利用了密集矩陣的高計(jì)算性能。另外,Inception使用1×1卷積核進(jìn)行降維,使計(jì)算性能大幅提高。一般來說,具有Inception的網(wǎng)絡(luò)比沒有Inception的網(wǎng)絡(luò)速度快2~3倍。GoogLeNet使用average pooling代替全連接層,大幅減少參數(shù)量的同時(shí)將top-1錯(cuò)誤率降低了0.6%。GoogLeNet的計(jì)算速度低于AlexNet,遠(yuǎn)遠(yuǎn)高于VGGNet,加之準(zhǔn)確度高,適合本文任務(wù)的要求。

      (4) ResNet:殘差網(wǎng)絡(luò)越深,分類效果越好。常見的殘差網(wǎng)絡(luò)結(jié)構(gòu)遠(yuǎn)比前3種深,計(jì)算開銷較之更大,準(zhǔn)確度高,但不滿足實(shí)時(shí)性要求。

      綜上,AlexNet可滿足實(shí)時(shí)性,但準(zhǔn)確度不夠高;VGGNet與ResNet的準(zhǔn)確度高,但計(jì)算開銷大,這3種網(wǎng)絡(luò)均不適合本文任務(wù)。GoogLeNet不僅滿足準(zhǔn)確度要求,也滿足實(shí)時(shí)性要求,因此本文選擇GoogLeNet作為在視頻是人群密度分類的核心算法。

      3 人群密度分類

      人群密度分類可建立人群圖像與密度類別之間的某種關(guān)聯(lián),并以此作為衡量標(biāo)準(zhǔn),對新的視頻數(shù)據(jù)或圖像數(shù)據(jù)進(jìn)行人群密度估計(jì)。本文將人群圖像的視頻幀作為輸入,用卷積神經(jīng)網(wǎng)絡(luò)尋找特征,并分析特征圖。

      3.1 人群密度特征圖

      對于人群密度估計(jì),所選取的特征在很大程度上影響著估計(jì)結(jié)果。卷積神經(jīng)網(wǎng)絡(luò)的深層結(jié)構(gòu)能抽取較為抽象的高層非線性特征,其對訓(xùn)練數(shù)據(jù)有著最佳的本征解釋。在卷積神經(jīng)網(wǎng)絡(luò)中,卷積核可以探測特定的形狀、顏色等[13],圖2為訓(xùn)練完成的GoogLeNet模型的第一個(gè)卷積層中的卷積核。特征圖中包含卷積核所抓取到的特征。因此,將已檢測到細(xì)小形狀、顏色的特征圖作為網(wǎng)絡(luò)下一層的輸入,再次通過卷積獲得更為復(fù)雜的特征。經(jīng)過多層之后,抽取出的特征會(huì)變得復(fù)雜抽象。

      圖2 GoogLeNet第一個(gè)卷積層的卷積核

      特征圖可以顯示圖像經(jīng)過不同的卷積核,卷積計(jì)算之后的情形。對特征圖進(jìn)行可視化后,能夠清楚地觀察CNN網(wǎng)絡(luò)的工作過程。如圖像進(jìn)入卷積神經(jīng)網(wǎng)絡(luò)中,經(jīng)過層層卷積、下采樣后,特征圖也相應(yīng)地變得越來越傾向于某個(gè)類別。圖3是取自PETS2009視頻庫中的3幀圖片,分別代表人群密度為低、中、高3種情形。將其送入訓(xùn)練好的GoogLeNet模型,完成分類運(yùn)算后,對圖像經(jīng)過第二個(gè)卷積層后的特征圖進(jìn)行可視化,如圖3所示。

      圖4中彩色區(qū)域?qū)?yīng)著3幀圖片中的人群位置,其形狀與人群形狀相近,人越多,彩色區(qū)域越大,由此可見,人群的某個(gè)特征激活了對應(yīng)該特征圖的卷積核。特征圖中的高亮彩色部分是“敏感”區(qū)域,對其分類結(jié)果的影響遠(yuǎn)大于藍(lán)色區(qū)域。在卷積神經(jīng)網(wǎng)絡(luò)的低層,卷積核提取的特征較為簡單,即線條、形狀及顏色等,因此在特征圖右上角檢測到了某種與人群相似的特征,即高亮區(qū)域。類似于這樣的誤檢區(qū)域會(huì)隨著卷積層數(shù)的增多而減少。越往高層,經(jīng)過的卷積層越多,特征圖越接近于簡單的像素塊。圖5為高密度時(shí)某一高層特征圖。其彩色部分依舊是對分類結(jié)果敏感的部分,但不同的是高層特征圖已不再有人群形狀等細(xì)節(jié)信息,說明高層的卷積核提取的特征更為復(fù)雜,這種特征必然是人群所獨(dú)有的特征。

      圖3 3種密度的人群圖

      圖4 人群圖像的特征圖

      圖5 高密度人群圖像的高層特征圖

      3.2 實(shí)時(shí)人群密度分類

      視頻是由連續(xù)的幀圖像組成的,幀中記錄了視頻里的所有信息,使用卷積神經(jīng)網(wǎng)絡(luò)處理視頻的實(shí)質(zhì)是對其視頻中的幀進(jìn)行處理。但視頻相鄰幀之間圖像的變化非常小,存在一定的冗余信息。實(shí)際上,人群在1 s內(nèi)不會(huì)發(fā)生巨大變化,但視頻1 s內(nèi)至少有25幀,如果將全部的幀送入卷積神經(jīng)網(wǎng)絡(luò),意味著處理一幀圖片的時(shí)間需要低于40 ms才能保證實(shí)時(shí)性。在實(shí)際處理中,不同圖片的處理耗時(shí)并不相同,有些圖片需要更長的處理時(shí)間。處理全部幀必然因?yàn)樘幚砗臅r(shí)而累積與實(shí)際情況的時(shí)間差,因此,將全部的幀送入模型處理不僅會(huì)加重硬件資源的負(fù)擔(dān),更會(huì)拖慢處理速度,降低實(shí)時(shí)性。為了進(jìn)一步保證人群密度估計(jì)的實(shí)時(shí)性,降低GPU的壓力,本文使用靜態(tài)圖像作為訓(xùn)練數(shù)據(jù)集訓(xùn)練模型,在實(shí)際估計(jì)時(shí)從視頻中每隔固定時(shí)間抽取視頻的一幀,縮放及歸一化處理后送入網(wǎng)絡(luò)進(jìn)行計(jì)算,在保證實(shí)時(shí)性的同時(shí)減小了硬件壓力(圖6)。截取幀時(shí),按照時(shí)序每隔25幀取一幀,盡可能保留時(shí)間信息。預(yù)處理即對圖像的尺寸做歸一化處理,以及對幀圖像的零均值處理。GoogLeNet要求輸入圖像的大小為224×224,因此需要對截取到的幀圖像的尺寸歸一化。數(shù)據(jù)預(yù)處理還包括在RGB 3個(gè)通道上分別減去該維的均值,使彩色幀的每一個(gè)維度都具有零均值。

      4 實(shí)驗(yàn)與分析

      4.1 視頻人群密度估計(jì)實(shí)驗(yàn)

      實(shí)驗(yàn)使用PETS2009數(shù)據(jù)集作為數(shù)據(jù)來源,內(nèi)部有不同時(shí)間、不同視角的人群視頻段,在不同的視角下,視頻中的背景是不相同的。選取4個(gè)視角下共36段視頻作為最終使用的數(shù)據(jù)集。將數(shù)據(jù)集中的所有視頻段按照1︰1的比例分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集。一般訓(xùn)練集中的數(shù)據(jù)要比測試集中的數(shù)據(jù)多,才能使模型學(xué)習(xí)充分。但在本實(shí)驗(yàn)中,由于數(shù)據(jù)集的背景場景較少,因此適當(dāng)減少訓(xùn)練集的數(shù)據(jù)并且增加測試集的數(shù)據(jù),可以更有效的說明模型的泛化能力。在訓(xùn)練集中,將所有樣本分為VL(Very Low)、L(Low)、M(Medium)、H(High)、VH(Very High)5類,分別對應(yīng)人數(shù)為0~8人、9~16人、17~24人、25~32人及≥33人為。對于測試集,選取4個(gè)視頻段,對其按照訓(xùn)練集的標(biāo)準(zhǔn)對幀分類并標(biāo)注,作為測試精度的驗(yàn)證數(shù)據(jù)集;剩余視頻段不分類標(biāo)注,作為實(shí)時(shí)人群密度分類的輸入視頻。實(shí)驗(yàn)使用的網(wǎng)絡(luò)模型有AlexNet、VGGNet和GoogLeNet。實(shí)驗(yàn)平臺(tái)是在Windows 10上用VS2015搭建的Caffe平臺(tái),視頻的讀取預(yù)處理均使用Opencv-Python,GPU為GTX 1080。

      圖6 實(shí)時(shí)估計(jì)流程圖

      直接使用人群數(shù)據(jù)集訓(xùn)練模型不僅收斂速度慢,且極易發(fā)生過擬合,因此實(shí)驗(yàn)使用人群數(shù)據(jù)集在ImageNet預(yù)訓(xùn)練模型上進(jìn)行微調(diào),迭代50 000次后測試精度達(dá)到99%以上時(shí)停止訓(xùn)練。其中,動(dòng)量項(xiàng)為0.9,基礎(chǔ)學(xué)習(xí)速率設(shè)為0.001,學(xué)習(xí)速率調(diào)整策略為均勻分布(step),batch_size設(shè)為32,權(quán)重衰減系數(shù)為0.002。使用預(yù)留的標(biāo)注視頻幀對訓(xùn)練好的模型進(jìn)行精度測試,batch_size為50,最終測試誤差低至2.5%。圖7是模型誤差隨迭代次數(shù)增加的變化。

      圖7 GoogLeNet前10 000次迭代的誤差情況

      使用視頻驗(yàn)證時(shí),每隔25幀截取一幀分別送入AlexNet、VGGNet和GoogLeNet計(jì)算,并將分類結(jié)果顯示在視頻畫面上,效果如圖8所示。實(shí)驗(yàn)14段視頻共截取出1 124幀圖片,分類準(zhǔn)確率為

      從表1和式(4)中可以求出AlexNet的分類準(zhǔn)確率為95.6%,VGGNet的準(zhǔn)確率為96.9%,GoogLeNet的準(zhǔn)確率為97.2%。由此可見,GoogLeNet準(zhǔn)確率較高,能夠克服傳統(tǒng)方法的弊端。

      表1 3種模型的錯(cuò)誤分類幀數(shù)統(tǒng)計(jì)

      4.2 實(shí)時(shí)性實(shí)驗(yàn)

      在使用CUDA對卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算進(jìn)行加速,需要分類計(jì)算的幀圖像平均每張耗時(shí)0.02 s,遠(yuǎn)遠(yuǎn)小于人群變化的時(shí)間,運(yùn)算效率符合實(shí)時(shí)密度估計(jì)的要求。在使用CUDA對卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行加速的情況下,對層數(shù)相對較少的3種結(jié)構(gòu):AlexNet、VGGNet與本文使用的GoogLeNet進(jìn)行了實(shí)時(shí)性實(shí)驗(yàn)。實(shí)驗(yàn)中使用GPU GTX1080,分別對3種網(wǎng)絡(luò)模型處理單幀圖片所需的時(shí)間進(jìn)行比較。3種網(wǎng)絡(luò)結(jié)構(gòu)用相同的訓(xùn)練集進(jìn)行訓(xùn)練,使用相同的50幀圖片進(jìn)行實(shí)驗(yàn),統(tǒng)計(jì)時(shí)間并分別求模型的耗時(shí)均值。實(shí)驗(yàn)結(jié)果見表2。

      表2 平均耗時(shí)比較

      網(wǎng)絡(luò)參數(shù)量(M)平均耗時(shí)(s) AlexNet600.034 VGG-D1380.079 GoogLeNet70.043

      由表2可以看出,GoogLeNet的平均處理時(shí)間為43 ms,略長于AlexNet,但比VGGNet短很多。由平均時(shí)間可看出,網(wǎng)絡(luò)無法在1 s內(nèi)處理完25幀圖像,且在實(shí)驗(yàn)中一些幀的處理時(shí)間達(dá)到了150 ms以上,如果將全部的幀送入網(wǎng)絡(luò)處理,會(huì)造成處理結(jié)果遠(yuǎn)滯后于實(shí)際情況。因此,本文采用在1 s內(nèi)抓取一幀進(jìn)行處理,可以在基本保證實(shí)時(shí)性的情況下反映實(shí)際人群密度情況。

      5 結(jié)束語

      針對人群密度估計(jì),使用卷積神經(jīng)網(wǎng)絡(luò)克服像素統(tǒng)計(jì)法的遮擋問題和紋理分析法在低密度效果不佳的問題,將估計(jì)準(zhǔn)確率提升到96%以上并實(shí)現(xiàn)了對視頻中的人群密度估計(jì)。但文中使用的數(shù)據(jù)集的背景較為理想,沒有考慮視覺畸變問題。同時(shí),使用的數(shù)據(jù)集的背景較為單一,因此在模型泛化上可能存在一定的局限性。人群安全不僅是要關(guān)注人群密度,也需要關(guān)注高密度時(shí)人群的行為,在未來,應(yīng)該將人群密度與人群的運(yùn)動(dòng)分析相結(jié)合,使人群視頻分析更加智能化。

      [1] FRUIN J J. Pedestrian planning and design [M]. New York: Metropolitan Association of Urban Designers and Environmental Planners, 1971: 26-40.

      [2] DAVIES A C, YIN J H, VELASTIN S A. Crowd monitoring using image processing [J]. Electronics & Communication Engineering Journal, 1995, 7(1): 37-47.

      [3] MARANA A N, VELASTIN S A, COSTA L F, et al. Automatic estimation of crowd density using texture [J]. Safety Science, 1998, 28(3): 165-175.

      [4] HARALICK R M. Statistical and structural approaches to texture [J]. Proceedings of the IEEE, 1979, 67(5): 786-804.

      [5] FERRYMAN J, SHAHROKNI A. PETS2009: Dateset and challenge [C]//11th IEEE International Workshop Performance Evaluation of Tracking and Surveillance. New York: IEEE Press, 2010: 1-6.

      [6] BOUREAU Y L, PONCE J, LECUN Y. A theoretical analysis of feature pooling in visual recognition [C]// Proceedings of the 27th International Conference on Machine Learning. New York: ACM Press, 2010: 111-118.

      [7] SMITH L N, TOPIN N. Deep convolution neural networks design patterns [EB/OL]. (2016-11-14) [2017-06-10]. https://arxiv.org/abs/1611.00847.

      [8] KRIZHEVSKY A, SUTSKEVER I, HINTON G. ImageNet classification with deep convolutional neural networks [C]//International Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2012: 1097-1105.

      [9] SIMONYAN K, ZISSERMAN A. Very deep convolution networks for large-scale image recognition [EB/OL]. (2015-04-10) [2016-12-4]. https://arxiv.org/abs/ 1409.1556.

      [10] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolution [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2015: 1-9.

      [11] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition [EB/OL]. (2015-12-10) [2017-01-10]. https://arxiv.org/abs/1512.03385.

      [12] 付敏. 基于卷積圣經(jīng)網(wǎng)絡(luò)的人群密度估計(jì)[D]. 成都: 電子科技大學(xué), 2014.

      [13] 馬海軍. 監(jiān)控場景中人數(shù)統(tǒng)計(jì)算法的研究與應(yīng)用[D]. 合肥: 安徽大學(xué), 2016.

      Real-Time Crowd Density Estimation Based on Convolutional Neural Networks

      LI Baiping, HAN Xinyi, WU Dongmei

      (College of Communication and Information Engineering, Xi’an University of Seience and Technology, Xi’an Shaanxi 710054, China)

      In response to the deficiencies such as big error and poor performance in the traditional method of real-time crowd density estimation, a new one based on CNN is proposed. By comparing the accuracy and real-time of four common network structures—AlexNet, VGGNet, GoogLeNet, and ResNet, the GoogLeNet which has relatively better comprehensive performance is chosen as the model for crowd density estimation. We used the key-frame extraction technology to realize real-time crowd density estimation and briefly analyze the crowd density feature map. Finally, examples are analyzed to verify the real time, accuracy, and feasibility of this new method of real-time crowd density estimation.

      crowd density; convolutional neural networks; video processing; real-time estimation

      TP 391.4

      10.11996/JG.j.2095-302X.2018040728

      A

      2095-302X(2018)04-0728-07

      2017-10-16;

      2017-12-18

      陜西省重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2017GY-095)

      李白萍(1963-),女,廣東廣州人,教授,博士。主要研究方向?yàn)閿?shù)字移動(dòng)通信、數(shù)字圖像處理。E-mail:610135278@qq.com

      猜你喜歡
      密度估計(jì)實(shí)時(shí)性卷積
      中國人均可支配收入的空間區(qū)域動(dòng)態(tài)演變與差異分析
      m-NOD樣本最近鄰密度估計(jì)的相合性
      面向魚眼圖像的人群密度估計(jì)
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      基于規(guī)則實(shí)時(shí)性的端云動(dòng)態(tài)分配方法研究
      基于MATLAB 的核密度估計(jì)研究
      科技視界(2021年4期)2021-04-13 06:03:56
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      基于虛擬局域網(wǎng)的智能變電站通信網(wǎng)絡(luò)實(shí)時(shí)性仿真
      航空電子AFDX與AVB傳輸實(shí)時(shí)性抗干擾對比
      饶河县| 彩票| 敦化市| 济宁市| 剑阁县| 太白县| 浙江省| 青冈县| 汝州市| 普格县| 河间市| 平乐县| 巩留县| 同德县| 松滋市| 焉耆| 梅州市| 游戏| 托克托县| 南岸区| 富平县| 荥阳市| 甘孜| 乃东县| 汽车| 乌兰察布市| 康保县| 丹巴县| 宜都市| 米泉市| 贵德县| 宜兰市| 江达县| 岳阳市| 新丰县| 上犹县| 苏尼特右旗| 林口县| 犍为县| 临江市| 资源县|