張雅俊,高陳強(qiáng),李 佩,劉 江,程 華
(1.重慶郵電大學(xué) 信號與信息處理重慶市重點實驗室,重慶 400065;2.中國艦船研究設(shè)計中心,湖北 武漢 430064)
基于卷積神經(jīng)網(wǎng)絡(luò)的人流量統(tǒng)計
張雅俊1,高陳強(qiáng)1,李 佩1,劉 江1,程 華2
(1.重慶郵電大學(xué) 信號與信息處理重慶市重點實驗室,重慶 400065;2.中國艦船研究設(shè)計中心,湖北 武漢 430064)
在密集場景中,人流量統(tǒng)計往往因無法可靠地檢測行人而使得統(tǒng)計精度不高。針對這一問題,在利用卷積神經(jīng)網(wǎng)絡(luò)技術(shù)基礎(chǔ)上,采用基于頭部檢測的方法進(jìn)行人流量統(tǒng)計。該方法采用級聯(lián)的Adaboost檢測器對人頭目標(biāo)進(jìn)行初步篩選,再用遷移學(xué)習(xí)技術(shù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),并用由卷積神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)構(gòu)成的人頭分類器模型對初步篩選得到的人頭目標(biāo)進(jìn)行精細(xì)識別,提高檢測精度率,利用航跡關(guān)聯(lián)對人頭目標(biāo)進(jìn)行跟蹤統(tǒng)計。實驗結(jié)果表明,該方法能準(zhǔn)確快速地定位到單個行人并具有較高的統(tǒng)計精度。
人流量統(tǒng)計;卷積神經(jīng)網(wǎng)絡(luò)(CNN);Adaboost;遷移學(xué)習(xí);航跡關(guān)聯(lián)
人流量統(tǒng)計是視頻監(jiān)控系統(tǒng)的關(guān)鍵技術(shù)之一,其任務(wù)是利用視頻圖像分析技術(shù)自動統(tǒng)計在某個時間段內(nèi)通過某一場景的行人數(shù)量。由于行人信息是許多行業(yè)中的一個重要信息,因此,該技術(shù)可以廣泛應(yīng)用于商業(yè)、金融業(yè)、餐飲業(yè)以及交通運(yùn)輸業(yè)等領(lǐng)域。
到目前為止,國內(nèi)外學(xué)者對人流量統(tǒng)計技術(shù)展開了大量的研究,相關(guān)技術(shù)逐步加強(qiáng)。但是該技術(shù)在實際應(yīng)用中仍然面臨諸多困難,如光照變化、低分辨率、圖像視角變化、復(fù)雜背景以及行人遮擋等。這些不確定的因素使得人流量統(tǒng)計技術(shù)的研究變得異常困難。
當(dāng)前,學(xué)術(shù)界關(guān)于人流量統(tǒng)計研究方法有很多。其中,基于先檢測后跟蹤的計數(shù)方法是當(dāng)前一種常用的方法。該方法利用已經(jīng)訓(xùn)練好的檢測器模型先檢測后跟蹤,進(jìn)而對通過檢測線或進(jìn)入感興趣區(qū)域(region of interest, ROI)的行人計數(shù)。根據(jù)檢測部位不同,檢測模塊通??梢苑譃轭^部檢測、頭肩檢測以及全身檢測。文獻(xiàn)[1]采用基于頭部檢測和跟蹤的人流量統(tǒng)計方法。通過提取人頭Haar特征[2],訓(xùn)練級聯(lián)的Adaboost[3]檢測器,之后用此檢測器檢測ROI內(nèi)的人頭目標(biāo)并進(jìn)行跟蹤統(tǒng)計。文獻(xiàn)[4]同樣通過頭部檢測的方法進(jìn)行人流量統(tǒng)計。不過,由于此方法需要運(yùn)用人體幾何特征進(jìn)行分割,因此,并不適合于擁擠情況。文獻(xiàn)[5]則是結(jié)合RGB-D圖像信息,通過對人頭檢測及跟蹤從而達(dá)到人流量統(tǒng)計目的。雖然此方法能非常準(zhǔn)確地進(jìn)行人流量統(tǒng)計,但是該方法所使用的深度相機(jī)安裝并不方便,且拍攝視角有限,因此,不適應(yīng)于較大的應(yīng)用場景。文獻(xiàn)[6-7]則采用基于頭肩檢測和跟蹤的方法實現(xiàn)人流量統(tǒng)計。該方法使用具有一定傾斜視角的相機(jī)獲取監(jiān)控圖像,這雖然能避免某些場景下的遮擋問題,但在人群密集的情況下仍然無法避免難以精確檢測和計數(shù)的問題。文獻(xiàn)[8]采用基于全身檢測和跟蹤的方法實現(xiàn)人流量統(tǒng)計。該方法通過設(shè)置在頂端的攝像機(jī)獲取監(jiān)控圖像,利用基于面積和顏色分析的方法對行人實現(xiàn)雙向計數(shù)。該方法在單人或行人稀少、相互不接觸的情況下可以取得較好的檢測效果,但在擁擠情況下,檢測精度率則會下降。文獻(xiàn)[9]同樣采用基于全身檢測和跟蹤的方法實現(xiàn)人流量統(tǒng)計,仍然不能有效地處理嚴(yán)重遮擋的情況。
基于先檢測后跟蹤的方法非常依賴于前期目標(biāo)檢測的效果??煽啃缘哪繕?biāo)檢測往往對整個算法的人流量統(tǒng)計有決定作用。針對當(dāng)前算法在擁擠情況下人流量統(tǒng)計精度不高的問題,本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)的人流量統(tǒng)計方法。為最大程度避免擁擠情況下行人目標(biāo)遮擋問題,本文針對行人頭部進(jìn)行檢測。為可靠進(jìn)行人頭目標(biāo)檢測,我們吸取了目標(biāo)檢測和圖像分類研究領(lǐng)域優(yōu)秀研究成果,采用兩級目標(biāo)檢測方案,即基于Adaboost的快速目標(biāo)檢測和基于CNN與支持向量機(jī)(support vector machine, SVM)結(jié)合的目標(biāo)識別確認(rèn)。不同于我們先前工作,即自己設(shè)計CNN結(jié)構(gòu)并利用正負(fù)樣本訓(xùn)練CNN模型,最終用于本校教室智能人數(shù)分析,在此,我們并不完全重新訓(xùn)練CNN分類器模型。由于重新訓(xùn)練CNN需要標(biāo)注大量樣本,且會造成以往知識的浪費(fèi),為解決樣本不足和數(shù)據(jù)可重用性問題,采用遷移學(xué)習(xí)技術(shù)將教室人數(shù)統(tǒng)計任務(wù)學(xué)習(xí)知識用于現(xiàn)有人流量統(tǒng)計任務(wù)上,增強(qiáng)模型訓(xùn)練效果。最后,通過航跡關(guān)聯(lián)方法對人流跟蹤計數(shù),消除了文獻(xiàn)[10]僅針對單張圖像進(jìn)行處理的局限性。實驗結(jié)果表明,該方法在實際密集監(jiān)控場景下可以取得較好的效果。
本文算法框圖如圖1所示,基于頭部檢測的人流量統(tǒng)計方法主要包括3個模塊:離線訓(xùn)練模塊、在線檢測模塊以及跟蹤計數(shù)模塊。在離線訓(xùn)練模塊階段,正樣本和負(fù)樣本來自于應(yīng)用場景圖像以及網(wǎng)絡(luò)圖像,用來訓(xùn)練級聯(lián)的Adaboost人頭檢測器模型和CNN-SVM人頭分類器模型。其中,在訓(xùn)練CNN-SVM人頭分類器模型時引入遷移學(xué)習(xí)技術(shù),擴(kuò)大樣本知識,減少正負(fù)樣本標(biāo)注,增強(qiáng)訓(xùn)練效果。在線檢測模塊階段,利用已經(jīng)訓(xùn)練好的級聯(lián)Adaboost人頭檢測器模型和CNN-SVM人頭分類器模型依次對待檢測的視頻圖像序列進(jìn)行檢測,得到最終的人頭目標(biāo)。在跟蹤計數(shù)模塊階段,對人頭目標(biāo)進(jìn)行區(qū)域限制和特征匹配,得到關(guān)聯(lián)的人頭航跡,通過航跡信息進(jìn)行人流量統(tǒng)計。
圖1 本文算法框圖Fig.1 Paper algorithm framework
2.1 訓(xùn)練樣本準(zhǔn)備
訓(xùn)練級聯(lián)的Adaboost人頭檢測器所需的正樣本大部分來源于網(wǎng)絡(luò)圖片,少量來自訓(xùn)練集圖片。通過手工標(biāo)注這些圖片中包含不同視角的人頭區(qū)域得到正樣本,其樣本數(shù)為4 408,將其尺寸歸一化到大小為24×24。負(fù)樣本同樣大部分來自于網(wǎng)絡(luò)圖片,而少量來自于訓(xùn)練集,他們均為不包含人頭樣本的背景和其他干擾物圖片,樣本數(shù)為4 173。圖2a和圖2b分別為部分訓(xùn)練正樣本及負(fù)樣本的代表圖像。
圖2 用于訓(xùn)練級聯(lián)的Adaboost人頭檢測器的訓(xùn)練樣本Fig.2 Training samples which are used for training cascade Adaboost head detector
2.2 訓(xùn)練及檢測過程
在準(zhǔn)備好正、負(fù)樣本以后,提取這些正、負(fù)樣本方向梯度直方圖(histogram of oriented gradient, HOG)特征,利用Adaboost算法進(jìn)行訓(xùn)練。訓(xùn)練時,通過調(diào)節(jié)不同的內(nèi)部訓(xùn)練參數(shù),使得粗檢測具有較高的召回率。當(dāng)?shù)玫郊壜?lián)的Adaboost人頭檢測器模型后,利用級聯(lián)的Adaboost人頭檢測器進(jìn)行人頭區(qū)域檢測。檢測時,通過多尺度遍歷整幅圖像產(chǎn)生多個子窗口。提取這些子窗口特征,并輸入到Adaboost人頭檢測器模型中檢測,得到檢測目標(biāo)。在檢測過程中,排除非人頭區(qū)域時,待檢測樣本必須通過每層檢測器設(shè)置的閾值才能夠進(jìn)入下一階段的判斷。這樣可以大大降低虛假目標(biāo)的存在,同時也提高了檢測的速度。
雖然級聯(lián)的Adaboost人頭檢測器具有較高召回率,但它并不能有效排除虛假目標(biāo)的存在,因而需要對檢測目標(biāo)進(jìn)一步分類剔除。
由于CNN具有較好的特征學(xué)習(xí)能力,因此,本文采用CNN作為特征提取器,以實現(xiàn)對初步檢測目標(biāo)的分類處理。在此,并不直接使用CNN作為分類器,而僅將CNN作為特征提取器,用來訓(xùn)練基于CNN特征的線性SVM分類器。由于訓(xùn)練CNN-SVM人頭分類器模型需要大量訓(xùn)練樣本,而完全重新標(biāo)注會耗費(fèi)大量人力,并且在數(shù)據(jù)資源有限的情況下,所標(biāo)樣本中往往包含很多類似的樣本,這不利于分類器模型的訓(xùn)練。因此,使用遷移學(xué)習(xí)技術(shù)將文獻(xiàn)[10]已訓(xùn)練好的CNN人頭檢測模型應(yīng)用到我們的實驗中。遷移學(xué)習(xí),在此顧名思義是為了將從文獻(xiàn)[10]中學(xué)習(xí)到的樣本知識用來幫助現(xiàn)有人流量統(tǒng)計學(xué)習(xí)任務(wù)。這樣,有效減小了重新收集數(shù)據(jù)資料并大量標(biāo)注樣本的必要性。實驗表明,這種通過遷移學(xué)習(xí)技術(shù)擴(kuò)大訓(xùn)練樣本學(xué)習(xí)知識后的CNN-SVM人頭分類器模型具有良好的分類效果。
3.1 訓(xùn)練樣本準(zhǔn)備
用于訓(xùn)練CNN-SVM人頭分類器模型的正樣本與用于訓(xùn)練級聯(lián)的Adaboost檢測器的正樣本一致,其樣本數(shù)為4 408,不同的是,其尺寸為28×28。而全部負(fù)樣本則從級聯(lián)的Adaboost人頭檢測器負(fù)樣本中挖掘得到,其樣本數(shù)為7 867。同樣地,將其尺寸歸一化到大小為28×28。圖3a和圖3b分別為部分訓(xùn)練正樣本和負(fù)樣本的代表圖像。
圖3 用于訓(xùn)練CNN-SVM人頭檢測器的訓(xùn)練樣本Fig.3 Training samples which are used for training CNN-SVM head detector
3.2 訓(xùn)練及檢測過程
測試集圖像經(jīng)過級聯(lián)的Adaboost人頭檢測器后,得到大量候選人頭區(qū)域。將這些候選人頭區(qū)域輸入到CNN-SVM人頭分類器模型,即可得到最終人頭目標(biāo)。在此,為了擴(kuò)大學(xué)習(xí)數(shù)據(jù)樣本知識,受文獻(xiàn)[11]的啟發(fā),使用遷移學(xué)習(xí)方法微調(diào)已有CNN結(jié)構(gòu)模型。由于CNN結(jié)構(gòu)前幾層特征具有通用性,能夠適用于大多數(shù)數(shù)據(jù)集及任務(wù),只是后幾層網(wǎng)絡(luò)特征與特定數(shù)據(jù)有關(guān),因此,通過初始化CNN前面幾層網(wǎng)絡(luò)結(jié)構(gòu),而保持后幾層網(wǎng)絡(luò)結(jié)構(gòu)不變,使之具有增強(qiáng)性。其網(wǎng)絡(luò)結(jié)構(gòu)主要包括2層卷積層(分別記為Conv1和Conv2)和3層全連接層。Conv1由20個5×5×3的濾波器組成,Conv2由50個5×5×20的濾波器組成。圖像在分別經(jīng)過卷積處理后,會經(jīng)由大小為2×2的卷積核進(jìn)行下采樣得到相應(yīng)的特征圖,最后通過全連接層處理后變成500維的特征向量。具體學(xué)習(xí)過程見算法1。
算法1 CNN-SVM學(xué)習(xí)訓(xùn)練算法。
輸入:訓(xùn)練樣本集S{(x1,y1),(x2,y2),…,(xm,ym)},其中,m為樣本總數(shù),yi={-1,+1}。
輸出:最終CNN-SVM分類器f(x)。
1)加載預(yù)訓(xùn)練CNN模型hθ(x)。
2)Fori=1,…,trainingepochs
3) Forj=1,…,numberofbatches
②反向傳播階段:通過梯度下降法極小化殘差更新后面幾層網(wǎng)絡(luò)參數(shù)θ。
4) End For
5)End For
7)提取樣本全連接層特征得T{(z1,y1),(z2,y2),…,(zm,ym)}。
8)將T放入線性SVM中進(jìn)行訓(xùn)練得到CNN-SVM分類器f(x)。
在獲得人頭檢測目標(biāo)后,接下來就是采用跟蹤算法。在人流量統(tǒng)計方法中常用的跟蹤算法有Kalman濾波[12]、Meanshift[13]以及粒子濾波[14]等。其中,Kalman濾波算法和粒子濾波算法計算復(fù)雜度較高,會嚴(yán)重影響運(yùn)行時間,并不適用于實時人流量統(tǒng)計。雖然Meanshift算法跟蹤速度很快,但由于該算法主要利用目標(biāo)的顏色信息進(jìn)行預(yù)測,特征太過單一,且人頭目標(biāo)顏色信息區(qū)分度不高,因此,也并不太適合在復(fù)雜場景下的人流量統(tǒng)計。為均衡計算時間復(fù)雜度以及跟蹤效果,本實驗采用簡單的區(qū)域限制以及特征匹配方法進(jìn)行人流量統(tǒng)計。
在經(jīng)過CNN-SVM分類器模型檢測得到最終的人頭檢測目標(biāo)后,以當(dāng)前檢測目標(biāo)為中心,對此檢測目標(biāo)進(jìn)行歐氏距離限制,得到候選關(guān)聯(lián)人頭匹配區(qū)域。由于相鄰2幀之間行人在時空域上變化不大,本文選取區(qū)域限制半徑K=20,當(dāng)前一幀人頭目標(biāo)滿足(1)式時,成為候選關(guān)聯(lián)人頭
s.t. dist≤K
(1)
(1)式中:dist代表當(dāng)前幀與前一幀人頭目標(biāo)之間的距離;(x1,y1)和(x2,y2)分別代表當(dāng)前幀和前一幀的人頭目標(biāo)的坐標(biāo)。
在確定候選關(guān)聯(lián)人頭后,提取對應(yīng)的CNN人頭特征向量,分別將這些特征向量與當(dāng)前幀中指定人頭的特征向量作相似性度量,得到人頭相關(guān)性系數(shù),相關(guān)性系數(shù)公式為
(2)
在此首先介紹實驗數(shù)據(jù)集,其次分別對比本文使用遷移學(xué)習(xí)技術(shù)和使用文獻(xiàn)[10]方法即未使用遷移學(xué)習(xí)技術(shù)時的檢測結(jié)果及人流量統(tǒng)計結(jié)果。由于可靠性的目標(biāo)檢測往往對整個算法人流量統(tǒng)計有決定性作用,因此,我們同時與當(dāng)前最好的檢測算法之一,即可變形部件模型(deformable part model, DPM)[15]進(jìn)行了實驗對比,用于評估本實驗檢測算法性能。
5.1 監(jiān)控視頻圖像場景數(shù)據(jù)集
本實驗數(shù)據(jù)集來自于火車站、廣場等復(fù)雜場所。該數(shù)據(jù)集包含多種不同圖像背景、人群密集程度、拍攝視角以及人流方向等。為充分說明所提出的算法框架在較復(fù)雜場景下的檢測及統(tǒng)計效果,本實驗選用8個場景簡單、人群稀疏的視頻序列作為訓(xùn)練集;4個包含多種情況的較復(fù)雜場景視頻序列作為測試集,其中測試集每種場景均為300幀圖像。4種不同情況的測試集代表圖像如圖4所示。
圖4 4種不同場景代表圖像Fig.4 Representative images of four different scenarios
5.2 檢測結(jié)果及分析
圖5a為Adaboost檢測結(jié)果示意圖,可以明顯看出,在保證較高召回率的情況下,檢測結(jié)果存在大量虛假目標(biāo);圖5b和圖5c為經(jīng)過CNN-SVM分類器處理后的檢測結(jié)果。經(jīng)過對比可知,圖像在經(jīng)過CNN-SVM分類器處理后能剔除大量的虛假目標(biāo),與此同時,仍存有少量虛假目標(biāo),這部分虛假目標(biāo)大多與人頭目標(biāo)非常類似,比如陰影,很難識別,但是在后期匹配跟蹤計數(shù)過程中,這些虛假目標(biāo)會因無法匹配而被丟棄,從而不會影響實驗結(jié)果。比較圖5b和圖5c可以看出,使用遷移學(xué)習(xí)技術(shù)后的CNN-SVM分類器具有更高的檢測精度率,分類效果更優(yōu)。
本文以精確率(Precision)和召回率(Recall)作為評價人頭檢測指標(biāo)。
(3)
(4)
(3)式和(4)式中:TP為真實正例;FP為錯誤正例;FN為錯誤負(fù)例。即精確率指檢測到的真實人頭目標(biāo)在所有檢測結(jié)果中的比例。召回率指檢測到的真實人頭目標(biāo)在所有人頭目標(biāo)中的比例。當(dāng)精確率越高,說明在所有檢測目標(biāo)中檢測到的真實人頭概率越大;而召回率越高,說明檢測到的真實人頭目標(biāo)越多。表1給出了4種不同場景視頻序列數(shù)據(jù)集的評估結(jié)果,其中,TL和NO_TL分別為使用和未使用遷移學(xué)習(xí)技術(shù)時的評估結(jié)果。
從表1可以看出,使用遷移學(xué)習(xí)技術(shù)后的CNN-SVM分類效果比未使用時的效果在精確率和召回率上都普遍要高很多。這是因為引入遷移學(xué)習(xí)技術(shù)后,擴(kuò)大了樣本學(xué)習(xí)知識,使得分類效果更強(qiáng)。另外,本實驗檢測算法在召回率上優(yōu)于DPM算法,即檢測到的真實人頭目標(biāo)相較DPM模型要多。說明DPM在擁擠情況下檢測分辨率較低的人頭目標(biāo)并不適宜。
圖5 人頭檢測結(jié)果代表圖Fig.5 Representative images of head detection results
scene1scene2scene3scene4PrecisionTL0.58010.43980.59730.5107NO_TL0.35130.20760.45710.4215DPM0.56930.39660.56220.4973RecallTL0.68850.72970.72320.7368NO_TL0.61630.67710.59260.6982DPM0.62740.64010.27200.3486
5.3 人流量統(tǒng)計結(jié)果及分析
用Matlab和C++混合編程的方式在2.6 GHz CPU (E3400),4 GByte RAM的PC機(jī)上執(zhí)行程序。具體為,Adaboost算法以及計數(shù)跟蹤模塊用C++執(zhí)行得到,而CNN-SVM人頭分類器模型訓(xùn)練則是通過Matlab執(zhí)行得到。圖6為人流量計數(shù)場景,只有當(dāng)行人越過檢測線時才會進(jìn)行計數(shù)。最終,通過對4種不同場景視頻序列圖像進(jìn)行測試,得到人流量統(tǒng)計結(jié)果。
表2和表3分別為4種不同場景人流量統(tǒng)計結(jié)果和系統(tǒng)測試時間,其中,GT代表真實值,Res表示統(tǒng)計值,Accu表示準(zhǔn)確率,即統(tǒng)計值與真實值的比值。
從表2可以看出,使用遷移學(xué)習(xí)技術(shù)后的人流量統(tǒng)計準(zhǔn)確率均在0.72以上,且普遍比不使用遷移學(xué)習(xí)技術(shù)時的準(zhǔn)確率要高。表3所示為4種不同場景系統(tǒng)測試時間,其單位為每幀消耗的時間(s)。從表3系統(tǒng)時間上來看,使用遷移學(xué)習(xí)技術(shù)后,系統(tǒng)運(yùn)行時間大多相對較少,但仍存在少數(shù)不穩(wěn)定現(xiàn)象。結(jié)合表1和表2來看,本系統(tǒng)在跟蹤過程中,部分虛假目標(biāo)并不會關(guān)聯(lián)計數(shù),影響計數(shù)結(jié)果,不過某些類似人頭目標(biāo)的干擾物仍有參與匹配計數(shù)。從總體上來看,本系統(tǒng)能比較準(zhǔn)確快速地實現(xiàn)人流量統(tǒng)計。
表2 4種不同場景人流量統(tǒng)計結(jié)果
表3 4種不同場景系統(tǒng)測試時間
本文采用基于檢測的方法實現(xiàn)人流量統(tǒng)計。首先,通過級聯(lián)的Adaboost人頭檢測器實行人頭粗檢測;然后,通過遷移學(xué)習(xí)技術(shù),利用CNN-SVM人頭分類器再次識別,剔除大量的虛假目標(biāo),保證了較高的檢測精度率;最后,根據(jù)人頭信息,對待關(guān)聯(lián)人頭目標(biāo)通過區(qū)域限制以及特征匹配方法準(zhǔn)確地找到關(guān)聯(lián)人頭,得到確定的航跡,大大提高了計數(shù)準(zhǔn)確率。
實驗表明,本文所提出的方法不僅能快速準(zhǔn)確定位到單個行人,而且能對不同的監(jiān)控應(yīng)用場景的人流量實現(xiàn)統(tǒng)計,具有廣泛的實用價值。將來我們會對復(fù)雜場景人流量進(jìn)一步研究,以期在未來的工作中能更加有效解決嚴(yán)重遮擋以及陰影等干擾問題,使得檢測和計數(shù)更加準(zhǔn)確,實時性進(jìn)一步提高。
[1] HAO D, FENG X, FAN W, et al. A fast pedestrians counting method based on haar features and spatio-temporal correlation analysis[C]//ACM International Conference Proceeding Series. Zhangjiajie: Association for Computing Machinery, 2015: 300-303.
[2] MITA T, KANEKP T, HORI O. Joint haar-like features for face detection[C]//Computer Vision. Beijing: IEEE, 2005: 1619-1626.
[3] FREUND Y, SCHAPIRE R E. A decision-theoretic generalization of on-line learning and an application to boosting[J]. Journal of computer and system sciences, 1997, 55(1): 119-139.
[4] HU Y, ZHOU P, ZHOU H. A new fast and robust method based on head detection for people-flow counting system[J]. International Journal of Information Engineering, 2011, 1(1): 33-43.
[5] GAO C, LIU J, FENG Q, et al. People-flow counting in complex environments by combining depth and color information[J]. Multimedia Tools and Applications, 2016, 75(15): 9315-9331.
[6] XU H, LV P, MENG L. A people counting system based on head-shoulder detection and tracking in surveillance video[C]// International Conference on Computer Design and Applications (ICCDA). Qinhuangdao: IEEE, 2010: V1394-V1398.
[7] ZENG C, MA H. Robust head-shoulder detection by pca-based multilevel hog-lbp detector for people counting[C]//International Conference on Pattern Recognition (ICPR). Istanbul: IEEE, 2010: 2069-2072.
[8] CHEN T H, CHEN T Y, CHEN Z X. An intelligent people-flow counting method for passing through a gate[C]//Conference on Robotics, Automation and Mechatronics. Bangkok: IEEE, 2006: 1-6.
[9] WANG Y, ZHANG H. Pedestrian detection and counting based on ellipse fitting and object motion continuity for video data analysis[M]. Intelligent Computing Theories and Methodologies. Intelligent Computing Theories and Methodologies. Switzerland: Springer International Publishing, 2015: 378-387.
[10] GAO C, LI P, ZHANG Y, et al. People counting based on head detection combining Adaboost and CNN in crowded surveillance environment [J]. Neurocomputing, 2016, 208(4):108-116.
[11] YOSINSKI J, CLUNE J, BENGIO Y, et al. How transferable are features in deep neural networks?[C]//Advances in Neural Information Processing Systems. Montreal: IEEE, 2014: 3320-3328.
[12] GREWAL M S. Kalman filtering[M]. International Encyclopedia of Statistical Science. Berlin Heidelberg: Springer International Publishing, 2011:705-708.
[13] 袁霄, 王麗萍. 基于 MeanShift 算法的運(yùn)動人體跟蹤[J]. 計算機(jī)工程與科學(xué), 2008, 30(4): 46-49. YUAN Xiao, WANG Liping. Tracking Moving People Based on the MeanShift Algorithm[J]. Computer Engineering and Science, 2008, 30(4): 46-49.
[14] FU Y, LONG X. Pedestrian Tracking Based on Improved Particle Filter Under Complex Background[C]//Advanced Materials Research. Nanjing: Trans Tech Publications Ltd, 2013: 4103-4109.
[15] FELZENSZWALB P, MCALLESTER D, Ramanan D. A discriminatively trained, multiscale, deformable part model[C]// Computer Vision and Pattern Recognition. Anchorage: IEEE, 2008: 1-8.
(編輯:田海江)
Pedestrian counting based on convolutional neural network
ZHANG Yajun1, GAO Chenqiang1, LI Pei1, LIU Jiang1, CHENG Hua2
(1. Chongqing Key Laboratory of Signal and Information Processing, Chongqing University of Posts and Telecommunications,Chongqing 400065, P. R. China;2. China Ship Development and Design Center, Wuhan 430064, P.R.China)
In crowded scenes, pedestrian counting often cannot get high statistical accuracy because of the unreliable detection. To solve this problem, in this paper, based on the use of convolutional neural network(CNN) technology, we carry out the pedestrian counting according to head detection. Firstly, this scheme uses the cascaded Adaboost detector to get the preliminary head proposals; Then, it uses transfer learning technology to retrain CNN, after that, the head classification model constructed by CNN and SVM (Support Vector Machine) is used to fine recognize the head, in order to improve the detection accuracy rate; Finally, the track association is used for tracking and counting the head targets. Experimental results show that our proposed method can locate to a single pedestrian quickly and accurately, and the method has fairly high statistical accuracy.
pedestrian counting; convolutional neural network(CNN); Adaboost; transfer learning; track association
10.3979/j.issn.1673-825X.2017.02.019
2016-05-12
2016-10-21 通訊作者:張雅俊 1519908189@qq.com
國家自然科學(xué)基金(61571071,61102131); 重慶市科委自然科學(xué)基金(cstc2014jcyjA40048); 重慶郵電大學(xué)文峰創(chuàng)業(yè)基金(WF201404)
Foundation Items:The National Natural Science Foundation of China (61571071,61102131); The Natural Science Foundation of Chongqing Science and Technology Commission (cstc2014jcyjA40048); The Wenfeng innovation and start-up project of Chongqing University of Posts and Telecommunications (WF201404)
TP391;TN911
A
1673-825X(2017)02-0265-07
張雅俊(1992-),女,湖北天門人,碩士研究生,主要研究方向為計算機(jī)視覺和行為識別。E-mail: 1519908189@qq.com。
高陳強(qiáng)(1981-),男,重慶人,教授,博士,主要研究方向為圖像處理、視覺分析、目標(biāo)檢測、行為識別和事件檢測。E-mail: gaocq@cqupt.edu.cn。
李 佩(1989-),女,湖北荊州人,碩士研究生,主要研究方向為計算機(jī)視覺和行為識別。E-mail: lipeisww@gmail.com。
劉 江(1994-),男,江蘇南京人,本科生,主要研究方向為計算機(jī)視覺、行為識別和檢測。E-mail: liujiang4work@outlook.com。
程 華(1982-),男,湖北赤壁人,博士,主要研究方向為船舶電氣和圖像處理。E-mail: hchenghuab@163.com。