陳靖 王飛 張儒良
摘 要:聚集人群是一種敏感場(chǎng)景,隱藏著突發(fā)和不易控制等因素,對(duì)人群聚集場(chǎng)景的檢測(cè)有實(shí)際應(yīng)用價(jià)值。通過縮小上下文信息模板搜索范圍,采用雙三次插值算法調(diào)整圖像大小,利用上下文信息經(jīng)感受野提取更多細(xì)節(jié)信息,基于深度殘差101層網(wǎng)絡(luò)模型提取人臉檢測(cè)框,并通過非極大值抑制去除冗余的、保留最好的人臉檢測(cè)框。實(shí)驗(yàn)結(jié)果表明,該算法平均誤檢率為0.022 6,與Hu算法相比,在不損失精度的同時(shí),提高檢測(cè)的平均速度為2.953 3s。
關(guān)鍵詞:人臉檢測(cè);上下文信息;深度殘差網(wǎng)絡(luò);雙三次插值
DOI:10. 11907/rjdk. 182777
中圖分類號(hào):TP306文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1672-7800(2019)004-0021-03
0 引言
聚集人群的人臉檢測(cè)是計(jì)算機(jī)視覺領(lǐng)域一個(gè)重要研究方向。聚集人群是一種敏感場(chǎng)景,隱藏著突發(fā)和不易控制等因素[1]。人群聚集易導(dǎo)致交通阻塞、踩踏事件、社會(huì)安全事件、公共健康事件等,因此對(duì)人群聚集場(chǎng)景檢測(cè)具有非常重要的實(shí)際應(yīng)用價(jià)值[2]。文獻(xiàn)[3-6]闡述了聚集人群場(chǎng)景的研究意義。目前,國內(nèi)外對(duì)人群聚集場(chǎng)景的檢測(cè)取得了不少研究成果。國外針對(duì)人臉檢測(cè)已經(jīng)有許多比較成熟的研究機(jī)構(gòu),例如MIT、CMU等。國內(nèi)以清華大學(xué)、浙江大學(xué)、中國科學(xué)院計(jì)算研究所等機(jī)構(gòu)為代表進(jìn)行人臉檢測(cè)相關(guān)研究[7]。傳統(tǒng)人臉檢測(cè)算法主要采用Haar特征或HOG特征提取人臉特征,并結(jié)合AdaBoost算法實(shí)現(xiàn)人臉檢測(cè),AdaBoost算法主要是將多個(gè)弱分類器結(jié)合成強(qiáng)分類器[8]。由于在復(fù)雜場(chǎng)景中存在人臉姿態(tài)、角度和遮擋問題,故人臉檢測(cè)率不高。
近年來,深度學(xué)習(xí)(Deep Learning,DL)不斷崛起[9]。深度學(xué)習(xí)起源于人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN),其在圖像處理領(lǐng)域取得了一系列重大突破[10]。最早,Krizhevsky等[11]提出的AlexNet架構(gòu)使得神經(jīng)網(wǎng)絡(luò)再次占分類任務(wù)的主導(dǎo)地位。之后,Simonyan等[12]提出深層次的VGG16/VGG19網(wǎng)絡(luò),探索了在卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)中深層次網(wǎng)絡(luò)對(duì)整體架構(gòu)帶來的性能改進(jìn)。Szegedy等[13]提出了GoogLeNet中“Inception”架構(gòu)的概念,解決了深度和寬度的限制。再到后來,He[14]等提出殘差網(wǎng)絡(luò)ResNet中的ResNet Block架構(gòu),采用恒等映射解決網(wǎng)絡(luò)深度帶來的梯度消失問題。人臉檢測(cè)中對(duì)于小人臉檢測(cè)仍存在挑戰(zhàn),可以通過多任務(wù)方法提取多層特征融合,得到更多人臉細(xì)節(jié)信息[15]。文獻(xiàn)[16]提出用一種多層特征的融合方法檢測(cè)人臉,由于單層特征無法很好地檢測(cè)受姿態(tài)、光照和遮擋的人臉,故采用加權(quán)得分的非極大值抑制方法去除冗余人臉框,并且用線性加權(quán)和高斯加權(quán)兩種方法進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明高斯加權(quán)更適合小人臉檢測(cè)問題。雖然對(duì)于小人臉的檢測(cè)有所提高,但是一些問題仍待解決,例如如何提高聚集人群的人臉檢測(cè)精度與速度等。
本文在參考Hu[17]算法的基礎(chǔ)上,通過縮小上下文信息模板搜索范圍,采用雙三次插值算法調(diào)整圖像大小,并利用非極大值抑制去除冗余的、保留最好的人臉檢測(cè)框。本文算法在不損失人臉檢測(cè)精度的同時(shí),提高了人臉檢測(cè)的平均速度。
1 本文算法
1.1 上下文信息模板配置
表1中檢測(cè)的配置信息來自于Hu的論文,本文采用該實(shí)驗(yàn)數(shù)據(jù)計(jì)算上下文信息模板搜索范圍。
1.2 上下文信息模板搜索范圍
首先輸入一幅原圖像raw_img,獲取raw_img的高raw_h和寬raw_w;接著通過表1中clusters(1)、clusters(2)、clusters(3)和clusters(4)的值,求出clusters_h和clusters_w的值,其中clusters_h = clusters(4) - clusters(2) + 1,clusters_w = clusters(3) - clusters(1) + 1;然后通過判斷表1中clusters(5)的值是否等于1,得到normal_idx的值;最后,同時(shí)對(duì)表達(dá)式log2(max(clusters_w(normal_idx)/raw_w))和log2(max(clusters_h(normal_idx)/raw_h))取整,并將取整后兩個(gè)數(shù)中的最小值作為最小尺度min_scale的值,而最大尺度max_scale的值取1和-log2(max(raw_h, raw_w)/MAX_INPUT_DIM)) 兩個(gè)數(shù)中的最小值,其中MAX_INPUT_DIM = 5 000,進(jìn)而確定scales的取值為兩段范圍,第1段范圍從min_scale/1.01到0,間隔為1,第2段范圍從0.5到max_scale,間隔為0.5。
以第2段范圍中的scales縮放圖像,并選用雙三次插值算法調(diào)整圖像大小。雙三次插值不僅考慮到鄰近像素對(duì)待求像素的影響,還考慮到對(duì)鄰近點(diǎn)像素值變化率的影響,保留了圖像中更多高頻成分,因此會(huì)保留更多圖像細(xì)節(jié)[18]。通過深度殘差網(wǎng)絡(luò)101層(ResNet101)模型尋找每幅上下文信息圖像的人臉區(qū)域。針對(duì)每幅上下文信息圖像已檢測(cè)到的人臉區(qū)域,通過非極大值抑制(Non-Maximum Suppression,NMS)去除冗余的、保留最好的人臉檢測(cè)框,抑制過程是一個(gè)“迭代—遍歷—消除”的過程,將得到的人臉框得分按照從高到低排序,選擇最高分及其對(duì)應(yīng)的框;遍歷其余的框,如果與當(dāng)前最高得分框的重疊面積(IOU)大于一定閾值,則將框刪除;從未處理的框中繼續(xù)選一個(gè)得分最高的,重復(fù)上述過程,直到篩選完為止[19]。
2 實(shí)驗(yàn)結(jié)果
為了驗(yàn)證本文算法的有效性,選用香港中文大學(xué)公開的聚集人臉檢測(cè)基準(zhǔn)數(shù)據(jù)集WIDER FACE進(jìn)行測(cè)試[20]。該數(shù)據(jù)集的圖像數(shù)量是現(xiàn)有人臉數(shù)據(jù)集的10倍,同時(shí)也選用日常生活場(chǎng)景進(jìn)行實(shí)驗(yàn)測(cè)試,均得到了較好的檢測(cè)結(jié)果。本文僅列出部分實(shí)驗(yàn)結(jié)果,如圖1和圖2所示。
3 實(shí)驗(yàn)分析
本文算法選取最近鄰插值(nearest)、雙線性插值(bilinear)、雙三次插值(bicubic)與Hu算法進(jìn)行比較,結(jié)果發(fā)現(xiàn),本文算法bicubic獲得的精度最高,得到的圖像質(zhì)量高。本文算法獲得的聚集人群圖像平均誤檢率、平均精度和平均速度如表2所示。
本文算法bicubic在圖像縮放時(shí)的平均誤檢率0.022 6達(dá)到最小,在平均精度保持不降低的情況下,平均速度為20.940 7s,比原文雙線性插值的平均速度23.894 0s提高了2.953 3s。
4 結(jié)語
本文通過縮小上下文信息模板搜索范圍,采用雙三次插值算法調(diào)整圖像大小,利用上下文信息經(jīng)感受野提取更多細(xì)節(jié)信息,基于深度殘差101層網(wǎng)絡(luò)模型提取人臉檢測(cè)框,并通過非極大值抑制去除冗余的、保留最好的人臉檢測(cè)框。本文算法相比Hu算法在速度上有所提高,但當(dāng)圖像分辨率較低時(shí),圖像檢測(cè)準(zhǔn)確度降低。因此,將低分辨率圖像轉(zhuǎn)換為高分辨率圖像再進(jìn)行檢測(cè)是下一步研究?jī)?nèi)容。
參考文獻(xiàn):
[1] 徐凌. 人群聚集場(chǎng)景中多人臉檢測(cè)算法研究[D]. 武漢:中南民族大學(xué), 2015.
[2] 魏夢(mèng). 基于卷積神經(jīng)網(wǎng)絡(luò)的人群密度分析[D]. 合肥:中國科學(xué)技術(shù)大學(xué), 2018.
[3] 王姝婷. 我國自發(fā)性人群聚集活動(dòng)風(fēng)險(xiǎn)評(píng)估的現(xiàn)狀與對(duì)策研究[J]. 湖北警官學(xué)院學(xué)報(bào),2018,31(2): 86-92.
[4] 包靈. 基于深度學(xué)習(xí)的智能人數(shù)統(tǒng)計(jì)技術(shù)研究與系統(tǒng)設(shè)計(jì)[D]. 成都: 電子科技大學(xué),2018.
[5] 張君軍,石志廣,李吉成. 人數(shù)統(tǒng)計(jì)與人群密度估計(jì)技術(shù)研究現(xiàn)狀與趨勢(shì)[J]. 計(jì)算機(jī)工程與科學(xué),2018,40(2): 282-291.
[6] 劉明林. 基于深度學(xué)習(xí)的人群密度估計(jì)及稠密人群計(jì)數(shù)的研究[D]. 鄭州:鄭州大學(xué),2017.
[7] 邊航. 人臉檢測(cè)與識(shí)別算法研究[D]. 北京:北京工業(yè)大學(xué), 2017.
[8] 陳海濤,潘靜. 基于Adaboost人臉檢測(cè)技術(shù)淺析[J]. 電子世界, 2018(12):91-92.
[9] LECUN Y,BENGIO Y,HINTON G. Deep learning[J]. Nature,2015,521(7553): 436-444.
[10] 李成,楊淑媛,劉芳,等.神經(jīng)網(wǎng)絡(luò)七十年:回顧與展望[J]. 計(jì)算機(jī)學(xué)報(bào),2016,39(8):1697-1716.
[11] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]. Advances in Neural Information Processing Systems, 2012: 1106-1114.
[12] SIMONYAN K,ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. arXiv Preprint arXiv: 1409.1556, 2015: 1-14.
[13] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2015: 1-9.
[14] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]. IEEE Conference on Computer Vision and Pattern Recognition,2016:770-778.
[15] 劉璐. 基于深度神經(jīng)網(wǎng)絡(luò)的多任務(wù)視覺感知研究與應(yīng)用[D]. 成都: 電子科技大學(xué),2018.
[16] 王成濟(jì),羅志明,鐘準(zhǔn),等. 一種多層特征融合的人臉檢測(cè)方法[J]. 智能系統(tǒng)學(xué)報(bào),2018,13(1):138-146.
[17] HU P, RAMANAN D. Finding tiny faces[C]. IEEE Conference on Computer Vision and Pattern Recognition,2017:1522-1530.
[18] 陳高琳. 圖像縮放算法中常見插值方法比較[J]. 福建電腦, 2017,33(9):98-99.
[19] 陳金輝,葉西寧. 行人檢測(cè)中非極大值抑制算法的改進(jìn)[J]. 華東理工大學(xué)學(xué)報(bào):自然科學(xué)版,2015,41(3): 371-378.
[20] YANG S,LUO P,LOY C C,et al. Wider face: a face detection benchmark[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2016: 5525-5533.
(責(zé)任編輯:何 麗)