聚集人群人臉檢測(cè)研究

2019-06-09 10:36:01陳靖王飛張儒良

軟件導(dǎo)刊 2019年4期

陳靖王飛張儒良

摘要：聚集人群是一種敏感場(chǎng)景，隱藏著突發(fā)和不易控制等因素，對(duì)人群聚集場(chǎng)景的檢測(cè)有實(shí)際應(yīng)用價(jià)值。通過縮小上下文信息模板搜索范圍，采用雙三次插值算法調(diào)整圖像大小，利用上下文信息經(jīng)感受野提取更多細(xì)節(jié)信息，基于深度殘差101層網(wǎng)絡(luò)模型提取人臉檢測(cè)框，并通過非極大值抑制去除冗余的、保留最好的人臉檢測(cè)框。實(shí)驗(yàn)結(jié)果表明，該算法平均誤檢率為0.022 6，與Hu算法相比，在不損失精度的同時(shí)，提高檢測(cè)的平均速度為2.953 3s。

關(guān)鍵詞：人臉檢測(cè);上下文信息;深度殘差網(wǎng)絡(luò);雙三次插值

DOI：10. 11907/rjdk. 182777

中圖分類號(hào)：TP306文獻(xiàn)標(biāo)識(shí)碼：A文章編號(hào)：1672-7800（2019）004-0021-03

0 引言

聚集人群的人臉檢測(cè)是計(jì)算機(jī)視覺領(lǐng)域一個(gè)重要研究方向。聚集人群是一種敏感場(chǎng)景，隱藏著突發(fā)和不易控制等因素[1]。人群聚集易導(dǎo)致交通阻塞、踩踏事件、社會(huì)安全事件、公共健康事件等，因此對(duì)人群聚集場(chǎng)景檢測(cè)具有非常重要的實(shí)際應(yīng)用價(jià)值[2]。文獻(xiàn)[3-6]闡述了聚集人群場(chǎng)景的研究意義。目前，國內(nèi)外對(duì)人群聚集場(chǎng)景的檢測(cè)取得了不少研究成果。國外針對(duì)人臉檢測(cè)已經(jīng)有許多比較成熟的研究機(jī)構(gòu)，例如MIT、CMU等。國內(nèi)以清華大學(xué)、浙江大學(xué)、中國科學(xué)院計(jì)算研究所等機(jī)構(gòu)為代表進(jìn)行人臉檢測(cè)相關(guān)研究[7]。傳統(tǒng)人臉檢測(cè)算法主要采用Haar特征或HOG特征提取人臉特征，并結(jié)合AdaBoost算法實(shí)現(xiàn)人臉檢測(cè)，AdaBoost算法主要是將多個(gè)弱分類器結(jié)合成強(qiáng)分類器[8]。由于在復(fù)雜場(chǎng)景中存在人臉姿態(tài)、角度和遮擋問題，故人臉檢測(cè)率不高。

近年來，深度學(xué)習(xí)（Deep Learning，DL）不斷崛起[9]。深度學(xué)習(xí)起源于人工神經(jīng)網(wǎng)絡(luò)（Artificial Neural Networks，ANN），其在圖像處理領(lǐng)域取得了一系列重大突破[10]。最早，Krizhevsky等[11]提出的AlexNet架構(gòu)使得神經(jīng)網(wǎng)絡(luò)再次占分類任務(wù)的主導(dǎo)地位。之后，Simonyan等[12]提出深層次的VGG16/VGG19網(wǎng)絡(luò)，探索了在卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)中深層次網(wǎng)絡(luò)對(duì)整體架構(gòu)帶來的性能改進(jìn)。Szegedy等[13]提出了GoogLeNet中“Inception”架構(gòu)的概念，解決了深度和寬度的限制。再到后來，He[14]等提出殘差網(wǎng)絡(luò)ResNet中的ResNet Block架構(gòu)，采用恒等映射解決網(wǎng)絡(luò)深度帶來的梯度消失問題。人臉檢測(cè)中對(duì)于小人臉檢測(cè)仍存在挑戰(zhàn)，可以通過多任務(wù)方法提取多層特征融合，得到更多人臉細(xì)節(jié)信息[15]。文獻(xiàn)[16]提出用一種多層特征的融合方法檢測(cè)人臉，由于單層特征無法很好地檢測(cè)受姿態(tài)、光照和遮擋的人臉，故采用加權(quán)得分的非極大值抑制方法去除冗余人臉框，并且用線性加權(quán)和高斯加權(quán)兩種方法進(jìn)行對(duì)比實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果表明高斯加權(quán)更適合小人臉檢測(cè)問題。雖然對(duì)于小人臉的檢測(cè)有所提高，但是一些問題仍待解決，例如如何提高聚集人群的人臉檢測(cè)精度與速度等。

本文在參考Hu[17]算法的基礎(chǔ)上，通過縮小上下文信息模板搜索范圍，采用雙三次插值算法調(diào)整圖像大小，并利用非極大值抑制去除冗余的、保留最好的人臉檢測(cè)框。本文算法在不損失人臉檢測(cè)精度的同時(shí)，提高了人臉檢測(cè)的平均速度。

1 本文算法

1.1 上下文信息模板配置

表1中檢測(cè)的配置信息來自于Hu的論文，本文采用該實(shí)驗(yàn)數(shù)據(jù)計(jì)算上下文信息模板搜索范圍。

1.2 上下文信息模板搜索范圍

首先輸入一幅原圖像raw_img，獲取raw_img的高raw_h和寬raw_w;接著通過表1中clusters（1）、clusters（2）、clusters（3）和clusters（4）的值，求出clusters_h和clusters_w的值，其中clusters_h = clusters（4） - clusters（2） + 1，clusters_w = clusters（3） - clusters（1） + 1;然后通過判斷表1中clusters（5）的值是否等于1，得到normal_idx的值;最后，同時(shí)對(duì)表達(dá)式log2（max（clusters_w（normal_idx）/raw_w））和log2（max（clusters_h（normal_idx）/raw_h））取整，并將取整后兩個(gè)數(shù)中的最小值作為最小尺度min_scale的值，而最大尺度max_scale的值取1和-log2（max（raw_h， raw_w）/MAX_INPUT_DIM））兩個(gè)數(shù)中的最小值，其中MAX_INPUT_DIM = 5 000，進(jìn)而確定scales的取值為兩段范圍，第1段范圍從min_scale/1.01到0，間隔為1，第2段范圍從0.5到max_scale，間隔為0.5。

以第2段范圍中的scales縮放圖像，并選用雙三次插值算法調(diào)整圖像大小。雙三次插值不僅考慮到鄰近像素對(duì)待求像素的影響，還考慮到對(duì)鄰近點(diǎn)像素值變化率的影響，保留了圖像中更多高頻成分，因此會(huì)保留更多圖像細(xì)節(jié)[18]。通過深度殘差網(wǎng)絡(luò)101層（ResNet101）模型尋找每幅上下文信息圖像的人臉區(qū)域。針對(duì)每幅上下文信息圖像已檢測(cè)到的人臉區(qū)域，通過非極大值抑制（Non-Maximum Suppression，NMS）去除冗余的、保留最好的人臉檢測(cè)框，抑制過程是一個(gè)“迭代—遍歷—消除”的過程，將得到的人臉框得分按照從高到低排序，選擇最高分及其對(duì)應(yīng)的框;遍歷其余的框，如果與當(dāng)前最高得分框的重疊面積（IOU）大于一定閾值，則將框刪除;從未處理的框中繼續(xù)選一個(gè)得分最高的，重復(fù)上述過程，直到篩選完為止[19]。

2 實(shí)驗(yàn)結(jié)果

為了驗(yàn)證本文算法的有效性，選用香港中文大學(xué)公開的聚集人臉檢測(cè)基準(zhǔn)數(shù)據(jù)集WIDER FACE進(jìn)行測(cè)試[20]。該數(shù)據(jù)集的圖像數(shù)量是現(xiàn)有人臉數(shù)據(jù)集的10倍，同時(shí)也選用日常生活場(chǎng)景進(jìn)行實(shí)驗(yàn)測(cè)試，均得到了較好的檢測(cè)結(jié)果。本文僅列出部分實(shí)驗(yàn)結(jié)果，如圖1和圖2所示。

3 實(shí)驗(yàn)分析

本文算法選取最近鄰插值（nearest）、雙線性插值（bilinear）、雙三次插值（bicubic）與Hu算法進(jìn)行比較，結(jié)果發(fā)現(xiàn)，本文算法bicubic獲得的精度最高，得到的圖像質(zhì)量高。本文算法獲得的聚集人群圖像平均誤檢率、平均精度和平均速度如表2所示。

本文算法bicubic在圖像縮放時(shí)的平均誤檢率0.022 6達(dá)到最小，在平均精度保持不降低的情況下，平均速度為20.940 7s，比原文雙線性插值的平均速度23.894 0s提高了2.953 3s。

4 結(jié)語

本文通過縮小上下文信息模板搜索范圍，采用雙三次插值算法調(diào)整圖像大小，利用上下文信息經(jīng)感受野提取更多細(xì)節(jié)信息，基于深度殘差101層網(wǎng)絡(luò)模型提取人臉檢測(cè)框，并通過非極大值抑制去除冗余的、保留最好的人臉檢測(cè)框。本文算法相比Hu算法在速度上有所提高，但當(dāng)圖像分辨率較低時(shí)，圖像檢測(cè)準(zhǔn)確度降低。因此，將低分辨率圖像轉(zhuǎn)換為高分辨率圖像再進(jìn)行檢測(cè)是下一步研究?jī)?nèi)容。

參考文獻(xiàn)：

[1] 徐凌. 人群聚集場(chǎng)景中多人臉檢測(cè)算法研究[D]. 武漢：中南民族大學(xué)， 2015.

[2] 魏夢(mèng). 基于卷積神經(jīng)網(wǎng)絡(luò)的人群密度分析[D]. 合肥：中國科學(xué)技術(shù)大學(xué)， 2018.

[3] 王姝婷. 我國自發(fā)性人群聚集活動(dòng)風(fēng)險(xiǎn)評(píng)估的現(xiàn)狀與對(duì)策研究[J]. 湖北警官學(xué)院學(xué)報(bào)，2018，31（2）： 86-92.

[4] 包靈. 基于深度學(xué)習(xí)的智能人數(shù)統(tǒng)計(jì)技術(shù)研究與系統(tǒng)設(shè)計(jì)[D]. 成都：電子科技大學(xué)，2018.

[5] 張君軍，石志廣，李吉成. 人數(shù)統(tǒng)計(jì)與人群密度估計(jì)技術(shù)研究現(xiàn)狀與趨勢(shì)[J]. 計(jì)算機(jī)工程與科學(xué)，2018，40（2）： 282-291.

[6] 劉明林. 基于深度學(xué)習(xí)的人群密度估計(jì)及稠密人群計(jì)數(shù)的研究[D]. 鄭州：鄭州大學(xué)，2017.

[7] 邊航. 人臉檢測(cè)與識(shí)別算法研究[D]. 北京：北京工業(yè)大學(xué)， 2017.

[8] 陳海濤，潘靜. 基于Adaboost人臉檢測(cè)技術(shù)淺析[J]. 電子世界， 2018（12）：91-92.

[9] LECUN Y，BENGIO Y，HINTON G. Deep learning[J]. Nature，2015，521（7553）： 436-444.

[10] 李成，楊淑媛，劉芳，等.神經(jīng)網(wǎng)絡(luò)七十年：回顧與展望[J]. 計(jì)算機(jī)學(xué)報(bào)，2016，39（8）：1697-1716.

[11] KRIZHEVSKY A， SUTSKEVER I， HINTON G E. ImageNet classification with deep convolutional neural networks[C]. Advances in Neural Information Processing Systems， 2012： 1106-1114.

[12] SIMONYAN K，ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. arXiv Preprint arXiv： 1409.1556， 2015： 1-14.

[13] SZEGEDY C， LIU W， JIA Y， et al. Going deeper with convolutions[C]. IEEE Conference on Computer Vision and Pattern Recognition， 2015： 1-9.

[14] HE K， ZHANG X， REN S， et al. Deep residual learning for image recognition[C]. IEEE Conference on Computer Vision and Pattern Recognition，2016：770-778.

[15] 劉璐. 基于深度神經(jīng)網(wǎng)絡(luò)的多任務(wù)視覺感知研究與應(yīng)用[D]. 成都：電子科技大學(xué)，2018.

[16] 王成濟(jì)，羅志明，鐘準(zhǔn)，等. 一種多層特征融合的人臉檢測(cè)方法[J]. 智能系統(tǒng)學(xué)報(bào)，2018，13（1）：138-146.

[17] HU P， RAMANAN D. Finding tiny faces[C]. IEEE Conference on Computer Vision and Pattern Recognition，2017：1522-1530.

[18] 陳高琳. 圖像縮放算法中常見插值方法比較[J]. 福建電腦， 2017，33（9）：98-99.

[19] 陳金輝，葉西寧. 行人檢測(cè)中非極大值抑制算法的改進(jìn)[J]. 華東理工大學(xué)學(xué)報(bào)：自然科學(xué)版，2015，41（3）： 371-378.

[20] YANG S，LUO P，LOY C C，et al. Wider face： a face detection benchmark[C]. IEEE Conference on Computer Vision and Pattern Recognition， 2016： 5525-5533.

（責(zé)任編輯：何麗）