趙艷芹, 陳真朋
(黑龍江科技大學(xué) 計(jì)算機(jī)與信息工程學(xué)院, 哈爾濱 150022)
現(xiàn)今,5G技術(shù)和人工智能飛速發(fā)展,各種智能化終端產(chǎn)品進(jìn)入大眾視野,并逐步取代人工方式。人臉的智能識(shí)別作為其中重要一環(huán)也被廣泛使用在諸如監(jiān)控系統(tǒng)、智慧交通、活體檢測(cè)等各領(lǐng)域[1]。人臉檢測(cè)作為面部識(shí)別的重要組成部分,其檢測(cè)性能的好壞直接影響識(shí)別的結(jié)果。因此,提高人臉檢測(cè)算法的精度對(duì)人臉識(shí)別具有十分重要的意義。
傳統(tǒng)的人臉檢測(cè)方法是從數(shù)據(jù)集中手工提取特征,再將提取到的特征送入人臉?lè)诸惼鬟M(jìn)行訓(xùn)練。目前,最經(jīng)典的傳統(tǒng)人臉檢測(cè)方法主要有兩種:基于Adaboost的人臉檢測(cè)方法和基于DPM的人臉檢測(cè)方法?;贏daboost的VJ算法是由Viola等[2]提出,該算法由Haar特征表示人臉,利用Adaboost算法訓(xùn)練人臉?lè)诸惼鳎詈笸ㄟ^(guò)滑動(dòng)窗口提取人臉區(qū)域。M.Mathias等[3]提出了一種可以檢測(cè)多角度人臉的改進(jìn)DPM算法,通過(guò)提取人臉不同方向的HOG特征構(gòu)造人臉檢測(cè)模型,該算法發(fā)現(xiàn)了非極大值抑制的重要性有效提高了人臉檢測(cè)精度。雖然傳統(tǒng)人臉檢測(cè)方法在一定程度能解決檢測(cè)問(wèn)題,但是在復(fù)雜的環(huán)境和圖片質(zhì)量參差不齊的情況下,檢測(cè)程度仍然受限。
隨著深度學(xué)習(xí)技術(shù)和硬件的不斷發(fā)展,利用卷積神經(jīng)網(wǎng)絡(luò)[4]可以解決檢測(cè)問(wèn)題。Yin Sun等[5]提出了基于神經(jīng)網(wǎng)絡(luò)的CNN Facial Point Detection算法,該算法主要是實(shí)現(xiàn)面部關(guān)鍵點(diǎn)的檢測(cè),運(yùn)行速度快、執(zhí)行效率高并且可以檢測(cè)側(cè)臉。目前,基于深度學(xué)習(xí)的主流人臉檢測(cè)方法主要有R-CNN系列檢測(cè)算法包括R-CNN[6]、Fast-RCNN[7]、Faster-RCNN[8]算法和基于直接回歸的YOLO[9]、SSD[10]系列算法。R-CNN系列檢測(cè)算法將檢測(cè)過(guò)程分為產(chǎn)生候選區(qū)、候選區(qū)分類這兩個(gè)階段進(jìn)行,增大了時(shí)間開(kāi)銷。而SSD檢測(cè)算法采用端到端的方式直接回歸目標(biāo)位置,相對(duì)于YOLO系列算法,SSD可以在不同大小的特征圖上同時(shí)進(jìn)行目標(biāo)的檢測(cè)。因此,筆者將傳統(tǒng)的SSD目標(biāo)檢測(cè)算法用在人臉檢測(cè)中并改進(jìn)主干網(wǎng)絡(luò)結(jié)構(gòu),以此來(lái)提高對(duì)低分辨率的小目標(biāo)檢測(cè)精度。
SSD網(wǎng)絡(luò)模型作為一種目標(biāo)檢測(cè)領(lǐng)域廣泛使用的網(wǎng)絡(luò)結(jié)構(gòu),其原始SSD網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 SSD網(wǎng)絡(luò)模型結(jié)構(gòu)Fig. 1 SSD net model structure
典型的SSD網(wǎng)絡(luò)模型屬于全卷積神經(jīng)網(wǎng)絡(luò)的一種,由11個(gè)block組成,輸入圖像尺寸為300×300,使用VGG16[11]作為主干網(wǎng)絡(luò),改變了第五分塊的第四層卷積,去掉全連接層,Conv8_2以后的卷積層是在VGG16后增加的。SSD網(wǎng)絡(luò)分別在不同的特征圖上同時(shí)提取特征,并且在提取特征圖上設(shè)置不同的滑動(dòng)窗口來(lái)檢測(cè)相應(yīng)的目標(biāo)。根據(jù)SSD網(wǎng)絡(luò)結(jié)構(gòu)能看到,SSD使用了6個(gè)不同尺度的特征圖檢測(cè)不同尺度目標(biāo),大尺度特征圖來(lái)預(yù)測(cè)小目標(biāo),小尺度的特征圖來(lái)預(yù)測(cè)較大目標(biāo)。
SSD網(wǎng)絡(luò)模型在其每個(gè)檢測(cè)層后分兩路3×3卷積核分別用來(lái)做目標(biāo)的分類和回歸,其中一個(gè)輸出每個(gè)檢測(cè)框的位置(x,y,w,h)四個(gè)值,另一個(gè)卷積層用來(lái)輸出每個(gè)檢測(cè)框檢測(cè)到不同類別目標(biāo)的概率,輸出個(gè)數(shù)就是預(yù)測(cè)的類別個(gè)數(shù)。分別計(jì)算所有檢測(cè)框位置和類別與目標(biāo)的真實(shí)位置類別誤差,組成向量,構(gòu)造成總損失函數(shù)。因此,總的損失函數(shù)就是分類和回歸誤差的加權(quán)和。
SSD總的損失函數(shù)為
(1)
式中:N——匹配到檢測(cè)框的數(shù)量;
i——檢測(cè)框序號(hào);
j——真實(shí)框的序號(hào);
i∈s——從匹配到的正樣本中取到的檢測(cè)框序號(hào);
i∈e——從負(fù)樣本中取檢測(cè)框序號(hào);
α——分類誤差和回歸誤差對(duì)總損失函數(shù)的權(quán)重,通常設(shè)為1;
xp、yp、w、h——匹配到的檢測(cè)框?yàn)轭悇ep時(shí)的中心位置坐標(biāo)及檢測(cè)框的寬、高;
SL——soomthL1函數(shù),當(dāng)自變量絕對(duì)值小于1時(shí),SoomthL1函數(shù)取值為自變量的二次平方值;當(dāng)自變量絕對(duì)值為其他值時(shí),soomthL1函數(shù)取值為自變量和定值0.5的差值。
第一個(gè)累加表示檢測(cè)框i與真實(shí)框j關(guān)于類別p匹配,如果p的概率越高,則損失越小,第二個(gè)累加表示檢測(cè)框中沒(méi)有物體,預(yù)測(cè)為背景的概率越高,損失越小。使用softmax計(jì)算概率,通過(guò)最大化累加和達(dá)到最小化置信度損失函數(shù)的目的。
從SSD 的網(wǎng)絡(luò)模型結(jié)構(gòu)可以看出其有三個(gè)特點(diǎn):一是SSD由主干網(wǎng)絡(luò)和金字塔網(wǎng)絡(luò)構(gòu)成,主干網(wǎng)絡(luò)為VGG16的前四層網(wǎng)絡(luò),金字塔網(wǎng)絡(luò)是特征圖逐漸變小的簡(jiǎn)單網(wǎng)絡(luò),SSD網(wǎng)絡(luò)將尺度大小不同的特征圖直接作用到預(yù)測(cè)層進(jìn)行結(jié)果預(yù)測(cè)。可以更準(zhǔn)確的預(yù)測(cè)不同大小的目標(biāo);二是SSD網(wǎng)絡(luò)屬于端到端的訓(xùn)練方式,依靠目標(biāo)標(biāo)注直接在圖像上生成正負(fù)樣本并采用hard negative mining技術(shù)控制正負(fù)樣本數(shù)量進(jìn)行訓(xùn)練,大大提高了訓(xùn)練速度;三是SSD網(wǎng)絡(luò)在低層預(yù)測(cè)小目標(biāo),而最低的預(yù)測(cè)層只有VGG16中38×38卷積層。因此,對(duì)小目標(biāo)的檢測(cè)效果不強(qiáng)。
文中的人臉檢測(cè)與傳統(tǒng)的目標(biāo)檢測(cè)流程一樣,比傳統(tǒng)的分類任務(wù)多出一個(gè)分支用于進(jìn)行目標(biāo)位置的判斷。根據(jù)訓(xùn)練集人臉的標(biāo)注,直接在訓(xùn)練集特征圖上生成大小比例不同的default box目標(biāo)框進(jìn)行人臉定位回歸,最優(yōu)化損失函數(shù),訓(xùn)練出人臉檢測(cè)模型,隨后使用訓(xùn)練后的檢測(cè)模型直接進(jìn)行人臉檢測(cè)。檢測(cè)過(guò)程如圖2所示。
圖2 SSD網(wǎng)絡(luò)的人臉檢測(cè)流程Fig. 2 Flow of face detection based on SSD net
人臉圖像由于人種、膚色、光照、尺度等因素影響,對(duì)訓(xùn)練和檢測(cè)結(jié)果都具有影響。采用人臉圖像數(shù)據(jù)集是WIDERFACE人臉數(shù)據(jù)集,總共有32 203張標(biāo)注圖像,標(biāo)注信息為人臉數(shù)目和真實(shí)檢測(cè)框坐標(biāo)。數(shù)據(jù)集中人的姿勢(shì)、種族、遮擋具有高度可變性。
數(shù)據(jù)集中圖像在訓(xùn)練前要進(jìn)行標(biāo)準(zhǔn)化處理,標(biāo)準(zhǔn)化是將像素去均值實(shí)現(xiàn)中心化的處理,標(biāo)準(zhǔn)化符合數(shù)據(jù)分布規(guī)律,更容易取得訓(xùn)練之后的泛化效果。圖像在采集傳輸過(guò)程中受設(shè)備和環(huán)境影響,會(huì)產(chǎn)生噪聲,預(yù)處理中需要將圖像中的噪聲予以去除,減少對(duì)訓(xùn)練檢測(cè)結(jié)果的影響。圖像尺寸不一,需要統(tǒng)一resize到300×300,為保證圖像人臉不會(huì)發(fā)生扭曲變形影響實(shí)驗(yàn)結(jié)果,需要進(jìn)行同比例放縮,空白部分進(jìn)行填充。圖3a為數(shù)據(jù)集原始圖像,圖3b是經(jīng)過(guò)預(yù)處理之后得到的圖像。
圖3 人臉圖像預(yù)處理結(jié)果對(duì)比Fig. 3 Comparison of face image preprocessing results
利用SSD網(wǎng)絡(luò)進(jìn)行人臉圖像的訓(xùn)練與檢測(cè)需要對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化和改進(jìn),SSD的改進(jìn)主要有兩方面:一是原始的SSD的主干網(wǎng)絡(luò)由VGG16的前五層卷積堆疊而成,使用傳統(tǒng)的3×3的卷積核進(jìn)行特征的提取。參數(shù)量大耗時(shí)長(zhǎng),本文對(duì)比試驗(yàn)幾種主流的基礎(chǔ)網(wǎng)絡(luò),最終選定mobilenet_v3[12]作為SSD的主干網(wǎng)絡(luò),該基礎(chǔ)網(wǎng)絡(luò)使用3×3的深度卷積和1×1的普通卷積構(gòu)成深度可分離卷積減少計(jì)算量和全新的激活函數(shù)保證損失函數(shù)收斂。將原來(lái)最底層在38×38的特征圖上進(jìn)行檢測(cè)向下轉(zhuǎn)移到128×128作為檢測(cè)的最底層特征圖,提高對(duì)小目標(biāo)的檢測(cè)能力。二是Anchor框比例優(yōu)化。在處理人臉任務(wù)時(shí),為了挖掘人臉框之間的相關(guān)性,文中不再將檢測(cè)框的比例直接設(shè)置為1∶1,而是對(duì)數(shù)據(jù)集中的真實(shí)人臉框進(jìn)行K均值聚類,具體聚類過(guò)程如下:
步驟1隨機(jī)抽取2 000張圖像,將其中真實(shí)框的寬度和高度標(biāo)注取出,將高度和寬度進(jìn)行歸一化,統(tǒng)一尺度。
步驟2從數(shù)據(jù)空間中隨機(jī)選取六個(gè)對(duì)象作為初始聚類中心。
步驟3對(duì)于樣本中的其他數(shù)據(jù)對(duì)象,根據(jù)它們與這些聚類中心的歐氏距離,按距離最近的準(zhǔn)則將它們分到距離它們最近的聚類中心所對(duì)應(yīng)的類。
步驟4將每個(gè)類別中所有對(duì)象所對(duì)應(yīng)的均值作為該類別的聚類中心,計(jì)算目標(biāo)函數(shù)的值。
步驟5判斷聚類中心和目標(biāo)函數(shù)的值是否發(fā)生改變,若不變,則輸出結(jié)果,若改變,則返回步驟3。
重復(fù)上述實(shí)驗(yàn)步驟5次,對(duì)所有結(jié)果取均值。得到檢測(cè)框長(zhǎng)寬比最終結(jié)果為:1∶1、1∶1.6、1∶2、1∶2.5、1∶3、2∶1六種,使用以上六種不同比例的default box 去大小不同的特征圖中對(duì)真實(shí)框進(jìn)行訓(xùn)練檢測(cè)。
實(shí)驗(yàn)在win10 64位操作系統(tǒng)下進(jìn)行,CPU型號(hào)為i5-8400,主頻為2.81 GHz,GPU型號(hào)為NVIDIA GeForce GTX 1060,內(nèi)存大小為16 G,使用python語(yǔ)言在Pycharm平臺(tái)上編程實(shí)驗(yàn),深度學(xué)習(xí)框架為caffe。
實(shí)驗(yàn)所用的訓(xùn)練集為WIDERFACE訓(xùn)練集,用WIDERFACE測(cè)試集和FDDB數(shù)據(jù)集作為文中實(shí)驗(yàn)測(cè)試集。測(cè)試文中所提模型在其他數(shù)據(jù)集的魯棒性情況。
SSD網(wǎng)絡(luò)主要用于處理多目標(biāo)多類別檢測(cè)任務(wù),在人臉檢測(cè)中,因其只需要檢測(cè)一種類別,所以只需要處理該檢測(cè)目標(biāo)是人臉或是背景。實(shí)驗(yàn)步驟如下:
步驟1從WIDERFACE訓(xùn)練集中順序抽取2 000張圖像,進(jìn)行預(yù)處理,將數(shù)據(jù)集轉(zhuǎn)換格式后送入網(wǎng)絡(luò)模型。
步驟2根據(jù)本機(jī)配置,設(shè)置batch_size為5,2 000張圖像完成一輪epoch需要迭代400次,學(xué)習(xí)率初始值設(shè)置為0.01,學(xué)習(xí)衰減率設(shè)置為0.97。使用小批量梯度下降法更新?lián)p失函數(shù)。
步驟3每400次迭代,將學(xué)習(xí)率、損失函數(shù)、訓(xùn)練時(shí)間輸出,觀察損失函數(shù)是否收斂。
步驟4重復(fù)上述步驟,將數(shù)據(jù)集圖像epoch 100次。將訓(xùn)練好的模型,在WIDERFACE測(cè)試集和FDDB數(shù)據(jù)集上進(jìn)行測(cè)試。
實(shí)驗(yàn)訓(xùn)練一輪時(shí)間為38 h,為進(jìn)一步測(cè)試實(shí)驗(yàn)?zāi)P偷男阅?,?duì)目前主流的人臉檢測(cè)算法MTCNN、Faster-RCNN、YOLOv3在相同的實(shí)驗(yàn)環(huán)境下,對(duì)比實(shí)驗(yàn)結(jié)果。
準(zhǔn)確率只針對(duì)樣本中所有分對(duì)的樣本,一般用來(lái)評(píng)估網(wǎng)絡(luò)模型全局準(zhǔn)確的程度,不包含其他信息,不能全面評(píng)價(jià)一個(gè)模型性能。實(shí)驗(yàn)使用平均精確度和檢測(cè)速度來(lái)綜合衡量網(wǎng)絡(luò)模型的好壞。準(zhǔn)確率ε計(jì)算公式為
(2)
式中:nTP——將人臉正確檢測(cè)成人臉的樣本數(shù);
nTN——將背景檢測(cè)為背景的樣本數(shù);
nFP——將背景誤檢成人臉的樣本數(shù);
nFN——將人臉誤檢為背景的漏報(bào)數(shù)。
精確度表示的是被分成正例中實(shí)際為正例的比例
(3)
對(duì)驗(yàn)證數(shù)據(jù)集中的每張圖片的精確度進(jìn)行平均得到平均精度
(4)
式中,N——總樣本數(shù)。
將目前主流的三種人臉檢測(cè)算法分別在WIDERFACE數(shù)據(jù)集的驗(yàn)證集中三種難度下進(jìn)行對(duì)比實(shí)驗(yàn),分別計(jì)算簡(jiǎn)單驗(yàn)證集的平均精度(φe)、中等驗(yàn)證集的平均精度(φm)、困難驗(yàn)證集的平均精度(φh)。實(shí)驗(yàn)結(jié)果如表1所示。
表1 各方法人臉檢測(cè)精度結(jié)果對(duì)比Table 1 Comparison table of face detection accuracy results of each method
通過(guò)對(duì)比實(shí)驗(yàn)可以看出,文中方法在驗(yàn)證集三個(gè)難度上的精度均高于主流方法,在困難驗(yàn)證子集上的平均精度提高到了91.890%。實(shí)驗(yàn)結(jié)果表明,文中方法在人臉檢測(cè)精度要高于目前主流的方法。
人臉檢測(cè)模型不僅需要關(guān)注精確度指標(biāo),還需要關(guān)注速度指標(biāo)以滿足實(shí)時(shí)性的要求,現(xiàn)在目標(biāo)檢測(cè)模型日益朝著輕量化方向改進(jìn),為了驗(yàn)證文中實(shí)驗(yàn)?zāi)P驮跈z測(cè)速度方面是否滿足實(shí)時(shí)性的要求,將模型每秒檢測(cè)圖片的張數(shù)(FPS)作為速度評(píng)價(jià)指標(biāo),分別計(jì)算了在CPU下檢測(cè)張數(shù)(εC)和GPU下的檢測(cè)張數(shù)(εG)。與上述模型進(jìn)行實(shí)驗(yàn)對(duì)比,實(shí)驗(yàn)結(jié)果如表2所示。
表2 各方法人臉檢測(cè)速度結(jié)果對(duì)比Table 2 Comparison table of face detection accuracy results of each method
實(shí)驗(yàn)在同一硬件條件下進(jìn)行,在WIDERFACE測(cè)試集上取相同的1 000張圖片,分別在上述算法中進(jìn)行檢測(cè),計(jì)算各方法每秒的平均幀數(shù)。結(jié)果表明,文中方法在CPU下能夠滿足實(shí)時(shí)性的要求,在GPU下能達(dá)到每秒62張的速度。相比于其他方法能夠更快速的完成檢測(cè)圖片任務(wù)。綜合精度和速度指標(biāo),全面的評(píng)估了實(shí)驗(yàn)方法的性能。文中方法均優(yōu)于目前主流的方法,證明了對(duì)SSD網(wǎng)絡(luò)的改進(jìn)具有有效性。
將SSD網(wǎng)絡(luò)的基礎(chǔ)網(wǎng)絡(luò)換成了mobilenet_v3,為了驗(yàn)證改進(jìn)后的網(wǎng)絡(luò)與原始網(wǎng)絡(luò)及其他主干網(wǎng)絡(luò)的差異,文中置換不同的主干網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn),在同等實(shí)驗(yàn)條件下,比較不同主干網(wǎng)絡(luò)的精度和檢測(cè)速度,結(jié)果如表3所示。
表3 各主干網(wǎng)絡(luò)人臉檢測(cè)性能對(duì)比Table 3 Comparison table of face detection accuracy results of each method
實(shí)驗(yàn)在WIDERFACE驗(yàn)證集中進(jìn)行,取三種難度的平均精度和相同時(shí)間的平均FPS結(jié)果,通過(guò)對(duì)比不同的主干網(wǎng)絡(luò),可以發(fā)現(xiàn)相比使用原始主干網(wǎng)絡(luò),替換成另外四種基礎(chǔ)網(wǎng)絡(luò)均對(duì)模型性能有不同大小的提升,其中替換成mobilenet_v3網(wǎng)絡(luò)較原始的VGG16在驗(yàn)證集上的平均精度提升約7%,在CPU上每秒檢測(cè)圖片數(shù)量增加了19張。因此,mobilenet_v3對(duì)SSD網(wǎng)絡(luò)的平均精度和檢測(cè)速度均比其他基礎(chǔ)網(wǎng)絡(luò)提升幅度大。
使用各種不同的人臉檢測(cè)模型,對(duì)WIDERFACE驗(yàn)證集中圖像進(jìn)行檢測(cè),檢測(cè)結(jié)果如圖4所示。分別對(duì)四種模型進(jìn)行相同輪數(shù)的訓(xùn)練后進(jìn)行檢測(cè),由圖4可以看出,MTCNN和Faster-RCNN對(duì)人臉檢測(cè)框有明顯偏移,且檢測(cè)不到目標(biāo)較小的人臉和被遮擋的人臉,YOLOv3與文中方法能夠檢測(cè)到小目標(biāo)人臉,但YOLOv3對(duì)背景存在一定誤檢,將多個(gè)背景誤檢為人臉。綜合對(duì)比,文中方法相比其他主流算法更能完成復(fù)雜環(huán)境下的人臉檢測(cè)任務(wù)。
圖4 不同模型檢測(cè)結(jié)果對(duì)比Fig. 4 Comparison detection results of different models
交并比IOU比例是衡量模型檢測(cè)好壞的重要指標(biāo)之一,其值在0~1之間,計(jì)算方法檢測(cè)框和真實(shí)框交集與其它們并集的比值。IOU計(jì)算的是“預(yù)測(cè)的邊框”和“真實(shí)的邊框”的交集和并集的比值。通過(guò)對(duì)比多個(gè)檢測(cè)模型在相同數(shù)據(jù)集上的平均IOU比例,就可以評(píng)估檢測(cè)效果。實(shí)驗(yàn)結(jié)果如表4所示。
文中將五種檢測(cè)模型在WIDERFACEE驗(yàn)證集進(jìn)行IOU計(jì)算,將IOU>0.5視為正檢,將IOU對(duì)驗(yàn)證集取均值,由表4可以看出,文中方法的平均IOU要優(yōu)于其他幾種檢測(cè)方法,還將文中方法跟檢測(cè)框比例直接設(shè)置成1∶1的傳統(tǒng)SSD方法做對(duì)比實(shí)驗(yàn),平均IOU提升了25.3%,證明了根據(jù)真實(shí)人臉框聚類幾種不同大小的檢測(cè)框更能精準(zhǔn)的完成檢測(cè)框定位。
表4 各主干網(wǎng)絡(luò)人臉檢測(cè)性能對(duì)比Table 4 Comparison of face detection accuracy results of each method
ROC曲線可以全面評(píng)估模型分類器的性能,通過(guò)設(shè)置不同的IOU閾值,可以得到多組的TPR和FPR點(diǎn)對(duì),將檢測(cè)器映射成ROC平面上一條曲線,ROC曲線越靠近左上方則表明該檢測(cè)模型分類效果越好。通過(guò)實(shí)驗(yàn)繪制各檢測(cè)模型ROC曲線如圖5所示。
圖5 各模型ROC曲線Fig. 5 Comparison the detection results of different models
由圖5可以看出,MTCNN的檢測(cè)效果最差,F(xiàn)aster-RCNN和YOLOv3檢測(cè)效果相當(dāng),文中方法檢測(cè)效果相比其他三種方法最好。為了進(jìn)一步直觀的計(jì)算檢測(cè)器的性能,文中用ROC曲線下的面積(AUC)來(lái)量化模型檢測(cè)性能。AUC表示檢測(cè)模型檢測(cè)正確比檢測(cè)錯(cuò)誤的概率還要大的可能性,用來(lái)表示各方法在ROC曲線下的面積占比γA。實(shí)驗(yàn)結(jié)果如表5所示。
表5 各模型AUC對(duì)比Table 5 Comparison table of face detection accuracy results of each method
為評(píng)估文中方法的準(zhǔn)確性,在WIDER FACE驗(yàn)證集上對(duì)比實(shí)驗(yàn)了MTCNN等四種方法,可以看出,本文方法相比MTCNN的AUC提升了11.62%,這是因?yàn)槲闹蟹椒ㄔ诟偷奶卣鲗訉?duì)檢測(cè)框進(jìn)行預(yù)測(cè),提高了對(duì)小目標(biāo)的檢測(cè)能力。設(shè)置了不同比例的檢測(cè)框,使檢測(cè)框和真實(shí)框的交并比的值得到進(jìn)一步提升。
上述實(shí)驗(yàn)證明了文中方法在WIDERFACE數(shù)據(jù)集上的優(yōu)越性能,為了進(jìn)一步了解文中方法在其他數(shù)據(jù)集的適用性,設(shè)計(jì)實(shí)驗(yàn)進(jìn)行對(duì)比,如表6所示。
表6 文中方法在各數(shù)據(jù)集上性能Table 6 Comparison of face detection accuracy results of each method
FDDB是公認(rèn)的人臉檢測(cè)標(biāo)準(zhǔn)數(shù)據(jù)集,AFLW和CelebA也是進(jìn)行人臉檢測(cè)被廣泛使用的數(shù)據(jù)集,它們相比WIDER FACE中圖像更清晰,人臉受其他因素影響較少。通過(guò)將文中方法在其他三種數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),可以發(fā)現(xiàn)精準(zhǔn)度和AUC值沒(méi)有明顯下降,證明了文中方法在其他數(shù)據(jù)集有廣泛適用性。
在檢測(cè)結(jié)果圖像中,挑選出了一些檢測(cè)錯(cuò)誤的難分樣本,包括人臉誤檢為背景、背景誤檢成人臉的樣本,如圖6所示。
圖6 難分樣本舉例Fig. 6 Hard samples example
由圖6可以看出,這些難分樣本處在模糊、光照變化劇烈、人臉被遮擋、變形扭曲的環(huán)境中,因此各模型對(duì)此類樣本檢測(cè)率都不高。上述難分樣本影響檢測(cè)成功率,如何抑制對(duì)難分樣本的誤檢是下一步研究目標(biāo)。
通過(guò)分析SSD的主干網(wǎng)絡(luò)VGG16結(jié)構(gòu)的特點(diǎn),使用了mobilenet_v3構(gòu)造更輕量級(jí)的網(wǎng)絡(luò)模型,提高模型運(yùn)算效率,將預(yù)測(cè)層向更低的特征圖偏移,提高了對(duì)小目標(biāo)的檢測(cè)能力。分析真實(shí)人臉框比例,對(duì)預(yù)測(cè)框的比例進(jìn)行聚類,使得檢測(cè)框和真實(shí)框更加吻合。通過(guò)對(duì)數(shù)據(jù)集圖像進(jìn)行預(yù)處理,送入網(wǎng)絡(luò)模型訓(xùn)練并設(shè)計(jì)多組對(duì)照實(shí)驗(yàn)。
在數(shù)據(jù)集上的適用性較強(qiáng),但是針對(duì)人臉模糊、遮擋、光照變化的圖像檢測(cè)還有待提高,后期將針對(duì)這些難分樣本進(jìn)行研究,提高對(duì)這些圖像的檢測(cè)能力。