李澤琛,李恒超,胡文帥,楊金玉,華澤璽
(西南交通大學(xué)信息科學(xué)與技術(shù)學(xué)院,四川 成都 611756)
隨著機(jī)器視覺領(lǐng)域的快速發(fā)展,包括圖像分類、目標(biāo)檢測(cè)、圖像降噪等在內(nèi)的圖像智能解譯任務(wù)都成為重要的研究方向,其中,又以目標(biāo)檢測(cè)最為基礎(chǔ).人臉檢測(cè)作為目標(biāo)檢測(cè)任務(wù)的一個(gè)分支,雖然在20 世紀(jì)60 年代就被提出并進(jìn)行大量研究,但直到2000 年實(shí)現(xiàn)了里程碑式的突破,人臉檢測(cè)任務(wù)的性能才達(dá)到可以實(shí)際應(yīng)用的程度.到目前為止,人臉檢測(cè)技術(shù)早已融入人們的日常生活中,如移動(dòng)支付、門禁通行、視頻追蹤等應(yīng)用都以人臉目標(biāo)被成功檢測(cè)識(shí)別為前提.而如今受疫情影響,各區(qū)域行人都需要佩戴口罩出行,這使人臉檢測(cè)變得更為困難.因此,如何在特定情形下,針對(duì)佩戴口罩的人群實(shí)現(xiàn)準(zhǔn)確、快速的人臉目標(biāo)檢測(cè)成為了當(dāng)下一個(gè)重要的研究課題.
人臉檢測(cè)算法分為基于傳統(tǒng)方法的檢測(cè)算法和基于深度學(xué)習(xí)的檢測(cè)算法.基于傳統(tǒng)方法的檢測(cè)算法往往需要提取手工設(shè)計(jì)的特征,從而將其用于人臉目標(biāo)檢測(cè),如Viola 等[1]提出的Ada boost 算法,通過(guò)積分圖快速計(jì)算矩形特征,并用Ada Boost 方法得到具有較小誤差的分類器;Lienhart 等[2]提出了基于Haar 特征的人臉檢測(cè)方法,可以識(shí)別傾斜人臉;胡麗喬等[3]對(duì)方向梯度直方圖(histogram of oriented gradient,HOG)特征進(jìn)行擴(kuò)展,得到了識(shí)別率和魯棒性更好的人臉檢測(cè)器.但這些傳統(tǒng)方法依賴于手工提取的特征,受外界因素干擾嚴(yán)重且無(wú)法鑒別密集人臉,同時(shí)考慮到疫情影響下存在口罩遮擋情況,這些方法對(duì)復(fù)雜場(chǎng)景中人臉檢測(cè)性能可能會(huì)進(jìn)一步降低.
不同于傳統(tǒng)檢測(cè)方法,基于深度學(xué)習(xí)的方法無(wú)需手工設(shè)計(jì)特征表示,組合低層特征形成語(yǔ)義性和分辨能力更強(qiáng)的高層特征的方式,已被廣泛應(yīng)用于人臉檢測(cè)和識(shí)別[4-6].常見的基于深度學(xué)習(xí)的檢測(cè)算法有“單階段”和“兩階段”兩種策略,SSD(single shot mutilbox)[7]檢測(cè)算法等一系列單階段模型僅需送入網(wǎng)絡(luò)一次,便可預(yù)測(cè)出所有檢測(cè)框,因此可以獲取更高的檢測(cè)速度.在此基礎(chǔ)上,文獻(xiàn)[8]引入MobileNet網(wǎng)絡(luò),能使模型擁有更快的收斂速度.然而,單階段模型在快速檢測(cè)的同時(shí)會(huì)損失一定的檢測(cè)精度.對(duì)于兩階段模型,在檢測(cè)過(guò)程中需不斷進(jìn)行檢測(cè)和分類,以時(shí)間成本換取更精準(zhǔn)的定位.如Girshick 等[9]提出的R-CNN(region-based convolutional neural network)模型就是目標(biāo)檢測(cè)任務(wù)中兩階段模型的重要參考框架,已被許多方法所借鑒.該網(wǎng)絡(luò)通過(guò)聯(lián)合選擇搜索(selective search,SS)方法和卷積神經(jīng)網(wǎng)絡(luò),對(duì)原始輸入圖像提取多個(gè)候選區(qū)域,最后通過(guò)分類與回歸網(wǎng)絡(luò)實(shí)現(xiàn)輸入圖像中目標(biāo)的檢測(cè)和分類.在此基礎(chǔ)上,Girshick 等[10]引入空間金字塔池化網(wǎng)絡(luò)(spatial pyramid pooling networks,SPP-Net)對(duì)RCNN 進(jìn)行改進(jìn),提出Fast R-CNN 模型,通過(guò)將輸入圖像的特征提取次數(shù)減少為一次,從而加快檢測(cè)速度.經(jīng)過(guò)R-CNN 和Fast R-CNN 網(wǎng)絡(luò)的沉淀,F(xiàn)aster R-CNN 網(wǎng)絡(luò)[11]于2015 年被提出,相較于R-CNN 和Fast R-CNN 網(wǎng)絡(luò),F(xiàn)aster R-CNN 網(wǎng)絡(luò)使用區(qū)域建議網(wǎng)絡(luò)(region proposal network,RPN)代替?zhèn)鹘y(tǒng)的滑動(dòng)窗或SS 方法構(gòu)建目標(biāo)候選區(qū)域,并通過(guò)端到端的網(wǎng)絡(luò)設(shè)計(jì),在檢測(cè)精度和檢測(cè)速度上均有明顯提升.然而,上述目標(biāo)檢測(cè)框架目前仍存在許多問(wèn)題有待解決,如其主干網(wǎng)絡(luò)對(duì)特征的提取易受背景噪聲干擾、深層卷積操作易丟失空間細(xì)節(jié)信息、未考慮目標(biāo)的多尺度屬性等.
近年來(lái),研究人員提出了一種新穎的Res2Net模塊[12],可以在減少參數(shù)的同時(shí)獲取輸入圖像的多尺度信息.自注意力機(jī)制理論被首次引入深度學(xué)習(xí)[13],基于注意力機(jī)制的深度網(wǎng)絡(luò)模型已在目標(biāo)檢測(cè)、重識(shí)別等計(jì)算機(jī)視覺領(lǐng)域得到廣泛應(yīng)用[14?15].為此,本文引入Res2Net 模塊,聯(lián)合注意力機(jī)制,提出了基于空間-通道注意力結(jié)構(gòu)改進(jìn)的Res2Net(spatialchannel attention Res2Net,SCA-Res2Net)模塊,在自適應(yīng)建模目標(biāo)多尺度信息的同時(shí),抑制背景干擾并保留更多空間結(jié)構(gòu)信息.進(jìn)一步,為學(xué)習(xí)目標(biāo)的深度和全局信息,并在一定程度上克服過(guò)擬合問(wèn)題,結(jié)合加權(quán)SPP-Net(weighted SPP-Net,WSPP-Net)思想[16],本文提出了一種多尺度注意力學(xué)習(xí)的Faster R-CNN(multi-scale attention-driven Faster R-CNN,MSAF RCNN)口罩人臉檢測(cè)模型,實(shí)現(xiàn)疫情環(huán)境下公共場(chǎng)所中口罩人臉目標(biāo)的智能檢測(cè).
原始Faster R-CNN 網(wǎng)絡(luò)是目標(biāo)檢測(cè)任務(wù)中的重要框架之一,包含以下4 個(gè)部分:
1)主干網(wǎng)絡(luò):用于提取輸入圖像特征表示同時(shí)為RPN 網(wǎng)絡(luò)提供有效的輸入特征.常用的特征提取網(wǎng)絡(luò)有ResNet50[17]、MobileNet[18]、VGG16[19]等.
2)RPN 網(wǎng)絡(luò):接收主干網(wǎng)絡(luò)提取的特征表示,并構(gòu)建檢測(cè)目標(biāo)候選區(qū)域.
3)感興趣區(qū)域(region of interest,ROI)池化層:將候選區(qū)域映射至特征圖,并將其池化為統(tǒng)一尺度,用于后續(xù)的檢測(cè)與分類.
4)分類與回歸:對(duì)特征區(qū)域各目標(biāo)類別進(jìn)行分類,并利用邊界框回歸修正目標(biāo)框得到精確的位置偏移量.
盡管Faster R-CNN 網(wǎng)絡(luò)已被廣泛應(yīng)用于許多計(jì)算機(jī)視覺目標(biāo)檢測(cè)應(yīng)用中,但仍存在以下幾方面問(wèn)題:1)Faster R-CNN 網(wǎng)絡(luò)容易受到圖像整體顏色、紋理、背景等干擾,常造成誤檢、漏檢等情況;2)堆疊多層卷積和池化層的方式會(huì)很大程度丟失原始圖像的空間結(jié)構(gòu)信息;3)未充分考慮輸入圖像的多尺度信息.
針對(duì)Faster R-CNN 網(wǎng)絡(luò)存在的問(wèn)題,本文提出了MSAF R-CNN 口罩人臉檢測(cè)算法.其中,為有效提取和融合目標(biāo)的多尺度特征,提出SCA-Res2Net模塊,實(shí)現(xiàn)主干網(wǎng)絡(luò)深、淺層特征有效融合,同時(shí)構(gòu)建目標(biāo)的多尺度候選區(qū)域.進(jìn)一步,為充分學(xué)習(xí)目標(biāo)的深度和全局信息,并減輕過(guò)擬合,在模型頂端引入WSPP-Net,采用由粗到細(xì)的方式進(jìn)行特征尺度劃分,實(shí)現(xiàn)多尺度口罩人臉檢測(cè).
多尺度學(xué)習(xí)在卷積神經(jīng)網(wǎng)絡(luò)相關(guān)的研究中越來(lái)越廣泛,近期的許多研究也表明引入多尺度思想可以自適應(yīng)地刻畫目標(biāo)的尺度特性,增強(qiáng)模型的魯棒性.傳統(tǒng)的深度學(xué)習(xí)中多尺度思想實(shí)現(xiàn)方式大多考慮使用不同尺度的卷積核或反復(fù)進(jìn)行高分辨率的卷積以提升網(wǎng)絡(luò)的自適應(yīng)能力[20],但會(huì)導(dǎo)致過(guò)多的參數(shù)和冗雜的結(jié)構(gòu).因此,為捕捉更細(xì)粒度的全局和局部特征與感受野的變化,得到更簡(jiǎn)潔清晰的結(jié)構(gòu).文獻(xiàn)[12]在傳統(tǒng)的ResNet 結(jié)構(gòu)基礎(chǔ)上,提出Res2Net模塊,通過(guò)將輸入特征劃分為分不同組別,并在殘差塊內(nèi)實(shí)現(xiàn)分層連接,提升了模型結(jié)構(gòu)的可選擇性和多尺度特征提取的有效性.
如圖1 所示為Res2Net 模塊的內(nèi)部結(jié)構(gòu)示意圖,該模塊采用更小尺寸的 3×3卷積核組進(jìn)行替換,用小尺寸的卷積核捕捉細(xì)粒度更高的特征;同時(shí),對(duì)輸入特征圖進(jìn)行分組,以殘差的形式將各組連接.
圖1 Res2Net 模塊Fig.1 Res2Net module
首先,為降低計(jì)算復(fù)雜度,輸入特征經(jīng)過(guò)一個(gè)1×1 的卷積層得到X∈RH×W×C,其中:H、W和C分別為卷積核的高、寬和通道數(shù).然后,沿著通道維度將其分成s組,每組特征子集記為xi∈RH×W×C/s,i=2,3,···,s,第i組對(duì)應(yīng)卷積層記為Fi,其輸出記為fi.除了第1 組外,其余所有xi分別通過(guò)1個(gè)3×3的卷積層,且當(dāng)i>2 時(shí),融 合xi與fi?1并通過(guò)1層3×3的卷積層,得到第i個(gè)分組的輸出.其次,融合各組輸出并通過(guò)一個(gè)1×1 的卷積層.上述過(guò)程定義如式(1),最后,將輸入特征與式(1)輸出融合得到Res2Net模塊的輸出特征.
因此,通過(guò)Res2Net 模塊內(nèi)殘差結(jié)構(gòu),整個(gè)結(jié)構(gòu)可以有效提取全局和局部特征,并在計(jì)算載荷相近的情況下,以更細(xì)粒度表示多尺度特征,并提升每個(gè)網(wǎng)絡(luò)層的感受野.
但Res2Net 模塊仍存在一些問(wèn)題:1)如果輸入特征圖包含大量冗余信息,進(jìn)行塊內(nèi)殘差連接后,特征的有效性依然無(wú)法滿足期望,可能會(huì)導(dǎo)致局部過(guò)擬合,在更多無(wú)效目標(biāo)上投入更大的權(quán)重;2)在經(jīng)過(guò)塊內(nèi)殘差連接后,雖然得到了更深層、更有判別力的特征,但也會(huì)造成輸入特征圖的空間信息出現(xiàn)更大程度的丟失.
為解決上述問(wèn)題,引入通道注意力模塊(sequeze and excitation network block,SE block)[21]和空間注意力模塊(spatial attention block,SA block)[22],提出的SCA-Res2Net 模塊如圖2 所示.在第2 個(gè) 1×1的卷積層后增加2 個(gè)SE block 和1 個(gè)SA block,并將輸入特征于第1 個(gè)SE block 后級(jí)聯(lián),從空間和通道維度增強(qiáng)有效的多尺度判別信息,抑制背景干擾信息,并通過(guò)殘差結(jié)構(gòu)減輕輸入特征空間信息的丟失.
圖2 SCA-Res2Net 模塊Fig.2 Structure of SCA-Res2Net module
當(dāng)學(xué)習(xí)到局部和全局深度特征后,結(jié)合注意力機(jī)制,模型可以直接捕捉面部判別信息,完成識(shí)別任務(wù).但實(shí)際中,由于頭部的移動(dòng),原始圖像中的人臉尺度發(fā)生變化,可能會(huì)產(chǎn)生面部模糊使檢測(cè)難度增加.
WSPP-Net 的核心思想是通過(guò)將特征按尺度劃分為由粗糙到細(xì)致的不同組別,最后由局部特征聚合確定輸出特征.可以將WSPP-Net 嵌入多種模型中[23-25],對(duì)抗尺度變換帶來(lái)的檢測(cè)困難,且能在一定程度上緩解過(guò)擬合問(wèn)題,在幾乎不對(duì)模型整體產(chǎn)生影響的情況下增強(qiáng)復(fù)雜模型的性能.本文通過(guò)在WSPP-Net 模塊前端設(shè)置2 個(gè)DW(depthwise separable)卷積結(jié)構(gòu),并將池化后的特征級(jí)聯(lián),提高整個(gè)模型的多尺度學(xué)習(xí)能力,進(jìn)而獲取目標(biāo)的判決特征,見圖3.
圖3 WSPP-Net 模塊Fig.3 Structure of WSPP-Net
因此,為了從粗粒度到細(xì)粒度擴(kuò)充分類特征信息量,MSAF R-CNN 模型頂端引入WSPP-Net 模塊,經(jīng)過(guò)不同尺度的最大池化層學(xué)習(xí)目標(biāo)的全局信息,并通過(guò)FC 層聚合多尺度信息,最終利用分類與回歸網(wǎng)絡(luò)得到人臉檢測(cè)結(jié)果.
基于2.1 和2.2 節(jié),將SCA-Res2Net 模塊引入到主干網(wǎng)絡(luò)和RPN 網(wǎng)絡(luò),聯(lián)合WSPP-Net 模塊,挖掘圖像深、淺層特征的空間、多尺度等屬性,提出MSAF R-CNN 口罩人臉目標(biāo)檢測(cè)模型,如圖4 所示.
圖4 MSAF R-CNN 模型Fig.4 MSAF R-CNN model
首先,采用DW 卷積結(jié)構(gòu)對(duì)主干網(wǎng)絡(luò)進(jìn)行輕量化,減少模型參數(shù).然后,考慮到淺層特征中包含更多細(xì)節(jié)信息,因此將DW6 與主干網(wǎng)絡(luò)最后一層輸出融合,并通過(guò)改進(jìn)的SCA-Res2Net 模塊,在有效融合深、淺層特征的同時(shí),挖掘目標(biāo)多尺度屬性,并充分考慮輸入圖像的空間-通道信息,提升局部信息判別力.其次,將SCA-Res2Net 模塊引入RPN 網(wǎng)絡(luò),構(gòu)建更完備的多尺度候選區(qū)域.此外,借鑒文獻(xiàn)[26]中思想,計(jì)算感興趣區(qū)域掩膜mask,濾除背景干擾,增強(qiáng)目標(biāo)顯著性.最后,通過(guò)在網(wǎng)絡(luò)頂端引入WSPP-Net 模塊,學(xué)習(xí)目標(biāo)的全局特性,減輕過(guò)擬合現(xiàn)象,提升復(fù)雜模型的檢測(cè)性能.
實(shí)驗(yàn)環(huán)境配置如下:Intel i7-10700K 處理器,內(nèi)存16 GB,Nvidia GeForce RTX 2080s 顯卡,Windows 10 操作系統(tǒng).所有程序均基于TensorFlow 框架設(shè)計(jì),并通過(guò)Python 編程語(yǔ)言實(shí)現(xiàn).
本節(jié)實(shí)驗(yàn)使用2 組開源口罩人臉目標(biāo)檢測(cè)數(shù)據(jù)集,并統(tǒng)一將2 組數(shù)據(jù)集轉(zhuǎn)換成VOC 2007 數(shù)據(jù)集格式.
第1 組AIZOO 數(shù)據(jù)集(https://github.com/AIZOOTech/FaceMaskDetection)是目前廣泛使用的開源口罩人臉數(shù)據(jù)集之一,圖像由WIDER[27]和MAFA[28]數(shù)據(jù)集中選取并統(tǒng)一標(biāo)注.此外,AIZOO公司也針對(duì)該數(shù)據(jù)集開源了基于Faster R-CNN 和RetinaNet[29]等多種常見模型的源程序.由于部分圖像格式問(wèn)題,實(shí)驗(yàn)中對(duì)AIZOO 數(shù)據(jù)集進(jìn)行挑選,保留包括人臉圖像共7959 張,其中,訓(xùn)練集包含6120 張人臉數(shù)據(jù)(3114 張無(wú)遮擋和3006 張有遮擋),測(cè)試集包含1839 張人臉數(shù)據(jù)(780 張無(wú)遮擋和1059 張有遮擋).第2 組人臉數(shù)據(jù)集是Kaggle 官網(wǎng)公布的FMDD(face mask detection dataset)數(shù)據(jù)集(https://www.kaggle.com/wobotintelligence/face-mask-detectiondataset),包含3383 張人臉圖像.實(shí)驗(yàn)中只選取20 個(gè)類別中的“face_no_mask”類和“face_with_mask”類用于性能驗(yàn)證.訓(xùn)練集包含2706 張人臉圖像(778 張無(wú)遮擋和1928 張有遮擋),測(cè)試集包含677 張人臉圖像(537 張無(wú)遮擋和140 張有遮擋).AIZOO 和FMDD 數(shù)據(jù)集的部分圖像分別如圖5(a)和圖5(b)所示.此外,為了便于后續(xù)分析,將無(wú)口罩遮擋的類別命名為“Face”,而將有口罩遮擋的類別命名為“Mask”.
圖5 數(shù)據(jù)集部分圖像Fig.5 Partial images of datasets
不同于常規(guī)目標(biāo)的檢測(cè),本實(shí)驗(yàn)主要檢測(cè)對(duì)象為人臉.考慮到AIZOO 訓(xùn)練集中較小人臉偏多,在訓(xùn)練AIZOO 數(shù)據(jù)集時(shí)將目標(biāo)候選框(anchor)的縮放比由{8,16,32}調(diào)整為{2,4,8,16}.而對(duì)于FMDD數(shù)據(jù)集,由于該數(shù)據(jù)集中人臉目標(biāo)相對(duì)較大,該數(shù)據(jù)集下的anchor 的縮放比仍設(shè)置為{8,16,32}.此外,考慮到實(shí)際人臉結(jié)構(gòu)的特點(diǎn),實(shí)驗(yàn)中取消了2∶1 的縱橫比,因此,將anchor 的縱橫比由{1∶2,1∶1,2∶1}調(diào)整為{1∶2,1∶1}.
疫情防控影響深遠(yuǎn),對(duì)人臉漏檢或誤檢都有導(dǎo)致疫情傳播的風(fēng)險(xiǎn).因此,本文選用平均精度(average precision,AP)和平均精度均值(mean average precision,mAP)作為人臉檢測(cè)算法的評(píng)價(jià)指標(biāo),AP和mAP 計(jì)算分別如式(1)、(2).
式中:N為總類別數(shù);Pi為第i類的查準(zhǔn)率;P(R)為由查準(zhǔn)率(P)和召回率(R)構(gòu)成的曲線,其計(jì)算如式(4).
式中:TP、FP和FN分別為正類被識(shí)別為正類、負(fù)類被識(shí)別為正類和未識(shí)別的正類被標(biāo)記為負(fù)類的數(shù)目.
MSAF R-CNN 模型包含3 組重要參數(shù):SCARes2Net 模塊中分組數(shù)與壓縮比和WSPP-Net 模塊多尺度窗口大小.
3.4.1 分?jǐn)?shù)組
SCA-Res2Net 模塊中分組數(shù)過(guò)小會(huì)使特征的提取欠完備,過(guò)大會(huì)使模型網(wǎng)絡(luò)過(guò)深.本實(shí)驗(yàn)將分組數(shù)分別設(shè)置為{2,4,6,8,10}共5 種情況.在其余實(shí)驗(yàn)設(shè)置不變的條件下進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如表1 所示.表中黑體數(shù)據(jù)表示最優(yōu)結(jié)果,后文同.
根據(jù)表1,對(duì)于AIZOO 和FMDD 數(shù)據(jù)集,當(dāng)分組數(shù)由2 增加到10 時(shí),所提出模型的檢測(cè)準(zhǔn)確度mAP 值均呈現(xiàn)先上升后降低的趨勢(shì).盡管在FMDD數(shù)據(jù)集中,當(dāng)分組數(shù)為8 時(shí)Mask 類能獲得更高的準(zhǔn)確度,但過(guò)深的網(wǎng)絡(luò)層數(shù)在一定程度上會(huì)導(dǎo)致過(guò)擬合問(wèn)題,進(jìn)而影響整個(gè)模型的檢測(cè)性能.因此,對(duì)于這兩個(gè)數(shù)據(jù)集,固定分組數(shù)為4 能使得所提出MSAF R-CNN 模型同時(shí)兼顧網(wǎng)絡(luò)深度和檢測(cè)性能.
表1 不同分組數(shù)實(shí)驗(yàn)結(jié)果Tab.1 Experimental results under different numbers of groups %
3.4.2 壓縮比
SE block 可以從特征通道維度自適應(yīng)改善SCARes2Net 模塊多尺度特征學(xué)習(xí)能力,同時(shí)在局部感受野上,將空間信息和通道信息有效融合.因此,恰當(dāng)?shù)膲嚎s比設(shè)置可以使模型獲得更好的檢測(cè)性能.實(shí)驗(yàn)中,壓縮比取值范圍設(shè)置為{10,12,14,16,18},不同壓縮比的實(shí)驗(yàn)結(jié)果如表2 所示.
表2 不同壓縮比實(shí)驗(yàn)結(jié)果Tab.2 Experimental results under different compression ratios %
由表2 可見,對(duì)于AIZOO 和FMDD 兩個(gè)數(shù)據(jù)集,隨著壓縮比的增加,整個(gè)模型的準(zhǔn)確度mAP 值呈現(xiàn)先上升后降低的趨勢(shì).因此,對(duì)于這兩個(gè)數(shù)據(jù)集,MSAF R-CNN 模型中壓縮比的取值均為16.
3.4.3 多尺度窗口大小
為有效捕捉人臉的全局信息,在模型頂端引入WSPP-Net,并采用FC 層聚合多尺度信息,提升復(fù)雜模型的性能.WSPP-Net 不同窗口大小的選取會(huì)影響分類與回歸部分的學(xué)習(xí)能力.實(shí)驗(yàn)中,將窗口大小分別設(shè)置為{15,31,62,124}、{25,51,102,204}、{35,71,142,284}、{45,91,182,364}并按順序簡(jiǎn)記為S1~S4.不同窗口大小實(shí)驗(yàn)結(jié)果如表3 所示.
表3 WSPP-Net 不同多尺度窗口大小實(shí)驗(yàn)結(jié)果Tab.3 Experimental results under different window sizes in WSPP-Net %
對(duì)于兩個(gè)不同的人臉數(shù)據(jù)集,當(dāng)多尺度窗口大小為S2 時(shí),所提出模型的mAP 值均達(dá)到最優(yōu).繼續(xù)增大池化核的尺寸會(huì)使特征的局部表征模糊化,造成特征信息丟失,進(jìn)而導(dǎo)致整個(gè)模型檢測(cè)性能下降.
基于上述分析,對(duì)于這兩個(gè)不同的人臉數(shù)據(jù)集,當(dāng)SCA-Res2Net 模塊分組數(shù)設(shè)置為4、壓縮比為16 且WSPP-Net 模塊多尺度窗口大小為{25,51,102,204}時(shí),所提出MSAF R-CNN 模型均能獲得最優(yōu)檢測(cè)性能.實(shí)驗(yàn)結(jié)果證明了所提出模型具有較好的準(zhǔn)確度和魯棒性,同時(shí)也說(shuō)明了模型能有效適應(yīng)于不同的人臉數(shù)據(jù)集.
為突出所提出MSAF R-CNN 的有效性,實(shí)驗(yàn)中選擇基于MobileNet 網(wǎng)絡(luò)的SSD 檢測(cè)算法(模型1)、基于RetinaNet 的目標(biāo)檢測(cè)模型(模型2)、基于MobileNet 網(wǎng)絡(luò)的Faster R-CNN 模型(模型3)和基于VGG16 網(wǎng)絡(luò)的Faster R-CNN 模型(模型4)作為對(duì)比模型,并進(jìn)行實(shí)驗(yàn)和對(duì)比分析.實(shí)驗(yàn)結(jié)果如表4所示.
表4 不同檢測(cè)方法的性能Tab.4 Performance of different methods %
對(duì)于AIZOO 數(shù)據(jù)集,相比于其他4 種模型,MSAF R-CNN 不僅在mAP 值上分別提升了7.62%、0.22%、0.53%和0.26%,而且在口罩遮擋人臉的情況下,依然能獲得12.22%、0.53%、0.66%和0.38%的提升.而對(duì)于FMDD 數(shù)據(jù)集,MSAF R-CNN 在mAP 值上分別提升了6.71%、0.48%、1.5%和1.11%.實(shí)驗(yàn)結(jié)果驗(yàn)證了本文引入多尺度特征融合和注意力機(jī)制思想進(jìn)行聯(lián)合學(xué)習(xí)的有效性,同時(shí)也驗(yàn)證了相比于傳統(tǒng)深度學(xué)習(xí)檢測(cè)方法,所提出MSAF R-CNN模型具有更好的檢測(cè)性能.
為進(jìn)一步驗(yàn)證MSAF R-CNN 模型中各個(gè)模塊的有效性,本文將去除感興趣區(qū)域掩膜mask 后的模型記為模型5,去除SCA-Res2Net 模塊的模型記為模型6,去除WSPP-Net 模塊后的模型記為模型7 消融實(shí)驗(yàn),結(jié)果如表5 所示.
表5 消融實(shí)驗(yàn)結(jié)果Tab.5 Ablation experimental results of feature removal and fusion %
具體地,對(duì)比模型5 和MSAF R-CNN 模型,在引入Mask 后,2 個(gè)數(shù)據(jù)集的mAP 值分別提升了0.11%和1.16%,證明了感興趣區(qū)域掩膜可以濾除RPN 網(wǎng)絡(luò)中特征的干擾信息,提高整個(gè)模型的檢測(cè)準(zhǔn)確度.相比于模型6,通過(guò)引入所改進(jìn)的SCARes2Net 模塊,MSAF R-CNN 模型在2 個(gè)數(shù)據(jù)集上的準(zhǔn)確度mAP 值分別提升了0.38%和0.68%,說(shuō)明了引入深淺層特征融合與細(xì)粒度的多尺度特征學(xué)習(xí)對(duì)人臉目標(biāo)檢測(cè)的有效性.此外,對(duì)比模型7 和MSAF R-CNN 模型,在移除WSPP-Net 模塊后,整個(gè)模型無(wú)法有效提取目標(biāo)的深度和全局信息,進(jìn)而影響最終的檢測(cè)結(jié)果.上述實(shí)驗(yàn)結(jié)果證明了MSAF R-CNN 模型中引入的融合深淺層特征、SCA-Res2Net模塊和WSPP-Net 模塊對(duì)口罩人臉檢測(cè)的重要性和有效性.
針對(duì)在佩戴口罩等遮擋條件下人臉目標(biāo)檢測(cè)困難的問(wèn)題,本文提出了MSAF R-CNN 口罩人臉檢測(cè)模型.首先,在原始Faster R-CNN 模型中引入Res2Net模塊提取目標(biāo)細(xì)粒度的多尺度特征.然后,結(jié)合通道和空間注意力機(jī)制構(gòu)建SCA-Res2Net 模塊,自適應(yīng)定位全局和局部有用多尺度特征.最后,在網(wǎng)絡(luò)頂端嵌入WSPP-Net 子模塊,從粗粒度到細(xì)粒度擴(kuò)充分類特征信息量.在AIZOO 和FMDD 兩個(gè)人臉數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明:相比現(xiàn)有深度學(xué)習(xí)方法,MSAF R-CNN 模型能實(shí)現(xiàn)更好的口罩人臉檢測(cè)性能,對(duì)后續(xù)的疫情防控工作有較好的應(yīng)用前景.