呂 晶,薛亞非,谷靜平
(南京師范大學(xué)中北學(xué)院,江蘇 丹陽 212300)
人臉檢測是計(jì)算機(jī)視覺領(lǐng)域非常重要的一個(gè)研究分支,被廣泛應(yīng)用于生物特征驗(yàn)證、視頻監(jiān)控、目標(biāo)跟蹤和面部表情識別等領(lǐng)域. 姿態(tài)變化、人群遮擋、面部裝飾、視角差異、光照不均衡等問題都使得人臉檢測面臨重大挑戰(zhàn). 雖已有許多研究工作來解決這些問題,但復(fù)雜條件下的人臉檢測性能仍不能滿足實(shí)際應(yīng)用的要求.
早期的人臉檢測研究將人臉檢測定義為一個(gè)剛體檢測問題,主要圍繞設(shè)計(jì)不同的手工特征或?qū)W習(xí)方案,以獲得更滿意的結(jié)果. 具體來說,Haarlike[1]、MB-LBP[2-3]、ICF[4]和SURF[5]等手工特性結(jié)合集成學(xué)習(xí)算法,可在實(shí)時(shí)運(yùn)行速度下獲得令人滿意的結(jié)果. 在高端GPU設(shè)施的高性能服務(wù)器的幫助下,一些商業(yè)產(chǎn)品可以在圖像或視頻中非常準(zhǔn)確地捕捉人臉.
本文的目標(biāo)是設(shè)計(jì)一個(gè)輕量化的人臉檢測系統(tǒng),可以部署在移動(dòng)或嵌入式設(shè)備中,并具有較好的檢測性能. 由于通道特征(ICF)[6-7]運(yùn)行速度快、性能高,可用于高效的人臉特征表示. 在此基礎(chǔ)上,像素差向量(PDV)特征[8]的提出極大地提升了性能,但其忽略了不同像素之間的關(guān)系建模. 而PDV作為一種一階運(yùn)算符,如何將其高階統(tǒng)計(jì)信息應(yīng)用于特征編碼以提升特征表達(dá)能力,仍未得到很好的解決. 針對此問題,本文研究了PDV在局部區(qū)域內(nèi)差向量分量之間的協(xié)方差信息,提出了一種新的像素差協(xié)方差特征,可顯著提高多視角人臉檢測的性能.
人臉檢測研究的歷史可以追溯到至少50年前,文獻(xiàn)[1]提供了對早期和當(dāng)前研究的詳細(xì)介紹. 人臉檢測方法可以根據(jù)輸入圖像類型分為灰度圖像和彩色圖像兩大類. 在早期的研究中,大多數(shù)方法都屬于第一類. 文獻(xiàn)[5]對多尺度的圖像使用一組基于神經(jīng)網(wǎng)絡(luò)的濾波器,然后將檢測結(jié)果合并為最終的輸出. 作為人臉檢測領(lǐng)域的里程碑工作,V&J檢測器利用Haar小波[1],對位于指定位置的相鄰區(qū)域不同大小的平均像素差值進(jìn)行編碼. 通過AdaBoost算法學(xué)習(xí)Haar特征,并級聯(lián)實(shí)現(xiàn)實(shí)時(shí)運(yùn)行. 許多后續(xù)研究對這項(xiàng)工作進(jìn)行了改進(jìn),如擴(kuò)展的Haarlike或不相交的Haarlike feature[1]. 有學(xué)者基于分塊LBP特征[2]用于正面人臉檢測,以較少的特征數(shù)目顯著提升了檢測精度. 文獻(xiàn)[3]提出了一種新的基于分布的特征,將識別信息嵌入到特征中以提高人臉檢測器的性能. 這些方法均基于圖像亮度信息,對光照變化敏感,缺乏顏色信息. 另一類方法利用顏色信息,在目標(biāo)檢測中也被證明是非常有效的. HOG 特征首先被提出用于人體特征建模,也可用于人臉檢測. 近年來,基于形變部件模型的人臉檢測方法已成為人臉檢測的主要方法. 該方法在輸入圖像分辨率較高的情況下取得了良好的效果. 最近,采用V&J的檢測方法流程,積分通道特征也被用于人臉特征表示,在一些公共數(shù)據(jù)集上取得了較好的結(jié)果. 在行人檢測領(lǐng)域廣泛應(yīng)用的多特征圖濾波策略的成功推動(dòng)下,類似的思想也被應(yīng)用于人臉檢測中,達(dá)到與當(dāng)前水平相當(dāng)?shù)男阅? 文獻(xiàn)[8]對多通道映射中的像素差分關(guān)系進(jìn)行建模,實(shí)現(xiàn)了快速準(zhǔn)確的人臉檢測.
與此同時(shí),基于深度特征的方法[9-12]取得了巨大的性能提升,這得益于最近通用目標(biāo)識別的進(jìn)展. 深度特征表示在處理其他視覺任務(wù)時(shí)也非常有效,但依賴于極為昂貴的GPU和較高的計(jì)算復(fù)雜度.
與局部二進(jìn)制模式(LBP)編碼方式相似,像素差向量的目的是建立局部區(qū)域中心像素與其相鄰像素之間的關(guān)系. 如圖1(a)所示,像素差向量是計(jì)算位于中心的錨像素ac與周邊3×3鄰域內(nèi)像素ai(i=0,1,2,…,7)的差值.多尺度像素差向量是其一種擴(kuò)展版本,為錨定像素引入了鄰域半徑r,用于表示不同尺度的像素局部統(tǒng)計(jì)信息.在圖1(b)中,半徑r=1 的鄰域用藍(lán)色高亮顯示,半徑r=2的鄰域用黃色方塊標(biāo)注.對于單個(gè)半徑r,僅對原始PDV可視化8個(gè)不同的方向.而對于W×H圖像,可以提取不同錨像素(W-r)×(H-r)/(s×s),其中s表示步幅.每個(gè)半徑為r的塊共包含(2r+1)×(2r+1)像素.
像素差分運(yùn)算是一種一階算子,可以有效地對局部塊內(nèi)的像素關(guān)系進(jìn)行建模. 眾所周知,高階統(tǒng)計(jì)量具有更強(qiáng)的鑒別能力,可用于目標(biāo)檢測領(lǐng)域. 基于此,本文提出了一種像素差分協(xié)方差特征,利用PDV中不同分量之間的相關(guān)性,提升像素特征的表達(dá)能力. 協(xié)方差矩陣能夠捕獲共存的判別模式,有利于模式分類. 從直觀上看,兩種模式的相關(guān)性等共存模式比單一模式更具鑒別力. 具體而言,人臉具有特殊的對稱結(jié)構(gòu)和幾何結(jié)構(gòu)關(guān)系,如眼睛沿著鼻子對稱,嘴總是在鼻子下面,面部區(qū)域幾乎相同. 基于這些先驗(yàn)知識,本文設(shè)計(jì)了單半徑和雙半徑PDV兩種不同情形,分別如圖2(a)和(b)所示.
這兩個(gè)版本的PDCF旨在捕獲具有相同或不同半徑PDV的不同分量之間的相關(guān)性. 如圖2(a)所示,對于(2r+1)×(2r+1)像素的圖像塊,4個(gè)分量分別表示為d1、d2、d3和d4.PDV的各分量在不同方向上得到了差分關(guān)系,反映了圖像局部區(qū)域紋理的變化. 計(jì)算完P(guān)DV后,建立協(xié)方差矩陣來對PDV分量之間的相關(guān)性進(jìn)行建模. 可以發(fā)現(xiàn),不同半徑的PDV捕獲的紋理變化不同,會對人臉檢測的性能產(chǎn)生影響.
圖2 兩種不同類型的PDCF方法Fig.2 Two different types of PDCF methods
2.2.1 單半徑的PDCF(PDCF-S)
與計(jì)算協(xié)方差矩陣的步驟相同,PDCF-S建立在半徑為r的PDV上. 如圖2(a)所示,為清晰起見,本文只對PDV的4個(gè)分量進(jìn)行了可視化. PDCF-S的目標(biāo)是在相同大小的局部區(qū)域內(nèi)建立不同元素之間的相關(guān)性,并在相同錨點(diǎn)像素下探索不同元素之間的關(guān)系. 通過計(jì)算協(xié)方差矩陣得到每個(gè)錨點(diǎn)像素的高階統(tǒng)計(jì)量,可以有效捕獲紋理信息. 此外,由于對稱特性,PDCF-S特征的維度為(d2-d)/2,其中d通常設(shè)置為4或8.
2.2.2 雙半徑的PDCF(PDCF-D)
PDCF-D建立在多尺度PDV基礎(chǔ)上,其中PDV有兩個(gè)不同的半徑r1和r2. PDCF-D的目的是探索不同尺寸的局部區(qū)域像素差之間的相關(guān)性. PDCF-D不僅可以捕獲每個(gè)錨點(diǎn)像素處不同方位的差值,還可以接收到相同方位差值之間的相關(guān)信息. PDCF-D對PDCF-S具有互補(bǔ)效應(yīng). 如圖2(b)所示,PDCF-D特征的維度為d2,高于PDCF-S特征.
圖3 人臉檢測流程Fig.3 The process of face detection
對于PDCF檢測器的訓(xùn)練,可以按照流程,將PDCF集成到Boosting框架中. 與PDV方法不同,本文方法的PDCF在PDF層之后又增加了一個(gè)層. 為了提高人臉檢測系統(tǒng)的速度,本文引入了級聯(lián)結(jié)構(gòu),該方法在保證檢測性能的前提下,能夠降低計(jì)算復(fù)雜度. 整個(gè)檢測流程如圖3所示,其中人臉檢測流程包括兩個(gè)模塊:人臉區(qū)域提取模塊和PDCF檢測模塊. 前者基于PDV的檢測器,運(yùn)行速度快,召回率高. 后者為本文提出的PDCF檢測器,利用PDV的高階統(tǒng)計(jì)量對候選人臉進(jìn)行細(xì)化,能夠高效地去除誤檢.
首先,根據(jù)輸入圖像I計(jì)算多通道特征圖F,用于計(jì)算差分像素特征和協(xié)方差特征. 這兩種類型的特征都共享F,從而降低了模型的計(jì)算復(fù)雜度. 其次,利用PDV檢測器生成人臉候選區(qū)域模塊,從而獲得疑似人臉區(qū)域集合. 對候選人臉區(qū)域進(jìn)行池化并計(jì)算PDV特征,在此基礎(chǔ)上進(jìn)一步計(jì)算協(xié)方差特征并將矩陣展平成特征向量. 最后利用訓(xùn)練好的隨機(jī)森林對輸入的特征向量進(jìn)行處理得到最終的決策結(jié)果. 由于PDV與PDCF相比計(jì)算復(fù)雜度低,因此適用于獲取高質(zhì)量的候選人臉特征;而利用高階統(tǒng)計(jì)信息的PDCF具有更高的特征判別能力,可以用于過濾候選人臉集合中的困難樣本,實(shí)現(xiàn)高效的人臉檢測.
本文所采用的人臉數(shù)據(jù)集的詳細(xì)信息如表1所示,實(shí)現(xiàn)的多視圖人臉檢測器在AFLW數(shù)據(jù)庫上進(jìn)行訓(xùn)練. 人臉窗口大小設(shè)置為80×80像素. 根據(jù)不同的側(cè)視角度共訓(xùn)練了5個(gè)人臉檢測器,分別代表(-INF,-60°]、(-60°,-20°]、(-20°,20°)、[20°,60°)和[60°,INF)的側(cè)視角度區(qū)間. 每個(gè)視圖的平均人臉如圖4所示. 俯仰角和平面內(nèi)旋轉(zhuǎn)角度均限制在[-35°,35°]. 根據(jù)側(cè)視角度,每個(gè)檢測器的訓(xùn)練正樣本數(shù)目分別為 3 949、8 818、19 724、8 818、3 949張,從PASCAL VOC2007數(shù)據(jù)集中收集了5 770張不包含人臉的圖像作為負(fù)樣本. 本文實(shí)現(xiàn)的檢測器利用Boosting算法進(jìn)行訓(xùn)練,最終每個(gè)檢測器由2 048個(gè)弱分類器組成.
本文采用查準(zhǔn)率和查全率曲線及平均查全率兩種度量方法對公共數(shù)據(jù)集上的不同方法進(jìn)行性能評價(jià),利用文獻(xiàn)[4]提供的工具箱進(jìn)行實(shí)驗(yàn)評估.
圖4 5種不同視圖的平均人臉Fig.4 Average face of five different views
表2 PASCAL數(shù)據(jù)集上PDCF的參數(shù)尋優(yōu)實(shí)驗(yàn)Table 2 Parameter optimization experiment of PDCF
3.2.1 不同半徑的參數(shù)選擇
本節(jié)對不同半徑的PDCF展開了詳細(xì)的參數(shù)尋優(yōu)實(shí)驗(yàn),同時(shí)也對ACF[7]和PDV[8]兩種經(jīng)典方法進(jìn)行了比較,具體結(jié)果如表2所示. 可以發(fā)現(xiàn),合適尺寸的PDV半徑對檢測器的平均精度存在一定的影響. 當(dāng)設(shè)置R=3像素時(shí),深度3的決策樹具有最高的精度. 采用這種設(shè)置的PDCF也明顯優(yōu)于ACF和PDV方法,說明了本文方法具有有效的特征表示能力. 此外,PDCF-S性能略優(yōu)于PDCF-D,因此在接下來的實(shí)驗(yàn)中選擇PDCF-S作為默認(rèn)特征.
圖5 PDCF特征分布分析Fig.5 Characteristic distribution analysis of PDCF
圖6 AFW數(shù)據(jù)集上的對比實(shí)驗(yàn)Fig.6 Comparative experiment of AFW dataset
3.2.2 PDCF的分布分析
圖5所示為檢測模型參數(shù)訓(xùn)練中每個(gè)通道前 6個(gè)學(xué)習(xí)所得特征的可視化表示. 并不是PDCF的每個(gè)特性維度都同等重要,Adaboost算法對d2d4、d2d8和d3d7這3個(gè)特征分量選擇的頻率較高,其他分量的選擇頻率相對較低. 這說明在模型訓(xùn)練中,PDV在水平和垂直方向上的不相鄰元素和對稱分量更受青睞. 同時(shí)還可以觀察到,通道4(梯度大小)、通道6(梯度方向?yàn)?0°)和通道10(梯度方向?yàn)?50°)的特征選擇優(yōu)先級高于其他通道特征.
3.3 與主流方法的對比實(shí)驗(yàn)
將本文方法在兩個(gè)公共數(shù)據(jù)集上與其他主流方法進(jìn)行比較實(shí)驗(yàn),本文方法記為 PDCF-Ours. 實(shí)驗(yàn)采用與PDV-Ours 和ACF-Ours相同的實(shí)驗(yàn)設(shè)置,以保證公正性.
圖7 PASCAL數(shù)據(jù)集的結(jié)果Fig.7 Results of PASCAL dataset
3.3.1 AFW數(shù)據(jù)集的對比實(shí)驗(yàn)
從圖6和表3可以看出,本文方法在所有特征中mAP性能表現(xiàn)最優(yōu),分別比DPM和HeadHunter方法高出了0.56%和0.63%. 此外,PDV-Ours和ACF-Ours這兩個(gè)基礎(chǔ)算法也具有較好的性能表現(xiàn),比SquaresChnFtrs-5分別高出了1.13%和0.19%. 在訓(xùn)練數(shù)據(jù)和參數(shù)設(shè)置相同的情況下,PDCF-Ours的性能比PDV-Ours和ACF-Ours分別高出約1.4%和2.34%,從而驗(yàn)證了本文方法的有效性. 此外,本文方法與當(dāng)前先進(jìn)的深度學(xué)習(xí)方法[10,12]相比仍有一些差距,但略優(yōu)于Faceness-Net方法[9]. 由于深度學(xué)習(xí)模型依賴于額外海量的數(shù)據(jù)用于模型預(yù)訓(xùn)練,還需要高端的GPU進(jìn)行并行處理,而本文方法屬于經(jīng)典機(jī)器學(xué)習(xí)方法,具有模型復(fù)雜度低的特點(diǎn),對設(shè)備算力和功耗的要求會大大降低.
表3 AFW數(shù)據(jù)集上經(jīng)典機(jī)器學(xué)習(xí)模型與深度學(xué)習(xí)模型的平均精度比較Table 3 Comparison of average accuracy between classical machine learning model and deep learning model on AFW dataset
3.3.2 PASCAL數(shù)據(jù)集的對比實(shí)驗(yàn)
PASCAL人臉數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果如圖7所示. 在mAP方面,本文方法的性能明顯優(yōu)于SquareChnFtr、Structured Model和ACF方法,性能提升達(dá)到了4.87%、6.57%和8.59%,也分別比DPM、HeadHunter和PDV方法分別高出約0.15%、0.81%和2.82%. 因而,本文提出的PDCF方法在兩個(gè)公共數(shù)據(jù)集上均優(yōu)于其他基于手工設(shè)計(jì)的特征. 這一結(jié)論也與AFW數(shù)據(jù)集上的評測結(jié)果一致.
如表4所示,本文方法與當(dāng)前先進(jìn)的深度學(xué)習(xí)方法相比尚有較大的差距,最新的RetinaFace方法在該數(shù)據(jù)集上精度達(dá)到了99%以上,而基于FasterRCNN模型的STN方法和Faceness-net方法比本文方法的平均精度分別高出3.66%和1.67%.
表4 PASCAL數(shù)據(jù)集上經(jīng)典機(jī)器學(xué)習(xí)模型與深度學(xué)習(xí)模型的平均精度比較Table 4 Comparison of average accuracy between classical machine learning model and deep learning model on PASCAL dataset
AFW和PASCAL數(shù)據(jù)集的圖片檢測結(jié)果如圖8所示. 可以發(fā)現(xiàn),本文的檢測器在兩個(gè)公共數(shù)據(jù)集的精度和召回率方面表現(xiàn)得非常好. 此外,在手和下巴處存在一些誤檢,對于漏檢場景主要?dú)w因于圖像中存在的遮擋和模糊問題.
圖8 AFW和PASCAL數(shù)據(jù)集上的檢測結(jié)果Fig.8 Test results on AFW and PASCAL datasets
表5為640×480像素的輸入圖像在不同檢測窗口尺寸下的運(yùn)行時(shí)間比較. 3種方法均使用相同的訓(xùn)練數(shù)據(jù),在相同的實(shí)驗(yàn)平臺上(DELL T7610服務(wù)器,雙16核CPU 2.6 GHz,內(nèi)存64G)運(yùn)行. 在窗口大小為80×80和40×40像素的情況下,PDV方法比ACF和PDCF方法有更快的運(yùn)行速度. 此外,PDCF方法具有高辨別能力,但同時(shí)也提高了計(jì)算復(fù)雜度,因此略慢于ACF方法,但該方法可濾除圖像中大部分的困難負(fù)樣本. 引入PDV方法作為人臉候選區(qū)域提取,可以較好地平衡檢測器的精度和速度,最終檢測速度可達(dá)20幀/s.
表5 640×480圖像的運(yùn)行時(shí)間比較Table 5 Runtime comparison of 640×480 images
依賴于PDV高階統(tǒng)計(jì)信息的高判別能力,本文提出了一種用于多視角人臉檢測的像素差向量協(xié)方差特征,該方法有效地?cái)U(kuò)展了像素差向量特征的一階統(tǒng)計(jì)特性,提升了特征表達(dá)能力,提高了多視角人臉檢測的性能,實(shí)現(xiàn)了一種基于人臉后續(xù)區(qū)域提取的實(shí)時(shí)多視角人臉檢測系統(tǒng),對人臉姿態(tài)變化具有較強(qiáng)的魯棒性.
此外,本文引入人臉區(qū)域候選模塊,可進(jìn)一步提升檢測速度,在不使用GPU加速的情況下,處理分辨率為640×480的圖像時(shí),處理速度可達(dá)20幀/s,非常適合于部署在低功耗邊緣計(jì)算設(shè)備上.