鄧可望 趙 娟 肖振中 師少光 朱 亮
1(中國科學(xué)院深圳先進(jìn)技術(shù)研究院 深圳 518055)2(奧比中光科技集團(tuán)股份有限公司 深圳 518062)
3(深圳奧芯微視科技有限公司 深圳 518062)
在過去的幾十年中,人臉識(shí)別技術(shù)取得了里程碑式的發(fā)展,尤其在智能安防、互聯(lián)網(wǎng)支付等領(lǐng)域[1-3]。在這些應(yīng)用場景中,攝像頭模組需要具備體積小、幀率高、分辨率高的特性,常用的模組包括 RGB 模組和 IR 模組。然而,這兩類攝像頭模組僅能提供人臉的顏色和紋理特征,缺乏相應(yīng)的生物特征,容易受到假體人臉攻擊。多光譜濾波器陣列(multi-spectral filter array,MSFA)的推廣使得多光譜攝像頭在消費(fèi)電子領(lǐng)域中的應(yīng)用成為可能。與傳統(tǒng)圖像相比,多光譜圖像能夠呈現(xiàn)物體的光譜反射特性,而這些特性往往與物體自身的村質(zhì)息息相關(guān)。因此,可將多光譜圖像獲取的人臉反射特征作為人臉活體檢測的重要判別依據(jù)。2001 年,Angelopoulo 等[4]發(fā)現(xiàn),由于皮膚血管中的血紅蛋白對(duì)不同波段光的吸收特性不同,人臉反射光譜在 420~630 nm 處呈現(xiàn)明顯的“W”形狀。除此之外,Zhang 等[5]研究發(fā)現(xiàn),人臉反射光譜在 850 nm 處具有更高的反射率,能夠有效地將人臉與其余村質(zhì)進(jìn)行區(qū)分。
目前,人臉活體檢測方法主要分為交互式活體檢測方法和靜默式活體檢測方法[6]。由于交互式活體檢測方法需要用戶配合,故學(xué)術(shù)研究主要集中于靜默式活體檢測方法。靜默式活體檢測方法主要分為基于紋理特征的活體檢測方法、基于動(dòng)態(tài)特征的活體檢測方法、基于多模態(tài)的活體檢測方法[7]。基于紋理特征的活體檢測方法關(guān)注人臉面部豐富的細(xì)節(jié)特征[8-12],采用局部二值模式、方向梯度直方圖、頻域轉(zhuǎn)換等方法提取紋理特征,但是容易受到逼真硅膠頭模、高分辨率照片等的攻擊。基于動(dòng)態(tài)特征的活體檢測方法將多幀圖像作為時(shí)間序列,利用神經(jīng)網(wǎng)絡(luò)獲取人體動(dòng)態(tài)生理特征(如遠(yuǎn)程光容積描記術(shù)等[13]),但需要較長時(shí)間才能獲得較好的活體檢測結(jié)果,且對(duì)高清視頻防范效果較差?;诙嗄B(tài)的活體檢測方法采用多個(gè)攝像頭模組,通常包括 RGB 攝像頭、深度攝像頭和 IR 攝像頭,通過建立神經(jīng)網(wǎng)絡(luò)模型處理多模態(tài)數(shù)據(jù),完成活體檢測任務(wù)[14-15]。但是,其本質(zhì)仍然是獲取人臉的紋理細(xì)節(jié)和空間結(jié)構(gòu)特征,并未考慮人臉生物特性,且成本較高,只有較大的網(wǎng)絡(luò)模型才能獲得比較好的收斂效果。
因此,針對(duì)上述問題,本文利用 MSFA 獲取人臉多光譜圖像,采用光譜歸一化方法提高人臉光譜區(qū)域的一致性,形成穩(wěn)定的人臉反射特性。此外,本文提出一種基于面部多區(qū)域聯(lián)合的Transformer 模型(facial patch Transformer-based model,F(xiàn)PTransformer),在利用注意力機(jī)制獲取各區(qū)域關(guān)聯(lián)性的基礎(chǔ)上,同時(shí)提取人臉空間特征和光譜特征,提煉深層次人臉生物特征,提升人臉活體檢測成功率。為驗(yàn)證方法的有效性,在自建的多光譜數(shù)據(jù)集上,將本文提出方法與人臉活體檢測領(lǐng)域廣泛應(yīng)用的方法進(jìn)行比較,并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行總結(jié)分析。IQ 對(duì)人臉皮膚與幾種常見假體村質(zhì)(包括硅膠、樹脂、乳膠和打印紙)的反射率曲線進(jìn)行研究。SPECIM-IQ 覆蓋的波長范圍為 400~1 000 nm,光譜分辨率為 7 nm,配備專業(yè)的白板,能夠方便地獲取物體反射率。本文將真人和不同村質(zhì)假體臉頰的反射率曲線進(jìn)行比較,同時(shí)將真人人臉不同區(qū)域組織的反射率進(jìn)行比較,結(jié)果如圖1 所示。
圖1 不同材質(zhì)及不同區(qū)域的人臉皮膚反射率Fig.1 Facial skin reflectance of different materials and regions
皮膚是組成人臉面部的主要成分,它獨(dú)特的生理特性決定了其對(duì)不同波段光的反射特性,可憑此作為判斷人臉活體的依據(jù)。由于大部分物體的反射特性集中于可見-近紅外波段[16],因此,本文選用手持式智能型高光譜相機(jī) SPECIM-
由圖1(a)可知,真人人臉皮膚反射率曲線在 500~600 nm 處呈現(xiàn)明顯的“W”形狀,且在960 nm 處有明顯的吸收峰,具有獨(dú)特的可區(qū)分性。另外,由圖1(b)可知,人臉不同區(qū)域組織由于血紅蛋白及水分等含量不同,反射率也存在一定差異。在實(shí)際的人臉識(shí)別應(yīng)用場景中,昂貴專業(yè)的高光譜儀很難得到廣泛應(yīng)用,而通過 MSFA獲取部分可區(qū)分性大的波段圖像,從而實(shí)現(xiàn)活體檢測將成為一種簡單且高效的手段。考慮到市面上 MSFA 的波段排列以及濾光片的濾光曲線,本文選用的 MSFA 包含 9 個(gè)波段,排列方式以及對(duì)應(yīng)的濾光曲線如圖2 所示。該濾光片組合覆蓋了具有典型人臉活性特性的 500~600 nm 區(qū)域和960 nm 區(qū)域。
圖2 MSFA 的波段排列方式和濾光曲線圖Fig.2 Band arrangement and filtering curves of MSFA
MSFA 所獲單幀馬賽克圖像的尺寸為 1 600×1 200 像素,為了便于在消費(fèi)電子端進(jìn)行部署,本文直接將馬賽克圖像重新采樣為多光譜圖像。即令涂有相同濾光片的像素構(gòu)成對(duì)應(yīng)單波段圖像,經(jīng)此操作后,所獲多光譜圖像數(shù)據(jù)的大小為533×400×9 像素。
在實(shí)際的智能安防場景中,利用攝像頭模組僅能獲取物體表面的反射輻照度信息,若缺乏相應(yīng)的先驗(yàn)知識(shí),則無法計(jì)算反射率信息。因此,直接利用 MSFA 捕獲的多光譜圖像容易受到外界光照條件的影響,難以獲取物體穩(wěn)定的反射特性,為后續(xù)的人臉活體檢測任務(wù)帶來挑戰(zhàn)。本文引入多光譜成像技術(shù)的初衷是挖掘物體反射特性,將其作為村質(zhì)區(qū)分的重要判斷依據(jù)。因此,本文著重關(guān)注物體反射曲線,假定組成成分相同的物體具有相近的反射曲線,且一般不受外界光照條件影響。本文經(jīng)過對(duì) MSFA 成像原理進(jìn)行研究,提出了一種光譜歸一化方法,以獲取物體的相對(duì)反射曲線,提高多光譜圖像區(qū)域一致性。令 MSFA 所獲多光譜圖像記作 ,對(duì)于任一像素,其中, 為第i個(gè)波段的光強(qiáng)值,光譜歸一化計(jì)算公式如公式(1)~(2)所示:
其中,E為像素總能量; 為第i通道的光強(qiáng)值所占總能量的比值。
由公式(1)~(2)得歸一化后像素表達(dá)式為。當(dāng)外界光照條件發(fā)生變化時(shí),MSFA 所獲各波段的灰度圖像會(huì)隨之變化,而經(jīng)過歸一化后的多光譜圖像能夠降低這種影響,并且能夠使村質(zhì)相同的物體具有相近的反射曲線,極大地提升了后續(xù)活體檢測的成功率。圖3 中顯示了硅膠頭模的原始偽彩色圖和歸一化后的偽彩色圖(由多光譜圖像中第 6、5、4 波段作為 R、G、B 波段組合而成),同時(shí)還對(duì)比了不同區(qū)域的同種村質(zhì)所對(duì)應(yīng)的反射曲線。
圖3 光譜歸一化前后的偽彩色圖和反射曲線Fig.3 Pseudo-color images and reflection curves before and after spectral normalization
由圖3 可知,光譜歸一化操作提升了同種村質(zhì)的反射曲線的一致性,凸顯了物體的反射特性,降低了光照條件的影響,增加了不同村質(zhì)的可區(qū)分性。除此之外,光譜歸一化后的反射曲線取值為 0 到 1,降低了神經(jīng)網(wǎng)絡(luò)模型的收斂難度。
神經(jīng)網(wǎng)絡(luò)模型能夠提取圖像的深層次特征,在大規(guī)模的數(shù)據(jù)上進(jìn)行訓(xùn)練后,能夠獲得很好的魯棒性,被廣泛應(yīng)用于圖像分類和識(shí)別任務(wù)。目前,基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)模型的人臉活體檢測技術(shù)獲得了業(yè)界認(rèn)可[17-18],但是,該類模型僅能提取人臉局部區(qū)域的特征,難以關(guān)注區(qū)域之間的關(guān)聯(lián)性,仍會(huì)受到部分高逼真假體的攻擊。Dosovitskiy等[19]提出的 VIT(vision Transformer)模型將基于Transformer 的神經(jīng)網(wǎng)絡(luò)模型引入圖像分類領(lǐng)域,將圖像劃分成多個(gè)圖像塊,利用注意力機(jī)制捕獲圖像塊之間的關(guān)聯(lián),提取圖像深層次特征,為視覺理解任務(wù)開辟了新的思路。由于人臉不同區(qū)域的組成成分及紋理結(jié)構(gòu)不盡相同,反映在圖像上表現(xiàn)為光譜特征和空間特征不同,故本文提出FPTtransformer,以獲取完備的人臉特征,并作為獨(dú)特的生物特征,以提高人臉活體檢測的準(zhǔn)確率??紤]到活體檢測易受周圍環(huán)境干擾,且鑒于人臉典型的五官結(jié)構(gòu),本文選取 6 個(gè)人臉核心區(qū)域作為神經(jīng)網(wǎng)絡(luò)模型的輸入,包括左眼、右眼、鼻子、左臉頰、右臉頰和嘴唇,按照一定順序輸入 Transformer 模型,最終輸出活體檢測結(jié)果,模型結(jié)構(gòu)如圖4 所示。
圖4 FPTransformer 結(jié)構(gòu)圖Fig.4 Schematic diagram of FPTransformer
由圖4 可知,本文提出模型的特征提取能力主要依賴于 Transformer Encoder 模塊,該模塊利用獨(dú)特的注意力機(jī)制,關(guān)聯(lián)各個(gè)人臉區(qū)域塊,綜合提取人臉的光譜特征和空間特征,提煉深層次的人臉生物特征。Transformer Encoder 模塊的核心注意力機(jī)制如圖5 所示。
圖5 Transformer Encoder 模塊的核心注意力機(jī)制圖Fig.5 Core attention mechanism diagram of TransformerEncoder module
由公式(3)~(7)可知,Transformer Encoder模塊根據(jù)輸入圖像塊之間的關(guān)聯(lián)計(jì)算相應(yīng)的注意力矩陣,并對(duì)圖像進(jìn)行特征提取。本文提出的FPTransformer 通過多個(gè) Transformer Encoder 的堆疊,逐步獲取深層次特征,進(jìn)而獲取整個(gè)人臉的生物特征,最終經(jīng)過 Fully Connection 進(jìn)行活體檢測分類,得到相應(yīng)的活體檢測結(jié)果。
綜上所述,本文對(duì)人臉光譜特性進(jìn)行研究(活體檢測流程圖如圖6 所示),結(jié)合智能安防領(lǐng)域攝像頭的特點(diǎn),利用 MSFA 獲取多光譜圖像,經(jīng)人臉檢測模型提取人臉面部圖像,采用光譜歸一化方法對(duì)其進(jìn)行數(shù)據(jù)預(yù)處理,分割多個(gè)人臉核心區(qū)域,提出 FPTransformer,以提取人臉面部生物特征,完成高準(zhǔn)確率的人臉活體檢測。
圖6 FPTransformer 模型流程圖Fig.6 Flow chart of FPTransformer model
與現(xiàn)有的人臉活體檢測方案相比,多光譜數(shù)據(jù)包含了豐富的光譜信息和空間信息,提升了人臉的可區(qū)分性。本文提出的 FPTransformer 利用人臉核心區(qū)域之間的關(guān)聯(lián)性提取人臉的本質(zhì)生物特征,摒棄了部分受成像環(huán)境影響較大的區(qū)域,提升了模型的魯棒性及活體檢測準(zhǔn)確率。
實(shí)驗(yàn)過程中將本團(tuán)隊(duì)提出的 FPTransformer與幾種常用的人臉活體檢測方法在相同的數(shù)據(jù)集上進(jìn)行了比較。并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行討論分析,充分說明本文提出方法的有效性。同時(shí),本文將對(duì)光譜歸一化方法的有效性進(jìn)行進(jìn)一步論證。
本文利用 MSFA 采集真人和不同村質(zhì)假體的人臉數(shù)據(jù),通過人臉檢測模型提取相應(yīng)的人臉區(qū)域,為了方便神經(jīng)網(wǎng)絡(luò)模型處理,縮放人臉區(qū)域至相同尺寸 112×112×9 像素。經(jīng)統(tǒng)計(jì),多光譜人臉數(shù)據(jù)集包含真人人臉數(shù)據(jù) 75 371 張,假體人臉數(shù)據(jù) 67 324 張。按照 3∶1 的比例劃分成訓(xùn)練集和驗(yàn)證集,訓(xùn)練集包含人臉圖像 111 992 張,驗(yàn)證集包含人臉圖像 30 703 張,真人和假體數(shù)據(jù)均涉及不同人臉姿態(tài)、不同采集距離及不同光照條件。其中,假體村質(zhì)包含硅膠、乳膠、樹脂、打印紙。
實(shí)驗(yàn)環(huán)境配置如下:操作系統(tǒng)為 Ubuntu 系統(tǒng),深度學(xué)習(xí)框架為 Pytorch1.7.0 和 Cuda11.4,采用 4 張 NVIDIA GeForce RTX 3080 顯卡訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型。在模型訓(xùn)練時(shí),最大迭代次數(shù)為200 個(gè) epochs,優(yōu)化器為 Adam,損失函數(shù)為交叉熵?fù)p失函數(shù)。
本小節(jié)將提出的方法與基于 CNN 的模型(包括采用差分卷積的 CDCN 模型[20]、采用輕便網(wǎng)絡(luò)結(jié)構(gòu)的 Mobilenet 模型[21]、采用密集連接的 Densenet 模型[22])和傳統(tǒng)的 VIT 網(wǎng)絡(luò)模型進(jìn)行比較,以攻擊錯(cuò)誤分類率(attack presentation classification error rate,APCER)、真實(shí)樣本錯(cuò)誤分類率(normal presentation classification error rate,NPCER)、平均分類錯(cuò)誤率(average classification error rate,ACER)和準(zhǔn)確率(accuracy,ACC)為評(píng)價(jià)標(biāo)準(zhǔn)[23],計(jì)算公式如公式(8)~(11)所示。
其中,TP為模型預(yù)測為正的正樣本;TN為模型預(yù)測為負(fù)的負(fù)樣本;FP為模型預(yù)測為正的負(fù)樣本;FN為模型預(yù)測為負(fù)的正樣本。
為了說明多光譜圖像在人臉活體檢測方面的優(yōu)越性,本文將其中的第 6、5、4 波段組合成相應(yīng)的 RGB 圖像,與原始多光譜圖像就活體檢測效果進(jìn)行比較。不同模型在驗(yàn)證集上的實(shí)驗(yàn)結(jié)果如表1 所示,同一模型包含了多光譜圖像數(shù)據(jù)集及 RGB 圖像數(shù)據(jù)集的活體檢測效果。
表1 不同神經(jīng)網(wǎng)絡(luò)模型的實(shí)驗(yàn)結(jié)果表Table 1 Experimental results of different neural network models
由表1 可知,對(duì)于同一模型而言,多光譜圖像的活體檢測效果普遍優(yōu)于對(duì)應(yīng)的 RGB 圖像,說明多光譜圖像能夠反映物體更多的反射特性,增強(qiáng)真人與假體的可區(qū)分性。對(duì)于不同的模型而言,基于 CNN 的模型在真人活體檢測方面具有較好的表現(xiàn),APCER 值均低于 2%,而對(duì)假體的區(qū)分效果較差,說明該類神經(jīng)網(wǎng)絡(luò)模型缺乏獲取人臉本質(zhì)特征的能力,僅依據(jù)淺層特征對(duì)人臉進(jìn)行活體檢測,在面對(duì)復(fù)雜的外部環(huán)境及多變的人臉攻擊方式時(shí),模型泛化能力較差。而反觀基于Transformer 的神經(jīng)網(wǎng)絡(luò)模型,雖然在真人活體檢測方面的準(zhǔn)確率存在一定程度下降,但是對(duì)于假體的活體檢測大幅提高,且擁有更低的 ACER值。值得注意的是,本文提出的基于面部多區(qū)域聯(lián)合的 Transformer 模型在 APCER 值僅下降 1%左右的基礎(chǔ)上,NPCER 值提升超過 4%,且擁有最低的 ACER 值 5.10%,以及最高的 ACC值95.72%,說明本文提出的方法通過捕獲人臉不同區(qū)域之間的關(guān)聯(lián)性,提取了人臉的本質(zhì)生物特征,獲得了更好的人臉活體檢測效果。為了進(jìn)一步說明本文提出方法的泛化能力,對(duì)不同村質(zhì)的人臉假體數(shù)據(jù)分別進(jìn)行統(tǒng)計(jì),如表2 所示,計(jì)算相應(yīng)的準(zhǔn)確率,結(jié)果如圖7 所示,模型輸入均為MSFA 采集的多光譜數(shù)據(jù)。
表2 驗(yàn)證集假體分布表Table 2 Distribution of the validation dataset of prosthesis
圖7 不同模型在假體驗(yàn)證集上的實(shí)驗(yàn)結(jié)果Fig.7 Experimental results of different models on the validation dataset of prosthesis
由圖7 可知,基于 CNN 的模型對(duì)不同村質(zhì)假體的活體檢測準(zhǔn)確率差異較大,對(duì) 2D 打印假體普遍具有較高的準(zhǔn)確率,對(duì)樹脂面具同樣具有較好的可區(qū)分性,而對(duì)于細(xì)節(jié)紋理豐富的 3D 硅膠、乳膠頭模而言,則表現(xiàn)較差,說明該類網(wǎng)絡(luò)模型對(duì)村質(zhì)的可區(qū)分性較差,僅根據(jù)淺層紋理特征進(jìn)行人臉活體檢測;基于 Transformer 的神經(jīng)網(wǎng)絡(luò)模型對(duì)不同村質(zhì)的假體均具有較好的檢測效果,且波動(dòng)范圍較基于 CNN 的模型更小。尤其是本文提出的模型,對(duì) 3D 硅膠頭模的活體檢測準(zhǔn)確率達(dá)到了 95.28%,充分說明該模型能夠提取人臉的生物特征,對(duì)不同村質(zhì)的人臉進(jìn)行準(zhǔn)確劃分,實(shí)現(xiàn)高精度的人臉活體檢測。
另外,本文還將提出的光譜歸一化方法與其余常見的數(shù)據(jù)歸一化方法(包括最大值歸一化方法和通道歸一化方法)進(jìn)行比較,選用的神經(jīng)網(wǎng)絡(luò)模型為本文提出的基于面部多區(qū)域聯(lián)合的Transformer 模型,實(shí)驗(yàn)結(jié)果如表3 所示。
表3 不同歸一化方法結(jié)果表Table 3 Results of different normalization methods
由表3 可知,與其他歸一化方法相比,光譜歸一化方法的各項(xiàng)指標(biāo)均有一定程度提升,APCER 值、ACER 值、ACC 值均提升不低于2%,說明光譜歸一化方法在處理多光譜數(shù)據(jù)時(shí)能夠提升不同村質(zhì)之間的可區(qū)分性,以及同種村質(zhì)之間的一致性,具有獨(dú)特的優(yōu)越性。
本文提出了一種基于面部多區(qū)域聯(lián)合的Transformer 模型,不僅獲取了人臉不同核心區(qū)域的光譜特征和空間特征,還利用它們之間的關(guān)聯(lián)性,綜合提取了人臉的深層次生物特征,獲得了高準(zhǔn)確率的活體檢測結(jié)果。與智能安防領(lǐng)域中現(xiàn)有的人臉活體檢測方案相比,本文引入了多光譜人臉數(shù)據(jù),拓展了光譜維度,增加了不同村質(zhì)人臉的可區(qū)分性,并探索了基于 Transformer 的網(wǎng)絡(luò)模型在人臉活體檢測任務(wù)中的應(yīng)用性。實(shí)驗(yàn)結(jié)果表明,在相同的人臉數(shù)據(jù)集上,本文提出的模型獲得了高達(dá) 95.72% 的活體檢測準(zhǔn)確率,以及低至 5.10% 的錯(cuò)分率,優(yōu)于其他常用的人臉活體檢測模型,充分說明了該方法的有效性。在之后的研究中,不僅需要對(duì)人臉區(qū)域劃分進(jìn)行更多的研究,以求選擇最優(yōu)的區(qū)域組合,還需要對(duì)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行優(yōu)化,獲得更為豐富的人臉特征,提高真人活體檢測準(zhǔn)確率,以在消費(fèi)電子領(lǐng)域獲得更為廣泛的應(yīng)用。另外,由于多光譜濾波陣列的濾光片選擇有限,不能針對(duì)性選擇波段,因此無法獲得可區(qū)分性最好的人臉特征波段。