任宇
(四川大學(xué)視覺合成圖形圖像技術(shù)國防重點(diǎn)學(xué)科實(shí)驗(yàn)室,成都610065)
現(xiàn)如今,生物識(shí)別技術(shù)被大量應(yīng)用于身份認(rèn)證系統(tǒng)中,其中人臉識(shí)別技術(shù)由于其低成本、高判別性和無接觸等特點(diǎn)成為了智能設(shè)備解鎖、安全支付、安檢、考勤等身份認(rèn)證應(yīng)用的主要手段之一。但是,由于人臉數(shù)據(jù)相較于其他生物特征(如指紋和虹膜等)更易于獲取,人臉識(shí)別應(yīng)用面臨著被偽造人臉攻擊的風(fēng)險(xiǎn),攻擊者向認(rèn)證系統(tǒng)展示偽造人臉并試圖通過認(rèn)證,主要攻擊手段包括人臉打印或照片攻擊、人臉視頻回放攻擊、人臉面具攻擊等。為了應(yīng)對(duì)偽造人臉攻擊,人臉反欺騙檢測(cè)技術(shù),也稱為人臉活體檢測(cè)技術(shù)應(yīng)運(yùn)而生,被用于在人臉識(shí)別之前進(jìn)行偽造人臉攻擊檢測(cè)。因此人臉活體檢測(cè)技術(shù)對(duì)人臉識(shí)別系統(tǒng)的安全性有著至關(guān)重要的意義。
偽造人臉數(shù)據(jù)需要借助介質(zhì)向人臉采集設(shè)備呈現(xiàn),而真實(shí)人臉直接由采集設(shè)備采集,兩種數(shù)據(jù)在顏色紋理、面部運(yùn)動(dòng)、多光譜反射率等方面存在差異,人臉活體檢測(cè)方法借助這些差異進(jìn)行偽造數(shù)據(jù)檢測(cè),這些方法大體上分為兩類:傳統(tǒng)方法和基于深度學(xué)習(xí)的方法。
傳統(tǒng)人臉活體檢測(cè)方法可以分為3類:基于紋理的方法、基于運(yùn)動(dòng)的方法、基于多光譜的方法。傳統(tǒng)人臉活體檢測(cè)方法使用手工設(shè)計(jì)的特征,從單幀或多幀圖片中提取出針對(duì)性的紋理、顏色等特征后將其作為分類器的輸入得出分類結(jié)果,數(shù)據(jù)源的模態(tài)和圖片的色彩空間根據(jù)任務(wù)的不同可以有多種選擇。
基于顏色紋理的人臉活體檢測(cè)通常利用真假人臉之間的紋理差異。Li等人[1]提出了基于傅里葉頻譜分析的方法,作者認(rèn)為在頻域中偽造照片比真實(shí)人臉具有更少的高頻信息,并且提出使用多幀圖片檢測(cè)目標(biāo)的面部運(yùn)動(dòng)信息以區(qū)分真假人臉。Tan等人[2]使用變分視網(wǎng)膜和高斯差分濾波器來提取人臉圖像上的潛在反射特征。受到Tan等人工作的啟發(fā),Peixoto等人[3]將標(biāo)準(zhǔn)稀疏邏輯回歸和高斯差分濾波器相結(jié)合以針對(duì)極端光照情況下的人臉活體檢測(cè)。Maatta等人[4]使用LBP進(jìn)行人臉活體檢測(cè),取得了不錯(cuò)的效果,隨后Pereira等人[5]將LBP-TOP引入人臉活體檢測(cè),其效果在REPLAY-ATTACK數(shù)據(jù)集上超越了LBP?;陬伾y理特征的檢測(cè)方法泛化性能有限,因?yàn)檫@類特征會(huì)受到光照或陰影的影響。
除了顏色紋理特征,人臉的面部運(yùn)動(dòng)也是一項(xiàng)重要特征。Pan等人[6]使用條件隨機(jī)場(chǎng)為眨眼的不同階段建模,并使用眨眼作為檢測(cè)依據(jù)。Soukupova等人[7]提出了眼部橫縱比的概念,該方法計(jì)算待檢測(cè)幀及其前后各6幀圖像的眼部橫縱比,得到一個(gè)13維向量并將其送入到SVM分類器判斷是否眨眼。Kollreide等人[8]使用嘴唇運(yùn)動(dòng)進(jìn)行檢測(cè),該方法要求待測(cè)試者讀一系列句子,并使用嘴部運(yùn)動(dòng)分類器判斷所讀句子是否與所給的句子一致?;谶\(yùn)動(dòng)的人臉活體檢測(cè)方法屬于配合式活體檢測(cè),被檢測(cè)者需要根據(jù)系統(tǒng)提示完成指定動(dòng)作進(jìn)行驗(yàn)證,是目前被廣泛采用的人臉活體檢測(cè)技術(shù),其缺點(diǎn)也非常明顯,就是需要用戶主動(dòng)配合,耗時(shí)長且用戶體驗(yàn)較差。
偽造人臉需要使用介質(zhì)呈現(xiàn),其材質(zhì)和真實(shí)人臉差別是巨大的,這種差別在可見光下不易被察覺,但是在某些特定波段光譜下會(huì)變得明顯。Zhang等人[9]選用特定的光譜,然后直接使用真假人臉之間的反射強(qiáng)度差異來進(jìn)行活體檢測(cè)。Sun等人[10]使用近紅外與可見光的差分圖像進(jìn)行活體檢測(cè)。此類方法對(duì)屏幕攻擊介質(zhì)區(qū)分度高,但是對(duì)打印紙張區(qū)分度較小,需要特定設(shè)備支持,并且用戶距離額外光源的距離會(huì)影響其成像效果。
傳統(tǒng)方法的特征提取針對(duì)性較強(qiáng)但是其提取效果十分有限,這類方法很難分辨出視頻回放或高清打印圖片與真實(shí)人臉之間的細(xì)微差別,因此研究者將目光投向了深度學(xué)習(xí)領(lǐng)域。
Yang等人[11]認(rèn)為LBP、LBP-TOP等手工特征無法提取真假人臉之間的判別性特征,首次將深度學(xué)習(xí)引入到人臉活體檢測(cè)領(lǐng)域,使用卷積神經(jīng)網(wǎng)絡(luò)代替手工提取特征,最后使用SVM進(jìn)行分類,并且提出背景區(qū)域與多幀圖像對(duì)活體檢測(cè)有重要作用。Liu等人[12]認(rèn)為把活體檢測(cè)簡(jiǎn)單地當(dāng)作一個(gè)二分類任務(wù)可能無法學(xué)習(xí)到針對(duì)活體檢測(cè)任務(wù)的判別性信息,所以使用CNNRNN結(jié)構(gòu)獲取深度和rPPG信號(hào)作為輔助監(jiān)督手段使得網(wǎng)絡(luò)能夠有針對(duì)性地進(jìn)行學(xué)習(xí),取得了較好的效果。文獻(xiàn)[13]中針對(duì)性地分析了提取rPPG信號(hào)的視頻長度對(duì)活體檢測(cè)任務(wù)的影響,認(rèn)為視頻長度越長,提取的rPPG信號(hào)質(zhì)量越高,且7秒左右的視頻提取的rPPG信號(hào)足以應(yīng)對(duì)活體檢測(cè)任務(wù),同時(shí)提出在近紅外光下提取的rPPG信號(hào)比可見光下提取地更適合應(yīng)對(duì)打印攻擊。Jourabloo等人[14]將偽造人臉反向分解為真實(shí)人臉加上偽造噪聲并將偽造噪聲用于活體檢測(cè)。文獻(xiàn)[15]引入了一種大規(guī)模的多模態(tài)活體檢測(cè)數(shù)據(jù)集CASIA-SURF,數(shù)據(jù)集包含了可見光圖、深度圖和近紅外圖,并提供了一種多模態(tài)數(shù)據(jù)融合的基準(zhǔn)方法。Zhang等人[16]基于CASIA-SURF提出了針對(duì)活體檢測(cè)的輕量級(jí)網(wǎng)絡(luò)框架,作者認(rèn)為全局平均池化的區(qū)域權(quán)重均分特性對(duì)活體檢測(cè)任務(wù)具有負(fù)面影響,提出Streaming Module來替代全局平均池化。
盡管卷積神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的特征提取能力,但是基于卷積神經(jīng)網(wǎng)絡(luò)的人臉活體檢測(cè)方法往往泛化性能較差,針對(duì)這一問題,許多學(xué)者提出了基于域泛化的方法。Li等人[17]提出了一種無監(jiān)督的域自適應(yīng)活體檢測(cè)框架,通過最小化最大均值差異(MMD)來將源域的特征空間轉(zhuǎn)換到無標(biāo)簽的目標(biāo)域特征空間。Shao等人[18]認(rèn)為如果能提取多個(gè)源數(shù)據(jù)域共有的判別性特征,那么這種特征很有可能在未知的目標(biāo)數(shù)據(jù)域表現(xiàn)出良好的泛化性,并提出多級(jí)對(duì)抗性深度域泛化框架。Liu等人[19]將未知攻擊類型的零次學(xué)習(xí)活體檢測(cè)任務(wù)定義為ZSFA,利用深度樹網(wǎng)絡(luò)將偽造樣本以無監(jiān)督的方式劃分為語義子組。Wang等人[20]針對(duì)跨域人臉活體檢測(cè)任務(wù)提出了一種特征解耦框架,其中特征解耦模塊(DR-Net)負(fù)責(zé)從各數(shù)據(jù)域解耦得到活體檢測(cè)相關(guān)的特征,多域?qū)W習(xí)模塊(MD-Net)將不同數(shù)據(jù)域的特征再次解耦,得到與數(shù)據(jù)域無關(guān)的特征。這類方法興起不久,是一個(gè)研究熱點(diǎn),其泛化性能相較于普通深度學(xué)習(xí)方法有所提升。
人臉活體檢測(cè)由于其任務(wù)特殊性,其數(shù)據(jù)集制作成本較其他計(jì)算機(jī)視覺任務(wù)更大,人臉活體檢測(cè)可能面對(duì)的攻擊介質(zhì)可能有如下幾種:照片或者打印人臉(紙張可以彎曲或是裁剪掉面部關(guān)鍵部位)、手機(jī)和平板等各種智能設(shè)備、3D面具,針對(duì)每一種攻擊手段的數(shù)據(jù)都需要單獨(dú)制作,其中針對(duì)3D面具攻擊的數(shù)據(jù)集制作成本高昂,所以在研究和實(shí)際應(yīng)用中關(guān)注較少。近年來出現(xiàn)了較多的人臉活體檢測(cè)公開數(shù)據(jù)集,如表1所示。
表1 人臉活體檢測(cè)常用數(shù)據(jù)集及對(duì)比
整體上來說,人臉活體檢測(cè)數(shù)據(jù)集在向更多目標(biāo)、更多姿態(tài)表情變化、更多數(shù)據(jù)模態(tài)和更多攻擊手段發(fā)展,但是一個(gè)數(shù)據(jù)集很難做到面面俱到。最近的CASIA-SURF數(shù)據(jù)集采集了大量目標(biāo),每個(gè)目標(biāo)數(shù)據(jù)都包含三種模態(tài)的數(shù)據(jù),并且針對(duì)打印攻擊細(xì)化出了6種細(xì)化方案,但是,該數(shù)據(jù)集不包含其他類型的攻擊方式,其次目標(biāo)表情和姿態(tài)變化有限,并且目標(biāo)的年齡分布和人種分布較為單一。SIW數(shù)據(jù)集中人臉的姿態(tài)、表情及場(chǎng)景的光照變化較為豐富,且各種人種、性別、面部毛發(fā)和眼鏡佩戴情況都有涉及,其中人種涉及非洲裔、印度裔、亞裔及高加索人,各占7%、23%、35%和35%,接近3/4的被采集者為男性,1/5的被采集者蓄有胡須,佩戴眼鏡和不戴眼鏡的都接近一半,數(shù)據(jù)整體上分布較為合理,但是SIW數(shù)據(jù)集只包含RGB圖像。
總的來說,近些年的人臉活體檢測(cè)研究主要分為以下幾個(gè)方向:
(1)針對(duì)人臉活體檢測(cè)任務(wù)和其他計(jì)算機(jī)視覺任務(wù)的差異性,設(shè)計(jì)針對(duì)性的網(wǎng)絡(luò)結(jié)構(gòu);
(2)使用輔助信息或者結(jié)合多模態(tài)數(shù)據(jù)的優(yōu)點(diǎn);
(3)針對(duì)人臉活體檢測(cè)網(wǎng)絡(luò)的實(shí)際部署需求,結(jié)合MobileNet和ShuffleNet等網(wǎng)絡(luò)框架設(shè)計(jì)輕量級(jí)的網(wǎng)絡(luò);
(4)針對(duì)現(xiàn)有方法泛化性能差的問題,結(jié)合域泛化技術(shù)提高網(wǎng)絡(luò)泛化性能。
目前人臉活體檢測(cè)是計(jì)算機(jī)視覺的熱點(diǎn)方向,但是仍然處在發(fā)展階段,大多數(shù)方法都停留在研究階段,在工業(yè)中應(yīng)用最多的人臉活體檢測(cè)方法是配合式人臉活體檢測(cè),需要用戶配合且耗時(shí)長。人臉活體檢測(cè)研究還面臨著一些其他問題,數(shù)據(jù)集方面,數(shù)據(jù)集樣本少、攻擊手段不足、偽造數(shù)據(jù)制作成本高、目標(biāo)的姿態(tài)和場(chǎng)景光照變化少是主要問題,由于數(shù)據(jù)集制作耗費(fèi)人力物力成本較高,對(duì)于這一問題,需要寄希望于新的大型公開數(shù)據(jù)集;解決方案方面,方法泛化性能不足是主要問題,方法可能對(duì)訓(xùn)練集中目標(biāo)身份和光照等信息產(chǎn)生過擬合,這類方法針對(duì)特定數(shù)據(jù)集效果良好,但是一旦出現(xiàn)未知場(chǎng)景或未知攻擊手段等情況性能就會(huì)直線下降,針對(duì)這一問題,結(jié)合生成式對(duì)抗神經(jīng)網(wǎng)絡(luò)的域泛化技術(shù)是一個(gè)值得研究的方向。其次,從實(shí)際應(yīng)用角度來看,現(xiàn)有方法大多從面部區(qū)域入手,方法接受的輸入是已經(jīng)經(jīng)過人臉檢測(cè)的面部,但是攻擊手段、攻擊介質(zhì)、環(huán)境光照是多樣的,一旦面對(duì)未知情況,單從面部圖像區(qū)域可能無法找到具有判別性的特征,如果結(jié)合偽造攻擊行為本身的特征,例如攻擊者的手勢(shì)、攻擊介質(zhì)邊框等,再結(jié)合基于面部圖像的方法,可能會(huì)更適合于實(shí)際應(yīng)場(chǎng)景。
本文認(rèn)為,針對(duì)偽造人臉攻擊,設(shè)計(jì)一個(gè)高精度、高性能、高泛化能力的人臉活體檢測(cè)方案是目前人臉活體檢測(cè)任務(wù)的主要目標(biāo),其中提高方法泛化能力是未來研究的熱點(diǎn),同時(shí)本文認(rèn)為,擴(kuò)大檢測(cè)區(qū)域、從偽造攻擊本身的行為特征入手能夠更好地解決實(shí)際人臉活體檢測(cè)問題。