人臉識(shí)別活體檢測(cè)綜述

2020-02-29 08:49:30楊巨成代翔子韓書(shū)杰

天津科技大學(xué)學(xué)報(bào) 2020年1期

楊巨成，代翔子，韓書(shū)杰，毛磊，王嫄

(天津科技大學(xué)人工智能學(xué)院，天津 300457)

人臉識(shí)別技術(shù)是個(gè)人身份認(rèn)證的重要工具，并且該技術(shù)擁有非接觸式、成本低、方便快捷等特點(diǎn)，成為各種安全應(yīng)用領(lǐng)域的最佳選擇(例如社交媒體和智能手機(jī)訪問(wèn)控制、關(guān)鍵地點(diǎn)的邊境管制和視頻監(jiān)控)．由于復(fù)制人臉?lè)浅Ｈ菀讓?shí)現(xiàn)，因此出現(xiàn)了很多針對(duì)人臉認(rèn)證攻擊的手段，主要包括人臉照片攻擊[1]、人臉視頻回放攻擊[1]以及三維人臉模型攻擊[2].

人臉識(shí)別系統(tǒng)中活體檢測(cè)技術(shù)判斷人臉圖像是否為活體．只有人臉圖像被判定為活體的情況下，人臉身份認(rèn)證才有效，否則就會(huì)被判定為非法攻擊．本文首先列舉了3種常見(jiàn)的偽造攻擊類(lèi)型，再分析近十年的相關(guān)工作，并將活體的檢測(cè)方法分為兩大類(lèi)：(1)基于描述子的分析方法，指根據(jù)描述子所描述的特征差異性區(qū)分活體與非活體人臉圖像，比如紋理、運(yùn)動(dòng)、頻率、顏色、形狀等；(2)基于分類(lèi)器的分析方法，指利用大量活體與非活體人臉數(shù)據(jù)作為訓(xùn)練樣本，執(zhí)行分類(lèi)算法得到的活體判別模型．繼而歸納目前常見(jiàn)的幾種公開(kāi)數(shù)據(jù)集，分析其屬性，包括人臉圖像的采集設(shè)備、采集環(huán)境、采集方式等．為了評(píng)價(jià)人臉活體檢測(cè)方法的性能，本文詳細(xì)介紹了人臉活體檢測(cè)中常見(jiàn)的幾種評(píng)價(jià)指標(biāo)，分析幾種主流方法的優(yōu)缺點(diǎn)，包括利用傳統(tǒng)的局部特征以及運(yùn)動(dòng)信息、深度學(xué)習(xí)方法等，指出未來(lái)人臉活體檢測(cè)方法的發(fā)展趨勢(shì)．

1 偽造攻擊類(lèi)型

圖 1[3]是具有活體檢測(cè)功能的人臉身份認(rèn)證系統(tǒng)框架．人臉識(shí)別系統(tǒng)通常會(huì)考慮以下 3種偽造攻擊類(lèi)型：

(1) 人臉照片攻擊：包括打印照片、彎曲打印照片模擬人臉運(yùn)動(dòng)以及切割眼部的打印照片[1]．

(2) 人臉視頻回放攻擊：通過(guò)視頻播放進(jìn)行的攻擊顯示幾乎與真實(shí)人臉活體具有相似的行為，具有許多有效用戶(hù)運(yùn)動(dòng)的固有特征．這種類(lèi)型的攻擊具有照片中未呈現(xiàn)的生理跡象，例如眨眼、人臉表情以及頭部和嘴部的運(yùn)動(dòng)，并且可以使用平板電腦或大型智能手機(jī)輕松執(zhí)行[1]．

(3) 三維人臉模型攻擊：在獲得合法用戶(hù)的人臉照片或人臉視頻信息后，非法用戶(hù)可以通過(guò)真人三維建模的方式得到合法用戶(hù)的三維面具．但是，面具的制造需要 3D掃描和打印特殊設(shè)備，成本比其他類(lèi)型攻擊更加昂貴，其制作過(guò)程也更加困難[2]．

圖1 具有活體檢測(cè)功能的人臉身份認(rèn)證系統(tǒng)框架Fig. 1 Framework of face recognition-based authentication system for liveness detection

2 針對(duì)人臉偽造攻擊的主要方法

本文將針對(duì)人臉偽造攻擊的活體檢測(cè)方法歸納為兩大類(lèi)：一是基于描述子的分析方法，比如紋理、運(yùn)動(dòng)、頻率、顏色、形狀或反射率；二是基于分類(lèi)器的分析方法，比如判別式、回歸、距離度量以及啟發(fā)式方法．

2.1 基于描述子的分析方法

2.1.1 基于紋理描述子的方法

打印照片中存在著活體中不存在的某種特有的紋理信息[4-5]．紋理特征的差異性在活體和非活體中比較明顯，有超過(guò) 80%的研究方法都是單獨(dú)使用紋理特征或者是利用紋理特征結(jié)合其他描述子．不同的紋理描述子可以被用于檢測(cè)人臉攻擊，其中具有簡(jiǎn)單易算性的局部二值描述子(local binary pattens，LBP)算法[6]，常被用作特征描述的首要選擇，很多研究者都是探究 LBP或者基于 LBP改進(jìn)的方法[7-8].LBP 是一種具有灰度、旋轉(zhuǎn)不變性的紋理編碼技術(shù)，通過(guò)將每個(gè)像素與其鄰域進(jìn)行比較，標(biāo)記每個(gè)像素，將結(jié)果連接成二進(jìn)制數(shù)．鄰域的數(shù)量、鄰域半徑和編碼策略都是該方法的參數(shù)．最后將最終計(jì)算的結(jié)果組織在直方圖中以描述紋理．Tan等[9]在 Lambertian反射模型的基礎(chǔ)上利用對(duì)數(shù)總差異(logarithmic total variation，LTV)方法對(duì)圖像完成預(yù)處理，然后利用高斯差分(difference of Gaussian，DoG)濾波器對(duì)圖像進(jìn)行濾波，提取圖像DoG特征，最后用改進(jìn)的 Logistic回歸完成人臉真?zhèn)畏诸?lèi)．

2.1.2 基于運(yùn)動(dòng)描述子的方法

運(yùn)動(dòng)描述子從兩種不同的運(yùn)動(dòng)方法角度進(jìn)行活體檢測(cè)．一種方法是檢測(cè)和描述人臉變化，例如眨眼、人臉表情和頭部旋轉(zhuǎn)．Pan等[10]使用條件隨機(jī)場(chǎng)(conditional random fields，CRF)確定閉眼，從而檢測(cè)到眨眼；除了局部動(dòng)作檢測(cè)外，檢測(cè)和描述全局人臉運(yùn)動(dòng)．而也有研究人員[11-12]利用光線流動(dòng)(optical of lines，OFL)用于測(cè)量水平和垂直方向的人臉圖像的時(shí)空變化．Bharadwaj等[13]利用定向光流直方圖(histogram of oriented optical flow，HOOF)和光學(xué)幅度直方圖應(yīng)用流(histogram of magnitudes of optical flows，HMOF)創(chuàng)建人臉運(yùn)動(dòng)方向和幅度的分級(jí)表示[14]過(guò)稀疏和低秩分解(robust alignment by sparse and low-rank，RASL)進(jìn)行穩(wěn)健對(duì)齊，嘗試在多個(gè)幀中對(duì)齊人臉并測(cè)量非剛性運(yùn)動(dòng)[15]．另一種方法是評(píng)估用戶(hù)交互環(huán)境中的一致性．鑒于此，Komulainen等[16]提出了計(jì)算人臉和背景區(qū)域之間的運(yùn)動(dòng)相關(guān)性方法，Pinto等[17]提出基于高斯混合模型(Gaussian mixture models，GMM)的傳統(tǒng)背景差分法．

通過(guò)使用動(dòng)態(tài)模式分解(dynamic mode decomposition，DMD)[18]探索幀序列內(nèi)個(gè)體的人臉紋理，并通過(guò)在時(shí)間空間上移位的快照中的特征臉提取特征．DMD與 LBP技術(shù)結(jié)合使用作為紋理描述子，其用于捕獲視頻序列中活體人臉存在的證據(jù)，例如眨眼和嘴唇的運(yùn)動(dòng)．圖 2[10]中(a)、(b)、(c)圖是活體一個(gè)完整的眨眼動(dòng)作，(d)、(e)、(f)是活體分別對(duì)應(yīng)檢測(cè)眨眼動(dòng)作的二值圖像．

圖2 活體眨眼動(dòng)作圖像對(duì)應(yīng)眼部的二值圖像Fig. 2 Binary images of living eyes with blinking movements

2.1.3 基于頻率描述子的方法

頻率描述子的方法是基于活體和非活體人臉圖像在頻域中的差異性提出的．Li等[19]提出一種結(jié)合高頻描述子和動(dòng)態(tài)傅里葉頻率描述子的方法分析人臉．該方法基于兩種特性：(1)照片是平面結(jié)構(gòu)，所以產(chǎn)生高頻分量應(yīng)該小于活體人臉的成像；(2)因?yàn)槟槻咳鄙俦砬樽兓允沟妙l率分量(即頻率振幅的大小)的標(biāo)準(zhǔn)差較?。鶕?jù)這兩種特性在人臉活體與非活體之間的差異性，促使很多研究者利用2D 離散傅里葉變換或者 2D 快速傅里葉變換將圖像從時(shí)域轉(zhuǎn)換到頻域[20-24]，然后利用 LBP或者 HOG 等描述子進(jìn)行一個(gè)特征表達(dá)．圖 3[20]中(a)圖是活體及其傅里葉變換的頻譜圖，(b)圖是非活體及其傅里葉變換的頻譜圖．

圖3 活體和非活體圖像在頻域空間上的頻譜圖Fig. 3 Spectrum of living and non-living images in the frequency domain

2.1.4 基于顏色描述子的方法

顏色描述子的方法是基于活體和非活體的顏色差異提出的．在這種背景下，色頻(CF)直方圖用于描述圖像中顏色的分布[25]，而且這些直方圖被用作對(duì)圖像的不同塊計(jì)算HOG特征，即用3個(gè)bin編碼具有最高像素?cái)?shù)的像素每個(gè)顏色通道中的梯度幅度.圖像失真分析(IDA)[26-27]、圖像質(zhì)量評(píng)估(IQA)[28]和圖像質(zhì)量測(cè)量(IQM)[29]方法通過(guò)全局圖像矩描述活體人臉圖像．IDA用于在 HSV和 RGB色彩空間提取特征，平滑光照強(qiáng)度．IQA用于在人臉活體檢測(cè)中最大化關(guān)鍵性能指標(biāo)．IQM 旨在表明通過(guò)圖像的質(zhì)量評(píng)估用高斯濾波產(chǎn)生的最小值，以判斷是否為非活體人臉圖像．YCbCr和HSV顏色空間在文獻(xiàn)[30-31]中用作顏色描述子．在文獻(xiàn)[32]中，RGB顏色空間的每個(gè)通道用于特征提?。畧D 4[27]中(a)圖是活體，(c)圖是非活體，(b)、(d)圖分別是對(duì)應(yīng)(a)、(c)圖的HSV顏色特征直方圖分布．

2.1.5 基于形狀描述子的方法

形狀描述子的方法對(duì)于區(qū)分打印照片是非常有效的一種手段，因?yàn)榛铙w人臉幾何特征是無(wú)法在打印照片平面上重現(xiàn)的．基于約束性的局部模型(CLM)的活體輪廓被用于檢測(cè)視頻流中的人臉關(guān)鍵點(diǎn)，然后這些人臉關(guān)鍵點(diǎn)被定義成一個(gè)稀疏的 3D結(jié)構(gòu)用于描述人臉的平面性[33]．

圖4 活體和非活體圖像在HSV顏色空間中的分布Fig. 4 Distribution of living and non-living images in HSV color space

2.1.6 基于反射率描述子的方法

考慮到活體和非活體的人臉圖像在相同光照條件下表現(xiàn)不同，因而可以使用反射信息區(qū)分．為了實(shí)現(xiàn)這一點(diǎn)，變分 Retinex方法將輸入圖像分解為反射率和光照成分[34]，以便分析整個(gè)圖像．圖 5[27]中(a)圖是活體圖像和檢測(cè)到的反射特征圖像，(b)圖是非活體圖像和檢測(cè)到的反射特征圖像；(c)圖是(a)圖中反射特征圖像特征值分布圖，(d)圖是(b)圖中反射特征圖像特征值分布圖．

圖5 活體和非活體圖像在反射特征中的分布Fig. 5 Distribution of living and non-living images in reflex features

2.2 基于分類(lèi)器的分析方法

2.2.1 基于判別器的方法

判別技術(shù)是通過(guò)最小化類(lèi)內(nèi)變化或最大化類(lèi)間的變化區(qū)分不同的類(lèi)別．這種類(lèi)型的分類(lèi)器在過(guò)半數(shù)的分析工作中被使用研究．

支持向量機(jī)(SVM)是人臉圖像活體檢測(cè)中最常見(jiàn)的分類(lèi)技術(shù)，性能優(yōu)越．為了實(shí)現(xiàn)區(qū)分目標(biāo)，SVM需要找到最佳超平面，將活體和非活體人臉圖像的特征分開(kāi)．當(dāng)這些類(lèi)不是線性可分時(shí)，需要使用不同的內(nèi)核函數(shù)用于獲得非線性分類(lèi)器．雖然線性SVM已經(jīng)廣泛用于不同的領(lǐng)域[35-37]，并且徑向基函數(shù)核[38-39]和直方圖交叉核[40]也被應(yīng)用于提高分類(lèi)精度．但是，這些研究并沒(méi)有描述如何在實(shí)驗(yàn)中使用某種類(lèi)型的SVM核函數(shù)．

除了 SVM 之外，還有一種常用的方法為線性判別分析(LDA)[41-42]．LDA 能夠明確地建模類(lèi)間的差異，以解決分類(lèi)任務(wù)，它的優(yōu)勢(shì)在于可有效降維，降低分類(lèi)預(yù)測(cè)時(shí)間復(fù)雜度．多層感知器(MLP)[16]用于評(píng)估人臉圖像是否過(guò)度移動(dòng)(手工平面打印照片)或沒(méi)有移動(dòng)(連接到媒體的平面打印照片攻擊)有變化在 N視頻序列期間；神經(jīng)網(wǎng)絡(luò)(NN)[11]擅長(zhǎng)學(xué)習(xí)隱式模式，它能夠通過(guò)適當(dāng)?shù)挠?xùn)練去識(shí)別非活體的運(yùn)動(dòng)信息．NN的訓(xùn)練是使用標(biāo)記數(shù)據(jù)集通過(guò)反向傳播方式進(jìn)行，該自動(dòng)編碼器被視為預(yù)訓(xùn)練過(guò)程．

2.2.2 基于卷積神經(jīng)網(wǎng)絡(luò)的方法

卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network，CNN)[43-51]方法能夠自動(dòng)提取圖像的有效特征，完全避免了傳統(tǒng)手工設(shè)計(jì)特征算法提取特征模式的單一性，并且能夠保證特征的尺度不變性，旋轉(zhuǎn)不變性．近幾年它被廣泛應(yīng)用在人臉圖像有效識(shí)別特征提取中，用以進(jìn)行人臉圖像的活體判斷．這類(lèi)方法在公開(kāi)測(cè)試集上取得了顯著的效果[52]．但是，這類(lèi)模型在訓(xùn)練中容易過(guò)擬合，導(dǎo)致在實(shí)際運(yùn)用中，泛化能力差，在某些不穩(wěn)定的真實(shí)場(chǎng)景效果不盡人意．同時(shí)，這類(lèi)方法對(duì)數(shù)據(jù)的覆蓋度、數(shù)據(jù)量的大小要求較高．圖 6是一個(gè)典型的基于卷積神經(jīng)網(wǎng)絡(luò)方法實(shí)現(xiàn)活體檢測(cè)的模型流程圖．

圖6 基于3D卷積結(jié)構(gòu)的活體檢測(cè)網(wǎng)絡(luò)Fig. 6 Living detection network based on 3D convolution structure

2.2.3 基于距離度量的方法

距離度量的使用可以改善人臉活體檢測(cè)系統(tǒng)的性能，它的目標(biāo)是測(cè)量樣本之間的差異性．但是，這些方法通常需要一個(gè)窮舉搜索完成分類(lèi)任務(wù)，這可能導(dǎo)致大型參考數(shù)據(jù)集中的高成本．卡方距離[53]和余弦距離[54-55]是常見(jiàn)的距離度量方式，它們用于計(jì)算一個(gè)待檢測(cè)人臉和參考數(shù)據(jù)集合的累積距離，以此決定待測(cè)人臉屬于活體人臉還是非活體人臉．

2.2.4 基于啟發(fā)式的方法

啟發(fā)式算法(heuristic algorithm)是相對(duì)于最優(yōu)化算法提出的．一個(gè)問(wèn)題的最優(yōu)算法求得該問(wèn)題每個(gè)實(shí)例的最優(yōu)解．啟發(fā)式算法可以這樣定義：一個(gè)基于直觀或經(jīng)驗(yàn)構(gòu)造的算法，在可接受的花費(fèi)(指計(jì)算時(shí)間和空間)下給出待解決組合優(yōu)化問(wèn)題每一個(gè)實(shí)例的一個(gè)可行解，該可行解與最優(yōu)解的偏離程度一般不能被預(yù)計(jì)．

目前比較通用的啟發(fā)式算法一般有模擬退火算法(simulated annealing，SA)、遺傳算法(genetic algorithm，GA)、蟻群算法(ant colony optimization，ACO)等．

在人臉活體檢測(cè)中典型利用啟發(fā)式算法例子的有眨眼次數(shù)[10]、動(dòng)作測(cè)量閾值[12]、平均像素比率閾值[24]和運(yùn)動(dòng)測(cè)量的加權(quán)[40]，進(jìn)行啟發(fā)式判別的方法都是啟發(fā)式學(xué)習(xí)的例子．這種學(xué)習(xí)方式的顯著缺點(diǎn)是易導(dǎo)致過(guò)擬合，因?yàn)閱l(fā)式算法的局部最優(yōu)值的陷入無(wú)法避免．啟發(fā)式，本質(zhì)上是一種貪心策略，這也在客觀上決定了不符合貪心規(guī)則的更好(或者最優(yōu))解都會(huì)錯(cuò)過(guò)．

3 公開(kāi)數(shù)據(jù)庫(kù)

NUAA數(shù)據(jù)集[9]是第一個(gè)用于評(píng)估人臉活體檢測(cè)的數(shù)據(jù)集．在不同環(huán)境和不同光照條件下，利用廉價(jià)攝像頭，分別采集了 3個(gè)不同時(shí)間段的數(shù)據(jù)，每個(gè)時(shí)間段間隔為兩周．其中偽造人臉的方式為平面或者彎曲打印照片．

Yale數(shù)據(jù)集[56]是在不同光照條件下采集的，該數(shù)據(jù)庫(kù)通常用在評(píng)估紋理方法的人臉活體檢測(cè)上．偽造人臉的方式為打印照片．

Print-Attack數(shù)據(jù)集[57]的采集是通過(guò)向采集傳感器顯示真實(shí)用戶(hù)的平面打印照兩種方式：手持(即冒名頂替者用手拿照片)或固定支架．偽造人臉的方式為打印照片．

Replay-Attack數(shù)據(jù)集[39]采集環(huán)境是在不同光照條件下進(jìn)行的，其中偽造人臉?lè)绞桨ù蛴≌掌鸵曨l回放．視頻回放所用的設(shè)備又包括低分辨率的移動(dòng)設(shè)備和1024×768 分辨率平板電腦．

Casia Face Anti-Spoofing數(shù)據(jù)集[58]包含7種不同的攻擊場(chǎng)景和 3種不同的攻擊類(lèi)型．偽造人臉的方式為平面照片、眼部被切割的打印照片以及視頻回放．

Kose and Dugelay數(shù)據(jù)集[59]的創(chuàng)建是通過(guò)3D結(jié)構(gòu)光設(shè)備得到立體結(jié)構(gòu)模型，然后利用 3D打印機(jī)打印出3D面具得到的．偽造人臉?lè)绞綖槊婢撸?/p>

3D Mask Attack數(shù)據(jù)集[60]是通過(guò)RGB-D深度相機(jī)采集得到的，其中每個(gè)人都包括一張正臉和兩張側(cè)臉照片．偽造人臉?lè)绞綖槊婢撸?/p>

MSU-MFSD數(shù)據(jù)集[27]的組成包括兩種數(shù)據(jù)類(lèi)型，一種是通過(guò)視頻幀截取出來(lái)的打印照片，另外一種是視頻回放．打印照片用的是彩色大尺度的紙張，同時(shí)視頻回放的采集也是盡量保證采集環(huán)境的相似性．偽造人臉?lè)绞綖榇蛴≌掌鸵曨l回放．

UVAD 數(shù)據(jù)集[23，61]中偽造人臉是通過(guò)高清視頻回放設(shè)備以每秒 30幀的回放速度采集的，其中每段視頻是在不同的光照以及不同的場(chǎng)景(室內(nèi)或者室外)下拍攝得到的．偽造人臉?lè)绞綖橐曨l回放．

Oulu-NPU數(shù)據(jù)集[62]采集設(shè)備包含 6種手機(jī)機(jī)型，采集環(huán)境包括 3種光照環(huán)境和背景．偽造人臉?lè)绞綖榇蛴≌掌鸵曨l回放．

Siw數(shù)據(jù)集[63]的組成包括兩種數(shù)據(jù)類(lèi)型，一種是通過(guò) 1080p高清設(shè)備采集的，另外一種是打印照片．采集環(huán)境包括光照、姿態(tài)、距離、表情這 4個(gè)變量．偽造人臉的方式為打印照片和視頻回放．

CASIA-SURF數(shù)據(jù)集[64]包含RGB圖、深度圖以及紅外熱力圖像3種數(shù)據(jù)，主要用于多模態(tài)融合方法上．偽造人臉?lè)绞桨ù蛴≌掌脱鄄勘磺懈畹拇蛴≌掌?/p>

數(shù)據(jù)集詳情見(jiàn)表1．

表1 公開(kāi)活體數(shù)據(jù)集Tab. 1 Public living data set

4 性能評(píng)價(jià)指標(biāo)

常用的人臉活體檢測(cè)性能評(píng)價(jià)指標(biāo)主要評(píng)價(jià)識(shí)別錯(cuò)誤，其類(lèi)型主要有兩類(lèi)：一是非活體被作為活體接受數(shù)量 NFA(number of false acceptance)，另外一種是活體被認(rèn)為是非活體拒絕數(shù)量 NFR(number of false rejection)．這兩種錯(cuò)誤類(lèi)型在人臉活體檢測(cè)系統(tǒng)中出現(xiàn)的可能性分別被稱(chēng)為錯(cuò)誤接受率(false acceptance rate，F(xiàn)AR)和錯(cuò)誤拒絕率(false rejection rate，F(xiàn)RR)，這兩種比率存在著反比例的關(guān)系．受試者工作特征曲線(receiver operating characteristic curve，ROC)是通過(guò)同時(shí)計(jì)算 FAR和 FRR的值獲得的，如圖 7所示．被 ROC包圍的區(qū)域面積為曲線下面積(area under the curve，AUC)，同時(shí)在ROC曲線上當(dāng)FAR等于FRR的時(shí)候，這個(gè)點(diǎn)被稱(chēng)作等錯(cuò)誤率(equal error rate，ERR)，F(xiàn)AR和 FRR的均值被稱(chēng)為半錯(cuò)誤率(half total error rate，HTER)．精度(the overall accuracy，ACC)同時(shí)兼顧著活體和非活體各自的FAR和FRR．

圖7 受試者工作特征曲線圖Fig. 7 Receiver operating characteristic curve

由于很多數(shù)據(jù)集中活體和非活體人臉圖像數(shù)據(jù)量并不是均衡的，所以用 ACC分析可能會(huì)導(dǎo)致偏差．其評(píng)估指標(biāo)計(jì)算公式詳見(jiàn)表2．

表2 評(píng)估參數(shù)Tab. 2 Evaluation parameters

5 主要方法性能比較

為驗(yàn)證模型在人臉活體檢測(cè)任務(wù)上的魯棒性和泛化能力，研究人員普遍利用了 3大公開(kāi)數(shù)據(jù)庫(kù)CASIA、Replay以及MFSD做了相關(guān)基準(zhǔn)測(cè)試：

LBP方法[65]通過(guò)在CASIA上訓(xùn)練，在Replay測(cè)試上得到的半錯(cuò)誤率為 47%．這種方法的優(yōu)點(diǎn)：一定程度上消除了光照因素帶給人臉圖像的噪聲影響，并且該算子具有旋轉(zhuǎn)不變性，特征維度低，計(jì)算速度快．但是，由于訓(xùn)練樣本和測(cè)試樣本特征分布不一致，導(dǎo)致編碼閾值很難設(shè)定．

LBP-TOP方法[65]是在 LBP的基礎(chǔ)上增加一個(gè)維度信息——時(shí)間維度，這樣有助于獲取視頻幀之間的運(yùn)動(dòng)信息，進(jìn)而提高人臉活體的準(zhǔn)確率．但是，由于重新引入了新的輸入維度信息，導(dǎo)致輸出變成了一個(gè)高維度特征，從而計(jì)算量增加．

Motion方法[65]主要通過(guò)獲取人臉活體和非活體之間的微動(dòng)作之間的差異作為評(píng)判標(biāo)準(zhǔn)．因?yàn)橹饕轻槍?duì)剛性運(yùn)動(dòng)，所以導(dǎo)致它對(duì)視頻回放攻擊或者照片抖動(dòng)攻擊這種非剛性攻擊效果不好．

CNN方法[66]提出了一種讓計(jì)算機(jī)自動(dòng)學(xué)習(xí)出模式特征的方法，并將特征學(xué)習(xí)融入到了建立模型的過(guò)程中，從而減少了人為設(shè)計(jì)特征造成的不完備性．其中Auxiliary方法[63]使用空間和時(shí)間輔助信息的監(jiān)督而不是二元監(jiān)督，以便從人臉視頻中更健壯地檢測(cè)人臉偽造攻擊．這些輔助信息是基于我們關(guān)于現(xiàn)場(chǎng)和欺詐面部之間關(guān)鍵差異的領(lǐng)域知識(shí)獲得的，其中包括兩個(gè)視角：空間和時(shí)間．其中空間就是圖像的深度，而時(shí)間就是使用遠(yuǎn)距光體積描記術(shù)(remote photoplethysmography，rPPG)信號(hào)作為輔助監(jiān)督．而 De-Spoof方法[47]啟發(fā)于圖像去噪和去抖動(dòng)，無(wú)論是噪聲圖還是模糊圖，都可看成是在原圖上加噪聲運(yùn)算或者模糊運(yùn)算，而去噪和去抖動(dòng)就是估計(jì)噪聲分布和模糊核，從而重構(gòu)回原圖，利用訓(xùn)練出的噪聲模型去判別人臉活體圖像．但是，當(dāng)實(shí)際場(chǎng)景中活體的人臉圖質(zhì)量并不是很高，而非活體人臉攻擊圖像的質(zhì)量相對(duì)高時(shí)，這種方法很難去判別人臉活體與非活體．GFACNN[67]方法則是利用了風(fēng)格遷移[68]減少不同域之間帶來(lái)的影響．這些 CNN方法的不足是：都需要大量的數(shù)據(jù)作為支撐，并且訓(xùn)練判別模型也需要算力較大的硬件設(shè)備作為支持．

Color LBP[30]、Color Texture[30]以及 Color Surf[30]都是基于顏色域空間上利用不同的描述子去提取人臉活體與非活體圖像特征的方法．其缺點(diǎn)是針對(duì)面具攻擊效果較差，對(duì)單個(gè)顏色特征的依賴(lài)性大，泛化能力也差．

不同方法在不同數(shù)據(jù)庫(kù)上的訓(xùn)練測(cè)試半錯(cuò)誤率的對(duì)比結(jié)果見(jiàn)表3．

表3 不同方法在不同數(shù)據(jù)庫(kù)上的訓(xùn)練測(cè)試半錯(cuò)誤率的對(duì)比 %Tab. 3 Comparison of half total error rate indicators in different training tests on different databases with different methods

由表3可以分析出：前半部分方法大多數(shù)都是基于人工設(shè)計(jì)特征提取算子 LBP進(jìn)行分析人臉圖像，這種方法提取特征形式比較單一，無(wú)法有效提取更多的人臉活體判別信息．而后半部分方法大多數(shù)是基于 CNN提取人臉活體特征，提取形式相比較于傳統(tǒng)人工設(shè)計(jì)特征提取算子更豐富；但是仍然不能很好地解決模型的泛化能力，故目前出現(xiàn)了很多利用人臉圖像的其他信息輔助監(jiān)督模型進(jìn)行訓(xùn)練，以此達(dá)到更好的模型泛化性．

6 展望

盡管人臉識(shí)別活體檢測(cè)在公開(kāi)數(shù)據(jù)集上取得了良好的效果，但是我們應(yīng)該考慮與工業(yè)界實(shí)際情況相結(jié)合，盡量提高方法的泛化能力，以應(yīng)對(duì)工業(yè)界各種復(fù)雜的場(chǎng)景．

首先，基于描述子的分析方法是從人臉識(shí)別技術(shù)引入到人臉活體檢測(cè)中，在單個(gè)特定數(shù)據(jù)集上通常能得到較好的結(jié)果，但其性能會(huì)隨著不同數(shù)據(jù)集的遷移逐漸衰減．因此，設(shè)計(jì)專(zhuān)門(mén)用于人臉圖像活體檢測(cè)的解決方案是很有必要的，比如早期基于運(yùn)動(dòng)和反射率的方法．這點(diǎn)在過(guò)去幾年里似乎未被充分研究，但是深度學(xué)習(xí)可以學(xué)習(xí)到更抽象的語(yǔ)義特征，例如短期記憶網(wǎng)絡(luò)(long short-term memory，LSTM)[69]和傅里葉卷積神經(jīng)網(wǎng)絡(luò)(Fourier CNN)[70]．

第二，可以探索其他學(xué)習(xí)框架以提供不同關(guān)于如何解決這個(gè)問(wèn)題的觀點(diǎn)．到目前為止，尚未有基于遷移學(xué)習(xí)或在線學(xué)習(xí)框架的活體識(shí)別方法，不過(guò)這類(lèi)框架對(duì)于不同的數(shù)據(jù)集和流數(shù)據(jù)有更好的適應(yīng)性．

第三，活體檢測(cè)目前還沒(méi)有統(tǒng)一公認(rèn)的大型數(shù)據(jù)集．多場(chǎng)景、多人物、多光照等更具有泛化性的大型數(shù)據(jù)集有助于算法的快速進(jìn)步，對(duì)于討論該領(lǐng)域的如過(guò)擬合、多類(lèi)別攻擊等復(fù)雜問(wèn)題能起到重要的推動(dòng)作用．因此，亟待構(gòu)建大型人臉識(shí)別活體檢測(cè)數(shù)據(jù)集．

最后，可進(jìn)一步考慮多模態(tài)活體檢測(cè)方法．因?yàn)楸仨毻瑫r(shí)偽造多個(gè)生物識(shí)別特征，所以多模態(tài)生物識(shí)別系統(tǒng)不太可能被非活體偽造．出于這個(gè)原因，很多方法是通過(guò)融合兩個(gè)或更多人類(lèi)特征解決非活體的問(wèn)題．考慮到這一點(diǎn)，人臉識(shí)別技術(shù)可以被視為一種特殊情況，因?yàn)槎嗄B(tài)可以利用多種人臉特征(例如紋理、形狀和溫度)避免偽造攻擊．如今，不同的有效設(shè)備能夠捕獲圖像的顏色、深度和紅外線，同時(shí)在價(jià)格上比較有優(yōu)勢(shì)．這些設(shè)備可用于減弱當(dāng)前的人臉偽造攻擊影響，并在將來(lái)有可能實(shí)際地運(yùn)用到工業(yè)界中．