基于優(yōu)化LeNet-5的近紅外圖像中的靜默活體人臉檢測

2021-10-08 01:25:32張娜娜

紅外技術(shù) 2021年9期

黃俊，張娜娜，章惠

（1.上海海洋大學(xué)信息學(xué)院，上海 201306；2.上海建橋?qū)W院信息技術(shù)學(xué)院，上海 201306）

0 引言

隨著人臉識別技術(shù)的普及和計(jì)算機(jī)視覺技術(shù)的蓬勃發(fā)展，人臉支付、人臉登錄、人臉取件等系統(tǒng)已被實(shí)施應(yīng)用在人們的生活中。但是，在一些特殊場景下，人臉識別系統(tǒng)極易被外來手段攻擊，如：電子屏幕翻拍、照片打（沖）印、三維人臉模型等。因此，為了維護(hù)人臉識別系統(tǒng)的安全，保障用戶的利益，人臉活體檢測技術(shù)顯得相當(dāng)重要。目前，市面上及研究領(lǐng)域中被用的最廣泛的是交互式的活體檢測方法。

文獻(xiàn)[1]提出了一個關(guān)于眼睛和嘴部動作的交互式活體檢測方法，主要思想是計(jì)算用戶眼睛區(qū)域和牙齒的HSV（Hue,Saturation,Value）色彩空間，以此來判斷它們的開合狀態(tài)。文獻(xiàn)[2]設(shè)計(jì)了一個關(guān)于嘴部狀態(tài)和頭部姿態(tài)的互動式活體檢測系統(tǒng)，作者利用支持向量機(jī)（support vector machine，SVM）[3]和面部特征點(diǎn)算法，來預(yù)測頭部姿態(tài)方向和嘴部開合狀態(tài)，通過隨機(jī)指令要求用戶做出對應(yīng)動作，以實(shí)現(xiàn)活體檢測。文獻(xiàn)[4]要求用戶完成一些隨機(jī)表情動作，并計(jì)算連續(xù)視頻幀的SIFT（scale-invariant feature transform）流能量值來判斷表情變化。文獻(xiàn)[5]則在虛擬柜員機(jī)（virtual teller machine，VTM）的相機(jī)條件下，利用眼球色素變化進(jìn)行眨眼檢測，加以背景檢測、張嘴檢測和微笑檢測等組合命令得以實(shí)現(xiàn)交互式活體檢測。

交互式活體檢測存在著人機(jī)交互不友好、認(rèn)證過程繁瑣等缺點(diǎn)，針對其弊端，本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural network，CNN）和近紅外光的靜默活體檢測方法，利用近紅外光的成像特點(diǎn)及光在材質(zhì)上的反射特性，直接去除了電子屏幕、相片沖印的人臉攻擊；利用CNN 自動提取圖像特征的優(yōu)勢，對近紅外光下的真人人臉圖像和照片打印人臉圖像進(jìn)行分類，相對于可見光下的人臉圖像，近紅外人臉圖像特征明顯，更易于區(qū)分活體人臉與非活體人臉。針對上述內(nèi)容，主要做了如下兩個重點(diǎn)工作：

1）自建非活體人臉數(shù)據(jù)集（照片打印人臉），利用近紅外攝像頭采集包含人臉的照片打印圖像；

2）對LeNet-5[6]的結(jié)構(gòu)、卷積核大小、特征圖數(shù)目、全連接層等部分進(jìn)行研究討論，修改并設(shè)計(jì)了一個活體分類模型，通過實(shí)驗(yàn)驗(yàn)證了該模型在活體檢測方面有著較高的識別率。

1 卷積神經(jīng)網(wǎng)絡(luò)和LeNet-5

1.1 卷積神經(jīng)網(wǎng)絡(luò)

1.1.1 卷積層

在CNN 中，卷積層是核心，它的主要作用是提取圖像特征，提升圖像分類準(zhǔn)確率。該層由若干個卷積核和激活函數(shù)組成，每個卷積核參數(shù)均通過反向傳播進(jìn)行不斷地更新，最終提取出多個特征圖。通常第一個卷積層提取的圖像特征較為模糊，但隨著卷積層數(shù)的增加，網(wǎng)絡(luò)提取能力越來越強(qiáng)，圖像特征也越來越清晰。卷積層的數(shù)學(xué)表達(dá)式[7]如下所示：

式中：k為卷積核矩陣；xi(l－1)為上層輸出特征圖；b為加性偏置項(xiàng)；f(?)為激活函數(shù)，一般采用 ReLU（Rectified Linear Unit）激活函數(shù)。

1.1.2 池化層

卷積操作雖然可以提取圖像特征，但輸出的特征圖參數(shù)量大、信息雜，在網(wǎng)絡(luò)訓(xùn)練時會嚴(yán)重占用計(jì)算資源，加重過擬合現(xiàn)象，所以，為了提高計(jì)算和運(yùn)行速度，縮減模型參數(shù)，提高模型泛化能力，池化層經(jīng)常作為卷積層的下一層輸入單元，其數(shù)學(xué)表達(dá)式[8]為：

式中：down(?)為下采樣函數(shù)；βjl為權(quán)重項(xiàng)；bjl為偏置項(xiàng)。

1.1.3 全局平均池化

CNN 中的參數(shù)主要集中在全連接層中，是導(dǎo)致模型發(fā)生過擬合的現(xiàn)象的源頭，全局平均池化（global average pooling，GAP）[9]是一種能有效解決過擬合的主要方法之一。它的主要原理是計(jì)算上層特征圖的像素均值，從而獲得相關(guān)低維特征。相比于全連接層，它更好地保留了空間信息，降低了參數(shù)量，具有更強(qiáng)的魯棒性。相關(guān)數(shù)學(xué)表達(dá)式為：

式中：(i,j)表示像素位置；k表示通道索引。

1.1.4 輸出層

輸出層也叫做SoftMax 層，該層含有一個SoftMax分類器，作用是歸一化全連接層的輸出結(jié)果，經(jīng)過SoftMax 函數(shù)的計(jì)算，會返回一組概率值，在模型推導(dǎo)時，概率值最高的一類可作為模型的分類結(jié)果。有關(guān)該層的數(shù)學(xué)表達(dá)式為：

式中：ai為上層結(jié)構(gòu)的輸出結(jié)果；n為類別數(shù)。

1.1.5 交叉熵?fù)p失

交叉熵?fù)p失反映了真實(shí)值和預(yù)測值的概率分布差異，訓(xùn)練中，交叉熵主要用于計(jì)算SoftMax 輸出的概率損失，值越低，模型的預(yù)測效果就越好。有關(guān)交叉熵?fù)p失的數(shù)學(xué)表達(dá)式為：

式中：n為類別數(shù)，p(x)為真實(shí)分布值，q(x)為預(yù)測分布值。在分類模型的訓(xùn)練中，由于獨(dú)熱編碼(One-Hot)的特殊性，損失函數(shù)可以寫成如下表達(dá)式：

1.2 LeNet-5 模型

LeNet-5 是深度學(xué)習(xí)中較經(jīng)典的CNN 模型之一，是一種結(jié)構(gòu)較為簡單的CNN，最早被用來進(jìn)行手寫數(shù)據(jù)集的識別。LeNet-5 主要包含7 個結(jié)構(gòu)層，其中有3個卷積層（C1、C3、C5）、2 個池化層（S2、S4）、1 個全連接層（F6）和1 個輸出層（Output），此外，LeNet-5 還包含一個輸入層，該層的圖片輸入大小為32×32。

C1 的核大小為5，步長為1，輸入層的圖片經(jīng)過該層操作之后會輸出6 個28×28 的特征圖；

S2 的核大小為2，步長為2，C1 輸出的特征圖經(jīng)過該層操作之后會輸出6 個14×14 的特征圖；

C3 的核大小為5，步長為1，S2 輸出的特征圖經(jīng)過該層操作之后會輸出16 個10×10 的特征圖；

S4 的核大小為2，步長為2，C3 輸出的特征圖經(jīng)過該層操作之后會輸出16 個5×5 的特征圖；

C5 的核大小為5，步長為1，S4 輸出的特征圖經(jīng)過該層操作之后會輸出120 個1×1 的特征圖；

F6 是全連接層，共有84 個神經(jīng)元結(jié)點(diǎn)，層中每一個神經(jīng)元均與C5 中的神經(jīng)元相連接；

Output 是LeNet-5 的最后一層，因?yàn)長eNet-5 是一個10 分類的模型，所以該層共有10 個神經(jīng)元節(jié)點(diǎn)。

由于本文實(shí)現(xiàn)的是一個2 分類（活體、非活體）的任務(wù)，且樣本數(shù)據(jù)比手寫數(shù)據(jù)集復(fù)雜，所以使用LeNet-5 進(jìn)行活體圖片的分類顯然是不合理的。因此，本文參考LeNet-5 的結(jié)構(gòu)與思想，在該結(jié)構(gòu)上做進(jìn)一步研究，以達(dá)到任務(wù)要求，以下是本文對LeNet-5 的改進(jìn)方案。

2 優(yōu)化LeNet-5 的人臉活體檢測模型

在真實(shí)場景中，模型的識別準(zhǔn)確率和實(shí)時性是評價系統(tǒng)是否合格的重要指標(biāo)，因此，本文經(jīng)過多次實(shí)驗(yàn)驗(yàn)證，在保證模型實(shí)時性較高的前提下提升了準(zhǔn)確率。最終確定了活體檢測模型的結(jié)構(gòu)并將其命名為LeNet_Liveness，其中，主要進(jìn)行了以下優(yōu)化：

1）改變部分卷積核大小。常見的卷積核大小有7×7、5×5 和3×3 等，從數(shù)學(xué)角度出發(fā)，7×7 的卷積核能提取到更多的圖像細(xì)節(jié)，即卷積核越大，感受野越大，提取到的特征越多，有利于提升圖像分類的精度。由于圖像中的“人臉”目標(biāo)遠(yuǎn)大于“數(shù)字”目標(biāo)，特征復(fù)雜，因此，為了在前期不丟失太多的圖像信息，本文將第一和第二卷積層的核大小設(shè)為7，以增大感受野，擴(kuò)大提取細(xì)節(jié)，后面幾個卷積層的核大小保持不變，依舊為5。

2）增加卷積核個數(shù)。與手寫數(shù)據(jù)集相比，活體檢測數(shù)據(jù)集稍復(fù)雜，使用較少的卷積核無法表達(dá)圖像信息，而使用較多的卷積核又會帶來計(jì)算量的增加，但有助于提升圖像分類的準(zhǔn)確率，基于此考慮，本文最初在模型第一層選擇32 個卷積核，一來，模型參數(shù)不會增加太多；二來，能提取出更多的低層次信息，保留更多細(xì)節(jié)特征。

3）加深模型結(jié)構(gòu)。淺層神經(jīng)網(wǎng)絡(luò)由于復(fù)雜度較低，無法更好地提取到圖像中的主要特征，使得模型分類效果欠佳，最終影響模型的識別率，本文在LeNet-5的結(jié)構(gòu)層數(shù)上做了修改，將原來的3 層卷積增加至5層，以提高網(wǎng)絡(luò)的擬合能力。

4）GAP 替代全連接層。CNN 大部分參數(shù)集中在全連接層中，如果采用傳統(tǒng)的全連接層，勢必會造成模型參數(shù)的增大，而GAP 屬于無參結(jié)構(gòu)，那么整個模型的參數(shù)就能有所降低，對于模型后期的預(yù)測速度能有所提高，除此之外，還能有效防止過擬合。

圖1為LeNet_Liveness 的結(jié)構(gòu)圖，表1為模型的相關(guān)結(jié)構(gòu)參數(shù)。輸入層為128×128 的三通道人臉圖片。C1、C2、C3、C4 和C5 是卷積層，移動步長均為1，其中，C1、C2 層的卷積核大小為7×7，C3、C4 和C5 層的卷積核大小為5×5，除此之外，C1 輸出32 個特征圖，C2 輸出64 個特征圖，C3 輸出128個特征圖，C4 輸出256 個特征圖，C5 輸出512 個特征圖。P1、P2、P3、P4 和P5 均為最大池化層，即對每個輸入的特征圖進(jìn)行2×2 的最大值運(yùn)算，步長為2，以縮減圖像長寬，減小計(jì)算量。GAP 為全局平均池化層，OutPut 為輸出層。

圖1 LeNet_Liveness 結(jié)構(gòu)圖Fig.1 LeNet_Liveness structure diagram

表1 模型結(jié)構(gòu)參數(shù)Table 1 Model structure parameters

3 實(shí)驗(yàn)與結(jié)果分析

3.1 實(shí)驗(yàn)環(huán)境與評估指標(biāo)

實(shí)驗(yàn)的硬件環(huán)境為Intel Core i5-8300H 處理器，NVIDIA GeForce GTX1050TI（4GB 顯存），內(nèi)存為8GB 大小，深度學(xué)習(xí)框架為TensorFlow-1.13.1，圖像處理庫為OpenCV-4.1.0，編程語言為Python-3.6.7，使用1920×1080 的近紅外攝像頭（帶補(bǔ)燈光，850 nm）采集數(shù)據(jù)。

分類模型通常使用準(zhǔn)確率（Accuracy）作為其性能的評估標(biāo)準(zhǔn)，相關(guān)計(jì)算公式如下：

式中：“TP”表示正樣本中預(yù)測為正的樣本數(shù)；“TN”表示負(fù)樣本中預(yù)測為負(fù)的樣本數(shù)；“FP”表示負(fù)樣本中預(yù)測為正的樣本數(shù)；“FN”表示正樣本中預(yù)測為負(fù)的樣本數(shù)；“Accuracy”越接近1 表示模型分類效果越好。

3.2 數(shù)據(jù)集

實(shí)驗(yàn)所使用的數(shù)據(jù)集中共包含兩類：一類為近紅外活體樣本；另一類為近紅外非活體樣本。其中，活體圖像數(shù)據(jù)為香港理工大學(xué)在2010年采集的公開數(shù)據(jù)集PolyU-NIRFD[10]，該數(shù)據(jù)集包含了350 名志愿者分別在不同光照強(qiáng)度、不同頭部姿態(tài)和不同表情下的近紅外圖像，每人被采集了約100 張圖像，共計(jì)38981張，使用MTCNN（Multi-task convolutional neural network）人臉檢測器[11]截出人臉區(qū)域。相關(guān)示例樣本如圖2(a)所示。

非活體樣本圖像數(shù)據(jù)為本文自建數(shù)據(jù)集，該數(shù)據(jù)集建立方式遵循以下準(zhǔn)則：

1）圖像攻擊數(shù)據(jù)應(yīng)具有多樣性。本文從CelebA數(shù)據(jù)集、互聯(lián)網(wǎng)中隨機(jī)選取了約500 張不同頭部姿態(tài)和不同表情狀態(tài)下的圖像，并使用惠普打印機(jī)（DeskJet 2600）將每張圖像打印在A4 紙上，以構(gòu)建攻擊樣本。

2）采集過程應(yīng)與活體樣本采集過程類似。根據(jù)PolyU-NIRFD 的采集條件，本文在數(shù)據(jù)采集時控制了以下變量：

①距離特定。在和攝像頭距離保持不變的情況下，隨機(jī)開啟或關(guān)閉攝像頭補(bǔ)光燈，在這兩種光照條件下，手持A4 紙圖像，通過旋轉(zhuǎn)、彎曲紙張等方式進(jìn)行圖像捕捉。

②光照特定。光照包含兩種情況，一種是打開補(bǔ)光燈，另一種是關(guān)閉補(bǔ)光燈，在補(bǔ)光燈開啟/關(guān)閉的情況下，手持A4 紙張由遠(yuǎn)及近、從左往右的移動，在移動過程中，隨機(jī)旋轉(zhuǎn)、彎曲紙張。

上述采集過程設(shè)置每5 幀保存一張圖片，最終利用近紅外攝像頭采集了A4 紙圖像在不同距離、不同角度、不同光照下的近紅外圖像，共計(jì)42300 張，使用MTCNN 人臉檢測器截出人臉區(qū)域。相關(guān)示例樣本如圖2(b)所示。

圖2 近紅外活體檢測數(shù)據(jù)示例Fig.2 Examples of near-infrared liveness detection data

3.3 模型訓(xùn)練

為了更好地驗(yàn)證模型的識別率，本文采用10 折交叉驗(yàn)證法，每份樣本集中的圖像均采取隨機(jī)抽樣方法，模型訓(xùn)練時，設(shè)置BatchSize 為64，共訓(xùn)練10 個epoch，初始學(xué)習(xí)率為10－4，每隔5 個epoch 學(xué)習(xí)率乘以0.1，梯度下降優(yōu)化器為Adam[12]，將三通道人臉圖像設(shè)為128×128 大小，使用最小最大值歸一化方法將像素值歸一化到[0,1]區(qū)間，具體公式為：

式中：x為當(dāng)前像素值；xmin、xmax分別為圖像像素最小值和最大值。

表2為10 折交叉驗(yàn)證相關(guān)結(jié)果，從中可得，10組測試集的準(zhǔn)確率均在99.90%以上，平均準(zhǔn)確率達(dá)到了99.95%，每組測試的準(zhǔn)確率差距較小，這說明模型在epoch 達(dá)到10 時已趨于穩(wěn)定狀態(tài)。圖3為第一組實(shí)驗(yàn)的迭代過程圖，從圖中可以看出，當(dāng)epoch 大于4后，Accuracy 基本保持在一條直線上，Loss 值也下降到0.02 以下，隨著迭代次數(shù)的增加，Loss 值繼續(xù)下降。當(dāng)epoch 大于5 后，Loss 值基本保持一條直線，且十分接近于0，最終達(dá)到穩(wěn)態(tài)。圖4是測試圖片過程中的所有卷積層提取的特征圖可視化結(jié)果。

表2 10 折交叉驗(yàn)證結(jié)果Table 2 10-fold cross-validation results

圖3 數(shù)據(jù)訓(xùn)練過程Fig.3 Data training process Liveness Face

圖4 卷積層相關(guān)特征Fig.4 Convolution layer related features

3.4 模型比較與結(jié)果分析

為了說明本文設(shè)計(jì)的LeNet_Liveness 的有效性，在數(shù)據(jù)預(yù)處理、數(shù)據(jù)集劃分等基本條件不變的情況下，本文分別使用SVM和LeNet-5對活體檢測數(shù)據(jù)集進(jìn)行分類識別，最終實(shí)驗(yàn)測試結(jié)果如表3所示。

由表3可得，本文的近紅外數(shù)據(jù)集在SVM 和LeNet-5 的算法下均有較高的準(zhǔn)確率，其中，SVM 的平均準(zhǔn)確率為 96.67%，LeNet-5 的平均準(zhǔn)確率為98.23%，這是因?yàn)檎嫒?照片在近紅外光成像中特征明顯，易于區(qū)分，所以準(zhǔn)確率較高。本文所提出的LeNet_Liveness 的實(shí)驗(yàn)結(jié)果最高，達(dá)到了99.95%，單張圖片的平均預(yù)測時間在CPU 上為31.08 ms，GPU上僅為10.77 ms，與SVM 和LeNet-5 相比，速度較慢，這是由于模型結(jié)構(gòu)的加深、卷積核數(shù)量的增加等帶來的弊端，降低了推理速度，但對于FPS 為30 的攝像頭來說，實(shí)時性依舊較高。圖5為本文的近紅外活體檢測系統(tǒng)，當(dāng)真人人臉/照片打印出現(xiàn)在系統(tǒng)中時，系統(tǒng)會自動判斷對象的活體屬性，且系統(tǒng)的實(shí)時速度每秒約為18～22 幀（包含了MTCNN 人臉檢測算法），實(shí)時性較高。

表3 三種算法結(jié)果比較Table 3 Comparison of the results of the three algorithms

圖5 活體檢測系統(tǒng)示例Fig.5 Examples of live detection systems

為了進(jìn)一步驗(yàn)證本文方法的有效性，現(xiàn)與其它文獻(xiàn)中所提出的活體檢測方法進(jìn)行對比，對比結(jié)果如表4所示。

由表4各項(xiàng)指標(biāo)比較可得，交互式活體檢測基本不依賴于特殊設(shè)備，環(huán)境易部署，成本低，算法準(zhǔn)確率高，但人機(jī)友好性較差。靜默活體檢測大多依賴于特殊設(shè)備，特別是近紅外設(shè)備，在近紅外光下，使用CNN 提取的特征較其它機(jī)器學(xué)習(xí)類算法明顯，具有很高的活體識別率，本文借助近紅外圖像和CNN 取得的活體識別率最高，達(dá)到了99.95%，具有良好的魯棒性和泛化能力。

表4 不同文獻(xiàn)結(jié)果比較Table 4 Comparison of results from different literature

4 結(jié)語

根據(jù)近紅外光在真人人臉和打印照片上的成像特點(diǎn)，提出一種基于改進(jìn)LeNet-5 和近紅外圖像的靜默活體檢測方法，在LeNet-5 的結(jié)構(gòu)基礎(chǔ)上進(jìn)行改進(jìn)，構(gòu)建了一個LeNet_Liveness，針對該結(jié)構(gòu)進(jìn)行了多次的實(shí)驗(yàn)分析，最終實(shí)驗(yàn)發(fā)現(xiàn)，在近紅外場景下，本文提出的LeNet_Liveness 在活體檢測數(shù)據(jù)集上有較高的分類準(zhǔn)確率，對抗擊非活體攻擊非常有效。

雖然本文對LeNet-5 進(jìn)行了結(jié)構(gòu)上的優(yōu)化，增加了網(wǎng)絡(luò)訓(xùn)練、推理時間和模型參數(shù)，但在活體識別率上取得了比較好的成績。高精度、高效率一直是科研人員在深度學(xué)習(xí)領(lǐng)域不斷探索的最終目標(biāo)，本文雖然提高了模型精度，但在推理效率上依舊有所降低，下一步，本文計(jì)劃在維持模型識別率的基礎(chǔ)上，減少模型參數(shù)，提升推理效率，同時，配合可見光攝像頭，利用CNN、多色彩特征等方法，實(shí)現(xiàn)在可見光場景下的靜默活體檢測。