鐘逸晟 尹芳 李嘉乾 李傳師 侯耀輝
摘?要:為了解決人臉識(shí)別的安全性問(wèn)題,提高對(duì)惡意攻擊人臉識(shí)別系統(tǒng)的安全防護(hù),使人臉識(shí)別技術(shù)能夠獲得更廣泛應(yīng)用,本文提出了在人臉識(shí)別技術(shù)上融入一種基于深度神經(jīng)網(wǎng)絡(luò)的唇語(yǔ)識(shí)別技術(shù)的系統(tǒng)。與現(xiàn)有的唇語(yǔ)識(shí)別技術(shù)不同的是,該系統(tǒng)主要是識(shí)別用戶(hù)的唇動(dòng)習(xí)慣。運(yùn)用本系統(tǒng),用戶(hù)在進(jìn)行人臉識(shí)別的同時(shí)可按照檢測(cè)方的提示,讀出相應(yīng)的內(nèi)容,并在對(duì)用戶(hù)的人臉進(jìn)行驗(yàn)證的過(guò)程中,對(duì)用戶(hù)通過(guò)唇動(dòng)說(shuō)出的內(nèi)容分別實(shí)現(xiàn)唇動(dòng)識(shí)別、比對(duì),從而有效地提升人臉識(shí)別的安全性水平。實(shí)驗(yàn)結(jié)果表明,在故意針對(duì)人臉識(shí)別系統(tǒng)的攻擊中,融入本技術(shù)的系統(tǒng)有更好的識(shí)別準(zhǔn)確率。
關(guān)鍵詞: 唇動(dòng)識(shí)別;人臉識(shí)別安全;深度神經(jīng)網(wǎng)絡(luò);身份認(rèn)證
文章編號(hào): 2095-2163(2021)01-0123-03 中圖分類(lèi)號(hào):TP309 文獻(xiàn)標(biāo)志碼:A
【Abstract】In order to solve the problem of face recognition security, improve the protection against malicious attacks on face recognition system, and make face recognition technology more widely used, this paper proposes a facial recognition technology based on deep neural network lip recognition system. Different from the existing lip recognition technology, the purpose of lip recognition is to identify the user's lip habits. The system requires users to read out the corresponding contents according to the prompts of the detection party while carrying out face recognition. While verifying the user's face, the system will carry out lip recognition and comparison on the contents spoken by the user through lip movement, so as to effectively improve the security level of face recognition. The experimental results show that the system integrated with this technology has better recognition accuracy in the face recognition system attack.
【Key words】lip movement recognition; face recognition security; Deep Neural Network; the identity authentication
0 引?言
研究可知,未來(lái)社會(huì)的全面無(wú)卡化是必然趨勢(shì),由此也可以預(yù)知,得益于區(qū)塊鏈技術(shù)和5G時(shí)代的到來(lái),關(guān)于會(huì)員卡、銀行卡、護(hù)照等卡片證件,都終將成為歷史,如此一來(lái),安全、可靠的身份識(shí)別方式也將隨即成為技術(shù)演變的潮流與熱點(diǎn)。與其他身份識(shí)別的研究相比,人臉識(shí)別具有方便快捷、專(zhuān)屬性較高,對(duì)用戶(hù)友好等優(yōu)點(diǎn),因此人臉識(shí)別現(xiàn)已成為最活躍的研究領(lǐng)域之一,同時(shí)也已成為未來(lái)身份識(shí)別方式的首要選擇。
值得注意的是,隨著人臉識(shí)別的大范圍使用,人臉識(shí)別安全性問(wèn)題已經(jīng)不容忽視。目前,不法分子即已開(kāi)始針對(duì)人臉識(shí)別技術(shù)的安全漏洞,利用照片、視頻、三維模型等技術(shù),攻擊人臉識(shí)別系統(tǒng)。
本次課題即旨在研究解決人臉識(shí)別的安全性問(wèn)題。研究中,受到文獻(xiàn)[1]的啟發(fā),在人臉識(shí)別技術(shù)中融入了唇語(yǔ)識(shí)別機(jī)制,且在對(duì)唇語(yǔ)識(shí)別技術(shù)概念加以改進(jìn)的基礎(chǔ)上,除了能對(duì)用戶(hù)人臉進(jìn)行驗(yàn)證外,還能對(duì)用戶(hù)的唇型和通過(guò)唇語(yǔ)說(shuō)出的內(nèi)容分別進(jìn)行比對(duì)、識(shí)別,去驗(yàn)證活體,從而最終能夠有效提升人臉識(shí)別的安全性。因此,本文研發(fā)設(shè)計(jì)了基于中文詞級(jí)別的唇語(yǔ)識(shí)別系統(tǒng)。該設(shè)計(jì)過(guò)程包括了:人臉關(guān)鍵點(diǎn)提取、深度神經(jīng)網(wǎng)絡(luò)的搭建、訓(xùn)練和測(cè)試等一系列技術(shù)內(nèi)容的系統(tǒng)研究,具體如圖1所示。
1 人臉關(guān)鍵點(diǎn)提取研究
1.1 建立數(shù)據(jù)庫(kù)
作為一項(xiàng)尚未成熟的技術(shù),唇語(yǔ)識(shí)別在很多方面都還未見(jiàn)到統(tǒng)一標(biāo)準(zhǔn)。眾所周知,語(yǔ)料庫(kù)的建設(shè)即仍亟待完善。國(guó)外關(guān)于唇語(yǔ)的研究略早于中國(guó),但是國(guó)外的語(yǔ)料庫(kù)都未涉及漢語(yǔ),因而并不適合本次項(xiàng)目的開(kāi)發(fā)研究。目前,國(guó)內(nèi)已有部分高校和科研機(jī)構(gòu)陸續(xù)開(kāi)啟了唇語(yǔ)識(shí)別的科研工作,但是相關(guān)權(quán)威機(jī)構(gòu)卻還未能配發(fā)有針對(duì)性的規(guī)范和意見(jiàn)。再者,上述研究主體大多并未將各自使用的語(yǔ)料庫(kù)予以公開(kāi),即使公開(kāi)的部分也僅限于單個(gè)字或者數(shù)字的唇語(yǔ)數(shù)據(jù)集,迄今還未見(jiàn)到句子級(jí)別的唇語(yǔ)識(shí)別數(shù)據(jù)庫(kù)。綜上所述,本次項(xiàng)目建立了一個(gè)擁有3 000個(gè)樣本的中小型漢語(yǔ)數(shù)據(jù)庫(kù)供項(xiàng)目在驗(yàn)證時(shí)使用、錄制訓(xùn)練樣本以及測(cè)試樣本。
1.2 人臉關(guān)鍵點(diǎn)檢測(cè)與跟蹤
唇語(yǔ)識(shí)別的第一步是獲得人臉關(guān)鍵特征點(diǎn)在序列圖像中的精確定位,這樣就有利于后續(xù)精準(zhǔn)分割出唇部的局部圖像。也就是,研究時(shí)是源于視頻中的每一幀圖像,致力于提取出嘴唇局部區(qū)域,本次研究即采用了主動(dòng)外觀(guān)模型[2]來(lái)提取大幅圖像中的上述區(qū)域,用關(guān)鍵點(diǎn)來(lái)定位唇部。
1.3 特征提取
特征提取是一種降維方法,在項(xiàng)目研發(fā)中起著重要作用。好的特征可以讓識(shí)別事半功倍,其具備的共性是:用更少的數(shù)據(jù)來(lái)區(qū)分不同的類(lèi)別,即類(lèi)內(nèi)一致性和類(lèi)間區(qū)分性,這樣就可使識(shí)別任務(wù)更加快速且泛化。
目前,學(xué)界已經(jīng)推出了多種提取唇語(yǔ)視頻視覺(jué)特征的方法,但這些視覺(jué)特征提取的方法都不是通用的,究其原因就在于視頻視覺(jué)信息的多樣性,所以傳統(tǒng)的唇語(yǔ)視頻的特征提取就表現(xiàn)出一定的局限性。針對(duì)該問(wèn)題,本次研究中擬通過(guò)神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,這樣就不僅能夠滿(mǎn)足研究中對(duì)唇語(yǔ)特征所要求的區(qū)分性質(zhì),同時(shí)還可滿(mǎn)足對(duì)訓(xùn)練性能的要求。
2 深度神經(jīng)網(wǎng)絡(luò)構(gòu)建研究
近年來(lái),深度學(xué)習(xí)的熱度不斷攀升,在各種應(yīng)用中都能看到其身影。在計(jì)算機(jī)視覺(jué)領(lǐng)域的很多任務(wù)上,深度學(xué)習(xí)都取得了良好的應(yīng)用效果。在深度學(xué)習(xí)模型中,相比于其他神經(jīng)網(wǎng)絡(luò),AlexNet[3]是經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)模型,AlexNet的網(wǎng)絡(luò)結(jié)構(gòu)在整體上與LeNet[4]相似,都是先做卷積操作、再進(jìn)行全連接層。但兩者在細(xì)節(jié)上有很大不同,AlexNet模型更為復(fù)雜。AlexNet有5層卷積,3層全連接網(wǎng)絡(luò),最終的輸出層是1 000通道的softmax,還用到2塊GPU進(jìn)行計(jì)算,大大提高了運(yùn)算效率,并且更適用于視頻序列學(xué)習(xí)任務(wù),近年來(lái),在人臉識(shí)別[5]等領(lǐng)域都取得了可觀(guān)進(jìn)展。
本項(xiàng)目在識(shí)別任務(wù)中采用的是AlexNet網(wǎng)絡(luò)模型,這是基于LeNet-5網(wǎng)絡(luò)模型[6]的。分析可知,此種卷積神經(jīng)網(wǎng)絡(luò)的特點(diǎn)為:該網(wǎng)絡(luò)不需要預(yù)先獲取輸入和輸出之間的準(zhǔn)確映射關(guān)系,只需要利用已知模型對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,就能夠?qū)W習(xí)出相關(guān)映射的一種多層的非線(xiàn)性關(guān)系,這正是AlexNet的獨(dú)特優(yōu)勢(shì)所在,也是其他網(wǎng)絡(luò)難以比擬的。
AlexNet網(wǎng)絡(luò)共有8層,主要分為5層卷積和3層全連接層,如圖2所示。為了有針對(duì)性地強(qiáng)化深層特征的提取,使AlexNet 網(wǎng)絡(luò)的信息提取效果更趨完善,AlexNet網(wǎng)絡(luò)的末端三層的輸出特征將一并輸入到最后一層全連接層,這樣將有利于在淺層的特征輸出,同時(shí)也減少了網(wǎng)絡(luò)在卷積及池化過(guò)程中的種種問(wèn)題困擾,如降維導(dǎo)致的信息丟失等。
3 分類(lèi)
在接下來(lái)的分類(lèi)研究中,文中采取了最廣泛應(yīng)用的Softmax分類(lèi)器,同時(shí)為了提升 AlexNet 網(wǎng)絡(luò)結(jié)構(gòu)的識(shí)別準(zhǔn)確率,研究中在 Softmax 分類(lèi)器后附加了中心損失函數(shù)。由中心損失( Center Loss)函數(shù)配合Softmax損失(Softmax Loss)函數(shù)來(lái)進(jìn)行分類(lèi)和識(shí)別。進(jìn)一步來(lái)說(shuō),本項(xiàng)目中人臉識(shí)別技術(shù)的主要步驟為:輸入人臉視頻,將視頻中的每一幀進(jìn)行圖片預(yù)處理后,輸入到AlexNet網(wǎng)絡(luò)中,再將提取到的特征傳入含有全連接層的Softmax分類(lèi)器中,對(duì)人臉視頻進(jìn)行分類(lèi),由此在唇語(yǔ)人臉數(shù)據(jù)庫(kù)中實(shí)現(xiàn)圖像序列的識(shí)別。
4 實(shí)驗(yàn)
綜上研究所述,針對(duì)本系統(tǒng)的應(yīng)用場(chǎng)景,由于沒(méi)有類(lèi)似的可對(duì)照識(shí)別率數(shù)據(jù),本文采取了較為理想的方式進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)中,選擇2個(gè)對(duì)象A、B,B想要偽造A的身份,由此設(shè)置了多組多次的對(duì)照實(shí)驗(yàn),即:A本人,B戴本人照片面具、戴A照片的面具但B將嘴巴漏出、B。研究按照以上4種情況分別進(jìn)行識(shí)別測(cè)試,最終得到了理想情況下的實(shí)驗(yàn)識(shí)別結(jié)果,詳見(jiàn)表1。
分析表1結(jié)果可知,當(dāng)A本人進(jìn)行正確操作時(shí),系統(tǒng)的識(shí)別率非常高;而當(dāng)不是本人的臉,并且也不是按照本人的唇動(dòng)習(xí)慣說(shuō)話(huà)時(shí),則有97%以上的幾率無(wú)法識(shí)別通過(guò),這就清晰表明了本系統(tǒng)有著良好的魯棒性和安全性,也標(biāo)志著該種人臉識(shí)別方法的研發(fā)獲得了成功。
5 結(jié)束語(yǔ)
本項(xiàng)目的研究旨在要求唇語(yǔ)識(shí)別部分能夠識(shí)別到每一個(gè)人的唇語(yǔ)??紤]到不同人的唇動(dòng)方式也是不同的,因此,通過(guò)唇動(dòng)序列的比對(duì)就可以辨別出是否為待測(cè)者本人的嘴唇,這就有效解決了在照片上扣洞或戴上人皮面具來(lái)讀取內(nèi)容進(jìn)行識(shí)別的攻擊手段帶來(lái)的弊端,而且也可以有效辨別出正在進(jìn)行比對(duì)的是否為雙胞胎兄弟。在唇語(yǔ)識(shí)別研究中,特征提取方式采用的是卷積神經(jīng)網(wǎng)絡(luò),同時(shí)還結(jié)合了長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM),分析視頻并對(duì)視頻數(shù)據(jù)中的時(shí)間以及語(yǔ)義信息進(jìn)行挖掘,這也是該項(xiàng)目研發(fā)的創(chuàng)新點(diǎn)之一。
若成功地結(jié)合了唇語(yǔ)和人臉識(shí)別技術(shù),即將唇語(yǔ)識(shí)別用到的特征和人臉識(shí)別特征相結(jié)合,就可以得到:通過(guò)唇語(yǔ)和人臉識(shí)別的綜合比對(duì),最終可證得在攝像頭下是實(shí)時(shí)、并且也是本人的嘴唇。首先,人臉識(shí)別排除了通過(guò)照片或者是視頻回放的攻擊手段,然后又排除了立體模型和化妝、用雙胞胎代替識(shí)別的攻擊手段。在此基礎(chǔ)上,由實(shí)驗(yàn)結(jié)果分析得出的結(jié)論就是:在攝像頭前的就是本人。融合2種識(shí)別技術(shù)來(lái)提高人臉識(shí)別的安全性,這也體現(xiàn)了本項(xiàng)目1+1>2的研發(fā)思路。研究中,只是使用普通攝像頭、普通的手機(jī)或者電腦,并不需要另行添加其他任何輔助設(shè)備,就能夠達(dá)到提高人臉識(shí)別技術(shù)安全性的目標(biāo)。綜上所述,這些優(yōu)點(diǎn)使得融入了唇語(yǔ)識(shí)別的人臉識(shí)別系統(tǒng)的成本較為低廉、易于實(shí)施。
進(jìn)一步分析可知,提升了安全性的人臉識(shí)別系統(tǒng),在使人們享受到人臉識(shí)別帶來(lái)便利的同時(shí),也使其信息、財(cái)產(chǎn)等方面獲得了更為強(qiáng)大的安全保障。不僅如此,這種人臉識(shí)別方式還可應(yīng)用在更廣闊領(lǐng)域中,例如:遠(yuǎn)程身份認(rèn)證、刷臉門(mén)禁考勤、人臉支付、人臉登錄等場(chǎng)合。故而,本次項(xiàng)目研發(fā)成果對(duì)于當(dāng)前社會(huì)的快速發(fā)展有著重要的現(xiàn)實(shí)意義。
參考文獻(xiàn)
[1]任玉強(qiáng). 高安全性人臉識(shí)別身份認(rèn)證系統(tǒng)中的唇語(yǔ)識(shí)別算法研究[D]. 重慶:中國(guó)科學(xué)院重慶綠色智能技術(shù)研究院,2016.
[2]蔡凡. 基于主動(dòng)外觀(guān)模型的圖像分割研究[J]. 閩江學(xué)院學(xué)報(bào),2014,35(2): 80-87.
[3]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM,2017,60(6):84-90.
[4]LCUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11):2278-2324.
[5]ALMABDY S, ELREFAEI L. Deep Convolutional Neural Network-based approaches for face recognition[J]. Applied Sciences,2019,9(20):4397.
[6]MAATTA J, HADID A, PIETIKAINEN M. Face spoofing detection from single images using microtexture analysis[C]//Proceedings of the 2011 International Joint Conference on Biometrics. Washington, DC, USA:IEEE,2011: 10-17.
[7]李丹,沈夏炯,張海香,等. 基于Lenet-5的卷積神經(jīng)網(wǎng)絡(luò)改進(jìn)算法[J]. 計(jì)算機(jī)時(shí)代,2016(8):4-6,12.