許婷
摘要:近年來,隨著人工智能的快速發(fā)展,人臉識(shí)別已經(jīng)成為現(xiàn)代生物信息識(shí)別中的一種重要技術(shù)。但是,隨著人們對(duì)生物信息的隱私性越來越重視,特殊場(chǎng)景下樣本信息數(shù)量少等問題仍然影響著人臉識(shí)別算法的精度。本文針對(duì)少樣本場(chǎng)景,提出了一種將虛擬測(cè)試樣本與原始測(cè)試樣本進(jìn)行結(jié)合的基于VGG卷積神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別算法。經(jīng)實(shí)驗(yàn),該算法在少樣本場(chǎng)景下仍能夠取得較好的效果。
關(guān)鍵詞:人臉識(shí)別;少樣本;虛擬樣本;VGG卷積神經(jīng)網(wǎng)絡(luò)
引言
人臉識(shí)別一直是計(jì)算機(jī)視覺領(lǐng)域的熱門關(guān)注領(lǐng)域,特別是隨著人工智能技術(shù)的快速發(fā)展,人臉識(shí)別技術(shù)已經(jīng)被廣泛應(yīng)用于司法、公共交通、銀行、邊檢安防以及日常生活等多個(gè)領(lǐng)域中。目前,人臉識(shí)別雖然已經(jīng)得到了巨大的發(fā)展,但是由于其本身的特點(diǎn)及隱私性、環(huán)境復(fù)雜性等問題,仍然存在許多挑戰(zhàn),如人臉相似性、人臉樣本量缺少、背景圖案繁雜、遮擋物及面部姿態(tài)等。早期的人臉識(shí)別技術(shù)主要有基于幾何特征[1]、基于隱馬爾科夫模型[2]、人工神經(jīng)網(wǎng)絡(luò)[3]等。然而近幾年,隨著深度卷積神經(jīng)網(wǎng)絡(luò)的不斷發(fā)展,通過深度卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行人臉識(shí)別幾乎成為主流研究方向,但是深度卷積神經(jīng)網(wǎng)絡(luò)模型往往需要大量數(shù)據(jù)進(jìn)行訓(xùn)練,因此,小樣本下的深度卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練依然是現(xiàn)在重點(diǎn)關(guān)注的挑戰(zhàn)。
小樣本學(xué)習(xí)任務(wù)的核心問題是在訓(xùn)練樣本不足的情況下,如何保證經(jīng)驗(yàn)風(fēng)險(xiǎn)的可靠性。一般來說,最直觀的解決方法是數(shù)據(jù)增強(qiáng),也就是補(bǔ)充訓(xùn)練樣本的數(shù)量,從而達(dá)到獲取更多信息量的目的。例如,喬雨軒、方建安提出了一種結(jié)合圖像色彩恢復(fù)、文本碎片渲染、圖像前后背景融合等多種圖像處理手段進(jìn)行數(shù)據(jù)增強(qiáng)的分類識(shí)別算法[4]。張超群、易云恒、周文娟等提出通過數(shù)據(jù)增強(qiáng)技術(shù)擴(kuò)充樣本集,并將其用于神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練[5]。從上述文獻(xiàn)可以看出,通過數(shù)據(jù)增強(qiáng)提升小樣本場(chǎng)景下的分類識(shí)別準(zhǔn)確率仍然具有一定成效。但是在樣本量極低的情況下,僅僅增強(qiáng)訓(xùn)練數(shù)據(jù)也難以達(dá)到深度卷積神經(jīng)網(wǎng)絡(luò)模型所需的訓(xùn)練數(shù)量。
因此,本文提出了一種基于虛擬測(cè)試樣本的方法,與傳統(tǒng)增強(qiáng)訓(xùn)練數(shù)據(jù)集方法的不同在于,該方法在增加訓(xùn)練數(shù)據(jù)集樣本數(shù)量的基礎(chǔ)上,同時(shí)增強(qiáng)了測(cè)試數(shù)據(jù)集的樣本數(shù)量,并將測(cè)試樣本與其對(duì)應(yīng)的虛擬樣本進(jìn)行加權(quán)融合后再進(jìn)行分類識(shí)別。
1. 算法步驟描述
1.1 VGG16網(wǎng)絡(luò)模型
VGGNet是2014年由Karen Simonyan和Andrew Zisserman提出的一種深度卷積神經(jīng)網(wǎng)絡(luò)模型,是牛津大學(xué)計(jì)算機(jī)視覺實(shí)驗(yàn)室參加2014年ILSVRC(imageNet large scale visual recognition challenge)比賽時(shí)所用的網(wǎng)絡(luò)模型,并獲得了競(jìng)賽中分類第二和定位第一的成績(jī)。VGG的主要特點(diǎn)在于其通過堆疊多個(gè)小卷積核來替代大卷積核,以減少所需參數(shù),并加深了網(wǎng)絡(luò)層數(shù)。
Karen Simonyan等人對(duì)六個(gè)網(wǎng)絡(luò)模型的結(jié)構(gòu)進(jìn)行了實(shí)驗(yàn)驗(yàn)證,其中VGG16和VGG19的實(shí)驗(yàn)結(jié)果效果相對(duì)較好,基于此,本文將采用VGG16和VGG19作為基礎(chǔ)網(wǎng)絡(luò)模型進(jìn)行實(shí)驗(yàn)。
VGG16共包含16個(gè)子層,第1層卷積層由2個(gè)conv3-64組成,第2層卷積層由2個(gè)conv3-128組成,第3層卷積層由3個(gè)conv3-256組成,第4層卷積層由3個(gè)conv3-512組成,第5層卷積層由3個(gè)conv3-512組成,然后是2個(gè)全連接層,1個(gè)輸出層。
VGG19共包含19個(gè)子層,其網(wǎng)絡(luò)結(jié)構(gòu)與VGG16一致,只是相比VGG16增加了3個(gè)卷積層,因而此處不再進(jìn)行詳細(xì)描述。
1.2 本文提出的算法
為了進(jìn)一步提高小樣本場(chǎng)景下的人臉識(shí)別率,本文提出了一種將虛擬測(cè)試樣本與原始測(cè)試樣本相結(jié)合的基于VGG卷積神經(jīng)網(wǎng)絡(luò)模型的人臉識(shí)別算法。
假設(shè)訓(xùn)練數(shù)據(jù)集共有L個(gè)類別,每一類共有N個(gè)樣本,為了能夠更好地驗(yàn)證小樣本場(chǎng)景下算法的有效性,將每一類的N樣本分別選取T個(gè)樣本作為訓(xùn)練樣本,剩余N-T個(gè)樣本作為測(cè)試樣本,此時(shí)可知訓(xùn)練樣本的個(gè)數(shù)為L(zhǎng)×T,測(cè)試樣本的個(gè)數(shù)則為L(zhǎng)×(N-T)。
原始訓(xùn)練樣本X和原始測(cè)試樣本Y分別生成對(duì)應(yīng)的虛擬樣本X'和Y',本文采用的生成方式來源于張洋銘、吳凱、王藝凡等提出的利用人臉對(duì)稱性生成虛擬樣本,從而實(shí)現(xiàn)人臉識(shí)別[6]。該方法主要利用了人臉具有對(duì)稱性這一主要生物特征生成虛擬訓(xùn)練樣本,以達(dá)到擴(kuò)充樣本數(shù)量的目的,能夠在一定程度上保留原樣本的特征,并且彌補(bǔ)樣本不足的問題。
通過生成虛擬樣本后的訓(xùn)練樣本集Xtotal和Ytotal分別如下:
(1)
(2)
其中 ,Yk表示原始測(cè)試樣本,Ykι表示將的左臉進(jìn)行對(duì)稱轉(zhuǎn)換后的虛擬測(cè)試樣本,Ykr表示將Yk的右臉進(jìn)行對(duì)稱轉(zhuǎn)換后的虛擬測(cè)試樣本。
將Yk輸入到由Ytotal進(jìn)行訓(xùn)練的VGG卷積神經(jīng)網(wǎng)絡(luò)模型中后,在輸出層可以得到一個(gè)輸出向量,同理,將Ykι和Ykr輸入到由Xtotal進(jìn)行訓(xùn)練的VGG卷積神經(jīng)網(wǎng)絡(luò)模型中后可以得到向量。
為了能夠更好地對(duì)測(cè)試樣本進(jìn)行描述,可以將原始測(cè)試樣本與虛擬測(cè)試樣本的輸出向量進(jìn)行加權(quán)融合,從而得到加權(quán)后的輸出向量Wkall。
(3)
該算法的具體步驟描述如下:
(1)將樣本分為測(cè)試樣本和訓(xùn)練樣本,利用人臉“對(duì)稱性”生成虛擬人臉樣本。
(2)將訓(xùn)練樣本及其生成的虛擬訓(xùn)練樣本一起輸入VGG卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行模型訓(xùn)練,增強(qiáng)訓(xùn)練樣本數(shù)量。
(3)將測(cè)試樣本和其對(duì)應(yīng)生成的虛擬測(cè)試樣本分別輸入模型并對(duì)其生成結(jié)果進(jìn)行加權(quán)融合。
(4)將樣本分類到最終加權(quán)融合后貢獻(xiàn)度最大的類別中。
2. 實(shí)驗(yàn)
2.1 實(shí)驗(yàn)數(shù)據(jù)集
本實(shí)驗(yàn)主要在ORL人臉數(shù)據(jù)庫中進(jìn)行,將改進(jìn)后的算法與VGG卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行對(duì)比。ORL人臉數(shù)據(jù)庫共包括40人,每人10幅正面人臉圖像。為了驗(yàn)證少樣本場(chǎng)景下的精確性,本實(shí)驗(yàn)中將對(duì)每人分別隨機(jī)選取1、3、5幅人臉作為訓(xùn)練集,其余作為測(cè)試集,并針對(duì)訓(xùn)練集和測(cè)試集分別生成對(duì)應(yīng)的虛擬樣本數(shù)據(jù),并將原始數(shù)據(jù)樣本與虛擬數(shù)據(jù)樣本結(jié)合,用于模型訓(xùn)練及測(cè)試過程中。
圖1給出了ORL人臉數(shù)據(jù)庫中通過“對(duì)稱臉”生成的虛擬人臉圖像,其中左圖為原始圖像,中圖及右圖分別為對(duì)稱翻轉(zhuǎn)左側(cè)臉及右側(cè)臉后生成的新的虛擬人臉圖像。從圖1可以看出新的虛擬樣本中保留了大部分原始樣本中的信息。
2.2 實(shí)驗(yàn)結(jié)果分析
本文的算法模型是基于Pytorch深度學(xué)習(xí)框架搭建而成,基礎(chǔ)模型采用的是VGG16經(jīng)典模型框架,為了驗(yàn)證算法的有效性,在對(duì)比實(shí)驗(yàn)的過程中采用的模型參數(shù)保持完全一致。
在實(shí)驗(yàn)過程中,將樣本集D分為測(cè)試樣本與訓(xùn)練樣本,也就是說,假設(shè)每一類中共有s個(gè)樣本,隨機(jī)選取k個(gè)樣本作為訓(xùn)練樣本集Tr,剩余的s-k個(gè)樣本則作為測(cè)試樣本集Te,將剩余的測(cè)試樣本生成對(duì)應(yīng)的虛擬樣本,根據(jù)人臉左右對(duì)稱性,每一個(gè)樣本Dk可以生成對(duì)應(yīng)的兩個(gè)虛擬測(cè)試樣本Dk1和Dk2。
首先,采用原始測(cè)試樣本與新生成的虛擬測(cè)試樣本共同構(gòu)成的新訓(xùn)練樣本集Tr'對(duì)VGG網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練;然后,分別將每一個(gè)測(cè)試樣本及其對(duì)應(yīng)的虛擬測(cè)試樣本輸入訓(xùn)練后的VGG網(wǎng)絡(luò)模型中,可以得到其對(duì)應(yīng)的輸出結(jié)果,將其輸出結(jié)果進(jìn)行加權(quán)融合后得到最終結(jié)果,并將測(cè)試樣本分到最終結(jié)果中貢獻(xiàn)度更大的類別中。通過大量實(shí)驗(yàn)過程,同時(shí)結(jié)合前人的分析,為了得到更好的識(shí)別效果,可將權(quán)值分別設(shè)置為0.6、0.2、0.2。
圖2對(duì)比了在N-shot下,本文提出的算法與原始VGG16以及增強(qiáng)訓(xùn)練樣本后的VGG16的識(shí)別率。從圖2可以看出,在樣本量不足的情況下,本文所提出的基于虛擬測(cè)試樣本加權(quán)融合算法的準(zhǔn)確率高于增強(qiáng)訓(xùn)練樣本和原始網(wǎng)絡(luò)模型的準(zhǔn)確率,并且在樣本量極低的情況下,效果更好。
基于VGG19的網(wǎng)絡(luò)模型,我們也對(duì)1-shot進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖3所示。從實(shí)驗(yàn)結(jié)果可以看出,VGG19的模型結(jié)果比VGG16的結(jié)果更好,增加訓(xùn)練樣本后也有一定提升,但是經(jīng)過虛擬測(cè)試樣本融合后,能夠得到更進(jìn)一步提升。
結(jié)語
本文提出了一種加權(quán)融合虛擬測(cè)試樣本和虛擬訓(xùn)練樣本的人臉識(shí)別算法,該算法能夠在樣本量明顯不足的場(chǎng)景下取得較好的效果。增強(qiáng)數(shù)據(jù)能夠很好地改善樣本量不足引起的特征量不足問題。本文主要是通過同時(shí)增強(qiáng)訓(xùn)練樣本集和測(cè)試樣本集,然后將訓(xùn)練樣本輸入VGG模型中進(jìn)行訓(xùn)練,但是其從有限的虛擬樣本中獲取的特征仍然是有限的。因此,在此基礎(chǔ)之上,本文引入了虛擬測(cè)試樣本數(shù)據(jù),由于人臉對(duì)稱性,新的虛擬測(cè)試樣本與原測(cè)試樣本具有一定相同特征,故在輸入模型后可以提取到相似特征,基于此,將虛擬測(cè)試樣本與原始測(cè)試樣本進(jìn)行加權(quán)融合后能夠得到更有效的特征量,也在一定程度上提升了樣本量不足情況下人臉識(shí)別的精度。
參考文獻(xiàn):
[1]王尋,趙懷勛.基于改進(jìn)的膚色空間和幾何特征的快速人臉檢測(cè)研究[J].計(jì)算機(jī)應(yīng)用與軟件,2015,32(2):151-154.
[2]孟輝,高德施,李穎,等.基于隱馬爾科夫模型的人臉識(shí)別[J].中國刑警學(xué)院學(xué)報(bào),2019(4):124-128.
[3]馮巧娟.人工神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別中的應(yīng)用[J].平頂山工學(xué)院學(xué)報(bào),2008, 17(2):19-20,26.
[4]喬雨軒,方建安.基于數(shù)據(jù)增強(qiáng)的小樣本字符識(shí)別模型[J].計(jì)算機(jī)科學(xué)與應(yīng)用,2022,12(5):1280-1291.
[5]張超群,易云恒,周文娟,等.基于深度學(xué)習(xí)與數(shù)據(jù)增強(qiáng)技術(shù)的小樣本巖石分類[J].科學(xué)技術(shù)與工程,2022,22(33):14786-14794.
[6]張洋銘,吳凱,王藝凡,等.基于隨機(jī)權(quán)重分配策略的面目表情識(shí)別[J].重慶大學(xué)學(xué)報(bào),2022,45(9):135-140.
作者簡(jiǎn)介:許婷,碩士研究生,助教,研究方向:模式識(shí)別。