遼寧工業(yè)大學(xué)電子與信息工程學(xué)院 汪金濤 曹玉東 李 羊
基于深度學(xué)習(xí)的人臉識別方法探究
遼寧工業(yè)大學(xué)電子與信息工程學(xué)院汪金濤曹玉東李羊
深度卷積神經(jīng)網(wǎng)絡(luò)具有復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),與傳統(tǒng)機(jī)器學(xué)習(xí)方法相比具有更強(qiáng)大的特征學(xué)習(xí)和特征表達(dá)能力。使用深度學(xué)習(xí)算法訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型自提出以來在多個大規(guī)模人臉識別任務(wù)上取得了較高的準(zhǔn)確率。文章從典型的網(wǎng)絡(luò)結(jié)構(gòu)的構(gòu)建、訓(xùn)練方法和性能表現(xiàn)三個方面進(jìn)行介紹,并展望未來發(fā)展的新方向。
卷積神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí);人臉識別;網(wǎng)絡(luò)結(jié)構(gòu)
人臉識別是圖像識別領(lǐng)域一個非常重要的研究方向,由于人臉圖像具有易采集的特性,因此受到許多行業(yè)的關(guān)注,具有廣闊的應(yīng)用前景和巨大的商業(yè)市場。
在深度學(xué)習(xí)出現(xiàn)之前,人臉識別采用的主流方法是以Eigenfaces為代表的子空間分析方法。香港中文大學(xué)湯曉鷗教授所帶領(lǐng)的研究團(tuán)隊將當(dāng)時最為流行的3種子空間方法——主成分分析子空間(PCA)、貝葉斯子空間和線性判別分析子空間(LDA)有機(jī)地結(jié)合到同一個理論框架中,提出了統(tǒng)一子空間[1]分析方法.這種方法使用LBP和Gabor等特征對人臉圖像中鄰域像素區(qū)塊的灰度值或顏色值進(jìn)行局部特征提取,然后對這些局部特征進(jìn)行特征變化,得到更易于區(qū)分的人臉表示,在人臉識別領(lǐng)域最受關(guān)注的測試集LFW上取得了當(dāng)時的最佳識別性能。
Facebook提出的DeepFace[2]便是一種在人臉識別領(lǐng)域進(jìn)行了優(yōu)化的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)。輸入是正規(guī)化到152×152大小的3通道RGB人臉圖,接著是一個卷積層C1,有32個11×11×3大小的卷積核,每個通道的卷積核是11×11,所以3通道卷積核便是11×11×3,每個核的卷積結(jié)果為3通道上的卷積結(jié)果在對應(yīng)位置累加得到,所以最后得到32張142×142大小的卷積結(jié)果圖。
C1后是一個最大池化層,核大小為3×3,步長為2,故得到32個71×71×3大小的圖片作為結(jié)果。M2之后是卷積層C3,這一層有16個卷積核,每個卷積核大小為9×9×16,16指的意思是從M2的32張輸出圖中選擇16張進(jìn)行卷積,在每張圖以9×9為卷積核得到結(jié)果,再將16張卷積圖累加得到每個9×9×16大小卷積核卷積結(jié)果圖。
F7是一個全連接層,也就是普通神經(jīng)網(wǎng)絡(luò)使用的隱藏層結(jié)構(gòu),它的輸入是將L6的16張卷積圖按照像素排列得到的向量,F(xiàn)7的隱藏單元個數(shù)為4096個,所以它的輸出也是4096維。DeepFace將F7的輸出作為表示人臉的特征。最后的F8則是一個softmax分類器。
Xiaoou在文獻(xiàn)[3]提出了DeepID,它包括4層卷積層,前三層卷積層之后都緊跟著一個最大池化層,在卷積層之后是一個全連接層,最后則是用于分類的softmax層。DeepID網(wǎng)絡(luò)的特別之處有以下幾點:
(1) 多尺度特征:DeepID網(wǎng)絡(luò)將第三層卷積層經(jīng)過池化層后的輸出與第四層卷積層的輸出連接起來之后一起傳播給了全連接層作為輸入。對于網(wǎng)絡(luò)結(jié)構(gòu)的特征學(xué)習(xí)來說這是很重要的一個變動,因為經(jīng)過多層級聯(lián)池化過程,第四層卷積層擁有的特征圖尺寸只有2×1大小,因此很可能會成為特征學(xué)習(xí)的瓶頸所在。而第三層卷積層學(xué)習(xí)得到的特征比起第四層要更加具有全局性,因此將這兩層特征聯(lián)合起來有助于減少可能的信息損失,使得學(xué)習(xí)得到特征具有多尺度性;
(2) 網(wǎng)絡(luò)的深度:DeepID網(wǎng)絡(luò)有4層卷積層,3層池化層,是有深度的網(wǎng)絡(luò)結(jié)構(gòu);
(3) 全連接層神經(jīng)元的個數(shù)少:DeepID網(wǎng)絡(luò)全連接層中神經(jīng)元的個數(shù)為160個,它的輸入為第三個池化層的60×(3×2)維加上第四層卷積層的80×(2×1)維一共520維特征,輸出則是softmax層的輸入,因為一共有10000個類別,所輸出有10000維。即要用160個神經(jīng)元去表示這10000個類別,這說明每個類別的特征都是十分稀疏的,這和神經(jīng)網(wǎng)絡(luò)中的sparse autoencoder很相似,通過引入稀疏性使得學(xué)習(xí)得到的特征更加具有分類與表示能力。
隨著深度學(xué)習(xí)在圖像領(lǐng)域研究的深入,利用卷積神經(jīng)網(wǎng)絡(luò)的卷積層、池化層和全連接層等基本結(jié)構(gòu),就可以讓這個網(wǎng)絡(luò)結(jié)構(gòu)自己學(xué)習(xí)和提取相關(guān)特征,省略過往繁雜的建模過程。若能對網(wǎng)絡(luò)提取的特征表示進(jìn)一步的優(yōu)化,使其能夠更好的表達(dá)特征,加上復(fù)雜的推理,那么深度學(xué)習(xí)將在人臉識別等人工智能領(lǐng)域能取得更大的進(jìn)展。
[1]Wang X,Tang X.A unified framework for subspace face recognition[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2004,26(9):1222-1228.
[2]Taigman Y,Yang M,Ranzato M A,et al.Deepface:Closing the gap to human-level performance in face verification[C]// Computer Vision and Pattern Recognition(CVPR),IEEE Conference on.Columbus,USA:IEEE 2014:1701-1708.
[3]Sun Y,Wang X,Tang X.Deep learning face representation from predicting 10,000 classes[C]//Computer Vision and Pattern Recognition(CVPR),IEEE Conference on.Columbus,USA:IEEE 2014:1891-1898.
汪金濤(1992—),男,安徽合肥人,碩士研究生,研究方向:模式識別,深度學(xué)習(xí)。
曹玉東(1971—),男,遼寧鐵嶺人,博士,副教授,研究方向:圖像處理,模式識別。
李羊(1991—),男,河北石家莊人,碩士研究生,研究方向:圖像處理,模式識別。