廣長彪
(1.四川大學視覺合成圖形圖像國家重點實驗室,成都 610065;2.四川川大智勝軟件公司,成都 610065)
基于DCNN的人臉多屬性識別
廣長彪
(1.四川大學視覺合成圖形圖像國家重點實驗室,成都 610065;2.四川川大智勝軟件公司,成都 610065)
在人臉屬性的識別過程中,目前常見的方法有以下幾種,基于Gabor小波變換的人臉屬性識別,基于SIFT的人臉屬性識別和基于差分紋理的人臉屬性識別。傳統(tǒng)方法存在很多問題,例如特征的選取需要人為的干預,而且特征的選擇也不一定能夠符合預期。采用有監(jiān)督的基于深度卷積神經網絡(DCNN)的方法,構建一個多層卷積神經網絡,通過卷積神經網絡獲得深度卷積激活特征,該方法采用CelebA庫訓練,之后用JAFFE人臉庫進行檢測,取得很好的實驗結果。
屬性識別;SIFT;監(jiān)督;深度卷積神經網絡
隨著現(xiàn)代社會的發(fā)展和科技的日益革新,人們對于信息的獲取和信息的處理的需求也日益增加,其中對于人臉屬性的識別也是當前人工智能領域的一個重要的課題,因為人臉屬性包含了很多信息,對于人臉屬性的識別也將應用于諸多領域。例如人機交互[1]、智能機器人、醫(yī)療、遠程教育、火車站、公安系統(tǒng)、圖書館管理系統(tǒng)、心理學研究,等等,前景非常的廣闊。而人臉屬性包含人臉的各種特征,例如胡須、微笑、性別等,人臉屬性識別技術是指對一副人臉圖像或者是攝像頭捕獲到的人臉進行分析,返回人臉的性別、年齡、表情等各種信息。
對于目前人臉屬性的一些主流方法,如以Gabor小波作為圖像工具的人臉屬性識別技術,被廣泛的應用于人臉圖像分析,但Gabor特征存在計算量大,維數(shù)高和信息冗余等缺點,還有基于SIFT的人臉屬性識別以及基于差分紋理的人臉屬性識別,等等,以上的特征值都是基于人工的提取特征值,而本文提出使用深度卷積網絡自動學習有效特征并進行分類的人臉識別方法。首先利用DCNN非線性映射和自動提取圖像結構信息的能力,設計一個DCNN網絡實現(xiàn)對姿態(tài)魯棒性的人臉識別方法。在JAFFE數(shù)據(jù)庫以及LFW數(shù)據(jù)庫上的測試結構表明,與現(xiàn)有的如上述的幾種人工設計特征方法相比,深度卷積神經網絡方法能有效地進行特征學習,避免了人工選取特征的不穩(wěn)定以及選取的特征不好等缺陷,也避免了人工巨大的工作量,在人臉屬性識別上具有很好的效果。
1981年的諾貝爾醫(yī)學獎得主是美國神經生物學家David Hubel和Torsten Wiesel以及Roger Sperry,而David Hubel和Torsten Wiesel的主要貢獻,是發(fā)現(xiàn)了視覺系統(tǒng)的信息處理,可視皮層是分級的,以此提出了“感受野[2]”的概念。到了八十年代中期,F(xiàn)ukushima等在感受野概念的基礎上又提出了神經認知機[3],這便是卷積神經網絡(Convolution neural networks,CNNs)的第一次實現(xiàn),也是第一次基于神經元之間的局部連接性和層次結構組織的人工神經網絡。卷積網絡是為識別二維形狀而特殊設計的一個多層感知器,這種網絡結構對平移、比例縮放、傾斜或者共他形式的變形具有高度不變性。這些良好的性能是網絡在有監(jiān)督方式下學會的,卷積神經網絡有三個顯著的特點,即共享權值[4](shared weights),時間或空間子采樣(temporal or spatial sub-sampling),局部感受野(local receptive fields),卷積神經網絡(CNN)局部連接權值共享和池化的方法能夠很大程度上降低網絡的計算復雜度,同時CNN的這些特點,即對平移,比例縮放和傾斜等形變具有很好的魯棒性。局部感受野是一種將隱層中的每個神經元和輸入圖像中的局部區(qū)域相連接的一種思想。由于隱層中的每個神經元不需要和整個圖像進行全連接,而只是和圖像進行局部連接,所以通過這種局部感知的感受野思想,可以大大地減少連接的數(shù)目,同時也極大程度地降低卷積神經網絡中需要訓練的權值參數(shù)數(shù)目。
卷積神經網絡(CNN)的基本結構是卷積層和池化層。對于卷積層而言,每一個神經元的結構與上一層結構局部想連,上一層的特征層則與卷積核做卷積運算,從而得出下一層的的卷積層,運算則是提取特征的過程。池化層則是由上一層的下采樣變化而來,一般情況下是一個二次特征提取的特征層,它用來求局部敏感性[5]。
卷積是分析數(shù)學中的一種運算,設f(x)和g(x)是R上的兩個可積函數(shù),做積分運算如下:
公式(1)定義了f(x)和g(x)的卷積。一個完整的卷積層通常情況下由多個特征映射平面組成,使用多種卷積核(也可稱為濾波器)對圖像進行卷積,于是我們便可以得到輸入圖像的每個位置上的多種特征。
接下來便是池化操作,如前所述,在我們用卷積獲得特征(features)之后,下一步我們希望利用這些特征去做分類過程。理論上講,我們可以把所有提取得到的特征去訓練分類器,但是這樣做卻面臨海量數(shù)據(jù)的計算。例如:對于一個192×192像素的圖像,假設我們已經學習得到了100個定義在8×8輸入上的特征,每一個特征和圖像卷積都會得到一個(192-8+1)×(192-8+ 1)=34225維的卷積特征,由于有100個特征,所以每個樣例(example)都會得到一個185×185×400=33,422,500維的卷積特征向量。卷積過程如圖1所示:
圖1 二維卷積操作示意圖
學習一個擁有幾百萬個特征輸入的分類器十分的繁瑣,并且容易出現(xiàn)過擬合(over-fitting)。
所以我們需要解決上述問題,我們可以利用卷積后的特征是因為圖像具有一種“靜態(tài)性”的屬性,也就是指在一個圖像區(qū)域有用的特征極有可能在另一個區(qū)域同樣適用。所以,為了描述比較大的圖像,我們可以利用上述特性,對不同位置的特性進行聚類統(tǒng)計,人們可以計算圖像一個區(qū)域上某個特定特征的平均值或者是最大值。這些概要特征的維度與原維度相比也有了幾何倍數(shù)的降低,大大的減少了計算量。這種聚合的操作就叫做池化(pooling),根據(jù)池化的方法不同主要分為平均池化法和最大池化法兩類。最大池化示意圖如圖2所示。
圖2 最大池化操作示意圖
然而特征又是如何選取的呢,傳統(tǒng)的特征選取過程是通過人工來選取,不僅特征選取過程工作量巨大,需要人工干預,而且選取特征的好壞很大程度上受到人為因素的影響,幸運的是,深度學習的出現(xiàn)解決了如何自動學習“優(yōu)質特征”的問題[6],它通過模仿人類大腦分析學習的機制,將分級信息處理過程引入到特征表達上,通過逐層特征變換,將樣本在原空間的特征表達變換到新的特征空間上,從而使分類變得更加容易,也減少了人工干預,卷積神經網絡作為深度學習的模型,也是當前的熱點。這便是我們的深度卷積神經網絡(DCNN)。
傳統(tǒng)的人臉屬性方法大概有以下幾種,即基于Gabor小波變換的人臉屬性識別,基于SIFT的人臉屬性識別和基于差分紋理的人臉屬性識別。以下將介紹這幾種傳統(tǒng)方法的基本原理和優(yōu)缺點,基于Gabor小波變換的人臉屬性識別利用Gabor函數(shù)是唯一能達到測不準原理下界的函數(shù),能夠同時在空域和頻域中取得最優(yōu)分辨率的特征,獲得Gabor特征,將表情特征向量進行k近鄰分類,得到實驗結果。基于SIFT的人臉屬性識別利用SIFT算法尋找圖像的不同尺度空間的特征點,并獲得和特征點相關的尺度和方向等信息,得到特征點的描述子,得到特征向量,利用支持向量機對特征進行選擇和分類?;诓罘旨y理的人臉屬性識別一定程度上能夠屏蔽掉個體人臉的差異同時保留人臉屬性特征,首先選定人臉標準模型,該模型合理分布人臉的一些基準點,然后利用Delaunay三角剖分獲取這些基準點的基準信息,然后利用紋理映射技術將人臉屬性映射到標準人臉參考模型中。這些方法在一定程度上都有可取性,但是都存在一定的問題,這些選取特征的方式都是人工的選取,避免不了巨大的工作量和特征選取不好的問題。
機器學習[7]是人工智能領域的一個重要學科,隨著互聯(lián)網的發(fā)展和人工智能的崛起,機器學習成為解決問題的重要手段,機器學習的流程包括:對問題建模,訓練數(shù)據(jù)的組織,特征抽取,模型訓練,模型優(yōu)化等重要環(huán)節(jié)。機器學習分為無監(jiān)督學習(unsupervised learning)和有監(jiān)督學習(supervised learning),在實際應用中,有監(jiān)督學習是更加常見和有價值的方式。本文采用的DCNN方法即使有監(jiān)督的學習方法。
對于人臉圖像我們做如下處理,如圖3所示:
圖3 人臉圖像處理
本文的網絡拓撲結構圖4所示:
圖4 人臉屬性識別網絡拓撲結構圖
本網絡分為兩部分,前面是卷積網絡部分,后面是全連接部分,卷積網絡分為三個子網絡,最開始的是pooling層,中間包含五個卷積單元,每個卷積單元包含一個卷積層和一個LRN層,之后又是一個polling層,三個子網絡的輸入分別是上半臉、全臉和下半臉。后面全連接部分也是三個子網絡,每個子網絡完成一個屬性識別。
網絡的輸入均為128×128的灰度圖像,網絡中的所有polling層都采用max pooling,卷積網絡部分每個子網絡的參數(shù)如表1:
全連接部分的每個子網絡的輸入均為卷及網絡三個子網絡輸出特征的連接,全連接網絡部分的每個子網絡的參數(shù)如下:全連接1的output為128,全連接2的output為2。
整個網絡輸出了三個二維的向量,分別對應微笑。三個人臉屬性的二分類特征。由于微笑屬性是研究的屬性中識別難度較大且之前對微笑的識別較多,所以本文選取微笑屬性來作為與之前方法作對比的試驗。
表1
本實驗是一在JAFFE庫[8]上的測試,該數(shù)據(jù)庫由10個女性的213張人臉表情組成,其中微笑的圖片共計31張,非微笑圖片182張。圖5為JAFFE人臉庫微笑圖片的示例。
圖5 JAFFE人臉庫微笑圖片示例
表2 文中方法與其他方法比較
Gabor小波和SIFT及本文采用的方法在JAFFE數(shù)據(jù)庫上的試驗結果如表2所示。
同時,以上只是在微笑的時候,能否檢測出微笑的識別率,同時,也有在不是微笑的情況下,檢測出非微笑的識別率。由于在JAFFE庫上的樣本都是不戴眼鏡的女性,所以不適合我們胡須屬性和眼鏡屬性的試驗,我們從WebFace庫中抽取100張人臉圖片用于我們的試驗,同時我們得到非微笑人臉在JAFFE庫及其他的人臉屬性在WebFace庫上的識別率如表3所示。
本文基于DCNN的人臉屬性識別與傳統(tǒng)方法相比,具有不用人工選取特征,選取特征較好,識別準確率更高等優(yōu)點,人臉的屬性識別也具有較大的實際意義,可用于人工交互、公安系統(tǒng)等各領域,若想取得更好的識別率,今后可以改進網絡拓撲結構,采用更深的網絡,用更大的數(shù)據(jù)訓練。
表3 各屬性識別正確率及環(huán)境
[1]薛雨麗,毛俠,郭葉,等.人機交互的人臉表情識別研究進展[J].中國圖形圖象學報,2009,14(5):764-772.
[2]Hubel D H,Wiesel T N.Receptive Fields,Binocular Interaction and Functional Architecture in the Cat's Visual Cortex[J].The Journal of Physiology,1962,160(1):106-154.
[3]Fukushima K,Miyake S.Neocognitron:A New Algorithm for Pattern Recognition Tolerant of Deformations and Shifts in Position[J]. Pattern Recognition,1982,15(6):455-469.
[4]Won Y,Gader P D,Coffield P C.Morphological Shared-Weight Networks with Applications to Automatic Target Recognition[J].Neural Networks,IEEE Transactions on,1997,vol.8,no.5,pp.1195-1203.
[5]池艷玲.基于深度學習的人臉識別方法的研究[D]:[碩士學位論文].福州:福建師范大學,2015.
[6]Graves A,Mohamed A R,Hinton G.Speech Recognition with Deep Recurrent Neural Networks.In:Proceedings of the 38th IEEE International Conference on Acoustics,Speech and Signal Processing.Vancouver,BC:IEEE,2013.6645-6649
[7]王玨,周志華,周傲英.機器學習及其應用.清華大學出版社,書號:ISBN 7-302-12038-2,北京,2006.
[8]Affect Analysis Group.Cohn-Kanade-AU-Coded Expression Database[OL].[2010-12-06]http://www.pitt.edu/~emotion/ckspread.htm.
An Improved Algorithm of the Screen Space Ambient Occlusion
YANG Zhi-cheng
(College of Computer Science,Sichuan University,Chengdu 610065)
In computer graphics,the quality of global illumination directly affects the authenticity of the frames.The traditional ray tracing is complex,and difficult to online.So in real-time applications such as games generally choose the Ambient Occlusion,AO technology to simulate global illumination effect,which sacrifice some effect to reach real-time rendering.
Global Illumination;Ambient Occlusion;Screen Space;Mipmap
1007-1423(2017)08-0051-05
10.3969/j.issn.1007-1423.2017.08.011
廣長彪(1990-)男,湖北孝感人,在讀碩士研究生,研究方向為圖像處理與合成
2016-12-29
2017-03-10
科技部重大儀器專項(No.2013YQ49087904)