王東署,鄭光璞
基于發(fā)育網(wǎng)絡(luò)的復(fù)雜背景下人臉識(shí)別
王東署,鄭光璞
(鄭州大學(xué) 電氣工程學(xué)院,河南 鄭州 450001)
摘要:針對(duì)人臉識(shí)別中光線、背景及面部表情的變化,利用密歇根州立大學(xué)人臉庫(kù)構(gòu)建復(fù)雜背景人臉圖像庫(kù),并將發(fā)育網(wǎng)絡(luò)應(yīng)用于二維人臉識(shí)別.引入突觸維護(hù)機(jī)制來(lái)處理復(fù)雜背景,可以自動(dòng)決定突觸的完全去除、保留和部分去除,弱化背景并強(qiáng)化人臉,從而降低復(fù)雜背景對(duì)人臉識(shí)別的不利影響.通過(guò)和傳統(tǒng)方法測(cè)試結(jié)果對(duì)比,采用帶突觸維護(hù)機(jī)制的發(fā)育網(wǎng)絡(luò)對(duì)復(fù)雜背景下人臉的識(shí)別可以取得更好的效果,其識(shí)別率可達(dá)96%以上.
關(guān)鍵詞:發(fā)育網(wǎng)絡(luò);人臉識(shí)別;復(fù)雜背景;突觸維護(hù);識(shí)別率
0引言
人臉識(shí)別作為計(jì)算機(jī)視覺(jué)及模式識(shí)別研究的一個(gè)重要子領(lǐng)域,具有重要的理論研究意義和實(shí)際應(yīng)用價(jià)值.復(fù)雜背景下的人臉識(shí)別是一個(gè)非常復(fù)雜和極具挑戰(zhàn)性的課題,它與指紋、視網(wǎng)膜、基因、聲音等其他人體生物特征識(shí)別相比,具有友好、簡(jiǎn)單、易于被接受等特點(diǎn),近年已被廣泛用于國(guó)家安全、銀行密碼系統(tǒng)、公安刑偵破案等領(lǐng)域[1].
在復(fù)雜背景人臉識(shí)別的研究中,國(guó)內(nèi)較有代表性的研究有:王波等[2]提出了具有形狀約束的snake模型的人臉檢測(cè)方法;于威威等[3]利用灰度邊緣圖像并結(jié)合人臉的幾何特征,檢驗(yàn)雙眼及人臉的真實(shí)性;田春娜等[4]則采用基于聚類(lèi)有效性分析及多姿態(tài)檢測(cè)算法檢測(cè)人臉.此外,仲澄等[5]提出一種新的自適應(yīng)膚色分割的算法定位人臉,采用局部奇異值分解法 (singular value decomposition,SVD)提取圖像特征值,用主成分分析法(principal components analysis,PCA)加以識(shí)別;何露等[6]則利用膚色分割減小搜索區(qū)域,在匹配時(shí)只需對(duì)膚色分析后的區(qū)域作匹配,改變了傳統(tǒng)模板匹配方法中逐點(diǎn)掃描的方式,所需匹配的區(qū)域大大減少,檢測(cè)速度得到了提高.
國(guó)外研究中,Huang[7]提出了在噪聲干擾或復(fù)雜背景下,基于α-散度的非負(fù)矩陣分解(nonnegative matrix factorization,NMF)方法的人臉識(shí)別.該方法用α-散度來(lái)測(cè)量距離,通過(guò)NMF表達(dá)式中不同的參數(shù)值得到一系列迭代的因子分解式,以便NMF得到總體最優(yōu)值,改善人臉識(shí)別的精度;Chen等[8]提出了基于復(fù)雜背景視頻下移動(dòng)機(jī)器人的實(shí)時(shí)人臉識(shí)別與檢測(cè),通過(guò)嵌入式馬爾科夫模型去識(shí)別人臉;Vaidehi等[9]提出了基于哈爾小波和獨(dú)立成分分析算法的人臉識(shí)別,如果特定人臉信息在該系統(tǒng)中已經(jīng)被訓(xùn)練過(guò),那么該算法就可以實(shí)時(shí)檢測(cè)照片背景中的該人臉,并且確定其身份.
為了模擬人類(lèi)大腦的識(shí)別,筆者提出了基于發(fā)育網(wǎng)絡(luò)(developmental network,DN)的復(fù)雜背景下的人臉識(shí)別算法,并引入突觸維護(hù)機(jī)制[10-11],自動(dòng)決定突觸的全部去除、保留和部分去除,弱化復(fù)雜背景,強(qiáng)化人臉.實(shí)驗(yàn)結(jié)果表明,在復(fù)雜背景下的二維人臉識(shí)別領(lǐng)域是很有效的.
1理論基礎(chǔ)
1.1發(fā)育網(wǎng)絡(luò)
發(fā)育網(wǎng)絡(luò)[12]是美國(guó)密歇根州立大學(xué)翁巨楊教授模擬人類(lèi)大腦的發(fā)育規(guī)律而提出的一種智能網(wǎng)絡(luò).發(fā)育網(wǎng)絡(luò)的X、Y和Z3個(gè)區(qū)域類(lèi)似于傳統(tǒng)網(wǎng)絡(luò)的輸入層、隱含層和輸出層.X作為傳感器與外界環(huán)境接觸,Y層作為發(fā)育網(wǎng)絡(luò)的大腦,不能直接與外界環(huán)境接觸,作為執(zhí)行器層,Z層即可以輸入也可以輸出,當(dāng)Z處于外界監(jiān)督狀態(tài)時(shí),作為網(wǎng)絡(luò)的輸入,否則,Z輸出一個(gè)向量來(lái)驅(qū)動(dòng)執(zhí)行器(肌肉或腺體)作用于真實(shí)世界.X,Y,Z3個(gè)區(qū)域順序是由低到高,如X→Y,Y?Z.圖1即為發(fā)育網(wǎng)絡(luò)的工作原理,描述如下:
圖1 DN網(wǎng)絡(luò)示意圖
1)在t= 0時(shí)刻,對(duì)A={X,Y,Z}中的任一區(qū)域,初始化N和反應(yīng)向量r,其中N=(V,G),V是突觸權(quán)值,G是神經(jīng)元的年齡,r是權(quán)值與輸入相乘后的值.
2)在t=1,2,…,n時(shí)刻, 對(duì)A中的任一區(qū)域,重復(fù)下面的兩個(gè)步驟:
①利用區(qū)域函數(shù)f進(jìn)行計(jì)算,運(yùn)算關(guān)系如下:
(r′,N′)=f(b,t,N).
(1)
其中,b(bottom-up)和t(top-down)分別是自下而上和自上而下的輸入;
②更新:N←N′,r←r′.
區(qū)域Y中神經(jīng)元能量值的計(jì)算如下:
(2)
其中,vb和vt分別對(duì)應(yīng)自下而上和自上而下的權(quán)值.激活神經(jīng)元位置由下式得到:
(3)
其中,j代表響應(yīng)值最大的神經(jīng)元,激活后,其與X和Z之間的連接權(quán)值更新如下:
(4)
(5)
其中,ti是神經(jīng)元的激活時(shí)間,激活神經(jīng)元的年齡加1,即nj←nj+1.
1.2突觸維護(hù)
乙酰膽堿和去甲腎上腺素對(duì)突觸的神經(jīng)調(diào)節(jié)作用定義為突觸維護(hù)[13].乙酰膽堿在基底前腦和腦干中生成,甲腎上腺素既是一種激素又是一種神經(jīng)遞質(zhì)[14].Yu等[15]提出了乙酰膽堿與預(yù)測(cè)的不確定性有關(guān),去甲腎上腺素與無(wú)法預(yù)測(cè)的不確定性有關(guān).
1.2.1乙酰膽堿系統(tǒng)
輸入pi和權(quán)值vi的方差表達(dá)公式如下:
(6)
方差更新如下:
(7)
ω1(n)=1-ω2(n).
(8)
其中,μ(n)是遺忘因子,只有年齡更新到一定次數(shù)才起作用(n0≤20時(shí)等于0,否則等于1.5). 所有突觸中預(yù)期的突觸標(biāo)準(zhǔn)方差定義為
(9)
其中,d代表神經(jīng)元的突觸點(diǎn)(像素點(diǎn))個(gè)數(shù).
1.2.2去甲腎上腺素
每一個(gè)突觸相對(duì)方差定義如下:
(10)
采用如下突觸因子來(lái)決定突觸的去留[10]:
f(ri(n))=
(11)
其中,βb=1.5;βs=1;ri(n)是相對(duì)方差.當(dāng)ri(n)<βs,突觸連接將增強(qiáng);當(dāng)βs≤ri(n)≤βb,連接將減弱;當(dāng)βb 1.2.3突觸修剪 對(duì)輸入vi和權(quán)值pi修剪如下[10-14]: vi←f(ri(n))·vi. (12) pi←f(ri(n))·pi. (13) 計(jì)算神經(jīng)元激活之前的能量: (14) 其中,α,β表示輸入比重系數(shù),其和是1. 2實(shí)驗(yàn)部分 2.1網(wǎng)絡(luò)設(shè)計(jì) 1)創(chuàng)建DN網(wǎng)絡(luò):將訓(xùn)練圖片輸入到X層. 2)Y層和Z層神經(jīng)元個(gè)數(shù)是36個(gè)和27個(gè). 3)網(wǎng)絡(luò)初始化:權(quán)值連接全部初始化為0,Y層突觸方差σ初始值定為0.001 1,即1/256,設(shè)置相似度門(mén)限值為0.7. 4)圖庫(kù):由密歇根州立大學(xué)人臉庫(kù)與不同復(fù)雜背景合成,共324副(114×114).訓(xùn)練集共270副頭像,27個(gè)人每人10副;測(cè)試集共54副,每人2副. 圖2 圖庫(kù)的合成 2.2實(shí)驗(yàn)過(guò)程 訓(xùn)練過(guò)程如圖3所示. 圖3 訓(xùn)練過(guò)程示意圖 X層向Y層輸入為b(114×114,自下而上輸入),Z層向Y的指定輸入為t(27×1,自上而下輸入),由式(6)、(7)、(9)、(10)、(11)得到突觸因子f,然后根據(jù)式(12)、(13)對(duì)突觸權(quán)值和輸入向量進(jìn)行突觸修剪,由公式(14),分別用b和t乘以Y中所有神經(jīng)元的對(duì)應(yīng)連接權(quán)值并相加,得到r(6×6),r中響應(yīng)值最大的對(duì)應(yīng)神經(jīng)元j激活,rj=1,其余神經(jīng)元值為0.更新神經(jīng)元j對(duì)應(yīng)的權(quán)值,激活的神經(jīng)元年齡值加1. 測(cè)試過(guò)程如圖4所示.測(cè)試階段網(wǎng)絡(luò)被“凍結(jié)”,只有X層向Y層的輸入,將響應(yīng)向量r輸入到Z層,得到輸出r′(27×1),激活神經(jīng)元位置對(duì)應(yīng)網(wǎng)絡(luò)預(yù)測(cè)的結(jié)果,與目標(biāo)輸出進(jìn)行對(duì)比,確定識(shí)別結(jié)果的對(duì)與否. 圖4 測(cè)試示意圖 3結(jié)果分析 3.1實(shí)驗(yàn)結(jié)果 圖5為突觸因子f圖,從圖5可以看出,只有前27個(gè)神經(jīng)元權(quán)值進(jìn)行了修剪,其中白色表示權(quán)值保留,黑色為權(quán)值修剪,其余9副白色圖像表示相應(yīng)神經(jīng)元者激活年齡值未達(dá)到n0或未激活. 圖5 突觸因子f 圖6是經(jīng)過(guò)突觸修剪后的X到Y(jié)的權(quán)值,頭像中復(fù)雜背景有了明顯的弱化,人臉部分則實(shí)現(xiàn)了保留. 圖6 突觸修剪后X層到Y(jié)層的權(quán)值 表1和表2分別是不帶與帶突觸維護(hù)時(shí)識(shí)別率對(duì)比.由表1和表2可知,加上突觸維護(hù)的發(fā)育網(wǎng)絡(luò)有更好的識(shí)別效果.突觸維護(hù)機(jī)制削弱了圖像中不穩(wěn)定信息,即變化較大的背景部分,而人臉得以保持,這就減少了由于頭像背景的變化造成的識(shí)別誤差,從而提高了識(shí)別率. 3.2多種算法對(duì)比 利用和本文相同的訓(xùn)練集測(cè)試集(每個(gè)人有12副不同的圖片),采用改進(jìn)型反向傳播(back propagation,BP)神經(jīng)網(wǎng)絡(luò)和基于PCA的三階近鄰法以及基于魯棒稀疏表示算法[16]進(jìn)行驗(yàn)證對(duì)比.識(shí)別率情況如表3~5所示.表3和表5中的PCA維數(shù)和特征維數(shù)是特征提取后特征向量的維數(shù).表6為不同方法識(shí)別率的比較. 表1 不帶突觸維護(hù)DN識(shí)別率 表2 帶突觸維護(hù)DN的識(shí)別率 表3 PCA維數(shù)與識(shí)別率的關(guān)系 基于本文圖庫(kù),人臉位于復(fù)雜背景中間,相比領(lǐng)域中熱門(mén)的美國(guó)Yale人臉圖庫(kù)、英國(guó)ORL(olivetti research laboratory)人臉圖庫(kù)更為復(fù)雜,以上3種傳統(tǒng)流行方法提取的特征都含有較多的干擾背景,而稀疏表示算法因測(cè)試樣本是訓(xùn)練樣本的稀疏組合,所以訓(xùn)練樣本中同一人不同背景造成的干擾導(dǎo)致識(shí)別率下降.本研究中,基于突觸維護(hù)的DN算法通過(guò)突觸修剪削弱不斷變化的背景,專(zhuān)注于人臉部分的檢測(cè),魯棒性強(qiáng),最高識(shí)別率能達(dá)到96%以上,其識(shí)別效果明顯優(yōu)于其他4種算法. 表4 BP網(wǎng)絡(luò)訓(xùn)練迭代次數(shù)與識(shí)別率的關(guān)系 表5 稀疏表示算法特征維數(shù)與識(shí)別率的關(guān)系 表6 5種方法識(shí)別率的比較 4結(jié)論 筆者模擬人類(lèi)乙酰膽堿系統(tǒng)和去甲腎上腺素系統(tǒng),提出帶突觸維護(hù)的DN算法,可以弱化復(fù)雜背景,專(zhuān)注于人臉部分識(shí)別.對(duì)比結(jié)果表明,DN網(wǎng)絡(luò)中引入突觸維護(hù)機(jī)制要比不加突觸維護(hù)效果好,并且都優(yōu)于BP網(wǎng)絡(luò)算法、三階近鄰法以及魯棒稀疏表示算法的識(shí)別.本研究仍然存在圖庫(kù)的創(chuàng)建沒(méi)有實(shí)現(xiàn)尺度無(wú)關(guān)性及頭像與背景位置相對(duì)固定的問(wèn)題,筆者將在未來(lái)的工作中繼續(xù)研究. 參考文獻(xiàn): [1]朱長(zhǎng)仁.復(fù)雜背景下的多姿態(tài)人臉識(shí)別技術(shù)研究[D].長(zhǎng)沙:國(guó)防科學(xué)技術(shù)大學(xué)信息與通信工程,2001. [2]王波,劉豐年,陳迎娜. 復(fù)雜背景下人臉檢測(cè)技術(shù)的研究[J].河南機(jī)電高等專(zhuān)科學(xué)校學(xué)報(bào),2010,18(3):39-41. [3]于威威,滕曉龍,劉重慶.復(fù)雜背景下人眼定位及人臉檢測(cè)[J].計(jì)算機(jī)仿真,2004(12):185-187. [4]田春娜.復(fù)雜背景下多視角人臉檢測(cè)與識(shí)別[D],西安:西安電子科技大學(xué)智能信息處理,2008. [5]仲澄,馮濤.復(fù)雜背景下的人臉定位識(shí)別方法[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(1):205-207. [6]何露,王賢明.復(fù)雜背景下基于視頻流的人臉檢測(cè)技術(shù)研究[J].中國(guó)水運(yùn),2010,10(6):80-82. [7]HUANG A M NMF face recognition method based on alpha divergence[C]//Proceedings of the international conference on information engineering and applications (IEA). London: Springer-Verlag,2013:26-28. [8]CHEN S,ZHANG T. A real-time face detection and recognition system for a mobile robot in a complex background[J].Artificial life and robotics,2010,15(4): 439-443. [9]VAIDEHI V, FATHIMA A, TREESA T M. An efficient face detection and recognition system[J].Lecture notes in engineering and computer science, 2011, 21(1): 499-503. [10]王悅凱,吳曉峰.仿大腦視覺(jué)皮層的自主發(fā)育網(wǎng)絡(luò)模型研究[D].上海:復(fù)旦大學(xué)信息與科學(xué)工程學(xué)院,2013. [11]WANG D S, ZHENG G P, LIU L. Developmental network and its application to face recognition [C]//Control & decision conference.Qingdao: IEEE Press, 2015:3360-3365. [12]WENG J Y. Natural and Artificial intelligence, introduction to computation brain-mind[M].Michigan: BMI Press,2012. [13]BEAR M F, CONNORS B W, PARADISO M A. Neuroscience: Exploring the Brain[M].Philadelphia: Lippincott Williams & Wilkins, 2007. [14]MCCANN C M, NGUYEN Q T, NETO H S , et al. Rapid synapse elimination after postsynaptic protein synthesis inhibition in vivo[J].The journal of neuroscience, 2007, 27(22): 6064-6067. [15]YU A J, DAYAN P. Uncertainty neuronal-modulation and attention[J].Neuron, 2005, 46(4): 681-692. [16]DU H S, ZHANG X D, HU Q P, et al. Sparse representation-based robust face recognition by graph regularized low-rank sparse representation recovery [J]. Neurocomputing, 2015, 164: 220-229. Face Recognition with Complex Background Based on Developmental Network WANG Dongshu, ZHENG Guangpu (School of Electrical Engineering, Zhengzhou University, Zhengzhou 450001, China) Abstract:Aiming at the change of light, background and facial expressions in face recognition, this paper constructs a face database with complex background based on the face database of Michigan State University and applies the developmental network (DN) to the two-dimensional face recognition.The synapse maintenance mechanism is introduced to deal with the complex background, which can automatically determine the synapses’ complete removal, partial removal or retention. Moreover, it can weaken the background, strengthen the face and consequently decrease the negative effects of the complex background. Compared with the test results of the traditional methods, DN with the synapse maintenance mechanism can recognize faces with complex background effectively and the recognition rate can reach above 96%. Key words:developmental network; face recognition; complex background; synapse maintenance; recognition rate 收稿日期:2015-04-20; 修訂日期:2015-06-19 基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(61174085) 作者簡(jiǎn)介:王東署(1973—),男,河南鄭州人,鄭州大學(xué)副教授,博士,主要從事機(jī)器人自主發(fā)育研究,E-mail:wangdongshu@zzu.edu.cn. 文章編號(hào):1671-6833(2016)01-0019-05 中圖分類(lèi)號(hào):TP18 文獻(xiàn)標(biāo)志碼:A doi:10.3969/j.issn.1671-6833.201504040 引用本文:王東署,鄭光璞.基于發(fā)育網(wǎng)絡(luò)的復(fù)雜背景下人臉識(shí)別[J].鄭州大學(xué)學(xué)報(bào)(工學(xué)版),2016,37(1):19-23.