趙雪章,丁 犇,席運江
(1.佛山職業(yè)技術(shù)學院 電子信息學院,廣東 佛山 528137;2.華南理工大學 經(jīng)濟管理學院, 廣州 510641)
隨著計算機科技的發(fā)展,人臉識別技術(shù)在安防、教育、電子商務、金融等領(lǐng)域有著非常廣泛應用,已經(jīng)滲透到到人們的方方面面當中。人臉識別容易受到遮擋、光照、多姿態(tài)性、表情變化等因素的影響,這些不確定因素提高了人臉識別的難度。其中稀疏表示由于具有遮擋和腐蝕的干擾具有非常好的魯棒性,以及對特征的選擇不敏感等優(yōu)點,被Wright[1]等人首次應用到人臉識別問題中,先直接使用所有訓練祥本對測試樣本進行線性表示,再通過最小重構(gòu)誤差對測試樣本進行分類,特別是當測試樣本有損壞或遮擋時,SRC方法依然有出色的分類性能,但當SRC線性組合的樣本維數(shù)比較高時,時間復雜度大大増加。為解決這個問題,Hui和Ortiz等人[2-3]將SRC和線性嵌入思想相結(jié)合,提出基于線性近似的稀疏表示分類方法,在進行稀疏優(yōu)化前,先利用線性回歸對訓練樣本進行篩選,從而加快稀疏分解減少計算時間。另外的解決辦法就是利用字典學習提高稀疏分解效率,利用字典學習可以獲得信息量大但規(guī)模小的字典,字典原子個數(shù)遠小于原始訓練樣本。2010年Zhang等人[4]提出具有鑒別性的D-KSVD算法,主要思想是在K-SVD算法的基礎(chǔ)上引入分類誤差項,該算法特點是學習到的字典具有鑒別能力;與此類似,Jiang等人[5]提出具有標簽一致性約束的LC-KSVD算法,該算法是在K-SVD算法的基礎(chǔ)上利用訓練樣本的標簽信息,由于存在標簽約束項使得同類訓練樣本的編碼系數(shù)具有相似性,鑒別能力有較大的提高,但字典學習方法主要將重點集中在突出訓練樣本的編碼系數(shù)或標簽信息及字典原子的鑒別信息,忽略了訓練樣本的多樣性,并且使用稀疏約束得到稀疏編碼系數(shù)矩陣,計算效率不高。
所以協(xié)同表示分類被研究者提上日程,Zhang[6]等人于2011年提出基于2范數(shù)約束的協(xié)同表示分類(CRC)方法,這一方法表明SRC成功的根本原因不是稀疏約束,實際上是協(xié)同表示機制(CR),此外還具備較為迅速的計算速度,更符合實際情況。盡管CRC方法對于CR機制在分類方面的高效性作出較為合理的解釋,然而其幾何解釋存在較為顯著的難點。因此Cai[7]等人在2016年提出了基于概率協(xié)同表示的分類方法(ProCRC),從概率角度解釋協(xié)同表示機制的分類原理。Lan等人[8]在此的基礎(chǔ)上又提出通過提取訓練樣本的先驗知識來提升分類性能的ProCRC方法(PKPCRC)。Yuan等人[9]提出協(xié)同競爭表示分類方法(CCRC),利用不同類別的訓練樣本來競爭表示測試樣本,通過競爭表示項針對表示、分類完成融合的過程,由此能夠?qū)Ψ诸惞δ苓M行具有針對性的優(yōu)化。CRC方法卻是以全局表示為基礎(chǔ)的一種分類方式,通過全部訓練樣本完成線性組合的做成從而不斷逼近測試樣本,因此有很多和測試樣本類別存在區(qū)別的訓練樣本,造成測試樣本分類錯誤的可能性很強,此外在實際情況下因為訓練樣本的具體數(shù)目并非無限的,通過整體特征無法對光照變化、各種姿勢表情等多種局部信息發(fā)生的變更進行良好的處理。
所以以局部特征為核心的分類算法被有關(guān)領(lǐng)域的研究人員予以高度重視,比如Gabor小波[8]這一性能優(yōu)良的特征提取器,能夠針對大腦皮層中存在的單細胞感受野對應的輪廓進行模擬,捕捉目標圖像特定區(qū)域內(nèi)的多位置多尺度多方向空間頻率特性,從而能更好的克服光照、姿態(tài)和表情等全局干擾對識別效果的影響。除此之外,Akhtar等相關(guān)研究人員[9]通過大量研究結(jié)果指出,若針對協(xié)同表示系數(shù)對應的稀疏性進行提升,可以對分類功能的性能進行合理優(yōu)化與改進。Yang等人[10]提出先對圖像局部特征提取,然后通過學習編碼得到具有Gabor特征的閉塞字典的方法提高了SRC識別準確率也減少了計算量;Hu等人[11]提出了判別式字典學習的稀疏表示識別算法,結(jié)合Fisher判別Gabor特征字典的學習得到字典原子對應類別標簽的結(jié)構(gòu)化字典,該典中特定類的子字典對相關(guān)的類的表示能力較好。
綜上所述,此次研究提出以Gabor特征與加權(quán)協(xié)同表示為核心的人臉識別算法。在最開始的步驟中,必須針對人臉圖像內(nèi)所包含的各個尺度以及方向的Gabor特征完成提取的過程,初始特征樣本字典實際上屬于增廣Gabor特征矩陣,并對其完成學習的過程,從而獲得訓練樣本子字典,再在CRC方法中將樣本對應的局部信息進行引入,從而進一步得到Gabor特征以及加權(quán)的協(xié)同表示分類方法[12-14]。
Gabor 最早提出了將信號加窗后再進行傅里葉變換,當窗口函數(shù)取高斯函數(shù)時傅里葉變換就被稱作為Gabor變換;Grbor變換可以從不同頻率鄰域及不同尺度方向上對圖像進行處理,所以該方法通常在信號處理領(lǐng)域用來提取圖像的紋理特征。在實際實踐過程中一般采用Gabor變換作為線性濾波器在圖像特征提取過程中對輸入的圖像樣本進行小波變換,然后利用Gabor小波與圖像進行卷積操作進而得到圖像樣本的Gabor特征。該特征在頻率鄰域和空間領(lǐng)域都具有良好的特性,能夠較好地描述圖像的空間頻率、空間位置以及方向的局部特征信息。由于Gabor小波具備了這些特性,研究者經(jīng)常利用它的多分辨特性對人臉圖像進行局部特征的提取并增加系統(tǒng)的魯棒性。
Daugman首次在二維空間結(jié)合小波理論進行Gabor變換,將一維Gabor濾波推廣到二維構(gòu)造出二維Gabor小波。
二維Gabor濾波器定義如下:
(1)
在實踐中通過Gabor函數(shù)與圖像I的卷積得到人臉圖像I=(x,y)的人臉圖像,對于任一像素點z0(x0,y0),Gabor小波變換描述出點局部區(qū)域的圖像特征,卷積過程定義為:
(2)
其中:*表示卷積,Ομ,ν(z0)表示在點z0(x0,y0)處的卷積值,通常如果對方向參數(shù)μ和尺度參數(shù)ν進行改變,就提取到不同方向下的多尺度局部特征,由各個不同像素點組成的集合,就構(gòu)成了圖像I=(x,y)的Gabor小波特征[16]。
公式(2)可以寫為:
Ομ,ν(z0)=Mμ,ν(z0)·exp(iθμ,ν(z0))
(3)
Mμ,ν(z0)為幅值,θμ,ν(z0)為相位,幅值部分主要涵蓋了圖像局部能量的各種變化信息,所以圖像特征對應的描述是經(jīng)過變換過程的幅值。利用公式(2)完成卷積運算,基于像素點z0(x0,y0)進一步獲取a×b個值,Gabor特征對應的維數(shù)較高,所以針對獲取的幅值Mμ,ν(z0)首先需要針對單位方差利用均衡下采樣同時完成歸一化到零均值的過程,再進一步將其通過列進行連接,進一步組成Gabor小波特征向量[17-20],表示為:
χ=[Gabor1(z0),Gabor2(z0),…,Gabora×b(z0)]T
(4)
χ是一個局部特征描述子。
稀疏表示分類是指將測試圖像表示為訓練樣本的線性組合,然后用l1或l2范數(shù)對保真度項進行編碼,由Wright[1]等人提出的SRC方法作為稀疏理論的代表性成果,通過全部樣本訓練進一步共同構(gòu)成字典原子,所對應的目標函數(shù)為公式(5):
(5)
其中:λc為平衡參數(shù),α所指代的是系數(shù),在系數(shù)α被計算出來后,測試樣本便能夠通過分類被納入最小殘差值的訓練樣本的范圍,可利用公式(6)進行分類:
(6)
其中:αi是第i類訓練樣本的表示系數(shù)。將SRC方法中目標函數(shù)的l1范數(shù)用l2范數(shù)代替,便是CRC方法[21-23]。CRC方法的函數(shù)公式為:
(7)
其中:β為表示系數(shù),式(7)的解析解可用式(8)表示:
β=(XTX+λcI)-1XTy
(8)
在分類時各類訓練樣本的殘差項和表示系數(shù)均含有鑒別信息[24-27],都可以用來分類,分類規(guī)則為:
(9)
其中:βi是第i類訓練樣本的表示系數(shù)。
在實踐中,樣本矩陣X中的列向量具有線性相關(guān)性,由此能夠讓矩陣XTX不斷與奇異相接近,進一步造成矩陣內(nèi)部對角線對應的值較高;此外所有樣本及其鄰近樣本都有可能是同種類型,其表示系數(shù)具有較強的相似程度。Timofte等相關(guān)研究人員[9]以CRC方法為基礎(chǔ),進一步提出了WCRC方法[12-14],其目標函數(shù)公式如下:
(10)
γ=(XTX+λwcWTW)-1XTy
(11)
根據(jù)公式(12)計算出WCRC方法的表示系數(shù)γ后,對測試樣本y進行分類,分類規(guī)則為:
(12)
其中:γi是第i類訓練樣本的表示系數(shù)。
此次研究選擇通過OMP算法[24]來完成對測試樣本y所對應的稀疏系數(shù)α的計算過程。在這種情況下,增強加權(quán)所對應的表示系數(shù)如下:
(13)
ζ為增強系數(shù)。
假設(shè)L={l1,l2,…,lM}類樣本,用m維向量表示每幅人臉圖像特征,這里的向量已經(jīng)過Gabor小波提取的特征向量。每個已標記類別的人臉樣本數(shù)為n1,n2,…,nM,所以ci類別的ni幅人臉圖像經(jīng)Gabor提取后得到ni個m維的特征向量,那么標簽矩陣則能夠表示為Di=[di,1,di,2,…,di,n]∈Rm×n,測試樣本表示為y∈Rm×1。
針對第i類樣本Xi分布主要集中于標簽矩陣Di的第i行,標簽矩陣Di中所包含的非0元素數(shù)目為ni個。因此向量?=Dζ所包含的第i個元素?i從本質(zhì)上來看是i類訓練樣本Xi中所涵蓋的所有表示系數(shù)ζi的和[25-27]。向量?中包含的值能夠作為所有訓練樣本中分類對應的得分值。所以測試樣本y所對應的類別標簽能夠通過利用得分向量?內(nèi)存在的最大值而確定。
此次研究的方法主要依據(jù)如下若干個步驟:
1) 根據(jù)式(1)~式(3)對每幅待識別的人臉圖像進行Gabor小波變換,通過計算而獲取的Gabor特征值先利用均衡下采樣的方式并完成歸一化至零均值的單位方差這一過程,再進一步以列為依據(jù)將其進行連接,進一步組成Gabor小波特征向量。
2) 通過OMP算法計算SRC方法的稀疏系數(shù)α[21];
3) 利用公式(10)得出WCRC方法的表示系數(shù)γ;
4) 利用公式(12)得出增強系數(shù)ζ;
5) 計算WCRC方法測試樣本y的分類向量?=Dζ;
為了驗證本文方法在人臉檢測方面的性能,本文將在不同情況下作三組對比測試,實驗1是不同數(shù)量測試樣本訓練識別,實驗2是在Yale、Extended Yale B與AR數(shù)據(jù)庫,實驗3是人臉不同角度變化的測試。所有方法均在CPU為Inter Core i7-9700@4.9GHz,內(nèi)存16G,操作系統(tǒng)為64位,Matlab2019a下進行。
本組實驗是在LFW人臉數(shù)據(jù)庫隨機采集400個對象,由10種不同的代表一個人臉姿態(tài)的標簽所組成,圖像不對光照進行限制以驗證實驗對光照的魯棒性。
在 LFW人臉數(shù)據(jù)庫中分別選取數(shù)量為 50、100、200 和 400 個圖像樣本進行訓練及測試,識別率見表1。
表1 不同數(shù)量訓練樣本的識別率
從表1中可以看出,對不同數(shù)量測試樣本進行實驗均可以達到較好的識別率及穩(wěn)定性。
3.2.1 在Yale人臉數(shù)據(jù)庫的實驗
Yale人臉數(shù)據(jù)庫由耶魯大學著名的計算視覺與控制中心創(chuàng)建,數(shù)據(jù)庫由15個受拍者每個人拍攝11張圖片共165張人臉圖像組成,所有人臉圖像都以分辨率為100*100像素GIF格式存儲的灰度圖,這些人臉在拍攝時有較大的光照變化、姿態(tài)變化以及表情變化。
實驗用的所有人臉圖像被裁剪并采樣為25*25像素,每個人隨機選擇8張人臉圖像作為訓練樣本,其余的用作測試樣本。在Yale人臉數(shù)據(jù)庫中的實驗都重復20次,SRC方法誤差閾值η設(shè)為0.05。CRC方法與本文方法中平衡參數(shù)λc、λwc均為0.001,σ為0.4。
從表2中,支持向量機、稀疏表示分類、協(xié)同表示分類、融合表示分類與本文方法的識別率的比較可以看出,其他算法的識別率都高于支持向量機分類方法,說明稀疏表示分類在識別性能方面比支持向量機分類更優(yōu)越;本文算法識別效率最優(yōu),主要利用訓練樣本的標簽矩陣與測試樣本的增強系數(shù)相乘得出分類分值,所以具有較高的分類效率,識別效率比支持向量機分類方法快10倍左右。
表2 在Yale中的識別率及測試時間
3.2.2 在Extended Yale B數(shù)據(jù)庫實驗
Extended Yale B人臉數(shù)據(jù)庫也由耶魯大學創(chuàng)建,庫中包含38人共2 414張灰度格式的人臉圖像,人臉圖像存在大量的光照變化,大小為192*168像素。SRC方法誤差閾值η設(shè)為0.05。CRC方法與本文方法中平衡參數(shù)λc、λwc均為0.001,σ為0.4。所有方法在Extended Yale B人臉數(shù)據(jù)庫中都單獨運行10次。并計算出平均識別率和單個測試樣本進行識別的平均測試時間。
此次實驗在AR數(shù)據(jù)庫內(nèi)選擇一個子集,涵蓋的圖像中男性受試者人數(shù)為50名,女性受試者人數(shù)也為50名。
表3是通過Gabor小波變換對樣本集進行PCA降維后特征維數(shù)d=300時的結(jié)果,可以得到本文算法取得了最高的識別率,而且是SRC分類效率的4倍,原因是本文算法在降低特征維數(shù)的時保留原空間的最有效信息,從而保持較好的識別性能,并且降低了計算復雜度,具有較高的分類效率。
表3 在Extended Yale B中的識別率及測試時間
3.2.3 在AR人臉數(shù)據(jù)庫的實驗
AR人臉數(shù)據(jù)庫于1998年由西班牙巴塞羅納計算機視覺中心建立,累計人數(shù)為126人,具有超過四千張的彩色圖像。拍攝此類圖像需要經(jīng)歷兩個階段,分別是將環(huán)境中的所有表情變化進行搜集、對若干種光照條件以及遮擋是否存在變化進行檢測,人臉圖像的尺寸等于165*120像素,σ等于0.5。在AR數(shù)據(jù)庫中一個子集進行測試,包括50名男、女共2 600張圖像,每張圖像隨機投影到向量空間中。每人隨機選10張人臉圖像為訓練樣本,剩余為測試樣本。SRC方法的誤差閾值為0.05,CRC方法的正則平衡參數(shù)與本文方法相同λc、λwc均為0.001。所有方法在AR人臉數(shù)據(jù)庫中都單獨運行10次。并計算出平均識別率和單個測試樣本進行識別的平均測試時間。
從表4中可以看出,提出的方法可以獲得更高的面部識別率,此外,在魯棒性方面也較強,比經(jīng)典的SRC算法錯誤識別率大約降低58%,而且識別速度得到顯著提高,說明本文算法表示思路的合理性。
表4 在AR中的識別率及測試時間
FERET人臉數(shù)據(jù)庫由美國國防部商級研究計劃局創(chuàng)建,包含1萬多張人臉灰度圖像,這些人臉圖像在各種光照條件、多種臉部角度及各種面部表情的情景下拍攝。主要選擇FERET人臉數(shù)據(jù)庫的一個常用姿態(tài)庫子集對頭部不同角度變化問題進行測試,該數(shù)據(jù)集由200個受拍者共1 400張人臉圖像組成,每人7張人臉圖像,3幅為正面圖像,4幅為各種角度圖像,分別標記為“ba、bj、bk、be、bf、bd、bg”。實驗中每張人臉圖像都被采樣到40*40像素。我們進行5組不同姿態(tài)角度的測試,在實驗1(姿態(tài)角度0°),每一類圖像中前1-2的圖像作為訓練樣本,每人人臉圖像第3個的為測試樣本;剩余的4組實驗中,前1~3的圖像為訓練樣本,然后分別用bg(-20°)、bf(-15°)、be(+15°)、bd(+25°)作為測試樣本,取得人臉不同角度下的識別結(jié)果。在實驗中通過Gabor小波變換對對樣本集進行PCA降維后特征維數(shù)d=300。參數(shù)設(shè)置與前面相同。
圖1給出了不同算法在人臉不同角度下的識別率,從圖中可以得到,當人臉角度偏轉(zhuǎn)不大的情況下(0°±15°),支持向量機算法對角度變化很敏感;隨著偏轉(zhuǎn)角度的增大,當角度變化較大時(達到±25°),所有的算法的識別率都明顯下降,但本文的算法仍然高于其他算法。本文算法Gabor特征描述圖像局部信息的優(yōu)點,顯著地提高了識別率,本文算法相比其他算法更好的克服了人臉角度變化的影響。實驗結(jié)果表明本文算法在姿態(tài)變化不大的情況下顯著的提高了識別效果,在實際中具有一定的實踐價值。
圖1 FERET人臉數(shù)據(jù)庫算法結(jié)果
本文所選的算法在FERET人臉數(shù)據(jù)庫測試中都有隨著訓練樣本和測試樣本數(shù)量的增加而識別率下降的問題出現(xiàn),這有可能與選擇訓練樣本方式有關(guān),更為合理的應當是采用隨機選取方法,后期將在FERET人臉數(shù)據(jù)庫的訓練樣本加入隨機策略方式進行驗證。而且本文提出的算法需要確定3個參數(shù),分別是權(quán)重參數(shù)σ和正則項平衡參數(shù)λ及SRC方法誤差閾值η。經(jīng)過研究本文方法對兩個參數(shù)不敏感,但當誤差閾值為0.05和正則項平衡參數(shù)λ=0.001時,文本方法的識別率達到最佳數(shù)據(jù)。
本文提出了一種基于Gabor特征與加權(quán)協(xié)同表示的人臉識別算法,先提取人臉圖像多尺度多方向的Gabor特征,將增廣Gabor特征矩陣作為初始特征樣本字典,對該特征字典進行學習,形成訓練樣本子字典,與協(xié)同表示分類相比,由于考慮樣本的局部信息和表示系數(shù)的稀疏性,這樣使得協(xié)同表示分類中較為“稠密”的表示系數(shù)的稀疏性增強,系數(shù)的表示能力得到提升,降低重構(gòu)誤差,使得以本文算法為核心的人臉圖像識別算法在Yale人臉數(shù)據(jù)庫、Extended Yale B和AR人臉數(shù)據(jù)庫的實驗中都取得最高識別率和較短的分類時間,具有一定的實踐價值。但在現(xiàn)實應用中,人臉存在姿態(tài)變化、光亮度變化及遮擋等因素,使訓練及測試樣本同時被噪聲影響,未來會針對訓練樣本由于受到污損或遮擋的情況進行研究,提高抗噪能力。