張恩豪,陳曉紅
(南京航空航天大學(xué)理學(xué)院,南京,211106)
近幾十年來,人臉識別技術(shù)在日常生活中取得了廣泛應(yīng)用?,F(xiàn)有的人臉識別系統(tǒng)或算法很多都是面對高分辨率(High resolution, HR)或超分辨率(super resolution,SR)的人臉圖像,而在現(xiàn)實生活中,常需要對低分辨率(Low resolution,LR)人臉圖像進行識別[1]。例如:為了社會安全保障和執(zhí)法目的,很多公共區(qū)域安裝監(jiān)控系統(tǒng),由于相機與被攝對象之間的距離較大,所捕獲圖像中的人臉區(qū)域通常較小,導(dǎo)致所捕捉的圖像是LR 人臉圖像。與HR 圖像相比,LR 圖像分辨率比較低,包含更多的噪聲,且所含有的判別信息較少,這在很大程度上影響了傳統(tǒng)人臉識別技術(shù)的性能,因而對LR 人臉圖像的識別成為一種挑戰(zhàn)[2]。
為解決LR 人臉圖像的識別問題,研究者們針對LR 人臉圖像相繼提出眾多算法。早期的算法中,主要采用基于超分辨率(Super resolution,SR)的方法[3?5],將LR 圖像重建得到對應(yīng)的SR 圖像,然后在超分辨率空間中基于SR 圖像進行識別,也被稱為“兩步走”。如:Gunturk 等[6]在低維人臉空間中直接構(gòu)造識別信息,從而實現(xiàn)SR 圖像的重組,大大降低了重建超分辨率圖像的計算復(fù)雜度;Freeman 等[7]提出VISTA?Vision 算法,通過使用逐對馬爾科夫鏈進行SR 圖像重組;Dong 等[8]基于字典學(xué)習(xí)的方法,在LR 和HR 特征空間中通過字典學(xué)習(xí)得到稀疏編碼系數(shù)來生成SR 人臉圖像;Kim 等[9]基于回歸的方法首先學(xué)習(xí)從LR 特征空間到SR 特征空間的映射函數(shù),然后利用學(xué)得的映射函數(shù)重新構(gòu)造SR 人臉圖像?!皟刹阶摺彼惴m然提高了LR 人臉圖像的識別率,但是這些算法的識別對象主要是SR 圖像,忽略了LR本身的特征信息,并且重建SR 圖像會提高算法的時間復(fù)雜度。
針對“兩步走”算法的缺點,Li 等[10]提出了一種無需構(gòu)建SR 圖像的LR 人臉圖像識別新方法,基于聯(lián)合映射(Coupled mapping,CM),將LR 和HR 人臉圖像投影到一致的特征空間中,通過優(yōu)化目標函數(shù)來學(xué)習(xí)CMs;然后基于投影后的訓(xùn)練樣本,采用K 近鄰(K?nearest neighbor,KNN)分類器進行分類。Huang 等[11]提出一種基于典型相關(guān)分析(Canonical correlation analysis,CCA)[12]的超分辨率人臉識別方法,將HR 和LR 人臉圖像的線性相關(guān)性最大化,然后將LR 和HR 圖像特征投影到一致特征空間中。基于CCA 的超分辨率算法比“兩步走”算法獲得更高的識別結(jié)果,但是CCA 本質(zhì)上是一種線性學(xué)習(xí)方法,不能獲得LR 圖像和HR 圖像的非線性關(guān)系。Zhang 等[13]在此基礎(chǔ)上,利用核CCA(Kernel canonical cor?relation analysis,KCCA)[14]學(xué)得 LR 和 HR 圖像的非線性關(guān)系,由徑向基函數(shù)(Radial basis function,RBF)建立LR 和HR 圖像間的非線性投影,進一步提高了LR 圖像的識別能力。
綜上可知,以上算法大都屬于無監(jiān)督學(xué)習(xí),學(xué)習(xí)過程忽略了數(shù)據(jù)所包含的類標號信息,為提取更有利于分類的特征,并克服Huang 和Zhang 等所提出算法的局限性,本文考慮將數(shù)據(jù)的監(jiān)督信息引入到LR 人臉識別算法中,可提取HR 和LR 人臉圖像的有利于分類的低維特征,實驗表明該方法對于LR 人臉圖像的識別效果有所提升。進一步,從多視圖學(xué)習(xí)的角度分析,不同的視圖具有相同的源域,所以不同的視圖間存在潛在的視圖一致性,而這正是多視圖學(xué)習(xí)取得成功的基石[15?16]。本文提出一致判別相關(guān)分析(Consistent discriminant correlation analysis,CDCA)。CDCA 算法同時考慮數(shù)據(jù)的監(jiān)督信息和視圖間的一致性信息,使得所提取的不同視圖的低維特征存在較好一致性。進一步將CDCA 算法融入低分辨率人臉識別框架中,利用CDCA 算法提取LR 和HR 人臉圖像的低維特征,之后利用徑向基函數(shù)和最近鄰算法實現(xiàn)低分辨率的人臉識別。實驗表明,相比于其他算法,該算法有較好的識別結(jié)果和魯棒性,而且隨著所提取的低維特征的維數(shù)和分辨率的不同,該算法有更好的穩(wěn)定性。
CCA 是一種用于建模兩個變量集之間關(guān)系的技術(shù),能夠識別并量化兩組變量之間的關(guān)聯(lián)程度,旨在 最 大 化 兩 個 數(shù) 據(jù) 集 的 低 維 映 射 之 間 的 相 關(guān) 性[12]。 給 定 隨 機 變 量X1=分別表示X1和X2樣本集第i類的第j個樣本,ni表示第i類的樣本數(shù)目。CCA 旨在尋找一組投影矩陣的相關(guān)性最大。不失一般性,假設(shè)兩個視圖的樣本均已中心化,則CCA 的目標函數(shù)定義為
CCA 是從兩視圖數(shù)據(jù)中提取信息的技術(shù),僅適用于線性空間中,而文獻[14]則把核技巧融入CCA得到KCCA。Huang 和Zhang 分別將CCA 和KCCA 算法應(yīng)用到低分辨率人臉識別中,得到了較好的識別效果。
1.2.1 判別信息
在分類學(xué)習(xí)中,各樣本的判別信息非常重要,CCA 和KCCA 的無監(jiān)督特性限制了降維后的可分離性。針對該問題,孫廷凱等[17]在典型相關(guān)分析中融入數(shù)據(jù)的判別信息,得到如下目標函數(shù)
基于尺度不變性,可轉(zhuǎn)化為
式中Cw和Cb分別定義為
因為樣本已經(jīng)中心化,則有X1In=0,X2In=0,則式(3)可轉(zhuǎn)化為
由拉格朗日乘子法易得投影矩陣w1,w2。
1.2.2 視圖一致性信息
因為多視圖數(shù)據(jù)大都是由同一個目標生成的,所以各個視圖間應(yīng)該存在著一定的對應(yīng)關(guān)系。例如:HR 人臉圖像和LR 人臉圖像均來自于同一個人,分別將其定義為X1和X2,則X1和X2存在著某種轉(zhuǎn)換關(guān)系,即存在矩陣R,使得
文獻[16]已證明,投影矩陣w1,w2同樣存在轉(zhuǎn)換關(guān)系
且第i個視圖的投影矩陣wi可以寫為等價形式
式中βi(i=1,2)表示投影矩陣wi(i=1,2)的特征結(jié)構(gòu),由式(4—6)可得
從而有β1=β2,即對于不同的視圖,每個投影矩陣wi(i=1,2)所提取的特征結(jié)構(gòu)βi相同。不失一般性,可以認為對應(yīng)于同一目標的多視圖數(shù)據(jù)有相似的特征結(jié)構(gòu),即不同視圖的投影矩陣是相關(guān)的,這可稱為視圖一致性[15],從而得到描述視圖一致性的函數(shù),有
1.2.3 判別信息與一致性信息結(jié)合
結(jié)合1.2.1 節(jié)和1.2.2 節(jié)的分析,同時考慮數(shù)據(jù)的類信息和視圖間的一致性,得到一致性判別相關(guān)分析。具體而言,就是在目標函數(shù)L1中引入一致性信息,結(jié)合L2得到CDCA 目標函數(shù)
η為平衡系數(shù),式(6)可轉(zhuǎn)化為
式中
將式(11)代入式(9),CDCA 目標函數(shù)可表示為
式中
由拉格朗日乘子法,可得
本節(jié)中給出算法的詳細過程。首先提取HR 和LR 人臉圖像的主成分特征,然后利用CDCA 學(xué)習(xí)HR 與LR 面部特征以提取監(jiān)督信息,再利用RBF 模型構(gòu)建相關(guān)特征之間的非線性映射,最后由KNN分類器進行識別(圖1)。
圖1 算法流程圖Fig.1 Flowchart of algorithm
假設(shè)給定HR 和LR 人臉圖像是來自c個類的n對訓(xùn)練樣本定義為每類的樣本總數(shù)為各個視圖樣本總數(shù)。對于人臉識別而言,通常訓(xùn)練樣本的維數(shù)很高,導(dǎo)致巨大的計算成本。為降低時間復(fù)雜度,首先利用主成分分析(Principal component analysis,PCA)[18]對樣本進行降維。記
式中:BH和BL分別表示由PCA 得到的特征提取矩陣,uH和uL分別表示HR 和LR 人臉圖像訓(xùn)練集的均值表示經(jīng)過PCA 降維后得到的特征向量。記為
為分別探究融入監(jiān)督信息和一致性信息對識別結(jié)果的影響,本文也研究了只融入監(jiān)督信息對識別結(jié)果的影響。首先研究監(jiān)督信息對識別結(jié)果的影響。對得到的新特征矩陣X1和X2(假設(shè)X1和X2已零均值化),由目標函數(shù)L1計算相關(guān)特性,得到如下優(yōu)化問題
通過拉格朗日乘子法轉(zhuǎn)化為廣義特征值問題,可得到投影矩陣w1和w2。其次研究監(jiān)督信息和一致性信息對識別結(jié)果的共同影響。由CDCA 算法計算相關(guān)特性,由式(12)可得
式中
同樣可由拉格朗日乘子法得到投影矩陣W。
在學(xué)習(xí)訓(xùn)練集HR 與LR 的相關(guān)特間的非線性映射關(guān)系時,這個問題可以轉(zhuǎn)化為尋找一個近似函數(shù),建立HR 與LR 人臉圖像的相關(guān)特征之間的映射。RBF 通常用于構(gòu)建這類函數(shù)的近似。徑向函數(shù)是一種取值只依賴于樣本到與原點(或其他中心點)的距離的函數(shù),即φ(x) =φ(‖x‖),‖ · ‖通常指歐式距離。RBF 就是用一組徑向函數(shù)的加權(quán)和來實現(xiàn)某種函數(shù)逼近[19?20]。根據(jù)Huang 的方法[11],利用以下映射建立LR 與HR 人臉圖像相關(guān)特征之間的關(guān)系
在實驗中,如果ΦL不可逆,取ΦL=ΦL+τI,I為單位矩陣,τ為較小的正值,如τ=10-3。由投影矩陣可以得到給定LR 人臉圖像所對應(yīng)的HR 人臉特征圖像,從而實現(xiàn)LR 人臉圖像的識別。
為了驗證所提出方法的有效性,分別在ORL、Multi?PIE 和Yale 人臉數(shù)據(jù)集上進行實驗對比。本文選取了直接使用原始HR 人臉圖像進行識別(HR?PCA),使用LR 人臉圖像進行識別(LR?PCA)、Wang 的方法(PCA?RBF)[5],Huang 的方法(Huang’s method)[11]以及 Zhang 的方法(Zhang’s method)[13]進行了比較。在實驗中,Method(1)是只使用監(jiān)督信息進行的特征提取,而Method(2)是使用CDCA 算法進行的特征提取,加粗字體表示每組實驗的最優(yōu)結(jié)果,括號里的數(shù)表示循環(huán)30 次識別率的方差(方差不足0.01%的記為0.01%)。
ORL 人臉數(shù)據(jù)集,又稱AT&T 人臉數(shù)據(jù)集,包含40 個的不同受試者,其中每人有10 幅不同的圖像,圖像是在不同的時間、不同的照明、面部表情(開/閉著眼睛,微笑/不笑)和面部的細節(jié)(眼鏡/不帶眼鏡)分別拍攝的,圖像為均勻黑色背景的正面人臉(允許有小角度偏離)。實驗中,每次隨機選取每個個體5 個不同的視角作為訓(xùn)練集,剩余的不同視角作為測試集,選擇的HR 圖像為32像素×32 像素,LR 圖像為8像素×8 像素,如圖2 所示。在Zhang’s 的方法中,設(shè)置核參數(shù)為0.9,徑向基函數(shù)中的參數(shù)設(shè)置為2;在使用CDCA 算法提取特征時,設(shè)置參數(shù)η=0.8。表1 列出ORL 人臉數(shù)據(jù)集上各算法在不同特征維數(shù)下的識別率。
圖2 HR/LR 圖像集IFig.2 HR/LR face image I
表1 各算法在ORL 數(shù)據(jù)集上不同特征維數(shù)的識別率Table 1 Recognition rate of different feature dimensions in ORL database %
通過表1 的實驗結(jié)果不難發(fā)現(xiàn),當選取的特征維數(shù)是40 維時,Method(2)的識別率為90.25%,超過直接使用原始HR 圖像進行實驗的識別率89.95%,并且Method(1)和Method(2)的識別率顯著高于其他算法;特征維數(shù)為50 維時,Method(1)和Method(2)的識別率分別是91.60%和93.74%,Method(2)的識別率略高于直接使用原始HR 圖像進行實驗的識別率91.90%;當選取特征為數(shù)位60 維時,Method(1)和Method(2)的識別率分別為97.20%和95.55% 均高于其他算法的識別率。盡管在60 維時,Method(2)的識別率僅有95.55%,但是對于不同的特征維數(shù),Method(2)算法變化幅度不大,說明Method(2)算法相比于其他算法更穩(wěn)定,魯棒性更好。綜上說明提取特征時融入類信息,可提取更有利于分類的低維特征,并且視圖一致性信息的融入能夠提高算法的魯棒性。
Multi?PIE (Pose illumination and expression) 數(shù)據(jù)集被用來評估面部識別的姿態(tài),它包含了75 萬張不同視圖下的337 個人的人臉圖片。研究對象在15 個視角和19 個光照條件下拍攝了一系列面部表情,此外還獲得了高分辨率的正面圖像。在實驗中,選取30 個的不同受試者,其中選取每人的10 幅不同的圖像,共300 張灰度圖像進行實驗,每次隨機選取每個個體的5 張人臉作為訓(xùn)練集,剩余圖像作為測試集,選擇的 HR 圖像為 32像素 × 32 像素,LR 圖像為 11像素 × 11 像素。表2 列出各算法在 Multi?PIE 人臉數(shù)據(jù)集對于不同PCA 特征維數(shù)(30 維,40 維和50 維)下的實驗結(jié)果。同3.1 節(jié)的實驗結(jié)果相似,Meth?od(2)算法在特征維數(shù)較低時,有較好的識別結(jié)果,當選取的PCA 特征維數(shù)較高時,Method(1)算法有較好的識別結(jié)果。說明當特征維數(shù)較低,判別信息和視圖一致性的融入,能夠顯著提高識別結(jié)果。盡管當特征維數(shù)為50 維時,Method(2)的識別率僅有93.67%,但是可以看出Method(2)算法隨著特征維數(shù)的增加,變化比較穩(wěn)定,并且在低維情況下相比于其他算法有更好的識別結(jié)果,說明在低維情況下,CDCA算法能更充分利用數(shù)據(jù)本身的特征信息。
表2 各算法在Multi?PIE 數(shù)據(jù)集上不同特征維數(shù)的識別率Table 2 Recognition rate of different feature dimensions in Multi?PIE database %
Yale 人臉數(shù)據(jù)集包含15 個的不同受試者,其中每人有11 幅不同的圖像,共165 張灰度圖像,圖像是在不同的面部表情和環(huán)境下拍攝的。實驗中,每次僅隨機選取每個個體的5 張人臉作為訓(xùn)練集,另外任選5 張人臉作為測試集,該實驗中選擇的HR 圖像為32像素×32 像素,LR 圖像的分辨率分別為9像素×9像素、10像素×10像素、11像素×11像素。實驗?zāi)康氖茄芯坎煌直媛实腖R 人臉圖像對各算法識別率的影響,圖3 列出了實驗需要的部分HR 和LR 人臉圖像。實驗中,在Zhang’s 的方法中,設(shè)置核參數(shù)為1.06,徑向基函數(shù)中的參數(shù)設(shè)置為2,CDCA 算法參數(shù)設(shè)置為0.01。表3 列出在Yale 人臉數(shù)據(jù)集上各算法在不同分辨率下的識別率。由表3 容易發(fā)現(xiàn),當選取的分辨率是9 像素×9 像素時,Meth?od(1)的識別率為95.89%,顯著高于其他算法的識別率;分辨率為10 像素×10 像素時,Method(1)和Method(2)的識別率分別為98.93%和97.91%,顯著高于其他算法的識別率;當選取分辨率為11像素×11像素時,Method(2)的識別率達到99.64%均高于其他算法的識別率。容易發(fā)現(xiàn),當所選取的人臉圖像分辨率相同時,Method(1)和Method(2)的識別率優(yōu)于其他算法。
圖3 HR/LR 圖像集IIFig.3 HR/LR face image II
表3 各算法在Yale 數(shù)據(jù)集上不同分辨率下的識別率Table 3 Recognition rate of each algorithm at different resolutions on Yale database %
在優(yōu)化求解CDCA 算法時,參數(shù)η可能會影響實驗效果,所以該實驗主要考察參數(shù)η對實驗結(jié)果的影響。實驗中,通過對Multi?PIE 和Yale 數(shù)據(jù)集上Method(2)算法設(shè)置不同的參數(shù)η值,觀察識別率的變化情況。表4 和表5 分別是在Multi?PIE 和Yale 數(shù)據(jù)集上,不同參數(shù)對識別率的影響情況。實驗中選取的HR 圖像為32像素×32 像素,LR 圖像為11像素×11 像素,所提取的PCA 特征維數(shù)是90 維。
表4 Multi?PIE 數(shù)據(jù)集上不同參數(shù)對識別率的影響Table 4 Effect of different parameters on the Multi?PIE database
表5 Yale 數(shù)據(jù)集上不同參數(shù)對識別率的影響Table 5 Effect of different parameters on the Yale database
由表4 和表5 可以得到,識別率隨著參數(shù)值的增大呈遞增的趨勢。在Multi?PIE 和Yale 數(shù)據(jù)集上,當參數(shù)值分別為0.2 和3.0 時,識別率達到最大,之后識別率隨著參數(shù)值的增大趨于穩(wěn)定。容易發(fā)現(xiàn),識別率的變化隨著參數(shù)的改變波動不大,說明該算法比較穩(wěn)定,魯棒性較好。圖4 給出了在Multi?PIE 和Yale 人臉數(shù)據(jù)集上,Method(2)算法的識別率隨著參數(shù)值變化趨勢圖。
圖4 識別率隨參數(shù)值變化趨勢圖Fig.4 Trend chart of recognition rate with parameter value
本節(jié)通過實驗分析,驗證本文所提出算法的優(yōu)越性。在3.1 節(jié)和3.2 節(jié)中,分別在ORL 和Multi?PIE人臉數(shù)據(jù)集上進行實驗,目的是為探究當提取的LR 人臉圖像的特征維數(shù)不相同時,對實驗結(jié)果的影響。實驗表明本文所提出的算法在不同特征維數(shù)下均有較好的識別率;在3.3 節(jié)中,通過在Yale 人臉數(shù)據(jù)集上實驗,研究了各算法在不同分辨率的LR 人臉圖像的識別效果,實驗表明本文提出的算法在不同分辨率的LR 人臉圖像上有較好的識別結(jié)果;在3.4 節(jié)中,通過對Multi?PIE 和Yale 數(shù)據(jù)集上設(shè)置不同的參數(shù)值,觀察Method(2)算法對LR 人臉圖像識別率的變化情況,實驗表明識別率的變化隨著參數(shù)的改變波動不大,說明該算法比較穩(wěn)定,魯棒性較好。
本文在CCA 的基礎(chǔ)上,同時考慮數(shù)據(jù)的判別信息和視圖間的一致性,提出CDCA 算法;并針對LR人臉圖像識別率較低的問題,提出基于CDCA 的低分辨率人臉識別算法。在LR 人臉識別算法中,利用CDCA 獲取HR 與LR 人臉圖像整體特征之間的相關(guān)子空間,之后利用RBF 和KNN 分類器進行人臉識別。本文所提出的算法不僅利用數(shù)據(jù)的標簽信息,而且考慮了視圖間一致性信息。實驗表明,與其他低分辨率人臉識別算法相比,本文提出的方法在不同的數(shù)據(jù)集下有較高的識別率和更好的魯棒性。CDCA 是從雙視圖數(shù)據(jù)中提取特征的算法,僅適用于線性空間中;在非線性情況下可以參考文獻[21?23]中的方法,將該算法拓展到非線性空間中,從而可以提取HR 與LR 人臉圖像特征之間的非線性關(guān)系,進一步提高識別率;針對CDCA 僅適用于雙視圖數(shù)據(jù)的問題,可以利用文獻[24?26]的方法將CDCA算法推廣到多個視圖。