李云紅,劉杏瑞,謝蓉蓉,蘇雪平,張蕾濤,拜曉樺
(西安工程大學(xué) 電子信息學(xué)院,陜西 西安 710048)
人臉識別技術(shù)是機(jī)器視覺和模式識別領(lǐng)域的一個(gè)研究熱點(diǎn),廣泛應(yīng)用于人機(jī)交互、公共安全和信息安全等領(lǐng)域[1]。比較典型的人臉識別技術(shù)有基于模板匹配的人臉識別法[2]、基于特征臉的人臉識別法[3]、基于隱馬爾可夫模型的人臉識別法[4]和基于神經(jīng)網(wǎng)絡(luò)的人臉識別法[5]。因?yàn)榈头直媛蕡D像具有的人臉特征信息量小、噪聲多、可利用識別的像素點(diǎn)和圖像特征少等因素,低分辨率人臉識別比高分辨率人臉識別更加困難[6]。
關(guān)于低分辨率人臉識別,Freeman等人提出單通道超級分辨率算法,只需要在訓(xùn)練集中對采自本地圖像數(shù)據(jù)的每個(gè)斑塊的向量進(jìn)行最近鄰搜索[7]。肖哲構(gòu)建了高、低分辨率對應(yīng)的人臉數(shù)據(jù)集,學(xué)習(xí)低分辨率數(shù)據(jù)集中相應(yīng)高低分辨圖像的局部像素結(jié)構(gòu),通過學(xué)習(xí)到的知識對圖像重建獲得高分辨率圖像[8];Hennings-Yeomans等人將超分辨率重建和人臉識別同時(shí)進(jìn)行[9];馬博宇對高分辨率基準(zhǔn)集圖像進(jìn)行下采樣操作,獲取到對應(yīng)的低分辨率基準(zhǔn)集后,再將低分辨率的測試樣本集和低分辨率的基準(zhǔn)集的人臉圖像特征進(jìn)行對比,得出最后的分類識別結(jié)果[10];范文豪通過在保持特征類內(nèi)距離的情況下,增大類間距離,提高模型的泛化能力[11];Choi等人通過最小化高、低分辨率特征重構(gòu)產(chǎn)生的誤差,在低分辨率特征子空間中進(jìn)行人臉識別[12];Lei等人提出了基于局部頻域的人臉特征提取方法[13]。根據(jù)高、低分辨率圖像空間特征維度不匹配的特點(diǎn),低分辨率人臉圖像識別大致分為“間接”超分辨(super-resolution,SR)與“直接”的公共特征子空間法兩類[14]。研究表明,圖像超分辨重建在人臉監(jiān)控和識別等領(lǐng)域具有重要的應(yīng)用價(jià)值[15]。
針對超分辨方法識別精度不高和公共特征子空間方法無法重建低分辨率的高分辨率圖像的問題,本文結(jié)合超分辨法與公共子空間法,在InSRNet超分辨網(wǎng)絡(luò)基礎(chǔ)上,提出一種基于生成對抗網(wǎng)絡(luò)的低分辨率人臉識別網(wǎng)絡(luò)InGLRNet,通過InGLRNet網(wǎng)絡(luò)與CLPMs、MDS、Deep-Face和Face-Net經(jīng)典的4種低分辨率人臉識別方法進(jìn)行對比實(shí)驗(yàn),驗(yàn)證InGLRNet網(wǎng)絡(luò)在低分辨率人臉圖像識別上的準(zhǔn)確性和有效性。
基于超分辨方法可重建高質(zhì)量圖像的功能和公共子空間方法的高識別性能,設(shè)計(jì)了一種基于生成對抗的低分辨率人臉識別網(wǎng)絡(luò)InGLRNet,圖1為InGLRNet人臉識別網(wǎng)絡(luò)總框架。此網(wǎng)絡(luò)由生成網(wǎng)絡(luò)(generator)和判別網(wǎng)絡(luò)(discriminator)構(gòu)成。生成網(wǎng)絡(luò)實(shí)現(xiàn)低分辨人臉圖像的超分辨功能,將低分辨率人臉樣本集輸入生成網(wǎng)絡(luò),可以生成高分辨率的人臉圖像樣本,并將生成的高分辨率樣本集的特征傳遞給判別網(wǎng)絡(luò)。然后,通過特征提取網(wǎng)絡(luò)將高分辨率基準(zhǔn)集圖像特征傳遞給判別網(wǎng)絡(luò),最終由判別網(wǎng)絡(luò)通過生成樣本來自基準(zhǔn)集的概率判斷生成樣本的真與假。
生成網(wǎng)絡(luò)由超分辨網(wǎng)絡(luò)InSRNet和特征提取網(wǎng)絡(luò)(feature-extraction,FECNN)構(gòu)成。圖2是生成網(wǎng)絡(luò)結(jié)構(gòu)圖,超分辨InSRNet網(wǎng)絡(luò)將輸入的低分辨率樣本圖像生成超分辨率SR(super-resolution)結(jié)果,再由特征提取網(wǎng)絡(luò)FECNN完成特征提取。
針對超分辨率卷積神經(jīng)網(wǎng)絡(luò)(super-resolution convolutional neural network,SRCNN)網(wǎng)絡(luò)層數(shù)較少、感受野較小等不足,設(shè)計(jì)超分辨InSRNet網(wǎng)絡(luò),InSRNet在增加卷積層的同時(shí),采用Inception結(jié)構(gòu)加深網(wǎng)絡(luò),減少了網(wǎng)絡(luò)參數(shù),增加殘差網(wǎng)絡(luò)的旁路輸出以減輕梯度消失問題。
鑒于超分辨網(wǎng)絡(luò)中輸入的低分辨率圖像可利用像素點(diǎn)較少,InSRNet網(wǎng)絡(luò)在Inception的結(jié)構(gòu)中將卷積核為3×3的卷積層整體替代為3個(gè)分別為1×3、3×1和1×1的小卷積操作,減少了網(wǎng)絡(luò)模型參數(shù)量,提高了網(wǎng)絡(luò)運(yùn)行速度。此網(wǎng)絡(luò)中Inception結(jié)構(gòu)選用的是v2版本,相對于v1版本,v2版本擁有更優(yōu)秀的性能和更少的參數(shù)量[16]。在生成網(wǎng)絡(luò)中,InSRNet網(wǎng)絡(luò)串聯(lián)的3個(gè)residual block結(jié)構(gòu)相同,完成低分辨率圖像的特征映射。
圖1 InGLRNet人臉識別網(wǎng)絡(luò)總框架圖
圖2 生成網(wǎng)絡(luò)結(jié)構(gòu)圖
為了有效地對生成圖像和高分辨率基準(zhǔn)圖像的特征進(jìn)行表征,本文以VGG網(wǎng)絡(luò)結(jié)構(gòu)為模板,設(shè)計(jì)了特征提取網(wǎng)絡(luò)FECNN。FECNN是在VGG的基礎(chǔ)上,刪除了最后2個(gè)全連接層,以此來更好地完成特征提取。使用傳統(tǒng)的雙三次插值方法獲得所需的分辨率與尺寸,最后一層的輸出是具有4 096個(gè)元素的特征向量。
FECNN網(wǎng)絡(luò)的結(jié)構(gòu)對超分辨網(wǎng)絡(luò)InSRNet生成的超分辨SR結(jié)果進(jìn)行特征提取,同時(shí)對高分辨率基準(zhǔn)圖像集的特征提取。當(dāng)它的輸入是高分辨率的基準(zhǔn)圖像集時(shí),作用是將高分辨率圖像的特征提取并傳輸?shù)脚袆e網(wǎng)絡(luò)中,以便判別網(wǎng)絡(luò)判斷真假。FECNN將高分辨率圖像映射到公共空間,生成網(wǎng)絡(luò)將低分辨率圖像映射到該公共空間,構(gòu)成了判別網(wǎng)絡(luò)的雙輸入。
在生成網(wǎng)絡(luò)的訓(xùn)練中,得到了生成網(wǎng)絡(luò)提取到的超分辨率SR結(jié)果的特征,以及特征提取網(wǎng)絡(luò)FECNN提取到的高分辨率圖像HR(high-resolution)的特征。將提取到的特征輸入到判別網(wǎng)絡(luò)中,由判別網(wǎng)絡(luò)負(fù)責(zé)將提取到的特征投影到一個(gè)公共空間中,通過損失函數(shù)匹配特征的同時(shí),判斷生成圖像的真假。圖3是判別網(wǎng)絡(luò)結(jié)構(gòu)圖,判別網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)回歸到原始的卷積網(wǎng)絡(luò),由前4層卷積層以及后兩層的全連接層和softmax層共7層網(wǎng)絡(luò)組成。
圖3 InGLRNet判別網(wǎng)絡(luò)結(jié)構(gòu)圖
(1)
(2)
L=lSR+lFECNN+ldisc
(3)
式中:損失函數(shù)由超分辨網(wǎng)絡(luò)InSRNet的損失項(xiàng)lSR、特征提取FECNN的損失項(xiàng)lFECNN和判別網(wǎng)絡(luò)的損失項(xiàng)ldisc3部分組成。超分辨網(wǎng)絡(luò)InSRNet的損失項(xiàng)和特征提取FECNN的損失項(xiàng)采用均方誤差(MSE)進(jìn)行計(jì)算,損失函數(shù)為
(4)
式中:Gθ為預(yù)測值。判別網(wǎng)絡(luò)的損失函數(shù)采用交叉熵?fù)p失函數(shù),
(5)
低分辨人臉識別網(wǎng)絡(luò)InGLRNet的訓(xùn)練分為3個(gè)階段:第1階段是特征提取網(wǎng)絡(luò)FECNN的訓(xùn)練;第2階段是超分辨網(wǎng)絡(luò)InSRNet的訓(xùn)練,通過高分辨率圖像下采樣得到低分辨率人臉圖像數(shù)據(jù)集來訓(xùn)練;第3階段是合并超分辨網(wǎng)絡(luò)InSRNet和特征提取網(wǎng)絡(luò)FECNN,將包含同一個(gè)人的低分辨率和高分辨率訓(xùn)練數(shù)據(jù)集分別輸入生成網(wǎng)絡(luò)。對所有訓(xùn)練圖像對重復(fù)多次訓(xùn)練過程,微調(diào)在前2個(gè)訓(xùn)練階段中獲得的權(quán)重,以降低所有層的學(xué)習(xí)率。另外,在將低分辨率圖像重建至高分辨率圖像的訓(xùn)練過程中,將低分辨率樣本圖像輸入到超分辨網(wǎng)絡(luò)InSRNet后,從超分辨網(wǎng)絡(luò)InSRNet的最后一層提取相應(yīng)的高分辨率人臉圖像,以此來測試InSRNet網(wǎng)絡(luò)超分辨后的圖像質(zhì)量。
實(shí)驗(yàn)使用CASIA-Webfaces數(shù)據(jù)集和FERET數(shù)據(jù)集共138 984張圖像作為構(gòu)架的低分辨率人臉識別網(wǎng)絡(luò)InGLRNet的訓(xùn)練集。選用LFW人臉數(shù)據(jù)集評估構(gòu)架的低分辨率人臉識別網(wǎng)絡(luò)InGLRNet的識別性能,LFW人臉數(shù)據(jù)集中包含13 000張人臉圖像。
在訓(xùn)練階段的初期,先對基于VGG網(wǎng)絡(luò)構(gòu)建的FECNN進(jìn)行訓(xùn)練,之后對超分辨InSRNet網(wǎng)絡(luò)模塊進(jìn)行預(yù)訓(xùn)練。對選定的CASIA-Webfaces數(shù)據(jù)集和FERET數(shù)據(jù)集中160×160的人臉圖像進(jìn)行下采樣,下采樣后的圖像大小為32×32,由此可得與訓(xùn)練數(shù)據(jù)集中高分辨率人臉圖像相對應(yīng)的低分辨率人臉訓(xùn)練數(shù)據(jù)集。在InSRNet網(wǎng)絡(luò)的訓(xùn)練過程中,InSRNet網(wǎng)絡(luò)將輸入的低分辨率人臉圖像生成高分辨率的人臉圖像。待超分辨InSRNet網(wǎng)絡(luò)訓(xùn)練完成后,就可以從InSRNet網(wǎng)絡(luò)的最后一層提取相應(yīng)的高分辨率人臉圖像。
圖4是不同低分辨率重構(gòu)方法的過程圖, 在對低分辨率圖像重構(gòu)過程中, 將超分辨網(wǎng)絡(luò)InSRNet與傳統(tǒng)的經(jīng)典人臉超分辨重構(gòu)方法進(jìn)行對比,對本文設(shè)計(jì)的超分辨重構(gòu)網(wǎng)絡(luò)生成的圖像質(zhì)量進(jìn)行評估實(shí)驗(yàn)。方法1(bicubic interpolation)是使用雙三插值對低分辨率圖像進(jìn)行重構(gòu),該方法配置僅使用雙三次插值法將低分辨率輸入圖像映射到尺寸為128×128的圖像,不使用任何深度神經(jīng)學(xué)習(xí)網(wǎng)絡(luò)。因此,在此訓(xùn)練階段,僅需要更新FECNN網(wǎng)絡(luò)權(quán)重即可。方法2是超分辨SRCNN網(wǎng)絡(luò),使用傳統(tǒng)的CNN網(wǎng)絡(luò)對低分辨率圖像進(jìn)行進(jìn)一步的重構(gòu)。方法3是本文提出的InSRNet網(wǎng)絡(luò),將殘差網(wǎng)絡(luò)用于超分辨中,替換SRCNN的CNN模塊,期望學(xué)習(xí)到更多的圖像細(xì)節(jié),以得到更高質(zhì)量的重構(gòu)圖像。
在完成低分辨率人臉識別之前,首先需要對低分辨率圖像進(jìn)行重建,重建的高分辨率圖像的質(zhì)量影響著人臉識別的結(jié)果。因此,本文的實(shí)驗(yàn)結(jié)果評估將從重建的高分辨率圖像質(zhì)量與低分辨人臉識別率2個(gè)方面進(jìn)行分析。
2.2.1 InSRNet生成圖像質(zhì)量評估
圖5是3種不同低分辨率重構(gòu)方法視覺效果對比圖。第1行圖像是由原始圖像下采樣后得到的低分辨率人臉訓(xùn)練集圖像,中間3行為bicubic interpolation、SRCNN和InSRNet 3種不同低分辨率方法重構(gòu)后的圖像,最后1行圖像是高分辨率的原始圖像。為了展示效果,將圖像放大到同一尺寸32×32,超分辨倍數(shù)為4,以便對比3種不同方法重構(gòu)后的圖像質(zhì)量。
圖4 不同低分辨率重構(gòu)方法的過程圖
圖5 3種不同重構(gòu)方法在的人臉圖像上的視覺效果對比圖
在圖5中,以重建人臉圖像的視覺質(zhì)量為依據(jù),將超分辨網(wǎng)絡(luò)InSRNet的方法與不同低分辨率重構(gòu)方法進(jìn)行比較,結(jié)果表明,使用基于殘差網(wǎng)絡(luò)超分辨方法(見圖5中方法3)可以大大提高超分辨InSRNet網(wǎng)絡(luò)的重構(gòu)性能,重構(gòu)后的圖像質(zhì)量明顯優(yōu)于其他重構(gòu)方法。同時(shí),為了客觀地比較這3種方法的視覺增強(qiáng)效果,使用峰值信噪比(peak signal to noise ratio,PSNR)和結(jié)構(gòu)相似性指數(shù)(structural similarity,SSIM)進(jìn)一步度量3種重構(gòu)方法的優(yōu)劣。PSNR的作用是評判重構(gòu)圖像的質(zhì)量,若PSNR值越大,重構(gòu)圖像中的噪聲越小,代表重構(gòu)圖像的質(zhì)量越高。但是,在有些情況下,人類的視覺感知認(rèn)為PSRN值低的圖像并不一定質(zhì)量差,即人類的視覺感知與PSNR體現(xiàn)的高質(zhì)量并不統(tǒng)一,針對這個(gè)問題,需要引入結(jié)構(gòu)相似度SSIM作為圖像評價(jià)指標(biāo)。SSIM是一個(gè)0到1之間的數(shù),SSIM越大,兩圖像間差異越小。本文將參考這2個(gè)指標(biāo)共同對重構(gòu)后的圖像質(zhì)量進(jìn)行評估。
表1是3種不同低分辨率重構(gòu)方法重建后的高分辨率人臉圖像的峰值信噪比PSNR和結(jié)構(gòu)相似性指數(shù)SSIM的比較結(jié)果。 相比于僅使用雙三插值和僅使用傳統(tǒng)的CNN網(wǎng)絡(luò)結(jié)構(gòu)法, 超分辨網(wǎng)絡(luò)InSRNet方法重構(gòu)的人臉圖像不僅具有最佳的視覺效果, 而且重建的人臉圖像與高分辨率基準(zhǔn)圖像之間的差異最小。 超分辨網(wǎng)絡(luò)InSRNet方法在PSNR和SSIM上的表現(xiàn)也優(yōu)于其他2種方法。 表明基于Inception和殘差網(wǎng)絡(luò)的超分辨網(wǎng)絡(luò)InSRNet能夠生成高質(zhì)量的高分辨率人臉圖像, 以供判別網(wǎng)絡(luò)進(jìn)行判別。
表1 不同重建方法的PSNR和SSIM
表2為3種不同重建方法在不同低分辨率的Rank-1識別精度,Rank-1識別精度為與目標(biāo)人臉最相似的人臉中成功找到正確人臉的概率。
表2 不同重建方法在不同低分辨率上的Rank-1識別精度
從表2可以看出,在所有低分辨率重構(gòu)方法中,超分辨網(wǎng)絡(luò)InSRNet方法在不同的分辨率情況下都取得了最高的識別精度。結(jié)果說明,基于Inception和殘差網(wǎng)絡(luò)的超分辨網(wǎng)絡(luò)InSRNet在主要訓(xùn)練階段可以大大提高低分辨人臉識別網(wǎng)絡(luò)InGLRNet的識別性能。特別當(dāng)人臉圖像的分辨率非常低時(shí),該方法的識別性能明顯高于其他低分辨率重構(gòu)的方法??傊?基于Inception和殘差的超分辨InSRNet網(wǎng)絡(luò)的結(jié)構(gòu)能夠生成視覺質(zhì)量更高的重構(gòu)圖像,并且獲得更好的識別性能。
2.2.2 InGLRNet識別率評估
在此次實(shí)驗(yàn)中,對訓(xùn)練完成的低分辨率人臉網(wǎng)絡(luò)在LFW數(shù)據(jù)集上進(jìn)行了評估。為了評估構(gòu)建的InGLRNet網(wǎng)絡(luò)對不同低分辨率的圖像的識別性能,考慮了6×6、12×12、24×24和32×32這4種不同的分辨率。 首先, 分別以不同圖像分辨率對超分辨InSRNet網(wǎng)絡(luò)進(jìn)行訓(xùn)練; 然后, 將超分辨InSRNet網(wǎng)絡(luò)連接到FECNN網(wǎng)絡(luò)組成完整的InGLRNet低分辨率人臉識別網(wǎng)絡(luò); 最后, 在每種分辨率條件下, 重新訓(xùn)練構(gòu)建的低分辨率人臉識別網(wǎng)絡(luò)。 為了進(jìn)一步驗(yàn)證論文構(gòu)建的InGLRNet低分辨率識別網(wǎng)絡(luò)的有效性,將構(gòu)建的InGLRNet網(wǎng)絡(luò)與CLPMs、MDS、Deep-Face和Face-Net這4種經(jīng)典的低分辨人臉識別方法在不同的低分辨率下進(jìn)行了比較。表3是在LFW數(shù)據(jù)集上不同方法在不同低分辨率之間的Rank-1識別精度比較結(jié)果。
表3 不同人臉識別方法在不同低分辨率上的Rank-1識別精度
CLPMs是基于傳統(tǒng)的特征臉與小波變換法,而MDS是基于公共特征子空間的多維度尺寸分析法,這2種方法都不需要下采樣和超分辨重構(gòu)過程。Deep-Face與Face-Net是基于深度卷積網(wǎng)絡(luò)的低分辨率人臉識別法。從表3可以看出,構(gòu)建的InGLRNet人臉識別方法在4個(gè)分辨率條件下都優(yōu)于其他方法。在24×24的低分辨率上比性能優(yōu)異的Face-Net還要高出3.7%。并且,在6×6這樣的超低分辨率上,構(gòu)建的InGLRNet網(wǎng)絡(luò)也比其他方法有明顯優(yōu)勢,比同分辨率中識別性能最優(yōu)異的CLPMs的識別精度高出6.3%。本文提出的InGLRNet網(wǎng)絡(luò)在識別性能方面優(yōu)于其他4種經(jīng)典的低分辨率人臉識別方法。當(dāng)輸入的人臉圖像分辨率較低時(shí),其性能也有明顯的提升,對于超低分辨率的人臉圖像的識別性能有較好的改善。
本文針對傳統(tǒng)低分辨率人臉識別準(zhǔn)確率較低的問題,搭建了一種基于超分辨和公共特征子空間的低分辨率人臉識別網(wǎng)絡(luò)InGLRNet。利用超分辨網(wǎng)絡(luò)和特征提取網(wǎng)絡(luò)構(gòu)成生成網(wǎng)絡(luò),判別網(wǎng)絡(luò)采用傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),以提取并保留足夠多而且有效的圖像特征,減輕梯度消失問題并且加強(qiáng)圖像特征的傳播。通過與CLPMs、MDS、Deep-Face和Face-Net這4種經(jīng)典的低分辨人臉識別方法進(jìn)行對比實(shí)驗(yàn)可知,本文構(gòu)建的超分辨網(wǎng)絡(luò)可以實(shí)現(xiàn)高質(zhì)量的高分辨率圖像的生成。并且整個(gè)InGLRNet網(wǎng)絡(luò)在識別性能上有顯著的提升,在不同的低分辨率條件下都優(yōu)于其他方法。