胡麟苗,張 湧,樓晨風(fēng)
(1.中國科學(xué)院上海技術(shù)物理研究所,上海200083;2.中國科學(xué)院紅外探測與成像技術(shù)重點實驗室,上海200083;3.中國科學(xué)院大學(xué),北京100049)
人臉識別自被提出以來就是計算機(jī)視覺研究的重點,近年來,隨著深度學(xué)習(xí)的發(fā)展,基于可見光人臉圖像的識別準(zhǔn)確率得到了很大提高。目前的可見光人臉識別算法在公開的可見光人臉數(shù)據(jù)集(如LFW,MegaFace)上可以達(dá)到高于99%的準(zhǔn)確率,這得益于不斷發(fā)展的人臉識別算法、不斷提升的計算能力和可以廣泛獲取的可見光人臉圖像。但是,在實際應(yīng)用中,可見光成像系統(tǒng)受環(huán)境干擾較為嚴(yán)重,在霧天、夜晚等環(huán)境成像質(zhì)量較差,對人臉識別性能影響較大。為了解決可見光成像受干擾問題,在暗光條件下可以成像的短波紅外成像系統(tǒng)成為另一個重要的圖像來源。
短波紅外是肉眼不可見的紅外輻射波段之一,它屬于主動成像波段,需要光源對成像目標(biāo)進(jìn)行照明,依靠物體表面反射的短波紅外輻射進(jìn)行成像,對霧、靄、煙塵等均有較好的穿透能力[1-2]。自然界中的大氣輝光、星光和月光等均可作為短波紅外的光源,其中大氣輝光為主要自然光源,具有照射均勻的優(yōu)點。作為對比,近紅外成像系統(tǒng)主要的自然光源為月光,受月相、地月角度影響較大,容易產(chǎn)生方向性的陰影[3]。短波紅外成像系統(tǒng)和近紅外成像系統(tǒng)均可依靠主動式的人工光源進(jìn)行成像,但短波紅外人工光源具有更好的不可見性[4],配合短波紅外成像系統(tǒng)可以有效增強(qiáng)安防監(jiān)控系統(tǒng)的隱蔽性。
短波紅外的波段特性使得其可用于夜間成像,但也正因為其與可見光不同的光譜特性,它所成的圖像與可見光圖像有較大的模態(tài)差異。目前的人臉識別系統(tǒng)中注冊圖像多為可見光圖像,在應(yīng)用短波紅外成像系統(tǒng)獲取人臉圖像后,需要將短波紅外圖像與可見光注冊圖像進(jìn)行匹配,兩者間的模態(tài)差異會對匹配造成干擾。由于短波圖像與可見光模態(tài)差異較大,用于可見光人臉識別的算法如InsightFace[5]直接應(yīng)用于短波紅外-可見光人臉識別時表現(xiàn)不佳。已有的針對近紅外-可見光人臉識別的算法如[6-7],采用可見光預(yù)訓(xùn)練、近紅外精調(diào)網(wǎng)絡(luò)來生成對應(yīng)近紅外、可見光人臉圖像的方式克服模態(tài)差異。由于近紅外-可見光間模態(tài)差異小于短波紅外光-可見光間的模態(tài)差異,圖像生成難度相對更小,可見光圖像上的預(yù)訓(xùn)練可以彌補(bǔ)數(shù)據(jù)量不足的缺陷,得到較好的識別結(jié)果。
在短波紅外-可見光人臉識別研究中,Bihn等[3]提出直接應(yīng)用在可見光數(shù)據(jù)集上預(yù)訓(xùn)練的VGG-Face(Visual Geometry Group-Face)[8]作為特征提取器,采用網(wǎng)絡(luò)輸出的特征對短波紅外圖像進(jìn)行識別。但短波紅外由于更小的數(shù)據(jù)量與更大的模態(tài)差異,在可見光圖像上訓(xùn)練出的特征提取網(wǎng)絡(luò)并不能很好克服短波紅外-可見光間模態(tài)差異帶來的干擾,在短波紅外-可見光人臉識別任務(wù)中該方法準(zhǔn)確度難以令人滿意。
要進(jìn)行跨模態(tài)的短波紅外-可見光人臉識別,核心問題是消除模態(tài)差異的干擾。一個解決思路是找到一個短波紅外人臉圖像和可見光人臉圖像共同擁有且可以用于識別的特征。它必須是兩個圖像域圖像共有的特征,且與圖像包含的內(nèi)容信息相關(guān),與圖像所屬圖像域無關(guān)。在圖像翻譯研究中,研究者提出的“內(nèi)容特征”這一概念可以用于解決這一問題。
圖像翻譯是指在保留輸入圖像內(nèi)容的前提下,將輸入圖像翻譯為目標(biāo)圖像域的圖像的過程。它是近年來深度學(xué)習(xí)尤其是生成對抗網(wǎng)絡(luò)在計算機(jī)視覺領(lǐng)域的重要應(yīng)用之一,常被用于風(fēng)格遷移[9]、圖像生成[10]、圖像超分辨[11-12]、圖像去噪[13]及場景變換[14]等多個方面。較早的圖像翻譯框架如Pix2Pix[15],CycleGAN(Cycle Genera?tive Adversarial Network)[16]等采用生成對抗網(wǎng)絡(luò)對輸入圖像直接進(jìn)行轉(zhuǎn)換。而之后的研究如MUNIT(Multimodal Unsupervised Image-to-Im?age Translation)[17],DRIT(Diverse Image-to-Im?age Translation)[18]等提出了圖像的內(nèi)容特征、風(fēng)格特征分離的新思想。它們認(rèn)為圖像的特征空間可以分為內(nèi)容特征和風(fēng)格特征兩部分。圖像的內(nèi)容特征是指與圖像內(nèi)容信息相關(guān)的部分,包含圖像中的具體物體及物體的整體結(jié)構(gòu)等。風(fēng)格信息是指圖像中與圖像域相關(guān)的部分,包含了圖像的紋理信息等??梢詫D像翻譯過程分解為輸入圖像內(nèi)容特征、風(fēng)格特征的提取,目標(biāo)圖像域風(fēng)格特征的獲取以及基于輸入內(nèi)容特征和目標(biāo)域風(fēng)格特征的圖像生成過程。部分研究者選擇將注意力機(jī)制引入圖像翻譯[19-20],使網(wǎng)絡(luò)可以對圖像中的重要區(qū)域給予更多關(guān)注。
圖像翻譯方法中提出的“內(nèi)容特征”符合跨模態(tài)人臉識別任務(wù)中用于消除模態(tài)差異的方法的要求。受此啟發(fā),本文提出了基于內(nèi)容特征提取的短波紅外-可見光人臉識別框架,將短波紅外-可見光人臉識別問題分解為跨圖像域內(nèi)容特征提取和基于內(nèi)容特征的識別兩個子問題。在短波紅外-可見光人臉數(shù)據(jù)集上對圖像翻譯網(wǎng)絡(luò)進(jìn)行訓(xùn)練,將圖像翻譯框架中的內(nèi)容特征提取器從框架中分離,用于待識別圖像內(nèi)容特征的提?。徊捎脙?nèi)容特征識別網(wǎng)絡(luò)將待識別圖像的內(nèi)容特征與可見光注冊圖像的內(nèi)容特征進(jìn)行匹配,從而克服模態(tài)差異完成短波紅外-可見光人臉識別任務(wù)。
本文的主要貢獻(xiàn)為:(1)提出基于內(nèi)容特征提取的短波紅外-可見光人臉識別方法,將圖像翻譯方法中的內(nèi)容特征用于消除模態(tài)差異對短波紅外-可見光圖像識別的影響;(2)對圖像翻譯框架DRIT進(jìn)行改進(jìn),提出域內(nèi)內(nèi)容一致性函數(shù)和跨域內(nèi)容一致性函數(shù),提升內(nèi)容特征提取器對特征提取的準(zhǔn)確性;(3)設(shè)計了基于內(nèi)容特征的識別網(wǎng)絡(luò),完成了短波紅外-可見光人臉圖像的識別,在短波紅外-可見光人臉圖像數(shù)據(jù)集上達(dá)到88.86%的準(zhǔn)確率。
在跨圖像域的短波紅外-可見光人臉識別中,模態(tài)差異會對識別造成較大干擾,如圖1所示,圖中“F_X-X”指采用普通的特征提取網(wǎng)絡(luò)對圖像提取的識別特征。同一目標(biāo)在不同圖像域中的圖像間的差異可能會大于不同目標(biāo)間的差異,傳統(tǒng)的分類方式很難克服這一干擾。
圖1 短波紅外-可見光人臉識別中模態(tài)差異帶來的影響Fig.1 Visible-light face recognition and SWIR-VIS face recognition
為了解決短波紅外-可見光人臉識別任務(wù)中模態(tài)差異的干擾問題,受圖像翻譯中內(nèi)容特征特性的啟發(fā),本文將短波紅外-可見光人臉識別問題分解為兩個子問題:跨圖像域內(nèi)容特征的提取和基于內(nèi)容特征的識別。
基于內(nèi)容特征提取的人臉識別框架由內(nèi)容特征提取器和基于內(nèi)容特征的識別網(wǎng)絡(luò)兩個子模塊構(gòu)成。如圖2所示,(c)中的內(nèi)容特征提取器由(a)和(b)中的訓(xùn)練得到。
內(nèi)容特征提取器從訓(xùn)練好的圖像翻譯框架中固化得到。引入了內(nèi)容特征、風(fēng)格特征分離思想的圖像翻譯框架DRIT設(shè)置了多種機(jī)制來實現(xiàn)對內(nèi)容特征的提取。在研究中發(fā)現(xiàn),由DRIT得到的內(nèi)容特征提取器對內(nèi)容特征提取的準(zhǔn)確性仍無法滿足人臉識別任務(wù)的要求,因此我們對該網(wǎng)絡(luò)進(jìn)行改進(jìn),提出了域內(nèi)內(nèi)容一致性損失函數(shù)和跨域內(nèi)容一致性損失函數(shù),提升網(wǎng)絡(luò)中內(nèi)容特征提取器對內(nèi)容特征提取的準(zhǔn)確性。將改進(jìn)的DRIT模型中的內(nèi)容特征提取器作為最終用于識別網(wǎng)絡(luò)的內(nèi)容特征提取器,提升了識別的準(zhǔn)確率。
內(nèi)容特征提取過程完成了從不同圖像域圖像中提取屬于同一空間的特征的目標(biāo),基于內(nèi)容特征的識別類似于可見光人臉識別過程,由特征處理和分類兩部分構(gòu)成。本文設(shè)計了用于內(nèi)容特征識別的網(wǎng)絡(luò),與內(nèi)容特征提取器結(jié)合,構(gòu)成了整體識別框架,完成了短波紅外-可見光人臉識別任務(wù)。
圖2 本文提出框架(a)圖像翻譯中的交換生成與重建;(b)圖像翻譯中的自身重建;(c)本文提出的短波紅外-可見光人臉識別框架Fig.2 Proposed framework(a)feature exchange and reconstruction in image translation;(b)self-reconstruction in image translation;(c)proposed recognition framework
2.2.1 DRIT模型
DRIT模型為Lee等提出的無監(jiān)督圖像翻譯模型,它在循環(huán)一致性的基礎(chǔ)上引入了內(nèi)容、風(fēng)格特征分離思想。內(nèi)容特征指圖像中較為低層的特征,例如圖像中的方向、邊緣等信息,而風(fēng)格特征則是圖像中較為高層的信息,如圖像的顏色、紋理等信息。
DRIT模型由內(nèi)容特征編碼器(ECA(*),ECB(*))、風(fēng)格特征編碼器(ESA(*),ESB(*))、生成器(GA,GB)、內(nèi)容特征判別器及圖像域判別器構(gòu)成。內(nèi)容特征編碼器和風(fēng)格特征編碼器用于圖像內(nèi)容、風(fēng)格特征的提取,在網(wǎng)絡(luò)中,兩個圖像域的內(nèi)容特征的最后幾層共享參數(shù),以保證從兩個圖像域獲取的內(nèi)容特征屬于同一空間。同時還設(shè)置了內(nèi)容特征判別器,用于判別輸入的內(nèi)容特征來自哪個圖像域,內(nèi)容特征提取器的優(yōu)化目標(biāo)之一就是使得判別器無法區(qū)分輸入的內(nèi)容特征來自哪個圖像域。
在訓(xùn)練時,DRIT模型會將輸入圖像的內(nèi)容特征與自身的風(fēng)格特征組合進(jìn)行生成(圖2(b)),在理想情況下,生成的圖像應(yīng)與輸入圖像一致,以 圖 像 域 A為 例 ,應(yīng) 有 :aself-reconstruct=同時,DRIT會將同時輸入的兩幅分別屬于不同圖像域的圖像的內(nèi)容和風(fēng)格特征重新組合,生成對應(yīng)的翻譯圖像,并對兩個翻譯結(jié)果再次進(jìn)行內(nèi)容、風(fēng)格的交換組合,得到跨域重建結(jié)果(圖2(a)):
此時跨域重建結(jié)果與原始輸入圖像之間也存在約束:ainput=aaross-reconstruct,binput=baross-reconstruct?;谶@些約束關(guān)系,DRIT模型將輸入圖像與自身重建圖像、跨域重建圖像的L1距離作為損失函數(shù),保證了翻譯結(jié)果與輸入圖像在內(nèi)容上的相似性。
DRIT模型在貓狗變換等任務(wù)中取得了較好的結(jié)果,但在短波紅外-可見光人臉圖像數(shù)據(jù)集上,翻譯結(jié)果與參考圖像相似度較低。尤其在對識別影響較大的眼睛、鼻子等部位,輸出結(jié)果與真實圖像差距較大。本文采用預(yù)訓(xùn)練好的Facenet模型對DRIT的輸出結(jié)果進(jìn)行識別,識別準(zhǔn)確率僅為22%。
本文對DRIT框架進(jìn)行分析,認(rèn)為造成這一問題的主要原因是DRIT模型提取的內(nèi)容特征的準(zhǔn)確性不足,與DRIT模型的結(jié)構(gòu)相關(guān)。第一,該框架被設(shè)計用于無監(jiān)督的圖像翻譯,更強(qiáng)調(diào)輸出結(jié)果風(fēng)格的準(zhǔn)確性,框架中的內(nèi)容特征判別器僅判斷輸入的特征是否屬于同一特征空間,對內(nèi)容特征與輸入圖像的相關(guān)性未做判斷。第二,框架中設(shè)置的基于循環(huán)一致性的重建損失函數(shù)僅從圖像層面判斷重建結(jié)果的準(zhǔn)確性,未對內(nèi)容特征進(jìn)行約束。在圖像翻譯過程中,除了內(nèi)容特征提取器,生成器也會對生成結(jié)果造成影響,僅依靠生成圖像與輸入圖像的相似性,很難對內(nèi)容特征提取的準(zhǔn)確性進(jìn)行直接判斷。這些問題導(dǎo)致框架對同一內(nèi)容的不同圖像域圖像提取的內(nèi)容特征并不一致,干擾了翻譯的準(zhǔn)確性,導(dǎo)致在識別框架中,內(nèi)容特征提取器的跨模態(tài)優(yōu)勢不明顯。
針對DRIT存在的問題,本文在原有框架的基礎(chǔ)上設(shè)計、引入了兩個新?lián)p失函數(shù),以優(yōu)化原模型存在的內(nèi)容特征提取準(zhǔn)確性不足的問題。它們均基于內(nèi)容特征提取器獲得的內(nèi)容特征進(jìn)行計算,更好地對內(nèi)容特征提取器進(jìn)行優(yōu)化。
2.2.2 基于目標(biāo)一致性的跨域內(nèi)容一致性損失函數(shù)
針對DRIT目標(biāo)一致性差的問題,本文引入了跨域內(nèi)容一致性損失函數(shù)。在2.2.1節(jié)描述的DRIT的訓(xùn)練過程中,輸入圖像經(jīng)過交換特征得到生成圖像u,v,u,v分別由輸入圖像binput,ainput的內(nèi)容特征生成(公式(1)),對u,v進(jìn)行內(nèi)容特征提?。?/p>
對于期望情況,此時獲得的內(nèi)容特征應(yīng)與從輸入圖像提取的內(nèi)容特征一致,即:計算輸入圖像與生成圖像的內(nèi)容特征間的L2距離,并將之作為跨域內(nèi)容一致性損失函數(shù),以引導(dǎo)生成器從包含相同內(nèi)容特征的不同域圖像中提取相同的內(nèi)容特征,強(qiáng)化兩個圖像域中內(nèi)容特征提取器的一致性:
2.2.3 基于循環(huán)一致性的域內(nèi)內(nèi)容特征一致性損失函數(shù)
DRIT模型在訓(xùn)練中使用原輸入圖像的內(nèi)容特征和屬性特征進(jìn)行了自身重建,得到自身重建圖像aself-reconstruct,bself-reconstruct,同時還使用從生成圖像提取的內(nèi)容特征與原屬性特征進(jìn)行了循環(huán)重建,得到了循環(huán)重建圖像across-reconstruct,bcross-reconstruct。在這兩個重建過程中,重建圖像使用的內(nèi)容特征也是來自于輸入圖像。那么,從重建圖像提取內(nèi)容特征,也應(yīng)與輸入圖像的內(nèi)容特征一致:
輸入圖像binput以及對應(yīng)的重建圖像與式(5)和式(6)類似。
兩類重建圖像均與輸入圖像屬于同一圖像域,內(nèi)容特征提取由同一個內(nèi)容特征提取器完成。本文使用對應(yīng)域圖像的內(nèi)容提取器從重建圖像與循環(huán)圖像獲取內(nèi)容特征,并分別計算它們與輸入圖像內(nèi)容特征的L2距離,作為域內(nèi)內(nèi)容特征一致性損失函數(shù)。該損失函數(shù)形式如式(7)所示:
通過設(shè)置域內(nèi)內(nèi)容特征一致性損失函數(shù),我們強(qiáng)化了內(nèi)容特征提取器對屬于同一圖像域且含有相同內(nèi)容特征的圖像進(jìn)行特征提取時內(nèi)容特征的一致性,
改進(jìn)的DRIT模型的損失函數(shù)為DRIT模型的損失函數(shù)與新增損失函數(shù)的和:
人臉識別通常包含圖像預(yù)處理、特征提取、特征分類幾部分。特征提取和分類多由深度神經(jīng)網(wǎng)絡(luò)完成。可見光人臉識別網(wǎng)絡(luò)如Facenet、SphereFace和InsightFace等主要對損失函數(shù)進(jìn)行優(yōu)化,提出的損失函數(shù)如triplet loss(Facenet),ArcFace loss(InsightFace)等在可見光人臉識別任務(wù)中取得較好結(jié)果,其中ArcFace loss應(yīng)用較廣、效果較好。
經(jīng)過內(nèi)容特征提取后,兩個圖像域的圖像被映射為屬于同一特征空間的內(nèi)容特征,此時的識別任務(wù)與可見光人臉識別類似,可由特征處理網(wǎng)絡(luò)和分類部分完成。針對提取后的內(nèi)容特征,本文設(shè)計了跨域識別網(wǎng)絡(luò),用于對內(nèi)容特征進(jìn)行進(jìn)一步提取以及分類。
2.3.1 特征處理網(wǎng)絡(luò)
人臉識別任務(wù)中,特征處理網(wǎng)絡(luò)多以殘差結(jié)構(gòu)作為基本單元,通過多個單元的堆疊構(gòu)成。文獻(xiàn)[5]中提出了改進(jìn)的殘差單元,在可見光人臉識別任務(wù)中獲得較好結(jié)果。
卷積神經(jīng)網(wǎng)絡(luò)中,常用的激活函數(shù)如ReLU等會給出一個稀疏的輸出,Wu等[21]提出了MFM(Max-Feature-Map)激活函數(shù)層,可以進(jìn)行特征選擇并輸出更為緊實的特征。
在本文提出的方案中,內(nèi)容特征通道數(shù)為256,本文設(shè)置的特征處理網(wǎng)絡(luò)去除了較淺的單元,由15個深度為256、3個深度為512的改進(jìn)的殘差單元組成特征處理網(wǎng)絡(luò),且采用MFM作為激活函數(shù)。
2.3.2 分類損失函數(shù)
雖然可見光識別算法中提出的損失函數(shù)在短波紅外-可見光人臉識別中直接應(yīng)用時效果不佳,使用InsightFace網(wǎng)絡(luò)直接進(jìn)行短波紅外-可見光人臉識別時準(zhǔn)確率僅為64.97%,但在使用內(nèi)容特征提取器將不同域圖像翻譯到同一特征空間后,ArcFace loss成為識別任務(wù)較好的選擇,因此本文提出的框架將ArcFace loss作為基于內(nèi)容特征的識別網(wǎng)絡(luò)中的損失函數(shù)。
ArcFace loss是對分類任務(wù)中經(jīng)典的Soft?max的改進(jìn)。它在角度空間對分類損失進(jìn)行優(yōu)化,達(dá)到加大類間距離、減小類內(nèi)距離的效果,在可見光人臉識別任務(wù)中取得了優(yōu)秀的結(jié)果。Softmax分類器中Softmax層的輸入為最后一個全連接層的輸出WTX+b,W,X,b分別為權(quán)值向量、特征向量和偏置值。將偏置值置零,對網(wǎng)絡(luò)最后一層全連接層的特征與權(quán)重均進(jìn)行L2歸一化,再計算兩者的點積,將點積值視為權(quán)重向量與特征向量的余弦值,使用反余弦函數(shù)解得權(quán)重向量與當(dāng)前特征向量的角度值θ=arccos(WTX),在當(dāng)前角度上加預(yù)設(shè)的角度間隔(Angular margin)m,使用余弦函數(shù)得到增加了角度間隔的余弦值cos(θ+m),將余弦值乘以放大尺度s后再進(jìn)行Softmax計算,最終得到ArcFace損失函數(shù):
根據(jù)調(diào)研,目前還沒有公開可獲取的短波紅外-可見光人臉數(shù)據(jù)集,因此本文采集短波紅外與可見光人臉圖像并建立數(shù)據(jù)集。可見光人臉圖像采集設(shè)備為尼康的D5600單反相機(jī),短波紅外人臉圖像的采集設(shè)備為Xenics公司的Bob?cat320短波相機(jī)。Bobcat320為一款采用InGaAs傳感器的短波紅外相機(jī),可以采集波長范圍為0.9~1.7μm的短波紅外輻射。采集中,兩臺相機(jī)均設(shè)置為視頻模式,單反相機(jī)采集分辨率為1 920×1 080的視頻數(shù)據(jù),Bobcat320相機(jī)采集分辨率為320×256的視頻數(shù)據(jù),采集過程中保證被采集對象頭部位于畫面中心位置。
數(shù)據(jù)集共包含207個目標(biāo),其中男性目標(biāo)123,女性84。采集條件為半受控環(huán)境,在固定光照、距離下采集了目標(biāo)不同角度、表情下的短波紅外與可見光圖像(如圖3所示)。對采集的圖像數(shù)據(jù)進(jìn)行了眼部標(biāo)注,并根據(jù)眼部位置進(jìn)行了裁剪與對齊。
在實驗中,隨機(jī)選取不同性別各16個目標(biāo)作為測試集,將剩余目標(biāo)作為訓(xùn)練集,每個目標(biāo)隨機(jī)選取了7~10對圖像構(gòu)成訓(xùn)練集,實際訓(xùn)練集包含1 500張短波圖像和1 500張可見光圖像,測試集則包含745張短波紅外圖像和745張可見光人臉圖像。
圖3 短波紅外-可見光數(shù)據(jù)集圖像示例.第一行為短波紅外圖像,第二行為對應(yīng)的可見光人臉圖像Fig.3 Examples of self-built SWIR-VIS face image dataset,the first row shows SWIR face images and the second row shows the corresponding VIS face images
實驗平臺為搭載英特爾8700k處理器及單張英偉達(dá)RTX2080Ti顯卡的計算機(jī),在自建短波紅外-可見光人臉數(shù)據(jù)集的訓(xùn)練集上對模型進(jìn)行訓(xùn)練、調(diào)試參數(shù),在測試集上對模型性能進(jìn)行評估,保證訓(xùn)練集與測試集數(shù)據(jù)沒有重合部分。
3.2.2 參數(shù)設(shè)置
本文提出的改進(jìn)的DRIT模型在原DRIT模型的基礎(chǔ)上增加了新的損失函數(shù),為了驗證所提改進(jìn)的效果,以DRIT模型為基準(zhǔn),在實驗中原DRIT部分參數(shù)按文獻(xiàn)[18]設(shè)置,調(diào)節(jié)本文提出的兩個新?lián)p失函數(shù)的權(quán)重來驗證本文所提改進(jìn)的有效性并獲取最優(yōu)參數(shù)設(shè)置。之后,使用測試集圖像進(jìn)行短波紅外-可見光的人臉圖像翻譯任務(wù)的驗證,與其他圖像翻譯框架的表現(xiàn)進(jìn)行對比。在實驗中發(fā)現(xiàn),在將跨域內(nèi)容一致性損失函數(shù)的權(quán)重設(shè)置為5.5,域內(nèi)內(nèi)容一致性損失函數(shù)的權(quán)重設(shè)置為5時,訓(xùn)練得到的內(nèi)容特征提取器在識別任務(wù)中取得最好結(jié)果。
對于基于內(nèi)容特征的跨域識別網(wǎng)絡(luò),將公式(9)中的角度余裕m設(shè)置為0.5。受實驗硬件條件限制,將batch大小設(shè)置為32,對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,學(xué)習(xí)率初始設(shè)置為0.000 1,在不同階段依次減小為0.000 05,0.000 01,0.000 001。
對圖像翻譯模型DRIT,本文對其的改進(jìn)主要是為了獲取更高質(zhì)量的內(nèi)容特征提取器,在識別中更為準(zhǔn)確地提取內(nèi)容特征。提升內(nèi)容特征提取的準(zhǔn)確性,圖像翻譯結(jié)果與真實圖像的相似性也應(yīng)隨之提升。因此,采用主觀觀察與客觀識別的方式對改進(jìn)的DRIT模型的翻譯結(jié)果進(jìn)行評估。在測試集上,采用訓(xùn)練好的改進(jìn)的DRIT模型對短波紅外圖像進(jìn)行圖像翻譯,觀察其與真實參考圖像的相似度。同時,采用在可見光圖像上預(yù)訓(xùn)練好的Facenet[22]網(wǎng)絡(luò)對模型輸出的結(jié)果進(jìn)行識別,以識別準(zhǔn)確率來評估模型對內(nèi)容特征提取的準(zhǔn)確性。Facenet模型為Schroff等提出的基于深度神經(jīng)網(wǎng)絡(luò)的人臉識別模型,在實驗中應(yīng)用在LFW數(shù)據(jù)集上識別精度達(dá)到99.65%的預(yù)訓(xùn)練模型作為識別模型,對本文所提改進(jìn)的DRIT模型和對比框架的翻譯結(jié)果進(jìn)行識別。
人臉識別任務(wù)通??梢苑譃閮深悾海?)身份識別:已有參考圖像數(shù)據(jù)集,識別采集到的圖像中目標(biāo)的身份;(2)身份驗證:給定一張參考圖像和一張待判斷圖像,判斷兩幅圖像中的目標(biāo)是否為同一目標(biāo)。本文所提框架的預(yù)期應(yīng)用場景為暗光條件下的安防、監(jiān)控場景,在該場景下,人臉識別需要面對的主要是第一類問題即識別問題,需要從已有可見光圖像數(shù)據(jù)集中找到與待判定短波紅外圖像相符的目標(biāo)。對該類問題,通常采用Rank-1準(zhǔn)確率作為判斷指標(biāo)。Rank-1準(zhǔn)確率即識別算法對輸入的待檢測圖像進(jìn)行識別,將概率最高的1個結(jié)果作為識別結(jié)果時,算法識別正確的概率。在實驗中,算法均僅在訓(xùn)練集進(jìn)行訓(xùn)練,在測試集上進(jìn)行識別測試。
嚴(yán)肅黨內(nèi)政治生活是加強(qiáng)黨的自身建設(shè)的基礎(chǔ)性工作,要把我們黨建設(shè)成為始終走在時代前列、人民衷心擁護(hù)、勇于自我革命、經(jīng)得起各種風(fēng)浪考驗、朝氣蓬勃的馬克思主義執(zhí)政黨,就必須把嚴(yán)肅黨內(nèi)政治生活這一基礎(chǔ)性工作做好。習(xí)近平同志站在保持黨的馬克思主義政黨性質(zhì)、更好擔(dān)負(fù)歷史使命、全面加強(qiáng)自身建設(shè)和形成良好黨內(nèi)政治生態(tài)的戰(zhàn)略高度,對嚴(yán)肅黨內(nèi)政治生活的應(yīng)有作用給予充分肯定。
3.4.1 短波紅外-可見光人臉圖像翻譯
作為對比,以DRIT為基準(zhǔn)參考模型測試圖像翻譯結(jié)果,同時選取較為常見的圖像翻譯框架CycleGAN[16],MUNIT[17],UGATIT(Unsuper?vised Generative Attentional Image-to-Image Translation)[20]作為圖像翻譯效果的對比算法。
CycleGAN:首創(chuàng)性地引入循環(huán)一致性思想,使得無成對圖像的圖像翻譯成為可能,且在相應(yīng)數(shù)據(jù)集上取得了較好結(jié)果;
MUNIT:采用了內(nèi)容與特征分離的思想進(jìn)行圖像翻譯,與DRIT模型的區(qū)別主要在內(nèi)容特征與風(fēng)格特征結(jié)合的方式上以及循環(huán)一致性的實現(xiàn)方式;
UGATIT:在CycleGAN的基礎(chǔ)上增加了新的注意力機(jī)制與正則化方法,提升了圖像翻譯效果。
3.4.2 短波紅外-可見光人臉圖像識別
針對短波紅外-可見光人臉識別的相關(guān)研究較少,本文將針對該問題的在基于可見光預(yù)訓(xùn)練的VGG-Face方法、可見光人臉識別方法Insight?Face以及針對近紅外-可見光人臉識別的DVG方法作為對比算法。
基于可見光預(yù)訓(xùn)練的短波紅外-可見光人臉識別方法:Bihn等[3]提出,短波紅外人臉圖像與可見光人臉圖像雖然有模態(tài)差距,但通過深度卷積網(wǎng)絡(luò)可以從可見光圖像中學(xué)習(xí)人臉結(jié)構(gòu)信息,用于短波紅外人臉圖像的識別。該方案采用VGG-Face網(wǎng)絡(luò)在可見光人臉圖像數(shù)據(jù)集上進(jìn)行訓(xùn)練,訓(xùn)練完成后,使用網(wǎng)絡(luò)對短波圖像進(jìn)行特征提取,采用全連接層“fc7”輸出的4 096維的特征向量作為識別特征,通過計算特征間距離判斷兩幅圖像是否屬于同一類別。
InsighFace:InsightFace為Deng等人提出的可見光人臉識別方法,提出了ArcFace和改進(jìn)的殘差單元,在可見光識別任務(wù)中得到較好的識別準(zhǔn)確率。
DVG:DVG方法是基于圖像翻譯的另一種方法。該方法首先采用成對的近紅外和可見光圖像對生成器進(jìn)行訓(xùn)練,之后采用訓(xùn)練好的生成器生成大規(guī)模、成對的近紅外和可見光圖像,與真實的近紅外、可見光圖像共同用于識別網(wǎng)絡(luò)的訓(xùn)練,采用最終訓(xùn)練完成的網(wǎng)絡(luò)完成識別任務(wù)。
本文在短波紅外-可見光人臉圖像數(shù)據(jù)集的訓(xùn)練集上對各對比算法進(jìn)行訓(xùn)練,在測試集上測試各方法的識別Rank-1準(zhǔn)確率,與本文提出的方法進(jìn)行對比。
3.5.1 改進(jìn)的DRIT模型內(nèi)容特征提取
本文提出的對DRIT模型的改進(jìn)的主要目的是使內(nèi)容特征提取器可以更準(zhǔn)確地提取內(nèi)容特征。若內(nèi)容特征提取的準(zhǔn)確性增加,圖像翻譯框架翻譯結(jié)果也會得到提升,本文首先對改進(jìn)的DRIT模型圖像翻譯的結(jié)果進(jìn)行評估,間接評估內(nèi)容特征提取的準(zhǔn)確性。
在相同訓(xùn)練集上對經(jīng)典的無監(jiān)督圖像翻譯框架CycleGAN,MUNIT模型、DRIT模型和UGATIT模型進(jìn)行訓(xùn)練,并在相同的測試集上進(jìn)行圖像翻譯,對翻譯結(jié)果進(jìn)行觀察,得到主觀性能判斷。采用Facenet模型對翻譯結(jié)果進(jìn)行識別,將本文提出的改進(jìn)的DRIT模型的結(jié)果與之進(jìn)行對比。
圖4 不同框架圖像翻譯結(jié)果對比,從左到右依次為:短波圖像,MUNIT,CycleGAN,UGATIT,DRIT,改進(jìn)的DRIT框架,參考圖像Fig.4 Comparison of the images translated by different frameworks,the columns from left to right are:SWIR,MUNIT,CycleGAN,UGATIT,DRIT,the proposed improved DRIT and refer?ence images
圖4 為圖像翻譯結(jié)果對比,可以看到,MU?NIT框架的結(jié)果僅大致輪廓與輸入、參考圖像相似,在細(xì)節(jié)上有很多模糊,對觀察干擾嚴(yán)重;Cy?cleGAN模型翻譯結(jié)果在大致結(jié)構(gòu)上與參考圖像相似,部分圖像眼部周圍存在失真情況,且整體皮膚色調(diào)與參考圖像差異較大,對識別算法容易造成干擾;UGATIT模型結(jié)果上高頻波紋較少,圖像整體觀感與可見光圖像接近,但存在器官與輸入圖像不相符的情況,且在頭部有一定偏轉(zhuǎn)角度時,翻譯結(jié)果失真較為嚴(yán)重;DRIT模型畫面整體模糊,在輪廓、細(xì)節(jié)等方面均存在波紋現(xiàn)象;本文提出的改進(jìn)的DRIT模型翻譯結(jié)果與參考圖像相似度較高,且在頭部有一定偏轉(zhuǎn)情況下依然有相對較好的表現(xiàn)(如圖4倒數(shù)第2行所示)。
當(dāng)頭部偏轉(zhuǎn)角度較大(水平或俯仰偏轉(zhuǎn)大于20°)時,改進(jìn)的DRIT模型存在翻譯失真較大的情況。該現(xiàn)象的產(chǎn)生主要是因為訓(xùn)練數(shù)據(jù)以臉部正面圖像為主(約占總訓(xùn)練集的91%),網(wǎng)絡(luò)難以學(xué)習(xí)偏轉(zhuǎn)較大時的映射信息。
對圖像翻譯框架輸出圖像的Facenet識別結(jié)果如表1所示,其中Real指使用預(yù)訓(xùn)練的模型對本數(shù)據(jù)集測試集中可見光圖像進(jìn)行識別的表現(xiàn),其余結(jié)果均為Facenet網(wǎng)絡(luò)對圖像翻譯結(jié)果進(jìn)行測試的結(jié)果。改進(jìn)的DRIT模型(DRITadv)翻譯結(jié)果在Facenet算法下的準(zhǔn)確率為27.6%,相對原DRIT模型提升5.4%,也優(yōu)于對比的CycleGAN模型、MUNIT模型及UGATIT模型。
表1 圖像翻譯結(jié)果對比Tab.1 Results comparison of image translation
本文提出的改進(jìn)的DRIT模型相對于原DRIT圖像翻譯質(zhì)量有較大提升,翻譯結(jié)果的可識別性增強(qiáng),說明本文所做的改進(jìn)可以使得網(wǎng)絡(luò)更為準(zhǔn)確地獲取圖像的內(nèi)容特征,也提升了圖像翻譯的質(zhì)量。
3.5.2 短波紅外-可見光人臉圖像識別
內(nèi)容特征提取器與基于內(nèi)容特征的識別網(wǎng)絡(luò)相結(jié)合,構(gòu)成了本文提出的短波紅外-可見光人臉識別框架。在完成改進(jìn)的DRIT模型的訓(xùn)練后,固化其中的內(nèi)容特征編碼器,將圖像內(nèi)容特征輸入基于內(nèi)容特征的識別網(wǎng)絡(luò)進(jìn)行識別。
表2 短波紅外-可見光數(shù)據(jù)集識別結(jié)果Tab.2 Recognition results on SWIR-VIS dataset
在自建短波-可見光人臉數(shù)據(jù)集上,跨模態(tài)人臉識別實驗結(jié)果如表2所示。采用預(yù)訓(xùn)練的VGG-Face進(jìn)行特征提取識別的Rank-1準(zhǔn)確率僅為22.42%,與可見光人臉識別算法對圖像翻譯結(jié)果進(jìn)行識別的準(zhǔn)確率相當(dāng)。DVG框架中訓(xùn)練得到的識別網(wǎng)絡(luò)在測試集上的識別準(zhǔn)確率為66.04%。采用原DRIT模型內(nèi)容特征編碼器提取內(nèi)容特征的Rank-1準(zhǔn)確率為75.97%,優(yōu)于將圖像翻譯結(jié)果直接用于識別的方案,也優(yōu)于Bihn等提出的基于VGG-Face的方法和DVG方案。在僅應(yīng)用跨域內(nèi)容一致性損失函數(shù)時(DRIT+L-cross),模型的Rank-1準(zhǔn)確率提高了6.31%;在僅應(yīng)用域內(nèi)內(nèi)容一致性損失函數(shù)時(DRIT+L-intra),模型的Rank-1準(zhǔn)確率相較于改進(jìn)前提升了8.86%;當(dāng)采用本文改進(jìn)得到的圖像內(nèi)容特征提取器時(DRIT-adv),模型的Rank-1準(zhǔn)確率達(dá)到88.86%。
本文提出的基于內(nèi)容特征提取的方案有效地消除了模態(tài)差異對識別的干擾,構(gòu)建的基于內(nèi)容特征的識別網(wǎng)絡(luò)可以依據(jù)內(nèi)容特征完成短波紅外-可見光人臉識別。而本文對DRIT模型做出的改進(jìn)在單獨應(yīng)用(DRIT+Lcross,DRIT+L-intra)與聯(lián)合應(yīng)用(DRIT-adv)時均有效提升了內(nèi)容特征提取器對圖像內(nèi)容特征提取的準(zhǔn)確性,提高了整體識別框架識別的準(zhǔn)確率。
本文提出了基于內(nèi)容特征提取的短波紅外-可見光人臉圖像識別框架。將短波-可見光人臉識別問題分解為內(nèi)容特征提取和基于內(nèi)容特征的識別兩個子問題進(jìn)行處理,以克服光譜特性差異帶來的圖像模態(tài)差異的干擾。提出將無監(jiān)督圖像翻譯框架提取的內(nèi)容特征用于減小圖像的跨模態(tài)差距并對跨模態(tài)圖像翻譯框架DRIT進(jìn)行了改進(jìn),通過增加域內(nèi)內(nèi)容一致性損失函數(shù)和跨域內(nèi)容一致性損失函數(shù)提升了內(nèi)容特征提取的準(zhǔn)確性。設(shè)計了基于內(nèi)容特征的特征處理、識別網(wǎng)絡(luò),根據(jù)內(nèi)容特征設(shè)置網(wǎng)絡(luò)結(jié)構(gòu),與內(nèi)容特征提取器共同構(gòu)成了具有較高識別率的短波紅外-可見光人臉識別框架。在自建短波紅外-可見光人臉數(shù)據(jù)集上進(jìn)行測試,達(dá)到88.86%的識別準(zhǔn)確率。