李悅 山東科技大學(xué)
基于級(jí)聯(lián)深度卷積神經(jīng)網(wǎng)絡(luò)的面部特征點(diǎn)定位算法
李悅 山東科技大學(xué)
面部的特征點(diǎn)準(zhǔn)確定位對(duì)于表情識(shí)別和面部動(dòng)畫合成等應(yīng)用具有重要的意義。隨著網(wǎng)絡(luò)時(shí)代自拍的盛行,人們對(duì)于實(shí)際應(yīng)用場(chǎng)景中不同光照,角度和遮擋條件下的準(zhǔn)確特征點(diǎn)定位提出了更高的要求。本文設(shè)計(jì)了一種基于級(jí)聯(lián)的深度卷積神經(jīng)網(wǎng)絡(luò)的面部特征點(diǎn)定位算法,在初步特征點(diǎn)識(shí)別的基礎(chǔ)上利用級(jí)聯(lián)網(wǎng)絡(luò)進(jìn)行回歸優(yōu)化擬合,從而達(dá)到了精確定位的效果。
深度卷積神經(jīng)網(wǎng)絡(luò) 級(jí)聯(lián) 面部特征點(diǎn)
面部特征點(diǎn)識(shí)別是指根據(jù)輸入的人臉圖像,自動(dòng)識(shí)別出眼角、眉心、鼻尖、嘴角、輪廓等特征點(diǎn)的位置。面部特征點(diǎn)的識(shí)別是面部屬性分析、老化模擬、人臉對(duì)齊以及動(dòng)畫合成等等問(wèn)題的基礎(chǔ),實(shí)現(xiàn)精確的面部特征點(diǎn)定位具有重要的意義。本文設(shè)計(jì)的級(jí)聯(lián)深度神經(jīng)網(wǎng)絡(luò)算法具有兩級(jí)網(wǎng)絡(luò)結(jié)構(gòu),其中一級(jí)網(wǎng)絡(luò)負(fù)責(zé)特征點(diǎn)的識(shí)別,二級(jí)網(wǎng)絡(luò)實(shí)現(xiàn)特征點(diǎn)的定位優(yōu)化。
深 度 卷 積 神 經(jīng) 網(wǎng) 絡(luò)(Deep Convolutional Neural Network,DCNN)是近些年來(lái)興起的一種高效的識(shí)別方法,在數(shù)字圖像處理的諸多領(lǐng)域都取得了很好的效果。DCNN的基本結(jié)構(gòu)由特征提取和特征映射兩部分構(gòu)成,通過(guò)局部感知和神經(jīng)元權(quán)值共享的方法,我們可以堆疊出一個(gè)深層的結(jié)構(gòu)并能夠從數(shù)據(jù)中學(xué)習(xí)到很好地效果。
我們首先利用一個(gè)9層的深度卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)面部特征點(diǎn)大致區(qū)域定位。由于網(wǎng)絡(luò)的最后兩層是全連接層,輸入圖像的尺寸必須是固定大小,因此針對(duì)候選的人臉區(qū)域,將其縮放到39×39像素大小。對(duì)于輸入圖像,先后用一個(gè)4×4和兩個(gè)3×3的卷積核對(duì)圖像進(jìn)行卷積操作,每個(gè)卷積層后面進(jìn)行最大值池化來(lái)降低參數(shù)的數(shù)量,提高網(wǎng)絡(luò)的效率。最后,通過(guò)兩個(gè)全連接層對(duì)坐標(biāo)參數(shù)進(jìn)行回歸,由于實(shí)驗(yàn)中采用了眼角、鼻尖、嘴角的標(biāo)注,最終輸出層的神經(jīng)元數(shù)目為10,代表了回歸出的5個(gè)特征點(diǎn)的二維坐標(biāo)值。
在神經(jīng)網(wǎng)絡(luò)的選取過(guò)程中,本文選取了以下三個(gè)優(yōu)化方法。①適度增加神經(jīng)網(wǎng)絡(luò)的深度。在大范圍圖像上進(jìn)行特征點(diǎn)識(shí)別是一個(gè)高層特征的任務(wù),通過(guò)增加神經(jīng)網(wǎng)絡(luò)的深度,高層的神經(jīng)元可以接受更大區(qū)域的輸入信息,增強(qiáng)輸入輸出的非線性相關(guān)程度,實(shí)現(xiàn)更好的定位效果。②選取雙曲正切函數(shù)作為激活函數(shù),并在激活函數(shù)層后添加絕對(duì)值映射,從而保留更多的對(duì)比信息,應(yīng)對(duì)低對(duì)比度的情況。③利用局部的神經(jīng)元權(quán)值共享。人臉圖像具有相對(duì)固定的空間布局,因此全局的神經(jīng)元權(quán)值共享無(wú)法反映出局部區(qū)域的特征差異。本文針對(duì)人臉圖像進(jìn)行分塊,對(duì)局部的權(quán)值進(jìn)行共享,從而更好地提取圖像特征。
通過(guò)一級(jí)的神經(jīng)網(wǎng)絡(luò),我們得到了面部特征點(diǎn)的大致位置。我們通過(guò)五個(gè)淺層的神經(jīng)網(wǎng)絡(luò)組成次級(jí)特征點(diǎn)優(yōu)化網(wǎng)絡(luò),針對(duì)特征點(diǎn)所在的局部區(qū)域進(jìn)行分析和處理,從而回歸出特征點(diǎn)的精確位置。
五個(gè)子網(wǎng)絡(luò)分別針對(duì)五個(gè)特征點(diǎn)進(jìn)行坐標(biāo)的回歸。選取一級(jí)網(wǎng)絡(luò)得到的特征點(diǎn)周圍15×15的區(qū)域,分別作為五個(gè)子網(wǎng)絡(luò)的輸入圖像。我們先后采用一個(gè)4×4和一個(gè)3×3的卷積核對(duì)局部圖像進(jìn)行卷積操作,每個(gè)卷積層后面接最大值池化層操作。最后是兩個(gè)全連接層,由于每個(gè)子網(wǎng)絡(luò)只針對(duì)一個(gè)點(diǎn)進(jìn)行回歸,因此輸出層的神經(jīng)元數(shù)目為2,代表了對(duì)應(yīng)坐標(biāo)點(diǎn)的二維坐標(biāo)值。由于次級(jí)網(wǎng)絡(luò)的坐標(biāo)回歸是在局部圖像上進(jìn)行的,對(duì)于次級(jí)網(wǎng)絡(luò)的輸出需要進(jìn)行線性坐標(biāo)映射還原到原圖上去,從而形成最終的網(wǎng)絡(luò)輸出。
在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程中,針對(duì)一級(jí)網(wǎng)絡(luò),我們利用現(xiàn)有的人臉標(biāo)注庫(kù)作為訓(xùn)練數(shù)據(jù)。針對(duì)二級(jí)網(wǎng)絡(luò),我們采用相應(yīng)標(biāo)注點(diǎn)為中心的圖像區(qū)域作為訓(xùn)練圖像。二級(jí)的級(jí)聯(lián)結(jié)構(gòu)能夠同時(shí)利用圖像的深度特征和區(qū)域的局部相關(guān)信息,利用深度網(wǎng)絡(luò)在大尺度上進(jìn)行特征點(diǎn)的區(qū)域定位,進(jìn)而利用淺層網(wǎng)絡(luò)實(shí)現(xiàn)局部的優(yōu)化和擬合,從而兼顧了精確度和效率,為后續(xù)在移動(dòng)端的部署打下了基礎(chǔ)。
下圖是我們選取了一些具有代表的實(shí)驗(yàn)結(jié)果。從左到右,分別代表了大角度側(cè)臉,大幅度特殊表情,區(qū)域遮擋和低對(duì)比度暗光照四種常見的難處理場(chǎng)景。我們用綠點(diǎn)標(biāo)記了眼角、鼻尖和嘴角五個(gè)特征點(diǎn)的識(shí)別情況,可以看到本文提出的基于級(jí)聯(lián)深度卷積神經(jīng)網(wǎng)絡(luò)的面部特征點(diǎn)識(shí)別算法具有很強(qiáng)的魯棒性,在各種復(fù)雜的場(chǎng)景下都能夠?qū)崿F(xiàn)特征點(diǎn)的準(zhǔn)確識(shí)別和精確的定位。
本文提出了一種基于級(jí)聯(lián)深度卷積神經(jīng)網(wǎng)絡(luò)的面部特征點(diǎn)識(shí)別算法,構(gòu)造了二級(jí)級(jí)聯(lián)的網(wǎng)絡(luò)結(jié)構(gòu),分別對(duì)面部圖像進(jìn)行特征點(diǎn)的區(qū)域定位和坐標(biāo)的優(yōu)化。相關(guān)實(shí)驗(yàn)表明算法在實(shí)際應(yīng)用的復(fù)雜場(chǎng)景中具有很強(qiáng)的魯棒性和極高的識(shí)別精度,為后續(xù)基于面部特征點(diǎn)的操作打下了良好的基礎(chǔ)。
[1]謝鄭楠.基于多任務(wù)特征選擇和自適應(yīng)模型的人臉特征點(diǎn)檢測(cè)[D].北京交通大學(xué),2016
[2]劉俊權(quán).人臉關(guān)鍵特征點(diǎn)定位與識(shí)別研究[D].東南大學(xué),2016
[3]李月龍,靳彥,汪劍鳴,肖志濤,耿磊.人臉特征點(diǎn)提取方法綜述[J].計(jì)算機(jī)學(xué)報(bào),2016,(07):1356-1374
[4]劉暢翔.人臉特征點(diǎn)定位算法及其在人臉識(shí)別的應(yīng)用研究[D].東華理工大學(xué),2015