陳國(guó)軍,曹 岳,楊 靜,裴利強(qiáng)
基于形變模型的多角度三維人臉實(shí)時(shí)重建
陳國(guó)軍,曹 岳,楊 靜,裴利強(qiáng)
(中國(guó)石油大學(xué)(華東)計(jì)算機(jī)與通信工程學(xué)院,山東 青島 266580)
采用人臉特征點(diǎn)調(diào)整三維形變模型的方法應(yīng)用于面部三維重建,但模型形變的計(jì)算往往會(huì)產(chǎn)生誤差,且耗時(shí)較長(zhǎng)。因此運(yùn)用人臉二維特征點(diǎn)對(duì)通用三維形變模型的擬合方法進(jìn)行改進(jìn),提出了一種視頻流的多角度實(shí)時(shí)三維人臉重建方法。首先利用帶有三層卷積網(wǎng)絡(luò)的CLNF算法識(shí)別二維特征點(diǎn),并跟蹤特征點(diǎn)位置;然后由五官特征點(diǎn)位置估計(jì)頭部姿態(tài),更新模型的表情系數(shù),其結(jié)果再作用于PCA形狀系數(shù),促使當(dāng)前三維模型發(fā)生形變;最后采用ISOMAP算法提取網(wǎng)格紋理信息,進(jìn)行紋理融合形成特定人臉模型。實(shí)驗(yàn)結(jié)果表明,該方法在人臉重建過(guò)程中具有更好的實(shí)時(shí)性能,且精確度有所提高。
三維形變模型;特征點(diǎn)提??;表情系數(shù);PCA形狀系數(shù);紋理融合
隨著視覺(jué)感知和獲取技術(shù)的發(fā)展,近年來(lái),人臉三維重建的精確度逐步提高,其流行方法包括激光掃描、結(jié)構(gòu)化光掃描、RGBD相機(jī)[1]等。同時(shí),3D人臉模型被廣泛應(yīng)用于建模[2]、動(dòng)畫[3]、游戲[4]、信息安全和3D打印[5]等領(lǐng)域。但是,當(dāng)前的人臉三維模型往往需要通過(guò)昂貴的設(shè)備和相當(dāng)高水平的專業(yè)知識(shí)來(lái)實(shí)現(xiàn)高質(zhì)量的捕獲和重建[6],遠(yuǎn)遠(yuǎn)超出了一般終端用戶的能力,因此限制了該技術(shù)的潛在應(yīng)用。
從二維圖像中重建人臉三維模型無(wú)需昂貴的設(shè)備和專業(yè)的操作,具有制作成本低、使用方便、利于推廣等優(yōu)點(diǎn),一直是該領(lǐng)域的研究熱點(diǎn)?;趫D像的人臉建模最常用的2種方法為基于明暗恢復(fù)形狀的方法和基于形變模型的方法。HORN[7]早在20世紀(jì)70年代就提出了通過(guò)圖像明暗變化恢復(fù)物體外觀形狀的方法,類似于物體成像的逆過(guò)程,根據(jù)人臉照片的亮度變化恢復(fù)人臉模型的表面形狀。其優(yōu)點(diǎn)在于數(shù)據(jù)集的需求較小,通過(guò)少量人臉圖像恢復(fù)人臉的形狀模型,但該模型所需條件過(guò)于理想化,對(duì)拍攝角度、光照方向有要求,實(shí)時(shí)性較差,無(wú)法被廣泛應(yīng)用。
BLANZ和VETTER[8]提出的三維形變模型(3D morphable model, 3DMM)法是目前較為成功的利用二維圖像進(jìn)行人臉重構(gòu)的方法。通過(guò)建立三維人臉的線性組合,結(jié)合二維圖像調(diào)節(jié)、擬合得到重構(gòu)的三維人臉。其創(chuàng)造性地將一個(gè)具體的人臉模型分解為形狀和紋理2個(gè)部分,且具有高度自動(dòng)化和真實(shí)感強(qiáng)的優(yōu)勢(shì),在人臉三維重建領(lǐng)域廣受關(guān)注。文獻(xiàn)[9]通過(guò)在二維圖像和三維面部模型數(shù)據(jù)集上訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),在不考慮細(xì)節(jié)和紋理特征的情況下,能夠?qū)崿F(xiàn)任意姿態(tài)和表情的面部幾何重建。文獻(xiàn)[10]提出了一種高保真姿態(tài)和表情的方法,利用姿態(tài)變換造成二維和三維特征點(diǎn)的不對(duì)應(yīng)關(guān)系,采用三維形變模型自動(dòng)生成正面姿態(tài)和中性表情的自然人臉模型。文獻(xiàn)[11]通過(guò)大量的數(shù)據(jù)標(biāo)記,提出了一種魯棒性的,由輸入照片直接返回3DMM形狀和紋理參數(shù)的回歸方法,克服了模型泛化問(wèn)題,生成可用于人臉識(shí)別的三維人臉模型。文獻(xiàn)[12]發(fā)布了SFM (surrey face model)三維形變模型,并提出采用級(jí)聯(lián)回歸方法擬合3DMM參數(shù),實(shí)現(xiàn)了基于視頻重建三維人臉模型的算法4dface,這是面部建模領(lǐng)域的一大飛躍。
盡管對(duì)圖像和視頻的三維建模已有大量的研究,但是從視頻中實(shí)時(shí)重建帶有表情的精確三維人臉仍有很大的改進(jìn)空間。本文提出一種從普通人像視頻中自動(dòng)實(shí)時(shí)重建三維人臉模型的方法,支持側(cè)臉角度[–40°, 40°],俯仰角度[–20°, 20°]下的頭部姿態(tài),在該范圍內(nèi),相機(jī)從不同角度拍攝人臉,采用線性回歸的方法擬合不同角度和姿態(tài)的人臉二維特征點(diǎn)和三維形狀模型,重建過(guò)程中使用頭部姿態(tài)和表情系數(shù)調(diào)整模型細(xì)節(jié)狀態(tài),最后在300W人臉數(shù)據(jù)集上驗(yàn)證了本文算法在重建擬合時(shí)間和模型準(zhǔn)確度上均有所提高。
本文旨在實(shí)現(xiàn)實(shí)時(shí)重建出具有辨識(shí)度的三維人臉模型,過(guò)程中不需要嚴(yán)格的定義人物姿態(tài),也無(wú)需昂貴的深度獲取設(shè)備和專業(yè)人員的操作,以及后期的加工處理,是一種簡(jiǎn)單、可廣泛推廣的快速人臉建模方法?;诙S圖像進(jìn)行三維模型的重建往往對(duì)模型和人臉的初始狀態(tài)有很強(qiáng)的依賴,因此圖像特征和通用模型的選擇是后續(xù)重構(gòu)計(jì)算的基礎(chǔ)。本文選擇三維形變模型作為通用形變模型,用于和二維特征點(diǎn)的擬合運(yùn)算。同時(shí),選取68個(gè)特征點(diǎn)描述人臉特征,并采用受約束的局部神經(jīng)域模型(constrained local neural fields, CLNF)算法[13]獲取特征點(diǎn)信息。
三維人臉模型可以表示多個(gè)對(duì)象類的表面,每個(gè)人臉由一組頂點(diǎn)組成,由頂點(diǎn)在三維空間中的坐標(biāo)共同描述人臉形狀;每個(gè)頂點(diǎn)均對(duì)應(yīng)一個(gè)RGB像素值,表示人臉皮膚紋理。由此,面部模型可以表示為多點(diǎn)組成的網(wǎng)格{v|i=1,2,···,},為網(wǎng)格的頂點(diǎn)數(shù),則人臉的第個(gè)頂點(diǎn)v的坐標(biāo)為w=(x,y,z)T,RGB顏色由(r,g,b)表示,一個(gè)3D人臉可以用一對(duì)形狀和紋理向量進(jìn)行描述:(1,1,1,···,x,y,z)T,(1,1,1,···,r,g,b)T。
每個(gè)人臉都是獨(dú)一無(wú)二的,由特定的人臉形狀和皮膚紋理組成,通過(guò)由和的概率分布構(gòu)成的統(tǒng)計(jì)三維人臉模型,可以捕捉到特定個(gè)體人臉的形變。本文使用主成分分析法(principal component analysis, PCA)表示和的空間分布,設(shè)和為PCA基矩陣,其中r為形狀變化;r為紋理變化,一個(gè)人臉實(shí)例可表示為
其中,0,0分別為平均人臉的形狀和紋理,假設(shè)系數(shù)和服從正態(tài)分布:()~(0,σ),()~(0,σ)。其中,σ,σ是最貼近真實(shí)人臉模型的形狀參數(shù)和紋理參數(shù)的變化系數(shù)。
由一個(gè)人臉模型的平均向量和基向量可擬合成一個(gè)特定人臉,不同的模型參數(shù)和對(duì)應(yīng)不同的人臉,這種統(tǒng)計(jì)三維模型變形能力被稱為3DMM。
面部特征點(diǎn)的提取是圖像重建技術(shù)的基礎(chǔ),可建立二維人臉與其對(duì)應(yīng)三維模型之間的關(guān)系。本文采用目前較好的人臉特征點(diǎn)檢測(cè)器CLNF算法進(jìn)行68個(gè)面部特征點(diǎn)檢測(cè)和跟蹤。該算法是基于約束局部模型(constrained local model, CLM)[14]的改進(jìn),引入了一種包含神經(jīng)網(wǎng)絡(luò)層的局部神經(jīng)域,可以捕獲像素值和輸出響應(yīng)之間復(fù)雜的非線性關(guān)系,加強(qiáng)稀疏性,使結(jié)果更加準(zhǔn)確。
CLNF特征點(diǎn)檢測(cè)器由2部分組成:①點(diǎn)分布模型 (point distribution model, PDM)用于捕捉形狀變化,包括34個(gè)非剛性和6個(gè)剛性形狀參數(shù)來(lái)描述人臉形狀;②局部貼片patch experts 用于捕捉特征點(diǎn)局部細(xì)節(jié)變化。其可以在不同姿態(tài)、不同光照、或低或高的分辨率下,準(zhǔn)確跟蹤人臉,并在IBUG數(shù)據(jù)集上進(jìn)行了測(cè)試,如圖1所示。
圖1 IBUG數(shù)據(jù)集上檢測(cè)人臉特征點(diǎn)
本文從視頻連續(xù)幀人臉圖像實(shí)時(shí)重建出帶有紋理細(xì)節(jié)的三維面部模型,彌補(bǔ)了單張圖片重建的自遮擋問(wèn)題,由特征點(diǎn)跟蹤不同角度人臉變化,實(shí)時(shí)矯正形變模型,逐步優(yōu)化,而非一次性重建出最終結(jié)果,在細(xì)節(jié)和準(zhǔn)確度方面均有較好的效果。
從視頻中提取一幀圖像,首先需利用Haar分類器檢測(cè)人臉區(qū)域,再利用CLNF算法在區(qū)域內(nèi)識(shí)別人臉特征點(diǎn)的二維位置;然后初始化SFM統(tǒng)計(jì)模型(如果是第一幀人臉圖像,則初始化平均模型,否則采用上一幀的形變模型),采用黃金標(biāo)準(zhǔn)算法[15]由五官特征點(diǎn)二維位與其在三維模型中的對(duì)應(yīng)坐標(biāo)計(jì)算當(dāng)前人臉姿態(tài)和仿射相機(jī)矩陣,通過(guò)2次線性回歸,求解表情系數(shù)和PCA形狀系數(shù),使三維模型發(fā)生形變。重建方法流程如圖2所示。
從視頻連續(xù)幀可以獲取不同角度的人臉圖像,每張人臉圖像均可跟蹤到68個(gè)特征點(diǎn),并擬合一個(gè)形變的三維模型。本文將前一幀形變后的三維模型作為后一幀模型形變的基礎(chǔ),使得最終生成的三維模型經(jīng)歷了不同角度人臉姿態(tài)的擬合變形,使其更接近真實(shí)人臉形狀。同時(shí),在姿態(tài)角度變化過(guò)程中,還可以全方位獲取人臉的紋理細(xì)節(jié)特征。
圖2 方法流程圖
建立稠密對(duì)齊的人臉模型,以便于采用統(tǒng)一的向量形式來(lái)表示人臉形狀,使得每個(gè)三維頂點(diǎn)在形變過(guò)程中保持相同的物理意義。
本文采用的稠密對(duì)齊模型是SFM形變模型,共有3 448個(gè)頂點(diǎn),可生成6 736個(gè)密集對(duì)應(yīng)的三角面片,包含一個(gè)PCA形狀模型,一個(gè)PCA顏色模型以及相關(guān)數(shù)據(jù)源,諸如2D紋理展開表示特征點(diǎn)語(yǔ)義對(duì)應(yīng)屬性等。SFM模型的構(gòu)建過(guò)程中,使用3dMDface2相機(jī)系統(tǒng)對(duì)169個(gè)不同種族、不同年齡的人臉進(jìn)行掃描,覆蓋了多元文化的人臉特征信息,得到的PCA基矩陣包含63個(gè)形狀特征向量和132個(gè)顏色特征向量,保留了99%的原始數(shù)據(jù)變化。一個(gè)新生成的人臉形狀模型可表示為
其中,M=63為主成分?jǐn)?shù),主成分集合V={v1,v2,···,vM},分別表示臉型長(zhǎng)寬、大小、圓臉、方臉等不同面部形狀特征;α為主成分變化系數(shù)。圖3為隨機(jī)設(shè)置不同PCA形狀系數(shù)生成的人臉模型。
除此之外,鑒于表情是人臉的重要屬性之一,為了在重建過(guò)程中能夠保留原視頻中生動(dòng)的表情信息,本文定義了一種表情模型(blendshapes)作為參考模型,可表示為
其中,Sα為形狀系數(shù)生成的模型;k=6為主元表情個(gè)數(shù),分別是生氣、厭惡、害怕、高興、悲傷及驚訝;γi為每種表情變化系數(shù);E為主要表情向量組。以平均人臉形狀為基礎(chǔ)模型,分別調(diào)整6個(gè)系數(shù),可生成具有不同表情的形狀模型,如圖4所示。
綜上,本文的面部模型由PAC的形狀模型和表情模型共同構(gòu)成,二者均屬于線性模型,相互獨(dú)立,且有各自獨(dú)立的系數(shù)和成分;又相互作用,表情模型可以在形狀模型的基礎(chǔ)上形變,形狀模型也可以在表情模型的基礎(chǔ)上形變。
本文提出一種基于表情系數(shù)和PCA形狀系數(shù)的線性回歸擬合方法。單目視頻序列中跟蹤每一幀圖像的68個(gè)特征點(diǎn),選取50個(gè)中心區(qū)域(眉毛、眼睛、鼻子、嘴)的特征點(diǎn),采用齊次坐標(biāo)x?3表示。可以避免由于人臉角度變化太大或自遮擋造成的臉部輪廓的特征點(diǎn)丟失或不準(zhǔn)。根據(jù)SFM模型的2D-3D特征點(diǎn)對(duì)應(yīng)關(guān)系元數(shù)據(jù),得到特征點(diǎn)在該模型中的三維坐標(biāo)X?4,也用齊次坐標(biāo)表示,從而計(jì)算出表示當(dāng)前頭部姿態(tài)的3×4仿射相機(jī)矩陣,包括3×3的旋轉(zhuǎn)參數(shù),平移參數(shù),,以及縮放比例。
給定相機(jī)矩陣和該組二維特征點(diǎn),可通過(guò)最小化損失函數(shù)計(jì)算當(dāng)前表情系數(shù),即
其中,為特征點(diǎn)的數(shù)量;y為第個(gè)特征點(diǎn)的齊次坐標(biāo);y為第個(gè)特征點(diǎn)對(duì)應(yīng)的三維模型坐標(biāo)通過(guò)估計(jì)的相機(jī)矩陣投影到二維坐標(biāo)系中的坐標(biāo)顯示,即
將求解的表情系數(shù)帶入式(2),通用模型發(fā)生第1次形變擬合,使模型與原始圖像具有相同的姿態(tài)和表情。
對(duì)于表示人臉輪廓的邊界區(qū)域特征點(diǎn),可根據(jù)人臉姿態(tài)將剩余18個(gè)特征點(diǎn)劃分為2類。引入可見(jiàn)的一側(cè)二維輪廓點(diǎn)作為額外對(duì)應(yīng)點(diǎn),參與PCA形狀系數(shù)的擬合,建立代價(jià)方程,滿足人臉真實(shí)二維特征點(diǎn)和模型投影到二維圖像的特征點(diǎn)的距離最小,如式(3)的損失函數(shù),代替,不同的是三維模型投影到二維空間的特征點(diǎn)的計(jì)算,即
將所得的PCA形狀系數(shù)代入式(2),通用模型發(fā)生第2次形變,其符合視頻中人臉形狀的擬合變形。至此,算法完成了當(dāng)前角度和姿態(tài)下的三維模型形狀的2次擬合,最終生成的模型將用于下一幀數(shù)據(jù)的迭代擬合,如圖5所示。
圖5 擬合過(guò)程
模型擬合完成之后,將該幀面部紋理映射到isomap[17],即每個(gè)像素均能在三維網(wǎng)格的全局映射中得到體現(xiàn)。isomap是一種將三維模型三角網(wǎng)格投影到二維空間的紋理映射圖,其能夠保持平面內(nèi)兩點(diǎn)的幾何距離不變,如圖6(a)所示。
圖6 紋理映射與投影
對(duì)于映射圖中的每個(gè)像素點(diǎn)(,),可根據(jù)相機(jī)矩陣計(jì)算出當(dāng)前人臉姿態(tài),求出該點(diǎn)在當(dāng)前姿態(tài)下是否可見(jiàn)∈(01),若可見(jiàn),將該點(diǎn)對(duì)應(yīng)的RGB賦值到映射圖中的相應(yīng)位置。在多角度三維人臉紋理映射過(guò)程中,基于isomap全局映射網(wǎng)格的緊密對(duì)應(yīng)關(guān)系,記錄網(wǎng)格中每個(gè)點(diǎn)的可見(jiàn)度,初始狀態(tài)下為不可見(jiàn)=0,若當(dāng)前角度下計(jì)算得=1,則將該點(diǎn)顏色值映射到網(wǎng)格,遍歷多角度二維圖像,逐步填充映射圖中不可見(jiàn)區(qū)域,最終生成完整的人臉紋理映射圖。
針對(duì)本文提出的基于形變模型的多角度重建方法,與當(dāng)前流行的視頻重建算法進(jìn)行精確度、時(shí)間和渲染效果3方面的對(duì)比實(shí)驗(yàn)。數(shù)據(jù)集使用300W人臉數(shù)據(jù)集,平臺(tái)筆記本配置為Intel(R) Core(TM)i5-7200U處理器,2.50 GHz 主頻,8 GB內(nèi)存,以及NVIDIA GeForce 930MX顯卡。
實(shí)驗(yàn)1. 精確度對(duì)比
隨機(jī)提取300W數(shù)據(jù)集中的若干張圖片,首先標(biāo)記出數(shù)據(jù)集標(biāo)記的68個(gè)特征點(diǎn)位置如圖6(b)空心方塊;然后用本文方法對(duì)SFM三維形變模型進(jìn)行擬合變形并將模型頂點(diǎn)投影到二維平面,如圖6密集實(shí)心點(diǎn),而空心圓則是模型投影的特征點(diǎn)位置。
計(jì)算特征點(diǎn)的均方根誤差(root mean square error, RMSE)用于衡量模型擬合的精確度,實(shí)驗(yàn)中,采集了數(shù)據(jù)集中不同角度的人臉圖像,并與4dface采用模型擬合算法進(jìn)行對(duì)比,如圖7所示,結(jié)果顯示本文方法擬合精確度更高。
圖7 精確度對(duì)比圖
實(shí)驗(yàn)2.時(shí)間對(duì)比
本文通過(guò)改善特征點(diǎn)提取方式,減少迭代次數(shù),優(yōu)化擬合算法,從而極大地提高了實(shí)時(shí)性能。4dface的視頻圖像人臉重建幀率大約在4~7 fps,本文重建的實(shí)時(shí)幀率約為20~25 fps。
表1 平均耗時(shí)對(duì)比(毫秒/幀)
表1對(duì)比了每一幀圖像在特征點(diǎn)提取和三維形變模型擬合過(guò)程中平均消耗的時(shí)間,證明本文算法在實(shí)時(shí)性能方面具有魯棒性。
實(shí)驗(yàn)3.渲染效果
模型渲染效果的好壞是三維面部模型最直觀的表現(xiàn)。本文提出的紋理渲染是一種由粗到細(xì),隨著視頻中人臉角度變化逐步填充自遮擋區(qū)域的紋理獲取方法,相比于4dface采用的紋理疊加取平均的方法,更能保障人臉細(xì)節(jié)特征不丟失不模糊,且基本還原了所有面部細(xì)節(jié),如痘痘、斑點(diǎn)及皺紋;放大局部圖像,發(fā)現(xiàn)眼部細(xì)節(jié)未隨著角度變化而模糊,如圖8所示。
圖8(a)展示了人臉的整體重建效果,依次是本文方法多角度重建、單張圖的重建及4dface方法的重建;圖8(b)放大眼部圖像,可以看出本文的方法與4dface相比,紋理更加清晰;圖8(c)放大鼻子圖像,顯示本文方法解決了單張圖像重建的自遮擋導(dǎo)致的局部“空洞”問(wèn)題;圖8(d)為本文在表情重建方面的效果。
圖8 模型渲染效果圖
本文通過(guò)視頻流多角度人臉圖像,結(jié)合形變模型進(jìn)行三維人臉模型的實(shí)時(shí)重建。多角度的人臉拍攝彌補(bǔ)了基于單張圖片進(jìn)行三維重建的自遮擋導(dǎo)致局部信息缺失問(wèn)題;三維形變模型的方法解決了基于二維圖像重建三維模型所存在的深度信息缺失問(wèn)題。并且,本文的重建是全自動(dòng),無(wú)需手動(dòng)干預(yù)的實(shí)時(shí)重建方法,自動(dòng)特征點(diǎn)的定位算法的引入,提高了特征點(diǎn)定位的準(zhǔn)確性和效率。本文提出的形變擬合方算法,與傳統(tǒng)擬合過(guò)程相比,極大降低了時(shí)間開銷,同時(shí)精確度也略有提高。最后在紋理融合階段,本文紋理提取方法能夠保留面部紋理細(xì)節(jié),使重建模型更具真實(shí)感。但紋理提取容易受到光照的影響,如果面部光照極不均勻,可能造成重建模型的皮膚紋理深淺不一致的情況,這將是后續(xù)研究的工作。
[1] KHOSHELHAM K, ELBERINK S O. Accuracy and resolution of kinect depth data for indoor mapping applications [J]. Sensors, 2012, 12(2): 1437-1454.
[2] 欒悉道, 應(yīng)龍, 謝毓湘, 等. 三維建模技術(shù)研究進(jìn)展[J]. 計(jì)算機(jī)科學(xué), 2008, 35(2): 208-210, 229.
[3] HU L W, LI H, SAITO S, et al. Avatar digitization from a single image for real-time rendering [J]. ACM Transactions on Graphics, 2017, 36(6): 1-14.
[4] LIM C P, NONIS D, HEDBERG J. Gaming in a 3D multiuser virtual environment: Engaging students in science lessons [J]. British Journal of Educational Technology, 2006, 37(2): 211-231.
[5] 李小麗, 馬劍雄, 李萍, 等. 3D打印技術(shù)及應(yīng)用趨勢(shì)[J]. 自動(dòng)化儀表, 2014, 35(1): 1-5.
[6] LI T Y, BOLKART T, BLACK M J, et al. Learning a model of facial shape and expression from 4D scans [J]. ACM Transactions on Graphics, 2017, 36(6): 1-17.
[7] HORN B K P. Height and gradient from shading [J]. International Journal of Computer Vision, 1990, 5(1): 37-75.
[8] BLANZ V, VETTER T. Face recognition based on fitting a 3D morphable model [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2003, 25(9): 1063-1074.
[9] JACKSON A S, BULAT A, ARGYRIOU V, et al. Large pose 3D face reconstruction from a single image via direct volumetric CNN regression [C]//2017 IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2017: 1031-1039.
[10] ZHU X Y, LEI Z, YAN J J, et al. High-fidelity pose and expression normalization for face recognition in the wild [C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 90-98.
[11] TRAN A T, HASSNER T, MASI I, et al. Regressing robust and discriminative 3D morphable models with a very deep neural network [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Computer Society, 2017: 1493-1502.
[12] HUBER P, HU G S, TENA R, et al. A multiresolution 3D morphable face model and fitting framework [EB/OL]. [2018-09-13]. http://epubs.surrey.ac.uk/809478/.
[13] BALTRUSAITIS T, ROBINSON P, MORENCY L P. Constrained local neural fields for robust facial landmark detection in the wild [C]//2013 IEEE International Conference on Computer Vision Workshops. New York: IEEE Press, 2013: 354-361.
[14] CRISTINACCE D, COOTES T. Automatic feature localisation with constrained local models [J]. Pattern Recognition, 2008, 41(10): 3054-3067.
[15] HARTLEY R, ZISSERMAN A. Multiple view geometry in computer vision [M]. Cambridge: Cambridge University Press, 2003: 102-107.
[16] LAWSON C L, HANSON R J. Solving least squares problems [J]. Society for Industrial and Applied Mathematics, 1995, 77(1): 673-682.
[17] TENENBAUM J B. A global geometric framework for nonlinear dimensionality reduction [J]. Science, 2000, 290(5500): 2319-2323.
Real-Time Reconstruction of Multi-Angle 3D Human Faces Based on Morphable Model
CHEN Guo-jun, CAO Yue, YANG Jing, PEI Li-qiang
(College of Computer and Communication Engineering, China University of Petroleum, Qingdao Shandong 266580, China)
The method that uses face landmarks to adjust the 3D morphable model is widely applied in 3D face reconstruction, but the calculation of morphable model is time-consuming and often produces errors. In this paper, we improve the fitting method of general 3D morphable model using 2D landmarks of face, and propose a real-time 3D face reconstruction method with multiple angles of video frames. First of all, we recognize the location of landmarks by the CLNF algorithm with three-layer convolutional neural networks and track the landmarks. Then, the head posture is estimated from five senses of face landmarks, and the blendshape coefficients of the model is updated, which can be used to calculate the PCA shape coefficients so as to promote the deformation of the current 3D model. Finally, we employ the ISOMAP algorithm to extract the texture information of the mesh, and proceed texture fusion to form a specific face model. Experimental results demonstrate that our method has better real-time performance and accuracy in 3D face reconstruction.
3D morphable model; landmarks extraction; blendshape coefficients; PCA shape coefficients; texture fusion
TP 391
10.11996/JG.j.2095-302X.2019040659
A
2095-302X(2019)04-0659-06
2018-11-13;
定稿日期:2018-11-21
國(guó)家“863”計(jì)劃主題項(xiàng)目子課題(2015AA016403);虛擬現(xiàn)實(shí)技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室(北京航空航天大學(xué))開放基金(BUAA-VR-15KF-13)
陳國(guó)軍(1968-),男,江蘇如東人,副教授,博士,碩士生導(dǎo)師。主要研究方向?yàn)閳D形圖像處理、計(jì)算機(jī)視覺(jué)等。E-mail:chengj@upc.edu.cn