呂海清+李雪飛
摘要:三維建模是計(jì)算機(jī)圖形學(xué)和計(jì)算機(jī)視覺領(lǐng)域的基本問題。人臉具有共性強(qiáng)及個(gè)性鮮明的特點(diǎn),成為眾多三維建模算法的實(shí)驗(yàn)平臺。但由于人臉的多樣性、復(fù)雜性,建立真實(shí)感強(qiáng)的目標(biāo)三維人臉模型在學(xué)術(shù)研究和實(shí)際應(yīng)用方面都具有重要意義。在文獻(xiàn)梳理的基礎(chǔ)上,闡述了真實(shí)感三維人臉建模理論和實(shí)踐相關(guān)研究成果,總結(jié)了目前三維人臉重建的研究方法,分析了各種三維人臉重建方法的優(yōu)缺點(diǎn),提出了有待進(jìn)一步研究的問題,展望了未來的發(fā)展趨勢。
關(guān)鍵詞:真實(shí)感三維人臉建模;三維數(shù)據(jù)獲取;虛擬現(xiàn)實(shí);計(jì)算機(jī)視覺
DOIDOI:10.11907/rjdk.172298
中圖分類號:TP317.4
文獻(xiàn)標(biāo)識碼:A文章編號文章編號:16727800(2018)001000103
Abstract:Threedimensional modeling is a basic problem in the field of computer graphics and computer vision. Face with its unique common and strong personality and other characteristics, as many advanced 3D modeling algorithm experimental platform. However, due to the diversity of face, complexity, the establishment of a strong sense of the goal of threedimensional face model has become a challenge for many researchers, computer simulation of specific threedimensional face, both in academic research and practical applications are of great significance. On the basis of combing the literature, this paper summarizes the research results of real threedimensional face modeling theory and practice, summarizes the research methods of 3D face reconstruction in recent time, and analyzes the advantages and disadvantages of various 3D face reconstruction methods, a few issues to be further studied and future trends.
Key Words:realistic 3D facial modeling; 3D data acquisition; virtual reality; computer vision
0引言
隨著計(jì)算機(jī)圖形學(xué)及虛擬現(xiàn)實(shí)等技術(shù)的發(fā)展,尤其是虛擬播音員的出現(xiàn),基于虛擬人物設(shè)計(jì)的研究被廣泛重視。人臉包含了大量的特征信息,是辨別人物最主要的器官,特定人臉的計(jì)算機(jī)模擬研究具有重要意義。真實(shí)感三維人臉模型在影視制作、計(jì)算機(jī)游戲、遠(yuǎn)程教育、醫(yī)學(xué)美容、智能識別等應(yīng)用中舉足輕重。在學(xué)術(shù)研究方面,三維人臉重建與表情口型模擬、人臉識別、醫(yī)學(xué)圖像處理、人機(jī)交互等研究課題相輔相成,其研究成果可推動(dòng)相關(guān)研究。Parke[1] 20世紀(jì)70年代建立了第一個(gè)臉部模型,其后研究不斷深入。真實(shí)感三維人臉重建可分為兩種途徑:①采取三維掃描儀等較復(fù)雜的硬件裝置,輔以一些較簡單的算法來獲取人臉的幾何和紋理數(shù)據(jù);②通過普通的相機(jī)獲取人臉圖像,采用比較復(fù)雜的圖形處理結(jié)合計(jì)算機(jī)視覺算法得到人臉數(shù)據(jù)。
1基于幾何數(shù)據(jù)構(gòu)建的三維人臉模型
1.1利用三維激光掃描儀進(jìn)行三維人臉建模
三維激光掃描儀依據(jù)三角測量學(xué)原理直接獲取人臉數(shù)據(jù)。目前,最著名的三維掃描儀是Cyberware公司研發(fā)的,許多研究小組利用此設(shè)備展開研究。Lee等 [2]利用拉普拉斯變換,對掃描儀采集的三維人臉數(shù)據(jù)進(jìn)行預(yù)處理,之后在拉氏空間中提取人臉特征點(diǎn),調(diào)整一般人臉網(wǎng)格模型,得到了較好的目標(biāo)三維人臉模型。針對非均勻三維人臉數(shù)據(jù),Xu等 [3]進(jìn)一步改進(jìn)了自適應(yīng)多精度擬合方法,可以有效解決孔洞和數(shù)據(jù)密度嚴(yán)重不均等問題。丘成桐、顧險(xiǎn)峰等 [4]利用三維映射掃描儀獲取人臉信息,采用基于計(jì)算機(jī)共性幾何進(jìn)行人臉曲面間的變換和紋理共形映射,構(gòu)建出真實(shí)感三維人臉。
三維激光掃描儀雖然可以獲得精度較高的三維人臉數(shù)據(jù),但采集的紋理圖像存在諸多問題:分辨率比數(shù)碼相機(jī)要低,毛發(fā)等反射率較低的部位掃描效果略差,眼睛和牙齒等有遮擋部位無法獲取有效數(shù)據(jù)。所以,有研究者利用圖像處理算法將數(shù)碼相機(jī)拍攝的人臉照片轉(zhuǎn)化為紋理圖,并采用紋理映射技術(shù)提高目標(biāo)人臉模型的真實(shí)感。
1.2基于結(jié)構(gòu)光掃描儀的三維人臉建模
由于三維激光掃描儀費(fèi)用昂貴且對計(jì)算機(jī)硬件要求較高,因此科研者研發(fā)出由投影光源儀和攝像機(jī)構(gòu)成的結(jié)構(gòu)光掃描儀,根據(jù)結(jié)構(gòu)光測距原理,有效解決了雙目視覺中對應(yīng)點(diǎn)匹配問題。Beumier等 [5]基于結(jié)構(gòu)光建立了一個(gè)人臉快速獲取系統(tǒng),并利用該系統(tǒng)構(gòu)建了一個(gè)包括120人的三維人臉數(shù)據(jù)庫,在此基礎(chǔ)上改進(jìn)了基于輪廓線和網(wǎng)格面匹配的三維人臉識別算法;Tarini等 [6]改進(jìn)了人臉圖像與幾何模型的配準(zhǔn)方法,對目標(biāo)人臉器官(牙齒、眼睛)的紋理建模,并在得到的三維人臉模型基礎(chǔ)上進(jìn)行了動(dòng)畫研究。Meyer等 [7]提出一個(gè)基于Kinect的三維人臉建模系統(tǒng)。Macedo等 [8]利用Kinect相機(jī)的彩色傳感器提取面部標(biāo)記點(diǎn),在此基礎(chǔ)上調(diào)整一般人臉模型來配準(zhǔn)單幅深度圖片,進(jìn)而建立目標(biāo)人臉模型。endprint
一般使用復(fù)雜硬件設(shè)備構(gòu)建的三維模型精度和逼真度較高,可以較清晰表述個(gè)性特征,但由于造價(jià)高、處理復(fù)雜、不靈活等因素限制,通常只能在某些特殊場合使用。
2基于圖像構(gòu)建三維人臉模型
2.1基于計(jì)算機(jī)視覺的三維人臉建模
二維圖像中含有深度信息,基于機(jī)器視覺的三維人臉建模方法無需人臉形狀先驗(yàn)知識,可直接運(yùn)用幾何學(xué)和三角測量學(xué)知識獲取二維圖像序列上的人臉三維數(shù)據(jù),重建真實(shí)感的三維人臉。同一物體不同拍攝角度的圖像中含有立體視差,可由立體視覺方法得到;物體相對攝像機(jī)運(yùn)動(dòng)而產(chǎn)生的運(yùn)動(dòng)視差,可通過從運(yùn)動(dòng)形狀恢復(fù)(Structure from Motion,簡稱SFM)的方法進(jìn)行。即便是單幅圖像,物體表面的深度變化也會(huì)經(jīng)光照模型作用到二維圖像中,因此可通過從明暗恢復(fù)形狀的方法恢復(fù)深度信息。
王餛等 [9]提出了采用兩幅正面人臉圖像,利用SFM重建人臉三維結(jié)構(gòu)的方法,運(yùn)用人臉共性特征的幾何對稱性和規(guī)律性,能快速準(zhǔn)確地找出SFM算法需要的匹配點(diǎn);Sengupta等 [10]根據(jù)計(jì)算機(jī)視覺的樣條擬合、仿射變換等技術(shù),基于單視頻序列實(shí)現(xiàn)了三維人臉建模;周佳麗等 [11]提出一種基于雙目被動(dòng)視覺的三維人臉建模方法,采用圖像中弱特征檢測法提取人臉特征關(guān)鍵點(diǎn)并進(jìn)行視差估計(jì),基于復(fù)小波的相位技術(shù)實(shí)現(xiàn)匹配,重建三維人臉。
因?yàn)闆]有人臉結(jié)構(gòu)先驗(yàn)知識的約束,所以這類方法魯棒性較差,重建后的三維人臉模型與目標(biāo)真實(shí)人臉存在較大差距。
Lee等 [13]使用正交圖像重建目標(biāo)人臉的三維模型,利用結(jié)構(gòu)化的Snake模型提取人臉特征點(diǎn),并采用Dirichlet Free Form Deformation算法修改一般人臉模型。Lavagetto等采用MPEG4標(biāo)準(zhǔn)來定義正、側(cè)面圖像中的面部特征點(diǎn),并利用徑向基函數(shù)內(nèi)插方法修改一般人臉模型。Pighin等提出基于多幅多視角下拍攝的人臉圖像變形方法,運(yùn)用計(jì)算機(jī)視覺方法來估計(jì)相機(jī)參數(shù),并同時(shí)恢復(fù)人臉姿態(tài)及13個(gè)面部特征點(diǎn)的三維坐標(biāo),然后利用散亂數(shù)據(jù)插值方法變形一般人臉模型。Chowdhury和Chellappa[14]對基于視頻的三維人臉建模進(jìn)行了研究,采用運(yùn)動(dòng)恢復(fù)形狀方法獲得人臉三維信息,利用光流法從視頻序列中恢復(fù)人臉三維形狀,整個(gè)過程采用馬爾可夫鏈蒙特卡羅法優(yōu)化逼近目標(biāo)人臉。
基于一般人臉模型的方法,與同時(shí)期的從運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)、線性三維人臉模型表示以及立體視覺匹配等研究相輔相成。該方法需要解決圖像中提取特征點(diǎn),以及從一般人臉模型變形目標(biāo)人臉模型這兩個(gè)關(guān)鍵問題。其中,特征點(diǎn)越稠密、越準(zhǔn)確,則重建的三維人臉模型真實(shí)感越強(qiáng),但這對自動(dòng)標(biāo)定特征點(diǎn)提出了很高要求。整體來說,該類方法對構(gòu)建低成本、快速的三維人臉建模系統(tǒng)是可行的。
2.3基于三維形變模型
三維形變模型(3D Morphable Model,簡稱3DMM)是由德國學(xué)者Blanz和Vetter[15]提出的一種基于統(tǒng)計(jì)學(xué)的三維人臉建模方法,對計(jì)算機(jī)視覺和計(jì)算機(jī)圖形學(xué)都產(chǎn)生了深遠(yuǎn)影響。3DMM的基本思想是把所有人臉近似看成一個(gè)線性空間,對歸一化的人臉基底進(jìn)行線性組合,利用復(fù)雜的光流算法,確立不同人臉三維點(diǎn)間的對應(yīng)關(guān)系。所有三維人臉由統(tǒng)一的幾何形狀向量和紋理向量表示,幾何形狀向量S∈R3N包含人臉上點(diǎn)的x、y、z坐標(biāo),紋理向量T∈R3N包含每個(gè)頂點(diǎn)的R、G、B顏色信息,其中N是人臉樣本的頂點(diǎn)數(shù)量。一般人臉基底由形狀向量Si和紋理向量Ti構(gòu)成,目標(biāo)人臉的形狀Smodel和紋理Tmodel可線性表示如下:
Blanz和Vette提出的基于隨機(jī)牛頓法的優(yōu)化算法,是最早解決3DMM模型匹配問題的方法。Romdhani等 [16]針對隨機(jī)牛頓優(yōu)化算法計(jì)算復(fù)雜度高的問題,提出了線性形狀紋理匹配算法與反向復(fù)合圖像匹配算法,還提出了多種用于模型匹配的圖像特征,以提高計(jì)算精度,避免陷入局部極小值。Amberg等 [17]提出從三幅立體圖像中恢復(fù)形變模型的方法。將一幅圖像上的像素點(diǎn)特征通過形變參數(shù),映射到另一幅圖像上,計(jì)算投影點(diǎn)和實(shí)際圖像的特征差。Romeiro和Zickler[18]對有遮擋情況下從立體圖中恢復(fù)形變系數(shù)進(jìn)行了研究。Huber等 [19]利用AdaBoost識別出視頻中的人臉,主動(dòng)分析模型標(biāo)定人臉特征關(guān)鍵點(diǎn),并根據(jù)黃金標(biāo)準(zhǔn)算法恢復(fù)相機(jī)參數(shù),得到形變系數(shù)重建人臉。經(jīng)過實(shí)驗(yàn),基于多幅立體圖融合多種特征的匹配優(yōu)化方法,比起基于單幅圖像的優(yōu)化方法,人臉重建精度明顯提高。
2.4基于統(tǒng)計(jì)學(xué)習(xí)的方法
隨著公開使用的三維人臉數(shù)據(jù)庫日漸增多,以及機(jī)器學(xué)習(xí)相關(guān)研究的深入,人們開始探索通過圖像數(shù)據(jù)直接挖掘出潛在深度信息的方法。它不同于傳統(tǒng)的基于優(yōu)化的方法,不再需要一個(gè)代價(jià)函數(shù),也不再基于一個(gè)最小均方誤差的框架,而是把人臉紋理和深度作為兩種子空間變量,利用空間映射得到二者之間的映射函數(shù),進(jìn)而從紋理數(shù)據(jù)直接計(jì)算出相應(yīng)的深度數(shù)據(jù)。
Robinson和Hyde[20]把圖像灰度和對應(yīng)的深度值連接為一個(gè)向量,并使用多元正態(tài)分布描述向量的統(tǒng)計(jì)特性。Reiter等 [21]采用基于標(biāo)準(zhǔn)相關(guān)分析的回歸方法,從RGB圖像中估計(jì)深度圖像。該方法原理是找出兩個(gè)投影方向,使原始輸入和輸出數(shù)據(jù)投影到這兩個(gè)方向后相關(guān)性最大。Castelán等 [22]將人臉圖像灰度和三維表面形狀特征空間綜合在一個(gè)混合模型中,并采用偏最小二乘回歸作為深度估計(jì)的學(xué)習(xí)算法。
基于統(tǒng)計(jì)學(xué)習(xí)的三維人臉建模方法是一種新興的三維建模方法,優(yōu)點(diǎn)在于只需單幅圖像便可進(jìn)行人臉重建,且計(jì)算復(fù)雜度低,結(jié)果魯棒性好。但這類方法也存在一定問題:若深度估計(jì)重建三維人臉,容易導(dǎo)致重建后人臉在深度方向上畸變、需考慮從訓(xùn)練集擴(kuò)展到真實(shí)圖像測試集的泛化以及估計(jì)誤差有一定的下限問題等。因此,僅采用統(tǒng)計(jì)學(xué)習(xí)的方法,一步得到真實(shí)感強(qiáng)的三維人臉模型有一定難度,但它可輔助于其它方法。endprint
3結(jié)語
人臉是最能體現(xiàn)人物特征的器官,真實(shí)感三維建模方法研究一直是計(jì)算機(jī)圖形圖像學(xué)的研究熱點(diǎn)。通過計(jì)算機(jī)生成真實(shí)感三維人臉能促進(jìn)虛擬人物、醫(yī)學(xué)圖像處理、智能識別等相關(guān)技術(shù)的發(fā)展。總的來說,使用三維掃描儀得到的三維人臉模型效果較好,但由于造價(jià)高、處理復(fù)雜、靈活性差等因素限制,適用場合有限。基于人臉圖像進(jìn)行三維建模是時(shí)下的研究熱點(diǎn),其中基于統(tǒng)計(jì)學(xué)習(xí)的方法進(jìn)行三維人臉建模是近年來的新興技術(shù)。如何將其融入3DMM等人臉重建方法,創(chuàng)造出效率更高、魯棒性更好、真實(shí)感更強(qiáng)的三維人臉建模方法,是計(jì)算機(jī)模擬人臉領(lǐng)域的研究方向。
參考文獻(xiàn):
[1]PARKE F I, WATERS K, PETERS A K. Appendix 1: threedimensional muscle model facial animation[J]. Computer Facial Animation, 1996(5):337339.
[2]LEE S Y, CHWA K Y, SHIN S Y. Image metamorphosis using snakes and freeform deformations[C].Proceedings of the 22nd Annual Conference on Computer graphics and interactive techniques. ACM, 1995:439448.
[3]XU C, QUAN L, WANG Y, et al. Adaptive multiresolution fitting and its application to realistic head modeling[C].Geometric Modeling and Processing, Proceedings. IEEE, 2004:345348.
[4]GU X,WANG Y,CHAN T F,et al.Genus zero surface conformal mapping and its application to brain surface mapping[J].IEEE Transactions on Medical Imaging(TMI),2004,23(8):949958.
[5]BEUMIER C, ACHEROY M. 3D facial surface acquisition by structured light[C]. International Workshop on SyntheticNatural Hybrid Coding and Three Dimensional Imaging, Santorini,Greece, 1999:103106.
[6]TARINI M, CIGNONI P, MONTANI C. Ambient occlusion and edge cueing for enhancing real time molecular visualization[J]. IEEE transactions on visualization and computer graphics, 2006,12(5):167169..
[7]MEYER G P, DO M N. Realtime 3D face modeling with a commodity depth camera[C].Multimedia and Expo Workshops (ICMEW), 2013 IEEE International Conference on. IEEE, 2013:14.
[8]MACEDO M C F, APOLINáRIO JR A L, SOUZA A C S. KinectFusion for faces: realtime 3D face tracking and modeling using a kinect camera for a markerless AR system[J]. SBC Journal on 3D Interactive Systems(S22363297),2014,4(2):27.
[9]王琨,鄭南寧.基于SFM算法的三維人臉模型重建[J].計(jì)算機(jī)學(xué)報(bào),2005(6):10481053.
[10]SENGUPTA K, KO C C. Scanning face models with desktop cameras[J]. IEEE Transactions on Industrial Electronics, 2001,48(5):904912.
[11]周佳立,張樹有,楊國平.基于雙目被動(dòng)立體視覺的三維人臉重構(gòu)與識別[J].自動(dòng)化學(xué)報(bào),2009(2):123131.
[12]LIU Z, ZHANG Z, JACOBS C, et al. Rapid modeling of animated faces from video[J]. Computer Animation and Virtual Worlds, 2001,12(4):227240.
[13]LEE W S, MAGNENAT THALMANN N. Fast head modeling for animation[J]. Image and Vision Computing,2000,18(4):355364.
[14]CHOWDHURY A K R, CHELLAPPA R. Face reconstruction from monocular video using uncertainty analysis and a generic model[J]. Computer Vision and Image Understanding,2003,91(1):188213.endprint
[15]BLANZ V, VETTER T. Face recognition based on fitting a 3D morphable model[J]. IEEE Transactions on pattern analysis and machine intelligence,2003,25(9):10631074.
[16]ROMDHANI S, VETTER T. Estimating 3D shape and texture using pixel intensity, edges, specular highlights, texture constraints and a prior[J].Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on. IEEE,2005(2):986993.
[17]AMBERG B, BLAKE A, FITZGIBBON A, et al. Reconstructing high quality facesurfaces using model based stereo[C].Computer Vision, 2007. ICCV 2007. IEEE 11th International Conference on. IEEE,2007:18.
[18]ROMEIRO F, ZICKLER T. Modelbased stereo with occlusions[J]. Analysis and Modeling of Faces and Gestures,2007(1):3145.
[19]HUBER P, KOPP P, CHRISTMAS W, et al. Realtime 3D face fitting and texture fusion on inthewild videos[J]. IEEE Signal Processing Letters,2017,24(4):437441.
[20]ROBINSON J A, HYDE J R. Estimation of Face Depths by Conditional Densities[C].BMVC,2005:609618.
[21]REITER M, DONNER R, LANGS G, et al. 3D and infrared face reconstruction from RGB data using canonical correlation analysis[C].Pattern Recognition, ICPR 2006. 18th International Conference on, IEEE,2006:425428.
[22]CASTELáN M, VAN HOREBEEK J. 3D face shape approximation from intensities using partial least squares[C].Computer Vision and Pattern Recognition Workshops,2008.CVPRW'08. IEEE Computer Society Conference on. IEEE,2008:18.
(責(zé)任編輯:杜能鋼)endprint