高 翔 黃法秀 劉春平 陳 虎*
1(四川大學(xué)計算機(jī)(軟件)學(xué)院 四川 成都 610065)2(四川川大智勝軟件股份有限公司 四川 成都 610045)3(四川大學(xué)視覺合成圖形圖像技術(shù)國防重點(diǎn)學(xué)科實(shí)驗(yàn)室 四川 成都 610064)
具有真實(shí)感的人臉表情生成方法目前已經(jīng)被廣泛應(yīng)用到各個行業(yè),在電影動畫、虛擬人物、商業(yè)服務(wù)、醫(yī)學(xué)美容等方面都有了具體的應(yīng)用場景。特別是在動畫電影方面,逼真的人臉和人體動畫、表情豐富的虛擬人物,能有效增強(qiáng)人物與場景的真實(shí)感和觀看人的沉浸感。此外,二維人臉識別受圖像中的光照條件、人臉姿態(tài)和表情等可變因素影響巨大,動態(tài)環(huán)境下局限性較大,且防偽性能不好[2]。三維人臉識別方案能夠解決現(xiàn)有的這些問題,例如Apple公司利用三維結(jié)構(gòu)光建模的人臉識別技術(shù)。從早期的利用手工構(gòu)建三維人臉參數(shù)模型,到現(xiàn)在主流的利用二維圖像生成三維人臉模型技術(shù),利用三維人臉建模技術(shù),生成動態(tài)逼真的人臉表情具有較高的實(shí)用價值。如何快速、健壯地生成自然逼真的人臉表情更加是急需解決的熱點(diǎn)問題。
本文提出了一種基于二維單目攝像頭的實(shí)時真實(shí)感人臉表情遷移方法,可以在具有二維單目攝像頭的計算機(jī)設(shè)備上,實(shí)現(xiàn)人臉的自動捕捉、目標(biāo)人臉估算、三維人臉的重建和自動渲染,并達(dá)到實(shí)時效果。圖1為遷移算法的流程。
圖1 人臉表情遷移算法流程
人臉重建與表情遷移技術(shù),在計算機(jī)圖形學(xué)和計算機(jī)視覺領(lǐng)域有著悠久的歷史,本文主要關(guān)注基于外部設(shè)備的實(shí)時表情遷移方法。參考Rousselle等[3]針對人臉表情捕獲進(jìn)展和Zollh?fer等[4]關(guān)于單眼三維人臉重建、跟蹤和應(yīng)用的最新報告,對使用受控采集設(shè)備具有高質(zhì)量結(jié)果進(jìn)行了概述。由于面部表情的復(fù)雜多樣性,使得高真實(shí)感的人臉表情的合成具有較大難度,1987年Waters等[5]根據(jù)人臉表情的組成根本,提出肌肉驅(qū)動模型來模擬表情生成過程,在這基礎(chǔ)上和Lee等[6]合作提出生理模型,可以生成更為真實(shí)自然的面部表情。Koch等[7]則利用有限元的方法來模擬人臉的生理結(jié)構(gòu),提出的表情生成模型可以準(zhǔn)確地模擬表情產(chǎn)生過程中臉部機(jī)構(gòu)的受力情況。Williams等[8]采用行為驅(qū)動的方法從采集的視頻畫面中獲取人臉的紋理、形狀等信息,然后利用可變形的網(wǎng)格驅(qū)動人臉。Liu等[9]提出從視頻序列中恢復(fù)人臉紋理的方法,解決表情合成方法不能恢復(fù)人臉形變的缺點(diǎn)。Isola等[10]利用對抗生成網(wǎng)絡(luò)根據(jù)圖像特征從像素級直接生成對象的部分真實(shí)紋理,具有借鑒意義,也成為最近表情遷移的熱門技術(shù)。
近年來國內(nèi)的研究人員也著手于人臉表情合成技術(shù)的研究,并取得了許多有效的成果。晏潔等[11]在模擬表情、紋理映射等領(lǐng)域有較為深入的研究,早期提出了基于人臉模型變形方法,在三維虛擬特定人臉生成方面做出探索。梅麗等[12]采用參數(shù)化驅(qū)動方式驅(qū)動三維人臉模型,忽略了人臉表情皺紋等紋理信息。姜大龍等[13]對人臉表情合成領(lǐng)域的相關(guān)技術(shù)問題展開相應(yīng)研究,通過使用局部表情比率圖(partial expression ratio image,PERI)與MPEG-4中人臉動畫參數(shù)相結(jié)合的方法實(shí)現(xiàn)人臉動畫中細(xì)微表情特征的參數(shù)化表示,并提出了具有參考意義的優(yōu)化措施。周坤等[14]通過使用變形導(dǎo)向的GAN,生成從二維人臉圖像直接驅(qū)動的目標(biāo)人臉表情,得到了較為優(yōu)秀的結(jié)果。搜狗實(shí)驗(yàn)室最近也發(fā)布了全球第一個虛擬主持人,相信在接下來的時間國內(nèi)外在人臉表情合成、遷移等領(lǐng)域會有更加優(yōu)秀的進(jìn)展。
結(jié)合前人的工作經(jīng)驗(yàn)[15]可知,目前真實(shí)感人臉表情的研究還存在問題,例如:大多數(shù)技術(shù)只能應(yīng)用到虛擬動畫,并不能應(yīng)用到真實(shí)人臉,表情動態(tài)過度僵硬,不具有個性化;人物動作僵硬,對輸入的視頻有較大的依賴性,無法自動生成目標(biāo)人臉個性表情;無法應(yīng)對頭部的動作變化,只能應(yīng)對人臉表情的修改。因此,本文提出一種基于3DMM與GAN結(jié)合的實(shí)時人臉表情遷移方法來解決上述問題。
本文方法是多個組件的協(xié)作。圖1描述了該方法的基本流程,將表演者與目標(biāo)人臉作出區(qū)分,目標(biāo)人物必須按照表演者的表演動作做出一系列的模仿。參與人員通過人臉跟蹤檢測,獲取其人臉關(guān)鍵點(diǎn),本文使用的是人臉的hog特征和級聯(lián)分類器作為分類方法。為了將表演者與目標(biāo)人臉做出映射,使用pix2pix[16]的對抗生成網(wǎng)絡(luò),通過表演者的表情自動生成目標(biāo)人臉的表情關(guān)鍵點(diǎn)。使用Ruiz等[17]深度學(xué)習(xí)的方法,對二維人臉坐標(biāo)點(diǎn)進(jìn)行三維姿態(tài)的估計,渲染出不同姿態(tài)的可視化二維人臉。利用3DMM[18]三維人臉重建方法,用生成的目標(biāo)人臉二維坐標(biāo)點(diǎn)結(jié)合目標(biāo)人臉紋理,實(shí)時擬合出三維人臉模型。使用泊松圖像融合[19]的方法將當(dāng)前表演者的人臉與目標(biāo)人臉融合,生成最終的表情遷移人臉。在此過程中為了達(dá)到實(shí)時渲染的要求,同時利用多線程編程對整個人臉坐標(biāo)采集、三維人臉生成、實(shí)時渲染、面部表情融合等過程進(jìn)行了加速。
本文方法最關(guān)鍵的一部分就是目標(biāo)人臉關(guān)鍵點(diǎn)的生成,在這個過程中,通過使用二維單目攝像頭采集表演人臉和目標(biāo)人臉的一系列不同表情視頻,然后利用pix2pix對抗生成網(wǎng)絡(luò)成對訓(xùn)練表演人臉和目標(biāo)人臉的映射關(guān)系,最終達(dá)到了生成目標(biāo)人臉關(guān)鍵點(diǎn)的需求。另外使用紋理融合算法對表演人臉和目標(biāo)人臉的部分紋理進(jìn)行部分融合。
在構(gòu)建目標(biāo)用戶的面部模型之前,首先需要捕捉一組預(yù)先定義的圖像序列,這些圖像由用戶一組不同的表情面部圖像組成,借鑒Cao等[20]的方法將人體頭部運(yùn)動分為剛性運(yùn)動和非剛性運(yùn)動兩個部分。如圖2所示,第一部分為剛性運(yùn)動,要求捕獲人臉15個不同的姿態(tài),這些姿態(tài)由頭部的不同的角度組成并且人臉帶有中性表情。這些轉(zhuǎn)動使用歐拉角(yaw,pitch,roll)來表示,其中:yaw從-90°到90°,每隔30°為旋轉(zhuǎn)尺度共6個姿態(tài);pitch從-30°到30°每隔15°為旋轉(zhuǎn)尺度共4個姿態(tài);roll和pitch的旋轉(zhuǎn)尺度保持同樣的分布,為4個姿態(tài)。圖2第一行為其中部分姿態(tài):從左至右為0°、yaw30°、pitch30°、roll60°、yaw-60°、yaw-90°。用戶只需要近似匹配上述標(biāo)準(zhǔn),無需精準(zhǔn)測量上述尺度。第二部分是旋轉(zhuǎn)尺度保持在-30°到30°之間的15個不同人臉表情的非剛性人臉集合。包括:微笑,皺眉,厭惡,擠左眼,擠右眼,憤怒,張嘴,咧嘴,抬下巴,撅嘴巴,漏斗形嘴,鼓臉,閉眼睛,左撇嘴,右撇嘴。圖2第2行所示分別為:微笑,張嘴,厭惡,咧嘴,閉眼,皺眉。
圖2 人臉剛性運(yùn)動和非剛性運(yùn)動采集示意圖
最終,為表演人臉和目標(biāo)人臉分別捕獲并挑選了825幅圖片,每個不同的姿態(tài)和不同的表情分別25幅。使用的設(shè)備為普通的二維單目攝像頭,采集目標(biāo)距離設(shè)備1米。為了達(dá)到較高的對齊效果以完成下面的任務(wù),要求測試人員盡量保持亮度一致,以達(dá)到較高的對齊效果。
基于二維圖像的三維人臉建模需要從圖像中提取出相關(guān)的人臉特征信息,其中包含人臉位置、人臉的關(guān)鍵點(diǎn)以及人臉的顏色信息提取,提取上述信息需要對人臉進(jìn)行檢測、人臉對齊等操作。針對前面所獲取的人臉數(shù)據(jù)集,采用人臉對齊的方法為它們自動標(biāo)定68個關(guān)鍵點(diǎn),分別位于人臉的眉毛、眼睛、鼻子、嘴唇和臉部邊緣位置,其中0~16位于人臉邊緣,17~21為左眉毛,22~26為右眉毛,27~35為鼻子,36~41,42~47分別為左右眼睛,48~67為嘴巴,標(biāo)注如圖3所示。現(xiàn)在二維人臉對齊技術(shù)[21-22]已經(jīng)很成熟,可以任意完成上述對齊,這里使用的為開源人臉對齊基于ERT(Ensemble of Regression Tress)算法[21]。ERT展示了如何使用回歸樹集合直接從像素強(qiáng)度稀疏子集估計面部的關(guān)鍵點(diǎn)位置,通過高質(zhì)量的預(yù)測展示了實(shí)時性能。
圖3 人臉關(guān)鍵點(diǎn)標(biāo)注示意圖
使用上述方法對數(shù)據(jù)集中825對圖像進(jìn)行人臉關(guān)鍵點(diǎn)的對齊,并且將關(guān)鍵點(diǎn)畫至黑色背景圖形,歸一化人臉大小后形成對抗生成網(wǎng)絡(luò)的數(shù)據(jù)集。
2.3.1準(zhǔn)備訓(xùn)練數(shù)據(jù)集
根據(jù)表演和目標(biāo)人臉數(shù)據(jù)集的人臉關(guān)鍵點(diǎn)的標(biāo)定結(jié)果,形成成對包含825組的人臉關(guān)鍵點(diǎn)數(shù)據(jù)集,數(shù)據(jù)點(diǎn)描繪在黑色背景上,如圖4所示,A為目標(biāo)人臉畫出的對應(yīng)人臉的關(guān)鍵點(diǎn)示意圖,B為表演人臉數(shù)據(jù),均歸一化為512×256大小的成對人臉關(guān)鍵點(diǎn)數(shù)據(jù)集作為網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)。將數(shù)據(jù)集的75%作為訓(xùn)練集,25%作為測試集,使用pix2pix的對抗生成網(wǎng)絡(luò)[10],自動生成目標(biāo)人臉的68個關(guān)鍵點(diǎn)。
圖4 目標(biāo)人臉和表演人臉對應(yīng)人臉關(guān)鍵點(diǎn)圖片
2.3.2目標(biāo)函數(shù)
GAN[23]是一種生成模型,用來學(xué)習(xí)一組z(隨機(jī)噪聲)向量到y(tǒng)(目標(biāo)圖片)的映射:y:G:z→y。相比之下,條件GAN學(xué)習(xí)觀測圖像x和隨機(jī)噪聲z到y(tǒng)的映射關(guān)系,y:G:{x,z}→y。
在此pix2pix的訓(xùn)練模型為GAN網(wǎng)絡(luò)的變形,損失函數(shù)為:
LCGAN(G,D)=Ex,y[logD(x,y)]+Ex,z[log(1-
D(x,G(x,z)))]
(1)
式中:G目的是最小化該函數(shù)值,D目的為最大化該函數(shù)值,即G*=arg minGmaxDLCGAN(G,D)。
為了對比效果,同時訓(xùn)練一個普通GAN,只讓D(判別網(wǎng)絡(luò))判斷是否為真實(shí)圖像。
LGAN(G,D)=Ey[logD(y)]+Ex,z[log(1-
D(G(x,z)))]
(2)
對于圖像生成任務(wù)而講,G(生成網(wǎng)絡(luò))的輸入和輸出之間共享信息,比如上色任務(wù)。因而為了保證輸入和輸出圖像之間的相似度,加入L1 loss:
(3)
匯總的損失函數(shù)為:
G*=arg minGmaxDLCGAN(G,D)+λLL1(G)
(4)
(1) 生成網(wǎng)絡(luò)G。常見的編解碼網(wǎng)絡(luò)(Encoder-decoder)輸入和輸出之間會共享很多信息,如果使用普通的卷積神經(jīng)網(wǎng)絡(luò)會導(dǎo)致每一層都承載保存者所有信息,這樣的神經(jīng)網(wǎng)絡(luò)容易出錯,所以使用U-Net[24]網(wǎng)絡(luò)來進(jìn)行減負(fù),結(jié)構(gòu)如圖5(b)所示。U-Net的區(qū)別是加入跳線鏈接,對應(yīng)的feature maps和decode之后的同樣大小的feature maps按通道拼(concatenate)一起,用來保留不同分辨率下像素級的細(xì)節(jié)信息。
圖5 Encoder-decoder和U-Net網(wǎng)絡(luò)結(jié)構(gòu)對比
(2) 判別網(wǎng)絡(luò)D。用來保證局部圖形的精準(zhǔn)性,通過Patch-D[10]實(shí)現(xiàn),將生成圖像切分為固定大小的Patch輸入進(jìn)入判別網(wǎng)絡(luò)進(jìn)行判斷。
將歸一化后的訓(xùn)練數(shù)據(jù)送進(jìn)網(wǎng)絡(luò)中,在訓(xùn)練過程中,G(生成網(wǎng)絡(luò))、D(判別網(wǎng)絡(luò))交替進(jìn)行訓(xùn)練,可有效地生成目標(biāo)人臉的人臉關(guān)鍵點(diǎn)位置,如圖6所示。將關(guān)鍵點(diǎn)的位置提取出來,作為生成三維人臉模型的輸入。從圖6中可以看出,生成的目標(biāo)人臉的關(guān)鍵點(diǎn)位置,比表演人臉臉型更為纖細(xì)(目標(biāo)人臉為圖1流程圖對應(yīng)人臉),帶有目標(biāo)人臉的特征表現(xiàn),可以作為驅(qū)動目標(biāo)人臉三維模型生成的輸入數(shù)據(jù)。
圖6 使用GAN生成目標(biāo)人臉的關(guān)鍵點(diǎn)位置
為了通過二維人臉關(guān)鍵點(diǎn)得到和目標(biāo)人臉相似的三維人臉模型,本文使用了基于3DMM的人臉三維模型擬合框架。薩利人臉模型是3D形變模型包含了PCA形狀模型和PCA顏色模型,而且每個模型擁有不同分辨率級別以及對應(yīng)的元數(shù)據(jù),例如二維的紋理信息和對應(yīng)的人臉坐標(biāo)信息。
3DMM主要是在獲得薩利掃描模型的基礎(chǔ)上,利用單幅人臉圖片的二維坐標(biāo)點(diǎn),通過IMDR算法[25]多次逼近求得二維坐標(biāo)到多分辨率三維人臉模型的稠密對應(yīng)關(guān)系,達(dá)到二維到三維重建的效果。該方法使得人臉的三維重建模型實(shí)時性顯著提高。
首先通過對數(shù)據(jù)庫中的掃描三維人臉點(diǎn)云模型進(jìn)行PCA主成分的提取。這里將形狀模型表示為點(diǎn)坐標(biāo)(x,y,z)的向量集合S∈R3N和顏色模型表示為(RGB)顏色信息的向量集合T∈R3N,N表示模型中點(diǎn)的數(shù)量。每個PCA模型表示為:
(5)
式中:v∈R3N為樣本的均值;V為樣本的主成分的集合V=[v1,v2,…,vn-1]∈R3N×(n-1);σ∈Rn-1為樣本集合的標(biāo)準(zhǔn)差;n為用來構(gòu)建模型的掃描次數(shù)。
通過計算得出新的面部模型:
(6)
式中:m≤n-1是主成分的數(shù)量;a∈RM是PCA形狀空間中的實(shí)際坐標(biāo),為式(5)計算得出標(biāo)準(zhǔn)差集合。PCA顏色模型也服從于上述坐標(biāo)向量的分布,可通過類似計算方式得出。
通過上述的方法得到了一個三維人臉的平均模型,在三維人臉模型擬合的過程中,首先對二維人臉圖片進(jìn)行人臉關(guān)鍵點(diǎn)的檢測,然后通過采用仿射攝像機(jī)模型,實(shí)現(xiàn)了黃金標(biāo)準(zhǔn)算法[26],找到給定的一定數(shù)量的二維-三維點(diǎn)對的攝像機(jī)矩陣的最小二乘近似。
得到人臉關(guān)鍵點(diǎn)的二維坐標(biāo)后,通過使用二維到三維坐標(biāo)的形狀稠密對應(yīng)算法[25],找到和二維坐標(biāo)最為接近的PCA坐標(biāo)向量,代價函數(shù)為:
(7)
圖7 人臉可變模型框架生成三維人臉模型
根據(jù)目標(biāo)人臉的關(guān)鍵點(diǎn)坐標(biāo)生成對應(yīng)的三維人臉模型,根據(jù)二維人臉關(guān)鍵點(diǎn)位置估計出三維空間內(nèi)的攝像機(jī)矩陣,調(diào)整三維目標(biāo)人臉的視角,渲染出對應(yīng)姿態(tài)的目標(biāo)人臉。通過薩利模型擬合出的三維人臉不包含口腔模型,因此渲染出的人臉無法構(gòu)建目標(biāo)人臉說話過程,不存在舌頭以及牙齒的變化,針對眼睛的動態(tài)也無法根據(jù)單張二維人臉進(jìn)行合成。由于系統(tǒng)是根據(jù)檢測表演人臉動作姿態(tài)和表情去生成目標(biāo)人臉,目標(biāo)人臉和表演人臉在動作過程中,頭部姿態(tài)和臉部表情基本處于同步狀態(tài)。本文使用人臉關(guān)鍵點(diǎn)定位算法定位到表演人臉和生成人臉圖像的嘴巴和眼睛位置,將當(dāng)前表演人臉的眼睛和嘴巴紋理圖像,根據(jù)目標(biāo)人臉的特點(diǎn)進(jìn)行變形,使用泊松紋理融合[19]方法復(fù)制到目標(biāo)人臉對應(yīng)的眼睛和嘴巴的位置,填充眼睛和嘴巴的動態(tài)紋理,彌補(bǔ)光照和顏色的差異。
首先通過對目標(biāo)人臉進(jìn)行臉部關(guān)鍵點(diǎn)的對齊,找到對應(yīng)的眼睛和嘴巴的位置,在人臉關(guān)鍵點(diǎn)分布在如圖8中對應(yīng)的眼睛鼻子所對應(yīng)的位置,創(chuàng)建一個黑色蒙版用于找到需要融合位置的區(qū)域。然后對表演人臉圖片蒙版圖片和目標(biāo)人臉圖片進(jìn)行歸一化,將待融合位置進(jìn)行對應(yīng),通過泊松融合得到最終的目標(biāo)人臉。圖9為紋理融合過程。
圖8 紋理融合位置
圖9 渲染后的人臉圖像和表演人臉的融合過程
本文實(shí)現(xiàn)了基于3DMM的三維人臉表情遷移:輸入目標(biāo)人臉和表演人臉的特定視頻,對視頻進(jìn)行分幀提取臉部關(guān)鍵點(diǎn)信息,利用生成對抗網(wǎng)絡(luò)進(jìn)行表演人臉和目標(biāo)人臉關(guān)鍵點(diǎn)進(jìn)行映射,自動生成目標(biāo)人臉的臉部關(guān)鍵點(diǎn);利用生成的人臉關(guān)鍵點(diǎn)進(jìn)行三維人臉的擬合,生成目標(biāo)人臉三維模型同時做紋理映射,在此基礎(chǔ)上融合表演人臉的五官特點(diǎn),最終生成人臉遷移結(jié)果,如圖10所示??梢钥闯觯疚慕Y(jié)果對比單純的三維人臉建模的結(jié)果更具有真實(shí)性,可以較為真實(shí)地遷移表演人臉表情至目標(biāo)人臉,能夠展示眼睛,嘴巴的動態(tài)效果。如圖11所示,生成人臉能較為生動地模仿目標(biāo)人臉的表情動態(tài)和部分神情,對嘴部和眼睛的表情融合有較好的效果,從感官上能夠達(dá)到分辨出不同表情的區(qū)別。
圖10 生成各種姿態(tài)表情表演人臉對比
圖11 目標(biāo)人臉和生成人臉表情對比
人臉表情仿真和遷移領(lǐng)域并無統(tǒng)一的質(zhì)量評價測試方法,無法模式化量化最后的結(jié)果,故參考文獻(xiàn)[28],設(shè)計了一套比對方法。通過對The Extended Cohn-Kanade Dataset(CK+)數(shù)據(jù)庫[29]中不同人臉表情和生成的對應(yīng)人臉表情兩組實(shí)驗(yàn)數(shù)據(jù)進(jìn)行挑選,并結(jié)合本實(shí)驗(yàn)的實(shí)現(xiàn)條件,使用Tuputech[30]網(wǎng)站提供的在線人臉表情打分功能分別對兩組數(shù)據(jù)進(jìn)行打分比對,驗(yàn)證本文方法的遷移效果。
本文設(shè)計了對比驗(yàn)證實(shí)驗(yàn)共涉及10個不同人臉對象的圖片,共80幅人臉圖片包含來自于(CK+)數(shù)據(jù)庫女性8種不同人臉表情:中性、憤怒、蔑視、厭惡、恐懼、高興、悲傷、驚訝。通過Tuputech網(wǎng)站系統(tǒng)[30]對(CK+)數(shù)據(jù)庫中不同表情人臉進(jìn)行預(yù)測試,發(fā)現(xiàn)并不能準(zhǔn)確對部分表情打分,部分打分效果如圖12所示。從中選擇打分在70分以上的圖12(b)、(f)以及一幅中性表情圖片作為對比標(biāo)準(zhǔn),來統(tǒng)計兩組數(shù)據(jù)的分?jǐn)?shù)分布。對10個不同對象人臉的自然表情和生成表情,包括喜悅、驚訝、中性進(jìn)行打分比對。部分結(jié)果如圖13所示。
圖12 數(shù)據(jù)集中7種不同表情打分情況
圖13 部分自然人臉表情和生成人臉表情對比打分情況
通過對比實(shí)驗(yàn),最終得到10個人臉對象,自然人臉表情和生成人臉表情的三種不同表情的打分分布如表1所示。
表1 Tuputech系統(tǒng)對自然表情和生成表情打分情況
通過對結(jié)果樣本進(jìn)行表情識別,系統(tǒng)可以識別喜悅和驚恐表情種類并進(jìn)行打分,并有效模仿出每個對象的表情,但由于無法準(zhǔn)確識別出中性表情,故本文選擇喜悅和驚恐表情作為對比參數(shù)。通過本文方法遷移生成表情能夠達(dá)到模仿人臉自然表情的效果,基本接近自然表情的打分結(jié)果。但光照問題會造成臉部有明顯合成痕跡以及五官的模糊情況,臉部細(xì)節(jié)處理不到位,說明本文算法需要在光照一致性上進(jìn)一步改進(jìn)。
在一臺CPU為Core(TM)i7-8700,主頻3.70 GHz,內(nèi)存16 GB的電腦中,系統(tǒng)通過CPU多線程完成人臉采集、三維模型擬合、人臉表情融合和渲染過程生成連續(xù)的人臉表情畫面,最快可以達(dá)到15.2幀/s,達(dá)到實(shí)時視頻的標(biāo)準(zhǔn),使用GPU對渲染部分進(jìn)行加速可以得到更好的效果。
本文通過對同一個人的部分視頻進(jìn)行訓(xùn)練,并設(shè)計以逼真演化目標(biāo)的算法,將表演人臉表情遷移到目標(biāo)人臉表情。本文方法可以實(shí)現(xiàn)實(shí)時人臉表情遷移,對于需要用到虛擬人物化身,人臉識別數(shù)據(jù)的拓展有一定作用。嘗試使用GAN和三維建模技術(shù)結(jié)合,生成更為逼真的三維人臉表情,但在進(jìn)行最終的人臉表情融合過程中,細(xì)節(jié)處理不夠完美。由于需要進(jìn)行人臉紋理信息的采集,表演人員需要在特定環(huán)境下(光照穩(wěn)定充足)進(jìn)行演示,無法應(yīng)對復(fù)雜環(huán)境光的問題,而且紋理受采集設(shè)備的影響會出現(xiàn)部分模糊。系統(tǒng)正常使用前,需要對表演和目標(biāo)人臉進(jìn)行一段時間的視頻采集,這也需要進(jìn)一步改進(jìn)。整個程序使用多線程編程,存在計算機(jī)資源搶占過程,容易產(chǎn)生渲染畫面的跳幀卡頓。下一步,會針對以上已知問題進(jìn)行進(jìn)一步的研究,如pix2pixHD自動生成目標(biāo)人臉紋理,使用聲紋驅(qū)動目標(biāo)人臉,優(yōu)化人臉容融合算法,使用更高精度的人臉采集設(shè)備,提升紋理融合的精度等。