摘 要:現(xiàn)有的音頻驅(qū)動(dòng)人臉動(dòng)畫技術(shù)主要注重唇部運(yùn)動(dòng)與音頻的同步性,忽略了對(duì)人物面部表情或頭部運(yùn)動(dòng)的再現(xiàn)能力。為此,提出了一種融合音頻內(nèi)容、風(fēng)格和情感特征的高質(zhì)量人臉動(dòng)畫生成方法(ACSEF)。首先,設(shè)計(jì)了情感動(dòng)畫模塊(EAM),從音頻中提取隱含的情感輔助特征來估計(jì)更加準(zhǔn)確的面部情感標(biāo)志位移,然后與語音內(nèi)容和說話者風(fēng)格動(dòng)畫的面部地標(biāo)位移進(jìn)行融合,提高landmarks(面部地標(biāo))預(yù)測的準(zhǔn)確性和生動(dòng)性。其次,設(shè)計(jì)了一個(gè)基于U-Net模型的注意力增強(qiáng)解碼器(AADU),使得估計(jì)的地標(biāo)與圖像最終解碼為逼真的包含唇音同步、頭部運(yùn)動(dòng)和面部表情的理想視頻幀。實(shí)驗(yàn)表明,該方法既能增強(qiáng)面部情感表達(dá),又可使圖像更加清晰,效果優(yōu)于對(duì)比基線模型。
關(guān)鍵詞:音頻驅(qū)動(dòng);人臉動(dòng)畫;情感動(dòng)畫模塊;注意力增強(qiáng)解碼器
中圖分類號(hào):TP391.41 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2025)02-044-0636-05
doi:10.19734/j.issn.1001-3695.2024.04.0168
Facial animation generation method integrating audio content,
style,and emotional features
Zhang Xinrua,b,c,Zhu Xinjuana,b,c’,Gao Quanlia,b,c
(a.School of Computer Science,b.Shaanxi Key Laboratory of Clothing Intelligence,c.State-Province Joint Engineering amp; Research Center of Advanced Networking amp; Intelligent Information Services,Xi’an Polytechnic University,Xi’an 710048,China)
Abstract:Existing audio-driven facial animation techniques primarily focus on synchronizing lip movements with audio,while neglecting the capability to reproduce facial expressions or head movements of the characters.Therefore,this paper proposed a high-quality facial animation generation method that integrated audio content,style,and emotional features (ACSEF).Firstly,this method designed an emotional animation module (EAM) to extract implicit emotional features from the audio to estimate more accurate facial emotional landmark displacements.And this module fused these with the facial landmark displacements of speech content and speaker style animation to improve the accuracy and vividness of predicting landmarks.Secondly,this method designed an attention-augmented decoder based on U-Net (AADU) to decode the estimated landmarks and images into realistic ideal video frames containing lip sync,head movements,and facial expressions.Experiments show that this method can both enhance facial emotional expression and make the image clearer,and the effect is better than the baseline model.
Key words:audio driver;facial animation;emotional animation module;attention-augmented decoder
0 引言
音頻驅(qū)動(dòng)的人臉動(dòng)畫技術(shù)在電影制作[1]、視頻帶寬縮減[2]、虛擬化身動(dòng)畫[3]、視頻會(huì)議[4,5]等多種應(yīng)用場景中發(fā)揮著非常重要的作用。根據(jù)之前的研究工作[6,7],理想逼真的談話頭部視頻應(yīng)滿足以下要求,即:a)視頻身份需要與目標(biāo)人物一致;b)嘴唇動(dòng)作需要與音頻內(nèi)容同步;c)視頻應(yīng)該具有自然的面部表情和頭部動(dòng)作。
目前,已經(jīng)有很多音頻驅(qū)動(dòng)的人臉動(dòng)畫生成方法可以滿足前兩點(diǎn)要求,例如經(jīng)典方法Wav2Lip[8]。音頻是一種豐富的生物特征信號(hào),其中包含有關(guān)說話者的風(fēng)格、性別和情緒狀態(tài)的信息。然而,Wav2Lip沒有考慮頭部運(yùn)動(dòng)和面部表情與音頻信息之間的協(xié)調(diào)性和一致性的問題。為此,有研究者提出了可以生成帶有表情或頭部控制的談話視頻方法。例如:在表情控制方面,文獻(xiàn)[9,10]中添加了眨眼動(dòng)作,通過合成方法來提高頭部視頻逼真度,但結(jié)果仍存在面部肌肉僵硬的問題。Wang等人[11]2023年提出了一種基于記憶共享和注意力增強(qiáng)網(wǎng)絡(luò)的情感談話頭部模型(memory-sharing and attention-augmented network,MSAAN),該模型主要針對(duì)不同情感下的唇音同步,最終可以生成具有多種情感的談話頭部視頻,但該模型不適用于任意目標(biāo)人物,且輸入圖片的情感要與音頻情感一致。在頭部控制方面,MakeItTalk[12]提出了唇部和頭部運(yùn)動(dòng)融合的最經(jīng)典方法,該方法可以生成任意目標(biāo)人物擁有輕微頭部運(yùn)動(dòng)的視頻,但是頭部運(yùn)動(dòng)存在視頻模糊的問題。生成視頻能夠同時(shí)滿足三個(gè)要求的理想逼真談話頭部視頻方法鮮有報(bào)道。
音頻驅(qū)動(dòng)的人臉動(dòng)畫生成技術(shù)是多模態(tài)生成任務(wù),要實(shí)現(xiàn)音頻聽覺信息與視覺信息之間的映射,其主要分為從音頻到人臉特征的映射和臉部圖像生成兩個(gè)階段。從音頻中提取人臉的特征信息主要分為以下兩種方式:一種是直接采用卷積神經(jīng)網(wǎng)絡(luò)生成相應(yīng)特征信息的談話頭部視頻,即端到端映射[8,13~16];另一種是通過音頻預(yù)測出面部地標(biāo),再對(duì)面部地標(biāo)進(jìn)行解碼生成談話頭部視頻,即基于面部地標(biāo)解碼[11,12,17,18]。人臉動(dòng)畫生成相關(guān)方法如表1所示。
通過表1可以觀察出,在端到端的人臉動(dòng)畫生成方法中,如果想生成理想的談話頭部視頻幀,大部分模型[8,14~16]的輸入都是多個(gè)視頻幀,這樣的驅(qū)動(dòng)方式會(huì)受到帶寬和成本的限制,不適用于諸如帶寬受限的視頻會(huì)議和成本高昂的視頻制作等特定應(yīng)用領(lǐng)域。基于面部地標(biāo)的人臉動(dòng)畫生成方法已經(jīng)可以精準(zhǔn)地實(shí)現(xiàn)唇音同步[17],且在此基礎(chǔ)上生成面部表情[11,18]或頭部運(yùn)動(dòng)的方法[12]都取得了一些顯著的成果,但是生成既有面部表情又有頭部運(yùn)動(dòng)的方法較少。同時(shí),為了更好地體現(xiàn)目標(biāo)人物的面部表情,本文需要通過高保真地渲染目標(biāo)人物的皮膚紋理來提高視頻質(zhì)量,文獻(xiàn)[11,12,18]的方法雖然在一定程度上提高了視頻的質(zhì)量,但是在人物情感的渲染方面仍有待增強(qiáng)。
基于上述問題,本文提出了一種融合音頻內(nèi)容、風(fēng)格和情感特征的高質(zhì)量人臉動(dòng)畫生成方法(integrate audio content,style,and emotional features,ACSEF),該方法在保證唇部運(yùn)動(dòng)、頭部運(yùn)動(dòng)和面部表情與音頻一致的同時(shí),更好地渲染出目標(biāo)人物的詳細(xì)皮膚紋理,解決了視頻質(zhì)量和情緒表現(xiàn)力不佳的問題。ACSEF的具體實(shí)現(xiàn)可分為兩個(gè)階段,第一階段,構(gòu)建情感動(dòng)畫模塊(emotion animation module,EAM)獲得預(yù)測的面部地標(biāo),進(jìn)一步提高預(yù)測地標(biāo)的準(zhǔn)確性和生動(dòng)性。由于音頻中的情緒信息與面部表情密切相關(guān),所以需要準(zhǔn)確地提取隱藏在音頻中的情感特征作為輔助信息。本文通過采用交叉重構(gòu)情感解糾纏技術(shù)[18]來訓(xùn)練提取情感輔助特征的情感編碼器,使用遞歸網(wǎng)絡(luò)構(gòu)建情感動(dòng)畫網(wǎng)絡(luò)來實(shí)現(xiàn)情感特征和面部地標(biāo)之間的映射關(guān)系,采用最小化損失函數(shù)來不斷優(yōu)化模型。第二階段,構(gòu)建基于U-Net的注意力增強(qiáng)解碼器(attention-augmented decoder based on U-Net,AADU)對(duì)預(yù)測的面部地標(biāo)進(jìn)行解碼,用來生成逼真的談話頭部視頻。該解碼器旨在通過關(guān)注解碼中的重要信息以及抑制來自編碼特征的不必要信息來增強(qiáng)特征的表示能力,減少有用信息的損失,提高視頻圖像質(zhì)量,以保持更多細(xì)節(jié),如目標(biāo)人物復(fù)雜的皮膚紋理和面部陰影。
綜上所述,本文的主要貢獻(xiàn)如下:
a)提出了情感動(dòng)畫模塊(EAM),該模塊提高預(yù)測地標(biāo)的準(zhǔn)確性,以及頭部運(yùn)動(dòng)和面部表情與音頻之間的協(xié)調(diào)性。
b)提出了一種基于U-Net的注意力增強(qiáng)解碼器(AADU),用于生成逼真、高質(zhì)量的理想視頻幀。
c)本文借鑒MakeItTalk中的部分模塊,并合理地與EAM和AADU模塊進(jìn)行整合,構(gòu)成一種融合音頻內(nèi)容、風(fēng)格和情感特征的高質(zhì)量人臉動(dòng)畫生成方法(ACSEF)。在MEAD數(shù)據(jù)集上進(jìn)行的多組對(duì)比實(shí)驗(yàn)結(jié)果表明,ACSEF可以生成高質(zhì)量的理想逼真的談話頭部視頻,效果顯著優(yōu)于以往的工作。
1 本文方法
1.1 方法概覽
ACSEF方法的主要目標(biāo)是給定一段說話音頻和一張面部圖像,最終生成高質(zhì)量談話頭部視頻,該視頻保證唇部運(yùn)動(dòng)、頭部運(yùn)動(dòng)和面部表情與音頻一致。圖1為ACSEF結(jié)構(gòu),包含語音內(nèi)容動(dòng)畫、說話者風(fēng)格動(dòng)畫、EAM和AADU四個(gè)主要模塊。首先,對(duì)給定的說話音頻進(jìn)行預(yù)處理。其次,將處理后的數(shù)個(gè)音頻片段輸入內(nèi)容、說話者風(fēng)格和情感編碼器,分別得到內(nèi)容、說話者風(fēng)格和情感嵌入特征,該特征的大小分別為80、256和128。然后通過語音內(nèi)容、說話者風(fēng)格和情感動(dòng)畫網(wǎng)絡(luò)分別得到面部相應(yīng)位置的3D靜態(tài)地標(biāo)的相對(duì)位移。接著,將得到的3D靜態(tài)地標(biāo)相對(duì)位移與標(biāo)準(zhǔn)的人臉地標(biāo)進(jìn)行相加融合,獲得預(yù)測的landmarks視頻幀。最后,將預(yù)測的landmarks視頻幀和目標(biāo)人物的面部圖像作為AADU模塊的輸入,最終輸出該目標(biāo)人物高保真的談話頭部視頻。
MakeItTalk是融合說話者內(nèi)容和風(fēng)格的經(jīng)典方法,但是生成的談話頭部視頻缺乏面部表情,而在觀眾觀看視頻時(shí),人物面部表情和面部紋理的變化對(duì)情感表達(dá)有著十分重要的影響。因此ACSEF借鑒MakeItTalk中的語音內(nèi)容動(dòng)畫和說話者風(fēng)格動(dòng)畫這兩個(gè)模塊(圖1中藍(lán)色虛框)(參見電子版),且在此基礎(chǔ)上添加了EAM和AADU(圖1中紅色虛框)來提高觀眾的體驗(yàn)感,加強(qiáng)情感表達(dá)。語音內(nèi)容動(dòng)畫模塊的主要作用是從音頻中提取內(nèi)容特征,接著通過語音內(nèi)容動(dòng)畫網(wǎng)絡(luò)獲得3D靜態(tài)地標(biāo)的相對(duì)位移;說話者風(fēng)格動(dòng)畫模塊的主要作用是從音頻中提取內(nèi)容和風(fēng)格特征,接著通過說話者風(fēng)格動(dòng)畫網(wǎng)絡(luò)獲得3D靜態(tài)地標(biāo)的相對(duì)位移。EAM的主要目的是從音頻中提取情感特征,接著通過情感動(dòng)畫網(wǎng)絡(luò)獲得3D靜態(tài)地標(biāo)的相對(duì)位移,最終得到預(yù)測的landmarks視頻幀。該模塊提高了預(yù)測地標(biāo)的準(zhǔn)確性,以及頭部運(yùn)動(dòng)和面部表情與音頻之間的協(xié)調(diào)性。AADU的主要目的是將預(yù)測的landmarks視頻幀和目標(biāo)人臉圖像作為輸入,生成該目標(biāo)人物既有頭部運(yùn)動(dòng)又有情感的談話頭部視頻幀。該模塊提高了生成視頻的質(zhì)量,使得輸出的圖像能保持更多的細(xì)節(jié),如目標(biāo)人物復(fù)雜的皮膚紋理和面部陰影。
1.2 情感動(dòng)畫模塊(EAM)
為了提取音頻中與內(nèi)容無關(guān)的情感輔助特征,實(shí)現(xiàn)情感的自由控制,本文使用交叉重構(gòu)情感解糾纏技術(shù)[18]來訓(xùn)練情感編碼器,最終獲得輸入音頻樣本的一對(duì)去糾纏的內(nèi)容和情感嵌入特征。例如:通過情感編碼器提取了情感輔助特征E∈?T×D,其中:T是輸入音頻的總幀數(shù),D是情感特征的維度,大小是128維。情感動(dòng)畫網(wǎng)絡(luò)的目標(biāo)是以中性風(fēng)格地標(biāo)為基礎(chǔ),將情感嵌入特征E映射到相應(yīng)的面部地標(biāo)位置。在實(shí)驗(yàn)中發(fā)現(xiàn)遞歸網(wǎng)絡(luò)比前饋網(wǎng)絡(luò)更適合這項(xiàng)任務(wù),因?yàn)檫f歸網(wǎng)絡(luò)可以更好地捕捉音頻情感特征和面部地標(biāo)之間的這種依賴關(guān)系。具體來說,在每t幀中,LSTM模塊將[t→t+T]窗口內(nèi)的音頻情感嵌入特征E作為輸入,其中T=18幀。為了動(dòng)畫化,對(duì)任意輸入圖像使用地標(biāo)檢測器提取3D靜態(tài)地標(biāo)q,LSTM層的輸出被饋送到多層感知器(multi-layer perceptron,MLP)中獲得情感動(dòng)畫的預(yù)測地標(biāo)位移Δqt,接著與語音內(nèi)容和說話者風(fēng)格動(dòng)畫模塊獲得的預(yù)測位移結(jié)果Δqct、Δqht進(jìn)行相加融合,最終得到輸入地標(biāo)在相應(yīng)音頻下每幀處的運(yùn)動(dòng)變化yt。情感動(dòng)畫網(wǎng)絡(luò)模塊基于以下轉(zhuǎn)換對(duì)輸出地標(biāo)的順序依賴性進(jìn)行建模:mt=LSTMe(Et→t+T;wLSTM,c)(1)
Δqt=MLPe(mt,q;wMLP,c)(2)
pt=q+Δqt(3)
yt=pt+Δqct+Δqht(4)
其中:{wLSTM,c,wMLP,c}分別是LSTM和MLP網(wǎng)絡(luò)的可學(xué)習(xí)參數(shù)。LSTM網(wǎng)絡(luò)有三層單元,每層單元都有一個(gè)256大小的內(nèi)部隱藏狀態(tài)向量。MLP網(wǎng)絡(luò)有三層,內(nèi)部隱藏狀態(tài)向量大小分別為512、256和204(68×3)。情感動(dòng)畫網(wǎng)絡(luò)的損失函數(shù),本文使用最小化損失函數(shù)來學(xué)習(xí)LSTM和MLP網(wǎng)絡(luò)的參數(shù){wLSTM,c,wMLP,c},該損失函數(shù)評(píng)估注冊(cè)的參考地標(biāo)位置pt和預(yù)測地標(biāo)位置p^t之間的距離,以及它們各自圖拉普拉斯坐標(biāo)之間的距離,該損失函數(shù)有助于正確放置地標(biāo)相對(duì)于彼此的位置,并保留面部形狀的細(xì)節(jié)[19]。具體而言,EAM的損失函數(shù)是:
Le=∑Tt=1 ∑Ni=1‖pi,t-i,t‖22+λe∑Tt=1 ∑Ni=1‖Y(pi,t)-Y(i,t)‖22(5)
其中:i是每個(gè)單獨(dú)地標(biāo)的索引;λe是對(duì)第二項(xiàng)的加權(quán)系數(shù)。本文使用以下的圖拉普拉斯算式Y(jié)(pt):
Y(pi,t)=pi,t-1|N(pi)|∑pj∈N(pi)pj,t(6)
其中:N(pi)表示可以連接到面部pi點(diǎn)的鄰居地標(biāo)。
1.3 基于U-Net的注意力增強(qiáng)解碼器模塊(AADU)
將預(yù)測的面部地標(biāo)解碼為目標(biāo)人物的高保真和情緒化的談話頭部視頻幀,主要面臨兩個(gè)挑戰(zhàn):首先,照片逼真的談話頭部視頻幀需要關(guān)注皮膚紋理等細(xì)節(jié),才能更好地表達(dá)情感。其次,從面部標(biāo)志轉(zhuǎn)換為談話頭部視頻幀的過程中,需要確保與目標(biāo)人物的身份高度一致,并與預(yù)測的標(biāo)志面部輪廓和嘴唇形狀相匹配。
為了應(yīng)對(duì)這些挑戰(zhàn),本文在MakeItTalk提出的圖像到圖像翻譯網(wǎng)絡(luò)基礎(chǔ)上,提出了一種基于U-Net的注意力增強(qiáng)解碼器(AADU),進(jìn)一步提高生成視頻幀的質(zhì)量。圖2為AADU的結(jié)構(gòu),將預(yù)測的面部地標(biāo)與目標(biāo)人臉圖像按通道連接輸入AADU模塊,最終輸出逼真的談話頭部視頻幀。
圖2中residual block表示跳躍連接,將輸入信號(hào)經(jīng)過兩層卷積網(wǎng)絡(luò)處理后的結(jié)果直接加到輸出上,down和up分別表示圖像降維時(shí)每層結(jié)構(gòu)和復(fù)原時(shí)每層結(jié)構(gòu),且每一個(gè)down和up中都有兩次residual block,能夠幫助網(wǎng)絡(luò)更好地捕獲輸入信號(hào)的細(xì)節(jié)和全局信息,提高了網(wǎng)絡(luò)的表征能力和泛化能力。每層圖片維度和通道數(shù)變化如圖中標(biāo)注所示,例如(256×256 6)中256×256表示圖片維度,6表示圖片通道數(shù)。本文提出的AADU模型旨在原U-Net模型解碼器每層上采樣之前添加CBAM[20]模塊,該模塊由空間注意力和通道注意力兩個(gè)子模塊組成,空間注意力使神經(jīng)網(wǎng)絡(luò)能夠更多地關(guān)注圖像中對(duì)面部表情和嘴唇形狀等起決定作用的像素區(qū)域,而忽略不重要的區(qū)域。通道注意力用于處理特征圖通道的分布關(guān)系。因此AADU通過關(guān)注解碼中的重要信息以及抑制來自編碼特征的不必要信息來增強(qiáng)特征的表示能力,避免有用信息的丟失,使網(wǎng)絡(luò)能夠關(guān)注皮膚紋理等細(xì)節(jié)。
AADU的損失函數(shù),隨機(jī)采樣一對(duì)幀:源訓(xùn)練幀Qs和目標(biāo)幀Qt,提取目標(biāo)幀的面部地標(biāo)并將其光柵化為RGB圖像Yt,將Qs與Yt輸入AADU中獲得重構(gòu)的面部Q^t。損失函數(shù)旨在最小化重建人臉Q^t和訓(xùn)練目標(biāo)人臉Qt之間每個(gè)像素距離和感知特征距離[21],具體公式如下:
La=∑{s,t}‖Qt-Q^t‖1+λa∑{s,t}‖?(Qt)-?(Q^t)‖1(7)
其中:λa=1,?將來自預(yù)訓(xùn)練的VGG19網(wǎng)絡(luò)[22]的特征圖激活并進(jìn)行連接。
2 實(shí)驗(yàn)與分析
2.1 實(shí)驗(yàn)設(shè)置
2.1.1 數(shù)據(jù)集和參數(shù)
評(píng)估模型的數(shù)據(jù)集與EVP[18]相同,即MEAD數(shù)據(jù)集[23]。MEAD是一個(gè)大規(guī)模、高質(zhì)量的情感音視頻數(shù)據(jù)集,包括60位演員,涵蓋了8種基本情感(中性、開心、生氣、抱怨、傷心、害怕、驚喜和失望)的說話頭部視頻。本文將所有說話頭部視頻轉(zhuǎn)換為25 frames/s和62.5 frames/s,并將音頻采樣率設(shè)置為16 kHz。其中62.5 frames/s的視頻幀用來訓(xùn)練情感動(dòng)畫網(wǎng)絡(luò),25 frames/s的視頻幀用來訓(xùn)練AADU。本文網(wǎng)絡(luò)使用PyTorch中的Adam優(yōu)化器來訓(xùn)練,學(xué)習(xí)率設(shè)置為10-4,權(quán)重衰減設(shè)置為10-6。
2.1.2 評(píng)估指標(biāo)
為了定量評(píng)估不同的方法,本文選擇了談話頭部生成方法中的常用指標(biāo)來體現(xiàn)情感表達(dá),即M-LMD和F-LMD,其中M-LMD測量不同情感下嘴唇運(yùn)動(dòng)的準(zhǔn)確性,F(xiàn)-LMD測量不同情感下面部輪廓的準(zhǔn)確性。M-LMD和F-LMD的數(shù)值越小越體現(xiàn)較高的唇部運(yùn)動(dòng)或面部輪廓的準(zhǔn)確性,最小值為0。此外,本文使用結(jié)構(gòu)相似性指數(shù)測量(structural similarity index mea-sure,SSIM)[24]和峰值信噪比(peak signal to noise ratio,PSNR)[25]來測量生成的談話頭部視頻幀的質(zhì)量。SSIM是衡量兩幅圖像在結(jié)構(gòu)和內(nèi)容上的相似性,數(shù)值越大越體現(xiàn)較高的相似性,最大可為1。PSNR是比較原始信號(hào)與經(jīng)過處理后的信號(hào)之間的差異,數(shù)值越大表示重構(gòu)信號(hào)與原始信號(hào)之間的相似度越高,質(zhì)量越好。
2.1.3 比較方法
將ACSEF與MSAAN[11]和基線方法MakeItTalk[12]進(jìn)行比較,其中MSAAN是2023年提出的方法,提高了不同情緒下的唇部運(yùn)動(dòng)與音頻的同步性和視頻質(zhì)量。此外,本文方法還與Audio2Head[26]進(jìn)行了比較,后者基于運(yùn)動(dòng)場生成的談話頭部視頻,并從生成頭部運(yùn)動(dòng)的角度提高了視頻的真實(shí)感。
2.2 客觀評(píng)測結(jié)果與分析
“ACSEF w/o EAM”表示僅添加AADU模塊,“ACSEF w/o AADU”表示僅添加EAM模塊。從表2中可以看出,當(dāng)僅添加AADU模塊時(shí),ACSEF在圖像質(zhì)量方面有明顯改善,即SSIM增加0.02,PSNR增加0.04,但是在情感表達(dá)方面弱于MSAAN,即F-LMD增加了0.02,M-LMD增加了0.08。當(dāng)僅添加EAM模塊時(shí),ACSEF在情感表達(dá)方面有明顯改善,即F-LMD減少了0.03,雖然M-LMD的結(jié)果高于MSAAN,但是相比于MakeItTalk和不添加EAM模塊的ACSEF都有明顯下降。同時(shí),在圖像質(zhì)量方面弱于MSAAN,即SSIM減少0.02,PSNR減少0.02。以上兩組消融實(shí)驗(yàn)結(jié)果表明,EAM可以增強(qiáng)情感表達(dá),AADU可以提高圖像質(zhì)量。當(dāng)同時(shí)添加EAM和AADU模塊時(shí),ACSEF在情感表達(dá)和圖像質(zhì)量方面都有所改善。與MSAAN相比,ACSEF的F-LMD減少了0.03,SSIM增加了0.02,PSNR增加了0.05。因?yàn)镸SAAN提出的模塊有助于提高不同情緒下的唇部運(yùn)動(dòng)與音頻的同步性,所以M-LMD的結(jié)果相比其他方法最低,然而,該模塊依賴于目標(biāo)人物圖像中的情緒,導(dǎo)致F-LMD的結(jié)果稍差。
因?yàn)锳udio2Head主要針對(duì)目標(biāo)人物的頭部運(yùn)動(dòng),在情感表達(dá)方面沒有涉及,為此,本文只將后兩個(gè)指標(biāo)與之進(jìn)行了比較,即SSIM和PSNR。從表2中可以看出,ACSEF在所有指標(biāo)上都優(yōu)于MakeItTalk、MSAAN和Audio2Head。其中MakeItTalk缺乏對(duì)音頻中情感輔助特征的提取,所以在情感面部擬合方面效果稍差;MSAAN方法提出的模塊會(huì)受編碼器不必要信息的影響,導(dǎo)致生成的視頻過度關(guān)注唇部,在面部其他部位存在模糊現(xiàn)象;Audio2Head是基于運(yùn)動(dòng)場生成像素級(jí)的談話頭部視頻幀,所以會(huì)丟失有關(guān)說話者的一些重要信息,導(dǎo)致其方法生成的圖像質(zhì)量有限。
2.3 用戶主觀評(píng)測結(jié)果與分析
本文還設(shè)計(jì)了一項(xiàng)詳細(xì)的用戶研究,以評(píng)估談話頭部視頻的整體質(zhì)量。本文使用了三個(gè)指標(biāo)來測量視頻質(zhì)量,即嘴唇同步(lip synchronization,LS)、生動(dòng)性表達(dá)(vivid expression,VE)和視頻感知質(zhì)量(video perceptual quality,VPQ)。共有30名志愿者完成了實(shí)驗(yàn)問卷,對(duì)每個(gè)視頻進(jìn)行了評(píng)分,從1(最差)到5(最好)。如表3所示,因?yàn)镸SAAN提出的模塊有助于提高不同情感下的唇緣精度,所以ACSEF的唇音同步結(jié)果弱于MSAAN,即LS下降了0.17,但它在生動(dòng)性的表達(dá)和視頻感知質(zhì)量方面是優(yōu)越的,即VE上升了0.68,VPQ上升了0.21。此外,ACSEF在所有指標(biāo)上都優(yōu)于MakeItTalk和Audio2Head。
2.4 可視化結(jié)果與分析
為了使對(duì)比結(jié)果可視化,本文還選擇了一些由不同方法生成的談話頭部視頻幀,如圖3所示。
通過圖3可以觀察出,ACSEF可以生成具有強(qiáng)烈情感的高逼真的談話頭部視頻幀,且最接近地面真實(shí)數(shù)據(jù)(ground truth,GT)。與GT結(jié)果進(jìn)行對(duì)比分析發(fā)現(xiàn),MakeItTalk的結(jié)果存在唇音同步性差和視頻模糊的問題,且整體圖片顏色與GT的結(jié)果相差較大;MSAAN提出的方法存在視頻模糊的問題,主要體現(xiàn)在眼睛部位;Audio2Head方法存在情感表現(xiàn)力、身份一致性、嘴唇同步性較差和視頻模糊的問題。
為了進(jìn)一步了解EAM模塊對(duì)landmarks準(zhǔn)確性的貢獻(xiàn),圖4可視化了不同方法生成的landmarks結(jié)果。“ACSEF w/o EAM”表示不添加EAM模塊。
通過對(duì)圖4觀察看出,MakeItTalk和不添加EAM模塊生成的landmarks結(jié)果都存在唇部、眼睛、眉毛和面部輪廓不準(zhǔn)確的問題。具體如下,圖中①標(biāo)出的眉毛不能體現(xiàn)出生氣的情感,與中性結(jié)果眉毛一致;圖中②和④標(biāo)出的唇部和③標(biāo)出的眼睛不能體現(xiàn)出開心的情感,唇部兩邊沒有上翹,眼睛對(duì)比GT結(jié)果稍大,不符合開心情感的表達(dá);圖中⑤和⑦標(biāo)出的眉毛、⑥標(biāo)出的面部輪廓和⑧標(biāo)出的唇部不能體現(xiàn)出傷心的情感,眉毛和面部輪廓與中性結(jié)果一致,嘴唇兩側(cè)無下垂,未呈現(xiàn)悲傷情緒;圖中⑨和⑩標(biāo)出的眼睛對(duì)比GT結(jié)果稍小,不符合驚喜情感的表達(dá),與開心的效果相似。綜合以上分析發(fā)現(xiàn),本文添加EAM模塊后生成的landmarks最接近GT結(jié)果,情感表達(dá)更加強(qiáng)烈,即EAM模塊可以加強(qiáng)情感表達(dá)。
3 結(jié)束語
本文提出了一種融合音頻內(nèi)容、風(fēng)格和情感特征的高質(zhì)量人臉動(dòng)畫生成方法(ACSEF),通過EAM獲得不同情感特征與面部地標(biāo)之間的映射關(guān)系,并與內(nèi)容和風(fēng)格網(wǎng)絡(luò)結(jié)果進(jìn)行融合,提高預(yù)測地標(biāo)的準(zhǔn)確性和生動(dòng)性;通過AADU提高生成視頻的質(zhì)量,使得輸出的圖像能保持更多的細(xì)節(jié),如目標(biāo)人物復(fù)雜的皮膚紋理和面部陰影。由于本文采用地標(biāo)檢測器僅適用于真實(shí)人臉,所以ACSEF在動(dòng)漫人物形象的應(yīng)用上存在局限性。在未來將選擇更合適的地標(biāo)檢測器,基于動(dòng)漫數(shù)據(jù)集進(jìn)行訓(xùn)練,提高模型的泛化能力,避免涉及真實(shí)人臉的版權(quán)問題,減少法律風(fēng)險(xiǎn)。
參考文獻(xiàn):
[1]Kim H,Elgharib M,Zollh?fer M,et al.Neural style-preserving visual dubbing[J].ACM Trans on Graphics,2019,38(6):1-13.
[2]Wang Tingchun,Mallya A,Liu Mingyu.One-shot free-view neural talking-head synthesis for video conferencing [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2021:10039-10049.
[3]Lu Yuanxun,Chai Jinxiang,Cao Xun.Live speech portraits:real-time photorealistic talking-head animation [J].ACM Trans on Gra-phics,2021,40(6):1-17.
[4]Wang Jianrong,Tang Ziyue,Li Xuewei,et al.Cross-modal knowledge distillation method for automatic cued speech recognition[EB/OL].(2021-06-25).https://arxiv.org/abs/2106.13686.
[5]Guo Yudong,Chen Keyu,Liang Sen,et al.AD-NERF:audio driven neural radiance fields for talking head synthesis [C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:5784-5794.
[6]Ji Xinya,Zhou Hang,Wang Kaisiyuan,et al.EAMM:one-shot emotional talking face via audio-based emotion-aware motion model[C]//Proc of ACM SIGGRAPH Conference.New York:ACM Press,2022:1-10.
[7]Zhou Hang,Sun Yasheng,Wu Wayne,et al.Pose-controllable talking face generation by implicitly modularized audio-visual representation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:4176-4186.
[8]Prajwal K R,Mukhopadhyay R,Namboodiri V P,et al.A lip sync expert is all you need for speech to lip generation in the wild [C]// Proc of the 28th ACM International Conference on Multimedia.New York:ACM Press,2020:484-492.
[9]Vougioukas K,Petridis S,Pantic M.Realistic speech-driven facial animation with GANs[J].International Journal of Computer Vision,2020,128(5):1398-1413.
[10]Sinha S,Biswas S,Bhowmick B.Identity-preserving realistic talking face generation[C]//Proc of International Joint Conference on Neural Networks.Piscataway,NJ:IEEE Press,2020:1-10.
[11]Wang Jianrong,Zhao Yaxin,Liu Li,et al.Emotional talking head gene-ration based on memory-sharing and attention-augmented networks[EB/OL].(2023-06-06).https://arxiv.org/abs/2306.03594.
[12]Zhou Yang,Han Xintong,Shechtman E,et al.MakeItTalk:speaker-aware talking-head animation[J].ACM Trans on Graphics,2020,39(6):1-15.
[13]Chung J S,Jamaludin A,Zisserman A.You said that?[EB/OL].(2017-05-08).https://arxiv.org/abs/1705.02966.
[14]Wiles O,Koepke A,Zisserman A.X2Face:a network for controlling face generation using images,audio,and pose codes[C]//Proc of European Conference on Computer Vision.Berlin:Springer International Publishing,2018:670-686.
[15]Liang Borong,Pan Yan,Guo Zhizhi,et al.Expressive talking head generation with granular audio-visual control[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:3387-3396.
[16]Goyal S,Bhagat S,Uppal S,et al.Emotionally enhanced talking face generation[C]//Proc of the 1st International Workshop on Multimedia Content Generation and Evaluation:New Methods and Practice.New York:ACM Press,2023:81-90.
[17]Suwajanakorn S,Seitz S M,Kemelmacher-Shlizerman I.Synthesizing Obama:learning lip sync from audio [J].ACM Trans on Graphics,2017,36(4):1-13.
[18]Ji Xinya,Zhou Hang,Wang Kaisiyuan,et al.Audio-driven emotional video portraits[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:14080-14089.
[19]Sorkine O.Differential representations for mesh processing [J].Computer Graphics Forum,2006,25(4):789-807.
[20]Woo S,Park J,Lee J Y,et al.CBAM:convolutional block attention module [C]//Proc of European Conference on Computer Vision.Berlin:Springer International Publishing,2018:3-19.
[21]Johnson J,Alahi A,F(xiàn)ei-Fei L.Perceptual losses for real-time style transfer and super-resolution[C]//Proc of the 14th European Confe-rence on Computer Vision.Berlin:Springer International Publishing,2016:694-711.
[22]Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition [EB/OL].(2014-09-04).https://arxiv.org/abs/1409.1556.
[23]Wang Kaisiyuan,Wu Qianyi,Song Linsen, et al.Mead:a large-scale audio-visual dataset for emotional talking-face generation [C]//Proc of European Conference on Computer Vision.Cham:Springer International Publishing,2020:700-717.
[24]Wang Zhou,Bovik A C,Sheikh H R,et al.Image quality assessment:from error visibility to structural similarity[J].IEEE Trans on Image Processing,2004,13(4):600-612.
[25]Huynh-Thu Q,Ghanbari M.Scope of validity of PSNR in image/video quality assessment [J].Electronics Letters,2008,44(13):800-801.
[26]Wang Suzhen,Li Lincheng,Ding Yun,et al.Audio2Head:audio-driven one-shot talking-head generation with natural head motion[EB/OL].(2021-01-20).https://arxiv.org/abs/2107.09293.