虛擬數(shù)字人新范式：SIGGRAPH ASIA 2023電影制作相關(guān)研究綜述

2024-06-10 20:08:42劉紹龍趙曉雨

現(xiàn)代電影技術(shù) 2024年3期

劉紹龍趙曉雨

北京師范大學(xué)藝術(shù)與傳媒學(xué)院，北京 100875

1 引言

由國(guó)際圖形圖像協(xié)會(huì)（ACM SIGGRAPH）舉辦的國(guó)際計(jì)算機(jī)圖形學(xué)與交互技術(shù)國(guó)際會(huì)議（SIGGRAPH）是計(jì)算機(jī)領(lǐng)域的專業(yè)會(huì)議，自1974 年首次舉辦以來，逐步成為涵蓋計(jì)算機(jī)圖形學(xué)（CG）、電影和動(dòng)畫、虛擬現(xiàn)實(shí)（VR）、人機(jī)交互（HCI）、機(jī)器學(xué)習(xí)（ML）等多領(lǐng)域的綜合性國(guó)際會(huì)議。歷年來，會(huì)議在推動(dòng)計(jì)算機(jī)圖形學(xué)與交互技術(shù)前沿發(fā)展的同時(shí)，也不斷為電影行業(yè)引入新的技術(shù)與思想，為電影制作提供了更多的創(chuàng)作可能性，包括但不限于數(shù)字特效技術(shù)、虛擬角色與數(shù)字人技術(shù)、影片制作工具、實(shí)時(shí)渲染技術(shù)、虛擬現(xiàn)實(shí)與交互體驗(yàn)等方面。SIGGRAPH ASIA 是該會(huì)議的亞洲地區(qū)會(huì)議，自2008年起在亞太地區(qū)城市舉辦。

2023 年12 月，SIGGRAPH ASIA 2023 在澳大利亞悉尼舉辦，本次大會(huì)收到了自創(chuàng)辦以來最高數(shù)量的論文投稿，這一增長(zhǎng)也表明計(jì)算機(jī)圖形學(xué)與交互技術(shù)等領(lǐng)域在生成式人工智能（Generative AI）技術(shù)加持下已形成新技術(shù)、新算法與新實(shí)踐。經(jīng)過筆者對(duì)電影制作技術(shù)相關(guān)應(yīng)用文章進(jìn)行梳理總結(jié)，本次大會(huì)呈現(xiàn)出三個(gè)重要趨勢(shì)：一是深度學(xué)習(xí)（DL）成為當(dāng)前計(jì)算機(jī)圖形學(xué)技術(shù)的核心，并已經(jīng)被應(yīng)用到計(jì)算機(jī)圖形學(xué)的絕大部分任務(wù)領(lǐng)域；二是當(dāng)前電影制作技術(shù)發(fā)展趨勢(shì)仍然以更逼真效果、更高效率、更低成本、更具表現(xiàn)力為重點(diǎn)，隨之產(chǎn)生的則是更高的算力需求；三是生成式模型與神經(jīng)輻射場(chǎng)技術(shù)（Neural Radiance Fields, NeRF）成為當(dāng)前計(jì)算機(jī)圖形學(xué)發(fā)展的熱點(diǎn)。

尤其是從虛擬數(shù)字人的角度來看，本次大會(huì)有大量關(guān)于該細(xì)分議題的技術(shù)論文出現(xiàn)，從模擬、成像、幾何、建模、渲染、人機(jī)交互、觸覺、制造、機(jī)器人、可視化、音頻、光學(xué)、編程語言、沉浸式體驗(yàn)、視覺計(jì)算、機(jī)器學(xué)習(xí)等多個(gè)角度對(duì)虛擬數(shù)字人技術(shù)應(yīng)用進(jìn)行解讀，同時(shí)也為電影制作技術(shù)的未來發(fā)展提供了深刻的洞察，為人機(jī)協(xié)同創(chuàng)作理念在電影制作中的應(yīng)用打開了嶄新視野。

2 虛擬數(shù)字人的研究轉(zhuǎn)向：從“替身”到“多模態(tài)”

所謂的虛擬數(shù)字人，是通過多種計(jì)算機(jī)技術(shù)對(duì)人類的幾何結(jié)構(gòu)、表情形態(tài)和動(dòng)作行為進(jìn)行復(fù)制及模擬的虛擬化實(shí)體，具有數(shù)字外形的虛擬角色。張麗錦等[1]基于模因論（Memetics）的角度，從生物學(xué)隱喻階段、文化研究階段、多模態(tài)智能化階段對(duì)虛擬數(shù)字人進(jìn)行了概念界定與特征分析，這一概念實(shí)體也在技術(shù)發(fā)展的背景下不斷迭代。

從傳統(tǒng)電影制作思維來看，虛擬數(shù)字人及其相關(guān)建構(gòu)技術(shù)被較早運(yùn)用于電影后期特效，并主要運(yùn)用于替代演員執(zhí)行危險(xiǎn)動(dòng)作或特技表演，在降低拍攝風(fēng)險(xiǎn)的同時(shí)，使故事情節(jié)中的驚險(xiǎn)動(dòng)作更為生動(dòng)逼真。而在動(dòng)畫電影中，虛擬數(shù)字人的制作技術(shù)對(duì)電影技術(shù)產(chǎn)業(yè)的影響則是多維度的，如虛擬數(shù)字人的外觀真實(shí)感會(huì)影響角色塑造，虛擬數(shù)字人的動(dòng)作流暢度和觀看沉浸感會(huì)影響視覺表現(xiàn)力，也會(huì)通過影響制作管線從而影響制作成本等。當(dāng)然，傳統(tǒng)的電影制作技術(shù)層面都涵蓋著對(duì)于虛擬數(shù)字人外觀真實(shí)感的追求。

伴隨虛擬現(xiàn)實(shí)、虛擬影像制作等應(yīng)用技術(shù)的迭代式發(fā)展，影視行業(yè)對(duì)于虛擬數(shù)字人的運(yùn)用實(shí)際上正在逐漸超越傳統(tǒng)的電影制作范疇。按照宋雷雨[2]的觀點(diǎn)，電影中虛擬數(shù)字人的類型與美學(xué)轉(zhuǎn)向主要從“替身”走向“獨(dú)化”，即隨著虛擬數(shù)字人具備的交互性逐漸增強(qiáng)，虛擬數(shù)字人與真人的關(guān)系發(fā)生場(chǎng)域會(huì)更具張力，也會(huì)逐漸向真人之間日常化的交流場(chǎng)域靠攏。這里的“獨(dú)化”是從美學(xué)及類型學(xué)角度的觀點(diǎn)，對(duì)應(yīng)到技術(shù)角度，應(yīng)該被理解為一種“多模態(tài)”，即虛擬數(shù)字人技術(shù)不僅限于大銀幕，還可以在互動(dòng)電影、游戲環(huán)境及其他多元影像內(nèi)容中進(jìn)行呈現(xiàn)，以多模態(tài)的邏輯實(shí)現(xiàn)多元跨界，從而體現(xiàn)出影游融合的協(xié)同思維。當(dāng)多模態(tài)屬性在人工智能生成內(nèi)容（AIGC）技術(shù)的加持下，呈現(xiàn)出更高的自動(dòng)化程度，那么電影中的虛擬數(shù)字人可以不再是被規(guī)定的狀態(tài)，而成為具備一定自我意識(shí)的生物體，即成為一個(gè)智能體角色（AI Agent）[3]。這也是SIGGRAPH ASIA 2023 會(huì)議中關(guān)于虛擬數(shù)字人細(xì)分議題所呈現(xiàn)出的虛擬數(shù)字人新范式，為電影制作技術(shù)的未來發(fā)展帶來了新的可能。

3 SIGGRAPH ASIA 2023 中虛擬數(shù)字人的應(yīng)用綜述

3.1 幾何造型：高保真、快速化、風(fēng)格化

虛擬數(shù)字人的外觀造型一直是電影特效技術(shù)關(guān)注的焦點(diǎn)，精細(xì)造型的虛擬數(shù)字人能夠幫助電影更生動(dòng)地刻畫奇幻生物、歷史人物或傳統(tǒng)拍攝技術(shù)無法呈現(xiàn)的虛構(gòu)角色等。根據(jù)恐怖谷（Uncanny Valley）理論可知，虛擬數(shù)字人造型的真實(shí)程度影響用戶的觀影效果，真實(shí)逼真的外形能夠增強(qiáng)視覺沖擊力，刻畫角色種族、年齡、風(fēng)格等角色屬性，配合虛擬數(shù)字人的運(yùn)動(dòng)動(dòng)畫，從而實(shí)現(xiàn)擴(kuò)大表演空間、提升情緒傳遞能力等。因此關(guān)于幾何造型的研究主要沿著高保真、豐富細(xì)節(jié)、快速構(gòu)建的方向發(fā)展。定制化和多樣性也是重要的發(fā)展方向，包括虛擬數(shù)字人的風(fēng)格遷移、角色融合等。此外，生產(chǎn)效率是電影工業(yè)的永恒話題，虛擬數(shù)字人的快速造型、高效編輯一直是技術(shù)研發(fā)的核心。在本次會(huì)議中虛擬數(shù)字人外觀造型相關(guān)技術(shù)大量引入深度學(xué)習(xí)方法，用以實(shí)現(xiàn)自動(dòng)化和優(yōu)化虛擬數(shù)字人的創(chuàng)建過程。

在虛擬數(shù)字人幾何快速構(gòu)建方面，Bharadwaj等[4]的方法能夠在短時(shí)間內(nèi)從幾何高保真、可重新照明的視頻中高效學(xué)習(xí)并構(gòu)建個(gè)性化、可運(yùn)動(dòng)的三維網(wǎng)格頭像。區(qū)別于基于隱式神經(jīng)表達(dá)（Implicit Neural Representation）的快速構(gòu)建方法，該方法能夠直接輸出兼容當(dāng)前動(dòng)畫渲染管線的數(shù)據(jù)類型，從而提高電影后期特效制作效率。Wu 等[5]提出一種可生成肖像動(dòng)畫且具有三維感知的生成式對(duì)抗網(wǎng)絡(luò)（GAN），該方法可以根據(jù)一張二維圖像生成具有可控面部表情、頭部姿勢(shì)和肩膀運(yùn)動(dòng)的三維肖像，同時(shí)由于網(wǎng)絡(luò)框架中添加了姿勢(shì)變形處理模塊，該方法還可增強(qiáng)更多細(xì)節(jié)，能合理根據(jù)人體姿勢(shì)驅(qū)動(dòng)，平滑實(shí)現(xiàn)頭發(fā)形變。此外，該方法能夠應(yīng)用于電影拍攝近景鏡頭的人物肖像鏡頭，如模擬正反打鏡頭的人物對(duì)話場(chǎng)景、模擬人物近景鏡頭的鏡頭運(yùn)動(dòng)等，從而使該類鏡頭運(yùn)動(dòng)空間更加自由，同樣可應(yīng)用在電影前期虛擬預(yù)演（PreViz）工作流中。Duan 等[6]則提出真實(shí)感4D（高度、寬度、深度、時(shí)間）虛擬人物頭像表達(dá)方法BakedAvatar。該方法可以通過參照頭像驅(qū)動(dòng)目標(biāo)頭像，也能夠?qū)崿F(xiàn)交互式表情和姿勢(shì)編輯以及面部重演。BakedAvatar 可通過學(xué)習(xí)樣本的連續(xù)變形、流形和輻射場(chǎng)，將神經(jīng)場(chǎng)烘焙成可變形的分層網(wǎng)格和相應(yīng)的紋理。除了頭像編輯和控制，該方法適用于電影后期特效渲染管線中的柵格化模塊，可用于提升渲染管線效率。

對(duì)于虛擬數(shù)字人全身塑造，AlBahar 等[7]提出一種從單個(gè)輸入圖像生成具有一致紋理、高分辨率外觀的360 °人物視圖方法。該方法創(chuàng)新地將二維圖像擴(kuò)散模型（Diffusion Model）應(yīng)用于三維紋理虛擬人物的數(shù)字化，并將合成的多視圖圖像融合到UV 紋理映射中實(shí)現(xiàn)3D 虛擬數(shù)字人的紋理一致性重建。

在虛擬數(shù)字人造型風(fēng)格化和編輯方面，Mendiratta 等[8]的 AvatarStudio 方法通過輸入文本語義，驅(qū)動(dòng)對(duì)全頭頭像外觀的動(dòng)態(tài)編輯。該方法將神經(jīng)輻射場(chǎng)的表達(dá)和生成式擴(kuò)散模型融入方法框架中，將虛擬數(shù)字人頭部作為輸入，利用人類頭部多視圖進(jìn)行模型訓(xùn)練，可實(shí)現(xiàn)電影虛擬數(shù)字人快速風(fēng)格化編輯，通過微調(diào)訓(xùn)練批量生成自定義風(fēng)格化的頭像模型。類似于Mendiratta 的方法，Manu 等[9]提出基于文本驅(qū)動(dòng)的3D 頭部模型生成方法，該方法采用自然語言（NL）的簡(jiǎn)單文本提示，描述外觀和面部表情，并生成具有精確幾何形狀和高質(zhì)量紋理圖的頭部 3D 神經(jīng)化身。這一方法的特點(diǎn)在于能夠自動(dòng)對(duì)齊網(wǎng)格的UV 紋理坐標(biāo)并實(shí)現(xiàn)可文本引導(dǎo)的高精度紋理合成過程，應(yīng)用于動(dòng)畫電影中，能夠提升角色頭像的UV對(duì)齊及編輯過程的效率。

在虛擬數(shù)字人衣物造型方面，主流方法采用人工幾何建模和布料模擬解算的工作流程，需要大量算力和人工成本。在本次會(huì)議上，最新研究將服裝幾何造型融入虛擬數(shù)字人幾何構(gòu)建過程中。Xiang等[10]的方法能夠構(gòu)建穿著動(dòng)態(tài)移動(dòng)寬松衣服的虛擬數(shù)字人，該方法可以由稀疏 RGB-D 數(shù)據(jù)以及身體和面部運(yùn)動(dòng)驅(qū)動(dòng)，能夠在一定程度上降低電影特效中角色和服裝數(shù)字化的工作量。與之類似的方法還有Tang等[11]的方法。

對(duì)于虛擬數(shù)字人的毛發(fā)快速構(gòu)建，Zhou 等[12]提出針對(duì)頭發(fā)發(fā)型幾何形狀設(shè)計(jì)的生成式模型，他所提出的框架由有發(fā)絲變分自編碼器（Variational AutoEncoder, VAE）和發(fā)型變分自編碼器組成，該方法不僅能夠?qū)崿F(xiàn)新穎發(fā)型采樣和合理發(fā)型插值，還支持復(fù)雜發(fā)型的交互式編輯，甚至可以從圖像中重建發(fā)型，加快虛擬數(shù)字人的毛發(fā)構(gòu)建和編輯過程，進(jìn)而提高電影后期制作效率。Mohan 等[13]提出一種使用離散微分幾何思想?yún)?shù)化頭發(fā)網(wǎng)格的方法，可定義頭發(fā)外部形狀的網(wǎng)格從而允許藝術(shù)家更好地控制虛擬數(shù)字人的發(fā)型風(fēng)格，為頭發(fā)造型提供更大靈活性。虛擬數(shù)字人的眉毛構(gòu)建對(duì)面部造型和表情動(dòng)畫至關(guān)重要，在影視特效制作中傳統(tǒng)方法通常將眉毛嵌入貼圖中，或通過毛發(fā)系統(tǒng)進(jìn)行渲染，在真實(shí)度和工作效率上都有待提高。Li 等[14]在本次會(huì)議上提出基于學(xué)習(xí)的單視圖3D 眉毛重建框架，可輔助眉毛的毛發(fā)模擬，通過模型推理給定毛發(fā)生長(zhǎng)位置、生長(zhǎng)時(shí)間等參數(shù)，根據(jù)參數(shù)進(jìn)行眉毛生長(zhǎng)的模擬。該方法能夠有效輔助電影虛擬數(shù)字人眉毛的構(gòu)建，輔助提升角色真實(shí)感。

此外，高保真數(shù)字頭像捕捉技術(shù)早已應(yīng)用于電影產(chǎn)業(yè)中，傳統(tǒng)方法大多依賴于龐大昂貴的設(shè)備重建顯式網(wǎng)格幾何和外觀貼圖，盡管近期基于體積的方法，如NeRF 的方法優(yōu)化了捕捉過程，但是仍然存在偽影問題。為了解決這些問題，Sarkar 等[15]使用包含15 個(gè)相機(jī)和15 個(gè)光源的稀疏緊湊捕捉裝置來實(shí)現(xiàn)高質(zhì)量人臉捕捉，在算法方面結(jié)合了神經(jīng)體積表示和多視圖立體重建的傳統(tǒng)網(wǎng)格，使捕捉的頭像可重新計(jì)算照明。該方法的提出降低了對(duì)人像三維捕捉的成本，適合在電影行業(yè)進(jìn)行推廣應(yīng)用。在上述方法提到的照明問題上，Jiang 等[16]在3D 感知肖像生成的基礎(chǔ)上提出基于預(yù)訓(xùn)練三平面（Tri-plane）表示的肖像照明控制方法，該方法可以對(duì)三維感知真實(shí)肖像進(jìn)行重新照明，適用于背景與虛擬人的快速合成以及虛擬攝制流程。

3.2 運(yùn)動(dòng)控制：多模態(tài)、強(qiáng)仿真、高泛化

電影是一門具有時(shí)序性的藝術(shù)，且主要通過畫面運(yùn)動(dòng)來推動(dòng)故事發(fā)展，因此角色動(dòng)作、鏡頭移動(dòng)會(huì)直接影響電影的情節(jié)變化和角色的情感發(fā)展。在電影中虛擬數(shù)字人運(yùn)動(dòng)模擬的效果同樣影響視覺沖擊力與沉浸感。本次會(huì)議成果中虛擬數(shù)字人運(yùn)動(dòng)控制技術(shù)，包括角色肢體運(yùn)動(dòng)控制、角色局部特寫控制、非人類生物角色控制。

（1）角色肢體運(yùn)動(dòng)控制

對(duì)于虛擬數(shù)字人的動(dòng)作表達(dá)與控制在技術(shù)上可分為肢體控制和局部特寫控制兩部分。針對(duì)虛擬數(shù)字人的肢體控制方面，最為先進(jìn)的一類方法為物理模擬角色（Physically Simulated Characters）技術(shù)。這類技術(shù)結(jié)合了物理學(xué)原理和計(jì)算機(jī)圖形學(xué)，以創(chuàng)建更為逼真的動(dòng)態(tài)虛擬數(shù)字人。其核心在于利用物理仿真模擬來控制角色的動(dòng)作和交互，通過物理模擬，這些角色能以真實(shí)世界的物理規(guī)則來反應(yīng)和移動(dòng)，比如受重力、碰撞等其他外力作用下的運(yùn)動(dòng)。這類技術(shù)可以讓虛擬數(shù)字人在虛擬環(huán)境中的行為更加符合現(xiàn)實(shí)世界的物理規(guī)律，特別是在處理復(fù)雜的環(huán)境交互運(yùn)動(dòng)，比如刮風(fēng)、下雨等情況時(shí)，實(shí)現(xiàn)更為流暢和自然的動(dòng)作變化。但該類技術(shù)在精確控制復(fù)雜物理行為以及管理計(jì)算資源等方面仍然有待提高，在本次會(huì)議中，多數(shù)方法通過深度學(xué)習(xí)框架訓(xùn)練與推測(cè)相關(guān)動(dòng)作。

Dou 等[17]提出的條件對(duì)抗式技能框架（Conditional Adversarial Skill Embeddings, C·ASE）可以高效學(xué)習(xí)角色的動(dòng)作技能，并可將交互信息加入條件模型動(dòng)作推理過程中，使用戶在控制虛擬數(shù)字人行走路線的同時(shí)，讓角色做出基于物理模擬的逼真動(dòng)作。Qing 等[18]的方法可以讓虛擬數(shù)字人根據(jù)輸入的故事長(zhǎng)文本執(zhí)行與故事內(nèi)容吻合的運(yùn)動(dòng)（包括移動(dòng)、肢體動(dòng)作等），即故事生成動(dòng)作（Story-to-Motion）。該方法首先利用大語言模型（LLM）從長(zhǎng)文本中提取文本、位置、持續(xù)時(shí)間等系列內(nèi)容，之后通過提出基于運(yùn)動(dòng)匹配、運(yùn)動(dòng)語義和軌跡約束的文本驅(qū)動(dòng)運(yùn)動(dòng)檢索方法搜索相關(guān)動(dòng)作，最后用神經(jīng)網(wǎng)絡(luò)模型融合兩組運(yùn)動(dòng)間的中間動(dòng)作，使運(yùn)動(dòng)自然過渡。該方法可以直接根據(jù)電影劇本信息模擬虛擬數(shù)字人的運(yùn)動(dòng)，非常適合電影制作前期非高保真的虛擬預(yù)演流程。Feng等[19]的成果主要基于肌肉驅(qū)動(dòng)的角色推測(cè)和生成符合生物力學(xué)的運(yùn)動(dòng)過程。該方法將升級(jí)的疲憊動(dòng)力學(xué)模型（3CC-r）嵌入基于變分自編碼器的肌肉模擬控制框架（MuscleVAE）中，不僅可以對(duì)運(yùn)動(dòng)特征編碼，還可編碼肌肉動(dòng)力學(xué)信息和疲勞屬性，從而使呈現(xiàn)的運(yùn)動(dòng)效果更加高保真。該方法可以處理電影特效或游戲中角色因長(zhǎng)時(shí)間疲勞積累所導(dǎo)致的運(yùn)動(dòng)風(fēng)格自然演變。在模擬運(yùn)動(dòng)疲勞方面，Cheema 等[20]提出一種基于深度強(qiáng)化學(xué)習(xí)的方法，用來模擬仿真基于物理的虛擬人物疲勞運(yùn)動(dòng)，可以有效地用于電影人物特寫和動(dòng)畫電影中?；趶?qiáng)化學(xué)習(xí)的運(yùn)動(dòng)模擬方法還包括Kwon 等[21]、Xu等[22]的方法。

Zhu 等[23]提出基于強(qiáng)化學(xué)習(xí)框架的數(shù)據(jù)驅(qū)動(dòng)方法用來提高物理模擬角色的行為真實(shí)性和多樣性。Jiang 等[24]將運(yùn)動(dòng)學(xué)的先驗(yàn)知識(shí)與牛頓動(dòng)力學(xué)結(jié)合，提出基于物理的人類動(dòng)態(tài)響應(yīng)框架，這使虛擬數(shù)字人對(duì)虛擬環(huán)境有了動(dòng)態(tài)交互能力，從而更真實(shí)地模擬電影中帶有虛擬數(shù)字人的復(fù)雜場(chǎng)景。Agrawal 等[25]針對(duì)虛擬數(shù)字人的骨骼動(dòng)畫控制，在神經(jīng)反向動(dòng)力學(xué)系統(tǒng)（Neural Inverse Kinematics, Neural IK）的基礎(chǔ)上提出SKEL-IK 訓(xùn)練方法，即以基本姿勢(shì)為條件，將信息直接流送到骨架圖結(jié)構(gòu)上，因此可以通過在某些關(guān)節(jié)處阻止信息流來強(qiáng)制執(zhí)行硬約束。該方法允許骨骼動(dòng)畫師較少使用手柄就可進(jìn)行虛擬數(shù)字人的運(yùn)動(dòng)編輯，且真實(shí)性更強(qiáng)。Ramón 等[26]提出虛擬數(shù)字人軟組織模型表示方法，該方法將軟組織動(dòng)力學(xué)模型建立在參數(shù)化表達(dá)的虛擬數(shù)字人上，使虛擬數(shù)字人能夠表現(xiàn)出運(yùn)動(dòng)過程中的身體柔軟變形。在電影視覺特效中，該方法能夠有效模擬虛擬數(shù)字人脂肪等軟組織的運(yùn)動(dòng)變化。Tao 等[27]設(shè)計(jì)了一種用于運(yùn)動(dòng)合成的神經(jīng)網(wǎng)絡(luò)底層結(jié)構(gòu)，叫做神經(jīng)運(yùn)動(dòng)圖（Neural Motion Graph）。該網(wǎng)絡(luò)圖的神經(jīng)節(jié)點(diǎn)表示運(yùn)動(dòng)類型，比如蒙古舞蹈，節(jié)點(diǎn)之間的邊表示兩個(gè)運(yùn)動(dòng)動(dòng)作的轉(zhuǎn)換。將該結(jié)構(gòu)用于深度學(xué)習(xí)方法中可以合成各種類型的運(yùn)動(dòng)并具有泛化能力，所合成的運(yùn)動(dòng)可以結(jié)合用戶指定的路徑或?qū)崟r(shí)交互控制，此外該方法可以生成兩個(gè)動(dòng)作之間的中間幀動(dòng)作。

（2）角色局部特寫控制

虛擬數(shù)字人肢體控制專注于骨骼的運(yùn)動(dòng)和剛性變化，而局部特寫控制更注重網(wǎng)格（Mesh）表面的細(xì)節(jié)變形，如面部表情變化、發(fā)絲運(yùn)動(dòng)、布料模擬、手部運(yùn)動(dòng)等。為了使動(dòng)畫或形變更加逼真，該部分同樣使用基于物理仿真的方法。Yang 等[28]提出一種基于數(shù)據(jù)驅(qū)動(dòng)的隱式神經(jīng)物理面部表示模型，該模型由面部表情表達(dá)和風(fēng)格共同驅(qū)動(dòng)。該方法可以控制動(dòng)畫風(fēng)格，實(shí)現(xiàn)從一個(gè)角色到另一個(gè)角色的風(fēng)格遷移或混合不同角色風(fēng)格。作為基于物理特征的模型，該模型能夠充分考慮物理效果，例如碰撞處理等。

語音驅(qū)動(dòng)虛擬人物口型的技術(shù)發(fā)展已久，但在口型同步過程中往往容易忽略整個(gè)面部的情緒表達(dá)。為突破該限制，Daně?ek 等[29]提出針對(duì)情感交談而優(yōu)化的表達(dá)模型（Expressive Model Optinized for Talking with Emotion, EMOTE），該模型對(duì)口型同步和情感分別設(shè)計(jì)損失函數(shù)，并利用時(shí)間變分自編碼器（Temporal VAE）作為運(yùn)動(dòng)先驗(yàn)來優(yōu)化動(dòng)畫。在電影制作尤其是動(dòng)畫電影制作中，該方法幫助電影制作人在處理對(duì)白與口型的同時(shí)自動(dòng)調(diào)節(jié)臉部表情，縮短了工作流程，提升唇音同步（Lip-sync）環(huán)節(jié)效果，從而提升電影生產(chǎn)效率。

為了更好地模擬虛擬數(shù)字人臉部動(dòng)畫，Li等[30]提出一種基于投影動(dòng)力學(xué) （Projective Dynamics, PD）的有限元模擬方法。該方法能夠在控制面部運(yùn)動(dòng)的同時(shí)感知碰撞，高效地處理軟體動(dòng)力學(xué)模擬與面部變形引起的交叉（即碰撞）問題，提升了電影虛擬數(shù)字人由肌肉驅(qū)動(dòng)的面部模擬真實(shí)性和效率。

（3）非人類角色控制

在科幻電影或恐怖電影中經(jīng)常會(huì)出現(xiàn)非人類外形的虛擬數(shù)字人，包括但不限于動(dòng)物、卡通人物、神話生物、機(jī)器人或其他超現(xiàn)實(shí)生物。在視效后期制作中，藝術(shù)家需要針對(duì)非人類角色進(jìn)行創(chuàng)建與運(yùn)動(dòng)控制。該類角色在行為和運(yùn)動(dòng)模擬過程中仍然要求符合生物力學(xué)原理并帶有情感藝術(shù)性表達(dá)，以提高電影敘事的質(zhì)量與深度。非人類角色控制的傳統(tǒng)方法利用藝術(shù)家的先驗(yàn)知識(shí)進(jìn)行人工控制，這需要藝術(shù)家具有較高的制作技能和經(jīng)驗(yàn)。為了更好地輔助藝術(shù)家控制非人類角色，本次會(huì)議提出運(yùn)動(dòng)重定向等多種解決方案。

Li等[31]提出基于學(xué)習(xí)的運(yùn)動(dòng)重定向框架，將人體運(yùn)動(dòng)重新定位到具有不同身體尺寸和結(jié)構(gòu)的目標(biāo)角色上，比如帶有操縱器的四足機(jī)器人、螃蟹和輪式操縱器等。該方法允許藝術(shù)家通過自身控制操縱不同結(jié)構(gòu)的虛擬數(shù)字人。為了解決重定向和角色交互控制問題，Lee 等[32]提出能夠以與骨架無關(guān)的方式解決各種動(dòng)畫任務(wù)的框架，該框架通過學(xué)習(xí)一個(gè)嵌入空間從運(yùn)動(dòng)數(shù)據(jù)中分離出與骨架相關(guān)的信息，同時(shí)保留語義，使真實(shí)人物的運(yùn)動(dòng)更好地映射到卡通人物角色中，高效地解決了卡通動(dòng)畫電影中的角色控制問題。

Takashita 等[33]設(shè)計(jì)了名為AvatarForge 的虛擬數(shù)字人編輯系統(tǒng)，通過實(shí)時(shí)編輯身體結(jié)構(gòu)，構(gòu)建身體結(jié)構(gòu)與運(yùn)動(dòng)的映射關(guān)系，進(jìn)而設(shè)計(jì)與控制非人形虛擬數(shù)字人。該系統(tǒng)旨在降低設(shè)計(jì)非人形化身（Avatar）的難度，加快帶有骨骼動(dòng)畫的虛擬數(shù)字人原型的自定義創(chuàng)建。將該交互系統(tǒng)應(yīng)用在電影制作中，可以降低角色建模藝術(shù)家與動(dòng)畫師的技能要求，提升虛擬數(shù)字人前期設(shè)計(jì)與后期編輯處理效率。

3.3 動(dòng)作捕捉：高精度、強(qiáng)合成、低延時(shí)

動(dòng)作捕捉改變了電影的制作方式，尤其是在視覺效果、動(dòng)畫和特效領(lǐng)域。在動(dòng)畫電影制作中，動(dòng)作捕捉技術(shù)提供了一種更為高效和逼真的方法來創(chuàng)建復(fù)雜的動(dòng)畫序列，特別是針對(duì)角色的動(dòng)態(tài)和交互場(chǎng)景。動(dòng)作捕捉技術(shù)可以在某些情況下降低制作成本和時(shí)間，尤其適合復(fù)雜的特效和動(dòng)畫場(chǎng)景；然而，高質(zhì)量的動(dòng)作捕捉系統(tǒng)和專業(yè)團(tuán)隊(duì)也可能帶來顯著的成本增加。

單目視頻內(nèi)容捕捉和重建運(yùn)動(dòng)數(shù)據(jù)是當(dāng)前該領(lǐng)域研究熱點(diǎn)之一，但仍然存有技術(shù)難點(diǎn)和挑戰(zhàn)，如腳部滑動(dòng)和抖動(dòng)等偽影等。Cong 等[34]提出一種基于梯度的方法，用于在物理約束下重建復(fù)雜的人體運(yùn)動(dòng)（包括高度動(dòng)態(tài)和雜技運(yùn)動(dòng)）。該方法可根據(jù)視頻中內(nèi)容在幾分鐘內(nèi)重建復(fù)雜的人體運(yùn)動(dòng)，物理真實(shí)感也更強(qiáng)。Pan 等[35]提出RGB 圖像信號(hào)與慣性信號(hào)融合算法用于動(dòng)作捕捉任務(wù)中，該方法既能夠用于遮擋、極端照明/紋理、視覺動(dòng)作捕捉視野小等情況，也能解決慣性動(dòng)作捕捉全局漂移問題。Kang 等[36]利用高精雙目（Binocular）信息估計(jì)人體三維姿態(tài)，其方法彌補(bǔ)了身體因遮擋而無法正確估計(jì)關(guān)節(jié)點(diǎn)的缺陷。從單目視頻中重建并跟蹤角色面部或手部的技術(shù)發(fā)展已久，但先前的方法由于遮擋問題無法捕捉臉部和手在進(jìn)行交互時(shí)的形狀變化。為解決該問題，Shimada 等[37]提出基于學(xué)習(xí)的運(yùn)動(dòng)捕捉方法用于面部和手部的重建，再通過交互面部變形模型實(shí)現(xiàn)合理的臉部與手部交互。該方法能夠在控制臉部和手運(yùn)動(dòng)的同時(shí)真實(shí)表現(xiàn)手部擠壓臉部時(shí)形成的臉部表面變形，在拍攝虛擬人物特寫鏡頭時(shí)臉部變形會(huì)增加鏡頭的沉浸感。

此外， Pan 等[38]提出一種基于局部性的學(xué)習(xí)方法，用于清理和解決光學(xué)運(yùn)動(dòng)捕捉數(shù)據(jù)，對(duì)動(dòng)作捕捉標(biāo)記點(diǎn)有遮擋或缺失的情況尤為有效。Qing 等[39]提出針對(duì)多個(gè)個(gè)體密集遮擋情況下的多人物姿態(tài)估計(jì)組件，并發(fā)布了訓(xùn)練與推理策略。該方法適用于大型電影場(chǎng)景中同時(shí)捕捉多個(gè)人物或人群動(dòng)作的情況，從而快速對(duì)動(dòng)態(tài)大型電影場(chǎng)景進(jìn)行數(shù)字化。Jang等[40]提出動(dòng)作風(fēng)格化方法和實(shí)時(shí)線上框架MOCHA（Motion Characterization），即將沒有明顯風(fēng)格特征的動(dòng)作轉(zhuǎn)換為實(shí)時(shí)體現(xiàn)顯著角色風(fēng)格動(dòng)作的框架，比如將普通行走動(dòng)作風(fēng)格化為僵尸行走動(dòng)作。該方法可以將用戶給出的目標(biāo)角色運(yùn)動(dòng)風(fēng)格和身體比例轉(zhuǎn)移至輸入的源動(dòng)作中。在電影特效制作中，藝術(shù)家可以利用該方法高效編輯生成能夠表現(xiàn)情緒、人物性格的動(dòng)作，有利于多角色場(chǎng)景的批量化處理，從而提高電影工業(yè)化生產(chǎn)效率。

4 總結(jié)與展望

縱觀整體技術(shù)發(fā)展，SIGGRAPH ASIA 2023 虛擬數(shù)字人趨勢(shì)可概括為：虛擬數(shù)字人技術(shù)正全面擁抱基于深度神經(jīng)網(wǎng)絡(luò)的人工智能技術(shù)，從而實(shí)現(xiàn)高保真、高控制性、高效率虛擬數(shù)字人制作。高保真度體現(xiàn)在基于物理模擬和大數(shù)據(jù)驅(qū)動(dòng)的虛擬數(shù)字人幾何與運(yùn)動(dòng)構(gòu)建方法上，技術(shù)逐漸從幾何靜態(tài)3D 重建向4D（高度、寬度、深度、時(shí)間）重建過渡，在神經(jīng)網(wǎng)絡(luò)的幫助下能夠允許考慮更多環(huán)境參數(shù)和物理?xiàng)l件，在更大空間中尋找最優(yōu)解，從而提高數(shù)字人幾何造型與動(dòng)作模擬的逼真度、合理性和觀看沉浸感。高控制性體現(xiàn)在使用多模態(tài)手段對(duì)虛擬數(shù)字人進(jìn)行局部與全局的構(gòu)建和運(yùn)動(dòng)控制，通過對(duì)人類控制指令更準(zhǔn)確的理解，實(shí)現(xiàn)表情和手勢(shì)等細(xì)節(jié)的精細(xì)控制。高效率指借助神經(jīng)網(wǎng)絡(luò)可以加快物理模擬解算速度，處理動(dòng)作捕捉數(shù)據(jù)更具魯棒性，同時(shí)多模態(tài)技術(shù)特性加強(qiáng)了復(fù)雜應(yīng)用場(chǎng)景虛擬數(shù)字人的處理能力，讓交互制作和編輯流程更為簡(jiǎn)化。

在使用方法上，傳統(tǒng)圖形學(xué)方法與深度學(xué)習(xí)技術(shù)方法不斷融合，旨在發(fā)揮兩者的綜合優(yōu)勢(shì)，例如使用神經(jīng)輻射場(chǎng)（NeRF）、神經(jīng)反向動(dòng)力學(xué)（Neural IK）與生成式模型等，相關(guān)方法既能體現(xiàn)傳統(tǒng)圖形學(xué)對(duì)幾何表達(dá)、幾何處理與物理模擬的認(rèn)識(shí)，又能發(fā)揮深度學(xué)習(xí)方法基于大數(shù)據(jù)驅(qū)動(dòng)的幾何理解能力和計(jì)算效率。

會(huì)議成果將有助于提升電影級(jí)虛擬數(shù)字人的制作與編輯水平，進(jìn)而優(yōu)化相關(guān)工作流。在筆者看來，電影級(jí)虛擬數(shù)字人要求同時(shí)具有適用于真實(shí)紋理渲染和物理模擬的幾何和拓?fù)浔磉_(dá)結(jié)構(gòu)、基于生理學(xué)的動(dòng)作驅(qū)動(dòng)系統(tǒng)以及基于動(dòng)力學(xué)的運(yùn)動(dòng)控制方法，這正符合會(huì)議成果高保真、高控制性、高效率的發(fā)展趨勢(shì)。會(huì)議成果可提升電影攝制流程中包括虛擬預(yù)演、動(dòng)作捕捉驅(qū)動(dòng)合成、后期視效等環(huán)節(jié)的制作效果和工作效率，如三維幾何造型快速構(gòu)建方法能夠應(yīng)用于虛擬預(yù)演的批量模型處理任務(wù)中，骨骼重定向方法和動(dòng)作風(fēng)格遷移方法應(yīng)用于角色動(dòng)畫快速編輯等。另外借助最新的靜態(tài)場(chǎng)景和動(dòng)態(tài)場(chǎng)景的快速構(gòu)建方法、物理和空間感知的運(yùn)動(dòng)生成與編輯方法，虛擬數(shù)字人技術(shù)和工作方式將會(huì)向低成本和低延時(shí)方向進(jìn)一步發(fā)展。

從電影藝術(shù)本體的發(fā)展角度來看，新技術(shù)正加速虛擬數(shù)字人從“替身”向“獨(dú)化”角色的轉(zhuǎn)變，為電影藝術(shù)表現(xiàn)開辟新的維度。未來，虛擬數(shù)字人技術(shù)將更加注重多模態(tài)、實(shí)時(shí)渲染和交互方面的進(jìn)步，圖形學(xué)領(lǐng)域也將吸納更多創(chuàng)新視角，例如融合大語言模型等新興技術(shù)。?

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看