編輯部編譯
隨著深度學(xué)習(xí)在計算機視覺和圖形學(xué)領(lǐng)域中的廣泛應(yīng)用,越來越多的方法開始利用神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)三維幾何模型的表征。最近,谷歌提出使用神經(jīng)關(guān)節(jié)形狀近似(NASA),來對有關(guān)節(jié)的三維模型進(jìn)行估計。相較于以往的傳統(tǒng)方法,它復(fù)雜度低、模型水密性好、模型估計效果好,具有良好的性能表現(xiàn)。
可以說,諸如人體之類的有關(guān)節(jié)對象的有效表征是計算機視覺和圖形學(xué)中的一個重要問題。為了有效地模擬變形,現(xiàn)有方法將對象表示為網(wǎng)格,并使用蒙皮算法(Skinning algorithms)對其進(jìn)行變形。本文提出了神經(jīng)關(guān)節(jié)形狀近似(NASA),該框架可通過使用姿勢參數(shù)化的神經(jīng)指示函數(shù)來實現(xiàn)有關(guān)節(jié)、可變形對象的有效表征。相較于傳統(tǒng)方法,NASA避免了在不同表征形式之間進(jìn)行轉(zhuǎn)換的需求。對于占用測試,NASA規(guī)避了網(wǎng)格的復(fù)雜性并且解決了水密性問題。與常規(guī)網(wǎng)格和八叉樹相比,我們的方法無需使用大量內(nèi)存即可提供高分辨率。
介紹
近年來,人們對計算機視覺產(chǎn)生了濃厚的興趣,希望開發(fā)出更好、更靈活的關(guān)于目標(biāo)和場景的3D表征方法。而在這些領(lǐng)域中所取得的最新進(jìn)展成果,部分是由用于場景理解的“逆向圖形(inverse graphics)”管道的發(fā)展推動的。得益于深度神經(jīng)網(wǎng)絡(luò)在計算機視覺中的主導(dǎo)地位,我們可以看到逆向圖形的蓬勃發(fā)展,尤其是當(dāng)可微分的幾何模型可用時。但是,在各種可能的應(yīng)用中,有關(guān)節(jié)對象的神經(jīng)模型卻很少受到關(guān)注??梢哉f,有關(guān)節(jié)對象的模型非常重要,因為它們包含了人類的3D表征,在計算機游戲和動畫電影,以及諸如增強現(xiàn)實和虛擬現(xiàn)實之類的其他應(yīng)用程序中,虛擬人類都是中心主題。
現(xiàn)有的幾何學(xué)習(xí)算法,包括針對人臉、身體和低層級幾何的自監(jiān)督方法,都依賴于完全可微的編碼器—解碼器體系架構(gòu)的優(yōu)化。其實,神經(jīng)解碼器的使用也是有可能實現(xiàn)的,但是當(dāng)在架構(gòu)中直接表達(dá)有關(guān)被建模現(xiàn)象的更多結(jié)構(gòu)時,使用上述方法所產(chǎn)生的結(jié)果質(zhì)量將得到顯著提高。幾何模型通常必須滿足若干個目的,例如表征用于渲染的形狀,或表征用于交叉查詢的體積。盡管在有關(guān)節(jié)、可變形的環(huán)境中已開始使用神經(jīng)網(wǎng)絡(luò),但它們僅僅解決了變形問題,同時又將交叉查詢和整體關(guān)節(jié)都?xì)w類為經(jīng)典方法,從而犧牲了完全可微性。
在本文中,我們所提出的方法是使用一個可微的神經(jīng)模型對有關(guān)節(jié)對象進(jìn)行表征,并訓(xùn)練了一個神經(jīng)解碼器。與以往的一些幾何學(xué)習(xí)方法一樣,我們用指示函數(shù)(也稱為占用函數(shù))來表示幾何,該函數(shù)在對象內(nèi)取值為1,在其他情況下則值為0。如果需要的話,可以通過移動立方體來提取顯式表面。一般來說,以往的研究方法側(cè)重于由(未知)形狀參數(shù)所描述的靜態(tài)對象集合,與之不同的是,我們在改變姿勢參數(shù)時著眼于學(xué)習(xí)指示函數(shù),這可以通過對動畫序列的訓(xùn)練發(fā)現(xiàn)??傮w而言,我們的主要研究成果是:
1.我們提出了一種通過神經(jīng)網(wǎng)絡(luò)來近似有關(guān)節(jié)、可變形模型的方法;
2.我們展示了如何明確地在網(wǎng)絡(luò)中表示變形結(jié)構(gòu),在使用更少的模型參數(shù)的同時提供相似的性能和更好的泛化能力;
3.指示函數(shù)表征法支持有效的交叉和碰撞查詢(collision query),因此無需將其轉(zhuǎn)換為其他的表征法;
4.我們的研究方法在學(xué)習(xí)3D人體動作上的表現(xiàn)要優(yōu)于以往的幾何學(xué)習(xí)算法,并且可以與手工統(tǒng)計人體模型方法相媲美。
相關(guān)研究
神經(jīng)形狀近似方法提供了一個單一的框架來解決那些往往被單獨解決的問題。因此,該方法所涉及的相關(guān)研究文獻(xiàn)包括跨越多個不同領(lǐng)域的大量著作。
蒙皮算法:傳統(tǒng)上,有效有關(guān)節(jié)變形是使用蒙皮算法完成的,該算法會在基礎(chǔ)抽象骨架的關(guān)節(jié)發(fā)生變化時對網(wǎng)格表面的頂點進(jìn)行變形。經(jīng)典的線性混合蒙皮(LBS)算法將變形的頂點表示為若干個相鄰骨骼剛性變換后的頂點的加權(quán)和。線性混合蒙皮算法廣泛用于計算機游戲中,并且是目前流行的視覺模型的核心組成部分。通常情況下,為了進(jìn)行壓縮和操縱,平常的(不一定是具有關(guān)節(jié)的)變形對象的網(wǎng)格序列也是使用蒙皮算法來表示的,使用的往往是通過聚類發(fā)現(xiàn)的非層次“骨骼”變換的集合。當(dāng)然,線性混合蒙皮算法也具有眾所周知的缺點:變形具有一個過于簡單的算法形式,無法生成與姿勢相關(guān)的細(xì)節(jié),會導(dǎo)致典型的體積損失效應(yīng),例如“塌陷的肘部”和“糖果包裹物”偽影,而為了獲得最佳效果,必須由藝術(shù)家手動繪制權(quán)重。我們可以通過深度網(wǎng)絡(luò)回歸來添加與姿勢有關(guān)的細(xì)節(jié),此過程可作為是對經(jīng)典線性混合蒙皮算法變形的修正。
對象交叉查詢:注冊、模板匹配、3D追蹤、碰撞檢測和其他任務(wù)等都需要有效的內(nèi)部/外部測試。多邊形網(wǎng)格的一個缺點是它們不能有效地支持這些查詢,因為網(wǎng)格通常包含成千上萬個必須針對每個查詢進(jìn)行測試的單個三角形。這導(dǎo)致了各種空間數(shù)據(jù)結(jié)構(gòu)的發(fā)展,以加速點對象查詢,包括體素網(wǎng)格(voxel grids)、八叉樹等。在使對象變形的情況下,空間數(shù)據(jù)結(jié)構(gòu)必須隨著對象的變形而反復(fù)重建。進(jìn)一步面對的問題就是典型網(wǎng)格結(jié)構(gòu)的構(gòu)建可能沒有考慮“水密性”,因此沒有一個關(guān)于內(nèi)部空間的明確定義。
基于部位的表征:對于有關(guān)節(jié)對象的對象相交查詢,根據(jù)支持有效相交測試的剛性部位(如球體或橢圓體)的移動集合來近似整體形狀可能會更有效。不幸的是,這種做法有一個缺點,它引入了一個第二近似表征法,與原始期望變形不完全匹配。進(jìn)一步的核心挑戰(zhàn)和持續(xù)研究的課題便是自動創(chuàng)建這種基于部位的表征。最近,無監(jiān)督部位發(fā)現(xiàn)方法被許多深度學(xué)習(xí)方法所取代,通常而言,這些方法解決了跨形狀集合的分析和對應(yīng)問題,但沒有針對有關(guān)節(jié)、可變形對象的精確表征。這些方法中的任何一種都沒有考慮與姿勢有關(guān)的變形效應(yīng)。
神經(jīng)隱式對象表征:最近有一些研究使用神經(jīng)隱式函數(shù)來表征對象。這些研究側(cè)重于對齊規(guī)范框架中靜態(tài)形狀的神經(jīng)表征上,而不是針對轉(zhuǎn)換建模。因此,我們的研究方法可以被認(rèn)為是上述這些方法的擴(kuò)展,其核心區(qū)別在于它能夠有效表地表征復(fù)雜而詳細(xì)的有關(guān)節(jié)對象,如人體等。
評估
我們使用兩個數(shù)據(jù)集在2D和3D中對提出的方法進(jìn)行評估。數(shù)據(jù)集包括rest配置表面、采樣的指示函數(shù)值、每個姿勢的骨骼變換框架和蒙皮權(quán)重。然后,通過具有泛化能力的繞組數(shù)對參照指示函數(shù)進(jìn)行可靠計算,并使用表面上的附加樣本在變形表面周圍的規(guī)則網(wǎng)格中對其進(jìn)行評估??梢酝ㄟ^將預(yù)測結(jié)果與參照樣本之間的“聯(lián)合相交”(IOU)來評估模型的性能表現(xiàn)。
結(jié)論
在本文中,我們從神經(jīng)角度介紹了可變形(實體)模型的幾何建模問題,展示了與結(jié)構(gòu)化基線相比,非結(jié)構(gòu)化基線需要更多的神經(jīng)預(yù)算,但更重要的是,它們根本不具有泛化能力。在結(jié)構(gòu)化基線中,可變形模型在插值方面表現(xiàn)最佳,而剛性模型在外推基準(zhǔn)方面領(lǐng)先。理解如何對這兩個模型進(jìn)行組合并學(xué)習(xí)這兩種性能表現(xiàn)是很有趣的,但需要注意的是,只要查詢姿勢與訓(xùn)練時看到的姿勢足夠相似,可變形模型仍可在應(yīng)用程序中使用。
我們所提出的方法可以應(yīng)用于許多問題,包括復(fù)雜的有關(guān)節(jié)物體的表征,例如人物角色、用于計算機視覺注冊和追蹤的對象相交查詢、用于計算機游戲和其他應(yīng)用程序的碰撞檢測以及網(wǎng)格序列的壓縮等。在所有這些應(yīng)用中,神經(jīng)形狀近似方法使得我們能夠使用相同的通用方法來處理效率與細(xì)節(jié)之間的多種權(quán)衡。
未來,我們的一個研究方向是減少該方法中所需的監(jiān)管數(shù)量,以便使其在應(yīng)用中具有更好的性能表現(xiàn)。