蘋果聯(lián)合學界提出“生成多平面圖像”方法用最少修改讓2D生成對抗網(wǎng)絡(luò)實現(xiàn)3D感知

2022-03-09 01:25:06美《深科技》

海外星云 2022年19期

在生成高質(zhì)量圖像方面，生成對抗網(wǎng)絡(luò)（GAN）在近幾年取得了令人印象深刻的進展。

這些進步大多集中在生成器的輸出空間和給定的數(shù)據(jù)集設(shè)置相同方面，這些輸出通常是圖像，有時也是3D卷形式。

而最新的研究主要體現(xiàn)在生成與現(xiàn)有的訓練數(shù)據(jù)不同的新輸出上。這包括為一類對象生成3D幾何圖形和相應(yīng)的紋理的方法，給定的數(shù)據(jù)集只包含廣泛可用的單視圖圖像。沒有使用多視圖圖像或3D幾何圖形來監(jiān)督3D感知生成對抗網(wǎng)絡(luò)的訓練。

為了從這種有限的監(jiān)督形式中學習3D幾何圖形，之前的研究通常會結(jié)合三維感知歸納偏差，如三維體素網(wǎng)格或使用渲染引擎的隱式表示。

然而，提高這些方法的結(jié)果質(zhì)量仍然具有挑戰(zhàn)性：3D感知的歸納偏差通常是內(nèi)存密集型的顯式或隱式3D卷，并且渲染通常需要計算。此外，從2D生成對抗網(wǎng)絡(luò)中獲得的經(jīng)驗教訓往往不能直接轉(zhuǎn)移，因為生成器的輸出甚至其整個結(jié)構(gòu)都必須進行調(diào)整。

這就提出了一個問題：讓現(xiàn)有的2D生成對抗網(wǎng)絡(luò)3D感知，需要真正做些什么？

為了回答這個問題，本次蘋果聯(lián)合學界希望以最少方式修改現(xiàn)有的2D生成對抗網(wǎng)絡(luò)，并建立一個有效的推理和訓練程序。

3D感知生成多平面圖像的概述

近日，相關(guān)論文以《生成多平面圖像：制作一個2DGAN3D感知》為題提交在arXiv上。

首先對生成對抗網(wǎng)絡(luò)的概念做一簡單介紹。據(jù)維基百科了解，“生成對抗網(wǎng)絡(luò) 是一類機器學習框架，由生成器和鑒別器兩個神經(jīng)網(wǎng)絡(luò)在游戲中相互競爭，鑒別器對生成器產(chǎn)生的欺騙樣本進行檢測，使用零和博弈的形式，其中一個代理的收益是另一個代理的損失。這一對抗性概念最初被認為是無監(jiān)督學習生成模型的一種形式，但它也被證實對半監(jiān)督學習、完全監(jiān)督學習和強化學習有用?！?/p>

本次研究人員選擇了一種被廣泛使用的高清圖像合成方法StyleGANv2。對此，研究者在論文中表示：“StyleGANv2有一個額外的好處，即許多訓練檢查點都是公開可用的。”

StyleGANv2發(fā)布于2020年，是StyleGAN（2018年12月推出）的升級版。StyleGAN主要體現(xiàn)人臉屬性，像臉型的表情、朝向、膚色、光照等多方面容貌姿態(tài)信息。

通過輸入不同參數(shù)，可以使StyleGAN生成精細程度不同的各種人臉“Style”。另外，該模型也可以生成動物、汽車等圖像。值得一提的是，由于StyleGAN可以對生成的圖像進行細致調(diào)整，從而更容易生成足夠真實的假圖像。該技術(shù)的一些潛在有害用途一直存在爭議。

在三個數(shù)據(jù)集（FFHQ、AFHQv2和MetFaces）上，使用最小的更改集進行2D Gan 3D感知

回到一開始提出的問題，讓現(xiàn)有的2D生成對抗網(wǎng)絡(luò)3D感知需要什么？

本次研究團隊在論文中表示：“只有兩個修改是絕對必要的：1.一個多平面圖像樣式生成器分支，它生成一組基于其深度的Alpha映射。2.一個姿勢調(diào)節(jié)的鑒別器。更具體地說，我們?yōu)镾tyleGANv2開發(fā)了一個新的生成器分支，它會產(chǎn)生一組類似于一個多平面圖像的正面平行的Alpha映射。這是第一個證明一個多平面圖像可以作為無條件的3D感知生成模型的場景表示的研究?！?/p>

據(jù)了解，區(qū)別于生成器和鑒別器一同調(diào)整的情況，新分支是從零進行訓練，并且，結(jié)合Alpha映射與一個多平面圖像渲染中的單一圖像輸出，還可得到多種視圖的3D感知生成。

雖然Alpha映射遮擋的解決還存在一定限制，但其地圖數(shù)量和渲染都比較有優(yōu)勢，甚至在訓練和推理方便也有差別，可緩解記憶問題。

“我們將這種生成輸出的方法稱作‘生成多平面圖像’。”研究人員在論文中表示。他們還提到，雖然這兩種調(diào)整在事后看起來很直觀，但令人驚訝的是，一個具有基于其深度的平面和使用相機姿態(tài)信息的Alpha地圖，對3D感知的歸納偏差是足夠的。

最終的Alpha映射是通過累積所有由單個卷積層生成的中間結(jié)果來獲得的

另外，即便修改Alpha映射的另一個歸納偏差有效，但對獲得3D感知并不是必要的。

總的來說，本次研究團隊的貢獻主要體現(xiàn)在兩方面：1.使用標準單視圖2D圖像數(shù)據(jù)集，訓練類似一個多平面圖像的3D感知生成模型；2.在深度上的Alpha平面或一個可學習的令牌和相機姿態(tài)上的鑒別器，足以使2D生成對抗網(wǎng)絡(luò)轉(zhuǎn)向3D感知。

此外，團隊還研究了在三個高分辨率數(shù)據(jù)集（FFHQ、AFHQv2和MetFaces）上編碼3D感知歸納偏差的方法。同時也對其他信息提供了改進，但這些對3D感知并不是嚴格必要的。

最后，研究人員希望‘生成多平面圖像’的簡單性，能對解決遮擋推理等工作的限制提供幫助。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

蘋果聯(lián)合學界提出“生成多平面圖像”方法 用最少修改讓2D生成對抗網(wǎng)絡(luò)實現(xiàn)3D感知

蘋果聯(lián)合學界提出“生成多平面圖像”方法用最少修改讓2D生成對抗網(wǎng)絡(luò)實現(xiàn)3D感知