在生成高質(zhì)量圖像方面,生成對抗網(wǎng)絡(luò)(GAN)在近幾年取得了令人印象深刻的進展。
這些進步大多集中在生成器的輸出空間和給定的數(shù)據(jù)集設(shè)置相同方面,這些輸出通常是圖像,有時也是3D卷形式。
而最新的研究主要體現(xiàn)在生成與現(xiàn)有的訓練數(shù)據(jù)不同的新輸出上。這包括為一類對象生成3D幾何圖形和相應(yīng)的紋理的方法,給定的數(shù)據(jù)集只包含廣泛可用的單視圖圖像。沒有使用多視圖圖像或3D幾何圖形來監(jiān)督3D感知生成對抗網(wǎng)絡(luò)的訓練。
為了從這種有限的監(jiān)督形式中學習3D幾何圖形,之前的研究通常會結(jié)合三維感知歸納偏差,如三維體素網(wǎng)格或使用渲染引擎的隱式表示。
然而,提高這些方法的結(jié)果質(zhì)量仍然具有挑戰(zhàn)性:3D感知的歸納偏差通常是內(nèi)存密集型的顯式或隱式3D卷,并且渲染通常需要計算。此外,從2D生成對抗網(wǎng)絡(luò)中獲得的經(jīng)驗教訓往往不能直接轉(zhuǎn)移,因為生成器的輸出甚至其整個結(jié)構(gòu)都必須進行調(diào)整。
這就提出了一個問題:讓現(xiàn)有的2D生成對抗網(wǎng)絡(luò)3D感知,需要真正做些什么?
為了回答這個問題,本次蘋果聯(lián)合學界希望以最少方式修改現(xiàn)有的2D生成對抗網(wǎng)絡(luò),并建立一個有效的推理和訓練程序。
3D感知生成多平面圖像的概述
近日,相關(guān)論文以《生成多平面圖像:制作一個2DGAN3D感知》為題提交在arXiv上。
首先對生成對抗網(wǎng)絡(luò)的概念做一簡單介紹。據(jù)維基百科了解,“生成對抗網(wǎng)絡(luò) 是一類機器學習框架,由生成器和鑒別器兩個神經(jīng)網(wǎng)絡(luò)在游戲中相互競爭,鑒別器對生成器產(chǎn)生的欺騙樣本進行檢測,使用零和博弈的形式,其中一個代理的收益是另一個代理的損失。這一對抗性概念最初被認為是無監(jiān)督學習生成模型的一種形式,但它也被證實對半監(jiān)督學習、完全監(jiān)督學習和強化學習有用?!?/p>
本次研究人員選擇了一種被廣泛使用的高清圖像合成方法StyleGANv2。對此,研究者在論文中表示:“StyleGANv2有一個額外的好處,即許多訓練檢查點都是公開可用的。”
StyleGANv2發(fā)布于2020年,是StyleGAN(2018年12月推出)的升級版。StyleGAN主要體現(xiàn)人臉屬性,像臉型的表情、朝向、膚色、光照等多方面容貌姿態(tài)信息。
通過輸入不同參數(shù),可以使StyleGAN生成精細程度不同的各種人臉“Style”。另外,該模型也可以生成動物、汽車等圖像。值得一提的是,由于StyleGAN可以對生成的圖像進行細致調(diào)整,從而更容易生成足夠真實的假圖像。該技術(shù)的一些潛在有害用途一直存在爭議。
在三個數(shù)據(jù)集(FFHQ、AFHQv2和MetFaces)上,使用最小的更改集進行2D Gan 3D感知
回到一開始提出的問題,讓現(xiàn)有的2D生成對抗網(wǎng)絡(luò)3D感知需要什么?
本次研究團隊在論文中表示:“只有兩個修改是絕對必要的:1.一個多平面圖像樣式生成器分支,它生成一組基于其深度的Alpha映射。2.一個姿勢調(diào)節(jié)的鑒別器。更具體地說,我們?yōu)镾tyleGANv2開發(fā)了一個新的生成器分支,它會產(chǎn)生一組類似于一個多平面圖像的正面平行的Alpha映射。這是第一個證明一個多平面圖像可以作為無條件的3D感知生成模型的場景表示的研究?!?/p>
據(jù)了解,區(qū)別于生成器和鑒別器一同調(diào)整的情況,新分支是從零進行訓練,并且,結(jié)合Alpha映射與一個多平面圖像渲染中的單一圖像輸出,還可得到多種視圖的3D感知生成。
雖然Alpha映射遮擋的解決還存在一定限制,但其地圖數(shù)量和渲染都比較有優(yōu)勢,甚至在訓練和推理方便也有差別,可緩解記憶問題。
“我們將這種生成輸出的方法稱作‘生成多平面圖像’。”研究人員在論文中表示。他們還提到,雖然這兩種調(diào)整在事后看起來很直觀,但令人驚訝的是,一個具有基于其深度的平面和使用相機姿態(tài)信息的Alpha地圖,對3D感知的歸納偏差是足夠的。
最終的Alpha映射是通過累積所有由單個卷積層生成的中間結(jié)果來獲得的
另外,即便修改Alpha映射的另一個歸納偏差有效,但對獲得3D感知并不是必要的。
總的來說,本次研究團隊的貢獻主要體現(xiàn)在兩方面:1.使用標準單視圖2D圖像數(shù)據(jù)集,訓練類似一個多平面圖像的3D感知生成模型;2.在深度上的Alpha平面或一個可學習的令牌和相機姿態(tài)上的鑒別器,足以使2D生成對抗網(wǎng)絡(luò)轉(zhuǎn)向3D感知。
此外,團隊還研究了在三個高分辨率數(shù)據(jù)集(FFHQ、AFHQv2和MetFaces)上編碼3D感知歸納偏差的方法。同時也對其他信息提供了改進,但這些對3D感知并不是嚴格必要的。
最后,研究人員希望‘生成多平面圖像’的簡單性,能對解決遮擋推理等工作的限制提供幫助。