• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于生成對(duì)抗模型及光路分解的全局光照繪制

      2023-02-28 09:20:06王妮婷王靜雯歐陽嬌
      關(guān)鍵詞:鏡面反射全局繪制

      梁 曉,王妮婷,王靜雯,歐陽嬌

      西南石油大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,成都 610500

      全局光照(global illumination,GI)繪制是計(jì)算機(jī)圖形學(xué)的重要研究問題之一。經(jīng)典的全局光照繪制采用物理模擬的方法,對(duì)場景中的三維幾何、表面材質(zhì)、光源、攝像機(jī)等建立具有物理真實(shí)度的模型,并模擬光照傳輸過程,最終捕獲經(jīng)多次反射、折射后進(jìn)入視點(diǎn)的光能。由于能夠產(chǎn)生照片級(jí)真實(shí)感圖片,該方法廣泛用于動(dòng)畫與電影特效制作、視覺設(shè)計(jì)、數(shù)字娛樂領(lǐng)域。然而,物理繪制計(jì)算開銷昂貴。以蒙特卡洛路徑跟蹤算法[1]為例,需要在每個(gè)像素投射至少上萬條光線用于跟蹤模擬,才能獲得一幅近似收斂的繪制結(jié)果,這使得繪制的時(shí)間開銷高達(dá)數(shù)十秒;而一旦減少跟蹤光線的數(shù)目,將產(chǎn)生大量噪點(diǎn),極大降低了視覺感受。因此,在保持畫面真實(shí)感的前提下,減小繪制計(jì)算代價(jià),是目前全局光照繪制的主要挑戰(zhàn)。

      近年來,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)[2]以及生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)[3]作為圖像生成模型,在圖像降噪、高分辨率圖像生成、語義識(shí)別等領(lǐng)域獲得了廣泛關(guān)注和巨大成功。其核心是,在大量的觀察樣例中理解圖像先驗(yàn),隱式地學(xué)習(xí)真實(shí)數(shù)據(jù)分布模型并用于生成圖像。受此啟發(fā),研究者們提出基于神經(jīng)網(wǎng)絡(luò)的全局光照?qǐng)D像降噪重建[4-6]。但是,降噪重建方法需要物理繪制產(chǎn)生噪聲圖像作為重建基礎(chǔ),具有不可忽略的計(jì)算成本和開銷。并且降噪網(wǎng)絡(luò)始終受到輸入圖像噪聲水平的限制,一旦輸入的SPP過低,重建質(zhì)量將急劇下降。

      圖像生成的核心之一是學(xué)習(xí)圖像的隱式表示[7]。然而,自然圖像與全局光照?qǐng)D像所蘊(yùn)含的特征不同,前者側(cè)重呈現(xiàn)各類紋理,而后者對(duì)用戶視覺感知貢獻(xiàn)最強(qiáng)烈部分是光照與材質(zhì)的交互,如全局漫反射、鏡面反射、高光等。因此,兩類圖像具有不同的結(jié)構(gòu),其隱式表示及學(xué)習(xí)方法也應(yīng)該有差異。若能抽象地建立光照傳輸及其與材質(zhì)交互行為的表示,并編碼到網(wǎng)絡(luò)模型中,可避免代價(jià)昂貴的光照物理建模和計(jì)算過程。然而,光路傳輸行為極為復(fù)雜,光能在最終映入視點(diǎn)前會(huì)與場景連續(xù)地產(chǎn)生多次漫反射、鏡面反射,在兩類反射作用下新產(chǎn)生的光的強(qiáng)度、方向、顏色等具有不同的物理描述,這使得使用單一的模型難以有效表達(dá)全局光照。

      為此,本文提出一種新的基于生成對(duì)抗模型和光路分解的全局光照深度繪制網(wǎng)絡(luò),將全局光照分解為鏡面反射和漫反射兩部分,分別設(shè)計(jì)自編碼器GAN 獨(dú)立地學(xué)習(xí)和推理各路光照,最后合成最終圖像。根據(jù)不同光照分支的特性,選擇特定、高相關(guān)性、計(jì)算廉價(jià)的圖形輔助屬性為主要輸入,避免以物理繪制生成的噪聲全局光照?qǐng)D像為輸入,計(jì)算成本更小,且訓(xùn)練過程更高效、更有針對(duì)性??紤]到鏡面反射光照生成中受非局部區(qū)域特征影響的特點(diǎn),設(shè)計(jì)多尺度融合模塊以在更大的感受野中自適應(yīng)地提取有效特征。同時(shí),使用混合損失函數(shù)穩(wěn)定地生成圖像。通過廣泛的實(shí)驗(yàn)證明,本文框架與設(shè)計(jì)選擇能夠有效地保留全局光照?qǐng)D像中更多的高頻細(xì)節(jié)。

      1 相關(guān)工作

      物理繪制包括了蒙特卡洛路徑跟蹤[1]、輻射度算法[8]及光子映射[9]等成熟的繪制框架,能夠產(chǎn)生各類光照逼真的圖像,但昂貴的計(jì)算開銷始終是瓶頸。近年來,使用基于圖像空間降噪和圖像生成模型來重建全局光照?qǐng)D像的工作得到了大量關(guān)注和發(fā)展,本節(jié)分別介紹這兩方面內(nèi)容。

      1.1 基于圖像空間的降噪

      圖像空間降噪的基本原理是,對(duì)像素間的距離建立某種模型,搜索結(jié)構(gòu)相似的像素值來恢復(fù)損失像素。傳統(tǒng)圖像過濾方法有雙邊濾波[10]、非局部均值濾波[11]、BM3D以及基于直方圖的度量距離的降噪[12]等。隨后,研究者提出了一階、高階等線性和非線性降噪方法。He等人[13]提出引導(dǎo)圖濾波方法,假設(shè)像素與輔助圖像具有線性關(guān)系,并使用邊緣特征圖引導(dǎo)過濾噪聲圖像,有效地避免了邊緣模糊問題。受此啟發(fā),Bauszat等人[14]用具有幾何結(jié)構(gòu)的法線圖作為引導(dǎo),過濾間接全局光照?qǐng)D。Bitterli等人[15]提出非線性局部加權(quán)回歸重構(gòu)圖像,提高了圖像質(zhì)量但增加了計(jì)算復(fù)雜性。

      近年來,數(shù)據(jù)驅(qū)動(dòng)的繪制得到了快速發(fā)展,研究者提出了基于神經(jīng)網(wǎng)絡(luò)的全局光照?qǐng)D像降噪重建。Kalantari等人[16]首次使用具有三層感知機(jī)的神經(jīng)網(wǎng)絡(luò)生成過濾核參數(shù)。Bako 等人[5]使用卷積神經(jīng)網(wǎng)絡(luò)KPCN(kernelprediction convolutional network)產(chǎn)生鏡面反射和漫反射的自適應(yīng)過濾核,再用于全局光照噪聲圖像的過濾,產(chǎn)生了逼真結(jié)果。Vogels 等人[17]在Bake 等人研究的基礎(chǔ)上增加了時(shí)域特征提取模塊和一系列非對(duì)稱損失函數(shù)。Chaitanya 等人[4]提出一種交互式全局光照降噪網(wǎng)絡(luò)RNN-AEMC,在自編碼網(wǎng)絡(luò)中嵌入RNN(recurrent neural network)[18]模塊來平滑幀間不穩(wěn)定性,最終以交互式幀率產(chǎn)生平滑的圖像序列。

      本文與降噪方法不同之處在于,本文方法不再以基于物理繪制的帶噪全局光照?qǐng)D像為輸入,而是通過學(xué)習(xí)光照傳輸表示來重建圖像,使得網(wǎng)絡(luò)不再受圖像噪聲水平的限制,影響重建質(zhì)量。

      1.2 圖像生成模型

      Goodfellow 等人提出生成對(duì)抗網(wǎng)絡(luò)(GAN)[3]。其中,生成網(wǎng)絡(luò)盡量學(xué)習(xí)真實(shí)數(shù)據(jù)分布以生成能欺騙判別網(wǎng)絡(luò)的數(shù)據(jù),判別網(wǎng)絡(luò)則盡量正確地判別輸入數(shù)據(jù)是來自真實(shí)數(shù)據(jù)還是生成數(shù)據(jù)。通過極大極小博弈,GAN在圖像生成領(lǐng)域取得了矚目的成果。

      原始GAN 從噪聲中生成圖像,用戶無法有效控制輸出。為進(jìn)一步約束生成內(nèi)容,條件GAN 引入條件變量使生成網(wǎng)絡(luò)的表現(xiàn)能力得到增強(qiáng)。Isola 等人[19]提出一種條件生成式對(duì)抗網(wǎng)絡(luò)Pix2Pix,通過在判別網(wǎng)絡(luò)添加額外限制(例如物體輪廓)作為圖像生成的重要條件。Wang 等人[20]在此基礎(chǔ)上提出一種coarse-to-fine 生成網(wǎng)絡(luò)以及多尺度的判別網(wǎng)絡(luò)來有條件地輸出高分辨率圖像。

      近來,學(xué)習(xí)場景的抽象表示來生成渲染圖像成為新的關(guān)鍵技術(shù)點(diǎn)。劉曉蕓等人[21]采用徑向基函數(shù)(radial basis function,RBF)神經(jīng)網(wǎng)絡(luò)擬合視點(diǎn)位置、光源位置和物體表面法線等與間接光照之間的非線性關(guān)系,避免了光線的多次求交,但無法有效重建復(fù)雜的渲染場景。Granskog等人[22]分解光照、材質(zhì)和幾何信息用于場景表示,以多角度觀察圖像為輔助,將G-buffer 屬性轉(zhuǎn)換為具有高光和反射的渲染結(jié)果。但該方法需要保證分解后各分量的正交性,實(shí)現(xiàn)難度較大。

      2 本文方法

      2.1 算法框架

      如圖1(a)所示,基于生成對(duì)抗模型和光路分解的全局光照繪制網(wǎng)絡(luò)(簡記為LD-GIGAN),包括生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)兩部分。生成網(wǎng)絡(luò)包含兩個(gè)獨(dú)立的自編碼網(wǎng)絡(luò),分別是漫反射繪制網(wǎng)絡(luò)Gdiff和鏡面反射繪制網(wǎng)絡(luò)Gspec。由于漫反射和鏡面反射光照成因不同,兩個(gè)網(wǎng)絡(luò)具有不同的輸入。具體是:漫反射光照主要表現(xiàn)紋理細(xì)節(jié)、顏色等,將法線、深度和反照率拼接為每像素7通道的輸入,其中深度為1通道。鏡面反射與材質(zhì)反射屬性高度相關(guān),產(chǎn)生的光照依賴于視點(diǎn),因此以法線、視點(diǎn)、深度、鏡面反射紋理、粗糙度和視錐體外幾何感知圖(geometric perception map,GPM)等作為輸入,共12 通道,其中深度、粗糙度和感知圖均為1通道。

      判別網(wǎng)絡(luò)用于判斷生成網(wǎng)絡(luò)產(chǎn)生的是否為真實(shí)圖像。與文獻(xiàn)[23]類似,將生成圖像旋轉(zhuǎn)多個(gè)角度以產(chǎn)生增強(qiáng)的配對(duì)數(shù)據(jù)后再送入網(wǎng)絡(luò)判別真假,如圖1(b)。面對(duì)多樣化的樣本分布,通過增加同一分布樣本數(shù)據(jù),有助于促進(jìn)網(wǎng)絡(luò)學(xué)習(xí)到更穩(wěn)定的結(jié)果。

      圖1 本文全局光照繪制框架概覽Fig.1 Overview of global illumination rendering framework

      最終,將兩個(gè)分支網(wǎng)絡(luò)的生成圖像通過逐像素乘法和逐像素加法合成全局光照效果圖。下面將詳細(xì)地介紹光路分解方法、全局光照繪制網(wǎng)絡(luò)的具體實(shí)現(xiàn)以及損失函數(shù)的組成。

      2.2 光路分解

      研究者提出了不同的光路分解方法。圖像處理領(lǐng)域常利用本征圖像分解,將圖像分為反射圖和光照?qǐng)D[24-25]。Bauszat等人[14]將全局光照?qǐng)D像分解為直接光照和間接光照,對(duì)間接光照進(jìn)行過濾重建。該方法主要恢復(fù)粗糙表面的光照反射,并未考慮光澤材質(zhì)。曹天池等人[26]則基于像素聚類方法將圖像分解為漫反射和鏡面反射,結(jié)合場景深度進(jìn)行光照估算,但對(duì)于高光像素較多、整體較亮的場景難以獲得準(zhǔn)確的分解結(jié)果。本文使用與文獻(xiàn)[5,27]類似的光路分解思路,分為漫反射和鏡面反射兩部分。但是在真實(shí)渲染場景中,由于渲染方程的遞歸性質(zhì),光路組合十分復(fù)雜,將鏡面反射和漫反射的計(jì)算完全分離是十分困難的。權(quán)衡計(jì)算開銷和實(shí)驗(yàn)效果,本文僅實(shí)現(xiàn)主光線的最近擊中點(diǎn)的鏡面反射和漫反射光照的分離。

      進(jìn)一步地,考慮到漫反射光照中紋理和光照在結(jié)構(gòu)、頻率分布方面具有不同特征,將這部分再分解為輻照度(irradiance)和反照率(albedo)。光路分解及圖像融合如式(1)所示:

      其中,albedodiff為漫反射反照率,為漫反射輻照度和鏡面反射分量。

      2.3 全局光照繪制網(wǎng)絡(luò)

      2.3.1 生成網(wǎng)絡(luò)

      由于輸入與輸出具有較大的數(shù)據(jù)分布差異,若使用CNN 會(huì)由于網(wǎng)絡(luò)容量過大難以實(shí)現(xiàn)有效映射[28]。而圖像本身是低維流形在高維空間的表達(dá),自編碼器善于將高維數(shù)據(jù)映射到低維空間,同時(shí)保留數(shù)據(jù)的顯著特征,能更有效地實(shí)現(xiàn)抽象特征之間的映射關(guān)系。本文以自編碼網(wǎng)絡(luò)為基礎(chǔ),每個(gè)網(wǎng)絡(luò)均包括編碼、特征映射和解碼3 個(gè)階段,由于光照生成的差異,在編碼階段采用了不同的設(shè)計(jì)。

      (1)漫反射繪制網(wǎng)絡(luò)

      編碼器階段:包括4層編碼,每層對(duì)特征圖經(jīng)過2次連續(xù)的非線性變換后,再進(jìn)行下采樣處理。在該階段,編碼深度每增加1,特征圖的空間分辨率減小50%,但特征個(gè)數(shù)成倍增加。這樣設(shè)計(jì)的目的是保留空間上的重要特征,同時(shí)產(chǎn)生有效的高層語義特征。

      特征映射階段:該階段使用卷積層對(duì)高層語義特征進(jìn)行連續(xù)的非線性變換,以學(xué)習(xí)復(fù)雜的隱式光照傳輸表示。

      帶跳躍連接的解碼器階段:包含與編碼器階段對(duì)應(yīng)的層數(shù)。每層對(duì)特征圖進(jìn)行上采樣以及連續(xù)的非線性變換,以實(shí)現(xiàn)逐層的特征映射和圖像還原。由于下采樣會(huì)產(chǎn)生大量信息損失,若直接在有損信息上進(jìn)行上采樣,容易導(dǎo)致模糊的合成圖像。為此,使用跳躍連接[29]將編碼階段對(duì)應(yīng)層的特征級(jí)聯(lián)到解碼器階段對(duì)應(yīng)層作為信息補(bǔ)充,之后再對(duì)融合的特征進(jìn)行解碼。

      (2)鏡面反射繪制網(wǎng)絡(luò)

      當(dāng)場景中存在大量粗糙度低的材質(zhì),會(huì)產(chǎn)生高光、二次反射等大量的鏡面反射光照。相比于平緩的漫反射光照,鏡面反射受到入射光照、BRDF反射模型、視點(diǎn)等多種因素的影響,因此鏡面反射自編碼器相較于漫反射網(wǎng)絡(luò),在輸入數(shù)據(jù)和編碼階段有自己獨(dú)特的設(shè)計(jì)。

      首先,二次反射的成像受到視錐體內(nèi)以及視錐體外的物體所反射的光照影響,而G-Buffer輔助屬性只能提供視錐體內(nèi)信息,若不能在輸入提供足夠的場景信息會(huì)導(dǎo)致網(wǎng)絡(luò)產(chǎn)生不合理的光照。為此,本文采用一種視錐體外幾何感知圖(GPM)作為網(wǎng)絡(luò)輔助輸入,引導(dǎo)模型感知視覺錐體外的場景,以推理產(chǎn)生合理的光照?qǐng)D。GPM 是灰度圖,每個(gè)像素編碼了視錐體外物體與視錐體內(nèi)可見物體之間歸一化的歐式距離,其產(chǎn)生過程是:從視點(diǎn)位置向3D場景發(fā)射一條虛擬光線r,r穿過的屏幕像素記為P。若r與物體相交,交點(diǎn)為可見點(diǎn)并記為M,繼續(xù)從點(diǎn)M引出鏡面反射光線r′;若r′與物體相交,記交點(diǎn)為N,將MN的歐式距離記為點(diǎn)P的GPM值。掃描完所有屏幕像素后,將所有非0距離歸一化到0 到1 范圍內(nèi),從而產(chǎn)生GPM 灰度圖。若視點(diǎn)發(fā)生變化,同一可見點(diǎn)對(duì)應(yīng)的N點(diǎn)也會(huì)改變,需要提供新的GPM。以上信息獲取方便,并且能夠確保提供正確的場景感知信息,這對(duì)產(chǎn)生合理的光照非常重要。雖然降噪網(wǎng)絡(luò)不需要采集此類信息,但需要使用物理繪制引擎產(chǎn)生噪聲圖像。與其相比,本方法的輸入計(jì)算代價(jià)更小。

      其次,鏡面反射光照需要提取不同尺度感受野下的特征,以獲得空間上更全局的結(jié)構(gòu)信息;而傳統(tǒng)卷積層僅能產(chǎn)生單一感受野范圍的特征。為此在編碼器采用一種多尺度特征融合模塊(multi-scale feature fusion block,MSFFB),如圖2(a)所示。即在編碼階段的每一層中,同時(shí)使用兩種尺度為3×3和5×5的卷積核,再使用concatenate操作來融合不同尺度特征,之后級(jí)聯(lián)到解碼階段對(duì)應(yīng)層。

      2.3.2 判別網(wǎng)絡(luò)

      判別網(wǎng)絡(luò)是一個(gè)典型的卷積神經(jīng)網(wǎng)絡(luò),如圖2(b)所示,由連續(xù)的卷積層組成,卷積核為3×3,每個(gè)卷積層接Leaky ReLU 函數(shù)和Batch Normalization;卷積核數(shù)目在步長為1 和步長為2 的卷積后成倍增加;網(wǎng)絡(luò)最后為一個(gè)一維、sigmoid 激活的全連接層。在傳統(tǒng)判別網(wǎng)絡(luò)基礎(chǔ)上,本文增加了特征損失以及旋轉(zhuǎn)損失。

      圖2 全局光照繪制網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Global illumination rendering network structure

      2.3.3 損失函數(shù)

      圖像質(zhì)量的判別取決人類視覺系統(tǒng),使用單一的距離函數(shù)難以有效地描述預(yù)測圖與參考圖之間的差異。大量文獻(xiàn)[19,30]表明,單純使用L1或L2損失容易產(chǎn)生模糊的重建圖像。因此,本文利用判別網(wǎng)絡(luò)并擴(kuò)展標(biāo)準(zhǔn)對(duì)抗損失函數(shù)來學(xué)習(xí)隱式的距離模型,以促進(jìn)圖像重建的質(zhì)量。如式(2)所示,共使用像素級(jí)損失Lpixel、特征損失Lfeat以及旋轉(zhuǎn)損失Lrotation三種函數(shù)對(duì)最優(yōu)化目標(biāo)進(jìn)行自適應(yīng)、多角度的約束,后兩者均為對(duì)抗損失函數(shù)。

      其中,γ1、γ2和γ3為超參數(shù)。

      (1)像素級(jí)損失

      使用L1損失來描述預(yù)測圖與參考圖之間的逐像素差異,相對(duì)于L2損失,L1損失對(duì)異常值更穩(wěn)定。若用y表示參考圖,Lpixel可表示為:

      (2)增強(qiáng)的對(duì)抗損失

      首先,為彌補(bǔ)像素級(jí)損失的不足,使用特征損失在多個(gè)抽象層描述預(yù)測圖與目標(biāo)圖之間的差異。具體是,利用判別網(wǎng)絡(luò)的特征提取功能產(chǎn)生預(yù)測圖和目標(biāo)圖在多個(gè)中間層的抽象表示,并用L1距離來描述兩者之間的差異。該損失可描述為:

      其中,D為判別網(wǎng)絡(luò),Dj為網(wǎng)絡(luò)的第j層特征提取結(jié)果,Cj、Hj和Wj為第j層特征表示的通道數(shù)、高度和寬度,βj為第j層特征的比例系數(shù)。這種損失描述了預(yù)測圖與目標(biāo)圖在多個(gè)層次抽象表示的差異,能夠促進(jìn)生成網(wǎng)絡(luò)在多個(gè)尺度上生成更符合目標(biāo)的統(tǒng)計(jì)數(shù)據(jù),進(jìn)而產(chǎn)生逼真圖像。

      其次,為增加判別網(wǎng)絡(luò)的穩(wěn)定性,將預(yù)測圖和目標(biāo)圖旋轉(zhuǎn)多個(gè)角度產(chǎn)生擴(kuò)展的真假圖像配對(duì),送入判別網(wǎng)絡(luò)。旋轉(zhuǎn)角度集合用Rot表示,Rot={0°,90°,180°,270°},每個(gè)旋轉(zhuǎn)角度下真假圖像配對(duì)將產(chǎn)生一個(gè)旋轉(zhuǎn)損失,4個(gè)損失的總和為最終旋轉(zhuǎn)損失,可描述為:

      3 實(shí)驗(yàn)結(jié)果與分析

      為了驗(yàn)證方法的有效性和合理性,進(jìn)行了如下實(shí)驗(yàn)。首先,將本文方法與基線網(wǎng)絡(luò)進(jìn)行比較。其次,分別從光路分離方法、網(wǎng)絡(luò)收斂性以及混合的損失函數(shù)等方面來驗(yàn)證網(wǎng)絡(luò)結(jié)構(gòu)的有效性。最后,分析方法局限性。

      3.1 數(shù)據(jù)集及實(shí)現(xiàn)細(xì)節(jié)

      3.1.1 數(shù)據(jù)集

      基于數(shù)據(jù)驅(qū)動(dòng)的繪制網(wǎng)絡(luò)需要大量的訓(xùn)練數(shù)據(jù)來提取合成時(shí)所需特征,同時(shí)避免過擬合。本文使用Bistro[31]、Sun Temple[32]、Zero Day[33]等NVIDIA ORCA 三維室內(nèi)場景作為主要的三維場景,此外,還包括Pink Room、Sponza、Living Room 等常用的圖形虛擬場景。這些場景具有豐富的光照條件、不同的表面材質(zhì)和各類幾何形狀,極具代表性。

      數(shù)據(jù)集產(chǎn)生的方法如下:使用基于DirectX Raytracing(DXR)的路徑跟蹤方法漫游場景,每隔一定時(shí)間步長保存<圖形輔助屬性集合,漫反射目標(biāo)圖像,鏡面反射目標(biāo)圖像,視錐體外幾何感知圖>數(shù)據(jù)對(duì),最終共產(chǎn)生6 000對(duì)數(shù)據(jù)集,其中5 400 個(gè)數(shù)據(jù)對(duì)用于模型訓(xùn)練,600 對(duì)用于模型驗(yàn)證。所有圖像分辨率均為512×512。根據(jù)場景不同,目標(biāo)圖像采樣率為10~30 kHz。其中,圖形輔助屬性集合直接從G-Buffer中提取,包含法線、深度、反照率、視點(diǎn)、粗糙度和鏡面反射紋理。為了降低走樣的輸入對(duì)合成效果的影響,圖形輔助屬性集合中的所有數(shù)據(jù)都進(jìn)行8倍MSAA反走樣處理。

      3.1.2 實(shí)現(xiàn)細(xì)節(jié)

      本文使用Tensorflow 2.0 來實(shí)現(xiàn)網(wǎng)絡(luò),運(yùn)行平臺(tái)的GPU 為NVIDIA TITAN Xp,顯存12 GB。生成網(wǎng)絡(luò)在Bottleneck block 中添加標(biāo)準(zhǔn)的高斯噪聲,增加隨機(jī)性。同時(shí)在encoder 編碼網(wǎng)絡(luò)使用Batch Normalization層穩(wěn)定訓(xùn)練,使用Leaky ReLU 激活函數(shù)(參數(shù)為0.2),僅最后一層卷積層使用tanh 激活函數(shù)。總損失函數(shù)的三個(gè)超參數(shù)γ1、γ2和γ3之比為2∶5∶100。在特征損失上選擇第2、4、6層產(chǎn)生最終特征損失,并將對(duì)應(yīng)的超參數(shù)βi設(shè)置為1.5,1,1。漫反射和鏡面反射分支網(wǎng)絡(luò)均使用相同的判別網(wǎng)絡(luò)結(jié)構(gòu),但各自獨(dú)立訓(xùn)練。訓(xùn)練時(shí)使用自適應(yīng)的Adam 算法[34],初始學(xué)習(xí)率為2E-4,衰減率分別為0.9和0.99,批處理大小為4。每個(gè)分支在單塊TITAN Xp的GPU上訓(xùn)練花費(fèi)約12 h。

      3.2 圖像重建質(zhì)量與網(wǎng)絡(luò)性能評(píng)估

      為評(píng)估圖像重建質(zhì)量,與降噪網(wǎng)絡(luò)KPCN[5]和三種圖像生成網(wǎng)絡(luò)Pix2Pix[19]、RBFNet[21]、UnetGAN[20]進(jìn)行對(duì)比。其中,KPCN 采用光路分離的雙分支CNN,分別獨(dú)立推理漫反射和鏡面反射的過濾核參數(shù),再使用學(xué)習(xí)到的過濾核對(duì)含有噪聲的全局光照?qǐng)D像進(jìn)行降噪。Pix2Pix是以條件GAN為基礎(chǔ)的單分支網(wǎng)絡(luò),使用法線、鏡面反射紋理等作為條件,端到端地合成圖像。RBFNet 方法中,使用經(jīng)典的光線跟蹤算法計(jì)算直接光照,訓(xùn)練有監(jiān)督的RBF網(wǎng)絡(luò)獲得間接光照的擬合函數(shù)。UnetGAN以Res-Unet作為生成器,合成高分辨率真實(shí)感圖像。

      主觀感知和客觀指標(biāo)對(duì)比如圖3、表1 所示。由實(shí)驗(yàn)結(jié)果數(shù)據(jù)可知,本文在主觀感知和客觀指標(biāo)上明顯優(yōu)于以上三種圖像生成方法,也表明在網(wǎng)絡(luò)架構(gòu)、損失函數(shù)等方面增加約束,能夠有效地避免偽影圖像的產(chǎn)生,提高圖像質(zhì)量。Pix2Pix 更傾向于生成平滑的幾何形狀,對(duì)鏡面反射重建幾乎是無效的。UnetGAN 具有復(fù)雜的損失函數(shù)作為約束,其重建效果較Pix2Pix 更為清晰。RBFNet 網(wǎng)絡(luò)受聚類中心選擇的影響,在復(fù)雜場景下,擬合函數(shù)對(duì)場景間接光照的表達(dá)能力有限,其能一定程度地重建高光輪廓,但對(duì)鏡面反射成像細(xì)節(jié)的呈現(xiàn)能力相對(duì)較弱。

      圖3 與基線網(wǎng)絡(luò)對(duì)比Fig.3 Comparison with baseline networks

      表1 圖像質(zhì)量的客觀指標(biāo)對(duì)比Table 1 Comparison of objective indicators of image quality

      與同樣基于光路分離的KPCN方法相比,即使缺少了帶噪聲的全局光照繪制結(jié)果作為引導(dǎo),本文仍然能夠產(chǎn)生與之可比較的、甚至大多數(shù)更優(yōu)的光照?qǐng)D像。例如,對(duì)于Zero Day場景,本文在兩個(gè)角度的繪制效果明顯更優(yōu)。再如,Pink Room場景中紅色球體表面的各種反射結(jié)構(gòu)更明晰,而KPCN存在雜色且結(jié)構(gòu)并不十分規(guī)則。以上數(shù)據(jù)說明,以GPM作為引導(dǎo)圖,學(xué)習(xí)光照表示的方法能夠高質(zhì)量地產(chǎn)生復(fù)雜的光照效果。

      在網(wǎng)絡(luò)性能上,對(duì)512×512 分辨率的圖像,物理繪制時(shí)間約是1 min,KPCN、Pix2Pix、RBFNet、UnetGAN以及本文方法的預(yù)測時(shí)間分別是150 ms(每個(gè)分支約75 ms)、40 ms、69 ms、64 ms和96 ms(每個(gè)分支約48 ms)。本文方法和同為基于光路分解的KPCN 方法結(jié)果相近甚至更好,但由于不用對(duì)每個(gè)輸入求梯度方差,本文方法花費(fèi)的預(yù)處理時(shí)間更少。其余三種方法雖推理時(shí)間相對(duì)較少,但客觀指標(biāo)和圖像重建質(zhì)量都明顯低于本文方法。因此,在質(zhì)量和性能上進(jìn)行權(quán)衡,本文方法優(yōu)于對(duì)比方法。

      3.3 網(wǎng)絡(luò)結(jié)構(gòu)有效性評(píng)估

      3.3.1 光路分解方法

      為驗(yàn)證光路分解網(wǎng)絡(luò)結(jié)構(gòu)的有效性,將與無光路分解網(wǎng)絡(luò)對(duì)比重建質(zhì)量,并將后者簡記為nonLD-GIGAN,如圖4 所示。nonLD-GIGAN 的實(shí)現(xiàn)方式為:保留本文模型的漫反射自編碼網(wǎng)絡(luò),采用與本文方法相同的輸入、學(xué)習(xí)率等。同時(shí),為了保證公平性,減少兩者網(wǎng)絡(luò)容量的差異,增加了網(wǎng)絡(luò)層數(shù)和卷積核數(shù)。

      由圖4 可知,本文方法能產(chǎn)生更逼真的高頻光照,如Pink Room 場景中茶幾、花瓶具有清晰的幾何結(jié)構(gòu),而對(duì)比方法的重建結(jié)果較模糊。同時(shí),本文的重建結(jié)果具有更豐富的明暗變化,而不進(jìn)行光路分解的方法丟失了較多反射信息,如Sun Temple 場景對(duì)墻上反射的光照的刻畫。

      產(chǎn)生以上差異的原因是,受到網(wǎng)絡(luò)容量、網(wǎng)絡(luò)架構(gòu)、數(shù)據(jù)等限制,nonLD-GIGAN 難以學(xué)習(xí)到復(fù)雜的光照傳輸表示。而本文將不同結(jié)構(gòu)性的光照進(jìn)行獨(dú)立地推理,本質(zhì)上是在求解空間增加了約束,進(jìn)一步避免了二義性,能有效地提高圖像質(zhì)量,加快網(wǎng)絡(luò)收斂。圖5 是本文與無光照分離的nonLD-GIGAN在網(wǎng)絡(luò)收斂性方面的比較。

      圖5 本文方法的網(wǎng)絡(luò)收斂性Fig.5 Network convergence of this paper method

      同樣是基于光路分解求解鏡面反射和漫反射,KPCN和本文方法有著本質(zhì)的區(qū)別。KPCN通過圖像降噪獲得過濾后的低噪圖像,受輸入圖像的噪聲水平影響較大。圖6展示了分別選擇16 spp和32 spp圖像作為輸入的分量降噪效果??梢园l(fā)現(xiàn)降低輸入圖像的采樣數(shù)導(dǎo)致難以恢復(fù)光澤表面的高頻細(xì)節(jié),如Living Room的鏡面反射分量,同時(shí),其漫反射分量也一定程度地發(fā)生了顏色偏移。本文方法通過求解各圖形屬性與兩個(gè)分量的非線性關(guān)系來獲得高質(zhì)量全局光照?qǐng)D像,在金屬高光和鏡面成像細(xì)節(jié)上優(yōu)于32 spp KPCN,而漫反射分量求解簡單,兩方法效果無明顯差別。

      圖6 鏡面反射和漫反射分量圖像質(zhì)量對(duì)比Fig.6 Comparison of image quality of specular and diffuse components

      KPCN使用兩個(gè)相同的CNN作為降噪網(wǎng)絡(luò),網(wǎng)絡(luò)規(guī)模和參數(shù)量更少,但是收斂速度慢,訓(xùn)練時(shí)間約為本文方法的1.5倍。

      3.3.2 多尺度融合模塊

      正如第2.3.1 小節(jié)所提到,由于漫反射光照特征表現(xiàn)的平緩性,而鏡面反射光照受反射模型、視點(diǎn)等多種因素影響,需要更多的全局信息來重建復(fù)雜的鏡面反射和高光等特效。本文僅針對(duì)鏡面反射分支設(shè)計(jì)多尺度特征融合模塊(MSFFB)。

      為了證明MSFFB 模塊的有效性,圖7 展示了是否添加MSFFB模塊的生成圖像與參考圖像的對(duì)比。在傳統(tǒng)的跳躍連接中增加MSFFB 模塊,生成圖像的瓶身反射成像清晰,邊緣分明,與不使用MSFFB 相比,質(zhì)感有所提升。

      圖7 有/無MSFFB模塊的圖像質(zhì)量對(duì)比Fig.7 Comparison of image quality w or w/o MSFFB module

      3.3.3 損失函數(shù)

      本文使用三種損失函數(shù)來對(duì)優(yōu)化目標(biāo)進(jìn)行描述,包括像素級(jí)損失以及兩種增強(qiáng)的對(duì)抗損失。

      圖8展示了增強(qiáng)的對(duì)抗損失函數(shù)的有效性。其中,基線測試為僅有L1損失,如圖8(1),L1+Lfeat為在基線測試基礎(chǔ)上增加了特征損失,如圖8(2),L1+Lfeat+Lrot{0,90°}為增加兩個(gè)角度的旋轉(zhuǎn)損失,如圖8(3),L1+Lfeat+Lrot{0,90°,180°,270°}為本文方法最終所采用的損失函數(shù)組合。

      圖8 不同損失函數(shù)組合下的圖像高頻細(xì)節(jié)對(duì)比Fig.8 Comparison of image high-frequency details under different loss function combinations

      實(shí)驗(yàn)證明,僅使用L1損失容易產(chǎn)生模糊的圖像,增加了對(duì)抗損失后的重建結(jié)果均優(yōu)于前者。這也證明,單一的硬編碼距離函數(shù)難以有效描述復(fù)雜的視覺感知模型。場景中具有豐富的幾何細(xì)節(jié),本文的特征損失在多個(gè)尺度上描述了圖像之間的語義級(jí)差異,有效地保證了高頻幾何細(xì)節(jié)的重建。從圖8中可以看出,圖像中墻面雕花輪廓分明。當(dāng)繼續(xù)增加旋轉(zhuǎn)對(duì)抗損失后,能夠穩(wěn)定地產(chǎn)生更自然的高質(zhì)量圖像。

      3.4 討論與局限

      本文的輸入包括多種圖形輔助屬性。在數(shù)據(jù)采集階段,若任何一個(gè)輸入存在明顯走樣,這類偽影都會(huì)或多或少反映到最終的合成圖像上。盡管在數(shù)據(jù)預(yù)處理時(shí),已對(duì)輸入屬性和參考圖像進(jìn)行簡單的反走樣,但是相乘、相加等后處理操作會(huì)將分支或者輸入圖像的輕微走樣誤差進(jìn)一步放大化,最終使得部分視點(diǎn)下合成的圖像仍然存在明顯的邊緣鋸齒,影響圖像的觀感質(zhì)量,如圖9所示。在未來工作中,將嘗試采用神經(jīng)網(wǎng)絡(luò)進(jìn)行后處理,使得合成運(yùn)算完全在抽象空間中進(jìn)行,從而盡可能糾正走樣誤差。

      圖9 局限性Fig.9 Limitations

      4 結(jié)束語

      本文采用光路分解框架,將光照解構(gòu)為鏡面反射和漫反射兩個(gè)獨(dú)立的分支,并分開進(jìn)行有監(jiān)督的訓(xùn)練和預(yù)測,運(yùn)用逐元素相乘和相加操作來合成最終圖像。該框架使合成任務(wù)更具有針對(duì)性,重建出了逼真的全局漫反射、鏡面反射和金屬材質(zhì)高光等效果。

      下一步工作將繼續(xù)優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),用于簡化模型并提高推理速度。其次,為進(jìn)一步提升繪制速度,考慮利用時(shí)域上的連續(xù)性來提高當(dāng)前幀的圖像質(zhì)量以及幀間穩(wěn)定性。

      猜你喜歡
      鏡面反射全局繪制
      Art on coffee cups
      Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
      量子Navier-Stokes方程弱解的全局存在性
      光滑物體表面反射光偏振特征分析及反射光分離技術(shù)*
      基于最短路徑的GNSS-R鏡面反射點(diǎn)算法
      落子山東,意在全局
      金橋(2018年4期)2018-09-26 02:24:54
      放學(xué)后
      童話世界(2018年17期)2018-07-30 01:52:02
      在轉(zhuǎn)變中繪制新藍(lán)圖
      新思路:牽一發(fā)動(dòng)全局
      樹葉圖像鏡面反射區(qū)自動(dòng)定位和消除方法
      鄄城县| 新巴尔虎左旗| 南丰县| 镇坪县| 财经| 法库县| 郧西县| 锡林郭勒盟| 冕宁县| 拜泉县| 隆昌县| 定边县| 柳江县| 东台市| 冷水江市| 雷山县| 雅安市| 全州县| 尚志市| 阿荣旗| 海淀区| 明星| 昆明市| 洞口县| 平南县| 吕梁市| 收藏| 喀什市| 嘉兴市| 安平县| 安龙县| 日照市| 怀宁县| 洛浦县| 隆安县| 曲靖市| 溧阳市| 开江县| 昔阳县| 天峨县| 孝昌县|