張文濤,王園宇,李賽澤
(太原理工大學(xué)信息與計(jì)算機(jī)學(xué)院,山西晉中 030600)
近年來(lái),深度估計(jì)一直是計(jì)算機(jī)視覺(jué)的熱點(diǎn)研究課題,作為場(chǎng)景感知的一部分,旨在從場(chǎng)景的特定視點(diǎn)產(chǎn)生像素級(jí)深度圖。在沒(méi)有光流、立體圖像、點(diǎn)云等額外線索的情況下,從二維圖像中提取出的深度信息對(duì)于場(chǎng)景的三維結(jié)構(gòu)解析具有重要的意義,可以顯著提高其他計(jì)算機(jī)視覺(jué)任務(wù)的決策能力,例如同步定位與建圖(Simultaneous Localization And Mapping,SLAM)[1]、姿態(tài)識(shí)別[2]、室內(nèi)定位[3]、三維重建[4]等。單目深度估計(jì)是從單張二維圖像估計(jì)出圖像中物體與攝像機(jī)距離的研究方法;但由于單幅RGB(Red,Green,Blue)圖像不對(duì)應(yīng)于唯一深度圖,因此單目深度估計(jì)是不適定問(wèn)題。使用物理設(shè)備和傳統(tǒng)圖像算法,如雷達(dá)掃描[5]和立體匹配算法[6]進(jìn)行深度估計(jì)存在采集密度低、速度慢、易受環(huán)境干擾等缺點(diǎn)。而得益于神經(jīng)網(wǎng)絡(luò)強(qiáng)大的參數(shù)學(xué)習(xí)能力,數(shù)據(jù)驅(qū)動(dòng)的基于深度學(xué)習(xí)的單目深度估計(jì)可以使用相對(duì)較少的資源和時(shí)間,在保證精度的前提下得到場(chǎng)景的深度圖。
文獻(xiàn)[7]最早利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)進(jìn)行深度估計(jì),提出的多尺度網(wǎng)絡(luò)由全局粗尺度網(wǎng)絡(luò)和局部細(xì)尺度網(wǎng)絡(luò)組成;但該模型只能生成1/4 分辨率的深度圖。文獻(xiàn)[8]中提出了全卷積殘差神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)去除全連接層并加入了殘差上采樣模塊,減少了模型參數(shù),提高了預(yù)測(cè)結(jié)果的分辨率。深度圖的像素值具有連續(xù)性,而條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)可以借助相鄰像素之間的連續(xù)性進(jìn)行深度估計(jì),于是文獻(xiàn)[9]中提出了分級(jí)CRF 細(xì)化方法,首先對(duì)圖像進(jìn)行超像素分割,然后使用CNN 提取超像素的深度信息,最后使用分級(jí)CRF 將超像素細(xì)化到像素級(jí);但其預(yù)測(cè)結(jié)果的邊緣粗糙。文獻(xiàn)[10]中將深度值離散化并將深度估計(jì)看作有序回歸問(wèn)題,提出了空間增量離散化,減小對(duì)較大深度值的懲罰,有著更快的收斂速度。文獻(xiàn)[11]中使用級(jí)聯(lián)條件生成對(duì)抗網(wǎng)絡(luò)(Conditional Generative Adversarial Network,CGAN),將RGB 幀和一級(jí)生成網(wǎng)絡(luò)輸出的深度圖連接起來(lái)作為二級(jí)生成網(wǎng)絡(luò)的輸入,映射到更精細(xì)的深度圖。文獻(xiàn)[12]中提出了深度卷積神經(jīng)場(chǎng)模型,將CNN 與連續(xù)CRF 結(jié)合,同時(shí)引入了超像素池化,保證了物體邊緣的清晰度,縮減了訓(xùn)練時(shí)間。
上述模型在清晰條件下可以取得良好的預(yù)測(cè)深度圖,這是因?yàn)閳?chǎng)景中物體與物體之間的結(jié)構(gòu)關(guān)聯(lián)可以反映出場(chǎng)景的全局層次結(jié)構(gòu),而這種全局層次的結(jié)構(gòu)關(guān)聯(lián)特征又有利于深度估計(jì)模型對(duì)場(chǎng)景中深度信息的提取;但考慮到大氣光照、天氣、環(huán)境的影響,尤其是近年來(lái)頻繁出現(xiàn)的惡劣霾天氣,圖像采集設(shè)備受到空氣中大量懸浮顆粒的干擾,渾濁的介質(zhì)會(huì)造成大氣光線的散射和吸收,這些都會(huì)使圖像產(chǎn)生較為嚴(yán)重的降質(zhì)現(xiàn)象;同時(shí)由于圖像中的結(jié)構(gòu)特征被霾遮擋,霾干擾下的圖像往往存在對(duì)象丟失、偽像、邊緣信息丟失和紋理區(qū)域不準(zhǔn)確等結(jié)構(gòu)丟失問(wèn)題。對(duì)于基于神經(jīng)網(wǎng)絡(luò)的深度估計(jì)模型,使用嚴(yán)重降質(zhì)的圖像會(huì)對(duì)模型的性能產(chǎn)生較大的干擾,網(wǎng)絡(luò)無(wú)法從模糊的霾圖中提取關(guān)鍵特征,于是上述模型無(wú)法在霾環(huán)境中解析出霾圖像的深度信息,也就無(wú)法得出效果較好的深度圖;對(duì)霾環(huán)境下的單幅霾圖深度估計(jì)缺乏適用性。
本文發(fā)現(xiàn)霾圖像的直接傳輸率圖中包含著場(chǎng)景的深度信息和結(jié)構(gòu)信息,同時(shí)條件生成對(duì)抗網(wǎng)絡(luò)在高維數(shù)據(jù)分布建模和不同數(shù)據(jù)域擴(kuò)展等領(lǐng)域有著良好的效果[13],故可以利用CGAN 從霾圖的直接傳輸率圖中提取深度信息。針對(duì)從低質(zhì)量的霾干擾圖像估計(jì)出高質(zhì)量的深度圖這一任務(wù),本文包含以下工作:1)根據(jù)霾圖像的直接傳輸率圖包含的場(chǎng)景深度信息和結(jié)構(gòu)信息,將直接傳輸率圖作為CGAN 的約束條件,通過(guò)對(duì)抗學(xué)習(xí),獲取保持良好場(chǎng)景結(jié)構(gòu)和邊緣輪廓的預(yù)測(cè)深度圖;2)提出融合雙注意力模塊的DenseUnet,作為生成器的網(wǎng)絡(luò)結(jié)構(gòu),在保留場(chǎng)景結(jié)構(gòu)特征的同時(shí),提取直接傳輸率圖中的深度信息,提高了霾干擾下預(yù)測(cè)深度圖的精度;3)提出新的結(jié)構(gòu)保持損失函數(shù),將像素級(jí)的L1損失、對(duì)抗損失、梯度損失、感知損失作為復(fù)合損失函數(shù),利用圖像梯度信息和圖像高級(jí)語(yǔ)義特征指導(dǎo)生成器生成清晰邊緣輪廓的深度圖,提高了霾環(huán)境下深度估計(jì)的質(zhì)量。
針對(duì)霾天氣下圖像的成像原理,文獻(xiàn)[14]中提出了大氣散射模型,如式(1)所示:
其中:J(x)為無(wú)霾圖像;t(x)為直接傳輸率圖;A為全局大氣光值;I(x)為有霾圖像。該模型表明,霾條件下成像系統(tǒng)捕獲的圖像由目標(biāo)物體的反射光和整體場(chǎng)景的全局大氣光構(gòu)成。直接傳輸率圖t(x)是未被散射的光線穿過(guò)霧霾后到達(dá)成像設(shè)備的比率,如式(2)所示:
其中:d(x)為場(chǎng)景深度;β(β>0)為大氣散射系數(shù)。由式(2)可知,直接傳輸率圖包含場(chǎng)景的深度信息,離攝像頭越遠(yuǎn)的物體受霧霾影響更大,當(dāng)深度值趨于無(wú)窮時(shí),t(x)趨于零;當(dāng)β為常數(shù)時(shí),直接傳輸率圖與場(chǎng)景深度呈指數(shù)關(guān)系。
綜上所述,本文將霾條件下的深度估計(jì)作為圖像到圖像的轉(zhuǎn)化任務(wù),提出了基于條件對(duì)抗網(wǎng)絡(luò)的單幅霾圖像深度估計(jì)模型。模型結(jié)構(gòu)如圖1,在生成器和鑒別器中不引入隨機(jī)噪聲,僅將直接傳輸率圖作為CGAN 生成器和鑒別器的約束條件,利用生成器完成直接傳輸率圖域到深度圖域的映射,再使用鑒別器判斷預(yù)測(cè)深度圖和真實(shí)深度圖的分布一致性,通過(guò)生成器和鑒別器的交替迭代訓(xùn)練,完成單幅霾圖像的深度估計(jì)。
圖1 條件生成對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of CGAN
2.1.1 融合雙注意力模塊的DenseUnet
文獻(xiàn)[15]表明,結(jié)構(gòu)信息對(duì)泛化深度估計(jì)起著重要的作用,所以從直接傳輸率圖中提取的結(jié)構(gòu)信息可以提高霾環(huán)境下深度估計(jì)的效果。生成器的作用是將霾圖的直接傳輸率圖映射為預(yù)測(cè)深度圖,直接傳輸率圖和深度圖共享深度信息和結(jié)構(gòu)信息,二者具有類似的底層結(jié)構(gòu)。深層的神經(jīng)網(wǎng)絡(luò)可以提取出直接傳輸率圖中的高級(jí)特征(深度信息),但是隨著網(wǎng)絡(luò)層數(shù)的增加,梯度消失問(wèn)題不利于網(wǎng)絡(luò)收斂,網(wǎng)絡(luò)的深層信息無(wú)法回傳,會(huì)使預(yù)測(cè)深度圖的質(zhì)量降低,邊緣和形狀等底層結(jié)構(gòu)信息也會(huì)在反向傳播過(guò)程中丟失。為了充分利用直接傳輸率圖中的結(jié)構(gòu)信息來(lái)輔助深度信息的獲取,對(duì)于生成器的網(wǎng)絡(luò)結(jié)構(gòu),本文提出了融合雙注意力模塊的DenseUnet,如圖2 所示。
為了解決網(wǎng)絡(luò)層數(shù)加深帶來(lái)的梯度消失和淺層特征丟失問(wèn)題,本文將密集連接網(wǎng)絡(luò)(Densely Connected Convolutional Network)[16]和U-net[17]結(jié)合為DenseUnet。利用密集連接網(wǎng)絡(luò)提取直接傳輸率圖的深度特征,并使用跳躍連接加強(qiáng)底層結(jié)構(gòu)信息的流動(dòng)。DenseUnet 將密集塊(Dense Block)作為U-net 編碼和解碼過(guò)程中的基本模塊,如圖2 所示。通過(guò)這樣的方式,可以將反向傳播過(guò)程中的梯度信息和原始的輸入信息送入每一層網(wǎng)絡(luò)。DenseUnet 不僅增加了網(wǎng)絡(luò)的層數(shù),同時(shí)也緩解了梯度消失帶來(lái)的模型退化問(wèn)題。在密集塊內(nèi),采用密集連接的方式,將每一層的特征與前面所有層的特征在通道維度進(jìn)行拼接,使得深層的網(wǎng)絡(luò)也可以獲取到底層的特征,實(shí)現(xiàn)了底層特征復(fù)用,加強(qiáng)了深層信息的流動(dòng)。在密集塊之間,跳躍連接將編碼器的信息傳入解碼器,保留了編碼過(guò)程中不同分辨率的像素級(jí)信息,實(shí)現(xiàn)了編解碼過(guò)程中淺層特征和深層特征的融合,解決了淺層特征無(wú)法在解碼過(guò)程中被有效利用的問(wèn)題??傊?,DenseUnet 在提取直接傳輸率圖深度信息的同時(shí)有效地利用了結(jié)構(gòu)特征,有利于生成精細(xì)局部細(xì)節(jié)和邊緣輪廓清晰的深度圖。
圖2 生成器的網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of generator
對(duì)于DenseUnet 的網(wǎng)絡(luò)結(jié)構(gòu),下采樣過(guò)程包括4 個(gè)密集塊,密集塊之間由過(guò)渡層連接。密集塊之內(nèi),使用3×3 卷積對(duì)相同尺寸的特征圖進(jìn)行特征提取,卷積之前采用批歸一化(Batch Normlization,BN)和修正線性單元ReLU(Rectified Linear Unit)函數(shù)提高模型的訓(xùn)練速度,同時(shí)使用1×1 卷積的瓶頸層實(shí)現(xiàn)降維。密集塊之內(nèi),后一層(BN+ReLU+Conv)的輸入為前面所有層的輸出;密集塊之間,過(guò)渡層使用2×2 平均池化將特征圖下采樣到原特征圖的1/2 大小,并使用瓶頸層將密集塊的輸出通道維度降到輸入通道維度的1/2。在上采樣過(guò)程中,相同尺寸的密集塊與上采樣塊在維度上拼接。本文的上采樣塊與密集塊使用相同的密集連接結(jié)構(gòu)。最后使用最鄰近插值(Nearest Interpolation)逐漸將特征圖上采樣到256×256 大小。
DenseUnet 雖然整合了直接傳輸率圖的不同層次特征,但仍缺乏對(duì)不同尺度全局特征的提取。為了充分提取直接傳輸率圖的全局信息,使用金字塔池化(Pyramid Pooling)[18]進(jìn)行不同比例的池化操作,獲取圖像不同尺度的全局特征。本文分別采用1/4、1/8、1/16、1/32 四種金字塔尺度,對(duì)DenseUnet 解碼后的輸出特征圖進(jìn)行平均池化,然后將不同尺度的特征上采樣到原始大小,再與原始特征圖拼接。經(jīng)過(guò)不同尺度的特征融合,提高了網(wǎng)絡(luò)對(duì)直接傳輸率圖全局信息的獲取能力,可以更好地指導(dǎo)生成器學(xué)習(xí)深度特征。
2.1.2 雙注意力模塊
在霾干擾導(dǎo)致的圖像降質(zhì)情況下,圖像中局部特征的依賴關(guān)系對(duì)預(yù)測(cè)結(jié)果中的深度值連續(xù)性尤為重要。雖然跳躍連接和金字塔池化分別實(shí)現(xiàn)了不同層次和不同尺度的特征融合,但3×3 的卷積核大小依然限制了網(wǎng)絡(luò)對(duì)局部特征依賴關(guān)系的獲取能力,導(dǎo)致生成圖像中的局部特征發(fā)生偏移[19],預(yù)測(cè)深度圖會(huì)出現(xiàn)偽影和深度值不連續(xù)問(wèn)題。為此,本文使用注意力機(jī)制來(lái)獲取場(chǎng)景中物體與物體之間的連續(xù)深度特征。
本文提出的雙注意力模塊結(jié)構(gòu)如圖3 所示,與文獻(xiàn)[20]類似,本文模型采用空間注意力和通道注意力的并聯(lián)結(jié)構(gòu)。空間注意力模塊和通道注意力模塊分別對(duì)DenseUnet 中經(jīng)過(guò)金字塔池化后生成的特征圖在空間和通道維度進(jìn)行建模,學(xué)習(xí)出像素之間和通道之間的注意力權(quán)重。通過(guò)匯集局部特征的上下文信息,雙注意力模塊使得網(wǎng)絡(luò)可以自適應(yīng)地調(diào)整深度特征的全局依賴關(guān)系,在保證深度值連續(xù)的前提下,提高霾圖深度估計(jì)的準(zhǔn)確性。
1)通道注意力模塊(Channel Attention Module)。
在DenseUnet 中,雖然卷積核的堆疊在一定程度上增大了感受野,但具體到特定的卷積層,卷積操作的感受野依然是有限的,這一問(wèn)題限制了網(wǎng)絡(luò)對(duì)全局特征依賴的提取。而全局信息的依賴關(guān)系對(duì)于直接傳輸率圖到深度圖的映射具有重要作用。本文在通道注意力中引入了非局部思想[21],如圖3(a)所示,通過(guò)計(jì)算通道特征的加權(quán)平均來(lái)得到通道注意力權(quán)重B,建立起通道之間的長(zhǎng)距離依賴關(guān)系,從而匯聚了更多的通道依賴信息。
首先對(duì)原特征圖F∈RC×H×W在空間維度上進(jìn)行壓縮,得到通道特征A∈RC×N,然后將A與其轉(zhuǎn)置AT相乘并經(jīng)過(guò)Softmax 函數(shù)計(jì)算得出通道注意力權(quán)重B∈RC×C,計(jì)算過(guò)程如式(3)所示:
其中:Ai和Aj代表壓縮后的特征圖;Bij為通道注意力權(quán)重B的元素,表示通道i與通道j之間的依賴關(guān)系,反映了通道之間的相關(guān)性。
然后將通道注意力權(quán)重與原特征圖相乘,并乘以學(xué)習(xí)率α,作為殘差與原特征圖相加得到新的特征圖F″ ∈RC×H×W,如式(4)所示:
其中:Fi為特征圖F的元素;α從0 開(kāi)始學(xué)習(xí)。通過(guò)通道注意力模塊,生成器整合了所有通道之間的依賴關(guān)系,使網(wǎng)絡(luò)更加關(guān)注全局信息,實(shí)現(xiàn)了通道特征優(yōu)化。
2)空間注意力模塊(Spatial Attention Module)。
空間注意力作為通道注意力的補(bǔ)充,需要在全局范圍捕獲空間特征的依賴關(guān)系。如圖3(b)所示,為了使生成器自適應(yīng)學(xué)習(xí)到關(guān)鍵的空間特征。對(duì)金字塔池化之后的特征圖F∈RC×H×W在通道維度上分別進(jìn)行全局平均池化(Global Average Pooling,GAP)和全局最大池化(Global Max Pooling,GMP),GAP 和GMP 可在空間維度獲取上下文信息的同時(shí)保留空間結(jié)構(gòu)信息。之后將二者在通道維度拼接為新的特征圖,并經(jīng)過(guò)卷積和Sigmoid 函數(shù)壓縮,得到空間注意力權(quán)重f∈R1×H×W。最后將原始特征圖與空間注意力權(quán)重經(jīng)過(guò)元素級(jí)相乘來(lái)完成注意力加權(quán),得到最終的特征圖F'∈RC×H×W。由于F'中每個(gè)位置的元素都來(lái)自其他位置元素的加權(quán),因此獲取了更廣泛的全局上下文信息,實(shí)現(xiàn)了空間特征優(yōu)化。
圖3 雙注意力模塊Fig.3 Dual attention module
傳統(tǒng)的鑒別器為二分類器,經(jīng)過(guò)卷積和最后的全連接層將整幅圖片映射為0~1 的概率值,通過(guò)此概率值來(lái)表示預(yù)測(cè)圖像是否來(lái)源于真實(shí)分布(1 代表真,0 代表假)。生成器和鑒別器在對(duì)抗學(xué)習(xí)中達(dá)到穩(wěn)定,直至鑒別器無(wú)法判斷預(yù)測(cè)圖片的真實(shí)性,網(wǎng)絡(luò)停止訓(xùn)練。對(duì)于深度估計(jì)來(lái)說(shuō),傳統(tǒng)鑒別器的缺點(diǎn)是直接對(duì)整幅圖片進(jìn)行判斷,無(wú)法對(duì)局部細(xì)節(jié)進(jìn)行評(píng)判,不利于生成高精度、高保真的深度圖。
本文的鑒別器采用PatchGAN[13]結(jié)構(gòu),如圖4,其中n 為通道數(shù),k 為卷積核大小,s 為步長(zhǎng)。相較于傳統(tǒng)鑒別器,PatchGAN 不直接對(duì)整幅圖片打分,而是對(duì)圖片的不同局部區(qū)域進(jìn)行判斷,從而實(shí)現(xiàn)了圖像局部特征的提取,保留了高頻細(xì)節(jié),有利于生成高分辨率的深度圖。同時(shí),由于PatchGAN 去除了全連接層,網(wǎng)絡(luò)的參數(shù)量減少,使得運(yùn)算速度提高。PatchGAN 采用全卷積網(wǎng)絡(luò),經(jīng)過(guò)五層卷積運(yùn)算,最后通過(guò)Sigmoid 函數(shù)得到32×32 的特征圖,其中每一個(gè)元素的分值,代表原圖70×70 局部區(qū)域的真假概率。
圖4 鑒別器的網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Network structure of discriminator
不同的損失函數(shù)會(huì)對(duì)網(wǎng)絡(luò)的訓(xùn)練速度和深度估計(jì)性能產(chǎn)生顯著影響。在生成對(duì)抗網(wǎng)絡(luò)中,對(duì)抗損失和傳統(tǒng)損失的結(jié)合可以使網(wǎng)絡(luò)朝著更有利的結(jié)果進(jìn)行[22]。為了指導(dǎo)生成器生成豐富細(xì)節(jié)信息的深度圖,提高霾環(huán)境下深度估計(jì)的質(zhì)量,本文提出了新的結(jié)構(gòu)保持損失函數(shù):將L1損失、感知損失、對(duì)抗損失和梯度損失融合為生成器的損失函數(shù),如式(5):
其中:LS為總的結(jié)構(gòu)保持損失為L(zhǎng)1損失;LA為對(duì)抗損失;LP為感知損失;LG為梯度損失。、λA、λP、λG分別為L(zhǎng)1損失、對(duì)抗損失、感知損失和梯度損失的權(quán)重。
2.3.1 像素?fù)p失
對(duì)于圖像轉(zhuǎn)化任務(wù),輸入和輸出之間共享底層信息[13]。本文使用L1損失度量像素空間中預(yù)測(cè)深度圖和真實(shí)深度圖的差異,以此來(lái)重建低頻信息,如式(6)所示:
其中:d代表真實(shí)深度圖,G(t)代表生成深度圖,E 代表數(shù)學(xué)期望。
2.3.2 感知損失
使用像素級(jí)損失,通過(guò)最小化深度值差異來(lái)重建深度圖的同時(shí)會(huì)產(chǎn)生模糊問(wèn)題,這是因?yàn)橄袼負(fù)p失的解是像素空間中所有分布的平均值,故使用最小絕對(duì)值(L1)損失作為網(wǎng)絡(luò)的唯一優(yōu)化目標(biāo)會(huì)導(dǎo)致圖像在全局結(jié)構(gòu)上出現(xiàn)細(xì)節(jié)丟失和物體邊緣不清晰的問(wèn)題。為了解決此問(wèn)題,引入了感知損失[23]。感知損失將CNN 隱含層作為特征提取器,本文使用預(yù)訓(xùn)練的VGG-19 網(wǎng)絡(luò)提取真實(shí)深度圖和生成深度圖的高級(jí)特征,通過(guò)最小化高級(jí)特征之間的歐氏距離來(lái)約束生成器,進(jìn)而提升深度圖的視覺(jué)質(zhì)量,如式(7)所示:其中:V代表VGG-19 模型;C代表特征圖的維度;W、H分別代表特征圖的寬和高。
2.3.3 梯度損失
CGAN 在生成豐富高頻細(xì)節(jié)的同時(shí),也存在物體形狀結(jié)構(gòu)畸變的問(wèn)題。梯度信息已被證明在深度估計(jì)和超分辨率圖像復(fù)原中取得了較好的效果[24-25]。直接傳輸率圖的梯度圖如圖5(c)所示,可以看出,圖像的一階微分(梯度)對(duì)應(yīng)著灰度強(qiáng)烈變化的區(qū)域,梯度圖很好地反映出了場(chǎng)景中物體的邊緣輪廓結(jié)構(gòu)。
圖5 梯度可視化Fig.5 Gradient visualization
文獻(xiàn)[15]表明,空間結(jié)構(gòu)在解析場(chǎng)景深度方面起著基礎(chǔ)性的作用,而直接傳輸率圖包含著場(chǎng)景的大量結(jié)構(gòu)信息,這對(duì)于霾圖像的深度估計(jì)具有重要的作用。為了讓模型提取到直接傳輸率圖的結(jié)構(gòu)信息,本文使用直接傳輸率圖的梯度信息為生成器提供監(jiān)督,通過(guò)最小化生成深度圖和真實(shí)深度圖在水平、垂直兩個(gè)方向的梯度特征差異,使模型從梯度空間中學(xué)習(xí)深度值變化明顯的邊緣區(qū)域,從而改善預(yù)測(cè)深度圖中物體的結(jié)構(gòu)細(xì)節(jié),提高物體邊緣輪廓的清晰度。本文定義的梯度損失如式(8)所示:
其中:?h和?v分別代表水平和垂直方向的梯度運(yùn)算;p代表像素索引。
2.3.4 對(duì)抗損失
對(duì)于對(duì)抗損失,本文不引入隨機(jī)噪聲,僅將直接傳輸率圖作為條件送入生成器和鑒別器。生成器和鑒別器交替迭代,二者極大極小博弈的目標(biāo)函數(shù)如式(9)所示:
其中:G為生成器,D為鑒別器。
為了驗(yàn)證本文模型的泛化能力,分別使用室內(nèi)和室外兩種環(huán)境下的數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練和測(cè)試。對(duì)于室內(nèi)環(huán)境,本文使用紐約大學(xué)創(chuàng)建的NYU v2(NYU Depth v2)數(shù)據(jù)集[4],官方提供了帶有密集標(biāo)注的1 449 對(duì)RGB 圖像和真實(shí)深度圖,圖像尺寸為640×480。對(duì)于室外環(huán)境,使用了DIODE 數(shù)據(jù)集[26]的18 206 對(duì)圖像,分辨率為1 024×768。在預(yù)處理過(guò)程中,首先將NYU v2 和DIODE 數(shù)據(jù)集的原始圖像大小調(diào)整為286 像素×286 像素,按照官方的劃分策略對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練和測(cè)試,并使用隨機(jī)裁切的方式擴(kuò)充數(shù)據(jù)集,每次讀取圖片的某部分。為了模擬真實(shí)的霾環(huán)境,本文利用大氣散射模型并結(jié)合文獻(xiàn)[27]的暗通道先驗(yàn)方法對(duì)數(shù)據(jù)集中的清晰圖像反向加霾(假設(shè)大氣光值為常數(shù)),大氣光值通過(guò)隨機(jī)采樣獲取。使用文獻(xiàn)[28]的基于圖像飽和度的去霾算法獲取霾圖直接傳輸率圖。
本文模型基于Pytorch 框架實(shí)現(xiàn),編程語(yǔ)言為Python3.6,使用顯存為20 GB 的NVIDIA 2080Ti 顯卡訓(xùn)練。在訓(xùn)練過(guò)程中,生成器和鑒別器保持相同的參數(shù)設(shè)置,均采用自適應(yīng)動(dòng)量估計(jì)優(yōu)化算法(Adam),動(dòng)量參數(shù)β1=0.5,β2=0.999。使用隨機(jī)裁剪來(lái)增強(qiáng)數(shù)據(jù),將圖片大小調(diào)整為256×256,總共訓(xùn)練300 個(gè)epoch。訓(xùn)練時(shí),前150 個(gè)epoch 保持初始學(xué)習(xí)率,后150 個(gè)epoch 的學(xué)習(xí)率線性衰減至0;設(shè)置初始學(xué)習(xí)率為2 × 10-4;batchsize 設(shè)置為16;生成器和鑒別器交替迭代訓(xùn)練。對(duì)于損失函數(shù)的權(quán)重,通過(guò)實(shí)驗(yàn)獲取最佳參數(shù)設(shè)定:λL1為100;λP為10;λG為20。模型在NYU 數(shù)據(jù)集上的訓(xùn)練時(shí)間為24 h,在DIODE 數(shù)據(jù)集上的訓(xùn)練時(shí)間為28 h。
對(duì)于定量評(píng)估,本文使用兩個(gè)方面(誤差、精確度)的指標(biāo)來(lái)評(píng)估預(yù)測(cè)深度圖和真實(shí)深度圖之間的差異:
平均相對(duì)誤差(Mean Relative Error,MRE):
均方根誤差(Root Mean Square Error,RMSE):
對(duì)數(shù)均方根誤差(Root Mean Square logarithmic Error,RMSElog):
對(duì)數(shù)平均誤差(Logarithmic Mean Error,LME):
精確度:
其中:N為測(cè)試圖像的像素?cái)?shù)量總和為像素i的預(yù)測(cè)值;di為像素i的真實(shí)值。對(duì)于誤差指標(biāo),結(jié)果越小越好;對(duì)于精確度指標(biāo)(δ<1.25i,i=1,2,3),結(jié)果越大越好。
對(duì)于本文提出的結(jié)構(gòu)保持損失函數(shù),圖6 顯示了各分量在訓(xùn)練過(guò)程中的收斂情況,L1損失、梯度損失和感知損失在模型訓(xùn)練開(kāi)始時(shí)就逐漸趨于收斂,L1損失和感知損失在約前50 個(gè)訓(xùn)練批次(epoch)的收斂速度最快,并在300 個(gè)epoch 時(shí)趨于穩(wěn)定,表明結(jié)構(gòu)保持損失函數(shù)對(duì)生成器的訓(xùn)練起到了監(jiān)督作用。
圖6 NYU v2 數(shù)據(jù)集上損失函數(shù)的收斂情況Fig.6 Convergence of loss function on NYU v2 dataset
為了證明結(jié)構(gòu)保持損失函數(shù)的有效性,在保持相同實(shí)驗(yàn)環(huán)境和模型參數(shù)設(shè)置的情況下,本文對(duì)損失函數(shù)進(jìn)行了如下消融實(shí)驗(yàn):1)對(duì)抗損失(LA)和L1損失;2)對(duì)抗損失(LA)、L1損失和感知損失(LP);3)對(duì)抗損失(LA)、L1損失和梯度損失(LG);4)對(duì)抗損失(LA)、L1損失、感知損失(LP)和梯度損失(LG),其中,對(duì)抗損失LA和L1損失作為消融實(shí)驗(yàn)的基準(zhǔn),不單獨(dú)對(duì)二者進(jìn)行消融實(shí)驗(yàn)。結(jié)果如圖7 所示。通過(guò)對(duì)比發(fā)現(xiàn),圖7(c)中,僅使用像素?fù)p失(L1損失)和對(duì)抗的損失生成的預(yù)測(cè)深度圖效果最差,邊緣模糊的問(wèn)題較嚴(yán)重,例如椅子、臺(tái)燈和投影儀等邊緣細(xì)節(jié)不能被有效地識(shí)別;圖7(d)中,加入感知損失后,預(yù)測(cè)深度圖場(chǎng)景的整體內(nèi)容更加豐富,更貼近于真實(shí)深度圖,但出現(xiàn)了嚴(yán)重的偽影(天花板和靠椅處);圖7(e)中,桌子、臺(tái)燈和沙發(fā)的邊緣都較為清晰,這是因?yàn)樘荻葥p失可以指導(dǎo)網(wǎng)絡(luò)利用直接傳輸率圖的結(jié)構(gòu)信息生成預(yù)測(cè)深度圖,但依然存在噪聲(相框、墻壁處);圖7(f)中,相比以上消融實(shí)驗(yàn),使用邊緣保持損失(有雙注意力模塊)生成的預(yù)測(cè)深度圖更好地展現(xiàn)了圖像的結(jié)構(gòu)信息(椅子靠背、臺(tái)燈、投影儀)和場(chǎng)景的細(xì)節(jié),局部結(jié)構(gòu)也更精細(xì),在定性消融實(shí)驗(yàn)結(jié)果中取得了最好的效果。
圖7 NYU v2數(shù)據(jù)集上損失函數(shù)的對(duì)比結(jié)果Fig.7 Comparison results of loss functions on NYU v2 dataset
對(duì)于雙注意力模塊,在相同實(shí)驗(yàn)條件下進(jìn)行了消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖8 所示。在沒(méi)有加入注意力模塊的圖8(c)中,沙發(fā)和椅子處的深度值發(fā)生了偏移,表明深度值的連續(xù)性遭到了破壞,且存在偽影問(wèn)題;加入注意力模塊的圖8(d)中,物體的輪廓更清晰,場(chǎng)景中物體的深度值更平滑,說(shuō)明注意力模塊利用了特征之間的長(zhǎng)距離依賴,使得每個(gè)位置都能充分利用上下文信息,從而確保了預(yù)測(cè)深度圖中深度值的連續(xù)性和準(zhǔn)確性。
圖8 NYU v2數(shù)據(jù)集上有無(wú)雙注意力模塊結(jié)果對(duì)比Fig.8 Comparison of results with and without dual attention modules on NYU v2 dataset
為了進(jìn)一步驗(yàn)證本文方法的有效性,將本文方法與文獻(xiàn)[7]方法、文獻(xiàn)[8]方法、文獻(xiàn)[9]方法進(jìn)行對(duì)比實(shí)驗(yàn),所有實(shí)驗(yàn)在相同的設(shè)置下進(jìn)行。NYU v2 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如圖9 所示,定性分析結(jié)果表明,本文的預(yù)測(cè)深度圖保留了物體的清晰輪廓和場(chǎng)景結(jié)構(gòu),如例圖A 中的臺(tái)燈、例圖B 中柜子和例圖D 中的冰箱,這些區(qū)域的局部細(xì)節(jié)和結(jié)構(gòu)更完整,深度值更準(zhǔn)確。在例圖C 中的沙發(fā)區(qū)域,本文方法也保留了更精細(xì)的幾何結(jié)構(gòu)和物體邊界,而其他方法均有不同程度的失真問(wèn)題。以上分析進(jìn)一步表明了本文方法可以有效提取直接傳輸率圖中的結(jié)構(gòu)信息和深度信息,生成高質(zhì)量的預(yù)測(cè)深度圖。
圖9 NYU v2數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比Fig.9 Comparison of experimental results on NYU v2 dataset
對(duì)于NYU Depth v2 數(shù)據(jù)集的定量分析結(jié)果如表1,其中最優(yōu)數(shù)據(jù)加粗表示。與文獻(xiàn)[8]方法相比,LME降低了7%,RMSE降低了10%,精確度(δ<1.25)提高了4%。而就MRE而言,文獻(xiàn)[8]方法具有更低的誤差,這是由于其使用了預(yù)訓(xùn)練的殘差網(wǎng)絡(luò)(ResNet)和Berhu 損失函數(shù),更關(guān)注像素級(jí)的精度。但是從定性分析結(jié)果中可以看出,本文方法的結(jié)果仍具有更精細(xì)的場(chǎng)景結(jié)構(gòu)。對(duì)此現(xiàn)象的解釋是,預(yù)測(cè)圖中場(chǎng)景細(xì)節(jié)的提升不能完全體現(xiàn)在MRE這類像素級(jí)誤差上。在損失函數(shù)的定量消融實(shí)驗(yàn)中,僅使用L1損失和對(duì)抗損失LA的結(jié)果最差,各項(xiàng)指標(biāo)均低于其他組合。這是因?yàn)樵谏蓪?duì)抗網(wǎng)絡(luò)中,L1損失在重建低頻信息時(shí)也會(huì)產(chǎn)生大量的偽影,同時(shí)對(duì)抗損失也會(huì)使得結(jié)構(gòu)發(fā)生畸變,且對(duì)場(chǎng)景結(jié)構(gòu)和細(xì)節(jié)的重建能力較弱。在分別加入感知損失和梯度損失后,各項(xiàng)指標(biāo)有了不同程度的提升,而使用結(jié)構(gòu)保持損失取得的結(jié)果均優(yōu)于其他對(duì)比方法。
表1 NYU v2數(shù)據(jù)集上的評(píng)價(jià)指標(biāo)對(duì)比Tab.1 Comparison of evaluation metrics on NYU v2 dataset
對(duì)于室外數(shù)據(jù)集,結(jié)構(gòu)保持損失各項(xiàng)分量的收斂情況如圖10 所示。對(duì)于L1損失,在前150 個(gè)epoch 訓(xùn)練后基本達(dá)到收斂;對(duì)于梯度損失LG在訓(xùn)練過(guò)程中,從第25 個(gè)epoch 到225 個(gè)epoch 過(guò)程中出現(xiàn)波動(dòng),這是因?yàn)橄噍^于室內(nèi)場(chǎng)景,室外場(chǎng)景具有更復(fù)雜的空間結(jié)構(gòu)和更多樣的場(chǎng)景布局,但在150 個(gè)epoch 之后,隨著學(xué)習(xí)率的下降,梯度損失最終趨于穩(wěn)定;感知損失LP在前50 個(gè)epoch 的訓(xùn)練中收斂速度最快,之后趨于穩(wěn)定??傊?,L1損失、梯度損失LG和感知損失LP在訓(xùn)練到300 個(gè)epoch 時(shí)都趨于收斂,證明了結(jié)構(gòu)保持損失函數(shù)對(duì)生成器起到了監(jiān)督作用。
圖10 DIODE數(shù)據(jù)集上損失函數(shù)的收斂情況Fig.10 Convergence of loss function on DIODE dataset
對(duì)于損失函數(shù)在DIODE 數(shù)據(jù)集上的消融實(shí)驗(yàn),采用與NYU Depth v2 數(shù)據(jù)集相同的實(shí)驗(yàn)參數(shù)設(shè)置和消融實(shí)驗(yàn)設(shè)置,結(jié)果如圖11 所示。需要注意的是,由于室外環(huán)境較為復(fù)雜,為了清晰地看出深度估計(jì)的效果,對(duì)室外結(jié)果進(jìn)行了偽彩色處理。圖11(c)中,樓房、天空和地面出現(xiàn)了大面積的模糊問(wèn)題和深度值預(yù)測(cè)不準(zhǔn)確問(wèn)題,說(shuō)明僅靠L1損失和對(duì)抗損失,本文模型無(wú)法生成準(zhǔn)確的深度圖。圖11(d)和(e)分別為加入了感知損失和梯度損失后的實(shí)驗(yàn)結(jié)果,可以看出遠(yuǎn)處大樓、天空和地面的大面積模糊問(wèn)題得到了改善,場(chǎng)景的細(xì)節(jié)和物體的輪廓(灌木叢和臺(tái)階)也更加清晰,但是在一些物體的細(xì)節(jié)處(天空和樹(shù)木處)依然存在較為嚴(yán)重的偽影。最后,圖11(f)為使用結(jié)構(gòu)保持損失函數(shù)(有雙注意力模塊)訓(xùn)練和測(cè)試的預(yù)測(cè)結(jié)果??梢钥闯?,無(wú)論是樓房的輪廓還是灌木的細(xì)節(jié),在使用結(jié)構(gòu)保持損失后,均取得了更好的結(jié)果,偽影問(wèn)題也得到了有效的解決;物體的細(xì)節(jié)更加清晰;輪廓結(jié)構(gòu)更加完整。表明了結(jié)構(gòu)保持損失中的感知損失可以指導(dǎo)網(wǎng)絡(luò)利用與真實(shí)深度更貼近的高級(jí)語(yǔ)義特征,同時(shí)梯度損失也使網(wǎng)絡(luò)有效地捕獲場(chǎng)景的局部細(xì)節(jié)結(jié)構(gòu)。
圖11 DIODE數(shù)據(jù)集上損失函數(shù)的對(duì)比結(jié)果Fig.11 Comparison results of loss functions on DIODE dataset
雙注意力模塊的消融實(shí)驗(yàn)如圖12 所示。
圖12 DIODE數(shù)據(jù)集上有無(wú)雙注意力模塊結(jié)果的對(duì)比Fig.12 Comparison of results with and without dual attention modules on DIODE dataset
從圖中可以看出,在未加入雙注意力模塊時(shí),如圖12(c)所示,第一張結(jié)果圖中的汽車(chē)結(jié)構(gòu)出現(xiàn)了明顯的退化,還有部分深度信息缺失現(xiàn)象(車(chē)門(mén)處)。第二張圖的樓梯區(qū)域出現(xiàn)了明顯的深度值偏移現(xiàn)象,天空中也出現(xiàn)了嚴(yán)重的偽影。加入了雙注意力模塊后,如圖12(d)所示,上述區(qū)域的結(jié)構(gòu)更加完整,預(yù)測(cè)精度更高,證明雙注意力模塊可以更好地捕獲全局深度信息。
在相同實(shí)驗(yàn)環(huán)境和設(shè)置下,本文將文獻(xiàn)[10]方法、文獻(xiàn)[11]方法和文獻(xiàn)[12]方法在DIODE 數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn),如圖13 所示。定性結(jié)果表明:本文方法相較于其他方法取得了更好的結(jié)果,本文方法可以恢復(fù)清晰的對(duì)象邊界,如汽車(chē)、樹(shù)木甚至微小樹(shù)枝的結(jié)構(gòu),這表明跳躍鏈接在提取深度信息的同時(shí)能有效地利用底層結(jié)構(gòu)信息;而對(duì)比其他方法,如例圖A 中的汽車(chē)和例圖C 中的樹(shù)冠均存在不同程度的結(jié)構(gòu)退化問(wèn)題。對(duì)于平面區(qū)域,如例圖B 中的地面、例圖C中的樓房和例圖D 中的房檐,本文方法在這些區(qū)域的預(yù)測(cè)深度圖更平整,角落和邊緣細(xì)節(jié)更完整;而文獻(xiàn)[11]方法和文獻(xiàn)[12]方法則存在預(yù)測(cè)不準(zhǔn)確和偽影問(wèn)題。進(jìn)一步分析例圖B 中,文獻(xiàn)[10]方法和文獻(xiàn)[11]方法在左側(cè)的房屋處均出現(xiàn)了不同程度的深度值偏移現(xiàn)象;文獻(xiàn)[12]方法在天空處出現(xiàn)了偽影。通過(guò)對(duì)比表明本文方法能夠捕捉到直接傳輸率圖中的結(jié)構(gòu)特征,從而在霾干擾下生成細(xì)節(jié)較為清晰的預(yù)測(cè)深度圖。
圖13 DIODE數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比Fig.13 Experimental results comparison on DIODE dataset
對(duì)于定量分析,損失函數(shù)消融實(shí)驗(yàn)、雙注意力模塊消融實(shí)驗(yàn)、其他文獻(xiàn)方法對(duì)比實(shí)驗(yàn),在DIODE 數(shù)據(jù)集上的結(jié)果如表2 所示。本文方法(有雙注意力模塊)相較于文獻(xiàn)[10]方法,MRE誤差指標(biāo)降低了1%,精確度(3 個(gè)閾值)分別提高了8%、2%和1%。對(duì)于損失函數(shù)消融實(shí)驗(yàn),結(jié)構(gòu)保持損失在各項(xiàng)指標(biāo)上均優(yōu)于其他對(duì)比實(shí)驗(yàn),L1+LA的結(jié)果最差,加入感知損失和梯度損失后,各指標(biāo)數(shù)據(jù)有不同程度的改善。最后,在加入雙注意模塊后,誤差指標(biāo)降低,精確度有所提高。
表2 DIODE數(shù)據(jù)集上的評(píng)價(jià)指標(biāo)對(duì)比Tab.2 Evaluation metrics comparison on DIODE dataset
通過(guò)定性和定量的結(jié)果分析對(duì)比,在模擬霾環(huán)境中,使用合成霾圖進(jìn)行實(shí)驗(yàn),本文在室內(nèi)環(huán)境(NYU Depth v2 數(shù)據(jù)集)和室外環(huán)境(DIODE 數(shù)據(jù)集)中已取得了較好的深度估計(jì)效果,表明了本文方法的優(yōu)越性;但是為了進(jìn)一步驗(yàn)證本文方法在真實(shí)霾環(huán)境中的有效性和泛化能力,使用真實(shí)霾環(huán)境中的霾圖對(duì)本文方法進(jìn)行了進(jìn)一步的評(píng)估,并將文獻(xiàn)[10]方法、文獻(xiàn)[11]方法、文獻(xiàn)[12]方法與本文方法的實(shí)驗(yàn)結(jié)果進(jìn)行了對(duì)比分析,所有實(shí)驗(yàn)保持相同實(shí)驗(yàn)設(shè)置。
由于在真實(shí)環(huán)境中,霾天氣大多出現(xiàn)在室外,所以僅使用室外真實(shí)霾環(huán)境中的霾圖進(jìn)行測(cè)試和分析。定性分析結(jié)果如圖14 所示,可以看出,由于受到霾的干擾,對(duì)比方法在例圖A 中的樹(shù)枝、例圖B 中遠(yuǎn)處的房屋和例圖C 的柵欄處這些局部細(xì)節(jié)出現(xiàn)了不同程度的深度值丟失問(wèn)題,無(wú)論是文獻(xiàn)[10]方法的增量離散化模型、文獻(xiàn)[11]方法的級(jí)聯(lián)條件生成對(duì)抗網(wǎng)絡(luò)還是文獻(xiàn)[12]方法的深度卷積神經(jīng)場(chǎng)模型均出現(xiàn)了不同程度的退化。此外,例圖A 中,本文方法在灌木處的預(yù)測(cè)結(jié)果具有更完整的局部結(jié)構(gòu)和更精細(xì)的邊緣輪廓,這是因?yàn)榻Y(jié)構(gòu)保持損失可以指導(dǎo)生成器從梯度空間中學(xué)習(xí)深度值變化明顯的邊緣區(qū)域;例圖B 中,其他對(duì)比文獻(xiàn)方法的結(jié)果在地面處均出現(xiàn)了深度值不連續(xù)現(xiàn)象,這是因?yàn)槟P褪荟哺蓴_,導(dǎo)致網(wǎng)絡(luò)無(wú)法捕獲局部特征依賴;例圖C 中,其他文獻(xiàn)方法在左下角的地面處出現(xiàn)了深度值偏移問(wèn)題和大面積的偽影問(wèn)題。本文方法的預(yù)測(cè)結(jié)果如圖14(e),可以看出,無(wú)論是深度值的準(zhǔn)確性還是場(chǎng)景的細(xì)節(jié)結(jié)構(gòu),本文的預(yù)測(cè)結(jié)果都有明顯的改進(jìn),也有效地緩解了深度值不連續(xù)問(wèn)題。需要注意的是,由于真實(shí)霾環(huán)境中的霾圖沒(méi)有對(duì)應(yīng)的真實(shí)深度圖,所以無(wú)法通過(guò)MRE、RMSE、RMSElog和精確度進(jìn)行定量分析。通過(guò)以上分析得出,本文方法能夠在真實(shí)霾環(huán)境中取得良好的深度估計(jì)結(jié)果,這是因?yàn)镈enseUnet 在加深網(wǎng)絡(luò)深度的同時(shí)可以有效利用霾圖直接傳輸率圖的底層特征,而其他對(duì)比方法的模型受到霾干擾時(shí),模型無(wú)法從降質(zhì)的圖像提取有效的特征。本文的雙注意力模塊可以捕獲局部特征的長(zhǎng)距離依賴,解決了深度不連續(xù)問(wèn)題;此外,也證明了本文提出的結(jié)構(gòu)保持損失函數(shù)可以對(duì)生成器提取場(chǎng)景結(jié)構(gòu)信息提供有效的監(jiān)督。
圖14 真實(shí)霾圖的實(shí)驗(yàn)結(jié)果對(duì)比Fig.14 Comparison of experimental results of real haze images
本文針對(duì)霾環(huán)境下傳統(tǒng)深度估計(jì)模型無(wú)法準(zhǔn)確獲取場(chǎng)景深度的問(wèn)題,提出了一種基于條件生成對(duì)抗網(wǎng)絡(luò)的霾圖像深度估計(jì)方法,使用霾圖像的直接傳輸率圖作為網(wǎng)絡(luò)的約束條件,通過(guò)對(duì)抗學(xué)習(xí)進(jìn)行霾條件下的深度估計(jì)。對(duì)于生成器,為了應(yīng)對(duì)卷積和池化造成的低級(jí)視覺(jué)特征丟失問(wèn)題,本文將DenseNet 和U-net 結(jié)合,密集連接和跳躍連接使解碼器可以利用低級(jí)結(jié)構(gòu)特征更好地生成預(yù)測(cè)深度圖;此外,加入了雙注意力模塊,分別在空間和通道維度自適應(yīng)地捕獲局部特征依賴,提高了預(yù)測(cè)深度圖的質(zhì)量;并提出結(jié)構(gòu)保持損失函數(shù),使得預(yù)測(cè)深度圖具有更清晰的物體邊界和更精細(xì)的局部細(xì)節(jié)。在室內(nèi)數(shù)據(jù)集、室外數(shù)據(jù)集和真實(shí)霾圖上的實(shí)驗(yàn)結(jié)果表明,本文方法無(wú)論在定量分析還是定性評(píng)價(jià)方面,均取得了較好的效果,證明了本文方法對(duì)恢復(fù)深度圖清晰邊界和精細(xì)局部細(xì)節(jié)的能力,也表明了本文方法的泛化能力。最后,提升直接傳輸率圖的質(zhì)量是提高本文模型深度估計(jì)質(zhì)量的關(guān)鍵問(wèn)題之一,在后續(xù)工作中,將考慮將直接傳輸率圖的估計(jì)納入到生成器中,設(shè)計(jì)單獨(dú)的網(wǎng)絡(luò)模型更準(zhǔn)確地估計(jì)直接傳輸率圖。