唐凌峰,黃歡,張亞飛,李凡
昆明理工大學信息工程與自動化學院,昆明 650500
高動態(tài)范圍(high dynamic range,HDR)成像旨在有效地捕捉和顯示自然場景的照明。由于標準數(shù)碼相機受限于設(shè)備傳感器的性能,只能捕獲有限動態(tài)范圍內(nèi)的光強,導致拍攝圖像中出現(xiàn)過亮或過暗的區(qū)域,不能很好地反映出人眼在自然場景中感知到的明亮或黑暗區(qū)域的細節(jié)。雖然利用專業(yè)成像設(shè)備可以直接獲取HDR圖像,但這些設(shè)備通常十分昂貴,大多數(shù)用戶無法負擔。因此,利用HDR重建算法(范逵和周曉波,2014;朱雄泳 等,2018),即從傳統(tǒng)數(shù)碼相機捕獲的圖像中恢復出HDR圖像的方法十分流行。
一些研究者試圖利用單幅低動態(tài)范圍(lour dynamic range,LDR)圖像生成HDR圖像(Eilertsen等,2017;Liu等,2020)。由于照相機傳感器在捕獲信息時存在量化誤差和飽和工作區(qū)間,只利用單幅圖像的信息難以達到較好的重建效果。具有不同曝光度的LDR圖像分別包含了不同動態(tài)區(qū)間下的信息。因此,融合同一場景下的多幅不同曝光LDR圖像可以重建出更高動態(tài)范圍的圖像。然而,現(xiàn)實生活中拍攝一組圖像通常會存在相機位置的偏移、前景物體的移動以及飽和等現(xiàn)象。由于待融合圖像的像素在空間位置上未對齊,會造成重建HDR圖像出現(xiàn)鬼影、噪聲和模糊的現(xiàn)象。為了解決這些問題,一些傳統(tǒng)方法(Zimmer等,2011;Xu等,2010)試圖使用光流法(Kang等,2003)先對LDR圖像進行預先配準,然后進行融合。Gallo等人(2009)先檢測運動區(qū)域,再預測由物體運動而導致的信息不一致區(qū)域,并將其摒棄來解決空間信息誤對齊的問題?;谏疃葘W習的HDR重建方法(Liu等,2020;Yan等,2019b)通常具有更強的恢復細節(jié)能力,但由于缺少對輸入圖像特征的有效挖掘和利用,阻礙了HDR圖像質(zhì)量的進一步提升。如Kalantari和Ramamoorthi(2017)利用光流法將輸入圖像與參考圖像進行對齊,然后通過一系列卷積層對圖像直接進行融合。Wu等人(2018)先利用單應性變換(homography transformation)對圖像進行整體對齊,然后用基于U-Net或ResNet的網(wǎng)絡(luò)架構(gòu)來融合LDR圖像。Yan等人(2020)僅從單一維度建立特征的相互關(guān)系,沒有充分突出特征中的有效信息。現(xiàn)有基于注意力機制的方法雖然有一定效果,但由于沒有充分考慮特征空間維度和通道維度的相互關(guān)系,因此在抑制鬼影、保持和恢復細節(jié)信息方面仍然存在很大的提升空間,如圖1所示。
圖1 不同HDR重建方法成像結(jié)果對比Fig.1 Comparison results of different HDR methods
本文方法著重解決因圖像像素的未對齊而導致融合結(jié)果出現(xiàn)的“鬼影”、過曝光/欠曝光區(qū)域細節(jié)信息難以恢復以及融合過程中源圖像邊緣細節(jié)容易丟失的問題。為了解決上述問題,提出了一種空間感知通道注意力引導的HDR重建方法。
本文方法充分考慮了圖像特征的空間相關(guān)性和特征通道的相關(guān)性,設(shè)計了空間感知通道注意力機制。這樣一種集成式的設(shè)計,在挖掘通道上下文關(guān)系的過程中,通過提取特征通道維度的全局信息和顯著信息, 進一步強化特征的空間關(guān)系,實現(xiàn)對誤對齊區(qū)域信息的進一步抑制以及有效信息的增強。此外,為強化網(wǎng)絡(luò)挖掘輸入圖像中有益信息的能力,本文提出了多尺度信息重建模塊,在增大網(wǎng)絡(luò)感受野的同時,凸顯了特征空間維度的顯著信息,充分利用了不同尺度特征的上下文信息。這不僅有助于保留輸入LDR圖像的更多細節(jié),還有助于恢復飽和區(qū)域丟失的信息。如圖1所示,本文模型能構(gòu)建出更高質(zhì)量的HDR圖像。為了評估本文方法的性能,在公開HDR數(shù)據(jù)集上將本文方法與其他HDR重建方法進行了比較,實驗結(jié)果證明了本文方法的有效性和優(yōu)越性。綜上所述,本文的主要貢獻包括:
1)提出一種全新的空間感知通道注意力機制。該機制在空間注意力的基礎(chǔ)上,通過提取特征通道維度的全局信息和顯著信息,進一步增強了有效區(qū)域信息在重構(gòu)HDR圖像中的作用,充分考慮了不同位置和不同通道特征之間的相關(guān)性和差異性。在抑制鬼影的同時增強了特征中有效信息的作用。
2)設(shè)計多尺度信息重建模塊。該模塊有助于增大網(wǎng)絡(luò)感受野,強化特征空間維度的顯著信息,還能充分利用不同尺度特征的上下文語義信息,來重構(gòu)最終的HDR圖像。實現(xiàn)保留圖像細節(jié)的同時,有效恢復出飽和區(qū)域丟失的信息。
3)構(gòu)建端到端HDR重建框架。該框架無需對圖像進行預先配準,并在公開HDR數(shù)據(jù)集上取得了有競爭力的性能,充分證明了本文方法的有效性和優(yōu)越性。
基于對齊的方法通常在進行多曝光圖像融合之前,對LDR圖像先進行對齊處理。Ward(2003)提出通過二值圖計算整體像素偏移量來對齊偏移的圖像。Zimmer等人(2011)提出基于光流的方法來對齊圖像,但沒有很好地利用未對齊部分的HDR內(nèi)容。為增強融合結(jié)果中的圖像細節(jié),Sen等人(2012)提出通過優(yōu)化基于圖像塊(patch-based)的能量最小化函數(shù)(energy-minimization formulation),來解決對齊問題。這類方法通常在復雜場景以及圖像之間存在目標物的大幅度移動時,對齊效果并不理想,導致融合結(jié)果中仍然有鬼影的存在。
基于運動檢測的方法假定多幅LDR圖像可以在最終的HDR圖像中配準,并把LDR中的像素劃分為偏移的像素和未偏移的像素來分別處理。Jinno和Okuda(2008)提出通過馬爾可夫隨機場預估出現(xiàn)的位移、遮擋和飽和的區(qū)域,并將這些區(qū)域的信息在最終的HDR圖像中排除掉。Raman和Chaudhuri(2011)提出利用超像素分組(superpixel grouping)來檢測場景的變化,并將信息不一致的塊舍棄掉,以緩解HDR重建過程中可能出現(xiàn)的鬼影。Zheng等人(2013)提出使用模板匹配和空洞填充來檢測和消除出現(xiàn)偏移的像素,以達到消除鬼影的目的。這類方法在運動區(qū)域處重構(gòu)出的信息通常是低動態(tài)范圍的,因為它們只是摒棄掉運動區(qū)域的內(nèi)容,而沒有充分利用運動區(qū)域所包含的信息。
深度學習技術(shù)通過端到端的訓練讓網(wǎng)絡(luò)學習如何重建HDR圖像。基于深度神經(jīng)網(wǎng)絡(luò)的方法通常包括兩類實現(xiàn)HDR圖像的方式:1)從單幅LDR圖像中重構(gòu)出HDR圖像。2)通過融合多幅具有不同曝光水平的LDR圖像重構(gòu)HDR圖像。在第1種方法中,Eilertsen等人(2017)設(shè)計了一個深度自編碼器網(wǎng)絡(luò),旨在恢復出飽和區(qū)域丟失的信息,增強重構(gòu)圖像的細節(jié)表現(xiàn)。由于相機成像過程中有些步驟會造成信息丟失,F(xiàn)otiadou等人(2020)通過稀疏自編碼器從圖像塊的特征中建模不同的曝光條件,再利用模擬出的不同曝光水平從單幅LDR圖像重建出HDR圖像。
在第2種方法中,Kalantari和Ramamoorthi(2017)提出先用光流法對齊輸入的圖片,再用深度神經(jīng)網(wǎng)絡(luò)來預測重建的HDR圖像。然而,這種方法需要對圖像進行預處理,并且難以消除由于光流方法的局限性帶來的誤對齊。Wu等人(2018)從圖像轉(zhuǎn)化角度提出利用深度編碼解碼網(wǎng)絡(luò)恢復出HDR圖像的細節(jié)。但網(wǎng)絡(luò)對抑制鬼影的魯棒性不強。為進一步消除鬼影帶來的影響,Yan等人(2019a)通過簡單注意力機制構(gòu)建特征空間位置關(guān)系,沒有考慮特征通道間的關(guān)系。Yan等人(2020)又提出利用特征的空間相關(guān)性引導網(wǎng)絡(luò)恢復出被遮擋區(qū)域的細節(jié)。但重建網(wǎng)絡(luò)恢復圖像細節(jié)能力有限。這些方法雖然能有效提升重構(gòu)圖像的質(zhì)量,但在對飽和區(qū)域丟失細節(jié)的恢復或大尺度移動而引入的鬼影抑制方面,仍然存在較大的提升空間。
本文方法框架如圖2所示,主要包括特征提取網(wǎng)絡(luò)、空間感知通道注意力網(wǎng)絡(luò)、多尺度信息重建網(wǎng)絡(luò)。其中,特征提取網(wǎng)絡(luò)主要負責從輸入的圖像中提取出包含不同層次信息的特征;空間感知通道注意力網(wǎng)絡(luò)用于凸顯有助于提升圖像質(zhì)量的信息,避免鬼影效應對融合結(jié)果的影響;多尺度信息重建網(wǎng)絡(luò)利用特征在空間層面的重構(gòu)來增大提取特征的感受野,這有助于在更大的感受野內(nèi)提取有效信息,并實現(xiàn)過/欠曝光和運動區(qū)域丟失細節(jié)信息的恢復。
圖2 本文方法框架Fig.2 The framework of the proposed method
給定一組動態(tài)場景下多曝光LDR圖像{x1,x2,x3}。HDR圖像重構(gòu)的目標是根據(jù)輸入的非參考圖像{x1,x3},重構(gòu)出一幅與選定的參考圖像x2對齊的HDR圖像,并且該圖像包含了非參考圖像{x1,x3}的細節(jié)信息。在待融合圖像{x1,x2,x3}輸入網(wǎng)絡(luò)之前,本文根據(jù)Kalantari和Ramamoorthi(2017)方法的設(shè)定,先用gamma校正函數(shù)對LDR圖像{x1,x2,x3}預處理,得到對應的HDR圖像{H1,H2,H3},其中Hi可表示為
(1)
式中,γ>1表示gamma校正參數(shù),ti為LDR圖像xi的曝光時間。根據(jù)Kalantari和Ramamoorthi(2017),設(shè)γ=2.2,并將xi和Hi在通道上拼接起來,得到一個6通道的張量Xi=[Hi,xi],i∈{1,2,3}作為網(wǎng)絡(luò)的輸入。
如圖2所示,特征提取網(wǎng)絡(luò)由4個3×3卷積層組成,每個卷積層輸出的特征均為16通道。對于輸入Xi∈RH×W×6(i=1,2,3),第l個卷積層的輸出可以表示為
(2)
式中,Conv表示卷積,k表示卷積核的尺寸,l∈{1,2,3,4}表示卷積層的序號。特征提取網(wǎng)絡(luò)最后輸出的特征Fi∈RH×W×64可表示為
(3)
式中,concat表示特征間的拼接操作。
圖3 空間感知通道注意力機制結(jié)構(gòu)示意圖Fig.3 The structure of our spatial aware channel attention mechanism
(4)
式中,⊙表示哈達瑪積。
(5)
(6)
(7)
Li等人(2021)提出通過計算特征圖與圖像的高級語義表示之間的關(guān)系來探索空間上下文。由于圖像的高級語義表示不能保留原始特征圖的像素級信息,因此在HDR重建任務中,高維特征圖與圖像的高級語義表示之間的關(guān)系無法充分表達原始特征維度的空間依賴。與Li等人(2021)使用的通道上下文模塊不同,本文方法提出一種集成式的設(shè)計,在預測通道間的相互依賴關(guān)系時,通過提取特征的全局信息和顯著信息進一步強化特征的空間關(guān)系,增強鬼影抑制能力。這一機制不僅可以有效抑制由于嚴重飽和以及物體運動造成的鬼影,還有助于突出與參考圖像互補的特征,重建高質(zhì)量的HDR圖像。
由于LDR圖像中存在移動物體的遮擋和飽和區(qū)域,HDR圖像一些局部區(qū)域在重建時無法從源圖像對應位置的相鄰區(qū)域獲得充分的有用信息。所以需要增大網(wǎng)絡(luò)感受野來捕獲更多HDR重建時所需要的細節(jié)信息。為此,本文提出了多尺度信息重建模塊(multiscale information reconstruction module,MIM)。該模塊的具體結(jié)構(gòu)如圖4所示。該模塊通過對特征分別進行全局平均池化和全局最大池化操作,在提取全局信息和顯著信息的同時,增大重建網(wǎng)絡(luò)的感受野,并捕獲不同尺寸特征中包含的上下文信息。上采樣操作則可以讓網(wǎng)絡(luò)將全局上下文信息傳播到更高分辨率的特征中去。高層特征有助于削弱鬼影,而低層次特征中則包含更豐富的細節(jié)信息。因此,為了避免淺層特征中細節(jié)信息的丟失,在多尺度信息重建模塊中還加入了跳躍連接,將下采樣層的特征傳遞到對應上采樣層的輸入位置。
Fl1=Conv(concat(Fg1,Fh1),k=1)
(8)
圖4 多尺度信息重建模塊結(jié)構(gòu)示意圖Fig.4 The structure of our multiscale information reconstruction module
特征Fl1∈RH/2×W/2×C分別經(jīng)過全局平均池化和全局最大池化操作后得到的特征可表示為Fg2∈RH/4×W/4×C和Fh2∈RH/4×W/4×C。將得到的特征拼接,經(jīng)過1×1卷積后可得到
Fl2=Conv(concat(Fg2,Fh2),k=1)
(9)
對Fl2∈RH/4×W/4×C經(jīng)過雙線性插值上采樣到Fl1相同的尺寸后,與經(jīng)過3×3卷積層進一步特征提取的特征Fl1進行逐元素相加,即
(10)
FMIM=Upsample(F′l1)+F′SACA
(11)
(12)
(13)
結(jié)構(gòu)相似度(structural similarity,SSIM)可以度量兩幅圖像之間的結(jié)構(gòu)信息的相似性,其數(shù)值越大表示兩幅圖像結(jié)構(gòu)信息就越相似。為保證重構(gòu)圖像與標簽圖像具有較強的結(jié)構(gòu)相似性,防止結(jié)構(gòu)信息的丟失,使用如下的結(jié)構(gòu)相似度損失來對模型進行優(yōu)化,即
(14)
綜上,總的損失函數(shù)可以表示為
L=Lpixel+LSSIM
(15)
1)訓練數(shù)據(jù)。當前已提出了一些HDR數(shù)據(jù)集,如Kalantari dataset(Kalantari和Ramamoorthi,2017)、Tursun dataset(Tursun等,2016)和Sen dataset(Sen等,2012)。為了達到更好的性能,選擇使用帶標簽的數(shù)據(jù)集Kalantari來訓練本文網(wǎng)絡(luò)。Kalantari包括拍攝于不同場景下的74組訓練樣本和15組測試樣本。每組樣本中包含同一場景下的3幅LDR圖像和對應的曝光偏差,以及該場景下的標簽HDR圖像。樣本中每一幅圖像的尺寸都為1 500×1 000像素。實驗中設(shè)定具有中等曝光程度的圖片作為參考圖像,其余的2幅為非參考圖像。由于該數(shù)據(jù)集的訓練集僅包含74個樣本,在訓練階段將訓練樣本中的圖片隨機裁剪成512×512像素,并對裁剪好的圖像塊使用水平翻轉(zhuǎn)和垂直翻轉(zhuǎn)來避免過擬合。
2)測試數(shù)據(jù)。在測試階段使用了3個測試集對模型性能進行評估。包括Kalantari數(shù)據(jù)集的測試集、Sen數(shù)據(jù)集和Tursun數(shù)據(jù)集。其中Kalantari測試集的15組測試樣本包含標簽,用該數(shù)據(jù)集計算模型的定量指標。Sen數(shù)據(jù)集和Tursun數(shù)據(jù)集不包含標簽圖像,這兩個數(shù)據(jù)集場景下的圖像用于定性評估,同時進一步驗證模型的泛化性能。
為評價不同方法得到結(jié)果的質(zhì)量,采用PSNR-L(peak signal to noise ratio-linear domain),SSIM-L(structural similarity-linear domain),PSNR-μ(peak signal to noise ratio-tonemapped domain),SSIM-μ(structural similarity-tonemapped domain),HDR-VDP-2(Mantiuk等,2011)作為重構(gòu)結(jié)果客觀評價指標。PSNR-L表示線性HDR域中標簽HDR圖像與網(wǎng)絡(luò)輸出之間的峰值信噪比。PSNR-μ表示μ-law域中標簽HDR圖像與網(wǎng)絡(luò)輸出之間的峰值信噪比。SSIM-L與SSIM-μ則分別表示線性HDR域與μ-law域中標簽HDR圖像與網(wǎng)絡(luò)輸出之間的結(jié)構(gòu)相似度。HDR-VDP-2(Mantiuk等,2011)用來度量不同亮度條件下重構(gòu)的HDR圖像的可見性和質(zhì)量。
使用PyTorch實現(xiàn)提出的網(wǎng)絡(luò)框架,訓練和測試實驗環(huán)境為Ubuntu20.04,實驗設(shè)備搭載 Nvidia GeForce RTX 3090和64 GB內(nèi)存。訓練階段,使用Adam優(yōu)化器優(yōu)化網(wǎng)絡(luò),優(yōu)化器參數(shù)β1 =0.9,β2 =0.999。批大小設(shè)置為2。采用使用warm-up學習率調(diào)整策略,初始學習率設(shè)置為10-3,持續(xù)到第1 500代衰減為10-4,到第2 500代衰減為10-5,并保持學習率為10-5直至訓練結(jié)束。模型總共訓練5 900代。
為驗證本文方法的有效性,將本文方法與當前最新的幾種方法在Kalantari測試集(Kalantari和Ramamoorthi,2017)、Sen數(shù)據(jù)集以及Tursun數(shù)據(jù)集上進行了實驗對比。對比方法包括3種流行的HDR重建方法:基于補丁的方法Sen(Sen等,2012);基于單幀重建的方法HDRCNN(Eilertsen等,2017)和SingleHDR(Liu等,2020);基于深度神經(jīng)網(wǎng)絡(luò)的方法Kalantari(Kalantari和Ramamoorthi,2017)、DeepHDR(Wu等,2018)、AHDRNet(Yan等,2019a)和NHDRRNet(Yan等,2020)。需要說明的是,Kalantari的方法在圖像輸入網(wǎng)絡(luò)前需要使用光流法對圖像進行對齊預處理,DeepHDR需要先用單應性變換(homography transformation)對齊輸入圖像的背景。AHDRNet、NHDRRNet以及本文方法在測試時則不需要對圖像進行任何預處理。本文中所展示的HDR圖像均使用Photomatix(Wu等,2018)進行色調(diào)映射。
3.4.1 定量分析
在有標簽圖像的Kalantari測試集下對不同方法進行了定量評估。各方法所有結(jié)果在各項評價指標下的平均值如表1所示。各項指標數(shù)值越高表示重構(gòu)圖像的質(zhì)量越好。從表1定量評價結(jié)果可以看出,本文SCAMNet更具優(yōu)勢。雖然DeepHDR和NHDRRNet也采用了多尺度特征融合,但集成空間感知通道注意力的SCAMNet獲得了更好的性能。而Sen和Kalantari方法通常會在圖像局部區(qū)域引入鬼影。HDRCNN和SingleHDR易在過飽和區(qū)域引入噪聲。
3.4.2 標簽數(shù)據(jù)集融合結(jié)果的視覺效果分析
圖5和圖6展示了不同方法在Kalantari測試集上的重構(gòu)結(jié)果。兩組測試樣本均存在大范圍前景目標物的運動以及局部區(qū)域的過/欠曝光。其中,圖5(a)—(c)和圖6(a)—(c)為LDR圖像。圖5(d)—(k)和6(d)—(k)為不同方法得到的HDR圖像(色調(diào)映射后)的效果比較。為了便于觀察,將每幅圖像的對應標記區(qū)域進行了放大,并將其置于每幅圖像的右上角和右下角。從圖5(d)可以看出,融合結(jié)果不僅細節(jié)恢復不理想,而且還引入了畸變(如紅色和綠色標注區(qū)域所示),這主要是因為基于塊的方法在對飽和區(qū)域進行塊關(guān)系匹配時出現(xiàn)了誤差。從圖6(d)可以看出,雖然Sen方法能夠重構(gòu)出質(zhì)量較高的HDR圖像,但在部分區(qū)域(如樹枝、手臂汗毛)對細節(jié)信息的恢復仍然不夠理想。
表1 Kalantari測試集上不同HDR重建方法評價指標結(jié)果Table 1 Results of different methods for Kalantari testing dataset
圖5 不同方法在Kalantari測試集中Parking-one場景下所得結(jié)果的視覺效果展示Fig.5 Visual effect display of results obtained by different methods on scene Parking-one in Kalantari testset((a)LDR1; (b)LDR2; (c)LDR3; (d)Sen; (e)HDRCNN; (f)SingleHDR; (g)Kalantari;(h)DeepHDR; (i)AHDRNet; (j)NHDRRNet; (k)ours; (l)ground truth)
圖6 不同方法在Kalantari測試集中Parking-two場景下所得結(jié)果的視覺效果展示Fig.6 Visual effect display of results obtained by different methods on scene Parking-two in kalantari testset((a)LDR1; (b)LDR2; (c)LDR3; (d)Sen; (e)HDRCNN; (f)SingleHDR; (g)Kalantari;(h)DeepHDR; (i)AHDRNet; (j)NHDRRNet; (k)ours; (l)ground truth)
基于單幀重建的方法HDRCNN和SingleHDR雖然能在一定程度上避免鬼影和畸變信息的引入,但無法從非參考圖像中獲取必要的信息來重構(gòu)邊緣細節(jié),且存在著較為明顯的顏色扭曲。從圖5(g)的紅色和圖6(g)紅色、綠色標注區(qū)域可以看出,基于光流法的Kalantari輸出結(jié)果出現(xiàn)了鬼影以及細節(jié)信息的丟失,這是由于Kalantari的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)結(jié)構(gòu)過于簡單,不能很好地解決因為光流法引入的誤對齊。
雖然DeepHDR和NHDRRNet產(chǎn)生的結(jié)果整體效果較好,但從圖5(h)(j) 綠色框標注的區(qū)域可以看出,手臂處出現(xiàn)了輕微的鬼影。同時,在圖6(h)(j)的綠色標注區(qū)域沒有很好地恢復出飽和區(qū)域物體的細節(jié)。AHDRNet和NHDRRNet雖然引入了注意力機制,在一定程度上緩解了鬼影現(xiàn)象,但由于沒有考慮特征通道維度的相關(guān)性,不能充分突出有效信息的作用,因此重建的結(jié)果中仍然存在過飽和區(qū)域。在圖5(i) 的紅色框標注區(qū)域和圖6(i)的綠色框標注區(qū)域內(nèi)依然存在輕微的模糊和過飽和現(xiàn)象。與這些方法相比,由于本文方法從空間和通道兩個維度同時突出了有益信息作用,并充分挖掘了多尺度特征信息,因此本文方法不僅能有效抑制鬼影的產(chǎn)生,而且還更有效地恢復出了清晰的圖像細節(jié)。
3.4.3 無標簽數(shù)據(jù)集融合結(jié)果的視覺效果分析
為驗證模型的泛化能力,本文在Sen和Tursun兩個無標簽的數(shù)據(jù)集上對不同方法的性能進行了對比。每一個數(shù)據(jù)集展示了兩個場景下的融合結(jié)果。圖7和圖8為Sen數(shù)據(jù)集兩個場景下不同方法融合結(jié)果比較。從圖7(a)紅色放大區(qū)域可以看出,融合結(jié)果沒能有效地恢復出清晰的圖像細節(jié)。同時,該方法在圖8(a)的紅色和綠色放大區(qū)域內(nèi),在眼鏡和下頜處引入了輕微噪聲。這是因為基于塊(patch)的方法Sen無法準確找到與飽和區(qū)域信息對應的塊。
基于單幀重建方法HDRCNN和SingleHDR,因無法綜合其他LDR圖像的信息,導致其恢復的圖像局部細節(jié)不清晰并且沒有呈現(xiàn)較好的高動態(tài)范圍效果。由于Kalantari在預先進行的光流對齊步驟中出現(xiàn)的偏差導致圖8(d) 標注區(qū)域內(nèi)引入了鬼影。此外,從圖7(e)(g)的標注區(qū)域可以看出,DeepHDR和NHDRRNet不僅沒能實現(xiàn)丟失細節(jié)的恢復,還導致了顏色的畸變和輕微鬼影。這是因為DeepHDR和NHDRRNet沒能充分突出有效信息在圖像重建過程中的作用。圖7(f)中AHDRNet重建結(jié)果對局部細節(jié)的恢復并不理想,這是因為AHDRNet沒能充分挖掘不同尺寸特征中包含的上下文信息,導致細節(jié)信息流失。相比而言,本文方法通過空間感知通道注意力機制有效增強了非參考圖像中的有效信息,識別并抑制了誤對齊區(qū)域的信息,因此能重構(gòu)出無鬼影的HDR圖像。
圖9和圖10給出了不同方法在Tursun數(shù)據(jù)集的兩個場景下的重構(gòu)結(jié)果。從這些結(jié)果可以看出,基于塊匹配的方法Sen在圖9(a)和圖10 (a)中均引入了輕微鬼影,影響了重構(gòu)結(jié)果的視覺效果。這是因為塊匹配的過程中可能無法準確找到與飽和區(qū)域信息對應的塊。方法HDRCNN和SingleHDR均造成了重構(gòu)結(jié)果顏色的畸變和細節(jié)信息的損失。如圖9(d)和圖10(d)所示,Kalantari方法的重構(gòu)結(jié)果出現(xiàn)了輕微的鬼影,原因是該方法不能很好地解決因為光流法引入的誤對齊。雖然DeepHDR、AHDRNet和NHDRRNet等基于深度學習的方法能取得不錯的效果,但依然會在局部區(qū)域引入鬼影,并且對細節(jié)信息的恢復也有提升空間。這是因為這些方法沒能充分凸顯對重構(gòu)圖像有益信息的作用和挖掘不同尺度特征中的上下文語義信息。從圖9(h)和圖10 (h)中可以看出,本文方法較為真實地重構(gòu)了場景的結(jié)構(gòu),并清晰地恢復出了圖像的細節(jié),有效地避免了鬼影的產(chǎn)生。
圖7 不同方法在Sen數(shù)據(jù)集中BabyOnGrass場景下所得結(jié)果的視覺效果展示Fig.7 Visual effect display of results obtained by different methods on scene BabyOnGrass in Sen dataset((a)Sen; (b)HDRCNN; (c)SingleHDR; (d)Kalantari; (e)DeepHDR; (f)AHDRNet; (g)NHDRRNet; (h)ours)
圖8 不同方法在Sen數(shù)據(jù)集中LadyEating場景下所得結(jié)果的視覺效果展示Fig.8 Visual effect display of results obtained by different methods on scene LadyEating in Sen dataset((a)Sen; (b)HDRCNN; (c)SingleHDR; (d)Kalantari; (e)DeepHDR; (f)AHDRNet; (g)NHDRRNet; (h)ours)
圖9 不同方法在Tursun數(shù)據(jù)集中Plants場景下所得結(jié)果的視覺效果展示Fig.9 Visual effect display of results obtained by different methods on scene Plants in Tursun dataset((a)Sen; (b)HDRCNN; (c)SingleHDR; (d)Kalantari; (e)DeepHDR; (f)AHDRNet; (g)NHDRRNet; (h)ours)
圖10 不同方法在Tursun數(shù)據(jù)集中Museum1場景下所得結(jié)果的視覺效果展示Fig.10 Visual effect display of results obtained by different methods on scene Museum1 in Tursun dataset((a)Sen; (b)HDRCNN; (c)SingleHDR; (d)Kalantari; (e)DeepHDR; (f)AHDRNet; (g)NHDRRNet; (h)ours)
本文通過消融實驗驗證了不同模塊的重要性。實驗中,把去除了SACAM和MIM的模型作為“Baseline”。將Baseline中添加了通道注意力的模型命名為“Baseline+CA”, 將“Baseline+CA”中的CA替換成SACAM的模型稱之為“Baseline+ SACAM”, “Baseline+ SACAM”中添加了MIM的模型稱之為“Baseline+SACAM +MIM”。圖11給出了模型在不同設(shè)置條件下得到結(jié)果的局部視覺效果對比。
3.5.1 通道注意力的有效性
由圖11(b)可以看出,與Baseline相比,Baseline+CA一定程度上減輕了鬼影現(xiàn)象,這得益于通道注意力調(diào)整了LDR圖像的不同通道在重構(gòu)HDR時的作用,并且通過提取特征通道維度的全局信息和顯著信息,增強了有效區(qū)域信息在重構(gòu)HDR圖像中的作用。
圖11 本文各模塊對HDR圖像重建的視覺效果影響Fig.11 The influence of each module on the visual effect of HDR image reconstruction((a)Baseline; (b)Baseline+CA; (c)Baseline+ SACAM; (d)Baseline+SACAM +MIM)
3.5.2 空間感知通道注意力機制的有效性
Baseline+SACAM在Baseline+CA的基礎(chǔ)上加入了空間注意力。對比圖11(c)相對圖11(b)的變化,可以發(fā)現(xiàn)鬼影現(xiàn)象進一步被削弱,這是因為空間感知通道注意力能同時從空間維度和通道維度挖掘特征圖中對重構(gòu)圖像有益的信息。并且通道注意力可以在空間注意力的基礎(chǔ)上進一步凸顯有效區(qū)域信息在重構(gòu)HDR圖像中的作用,從而進一步抑制鬼影。從表2所示的客觀評價結(jié)果來看,當把通道注意力換成空間感知通道注意力之后,所有評價指標的性能均得到了進一步提升,這驗證了本文所設(shè)計的空間感知通道注意力的有效性。
表2 本文模型中不同模塊消融研究結(jié)果Table 2 The ablation results of different modules in our model
3.5.3 多尺度信息重建模塊的有效性
為證明多尺度信息重建模塊的有效性,比較了Baseline+SACAM與Baseline+SACAM+MIM產(chǎn)生結(jié)果的變化。如圖11(d)所示,Baseline+SACAM+MIM的結(jié)果與Baseline+SACAM相比,鬼影得到了更加有效地抑制,并且局部細節(jié)(如欄桿、建筑)也得到了恢復。這是因為該網(wǎng)絡(luò)有助于增大網(wǎng)絡(luò)感受野,強化特征空間顯著信息和充分利用不同尺度特征的上下文語義信息,來重構(gòu)最終的HDR圖像。這樣不僅能充分保留圖像細節(jié)信息,還能有效恢復出飽和區(qū)域丟失的信息。相比之下,表2中的客觀評價指標也得到了提升,這表明了多尺度信息重建模塊的有效性。
本文提出了一個空間感知通道注意力引導的多尺度HDR圖像重建網(wǎng)絡(luò)(SCAMNet)。在一個框架內(nèi)集成了空間感知通道注意力機制和多尺度信息重建模塊,有效地解決了在拍攝過程中因目標運動而導致融合結(jié)果出現(xiàn)的“鬼影”和飽和區(qū)域缺失細節(jié)重建的問題。提出的空間感知通道注意力機制建立了特征在空間、通道維度的相互關(guān)系。在挖掘特征通道間相互依賴關(guān)系的同時,通過提取特征空間維度的全局信息和顯著信息, 進一步強化空間注意力特征的空間關(guān)系,凸顯對重構(gòu)圖像有益的信息。SCAMNet還集成了多尺度信息重建模塊。該模塊充分利用不同尺度特征的上下文語義關(guān)系,進一步挖掘輸入圖像中的有益信息來重建HDR圖像。強化特征空間顯著信息的同時,還提升了感受野,增強了網(wǎng)絡(luò)恢復細節(jié)信息的能力。定性和定量的評估都驗證了本文方法與同類方法相比的優(yōu)勢。