• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      圖像復(fù)原中自注意力和卷積的動(dòng)態(tài)關(guān)聯(lián)學(xué)習(xí)

      2024-04-22 00:46:52江奎賈雪梅黃文心王文兵王正江俊君
      關(guān)鍵詞:圖像增強(qiáng)集上注意力

      江奎,賈雪梅,黃文心,王文兵,王正,江俊君

      1.哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,哈爾濱 150000;2.武漢大學(xué)計(jì)算機(jī)學(xué)院,武漢 430072;3.湖北大學(xué)計(jì)算機(jī)與信息工程學(xué)院,武漢 430062;4.杭州靈伴科技有限公司,杭州 310000

      0 引言

      復(fù)雜的成像條件,如雨霧、低光、水下散射等會(huì)對(duì)圖像質(zhì)量產(chǎn)生不利影響,并顯著降低基于人工智能應(yīng)用技術(shù)的性能,如圖像理解(Liao 等,2022;Wang 等,2022a)、目標(biāo)檢測(cè)(Zhong 等,2021)和目標(biāo)識(shí)別(Xie 等,2022)。因此,急需研究有效的圖像修復(fù)方案,消除成像過程中的降質(zhì)擾動(dòng),提升圖像的可辨識(shí)度和可讀性,輸出高質(zhì)量的修復(fù)結(jié)果。

      近十年中,圖像修復(fù)(馬龍 等,2018;Chen 等,2021;Wang 等,2020a;Yang 等,2022)獲得了前所未有的發(fā)展。在深度神經(jīng)網(wǎng)絡(luò)之前,基于模型的圖像修復(fù)方法(Garg和Nayar,2005)更多地依賴于圖像內(nèi)容的統(tǒng)計(jì)分析,并在降質(zhì)或者背景上引入人為設(shè)定的先驗(yàn)知識(shí)(例如稀疏性和非局部均值濾波)。盡管如此,這些方法在復(fù)雜多變的降質(zhì)環(huán)境中穩(wěn)定性較差(Bossu 等,2011;Chen 和Hsu,2013;Zhong 等,2022)。

      與傳統(tǒng)基于模型的方法相比,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)能夠從大規(guī)模的數(shù)據(jù)中學(xué)習(xí)到廣義統(tǒng)計(jì)知識(shí),無疑是更好的選擇。為了進(jìn)一步提高圖像修復(fù)的效果,現(xiàn)有網(wǎng)絡(luò)設(shè)計(jì)了各種復(fù)雜的結(jié)構(gòu)和訓(xùn)練方式(Jiang 等,2021b;楊紅菊 等,2022;Yu等,2019)。然而,由于局部感知和平移同變性的固有特征,CNN 至少有兩個(gè)缺點(diǎn):1)感受野有限;2)滑動(dòng)窗口在推理時(shí)的靜態(tài)權(quán)重?zé)o法應(yīng)對(duì)內(nèi)容的多樣性。具體來講,前者使網(wǎng)絡(luò)無法捕捉到長(zhǎng)距離的像素依賴性,而后者則犧牲了對(duì)輸入內(nèi)容的適應(yīng)性。因此,它遠(yuǎn)遠(yuǎn)不能滿足表征全局降質(zhì)分布的需求。以圖像去雨為例,基于CNN 的方法輸出結(jié)果會(huì)有明顯的雨水殘留(如Ren 等人(2019)方法 和DRDNet(detail-recovery image deraining network)(Deng 等,2020))或細(xì)節(jié)損失(如MPRNet(multi-stage progressive image restoration network)(Zamir 等,2021)和SWAL(selective wavelet attention learning)(Huang 等,2021)),如圖1 中的去雨結(jié)果所示。

      圖1 各種去雨方法的結(jié)果比較Fig.1 Comparison of the results of various deraining methods

      給定一個(gè)像素,自注意力(self-attention,SA)會(huì)通過其他位置的加權(quán)去獲得當(dāng)前位置的全局響應(yīng)。在各種自然語言和計(jì)算機(jī)視覺任務(wù)的深度網(wǎng)絡(luò)中都進(jìn)行了相關(guān)的研究(Vaswani 等,2017;Wang 等,2018;Zhang 等,2019b)。得益于全局處理的優(yōu)勢(shì),SA 在消除圖像擾動(dòng)方面取得了比CNN 更加顯著的性能提升(Chen 等,2021;Liang 等,2021;Wang 等,2022b)。然而,由于SA 的計(jì)算是全局的,其計(jì)算復(fù)雜度隨空間分辨率呈二次方增長(zhǎng),因此無法應(yīng)用于高分辨率圖像。SA 也可應(yīng)用于圖像修復(fù)任務(wù),如圖像去雨、去霧、超分等。Restormer(Zamir等,2022)提出了一種多頭轉(zhuǎn)置注意(multi-dconv head transposed attention,MDTA)模塊來建模全局關(guān)聯(lián),并取得了令人印象深刻的圖像修復(fù)效果。盡管MDTA 是在特征維度上而不是在空間維度上應(yīng)用SA,具有線性的復(fù)雜度,但Restormer(Zamir 等,2022)還是需要更多的計(jì)算資源才能獲得更好的恢復(fù)性能。因其具有563.96 Gflops 和 2 610 萬個(gè)參數(shù),使用一個(gè)TITAN X GPU 對(duì)512×512 像素的圖像進(jìn)行去雨需要0.568 s,這對(duì)于許多資源有限的實(shí)際應(yīng)用來講,所需的算力或內(nèi)存都是昂貴的。

      除效率低之外,Restormer 至少還有兩個(gè)缺點(diǎn)。1)將圖像修復(fù)看做是基于擾動(dòng)和背景圖像的簡(jiǎn)單疊加,這是有爭(zhēng)議的。因?yàn)榻蒂|(zhì)擾動(dòng)層和背景層是交織重疊的,其中降質(zhì)影響了圖像的內(nèi)容,包括細(xì)節(jié)、顏色和對(duì)比度。2)構(gòu)建一個(gè)完全基于Transformer的框架是次優(yōu)的。因?yàn)镾A擅長(zhǎng)聚合全局特征圖,但缺乏CNN 在學(xué)習(xí)局部上下文關(guān)系方面的能力。這自然引出了兩個(gè)問題:1)如何將降質(zhì)擾動(dòng)去除與背景修復(fù)聯(lián)系起來?2)如何將SA 和CNN 有效地結(jié)合起來實(shí)現(xiàn)高精度和高效率的圖像修復(fù)?

      為了解決第1 個(gè)問題,本文從降質(zhì)分布揭示退化位置和程度的觀測(cè)中得到啟示,降質(zhì)分布反映了圖像退化的位置的強(qiáng)度。因此,提出以關(guān)聯(lián)學(xué)習(xí)的方式,利用預(yù)測(cè)的退化來優(yōu)化背景紋理重建,將擾動(dòng)去除與背景重構(gòu)相結(jié)合,分別設(shè)計(jì)了圖像雨紋移除網(wǎng)絡(luò)(image deraining network,IDN)和背景重構(gòu)網(wǎng)絡(luò)(background recovery network,BRN)來完成圖像修復(fù)。關(guān)聯(lián)學(xué)習(xí)的關(guān)鍵部分是一種新的多輸入注意模塊(multi-input attention module,MAM)。它對(duì)輸入降質(zhì)圖像中得到的退化分布進(jìn)行量化表征,生成退化掩碼。得益于SA 的全局相關(guān)性計(jì)算,MAM 可以根據(jù)退化掩碼從降質(zhì)輸入中提取背景信息,進(jìn)而有助于網(wǎng)絡(luò)準(zhǔn)確的恢復(fù)紋理。

      處理第2 個(gè)問題的一個(gè)直觀想法是利用這兩種架構(gòu)的優(yōu)勢(shì)構(gòu)建一個(gè)統(tǒng)一的模型。Park 和Kim(2022)已經(jīng)證明SA 和標(biāo)準(zhǔn)卷積網(wǎng)絡(luò)有著相反且互補(bǔ)的特性。具體來說,SA 傾向于聚合具有自注意力中重要的特征圖,但卷積使其多樣化,以專注于局部紋理。與Restormer 中設(shè)置的Transformer 不同,本文以并行的方式處理SA和CNN,并提出了一種交叉融合網(wǎng)絡(luò)。它包括一個(gè)殘差Transformer 分支(residual Transformer branch,RTB)和一個(gè)編碼器—解碼器(encoder-decoder branch,EDB)。前者通過多頭注意力和前饋網(wǎng)絡(luò)來編碼圖像的全局特征。相反,后者利用多尺度編碼器—解碼器來表示上下文知識(shí)。并且本文設(shè)計(jì)了一種輕量級(jí)交叉融合塊(hybrid fusion block,HFB)來聚合RTB 和EDB 的結(jié)果,最終用以處理對(duì)應(yīng)的學(xué)習(xí)任務(wù)。通過這種方式,最終構(gòu)建一種基于Transformer 的兩階段模型,即ELF(image deeraining meets association learning and Transformer)。在圖像去雨任務(wù)上,其平均性能優(yōu)于基于CNN 的SOTA(state-of-the-art)方法MPRNet(Zamir 等,2021)0.25 dB,并且節(jié)省了88.3% 和57.9%的計(jì)算成本和參數(shù)。

      本文的主要貢獻(xiàn)如下:1)首次考慮到Transformer 和CNN 在圖像修復(fù)任務(wù)中的高效性和兼容性,并將SA 和CNN 的優(yōu)勢(shì)整合到一個(gè)基于關(guān)聯(lián)學(xué)習(xí)的網(wǎng)絡(luò)中,用于擾動(dòng)消除和背景重構(gòu)。這是一個(gè)針對(duì)圖像修復(fù)任務(wù)的局部—整體多層次結(jié)構(gòu)的高效實(shí)現(xiàn)。2)設(shè)計(jì)了一種新的多輸入注意力模塊(MAM),將擾動(dòng)去除和背景重構(gòu)任務(wù)巧妙地關(guān)聯(lián)起來。它顯著減輕了網(wǎng)絡(luò)學(xué)習(xí)負(fù)擔(dān),同時(shí)促進(jìn)了背景紋理恢復(fù)。3)在圖像去雨、水下圖像增強(qiáng)、低光照增強(qiáng)和檢測(cè)任務(wù)上的綜合實(shí)驗(yàn)論證了本文提出的ELF方法的有效性和效率。以圖像去雨任務(wù)為例,ELF平均比MPRNet(Zamir 等,2021)在峰值信噪比(PSNR)上高出0.25 dB,而后者的計(jì)算成本為前者的8.5倍,參數(shù)量為前者的2.4倍。

      1 相關(guān)工作

      圖像去雨的相關(guān)工作在架構(gòu)創(chuàng)新和訓(xùn)練方法方面都取得了重大進(jìn)展。本節(jié)將簡(jiǎn)要介紹一些典型的且與本文研究相關(guān)的圖像去雨、圖像恢復(fù)和視覺Transformer模型。

      1.1 單圖像去雨

      傳統(tǒng)的去雨方法(Kang 等,2012;Luo 等,2015)采用圖像處理技術(shù)和手工制作的先驗(yàn)來解決去雨問題。然而,當(dāng)預(yù)定義的模型不成立時(shí),這些方法會(huì)產(chǎn)生較差的結(jié)果。基于深度學(xué)習(xí)的去雨方法(Li 等,2017;Zhang 和Patel,2017;Jiang 等,2023)都表現(xiàn)出令人印象深刻的性能。早期基于深度學(xué)習(xí)的去雨方法(Fu 等,2017a;Zhang 等,2018a)應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)(CNN)直接減少?gòu)妮斎氲捷敵龅挠成浞秶源水a(chǎn)生無雨結(jié)果。為了更好地表示雨水分布,研究人員考慮了雨水特征,如雨密度(Zhang 等,2018b)、大小和遮蔽效應(yīng)(Li等,2017,2019a),并使用遞歸神經(jīng)網(wǎng)絡(luò)通過多個(gè)階段(Li 等,2018c)或非局部網(wǎng)絡(luò)(Wang 等,2020b)來利用長(zhǎng)距離空間相關(guān)性更好地去除雨紋(Li 等,2018b)。在此基礎(chǔ)上,SA 利用其強(qiáng)大的全局相關(guān)學(xué)習(xí)消除了雨水退化,取得了優(yōu)秀的效果。雖然采用精簡(jiǎn)表示和基于全局不重疊窗口的SA(Wang 等,2022b;Ji 等,2021)來提升全局SA 以減輕計(jì)算負(fù)擔(dān),但這些模型仍然會(huì)迅速占用計(jì)算資源。除了效率低之外,這些方法(Zamir 等,2022;Ji 等,2021)僅將去雨任務(wù)視為雨水?dāng)_動(dòng)的消除,忽略了退化帶來的背景細(xì)節(jié)缺失和對(duì)比度偏差。圖2 展示了在TEST1200 數(shù)據(jù)集上比較主流圖像去雨方法的效果與性能。

      圖2 在TEST1200數(shù)據(jù)集上比較主流圖像去雨方法的效果與性能Fig.2 Comparison of mainstream deraining methods in terms of efficiency vs.performance on the TEST1200 dataset

      1.2 圖像恢復(fù)

      從低質(zhì)量圖像中恢復(fù)高質(zhì)量圖像的任務(wù)統(tǒng)稱為圖像恢復(fù)任務(wù),如水下圖像增強(qiáng)、低光照?qǐng)D像增強(qiáng)、圖像去霧等,具有與圖像去雨類似的降質(zhì)因素。接下來,本小節(jié)簡(jiǎn)要介紹一些典型的水下圖像增強(qiáng)和低光照?qǐng)D像增強(qiáng)方法。

      1.2.1 水下圖像增強(qiáng)

      早期的水下圖像增強(qiáng)方法通過動(dòng)態(tài)像素范圍拉伸(Iqbal 等,2010)、像素分布調(diào)整(Ghani 和Isa,2015)和圖像融合(Ancuti 等,2012)等方法來調(diào)節(jié)像素值以實(shí)現(xiàn)增強(qiáng),但這些方法難以應(yīng)對(duì)多樣的水下場(chǎng)景。隨著深度學(xué)習(xí)的發(fā)展,一些基于深度學(xué)習(xí)的水下圖像增強(qiáng)方法相繼提出。其中基于生成對(duì)抗網(wǎng)絡(luò)的方法成為主流,如UCycleGAN(underwater CycleGAN)(Li 等,2018a)采用弱監(jiān)督的方式將CycleGAN(Zhu 等,2017)的網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)用到此任務(wù)中,Guo 等人(2020b)提出一個(gè)多尺度密集生成對(duì)抗網(wǎng)絡(luò),都取得了不錯(cuò)的效果。但這些方法都只是簡(jiǎn)單應(yīng)用基于生成對(duì)抗網(wǎng)絡(luò)的結(jié)構(gòu),并沒有考慮復(fù)雜的退化關(guān)系,生成的結(jié)果有明顯的雨水殘留,而且會(huì)引入對(duì)比度失真。

      1.2.2 低光照?qǐng)D像增強(qiáng)

      早期的低光照?qǐng)D像增強(qiáng)方法多基于像素灰度值統(tǒng)計(jì)分析,如直方圖均衡化(Cheng 和Shi,2004;Pisano 等,1998)等。但這些方法只利用了灰度分布,并沒有考慮空間信息,增強(qiáng)后的圖像可能會(huì)過曝光或欠曝光,與真實(shí)圖像不一致。相比之下,基于視網(wǎng)膜皮層理論(retinal cortex theory)的方法(Jobson等,1997)將輸入的低光照?qǐng)D像分解為光照和反射率兩部分,通過增強(qiáng)光照部分來增強(qiáng)圖像。但這些方法通常缺乏足夠的適應(yīng)性,難以獲得穩(wěn)定的光照分布,且易缺失細(xì)節(jié)紋理信息。通過學(xué)習(xí)低光圖像到正常光圖像的映射,基于深度學(xué)習(xí)的方法取得了綜合的最優(yōu)效果。例如,Zero-DCE(Guo 等,2020a)通過逐步推導(dǎo)構(gòu)造出了一種輕量的像素級(jí)別的曲線估計(jì)網(wǎng)絡(luò),來學(xué)習(xí)像素級(jí)高階曲線參數(shù)映射,同時(shí)提出無參考損失函數(shù)對(duì)輸出圖像的質(zhì)量進(jìn)行間接的評(píng)估。EnlightenGAN(Jiang等,2021d)提出了一種高效無監(jiān)督的生成對(duì)抗網(wǎng)絡(luò),并對(duì)全局—局部鑒別器結(jié)構(gòu),自正規(guī)化感知損失融合和注意機(jī)制進(jìn)行了測(cè)試,實(shí)現(xiàn)了很好的低光照?qǐng)D像增強(qiáng)效果和通用性。LLFlow(Wang 等,2022c)提出以低光圖像/特征為條件,學(xué)習(xí)將正常曝光圖像的分布映射到高斯分布中。然后,通過在訓(xùn)練中約束正常圖像的光流結(jié)構(gòu)實(shí)現(xiàn)圖像增強(qiáng)。但是,單一映射的網(wǎng)絡(luò)結(jié)構(gòu)使得它們?cè)趹?yīng)對(duì)復(fù)雜輸入時(shí)可能產(chǎn)生偽影、色差等問題,且難以恢復(fù)精細(xì)的結(jié)構(gòu)紋理。

      1.3 視覺Transformer

      基于Transformer的模型首先應(yīng)用在自然語言任務(wù)中的序列處理(Vaswani 等,2017)。由于ViT(visual Transformer)(Dosovitskiy 等,2021)具有很強(qiáng)的長(zhǎng)距離依存關(guān)系學(xué)習(xí)能力,因此將Transformer 引入了計(jì)算機(jī)視覺領(lǐng)域,并將大量基于Transformer 的方法應(yīng)用于計(jì)算機(jī)視覺任務(wù),例如圖像識(shí)別(Dosovitskiy 等,2021;Ijaz 等,2022),分割(Wang 等,2021),目標(biāo)檢測(cè)(Carion 等,2020;Liu 等,2021)。對(duì)于給定的輸入內(nèi)容(Khan 等,2021),視覺Transformer(Dosovitskiy 等,2021;Touvron 等,2021)將一幅圖像分解為一組局部窗口序列,并學(xué)習(xí)它們之間的相互關(guān)系。例如,TTSR(texture Transformer network for image super-resolution)(Yang 等,2020)提出了一種自注意力模塊,可以提供準(zhǔn)確的紋理特征,用于將參考圖像中的紋理信息傳輸?shù)礁叻直媛蕡D像進(jìn)行重建。Chen 等人(2021)在ImageNet 數(shù)據(jù)集上提出了一個(gè)預(yù)訓(xùn)練的圖像處理Transformer,并使用多頭網(wǎng)絡(luò)架構(gòu)分別處理不同的任務(wù)。然而,SA 的直接應(yīng)用未能充分利用Transformer 的潛力,這是由于自注意力巨大的計(jì)算負(fù)載和不同深度(尺度)層之間的低效通信造成的。此外,很少有工作考慮到Transformer與CNN 之間的內(nèi)在互補(bǔ)特性去構(gòu)建一個(gè)有效統(tǒng)一的模型。自然地,這種設(shè)計(jì)限制了局部鄰域內(nèi)的上下文融合表達(dá),這違背了使用自注意力而不是卷積的主要?jiǎng)訖C(jī),因此不適合圖像恢復(fù)任務(wù)。相比之下,本文探索連接兩者的橋梁,并為圖像去噪任務(wù)構(gòu)建了Transformer和CNN的交叉模型。

      2 本文方法

      本文的主要目標(biāo)是利用CNN 和Transformer 構(gòu)建高效、高精度的圖像修復(fù)模型。理論上,自注意力將特征映射值與正向的重要權(quán)重進(jìn)行平均,以學(xué)習(xí)全局表示,而CNN 傾向于聚合局部相關(guān)信息。直觀上,將它們結(jié)合起來以充分利用局部和全局紋理是合理的。一些研究試圖將這兩種結(jié)構(gòu)結(jié)合起來,形成一種用于淺層圖像恢復(fù)的交叉框架,但是未能充分發(fā)揮其作用。

      以圖像去雨為例,與直接將Transformer 塊替換卷積的方法不同,本文考慮了這兩種結(jié)構(gòu)的高效性和兼容性,并構(gòu)建了一個(gè)稱為ELF的交叉框架,能夠充分協(xié)調(diào)它們?cè)趫D像修復(fù)任務(wù)上的優(yōu)勢(shì)。與現(xiàn)有的圖像修復(fù)方法相比,所提出的ELF 至少在兩個(gè)關(guān)鍵的方面與它們不同。

      1)設(shè)計(jì)概念不同。與基于疊加模型的方法不同的是,ELF 將背景圖像IB的最優(yōu)近似值從雨天圖像IRain中預(yù)測(cè)出來,或從雨天圖像中殘差學(xué)習(xí)雨水信息IR并生成,ELF 將圖像去雨任務(wù)轉(zhuǎn)換為雨紋去除和背景重構(gòu)的組合,并引入Transformer 將這兩部分與新設(shè)計(jì)的多輸入注意力模塊(MAM)聯(lián)系起來。

      2)成分不同。由于低頻信號(hào)和高頻信號(hào)是SA和卷積(Park 和Kim,2022)中十分重要的信息,因此構(gòu)建了一個(gè)用于特定特征表示和融合的雙分支框架。具體來說,ELF 的主干是一個(gè)雙分支交叉的融合網(wǎng)絡(luò),包括了一個(gè)殘差Transformer分支(RTB)和一個(gè)編碼器—解碼器分支(EDB),分別學(xué)習(xí)全局結(jié)構(gòu)(低頻成分)的表征和局部紋理(高頻成分)的表征。

      圖3 概述了提出的ELF 的框架,該框架包含圖像去雨網(wǎng)絡(luò)(IDN)、多輸入注意力模塊(MAM)和背景重構(gòu)網(wǎng)絡(luò)(BRN)。為提高效率,IDN 和BRN 共享相同的雙分支交叉融合網(wǎng)絡(luò),詳見第2.2節(jié)。

      圖3 本文提出的圖像修復(fù)方法ELF的網(wǎng)絡(luò)結(jié)構(gòu)(以圖像去雨任務(wù)為例)Fig.3 The architecture of our proposed ELF image restoration method(taking image deraining as an example)

      2.1 網(wǎng)絡(luò)流程及優(yōu)化

      給定一幅雨天圖像IRain∈RH×W×3和一幅干凈版本的圖像IB∈RH×W×3,其中H和W表示映射特征的空間高度和寬度??梢杂^察到,雨圖樣本IRain,S∈RH×W×3經(jīng)過雙線性插值重建的雨天圖像IRain,SR∈RH×W×3與原始雨天圖像有著相似的統(tǒng)計(jì)分布,如圖4 所示。受到啟發(fā),本文在樣本空間中去預(yù)測(cè)雨紋分布,以減輕學(xué)習(xí)和計(jì)算負(fù)擔(dān)。

      圖4 真實(shí)樣本與合成樣本的“Y”通道直方圖擬合結(jié)果Fig.4 Fitting results of “Y” channel histogram for real and synthetic samples of true sample and synthetic sample((a)true sample;(b)synthetic sample)

      以這種方式,首先對(duì)IRain和IB進(jìn)行雙線性操作,生成相應(yīng)的子樣本(IRain,S∈R和IB,S∈R)。如前所述,ELF 包含兩個(gè)子網(wǎng)絡(luò)(IDN 和BRN),通過關(guān)聯(lián)學(xué)習(xí)來完成圖像去雨。因此,IRain,S被輸入到IDN中,生成相應(yīng)的雨水分布和去雨結(jié)果,具體為

      式中,F(xiàn)BS(·)表示雙線性下采樣,以生成雨天圖像樣本IRain,S,?IDN(·)表示IDN中的雨水評(píng)估函數(shù)。

      雨水分布展示了退化的位置和程度,將其轉(zhuǎn)化為退化自然是合理的,有助于準(zhǔn)確地恢復(fù)背景。在將傳入BRN 進(jìn)行背景重構(gòu)之前,設(shè)計(jì)了一個(gè)多輸入注意力模塊(MAM),如圖3 所示,該模塊通過Transformer 層能夠充分利用來自雨天圖像IRain的背景信息進(jìn)行互補(bǔ),并將其合并為嵌入表征。MAM的流程表示為

      式中,F(xiàn)SA(·)表示自注意力函數(shù),包含了嵌入函數(shù)和點(diǎn)乘交互。FB(·)是生成初始表征的嵌入函數(shù)。FHBF(·)是指HFB 中的融合功能。之后,BRN 將fMAM作為背景的重構(gòu),即

      式中,?BRN(·)表示BRN 的超分辨率重建函數(shù),F(xiàn)UP(·)表示雙線性上采樣。

      與單獨(dú)訓(xùn)練雨紋消除和背景重構(gòu)不同,本文引入了聯(lián)合約束來增強(qiáng)去雨模型與背景重構(gòu)的兼容性,且能夠從訓(xùn)練數(shù)據(jù)中自動(dòng)進(jìn)行學(xué)習(xí)。然后使用圖像損失(Charbonnier 損失函數(shù)(Hu 等,2022;Jiang等,2020b;Lai 等,2017))和結(jié)構(gòu)相似性(structural similarity,SSIM)(Wang 等,2004)損失對(duì)網(wǎng)絡(luò)進(jìn)行監(jiān)督學(xué)習(xí),同時(shí)實(shí)現(xiàn)圖像和結(jié)構(gòu)保真度的恢復(fù)。損失函數(shù)表示為

      式中,α和λ用于平衡損失成分,分別設(shè)置為-0.15和1。懲罰系數(shù)ε設(shè)置為0.001。

      2.2 交叉融合網(wǎng)絡(luò)

      自注意力機(jī)制是Transformer 的核心部分,它擅長(zhǎng)學(xué)習(xí)長(zhǎng)距離的語義依存關(guān)系和捕捉圖像中的全局表示。與之相反,由于固有的局部連通性,CNN 更加擅長(zhǎng)對(duì)局部關(guān)系進(jìn)行建模。為此,本文結(jié)合Transformer 和CNN 的優(yōu)勢(shì),將IDN 和BRN 的構(gòu)建成深度雙分支交叉融合網(wǎng)絡(luò)。如圖3 所示,主干包括殘差Transformer 分支(RTB)和編碼器—解碼器分支(EDB)。RTB 以一些可學(xué)習(xí)的內(nèi)容(特征通道)作為輸入,疊加多頭注意力和前饋網(wǎng)絡(luò)來編碼全局結(jié)構(gòu)。然而,獲取長(zhǎng)距離像素的相互關(guān)系是造成Transformer 計(jì)算量巨大的罪魁禍?zhǔn)?,使其無法應(yīng)用于高分辨率圖像,尤其是圖像重構(gòu)任務(wù)。受El-Nouby 等人(2021)啟發(fā),除了在樣本空間上處理表征外,本文沒有學(xué)習(xí)全局的空間相似性,而是應(yīng)用SA計(jì)算跨通道的互協(xié)方差,以生成隱式編碼全局上下文的注意力圖,它具有線性復(fù)雜度而不是二次復(fù)雜度。

      EDB 旨在推理局部中豐富的紋理,受U-Net(Ronneberger 等,2015)的啟發(fā),還使用U 形框架構(gòu)建了EDB。將前3個(gè)階段構(gòu)成編碼器,其余3個(gè)階段作為解碼器。每個(gè)階段采用類似的架構(gòu),包括采樣層、殘差通道注意塊(residual channel attention block,RCAB)(Zhang 等,2018c)和交叉融合塊。使用雙線性采樣和1×1 卷積層來減少棋盤偽影和模型參數(shù),而不是使用跨步或轉(zhuǎn)置卷積來重新縮放特征的空間分辨率。為了促進(jìn)不同階段或尺度下的殘差特征融合,設(shè)計(jì)了HFB 以在空間和通道維度上聚合不同階段的多個(gè)輸入。HFB可以在重構(gòu)過程中充分利用更多不同的功能。此外,為了進(jìn)一步減少參數(shù)量,RTB 和EDB 設(shè)置了深度可分離卷積(depthwise separable convolutions,DSC)。對(duì) 于RTB,將DSC 集成到多頭注意力中,以在計(jì)算特征協(xié)方差之前強(qiáng)調(diào)局部上下文,從而生成全局注意圖。此外,將EDB 構(gòu)造成非對(duì)稱U 形結(jié)構(gòu),其中編碼器設(shè)計(jì)了便攜式的DSC,但解碼器使用標(biāo)準(zhǔn)卷積。該方案可以節(jié)省整個(gè)網(wǎng)絡(luò)約8%的參數(shù)。實(shí)驗(yàn)證明,在編碼器中使用DSC的編碼器優(yōu)于在解碼器使用。

      2.3 多輸入注意力模塊

      如圖3 所示,為將雨紋去除和背景重構(gòu)聯(lián)系起來,本文構(gòu)建了一個(gè)帶有Transformer 的多輸入注意力模塊MAM,充分利用背景信息進(jìn)行互補(bǔ)增強(qiáng)。不同于將系列圖像塊作為Transformer 的輸入,MAM 將預(yù)測(cè)的雨水分布,子空間的去雨圖像和雨天圖像IRain作為輸入,首先學(xué)習(xí)嵌入表征去豐富局部語義內(nèi)容,和fRain分別表示查詢(query,Q),鍵(key,K)和值(value,V)的映射關(guān)系。這里不對(duì)大小為RHW×HW的空間注意圖進(jìn)行學(xué)習(xí),而是重新定義Q和K的映射大小,并通過和fRain之間的點(diǎn)乘,生成交叉的協(xié)方差轉(zhuǎn)置注意力圖M∈RC×C。

      如圖5,注意力圖引導(dǎo)網(wǎng)絡(luò)從IRain的嵌入表征fRain中挖掘背景紋理信息fBT。SA的處理流程為

      圖5 MAM的可視化Fig.5 Visualization of MAM

      式中,F(xiàn)K(·)、FQ(·)和FV(·)是進(jìn)行映射的嵌入函數(shù),?是點(diǎn)乘操作。之后在交叉混合模塊中,將提取的互補(bǔ)信息和的嵌入表征結(jié)合去豐富背景表征。

      2.4 交叉融合模塊

      考慮到殘差塊和編碼階段之間的特征冗余和知識(shí)差異,本文引入了一種新的交叉融合塊HFB,其中早期階段的低層次背景特征有助于鞏固后期階段的高層次特征。具體來說,將深度可分離的卷積和通道注意層納入HFB,以便在空間和通道維度上辨別性地聚合多尺度特征。與基于像素級(jí)疊加或卷積融合相比,提出的HFB更加靈活和有效。

      3 實(shí)驗(yàn)結(jié)果

      為了驗(yàn)證本文提出的ELF,在合成的和真實(shí)的雨天數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn),并將ELF 與幾種主流的圖像去雨方法進(jìn)行比較。這些方法主要包含MPRNet(Zamir 等,2021)、SWAL(Huang 等,2021)、RCDNet(rain convolutional dictionary network)(Wang等,2020b)、DRDNet(detail-recovery image deraining network)(Deng 等,2020)、MSPFN(multi-scale progressive fusion network)(Jiang 等,2020a)、IADN(improved attention-guided deraining network)(Jiang等,2021a)、PreNet(progressive recurrent network)(Ren 等,2019)、UMRL(uncertainty guided multiscale residual learning)(Yasarla 和Patel,2019)、DIDMDN(density-aware multi-stream densely connected convolutional neural network)(Zhang 等,2018c)、RESCAN(recurrent se context aggregation net)(Li 等,2018c)和DDC(deep decomposition composition network)(Li 等,2019b)。使用5 種常用的評(píng)估指標(biāo)進(jìn)行評(píng)測(cè),例如峰值信噪比(peak signal-tonoise ratio,PSNR)、結(jié)構(gòu)相似性(SSIM)、特征相似性(feature similarity,F(xiàn)SIM)、自然度圖像質(zhì)量評(píng)估器(naturalness image quality evaluator,NIQE)(Mittal等,2013)和基于空間熵的質(zhì)量(spatial-spectral entropy-based quality,SSEQ)(Liu等,2014)。

      3.1 實(shí)驗(yàn)細(xì)節(jié)

      3.1.1 數(shù)據(jù)收集

      由于所有比較方法的訓(xùn)練樣本存在差異,根據(jù)Jiang 等人(2020a)的方法,使用Fu 等人(2017b)、Zhang 等人(2020)方法中的13 700 個(gè)干凈的背景/雨天圖像對(duì),用其公開發(fā)布的代碼訓(xùn)練所有比較方法,并通過調(diào)整優(yōu)化參數(shù)以進(jìn)行公平比較。在測(cè)試階段,選取了4 個(gè)合成基準(zhǔn)Test100(Zhang 等,2020)、Test1200(Zhang 等,2018a)、R100H 和R100L(Yang等,2017)和3 個(gè)真實(shí)數(shù)據(jù)集RID(rain in driving)、RIS(rain in surveillance)(Li 等,2019a)和Real127(Zhang等,2018a)進(jìn)行評(píng)估。

      3.1.2 實(shí)驗(yàn)設(shè)置

      在本文的基線中,RTB 的Transformer 模塊數(shù)量設(shè)為10,根據(jù)經(jīng)驗(yàn),對(duì)于EDB 中的每個(gè)階段,RCAB設(shè)置為1,濾波器數(shù)量為48。為了方便訓(xùn)練,將訓(xùn)練圖像裁剪為固定尺寸為256×256 像素的塊,以獲得訓(xùn)練樣本。使用學(xué)習(xí)率為2E-4 的Adam 優(yōu)化器,每65 個(gè)訓(xùn)練輪數(shù)的衰減率為0.8,直到600 輪。批量大小為12,在單個(gè)Titan Xp GPU 上訓(xùn)練ELF 模型500 輪次。

      3.2 消融研究

      為了驗(yàn)證網(wǎng)絡(luò)中各個(gè)組件對(duì)最終去雨性能的貢獻(xiàn),本節(jié)進(jìn)行了相應(yīng)的消融研究,包括自注意力(SA)、深度可分離卷積(DSC)、超分辨率重構(gòu)(super resolution,SR)、交叉融合模塊(HFB)和多輸入注意力模塊(MAM)。為簡(jiǎn)單起見,將最終模型表示為ELF,并通過刪除上述所有組件來表示基線模型(用w/o 表示)。在Test1200 數(shù)據(jù)集上的去雨性能和推理效率方面的定量結(jié)果如表1 所示,實(shí)驗(yàn)表明完整的去雨模型ELF 比其不完整的版本有著顯著的改進(jìn)。與w/o MAM(從ELF 中刪除MAM 模塊)模型相比,ELF 實(shí)現(xiàn)了1.92 dB 的性能增幅,主要是因?yàn)镸AM 中的關(guān)聯(lián)學(xué)習(xí)可以幫助網(wǎng)絡(luò)充分利用雨天輸入的背景信息和預(yù)先預(yù)測(cè)的雨水分布。此外,將圖像去雨任務(wù)分解為低維空間的雨紋去除和紋理重建在效率(推理時(shí)間和計(jì)算成本分別上升了19.8%和67.6%)和重構(gòu)質(zhì)量(參考ELF 和ELF*的結(jié)果,ELF*在原始分辨率空間上完成去雨和紋理重構(gòu))上具有相當(dāng)大的優(yōu)勢(shì)。使用深度可分離卷積可以在參數(shù)大致相同的情況下增加通道深度,從而提高表示能力(參考ELF 和w/o DSC 模型的結(jié)果)。與用標(biāo)準(zhǔn)RCABs 替換RTB 中的Transformer 塊的w/o SA 模型相比,ELF在可接受的計(jì)算成本下提升了0.45 dB。

      表1 在Test1200數(shù)據(jù)集上消融實(shí)驗(yàn)Table 1 Ablation study on Test1200 dataset

      本節(jié)進(jìn)行了雙分支交叉融合框架的消融實(shí)驗(yàn),其中涉及一個(gè)殘差Transformer 分支(RTB)和一個(gè)U 型編碼器—解碼器分支(EDB)?;贓LF,依次去除這兩個(gè)分支,設(shè)計(jì)兩個(gè)對(duì)比模型(w/o RTB和w/o EDB),定量結(jié)果如表1 所示。去除RTB 可能會(huì)大大削弱對(duì)空間結(jié)構(gòu)的表示能力,導(dǎo)致性能大幅下降(參考ELF和w/o RTB模型的結(jié)果,PSNR下降2.09 dB)。此外,EDB允許網(wǎng)絡(luò)聚合多尺度的紋理特征,這對(duì)于豐富局部紋理的表征至關(guān)重要。

      3.3 與SOTA的比較

      3.3.1 合成數(shù)據(jù)

      表2 提供了在Test1200、Test100、100H 和R100L數(shù)據(jù)集的定量結(jié)果,以及推理時(shí)間、模型參數(shù)和計(jì)算成本。據(jù)觀察,大多數(shù)模型在小雨的情況下一致地獲得了優(yōu)異性能,而ELF 和MPRNet 在大雨條件下仍然表現(xiàn)良好,特別在PSNR 上顯示出更大的優(yōu)勢(shì)。ELF 模型在所有指標(biāo)上都取得最優(yōu),平均超過了基于CNN 的SOTA(MPRNet)0.25 dB,且僅占其計(jì)算成本和參數(shù)的11.7%和42.1%。同時(shí),輕量模型ELF-LW 仍然具有競(jìng)爭(zhēng)力,在4 個(gè)數(shù)據(jù)集上的PSNR分?jǐn)?shù)排名第3,平均比實(shí)時(shí)圖像去雨的方法PCNet(Jiang 等,2021c)高出1.08 dB,并具有更少的參數(shù)(節(jié)省13.6%)和計(jì)算成本(節(jié)省23.7%)。

      表2 在4個(gè)數(shù)據(jù)集上PSNR、SSIM和FSIM 的比較結(jié)果Table 2 Comparison results of average PSNR,SSIM,and FSIM on four datasets

      圖6提供了結(jié)果可視化,PreNet、MSPFN和RCDNet 等高精度的方法,可以有效消除雨水層,從而提高可見度。但由于大量的偽影和不自然的顏色外觀,尤其是在大雨條件下,它們未能在視覺上產(chǎn)生好的效果。DRDNet專注于細(xì)節(jié)的重構(gòu),但推理過程耗時(shí)長(zhǎng)、內(nèi)存大。MPRNet 往往會(huì)產(chǎn)生過度平滑的結(jié)果。ELF 除了重構(gòu)出更干凈和更可靠的圖像紋理外,產(chǎn)生的結(jié)果也具有更好的對(duì)比度以及更少的顏色失真(參考“老虎”和“馬”的場(chǎng)景)。此外,可以推出重構(gòu)質(zhì)量的改善可能得益于提出的Transformer和CNN 的混合表示框架以及用于雨紋去除和背景重構(gòu)的關(guān)聯(lián)學(xué)習(xí)方案。這些策略方法被集成到一個(gè)統(tǒng)一的框架中,使得網(wǎng)絡(luò)能夠充分利用各自的學(xué)習(xí)優(yōu)點(diǎn)進(jìn)行圖像去雨,同時(shí)保證模型的推理效率。

      圖6 7種圖像去雨方法的可視化結(jié)果對(duì)比Fig.6 Visualization comparison of the results of seven image deraining methods

      3.3.2 真實(shí)場(chǎng)景數(shù)據(jù)

      進(jìn)一步在3 個(gè)真實(shí)場(chǎng)景的數(shù)據(jù)集Real127、RID和RIS 上進(jìn)行實(shí)驗(yàn)。表3 列出了NIQE 和SSEQ 的定量結(jié)果,其中NIQE 和SSEQ 分?jǐn)?shù)越小,表示感知的質(zhì)量越好,內(nèi)容越清晰。ELF 同樣具有很強(qiáng)的競(jìng)爭(zhēng)力,在RID 數(shù)據(jù)集上的平均分?jǐn)?shù)值最低,NIQE 和SSEQ 的平均分?jǐn)?shù)在Real127 和RIS 數(shù)據(jù)集上是最好的。圖7 直觀展示了8 種方法在5 個(gè)真實(shí)場(chǎng)景(包括雨霧效應(yīng)、大雨和小雨)中去雨的結(jié)果??梢钥闯觯珽LF 產(chǎn)生的無雨圖像中內(nèi)容更干凈、更可信,而其他的方法未能很好地去除雨痕。這些實(shí)驗(yàn)表明了ELF模型不僅能夠很好地消除雨水?dāng)_動(dòng),同時(shí)還能保留紋理細(xì)節(jié)和圖像自然度。

      表3 3個(gè)真實(shí)數(shù)據(jù)集上10種圖像去雨方法的NIQE/SSEQ 平均分?jǐn)?shù)對(duì)比Table 3 Comparison of average NIQE/SSEQ scores with ten deraining methods on three real-world datasets

      圖7 8種方法在5個(gè)真實(shí)場(chǎng)景中去雨的結(jié)果對(duì)比Fig.7 Visual comparison of derained images obtained by eight methods on five real-world scenarios

      3.4 對(duì)下游視覺任務(wù)的影響

      在雨天條件下消除雨紋的退化影響,同時(shí)保留可靠的紋理細(xì)節(jié)對(duì)于目標(biāo)檢測(cè)來說至關(guān)重要。這就促使本文研究去雨對(duì)目標(biāo)檢測(cè)算法中檢測(cè)精度的影響。為此,將ELF 和幾個(gè)有代表性的去雨方法直接應(yīng)用在一些雨天圖像并生成對(duì)應(yīng)的無雨圖像,然后使用公開的YOLOv3(Redmon 和Farhadi,2018)預(yù)訓(xùn)練模型進(jìn)行檢測(cè)。

      表4 展示了不同方法在COCO350 和BDD350 數(shù)據(jù)集上聯(lián)合圖像去雨和目標(biāo)檢測(cè)的結(jié)果比較。其中,COCO350 數(shù)據(jù)集的圖像尺寸為640×480 像素,BDD350 數(shù)據(jù)集的圖像尺寸為1 280×720 像素,目標(biāo)檢測(cè)算法為YOLOv3(you only look once v3)閾值為0.6。從表4 可以看出,ELF 在COCO350 和BDD350 數(shù)據(jù)集(Jiang 等,2020a)上的PSNR 分?jǐn)?shù)最高,與其他去雨方法相比,ELF 生成的無雨結(jié)果具有更好的目標(biāo)檢測(cè)性能。

      表4 不同方法在COCO350/BDD350數(shù)據(jù)集上聯(lián)合圖像去雨和目標(biāo)檢測(cè)的結(jié)果比較Table 4 Comparison results of joint image deraining and object detection on COCO350/BDD350

      圖8 為不同方法在BDD350 數(shù)據(jù)集上聯(lián)合圖像去雨和目標(biāo)檢測(cè)的可視化比較。圖8 中兩個(gè)樣本的比較表明,ELF去雨圖像在圖像質(zhì)量和檢測(cè)精度方面有著顯著的優(yōu)勢(shì)。去雨和下游檢測(cè)任務(wù)的顯著性能歸因于雨紋消除和細(xì)節(jié)重構(gòu)任務(wù)之間的關(guān)聯(lián)學(xué)習(xí)。

      圖8 不同方法在BDD350數(shù)據(jù)集上聯(lián)合圖像去雨和目標(biāo)檢測(cè)的可視化比較Fig.8 Visual comparison of joint image deraining and object detection on BDD350 dataset

      3.5 對(duì)其他圖像恢復(fù)任務(wù)的通用性

      一些圖像恢復(fù)任務(wù)如水下圖像增強(qiáng),低光照?qǐng)D像增強(qiáng)等,具有和圖像去雨相似的退化干擾因素,因此,為進(jìn)一步探索提出的ELF的通用性與穩(wěn)定性,本節(jié)在水下圖像增強(qiáng)和低光照?qǐng)D像增強(qiáng)任務(wù)上開展了簡(jiǎn)單的研究。

      3.5.1 水下圖像增強(qiáng)

      根據(jù)Li 等人(2021),使用2 050 對(duì)生成的水下圖像來訓(xùn)練ELF。其中,800 對(duì)圖像選自UIEB(Li等,2020a)數(shù)據(jù)集,1 250 對(duì)圖像選自Li等人(2020a)提出的數(shù)據(jù)集S1000。分別在真實(shí)場(chǎng)景數(shù)據(jù)集R90(Li 等,2019b)和合成數(shù)據(jù)集S1000 上進(jìn)行實(shí)驗(yàn),并與7個(gè)主流的水下圖像增強(qiáng)方法進(jìn)行了對(duì)比。

      表5列出了PSNR和均方誤差(mean squared error,MSE)的定量結(jié)果,PSNR 分?jǐn)?shù)越大、MSE 分?jǐn)?shù)越小表明圖像的質(zhì)量越好??梢钥吹剑珽LF 在R90和S1000數(shù)據(jù)集上都取得了最好的結(jié)果,且平均PSNR分?jǐn)?shù)比Ucolor(Li等,2021)方法分別高出4.15 dB和3.94 dB。

      表5 在S1000和R90數(shù)據(jù)集上7種水下圖像增強(qiáng)方法的PSNR 和 MSE平均分?jǐn)?shù)比較Table 5 Comparison of average PSNR and MSE scores with seven underwater image enhancement methods on S1000 and R90 datasets

      圖9 直觀地展示了得出的結(jié)果,可以看到,提出的方法在有效矯正水下圖像的對(duì)比度和光照失真的同時(shí),可以恢復(fù)出了更真實(shí)的細(xì)節(jié)結(jié)構(gòu),而其他對(duì)比方法,要么沒有消除水下異常色調(diào),要么恢復(fù)出的圖像模糊、缺少細(xì)節(jié)信息。這些實(shí)驗(yàn)表明了ELF 模型在水下圖像增強(qiáng)任務(wù)上的有效性和優(yōu)勢(shì)。

      圖9 5種方法在S1000和R90數(shù)據(jù)集上增強(qiáng)后的結(jié)果比較Fig.9 Visual comparison of enhanced images obtained by five methods on S1000 and R90

      3.5.2 低光照?qǐng)D像增強(qiáng)

      在低光照?qǐng)D像增強(qiáng)領(lǐng)域最常用的基準(zhǔn)數(shù)據(jù)集之一LOL(Li 等,2019a)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),評(píng)估ELF在該任務(wù)上的性能。使用LOL 訓(xùn)練集中485 對(duì)低光—正常光的圖像對(duì)訓(xùn)練ELF,并在測(cè)試集上進(jìn)行測(cè)試。除了PSNR 和SSIM 評(píng)估指標(biāo)外,還使用了LPIPS(learned perceptual image patch similarity)(Li等,2020a)指標(biāo),越低的LPIPS 分?jǐn)?shù)表示感知質(zhì)量越好。

      表6 給出了與9 個(gè)主流的低光照增強(qiáng)方法的定量對(duì)比結(jié)果,ELF 取得了最高的PSNR 分?jǐn)?shù),在SSIM和LPIPS 指標(biāo)上也十分接近當(dāng)下的最優(yōu)方法。其中,LLFolw 采用額外的條件編碼器提取光照不變的顏色圖作為先驗(yàn)分布的均值,并利用基于低光照?qǐng)D像/特征為條件的負(fù)對(duì)數(shù)似然損失,這有助于表征圖像結(jié)構(gòu)和上下文內(nèi)容,保證在圖像流形中具有和真值相近的顏色分布。因此,LLFolw 可以獲得更好的MAE 和LPIPS 分?jǐn)?shù)。相比之下,本文提出的ELF 不需要任何顏色先驗(yàn),但因具有精細(xì)的關(guān)聯(lián)學(xué)習(xí)方案,和逐像素、結(jié)構(gòu)一致性約束,這對(duì)本文方法獲得更高的PSNR得分貢獻(xiàn)更大。

      表6 在LOL數(shù)據(jù)集上比較9種低光照?qǐng)D像增強(qiáng)方法的PSNR、SSIM、LPIPS和MAETable 6 Comparison of average PSNR,SSIM,LPIPS and MAE scores with nine low light image enhancement methods on LOL datasets

      為了進(jìn)一步顯示ELF 的有效性,圖10 展示了直觀的視覺結(jié)果??梢钥吹?,部分方法恢復(fù)出的圖像存在較大的噪聲和偽影,如EnlightenGAN(Jiang 等,2021d)和KinD++(Zhang 等,2021);一些方法要么增強(qiáng)后的亮度不足,要么出現(xiàn)了過曝光的情況;相比之下,ELF 在合理增強(qiáng)圖像亮度的同時(shí),受噪聲和色偏的影響較小,且恢復(fù)出了更接近原圖的結(jié)構(gòu)信息。這些實(shí)驗(yàn)表明了ELF模型在低光圖像增強(qiáng)任務(wù)上的魯棒性,也驗(yàn)證了提出的退化消除和背景恢復(fù)關(guān)聯(lián)學(xué)習(xí)方案的有效性。

      圖10 7種方法在LOL數(shù)據(jù)集上增強(qiáng)后的結(jié)果比較Fig.10 Visual comparison of enhanced images obtained by seven methods on LOL dataset

      4 結(jié)論

      基于降質(zhì)分布揭示了圖像退化位置和程度的觀察,本文引入退化先驗(yàn)來幫助精確的背景恢復(fù),并據(jù)此提出了高效高質(zhì)的部分—整體圖像擾動(dòng)去除和背景修復(fù)方案,即ELF。為了在提高模型緊湊型的同時(shí)實(shí)現(xiàn)關(guān)聯(lián)學(xué)習(xí),提出同時(shí)利用Transformer 和CNN的優(yōu)勢(shì),構(gòu)建一個(gè)精心設(shè)計(jì)的多輸入注意力模塊(MAM)來實(shí)現(xiàn)擾動(dòng)去除和背景修復(fù)的關(guān)聯(lián)學(xué)習(xí)。在圖像去雨、水下圖像增強(qiáng)、低光圖像增強(qiáng)和聯(lián)合目標(biāo)檢測(cè)任務(wù)上的大量實(shí)驗(yàn)結(jié)果表明,本文提出的ELF模型遠(yuǎn)優(yōu)于現(xiàn)有的主流圖像增強(qiáng)模型。

      盡管本文方法在圖像去雨、水下圖像增強(qiáng)、低光圖像增強(qiáng),以及聯(lián)合目標(biāo)檢測(cè)任務(wù)上展示了令人印象深刻的效果,但因缺少對(duì)不同降質(zhì)的特性和共性特征的特定表達(dá),在應(yīng)對(duì)具有多種復(fù)雜天氣條件的真實(shí)場(chǎng)景時(shí)可能失效。同時(shí),該方法仍然需求大量的高質(zhì)量成對(duì)訓(xùn)練數(shù)據(jù),極大地限制了在新場(chǎng)景和新任務(wù)上的推廣,并且和真實(shí)環(huán)境降質(zhì)存在極大的域差異。為了解決上述問題,未來作者團(tuán)隊(duì)擬引入視覺大模型作為特征、語義表達(dá)先驗(yàn),在隱式空間實(shí)現(xiàn)不同降質(zhì)環(huán)境下場(chǎng)景本質(zhì)信息的表征,消除場(chǎng)景和降質(zhì)差異;進(jìn)一步引入基于提示的文本語言大模型,實(shí)現(xiàn)實(shí)時(shí)可交互的場(chǎng)景內(nèi)容修復(fù)、理解和分析。

      猜你喜歡
      圖像增強(qiáng)集上注意力
      讓注意力“飛”回來
      圖像增強(qiáng)技術(shù)在超跨聲葉柵紋影試驗(yàn)中的應(yīng)用
      水下視覺SLAM圖像增強(qiáng)研究
      Cookie-Cutter集上的Gibbs測(cè)度
      鏈完備偏序集上廣義向量均衡問題解映射的保序性
      虛擬內(nèi)窺鏡圖像增強(qiáng)膝關(guān)節(jié)鏡手術(shù)導(dǎo)航系統(tǒng)
      復(fù)扇形指標(biāo)集上的分布混沌
      基于圖像增強(qiáng)的無人機(jī)偵察圖像去霧方法
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      A Beautiful Way Of Looking At Things
      东城区| 海门市| 雅安市| 大安市| 宜章县| 额敏县| 大石桥市| 大同市| 莲花县| 三河市| 定西市| 富裕县| 苗栗市| 六枝特区| 文水县| 隆昌县| 安康市| 藁城市| 罗田县| 沙雅县| 新乐市| 满洲里市| 商城县| 大城县| 新营市| 双柏县| 鄱阳县| 玉溪市| 海盐县| 澄江县| 伊金霍洛旗| 临武县| 随州市| 绥棱县| 临猗县| 威海市| 四子王旗| 沐川县| 平泉县| 临沧市| 达日县|