胡張穎,周全*,陳明舉,崔景程,吳曉富,鄭寶玉
1.南京郵電大學(xué)通信與信息工程學(xué)院,南京 210003;2.四川輕化工大學(xué)人工智能四川省重點實驗室,宜賓 644000
圖像模糊是由于圖像采集過程中的成像設(shè)備自身的散焦、抖動或圖像物體運動等因素導(dǎo)致的(Joshi等,2008;Sun 等,2015)。例如,拍攝運動中的物體時,快門時間較長或手持相機不穩(wěn)定,會導(dǎo)致圖像模糊。而這種模糊會降低圖像的質(zhì)量,影響圖像的視覺感受效果和有效信息提取。為了解決這個問題,圖像去模糊技術(shù)應(yīng)運而生。通過運用先進的算法和技術(shù),可以將模糊的圖像轉(zhuǎn)化為清晰、銳利的圖像,并重新展現(xiàn)其細節(jié)和質(zhì)感。這種圖像去模糊技術(shù)在醫(yī)療(Sharif 等,2023)、安防監(jiān)控(馬蘇欣 等,2019)、圖像分類(He 等,2016)和目標檢測(Isola 等,2017)等領(lǐng)域具有重要的應(yīng)用價值。因此,研究如何對這些圖像進行去模糊成為底層計算機視覺領(lǐng)域的一項重要任務(wù),并具有廣泛的應(yīng)用前景。
根據(jù)造成圖像模糊的原因,模糊類型主要可以分為運動模糊(motion blur)、散焦模糊(out-of-focus blur)和高斯模糊(Gaussian blur)(Zhang 等,2022)。目前的研究主要關(guān)注解決圖像運動模糊問題,因為相比于散焦模糊和高斯模糊,圖像運動模糊更常見且較難處理。特別是在拍攝運動物體或快速移動場景時,圖像容易受到運動模糊的影響。在進行圖像去模糊后,需要對處理結(jié)果進行評價。常用的方法是圖像質(zhì)量評價(image quality assessment,IQA),IQA可以分為主觀評價和客觀評價兩類(程茹秋 等,2022),而客觀評價方法又可分為全參考(Wang 等,2017)、半?yún)⒖迹↙iu 等,2018)和無參考(Mittal 等,2012;Kang 等,2014)3 類。鑒于主觀評價方法需要耗費大量人力物力資源,在實際應(yīng)用中更多采用客觀評價方法。
傳統(tǒng)圖像去模糊方法可以視為反向求解圖像模糊模型的問題。當整個圖像模糊均勻時,模糊模型可以建模為模糊圖像與模糊核的卷積過程(Fergus等,2006;Chen 等,2019)。在已知模糊核的情況下,可稱之為非盲去模糊問題(Yuan 等,2008),早期采用圖像先去噪后反卷積或迭代求解模糊過程兩種算法來處理這些模糊圖像。而在未知模糊核或清晰圖像的情況下,則屬于盲去模糊問題(Krishnan 等,2011),傳統(tǒng)方法主要先通過估計模糊核,再轉(zhuǎn)變?yōu)榉敲D像去模糊問題。然而,傳統(tǒng)方法更適用于均勻模糊,對于多物體運動和復(fù)雜環(huán)境下的非均勻模糊效果不佳。隨著深度學(xué)習(xí)的發(fā)展,基于端到端的深度學(xué)習(xí)圖像去模糊方法相繼提出。相比于傳統(tǒng)圖像去模糊的方法,基于深度學(xué)習(xí)的方法能夠自動學(xué)習(xí)圖像模糊過程中的深度特征,避免模糊核估計過程。這些方法包括基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)(Nah 等,2017;Cho 等,2021)、基于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)(Zhang 等,2018;Gao 等,2019)、基于生成對抗網(wǎng)絡(luò)(generative adversarial network,GAN)(Kupyn 等,2018)和基于Transformer(Wang等,2022)等。
本文結(jié)構(gòu)如圖1 所示。對圖像去模糊領(lǐng)域的研究進展進行全面綜述,分別從傳統(tǒng)圖像去模糊方法和基于深度學(xué)習(xí)的一些新興方法兩個方面展開論述。首先,回顧圖像去模糊的發(fā)展歷程,然后介紹不同類型的模糊和質(zhì)量評價指標。接著,詳細討論圖像去模糊的傳統(tǒng)方法和基于深度學(xué)習(xí)模型的方法。在傳統(tǒng)方法方面,根據(jù)模糊核是否已知對其進行分類;而在基于深度學(xué)習(xí)的方法方面,則根據(jù)網(wǎng)絡(luò)模型架構(gòu)進行細分,并闡述不同網(wǎng)絡(luò)模型方法的應(yīng)用。然后,介紹圖像去模糊領(lǐng)域的公共基準數(shù)據(jù)集以及對具有代表性的算法進行全面評估分析。最后,分析圖像去模糊領(lǐng)域所面臨的挑戰(zhàn),并對存在的一些問題進行總結(jié)和展望。
圖1 本文架構(gòu)Fig.1 The architecture of this paper
Zhang 等人(2022)的綜述更多關(guān)注基于深度學(xué)習(xí)的圖像和視頻去模糊的方法,而本文綜述深入探討了圖像去模糊領(lǐng)域傳統(tǒng)方法和基于深度學(xué)習(xí)的方法之間的區(qū)別和聯(lián)系,以及近期在圖像去模糊任務(wù)中應(yīng)用和研究的Transformer 方法。相較現(xiàn)有綜述,本文更全面地梳理了圖像去模糊領(lǐng)域的進展,并對相關(guān)領(lǐng)域起到借鑒和推動的作用。
圖像去模糊領(lǐng)域自20世紀60年代發(fā)展至今,產(chǎn)生了許多具有影響力的工作。傳統(tǒng)的圖像去模糊方法大都采用線性模型進行建模,無法有效應(yīng)對復(fù)雜先驗分布下的圖像去模糊問題。隨著深度學(xué)習(xí)技術(shù)的日益發(fā)展,深度學(xué)習(xí)模型可以利用大量的訓(xùn)練數(shù)據(jù)自主選擇特征,并借助其自身非線性特性廣泛應(yīng)用于圖像去模糊問題。本文對圖像去模糊自2005年以來的發(fā)展進行總結(jié),圖2 按時間軸在圖像非盲去模糊和圖像盲去模糊兩個領(lǐng)域展示了一些傳統(tǒng)方法和深度學(xué)習(xí)方法。其中黃色箭頭表示被廣泛認為較經(jīng)典的算法;藍色和紫色箭頭分別表示非盲圖像去模糊和盲圖像去模糊中較具有代表性的算法。
圖2 圖像去模糊的發(fā)展歷程Fig.2 Chronology of classical methods for image deblurring
1.1.1 基于圖像塊先驗的非盲圖像去模糊
Zoran 和Weiss(2011)采用高斯混合模型對圖像塊進行建模,并將學(xué)習(xí)到的圖像特征作為去模糊的正則化項。該方法證明了使用小圖像塊時,可以有效地學(xué)習(xí)先驗信息以進行圖像恢復(fù),引起了很多研究人員的廣泛關(guān)注。其他代表性的工作包括:先去噪后反卷積(Chen 等,2010;Danielyan 等,2012)和迭代求解模糊過程(Yuan 等,2008;Kheradmand 和Milanfar,2014;Khetkeeree 和Liangrocapart,2019)的圖像去模糊方法。
1.1.2 基于卷積神經(jīng)網(wǎng)絡(luò)的非盲圖像去模糊
模型優(yōu)化和判別式學(xué)習(xí)是解決底層視覺任務(wù)中逆問題的兩種策略,Zhang等人(2017)將兩種方法進行結(jié)合,訓(xùn)練快速有效的CNN去噪器,以解決非盲圖像去模糊問題。隨著深度學(xué)習(xí)的發(fā)展,其他具有代表性的工作還包括:傳統(tǒng)方法與深度學(xué)習(xí)相結(jié)合的方法(Zhang等,2019b;Dong等,2022)和純深度學(xué)習(xí)的方法(Vasu等,2018;Zhou等,2020;Eboli等,2020)。
1.2.1 模糊核估計的盲去模糊方法
Fergus 等人(2006)的方法摒棄了以往盲去模糊方法對卷積核或圖像的先驗假設(shè),實現(xiàn)了真正意義上的盲圖像去模糊。這類方法重點集中在未知模糊核的估計上,因為一旦能夠準確估計模糊核,任何非盲去模糊算法都可以用估計的模糊核對圖像進行去模糊。傳統(tǒng)盲圖像去模糊具有代表性的工作還包括以下幾種方法:基于圖像邊緣特征的方法(Joshi等,2008;Chen 等,2019);基于最大后驗概率(maximum a posteriori,MAP)的方法(Shan 等,2008;Cho和Lee,2009;Levin 等,2011);基于圖像稀疏表達的方 法(Krishnan 等,2011;Pan 等,2016;Yan 等,2017)。
1.2.2 基于深度學(xué)習(xí)的盲去模糊方法
Sun 等人(2015)首次將CNN 應(yīng)用到圖像去模糊領(lǐng)域,是圖像去模糊領(lǐng)域的一個重要轉(zhuǎn)折點。它利用圖像塊統(tǒng)計信息來建模非均勻運動模糊,并取得了顯著效果。隨著深度學(xué)習(xí)的發(fā)展,盲圖像去模糊的代表性工作還包括:基于卷積神經(jīng)網(wǎng)絡(luò)的方法(Nah 等,2017;Zamir 等,2021);基于循環(huán)神經(jīng)網(wǎng)絡(luò)的SRN-DeblurNet(scale-recurrent network for deep image deblurring)(Tao 等,2018);基于生成對抗網(wǎng)絡(luò)的DeblurGAN(Kupyn 等,2018)和在其改進DeblurGAN-v2(Kupyn 等,2019);基于Transformer 的Restormer(Zamir等,2022)和CTMS(CNN-Transformer multiscale structure)(Zhao 等,2023)。這些深度學(xué)習(xí)的方法要么估計模糊核再進行反卷積去模糊,要么采用端到端的方法,直接從模糊圖像預(yù)測清晰圖像。
圖像模糊是由多種原因引起的,主要包括運動模糊、散焦模糊和高斯模糊,使得圖像中的細節(jié)不清晰、邊緣模糊或整體呈現(xiàn)出模糊的效果(Zhang 等,2022)。在對圖像進行去模糊處理后,需要評估圖像的清晰度,通常采用一些圖像質(zhì)量評價標準來衡量圖像的質(zhì)量。這些評價標準能夠確定恢復(fù)圖像是否清晰,并提供一種客觀的方式來比較不同圖像處理算法的性能。下面分別從模糊成因和圖像評價標準進行綜述。
圖像在獲取和存儲過程中存在著許多不確定的因素,無論是拍攝時物體的快速移動或相機設(shè)備的抖動等形成的運動模糊,還是相機設(shè)備聚焦不當造成的散焦模糊,或是天氣因素產(chǎn)生的高斯模糊。模糊類型錯綜復(fù)雜,但圖像模糊過程可以統(tǒng)一建模為
式中,X為清晰圖像,Y為模糊圖像,K為模糊核或點擴散函數(shù)(point spread function,PSF),其中?為卷積操作,N為加性噪聲。整個圖像模糊過程可以表示為原始清晰圖像X與模糊核K進行卷積運算,并加上噪聲得到模糊圖像Y。
2.1.1 運動模糊
根據(jù)模糊區(qū)域,可以將運動模糊劃分為全局運動模糊和局部運動模糊兩類(劉利平 等,2022)。全局運動模糊是指整個圖像在同一方向上發(fā)生模糊,通常是由相機或物體的移動造成(Pan 和Su,2013;Yan 等,2017)。例如,當在拍攝運動車輛時,由于相機或車輛移動,圖像中的車輛會變得模糊不清,這就屬于全局運動模糊。局部運動模糊是指圖像中只有某些區(qū)域發(fā)生模糊,通常是由物體的運動或相機焦距的變化造成(Dai和Wu,2008)。例如,當在拍攝一個人物時,如果他的手或頭部移動了,這些區(qū)域就可能出現(xiàn)局部運動模糊。通常情況下,大多數(shù)運動模糊的模糊核是不清楚的,因此運動模糊大多是圖像盲去模糊問題。
2.1.2 散焦模糊
散焦模糊通常是因為相機或鏡頭無法將圖像的所有部分聚焦在同一平面上,導(dǎo)致圖像變得模糊不清(Shen 等,2012;衡紅軍 等,2021;Quan 等,2023)。當相機或鏡頭無法正確對焦時,圖像中的物體會失去清晰度,看起來模糊或者像是被涂上一層薄霧。散焦模糊的點擴散函數(shù)表示為
式中,F(xiàn)(x,y)表示模糊核在位置(x,y)處的像素值,R表示散焦模糊半徑。
2.1.3 高斯模糊
對于每個像素,將其周圍的像素按照高斯分布函數(shù)計算權(quán)重,然后將這些像素的值加權(quán)平均,得到一個新的像素值。這個過程在整幅圖像上重復(fù)進行,從而得到一幅模糊的圖像,這種模糊稱為高斯模糊(Bar 等,2006;Chen 和Ma,2009;Wang 等,2010)。高斯模糊的點擴散函數(shù)表示為
式中,σ表示高斯模糊的標準差,也稱為模糊半徑,模糊半徑越長,圖像模糊程度越高。G(x,y)表示模糊核在位置(x,y)處的像素值。
圖像去模糊質(zhì)量評價分為主觀評價和客觀評價兩類(程茹秋 等,2022)。主觀評價是指人們從感性認識的視覺和經(jīng)驗角度對圖像質(zhì)量進行主觀判定。由于需要人為打分得到平均主觀分數(shù)(mean opinion score,MOS)(Ho?feld 等,2016)來評估圖像質(zhì)量,因而往往這種評價機制更加符合人眼視覺特性。但是主觀打分容易受到主觀影響,而且需要耗費大量的人力,成本高效率低。因此,大多圖像質(zhì)量評價以客觀評價為主,再進一步劃分為全參考(full-reference,F(xiàn)R)(Wang 等,2017)、半?yún)⒖迹╮educed-reference,RR)(Liu等,2018)和無參考(no-reference,NR)(Mittal等,2012)圖像質(zhì)量評價。
2.2.1 全參考圖像質(zhì)量評價(FR-IQA)
FR-IQA 是基于原始圖像和失真圖像之間的差異來評估圖像質(zhì)量。廣泛采用的評價指標包括均方誤差(mean square error,MSE)(Haigh,1980)和峰值信噪比(peak signal to noise ratio,PSNR)(Huynh-Thu和Ghanbari,2008)。然而,這兩種方法被認為與人類視覺系統(tǒng)(human visual system,HVS)不符。因此,先后提出了基于結(jié)構(gòu)相似度(structual similarity,SSIM)(Wang等,2004)和基于HVS的評價方法。
SSIM通過比較原始圖像X與復(fù)原圖像Y之間的結(jié)構(gòu)信息變化來衡量圖像質(zhì)量。然而,SSIM 在評估圖像質(zhì)量方面的效果并不理想,Chen 等人(2006)提出基于梯度的結(jié)構(gòu)相似度(gradient-based structural similarity,GSSIM)方法,利用邊緣信息作為重要的圖像結(jié)構(gòu)信息,并使用梯度代替結(jié)構(gòu)相似度中的對比度和結(jié)構(gòu)度量。因為圖像模糊會減弱圖像中包含的語義信息,為此Zhang 等人(2013)提出ESSIM(edge strength similarity-based image quality metric)方法,通過計算邊緣強度相似性來衡量由語義感知導(dǎo)致的質(zhì)量退化。
HVS 算法主要利用人眼的亮度適應(yīng)性、邊緣敏感性、多尺度和掩蔽效應(yīng)等多種特性來衡量圖像質(zhì)量。Chandler 和Hemami(2007)提出基于小波的自然圖像視覺信噪比方法,用于量化失真圖像的視覺保真度。Larson 和Chandler(2010)認為用HVS 判斷圖像質(zhì)量時采用單一的策略(如提取圖像結(jié)構(gòu)信息)往往是不夠的,因此提倡HVS 使用多策略來衡量圖像質(zhì)量,對于高質(zhì)量圖像,采用局部亮度和對比度來感知失真;對于低質(zhì)量圖像,采用空間頻率分量的局部統(tǒng)計變化來感知失真。Zhang 等人(2011)將相位一致性作為主要特征,圖像梯度的幅度作為次要特征提出了基于HVS 底層特征的圖像質(zhì)量評價算法。
2.2.2 半?yún)⒖紙D像質(zhì)量評價(RR-IQA)
RR-IQA 一般基于圖像的部分信息而非完整信息來進行質(zhì)量評價。相比于FR-IQA,RR-IQA 具有靈活性、適用性強和傳輸數(shù)據(jù)量小等特點。RR-IQA的代表性工作是采用變換域方法進行質(zhì)量評估(Wang 等,2006;Li 和Wang,2009)。Wang 等人(2006)提出一種基于小波變換域的自然圖像統(tǒng)計模型。該模型使用小波系數(shù)對原始圖像進行編碼,并通過比較解碼后的系數(shù)分布與原始圖像系數(shù)分布的偏差來量化圖像的質(zhì)量。Li 和Wang(2009)將分裂歸一化和小波變換結(jié)合,利用小波變換高斯混合模型計算圖像的分裂歸一化變換,在變換域提取特征進行質(zhì)量評估。此外,另一類RR-IQA 方法采用稀疏表達進行質(zhì)量評價(Liu 等,2018;Wan 等,2020)。Liu 等人(2018)利用稀疏表達分別預(yù)測參考圖像和失真圖像,然后通過預(yù)測誤差熵之間的差值衡量圖像質(zhì)量。而Wan 等人(2020)提出使用稀疏表達和自然場景統(tǒng)計特性來模擬大腦視覺感知的RR-IQA。
2.2.3 無參考圖像質(zhì)量評價(NR-IQA)
FR-IQA 和RR-IQA 都需要借助原始清晰圖像作為參考,并通過計算特征差異或統(tǒng)計度量來評估圖像質(zhì)量,但所得到的結(jié)果并不能很好地滿足HVS。因此,NR-IQA 應(yīng)運而生。NR-IQA 通過建立圖像與主觀質(zhì)量評分之間的映射關(guān)系進行質(zhì)量評價,從而更加符合人眼的主觀性。在NR-IQA 模型中,當算法評價值與MOS 值越接近、相關(guān)性越強,說明評價越準確,反之亦然。
無參考方法中的自然場景統(tǒng)計(natural scene statistical,NSS)方法是指高質(zhì)量圖像的視覺特征(如亮度、梯度等)服從一定的分布規(guī)律,而不同類型或不同程度的失真會對這種分布產(chǎn)生影響(方玉明等,2021)。Moorthy 和Bovik(2011)以及Mittal 等人(2012)分別提出DIIVINE 和BRISQUE 方法。DIIVINE 使用兩階段框架,首先用提取的場景統(tǒng)計信息預(yù)測失真類型,然后利用預(yù)測結(jié)果評估圖像質(zhì)量。而BRISQUE 模型采用空間域中的NSS 模型提取圖像特征進行圖像質(zhì)量評價。
盡管基于NSS 的方法對部分失真效果較好,但由于外界因素的復(fù)雜性,這些方法還不能有效應(yīng)對各種失真。為此,Kang等人(2014)提出將CNN 應(yīng)用到NR-IQA,利用CNN 網(wǎng)絡(luò)架構(gòu)對圖像塊進行特征提取,然后建模圖像特征和評價分數(shù)之間的映射關(guān)系。Li 等人(2016)提出了端到端CNN 模型,直接以原始圖像作為輸入并輸出圖像質(zhì)量分數(shù)。受無監(jiān)督預(yù)訓(xùn)練方法啟發(fā),Madhusudana 等人(2022)將圖像質(zhì)量評價從一個回歸問題轉(zhuǎn)化為分類問題,設(shè)計了一種基于對比學(xué)習(xí)的IQA訓(xùn)練框架。使用失真類型和失真程度作為輔助任務(wù),從未標記的數(shù)據(jù)集中學(xué)習(xí)特征,進行正確的歸類。對輔助任務(wù)訓(xùn)練得到的模型進行圖像評估,從而得到質(zhì)量分數(shù)。
如圖1 所示,2017 年之前圖像去模糊主要采用傳統(tǒng)方法,下面從非盲去模糊和盲去模糊兩個方面回顧經(jīng)典工作。
傳統(tǒng)的非盲圖像去模糊算法主要關(guān)注如何在噪聲干擾的情況下,能夠有效地恢復(fù)出清晰圖像(楊航,2022)。因此,非盲圖像去模糊主要從以下兩類方法進行考慮:先去噪后反卷積(Chen 等,2010;Danielyan 等,2012)和迭代求解模糊過程(Zoran 和Weiss,2011)。
3.1.1 先去噪后反卷積
在圖像去模糊領(lǐng)域,早期的研究包括Wiener(1964)提出的自適應(yīng)方差最小化濾波器,也稱為維納濾波。該方法通過信號和噪聲的統(tǒng)計特性來計算濾波器的權(quán)重,然后將這些權(quán)重應(yīng)用于原始信號以濾除噪聲的干擾,再進行反卷積實現(xiàn)去模糊。Kalifa等人(2003)將小波技術(shù)融合到反卷積中,提出了一種能匹配卷積核頻域性質(zhì)的鏡像小波,通過閾值收縮來達到抑制噪聲的目的。由于非局部均值濾波具有較強的紋理保持和濾波能力,Chen 等人(2010)使用非局部均值濾波來減少彩色噪聲,從而在去模糊過程中更好地捕捉了模糊圖像中細膩的紋理信息。Danielyan 等人(2012)借鑒了三維圖像塊匹配濾波(block matching 3D filtering,BM3D)(Dabov 等,2007)的思想,將其應(yīng)用于圖像去模糊來濾除噪聲。
3.1.2 迭代求解模糊過程
盡管濾除噪聲有益于后續(xù)反卷積操作,但在沒有足夠先驗信息的情況下可能會出現(xiàn)振鈴效應(yīng)(Mosleh 等,2018)或者噪聲濾波不完全的問題。因此,許多學(xué)者從迭代優(yōu)化的角度改善非盲圖像恢復(fù)效果。Lucy(1974)基于貝葉斯理論提出了Richardson-Lucy 迭代算法,利用最大似然估計對模糊圖像進行非線性迭代,不斷優(yōu)化去模糊圖像結(jié)果。Yuan 等人(2008)提出了一種由粗到細的漸進式反卷積方法。通過在每個尺度上迭代應(yīng)用雙邊正則化,可以恢復(fù)圖像的細節(jié)和邊緣,同時避免振鈴效應(yīng)。Krishnan 和Fergus(2009)通過迭代優(yōu)化圖像的稀疏表達來估計圖像的梯度分布,從而達到去模糊的效果。
迭代方法在很大程度上受正則化項的選擇影響,因此選擇適當?shù)恼齽t化項可以更好地解決去模糊問題。Zoran和Weiss(2011)采用高斯混合模型對圖像塊進行建模,利用學(xué)習(xí)得到的圖像特征作為正則項進行非盲去模糊。Kheradmand 和Milanfar(2014)提出一種基于核相似度的圖像去模糊方法,通過估計相似度的權(quán)重來調(diào)整拉普拉斯正則化項和數(shù)據(jù)保真項組成的損失函數(shù)。Lanza 等人(2016)提出一種變分正則化模型,通過使用參數(shù)化正則化項來稀疏表達圖像梯度值,以恢復(fù)因加性高斯噪聲而損壞的圖像。Khetkeeree 和Liangrocapart(2019)設(shè)計一種基于維納濾波的正則項,減輕了對先驗信息的依賴,提高了去模糊圖像的質(zhì)量。
雖然非盲去模糊方法取得了一系列進展,但在實際場景中,圖像的模糊核通常難以估計,因此這類方法對于解決實際圖像去模糊問題存在一定局限性。傳統(tǒng)的盲去模糊方法先通過模糊核估計,再轉(zhuǎn)變?yōu)榉敲D像去模糊問題。這兩個過程也可以迭代進行,交替估計模糊核和清晰圖像,直到優(yōu)化到滿意的結(jié)果為止。估計模糊核常見方法有基于圖像邊緣特征(Xu 和Jia,2010;Chen 等,2019)、最大后驗概率(Shan 等,2008;Levin 等,2011)和圖像稀疏表達(Xu等,2013)的方法。
3.2.1 基于圖像邊緣特征的方法
圖像邊緣特征是指圖像中明顯的亮度變化或顏色變化所形成的邊界或輪廓。Joshi 等人(2008)用高斯邊緣檢測器檢測到的邊緣特征來預(yù)測模糊核。然而過度強調(diào)邊緣并非總是有利于核估計,Xu和Jia(2010)引入了一個新的指標來衡量圖像邊緣在去模糊中的有用性,并基于該指標對邊緣進行梯度選擇,提高了模糊核估計的準確性。Yang和Ji(2019)從變分貝葉斯推理的角度重新解釋了邊緣選擇的重要性,開發(fā)了一種內(nèi)置自適應(yīng)邊緣選擇的變分期望最大化算法,以去除圖像模糊。Chen 等人(2019)則提出了一種基于局部最大梯度先驗的盲去模糊框架,用圖像的梯度信息來檢測邊緣,從而解決了圖像模糊處理后,局部塊最大梯度值減小的問題。
3.2.2 基于最大后驗概率的方法
最大后驗概率估計是一種基于貝葉斯統(tǒng)計思想的參數(shù)估計方法,通過最大化后驗概率來選擇參數(shù)值。它結(jié)合了觀測數(shù)據(jù)和先驗知識,提供了對未知量的估計。Fergus 等人(2006)提出了在已知觀測圖像情況下,最大化原始圖像和模糊核的聯(lián)合后驗概率,實現(xiàn)同時進行模糊核估計和去模糊過程。Jia(2007)從物體邊界透明度與圖像運動模糊之間的關(guān)系出發(fā),提出了用透明度信息求解MAP 問題來估計模糊核。Shan 等人(2008)則基于MAP 準則,對圖像的平滑區(qū)域和紋理區(qū)域進行約束,通過引入逐塊連接函數(shù)來解決圖像梯度的長尾分布問題,并將連接函數(shù)與局部先驗聯(lián)合進行圖像去模糊。而Cho 和Lee(2009)提出一種對模糊核進行MAP 估計,對模糊圖像采用稀疏表達的方法來實現(xiàn)圖像去模糊。Levin 等人(2011)在Fergus 等人(2006)的基礎(chǔ)上,對MAP 算法進行優(yōu)化,并結(jié)合變分正則化算法對模糊圖像進行反卷積。
3.2.3 基于圖像稀疏表達的方法
圖像稀疏表達是通過選擇適當?shù)淖儞Q,將圖像轉(zhuǎn)換到一個稀疏表達的域中。通過稀疏表達,可以將圖像的高頻和低頻部分有效地分離,并減少噪聲和偽影的產(chǎn)生(Donoho,2006)。Krishnan 等人(2011)在圖像的高頻上進行核估計,因為他們發(fā)現(xiàn)圖像的高頻部分具有稀疏性,可以用來區(qū)分清晰和模糊圖像。而Xu 等人(2013)提出一個可以用于均勻或非均勻模糊的統(tǒng)一去模糊框架,通過圖像的高稀疏性來約束由損失函數(shù)組成的正則化項,從而實現(xiàn)了去模糊過程。譚海鵬等人(2015)對遙感圖像進行去模糊研究,首先用濾波器進行預(yù)處理,再結(jié)合模糊核的稀疏特性,使用正則化求解模糊核。Pan 等人(2016)用數(shù)學(xué)方法證明模糊過程會增加暗通道像素的值,因此可以利用暗通道的稀疏性來進行盲去模糊。Yan 等人(2017)引入明通道的定義,并利用明暗通道各自的優(yōu)點,更有效地去除圖像模糊。
如圖1 所示,2017 年之后圖像去模糊主要采用深度學(xué)習(xí)方法,以下同樣也從非盲去模糊和盲去模糊兩方面進行綜述。
如3.1 節(jié)所述,傳統(tǒng)的非盲圖像去模糊方法(Danielyan 等,2012;Khetkeeree 和Liangrocapart,2019)大多采用線性模型進行建模,不能很好地處理復(fù)雜先驗分布下的圖像非盲去模糊問題。與傳統(tǒng)非盲去模糊方法不同,深度學(xué)習(xí)方法具有更強的非線性建模能力,能夠提取更豐富的特征表示,從而提高去模糊效果?,F(xiàn)有方法可以分為傳統(tǒng)方法與深度學(xué)習(xí)相結(jié)合(Schuler 等,2013)和純深度學(xué)習(xí)方法(Zhang等,2017;Eboli等,2020)。
4.1.1 傳統(tǒng)方法與深度學(xué)習(xí)結(jié)合的方法
與深度學(xué)習(xí)結(jié)合的首要方式是正則化。Schmidt 等人(2013)通過分析半二次正則化(half quadratic regularization,HQR)和稀疏圖像先驗,推導(dǎo)出判別級聯(lián)的回歸樹模型建模圖像去模糊問題。Schuler 等人(2013)則提出采用傅里葉域的正則化方法來恢復(fù)清晰圖像,并結(jié)合多層感知器去除偽影。Xie等人(2019)構(gòu)建一個基于全變分的深度網(wǎng)絡(luò),該網(wǎng)絡(luò)能夠自適應(yīng)學(xué)習(xí)正則化的最佳參數(shù),從而實現(xiàn)更好的圖像去模糊效果。
然而,選擇合適的正則化項并非易事。因此,研究人員也嘗試從其他的角度來解決圖像非盲去模糊問題。Schmidt 和Roth(2014)將卷積層和傅里葉變換相結(jié)合,提出一種適用于圖像恢復(fù)的新型隨機場模型,提高了計算效率和圖像恢復(fù)質(zhì)量。Zhang 等人(2019b)設(shè)計一種深度圖像超分辨率雙立方退化模型(bicubic degradation model,BDM),通過可變分方法推導(dǎo)出即插即用算法,實現(xiàn)可以處理任意模糊核的模糊圖像。基于MAP 框架非盲去模糊方法需要定義合適的數(shù)據(jù)和正則化項,但先前工作大多都集中推進兩種關(guān)鍵成分之一。而Dong 等人(2021)提出在MAP 框架內(nèi)聯(lián)合學(xué)習(xí)空間變化數(shù)據(jù)和正則化項,預(yù)測每像素的空間變化特征,而不是常用的空間均勻特征,從而改善了圖像細節(jié)的恢復(fù)。Dong 等人(2022)在多尺度級聯(lián)特征細化模塊中將維納濾波和深層卷積特征相結(jié)合,端到端訓(xùn)練圖像去模糊模型。
4.1.2 純深度學(xué)習(xí)的方法
將傳統(tǒng)方法和深度學(xué)習(xí)結(jié)合在一定程度上可以提升圖像去模糊的性能,但這類方法一般需要人工的提取特征和預(yù)處理。為了緩解這種情況,Zhang等人(2017)直接采用CNN 模型進行端到端去模糊,取得了較好的效果。Vasu 等人(2018)利用深度CNN 去除核估計中存在的偽影,并增強圖像細節(jié),實現(xiàn)了非盲圖像去模糊。受傳統(tǒng)的從粗到細的方法啟發(fā),Zhou 等人(2020)采取多尺度策略對輸入圖像進行處理,將低級信息和高級語義信息集成,有效提取了圖像特征,從而提高了圖像去模糊性能。而Eboli 等人(2020)將模糊和清晰圖像先驗核的逆濾波器作為預(yù)訓(xùn)練條件,并將其嵌入到CNN 模型中來學(xué)習(xí)定點迭代算法中的參數(shù),解決了圖像去模糊過程中出現(xiàn)的最小二乘問題。Kim 等人(2022)采用多尺度失真先驗?zāi)P?,在恢?fù)圖像過程中利用參考模糊圖像的空間信息去模糊。Quan 等人(2023)利用不同大小的散焦核之間的強相關(guān)性,提出一種處理散焦模糊的去模糊算法。
近年來,基于深度學(xué)習(xí)的圖像盲去模糊技術(shù)在計算機視覺領(lǐng)域得到了廣泛的關(guān)注(Sun 等,2015;Zhang 等,2020a)。相比傳統(tǒng)方法,基于深度學(xué)習(xí)的方法直接對模糊圖像進行去模糊處理,無需對模糊程度進行估計。下面分別從CNN(Nah 等,2017;Cho等,2021)、RNN(Zhang 等,2018;Gao 等,2019)、GAN(Kupyn 等,2018)和Transformer(Wang 等,2022;Zamir 等,2022)等4 個方面對盲圖像去模糊進行介紹。
4.2.1 基于卷積神經(jīng)網(wǎng)絡(luò)的方法
基于卷積神經(jīng)網(wǎng)絡(luò)的盲去模糊方法,通過多層卷積和池化操作,能夠自動學(xué)習(xí)圖像或模糊核的特征,生成清晰圖像(Schuler 等,2016)。Sun 等人(2015)首次將CNN 引入到盲去模糊領(lǐng)域,采用CNN來預(yù)測圖像塊水平運動模糊核的概率分布。Schuler等人(2016)則利用由粗到細的建模思想,在CNN 中設(shè)計可學(xué)習(xí)層來提取局部圖像特征進行核估計。然而,在未知的模糊核很大的情況下,上述方法表現(xiàn)并不理想。Chakrabarti(2016)采用多分辨率頻率分解方法來編碼輸入塊。他們通過頻率的局部性調(diào)整初始網(wǎng)絡(luò)層的連接方式,使得訓(xùn)練得到的網(wǎng)絡(luò)能夠估計較大的模糊核。Gong 等人(2017)利用圖像上下文信息,訓(xùn)練了一個全卷積深度神經(jīng)網(wǎng)絡(luò)來直接估計模糊核的運動流。Xu 等人(2018)受到模糊圖像邊緣預(yù)測方法的啟發(fā),提出用CNN 模型對模糊圖像提取主要結(jié)構(gòu)信息,并對其進行增強處理,來估計模糊核。Nan 和Ji(2020)使用最小二乘估計器來優(yōu)化模糊核估計中的誤差問題,提高了模糊核估計的準確率。傳統(tǒng)的基于MAP 方法對于先驗知識的依賴性較強,不能很好表征出原始圖像信息。為此,Ren等人(2020)將MAP 和深度模型結(jié)合,用具有跳躍連接的非對稱自編碼器網(wǎng)絡(luò)生成潛在清晰圖像,而用全連接網(wǎng)絡(luò)生成模糊核。Tang 等人(2023)利用未經(jīng)訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)來表達模糊核的殘差,提出了一種無監(jiān)督的半盲去模糊模型。Fang 等人(2023)提出一種基于隱空間先驗非均勻模糊核估計方法,利用標準化流動模型將運動模糊核空間映射為高斯分布空間,在圖像隱空間內(nèi)估計模糊核。
上述方法主要通過模糊核估計再進行去模糊,而CNN 可通過大量的模糊圖像和對應(yīng)的清晰圖像,學(xué)習(xí)到模糊圖像和清晰圖像之間的映射關(guān)系,從而避免了模糊核估計帶來的誤差。Nah 等人(2017)和Nimish等人(2017)采用端到端方式訓(xùn)練了一個深層的CNN 模型,可直接從模糊的輸入中重建高質(zhì)量的圖像。Dong 等人(2019)利用自然圖像的多尺度冗余特性,設(shè)計了一種基于CNN 模型的去噪器,去除圖像模糊。通過在多個尺度上進行去模糊處理,可以更好地保留圖像的細節(jié)和結(jié)構(gòu)信息。針對此問題,Zhang等人(2019a)設(shè)計一個多尺度損失函數(shù),并采用空間金字塔從粗到精地逐步恢復(fù)清晰圖像。Cho 等人(2021)則重新審視從粗到細的結(jié)構(gòu),提出了多輸入多輸出網(wǎng)絡(luò)(multi-input multi-output UNet,MIMO-UNet)。該網(wǎng)絡(luò)利用單個編碼器接受多尺度輸入圖像,并使用單個解碼器輸出不同比例的去模糊圖像。通過引入非對稱特征融合機制改進了去模糊效果。Zamir 等人(2021)采用編解碼網(wǎng)絡(luò)架構(gòu)學(xué)習(xí)多尺度上下文信息,并利用解碼端輸出具有高分辨率的特點,恢復(fù)了更多圖像細節(jié)信息,進一步提高了去模糊效果。
4.2.2 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法
循環(huán)神經(jīng)網(wǎng)絡(luò)是一種能夠處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)模型。在圖像盲去模糊中,RNN 通過對區(qū)塊特征信息進行遞歸循環(huán)操作,將之前區(qū)塊的狀態(tài)信息傳遞給當前區(qū)塊,從而學(xué)習(xí)不同區(qū)塊數(shù)據(jù)之間的關(guān)系,實現(xiàn)去模糊過程(Zhang 等,2018)。Zhang 等人(2018)利用RNN 的空間可變性隱式模擬去模糊過程,RNN 模型在時間和空間維度上進行循環(huán)計算,逐步恢復(fù)圖像的細節(jié)和結(jié)構(gòu)。Tao 等人(2018)提出多尺度循環(huán)去模糊網(wǎng)絡(luò),在不同尺度上共享網(wǎng)絡(luò)權(quán)重,顯著降低了訓(xùn)練復(fù)雜度。同時,通過循環(huán)模塊的狀態(tài)傳遞從而獲得各尺度上的有用信息,有助于圖像恢復(fù)。Gao 等人(2019)關(guān)注到圖像特征的尺度變化特性,在Tao 等人(2018)的基礎(chǔ)上提出參數(shù)選擇性共享方法來恢復(fù)圖像細節(jié)。因為多尺度提取圖像特征參數(shù)量較大,Park 等人(2020)采用多時態(tài)代替多尺度的方法,通過將圖像分成多個小塊模糊塊,逐步處理原始尺度中這些模糊塊來進行圖像去模糊,從而減少了模型參數(shù)量。而Zhang 等人(2020b)則提出一種兩階段混合去模糊網(wǎng)絡(luò),用于去除真實的運動模糊。在第1 階段,使用循環(huán)編解碼網(wǎng)絡(luò)來生成循環(huán)事件。在第2 階段,將模糊圖像與此循環(huán)事件連接起來作為輸入,從精到粗的逐步恢復(fù)模糊圖像。
4.2.3 基于生成對抗網(wǎng)絡(luò)的方法
生成對抗網(wǎng)絡(luò)是一種由兩個神經(jīng)網(wǎng)絡(luò)組成的框架,包括生成器網(wǎng)絡(luò)和判別器網(wǎng)絡(luò)。在圖像去模糊任務(wù)中,生成器網(wǎng)絡(luò)將模糊圖像作為輸入,清晰圖像作為輸出。判別器網(wǎng)絡(luò)則用來判斷生成器網(wǎng)絡(luò)輸出的圖像是否與真實圖像一致。整個訓(xùn)練過程通過生成器網(wǎng)絡(luò)和判別器網(wǎng)絡(luò)相互對抗來優(yōu)化模型參數(shù)(Kupyn等,2018)。Kupyn等人(2018)設(shè)計了一種基于生成對抗網(wǎng)絡(luò)的單尺度去模糊網(wǎng)絡(luò)Deblur-GAN。其中生成器網(wǎng)絡(luò)采用殘差模塊和卷積網(wǎng)絡(luò)進行去模糊,而判別器網(wǎng)絡(luò)則采用馬爾可夫判別器進行鑒別生成圖像。然而,該方法可能會出現(xiàn)梯度消失或爆炸的情況。Kupyn 等人(2019)提出了DeblurGANv2,將特征金字塔引入到生成器網(wǎng)絡(luò),而判別器網(wǎng)絡(luò)采用可以評估圖像全局和局部特征的相對論判別器,從而避免了梯度消失或爆炸的問題。Lu 等人(2020)所采用的生成器網(wǎng)絡(luò)包含兩個編碼器,其中內(nèi)容編碼器提取清晰和模糊圖像的內(nèi)容特征,而模糊編碼器提取模糊信息。通過對抗性損失和周期一致性損失作為正則化器,來幫助生成器網(wǎng)絡(luò)產(chǎn)生清晰圖像。Zhang 等人(2020a)結(jié)合了兩種GAN 模型,即模糊GAN 和去模糊GAN,旨在減少真實模糊和合成模糊之間的差異。他們通過學(xué)習(xí)圖像模糊過程來實現(xiàn)圖像去模糊。Yang 等人(2021)利用深度神經(jīng)網(wǎng)絡(luò)的深層和淺層特征來生成GAN 的潛空間映射特征和噪聲,以恢復(fù)模糊圖像的全局結(jié)構(gòu)和局部細節(jié)。大多數(shù)現(xiàn)有方法都是直接端到端生成清晰圖像,并沒有進行模糊核估計。而Li 等人(2021)訓(xùn)練了一個模糊核判別器網(wǎng)絡(luò),用于分析生成的模糊核圖像,并檢測生成器提供不正確模糊核時可能出現(xiàn)的錯誤情況。
4.2.4 基于Transformer的方法
Transformer 模型是一種基于自注意力機制和前饋神經(jīng)網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)架構(gòu)。自注意力機制有助于模型在處理序列時學(xué)習(xí)到不同位置之間的依賴關(guān)系,而前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)能夠有效地捕捉到局部信息和非線性關(guān)系(Liu 等,2021)。Zamir 等人(2022)提出了Restormer 模型,將Transformer 應(yīng)用到圖像去模糊任務(wù)。他們通過編解碼網(wǎng)絡(luò)實現(xiàn)對圖像多尺度的局部和全局特征學(xué)習(xí),更高效地處理圖像的去模糊問題。Wang 等人(2022)認為全局自注意力機制會增加計算復(fù)雜度,因此提出了局部增強窗口(locally-enhanced window,LeWin)Transformer 模塊,更好地捕獲局部上下文。同時,將LeWin 模塊應(yīng)用在圖像多尺度恢復(fù)框架中,利用獲得的全局和局部信息來進行圖像恢復(fù)。Kong 等人(2023)利用頻率前饋網(wǎng)絡(luò)來確定保留圖像中低頻還是高頻部分,從而解決了Transformer中使用前饋網(wǎng)絡(luò)去模糊效果不佳的問題。Yan 等人(2023)提出Sharpformer 模型,通過Transformer模塊直接學(xué)習(xí)圖像全局特征和自適應(yīng)局部特征,實現(xiàn)去除運動模糊。因為卷積操作有利于提取局部信息,而自注意力機制更側(cè)重于提取全局信息。因此Zhao(2023)設(shè)計并行的CNN 和Transformer 網(wǎng)絡(luò)架構(gòu),同時提取全局和局部圖像特征進行圖像去模糊。
圖像去模糊算法使用的數(shù)據(jù)集主要分為合成數(shù)據(jù)集和真實數(shù)據(jù)集。合成數(shù)據(jù)集是通過人工定義的模糊過程來生成模糊圖像(Levin 等,2009;Nah 等,2017)。模糊過程可以是模糊核與清晰圖像進行卷積或者其他模糊方式。這些數(shù)據(jù)集通??梢蕴峁┠:龍D像和對應(yīng)的清晰圖像對,方便用于訓(xùn)練和評估算法的性能。而真實數(shù)據(jù)集包含真實世界中的模糊圖像(Rim 等,2020;Jiang 等,2020)。這些圖像通常是由于相機晃動、手持拍攝或其他因素導(dǎo)致的模糊圖像。這些數(shù)據(jù)集能夠更好地模擬實際場景中的圖像模糊情況,對算法的魯棒性提出更高的要求。表1詳細列出了圖像去模糊數(shù)據(jù)集的信息。
表1 圖像去模糊數(shù)據(jù)集Table 1 Image deblurring datasets
5.1.1 合成數(shù)據(jù)集
較早提出的合成數(shù)據(jù)集主要采用清晰圖像與模糊核卷積的方法生成模糊圖像。Levin 等人(2009)使用4 幅 255×255 像素的清晰圖像和8 個均勻模糊核進行卷積,構(gòu)建一個包含32 幅模糊圖像的數(shù)據(jù)集。但是Levin 等人(2009)的測試圖像分辨率固定在 255×255 像素,且由于圖像數(shù)據(jù)較少而缺乏多樣性。Sun 等人(2013)通過將Sun 和Hays(2012)的80 幅高質(zhì)量自然圖像和Levin 等人(2009)的8 個均勻模糊核進行卷積,最終生成640 幅模糊圖像。然而,上述數(shù)據(jù)集都假設(shè)模糊核為均勻模糊,因此在該數(shù)據(jù)集上訓(xùn)練得到的去模糊模型難以有效解決非均勻模糊核的去模糊問題。為了模擬非均勻模糊效果,K?hler 等人(2012)記錄了6D 相機隨時間的變化軌跡,并通過在機器人平臺上重新播放相機的運動來生成模糊圖像。他們使用4幅清晰圖像和12幅攝像機運動軌跡圖像進行合成,構(gòu)建了一個包含48 幅非均勻模糊圖像的數(shù)據(jù)集。Lai 等人(2016)提供兩個大型數(shù)據(jù)集。其中一個數(shù)據(jù)集是在不同場景下拍攝的100 幅真實模糊圖像;另外一個數(shù)據(jù)集則包含了200 幅合成的模糊圖像,其中包括非均勻模糊圖像和均勻模糊圖像。
為了生成更真實的模糊圖像,Nah 等人(2017)使用高速攝像頭GOPRO 來快速拍攝一系列清晰圖像,通過對這些間隔時間極短的圖像進行求平均的方式來得到模糊圖像,最終得到GoPro 數(shù)據(jù)集。該數(shù)據(jù)集包含2 103 對訓(xùn)練圖像和1 111 對測試圖像。Shen 等人(2019)建立一個運動模糊數(shù)據(jù)集HIDE(human-aware motion deblurring)。該數(shù)據(jù)集通過平均視頻中的11 個連續(xù)幀來合成模糊圖像,并將中心幀作為清晰圖像。HIDE 數(shù)據(jù)集包含8 422 幅圖像對,分為6 397對訓(xùn)練圖像和2 025對測試圖像。
5.1.2 真實數(shù)據(jù)集
上述數(shù)據(jù)集的圖像主要通過人工合成而形成的模糊圖像,對于去模糊模型在實際生活中的應(yīng)用存在一定的局限性。Rim等人(2020)提出一個真實世界模糊圖像數(shù)據(jù)集RealBlur。該數(shù)據(jù)集由兩個子集組成,一個子集是RealBlur-R,它由相機原始圖像組成;另一個子集是RealBlur-J,它由相機處理后的JPEG 圖像組成。該數(shù)據(jù)集共包含9 476 對圖像。Jiang 等人(2020)使用DAVIS240C 相機捕獲一個大型戶外數(shù)據(jù)集Blur-DVS,包含1 782 對訓(xùn)練圖像和396 對測試圖像,同時還提供740 幅真實的模糊圖像。另外,Li 等人(2023)創(chuàng)建一個真實世界局部運動模糊數(shù)據(jù)集ReLoBlur(real-world local motion deblurring),該數(shù)據(jù)集真實地展示了局部運動物體自身和背景產(chǎn)生的混疊效應(yīng),其中包含2 010對訓(xùn)練圖像和395對測試圖像。
為了更準確地評估和分析圖像去模糊任務(wù)中具有代表性的算法模型的性能,采用了第2.2.1 節(jié)中所介紹的PSNR 和SSIM 兩個評價指標進行衡量。PSNR 通過計算原始圖像與重建圖像之間的均方差來衡量圖像之間的差異。而SSIM 通過加權(quán)平均圖像的亮度、對比度和結(jié)構(gòu)相似度來衡量圖像之間的相似性。
PSNR 越高,表示去模糊圖像的質(zhì)量越好。SSIM的取值范圍為0到1之間,越接近1表示圖像結(jié)構(gòu)相似度越高,重建圖像質(zhì)量越好。通過綜合考慮PSNR 和SSIM 這兩個評價指標,能夠全面評估圖像的清晰度、細節(jié)保留能力和對比度等方面的表現(xiàn)。表2和表3中的實驗結(jié)果是從調(diào)研的論文中獲取。
表2 傳統(tǒng)圖像去模糊方法在Levin和Lai數(shù)據(jù)集上的性能Table 2 Performance of traditional image deblurring methods on Levin and Lai datasets
表3 基于深度學(xué)習(xí)圖像去模糊方法在GoPro和HIDE數(shù)據(jù)集上的性能Table 3 Performance of some deep learning-based image deblurring methods on GoPro and HIDE datasets
5.2.1 傳統(tǒng)圖像去模糊算法性能分析
由于傳統(tǒng)的圖像非盲去模糊大多針對單個標準圖像進行定性分析,而不是在數(shù)據(jù)集上進行定量分析。實驗主要在早期被廣泛認同的Levin 數(shù)據(jù)集(Levin 等,2009)和Lai 數(shù)據(jù)集(Lai 等,2016)上開展。Levin 數(shù)據(jù)集是一個模糊核為均勻模糊的合成數(shù)據(jù)集,而Lai數(shù)據(jù)集則包含真實圖像和合成圖像兩種類型的數(shù)據(jù)集,實驗結(jié)果如表2所示。
從表2 可以看出,非盲去模糊算法(Krishnan和Fergus,2009)在PSNR 和SSIM 值上高于傳統(tǒng)盲去模糊算法(Cho 和Lee,2009;Levin 等,2009)。這是因為非盲去模糊假設(shè)模糊核已知,而盲去模糊需要對模糊核進行估計。一旦對模糊核估計不準確,將導(dǎo)致最終去模糊效果較差。為改善此問題,研究人員發(fā)現(xiàn)圖像邊緣信息有利于模糊核估計。Xu 和Jia(2010)提出對圖像邊緣信息進行梯度選擇,提高了模糊核估計準確性。在兩個數(shù)據(jù)集上都取得明顯的性能提升,表明邊緣特征提取有益于圖像去模糊。基于邊緣特征提取的一系列改進算法(Sun 等,2013;Yang 和Ji,2019),從表2 中可以看出,其性能均有不同程度的提升。其中Sun 等人(2013)的方法在Levin 數(shù)據(jù)集上達到了傳統(tǒng)方法的最優(yōu)效果。
基于MAP 的方法(Chen 等,2019;Ren 等,2020)通過最大化原始圖像和模糊核的聯(lián)合后驗概率,對模糊圖像進行估計。兩個算法在Levin 數(shù)據(jù)集上的PSNR 和SSIM 與Sun 等人(2013)方法不相上下,但在Lai數(shù)據(jù)集上明顯優(yōu)于Sun等人(2013)方法。
基于圖像稀疏表達的方法(Xu等,2013;Pan 等,2016)將圖像的高頻和低頻部分分離,可以有效地減少噪聲和偽影的產(chǎn)生。雖然其性能指標略差于Sun等人(2013)方法,但比之前的方法有一定程度的提升。
因為Levin 數(shù)據(jù)集中的模糊圖像都是經(jīng)過均勻模糊處理后的合成圖像,而Lai數(shù)據(jù)集則包含真實圖像和合成圖像。因此,在表2 的實驗結(jié)果中可以看出,所有方法在Levin 數(shù)據(jù)集上的表現(xiàn)優(yōu)于在Lai 數(shù)據(jù)集上的表現(xiàn)。盡管在Levin 數(shù)據(jù)集上能夠呈現(xiàn)較好的實驗效果,但實際情況下,圖像模糊往往是非均勻的,因此模型的實用性存在一定局限性。此外,現(xiàn)有傳統(tǒng)方法大多主要針對特定失真,無法解決Lai數(shù)據(jù)集中的多種失真情況,這導(dǎo)致模型的泛化能力受到限制。
5.2.2 基于深度學(xué)習(xí)的圖像去模糊算法性能分析
基于深度學(xué)習(xí)的方法通常需要數(shù)據(jù)集具有多樣性,以確保模型能夠處理各種不同的模糊情況,并展現(xiàn)出更好的泛化能力。實驗主要在合成數(shù)據(jù)集GoPro 數(shù)據(jù)集(Nah 等,2017)、HIDE 數(shù)據(jù)集(Shen 等,2019)以及真實數(shù)據(jù)集RealBlur 數(shù)據(jù)集(Rim 等,2020)上開展。GoPro 數(shù)據(jù)集和HIDE 數(shù)據(jù)集是常見的圖像去模糊合成數(shù)據(jù)集,它們通過平均視頻中連續(xù)幀來合成模糊。RealBlur 數(shù)據(jù)集包含由相機原始圖像組成RealBlur-R 和相機處理后的JPEG 圖像組成RealBlur-J。實驗結(jié)果如表3所示。
Sun 等人(2015)較早將CNN 應(yīng)用在圖像去模糊領(lǐng)域。盡管其在GoPro 和HIDE 數(shù)據(jù)上的效果并不突出,但展現(xiàn)了深度學(xué)習(xí)在圖像去模糊領(lǐng)域的巨大潛力。后續(xù)研究中,DeepDeblur和DMPHN對骨干網(wǎng)絡(luò)進行改進。與Sun 等人(2015)方法相比,它們在合成數(shù)據(jù)集上的PSNR 和SSIM 都取得了顯著提升,尤其是DMPHN 在HIDE 數(shù)據(jù)集上顯示出較好的性能。隨著深度學(xué)習(xí)快速發(fā)展,端到端的去模糊方法MPRNet(multi-stage progressive image restoration network)和MIMO-Unet 在合成數(shù)據(jù)集上表現(xiàn)出色,其PSNR 超過了30 dB。此外,在真實數(shù)據(jù)集RealBlur上也展現(xiàn)出令人滿意的效果。
從表3 可以看出,基于RNN 的SRN 和DSD(dynamic scene deblurring)方法相比同一時段提出的方法,在合成模糊和真實模糊上都表現(xiàn)出非常好的性能,其PSNR和SSIM指標都高于其他方法。
基于GAN 設(shè)計的DeblurGan 方法雖然在合成數(shù)據(jù)集上的性能指標略遜于DeepDeblur,但在Real-Blur 數(shù)據(jù)集上表現(xiàn)更優(yōu)。而且其改進算法DeblurGan-v2和DBGAN(DeBlur GAN)的性能在2個合成數(shù)據(jù)集上的PSNR 和SSIM 與基于RNN 的方法不相上下,但在RealBlur數(shù)據(jù)集上表現(xiàn)欠缺。
Transformer 模型能夠建立全局依賴關(guān)系,并有效地捕捉到整個圖像的上下文信息。因此,近期提出的Restormer、FSAS(frequency-domain-based selfattention solver)和CTMS 等算法都是基于Transformer 模型。在GoPro 數(shù)據(jù)集上,它們的PSNR 和SSIM指標都分別達到了32 dB和0.96,在HIDE數(shù)據(jù)集上,也遠超其他算法。即便在真實數(shù)據(jù)集Real-Blur 上,也表現(xiàn)出優(yōu)秀的實驗效果,進一步展現(xiàn)了Transformer模型在圖像去模糊領(lǐng)域具有巨大潛力。
圖3 和圖4 分別展示了傳統(tǒng)方法和基于深度學(xué)習(xí)方法在圖像去模糊任務(wù)上的可視化結(jié)果,并選擇了兩個代表性的場景以展示不同去模糊算法之間的差異。
圖3 傳統(tǒng)方法定性比較結(jié)果(Yang和Ji,2019)Fig.3 Qualitative comparisons of traditional methods(Yang and Ji,2019)((a)blurred images;(b)Cho and Lee(2009);(c)Xu and Jia(2010);(d)Xu et al.(2013);(e)Yang and Ji(2019))
圖4 深度學(xué)習(xí)方法定性比較結(jié)果(Zhao等,2023)Fig.4 Qualitative comparisons of deep learning methods(Zhao et al.,2023)((a)blurred images;(b)reference images;(c)DeepDeblur;(d)SRN;(e)DBGAN;(f)MPRNet;(g)CTMS)
圖3 展示了傳統(tǒng)圖像去模糊方法的可視化結(jié)果(Yang 和Ji,2019)。盡管各個算法采用了不同的方法,但在圖像去模糊上均呈現(xiàn)出令人滿意的效果。其中,基于圖像邊緣特征去除圖像模糊的方法(Xu和Jia,2010;Yang 和Ji,2019)更注重保留圖像的紋理細節(jié);基于最大后驗概率的方法(Cho 和Lee,2009)通過引入正則化項成功地避免了圖像過度銳化和噪聲放大等問題;而基于圖像稀疏表達的方法(Xu 等,2013)能有效地分離圖像的高頻和低頻部分,從而減少了噪聲和偽影的產(chǎn)生。
基于深度學(xué)習(xí)的圖像去模糊方法可視化結(jié)果如圖4 所示(Zhao 等,2023)。通過對比以下幾種不同的方法:基于CNN 的Deepdeblur(Nah 等,2017)和MPRNet(Zamir等,2021)方法,基于RNN的SRN(Tao等,2018)方法,基于GAN 的DBGAN(Zhang 等,2020a)方法和基于Transformer 的CTMS(Zhao 等,2023)方法,可以觀察到,不僅模型架構(gòu)不同對去模糊結(jié)果會產(chǎn)生影響,即使采用相似網(wǎng)絡(luò)結(jié)構(gòu)的方法,如Deepdeblur 和MPRNet,也會產(chǎn)生不同的結(jié)果。值得特別關(guān)注的是,基于Transformer 的CTMS 方法在圖像去模糊的效果上表現(xiàn)最為出色。
在基于深度學(xué)習(xí)的圖像去模糊算法中,通常選取平均運行時間和模型參數(shù)量作為衡量模型效率的重要指標(Cho 等,2021)。選取了不同網(wǎng)絡(luò)架構(gòu)中具有代表性的算法,并統(tǒng)計它們在GoPro 數(shù)據(jù)集測試集上完成圖像去模糊所需的平均運行時間和模型參數(shù)量,結(jié)果如表4 所示。結(jié)果表明,大部分算法的平均運行時間都在1 s內(nèi),但部分模型的參數(shù)量相對較大。因此,選擇算法時需要綜合考慮這兩個指標,以確保模型在實際應(yīng)用中能夠取得良好的性能表現(xiàn)并滿足資源消耗的限制。但是如何平衡平均運行時間和模型參數(shù)量仍需要進一步的研究和探索,以提高圖像去模糊算法的效率和性能。
表4 不同算法的運行效率Table 4 Running efficiency of representative methods
傳統(tǒng)的圖像去模糊方法從去噪、迭代優(yōu)化、圖像邊緣信息和稀疏表達等方面展開研究,提出了許多優(yōu)秀的算法。然而,這些傳統(tǒng)方法需要人工選擇特征,并且大多針對某種情況下的模糊,因此其泛化能力受到一定限制。而隨著深度學(xué)習(xí)技術(shù)的不斷進步,基于深度學(xué)習(xí)的各類圖像去模糊算法不斷涌現(xiàn),不僅在性能上逐漸超越了傳統(tǒng)方法,而且能夠更好地適應(yīng)各種模糊環(huán)境。
盡管深度學(xué)習(xí)方法在圖像去模糊領(lǐng)域取得了巨大進展,但仍存在一些嚴峻挑戰(zhàn)和難題:
1)全面的評估指標。目前在圖像去模糊領(lǐng)域中最廣泛使用的評價指標是PSNR 和SSIM。PNSR 僅衡量恢復(fù)圖像和原始圖像之間的均方誤差,無法反映圖像細節(jié)和清晰度等方面的質(zhì)量。同時,PSNR對于人眼感知不敏感,可能導(dǎo)致PSNR 高但視覺效果差的情況。而SSIM 雖然可以反映圖像的結(jié)構(gòu)信息和視覺質(zhì)量,但對于圖像亮度和對比度的變化并不敏感。因此,在評估模型時,需要考慮基于人眼視覺特性的感知質(zhì)量評價指標。然而,這需要大量的主觀評價數(shù)據(jù)和人力資源,并且還會受評價者個體差異影響。因此,要獲得與人眼視覺特性相一致的評價指標仍面臨挑戰(zhàn)。
2)模型的泛化性和數(shù)據(jù)集。在圖像去模糊領(lǐng)域,模型需要具備處理各種復(fù)雜模糊情況的能力,包括散焦模糊、高斯模糊和運動模糊等。但是,由于這些模糊成因的復(fù)雜性,訓(xùn)練出能夠應(yīng)對所有情況的模型是一項具有挑戰(zhàn)性的任務(wù)。同時,去模糊數(shù)據(jù)集通常需要大量的真實圖像和對應(yīng)的模糊圖像,以便訓(xùn)練出能夠?qū)Ω鞣N不同模糊情況進行處理的模型。但是,由于獲取真實圖像和對應(yīng)的模糊圖像需要大量的時間和人力成本。因此,構(gòu)建大量高質(zhì)量的數(shù)據(jù)集也是一項重要且具有挑戰(zhàn)性的任務(wù)。
3)模型的效率問題。由于現(xiàn)在移動拍攝設(shè)備捕獲的圖像具有超高分辨率,但很多圖像去模糊模型在處理高分辨率圖像時表現(xiàn)不佳或者需要長時間的計算,使得在實際應(yīng)用中帶來了困擾。盡管基于深度學(xué)習(xí)的圖像去模糊方法相對傳統(tǒng)方法有更好的性能,但也伴隨著參數(shù)量大的問題。因此,如何開發(fā)出高效的輕量化去模糊算法還需要付出大量的努力。
圖像去模糊技術(shù)至今仍面臨眾多挑戰(zhàn),需要不斷研究與改進,從而提升其質(zhì)量和應(yīng)用領(lǐng)域的廣度。同時,綜合考慮評估指標、模型的泛化能力、數(shù)據(jù)的多樣性和數(shù)量等因素,能更好地在實際中應(yīng)用圖像去模糊技術(shù)。