王 杰,徐國明,2,*,馬 健,2,王 勇,李 毅
(1. 安徽大學(xué) 互聯(lián)網(wǎng)學(xué)院,安徽 合肥 230039;2.安徽大學(xué)農(nóng)業(yè)生態(tài)大數(shù)據(jù)分析與應(yīng)用技術(shù)國家地方聯(lián)合工程研究中心,安徽合肥 230601;3. 陸軍炮兵防空兵學(xué)院 偏振光成像探測技術(shù)安徽省重點(diǎn)實(shí)驗(yàn)室,安徽 合肥 230031;4. 安徽文達(dá)信息工程學(xué)院 智能技術(shù)研究所,安徽 合肥 231201)
偏振成像是一種新型的探測技術(shù),在獲取目標(biāo)物體信息的同時測量其偏振態(tài),可突破自然場景中目標(biāo)檢測的局限性。由于目標(biāo)與背景存在偏振特性差異,該技術(shù)可在復(fù)雜背景下凸顯檢測目標(biāo)的紋理、輪廓和粗糙度等信息[1],從而被廣泛地應(yīng)用于生物醫(yī)學(xué)圖像分析、三維物體識別、遙感圖像處理、目標(biāo)識別與追蹤等領(lǐng)域[2]。傳統(tǒng)的偏振成像探測方式一般可分成分時和同時探測兩類,空間調(diào)制型全偏振成像是繼傳統(tǒng)偏振成像技術(shù)后新興的成像方式[3]。胡巧云等[4]研究了空間調(diào)制型全Stokes 偏振成像系統(tǒng)的原理并實(shí)現(xiàn)了數(shù)值仿真模擬成像。王成等[5]分析系統(tǒng)傳輸矩陣的特性,設(shè)計(jì)了全偏振大氣偏振模式成像系統(tǒng)并對系統(tǒng)存在的誤差進(jìn)行了優(yōu)化。成像距離、大氣擾動等因素的干擾使得成像系統(tǒng)投影在焦平面上的圖像極限分辨率嚴(yán)重下降[6](即遠(yuǎn)小于光學(xué)成像系統(tǒng)的衍射極限分辨率),導(dǎo)致采集的偏振圖像的空間分辨率較低。此外,偏振圖像的空間分辨率還受限于所使用探測器的像元數(shù)目。
高分辨率的圖像在成像探測和識別領(lǐng)域具有重要的價值。隨著計(jì)算機(jī)技術(shù)、數(shù)字信號處理技術(shù)和機(jī)器學(xué)習(xí)的發(fā)展,新興的計(jì)算成像技術(shù)應(yīng)運(yùn)而生[7]。超分辨率(Super-Resolution,SR)方法是圖像處理技術(shù)和工程應(yīng)用中常見的技術(shù)手段,同時也是底層視覺任務(wù)的研究熱點(diǎn)。這種以信息驅(qū)動和模型計(jì)算為中心的計(jì)算成像方法可以獲得高于成像系統(tǒng)分辨率的圖像。經(jīng)典的超分辨率重建任務(wù)獨(dú)立于成像系統(tǒng),而新的計(jì)算成像技術(shù)綜合考慮成像全鏈路過程,這為超分辨率技術(shù)直接應(yīng)用于成像系統(tǒng)提供了契機(jī)。圖像超分辨率是一種從低分辨率(Low-Resolution,LR)圖像重建高分辨率(High-Resolution,HR)圖像的計(jì)算機(jī)視覺任務(wù)。徐國明等[8]針對空間調(diào)制型全偏振計(jì)算成像特點(diǎn),融合異源圖像與空間一致性,提出基于卷積神經(jīng)網(wǎng)絡(luò)的場景特征遷移SR 計(jì)算成像方式。Zhang 等[9]通過和差重構(gòu)對重建算法進(jìn)行了改進(jìn)。孟祥超等[10]基于多角度偏振成像儀展開研究,通過融合HR 的全色影像和LR 的高光譜影像,重建生成高空間分辨率的遙感影像。基于深度學(xué)習(xí)和樣本特征融合的高光譜偏振圖像SR 研究近年來受到了廣泛關(guān)注[11-12],但在實(shí)際應(yīng)用中仍亟需設(shè)計(jì)輕量化、高效的高分辨率全偏振成像系統(tǒng)。
近年來,基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的方法在SR 任務(wù)中表現(xiàn)出色[13-14]。從三層卷積的SRCNN[15]到160 層以上卷積層的MDSR[16],網(wǎng)絡(luò)的深度和整體性能都隨著時間的推移而急劇增長。許多結(jié)合注意力機(jī)制且具有先進(jìn)性能的深度SR 網(wǎng)絡(luò)被提出,例如RFANet[17]和RCAN[18]等。而 這 些SR 網(wǎng) 絡(luò) 通常會遇到計(jì)算資源負(fù)擔(dān)過重的問題,這也限制了其在現(xiàn)實(shí)世界的廣泛應(yīng)用。因此,針對圖像超分辨率網(wǎng)絡(luò)的輕量化設(shè)計(jì)近年來備受關(guān)注。輕量級網(wǎng)絡(luò)在圖像超分辨率任務(wù)中表現(xiàn)出了顯著的性能[19-21]。構(gòu)建輕量級網(wǎng)絡(luò)的常用方法可分為兩種:構(gòu)建一個淺網(wǎng)絡(luò)模型,例如ESPCN[22]和FSRCNN[23]算法,或者通過遞歸機(jī)制共享參數(shù)策略。Ahn 等[24]設(shè)計(jì)了一種基于級聯(lián)結(jié)構(gòu)的殘差SR 網(wǎng)絡(luò),該級聯(lián)結(jié)構(gòu)加快了訓(xùn)練時間且避免無效的遞歸學(xué)習(xí),但重建性能有待改善。Hui 等[25]提出了一種信息蒸餾網(wǎng)絡(luò),以實(shí)現(xiàn)高效、快速的重構(gòu)。Kim 等[26]提出了深度遞歸卷積網(wǎng)絡(luò)(Deeply-Recursive Convolutional Network,
DRCN),通過遞歸網(wǎng)絡(luò)來減少冗余參數(shù)。Tai等[27]將遞歸結(jié)構(gòu)與殘差網(wǎng)絡(luò)相結(jié)合,提出了深度遞歸殘差網(wǎng)絡(luò)(Deep Recursive Residual Network,DRRN)來改進(jìn)DRCN 結(jié)構(gòu)。Wang 等[28]設(shè)計(jì)了一種輕量級、高效的自適應(yīng)加權(quán)超分辨率網(wǎng)絡(luò)(Adaptive Weighted Super-Resolution Network,AWSRN)。
以上方法都取得了不錯的重建效果,但大多數(shù)網(wǎng)絡(luò)模型傾向于采用一個標(biāo)準(zhǔn)的框架,即卷積層的簡單堆棧,每一層選擇特定大小的卷積核且很少考慮圖像的分層特征。針對上述問題,本文提出了一種輕量級注意力級聯(lián)網(wǎng)絡(luò)的偏振計(jì)算成像超分辨率方法(Lightweight Attention Cascading Network,LACN),在保證高性能的同時減少網(wǎng)絡(luò)的計(jì)算復(fù)雜度和參數(shù)量。具體而言,本文網(wǎng)絡(luò)的整體框架采用級聯(lián)連接和融合連接的方式,以減少網(wǎng)絡(luò)的參數(shù)量。同時結(jié)合注意力機(jī)制賦以不同的權(quán)值來提取關(guān)鍵的空間內(nèi)容特征。本文設(shè)計(jì)了一個空間金字塔網(wǎng)絡(luò)結(jié)構(gòu),從多感受野的角度分析特征編碼。通過不同擴(kuò)張率的空洞卷積來提取偏振圖像局部域信息。上采樣模塊采用參數(shù)共享的策略來融合淺層與深層次的重建效果并計(jì)算生成高分辨率偏振圖像。最后通過信息細(xì)化塊在網(wǎng)絡(luò)的末端學(xué)習(xí)更精細(xì)的特征并增強(qiáng)重建圖像質(zhì)量。
隨著大數(shù)據(jù)和圖形處理單元(Graphic Processing Unit,GPU)的快速發(fā)展,CNN 在單幅圖像超分辨率方法(Single Image Super-Resolution,SISR)中得到了廣泛的應(yīng)用?;贑NN 的SR 技術(shù)主要包括以下三種:使用高頻特征訓(xùn)練SR 模型[27],使用低頻特征訓(xùn)練SR 模型[23]和結(jié)合高頻和低頻特征訓(xùn)練SR 模型[14]?;诰矸e神經(jīng)網(wǎng)絡(luò)的級聯(lián)結(jié)構(gòu)能夠更好地表征上述三種方法。借助級聯(lián)多級網(wǎng)絡(luò)逐步地提高分辨率,以明顯地改善SISR 重建性能。Tian 等[29]通過在堆疊的特征提取塊中使用異構(gòu)卷積提取低頻特征,然后利用特征優(yōu)化塊學(xué)習(xí)更精確的高頻特征得到高分辨率 的 重 建 圖 像。級 聯(lián) 密 集 網(wǎng) 絡(luò)[30](Cascading Dense Network,CDN)從每個卷積層中提取分層特征,然后將這些特征通過級聯(lián)密集方式連接起來,解決了梯度消失問題從而提高了圖像超分辨率重建的性能。將兩個子網(wǎng)絡(luò)級聯(lián)起來增大網(wǎng)絡(luò)寬度可以優(yōu)化魯棒性進(jìn)一步提高網(wǎng)絡(luò)模型的重建質(zhì)量。此外,通過級聯(lián)結(jié)構(gòu)對深度網(wǎng)絡(luò)進(jìn)行壓縮,能有效地提高SR 模型的訓(xùn)練效率。級聯(lián)殘 差 網(wǎng) 絡(luò)[24](Cascading Residual Network,CARN)通過級聯(lián)方式連接遞歸塊,實(shí)現(xiàn)了高精度的重建效果。CARN 網(wǎng)絡(luò)中使用了卷積核大小為1×1 的卷積層。該級聯(lián)結(jié)構(gòu)減少參數(shù)的同時極大地節(jié)約了訓(xùn)練時間。Ahn 等[31]將特征通道進(jìn)行分組并同時開始學(xué)習(xí)新的特征映射,以提高SISR 的訓(xùn)練效率。該級聯(lián)網(wǎng)絡(luò)通過將群組卷積和權(quán)重分類輸入殘差網(wǎng)絡(luò),以獲得處理LR 圖像的最高效率。受上述工作的啟發(fā),本文設(shè)計(jì)了一個輕量級注意力級聯(lián)網(wǎng)絡(luò)來快速、準(zhǔn)確地提取特征并實(shí)現(xiàn)高性能。
注意力機(jī)制在現(xiàn)代計(jì)算機(jī)視覺任務(wù)中受到了越來越多的關(guān)注,如圖像字幕、圖像和視頻分類、圖像超分辨率重建等。它可以被解釋為一種引導(dǎo),將可用資源分配給輸入信號中信息量最大的部分。Hu[32]等提出了一種壓縮和激發(fā)網(wǎng)絡(luò)(Squeeze-and-Excitation Network,SENet)。利用通道間的相關(guān)性,在圖像分類方向取得了顯著的效果。注意力機(jī)制在圖像處理領(lǐng)域已被廣泛研究并顯示出強(qiáng)大的優(yōu)勢。近年來,一些基于注意力機(jī)制的SR 模型被提出,進(jìn)一步提高了圖像超分辨率重建效果。目前,大部分的圖像超分辨率方法主要關(guān)注通道注意力機(jī)制和空間注意力機(jī)制。Zhang 等[18]提出了一種殘差通道注意力網(wǎng)絡(luò)(Residual Channel Attention Network,RCAN),將通道注意力機(jī)制引入到改進(jìn)的殘差結(jié)構(gòu)中。該機(jī)制使用全局平均池化的方法提取通道統(tǒng)計(jì)量,稱為一階統(tǒng)計(jì)量。Dai 等[33]提出了一種新穎的二階注意力網(wǎng)絡(luò)(Second-order Attention Network,SAN),利用二階特征統(tǒng)計(jì)量來探索更豐富的信息區(qū)域。Liu 等[17]提出了一種殘差特征聚合網(wǎng)絡(luò),該框架通過結(jié)合增加的空間注意力機(jī)制來聚合信息豐富的殘差特征,以產(chǎn)生更有代表性的特征。假設(shè)給定一個目標(biāo)特征p和一個關(guān)鍵特征c,注意力函數(shù)yp通過衡量目標(biāo)特征與關(guān)鍵特征配對的相關(guān)性得出注意力權(quán)重然后自適應(yīng)地聚合關(guān)鍵內(nèi)容[34]。該注意力機(jī)制表征過程可表示為:
其中:n表示注意力函數(shù)對應(yīng)的個數(shù),Ωp表示目標(biāo)特征選取的關(guān)鍵區(qū)域,An(p,c,fp,lc)表示第n個注意力函數(shù)輸出的注意力權(quán)重,fp表示目標(biāo)特征的內(nèi)容,lc表示關(guān)鍵特征的內(nèi)容,Wn和W'n表示可學(xué)習(xí)的權(quán)重。通常,注意力函數(shù)的權(quán)重在目標(biāo)特征 選 取 的 關(guān) 鍵 區(qū) 域 內(nèi) 歸 一 化 ,即滿足(p,c,fp,lc)=1。
圖1 所示為本文所設(shè)計(jì)的輕量級注意力級聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)。該結(jié)構(gòu)主要包括:淺層特征提取模塊、非線性特征映射模塊、重建模塊和信息細(xì)化塊。首先,網(wǎng)絡(luò)輸入的低分辨率偏振調(diào)制圖像ILR將經(jīng)過一個卷積核大小為3×3 的卷積層來提取淺層特征H0并過濾部分低頻特征,即:
圖1 輕量級注意力級聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network architecture of lightweight attention cascading network
H0=f0(ILR), (2)其中,f0(?)表示輸入偏振圖像ILR的淺層特征提取函數(shù)。
提取的淺層特征H0通過級聯(lián)注意力網(wǎng)絡(luò)學(xué)習(xí)非線性映射并在殘差結(jié)構(gòu)中提取深層特征。非線性特征映射模塊由若干個級聯(lián)注意力塊(Cascading Attention Block,CAB)、多尺度注意力塊(Multi-scale Attention Block,MSAB)和長跳躍連接構(gòu)成。深層特征H1的提取過程可表示為:
H1=δ(H0), (3)
其中:δ(?)表示非線性特征映射階段的深層特征提取函數(shù)。然后,提取的深層特征通過參數(shù)共享的上采樣重建模塊。值得注意的是,不同于其他方法,該上采樣層采用雙路徑,通過融合淺層特征與深層特征的重建效果計(jì)算生成高分辨率偏振圖像。該過程可表示為:
H2=fup(H1)⊕fup(ILR), (4)
其中:fup(?)表示上采樣函數(shù),⊕表示不同的特征逐像素相加操作,H2表示本文網(wǎng)絡(luò)計(jì)算生成的高分辨率特征圖。
最后,通過信息細(xì)化塊對計(jì)算生成的粗高頻特征進(jìn)行細(xì)化,得到更精確的高分辨率特征,以實(shí)現(xiàn)良好的重建性能,即:
ISR=fIRB(H2)=fLACN(ILR), (5)
其 中:fIRB(?)表 示 信 息 細(xì) 化 塊 的 函 數(shù) 功 能,fLACN(?)表示所提超分辨率網(wǎng)絡(luò)的函數(shù)功能,ISR為本文LACN 網(wǎng)絡(luò)的輸出偏振圖像。
為了使模型更加輕量化,網(wǎng)絡(luò)采用了多尺度學(xué)習(xí)的方法。借助該策略可使用一個單一的訓(xùn)練模型處理多尺度空間域。這有助于在移動設(shè)備上應(yīng)用SR 程序時減輕沉重的模型參量負(fù)擔(dān)。圖2 展示了多尺度注意力塊的空間金字塔網(wǎng)絡(luò)結(jié)構(gòu),該結(jié)構(gòu)從多感受野的角度分析特征編碼。通過結(jié)合空間注意力和通道注意力機(jī)制進(jìn)一步優(yōu)化網(wǎng)絡(luò)的表征能力。考慮到不同感受野下的局部空間分量差異,本文設(shè)計(jì)了不同擴(kuò)張率的空洞卷積(DiRate)來提取多尺度特征。該空間金字塔結(jié)構(gòu)使用了四個并行的卷積核大小為3×3 的空洞卷積來計(jì)算多尺度局部域信息,其卷積層的感受野大小分別為1、2、4 和8,該過程可表述為:
圖2 空間金字塔網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of spatial pyramid
Fr=fr k×k(F0), (6)
其中:F0表示空間金字塔網(wǎng)絡(luò)的輸入特征;fr k×k(?)表示卷積核大小為k×k的空洞卷積的功能函數(shù),其中r表示擴(kuò)張率;Fr表示經(jīng)過空洞卷積層后的輸出特征。
空間注意力模塊網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。通過調(diào)整特征空間的權(quán)重,以突出細(xì)節(jié)更多和紋理復(fù)雜的可用區(qū)域且抑制平滑區(qū)域,從而獲取已知區(qū)域的重要空間信息。將空間金字塔網(wǎng)絡(luò)與空間注意力塊(Enhanced Spatial Attention,ESA)結(jié)合使用,可提高空洞卷積提取局部域信息的效率。此外,借助空間注意力機(jī)制將多尺度特征集中在關(guān)鍵的空間內(nèi)容上,以獲得更具代表性的特征,即:
圖3 空間注意力塊的網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Network structure of enhanced spatial attention block
Fs=Fr?χ(Fr), (7)
其中:χ(?)表示空間注意力機(jī)制的功能函數(shù),F(xiàn)s表示經(jīng)過ESA 注意力塊后的輸出特征,?表示元素相乘的操作。然后,將并行提取的多尺度特征連接為Fg=[F1s,F(xiàn)2s,F(xiàn)4s,F(xiàn)8s,F(xiàn)0]。
對于深層特征,空間注意力更關(guān)注每個通道中的局部特征,而通道注意力從多空間角度全局地分析所有的特征圖。圖4 展示了通道注意力網(wǎng)絡(luò)結(jié)構(gòu)。通過全局平均池化操作將特征通道的全局空間信息轉(zhuǎn)換成對應(yīng)的通道描述符。該機(jī)制可顯式地建模通道之間的相互依賴關(guān)系,以提高表征能力并保留有效的特征??紤]到特征通道之間的相關(guān)性,本文網(wǎng)絡(luò)將輸出特征Fg發(fā)送到通道注意力模塊,可自適應(yīng)地調(diào)整通道特征強(qiáng)弱。經(jīng)過通道注意力塊后的輸出特征Fc,即:
圖4 通道注意力機(jī)制網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Network structure of channel attention mechanism
Fc=?c(Fg)?Fg, (8)其中,?c(?)表示通道注意力機(jī)制的函數(shù)。
最后,使用一個卷積核大小為3×3 的卷積層來減小通道維度,并進(jìn)一步整合加權(quán)多尺度特征。輸出特征F1可表示為:
F1=f(Fc), (9)
其中:f(?)表示卷積核為3×3 的卷積層特征提取功能。
大多數(shù)圖像超分辨率方法通過增加更多的非線性網(wǎng)絡(luò)來增強(qiáng)模型的表征能力,這意味著需要搭建更多的卷積層和激活函數(shù)。然而,這種方案不可避免地降低了計(jì)算成像的速度。為簡化結(jié)構(gòu)和提高特征利用率,本文將重點(diǎn)放在探索層與層之間的連接模式上而非盲目地堆疊網(wǎng)絡(luò)深度。級聯(lián)注意力塊CAB 的網(wǎng)絡(luò)結(jié)構(gòu)如圖5 所示。CAB 選用了三個3×3 標(biāo)準(zhǔn)卷積層。對于輸入部分,前一個卷積層抑制的特征不能再被后續(xù)卷積層學(xué)習(xí)。為解決該問題,本文引入了級聯(lián)連接,將CAB 的輸入特性作為每個卷積層輸入的補(bǔ)充。對于輸出部分,僅使用最后一層的輸出導(dǎo)致魯棒性不足。因此,本文采用融合連接方式傳輸卷積層產(chǎn)生的分層特征,并利用1×1 卷積層聚合分層特征。LeakyReLU[35]激活函數(shù)建立在ReLU函數(shù)的基礎(chǔ)上,當(dāng)x小于0時引入極小值γ作為梯度,可以避免神經(jīng)元壞死。該過程可表示為:
圖5 級聯(lián)注意力塊的網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Network structure of cascading attention block
其中,f(?)表示卷積核為3×3 的卷積層特征提取功能;η(?)表示LeakyReLU 激活函數(shù)功能;⊕同公式(4)中含義;Fi表示CAB 中第i個標(biāo)準(zhǔn)卷積層的輸出特征,其中i的取值為1,2,3;Fm-1與Fm分別表示級聯(lián)網(wǎng)絡(luò)的輸入與輸出特征;Fg表示不同F(xiàn)i的連接融合特征;f1(?)表示卷積核為1×1 的卷積層特征提取功能;β(?)表示增強(qiáng)空間注意力機(jī)制的函數(shù)功能。
以往的工作[27]驗(yàn)證了結(jié)合高頻和低頻特征來重建高分辨率圖像的方法能取得不錯的效果。但常見的SR 方法往往僅使用LR 圖像來提取低頻特征,然后通過上采樣重建模塊將獲得的低頻特征轉(zhuǎn)換為粗高頻特征,這會導(dǎo)致粗高頻特征可能缺乏高頻特征的詳細(xì)信息。為解決該問題,本文提出一種信息細(xì)化塊來學(xué)習(xí)更精確的SR 特征,并重建生成高質(zhì)量超分辨率圖像。信息細(xì)化塊由4 層Conv 結(jié) 合ReLU 和1 層Conv 組 成。Conv 結(jié) 合ReLU 層包括一層標(biāo)準(zhǔn)卷積層和一個ReLU 激活函數(shù),其卷積核大小為3×3,輸入和輸出通道數(shù)均為64。最后一層卷積層的卷積核大小為3×3,輸入和輸出通道數(shù)分別為64 和3。
常見的圖像目標(biāo)優(yōu)化函數(shù)包括MSE、L1和L2。使用MSE 和L2優(yōu)化函數(shù)的SR 方法往往導(dǎo)致超分辨率圖像產(chǎn)生過于平滑的紋理。為了避免引入不必要的訓(xùn)練技巧并減少計(jì)算量,本文利用L1損失函數(shù)對SR 網(wǎng)絡(luò)進(jìn)行優(yōu)化。假設(shè)給定一組訓(xùn)練集,其中包含N個LR 輸入圖像及與之配對的HR 圖像,通過研究在不同下采樣倍數(shù)下的HR-LR 配對映射關(guān)系來建模訓(xùn)練模型。訓(xùn)練LACN 網(wǎng)絡(luò)的目標(biāo)是實(shí)現(xiàn)L(θ)損失函數(shù)的最小化,即:
其中:φ(?)表示本文SR 網(wǎng)絡(luò)的函數(shù)功能,θ表示LACN 網(wǎng)絡(luò)的參數(shù)集,‖ ‖1為1 范數(shù)。通過隨機(jī)梯度下降的方法來優(yōu)化L(θ)損失函數(shù)。
本研究是為自行研制的非制冷像元耦合的空間調(diào)制型雙通道高光譜全偏振相機(jī)提供超分辨率模塊,實(shí)驗(yàn)的偏振數(shù)據(jù)集由該設(shè)備在多種場景下獲取。光譜偏振相機(jī)由前置光路組件、空間調(diào)制模塊、液晶可調(diào)諧濾光片、成像光路組件和面陣探測器模塊五個部分構(gòu)成。在給定譜段下,該相機(jī)可對探測目標(biāo)進(jìn)行完整偏振狀態(tài)的高效、快速測量,如圖6 所示。成像系統(tǒng)利用Stokes 矢量的空間調(diào)制原理[8],將Stokes 矢量(S0~S3)同時調(diào)制在一幅圖像中。一次采集便可獲取探測目標(biāo)4 個Stokes 矢量的調(diào)制信息。采集的調(diào)制圖像可解析出不同的偏振參量圖像。本文采用600 幅自建的全偏振數(shù)據(jù)集同時加入公開數(shù)據(jù)集DIV2K[36](800 幅)進(jìn)行模型訓(xùn)練,并通過隨機(jī)旋轉(zhuǎn)90°、180°、270°和水平翻轉(zhuǎn)的方式進(jìn)行數(shù)據(jù)增強(qiáng)。選用多種目標(biāo)場景下的偏振調(diào)制圖像(分辨率為640×512)評估模型性能。對高分辨率的偏振訓(xùn)練樣本進(jìn)行不同倍數(shù)的雙三次下采樣處理并同時添加噪聲與模糊,以獲取對應(yīng)的低分辨率偏振圖像。實(shí)驗(yàn)的主要內(nèi)容是通過研究不同超分辨率尺度下的HR-LR 映射關(guān)系來建模訓(xùn)練網(wǎng)絡(luò)模型,并分析網(wǎng)絡(luò)的關(guān)鍵模塊同時與其他SR 方法進(jìn)行對比實(shí)驗(yàn),以驗(yàn)證本文算法的有效性。
圖6 光譜偏振相機(jī)Fig.6 Spectral polarization camera
實(shí)驗(yàn)平臺的CPU 為Intel(R)Core(TM)i9-10900X,128 GB RAM,GPU 為NVIDIA Quadro RTX 6000(24 GB),Cuda11.2。模型訓(xùn)練的環(huán)境為Python 3.6,編程框架為Pytorch 0.4.1。采用MATLAB R2019 測試評估網(wǎng)絡(luò)性能。
實(shí)驗(yàn)通過客觀定量分析、主觀定性分析兩方面進(jìn)行評價。將偏振圖像轉(zhuǎn)換到Y(jié)CbCr 空間[37]的Y 通道(即亮度分量)上進(jìn)行測試。采用峰值信噪比(Peak Signal-to-noise Ratio,PSNR)和結(jié)構(gòu)相似性(Structural Similarity,SSIM)來評估不同對比方法的重建圖像質(zhì)量。
本文網(wǎng)絡(luò)結(jié)構(gòu)中,CAB 的數(shù)量設(shè)置為12,CAB 中默認(rèn)設(shè)置三個3×3 標(biāo)準(zhǔn)卷積層。網(wǎng)絡(luò)的輸入通道數(shù)為32。最小訓(xùn)練批次的大小設(shè)置為16,在每批次訓(xùn)練中,提取大小為48×48 的LR偏振樣本作為網(wǎng)絡(luò)的輸入并對網(wǎng)絡(luò)進(jìn)行1 000 個回合(epoch)的迭代訓(xùn)練。對于不同的超分辨率尺度(包括×2、×3、×4),本文分別訓(xùn)練相應(yīng)的模型,共花費(fèi)約72 小時。所提的網(wǎng)絡(luò)模型由Adam 優(yōu) 化 器[38]訓(xùn) 練,初 始 學(xué) 習(xí) 率 為10-3。每 訓(xùn) 練200 個epoch 之后(即2×105次迭代),反向傳播迭代的學(xué)習(xí)率會衰減一半。選擇L1損失函數(shù)對網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
如圖7 和圖8 所示,本文選取機(jī)載光譜偏振相機(jī)對地觀測采集的部分建筑物和合肥南站的短波紅外偏振圖像作為測試樣本集。在本節(jié)中,通過消融實(shí)驗(yàn)討論LACN 不同組成部分的作用。
圖7 建筑物的偏振圖像Fig.7 Polarization images of building
圖8 合肥南站的偏振圖像Fig.8 Polarization images of hefei south railway station
4.3.1 CAB 模塊中注意力機(jī)制分析
為了分析ESA 模塊在級聯(lián)結(jié)構(gòu)CAB 中的作用,本文在CAB 沒有ESA 模塊的情況下進(jìn)行網(wǎng)絡(luò)訓(xùn)練。實(shí)驗(yàn)選用建筑物的偏振圖像集進(jìn)行4 倍SR。如表1 所示,與原始LACN 模型相比,沒有ESA 模塊的網(wǎng)絡(luò)的PSNR 降低了0.07 dB,SSIM也有所下降,說明ESA 模塊可以提高模型的重建性能。
表1 空間注意力網(wǎng)絡(luò)對重建結(jié)果的影響(×4 SR)Tab.1 Effect of enhanced spatial attention network on reconstruction performance(×4 SR)
4.3.2 MSAB 模塊對重建結(jié)果影響
為了驗(yàn)證提出的MSAB 模塊的有效性,從本文的網(wǎng)絡(luò)模型中移除MSAB 塊并重新訓(xùn)練網(wǎng)絡(luò)。表2 為網(wǎng)絡(luò)模型在建筑物的偏振數(shù)據(jù)集上進(jìn)行4倍SR 的結(jié)果??梢钥闯?,MSAB 模塊確實(shí)有利于SR 性 能。4 倍SR 的PSNR 從38.87 dB 上 升到38.93 dB,SSIM 也有所提高。
表2 MSAB 模塊對重建效果的影響(×4 SR)Tab.2 Effect of MSAB module on reconstruction performance(×4 SR)
4.3.3 信息細(xì)化塊對重建結(jié)果影響
非線性特征映射模塊強(qiáng)調(diào)低頻特征的作用,重建模塊具有將低頻特征轉(zhuǎn)化為粗高頻特征的能力,忽略了高頻特征的影響。在此基礎(chǔ)上,本文設(shè)計(jì)了信息細(xì)化模塊。具有4 個Conv結(jié)合ReLU 的信息細(xì)化塊可以從重建模塊中提取更精確的高頻特征,從而減小了預(yù)測的SR 圖像與目標(biāo)HR 圖像之間的差異。再通過一次卷積操作即可重建高質(zhì)量的SR 圖像。實(shí)驗(yàn)選用建筑物的偏振數(shù)據(jù)集進(jìn)行4 倍SR。從表3 可以看出,信息細(xì)化塊對LACN 網(wǎng)絡(luò)的性能有很大的提高,說明有信息細(xì)化模塊效果更好,改進(jìn)了重建性能。
表3 信息細(xì)化塊對重建性能的影響(×4 SR)Tab.3 Effect of information refinement block on reconstruction performance(×4 SR)
4.3.4 重建模塊的優(yōu)勢
為了驗(yàn)證所設(shè)計(jì)的重建模塊的優(yōu)越性,本文采用常見的亞像素卷積單路徑操作[15](路徑1)來代替所提的雙路徑方式(路徑2)進(jìn)行實(shí)驗(yàn)分析。表4 為不同路徑重建模塊的模型在建筑物的偏振圖像上進(jìn)行4 倍SR 的結(jié)果??梢钥闯觯淖冎亟K后,4 倍SR 的PSNR 從38.93 dB 下降到38.85 dB,SSIM 也略有下降,說明所提重建模塊確實(shí)有助于改善重建效果。
表4 不同路徑的重建模塊客觀效果對比(×4 SR)Tab.4 Objective comparison of reconstruction modules of different paths(×4 SR)
4.3.5 網(wǎng)絡(luò)模型深度選擇
為了檢驗(yàn)網(wǎng)絡(luò)深度對重構(gòu)性能的影響,本文在深層特征提取階段深化了網(wǎng)絡(luò)層??紤]到超分辨率網(wǎng)絡(luò)的輕量化設(shè)計(jì),本文簡單地在非線性特征映射模塊增加CAB 塊的數(shù)量來研究網(wǎng)絡(luò)性能的變化。實(shí)驗(yàn)選用合肥南站的偏振圖像集進(jìn)行3 倍SR,PSNR 和SSIM 的客觀評價結(jié)果如表5 所示??梢钥闯?,隨著網(wǎng)絡(luò)深度的增加,模型參數(shù)量逐漸增加,PSNR 也呈逐漸增加的趨勢。但是,網(wǎng)絡(luò)的深化必然會導(dǎo)致計(jì)算復(fù)雜度的增加且占用更多的內(nèi)存。為了在精度和參數(shù)之間取得平衡,12 個CAB 塊的網(wǎng)絡(luò)模型似乎是更合理的選擇。
表5 不同網(wǎng)絡(luò)深度對重建效果的影響(×3 SR)Tab.5 Effect of different network depths on reconstruction performance(×3 SR)
為驗(yàn)證本文算法的有效性,實(shí)驗(yàn)選取一組全偏振圖像集進(jìn)行測試,如圖9 所示。測試實(shí)驗(yàn)的客觀評價指標(biāo)為PSNR 和SSIM。PSNR 的數(shù)值越大表明重建性能越高,SSIM 度量圖像相似性,其數(shù)值越大說明相似性越高、重建效果越好。將本文方法與SRCNN[15]、FSRCNN[23]、MSRN[39]、AWSRN[28]等方法進(jìn)行對比實(shí)驗(yàn),驗(yàn)證2 倍、3 倍、4 倍超分辨率性能。
4.4.1 客觀定量分析
從表6 的實(shí)驗(yàn)結(jié)果可直觀看出,本文方法在2 倍、3 倍、4 倍超分辨率上都展現(xiàn)了良好的性能。相較于淺層輕量級網(wǎng)絡(luò)的SRCNN、FSRCNN 方法,本文方法的PSNR 和SSIM 值都大幅度提高,明顯提升了重建效果。LACN 模型與計(jì)算成本較高的模型相比,也得到了可觀的結(jié)果。相對于深度網(wǎng)絡(luò)MSRN,本文方法的評價結(jié)果也基本保持最優(yōu)或者接近,所提的模型參數(shù)量僅約為MSRN 模型的9%。AWSRN 為一種輕量級、高效的超分辨率網(wǎng)絡(luò)。本文方法的模型參數(shù)量僅約為AWSRN 模型的38%,且優(yōu)于該方法的重建效果。實(shí)驗(yàn)結(jié)果充分說明了本文方法的有效性和優(yōu)越性。
表6 不同SR 算法在全偏振圖像集上的評價指標(biāo)對比Tab.6 Indicator comparison of different SR algorithms on fully polarization image set
此外,本文將上述代表性的SR 方法進(jìn)行模型復(fù)雜度評估。為了進(jìn)行合理的比較,實(shí)驗(yàn)所有的SR 方法都在圖9 所示的全偏振數(shù)據(jù)集上進(jìn)行3 倍SR 評估。圖10 展示了該數(shù)據(jù)上不同模型參數(shù)量與重建性能的比較。圖11 為該數(shù)據(jù)集上不同模型重建性能與運(yùn)行時間的比較。值得注意的是,所提出的方法是相對快速的,同時保證了良好的重建性能。實(shí)驗(yàn)結(jié)果進(jìn)一步說明本文方法可以在模型復(fù)雜度與性能之間實(shí)現(xiàn)更好的平衡。
圖9 不同的偏振圖像Fig.9 Different polarization images
圖10 不同模型參數(shù)量與重建性能的比較Fig.10 Comparisons of the accuracy and model parameters
圖11 不同模型重建性能與運(yùn)行時間的比較Fig.11 Comparisons of the rebuild performance and speed
4.4.2 主觀定性分析
圖12~14 展示了不同方法的重建可視化結(jié)果。可以觀察到,本文模型的圖像重建質(zhì)量在線條、模式及紋理方面優(yōu)于其他SR 模型。圖12 顯示了渡江戰(zhàn)役紀(jì)念塔全偏振圖像的2 倍SR 結(jié)果。從重建后的圖像細(xì)節(jié)展示即圖中標(biāo)記區(qū)域兩個“石階梯”可看出,本文方法重建圖像紋理細(xì)節(jié)更加清晰,視覺效果改善最佳。SRCNN 和FSRCNN 重建后的圖像明顯背景虛化,圖像模糊。MSRN 和AWSRN 方法的重建圖像的質(zhì)量有所提高,仍存在平滑邊緣,模糊偽像等問題。圖13 展示了采集的合肥駱崗機(jī)場跑道全偏振圖像的可視化結(jié)果。本文方法重建的“條紋”亮度均勻,細(xì)節(jié)紋理清晰,優(yōu)于其他方法的重建效果。其他方法恢復(fù)高頻分量的能力有限,重建出的“條紋”模糊偽影、邊緣模糊,而本文方法重建“條紋”圖像消除了負(fù)面干擾,更加接近HR 圖像的質(zhì)量。圖14 為建筑物全偏振圖像的4 倍SR 可視化結(jié)果。從圖中可看出,本文方法對紋理豐富、不規(guī)則結(jié)構(gòu)圖案的重建效果較為出色,可以最大限度地恢復(fù)復(fù)雜紋理細(xì)節(jié)并抑制振鈴效應(yīng)的干擾。而其他算法不能充分提取特征內(nèi)容,難以恢復(fù)高精度的紋理信息,并且重建圖像存在邊緣模糊、紋理不清晰等問題。本文算法的PSNR 和SSIM值也優(yōu)于其他SR 算法。
圖12 紀(jì)念塔全偏振圖像上2 倍SR 的可視化結(jié)果Fig.12 Visualized results of×2 SR on monument fully polarization image
圖13 在機(jī)場跑道全偏振圖像上3 倍SR 的可視化結(jié)果Fig.13 Visualized results of×3 SR on airport runway fully polarization image
圖14 在建筑物全偏振圖像上×4 SR 的可視化結(jié)果Fig.14 Visualized results of×4 SR on building fully polarization image
上述可視化的對比結(jié)果表明本文提出的LACN 模型具有強(qiáng)大的表征能力,可抑制平滑分量、重建更多高頻細(xì)節(jié),有效地改善了視覺效果。
本文提出了一種輕量級注意力級聯(lián)網(wǎng)絡(luò)來改善偏振計(jì)算成像超分辨率重建效果。所提方