基于無監(jiān)督學(xué)習(xí)和注意力機制的水下偏振圖像融合

2023-12-02 12:48:10鞏文哲褚金奎成昊遠(yuǎn)

光學(xué)精密工程 2023年21期

鞏文哲，褚金奎，成昊遠(yuǎn)，張然

（大連理工大學(xué) 遼寧省微納米系統(tǒng)重點實驗室，遼寧大連 116024）

1 引言

海洋面積占地球總面積的70%以上，海洋生態(tài)系統(tǒng)是地球上生產(chǎn)力最高、最具活力的生態(tài)系統(tǒng)之一，人們在海洋資源勘探、生物考察和水下航行器導(dǎo)航等領(lǐng)域展開了研究［1-5］。水下光學(xué)圖像是目前探索海洋的重要媒介之一，但是由于光線在水中受到大量漂浮微粒的影響，實際水下獲得的圖像嚴(yán)重退化，存在背景噪聲大、對比度低和細(xì)節(jié)丟失等問題［1］。因此，水下圖像增強技術(shù)的研究對于海洋探測和獲取水下的有效信息具有重要的意義和價值。

在眾多水下成像技術(shù)中，水下偏振光學(xué)成像技術(shù)作為新型光學(xué)成像技術(shù)備受關(guān)注［6-9］。偏振是光的波動性的表現(xiàn)，不同物體反射光的偏振態(tài)不同，在一定程度上能表征目標(biāo)物體的特征信息。研究表明，水下偏振成像技術(shù)利用散射光的偏振特性可以在一定程度上減小后向散射光對水下成像的影響［8］。偏振探測中，通常用斯托克斯矢量表征光波的強度和偏振態(tài)。其中，總光強包含反射光和透射光并傾向于描述物體的反射率和透射率；線性偏振度（Degree of Linear Polarization， DoLP）圖像用于表征偏振特性并提供詳細(xì)的特征。為了獲得同一場景的互補信息，需要融合強度和DoLP 圖像。近年來，圖像處理領(lǐng)域出現(xiàn)了許多圖像融合方法。圖像融合方法根據(jù)融合過程可以分為像素級、特征級和決策級3 種不同層級的融合。其中，像素級圖像融合的研究和應(yīng)用最多，分為基于變換域的融合方法（圖像金字塔［10］、小波變換［11］、Ridgelets 變換［12］、Curvelet 變換［13］）和基于空間域的融合方法（HIS 變換融合方法［14］、主成分分析逆變換融合方法［15］、像素值加權(quán)法、統(tǒng)計模型融合方法）兩類，可從像素層面實現(xiàn)多源圖像的融合，融合后的圖像信息更加全面、精確、可靠。

近年來，深度學(xué)習(xí)技術(shù)發(fā)展飛快，計算機視覺和圖像處理領(lǐng)域的許多問題取得了突破性進展。目前，基于深度學(xué)習(xí)的圖像融合技術(shù)研究日益增多，在數(shù)字成像（多焦點圖像融合［16］、多曝光圖像融合［17］等）、多模態(tài)成像（可見光與紅外光圖像融合［18-21］、醫(yī)學(xué)多模態(tài)圖像融合［22］、偏振圖像融合［23］等），以及遙感成像［24］（多光譜與全色圖像融合、多光譜與高光譜圖像融合等）等多個方向。與傳統(tǒng)方法表征輸入圖像和目標(biāo)圖像復(fù)雜映射關(guān)系的能力有限相比，深度學(xué)習(xí)模型在表征不同信號之間復(fù)雜關(guān)系方面具有強大的能力，并且可從數(shù)據(jù)中自動提取有效的特征，解決人工設(shè)計的困難。本文將深度學(xué)習(xí)應(yīng)用于水下偏振圖像融合，提出了一種基于無監(jiān)督學(xué)習(xí)和注意力機制引導(dǎo)的網(wǎng)絡(luò)模型，主要分為特征提取、特征融合和圖像重構(gòu)3 個模塊。其中，特征提取模塊融合了注意力機制，其次構(gòu)建了相關(guān)損失函數(shù)及權(quán)重參數(shù)。該方法能夠有效融合水下光強和偏振度圖像信息，提高視覺成像質(zhì)量，具有較強的穩(wěn)定性和自適應(yīng)性。

2 成像原理

2.1 水下成像模型

Jaffe-McGlamery 模型［25-26］是常用的水下成像模型之一，諸多水下圖像復(fù)原算法都是基于此模型提出的。如圖1 所示，Jaffe-McGlamery 模型中探測器最終接收到的圖像是3 個分量的線性組合，這3 個分量分別是探測器接收到的目標(biāo)反射光S（x，y）、光源在到達(dá)目標(biāo)物前經(jīng)水體散射的后向散射光B（x，y）和部分目標(biāo)反射光經(jīng)水體散射到達(dá)探測器的前向散射光F（x，y），則該圖像可表示為：

圖1 Jaffe-McGlamery 模型Fig.1 Jaffe-McGlamery model

假定目標(biāo)最初的輻照度為J（x，y），由于散射和吸收的作用，光從目標(biāo)傳播到探測器時損失部分能量，目標(biāo)反射光S（x，y）可表示為：

式中t（x，y）為介質(zhì)透射率，其表達(dá)式為：

在單一均勻介質(zhì)中，介質(zhì)透射率由衰減系數(shù)β（x，y）和傳播距離ρ（x，y）決定，衰減系數(shù)β（x，y）在空間上是恒定的，即β（x，y）=β0，傳播距離ρ（x，y）是指物體與相機之間光路的水下部分。

后向散射光B（x，y）是背景光經(jīng)水中顆粒反射到探測器處，可以表示為：

其中B∞表示無限遠(yuǎn)處的水下環(huán)境光光強。由于前向散射對成像質(zhì)量的影響極小，通常可以忽略，則式（1）可簡化為：

物體最初的輻照度J（x，y）可表示為：

2.2 偏振成像原理

在偏振探測領(lǐng)域最常用的偏振特性表示方法之一是斯托克斯矢量法，該方法能夠全面地表征入射光波以及物質(zhì)作用后光波的偏振特性。該矢量由4 個參量組成，如下：

式中：S0代表探測器接收到的總光強，S1代表0°和90°偏振分量I0°和I90°的光強度差值，S2代表45°和135°偏振分量I45°和I135°的光強度差值，S3代表光波中左旋和右旋圓偏振分量Ir和Il的光強差。不同方向的光強可以通過穆勒矩陣得出，即：

式中：θ是主光軸與參考線之間的夾角，S′表示角度為θ的出射光。根據(jù)式（8）可得角度為θ的出射光光強為：

偏振相機能夠獲得偏振方向為0°，45°，90°和135°的光強圖，是因為CMOS 傳感器的每個像元上都有4 個不同角度的偏振片（0°，45°，90°，135°）。如圖2 所示，每4 個像元一組作為一個計算單元，進而獲得θ為0°，45°，90°和135°的光強，聯(lián)立后可以得到式（7）。利用斯托克斯矢量能夠進一步計算入射光的線偏振度DoLP 以及偏振角φ：

圖2 偏振傳感器原理Fig.2 Schematic diagram of polarization sensor

其中：DoLP 代表光波中線偏振分量占總光強的比例，φ是入射光的優(yōu)勢偏振方向。

3 本文算法

3.1 網(wǎng)絡(luò)結(jié)構(gòu)

本文采用的網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示，它主要包含：特征提取模塊，特征融合模塊和圖像重構(gòu)模塊3 個模塊。在特征提取模塊，光強圖像（S0image）和偏振度圖像（DoLP image）采用雙通道輸入，第一層為包含3×3 卷積核的卷積層和激活函數(shù)ReLU，用來提取低級特征；之后是包含3 個卷積層的DenseBlock 模塊，用來提取高級特征，每個卷積層也采用3×3 的卷積核，卷積核的運算步長為1。在卷積運算之前還有BN 層和ReLU 激活函數(shù)，這種排序方式能夠加快網(wǎng)絡(luò)的訓(xùn)練速度，DenseBlock 結(jié)構(gòu)能夠保留較多的深度特征，增強特征傳播，確保之后的融合過程有足夠的深度特征，也能緩解梯度消失的問題。光強圖像和偏振度圖像輸入的兩個通道共享相同的權(quán)重，減少了參數(shù)量，有助于降低網(wǎng)絡(luò)的計算復(fù)雜度。之后是注意力單元（見3.2 節(jié)），注意力單元將前一層的特征圖作為輸入，能夠捕獲數(shù)據(jù)中的全局關(guān)系，引導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)特征圖的分布。在特征融合模塊，將特征提取模塊輸出的特征圖疊加，兩個特征圖的通道大小均為128，疊加后融合特征圖的通道大小為256。最后特征融合模塊的輸出作為圖像重構(gòu)模塊的輸入，圖像重構(gòu)模塊包括5 個轉(zhuǎn)置卷積層，每個轉(zhuǎn)置卷積層的卷積核尺寸為3×3，通過重構(gòu)模塊從融合特征中重建出融合結(jié)果。詳細(xì)的網(wǎng)絡(luò)結(jié)構(gòu)配置如表1 所示。

表1 水下偏振圖像融合算法的網(wǎng)絡(luò)結(jié)構(gòu)配置Tab.1 Network structure configuration of under-water polarized image fusion algorithm

圖3 水下偏振圖像融合算法的網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Network architecture of under-water polarized image fusion algorithm

3.2 注意力單元

注意力機制是一種捕獲全局依賴的機制。注意力單元結(jié)合了通道注意力和空間注意力，通道注意力能夠使網(wǎng)絡(luò)學(xué)習(xí)通道域的特征重要性，給與特征圖不同的權(quán)重，從而在通道域上實現(xiàn)光強圖像和偏振圖像的選擇性結(jié)合；而空間注意力聚焦于學(xué)習(xí)每一層特征圖的有效信息分布，提高顯著性特征的傳遞。注意力單元包括全局平均池化層、卷積層、激活層和拼接層等結(jié)構(gòu)，如圖4所示。

給定X∈RH×W×C和X′∈RH×W×C為注意力單元的輸入和輸出，則注意力單元的計算過程如下：

式中：σ為Sigmoid 激活函數(shù)，F(xiàn)c為通道注意力分支，F(xiàn)s為空間注意力分支，⊕為廣播加法運算，?為逐元素乘法運算。

作為輸入的特征圖X∈RH×W×C經(jīng)過通道注意力分支時，首先經(jīng)過全局平均池化層得到通道特征Xc∈R1×1×C，然后用逐點卷積PWConv1，BN 層和ReLU 激活函數(shù)得到尺寸為1×1×r的通道特征，再經(jīng)過逐點卷積PWConv2和BN 層得到尺寸為1×1×C的通道注意力特征圖Xc。Fc表示為：

其中：δ為ReLU 激活函數(shù)，GAP 為全局平均池化。與通道注意力分支相似，在經(jīng)過空間注意力分支時，先用3×3 卷積Conv1，BN 層和ReLU激活函數(shù)得到尺寸為H×W×r的特征圖，再經(jīng)過1×1 卷積PWConv2和BN 層得到尺寸為H×W×C的空間注意力特征圖Xs。Fs表示為：

3.3 損失函數(shù)

本文中的損失函數(shù)包括全局加權(quán)結(jié)構(gòu)相似性（Structural Similarity Index Measure， SSIM）損失函數(shù)（MSW-SSIM）［23］，如下：

式中：LossSSIM(x，y；ω) 為基于SSIM 的損失函數(shù)，代表在窗口ω上圖像x和y的結(jié)構(gòu)相似性，其表達(dá)式為：

SSIM 是衡量兩幅圖像相似度的指標(biāo)，包括亮度、對比度和結(jié)構(gòu)3 個不同因素。SSIM 的取值為-1～1，SSIM 越接近1，兩個圖像越相似。

該損失函數(shù)基于多窗口的SSIM，解決了不同尺度的圖像細(xì)節(jié)問題。使用的窗口尺寸包括3，5，7，9，11，不同窗口可以提取不同尺度的特征。此外，在LossSSIM(IS0，If；ω) 和LossSSIM(IDoLP，If；ω)之間使用權(quán)重系數(shù)，權(quán)重系數(shù)基于和確定，定義如下：

其中：g（x）為防止異常情況設(shè)置的截斷函數(shù)，g(x)=max(x，0.000 1)。當(dāng)窗口內(nèi)S0圖像的方差大于對應(yīng)DoLP 圖像的方差時，說明S0圖像的局部區(qū)域具有更多的圖像細(xì)節(jié)，S0圖像的權(quán)重系數(shù)γω應(yīng)該更大。

此外，MSW-SSIM 可以保留高頻信息，但對均勻的偏差不敏感容易導(dǎo)致亮度的改變，所以將它與L1范數(shù)損失函數(shù)整合，可以保證融合結(jié)果的亮度。L1范數(shù)損失函數(shù)表示為：

式中：M和N分別是圖像的高度和寬度，Iavg為IS0和IDoLP的平均值。最終損失函數(shù)可以表示為：LMix=α?LossMSW-SSIM+(1-α)?Gσ?LossL1，（19）式中：α為控制MSW-SSIM 損失函數(shù)和高斯加權(quán)L1范數(shù)損失函數(shù)之間權(quán)重的超參數(shù)，設(shè)置為0.84。

4 實驗與結(jié)果分析

4.1 實驗配置

為了獲取數(shù)據(jù)集，進行水下成像實驗，實驗裝置及布局如圖1 所示，主要包括偏振相機、玻璃水箱、偏振光源和目標(biāo)物體。偏振相機型號為PHX050S-P，目標(biāo)分辨率為2 448×2 048，采用焦平面偏光成像，鏡頭焦距為10.5 mm，可以一次拍攝4 張偏振角度分別為0°，45°，90°和135°的線偏振光強度圖像。采用透明玻璃水箱作為容器，并在水箱內(nèi)壁覆蓋黑色絨布，以避免環(huán)境光和內(nèi)壁反射的干擾。將目標(biāo)放置在裝滿水的玻璃水缸中，獲取光強圖和線偏振度圖像，最終構(gòu)建了包含150 組圖像的數(shù)據(jù)集。每組圖像由對應(yīng)的光強圖和線偏振度圖構(gòu)成，圖像尺寸為1 224 pixel×1 024 pixel，其中100 組作為訓(xùn)練集，剩余50 組為驗證集和測試集。對數(shù)據(jù)集圖像進行翻轉(zhuǎn)，并裁剪為80×80 大小用作網(wǎng)絡(luò)訓(xùn)練的輸入，訓(xùn)練過程在顯卡為NVIDA GeForce RTX 2080 Ti 的服務(wù)器上進行。在進行權(quán)值初始化后，使用mini-batch 大小為 128 的 Adam 優(yōu)化器進行優(yōu)化。學(xué)習(xí)率最初設(shè)置為0.000 1，并以0.99 的速率呈指數(shù)衰減，最大Epoch 設(shè)置為200。

4.2 結(jié)果分析

基于無監(jiān)督學(xué)習(xí)和注意力機制對網(wǎng)絡(luò)進行訓(xùn)練，并對水下圖像融合性能進行測試。為了客觀衡量融合圖像的質(zhì)量，采用信息熵（EN）、標(biāo)準(zhǔn)差（SD）、互信息（MI）和結(jié)構(gòu)相似性（SSIM）4 種圖像評價指標(biāo)。信息熵表示圖像的平均信息量，其計算公式如下：

信息量越大，信息熵越大。圖像融合后會造成圖像信息量的增加，而信息熵可以反映出變化的程度。

標(biāo)準(zhǔn)差指圖像像素灰度值相對于均值的離散程度。標(biāo)準(zhǔn)差越大，表明圖像中灰度級分布越分散，圖像質(zhì)量也就越好，其計算公式為：

互信息可度量兩幅圖像之間的相似程度，即融合圖像獲取了多少原圖像信息量?；バ畔⒃酱螅硎救诤蠄D像保留更多源圖像信息，質(zhì)量越好。互信息由圖像的信息熵H（A）和聯(lián)合信息熵H（A，B）決定，即：

這里MI 的計算公式為：

SSIM 是一個廣泛使用的圖像質(zhì)量評價指標(biāo)，它是基于人眼觀看圖像時會提取其中的結(jié)構(gòu)化信息的假設(shè)。SSIM 越接近1，相似度越高，融合質(zhì)量越好。本文采用的計算公式為：

圖像融合結(jié)果如圖5 所示，可以發(fā)現(xiàn)，光強圖像質(zhì)量較差，場景細(xì)節(jié)退化嚴(yán)重，在加入偏振圖像進行融合后，目標(biāo)物變得更清晰，鑰匙的紋理輪廓能夠清楚地識別。根據(jù)采用的圖像指標(biāo)進行評價，融合后的信息熵提升24.48%，標(biāo)準(zhǔn)差提升139%，表明本方法可提升水下圖像質(zhì)量。

圖5 融合結(jié)果Fig.5 Fusion result

此外，進行了消融實驗，并將本方法得到的融合圖像與其他幾種圖像融合方法進行了比較，包括曲波變換（Curvelet Transform， CVT）［13］、梯度轉(zhuǎn)移（Gradient Transfer， GTF）［27］、多分辨率奇異值分解（Multi-resolution Singular Value Decomposition， MSVD）［28］、低通率金字塔變換（Ratio of low-pass Pyramid， RP）［10］、離散小波變換（Discrete Wavelet Transform， DWT）［11］以及移除注意力單元后的網(wǎng)絡(luò)。如圖6 所示，RP 的結(jié)果具有較差的視覺效果，鑰匙邊緣和陰影部分均產(chǎn)生了一定程度的偽影，且噪點較多；CVT，DWT和MSVD 的結(jié)果有一定程度的顆粒感，且對比度偏低，對于陰影的處理較差；GTF 的結(jié)果具有較高的對比度，但鑰匙的紋理細(xì)節(jié)不夠清晰；而本文方法具有較為真實的視覺效果，沒有明顯的偽影和失真且對陰影的處理效果較好，相對于移除注意力單元的網(wǎng)絡(luò)在細(xì)節(jié)方面更為精細(xì)。

圖6 部分測試集圖像不同方法融合結(jié)果對比Fig.6 Comparison of fusion results of different methods for partial test set images

為了客觀地評估方法的性能，使用之前介紹的4 種圖像評價指標(biāo)對測試集中的圖像進行評估，最終結(jié)果取平均值，結(jié)果如表2 所示。本方法在信息熵、標(biāo)準(zhǔn)差、MI 和SSIM 3 種圖形評價指標(biāo)中均具有較好的表現(xiàn)，進一步說明了方法的有效性。

表2 不同方法對偏振圖像融合的定量結(jié)果Tab.2 Quantitative results of polarization image fusion by different methods

最后，在配置為NVIDIA GeForce RTX 2080 Ti，3.1GHz Intel Core i9-9600X，128G RAM 的服務(wù)器上進行運行時間評估，結(jié)果如表3所示。所有方法均在Python 語言下實現(xiàn)，采用多組取平均值，本文方法的處理速度為0.051 s，優(yōu)于其他方法。

表3 不同方法的運算時間Tab.3 Operating time of different methods

5 結(jié) 論

本文針對水下光學(xué)成像質(zhì)量差的問題，通過分析水下主動偏振成像模型，提出了將深度融合網(wǎng)絡(luò)應(yīng)用于水下偏振圖像的方法，搭建實驗裝置獲取水下偏振圖像構(gòu)建訓(xùn)練數(shù)據(jù)集，構(gòu)造了基于無監(jiān)督學(xué)習(xí)和注意力機制引導(dǎo)的端到端網(wǎng)絡(luò)模型并設(shè)計損失函數(shù)。實驗結(jié)果表明，本文方法提高了圖像視覺質(zhì)量，融合后的水下圖像細(xì)節(jié)更為豐富，相比于光強圖像信息熵提升了24.48%，標(biāo)準(zhǔn)差提升了139%。傳統(tǒng)的圖像融合方法通常需要設(shè)定權(quán)重參數(shù)來控制不同輸入圖像之間的融合程度，而權(quán)重參數(shù)的設(shè)定需要經(jīng)過反復(fù)實驗和調(diào)整才能得到最佳效果。相比之下，該方法不需要手動設(shè)定權(quán)重參數(shù)，可以從數(shù)據(jù)中學(xué)習(xí)到較優(yōu)的融合策略。下一步研究包括構(gòu)建更為全面的數(shù)據(jù)集、改進損失函數(shù)和網(wǎng)絡(luò)模塊以進一步提升融合圖像質(zhì)量，以滿足實際應(yīng)用的要求；同時還要提高算法的處理效率，減小運算時間，以滿足實時處理水下視頻的需求，實現(xiàn)對水下目標(biāo)的實時檢測。