基于Trans-MIR模型的多模態(tài)圖像重建

2024-10-31 00:00:00李一鳴王昊李然陳泉盧海軍楊暉

光學(xué)儀器 2024年5期

文章編號：1005-5630（2024）05-0051-07 DOI：10.3969/j.issn.1005-5630.202303300078

摘要：圖像重建是光學(xué)計算成像的關(guān)鍵環(huán)節(jié)之一。目前基于深度學(xué)習(xí)的圖像重建主要使用卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)或生成對抗網(wǎng)絡(luò)等模型。大多數(shù)研究僅通過單一模態(tài)的數(shù)據(jù)訓(xùn)練模型，難以在保證成像質(zhì)量的同時又具備不同場景的泛化能力。為解決這一問題，提出了一種基于Transformer模塊的多模態(tài)圖像重建模型（multi-modal image reconstruction model based on the Transformer，Trans-MIR）。實驗結(jié)果表明，Trans-MIR能夠從多模態(tài)數(shù)據(jù)中提取圖像特征，實現(xiàn)高質(zhì)量的圖像重建，對二維通用人臉散斑圖像進(jìn)行圖像重建的結(jié)構(gòu)相似度高達(dá)0.93，對三維微管結(jié)構(gòu)圖像的超分辨重建的均方誤差低至10?4量級。Trans-MIR對研究多模態(tài)圖像重建具有一定的啟發(fā)作用。

關(guān)鍵詞：圖像重建；光學(xué)計算成像；多模態(tài)；Transformer模塊

中圖分類號：TP 391文獻(xiàn)標(biāo)志碼：A

Multi-modal image reconstruction method based on Trans-MIR model

LI Yiming1，WANG Hao2，LI Ran2，CHEN Quan2，LU Haijun3，YANG Hui1，2

（1.School of Medical Instruments，Shanghai University of Medicine and Health Sciences，Shanghai 201318，China;

2.School of Optical-Electrical and Computer Engineering，University ofShanghai for Science and Technology，Shanghai 200093，China;

3.Nokia Shanghai Bell Co.，LTD.，Shanghai 201206，China）

Abstract：Image reconstruction is one of the key steps in the optical computational imaging.At present，image reconstruction based on deep learning mainly uses convolutional neural network，cyclic neural network and generative adversarial network.Most models are only trained through the data of a single mode，which is difficult to ensure the quality of imaging while possessing the generalization ability of different scenes.To solve this problem，a multi-modal image reconstruction model based on the Transformer（Trans-MIR）is proposed in this paper.Experimental results show that Trans-MIR can extract image features from multi-modal data toachieve high-quality image reconstruction.The structural similarity of 2D universal face speckle reconstruction was as high as 0.93 and the mean square error of 3D microtubule reconstruction was as low as 10?4.It provides inspiration for the study of multimodal image reconstruction.

Keywords：image reconstruction;optical computational imaging;multi-modal;Transformer module

引言

隨著深度學(xué)習(xí)與計算機視覺技術(shù)的不斷發(fā)展，光學(xué)計算成像技術(shù)受到了越來越多的關(guān)注。光學(xué)計算成像使用計算機技術(shù)對成像過程中的光學(xué)系統(tǒng)、傳輸介質(zhì)、探測器等關(guān)鍵部分進(jìn)行建模和優(yōu)化，突破了傳統(tǒng)光學(xué)成像技術(shù)的限制。計算成像具有分辨率高，探測距離遠(yuǎn)，視場大，成本低和靈活性好等特點，已經(jīng)廣泛應(yīng)用在醫(yī)療影像、工業(yè)檢測、航空航天、智能交通等領(lǐng)域[1-2]。圖像重建是光學(xué)計算成像的核心應(yīng)用，能夠從接收到的失真信號中恢復(fù)出原始目標(biāo)物的圖像。對圖像重建技術(shù)的研究已經(jīng)成為當(dāng)前計算成像重要的一環(huán)，對醫(yī)療民生和國家戰(zhàn)略等方面具有重要意義。

當(dāng)前，圖像重建已經(jīng)形成了一些比較成熟的技術(shù)路線和算法，如壓縮感知、小波變換、全變分正則化、支持向量回歸和深度學(xué)習(xí)等方法?；谏疃葘W(xué)習(xí)的圖像重建方法主要使用卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural network，CNN）、循環(huán)神經(jīng)網(wǎng)絡(luò)（recurrent neural network，RNN）和生成對抗網(wǎng)絡(luò)（generative adversarial network，GAN）等技術(shù)，可以直接從數(shù)據(jù)中學(xué)習(xí)特征和模式，實現(xiàn)高質(zhì)量的圖像重建，在散射介質(zhì)成像、超分辨成像、低光子成像和無透鏡成像等多個場景都取得了令人矚目的成果[3]。例如，Li等[4]提出了一種可以學(xué)習(xí)散射介質(zhì)宏觀結(jié)構(gòu)統(tǒng)計特性的CNN模型，實現(xiàn)了稀疏目標(biāo)散斑圖像的散射成像；Dong等[5]提出了端到端的超分辨率卷積神經(jīng)網(wǎng)絡(luò)（super-resolution convolutional neural network，SRCNN）可以實時的將低分辨率圖像轉(zhuǎn)換為高分辨率圖像；Qiao等[6]提出了基于頻域注意力機制的生成對抗網(wǎng)絡(luò)（deep Fourier channel attention network，DFCAN），實現(xiàn)了低光子條件下的顯微成像；Yang等[7]提出了一種能實時校正點擴散函數(shù)測量中的系統(tǒng)誤差的RNN模型，實現(xiàn)了高質(zhì)量的無透鏡成像。但是，這些方法都僅使用單一模態(tài)的數(shù)據(jù)訓(xùn)練模型，通常泛化能力較差，一旦切換應(yīng)用場景就必須對模型進(jìn)行微調(diào)，操作較為復(fù)雜，并且準(zhǔn)確性也會受到限制[8-11]。

因此，本文提出一種新型的基于Transformer模塊[12]的多模態(tài)圖像重建模型（multi-modal image reconstruction model based on the Transformer，Trans-MIR）。Trans-MIR使用多個數(shù)據(jù)源的信息來增強泛化性，擴展應(yīng)用范圍，提高圖像重建的質(zhì)量和效果，并且采用輕量化設(shè)計，參數(shù)量僅有2 M。在對二維通用人臉散斑圖像和STORM采集的三維微管結(jié)構(gòu)超分辨圖像進(jìn)行圖像重建的實驗中，Trans-MIR表現(xiàn)出高質(zhì)量圖像重建能力和良好的泛化性能。其中，不同景深和散射程度的二維通用人臉散斑圖像重建結(jié)果的結(jié)構(gòu)相似度（structural similarity，SSIM）指數(shù)均高達(dá)0.93，三維微管結(jié)構(gòu)超分辨圖像重建結(jié)果的均方誤差（mean squared error，MSE）低至10?4量級。該方法具有進(jìn)一步擴展至低光子成像、無透鏡成像的潛力。

1圖像重建方法

1.1模型架構(gòu)

本文提出的Trans-MIR的模型架構(gòu)如圖1所示。該模型采用了編解碼器結(jié)構(gòu)，整體呈現(xiàn)U型。模型的前半部分為編碼器，可以接受不同模態(tài)的數(shù)；后半部分為解碼器，解碼器的最后一層是模型的輸出結(jié)果?；疑^的方向代表數(shù)據(jù)流動的方向，其中D，H，W和C分別代表數(shù)據(jù)的維度數(shù)、高、寬和通道數(shù)。在模型的前向過程中，圖像嵌入模塊負(fù)責(zé)將不同維度數(shù)的輸入圖像轉(zhuǎn)換為包含64個通道的特征圖，從而將輸入數(shù)據(jù)嵌入到模型之中；Transformer模塊能夠自適應(yīng)地調(diào)整對特征圖中不同信息的關(guān)注度，從而高效地提取特征圖中所蘊含的全局信息；卷積采樣模塊使用了殘差連接和瓶頸結(jié)構(gòu)，能夠?qū)崿F(xiàn)高性能地特征圖采樣；隱編碼模塊對深層特征進(jìn)行了線性變換，能夠強化模型的表征能力；特征壓縮模塊將64個通道的特征圖變換為僅具有前后景2個通道的特征圖；最后通過Softmax模塊的非線性函數(shù)激活得到輸出結(jié)果。

1.2 Transformer模塊

Trans-MIR中最核心的Transformer模塊如圖2所示。該模塊由批歸一化（batch normalization，BN）層、位置編碼（positional encoding，PE）層、多頭稀疏注意力（multi-head sparse attention，MHSA）機制、線性層和丟棄層等通過級聯(lián)和殘差方式組成。

BN是一種正則化技術(shù)，可以增強模型的非線性建模能力和表示能力。使用BN可以有效地改善梯度消失和爆炸問題，提高模型的訓(xùn)練速度和穩(wěn)定性，同時降低模型對超參數(shù)設(shè)置的敏感性。以輸入數(shù)據(jù)中第i個批次的第k個特征xik為例

BN（xik）=γk xiσk（k一）μk+βk（1）

式中：μk和σk分別代表第k個特征在輸入數(shù)據(jù)的全部m個批次中的均值和標(biāo)準(zhǔn)差；γk和βk是相應(yīng)的可學(xué)習(xí)的參數(shù)，用于調(diào)整輸出值的范圍和均值，實現(xiàn)重構(gòu)的操作。

PE是一種為數(shù)據(jù)增加位置編碼的技術(shù)。為Transformer模塊引入PE可以提供數(shù)據(jù)中各個位置之間的相對距離信息，以便更好地進(jìn)行注意力計算和建模。位置編碼的數(shù)學(xué)表達(dá)式為

PE（pos;2i）=sin（2）

PE（pos;2i+1）=cos（3）

式中：PE（pos;2i）和PE（pos;2i+1）分別表示輸入數(shù)據(jù)中位置pos的偶數(shù)和奇數(shù)維度的位置編碼向量；dm是模型的通道數(shù)。

MHSA是一種基于注意力機制的算法，可以提高模型對于不同特征的抽取能力。針對多模態(tài)數(shù)據(jù)的特點，多頭稀疏注意力機制引入了多個頭（head），每個頭可關(guān)注輸入數(shù)據(jù)的不同部分，計算不同的稀疏注意力（sparse attention，SA）分布，并將它們在通道維度組合（concat）起來以獲得更加準(zhǔn)確和全面的特征表示。計算公式為

式中：X代表輸入的特征數(shù)據(jù)；head i代表多頭稀疏注意力機制第i個頭，WiQ、Wi（K）、WiV分別是第i個頭中的三次線性映射，d是一個縮放因子，一般設(shè)置為512，Softmax函數(shù)將輸入映射到（0，1）區(qū)間內(nèi)，且所有輸出的和為1，對于給定的n個輸入x1;x2;···;xn計算式為

Softmax（xi）=Σ1（i）ex i;i=1;2;···;n（7）

1.3數(shù)據(jù)設(shè)置

圖3為獲取二維通用人臉散斑圖像的散射成像系統(tǒng)。激光器（Thorlabs HNL210L，波長為632.8 nm）發(fā)出的激光照射到加載了Face-LWF通用人臉圖像數(shù)據(jù)集[13]的相位型空間光調(diào)制器（Thorlabs EXULUS-HD2，像素尺寸為8μm，1 920 x 1 200）上進(jìn)行調(diào)制。通過CMOS相機（Thorlabs DCC645C，像素尺寸為3.6μm，1 280 x 1 024）依次采集透過4種不同粒度的毛玻璃散射介質(zhì)（Thorlabs，DG10-120-MD，125μm；DG10-220-MD，70μm；DG10-600-MD，25μm；DG10-1500-MD，10μm）的人臉散斑圖像。

如圖3（b）所示，從Face-LWF通用人臉圖像數(shù)據(jù)集中隨機選取1 500張不同的人臉圖像，在空間光調(diào)制器上進(jìn)行調(diào)制，并通過組合4種不同粒度（125μm，70μm，25μm，10μm）的毛玻璃散射介質(zhì)與3種不同的CMOS相機位置（離焦面0，20和40 mm）采集了18 000組散斑圖像，選取CMOS相機中心區(qū)域的800 x 800像素作為有效數(shù)據(jù)，并按照6∶2∶2劃分訓(xùn)練、驗證和測試數(shù)據(jù)集。

為了獲取三維微管結(jié)構(gòu)圖像，本文使用SMLM挑戰(zhàn)賽2016數(shù)據(jù)集[14]。將微管寬場圖像與STORM超分辨圖像組成的三維超分辨數(shù)據(jù)對進(jìn)行縮放對齊、隨機裁剪、旋轉(zhuǎn)變換，共得到1 400組尺寸為4 x 64 x 64的有效數(shù)據(jù)，并按照6∶2∶2劃分訓(xùn)練、驗證和測試數(shù)據(jù)集。

1.4訓(xùn)練細(xì)節(jié)

為了高效地訓(xùn)練Trans-MIR，并使其收斂到最優(yōu)，本文使用雙線性插值算法將二維通用人臉散斑圖像采樣為200 x 200，除以圖像最大灰度值255，將其歸一化到0～1，并將三維微管結(jié)構(gòu)圖像4個平面的灰度值分別映射到原本灰度值的1%～99%。使用自適應(yīng)動量估算（adaptive moment estimation，Adam）作為訓(xùn)練優(yōu)化器，使用交叉熵函數(shù)（cross-entropy，CE）作為訓(xùn)練損失函數(shù)。模型在NVIDIA GeForce RTX 3 090圖形計算卡上訓(xùn)練了100個周期，每個周期輸入2個批次的圖像數(shù)據(jù)，前50個周期的學(xué)習(xí)率固定為10-5，后50個周期的學(xué)習(xí)率通過余弦退火算法下降為10-6。

1.5評估指標(biāo)

本文使用SSIM和MSE來評估Trans-MIR的性能。SSIM通過計算2個圖像x和y的亮度、對比度、結(jié)構(gòu)的差異來表示相似度，計算式

SSIM（x;y）=l（x;y）ac（x;y）bs（x;y）c（8）

式中：a，b，c為常數(shù)；根據(jù)實際應(yīng)用場景確定l（x;y），c（x;y）和s（x;y）分別表示亮度相似度、對比度相似度和結(jié)構(gòu)相似度。

MSE通過計算2個圖像x和y的強度誤差來表示相似度，計算式為

MSE（x;y）=Σi（m）Σj（n）[x（i;j）-y（i;j）]2（9）

式中：x和y分別表示2個圖像；m和n分別表示圖像的高和寬；x（i;j）和x（i;j）分別表示兩個圖像在位置（i;j）處的像素值。

2實驗結(jié)果與分析

為了客觀評價Trans-MIR的真實表現(xiàn)，本文將2種模態(tài)的測試集數(shù)據(jù)分別輸入到訓(xùn)練好的模型中進(jìn)行圖像重建。圖4展示了CMOS相機在離焦面40 mm處采集的二維通用人臉散斑圖像的重建結(jié)果，圖像重建結(jié)果中白色代表陽性，黑色代表陰性，綠色代表假陽性，紅色代表假陰性。

可以看出，Trans-MIR對不同散射程度的通用人臉圖像都能實現(xiàn)高質(zhì)量的圖像重建，重建圖像和前景、背景都相當(dāng)干凈，僅在一些復(fù)雜紋理的邊緣細(xì)節(jié)上出現(xiàn)微小的誤差。從整體上看，重建圖像與真實圖像的眼睛、鼻子、嘴巴、耳朵和頭發(fā)等圖像細(xì)節(jié)和紋理幾乎一致。這充分說明了Trans-MIR具有不錯的圖像重建能力和泛化能力。

表1給出了人臉圖像在COMS相機距離焦平面不同位置的重建結(jié)果。分析表1中的數(shù)據(jù)可知，對于CMOS相機在離焦面0 mm處采集的二維通用人臉圖像，Trans-MIR重建結(jié)果的SSIM達(dá)到0.942，遠(yuǎn)好于Guo等[15]在相似任務(wù)上約0.8的重建結(jié)果。并且可以發(fā)現(xiàn)，該模型對于CMOS相機在不同位置下采集的二維通用人臉圖像都能高質(zhì)量的重建，SSIM均高于0.93，進(jìn)一步說明了Trans-MIR具有很好的圖像重建能力和泛化能力。

Trans-MIR對三維微管結(jié)構(gòu)超分辨圖像的重建結(jié)果準(zhǔn)確度同樣很高，在測試數(shù)據(jù)集的280組圖像上的平均MSE為5.8×10?4，達(dá)到了10?4量級，在相似的任務(wù)上DFGAN的表現(xiàn)僅為10?3量級。圖5為一組三維微管結(jié)構(gòu)超分辨圖像的重建結(jié)果，其中D1，D2，D3，D4分別代表三維數(shù)據(jù)在不同平面的二維切片。

通過觀察可以發(fā)現(xiàn)，Trans-MIR對三維微管結(jié)構(gòu)圖像的各個平面的重建結(jié)果都很好，相較于原始模糊的輸入圖像，重建結(jié)果的清晰度得到大幅提高，已經(jīng)可以準(zhǔn)確地分辨微管結(jié)構(gòu)，并且得益于多模態(tài)模型，重建結(jié)果抑制了部分在真實圖像中微管結(jié)構(gòu)末尾處的噪聲信號。實驗結(jié)果充分表明，Trans-MIR同樣可以實現(xiàn)三維微管結(jié)構(gòu)圖像的高質(zhì)量重建。

3結(jié)論

在計算成像領(lǐng)域，當(dāng)前大多數(shù)的圖像重建方法都集中在針對單一模態(tài)的數(shù)據(jù)上，而對于多模態(tài)圖像重建方向的研究則相對較少。本文提出一種基于Transformer模塊的多模態(tài)的圖像重建模型Trans-MIR。Trans-MIR使用二維通用人臉散斑圖像和三維微管結(jié)構(gòu)超分辨圖像2種模態(tài)的數(shù)據(jù)進(jìn)行訓(xùn)練，訓(xùn)練好的Trans-MIR實現(xiàn)了對多模態(tài)的圖像數(shù)據(jù)的高質(zhì)量圖像重建。Trans-MIR在模型架構(gòu)上做出了一定的改進(jìn)，使用輕量化設(shè)計的Transformer模塊匹配多模態(tài)圖像重建任務(wù)，對于研究多模態(tài)圖像重建有一定的啟發(fā)作用。Trans-MIR可以進(jìn)一步擴展至低光子成像、無透鏡成像場景。

參考文獻(xiàn)：

[1]左超，陳錢.計算光學(xué)成像：何來，何處，何去，何從？[J].紅外與激光工程，2022，51（2）：20220110.

[2]邵曉鵬，劉飛，李偉，等.計算成像技術(shù)及應(yīng)用最新進(jìn)展[J].激光與光電子學(xué)進(jìn)展，2020，57（2）：020001.

[3]BARBASTATHIS G，OZCAN A，SITU G.On the use of deep learning for computational imaging[J].Optica，2019，6（8）：921–943.

[4]LI S，DENG M，LEE J，et al.Imaging through glass diffusers using densely connected convolutional networks[J].Optica，2018，5（7）：803–813.

[5]DONG C，LOY C C，TANG X O.Accelerating the super-resolution convolutional neural network[C]//Proceedings of the 14th European Conference on Computer Vision.Amsterdam，The Netherlands：Springer，2016：391–407.

[6]QIAO C，LI D，GUO Y T，et al.Evaluation and development of deep neural networks for image super-resolution in optical microscopy[J].Nature Methods，2021，18（2）：194–202.

[7]YANG J Y，YIN X J，ZHANG M X，et al.Learning image formation and regularization in unrolling AMP for lensless image reconstruction[J].IEEE Transactions on Computational Imaging，2022，8：479–489.

[8]KNOLL F，HOLLER M，KOESTERS T，et al.Joint MR-PET reconstruction using a multi-channel image regularizer[J].IEEE Transactions on Medical Imaging，2017，36（1）：1–16.

[9]BOUSSE A，BERTOLLI O，ATKINSON D，et al.Maximum-likelihood joint image reconstruction/motion estimation in attenuation-corrected respiratory gated PET/CT using a single attenuation map[J].IEEE Transactions on Medical Imaging，2016，35（1）：217–228.

[10]ZANFIR A，ZANFIR M，GORBAN A，et al.HUM3DIL：semi-supervised multi-modal 3D HumanPose estimation for autonomous driving[C]//Proceedings of the 6th Conference on Robot Learning.Auckland：PMLR，2023：1114–1124.

[11]AN S Z，LI Y，OGRAS U.mRI：multi-modal 3D human pose estimation dataset using mmWave，RGB-D，and inertial sensors[EB/OL].[2023–03–01].https：//openreview.net/pdf？id=Oa2-cdfBxun.

[12]VASWANI A，SHAZEER N，PARMAR N，et al.Attention is all you need[C]//Proceedings of the 31st International Conference on Neural InformationProcessing Systems.Long Beach：Curran AssociatesInc.，2017：6000–6010.

[13]HUANG G B，MATTAR M，BERG T，et al.Labeled faces in the wild：a database forstudying face recognition in unconstrained environments[C]//Proceedings of the Workshop on Faces in'Real-Life'Images：Detection，Alignment，and Recognition.Marseille：Erik Learned-Miller and Andras Ferencz and Frédéric，2008.

[14]SPEISER A，MüLLER L R，HOESS P，et al.Deep learning enables fast and dense single-molecule localization with high accuracy[J].Nature Methods，2021，18（9）：1082–1090.

[15]GUO E L，ZHU S，SUN Y，et al.Learning-based method to reconstruct complex targets through scattering medium beyond the memory effect[J].Optics Express，2020，28（2）：2433–2446.

（編輯：李曉莉）

光學(xué)儀器2024年5期

光學(xué)儀器的其它文章: MgF2/Lumogen復(fù)合薄膜抗輻照損傷效應(yīng)研究; 基于懸鏈孔超表面的偏振檢測器件; 磁平衡法壓力計量方法與裝置; 基于語義信息和注意力機制的低光照圖像增強; 太赫茲近場掃描顯微成像的理論模擬研究; 基于全無機鈣鈦礦量子點的465 nm發(fā)光研究