王麗芳,米嘉,秦品樂,藺素珍,高媛,劉陽
中北大學(xué)大數(shù)據(jù)學(xué)院山西省生物醫(yī)學(xué)成像與影像大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室,太原 030051
隨著現(xiàn)代醫(yī)學(xué)成像技術(shù)的發(fā)展,出現(xiàn)了不同模態(tài)的成像方式,單一模態(tài)的醫(yī)學(xué)圖像對(duì)于細(xì)節(jié)的表征具有局限性。針對(duì)單模態(tài)圖像的局限性,臨床上將多種模態(tài)的醫(yī)學(xué)圖像進(jìn)行融合,可以在保留原始圖像特征的同時(shí)(Gai等,2019),彌補(bǔ)單模態(tài)醫(yī)學(xué)圖像的缺陷,展示豐富的細(xì)節(jié)信息(Veshki等,2021),利于醫(yī)生對(duì)疾病準(zhǔn)確地診斷和治療。醫(yī)學(xué)圖像中含有大量能反映病灶情況(Nour等,2020)的深層特征和細(xì)節(jié)信息,然而這些深層特征卻難以捕捉,而且從單模態(tài)圖像提取特征后再融合,容易丟失融合圖像信息完整性(藺素珍和韓澤,2017),因此,利用當(dāng)前模態(tài)和其他模態(tài)特征之間的關(guān)系來提取融合所需的深層特征(Mbilinyi和Schuldt,2020),對(duì)于多模態(tài)醫(yī)學(xué)圖像融合來說非常重要。
傳統(tǒng)的圖像融合方法很難表征融合圖像中病變區(qū)域的深層特征。例如,基于空間域的融合方法會(huì)引起融合圖像的光譜和空間失真(Maqsood和Javed,2020);基于變換域融合方法會(huì)使圖像具有塊效應(yīng)(Yan等,2021)。深度學(xué)習(xí)在圖像融合領(lǐng)域發(fā)展迅速,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)作為其重要分支,具有強(qiáng)大的提取特征能力(Jung等,2020;Zhang等,2020b;Nikolaev等,2021)。Liu等人(2017)利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)聚焦區(qū)域進(jìn)行分類后,生成多聚焦融合圖像。但存在融合圖像部分信息丟失的問題。Zhang等人(2020a)為避免信息丟失提出了全卷積神經(jīng)網(wǎng)絡(luò)的圖像融合框架(image fusion based on convolutional ceural cetwork,IFCNN),引入了級(jí)聯(lián)的邊界感知卷積網(wǎng)絡(luò),但因其卷積核設(shè)置單一,導(dǎo)致了深層特征提取困難。Pan等人(2021)提出密集連接網(wǎng)絡(luò)結(jié)構(gòu)(DenseNetFuse),編碼部分采用殘差密集連接的方式連接密集塊,但此結(jié)構(gòu)僅能提取單一尺度上的特征。
生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)作為深度學(xué)習(xí)的另一分支,廣泛應(yīng)用于圖像融合領(lǐng)域(Kurakin等,2018;Liu等,2018;Wang等,2021)。Ma等人(2019)提出基于GAN的紅外與可見光圖像融合框架FusionGAN(fusion generative adversarial network),通過紅外熱輻射信息和可見光紋理信息之間的博弈,突出了圖像關(guān)鍵信息。然而,F(xiàn)usionGAN僅有一個(gè)鑒別器,所以融合結(jié)果存在過于關(guān)注可見光圖像信息而紅外圖像信息部分丟失的問題。Ma等人(2020)為避免融合圖像對(duì)源圖像關(guān)注度分配不均,提出了基于雙鑒別器的生成對(duì)抗網(wǎng)絡(luò)框架DDcGAN(dual discriminator generation adversative network),利用雙鑒別器分別對(duì)兩幅源圖像訓(xùn)練,但其損失函數(shù)僅計(jì)算了像素?fù)p失,不利于充分提取圖像的深層特征。Yang等人(2021)提出的GANFuse在DDcGAN的基礎(chǔ)上引入梯度損失,將兩種損失的加權(quán)求和作為損失函數(shù),進(jìn)一步提升了融合性能。然而,上述方法對(duì)于圖像深層特征的提取及表征方面依然有所欠缺。
綜上,針對(duì)目前多模態(tài)醫(yī)學(xué)圖像融合方法深層特征提取能力不足,部分模態(tài)特征被忽略的問題,本文提出了基于改進(jìn)的U-Net3+與跨模態(tài)注意力塊的雙鑒別器生成對(duì)抗網(wǎng)絡(luò)(U-Net3+ and cross-modal attention block dual-discriminator generative adversal network,UC-DDGAN),其生成器利用5層的U-Net3+實(shí)現(xiàn)了全尺度的特征提取,僅用很少的參數(shù)提取得到深層特征,提升了深層特征提取能力;跨模態(tài)注意力塊嵌入到U-Net3+的各層下采樣路徑上,將深層特征的提取擴(kuò)展到不同模態(tài)之間,保留了各模態(tài)豐富的細(xì)節(jié)信息,有效防止關(guān)鍵信息被忽略。雙鑒別器將梯度損失引入到損失函數(shù)的計(jì)算中,提升了融合性能。訓(xùn)練后,UC-DDGAN可生成包含豐富深層特征的融合圖像。
U-Net3+(Huang等,2020)是一種由U-Net(Ronneberger等,2015;Qin等,2020)和U-Net++(Zhou等,2018)改進(jìn)得到的可以有效提取深層特征的網(wǎng)絡(luò)框架(Xiao等,2021;Xiong等,2021),其將特征提取的范圍擴(kuò)展到全尺度,捕獲了全尺度下的粗細(xì)粒度語義。
Song等人(2021)針對(duì)雙模態(tài)圖像融合和配準(zhǔn)時(shí)兩模態(tài)復(fù)合特征提取困難的問題,基于非局部注意力機(jī)制(Wang等,2017)提出了跨模態(tài)注意力機(jī)制。不同于非局部注意力機(jī)制只在單一圖像上計(jì)算自我注意力,跨模態(tài)注意力機(jī)制將注意力的計(jì)算擴(kuò)展到了兩個(gè)模態(tài),保留了融合圖像信息的完整性,使更多的源圖像細(xì)節(jié)特征得到表征,跨模態(tài)注意力(cross-modal attention)機(jī)制原理如圖1所示。
圖1 跨模態(tài)注意力機(jī)制原理Fig.1 Principle of cross-modal attention mechanism
跨模態(tài)輸入特征圖C經(jīng)過線性映射函數(shù)θ(·)處理得到特征θ(C),主輸入特征圖P分別經(jīng)過線性映射φ(·)和g(·)處理得到特征φ(P)和g(P);轉(zhuǎn)置后的θ(C)和φ(P)進(jìn)行矩陣點(diǎn)乘,得到兩輸入的特征相關(guān)性矩陣R,即P局部位置特征與C全局位置特征的關(guān)系矩陣;對(duì)R進(jìn)行歸一化操作,得到0-1權(quán)重,用做跨模態(tài)注意力系數(shù);最后將跨模態(tài)注意力系數(shù)對(duì)應(yīng)與特征矩陣g(P)進(jìn)行矩陣點(diǎn)乘,得到跨模態(tài)注意力特征圖F。
DDcGAN針對(duì)不同分布的源圖像設(shè)置了兩個(gè)鑒別器,進(jìn)行針對(duì)性鑒別,如圖2所示。
圖2 DDcGAN網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 DDcGAN network structure
DDcGAN包含一個(gè)生成器(G)和兩個(gè)鑒別器(D1、D2),生成器由編碼、融合和解碼3部分組成,其中編碼部分的任務(wù)是特征提取、融合,解碼部分的任務(wù)是特征融合;鑒別器的任務(wù)是分別鑒別對(duì)應(yīng)源圖像,以此訓(xùn)練生成器。DDcGAN的輸入是源圖像1和源圖像2,編碼部分首先采用包含3×3濾波器的卷積層提取同一尺度的粗糙特征,然后采用3個(gè)包含同一尺度卷積層的DenseBlock(Cai等,2021)來保留兩幅源圖像同一尺度的具體特征;融合部分利用注意力機(jī)制對(duì)提取到的兩幅特征圖進(jìn)行融合,融合部分的輸出將作為解碼部分的輸入;解碼部分采用4個(gè)包含3×3濾波器的卷積層對(duì)拼接后的特征圖進(jìn)行解碼。兩個(gè)鑒別器結(jié)構(gòu)相同,先經(jīng)過卷積操作和激活函數(shù),再經(jīng)全連接層扁平化數(shù)據(jù)和激活函數(shù)tanh計(jì)算概率,得到鑒別結(jié)果。DDcGAN的訓(xùn)練過程與GAN類似,生成器的性能在生成器和鑒別器的對(duì)抗中不斷提升。DDcGAN的特征融合部分采用注意力機(jī)制,可以保留更多兩模態(tài)關(guān)鍵信息,但其特征融合部分也存在僅可在單尺度上提取特征以及深層特征提取能力弱的問題。
UC-DDGAN包含一個(gè)生成器G和兩個(gè)鑒別器(Dc、Dm),網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。生成器負(fù)責(zé)生成融合圖像,鑒別器用來區(qū)分源圖像和融合圖像。生成器生成融合圖像分兩階段進(jìn)行:特征提取和特征融合。以CT(computed tomography)和MR(magnetic resonance imaging)的融合為例,特征提取部分提取CT與MR圖像的深層特征,特征融合部分融合提取到的深層特征,經(jīng)過通道降維和卷積操作后,生成融合圖像。在鑒別器區(qū)分源圖像和融合圖像時(shí),將梯度損失引入到損失函數(shù)中,提升生成器生成圖像的性能。
鑒于GAN的生成器未提取到足夠多包含兩模態(tài)信息的深層細(xì)節(jié),UC-DDGAN引入了U-Net3+網(wǎng)絡(luò)和跨模態(tài)注意力塊進(jìn)行深層特征提取。U-Net3+可以在單模態(tài)上對(duì)深層特征進(jìn)行全尺度范圍的提取和融合;跨模態(tài)注意力塊可以根據(jù)當(dāng)前模態(tài)圖像特征和待融合的另一模態(tài)圖像特征之間的相關(guān)性,生成具有兩模態(tài)信息的復(fù)合特征圖。
2.1.1 基于U-Net3+的深層特征提取
U-Net3+分為兩個(gè)階段:編碼階段和解碼階段,如圖4所示。編碼階段對(duì)輸入圖像進(jìn)行4次逐層下采樣提取特征,解碼階段對(duì)各層解碼結(jié)果進(jìn)行整合并上采樣,最后經(jīng)過1×1的卷積進(jìn)行通道降維,完成特征提取,輸出特征圖。圖4中,同一虛線框中的兩個(gè)卷積模塊為同一層卷積模塊,其中前一個(gè)表示編碼器,后一個(gè)表示解碼器(Conv5既為編碼器又為解碼器),每一層編碼器和解碼器的結(jié)構(gòu)都一樣,其參數(shù)設(shè)置與在ImageNet上訓(xùn)練的ResNet50(He等,2016)一致。
圖3 UC-DDGAN網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 UC-DDGAN network structure
圖4 U-Net3+網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 U-Net3+ network structure
U-Net3+中的Conv4解碼器構(gòu)建輸出特征圖的過程如圖5所示,其他尺度解碼器構(gòu)建輸出特征圖的過程與其類似。
圖5 U-Net3+中Conv4解碼器輸出特征圖的構(gòu)建過程Fig.5 Construction process of Conv4 in U-Net3+ decoder output feature map at all scales
(1)
式(1)表示當(dāng)編碼器和解碼器來自同一尺度時(shí)(即Conv5,該層的編碼器也可作為解碼器使用),解碼器的輸出特征圖等于編碼器的輸入特征圖;當(dāng)編碼器和解碼器來自不同尺度時(shí),編碼器的輸出特征圖等于編碼器輸入特征圖的疊加,但這些特征圖在疊加前需要分別經(jīng)過上下采樣及卷積操作。i表示不同尺度的層數(shù),XEn表示經(jīng)過編碼器得到的特征圖,C(·)表示卷積運(yùn)算,D(·)和U(·)分別表示下采樣和上采樣操作,H(·)表示通道疊加的函數(shù),[·]表示串聯(lián)操作,Scale表示特征圖的尺度。最后,Conv1的輸出特征圖再經(jīng)過64個(gè)1×1的濾波器進(jìn)行通道降維,輸出全尺度特征圖。
2.1.2 基于跨模態(tài)注意力塊的特征相關(guān)性增強(qiáng)
UC-DDGAN的特征提取部分將跨模態(tài)注意力塊嵌入U(xiǎn)-Net3+提取源圖像CT和MR的深層特征。生成器特征提取部分如圖6所示。
圖6 UC-DDGAN生成器內(nèi)部結(jié)構(gòu)Fig.6 UC-DDGAN generator internal structure
xi=Z([P(ci),C(mi)]),i≤4
(2)
yi=Z([P(mi),C(ci)]),i≤4
(3)
式中,ci、mi分別表示CT、MR路徑第i層編碼器的輸出特征,P(·)表示主模態(tài)輸入的運(yùn)算函數(shù),C(·)表示跨模態(tài)輸入的運(yùn)算函數(shù),Z(·)表示跨模態(tài)注意力塊內(nèi)部先矩陣點(diǎn)乘再將對(duì)應(yīng)元素逐個(gè)相乘的函數(shù),[,]表示串聯(lián)操作。
圖7 跨模態(tài)注意力塊在U-Net3+中的連接方式Fig.7 Cross-modal attention block connection in U-Net3+
跨模態(tài)注意力塊的內(nèi)部結(jié)構(gòu)如圖8所示。C、P分別表示跨模態(tài)路徑和主模態(tài)路徑輸入的特征圖(C∈RT×W×H×64、P∈RT×W×H×64),T、H和W分別表示特征圖的批量數(shù)、高度和寬度,64是特征圖通道數(shù)。首先,C、P經(jīng)過通道降維及線性變換函數(shù)θ(·)、φ(·)處理,得到θ(C)、φ(P)兩種特征表示(θ(C)∈RT×W×H×32、φ(P)∈RT×W×H×32),然后對(duì)θ(C)、φ(P)進(jìn)行reshape操作,合并T、H和W維度(θ(C)∈RT×W×H×32、φ(P)∈RT×W×H×32)。再將θ(C)的轉(zhuǎn)置與φ(P)進(jìn)行矩陣點(diǎn)乘,得到包含主模態(tài)各像素與跨模態(tài)各像素相關(guān)性的特征圖F(F∈RT×W×H×32),然后對(duì)F進(jìn)行softmax操作,實(shí)現(xiàn)相關(guān)性的歸一化。P除了經(jīng)過線性變換函數(shù)θ(·)處理,還經(jīng)過線性變換g(·),得到特征表示g(P)∈RT×W×H×32),對(duì)得到的g(P)進(jìn)行reshape操作,合并T、H以及W維度(g(P)∈RT×W×H×32)。F經(jīng)過歸一化操作后與合并T、H和W維度的g(P)進(jìn)行矩陣點(diǎn)乘,得到Q∈RT×W×H×32,Q表示經(jīng)跨模態(tài)注意力機(jī)制調(diào)整后的殘差矩陣。然后Q經(jīng)過1×1×1卷積,恢復(fù)T、H和W維度,表示為Y∈RT×W×H×64。最后,Y與P做殘差運(yùn)算,得到跨模態(tài)注意力塊的輸出Z∈RT×W×H×64。跨模態(tài)注意力塊得到的特征圖計(jì)算式為
(4)
式中,ci是跨模態(tài)輸入特征圖中i位置的特征,pj是主模態(tài)輸入特征圖中所有與ci有關(guān)的特征,j表示特征pj在跨模態(tài)輸入中的位置。θ(ci)、φ(pj)分別是ci、pj在經(jīng)過Embedded Gaussian(Benet等,2001)中的兩個(gè)嵌入權(quán)重變換Wθ、Wφ之后得到的特征圖,g(pj)是pj經(jīng)過線性變換得到的特征圖,f(·)是用于計(jì)算ci、pj相關(guān)性的函數(shù)。yi是累加了跨模態(tài)輸入中所有與主輸入i位置上特征相關(guān)的特征后得到的復(fù)合特征圖i位置的特征。
圖8 跨模態(tài)注意力塊內(nèi)部結(jié)構(gòu)Fig.8 Internal structure of cross-modal attention block
跨模態(tài)注意力塊嵌入U(xiǎn)-Net3+構(gòu)成UC-DDGAN生成器特征提取部分,可以增加CT圖像和MR圖像的信息交互,使CT圖像的骨骼信息和MR圖像的軟組織初步融合。該特征提取方式能促進(jìn)特征學(xué)習(xí)、改善梯度流動(dòng)和增加隱式深度監(jiān)督。各層編碼器、解碼器卷積參數(shù)如表1所示。
表1 U-Net3+各層編碼器、解碼器卷積參數(shù)Table 1 Convolution parameters of U-Net3+ encoders and decoders at each layer
特征融合分為融合和解碼兩部分,如圖9所示。融合部分由一個(gè)Concat層構(gòu)成(Song等,2018),解碼部分由5個(gè)卷積模塊組成,該卷積模塊利用若干個(gè)3×3的濾波器來壓縮通道數(shù)(各層濾波器數(shù)如圖中n所示),通過批量歸一化層(batch normaligation,BN)來緩解梯度爆炸,ReLU激活函數(shù)加快訓(xùn)練速度。特征提取部分得到尺寸為128×128×320的CT、MR深層特征圖,依次經(jīng)過Concat層拼接,再經(jīng)過濾波器分別為128、64、32、16、1這5個(gè)卷積模塊逐層進(jìn)行通道降維,將尺寸為128×128×320的CT、MR深層特征圖壓縮成尺寸為128×128×1深層細(xì)節(jié)豐富且充分表征兩模態(tài)關(guān)鍵特征的融合圖像。
圖9 特征融合部分網(wǎng)絡(luò)結(jié)構(gòu)Fig.9 Partial network structure of feature fusion
UC-DDGAN設(shè)計(jì)了具有相同網(wǎng)絡(luò)結(jié)構(gòu)的兩個(gè)鑒別器,其結(jié)構(gòu)如圖10所示。真實(shí)圖像與融合圖像依次經(jīng)過4個(gè)卷積模塊:由16個(gè)3×3的濾波器和ReLU激活函數(shù)層構(gòu)成的第1層卷積模塊;32個(gè)3×3的濾波器、批量歸一化層、ReLU激活函數(shù)層構(gòu)成的第2層卷積模塊;64個(gè)3×3的濾波器、批量歸一化層、ReLU激活函數(shù)層構(gòu)成的第3層卷積模塊(步幅為2,填充為0);最后經(jīng)過全連接層(fully connected,FC)將數(shù)據(jù)扁平化,在最后一層,利用tanh激活函數(shù)作為評(píng)估器,得出輸入圖像是真實(shí)圖像的概率。
圖10 鑒別器網(wǎng)絡(luò)結(jié)構(gòu)Fig.10 Discriminator network structure
UC-DDGAN是基于雙鑒別器的生成對(duì)抗網(wǎng)絡(luò),因此要用損失函數(shù)分別優(yōu)化一個(gè)生成器、兩個(gè)鑒別器,通過對(duì)各部分損失加權(quán)來提升融合性能,保留更多源圖像特征。為進(jìn)一步保留源圖像的深層特征,UC-DDGAN的損失函數(shù)在前人基礎(chǔ)上引入了梯度損失,并通過加權(quán)的方式將二者結(jié)合起來用于生成器的訓(xùn)練。
UC-DDGAN的損失函數(shù)由生成器損失LG和兩個(gè)鑒別器損失LDc、LDm組成。生成器的損失函數(shù)LG由CT圖像的損失LC和MR圖像的損失LM加權(quán)相加,計(jì)算為
LG=LC+δLM
(5)
(6)
(7)
(8)
式中,Dc(|If-Ic|)代表Dc的正確率,因此在Dc(|If-Ic|)前面設(shè)置一個(gè)負(fù)號(hào),表示減去判定正確的部分。
LG的第2項(xiàng)LM表示MR圖像的損失,定義與LC類似,計(jì)算式分別為
(9)
(10)
(11)
Dc和Dm的損失函數(shù)LDc、LDm計(jì)算式為
(12)
(13)
式中,Dc(|If-Im|)和Dm(|If-Ic|)分別代表Dc和Dm的錯(cuò)誤率。因?yàn)殍b別器損失表示鑒別失敗的概率,所以LDc、LDm用Dc和Dm的錯(cuò)誤率分別減去其正確率來表示。隨著G與Dc和Dm的對(duì)抗訓(xùn)練不斷進(jìn)行,G與Dc和Dm達(dá)到納什平衡(Ratliff等,2013),LDc、LDm和LG達(dá)到最優(yōu)值,訓(xùn)練完成。
在訓(xùn)練階段,利用訓(xùn)練集數(shù)據(jù)分別對(duì)生成器G和鑒別器Dc、Dm進(jìn)行對(duì)抗訓(xùn)練。首先固定G訓(xùn)練Dc、Dm,之后再固定Dc、Dm訓(xùn)練G,接著循環(huán)訓(xùn)練,來提高G生成融合圖像的能力以及Dc、Dm鑒別出G生成的圖像與真實(shí)CT、MR圖像差別的能力,直至G生成的圖像足以通過Dc、Dm的鑒別即可停止。此時(shí),將測試集數(shù)據(jù)輸入到G中,得到最終融合結(jié)果。在測試階段,使用經(jīng)過訓(xùn)練的生成器來生成融合圖像。UC-DDGAN算法的詳細(xì)訓(xùn)練步驟為:
參數(shù)描述:IG、IDc和IDm分別表示訓(xùn)練G、Dc和Dm的訓(xùn)練次數(shù),Imax是訓(xùn)練UC-DDGAN的最大次數(shù),在本實(shí)驗(yàn)中,Imax=20;Lmax、Lmin和LGmax表示生成器訓(xùn)練完成時(shí)的損失范圍;Lmax和Lmin用于G、Dc和Dm的對(duì)抗損失的優(yōu)化,LGmax用于G總體損失的優(yōu)化;
在實(shí)驗(yàn)的第1批次中,Lmax=0.065,Lmin=0.055,LGmax=0.2;Dc和Dm的初始化參數(shù)為θDc和θDm,G的初始化參數(shù)為θG,在每次的訓(xùn)練迭代中:
1)訓(xùn)練鑒別器Dc和Dm。
s個(gè)CT圖像樣本{c1,…,cs}和s個(gè)MR圖像樣本{m1,…,ms};
生成器獲取到待生成數(shù)據(jù){G(c1,m1),…,G(cs,ms)};
在Adam優(yōu)化器優(yōu)化LDc(式(12))更新θDc;
在Adam優(yōu)化器優(yōu)化LDm(式(13))更新θDm;
如果LDc>Lmax并且LDm IDc=IDc+1; 如果LDm>Lmax并且LDc IDm=IDm+1。 2)訓(xùn)練生成器G。 s個(gè)CT圖像樣本{c1,…,cs}和s個(gè)MR圖像樣本{m1、…、ms}; 生成器獲取到待生成數(shù)據(jù){G(c1,m1),…,G(cs,ms)}; 在SGD(stochastic gradient descent)優(yōu)化器優(yōu)化LG(式(5))的過程中更新θG; IG=IG+1; IG=IG+1; 如果LDc>Lmax并且LDm IG=IG+1。 實(shí)驗(yàn)數(shù)據(jù)集來自美國哈佛醫(yī)學(xué)院(http:// www.med.harvard.edu)、山西省生物醫(yī)學(xué)成像與影像大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室。實(shí)驗(yàn)從其開源的常見腦部疾病圖像數(shù)據(jù)集中選取了500對(duì)具有清晰腦部紋理、豐富細(xì)節(jié)特征的高質(zhì)量CT和MR圖像作為數(shù)據(jù)集。數(shù)據(jù)集分為訓(xùn)練集和測試集,其中包括400對(duì)用于網(wǎng)絡(luò)訓(xùn)練的訓(xùn)練集圖像和100對(duì)用于測試網(wǎng)絡(luò)泛化性能的測試集圖像。為避免因數(shù)據(jù)集較小而導(dǎo)致的網(wǎng)絡(luò)模型過擬合,采用Albumentations(Buslaev等,2020)對(duì)訓(xùn)練集數(shù)據(jù)進(jìn)行擴(kuò)充,將MR和對(duì)應(yīng)CT圖像調(diào)整到256×256像素,進(jìn)行0°旋轉(zhuǎn)、90°旋轉(zhuǎn)、180°旋轉(zhuǎn)、270°旋轉(zhuǎn)、水平翻轉(zhuǎn)、垂直翻轉(zhuǎn),再在上述6種變換的基礎(chǔ)上分別進(jìn)行隨機(jī)亮度、彈性變換 2種操作,獲得6×2=12倍的數(shù)據(jù),即4 800對(duì)圖像進(jìn)行訓(xùn)練。 實(shí)驗(yàn)的硬件平臺(tái):CPU為i7-11700,內(nèi)存16 GB;GPU為RTX 3060Ti 8 GB GDR6;軟件平臺(tái):操作系統(tǒng)為64位的Windows10;環(huán)境框架為PyTorch;Python版本為3.6.0。 在訓(xùn)練過程中,UC-DDGAN分別采用Adam優(yōu)化算法(Kingma和Ba,2017)和SGD(Cherry等,1998)促使鑒別損失和生成損失函數(shù)趨向最小來更新網(wǎng)絡(luò)的參數(shù)。本文網(wǎng)絡(luò)的參數(shù)設(shè)置為:初始學(xué)習(xí)率2E-4,動(dòng)量參數(shù)為0.9,權(quán)重衰減為5E-2。為降低GPU顯存對(duì)訓(xùn)練的影響,訓(xùn)練采用mini-batch的方式進(jìn)行(王麗芳 等,2020),batch-size設(shè)置為40,epoch設(shè)置為200,迭代次數(shù)為4 800/40×200=24 000次(訓(xùn)練樣本數(shù)4 800,batch-size為40,epoch為200)。隨著迭代次數(shù)的增加,生成器損失LG和兩個(gè)鑒別器損失LDc、LDm的變化趨勢(shì)如圖11所示。圖11(a) 中,LG曲折下降后趨于平穩(wěn),在0.2附近小幅波動(dòng);圖11(b)(c)中,LDc,LDm整體緩慢上升后穩(wěn)定在0.06附近。此外,由圖11可以看出,LG和LDc,LDm無較大波動(dòng),說明UC-DDGAN在訓(xùn)練過程中較為穩(wěn)定。 圖11 損失折線圖Fig.11 Loss line diagram((a) generator G loss;(b) discriminator Dc loss;(c) discriminator Dm loss) 為驗(yàn)證UC-DDGAN的融合性能,實(shí)驗(yàn)選取基于拉普拉斯金字塔(Laplasian pyramid,LAP)的方法(黃福升和藺素珍,2019)、基于脈沖耦合神經(jīng)網(wǎng)絡(luò)(pulse-coupled neural network,PCNN)的方法(Indhumathi等,2021)、基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的方法、基于融合生成對(duì)抗網(wǎng)絡(luò)(FusionGAN)的方法以及基于雙鑒別器生成對(duì)抗網(wǎng)絡(luò)(DDcGAN)的方法作為對(duì)比方法。 3.3.1 定性結(jié)果分析 首先對(duì)腦梗、腦中風(fēng)、腦瘤和腦血管4種腦部疾病的圖像進(jìn)行了定性比較實(shí)驗(yàn)。融合結(jié)果的定性比較如圖12所示。圖中顯示LAP方法得到的融合結(jié)果邊緣模糊,不利于醫(yī)生觀察病灶輪廓;PCNN方法得到的融合結(jié)果亮度過低,損失掉大量細(xì)節(jié)信息;CNN方法得到的融合結(jié)果深層細(xì)節(jié)表征不夠,觀察不到其內(nèi)部細(xì)節(jié);FusionGAN方法得到的融合結(jié)果過分關(guān)注MR模態(tài)的圖像,損失了CT圖像的骨骼信息;DDcGAN方法得到的融合結(jié)果邊緣不夠平滑;UC-DDGAN方法得到的腦梗疾病融合結(jié)果腦部溝壑清晰可見、腦中風(fēng)疾病融合結(jié)果腦組織顏色層次分明、腦瘤疾病融合結(jié)果腦髓質(zhì)及骨骼信息得以充分保留、腦血管疾病融合結(jié)果包含有腦葉的深層細(xì)節(jié)。綜上,UC-DDGAN的融合效果優(yōu)于其他5種用于對(duì)比的融合方法。 3.3.2 客觀評(píng)價(jià)指標(biāo)及定量結(jié)果分析 為客觀地評(píng)價(jià)融合效果,實(shí)驗(yàn)選取了5個(gè)客觀評(píng)價(jià)指標(biāo):空間頻率(spatial frequency,SF)、結(jié)構(gòu)相似性(structural similarity,SSIM)、邊緣信息傳遞因子(edge information transfer factor,QAB/F)、相關(guān)系數(shù)(correlation coefficient,CC)以及差異相關(guān)性的和(the sum of the correlations of differences,SCD)評(píng)價(jià)UC-DDGAN在腦部醫(yī)學(xué)圖像數(shù)據(jù)集上的性能。 圖12 本文算法與5種對(duì)比算法在CT和MR圖像對(duì)上的定性比較結(jié)果圖Fig.12 Qualitative comparison results((a)CT resource images;(b) MR resource images; (c) LAP;(d)PCNN; (e) CNN; (f) FusionGAN; (g) DDcGAN;(h) UC-DDGAN(ours)) 其中,SF與融合圖像分辨率成正比,SF指標(biāo)越高表明融合圖像細(xì)節(jié)表征越明顯;SSIM從圖像亮度、對(duì)比度和結(jié)構(gòu)方面衡量融合圖像與CT/MR兩幅源圖像的相似性,SSIM值越大,圖像結(jié)構(gòu)完整度越高;邊緣評(píng)價(jià)因子用于評(píng)價(jià)邊緣或梯度質(zhì)量,QAB/F的值越大,融合圖像邊緣信息損失越小;CC測量融合圖像與CT/MR兩幅源圖像之間的相關(guān)性,CC值為正且越大,表示融合圖像與兩幅源圖像的相關(guān)性越高;SCD利用另一源圖像和融合圖像之間的差異來描述當(dāng)前源圖像在融合圖像中的信息,兩幅源圖像在融合圖像中的信息相加得到SCD值。SCD值為正且越大,表示融合圖像與源圖像A的相關(guān)性越高。SF、SSIM和QAB/F主要用于評(píng)價(jià)UC-DDGAN深層特征提取能力;CC、SCD主要用于評(píng)價(jià)UC-DDGAN保留兩模態(tài)信息的能力。實(shí)驗(yàn)利用上述5個(gè)客觀評(píng)價(jià)指標(biāo)測試了30對(duì)腦部CT和MR圖像,UC-DDGAN的表現(xiàn)均優(yōu)于對(duì)比的5種融合方法,UC-DDGAN及5種對(duì)比融合方法在SF、SSIM、QAB/F、CC和SCD的測試結(jié)果折線圖分別如圖13所示,其中紅色折線表示UC-DDGAN的客觀評(píng)價(jià)結(jié)果,評(píng)價(jià)結(jié)果平均值如表2所示。由表2可知,利用UC-DDGAN進(jìn)行融合可以獲得各項(xiàng)指標(biāo)的最大均值。 為了驗(yàn)證UC-DDGAN中U-Net3+與跨模態(tài)注意力塊保留兩模態(tài)信息及提取深層特征的效果,進(jìn)行了兩組消融實(shí)驗(yàn)。 實(shí)驗(yàn)1表示不添加U-Net3+和跨模態(tài)注意力塊的圖像融合網(wǎng)絡(luò)得到的結(jié)果,即DDcGAN;實(shí)驗(yàn)2表示僅添加U-Net3+得到的結(jié)果;實(shí)驗(yàn)3表示僅添加跨模態(tài)注意力塊得到的結(jié)果;實(shí)驗(yàn)4表示損失函數(shù)中不引入梯度損失的UC-DDGAN效果。定性結(jié)果如圖14所示,對(duì)比實(shí)驗(yàn)評(píng)價(jià)結(jié)果如表3所示。由表3可知,UC-DDGAN達(dá)到了保留兩模態(tài)信息且提取更多深度特征的目的。此外,本實(shí)驗(yàn)還對(duì)損失函數(shù)中的梯度損失和像素?fù)p失的權(quán)重σ的參數(shù)進(jìn)行了研究。UC-DDGAN的損失函數(shù)權(quán)重σ設(shè)置為 0.1。實(shí)驗(yàn)5和實(shí)驗(yàn)6的權(quán)重σ分別為0.3和0.5,定量結(jié)果如表4所示。 表5顯示,當(dāng)權(quán)重σ設(shè)置為0.1時(shí)獲得的定量結(jié)果最優(yōu),因此,實(shí)驗(yàn)權(quán)重σ設(shè)置為0.1是合理的。 圖13 UC-DDGAN及5種對(duì)比融合方法的定量結(jié)果Fig.13 Quantitative results of UC-DDGAN and five comparative fusion methods((a)SF;(b)SSIM; (c)QAB/F; (d)CC; (e)SCD) 表2 客觀評(píng)價(jià)指標(biāo)平均值Table 2 Average value of objective evaluation indexes 本文提出基于U-Net3+與跨模態(tài)注意力塊的雙鑒別器生成對(duì)抗網(wǎng)絡(luò)(UC-DDGAN)的醫(yī)學(xué)圖像融合方法,解決了目前多模態(tài)醫(yī)學(xué)圖像融合方法深層特征提取能力不足、部分模態(tài)特征被忽略的問題。從實(shí)驗(yàn)結(jié)果可知,UC-DDGAN在主觀視覺觀察和客觀指標(biāo)評(píng)價(jià)方面都有較好的表現(xiàn),將UC-DDGAN應(yīng)用于多模態(tài)醫(yī)學(xué)圖像融合,可以輔助醫(yī)生對(duì)病灶部位做出準(zhǔn)確地診斷與治療。UC-DDGAN具有以下特點(diǎn):1)利用U-Net3+網(wǎng)絡(luò),提取到了圖像深層特征,其融合圖像病灶細(xì)節(jié)完整且深層特征豐富;2)利用跨模態(tài)注意力塊將深層特征的提取擴(kuò)展到了不同模態(tài)之間,保留了各模態(tài)豐富的細(xì)節(jié)信息;3)雙鑒別器通過在損失函數(shù)中引入梯度損失,更好地訓(xùn)練生成器生成融合圖像,保留更多源圖像特征。 圖14 UC-DDGAN消融實(shí)驗(yàn)的定性比較結(jié)果Fig.14 Qualitative comparison results of UC-DDGAN ablation experiment((a)CT resource images;(b) MR resource images; (c)UC-DDGAN;(d) experiment 1;(e)experiment 2;(f)experiment 3;(g)experiment 4) 表3 對(duì)比實(shí)驗(yàn)客觀評(píng)價(jià)指標(biāo)Table 3 Objective evaluation indexes of compartive experiments 表4 不同權(quán)重對(duì)比實(shí)驗(yàn)客觀評(píng)價(jià)指標(biāo)Table 4 Objective evaluation indexes of compartive experiments with different weights 但本文算法也存在局限性,仍有較大提升空間,具體表現(xiàn)在:1)生成器網(wǎng)絡(luò)較為復(fù)雜,存在訓(xùn)練時(shí)間長的問題,后續(xù)工作將致力于降低計(jì)算復(fù)雜度;2)本文所做改進(jìn)主要針對(duì)的是特征提取部分,針對(duì)融合部分設(shè)計(jì)能夠保留兩模態(tài)信息的網(wǎng)絡(luò)模型是今后研究的重點(diǎn)。 下一步工作是改進(jìn)融合部分網(wǎng)絡(luò)結(jié)構(gòu),提升模型泛化性,可用于其他圖像融合,例如紅外與可見光圖像融合。3 實(shí)驗(yàn)結(jié)果與分析
3.1 數(shù)據(jù)集與實(shí)驗(yàn)環(huán)境
3.2 訓(xùn)練細(xì)節(jié)
3.3 對(duì)比實(shí)驗(yàn)及分析
3.4 消融實(shí)驗(yàn)
4 結(jié) 論