張丁軻 楊文霞 張園洲
摘? 要:針對腦部腫瘤分割任務(wù)中存在的多模態(tài)信息利用率不高,訓(xùn)練樣本數(shù)據(jù)少導(dǎo)致分割結(jié)構(gòu)精度不高的問題,提出了一種以3D U-Net模型為基礎(chǔ),融合變分自編碼器(VAE)和注意力模型的分割模型VAE U-Net,實現(xiàn)多模態(tài)腦腫瘤MRI圖像的自動分割。所提方法在Brats2020數(shù)據(jù)集上進(jìn)行實驗,在測試集上的整體腫瘤、核心腫瘤以及增強(qiáng)核心區(qū)的分割Dice系數(shù)分別為81.44、90.82和89.43,相較于原始的3DU-Net提高了2.03、1.05和2.38個百分點(diǎn)。
關(guān)鍵詞:腦腫瘤分割;深度學(xué)習(xí);3D U-Net;變分自編碼器
中圖分類號:TP391.4 文獻(xiàn)標(biāo)識碼:A? ? 文章編號:2096-4706(2023)13-0080-05
Multimodal Brain Tumor Segmentation Algorithm Based on Improved 3D U-Net
ZHANG Dingke, YANG Wenxia, ZHANG Yuanzhou
(Wuhan University of Technology, Wuhan? 430070, China)
Abstract: Aiming at the problems of low utilization of multimodal information and low accuracy of segmentation structure due to small training sample data in brain tumor segmentation tasks, a segmentation model VAE U-Net based on 3D U-Net model with fusion of Variational AutoEncoder (VAE) and Attention Model is proposed to realize automatic segmentation of multimodal brain tumor MRI images. The proposed method is experimented on the Brats 2020 dataset, and the segmentation Dice coefficients of the whole tumor, core tumor and enhanced core region on the test set are 81.44, 90.82 and 89.43, respectively, which improved by 2.03, 1.05 and 2.38 percentage points compared with the original 3D U-Net.
Keywords: brain tumor segmentation; Deep Learning; 3D U-Net; VAE
0? 引? 言
隨著醫(yī)學(xué)成像技術(shù)的發(fā)展,核磁共振成像技術(shù)(Magnetic Resonance Imaging, MRI)已經(jīng)成為輔助診療的重要手段。現(xiàn)代醫(yī)學(xué)MR圖像通常是由多張二維圖像切片堆疊而成的三維圖像,相較于日常所見的平面圖像包含了更多生物組織信息。利用人工手段從三維圖像中分割出目標(biāo)區(qū)域是一項費(fèi)時費(fèi)力的工作,因此采用自動化的技術(shù)對三維醫(yī)學(xué)圖像進(jìn)行分割是一個重要研究課題。
1? 相關(guān)研究
近年來,國內(nèi)外學(xué)者針對不同類型的醫(yī)學(xué)圖像分割任務(wù)做了大量研究。傳統(tǒng)分割算法多采用閾值分割[1],聚類分析[2],機(jī)器學(xué)習(xí)[3]等技術(shù)。雖然這些方法取得了良好的分割結(jié)果,但他們通常只有少量的參數(shù),不足以捕捉到生物組織復(fù)雜的結(jié)構(gòu)特征。
隨著深度學(xué)習(xí)技術(shù)在計算機(jī)視覺領(lǐng)域的廣泛應(yīng)用,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)在醫(yī)學(xué)圖像分割領(lǐng)域獲得空前的成功。Ronneberger[4]提出的U-Net在下采樣與上采樣過程中添加了跳連接,并采用加權(quán)交叉熵?fù)p失,實現(xiàn)對醫(yī)學(xué)細(xì)胞顯微圖像的精準(zhǔn)的分割。在Abdulkadir[5]的研究中,實現(xiàn)了通過標(biāo)注的二維切片對三維圖像進(jìn)行分割,他們同時證明切片數(shù)量越多,分割結(jié)果越精確。Milletari[6]提出了一種完整的三維圖像分割算法V-Net,融合了殘差網(wǎng)絡(luò)結(jié)構(gòu)[7],并采用改進(jìn)的Dice系數(shù)作為損失函數(shù)對前列腺M(fèi)RI體積圖像進(jìn)行分割。
然而,在醫(yī)學(xué)圖像分割領(lǐng)域中,腦部膠質(zhì)腫瘤的分割任務(wù)仍是一個巨大的挑戰(zhàn),主要原因包括:
1)由于形成腫瘤的病理不同,腫瘤的位置與形狀特點(diǎn)存在較大區(qū)別;2)腦腫瘤MRI圖像包含多種成像模式,不同MR成像模式中所包含的腫瘤信息差異顯著,利用算法分割時難以綜合利用。針對以上問題,本文引入變分自編碼器(Variational AutoEncoder, VAE)[8]對編碼器進(jìn)行正則化,通過注意力機(jī)制[9]融合多模態(tài)特征,提高分割的準(zhǔn)確率。
2? 數(shù)據(jù)與方法
2.1? 數(shù)據(jù)集
本文使用的數(shù)據(jù)集來源于BRATS2020,由MICCAI(Medical Image Computing and Computer Assisted Intervention)會議[10]提供,包含369個病例樣本。每例樣本包含去除顱骨的Flair、T1、T1ce、T2模態(tài)圖像以及真實標(biāo)注。四個模態(tài)尺寸均為240×240×155像素。訓(xùn)練階段按照4:1劃分訓(xùn)練集和測試集。提供的數(shù)據(jù)已經(jīng)過組織者的預(yù)處理,圖像內(nèi)所有像素間的距離已被調(diào)整為1 mm。
圖1顯示了四種MRI模式和相關(guān)的基本情況,從左至右分別為FLAIR,T1,T1ce,T2四種模態(tài)圖像切片以及真實標(biāo)注(Ground Truth, GT)。
不同的成像模式下的圖像可以為分析腫瘤的不同亞區(qū)提供信息。T2和FLAIR突出顯示腫瘤周圍水腫,即整個腫瘤(Whole Tumor, WT)。T1和T1ce突出顯示不含瘤周水腫的腫瘤,是腫瘤核心(Tumor Core, TC)。T1ce中也可以觀察到腫瘤核心的高強(qiáng)度增強(qiáng)區(qū)域,稱為增強(qiáng)腫瘤核心(Enhancing Tumor, ET)。FLAIR可以提供關(guān)于整個腫瘤的重要信息,而T1ce可以提供關(guān)于腫瘤核心的更多信息(包括增強(qiáng)腫瘤ET、非增強(qiáng)區(qū)域Net和壞死區(qū)域(Ncr)。因此,充分利用不同模態(tài)圖像的特征,可以減少信息的不確定性,提高臨床診斷和分割精度。
2.2? 網(wǎng)絡(luò)結(jié)構(gòu)
本文提出的多模態(tài)分割網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。該模型基于傳統(tǒng)的編碼器-解碼器U型結(jié)構(gòu),對不同模態(tài)的圖像采用相同結(jié)構(gòu)的編碼器提取各模態(tài)特征,并通過注意力模型(Attention Model)進(jìn)行特征融合,獲取潛在特征表示,再利用解碼器將其投影至分割空間。在編碼過程中,隨著下采樣層數(shù)增加,圖像通道數(shù)量增加,分辨率逐層降低,所提取的語義特征也更為抽象。而在解碼階段,模型采用三線性插值的方式進(jìn)行上采樣,減小圖像通道數(shù)量,提高圖像的分辨率,將圖像逐層恢復(fù)至與原圖一致的大小。與U-Net結(jié)構(gòu)類似,編碼過程獲得的特征圖通過跳連接與解碼器相連接,避免由于在編碼過程中由于分辨率降低造成的不可逆信息損失,從而實現(xiàn)像素級別的分割。此外,為使模型能夠?qū)W習(xí)到各模態(tài)之間互補(bǔ)的特征,本文引入空間和通道注意力模塊進(jìn)行特征融合,并利用變分自編碼分支重構(gòu)原圖像以規(guī)范化編碼器,使得融合特征能準(zhǔn)確有效的表征原始圖像。
2.2.1? 變分自編碼網(wǎng)絡(luò)分支
隨著編碼層數(shù)增加,原始圖像的語義特征逐漸丟失,編碼器可能無法準(zhǔn)確學(xué)習(xí)到目標(biāo)區(qū)域的圖像特征,導(dǎo)致解碼器獲取分割結(jié)果時會產(chǎn)生較大的誤差。為降低編碼過程中的信息損失,本文采用變分自編碼分支以重構(gòu)圖像。在重構(gòu)圖像的過程中,該分支不僅考慮到重構(gòu)圖像與原圖的差距,并且能夠根據(jù)學(xué)習(xí)到的隱變量Z的分布,調(diào)整重構(gòu)結(jié)果。重構(gòu)誤差通過反向傳播到編碼器對其進(jìn)行約束,促使編碼器學(xué)習(xí)到個各模態(tài)下低分辨率的語義特征。
在變分自編碼器(VAE)中編碼器用于產(chǎn)生輸入圖像的變分推斷,生成隱變量的變分分布P(Z);解碼器通過隱變量的概率分布生成原始數(shù)據(jù)的近似概率分布。這其中包含兩個過程:
1)隱變量Z后驗分布的近似推斷過程:qθ (z | x),即推斷網(wǎng)絡(luò)。
2)生成變量X′的條件分布生成過程:P (x′ | z)P(z),即生成網(wǎng)絡(luò)。
VAE算法引入了一個識別模型qθ (z | x),使其逼近真實的后驗分布P (z | x)。因此模型的損失函數(shù)可以寫為:
其中第一項為重構(gòu)的似然估計,目的是讓重構(gòu)圖像與原圖像盡可能接近。第二項是后驗分布和先驗分布的KL散度,用于衡量后驗分布與先驗分布的信息損失。假設(shè)qθ (x | z)服從于正態(tài)分布N ( μ, σ2 ),P (z)服從于標(biāo)準(zhǔn)正態(tài)分布N (0,1),第二項可化簡為 。該重構(gòu)分支與分割分支共享同一個編碼器,在訓(xùn)練階段,兩條分支同時訓(xùn)練。
2.2.2? 注意力模型
由于不同的磁共振成像方式可以識別目標(biāo)腫瘤的不同屬性,而特征融合可以從不同模態(tài)圖像中突出最重要的特征,突出與目標(biāo)區(qū)域密切相關(guān)的區(qū)域。且從同一模態(tài)中,模型可以在不同的位置學(xué)習(xí)不同的內(nèi)容。受注意機(jī)制[9]的啟發(fā),我們引入了一種雙重注意融合塊,以整合模態(tài)之間的互補(bǔ)信息,該塊由模態(tài)注意模塊和空間注意模塊組成,其結(jié)構(gòu)如圖3所示。首先將編碼得到的四個特征圖串聯(lián)為輸入特征[F1,F(xiàn)2,F(xiàn)3,F(xiàn)4],F(xiàn)t ∈ RD×W×H。在通道注意力中,首先對四個多模態(tài)特征圖進(jìn)行全局平均池化得到一個四維向量 然后利用兩個全連接層對通道注意權(quán)重進(jìn)行編碼:,其中 ,, 表示ReLU激活函數(shù),全連接層通過1×1×1的卷積實現(xiàn)。
將全連接層得到的四維向量通過Sigmoid激活作為通道的注意力權(quán)重 ,對每個模態(tài)的特征圖進(jìn)行加權(quán)求和即為通道注意力特征。
在空間注意力模塊中,將多模態(tài)特征視為:i ∈ 1, 2, …, D,j ∈ 1, 2, …, W,k ∈ 1, 2, …, H,對其進(jìn)行卷積運(yùn)算:q = WF,其中 ,。W代表每種模態(tài)在空間域內(nèi)每個體素上的權(quán)重。
計算空間注意力時,先對空間域進(jìn)行壓縮,得到投影張量,表示圖像空間某一點(diǎn)處所有通道的線性組合。再對其Sigmoid激活即獲得空間注意力權(quán)重以及空間注意力特征表示Fs
在得到通道注意力特征Fc與空間注意力特征Fs之后,便可以獲得融合特征Ff如式(2)所示:
本文提出的特征融合方法可,以直接適用于任何多模態(tài)融合問題,并促使網(wǎng)絡(luò)分別沿空間注意和通道注意學(xué)習(xí)更有意義的特征表示。
2.2.3? 損失函數(shù)
整體模型的損失函數(shù)主要由三部分構(gòu)成,其計算如式(3)所示:
Ldice表示度量神經(jīng)網(wǎng)絡(luò)預(yù)測所得的分割圖像與真實標(biāo)簽的重疊程度,其計算如式(4)所示:
其中ppred表示解碼器輸出的預(yù)測分割結(jié)果,pdice表示腫瘤圖像的真實標(biāo)簽。文獻(xiàn)[6]指出,使用Dice損失能夠避免樣本不均衡的情況,無需為每類樣本確定權(quán)重,就能將分割前景和分割背景區(qū)分開。對于VAE重構(gòu)分支,采用KL散度作為其懲罰項,規(guī)范化重采樣的分布,使其迫近于一個標(biāo)準(zhǔn)高斯混合分布N ( 0,I ),其計算如式(5)所示:
其中N表示所有體素的個數(shù)。Lrec通過度量重構(gòu)圖像與輸入圖像之間L2的距離作為VAE分支的重構(gòu)損失,幫助編碼器正則化:,λ和η表示混合損失時的權(quán)重,根據(jù)訓(xùn)練結(jié)果,當(dāng)λ和η均取為0.1時,可以在Dice損失和VAE損失之間提供良好的平衡。