關(guān)鍵詞:深度學(xué)習(xí);圖卷積神經(jīng)網(wǎng)絡(luò);注意力機(jī)制;醫(yī)學(xué)圖像分割
中圖分類(lèi)號(hào):TP399 文獻(xiàn)標(biāo)志碼:A
0 引言(Introduction)
醫(yī)學(xué)圖像分割是將原始圖像劃分為不同的類(lèi)別,然后提取感興趣區(qū)域的過(guò)程。準(zhǔn)確的醫(yī)學(xué)圖像分割,是醫(yī)學(xué)圖像分析和臨床診斷中必不可少的前提與基礎(chǔ)。醫(yī)學(xué)圖像分割可以為器官形狀和大小測(cè)量提供視覺(jué)顯示,這對(duì)于疾病的早期檢測(cè)和診斷具有重要意義[1-2]。然而,受醫(yī)學(xué)圖像采集設(shè)備的影響,腹部器官和組織之間的灰度值差異接近,導(dǎo)致器官與周?chē)M織之間的界限相對(duì)模糊。此外,不同患者的器官之間存在顯著的個(gè)體差異,使得醫(yī)學(xué)圖像分割成為一項(xiàng)具有挑戰(zhàn)性的任務(wù)。為了應(yīng)對(duì)這一挑戰(zhàn),學(xué)者們提出了許多分割方法,包括基于閾值優(yōu)化的分割方法[3]、基于機(jī)器學(xué)習(xí)的分割方法[4]和基于統(tǒng)計(jì)形狀模型的分割方法[5]。然而,這些方法依賴(lài)于手工特征,并且特征表達(dá)能力有限。本文針對(duì)以上問(wèn)題,通過(guò)采用有效自注意力提取空間與通道的特征,利用動(dòng)態(tài)圖卷積捕獲腹部器官間的動(dòng)態(tài)拓?fù)湫畔?,同時(shí)有效突出腹部器官的特征,解決類(lèi)間相似性和類(lèi)內(nèi)差異性的問(wèn)題。該方法在Amos22數(shù)據(jù)集上實(shí)現(xiàn)了3D腹部器官的精準(zhǔn)分割,并取得了較好的結(jié)果。
1 相關(guān)工作(Relation work)
近年來(lái),深度學(xué)習(xí)(DL)方法被廣泛用于解決醫(yī)學(xué)圖像分割問(wèn)題,特別是基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的方法,在醫(yī)學(xué)圖像分割方面取得了重大的進(jìn)展。例如,全卷積網(wǎng)絡(luò)(FCN)[6]及其變體(例如U-Net[7]、U-Net++[8]等)在醫(yī)學(xué)圖像分割方面取得了較大的成功。此外,U形網(wǎng)絡(luò)結(jié)構(gòu)和跳躍連接也越來(lái)越受到研究人員的關(guān)注。盡管基于CNN的方法被廣泛使用,但是由于其局部感知和共享權(quán)重偏差,所以網(wǎng)絡(luò)仍然受到視野有限的影響,缺乏對(duì)遠(yuǎn)程特征相關(guān)性進(jìn)行建模的能力。
近年來(lái),許多研究試圖通過(guò)使用Transformer編碼器解決上述問(wèn)題,Transformer是一種基于注意力的模型,最初用于自然語(yǔ)言處理任務(wù)中序列到序列的預(yù)測(cè)[9-10]。在醫(yī)學(xué)圖像分割中,CHEN等[11]首次應(yīng)用Transformer改進(jìn)醫(yī)學(xué)圖像的分割結(jié)果。CAO等[12]將Swin Transformer應(yīng)用于編碼器和解碼器。在編碼器中,實(shí)現(xiàn)了從局部到全局的自關(guān)注,在解碼器中,特征圖被上采樣到與輸入分辨率相同的尺寸,實(shí)現(xiàn)了像素級(jí)分割。MILLETARI等[13]提出了一種基于體積、全卷積神經(jīng)網(wǎng)絡(luò)的三維圖像分割方法,模型在前列腺M(fèi)RI圖像上進(jìn)行了端到端訓(xùn)練,并實(shí)現(xiàn)了一次預(yù)測(cè)整個(gè)體積的分割。ZHOU等[14]提出了一種3D Transformer,采用3種類(lèi)型的注意力機(jī)制解決CNN缺乏遠(yuǎn)程建模能力的問(wèn)題,基于局部和全局體積的自注意力集中于構(gòu)建特征金字塔并提供大的感受野,跳躍注意力負(fù)責(zé)彌補(bǔ)編碼器和解碼器之間的差距。HATAMIZADEH等[15]將Transformer作為編碼器用于學(xué)習(xí)輸入體積的序列表示,有效地捕獲了全局多尺度信息,并將不同分辨率的解碼器特征跳躍連接到解碼器,從而得出最終的語(yǔ)義分割。這是首個(gè)專(zhuān)門(mén)為3D圖像提出的Transformer分割模型,其在多器官分割的BTCV(Multi-Atlas Labeling Beyond The Cranial Vault)挑戰(zhàn)賽和醫(yī)學(xué)分割十項(xiàng)全能數(shù)據(jù)集(MSD)上展現(xiàn)出了最先進(jìn)的性能。
目前,腹部器官分割已成為醫(yī)學(xué)影像領(lǐng)域的研究熱點(diǎn),然而大多數(shù)研究主要聚焦于單器官分割任務(wù),例如對(duì)肝臟、腎臟和胰腺等單個(gè)器官的分割。由于不同患者多器官的外觀(guān)個(gè)體差異很大,因此多器官分割比單個(gè)器官分割更具挑戰(zhàn)性。圖卷積網(wǎng)絡(luò)(GCN)[16]通過(guò)將特征映射到拓?fù)鋱D的節(jié)點(diǎn)和邊上,能夠敏感地捕獲樣本之間的動(dòng)態(tài)變化[17],因此被廣泛應(yīng)用于深度學(xué)習(xí)任務(wù)中。此外,GCN通過(guò)可學(xué)習(xí)的參數(shù),能夠動(dòng)態(tài)地調(diào)整不同區(qū)域特征的重要程度,這種機(jī)制有利于高效提取空間信息,進(jìn)而提升模型在深度學(xué)習(xí)任務(wù)中的性能。因此,醫(yī)學(xué)圖像分割需要利用GCN捕獲不同分割類(lèi)別之間的動(dòng)態(tài)拓?fù)潢P(guān)系。
2 方法(Methods)
2.1 網(wǎng)絡(luò)結(jié)構(gòu)
圖1展示了本文方法的網(wǎng)絡(luò)架構(gòu),該網(wǎng)絡(luò)采用了經(jīng)典的“U”形結(jié)構(gòu),主要分為編碼器、解碼器和圖卷積3個(gè)部分。編碼器端主要包含兩個(gè)模塊,即卷積模塊(CNN Block)和有效自注意力模塊(ET Block),卷積模塊采用3D深度卷積提取特征,有效自注意力模塊通過(guò)使用空間自注意力和通道自注意力對(duì)空間與通道維度上的信息進(jìn)行編碼,有效地學(xué)習(xí)豐富的空間通道特征表示,在每一階段的后面都采用Patch Merging進(jìn)行下采樣。在網(wǎng)絡(luò)底部,先通過(guò)區(qū)域池化模塊(Region Pooling)將特征圖投影為圖表示,其中每個(gè)節(jié)點(diǎn)都代表不同的器官類(lèi)型,隨后進(jìn)行圖卷積運(yùn)算,區(qū)域反池化模塊(Region Unpooling)將圖卷積計(jì)算后的圖表示重新投影為語(yǔ)義圖像表示。編碼器和解碼器之間通過(guò)跳躍連接傳遞信息,用于合并不同分辨率的輸出,旨在恢復(fù)下采樣操作期間丟失的空間信息,從而預(yù)測(cè)更精確的輸出。與編碼器類(lèi)似,解碼器也包含4個(gè)階段,其中每個(gè)解碼器階段都包含一個(gè)上采樣層,使用Patch Expanding將特征圖的分辨率提高兩倍,通道數(shù)量減少至上一層的50%。因此,將最后一個(gè)解碼器的輸出與卷積特征圖進(jìn)行融合,旨在恢復(fù)空間信息并增強(qiáng)特征表示,從而提升模型的分割性能。
3.2 實(shí)驗(yàn)結(jié)果對(duì)比
表2顯示了本文方法在Amos22數(shù)據(jù)集上多器官分割結(jié)果的DSC值。為了驗(yàn)證該方法的有效性,本文將其與現(xiàn)有醫(yī)學(xué)圖像分割方法進(jìn)行比較,包括Unet[7]、TransUnet[11]、nn-Unet[18]、nnFormer[14]、UNETR[15]。表2中加粗的數(shù)據(jù)表示最好的結(jié)果,*表示本文訓(xùn)練的結(jié)果,相關(guān)論文沒(méi)有提供在此數(shù)據(jù)集上的訓(xùn)練結(jié)果。由表2的數(shù)據(jù)可知,應(yīng)用本文方法獲得的多器官分割結(jié)果的平均DSC值優(yōu)于比較的方法。具體來(lái)說(shuō),本文方法的分割結(jié)果在其中12個(gè)器官中實(shí)現(xiàn)了最高的DSC,包括脾、左腎、右腎、食道、肝、胃、主動(dòng)脈、下腔靜脈、胰腺、十二指腸、膀胱、前列腺。與之前基于2D的方法(Unet、TransUnet)相比,本文方法在所有的分割部位都達(dá)到了最好的結(jié)果。值得注意的是,本文方法在對(duì)膽囊、右腎上腺(R)、左腎上腺(L)的分割中表現(xiàn)不佳,這可能是因?yàn)槟懩业绕鞴僭卺t(yī)學(xué)圖像上表現(xiàn)的比較小,經(jīng)過(guò)多次下采樣后,細(xì)節(jié)信息消失不見(jiàn)。然而,本文方法在綜合預(yù)測(cè)方面表現(xiàn)最好,這歸功于本文提出的圖卷積神經(jīng)網(wǎng)絡(luò)捕獲了腹部器官間的動(dòng)態(tài)拓?fù)湫畔⒓霸谘芯恐羞M(jìn)行了有效自注意力機(jī)制長(zhǎng)距離的建模。
圖5顯示了3個(gè)醫(yī)學(xué)圖像分割網(wǎng)絡(luò)和本文方法之間的直觀(guān)比較??梢杂^(guān)察到本文的方法比其他方法取得了更好的結(jié)果。在例子1中,由于分割的器官結(jié)構(gòu)比較簡(jiǎn)單,所以本文方法與其他3種方法相比,結(jié)果差距并不是很大,只是在邊緣的細(xì)節(jié)有略微改進(jìn),但是在例子3中,由于分割器官局部復(fù)雜且分割類(lèi)別較多,所以其他3種方法在胃上的分割結(jié)果均出現(xiàn)了細(xì)微的錯(cuò)誤。同樣的現(xiàn)象在例子4中也可以看到,本文方法在肝臟的分割中取得了較好的結(jié)果。
為了進(jìn)一步驗(yàn)證本文方法的有效性,本文對(duì)分割結(jié)果進(jìn)行了3D重建,分割結(jié)果3D可視化如圖6所示。在例子1中,本文方法和nnFormer都取得了比較好的結(jié)果,但TransUNet在三維空間中錯(cuò)誤地分割了許多分散小點(diǎn),這是因?yàn)門(mén)ransUNet采用輸入2D切片的方法處理3D醫(yī)學(xué)數(shù)據(jù)集,割裂了數(shù)據(jù)集在空間上的信息。在例子2中可以明顯看出,雖然nnFormer在大多數(shù)器官分割結(jié)果上與本文的方法相似,但是在脾分割結(jié)果的三維表面上存在小坑。綜上所述,除了一些噪聲和局部細(xì)節(jié)損失,本文的分割結(jié)果非常接近真實(shí)值。
如圖7所示,在Amos22數(shù)據(jù)集下,本文方法展示了最快的收斂速度,而且隨著迭代次數(shù)的增加,依然保持最好的分割精度。
3.3 消融實(shí)驗(yàn)結(jié)果
為了證明有效注意力機(jī)制(ET)、圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)和區(qū)域池化(Region Pooling)的有效性,本文通過(guò)逐步刪除以上模塊進(jìn)行了詳細(xì)的測(cè)試。在不同的模塊組合設(shè)置下,獲得了本文方法的6種變體,分別表示為“Baseline”“Baseline+ET”“Baseline+GCN”“Baseline+GCN+Region Pooling”“Baseline+GCN+ET”“Baseline+GCN+ET+Region Pooling”。如表3所示,有效注意力模塊、圖卷積神經(jīng)網(wǎng)絡(luò)和區(qū)域池化模塊在Amos22數(shù)據(jù)集上應(yīng)用后,均能夠有效提升性能。本文的Baseline采用3DUnet架構(gòu),與Baseline相比,在編碼器中應(yīng)用有效自注意力(Baseline+ET)在DSC上提高了0.65百分點(diǎn),在HD95上降低了1.94 mm。在網(wǎng)絡(luò)底部中融合圖卷積(Baseline+GCN)的結(jié)果將DSC提高了1.33百分點(diǎn),將HD95降低了4.84 mm。通過(guò)在Baseline中結(jié)合區(qū)域池化和圖卷積(Baseline+GCN+Region Pooling),性能比僅使用圖卷積模塊有了顯著提高。通過(guò)將圖卷積和有效自注意力(Baseline+GCN+ET)相結(jié)合,實(shí)驗(yàn)結(jié)果相較于使用單個(gè)模塊有一定的提高。通過(guò)對(duì)3個(gè)模塊的有效集成,本文方法(Baseline+GCN+ET+Region Pooling)獲得了最好的結(jié)果,消融實(shí)驗(yàn)有力地證明了該方法融合各模塊的有效性。
4 結(jié)論(Conclusion)
本文提出了一種新穎的3D醫(yī)學(xué)圖像分割網(wǎng)絡(luò)模型,整體結(jié)構(gòu)是在“U”形網(wǎng)絡(luò)的基礎(chǔ)上融合了圖卷積神經(jīng)網(wǎng)絡(luò)和有效自注意力機(jī)制。有效自注意力機(jī)制在提供更大的感受野的同時(shí),降低了一部分參數(shù)量,有效自注意力機(jī)制主要分為空間自注意力和通道自注意力,空間自注意力學(xué)習(xí)空間變換的區(qū)域特征,通道自注意力學(xué)習(xí)通道特征圖之間的相互依賴(lài)關(guān)系。在編碼器的底部采用區(qū)域池化提取高級(jí)語(yǔ)義特征,將高級(jí)圖像表示投影為圖表示。通過(guò)圖卷積神經(jīng)網(wǎng)絡(luò)充分捕獲腹部器官間的動(dòng)態(tài)拓?fù)湫畔?,同時(shí)有效突出腹部器官的特征。在上采樣過(guò)程中,通過(guò)跳躍連接獲取編碼器的信息,以恢復(fù)圖像至原始大小。實(shí)驗(yàn)結(jié)果表明,相較于以前基于2D切片的醫(yī)學(xué)圖像分割方法,本文方法在Amos22數(shù)據(jù)集上的表現(xiàn)有著較大的改進(jìn)。
作者簡(jiǎn)介:
王川(1998-),男,碩士生。研究領(lǐng)域:醫(yī)學(xué)圖像處理,人工智能。
李楊(1986-),男,博士,副教授。研究領(lǐng)域:醫(yī)學(xué)圖像處理,深度學(xué)習(xí)。
魏波(1983-),男,博士,副教授。研究領(lǐng)域:優(yōu)化算法理論,人工智能。
蔣明峰(1977-),男,博士,教授。研究領(lǐng)域:深度學(xué)習(xí)與優(yōu)化方法,計(jì)算機(jī)圖像處理。