張學(xué)峰,張勝,張冬暉,劉瑞
南昌航空大學(xué)信息工程學(xué)院,南昌 330063
隨著卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)在計(jì)算機(jī)視覺領(lǐng)域(Dhruv 和 Naskar,2020)和醫(yī)學(xué)圖像處理領(lǐng)域的廣泛應(yīng)用,深度學(xué)習(xí)已經(jīng)成為醫(yī)學(xué)圖像分割任務(wù)中的主流方法,并促進(jìn)了醫(yī)學(xué)圖像分割技術(shù)的發(fā)展。這種端到端的精確分割結(jié)果能夠在醫(yī)療診斷中為醫(yī)生提供輔助依據(jù),有效地減少因醫(yī)生個(gè)人水平差異對(duì)診斷結(jié)果所帶來的主觀影響,且在日常工作中,醫(yī)院產(chǎn)生的醫(yī)學(xué)圖像數(shù)據(jù)是巨大的,而自動(dòng)醫(yī)學(xué)圖像分割技術(shù)能夠有效地減輕醫(yī)生的工作負(fù)擔(dān)。因此,具有十分重要的研究意義和價(jià)值。
醫(yī)學(xué)圖像分割方法主要采用具有U型結(jié)構(gòu)的全卷積神經(jīng)網(wǎng)絡(luò)(Ronneberger 等,2015;Milletari 等,2016)。最典型的是U-Net(Ronneberger 等,2015),它主要由對(duì)稱的編碼器—解碼器以及中間的跳躍連接組成。在編碼器部分,通過一系列的卷積和連續(xù)下采樣層來對(duì)輸入圖像進(jìn)行深層的特征提取。解碼器部分則通過上采樣操作,將提取的深層特征圖的分辨率提升到與輸入圖像相同的層次來進(jìn)行像素級(jí)的語義預(yù)測(cè),同時(shí)將來自編碼器不同尺度的特征圖通過跳躍連接與解碼器的特征進(jìn)行融合,以此來減少下采樣帶來的空間信息的丟失。憑借著這種優(yōu)雅的結(jié)構(gòu)設(shè)計(jì),U-Net在各種醫(yī)學(xué)圖像分割任務(wù)中取得了巨大成功?;赨-Net 架構(gòu),研究人員提出了許多算法,如nnU-Net(Isensee 等,2021)、Res_UNet(Xiao 等,2018)、U-Net++(Zhou 等,2018)、U-Net3+(Huang等,2020)、3D U-Net(?i?ek等,2016)等,并表現(xiàn)出了更加出色的性能和分割結(jié)果,同時(shí)也證明了CNN 具有很強(qiáng)的特征學(xué)習(xí)能力。盡管如此,基于CNN 的方法依然無法滿足醫(yī)學(xué)應(yīng)用對(duì)于分割精度的嚴(yán)格要求。這主要是由于卷積操作本身的局部性,而使其在建立全局和遠(yuǎn)程語義信息依賴關(guān)系中存在局限性(Cao 等,2023)。為解決這個(gè)問題,一些研究人員采取了各種措施,如擴(kuò)張卷積(Gu 等,2019)、金字塔池化(Zhao 等,2017)、自注意力機(jī)制(Schlemper 等,2019;Wang 等,2018)等,盡管這些策略能夠在一定程度上緩解這種局限性帶來的影響,但依然無法解決這一問題。
由于Transformer(Vaswani 等,2017)在自然語言處理(natural language processing,NLP)領(lǐng)域取得了巨大成功,研究人員開始嘗試將Transformer 引入計(jì)算機(jī)視覺領(lǐng)域,Dosovitskiy 等人(2020)提出了VIT(vision Transformer),通過將2D 圖像轉(zhuǎn)化為1D 圖像序列,使其能夠在全局范圍建立圖像特征間的依賴關(guān)系,并在圖像識(shí)別任務(wù)中,獲得了與CNN 相當(dāng)?shù)男阅鼙憩F(xiàn),但其計(jì)算復(fù)雜度較高,且需要進(jìn)行大規(guī)模的預(yù)訓(xùn)練。為解決這一問題,Liu等人(2021)提出了一種高效的分層視覺轉(zhuǎn)換器 Swin Transformer,對(duì)圖像采用分層設(shè)計(jì)和移動(dòng)窗口操作,在不需要大規(guī)模預(yù)訓(xùn)練的同時(shí),降低了計(jì)算復(fù)雜度,并以此為網(wǎng)絡(luò)主干,在圖像分類、目標(biāo)檢測(cè)和語義分割等任務(wù)中取得了當(dāng)時(shí)最佳的性能表現(xiàn)。在此基礎(chǔ)上,一些研究者開始將VIT或Swin Transformer應(yīng)用于醫(yī)學(xué)圖像分割領(lǐng)域,并提出了各種分割模型,取得了超過CNN 的分割結(jié)果,但由于Transformer 這種對(duì)圖像的序列化操作方式,導(dǎo)致其過多地關(guān)注全局特征,而一定程度上忽略了局部像素通道間信息交互的重要性。
為此,本文提出了一種基于分組注意力的醫(yī)學(xué)圖像分割方法GAU-Net。網(wǎng)絡(luò)整體為U-Net架構(gòu),使用ResNet 作為編碼器主干網(wǎng)絡(luò)進(jìn)行特征下采樣,并在每個(gè)編碼層下串聯(lián)本文提出的分組注意力模塊。此分組注意力模塊主要由局部注意力子模塊、全局注意力子模塊和特征融合單元3 部分組成。編碼層的輸出特征在輸入分組注意力模塊前,首先在通道方向上對(duì)其進(jìn)行分組,然后并行輸入到分組注意力模塊中進(jìn)行局部和全局注意力計(jì)算以及特征融合,再將融合后特征輸入到下一層編碼層,進(jìn)行進(jìn)一步特征提取。最后將編碼器輸出的高層次特征送入解碼器,使用連續(xù)的上采樣操作恢復(fù)圖像的分辨率。通過上述結(jié)構(gòu)設(shè)計(jì)后,GAU-Net能夠同時(shí)實(shí)現(xiàn)對(duì)局部和全局重要特征信息的獲取和交互,使得網(wǎng)絡(luò)提取的特征信息更加豐富、多樣,從而提高模型的分割效果。
本文主要貢獻(xiàn)如下:1)提出一種能夠同時(shí)獲取全局和局部重要特征的分組注意力模塊,基于Swin Transformer 和CNN 分別構(gòu)建模塊中的全局注意力子模塊和局部注意力子模塊,對(duì)輸入特征分別進(jìn)行全局注意力和局部注意力計(jì)算,然后將經(jīng)過注意力子模塊處理后的特征通過一個(gè)殘差單元進(jìn)行特征融合,使網(wǎng)絡(luò)獲取的特征信息更全面且更有針對(duì)性。2)采取一種有別于以往方法的注意力操作方式?,F(xiàn)有方法的注意力操作均在特征的全通道上進(jìn)行,此方式無法充分獲取圖像中的重要特征,且易出現(xiàn)計(jì)算冗余。為此,采用特征分組方式進(jìn)行注意力計(jì)算,將輸入特征在通道維度上進(jìn)行分組,然后對(duì)分組后的特征分別進(jìn)行不同的注意力操作,進(jìn)一步豐富了特征中包含的語義信息,使得網(wǎng)絡(luò)獲取的特征信息更具有多樣性。
注意力機(jī)制在醫(yī)學(xué)圖像分割領(lǐng)域的使用愈加廣泛,它使得網(wǎng)絡(luò)能夠更加關(guān)注與任務(wù)相關(guān)的重要特征,減少不必要信息對(duì)結(jié)果的影響。如Hu 等人(2020)提出了壓縮激勵(lì)網(wǎng)絡(luò)(squeeze and excitation networks,SENet),通過信息的壓縮激勵(lì)對(duì)每個(gè)通道的權(quán)重進(jìn)行調(diào)整,以此增大網(wǎng)絡(luò)對(duì)目標(biāo)區(qū)域的關(guān)注度,從而增強(qiáng)網(wǎng)絡(luò)的特征提取能力,提升最終的分割效果。而瓶頸注意力模型(bottleneck attention module,BAM)(Park 等,2018)和卷積塊注意力模塊(convolutional block attention module,CBAM)(Woo等,2018)通過融合特征圖的空間信息和通道信息,獲得了更好的目標(biāo)識(shí)別能力。Li等人(2022)提出了一種邊緣信息增強(qiáng)的注意力模塊(contour enhanced attention module,CEAM),通過捕獲具有位置感知的跨通道信息及更加明確的邊緣輪廓信息,提高了分割的準(zhǔn)確性。郝曉宇等人(2020)以3D U-Net 為基礎(chǔ)結(jié)構(gòu),將每?jī)蓚€(gè)相鄰的卷積層替換為殘差結(jié)構(gòu),并在上采樣和下采樣路徑之間添加了并聯(lián)的位置注意力模塊和通道注意力模塊,有效提升了肺腫瘤的分割精度。
Transformer 在醫(yī)學(xué)圖像分割領(lǐng)域的應(yīng)用主要有兩種方式。
1)混合Transformer 模型。Chen 等人(2021)通過將U-Net 網(wǎng)絡(luò)中編碼器的最后一層卷積層替換為VIT,提出了第1 個(gè)基于Transformer 的醫(yī)學(xué)圖像分割框架TransUNet,并將其用于2D 醫(yī)學(xué)圖像分割。Zhang 等人(2021)提出一種并行分支結(jié)構(gòu)Trans-Fuse,通過在網(wǎng)絡(luò)中構(gòu)建基于Transformer 和基于CNN 的雙編碼器來捕獲全局依賴性和低級(jí)空間特征。Lin等人(2022)提出了一種新型的多尺度架構(gòu),在其中構(gòu)建了跨尺度的全局Transformer和用于邊界感知的局部Transformer,將醫(yī)學(xué)圖像分割劃分成了由粗到細(xì)的過程,取得了較好性能表現(xiàn)。Li 等人(2022)提出了一種視覺語言醫(yī)學(xué)圖像分割模型(language meets vision Transformer,LviT),模型是由U 形CNN 分支和U 形VIT 分支組成的雙U 結(jié)構(gòu),通過引入醫(yī)學(xué)文本注釋來彌補(bǔ)圖像數(shù)據(jù)中的缺陷,并在全監(jiān)督和半監(jiān)督條件下都取得了很好的分割結(jié)果。
2)純Transformer 模型。Cao 等人(2023)提出基于Swin Transformer 的分割模型SwinUNet,展示了純Transformer 在醫(yī)學(xué)圖像分割方面的潛力。在此基礎(chǔ)上,Huang 等人(2021)提出了一個(gè)分層編解碼網(wǎng)絡(luò)MissTransformer,通過對(duì)Transformer 塊以及跳躍連接方式的重新設(shè)計(jì),使網(wǎng)絡(luò)獲得了更佳的分割能力。但上述工作主要集中在使用Transformer層替換卷積層或?qū)烧甙错樞蚨询B,未能充分發(fā)揮CNN 和Transformer在醫(yī)學(xué)圖像分割方面的潛力。
GAU-Net(group attention network)整體結(jié)構(gòu)如圖1 所示,主要由編碼器、解碼器和中間的跳躍連接3部分組成。編碼器部分包括特征提取層和分組注意力層,即圖中ResNet_Stagei(i=1,2,…,5)和GA modulei(i=1,…,4),其中特征提取層用于自上而下對(duì)輸入圖像進(jìn)行特征提取,分組注意力層則對(duì)上層網(wǎng)絡(luò)提取的特征進(jìn)行分組注意力操作,加強(qiáng)網(wǎng)絡(luò)對(duì)重要特征的關(guān)注。解碼器則采用雙線性插值對(duì)編碼器提取的最終特征進(jìn)行特征分辨率恢復(fù),并在解碼過程中,對(duì)相同尺度的特征圖,通過跳躍連接將編碼器提取的特征和解碼器獲取的特征進(jìn)行多尺度特征融合,最終輸出想要的分割特征圖。
圖1 GAU-Net整體結(jié)構(gòu)示意圖Fig.1 Schematic diagram of the overall structure of GAU-Net
分組注意力模塊(group attention module,GA module)結(jié)構(gòu)如圖2 所示,主要由3 部分組成。1)基于卷積操作的像素通道注意力和空間注意力的混合注意力子模塊;2)基于Swin Transformer 的注意力子模塊;3)特征融合單元,即圖中ResConv。其中,為ResNet_Stagei輸出的特征圖,按照通道維度將特征圖Xi劃分成兩組,即和
圖2 GA module結(jié)構(gòu)示意圖Fig.2 Schematic diagram of the structure of the GA module
1)混合注意力子模塊。如圖2上方方框所示,由空間注意力和像素通道注意力兩部分組成,這兩部分可以進(jìn)行串聯(lián)或并聯(lián)組合,而相較于并聯(lián)結(jié)構(gòu)對(duì)輸入特征分別獨(dú)立進(jìn)行空間和像素通道注意力計(jì)算,串聯(lián)結(jié)構(gòu)更能有效加強(qiáng)對(duì)重要信息的提取與交互,同時(shí)實(shí)際測(cè)試中也證明了串聯(lián)結(jié)構(gòu)比并聯(lián)更加有效。
式中,Conv1×1是1 × 1 準(zhǔn)卷積;BN(batch normalization)是批歸一化操作;fSigmoid是非線性激活函數(shù),將特征圖中數(shù)值映射到0~1,作為空間注意力權(quán)重。和分別是空間注意力和像素通道注意力的輸出特征。
然后,在每個(gè)像素通道維度上進(jìn)行通道注意力計(jì)算,得到輸出特征,計(jì)算過程為
式中,MeanC1、MaxC1分別表示在特征圖每個(gè)像素通道維度上計(jì)算平均值和最大值。
式中,fDim_div和fDim_rec分別表示維度劃分和維度恢復(fù),fSwin_attnC2表示經(jīng)過Swin Transformer 層進(jìn)行全局注意力計(jì)算。
圖2中Swin Transformer 層的基本單元為兩個(gè)連續(xù)的Swin Transformer block,結(jié)構(gòu)如圖3所示。
圖3 Swin Transformer層基本單元結(jié)構(gòu)示意圖Fig.3 Schematic diagram of the basic unit structure of Swin Transformer layer
GAU-Net 中基本單元的數(shù)目由參數(shù)n進(jìn)行控制。與VIT 的多頭注意力不同,Swin Transformer 是基于滑動(dòng)窗口構(gòu)建,相較于VIT,其計(jì)算復(fù)雜度大大降低。每個(gè)基本單元由LN(layernorm)層、基于窗口多頭注意力模塊(window-based multi-head selfattention,W-MSA)、基于滑動(dòng)窗口的多頭注意力模塊(shifted window multi-head self-attention,SWMSA)、殘差連接和兩層多層感知機(jī)(multi-layer perceptron,MLP)組成,其計(jì)算式為
式中,fsoftmax為歸一化函數(shù),Q、K、V∈表示查詢矩陣、鍵矩陣和值矩陣,M和d分別為窗口中的patch的數(shù)量以及Q 或K 的維度。B 矩陣中的值則是來自于偏置矩陣∈R(2M-1)×(2M+1)。
3)特征融合單元。如圖2 右側(cè)方框所示,經(jīng)過上述兩個(gè)注意力子模塊處理后將得到的兩組特征和,為進(jìn)行下一階段特征提取,需要將其在通道維度進(jìn)行特征拼接,以此保持與輸入特征相同的特征維度,并采用一個(gè)殘差單元作為特征融合單元,對(duì)拼接后的特征進(jìn)行特征融合,最后得到輸出特征,計(jì)算過程為
式中,cat表示將特征和在通道維度上進(jìn)行拼接,fResConv則表示用于特征融合的殘差單元。
解碼器采用雙線性插值進(jìn)行特征分辨率恢復(fù),與U-Net 類似,在上采樣過程中,通過跳躍連接將編碼器中得到的不同尺度特征與上采樣中同尺度特征進(jìn)行特征融合,如圖1 中skip 1/4、skip 1/8、skip 1/16所示,以此減少下采樣過程中帶來的空間信息的丟失。
1)Synapse 多器官分割數(shù)據(jù)集。此數(shù)據(jù)集包括30例共3 779幅軸向腹部臨床CT(computed tomography)圖像。將18個(gè)樣本作為訓(xùn)練集,12個(gè)樣本作為測(cè)試集。數(shù)據(jù)集對(duì)8 個(gè)腹部器官進(jìn)行了標(biāo)注,即主動(dòng)脈(aorta)、膽囊(gallbladder)、脾臟(spleen)、左腎(kidney(L)、右腎(kidney(R)、肝臟(liver)、胰腺(pancreas)、胃(stomach)。
2)心臟自動(dòng)診斷挑戰(zhàn)數(shù)據(jù)集(automated cardiac diagnosis challenge,ACDC)。此數(shù)據(jù)集使用MRI(magnetic resonance imaging)掃描儀從不同患者處收集得到。針對(duì)每個(gè)患者的圖像,對(duì)左心室(left ventical,LV)、右心室(right ventrical,RV)和心?。╩yocardium,MYO)進(jìn)行了標(biāo)注。數(shù)據(jù)集包括70個(gè)訓(xùn)練樣本、10個(gè)驗(yàn)證樣本和20個(gè)測(cè)試樣本。
本網(wǎng)絡(luò)模型基于python3.8 和pytorch1.9 實(shí)現(xiàn)。對(duì)所有的訓(xùn)練樣本使用隨機(jī)翻轉(zhuǎn)和旋轉(zhuǎn)等方式進(jìn)行數(shù)據(jù)增強(qiáng)。輸入圖像尺寸為224 × 224 像素。在兩張分別具有11 GB 內(nèi)存的Nvidia 1080ti GPU 上訓(xùn)練本文模型。訓(xùn)練參數(shù)設(shè)置為:epoch為150,batch size為16,初始學(xué)習(xí)率為0.15,使用SGD(stochastic gradient descent)優(yōu)化器(動(dòng)量為0.9,權(quán)重衰減10-5)來優(yōu)化反向傳播模型。
采用Dice 相似系數(shù)(Dice similarity coefficient,DSC)和Hausdorff 距離(Hausdorff distance,HD)作為評(píng)價(jià)指標(biāo),對(duì)當(dāng)前模型的性能優(yōu)劣進(jìn)行評(píng)估。DSC對(duì)圖像分割像素的內(nèi)部填充有較強(qiáng)的約束性,而HD對(duì)分割的邊界有更高的敏感度,因此,將兩者結(jié)合使用,有助于獲得更精確的分割結(jié)果。
3.4.1 Synapse多器官數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果與分析
1)分割結(jié)果分析。DSC 與HD GAU-Net 在Synapse多器官CT數(shù)據(jù)集上的相關(guān)對(duì)比實(shí)驗(yàn)結(jié)果如表1所示??梢钥闯觯w上,GAU-Net相較于其他方法取得了最佳的分割結(jié)果,DSC 和HD 分別為82.93%和12.32%。與MISSFormer方法相比,在DSC評(píng)估指標(biāo)上取得了0.97%的提升,而在HD評(píng)估指標(biāo)上減少了5.88%。但在單個(gè)器官分割上,本文方法在膽囊、左腎、右腎、肝臟和胃等器官分割精度上實(shí)現(xiàn)了最優(yōu),在主動(dòng)脈分割上Att-UNet最優(yōu),為89.55%(DSC),高于本文方法0.91%,而在胰腺和脾臟分割上,則MISSFormer 最佳,分別為65.67%(DSC)和91.92%(DSC),高于本文方法0.63%和1.51%,說明本文方法在小器官和邊緣復(fù)雜的器官分割上略有不足。
表1 不同方法在Synapse多器官CT數(shù)據(jù)集上的分割精度Table 1 Segmentation accuracy of different methods on the Synapse multi-organ CT dataset /%
2)模型分割實(shí)例分析。不同方法在Synapse 多器官CT 數(shù)據(jù)集上的分割結(jié)果實(shí)例如圖4 所示,從最終分割效果可以看出,與MISSFormer、SwinUNet 和TransUNet等方法的分割結(jié)果相比,本文方法的分割結(jié)果更接近人工標(biāo)注結(jié)果。其中圖4(c)(d)分別為MISSFormer 和SwinUNet 的分割實(shí)例,兩者均為純Transformer網(wǎng)絡(luò),在特征提取過程中,由于SwinUNet過多的關(guān)注特征的全局信息問題,導(dǎo)致其忽略了特征間的局部依賴關(guān)系,而MISSFormer 通過其獨(dú)特的設(shè)計(jì),使得模型能夠在編解碼過程中進(jìn)行局部上下文信息的補(bǔ)充,但其卻忽略了特征通道間以及像素通道間信息交互的重要性。而圖4(e)則為TransUNet 的分割實(shí)例,TransUNet 是結(jié)合VIT 和CNN 的混合網(wǎng)絡(luò),其只在編碼器的最后階段使用VIT 對(duì)全局特征進(jìn)行建模,未考慮前期特征提取過程中全局特征信息的重要性。由于以上原因,導(dǎo)致它們存在較明顯的欠分割和過分割問題。
圖4 不同方法在Synapse多器官CT數(shù)據(jù)集上的分割結(jié)果Fig.4 Segmentation results of different methods on the Synapse multi-organ CT dataset((a)ground truth;(b)GAU-Net;(c)MISSFormer;(d)SwinUNet;(e)TransUNet)
3)模型訓(xùn)練過程Loss的收斂情況分析。模型訓(xùn)練過程中的Loss 曲線如圖5 所示??梢钥闯觯谑諗克俣壬?,GAU-Net 和SwinUNet 相當(dāng),但優(yōu)于TransUNet 和MISSFormer。而模型收斂時(shí)達(dá)到的Loss值,GAU-Net 均低于對(duì)比方法,具有較好的收斂狀態(tài)。
圖5 Loss曲線Fig.5 Loss curve
4)模型推理時(shí)間和占用內(nèi)存分析。GAU-Net和對(duì)比方法對(duì)單幅圖像的推理時(shí)間(inference time)和內(nèi)存占用(memory)情況如表2所示。數(shù)據(jù)均在相同實(shí)驗(yàn)條件下,使用相同方法獲得。從表2 中可以看出,SwinUNet 表現(xiàn)最佳,其訓(xùn)練過程中單幅圖像推理時(shí)間為12.44 ms,內(nèi)存占用為166.86 M。但對(duì)于醫(yī)學(xué)圖像分割來說,分割精度是評(píng)判模型效果的一項(xiàng)關(guān)鍵指標(biāo),且每一點(diǎn)的分割精度的提升都具有重大的意義。因此,GAU-Net 在沒有較大幅度增加模型推理時(shí)間以及內(nèi)存占用的前提下,以此獲取更好的分割精度性能提升是值得的。但同時(shí)本文模型也需要進(jìn)一步改進(jìn),使其能夠在不損失分割精度的同時(shí),盡可能降低對(duì)計(jì)算資源的消耗。
表2 不同模型的推理時(shí)間和占用內(nèi)存的比較Table 2 Comparison of inference time and memory usage of different models
3.4.2 ACDC數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果與分析
GAU-Net 在ACDC 數(shù)據(jù)集上相關(guān)對(duì)比實(shí)驗(yàn)結(jié)果如表3 所示。從表3 中可以看出,在單個(gè)器官分割上,GAU-Net 在右心室和心肌兩個(gè)器官上取得了優(yōu)于其他方法的分割精度,分別為91.07%(DSC)和88.49%(DSC),在左心室分割上,SwinUnet取得了最佳分割精度,為95.83%(DSC),高于本文方法1.46%。但在整體分割精度上,GAU-Net 表現(xiàn)仍取得了最佳結(jié)果,為91.34%(DSC),高于目前先進(jìn)方法MISSFormer 0.48%(DSC)。
表3 不同方法在ACDC數(shù)據(jù)集上的分割精度Table 3 Segmentation accuracy of different methods on the ACDC dataset /%
此外,將GAU-Net 在ACDC 數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果與ACDC 數(shù)據(jù)集網(wǎng)絡(luò)排名前3 的方法進(jìn)行比較(數(shù)據(jù)來源https://acdc.creatis.insa-lyon.fr),如表4 所示。3 個(gè)單器官分割中,本文方法在右心室和右心室分割排名中均位于第1,僅在心肌分割排名中排名第4,且相較于排名第1 的方法相差3.8%。說明本文方法具備一定的先進(jìn)性和競(jìng)爭(zhēng)力。
表4 ACDC數(shù)據(jù)集網(wǎng)絡(luò)排名比較Table 4 Comparison of network rankings on ACDC dataset
為了探究不同因素對(duì)模型性能的影響,通過控制變量的方式,在Synapse數(shù)據(jù)集上進(jìn)行了相關(guān)的消融實(shí)驗(yàn)。實(shí)驗(yàn)內(nèi)容主要包括:1)不同ResNet_Stage數(shù)量的影響;2)分組注意力模塊中各組件的影響;3)不同特征通道劃分?jǐn)?shù)量的影響;4)跳躍連接數(shù)量的影響;5)Swin Transformer block數(shù)量的影響。
3.5.1 各層ResNet_Stage中殘差單元數(shù)量的影響
本文模型的特征提取主干網(wǎng)絡(luò)為ResNet50,其各特征提取層的殘差單元數(shù)設(shè)置為[3,4,6,3],為探究各層不同的殘差單元數(shù)配置方案對(duì)模型性能的影響,對(duì)此進(jìn)行了3 組實(shí)驗(yàn),將圖1 中ResNet_Stage 2—5 的殘差單元數(shù)分別設(shè)置為[2,2,4,2]、[4,4,4,4]、[3,6,8,3]。實(shí)驗(yàn)結(jié)果如表5所示,此3組殘差單元數(shù)配置方案導(dǎo)致分割精度分別下降了4.81%、2.78%、1.72%。因此,為保證獲得最佳的分割性能,選擇[3,4,6,3]作為主干網(wǎng)絡(luò)中ResNet_Stage 2—5的殘差單元數(shù)配置方案。
表5 各層ResNet_Stage中殘差單元數(shù)量的影響Table 5 Influence of the number of residual units in ResNet_Stage at each layer /%
3.5.2 分組注意力模塊中各組件的影響
本文在編碼中設(shè)計(jì)了分組注意力模塊,此模塊由3 部分子模塊組成,為探究各子模塊對(duì)網(wǎng)絡(luò)性能的影響,本文對(duì)此進(jìn)行了3 組實(shí)驗(yàn)。1)混合注意力子模塊的影響(No_FuseAttn);2)基于Swin Transformer 的注意力子模塊的影響(No_SwinAttn);3)特征融合子模塊的影響(No_Fuse)。如表6 所示,去除各子模塊后網(wǎng)絡(luò)性能分別下降了2.41%、0.93%和0.38%。其中混合注意力子模塊對(duì)網(wǎng)絡(luò)性能的影響最大。此實(shí)驗(yàn)結(jié)果驗(yàn)證了本文設(shè)計(jì)的分組注意力模塊的合理性和有效性。
表6 分組注意力模塊中各組件對(duì)網(wǎng)絡(luò)性能影響的消融實(shí)驗(yàn)Table 6 Ablation experiments on the effect of each component in the grouped attention module on network performance /%
3.5.3 不同特征通道劃分?jǐn)?shù)量的影響
上層特征在輸入分組注意力模塊前,會(huì)先按通道劃分為不同通道數(shù)的兩組特征,然后分別送入分組注意力模塊的兩個(gè)并行注意力路徑中,為探索特征通道數(shù)劃分的比例不同對(duì)分割精確度的影響,本文對(duì)此進(jìn)行了相關(guān)實(shí)驗(yàn),如表7 所示。表7 中,C1、C2對(duì)應(yīng)通道數(shù)是以ResNet_Stage2為例,此層特征通道數(shù)為256,后面網(wǎng)絡(luò)層特征通道總數(shù)以及對(duì)應(yīng)通道劃分?jǐn)?shù)量均為上一網(wǎng)絡(luò)層對(duì)應(yīng)通道數(shù)量的2 倍。從表7 中可以看出,當(dāng)按1∶1 劃分通道數(shù)時(shí),模型分割精確度達(dá)到最高,因此,本文模型采用1∶1 比例對(duì)特征通道進(jìn)行劃分。
表7 特征通道數(shù)劃分比例對(duì)網(wǎng)絡(luò)性能影響的消融實(shí)驗(yàn)Table 7 Ablation experiments on the effect of feature channel number division ratio on network performance /%
3.5.4 跳躍連接數(shù)量的影響
GAU-Net在編解碼器之間建立的跳躍連接的特征分辨率比例分別為1/4、1/8、1/16,通過將跳躍連接數(shù)分別設(shè)置為0、1、2和3,探究了不同跳躍連接對(duì)模型分割精確度的影響。如表8所示,可以看到,模型的分割精確度與跳躍連接的數(shù)量成正比例關(guān)系。因此,為提高最終的分割精確度,本文將跳躍連接數(shù)設(shè)置為3。
表8 跳躍連接數(shù)量對(duì)網(wǎng)絡(luò)性能影響的消融實(shí)驗(yàn)Table 8 Ablation experiments on the effect of the number of skip connections on network performance /%
3.5.5 Swin Transformer block數(shù)量的影響
提出的分組注意力模塊中,將兩個(gè)連續(xù)的Swin Transformer block 作為其中一個(gè)注意力分支的基本單元,為探究Swin Transformer block 數(shù)量,即圖2中n的設(shè)定對(duì)模型性能的影響,將其中Swin Transformer層中Swin Transformer block 的數(shù)量按照網(wǎng)絡(luò)層次分別設(shè)置為[2,2,2,2]、[2,4,4,2]、[2,4,4,4]、[4,4,4,4]。實(shí)驗(yàn)結(jié)果如表9 所示,當(dāng)將Swin Transformer block 數(shù)量設(shè)為[2,4,4,2]時(shí),網(wǎng)絡(luò)分割性能表現(xiàn)最佳。因此,本文考慮將[2,4,4,4,2]作為Swin Transformer block 數(shù)量的最終設(shè)定,以此獲得更好的分割效果。
表9 Swin Transformer block 數(shù)量對(duì)網(wǎng)絡(luò)性能影響的消融實(shí)驗(yàn)Table 9 Ablation experiments on the effect of the number of Swin Transformer blocks on network performance /%
本文提出了一種基于分組注意力的醫(yī)學(xué)圖像分割模型。通過并行融合Swin Transformer 和CNN 的方式構(gòu)建了一種分組注意力模塊,并將其加入到下采樣路徑中的各編碼層后,有效地增強(qiáng)了模型對(duì)局部和全局重要特征的提取能力。此外,在各編碼層輸出特征進(jìn)入分組注意力模塊前,先對(duì)其進(jìn)行特征分組處理,以此減少計(jì)算信息冗余,進(jìn)一步提升模型的分割性能。在Synapse 數(shù)據(jù)集和ACDC 數(shù)據(jù)集上進(jìn)行了相關(guān)實(shí)驗(yàn),GAU-Net 取得的實(shí)驗(yàn)結(jié)果均優(yōu)于SwinUNet、MISSFormer等現(xiàn)有方法,能夠更有效地完成醫(yī)學(xué)圖像分割任務(wù)。但本文方法在小目標(biāo)分割上還略有不足,主要是因?yàn)樵谔卣鞣纸M處理上尚未制定相關(guān)的分組規(guī)則,從而導(dǎo)致一定程度上的特征匹配不均衡和信息丟失問題,對(duì)此將在后續(xù)工作中進(jìn)行進(jìn)一步研究和改進(jìn),增強(qiáng)模型對(duì)精細(xì)結(jié)構(gòu)的感知能力。