徐旺旺,許良鳳,李博凱,周曦,3,律娜,詹曙
1.合肥綜合性國(guó)家科學(xué)中心人工智能研究院,合肥 230601;2.合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院,合肥 230601;3.安徽水利電力職業(yè)技術(shù)學(xué)院,合肥 231603;4.安徽醫(yī)科大學(xué)第一附屬醫(yī)院,合肥 230022
癌癥是世界人口死亡率最高的主要原因,而在女性中乳腺癌是最常見(jiàn)的癌癥疾?。˙ray等,2018),世界衛(wèi)生組織報(bào)告稱(chēng),每年約有62.67 萬(wàn)女性死于癌癥相關(guān)疾病,2018 年診斷出200 多萬(wàn)新病例(Bray等,2018)。而在早期對(duì)患者病情的發(fā)現(xiàn)與治療,可以大大降低死亡率和醫(yī)療成本,這對(duì)患者和醫(yī)療資源緊缺的國(guó)家來(lái)說(shuō)具有至關(guān)重要的作用。盡管醫(yī)療水平不斷發(fā)展,但現(xiàn)存的醫(yī)療手段仍存在很多弊端。主要使用的檢查手段包括乳腺X射線(xiàn)、磁共振成像、熱成像和超聲波成像,這些成像結(jié)果只能確定癌癥可疑區(qū)域,并不能判斷患者是否患癌和癌癥級(jí)別(Saad 等,2016)。在早期乳腺癌治療中,X 光檢查被認(rèn)為是最有效的方法(George 和Sankar,2017),可用于檢測(cè)癌癥預(yù)后早期良性和惡性腫塊,然而腫瘤檢測(cè)是基于對(duì)乳房感興趣區(qū)域(region of interest,ROI)的精確分割。因此,乳房X 線(xiàn)計(jì)算機(jī)輔助診斷中乳房腫塊的分割在醫(yī)學(xué)圖像的定量和定性分析中起著重要作用,它對(duì)早期癌癥的分析和治療有直接影響。
早期Zhang 等人(2010)基于從像素的共現(xiàn)矩陣計(jì)算出的能量描述符(Haralick 描述符),使用紋理分析來(lái)識(shí)別乳房X 線(xiàn)照片中的可疑腫塊;Ke 等人(2009)引入了小波變換模最大值,以自動(dòng)方式識(shí)別乳房X 線(xiàn)片中的腫塊,并通過(guò)提取其輪廓來(lái)細(xì)化檢測(cè)到的腫塊;Jai-Andaloussi 等人(2013)首先使用迭代閾值算法在乳房X光檢查中發(fā)現(xiàn)可疑腫塊的感興趣區(qū)域。然后從應(yīng)用BEMD(bivariate empirical mode decomposition)二維經(jīng)驗(yàn)?zāi)J椒纸夥椒ǐ@得的第1 模式中提取感興趣區(qū)域的輪廓,最后通過(guò)提取的輪廓來(lái)識(shí)別腫塊;Yang 等人(2023)提出了一種改進(jìn)的多策略差分進(jìn)化算法,采用基于新型差分進(jìn)化、二維Kapur 熵和二維直方圖的多級(jí)閾值圖像分割框架來(lái)分割腫塊。
在傳統(tǒng)的機(jī)器學(xué)習(xí)方法中,主要采用有監(jiān)督和無(wú)監(jiān)督方法分割乳腺癌腫塊,從輸入圖像學(xué)習(xí)不同具有代表性的特征來(lái)學(xué)習(xí)和預(yù)測(cè)癌癥。Salih 和Kamil(2018)提出了一種基于模糊集和閾值技術(shù)的乳房X 光圖像分割方法,該方法產(chǎn)生了86.0%的Dice 系數(shù)、66.0%的召回率和20.0%的準(zhǔn)確度;Cardoso 等人(2017)提出了乳房X 光圖像中的腫塊分割,并與深度和定制特征進(jìn)行比較,結(jié)合CRF(conditional random fields)和SSVM(structured support vector machine)的深度學(xué)習(xí)特征的第2和第3模型。
然而,隨著深度學(xué)習(xí)在醫(yī)學(xué)影像上的發(fā)展,Sun等人(2020)開(kāi)發(fā)了一種新的注意力引導(dǎo)密集上采樣網(wǎng)絡(luò)AUNet,用于整個(gè)乳房X 光檢查中的乳房腫塊分割;經(jīng)典的醫(yī)學(xué)分割網(wǎng)絡(luò)UNet(Ronneberger 等,2015)主要采用具有跳躍連接的對(duì)稱(chēng)編碼—譯碼結(jié)構(gòu);按照這一技術(shù)路線(xiàn),UNet++(Zhou 等,2018)、Res-UNet(ResNet-UNet )(Xiao 等,2018)和UNet3+(Huang 等,2020)等各種延伸網(wǎng)絡(luò)用于醫(yī)學(xué)成像模式的圖像和視頻分割。Cho 等人(2022)設(shè)計(jì)了一個(gè)乳腺腫瘤集成分類(lèi)網(wǎng)絡(luò)(breast tumor ensemble classification network,BTEC-Net)來(lái)對(duì)是否包含乳腺腫瘤進(jìn)行分類(lèi);Iqbal 和Sharif(2023)提出一種結(jié)合數(shù)據(jù)擴(kuò)展網(wǎng)絡(luò)(dynamically expandable networks,DEN)、概率映射生成網(wǎng)絡(luò)(probabilistic mapping generation,PMG)和U 型金字塔擴(kuò)張網(wǎng)絡(luò)(U-shaped pyramid-dilated network,PDF-UNet)的半監(jiān)督學(xué)習(xí)方案;Nelson 和Krishna(2023)開(kāi)發(fā)一種使用基于深度學(xué)習(xí)方法的自動(dòng)核分割算法,利用星凸多邊形方法的像素級(jí)分析獲得更準(zhǔn)確的分割結(jié)果;Chen 等人(2023)開(kāi)發(fā)了一種新的細(xì)化殘差卷積網(wǎng)絡(luò),該網(wǎng)絡(luò)利用不同膨脹率來(lái)捕捉更多的全局信息。
在分割階段,使用殘差特征選擇UNet(residual feature selection-UNet,RFS-UNet)對(duì)BTEC-Net 分類(lèi),為異常的圖像進(jìn)行專(zhuān)屬分割,He 等人(2023)提出了一種混合CNN-Transformer 網(wǎng)絡(luò)(hybrid CNN-Transformer network,HCTNet)來(lái)提高超聲圖像中乳腺病變的分割。但是實(shí)際的臨床醫(yī)學(xué)圖像分辨率不高,并且上下文不相連,很少關(guān)注不同區(qū)域內(nèi)部和相鄰之間的聯(lián)系,忽略整個(gè)圖像的全局特征和遠(yuǎn)程信息交互,導(dǎo)致對(duì)腫瘤分割存在誤差。在本次實(shí)驗(yàn)中,不僅將Transformer結(jié)構(gòu)與普通的卷積層之間作為模塊相連,更關(guān)注在不同采樣之間使用Transformer 來(lái)融合特征信息,高效地將兩個(gè)模塊相結(jié)合,從而在模型訓(xùn)練中各自體現(xiàn)網(wǎng)絡(luò)的優(yōu)勢(shì),識(shí)別的乳腺腫塊很少有分割和分類(lèi)相繼進(jìn)行,對(duì)分割的不同類(lèi)型的腫瘤缺少評(píng)定。本文提出TransAS-UNet(Transformer atrous spatial pyramid pooling Swin UNet )網(wǎng)絡(luò),實(shí)現(xiàn)不同層次的特征信息交融和卷積層局部信息的自我關(guān)注,同時(shí)提出一種新的多尺度特征圖融合策略,采用具有跳躍連接的Transformer增強(qiáng)了空間域信息表示。實(shí)驗(yàn)表明,本文提出的分割算法優(yōu)于對(duì)比方法,性能指標(biāo)得到提升。
本文的主要貢獻(xiàn)如下:1)提出新的高效分類(lèi)網(wǎng)絡(luò)TransAS-UNet,在上下采樣階段基于UNet 分割網(wǎng)絡(luò)引入Swin 和ASPP(atrous spatial pyramid pooling),可以實(shí)現(xiàn)對(duì)不同層次的深淺特征信息交融,增加卷積層的感受野來(lái)達(dá)到局部信息的自我關(guān)注。2)為了準(zhǔn)確地捕獲空間域信息,通過(guò)在跳躍連接上引入Transformer 來(lái)增強(qiáng)空間域信息,構(gòu)建了一種新的多尺度特征圖融合策略,以增強(qiáng)高維和低維空間信息的融合。3)在分割出乳腺癌的腫塊上采用第2 階段分類(lèi)網(wǎng)絡(luò),基于ResNet50(residual network 50)上使用SK(selective kernel)卷積代替模型中間卷積層,并結(jié)合SE(squeeze-and-excitation)對(duì)輸入圖像的通道分配權(quán)重,使用ERF(error function)梯度下降和標(biāo)簽軟化等方法實(shí)現(xiàn)精準(zhǔn)分類(lèi)。4)本文模型在乳腺癌X光數(shù)據(jù)集INbreast 上實(shí)現(xiàn)腫塊的準(zhǔn)確分割,交并比(intersection over union,IoU)值達(dá)到95.58%,Dice 系數(shù)為93.45%,與其他分割模型相比提高了4%~6%,將分割的腫塊進(jìn)行四分類(lèi),Accuracy 值達(dá)到95.24%。在許多臨床醫(yī)學(xué)分割和分類(lèi)應(yīng)用中,本文方法比大多數(shù)模型具有更高的精度。
實(shí)驗(yàn)中,基于UNet 結(jié)構(gòu)的上下采樣存在不同層次的特征信息交融(徐磊 等,2023)和卷積層局部信息的自我關(guān)注等問(wèn)題,本文采用了Swin Transformer結(jié)構(gòu),該結(jié)構(gòu)具有滑窗操作和層級(jí)設(shè)計(jì),主要由Window Attention 模塊和Shifted Window Attention 模塊組成,可以實(shí)現(xiàn)將輸入乳腺X 光特征圖切片成多個(gè)窗口,根據(jù)自我注意力來(lái)分配每個(gè)窗口的權(quán)重,同時(shí)也能對(duì)整個(gè)特征圖的窗口位置進(jìn)行移動(dòng),實(shí)現(xiàn)同一特征圖內(nèi)部的信息交互。本文在上下采樣過(guò)程中各使用4 個(gè)Swin Transformer 結(jié)構(gòu),在切片融合中使用金字塔結(jié)構(gòu)ASPP(Chen 等,2018)替換普通的特征圖通道相加操作,能夠運(yùn)用多個(gè)卷積核對(duì)原圖卷積得到不同的特征圖再通道相融,給定的輸入以不同采樣率的空洞卷積并行采樣,實(shí)現(xiàn)多個(gè)比例捕捉圖像的上下文信息。為了更好地融合高維和低維空間信息,本文提出了一種新的多尺度特征圖融合策略,采用具有跳躍連接的Transformer 增強(qiáng)了空間域信息表示。對(duì)于乳腺X 光圖像,需要識(shí)別的腫瘤區(qū)域相對(duì)于整個(gè)乳腺部位占比較小,通過(guò)增加局部信息關(guān)注可以有效訓(xùn)練。經(jīng)過(guò)分割網(wǎng)絡(luò)對(duì)乳腺癌腫塊分割得到二值圖像作為第2 階段分類(lèi)網(wǎng)絡(luò)的輸入,在基線(xiàn)模型ResNet50(He 等,2016)上融入SK 和SE多種注意力,通過(guò)非線(xiàn)性方法融合來(lái)自不同核的特征,進(jìn)而實(shí)現(xiàn)感受野不同尺寸的調(diào)整,在數(shù)據(jù)過(guò)擬合中添加ERF 梯度下降和標(biāo)簽軟化方法。圖1展示了本文實(shí)驗(yàn)采用的模型框架。
圖1 實(shí)驗(yàn)分割和分類(lèi)的網(wǎng)絡(luò)框架Fig.1 Network framework for experimental segmentation and classification
為了處理復(fù)雜的醫(yī)學(xué)圖像分割任務(wù),本文使用卷積塊作為編碼器和解碼器的每一層。該模塊類(lèi)似于小型UNet結(jié)構(gòu),這樣可以提取更多細(xì)節(jié)。卷積層進(jìn)行的處理就是卷積運(yùn)算(文可 等,2023),對(duì)于輸入數(shù)據(jù)卷積運(yùn)算以一定間隔滑動(dòng)濾波器的窗口,將各個(gè)位置上濾波器的元素和輸入的對(duì)應(yīng)元素相乘再求和,并將這個(gè)結(jié)果保存到輸出的對(duì)應(yīng)位置。將這個(gè)過(guò)程在所有位置都進(jìn)行一遍,就可以得到卷積運(yùn)算的輸出。
在分割結(jié)構(gòu)中,卷積模塊主要實(shí)現(xiàn)兩個(gè)步驟:對(duì)整幅圖像的切片處理(侯佩和齊亞莉,2021)和嵌入向量。首先利用二維卷積將stride,kernelsize設(shè)置為patch_size 大小,patch_size 在本次實(shí)驗(yàn)中前期預(yù)處理為4,這樣經(jīng)過(guò)卷積操作形成4 × 4 個(gè)尺寸大小為(H/4,W/4)特征圖,乳腺癌X光數(shù)據(jù)集中大部分的腫瘤較小并且像素值較大,通過(guò)切片操作可以加快模型的訓(xùn)練和減小單次訓(xùn)練參數(shù)。接著對(duì)四維向量(N,C,H/4,W/4)利用降維函數(shù)實(shí)現(xiàn)維度重建(N,C,H/4 ×W/4),再交換通道維度和特征圖維度的位置,最后經(jīng)過(guò)歸一化函數(shù)計(jì)算每幅特征圖的均值和方差。具體卷積模塊流程如圖2所示。
圖2 卷積模塊Fig.2 Conv block
隨著Transformer在自然語(yǔ)言處理領(lǐng)域的發(fā)展,其在計(jì)算機(jī)視覺(jué)方面也得到應(yīng)用,同時(shí)也存在很多挑戰(zhàn)。一方面視覺(jué)實(shí)體變化大,在不同場(chǎng)景下視覺(jué)Transformer 性能未必很好;另一方面圖像分辨率高、像素點(diǎn)多,Transformer基于全局自注意力的計(jì)算導(dǎo)致計(jì)算量較大。Swin Transformer(Liu等2021)基于以上問(wèn)題采用滑動(dòng)窗口的方法來(lái)實(shí)現(xiàn)局部性的自我注意力,為了解決傳統(tǒng)的Transformer都是基于全局來(lái)計(jì)算注意力的計(jì)算量大問(wèn)題,Swin Transformer則將注意力的計(jì)算限制在每個(gè)窗口內(nèi),進(jìn)而減少了計(jì)算量。利用層級(jí)設(shè)計(jì)將兩級(jí)Transformer相連,可以使模型適合不同的視覺(jué)實(shí)體。圖3顯示了Swin Transformer結(jié)構(gòu),由歸一化(layer normalization,LN)層、殘余短連接、多層感知層(multi-layer perceptron,MLP)、基于窗口的多頭自我注意力和基于移位的多頭自我注意力組成。
圖3 Swin Transformer 模塊Fig.3 Swin Transformer block
多頭自我注意力可以通過(guò)提供編碼遠(yuǎn)距離依賴(lài)或異構(gòu)交互的能力來(lái)補(bǔ)充骨干網(wǎng)絡(luò)(Cao 等,2019),與Transformer全局注意力計(jì)算方式不同的是加入了相對(duì)位置編碼,計(jì)算為
式中,Q,K,V分別表示query 矩陣、key 矩陣和value矩陣,B中的值取自偏置矩陣,F(xiàn)代表softmax 函數(shù),S代表計(jì)算權(quán)重。普通的切片注意力值計(jì)算是將其分為多個(gè)有序的窗口來(lái)分配權(quán)重,為了更好地與其他窗口進(jìn)行信息交互,在Swin Transformer 第2 階段是采用移位窗口,經(jīng)過(guò)打亂切片的特征圖可以學(xué)習(xí)到不相鄰區(qū)域之間的信息。
如圖4 所示,乳腺X 光片經(jīng)過(guò)移位窗口操作帶來(lái)的效果是窗口數(shù)增加。左邊是沒(méi)有重疊的Window Attention,右邊是將窗口進(jìn)行移位的Shift Window Attention。移位后的窗口包含了原本相鄰窗口的元素,但也帶來(lái)窗口的個(gè)數(shù)翻倍,由原本4 個(gè)窗口變成了9 個(gè)窗口。而最后計(jì)算方式是通過(guò)對(duì)特征圖移位,并給Attention 設(shè)置mask 來(lái)間接實(shí)現(xiàn)的,能在保持原有的窗口個(gè)數(shù)下實(shí)現(xiàn)結(jié)果等價(jià)。對(duì)于乳腺X光圖通過(guò)移動(dòng)方式得到9 個(gè)窗口數(shù),對(duì)每個(gè)窗口計(jì)算自注意力方式采用循環(huán)移位操作,如圖5 所示,整幅圖像分為4 部分,經(jīng)過(guò)移位左上角切片移動(dòng)到右下角,使得相鄰的部分進(jìn)行信息交互。
圖4 移位窗口的實(shí)現(xiàn)方式Fig.4 Shift window implementation
本文在編碼和解碼階段都使用兩個(gè)連續(xù)的Swin Transformer,降低了普通分割網(wǎng)絡(luò)UNet 中卷積層的局限性,使網(wǎng)絡(luò)更好地讓全局和遠(yuǎn)程語(yǔ)義信息交互,既能學(xué)習(xí)到癌癥腫塊和其他肌肉之間的不同,又能尋找自身的特征信息。在進(jìn)行不同層次特征信息提取之前,采用空洞卷積金字塔結(jié)構(gòu)ASPP(Zhao等,2017)將不同切片之間的信息融合再送入下一個(gè)Swin Transformer block。在每個(gè)階段開(kāi)始前做降采樣,用于縮小分辨率,調(diào)整通道數(shù),進(jìn)而形成層次化的設(shè)計(jì),同時(shí)也能節(jié)省一定運(yùn)算量。圖6 是ASPP 金字塔模塊結(jié)構(gòu)。該網(wǎng)絡(luò)將Swin Transformer 中的patch merging 中的全連接層替換為4 種卷積核進(jìn)行通道數(shù)相加,其中包括普通的1 × 1 卷積、padding 和dilation 為6,核大小為3 × 3 的卷積、padding 和dilation 為12,核大小為3 × 3 的卷積、padding 和dilation為18,核大小為3 × 3 的卷積,最后將這4 層的輸出進(jìn)行concat,并用1 × 1卷積層降維至給定通道數(shù),得到最終輸出。在3 × 3 的空洞卷積核中設(shè)置多個(gè)膨脹因子,目的是獲取不同尺度的感受野,實(shí)現(xiàn)自由的多尺度特征提取。在下采樣過(guò)程中,為了滿(mǎn)足分割網(wǎng)絡(luò)的輸入尺寸要求,通常采用切片的方式輸入網(wǎng)絡(luò),而每個(gè)切片在Swin Transformer 中自我注意力計(jì)算量過(guò)大,會(huì)設(shè)置不同的窗口分別計(jì)算,ASPP 就是對(duì)多個(gè)窗口空洞卷積,在輸入尺寸多變的情況下實(shí)現(xiàn)輸出固定。
原始的Transformer 應(yīng)用在自然語(yǔ)言處理領(lǐng)域,解決了長(zhǎng)距離的信息不能有效地提取和記憶,導(dǎo)致信息大量丟失和在引入Attention 之后對(duì)關(guān)系的捕捉不足而出現(xiàn)翻譯效果不理想等問(wèn)題,Transformer 引入self-attention 的機(jī)制將3 種關(guān)系全部進(jìn)行學(xué)習(xí),提出multi-head attention 機(jī)制,分別學(xué)習(xí)對(duì)應(yīng)的3 種關(guān)系,使用了全Attention 的結(jié)構(gòu);對(duì)于詞語(yǔ)的位置,Transformer 使用positional encoding 機(jī)制進(jìn)行數(shù)據(jù)預(yù)處理,增大了模型的并行性,取得了更好的實(shí)驗(yàn)效果。在本次實(shí)驗(yàn)中,不僅將Transformer 結(jié)構(gòu)與普通的卷積層之間作為模塊相連,更關(guān)注在不同采樣之間使用Transformer 來(lái)融合特征信息,高效地將兩個(gè)模塊結(jié)合,從而在模型訓(xùn)練中各自體現(xiàn)網(wǎng)絡(luò)的優(yōu)勢(shì)。之前的研究特征融合是通過(guò)簡(jiǎn)單地拼接特征來(lái)實(shí)現(xiàn)的,但特征金字塔(feature pyramid network,F(xiàn)PN)(Lin等,2017)通過(guò)從網(wǎng)絡(luò)架構(gòu)的不同層提取不同尺度的特征來(lái)進(jìn)行預(yù)測(cè),從而為多特征融合創(chuàng)建了一種新的特征金字塔方法。此外,F(xiàn)astFCN(faster fully convultional network)(Wu 等,2019)通過(guò)在卷積后組合不同大小的特征而更具語(yǔ)義。對(duì)于網(wǎng)絡(luò)來(lái)說(shuō),高級(jí)和低級(jí)特征信息是互補(bǔ)的,需要高效地結(jié)合各自的優(yōu)勢(shì)。本文還在Transformer的輸入部分引入位置編碼賦予每個(gè)切片,然后利用dropout 防止模型的過(guò)擬合,再將變換器塊添加到跳躍連接,防止編碼器部分在更豐富的全局卷積特征的情況下將特征圖分辨率降得太低。圖7 顯示了Transformer 模塊的具體實(shí)現(xiàn)過(guò)程。通過(guò)這種設(shè)計(jì),防止乳腺癌X 光圖像經(jīng)過(guò)下采樣過(guò)程像素值較高的癌癥區(qū)域信息丟失,也是為了對(duì)正常乳腺組織和非正常組織的特征差異對(duì)比,從而實(shí)現(xiàn)有效分割。
圖7 Transformer 結(jié)構(gòu)Fig.7 Transformer block
該模型中首先對(duì)輸入的數(shù)據(jù)進(jìn)行嵌入,將嵌入后的結(jié)果融入位置信息后輸入到網(wǎng)絡(luò)中,得到XL-1。輸入信息輸入到注意力層中來(lái)捕獲多維度的上下文信息,得到的張量參數(shù)經(jīng)過(guò)短連接操作與輸入信息融合,計(jì)算為
式中,M代表多頭注意力(multi-head attention,MHA)機(jī)制模塊,XL和XL-1代表Transformer模型的輸出,N和M是歸一化和多層感知機(jī)操作,式中自注意力計(jì)算為
式中,Q類(lèi)比于詢(xún)問(wèn),K類(lèi)比于索引,V類(lèi)比于回答,d是特征值,F(xiàn)代表通過(guò)softmax 函數(shù)將原始權(quán)重標(biāo)準(zhǔn)化,A是自注意力權(quán)重。
本文基線(xiàn)模型ResNet50(He 等,2016)的網(wǎng)絡(luò)結(jié)構(gòu)如圖8 所示,網(wǎng)絡(luò)中包含了49 個(gè)卷積層、1 個(gè)全連接層。該網(wǎng)絡(luò)與其他模型相比不僅能夠解決梯度消失問(wèn)題,而且具有較少的參數(shù)量和計(jì)算量。同時(shí)考慮到處理復(fù)雜的圖像信息時(shí),實(shí)驗(yàn)中加入了SE(Hu 等,2017)通道注意力機(jī)制,可以讓網(wǎng)絡(luò)聚焦于感興趣的癌癥區(qū)域,提高分類(lèi)效果。然而標(biāo)注的卷積神經(jīng)網(wǎng)絡(luò)中每個(gè)神經(jīng)元的感受野是相同的,為了使神經(jīng)元對(duì)于不同尺寸的輸入信息能夠自適應(yīng)地調(diào)整其感受野的大小,本文采用SK(Xiang 等,2019)卷積替換普通3 × 3 卷積,通過(guò)非線(xiàn)性的方法融合來(lái)自不同核的特征,進(jìn)而實(shí)現(xiàn)感受野不同尺寸的調(diào)整。在數(shù)據(jù)處理方面,本文對(duì)部分類(lèi)別較少的樣本進(jìn)行隨機(jī)翻轉(zhuǎn)和裁剪,再進(jìn)行所有的數(shù)據(jù)歸一化操作。同時(shí)還進(jìn)行了標(biāo)簽軟化,將真實(shí)的硬標(biāo)簽平滑處理以及將損失函數(shù)分配不同的注意力權(quán)重來(lái)平衡正負(fù)樣本。在學(xué)習(xí)率衰減方式上,本文對(duì)比了隨機(jī)梯度下降和高斯誤差調(diào)度器。
圖8 ResNet50網(wǎng)絡(luò)結(jié)構(gòu)Fig.8 ResNet50 network structure
SE 模塊主要是由壓縮和激勵(lì)組成,在輸入圖像的通道位置上賦予一定的注意力權(quán)重,克服卷積運(yùn)算局部感受野和通道所占的重要性不同帶來(lái)的缺點(diǎn),借助于卷積運(yùn)算實(shí)現(xiàn)全局提取特征。SE 模塊結(jié)構(gòu)如圖9所示。
圖9 SE網(wǎng)絡(luò)結(jié)構(gòu)Fig.9 SE network architecture
與SE 模塊相同的是,SK 也是通道注意力,如圖10所示,但是生成的注意力權(quán)重方式有差異,實(shí)現(xiàn)對(duì)不同尺寸的輸入特征自適應(yīng)調(diào)整感受野大小。在加入模型中,SK卷積是通過(guò)替換普通的卷積使網(wǎng)絡(luò)在訓(xùn)練時(shí)選擇合適的卷積尺寸,而SE則通過(guò)給予通道權(quán)重。SK 主要分為分割、融合和選擇操作(Xiang 等,2019)。
圖10 SK網(wǎng)絡(luò)結(jié)構(gòu)Fig.10 SK network architecture
本文在分割結(jié)果數(shù)據(jù)集上進(jìn)行多模型對(duì)比,以ResNet50 為基線(xiàn)模型,然后添加SK 和SE 注意力方法來(lái)對(duì)比實(shí)驗(yàn)指標(biāo),SK 卷積主要在每個(gè)BottleNeck替換3 × 3卷積,將每層相同大小感受野的卷積層轉(zhuǎn)化為神經(jīng)元對(duì)于不同尺寸的輸入信息進(jìn)行自適應(yīng)調(diào)整感受野大?。R吉權(quán) 等,2022),從而在卷積層可以提取更多的圖像特征。通過(guò)在此基礎(chǔ)上增加注意力SE,同時(shí)引入高斯誤差梯度下降法、標(biāo)簽平滑、部分?jǐn)?shù)據(jù)增強(qiáng)技術(shù)和損失函數(shù)賦予權(quán)重4 種方法來(lái)提高模型的精度。
INbreast 數(shù)據(jù)庫(kù)是一個(gè)乳腺攝影數(shù)據(jù)庫(kù),其中的圖像是從大學(xué)醫(yī)院(葡萄牙波爾圖的乳腺癌中心,圣若昂醫(yī)院)的乳腺癌中心獲取的。INbreast 共有115 例(410 幅圖像),其中90 例來(lái)自雙乳女性(每例4 幅圖像),而25 例來(lái)自乳房切除術(shù)患者(每例2幅圖像)。包括幾種類(lèi)型的病變(腫塊、鈣化、不對(duì)稱(chēng)和變形),專(zhuān)家還以XML(extensible markup language)格式提供了精確的輪廓。像素尺寸為70 mm,對(duì)比度分辨率為14位。圖像矩陣是3 328 × 4 084像素或2 560 × 3 328 像素,圖像以DICOM(digitalimaging and communications in medicine)格式保存。數(shù)據(jù)庫(kù)包括正常乳房X 光片、腫塊乳房X 光圖、鈣化乳房X 光照片、乳房變形、不對(duì)稱(chēng)和多個(gè)發(fā)現(xiàn)的圖像,如圖11所示。
圖11 INbreast數(shù)據(jù)庫(kù)中的不同類(lèi)型所占的比例餅狀圖Fig.11 Pie chart of the proportion of different types in the INbreast database
良性鈣化大于與惡性腫瘤相關(guān)的鈣化,通常較粗糙,為圓形緣光滑,更容易看到。與惡性腫瘤相關(guān)的鈣化通常很小。結(jié)構(gòu)畸變被定義為正常乳房X線(xiàn)攝影模式的局部中斷,通常表現(xiàn)為星形畸變,沒(méi)有明顯的腫塊。不對(duì)稱(chēng)性缺乏腫塊的凸?fàn)钔膺吔纾梢杂? 種方式表示:大小不對(duì)稱(chēng)、局部不對(duì)稱(chēng)和全局不對(duì)稱(chēng)。對(duì)所有數(shù)據(jù)集先進(jìn)行DCOM 到PNG 的格式轉(zhuǎn)化,然后作為模型訓(xùn)練的原圖,根據(jù)其提供的不同類(lèi)型癌癥分割圖為標(biāo)簽,同時(shí)讀取XML 文件以確定每個(gè)癌癥區(qū)域的精準(zhǔn)位置。為了驗(yàn)證模型的有效性和在訓(xùn)練過(guò)程中是過(guò)擬合還是欠擬合,在實(shí)驗(yàn)中對(duì)數(shù)據(jù)集按7∶3劃分為訓(xùn)練集和測(cè)試集。圖12顯示了該數(shù)據(jù)集中的一部分乳腺癌X光圖像。
圖12 INbrest部分乳腺癌X光圖Fig.12 INbrest partial breast cancer X-ray
在分割和分類(lèi)實(shí)驗(yàn)中,本文使用不同的評(píng)價(jià)指標(biāo)來(lái)衡量網(wǎng)絡(luò)模型的性能,同時(shí)與其他相關(guān)模型進(jìn)行對(duì)比。主要評(píng)價(jià)指標(biāo)為Dice 系數(shù)、準(zhǔn)確率、精確率、召回率和混肴矩陣。在評(píng)價(jià)指標(biāo)中有4 個(gè)主要變量,TP(true positives)是真正類(lèi)、TN(true negatives)是真負(fù)類(lèi)、FN(false negatives)是假負(fù)類(lèi)、FP(false positive)是假正類(lèi)。
醫(yī)學(xué)圖像研究中最常用的指標(biāo)是骰子系數(shù)(Dice),是一種集合相似度度量函數(shù),用于確定兩個(gè)樣本的相似程度,在醫(yī)學(xué)圖像分割上它從邊界獲取細(xì)粒度信息至關(guān)重要,其計(jì)算方法為
準(zhǔn)確率可以衡量預(yù)測(cè)正確的正負(fù)樣本占總樣本的比例,具體為
為了解決樣本不平衡性使得準(zhǔn)確率不能完全評(píng)價(jià)模型的優(yōu)劣性的局限,本文采用部分?jǐn)?shù)據(jù)增強(qiáng)方式使準(zhǔn)確率具有代表性,在多分類(lèi)中準(zhǔn)確率可以代表模型對(duì)所有類(lèi)別的整體評(píng)價(jià)。
同時(shí),本文將交并比(IoU)作為分割評(píng)價(jià)標(biāo)準(zhǔn),對(duì)于圖像分割而言是計(jì)算預(yù)測(cè)掩碼和真實(shí)掩碼之間的交并比,具體為
為了衡量像素點(diǎn)集之間的相似度,本文采用雙向豪斯距離,式(9)中A和B分別代表兩組點(diǎn)集合,為了排除離群點(diǎn)之間的影響,使用95%分位最大值距離作為評(píng)價(jià)指標(biāo),用HD95表示,其計(jì)算式為
在分類(lèi)模型中,本文還將精確率和召回率用來(lái)衡量模型的有效性。精確率指當(dāng)模型預(yù)測(cè)為正樣本,實(shí)際為正樣本的概率,計(jì)算式為
召回率是當(dāng)真實(shí)標(biāo)簽為正樣本,預(yù)測(cè)為正樣本所占的比例,計(jì)算為
2.3.1 腫瘤區(qū)域分割
對(duì)乳腺癌腫瘤區(qū)域分割的過(guò)程中,實(shí)驗(yàn)中將轉(zhuǎn)化的圖像格式和二值化標(biāo)簽送入分割網(wǎng)絡(luò),通過(guò)4次采樣圖像分辨率減少和通道數(shù)成倍增加,網(wǎng)絡(luò)特征圖從輪廓、形狀等淺層特征到紋理、腫瘤的部位,編碼階段以STA 網(wǎng)絡(luò)結(jié)構(gòu)作為提取特征圖的主要方法,關(guān)注腫瘤的全局特征信息,以增加卷積層的感受野,獲取更多的局部自我關(guān)注。在上采樣過(guò)程中還原圖像的分辨率,與編碼階段同層次的特征信息進(jìn)行交融送入CST(convolution and Swin Transformer)模塊中,每層輸出的特征圖都可以作為分割圖像的結(jié)果,因此本文利用多尺度融合策略避免重要信息的丟失。最后的腫瘤分割效果可以準(zhǔn)確地對(duì)X光圖像區(qū)域進(jìn)行分割,同時(shí)與其他分割模型UNet、UNet++、Res18_UNet、MultiRes_UNet(Ibtehaz 和Rahman,2020)、Dense_UNet(Kaku 等,2019)5 種網(wǎng)絡(luò)進(jìn)行對(duì)比,分割效果圖更準(zhǔn)確,邊緣輪廓更清楚,如圖13所示。
圖13 不同模型分割對(duì)比圖Fig.13 Comparison of segmentation results of different models((a)input;(b)our;(c)MultiRes_UNet;(d)Res18_UNet;(e)UNet++;(f)Dense_UNet;(g)UNet;(h)ground truth)
為了網(wǎng)絡(luò)訓(xùn)練更加魯棒,模型參數(shù)更加準(zhǔn)確,本文在網(wǎng)絡(luò)模型中設(shè)置的訓(xùn)練輪數(shù)為1 500,但大多數(shù)模型在前1 000輪就已經(jīng)取得比較好的分割結(jié)果,后續(xù)的訓(xùn)練結(jié)果反而變差。模型的其他參數(shù)都保持一致,其中batch_size 為4,無(wú)監(jiān)督,學(xué)習(xí)率為0.001,下降方式為余弦函數(shù)圖像下降法,優(yōu)化器為隨機(jī)梯度下降法。輸入數(shù)據(jù)做統(tǒng)一預(yù)處理,主要是歸一化、隨機(jī)旋轉(zhuǎn)90 度、上下和水平翻轉(zhuǎn)、亮度增強(qiáng)等數(shù)據(jù)增強(qiáng)方法,損失函數(shù)為交叉熵。本文首先對(duì)比了不同模型在INbreast 數(shù)據(jù)集上訓(xùn)練集和測(cè)試集的結(jié)果,以7∶3 劃分總的數(shù)據(jù)集,以IoU 為指標(biāo)可以看出,訓(xùn)練數(shù)據(jù)在模型中表現(xiàn)良好,但在測(cè)試集上IoU 與訓(xùn)練集相差10%~15%,如表1所示。
表1 不同模型IoU對(duì)比Table 1 Comparison of IoU among different models
經(jīng)過(guò)多次實(shí)驗(yàn)得出,指標(biāo)的差異性原因是模型的過(guò)擬合,如圖14 所示,模型的過(guò)擬合問(wèn)題與模型結(jié)構(gòu)關(guān)系不是很明顯,所以重要原因是模型設(shè)置的參數(shù)和優(yōu)化過(guò)擬合的方法。本文在此基礎(chǔ)上改變學(xué)習(xí)率的變化方式,以0.1為初始值,設(shè)置每10輪指標(biāo)未得到提升,就開(kāi)始學(xué)習(xí)率衰減,使用的衰減方式為ERF下降法,同時(shí)在計(jì)算損失函數(shù)時(shí),輸出像素值利用標(biāo)簽軟化的方式將其不局限于0 和1,縮小損失值,在數(shù)據(jù)增強(qiáng)上增加多種方法來(lái)減少過(guò)擬合現(xiàn)象。
圖14 不同模型在訓(xùn)練集和測(cè)試集上IoU對(duì)比Fig.14 Comparison of IoU among different models in training set and test set
利用上述方法解決過(guò)擬合問(wèn)題,本文在不同模型上重新訓(xùn)練,以Dice 和IoU 作為評(píng)價(jià)標(biāo)準(zhǔn),結(jié)果如表2所示。可以看出,TransAS-UNet相比于其他5種模型,IoU 指標(biāo)有4%~6%的提高,達(dá)到95.58%,Dice系數(shù)為93.45%,在降低HD95方面相比于其他模型也具有優(yōu)勢(shì)。從實(shí)驗(yàn)中可以看出,本文方法能夠取得最佳結(jié)果,利用Swin-Transformer、金字塔結(jié)構(gòu)ASPP、將Transfomer 作為同層之間的短連接以及構(gòu)建多尺度融合策略能促進(jìn)乳腺癌腫瘤區(qū)域的分割。本文方法優(yōu)于對(duì)比方法。
表2 不同模型測(cè)試集上的指標(biāo)對(duì)比Table 2 Comparison of indicators of different models on test set
2.3.2 實(shí)驗(yàn)對(duì)比
為了探究視覺(jué)大模型SAM(segment anything model)在乳腺癌X 光數(shù)據(jù)集的有效性,本文將其放在同等設(shè)備環(huán)境中進(jìn)行模擬,結(jié)果如表3 所示??梢园l(fā)現(xiàn),IoU及其他指標(biāo)不如TransASwin-UNet模型,說(shuō)明SAM 模型(Kirillov 等,2023)在涉及小目標(biāo)分割上存在弊端,同時(shí)對(duì)于尚未見(jiàn)過(guò)的乳腺癌X 光圖像缺少泛化能力。
表3 提出的模型與大模型SAM實(shí)驗(yàn)效果對(duì)比Table 3 Comparison of experiment results between the proposed model and the large model SAM
同時(shí),為了進(jìn)一步驗(yàn)證模型的有效性和泛化能力,選用MIAS 乳腺癌X 光數(shù)據(jù)集進(jìn)行對(duì)比實(shí)驗(yàn),該數(shù)據(jù)集包含 161 名患者的左右乳房圖像,由 322 幅圖像組成,主要包含3種類(lèi)型:正常 208 個(gè)、良性63個(gè)和惡性(異常)51 個(gè)。選用在INbreast數(shù)據(jù)集上效果較好的UNet、Res18_UNet、Dense_UNet 3 種模型進(jìn)行對(duì)比,最終對(duì)比實(shí)驗(yàn)結(jié)果如表4 所示。由實(shí)驗(yàn)結(jié)果可以看出,本文TransAS-UNet 模型在提升IoU 和減少HD95距離上效果明顯,說(shuō)明該算法在乳腺癌數(shù)據(jù)集上具有良好的分割性能,通過(guò)結(jié)合局部信息重要特征的關(guān)注和全局信息之間的交互可以實(shí)現(xiàn)腫瘤的有效分割。
表4 在MIAS數(shù)據(jù)集上實(shí)驗(yàn)效果對(duì)比Table 4 Comparison of experimental effects on MIAS dataset
2.3.3 腫瘤類(lèi)型識(shí)別
經(jīng)過(guò)分割模型得到較準(zhǔn)確的癌癥區(qū)域二值圖,根據(jù)INbreast 數(shù)據(jù)集介紹可以找出每幅癌癥圖像所屬的類(lèi)別,本文將其分為正常、腫塊、變形和鈣化,對(duì)每個(gè)類(lèi)別給予標(biāo)簽,再送入分類(lèi)網(wǎng)絡(luò)(阮旭凌 等,2022)。本文采用的分類(lèi)模型以ResNet50 為基線(xiàn)模型,通過(guò)在此基礎(chǔ)上增加兩種不同的注意力SE、SK,SK 卷積主要在每個(gè)BottleNeck 上替換3 × 3 卷積,將每層相同大小感受野的卷積層轉(zhuǎn)化為神經(jīng)元,對(duì)于不同尺寸的輸入信息自適應(yīng)調(diào)整感受野大小,從而在卷積層可以提取更多的圖像特征;而SE 屬于通道注意力,可以在像素值輸出之前對(duì)各個(gè)通道賦予權(quán)重。同時(shí)本文引入了高斯誤差梯度下降法、標(biāo)簽平滑和部分?jǐn)?shù)據(jù)增強(qiáng)技術(shù)3 種方法來(lái)提高模型的精度。高斯誤差梯度下降法解決隨機(jī)梯度在梯度下降時(shí)具有隨機(jī)性的問(wèn)題,每次迭代的損失函數(shù)雖然朝著全局最優(yōu)但并不是局部最優(yōu),而我們既要尋找全局最優(yōu)又要局部最優(yōu);標(biāo)簽平滑是利用軟標(biāo)簽解決預(yù)測(cè)錯(cuò)誤導(dǎo)致誤差大、增加模型的泛化能力和解決過(guò)擬合問(wèn)題;部分?jǐn)?shù)據(jù)增強(qiáng)技術(shù)緩解四分類(lèi)中樣本不平衡,減少少量樣本的預(yù)測(cè)誤差。
本文的實(shí)驗(yàn)結(jié)果在INbrest 公開(kāi)數(shù)據(jù)集上采用SK-SE-ResNet50 準(zhǔn)確率達(dá)到95.24%,精確度達(dá)到94.80%,召回率為95.80%。由表5 可見(jiàn),增加注意力可以促進(jìn)網(wǎng)絡(luò)更快提取特征來(lái)區(qū)分不同類(lèi)別的差異。
表5 不同模型分類(lèi)指標(biāo)對(duì)比Table 5 Comparison of classification indexes of different models /%
本文提出了一種新的基于UNet 和Transformer的TransAS-UNet 結(jié)構(gòu)的乳腺癌區(qū)域分割和分類(lèi)方法,該結(jié)構(gòu)主要分為腫瘤區(qū)域的分割和腫瘤類(lèi)型的識(shí)別。在分割過(guò)程中類(lèi)比于UNet結(jié)構(gòu)模型,將Swin Transformer和ASPP模塊替換普通的卷積層,利用移位窗口和多頭注意力達(dá)到圖像切片內(nèi)部的特征信息交融和不相鄰區(qū)域之間的信息互補(bǔ),同時(shí)ASPP結(jié)構(gòu)可以在增加感受野的情況下達(dá)到局部信息的自我關(guān)注。在不同層之間本文引入Transformer結(jié)構(gòu)來(lái)關(guān)聯(lián)信息,防止在下采樣卷積中淺層重要信息的丟失,最終的體系結(jié)構(gòu)不僅繼承了Transformer在學(xué)習(xí)全局語(yǔ)義關(guān)聯(lián)方面的優(yōu)勢(shì),還使用了不同級(jí)別的特征,以使模型保留更多的語(yǔ)義和更多的細(xì)節(jié)。分割模型得到的二值化圖像作為分類(lèi)網(wǎng)絡(luò)的輸入數(shù)據(jù)集,本文可以實(shí)現(xiàn)不同類(lèi)別的乳腺癌腫瘤的識(shí)別,該分類(lèi)模型以ResNet50 為基礎(chǔ),添加多類(lèi)型注意力模塊和防止過(guò)擬合操作,SE、SK兩種注意力可以?xún)?yōu)化網(wǎng)絡(luò)參數(shù),使其只關(guān)注分割區(qū)域差異,從而提高模型的效率。
本文模型在乳腺癌X 光數(shù)據(jù)集INbreast 上實(shí)現(xiàn)腫塊的準(zhǔn)確分割,并與UNet、UNet++、Res18_UNet、MultiRes_UNet、Dense_UNet 5種分割結(jié)構(gòu)進(jìn)行對(duì)比,在同一個(gè)參數(shù)環(huán)境中,IoU值達(dá)到95.58%,Dice系數(shù)為93.45%,與其他的分割模型相比提高了4%~6%,本文將分割的腫塊進(jìn)行四分類(lèi),Accuracy 值達(dá)到95.24%。
在未來(lái),將聚焦于實(shí)現(xiàn)乳腺癌分割和分類(lèi)網(wǎng)絡(luò)一體化,網(wǎng)絡(luò)參數(shù)和結(jié)構(gòu)可以不用二階段分步訓(xùn)練,提高網(wǎng)絡(luò)的效率。同時(shí),將在分割數(shù)據(jù)集預(yù)處理上采用ROI,這樣可以避免無(wú)用特征信息的多次提取。為了驗(yàn)證模型的廣泛性,后面的工作也會(huì)在其他癌癥數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。相信利用深度學(xué)習(xí)技術(shù)可以實(shí)現(xiàn)醫(yī)學(xué)上更多難關(guān)突破,減少醫(yī)生的工作量,給臨床帶來(lái)更大的價(jià)值。
中國(guó)圖象圖形學(xué)報(bào)2024年3期