周濤,董雅麗,劉珊,陸惠玲,馬宗軍,侯森寶,邱實(shí)
(1 北方民族大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,銀川 750021)
(2 北方民族大學(xué)圖像圖形智能處理國(guó)家民委重點(diǎn)實(shí)驗(yàn)室,銀川 750021)
(3 寧夏醫(yī)科大學(xué) 理學(xué)院,銀川 750004)
(4 寧夏醫(yī)科大學(xué)總醫(yī)院骨科,銀川 750004)
(5 中國(guó)科學(xué)院西安光學(xué)精密機(jī)械研究所,西安 710119)
肺癌是一種常見且惡性程度高的癌癥[1],5年生存率僅為18%[2],嚴(yán)重威脅著人們的健康。醫(yī)學(xué)影像技術(shù)[3]對(duì)肺部腫瘤的臨床治療有重要意義,其無創(chuàng)的成像方式被廣泛應(yīng)用在腫瘤診斷、分期、療效評(píng)估等多個(gè)階段,然而目前醫(yī)學(xué)圖像病灶分割仍存在一些挑戰(zhàn):1)病灶勾畫依賴有經(jīng)驗(yàn)的臨床醫(yī)生手動(dòng)分割,人體復(fù)雜的解剖結(jié)構(gòu)導(dǎo)致該工作費(fèi)時(shí)費(fèi)力;2)肺部腫瘤圖像對(duì)比度低、病灶大小和形狀不一、病灶位置多變,導(dǎo)致精準(zhǔn)分割困難;3)肺部腫瘤圖像數(shù)據(jù)類別分布不平衡,存在大量背景信息干擾。
醫(yī)學(xué)圖像分割方法分為傳統(tǒng)方法和深度學(xué)習(xí)方法,傳統(tǒng)分割方法[4-6]依賴參數(shù)的設(shè)定,對(duì)初始輪廓敏感,對(duì)復(fù)雜形狀和對(duì)比度低的圖像分割效果不理想。以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNNs)為代表的深度學(xué)習(xí)方法在計(jì)算機(jī)視覺中迅速發(fā)展。醫(yī)學(xué)圖像分割要求分割結(jié)果更加準(zhǔn)確,然而數(shù)據(jù)集少、缺乏標(biāo)簽等特點(diǎn)給醫(yī)學(xué)圖像分割帶來了困難。2015年,RONNEBERGER O[7]提出網(wǎng)絡(luò)架構(gòu)對(duì)稱的U-Net,在少量醫(yī)學(xué)數(shù)據(jù)的情況下仍能獲得良好的分割結(jié)果,應(yīng)用于多種醫(yī)學(xué)圖像分割場(chǎng)景[8-9]。黃鴻[10]提出基于U-Net++改進(jìn)的肺結(jié)節(jié)分割算法,從網(wǎng)絡(luò)不同深度提取語(yǔ)義信息,然后通過權(quán)重聚合模塊自適應(yīng)學(xué)習(xí)網(wǎng)絡(luò)不同層的特征權(quán)重。ZHANG J[11]提出LCU-Net(Low-cost U-Net)用于環(huán)境微生物圖像分割,網(wǎng)絡(luò)使用Inception 模塊增大感受野,針對(duì)改進(jìn)U-Net 的分割結(jié)果使用密集條件隨機(jī)場(chǎng)進(jìn)行后處理。但是U-Net 網(wǎng)絡(luò)存在三個(gè)問題:1)U-Net 網(wǎng)絡(luò)對(duì)每一幅特征圖使用統(tǒng)一的參數(shù),對(duì)于大小不一、形狀復(fù)雜的病灶,網(wǎng)絡(luò)可能出現(xiàn)空間感知不高,分割性能下降;2)U-Net 未充分考慮不同通道對(duì)特征的表達(dá)能力,影響模型的魯棒性和分割性能;3)大多數(shù)多編碼器U-Net[12-13]通過提取單模態(tài)醫(yī)學(xué)圖像目標(biāo)切片的信息,提高網(wǎng)絡(luò)分割性能,但是未充分利用不同模態(tài)醫(yī)學(xué)圖像對(duì)病灶的特征表達(dá)能力。
針對(duì)以上問題,本文提出基于多編碼器混合注意力機(jī)制的U-Net 網(wǎng)絡(luò)(Multi-Encoder Attention UNet,MEAU-Net),將病灶的多個(gè)模態(tài)醫(yī)學(xué)圖像同時(shí)輸入到網(wǎng)絡(luò);使用混合注意力機(jī)制,其中通道注意力機(jī)制使得網(wǎng)絡(luò)關(guān)注重要的特征通道,空間注意力機(jī)增強(qiáng)網(wǎng)絡(luò)對(duì)病灶部位的聚焦能力;最后使用多尺度特征聚合模塊,對(duì)網(wǎng)絡(luò)解碼階段得到尺度不同的特征圖聚合,實(shí)現(xiàn)不同尺度特征的充分利用。
基于U-Net 提出多編碼器混合注意力機(jī)制網(wǎng)絡(luò)MEAU-Net。網(wǎng)絡(luò)包括提取多模態(tài)醫(yī)學(xué)圖像特征的編碼器、還原病灶圖像語(yǔ)義特征的解碼器,在跳躍連接部分添加混合注意力機(jī)制,在解碼路徑使用多尺度特征聚合塊。正電子發(fā)射斷層掃描圖像(Positron Emission Tomography,PET)圖像提供病灶功能信息,計(jì)算機(jī)斷層掃描成像(Computed Tomography,CT)圖像提供病灶的解剖信息,正電子發(fā)射計(jì)算機(jī)斷層顯像(Positron Emission Tomography/Computed Tomography,PET/CT)結(jié)合兩者的優(yōu)點(diǎn),多模態(tài)醫(yī)學(xué)圖像包含的病灶信息比單模態(tài)圖像更豐富,因此網(wǎng)絡(luò)同時(shí)向編碼器中輸入PET/CT、PET 和CT 的感興趣區(qū)域(Region of Interest,ROI)圖像提取三種模態(tài)圖像病灶特征。在網(wǎng)絡(luò)跳躍連接部分,使用混合注意力機(jī)制,包括空間注意力機(jī)制和通道注意力機(jī)制。受文獻(xiàn)[14]啟發(fā),對(duì)PET/CT 和CT 圖像特征使用空間注意力機(jī)制,強(qiáng)調(diào)特征圖中病灶區(qū)域,抑制無關(guān)背景。使用通道注意力機(jī)制對(duì)PET/CT、CT 和PET 三個(gè)分支提取對(duì)應(yīng)通道的權(quán)重值,突出網(wǎng)絡(luò)中特征圖重要通道。針對(duì)解碼路徑得到精細(xì)程度不同的多尺度特征圖,使用多尺度特征聚合塊充分利用病灶不同尺度特征圖,從而實(shí)現(xiàn)對(duì)圖像病灶的精準(zhǔn)分割。
MEAU-Net 編碼路徑包括PET/CT、PET 和CT 三個(gè)分支,其中CT 和PET/CT 分支由四個(gè)下采樣塊組成,PET 分支由三個(gè)下采樣塊組成。每一個(gè)下采樣塊包括兩個(gè)卷積塊和最大池化操作。卷積塊包含3×3Same 卷積(指輸入與輸出特征圖尺寸相同),批歸一化(Batch Normalization,BN)和激活函數(shù)ReLU,卷積步長(zhǎng)和填充均為1。通過上述兩次卷積之后,使用2×2 最大池化進(jìn)行下采樣。網(wǎng)絡(luò)最后一層將PET/CT 和CT 分支的特征進(jìn)行疊加,然后使用1×1 卷積將維度降低到1 024,將降維后的特征圖傳輸?shù)浇獯a路徑。解碼路徑由四個(gè)上采樣塊組成,每個(gè)上采樣塊由與編碼路徑一致的兩個(gè)卷積塊、一個(gè)2×2 轉(zhuǎn)置卷積組成。在跳躍連接部分,將經(jīng)過混合注意力機(jī)制的特征圖輸入到解碼路徑。針對(duì)解碼路徑得到不同尺度特征,使用多尺度特征聚合塊對(duì)跨尺度的特征進(jìn)行聚合,最終輸出分割結(jié)果。圖1 為MEAU-Net 網(wǎng)絡(luò)架構(gòu)。
圖1 MEAU-Net 網(wǎng)絡(luò)架構(gòu)Fig.1 MEAU-Net network architecture
MEAU-Net 網(wǎng)絡(luò)基于編碼器和解碼器兩個(gè)部分,編碼器用于捕獲PET/CT、PET 和CT 圖像的低級(jí)特征,每個(gè)編碼塊包括兩次3×3 卷積操作、BN 和ReLU。過程表示為
解碼器通過上采樣和跳躍連接操作逐步恢復(fù)圖像的空間信息,網(wǎng)絡(luò)拼接編碼器通過混合注意力機(jī)制的特征和解碼器后一層的特征進(jìn)行上采樣?;旌献⒁饬C(jī)制使網(wǎng)絡(luò)關(guān)注在圖像病灶部分和重要通道,將編碼器對(duì)應(yīng)層的PET/CT、PET、CT 三個(gè)分支的特征經(jīng)過空間和通道注意力機(jī)制輸入到解碼器,參與網(wǎng)絡(luò)的上采樣操作。上采樣操作表示為
式中,U(·)表示兩次卷積操作和轉(zhuǎn)置卷積操作,φl(shuí)-1表示網(wǎng)絡(luò)解碼器l?1 層的特征圖,+表示特征拼接,A(·)表示混合注意力機(jī)制操作。編碼器分別包含PET、PET/CT 和CT 三個(gè)分支的編碼卷積塊。解碼器共四層,每一層包括上采樣塊和編碼器對(duì)應(yīng)層特征。
網(wǎng)絡(luò)跳躍連接引入空間注意力機(jī)制和通道注意力機(jī)制,對(duì)重要相關(guān)特征施加更多權(quán)重,允許網(wǎng)絡(luò)專注于輸入的特定部分,而不是輸入每個(gè)特征。針對(duì)不同通道和空間特征對(duì)分割任務(wù)的不同貢獻(xiàn),對(duì)其分配不同的權(quán)重。
1.2.1 空間注意力機(jī)制
使用空間注意力機(jī)制聚焦特征圖中病灶部分,抑制背景等無關(guān)信息。PET 成像技術(shù)對(duì)高代謝的組織和病灶呈現(xiàn)高亮信號(hào),存在空間分辨率低的問題,不能提供準(zhǔn)確的病灶邊緣。所以空間注意力機(jī)制使用PET/CT 和CT 兩種醫(yī)學(xué)圖像。算法偽代碼(算法1)表示為
?
首先對(duì)輸入的兩種特征圖進(jìn)行疊加,分別對(duì)其平均池化和最大池化,平均池化對(duì)肺部病灶圖像去噪,最大池化突出醫(yī)學(xué)圖像中病灶部分;然后拼接兩種池化之后的特征圖,對(duì)拼接后的特征圖使用3×3 卷積操作,使用sigmoid 將特征值壓縮到0 到1 之間,疊加的特征圖與sigmoid 后的權(quán)重值相乘,最后相乘后的特征圖與初始特征圖疊加,圖2 為空間注意力機(jī)制示意圖。
圖2 空間注意力機(jī)制Fig.2 Spatial attention mechanism
空間注意力機(jī)制具體表示為
式中,F(xiàn)表示操作的特征圖,SA(·)表示空間注意力機(jī)制操作和分別為當(dāng)前l(fā)層的PET/CT 和CT 特征圖,AvgPool 表示平均池化,MaxPool 表示最大池化,σ表示sigmoid 操作,⊕表示特征圖疊加。
1.2.2 通道注意力機(jī)制
MEAU-Net 通過跳躍連接將編碼路徑特征拼接到解碼路徑,對(duì)編碼路徑三種特征進(jìn)行通道注意力很有必要。使用通道注意力機(jī)制對(duì)來自編碼器的三種模態(tài)特征圖進(jìn)行重要通道加權(quán),對(duì)重要的通道分配更多的權(quán)重。通道注意力機(jī)制偽代碼(算法2)表示為
PET/CT、CT 和PET 病灶圖像提供的病灶信息不同,由于PET 圖像反映病灶代謝信息,CT 圖像包含豐富的病灶解剖信息,首先將來自編碼路徑的CT 特征圖與PET 特征圖疊加,將疊加之后的特征圖與PET/CT 特征圖拼接。為了保留特征圖中更多信息,分別使用平均池化和最大池化對(duì)拼接的特征圖處理得到兩個(gè)1×1×C權(quán)重值。接著使用由兩個(gè)全連接層和ReLU 組成多層感知機(jī)(Multi-Layer Perceptron,MLP),其中第一個(gè)全連接層有C/3 個(gè)神經(jīng)元,連接ReLU,第二個(gè)全連接層有C個(gè)神經(jīng)元。最后將MLP 得到的兩個(gè)結(jié)果進(jìn)行和操作,經(jīng)過Sigmoid 得到α,將α與χl相乘之后再疊加。圖3 為通道注意力機(jī)制示意圖。
圖3 通道注意力機(jī)制Fig.3 Channel attention mechanism
通道注意力機(jī)制可表示為
式中,CA(·)表示通道注意力機(jī)制。最后將空間注意力機(jī)制的特征圖與通道注意力的特征圖相疊加,即為混合注意力機(jī)制的特征圖,輸入到對(duì)應(yīng)層的解碼器中?;旌献⒁饬杀硎緸?/p>
網(wǎng)絡(luò)解碼階段得到尺度不同的特征圖,這些特征圖包含編碼路徑的低級(jí)特征和解碼路徑的語(yǔ)義特征。由于不同尺度得到的特征圖大小不同,通過上采樣放大的特征圖的像素相關(guān)性是不同的,直接對(duì)放大的特征圖處理可能會(huì)丟失信息。因此,受文獻(xiàn)[15]啟發(fā),使用多尺度特征聚合(Multi-Scale Feature Aggregation,MFA)模塊,模塊示意圖如圖4所示。首先,使用雙線性插值將不同尺度特征圖放大到原圖像50 pixel×50 pixel大小,然后使用1×1 卷積將四個(gè)尺度特征分別壓縮為16,接著將其拼接,然后進(jìn)行平均池化和MLP 得到通道系數(shù)α,即
圖4 多尺度特征聚合塊Fig.4 Multi-scale feature aggregation block
通道系數(shù)與拼接的特征圖相乘之后進(jìn)行3×3 卷積、ReLU 和1×1 卷積、Sigmoid,得到系數(shù)β,即
最后使用殘差連接將特征連接起來。具體過程表示為
CT 是診斷腫瘤工具之一,它能夠反映病灶的解剖信息。然而CT 對(duì)于腫瘤微小病灶和原發(fā)灶的檢出率低,容易導(dǎo)致漏診。腫瘤組織相比正常組織生長(zhǎng)迅速、代謝旺盛,PET 利用這些特點(diǎn)將示蹤劑注入人體內(nèi)使得標(biāo)記物在病灶內(nèi)聚集。PET/CT 將功能成像PET 和解剖成像CT 兩種成像技術(shù)相結(jié)合,綜合后的圖像將病灶的解剖信息和功能信息反映在同一幅影像上,得到腫瘤的位置、形態(tài)、密度、代謝信息和大小。從而達(dá)到“1+1>2”的效果,得到更為準(zhǔn)確的病灶信息,實(shí)現(xiàn)對(duì)疾病的“定位”、“定性”、“定量”、“定期”。18F FDG PET/CT 對(duì)肺癌的治療至關(guān)重要,其能無創(chuàng)地確定轉(zhuǎn)移病灶和預(yù)測(cè)腫瘤特征[16],廣泛應(yīng)用于肺部腫瘤的良惡性診斷[17]、分期[18]、預(yù)后評(píng)估[19]和治療方案制定[20]的決策等。如圖5 所示CT 圖像中肉眼很難分辨病灶和正常組織的密度差異,而PET/CT 圖像中病灶代謝旺盛,呈高亮,因此多模態(tài)醫(yī)學(xué)圖像可以更好地定位病灶,識(shí)別病灶邊緣。
圖5 CT、PET/CT 和PET 圖像Fig.5 CT,PET/CT and PET image
選用2018年1月-2019年6月在寧夏某三甲醫(yī)院核醫(yī)學(xué)科進(jìn)行PET/CT 全身檢查的90 例肺部腫瘤臨床患者,包括女性32 例,男性58 例。獲取患者已配準(zhǔn)的PET/CT、PET 和CT 二維肺部腫瘤圖像,患者年齡范圍為26~82 歲,平均年齡為60 歲。PET/CT、PET 和CT 圖像各90 張,該數(shù)據(jù)集標(biāo)簽均由臨床醫(yī)生參考肺部多模態(tài)醫(yī)學(xué)圖像后手動(dòng)勾畫。經(jīng)過旋轉(zhuǎn)和鏡像等數(shù)據(jù)增廣處理,最終三種模態(tài)圖像數(shù)據(jù)集樣本個(gè)數(shù)分別為1 026 張,其中909 張劃分為訓(xùn)練集,117 張劃分為測(cè)試集。肺部醫(yī)學(xué)圖像存在病灶和背景分布不平衡問題,網(wǎng)絡(luò)容易學(xué)習(xí)到圖像大量背景信息,導(dǎo)致分割結(jié)果不準(zhǔn)確。肺部病灶由于其本身的成像特點(diǎn)給圖像分割帶來一定的困難,如人體解剖結(jié)構(gòu)復(fù)雜,組織間相互重疊導(dǎo)致病灶邊緣模糊[21]。因此對(duì)獲取的醫(yī)生標(biāo)注CT、PET 和PET/CT 二維切片尺寸為356 pixel×356 pixel,使用Hough 變換[22]對(duì)醫(yī)生標(biāo)注的肺部CT 圖像進(jìn)行直線檢測(cè)獲取感興趣區(qū)域,感興趣區(qū)域大小為50 pixel×50 pixel。首先將彩色圖像轉(zhuǎn)化成灰度圖像,使用5×5 高斯濾波對(duì)CT 圖像進(jìn)行模糊處理,然后使用Canny 邊緣檢測(cè)算法獲得圖像中每個(gè)像素的邊緣梯度和梯度方向,其次進(jìn)行Hough 變換,將圖像從直角坐標(biāo)系映射到Hough 空間,將圖像中的邊緣點(diǎn)從直角坐標(biāo)系轉(zhuǎn)換到極坐標(biāo)的參數(shù)方程,進(jìn)而找到圖像中相交的兩條病灶的標(biāo)注直線,最后對(duì)CT、PET 和PET/CT 圖像進(jìn)行50 pixel×50 pixel 的裁剪,得到ROI 圖像。針對(duì)醫(yī)學(xué)圖像中病灶與背景對(duì)比度低的問題使用基于曝光融合[23]的圖像對(duì)比度增強(qiáng)方法來提高肺部病灶CT 圖像的對(duì)比度。
為評(píng)估MEAU-Net 性能,采用戴斯相似系數(shù)(Dice Similariy Coefficient,DSC)、召回率(Recall)、體積重疊誤差(Volumetric Overlap Error,VOE)和相對(duì)體積差異(Relative Volume Difference,RVD)來評(píng)估模型分割性能。4 種評(píng)價(jià)指標(biāo)的公式定義分別為
式中,病灶區(qū)域被正確分割的定義為真陽(yáng)性(True Positive,TP),正常組織區(qū)域被分割為病灶區(qū)域定義為假陽(yáng)性(False Positive,F(xiàn)P),正常區(qū)域被正確分割定義為真陰性(True Negative,TN),病灶區(qū)域分割為正常區(qū)域定義為假陽(yáng)性(False Negative,F(xiàn)N),P表示模型預(yù)測(cè)的目標(biāo)像素,G表示標(biāo)簽值(ground truth)中的目標(biāo)像素。
實(shí)驗(yàn)硬件環(huán)境:服務(wù)器IntelI XI(R)Gold 6154 CPU,內(nèi)存256GB,顯卡NVIDIA TITAN V,python3.7,PyTorch1.7.0,CUDA 版本為11.1.106。使用Adam 優(yōu)化器,訓(xùn)練次數(shù)為200,學(xué)習(xí)率初始化為0.005,批處理大小為8,為了防止網(wǎng)絡(luò)過擬合,在網(wǎng)絡(luò)層中加入dropout,取值為0.5。損失函數(shù)是用來評(píng)估網(wǎng)絡(luò)模型的預(yù)測(cè)值和真實(shí)值差異的函數(shù),損失函數(shù)越小,意味著模型的預(yù)測(cè)值和真實(shí)值之間的差異越小。使用交叉熵?fù)p失函數(shù),其中y'表示模型的輸出,定義為
通過兩組實(shí)驗(yàn)來說明MEAU-Net 模塊的先進(jìn)性,第一組實(shí)驗(yàn)驗(yàn)證多編碼器對(duì)網(wǎng)絡(luò)分割的影響;第二組實(shí)驗(yàn)在三編碼器U-Net 基礎(chǔ)上,探索混合注意力機(jī)制對(duì)模型性能的影響;最后,將MEAU-Net 與先進(jìn)分割方法作比較。需要說明的是,采用DSC、Recall、VOE 和RVD 等4 個(gè)評(píng)價(jià)指標(biāo)對(duì)算法進(jìn)行評(píng)價(jià),但是體積重疊誤差VOE 和相對(duì)體積差異RVD 是越小越好,為了統(tǒng)一4 個(gè)評(píng)價(jià)指標(biāo),VOE 和RVD 兩個(gè)評(píng)價(jià)指標(biāo)的值是取1 與這兩個(gè)指標(biāo)的差值。
2.4.1 不同編碼器分割網(wǎng)絡(luò)
通過三個(gè)實(shí)驗(yàn)對(duì)比不同編碼器對(duì)分割效果的影響。實(shí)驗(yàn)一使用原始U-Net[8]僅輸入單模態(tài)CT 的圖像,使用909 張CT 圖像作訓(xùn)練集,117 張CT 圖像作測(cè)試集。實(shí)驗(yàn)二使用兩編碼器的Y-Net[24],該網(wǎng)絡(luò)包括兩個(gè)編碼器和一個(gè)解碼器,將同層的兩個(gè)編碼器提取的特征與解碼器下層提取的特征疊加輸入到對(duì)應(yīng)層的解碼器中,兩個(gè)解碼器分別輸入CT 和PET 圖像,使用PET 和CT 圖像各909 張作訓(xùn)練集,PET 和CT 圖像各117張作測(cè)試集。實(shí)驗(yàn)三使用三編碼器U-Net 模型MEU-Net(Multi Encoder U-Net),在編碼器最后一層將三個(gè)編碼器提取的多模態(tài)醫(yī)學(xué)圖像低級(jí)特征疊加,由于PET 圖像的病灶輪廓模糊,將編碼層PET/CT 和CT特征圖拼接后經(jīng)跳躍連接輸入對(duì)應(yīng)解碼層,使用PET/CT、CT 和PET 圖像各909 張作訓(xùn)練集,PET/CT、CT 和PET 圖像各117 張作測(cè)試集。CT 圖像的三維灰度圖如圖6 所示,不同編碼器網(wǎng)絡(luò)分割結(jié)果如表1 所示,圖7 為不同編碼器架構(gòu)分割結(jié)果。
表1 多編碼器分割結(jié)果Table 1 Segmentation results of multi-encoders
圖6 CT 圖像三維灰度圖Fig.6 CT image three-dimensional gray value
圖7 不同編碼器網(wǎng)絡(luò)分割結(jié)果Fig.7 Network segmentation results of different encoders
從表1 中可以看出,兩編碼器Y-Net 網(wǎng)絡(luò)的DSC 和Recall 指標(biāo)不如U-Net 網(wǎng)絡(luò),分別降低了0.03%和0.01%,而VOE 和RVD 指標(biāo)比U-Net 好,分別增加了0.01%和0.04%,兩編碼器Y-Net 網(wǎng)絡(luò)輸入PET 和CT 圖像提取特征,由于PET 圖像不同于CT 圖像,其提供病灶的代謝信息,幫助定位病灶,但是缺乏清晰的病灶輪廓信息,所以僅部分指標(biāo)高于U-Net。三編碼器MEU-Net 的DSC 和Recall 較兩編碼器Y-Net 分別提升了0.07%和0.13%,VOE 和RVD 分別增加了0.07%和0.06%,總的來說,三編碼器MEU-Net 網(wǎng)絡(luò)的分割指標(biāo)均高于兩編碼器Y-Net 和U-Net,DSC、Recall、VOE 和RVD 分別為95.20%、95.13%、92.59% 和92.76%,由此可以看出模態(tài)互補(bǔ)的醫(yī)學(xué)圖像對(duì)病灶分割性能有一定提升。圖7 為不同編碼器網(wǎng)絡(luò)的分割結(jié)果,從圖中可以看出,肺部病灶形狀復(fù)雜且與正常組織粘連,具有一定的分割難度,U-Net 分割部分病灶出現(xiàn)了欠分割情況,如圖7(e)第一行。兩編碼器Y-Net[24]對(duì)于病灶形狀復(fù)雜的分割效果不如其它兩個(gè)網(wǎng)絡(luò),如圖7(f)的第二行和第三行。三編碼器MEU-Net 網(wǎng)絡(luò)對(duì)于輪廓復(fù)雜與正常組織粘連的病灶分割效果優(yōu)于其它兩個(gè)網(wǎng)絡(luò),如圖7(g)的第二、三行。圖8 使用雷達(dá)圖比較不同分割架構(gòu)的性能,可以看出三編碼器MEU-Net 的DSC、Recall、VOE 和RVD 均比其它網(wǎng)絡(luò)架構(gòu)高,說明其效果優(yōu)于其它兩個(gè)網(wǎng)絡(luò)。
圖8 不同編碼器分割結(jié)果對(duì)比Fig.8 Comparison of segmentation results of different encoders
2.4.2 混合注意力機(jī)制
本組實(shí)驗(yàn)基于三編碼器U-Net 評(píng)估混合注意力機(jī)制的性能,共五次實(shí)驗(yàn),實(shí)驗(yàn)?zāi)P途褂肅T、PET/CT 和PET 圖像各909 張作訓(xùn)練集,CT、PET/CT 和PET 圖像各117 張作測(cè)試集。實(shí)驗(yàn)一,模型跳躍連接中沒有使用任何注意力機(jī)制,即為MEU-Net;實(shí)驗(yàn)二,MEU-Net 模型跳躍連接只引入空間注意力機(jī)制,模型為Multi Encoder Spatial Attention U-Net(MESAU-Net);實(shí)驗(yàn)三,模型跳躍連接只引入通道注意力機(jī)制,模型為Multi Encoder Channel Attention U-Net(MECAU-Net);實(shí)驗(yàn)四,模型跳躍連接引入本文空間注意力機(jī)制和文獻(xiàn)[25]中的輕量級(jí)通道注意力機(jī)制,模型為MEAU-Net#,該通道注意力模塊為無需降維的局部跨通道互動(dòng)策略保留Squeeze and Excitation Networks(SENet)[26]的全局平均池化,使用自適應(yīng)核的一維卷積代替SENet 的兩個(gè)全連接層;實(shí)驗(yàn)五,模型跳躍連接引入本文的混合注意力機(jī)制,模型為MEAU-Net。圖9 為CT 圖像的三維灰度圖,表2 為不同注意力機(jī)制的評(píng)價(jià)指標(biāo),圖10 為不同注意力機(jī)制模型分割結(jié)果。
圖9 CT 圖像三維灰度圖Fig.9 CT image three-dimensional gray value
從表2 可以看出模型MECAU-Net 和MESAU-Net 的各項(xiàng)指標(biāo)均高于三編碼器U-Net 模型MEUNet,說明網(wǎng)絡(luò)跳躍連接引入空間注意力機(jī)制和通道注意力機(jī)制能提高網(wǎng)絡(luò)分割性能。其中引入通道注意力機(jī)制的MECAU-Net 大多數(shù)指標(biāo)優(yōu)于引入空間注意力機(jī)制MESAU-Net 的指標(biāo),DSC、Recall 和VOE 分別提升了0.25%、0.07%、0.1%。MEAU-Net#的部分指標(biāo)優(yōu)于引入單注意力機(jī)制的網(wǎng)絡(luò),如DSC、Recall。混合注意力機(jī)制MEAU-Net 的DSC、Recall、VOE 和RVD 分別為96.4%、97.27%、93.0%和93.06%。從圖10 可以看出,MEAU-Net#網(wǎng)絡(luò)的分割結(jié)果整體優(yōu)于前三種方法,但部分分割效果不佳,如圖10(h)第一行出現(xiàn)了欠分割情況,第二行病灶邊緣分割模糊。從圖10 第四、五行可以看出,混合注意力機(jī)制網(wǎng)絡(luò)MEAUNet 對(duì)于正常組織粘連、形狀復(fù)雜的病灶分割效果優(yōu)于其他方法。從圖11 可以看出,MEAU-Net 的指標(biāo)優(yōu)于其他注意力機(jī)制方法,混合注意力機(jī)制對(duì)網(wǎng)絡(luò)分割性能有一定提升效果,說明在跳躍連接過程中引入混合注意力機(jī)制能有效提升分割效果。
表2 不同注意力機(jī)制分割結(jié)果Table 2 Segment results of different attention mechanisms
圖10 不同注意力機(jī)制網(wǎng)絡(luò)分割結(jié)果Fig.10 Network segmentation results of different attention mechanisms
圖11 不同注意力機(jī)制的分割結(jié)果對(duì)比Fig.11 Comparison of segmentation results of different attention mechanisms
2.4.3 與先進(jìn)分割算法對(duì)比
本文方法與編解碼器網(wǎng)絡(luò)、多模態(tài)醫(yī)學(xué)圖像分割方法和注意力機(jī)制相關(guān)方法進(jìn)行對(duì)比。其中SegNet[27]的編碼網(wǎng)絡(luò)為VGG-16 的卷積層,網(wǎng)絡(luò)跳躍連接部分使用池化位置索引存儲(chǔ)每個(gè)池化窗口中最大特征值的位置代替U-Net 的拼接操作,提供分割效率。Wnet[28]是級(jí)連的兩個(gè)U-Net 網(wǎng)絡(luò),用于PET/CT 圖像骨髓瘤的全身骨病變分割,第一個(gè)U-Net 網(wǎng)絡(luò)層數(shù)為5 層,輸入CT 圖像,第二個(gè)U-Net 網(wǎng)絡(luò)層數(shù)為3 層,該子網(wǎng)絡(luò)使用第一個(gè)U-Net 分割結(jié)果和PET 圖像作為第二個(gè)網(wǎng)絡(luò)的輸入。Attention Unet[29]在U-Net 的基礎(chǔ)上,在網(wǎng)絡(luò)的跳躍連接中嵌入自注意力門,將網(wǎng)絡(luò)上采樣的特征和編碼路徑傳輸尺寸相同的特征通過自注意力門自動(dòng)學(xué)習(xí)分割目標(biāo)的尺寸和外形,用于胰腺CT 圖像病灶分割。CT 圖像的三維灰度圖如圖12 所示,MEAU-Net 與其他先進(jìn)算法的對(duì)比結(jié)果如表3 所示,分割結(jié)果如圖13 所示。
表3 MEAU-Net 與其它網(wǎng)絡(luò)的分割結(jié)果Table 3 Segmentation results of MEAU-Net and other networks
圖12 CT 圖像的三維灰度圖Fig.12 CT image three-dimensional gray value
圖13 不同算法分割結(jié)果Fig.13 Segmentation results of different methods
從表3 可得,SegNet 的DSC、Recall、VOE 和RVD 分別為94.82%、95.11%、91.81%和92.04%,該網(wǎng)絡(luò)僅使用CT 單模態(tài)圖像進(jìn)行病灶分割,對(duì)于與正常組織粘連的病灶,分割效果不佳。從圖13 可以看出,SegNet 分割結(jié)果出現(xiàn)了欠分割情況如圖13(e)第一行,對(duì)于與正常組織粘連的病灶出現(xiàn)了過分割情況,如圖13(e)最后一行。Wnet 的DSC、Recall、VOE、RVD 分別94.73%、95.98%、92.08%和92.17%,大部分指標(biāo)高于SegNet,如Recall、VOE 和RVD,該方法將第一個(gè)網(wǎng)絡(luò)得到的CT 特征圖輸入PET 圖像,充分利用CT 圖像的細(xì)節(jié)信息,PET 圖像提供了病灶的代謝信息,有助于定位病灶,但由于第二個(gè)網(wǎng)絡(luò)層數(shù)過淺未能充分學(xué)習(xí)特征,并且PET 圖像中病灶模糊的邊緣信息導(dǎo)致分割效果低于引入注意力機(jī)制的網(wǎng)絡(luò)。圖13(f)第二行該網(wǎng)絡(luò)出現(xiàn)了欠分割的情況,對(duì)于第三、七行形狀復(fù)雜的病灶,分割效果不佳。Attention Unet 的DSC、Recall、VOE、RVD 分別為95.69%、96.17%、92.64%和92.73%,相較于Wnet 分別提高了0.96%、0.19%、0.56%和0.56%。由于Attention Unet 在網(wǎng)絡(luò)跳躍連接部分使用注意力門自動(dòng)關(guān)注病灶區(qū)域,因此分割效果優(yōu)于SegNet、Wnet,但是對(duì)于形狀復(fù)雜的病灶如圖13(a)第6 行和與正常組織粘連的病灶如圖13(a)最后一行,沒有PET 圖像提供的代謝信息,Attention Unet 分割效果不如MEAU-Net。MEAU-Net 的DSC、Recall、VOE、RVD 分別為96.4%、97.27%、93.0%和93.06%,圖13(h)中可以看出,MEAU-Net 對(duì)于不同尺度的病灶均能有效分割,對(duì)于與正常組織粘連的病灶,MEAU-Net 通過多模態(tài)圖像之間的特征互補(bǔ),對(duì)病灶精確定位,分割結(jié)果比其他方法好。圖14 為不同分割方法的指標(biāo)對(duì)比結(jié)果,從圖中可以看出,MEAU-Net的各項(xiàng)指標(biāo)優(yōu)于其他網(wǎng)絡(luò)。SegNet 和Attention Unet 方法都未使用PET、CT 和PET/CT 多模態(tài)醫(yī)學(xué)圖像特征,僅利用單模態(tài)醫(yī)學(xué)圖像,忽略了多模態(tài)醫(yī)學(xué)圖像之間的優(yōu)勢(shì)互補(bǔ)。由此證明MEAU-Net 使用多編碼器充分提取多模態(tài)醫(yī)學(xué)圖像特征是可行的,混合注意力機(jī)制選取重要特征,聚焦在特征圖中病灶位置,能夠提高網(wǎng)絡(luò)分割性能,為醫(yī)學(xué)分割提供更準(zhǔn)確的判斷依據(jù),分割結(jié)果更接近標(biāo)簽值。
圖14 不同方法分割結(jié)果對(duì)比Fig.14 Comparison of segmentation results of different methods
本文充分利用不同醫(yī)學(xué)成像設(shè)備成像機(jī)理的特點(diǎn),提出了多編碼混合注意力的分割網(wǎng)絡(luò)MEAU-Net。使用多編碼器提取多模態(tài)醫(yī)學(xué)圖像肺部病灶特征,通過在網(wǎng)絡(luò)跳躍連接引入混合注意力機(jī)制,使網(wǎng)絡(luò)自動(dòng)關(guān)注在圖像病灶區(qū)域和重要特征通道。對(duì)于解碼路徑包含的不同尺度高級(jí)語(yǔ)義特征,構(gòu)建了多尺度特征聚合塊,實(shí)現(xiàn)了不同尺度的特征聚合。在臨床數(shù)據(jù)集上對(duì)該算法進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果表明MEAU-Net 的DSC、Recall、VOE 和RVD 的平均值分別為96.4%、97.27%、93.0% 和93.06%。相較于三種對(duì)比算法,MEAU-Net 對(duì)于形狀復(fù)雜、病灶與正常組織相粘連的情況均能有效分割。接下來將進(jìn)一步擴(kuò)充數(shù)據(jù)集,并將方法推廣到3D 肺部腫瘤的分割和其它疾病的精準(zhǔn)分割。