門靖茹,王澤榮,張富春,白宗文
(延安大學(xué)物理與電子信息學(xué)院,陜西延安 716000)
肺癌是一種全球常見的癌癥,是發(fā)病率和死亡率增長最快、對生命威脅最大的惡性腫瘤之一[1],被發(fā)現(xiàn)時患者往往處于中晚期。而肺癌前期癥狀多表現(xiàn)為肺結(jié)節(jié),其早期發(fā)現(xiàn)對肺癌患者生還率十分重要。肺結(jié)節(jié)分割的難點(diǎn)在于大小不同和形態(tài)各異,實性不一,容易對醫(yī)療診斷產(chǎn)生干擾。隨著CT成像技術(shù)的飛速發(fā)展,采用計算機(jī)輔助技術(shù)(Computer Aided Detection,CAD)對肺結(jié)節(jié)進(jìn)行分割已經(jīng)成為趨勢,而基于深度學(xué)習(xí)的肺結(jié)節(jié)分割方法可以提高診斷速度和準(zhǔn)確率,具有十分重要的臨床應(yīng)用價值。
目前,針對肺結(jié)節(jié)分割方法的研究主要基于手動提取特征的傳統(tǒng)方法[2-5]和自動提取特征的深度學(xué)習(xí)方法[6-14]。深度學(xué)習(xí)方法可以自動學(xué)習(xí)并提取輸入網(wǎng)絡(luò)的深度圖像特征,實現(xiàn)肺結(jié)節(jié)分割任務(wù)。2015年LONG等[6]提 出 了 全 卷 積 網(wǎng) 絡(luò)(Fully Convolution Network,F(xiàn)CN),他提出后很快被廣泛應(yīng)用到圖像分割領(lǐng)域;RONNEBERGER等[7]在FCN的基礎(chǔ)上提出了U-Net模型,添加了跳躍連接方法;MILLETARI等[8]提出了三維圖像分割網(wǎng)絡(luò)V-Net模型,在U-Net的基礎(chǔ)上添加了殘差連接和三維化。U-Net和V-Net可作為基線模型(Baseline),并衍生了多種改進(jìn)算法。其中二維分割肺結(jié)節(jié)整圖的工作有徐峰等[9]使用U-Net,得到了0.867的準(zhǔn)確度;陳銘等[10]使用可分離卷積模塊改進(jìn)U-Net,得到的準(zhǔn)確度為0.9,參數(shù)量為Baseline的30%。二維分割肺結(jié)節(jié)小圖的工作有鐘思華等[11]使用密集連接改進(jìn)U-Net,得到骰子(Dice)系數(shù)為0.844;DUTANDE等[12]使用通道注意力改進(jìn)U-Net,得到Dice系數(shù)為0.80;PEZZANO等[13]使用Inception V4改進(jìn)U-Net,得到Jaccard系數(shù)為0.766。三維分割肺結(jié)節(jié)有YANG等[14]提出的MSDS-UNet模型,使用殘差連接改進(jìn)的3D-UNet模型結(jié)合深監(jiān)督,得到Dice系數(shù)為0.675。
綜上所述,現(xiàn)有方法在肺結(jié)節(jié)分割任務(wù)研究中主要追求的是高精度,但提高精度往往意味著模型參數(shù)量更大,對硬件的要求更高。本文致力于找到一種輕量級的模型,通過結(jié)構(gòu)設(shè)計保持模型不損失原有的分割效果。具體的設(shè)計方法是使用多尺度特征增加感受野(Receptive Field)的豐富度,在壓縮模型參數(shù)量的同時保持多尺度特征提取的質(zhì)量。
本文使用的肺結(jié)節(jié)分割過程如圖1所示,在數(shù)據(jù)輸入模型前需要對原始的CT圖像做預(yù)處理工作。首先將CT圖像進(jìn)行HU(Hounsfield Unit)轉(zhuǎn)換,得到閾值為-1 024至3 071的密度灰度圖;其次提取肺部掩膜圖,剔除不需要的非肺區(qū)域信息,由于原始數(shù)據(jù)來自不同機(jī)器,做三維計算前需要對圖像進(jìn)行統(tǒng)一像素間隔處理(3個維度像素間隔均為1 mm),統(tǒng)一間隔處理后的數(shù)據(jù)再進(jìn)行歸一化和去均值,歸一化使用的肺窗為-1 000至400,均值為0.25,由于考慮計算資源的限制,本文也對圖像進(jìn)行了三維體積的截取,截取的體積中至少包含1個肺結(jié)節(jié),體積塊尺寸為96×96×16體素(長度×寬度×深度);最后將若干體積塊輸入網(wǎng)絡(luò)模型中,網(wǎng)絡(luò)輸出相同大小的二值分割結(jié)果將用于后續(xù)計算。
圖1 肺結(jié)節(jié)分割流程框架
V-Net網(wǎng)絡(luò)是一種三維全卷積神經(jīng)網(wǎng)絡(luò),整體為對稱的編碼器-解碼器結(jié)構(gòu),網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。圖2左邊的編碼器提取圖像中的特征信息,他包含有4個具有不同特征分辨率的編碼模塊,每個模塊在頭尾部分使用殘差連接,下采樣層使用步長為2的卷積運(yùn)算,保護(hù)信息流。圖2網(wǎng)絡(luò)右邊的解碼器完成特征圖的解碼,它由4個具有不同特征分辨率的解碼模塊組成,而上采樣層使用步長為2的反卷積構(gòu)成。V-Net通過跳躍連接保護(hù)細(xì)節(jié)信息。網(wǎng)絡(luò)分類器由點(diǎn)卷積和Softmax激活函數(shù)組成,Softmax激活函數(shù)將特征圖轉(zhuǎn)換為前景和背景區(qū)域的分割概率圖。由于病灶通常具有三維結(jié)構(gòu),該模型在醫(yī)學(xué)圖像處理中能夠充分利用此類圖像的三維上下文特征,提升網(wǎng)絡(luò)的性能。V-Net在提取特征的總體設(shè)計上是可取的,但是模型深度單一,細(xì)節(jié)特征不夠豐富,因此本文在宏觀上使用多尺度特征。由于淺層卷積的細(xì)節(jié)信息豐富,深層卷積的語義信息豐富,本文使用4種層深提取的特征進(jìn)行融合,總體設(shè)計如圖2所示。模型分為4種層深路線,每種層深路線均有V-Net的橋連結(jié)構(gòu),這一點(diǎn)由于表達(dá)限制未在圖中標(biāo)出。將4種層深路線的數(shù)據(jù)進(jìn)行通道維合并后再進(jìn)行路線注意力機(jī)制,即使用兩層全連接和Softmax激活函數(shù)進(jìn)行路線間的重要性權(quán)重分配。
圖2 M-VNet總體結(jié)構(gòu)圖
V-Net中僅使用的是5×5×5體素卷積,感受野較大且單一,而肺結(jié)節(jié)的目標(biāo)很小,分割效果對細(xì)節(jié)特征和周圍組織特征均有依賴。因此本文測試了多種不同尺寸組合路線的Dice系數(shù)指標(biāo),其中p1為不做任何處理的路線,p2為3×3×3體素卷積路線,p3為5×5×5體素卷積路線,p4為7×7×7體素卷積路線。由表1可知,對于肺結(jié)節(jié)這種小目標(biāo)而言,小的卷積核提取器p2和未經(jīng)處理的殘差路線p1更有效。
表1 不同尺度路線選擇的Dice系數(shù)
因此本文將V-Net中的5×5×5體素卷積操作替換為一個包含多尺度特征提取的M-Block組件,其多尺度屬性兼顧細(xì)節(jié)信息和周邊信息,在保證質(zhì)量的前提下可實現(xiàn)模型參數(shù)的壓縮。M-Block的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,其中,殘差連接沿用V-Net原有的模塊首尾連接的設(shè)置。
圖3 多尺度特征結(jié)構(gòu)M-Block
圖3 的M-Block為瓶頸結(jié)構(gòu),該瓶頸結(jié)構(gòu)可以使Block適用于所有輸入和輸出通道,不會受限于分組數(shù)。輸入X的格式為N×C×h×w×d(批量大小×通道數(shù)×長度×寬度×深度)。M-Block首先對輸入使用步長為1的點(diǎn)卷積將輸入通道數(shù)變?yōu)橹虚g通道數(shù),其中編碼器中間通道為輸出通道數(shù),解碼器中間通道為輸入通道數(shù);然后進(jìn)入多尺度特征提?。∕ulti-scale feature extraction,MF)網(wǎng)絡(luò)部分,MF將通道分為兩組,通過分組可以明顯降低參數(shù)量。具體來說,第一組不做任何處理直接輸出為X1;第二組進(jìn)行3×3×3體素卷積,輸出為X2。將X1,X2進(jìn)行通道維合并操作后,通過一個點(diǎn)卷積改變通道數(shù)為輸出通道數(shù),該操作可以融合多尺度特征,得到優(yōu)于單卷積核的特征提取效果。特征提取模塊的前N-1個M-Block中輸入輸出通道數(shù)均設(shè)置為模塊的輸入通道數(shù),在第N個M-Block設(shè)置輸出設(shè)置為模塊的輸出通道數(shù)。此外,為了緩解數(shù)據(jù)的過擬合問題,本文使用0.5的隨機(jī)失活正則化比率在模塊間進(jìn)行隨機(jī)失活。
V-Net的總參數(shù)量為8 577萬,權(quán)重文件大小為425.51 M;M-VNet的總參數(shù)量為1 190萬,權(quán)重文件大小為64.77 M。統(tǒng)計對比了V-Net和本文方法的參數(shù)量,在批量大小為4時的訓(xùn)練時間和測試時間如表2所示。由表2可知,采用M-Block方法可大幅度降低參數(shù)量,結(jié)果顯示參數(shù)量約為Baseline的13%,訓(xùn)練時間和測試時間較Baseline稍高,這使得模型部署到移動設(shè)備成為可能。
表2 模型的參數(shù)量、訓(xùn)練時間和測試時間對比
本文采用Dice loss[8]作為損失函數(shù),并添加拉普拉斯平滑系數(shù)(Laplace smoothing)為1,拉普拉斯平滑可以避免零除問題,同時避免過擬合。當(dāng)Laplace smoothing為1時,Dice loss可表示為
其中,X、Y分別代表預(yù)測二值體和真實二值體,X∩Y表示兩者重合點(diǎn)的值的總和,|X|表示預(yù)測二值體的值的總和,|Y|表示真實二值體的值的總和。在實際計算時,將預(yù)測為非結(jié)節(jié)的特征圖與前景為非結(jié)節(jié)的真實標(biāo)簽進(jìn)行Dice loss計算,再將預(yù)測為結(jié)節(jié)的特征圖與前景為結(jié)節(jié)的真實標(biāo)簽進(jìn)行Dice loss計算,兩者相加為實際的Dice loss。
本實驗的數(shù)據(jù)來自于胸部影像數(shù)據(jù)集LUNA16(Lung Nodule Analysis 16),它來源于一個更大的數(shù)據(jù)集LIDC-IDRI[15],該數(shù)據(jù)集共有1 018個CT掃描病例圖,LUNA16去除了厚度(slice thickness)大于3 mm的不一致切片和缺失部分切片的CT圖,保留了888張3D的CT圖。通過對數(shù)據(jù)進(jìn)行數(shù)據(jù)重采樣、數(shù)據(jù)歸一化、圖像切割和標(biāo)簽生成等預(yù)處理操作,可得到若干個尺寸為96 mm×96 mm×16 mm、至少包含1個肺結(jié)節(jié)的肺部CT數(shù)據(jù)塊和對應(yīng)的肺結(jié)節(jié)標(biāo)簽。按照8∶1∶1的比例將數(shù)據(jù)分為訓(xùn)練集、驗證集、測試集。
本文的參數(shù)設(shè)置采用訓(xùn)練迭代次數(shù)(epoch)為100,優(yōu)化器選用SGD優(yōu)化器,初始學(xué)習(xí)率為0.001,每經(jīng)過3次迭代訓(xùn)練,學(xué)習(xí)率衰減為原來的0.1倍。初始動量設(shè)置為0.99,在第80輪降為0.9,權(quán)重衰減為10-8,驗證集每3次epoch做1次驗證。
圖4是模型的損失下降圖。從圖4A可知,訓(xùn)練損失在40輪后進(jìn)入緩慢的下降階段,在60輪后達(dá)到穩(wěn)定。圖4B驗證損失在60輪后基本平緩,90輪后有輕微上升,即出現(xiàn)過擬合現(xiàn)象。本文實驗采用早停策略,選取驗證損失最低的模型為最優(yōu)模型。
圖4 模型的損失下降圖
根據(jù)2.2節(jié)中網(wǎng)絡(luò)參數(shù)的設(shè)置,對V-Net基礎(chǔ)模型和M-VNet模型進(jìn)行訓(xùn)練,與其他相關(guān)工作的指標(biāo)對比如表3所示。MobileV2UNet的指標(biāo)提高和參數(shù)量下降依賴于Mobile V2的倒殘差和可分離卷積;SquExUNet由于采用了簡單的通道注意力機(jī)制,在模型參數(shù)基本維持不變的情況下可輕微提高訓(xùn)練指標(biāo);InceptionUNet借鑒了Inception V4的Block組件結(jié)構(gòu),他的不對稱卷積和高維分解方法在降低參數(shù)量和提高指標(biāo)兩方面達(dá)到平衡。在三維CT圖像分割任務(wù)中,MSDS-UNet對三維化的U-Net添加了殘差連接,這種設(shè)計與V-Net相似,指標(biāo)提升主要通過深監(jiān)督完成;另外,由于MSDS-UNet模型輸入尺寸更大,整體指標(biāo)較其他模型均有降低;集中式CNN使用帶有中央池化的多路徑網(wǎng)絡(luò)進(jìn)行分割,指標(biāo)有小幅提升;三維密集網(wǎng)絡(luò)帶來的提升較大,貫通的信息流保證了分割結(jié)果包含足夠的細(xì)節(jié)信息;NRU網(wǎng)絡(luò)主要提出了噪聲干擾模型,可一定程度上提高分割效果;M-VNet的主要貢獻(xiàn)在于多種維度上提取的多尺度信息,總體上使用不同深度結(jié)構(gòu)得到不同程度語義和細(xì)節(jié)信息的融合,細(xì)節(jié)上在單M-Block內(nèi)添加殘差支路納入卷積計算,提升了模型復(fù)雜度和分割指標(biāo)。在M-Block中,多尺度特征提取模塊中對原始數(shù)據(jù)不做處理的分組十分重要,很大程度上貢獻(xiàn)了模型特征的細(xì)節(jié)精度。
表3 不同模型的性能對比
圖5是4種模型對5種肺結(jié)節(jié)圖像的三維分割剖面圖,從左到右依次為小型結(jié)節(jié)、中型結(jié)節(jié)、大型結(jié)節(jié)、血管粘連型結(jié)節(jié)、磨玻璃影型結(jié)節(jié)。從圖5中可知,小結(jié)節(jié)部分4種模型均表現(xiàn)良好,證明了4種模型對病變區(qū)域都具有良好的敏感性和有效性;在中型結(jié)節(jié)和大型結(jié)節(jié)部分,V-Net方法出現(xiàn)過分割,出現(xiàn)較多假陽性點(diǎn),這是由于V-Net在限定輪數(shù)內(nèi)特征提取效率有限所致,3D-SquExVNet方法開始出現(xiàn)欠分割,這主要是由于通道注意力對一些特征的過表達(dá),導(dǎo)致限定輪數(shù)中特征提取器提取的特征豐富性不足;在血管粘連型結(jié)節(jié)上V-Net和3D-SquExVNet方法均出現(xiàn)欠分割,形態(tài)輪廓不清晰,與血管粘連部分輪廓沒有分割或分割不完整,可歸因于細(xì)節(jié)信息不足,3D-Mobilev2VNet方法在血管粘連部分出現(xiàn)了不同程度的過分割和欠分割,這是由于模型對點(diǎn)的分類判斷過于注重局部信息,修正能力弱;磨玻璃影型結(jié)節(jié)4種模型均出現(xiàn)欠分割,這是因為磨玻璃影型結(jié)節(jié)的邊界十分模糊,模型可以提取到病變特征,但輪廓信息不明晰。但M-VNet可以很好地解決這個問題,在中型結(jié)節(jié)和大結(jié)節(jié)部分通過不同感受野的信息融合很好地平衡了欠分割和過分割問題,同時,M-VNet的磨玻璃影型結(jié)節(jié)分割效果優(yōu)于整體過分割的3D-Mobilev2VNet的效果,也優(yōu)于V-Net和3DSquExVNet,這說明了M-VNet的多尺度特征提取的優(yōu)越性。綜合以上實驗結(jié)果,證明本文方法具有優(yōu)于其他模型的良好的泛化分割性能和較高魯棒性,對不同形態(tài)的肺結(jié)節(jié)均具有較好的分割結(jié)果。
圖5 不同網(wǎng)絡(luò)的三維分割結(jié)果橫截面
本文提出了一種基于卷積復(fù)用的肺結(jié)節(jié)分割方法,通過使用多種Block組件的改進(jìn)方法,對比研究了改進(jìn)方法對模型分割性能的影響,得出了一種性能良好的多尺度融合輕量網(wǎng)絡(luò)M-VNet。該網(wǎng)絡(luò)繼承了V-Net的總體設(shè)計思路,并在此基礎(chǔ)上增加了多種深度路線和路線注意力機(jī)制,在M-Block設(shè)計中使用多尺度特征為模型增添細(xì)節(jié)信息和縮小模型參數(shù)。該模型參數(shù)量僅為V-Net的13%,但Dice系數(shù)提高了4%,泛化性能、魯棒性能和分割性能均優(yōu)于Baseline,具有部署于移動設(shè)備的潛力。后續(xù)將采用無錨框關(guān)鍵點(diǎn)引導(dǎo)從整個肺部CT圖片中選取備選數(shù)據(jù)塊,得到端到端的肺部整圖CT的肺結(jié)節(jié)分割模型。