凌彤,楊琬琪,楊明
前列腺癌在歐美等國家是最常見的泌尿系惡性腫瘤,在所有直接導(dǎo)致死亡原因的腫瘤中排在第2位,隨著我國人口老齡化,前列腺癌的發(fā)生率也越來越高[1]。對前列腺癌進(jìn)行影像引導(dǎo)放射治療是診治該疾病的關(guān)鍵步驟之一。
影像引導(dǎo)放射治療前列腺,通常是對患者進(jìn)行CT等影像檢查后,由醫(yī)生手動分割影像圖像前列腺癌病變部分。但是手動分割病變需要耗費一定的時間與精力,且不同的醫(yī)生依據(jù)自己的工作經(jīng)驗對病變分割的結(jié)果存在一定的差異性,在某種程度上會影響分割的精度,進(jìn)而影響對病癥的診斷。因此,準(zhǔn)確地自動分割對前列腺癌的診斷是十分重要的。
CT檢查具有快速、薄層、大范圍掃描等優(yōu)勢,且檢查時間較短,但是由于圖像的低對比度,使得前列腺與周圍組織結(jié)構(gòu)顯像并不清晰,給圖像的自動分割造成了一定的困難。而MRI檢查軟組織分辨率高,圖像對比度好,在顯示腫瘤本身以及前列腺包膜、周圍組織等方面較 CT 更有優(yōu)勢[2]。為了提高CT圖像的分割精度,對CT圖像進(jìn)行更有效地自動分割,我們提出利用MRI的高分辨率特點去幫助CT圖像分割前列腺癌的病變部分。
針對這一想法,本文提出一種新的基于深度學(xué)習(xí)的多模態(tài)U形網(wǎng)絡(luò)圖像分割模型MM-unet:1)運用深度學(xué)習(xí)遷移的思想,借用其他MRI數(shù)據(jù)集(即PROMISE12)輔助訓(xùn)練MRI圖像的初始分割模型,進(jìn)而將訓(xùn)練好的MRI圖像初始分割模型進(jìn)行遷移到CT圖像的初始分割模型中;2)通過設(shè)計一種新型的多模態(tài)損失函數(shù)MM-Loss,衡量MRI與CT不同模態(tài)分割模型間的一致性,并建立它們之間的聯(lián)系;聯(lián)合訓(xùn)練基于MRI與CT 圖像的MM-unet,使用監(jiān)督學(xué)習(xí)的方式讓兩個模態(tài)互相學(xué)習(xí),使CT圖像能夠借助MRI提供的影像信息來提高自身的分割精度。
醫(yī)學(xué)圖像不同于一般的圖像,具有一定的復(fù)雜性、多樣性、不規(guī)則性等特點,因此很多用于處理一般圖像的分割方法不能直接用于醫(yī)學(xué)圖像處理。而CT圖像由于軟組織結(jié)構(gòu)對比度低的特點,使得其分割難度加大。為解決這一問題,近年來有不少研究者提出若干CT前列腺圖像分割方法,如文獻(xiàn)[3]提出基于特征學(xué)習(xí)的框架實現(xiàn)精準(zhǔn)定位的分割方法,文獻(xiàn)[4]提出從之前分割好的訓(xùn)練圖像中建立可變形的器官模型實現(xiàn)自動分割的方法,文獻(xiàn)[5]提出基于稀疏表示的分類器分割的方法等。上述方法都是利用單模態(tài)圖像信息對CT圖像實現(xiàn)分割,而本文提出的多模態(tài)U形網(wǎng)絡(luò)分割方法是充分利用多模態(tài)圖像信息。
單模態(tài),是使用一種成像設(shè)備得到的圖像;而多模態(tài)圖像是使用兩種以上成像設(shè)備得到。不同模態(tài)的圖像有著各自的成像特點,能為同一組織結(jié)構(gòu)提供不盡相同的影像信息;而使用多模態(tài)圖像能夠結(jié)合不同模態(tài)的影像信息以幫助更全面的疾病診斷。如文獻(xiàn)[6]提出的多模態(tài)堆疊深度多項式網(wǎng)絡(luò)通過融合與學(xué)習(xí)多個模態(tài)的特征表示來診斷阿爾茨海默??;文獻(xiàn)[7]提出的變換深度卷積網(wǎng)絡(luò)通過融合不同模態(tài)的圖像特征對椎體識別更加有效。這兩種方法與本文所提方法均是基于深度學(xué)習(xí)的方法。
深度學(xué)習(xí)具有強(qiáng)大的特征學(xué)習(xí)與表達(dá)能力,其概念起源于2006年Hinton等在Neural Computation發(fā)表的文獻(xiàn)[8],但真正引起學(xué)術(shù)界廣泛關(guān)注的是2012年Krizhevsky等提出的深度卷積神經(jīng)網(wǎng)絡(luò)Alexnet模型[9]。在那之后,深度學(xué)習(xí)迅猛發(fā)展,且多用于語音識別、圖像分類檢測、目標(biāo)追蹤等領(lǐng)域。此外,深度學(xué)習(xí)方法在醫(yī)學(xué)圖像分割中的應(yīng)用也是十分廣泛,如文獻(xiàn)[10]提出的基于三維卷積神經(jīng)網(wǎng)絡(luò)分割椎體MRI圖像,文獻(xiàn)[11]提出的基于遞歸神經(jīng)網(wǎng)絡(luò)分割肌束膜病理圖像,文獻(xiàn)[12]提出的基于多尺度特征融合的深度三維卷積編碼網(wǎng)絡(luò)分割多發(fā)性硬化癥病變等。
由于深度學(xué)習(xí)的模型訓(xùn)練往往需要大量的數(shù)據(jù)儲備,為提升其模型精度且防止過擬合問題,研究者們運用遷移學(xué)習(xí),將預(yù)訓(xùn)練好的其他網(wǎng)絡(luò)模型遷移到目標(biāo)模型中,如文獻(xiàn)[13]提出使用基礎(chǔ)數(shù)據(jù)集訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型,使用目標(biāo)數(shù)據(jù)集微調(diào)該模型中學(xué)習(xí)到的特征,分別通過選擇性遷移與直接遷移來訓(xùn)練目標(biāo)模型,以提高其模型的泛化能力;文獻(xiàn)[14]提出的級聯(lián)深度自適應(yīng)(CDDA)模型通過使用醫(yī)生手工標(biāo)注的掩模在具有不同掩膜比的原始CT圖像上疊加來構(gòu)建多個連續(xù)源域,并將這些源域上學(xué)習(xí)到的特征遷移到目標(biāo)域中。
卷積層[15](convolution layer,Conv),是卷積神經(jīng)網(wǎng)絡(luò)的核心層,通常使用卷積核與輸入的特征圖進(jìn)行卷積操作以實現(xiàn)特征的提??;池化層(pooling layer),通常是對卷積層輸出的特征圖進(jìn)行下采樣操作以降低維度并保留有用的信息,有效地防止過擬合,常見的方法有最大池化、均值池化等;修正線性單元[16](rectified linear unit, ReLU),是一種激活函數(shù),用于加快網(wǎng)絡(luò)訓(xùn)練的收斂速度;反卷積層[17](deconvolution layer,Deconv),可以看作是卷積層的逆操作,用于圖像分割中對輸入特征圖的重構(gòu)。
醫(yī)學(xué)圖像具有復(fù)雜多樣化、線條不規(guī)律等特點,分割時對于圖像中的組織結(jié)構(gòu)等細(xì)節(jié)信息需要進(jìn)行精準(zhǔn)定位,才能有效地提高分割精度。而文獻(xiàn)[18]提出的全卷積神經(jīng)網(wǎng)絡(luò)U-net模型有效地解決了這一問題,在醫(yī)學(xué)圖像分割中取得了好的表現(xiàn)。
U-net模型是由兩個路徑呈對稱狀組成,一個收縮路徑用于獲得圖像信息,一個擴(kuò)展路徑用于實現(xiàn)精確定位。本文中,我們使用了U-net模型并作了一些調(diào)整,除最后一層卷積層外,每層卷積層后都增加了一層批處理歸一化[19](batch normalization,BN),用來優(yōu)化反向傳播中的梯度問題,并將卷積層填充參數(shù)設(shè)為1,去掉原始的裁剪層,以確保輸入、輸出的圖像大小保持一致,便于圖像的處理。調(diào)整后的模型稱為單模態(tài)U形網(wǎng)絡(luò)。
本文訓(xùn)練的CT圖像單模態(tài)U形網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。我們將兩層3×3大小的卷積層,每層后加上一層修正線性單元與批處理歸一化(ReLU+BN)稱為一個塊結(jié)構(gòu)(Block)。在左邊的收縮路徑中,輸入的CT圖像經(jīng)過3次塊結(jié)構(gòu)與步長為2的2×2大小最大池化層(Pooling)的下采樣操作,且每次下采樣時都加倍通道數(shù);之后經(jīng)過一個塊結(jié)構(gòu)后進(jìn)入擴(kuò)展路徑,再經(jīng)過3次塊結(jié)構(gòu)與步長為2的2×2大小反卷積層(Deconv)的上采樣操作,每次上采樣時減半通道數(shù):最后通過一層1×1大小的卷積層[20]映射到目標(biāo)的類別,使用交叉熵?fù)p失函數(shù)計算輸出的特征圖與標(biāo)記圖像的像素值距離,得到輸出圖像。
圖1 訓(xùn)練CT圖像的單模態(tài)U形網(wǎng)絡(luò) (CT-unet)Fig. 1 Singlemodal U-net for training CT images (CT-unet)
本節(jié)詳細(xì)介紹所提出的CT圖像分割方法,主要考慮3個方面:1)充分利用MRI模態(tài)的信息指導(dǎo)CT圖像分割;2) 構(gòu)造MRI與CT之間的中間模態(tài)圖像,以縮小與CT模態(tài)圖像的差異;3)設(shè)計多模態(tài)損失函數(shù)MM-Loss,衡量MRI與CT模態(tài)間的相關(guān)性,通過聯(lián)合學(xué)習(xí)訓(xùn)練MM-unet模型。
MRI前列腺圖像具有分辨率高、對比度好的特點,與CT圖像相比,顯像更為清晰。一般來說,使用同一標(biāo)記圖像的數(shù)據(jù)集訓(xùn)練時,MRI的分割結(jié)果會優(yōu)于CT圖像,但由于訓(xùn)練樣本有限,MRI模型的分割精度會受影響。所以在利用MRI圖像特點幫助CT圖像分割時,應(yīng)當(dāng)盡可能地提高M(jìn)RI模型的分割精度,有效地防止過擬合,才能指導(dǎo)CT圖像更好地分割。因此,本文運用遷移學(xué)習(xí)的思想,首先充分利用其他前列腺圖像的MRI數(shù)據(jù)集訓(xùn)練單模態(tài)U形網(wǎng)絡(luò),得到的參數(shù)模型去初始化訓(xùn)練與CT圖像配準(zhǔn)的MRI數(shù)據(jù)集,以期望獲得分割精度較高的MRI模型,然后再將MRI模型參數(shù)作為初始模型參數(shù),精化訓(xùn)練CT單模態(tài)U形網(wǎng)絡(luò)(CT-unet),幫助提高CT圖像的分割精度。
不同于CT圖像分割的單模態(tài)U形網(wǎng)絡(luò),由于MRI圖像展示的細(xì)節(jié)信息豐富且清晰,我們使用具有4次下采樣、上采樣操作的單模態(tài)U形網(wǎng)絡(luò)模型(MRI-unet)來訓(xùn)練,以便在模型最底層能夠更精確地捕獲MRI的圖像信息。
MRI與CT兩個模態(tài)圖像因為成像原理不同,圖像外觀存在明顯的差異性,可能會使模態(tài)之間的學(xué)習(xí)受到一些影響。為減小這種影響,需要減小MRI與CT圖像外觀的差異性。對此,本文將對應(yīng)同一標(biāo)記已經(jīng)配準(zhǔn)的MRI與CT圖像都進(jìn)行歸一化處理,再對它們使用取均值操作構(gòu)造出新的CT-MRI圖像。從外觀的表現(xiàn)來看,CT-MRI圖像既有CT圖像的特點,又有MRI圖像的特點。
我們使用具有4次下采樣、上采樣操作的單模態(tài)U形網(wǎng)絡(luò)模型訓(xùn)練CT-MRI圖像 (CT-MRI-unet)。首先利用MRI模型參數(shù)作為初始模型,精化訓(xùn)練CT-MRI模型,進(jìn)而將訓(xùn)練好的CTMRI模型進(jìn)行遷移訓(xùn)練CT-unet模型,幫助提高CT圖像的分割精度。
由于不同的模態(tài)圖像有各自的特點,提供的影像信息不完全相同,如果將多模態(tài)圖像提供的信息結(jié)合起來,充分利用其互補(bǔ)性,則有利于提高單模態(tài)圖像的分割精度。因此,本文提出基于多模態(tài)U形網(wǎng)絡(luò)(MM-unet)的CT圖像分割方法,如圖2所示,由MRI-unet與CT-unet構(gòu)成的,使用了一個MM-Loss損失函數(shù)用以建立MRI與CT兩個單模態(tài)U形模型之間的聯(lián)系。
圖2 MM-unet模型Fig. 2 Multimodal U-unet model
兩個單模態(tài)U形網(wǎng)絡(luò)同時訓(xùn)練各自的模態(tài)圖像,通過收縮路徑獲取底層圖像信息,擴(kuò)展路徑實現(xiàn)高層信息的提取,在最后一層卷積層使用MM-Loss損失函數(shù)對MRI與CT圖像進(jìn)行相似性度量。MM-Loss損失函數(shù)的定義如下:
式中:ai、bi為輸入的MRI與CT圖像對應(yīng)的分割結(jié)果概率圖,N、C、H、W為輸入圖像的數(shù)量、通道、高度、寬度,y為標(biāo)記圖像。
輸入MRI與CT圖像,對于它們共同對應(yīng)的標(biāo)記圖像的分割部分,約束它們相似的部分盡可能接近;對標(biāo)記圖像的背景部分,促使它們成為分割目標(biāo)的概率值盡可能地小。以此使兩個模態(tài)圖像的分割模型能夠?qū)τ诜指钅繕?biāo)進(jìn)行互相學(xué)習(xí)。
本文方法的整個流程如圖3所示。數(shù)據(jù)集經(jīng)過預(yù)處理工作后分為訓(xùn)練集與測試集,在訓(xùn)練階段,使用訓(xùn)練集訓(xùn)練分割模型,算法如圖3虛線框部分,其操作步驟如下:
1)使用PROMISE12數(shù)據(jù)集[21]預(yù)訓(xùn)練得到的P-MRI-unet模型(詳見4.5節(jié)實驗1),進(jìn)行遷移訓(xùn)練 MRI-unet模型;
2)構(gòu)造CT-MRI圖像,將1)中得到的MRI-unet模型進(jìn)行遷移訓(xùn)練CT-MRI-unet模型;
3)將2)中得到的CT-MRI-unet模型進(jìn)行遷移訓(xùn)練CT- unet模型;
4)將1)中得到的MRI-unet模型與3)中得到的CT-unet模型進(jìn)行遷移訓(xùn)練MM-unet模型。
在測試階段,使用訓(xùn)練階段最終得到的MM-unet模型對測試集里的CT圖像進(jìn)行分割,得到CT圖像的分割結(jié)果圖。
圖3 基于深度學(xué)習(xí)模型的前列腺CT圖像分割流程圖Fig. 3 The flowchart of deep learning model for prostate segmentation in CT images
我們使用的前列腺數(shù)據(jù)集有兩個,一個是網(wǎng)上公開的PROMISE12數(shù)據(jù)集[21],一個是某合作醫(yī)院提供的Prostate數(shù)據(jù)集。PROMISE12數(shù)據(jù)集含有50個患者的MRI圖像與相對應(yīng)的手工標(biāo)記圖像,圖像大小不一。刪去無病變的MRI圖像與標(biāo)記圖像,并將其余的癌病變圖像大小統(tǒng)一調(diào)整到256×256,共得到778張MRI圖像與778張標(biāo)記圖;使用前40個患者的樣本作為訓(xùn)練集,后10個患者的樣本作為驗證集訓(xùn)練模型。Prostate數(shù)據(jù)集含有22個患者的CT、MRI與相對應(yīng)的病變標(biāo)記圖像,已經(jīng)過配準(zhǔn)處理,大小為153×193。為便于訓(xùn)練,我們將圖像大小統(tǒng)一調(diào)整到256×256,共得到 658張 CT、658張MRI與658張標(biāo)記圖;采用二折交叉驗證的方式,第一折使用前11個患者的樣本作為訓(xùn)練集,后11個患者的樣本作為測試集進(jìn)行測試;第二折使用后11個患者的樣本作為訓(xùn)練集,前11個患者的樣本作為測試集進(jìn)行測試。
為加快模型的訓(xùn)練速度,優(yōu)化訓(xùn)練過程,我們對數(shù)據(jù)集進(jìn)行了歸一化處理。歸一化操作定義為
式中:X為圖像像素,μ為圖像像素值的均值,σ為圖像像素值的標(biāo)準(zhǔn)差。
本文是在深度學(xué)習(xí)框架Caffe[22]上進(jìn)行的實驗。在模型的訓(xùn)練階段批處理參數(shù)設(shè)置為2,測試階段的批處理設(shè)置為1,使用隨機(jī)梯度下降[23]求解器與0.9的動量參數(shù),固定策略的學(xué)習(xí)率,大小為10-6,權(quán)重衰減為0.005。
我們使用常用的重合率(Dice)、查準(zhǔn)率(Precision)、查全率(Recall)指標(biāo)[24]來度量自動分割圖像與手工標(biāo)記圖像之間的差異,以用于評價實驗結(jié)果。
定義公式如下:
式中:AS為自動分割圖像,MS為醫(yī)生手工標(biāo)記圖像。
本節(jié)通過3個實驗來驗證我們的方法的有效性。
實驗1 為評估MRI模型指導(dǎo)CT圖像分割的精度,我們使用PROMISE12數(shù)據(jù)集訓(xùn)練MRI-unet,獲得的模型作為初始模型用于訓(xùn)練Prostate數(shù)據(jù)集里的MRI圖像,訓(xùn)練后得到MRI參數(shù)模型。將MRI參數(shù)模型進(jìn)行遷移學(xué)習(xí)得到CT-unet模型,用于對CT測試圖像進(jìn)行分割,該方法記作 MRI→CT-unet;
實驗2 為評估CT-MRI模型指導(dǎo)CT圖像分割的精度,我們使用Prostate數(shù)據(jù)集里的MRI與CT圖像構(gòu)造CT-MRI圖像,使用實驗1里的MRI參數(shù)模型作為初始模型訓(xùn)練CT-MRI圖像,得到的CT-MRI模型再遷移到用于CT圖像分割的CT-unet中,用于對CT測試圖像進(jìn)行分割,該方法記作 CT-MRI→CT-unet;
實驗3 為評估并驗證文中提出的MM-unet模型的有效性,我們使用實驗1的MRI參數(shù)模型、實驗2中通過CT-MRI參數(shù)模型遷移學(xué)習(xí)后的CT參數(shù)模型,分別作為MM-unet模型的MRI部分與CT部分的初始模型進(jìn)行訓(xùn)練,得到的多模態(tài)參數(shù)模型用于對CT測試圖像進(jìn)行分割,該方法記作MM-unet。
3個實驗的CT圖像分割結(jié)果如表1所示。從表格中可看出,第2個方法因為構(gòu)造的CT-MRI圖像減少了MRI與CT圖像的外觀差異,使其指導(dǎo)CT圖像分割的重合率、查準(zhǔn)率、查全率均高于第一個方法;相比前兩個方法,第3個方法的重合率、查全率最高。
表 1 CT圖像分割實驗結(jié)果Table 1 Experimental results of CT segmentation %
使用統(tǒng)計性t檢驗對MM-unet模型方法與其他方法的重合率Dice進(jìn)行比較,P值小于0.05,說明MM-unet顯著地優(yōu)于其他方法。
本節(jié)將我們的方法(即上述實驗中表現(xiàn)最好的MM-unet方法)與U-net模型方法[18]、CDDA模型[14]方法、無初參的MM-unet模型方法作比較,評價分割結(jié)果如表2所示。
表 2 不同模型的實驗結(jié)果對比Table 2 Comparisons of experimental results on different models %
為進(jìn)一步展示所提方法的分割優(yōu)勢,部分圖像可視化結(jié)果如圖4所示,紅色方框為醫(yī)生手工標(biāo)注的前列腺癌病變部分。第1排圖像綠色方框為U-net模型分割的病變部分,第2排圖像藍(lán)色方框為遷移學(xué)習(xí)的MM-unet模型分割病變的部分。
通過表2與圖4顯示,與U-net模型相比,我們的MM-unet模型方法分割效果有明顯優(yōu)勢,重合率、查準(zhǔn)率、查全率分別提升了3.31%、0.48%、5.61%,分割邊界更接近于由醫(yī)生標(biāo)注的真實標(biāo)記。
圖4 兩個模型分割CT圖像的可視化結(jié)果Fig. 4 Visual results of two models for CT segmentation
本文中,我們提出了基于多模態(tài)U形網(wǎng)絡(luò)實現(xiàn)CT圖像前列腺癌分割的方法。該方法利用了MRI圖像高分辨率與多模態(tài)圖像信息互補(bǔ)的特點,構(gòu)建基于MRI與CT圖像的多模態(tài)深度學(xué)習(xí)模型指導(dǎo)CT圖像學(xué)習(xí)前列腺癌分割。實驗結(jié)果表明,我們的方法可以有效地提高CT圖像分割精度。本文提出的多模態(tài)U形模型分割CT圖像的方法適用于CT/MRI已進(jìn)行配準(zhǔn)匹配的前列腺癌數(shù)據(jù)集,對于未進(jìn)行配準(zhǔn)的數(shù)據(jù)集和其他非前列腺癌的數(shù)據(jù)集有待進(jìn)一步驗證。