趙清一,林勇
上海理工大學(xué)健康科學(xué)與工程學(xué)院,上海 200093
乳腺癌是女性常見的癌癥,早期篩查及準(zhǔn)確的診斷和治療是應(yīng)對(duì)乳腺癌的重要方法[1]。乳腺癌分子分型標(biāo)準(zhǔn)是一種基于基因表達(dá)和免疫組織化學(xué)分析方法的乳腺癌分類標(biāo)準(zhǔn)。1999年,美國(guó)國(guó)家癌癥研究中心首次提出乳腺癌分子分型概念[2]。2000年,Perou 等[3]首次將乳腺癌分為雌激素受體(Estrogen Receptor,ER)陽(yáng)性和ER 陰性。2009年,Cheang 等[4]用孕激素受體(Progesterone Receptor,PR)、ER、人類表皮生長(zhǎng)因子受體2(Human Epidermal Growth Factor Receptor 2,HER-2)和Ki-67 4 種免疫組化指標(biāo)將乳腺癌分為luminal A、luminal B、HER-2+和Basallike 4 種類型。以上4 種不同的乳腺癌分子分型在治療方案和預(yù)后有較大的差異,因此準(zhǔn)確的診斷乳腺癌分子分型對(duì)乳腺癌的臨床治療有重要的參考作用[5-7]。
目前傳統(tǒng)的乳腺癌分子分型檢測(cè)方法為免疫組織化學(xué)分析方法,該方法需要進(jìn)行穿刺檢查不僅會(huì)對(duì)患者造成創(chuàng)傷,并且有一定誤診幾率[8]。美國(guó)臨床腫瘤協(xié)會(huì)指出,全世界大約20%的免疫組織化學(xué)分析法得到的結(jié)果是不正確的[9]。因此,研究者嘗試通過醫(yī)學(xué)影像對(duì)乳腺癌分子分型進(jìn)行診斷,并且已經(jīng)得到一些研究成果。王世健等[10]提出半自動(dòng)特征提取方法,提取DCE-MRI圖像中形態(tài)特征、紋理特征以及動(dòng)態(tài)增強(qiáng)特征等65維影像特征。利用邏輯回歸方法評(píng)估影像特征和分子分型之間的關(guān)聯(lián)性。但王世健等[10]提出的半自動(dòng)特征提取方法較為復(fù)雜且需要人工選擇特征,存在一定的主觀性,難以科學(xué)準(zhǔn)確地預(yù)測(cè)乳腺癌的分子分型。任湘等[11]通過卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)乳腺癌分子分型,但其僅使用了結(jié)構(gòu)較為簡(jiǎn)單的卷積神經(jīng)網(wǎng)絡(luò),并且使用的MRI 圖像只有乳腺癌結(jié)構(gòu)信息不包含乳腺癌分子信息,得到的曲線下面積(Area Under Curve,AUC)值最高為0.697,預(yù)測(cè)效果一般。以上研究存在方法繁縟,模型簡(jiǎn)單且準(zhǔn)確率較低等不足。
針對(duì)以上方法的不足,本文創(chuàng)新性地基于遷移學(xué)習(xí),選取Xception 深度卷積神經(jīng)網(wǎng)絡(luò),使用基于ImageNet 數(shù)據(jù)集的預(yù)訓(xùn)練權(quán)重進(jìn)行參數(shù)微調(diào),再?gòu)木W(wǎng)絡(luò)中提取特征輸入到支持向量機(jī)(Support Vector Machine,SVM)中,從而實(shí)現(xiàn)對(duì)乳腺癌分子分型分類預(yù)測(cè)。通過對(duì)75 例樣本進(jìn)行訓(xùn)練和測(cè)試,測(cè)試實(shí)驗(yàn)結(jié)果表明,本文提出的基于Xception 網(wǎng)絡(luò)結(jié)合SVM的方法有效提高了乳腺癌分子分型預(yù)測(cè)準(zhǔn)確率。
本文回顧了2012年2月~2018年7月75 例乳腺癌患者的PET/CT 圖像和乳腺癌分子分型信息,PET/CT 圖像來源于復(fù)旦大學(xué)附屬腫瘤醫(yī)院,使用18F-FDG 顯像劑,德國(guó)西門子公司PET/CT 機(jī)器進(jìn)行采集,其中CT 圖像的大小為512×512,PET 圖像的大小為168×168。使用總樣本的80%作為訓(xùn)練集,20%作為測(cè)試集。luminal B 型是最常見的乳腺癌分子分型且診療方案和預(yù)后與其它3 種分子分型有較大的差別,并且luminal B 型乳腺癌淋巴結(jié)轉(zhuǎn)移率明顯高于其它分子分型[12]。因此本文將75例病例分為luminal B 和非luminal B 兩類,對(duì)luminal B 型和非luminal B型進(jìn)行二分類預(yù)測(cè)研究。在75例乳腺癌患者中,luminal B 型有40例;非luminal B 型有35例,其中HER-2+有16 例,Basal-like 有17 例,luminal A有2例。
數(shù)據(jù)預(yù)處理步驟有腫瘤標(biāo)記、RGB 多通道圖像融合、數(shù)據(jù)擴(kuò)增和歸一化操作。首先由資深醫(yī)生使用專業(yè)醫(yī)學(xué)軟件ITK-SNAP 在PET 圖像上對(duì)腫瘤區(qū)域進(jìn)行分割標(biāo)記,腫瘤區(qū)域標(biāo)記有助于去除圖像中的無(wú)關(guān)信息,使得訓(xùn)練集和測(cè)試集的圖像包含更多的腫瘤信息,有助于提升模型的準(zhǔn)確率。CT 圖像、PET圖像、腫瘤標(biāo)記圖像如圖1所示。
圖1 CT圖像、PET圖像、腫瘤標(biāo)記圖像Figure 1 CT image,PET image and tumor marker image
文明等[13]提出醫(yī)學(xué)圖像融合可以將人體組織和器官的功能、代謝以及相應(yīng)的解剖結(jié)構(gòu)相結(jié)合,利用多種成像方法的各自優(yōu)勢(shì),從而顯著提高影像診斷的準(zhǔn)確性和臨床治療水平。本文中的乳腺癌PET 圖像包含了生物分子代謝、受體及神經(jīng)介質(zhì)活動(dòng)等信息,包含了腫瘤分子層面的信息[14-16]。CT 圖像則包含了生物組織結(jié)構(gòu)信息和紋理信息[17-20]。醫(yī)生標(biāo)記的病灶圖像則包含了腫瘤病灶信息。本文使用專業(yè)圖像處理軟件Image J對(duì)以上3種圖像進(jìn)行RGB多通道融合,生成多種關(guān)聯(lián)生物信息的圖像,便于之后圖像的特征提取和分類[21]。
在進(jìn)行腫瘤標(biāo)記和圖像多通道融合之后,截取包含腫瘤區(qū)域在內(nèi)的大小為66×66 的圖像作為感興趣區(qū)域。同時(shí),選取同一序列腫瘤橫截面最大的圖像,并且選取其前后各兩張圖像,一共5 張圖像切片作為構(gòu)建網(wǎng)絡(luò)模型的圖像數(shù)據(jù)。75 例樣本一共得到375張?jiān)紙D像。再對(duì)375張?jiān)紙D像采用旋轉(zhuǎn)和鏡像翻轉(zhuǎn)的方法進(jìn)行數(shù)據(jù)擴(kuò)增,首先將原始圖像順時(shí)針旋轉(zhuǎn)30°、60°、90°、120°、180°、210°、240°、270°、300°,得到變換后的圖像,其次將圖像進(jìn)行鏡像翻轉(zhuǎn)。原本樣本數(shù)量為375 張,數(shù)據(jù)擴(kuò)增10 倍之后擴(kuò)充至4 125 張,其中訓(xùn)練集3 300 張,占總數(shù)據(jù)量的80%,測(cè)試集825 張,占總數(shù)據(jù)量的20%。最后為了有效地收斂到最優(yōu),找到最優(yōu)解,本文使用最值歸一化將所有數(shù)據(jù)歸一化到0 到1 之間。歸一化之后的數(shù)據(jù)使得網(wǎng)絡(luò)收斂時(shí)更加平順[22-23]。
研究表明,應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)提取影像特征,再通過機(jī)器學(xué)習(xí)進(jìn)行分類可提高醫(yī)學(xué)圖像分類的準(zhǔn)確性。例如Teramoto等[24]提出在肺結(jié)節(jié)診斷中,首先使用卷積網(wǎng)絡(luò)提取特征,再使用機(jī)器學(xué)習(xí)方法進(jìn)行分類可以有效提高肺結(jié)節(jié)診斷準(zhǔn)確率。因此,本文采用ImageNet 數(shù)據(jù)集預(yù)訓(xùn)練的Xception 網(wǎng)絡(luò)提取乳腺癌的特征,并通過機(jī)器學(xué)習(xí)中經(jīng)典的SVM 算法實(shí)現(xiàn)luminal B和非luminal B的二分類。
1.2.1 分析流程設(shè)計(jì)Xception+SVM 方法的分析流程如圖2 所示。首先是數(shù)據(jù)預(yù)處理,該步驟在1.1 中已經(jīng)說明,不再贅述。預(yù)處理后的標(biāo)注圖像作為訓(xùn)練集對(duì)在ImageNet 數(shù)據(jù)集訓(xùn)練過的Xception 網(wǎng)絡(luò)參數(shù)進(jìn)行微調(diào),得到最優(yōu)網(wǎng)絡(luò)模型。然后使用SVM 替代Xception 網(wǎng)絡(luò)的全連接層,使用不含全連接層的Xception 網(wǎng)絡(luò)提取特征,再將特征作為訓(xùn)練數(shù)據(jù),對(duì)SVM進(jìn)行訓(xùn)練,最后使用測(cè)試集測(cè)試網(wǎng)絡(luò)的性能。
圖2 本文方法的分析流程圖Figure 2 Flowchart of analysis by the proposed method
1.2.2 網(wǎng)絡(luò)訓(xùn)練Xception+SVM 方法對(duì)乳腺癌非luminal B 和luminal B 進(jìn)行二分類預(yù)測(cè),Xception 是Chollet 等[25]在Inception V3 基礎(chǔ)上改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)。Xception 在基本不增加網(wǎng)絡(luò)復(fù)雜度的前提下提高了模型的性能。Xception 網(wǎng)絡(luò)在ImageNet 數(shù)據(jù)集Top5 的精準(zhǔn)率達(dá)到了0.945,性能非常優(yōu)秀。該網(wǎng)絡(luò)利用深度可分離卷積的設(shè)計(jì)思想,使用可分離卷積(SeparableConv)來替代Inception V3 網(wǎng)絡(luò)中的卷積層。SVM 是一種二元線性分類器,按照監(jiān)督學(xué)習(xí)的方法對(duì)數(shù)據(jù)進(jìn)行分類,通過訓(xùn)練集在特征空間中尋找正負(fù)樣本超平面之間的最佳差異。因?yàn)镾VM在小樣本分類上的優(yōu)異性能,本文選擇SVM 對(duì)圖像進(jìn)行分類。
本文對(duì)Xception 網(wǎng)絡(luò)和SVM進(jìn)行訓(xùn)練,首先將預(yù)處理后的圖像和分子分型信息作為訓(xùn)練集訓(xùn)練在 ImageNet 預(yù)訓(xùn)練過的Xception 網(wǎng)絡(luò)。使用隨機(jī)梯度下降(SGD)算法訓(xùn)練至收斂,并自動(dòng)保存最佳網(wǎng)絡(luò)模型。SGD 算法隨機(jī)從訓(xùn)練集中選擇樣本,在樣本選擇上不需要使用全部的樣本進(jìn)行學(xué)習(xí),只需要選擇部分樣本進(jìn)行學(xué)習(xí),所以其學(xué)習(xí)速度較快,可以快速更新。
在得到Xception 網(wǎng)絡(luò)最優(yōu)模型之后,使用從去除全連接層的Xception 網(wǎng)絡(luò)提取的圖像深度特征對(duì)SVM 進(jìn)行訓(xùn)練。采用高斯核函數(shù)(RBF),設(shè)置懲罰系數(shù)C為1,核函數(shù)系數(shù)gamma為10。本文同時(shí)使用Vgg16+SVM 和GoogleNet+SVM 作為對(duì)比組,對(duì)Vgg16+SVM 和GoogleNet+SVM 進(jìn)行訓(xùn)練和測(cè)試。Xception 網(wǎng)絡(luò)分為3 層,依次為輸入層、中間層以及輸出層,其中輸入層有6 個(gè)SeparableConv,中間層有3 個(gè)SeparableConv,并且中間層需要循環(huán)8次,輸出層有4 個(gè)SeparableConv。Xception 網(wǎng)絡(luò)輸入層的尺寸為(229,229,3)。Xception+SVM 網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)如圖3所示。
圖3 Xception+SVM 網(wǎng)絡(luò)結(jié)構(gòu)圖Figure 3 Xception+SVM network structure diagram
實(shí)驗(yàn)的硬件平臺(tái)中央處理器為英特爾至強(qiáng)Gold 6142 處理器,主頻為2.6 GHz。運(yùn)行內(nèi)存為32 G。實(shí)驗(yàn)軟件環(huán)境為Windows 10,集成開發(fā)軟件為Jetbrains公司的Pycharm,版本為2020.2,python 版本號(hào)為3.6,深度學(xué)習(xí)框架為Keras,版本號(hào)為2.1.6。
采用以單張圖像為單元的評(píng)價(jià)方法,其評(píng)價(jià)標(biāo)準(zhǔn)包括精確率(Precision)、準(zhǔn)確率(Accuracy)、召回率(Recall)、受試者工作特征曲線及其AUC。設(shè)luminal B 為陽(yáng)性,非luminal B 為陰性。乳腺癌圖像對(duì)應(yīng)的分子分型為陽(yáng)性,預(yù)測(cè)為陽(yáng)性,記作真陽(yáng)性(True Positive,TP);乳腺癌圖像對(duì)應(yīng)的分子分型為陽(yáng)性,預(yù)測(cè)為陰性,記作假陰性(False Negative,FN);乳腺癌圖像對(duì)應(yīng)的分子分型為陰性,預(yù)測(cè)為陽(yáng)性,記作假陽(yáng)性(False Positive, FP);乳腺癌圖像對(duì)應(yīng)的分子分型為陰性,預(yù)測(cè)為陰性,記作真陰性(True Negative,TN)。召回率為真陽(yáng)性占整個(gè)陽(yáng)性樣本的比例,公式如下:
精確度為真陽(yáng)性樣本占所有預(yù)測(cè)陽(yáng)性樣本的比例,公式如下:
準(zhǔn)確率是所有預(yù)測(cè)正確的樣本占總樣本的比例,公式如下:
實(shí)驗(yàn)采用10 折交叉驗(yàn)證,本文數(shù)據(jù)集在不同模型中的乳腺癌分子分型分類預(yù)測(cè)結(jié)果如表1所示。
表1 3種模型預(yù)測(cè)結(jié)果比較(± s)Table 1 Comparison of prediction results obtained by 3 models(Mean±SD)
表1 3種模型預(yù)測(cè)結(jié)果比較(± s)Table 1 Comparison of prediction results obtained by 3 models(Mean±SD)
模型Vgg16+SVM GoogleNet+SVM Xception+SVM準(zhǔn)確率0.616±0.047 0.667±0.030 0.687±0.037精確率0.680±0.115 0.711±0.076 0.732±0.089召回率0.658±0.175 0.666±0.111 0.701±0.141 AUC值0.742±0.025 0.768±0.020 0.787±0.012
由表1可以看出,本文使用的Xception+SVM模型的分類準(zhǔn)確率為0.687,相比于使用Vgg16+SVM的分類準(zhǔn)確率0.616和使用GoogleNet+SVM的分類準(zhǔn)確率0.667,分別提高了7.1%和2.0%。使用Xception+SVM模型的精確率為0.732,相比于使用Vgg16+SVM的精確率0.680和使用GoogleNet+SVM的精確率0.711,分別提高了5.2%和2.1%。使用Xception+SVM模型的召回率為0.701,相比于使用Vgg16+SVM的召回率0.658和使用GoogleNet+SVM 的召回率0.666,分別提高了4.3%和3.5%?;谝陨蠑?shù)據(jù),可以得出本文構(gòu)建的Xception+SVM模型的分類準(zhǔn)確率、精確率、召回率均高于另外兩種模型,分類效果最優(yōu)異。本文提出的Xception+SVM模型的分類準(zhǔn)確率為0.687,接近傳統(tǒng)方法的0.8,高于任湘等[11]提出方法的0.653。召回率為0.701,高于任湘等[11]提出方法的0.647。
為了比較上述模型的分類性能,繪制各個(gè)分類器的ROC曲線,具體的ROC曲線圖如圖4所示。同時(shí)基于ROC曲線得出AUC。AUC的值越高表明分類效果越好。使用Xception+SVM、Vgg16+SVM、GoogleNet+SVM模型的AUC分別為0.787、0.742、0.768?;诟鱾€(gè)網(wǎng)絡(luò)的AUC數(shù)據(jù),可以發(fā)現(xiàn)本文提出的Xception+SVM模型的乳腺癌分子分型預(yù)測(cè)效果優(yōu)于Vgg16+SVM模型和GoogleNet+SVM模型。本文提出的Xception+SVM模型AUC 達(dá)到了0.787,高于任湘等[11]提出方法的0.671。測(cè)試結(jié)果表明,本文提出的Xception+SVM模型的準(zhǔn)確率、召回率和AUC值均高于任湘等[11]提出的模型,有效地提高了乳腺癌分子分型預(yù)測(cè)效果。
準(zhǔn)確診斷乳腺癌的分子分型對(duì)乳腺癌的治療尤為關(guān)鍵。本文從臨床的需求出發(fā),以乳腺癌PET/CT圖像為研究對(duì)象,創(chuàng)新性地將遷移學(xué)習(xí)技術(shù)和SVM應(yīng)用于乳腺癌的分子分型預(yù)測(cè)研究,構(gòu)建可信任的乳腺癌分子分型模型,預(yù)測(cè)其分子分型。實(shí)驗(yàn)結(jié)果表明,本文采用的基于Xception網(wǎng)絡(luò)和SVM建立的模型對(duì)乳腺癌分子分型預(yù)測(cè)有一定的效果。為無(wú)創(chuàng)預(yù)測(cè)分子分型開拓了新的方向。本文在乳腺癌分子分型預(yù)測(cè)模型構(gòu)建中,利用遷移學(xué)習(xí)思想,解決了小數(shù)量級(jí)的數(shù)據(jù)集訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)效果不佳的問題,將已經(jīng)在ImageNet數(shù)據(jù)集訓(xùn)練完成的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行遷移,并且用SVM替換原網(wǎng)絡(luò)的全連接層構(gòu)建乳腺癌分子分型預(yù)測(cè)模型。實(shí)驗(yàn)結(jié)果證明,遷移學(xué)習(xí)的使用有效地提升了網(wǎng)絡(luò)的性能。同時(shí)在無(wú)創(chuàng)診斷乳腺癌分子分型方面進(jìn)行了探索性研究。通過遷移學(xué)習(xí)和SVM建立的預(yù)測(cè)模型有一定的預(yù)測(cè)效果,該方法能有效減少患者的痛苦,為無(wú)創(chuàng)診斷乳腺癌分子分型提供了重要的價(jià)值。
圖4 3種模型ROC曲線對(duì)比圖Figure 4 Comparison of ROC curves of 3 models
但本研究仍然存在一些不足。例如由于醫(yī)學(xué)圖像的獲取和標(biāo)注較為困難,導(dǎo)致本文采集到的樣本數(shù)量較少。另外本文提出的網(wǎng)絡(luò)雖然有一定的預(yù)測(cè)效果,但參數(shù)的優(yōu)化還需要進(jìn)一步的提升,預(yù)測(cè)的準(zhǔn)確率與傳統(tǒng)方法相比還有一定的差距。乳腺癌分子分型預(yù)測(cè)研究依然存在巨大的挑戰(zhàn)。在未來的研究中,可以通過改進(jìn)算法、優(yōu)化參數(shù)以及建立大數(shù)據(jù)量的已標(biāo)注乳腺癌圖像數(shù)據(jù)集來提高乳腺癌分子分型預(yù)測(cè)模型的性能。
中國(guó)醫(yī)學(xué)物理學(xué)雜志2022年5期