賈田菊,馬彥云,李延濤,武慧慧,寧艷云,崔曹哲,李燈熬#
(1山西醫(yī)科大學(xué)影像系,太原 030001;2山西醫(yī)科大學(xué)第一醫(yī)院放射科;3太原理工大學(xué)大數(shù)據(jù)學(xué)院智能感知與大數(shù)據(jù)研究所;*通訊作者,E-mail:tym-y-y@163.com;#共同通訊作者,E-mail:lidengao@tyut.edu.cn)
乳腺X線密度(mammographic density,MD)簡稱乳腺密度,是在全數(shù)字化乳腺X線攝影(full-field digital mammography,FFDM)圖像上乳腺纖維實(shí)質(zhì)與脂肪組織相對量的度量,用以客觀評估乳腺腺體組織相對量[1]。近年來,越來越多的研究表明乳腺密度與乳腺癌的發(fā)病風(fēng)險(xiǎn)密切相關(guān)[2,3]。研究表明乳腺X線篩查乳腺癌的敏感性很大程度上取決于乳腺密度,對于乳腺密度較低的乳房,乳腺X線靈敏度為87%,對于致密型乳腺,靈敏度下降至63%[3],故致密型乳腺的患者需要聯(lián)合其他檢查(如乳腺斷層融合技術(shù)DBT,超聲和乳腺M(fèi)RI)來增加檢出靈敏度。
目前,乳腺密度的評估主要通過放射科醫(yī)師及計(jì)算機(jī)成像系統(tǒng)和相關(guān)輔助軟件進(jìn)行判斷和計(jì)算,主要評估方法有定量和定性兩類,定量方法主要是借助計(jì)算機(jī)成像系統(tǒng)和半自動(dòng)診斷系統(tǒng),但目前未常規(guī)用于臨床。定性方法主要是通過放射科醫(yī)師的視覺主觀評估對乳腺密度分類,包括Wolfe標(biāo)準(zhǔn)[4],Tabar分類[5]和廣泛使用的乳腺影像和報(bào)告數(shù)據(jù)系統(tǒng)(BI-RADS)標(biāo)準(zhǔn)等分類方法[6]。BI-RADS分類是由美國放射學(xué)分會(huì)指南推薦使用的分類標(biāo)準(zhǔn),目前在多個(gè)國家較為通用,其將乳腺密度分為四類:a為脂肪型、b為散在纖維腺體型、c為不均勻致密型、d為極度致密型。盡管有研究表明,放射科醫(yī)師在經(jīng)過適當(dāng)?shù)呐嘤?xùn)后,定性評估BI-RADS等級密度的結(jié)果具有高度的可重復(fù)性和一致性[7],但評估是主觀的,在放射科醫(yī)師之間的差異性仍較大[8],無法準(zhǔn)確評估乳腺密度,從而無法準(zhǔn)確檢出乳腺病變及早期篩查乳腺癌。
傳統(tǒng)的機(jī)器學(xué)習(xí)依賴于人工特征提取過程,但人工特征提取過程困難且耗時(shí),其發(fā)展始終受限,且類似乳腺密度研究本身難以進(jìn)行特征提取。可自動(dòng)提取特征的深度學(xué)習(xí)解決了這一難題,同時(shí)也促使近幾年來人工智能的迅速發(fā)展。目前深度學(xué)習(xí)已成功應(yīng)用在各個(gè)方面,在醫(yī)學(xué)成像方面亦有建樹,本研究試圖通過深度學(xué)習(xí)的方法解決上述問題。在大數(shù)據(jù)訓(xùn)練的基礎(chǔ)上,深度學(xué)習(xí)在人工智能的應(yīng)用中已表現(xiàn)出良好的性能,在生物醫(yī)學(xué)成像方面,深度學(xué)習(xí)可用于胸腹部淋巴結(jié)的檢測、肺部結(jié)節(jié)檢測及病理鑒定[9,10]、乳腺病變的檢測和診斷[11]及圖像分割[12]。基于深度學(xué)習(xí)在乳腺病變的研究主要集中于疾病的檢測與診斷,而乳腺密度作為乳腺癌主要的危險(xiǎn)因子之一,將深度學(xué)習(xí)的視角聚焦于此,可進(jìn)一步對乳腺癌進(jìn)行風(fēng)險(xiǎn)監(jiān)測與預(yù)防,降低乳腺癌的影響。
本研究結(jié)合了深度學(xué)習(xí)和全數(shù)字化乳腺X線攝影檢查,對乳腺密度進(jìn)行分類,旨在大數(shù)據(jù)學(xué)習(xí)的基礎(chǔ)上,構(gòu)建基于深度學(xué)習(xí)的乳腺密度分類模型,對乳腺密度進(jìn)行準(zhǔn)確、客觀、標(biāo)準(zhǔn)化的分類,并有望整合于臨床常規(guī)流程中。
回顧性分析在我院2015-08~2018-02間行全數(shù)字化乳腺X線攝影檢查的患者4 549例(包括22例單側(cè)乳房切除患者)共18 152幅圖像,患者均為女性,平均年齡為43歲,所有病例均為正?;蚍侨橄侔┗颊?并且無部分切除手術(shù)史和假體植入史。所有圖像均由Hologic全數(shù)字化乳腺機(jī)獲得,投照位置均為雙側(cè)乳腺(術(shù)后患者為單側(cè)乳腺)的內(nèi)外側(cè)斜位(MLO位)和頭尾位(CC位)。根據(jù)第五版ACR制定的BI-RADS標(biāo)準(zhǔn),由兩位有經(jīng)驗(yàn)的放射科醫(yī)師對乳腺密度進(jìn)行雙盲評估,并分別記錄乳腺密度評估結(jié)果,若兩位評估結(jié)果一致,則為最終評估結(jié)果;若兩位評估結(jié)果不一致,則由兩位協(xié)商達(dá)成統(tǒng)一意見后作為最終的評估結(jié)果。
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)作為深度學(xué)習(xí)的經(jīng)典網(wǎng)絡(luò),已經(jīng)在醫(yī)學(xué)圖像中表現(xiàn)出了良好的分類性能,其具有極強(qiáng)的適應(yīng)性,善于挖掘數(shù)據(jù)局部特征,提取全局?jǐn)?shù)據(jù)特征和分類,CNN通常包括以下幾種層:卷積層,線性整流層,池化層和全連接層,常見的CNN架構(gòu)是堆疊幾個(gè)卷積層和整流層,再加一個(gè)池化層,然后使用全連接層控制輸出。在此基礎(chǔ)上搭建不同的網(wǎng)絡(luò)模型,例如Lenet、Alexnet、Resnet等模型。網(wǎng)絡(luò)的深度對模型的性能至關(guān)重要,網(wǎng)絡(luò)層數(shù)的增加,可進(jìn)行更復(fù)雜的特征提取,理論上是可以取得更好的成果,然而實(shí)際上隨著網(wǎng)絡(luò)深度增加出現(xiàn)了網(wǎng)絡(luò)退化問題,深層的網(wǎng)絡(luò)存在梯度消失或者梯度爆炸的問題,使得深度學(xué)習(xí)模型難以進(jìn)行訓(xùn)練。醫(yī)學(xué)圖像的特殊性要求網(wǎng)絡(luò)不斷進(jìn)行加深,所以本研究采用CNN基礎(chǔ)上更深層次的網(wǎng)絡(luò)模型:深度殘差網(wǎng)絡(luò)(deep residual network,ResNet)中的ResNet 50(見表1),該模型特征之處在于,在網(wǎng)絡(luò)加深的基礎(chǔ)上采用特有的殘差網(wǎng)絡(luò)塊通過恒等映射解決了網(wǎng)絡(luò)性能退化的問題,并同時(shí)減少了運(yùn)算的參數(shù)量,其次歸一原始化有效解決了隨著網(wǎng)絡(luò)加深出現(xiàn)的梯度消失問題,并使網(wǎng)絡(luò)收斂。因此采用ResNet 50模型,能更好地訓(xùn)練更深層的CNN,提高圖像分類和目標(biāo)檢測的準(zhǔn)確性。
表1 ResNet 50的具體結(jié)構(gòu)
本研究的分類任務(wù)選用相對較好的交叉熵?fù)p失函數(shù),用來估計(jì)模型預(yù)測值與真實(shí)值的不一致程度,損失函數(shù)越小,模型的魯棒性就越好。同時(shí)選取目前最好的Adam優(yōu)化方式,用來更新和計(jì)算影響模型訓(xùn)練和模型輸出的網(wǎng)絡(luò)參數(shù),使其逼近或達(dá)到最優(yōu)值,從而使損失函數(shù)最小化。
本次研究計(jì)算機(jī)安裝的是Ubuntu 18.04操作系統(tǒng),在兩塊Titan 1080顯卡上完成運(yùn)行,并在pytorch框架上進(jìn)行網(wǎng)絡(luò)的構(gòu)建。
圖像處理:所有原始圖像均經(jīng)歷一個(gè)簡單去背景過程,將包含乳腺的最小矩形從整幅圖像中分割出來(見圖1),由于乳腺大小的個(gè)體差異較大,將圖像統(tǒng)一調(diào)整為512×512像素。
兩位醫(yī)師對乳腺密度雙盲評定的最終結(jié)果為:a類1 256幅(占6.9%)、b類7 074幅(占39.0%)、c類8 542幅(占47.1%)、d類1 280幅(占7.1%),本研究將圖像數(shù)據(jù)分為小數(shù)據(jù)集(使用METLAB軟件隨機(jī)抽取各類圖像1 000幅,共4 000幅)和原始數(shù)據(jù)集(18 152幅)分別進(jìn)行實(shí)驗(yàn),兩次實(shí)驗(yàn)使用的ResNet模型均各自進(jìn)行了微調(diào)過程。
我們使用MATLAB軟件進(jìn)行統(tǒng)計(jì)學(xué)分析,記錄并計(jì)算隨著迭代次數(shù)增加的各類準(zhǔn)確性,使用受試者工作特性曲線(ROC)和曲線下面積(AUC)評估模型的分類性能。
A.右側(cè)乳腺CC位的原始圖像;B.右側(cè)乳腺CC位的簡單去除背景后的圖像圖1 原始圖像與去背景圖像Figure 1 Original image and background image removed
為了訓(xùn)練和測試CNN模型,將小數(shù)據(jù)集隨機(jī)混合并按乳腺密度進(jìn)行分層,按8 ∶2分為訓(xùn)練集和測試集,其中訓(xùn)練集使用十倍交叉驗(yàn)證。在十倍交叉驗(yàn)證中,訓(xùn)練數(shù)據(jù)被分成10個(gè)大小相等的10個(gè)子集,每次10個(gè)子集中的9個(gè)用于訓(xùn)練集,1個(gè)驗(yàn)證集對網(wǎng)絡(luò)進(jìn)行參數(shù)微調(diào),重復(fù)10次取平均AUC;測試集測試其對乳腺密度各個(gè)分類的準(zhǔn)確性。將原始數(shù)據(jù)集按如上的方法進(jìn)行訓(xùn)練和測試,得到平均AUC和準(zhǔn)確率,并將兩次數(shù)據(jù)集的準(zhǔn)確率和AUC對比,對比分析隨著樣本量的增加,準(zhǔn)確率和模型分類性能的變化。
基于深度學(xué)習(xí)的乳腺密度分類模型進(jìn)行分類時(shí),隨著迭代次數(shù)的增加,模型的分類準(zhǔn)確率逐漸趨于穩(wěn)定,當(dāng)使用小數(shù)據(jù)集(使用METLAB軟件隨機(jī)抽取各類圖像1 000幅,共4 000幅)時(shí),不同乳腺密度類別的分類準(zhǔn)確率分別為:a類為91%,b類為86%,c類為84%,d類為90%(見圖2),AUC值為0.893;當(dāng)使用原始數(shù)據(jù)集(18 152幅)時(shí),不同乳腺密度類別的分類準(zhǔn)確率分別為:a類為91%,b類為89%,c類為88%,d類為90%(見圖3),AUC值為0.923(見圖4);與此同時(shí),與小數(shù)據(jù)集相比,b和c的準(zhǔn)確率明顯增加,達(dá)到幾乎與a和d較為一致的準(zhǔn)確率,其AUC值也高于小數(shù)據(jù)集的AUC,說明隨著樣本量的增加,分類模型的分類性能亦逐漸好轉(zhuǎn)。
圖2 模型在小數(shù)據(jù)集訓(xùn)練時(shí)的密度分類準(zhǔn)確性Figure 2 Density classification accuracy of the model in small data set training
圖3 模型在原始數(shù)據(jù)集時(shí)的密度分類準(zhǔn)確性Figure 3 Density classification accuracy of the model in the original data set
圖4 模型在不同數(shù)據(jù)集時(shí)的乳腺密度分類性能的ROC曲線Figure 4 ROC curve of breast density classification performance of the model in different data sets
乳腺密度作為乳腺癌最重要的危險(xiǎn)因素之一,可用于乳腺癌風(fēng)險(xiǎn)評估預(yù)測和監(jiān)控中以及確定個(gè)體化乳腺癌篩查方案,但目前,乳腺密度評估的不一致性是廣泛存在的問題。隨著深度學(xué)習(xí)的興起,在無手工特征提取的圖像中,深度學(xué)習(xí)已經(jīng)顯示出良好的圖像識(shí)別和分類能力,在醫(yī)學(xué)方面的應(yīng)用逐漸增多,已有學(xué)者將深度學(xué)習(xí)引入乳腺疾病的檢出和診斷,甚至乳腺病理切片的研究,但僅有少量研究將深度學(xué)習(xí)用于乳腺密度的測量及分類,乳腺密度作為乳腺癌的危險(xiǎn)因素之一,對其研究刻不容緩。本研究的乳房密度定性評估的特征提取過程尤其困難,而構(gòu)建的模型可以直接模擬放射科醫(yī)師做出視覺評估,但難以判斷其是模擬的具體哪部分信息。這也就決定了乳腺密度分類更適合用于無需手工特征提取的深度學(xué)習(xí)方法,因此,本研究首先構(gòu)建了一個(gè)基于深度學(xué)習(xí)的乳腺密度分類模型,該模型通過學(xué)習(xí)大量由放射科醫(yī)師分類的圖像后能自動(dòng)對乳腺密度進(jìn)行評估分類。該方法避免了手工特征提取的過程,預(yù)期會(huì)達(dá)到更為一致的乳房密度評估,從而有助于改進(jìn)當(dāng)前的乳腺密度定性評估并應(yīng)用于臨床中。此外,通過人工智能對乳腺密度進(jìn)行客觀評估,可以準(zhǔn)確地評估個(gè)體患者和大型普篩的乳腺癌風(fēng)險(xiǎn)[13]。
Mohamed等[14]的研究表明,其構(gòu)建的CNN模型可以準(zhǔn)確評估b和c的分類,CNN模型區(qū)分b類和c類的準(zhǔn)確率為94%,當(dāng)刪除部分質(zhì)量較差的圖像數(shù)據(jù)時(shí),分類準(zhǔn)確率增加到98%。本研究中,分類模型對a和d的分類準(zhǔn)確率較高,在90%左右,也是因?yàn)樵谂R床工作中,放射科醫(yī)師的視覺評估很容易區(qū)分,而b和c的分類準(zhǔn)確率欠佳,但在增加數(shù)據(jù)量之后,準(zhǔn)確率得到了相應(yīng)的提高,說明隨著數(shù)據(jù)量的增加,本研究所構(gòu)建的分類模型可以達(dá)到較好的分類準(zhǔn)確率,具有較好的分類性能。相較于之前的視覺評估過程,基于深度學(xué)習(xí)的乳腺密度分類模型可對乳腺密度進(jìn)行較為準(zhǔn)確、客觀的評估。
本研究分類的準(zhǔn)確率低于前者的研究成果,究其原因可能是:①所使用的網(wǎng)絡(luò)模型及其優(yōu)化過程不同所致;②本研究中采用的乳腺密度的評估方法是ACR提供的BI-RADS分類標(biāo)準(zhǔn),屬于定性評估,主要依靠放射科醫(yī)師主觀進(jìn)行判斷,雖然采取了雙盲閱片診斷,但仍無法完全避免閱片診斷誤差;③本研究始終保持與ACR BI-RADS標(biāo)準(zhǔn)相一致的四分類,符合常規(guī)臨床診斷需求,但也就出現(xiàn)了準(zhǔn)確率較低的情況;④主要原因還是本研究目前納入訓(xùn)練的數(shù)據(jù)量仍是有限的,對于深度學(xué)習(xí)的需求仍遠(yuǎn)遠(yuǎn)不夠。所以,下一步需要擴(kuò)大數(shù)據(jù)集,進(jìn)一步規(guī)范放射科醫(yī)師的視覺評估或納入多位資深醫(yī)師的評估,使得原始數(shù)據(jù)集更大、更準(zhǔn)確,模型更為成熟。
本研究的創(chuàng)新點(diǎn)在于:①將卷積神經(jīng)網(wǎng)絡(luò)模型ResNet 50用于乳腺密度分類任務(wù)。②所研究數(shù)據(jù)直接采用醫(yī)院的真實(shí)數(shù)據(jù),真實(shí)反映乳腺圖像的個(gè)體差異性;受檢患者的年齡段較為集中,b類和c類的數(shù)據(jù)量較大,同時(shí)也反映了乳腺密度的分布;將乳腺密度按BI-RADS分類分為四類符合常規(guī)臨床診斷。有相關(guān)研究[1]表明將乳腺密度按照脂肪型和致密型分類后,未發(fā)現(xiàn)乳腺密度與乳腺癌風(fēng)險(xiǎn)之間的相關(guān)性,但按照BI-RADS標(biāo)準(zhǔn)分為四類后,發(fā)現(xiàn)乳腺密度與乳腺癌風(fēng)險(xiǎn)是相關(guān)的。所以本次研究根據(jù)BI-RADS標(biāo)準(zhǔn)的四分類具有一定的臨床意義。
雖然本次研究著重點(diǎn)在于乳腺密度的定性評估,但作者認(rèn)為,乳腺密度的定性評估應(yīng)該與定量評估相結(jié)合,目前所用的計(jì)算機(jī)成像系統(tǒng)已安裝Quantra定量分析軟件,接下來可以將二者結(jié)合起來更好地用于乳腺密度的準(zhǔn)確評估,為進(jìn)一步研究深度學(xué)習(xí)從二者結(jié)合的角度對乳腺密度更為精準(zhǔn)的分類奠定基礎(chǔ)。
總之,本研究所構(gòu)建的基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)分類模型能夠以較高的準(zhǔn)確率對乳腺密度進(jìn)行自動(dòng)分類;可作為一種潛在的計(jì)算機(jī)化工具,協(xié)助放射科醫(yī)師在臨床工作中對乳腺密度進(jìn)行準(zhǔn)確、一致的分類;預(yù)計(jì),該模型將有助于乳腺病變的檢出及乳腺癌的早期篩查,并有望為預(yù)防乳腺癌提供科學(xué)依據(jù)。