馬文娟 劉梁生 張 宇 尹 蕊 郭一君 路 紅
乳腺癌是世界范圍內(nèi)女性最常見的惡性腫瘤,國家癌癥中心最新統(tǒng)計(jì)顯示,全國年新發(fā)乳腺癌病例數(shù)達(dá)27.24萬,每年死亡人數(shù)超過7萬,高居女性惡性腫瘤發(fā)病率首位,且發(fā)病率呈明顯上升趨勢[1],已成為女性健康的巨大威脅。人工智能(artificial intelligence,AI)是當(dāng)下醫(yī)療機(jī)構(gòu)、科研、產(chǎn)業(yè)和政府共同關(guān)注的焦點(diǎn)。2017年7月,國務(wù)院印發(fā)《新一代人工智能發(fā)展規(guī)劃》(以下簡稱《規(guī)劃》),提出了面向2030年我國新一代人工智能發(fā)展的指導(dǎo)思想、戰(zhàn)略目標(biāo)、重點(diǎn)任務(wù)和保障措施。在眾多的醫(yī)療信息中,醫(yī)學(xué)影像是疾病篩查和診斷、治療決策的最主要的信息來源。目前,醫(yī)院存儲的信息超過90%是影像信息,影像信息已經(jīng)形成了巨大的數(shù)據(jù)積累。為此,《規(guī)劃》在重點(diǎn)任務(wù)中明確提出:要建立快速精準(zhǔn)的智能醫(yī)療體系。研發(fā)人機(jī)協(xié)同臨床智能診療方案,實(shí)現(xiàn)智能影像識別、病理分型和智能多學(xué)科會診。
影像組學(xué)和深度學(xué)習(xí)算法在現(xiàn)階段被廣泛研究和使用的醫(yī)學(xué)影像人工智能分析的兩大技術(shù)手段,被應(yīng)用于病變的檢測、分割、配準(zhǔn)和分類等任務(wù)中。相關(guān)研究在超聲、CT、PET和MRI等領(lǐng)域取得了一定成績[2-4]。
所謂影像組學(xué),是從醫(yī)學(xué)影像感興趣區(qū)域中挖掘高通量的定量特征空間數(shù)據(jù),使用統(tǒng)計(jì)學(xué)方法篩選出最有價值的影像特征來綜合評價腫瘤的各種表型,用于疾病的診斷、療效評估及預(yù)后預(yù)測。它包括以下幾個步驟:
1.1 圖像獲取
影像組學(xué)的第一步是獲得高質(zhì)量、標(biāo)準(zhǔn)化的影像。用于影像組學(xué)分析的圖像多為醫(yī)學(xué)數(shù)字成像與通信(Digital Imaging and Communications in Medicine,DICOM)格式,DICOM格式是通過對機(jī)器掃描的原始數(shù)據(jù)進(jìn)行重建得到的。然而,影像組學(xué)的圖像采集標(biāo)準(zhǔn)尚未確定。掃描技術(shù)參數(shù)(如輻射劑量、掃描方案、有無造影劑等)的不同、掃描方案(如層厚)的不同、因廠商而異的圖像后處理等都可能導(dǎo)致影像組學(xué)特征參數(shù)的提取。因此,影像組學(xué)特征必須與圖像采集和重建參數(shù)等一起進(jìn)行詳細(xì)描述。
1.2 圖像分割
圖像分割是指把圖像分成若干個特定的、提取具有獨(dú)特性質(zhì)的感興趣區(qū)域的技術(shù)和過程。腫瘤圖像的感興趣區(qū)分割方法主要包括手動、半自動及全自動分割。其中,手動分割圖像是最常用的分割方法,其優(yōu)點(diǎn)在于精度較高,然而該方法較耗時,且受主觀因素影響較大,須由有經(jīng)驗(yàn)的影像醫(yī)生來完成,難以適用于大規(guī)模的病例研究。全自動分割依賴計(jì)算機(jī)技術(shù),適用于大數(shù)據(jù)的研究,自動分割技術(shù)尚不完全成熟,僅部分病變已實(shí)現(xiàn)自動分割,如肺結(jié)節(jié)。半自動分割方法則聯(lián)合了手動分割及全自動分割方法,在由計(jì)算機(jī)算法自動分割后,經(jīng)驗(yàn)豐富的醫(yī)師會手動進(jìn)行輪廓的調(diào)整,使其達(dá)到最佳。半自動分割較手動分割效率高,比全自動分割可信性強(qiáng)。在影像組學(xué)中,它通常是通過有經(jīng)驗(yàn)的影像醫(yī)生人工通過軟件半自動化/自動化來實(shí)現(xiàn)的。
目前,常用的圖像分割軟件包括3Dslicer(https://www.slicer.org/)、ITK (http://www.itksnap.org/) 和ImageJ(https://imagej.nih.gov/ij/)等。
1.3 影像組學(xué)特征提取
圖像分割提取感興趣區(qū)后,需采用高通量方法提取該區(qū)域的圖像定量特征,包括二維和三維特征。二維特征是從單張的二維圖像上提取的圖像信息,三維特征是從多層掃描圖像中提取的三維立體圖像信息。一般來說,二維影像特征的提取更加簡單和快捷,但三維影像學(xué)特征包含有更豐富的腫瘤信息,更能體現(xiàn)瘤內(nèi)的異質(zhì)性。
影像組學(xué)特征包括形態(tài)學(xué)特征、灰度統(tǒng)計(jì)特征、紋理特征及小波特征等。形態(tài)學(xué)特征包含感興趣區(qū)形態(tài)的信息,如表面積、體積和球度等?;叶冉y(tǒng)計(jì)特征評估感興趣區(qū)內(nèi)體素灰度強(qiáng)度直方圖的屬性,如直方圖的灰度平均強(qiáng)度、峰度和偏度等。紋理特征總結(jié)了體素強(qiáng)度在感興趣區(qū)中變化的不同方法,如圖像的粗糙性、同質(zhì)性等)。這些特征可以是在原始圖像上計(jì)算得到的,也可以是在經(jīng)過不同的濾波器后得到(如小波變換)。有許多免費(fèi)的開源軟件、商業(yè)軟件可以實(shí)現(xiàn)特征提取,如3DSlicer(https://www.slicer.org/)、Pyradiomics(https://pyradiomics.readthedocs.io/)等。
1.4 特征降維及模型的建立
影像組學(xué)提取的眾多特征中,并不是所有特征都有意義,尤其是特征數(shù)量大于樣本數(shù)量時,會產(chǎn)生過擬合的現(xiàn)象。因此,需對特征進(jìn)行降維和去冗余,篩選出的最具代表性的特征構(gòu)建與臨床事件相關(guān)的預(yù)測模型。最常用的特征選擇方法包括:過濾法、包裝法、最小絕對收縮和選擇算子法(least absolute shrinkage and selection operator,LASSO)等。預(yù)測模型的建立通常采用機(jī)器學(xué)習(xí)算法,包括決策樹、隨機(jī)森林算法、邏輯回歸、支持向量機(jī)、樸素貝葉斯等,然而對于采用何種機(jī)器學(xué)習(xí)方法才能達(dá)到最佳結(jié)果目前并沒有共識,最佳選擇可能取決于研究中使用的特定數(shù)據(jù)集。
深度學(xué)習(xí)在醫(yī)學(xué)圖像分析與診斷中的一個重要應(yīng)用就是目標(biāo)檢測與分類。不同于影像組學(xué)的人工提取特征、機(jī)器學(xué)習(xí)分類,深度學(xué)習(xí)減少了人工提取特征或規(guī)則的步驟,可以從原始數(shù)據(jù)中自動學(xué)習(xí)特征,這種學(xué)習(xí)方式稱為端對端(end?to?end)學(xué)習(xí)。該方法通過組合低層次特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)層數(shù)很多,寬度很廣,理論上可以映射到任意函數(shù),能解決很復(fù)雜的問題,然而它高度依賴數(shù)據(jù)量,數(shù)據(jù)量越大,解決問題的能力就越好。由于影像數(shù)據(jù)量的限制,目前應(yīng)用最多的是遷移學(xué)習(xí),其本質(zhì)上是利用預(yù)先訓(xùn)練好的模型(通常是在自然圖像上)來解決深度學(xué)習(xí)算法對大數(shù)據(jù)集進(jìn)行訓(xùn)練需求。目前被廣泛應(yīng)用的遷移算法包括兩種:①使用預(yù)先訓(xùn)練好的模型進(jìn)行特征提?。虎趯︻A(yù)先訓(xùn)練好的模型進(jìn)行微調(diào)。在影像數(shù)據(jù)資源有限的醫(yī)療領(lǐng)域,更高效、所需影像數(shù)據(jù)更少的遷移學(xué)習(xí)將會成為人工智能發(fā)展的熱點(diǎn)以和應(yīng)用的驅(qū)動力。
目前,乳腺影像AI技術(shù)的應(yīng)用和研究已取得較大進(jìn)展,根據(jù)臨床需求研究內(nèi)容主要包括乳腺病變的檢出及良惡性診斷、乳腺癌患者新輔助化療療效的預(yù)測、乳腺癌患者的預(yù)后預(yù)測等方面。
已有研究表明,乳腺X線人工智能系統(tǒng)不僅可以有效減少影像醫(yī)生的工作量[5],且在乳腺癌篩查中可達(dá)到與影像醫(yī)生相近甚至更高的準(zhǔn)確率,可降低篩查中間期癌的發(fā)生率[6]。在良惡性的鑒別診斷方面,大量研究表明MRI、超聲及X線中人工智能技術(shù)同樣具有優(yōu)勢。如Herent等[7]采用深度學(xué)習(xí)算法來對MRI圖像中的腫塊進(jìn)行評估,將病變分為以下乳腺、良性病變、浸潤性導(dǎo)管癌和其他惡性病變四類來讓模型進(jìn)行分類評估,最終模型獲得的AUC值達(dá)0.816,表現(xiàn)出了良好的分類能力。Ciritsis等[8]采用深度卷積神經(jīng)網(wǎng)絡(luò)模型對乳腺超聲圖像中的病變進(jìn)行分類,該模型在BI?RADS 2和BI?RADS 3~5類病變的診斷準(zhǔn)確率為87.1%;在BI?RADS 2~3與BI?RADS 4~5類中的診斷準(zhǔn)確率為93.1%。
乳腺癌新輔助化療(neoadjuvant chemotherapy,NAC)通常用于局部晚期、原發(fā)病灶大于3 cm的乳腺癌患者,其優(yōu)點(diǎn)是能在術(shù)前縮小腫瘤體積、將不能手術(shù)的病灶轉(zhuǎn)化為可切除的病灶、提高保乳率、減少不必要的腋窩清掃[9]。手術(shù)切除標(biāo)本的組織病理學(xué)檢查是評估治療反應(yīng)的金標(biāo)準(zhǔn),但其具有滯后性。術(shù)前能否非侵入性地、準(zhǔn)確、安全地評估病理學(xué)完全緩解(pathologic complete response,pCR)目前仍是一項(xiàng)挑戰(zhàn)。然而,由于不同患者之間存在個體化差異,對NAC的反應(yīng)也不盡相同,部分乳腺癌患者可能在進(jìn)行新輔助化療后無法取得理想的化療效果,因此準(zhǔn)確評估乳腺癌化療后反應(yīng)十分重要。
采用乳腺癌影像信息進(jìn)行NAC療效的預(yù)測多集中在MRI和超聲圖像上,如陳杭[10]采用影像組學(xué)和縱向時間分析方法構(gòu)建預(yù)測模型,通過化療前和化療早期DCE?MRI影像證明了其與NAC療效存在一定的關(guān)聯(lián)。Jiang等[11]對經(jīng)活檢證實(shí)為局部晚期乳腺癌患者提取治療前后腫瘤的超聲組學(xué)特征構(gòu)建深度學(xué)習(xí)超聲組學(xué)諾模圖(Nomogram)模型進(jìn)行術(shù)前評估乳腺癌NAC后的PCR,結(jié)果顯示該模型可準(zhǔn)確的預(yù)測PCR,可為個體化治療提供有價值的信息。
乳腺癌的復(fù)發(fā)及轉(zhuǎn)移仍然是乳腺癌致死的最重要原因,雖然晚期乳腺癌的治療近年來迅猛發(fā)展,新的治療手段層出不窮,但轉(zhuǎn)移性乳腺癌仍難以治愈,中位生存時間僅為2~3年[12]。發(fā)生遠(yuǎn)處轉(zhuǎn)移的患者大多預(yù)后不良,而早期篩選出可能發(fā)生遠(yuǎn)處轉(zhuǎn)移的患者有助于預(yù)測其生存期,同時,也可針對不同個體制訂個性化治療方案。傳統(tǒng)的乳腺癌遠(yuǎn)處轉(zhuǎn)移預(yù)測模型的預(yù)測指標(biāo)包括一般臨床和病理指標(biāo)等,而基于影像組學(xué)的遠(yuǎn)處轉(zhuǎn)移預(yù)測模型少有報(bào)道。
最近,越來越多的研究也顯示了使用DCE?MRI圖像治療預(yù)后的前景。Wu等[13]的研究通過提取腫瘤和周圍實(shí)質(zhì)的定量成像表型來識別新的乳腺癌亞型,評估預(yù)測無復(fù)發(fā)生存期的預(yù)后能力。Braman等[14]的研究顯示,結(jié)合瘤周和瘤內(nèi)影像組學(xué)特征,可從影像學(xué)上識別HER2+乳腺癌的內(nèi)在分子亞型,從而深入了解瘤周環(huán)境中的免疫反應(yīng),并為治療指導(dǎo)提供潛在益處。Yu等[15]研究了基于MRI的機(jī)器學(xué)習(xí)在乳腺癌患者中的應(yīng)用,提出了新的個體化臨床決策Nomogram,可用于預(yù)測腋窩淋巴結(jié)轉(zhuǎn)移狀態(tài)和無病生存期。雖然之前的這些研究顯示了使用MRI作為乳腺癌預(yù)后工具的潛力,但還存在局限性,如樣本量小、人工提取的特征少、基于CAD的特征集非常有限等。
隨著針對臨床問題的研究不斷深入,人工智能在乳腺影像上的應(yīng)用逐漸多樣化,盡管目前研究眾多,但在臨床應(yīng)用方面尚有許多問題存在。在未來工作中,更需兼顧臨床需求,優(yōu)化診斷及預(yù)測模型的穩(wěn)定性與準(zhǔn)確度,讓更多的乳腺癌患者人群受益。