王立鵬,陳曉,紀(jì)哲,陸建平
人工智能是研究、開發(fā)用于模擬和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué),其領(lǐng)域包括機(jī)器人、語言識(shí)別、圖像識(shí)別、自然語言處理和專家系統(tǒng)等[1]。近年來,人工智能技術(shù)發(fā)展迅速并不斷應(yīng)用于各個(gè)領(lǐng)域。在醫(yī)學(xué)中,醫(yī)學(xué)影像與人工智能的結(jié)合被認(rèn)為是最具發(fā)展前景的方向之一[2-3]。
從可以在計(jì)算機(jī)上瀏覽和讀取醫(yī)學(xué)圖像開始,研究人員便致力于研發(fā)能夠自動(dòng)分析和解讀圖像的技術(shù)。起初,在1970-1990年,研究者采用低級別的像素處理技術(shù)和數(shù)學(xué)模型來構(gòu)建基于復(fù)合規(guī)則的圖像處理系統(tǒng),這一時(shí)期的圖像的自動(dòng)處理旨在通過多種固定規(guī)則的組合來完成圖像分析[4]。20世紀(jì)末,基于傳統(tǒng)機(jī)器學(xué)習(xí)方法的圖像處理在醫(yī)學(xué)影像分析中開始流行,主要包括k-平均算法(k-means)、K最近鄰法(k-nearest neighbors,k-NN)、貝葉斯分類(Bayes classification)、決策樹(decision tree)、支持向量機(jī)(support vector machine,SVM)等。至此,借助機(jī)器學(xué)習(xí)的方法可以實(shí)現(xiàn)醫(yī)學(xué)圖像特征向量提取及自動(dòng)化對比判定。然而,圖像特征的定義及抽象分析仍然需要依靠人工來完成,無法實(shí)現(xiàn)圖像分析的全線程自動(dòng)化處理[5]。
2006年深度學(xué)習(xí)技術(shù)引起學(xué)術(shù)界的廣泛關(guān)注,目前已廣泛應(yīng)用于圖像、語音、文字和視頻等各種信息的智能分析及處理[6]?;谏疃葘W(xué)習(xí)技術(shù),計(jì)算機(jī)能夠自動(dòng)學(xué)習(xí)目標(biāo)任務(wù)數(shù)據(jù)的典型特征。基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型由大量數(shù)據(jù)處理層組成,其通過大量先驗(yàn)數(shù)據(jù)的學(xué)習(xí)自動(dòng)調(diào)整模型參數(shù),得到適應(yīng)目標(biāo)任務(wù)的網(wǎng)絡(luò)模型。訓(xùn)練成熟的模型可以將輸入數(shù)據(jù)(如圖像)轉(zhuǎn)換為目標(biāo)輸出信息(如疾病有無)。深度學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)方法不同,深度學(xué)習(xí)技術(shù)基于大量標(biāo)簽數(shù)據(jù)的自動(dòng)學(xué)習(xí),并自動(dòng)提取數(shù)據(jù)特征,而不需要人為指定規(guī)則,因此深度學(xué)習(xí)可以實(shí)現(xiàn)更高級別的抽象分析[7]。在醫(yī)學(xué)影像應(yīng)用中,深度學(xué)習(xí)技術(shù)并不依賴圖像中低級視覺特征的預(yù)定義,而是通過自主學(xué)習(xí)發(fā)現(xiàn)不同類別圖像中的典型視覺特征。當(dāng)前,用于圖像分析的深度學(xué)習(xí)模型大多基于卷積神經(jīng)網(wǎng)絡(luò)(convolution neural networks,CNNs),卷積神經(jīng)網(wǎng)絡(luò)首次成功應(yīng)用是基于LeNet實(shí)現(xiàn)手寫數(shù)字的識(shí)別。一般認(rèn)為,卷積神經(jīng)網(wǎng)絡(luò)在圖像分割、圖像分類等任務(wù)中的準(zhǔn)確性遠(yuǎn)高于其它神經(jīng)網(wǎng)絡(luò)模型[8]。隨著任務(wù)的復(fù)雜化及新方法的不斷涌現(xiàn),網(wǎng)絡(luò)結(jié)構(gòu)不斷加深,神經(jīng)網(wǎng)絡(luò)模型已可達(dá)近千層,使得深度學(xué)習(xí)可以實(shí)現(xiàn)更為復(fù)雜的解釋與決策任務(wù)[9]。當(dāng)前,深度卷積神經(jīng)網(wǎng)絡(luò)日益受到研究者的青睞,其中應(yīng)用較多的模型包括AlexNet、VGG(Visual Geometry Group)以及GoogleNet等[5]。
深度學(xué)習(xí)技術(shù)已應(yīng)用于醫(yī)學(xué)影像中多個(gè)領(lǐng)域,如皮膚癌的分類、糖尿病視網(wǎng)膜病變檢測及胸部CT中肺結(jié)節(jié)的評估等,其診斷能力可達(dá)到高年資??漆t(yī)師的水平[5]。目前,深度學(xué)習(xí)在骨骼影像中的應(yīng)用相對較少,但骨骼系統(tǒng)疾病種類多,患者數(shù)量多,影像學(xué)檢查對于骨骼系統(tǒng)疾病的診斷發(fā)揮至關(guān)重要的作用,因而骨骼影像的自動(dòng)化處理具有光明前景。近年來,深度學(xué)習(xí)算法在骨骼影像領(lǐng)域的的主要研究進(jìn)展如下。
骨齡檢測廣泛應(yīng)用于兒童內(nèi)分泌疾病、成長和遺傳性疾病的診治過程中。檢測骨齡時(shí),醫(yī)師通常對受檢者左手行放射學(xué)檢查,根據(jù)檢查結(jié)果判斷骨化階段并與實(shí)際年齡進(jìn)行對比,從而提示骨齡是否存在異常。通過左手X線圖像判斷骨齡具有操作簡便、輻射量小、可同時(shí)觀察多個(gè)骨化中心等優(yōu)點(diǎn)。在臨床應(yīng)用中,通?;赬線圖像并使用Greulich-Pyle(G&P)法或Tanner-Whitehouse(TW)法對骨齡進(jìn)行評估[10]。G&P法將整張X線圖像同參考圖集進(jìn)行對比,由于簡便和高效而被廣泛應(yīng)用,但其觀察者內(nèi)及觀察者間差異較大[11];TW法通過分析多個(gè)骨骼興趣區(qū),分別判定骨化階段,整合所有數(shù)據(jù)后確定骨骼成熟度。TW法雖然耗時(shí)長,但較G&P法的檢測結(jié)果更為準(zhǔn)確[12]。同時(shí),這種模塊化結(jié)構(gòu)也使其更適合于機(jī)器學(xué)習(xí)。近年來大量研究將深度學(xué)習(xí)技術(shù)應(yīng)用于骨齡的自動(dòng)檢測,近期的一項(xiàng)研究中評估了幾種深度學(xué)習(xí)方法在骨齡檢測中的表現(xiàn),結(jié)果顯示人工檢測與機(jī)器檢測的骨齡平均差值僅為0.8歲[10]。另一項(xiàng)研究結(jié)果也表明深度學(xué)習(xí)模型在骨齡判定中的表現(xiàn)與放射科專家的水平接近[13]。
雖然人工智能在骨齡檢測的研究開始時(shí)間早、成熟程度高,但研究人員仍然致力于深度學(xué)習(xí)技術(shù)在骨齡檢測的不斷完善。在2018年北美放射學(xué)會(huì)(Radiological Society of North America,RNSA)年會(huì)上舉辦了一場兒童骨齡機(jī)器學(xué)習(xí)挑戰(zhàn)賽(Pediatric Bone Age Machine Learning Challenge),此次比賽較全面地評價(jià)了不同算法在骨齡檢測中的表現(xiàn)。這一挑戰(zhàn)賽不僅使研究者更加了解人工智能技術(shù)在醫(yī)學(xué)影像領(lǐng)域的應(yīng)用進(jìn)展,其間出現(xiàn)的新工具及新方法也將促進(jìn)診斷效能的進(jìn)一步提升[14]。有趣的是,最近的一項(xiàng)研究中使用了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)技術(shù)的AI模型,基于MRI對兒童進(jìn)行骨齡檢測,其檢測的平均絕對誤差僅為(0.37±0.51)歲,使MRI檢測骨齡成為可能,避免了X線檢測骨齡對兒童造成輻射的問題[15]。
另外,既往的骨齡檢測相關(guān)研究中多選取18歲以下兒童,無法滿足法醫(yī)學(xué)臨床的需求。近期的一項(xiàng)研究中選取10~25歲個(gè)體的骨盆X線圖像為研究對象,應(yīng)用深度學(xué)習(xí)模型進(jìn)行骨齡檢測,結(jié)果顯示其平均絕對誤差(mean absolute error,MAE)和均方根誤差(root-mean-squared error,RMSE)分別為0.94和1.30歲[16]。這一研究拓展了人工智能檢測骨齡的應(yīng)用范圍,為深度學(xué)習(xí)技術(shù)在法醫(yī)學(xué)的應(yīng)用提供了良好的參考。
雖然CT及MRI應(yīng)用日益增多,但X線由于易獲取、檢查速度快、輻射量小和價(jià)格低等優(yōu)勢仍在骨骼疾病診療中發(fā)揮重要作用。尤其在創(chuàng)傷救治中,X線是門急診醫(yī)生診斷骨折最重要的手段。骨折的漏診會(huì)給患者帶來嚴(yán)重后果,如增加痛苦、錯(cuò)過最佳治療時(shí)間和預(yù)后不佳等,同時(shí)也容易發(fā)生醫(yī)療糾紛。但是,在急診工作中,由于醫(yī)師工作強(qiáng)度大、??浦R(shí)相對不足等原因,急診科的錯(cuò)誤診斷絕大多數(shù)來自對骨折的漏診[17-18]。因此研究人員試圖將人工智能應(yīng)用于骨折的診斷中,旨在減少對骨折的漏診。
既往研究大多應(yīng)用傳統(tǒng)學(xué)習(xí)手段診斷骨折,研究人員通過人工提取圖像中骨骼紋理和形狀等特征,應(yīng)用K-NN、SVM、隨機(jī)森林(random forest)、logistic回歸以及整合學(xué)習(xí)等方法檢測骨折。近期的一項(xiàng)研究將5種深度學(xué)習(xí)網(wǎng)絡(luò)應(yīng)用到X線圖像進(jìn)行骨折診斷,其符合率最高可達(dá)83%,同時(shí),所有模型對于拍攝部位、視窗、體側(cè)和體位判斷的準(zhǔn)確率均達(dá)90%以上[9]。該研究中所用模型雖然可以診斷有無骨折,但不能明確標(biāo)識(shí)骨折范圍,不利于醫(yī)師進(jìn)行復(fù)核。Lindsey等[19]近期于《美國科學(xué)院院報(bào)》(proceedings of the national academy of sciences of the United States of America,PNAS)發(fā)表了一項(xiàng)開創(chuàng)性研究,該研究團(tuán)隊(duì)構(gòu)建了一種深度學(xué)習(xí)模型,不但可以提示有無骨折,還可以通過熱力圖標(biāo)識(shí)出可疑骨折范圍。結(jié)果顯示,該模型在診斷骨折及標(biāo)注骨折范圍時(shí),敏感度及特異度分別達(dá)93.9%和94.5%。急診科醫(yī)師應(yīng)用該模型輔助骨折診斷,誤診率下降47%,診斷準(zhǔn)確性顯著提高。同時(shí)該系統(tǒng)已獲得美國食品藥品監(jiān)督管理局批準(zhǔn)應(yīng)用于臨床,成為首個(gè)正式獲批的人工智能骨折診斷臨床工具。這項(xiàng)研究將人工智能技術(shù)在骨折領(lǐng)域的研究和應(yīng)用向前推進(jìn)了重要的一步。當(dāng)前越來越多的研究者投身到人工智能在骨折領(lǐng)域的研究。近期臺(tái)灣的兩項(xiàng)研究,分別通過X線及CT圖像識(shí)別股骨頸骨折及跟骨骨折,同樣實(shí)現(xiàn)了對骨折范圍的標(biāo)注,且診斷符合率分別達(dá)95.9%及98.0%,提示人工智能或可應(yīng)用于多模態(tài)圖像中對不同部位的骨折進(jìn)行診斷[20-21]。
骨關(guān)節(jié)炎是中老年人常見的骨退行性疾病,表現(xiàn)為關(guān)節(jié)軟骨或軟骨下骨的炎性損傷。由于患者工作和生活能力的受限,骨關(guān)節(jié)炎已經(jīng)成為一個(gè)嚴(yán)重的公共健康問題,為社會(huì)帶來巨大的經(jīng)濟(jì)負(fù)擔(dān)[22]。因此,對于骨關(guān)節(jié)炎的及時(shí)診斷、評估以及干預(yù)尤為重要。通常,骨關(guān)節(jié)炎的診斷有賴于臨床癥狀及X線圖像,醫(yī)師通過骨贅形成、關(guān)節(jié)間隙變窄等影像學(xué)特征進(jìn)行診斷[23-24]。隨著人口不斷老齡化,對于骨關(guān)節(jié)炎診斷的需求不斷增加,影像數(shù)據(jù)增加的速度遠(yuǎn)高于醫(yī)生的增長速度。因此,能夠利用人工智能技術(shù)快速準(zhǔn)確地對骨關(guān)節(jié)炎進(jìn)行自動(dòng)診斷顯得十分必要。近期一項(xiàng)針對髖關(guān)節(jié)炎的研究,將深度學(xué)習(xí)應(yīng)用于髖部X線圖像自動(dòng)診斷骨關(guān)節(jié)炎,其敏感度為95.0%,特異度為90.7%,模型的診斷表現(xiàn)達(dá)到擁有10年經(jīng)驗(yàn)的主治醫(yī)師水平[25]。在另一項(xiàng)對膝關(guān)節(jié)炎的研究中,研究者除了診斷有無關(guān)節(jié)炎外,還在膝關(guān)節(jié)正位片通過熱力圖標(biāo)識(shí)出可疑骨贅,并提供膝關(guān)節(jié)Kellgren-Lawrence(KL)分級的參考范圍,使得骨關(guān)節(jié)炎的診斷更為客觀[26]。與X線相比,MRI能夠提供更為豐富的關(guān)于骨質(zhì)結(jié)構(gòu)及功能的特征,因而在骨關(guān)節(jié)炎大規(guī)模流行病學(xué)觀察研究中發(fā)揮重要作用。Valentina等[27]應(yīng)用深度學(xué)習(xí)算法對比膝關(guān)節(jié)炎患者及健康個(gè)體的膝關(guān)節(jié)在MR T2WI序列上的表現(xiàn),進(jìn)而進(jìn)行基于T2WI圖像的骨關(guān)節(jié)炎診斷,敏感度為74.53%,特異度為76.13%。該研究展示了應(yīng)用深度學(xué)習(xí)技術(shù)提取MR圖像特征進(jìn)而診斷骨關(guān)節(jié)炎的可行性,但由于該研究沒有對神經(jīng)網(wǎng)絡(luò)模型進(jìn)行優(yōu)化,沒有對樣本進(jìn)行逐一質(zhì)控,因此其診斷效能仍有較大改進(jìn)空間。
骨質(zhì)疏松是中老年常見的代謝性骨疾病,其臨床表現(xiàn)為骨密度降低及骨折風(fēng)險(xiǎn)增高,嚴(yán)重影響患者的生活質(zhì)量。隨著人口的不斷老齡化,我國骨質(zhì)疏松的發(fā)生率逐年提高,國家衛(wèi)健委2018年公布的數(shù)據(jù)顯示50歲以上人群中骨質(zhì)疏松的患病率為19.2%,其中女性達(dá)32.1%,65歲以上女性患病率高達(dá)51.6%[28]。因此,實(shí)現(xiàn)骨質(zhì)疏松的自動(dòng)診斷具有重要的社會(huì)意義。已有研究者應(yīng)用深度學(xué)習(xí)技術(shù)在CT圖像上對腰椎的骨密度進(jìn)行自動(dòng)判定,以骨密度儀為參照標(biāo)準(zhǔn),其受試者工作特征曲線下面積為0.888[29]。另外,也有研究者通過牙齒、髖關(guān)節(jié)X線片和MRI圖像來診斷骨質(zhì)疏松及預(yù)測骨質(zhì)疏松性骨折的發(fā)生,均取得了較好的效果[30-32]。
脊柱具有支撐人體、保護(hù)脊髓與內(nèi)臟器官等作用。由于年齡、發(fā)育和外傷等因素,脊柱不斷退變,導(dǎo)致椎間盤變性、骨贅形成等病理改變。脊柱退變也是下腰痛的最主要病因,嚴(yán)重影響患者的生活。近年,有研究者開發(fā)了一套SpineNet系統(tǒng),可以在MR圖像上自動(dòng)對腰椎進(jìn)行Pfirrmann評分,判斷有無椎間隙狹窄,從而對腰椎退變進(jìn)行評估,并能夠?qū)⒖梢刹∽冞M(jìn)行標(biāo)識(shí)[33]。這一深度學(xué)習(xí)模型對于脊柱退變的早期發(fā)現(xiàn)和評估具有重要意義。
骨腫瘤可以分為原發(fā)腫瘤和轉(zhuǎn)移性腫瘤,目前深度學(xué)習(xí)技術(shù)主要應(yīng)用于CT圖像上對脊柱轉(zhuǎn)移瘤的自動(dòng)檢測[34-35]。但對于成骨性骨轉(zhuǎn)移,其診斷敏感度僅為79.0%,特異度為89.1%,而且該研究中納入的病例數(shù)較少(59例),該系統(tǒng)仍需要繼續(xù)提高診斷效能[35]。值得注意的是,目前人工智能在骨腫瘤方向的研究較少,需要更多更深入的工作。
由于骨骼疾病的診治有賴于圖像中骨及相關(guān)結(jié)構(gòu)的正確識(shí)別,除了上述骨骼疾病,大量研究將人工智能技術(shù)應(yīng)用于骨、關(guān)節(jié)及相關(guān)結(jié)構(gòu)的自動(dòng)識(shí)別與分割[5]。最近一項(xiàng)研究實(shí)現(xiàn)了在全身CT圖像上自動(dòng)分割骨組織,并能夠進(jìn)一步區(qū)分皮質(zhì)骨、松質(zhì)骨及骨髓結(jié)構(gòu)[36]。也有研究中利用人工智能模型實(shí)現(xiàn)了在頸椎側(cè)位X線圖像上對頸椎進(jìn)行自動(dòng)分割[37]。近期的兩項(xiàng)研究應(yīng)用神經(jīng)網(wǎng)絡(luò)知識(shí),在MRI圖像上成功實(shí)現(xiàn)膝關(guān)節(jié)骨與軟骨的自動(dòng)分割,即使在關(guān)節(jié)結(jié)構(gòu)破壞嚴(yán)重的圖像中也能成功識(shí)別[38-39]。這些研究成果,為下一步病變的定位、疾病的分級分期和治療方案的選擇奠定了良好的基礎(chǔ)。
綜上所述,近年來深度學(xué)習(xí)在醫(yī)學(xué)影像領(lǐng)域的應(yīng)用發(fā)展迅速。深度學(xué)習(xí)取代以往傳統(tǒng)機(jī)器學(xué)習(xí),逐漸成為主流的圖像分析方法。而一個(gè)深度學(xué)習(xí)模型的成功構(gòu)建有賴于大量正確標(biāo)記的數(shù)據(jù)、合適的深度學(xué)習(xí)模型,以及研究者出色的架構(gòu)設(shè)計(jì)及數(shù)據(jù)處理能力[5]。同時(shí)在醫(yī)學(xué)影像分析,深度學(xué)習(xí)還面臨特有的挑戰(zhàn),其中最主要的是醫(yī)學(xué)訓(xùn)練數(shù)據(jù)的缺乏。足量的數(shù)據(jù)是保證深度學(xué)習(xí)網(wǎng)絡(luò)多個(gè)參數(shù)得到充分訓(xùn)練的前提。雖然PACS系統(tǒng)在醫(yī)院的廣泛使用、以及不斷出現(xiàn)的公共數(shù)據(jù)集,使得原始數(shù)據(jù)的獲得更為簡便,但對于大量數(shù)據(jù)的正確標(biāo)注需要相關(guān)領(lǐng)域的專家耗費(fèi)大量的時(shí)間[5,40]。此外,人體解剖的正常變異、同種疾病不同的影像表現(xiàn)、圖像質(zhì)量欠佳等問題也成為制約診斷效能的重要因素[41]。
骨骼影像與其它系統(tǒng)影像有所不同,疾病的診斷及治療更為依賴影像學(xué)檢查。應(yīng)用深度學(xué)習(xí)方法對骨骼影像進(jìn)行自動(dòng)分析,具有重要的意義及光明的前景。然而,目前人工智能在骨骼影像的應(yīng)用尚處于起步階段,大量疾病尚無研究,許多方面亟待改進(jìn)。當(dāng)前大部分研究仍局限于簡單二分類研究,如疾病的有無,對臨床指導(dǎo)意義有限。成熟的人工智能模型應(yīng)當(dāng)能夠準(zhǔn)確判斷疾病有無,并進(jìn)一步對疾病進(jìn)行分級、分期或分型、分類,同時(shí)提供針對性、個(gè)體化的治療方案;另外,當(dāng)前研究多由計(jì)算機(jī)研究人員主導(dǎo),急需更多的臨床醫(yī)師參與其中,提出臨床工作中需要解決的問題,以期更好的實(shí)現(xiàn)精準(zhǔn)診療。