蕭毅,劉士遠(yuǎn)
海軍軍醫(yī)大學(xué)附屬第二醫(yī)院影像診斷科,上海 200003;*通訊作者 劉士遠(yuǎn) liushiyuan@smmu.edu.cn
新型冠狀病毒肺炎(COVID-19)根據(jù)流行病學(xué)史、臨床表現(xiàn)、實(shí)驗(yàn)室檢查等綜合分析做出診斷,其中新型冠狀病毒核酸檢測陽性為確診的首要標(biāo)準(zhǔn)。影像技術(shù)在COVID-19 的早期診斷、治療決策、療效評估及隨訪觀察等方面具有重要作用[1-6]。
隨著COVID-19的大流行和影像數(shù)據(jù)的大量產(chǎn)生,研究人員紛紛利用人工智能(AI)技術(shù)研發(fā)模型,助力疫情的防控。AI 技術(shù)以其高效的決策能力與一致性,在抗擊COVID-19 疫情中發(fā)揮重要作用[7-14]。包括輔助診斷、療效評估、預(yù)后分析、健康監(jiān)測;通過對臨床、分子和流行病學(xué)的研究,優(yōu)化治療方案;以及加速藥物和疫苗的研發(fā)進(jìn)程;此外,基于AI 的可視化智能遙控檢查,可最大限度地避免醫(yī)務(wù)人員與病毒的接觸,減少感染機(jī)會。然而,作為基于數(shù)據(jù)驅(qū)動的AI 深度學(xué)習(xí)模型,其魯棒性與泛化性仍需進(jìn)一步提高,也有不少瓶頸問題需要克服。
X 線胸片和CT 是輔助COVID-19 診斷的重要影像工具,通過收集大量患者多模態(tài)數(shù)據(jù)進(jìn)行訓(xùn)練得到的AI 模型,對疑似COVID-19 患者的檢測、診斷和分類起到了一定的作用。Jin 等[13]基于1 萬多例包含COVID-19、流感(A 型/B 型)、非病毒性社區(qū)獲得性肺炎(CAP)和非肺炎受試者的CT 數(shù)據(jù)集,研發(fā)了基于深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)的多類別AI 診斷模型。在3199 個(gè)CT 掃描的測試集上,該系統(tǒng)受試者工作特征曲線下面積(ROC-AUC)達(dá)到0.978。Mei 等[14]將胸部CT 表現(xiàn)與臨床癥狀、實(shí)驗(yàn)室檢查及 患者接觸史相結(jié)合,實(shí)現(xiàn)對COVID-19 的快速診斷。在279例患者的測試集上,該系統(tǒng)ROC-AUC 達(dá)到0.92,并與高年資胸部放射科醫(yī)師具有相同的敏感性。Harmon 等[15]通過對包含1280例多國患者隊(duì)列的CT數(shù)據(jù)進(jìn)行深度學(xué)習(xí)模型訓(xùn)練,對COVID-19進(jìn)行分類,此系統(tǒng)的準(zhǔn)確度達(dá)到90.8%、敏感度達(dá)到84%?;?777例患者的CT 數(shù)據(jù),Zhang 等[16]研發(fā)了基于CT的AI 診斷系統(tǒng),該系統(tǒng)可以輔助醫(yī)師進(jìn)行快速COVID-19 診斷,并可區(qū)分COVID-19 患者與其他常見肺炎和非肺炎受試者。其他類似研究亦顯示了相似的效果。
深度學(xué)習(xí)模型可以用于肺炎治療的早期干預(yù)和決策。由于X 線圖像較CT 圖像更容易獲得,更多的研究者使用X 線數(shù)據(jù)集進(jìn)行模型研發(fā)。Wang 等[17]建立的深度學(xué)習(xí)模型是使用一個(gè)包含145 202 張圖像的多中心數(shù)據(jù)集開發(fā)的,并在4 個(gè)患者隊(duì)列和多個(gè)國家的數(shù)千張圖像進(jìn)行回顧性和前瞻性測試。該系統(tǒng)可以區(qū)分病毒性肺炎、其他類型肺炎和正常者,ROC-AUC 為0.94~0.98;區(qū)分重癥和非重癥COVID-19,AUC 為0.87;區(qū)分COVID-19 和其他病毒性或非病毒性肺炎,AUC 為0.87~0.97。在一組獨(dú)立的440 張胸部X 線片中,該系統(tǒng)的表現(xiàn)與資深放射科醫(yī)師相當(dāng),并提高了初級放射科醫(yī)師的表現(xiàn)。同樣,Wehbe 等[18]提出了一種基于集合多個(gè)CNN 網(wǎng)絡(luò)的AI 診斷系統(tǒng)DeepCOVID-XR。該系統(tǒng)在14 788 張CXR 圖像(4253例COVID-19 陽性病例)進(jìn)行訓(xùn)練,并在2214 張圖像(1192例COVID-19 陽性病例)上進(jìn)行測試。結(jié)果表明,DeepCOVID-XR 的ROC-AUC 為0.90,準(zhǔn)確度為83%。隨機(jī)選取300 張測試圖像(COVID-19為134例陽性),對比AI 算法與5 位經(jīng)驗(yàn)豐富的放射科醫(yī)師的診斷性能,DeepCOVID-XR 的準(zhǔn)確度為82%,5 位放射科醫(yī)師的準(zhǔn)確度共識為81%,獨(dú)立放射科醫(yī)師的準(zhǔn)確度為76%~81%。DeepCOVID-XR的 ROC-AUC 為 0.88,5 位放射科醫(yī)師的共識ROC-AUC 為0.85(P=0.13)。
綜上所述,基于X線或CT影像的AI模型對COVID-19的檢測性能與經(jīng)驗(yàn)豐富的放射科醫(yī)師相似,并能對COVID-19、常見CAP和部分病毒性肺炎進(jìn)行初步鑒別,輸出初步的可能性診斷。
以占肺實(shí)質(zhì)的百分比客觀量化疾病程度,是目前AI 在COVID-19 感染療效評估中最重要的應(yīng)用[16,19-23],這可用于監(jiān)測疾病的進(jìn)程,并協(xié)助判斷預(yù)后。Jiao 等[20]開發(fā)了基于CXR 和臨床數(shù)據(jù)的AI 系統(tǒng),以預(yù)測COVID-19 的疾病嚴(yán)重程度和進(jìn)展。該研究回顧性收集多家醫(yī)院的CXR 和臨床數(shù)據(jù),利用CXR 作為深層神經(jīng)網(wǎng)絡(luò)Efficient Net 的輸入,融合臨床數(shù)據(jù),進(jìn)行二分類模型訓(xùn)練,以預(yù)測疾病嚴(yán)重程度(即嚴(yán)重或非嚴(yán)重)。利用深度學(xué)習(xí)Efficient Net模型提取的影像特征結(jié)合臨床數(shù)據(jù)用于構(gòu)建事件發(fā)生時(shí)間模型,以預(yù)測疾病進(jìn)展的風(fēng)險(xiǎn)。該模型在獨(dú)立多中心機(jī)構(gòu)的患者上進(jìn)行外部測試。研究結(jié)果表明,將基于胸部X 線的深度學(xué)習(xí)特征融合到臨床數(shù)據(jù)以進(jìn)行嚴(yán)重程度預(yù)測時(shí),ROC-AUC在獨(dú)立外部測試集上的結(jié)果從0.731(0.712~0.738)上升至0.792(0.780~0.803,P<0.0001)。同樣,將深度學(xué)習(xí)胸部X 線特征融合到臨床數(shù)據(jù)進(jìn)行進(jìn)展預(yù)測時(shí),獨(dú)立外部測試集上的一致性指數(shù)(C-index)從0.707(0.695~0.729)增加至0.752(0.739~0.764,P<0.0001)。由此可以得出結(jié)論,影像和臨床數(shù)據(jù)融合的多模態(tài)模型性能明顯優(yōu)于單純基于影像或臨床數(shù)據(jù)的模型。盡管有大量文獻(xiàn)報(bào)道基于影像學(xué)的COVID-19 療效評估與預(yù)后預(yù)測,鮮有COVID-19 預(yù)后不良結(jié)果的影像學(xué)危險(xiǎn)因素研究。Yu 等[21]從24 家醫(yī)院回顧性收集625例COVID-19 確診患者,復(fù)合終點(diǎn)為進(jìn)入ICU,用于評估與不良預(yù)后終點(diǎn)相關(guān)的影像學(xué)特征和危險(xiǎn)因素。通過對每位患者病變的體積、密度、位置、磨玻璃密度(GGO)和實(shí)質(zhì)進(jìn)行定量分析。利用多變量邏輯回歸模型(multivariable logistic regression),識別年齡和CT 參數(shù)相關(guān)的危險(xiǎn)因素。研究結(jié)果表明,入院時(shí)年齡較大、上肺存在較大面積 的實(shí)變與COVID-19 患者預(yù)后不良的相關(guān)性更高。AI可用于監(jiān)測疾病進(jìn)展和了解COVID-19病灶的時(shí)間演變特征,降低了放射科醫(yī)師對胸部CT 影像治療前后比對的主觀性,有利于準(zhǔn)確實(shí)施治療。
開發(fā)基于AI的可視化智能遙控?cái)[位,可最大限度地避免影像檢查流程中醫(yī)務(wù)人員與病毒的接觸機(jī)會,對于醫(yī)務(wù)人員的防護(hù)具有重要意義。此外,AI技術(shù)在疫情監(jiān)控與預(yù)測方面亦發(fā)揮了至關(guān)重要的作用[24-26],AI可以幫助提高病例識別的速度和準(zhǔn)確性,并可以通過數(shù)據(jù)挖掘有效地應(yīng)對健康危機(jī)。AI可以通過使用終端跟蹤系統(tǒng)部署智能城市數(shù)據(jù)網(wǎng)絡(luò)以及對未來暴發(fā)的預(yù)測,提高病毒檢測的效率。此外,全球各相關(guān)研究機(jī)構(gòu)正在積極探索COVID-19疫苗抗體及治療性藥物的研發(fā)[27-31]。AI在識別新的候選療法方面的潛在能力是無與倫比的,可以加速COVID-19的藥物再利用和研發(fā)。深度學(xué)習(xí)該系統(tǒng)提供了有關(guān)與COVID-19相關(guān)的蛋白質(zhì)結(jié)構(gòu)的有價(jià)值的信息,可用于疫苗配制。AI方法與大數(shù)據(jù)相結(jié)合,有可能大幅提高藥物再利用的效率和效力,并利用COVID-19的真實(shí)世界數(shù)據(jù),幫助醫(yī)療決策。在開發(fā)這些AI工具方面仍然存在挑戰(zhàn),如數(shù)據(jù)異質(zhì)性和低質(zhì)量、制藥公司數(shù)據(jù)共享不足以及模型的安全性和可操作性等。
COVID-19 疫情暴發(fā)以后,基于數(shù)據(jù)驅(qū)動的AI方法在醫(yī)學(xué)影像領(lǐng)域中不斷突破。在COVID-19 疫情期間,各國科學(xué)家們發(fā)布了上千種機(jī)器學(xué)習(xí)算法,認(rèn)為這些算法能根據(jù)胸部X 線片、CT 圖像診斷或預(yù)測COVID-19。然而,在復(fù)雜、開放的真實(shí)場景下進(jìn)行臨床驗(yàn)證時(shí),仍存在諸多挑戰(zhàn)。尤其是來源于公共資源數(shù)據(jù)庫的COVID-19 影像集大都存在圖像質(zhì)量低、樣本少、數(shù)據(jù)庫存在重復(fù)性、“金標(biāo)準(zhǔn)”診斷不確定性以及數(shù)據(jù)集來源偏差等問題,難以滿足可靠的AI模型的訓(xùn)練需求,使得這些模型在實(shí)際臨床應(yīng)用中受到限制。在一項(xiàng)由劍橋大學(xué)完成的研究中[32],研究者使用“預(yù)測性算法的偏見風(fēng)險(xiǎn)評估工具”(PROBAST),從參與者、預(yù)測因素、結(jié)論和分析等4 個(gè)方面系統(tǒng)性地評估了 2020年發(fā)表的 2212 篇 AI 算法診斷COVID-19 的論文。研究認(rèn)為,由于存在算法偏見、不可重復(fù)性、缺少外部驗(yàn)證、數(shù)據(jù)集不規(guī)范等問題,論文中的模型均不具有明確的臨床應(yīng)用價(jià)值。研究者認(rèn)為,大多數(shù)文獻(xiàn)中的模型算法只是基于一家醫(yī)院的數(shù)據(jù),魯棒性較差。研究人員還特別指出了一類從不同的數(shù)據(jù)集合并而成并重新命名的數(shù)據(jù)集,基于這類數(shù)據(jù)集的訓(xùn)練會導(dǎo)致算法結(jié)果出現(xiàn)可靠性降低的問題,要引起廣大研究者和讀者的注意。
在我國,盡管COVID-19 數(shù)據(jù)量充足,AI 研發(fā)能力及時(shí)效性強(qiáng),但是依然存在模型依賴單中心數(shù)據(jù)、缺乏充分的外部及前瞻性驗(yàn)證、疾病影像表征多樣性和CT 掃描參數(shù)設(shè)置不一致的樣本不平衡等問題。因此,構(gòu)建標(biāo)準(zhǔn)化數(shù)據(jù)庫的建設(shè)對提高模型的準(zhǔn)確性和泛化性至關(guān)重要,充分遵循數(shù)據(jù)集構(gòu)建的規(guī)則和行業(yè)專家共識。除數(shù)據(jù)納入的多樣化外,規(guī)范精準(zhǔn)的數(shù)據(jù)標(biāo)注亦是模型訓(xùn)練的關(guān)鍵因素。任何用于檢測、診斷或預(yù)測COVID-19 感染的AI 算法與臨床需求之間均存在錯(cuò)綜復(fù)雜的聯(lián)系。因此,開發(fā)AI 算法必須高度重視工科人員和影像醫(yī)師、臨床醫(yī)師的緊密溝通,加強(qiáng)多學(xué)科的溝通和交叉互補(bǔ)。
實(shí)踐證明,AI 技術(shù)作為一種新興有效的工具,在抗擊COVID-19 疫情中起到重要的作用。AI 技術(shù)不僅可對COVID-19 患者進(jìn)行輔助診斷、療效評估、預(yù)后分析及健康監(jiān)測,通過對醫(yī)學(xué)、分子及流行病學(xué)研究,亦可對治療方案設(shè)計(jì)進(jìn)行優(yōu)化,并加速藥物和疫苗的研發(fā)。尤其在缺乏財(cái)力、物力和人力資源的地區(qū),AI 可以最大程度地減少人力勞動量,有助于分析大量醫(yī)學(xué)數(shù)據(jù),從而增強(qiáng)預(yù)測能力和預(yù)防保健能力。
魯棒性與泛化性仍然是基于數(shù)據(jù)驅(qū)動的AI 模型需要解決的主要難點(diǎn)。針對COVID-19 的AI 模型需要在不同種族、不同地理區(qū)域、不同國家的患者隊(duì)列人群中進(jìn)行驗(yàn)證,以確保其在實(shí)際臨床應(yīng)用中的性能與價(jià)值。
如能將預(yù)測特征與潛在生物學(xué)聯(lián)系起來,或識別具有相似臨床路徑的患者,建立多標(biāo)簽和(或)分層分類技術(shù)的評估和基準(zhǔn)解決方案,將極大地推動傳染病的診治和防控能力。