陳雅婧,徐肖攀
(空軍軍醫(yī)大學(xué): 1基礎(chǔ)醫(yī)學(xué)院學(xué)員二大隊, 2軍事生物醫(yī)學(xué)工程系軍事醫(yī)學(xué)信息技術(shù)教研室,陜西 西安 710032)
肺癌是全球死亡率最高的惡性腫瘤,其死亡病例約占全球癌癥死亡病例的18%[1]。肺癌的早期診斷對其治療和預(yù)后有重要意義,能促進肺癌的早期治療進而延長患者的生存期[2]。目前臨床上的肺癌診斷方法主要有三種:組織病理學(xué)活檢、影像學(xué)檢查和血清腫瘤標志物檢測,但這三種方法對肺癌的早期診斷沒有明顯的特異度[3]。體液中的生物分子能在肺癌發(fā)生的早期出現(xiàn)明顯的變化并被識別,然而早期的技術(shù)手段無法獲得全面的基因組信息,這使得現(xiàn)階段臨床使用的血清腫瘤標志物不具有早期篩查的能力。隨著測序技術(shù)的發(fā)展及其與機器學(xué)習(xí)相結(jié)合,以血液、尿液等體液為樣本且具有無創(chuàng)性、取材方便、操作風(fēng)險低等優(yōu)勢的液體活檢技術(shù)成為人們的研究熱點[4]?;跈C器學(xué)習(xí)的多組學(xué)數(shù)據(jù)分析為液體活檢的臨床應(yīng)用提供了經(jīng)濟高效的血清腫瘤標志物的確定方法,但其所獲得的腫瘤生物標志物還需與臨床肺癌患者數(shù)據(jù)相結(jié)合并進行大規(guī)模研究分析,以實現(xiàn)肺癌的早期診斷。
據(jù)統(tǒng)計,在2020年,全球有1 930萬新增癌癥病例和近1 000萬癌癥死亡病例。其中,肺癌新發(fā)患者占11.4%,肺癌死亡病例占18%[1]。肺癌包括兩大病理類型:非小細胞肺癌(non-small-cell lung cancer,NSCLC)與小細胞肺癌。NSCLC占肺癌的80%~85%,其中約50%~61%為肺腺癌(lung adenocarcinoma,LUAD),35%為肺鱗狀細胞癌(lung squamous cell carcinoma,LUSC)[5]。肺癌的預(yù)后相對較差,5年生存率從4%~17%不等,這取決于患者確診時的疾病階段[2]。僅有10%~15%的新病例在其臨床早期得到診斷[6],但75%的患者在被確診時已經(jīng)是晚期。
目前臨床上常用的腫瘤診斷方法有組織病理學(xué)活檢、影像學(xué)檢測、血清腫瘤標志物檢測等,然而上述三種常用診斷方法都不能對疾病早期進行精確診斷。組織病理學(xué)活檢是肺癌診斷的金標準,但由于其檢查的侵入性操作有創(chuàng)傷性大、患者依從性差、不能獲取整體情況、并發(fā)癥發(fā)生率高等缺點[7-8],在臨床上的應(yīng)用仍有一定的限制。影像學(xué)診斷及血清腫瘤標志物檢測則更廣泛地應(yīng)用于臨床。影像學(xué)診斷(如胸部X射線、CT、磁共振成像等)能提高肺癌診斷的效率[9],在一定程度上能緩解醫(yī)療資源分配不均的情況[10]。影像學(xué)診斷作為一種腫瘤輔助診斷方法,一方面,需要通過優(yōu)化診斷模型進一步提高診斷的可信度[11];另一方面,還要結(jié)合患者主訴、查體等信息對影像結(jié)果進行補充[12]。除此之外,其對早期肺癌的小病灶的辨識度也有待提高[13-17]。血清腫瘤標志物是人體應(yīng)對惡性腫瘤免疫及相關(guān)反應(yīng)形成的產(chǎn)物,在肺癌的診斷及臨床分型中發(fā)揮重要的輔助作用[18]。此外,血清腫瘤標志物(如癌胚抗原、神經(jīng)元特性烯醇化酶、癌胚抗原125[19])能在有明顯腫瘤影像學(xué)改變之前,確定惡性腫瘤的存在[20]。然而,目前臨床所用的血清腫瘤標志物在許多早期肺癌患者中并沒有明顯的差異性變化[6],其靈敏度和特異度還有待提高。
液體活檢技術(shù)由于其無創(chuàng)性、取材方便、操作風(fēng)險低等優(yōu)勢,以血液、尿液、痰液等液體樣本中的腫瘤循環(huán)細胞、腫瘤循環(huán)DNA(circulating tumor DNA,ctDNA) 以及微小RNA(microRNA,miRNA) 等為檢測目標,成為當前研究熱點[4]。與組織病理學(xué)活檢相比,液體活檢具有副作用小、非侵入式等特點,能提高被檢查者的接受度,有利于提高被檢查者的依從性,也能降低醫(yī)護人員取樣的難度。
高通量測序技術(shù)可以全面且準確地獲得被檢者的基因組信息,并繪制個體的癌癥基因組圖譜(the cancer genome atlas, TCGA)。研究發(fā)現(xiàn),大量低水平突變基因和少數(shù)高水平常見突變基因的組合是腫瘤基因組圖譜的共同特征,但在不同腫瘤中突變基因和突變類型會有區(qū)別[21]。隨著機器學(xué)習(xí)技術(shù)與基因組圖譜的結(jié)合,腫瘤生物標志物和遺傳改變能夠作為肺癌表征和診斷分類的新依據(jù),這也為肺癌的早期篩查和治療提供了新方向[2,22-23]。利用機器學(xué)習(xí)對液體樣本測序后所獲得的腫瘤基因組信息進行分類,再對比正常人群的基因序列并建立對應(yīng)的數(shù)據(jù)庫,尋找有差異變化的分子,并構(gòu)建相關(guān)算法模型,再通過臨床試驗檢測該模型的準確性,以此能夠為液體活檢技術(shù)的臨床應(yīng)用提供有效的腫瘤生物標志物的支撐。通過檢測并分析腫瘤標本中特定的基因突變,幫助患者選擇獲益最佳的治療方案,實現(xiàn)個體化醫(yī)療[24]。
近年來,循環(huán)無細胞DNA (cell-free DNA, cfDNA),更準確地說是其中的腫瘤部分(ctDNA)在癌癥患者的診斷、治療和預(yù)后方面有很大的發(fā)展[25-27]。將來自血液樣本(即液體活組織檢查)的無創(chuàng)且容易獲得的cfDNA與高度敏感的測序方法[如聚合酶鏈式反應(yīng)或新優(yōu)化的二代測序(next-generation sequencing,NGS)]相結(jié)合,使癌癥早期確診成為可能[28]。
目前納入肺癌診斷的DNA檢測還以單基因檢測為主。與單基因靶向檢測對比,NGS在肺癌診斷和治療選擇中更具優(yōu)勢,能在更短時間、更全面地檢測出肺癌,并給患者提供更有利的治療方案[29]。研究者們希望對肺癌基因組圖譜有更全面的了解,這將為肺癌的早期診斷提供更有效的工具。張緒超等[30]對104例NSCLC來源的ctDNA突變特征譜及56例高風(fēng)險非癌癥患者的突變基因特征譜進行深度學(xué)習(xí)后,開發(fā)Lung-CLiP模型,通過模型判斷被檢測者患肺癌的效率能達到50%~70%?;跈C器學(xué)習(xí)與血液中cfDNA的全基因組片段化特征開發(fā)一種名為片段早期截取的DNA評估的檢測方法,描繪癌癥患者和健康個體之間的cfDNA全基因組片段化圖譜特征區(qū)別,模型的ROC曲線下的面積(area under curve, AUC)值可達0.92[31]。研究表明, DNA甲基化的改變早于基因突變[32]。HULBERT等[33]根據(jù)TCGA數(shù)據(jù)庫確定的6個在LUSC和LUAD中具有高度DNA甲基化的基因 (SOX17、TAC1等)[34],對來自痰或血漿的微量DNA進行甲基化檢測,發(fā)現(xiàn)肺癌檢測的敏感度提高且可能降低CT檢測的假陽性率。然而,在Ⅰ、Ⅱ和Ⅲ期肺癌患者中檢查出ctDNA的概率為42%~88%,而其檢出ctDNA的量低于0.01%的概率有7%~50%[35],大多數(shù)Ⅰ期肺癌患者的ctDNA水平低于0.1%[36-37]。要推動血液ctDNA肺癌診斷在臨床中的常規(guī)使用[38],還需促進測序準確性的提升和對低突變基因測序的正確識別。NEWMAN等[39]通過對血液樣本進行癌癥個體化深度測序,可在100%的Ⅱ~Ⅳ期NSCLC患者和50%的Ⅰ期NSCLC患者中檢測到ctDNA,這為以低成本對絕大多數(shù)NSCLC患者的ctDNA進行高靈敏度和無創(chuàng)檢測創(chuàng)造了可能。
miRNA是在多種生物中發(fā)現(xiàn)的長約22nt、小的非編碼RNA,雖然還未完全了解其功能,但目前已有研究表明miRNA在腫瘤細胞增殖、凋亡、轉(zhuǎn)移和造血中發(fā)揮作用[40]。
將與肺癌發(fā)生相關(guān)的miRNA進行組合,結(jié)合臨床監(jiān)測數(shù)據(jù)進行分析,選擇在NSCLC早期有顯著性變化的miRNA作為生物標志物,構(gòu)建機器學(xué)習(xí)模型進行分析診斷[41]。從基因表達數(shù)據(jù)庫中取GSE102286和GSE101929與從TCGA數(shù)據(jù)庫中下載的miRNA和mRNA表達譜進行多變量邏輯回歸分析,發(fā)現(xiàn)TOP2A、miR-193b-3p等可作為NSCLC的重要生物標志物和診斷靶點,用于NSCLC的診斷[42]。越來越多的研究針對早期肺癌的miRNA表達譜,希望尋找出有針對性的miRNA組合。根據(jù)肺結(jié)節(jié)(良性的或惡性的)miRNA表達譜的結(jié)果選擇10個有助于區(qū)分肺癌患者和良性受試者的預(yù)測miRNA,發(fā)現(xiàn)血漿中的這10個miRNA對NSCLC診斷的敏感度為54.8%~83.3%、特異度為60.0%~86.7%[6]。WANG等[43]基于已研究的10種血漿miRNA(如miR-21、miR-20a和miR-210等)[44-46]作為診斷標志物,與臨床癥狀和流行病學(xué)資料相結(jié)合,建立肺癌診斷的支持向量機模型,該模型敏感度為97.90%,特異度為94.10%,AUC大于0.9。FEHLMANN等[47]采用機器學(xué)習(xí)方法對來自3 046名個體的血液樣本的全基因組miRNA圖譜進行評估,獲得14個miRNA標志物,用于區(qū)分早期肺癌患者和驗證集中所有非肺癌患者,準確度為95.9%。YING等[48]運用序列前向浮動選擇和支持向量機算法對180例早期NSCLC病例和216例健康對照者中520個miRNA表達進行分析,再通過邏輯回歸預(yù)測模型在測試集中評估m(xù)iRNA腫瘤標志物組合的性能,模型對I期NSCLC的檢測準確率為90.7%。
通過微陣列雜交、測序等常見的分子生物學(xué)技術(shù),易于在體液中檢測到lncRNA。體液中循環(huán)的lncRNA可以在早期區(qū)分腫瘤患者和健康人群,具有潛在的預(yù)后價值[49]。大量研究表明,lncRNA參與生物活動進程,包括基因表達調(diào)控[50]、細胞周期[51]及腫瘤的發(fā)生和發(fā)展[52]。
lncRNA被認為廣泛參與癌細胞增殖、遷移、侵襲和耐藥性[53-55]。JIANG等[56]通過微陣列等方法,篩選出lncRNA XLOC_009167作為肺癌的候選生物標志物,其在肺癌患者全血中高表達,且能在不同條件下保持穩(wěn)定。用lncRNA XLOC_009167診斷肺癌的AUC值可達0.7,敏感度約為90.1%,特異度約為50.0%。XIE等[57]在一個隊列樣本(140名NSCLC患者和120名健康對照者)中測量血清樣本表達異常的lncRNA,確定了腫瘤血清樣本中過表達的2個lncRNA(SOX2OT和 ANRIL),并將其與當前可用的腫瘤標志物(CEA、CYFRA21-1和SCCA)結(jié)合,構(gòu)建基于邏輯回歸模型的肺癌診斷小組,其AUC為0.853,敏感度為77.1%,特異度為79.2%。WANG等[58]從TCGA數(shù)據(jù)庫中獲得LUAD的lncRNA和miRNA表達譜,用于建立隨機森林、決策樹和支持向量機的分類模型來區(qū)分LUAD和正常組織。并通過機器學(xué)習(xí)和加權(quán)基因共表達網(wǎng)絡(luò)分析在LUAD中找到的8個關(guān)鍵lncRNA,診斷LUAD的AUC值均大于0.89。
機器學(xué)習(xí)與液體活檢的結(jié)合與發(fā)展,使得更多與肺癌早期診斷相關(guān)的生物標志物被找到,但這些標志物是否能用于臨床診斷及其診斷效果評判還需進一步的臨床研究,以確保生物標志物具有普適性和高效性,達到肺癌早期診斷的效果。目前,液體活檢是肺癌早期診斷的研究熱點,但仍未有合適的早期診斷肺癌的生物標志物被臨床采納。
除了還需大規(guī)模的臨床研究以確定生物標志物的可靠性之外,液體活檢與機器學(xué)習(xí)的結(jié)合在醫(yī)學(xué)領(lǐng)域的應(yīng)用仍存在局限性:①需要解決數(shù)據(jù)共享的局限性,即處理人工智能(artificial intelligence, AI)應(yīng)用中的用戶隱私問題[59]。目前,各國對該問題的處理方法主要是通過制定相關(guān)法律(如美國聯(lián)邦政府于2020年1月發(fā)布《人工智能應(yīng)用監(jiān)管指南》等)和提高AI技術(shù)相結(jié)合,以此監(jiān)管AI技術(shù)可能帶來的不利影響。目前認為可能提高隱私保護的技術(shù)方法有聯(lián)邦學(xué)習(xí)[60]、差異化隱私[61]和同態(tài)加密[62-63]。②需要對異構(gòu)數(shù)據(jù)進行智能利用,包括將數(shù)據(jù)進行統(tǒng)一的標準化處理[64]和降低樣本利用存在的偏倚對模型準確度的影響[65]。該問題需要通過完善多人群醫(yī)學(xué)大數(shù)據(jù)庫和推進各個領(lǐng)域?qū)<乙煌贫ㄏ嚓P(guān)標準來處理[64,66]。當樣本數(shù)據(jù)缺乏多樣性或存在數(shù)據(jù)表達結(jié)果差異時,AI結(jié)果會出現(xiàn)偏差[65]。TAT等[67]認為在AI算法的訓(xùn)練完成后,必須在獨立的數(shù)據(jù)集中驗證算法;此外,數(shù)據(jù)處理需要訓(xùn)練有素的多個臨床醫(yī)生共同進行定期注釋,以協(xié)助質(zhì)量控制;在AI工具開發(fā)的早期階段,應(yīng)有臨床醫(yī)生、倫理學(xué)家和少數(shù)群體代表參與其中;在測試階段,AI算法應(yīng)該在各種少數(shù)群體和低收入群體中進行驗證,以此降低AI算法可能帶來的偏見。③還需要解決液體活檢的分析結(jié)果通常不如組織病理學(xué)活檢靈敏和全面的問題[38,68-71]。研究者傾向于優(yōu)化現(xiàn)有技術(shù)或融合其他領(lǐng)域的技術(shù)來提高檢測水平。循環(huán)中釋放的ctDNA量低,并受到源自非腫瘤細胞DNA的稀釋[28]。CHABON等[35]在確定肺癌來源的ctDNA特征,及其與血液內(nèi)正常造血細胞釋放的DNA片段的突變差別后,開發(fā)一種名為“Lung-CliP”的AI程序,用于評估血液中檢測到的游離DNA片段來源于肺部腫瘤的可能性。在98%的特異度下,觀察到Ⅰ、Ⅱ期肺癌患者的敏感度為41%和54%。在未來的發(fā)展過程中,應(yīng)注重多種技術(shù)的融會貫通。SHIN等[72]證明表面增強拉曼光譜技術(shù)與深度學(xué)習(xí)結(jié)合,能分析肺癌細胞來源的外泌體的光譜信號,提高早期診斷的可能性,即使是肺癌Ⅰ期患者也能以84%的靈敏度被檢測到。
今后,肺癌早期診斷的發(fā)展還需要結(jié)合安全、簡便的無創(chuàng)檢測方法進行敏感、全面的腫瘤圖譜分析,以提高早期診斷的準確性?;驕y序技術(shù)為肺癌早期診斷開辟了新的可能,而技術(shù)革新的同時也要求相關(guān)人員能正確地使用。將放射圖像、基因組學(xué)、病理學(xué)、電子健康記錄等多個數(shù)據(jù)流聚集到強大的綜合診斷系統(tǒng)中并結(jié)合AI技術(shù),獲得具有客觀性、高效性、多角度性且可重復(fù)性的技術(shù)手段,最終應(yīng)用于肺癌早期診斷中[65]。