李秀勤,韓騰輝,王帥,沈剛,朱軍
(1.中國(guó)人民解放軍南部戰(zhàn)區(qū)空軍醫(yī)院 普通外科, 廣東 廣州 510000;2.中國(guó)人民解放軍空軍軍醫(yī)大學(xué)西京醫(yī)院 神經(jīng)內(nèi)科,陜西 西安 710000;3. 中國(guó)人民解放軍空軍西安飛行學(xué)院一旅明港場(chǎng)站醫(yī)院 門診部,河南 信陽 463200)
流行病學(xué)研究表明,結(jié)直腸癌(colorectal cancer,CRC)作為全球發(fā)病率排第2 位、致死率排第3 位的腫瘤,已經(jīng)成為威脅人類健康的重要疾病之一[1]。目前,我國(guó)結(jié)直腸癌的發(fā)病率在常見惡性腫瘤中排第3 位、病死率排第5 位[2]。各大指南推薦所有的CRC 患者需要檢測(cè)微衛(wèi)星狀態(tài),以完善患者的臨床診斷,治療指導(dǎo)和預(yù)后評(píng)估[3]。微衛(wèi)星廣泛存在于原核及真核生物基因組中,具有較高的遺傳穩(wěn)定性,但在錯(cuò)配修復(fù)基因功能發(fā)生異常時(shí),子代細(xì)胞微衛(wèi)星的重復(fù)核苷酸數(shù)量可以增多或減少,從而導(dǎo)致微衛(wèi)星的長(zhǎng)度不再保持一致,這種現(xiàn)象稱微衛(wèi)星不穩(wěn)定(microsatellite instability,MSI)。 而一種或多種錯(cuò)配修復(fù)蛋白的缺失(deficient mismatch repair,dMMR)往往會(huì)導(dǎo)致高頻MSI(MSI-H)[4]。此外,有文獻(xiàn)[5]報(bào)道錯(cuò)配修復(fù)蛋白的免疫組化檢測(cè)與MSI 的PCR 檢測(cè)結(jié)果具有高度的一致性,因此,本研究將MSI-H/dMMR 作為相似的一組進(jìn)行分析。隨著免疫治療的興起,尤其是抗PD-1/PD-L1 藥物的實(shí)體腫瘤的治療出現(xiàn)了新的轉(zhuǎn)機(jī)。PD-1/PD-L1 是腫瘤細(xì)胞進(jìn)行免疫逃逸的重要分子通路,抗PD-1/PD-L1 可以明顯增強(qiáng)腫瘤浸潤(rùn)免疫細(xì)胞的殺傷能力[6]。但是,由于PD-1/PD-L1 的表達(dá)量低而使得CRC 的免疫治療受到了極大的限制。目前,CRC 的免疫治療現(xiàn)在主要適用于MSI-H/dMMR 的患者[7-8]。目前MSI-H 和免疫檢查點(diǎn)治療的內(nèi)在機(jī)制研究開展較少,而除了錯(cuò)配修復(fù)蛋白基因的研究外,關(guān)于結(jié)直腸癌MSI 特征基因也未得到深入廣泛的研究。本研究的目的是使用機(jī)器學(xué)習(xí)篩選MSI 診斷效率最高的基因,并且研究基因和腫瘤免疫微環(huán)境的相關(guān)性。
隨著機(jī)器學(xué)習(xí)和人工智能在醫(yī)學(xué)領(lǐng)域的廣泛運(yùn)用,病理輔助診斷[9]、疾病精確診斷[10]和個(gè)性化治療[11]已逐漸在臨床上得以實(shí)現(xiàn)。同時(shí)二代測(cè)序技術(shù)為CRC 患者精準(zhǔn)治療提供了極大的便利。因此,本研究的主要目的是,使用機(jī)器學(xué)習(xí)和數(shù)據(jù)庫驗(yàn)證分析等方法在CRC 患者測(cè)序數(shù)據(jù)中,發(fā)掘新型的MSI 特征基因,為臨床研究和應(yīng)用提供新的線索和方向。
研究對(duì)象為臨床確診的CRC 患者人群。研究對(duì)象的納入標(biāo)準(zhǔn)為:⑴年齡≥18 周歲;⑵ 已知微衛(wèi)星狀態(tài)或錯(cuò)配修復(fù)基因缺失情況的患者;⑶ 測(cè)序數(shù)據(jù)完整的患者(基因二代測(cè)序或者組織芯片)。排除標(biāo)準(zhǔn)為:⑴ 合并其他腫瘤的患者;⑵ 生存時(shí)間少于30 d 的患者;⑶ 未采取手術(shù)治療而無法獲取大體病理資料的患者。該研究已通過中國(guó)人民解放軍南部戰(zhàn)區(qū)空軍醫(yī)院審核批準(zhǔn)。
在GEO 官網(wǎng)(https://www.ncbi.nlm.nih.gov/geo)下載CRC 完整測(cè)序數(shù)據(jù)GSE39582,在TCGA 官網(wǎng)(https://portal.gdc.cancer.gov) 下載CRC 測(cè)序數(shù)據(jù)TCGA-COAD。由于GSE39582 的CRC 樣本量較大,因此本研究將GSE39582 作為訓(xùn)練集,將TCGACOAD 作為外部驗(yàn)證集。此外,使用Linear Models for Microarray Data(LIMMA)包中normalizeBetweenArrays 函數(shù)對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,通過SVA 包中的Combat 函數(shù)去除2 個(gè)數(shù)據(jù)集的批次效應(yīng)。
按照微衛(wèi)星狀態(tài)或者錯(cuò)配修復(fù)基因的表達(dá)水平,本研究分別將GSE39582 和TCGA-COAD 數(shù)據(jù)集中的患者分為MSI-H/dMMR 組和低頻度MSI(MSI-L)或微衛(wèi)星穩(wěn)定(MSS)/錯(cuò)配蛋白完整(pMMR)組。本研究把MSI-L-MSS/pMMR 組作為對(duì)照組,MSI-H/dMMR 組作為觀察組。使用LIMMA 包對(duì)差異基因進(jìn)行篩選,其校正方法為FDR 法。篩選條件為:|log2(差異倍數(shù))|>1.5 并且FDR 值<0.05。
為了得到更精確的MSI 特征基因,分別使用LASSO 回歸算法和支持向量機(jī)-遞歸特征消除(SVM-RFE) 算法對(duì)上述得到的差異基因進(jìn)行篩選。LASSO 回歸算法:使用glmnet 包,alpha 參數(shù)設(shè)置為1,交叉驗(yàn)證為10,高斯分布用于交叉驗(yàn)證的損失。LASSO 篩選的基因定義為:二項(xiàng)式誤差最小值時(shí)對(duì)應(yīng)的基因數(shù)目。SVM-RFE 算法:使用caret,kernlab,e1071 包,對(duì)模型進(jìn)行內(nèi)部交叉驗(yàn)證,采用的方法為“svmRadial”,最后篩選的基因?yàn)榻徊骝?yàn)證誤差(RSME)最小值的基因數(shù)目。受試者工作特征曲線(ROC)用以評(píng)價(jià)MSI 特征基因的診斷效能,曲線下面積(AUC)值為MSI 特征基因的評(píng)價(jià)指標(biāo)。以抽樣的方式計(jì)算AUC 值95%可信區(qū)間,抽樣方法為bootstrap 法。
CIBERSORT 算法[12]評(píng)估GSE39582 測(cè)序數(shù)據(jù)的免疫細(xì)胞浸潤(rùn)情況,P<0.05 作為預(yù)測(cè)準(zhǔn)確的篩選標(biāo)準(zhǔn)。評(píng)估的免疫細(xì)胞主要包含:CD4+T 細(xì)胞,CD8+T 細(xì)胞,樹突狀細(xì)胞,輔助型T 細(xì)胞,M1 巨噬細(xì)胞,M2 型巨噬細(xì)胞,M0 型巨噬細(xì)胞,中性粒細(xì)胞,B 細(xì)胞,記憶性B 細(xì)胞和肥大細(xì)胞。本研究使用相關(guān)性分析研究MSI 特征基因與腫瘤浸潤(rùn)免疫細(xì)胞的關(guān)聯(lián)性,以探索MSI 特征基因?qū)δ[瘤免疫微環(huán)境的影響。同時(shí),MSI 特征基因與免疫細(xì)胞的相關(guān)性也進(jìn)行了分析研究。
計(jì)量資料中,符合正態(tài)分布方差齊性的數(shù)據(jù)以平均數(shù)±標(biāo)準(zhǔn)差(±s)的方式來表示,其檢驗(yàn)方式為Student't檢驗(yàn)或方差分析;不符合正態(tài)分布或者方差齊性的數(shù)據(jù)使用中位數(shù)(四分位間距)[M(IQR)],檢驗(yàn)方式為非參數(shù)檢驗(yàn)。計(jì)數(shù)資料,表達(dá)方式為例數(shù)(百分?jǐn)?shù))[n(%)],其檢驗(yàn)方式為χ2檢驗(yàn)或Fisher 精確概率。特征基因與免疫細(xì)胞的相關(guān)性分析采用的是Spearman 秩相關(guān)分析。本研究中使用的其余R 包有:dplyr,ggplot2,pROC 等等。P<0.05 為差異有統(tǒng)計(jì)學(xué)意義。
GSE39582 數(shù)據(jù)中共收集536 例CRC 患者,其中MSI-H 患者77 例;MSI-L/MSS 患者459 例。MSI-H 組55 例存活,存活率為71.4%,MSI-L/MSS 組299 例存活,存活率為65.1%,MSI-H 組的存活率高于MSI-L/MSS 組(P=0.001)。在TNM 分期系統(tǒng)中,MSI-H 組的患者均早于MSI-L/MSS 組患者(T 分期:P=0.036;N 分期:P=0.007;M 分期:P=0.02)。患者年齡,性別和生存時(shí)間在MSI-H 組和MSI-L/MSS 組的差異無統(tǒng)計(jì)學(xué)意義(均P>0.05)。
TCGA-COAD 數(shù)據(jù)中共收集389 例CRC 患者,其中MSI-H 患者67 例;MSI-L/MSS 患者322 例。MSI-H 組57 例存活,存活率為85.1%,MSI-L/MSS 組258 例存活,存活率為80.1%,兩組的存活率差異無統(tǒng)計(jì)學(xué)意義(P=0.442)。在N 分期和M 分期中,MSI-H 組的患者早于MSI-L/MSS 組患者(N 分期:P<0.001;M 分期:P=0.014)。T 分期,患者年齡,性別和生存時(shí)間在兩組中的差異無統(tǒng)計(jì)學(xué)意義(均P>0.05)(表1)。
表1 TCGA和GEO數(shù)據(jù)集的基線資料特征(續(xù))Table 1 Baseline features of CRC patients in TCGA and GEO datasets (continued)
表1 TCGA和GEO數(shù)據(jù)集的基線資料特征Table 1 Baseline features of CRC patients in TCGA and GEO datasets
為了全面篩選MSI 特征基因,本研究首先按照預(yù)先設(shè)置的分組情況,使用LIMMA 包對(duì)每個(gè)測(cè)序基因進(jìn)行篩選。在GSE39582 數(shù)據(jù)中,差異基因分析結(jié)果如圖1 所示:MSI-H 組17 個(gè)基因上調(diào)(紅色點(diǎn)),17 個(gè)基因下調(diào)(綠色點(diǎn)),差異具有統(tǒng)計(jì)學(xué)意義。
圖1 MSI差異性基因的火山圖Figure 1 Volcano diagram of differentially expressed genes of MSI
為了進(jìn)一步篩選相關(guān)基因,使用兩種機(jī)器學(xué)習(xí)的方式對(duì)差異基因進(jìn)行探究。在LASSO 回歸中,21 個(gè)差異基因在模型中被保留下來(圖2A)。在SVM-RFE 分析中,6 個(gè)差異基因被確定(圖2B)。兩種機(jī)器算法確定的基因在取交集后,最后得到6 個(gè)MSI 特征基因:EIF5A、CXCL13、HNRNPL、HOXC、RPL22L1、Y16709。
圖2 LASSO 回歸和SVM-RFE 篩選特征基因 A:LASSO 回歸篩選特征基因的過程;B:SVM-RFE 中誤差與變量數(shù)目的關(guān)系Figure 2 MSI-related genes identified by LASSO regression and SVM-RFE methods A: Selection of MSI-related genes by LASSO regression; B: The relationship between error and number of genes in SVM-RFE
ROC 曲線驗(yàn)證MSI 特征基因的診斷效能,結(jié)果詳見表2。在訓(xùn)練集(GSE39582)中,6 個(gè)基因的AUC 值都在0.75 以上,其中EIF5A,HNRNPL和Y16709的AUC 值達(dá)0.95 以上。在驗(yàn)證集(TCGACOAD) 中,EIF5A的診斷效能最高(AUC=0.805)而Y16709基因在TCGA 數(shù)據(jù)未發(fā)現(xiàn)。因此,本研究最終將EIF5A作為MSI 的特征基因。
表2 不同基因?qū)RC MSI狀態(tài)的診斷效能Table 2 Diagnostic efficacy of different genes for MSI status in colorectal cancer
CIBERSORT 算法解析GSE39582 的腫瘤免疫細(xì)胞浸潤(rùn)情況。在計(jì)算每種免疫細(xì)胞的評(píng)分之后,我們分析MSI 特征基因EIF5A與免疫細(xì)胞的相關(guān)性。圖3 顯示:CD8+T 細(xì)胞,活化的樹突狀細(xì)胞,輔助性T 細(xì)胞,M1 型巨噬細(xì)胞,γδT 細(xì)胞,中性粒細(xì)胞與EIF5A 成正相關(guān)(均P<0.05);CD4+記憶性T 細(xì)胞,M2 型巨噬細(xì)胞,靜止樹突狀細(xì)胞,嗜酸性粒細(xì)胞,調(diào)節(jié)性T 細(xì)胞(Treg)與EIF5A呈負(fù)相關(guān)(均P<0.05)。
圖3 EIF5A基因與腫瘤浸潤(rùn)免疫細(xì)胞的關(guān)系Figure 3 The correlation between EIF5A and tumorinfiltrating immune cells
MSI 已經(jīng)成為CRC 診斷、治療以及預(yù)后評(píng)價(jià)的最重要的臨床特征之一。在腫瘤發(fā)生的研究領(lǐng)域中, MSI 途徑(約占15%) 和染色體不穩(wěn)定(chromosomal instability,CIN)(約占75%) 途徑成為散發(fā)性CRC 發(fā)生的兩大重要通路。尤其是Lynch綜合征患者,幾乎所有的患者都是經(jīng)過MSI 途徑發(fā)生的[13]。與CIN CRC 特征不同的是,MSI CRC 主要發(fā)生在右半結(jié)腸,往往以黏液性和低分化腺癌為主的組織學(xué)類型出現(xiàn)。然而,MSI 相關(guān)基因的研究?jī)H限于微衛(wèi)星位點(diǎn)和錯(cuò)配修復(fù)基因的改變。因此,本研究基于兩種機(jī)器學(xué)習(xí)的算法和腫瘤免疫細(xì)胞浸潤(rùn)分析,最終在兩個(gè)數(shù)據(jù)庫中驗(yàn)證EIF5A可能是MSI 的特征基因。
MSI-H 在腫瘤病理診斷、腫瘤治療和患者預(yù)后與MSI-L/MSS 具有很大的差異,是現(xiàn)在CRC 研究的熱點(diǎn)之一。在腫瘤治療中,Ⅱ期MSI-H 的CRC 患者不適用5-氟尿嘧啶為主的化療方案,而MSI-H 的CRC 患者對(duì)伊立替康等的化療藥物較為敏感[14]。在局部進(jìn)展期低位直腸癌中,腸鏡初診活檢組織中dMMR 蛋白表型預(yù)示較好的新輔助放化療療效[15]。在腫瘤預(yù)后方面,有文獻(xiàn)報(bào)道,MSI-H 腫瘤預(yù)后優(yōu)于MSI-L/MSS 腫瘤[16],尤其是在Ⅱ期的CRC 患者中[17]。本研究發(fā)現(xiàn),GSE39582 CRC 數(shù)據(jù):MSI-H 的患者預(yù)后要優(yōu)于MSI-L/MSS 患者。然而在TCGA 的CRC 患者數(shù)據(jù)中,MSI-H 與MSI-L/MSS 患者的生存時(shí)間差異無統(tǒng)計(jì)學(xué)意義。這可能與樣品例數(shù)和種族有關(guān)。
在免疫治療領(lǐng)域,MSI-H/dMMR 患者已經(jīng)公認(rèn)為CRC 免疫治療的有效人群。MSI-H CRC 患者在接受免疫檢查點(diǎn)抑制劑后的客觀緩解率為60%,疾病控制率為84%[18]。所有45 例患者的12 個(gè)月無疾病進(jìn)展率為77%,12 個(gè)月總體生存率為83%[18]。KEYNOTE-016 研究[19]表明,62% (7/13) MSI-H 的CRC 患者預(yù)先接受過免疫檢查點(diǎn)抑制劑治療,并得到了客觀緩解。KEYNOTE-164 研究[20]表明,在接受一線治療后的MSI-H 的CRC 患者再接受帕博利珠單抗治療后,其客觀緩解率為32%(中位隨訪時(shí)間為12.6 個(gè)月),1年無進(jìn)展生存率與總生存率分別為41%和76%。以上結(jié)論均一致表明:MSI 成為CRC 免疫治療尤其是免疫檢查點(diǎn)治療的新型腫瘤標(biāo)志物,因此,臨床上關(guān)于MSI 狀態(tài)的輔助診斷和MSI 影響免疫治療的機(jī)制研究顯得十分必要和迫切。
人工智能輔助診斷MSI 方面,主要聚焦于病理切片信息[21],病理多組學(xué)數(shù)據(jù)[22],基因突變數(shù)據(jù)[23]等。在研究MSI 狀態(tài)對(duì)腫瘤免疫治療的影響方面,Lin 等[24]發(fā)現(xiàn),與MSS/MSI-L 型相比,MSI-H 具有更多的免疫細(xì)胞浸潤(rùn)、更高的免疫相關(guān)基因表達(dá)和更高的免疫原性。此外,在腫瘤突變負(fù)荷(tumor mutation burden,TMB) 方面,與MSS/MSI-L CRC(TMB<8 個(gè)突變/106個(gè)DNA 堿基)相比,MSIH 具有更高的TMB (>12 個(gè)突變/106個(gè)DNA 堿基)[25]。本研究通過2 個(gè)獨(dú)立的數(shù)據(jù)集(TCGACOAD,GSE39582)層層篩選驗(yàn)證,使用機(jī)器學(xué)習(xí)的方式,最終確定了EIF5A基因?yàn)镸SI-H 的特征基因。在腫瘤免疫細(xì)胞浸潤(rùn)結(jié)果中,我們發(fā)現(xiàn)EIF5A基因表達(dá)水平與活化的樹突狀細(xì)胞,輔助性T 細(xì)胞和M1 巨噬細(xì)胞有關(guān),這與MSI-H CRC 擁有更高的活化淋巴細(xì)胞結(jié)果一致。EIF5A是一個(gè)翻譯起始因子,受羥腐胺賴氨酸作用調(diào)節(jié)。最新的研究數(shù)據(jù)表明,羥腐胺賴氨酸化的EIF5A能夠調(diào)節(jié)如自噬[26]、衰老、多胺穩(wěn)態(tài)[27]、能量代謝[28]等一系列關(guān)鍵的細(xì)胞進(jìn)程,并在癌癥[29]中起重要作用。Coni等[30]發(fā)現(xiàn):羥腐胺賴氨酸化的EIF5A可通過直接調(diào)節(jié)特定暫停狀態(tài)下的Myc 生物合成來促進(jìn)CRC 細(xì)胞的生長(zhǎng);而抑制EIF5A的羥腐胺賴氨酸化作用,可以抑制CRC 細(xì)胞的生長(zhǎng)。在具有家族性遺傳性息肉病的小鼠模型中,阻斷EIF5A羥腐胺賴氨酸化后腺瘤的抑制效果更佳明顯。此外,文獻(xiàn)[31]報(bào)道,聚腺苷二磷酸核糖水解酶(PARG)分子可以促進(jìn)Myc-MMR 軸,從而促進(jìn)腫瘤的進(jìn)展,同時(shí)也可以作為腫瘤免疫治療的生物學(xué)標(biāo)志物。雖然EIF5A與MSI 患者的關(guān)系,以及EIF5A與免疫細(xì)胞浸潤(rùn)的關(guān)系尚未報(bào)道。本研究提出猜想,EIF5A可能通過促進(jìn)Myc 的表達(dá)和延伸,從而促進(jìn)dMMR 的發(fā)生。靶向抑制EIF5A(阻斷其羥腐胺賴氨酸化作用),不僅可以作為CRC 的潛在治療方式,而且EIF5A的羥腐胺賴氨酸化有望成為MSI 診斷和免疫檢查點(diǎn)治療的生物學(xué)標(biāo)志物。
本研究仍然存在以下幾點(diǎn)不足:首先,訓(xùn)練集和驗(yàn)證集來自美國(guó)和法國(guó)人群,其驗(yàn)證存在種族差異,而且還缺乏國(guó)內(nèi)多中心的測(cè)序的驗(yàn)證結(jié)果。其次,關(guān)于EIF5A羥腐胺賴氨酸化-Myc-MMR 軸沒有進(jìn)行細(xì)胞驗(yàn)證,后續(xù)需要在基礎(chǔ)實(shí)驗(yàn)中得以驗(yàn)證。
本研究基于CRC 多個(gè)測(cè)序數(shù)據(jù),首次發(fā)掘出MSI 的特征基因EIF5A,并發(fā)現(xiàn)其對(duì)MSI 的診斷具有較高的準(zhǔn)確度和效能,該基因有望成為MSI 領(lǐng)域新的研究分子,為以后相關(guān)的功能機(jī)制研究提供線索和依據(jù)。
利益沖突:所有作者均聲明不存在利益沖突。