張斯娜,馬書杰
子宮內(nèi)膜癌(Uterine corpus endomertrial carcinoma,UCEC)是最常見的嚴(yán)重威脅女性健康的婦科惡性腫瘤之一[1]。UCEC約占女性生殖系統(tǒng)腫瘤的20%~30%,僅次于宮頸癌。UCEC的發(fā)病率逐漸增加,適當(dāng)治療后UCEC的5年生存率從74%提高至91%[2]。目前子宮內(nèi)膜癌的治療手段主要為手術(shù)輔以放療或化療,對于晚期及復(fù)發(fā)患者,化療同樣是關(guān)鍵的治療手段之一。目前臨床以順鉑為主的單藥或聯(lián)合化療方案應(yīng)用最廣泛[3],但順鉑劑量加大后不良反應(yīng)增加和腫瘤細胞的耐藥性,使化療失敗率也增高[4],其抗癌效率明顯減低。因此,本研究利用生物信息學(xué)分析的方法,鑒別出與晚期子宮內(nèi)膜癌患者順鉑抵抗相關(guān)的基因。
1.1 TCGA子宮內(nèi)膜癌數(shù)據(jù)的收集和預(yù)處理 TCGA-UCEC項目患者的RNA-Seq-Counts數(shù)據(jù)以及相應(yīng)的臨床信息從Genomic Data Commons Data Portal下載(https://portal.gdc.cancer.gov/projects/TCGA-UCEC)[5]。剔除生存狀態(tài)、臨床分期和腫瘤組織學(xué)分級不完整的樣本,并納入生存時間≥30 d的數(shù)據(jù)樣本。利用edgeR包進行mRNA差異表達分析,我們利用edgeR包帶有的logCPM功能篩選表達基因,即logCPM值>1(約5~6個counts)被認(rèn)為表達基因。
1.2 差異表達基因篩選 利用R語言中的“edgeR”包進行正常組織和癌組織間的差異表達顯著性分析[6],通過設(shè)定差異表達閾值[|logFC|>1.0,且矯正后P值(FDR)<0.05]篩選差異基因,將得到的歸一化差異表達基因矩陣進行后續(xù)分析。然后利用R語言“pheatmap”程序包對正常組織樣本和子宮內(nèi)膜癌樣本繪制聚類熱圖。
1.3 加權(quán)基因共表達網(wǎng)絡(luò)分析 本研究使用R軟件“WGCNA”加權(quán)基因共表達網(wǎng)絡(luò)分析軟件包,對子宮內(nèi)膜癌樣本的基因表達譜構(gòu)建網(wǎng)絡(luò)進行分析,構(gòu)建基因模塊并驗證其與臨床分期以及腫瘤組織學(xué)分級的相關(guān)性。利用基于基因表達顯著性(GS)和模塊身份(MM)的函數(shù)“networkScreening”尋找樞紐基因[7]。通過此函數(shù)可以得出一系列的指標(biāo),包括編碼基因與臨床分期以及腫瘤組織學(xué)分級相關(guān)性的加權(quán)P值(P.Weighted,F(xiàn)DR)、校正后的加權(quán)P值(q.Weighted)、加權(quán)后的相關(guān)系數(shù)(cor.Weighted)以及費希爾Z值(Fisher Z)。和普通的P值類似,P.Weighted越小,則說明編碼基因與臨床分期以及腫瘤組織學(xué)分級相關(guān)性越強。我們?nèi)⌒U蟮募訖?quán)P值(q.Weighted<0.01)篩選與臨床分期以及腫瘤組織學(xué)分級高度相關(guān)的蛋白編碼基因。
1.4 差異表達基因的生存分析 使用R軟件“survival”生存分析軟件包,對差異表達基因進行單變量Cox分析,確定與子宮內(nèi)膜癌患者總生存期之間相關(guān)的差異mRNA。按照P<0.01 篩選與子宮內(nèi)膜癌預(yù)后相關(guān)的蛋白編碼基因。
1.5 抗癌藥物敏感性數(shù)據(jù) 抗癌藥物敏感性基因組學(xué)(Genomics of Drug Sensitivity in Cancer,GDSC)數(shù)據(jù)庫(https://www.cancerrxgene.org/)的數(shù)據(jù)來自75 000個實驗,描述了約251個抗癌藥物在1 001種腫瘤中的反應(yīng)[7]。我們下載該數(shù)據(jù)庫中4個數(shù)據(jù)集包括“Annotated list of Cell lines”、“Screened compounds”、“l(fā)og(IC50) and AUC values”及“RMA normalised expression data for Cell lines”。整合數(shù)據(jù)分析基因表達量的差異對子宮內(nèi)膜癌細胞系耐藥性的影響。按照P<0.05篩選與順鉑藥物半數(shù)抑制濃度 (IC50)具有相關(guān)性的基因。
1.6 統(tǒng)計學(xué)分析方法 采用edgeR軟件包以負二項分布的方法篩選差異表達基因;在應(yīng)用WGCNA前,需要對歸一化的表達數(shù)據(jù)進行對數(shù)化,使其轉(zhuǎn)化為正態(tài)分布。本實驗使用以2為底的對數(shù)(log2)轉(zhuǎn)換,并預(yù)先加上0.01進行平滑。WGCNA采用Pearson法或TOM法;使用“upsetR”軟件包找出預(yù)后相關(guān)和臨床分期以及腫瘤組織學(xué)分級共同的基因并做交集可視化圖。
2.1 臨床信息數(shù)據(jù)準(zhǔn)備 在TCGA矩陣數(shù)據(jù)中,mRNA測序數(shù)包括551例子宮內(nèi)膜癌的樣本,臨床特征信息包括548例子宮內(nèi)膜癌患者的樣本。根據(jù)數(shù)據(jù)預(yù)處理中的納排標(biāo)準(zhǔn),本研究中納入了519例子宮內(nèi)膜癌患者參與預(yù)后分析。我們從整個臨床特征信息中提取2個臨床特征,包括臨床分期和腫瘤組織學(xué)分級。這2個臨床數(shù)據(jù)均屬于等級數(shù)據(jù),均以字符型數(shù)據(jù)的形式存儲,需要轉(zhuǎn)換數(shù)字型數(shù)據(jù)的形式來適應(yīng)WGCNA分析。TCGA中子宮內(nèi)膜癌患者的臨床特征信息數(shù)據(jù)見表1。
表1 UCEC病例的臨床特征信息和數(shù)字化編譯的結(jié)果
2.2 差異表達基因篩選 本研究使用edgeR包提供的算法,根據(jù)基因Counts數(shù)據(jù)計算得到差異表達基因列表。對35個癌旁組織樣本和551個癌組織樣本,以|logFC|>1.0且FDR<0.05為標(biāo)準(zhǔn)計算差異表達基因,并通過logCPM值>1的標(biāo)準(zhǔn)篩選得到4 043個差異表達基因,其中上調(diào)基因2 348個,下調(diào)基因1 695個。正常組織樣本和子宮內(nèi)膜癌樣本繪制聚類,見圖1。
圖1 正常組織樣本和子宮內(nèi)膜癌樣本繪制聚類熱圖
2.3 加權(quán)基因共表達網(wǎng)絡(luò)分析結(jié)果 在519例腫瘤組織樣本中,4 043個基因表達譜用于進行共表達網(wǎng)絡(luò)構(gòu)建,剔除41個離群樣本后,按照無尺度網(wǎng)絡(luò)的標(biāo)準(zhǔn),以相關(guān)系數(shù)等于0.95作為標(biāo)準(zhǔn),使用pickSoftThreshold函數(shù),選擇鄰接矩陣權(quán)重參數(shù)(軟閾值)β=4構(gòu)建基因模塊,見圖2A-2D。動態(tài)樹切割可以識別模塊,模塊中的基因表達值非常相似。高度相似的模塊被合并后,一共有13個共表達模塊被鑒定,其大小范圍為30~947個基因,分配每個模塊一種顏色作為參考,而模塊“灰色”則保留沒有共表達的基因,見表2和圖2E。通過計算模塊內(nèi)基因表達量與樣本特征向量的pearson相關(guān)系數(shù),尋找與腫瘤組織學(xué)分級和臨床分期發(fā)生顯著相關(guān)的基因模塊,其中blue模塊和brown模塊基因在腫瘤組織學(xué)分級和臨床分期的顯著性高于其他模塊,因此,blue模塊和brown模塊與腫瘤組織學(xué)分級和臨床分期相關(guān)性較高,見圖2F。隨后,應(yīng)用WGCNA的“networkScreening”函數(shù)判斷樞紐基因,結(jié)果顯示,與腫瘤組織學(xué)分級相關(guān)的顯著基因有702個,632個顯著基因與臨床分期相關(guān),見表3。
表3 與腫瘤組織學(xué)分級和臨床分期相關(guān)的顯著基因表
圖2 加權(quán)基因共表達網(wǎng)絡(luò)分析
表2 各模塊基因的數(shù)量
2.4 差異表達基因的生存分析結(jié)果 TCGA差異mRNA數(shù)據(jù)進行單因素Cox分析,取P值<0.01后篩選出723個基因,見表4。腫瘤組織學(xué)分級和臨床分期是決定子宮內(nèi)膜癌患者預(yù)后的重要因素,腫瘤組織學(xué)分級或臨床分期越高,預(yù)后越差。我們篩選出與腫瘤組織學(xué)分級和臨床分期相關(guān)的分子生物標(biāo)志物理論上也屬于預(yù)后相關(guān)的基因。我們發(fā)現(xiàn)與腫瘤組織學(xué)分級和臨床分期相關(guān)共同的453個顯著基因,其中與患者預(yù)后顯著相關(guān)的基因有196個(圖3)。
表4 差異表達mRNA cox單因素分析結(jié)果
圖3 腫瘤組織學(xué)分級、臨床分期和預(yù)后相關(guān)的顯著基因交集情況
2.5 抗癌藥物敏感性數(shù)據(jù)結(jié)果 半數(shù)抑制濃度(IC50)能表示某一藥物或者物質(zhì)(抑制劑)在抑制某些生物程序(或者是包含在此程序中的某些物質(zhì),比如酶,細胞受體或是微生物)的半量。IC50值可衡量藥物誘導(dǎo)的能力,數(shù)值越低,誘導(dǎo)能力越強,也可以反向說明某種細胞對藥物的耐受程度。GDSC由英國桑格研究院開發(fā),收集腫瘤細胞對藥物的敏感度和反應(yīng)。我們下載整合基因在子宮內(nèi)膜癌細胞系的表達量及該細胞系與藥物反應(yīng)的數(shù)據(jù),分析在子宮內(nèi)膜癌細胞系中基因表達對順鉑藥物敏感度的相關(guān)性,結(jié)果顯示,468個基因表達變化對順鉑敏感度具有相關(guān)性(P<0.05),見表5,其中86個基因隨著表達量的增加對順鉑敏感度增強,382個基因隨著表達量的增加對順鉑耐藥性增強。子宮內(nèi)膜癌患者預(yù)后與腫瘤組織學(xué)分級和臨床分期均相關(guān)的差異基因有6個(DLL3、DTNA、EYA4、FAM110B、FBN3和GRB7),其表達值的變化與順鉑藥物敏感度存在相關(guān)性,且隨著表達量的增加,對順鉑耐藥性增強,見圖4。
圖4 抗癌藥物敏感性分析
表5 基因表達變化對順鉑敏感度的相關(guān)性分析結(jié)果
2.6 6個基因的分析結(jié)果 DLL3、DTNA、EYA4、FAM110B、FBN3和GRB7基因的表達與腫瘤組織學(xué)分級和臨床分期以及與順鉑半數(shù)抑制濃度(IC50)具有顯著的正相關(guān)性(cor>0,P<0.01),即隨著6個基因表達的增加,對順鉑的耐藥性增強。單因素分析結(jié)果顯示,6個基因的表達均是子宮內(nèi)膜癌患者的危險因素(HR>1),見表6;隨著臨床分期和腫瘤組織學(xué)分級的等級增高,6個基因表達量也隨之增加,見圖5。
表6 6個基因的統(tǒng)計分析結(jié)果
圖5 6個基因在不同腫瘤組織學(xué)分級和臨床分期的表達情況
鉑類藥物(順鉑、卡鉑等)是目前最廣泛應(yīng)用于子宮內(nèi)膜癌的化療藥物,但是子宮內(nèi)膜癌的化療效果并不令人滿意,文獻報道單藥順鉑的化療有效率約為30%左右,聯(lián)合化療使藥物有效率有所增加,但毒性反應(yīng)也明顯增加[8-9]。如何提高順鉑等藥物的化療敏感性,克服其耐藥性,是子宮內(nèi)膜癌的臨床治療研究熱點之一。順鉑是一線化療藥物,是子宮內(nèi)膜癌患者手術(shù)后最常用的藥物之一,其最突出的抗癌作用方式包括DNA損傷、抑制DNA合成和有絲分裂以及誘導(dǎo)細胞凋亡來殺死癌細胞[10-11]。然而,只有25%~35%的患者對順鉑有反應(yīng)[12-13],這意味著腫瘤中存在高異質(zhì)性和顯著的順鉑耐藥細胞群,也有可能隨著順鉑治療時間的延長以及用量的增加,腫瘤細胞會產(chǎn)生一定程度的耐藥性,最終導(dǎo)致治療失敗[14]。本研究結(jié)果顯示,隨著子宮內(nèi)膜癌臨床分期和腫瘤組織學(xué)分級等級的增高,6個基因(DLL3、DTNA、EYA4、FAM110B、FBN3和GRB7)表達量也隨之增加,從而對順鉑耐藥性增強。
研究表明,其耐藥性的產(chǎn)生機制是一個較為復(fù)雜的多步驟、多因素、多基因的生物學(xué)過程,涉及靶組織、機體以及腫瘤細胞的相互作用和影響,與腫瘤細胞相關(guān)基因的信號傳導(dǎo)和調(diào)節(jié)密切相關(guān)[15]。順鉑可通過誘導(dǎo)細胞凋亡來殺死癌細胞。細胞凋亡的誘導(dǎo)是抗癌藥物的主要目的之一,因此,抗凋亡被認(rèn)為是導(dǎo)致癌細胞化學(xué)無反應(yīng)性的可能機制[16]。生長因子受體結(jié)合蛋白-7(Grb7)是多結(jié)構(gòu)域銜接蛋白,與各種細胞信號和功能的多種酪氨酸激酶共同參與作用[17],并被發(fā)現(xiàn)在乳腺癌[18-19]和卵巢癌[20]等轉(zhuǎn)移性腫瘤中過表達。有研究表明,Grb7在促進宮頸癌細胞系中的腫瘤進展(包括侵襲和抗凋亡)中起重要作用,Grb7過表達促進宮頸癌的侵襲和抑制細胞凋亡[21];DLL3是Notch受體的Delta/Serrate/Lag-2配體家族的成員,并且在Notch信號傳導(dǎo)中起作用[22]。先前的證據(jù)表明,Dll3在共表達細胞中與Notch1相互作用并且自主地抑制Notch信號傳導(dǎo)[23-24]。在鼠Lewis肺癌細胞中DLL3的過表達通過抑制Notch信號傳導(dǎo)促進體外細胞增殖和體內(nèi)腫瘤生長[25]。
本研究采用生物信息學(xué)的方法,通過TCGA和GDSC數(shù)據(jù)庫挖掘出晚期子宮內(nèi)膜癌患者DLL3、DTNA、EYA4、FAM110B、FBN3和GRB7基因?qū)樸K存在耐藥性,可以有效下調(diào)DLL3、DTNA、EYA4、FAM110B、FBN3和GRB7及其蛋白的表達,抑制晚期子宮內(nèi)膜癌細胞對順鉑的耐藥性,從而提高癌細胞的生長抑制率,對晚期子宮內(nèi)膜癌患者的臨床治療具有一定作用。本研究只通過統(tǒng)計計算方法對TCGA數(shù)據(jù)庫中的子宮內(nèi)膜癌患者基因進行順鉑耐藥性分析,存在一定的局限性,需要體外和體內(nèi)實驗進一步研究驗證。