張 鵬, 羅 琴, 汪婷婷, 袁向亮, 沈立松
(上海交通大學醫(yī)學院附屬新華醫(yī)院檢驗科,上海 200092)
胃癌是消化道常見的腫瘤之一[1],2015年世界衛(wèi)生組織發(fā)布的《Global Cancer Statistics, 2012》報告指出,胃癌的發(fā)病例數(shù)高居惡性腫瘤的第4位。根據(jù)2015年CHEN等[2]的研究數(shù)據(jù)顯示,2015年我國胃癌新發(fā)病例679 100例,死亡病例498 000例。胃癌嚴重威脅我國人民的健康[3]。
胃癌病因十分復雜,但最終都在不同階段作用于不同基因,引起相關基因結構及表達水平的改變,這些基因共同作用最終導致胃癌的發(fā)生、發(fā)展。高通量測序技術及基因芯片技術的快速發(fā)展,使基因數(shù)據(jù)大量累積。美國國立生物技術信息中心(the National Center for Biotechnology Information,NCBI)的基因表達綜合數(shù)據(jù)庫(Gene Expression Omnibus,GEO)、美國癌癥和腫瘤基因圖譜計劃(the Cancer Genome Atlas,TCGA)是世界上最大的公共資源基因表達數(shù)據(jù)庫,包含了數(shù)以億計的資源,這種豐富的基因組數(shù)據(jù)具有很大的潛力,影響未來對疾病的研究模式,癌癥基因組學領域的進步正在徹底改變各種癌癥的分子表征。2014年《Nature》發(fā)文總結了胃腺癌基于基因的亞類分型標準并把其作為TCGA項目的一部分,這些亞型的鑒定為患者分層和靶向治療提供了指導[4]。這些研究也導致了基于基因的新型胃癌分子分類系統(tǒng)的發(fā)展,表明了胃癌發(fā)病機制中驅動突變的重要性,并且發(fā)現(xiàn)了大量新的驅動基因突變[5]。如何有效地將這一基因組數(shù)據(jù)為臨床和科研提供更好的支持成了一個新的挑戰(zhàn),本研究嘗試利用GEO中有關胃癌的數(shù)據(jù)庫,通過生物信息學的方法研究胃癌相關的基因,篩選并預測與胃癌發(fā)生、進展、預后相關的基因特征和意義,為腫瘤研究提供新的思路。
本研究所有原始數(shù)據(jù)均從GEO(https://www.ncbi.nlm.nih.gov/)中下載。GEO的納入標準:具備胃癌組織和正常癌旁對照組織的全基因組測序數(shù)據(jù),且數(shù)據(jù)集覆蓋胃癌不同的分期和不同的組織類型。排除對胃癌患者進行藥物干預或其他干預的對比測試結果,以及測序數(shù)據(jù)集包含的樣本量過少和沒有正常對照的數(shù)據(jù)集。共采集腫瘤樣本1 076份,正常癌旁組織對照樣本196份。篩選數(shù)據(jù)庫樣本組成為GSE79973、GSE54129、GSE13911,驗證數(shù)據(jù)庫樣本組成為GSE14210、GSE15459、GSE22377、GSE29272、GSE51105、GSE62254。
1.2.1 篩選差異基因 從NCBI的GEO下載胃癌相關的芯片數(shù)據(jù):GSE79973、GSE54129、GSE13911。使用GEO2R分析平臺(https://www.ncbi.nlm.nih.gov/geo/geo2r/),利用R語言程序包limma對表達譜數(shù)據(jù)進行差異基因提取,導出3個數(shù)據(jù)集中有差異的基因文件進一步篩選“LogFC>2.0和LogFC<-2.0,且P<0.05的基因”,篩選出的數(shù)據(jù)集分別命名為GSE79973D1、GSE13911D1、GSE54129D1,以備后續(xù)分析所用。
1.2.2 利用韋恩圖(VENNY)篩選目標基因 把上述GEO2R分析輸出的數(shù)據(jù)集GSE79973D1、GSE13911D1、GSE54129D1,利用VENNY進一步篩選。本研究選取3個數(shù)據(jù)兩兩相交及3個共同表達的基因為研究對象,定義為“至少在2個樣本庫中表達有差異的基因”,命名為VIG(very important gene),共有基因339個。
1.2.3 基因本體(gene ontology,GO)富集分析 GO是基因功能國際標準分類體系。通過將差異基因做GO富集分析,可以把基因按不同的功能進行歸類,達到對基因進行注釋和分類的目的。采取的方法是fisher精確檢驗,數(shù)據(jù)包采用 clusterProfiler,來自 R/bioconductor。選擇標準是落在某個term/GO上差異的基因數(shù)目≥4,P<0.05, 按照富集程度的值從大至小降序排列,取前 30 個結果作圖。Enrich_factor定義=(某個term中的差異基因數(shù)目/總的差異基因數(shù)目)/(數(shù)據(jù)庫term中總的基因數(shù)目/數(shù)據(jù)庫中總的基因數(shù)目)。
1.2.4 京都基因與基因組百科全書(the Kyoto Encyclopedia of Genes and Genomes,KEGG)富集分析 KEGG通路分析的信號通路是多個蛋白質之間相互作用,共同調節(jié)細胞功能和代謝活動的過程。本研究分析差異基因主要利用公共數(shù)據(jù)庫KEGG來進行分類,對Pathway中的基因進行基于離散分布的顯著性分析,得到與實驗目的顯著相關的Pathway分類。采取的方法是fisher精確檢驗,數(shù)據(jù)包采用clusterProfiler,來自 R/bioconductor。選擇的標準是落在某個 term/pathway 上差異的基因數(shù)目≥4,P<0.05,按照富集程度的值以大小降序排列,取前 30 個結果作圖。
1.2.5 生存期分析 利用KM-Plotter數(shù)據(jù)庫(http://kmplot.com/analysis/)驗證差異基因的表達和分析關鍵基因對胃癌患者生存時間的影響。使用數(shù)據(jù)庫中876例胃癌患者信息,根據(jù)中位數(shù)將目的基因分為低表達組和高表達組,利用缺省設置,在線分析目標基因對胃癌患者總生存的預后價值。
本研究首先利用GEO2R分析平臺對選取的3個樣本集GSE54129、GSE79973、GSE13911的原始數(shù)據(jù)進行預處理和過濾,篩選出差異基因后進一步篩選出差異的顯著性<0.05、差異倍數(shù)>2倍的基因。本研究把篩選出的基因合并后得到差異基因1 480個,其中上調基因879個,下調基因601個。取2個以上數(shù)據(jù)集中有交集的基因共339個(圖1),進一步進行生物信息學分析。
圖1 對差異基因進行篩選的VENNY模式圖
通過GO富集分析顯示這些胃癌表達差異基因主要分布在胃、十二指腸、結腸、肌腱、肺、腎等組織。差異基因參與了消化、藥物代謝、類黃酮代謝、視黃酸代謝、膠原蛋白分解代謝、酮化合物代謝等1 126個生物過程。其中與消化相關的基因有GKN1、SST、SSTR1等,參與膠原蛋白分解的基因有MMP3、ADAMTS2、COL10A1等,參與多柔比星藥物代謝的基因有AKR1B10、AKR1C1、AKR1C2、AKR1C3。富集程度位于前幾位的基因主要參與的生物過程是消化、藥物代謝、酮類代謝、膠原蛋白代謝。見圖2。
圖2 GO生物過程基因富集結果
使用基于KEGG的通路分析發(fā)現(xiàn)這些差異基因共涉及信號通路111條,主要的信號通路有:細胞色素P450代謝途徑、藥物代謝、視黃醇代謝、甾類激素生物合成、酪氨酸代謝、胃酸分泌、血管內皮生長因子受體3信號傳導、谷胱甘肽酶、戊糖和葡萄糖醛酸互變等。信號通路的分析與GO功能的分析相吻合,主要集中在消化、藥物代謝和類固醇、視黃醇代謝等途徑。另外,在通路分析中差異基因在血管內皮生長因子信號通路和細胞外基質受體相互作用中富集也很顯著,其中差異基因中富集程度較高的基因主要集中在細胞色素P450家族、葡萄糖醛酸轉移酶家族等。見表1。
表1 胃癌表達差異基因的信號通路分析
為了驗證我們的發(fā)現(xiàn),本研究使用KMPlotter數(shù)據(jù)庫對上述基因在胃癌中的表達水平進行了驗證。KM-Plotter數(shù)據(jù)庫包括6個數(shù)據(jù)集,即GSE29272、GSE51105、GSE14210、GSE15459、GSE22377、GSE62254,共1 051個胃癌樣本全基因組測序數(shù)據(jù)和對應的876例生存時間數(shù)據(jù)。上述差異基因在KM-Plotter數(shù)據(jù)庫中的表達情況與本研究之前選擇的數(shù)據(jù)集表達一致。本研究對關鍵基因根據(jù)目標基因表達的中位數(shù)分為高表達組和低表達組進行生存曲線分析。結果顯示細胞色素P450家族2亞科C成員18(cytochrome P450 family 2 subfamily C member 18,CYP2C18)高表達組總生存時間顯著高于低表達組(P=0.001 2)。同樣,谷胱甘肽S-轉移酶家族成員GSTA3、膠原蛋白家族成員COL1A1、醛脫氫酶3家族成員ALDH3A1,高表達組總生存時間均顯著降低(圖3)。神經元分化因子1(neuronal differentiation 1,NEUROD1)基因在胃癌患者中mRNA的表達水平顯著下調,但高表達的胃癌患者生存時間卻相對較低(P=0.000 26);前列腺素-內過氧化物合酶2(prostaglandin-endoperoxide synthase 2,PTGS2)基因在胃癌患者中mRNA的表達水平顯著上調,但高表達的胃癌患者的生存時間卻顯著延長(P=0.001 3)。提示這些差異基因在胃癌發(fā)生、發(fā)展過程中發(fā)揮著不同的作用。因此,對篩選出的關鍵基因進行進一步的功能驗證,將會對研究其確切的功能具有重要的意義。
圖3 胃癌關鍵基因對胃癌患者生存時間的影響
本研究利用公共數(shù)據(jù)資源GEO,使用在線分析平臺GEO2R篩選出在胃癌和癌旁組織表達有差異的基因,并對這些差異基因進行了生物過程分析和信號通路分析,發(fā)現(xiàn)主要集中于細胞色素P450家族、葡萄糖醛酸轉移酶家族等基因簇。對這些關鍵基因的進一步分析,新發(fā)現(xiàn)ALDH3A1、NEUROD1等基因與胃癌的發(fā)生、發(fā)展密切相關,而且這些關鍵基因與胃癌生存時間顯著相關。
在本研究中,我們鑒定發(fā)現(xiàn)的胃癌差異基因包括了細胞色素P450家族和葡萄糖醛酸轉移酶家族等基因簇。已有的研究也證實這些基因與胃癌的發(fā)生、發(fā)展相關。P450家族基因可參與抗腫瘤藥物的代謝。環(huán)磷酰胺及其異構體異環(huán)磷酰胺通過肝臟P450酶催化而活化,提高了此類藥物的敏感性[6]。細胞色素P450家族2亞科E成員1 (cytochrome P450 family 2 subfamily E member 1,CYP2E1)基因多態(tài)性與胃癌的發(fā)生相關[7],其參與胃癌發(fā)病的機制可能與其參與亞硝胺及前致癌物N-亞硝基二甲胺和N-亞硝基四吡咯烷的代謝,以及參與黃曲霉屬和四氯化碳的活性代謝相關[8]。已有研究表明,COL1A1在胃癌癌變前和惡性組織中的水平顯著高于正常組織,并且與腫瘤的進展、大小、淋巴結轉移相關[9],而癌變組織中COL1A2的表達水平高于癌前病變和正常組織,因此COL1A1 和COL1A2可以作為胃癌的監(jiān)測和預后因子。已有研究顯示GSTM1和GSTT1基因多態(tài)性是胃癌的危險因素[10],GSTM1基因和GSTT1 null基因型的患者癌前病變風險增加,而GSTP1Val等位基因的存在則會減少癌變前損傷的風險[11]。JO等[12]研究認為UGT1A1基因的表達與晚期胃癌患者的治療相關。WANG等[13]的研究提示UGT1A1多態(tài)性可以用來篩選胃癌的風險人群,TYMS、TUBB3和STMN1或可作為預后的潛在生物標志物用于晚期胃癌的化療指導。這些已有的差異基因研究報道進一步證實本研究的分析篩選模型是有效的,在尋找胃癌相關的基因和蛋白上具有良好的效果。
通過深入檢索本研究篩選的這些差異基因,我們發(fā)現(xiàn)了一些處于網(wǎng)絡核心節(jié)點的關鍵差異基因如ALDH3A1、NEUROD1等,但尚未見其對胃癌的意義的相關報道。ALDH3A1是乙醛脫氫酶3家族成員,PATEL等[14]曾經報道ALDH3A1在肺癌中升高,國內袁青等[15]報道了乙醛脫氫酶2(aldehyde dehydrogenase 2 family,ALDH2)基因多態(tài)性及生活習慣與胃癌易感性的相關性分析,認為ALDH2基因多態(tài)性與胃癌易感性有關。ALDH3A1在胃癌中意義尚未見報道,本研究分析發(fā)現(xiàn)高表達此基因的胃癌患者生存期顯著縮短(P=0.032),推測與胃癌進展相關。NEUROD1是轉錄因子NeuroD家族的成員,已有報道其多與乳腺癌、神經內分泌癌、前列腺癌、糖尿病有關[16-17],尚未發(fā)現(xiàn)在胃癌中的研究報道。本研究通過生存時間分析發(fā)現(xiàn),NEUROD1高表達胃癌患者的生存時間顯著縮短,說明該基因的異常表達對胃癌患者是有意義的。進一步蛋白交互作用分析證實該基因可能經由胰島素與AKT1基因有交互作用,推測NEUROD1可能經由胰島素參與了絲氨酸/蘇氨酸激酶介導的血管內皮生長因子信號途徑或是通過GPCR信號傳導和MAP3K5的磷酸化參與了細胞的凋亡等過程。絲氨酸/蘇氨酸激酶1是PI3K/AKT信號通路的重要組成部分。該通路可調節(jié)腫瘤細胞的增殖和惡性轉化,而且與腫瘤細胞的遷移、黏附、腫瘤血管的生成以及細胞外基質的降解相關[16]。在本研究鑒定發(fā)現(xiàn)的差異基因中還有一些基因如PTGS2等在胃癌的發(fā)生、發(fā)展中可能發(fā)揮不同的作用。與PTGS2相關的疾病包括結腸直腸腺瘤和消化性潰瘍。在癌細胞中,PTGS2是前列腺素E2生產中的關鍵步驟的產物。有研究顯示,PTGS2等位基因攜帶者罹患胃癌的風險增加[17]。本研究結果也顯示,胃癌患者PTGS2 mRNA表達水平顯著上調,這提示該基因與胃癌的發(fā)生相關。但生存時間分析發(fā)現(xiàn)PTGS2高水平表達的胃癌患者,其生存時間顯著延長,這提示該基因在胃癌的進展中可能發(fā)揮保護性因子的作用。因此,對PTGS2等基因在胃癌中的表達特征和意義需進一步研究,以明確其在胃癌發(fā)生、發(fā)展中的功能特征和作用。
本研究建立的篩選分析模型為研究腫瘤提供了一個新的思路:通過公共數(shù)據(jù)庫GEO和TCGA相關腫瘤的全基因組測序數(shù)據(jù),對在癌組織和對照組織中表達有差異的基因進行全面分析,找出與腫瘤相關的核心基因,對這些關鍵基因參與的生物過程和信號通路進行分析,對在主要生物過程和通路中參與的基因進行蛋白交互作用分析,然后對處于網(wǎng)絡中心節(jié)點的基因進行文獻挖掘,尋找研究的突破點,繼而用基因突變分析工具和生存時間分析工具來驗證該基因對腫瘤患者總生存時間的影響,綜合分析某基因在腫瘤中的表達特征和意義,可為進一步開展相關的功能研究提供理論支持和指導。
[1] SIEGEL R L, MILLER K D, JEMAL A. Cancer statistics, 2016[J]. CA Cancer J Clin, 2016, 66(1):7-30.
[2] CHEN W, ZHENG R, BAADE P D, et al.Cancer statistics in China, 2015[J]. CA Cancer J Clin, 2016, 66(2):115-132.
[3] PATRU C L, SURLIN V, GEORGESCU I, et al.Current issues in gastric cancer epidemiology[J]. Rev Med Chir Soc Med Nat Iasi, 2013,117(1):199-204.
[4] Cancer Genome Atlas Research Network.Comprehensive molecular characterization of gastric adenocarcinoma[J]. Nature, 2014, 513(7517):202-209.
[5] KATONA B W, RUSTGI A K. Gastric cancer genomics: advances and future directions[J]. Cell Mol Gastroenterol Hepatol, 2017, 3(2):211-217.
[6] WEBER G F, WAXMAN D J. Activation of the anti-cancer drug ifosphamide by rat liver microsomal P450 enzymes[J]. Biochem Pharmacol, 1993, 45(8):1685-1694.
[7] GHOSHAL U, TRIPATHI S, KUMAR S, et al.Genetic polymorphism of cytochrome P450 (CYP)1A1, CYP1A2, and CYP2E1 genes modulate susceptibility to gastric cancer in patients with Helicobacter pylori infection[J]. Gastric Cancer,2014, 17(2):226-234.
[8] ZHANG M X, LIU K, WANG F G, et al.Association between CYP2E1 polymorphisms and risk of gastric cancer: an updated meta-analysis of 32 case-control studies[J]. Mol Clin Oncol, 2016,4(6):1031-1038.
[9] LI J, DING Y, LI A. Identification of COL1A1 and COL1A2 as candidate prognostic factors in gastric cancer[J]. World J Surg Oncol, 2016, 14(1):297.
[10] HIDAKA A, SASAZUKI S, MATSUO K,et al. CYP1A1, GSTM1 and GSTT1 genetic polymorphisms and gastric cancer risk among Japanese: a nested case-control study within a largescale population-based prospective study[J]. Int J Cancer, 2016, 139(4):759-768.
[11] NEGOVAN A, IANCU M, MOLDOVAN V,et al. The interaction between GSTT1, GSTM1,and GSTP1 Ile105Val gene polymorphisms and environmental risk factors in premalignant gastric lesions risk[J]. Biomed Res Int, 2017, 2017:7365080.
[12] JO J C, LEE J L, RYU M H, et al. Phase Ⅱ and UGT1A1 genotype study of irinotecan dose escalation as salvage therapy for advanced gastric cancer[J]. Br J Cancer, 2012, 106(10):1591-1597.
[13] WANG W, HUANG J, TAO Y, et al. PhaseⅡand UGT1A1 polymorphism study of two different irinotecan dosages combined with cisplatin as first-line therapy for advanced gastric cancer[J].Chemotherapy, 2016, 61(4):197-203.
[14] PATEL M, LU L, ZANDER D S, et al.ALDH1A1 and ALDH3A1 expression in lung cancers: correlation with histologic type and potential precursors[J]. Lung Cancer, 2008, 59(3):340-349.
[15] 袁青, 薛亞東, 鄭雅萍,等. 乙醛脫氫酶2基因多態(tài)性及生活習慣與胃癌易感性的相關性分析[J]. 檢驗醫(yī)學, 2016, 31(7):584-587.
[16] SHIMIZU T, TOLCHER A W, PAPADOPOULOS K P,et al. The clinical effect of the dual-targeting strategy involving PI3K/AKT/mTOR and RAS/MEK/ERK pathways in patients with advanced cancer[J].Clin Cancer Res, 2012, 18(8):2316-2325.
[17] LI Y, HE W, LIU T, et al. A new cyclooxygenase-2 gene variant in the Han Chinese population is associated with an increased risk of gastric carcinoma[J]. Mol Diagn Ther, 2010, 14(6):351-355.