邱潔萍 孫夢雨 左瑞東 王耀群 陳 博
(安徽醫(yī)科大學(xué)第一臨床醫(yī)學(xué)院,合肥 230000)
胃癌是目前具有侵襲性和致死性的惡性腫瘤之一[1]。大多數(shù)胃癌是在晚期被診斷出來的[2]。盡管針對胃癌的療效有所改善,但晚期胃癌患者5年生存率仍低于20%,而如果早期發(fā)現(xiàn)胃癌,其5年生存率可高達(dá)90%,所以,胃癌的早期診斷十分重要[3,4]。研究表明,許多生化分子標(biāo)志物參與腫瘤的發(fā)生發(fā)展,可用于腫瘤的早期篩查[5]。因此,有必要進(jìn)一步發(fā)掘胃癌發(fā)生發(fā)展過程中新的、特異性高的診斷標(biāo)志物。近年來,生物信息學(xué)已成為癌癥基因表達(dá)譜數(shù)據(jù)挖掘的一種有效工具[6]。本研究從GEO數(shù)據(jù)庫中下載原始數(shù)據(jù),通過比較胃癌樣本與正常組織樣本的基因表達(dá)譜篩選出差異表達(dá)基因(differentially expressed genes,DEGs),對其進(jìn)行生物信息學(xué)分析并結(jié)合Kaplan-Meier plotter數(shù)據(jù)庫進(jìn)行預(yù)后分析,為胃癌的診斷、靶向藥物研究及預(yù)后評價提供有價值的信息。
1.1資料 基因芯片數(shù)據(jù)的獲取:根據(jù)樣本來自人胃組織標(biāo)本、有病例對照組、樣本數(shù)≥20這3個條件,從NCBI的GEO數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/geo/)中篩選出3套胃癌數(shù)據(jù)集(GSE54129、GSE29998、GSE79973),以保證數(shù)據(jù)集的代表性。其中數(shù)據(jù)集GSE79973、GSE54129基于GPL570平臺,數(shù)據(jù)集GSE29998基于GPL6947平臺。GSE54129包含癌組織21例,正常組織111例;GSE79973包含癌組織和正常組織各10例;GSE29998包含癌組織50例,正常組織49例。
1.2方法
1.2.1DEGs的篩選 利用GEO數(shù)據(jù)庫自帶的在線分析工具GEO2R處理原始數(shù)據(jù),將數(shù)據(jù)分為胃癌組和正常組進(jìn)行分析。DEGs篩選標(biāo)準(zhǔn):①校正后P<0.05;②|logFC|>1.5。將logFC<1.5的基因作為上調(diào)差異基因(UDEGs),logFC<-1.5的基因作為下調(diào)差異基因(DDEGs)。使用在線工具Draw Venn diagram(bioinformatics.psb.ugent.be/webtools/Venn/)確定3組數(shù)據(jù)的相交部分。
1.2.2DEGs的基因本體論(gene ontology,GO)富集分析與京都基因與基因組百科全書(the kyoto encyclopedia of genes and genomes,KEGG)通路分析 GO分析是基因功能富集研究的常用方法,基因功能被分成生物過程(biological process,BP)、分子功能(molecular function,MF)和細(xì)胞組分(cellular component,CC)3類。KEGG是1個整合了大量關(guān)于基因組、疾病、生物途徑和系統(tǒng)功能信息的數(shù)據(jù)庫。本研究采用David(https://david.ncifcrf.gov/)數(shù)據(jù)庫對篩選出的DEGs進(jìn)行GO和KEGG分析。
1.2.3蛋白互作網(wǎng)絡(luò)的構(gòu)建和核心基因的篩選 利用String(http://string-db.org/)數(shù)據(jù)庫構(gòu)建差異基因的蛋白互作網(wǎng)絡(luò)(PPI),互作評分>0.4作為閾值條件。將PPI網(wǎng)絡(luò)導(dǎo)入Cytoscape軟件進(jìn)行可視化,計算節(jié)點的連通度。具有較高連通度的節(jié)點在疾病發(fā)生發(fā)展過程中具有更加重要的意義。本研究選取連通度前10位的DEGs作為核心基因進(jìn)行后續(xù)預(yù)后分析對象。
1.3核心基因的預(yù)后分析 使用Kaplan-Meier plotter(http://kmplot.com/analysis/)數(shù)據(jù)庫評估核心基因的預(yù)后價值。每個基因根據(jù)mRNA表達(dá)值自動將癌癥患者分為高表達(dá)和低表達(dá)兩組進(jìn)行比較,P<0.05為差異具有統(tǒng)計學(xué)意義。
2.1篩選DEGs 經(jīng)篩選后得到DEGs 2 773個,其中包括1 423個UDEGs,1 350個DDEGs。3個數(shù)據(jù)集均有交集的基因共61個,其中上調(diào)基因26個,下調(diào)基因35個(見表1、2)。
表1 胃癌上調(diào)差異表達(dá)基因Tab.1 UDEGs in gastric cancer
表2 胃癌下調(diào)差異表達(dá)基因Tab.2 DDEGs in gastric cancer
2.2胃癌DEGs的生物過程分析 GO富集分析顯示,胃癌UDEGs主要分布在細(xì)胞外區(qū)、蛋白質(zhì)細(xì)胞外基質(zhì)、細(xì)胞外基質(zhì)等組織,參與了細(xì)胞黏附、生物黏附、防御反應(yīng)等生物過程,主要有細(xì)胞外基質(zhì)結(jié)構(gòu)成分、糖胺聚糖結(jié)合等分子功能;胃癌DDEGs主要分布在細(xì)胞頂端部分、細(xì)胞外區(qū)域等組織,參與消化、脂質(zhì)分解、金屬離子反應(yīng)等生物學(xué)過程,主要有類固醇結(jié)合、輔酶結(jié)合等分子功能。表3、4列出了P值最小的前10位上調(diào)及下調(diào)差異基因的GO分析結(jié)果。
表3 胃癌上調(diào)差異表達(dá)基因的GO分析Tab.3 GO analysis of UDEGs in gastric cancer
表4 胃癌下調(diào)差異表達(dá)基因的GO分析Tab.4 GO analysis of DDEGs in gastric cancer
2.3胃癌DEGs參與的信號通路分析 由KEGG分析得到的P值最小的前10位顯著富集的UDEGs和DDEGs路徑如表5、6所示。UDEGs在黏著斑、ECM受體相互作用、白細(xì)胞經(jīng)內(nèi)皮遷移等信號途徑中高表達(dá),而DDEGs在細(xì)胞色素P450對異種生物的代謝、藥物代謝、視黃醇代謝等通路中富集表達(dá)。
表5 胃癌上調(diào)差異表達(dá)基因通路富集分析Tab.5 Enrichment analysis of UDEGs pathways in gastric cancer
表6 胃癌下調(diào)差異基因通路富集分析Tab.6 Enrichment analysis of DDEGs pathways in gastric cancer
2.4PPI網(wǎng)絡(luò)構(gòu)建和核心基因鑒定 利用String數(shù)據(jù)庫預(yù)測DEGs間的相互作用,并將61個在3個數(shù)據(jù)集中都差異表達(dá)的DEGs的信息導(dǎo)入Cytoscape軟件進(jìn)行可視化研究。PPI網(wǎng)絡(luò)共涉及61個節(jié)點和105條邊,如圖1所示。選取PPI網(wǎng)絡(luò)中連通度排序前10的為核心基因。結(jié)果表明,最具代表性的基因為COL1A1,連通度為18,其次分別為COL1A2、BGN、THBS2、COL5A2、CDH11、COL5A1、COL12A1、COL6A3、TIMP1。見圖1、表7。
圖1 胃癌差異表達(dá)基因編碼蛋白作用網(wǎng)絡(luò)圖Fig.1 Protein-protein interaction network for products of DEGs in gastric cancerNote:Each dot represents a protein,and interaction between proteins is indicated by a line.Orange represents UDEGs,and green represents DDEGs.Circle size is for connectivity.
2.5核心基因的預(yù)后分析 用Kaplan-Meier plotter進(jìn)行預(yù)后分析,對于每個基因根據(jù)mRNA表達(dá)值自動將癌癥患者分為高表達(dá)和低表達(dá)兩組進(jìn)行比較,P<0.05對胃癌患者總體生存率具有顯著影響。在Kaplan-Meier繪圖儀平臺上共有876例GC患者可用于分析總生存率。分析結(jié)果顯示,除COL5A2的上調(diào)(P=0.187 5)對胃癌患者總體存活率無顯著影響,其余9個核心基因(COL1A2、BGN、THBS2、COL1A1、CDH11、COL5A1、COL12A1、COL6A3、TIMP1)的上調(diào)差異表達(dá)均顯著影響胃癌患者的總體生存率。見圖2、表7。
表7 核心基因的連通度及探針選擇Tab.7 Degree and probe selection of core genes
圖2 胃癌核心基因的預(yù)后分析Fig.2 Prognostic analysis of core genes in gastric cancer
胃癌是中國地區(qū)癌癥患者死亡的重要原因之一,及早進(jìn)行篩查和診斷治療具有重要意義。因此,探究胃癌發(fā)生發(fā)展過程中的潛在診療靶點十分必要。
本研究從GSE54129、GSE29998、GSE79973 3個數(shù)據(jù)集中共篩選出61個在3個數(shù)據(jù)集中差異表達(dá)的基因,其中有7個差異基因?qū)儆谀z原蛋白(COL)家族,且COL1A1、COL1A2、COL5A1、COL5A2、COL12A1、COL6A3均為連通度排名前10的核心基因,這表明膠原蛋白基因與胃癌的侵襲和進(jìn)展關(guān)系密切,是胃癌的潛在靶點。研究表明膠原蛋白參與腫瘤細(xì)胞的黏附和細(xì)胞外基質(zhì)(extracellular matrix,ECM)的形成[7]。COL1A1是Ⅰ型膠原的主要成分,研究顯示COL1A1在癌組織和細(xì)胞中的表達(dá)上調(diào)[8]。Wang等[9]認(rèn)為miR-129-5p通過抑制COL1A1抑制胃癌細(xì)胞的侵襲和增殖。以往的生物信息學(xué)研究表明,COL5A1是胃癌的一個關(guān)鍵因素[10]。COL6A3通過調(diào)節(jié)hippo和wnt信號來促進(jìn)腫瘤生長,且COL6A3是結(jié)直腸癌的特異性預(yù)后標(biāo)志物,提示COL6A3也可能是胃癌的潛在靶點[11,12]。據(jù)報道,COL12A1與多種癌癥有關(guān),如卵巢癌、乳腺癌和結(jié)腸癌[13-15]。Duan等[16]的研究顯示,COL12A1的高表達(dá)與胃癌患者預(yù)后不良顯著相關(guān),這提示COL12A1也可能是胃癌的1個新的潛在標(biāo)志物。
血小板反應(yīng)蛋白(thrombospondins,THBS)是一種細(xì)胞外糖蛋白,在細(xì)胞間相互作用中發(fā)揮多種作用[17]。THBS2被報道與調(diào)節(jié)細(xì)胞凋亡、細(xì)胞增殖和黏附相關(guān)[18]。有研究顯示,THBS2高表達(dá)與胃癌細(xì)胞株低增殖率相關(guān)[19]。所以THBS2可能是胃癌潛在的預(yù)后因子。
細(xì)胞外基質(zhì)(ECM)是一種蛋白質(zhì)復(fù)合物,在細(xì)胞遷移和增殖以及癌癥發(fā)展中發(fā)揮重要作用[20]。BGN作為ECM的一個組成部分,被認(rèn)為是癌細(xì)胞獲得遷移和侵襲能力的途徑[21]。有研究顯示,在GC組織中BGN的表達(dá)與相鄰正常胃組織中BGN相比明顯上調(diào)[22]。這些研究結(jié)果顯示,BGN是胃癌的1個關(guān)鍵因素,可作為胃癌早期診斷標(biāo)志物。
CDH11屬于鈣黏著蛋白超家族,介導(dǎo)同種細(xì)胞間黏附[23]。Kalluri等[24]報道CDH11與EMT有關(guān),這表明CDH11在癌癥進(jìn)展中起著關(guān)鍵作用。Chen等[25]的研究表明,CDH11可能調(diào)節(jié)生物黏附,與GC的進(jìn)展和預(yù)后相關(guān)。以上研究成果提示CDH11可能是胃癌早期診斷的1個新型標(biāo)志物。
研究表明,組織抑制劑基質(zhì)金屬蛋白酶1(TIMP1)在細(xì)胞增殖和抗凋亡的調(diào)節(jié)中發(fā)揮重要作用[26-28]。Wang等[29]的研究顯示,高TIMP1表達(dá)水平可能是胃癌復(fù)發(fā)的不良預(yù)后因素。以上結(jié)果顯示,TIMP1可能是胃癌篩查、診斷、預(yù)后和監(jiān)測的潛在生物標(biāo)志物。