李文菠,孫成杰,周國俊,應(yīng)偉,馮彥超,黃婷,侍琳,黃理政,李健水,冷政偉
(川北醫(yī)學院附屬醫(yī)院 1.肝膽外科二 2.腫瘤干細胞研究中心,四川 南充 637000)
肝細胞癌(hepatocellular carcinoma,HCC)是消化系統(tǒng)最常見的惡性腫瘤之一,據(jù)美國癌癥協(xié)會統(tǒng)計,HCC在男性癌癥中的發(fā)病率排第六位,但在女性中仍以每年超過2%的速度增長,其病死率在男性排第五位,在女性中排第六位[1-2],與其他癌癥相似,HCC與潛在的危險因素相關(guān),如超重、吸煙、酗酒、乙型肝炎病毒(HBV)、丙型肝炎病毒(HCV)、非酒精性脂肪性肝病和某些基因突變等[3-4]。目前HCC的常用治療方法包括手術(shù)切除、射頻消融、肝臟移植、放射栓塞、免疫治療等[5-7],不同分期的腫瘤患者選擇不同的治療方法,但5年復(fù)發(fā)率仍然很高[8-9]。近年來越來越多的研究表明,基因失活和基因突變是導(dǎo)致HCC發(fā)生發(fā)展的重要因素,故準確找到導(dǎo)致HCC的相關(guān)基因,從基因水平上研究HCC已成為研究熱點之一。
近年來利用生物信息學和基因芯片技術(shù)研究因基因失活或基因突變所致腫瘤的發(fā)生、發(fā)展已成為發(fā)展趨勢[10]。基因芯片具有數(shù)據(jù)全面,樣本量大等優(yōu)點,在生物學及醫(yī)學領(lǐng)域占據(jù)重要位置。但這些數(shù)據(jù)信息混雜、缺乏足夠?qū)嶒灮A(chǔ),其準確性需要進一步驗證。因此如何挖掘出準確可靠的基因信息逐漸成為生物信息學研究熱點。本研究通過生物信息學的方法對HCC和癌旁組織的基因芯片中的差異基因進行分析并進行臨床樣本表達驗證,篩選出與HCC發(fā)生發(fā)展的關(guān)鍵基因并進行臨床樣本驗證,以期為其早期診斷、靶向治療等提供參考依據(jù)。
HCC芯片從NCBI-GEO(https://www.ncbi.nlm.nih.gov/geo)數(shù)據(jù)庫下載,GSE14520,GSE41804,GSE45267分別包含HCC組織225、20、48例,癌旁組織220、20、39例。
通過GEO2R在線工具,定義HCC和癌旁組織,比較出DEGs,再篩選出滿足絕對值LogFC>2且校正P<0.05的DEGs,將篩選出LogFC>2的基因,定義為上調(diào)DEGs,LogFC<-2的基因,定義為下調(diào)DEGs,通過Venn(http://bioinformatics.psb.ugent.be/webtools/Venn)在線制圖工具篩取出3個芯片的上調(diào)基因的交集與下調(diào)調(diào)基因的交集。
利用生物學信息注釋數(shù)據(jù)庫(Database for Annotation,Visualization and Integrated Discovery,DAVID)為DEGs進行系統(tǒng)綜合的生物學功能注釋分析。通過上傳DEGs到DAVID網(wǎng)站(https://david.ncifcrf.gov),進行GO(gene ontology,GO)功能分析和KEGG(Kyoto Encyclopedia of Genes and Genomes)通路富集分析,以P<0.05且FDR<0.05為差異有統(tǒng)計學意義,選擇分析項目為生物過程(biological process,BP)、分子功能(molecular function,MF)、細胞成分(cellular component,CC)和信號通路。
將所獲得的共同表達DEGs用STRING網(wǎng)站(https://string-db.org)進行PPI網(wǎng)絡(luò)圖的構(gòu)建,構(gòu)建后的網(wǎng)絡(luò)圖利用Cytoscape3.7.2軟件及MCODE插件分析,篩選出核心DEGs。
在Kaplan-Meier Plotter網(wǎng)站(http://www.kmplot.com)中,將核心DEGs逐個進行生存分析,選擇總生存率(OS)為指標,作出每個基因的生存曲線圖,篩選出生存分析中P<0.05的基因,其可能為與預(yù)后相關(guān)基因。
把Kaplan-Meier Plotter網(wǎng)站中篩選出的與預(yù)后相關(guān)的基因用GEPIA(http://gepia.cancer-pku.cn)在線分析,選擇表達圖形選擇Box Plots,數(shù)據(jù)來源選擇LIHC,得到其在HCC組織和癌旁組織中的表達情況,以P<0.05為具有統(tǒng)計學意義。
將獲得的與預(yù)后相關(guān)且在HCC中高表達基因上傳至Metascape網(wǎng)站(http://metascape.org/gp/index.html#/main/step1),種屬選擇homosapiens,得到功能和通路的富集分析結(jié)果,以P<0.05為具有統(tǒng)計學意義。
在本研究中心選取HCC組織和癌旁組織各70例用于將石蠟包埋的組織切成5μm的切片。使用標準的免疫過氧化物酶染色程序進行免疫組化分析。分析染色強度(陰性:0分,弱陽性:1分,中等陽性:2分,強陽性:3分)和陽性細胞百分比(<5%:0分,5%~25%:1分,26%~50%:2分,51%~75%:3分,76%~100%:4分),最終計算公式:強度×百分比,其最終范圍為0~12分。用這種方法對每一張玻片進行打分,以6分為界限,分為低表達樣本和高表達樣本。然后使用SPSS分別對HCC組織和癌旁組織進行數(shù)據(jù)統(tǒng)計,再把統(tǒng)計數(shù)據(jù)導(dǎo)入GraphPad prism 8中繪制統(tǒng)計圖。
芯片GSE14520,GSE41804,GSE45267分別篩選出差DEGs 252、257、497個,其中上調(diào)的DEGs分別為54、63、116個,下調(diào)的DEGs分別為198、194、381個,3個芯片的共差異的上調(diào)基因為16個(圖1A),共差異的下調(diào)基因為62個(圖1B),其共同的DEGs具體詳見(表1)。
圖1 三個芯片DEGs 的Venn 圖(上調(diào)基因LogFc>2,下調(diào)基因LogFc<-2) A:16個上調(diào)DEGs;B:62個下調(diào)DEGsFigure1 Venn diagram of DEGs in the three gene microarrays (up-regulated LogFc>2,down-regulated LogFc<-2) A:16 upregulated genes;B:62 down-regulated genes
表1 78個共同DEGsTable1 The 78 common DEGs
經(jīng)過DAVID網(wǎng)站將差異表達的78個基因,進行GO功能分析和KEGG通路富集分析。
GO功能分析中(表2),BP共涉及48個方面,主要集中在:細胞負增長的調(diào)控、細胞對鋅離子的反應(yīng)、外源性藥物代謝過程、異型生物質(zhì)的代謝過程、氧化還原過程、細胞對鎘離子反應(yīng)、P450表氧化酶通路、類固醇代謝過程;MF共有21個相關(guān)方面,其中主要集中于氧化還原酶活性、鐵離子結(jié)合、氧結(jié)合、血紅素結(jié)合、單加氧酶活性、花生四烯酸環(huán)氧合酶活性、氧化還原酶活性、類固醇羥化酶活性、咖啡因氧化酶活性、芳香酶活性;CC共涉及13個方面,其中有統(tǒng)計學意義的有以下方面:細胞器膜、細胞外泌體、細胞外區(qū)、內(nèi)質(zhì)網(wǎng)膜、細胞外間隙、胞質(zhì)核周區(qū)、中間體、血液微粒、次膜攻擊復(fù)合物。KEGG通路富集分析(表3)中,共涉及15個通路,其主要涉及于視黃醇的新陳代謝、礦物質(zhì)吸收、藥物代謝-細胞色素P450、化學致癌性、細胞色素P450對外源生物的代謝作用、咖啡因代謝、甾體類激素生物合成、亞油酸代謝、代謝途徑、P53信號通路、藥物代謝-其他酶。
表2 78個DEGs GO 功能分析Table2 GO function analysis of the 78 DEGs
表3 78個DEGs 的KEGG 通路富集分Table3 KEGG pathway enrichment analysis of the 78 DEGs
將78個DEGs基因上傳至STRING網(wǎng)站分析后,有15個基因未出現(xiàn)在PPI網(wǎng)絡(luò)分析中,剩余共有63個基因,其中包括上調(diào)基因17個,下調(diào)基因46個,共有蛋白之間相互作用關(guān)系線條156條(圖2A)。通過Cytoscape 3.7.2軟件及MCODE插件分析后,得到兩簇相交點最多的基因簇,分別有9、8個基因,分別有36、21條線,其分值分別為9、6,將其定義為核心EGs。共獲得22個核心DEGs(圖2B)。
圖2 共同DEGs 的PPI分析(黃色表示上調(diào)基因,藍色表示下調(diào)基因) A:63個DEGs 的PPI 圖;B:22個核心共同DEGsFigure2 PPI analysis of the common DEGs (yellow color representing up-regulated genes,blue color representing down-regulated genes) A:PPI network of the 63 DEGs;B:The 22 common core DEGs
17個核心DEGs經(jīng)過Kaplan-Meier Plotter網(wǎng)站生存分析后,共有9個基因(CDK1、ASPM、CENPF、RRM2、CCNB1、TOP2A、PTTG1、ECT2、CDKN3)的生存分析差異有統(tǒng)計學意義(均P<0.05),另8個基因的生存分析差異無統(tǒng)計學意義(均P>0.05)(圖3)。
將上述9個與預(yù)后相關(guān)的DEGs在GEPIA網(wǎng)站進行表達量分析后,9個基因均在HCC組織中較癌旁組織高表達(均P<0.05)(圖4)。
將上述9個在HCC組織中高表達的基因上傳至Metascape網(wǎng)站分析,得到功能和通路的富集分析主要集中表現(xiàn)在細胞有絲分裂的負調(diào)控、細胞周期、核染色體隔離和雌配子的產(chǎn)生等方面(圖5)(表4)。
在篩選出來的9個基因中選取CDK1在HCC組織和癌旁組織中的染色,結(jié)果顯示,CDK1在HCC組織中的評分為(7.871 8±1.524 9)分,在癌旁組織中的評分為(3.410 3±1.163 4)分,差異有統(tǒng)計學意義(t=14.429,P<0.0001)(圖6)。
圖3 核心DEGs 生存分析圖Figure3 Survival curves of the core DEGs
圖4 9個DEGs 在組織中表達盒形圖Figure4 Box plots of expressions of the 9 DEGs
圖5 9個核心DEGs 功能和通路富集圖Figure5 Function and pathway enrichment plots of the 9 core DEGs
表4 9個核心DEGs 功能和通路富集分析數(shù)據(jù)Table4 Function and pathway enrichment data of the 9 core DEGs
圖6 免疫組化檢測CDK1 在HCC 與癌旁組織的表達Figure6 Immunohistochemical staining for CDK1 expressions in HCC and adjacent tissue
HCC的發(fā)生發(fā)展通常是涉及基因、環(huán)境、飲食等多種因素的共同作用過程,利用生物信息學技術(shù)準確篩選出導(dǎo)致HCC發(fā)生發(fā)展的關(guān)鍵基因,這對于HCC的早期診斷、精準靶向治療提供了重要依據(jù)。近年來伴隨著生物信息學的蓬勃發(fā)展,大量基因芯片應(yīng)用于研究疾病的發(fā)生發(fā)展和靶向基因的篩選等方面。例如Cao等[11]利用3個GEO數(shù)據(jù)庫進行生物信息學分析,確定參與IL-10信號轉(zhuǎn)導(dǎo)的CXCL8、CXCL1和IL-1β是潰瘍性結(jié)腸炎的前3個核心基因;Mo等[12]利用生物信息學分析確定DNAJB4作為潛在的乳腺癌標記物;Xue等[13]綜合生物信息學分析確定了4個(CDC45、GINS2、MCM2和PCNA)可能與宮頸癌患者預(yù)后相關(guān)的關(guān)鍵基因,可作為宮頸癌潛在的預(yù)后生物標志物。本研究基于生物信息學的分析方法在GEO數(shù)據(jù)庫中篩選出近幾年的、樣本量較大的3份HCC及癌旁組織基因芯片,并在多個生物信息分析網(wǎng)站中進行了系統(tǒng)全面的分析,最終得出CDK1(細胞周期蛋白依賴性激酶1)、ASPM(紡錘體微管組裝因子)、RRM2(核糖核苷酸還原酶調(diào)節(jié)亞基M2)、TOP2A(DNA拓撲異構(gòu)酶2A)、CENPF(著絲粒蛋白F)、CCNB1(細胞周期蛋白B1)、PTTG1(垂體腫瘤轉(zhuǎn)化基因1)、ECT2(上皮細胞轉(zhuǎn)化序列2)、CDKN3(細胞周期蛋白依賴性激酶抑制因子3)與HCC發(fā)生、發(fā)展有重要關(guān)系,并最后在本研究中心選取臨床樣本進行表達驗證。篩選出的9個基因主要作用于細胞有絲分裂的負調(diào)控、細胞周期、核染色體隔離和雌配子的產(chǎn)生等方面,從而引起細胞周期的紊亂、基因的突變,最終導(dǎo)致癌癥的發(fā)生、發(fā)展。
CDK1屬于絲氨酸/蘇氨酸蛋白激酶家族,是調(diào)節(jié)細胞周期進程、DNA復(fù)制和分離、細胞成熟和增殖所必需的,CDK1的異常激活通過促進細胞增殖在腫瘤發(fā)生中起重要作用。CDK1在多種癌癥中均有表達,在結(jié)直腸癌中,CDK1作為miR-769的直接靶點,在癌組織中高表達,miR-769通過直接作用CDK1來抑制腫瘤進展[14];CDK1的表達可被嗜酸乳桿菌CICC 6074 S層蛋白下調(diào),阻止G1細胞周期,從而發(fā)揮其對結(jié)腸癌細胞的細胞毒活性[15];CDK1可作為PKN蛋白磷酸化的對應(yīng)激酶,促進腫瘤細胞貼壁依耐性生長和遷移,充當原癌基因的作用[16];在骨肉瘤中,Huang等[17]研究證實,CDK1在骨肉瘤組織的細胞質(zhì)中陽性表達,被確定是miR-199a-3p的潛在靶基因。在甲狀腺癌中,研究者使用組織芯片證實CDK1蛋白在甲狀腺癌(THCA)組織中的表達明顯高于在非腫瘤組織中的表達,CDK1基因在THCA組織中共表達的KEGG分析表明:細胞周期、甲狀腺激素合成、引起自身免疫性甲狀腺疾病等是CDK1在甲狀腺癌中表達最豐富的途徑[18]。在乳腺癌中,由于選擇性阻斷CDK1單獨或與其他治療藥物聯(lián)合使用與有效的抗癌效果有關(guān),因此CDK1可能被認為是乳腺癌治療的靶點之一[19]。在腺樣囊性癌和非小細胞肺癌中的研究表明,CDK1的高表達與癌癥患者的總體生存率較低相關(guān),因此CDK1可作為診斷和預(yù)后的腫瘤標志物或藥物治療靶點之一[20-21];在宮頸癌中,Luo等[22]的研究揭示了CDK1在宮頸癌發(fā)展過程中對基因相互作用網(wǎng)絡(luò)的綜合作用,從而表明CDK1作為治療靶點的潛在作用。此外,有研究[23]表明,CDK1活躍于多種腫瘤調(diào)節(jié)細胞粘附的細胞周期,可作為多種癌癥的臨床預(yù)后生物標志物。
在HCC中,CDK1的異常表達可以調(diào)節(jié)凋亡素誘導(dǎo)的凋亡,在腫瘤進展中起著關(guān)鍵作用[24]。CDK1的過度表達也被發(fā)現(xiàn)與HCC的門脈侵犯、甲胎蛋白水平高和預(yù)后不良直接相關(guān)[25]。最近的一項研究發(fā)現(xiàn)二甲雙胍可以通過誘導(dǎo)G2/M期阻滯來顯著抑制HCC細胞的增殖,并能有效地降低CDK1的表達[26],提示CDK1可能參與了HCC細胞周期中的細胞增殖過程。另一項研究表明miR-582-5p通過直接抑制CDK1和Akt3的表達,間接抑制cyclin D1的表達來調(diào)控HCC的進展[27],Wang等[28]綜合生物信息學分析發(fā)現(xiàn),CDK1、CCNB1、CCNB2、MAD2L1和TOP2A等5個HUB基因可作為預(yù)測肝癌預(yù)后的生物標志物;Sun等[29]應(yīng)用生物信息學分析篩選發(fā)現(xiàn)CCNB1、CDK1、RRM2和BUB1B在肝癌組織中的過度表達與肝癌患者的不良生存相關(guān),這些基因可能成為肝癌治療的潛在靶點;He等[30]通過生物信息學發(fā)現(xiàn)CDK1可能通過細胞周期和p53信號通路在肝硬化轉(zhuǎn)化為HCC過程中發(fā)揮重要作用。Zou等[31]發(fā)現(xiàn)CDK1、CCNB1和CCNB2是HCC潛在的預(yù)后生物標志物,并與HCC免疫細胞浸潤有關(guān)。
在HCC中,通過3組芯片共369例HCC組 織和160例癌旁組織的基因表達量分析發(fā)現(xiàn),CDK1在HCC組織中的表達明顯高于癌旁組織,后期的生存分析曲線顯示CDK1高表達患者的生存時間較CDK1低表達患者明顯減少,但上述實驗數(shù)據(jù)均來源于生物信息學,由于其固有缺陷如平臺與樣本選擇的不同可產(chǎn)生一定的差異,且數(shù)據(jù)信息混雜、缺乏足夠?qū)嶒灮A(chǔ),所以最后在本研究中心選取70例HCC組織和癌旁組織進行表達驗證,結(jié)果為CDK1在HCC組織中的評分為(7.871 8±1.524 87)分,在癌旁組織中的評分為(3.410 3±1.163 43)分,兩組進行比較,差異具有統(tǒng)計學意義(t=14.429,P<0.0001),與預(yù)期結(jié)果相符。
綜上所述,本研究基于生物信息學分析發(fā)現(xiàn)CDK1、ASPM、RRM2、TOP2A、CENPF、CCNB1、PTTG1、ECT2、CDKN3基因可能是HCC發(fā)生、發(fā)展的重要基因,且涉及細胞有絲分裂的負調(diào)控、細胞周期、核染色體隔離和雌配子的產(chǎn)生等方面,最后,選用CDK1在HCC組織和癌旁組織中進行驗證,發(fā)現(xiàn)在HCC組織中CDK1的表達高于癌旁組織,與本研究預(yù)期結(jié)果相符。生物信息學在發(fā)現(xiàn)新靶點方面具有強大功能,但是需要分子生物學、細胞生物學、臨床實驗及療效方面的研究來驗證。這9個HCC相關(guān)基因均在HCC的發(fā)生、發(fā)展過程中具有巨大的作用,有望成為HCC篩查及治療的新靶點,同時也將為研究HCC的發(fā)生、發(fā)展提供一定的理論基礎(chǔ)。