趙軍 劉麗娜
中圖分類號(hào):R739.8 文獻(xiàn)標(biāo)志碼:A doi:10.3969/j.issn.1001-3733.2021.06.018
口腔癌是世界上第六大常見惡性腫瘤,死亡率高,預(yù)后差??谇击[狀細(xì)胞癌(oral squamous cell carcinoma,OSCC)是口腔癌的主要病理類型,約占口腔癌的90%,可發(fā)生于口腔的不同部位,如舌、牙齦、口腔黏膜、硬腭、嘴唇和口腔底[1]。盡管外科手術(shù)、放化療和免疫治療取得了一定的進(jìn)展,但由于其侵襲、轉(zhuǎn)移和復(fù)發(fā),OSCC的5年生存率只有大約50%。OSCC可以早期預(yù)防和治愈,但大多數(shù)OSCC患者直到晚期才被確診[2-3]。因此,尋找潛在的生物標(biāo)志物對(duì)口腔鱗狀細(xì)胞癌的早期診斷和治療迫在眉睫。
目前,在高通量實(shí)驗(yàn)方法中,如微陣列分析已廣泛應(yīng)用于差異表達(dá)基因分析[4-5]。大量的微陣列數(shù)據(jù)被存儲(chǔ)在公共數(shù)據(jù)庫中。這些儲(chǔ)存庫便于研究人員通過整合多個(gè)微陣列數(shù)據(jù)集來識(shí)別疾病相關(guān)的生物標(biāo)志物,有助于理解OSCC形成的分子機(jī)制。有學(xué)者利用SEER數(shù)據(jù)庫分析影響腺樣囊性癌患者預(yù)后的臨床病例因素[6]。本研究中從GEO數(shù)據(jù)庫下載了3 個(gè)微陣列數(shù)據(jù)集來識(shí)別OSCC和正常對(duì)照組的差異表達(dá)基因(differentially expressed genes,DEGs), 用于尋找與OSCC發(fā)生、發(fā)展有關(guān)的關(guān)鍵基因,這些關(guān)鍵基因可能作為診斷和治療OSCC的潛在生物標(biāo)志物。
從GEO數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/geo/)下載基因表達(dá)數(shù)據(jù)集GSE74530、GSE78060和GSE138206。這3 個(gè)數(shù)據(jù)集的平臺(tái)都是GPL570(Affymetrix Human Genome U133 Plus 2.0 Array),GSE74530和GSE138206分別含有6 個(gè)OSCC樣本和6 個(gè)正常樣本,GSE78060包含26 個(gè)OSCC樣本和4 個(gè)正常樣本。微陣列數(shù)據(jù)集匯總?cè)绫?。
表1 3 個(gè)微陣列數(shù)據(jù)集的匯總信息Tab 1 Summary of the 3 microarray datasets from the GEO database
GEO2R(www.ncbi.nlm.nih.gov/geo/geo2r/)在線分析工具可用于通過比較兩組或多組樣本來識(shí)別DEGs。使用GEO2R對(duì)OSCC樣本和正常樣本間的DEGs進(jìn)行分析,篩選標(biāo)準(zhǔn)是P<0.01和|logFC|>1,并對(duì)DEGs用火山圖可視化。隨后用維恩圖在線工具(http://bioinformatics.psb.ugent.be/webtools/Venn/)確定3 個(gè)數(shù)據(jù)集中共同上調(diào)和下調(diào)的DEGs。
DAVID(https://david.ncifcrf.gov/)在線分析工具可以為大規(guī)?;蚧虻鞍踪|(zhì)提供全面的生物功能注釋信息?;虮倔w論(gene ontology,GO)包括生物過程(gene process,BP)、分子功能(molecular function,MF)和細(xì)胞成分(cellular component,CC)。京都基因和基因組百科全書(kyoto encyclopedia of genes and genomes,KEGG)數(shù)據(jù)庫從基因組測(cè)序和其他高通量實(shí)驗(yàn)技術(shù)生成的大規(guī)模分子數(shù)據(jù)集中了解生物系統(tǒng)的高級(jí)功能和效用。利用DAVID對(duì)DEGs進(jìn)行GO功能和KEGG通路富集分析,P<0.05認(rèn)為具有統(tǒng)計(jì)學(xué)意義。
STRING(https://string-db.org)在線數(shù)據(jù)庫用于搜索已知蛋白質(zhì)和預(yù)測(cè)蛋白質(zhì)-蛋白質(zhì)相互作用(protein-protein interaction,PPI), 包括蛋白質(zhì)之間的直接物理相互作用和間接功能相關(guān)性。DEGs的PPI分析采用STRING數(shù)據(jù)庫,置信度≥0.4,結(jié)果用Cytoscape軟件進(jìn)行分析和可視化。此外,利用Cytoscape的cytoHubba插件計(jì)算每個(gè)蛋白節(jié)點(diǎn)的連接度,排名前10的基因被鑒定為hub基因。
UCLCAN(https://ualcan.path.uab.edu/index.html)是一個(gè)基于TCGA數(shù)據(jù)庫的分析和挖掘癌癥數(shù)據(jù)的網(wǎng)站工具。通過UCLCAN驗(yàn)證hub基因的表達(dá),P<0.05被認(rèn)為具有統(tǒng)計(jì)學(xué)意義。
Kaplan-Meier plotter(http://kmplot.com/analysis/)在線的腫瘤分析工具中可以獲得基因表達(dá)與多種癌癥患者的生存率相關(guān)的信息。采用Kaplan-Meier對(duì)OSCC中hub基因表達(dá)的生存狀態(tài)進(jìn)行分析驗(yàn)證,P<0.05認(rèn)為具有統(tǒng)計(jì)學(xué)意義。
從GSE74530中獲得2 783 個(gè)DEGs,包括2 009 個(gè)上調(diào)基因和774 個(gè)下調(diào)基因。在GSE78060中,鑒定出2 774 個(gè)DEGs,包括1 115 個(gè)上調(diào)基因和1 659 個(gè)下調(diào)基因。從GSE 138206中共鑒定出1 265 個(gè)DEGs,包括569 個(gè)上調(diào)基因和696 個(gè)下調(diào)基因(圖1)。用維恩圖求出3 組間的重疊部分,最終得到182 個(gè)上調(diào)DEGs和75 個(gè)下調(diào)DEGs(圖2)。
圖1 3 個(gè)數(shù)據(jù)集中OSCC組織與正常組織之間DEGs的火山圖
圖2 3 個(gè)數(shù)據(jù)集中共有的DEGs的韋恩圖
2.2.1 上調(diào)DEGs的GO和KEGG富集分析 BP分析表明,DEGs主要富集細(xì)胞外基質(zhì)組織、細(xì)胞黏附、膠原分解代謝、血管生成和細(xì)胞外基質(zhì)分解。在CC中,DEGs主要分布在胞外區(qū)、胞外體、胞外間隙、細(xì)胞外基質(zhì)和蛋白質(zhì)類細(xì)胞外基質(zhì)。MF分析顯示,DEGs在鈣離子結(jié)合、細(xì)胞外基質(zhì)結(jié)構(gòu)成分、膠原結(jié)合、金屬內(nèi)肽酶活性和血小板源性生長(zhǎng)因子結(jié)合等方面均顯著富集。另外,KEGG途徑分析表明,DEGs主要集中在細(xì)胞外基質(zhì)受體相互作用、PI3K-Akt信號(hào)通路、局灶性粘附、阿米巴病、蛋白質(zhì)消化吸收等方面。
2.2.2 下調(diào)DEGs的GO和KEGG富集分析 BP分析表明,DEGs主要富集凋亡過程的陽性調(diào)節(jié)、細(xì)胞-底物粘附的陽性調(diào)節(jié)、突觸組裝的陽性調(diào)節(jié)、跨膜受體蛋白酪氨酸激酶信號(hào)通路、CD4陽性、α-βT細(xì)胞分化。在CC中,DEGs主要集中在細(xì)胞外體、蛋白質(zhì)類細(xì)胞外基質(zhì)、細(xì)胞外基質(zhì)中。MF分析顯示,DEGs在肝素結(jié)合中明顯富集。此外,KEGG途徑分析表明,DEGs主要富集于脂肪酸降解、纈氨酸、亮氨酸和異亮氨酸降解。
用STRING數(shù)據(jù)庫構(gòu)建了DEGs的PPI網(wǎng)絡(luò),包括247 個(gè)節(jié)點(diǎn)和1 132 個(gè)邊,有10 個(gè)基因沒有被發(fā)現(xiàn)。Cytoscape顯示的結(jié)果如圖3,根據(jù)蛋白節(jié)點(diǎn)的連接度得分,前10 位的hub基因分別為FN1、COL1A1、COL1A2、COL3A1、CD44、COL4A1、COL5A1、CXCL8、POSTN和CXCL10(表2)。所有這些hub基因在OSCC樣本中均上調(diào)。
表2 連接度排名前10的基因Tab 2 Top 10 genes ranked by degree
圖3 DEGs的PPI網(wǎng)絡(luò)
除了在UALCAN數(shù)據(jù)庫中未發(fā)現(xiàn)CXCL8外,其他hub基因在OSCC樣本中的表達(dá)均顯著高于正常組織(P<0.001)(圖4)。
圖4 hub基因在口腔鱗癌組織和正常組織中的表達(dá)
FN1、CD44、COL5A1、CXCL8的高表達(dá)與OSCC患者較差的總體生存率(overall survival,OS)顯著相關(guān),而COL3A1的高表達(dá)與OSCC患者的良好OS顯著相關(guān)。然而,COL1A1、COL1A2、COL4A1、POSTN和CXCL10的表達(dá)與OSCC患者的預(yù)后無關(guān)(圖5)。
圖5 OSCC患者h(yuǎn)ub基因表達(dá)的生存分析
在全球范圍內(nèi),OSCC是一個(gè)重要的公共衛(wèi)生問題,每年約有30萬新病例被診斷[7]。盡管有研究發(fā)現(xiàn)NEK2、CCNB1等基因在OSCC的發(fā)生過程中起到一定作用[8-9],但OSCC的病理機(jī)制尚不完全清楚。為了進(jìn)一步探索OSCC發(fā)病機(jī)制,本文從GEO數(shù)據(jù)庫中下載OSCC樣本和正常組織樣本的基因表達(dá)數(shù)據(jù),通過GEO2R在線分析,成功挖掘到差異表達(dá)的基因,用STRING數(shù)據(jù)庫構(gòu)建了差異表達(dá)基因的PPI網(wǎng)絡(luò),同時(shí),用Cytoscape軟件尋找hub基因,最后通過UALCAN基因表達(dá)驗(yàn)證以及通過Kaplan-Meier plotter生存分析驗(yàn)證,最終獲得了FN1、COL3A1、COL5A1、CD44和CXCL8等5 個(gè)hub基因。
FN1屬于細(xì)胞外基質(zhì)的糖蛋白家族,已被證明參與細(xì)胞粘附和遷移過程[10]。據(jù)報(bào)道, FN1的過度表達(dá)與OSCC侵襲有關(guān),并且與較差的預(yù)后有關(guān)[11-12]。這與此文研究結(jié)果一致。COL3A1編碼III型膠原的pro-alpha1鏈。有研究表明COL3A1與腫瘤有關(guān),高表達(dá)的COL3A1意味著較差的預(yù)后[13]。然而,在本研究中,COL3A1的高表達(dá)是OSCC的一個(gè)有利的預(yù)后因素。目前,在OSCC中對(duì)COL3A1的研究較少,因此,對(duì)COL3A1的分子機(jī)理還有待進(jìn)一步研究。COL5A1可以編碼V型膠原的α鏈。已有研究表明COL5A1與胃癌、乳腺癌有關(guān),是腫瘤發(fā)生、發(fā)展和預(yù)后的不利因素[14-15]。然而,COL5A1在OSCC中的研究鮮有報(bào)道。在本研究中,COL5A1在OSCC中高表達(dá),且高表達(dá)是OSCC患者的負(fù)面預(yù)后因素。CD44屬于細(xì)胞表面糖蛋白家族,參與細(xì)胞與細(xì)胞的相互作用、細(xì)胞粘附和遷移。研究表明高表達(dá)的CD44參與了對(duì)化療誘導(dǎo)的細(xì)胞凋亡的抵抗,這可能導(dǎo)致OSCC復(fù)發(fā)[16-17]。本研究發(fā)現(xiàn)CD44在OSCC中的表達(dá)明顯高于正常組織,并且CD44高表達(dá)患者的生存率較差。CXCL8編碼的蛋白質(zhì)屬于參與炎癥反應(yīng)的CXC趨化因子家族。CXCL8/CXCL8R軸在人類癌癥中具有負(fù)作用,并可通過各種方式導(dǎo)致腫瘤的進(jìn)展[18-19]。有研究證明,CXCL8與其受體CXCR2結(jié)合與OSCC的進(jìn)展有關(guān)[20]。本研究發(fā)現(xiàn)高水平的CXCL8與OSCC患者的陰性預(yù)后有關(guān)。
綜上所述,本研究從GEO 公共數(shù)據(jù)庫下載OSCC表達(dá)譜芯片數(shù)據(jù),在樣本量相對(duì)充足的情況下,篩選OSCC組織和正常組織之間DEGs,并最終確定了與OSCC預(yù)后密切相關(guān)的hub基因。根據(jù)以上內(nèi)容,通過生物信息學(xué)的方法獲得的結(jié)果,具有一定的可靠性,如FN1、CD44和CXCL8在OSCC的研究中已有一些報(bào)道,而且本研究的結(jié)果和之前的研究結(jié)果是一致的。然而COL3A1和COL5A1在OSCC 研究中,鮮有報(bào)道,后續(xù)需要進(jìn)一步通過相關(guān)實(shí)驗(yàn)對(duì)其進(jìn)行驗(yàn)證。