馬 華,畢文靜,張 旭
(西南大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)院,重慶 400715)
口腔鱗狀細(xì)胞癌(OSCC)是頭頸部最常見的癌癥.世界范圍內(nèi),口腔癌約占全世界惡性腫瘤的3%[1-2].每年全世界估計有300萬新病例[2-3].盡管口腔癌的治療取得了長足進(jìn)步,早期患者的生存率超過90%,但晚期患者的總體生存率僅為30%[4-5].患者不能早診治、局部淋巴結(jié)轉(zhuǎn)移及原發(fā)灶復(fù)發(fā)是口腔鱗癌預(yù)后差及五年生存率低的主要原因[2,6].因此,早期階段癌癥預(yù)測因子的檢測顯得十分重要.
與微陣列方法相比,轉(zhuǎn)錄本的測序(RNA-Seq)數(shù)據(jù)具有多個優(yōu)勢,包括檢測體細(xì)胞突變和準(zhǔn)確測量等位基因特異性表達(dá)能力等[7].口腔癌中最常見的細(xì)胞來源是鱗狀細(xì)胞,在口腔癌中占的比例超過90%[8].晚期階段,這些癌細(xì)胞具有高度浸潤性和轉(zhuǎn)移性.Wang等人通過分析來自GEO和癌癥基因組圖譜(TCGA)數(shù)據(jù),發(fā)現(xiàn)CXCL10、OAS2、IFIT1、CCL5、LRRK2和PLAU六個基因可作為口腔鱗狀細(xì)胞癌的生物標(biāo)記或潛在治療靶標(biāo)[9].Wang等人通過轉(zhuǎn)錄組測序和生物信息學(xué)分析發(fā)現(xiàn),TGFBI過表達(dá)可促進(jìn)口腔鱗狀細(xì)胞癌,并與患者不良預(yù)后有關(guān)[10].Ge等人通過加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析確定了七個hub基因PLAU、SERPINE1、LAMC2、ITGA5、TGFBI、FSCN1和HLF與口腔鱗狀細(xì)胞癌的發(fā)生和預(yù)后相關(guān)[11].Liu等人研究表明,唾液LDOC1是口腔鱗狀細(xì)胞癌的性別差異生物標(biāo)志物[12].然而,上述文獻(xiàn)中均使用微陣列芯片數(shù)據(jù)集以及采用單一的方法選擇hub基因,并且OSCC的潛在分子機(jī)制尚不清楚,有待進(jìn)一步探索.
本研究利用公共數(shù)據(jù)庫轉(zhuǎn)錄本的測序(RNA-Seq)數(shù)據(jù)集,使用edgeR鑒定了口腔鱗狀細(xì)胞癌組織和正常組織之間的差異表達(dá)基因,并通過STRING V11數(shù)據(jù)庫構(gòu)建了差異基因的PPI網(wǎng)絡(luò).使用Cytoscape軟件對其進(jìn)行可視化,采用五種拓?fù)浞治龇椒ù_定了hub基因.CytoHubba提取了網(wǎng)絡(luò)中與hub基因相關(guān)的重要模塊.GO功能和KEGG途徑富集分析探索這些聚類模塊在OSCC發(fā)病機(jī)理中的作用.Kaplan-Meier分析評估了這些hub基因的預(yù)后價值.
收集一組來自口腔鱗狀細(xì)胞癌和它配對的正常組織的表達(dá)數(shù)據(jù).此數(shù)據(jù)來自美國國家生物信息中心(NCBI)數(shù)據(jù)庫的GEO數(shù)據(jù)(http://www.ncbi.nlm.nih.gov/geo/),下載文檔GSE20116_RAW.tar.該數(shù)據(jù)集包括三個腫瘤樣本和三個正常樣本.文獻(xiàn)[7]運(yùn)用這組數(shù)據(jù)證明了腫瘤中的等位基因失衡與拷貝數(shù)突變相關(guān),而拷貝數(shù)突變又與轉(zhuǎn)錄本豐度的變化強(qiáng)烈相關(guān).本研究主要通過5種拓?fù)浞治龇椒ㄈ〗患Y選與口腔鱗狀細(xì)胞癌相關(guān)的hub基因作為潛在的生物標(biāo)志物.
1.2.1 DEGs的鑒定和富集分析
使用edgeR軟件包,鑒定口腔鱗狀細(xì)胞癌組織和正常組織之間的DEGs.首先,采用TMM算法對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化和過濾(相同基因符號的不同RefSeq轉(zhuǎn)錄本,為每個基因符號保留一個轉(zhuǎn)錄本).隨后采用負(fù)二項(xiàng)分布對差異表達(dá)分析進(jìn)行檢驗(yàn).對于任意樣本i中的任意一個基因g,假設(shè)它符合二項(xiàng)式分布
Ygi=NB(MiPgi,φg)
(1)
其中Mi是樣本i中讀段總數(shù);φg是基因g的離散度;Pgi是基因g在某個條件或分組j下的相對豐度.
篩選差異基因的標(biāo)準(zhǔn)是:將閾值設(shè)置為log2(FC)>1和p-value<0.05表示上調(diào)的差異基因,log2(FC)<-1和p-value<0.05表示下調(diào)的差異基因.使用Cytoscape中的插件Bingo來查看所有DEGs在生物過程(biological processes,BP),分子功能(molecular functions,MF)和細(xì)胞成分(cell components,CC)的中的富集情況[13].
1.2.2 PPI網(wǎng)絡(luò)與OSCC相關(guān)聚類模塊的構(gòu)建
首先,把篩選出的所有DEGs輸入到STRING V11數(shù)據(jù)庫構(gòu)建PPI網(wǎng)絡(luò).基于PPI網(wǎng)絡(luò)中的基因,通過CytoHubba插件中的5種拓?fù)浞治龇椒ㄈ〗患x出hub基因[14].然后,利用CytoHubba插件構(gòu)建與hub基因相關(guān)的聚類模塊.本文將其作為OSCC相關(guān)模塊.
1.2.3 GO功能和KEGG途徑富集分析
為了探索OSCC相關(guān)模塊中基因的潛在功能,使用R中的clusterProfiler程序包,enrichGO(pvalueCutoff = 0.01,qvalueCutoff = 0.01)和enrichKEGG(pvalueCutoff = 0.01,qvalueCutoff = 0.01)函數(shù)對這個模塊執(zhí)行GO功能分析和KEGG途徑富集分析.ClusterProfiler是Bioconductor的R包,可以對基因集或基因簇的功能性聚類進(jìn)行統(tǒng)計分析和可視化[15].
1.2.4 生存分析
Kaplan-Meier繪圖儀數(shù)據(jù)庫(http://kmplot.com) 是一種在線工具,可用于評估乳腺癌、卵巢癌、肺癌和胃癌等患者中基因的預(yù)后價值.該工具用于分析已鑒定的hub基因與總體生存率之間的關(guān)聯(lián)[16].計算風(fēng)險比(HR)及其0.95 的置信區(qū)間.根據(jù)基因表達(dá)量的中位值將數(shù)據(jù)分為高表達(dá)組和低表達(dá)組.使用默認(rèn)參數(shù),計算每個基因高表達(dá)組和低表達(dá)組的總體生存率.若P<0.05,則說明該基因與總體生存相關(guān).
從GSE20116數(shù)據(jù)集中共鑒定了1 269個DEGs,包括331個上調(diào)和938個下調(diào)基因.這些差異基因的分布情況如圖1.灰色表示在OSCC中上調(diào)或下調(diào)的DEGs.Cytoscape的插件Bingo生成一個有向無環(huán)圖,圖2顏色深淺代表富集程度,越深富集水平越高,反之越低.
圖1 差異表達(dá)基因的火山圖
圖2 差異表達(dá)基因的富集分析
基于1 269個DEGs,構(gòu)建了具有1 194個基因節(jié)點(diǎn)和7 900條邊的PPI網(wǎng)絡(luò)(圖3A),其中淺灰色代表hub基因,深灰色代表差異基因.通過5種常用的計算hub基因的算法,較為準(zhǔn)確地找到hub gene.表1是每種方法前20個重要基因的排名,然后取交集(圖3B).其中被五種算法公認(rèn)的hub基因是EGF、FGF2、IGF1、ACTN2、ACTA1、VWF、PTPRC、KDR、CXCL12、PTGS2和TLR4.CytoHubba插件提取了與11個hub基因相關(guān)的重要聚類模塊.該模塊具有393個節(jié)點(diǎn)和3 848條邊(圖3C),其中淺灰色代表hub基因,深灰色代表差異基因.把這個OSCC相關(guān)的模塊用于下游途徑分析.
表1 5種拓?fù)浞治龇椒ㄅ琶?0的基因
A:PPI網(wǎng)絡(luò);B:5種方法取交集的韋恩圖;C:由11個hub基因調(diào)控的聚類模塊
為了探討這個聚類模塊在OSCC發(fā)病機(jī)制中的作用,對OSCC相關(guān)模塊進(jìn)行了GO功能分析和KEGG通路分析(圖4).其中圖4A是BP中排名前15的術(shù)語、4B是CC中排名前15的術(shù)語、4C是MF中排名前15的術(shù)語和4D是KEGG途徑分析中排名前15的術(shù)語.GO功能分析結(jié)果表明,855個生物過程,顯著地富集在肌肉細(xì)胞分化、細(xì)胞外結(jié)構(gòu)組織、細(xì)胞外基質(zhì)組織、肌肉組織發(fā)育等過程;70個細(xì)胞組分主要富集在收縮纖維、肌原纖維、肌動蛋白細(xì)胞骨架、肌節(jié)細(xì)胞外基質(zhì)等和52個分子功能,其中與肌動蛋白結(jié)合、肌動蛋白絲結(jié)合、細(xì)胞黏附分子結(jié)合、糖胺聚糖結(jié)合、硫化合物結(jié)合、受體配體活性等功能顯著相關(guān).而KEGG途徑富集分析鑒定了35個KEGG途徑,其中與PI3K-Akt信號通路、ECM-受體相互作用、黏著斑和軸突傳導(dǎo)等顯著相關(guān).PI3K-Akt信號通路抑制劑LY2442可逆轉(zhuǎn)PAR-2引起的致癌作用.PAR-2可通過激活PI3K-Akt信號通路促進(jìn)OSCC的生長和發(fā)展[17-19].ECM-受體相互作用和黏著斑通路等有密切的相互作用.這些相互作用有利于OSCC的增殖、運(yùn)動、分化和ECM代謝,同時抑制細(xì)胞死亡、平穩(wěn)地極化生長和ECM的穩(wěn)定性[20].ECM受體相互作用和黏著斑信號通路對癌細(xì)胞有明顯的調(diào)控作用[21].
圖4 GO功能和KEGG途徑富集分析
使用Kaplan-Meier繪圖儀數(shù)據(jù)庫,繪制了11個hub基因的預(yù)后價值(圖5).根據(jù)基因表達(dá)量的中位值將數(shù)據(jù)分為高表達(dá)組和低表達(dá)組.灰色線條代表高表達(dá)組,黑色線條代表低表達(dá)組.log-rankP<0.05,說明高低表達(dá)組的生存率有顯著差異.由圖5可以看出,EGF、FGF2、IGF1、ACTN2、VWF、PTPRC、KDR、CXCL12、PTGS2和TLR4高表達(dá)組的生存率顯著高于低表達(dá)組,說明這10個基因的低表達(dá)組伴有較差的總體生存率.而ACTA1低表達(dá)組的生存率顯著高于高表達(dá)組,說明該基因高表達(dá)組的生存率較差.綜上所述,這11個hub基因都與OSCC患者的總體生存率相關(guān)(log-rankP<0.05).
圖5 hub基因的生存分析圖
分子遺傳學(xué)和信號通路的研究可以促進(jìn)對OSCC發(fā)病機(jī)理的了解,并有助于OSCC的早期診斷.因此,鑒定OSCC的差異表達(dá)基因可能有助于早期診斷和開發(fā)有效的治療方法.
在本研究中,從OSCC數(shù)據(jù)集中總共識別出1 269個DEGs,其中331個上調(diào)和938個下調(diào)基因.基于這些DEGs構(gòu)建了一個PPI網(wǎng)絡(luò).該網(wǎng)絡(luò)由1 194個基因和7 900個邊組成.然后,通過5種拓?fù)浞治龇椒ㄈ〗患x擇了11個hub基因.CytoHubba提取了與11個hub基因相關(guān)的聚類模塊.為了探索該聚類模塊在OSCC發(fā)病機(jī)理中的作用,對該模塊進(jìn)行了GO功能和KEGG途徑分析.發(fā)現(xiàn)該模塊中的基因富含多種功能和途徑,其中PI3K-Akt信號通路、ECM-受體相互作用、細(xì)胞黏附分子(CAMs)和人乳頭瘤病毒感染等與OSCC顯著相關(guān).Kaplan-Meier分析顯示11個hub基因與OSCC患者的整體生存有關(guān).
這項(xiàng)研究的總體目標(biāo)是確定可以作為OSCC診斷和治療的潛在生物標(biāo)記的hub基因,并通過綜合分析進(jìn)一步探索OSCC的潛在機(jī)制.在文獻(xiàn)研究的基礎(chǔ)上,從生物學(xué)角度揭示了11個hub基因都與癌癥相關(guān).其中相關(guān)文獻(xiàn)已經(jīng)證實(shí)了有5個hub基因在OSCC中具有重要作用,6個hub基因與其他癌癥和疾病密切相關(guān).Chen等人研究表明,miR-23a-3p可能通過靶向FGF2抑制腫瘤的增殖、侵襲并促進(jìn)OSCC的凋亡[22].Zhao等人研究表明,隨著啟動子甲基化率的升高,ACTN2,ACTA1在OSCC中的表達(dá)降低[23].Tand等人研究表明,VWF被用作內(nèi)皮細(xì)胞標(biāo)記,這種蛋白質(zhì)是由內(nèi)皮細(xì)胞合成的,在止血中起著重要作用,促進(jìn)了第一批血小板與血管內(nèi)皮下細(xì)胞的黏附[24].Zhang等人發(fā)現(xiàn),CXCL12與FoxP3 +腫瘤浸潤淋巴細(xì)胞相關(guān),并影響OSCC患者的生存[25].Ikebe等人發(fā)現(xiàn),TLR4增強(qiáng)了胰腺癌細(xì)胞的侵襲能力并促進(jìn)了胰腺癌的進(jìn)程[26].Li等人研究表明了miR-26b與PTGS2相互作用,抑制PTGS2蛋白表達(dá).此外,PTGS2表達(dá)抑制細(xì)胞增殖[27].Takahashi等人研究表明,血管內(nèi)皮生長因子及其受體KDR的表達(dá)與人結(jié)腸癌的血管形成、轉(zhuǎn)移和增殖相關(guān)[28].Kong等人研究表明,表面活性物質(zhì)(EPR)降低OSCC表皮生長因子(EGF)受體表達(dá)[29].Jacobsen等人研究表明,PTPRC的突變與某些家系中多發(fā)性硬化癥的發(fā)展有關(guān)[30].Cheng等人研究表明,IGF1遺傳變異與前列腺癌的發(fā)病風(fēng)險相關(guān)聯(lián)[31].
針對以往篩選hub基因方法單一的問題,提出一種可以綜合考慮各種方法來精確篩選hub基因的新思路.本文主要通過5種拓?fù)浞治龇椒?,確定了11個hub基因,包括EGF、FGF2、IGF1、ACTN2、ACTA1、VWF、PTPRC、KDR、CXCL12、PTGS2和TLR4.通過途徑分析、相關(guān)文獻(xiàn)和kaplan-meier分析驗(yàn)證了這些hub基因.結(jié)果表明,這11個hub基因可以作為OSCC的潛在預(yù)后生物標(biāo)志物和治療靶標(biāo).盡管對本研究結(jié)果需要進(jìn)一步的生物學(xué)驗(yàn)證,但本研究為探索潛在的生物標(biāo)志物和OSCC相關(guān)的診斷、預(yù)后和治療靶標(biāo)提供了新的思路.