魏偉,歐政林,竇曉淋,張帥,唐翎
(中南大學(xué)湘雅醫(yī)院 1.普通外科 2.藥學(xué)部 3.國家老年疾病臨床醫(yī)學(xué)研究中心,湖南 長沙 410008)
胰腺癌是一種惡性程度很高的腫瘤,在全世界的發(fā)病率和病死率都很高,全球范圍內(nèi)呈快速上升趨勢,我國發(fā)病率逐年上升并呈年輕化的趨勢,嚴(yán)重危害著人類的健康[1-5]。80%的胰腺癌是胰腺導(dǎo)管腺癌,以高侵襲性和早期轉(zhuǎn)移為特點(diǎn),臨床癥狀出現(xiàn)晚,發(fā)現(xiàn)時(shí)已為晚期,雖然放療和化療對延長患者生存期起到了一定的作用,但是患者中位生存期仍小于2年[6-8]。
研究[9-13]表明,胰腺癌病變組織和正常組織之間存在差異表達(dá)基因(different expression genes,DEGs),這些DEGs很可能會導(dǎo)致胰腺癌的發(fā)生和發(fā)展。高通量基因芯片和測序技術(shù)作為基因表達(dá)分析的工具,已被廣泛應(yīng)用于識別腫瘤發(fā)生過程中遺傳信息的改變[14-15]。隨著基因芯片技術(shù)的發(fā)展,已經(jīng)產(chǎn)生了大量核酸數(shù)據(jù),這些數(shù)據(jù)需要經(jīng)過挖掘加工才能夠被有效應(yīng)用。芯片數(shù)據(jù)挖掘涉及很多方面,如圖像處理、數(shù)據(jù)標(biāo)準(zhǔn)化、DEGs篩選等。GEO(Gene Expression Omnibus)數(shù)據(jù)庫中有豐富的腫瘤相關(guān)基因組及基因表達(dá)譜,為研究細(xì)胞癌基因表達(dá)情況和發(fā)現(xiàn)關(guān)鍵基因的變化規(guī)律提供基礎(chǔ)[16]?;谙嚓P(guān)性的特征選擇(correlationbased feature selection,CFS)變量篩選方法計(jì)算特征變量對于目標(biāo)的整體貢獻(xiàn)來判斷特征變量集的分類能力大小,將與目標(biāo)的相關(guān)性很低的變量,以及變量之間高度相關(guān)的冗余變量去掉,這種變量篩選方法在生命科學(xué),藥物設(shè)計(jì)等領(lǐng)域被廣泛用于高維數(shù)據(jù)及特征篩選[17]。
本研究基于GEO數(shù)據(jù)庫中獲得的基因芯片數(shù)據(jù),通過特征篩選獲得差異表達(dá)基因,建立相應(yīng)的胰腺癌判別模型,結(jié)合GO功能富集分析和KEGG通路富集分析,蛋白質(zhì)交互作用網(wǎng)絡(luò)以及生存分析來研究部分導(dǎo)致胰腺癌的關(guān)鍵基因,初步探索胰腺癌潛在的治療靶點(diǎn),為研究胰腺癌的分子機(jī)制提供基礎(chǔ),為胰腺癌的治療診斷提供參考依據(jù)。
數(shù)據(jù)庫資料下載本研究中,從GEO數(shù)據(jù)庫下載了GSE16515 mRNA表達(dá)譜,該表達(dá)譜采用GPL570 [HG-U133_Plus_2] Affymetrix Human Genome U133 Plus 2.0 Array平臺,包含胰腺組織樣本52例,其中36例胰腺癌樣本,16例正常組織樣本。使用線性回歸模型軟件包Limma對不同組的芯片進(jìn)行差異性計(jì)算,歸一化。
利用R語言以|log2FC|>2,P<0.05為標(biāo)準(zhǔn),篩選出DEGs[18]。
GO功能富集分析一般包括生物過程(biological process,BP)、分子功能(molecular function,MF)和細(xì)胞成分(cellular component,CC)[19]。將這些DEGs導(dǎo)入到在線工具DAVID數(shù)據(jù)庫中,分別進(jìn)行GO和KEGG富集分析[20-21],并利用得到的數(shù)據(jù)繪制氣泡圖。
利用在線數(shù)據(jù)庫STRING構(gòu)建DEGs之間的蛋白-蛋白交互作用(protein-protein interaction,PPI)網(wǎng)絡(luò)圖,分析蛋白質(zhì)功能之間的相互作用。隨后應(yīng)用Cytoscape軟件(3.8.0)在線工具使PPI的網(wǎng)絡(luò)模塊可視化[22]。
利用PPI網(wǎng)絡(luò)分析篩選出其中的靶基因之后,應(yīng)用在線工具GEPIA數(shù)據(jù)庫對TCGA數(shù)據(jù)庫中有詳細(xì)臨床資料的胰腺癌患者,采用Kaplan-Meier生存分析研究靶基因表達(dá)水平與胰腺癌患者總生存期(overall survival,OS)之間的關(guān)系[23],驗(yàn)證其在胰腺癌發(fā)生過程中的參與情況。
“差異”在生物學(xué)數(shù)據(jù)分析時(shí)有兩層含義,一是統(tǒng)計(jì)學(xué)上的差異,另一個(gè)則是生物學(xué)上的差異,所以DEGs的選取通常設(shè)置至少兩個(gè)閾值:統(tǒng)計(jì)顯著性量度P值和基因表達(dá)變化量(fold change,F(xiàn)C)。在本研究中,通過計(jì)算發(fā)現(xiàn),胰腺癌與對照的基因表達(dá)差異比較,滿足P<0.05及|log2FC|>2的有1 121個(gè)基因(圖1),其中上調(diào)基因834個(gè),下調(diào)基因287個(gè)。可以看出,有較多基因的差異倍數(shù)較高,推測胰腺腫瘤亦可能是從良性腫瘤向惡性腫瘤轉(zhuǎn)變的過程,所以才存在很大的差異性。
圖1 DEGs火山圖(藍(lán)色點(diǎn)表示滿足閾值的下調(diào)DEGs,紅色點(diǎn)表示滿足閾值的上調(diào)DEGs,灰色點(diǎn)表示不滿足閾值的DEGs)Figure 1 Volcano plots of DEGs (Blue dots indicating the down-regulated DEGs that meet the threshold, red dots indicating the up-regulated DEGs that meet the threshold, and gray dots indicating DEGs that do not meet the threshold)
使用CFS算法對2.1部分中篩選出的DEGs進(jìn)行進(jìn)一步篩選,通過胰腺癌樣本與正常樣本比較,共篩選出18個(gè)DEGs,其中包括了16個(gè)上調(diào)基因(BUB1B、 CCNA2、 CCNB1、 CDC20、 CDC6、CDK1、 CKS1B、 CKS2、 EPHA4、 MAD1L1、MAD2L1、MCM2、NDC80、RACGAP1、TTK、ZWINT)和2個(gè)下調(diào)基因(ADHFE1、PSMD6)。以該18個(gè)DEGs為變量,使用Adaboost算法和Bagging算法,并用4種弱分類器作為基本分類器,分別構(gòu)建胰腺癌判別預(yù)測模型(表1)。結(jié)果顯示,兩種算法,使用不同分類器時(shí),預(yù)測準(zhǔn)確率都高于80%,說明我們篩選得到的18個(gè)DEGs,能夠很好地識別腫瘤患者。其中,以RandomForest為弱分類器,采用Adaboost方法所得到的判別模型的預(yù)報(bào)準(zhǔn)確率最高,可以達(dá)到92.3%。從表中可以看出,8種算法建立的預(yù)測模型中,篩選的18個(gè)DEGs,無論選擇何種算法,都能夠較好地區(qū)分胰腺癌與正常樣本。
表1 不同弱分類器對胰腺癌的預(yù)測結(jié)果Table 1 Prediction result of different weak classifiers for pancreatic cancer
GO功能富集分析結(jié)果顯示,在BP方面中RNA聚合酶Ⅱ啟動子的正/負(fù)性轉(zhuǎn)錄調(diào)控(positive/negative regulation of transcription from RNA polymeraseⅡ promoter)和DNA模板的轉(zhuǎn)錄正調(diào)控(positive regulation of transcription,DNA-templated)富集的基因數(shù)量較多;在CC方面,DEGs主要與胞質(zhì)(cytosol)、細(xì)胞核 (nucleus)和核質(zhì)體(nucleoplasm)富集的基因數(shù)量較多;而DEGs的MF主要集中在蛋白結(jié)合(protein binding)和同樣蛋白結(jié)合(identical protein binding)(圖2)。KEGG通路富集分析表明,它們主要參與癌癥通路(pathways in cancer),Wnt信號通路(Wnt signaling pathway),HIF-1信號通路(HIF-1 signaling pathway)和甲狀腺激素信號通路(thyroid hormone signaling pathway)等途徑(圖3)。
圖2 差異表達(dá)基因的GO功能富集分析Figure 2 Functional enrichment analysis of GO for differentially expressed genes
圖3 DEGs的KEGG功能富集分析Figure 3 KEGG functional enrichment analysis of DEGs
使用在線數(shù)據(jù)庫STRING構(gòu)建DEGs之間PPI網(wǎng)絡(luò)。由圖4可知,細(xì)胞分裂周期蛋白20(CDC20)結(jié)構(gòu)度最高,和較多其他節(jié)點(diǎn)有互作。其次是細(xì)胞周期蛋白A2(CCNA2)、細(xì)胞周期蛋白B1(CCNB1)和周期蛋白依賴性激酶1(CDK1)。這些基因可能在胰腺癌的發(fā)生和發(fā)展中起到核心作用。
圖4 DEGs蛋白交互作用網(wǎng)絡(luò)圖Figure 4 Protein interaction network of DEGs
為了進(jìn)一步驗(yàn)證靶基因與OS的關(guān)系,在利用PPI篩選出靶基因后,使用在線分析工具GEPIA數(shù)據(jù)對TCGA數(shù)據(jù)庫中有詳細(xì)資料的胰腺癌患者進(jìn)行Kaplan-Meier生存分析,研究靶基因表達(dá)量與胰腺患者OS之間的關(guān)系。選取基因表達(dá)量的中位數(shù)為基線,將其劃分為高表達(dá)組和低表達(dá)組。其中CDK1(P=0.000 8)、CCNB1(P=0.012)、CSK2(P=0.023)、CKS1B(P=0.001 3)的表達(dá)量與患者OS具有相關(guān)性,這些基因表達(dá)量越高,患者OS越短(圖5)。
圖5 關(guān)鍵基因表達(dá)與胰腺癌患者生存的關(guān)系Figure 5 Relations of the expressions of the hub genes with the survival of pancreatic cancer patients
本研究一共篩選出18個(gè)DEGs,GO功能富集分析表明這些DEGs在RNA聚合酶Ⅱ啟動子的正/負(fù)性轉(zhuǎn)錄調(diào)控、DNA模板的轉(zhuǎn)錄正調(diào)控富集、CC方面,DEGs主要與胞質(zhì)、細(xì)胞核,蛋白結(jié)合和同樣蛋白結(jié)合中起到作用。KEGG通路富集分析表明它們主要參與癌癥通路、Wnt信號通路、HIF-1信號通路和甲狀腺激素信號通路等途徑中起作用。
CCNA2和CCNB1編碼的蛋白都屬于細(xì)胞周期蛋白家族,其成員的特點(diǎn)是在細(xì)胞周期中蛋白豐度具有周期性[24]。細(xì)胞周期蛋白作為CDK激酶的調(diào)節(jié)器發(fā)揮作用。不同的細(xì)胞周期蛋白表現(xiàn)出不同的表達(dá)和降解模式,有助于每個(gè)有絲分裂事件的時(shí)間協(xié)調(diào)。目前已有有關(guān)CCNA2和CCNB1基因在癌組織中的表達(dá)、信號通路和預(yù)后關(guān)系相關(guān)的研究[25-27]。
腫瘤細(xì)胞以持續(xù)分裂、增殖不受控制為特點(diǎn),細(xì)胞周期蛋白依賴性激酶CDK對腫瘤細(xì)胞的生存具有重要意義。CDK1能通過BRCA1的磷酸化促進(jìn)DNA雙鏈斷裂的同源重組修復(fù)過程和細(xì)胞周期檢查點(diǎn)激活。因此,CDK1是許多生物學(xué)過程中調(diào)控的核心,包括細(xì)胞周期調(diào)控、DNA復(fù)制、DNA損傷修復(fù)等,并將這些生物學(xué)過程與細(xì)胞周期進(jìn)程緊密聯(lián)系起來[28-29]。鑒于CDK1對細(xì)胞周期的調(diào)控、檢查點(diǎn)的激活、DNA損傷修復(fù)發(fā)揮著關(guān)鍵性的作用,CDK1成為信號通路的重要位點(diǎn),相關(guān)的抑制劑開發(fā)受到了廣泛的關(guān)注,尤其是其臨床研究更多指向胰腺癌[30-33]。
在本研究中,采用CFS算法對胰腺癌的DEGs進(jìn)行篩選,獲得18個(gè)DEGs,在此基礎(chǔ)了使用機(jī)器學(xué)習(xí)方法構(gòu)建了胰腺癌判別模型。通過GO和KEGG生物功能分析,PPI網(wǎng)絡(luò)分析和生存率分析,發(fā)現(xiàn)CDK1、CCNA2和CCNB1的可能與胰腺癌的發(fā)生和發(fā)展有關(guān)。
利益沖突:所有作者均聲明不存在利益沖突。