Mian Khizar Hayat, 王銘裕, 李碩磊
(蘭州大學(xué) 生命科學(xué)學(xué)院 生物物理所, 蘭州 730000)
乳腺癌是危害女性身心健康的最主要的惡性腫瘤,男性乳腺癌患者比較少見(jiàn),Cancer Statistics 在 2017 年的統(tǒng)計(jì)數(shù)據(jù)顯示乳腺癌在女性癌癥發(fā)病中占據(jù)了 30%的比例[1]。近年來(lái), 乳腺癌的發(fā)病率逐年上升,并且年輕化趨勢(shì)明顯[2]。根據(jù)世界衛(wèi)生組織國(guó)際癌癥研究中心(IARC)最新的全球腫瘤流行病統(tǒng)計(jì)數(shù)據(jù),乳腺癌仍是欠發(fā)達(dá)國(guó)家女性因腫瘤引起死亡的首要原因[3]。乳腺癌是由多基因突變、多蛋白相互作用,并結(jié)合遺傳因素和環(huán)境因素等多方面原因引發(fā)的,其分子病理機(jī)制尚未完全揭示。Nikzainal等分析了 560 例乳腺癌病人的全基因組數(shù)據(jù),發(fā)現(xiàn)了攜帶 93 個(gè)編碼蛋白的癌基因可能驅(qū)動(dòng)乳腺癌生成,而且其研究對(duì)象集中在體細(xì)胞突變基因,但也不否定可能存在非高頻突變基因驅(qū)動(dòng)癌癥的發(fā)生發(fā)展[4],而且預(yù)后是疾病治療的一個(gè)重要指標(biāo)。因此,我們利用 TCGA 數(shù)據(jù)庫(kù)中有關(guān)于乳腺癌的數(shù)據(jù),運(yùn)用生物信息學(xué)的手段,從乳腺癌預(yù)后的相關(guān)基因來(lái)進(jìn)行探究。
為了保證癌癥組織信息與正常組織信息是在病人的同一時(shí)期獲得的,我們?cè)诎┌Y基因圖譜(The Cancer Genomes Atlas, TCGA)數(shù)據(jù)庫(kù)中選取 113 對(duì)同時(shí)檢測(cè)癌區(qū)和癌旁正常組織的樣品,調(diào)取其轉(zhuǎn)錄組數(shù)據(jù)(RVAseqV2,raw count),這樣就排除了個(gè)體癌組織與正常組織取樣時(shí)間的差異。其病理診斷與人種等信息見(jiàn)表 1。
表1 113 位病人的性別、確診年齡、病理診斷和人種等基本信息Table 1 The basic information of gender, age at diagnosis, histological type and race of the selected 113 patients
對(duì)調(diào)取的樣本轉(zhuǎn)錄組數(shù)據(jù)通過(guò) R 語(yǔ)言 DESeq 包來(lái)進(jìn)行差異表達(dá)分析,通過(guò)Padj<0.05并且Abs(log2fold change)>1, 來(lái)篩選差異表達(dá)基因。
利用 R 語(yǔ)言 clusterProfiler 包對(duì)差異基因進(jìn)行基因本體 GO(包括生物過(guò)程 biological process、細(xì)胞組分 cellular component 和分子功能 molecular function 3個(gè)方面)和代謝通路KEGG 富集分析。同時(shí),利用 DOSE 對(duì)差異基因進(jìn)行疾病本體 DO(Disease Ontology)富集分析(Enrichment Analysis)。其中 GO 富集我們?nèi)<0.01,KEGG 富集分析和 DO 富集分析我們?nèi)<0.05。
利用 R 語(yǔ)言 Survival 包,采用數(shù)據(jù)庫(kù)中所用癌癥的表達(dá)數(shù)據(jù)(共 1097 例)對(duì)這些乳腺癌相關(guān)基因進(jìn)行生存分析。
我們調(diào)取了 113 位病人的上述 8 個(gè)基因的表達(dá)數(shù)據(jù),并對(duì)照每個(gè)病人 ER、PR 和 HER2 的免疫組化結(jié)果,依據(jù) ER、PR 和 HER2 免疫組化為陽(yáng)性、陰性、三陽(yáng)性和三陰性時(shí),分析每個(gè)基因的表達(dá)水平與 ER、PR 和 HER2 的相關(guān)性。
我們檢測(cè)了 113 對(duì)乳腺癌及其對(duì)應(yīng)正常癌旁組織,分析了乳腺癌的分期情況并檢測(cè)了3種乳腺癌重要的已知突變基因(her2,er 和 pr 基因)。并從其轉(zhuǎn)錄組數(shù)據(jù)庫(kù)中分析出差異表達(dá)基因,共得到 1428 個(gè)差異表達(dá)基因,結(jié)果如圖 1 所示。
利用R語(yǔ)言clusterProfiler包對(duì)差異基因進(jìn)行基因本體GO分析,分別包括生物過(guò)程biological process分析、細(xì)胞組分 cellular component 分析和分子功能 molecular function 分析(見(jiàn)圖2)。
從 GO 的生物過(guò)程分析,我們可以看到這些差異表達(dá)基因主要集中在細(xì)胞過(guò)程,單一器官過(guò)程和單一器官細(xì)胞過(guò)程。而從細(xì)胞組分和分子功能兩方面的分析可以看到,差異表達(dá)基因主要集中在蛋白結(jié)合方面。
圖1 113 對(duì)乳腺癌區(qū)和癌旁正常組織樣品基因差異表達(dá)圖譜Fig 1 Differential expression genes in 113 pairs breast cancer and its normal tissue adjacent to carcinoma
圖2 基因本體 GO 分析的細(xì)胞組分分析,生物過(guò)程分析和分子功能分析Fig 2 Gene Ontology analysis of biological process, cell component and molecular function
圖3 差異基因細(xì)胞因子-受體互作圖Fig 3 Cytokine-cytokine receptor interaction net
紅色代表上調(diào)基因;綠色代表下調(diào)基因
從上面的結(jié)果我們推測(cè)這些差異基因可能主要通過(guò)細(xì)胞信號(hào)通路和細(xì)胞周期來(lái)起作用, 因此我們進(jìn)行了代謝通路 KEGG 富集分析,以期能夠了解差異表達(dá)顯著的基因在細(xì)胞信號(hào)通路中所處的位置,并了解這些差異基因與哪些基因或轉(zhuǎn)錄因子發(fā)生作用有利于更好地揭示乳腺癌的發(fā)病機(jī)制。細(xì)胞信號(hào)通路結(jié)果如圖 3 所示,細(xì)胞周期分析結(jié)果如圖 4 所示。
紅色代表上調(diào)基因;綠色代表下調(diào)基因
從分析結(jié)果看來(lái),差異基因是通過(guò)CXC亞家族、CC亞家族、PDGF家族、TNF家族、IL-10家族和TGF-β家族等參與信號(hào)通路調(diào)節(jié)進(jìn)而影響乳腺癌的發(fā)生發(fā)展。在細(xì)胞周期層面上看,差異基因參與了 G1 期、S 期、G2 期和 M 期整個(gè)細(xì)胞周期過(guò)程,提示差異基因可能通過(guò)影響細(xì)胞周期來(lái)影響乳腺癌的發(fā)生發(fā)展過(guò)程。
通過(guò)上面的KEGG分析,我們找到了關(guān)于細(xì)胞周期和信號(hào)通路方面的差異基因,接下來(lái)我們通過(guò)疾病本體 DO 分析找到了與乳腺癌相關(guān)聯(lián)的差異基因。我們選取顯著性前 15 的類群(包含 68 個(gè)差異表達(dá)基因)做散點(diǎn)圖,并對(duì)這 68 個(gè)基因做差異表達(dá)圖譜(Heatmap),結(jié)果如圖 5 所示。
圖5 A代表關(guān)于 DO 富集顯著性前15的類群散點(diǎn)圖;B代表經(jīng)富集分析篩選的68個(gè)差異表達(dá)顯著基因的差異表達(dá)圖譜Fig 5 A represent disease Ontology of top 15 significance disease; B shows 68 differential expression genes after DO analysis
通過(guò)上述DO分析,我們得到了68個(gè)差異顯著基因,并對(duì)這68個(gè)基因進(jìn)行了OS(Overall Survival)生存分析,從而得到了8個(gè)顯著性的關(guān)鍵基因,PGLYRP2、SEMA3G、PROL1、SLC7A3、SKA1、BIRC5、RRM2和AURKA。如圖 6 所示。
圖6 8 個(gè)顯著差異基因的生存分析結(jié)果Fig 6 Survival analysis of 8 significance differential expression genes
從圖6中可以看到乳腺癌病人 PGLYRP2、SEMA3G、PROL1及SLC7A3 的高表達(dá)能夠起到良好預(yù)后的作用。而 SKA1、BIRC5、RRM2和AURKA 基因的高表達(dá)反而預(yù)示著預(yù)后不良。
圖 7 預(yù)后不良相關(guān)的 4 個(gè)基因在 ER、PR 和 HER2 檢測(cè)為陽(yáng)性和陰性時(shí)的表達(dá)水平Fig 7 The expression levels of 4 poor prognosis-associated genes in ER,PR and HER2 of positive and negative
“N”代表陰性;“P”代表陽(yáng)性;“Tri-N”代表三陰性;“Tri-P”代表三陽(yáng)性
圖 8 預(yù)后良好相關(guān)4基因在 ER、PR 和 HER2 檢測(cè)為陽(yáng)性和陰性時(shí)的表達(dá)水平Fig 8 The expression levels of 4 good prognosis-associated genes in ER,PR and HER2 of positive and negative
“N”代表陰性;“P”代表陽(yáng)性;“Tri-N”代表三陰性;“Tri-P”代表三陽(yáng)性
我們按照良好預(yù)后和不良預(yù)后將上述 8 個(gè)基因分為兩組,以 ER、PR 和 HER2 表達(dá)陽(yáng)性和陰性,三陰性和三陽(yáng)性為橫坐標(biāo),分析預(yù)后良好相關(guān)基因和預(yù)后不良相關(guān)基因與 ER、PR 和 HER2 的相關(guān)性。從分析結(jié)果來(lái)看,在預(yù)后不良組中,AURKA和RRM2 在三陰性和三陽(yáng)性時(shí),其表達(dá)水平并沒(méi)有明顯的相關(guān)性,而BIRC5 和SKA1 在三陰性和三陽(yáng)性時(shí),其表達(dá)水平具有明顯的相關(guān)性,提示三陰性和三陽(yáng)性條件下,BIRC5 和SKA1 具有更好的預(yù)后指導(dǎo)意義(見(jiàn)圖7)。在良好預(yù)后組中,PROL1、SEMA3G和SLC7A3 在三陽(yáng)性和三陰性條件下,并沒(méi)有明顯的相關(guān)性,而PGLYRP2 在三陽(yáng)性和三陰性時(shí)具有明顯的相關(guān)性,而且在 ER、PR 和 HER2 單陽(yáng)性和單陰性時(shí)也具有明顯的相關(guān)性,提示 PGLYRP2 具有更好的預(yù)后指導(dǎo)意義(見(jiàn)圖8)。
PGLYRP2 是一種 N-乙酰胞壁酸-L-丙氨酸酰胺酶, 它能夠?qū)⒓?xì)菌細(xì)胞壁肽聚糖中MurNAc 和 L-Ala 之間的共價(jià)鍵水解從而起到抗菌的作用[5]。人 PGLYRP-2 主要在肝臟中表達(dá), 并且可以分泌到血液中,通過(guò)血液循環(huán)遍布全身來(lái)建立先天免疫系統(tǒng)[6]。有研究結(jié)果表示,肝臟和血液中的 PGLYRP2 均有基因 pglyrp2 基因編碼,而且 PGLYRP2 也能夠調(diào)控小鼠腦組織發(fā)育[7]。目前,對(duì) PGLYP2 的研究主要集中在其作為一種 PGLRYs 蛋白在先天免疫系統(tǒng)中防止病原體侵染宿主細(xì)胞的分子機(jī)制這一方向,而 PGLYRP2 蛋白與在乳腺癌的發(fā)生過(guò)程中起著怎樣的作用,需要我們進(jìn)一步深入地研究。SEMA3G屬于信號(hào)素(Semaphorin)家族,這類分子在神經(jīng)系統(tǒng)外還起著調(diào)節(jié)細(xì)胞的增殖、黏附和遷移的作用,更重要的是發(fā)現(xiàn)其對(duì)腫瘤的生長(zhǎng)、遷移、免疫反應(yīng)、血管生成起重要調(diào)節(jié)作用[8]。SEMA3C 可通過(guò)激活整合素蛋白磷酸化和 VEGF120 的分泌來(lái)刺激胃癌血管生成并增強(qiáng)體外內(nèi)皮細(xì)胞的黏附性;Sema3E 可以與 PlexinD1 直接結(jié)合;SEMA3E/PlexinD1 信號(hào)通過(guò)啟動(dòng) R-Ras 失活影響整合素的活化狀態(tài)和激活 ADP-核糖激化因子6(Arf6)促進(jìn)細(xì)胞內(nèi)物質(zhì)運(yùn)輸來(lái)發(fā)揮促腫瘤血管生成作用。SEMA3A 可以通過(guò)增加血管通透性來(lái)抗腫瘤血管生成;抑制整合素激活,阻斷整合素介導(dǎo)的內(nèi)皮細(xì)胞的遷移和黏附;同時(shí)還可以阻斷下游 PlexinA4 受體對(duì)腫瘤的促進(jìn)作用。SEMA3B 具有腫瘤細(xì)胞的惡性增殖和腫瘤血管生成的抑制作用;SEMA3F 能夠抑制 VEGF 和 FGF 介導(dǎo)的 ERK1/2 的激活和下調(diào) NP2 水平以抑制體外內(nèi)皮細(xì)胞的增殖[9]。SEMA3G 對(duì)于腫瘤的發(fā)生與抑制起著怎樣的作用尚未闡明,鑒于 SEMA3G 家族其他成員與腫瘤發(fā)生與抑制起著非常重要的作用,以及參考挖掘 TCGA數(shù)據(jù)庫(kù)中乳腺癌相關(guān)的數(shù)據(jù),我們大膽推斷SEMA3G一定與乳腺癌有著緊密的聯(lián)系,相信不久便有進(jìn)一步的實(shí)驗(yàn)驗(yàn)證。PROL1屬于我們篩選的乳腺癌差異表達(dá)基因,其研究尚不深入;SLC7A3是溶質(zhì)轉(zhuǎn)運(yùn)蛋白家族的一員,但是在SLC7A3 敲除小鼠中會(huì)阻礙 AMPK-PPAR-alpha 信號(hào)通路,并且會(huì)在葡萄糖短缺時(shí)導(dǎo)致脂質(zhì)累積[10]。
SKA1 基因編碼的蛋白是紡錘體與動(dòng)粒相關(guān)復(fù)合體(spindle and kinetochore complex,SKA)的亞基之一,其余 SKA2 和 SKA3 編碼的蛋白亞基共同組成紡錘體與動(dòng)粒相關(guān)復(fù)合體。SKA 能夠促進(jìn)微管蛋白和動(dòng)粒的穩(wěn)定結(jié)合,調(diào)控微管蛋白的解聚和真核生物有絲分裂過(guò)程中染色體向兩端的移動(dòng)[11-12]。已有研究表明,SKA1 的沉默能夠抑制神經(jīng)膠質(zhì)細(xì)胞瘤、肝癌、胃癌、口腔鱗狀細(xì)胞癌等多種腫瘤細(xì)胞的惡性增殖[13],但 SKA1 是否在調(diào)節(jié)乳腺腫瘤細(xì)胞惡性增殖的一個(gè)關(guān)鍵因子,需要進(jìn)一步的驗(yàn)證。RRM2基因編碼的蛋白是核糖核苷酸還原酶(Ribonucleotide reductase, RR)的小亞基單位 RRM2。核糖核苷酸還原酶在 DNA 的合成、修復(fù)和細(xì)胞增殖過(guò)程中起著關(guān)鍵的調(diào)控作用。已有大量研究表明,RRM2 基因在胰腺癌、胃癌、絨癌、膀胱癌、直腸癌、乳腺癌等多種人體惡性腫瘤細(xì)胞中表達(dá)水平異常升高,降低RRM2的表達(dá)水平有利于降低核糖核苷酸還原酶的活性,加速惡性腫瘤細(xì)胞的凋亡[14]。RRM2 被認(rèn)為是癌癥治療的重要靶點(diǎn),以 RRM2 作為抗腫瘤藥物的靶點(diǎn)有研發(fā)出多種藥物:3—AP、RRM2 的小干擾 RNA 等[15]。這也就驗(yàn)證了 RRM2 在乳腺癌等其他癌癥的發(fā)生過(guò)程中起著重要的作用,但是,進(jìn)一步深入研究 RRM2 有利于完整地在揭示乳腺癌的分子病理機(jī)制,為乳腺癌的治療提供一個(gè)新的策略。AURKA 基因編碼絲氨酸/蘇氨酸激酶,屬于 Aurora 激酶家族。AURKA 參與中心體的復(fù)制、分離和成熟,在真核生物有絲分裂的細(xì)胞周期中起著重要作用。AURKA 的表達(dá)異常往往導(dǎo)致染色體的異倍性,由此導(dǎo)致的基因組的不穩(wěn)定增加了基因突變的頻率,被認(rèn)為是惡性腫瘤發(fā)生的重要原因之一。同時(shí),異常表達(dá)的 AURKA 還能參與到細(xì)胞內(nèi)各種信號(hào)通路,直接或間接的促進(jìn)腫瘤的發(fā)生[16]。已有大量研究顯示,乳腺癌中AURKA表達(dá)水平異常升高。不僅在乳腺癌中,AURKA和SKA3,DSN1 過(guò)表達(dá)之后也會(huì)誘導(dǎo)結(jié)直腸癌的發(fā)展[17],近期也有研究發(fā)現(xiàn) AURKA 在三陰性乳腺癌模擬血管生成過(guò)程也參與了進(jìn)來(lái)[18],而且 AURKA 也參與維持乳腺癌腫瘤干細(xì)胞形態(tài)[19]。BIRC5(survivin)屬于凋亡抑制蛋白(inhibitor of apoptosis, IAP)家族,具有抑制細(xì)胞凋亡、促進(jìn)細(xì)胞轉(zhuǎn)化、參與真核細(xì)胞有絲分裂、血管生成以及耐藥性的產(chǎn)生等生物學(xué)功能。抑癌基因Tp53 和 BIRC5 有著密切的關(guān)系,Tp53 對(duì) BIRC5 具有負(fù)調(diào)節(jié)作用。當(dāng)野生型的抑癌基因 Tp53突變時(shí),就會(huì)解除在 mRNA 和蛋白質(zhì)水平對(duì) BIRC5 的抑制作用,導(dǎo)致 BIRC5 異常高表達(dá)。高表達(dá)的 BIRC5 啟動(dòng)抗細(xì)胞凋亡機(jī)制抑制細(xì)胞凋亡,從而導(dǎo)致細(xì)胞惡性增殖形成惡性腫瘤, 并可增強(qiáng)腫瘤細(xì)胞的耐藥性[20-22]。因此,BIRC5 與乳腺癌的發(fā)生也應(yīng)該有著密切的關(guān)系。
通過(guò)調(diào)研分析發(fā)現(xiàn),RRM2和AURKA基因參與乳腺癌的發(fā)生過(guò)程;SKA1和BIRC5的異常表達(dá)會(huì)導(dǎo)致惡性腫瘤的產(chǎn)生;SEMA3G也與腫瘤的生成促進(jìn)作用或腫瘤生成的抑制作用有關(guān)。一方面,驗(yàn)證了TCGA數(shù)據(jù)庫(kù)數(shù)據(jù)挖掘部分結(jié)果;另一方面,增加了結(jié)果的可靠性。但是這8個(gè)基因PGLYRP2、SEMA3G、PROL1、SLC7A3、SKA1、BIRC5、RRM2和AURKA在乳腺癌預(yù)后中怎樣發(fā)揮作用,仍需結(jié)合大量臨床樣本的檢測(cè)數(shù)據(jù)和體內(nèi)外功能性實(shí)驗(yàn)來(lái)驗(yàn)證和研究,以期在基因調(diào)控水平上達(dá)到預(yù)后良好的結(jié)果。