袁 野 史文杰 卓 睿 龐偉毅
(1 桂林醫(yī)學(xué)院基礎(chǔ)醫(yī)學(xué)院,廣西桂林市 541199,電子郵箱:1654315041@qq.com;2 廣西桂林市中醫(yī)醫(yī)院乳腺外科,桂林市 541001;3 桂林醫(yī)學(xué)院公共衛(wèi)生學(xué)院,廣西桂林市 541199)
乳腺癌是危及女性健康的最常見疾病之一,具有較高的發(fā)病率,也是導(dǎo)致女性因癌癥死亡的主要原因。乳腺癌死亡病例占所有女性癌癥死亡病例的15%[1]。目前,臨床上根據(jù)分子生物學(xué)特征將乳腺癌分為4種類型[2],其中三陰性乳腺癌(triple-negative breast cancer,TNBC)占所有分子亞型乳腺癌的15%,但其復(fù)發(fā)和轉(zhuǎn)移的風(fēng)險(xiǎn)遠(yuǎn)高于其他亞型,是乳腺癌中最特殊且惡性程度最高的分子亞型[3]。TNBC因缺乏雌激素受體(estrogen receptor,ER)、孕激素受體(progesterone receptor,PR)和人表皮生長(zhǎng)因子受體2(human epidermal growth factor receptor 2,HER-2)的表達(dá),在所有乳腺癌亞型中預(yù)后最差,約30%的早期TNBC患者即使切除原發(fā)腫瘤也存在遠(yuǎn)處器官?gòu)?fù)發(fā)的風(fēng)險(xiǎn)[4-5],這給臨床治療帶來了很大的困難和阻礙[6]。目前,針對(duì)TNBC的臨床治療是以化療為主的聯(lián)合治療,但由于目前TNBC發(fā)生機(jī)制尚未明確,因此尚無(wú)TNBC的精準(zhǔn)診斷和治療方法。因此,探究與TNBC發(fā)生發(fā)展及預(yù)后有關(guān)的基因極為迫切。本研究運(yùn)用加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析(weighted gene co-expression network analysis,WGCNA)從癌癥基因數(shù)據(jù)庫(kù)中篩選出與TNBC及其預(yù)后相關(guān)的核心基因,以期為TNBC的診斷、臨床治療以及預(yù)后評(píng)估提供關(guān)鍵的生物學(xué)靶點(diǎn)。
1.1 數(shù)據(jù)來源 在美國(guó)國(guó)立衛(wèi)生研究院的癌癥基因組數(shù)據(jù)庫(kù)(http://cancergenome.nih.gov/)下載869例乳腺癌患者的完整臨床資料信息和轉(zhuǎn)錄組測(cè)序信息。其中,臨床資料包括患者的年齡、組織學(xué)類型、臨床分期、分子分型及生存時(shí)間和生存狀態(tài)等信息。為更準(zhǔn)確顯示各個(gè)乳腺癌亞型之間的差異,本研究選擇標(biāo)準(zhǔn)差變化最大的前15%(共4 886個(gè))基因進(jìn)行后續(xù)分析。
1.2 加權(quán)基因共表達(dá)網(wǎng)絡(luò)的建立及重要模塊的篩選 采用R軟件(Version 3.4)的WGCNA包構(gòu)建加權(quán)基因共表達(dá)網(wǎng)絡(luò)。為了明確基因間的相關(guān)性,對(duì)篩選出的所有基因樣品采用加權(quán)基因共表達(dá)網(wǎng)絡(luò)進(jìn)行層級(jí)聚類以行共表達(dá)分析。在對(duì)基因進(jìn)行層級(jí)聚類后,將患者的臨床特征(年齡、組織學(xué)類型、臨床分期、分子分型及總體生存率)進(jìn)行了分類,以便探究不同的基因聚類模塊在不同臨床表型中的表達(dá)變化。最后將所有基因的表達(dá)譜數(shù)據(jù)映射到基因共表達(dá)網(wǎng)絡(luò)中,通過層級(jí)聚類再次對(duì)具有相似臨床表型的基因進(jìn)行模塊聚類,選擇β=4作為軟閾值參數(shù)以確保無(wú)尺度網(wǎng)絡(luò)的穩(wěn)定性(見圖1)。在共表達(dá)網(wǎng)絡(luò)中,具有高相關(guān)性的基因會(huì)被聚集在同一模塊中;同時(shí),為了確定每個(gè)模塊的重要性,本研究通過計(jì)算模塊的相關(guān)系數(shù)來評(píng)估基因與TNBC之間的關(guān)聯(lián)性。
圖1 加權(quán)基因共表達(dá)網(wǎng)絡(luò)構(gòu)建中的軟閾值
1.3 基因功能和通路富集分析 采用在線分析工具DAVID(版本6.8,http://david.abcc.ncifcrf.gov/),針對(duì)所篩選模塊基因進(jìn)行基因本體(Gene Ontology,GO)功能分析和京都基因和基因組百科全書(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路富集分析,其中基因功能包括生物過程、分子功能和細(xì)胞組成,以調(diào)整后的P<0.005作為功能和通路富集顯著的標(biāo)準(zhǔn),從而確定基因可能發(fā)揮的生物學(xué)功能和可能發(fā)揮功能的通路。
1.4 核心基因的篩選和鑒定 采用String數(shù)據(jù)庫(kù)(https://string-db.org/)針對(duì)TNBC相關(guān)模塊基因構(gòu)建蛋白質(zhì)-蛋白質(zhì)互作(protein-protein interaction,PPI)網(wǎng)絡(luò),并將結(jié)果導(dǎo)入Cytoscape軟件(Version.3.7.1),利用Cytoscape軟件的插件MCODE進(jìn)行核心基因篩選,篩選標(biāo)準(zhǔn)為K-score=2,Mode score cut-off=0.2。
1.5 核心基因與TNBC預(yù)后的關(guān)系 采用Kaplan-Meier Plotter生存分析數(shù)據(jù)庫(kù)(http://www.kmplot.com/)對(duì)核心基因進(jìn)行逐一篩選,以便確定核心基因網(wǎng)絡(luò)中影響TNBC預(yù)后的潛在生物學(xué)靶點(diǎn)。
2.1 加權(quán)基因共表達(dá)網(wǎng)絡(luò)及重要模塊 通過層次聚類總共確定11個(gè)模塊,且發(fā)現(xiàn)其中的Blue模塊與TNBC具有較高的相關(guān)性(相關(guān)系數(shù)為0.63),因此選擇該模塊進(jìn)行后續(xù)分析。見圖2。
圖2 乳腺癌臨床特征相關(guān)模塊的識(shí)別
2.2 Blue模塊基因的GO功能分析及KEGG通路富集分析 GO功能分析結(jié)果顯示,Blue模塊基因可能發(fā)揮ATP能量結(jié)合、RNA(ploy A尾)結(jié)合及蛋白折疊等功能。KEGG通路富集分析結(jié)果顯示,這些基因主要參與細(xì)胞周期、剪接體和DNA復(fù)制等過程,即Blue模塊的基因主要參與有絲分裂的細(xì)胞周期過程。見圖3。
圖3 Blue模塊基因的GO功能與KEGG分析
2.3 核心基因的識(shí)別和驗(yàn)證 對(duì)Blue模塊中基因進(jìn)行PPI網(wǎng)絡(luò)構(gòu)建和MCODE篩選后,共得到了7個(gè)核心基因,分別為多萜長(zhǎng)醇二磷酸寡糖蛋白環(huán)糊精糖基轉(zhuǎn)移酶(dolichyl-diphosphooligosaccharide-protein glycosyltransferase, DDOST)、苯丙氨酰-tRNA合成酶β(phenylalanyl-tRNA synthetase beta,FARSB)、染色體結(jié)構(gòu)維持蛋白3(structural maintenance of chromosomes 3,SMC3)、母體胚胎亮氨酸拉鏈激酶(maternal embryonic leucine zipper kinase,MELK)、雙鏈特異性核酸酶1(duplex-specific nuclease 1,DSN1)、不均一核糖核蛋白A/B(heterogeneous nuclear ribonucleoprotein A/B,hnRNPAB)和糖基轉(zhuǎn)移酶25結(jié)構(gòu)域1/前膠原半乳糖基轉(zhuǎn)移酶1(glycosyltransferase 25 domain containing1/hydroxylysine galactosyltransferase 1,GLT25D1)。經(jīng)查閱文獻(xiàn)我們發(fā)現(xiàn)MELK基因與TNBL的相關(guān)報(bào)道較少,且采用Kaplan-Meier Plotter生存分析數(shù)據(jù)庫(kù)對(duì)核心基因進(jìn)行逐一篩選后發(fā)現(xiàn),MELK基因是影響TNBC預(yù)后的潛在生物學(xué)靶點(diǎn)。故選擇該基因進(jìn)行深入的研究。見圖4。
圖4 利用Blue模塊基因進(jìn)行PPI網(wǎng)絡(luò)構(gòu)建和MCODE插件鑒定的核心基因
2.4 核心基因MELK的鑒定及其與TNBC預(yù)后的關(guān)系 基于癌癥基因組數(shù)據(jù)庫(kù)對(duì)MELK基因進(jìn)行單基因分析,結(jié)果顯示MELK基因在TNBC患者中的表達(dá)水平顯著升高,見圖5。對(duì)MELK基因進(jìn)行單基因GO功能分析和KEGG通路富集分析,結(jié)果顯示,MELK基因主要富集在細(xì)胞分裂功能,且主要參與細(xì)胞周期過程,表明MELK基因主要參與細(xì)胞增殖及分裂和細(xì)胞周期的過程。見圖6。Kaplan-Meier Plotter生存分析結(jié)果提示,無(wú)論是總體生存還是無(wú)復(fù)發(fā)生存,與MELK基因低表達(dá)組相比, MELK基因高表達(dá)組患者預(yù)后較差(P<0.05),見圖7。
圖5 乳腺癌各分子亞型中MELK基因的表達(dá)水平
圖6 MELK基因單基因GO功能分析和通路富集分析
注:A為MELK基因的單基因GO功能分析;B為MELK基因的KEGG通路富集分析。
圖7 MELK基因與TNBC患者預(yù)后關(guān)系的Kaplan-Meier Plotter分析結(jié)果
注:A為TNBC患者總體存活率的Kaplan-Meier Plotter分析結(jié)果;B為TNBC患者無(wú)復(fù)發(fā)存活率的Kaplan-Meier Plotter分析結(jié)果。
TNBC是一種高度異質(zhì)性的腫瘤,具有低齡發(fā)病、侵襲性強(qiáng)、易復(fù)發(fā)等特點(diǎn)[7-8]。目前在臨床治療上針對(duì)HER-2過表達(dá)型、ER(+)型乳腺癌的靶向治療已經(jīng)有了重大進(jìn)展,但由于缺乏對(duì)TNBC作用靶點(diǎn)和分子機(jī)制的精準(zhǔn)認(rèn)知,TNBC的臨床治療一直難以實(shí)現(xiàn)突破[9]。近年來,越來越多的癌癥基因芯片和高通量測(cè)序技術(shù)被用以探索與癌癥相關(guān)的生物學(xué)標(biāo)志物,且兩種技術(shù)用于臨床后在腫瘤診斷、治療及預(yù)后評(píng)估方面取得了令人欣喜的成績(jī)[10-11]。本研究利用WGCNA這一全新的生物信息學(xué)算法,構(gòu)建基因無(wú)尺度網(wǎng)絡(luò),旨在尋找共表達(dá)特征的基因模塊,并進(jìn)一步探索基因網(wǎng)絡(luò)與臨床表型的關(guān)聯(lián)性。這一算法的優(yōu)點(diǎn)是可以克服技術(shù)平臺(tái)差異和樣本量小的限制,促進(jìn)多組學(xué)數(shù)據(jù)的整合,以增加樣本量、提高分析結(jié)果的準(zhǔn)確性[12]。
本研究結(jié)果顯示,MELK基因是影響TNBC預(yù)后的潛在生物學(xué)靶點(diǎn)。MELK是釀酒酵母/AMP依賴性蛋白激酶家族的一個(gè)獨(dú)特成員,其是細(xì)胞發(fā)育過程中重要的激酶。與AMP依賴性蛋白激酶家族的其他成員不同,MELK不參與代謝調(diào)節(jié),而是參與細(xì)胞發(fā)育過程其他的生物學(xué)過程,如細(xì)胞增殖、細(xì)胞周期調(diào)控、mRNA前體的剪接、干細(xì)胞和胚胎細(xì)胞的發(fā)育等。有研究表明,MELK可能通過參與細(xì)胞的有絲分裂過程,從而影響腫瘤細(xì)胞的增殖和凋亡[13]。而我們?cè)趯?duì)MELK基因進(jìn)行通路富集分析時(shí)發(fā)現(xiàn),其主要富集在細(xì)胞分裂的功能上,提示MELK可能參與細(xì)胞分裂這一生物學(xué)過程,與上述研究結(jié)果相似。另有研究顯示,MELK可能通過干擾乳腺腫瘤干細(xì)胞表型來促進(jìn)乳腺腫瘤的發(fā)生[14-15],但因?yàn)楸狙芯咳狈θ橄倌[瘤干細(xì)胞的測(cè)序樣本,并未能得出相關(guān)結(jié)果 。此外,由于基因的表達(dá)會(huì)在一定程度影響患者預(yù)后,因此,我們采用Kaplan-Meier Plotter生存分析數(shù)據(jù)庫(kù)研究MELK基因在TNBC患者預(yù)后中的作用,結(jié)果顯示,MELK低表達(dá)的患者預(yù)后優(yōu)于MELK高表達(dá)患者,這與其他研究結(jié)果[16-18]相似。上述結(jié)果說明MELK基因不僅在TNBC發(fā)生發(fā)展中扮演著重要的角色,還和其預(yù)后息息相關(guān),因此MELK或有望成為治療TNBC的重要靶點(diǎn)。
本研究也存在一定局限性:本研究的數(shù)據(jù)來源于公共數(shù)據(jù)庫(kù),其結(jié)果報(bào)告可能存在偏倚;核心基因?qū)颊哳A(yù)后的影響會(huì)受多種外在因素的干擾,因此本研究結(jié)果的準(zhǔn)確性仍有待深究。為了消除數(shù)據(jù)庫(kù)分析帶來的結(jié)果偏移,筆者將收集臨床標(biāo)本進(jìn)行轉(zhuǎn)錄組測(cè)序,同時(shí)收集患者臨床病理資料,對(duì)本研究的結(jié)果進(jìn)行驗(yàn)證。
綜上所述,基于WGCNA這一全新的生物信息學(xué)算法,MELK基因被認(rèn)為TNBC預(yù)后相關(guān)的潛在生物學(xué)靶點(diǎn),這為探索和揭示TNBC發(fā)生機(jī)制以及實(shí)現(xiàn)TNBC的精準(zhǔn)治療提供了一定的參考價(jià)值。