韋云真,劉曉娟,王 芳,蘇建忠,張巖?,劉洪波?
(1.哈爾濱醫(yī)科大學(xué)生物信息科學(xué)與技術(shù)學(xué)院,哈爾濱150081;2.哈爾濱醫(yī)科大學(xué)附屬第一醫(yī)院康復(fù)醫(yī)學(xué)科,哈爾濱150001)
doi:10.3969/j.issn.1672-5565.2015.03.05
癌癥DNA甲基化調(diào)控位點的識別
韋云真1,劉曉娟2,王 芳1,蘇建忠1,張巖1?,劉洪波1?
(1.哈爾濱醫(yī)科大學(xué)生物信息科學(xué)與技術(shù)學(xué)院,哈爾濱150081;
2.哈爾濱醫(yī)科大學(xué)附屬第一醫(yī)院康復(fù)醫(yī)學(xué)科,哈爾濱150001)
DNA甲基化是一種重要的表觀遺傳學(xué)修飾,在基因的轉(zhuǎn)錄調(diào)控方面具有重要的作用。異常的DNA甲基化可以導(dǎo)致癌癥等復(fù)雜疾病發(fā)生,癌基因相關(guān)的DNA甲基化調(diào)控位點的識別對于解析癌癥的發(fā)生發(fā)展機制及識別新的癌癥標(biāo)記具有重要意義。本研究通過整合The Cancer Genome Atlas(TCGA)的泛癌癥基因組的高通量甲基化譜和基因表達譜,識別癌基因相關(guān)的DNA甲基化調(diào)控位點。對于每種癌癥分批次計算CpG位點甲基化與相關(guān)基因表達之間的相關(guān)性,并篩選調(diào)控下游基因的CpG位點(包括強調(diào)控位點、弱調(diào)控位點和不調(diào)控位點),結(jié)果表明僅有一半的CpG位點對下游基因具有調(diào)控作用;對癌癥間共享的調(diào)控位點的分析發(fā)現(xiàn)不同癌癥間共享的調(diào)控位點不盡相同,表明癌癥特異的甲基化調(diào)控位點的存在。進一步地,對差異甲基化和差異表達基因的功能富集分析揭示了受甲基化調(diào)控的基因確實參與了癌癥發(fā)生發(fā)展相關(guān)的功能。本研究的結(jié)果是對當(dāng)前甲基化調(diào)控位點集的重要補充,也是識別癌癥新型分子標(biāo)記特征的重要資源。
DNA甲基化;基因表達;轉(zhuǎn)錄調(diào)控;癌癥
DNA甲基化是一種重要的表觀遺傳學(xué)修飾,在CpG島(DNA的CG序列密集區(qū))上發(fā)生,對調(diào)控轉(zhuǎn)錄基因具有重要的作用[1-3]。甲基化位點可隨DNA的復(fù)制而遺傳,因為DNA復(fù)制后,甲基化酶可將新合成的未甲基化的位點進行甲基化[4]。DNA的甲基化可引起基因的失活。如CpG島位于某基因的啟動子區(qū)域,CpG島的甲基化會顯著降低甚至完全沉默該基因的轉(zhuǎn)錄,繼而影響蛋白的表達。CpG島的甲基化程度越高,基因表達的程度越低。目前對于甲基化調(diào)控基因表達,以及進一步的生物學(xué)影響的研究很多[5]。然而對具體的基因,尚沒有一個完整的甲基化調(diào)控區(qū)域的圖譜。
最近幾年來,表觀遺傳學(xué)領(lǐng)域發(fā)展十分迅速。DNA甲基化修飾就是一個非常重要的部分,參與基因表達調(diào)控、轉(zhuǎn)座子沉默、X染色體失活、基因印記、以及癌癥發(fā)生等重要生物學(xué)過程[6-8]。近年來隨著研究技術(shù)和方法的進步,全基因組DNA甲基化的研究廣泛興起,很多物種的全基因組甲基化圖譜破譯了出來,DNA甲基化全局水平的研究不僅有利于宏觀層面上了解DNA甲基化的規(guī)律和特性,同時也為深入分析DNA甲基化生物學(xué)調(diào)控及功能奠定了基礎(chǔ)。如今,在當(dāng)前領(lǐng)域已經(jīng)取得了一些進展,例如發(fā)現(xiàn)了DNA甲基化酶的DNMT家族,并且對其作用機制和生理功能進行了一些研究[9-11]。甲基化與癌癥的發(fā)生有關(guān)系[12-14]。研究發(fā)現(xiàn)抑癌基因啟動子高度甲基化后,可以令這些基因表達受到抑制,同癌癥的發(fā)生有著十分密切的關(guān)系,從而研究DNA甲基化抑制劑的使用,將有助于預(yù)防人類腫瘤的發(fā)生。
基于高通量的DNA甲基化數(shù)據(jù)[15],研究DNA甲基化與基因表達之間的關(guān)系,并建立生物學(xué)測度篩選對基因表達之間的關(guān)系,篩選對基因具有調(diào)控作用的DNA甲基化區(qū)域,最后繪制基因組范圍內(nèi)參與基因調(diào)控的DNA甲基化區(qū)域。研究成果將有助于對表觀遺傳調(diào)控機制更深入理解。
1.1 材料
研究使用The Cancer Genome Atlas(TCGA)上同時具有甲基化數(shù)據(jù)和表達數(shù)據(jù)的所有27K高通量癌癥數(shù)據(jù)[16]。如表1所示,根據(jù)以上挑選條件,總計11癌癥符合條件,15套數(shù)據(jù),81個處理批次(Batch)。不同癌癥內(nèi)包含著不同的樣本數(shù)與處理批次。其中BRCA,OV與READ癌癥數(shù)據(jù)同時包含有癌癥樣本與正常樣本,如表1所示?;虮磉_數(shù)據(jù)與甲基化數(shù)據(jù)樣本數(shù)數(shù)量一致,并且是一一對應(yīng)的,基因表達部分使用level2數(shù)據(jù),level2數(shù)據(jù)內(nèi)容為探針名-取log2后的表達值。甲基化部分使用的是level3數(shù)據(jù),level3數(shù)據(jù)內(nèi)容為甲基化位點名-甲基化值。
表1 研究采用的數(shù)據(jù)Table1 Data of the research
1.2 方 法
1.2.1 數(shù)據(jù)預(yù)處理
將Methylation、Expression分批次進行數(shù)據(jù)的標(biāo)準(zhǔn)化。對于每一個甲基化位點,我們按不同的Batch計算這個甲基化位點一一對應(yīng)樣本的Methylation部分及Expression部分?jǐn)?shù)據(jù)的P值及皮爾森相關(guān)系數(shù)(PCC),進行DNA甲基化-基因調(diào)控關(guān)系定量。合并各Batch的結(jié)果并進行進一步的分析。
1.2.2 癌癥甲基化與表達值的PCC分布曲線繪制
保留皮爾森相關(guān)系數(shù)顯著(P<0.05)的CpG位點-基因?qū)?,并利用R語言里的ggplot2包進行分布曲線的繪制。
為了驗證在P值取不同閾值的情況下,PCC值的分布是否是穩(wěn)定的,取不同的顯著性P值下進行重復(fù)研究,顯著性閾值分別取P<1.0×10-2,P<1.0× 10-3,P<1.0×10-4,P<1.0×10-5,P<1.0×10-6,P<1.0×10-7。并分別繪制PCC值分布曲線圖。
1.2.3 Batch間相關(guān)性分析
使用預(yù)處理數(shù)據(jù)研究癌癥Batch間的相關(guān)性,我們進行了Batch間的相關(guān)性分析,對于每一個Batch,我們認(rèn)為P小于0.05時的PCC值是有用的,進行保留,而P值大于等于0.05時的PCC值認(rèn)為是沒有用的,將這時的PCC值更改為0。接著,將所有的P值列刪除,只保存PCC值。計算兩兩Batch間的皮爾森相關(guān)系數(shù)。用cluster進行雙向聚類。并將聚類結(jié)果用TreeView進行可視化。
1.2.4 甲基化位點與Batch相關(guān)性分析
對于每一個Batch,當(dāng)P值小于0.05時,PCC值有效,保留原值,當(dāng)P值大于等于0.05時,認(rèn)為是不顯著的,PCC值改為0。這樣,做成一張橫向為81個癌癥Batch名,縱向為25 851個甲基化cg位點的表格。通過這個表格,可以看出cg位點與每一個癌癥Batch的關(guān)系。使用cluster軟件,對這個表格進行篩選,篩選出來的甲基化位點數(shù)為2 420個。將這個橫向為81個Batch,縱向為2 420個甲基化位點的表格用cluster進行歐式距離的雙向聚類。
1.2.5 相關(guān)性數(shù)據(jù)離散化分析
對甲基化位點與Batch相關(guān)性分析做進一步分析,把PCC值分為五個區(qū)間,這五個區(qū)間分別是-1~-0.4,-0.4~-0.1,-0.1~-0.1,0.1~0.4,0.4~1.0。其中,-1~-0.4區(qū)間代表強負(fù)相關(guān);-0.4~-0.1區(qū)間代表弱負(fù)相關(guān);-0.1~0.1區(qū)間代表不相關(guān);0.1~0.4區(qū)間代表弱正相關(guān);0.4~1.0的區(qū)間,代表強正相關(guān)。按照這五個部分所占百分比做成餅圖。
1.2.6 篩選強、弱以及無相關(guān)位點-轉(zhuǎn)錄本對
篩選各癌癥強相關(guān)位點數(shù)與弱相關(guān)位點數(shù)。對于每一個位點-轉(zhuǎn)錄本對,樣本總數(shù)為N個,大于等于0.4的樣本值有X個,如果X/N大于等于0.5,則認(rèn)為該位點對癌癥是有強調(diào)控作用的;如果大于0.1的樣本值有Y個,如果Y/N大于等于0.5,則認(rèn)為該位點對癌癥是有弱調(diào)控作用的。
1.2.7 繪制綜合癌癥數(shù)據(jù)與所有單個數(shù)據(jù)的韋恩圖
將挑選出來的綜合癌癥數(shù)據(jù),以及BRCA癌癥數(shù)據(jù),GBM癌癥數(shù)據(jù),KIRC癌癥數(shù)據(jù),KIRP癌癥數(shù)據(jù)的基因轉(zhuǎn)錄本,畫韋恩圖。
1.2.8 GO注釋
將篩選出來的強相關(guān)位點,弱相關(guān)位點對應(yīng)的癌癥關(guān)聯(lián)的轉(zhuǎn)錄本,放入DAVID里進行GO注釋,查看其生物學(xué)途徑,分子功能,細胞組件。
表達數(shù)據(jù)差異篩選與甲基化數(shù)據(jù)差異篩選并進行GO注釋。在下載下來的11套數(shù)據(jù)中,其中BRCA癌癥數(shù)據(jù),OV癌癥數(shù)據(jù),READ癌癥數(shù)據(jù)中同時含有正常樣本與癌癥樣本。對這三套數(shù)據(jù),進行癌癥樣本表達數(shù)據(jù)和正常樣本表達數(shù)據(jù)的差異篩選,使用SAM方法進行差異篩選。再分別做這三套癌癥的甲基化數(shù)據(jù)的差異基因篩選。把篩選出來的差異表達數(shù)據(jù)轉(zhuǎn)錄本與差異甲基化數(shù)據(jù)轉(zhuǎn)錄本放入DAVID里進行GO注釋,查看與其相關(guān)的生物學(xué)途徑,分子功能,細胞組件,并進行GO分類富集分析。在做各癌癥GO注釋描述及GO分類富集分析的時候,認(rèn)為P-Value 及Benjiaminj值小于0.01時是顯著的。
2.1 癌癥甲基化與表達值的PCC分布
基于TCGA的高通量的泛癌DNA甲基化和基因表達譜數(shù)據(jù),我們利用皮爾森相關(guān)系數(shù)(PCC)對CpG位點對基因表達調(diào)控作用進行了定量。如圖1所示,每一條曲線代表的是一個癌癥Batch的PCC分布情況,圖中共有81條重疊曲線。在弱負(fù)相關(guān)與弱正相關(guān)處出現(xiàn)兩個峰值。當(dāng)PCC呈現(xiàn)弱負(fù)相關(guān)時,基因出現(xiàn)表達,這符合我們所說的,甲基化程度低,表達程度高,然而當(dāng)PCC值呈現(xiàn)正負(fù)相關(guān)時,也出現(xiàn)了一個峰值,但右邊的峰值略低于左邊。另外,圖1出現(xiàn)了與其他 Batch不相似的 Batch曲線,粉色?的曲線為READ_7_Bacth_1758,紫色?的曲線為OV_7_Bacth_1141數(shù)據(jù),藍色?的曲線為133_OV_1138數(shù)據(jù)。
根據(jù)選取六個不同的P值值域,畫出了六個PCC分布曲線圖,如圖2所示,在P值取不同臨界值的情況下,絕大多數(shù)癌癥Batch的PCC分布曲線沒有發(fā)生明顯的變化,個別的曲線隨著P值的變化而發(fā)生改變,這證明了PCC的分布情況是比較穩(wěn)定的。
圖1 當(dāng)P=0.05時癌癥甲基化與表達值的PCC分布Fig.1 When P=0.05,cancer methylation and exp ression of value distribution of the PCC
圖2 取不同P值情況下PCC的分布Fig.2 When P value take different cases,the distribution of the PCC
2.2 Batch間相關(guān)性分析
紅色?越深,代表著相似性越顯著。紅色?最顯著的斜對角線是每個Batch和自身的相似性,因此最為顯著。從Batch間相關(guān)性分析的聚類可以看到,圖3可視圖呈現(xiàn)出塊狀聚集的分布,處于相同癌癥中的Batch的聚類效果比較顯著。而對于不同癌癥間的Batch,聚類效果不明顯。不同癌癥之間沒有明顯的聯(lián)系。
2.3 甲基化位點與Batch相關(guān)性分析
使用 cluster進行歐式距離的雙向聚類,再用treeview進行可視化,得到圖4。紅色?的部分代表著某個位點的甲基化對該癌癥Batch有調(diào)控的作用。紅色?越深表示調(diào)控的作用越顯著。綠色?的部分代表著這個位點的甲基化對該Batch的調(diào)控不顯著。從橫向來看,分析的是這2 420個CpG位點調(diào)控著哪些癌癥Batch,從縱向來看,分析的是Batch共享哪些CpG位點的調(diào)控。由圖4可以看到,一些CpG位點顯著調(diào)控著所有的Batch,為所有癌癥所共享;一些CpG位點顯著著調(diào)控個別 Batch,而對其他的Batch調(diào)控是不顯著的,是癌癥特異的;有些CpG位點在圖上顯示對所有的Batch都沒有顯著的調(diào)控,這是27K數(shù)據(jù)一個不足的地方,位點信息仍存在著缺失。這個圖繪制了甲基化區(qū)域的調(diào)控圖譜。
圖3 Batch間相關(guān)性分析Fig.3 Correlation analysis of Batch
2.4 相關(guān)性數(shù)據(jù)離散化分析
根據(jù)強負(fù)相關(guān),弱負(fù)相關(guān),無相關(guān),弱正相關(guān),強正相關(guān)這五個部分個數(shù),畫出圖5這個餅圖。淺藍?部分為強負(fù)相關(guān)區(qū)域,橙色?部分為弱負(fù)相關(guān)區(qū)域,灰色?部分為無相關(guān)區(qū)域,黃色?部分為弱正相關(guān)區(qū)域,深藍?部分強正相關(guān)區(qū)域。從餅圖上可以很明確的看出每一個部分所占的百分比。從餅圖上可以看到大多數(shù)PCC值都是無相關(guān)的。弱相關(guān)部分遠多于強相關(guān)部分。
圖4 甲基化位點與Batch相關(guān)性分析Fig.4 Correlation analysis ofmethylation site and Batch
圖5 不同區(qū)間PCC值范圍所占百分比Fig.5 Different interval PCC percentage value range
2.5 篩選強相關(guān)、弱相關(guān)以及無相關(guān)位點-轉(zhuǎn)錄本對
對綜合了所有癌癥數(shù)據(jù)的excel表進行篩選之后,如圖6所示,在綜合了所有癌癥批次數(shù)據(jù)下挑選出來的強相關(guān)位點有186個、弱相關(guān)位點16 280個,與無相關(guān)位點25 280個。其中無相關(guān)位點占61%,是絕大多數(shù),弱相關(guān)位點占39%,而強相關(guān)位點只有186個,只有一小部分。對于單個的癌癥而言,無相關(guān)位點同樣占據(jù)了絕大多數(shù),弱相關(guān)位點多于強相關(guān)位點。
圖6 強相關(guān)位點、弱相關(guān)位點、無相關(guān)位點所占百分比Fig.6 Related sites,weak related sites,no relevant sites for percentage
2.6 繪制綜合癌癥數(shù)據(jù)與單個癌癥數(shù)據(jù)的韋恩圖
進一步我們研究了各癌癥間共享的強相關(guān)位點的數(shù)量(見圖7),可見,有些位點和其他癌癥都有關(guān)聯(lián),并不是局限于某個癌癥,為這幾個癌癥共享;有些轉(zhuǎn)錄本被若干個癌癥所共享;而有些轉(zhuǎn)錄本是癌癥特異的,只與該癌癥相關(guān),不調(diào)控其他的癌癥。例如基因Ddx43的轉(zhuǎn)錄本NM_018665,被這所有的五個數(shù)據(jù)集合共享,Ddx43與個體死亡有關(guān)。基因Dynlrb2的轉(zhuǎn)錄本NM_130897,同時被 BRCA與 KIRP共享,Dynlrb2調(diào)控動力蛋白?;騆APTM5的轉(zhuǎn)錄本NM_006762,同時被GBM與KIRC共享,LAPTM5和溶酶體multispanning膜蛋白5有關(guān)。基因kazald1的轉(zhuǎn)錄本NM_030929同時被BRCA,GBM,KIRC共享,kazald1和Kazal-type絲氨酸肽酶抑制結(jié)構(gòu)域1有關(guān)?;騍LC7A2的轉(zhuǎn)錄本NM_001008539,為BRCA所特有,SLC7A2與溶質(zhì)載體家族7有關(guān)。fgf1基因的轉(zhuǎn)錄本NM_033136,為GBM所特有,fgf1與纖維原細胞生長因子1有關(guān)?;駿PHA7的轉(zhuǎn)錄本NM_004440,為KIRC特有,EPHA7與EPH受體7有關(guān)?;騍ERPINE2的轉(zhuǎn)錄本NM_006216,為KIRP特有,SERPINE2與serpin肽酶抑制劑有關(guān)。分別研究調(diào)控所有數(shù)據(jù)的癌癥基因,以及癌癥特異的基因。
圖7 綜合癌癥數(shù)據(jù)、BRCA、GBM、KIRC、KIRP數(shù)據(jù)韋恩圖Fig.7 Comprehensive cancer data,BRCA,GBM,KIRC,KIRP for venn
2.7 篩選強、弱以及無相關(guān)位點-轉(zhuǎn)錄本對
篩選出所有單個癌癥數(shù)據(jù)及所有綜合數(shù)據(jù)的符合條件的弱相關(guān)位點對、強相關(guān)位點對以及無相關(guān)位點對。在所有癌癥中強相關(guān)位點數(shù)有186個,弱相關(guān)位點數(shù)16 280個。
表2 篩選出的各癌癥強相關(guān)位點數(shù)與弱相關(guān)位點數(shù)Table 2 Select all the cancer related points and weak related points
2.8 篩選強相關(guān)位點、弱相關(guān)位點的甲基化與表達數(shù)據(jù)的差異位點數(shù)
篩選強相關(guān)位點、弱相關(guān)位點的甲基化與表達數(shù)據(jù)的差異位點數(shù),在表達數(shù)據(jù)里差異表達的位點數(shù),在甲基化數(shù)據(jù)里也是差異的。
表3 強相關(guān)位點、弱相關(guān)位點的甲基化差異位點數(shù)與表達數(shù)據(jù)差異位點數(shù)Table 3 M ethylation and expressing differences sites of strong related sites and weak related sites
2.9 各癌癥GO注釋描述及GO分類富集分析
對有癌癥樣本與正常樣本的三套癌癥數(shù)據(jù)進行表達數(shù)據(jù)的差異篩選。其中乳腺癌強相關(guān)表達數(shù)據(jù)差異位點數(shù)為77個,弱相關(guān)表達數(shù)據(jù)差異位點數(shù)為4 731個;卵巢癌強相關(guān)表達數(shù)據(jù)差異位點數(shù)為54個,弱相關(guān)表達數(shù)據(jù)差異位點數(shù)為1 000個;直腸癌強相關(guān)表達數(shù)據(jù)差異位點數(shù)為97個,弱相關(guān)表達數(shù)據(jù)差異位點數(shù)為3 583個。從基因?qū)用娣治龈鱾€癌癥的轉(zhuǎn)錄本,將癌癥轉(zhuǎn)錄本以癌癥為單位放入DAVID中進行GO注釋描述、GO分類富集分析。
如表4所示,BRCA癌癥里有4 808個轉(zhuǎn)錄本,READ癌癥里有3 680個轉(zhuǎn)錄本,OV癌癥有1 026個轉(zhuǎn)錄本。對乳腺癌癌癥在生物學(xué)過程BP_1層面的GO注釋,發(fā)現(xiàn)乳腺癌表達數(shù)據(jù)轉(zhuǎn)錄本富集在細胞過程等基本生物學(xué)過程上(P,Benjamini<0.01),除此之外,可以看到這些基因轉(zhuǎn)錄本對乳腺癌癌癥有發(fā)育的作用,影響癌細胞的增殖;使得癌細胞有附著力,能附著在組織或者器官上;影響著再增殖的過程,使得癌細胞無限繁殖繼而繼續(xù)生長;富集的基因有能使癌細胞移動的能力,使得癌細胞擴散到其他組織中,并且會導(dǎo)致死亡等。
如表5所示,對于卵巢癌癌癥表達數(shù)據(jù)在生物學(xué)過程BP_2層面的GO注釋(P,Benjamini<0.01),發(fā)現(xiàn)卵巢癌癌癥表達數(shù)據(jù)集合不僅分別富集在細胞周期,細胞分裂,細胞凋亡等功能上,而且有些基因?qū)ι飳W(xué)過程,細胞過程有負(fù)調(diào)控作用。一些基因注釋在細胞擴散的功能上,解釋了卵巢癌癌癥癌癥細胞在病人身上發(fā)生擴散和轉(zhuǎn)移的現(xiàn)象。在表中,還可以看到有些基因注釋為刺激細胞產(chǎn)生反應(yīng),也就是說當(dāng)癌癥發(fā)生時,這些基因的作用為刺激癌細胞,使得癌細胞產(chǎn)生各種機體反應(yīng)。
表4 BRCA癌癥在BP_1層面的GO注釋描述Table 4 GO annotation description of BRCA in BP_1
表5 OV癌癥在BP_2層面的GO注釋描述Table 5 GO annotation description of OV in BP_2
對于直腸癌癌癥表達癌癥在生物學(xué)過程BP_1層面的GO注釋(P,Benjamini<0.01),可以看到直腸癌表達數(shù)據(jù)基因集合注釋在生長,增值的功能上,在富集基因的作用下,促進癌細胞不斷增值,發(fā)育。注釋在粘附的功能上,使得癌細胞粘附在器官或組織上,得以進一步的分裂,增值,又可以看到,癌細胞增長的同時,機體對刺激發(fā)生了反應(yīng),又促進了免疫學(xué)的過程。注釋在運動的功能上,這些富集基因的功能促進了癌細胞的轉(zhuǎn)移和擴散到其他器官和組織上。
3.1 結(jié)論
本研究通過整合TCGA的泛癌癥基因組的高通量甲基化譜和基因表達譜,識別癌基因相關(guān)的DNA甲基化調(diào)控位點;結(jié)果表明僅有一半的CpG位點對下游基因具有調(diào)控作用;且存在癌癥特異的甲基化調(diào)控位點;并揭示這些位點調(diào)控的基因確實參與了癌癥發(fā)生發(fā)展相關(guān)的功能。
3.2 討論
不同癌癥Batch的PCC值分布曲線是相似的并且穩(wěn)定,但是在直腸癌與卵巢癌里有3套Batch的PCC分布曲線出現(xiàn)異常,這可能是數(shù)據(jù)量過少或者數(shù)據(jù)不完善的原因造成的。
癌癥的強相關(guān)位點數(shù)量遠小于弱相關(guān)位點,并且大部分的位點是無相關(guān)的,這代表在27 K芯片測的啟動子區(qū)域數(shù)據(jù)是有許多遺漏的,仍需完善。研究分析可知,有一些位點穩(wěn)定的調(diào)控著所有的癌癥,與所有的癌癥都有這關(guān)聯(lián)。有些位點是癌癥特異的,只與這些癌癥有關(guān)聯(lián),可以進一步分析這些啟動子區(qū)域的位點是如何影響這些癌癥的發(fā)生。有些位點與若干個癌癥相關(guān)聯(lián),有的位點沒看出對其他癌癥有調(diào)控作用。
被所有癌癥共享的基因很少,而癌癥的發(fā)生往往不是只受到一個基因的影響,而是分別由幾個基因共同作用而產(chǎn)生的。同時癌癥也也受到特異的基因的影響。后續(xù)研究可以分別挑選這些不同類別基因進行研究。
通過將篩選出的癌癥差異基因,放入DAVID中,做以癌癥為單位的三套癌癥表達數(shù)據(jù)的GO注釋,得出結(jié)論,這些篩選出來的差異基因在生物學(xué)過程上,確實是與各癌癥有著密切的關(guān)聯(lián)。本研究的結(jié)果是對當(dāng)前甲基化調(diào)控位點集的重要補充,也是識別癌癥新型分子標(biāo)記特征的重要資源。
(
)
[1] JONESP A.Functions of DNAmethylation:islands,start sites,gene bodies and beyond[J].Nature Reviews Genet?ics,2012,13(7):484-492.
[2] FAN G.DNA methylation and its basic function[J].Neu?ropsychopharmacology Reviews,2012,38(1):23-38.
[3] SHAMESD S.DNA methylation in health,disease,and cancer[J].CurrentMolecular Medicine,2007,7(1):85-102(18).
[4] DAY J J,SWEATT JD.DNA methylation and memory formation[J].Nature Neuroscience,2010,13(11):1319-1323.
[5] WU H,ZHANG Y.Reversing DNA methylation:mecha?nisms,genomics,and biological functions[J].Cell,2014,156:45-68.
[6] REA M,ZHENGW,CHEN M,et al.Histone H1 affects gene imprinting and DNA methylation in Arabidopsis[J]. Plant Journal,2012,71(5):776-786.
[7] ZALA D,HINCKELMANN M V,YU H,et al.Vesicular glycolysis provides on?board energy for fast axonal trans?port[J].Cell,2013,152(3):479-491.
[8] SUN H S,KENNEDY P J,NESTLER E J.Epigenetics of the depressed brain:role ofhistone acetylation andmethy?lation[J].Neuropsychopharmacology Official Publication of the American College of Neuropsychopharmacology,2013,38(1):124-137.
[9] LRY T J,LID,WALTER M J,et al.DNMT3A muta?tions in acutemyeloid leukemia[J].New England Journal of Medicine,2010,363(25):2424-2433.
[10]RUSICIO A D,EBRALIDZE A K,BENOUKRAF T,et al.DNMT1?interacting RNAs block gene?specific DNA methylation[J].Nature,2013,503(7476):371-376.
[11]GUO X,WANG L,LIJ,et al.Structural insight into au?toinhibition and histone H3?induced activation of DNMT3A [J].Nature,2015,517(7536):640-644.
[12]COPPIETERSN,DIERIKS B V,LILL C,et al.Global changes in DNA methylation and hydroxymethylation in Alzheimer′s disease human brain[J].Neurobiology of Ag?ing,2014,35:1334-1344.
[13]AKHAVAN?NIAKIH,SAMADANI A A.DNA methyla?tion and cancer development:molecular mechanism[J]. Cell Biochemistry&Biophysics,2013,67(2):501-513. [14]ARAND,SABATOS,HELLMAN A.DNAmethylation of distal regulatory sites characterizes dysregulation of cancer genes[J].Genome Biology,2013,14(3):2242-2254.
[15]RICKETTSC J,MORRIS M R,GENTLES D,et al. Methylation profiling and evaluation of demethylating ther?apy in renal cell carcinoma[J].Clinical Epigenetics,2013,5(1):16-16.
[16]BAEK S J,YANG S,KANG TW,et al.MENT:Methyl?ation and expression database of normal and tumor tissues [J].Genes,2013,518(1):194-200.
Identification of cancer DNA methylation regulatory sites
WEIYunzhen1,LIU Xiaojuan2,WANG Fang1,SU Jianzhong1,ZHANG Yan1?,LIU Hongbo1?
(1.College of Bioinformatics Science and Technology,Harbin Medical University,Harbin 150081,China;
2.Department ofRehabilitation,The First Affiliated Hospital ofHarbin Medical University,Harbin 150001,China)
DNA methylation is an important epigenetic modification,which plays an important role in the regulation of gene transcription.Abnormal DNA methylation may lead to cancer and disease,and identifying oncogene?related DNA methylation gene regulatory sites is important for the development ofmechanisms to resolve the occurrence of cancer and identify new cancermarkers.In this study,we integrate high?throughput DNA methylation profiling and gene expression profiling of pan?cancer genome in TCGA,then identify oncogene?related DNA methylation regulation sites.For each cancer,we calculate the correlation betweenmethylation of CpG sites and gene expression,and filter the CpG sites,which regulate downstream genes(including strong regulatory sites,weak regulatory sites and not regulatory sites).The results show thatonly half of the CpG sites regulate the downstream genes.Analyzing of regulatory sites that is shared between cancers show that regulatory sites are not necessarily the same in different cancer,and the presence of cancer?specificmethylation regulatory sites.Moreover,gene function enrichmentanalysis of differential DNA methylation and differentially expressed genes show that genes regulated by methylation are indeed involved in the development of cancer?related functions.The results of this study are an important supplementation to the current DNA methylation regulatory sites set,and an important resource to identify new molecularmarkers characteristics of cancer.
DNA methylation;Gene expression;Transcriptional regulation;Cancer
R73;Q7
B
1672-5565(2015)03-170-09
2015-05-27;
2015-07-20.
國家自然科學(xué)基金項目(61403112,31371334)。
韋云真,女,本科生,研究方向:計算表觀遺傳學(xué);E?mail:weiyunzhen@yeah.net.
?
張巖,女,教授,研究方向:計算表觀遺傳學(xué)、生物信息學(xué);E?mail:tyozhang@ems.hrbmu.edu.cn;劉洪波,男,講師,研究方向:計算表觀遺傳學(xué)、生物信息學(xué);E?mail:hongbo919@gmail.com.