冀夢蝶,苑 贊,卞曉翠,楊玉容,郭 鑫,王 琦,陳 陽*
1.中國醫(yī)學(xué)科學(xué)院基礎(chǔ)醫(yī)學(xué)研究所 北京協(xié)和醫(yī)學(xué)院基礎(chǔ)學(xué)院 生物化學(xué)與分子生物學(xué)系醫(yī)學(xué)分子生物學(xué)國家重點(diǎn)實驗室,北京 100005;2.華中農(nóng)業(yè)大學(xué) 信息學(xué)院 農(nóng)業(yè)生物信息湖北省重點(diǎn)實驗室,湖北 武漢 430070
肝癌是中國和世界范圍內(nèi)常見的惡性腫瘤之一。據(jù)國際癌研究機(jī)構(gòu)(IARC)統(tǒng)計,2020年全球有近83萬人死于肝癌,并且每年確診肝癌以及因此死亡的人數(shù)預(yù)計將增長55%以上。中國是肝癌大國,肝癌負(fù)擔(dān)占全球一半以上[1],已嚴(yán)重威脅到中國國民的生命健康。
拷貝數(shù)變異(copy number variation, CNV)指的是基因拷貝數(shù)目的改變,可通過基因劑量效應(yīng)直接改變所在基因的表達(dá)水平,或通過染色質(zhì)構(gòu)象改變引起的位置效應(yīng)調(diào)控遠(yuǎn)處基因表達(dá),以及通過基因融合或斷裂效應(yīng)阻礙基因的表達(dá)[2],因此可導(dǎo)致癌基因的激活和抑癌基因的失活[3]。研究表明,CNV的重復(fù)或缺失會影響基因的表達(dá)和癌相關(guān)的生物學(xué)過程[2]。
隨著近些年測序技術(shù)的快速發(fā)展,被鑒定發(fā)現(xiàn)的CNV數(shù)量越來越多。基于CNV和基因表達(dá)譜的關(guān)聯(lián)分析,使研究者可以在分子水平上進(jìn)一步了解肝癌發(fā)生發(fā)展相關(guān)的分子機(jī)制,從而有利于肝癌的分型、診斷、預(yù)后及靶向治療藥物的設(shè)計等。本文利用Bionano光學(xué)基因組圖譜(optical genome mapping, OGM)技術(shù)解析肝細(xì)胞癌基因組的大片段CNV,并結(jié)合肝細(xì)胞癌轉(zhuǎn)錄組和臨床表達(dá)數(shù)據(jù)分析肝細(xì)胞癌拷貝數(shù)變異對基因表達(dá)、肝癌患者預(yù)后的影響。
1.1.1 細(xì)胞系:人肝細(xì)胞癌細(xì)胞系HepG2、Huh7(中國醫(yī)學(xué)科學(xué)院基礎(chǔ)醫(yī)學(xué)研究所細(xì)胞資源中心)。
1.1.2 試劑及試劑盒:光學(xué)基因組圖譜技術(shù)建庫試劑盒(Bionano Prep SP DNA Isolation Kit);DNA定量試劑盒(Qubit? HS dsDNA Assay Kit);DLE-1酶RNA提取試劑(Invitrogen Trizol Reagent);RNA-seq建庫試劑盒(VAHTS Universal V6 RNA seq Library Prep Kit for Illumina?)。
1.1.3 公共數(shù)據(jù):肝細(xì)胞癌臨床生存數(shù)據(jù)來源于GEPIA數(shù)據(jù)庫(http://gepia.cancer-pku.cn/);HEK293T基因表達(dá)數(shù)據(jù)來源于NCBI GEO數(shù)據(jù)庫(GSE203529)。
1.2.1 光學(xué)基因組圖譜DNA文庫構(gòu)建:將HepG2、Huh7細(xì)胞分別培養(yǎng)到2.5×106cell/mL后,裂解和消化細(xì)胞,通過納米結(jié)合盤結(jié)合、洗滌和洗脫程序提取基因組DNA(genomic DNA, gDNA),用DLE-1酶對gDNA進(jìn)行序列特異性標(biāo)記,對標(biāo)記的DNA染色以顯示其主干,Qubit熒光儀對gDNA定量后上機(jī)測序。
1.2.2 RNA-seq實驗檢測:將HepG2、Huh7細(xì)胞分別培養(yǎng)到1×106cell/mL,Trizol裂解細(xì)胞,poly-T低聚吸附磁珠純化mRNA后,分解成短片段,再合成雙鏈cDNA,對cDNA進(jìn)行末端修復(fù)、加尾、連接測序接頭,最后通過片段選擇和PCR富集得到最終的cDNA文庫,用于上機(jī)測序。
1.3.1 拷貝數(shù)變異的分析:數(shù)據(jù)比對到hg38參考基因組后上傳到線上分析軟件(Access 1.7 Standalone),導(dǎo)出拷貝數(shù)變異位點(diǎn)。由于算法是按照500bp為一個單位來識別CNV,為了最大程度保留真實的CNV,按照confidence 0.99、size 500 bp過濾數(shù)據(jù),confidence越高可信度越高越真實。
1.3.2 拷貝數(shù)變異基因功能的分析:DAVID[4](https://david.ncifcrf.gov/tools.jsp)數(shù)據(jù)庫對拷貝數(shù)變異基因進(jìn)行KEGG分析,分析結(jié)果使用Sangerbox3.0[5](http://sangerbox.com/home.html)工具繪圖。
1.3.3 蛋白質(zhì)相互作用網(wǎng)絡(luò)的分析:分別取兩種細(xì)胞系KEGG分析的前5條富集通路的基因,用String[6](https://string-db.org/)生成蛋白質(zhì)相互作用關(guān)系(protein-protein interaction, PPI)網(wǎng)絡(luò),置信度為0.9,導(dǎo)入到cytoscape軟件中,利用Network Analyser對網(wǎng)絡(luò)中的各個節(jié)點(diǎn)進(jìn)行分析,得到各個節(jié)點(diǎn)的節(jié)點(diǎn)度(degree)值。用節(jié)點(diǎn)的面積大小和顏色深淺以degree值表示,節(jié)點(diǎn)面積越大,顏色越深,degree值越大,并選擇Attribute Circle Layout對所有的蛋白節(jié)點(diǎn)進(jìn)行排布。
1.3.5 臨床預(yù)后的分析:從蛋白質(zhì)相互作用網(wǎng)絡(luò)中選取節(jié)點(diǎn)度前15的基因,使用GEPIA[7](http://gepia.cancer-pku.cn/)數(shù)據(jù)庫分析基因表達(dá)與肝癌患者預(yù)后的關(guān)系。
在HepG2細(xì)胞系中總計觀測到84個功能獲得型CNV和1個功能缺失型CNV(圖1A,1C)。對主要CNV的染色體分布情況進(jìn)行統(tǒng)計,包括CNV的染色體覆蓋區(qū)域、平均拷貝數(shù)及拷貝數(shù)變異類型(表1)。其中2、6、11、14、16、17、20號染色體出現(xiàn)較多的拷貝數(shù)增加;5號染色體出現(xiàn)拷貝數(shù)減少,且覆蓋范圍不到1M。
A.circos plot of CNV in HepG2 cells; B.circos plot of CNV in Huh7 cells; C.chromosome distributions of CNV numbers in HepG2 cells; D.chromosome distributions of CNV numbers in Huh7 cells.圖1 肝細(xì)胞癌全基因組拷貝數(shù)變異圖譜Fig 1 Genome-wide copy number variation map of hepatocellular carcinoma
表1 HepG2細(xì)胞系主要CNV的染色體分布Table 1 Chromosome distribution of main CNVs in cell line HepG2
在Huh7細(xì)胞系染色質(zhì)中觀測到更多拷貝數(shù)變異情況(圖1B,1D),總計259個功能獲得型CNV和141個功能缺失型CNV,對每條染色體主要的CNV分布情況進(jìn)行統(tǒng)計(表2)。該細(xì)胞系拷貝數(shù)變異的主要特征是:1、3、4、5、6、9、11、12號染色體既有拷貝數(shù)增加,又有拷貝數(shù)缺失;2、7、8、17、19、20號染色體主要出現(xiàn)拷貝數(shù)增加,10、13、14、15、18、23號染色體主要出現(xiàn)拷貝數(shù)缺失。
表2 Huh7細(xì)胞系主要CNV的染色體分布Table 2 Chromosome distribution of main CNVs in cell line Huh7
HepG2和Huh7細(xì)胞系共有4 711個相同的拷貝數(shù)變異基因,2 854個HepG2特異的拷貝數(shù)變異基因,15 789個Huh7特異的拷貝數(shù)變異基因(圖2A)。HepG2細(xì)胞系中拷貝數(shù)變異基因呈現(xiàn)了5條富集的關(guān)鍵通路(圖2B),包括雌激素信號通路、金黃色葡萄球菌感染、Th17細(xì)胞分化、抗原處理和呈遞、1型糖尿病;Huh7細(xì)胞系中拷貝數(shù)變異基因呈現(xiàn)了5條富集的關(guān)鍵通路(圖2C),包括嗅覺傳導(dǎo)、細(xì)胞因子-細(xì)胞因子受體相互作用、酒精性肝病、RIG-Ⅰ樣受體信號通路、丙酮酸代謝。
A.overlap of copy number variation genes in HepG2 and Huh7 cells; B.KEGG analysis of copy number variation genes in HepG2 cells;C.KEGG analysis of copy number variation genes in Huh7 cells.圖2 HepG2和Huh7細(xì)胞系拷貝數(shù)變異基因的功能分析Fig 2 Functional analysis of copy number variation genes in HepG2 and Huh7 cells
在蛋白質(zhì)相互作用網(wǎng)絡(luò)中,節(jié)點(diǎn)表示網(wǎng)絡(luò)中的單元,而邊表示單元之間的相互作用。具有高節(jié)點(diǎn)度的點(diǎn)往往充當(dāng)網(wǎng)絡(luò)不同部分之間的橋梁, 因此可能在網(wǎng)絡(luò)的整體組成中起重要作用。HepG2細(xì)胞中,PPI原始網(wǎng)絡(luò)主要由92個節(jié)點(diǎn)和333條邊組成,節(jié)點(diǎn)度前25個基因組成了PPI網(wǎng)絡(luò)的核心模塊(圖3A),其網(wǎng)絡(luò)由25個節(jié)點(diǎn)和123條邊組成,均為拷貝數(shù)增加的基因。
A.protein interaction network in HepG2 cells; B.protein interaction network in Huh7 cells.圖3 蛋白質(zhì)相互作用網(wǎng)絡(luò)Fig 3 Protein interaction network
Huh7細(xì)胞中,PPI原始網(wǎng)絡(luò)主要由253個節(jié)點(diǎn)和981條邊組成。節(jié)點(diǎn)度前50個基因組成PPI網(wǎng)絡(luò)的核心模塊(圖3B),其網(wǎng)絡(luò)由50個節(jié)點(diǎn)和351條邊組成,其中23個是拷貝數(shù)減少的基因,27個是拷貝數(shù)增加的基因。
本文也分別展示了兩細(xì)胞系PPI網(wǎng)絡(luò)核心基因的節(jié)點(diǎn)度(degree)和中介中心性(betweenness centrality)(表3,表4),顯示了網(wǎng)絡(luò)中每個基因的2種拓?fù)湫再|(zhì),可以很好地反映每個基因在網(wǎng)絡(luò)中的重要性。度或中介中心性越高,基因在網(wǎng)絡(luò)中的作用越重要。
表3 HepG2細(xì)胞PPI網(wǎng)絡(luò)基因核心的節(jié)點(diǎn)度Table 3 Degree of the PPI network hub gene in HepG2 cells
表4 Huh7細(xì)胞PPI網(wǎng)絡(luò)基因核心的節(jié)點(diǎn)度Table 4 Degree of the PPI network hub gene in Huh7 cells
兩個細(xì)胞的核心網(wǎng)絡(luò)中有3個基因不僅表達(dá)量和拷貝數(shù)正相關(guān),還與臨床預(yù)后相關(guān),包括原癌基因SRC、編碼MAP激酶家族成員MAPK3、絲氨酸/蘇氨酸蛋白激酶MAP3K7。
其中編碼酪氨酸蛋白激酶的原癌基因SRC[8],在兩個細(xì)胞系中拷貝數(shù)均增加。而MAPK3、MAP3K7分別僅在HepG2和Huh7拷貝數(shù)增加。RNA-seq實驗結(jié)果顯示,SRC(圖4A)、MAP3K7(圖4C)在HepG2和Huh7細(xì)胞系中mRNA水平均顯著高于HEK293T,提示了肝細(xì)胞癌的特異性變異,MAPK3(圖4B)無差異。同時,SRC(圖4D)、MAPK3(圖4E)、MAP3K7(圖4F)這3個基因在肝癌患者的高表達(dá)均與患者生存期顯著相關(guān)。
A-C.expression levels of SRC, MAPK3 and MAP3K7 mRNA in HEK293T(n=3), HepG2(n=4) and Huh7(n=4) (*P<0.001 compared with HEK293T); D-F.prognostic correlation of SRC, MAPK3 and MAP3K7 in hepatocellular carcinoma patients (P<0.05 compared with low expression).圖4 關(guān)鍵基因表達(dá)和臨床生存曲線Fig 4 Hub gene expression and clinical survival curve
編碼酪氨酸蛋白激酶的原癌基因SRC[8],在兩個細(xì)胞系中拷貝數(shù)均增加,該基因是目前研究最深入的癌基因之一,可以調(diào)控癌細(xì)胞的增殖、遷移、侵襲和分化參與腫瘤的惡性發(fā)展[9]。在HCC組織中,該基因編碼的蛋白質(zhì)c-Src表達(dá)顯著升高,促進(jìn)肝細(xì)胞癌的生長和腫瘤發(fā)生,并與患者生存成負(fù)相關(guān)[10],研究結(jié)果與GEPIA數(shù)據(jù)庫中結(jié)果一致。該基因的拷貝數(shù)增加,可能提示了肝癌的一致性變異。
MAPK3、MAP3K7分別僅在HepG2和Huh7拷貝數(shù)增加。MAPK/ERK信號通路在信號級聯(lián)中發(fā)揮重要作用,調(diào)節(jié)響應(yīng)各種細(xì)胞外信號[11],如增殖、分化和細(xì)胞周期進(jìn)程。在已確定的HCC相關(guān)信號通路中, MAPK/ERK信號通路是HCC發(fā)展中最關(guān)鍵的通路之一[12]。MAP3K7主要通過TGF β及TAK1結(jié)合蛋白調(diào)節(jié)炎性反應(yīng)、細(xì)胞分化和凋亡[13]。它們可能揭示了肝細(xì)胞癌的細(xì)胞特異性變異。
其中,拷貝數(shù)變異基因SRC、MAP3K7的基因表達(dá)與患者的預(yù)后顯著相關(guān),不僅支持這兩個基因在肝細(xì)胞癌研究中的關(guān)鍵作用,也揭示了拷貝數(shù)變異對于肝癌的發(fā)展和異質(zhì)性的重要影響。因此,研究結(jié)果為尋找肝細(xì)胞癌生物標(biāo)志物提供了實驗和數(shù)據(jù)支持,對肝癌拷貝數(shù)變異的深入探索將有機(jī)會促進(jìn)肝細(xì)胞癌發(fā)生發(fā)展分子機(jī)制的研究。