王麗飛 王東昌 閆振鋒 岳紅云 陳 剛
圖1 數(shù)據(jù)的質(zhì)量分析
據(jù)世界衛(wèi)生組織國際癌癥研究中心(international agency for research on cancer, IARC)統(tǒng)計,最新報道2012年數(shù)據(jù),肺癌是危害人類健康與生命的第一位腫瘤,肺癌的5年患病人數(shù)為491 223[1]。多數(shù)肺癌患者發(fā)現(xiàn)時已處于晚期[2],隨著高通量測序技術(shù)[3-4]的發(fā)展,為快速研究肺癌的基因表達譜的關(guān)鍵基因變化規(guī)律提供了良好的平臺,利用該項技術(shù)積極尋找該疾病的發(fā)病機制對于人類有極其重大意義。本研究主要通過對不同類型的癌細胞的基因進行篩選,通過對差異基因的生物學(xué)功能及信號通路分析研究,探討差異基因之間的相互作用,為臨床提供更多的理論基礎(chǔ)。
1.材料 生物信息分析數(shù)據(jù)GSE70540 ID:200070540,數(shù)據(jù)來自于NCBI(美國國立生物信息中心)公共數(shù)據(jù)平臺(gene expression omnibus, GEO)數(shù)據(jù)庫,數(shù)據(jù)研究類型為Expression profiling by array,種屬為homo sapiens, 芯片平臺為GPL570。該芯片數(shù)據(jù)包括3例過表達超保守區(qū)的肺癌細胞A549,3例空載體轉(zhuǎn)染的肺癌細胞的陣列數(shù)據(jù)。
2.數(shù)據(jù)處理及差異基因分析 對原始數(shù)據(jù)集使用R軟件包進行數(shù)據(jù)處理,通過RMA算法對原始數(shù)據(jù)進行背景校正、標(biāo)準(zhǔn)化及表達值進行計算。差異基因的篩選需要滿足P<0.05及Log2≥1。
3.差異表達基因的生物信息學(xué)分析 生物信息數(shù)據(jù)注釋數(shù)據(jù)庫(database for annotation, visualization and integrated discover, DAVID)是一個在線的(https://david.ncifcrf.gov/)生物信息分析的工具,可將大批基因及蛋白信息進行綜合的生物信息功能注釋。通過將差異基因上傳后進行腫瘤學(xué)富集(gene ontology, GO)[5]及通路富集(kyoto encyclopedia of genes and genomes, KEGG)[6]分析。以P<0.05和FDR<0.05設(shè)置為具有顯著性基因富集的臨界值。
4. 差異基因的相互作用分析 應(yīng)用已知或預(yù)測的蛋白質(zhì)相互作用數(shù)據(jù)形成的數(shù)據(jù)庫STRING 10.0(Search Tool for Retrieval of Interacting Genes/Proteins)[7],它包括直接及間接的蛋白之間進行相互作用的分析。最后使用Cytoscape軟件[8]構(gòu)建蛋白與蛋白之間相互作用(protein-protein interaction, PPI)的網(wǎng)絡(luò)分析,數(shù)據(jù)設(shè)置條件為評分>0.4。
1.對數(shù)據(jù)基本情況進行評價 對下載數(shù)據(jù)進行質(zhì)量控制的要求是:①基因中位數(shù)值至少發(fā)生2倍的改變;②基因表達量的差異需要P<0.02;③.數(shù)據(jù)的缺失值不得<50%。該數(shù)據(jù)的標(biāo)本質(zhì)量控制顯示的RLE在同一水平線,RNA降解圖,權(quán)重圖、權(quán)重符號圖、殘差圖顯示圖像均勻,表明該檢測標(biāo)本的穩(wěn)定性及質(zhì)量均在較好的范圍,因此解析的數(shù)據(jù)具有可分析性(圖1)。
2. 對差異基因進行篩選結(jié)果 通過對慢病毒過表達超超保守區(qū)399的A549細胞及空載體細胞進行差異基因進行篩選,共有230個差異表達基因(肺癌A549細胞),其中上調(diào)基因217個,下調(diào)基因13個(圖2),使用R語言將差異基因做熱圖(綠色代表低表達,紅色代表高表達)。
圖2 差異基因熱圖分析
表1 過表達超保守區(qū)399后A549細胞的上調(diào)的基因GO分析
表2 過表達超保守區(qū)399后A549細胞的上調(diào)的基因KEGG通路分析
3.差異基因GO分析結(jié)果 使用DAVID網(wǎng)站對上調(diào)基因及下調(diào)基因進行GO富集分析,分析結(jié)果顯示:上調(diào)的基因主要位于胞外區(qū)、細胞外間隙,主要參與細胞應(yīng)激反應(yīng)方面的功能;下調(diào)的差異基因較少無法進行GO分析。部分上調(diào)基因GO結(jié)果見表1。
4. KEGG信號通路分析 通過KEGG分析富集得到差異基因最顯著的上調(diào)的差異基因所在的信號通路。上調(diào)的主要在化學(xué)致癌、藥物代謝的細胞色素P450、視黃醇的代謝等通路上發(fā)揮作用,而下調(diào)的基因因個數(shù)較少無法進行KEGG分析,部分上調(diào)基因KEGG通路見表2。
5.蛋白質(zhì)相互作用的模塊分析 蛋白相互作用依賴于STRING網(wǎng)站對數(shù)據(jù)進行篩選得出最終結(jié)果,在其中篩選出居于前10位的核心基因的蛋白質(zhì),主要是CFH、MUC5B、PTGS2、LRRK2等(圖3)。
圖3 差異蛋白相互作用示意圖
在腫瘤研究中心的機制探討過程中,有多種實驗方法。近年來生物芯片技術(shù)的廣泛應(yīng)用使得腫瘤研究擁有了一個更大平臺。生物芯片主要從基因的差異,基因的轉(zhuǎn)錄表達與調(diào)控、表觀遺傳學(xué)和蛋白質(zhì)修飾等不同方面,揭示腫瘤的發(fā)生發(fā)展及在參與過程提供了平臺[9]。因此我們可以在宏觀上定量分析的方式了解腫瘤發(fā)生發(fā)展中的基因水平變化,從而更有目的對腫瘤的基因進行分析。在這些基因之上對腫瘤基因表達譜進行收集整理,形成腫瘤表達譜,并對這些數(shù)據(jù)進行有效的整理和分析。在此當(dāng)中挖掘有利于研究的信息及知識,因此來推進腫瘤學(xué)的研究及臨床的防治策略。我們采用對GO數(shù)據(jù)庫進行分析下載,對該芯片進行檢測后,采用分子生物學(xué)研究方法、手段、聯(lián)合細胞水平的分析,取得相應(yīng)的數(shù)據(jù)結(jié)果。
本研究是通過使用GEO平臺,對慢病毒轉(zhuǎn)染的高度超保守區(qū)399及空載體的A549細胞進行差異基因進行分析?;虻谋J匦蛄?conserved sequence)[10]是指具有高度相似性或同一性的分子序列,該序列包括核酸序列及蛋白質(zhì)序列。這些序列是來自不同物種的但是具有高的相似性的片段,在物種的進化過程中保守下來。一些研究者認為保守序列的基因區(qū)域若是發(fā)生突變可能導(dǎo)致生命體的死亡或者是淘汰。而高度超保守區(qū)的序列可能具有一定的功能價值。目前關(guān)于高度保守的片段研究還不清楚。
本研究通過對GEO的數(shù)據(jù)進行分析,在過表達超保守區(qū)后,出現(xiàn)了差異表達的基因,最終篩選出271個表達上調(diào)的基因及13個表達下調(diào)的基因。與正常肺腺癌相比上調(diào)基因主要有HLA-DMB、CORO2A、C4BPA、ST6GALNAC1、ANXA13、PRR15、CYTIP、ADH1C、PYCARDOS、SLC27A3、KIR2DS3等基因。
通過GO分析,該研究發(fā)現(xiàn)在上調(diào)的差異基因中主要涉及血管內(nèi)皮的調(diào)節(jié)、生長,補體的激活免疫系統(tǒng),炎癥介質(zhì)的反應(yīng)等生物過程。血管內(nèi)皮的調(diào)節(jié)是一類與癌癥的發(fā)生、生長、轉(zhuǎn)移有廣泛關(guān)系的因素。Goel等[11]研究證明, 血管內(nèi)皮生長因子不僅是在癌癥中促進血管再生及增加血管的通透性,而且在腫瘤的發(fā)生上起到一定的促進作用。Yamagishi等[12]研究證明, 生長因子可以提高結(jié)腸癌的惡性程度。本研究發(fā)現(xiàn)過表達超保守區(qū)后細胞內(nèi)存在差異基因并在該通路上進行富集,因此我們可以推測在人肺腺癌中過表達的超保守區(qū)可以促進癌癥的進一步發(fā)展和惡化。
KEGG通路分析的結(jié)果表明,差異基因中的信號通路與化學(xué)致癌有一定的關(guān)系?;瘜W(xué)致癌是DNA的雙鏈之間發(fā)生了互補堿基的移碼突變。與該機制相關(guān)的KEGG通路分析主要有7個相關(guān)的基因。目前關(guān)于化學(xué)致癌的研究已有一定的數(shù)據(jù)但其主要方向是關(guān)于化學(xué)致癌物的研究,如WTO的關(guān)于低劑量化學(xué)致癌物的相關(guān)研究報道[13]。關(guān)于其機制的研究目前較少,本研究數(shù)據(jù)在化學(xué)致癌相關(guān)的通路上進行了一定的分析,可為未來化學(xué)致癌提供一定的方向。
綜上所述本研究通過使用多個基因分析的軟件進行生物信息學(xué)數(shù)據(jù)的篩選、整合、挖掘機分析,探索了超保守區(qū)域過表達后對癌基因的影響。分析出相關(guān)的超保守區(qū)癌細胞過表達后差異基因,對其進行GO、KEGG等分析推測出可能相關(guān)的基因和通路,為肺癌的超保守區(qū)提供研究思路和方向。