吳從嚴(yán),李鐳,楊金成,趙耀東
(南京醫(yī)科大學(xué)附屬上海市第一人民醫(yī)院神經(jīng)外科,上海 200080)
膠質(zhì)瘤是最常見(jiàn)的原發(fā)惡性腦瘤,也是最致命的惡性腦瘤之一。據(jù)統(tǒng)計(jì)每年膠質(zhì)瘤新增確診病例高達(dá)17 000例。對(duì)比世衛(wèi)組織2007年和2016年版中樞神經(jīng)系統(tǒng)腫瘤組織病理學(xué)分類標(biāo)準(zhǔn)[1-2]可以發(fā)現(xiàn),2016版增加了分子遺傳學(xué)特征作為分型的指標(biāo),如Ⅱ級(jí)少突膠質(zhì)細(xì)胞瘤[異檸檬酸脫氫酶(IDH)突變型和1p/19q共缺失型]和彌漫性星形細(xì)胞瘤(IDH突變型),Ⅲ級(jí)間變性少突膠質(zhì)細(xì)胞瘤(IDH突變型和1p/19q共缺失型)和間變性星形細(xì)胞瘤(IDH突變型),Ⅳ級(jí)的膠質(zhì)母細(xì)胞瘤和彌漫性中線膠質(zhì)瘤(h3k27突變型)[3]。將分子亞型融入膠質(zhì)瘤的分類,有助于加深對(duì)膠質(zhì)瘤本質(zhì)的理解。而這一巨大進(jìn)步是與生物信息學(xué)的發(fā)展密不可分的。盡管膠質(zhì)瘤的診斷治療方法不斷進(jìn)步,但患者預(yù)后仍然很差,其中最具侵襲性的膠質(zhì)瘤,如膠質(zhì)母細(xì)胞瘤和彌漫中線膠質(zhì)瘤,生存期僅有幾個(gè)月[4]。因此,迫切需要深入了解膠質(zhì)瘤的發(fā)病機(jī)制,尋找新的分子靶標(biāo),開發(fā)新的治療技術(shù),而蓬勃發(fā)展的生物信息學(xué)為此提供了可能。
“生物信息學(xué)”名詞由荷蘭理論生物學(xué)家Paulien Hogeweg在1970年提出,他當(dāng)時(shí)意思是指“生物系統(tǒng)中的信息過(guò)程研究”[5]。1995年美國(guó)在人類基因組計(jì)劃的第一個(gè)五年總結(jié)報(bào)告中重新定義了生物信息學(xué):作為一門交叉學(xué)科,通過(guò)綜合運(yùn)用數(shù)學(xué)、計(jì)算機(jī)科學(xué)、生命技術(shù)理論和工具,實(shí)現(xiàn)了對(duì)生物科學(xué)領(lǐng)域中信息的綜合獲取、存儲(chǔ)、加工、分析、解釋,闡明高通量生物數(shù)據(jù)中所包含的生物學(xué)意義[6]。生物信息學(xué)作為一門建立在數(shù)據(jù)積累,尤其是原始數(shù)據(jù)積累上的學(xué)科,它的主要特點(diǎn)是收集數(shù)據(jù)的規(guī)?;?、數(shù)據(jù)處理的程序化與數(shù)據(jù)分析的專門化。生物信息學(xué)研究目前有3個(gè)層面:第1個(gè)層面是根據(jù)現(xiàn)有的生物信息學(xué)資源(如生物信息學(xué)數(shù)據(jù)庫(kù)),利用相應(yīng)的工具(如專業(yè)網(wǎng)站、軟件等)解決問(wèn)題;第2個(gè)層面是利用數(shù)值計(jì)算方法、數(shù)據(jù)統(tǒng)計(jì)學(xué)方法以及相關(guān)工具對(duì)原始數(shù)據(jù)進(jìn)行處理研究;第3個(gè)層面是提出有價(jià)值的生物信息學(xué)問(wèn)題,研究新型方法,開發(fā)新型工具,引領(lǐng)生物信息學(xué)研究。
20世紀(jì)60年代初,隨著計(jì)算方法在蛋白質(zhì)序列分析中的應(yīng)用,奠定了生物信息學(xué)的基礎(chǔ);然后隨著分子生物學(xué)新技術(shù)的開發(fā)和計(jì)算機(jī)科學(xué)的進(jìn)步,生物信息學(xué)獲得突破性進(jìn)展,由官方設(shè)立的大型醫(yī)學(xué)數(shù)據(jù)管理機(jī)構(gòu)先后設(shè)立并快速壯大,如美國(guó)國(guó)立生物技術(shù)信息中心(NCBI)、歐洲生物信息學(xué)研究所(EBI)等;隨著90年代人類基因組計(jì)劃實(shí)施,測(cè)序技術(shù)的進(jìn)一步發(fā)展,基因組、轉(zhuǎn)錄組、蛋白組與代謝組等組學(xué)概念應(yīng)運(yùn)而生。進(jìn)入21世紀(jì),微陣列技術(shù)和高通量測(cè)序具有更高的分辨率和更廣的檢測(cè)范圍,以及技術(shù)進(jìn)步帶來(lái)檢測(cè)成本的下降,使得生物信息學(xué)得到更廣泛的應(yīng)用。2009年建立的單細(xì)胞RNA測(cè)序(scRNA-seq)技術(shù),能夠檢測(cè)單細(xì)胞水平上的基因表達(dá),具有比高通量測(cè)序更高的細(xì)胞差異分辨率,將極大地促進(jìn)對(duì)細(xì)胞功能、疾病發(fā)展和治療反應(yīng)的認(rèn)識(shí)[6-7]。但由于其測(cè)序成本昂貴,目前開展得還不夠廣泛。
開發(fā)數(shù)據(jù)庫(kù)是生物信息學(xué)研究的關(guān)鍵,現(xiàn)有的生物信息學(xué)數(shù)據(jù)庫(kù)幾乎覆蓋了生物醫(yī)學(xué)的所有領(lǐng)域。下面就膠質(zhì)瘤研究領(lǐng)域的常用生物信息學(xué)數(shù)據(jù)庫(kù)進(jìn)行簡(jiǎn)述。
2.1 GEO(Gene Expression Omnibus)數(shù)據(jù)庫(kù) 2000年NCBI啟動(dòng)了GEO數(shù)據(jù)庫(kù)項(xiàng)目,主要存儲(chǔ)高通量測(cè)序獲得的基因表達(dá)數(shù)據(jù)[8]。雖然其大多數(shù)(90%)數(shù)據(jù)是基因表達(dá)數(shù)據(jù),但其數(shù)據(jù)范圍也擴(kuò)展到基因組甲基化、蛋白質(zhì)分析、染色體構(gòu)象研究和基因組變異/拷貝數(shù)的研究[9]。由于基因組研究數(shù)據(jù)的復(fù)雜性,分析工作具有很強(qiáng)的專業(yè)性。為了方便盡可能多的研究人員使用數(shù)據(jù)庫(kù),GEO開發(fā)了在線的數(shù)據(jù)查詢、可視化和分析工具GEO-2R,使得研究人員不需要下載或操作數(shù)據(jù)文件,可以直接在GEO網(wǎng)站上進(jìn)行簡(jiǎn)單的數(shù)據(jù)分析[10]。
2.2 癌癥基因組圖譜(The Cancer Genome Atlas,TCGA) 2005年NCBI啟動(dòng)TCGA項(xiàng)目,目的是為了構(gòu)建反映惡性腫瘤關(guān)鍵基因組變化的全面多維圖譜,目前存儲(chǔ)的數(shù)據(jù)包括DNA拷貝數(shù)變異、甲基化、mRNA和microRNA表達(dá)、蛋白質(zhì)表達(dá)和臨床數(shù)據(jù)。目前已有基于TCGA數(shù)據(jù)集的探索性分析工具和數(shù)據(jù)庫(kù)。例如癌癥基因組學(xué)門戶網(wǎng)站(http://www.cbioportal.org)具有開放式獲取資源以及資源開源的特點(diǎn),已經(jīng)開發(fā)了交互式探索癌癥基因組的數(shù)據(jù)集和直觀呈現(xiàn)數(shù)據(jù)的方法,包括快速查看與癌癥相關(guān)的基因或通路,生存預(yù)后情況以及進(jìn)行相關(guān)的生物網(wǎng)絡(luò)分析[11-12]。此外,這些TCGA數(shù)據(jù)集也可以通過(guò)定期更新的FireBrowse網(wǎng)站直接下載。這些工具提供了快速、直觀的癌癥基因組圖譜和匹配的臨床數(shù)據(jù),并允許將這些有價(jià)值的數(shù)據(jù)進(jìn)行生物學(xué)解讀和臨床應(yīng)用。此外,為了研究TCGA數(shù)據(jù)庫(kù)中長(zhǎng)鏈非編碼RNA(lncRNA)的生物學(xué)特性,Cerami等[11]和Gao等[12]分別開發(fā)了TANRIC和Co-LncRNA數(shù)據(jù)庫(kù),促進(jìn)了lncRNA生物學(xué)功能的研究和臨床應(yīng)用。
2.3 中國(guó)膠質(zhì)瘤基因組圖譜(Chinese Glioma Genome Atlas,CGGA) CGGA項(xiàng)目(http://www.cgga.org.cn)由北京神經(jīng)外科研究所和中國(guó)膠質(zhì)瘤協(xié)作組主辦,旨在對(duì)導(dǎo)致膠質(zhì)瘤進(jìn)展的主要基因組變異進(jìn)行編目和識(shí)別,并為中國(guó)膠質(zhì)瘤樣本提供詳細(xì)的基因組特征描述。CGGA門戶網(wǎng)站是一個(gè)開放訪問(wèn)平臺(tái),提供多維膠質(zhì)瘤基因組的數(shù)據(jù)集。GLIOMASdb (http://www.cgga.org.cn:9091/gliomasdb)作為一個(gè)免費(fèi)提供在線訪問(wèn)的分析平臺(tái),能夠?qū)?shù)據(jù)庫(kù)信息進(jìn)行簡(jiǎn)單分析[13]。
2.4 其他數(shù)據(jù)集 如:分子腦瘤數(shù)據(jù)庫(kù)(REMBRANDT)是一個(gè)癌癥臨床基因組數(shù)據(jù)庫(kù)和一個(gè)在線挖掘和分析平臺(tái),方便人們通過(guò)有效地結(jié)合臨床信息和基因組特征來(lái)提高對(duì)膠質(zhì)瘤的認(rèn)識(shí)[14]。
目前在膠質(zhì)瘤的研究中,通過(guò)對(duì)樣本測(cè)序獲得的基因組、轉(zhuǎn)錄組、蛋白組、代謝組與甲基化組等數(shù)據(jù)進(jìn)行生物信息學(xué)分析,使研究人員能夠了解膠質(zhì)瘤的致病機(jī)制,明確相關(guān)分子標(biāo)志物,為膠質(zhì)瘤的診斷、治療、預(yù)后評(píng)估提供新的思路。這方面進(jìn)展簡(jiǎn)述如下:
臨床上發(fā)現(xiàn)低級(jí)別膠質(zhì)瘤幾乎無(wú)一例外地進(jìn)展為繼發(fā)性膠質(zhì)母細(xì)胞瘤(sGBM),治療選擇有限,機(jī)制也不清楚。有學(xué)者[15]通過(guò)對(duì)118例sGBM測(cè)序獲取了突變圖譜,發(fā)現(xiàn)sGBM的MET第14號(hào)外顯子跳躍(METex14),以及PTPRZ1-MET(ZM)融合基因和METex14等MET基因相關(guān)突變可促進(jìn)膠質(zhì)瘤惡性進(jìn)展;并由此開展了MET抑制劑PLB-1001(伯瑞替尼)治療高級(jí)別膠質(zhì)瘤的I期臨床試驗(yàn),確定了Ⅱ期臨床試驗(yàn)的推薦劑量。
在轉(zhuǎn)錄組學(xué)層面,長(zhǎng)鏈非編碼RNA (Long non-coding RNA,lncRNA)是一組長(zhǎng)度超過(guò)200個(gè)核苷酸的非編碼核苷酸序列,lncRNA可以作為競(jìng)爭(zhēng)性的內(nèi)源性RNA(ceRNA)來(lái)調(diào)節(jié)miRNA的表達(dá),進(jìn)而調(diào)節(jié)基因的表達(dá)[16]。Han等[17]通過(guò)對(duì)TCGA和CGGA中低級(jí)別和高級(jí)別膠質(zhì)瘤的RNA-seq數(shù)據(jù)庫(kù)中的LncRNA進(jìn)行分析,篩選出表達(dá)差異最明顯的LncRNA-MIR22HG,通過(guò)分子實(shí)驗(yàn)證明了沉默膠質(zhì)母細(xì)胞瘤的MIR22HG會(huì)導(dǎo)致miR-22-3p和-5p表達(dá)下調(diào),進(jìn)而抑制Wnt/ntcatenin信號(hào)通路,從而導(dǎo)致細(xì)胞增殖、侵襲能力減弱并且抑制體內(nèi)腫瘤生長(zhǎng),最后還基于miR-22的前體結(jié)構(gòu)研制了小分子抑制劑AC1L6JTK,阻止miR-22成熟體的形成,從而抑制體內(nèi)腫瘤的生長(zhǎng)。
雖然膠質(zhì)瘤基因擴(kuò)增或丟失等遺傳學(xué)機(jī)制已經(jīng)得到充分研究,但關(guān)于不同級(jí)別膠質(zhì)瘤之間蛋白組學(xué)的變化信息卻很少。Buser等[18]通過(guò)質(zhì)譜和生物信息學(xué)分析相結(jié)合的方法,對(duì)人膠質(zhì)瘤組織切片進(jìn)行無(wú)偏倚定量蛋白質(zhì)組學(xué)研究,發(fā)現(xiàn)介導(dǎo)細(xì)胞內(nèi)吞作用的網(wǎng)格蛋白、AP-2接頭蛋白和吞蛋白水平下調(diào),導(dǎo)致細(xì)胞表面的相應(yīng)受體增多,表明內(nèi)吞機(jī)制成分的缺失是不同膠質(zhì)瘤分級(jí)和亞類的共同特征。
異檸檬酸脫氫酶1(IDH1) 的突變是低度膠質(zhì)瘤和繼發(fā)性膠質(zhì)母細(xì)胞瘤的高頻事件,而IDH1突變型膠質(zhì)瘤易受干預(yù)措施影響。新陳代謝的重編程是癌癥的標(biāo)志之一,而IDH1突變相較IDH1野生型的膠質(zhì)瘤新陳代謝的改變尚不清楚。Zhou等[19]在IDH1突變型膠質(zhì)瘤組織中發(fā)現(xiàn)了從糖酵解到脂質(zhì)代謝方式的改變,IDH1突變型膠質(zhì)瘤中低脂?;慕档涂赡苁怯砷L(zhǎng)鏈酰基輔酶a合成酶1 (ACSL1)、ACSL4和極長(zhǎng)鏈?;o酶a合成酶3(ACSVL3)所介導(dǎo)的;通過(guò)在RNA-seq數(shù)據(jù)庫(kù)中驗(yàn)證,發(fā)現(xiàn)較低的ACSL1表達(dá)與IDH1突變型膠質(zhì)瘤患者生存預(yù)后更好有關(guān)。
膠質(zhì)瘤的進(jìn)展與異常的DNA甲基化密切相關(guān),MGMT啟動(dòng)子甲基化狀態(tài)被認(rèn)為是高級(jí)別膠質(zhì)瘤的獨(dú)立危險(xiǎn)因素,決定了烷基化劑的化療效果[20]。大多數(shù)研究集中在蛋白質(zhì)編碼基因的甲基化或lncRNA如何調(diào)節(jié)蛋白質(zhì)編碼基因的甲基化,而lncRNA基因的甲基化概況及其對(duì)腫瘤發(fā)生和發(fā)展的相關(guān)后果卻知之甚少。Li等[21]通過(guò)對(duì)公共數(shù)據(jù)庫(kù)中Ⅱ級(jí)、Ⅲ級(jí)、Ⅳ級(jí)膠質(zhì)瘤的LncRNA、甲基化及預(yù)后數(shù)據(jù)進(jìn)行比對(duì)分析,發(fā)現(xiàn)60種lncRNA有顯著差異表達(dá),其中包括已知的PVT1、HOTAIR、H19和了解很少的CARD8-AS、MIR4435-2HG;通過(guò)整合HM450K甲基化微陣列數(shù)據(jù),證明了其中一些lncRNA受甲基化的表觀遺傳學(xué)調(diào)控;并發(fā)現(xiàn)MIR4435-2HG在高級(jí)別膠質(zhì)瘤中高表達(dá),可能影響EMT和TNF信號(hào)通路,并且能通過(guò)降低miR-125-5-p和miR-125b-5-p來(lái)增加CD44的表達(dá)。
膠質(zhì)瘤作為一種高致死性的中樞神經(jīng)系統(tǒng)惡性腫瘤,有著復(fù)雜的致病機(jī)制,至今尚不清楚。隨著微陣列技術(shù)、高通量測(cè)序等測(cè)序方法的推廣應(yīng)用,通過(guò)使用生物信息學(xué)方法對(duì)組學(xué)數(shù)據(jù)進(jìn)行加工分析,使研究人員能夠從大樣本大數(shù)據(jù)層面闡明膠質(zhì)瘤的致病機(jī)制,為膠質(zhì)瘤的臨床病理分子分型、預(yù)后評(píng)估、分子靶向治療及改善膠質(zhì)瘤對(duì)放化療的耐受性提供了可能。隨著生物信息學(xué)在膠質(zhì)瘤研究應(yīng)用的不斷深入,將為膠質(zhì)瘤的分型、診斷與治療提供更多依據(jù)。