楊健 蔡浩洋
隨著人們生活方式和環(huán)境的改變,惡性腫瘤已經(jīng)成為疾病三大死亡病因之一,占全球每年死亡人數(shù)的15%以上[1]。我國在人口老齡化進程不斷加快的情況下,惡性腫瘤的發(fā)病率及死亡率一直呈上升趨勢,估計每年新發(fā)腫瘤病例超過300萬例,嚴重威脅人們的健康和生命。當前已知的腫瘤類型接近200種,已發(fā)現(xiàn)的與腫瘤相關的原癌基因或抑癌基因超過500個。世界各國都投入了大量的人力與經(jīng)費用于癌癥的基礎研究與診斷治療,美國國立癌癥研究所(National Cancer Institute,NCI)2015年度的研究預算達到49.5億美元。近年來,隨著高通量檢測和分析技術的發(fā)展與普及,與腫瘤相關的生物學數(shù)據(jù)呈指數(shù)級增長,利用數(shù)據(jù)挖掘的方法從海量數(shù)據(jù)中找出驅動基因與突變有助于闡明腫瘤發(fā)生的分子機制。然而,這些數(shù)據(jù)的管理和分析成為研究人員面臨的一大挑戰(zhàn)。不同的檢測技術產(chǎn)生了復雜的、不同結構的生物學數(shù)據(jù),這些原始數(shù)據(jù)必須經(jīng)過標準化、結構化、添加注釋及統(tǒng)計分析才能成為有價值的信息。同時,在高通量測序技術的價格不斷降低的情況下,當前的研究對腫瘤樣本的測序深度越來越高,對單個腫瘤樣本的測序可以產(chǎn)生超過150 GB的數(shù)據(jù),這對海量數(shù)據(jù)的存儲與利用也提出了新的挑戰(zhàn)。因此,生物信息學數(shù)據(jù)庫的構建成為腫瘤研究的一個重要方向,也是信息處理的基礎,通過大量腫瘤樣本的數(shù)據(jù)分析可以得到單個實驗難以獲得的規(guī)律性結論。利用生物信息技術收集、存儲、分析并共享與腫瘤相關的生物學數(shù)據(jù)正逐漸成為癌癥研究中必不可少的技術手段,高質(zhì)量的腫瘤數(shù)據(jù)庫將為研究人員提供便捷的數(shù)據(jù)分析服務與數(shù)據(jù)共享平臺,為揭示癌癥的發(fā)生發(fā)展機制奠定基礎,如圖1所示。專輯,收錄重要的生物學數(shù)據(jù)庫。Bioinformatics 雜志也設立了數(shù)據(jù)庫專欄,介紹各種生物信息學數(shù)據(jù)庫。另外,“精準醫(yī)療計劃”的提出為生物信息學數(shù)據(jù)庫的發(fā)展帶來了新的契機?!熬珳梳t(yī)療”旨在根據(jù)個體的差異為每一個病人制定個性化的預防和治療方案,達到精確用藥的目的。該計劃的短期目標主要與惡性腫瘤相關,根據(jù)腫瘤的基因變異研發(fā)靶向藥物,然后對病人進行臨床基因診斷,按個體基因變異的情況使用不同的靶向藥物。該項目一方面需要構建大量人群的腫瘤變異數(shù)據(jù)庫,另一方面需要開發(fā)新的數(shù)據(jù)分析算法進行海量數(shù)據(jù)的挖掘與整合。表1 列出了主要的腫瘤生物信息學數(shù)據(jù)庫網(wǎng)站。本文將這些數(shù)據(jù)庫按照研究領域或者數(shù)據(jù)類型進行分類并作介紹。
圖1 利用生物信息學整合多種類型的數(shù)據(jù)并構建數(shù)據(jù)庫
現(xiàn)今生物學數(shù)據(jù)庫因其重要作用已獲得了廣泛的關注與研究。伴隨著生物信息學這一交叉學科的快速發(fā)展,目前已經(jīng)產(chǎn)生了大量的數(shù)據(jù)庫,并在生物學的各個研究領域產(chǎn)生了廣泛的影響。例如,國際上三大核酸與蛋白質(zhì)數(shù)據(jù)庫,包括美國國家生物信息中心的GenBank[2]、歐洲生物信息研究所的EMBL[3]以及日本生物信息學中心的 DDBJ[4],是目前最具有影響力的生物全領域數(shù)據(jù)庫,為研究人員提供了獲取與共享數(shù)據(jù)的平臺,極大地促進了包括腫瘤在內(nèi)的相關領域研究。從1994年開始,Nucleic Acids Research 雜志每年都出版一期數(shù)據(jù)庫
早期的基因芯片和近年來廣泛應用的二代測序技術產(chǎn)生了大量的生物學數(shù)據(jù),包括DNA拷貝數(shù)變化(Copy number aberration,CNA)、基因突變、表達譜以及全基因組測序數(shù)據(jù)。這些數(shù)據(jù)中蘊含著潛在的有價值的生物學信息,可能幫助人們更加深入地理解癌癥,因此對海量數(shù)據(jù)的存儲和分析也具有重要意義。目前已有多個機構致力于這些數(shù)據(jù)的收集、存儲以及分析。在這一部分中,我們將對幾個重要的綜合數(shù)據(jù)庫作簡要介紹。
The Cancer Genome Atlas(TCGA,https://tcgadata.nci.nih.gov/tcga)[5]由美國國立癌癥研究所和國家人類基因組研究所(National Human Genome Research Institute,NHGRI)資助,關注與癌癥的發(fā)生和發(fā)展相關的分子突變圖譜。根據(jù)癌癥的發(fā)病率,TCGA選取了34種癌癥及其對應的正常組織樣本進行比較研究,每種腫瘤都有大量的樣本重復以進行癌癥變異數(shù)據(jù)的深度挖掘。TCGA擁有基因組測序中心(Genome Sequencing Centers,GSCs)、基因組數(shù)據(jù)分析中心(Genome Data Analysis Centers,GDACs)以及基因組描述中心(Genome Characterization Centers,GCCs)等,能夠對樣本進行外顯子組和基因組測序及分析,提供包括基因組拷貝數(shù)變化、表觀遺傳、基因表達譜、miRNA等數(shù)據(jù)。TCGA的數(shù)據(jù)訪問權限分為兩種,公開的數(shù)據(jù)包括了臨床和人口數(shù)據(jù)、基因表達數(shù)據(jù)、CNA數(shù)據(jù)、表觀數(shù)據(jù)等,而需要授權的數(shù)據(jù)主要是一些個人特有數(shù)據(jù),如原始的測序數(shù)據(jù)、單核苷酸多態(tài)性(Single nucleotide polymorphism,SNP)數(shù)據(jù)以及VCF文件等。現(xiàn)在來源于TCGA的測序原始數(shù)據(jù)存儲在癌癥基因組中心(Cancer Genomics Hub,CGHub),而序列分析數(shù)據(jù)則可在TCGA的數(shù)據(jù)中心(TCGA Data Portal)下載。隨著TCGA的數(shù)據(jù)的增長,目前有許多基于TCGA的研究,包括對癌癥分類的探索[6]、癌癥的突變標志物研究[7]、藥物靶點研究[8]等。
表1 主要的腫瘤生物信息學數(shù)據(jù)庫
European Genome-phenome Archive(EGA,https://ega.crg.eu)[9]收集了多種測序以及分型數(shù)據(jù),如基因組關聯(lián)分析、分子診斷以及各種目的的測序數(shù)據(jù)。目前,該數(shù)據(jù)庫已收集了超過800項研究的數(shù)據(jù),數(shù)據(jù)量也達到了1.7 PB之巨,其中約60%都與腫瘤相關。這些數(shù)據(jù)的訪問受到嚴格的控制,用戶可通過瀏覽或搜索找到需要的數(shù)據(jù)項,但是下載則需要向指定的數(shù)據(jù)訪問控制機構申請。為了方便用戶下載數(shù)據(jù),EGA還開發(fā)了基于java的下載工具。
Cancer Genomics Hub(CGHub,https://cghub.ucsc.edu)[10]收集來自3個國家癌癥協(xié)會項目的基因組信息:包括癌癥基因圖譜項目(TCGA)、癌癥細胞系百科全書(Cancer Cell Line Encyclopedia,CCLE)以及為有效治療進行的治療方案研究項目(Therapeutically Applicable Research to Generate Effective Treatments,TARGET)。CGHub 收集了來自25種不同類型癌癥的測序數(shù)據(jù),以BAM文件形式存儲,目前的數(shù)據(jù)量已經(jīng)超過2 PB,并且以每周約50 TB的速率增長。CGHub支持對癌癥測序數(shù)據(jù)的瀏覽和受控制的訪問,對于來自于CCLE的數(shù)據(jù)是完全公開,而另外兩個項目的數(shù)據(jù)則是需要具有授權才可以下載。CGHub還提供了一款數(shù)據(jù)下載軟件GeneTorrent,并可在多個平臺上使用。GCHub提供的原始數(shù)據(jù)對于整合和共享癌癥相關數(shù)據(jù)具有重要作用,對癌癥基礎研究具有極大的促進作用。
International Cancer Genome Consortium(ICGC,https://icgc.org)[11]是由多個國家多個研究機構組成的癌癥研究團體,包含來自亞洲、澳大利亞、歐洲、北美和南美的88個研究團隊。其目標是獲取包括膽道癌、膀胱癌、血癌等多達50種腫瘤及其亞型的基因組、轉錄組和表觀遺傳的全部信息,并以最快的速度和最少的限制將這些數(shù)據(jù)提供給整個科研團體,促進癌癥的機理和治療研究。到目前為止,ICGC(release 19)提供了12 979個癌癥基因組的數(shù)據(jù),包含了16 459 160個簡單的體細胞突變,涉及到57 543個基因。用戶可通過ICGC的數(shù)據(jù)中心搜索感興趣的數(shù)據(jù),并利用網(wǎng)站提供的工具下載。與TCGA一樣,ICGC的測序原始數(shù)據(jù)和涉及個體信息的數(shù)據(jù)如生殖細胞突變需要得到ICGC的授權。
Cancer Genome Anatomy Project(CGAP,http://cgap.nci.nih.gov)[12]是NCI的一個研究項目,主要收集了正常組織、前癌組織以及癌細胞的基因表達水平,以期改善癌癥的檢測、診斷以及病患治療。CGAP網(wǎng)站主要提供了cDNA克隆、文庫、基因表達、SNP以及基因組變異信息,并且提供了一系列的分析工具,可實現(xiàn)對一個或多個基因、文庫的搜索,發(fā)掘基因組和基因中的SNP,獲取文庫中差異表達的基因,比較兩個文庫的差異表達基因,分析基因參與的通路,并且將這些信息可視化。
Catalogue Of Somatic Mutations In Cancer(COSMIC,http://cancer.sanger.ac.uk/cosmic)[13]是世界上最大最全面的有關腫瘤的體細胞突變以及其影響的資源。主要提供多種腫瘤細胞基因組中的CNA、甲基化、基因融合、SNP及基因表達信息等。最新的版本(v74,Aug 2015)中描述了超過100萬個腫瘤樣本中的2002 811個點突變,涉及到大部分的人類基因。除此之外,COSMIC中還提供了超過6×106個非編碼點突變、10 534個基因融合、61299個基因組重排、695 504個拷貝數(shù)異常、60 119 787個表達異常的詳細信息,并且這些信息在基因組和編碼基因中都進行了注釋,進而與疾病和變異類型關聯(lián)起來。COSMIC給癌癥用戶提供了十分重要而全面的腫瘤基因組變異信息。
cBioPortal for Cancer Genomics(cBioPortal,http://www.cbioportal.org)[14]是一個癌癥基因組數(shù)據(jù)探索、可視化及分析平臺,提供CNA、基因突變信息,并根據(jù)數(shù)據(jù)完整程度提供包括mRNA豐度、蛋白豐度以及DNA甲基化水平等信息。目前,該平臺收集了105個腫瘤研究中的10 473個樣本數(shù)據(jù)。用戶可選取特定的樣本,形成數(shù)據(jù)集,并定義一系列感興趣的基因,分析這些基因在樣本中的CNA的出現(xiàn)頻率和基因突變頻率。在結果中除了匯總信息外,還會針對每個基因給出CNA和突變在樣本中的分布、突變位點和頻率、共表達基因以及生存曲線等;而對于用戶提供的基因列表,還可生成互作網(wǎng)絡并提供已知的相互作用的藥物。cBioPortal在發(fā)現(xiàn)腫瘤相關突變、分析基因的生物學功能以及藥物選擇等方面的研究中具有重要推進作用。
UCSC Cancer Genomics Browser(UCSC癌 癥 基因組瀏覽器,https://genome-cancer.ucsc.edu)[15]保存癌癥基因組及臨床數(shù)據(jù),并提供了數(shù)據(jù)可視化和分析的工具。該平臺中收集了樣本的多種信息,包括基因表達水平、CNA、通路信息等。在UCSC的癌癥基因組瀏覽器中,研究人員可以對一個或幾個實驗中的樣本及其關聯(lián)的臨床信息進行研究,可實現(xiàn)不同樣本以及癌癥類型之間的比較,分析基因組變異與表型之間的相關性。目前,該平臺收集了來自TCGA、CLLE、Connectivity Map以及TARGET的575個數(shù)據(jù)集,包含了超過22 700個樣本的數(shù)據(jù)。
除了UCSC癌癥基因組瀏覽器外,還有多個綜合性分析平臺基于TCGA等數(shù)據(jù)庫的基因組信息綜合性地分析基因組的變異與臨床數(shù)據(jù)和基因表達譜的關聯(lián)性。例如,癌癥基因組工作平臺(Cancer Genome Work Bench,CGWB,https://cgwb.nci.nih.gov)[16]提供了一系列工具來挖掘、整合以及可視化TCGA等數(shù)據(jù)庫中的基因組和臨床數(shù)據(jù),用戶可快速地比較患者臨床信息與基因組的變異及甲基化等;而canEvolve[17]數(shù)據(jù)庫收集了來自90個研究的超過10 000位病人的數(shù)據(jù),為用戶提供兩種水平的分析數(shù)據(jù):其一是mRNA、miRNA、蛋白的表達水平、基因組變異、蛋白相互作用數(shù)據(jù);其二是綜合分析數(shù)據(jù),如基因表達與miRNA表達、基因表達與CNA之間的關聯(lián)、基因富集、網(wǎng)絡分析及生存分析等。
一般而言,腫瘤細胞的基因組中都存在著大量的變異,主要包括染色體結構的變異、CNA、基因融合以及SNP等。對腫瘤的基因組變異信息的收集和整理可促進研究者對腫瘤發(fā)生發(fā)展的認識。以下介紹一些收集和整理這類信息的數(shù)據(jù)庫。
arrayMap(http://www.arraymap.org)[18]是 由 蘇黎世大學分子生命科學研究所構建的,提供預處理過的腫瘤基因組芯片數(shù)據(jù)以及CNA圖譜。目前,最新版的arrayMAP(Jan 2015)包含了約250種癌癥中獲得的64 000多個基因組芯片數(shù)據(jù)集。用戶可通過關鍵字搜索自己感興趣的樣本或者搜索特定文獻中的樣本,并在此基礎上分析感興趣的基因或基因組片段上的CNA;用戶還可以選擇兩個樣本來比較二者的CNA的差異。
CaSNP(http://cistrome.dfci.harvard.edu/CaSN P/)[19]數(shù)據(jù)庫收集了來源于SNP芯片的CNA數(shù)據(jù),并提供查詢服務。CaSNP從34種腫瘤的104項研究中獲取了約11500張SNP芯片,基于這些芯片整理出了腫瘤基因組中的CNA。用戶可以搜索基因或者感興趣的基因組區(qū)域,CaSNP將返回各項研究中的染色體區(qū)域得失頻率及平均的拷貝數(shù),并提供下載鏈接或在UCSC基因組瀏覽器中可視化。
CanGEM(http://www.cangem.org/)[20]是一個公開的存儲腫瘤樣本的臨床和芯片數(shù)據(jù)的數(shù)據(jù)庫。它主要利用arrayCGH芯片來發(fā)掘基因的拷貝數(shù)變異。用戶可以通過關鍵字搜索特定類型的腫瘤樣本或者發(fā)掘特定基因發(fā)生拷貝數(shù)變化的樣本構建個性化的數(shù)據(jù)集情況,然后基于這些樣本計算變異發(fā)生的頻率。CanGEM還提供原始數(shù)據(jù)下載服務,用戶可以對感興趣的數(shù)據(jù)集進行深入的分析。
Cancer Genome Project(CGP,http://www.sang er.ac.uk/research/projects/cancergenome)[21]是 The Wellcome Trust Sanger Institute下屬的一個項目,主要目標是利用人類基因組序列和高通量的突變檢測技術識別體細胞突變,進而發(fā)現(xiàn)人類腫瘤發(fā)生過程中重要的基因。該項目提供了腫瘤中的CNA及基因型信息,同時也提供了一些識別突變、CNA的軟件,如BioView、GRAFT等。
BioMuta(https://hive.biochemistry.gwu.edu/to ols/biomuta/)[22]數(shù)據(jù)庫存儲了癌癥細胞中基因的非同義單核苷酸變異,這些突變會影響基因的正常功能。BioMuta中的數(shù)據(jù)來源于COSMIC、ClinVar、UniProtKB 以及一些文獻中,最新版本(v2.0)中包含了26種癌癥中的322 922個SNP。用戶可搜索感興趣的基因,獲得該基因在癌細胞中的突變位點及其分布頻率。
DNA甲基化修飾是表觀遺傳的一個重要形式,可調(diào)控基因的轉錄水平,對于維持細胞正常功能具有重要作用。DNA甲基化模式改變可能導致癌癥的發(fā)生,一些抑癌基因的高甲基化導致基因表達量降低引起癌癥發(fā)生,也可能導致一些抑癌的miRNA轉錄水平下降同樣會引發(fā)癌癥[23]。目前也有部分數(shù)據(jù)庫收集和整理腫瘤中的甲基化模式,并可與基因的表達水平比較。以下對這些數(shù)據(jù)庫作簡要介紹。
MethyCancer(http://methycancer.psych.ac.cn/)[24]數(shù)據(jù)庫收集了腫瘤中的DNA甲基化、重復序列、癌癥相關基因、突變、CpG島以及腫瘤相關信息。用戶可搜索感興趣的基因或基因組區(qū)域,獲得相關的甲基化、重復序列、基因以及CpG島等信息。另外,網(wǎng)站還提供了一個可視化工具MethyView,可在一個窗口中查看一個基因組區(qū)域內(nèi)上述元素的相互關系。MethyCancer可作為分析人類基因組中IpG島的分布、啟動子區(qū)DNA甲基化形式的平臺,能幫助研究人員識別腫瘤中受DNA甲基化影響的基因,發(fā)掘潛在的表觀遺傳靶點。
MethHC(http://MethHC.mbc.nctu.edu.tw)[25]系統(tǒng)性地整理了來自TCGA的腫瘤基因組甲基化、基因表達、miRNA甲基化、miRNA表達以及甲基化和基因表達水平的關聯(lián)關系。目前,數(shù)據(jù)庫收集了18種人類腫瘤的超過6 000個樣本、6 548張芯片以及12 567個RNA測序數(shù)據(jù)。MethHC提供了基因及其上下游的多個區(qū)域的甲基化水平、甲基化和基因表達關系、基于甲基化位點的癌癥分層聚類以及每種癌癥中高甲基化和低甲基化的前250個基因列表。
MENT(http://mgrc.kribb.re.kr:8080/MENT)[26]數(shù)據(jù)庫收集和整合了來自Gene Expression Omnibus(GEO)[27]和TCGA的DNA甲基化、基因表達水平數(shù)據(jù),同時將DNA甲基化和基因表達水平關聯(lián)起來。MENT提供了友好的界面,用戶可通過基因搜索或數(shù)據(jù)集搜索來發(fā)掘差異甲基化。基因搜索返回目標基因在哪些條件下發(fā)生差異甲基化,而數(shù)據(jù)集搜索則返回一定條件下所有差異甲基化的基因。兩種搜索都可以通過設定方向、差異甲基化值和p值對結果進行篩選。
DiseaseMeth(http://bioinfo.hrbmu.edu.cn/diseas emeth)[28]收集和整理了多種人類疾病中的甲基化數(shù)據(jù),包括癌癥、神經(jīng)發(fā)育和退行性疾病、自身免疫疾病等。目前,DiseaseMeth整合了175個高通量數(shù)據(jù)集的數(shù)據(jù),用戶可以多種方式搜索自己感興趣的內(nèi)容,如gene ID、疾病名稱等,還可以比較疾病與疾病之間、基因與基因之間以及疾病與基因之間的甲基化關系。除此之外,該數(shù)據(jù)庫還支持甲基化數(shù)據(jù)下載,研究者可將數(shù)據(jù)整合到自己的研究中。
除了上述針對癌癥基因組甲基化的數(shù)據(jù)庫外,還有一些數(shù)據(jù)庫搜集和整理更為廣泛的甲基化數(shù)據(jù),如MethDB和NGSmethDB。MethDB(http://www.methdb.de/)[29]是較早的 DNA甲基化數(shù)據(jù)庫,主要集中于環(huán)境因子對甲基化的影響;而NGSmethDB(http://bioinfo2.ugr.es/NGSmethDB)[30]基于高通量測序數(shù)據(jù),最近更新中還包含了SNP信息,以便后續(xù)分析。
腫瘤細胞具有較強的生長和繁殖能力,生命活動旺盛,因此與正常細胞相比,基因的轉錄水平和模式也存在較大的差異。轉錄組是特定條件下細胞內(nèi)全部轉錄物的總和,包括多種類型的RNA,而通常我們更關心的是編碼基因的產(chǎn)物mRNA以及近年來比較熱門的非編碼RNA,如小RNA(miRNA)及長非編碼RNA(lncRNA)。我們將針對一些與腫瘤相關的轉錄組數(shù)據(jù)庫作介紹。
Gene Expression Omnibus(GEO,http://www.ncbi.nlm.nih.gov/geo/)[27]是美國國家生物技術中心(NCBI)的一個子數(shù)據(jù)庫,是一個免費且公開的生物數(shù)據(jù)存儲平臺,主要存儲包括基因芯片、第二代測序以及其它高通量的功能基因組學數(shù)據(jù)。GEO將提交的原始數(shù)據(jù)分為3個層次:平臺、系列和樣本。這些原始數(shù)據(jù)又進一步組成不同的數(shù)據(jù)集,并在GEO生成基因表達譜。用戶可通過搜索獲得感興趣的數(shù)據(jù)集,利用GEO提供的t檢驗或聚類發(fā)掘感興趣的基因及其表達譜,還可進一步搜索與之表達譜相似的基因。GEO的原始數(shù)據(jù)符合MIAME(Mini-mum information about a microarray experiment)數(shù)據(jù)標準(http://www.ncbi.nlm.nih.gov/geo/info/MIAME.html),提供了包括原始數(shù)據(jù)、處理后數(shù)據(jù)、樣本信息、實驗設計方案、芯片注釋信息以及實驗和數(shù)據(jù)處理流程等信息。GEO還支持數(shù)據(jù)下載,用戶可將感興趣的樣本或數(shù)據(jù)集下載下來,用于自己的研究。
ArrayExpress(https://www.ebi.ac.uk/arrayexpr ess/)[31]是歐洲生物信息協(xié)會(EMBL-EBI)下屬的功能基因組數(shù)據(jù)庫,收集整理基于芯片和測序的基因組數(shù)據(jù)。其數(shù)據(jù)一部分是直接提交到ArrayExpress,另一部分是從GEO導入的,目前收集了7 000個測序研究以及42000個基于芯片的研究中的超過1.5×106個樣本數(shù)據(jù)。ArrayExpress的數(shù)據(jù)格式符合MIAME和Minimum Information about Sequencing Experiment(MINSEQE,http://www.fged.org/projects/minseqe/)標準,包含了詳細的樣本和實驗信息,用戶可通過關鍵字搜索感興趣的樣本。網(wǎng)站還提供了統(tǒng)一的數(shù)據(jù)提交工具Annotare,方便用戶提交數(shù)據(jù)。
Oncomine(https://www.oncomine.org/)[32]致 力于收集、標準化并分析腫瘤樣本的基因表達譜芯片數(shù)據(jù),為生物醫(yī)藥領域的研究者提供腫瘤轉錄組數(shù)據(jù)。目前,Oncomine已經(jīng)收集了來自715個數(shù)據(jù)集的86 733個樣本,用于識別腫瘤基因組中失調(diào)的基因、通路和調(diào)控網(wǎng)絡。Oncomine可提供基因在腫瘤樣本和正常樣本間、腫瘤樣本和腫瘤樣本間、正常樣本和正常樣本間的差異表達、基因表達譜、共表達基因等信息。用戶可選擇一組樣本,如腫瘤類型、賴藥性、組織類型等,獲得顯著高表達和低表達的基因,同時可聯(lián)合不同樣本,分析共同顯著差異的基因,幫助用戶從大量的差異表達基因中挑選在多樣本中都顯著差異的基因。對于獲得的一系列感興趣基因,用戶還可進行篩選,作富集分析,并可視化受影響的通路等。需要注意的是,Oncomine是一個面向非盈利團體的受密碼保護的數(shù)據(jù)分析平臺,因此用戶需要注冊才可使用其服務。
OncomiRDB(http://bioinfo.au.tsinghua.edu.cn/member/jgu/oncomirdb/)[33]的目標是收集和注釋通過實驗驗證的對癌癥具有促進或抑制作用的miRNA。該數(shù)據(jù)庫中的miRNA至少符合以下一條:調(diào)控至少一種與腫瘤相關的表型或細胞過程,如增殖、凋亡、遷移、侵襲、衰老和細胞周期調(diào)節(jié);或者有實驗證據(jù)證明直接調(diào)控至少一個原癌基因或抑癌基因。該數(shù)據(jù)庫的所有數(shù)據(jù)是通過人工收集和整理,目前包含2259條調(diào)控關系,涉及到328個miRNA以及829個靶基因。用戶可直接搜索某種miRNA,也可以通過模糊搜索得到miRNA以及靶基因列表,還可以限定組織、腫瘤類型、以及miRNA功能分類,獲得特定細胞類型中的特定類型的miRNA及其靶基因,結果可以以列表和圖形方式給出。用戶還可直接下載OncomiRDB中提供的全部調(diào)控關系,這些高可信度的miRNA-靶基因關系是miRNA功能研究的重要資源。
miRCancer(http://mircancer.ecu.edu/)[34]提 供了較為全面的miRNA集合以及它們在多種腫瘤中的表達情況。miRCancer中的數(shù)據(jù)獲取過程如下:首先利用文本挖掘方式從PubMed中搜索與miRNA相關的文章,并獲取miRNA的表達情況,再人工驗證,以提高數(shù)據(jù)的準確度。目前,數(shù)據(jù)庫中已經(jīng)搜集了44 000余種miRNA,包括176種腫瘤中的3 700多個腫瘤相關的miRNA。用戶可直接搜索某種miRNA,結果頁面將給出其在不同腫瘤樣本中的表達情況,以及相關文獻;也可以限定miRNA和腫瘤類型,結果頁只列出該腫瘤中的相關研究。另外,數(shù)據(jù)庫還提供了兩種分析工具,可對不同物種或腫瘤中的miRNA進行聚類分析或卡方檢驗。
SomamiR(http://compbio.uthsc.edu/SomamiR/)[35]數(shù)據(jù)庫主要收集miRNA及其靶序列上的突變,miRNA上的突變會改變其識別的靶序列,而靶序列上的突變則可能導致miRNA結合能力減弱甚至不能結合。SomamiR數(shù)據(jù)庫提供了miRNA序列上的體細胞突變、利用CLASH、PAR-CLIP、HITSCLIP實驗獲得的靶序列中的體細胞突變、預測的靶序列中的體細胞突變等。另外,數(shù)據(jù)庫還提供了存在miRNA靶序列體細胞突變且腫瘤相關的基因及其參與的通路,受影響的通路可在KEGG通路中展示。數(shù)據(jù)庫中的所有內(nèi)容都可以免費下載。
ChiTaRS(http://chitars.bioinfo.cnio.es/)[36]數(shù) 據(jù)庫記錄了來自人類、小鼠、果蠅等8個物種中的嵌合轉錄本,同時收集了1400個人類癌癥基因組序列斷點以及與之對應的嵌合轉錄本的表達水平數(shù)據(jù)。用戶可搜索某種疾病中染色體上的斷點及涉及的基因,也可提供一段DNA序列檢查是否存在斷點,還可以比較不同物種中的斷點。這些斷點信息以及在各物種中的比較可幫助我們理解嵌合轉錄本的進化以及其在腫瘤發(fā)展中的作用。
蛋白是生命活動的主要承擔者,細胞的各項生命活動都與蛋白有著密切的聯(lián)系,因此細胞內(nèi)蛋白的種類、數(shù)目和形式對細胞功能起著重要的作用。蛋白結構變異、蛋白修飾的改變以及蛋白含量的變化等導致細胞的生長和代謝變化是腫瘤發(fā)生的重要因素。對于腫瘤細胞中蛋白的種類、含量以及修飾的記錄對于解析腫瘤的表型具有重要的價值。我們將介紹一些與腫瘤細胞中蛋白組相關的數(shù)據(jù)庫。
Clinical Proteomic Tumor Analysis Consortium(CPTAC,http://proteomics.cancer.gov/programs/cptacnetwork)[37]是由NCI啟動的一項旨在識別和描述腫瘤組織和正常組織中的全部蛋白,整合基因組和蛋白組的數(shù)據(jù),發(fā)掘可作為腫瘤生物標記的候選蛋白并排序,最終在一組相關樣本中驗證。CPTAC由蛋白組特征研究中心(PCCs)、數(shù)據(jù)整合中心以及資源中心組成。PCCs通過質(zhì)譜測定腫瘤組織中的蛋白類型、含量、蛋白修飾等,數(shù)據(jù)整合中心負責將PCCs的數(shù)據(jù)整理并公開,資源中心負責整理和發(fā)放樣品以及實驗的參考材料等。目前,CPTAC已發(fā)表近20項蛋白組研究,主要是直結腸癌、卵巢癌和乳癌中的蛋白組研究以及一些對于實驗條件和技術的測試性研究。目前CPTAC提供的數(shù)據(jù)還較少,還處于起步階段,但是與TCGA這類大型的基因組研究項目類似,未來CPTAC可能成為蛋白組研究的重要資源,可提供高質(zhì)量的癌癥蛋白組數(shù)據(jù)。
dbDEPC(http://lifecenter.sgst.cn/dbdepc/)[38]是一個專門收集腫瘤樣本中出現(xiàn)的差異表達蛋白的數(shù)據(jù)庫。最新版本(v2.0)收集了來自241篇文獻的331項質(zhì)譜數(shù)據(jù),在20種腫瘤中發(fā)現(xiàn)了4 029個差異表達蛋白。用戶可通過關鍵字或蛋白序列搜索特定蛋白,獲得該蛋白發(fā)生差異表達的樣本及其表達譜;也可以瀏覽特定樣本或特定質(zhì)譜數(shù)據(jù)中差異表達的蛋白。
Cancer Proteome Variation Database(CanProVar,http://bioinfo.vanderbilt.edu/canprovar/)[39]是 一 個 存儲人類蛋白組中的體細胞和生殖細胞發(fā)生的單個氨基酸突變,特別是那些與腫瘤發(fā)生和發(fā)展有關系的氨基酸突變。CanProVar中的數(shù)據(jù)主要來源于TCGA、COSMIC、OMIM、HPI等數(shù)據(jù)庫以及一些研究文獻。目前,該數(shù)據(jù)庫包含了11445個與腫瘤相關的蛋白突變位點以及超過40 000個與癌癥無關的蛋白突變位點。用戶可在網(wǎng)站中搜索特定蛋白或者某種腫瘤,獲取蛋白的突變情況,在結果頁面會給出蛋白的基本信息、GO注釋以及相關的研究文獻。
CancerPPD(http://crdd.osdd.net/raghava/cancerppd/)[40]收集了通過實驗驗證的具有抗腫瘤作用的肽段(ACP)和蛋白,這些數(shù)據(jù)來源于公開發(fā)表的文獻、專利和其他的數(shù)據(jù)庫。目前,CancerPPD包含了3 491個ACP以及121個抗腫瘤的蛋白。對于每一個條目,該數(shù)據(jù)庫都提供了全面的注釋信息,包括來源、肽段的特性、抗癌活性、羧基端和氨基端修飾、構象以及肽段的四級結構等。用戶可搜索和瀏覽蛋白、ACP,查看與之相關的注釋信息。除此之外,網(wǎng)站提供了多種比對工具,用戶可通過比對來搜索序列或結構相似的肽段。
Cancer3D(http://cancer3d.org/)[41]數(shù) 據(jù) 庫 整合了來自TCGA和CCLE的體細胞錯義突變信息,在蛋白結構水平上分析其對蛋白功能的影響。該數(shù)據(jù)庫為每個蛋白提供了兩個不同的分析工具:e-Driver和e-Drug。E-Driver可展示突變在蛋白中的位置、存在的結構域、與之相互作用的蛋白,并提供蛋白結構的3D視圖,幫助用戶判斷突變對蛋白功能的潛在影響;e-Drug可提供蛋白突變對藥物活性的影響,可查看不同結構域上的突變對藥物活性的影響,可幫助用戶發(fā)掘出蛋白中可能的藥物靶點結構域。Cancer3D提供的這兩項服務可幫助研究者評估突變對蛋白功能以及藥物效果的影響,理解腫瘤突變和賴藥性的關系,具有重要的應用價值。
腫瘤相關基因包括原癌基因和抑癌基因,大部分都與細胞的生長、增殖、遷移、侵襲、衰老、凋亡以及細胞周期有關。隨著研究的深入,已經(jīng)發(fā)現(xiàn)許多與腫瘤相關的基因。對于已知腫瘤相關基因的收集、整理并共享可幫助研究者快速獲得大量的腫瘤相關基因的信息,減少研究者的時間成本。以下對一些腫瘤相關基因的數(shù)據(jù)庫作簡單介紹。
DriverDB(http://driverdb.ym.edu.tw/Driver DB/)[42]收集了來自 TCGA、ICGC、TARGET 等數(shù)據(jù)庫的總共6 000多個外顯子組測序數(shù)據(jù),并利用dbSNP、COSMIC等注釋信息和生物信息學方法識別腫瘤驅動基因。用戶可通過“Cancer”頁面選取特定的腫瘤類型,得到該腫瘤中的驅動基因列表,并可獲得它們的基因本體信息(GO)、參與的通路以及基因間的互作關系等。而通過“Gene”頁面可搜索感興趣的基因,查看該基因不同區(qū)域在不同腫瘤中的突變頻度。另外,網(wǎng)站還提供元分析(Meta-Analysis),用戶可選取一組樣本做個性化分析。
Network of Cancer Genes(NCG,http://bio.ifomieo-campus.it/ncg)[43]收集和整理了多種腫瘤中的已知和候選的腫瘤相關基因。候選基因數(shù)據(jù)主要來源于基因組測序、外顯子測序以及基因篩選實驗(gene panel screening)。最新版(v5.0)中包含了518個已知的腫瘤相關基因及1053個候選基因,覆蓋了49種腫瘤,同時提供了miRNA與基因之間的調(diào)控關系。用戶可瀏覽或搜索一個或多個基因,獲得與該基因相關的功能和疾病注釋信息、突變信息、表達譜、miRNA及蛋白互作關系等,還可以可視化miRNA調(diào)控關系和蛋白互作網(wǎng)絡,用戶可保存獲得的結果。除此之外,用戶還可下載全部腫瘤相關基因。
TP53MULTLoad(http://p53.fr)[44]是 一 個 人工收集的有關TP53基因突變的網(wǎng)站,包含了UMD TP53(http://www.umd.be:2072/)[45]數(shù) 據(jù) 庫 以 及與TP53有關的信息。用戶可利用該網(wǎng)站獲取到p53蛋白的所有點突變的相關信息,如生化活性等。同時,該網(wǎng)站還提供有關TP53的分析工具,如TP53 Mut Assessor,允許用戶在個人電腦上獲取p53各種突變多方面的信息。
腫瘤細胞的耐藥性是臨床腫瘤治療失敗的主要原因之一,因此尋找耐藥靶點成為腫瘤藥物開發(fā)領域的熱點之一。除了耐藥性,腫瘤細胞對藥物的敏感性、藥物的副作用、腫瘤細胞的潛在藥物靶點開發(fā)等也是腫瘤藥物的重要研究方向,且依賴于醫(yī)療臨床大數(shù)據(jù)的采集和分析。數(shù)據(jù)庫的構建使得結構化的數(shù)據(jù)便于進行統(tǒng)計分析,從而研究治療方案及療效評價、藥物副反應情況、腫瘤病人的治療現(xiàn)狀等,有助于深度挖掘腫瘤細胞與藥物之間的關聯(lián),為精準醫(yī)療提供參考依據(jù),促進腫瘤新藥研發(fā)。
Genomics of Drug Sensitivity in Cancer(GDSC,www.cancerRxgene.org)[46]由英國桑格研究院(Sanger Institute)開發(fā),收集腫瘤細胞對藥物的敏感度和反應。癌基因組的變異會影響臨床治療的效果,不同的靶點對藥物的反應也有很大不同。因此這類數(shù)據(jù)對于發(fā)現(xiàn)潛在的腫瘤治療靶點十分重要。GDSC的數(shù)據(jù)來自75 000個實驗,描述了約200個抗癌藥物在1000多種腫瘤細胞中的反應。該數(shù)據(jù)庫中的癌基因組突變信息來自COSMIC數(shù)據(jù)庫,包括癌基因點突變、基因擴增與丟失、組織類型以及表達譜等。用戶可以從化合物、癌基因和細胞系3個層面對數(shù)據(jù)庫進行檢索,癌基因或細胞系對不同藥物的反應會被詳細列出,并且結果會以圖形化的界面加以展示,包括統(tǒng)計分析,火山圖及相關文獻等。檢索結果以及整個數(shù)據(jù)庫都可由用戶下載以進行后續(xù)分析。
canSAR(http://cansar.icr.ac.uk)[47]是 由 英 國癌癥研究院(The Institute of Cancer Research)開發(fā),致力于幫助藥物開發(fā)與腫瘤轉化醫(yī)學研究。該數(shù)據(jù)庫包含了多種類型的數(shù)據(jù),包括生物學、藥理學、化學、結構生物學和蛋白質(zhì)相互作用網(wǎng)絡。這些不同類型的數(shù)據(jù)被整合起來以解決復雜的生物學問題,例如某個蛋白在不同腫瘤類型中的表達情況或突變情況,哪些化合物可以影響某類腫瘤細胞系的生長,某類藥物會結合哪些蛋白并影響其生物學活性等。用戶可以通過基因、蛋白、蛋白家族、蛋白3D結構、細胞系及藥物來瀏覽或查詢整個數(shù)據(jù)庫,結果以詳細列表的形式展示,并鏈接到相關信息資源。目前canSAR包含2萬多個蛋白,約1.2萬種細胞系,100萬個化合物結構,整合了ArrayExpress、UniProt、COSMIC等11種數(shù)據(jù)源的數(shù)據(jù)。
CancerResource(http://bioinformatics.charite.de/cancerresource)[48]致力于收集與腫瘤相關的化合物與靶標之間的聯(lián)系,由柏林夏洛特醫(yī)科大學開發(fā)。眾多的生物學和醫(yī)學實驗發(fā)現(xiàn)了多種化合物可以用于激活或者抑制與腫瘤相關的癌基因,這些化合物可能成為潛在的藥物靶點。然而這些信息都存在于大量的文獻中,需要用文獻挖掘的方法提取有用的信息。CancerResource通過文獻挖掘以及整合多種數(shù)據(jù)源的方式收集并發(fā)現(xiàn)了大量化合物及其靶點的信息。用戶可以選擇多種檢索數(shù)據(jù)庫的方式,包括搜索化合物、靶標、細胞系、突變、信號通路等。結果頁面包含化合物與靶標的詳細信息、表達圖譜及相關數(shù)據(jù)來源鏈接等。該數(shù)據(jù)庫收錄了近50 000個化合物,3 000多個與腫瘤相關的蛋白,2000多個細胞系以及約9×105條突變信息。由于整合了多種數(shù)據(jù)源,CancerResource提供的數(shù)據(jù)資源非常全面,將有助于精準醫(yī)藥的開發(fā)與研究。
CancerDR(http://crdd.osdd.net/raghava/cancerdr)[49]是另一個有助于精準醫(yī)療的數(shù)據(jù)庫,由印度CSIR微生物技術研究所開發(fā)維護。耐藥性是腫瘤治療的一大障礙,藥物靶點的突變是腫瘤產(chǎn)生耐藥性的重要原因之一。CancerDR收集了148種抗癌藥物以及它們在952種細胞系中的藥理狀況,對于每一個藥物靶點提供了序列的天然變體、突變體、三維結構和序列突變信息。其界面允許用戶通過藥物靶點、細胞系、藥物名稱和三維結構來檢索或者瀏覽數(shù)據(jù)庫,檢索結果將以列表的形式展現(xiàn)。同時,作者還開發(fā)了一些在線分析工具,例如突變序列比對和聚類分析等。該數(shù)據(jù)庫有助于發(fā)現(xiàn)新的藥物靶點突變,并識別能殺死多種癌細胞的藥物分子,從而促進腫瘤耐藥性的治療。
另一個更廣泛收集耐藥性信息的數(shù)據(jù)庫是由劍橋大學開發(fā)的Platinum(http://structure.bioc.cam.ac.uk/platinum)[50]。該數(shù)據(jù)庫不局限于腫瘤數(shù)據(jù),包含超過1000種蛋白配體復合物的三維結構突變,以及這些突變對其親和力的影響。這些數(shù)據(jù)由人工從180多篇相關文獻中提取得到,共有200多個復合物。Platinum的用戶搜索界面包括多種限制條件,能使用戶快速精確地從數(shù)據(jù)庫中檢索出需要的信息。該數(shù)據(jù)庫將蛋白質(zhì)結構突變與配體的親和力關聯(lián)起來,有助于研究由突變引起的疾病耐藥性。
腫瘤生物信息學數(shù)據(jù)庫發(fā)展迅速,但同時也存在一些問題與挑戰(zhàn)。例如,與腫瘤相關的數(shù)據(jù)積累越來越快,單個研究課題就可能產(chǎn)生10 TB以上的原始數(shù)據(jù),分析處理這些數(shù)據(jù)將耗費巨大的計算資源,如果要進行大規(guī)模數(shù)據(jù)分析所需要的資源將是難以承受的,如何將這些海量數(shù)據(jù)有效地存儲起來,并以適當?shù)母袷教峁┙o研究人員成為急需解決的問題。在數(shù)據(jù)迅速積累的情況下保持數(shù)據(jù)庫的及時更新與升級也是非常重要的問題。另外,由于組學數(shù)據(jù)格式并不統(tǒng)一,現(xiàn)有的數(shù)據(jù)庫大多只針對某一種組學數(shù)據(jù)或某一類特定的數(shù)據(jù)類型,整合多種數(shù)據(jù)類型可以促進尋找腫瘤驅動基因及治療靶點,如何將獨立的、分散的數(shù)據(jù)庫中的信息整合到一起并開發(fā)新的數(shù)據(jù)整合算法,形成標準化、全方面的腫瘤信息數(shù)據(jù)庫是目前該研究領域的新挑戰(zhàn)。最后,目前廣泛應用的腫瘤數(shù)據(jù)庫主要集中在歐美等國,而我國有一些高發(fā)腫瘤類型在西方國家并不高發(fā),如鼻咽癌和食管癌,因此這兩類腫瘤的相關數(shù)據(jù)相對較少,研究也不多;反之,在西方國家高發(fā)的黑色素瘤在我國發(fā)病率極低。此外,由于人種的差異,同一種腫瘤在不同人種中的易感位點和基因突變頻率也不盡相同。因此需要開發(fā)一些針對我國特有高發(fā)腫瘤類型或者針對亞洲人群的數(shù)據(jù)庫,為我國的腫瘤研究提供高質(zhì)量的數(shù)據(jù)服務與對比分析,同時完善全球腫瘤研究的數(shù)據(jù)資源。
目前,國內(nèi)癌癥研究相關數(shù)據(jù)庫主要涉及到癌癥病例的收集和整理的腫瘤登記數(shù)據(jù)庫以及針對miRNA、甲基化等熱門領域的數(shù)據(jù)庫。前者根據(jù)癌癥病例數(shù)據(jù)的特點設計適宜的數(shù)據(jù)庫結構,提高病例信息的管理水平,是循證醫(yī)學十分重要的資源。目前,已有針對乳腺癌[51]、原發(fā)骨腫瘤[52]、腦腫瘤[53]等癌癥的數(shù)據(jù)庫,收集和整理了不同癌癥患者的病例信息。而miRNA、甲基化是目前生物學研究的前沿和熱門領域,也是國內(nèi)癌癥研究的重要方向。除了前述的 MethyCancer[24]、DiseaseMeth[28]及OncomiRDB[33]等數(shù)據(jù)庫外,還有多個數(shù)據(jù)庫也是針對這些熱門領域的。dbDEMC[54]和 nc2Cancer[55]都是人類癌癥相關的非編碼RNA數(shù)據(jù)庫,分別記錄了非編碼RNA的表達譜及其與腫瘤的關系;而李孟嬌等[56]構建的有關喉癌的數(shù)據(jù)庫則整理與喉癌相關的基因、蛋白以及miRNA甲基化和表達數(shù)據(jù)。這些數(shù)據(jù)庫的構建為國內(nèi)的癌癥研究積累了重要的具有地域特色的癌癥基礎數(shù)據(jù),為針對本國的腫瘤研究奠定了一定的基礎。值得注意的是,我國腫瘤病例登記目前還處在初級階段,信息分散且數(shù)據(jù)量比較有限,需要更多的努力來整合并擴大覆蓋面;而針對熱門領域的數(shù)據(jù)庫要注重數(shù)據(jù)庫的維持和更新,保持數(shù)據(jù)庫的時效性,進一步提高數(shù)據(jù)的科研和應用價值。
雖然存在問題與挑戰(zhàn),腫瘤生物信息學數(shù)據(jù)庫已經(jīng)為腫瘤研究做出了巨大的貢獻。癌癥研究領域豐富的實驗數(shù)據(jù)促進了一大批腫瘤生物信息學數(shù)據(jù)庫的出現(xiàn),這些數(shù)據(jù)庫所提供的在線數(shù)據(jù)分析功能與下載平臺又大大地促進了我們對腫瘤發(fā)生發(fā)展機制的認識。隨著生物學大數(shù)據(jù)時代的到來,利用生物信息學進行數(shù)據(jù)分析與詮釋已經(jīng)成為實驗研究不可或缺的手段與資源。隨著日新月異的技術革新與精準醫(yī)療項目的開展,必定會出現(xiàn)更多的腫瘤數(shù)據(jù)庫,并最終從根本上改變癌癥的診斷和治療方式。
[1]Stratton MR, Campbell PJ, Futreal PA. The cancer genome[J].Nature, 2009, 458:719-724.
[2]Benson DA, Clark K, Karsch-Mizrachi I, et al. GenBank[J].Nucleic Acids Res, 2015, 43(Database issue):D30-35.
[3]Li W, Cowley A,Uludag M, et al. The EMBL-EBI bioinformatics web and programmatic tools framework[J]. Nucleic Acids Res, 2015,43(W1):W580-584.
[4]Kodama Y, Mashima J, Kosuge T, et al. The DDBJ Japanese Genotype-phenotype Archive for genetic and phenotypic human data[J]. Nucleic Acids Res, 2015, 43(Database issue):D18-22.
[5]Weinstein JN, Collisson EA, Mills GB, et al. The Cancer Genome Atlas Pan-Cancer analysis project[J]. Nat Genet, 2013, 45:1113-1120.
[6]Hoadley KA, Yau C, Wolf DM, et al. Multiplatform analysis of 12 cancer types reveals molecular classification within and across tissues of origin[J]. Cell, 2014, 158(4):929-944.
[7]Alexandrov LB, Nik-Zainal S, Wedge DC, et al. Signatures of mutational processes in human cancer[J]. Nature, 2013, 500(7463):415-421.
[8]Grieb BC, Chen X, Eischen CM. MTBP is overexpressed in triple-negative breast cancer and contributes to its growth and survival[J]. Mol Cancer Res, 2014, 12(9):1216-1224.
[9]Lappalainen I, Almeida-King J, Kumanduri V, et al. The European Genome-phenome Archive of human data consented for biomedical research[J]. Nat Genet, 2015, 47(7):692-695.
[10]Wilks C, Cline MS, Weiler E, et al. The Cancer Genomics Hub(CGHub):overcoming cancer through the power of torrential data[J]. Database(Oxford), 2014, 2014. pii:bau093.
[11]International Cancer Genome Consortium. International network of cancer genome projects. [J]. Nature, 2010, 464(7291):993-998.
[12]Strausberg RL, Buetow KH, Emmert-Buck MR, et al. The cancer genome anatomy project:building an annotated gene index[J].Trends Genet, 2000, 16(3):103-106.
[13]Forbes SA, Beare D, Gunasekaran P, et al. COSMIC:exploring the world's knowledge of somatic mutations in human cancer[J].Nucleic Acids Res, 2015, 43(Database issue):D805-811.
[14]Gao J, Aksoy BA, DogrusozU, et al. Integrative analysis of complex cancer genomics and clinical profiles using the cBioPortal[J].Sci Signal, 2013, 6(269):pl1.
[15]Goldman M, Craft B, Swatloski T, et al. TheUCSC Cancer Genomics Browser:update 2015[J]. Nucleic Acids Res, 2015,43(Database issue):D812-817.
[16]Zhang J, Finney RP, Rowe W, et al. Systematic analysis of genetic alterations in tumors using Cancer Genome WorkBench(CGWB)[J]. Genome Res, 2007, 17(7):1111-1117.
[17]Samur MK, Yan Z, Wang X, et al. canEvolve:a web portal for integrative oncogenomics[J]. PLoS One, 2013, 8(2):e56228.
[18]Cai H, Gupta S, Rath P, et al. arrayMap 2014:an updated cancer genome resource. [J]. Nucleic Acids Res, 2015, 43(Database issue):D825-830.
[19]Cao Q, Zhou M, Wang X, et al. CaSNP:a database for interrogating copy number alterations of cancer genome from SNP array data[J]. Nucleic Acids Res, 2011, 39(Database issue):D968-974.
[20]Scheinin I, Myllykangas S, Borze I, et al. CanGEM:mining gene copy number changes in cancer. [J]. Nucleic Acids Res, 2008, 36(Database issue):D830-835.
[21]Timms B. Cancer genome project to start[J]. Eur J Cancer, 2000,36(6):687.
[22]Wu TJ, Shamsaddini A, Pan Y, et al. A framework for organizing cancer-related variations from existing databases, publications and NGS data using a High-performance Integrated Virtual Environment(HIVE)[J]. Database(Oxford), 2014, 2014:bau022.
[23]Formosa A, Lena AM, Markert EK, et al. DNA methylation silences miR-132 in prostate cancer[J]. Oncogene, 2013, 32(1):127-134.
[24]He X, Chang S, Zhang J, et al. MethyCancer:the database of human DNA methylation and cancer[J]. Nucleic Acids Res,2008, 36(Database issue):D836-841.
[25]Huang WY, Hsu SD, Huang HY, et al. MethHC:a database of DNA methylation and gene expression in human cancer[J].Nucleic Acids Res, 2015, 43(Database issue):D856-861.
[26]Baek SJ, Yang S, Kang TW, et al. MENT:methylation and expression database of normal and tumor tissues[J]. Gene, 2013,518(1):194-200.
[27]Barrett T, Wilhite SE, Ledoux P, et al. NCBI GEO:archive for functional genomics data sets--update[J]. Nucleic Acids Res,2013, 41(Database issue):D991-995.
[28]Lv J, Liu H, Su J, et al. DiseaseMeth:a human disease methylation database[J]. Nucleic Acids Res, 2012, 40(Database issue):D1030-1035.
[29]Negre V, Grunau C. The MethDB DAS server:adding an epigenetic information layer to the human genome[J].Epigenetics, 2006, 1(2):101-105.
[30]Geisen S, Barturen G, Alganza AM, et al. NGSmethDB:an updated genome resource for high quality, single-cytosine resolution methylomes[J]. Nucleic Acids Res, 2014, 42(Database issue):D53-59.
[31]Kolesnikov N, Hastings E, Keays M, et al. ArrayExpress update--simplifying data submissions[J]. Nucleic Acids Res, 2015, 43(Database issue):D1113-1116.
[32]Rhodes DR, Kalyana-Sundaram S, Mahavisno V, et al. Oncomine 3.0:genes, pathways, and networks in a collection of 18, 000 cancer gene expression profiles[J]. Neoplasia, 2007, 9(2):166-180.
[33]Wang D, Gu J, Wang T, et al. OncomiRDB:a database for the experimentally verified oncogenic and tumor-suppressive microRNAs[J]. Bioinformatics, 2014, 30(15):2237-2238.
[34]Xie B, Ding Q, Han H, et al. miRCancer:a microRNA-cancer association database constructed by textmining on literature[J].Bioinformatics, 2013, 29(5):638-644.
[35]Bhattacharya A, Ziebarth JD, Cui Y. SomamiR:a database for somatic mutations impacting microRNA function in cancer[J].Nucleic Acids Res, 2013, 41(Database issue):D977-982.
[36]Frenkel-Morgenstern M, Gorohovski A, Vucenovic D, et al.ChiTaRS 2. 1--an improved database of the chimeric transcripts and RNA-seq data with novel sense-antisense chimeric RNA transcripts[J]. Nucleic Acids Res, 2015, 43(Database issue):D68-75.
[37]Ellis MJ, Gillette M, Carr SA, et al. Connecting genomic alterations to cancer biology with proteomics:the NCI Clinical Proteomic Tumor Analysis Consortium[J]. Cancer Discov, 2013, 3(10):1108-1112.
[38]He Y, Zhang M, Ju Y, et al. dbDEPC 2. 0:updated database of differentially expressed proteins in human cancers[J]. Nucleic Acids Res, 2012, 40(Database issue):D964-971.
[39]Li J, Duncan DT, Zhang B. CanProVar:a human cancer proteome variation database[J]. Hum Mutat, 2010, 31(3):219-228.
[40]Tyagi A, Tuknait A, Anand P, et al. CancerPPD:a database of anticancer peptides and proteins[J]. Nucleic Acids Res, 2015,43(Database issue):D837-843.
[41]Porta-Pardo E, Hrabe T, Godzik A. Cancer3D:understanding cancer mutations through protein structures[J]. Nucleic Acids Res, 2015, 43(Database issue):D968-973.
[42]Cheng WC, Chung IF, Chen CY, et al. DriverDB:an exome sequencing database for cancer driver gene identification[J].Nucleic Acids Res, 2014, 42(Database issue):D1048-1054.
[43]An O, Pendino V, D'Antonio M, et al. NCG 4. 0:the network of cancer genes in the era of massive mutational screenings of cancer genomes[J]. Database(Oxford), 2014, 2014:bau015.
[44]Leroy B, Fournier JL, Ishioka C, et al. The TP53 website:an integrative resource centre for the TP53 mutation database and TP53 mutant analysis[J]. Nucleic Acids Res, 2013, 41(Database issue):D962-969.
[45]Hamroun D, Kato S, Ishioka C, et al. TheUMD TP53 database and website:update and revisions[J]. Hum Mutat, 2006, 27(1):14-20.
[46]Yang W, Soares J, Greninger P, et al. Genomics of Drug Sensitivity in Cancer(GDSC):a resource for therapeutic biomarker discovery in cancer cells[J]. Nucleic Acids Res, 2013, 41(Database issue):D955-961.
[47]Bulusu KC, Tym JE, Coker EA, et al. canSAR:updated cancer research and drug discovery knowledgebase[J]. Nucleic Acids Res, 2014, 42(Database issue):D1040-1047.
[48]Ahmed J, Meinel T, Dunkel M, et al. CancerResource:a comprehensive database of cancer-relevant proteins and compound interactions supported by experimental knowledge[J]. Nucleic Acids Res, 2011, 39(Database issue):D960-967.
[49]Kumar R, Chaudhary K, Gupta S, et al. CancerDR:cancer drug resistance database[J]. Sci Rep, 2013, 3:1445.
[50]Pires DE, Blundell TL, Ascher DB. Platinum:a database of experimentally measured effects of mutations on structurally defined protein-ligand complexes[J]. Nucleic Acids Res, 2015,43(Database issue):D387-391.
[51]李金平, 李宏, 廉斌, 等. 乳腺癌電子數(shù)據(jù)庫的建立及臨床應用[J]. 海南醫(yī)學 , 2013, 24(9):1371-1372.
[52]單華超, 徐海榮, 李遠, 等. 原發(fā)骨腫瘤流行病學數(shù)據(jù)庫的建立與使用[J]. 中國骨與關節(jié)雜志, 2015(9):693-696.
[53]鄭虎, 張紅波, 孫彥輝, 等. 腦腫瘤患者認知障礙數(shù)據(jù)庫的初步建立及臨床意義[J]. 數(shù)理醫(yī)藥學雜志, 2013(4):410-412.
[54]崔洪亮, 張陽德, 任菲. dbDEMC2. 0:人類癌癥相關miRNA數(shù)據(jù)庫2. 0[J]. 中國現(xiàn)代醫(yī)學雜志, 2014, 24(3):77-79.
[55]程卓, 劉珂, 嚴章明, 等. nc2Cancer:一個研究與癌癥相關人類非編碼RNA的數(shù)據(jù)庫[J]. 生物信息學, 2015, 13(2):77-81.
[56]李孟嬌, 鄂琪敏, 劉加林, 等. 喉癌相關基因和miRNA綜合數(shù)據(jù)庫的構建[J]. 中華耳鼻咽喉頭頸外科雜志, 2015, 50(9):765-768.