張國(guó)慶 李亦學(xué) 王澤峰 趙國(guó)屏
1 中國(guó)科學(xué)院計(jì)算生物學(xué)重點(diǎn)實(shí)驗(yàn)室生物醫(yī)學(xué)大數(shù)據(jù)中心,中國(guó)科學(xué)院-馬普學(xué)會(huì)計(jì)算生物學(xué)伙伴研究所,中國(guó)科學(xué)院上海生命科學(xué)研究院(上海營(yíng)養(yǎng)與健康研究院),中國(guó)科學(xué)院大學(xué) 上海 200031 2 上海生物信息技術(shù)研究中心 上海 201203
人類基因組計(jì)劃啟動(dòng)以來,以新一代測(cè)序技術(shù)和質(zhì)譜技術(shù)為代表的各類組學(xué)技術(shù)的飛速發(fā)展,推動(dòng)了基因組、轉(zhuǎn)錄組、表觀遺傳組、蛋白質(zhì)組、代謝組等海量生命科學(xué)組學(xué)數(shù)據(jù)的指數(shù)級(jí)的增長(zhǎng)[1,2]。一方面,機(jī)器學(xué)習(xí)和人工智能技術(shù)極大提升了醫(yī)學(xué)影像和分子影像技術(shù)的分析能力,正在改變以影像組、放射組為代表的醫(yī)學(xué)影像數(shù)據(jù)的應(yīng)用方式。高通量實(shí)驗(yàn)技術(shù)的突破,直接把生物醫(yī)學(xué)數(shù)據(jù)從以基因組為代表的 PB 量級(jí)時(shí)代推升到多組學(xué)融合的 EB 量級(jí)時(shí)代。另一方面,人群隊(duì)列研究、分子流行病學(xué)研究產(chǎn)生了大量長(zhǎng)時(shí)間、廣空間的數(shù)據(jù),表型組從分子、細(xì)胞、組織、器官、個(gè)體等多層面描述了高維數(shù)據(jù),真實(shí)世界數(shù)據(jù)(real world data)回顧性地匯總分析海量的臨床信息數(shù)據(jù)[3,4],這些數(shù)據(jù)構(gòu)成了復(fù)雜的高維度生物醫(yī)學(xué)大數(shù)據(jù)。
我們已經(jīng)進(jìn)入了具備相當(dāng)深度和廣度的生物醫(yī)學(xué)大數(shù)據(jù)時(shí)代。生物醫(yī)學(xué)臨床數(shù)據(jù)呈現(xiàn)數(shù)量巨大、增長(zhǎng)迅速、質(zhì)量控制困難、來源廣泛繁雜、難以標(biāo)準(zhǔn)化與結(jié)構(gòu)化等特點(diǎn),生物醫(yī)學(xué)研究數(shù)據(jù)呈現(xiàn)種類繁多、內(nèi)部結(jié)構(gòu)高維復(fù)雜、內(nèi)涵豐富、數(shù)據(jù)相對(duì)分散、難以高維度多層次交匯共享等特點(diǎn),生物醫(yī)學(xué)數(shù)據(jù)總體表現(xiàn)為數(shù)據(jù)零散分布、難以有效整合分析,從而導(dǎo)致難以挖掘生物醫(yī)學(xué)大數(shù)據(jù)的潛在高價(jià)值。對(duì)我國(guó)生物醫(yī)學(xué)而言,數(shù)據(jù)無匯交機(jī)制,導(dǎo)致存儲(chǔ)碎片化、管理分散、流失損耗嚴(yán)重;數(shù)據(jù)無安全保障,無國(guó)際交流窗口,被迫持續(xù)成為世界最大組學(xué)數(shù)據(jù)輸出國(guó);數(shù)據(jù)無共享平臺(tái),標(biāo)準(zhǔn)化管理混亂,質(zhì)量參差不齊,開放共享受國(guó)際、國(guó)內(nèi)的政策與技術(shù)的雙重限制。
生物醫(yī)學(xué)研究正在發(fā)生面向數(shù)據(jù)密集型的第四科學(xué)范式的深刻變革,如何實(shí)現(xiàn)從“組學(xué)”到臨床與健康人群數(shù)據(jù)的生物醫(yī)學(xué)大數(shù)據(jù)的交匯、綜合管理、利用和共享,將多層次臨床與研究數(shù)據(jù)進(jìn)行深度挖掘和高維度、全方位的有機(jī)整合,將大數(shù)據(jù)迅速轉(zhuǎn)化為新知識(shí),成為我們所面臨的挑戰(zhàn),其中研究建設(shè)下一代生物醫(yī)學(xué)大數(shù)據(jù)存儲(chǔ)、共享和轉(zhuǎn)化中心的關(guān)鍵要素(圖 1)。
圖 1 生物醫(yī)學(xué)大數(shù)據(jù)平臺(tái)的技術(shù)關(guān)鍵
早在 20 世紀(jì) 80—90 年代,美國(guó)、歐洲和日本即已分別建立世界三大生物數(shù)據(jù)中心,即美國(guó)國(guó)家生物技術(shù)信息中心(NCBI)、歐洲生物信息研究所(EBI)和日本DNA 數(shù)據(jù)庫(kù)(DDBJ)。這三大數(shù)據(jù)中心經(jīng)過近 3 0年的建設(shè),已經(jīng)形成了完備的數(shù)據(jù)匯交技術(shù)體系,在基因組、轉(zhuǎn)錄組、蛋白質(zhì)組等領(lǐng)域發(fā)揮著重要影響力[5-11]。國(guó)內(nèi)機(jī)構(gòu)也已經(jīng)開始按照數(shù)據(jù)類型建設(shè)了 GSA[12]、iPROX①http://www.iprox.org/.、WDCM[13]等基因組、蛋白質(zhì)組、微生物資源等組學(xué)數(shù)據(jù)中心。我國(guó)健康醫(yī)療大數(shù)據(jù)中心的“1+5+X”規(guī)劃已經(jīng)落地,即國(guó)家數(shù)據(jù)中心與江蘇、福建、山東、安徽、貴州的東、南、西、北、中 5 個(gè)健康醫(yī)療大數(shù)據(jù)區(qū)域中心已經(jīng)形成,將容納全體公民健康醫(yī)療大數(shù)據(jù)。
各類已建、在建的生命科學(xué)和健康醫(yī)療數(shù)據(jù)中心,極大地豐富了生命科學(xué)、臨床醫(yī)療等生物醫(yī)學(xué)大數(shù)據(jù)的采集能力。但是隨著數(shù)據(jù)規(guī)模的增加,如何更加有效地利用數(shù)據(jù)成了挑戰(zhàn)。傳統(tǒng)的數(shù)據(jù)模型和數(shù)據(jù)組織方式,已經(jīng)無法滿足海量數(shù)據(jù)的結(jié)構(gòu)、數(shù)量快速增長(zhǎng)以及數(shù)據(jù)結(jié)構(gòu)不斷變化的管理需求,難以按照實(shí)際情況動(dòng)態(tài)調(diào)整。對(duì)于已有或者將要建設(shè)的綜合性生物醫(yī)學(xué)大數(shù)據(jù)平臺(tái)而言,有必要突破傳統(tǒng)的嚴(yán)格按照一類數(shù)據(jù)建設(shè)一個(gè)數(shù)據(jù)庫(kù)的模式,采用新的倉(cāng)儲(chǔ)式的數(shù)據(jù)倉(cāng)庫(kù)模式,在底層數(shù)據(jù)結(jié)構(gòu)上以整合為導(dǎo)向,按照樣本、宿主、環(huán)境等信息,以及時(shí)間、空間信息,預(yù)留不同類型的數(shù)據(jù)之間的聯(lián)系,形成彈性的數(shù)據(jù)結(jié)構(gòu),支持?jǐn)?shù)據(jù)結(jié)構(gòu)動(dòng)態(tài)調(diào)整,為后期數(shù)據(jù)集成與整合工作奠定堅(jiān)實(shí)的基礎(chǔ)。
NCBI 和 EBI 等機(jī)構(gòu)通過數(shù)據(jù)遞交服務(wù)匯聚了大量的數(shù)據(jù)資源,并通過網(wǎng)絡(luò)提供數(shù)據(jù)共享。截至 2018 年 7月,NCBI 和 EBI 提供的生物序列、分子結(jié)構(gòu)、遺傳信息、表型信息等可以共享的數(shù)據(jù)接近資源都已經(jīng)超過 60 項(xiàng)[7],這些數(shù)據(jù)資源極大地促進(jìn)了生命科學(xué)與生物醫(yī)學(xué)研究。除了共享第三方遞交的數(shù)據(jù)資源外,以美國(guó)國(guó)家癌癥研究院(NCI)建立的 TCGA(The Cancer Genome Atlas)數(shù)據(jù)庫(kù)[14]、英國(guó)的國(guó)家隊(duì)列 UK Biobank(UKB)②http://www.ukbiobank.ac.uk.等,采用的是另外一種模式,即依托大型科研項(xiàng)目產(chǎn)出的數(shù)據(jù),提供分級(jí)共享,滿足不同類型的科研需求。介于這兩者之間,中小型研究團(tuán)隊(duì)利用自身的數(shù)據(jù)采集能力和整合能力,建立了大量的種類繁多、規(guī)模懸殊、質(zhì)量參差不齊的數(shù)據(jù)庫(kù)和知識(shí)庫(kù),提供數(shù)據(jù)查詢、瀏覽、下載服務(wù),部分?jǐn)?shù)據(jù)庫(kù)還提供在線分析服務(wù)。Nucleic Acids Research 每年第 1 期都出版數(shù)據(jù)庫(kù)??侥壳盀橹?,已經(jīng)發(fā)表了 1 737 篇數(shù)據(jù)庫(kù)相關(guān)論文[15],其已經(jīng)成為生物醫(yī)學(xué)數(shù)據(jù)庫(kù)領(lǐng)域最有影響力的???。
這些按照數(shù)據(jù)類型(如基因組、轉(zhuǎn)錄組、蛋白質(zhì)組等)、物種(如人類、人類以外、脊椎動(dòng)物、無脊椎動(dòng)物、微生物等)、研究目的(如遺傳變異、轉(zhuǎn)錄因子、調(diào)控網(wǎng)絡(luò))等方式建設(shè)的數(shù)據(jù)庫(kù),在推進(jìn)數(shù)據(jù)共享方面發(fā)揮了巨大的作用。但是隨著數(shù)據(jù)類型和規(guī)模的日益擴(kuò)大,如何存儲(chǔ)、組織、訪問存放在不同平臺(tái)上的不同類型的生物醫(yī)學(xué)數(shù)據(jù)成為新的挑戰(zhàn)。為此,研究者提出 FAIR 原則,即可發(fā)現(xiàn)(findable)、可訪問(accessible)、互操作(interoperable)和重用(reusable)[16]?;?FAIR 原則,BD2K[17]、OmicsDI[18]等平臺(tái)采用搜索引擎等技術(shù)突破傳統(tǒng)的以主題為基礎(chǔ)建設(shè)的數(shù)據(jù)庫(kù)的局限性,對(duì) EBI、NCBI 等數(shù)據(jù)中心的數(shù)據(jù)資源提供統(tǒng)一檢索服務(wù),實(shí)現(xiàn)以搜索引擎為核心的數(shù)據(jù)跨庫(kù)整合,更好地滿足用戶一站式的數(shù)據(jù)共享需求。
除了搜索技術(shù)外,數(shù)據(jù)可視化、在線分析也是用戶利用數(shù)據(jù)的重要手段。新的可視化技術(shù),包括 HTML5、JavaScript 等 Web 展示技術(shù)在數(shù)據(jù)平臺(tái)中的應(yīng)用越來越廣泛,用于大分子展示、分子影像、基因組瀏覽器等[19-21]。此外,依托數(shù)據(jù)庫(kù)的分子序列、分子結(jié)構(gòu)、調(diào)控及相互作用網(wǎng)絡(luò)等數(shù)據(jù),數(shù)據(jù)庫(kù)根據(jù)自身特點(diǎn),集成了序列比對(duì)、多序列比對(duì)、結(jié)構(gòu)相似性比較、網(wǎng)絡(luò)結(jié)構(gòu)分析等在線分析的工具,也極大地加強(qiáng)了數(shù)據(jù)的可交互性。
在建設(shè)生物醫(yī)學(xué)大數(shù)據(jù)平臺(tái)時(shí),TB 量級(jí)的數(shù)據(jù)下載需求對(duì)數(shù)據(jù)下載、單庫(kù)檢索等數(shù)據(jù)共享手段提出了嚴(yán)峻的挑戰(zhàn)。因此在延續(xù)按照主題(數(shù)據(jù)類型、物種、研究領(lǐng)域)組織數(shù)據(jù)的基礎(chǔ)上,引入跨庫(kù)搜索引擎、可視化、在線分析等在線交互技術(shù),通過更加準(zhǔn)確地返回用戶數(shù)據(jù)訪問結(jié)果的方式,提高數(shù)據(jù)共享效率。
從分析的角度來看,生物醫(yī)學(xué)大數(shù)據(jù)包括生命科學(xué)研究數(shù)據(jù),以及臨床醫(yī)學(xué)數(shù)據(jù)。在生物信息學(xué)、計(jì)算生物學(xué)、系統(tǒng)生物學(xué)等計(jì)算學(xué)科的支持下,以基因組、轉(zhuǎn)錄組、蛋白質(zhì)組、代謝組等組學(xué)數(shù)據(jù)為代表的生命科學(xué)研究數(shù)據(jù)的分析方法已經(jīng)日趨成熟,分析流程日益普及,正在逐步成為傳統(tǒng)的信息技術(shù)。臨床醫(yī)學(xué)數(shù)據(jù)在數(shù)據(jù)統(tǒng)計(jì)、數(shù)據(jù)建模、機(jī)器學(xué)習(xí)等技術(shù)的支持下,SAS、MATLAB、R 語言等分析工具也得到了廣泛應(yīng)用。
數(shù)據(jù)挖掘能力,尤其是組學(xué)數(shù)據(jù)挖掘能力,越來越難以滿足飛速增長(zhǎng)的數(shù)據(jù)產(chǎn)出。其面臨的主要挑戰(zhàn)在于:數(shù)據(jù)量越來越大,需要速度更快的數(shù)據(jù)壓縮、傳輸、分析方法[22,23];數(shù)據(jù)維度越來越高,需要更加準(zhǔn)確的降維方法[24]?;?GPU(圖形處理器)、FPGA(現(xiàn)場(chǎng)可編程門陣列)等硬件技術(shù),對(duì)傳統(tǒng)的生物信息分析方法的限速步驟進(jìn)行算法優(yōu)化,在序列比對(duì)、分子對(duì)接得到越來越多的應(yīng)用[25,26]。而以深度神經(jīng)網(wǎng)絡(luò)為代表的人工智能技術(shù),在醫(yī)學(xué)影像處理、高維數(shù)據(jù)降維等方面的應(yīng)用呈現(xiàn)爆發(fā)式的增長(zhǎng),包括致盲性視網(wǎng)膜疾病與肺炎、阿爾茨海默病、皮膚癌、腦膜瘤等醫(yī)學(xué)影像輔助診斷等[27-30]。此外,區(qū)塊鏈技術(shù)由于其去中心的特性,也開始在生物醫(yī)學(xué)數(shù)據(jù)共享方面得到應(yīng)用[31,32]。
前沿信息技術(shù)在生物醫(yī)學(xué)大數(shù)據(jù)中的應(yīng)用,將涵蓋數(shù)據(jù)預(yù)處理、數(shù)據(jù)傳輸、數(shù)據(jù)分析、數(shù)據(jù)共享等范圍,提升數(shù)據(jù)挖掘能力。
生物醫(yī)學(xué)大數(shù)據(jù)的數(shù)據(jù)標(biāo)準(zhǔn)包括術(shù)語集、數(shù)據(jù)標(biāo)準(zhǔn)、綜合標(biāo)準(zhǔn)等。典型的術(shù)語集包括基因本體 GO[33]、人類表型本體 HPO[34]等,序列最簡(jiǎn)描述信息標(biāo)準(zhǔn)集包括 MIxS 與 MIGS[35-37]以及 ICD10③http://apps.who.int/classi fi cations/icd10/browse/2016/en.、SNOMED-CT④https://www.snomed.org/snomed-ct.等醫(yī)學(xué)數(shù)據(jù)標(biāo)準(zhǔn)。生命科學(xué)領(lǐng)域的數(shù)據(jù)標(biāo)準(zhǔn)大多由有國(guó)際影響力的機(jī)構(gòu)或協(xié)會(huì)率先提出,伴隨配套的數(shù)據(jù)解析或分析軟件,逐步得到學(xué)術(shù)界的認(rèn)可。例如:由國(guó)際核酸序列數(shù)據(jù)庫(kù)協(xié)會(huì)(INSDC)定義的“The DDBJ/ENA/GenBank Feature Table Definition”[8]是 NCBI、EBI 等數(shù)據(jù)中心最早的核酸序列數(shù)據(jù)標(biāo)準(zhǔn),以及基因組拼接數(shù)據(jù)標(biāo)準(zhǔn);EBI 和 NCBI 等定義的基因芯片實(shí)驗(yàn)數(shù)據(jù)標(biāo)準(zhǔn) MIAME[38]、GEO[39],F(xiàn)GED 定義的二代測(cè)序數(shù)據(jù)標(biāo)準(zhǔn) MINSEQE⑤http://fged.org/site_media/pdf/MINSEQE_1.0.pdf.,以及拼接文件格式 BAM、變異文件格式 VCF、遺傳特征描述格式 GFF3⑥http://gmod.org/wiki/GFF3.等,醫(yī)學(xué)領(lǐng)域得到最為廣泛認(rèn)可的數(shù)據(jù)標(biāo)準(zhǔn)是醫(yī)學(xué)影像標(biāo)準(zhǔn) DICOM⑦h(yuǎn)ttps://www.dicomstandard.org/.。醫(yī)學(xué)領(lǐng)域的標(biāo)準(zhǔn)比生命科學(xué)領(lǐng)域的數(shù)據(jù)標(biāo)準(zhǔn)要復(fù)雜得多,規(guī)范化程度也更高。醫(yī)學(xué)領(lǐng)域的標(biāo)準(zhǔn)大多需要經(jīng)過立項(xiàng)、草案、發(fā)布等階段,得到了更為廣泛的認(rèn)可,如國(guó)際標(biāo)準(zhǔn)化組織健康信息學(xué)標(biāo)準(zhǔn)化技術(shù)委員會(huì)的 ISO/TC 215 系列標(biāo)準(zhǔn)⑧https://www.iso.org/committee/54960.html.、HL7(衛(wèi)生信息用戶層,ISO 定義的信息交換7層協(xié)議規(guī)范中的第七層)⑨http://www.hl7.org.、臨床數(shù)據(jù)交換標(biāo)準(zhǔn)協(xié)會(huì) CDISC⑩https://www.cdisc.org.等;標(biāo)準(zhǔn)的范圍也遠(yuǎn)比生命科學(xué)領(lǐng)域的數(shù)據(jù)標(biāo)準(zhǔn)復(fù)雜,包括詞匯術(shù)語、數(shù)據(jù)描述、技術(shù)操作、應(yīng)用服務(wù)和醫(yī)療管理等。
生命科學(xué)的標(biāo)準(zhǔn)主要集中在術(shù)語集和數(shù)據(jù)標(biāo)準(zhǔn),不同的標(biāo)準(zhǔn)之間相對(duì)獨(dú)立,對(duì)數(shù)據(jù)產(chǎn)出過程、分析過程的規(guī)范性表述較少。醫(yī)學(xué)的數(shù)據(jù)標(biāo)準(zhǔn)更強(qiáng)調(diào)互操作、互聯(lián)互通等,不同的標(biāo)準(zhǔn)自成體系,但是對(duì)支撐科研的數(shù)據(jù)標(biāo)準(zhǔn)的描述反而較少。因此,生物醫(yī)學(xué)大數(shù)據(jù)亟待加強(qiáng)臨床科研的數(shù)據(jù)標(biāo)準(zhǔn)體系的建設(shè),以及數(shù)據(jù)分析過程的操作相關(guān)的標(biāo)準(zhǔn)的建設(shè)。
數(shù)據(jù)質(zhì)量控制受到數(shù)據(jù)產(chǎn)出、數(shù)據(jù)分析的影響,不同的數(shù)據(jù)質(zhì)控有所差別。芯片、基因組數(shù)以美國(guó)食品藥品監(jiān)督管理局(FDA)主導(dǎo)的 MAQC、MAQC-II、MAQC-III 等[40-44],由于獨(dú)立于技術(shù)系統(tǒng)之前,得到了較為廣泛的認(rèn)可。蛋白質(zhì)組的數(shù)據(jù)質(zhì)控,缺少與 MAQC 相匹配的大項(xiàng)目,而是主要通過 PRIDE、iPROX 等數(shù)據(jù)匯交平臺(tái)的質(zhì)控工具[45,46]來體現(xiàn)。數(shù)據(jù)質(zhì)量控制需要提供參考數(shù)據(jù)集作為基準(zhǔn),包括實(shí)驗(yàn)方法產(chǎn)出的原始數(shù)據(jù)與參考數(shù)據(jù)集的吻合情況,以及數(shù)據(jù)分析形成的分析結(jié)果與參考數(shù)據(jù)集的吻合情況。因此,針對(duì)有廣泛用途或者重要用途的數(shù)據(jù)類型,建設(shè)參考數(shù)據(jù)集、參考數(shù)據(jù)分析流程,是數(shù)據(jù)質(zhì)量控制的關(guān)鍵環(huán)節(jié),也是生物醫(yī)學(xué)大數(shù)據(jù)平臺(tái)的重要建設(shè)內(nèi)容。
我們正在建設(shè)以組學(xué)數(shù)據(jù)百科全書——NODE?為代表的開放式基礎(chǔ)性平臺(tái),并達(dá)到了一定的數(shù)據(jù)規(guī)模。其中,在整合存儲(chǔ)方面,數(shù)據(jù)平臺(tái)與數(shù)據(jù)庫(kù)包括以微生物組大數(shù)據(jù)平臺(tái)為代表的領(lǐng)域示范平臺(tái),以駱駝基因組變異數(shù)據(jù)庫(kù)、可翻譯轉(zhuǎn)錄組 RNA 數(shù)據(jù)庫(kù)等為代表的專題數(shù)據(jù)庫(kù)。在交互共享方面,正在向 NODE 系統(tǒng)集成全基因組、外顯子組、轉(zhuǎn)錄組等常規(guī)組學(xué)數(shù)據(jù)分析流程,微生物 16S RNA、宏基因組、微生物功能注釋等領(lǐng)域組學(xué)數(shù)據(jù)分析流程。在前沿信息技術(shù)方面,利用 GPU 技術(shù)對(duì)轉(zhuǎn)錄組、宏基因組等組學(xué)數(shù)據(jù)拼接、映射等高資源消耗的環(huán)節(jié)進(jìn)行優(yōu)化。在標(biāo)準(zhǔn)質(zhì)控方面,開展了包括描述信息和原始數(shù)據(jù)在內(nèi)的質(zhì)量控制,并建立了自動(dòng)化的質(zhì)控流程,將實(shí)現(xiàn)數(shù)據(jù)匯交時(shí)就自動(dòng)完成質(zhì)控評(píng)估的功能。
面對(duì)生物醫(yī)學(xué)大數(shù)據(jù)的挑戰(zhàn),建立全面支撐生命科學(xué)研究數(shù)據(jù)與健康醫(yī)學(xué)大數(shù)據(jù)的匯交、管理、共享與挖掘的技術(shù)與資源體系,形成以遞交為基礎(chǔ)、以整合為導(dǎo)向的數(shù)據(jù)存儲(chǔ)中心,以主題為基礎(chǔ)、以交互為導(dǎo)向的數(shù)據(jù)共享中心,以及以傳統(tǒng)信息技術(shù)為基礎(chǔ)、以前沿信息技術(shù)為導(dǎo)向的下一代生命科學(xué)數(shù)據(jù)轉(zhuǎn)化中心,將有效地支撐生物醫(yī)學(xué)、健康醫(yī)療等領(lǐng)域的基礎(chǔ)研究、應(yīng)用研究和產(chǎn)業(yè)示范。