陳鳳珍,游麗金,楊帆,王麗娜,郭學(xué)芹,高飛,華聰,談聰,方林,單日強(qiáng),曾文君,王博,王韌,徐訊,,4,魏曉鋒
資源與平臺(tái)
CNGBdb:國家基因庫生命大數(shù)據(jù)平臺(tái)
陳鳳珍1,游麗金1,楊帆1,王麗娜1,郭學(xué)芹1,高飛1,華聰1,談聰1,方林2,單日強(qiáng)3,曾文君1,王博1,王韌1,徐訊1,2,4,魏曉鋒1
1. 深圳國家基因庫,深圳 518120 2. 深圳華大生命科學(xué)研究院,深圳 518083 3. 深圳華大智造科技有限公司,深圳 518083 4. 廣東省高通量基因組測(cè)序與合成編輯應(yīng)用重點(diǎn)實(shí)驗(yàn)室,深圳 518120
國家基因庫生命大數(shù)據(jù)平臺(tái)(China National GeneBank DataBase, CNGBdb)是一個(gè)致力于生命科學(xué)多組學(xué)數(shù)據(jù)歸檔和開放共享的數(shù)據(jù)庫平臺(tái),是深圳國家基因庫的核心功能“三庫兩平臺(tái)”中生物信息數(shù)據(jù)庫的對(duì)外服務(wù)平臺(tái),擁有深圳國家基因庫豐富的樣本資源、數(shù)據(jù)資源、合作項(xiàng)目資源和強(qiáng)大的數(shù)據(jù)計(jì)算和分析能力等優(yōu)勢(shì)。生命科學(xué)研究已經(jīng)進(jìn)入到了一個(gè)以高通量多組學(xué)數(shù)據(jù)為基礎(chǔ)的大數(shù)據(jù)時(shí)代,迫切需要加強(qiáng)國際合作和信息共享。隨著中國經(jīng)濟(jì)的發(fā)展和在生命科學(xué)研究領(lǐng)域的研究項(xiàng)目投入力度的加大,需要建立相關(guān)的生命大數(shù)據(jù)歸檔和共享的平臺(tái), 來促進(jìn)我國生命科學(xué)研究項(xiàng)目中生成的基因組學(xué)數(shù)據(jù)的系統(tǒng)管理、開放共享與合理利用。目前,CNGBdb主要提供生命科學(xué)研究相關(guān)的數(shù)據(jù)歸檔、知識(shí)搜索、數(shù)據(jù)管理、數(shù)據(jù)計(jì)算和數(shù)據(jù)服務(wù)等服務(wù)。其歸檔和共享的數(shù)據(jù)類型,主要包括項(xiàng)目、樣本、實(shí)驗(yàn)、測(cè)序、組裝、變異、序列等。截止2020年5月22號(hào), CNGBdb已接受了全球生命科學(xué)科研工作者提交的研究項(xiàng)目達(dá)2176個(gè),歸檔的基因組學(xué)數(shù)據(jù)量超過2221 TB。未來,CNGBdb將繼續(xù)推動(dòng)生命科學(xué)研究多組學(xué)數(shù)據(jù)的開放共享和產(chǎn)業(yè)應(yīng)用,完善基因組學(xué)數(shù)據(jù)的歸檔和共享功能,提升其服務(wù)生命科學(xué)數(shù)據(jù)開放共享的能力。CNGBdb的網(wǎng)址是:https://db.cngb.org/。
國家基因庫生命大數(shù)據(jù)平臺(tái);數(shù)據(jù)歸檔;數(shù)據(jù)共享;多組學(xué)數(shù)據(jù)
國家基因庫生命大數(shù)據(jù)平臺(tái)(China National Gene Bank DataBase, CNGBdb),是深圳國家基因庫(China National GeneBank, CNGB)[1](以下簡(jiǎn)稱“國家基因庫”)核心功能“三庫兩平臺(tái)”中生物信息數(shù)據(jù)庫的對(duì)外服務(wù)平臺(tái)。CNGB是以公益性、開放性、支撐性、引領(lǐng)性為宗旨,服務(wù)于國家戰(zhàn)略的國家級(jí)創(chuàng)新科研及產(chǎn)業(yè)基礎(chǔ)設(shè)施建設(shè)項(xiàng)目。其中,生物信息數(shù)據(jù)庫致力于存儲(chǔ)人類健康及生物多樣性相關(guān)的數(shù)字化遺傳資源,構(gòu)建生物數(shù)據(jù)庫及數(shù)據(jù)分析平臺(tái),實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)、分析的貫穿,為后續(xù)科研及產(chǎn)業(yè)提供大數(shù)據(jù)源頭保障。
隨著基因組測(cè)序技術(shù)的飛速發(fā)展和測(cè)序成本的大幅下降,生命科學(xué)研究已經(jīng)進(jìn)入到了以高通量多組學(xué)技術(shù)為基礎(chǔ)的大數(shù)據(jù)時(shí)代。為了解決人類生存面臨的諸多問題,在過去的20多年里,世界各國相繼實(shí)施了一些大規(guī)模的包括人類、動(dòng)植物和微生物在內(nèi)基因組測(cè)序項(xiàng)目,如千人基因組項(xiàng)目[2]、國際癌癥基因組項(xiàng)目[3]、水稻參考基因組項(xiàng)目[4,5]、全球3000份水稻(L.)種質(zhì)資源測(cè)序項(xiàng)目[6]、全球超過2萬份大麥種質(zhì)資源測(cè)序項(xiàng)目[7]等。這些項(xiàng)目的實(shí)施促進(jìn)了生命科學(xué)相關(guān)領(lǐng)域研究的快速發(fā)展,特別是人類遺傳疾病致病機(jī)制發(fā)現(xiàn)和動(dòng)植物分子設(shè)計(jì)育種應(yīng)用等領(lǐng)域。迄今,世界范圍有多達(dá)11,508種真核生物,245,875種原核生物和35,746種病毒樣本經(jīng)完成測(cè)序(依據(jù)2020年4月17日的NCBI已測(cè)序物種統(tǒng)計(jì))。同時(shí),還有大量的正在進(jìn)行或即將開始的大型基因組測(cè)序項(xiàng)目,將導(dǎo)致基因組數(shù)據(jù)的爆炸式增長(zhǎng)。
為了實(shí)現(xiàn)這些數(shù)據(jù)的安全保存和開放共享,全球生命科學(xué)研究組織相繼建立了3個(gè)國際生物數(shù)據(jù)庫,分別依托于美國國家生物信息中心(National Centre of Biotechnology, NCBI)的相關(guān)數(shù)據(jù)庫[8],歐洲分子生物實(shí)驗(yàn)室(European Molecular Biology Laboratory)的歐洲生物信息研究所(European Bioin-formatics Institute, EBI)系列數(shù)據(jù)庫[9]和日本國家遺傳研究所的DNA數(shù)據(jù)庫(the DNA Database of Japan, DDBJ)[10]。這3個(gè)數(shù)據(jù)庫的主要功能包括:(1)接收生物學(xué)領(lǐng)域研究人員提交在研究項(xiàng)目過程中生成的基因組測(cè)序數(shù)據(jù),如測(cè)序儀下機(jī)數(shù)據(jù),以及后續(xù)的生物信息分析結(jié)果數(shù)據(jù),如組裝的基因組序列和基因注釋結(jié)果等;(2)維護(hù)覆蓋人類、動(dòng)植物及微生物的物種的參考基因組及基因注釋信息,方便生物研究人員交流和使用。另外,還有大量由生物信息領(lǐng)域研究人員維護(hù),同時(shí)由分子生物學(xué)領(lǐng)域研究人員逐一審核的高質(zhì)量生物大分子知識(shí)數(shù)據(jù)庫[11],如依托于瑞士生物信息研究所(Swiss Institute of Bioin-formatics, SIB)的系列生物數(shù)據(jù)庫[12]和由日本京都大學(xué)和東京大學(xué)聯(lián)合開發(fā)的代謝途徑/通路相關(guān)數(shù)據(jù)庫(Kyoto Encyclopedia of Genes and Genomes, KEGG)[13]。其中,NCBI、EMBL-EBI和DDBJ的核酸數(shù)據(jù)庫組成了國際核酸序列數(shù)據(jù)庫聯(lián)盟(Inter-national Nucleotide Sequence Database Collaboration, INSDC)[14],這3個(gè)核酸數(shù)據(jù)庫之間,每日進(jìn)行數(shù)據(jù)交換,在促進(jìn)國際生物學(xué)數(shù)據(jù)的共享和利用方面發(fā)揮了重要作用。但是國外這3個(gè)核酸數(shù)據(jù)庫的目的,主要還是促進(jìn)其本國生物研究機(jī)構(gòu)之間生命大數(shù)據(jù)的共享和合作。當(dāng)其他國家人員使用這些數(shù)據(jù)庫時(shí),還是存在諸多不方便的地方,如網(wǎng)絡(luò)基礎(chǔ)設(shè)施、國家與國家之間合作態(tài)度的傾向,以及數(shù)據(jù)庫維護(hù)人員與科研人員在溝通語言和方式等方面的限制。
隨著中國經(jīng)濟(jì)的快速發(fā)展,中國政府正在加大科學(xué)研究的資助力度,特別是生物醫(yī)學(xué)和現(xiàn)代農(nóng)業(yè)領(lǐng)域。在過去的20年里,中國也相繼實(shí)施了一些重大的基因組學(xué)研究項(xiàng)目,如炎黃基因組項(xiàng)目[15]和大熊貓基因組項(xiàng)目[16]等,生成了海量的基因組測(cè)序數(shù)據(jù)和大量珍貴的項(xiàng)目研究成果。目前,由中國不同研究機(jī)構(gòu)分別承擔(dān)的基因組學(xué)項(xiàng)目生成的生命科學(xué)相關(guān)數(shù)據(jù)和結(jié)果,面臨著“數(shù)據(jù)孤島”、“數(shù)據(jù)主權(quán)”等實(shí)際問題。為了更好地服務(wù)于中國的科研人員,管理好中國在基因組學(xué)領(lǐng)域重大項(xiàng)目實(shí)施過程中生成的數(shù)據(jù),中國政府相關(guān)部門和生命科學(xué)研究共同體近幾年已經(jīng)開始布局并著手建設(shè)國家級(jí)的生命大數(shù)據(jù)平臺(tái)或大數(shù)據(jù)中心,以解決中國生命科學(xué)大數(shù)據(jù)產(chǎn)出面臨的實(shí)際問題,促進(jìn)基因組學(xué)數(shù)據(jù)的開放共享。建設(shè)屬于中國自己的大型基因組數(shù)據(jù)庫的基礎(chǔ)設(shè)施,不僅可以更好地服務(wù)中國的科研人員,還可以在符合國家的利益和法律的前提下,促進(jìn)與國際同行的信息數(shù)據(jù)合作與共享。目前,國內(nèi)已經(jīng)建成一定規(guī)模的生命科學(xué)數(shù)據(jù)中心主要有:依托于北京基因組研究所的國家基因組數(shù)據(jù)中心(National Genomics Data Center, NGDC)[17,18]、依托于中科院微生物研究所的國家微生物科學(xué)數(shù)據(jù)中心(National Microbiology Data Center, NMDC)和依托于深圳國家基因庫CNGBdb等。NGDC平臺(tái)(https://bigd. big.ac.cn/),除了支持組學(xué)原始數(shù)據(jù)歸檔,參考基因組及基因注釋信息存儲(chǔ)和查詢,還建立了甲基化數(shù)據(jù)庫,單核苷酸多態(tài)性數(shù)據(jù)庫等多組學(xué)數(shù)據(jù)庫系統(tǒng)以及以表觀組關(guān)聯(lián)分析為代表的綜合數(shù)據(jù)系統(tǒng)[19~21]。NMDC平臺(tái)(http://nmdc.cn/),主要致力于微生物資源信息和微生物基因組數(shù)據(jù)的保存和共享,其整合的數(shù)據(jù)資源總量超過1 PB,數(shù)據(jù)記錄數(shù)超過40億條。由NMDC平臺(tái)維護(hù)的具有代表性的數(shù)據(jù)庫資源主要有:微生物宏基因組數(shù)據(jù)庫[22],全球微生物菌種目錄數(shù)據(jù)庫[23]和全球流感病毒數(shù)據(jù)庫。
依托于國家基因庫[1]的生命大數(shù)據(jù)中心有以下優(yōu)勢(shì):(1)國家基因庫多年來開展的重大基因組項(xiàng)目,如萬種鳥類基因組項(xiàng)目[24]、萬種魚類基因組項(xiàng)目[25]、千種植物轉(zhuǎn)錄組項(xiàng)目[26]等,積累了海量珍貴數(shù)據(jù)資源;(2)國家基因庫多年來已建成了世界級(jí)基因組高通量測(cè)序平臺(tái)和高性能計(jì)算平臺(tái);(3)國家基因庫與國內(nèi)各省及其他國家相繼合作開展的生物樣本資源庫及其數(shù)字化項(xiàng)目,如海洋生物樣本資源庫及數(shù)字化、云南藥用植物資源樣本資源庫及數(shù)字化等項(xiàng)目;(4)國家基因庫在長(zhǎng)期大量基因組學(xué)項(xiàng)目中積累的生物信息分析能力和多組學(xué)數(shù)據(jù)深度整合的能力。國家基因庫多年來積累的海量基因組學(xué)數(shù)據(jù)和強(qiáng)大的多組學(xué)數(shù)據(jù)計(jì)算分析和整合能力,將為CNGBdb提供豐富的生物數(shù)據(jù)資源和強(qiáng)有力的維護(hù)支撐能力。
本文將主要從數(shù)據(jù)歸檔、知識(shí)搜索、數(shù)據(jù)管理、數(shù)據(jù)計(jì)算和數(shù)據(jù)服務(wù)等方面介紹CNGBdb的相關(guān)功能模塊和數(shù)據(jù)服務(wù)。目前,CNGBdb不僅歸類存檔了CNGB內(nèi)部項(xiàng)目及與國內(nèi)國際大量合作項(xiàng)目實(shí)施中產(chǎn)生的海量生物學(xué)數(shù)據(jù),而且還支持研究人員在線提交包括項(xiàng)目、樣本、實(shí)驗(yàn)、測(cè)序、組裝和變異數(shù)據(jù)信息。另外,CNGBdb還積極與NGDC、NMDC、SRA、ENA和DDBJ等平臺(tái)的依托單位開展合作交流,促進(jìn)與各大數(shù)據(jù)庫平臺(tái)之間數(shù)據(jù)交流與共享,進(jìn)而推動(dòng)全球生命大數(shù)據(jù)資源的利用。
為提供便捷的測(cè)序數(shù)據(jù)歸檔和數(shù)據(jù)管理服務(wù),CNGBdb已構(gòu)建了國家基因庫序列歸檔系統(tǒng)(CNSA, https://db.cngb.org/cnsa)。CNSA可以接受全球用戶在線提交的生物研究項(xiàng)目、樣本、實(shí)驗(yàn)、測(cè)序數(shù)據(jù)及后期項(xiàng)目研究結(jié)果等信息。CNSA數(shù)據(jù)歸檔系統(tǒng)主要遵循了在全球生命科學(xué)領(lǐng)域廣泛達(dá)成共識(shí)的INSDC和DataCite等數(shù)據(jù)庫標(biāo)準(zhǔn)。CNSA是一個(gè)測(cè)序數(shù)據(jù)歸檔和分享系統(tǒng),還提供早期數(shù)據(jù)的共享等服務(wù),方便科研文章在投稿過程中雜志編輯檢查投稿文章中的數(shù)據(jù)是否已經(jīng)全部成功上傳。CNSA系統(tǒng)采用了項(xiàng)目(project)、樣本(sample)、實(shí)驗(yàn)(experi-ment)和測(cè)序(run) 4個(gè)元數(shù)據(jù)結(jié)構(gòu)進(jìn)行原始測(cè)序數(shù)據(jù)的組織和歸檔。除原始數(shù)據(jù)歸檔外,CNSA還支持組裝數(shù)據(jù)、變異數(shù)據(jù)的在線批量歸檔。為了提高數(shù)據(jù)的通用性,CNSA支持各種常用格式的數(shù)據(jù)文件的遞交,例如,原始數(shù)據(jù)格式包括FASTQ、BAM、SFF和PacBio_HDF5,組裝數(shù)據(jù)格式包含F(xiàn)ASTA,變異數(shù)據(jù)格式包含VCF等。為了確保歸檔數(shù)據(jù)的完整性和提高其后續(xù)的可用性,CNSA對(duì)用戶遞交的數(shù)據(jù)進(jìn)行校驗(yàn)和質(zhì)控。在CNSA歸檔的數(shù)據(jù),遞交者可以根據(jù)項(xiàng)目的保密級(jí)別以及研究進(jìn)度,自由決定歸檔數(shù)據(jù)的開放權(quán)限和開放時(shí)間等。
CNSA自2018年10月上線以來,其歸檔數(shù)據(jù)量快速增長(zhǎng)。截至2020年5月22日,在該平臺(tái)歸檔的項(xiàng)目有2176個(gè),提交的數(shù)據(jù)量達(dá)到2221 TB (圖1),支撐文章發(fā)表115篇。為便于研究人員查找和利用數(shù)據(jù),CNSA為每個(gè)歸檔的項(xiàng)目分配DOI,索引項(xiàng)目。通過DOI為CNSA歸檔的數(shù)據(jù)能夠在互聯(lián)網(wǎng)環(huán)境下的訪問建立便利的途徑,以增加人們對(duì)研究數(shù)據(jù)的認(rèn)可,將其作為對(duì)科學(xué)記錄合法的、可引用的成果支持?jǐn)?shù)據(jù)存檔,并允許這些數(shù)據(jù)在未來的研究中被驗(yàn)證以及被重新利用[27]。
圖1 CNSA歸檔數(shù)據(jù)量統(tǒng)計(jì)圖
為實(shí)現(xiàn)活體資源、樣本資源和數(shù)據(jù)資源的貫穿,使得生命數(shù)據(jù)在全生命周期可追溯,除歸檔核酸數(shù)據(jù),CNGBdb還構(gòu)建了國家基因庫樣本信息共享平臺(tái)(E-BioBank, EBB, https://db.cngb.org/ebb/),支持活體資源和樣本資源的遞交和歸檔。 EBB制定了規(guī)范統(tǒng)一的樣本信息整合標(biāo)準(zhǔn),建立了活體標(biāo)本、樣本、組學(xué)數(shù)據(jù)關(guān)聯(lián)結(jié)構(gòu),并創(chuàng)造公平、公開的生物樣本共享環(huán)境,促進(jìn)生物樣本的科學(xué)、合理利用,是一個(gè)公益性、基礎(chǔ)性、戰(zhàn)略性的科技創(chuàng)新服務(wù)平臺(tái)。E-BioBank已歸檔477,201份樣本,1912個(gè)物種,23個(gè)樣本庫。
除了國家基因庫“三庫兩平臺(tái)”的生命科學(xué)大數(shù)據(jù)資源,CNGBdb還整合很多外部數(shù)據(jù)庫的優(yōu)秀數(shù)據(jù)資源,如科研文獻(xiàn)、基因、變異、蛋白質(zhì)和序列等知識(shí)數(shù)據(jù)。為了使用戶能夠快速準(zhǔn)確的檢索到其需要的數(shù)據(jù)和信息,CNGBdb平臺(tái)中搭建了生命大數(shù)據(jù)搜索引擎。
CNGBdb知識(shí)搜索的數(shù)據(jù)類型主要包括文獻(xiàn)、項(xiàng)目、樣本、實(shí)驗(yàn)、測(cè)序、組裝、變異、基因、蛋白質(zhì)、序列等。目前CNGBdb中可檢索的知識(shí)條目數(shù)超過30億條(表1),其中可被檢索的文獻(xiàn)數(shù)量超過2947萬條記錄,基因序列超過2274萬條記錄,蛋白質(zhì)序列超過22.7億條記錄。CNGBdb中的科研文獻(xiàn)信息,來源于對(duì)多個(gè)文獻(xiàn)數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)的整合,包括GigaScience、PubMed和Europe PMC等。CNGBdb知識(shí)檢索服務(wù),可通過平臺(tái)首頁(https:// db.cngb.org/)搜索入口,選擇不同的數(shù)據(jù)庫,進(jìn)行跨多個(gè)數(shù)據(jù)庫或者單個(gè)數(shù)據(jù)庫高效快速檢索。用戶可在搜索輸入框內(nèi)輸入任意的有意義的詞或是編號(hào)來查找相關(guān)的信息。除此之外,CNGBdb庫與庫之間的信息進(jìn)行交叉互鏈,形成數(shù)據(jù)信息的互聯(lián)互通,方便數(shù)據(jù)的關(guān)聯(lián)查詢和檢索,如搜索變異數(shù)據(jù)庫,除可檢索到變異信息,也可查看到變異關(guān)聯(lián)物種、基因和文獻(xiàn)等信息。這種數(shù)據(jù)互通互聯(lián)的方式,極大提升內(nèi)容的檢索效率,便于用戶進(jìn)行相關(guān)知識(shí)的理解和深入研究。
表1 知識(shí)搜索服務(wù)數(shù)據(jù)
CNGBdb的知識(shí)搜索服務(wù),基于Elasticsearch搜索引擎,支持全文檢索功能[2,35],檢索速度快。搜索引擎可對(duì)檢索的結(jié)果進(jìn)行綜合評(píng)分排序,將最匹配的最符合用戶檢索目的數(shù)據(jù)排在前列,通過數(shù)據(jù)編號(hào)索引可以查看檢索出的每一條數(shù)據(jù)的詳細(xì)信息。CNGBdb搜索引擎還實(shí)現(xiàn)了分布式的實(shí)時(shí)文件存儲(chǔ),每個(gè)字段都被索引并可被搜索,可以擴(kuò)展到上百臺(tái)服務(wù)器,處理PB級(jí)結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),提供更加深層次的數(shù)據(jù)、信息和知識(shí)的關(guān)聯(lián)關(guān)系。
在Elasticsearch的基礎(chǔ)上,CNGBdb還拓展了基于生物數(shù)據(jù)特征的輔助搜索功能,如文獻(xiàn)推薦功能、同義詞轉(zhuǎn)換功能、高級(jí)檢索功能和過濾檢索功能。文獻(xiàn)推薦功能,根據(jù)文獻(xiàn)的發(fā)表年份、雜志影響因子、作者、醫(yī)學(xué)主題詞等構(gòu)建算法模型,綜合打分,進(jìn)行文獻(xiàn)推薦,幫助用戶查找到與正在查閱的文獻(xiàn)最相關(guān)的文獻(xiàn),有助于其進(jìn)行深入閱讀和研究。為更深入地理解用戶的檢索意圖,CNGBdb搜索配置了物種同義詞(同義詞表主要來源于NCBI物種分類數(shù)據(jù)庫[3,36])及醫(yī)學(xué)主題詞(同義詞表主要來源于NCBI醫(yī)學(xué)主題詞庫[37]),在檢索某個(gè)關(guān)鍵詞的時(shí)候,該關(guān)鍵詞的同義詞也能檢索到,例如,其學(xué)名為L(zhǎng).,常用名為 rice,Inherited blast name為monocots。您在檢索時(shí),它的同義詞L.、rice和monocots也能被檢索到。高級(jí)檢索功能,可以幫助用戶實(shí)現(xiàn)對(duì)指定字段進(jìn)行檢索,如指定文獻(xiàn)的標(biāo)題、作者、期刊等字段進(jìn)行檢索。過濾檢索功能,可以根據(jù)用戶設(shè)置的過濾條件實(shí)現(xiàn)對(duì)檢索結(jié)果快速準(zhǔn)確的過濾,如根據(jù)文獻(xiàn)是否免費(fèi)進(jìn)行免費(fèi)全文檢索,根據(jù)文獻(xiàn)發(fā)表年限,對(duì)不同年限的數(shù)據(jù)進(jìn)行過濾檢索,根據(jù)物種類型,對(duì)不同類型物種數(shù)據(jù)進(jìn)行過濾檢索,使得CNGBdb檢索更加準(zhǔn)確。
除此之外,CNGBdb搜索引擎還結(jié)合了人工智能的智能語義識(shí)別和知識(shí)圖譜技術(shù),使得搜索更加智能。在智能語義識(shí)別方面,CNGBdb搜索系統(tǒng)可以實(shí)現(xiàn)自動(dòng)補(bǔ)全功和文本糾錯(cuò)功能。自動(dòng)補(bǔ)全功能是能根據(jù)用戶的輸入的檢索詞自動(dòng)識(shí)別用戶的檢索意圖,進(jìn)行自動(dòng)補(bǔ)全。文本糾錯(cuò)功能,可對(duì)用戶輸入的錯(cuò)別詞進(jìn)行自動(dòng)糾錯(cuò),使用正確的檢索詞進(jìn)行檢索,如輸入“”,系統(tǒng)將識(shí)別為“”后進(jìn)行檢索。在知識(shí)圖譜技術(shù)方面,CNGBdb構(gòu)建了文獻(xiàn)–作者–研究領(lǐng)域知識(shí)圖譜,通過文獻(xiàn)引用與被引用的關(guān)系,文獻(xiàn)、作者和醫(yī)學(xué)主題詞(Me-dical Subject Headings,MeSH)關(guān)聯(lián)關(guān)系,構(gòu)建文獻(xiàn)–作者–研究領(lǐng)域知識(shí)圖譜。文獻(xiàn)知識(shí)圖譜,旨在幫助用戶快速鎖定某個(gè)研究方向的重要文獻(xiàn)和同領(lǐng)域內(nèi)具有重要影響力研究人員,建立某個(gè)研究領(lǐng)域的發(fā)展脈絡(luò)。以“千人基因組計(jì)劃”(1,000 Genomes Project, 1KGP) 2010年發(fā)表于上的“A map of human genome variation from population-scale sequencing”為例,在CNGBdb的文獻(xiàn)庫中搜索這篇文章,在文獻(xiàn)詳情頁面,通過知識(shí)圖譜技術(shù),可視化地展示了該篇文獻(xiàn)的文獻(xiàn)–作者–研究領(lǐng)域關(guān)聯(lián)圖譜(圖2)。CNGBdb平臺(tái)中的知識(shí)圖譜算法,主要是基于文章和作者的權(quán)重。權(quán)重越大,圖譜中的圓點(diǎn)越大,文獻(xiàn)在該領(lǐng)域的影響力越大,作者在該領(lǐng)域的影響力越高,通過圖譜的方式,可比較快速鎖定領(lǐng)域內(nèi)的重要文獻(xiàn)和重要研究人員。
2.3.1 用戶管理
CNGBdb基于獨(dú)立的用戶統(tǒng)一登錄系統(tǒng)(UMS)進(jìn)行用戶登陸注冊(cè)和管理。UMS具備單點(diǎn)登錄、用戶管理和權(quán)限管理3大核心功能,其中單點(diǎn)登錄實(shí)現(xiàn)了在同一個(gè)集群里面,用戶只需登錄一次即可訪問已授權(quán)的系統(tǒng)。用戶在UMS系統(tǒng)注冊(cè)后,可以使用同一個(gè)ID和密碼訪問CNGBdb所有的獨(dú)立數(shù)據(jù)庫或服務(wù),無需重復(fù)注冊(cè)。UMS給每個(gè)用戶都賦予唯一識(shí)別編碼,作為各系統(tǒng)數(shù)據(jù)貫穿的核心索引,用于打通CNGBdb的各數(shù)據(jù)庫數(shù)據(jù)。UMS系統(tǒng)還可以對(duì)用戶在各個(gè)數(shù)據(jù)庫的數(shù)據(jù)權(quán)限進(jìn)行統(tǒng)一的授權(quán)和管理。為了最大化地提高平臺(tái)的利用率,UMS系統(tǒng)提供了各種豐富的API接口供各數(shù)據(jù)庫使用,主要有注冊(cè)API、登錄驗(yàn)證API、用戶信息修改API和密碼修改API等。
圖2 1KGP文獻(xiàn)推薦知識(shí)圖譜
當(dāng)前文獻(xiàn)(紅色圓點(diǎn))是整個(gè)圖譜的中心和起點(diǎn),與其相連的綠、黃、藍(lán)3個(gè)節(jié)點(diǎn)分別代表這篇文獻(xiàn)的作者、相關(guān)推薦文獻(xiàn)和MeSH(醫(yī)學(xué)主題詞)。這4個(gè)大的主節(jié)點(diǎn)構(gòu)成了圖譜的主干。
2.3.2 數(shù)據(jù)分類分級(jí)管理
CNGBdb制定了數(shù)據(jù)資源分類和數(shù)據(jù)訪問形式分類機(jī)制,進(jìn)行數(shù)據(jù)分類分級(jí)保護(hù)和統(tǒng)一管理。
在數(shù)據(jù)資源分類方面,CNGBdb數(shù)據(jù)的資源類型分為去身份識(shí)別的人類遺傳資源、生物多樣性資源,以及人源微生物資源,定義如下:(1)人類遺傳資源數(shù)據(jù):是指利用人類遺傳資源材料產(chǎn)生的數(shù)據(jù)等信息資料,是未經(jīng)過深層處理,未過濾掉人體基因組信息的數(shù)據(jù);(2)生物多樣性資源數(shù)據(jù):是指動(dòng)物、植物以及微生物等物種資源的數(shù)據(jù);(3)人源微生物資源數(shù)據(jù):人源微生物是指微生物研究(包括培養(yǎng)以及宏基因組測(cè)序研究)的樣本來源是人,其本質(zhì)是微生物。人源微生物資源數(shù)據(jù)又分為已過濾掉人體基因組的人源微生物資源數(shù)據(jù)和未過濾掉人體基因組的人源微生物資源數(shù)據(jù)。
在數(shù)據(jù)訪問形式方面,CNGBdb數(shù)據(jù)的訪問形式包括公開、受控管理形式。(1)公開:數(shù)據(jù)公開是指元數(shù)據(jù)和數(shù)據(jù)文件都公開。數(shù)據(jù)遞交者需要設(shè)置一個(gè)公開日期后,元數(shù)據(jù)和數(shù)據(jù)文件都將在該公開日期公開,公開數(shù)據(jù)將展示在CNGBdb,且面向全球開放,用戶可在CNGBdb自由訪問或使用。(2)受控:即項(xiàng)目關(guān)聯(lián)的元數(shù)據(jù)公開和數(shù)據(jù)文件受控。數(shù)據(jù)遞交者需要設(shè)置一個(gè)元數(shù)據(jù)的公開日期,元數(shù)據(jù)都將在該公開日期公開,數(shù)據(jù)文件受控。受控?cái)?shù)據(jù)僅在CNGBdb上展示元數(shù)據(jù),數(shù)據(jù)文件受控管理,具有數(shù)據(jù)訪問權(quán)限的用戶可使用受控的數(shù)據(jù)。
CNGBdb數(shù)據(jù)計(jì)算服務(wù)是基于CNGBdb清洗和歸檔的數(shù)據(jù)部署的BLAST序列比對(duì)服務(wù)(https:// db.cngb.org/blast/)。BLAST功能基于NCBI BLAST+ 2.8.1 standalone版本開發(fā),支持大部分NCBI BLAST數(shù)據(jù)庫的序列比對(duì),并逐步整合CNGB的公開特色數(shù)據(jù)集,如千種植物轉(zhuǎn)錄組數(shù)據(jù)集、萬種鳥基因組項(xiàng)目數(shù)據(jù)集和千種魚轉(zhuǎn)錄組數(shù)據(jù)集等。用戶可根據(jù)研究需要,自定義的設(shè)置比對(duì)數(shù)據(jù)集,進(jìn)行更加精準(zhǔn)的比對(duì)分析,為各領(lǐng)域的組學(xué)研究提供高效便捷的序列搜索服務(wù)。CNGBdb BLAST比對(duì)數(shù)據(jù)資源列表見表2。
CNGBdb基于底層數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù),構(gòu)建了包括動(dòng)物、植物、微生物等不同專題數(shù)據(jù)庫及分析數(shù)據(jù)庫系統(tǒng)。目前CNGBdb已上線的上層應(yīng)用數(shù)據(jù)庫包括:千種植物數(shù)據(jù)庫(OneKP, https://db.cngb.org/ onekp/)、萬種鳥基因組數(shù)據(jù)庫(B10K, https://b10k. genomics.cn/)、千種魚轉(zhuǎn)錄組數(shù)據(jù)庫(FishT1K, https://db.cngb.org/fisht1k/)、千種昆蟲轉(zhuǎn)錄組進(jìn)化研究數(shù)據(jù)庫(1KITE, https://1kite.cngb.org/)、萬種植物數(shù)據(jù)庫(10KP, https://db.cngb.org/10kp/)、癌癥數(shù)據(jù)集成與整合分析平臺(tái)(DISSECT, https://db.cngb.org/ dissect/)、微生物組數(shù)據(jù)庫人類微生物數(shù)據(jù)庫(Microbiome, https://db.cngb.org/microbiome/)、罕見病數(shù)據(jù)庫(GDRD, https://db.cngb.org/gdrd/)、病原數(shù)據(jù)庫(PVD, https://db.cngb.org/pvd/)和免疫數(shù)據(jù)庫(PIRD, https://db.cngb.org/pird/)等。
為便捷和及時(shí)地共享科研數(shù)據(jù),在CNGBdb數(shù)據(jù)庫平臺(tái),除CNGBdb已經(jīng)構(gòu)建的不同研究領(lǐng)域的數(shù)據(jù)庫,還允許用戶自定義創(chuàng)建數(shù)據(jù)集并共享發(fā)布。相比于傳統(tǒng)的數(shù)據(jù)庫共享,用戶不需要開發(fā)數(shù)據(jù)庫、運(yùn)營和維護(hù)數(shù)據(jù)庫。在CNGBdb僅需上傳數(shù)據(jù)、創(chuàng)建數(shù)據(jù)集和分享數(shù)據(jù)集3步,即可將科研數(shù)據(jù)分享給科研領(lǐng)域的研究人員。CNGBdb用戶已創(chuàng)建的部分?jǐn)?shù)據(jù)集見表3。
CNGBdb是一個(gè)自由開放的生命科學(xué)大數(shù)據(jù)共享平臺(tái),致力于促進(jìn)生命科學(xué)研究項(xiàng)目中生成的測(cè)序數(shù)據(jù)及研究項(xiàng)目所取得的成果的開發(fā)共享和合作利用。目前,CNGBdb提供生物大數(shù)據(jù)歸檔、管理、搜索、計(jì)算、分析及應(yīng)用一體化的生命大數(shù)據(jù)服務(wù)。
表2 BLAST工具數(shù)據(jù)資源
表3 CNGBdb用戶已創(chuàng)建的部分?jǐn)?shù)據(jù)集
隨著對(duì)生命科學(xué)大數(shù)據(jù)共享的需求的不斷變化,CNGBdb將在以下幾個(gè)方面做出改進(jìn)和提升。在數(shù)據(jù)歸檔上,除歸檔項(xiàng)目、樣本、實(shí)驗(yàn)/測(cè)序數(shù)據(jù)、組裝、變異數(shù)據(jù)和樣本實(shí)體信息,在實(shí)現(xiàn)樣本實(shí)體到組學(xué)數(shù)據(jù)的貫穿基礎(chǔ)上,CNGBdb還將擴(kuò)展序列、蛋白、代謝、表達(dá)、臨床和影像等多組學(xué)數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)的組學(xué)貫穿。在知識(shí)搜索上,除提供給用戶主動(dòng)搜索,CNGBdb還將提供數(shù)據(jù)及知識(shí)推薦搜索,實(shí)現(xiàn)主被動(dòng)搜索聯(lián)動(dòng),提升搜索的準(zhǔn)確度和搜索體驗(yàn)。在數(shù)據(jù)管理上,CNGBdb將依據(jù)現(xiàn)有的倫理規(guī)范、現(xiàn)行法律、法規(guī)、條例、國際條約等,制定更加完善的數(shù)據(jù)共享和應(yīng)用政策。同時(shí),CNGBdb還將逐步建立數(shù)據(jù)可信計(jì)算環(huán)境和工具,使得數(shù)據(jù)在可用而不可見的環(huán)境下進(jìn)行安全計(jì)算,并依托區(qū)塊鏈技術(shù),對(duì)數(shù)據(jù)生命周期進(jìn)行記賬和監(jiān)控,實(shí)現(xiàn)生命科學(xué)數(shù)據(jù)的安全管理和應(yīng)用。在數(shù)據(jù)應(yīng)用上,CNGBdb將在現(xiàn)有數(shù)據(jù)集的功能基礎(chǔ)上,提供更個(gè)性化、便捷化的多維度的統(tǒng)計(jì)分析工具,數(shù)據(jù)比對(duì)工具,數(shù)據(jù)可視化工具等,實(shí)現(xiàn)數(shù)據(jù)的分享到數(shù)據(jù)應(yīng)用的個(gè)性化、自動(dòng)化。
CNGBdb的建設(shè)和發(fā)展,將促進(jìn)我國生物遺傳數(shù)據(jù)與生命科學(xué)數(shù)據(jù)的規(guī)范管理和利用,為生物醫(yī)藥、生物農(nóng)業(yè)和海洋生物等諸多生物產(chǎn)業(yè)的科學(xué)研究提供數(shù)據(jù)共享平臺(tái),推動(dòng)我國生命科學(xué)向更深入、更為廣闊和更多創(chuàng)新的領(lǐng)域發(fā)展。CNGBdb作為國家基因庫的對(duì)外數(shù)據(jù)共享平臺(tái),不僅促進(jìn)擴(kuò)大國內(nèi)、國際交流與合作的范圍,還促進(jìn)國內(nèi)外生命科學(xué)數(shù)據(jù)的匯集、交流和互通。
[1] Wang B, Liu F, Zhang EC, Wo CL, Chen J, Qian PY, Lu HR, Zeng WJ, Chen T, Wei JP, Wan Q, Wang R, Xu X. The China National GeneBank─owned by all, completed by all and shared by all., 2019, 41(8): 761–772.王博, 劉芳, 張二春, 沃晨亮, 陳振家, 錢璞毅, 盧浩榮, 曾文君, 陳泰, 危金普, 萬仟, 王韌, 徐訊. 國家基因庫: 共有、共為、共享. 遺傳, 2019, 41(8): 761–772.
[2] Clarke L, Fairley S, Zheng-Bradley X, Streeter I, Perry E, Lowy E, Tassé AM, Flicek P. The international Genome sample resource (IGSR): A worldwide collection of genome variation incorporating the 1000 Genomes Project data., 2017, 45(D1): D854–D859.
[3] Consortium ICG. International network of cancer genome projects., 2010, 464(7291): 993–938.
[4] Yu J, Hu SN, Wang J, Wong GKS, Li SG, Liu B, Deng YJ, Dai L, Zhou Y, Zhang XQ, Cao ML, Liu J, Sun JD, Tang JB, Chen YJ, Huang XB, Lin W, Ye C, Tong W, Cong LJ, Geng JN, Han YJ, Li L, Li W, Hu GQ, Huang XG, Li WJ, Li J, Liu ZW, Li L, Liu JP, Qi QH, Liu JS, Li L, Li T, Wang XJ, Lu H, Wu TT, Zhu M, Ni PX, Han H, Dong W, Ren XY, Feng XL, Cui P, Li XR, Wang H, Xu X, Zhai WX, Xu Z, Zhang JS, He SJ, Zhang JG, Xu JC, Zhang KL, Zheng XW, Dong JH, Zeng WY, Tao L, Ye J, Tan J, Ren XD, Chen XW, He J, Liu DF, Tian W, Tian CG, Xia HG, Bao QY, Li G, Gao H, Cao T, Wang J, Zhao WM, Li P, Chen W, Wang XD, Zhang Y, Hu JF, Wang J, Liu S, Yang G, Zhang GY, Xiong YQ, Li ZJ, Mao L, Zhou CS, Zhu Z, Chen RS, Hao BL, Zheng WM, Chen SY, Guo W, Li GJ, Liu SQ, Tao M, Wang J, Zhu LH, Yuan LP, Yang HM. A draft sequence of the rice genome (L. ssp.)., 2002, 296(5565): 79–92.
[5] International RGSP. The map-based sequence of the rice genome., 2005, 436(7052): 793–800.
[6] RGP. The 3,000 rice genomes project., 2014, 3: 7.
[7] Milner SG, Jost M, Taketa S, Mazón ER, Himmelbach A, Oppermann M, Weise S, Knüpffer H, Basterrechea M, K?nig P, Schüler D, Sharma R, Pasam RK, Rutten T, Guo GG, Xu DD, Zhang J, Herren G, Müller T, Krattinger SG, Keller B, Jiang Y, González MY, Zhao YS, Habeku? A, F?rber S, Ordon F, Lange M, B?rner A, Graner A, Reif JC, Scholz U, Mascher M, Stein N. Genebank genomics highlights the diversity of a global barley collection., 2019, 51(2): 319–326.
[8] Sayers EW, Cavanaugh M, Clark K, Ostell J, Pruitt KD, Karsch-Mizrachi I. GenBank., 2019, 47(D1): D94–D99.
[9] Madeira F, Park YM, Lee J, Buso N, Gur T, Madhusoodanan N, Basutkar P, Tivey ARN, Potter SC, Finn RD, Lopez R. The EMBL-EBI search and sequence analysis tools APIs in 2019., 2019, 47(W1): W636–W641.
[10] Kodama Y, Mashima J, Kosuge T, Ogasawara O. DDBJ update: the Genomic Expression Archive (GEA) for functional genomics data., 2019, 47(D1): D69–D73.
[11] Rigden DJ, Fernández XM. The 2018 Nucleic Acids Research database issue and the online molecular biology database collection., 2018, 46(D1): D1–D7.
[12] Members SIB. The SIB Swiss Institute of Bioinformatics’ resources: focus on curated databases., 2016, 44(D1): D27–D37.
[13] Kanehisa M, Furumichi M, Tanabe M, Sato Y, Morishima K. KEGG: new perspectives on genomes, pathways, diseases and drugs., 2017, 45(D1): D353–D361.
[14] Cochrane G, Karsch-Mizrachi I, Takagi T, International Nucleotide Sequence Database Collaboration. The international nucleotide sequence database collaboration., 2016, 46(D1): D48–D51.
[15] Wang J, Wang W, Li RQ, Li YR, Tian G, Goodman L, Fan W, Zhang JQ, Li J, Zhang JB, Guo TR, Feng BX, Li H, Lu Y, Fang XD, Liang HQ, Du ZL, Li D, Zhao YQ, Hu YJ, Yang ZZ, Zheng HC, Hellmann I, Inouye M, Pool J, Yi X, Zhao J, Duan JJ, Zhou Y, Qin JJ, Ma LJ, Li GQ, Yang ZT, Zhang GJ, Yang B, Yu C, Liang F, Li WJ, Li SC, Li DW, Ni PX, Ruan J, Li QB, Zhu HM, Liu DY, Lu ZK, Li N, Guo GW, Zhang JG, Ye J, Fang L, Hao Q, Chen Q, Liang Y, Su YY, San A, Ping C, Yang S, Chen F, Li L, Zhou K, Zheng HK, Ren YY, Yang L, Gao Y, Yang GH, Li Z, Feng XL, Kristiansen K, Wong GKS, Nielsen R, Durbin R, Bolund L, Zhang XQ, Li SG, Yang HM, Wang J. The diploid genome sequence of an Asian individual., 2008, 456(7218): 60–65.
[16] Li RQ, Fan W, Tian G, Zhu HM, He L, Cai J, Huang QF, Cai QL, Li B, Bai YQ, Zhang ZH, Zhang YP, Wang W, Li J, Wei FW, Li H, Jian M, Li JW, Zhang ZL, Nielsen R, Li DW, Gu WJ, Yang ZT, Xuan ZL, Ryder OA, Leung FCC, Zhou Y, Cao JJ, Sun X, Fu YG, Fang XD, Guo XS, Wang B, Hou R, Shen FJ, Mu B, Ni PX, Lin RM, Qian WB, Wang GD, Yu C, Nie WH, Wang JH, Wu ZG, Liang HQ, Min JM, Wu Q, Cheng SF, Ruan J, Wang MW, Shi ZB, Wen M, Liu BH, Ren XL, Zheng HS, Dong D, Cook K, Shan G, Zhang H, Kosiol C, Xie XY, Lu ZH, Zheng HC, Li YR, Steiner CC, Tsan-Yuk Lam T, Lin SY, Zhang QH, Li GQ, Tian J, Gong TM, Liu HD, Zhang DJ, Fang L, Ye C, Zhang JB, Hu WB, Xu AL, Ren YY, Zhang GJ, Bruford MW, Li QB, Ma LJ, Guo YR, An N, Hu YJ, Zheng Y, Shi YY, Li ZQ, Liu Q, Chen YL, Zhao J, Qu N, Zhao SC, Tian F, Wang XL, Wang HY, Xu LZ, Liu X, Vinar T, Wang YJ, Lam TW, Yiu SM, Liu SP, Zhang HM, Li DS, Huang Y, Wang X, Yang GH, Jiang Z, Wang JY, Qin N, Li L, Li JX, Bolund L, Kristiansen K, Wong GKS, Olson M, Zhang XQ, Li SG, Yang HM, Wang J, Wang J. The sequence and de novo assembly of the giant panda genome., 2010, 463(7279): 311–317.
[17] Members NGDC. Database resources of the national genomics data center in 2020., 2020, 48(D1): D24–D33.
[18] Ma YK, Bao YM. Prospects for national biological big data centers., 2018, 40(11): 938–943.馬英克, 鮑一明. 國家級(jí)生物大數(shù)據(jù)中心展望. 遺傳, 2018, 40(11): 938–943.
[19] Wang YQ, Song FH, Zhu JW, Zhang SS, Yang YD, Chen TT, Tang BX, Dong LL, Ding N, Zhang Q, Bai ZX, Dong XN, Chen HX, Sun MY, Zhai S, Sun YB, Yu L, Lan L, Xiao JF, Fang XD, Lei HX, Zhang Z, Zhao WM. GSA: genome sequence archive., 2017, 15(1): 14–18.
[20] Zhang YS, Xia L, Sang J, Li M, Liu L, Li MW, Niu GY, Cao JB, Teng XF, Zhou Q, Zhang, Z. The BIG Data Center's database resources., 2018, 40(11): 1039–1043.張?jiān)大? 夏琳, 桑健, 李漫, 劉琳, 李萌偉, 牛廣藝, 曹佳寶, 滕徐菲, 周晴, 章張. 生命與健康大數(shù)據(jù)中心資源. 遺傳, 2018, 40(11): 1039–1043.
[21] Zhang SS, Chen TT, Zhu JW, Zhou Q, Chen X, Wang YQ, Zhao WM. GSA: genome sequence archive., 2018, 40(11): 1044–1047.張思思, 陳婷婷, 朱軍偉, 周晴, 陳旭, 王彥青, 趙文明. GSA: 組學(xué)原始數(shù)據(jù)歸檔庫. 遺傳, 2018, 40(11): 1044– 1047.
[22] Shi WY, Qi HY, Sun QL, Fan GM, Liu SJ, Wang J, Zhu BL, Liu HW, Zhao FQ, Wang XC, Hu XX, Li W, Liu J, Tian Y, Wu LH, Ma JC. gcMeta: a Global Catalogue of Metagenomics platform to support the archiving, standardization and analysis of microbiome data., 2019, 47(D1): D637–D648.
[23] Wu LH, Sun QL, Sugawara H, Yang S, Zhou YG, McCluskey K, Vasilenko A, Suzuki KI, Ohkuma M, Lee Y, Robert V, Ingsriswang S, Guissart F, Philippe D, Ma JC. Global catalogue of microorganisms (gcm): a compre-hensive database and information retrieval, analysis, and visualization system for microbial resources., 2013, 14: 933.
[24] Zhang GJ. Bird sequencing project takes off., 2015, 522(7554): 34.
[25] Fan GY, Song Y, Huang XY, Yang LD, Zhang SY, Zhang MQ, Yang XW, Chang Y, Zhang H, Li YX, Liu SS, Yu LL, Seim I, Feng CG, Wang W, Wang K, Wang J, Xu X, Yang HM, Chen NS, Liu X, He SP. Initial data release and announcement of the Fish10K: Fish 10,000 Genomes Project., 2019, 787028.
[26] Initiative OTPT. One thousand plant transcriptomes and the phylogenomics of green plants., 2019, 574: 679–685.
[27] Paskin N. Digital object identifier(DOI?) system., 2010, 3: 1586–1592.
[28] Smigielski EM, Sirotkin K, Ward M, Sherry ST. dbSNP: a database of single nucleotide polymorphisms., 2000, 28(1): 352–355.
[29] Landrum MJ, Lee JM, Benson M, Brown G, Chao C, Chitipiralla S, Gu BS, Hart J, Hoffman D, Hoover J, Jang WH, Katz KK, Ovetsky M, Riley G, Sethi A, Tully R, Villamarin-Salomon R, Rubinstein W, Maglott DR. ClinVar: public archive of interpretations of clinically relevant variants., 2016, 44(D1): D862– D868.
[30] Consortium U. UniProt: a worldwide hub of protein knowledge., 2019, 47(D1): D506– D515.
[31] Pruitt KD, Tatusova T, Maglott DR. NCBI reference sequences (RefSeq): a curated non-redundant sequence database of genomes, transcripts and proteins., 2007, 35: D61–D65.
[32] Barrett T, Clark K, Gevorgyan R, Gorelenkov V, Gribov E, Karsch-Mizrachi I, Kimelman M, Pruitt KD, Resenchuk S, Tatusova T, Yaschenko E, Ostell J. BioProject and BioSample databases at NCBI: facilitating capture and organization of metadata., 2012, 40(D1): D57–D63.
[33] Kodama Y, Shumway M, Leinonen R. The Sequence Read Archive: explosive growth of sequencing data., 2012, 40: D54–D56.
[34] Kitts PA, Church DM, Thibaud-Nissen F, Choi J, Hem V, Sapojnikov V, Smith RG, Tatusova T, Xiang C, Zherikov A, DiCuccio M, Murphy TD, Pruitt KD, Kimchi A. Assembly: a resource for assembled genomes at NCBI., 2016, 44: D73–D80.
[35] Gormley C, Tong Z. Elasticsearch: the definitive guide: a distributed real-time search and analytics engine. “O'Reilly Media, Inc.”, 2015.
[36] Federhen S. The NCBI taxonomy database., 2012, 40: D136–D143.
[37] Marc DT, Khairat SS. Medical Subject Headings (MeSH) for indexing and retrieving open-source healthcare data.,2014, 202: 157–160.
CNGBdb: China National GeneBank DataBase
Fengzhen Chen1, Lijin You1, Fan Yang1, Lina Wang1, Xueqin Guo1, Fei Gao1, Cong Hua1, Cong Tan1, Lin Fang2, Riqiang Shan3, Wenjun Zeng1, Bo Wang1, Ren Wang1, Xun Xu1,2,4, Xiaofeng Wei1
China National GeneBank DataBase (CNGBdb) is a data platform aiming to systematically archiving and sharing of multi-omics data in life science. As the service portal of Bio-informatics Data Center of the core structure, namely, "Three Banks and Two Platforms" of China National GeneBank (CNGB), CNGBdb has the advantages of rich sample resources, data resources, cooperation projects, powerful data computation and analysis capabilities. With the advent of high throughput sequencing technologies, research in life science has entered the big data era, which is in the need of closer international cooperation and data sharing. With the development of China's economy and the increase of investment in life science research, we need to establish a national public platform for data archiving and sharing in life science to promote the systematic management, application and industrial utilization. Currently, CNGBdb can provide genomic data archiving, information search engines, data management and data analysis services. The data schema of CNGBdb has covered projects, samples, experiments, runs, assemblies, variations and sequences. Until May 22, 2020, CNGBdb has archived 2176 research projects and more than 2221 TB sequencing data submitted by researchers globally. In the future, CNGBdb will continue to be dedicated to promoting data sharing in life science research and improving the service capability. CNGBdb website is: https://db.cngb.org/.
China National GenBank Database; data sharing; data archiving; omics data
2020-03-23;
2020-05-23
廣東省高通量基因組測(cè)序與合成編輯應(yīng)用重點(diǎn)實(shí)驗(yàn)室(編號(hào):2017B030301011)資助[Supported by Guangdong Provincial Key Laboratory of Genome Read and Write (No. 2017B030301011)]
陳鳳珍,本科,研究方向:生物大數(shù)據(jù)。E-mail: chenfengzhen@cngb.org
徐訊,博士,研究員,研究方向:基因組學(xué)、生物信息學(xué)等。E-mail: xuxun@genomics.cn王韌,博士,研究員,研究方向:農(nóng)學(xué)。E-mail: wangren@cngb.org魏曉鋒,本科,研究方向:生物大數(shù)據(jù)。E-mail: weixiaofeng@cngb.org
10.16288/j.yczz.20-080
2020/7/8 16:44:57
URI: https://kns.cnki.net/kcms/detail/11.1913.R.20200707.1642.001.html
(責(zé)任編委:胡松年)