劉一依,王世民,武 瓊2,趙 飛2,胡建平2,沈麗寧
生物基因數(shù)據(jù)是21世紀(jì)重要的國家戰(zhàn)略資源。隨著精準(zhǔn)醫(yī)學(xué)時代的到來,產(chǎn)生了大量的基因測序數(shù)據(jù)。精準(zhǔn)醫(yī)學(xué)的核心思想是根據(jù)患者的生物學(xué)信息和患者自身所具備的特點,采用特定的醫(yī)療方法對患者實施治療[1]。由于每個機構(gòu)在管理基因數(shù)據(jù)時采用不同的基因數(shù)據(jù)庫元數(shù)據(jù)方案,所以導(dǎo)致基因數(shù)據(jù)在不同機構(gòu)之間難以共享[2]。元數(shù)據(jù)即描述數(shù)據(jù)的數(shù)據(jù)[3]。數(shù)據(jù)庫是以某種方式存儲在計算機內(nèi)、能分享給多個用戶且重復(fù)存儲較小的數(shù)據(jù)的集合[4]。元數(shù)據(jù)的功能主要包括挖掘信息、組織信息、實現(xiàn)信息互操作、辨識信息和存儲信息[5]。元數(shù)據(jù)規(guī)范能為數(shù)據(jù)的采集和存儲提供支持,是數(shù)據(jù)庫建設(shè)前期的基礎(chǔ)性工作之一,建立元數(shù)據(jù)規(guī)范的目的是建立數(shù)據(jù)庫。
美國、歐洲、日本均建立了各自的人類基因數(shù)據(jù)庫。國外人類基因數(shù)據(jù)庫的元數(shù)據(jù)比較成熟,對我國人類基因數(shù)據(jù)庫元數(shù)據(jù)規(guī)范的設(shè)計有很重要的借鑒意義?;蛐畔①Y源是我國重要的人類遺傳資源,關(guān)系到國家戰(zhàn)略安全,而我國人類基因數(shù)據(jù)庫尚未建成[6],人類基因數(shù)據(jù)庫元數(shù)據(jù)規(guī)范也不健全。雖然國外人類基因數(shù)據(jù)庫的元數(shù)據(jù)比較成熟,但不同類別基因數(shù)據(jù)庫中每個數(shù)據(jù)庫的元數(shù)據(jù)有一定的差異性,難以直接借鑒。為了保障我國人類基因信息安全和健全我國人類基因數(shù)據(jù)庫建設(shè)標(biāo)準(zhǔn),本文在調(diào)查分析國內(nèi)外人類基因數(shù)據(jù)庫元數(shù)據(jù)現(xiàn)狀的基礎(chǔ)上,設(shè)計了我國人類基因數(shù)據(jù)庫元數(shù)據(jù)規(guī)范。
人類基因數(shù)據(jù)庫主要分為核酸序列類數(shù)據(jù)庫、基因組數(shù)據(jù)庫、疾病與遺傳變異數(shù)據(jù)庫三大類[7]。核酸序列類數(shù)據(jù)庫包括核糖核酸(Ribonucleic Acid,RNA)和脫氧核糖核酸(Deoxyribonucleic Acid,DNA)的相關(guān)信息,DNA和RNA都能儲存遺傳信息;基因組數(shù)據(jù)庫儲存了基因組相關(guān)信息,其中基因組包含了細(xì)胞內(nèi)所有的遺傳信息;疾病與遺傳變異數(shù)據(jù)庫包含了與基因有關(guān)的疾病與遺傳變異信息。除外傷外,大部分的疾病都和基因有密切關(guān)聯(lián)。通過遺傳而攜帶的有問題的基因、后天發(fā)生變異的基因以及個體生活習(xí)慣等對正?;虻挠绊懯菍?dǎo)致疾病的三大根本原因[8]。
1.2.1 核酸序列類數(shù)據(jù)庫
核酸序列數(shù)據(jù)庫主要包括Genbank數(shù)據(jù)庫[9]、EMBL數(shù)據(jù)庫[10]和DDBJ數(shù)據(jù)庫[11]。其中,Genbank數(shù)據(jù)庫的元數(shù)據(jù)主要包括基因編號、基因的關(guān)鍵詞、基因相關(guān)文獻(xiàn)信息、基因的生物學(xué)描述等,基因編號是該序列唯一的編號,基因的關(guān)鍵詞包括該序列的基因產(chǎn)物等信息,基因相關(guān)文獻(xiàn)信息包括基因相關(guān)文獻(xiàn)的作者、題目、刊名等信息,基因的生物學(xué)描述包括基因的來源、重復(fù)序列等信息。EMBL數(shù)據(jù)庫和DDBJ數(shù)據(jù)庫的元數(shù)據(jù)內(nèi)容與Genbank數(shù)據(jù)庫類似。
1.2.2 基因組數(shù)據(jù)庫
本文調(diào)研了Genome數(shù)據(jù)庫[12]和UCSC Genome Browser數(shù)據(jù)庫[13]。這兩個數(shù)據(jù)庫都提供了能檢索及可視化瀏覽人類基因組注釋信息的人類基因組注釋系統(tǒng)。Genome數(shù)據(jù)庫的元數(shù)據(jù)除了包含基因組注釋信息以外,還包含基因所在染色體的名稱、參考序列編號和基因組的生物學(xué)描述等信息。
1.2.3 疾病與遺傳變異數(shù)據(jù)庫
本文調(diào)研了在線人類孟德爾遺傳數(shù)據(jù)庫(Online Mendelian Inheritance in Man,OMIM)[14]、單核苷酸多態(tài)性數(shù)據(jù)庫(Database of Single Nuleotide Polymorphisms,dbSNP)[15]、基因組結(jié)構(gòu)變異數(shù)據(jù)庫(Database of Genomic Structural Variation,dbVar)[16]和人類基因變異數(shù)據(jù)庫(Human Genome Variation Database,HGV Database)[17]。
在線人類孟德爾遺傳數(shù)據(jù)庫包含了人類基因突變的信息,其元數(shù)據(jù)包括基因編號、標(biāo)題、基因相關(guān)文獻(xiàn)信息、基因相關(guān)生物學(xué)信息、貢獻(xiàn)者、提交日期、編輯歷史等。其中生物學(xué)信息包括表型基因關(guān)系、臨床概要和臨床特征等信息。
單核苷酸多態(tài)性數(shù)據(jù)庫主要收錄與人類疾病相關(guān)的基因突變信息,包括小規(guī)模遺傳變異、小規(guī)模多堿基缺失等[18],其元數(shù)據(jù)包括基因編號、基因相關(guān)生物學(xué)信息、提交記錄等。其中基因相關(guān)生物學(xué)信息包括位點、等位基因、變異類型等信息。
基因組結(jié)構(gòu)變異數(shù)據(jù)庫主要收錄較大規(guī)模的基因組變異信息,包括大片段的插入、缺失、異位、倒置和拷貝數(shù)多態(tài)等信息,其元數(shù)據(jù)包括編號、研究ID、基因相關(guān)生物學(xué)信息、提交時間等。其中基因相關(guān)生物學(xué)信息包括變異類型、所在染色體等信息。
人類基因變異數(shù)據(jù)庫包含基因變異信息,其元數(shù)據(jù)包括編號、名稱、基因相關(guān)生物學(xué)信息等。其中基因相關(guān)生物學(xué)信息包括變異類型、相關(guān)疾病、表型等信息。
生命科學(xué)已經(jīng)進(jìn)入大數(shù)據(jù)時代,然而我國缺乏存儲基因數(shù)據(jù)的公共平臺。為順應(yīng)時代的發(fā)展,中國科學(xué)院北京基因組研究所開發(fā)并建設(shè)了組學(xué)原始數(shù)據(jù)歸檔系統(tǒng)(Genome Sequence Archive,GSA)[19-20]。GSA屬于核酸序列類數(shù)據(jù)庫,其元數(shù)據(jù)主要包括GSA編號、樣本信息、測序反應(yīng)信息、測序反應(yīng)序列文件信息等。其中樣本信息包括樣本編號、樣本名稱、樣本類型、貢獻(xiàn)者信息、發(fā)布日期、提交者、提交日期等。
隨著基因技術(shù)的不斷進(jìn)步,基因測序的成本越來越低,獲取基因信息的成本將會逐步降低,從而產(chǎn)生了大量的人類基因信息。人類基因信息是我國重要的遺傳資源,人類基因信息安全是國家戰(zhàn)略安全的重要組成部分。人類基因信息包含人的性格、智力、患某種疾病概率等信息,應(yīng)加強我國人類基因信息安全管理,避免我國人類基因信息的外泄。為了規(guī)范我國人類遺傳資源的管理,我國先后發(fā)布了《人類遺傳資源管理暫行辦法》和《人類遺傳資源采集、收集、買賣、出口、出境審批行政許可事項服務(wù)指南》。建立本土的人類基因數(shù)據(jù)庫可儲存我國人類基因信息,確保我國人類基因信息安全,而我國人類基因數(shù)據(jù)庫元數(shù)據(jù)規(guī)范是我國人類基因數(shù)據(jù)采集和儲存的基礎(chǔ)性的技術(shù)規(guī)范。
人類基因數(shù)據(jù)庫建設(shè)標(biāo)準(zhǔn)是人類基因數(shù)據(jù)庫建設(shè)的重要內(nèi)容。與國外人類基因數(shù)據(jù)庫元數(shù)據(jù)相比,國內(nèi)人類基因數(shù)據(jù)庫元數(shù)據(jù)包含的內(nèi)容較少,不能滿足未來對基因數(shù)據(jù)的應(yīng)用需求。雖然國外人類基因數(shù)據(jù)庫元數(shù)據(jù)已經(jīng)比較成熟,但是每個國家各自的數(shù)據(jù)庫是根據(jù)自身不同需求建立的,每類基因數(shù)據(jù)庫中每個庫的元數(shù)據(jù)都不盡相同。因此我國在建立人類基因數(shù)據(jù)庫時,難以確定遵循哪個數(shù)據(jù)庫的元數(shù)據(jù)。
我國幅員遼闊,人口和民族眾多,生物資源非常豐富。隨著測序技術(shù)的進(jìn)步和生物數(shù)據(jù)急劇增長,政府也制定了一些標(biāo)準(zhǔn)。國內(nèi)目前已發(fā)布標(biāo)準(zhǔn)有國家標(biāo)準(zhǔn)《生物信息學(xué)術(shù)語》(GB-T-29859-2013)和地方標(biāo)準(zhǔn)《生物基因信息數(shù)據(jù)庫建設(shè)與管理規(guī)范》(SZDB/Z 92-2014)。但是,上述兩個標(biāo)準(zhǔn)都沒有規(guī)定人類基因數(shù)據(jù)庫元數(shù)據(jù)的具體內(nèi)容,所以我國亟需建立人類基因數(shù)據(jù)庫元數(shù)據(jù)標(biāo)準(zhǔn)。
通過文獻(xiàn)調(diào)查和網(wǎng)站檢索等方法,調(diào)研了國內(nèi)外核酸序列類數(shù)據(jù)庫、基因組數(shù)據(jù)庫、疾病與遺傳變異數(shù)據(jù)庫,并從標(biāo)識維度、關(guān)系維度、文獻(xiàn)維度、內(nèi)容維度和管理維度設(shè)計了不同類型基因數(shù)據(jù)庫元數(shù)據(jù)規(guī)范[21]。
通過綜合以上核酸序列類數(shù)據(jù)庫元數(shù)據(jù),得出核酸序列類數(shù)據(jù)庫元數(shù)據(jù)主要包括基因編號、基因的關(guān)鍵詞、基因相關(guān)文獻(xiàn)信息、基因的生物學(xué)描述等;然后遵循簡潔、實用、準(zhǔn)確的原則,設(shè)計了核酸序列數(shù)據(jù)庫元數(shù)據(jù)規(guī)范。將核酸序列類數(shù)據(jù)庫的元數(shù)據(jù)分為標(biāo)識維度、關(guān)系維度、文獻(xiàn)維度和內(nèi)容維度。核酸序列類數(shù)據(jù)庫數(shù)據(jù)元模型見圖1。其中,標(biāo)識維度是對基因標(biāo)識信息的描述,關(guān)系維度是對基因相關(guān)的關(guān)鍵詞信息的描述,文獻(xiàn)維度是對基因相關(guān)聯(lián)的文獻(xiàn)信息的描述,內(nèi)容維度是對基因相關(guān)生物學(xué)信息的描述。每個維度所包含的元數(shù)據(jù)項見表1。
圖1 核酸序列類數(shù)據(jù)庫數(shù)據(jù)元基本屬性模型
維度 元數(shù)據(jù) 說明是否可選標(biāo)識維度 編號(Accession)具有唯一性和永久性必選版本(Version)代表版本號,編號后加小數(shù)點和整數(shù)可選關(guān)系維度關(guān)鍵詞(Keywords)由該序列的提交者提供,描述該基因的關(guān)鍵詞可選文獻(xiàn)維度參考文獻(xiàn)編號(Reference Number)無可選 作者(Authors)無可選標(biāo)題(Title)無可選雜志名(Journal)無可選評論(Comment)用戶關(guān)于此條序列的評論 可選超文本鏈接(Hypertext Link)點擊即可直接調(diào)用上述文獻(xiàn)摘要可選內(nèi)容維度說明(Definition)有關(guān)該序列的簡單描述必選數(shù)據(jù)來源(Source)說明該序列的生物體來源和組織來源 必選種屬(Organism) 指出該生物體的分類學(xué)地位 必選細(xì)胞器(Organelle)該基因是否在某一個特殊的細(xì)胞器中必選重復(fù)序列(Repeat_Region)基因中所包含的重復(fù)序列 必選原序列(Origin)堿基序列必選
通過綜合以上基因組數(shù)據(jù)庫元數(shù)據(jù),得出基因組數(shù)據(jù)庫元數(shù)據(jù)主要包括基因所在染色體名稱、參考序列編號、基因組的生物學(xué)描述、基因組注釋信息等;然后設(shè)計了基因組數(shù)據(jù)庫元數(shù)據(jù)規(guī)范。將基因組數(shù)據(jù)庫元數(shù)據(jù)分為標(biāo)識維度、內(nèi)容維度和基因組注釋維度?;蚪M數(shù)據(jù)庫數(shù)據(jù)元模型見圖2。其中,標(biāo)識維度是對基因組標(biāo)識信息的描述,內(nèi)容維度是對基因組相關(guān)生物學(xué)信息的描述,基因組注釋維度是對基因組注釋信息的描述。每個維度包含的元數(shù)據(jù)項見表2。國外基因組數(shù)據(jù)庫的數(shù)據(jù)中,對于基因組注釋維度的幾個方面數(shù)據(jù)有更詳細(xì)的描述。
圖2 基因組數(shù)據(jù)庫數(shù)據(jù)元基本屬性模型
維度 元數(shù)據(jù)項 說明是否可選 標(biāo)識維度染色體名稱(Name) 無 必選參考序列編號(Refseq) 無 必選內(nèi)容維度GC含量(GC%)五個堿基內(nèi)GC的比例 可選蛋白質(zhì) (Protein) 蛋白質(zhì)數(shù)量 可選核糖體RNA(rRNA) 核糖體RNA的數(shù)量 可選轉(zhuǎn)運RNA (tRNA) 轉(zhuǎn)運RNA的數(shù)量可選其他RNA(Other RNA)其他RNA的數(shù)量可選基因(Gene) 基因的數(shù)量 可選假基因(Pseudogene)假基因的數(shù)量 可選基因組注釋維度比對和序列(Mapping and Sequencing) 無 必選基因和基因預(yù)測(Genes and Gene Predictions)無 必選表型和文獻(xiàn)(Phenotype and Literature)無 必選轉(zhuǎn)錄RNA和表達(dá)序列標(biāo)簽(mRNA and EST)無 必選表達(dá)(Expression) 無 必選調(diào)節(jié)(Regulation) 無 必選比較基因組(Comparative Genomics) 無 必選變異(Variation) 無 必選重復(fù)序列(Repeats) 無 必選
通過綜合以上疾病與遺傳變異數(shù)據(jù)庫元數(shù)據(jù),得出疾病與遺傳變異數(shù)據(jù)庫元數(shù)據(jù)主要包括編號、標(biāo)題、基因相關(guān)生物學(xué)信息、提交時間、編輯歷史等;根據(jù)實用性原則,結(jié)合我國實際情況設(shè)計了疾病與遺傳變異數(shù)據(jù)庫元數(shù)據(jù)規(guī)范。將疾病與遺傳變異數(shù)據(jù)庫涉及到的元數(shù)據(jù)分為標(biāo)識維度、內(nèi)容維度和管理維度。疾病與遺傳變異數(shù)據(jù)庫數(shù)據(jù)元模型見圖3。其中,標(biāo)識維度是對基因標(biāo)識信息的描述,內(nèi)容維度是對基因相關(guān)生物學(xué)信息的描述,管理維度是對基因管理信息的描述。每個維度所包含的元數(shù)據(jù)見表3。
圖3 疾病與遺傳變異數(shù)據(jù)庫數(shù)據(jù)元基本屬性模型
本文收集并整理了國內(nèi)外人類基因數(shù)據(jù)庫的元數(shù)據(jù),按照標(biāo)識維度、內(nèi)容維度、管理維度、關(guān)系維度和文獻(xiàn)維度,分別對核酸序列類數(shù)據(jù)庫、基因組數(shù)據(jù)庫、疾病與遺傳變異數(shù)據(jù)庫的元數(shù)據(jù)進(jìn)行了分類;然后設(shè)計了我國人類基因數(shù)據(jù)庫元數(shù)據(jù)規(guī)范,目的是為我國人類基因數(shù)據(jù)的采集和儲存提供幫助。但也存在不足之處,本文設(shè)計的我國人類基因數(shù)據(jù)庫元數(shù)據(jù)規(guī)范只是一個初步的規(guī)范,實用價值有限,該規(guī)范仍需進(jìn)一步檢驗和完善。
為了保障我國人類基因信息安全,相關(guān)領(lǐng)域的研究人員應(yīng)以實用、方便、準(zhǔn)確為原則,盡快建立我國的人類基因數(shù)據(jù)庫,并在全國范圍內(nèi)推廣,防止我國人類基因信息資源的外泄。