孫定中,馬俊才
1.中國科學(xué)院微生物研究所,微生物資源與大數(shù)據(jù)中心,北京 100101
傳統(tǒng)的生物學(xué)是一門實(shí)驗(yàn)科學(xué),產(chǎn)生的數(shù)據(jù)量有限,且數(shù)據(jù)的生命周期(data life cycle)往往隨著某個研究的結(jié)束而終止?,F(xiàn)代生物學(xué)則不然。一方面,由于人類實(shí)驗(yàn)技術(shù)的突飛猛進(jìn),生物學(xué)數(shù)據(jù)的量在過去的40年內(nèi)經(jīng)歷了爆發(fā)式的增長,我們積累數(shù)據(jù)的速度漸漸超過了我們分析數(shù)據(jù)的速度(即“數(shù)據(jù)過載”(data deluge)現(xiàn)象)[1];另一方面,系統(tǒng)生物學(xué)和生物信息學(xué)的興起改變了我們對數(shù)據(jù)的利用方式,延長了數(shù)據(jù)的生命周期,甚至可能令某些數(shù)據(jù)的生命力近乎永久[2]。因此,從用戶的角度來看,為了有效利用這些數(shù)據(jù),我們就必須能夠?qū)ζ溥M(jìn)行再分配或者說分享,提高其可再利用性(reusability);從數(shù)據(jù)平臺的角度來看,為了有效管理這些數(shù)據(jù),讓它們在工具軟件、計(jì)算平臺和數(shù)據(jù)庫之間能夠高保真地自由傳輸,就要求數(shù)據(jù)具有良好的可互操作性(interoperability)。
然而,在生物學(xué)研究的過程中,研究者們總是會根據(jù)自身研究對象、研究目的和研究經(jīng)費(fèi)的不同采取適用于他們的實(shí)驗(yàn)方法、分析方法和記錄手段。這些特異化一方面有利于各個科研項(xiàng)目的進(jìn)行,但另一方面必然會造成實(shí)驗(yàn)結(jié)果(至少是在存在形式上)的差異,進(jìn)而使在用系統(tǒng)生物學(xué)手段對這些結(jié)果進(jìn)行比較時產(chǎn)生困難[3]。因此,如果要產(chǎn)生易于相互比較的數(shù)據(jù),就必須對數(shù)據(jù)生命周期中存在的不同點(diǎn)進(jìn)行限定——也就是數(shù)據(jù)的“標(biāo)準(zhǔn)化”。從源頭上來講,數(shù)據(jù)的標(biāo)準(zhǔn)化在于對實(shí)驗(yàn)方法(流程、儀器、材料、分析技術(shù)等)的限定。但這一方面對實(shí)驗(yàn)室的條件有要求,另一方面會減少研究的自由度,所以在現(xiàn)實(shí)中很難大規(guī)模推廣[4]。相比起來,從下游對實(shí)驗(yàn)的結(jié)果進(jìn)行標(biāo)準(zhǔn)化則只需要對實(shí)驗(yàn)后的數(shù)據(jù)處理部分做出限定,在現(xiàn)實(shí)中更具有可行性。因此,目前的生物學(xué)標(biāo)準(zhǔn)化工作主要集中在對實(shí)驗(yàn)結(jié)果的標(biāo)準(zhǔn)化中。
數(shù)據(jù)庫是承載生物學(xué)實(shí)驗(yàn)結(jié)果的倉庫。雖然生物學(xué)實(shí)驗(yàn)的方法千差萬別,產(chǎn)生的結(jié)果類型也可分為數(shù)值、字符、圖片等,但是存放這些結(jié)果的數(shù)據(jù)庫的結(jié)構(gòu)卻大同小異,均由數(shù)據(jù)庫管理系統(tǒng)(DBMS)、數(shù)據(jù)轉(zhuǎn)換軟件、數(shù)據(jù)界面三部分構(gòu)成。然而,為了更好地存儲和分享隸屬于不同生物學(xué)分支的知識,這些起著相同功能的部分卻可能遵循著完全不同的計(jì)算機(jī)標(biāo)準(zhǔn)[5]。例如,就存儲方式而言,序列數(shù)據(jù)庫在建立之初僅以存儲一維的序列數(shù)據(jù)為主,所以大多采用了無結(jié)構(gòu)的平面文件(flat file);但隨著生物信息學(xué)的發(fā)展,人們研究序列的方式發(fā)生了顛覆式改變,附加信息(元數(shù)據(jù))變得重要起來,其中一些數(shù)據(jù)庫就漸漸開始采用了有結(jié)構(gòu)的標(biāo)記語言(如 SGML)文件來分類存儲與每段序列相關(guān)的元數(shù)據(jù);在這些元數(shù)據(jù)的種類越來越多、關(guān)系越來越復(fù)雜后,又有部分?jǐn)?shù)據(jù)庫同時使用了RDF之類的框架來輔助存儲數(shù)據(jù)之間的關(guān)系信息[3]。這些不同的數(shù)據(jù)格式使得它們無法被直接被計(jì)算機(jī)跨庫使用和解析,若要相互轉(zhuǎn)化,則需要投入專門的人力物力,并很可能在處理和轉(zhuǎn)化過程中失真。因此,最好能設(shè)立統(tǒng)一的標(biāo)準(zhǔn)以規(guī)范生物數(shù)據(jù)的存儲和調(diào)用方式,讓每條數(shù)據(jù)都可以被機(jī)器自動處理(machine-actionable)[6]。
想要達(dá)成此點(diǎn),一來需要統(tǒng)一的標(biāo)記語言,二來需要統(tǒng)一的數(shù)據(jù)元素集。標(biāo)記語言規(guī)定了計(jì)算機(jī)讀取數(shù)據(jù)文件的方式,統(tǒng)一的標(biāo)記語言之于計(jì)算機(jī)就像國際音標(biāo)之于人類一樣,提供了一個通用的讀取方式。目前,生物學(xué)數(shù)據(jù)跟隨著計(jì)算機(jī)科學(xué)的發(fā)展使用了XML語言作為主要的標(biāo)記語言,并在XML的基礎(chǔ)上發(fā)展出了許多更專業(yè)的標(biāo)記語言[7-8]。但就像國際音標(biāo)能讓人知其聲而不能讓人知其意一樣,統(tǒng)一的標(biāo)記語言只是讓計(jì)算機(jī)可以讀取這些數(shù)據(jù),卻并不能讓它們及它們背后的人類理解及處理這些數(shù)據(jù)[9]。要想將“計(jì)算機(jī)可讀”的數(shù)據(jù)變成“對機(jī)器和人類有意義”的數(shù)據(jù),我們需要建立關(guān)于這些數(shù)據(jù)的“詞典”——數(shù)據(jù)元素集。理論上來講,數(shù)據(jù)元素是生物學(xué)概念的數(shù)據(jù)化,而所有生物學(xué)分支領(lǐng)域的概念應(yīng)該都是某個覆蓋了所有生物學(xué)領(lǐng)域的“生物學(xué)概念全集”的子集,所以建立一個跨學(xué)科的共同的“生物學(xué)數(shù)據(jù)元素標(biāo)準(zhǔn)”在理論上應(yīng)該是可行的。然而,在實(shí)際工作中,各領(lǐng)域的生物學(xué)家并沒有就所有的概念達(dá)成共識,很多術(shù)語在不同的群體中有不同的意思;而且許多科學(xué)概念的定義本身就處在動態(tài)更新中,會隨著新研究的出現(xiàn)而增減、變化[3,5-6,10]。這讓推行一個“大統(tǒng)一“的數(shù)據(jù)元素標(biāo)準(zhǔn)變得不現(xiàn)實(shí),所以生物學(xué)家們目前更多的是在小范圍內(nèi)建立某個或某幾個相關(guān)領(lǐng)域的通用數(shù)據(jù)元素標(biāo)準(zhǔn),并預(yù)留下數(shù)據(jù)轉(zhuǎn)化方法以增強(qiáng)其在其他領(lǐng)域的可互操作性[11-12]。
在生物學(xué)領(lǐng)域,數(shù)據(jù)元素標(biāo)準(zhǔn)大部分以基本數(shù)據(jù)集(MDS,minimum data set)的形式出現(xiàn),如基因標(biāo)準(zhǔn)化委員會(GSC)制定的一系列關(guān)于基因的基本數(shù)據(jù)集。其中簡單的可以是無結(jié)構(gòu)的受控詞表(controlled vocabulary,CV),僅規(guī)定必要的字段名和定義,而不限定字段內(nèi)容;較復(fù)雜的不但會有字段相應(yīng)的范圍或預(yù)設(shè)值,還可能會有專用于描述字段關(guān)系的字段,讓數(shù)據(jù)元素組成某種概念系(ontology,術(shù)語的詞義及其相互關(guān)系),如基因概念系(GO,gene ontology)。這兩種方法各有利弊,生物學(xué)者們一般會根據(jù)其目的和可用技術(shù)手段擇其一建立數(shù)據(jù)標(biāo)準(zhǔn)。
例如,生物的自然歷史數(shù)據(jù)源自過去數(shù)百年間所積累、并仍在穩(wěn)定增加的觀測和實(shí)驗(yàn)數(shù)據(jù)。它的量要遠(yuǎn)遜于如今比肩天文數(shù)字的分子生物學(xué)數(shù)據(jù),但其質(zhì)量和存在形式的差異要遠(yuǎn)大于后者。因此這些數(shù)據(jù)即便在實(shí)現(xiàn)了“數(shù)字化”之后也不易于“數(shù)據(jù)化”,更遑論標(biāo)準(zhǔn)化。但反過來講,一旦我們能實(shí)現(xiàn)生物多樣性數(shù)據(jù)的標(biāo)準(zhǔn)化,那么以此為參考,對其他類型的生物數(shù)據(jù)再進(jìn)行標(biāo)準(zhǔn)化便將如履平地,更何況這些數(shù)據(jù)在整合后還能對于保護(hù)生物學(xué)和生態(tài)多樣性等研究起到超越其量級的重大作用[13]。所以,建立一個像生物資源目錄一樣的“一站式”信息中心一直是相關(guān)生物學(xué)家們的目標(biāo)。GBIF(Global Biodiversity Information Facility)運(yùn)營著全球最大的生物多樣性數(shù)據(jù)庫,保存著從18世紀(jì)至今的超過19億條生物觀測記錄(2021年)。GBIF使用了Darwin Core(DwC)作為它的執(zhí)行標(biāo)準(zhǔn)[12],也讓該標(biāo)準(zhǔn)成為了進(jìn)行跨學(xué)科或大尺度的綜合性研究的首選數(shù)據(jù)標(biāo)準(zhǔn)。同時,因?yàn)镈arwin Core完全建立在信息科學(xué)標(biāo)準(zhǔn)Dublin Core(http://dublincore.org/)之上[14-15],可以視為它的延伸,所以符合該標(biāo)準(zhǔn)的數(shù)據(jù)具有非常好的可互操作性。不過,Darwin Core雖然采用了XML作為其存儲格式,但是數(shù)據(jù)基本還是平面化的,僅有簡單的兩層(Simple Darwin Core和Generic Darwin Core),這限制了其直接記載更復(fù)雜信息的能力。與GBIF不同,BioCASe(Biological Collection Access Service)使用了同樣基于XML但結(jié)構(gòu)化程度更高的ABCD(Access to Biological Collection Data)標(biāo)準(zhǔn)來“格式化“通過這個端口提交的生物多樣性數(shù)據(jù)[16]。ABCD在兼容DwC的基礎(chǔ)上,于數(shù)據(jù)整合方面更進(jìn)一步,將事物的相關(guān)性映射到了數(shù)據(jù)元素當(dāng)中,形成了具有實(shí)際意義的語義結(jié)構(gòu)。這使得ABCD可以重復(fù)使用相同的元素來存儲不同的值(例如同一標(biāo)本的多個鑒定結(jié)果可以被存在同一條目下),并使得字段可以被更加細(xì)致的劃分(如將地點(diǎn)字段分為三個子字段,洲際、國家和ISO識別碼)。因此,ABCD在2.0版本后已經(jīng)具有了RDF資源的特性。當(dāng)然,高度結(jié)構(gòu)化的代價(jià)就是ABCD的自動化編譯要比DwC復(fù)雜。作為泛用性的標(biāo)準(zhǔn),DwC和ABCD都缺乏特定領(lǐng)域的專有數(shù)據(jù)元素,但都有良好的擴(kuò)展機(jī)制(如ABCD-DNA和ABCD-EFG[16-17]),可以很好地滿足跨學(xué)科研究的需要;并且這兩個標(biāo)準(zhǔn)都在快速的更新中,除了新的元素以外,新的計(jì)算機(jī)數(shù)據(jù)技術(shù)也被不斷地融入最新的版本中。
微生物作為世界上代謝類型和營養(yǎng)類型最多樣的群體以及現(xiàn)代生物研究和生物工業(yè)的主力軍之一,其數(shù)據(jù)總量龐大、來源和類型都十分多樣。對微生物數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化困難重重,但也意義重大。除了對已有的標(biāo)準(zhǔn)(如DwC)進(jìn)行延伸外,微生物學(xué)也有自己的標(biāo)準(zhǔn)化傳承。
微生物數(shù)據(jù)標(biāo)準(zhǔn)的雛形來自于負(fù)責(zé)保存微生物樣本的生物資源中心(BRC,biological resource centre)或微生物資源中心(MRC,microbial resource centre)編纂的資源目錄。這些機(jī)構(gòu)在保存微生物樣本的過程中,也收集了大量有關(guān)這些微生物的附加信息(如來源、表型、基因標(biāo)記、用途、關(guān)聯(lián)文獻(xiàn)等)作為對其資源目錄的補(bǔ)充[18]。在網(wǎng)絡(luò)時代來臨之后,這些菌株及其相關(guān)信息很快實(shí)現(xiàn)了數(shù)字化并被發(fā)布在網(wǎng)上,極大地?cái)U(kuò)展了這些資源中心的用戶群體和服務(wù)范圍,進(jìn)而也催生了新的問題:如何盡量簡便地獲取盡量多的信息?為了提供盡量多的信息,生物資源中心開始相互協(xié)作、分享其數(shù)據(jù)乃至菌種資源;而為了簡化用戶獲取信息的步驟,這些中心就要成立一個統(tǒng)一的對外服務(wù)網(wǎng)站,整合其數(shù)據(jù)并開發(fā)能夠覆蓋這些數(shù)據(jù)的搜索服務(wù)。出于解決數(shù)據(jù)交換和數(shù)據(jù)整合問題的需要,世界培養(yǎng)物保藏協(xié)會(WFCC)在20世紀(jì)60年代就提出了關(guān)于建立一個世界性的微生物數(shù)據(jù)庫的想法,并進(jìn)行過一些嘗試(http://www.wdcm.org/history.html)[19],但直到20世紀(jì)末,歐盟的MINE(Microbial Information Network Europe)計(jì)劃才真正將這一想法落實(shí)[20-21]。MINE通過“自上而下”的組織,第一次在參與的成員國機(jī)構(gòu)中統(tǒng)一了真菌和細(xì)菌的數(shù)據(jù)標(biāo)準(zhǔn)。該標(biāo)準(zhǔn)不但包括了對數(shù)據(jù)元素的定義,也包括了對數(shù)據(jù)庫結(jié)構(gòu)模型,乃至數(shù)據(jù)的記錄、準(zhǔn)入和數(shù)據(jù)庫軟硬件的要求。這種細(xì)致的規(guī)定雖然加強(qiáng)了數(shù)據(jù)的可互操作性,但是卻限制了標(biāo)準(zhǔn)本身的推廣,尤其是在已有成熟的數(shù)據(jù)庫模型的機(jī)構(gòu)中或無力建設(shè)這些基礎(chǔ)設(shè)施的欠發(fā)達(dá)地區(qū)。因此MINE最終也只被歐盟的12個成員國所采納,而沒有被進(jìn)一步推廣。不過,MINE的核心字段表(135個有關(guān)真菌的和145個有關(guān)細(xì)菌的)、數(shù)據(jù)結(jié)構(gòu)和構(gòu)詞法在后來被另一個歐盟項(xiàng)目CABRI(Common Access to Biological Resources and Information)所繼承、發(fā)展[22]。相比于MINE,CABRI除了要求聯(lián)盟成員對數(shù)據(jù)質(zhì)量進(jìn)行統(tǒng)一的控制之外,不再對數(shù)據(jù)的模型做出進(jìn)一步的規(guī)定,并在MINE基本數(shù)據(jù)集的基礎(chǔ)上根據(jù)生物類型的不同分別增加了推薦數(shù)據(jù)集(RDS,recommended data set)和全數(shù)據(jù)集(FDS,full data set),形成了一套兼具規(guī)范性和靈活性的數(shù)據(jù)元素標(biāo)準(zhǔn)。在通過平面文件收集各生物資源中心的數(shù)據(jù)并按照這些數(shù)據(jù)集分級匯總后,CABRI制成了一個集合了28個資源目錄信息的“超目錄”,基本達(dá)成了對下轄各資源庫信息進(jìn)行“一站式”檢索的目的[23]。不過,由于它和MINE一樣使用平面文件進(jìn)行數(shù)據(jù)管理并在數(shù)據(jù)結(jié)構(gòu)中允許及使用了“子字段”[18],致使其數(shù)據(jù)在與其他外部數(shù)據(jù)庫(如EMBL-EBI)相互關(guān)聯(lián)時十分繁瑣,難以實(shí)現(xiàn)自動化,必需要大量的人力投入來建立映射和進(jìn)行校對[23]。之后的微生物學(xué)通用語言(Microbiological Common Language,MCL)作為一個數(shù)據(jù)交換標(biāo)準(zhǔn),采用了一套不同于二者且更符合微生物保藏流程的數(shù)據(jù)結(jié)構(gòu)[18]。MCL在保留了CABRI數(shù)據(jù)元素的大部分內(nèi)容的基礎(chǔ)上,摒棄了MINE(及CABRI)中關(guān)于子字段的設(shè)計(jì),并且將數(shù)據(jù)按照微生物的采樣、分離、培養(yǎng)、存貯的順序進(jìn)行分類,附加上一些保藏相關(guān)的數(shù)據(jù)(如培養(yǎng)條件、文獻(xiàn)),建立起了每條菌株的結(jié)構(gòu)化模型。為了適配這種改變,MCL采用了XML語言中的DOM架構(gòu),使得數(shù)據(jù)在保留通用性的基礎(chǔ)上實(shí)現(xiàn)了立體化,大大提高了MCL與基于XML的其他標(biāo)準(zhǔn)(如基因組背景數(shù)據(jù)標(biāo)記語言(GCDML)[7])的兼容性以及數(shù)據(jù)的相互轉(zhuǎn)化效率。除此之外,借助MCL的力量,StrainInfo實(shí)現(xiàn)了不同來源的信息在菌株層面的整合和呈現(xiàn),在缺少統(tǒng)一的菌株資源標(biāo)識符(URI)的情況下,部分解決了不同中心同一菌株的異名問題和目錄更新問題[24-25]??上У氖牵捎谌狈Y金,MCL語言在2018年后就停止了更新。與 MCL通過爬取和比對進(jìn)行數(shù)據(jù)整合的方式不同,WFCC作為世界上最大的微生物資源聯(lián)盟,則可以直接與加盟的資源中心進(jìn)行數(shù)據(jù)合作。其下屬的世界微生物資源目錄GCM(Global Catalogue of Micoorganisms),在建立過程中參考了MINE和CABRI的基礎(chǔ)數(shù)據(jù)集和推薦數(shù)據(jù)集,規(guī)定了主要的字段和字段類型,并借助WFCC的力量向下推廣[19,26]。不過,GCM的標(biāo)準(zhǔn)沒有對任何字段預(yù)設(shè)必選或推薦的值,在提高了標(biāo)準(zhǔn)的普遍適用性同時,也限制了其數(shù)據(jù)精度。國際標(biāo)準(zhǔn)化組織(ISO)也起草和發(fā)行了兩個與微生物數(shù)據(jù)有關(guān)的標(biāo)準(zhǔn) ISO/CD 20691(關(guān)于生命科學(xué)數(shù)據(jù)的格式和內(nèi)容要求)和ISO 21710(微生物資源中心的數(shù)據(jù)管理和發(fā)布規(guī)范)。ISO/CD 20691闡述了生物學(xué)數(shù)據(jù)通用的組織和格式化方法,包括如何執(zhí)行FAIR原則[6]、如何選擇數(shù)據(jù)格式、構(gòu)筑數(shù)據(jù)管理系統(tǒng)、建立數(shù)據(jù)元素標(biāo)準(zhǔn)、保持?jǐn)?shù)據(jù)標(biāo)準(zhǔn)的兼容性、建立數(shù)據(jù)中心等[27]。ISO 21710則更具體地討論了生物資源中心要如何進(jìn)行微生信息的數(shù)據(jù)化以及這些數(shù)據(jù)的發(fā)行標(biāo)準(zhǔn)和管理方式,包括一個ISO推薦數(shù)據(jù)集(見下文)[28]。
除了生物資源中心的資源目錄以外,微生物數(shù)據(jù)的另一個主要來源是以微生物為對象的分子生物學(xué)研究中產(chǎn)生的數(shù)據(jù)。在第二代測序技術(shù)開始普及后,以DNA序列為代表的這部分?jǐn)?shù)據(jù)已經(jīng)成為微生物數(shù)據(jù)的絕對主體。然而,出于傳統(tǒng)原因[29],盡管這部分?jǐn)?shù)據(jù)具有格式上的一致性(如核酸序列的FASTA或FASTQ文件),其格式卻不支持大量元數(shù)據(jù)的附加,并且這些格式的平面結(jié)構(gòu)十分不利于數(shù)據(jù)的整合。于是,為了提升序列數(shù)據(jù)的附加值,準(zhǔn)確且規(guī)范地描述序列,GSC在2005年開始了基因組數(shù)據(jù)的標(biāo)準(zhǔn)化[30],并在隨后的十幾年中,出版了一系列關(guān)于序列的基本數(shù)據(jù)集:有關(guān)基因組的MIGS、宏基因組的MIMS[11]、標(biāo)記基因的MIMARKS、所有序列通用的MIxS[31]、單細(xì)胞擴(kuò)增基因組的MISAG、宏基因組拼接基因組的MIMAG[32]、病毒基因組的MIUViG[33]。這些標(biāo)準(zhǔn)按照核酸研究的共性,將用以描述序列的元數(shù)據(jù)分為“調(diào)查”(study)和“分析”(assay)兩大類,分別記錄序列的來源及采集環(huán)境和測序?qū)嶒?yàn)的方法,并建立通用的數(shù)據(jù)元素集;然后,各個標(biāo)準(zhǔn)根據(jù)其序列的來源和實(shí)驗(yàn)方法差異,再建立起特異性的數(shù)據(jù)集,以滿足不同領(lǐng)域的需要。這種數(shù)據(jù)元素的子母集結(jié)構(gòu)很好地滿足了當(dāng)今系統(tǒng)生物學(xué)的需要,使得同一批數(shù)據(jù)既可以被用于尋找一般性規(guī)律的大尺度研究,又能被用于探尋特定生物或環(huán)境特性的精細(xì)研究;同時,這種結(jié)構(gòu)也完全符合XML語言的特性,所以隨即就被GSC發(fā)展為專用的標(biāo)記語言GCDML[7]。而在幾乎同一時期,蛋白質(zhì)研究者們也推出了類似名稱的領(lǐng)域標(biāo)準(zhǔn),如由蛋白質(zhì)組標(biāo)準(zhǔn)化倡議委員會(PSI)推出的蛋白質(zhì)組學(xué)實(shí)驗(yàn)基本數(shù)據(jù)集(MIAPE)和分子相互作用實(shí)驗(yàn)基本數(shù)據(jù)集(MIMIx)等[34-35]。不過與序列標(biāo)準(zhǔn)不同,這些標(biāo)準(zhǔn)的作者認(rèn)為控制詞匯會不利于標(biāo)準(zhǔn)的推廣,所以這些數(shù)據(jù)集本身沒有包含受控詞匯表,而只對必需的實(shí)驗(yàn)信息進(jìn)行了寬泛的要求;相應(yīng)的數(shù)據(jù)元素標(biāo)準(zhǔn)實(shí)際上以擴(kuò)展包的形式被推出(https://www.psidev.info/groups/controlled-vocabularies),獨(dú)立于以上標(biāo)準(zhǔn)存在??赡苁怯捎诘鞍踪|(zhì)組學(xué)的后發(fā)性,大多數(shù)蛋白質(zhì)數(shù)據(jù)庫(如UniProt)或分析軟件都支持輸出為結(jié)構(gòu)化格式(如XML/RDF),PSI也可以將符合其標(biāo)準(zhǔn)的數(shù)據(jù)轉(zhuǎn)化為XML。
從以上的例子中,我們可以看到,僅與微生物相關(guān)的生物學(xué)標(biāo)準(zhǔn),就已為數(shù)眾多,所以搞清這些標(biāo)準(zhǔn)或詞表本身到最后也成了橫亙在新晉研究者和跨領(lǐng)域研究者面前的一道難題。因此,為了實(shí)現(xiàn)標(biāo)準(zhǔn)自身描述信息的“標(biāo)準(zhǔn)化”,生物學(xué)界聯(lián)合相關(guān)的標(biāo)準(zhǔn)化組織又進(jìn)一步建立了生物學(xué)及生物醫(yī)學(xué)基本數(shù)據(jù)集MIBBI(Minimum Information for Biological and Biomedical Investigations),以方便學(xué)者們理清所需要或正在使用的標(biāo)準(zhǔn)[36]。MIBBI在建立后不斷地升級,從最初只包含生命科學(xué)領(lǐng)域的標(biāo)準(zhǔn),現(xiàn)如今已經(jīng)成為一個橫跨自然科學(xué)、工程學(xué)、人文科學(xué)與社會學(xué)等多個學(xué)科的綜合性標(biāo)準(zhǔn)查詢網(wǎng)站Fairsharing.org[37]。
微生物資源中心數(shù)據(jù)管理和發(fā)布規(guī)范ISO 21710:2020是第一個由我國學(xué)者主導(dǎo)推出的生物技術(shù)方面的ISO標(biāo)準(zhǔn)[38]。這個標(biāo)準(zhǔn)的主要目的是為解決微生物資源目錄的數(shù)據(jù)管理和在線發(fā)布中因數(shù)據(jù)類型和格式不統(tǒng)一而產(chǎn)生的數(shù)據(jù)交換和整合問題,其中的很多內(nèi)容其實(shí)也可以被推廣應(yīng)用到非微生物資源的數(shù)據(jù)管理。
ISO 21710:2020包括正文和附錄兩部分。其中正文分5個部分,前3部分承襲了ISO的一貫做法,分別介紹了本標(biāo)準(zhǔn)的適用范圍(微生物資源中心)、所依據(jù)的前置標(biāo)準(zhǔn)(ISO 20387:2018)、術(shù)語及其定義,第4部分給出了微生物資源中心數(shù)據(jù)發(fā)行的一般性要求和指導(dǎo)意見(微生物資源中心對所轄生物材料相關(guān)信息負(fù)有的責(zé)任和落實(shí)這些責(zé)任的方法,對資源目錄中的數(shù)據(jù)的要求),第5部分則對資源中心如何管理這些數(shù)據(jù)給出了相應(yīng)的要求和建議(微生物資源中心數(shù)據(jù)的管理系統(tǒng),入庫生物材料〔包括專利材料〕所必需的相關(guān)信息及其要求,實(shí)現(xiàn)生物資源信息可追溯的方法,唯一性標(biāo)識符的應(yīng)用方法和范圍,數(shù)據(jù)的質(zhì)量控制方法)。ISO 21710:2020的附錄是一個推薦數(shù)據(jù)集(基本數(shù)據(jù)集已在標(biāo)準(zhǔn)正文中規(guī)定),基本涵蓋了微生物資源中心可能需要收集的大部分信息,從生物材料的分類學(xué)信息、保藏信息、采集信息等10個方面出發(fā),給出了推薦使用的數(shù)據(jù)元素,包括每個元素的名稱、類型和示例,部分元素還推薦了可用值的受控詞匯表。
作為一個由ISO頒布的標(biāo)準(zhǔn),這個標(biāo)準(zhǔn)與其它ISO生物資源中心相關(guān)標(biāo)準(zhǔn)能夠很好地銜接,構(gòu)成一個更完整的單一質(zhì)量體系。在此標(biāo)準(zhǔn)之上建立的數(shù)據(jù)庫,其數(shù)據(jù)將有良好地可互操作性,能夠比較容易地與其他數(shù)據(jù)庫(特別是同一ISO標(biāo)準(zhǔn)的數(shù)據(jù)庫)進(jìn)行交換或被用作數(shù)據(jù)整合,助力微生物相關(guān)的科研和應(yīng)用。中國科學(xué)院微生物研究所作為該標(biāo)準(zhǔn)的主要起草人和 GCM 的管理者,在建立和運(yùn)營GCM的過程中實(shí)際上已經(jīng)應(yīng)用了這個標(biāo)準(zhǔn);而通過GCM在全世界微生物資源中心中的影響力,ISO 21710:2020也將被更多的中心所接受和使用。
截至目前為止,數(shù)據(jù)的標(biāo)準(zhǔn)化解決了一些不同數(shù)據(jù)庫之間的數(shù)據(jù)聯(lián)通和整合問題,至少對于某一類生物質(zhì)數(shù)據(jù)的專題庫(如基因組數(shù)據(jù)庫)效果良好,使得不同生物類群(如動物、植物、細(xì)菌)的同類數(shù)據(jù)能夠被用以比較研究了;但對包含多種類型數(shù)據(jù)的全面數(shù)據(jù)庫而言[39](如微生物數(shù)據(jù)庫),距離能形成一個讓該領(lǐng)域絕大部分學(xué)者都滿意的領(lǐng)域通用數(shù)據(jù)標(biāo)準(zhǔn)還比較遙遠(yuǎn)。Romano等人在2005年曾估計(jì),通過運(yùn)用共用標(biāo)準(zhǔn)而實(shí)現(xiàn)數(shù)據(jù)的自動化交換將在數(shù)年內(nèi)實(shí)現(xiàn);然而,這點(diǎn)直到16年之后的現(xiàn)在也沒有完全實(shí)現(xiàn)[22]。從生物標(biāo)準(zhǔn)發(fā)展變化的過程來看,可能有幾個原因:
(1)生物學(xué)自身的快速發(fā)展導(dǎo)致其數(shù)據(jù)類型和概念在不斷地增加和變化。近20年來,分子生物學(xué)相關(guān)的理論和實(shí)驗(yàn)技術(shù)都處于高速發(fā)展階段,這些理論和技術(shù)為解釋生命現(xiàn)象的本質(zhì)提供了許多全新的方法,而這些方法也帶來了全新的數(shù)據(jù),進(jìn)而改變著原有數(shù)據(jù)元素的數(shù)量和/或定義。但是各科研群體和各標(biāo)準(zhǔn)化組織對于這些新興理論和技術(shù)的接受程度并不相同,且這些群體和組織的組織力也各不相同的不同,所以在標(biāo)準(zhǔn)更新時常??赡軙a(chǎn)生生物學(xué)概念的混淆或前后不一致,導(dǎo)致數(shù)據(jù)整合中的混亂[3,5]。
而即便某個標(biāo)準(zhǔn)相關(guān)的科研群體在概念上能達(dá)成一致并擁有了良好的組織能力,如何讓新的數(shù)據(jù)類型或格式與原來的數(shù)據(jù)兼容,允許對整合過的數(shù)據(jù)進(jìn)行統(tǒng)一檢索,也是一個不小的挑戰(zhàn)。兩者疊加,就影響了相關(guān)領(lǐng)域的標(biāo)準(zhǔn)化進(jìn)程。
(2)各數(shù)據(jù)庫數(shù)據(jù)管理方式的不同限制了數(shù)據(jù)的標(biāo)準(zhǔn)化。許多數(shù)據(jù)庫最初的數(shù)據(jù)標(biāo)準(zhǔn)(數(shù)據(jù)的格式、質(zhì)量、存儲方式、訪問方式等)都是該數(shù)據(jù)庫建立時所掌握的資源和技術(shù)與數(shù)據(jù)庫建庫時的目標(biāo)博弈所得到的最優(yōu)解,但這些數(shù)據(jù)庫在之后發(fā)展的方向和數(shù)據(jù)交換的需求卻常常超出了人們當(dāng)初的想象(如 EXPASY在建立之初只是一個蛋白質(zhì)分析平臺[40])。這使得這些數(shù)據(jù)庫如果不進(jìn)行徹底的升級,就只能不斷地建立額外的轉(zhuǎn)化系統(tǒng)來利用原有的數(shù)據(jù)和數(shù)據(jù)系統(tǒng)。而在這些轉(zhuǎn)化過程中就往往造成信息的錯誤(如具有相同名稱的異源數(shù)據(jù))或丟失(如因更嚴(yán)格的質(zhì)量控制而舍棄部分?jǐn)?shù)據(jù)),這對于以分析數(shù)據(jù)為主的次級數(shù)據(jù)庫而言尤其嚴(yán)重,因?yàn)閿?shù)據(jù)的質(zhì)量和信息的總量會在每一次的轉(zhuǎn)化中逐級遞減。基于這種考慮,一些建立時間較久的數(shù)據(jù)庫會對使用新的數(shù)據(jù)標(biāo)準(zhǔn)較為保守。
(3)以實(shí)驗(yàn)對象為核心的數(shù)據(jù)庫比以實(shí)驗(yàn)方法為核心的數(shù)據(jù)庫更難形成統(tǒng)一的標(biāo)準(zhǔn)。某一類生物所具有的復(fù)雜性和特異性要遠(yuǎn)超某一類物質(zhì)。同類的實(shí)驗(yàn)是研究生物的一般性,關(guān)注的是不同生物中所蘊(yùn)含的相同特點(diǎn),故而它們的數(shù)據(jù)比較容易實(shí)現(xiàn)標(biāo)準(zhǔn)化;但由于最簡單的單細(xì)胞生物也有復(fù)雜的胞內(nèi)結(jié)構(gòu)、生理代謝網(wǎng)絡(luò)和生態(tài)學(xué)特點(diǎn),對某一類甚至某一種生物的透徹了解都需要許多不同類型的實(shí)驗(yàn)的佐證,所以描述某個生物類群的數(shù)據(jù)天然就充滿了異質(zhì)性,故而也相對更難標(biāo)準(zhǔn)化。
使用公共的標(biāo)準(zhǔn)信息發(fā)布和版本管理平臺[37]、改變數(shù)據(jù)分享模式[41]、保障數(shù)據(jù)的FAIR特性[42]、使用更有利于拓展的數(shù)據(jù)格式[43]將有望解決以上問題,并推動生物數(shù)據(jù)的標(biāo)準(zhǔn)化進(jìn)程;但真正實(shí)現(xiàn)標(biāo)準(zhǔn)化的底層動力還是不同領(lǐng)域生物學(xué)家們以及生物學(xué)家和信息學(xué)家們的跨界合作。在當(dāng)前階段,我們應(yīng)該利用可拓展性更高的計(jì)算機(jī)數(shù)據(jù)標(biāo)準(zhǔn),對已形成的生物學(xué)各領(lǐng)域內(nèi)的數(shù)據(jù)元素標(biāo)準(zhǔn)進(jìn)行改造,對正在形成的數(shù)據(jù)元素標(biāo)準(zhǔn)提前進(jìn)行優(yōu)化配置,增強(qiáng)它們可以被計(jì)算機(jī)處理的能力;同時加強(qiáng)各領(lǐng)域、各地區(qū)的學(xué)者們的交流,形成從全領(lǐng)域、部分領(lǐng)域到單一領(lǐng)域適用的如同生物學(xué)分類系統(tǒng)一般的不同級別的標(biāo)準(zhǔn)體系,以計(jì)算機(jī)技術(shù)對這些標(biāo)準(zhǔn)進(jìn)行貫通,最終提高我們對生物數(shù)據(jù)的利用能力。
作者分工職責(zé)
孫定中(1986—),男,北京,研究生,科研助理,研究方向?yàn)槲⑸镞M(jìn)化、生物信息的數(shù)據(jù)化。主要承擔(dān)工作:材料調(diào)研、論文撰寫和修訂。
馬俊才(1962—),男,北京,博士,正高級工程師,研究方向?yàn)樯锎髷?shù)據(jù)應(yīng)用。主要承擔(dān)工作:項(xiàng)目組織、論文撰寫。
中國科學(xué)數(shù)據(jù)(中英文網(wǎng)絡(luò)版)2022年1期