楊嘯林,楊 晟,潘虹潔,王 哲,王志剛,何勇群
(1 中國(guó)醫(yī)學(xué)科學(xué)院基礎(chǔ)醫(yī)學(xué)研究所,北京 100005,yangxl@pumc.edu.cn;2 密歇根大學(xué)醫(yī)學(xué)院, 密歇根州 48109)
近二十年來(lái),數(shù)據(jù)的積累已經(jīng)成為科學(xué)研究領(lǐng)域一個(gè)重要特征。數(shù)據(jù)驅(qū)動(dòng)的科學(xué)發(fā)現(xiàn)廣泛——被稱為科學(xué)研究的第四范式[1],在從天文、地理、生物醫(yī)學(xué)等諸多學(xué)科領(lǐng)域的廣泛使用。從基因組學(xué)、蛋白質(zhì)組學(xué)等單一組學(xué)的研究,到現(xiàn)今的多組學(xué)研究;從單一病種癌癥的研究到泛癌癥的研究。多種高通量實(shí)驗(yàn)方法產(chǎn)生了大量數(shù)據(jù),使得從不同尺度研究生命的奧秘成為可能。
與此同時(shí),數(shù)據(jù)所承載的責(zé)任也越來(lái)越大。一方面,數(shù)據(jù)是科學(xué)研究重要的產(chǎn)出之一,監(jiān)管機(jī)構(gòu)和社會(huì)需要用公開透明的數(shù)據(jù)來(lái)證明科學(xué)研究的可再現(xiàn)性和可重復(fù)性。隨著AI和計(jì)算機(jī)計(jì)算能力的增強(qiáng),對(duì)于數(shù)據(jù)的全自動(dòng)化應(yīng)用以及與高速計(jì)算無(wú)縫對(duì)接的需求也越來(lái)越高。國(guó)家、社會(huì)和科研人員也要求,對(duì)高成本投入產(chǎn)生的各類科學(xué)數(shù)據(jù)能從不同角度重復(fù)利用,以達(dá)到價(jià)值最大化。所以,提升科學(xué)數(shù)據(jù)的可再利用性是數(shù)據(jù)管理的核心目標(biāo)。
科學(xué)研究數(shù)據(jù)在近些年迅速發(fā)展,在諸多學(xué)科成為發(fā)展的重要推動(dòng)力。例如,TCGA數(shù)據(jù)庫(kù),存儲(chǔ)了33類癌癥患者的測(cè)序數(shù)據(jù)、病史資料和病理圖像數(shù)據(jù)等。為癌癥發(fā)生機(jī)制、分子分型、預(yù)后影響因素研究,以及人工智能病理讀片技術(shù)等多個(gè)領(lǐng)域的發(fā)展提供了重要支持[2]。然而,截至目前仍存在多種障礙阻礙用戶對(duì)于大量現(xiàn)存的科學(xué)數(shù)據(jù)的再利用。這些困難包括:無(wú)法獲知數(shù)據(jù)集信息;無(wú)法獲取數(shù)據(jù)說(shuō)明信息;沒有合理合法渠道得到數(shù)據(jù)實(shí)體資源;獲取實(shí)體數(shù)據(jù)后,不知道用戶的基本權(quán)利和義務(wù);獲取實(shí)體數(shù)據(jù)后,無(wú)法得知數(shù)據(jù)的真實(shí)含義導(dǎo)致錯(cuò)誤應(yīng)用等。同時(shí),由于數(shù)據(jù)質(zhì)量和異質(zhì)性所導(dǎo)致大規(guī)模計(jì)算的瓶頸效應(yīng)也越來(lái)越明顯。
造成這類問題的原因復(fù)雜。既有社會(huì)心理文化層面的原因,也有技術(shù)層面的原因。雖然我國(guó)已經(jīng)頒布了《科學(xué)數(shù)據(jù)管理辦法》,但是由于相應(yīng)的責(zé)任權(quán)利不明,科研人員參與科學(xué)數(shù)據(jù)匯交和共享工作的動(dòng)力不足。此外,對(duì)于數(shù)據(jù)安全及其危害缺乏明確定義,也給數(shù)據(jù)公開共享帶來(lái)了顧慮。另一方面,我國(guó)對(duì)于生產(chǎn)實(shí)踐領(lǐng)域的數(shù)據(jù)標(biāo)準(zhǔn)比較重視,在科學(xué)數(shù)據(jù)領(lǐng)域,由于數(shù)據(jù)分散度高、數(shù)據(jù)類型復(fù)雜且變化快,在數(shù)據(jù)標(biāo)準(zhǔn)化建設(shè)和實(shí)施方面與國(guó)際上差別較大。特別在《科學(xué)數(shù)據(jù)管理辦法》頒布后,迫切需求建立一個(gè)科學(xué)數(shù)據(jù)管理的跨領(lǐng)域指導(dǎo)原則,并在此基礎(chǔ)上建立各個(gè)學(xué)科通用數(shù)據(jù)類型的標(biāo)準(zhǔn)體系并據(jù)此為數(shù)據(jù)管理流程和評(píng)價(jià)標(biāo)準(zhǔn)建設(shè)提供可實(shí)施的依據(jù)。
2016年FORCE11組織正式提出了在科學(xué)數(shù)據(jù)管理領(lǐng)域引入FAIR準(zhǔn)則[3]。FAIR準(zhǔn)則,明確了科學(xué)數(shù)據(jù)管理的目標(biāo),在研究政策和科研數(shù)據(jù)管理計(jì)劃需求方面具有里程碑意義的政策和需求。該準(zhǔn)則被提出以來(lái),受到科學(xué)數(shù)據(jù)管理領(lǐng)域的廣泛認(rèn)可,對(duì)于如何實(shí)施該準(zhǔn)則以及如何將其與各個(gè)專業(yè)領(lǐng)域進(jìn)行結(jié)合進(jìn)行了廣泛的研究和討論。
FAIR是指導(dǎo)如何通過數(shù)據(jù)管理,將科學(xué)數(shù)據(jù)建設(shè)成為可查詢(Findable)、可獲取(Accessible)、可互操作(Interoperable)并且可重利用(Reusable)的基本指導(dǎo)原則。
數(shù)字資源應(yīng)該很容易被人或者機(jī)器查詢到,這有賴于相關(guān)的數(shù)據(jù)集或者數(shù)據(jù)服務(wù)應(yīng)該以清晰明確的方式被標(biāo)識(shí)、描述、注冊(cè)并被索引。這意味著,數(shù)字資源應(yīng)該被分配給一個(gè)唯一永久標(biāo)識(shí)符;數(shù)字資源應(yīng)該有充分的元數(shù)據(jù)注釋;數(shù)字資源的主要特征應(yīng)該以標(biāo)準(zhǔn)格式被記錄;應(yīng)該在公開的數(shù)據(jù)庫(kù)存儲(chǔ)和索引。
應(yīng)該對(duì)數(shù)字資源獲取方式進(jìn)行清晰定義,包括如何獲得受保護(hù)數(shù)據(jù)的使用授權(quán)。在理想情況下應(yīng)該是一種自動(dòng)化的方式進(jìn)行獲取數(shù)據(jù)的驗(yàn)證,判斷是否符合授權(quán)條件。元數(shù)據(jù)(metadata)也應(yīng)當(dāng)是可獲取的,即使其原始數(shù)據(jù)已經(jīng)不再提供服務(wù)。
可互操作是指關(guān)于同一個(gè)主題或者客觀實(shí)體的兩個(gè)或者更多的數(shù)據(jù)資源,可以被機(jī)器自動(dòng)整合?;蛘?,在線的網(wǎng)絡(luò)服務(wù)可以自動(dòng)判斷它與目標(biāo)數(shù)據(jù)之間是否兼容,并且他們直接按可以進(jìn)行自動(dòng)交互。這要求數(shù)據(jù)資源或者網(wǎng)絡(luò)服務(wù)的描述具有語(yǔ)義上足夠的清晰度。
為了實(shí)現(xiàn)數(shù)據(jù)可重利用的目標(biāo),應(yīng)該依據(jù)研究領(lǐng)域的標(biāo)準(zhǔn)對(duì)數(shù)據(jù)來(lái)源出處進(jìn)行詳細(xì)記錄。這些來(lái)源出處信息包括準(zhǔn)確的數(shù)據(jù)描述、取方式和應(yīng)用許可等。據(jù)此,無(wú)論人還是機(jī)器可以判斷目標(biāo)數(shù)據(jù)資源是否可以重用,應(yīng)該如何爭(zhēng)取重利用。
從操作層面來(lái)講,F(xiàn)AIR準(zhǔn)則涉及所有的數(shù)字資源,既包括數(shù)據(jù),也包括軟件、代碼和工作流。表1總結(jié)了FAIR準(zhǔn)則的主要內(nèi)容[3],概括來(lái)講這些內(nèi)容包括:①對(duì)各種形式的數(shù)字內(nèi)容和知識(shí)分配唯一的標(biāo)識(shí)符,以確保這些數(shù)字資源可以被檢索;②數(shù)字資源應(yīng)該具有高質(zhì)量的(元)數(shù)據(jù);③使用通用術(shù)語(yǔ)和本體,以確保語(yǔ)義兼容性和查詢的可靠性;④建立具有研究領(lǐng)域內(nèi)可以共識(shí)的內(nèi)容標(biāo)準(zhǔn)促進(jìn)知識(shí)的利用;⑤對(duì)于數(shù)據(jù)有關(guān)于其來(lái)源的詳細(xì)描述,保證數(shù)據(jù)研究成果的可再現(xiàn)性(reproducibility);⑥在公開的數(shù)據(jù)庫(kù)進(jìn)行高質(zhì)量元數(shù)據(jù)的注冊(cè),為未來(lái)可能的內(nèi)容檢索提供支持;⑦建立可靠的數(shù)據(jù)訪問的技術(shù)和政策保證。
表1 FAIR數(shù)據(jù)準(zhǔn)則內(nèi)容
續(xù)表
FAIR標(biāo)準(zhǔn)一個(gè)重要的核心目標(biāo)是實(shí)現(xiàn)數(shù)據(jù)的機(jī)器可操作(machine-actionable)[4]。為了最終實(shí)現(xiàn)這一目標(biāo),提供充分的機(jī)器可以理解并自動(dòng)操作的元數(shù)據(jù)是實(shí)現(xiàn)這一目標(biāo)的第一步。這些信息不僅應(yīng)該包括傳統(tǒng)的對(duì)數(shù)字對(duì)象基本背景的介紹,對(duì)于科學(xué)研究數(shù)據(jù)而言還應(yīng)該涵蓋數(shù)據(jù)采集過程中實(shí)驗(yàn)環(huán)境信息、數(shù)據(jù)處理分析信息以及讓第三方用戶能夠理解數(shù)據(jù)的其他必要信息。對(duì)于元數(shù)據(jù)信息,將其簡(jiǎn)單公開是遠(yuǎn)遠(yuǎn)不夠的,還應(yīng)當(dāng)以人和機(jī)器可以理解的方式進(jìn)行表示。這需要構(gòu)建元數(shù)據(jù)的表示模型,并利用本體實(shí)現(xiàn)語(yǔ)義支持。元數(shù)據(jù)應(yīng)該在可共享的平臺(tái)注冊(cè),分配唯一的ID。元數(shù)據(jù)應(yīng)該比其說(shuō)明的實(shí)體數(shù)據(jù)有更長(zhǎng)的生命周期,以保證可能的檢索和應(yīng)用。
FAIR并不代表著數(shù)據(jù)的無(wú)條件公開。我國(guó)2018年正式頒布的《科學(xué)數(shù)據(jù)管理辦法》明確規(guī)定“政府預(yù)算資金資助形成的科學(xué)數(shù)據(jù)應(yīng)當(dāng)按照開放為常態(tài)、不開放為例外的原則”。在生物醫(yī)學(xué)領(lǐng)域,積累了大量的受試者個(gè)人健康信息,以及患者的醫(yī)療信息。這類數(shù)據(jù)無(wú)疑有很大的科學(xué)價(jià)值,因此在這類科學(xué)數(shù)據(jù)管理中應(yīng)特別關(guān)注到可能涉及隱私、安全和保密的情況。此外,對(duì)也要保護(hù)數(shù)據(jù)可能的商業(yè)利益以及承認(rèn)尊重?cái)?shù)據(jù)采集和加工人員的付出。因此,F(xiàn)AIR準(zhǔn)則在實(shí)施過程中,應(yīng)該本著實(shí)現(xiàn)“盡可能開放,盡需求封閉”(As Open as Possible, as Closed as Necessary)為原則[5]。即使不能公開的數(shù)據(jù),也應(yīng)利用符合FAIR準(zhǔn)則的元數(shù)據(jù)描述數(shù)據(jù)產(chǎn)生、知識(shí)產(chǎn)權(quán)狀況、用戶使用規(guī)則、權(quán)利與義務(wù),并據(jù)此建立用戶的查詢、訪問和數(shù)據(jù)使用的規(guī)范和保護(hù)措施,從而實(shí)現(xiàn)《科學(xué)數(shù)據(jù)管理辦法》中“分級(jí)管理、安全可控、充分利用的原則,明確責(zé)任主體”的要求。
自從FAIR準(zhǔn)則被公布以來(lái),得到了國(guó)際上與科學(xué)數(shù)據(jù)關(guān)聯(lián)的利益相關(guān)方的廣泛認(rèn)可,認(rèn)為這是科學(xué)數(shù)據(jù)發(fā)展過程中一個(gè)里程碑意義的準(zhǔn)則。其認(rèn)為,通過FAIR準(zhǔn)則的實(shí)施,將極大方便科學(xué)數(shù)據(jù)的再利用,提升數(shù)據(jù)的整合應(yīng)用,并為人工智能等新的數(shù)據(jù)處理分析方法提供便捷,是提升利用科學(xué)數(shù)據(jù)利用程度的必要手段。同時(shí)也為監(jiān)督科學(xué)研究結(jié)果的可重復(fù)性和再現(xiàn)性提供支撐,最終也是提高科學(xué)數(shù)據(jù)信譽(yù)的有效途徑。
FAIR準(zhǔn)則的實(shí)施,既需要科學(xué)社群共同努力建立相應(yīng)的文化基礎(chǔ),也需要建立該準(zhǔn)則能夠?qū)嵤┑募夹g(shù)支持環(huán)境。這樣的系統(tǒng)環(huán)境應(yīng)該涵蓋以下要素:獲得研究者認(rèn)可且可以跨領(lǐng)域?qū)嵤┑臄?shù)據(jù)標(biāo)準(zhǔn),指導(dǎo)FAIR實(shí)現(xiàn)的一個(gè)過程性框架以及依據(jù)FAIR準(zhǔn)則建立的數(shù)據(jù)評(píng)價(jià)標(biāo)準(zhǔn)。
FAIR準(zhǔn)則中涉及的數(shù)據(jù)和元數(shù)據(jù)標(biāo)準(zhǔn)主要包括最小信息標(biāo)準(zhǔn)、數(shù)據(jù)語(yǔ)義層面的術(shù)語(yǔ)標(biāo)準(zhǔn)和數(shù)據(jù)的格式標(biāo)準(zhǔn)三個(gè)層次[3]。這些數(shù)據(jù)標(biāo)準(zhǔn)本身也是FAIR所定義的數(shù)據(jù)對(duì)象之一,也應(yīng)該以符合FAIR準(zhǔn)則的形式存在。
第一,最小信息標(biāo)準(zhǔn)[5](Minimum Information Guidelines)通常也稱為數(shù)據(jù)內(nèi)容標(biāo)準(zhǔn)或報(bào)告指南,是指要理解一個(gè)數(shù)據(jù)對(duì)象及其背景所必需的說(shuō)明信息?,F(xiàn)在生物醫(yī)學(xué)研究中,以組學(xué)數(shù)據(jù)為代表的實(shí)驗(yàn)數(shù)據(jù)均是由復(fù)雜的實(shí)驗(yàn)系統(tǒng)產(chǎn)生,整個(gè)流程可能包括實(shí)驗(yàn)設(shè)計(jì)、樣本采集狀態(tài)、實(shí)驗(yàn)方法、實(shí)驗(yàn)儀器和分析方法等信息的數(shù)據(jù)。通過元數(shù)據(jù)充分記錄這些信息的數(shù)據(jù)能否被廣泛認(rèn)可、使用、整合以及再利用的關(guān)鍵因素。對(duì)于數(shù)據(jù)的再利用者來(lái)說(shuō),元數(shù)據(jù)需要盡可能豐富,然而過于冗長(zhǎng)的元數(shù)據(jù)不僅會(huì)對(duì)實(shí)驗(yàn)人員造成較大負(fù)擔(dān),也會(huì)對(duì)數(shù)據(jù)的存儲(chǔ)造成困難。因此針對(duì)性的制定特定領(lǐng)域的關(guān)于元數(shù)據(jù)的最小信息標(biāo)準(zhǔn),使其被各利益相關(guān)方接受,是這類高通量數(shù)據(jù)被重利用的關(guān)鍵因素。如今許多相關(guān)機(jī)構(gòu)開始從事最小信息標(biāo)準(zhǔn)的制定——即理解或者重利用復(fù)雜體系產(chǎn)生的數(shù)據(jù)所需的最小元數(shù)據(jù)項(xiàng)。微陣列實(shí)驗(yàn)最小信息標(biāo)準(zhǔn)[5](Minimum Information About a Microarray Experiment,MIAME)是最早出現(xiàn)的元數(shù)據(jù)標(biāo)準(zhǔn),并獲得較廣泛的應(yīng)用。隨后最小信息標(biāo)準(zhǔn)逐漸出現(xiàn)在其他領(lǐng)域,如蛋白質(zhì)組學(xué)實(shí)驗(yàn)最小信息標(biāo)準(zhǔn)[6](Minimum Information About a Proteomics Experi-ment,MIAPE)和基因組的序列最小信息標(biāo)準(zhǔn)[7](Minimum Information about any Sequence,MIxS)等。值得注意的是,許多最小信息標(biāo)準(zhǔn),目前還是以文本的形式存在,可實(shí)施性較差。如何將其轉(zhuǎn)化成FAIR所要求的形式,并為用戶提供便利支持是FAIR具體實(shí)施的重要工作之一。
第二,術(shù)語(yǔ)標(biāo)準(zhǔn)規(guī)范了客觀物件或者概念的名稱、定義以及并提供明確的標(biāo)識(shí),從而為實(shí)現(xiàn)機(jī)器間“語(yǔ)義”交流建立基礎(chǔ)。術(shù)語(yǔ)標(biāo)準(zhǔn)的存在形式有多種,從可控詞表、術(shù)語(yǔ)表、分類詞表、敘詞表到本體,其形式化程度逐漸增強(qiáng),功能逐步豐富,復(fù)雜度也大幅度提升[6]。本體(ontology)是當(dāng)代計(jì)算機(jī)科學(xué)與信息科學(xué)催生的一種新的知識(shí)組織方式,它不僅規(guī)范特定領(lǐng)域中實(shí)體的概念、屬性和定義,還通過描述邏輯規(guī)范了實(shí)體間相互關(guān)系,提供對(duì)領(lǐng)域知識(shí)的共同理解。在過去二十年中,生物醫(yī)學(xué)領(lǐng)域本體建設(shè)日漸規(guī)范,資源和工具日益豐富,逐漸成為生物醫(yī)學(xué)數(shù)據(jù)建設(shè)的強(qiáng)有力工具[7]。
利用本體中的術(shù)語(yǔ),可以實(shí)現(xiàn)數(shù)據(jù)和元數(shù)據(jù)的語(yǔ)義標(biāo)準(zhǔn)化。在實(shí)現(xiàn)數(shù)據(jù)質(zhì)量提升的同時(shí),也為大規(guī)模數(shù)據(jù)整合提供基礎(chǔ)。同時(shí),本體可以促進(jìn)自然語(yǔ)言文本和數(shù)據(jù)的自動(dòng)化標(biāo)注,進(jìn)而借助于本體提供的語(yǔ)義關(guān)系,引入更多的數(shù)據(jù)分析方法。
雖然本體的重要性逐步得到認(rèn)可,但是對(duì)于大多數(shù)本體而言,其利用度仍需進(jìn)一步提升。造成這種現(xiàn)象的原因是多方面的。首先,本體使用的技術(shù)難度較高。特別是一些大本體,如何利用其復(fù)雜結(jié)構(gòu)和龐大的術(shù)語(yǔ)對(duì)有限的數(shù)據(jù)進(jìn)行注釋,對(duì)于從事數(shù)據(jù)采集和管理一線工作的科研人員門檻較高,需要更多用戶友好工具的開發(fā)。其次,生物醫(yī)學(xué)本體本身有較大的異質(zhì)性。在國(guó)際上最著名的生物醫(yī)學(xué)本體平臺(tái)NCBO BioPortal[8]中,截至撰稿時(shí)為止(2019年12月10日),存儲(chǔ)了八百多個(gè)本體。這些本體間的異質(zhì)性,進(jìn)一步如何進(jìn)行本體間術(shù)語(yǔ)的映射關(guān)系,為用戶使用這是標(biāo)準(zhǔn)術(shù)語(yǔ)帶來(lái)了新的困難。第三,目前國(guó)際上多數(shù)本體僅提供英文版本,但是需要使用本體的語(yǔ)言環(huán)境是多樣化的。因此,在建設(shè)高質(zhì)量本體資源的同時(shí),應(yīng)該進(jìn)行各類使用工具的開發(fā),促進(jìn)科研人員和數(shù)據(jù)管理人員在日常工作使用本體進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化。
第三,格式標(biāo)準(zhǔn)是不同機(jī)構(gòu)之間共享數(shù)據(jù)或軟件程序之間交換數(shù)據(jù)的統(tǒng)一格式,既包括文件的格式,也包括數(shù)據(jù)模型。這類數(shù)據(jù)標(biāo)準(zhǔn)在過去幾十年中,得到了高度重視和認(rèn)可。例如在基因組測(cè)序領(lǐng)域,記錄原始測(cè)序的FASTQ格式的文件到記錄基因序列突變信息的VCF格式文件,均是被學(xué)界和產(chǎn)業(yè)界廣為接受的數(shù)據(jù)標(biāo)準(zhǔn)格式。
上述三類標(biāo)準(zhǔn)互相組合、互相支撐,構(gòu)成了一個(gè)領(lǐng)域進(jìn)行計(jì)算機(jī)互兼容、互操作的內(nèi)容標(biāo)準(zhǔn)系統(tǒng)。例如,為了建立符合FAIR準(zhǔn)則的某一科學(xué)研究領(lǐng)域?qū)嶒?yàn)數(shù)據(jù)集,元數(shù)據(jù)內(nèi)容項(xiàng)應(yīng)該符合該領(lǐng)域公認(rèn)的最小信息標(biāo)準(zhǔn),對(duì)于某一具體的元數(shù)據(jù)的表示應(yīng)該在使用通用的數(shù)據(jù)元素的表示模型基礎(chǔ)上,利用本體進(jìn)行數(shù)據(jù)元素的概念定義;并利用本體對(duì)具體數(shù)值進(jìn)行注釋。要完成此類標(biāo)準(zhǔn)化工作,仍需要多領(lǐng)域合作進(jìn)行大量的支撐性資源建設(shè)與工具開發(fā)。
通過數(shù)據(jù)管理使數(shù)據(jù)達(dá)到FAIR準(zhǔn)則設(shè)定目標(biāo)的過程應(yīng)該是一個(gè)分步驟的、不斷提升的過程。Annika Jacobsen 總結(jié)了通用的建設(shè)FAIR數(shù)據(jù)的步驟,作為數(shù)據(jù)建設(shè)的框架性指導(dǎo)[9]。在這個(gè)過程中,強(qiáng)調(diào)分別對(duì)數(shù)據(jù)和元數(shù)據(jù)進(jìn)行語(yǔ)義模型的建設(shè),并利用此模型實(shí)現(xiàn)兩者關(guān)聯(lián)數(shù)據(jù)(linked data)的建設(shè)。最終將數(shù)據(jù)與元數(shù)據(jù)以機(jī)器可以理解和操作的方式表示出來(lái)。
無(wú)論在數(shù)據(jù)建設(shè)過程和數(shù)據(jù)管理過程中,需要不斷了解數(shù)據(jù)符合FAIR的程度,以及需要進(jìn)一步改進(jìn)的問題。因此,需要建立明確的、有識(shí)別力的、可測(cè)量的并且通用性強(qiáng)的指標(biāo)。目前,國(guó)際上促進(jìn)FAIR實(shí)施的機(jī)構(gòu)GO FAIR近期提出進(jìn)行數(shù)據(jù)質(zhì)量評(píng)價(jià)的指標(biāo)體系[10],該評(píng)價(jià)體系圍繞FAIR準(zhǔn)則中技術(shù)細(xì)節(jié)定義了各類別評(píng)估指標(biāo),后續(xù)將開發(fā)相應(yīng)的自動(dòng)化測(cè)試方法和評(píng)估工具促進(jìn)這套指標(biāo)的客觀使用[11]。這些指標(biāo)體系的可用性仍需要實(shí)踐檢驗(yàn)。
有效的FAIR數(shù)據(jù)建設(shè)應(yīng)該從數(shù)據(jù)采集方案的設(shè)計(jì)開始,將數(shù)據(jù)標(biāo)準(zhǔn)化與數(shù)據(jù)采集的標(biāo)準(zhǔn)化結(jié)合,保證后續(xù)數(shù)據(jù)完整性和質(zhì)量保證,真正實(shí)現(xiàn)“全數(shù)據(jù)鏈”的數(shù)據(jù)管理。在整個(gè)鏈條中,有多方人員參與,需要大量的信息化資源和軟件的支持,才能完成。
本體在數(shù)據(jù)標(biāo)準(zhǔn)化和構(gòu)建語(yǔ)義模型過程中扮演重要角色,是FAIR準(zhǔn)則實(shí)施過程中重要的支撐資源。為了構(gòu)建高質(zhì)量、互兼容、一致性好且非冗余的生物醫(yī)學(xué)本體,開放性生物與生物醫(yī)學(xué)本體鑄造工廠(OBO Foundry)國(guó)際生物醫(yī)學(xué)本體組織基于開放(Open)、合作(Commitment To Collaboration)和通用格式(Common Format),開發(fā)了一系列生物醫(yī)學(xué)本體[12]。OBO本體均以基本形式化本體(Basic Formal Ontology,BFO)為頂層,建設(shè)了100多個(gè)領(lǐng)域參考本體例如Chemical Entities of Biological Interest (ChEBI)[13],Disease Ontology(DO,疾病本體)[14], Human Phenotype Ontology(HPO,人類表型本體)[15]和Ontology for Biomedical Investigations(OBI,生物醫(yī)學(xué)研究本體)[16]等,為國(guó)際上眾多的生物醫(yī)學(xué)數(shù)據(jù)庫(kù)和知識(shí)庫(kù)提供支持。
NCBO BioPortal是國(guó)際上收錄生物醫(yī)學(xué)本體最多的資源平臺(tái),在提供本體的一站式檢索的同時(shí),還提供本體的應(yīng)用和可視化的工具。目前,NCBO BioPortal在線提供服務(wù)的本體數(shù)量達(dá)826個(gè),術(shù)語(yǔ)總量超過一千萬(wàn)。NCBO BioPortal還提供的基于圖數(shù)據(jù)庫(kù)的開源本體管理軟件框架,為多專業(yè)領(lǐng)域多語(yǔ)言本體資源應(yīng)用提供支持,并由此建立了OntoPortal Alliance[17]。國(guó)家人口與健康科學(xué)數(shù)據(jù)中心(基礎(chǔ)醫(yī)學(xué))建設(shè)的MedPortal本體資源平臺(tái)(http://medportal.bmicc.cn)[18]也是OntoPortal Alliance成員之一。MedPortal中存儲(chǔ)了中心翻譯和建設(shè)的中文OBO本體、整合了醫(yī)學(xué)領(lǐng)域常用術(shù)語(yǔ)集的中文版,例如ICD-9-CM, ICD-10和ICD-11等(詳見表2)。該平臺(tái)還提供數(shù)據(jù)的本體數(shù)據(jù)注釋,不同本體間術(shù)語(yǔ)映射以及API編程接口服務(wù)。美國(guó)密西根大學(xué)何勇群教授課題組開發(fā)的OntoFox[19]和OntoRat等本體工具,支持生物醫(yī)學(xué)本體的開發(fā)和本體術(shù)語(yǔ)的復(fù)用。
表2 MedPortal提供中文服務(wù)的本體
在FAIR準(zhǔn)則中,明確要求高質(zhì)量的數(shù)據(jù)應(yīng)該具有明確、具備語(yǔ)義模型的元數(shù)據(jù)。在生物醫(yī)學(xué)領(lǐng)域,已經(jīng)有大量工作致力于整理或收集不同領(lǐng)域的元數(shù)據(jù),利用數(shù)據(jù)元素框架,并結(jié)合本體或標(biāo)準(zhǔn)術(shù)語(yǔ)集,建立通用數(shù)據(jù)元素(Common Data Element,CDE)庫(kù),以期為數(shù)據(jù)整合、分析和互操作提供支撐。具有代表性的是CEDAR[20], 用戶可以利用CEDAR模板,構(gòu)建本體支持的、符合ISO/IEC 11179標(biāo)準(zhǔn)的元數(shù)據(jù)。美國(guó)國(guó)立癌癥研究所(National Cancer Institute, NCI) 開發(fā)的通用數(shù)據(jù)元素?cái)?shù)據(jù)庫(kù)caDSR,是在兼容并擴(kuò)展ISO/IEC 11179標(biāo)準(zhǔn)基礎(chǔ)上,利用生物醫(yī)學(xué)領(lǐng)域里具有廣泛術(shù)語(yǔ)覆蓋度的本體NCI Thesaurus (NCIT) 作為語(yǔ)義支撐[21]。像TCGA,dbGap和 eMERGE等具有廣泛影響力的聯(lián)合研究項(xiàng)目,也將其項(xiàng)目中的元數(shù)據(jù)與caDSR數(shù)據(jù)庫(kù)中的數(shù)據(jù)元素建立了映射[22-24]。這些數(shù)據(jù)元素不僅是理解這些公開數(shù)據(jù)的重要資源之一,用戶也可重利用,用于自己的數(shù)據(jù)項(xiàng)目。目前,已有成功案例表明,通過使用caDSR等通用數(shù)據(jù)元素庫(kù),增強(qiáng)了數(shù)據(jù)的互操作性[24]。
我國(guó)在過去二十年中,生物醫(yī)學(xué)數(shù)據(jù)積累迅速增加,卻造成了數(shù)據(jù)量大但是具有國(guó)際生物的數(shù)據(jù)產(chǎn)品少的局面,科研人員對(duì)于國(guó)際數(shù)據(jù)的依賴有增無(wú)減。建設(shè)符合我國(guó)科研人員和數(shù)據(jù)管理人員數(shù)據(jù)管理流程和數(shù)據(jù)建設(shè)環(huán)境,是提升生物醫(yī)學(xué)領(lǐng)域數(shù)據(jù)質(zhì)量的重要前提和支撐條件。FAIR準(zhǔn)則所倡導(dǎo)的基本原則,對(duì)于規(guī)范數(shù)據(jù)管理流程具有重要意義。一方面要引進(jìn)和自建相結(jié)合,建設(shè)完備的生物醫(yī)學(xué)科學(xué)數(shù)據(jù)內(nèi)容標(biāo)準(zhǔn),同時(shí)為用戶提供便捷的標(biāo)準(zhǔn)使用信息平臺(tái)和服務(wù);另一方面,針對(duì)圍繞科學(xué)數(shù)據(jù)的產(chǎn)生、管理和發(fā)布的各個(gè)環(huán)節(jié),明確各方的責(zé)任與義務(wù),建立符合FAIR準(zhǔn)則規(guī)范、流程、評(píng)價(jià)標(biāo)準(zhǔn),并不斷建設(shè)支撐這些管理措施實(shí)施的技術(shù)環(huán)境。通過FAIR準(zhǔn)則的實(shí)施,建設(shè)可重利用的科學(xué)數(shù)據(jù),實(shí)現(xiàn)科學(xué)數(shù)據(jù)價(jià)值的最大化。
(致謝:感謝中國(guó)醫(yī)學(xué)科學(xué)院關(guān)健教授對(duì)本論文起草、撰寫、發(fā)表等過程中的指導(dǎo)和幫助。)