姚翔宇
關(guān)鍵詞:開放科研數(shù)據(jù)平臺;數(shù)據(jù)周期;建設(shè)策略
摘 要:開放科研數(shù)據(jù)平臺是開放科研數(shù)據(jù)活動中的有形實體,以面向數(shù)據(jù)周期的視角考察現(xiàn)有平臺實例,其分為存儲型、索引型和導(dǎo)航型3類。文章根據(jù)各類開放科研數(shù)據(jù)平臺的功能,按照打通單一鏈路、連接鏈路節(jié)點、編織路徑網(wǎng)絡(luò)的建設(shè)思路,構(gòu)建了以存儲型平臺為基石、以索引型平臺為關(guān)鍵連接節(jié)點、以導(dǎo)航型平臺為補充的開放科研數(shù)據(jù)平臺體系。
中圖分類號:G250?? 文獻標(biāo)識碼:A?? 文章編號:1003-1588(2022)03-0091-03
開放科研數(shù)據(jù)是開放數(shù)據(jù)運動的組成部分,指開放在科研活動中產(chǎn)生的各種實驗數(shù)據(jù)及觀測、統(tǒng)計、仿真等數(shù)據(jù)[1]。開放科研數(shù)據(jù)既能降低學(xué)術(shù)交流成本,加快科學(xué)知識的創(chuàng)造與傳播速度,又能使科研數(shù)據(jù)得到長期保存,方便人們開展研究工作。開放科研數(shù)據(jù)活動的組成要素有科研人員、組織機構(gòu)、數(shù)據(jù)、平臺、政策、法律、技術(shù)、資金等,其中,開放科研數(shù)據(jù)平臺是承載和表現(xiàn)其他要素的有形實體[2]。目前,雖然部分開放科研數(shù)據(jù)平臺在一定范圍內(nèi)已具有一定的影響力,但其整體圖景仍不夠清晰,學(xué)界應(yīng)對其實現(xiàn)形式進行更深入的調(diào)查、對比和歸納,總結(jié)各類型平臺的特性、適用性和相互關(guān)系,進一步提出現(xiàn)實可行的建設(shè)策略,推動開放科研數(shù)據(jù)平臺的建設(shè)實踐。
1 以面向數(shù)據(jù)周期的視角考察現(xiàn)有平臺實例
司莉?qū)㈤_放科研數(shù)據(jù)與機構(gòu)知識庫建設(shè)相結(jié)合,把開放科研數(shù)據(jù)平臺劃分為機構(gòu)和聯(lián)盟兩類,莊曉喆根據(jù)這一觀點提出了聯(lián)盟平臺集中式、分布式和混合式3種建設(shè)模式[3-4]。完顏鄧鄧在調(diào)研開放科研數(shù)據(jù)平臺建設(shè)的過程中重點關(guān)注了國家、科研資助機構(gòu)、高校等建設(shè)主體的差異[5]。黃國彬根據(jù)發(fā)布內(nèi)容將開放科研數(shù)據(jù)平臺分為單一科學(xué)數(shù)據(jù)發(fā)布平臺和科技文獻與科學(xué)數(shù)據(jù)混合發(fā)布平臺[6]。吳雅威認為開放科研數(shù)據(jù)平臺建設(shè)應(yīng)強調(diào)集中與融合,使其具有數(shù)據(jù)收集、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)監(jiān)護、數(shù)據(jù)分析、數(shù)據(jù)共享和數(shù)據(jù)創(chuàng)新等多種功能,并總結(jié)出支持條件、數(shù)據(jù)功能、評價標(biāo)準(zhǔn)三個平臺建設(shè)元素[7]。上述研究成果從不同方面描繪了開放科研數(shù)據(jù)平臺的形態(tài),雖然學(xué)者們提供了各自的開放科研數(shù)據(jù)平臺建設(shè)意見,但仍存在過于關(guān)注平臺的某些子集或關(guān)聯(lián)因素及過分追求功能的全面性和完備性等問題。數(shù)據(jù)活動存在固有的生命周期,DDI(Data Documentation Initiative)將其劃分為概念、收集、處理、存儲、發(fā)布、發(fā)現(xiàn)、分析、重用等八個階段,其中,處理、存儲、發(fā)布、發(fā)現(xiàn)、分析、重用階段構(gòu)成了一個再循環(huán)路徑,開放科研數(shù)據(jù)主要服務(wù)于存儲、發(fā)布、發(fā)現(xiàn)、重用階段。以面向數(shù)據(jù)周期的視角對開放科研數(shù)據(jù)平臺進行分類,更加符合數(shù)據(jù)活動的本質(zhì),且可剔除非核心要素,避免形式交叉的干擾。
2 開放科研數(shù)據(jù)平臺的分類及特征
根據(jù)開放科研數(shù)據(jù)活動在數(shù)據(jù)周期中的對應(yīng)階段,可明確以下開放科研數(shù)據(jù)平臺的表現(xiàn)形式:一是關(guān)涉數(shù)據(jù)存儲在平臺中,二是發(fā)布關(guān)涉平臺展示的內(nèi)容,三是發(fā)現(xiàn)關(guān)涉平臺內(nèi)容的組織和檢索方式,四是重用關(guān)涉數(shù)據(jù)的訪問獲取和引用。筆者據(jù)此選取了CNCB-NGDC Database Commons、DataONE、Harvard Dataverse、RCSB PDB、re3data、Research Data Australia等處于運營狀態(tài)的開放科研數(shù)據(jù)平臺進行調(diào)查和比較,將開放科研數(shù)據(jù)平臺分為存儲型、索引型和導(dǎo)航型三類。
2.1 存儲型開放科研數(shù)據(jù)平臺
存儲型開放科研數(shù)據(jù)平臺(以下簡稱“存儲型平臺”)是以數(shù)據(jù)存儲庫為主要基礎(chǔ)設(shè)施建立的,核心特征是直接保存科研數(shù)據(jù)本體,其在數(shù)據(jù)的提交、保存、訪問政策和用戶使用體驗方面具有較高的一致性,覆蓋了數(shù)據(jù)活動生命周期中的存儲、發(fā)布、發(fā)現(xiàn)、重用等階段,成為連接數(shù)據(jù)生產(chǎn)者和使用者的中介,可被視為開放科研數(shù)據(jù)平臺體系中的基本單元或底層單元。數(shù)據(jù)集是存儲型平臺的管理單元,對應(yīng)現(xiàn)實研究環(huán)境中的項目、事件等實體,其上游是元數(shù)據(jù),通過約定字段指向描述數(shù)據(jù)集整體的關(guān)鍵性信息,其下游是數(shù)據(jù)文件,是科研數(shù)據(jù)經(jīng)過數(shù)字化處理后用于保存、傳播和再利用的具體形式。從開放科研數(shù)據(jù)平臺的運營主體和數(shù)據(jù)主題看,目前有兩種典型案例值得注意:一是機構(gòu)存儲。機構(gòu)存儲以單個或聯(lián)合數(shù)據(jù)生產(chǎn)機構(gòu)為主體,科研數(shù)據(jù)面向不特定的學(xué)科領(lǐng)域。二是學(xué)科存儲。學(xué)科存儲以單個或聯(lián)合學(xué)術(shù)出版或資助機構(gòu)為主體,科研數(shù)據(jù)面向特定的學(xué)科領(lǐng)域,如:RCSB PDB平臺專注于存儲蛋白質(zhì)、核酸等生物結(jié)構(gòu)信息,其在元數(shù)據(jù)、存儲格式、質(zhì)量標(biāo)準(zhǔn)等方面更符合學(xué)科使用習(xí)慣,并具有在線展示和分析功能。
2.2 索引型開放科研數(shù)據(jù)平臺
索引型開放科研數(shù)據(jù)平臺(以下簡稱“索引型平臺”)主要收集與整合其他類型平臺中的科研數(shù)據(jù)的元數(shù)據(jù),其核心特征是不直接保存科研數(shù)據(jù)本體。現(xiàn)階段,雖然不同來源的科研數(shù)據(jù)元數(shù)據(jù)通常在字段和格式上存在一定的差異,但仍有相當(dāng)一部分的字段是共有或兼容的,如:英美政府?dāng)?shù)據(jù)門戶網(wǎng)站為了標(biāo)記學(xué)科廣泛、來源多樣、類型不同的科研數(shù)據(jù),總結(jié)出科研數(shù)據(jù)元數(shù)據(jù)的必選字段,在Dublin Core的基礎(chǔ)上制定了通用元數(shù)據(jù)標(biāo)準(zhǔn)與特定領(lǐng)域元數(shù)據(jù)標(biāo)準(zhǔn)[8]。事實上,索引型平臺的工作重點是處理不同平臺的元數(shù)據(jù)的兼容性問題,通過清洗和映射構(gòu)建結(jié)構(gòu)一致的元數(shù)據(jù)倉庫,并提供統(tǒng)一的檢索界面,建立一站式的數(shù)據(jù)發(fā)現(xiàn)系統(tǒng),通過統(tǒng)一標(biāo)識符或鏈接的方式提供數(shù)據(jù)訪問途徑。Research Data Austria是索引型平臺的典型代表,作為澳大利亞國家科研基礎(chǔ)設(shè)施計劃的一部分,由政府主導(dǎo)建設(shè),數(shù)據(jù)內(nèi)容幾乎涵蓋了所有研究領(lǐng)域,其既不存儲數(shù)據(jù)本體,也不干涉數(shù)據(jù)所有權(quán),僅顯示數(shù)據(jù)發(fā)布合作伙伴持有的元數(shù)據(jù)和數(shù)據(jù)鏈接,并對這些信息進行有序組織。
2.3 導(dǎo)航型開放科研數(shù)據(jù)平臺
導(dǎo)航型開放科研數(shù)據(jù)平臺(以下簡稱“導(dǎo)航型平臺”)主要提供描述各類平臺的元數(shù)據(jù),其核心特征是不直接觸及科研數(shù)據(jù)本體層和元數(shù)據(jù)層。現(xiàn)階段,無論是存儲型平臺還是索引型平臺的覆蓋范圍都十分有限,導(dǎo)航型平臺在數(shù)據(jù)發(fā)現(xiàn)層面提供了另一種思路。導(dǎo)航型平臺采集其他類型平臺的基本信息并進行分析處理,以自定標(biāo)準(zhǔn)加工得到描述相應(yīng)平臺的元數(shù)據(jù),通過分類或
關(guān)鍵詞檢索協(xié)助用戶發(fā)現(xiàn)潛在數(shù)據(jù)源,或幫助持有科研數(shù)據(jù)的用戶發(fā)現(xiàn)合適的存儲型平臺。例如,re3data是科學(xué)數(shù)據(jù)存儲庫的注冊導(dǎo)航平臺,接受全球各學(xué)科存儲型平臺的注冊登記,為各平臺建立包括基本信息、機構(gòu)信息、開放條款、數(shù)據(jù)標(biāo)準(zhǔn)在內(nèi)的元數(shù)據(jù)描述,可提供學(xué)科、內(nèi)容、國家的垂直分類導(dǎo)航,用戶可直接檢索相關(guān)信息;中國國家生物信息中心下轄的CNCB-NGDC Database Commons是專注于導(dǎo)航生物領(lǐng)域的開放科研數(shù)據(jù)平臺,能夠自主采集和整理元數(shù)據(jù)信息,并在客觀描述的基礎(chǔ)上提供排名、評分、相關(guān)推薦等增強功能。
3 開放科研數(shù)據(jù)平臺建設(shè)策略
3.1 多層次關(guān)聯(lián)的平臺體系模式
充足的數(shù)據(jù)量和數(shù)據(jù)交叉關(guān)聯(lián)是實現(xiàn)開放科研數(shù)據(jù)倍增效益的前提條件,理想的環(huán)境是在同一個框架且相對集中的平臺上包容開放發(fā)布、統(tǒng)一發(fā)現(xiàn)、協(xié)議共享。但現(xiàn)實情況是,僅re3data平臺就已登記了超過2,450家科研數(shù)據(jù)存儲平臺。造成這種現(xiàn)象的原因有偏向技術(shù)性的數(shù)據(jù)安全和隱私、數(shù)據(jù)多樣性等問題,以及在數(shù)據(jù)所有權(quán)和各方信任問題上難以達成絕對共識。在這種背景下,搭建多層有序的平臺體系是一種合理現(xiàn)實的平臺建設(shè)模式,其中的存儲型平臺保留數(shù)據(jù)本體,是該體系的基石,基于主體“信任”閾值的不同,存儲型平臺可以聯(lián)合或獨立的形式存在,數(shù)量相對較多,需要在保證開放數(shù)據(jù)質(zhì)量和兼容性的協(xié)議層面達成一定共識;索引型平臺是體系中的關(guān)鍵連接節(jié)點,雖然數(shù)量較少,但可通過整合元數(shù)據(jù)的方式聚合數(shù)據(jù),且不干涉數(shù)據(jù)的所有權(quán),降低開放數(shù)據(jù)的發(fā)現(xiàn)和獲取成本;導(dǎo)航型平臺作為存儲型平臺和索引型平臺的補充,可實現(xiàn)輔助發(fā)現(xiàn)并擁有開放數(shù)據(jù)運動的社區(qū)功能。
3.2 平臺體系的建設(shè)階段
3.2.1 第一階段??蒲袛?shù)據(jù)生產(chǎn)機構(gòu)建立自主可控的存儲型平臺。在該階段,平臺建設(shè)主體相對集中,技術(shù)力量有限,建設(shè)目的主要是擴充數(shù)據(jù)存量,發(fā)現(xiàn)及解決實踐過程中存在的問題,并盡力加強技術(shù)層面的交流和研究,評估開發(fā)架構(gòu)的通用性,減少重復(fù)投入。目前,雖然我國部分機構(gòu)在相關(guān)建設(shè)方面已初具規(guī)模,但影響力有限,如:自然科學(xué)領(lǐng)域的科學(xué)數(shù)據(jù)銀行、國家基因組科學(xué)數(shù)據(jù)中心,社會科學(xué)領(lǐng)域的復(fù)旦大學(xué)社會科學(xué)數(shù)據(jù)平臺、北京大學(xué)開放研究數(shù)據(jù)平臺等。
3.2.2 第二階段。隨著分布式存儲型平臺的建設(shè),數(shù)據(jù)積累量不斷增加,部分關(guān)系緊密的特定社區(qū)基于高度的信任和共識會考慮擴大存儲型開放平臺的成員范圍,使學(xué)術(shù)主體之外的商業(yè)性數(shù)據(jù)托管機構(gòu)、科研服務(wù)機構(gòu)等有機會加入。導(dǎo)航型平臺在該階段應(yīng)承擔(dān)起科研數(shù)據(jù)發(fā)現(xiàn)和連接的職責(zé),并開展針對平臺的監(jiān)測和評價工作。
3.2.3 第三階段。在該階段,存儲型平臺已相對成型并平穩(wěn)運行,可持續(xù)提供科研數(shù)據(jù)資源,數(shù)據(jù)利用的共識與權(quán)利界限逐漸明確,用戶對數(shù)據(jù)質(zhì)量控制、追蹤和評價等衍生服務(wù)的需求增加;索引型平臺經(jīng)過整合與淘汰逐漸集中,成為科研數(shù)據(jù)發(fā)現(xiàn)和訪問中心;導(dǎo)航型平臺成為多層次關(guān)聯(lián)平臺體系的補充部分,服務(wù)和聯(lián)絡(luò)其他類型平臺成員,扮演專業(yè)協(xié)會或?qū)W術(shù)社區(qū)的角色。
3.3 平臺的功能性建設(shè)要點
3.3.1 存儲型平臺的功能性建設(shè)要點。存儲型平臺涉及用戶參與的環(huán)節(jié)較多,在功能建設(shè)過程中應(yīng)注重交互的便捷性,包括上傳、發(fā)布、更新數(shù)據(jù)和元數(shù)據(jù)的流暢度,以及清晰的界面層次、方便的多人協(xié)作和批量操作功能、正確的版本控制邏輯等,以降低用戶的學(xué)習(xí)和操作成本。存儲型平臺應(yīng)突出元數(shù)據(jù)功能的通用性、可控性和學(xué)術(shù)性,奠定索引基礎(chǔ),如:將元數(shù)據(jù)分為基本元數(shù)據(jù)和拓展元數(shù)據(jù),兼顧通用性和差異性;精確定義必填項,減少人工填寫項,引入受控詞表以增強規(guī)范性;提供元數(shù)據(jù)導(dǎo)出文件和引用格式,方便數(shù)據(jù)重用;加強數(shù)據(jù)加密、數(shù)據(jù)備份、密鑰核對、MD5校驗等安全功能。
3.3.2 索引型平臺的功能性建設(shè)要點。索引型平臺集中和發(fā)布不同來源的數(shù)據(jù)及元數(shù)據(jù),在元數(shù)據(jù)功能方面應(yīng)優(yōu)先保證字段選擇的基礎(chǔ)性,實現(xiàn)寬兼容;著重加強發(fā)現(xiàn)系統(tǒng)功能,提升分類檢索和結(jié)果篩選能力,增加地圖檢索等可視化的發(fā)現(xiàn)方式,并利用元數(shù)據(jù)的數(shù)量優(yōu)勢實現(xiàn)關(guān)聯(lián)發(fā)現(xiàn),為重用評價奠定基礎(chǔ)。作為數(shù)據(jù)訪問的中介,索引型平臺應(yīng)做好對數(shù)據(jù)來源頁面的自動校驗工作,保障收錄數(shù)據(jù)的有效性,并在條件允許的情況下加入統(tǒng)一身份認證功能,方便用戶獲取受限數(shù)據(jù)。
3.3.3 導(dǎo)航型平臺的功能性建設(shè)要點。與存儲型和索引型平臺相比,導(dǎo)航型平臺的功能結(jié)構(gòu)相對簡單,其工作重點是信息的收錄、維護和更新,通過綜合自主提交、自動校驗、人工維護和反饋校正等方式實現(xiàn)收錄信息的齊全、有效。為了增強導(dǎo)航發(fā)現(xiàn)效能,導(dǎo)航型平臺應(yīng)在垂直分類中為其收錄的平臺描述性元數(shù)據(jù)建立多維度目錄,并進一步加入平臺指標(biāo)評價和社區(qū)交流功能。
參考文獻:
[1] 黃永文,張建勇,黃金霞,等.國外開放科學(xué)數(shù)據(jù)研究綜述[J].現(xiàn)代圖書情報技術(shù),2013(5):21-27.
[2] 盛小平,袁圓.國內(nèi)外科學(xué)數(shù)據(jù)開放共享影響因素研究綜述[J].情報理論與實踐,2021(8):173-179.
[3] 司莉,曾粵亮.國外機構(gòu)科研數(shù)據(jù)知識庫研究進展[J].情報學(xué)報,2017(8):859-870.
[4] 莊曉喆,司莉.機構(gòu)科研數(shù)據(jù)知識庫聯(lián)盟建設(shè)模式比較[J].圖書館論壇,2018(8):55-60.
[5] 完顏鄧鄧,高峰.英美澳科學(xué)數(shù)據(jù)存儲與共享平臺建設(shè)現(xiàn)狀調(diào)查及啟示[J].圖書館建設(shè),2016(3):29-34.
[6] 黃國彬,劉馨然,姜穎.影響科學(xué)數(shù)據(jù)引用的外部因素分析[J].數(shù)字圖書館論壇,2017(6):2-8.
[7] 吳雅威,張向先.我國Data Commons平臺的建設(shè)策略研究[J].圖書館學(xué)研究,2019(18):46-53.
[8] 司莉,李鑫.英美政府?dāng)?shù)據(jù)門戶網(wǎng)站科學(xué)數(shù)據(jù)組織與查詢研究[J].圖書館論壇,2014(10):110-114.
(編校:馮耕)