徐 菲 王 軍 曹 均 丁海容
(成都理工大學(xué) 四川 成都 610059)
康奈爾大學(xué)嵌入式科研數(shù)據(jù)管理服務(wù)探析*
徐 菲 王 軍 曹 均 丁海容
(成都理工大學(xué) 四川 成都 610059)
新研究范式下,為了滿足研究機(jī)構(gòu)數(shù)據(jù)獲取、保存和管理需求,美國康奈爾大學(xué)組建了自上而下的科研數(shù)據(jù)管理服務(wù)機(jī)構(gòu),基于科研數(shù)據(jù)生命周期提供更具深度和廣度的科研數(shù)據(jù)管理服務(wù)。康奈爾大學(xué)嵌入式科研數(shù)據(jù)管理服務(wù)具有理論體系完備、靈活、實(shí)時(shí)、交互性和擴(kuò)展性強(qiáng)的特點(diǎn),但也面臨深化服務(wù)而出現(xiàn)的挑戰(zhàn),這些對于我國圖書館開展和提升嵌入式數(shù)據(jù)管理服務(wù)具有重要參考價(jià)值。
嵌入式數(shù)據(jù)管理服務(wù) 科研數(shù)據(jù)管理服務(wù) 數(shù)據(jù)館員 康奈爾大學(xué)
伴隨著信息技術(shù)的日新月異,科學(xué)研究范式發(fā)生了深刻變化,以信息技術(shù)為基礎(chǔ)的數(shù)據(jù)密集型計(jì)算、分析和管理成為這個(gè)時(shí)代最明顯特征,科學(xué)研究進(jìn)入了E-science時(shí)代[1]。與傳統(tǒng)研究范式相比,數(shù)據(jù)密集型研究對科學(xué)數(shù)據(jù)的交流和共享提出了新要求,科學(xué)發(fā)現(xiàn)越來越依賴于對科學(xué)數(shù)據(jù)的整合、分析和關(guān)聯(lián)[1]。為應(yīng)對信息技術(shù)環(huán)境和科學(xué)研究范式變化所帶來的一系列挑戰(zhàn),發(fā)揮圖書館支撐科學(xué)研究發(fā)展的作用,推動學(xué)校在全美乃至世界范圍內(nèi)處于領(lǐng)先地位,康奈爾大學(xué)教務(wù)長Biddy Martin明確指出,提供數(shù)據(jù)管理服務(wù),滿足教學(xué)、科研資源需求是大學(xué)圖書館的基本目標(biāo),圖書館應(yīng)服務(wù)于教學(xué)科研,為所屬機(jī)構(gòu)公共利益服務(wù),保證其在國內(nèi)乃至世界范圍內(nèi)處于領(lǐng)先地位[2]。
康奈爾大學(xué)嵌入式科研數(shù)據(jù)管理服務(wù)于2009年正式拉開帷幕[3]。為了更好地促進(jìn)教學(xué)科研發(fā)展,2010年康奈爾大學(xué)成立了科研數(shù)據(jù)管理服務(wù)工作組(Research Data Management Service Group,簡稱RDMSG)[4]。2015年,工作組提出數(shù)據(jù)館員不僅要以課題合作者身份參與科研團(tuán)隊(duì)科學(xué)研究,而且還要根據(jù)用戶數(shù)據(jù)管理需求,在科研數(shù)據(jù)生命周期不同階段提供適宜的嵌入式數(shù)據(jù)管理服務(wù),在規(guī)劃階段提供科研數(shù)據(jù)管理計(jì)劃與評估服務(wù);在采集階段協(xié)助科研用戶搜集數(shù)字資源;在保證階段給予科研人員數(shù)據(jù)質(zhì)量控制、知識產(chǎn)權(quán)和版權(quán)保護(hù)方面的專業(yè)意見;在描述階段創(chuàng)建元數(shù)據(jù)標(biāo)引服務(wù);在保存階段提供數(shù)字計(jì)算空間存儲服務(wù);在發(fā)現(xiàn)階段協(xié)同科研人員實(shí)現(xiàn)科學(xué)數(shù)據(jù)共享,達(dá)到目標(biāo)人群檢索、利用數(shù)據(jù)的目的;在整合階段深度支持科研人員整合不同類型數(shù)據(jù)資源;在分析階段實(shí)現(xiàn)科研數(shù)據(jù)與其他多元資源分類集成[5]。科研數(shù)據(jù)的生命周期循環(huán)往復(fù),項(xiàng)目結(jié)束預(yù)示著科研數(shù)據(jù)生命周期的一個(gè)循環(huán)完成,而項(xiàng)目滾動或相關(guān)項(xiàng)目啟動,則意味著科研數(shù)據(jù)生命周期的重新開始。
康奈爾大學(xué)基于科研數(shù)據(jù)生命周期的嵌入式科研數(shù)據(jù)管理服務(wù),通過嵌入科學(xué)研究學(xué)術(shù)交流過程,依據(jù)數(shù)據(jù)生命周期全面分析、整理并記錄科研數(shù)據(jù)處理情況,特別是后期對科研數(shù)據(jù)的發(fā)現(xiàn)服務(wù)、整合服務(wù)、分析服務(wù),不僅有利于科研人員檢索到與之相關(guān)的所有原始數(shù)據(jù),而且更有利于數(shù)據(jù)密集型科學(xué)研究的學(xué)術(shù)交流。
為了規(guī)范管理生命周期內(nèi)的科研數(shù)據(jù),康奈爾大學(xué)采取自上而下的機(jī)構(gòu)組織模式(見圖1)[6],取得了很好的服務(wù)效果,贏得了用戶的認(rèn)可和肯定。
圖1 康奈爾大學(xué)嵌入式科研數(shù)據(jù)管理服務(wù)機(jī)構(gòu)設(shè)置
上層管理機(jī)構(gòu)總攬全局,具體事務(wù)由學(xué)校副教務(wù)長負(fù)責(zé),并配置跨學(xué)科的數(shù)據(jù)分析技術(shù)人員。館員作為主要成員與其他研究機(jī)構(gòu)人員合作,協(xié)助科研用戶制定數(shù)據(jù)管理計(jì)劃,完成最佳的數(shù)據(jù)管理方案,并及時(shí)提供科研數(shù)據(jù)保存、分享服務(wù)。同時(shí),康奈爾大學(xué)設(shè)立了院系咨詢委員會,包括10名成員[2]。委員會成立的目的是“在E-science環(huán)境下追蹤和發(fā)起‘科學(xué)’活動”,一方面調(diào)研學(xué)者面臨的科研數(shù)據(jù)管理服務(wù)難題,提出解決方案;另一方面討論科研數(shù)據(jù)管理服務(wù)發(fā)展方向,推動服務(wù)項(xiàng)目順利進(jìn)行,避免重復(fù)工作。另外,委員會還開發(fā)了支持?jǐn)?shù)據(jù)驅(qū)動研究的結(jié)構(gòu)軟件,用于創(chuàng)建科研數(shù)據(jù)管理服務(wù)最佳實(shí)踐環(huán)境[2]。
中間階層是科研數(shù)據(jù)管理服務(wù)虛擬組織,是一個(gè)以現(xiàn)代信息存儲技術(shù)、通訊技術(shù)、機(jī)器智能產(chǎn)品為依托組建的人機(jī)一體化組織。組織成員包括管理機(jī)構(gòu)和執(zhí)行團(tuán)隊(duì)。組織成員沒有固定工作空間,工作時(shí)間也很靈活,主要通過高度自律和共同價(jià)值取向?qū)崿F(xiàn)團(tuán)隊(duì)發(fā)展目標(biāo),保證工作組正常運(yùn)作。
最底端的是科研數(shù)據(jù)管理服務(wù)提供者。在學(xué)校安排下,康奈爾大學(xué)圖書館羅列了一張能夠協(xié)助圖書館開展科研數(shù)據(jù)管理服務(wù)的機(jī)構(gòu)清單,所列機(jī)構(gòu)包括康奈爾高級計(jì)算中心、康奈爾信息技術(shù)中心、康奈爾社會和經(jīng)濟(jì)學(xué)研究所等。上述機(jī)構(gòu)中,康奈爾大學(xué)圖書館與康奈爾高級計(jì)算中心、康奈爾社會和經(jīng)濟(jì)學(xué)研究所的合作更多些,與康奈爾高級計(jì)算中心的聯(lián)系大多建立在共同推進(jìn)項(xiàng)目實(shí)施上,與康奈爾社會和經(jīng)濟(jì)學(xué)研究所的協(xié)作研究集中表現(xiàn)為:共同調(diào)研學(xué)者數(shù)據(jù)需求,共同探討圖書館資源建設(shè)合理性,共同評估滿足專家、學(xué)者信息需求的執(zhí)行機(jī)構(gòu)。
這種自上而下的機(jī)構(gòu)管理模式不僅拓展了圖書館嵌入式科研數(shù)據(jù)管理服務(wù)的深度和廣度,有助于營銷圖書館資源,延伸服務(wù)空間,而且也有利于集中全校人力、物力、財(cái)力提升科研數(shù)據(jù)管理服務(wù)質(zhì)量,為教學(xué)科研服務(wù)。
與此同時(shí),康奈爾大學(xué)積極加強(qiáng)與校外研究機(jī)構(gòu)合作。VIVO項(xiàng)目的順利運(yùn)作就是康奈爾大學(xué)與校外機(jī)構(gòu)合作成功的范例。VIVO項(xiàng)目由康奈爾大學(xué)發(fā)起,美國多所學(xué)校、研究機(jī)構(gòu)參與了項(xiàng)目建設(shè)。項(xiàng)目機(jī)構(gòu)設(shè)置在康奈爾大學(xué)圖書館,數(shù)據(jù)館員負(fù)責(zé)技術(shù)開發(fā)和學(xué)科內(nèi)容錄入,因此也是VIVO項(xiàng)目的研究團(tuán)隊(duì)成員,能夠?qū)崟r(shí)與科研人員互動以了解其數(shù)據(jù)需求。2009年,為了擴(kuò)大VIVO項(xiàng)目規(guī)模,包括康奈爾大學(xué)在內(nèi)的美國7所大學(xué)聯(lián)合申請,從美國國家衛(wèi)生研究院(National Institutes of Health,簡稱NIH)申請到了總額為1 120萬美元的資助,這是NIH首次大筆資助此類專業(yè)社交系統(tǒng)[7]。VIVO項(xiàng)目實(shí)現(xiàn)了全國聯(lián)網(wǎng),成為一個(gè)連接多個(gè)研究機(jī)構(gòu)的開源平臺。目前,全球已經(jīng)有175個(gè)國家和地區(qū)的588位科研學(xué)者參與到該項(xiàng)目中,把科研數(shù)據(jù)上傳到VIVO,實(shí)現(xiàn)對科研數(shù)據(jù)規(guī)范管理[8]。
總之,科研數(shù)據(jù)管理需求決定了圖書館科研數(shù)據(jù)管理服務(wù)的發(fā)展方向,數(shù)據(jù)館員和科研人員一對一的非正式會談給科研數(shù)據(jù)管理服務(wù)提供了良好契機(jī),使數(shù)據(jù)館員有機(jī)會參與項(xiàng)目研究。但是,這種非正式的數(shù)據(jù)服務(wù)方式要求數(shù)據(jù)館員具有一定學(xué)科專業(yè)知識,能夠直接或間接地嵌入科研項(xiàng)目。隨著科研數(shù)據(jù)管理服務(wù)的深入,數(shù)據(jù)館員與科研人員的聯(lián)系增多,科研人員逐漸轉(zhuǎn)換角度思考圖書館價(jià)值,主動邀請數(shù)據(jù)館員參與項(xiàng)目研究??的螤柎髮W(xué)圖書館科技服務(wù)首席策劃人Dean Krafft建議,圖書館聘用有科研經(jīng)驗(yàn)的人員到圖書館工作,即那些曾經(jīng)在學(xué)院工作過的科研人員,因?yàn)樗麄兏私鈱W(xué)院數(shù)據(jù)管理需求,能為圖書館嵌入式服務(wù)提供無縫銜接[2]。數(shù)據(jù)館員嵌入科研團(tuán)隊(duì)后,會與不同研究團(tuán)隊(duì)溝通,為研究團(tuán)隊(duì)交流建立合作共享空間,拉近相近或交叉學(xué)科領(lǐng)域科研人員間的關(guān)系,并通過合作共享實(shí)現(xiàn)研究目標(biāo)。
康奈爾大學(xué)科研數(shù)據(jù)管理服務(wù)工作組提出科研數(shù)據(jù)生命周期包括8個(gè)階段,服務(wù)提供機(jī)構(gòu)可以由此入手宏觀把握科研人員數(shù)據(jù)需求,提供嵌入式科研數(shù)據(jù)管理服務(wù)[5]。
2.1嵌入式規(guī)劃服務(wù)
美國自然科學(xué)基金委員會對科研項(xiàng)目資助的前提是科研團(tuán)隊(duì)必須提供科研數(shù)據(jù)管理計(jì)劃,詳細(xì)描述項(xiàng)目研究數(shù)據(jù),詳盡分析數(shù)據(jù)分享的目的與初衷等??的螤柎髮W(xué)建議制定數(shù)據(jù)管理計(jì)劃時(shí)使用科研數(shù)據(jù)管理規(guī)劃工具(DMP Tool),即一種由第三方定制的在線網(wǎng)頁輸入工具[9]??蒲腥藛T登錄科研數(shù)據(jù)管理規(guī)劃工具主頁后,在欄目框中選擇機(jī)構(gòu)康奈爾大學(xué),使用用戶名和密碼快速登錄,就能夠從康奈爾大學(xué)圖書館獲得填寫科研數(shù)據(jù)管理計(jì)劃的具體指導(dǎo)和幫助,包括:免費(fèi)下載美國基金項(xiàng)目管理機(jī)構(gòu)的數(shù)據(jù)管理政策;數(shù)據(jù)收集和分析方式的選用;維護(hù)數(shù)據(jù)完整性的方法;數(shù)據(jù)訪問和安全政策的選??;數(shù)據(jù)管理評估計(jì)劃;項(xiàng)目結(jié)束后數(shù)據(jù)的最終過渡計(jì)劃,等等[10]。同時(shí),康奈爾大學(xué)圖書館的網(wǎng)站提供RSS Feed,支持RSS訂閱,幫助用戶時(shí)刻了解科研數(shù)據(jù)管理最新消息;該網(wǎng)站還提供對應(yīng)學(xué)科嵌入式數(shù)據(jù)館員的簡要介紹和聯(lián)系方式,便于科研人員尋求幫助[11]。
2.2嵌入式采集服務(wù)
不同學(xué)科屬性的科研人員獲取研究數(shù)據(jù)的方法不同,自然科學(xué)科研人員通過科學(xué)儀器收集和分析樣品采集學(xué)科資源,社會科學(xué)科研人員更多是基于海量數(shù)據(jù)的抽樣分析來獲取學(xué)術(shù)資源。為了保證科研人員采集的科學(xué)數(shù)據(jù)在未來能被利用,康奈爾大學(xué)圖書館數(shù)據(jù)館員利用自身專業(yè)優(yōu)勢,審慎考慮不同學(xué)科科學(xué)數(shù)據(jù)采集的方法和文檔的保存,利用數(shù)據(jù)采集系統(tǒng)、平臺、工具實(shí)時(shí)為科研人員提供指導(dǎo)。并且在數(shù)據(jù)收集過程中,根據(jù)數(shù)據(jù)間復(fù)雜的邏輯關(guān)系,分類創(chuàng)建使用模板,以保證任何關(guān)聯(lián)數(shù)據(jù)都能夠被采集。除此之外,根據(jù)科研人員數(shù)據(jù)需求,康奈爾大學(xué)圖書館數(shù)據(jù)館員主動通過現(xiàn)有數(shù)據(jù)庫積極向科研人員推送學(xué)科前沿信息,使用電子郵件或博客把與項(xiàng)目研究密切相關(guān)的文章、圖書、期刊、在線視頻、新聞等資源推薦給科研人員,幫助其發(fā)現(xiàn)最佳知識庫,使其能夠便捷地從科學(xué)數(shù)據(jù)知識庫和機(jī)構(gòu)庫中獲取新的研究思路和資源。
2.3嵌入式保證服務(wù)
數(shù)據(jù)館員在長期工作實(shí)踐中積累了大量技術(shù)經(jīng)驗(yàn),具有敏銳洞察力,熟悉科研人員行為習(xí)慣,具備信息資源建設(shè)能力。因此,數(shù)據(jù)館員通過參與基金資助項(xiàng)目相關(guān)材料的寫作,協(xié)助科研人員分析、執(zhí)行數(shù)據(jù)質(zhì)量保證和控制的措施,描述影響數(shù)據(jù)質(zhì)量的因素,設(shè)置數(shù)據(jù)指標(biāo)來檢查可疑數(shù)據(jù),以便及時(shí)發(fā)現(xiàn)潛在問題。
同時(shí),由于知識產(chǎn)權(quán)和道德方面的原因,科研人員可能會考慮限制數(shù)據(jù)發(fā)布。數(shù)據(jù)館員有義務(wù)保護(hù)研究對象隱私、保證數(shù)據(jù)安全。通過參與項(xiàng)目研討會,了解用戶數(shù)據(jù)控制需求,康奈爾大學(xué)圖書館數(shù)據(jù)館員或者采用許可證的形式限制數(shù)據(jù)使用、禁止數(shù)據(jù)共享,或者使用身份認(rèn)證的方式保護(hù)科研人員隱私,或者提供加密服務(wù)來保護(hù)數(shù)據(jù)免受未經(jīng)授權(quán)的訪問。數(shù)據(jù)館員還通過提供數(shù)據(jù)版權(quán)保護(hù)和知識產(chǎn)權(quán)咨詢服務(wù)來指導(dǎo)科研人員許可授權(quán)和發(fā)布數(shù)據(jù)。
另外,為了確??蒲腥藛T在未來科研工作中能夠利用數(shù)據(jù),數(shù)據(jù)館員擬定了動態(tài)數(shù)據(jù)保護(hù)方案,根據(jù)科研人員需求協(xié)同制定數(shù)據(jù)保留標(biāo)準(zhǔn),確定數(shù)據(jù)保存期限。有的數(shù)據(jù)生命周期會隨著項(xiàng)目終止而結(jié)束,有的數(shù)據(jù)保存的時(shí)間會比項(xiàng)目周期更長,有幾年甚至幾十年。為保證最大限度延長數(shù)據(jù)使用壽命,數(shù)據(jù)存儲時(shí)科研人員需要預(yù)先確認(rèn)有利于實(shí)驗(yàn)研究的數(shù)據(jù),以及有潛力被再次利用的數(shù)據(jù),以便數(shù)據(jù)能夠深度支持科學(xué)研究[12]。
2.4嵌入式標(biāo)引服務(wù)
由于科研數(shù)據(jù)具有短暫性、臨時(shí)性、數(shù)量龐大的特點(diǎn),因此只有經(jīng)過組織標(biāo)引的資源才能被用戶充分利用和共享??茖W(xué)實(shí)驗(yàn)中研究者描述數(shù)據(jù)的傳統(tǒng)方法大多是記錄在筆記本上?,F(xiàn)在為了更快速、準(zhǔn)確識別資源、檢索資源、共享資源、評價(jià)資源,數(shù)據(jù)館員提供了正式的數(shù)據(jù)描述方式,即采用元數(shù)據(jù)描述信息資源,實(shí)現(xiàn)對不同屬性數(shù)字資源的有序化組織、索引、鏈接、建庫、存儲。
康奈爾大學(xué)圖書館數(shù)據(jù)館員通過全程跟蹤科研人員,實(shí)現(xiàn)對數(shù)字資源內(nèi)容屬性準(zhǔn)確描述,包括數(shù)字語境、科學(xué)語境、參與者及相關(guān)參數(shù)信息等,盡量根據(jù)用戶使用習(xí)慣或知識背景(User Profile)來敘述[13]。如果科研數(shù)據(jù)僅限學(xué)校內(nèi)部使用,暫時(shí)沒有合適的元數(shù)據(jù)標(biāo)準(zhǔn),數(shù)據(jù)館員就會指導(dǎo)科研人員寫“自述”式元數(shù)據(jù)。如果數(shù)據(jù)要對外開放,創(chuàng)建標(biāo)準(zhǔn)化元數(shù)據(jù)又較困難和費(fèi)時(shí),康奈爾大學(xué)圖書館數(shù)據(jù)館員大多會選擇規(guī)范工具,協(xié)助科研人員完成元數(shù)據(jù)標(biāo)引,如通過康奈爾大學(xué)圖書館科研數(shù)據(jù)管理服務(wù)中心登錄到英國數(shù)字保存中心[14],查詢相關(guān)學(xué)科元數(shù)據(jù)標(biāo)準(zhǔn)列表,實(shí)現(xiàn)對元數(shù)據(jù)收集、驗(yàn)證、規(guī)范化設(shè)計(jì)和保護(hù),以應(yīng)對不同用戶的元數(shù)據(jù)使用需求。對于比較特殊的數(shù)據(jù),為方便學(xué)者后期訪問,發(fā)揮數(shù)據(jù)價(jià)值,科研人員可向數(shù)據(jù)管理人員咨詢轉(zhuǎn)換數(shù)據(jù)格式,以表格數(shù)據(jù)(Tabular Data)的形式來合理描述科研數(shù)據(jù)存儲狀態(tài)。總之,元數(shù)據(jù)應(yīng)用是一項(xiàng)持續(xù)性、系統(tǒng)性的維護(hù)工作,目的是使元數(shù)據(jù)可以為科研評估和管理服務(wù),最終實(shí)現(xiàn)原始數(shù)據(jù)價(jià)值。
2.5嵌入式保存服務(wù)
為了促進(jìn)科學(xué)研究的進(jìn)一步發(fā)展,減少重復(fù)勞動,便于數(shù)據(jù)檢索和利用,數(shù)據(jù)館員必須對數(shù)字資源的應(yīng)用環(huán)境科學(xué)規(guī)劃??的螤柎髮W(xué)校內(nèi)設(shè)有計(jì)算機(jī)中心和數(shù)字共享空間,主要依托機(jī)構(gòu)庫為科研人員提供科研數(shù)據(jù)保存服務(wù)??的螤柎髮W(xué)機(jī)構(gòu)倉儲的最初設(shè)想是保存機(jī)構(gòu)成員研究成果,同時(shí)為其提供作品出版機(jī)會。但是隨著機(jī)構(gòu)庫建設(shè)的順利推進(jìn),康奈爾大學(xué)開始探索以機(jī)構(gòu)庫為平臺的數(shù)據(jù)館員—用戶互動模式,構(gòu)建數(shù)據(jù)階段型存儲庫(Data Staging Repository,簡稱DataStaR),開展嵌入式科研數(shù)據(jù)管理服務(wù)。DataStaR是康奈爾大學(xué)機(jī)構(gòu)庫支持?jǐn)?shù)據(jù)密集型學(xué)術(shù)研究的新形式。目前,DataStaR已建設(shè)成為一個(gè)成熟的數(shù)據(jù)監(jiān)護(hù)平臺,是一個(gè)暫時(shí)的、過渡性質(zhì)的數(shù)據(jù)共享存儲節(jié)點(diǎn)[15]。DataStaR擁有多種可以產(chǎn)生高質(zhì)量元數(shù)據(jù)的工具,主要由數(shù)據(jù)館員協(xié)助科研人員使用,其最終目的是幫助學(xué)者發(fā)布、長期使用數(shù)據(jù)成果[16]。數(shù)據(jù)館員通過對存儲在機(jī)構(gòu)庫中的數(shù)據(jù)組織、建設(shè),有效降低了數(shù)據(jù)過時(shí)的風(fēng)險(xiǎn),增加了其長期研究的價(jià)值,以便更多人共享科研數(shù)據(jù)。
由于機(jī)構(gòu)庫存儲空間有限,長期發(fā)展必然造成機(jī)構(gòu)庫資源增加與存儲空間有限的矛盾。因此,康奈爾大學(xué)科研數(shù)據(jù)管理服務(wù)工作組通過與科研人員溝通,確定了上傳數(shù)據(jù)的大小和數(shù)量。當(dāng)數(shù)據(jù)量超過存儲限制量時(shí),數(shù)據(jù)館員核實(shí)數(shù)據(jù)保存價(jià)值后,把一部分不太重要的數(shù)據(jù)暫時(shí)保存在臨時(shí)空間。另外,為了提高數(shù)據(jù)管理服務(wù)性能,數(shù)據(jù)館員在多語種和多語言(如C/C++、Perl、Python、Java、C#、MPI、OpenMP)平臺上提供編程服務(wù),優(yōu)化數(shù)據(jù)庫性能,充分發(fā)揮數(shù)據(jù)使用價(jià)值。
2.6嵌入式發(fā)現(xiàn)服務(wù)
康奈爾大學(xué)圖書館數(shù)據(jù)館員通過面對面交流、電子郵件、電話、社交軟件等與科研人員互動,協(xié)助其使用標(biāo)準(zhǔn)的、開放的軟件工具和專業(yè)術(shù)語宣傳自己上傳的數(shù)據(jù),完善數(shù)據(jù)共享策略,確保數(shù)據(jù)使用價(jià)值最大化。為了讓目標(biāo)人群有效發(fā)現(xiàn)數(shù)據(jù),數(shù)據(jù)館員在與科研人員深度溝通后,協(xié)同制定數(shù)據(jù)營銷策略,再次確認(rèn)數(shù)據(jù)共享數(shù)量、階段(原始數(shù)據(jù)階段、數(shù)據(jù)加工階段或數(shù)據(jù)分析階段)。對于暫時(shí)不共享的數(shù)據(jù),科研人員需要標(biāo)明數(shù)據(jù)開放共享的時(shí)間節(jié)點(diǎn),為受眾人群發(fā)現(xiàn)和分享數(shù)據(jù)提供方便,以提高數(shù)據(jù)使用效率;對于保密的敏感數(shù)據(jù),則制定數(shù)據(jù)保護(hù)安全措施,以及數(shù)據(jù)存儲標(biāo)準(zhǔn)、形式。
2.7嵌入式整合服務(wù)
數(shù)據(jù)庫建立后,數(shù)據(jù)館員要定期與科研項(xiàng)目負(fù)責(zé)人聯(lián)系,及時(shí)更新數(shù)據(jù),包括項(xiàng)目結(jié)題后產(chǎn)生的相關(guān)數(shù)據(jù)、解密的受保護(hù)數(shù)據(jù)等。所有這些數(shù)據(jù)集聚在一起,并不意味著就能形成滿足研究的數(shù)據(jù)產(chǎn)品,不同類型數(shù)據(jù)集合在一起可能會不兼容??的螤柎髮W(xué)圖書館數(shù)據(jù)館員嵌入科研環(huán)境中,利用技術(shù)工具(如資源鏈接工具、批注工具、討論工具、個(gè)性化內(nèi)容組合工具、個(gè)人數(shù)據(jù)管理工具等)選擇、加工、導(dǎo)入和組織相關(guān)的數(shù)據(jù)資源[12],完成異構(gòu)數(shù)據(jù)的整合、改造,將后續(xù)研究數(shù)據(jù)有機(jī)組織、整理到研究機(jī)構(gòu)及圖書館的信息平臺之中,實(shí)現(xiàn)不同來源重要數(shù)據(jù)的融合,利于后期研究。
2.8嵌入式分析服務(wù)
數(shù)據(jù)分析最重要的是研究結(jié)果要遵循項(xiàng)目要求和數(shù)據(jù)需求,以及達(dá)到政策制定者和科學(xué)界預(yù)期的效果。因此,數(shù)據(jù)館員與科研人員的聯(lián)系溝通十分重要,除建立常規(guī)的聯(lián)絡(luò)機(jī)制外,還需要圖書館為研究團(tuán)隊(duì)依據(jù)學(xué)科背景設(shè)置數(shù)據(jù)管理服務(wù)聯(lián)絡(luò)人,即對口服務(wù)的嵌入式數(shù)據(jù)館員,讓科研人員能夠隨時(shí)隨地享受專業(yè)化數(shù)據(jù)分析服務(wù)??茖W(xué)的工作流程管理軟件可以集成、分析和可視化數(shù)據(jù),特別是在科研數(shù)據(jù)成為圖書館文獻(xiàn)資源一部分后,康奈爾大學(xué)圖書館數(shù)據(jù)館員利用專業(yè)管理軟件將這部分科研數(shù)據(jù)與其他館藏資源(特別是科學(xué)文獻(xiàn))關(guān)聯(lián)化,即將某一數(shù)據(jù)或數(shù)據(jù)集與依托其產(chǎn)生的科學(xué)文獻(xiàn)關(guān)聯(lián)起來,從而使得潛在用戶檢索數(shù)據(jù)或數(shù)據(jù)集時(shí),能夠輕松檢索到與數(shù)據(jù)或數(shù)據(jù)集相關(guān)的科學(xué)文獻(xiàn)和其他多元資源[17]。例如,在VIVO項(xiàng)目中,數(shù)據(jù)館員將科研數(shù)據(jù)與其他多元資源,如人員信息[18]、科研項(xiàng)目信息、機(jī)構(gòu)信息、會議信息、設(shè)施設(shè)備參數(shù)、模型、圖像、三維地圖等信息資源關(guān)聯(lián)集成,這樣用戶檢索科學(xué)數(shù)據(jù)時(shí),就能挖掘與其相關(guān)的集成信息,用戶能發(fā)現(xiàn)搜索范圍顯著擴(kuò)大,檢索結(jié)果明顯增加,這有助于科研人員進(jìn)行更詳細(xì)的數(shù)據(jù)密集型計(jì)算分析,提升研究數(shù)據(jù)價(jià)值[19],圖書館嵌入式服務(wù)也更加具有靈活性和擴(kuò)展性[20]。
綜上所述,康奈爾大學(xué)圖書館數(shù)據(jù)館員通過嵌入科研過程和環(huán)境,與用戶良性互動和實(shí)時(shí)交流[21],并利用先進(jìn)計(jì)算機(jī)技術(shù)(如語義網(wǎng)、Web3.0和機(jī)構(gòu)庫等),基于數(shù)據(jù)生命周期幫助科研人員集成管理各種類型的科研數(shù)據(jù)[22],有利于科研數(shù)據(jù)長期保存使用,滿足學(xué)校教學(xué)、科研資源需求。
從科研數(shù)據(jù)管理計(jì)劃的制定到數(shù)據(jù)存儲再到數(shù)據(jù)分析,康奈爾大學(xué)形成了完備的嵌入式科研數(shù)據(jù)管理服務(wù)理論體系,與此同時(shí),VIVO、DataStaR等項(xiàng)目的順利運(yùn)作也表明其科研數(shù)據(jù)管理服務(wù)具有交互性、動態(tài)性、可操作性強(qiáng)的特點(diǎn)。基于科研數(shù)據(jù)生命周期,康奈爾大學(xué)圖書館數(shù)據(jù)館員為科研人員提供了豐富而多元的嵌入式科研數(shù)據(jù)管理服務(wù),但是伴隨服務(wù)工作的發(fā)展與深化,仍然面臨下述挑戰(zhàn):
(1)數(shù)字資源的利用和共享問題。一方面,數(shù)據(jù)具有價(jià)值,其就是資產(chǎn),核心數(shù)據(jù)資源能夠形成核心優(yōu)勢和核心競爭力,個(gè)別科研人員可能不愿意共享科研數(shù)據(jù)或者用于共享的數(shù)據(jù)有限;另一方面,部分?jǐn)?shù)據(jù)服務(wù)商業(yè)機(jī)構(gòu)可能認(rèn)識到數(shù)據(jù)的潛在價(jià)值,有意延遲或阻礙數(shù)據(jù)共享。因此在科研數(shù)據(jù)資源保護(hù)和共享之間找到平衡點(diǎn)成為亟需突破的關(guān)鍵觀念問題。
(2)在數(shù)據(jù)館員配置方面,尋找和吸引具有創(chuàng)意的程序員與軟件開發(fā)者,以及既具有圖書情報(bào)專業(yè)知識又具備學(xué)科背景的專業(yè)人才參與科研數(shù)據(jù)管理變得較為困難。為了能夠最大限度地發(fā)揮每一位數(shù)據(jù)館員的效用,康奈爾大學(xué)圖書館為科研數(shù)據(jù)管理服務(wù)設(shè)置了3個(gè)永久性職位,除此之外其他編程人員都是臨時(shí)人員,根據(jù)項(xiàng)目經(jīng)費(fèi)預(yù)算來聘任。由于經(jīng)費(fèi)有限,收入不高,具備相關(guān)專業(yè)知識的人才可能會更趨向于尋找高薪工作,圖書館面臨在未來3~5年很難聘用具有適當(dāng)專業(yè)知識和數(shù)據(jù)開發(fā)水平的工作人員[2]。
(3)在經(jīng)費(fèi)方面,隨著科研數(shù)據(jù)管理服務(wù)開展,擴(kuò)大服務(wù)的需求會明顯增長,數(shù)據(jù)資源管理產(chǎn)生的費(fèi)用會隨之增加。盡管美國國家基金委員會要求科研人員申請項(xiàng)目時(shí),必須將項(xiàng)目經(jīng)費(fèi)的一定比例撥付給數(shù)據(jù)管理機(jī)構(gòu)用于數(shù)據(jù)服務(wù),但項(xiàng)目經(jīng)費(fèi)是固定的,而科研項(xiàng)目的關(guān)鍵資源卻在不斷增長,這必然造成管理經(jīng)費(fèi)不足。同時(shí),由于康奈爾大學(xué)科研數(shù)據(jù)管理服務(wù)涉及多個(gè)研究機(jī)構(gòu),因而參與各方的成本分?jǐn)偱c利益分配需要進(jìn)一步明確。
(4)數(shù)據(jù)管理還需要從道德層面和法律層面解決可能出現(xiàn)的各種問題,包括參與各方的權(quán)利和義務(wù)、數(shù)字資源版權(quán)保護(hù)、數(shù)字資源安全等。另外,數(shù)據(jù)存取可能泄露個(gè)人隱私,在單條數(shù)據(jù)或單維度情況下或許得不到有價(jià)值的結(jié)論和線索,但是當(dāng)數(shù)據(jù)資源集聚在一起在多維度下就可能泄露研究者隱私,導(dǎo)致學(xué)者共享數(shù)據(jù)時(shí)有所顧慮。
目前,嵌入式科研數(shù)據(jù)管理服務(wù)在我國大陸地區(qū)多停留在理論探討階段,開展相關(guān)探索實(shí)踐的圖書館屈指可數(shù),大量有價(jià)值的科研數(shù)據(jù)因缺少管理和保存而流失。美國康奈爾大學(xué)的一些做法對我國圖書館嵌入式科研數(shù)據(jù)管理服務(wù)的深入開展具有一定啟示。
首先,E-science環(huán)境下,收集、儲存、分析和共享海量數(shù)據(jù)的各個(gè)環(huán)節(jié)都需要設(shè)備、技術(shù)、人才與資金,圖書館開展嵌入式科研數(shù)據(jù)管理服務(wù)僅依靠一己之力遠(yuǎn)遠(yuǎn)不夠。從康奈爾大學(xué)成功案例看,圖書館雖然是嵌入式科研數(shù)據(jù)管理服務(wù)的主要窗口,但更需要學(xué)校及科研資助機(jī)構(gòu)的高度重視,在發(fā)展政策、經(jīng)費(fèi)上給予大力支持,如科研資助機(jī)構(gòu)可以要求科研團(tuán)隊(duì)在申請項(xiàng)目時(shí)提交科研數(shù)據(jù)管理計(jì)劃,也可以明確規(guī)定從科研項(xiàng)目研究經(jīng)費(fèi)中按比例提取一定份額用于數(shù)據(jù)管理。同時(shí),圖書館需要與其他機(jī)構(gòu)協(xié)同合作,建立專門機(jī)構(gòu)(如數(shù)據(jù)管理服務(wù)工作組)來協(xié)調(diào)合作機(jī)構(gòu)之間的權(quán)責(zé),明確服務(wù)階段和任務(wù),提高管理效率,彌補(bǔ)圖書館建設(shè)能力不足。
其次,圖書館應(yīng)加強(qiáng)基礎(chǔ)設(shè)施建設(shè),提升嵌入式科研數(shù)據(jù)管理服務(wù)的技術(shù)支撐能力。從康奈爾大學(xué)的做法來看,對密集、復(fù)雜的科研數(shù)據(jù)管理,需要依托強(qiáng)有力的基礎(chǔ)設(shè)施和軟件工具,主要包括大型存儲設(shè)備、高性能服務(wù)器及服務(wù)終端等,并配置相應(yīng)軟件系統(tǒng),便于數(shù)據(jù)采集、發(fā)現(xiàn)、整合和分析。數(shù)據(jù)存儲可以采用與其他機(jī)構(gòu)合作的途徑共同創(chuàng)建數(shù)據(jù)存儲庫,也可使用自建的數(shù)據(jù)或機(jī)構(gòu)倉儲設(shè)備來完成數(shù)據(jù)存儲。如果存儲的數(shù)據(jù)不在圖書館,則可通過數(shù)據(jù)導(dǎo)航服務(wù),由圖書館鏈接到存儲中心來實(shí)現(xiàn),這時(shí)圖書館的職責(zé)是建立完備的科研數(shù)據(jù)環(huán)境,對科研數(shù)據(jù)集成并統(tǒng)一管理。國內(nèi)高校圖書館可以根據(jù)自身技術(shù)條件和設(shè)備條件在這3種形式中選擇合適的倉儲設(shè)備和軟件平臺。
再次,數(shù)據(jù)館員作為研究團(tuán)隊(duì)組成部分,要時(shí)時(shí)與用戶溝通,把握用戶需求,在科研數(shù)據(jù)生命周期的全譜段與科研人員合作,建立對應(yīng)學(xué)科科研數(shù)據(jù)館員聯(lián)系機(jī)制,保護(hù)科研人員隱私,提供恰到好處的服務(wù)。同時(shí)通過舉辦講座、研討會的形式加強(qiáng)與科研人員交流,讓他們了解在E-science環(huán)境下,科學(xué)研究范式發(fā)生了顯著變化,看似分散、零碎的科學(xué)數(shù)據(jù)仍然具有巨大的經(jīng)濟(jì)價(jià)值和社會價(jià)值,科技創(chuàng)新越來越依賴于對海量數(shù)據(jù)的控制和再利用,激發(fā)他們上傳數(shù)據(jù)的熱情。
最后,借鑒康奈爾大學(xué)經(jīng)驗(yàn)讓數(shù)據(jù)館員有機(jī)會參與科研數(shù)據(jù)管理服務(wù)學(xué)術(shù)交流和接受繼續(xù)教育。康奈爾大學(xué)圖書館和雪城大學(xué)簽訂協(xié)議,優(yōu)秀數(shù)據(jù)館員能夠到雪城大學(xué)接受一期的ISCHOOL課程培訓(xùn),學(xué)習(xí)內(nèi)容包括數(shù)據(jù)管理、計(jì)算機(jī)科學(xué)和數(shù)據(jù)庫管理等[2],都是特別有價(jià)值的課程,對康奈爾大學(xué)圖書館數(shù)據(jù)館員科研數(shù)據(jù)管理服務(wù)能力的提升有很大幫助。
康奈爾大學(xué)嵌入式科研數(shù)據(jù)管理服務(wù)的相關(guān)信息與案例體現(xiàn)了在E-science和大數(shù)據(jù)環(huán)境下圖書館發(fā)展的必然趨勢和方向。雖然嵌入式科研數(shù)據(jù)管理服務(wù)沒有固定的模式和機(jī)制可以遵循,每個(gè)圖書館都可以“因館而異”,但是一切以用戶為中心的服務(wù)理念已經(jīng)成為一種共識。學(xué)習(xí)、借鑒國外先進(jìn)做法,對我國圖書館開展嵌入式科研數(shù)據(jù)管理服務(wù)、完善和深化服務(wù)工作具有重大意義。
[1]Hey T,Tansley S,Tolle K. The Fourth Paradigm:Data-Intensive Scientific discovery[M]. Washington: Microsoft Research, 2009: 3-26.
[2]Soehner C,Steeves C,Ward J. E-Science and Data Support Services: A Study of ARL Member Institutions[C]. Washington: Association of Research Libraries, 2010:5-7,32-36.
[3]RDMSG Planning Group. Meeting Funders' Data Policies: Blueprint for a Research Data Management Service Group(RDMSG)[R]. Ithaca:RDMSG, 2010:2.
[4]Cornell University. Research Data Management Service Group(RDMSG)[EB/OL]. [2015-08-10].https://confluence.cornell.edu/ display/rdmsgweb/home;jsessionid=73DF1608333 FB2D6FoFDCB 976AB20C76.
[5]Research Data Management Service Group. The RDMSG:Data Management Planning and More [R]. Ithaca:RDMSG, 2015:40.
[6]Research Data Management Service Group. Research Data Management Service Group: Summary of Activities and Accomplishments July 2012-June 2013[R]. Ithaca: RDMSG,2012: 23.
[7]李 力.國外研究型圖書館學(xué)科服務(wù)的發(fā)展態(tài)勢及啟示:以康奈爾大學(xué)為例[J]. 圖書館學(xué)研究, 2013(14):82-85.
[8]Cornell University Library. VIVO:Research & Expertise Across Cornell[EB/OL]. [2015-07-10]. http://vivo.cornell.edu/.
[9]University of California. Data Management Planning Tool[EB/ OL]. [2015-07-10]. https://dmptool.org/user_sessions/institution.
[10]Cornell University. Data Management Planning [EB/OL]. [2015-07-10]. http://data.research.cornell.edu/content/datamanagement-planning.
[11]Cornell University Library. Cornell University Library [EB/OL].[2015-07-10]. https://www.library.cornell.edu/.
[12]Cornell University. Data Management Services at Cornell [EB/ OL]. [2015-07-10]. http://data.research.cornell.edu/services.
[13]Cornell University. Metadata [EB/OL]. [2015-07-10]. https:// confluence.cornell.edu/display/rdmsgweb/metadata.
[14]Digital Curation Conference. List of Metadata Standards[EB/OL].[2015-07-10].http://www.dcc.ac.uk/resources/metadatastandards/list.
[15]楊鶴林. 從數(shù)據(jù)監(jiān)護(hù)看美國高校圖書館的機(jī)構(gòu)庫建設(shè)新思路:來自DataStaR的啟示[J].大學(xué)圖書館學(xué)報(bào),2012(2):23-28,73.
[16]Institute of Museum and Library Services. DataStaR[EB/OL].[2015-07-10].http://datastar.mannlib.cornell.edu/.
[17]吳新年.學(xué)術(shù)圖書館的科研數(shù)據(jù)管理服務(wù)[J].情報(bào)資料工作,2014(5):74-78.
[18]Corson-Rikert J,Holmes K,Lowe B,et al. Introduction to VIVO[C]. St.Louis:VIVO 2013 Conference Workshop, 2013:10-12.
[19]NCRIS. Research Data Australia[EB/OL]. [2015-07-10]. https:/ /researchdata.ands.org.au/.
[20]肖 瀟, 呂俊生. 圖書館嵌入式學(xué)科化科學(xué)數(shù)據(jù)服務(wù)研究[J].圖書館學(xué)研究, 2012(21):85-87.
[21]馬曉亭. 圖書館大數(shù)據(jù)監(jiān)護(hù)系統(tǒng)的構(gòu)建:以生命周期理論為視角[J].圖書館建設(shè), 2014(12):31-33,38.
[22]初景利. 嵌入式圖書館服務(wù)的理論突破[J]. 大學(xué)圖書館學(xué)報(bào),2013(6):5-9.
Research on the Embedded Scientific Research Data Management Service in Cornell University
In order to meet requirements of data acquisition, storage and management of research institutions, the Cornell University set up a top-down scientific research data management service agency, which based on the life cycle of scientific research data to provide more depth and breadth of scientific research data management service. Embedded scientific research data management service of Cornell University has characteristics of complete theoretical system, flexible, real-time, strong interactivity and extensibility, but also faces the challenge to deepen the service, which has important reference value for China's Library to develop and enhance the embedded data management service.
Embedded data management service; Scientific research data management service; Data Librarian; Cornell University
G252
A
徐 菲 女,1979年生,博士,現(xiàn)工作于成都理工大學(xué)圖書館,館員,已發(fā)表論文10篇。
王 軍 男,1958年生,現(xiàn)工作于成都理工大學(xué)圖書館,副館長,研究館員。
曹 均 男,1967年生,現(xiàn)工作于成都理工大學(xué)圖書館,研究館員。
丁海容 女,1978年生,現(xiàn)工作于成都理工大學(xué)圖書館,副研究館員。
2015-08-16 ]
*本文系四川省哲學(xué)社會科學(xué)重點(diǎn)研究基地四川學(xué)術(shù)成果分析與應(yīng)用研究中心項(xiàng)目“基于地球科學(xué)的中文圖書引文數(shù)據(jù)庫建設(shè)及其學(xué)術(shù)影響力分析研究”,項(xiàng)目編號:SCAA15B01;2013-2016 年成都理工大學(xué)高等教育人才培養(yǎng)質(zhì)量和教學(xué)改革項(xiàng)目“教輔單位為創(chuàng)新型人才培養(yǎng)提供多層次服務(wù)的保障機(jī)制研究”,項(xiàng)目編號:13JGY81 的成果之一。