陳秀娟,吳鳴,胡卉
?
嵌入科研工作流的圖書(shū)館數(shù)據(jù)管理服務(wù)——以化學(xué)學(xué)科為例
陳秀娟,吳鳴,胡卉
摘要在數(shù)據(jù)開(kāi)放獲取背景下,文章以化學(xué)學(xué)科為研究對(duì)象,提出基于化學(xué)科研工作流的數(shù)據(jù)生命周期,分析每一階段化學(xué)研究人員面臨的挑戰(zhàn)和問(wèn)題并以此作為服務(wù)切入點(diǎn),設(shè)計(jì)嵌入化學(xué)科研工作流不同階段的圖書(shū)館數(shù)據(jù)管理服務(wù)模式,最終策劃化學(xué)科研工作中圖書(shū)館可提供的服務(wù),為我國(guó)圖書(shū)館開(kāi)展嵌入科研工作流的數(shù)據(jù)服務(wù)提供思考和借鑒。
關(guān)鍵詞科研工作流研究人員圖書(shū)館數(shù)據(jù)管理服務(wù)化學(xué)
引用本文格式陳秀娟,吳鳴,胡卉.嵌入科研工作流的圖書(shū)館數(shù)據(jù)管理服務(wù)——以化學(xué)學(xué)科為例[J].圖書(shū)館論壇,2016(3):49- 55,102.
Library Data Management Services Embedded in Research Workflow——Taking Chemistry as an Example
CHEN Xiu- juan,WU Ming,HU Hui
Abstract This article takes chemistry as the research subject in the context of open access to data and proposes the data life circle regarding to the chemistry research workflow. It analyzes the challenges and issues that chemistry scholars encounter at every stage of scientific research,designs the corresponding library data management service models,and presents the final applicable planning of library services for chemistry research. Thus,reflections and references are provided for Chinese domestic libraries to implement data services built in research workflow.
Keywords research workflow;researcher;library;data management service;chemistry
近年,開(kāi)放科研數(shù)據(jù)受到各界重視,國(guó)際組織、資助機(jī)構(gòu)、期刊出版商等紛紛發(fā)布科研數(shù)據(jù)的開(kāi)放獲取政策。圖書(shū)館作為重要的信息、情報(bào)、知識(shí)服務(wù)機(jī)構(gòu),在科研數(shù)據(jù)共享中已主動(dòng)承擔(dān)起責(zé)任。在國(guó)外,哈佛大學(xué)、牛津大學(xué)、斯坦福大學(xué)等很多高校圖書(shū)館開(kāi)展了科研數(shù)據(jù)管理服務(wù);我國(guó)少數(shù)幾個(gè)高校,如復(fù)旦大學(xué)、武漢大學(xué)、北京大學(xué)的圖書(shū)館也開(kāi)始嘗試提供科研數(shù)據(jù)管理服務(wù)。綜合分析國(guó)內(nèi)外圖書(shū)館數(shù)據(jù)管理服務(wù)的現(xiàn)狀,發(fā)現(xiàn)多數(shù)圖書(shū)館的服務(wù)是面向數(shù)據(jù)管理生命周期(Data Management Lifecycle)的。另外,還有一些圖書(shū)館開(kāi)展了面向科研生命周期(Research Lifecycle)的數(shù)據(jù)管理服務(wù),如巴斯大學(xué)圖書(shū)館[1]羅列了在項(xiàng)目啟動(dòng)前、進(jìn)展中以及結(jié)題后研究人員需要特別注意的問(wèn)題;弗吉尼亞大學(xué)圖書(shū)館[2]展示了科研生命周期和數(shù)據(jù)生命周期的關(guān)系,并列出了科研項(xiàng)目過(guò)程中研究人員需要進(jìn)行的數(shù)據(jù)管理活動(dòng)。圖書(shū)館作為提供數(shù)據(jù)管理服務(wù)的主體,只有真正融入研究人員的項(xiàng)目工作流中才能提供切合實(shí)際的服務(wù),但鮮有圖書(shū)館強(qiáng)調(diào)圖書(shū)館員嵌入式的數(shù)據(jù)管理服務(wù)。
目前已經(jīng)有部分學(xué)者提倡學(xué)科館員、研究人員、信息專(zhuān)家等之間協(xié)同及嵌入科研工作流進(jìn)行科研數(shù)據(jù)管理。Minglu Wang指出,圖書(shū)館員應(yīng)較早與研究人員或?qū)W生建立密切關(guān)系,這樣可以及時(shí)發(fā)現(xiàn)自己所需技能及領(lǐng)域知識(shí)的不足并進(jìn)行相應(yīng)的培訓(xùn)和學(xué)習(xí);而在數(shù)據(jù)管理方面,數(shù)據(jù)服務(wù)館員可以指導(dǎo)研究人員或?qū)W生管理數(shù)據(jù),以更好地開(kāi)展科研實(shí)踐[3]。Anna Gold討論了在數(shù)據(jù)圖書(shū)館事業(yè)中圖書(shū)館員所扮演的角色,其中一種是數(shù)據(jù)科學(xué)“上游”(Upstream)的角色,即作為科研過(guò)程密切的合作者,圖書(shū)館員可能會(huì)參與創(chuàng)建數(shù)據(jù)監(jiān)護(hù)模型,支持?jǐn)?shù)據(jù)文檔、標(biāo)準(zhǔn)等的使用以及建立支持科研工作流預(yù)出版的動(dòng)態(tài)數(shù)據(jù)倉(cāng)儲(chǔ)等[4]。肖瀟、呂俊生對(duì)嵌入式學(xué)科化科學(xué)數(shù)據(jù)服務(wù)進(jìn)行了研究,提出了學(xué)科館員參與學(xué)科數(shù)據(jù)服務(wù)的形式,包括過(guò)程嵌入、人員嵌入和平臺(tái)工具嵌入[5]。iSchool基于Atkinson等人[6]所述的“坡道”(Ramp,通過(guò)深入群體和接觸新的群體擴(kuò)大交流的方法)概念提出了數(shù)據(jù)能力坡道模型,見(jiàn)圖1[7],展示了iSchool通過(guò)與數(shù)據(jù)科學(xué)家、領(lǐng)域?qū)<摇W(xué)生之間的相互協(xié)作提高數(shù)據(jù)技能、能力和實(shí)踐經(jīng)驗(yàn)的方法。這些研究雖然都提到了圖書(shū)館員參與科研過(guò)程從而進(jìn)行服務(wù)的理念,但并沒(méi)有對(duì)具體的服務(wù)模式作進(jìn)一步研究。而,目前化學(xué)領(lǐng)域還沒(méi)有為實(shí)現(xiàn)化學(xué)數(shù)據(jù)的廣泛存取提供有效的科研數(shù)據(jù)管理和存儲(chǔ)服務(wù)。本文以化學(xué)學(xué)科為研究對(duì)象,分析化學(xué)科研工作流中的數(shù)據(jù)管理生命周期和每一階段的服務(wù)切入點(diǎn),汲取目前國(guó)內(nèi)外圖書(shū)館科研數(shù)據(jù)管理服務(wù)的經(jīng)驗(yàn)與啟示,基于學(xué)科館員、研究人員等多方協(xié)作的理念設(shè)計(jì)嵌入化學(xué)科研工作流的圖書(shū)館數(shù)據(jù)管理服務(wù),以期為我國(guó)圖書(shū)館開(kāi)展相應(yīng)的數(shù)據(jù)服務(wù)提供思考和借鑒。
圖1 iSchool能力坡道模型
以化學(xué)學(xué)科為例,在化學(xué)領(lǐng)域,實(shí)驗(yàn)室科研工作流中產(chǎn)生了大量數(shù)據(jù),但缺乏對(duì)實(shí)驗(yàn)數(shù)據(jù)集的管理和發(fā)表。在開(kāi)放數(shù)據(jù)的挑戰(zhàn)下,化學(xué)領(lǐng)域研究人員需要遵從各種數(shù)據(jù)共享政策的要求。然
科研數(shù)據(jù)的開(kāi)放獲取讓化學(xué)領(lǐng)域研究人員有了新的科研壓力,學(xué)科館員需發(fā)揮其在數(shù)據(jù)檢索、數(shù)據(jù)組織、數(shù)據(jù)共享等方面的專(zhuān)業(yè)優(yōu)勢(shì),融入化學(xué)研究實(shí)際工作,從整體層面理解用戶(hù)的科研工作流,為其提供嵌入整個(gè)科研工作流的數(shù)據(jù)服務(wù)。
1.1化學(xué)科研工作流與數(shù)據(jù)管理生命周期
美國(guó)地球觀測(cè)衛(wèi)星委員會(huì)信息系統(tǒng)與服務(wù)工作組(Committee on Earth Observation Satellites (CEOS) Working Group on Information Systems and Services (WGISS))2011年發(fā)布
CEOS Data Life Cycle Models and Concepts[8],其中收集了44種較有代表性的數(shù)據(jù)生命周期模型和數(shù)據(jù)管理生命周期模型,有些是科研機(jī)構(gòu)或圖書(shū)館定義的,有些是面對(duì)某個(gè)學(xué)科領(lǐng)域的,還有部分是針對(duì)某個(gè)項(xiàng)目的,生命周期的定義稍有差異。綜合書(shū)中44種生命周期案例,筆者從科研項(xiàng)目實(shí)施的角度將化學(xué)數(shù)據(jù)管理生命周期分為3個(gè)大的階段:項(xiàng)目啟動(dòng)前的數(shù)據(jù)管理計(jì)劃(Data Management Plan,DMP),項(xiàng)目進(jìn)展中的數(shù)據(jù)收集、數(shù)據(jù)組織、數(shù)據(jù)分析、數(shù)據(jù)保存和項(xiàng)目結(jié)題后的數(shù)據(jù)發(fā)表,參見(jiàn)圖2。
1.2化學(xué)科研數(shù)據(jù)管理服務(wù)切入點(diǎn)
圖2化學(xué)科研工作流與數(shù)據(jù)管理生命周期
處于科研項(xiàng)目工作流的不同階段,研究人員所面臨的數(shù)據(jù)管理問(wèn)題和挑戰(zhàn)也不相同。本文基于化學(xué)科研數(shù)據(jù)管理生命周期的3個(gè)階段,結(jié)合國(guó)內(nèi)外科研數(shù)據(jù)管理的經(jīng)驗(yàn),對(duì)研究人員可能面臨的問(wèn)題進(jìn)行分析,基于圖書(shū)館解決用戶(hù)問(wèn)題的角度,將其作為圖書(shū)館探索嵌入化學(xué)科研工作流的數(shù)據(jù)管理服務(wù)的切入點(diǎn)。
1.2.1項(xiàng)目啟動(dòng)前的數(shù)據(jù)服務(wù)切入點(diǎn)
越來(lái)越多的資助機(jī)構(gòu)要求其資助的項(xiàng)目能夠在項(xiàng)目研究過(guò)程中、結(jié)題或資助周期結(jié)束后對(duì)科研數(shù)據(jù)進(jìn)行規(guī)范的保存和管理。如為響應(yīng)美國(guó)國(guó)家科學(xué)基金會(huì)(NationalScience Foundation,NSF)開(kāi)放數(shù)據(jù)的政策,NSF化學(xué)部規(guī)定:“2011年1 月18日之后提交到化學(xué)部的項(xiàng)目申請(qǐng)書(shū)需包含一份不超過(guò)2頁(yè)的數(shù)據(jù)管理計(jì)劃,且研究人員應(yīng)在合適的時(shí)間范圍內(nèi),將數(shù)據(jù)及相關(guān)的補(bǔ)充信息發(fā)表到同行評(píng)議的期刊或?qū)?shù)據(jù)保存到化學(xué)領(lǐng)域提供數(shù)據(jù)訪問(wèn)的數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)儲(chǔ)中。”[9]在正式展開(kāi)科研項(xiàng)目之前,化學(xué)研究人員需明確資助機(jī)構(gòu)的數(shù)據(jù)共享政策,并制定一個(gè)包含數(shù)據(jù)收集、數(shù)據(jù)組織、數(shù)據(jù)備份和數(shù)據(jù)存儲(chǔ)等元素的數(shù)據(jù)管理計(jì)劃。越早制定數(shù)據(jù)管理計(jì)劃,越能幫助研究人員在創(chuàng)建、存儲(chǔ)和共享數(shù)據(jù)中做出正確的決定。而對(duì)處于科研一線(xiàn)的研究人員,制定一份高質(zhì)量的數(shù)據(jù)管理計(jì)劃無(wú)疑是一個(gè)很大的挑戰(zhàn)。
1.2.2項(xiàng)目進(jìn)展中的數(shù)據(jù)服務(wù)切入點(diǎn)
化學(xué)科研項(xiàng)目開(kāi)展過(guò)程中涉及的數(shù)據(jù)管理流程包括數(shù)據(jù)收集、數(shù)據(jù)組織、數(shù)據(jù)分析、數(shù)據(jù)存儲(chǔ)。
(1)數(shù)據(jù)收集:①研究人員需檢索是否存在與項(xiàng)目相關(guān)的數(shù)據(jù),確認(rèn)它們是否可以在項(xiàng)目中重用以及重用的方法;②項(xiàng)目數(shù)據(jù)的創(chuàng)建和收集,研究人員需明確產(chǎn)生數(shù)據(jù)的類(lèi)型、格式,進(jìn)而確定數(shù)據(jù)創(chuàng)建、收集的方法并選擇合適的數(shù)據(jù)收集工具。
(2)數(shù)據(jù)組織:①文件命名。研究人員需對(duì)研究項(xiàng)目中產(chǎn)生的大量數(shù)據(jù)和文件進(jìn)行組織,如果數(shù)據(jù)和文件組織不規(guī)范,隨著時(shí)間的推移,數(shù)據(jù)將變得混亂無(wú)序、難以掌控,因此使用文件層次體系結(jié)構(gòu)、統(tǒng)一規(guī)范命名規(guī)則,可以減少數(shù)據(jù)處理中的錯(cuò)誤。②版本控制。在數(shù)據(jù)分析處理的過(guò)程中,數(shù)據(jù)可能會(huì)有多個(gè)版本,通過(guò)控制文件的版本,可以避免對(duì)過(guò)時(shí)的文件進(jìn)行操作,或者錯(cuò)誤地刪除了最終版本,項(xiàng)目組的所有成員都應(yīng)使用相同的版本。③元數(shù)據(jù)。選擇合適的元數(shù)據(jù)標(biāo)注數(shù)據(jù),可實(shí)現(xiàn)數(shù)據(jù)的檢索,確保數(shù)據(jù)在現(xiàn)在和未來(lái)都可理解,并在無(wú)需瀏覽所有數(shù)據(jù)集的情況下,能夠正確解讀數(shù)據(jù)的背景信息。但需注意的是,不同的數(shù)據(jù)類(lèi)型有不同的元數(shù)據(jù)標(biāo)準(zhǔn),如晶體信息框架(Crystallographic Information Framework,CIF)是專(zhuān)門(mén)針對(duì)晶體信息存檔和傳播過(guò)程結(jié)構(gòu)化和標(biāo)準(zhǔn)化描述的元數(shù)據(jù)標(biāo)準(zhǔn)。
(3)數(shù)據(jù)分析:主要根據(jù)數(shù)據(jù)的類(lèi)型以及預(yù)期結(jié)果選擇合適的工具進(jìn)行分析、處理科研數(shù)據(jù)。
(4)數(shù)據(jù)存儲(chǔ):為避免數(shù)據(jù)的丟失,在一定的時(shí)間間隔應(yīng)對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)和備份,不同項(xiàng)目組對(duì)科研過(guò)程中產(chǎn)生的數(shù)據(jù)有不同的保存途徑和工具,如紙質(zhì)實(shí)驗(yàn)室記錄本、電子實(shí)驗(yàn)室記錄本(Electronic Lab Notebook,ELN)、個(gè)人電腦、課題組電腦、服務(wù)器、U盤(pán)或硬盤(pán)、網(wǎng)絡(luò)數(shù)據(jù)平臺(tái)等。
基于研究人員在項(xiàng)目進(jìn)展中的數(shù)據(jù)管理流程和目前化學(xué)研究人員數(shù)據(jù)管理的現(xiàn)狀,在科研數(shù)據(jù)共享的大背景下,將研究人員可能面臨的數(shù)據(jù)管理問(wèn)題總結(jié)為表1。
表1項(xiàng)目進(jìn)展過(guò)程中化學(xué)研究人員面臨的數(shù)據(jù)管理問(wèn)題
1.2.3項(xiàng)目結(jié)題后的數(shù)據(jù)服務(wù)切入點(diǎn)
化學(xué)科研項(xiàng)目結(jié)題后,研究人員對(duì)原始數(shù)據(jù)的處理有多種方式:(1)對(duì)于無(wú)價(jià)值的數(shù)據(jù),可能不需要繼續(xù)保存,使用后直接刪除;(2)對(duì)于不宜公開(kāi)、需隱私保護(hù)的敏感數(shù)據(jù),如新材料、新藥品研發(fā)的相關(guān)數(shù)據(jù),可能會(huì)選擇自行保存或項(xiàng)目組集中保存。
對(duì)于那些可共享的數(shù)據(jù),目前主要有以下3種發(fā)表形式(見(jiàn)圖2)。
(1)科研數(shù)據(jù)獨(dú)立發(fā)表。數(shù)據(jù)直接共享給專(zhuān)門(mén)的數(shù)據(jù)倉(cāng)儲(chǔ),如將實(shí)驗(yàn)中產(chǎn)生的小分子晶體結(jié)構(gòu)數(shù)據(jù)存儲(chǔ)到劍橋晶體數(shù)據(jù)中心[10](Cambridge Crystallographic Data Centre,CCDC);(2)以數(shù)據(jù)論文(Data Paper)的方式發(fā)表。主要對(duì)科研數(shù)據(jù)進(jìn)行描述,并以論文形式發(fā)表,原始數(shù)據(jù)提交到推薦的數(shù)據(jù)倉(cāng)儲(chǔ)中;(3)科研數(shù)據(jù)依附出版物發(fā)表。作為支撐論文內(nèi)容的材料,主要以?xún)煞N形式存在,一種是論文發(fā)表時(shí)把相關(guān)數(shù)據(jù)提交到數(shù)據(jù)倉(cāng)儲(chǔ)中,通過(guò)數(shù)據(jù)唯一標(biāo)識(shí)符與論文關(guān)聯(lián);另一種是數(shù)據(jù)作為論文的補(bǔ)充材料同論文一并發(fā)表。
將科研數(shù)據(jù)發(fā)表以實(shí)現(xiàn)共享逐漸成為研究人員處理原始數(shù)據(jù)的主流趨勢(shì),很多資助機(jī)構(gòu)相繼提出了數(shù)據(jù)共享要求,但數(shù)據(jù)共享環(huán)境給研究人員提出新的要求同時(shí)也帶來(lái)了很多挑戰(zhàn),主要有:(1)化學(xué)科研數(shù)據(jù)倉(cāng)儲(chǔ)數(shù)量繁多、質(zhì)量參差不齊,給研究人員對(duì)權(quán)威倉(cāng)儲(chǔ)的選擇增加了難度[11];(2)化學(xué)數(shù)據(jù)類(lèi)型多樣,而數(shù)據(jù)倉(cāng)儲(chǔ)對(duì)數(shù)據(jù)格式的要求又沒(méi)有統(tǒng)一的標(biāo)準(zhǔn),給研究人員增加了科研壓力;(3)目前化學(xué)領(lǐng)域已有3個(gè)數(shù)據(jù)期刊(Journal of Chemical and Engineering Data[12],Journal of Physical and Chemical Research Data[13],JournalofPhysical and Chemical Reference Data[14])。數(shù)據(jù)期刊屬于新型的科研成果出版形式,研究人員對(duì)其較為陌生;(4)化學(xué)學(xué)術(shù)期刊數(shù)據(jù)政策復(fù)雜,難以把握,而且化學(xué)是一門(mén)交叉性很強(qiáng)的學(xué)科,期刊數(shù)據(jù)要求涉及多種學(xué)科,如美國(guó)化學(xué)學(xué)會(huì)(American ChemicalSociety,ACS)出版的49種期刊,每一種期刊的數(shù)據(jù)政策都不相同,而且要求存儲(chǔ)的數(shù)據(jù)與生物科學(xué)、材料科學(xué)、物理科學(xué)等多種學(xué)科交叉[15],研究人員在發(fā)表學(xué)術(shù)論文時(shí),必須清晰梳理期刊的數(shù)據(jù)要求。
基于上述化學(xué)領(lǐng)域研究人員在科研項(xiàng)目中面臨的科研數(shù)據(jù)管理問(wèn)題,筆者從嵌入科研工作流的角度提出針對(duì)每一階段問(wèn)題的數(shù)據(jù)管理服務(wù),并從服務(wù)形式、服務(wù)內(nèi)容、服務(wù)時(shí)間、服務(wù)途徑、支持服務(wù)的工具和資源、嵌入機(jī)制、收集用戶(hù)反饋的途徑等7個(gè)方面對(duì)每一種服務(wù)進(jìn)行細(xì)化,形成具體的服務(wù)模式。
2.1項(xiàng)目啟動(dòng)前的數(shù)據(jù)服務(wù)模式
良好的數(shù)據(jù)管理計(jì)劃有助于推動(dòng)科研項(xiàng)目的有序開(kāi)展,無(wú)論從政策上還是在實(shí)際科研過(guò)程中都需要研究人員撰寫(xiě)一份高質(zhì)量的數(shù)據(jù)管理計(jì)劃。項(xiàng)目啟動(dòng)之前,圖書(shū)館可以利用自身優(yōu)勢(shì)通過(guò)數(shù)據(jù)素養(yǎng)教育、咨詢(xún)、資源推送、計(jì)劃資源導(dǎo)航協(xié)助他們制定數(shù)據(jù)管理計(jì)劃。服務(wù)的內(nèi)容包括介紹數(shù)據(jù)管理計(jì)劃政策、提供數(shù)據(jù)管理計(jì)劃指南、提供數(shù)據(jù)管理計(jì)劃要素、提供數(shù)據(jù)管理計(jì)劃模板(如美國(guó)麻州大學(xué)醫(yī)學(xué)院的化學(xué)數(shù)據(jù)管理計(jì)劃模板)、介紹數(shù)據(jù)管理計(jì)劃工具(目前常用的數(shù)據(jù)管理計(jì)劃工具有加利福尼亞數(shù)字圖書(shū)館等開(kāi)發(fā)的DMPonline[16]和英國(guó)DCC開(kāi)發(fā)的DMPTool[17])等,具體服務(wù)模式見(jiàn)表2。
表2化學(xué)科研數(shù)據(jù)管理計(jì)劃服務(wù)模式
2.2項(xiàng)目進(jìn)展中的數(shù)據(jù)服務(wù)模式
項(xiàng)目實(shí)施過(guò)程是數(shù)據(jù)產(chǎn)生的主要階段,也是數(shù)據(jù)管理活動(dòng)比較重要和復(fù)雜的一環(huán),數(shù)據(jù)收集、數(shù)據(jù)組織、數(shù)據(jù)分析、數(shù)據(jù)存儲(chǔ)(指短期存儲(chǔ))中的任何一個(gè)環(huán)節(jié)都會(huì)影響項(xiàng)目數(shù)據(jù)的質(zhì)量和最終科研成果及科研數(shù)據(jù)的發(fā)表?;诒?項(xiàng)目進(jìn)展過(guò)程中化學(xué)研究人員面臨的數(shù)據(jù)管理問(wèn)題,圖書(shū)館可提供與項(xiàng)目啟動(dòng)前階段相同的4種服務(wù),只是在服務(wù)內(nèi)容上稍有差異,包括化學(xué)領(lǐng)域文件命名規(guī)則、命名方法和工具(如Bulk Rename Utility (Windows)[18]、Renamer (Mac)[19]、PSRenamer[20]),數(shù)據(jù)文件版本控制方法、工具/系統(tǒng)(如CVS[21]、Subversion[22]、Bazaar[23]),與項(xiàng)目數(shù)據(jù)相關(guān)的元數(shù)據(jù)、創(chuàng)建元數(shù)據(jù)的方法和工具(如Morpho[24]、Dataup[25]),化學(xué)科研數(shù)據(jù)分析方法和工具,數(shù)據(jù)備份方法、工具和系統(tǒng)(如Smart-Copy)。除此之外,圖書(shū)館還可以開(kāi)展化學(xué)科研數(shù)據(jù)發(fā)現(xiàn)、檢索與獲取和化學(xué)科研數(shù)據(jù)階段性存儲(chǔ)兩類(lèi)服務(wù)。
2.2.1化學(xué)科研數(shù)據(jù)發(fā)現(xiàn)、檢索與獲取服務(wù)
研究人員在開(kāi)展一個(gè)項(xiàng)目時(shí),首先需檢索是否存在與項(xiàng)目相關(guān)的數(shù)據(jù),如果有相關(guān)數(shù)據(jù),需明確這些數(shù)據(jù)是否可以在項(xiàng)目中重用、如何重用、有哪些需要注意的知識(shí)產(chǎn)權(quán)問(wèn)題。文獻(xiàn)信息檢索是圖書(shū)館的優(yōu)勢(shì),學(xué)科館員可以通過(guò)通用搜索引擎、學(xué)科數(shù)據(jù)搜索引擎、學(xué)科數(shù)據(jù)倉(cāng)儲(chǔ)等多種方式開(kāi)展化學(xué)科研數(shù)據(jù)的發(fā)現(xiàn)、檢索與獲取服務(wù),幫助用戶(hù)解決科研數(shù)據(jù)獲取的問(wèn)題,具體服務(wù)模式見(jiàn)表3。
表3化學(xué)科研數(shù)據(jù)發(fā)現(xiàn)、檢索與獲取服務(wù)模式
2.2.2化學(xué)科研數(shù)據(jù)階段型存儲(chǔ)服務(wù)
對(duì)產(chǎn)生的數(shù)據(jù)進(jìn)行實(shí)時(shí)處理和保存,可避免在項(xiàng)目執(zhí)行過(guò)程中數(shù)據(jù)的丟失,有利于科研數(shù)據(jù)最終的發(fā)表和共享。比如,美國(guó)康奈爾大學(xué)圖書(shū)館面向該校研究人員,以機(jī)構(gòu)庫(kù)為基礎(chǔ),建立了數(shù)據(jù)階段型存儲(chǔ)庫(kù)(Data Staging Repository,DataStaR[30])。作為學(xué)術(shù)界數(shù)據(jù)共享的一個(gè)暫時(shí)的、過(guò)渡性的存儲(chǔ)節(jié)點(diǎn),DataStaR擁有可產(chǎn)生多種格式的高質(zhì)量元數(shù)據(jù)的工具,由圖書(shū)館員負(fù)責(zé)操作,通過(guò)協(xié)助研究人員完善數(shù)據(jù)和元數(shù)據(jù)來(lái)促進(jìn)共享,最終積極幫助他們向各自領(lǐng)域的學(xué)科數(shù)據(jù)倉(cāng)儲(chǔ)發(fā)布數(shù)據(jù)成果,以供長(zhǎng)期使用和保存[31]。我國(guó)圖書(shū)館可以借鑒國(guó)外圖書(shū)館建設(shè)相關(guān)機(jī)構(gòu)科研數(shù)據(jù)倉(cāng)儲(chǔ)的理念及其服務(wù)方式,對(duì)科研數(shù)據(jù)進(jìn)行實(shí)時(shí)跟蹤和處理?;瘜W(xué)科研數(shù)據(jù)階段型存儲(chǔ)服務(wù)的模式見(jiàn)表4。
2.3項(xiàng)目結(jié)題后的數(shù)據(jù)服務(wù)模式
數(shù)據(jù)倉(cāng)儲(chǔ)的選擇、數(shù)據(jù)期刊/學(xué)術(shù)期刊復(fù)雜的數(shù)據(jù)要求等成為化學(xué)研究人員數(shù)據(jù)發(fā)表中必然面對(duì)的問(wèn)題。目前國(guó)外已有一些圖書(shū)館提供機(jī)構(gòu)知識(shí)庫(kù),使用戶(hù)可以發(fā)表、保存數(shù)據(jù)集,或幫助研究人員識(shí)別針對(duì)特定資助、學(xué)科、領(lǐng)域的數(shù)據(jù)倉(cāng)儲(chǔ)。比如,麻省理工學(xué)院圖書(shū)館在圖書(shū)館網(wǎng)站上鏈接了社會(huì)科學(xué)、經(jīng)濟(jì)學(xué)等學(xué)科的一些期刊的數(shù)據(jù)要求,并給用戶(hù)提供可存儲(chǔ)數(shù)據(jù)的倉(cāng)儲(chǔ)及查找其他倉(cāng)儲(chǔ)的方法,以幫助研究人員共享科研數(shù)據(jù)[32]。針對(duì)研究人員數(shù)據(jù)發(fā)表的3種主要方式及其挑戰(zhàn),圖書(shū)館可通過(guò)化學(xué)科研數(shù)據(jù)素養(yǎng)教育服務(wù)、數(shù)據(jù)發(fā)表咨詢(xún)服務(wù)、數(shù)據(jù)倉(cāng)儲(chǔ)推送服務(wù)、數(shù)據(jù)發(fā)表資源導(dǎo)航服務(wù)、提供機(jī)構(gòu)數(shù)據(jù)知識(shí)庫(kù)等5種服務(wù)方式幫助化學(xué)科研人員更好地共享科研數(shù)據(jù)。具體服務(wù)模式見(jiàn)表5。
表4化學(xué)科研數(shù)據(jù)階段型存儲(chǔ)服務(wù)模式
表5化學(xué)科研數(shù)據(jù)發(fā)表服務(wù)模式
本文將化學(xué)研究人員在項(xiàng)目啟動(dòng)前、項(xiàng)目進(jìn)展中、項(xiàng)目結(jié)題后面臨的數(shù)據(jù)管理問(wèn)題作為圖書(shū)館服務(wù)的切入點(diǎn),從圖書(shū)館嵌入科研工作流的角度設(shè)計(jì)了化學(xué)科研數(shù)據(jù)管理服務(wù)模式,強(qiáng)調(diào)化學(xué)學(xué)科館員需嵌入研究人員的科研環(huán)境,擴(kuò)大整體研究工作流管理的視野,而不能僅僅關(guān)注數(shù)據(jù)集、科研論文、學(xué)術(shù)報(bào)告等最終學(xué)術(shù)成果。只有從整體層面理解科研工作流,才能確定整個(gè)數(shù)據(jù)管理生命周期的科研數(shù)據(jù)、記錄和產(chǎn)出流,找到參與化學(xué)科研過(guò)程管理的最佳切入點(diǎn),對(duì)我國(guó)圖書(shū)館開(kāi)展科研數(shù)據(jù)管理服務(wù)有很大的啟示和借鑒意義。本文僅是服務(wù)的設(shè)計(jì),目前,開(kāi)展具體服務(wù)時(shí)還需注意以下3點(diǎn):(1)目前很多圖書(shū)館開(kāi)展了科研數(shù)據(jù)管理服務(wù)并取得了一定的進(jìn)展,但圖書(shū)館提供的數(shù)據(jù)管理服務(wù)要緊密結(jié)合科研項(xiàng)目的具體特點(diǎn),而不能采用一刀切的辦法;(2)本文得出的化學(xué)研究人員在科研工作流中遇到的數(shù)據(jù)管理問(wèn)題僅僅是結(jié)合國(guó)內(nèi)外科研數(shù)據(jù)管理的經(jīng)驗(yàn),難免會(huì)忽略一些在實(shí)際科研研究過(guò)程中才能遇到的問(wèn)題,因此需要學(xué)科館員在實(shí)踐中不斷發(fā)現(xiàn)問(wèn)題并進(jìn)行修正和增添服務(wù)內(nèi)容;(3)圖書(shū)館在開(kāi)展服務(wù)時(shí)可以借助Web2.0下的新技術(shù),如圖書(shū)館微博、博客及社交網(wǎng)絡(luò)(SNS,如豆瓣)等來(lái)實(shí)時(shí)更新圖書(shū)館科研數(shù)據(jù)管理服務(wù)進(jìn)展情況,讓更多人了解到該服務(wù)的存在,并獲取更多人群的反饋意見(jiàn)。
參考文獻(xiàn)
[1] University of BATH. Research Data[EB/OL].[2015-08- 22].http://www.bath.ac.uk/research/data/.
[2] University of Virginia library. Research Data Service [EB/OL]. [2015- 08- 22]. http://data.library.virginia. edu/data- management/.
[3] Wang M. L. Supportingthe research processthrough expandedlibrarydataservices[J]. Program,2013,47(3):282- 303.
[4] Gold A K. Cyber infrastructure,data,and libraries,part 2:Libraries and th e data challenge:Roles and actions for libraries[J]. Office of the Dean(Library),2007,13(9/10).
[5]肖瀟,呂俊生.圖書(shū)館嵌入式學(xué)科化科學(xué)數(shù)據(jù)服務(wù)研究[J].圖書(shū)館學(xué)研究,2012(21):85- 89,73.
[6] Atkinson M,De Roure D,van Hemert J,et al. Shaping ramps for data- intensive research [Z]. Paper presented at the UK eScience All Hands Meeting,CardiffCityHall,2010.
[7] Lyon L,Brenner A. Bridging the Data Talent Gap:Positioning the iSchool as an Agent for Change [J]. International Journal of Digital Curation,2015,10 (1):111- 122.
[8] CEOS Data Life Cycle Models and Concepts[M].[S.l.]:[s.n.],2011:11.
[9] Directorate of Mathematical and Physical Sciences DivisionofChemistry(CHE). Advice to PIs on Data Management Plans[EB/OL]. [2015- 08- 26]. http:// www.nsf.gov/bfa/dias/policy/dmpdocs/che.pdf.
[10] Cambridge CrystallographicDataCentre[EB/OL].[2015-08- 27].http://www.ccdc.cam.ac.uk/pages/Home.aspx.
[11]陳秀娟,吳鳴.學(xué)科領(lǐng)域科研數(shù)據(jù)知識(shí)庫(kù)調(diào)研與分析——以化學(xué)領(lǐng)域?yàn)槔齕J].圖書(shū)情報(bào)工作,2015,59 (9):111- 118,147.
[12] Journal of Chemical and Engineering Data [EB/OL]. [2015- 08- 27].http://pubs.acs.org/journal/jceaax.
[13] Journal of Physical and Chemical Research Data[EB/ OL]. [2015- 08- 27]. http://scitation.aip.org/content/ aip/journal/jpcrd/browse.
[14] Journal of Physical and Chemical Reference Data[EB/ OL]. [2015- 08- 27]. http://scitation.aip.org/content/ aip/journal/jpcrd;jsessionid=g8g8oas2ki4n1.x- aip- live - 02.
[15]陳秀娟,吳鳴.學(xué)科領(lǐng)域期刊科研數(shù)據(jù)發(fā)表政策剖析——以美國(guó)化學(xué)學(xué)會(huì)期刊為例[J].中國(guó)科技期刊研究,2015,26(8):800- 807.
[16] DMPonline[EB/OL].[2015- 09- 10]. https://dmponline.dcc.ac.uk/.
[17] DMPTool[EB/OL].[2015- 09- 10]. https://dmptool. org/.
[18] Bulk Rename Utility[EB/OL].[2015- 09- 10]. http:// www.bulkrenameutility.co.uk/Main_Intro.php.
[19] Renamer[EB/OL].[2015- 09- 10].http://renamer.com/.
[20] PSRenamer [EB/OL]. [2015- 09- 10]. http://www. powersurgepub.com/products/psrenamer/index.html.
[21] CVS[EB/OL].[2015- 09- 10].http://www.cvshome.org/.
[22] Subversion[EB/OL].[2015- 09- 10]. https://subversion. apache.org/.
[23] Bazaar[EB/OL].[2015- 09- 10]. http://bazaar.canonical. com/en/.
[24] Morpho[EB/OL].[2015- 09- 10]. https://knb.ecoinformatics.org/#tools/morpho.
[25] Dataup [EB/OL]. [2015- 09- 10]. http://dataup.cdlib. org/.
[26] BASE [EB/OL]. [2015- 09- 10]. http://www.basesearch.net/.
[27] Web of science. Data Citation Index[EB/OL].[2015-09- 10]. http://wokinfo.com/products_tools/multidisciplinary/dci/.
[28] ChemSpider[EB/OL].[2015- 09- 10]. http://www. chemspider.com/.
[29] PubChem[EB/OL].[2015- 09- 10]. https://pubchem. ncbi.nlm.nih.gov/search/.
[30] Datastar[EB/OL].[2015- 09- 10]. http://datastar.mannlib.cornell.edu/.
[31]楊鶴林.從數(shù)據(jù)監(jiān)護(hù)看美國(guó)高校圖書(shū)館的機(jī)構(gòu)庫(kù)建設(shè)新思路——來(lái)自DataStaR的啟示[J].大學(xué)圖書(shū)館學(xué)報(bào),2012(2):23- 28,,73.
[32] MIT Library.Data management[EB/OL].[2015- 09- 10]. http://libraries.mit.edu/data- management/.
收稿日期2015- 09- 29
作者簡(jiǎn)介陳秀娟,女,碩士,中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心學(xué)生;吳鳴,女,碩士,研究館員,學(xué)科咨詢(xún)服務(wù)部主任;胡卉,女,碩士,中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心學(xué)生。