• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      國際Data Curation研究與實踐發(fā)展綜述

      2016-02-13 00:33:33吳振新陳瑤李文燕付鴻鵠許麗媛中國科學(xué)院文獻情報中心中國科學(xué)院大學(xué)
      圖書館理論與實踐 2016年2期
      關(guān)鍵詞:保管綜述

      吳振新,陳瑤,2,李文燕,2,付鴻鵠,許麗媛(.中國科學(xué)院文獻情報中心;2.中國科學(xué)院大學(xué))

      ?

      國際Data Curation研究與實踐發(fā)展綜述

      吳振新1,陳瑤1,2,李文燕1,2,付鴻鵠1,許麗媛1
      (1.中國科學(xué)院文獻情報中心;2.中國科學(xué)院大學(xué))

      摘要:通過調(diào)研國際主要機構(gòu)的戰(zhàn)略規(guī)劃,歸納出Data Curation在管理、資源建設(shè)、技術(shù)基礎(chǔ)設(shè)施方面存在的主要挑戰(zhàn)。針對這些挑戰(zhàn),從戰(zhàn)略規(guī)劃、數(shù)據(jù)評估與遴選政策、關(guān)鍵技術(shù)、審計和認證四個方面全面回顧了國際Data Curation研究、實踐的發(fā)展情況。并分析圖書館在大數(shù)據(jù)科研環(huán)境下可能參與科研數(shù)據(jù)保管的領(lǐng)域,為圖書館在Data Curation活動中謀求發(fā)展機會。

      關(guān)鍵詞:科研數(shù)據(jù);研究數(shù)據(jù);保管;保存;綜述

      信息技術(shù)的發(fā)展引起了數(shù)據(jù)和信息容量的爆炸,也催生了新的科學(xué)研究模式——e-Science的發(fā)展,Jim Gray博士將這種新的數(shù)據(jù)探索型研究方式稱為科學(xué)研究的“第四種范式”(The Fourth Paradigm),這標(biāo)志著科學(xué)研究從以計算為中心轉(zhuǎn)變到以數(shù)據(jù)為中心,數(shù)據(jù)成為科研的靈魂。

      Data Curation常被譯為數(shù)據(jù)保管、數(shù)據(jù)保存等,這里的Data主要是指科研數(shù)據(jù)。業(yè)內(nèi)有很多有關(guān)Data Curation的定義,比較有代表性的是英國數(shù)字保管中心(Digital Curation Centre,以下簡稱DCC)的定義:“Data Curation指的是在數(shù)字?jǐn)?shù)據(jù)的生命周期內(nèi),對這些數(shù)據(jù)進行維護、保存以及實現(xiàn)價值增值的所有活動,這些活動能夠提高現(xiàn)有數(shù)據(jù)的長期利用價值;主動管理這些數(shù)據(jù)有利于減少在重新研究這些數(shù)據(jù)時出現(xiàn)的各種威脅以及降低因數(shù)字技術(shù)的退化而帶來的各種風(fēng)險;同時,Data Curation所進行的一些列活動還能使在可信賴倉儲庫中保管的數(shù)據(jù)能夠更廣泛地共享給研究機構(gòu),以便支撐未來的研究活動?!保?]Data Curation是e-Science環(huán)境下科研數(shù)據(jù)共享和大規(guī)??茖W(xué)計算的產(chǎn)物,是應(yīng)對“大數(shù)據(jù)”時代科研數(shù)據(jù)管理和保存需求的一種必然的管理實踐。

      1 Data Curation面臨的挑戰(zhàn)分析

      隨著科研數(shù)據(jù)規(guī)模的擴大和數(shù)據(jù)種類的不斷增加,傳統(tǒng)的數(shù)據(jù)保存方法已無法滿足需求,雖然越來越多的機構(gòu)不同程度的涉足Data Curation,但作為一個新興研究領(lǐng)域,Data Curation依舊面臨著許多問題及挑戰(zhàn)。美國國家數(shù)字管理聯(lián)盟(National Digital Stewardship Alliance,以下簡稱NDSA)在其2015年日程中將目前在數(shù)據(jù)管理領(lǐng)域遇到的問題及挑戰(zhàn)歸納為以下幾點:①建設(shè)數(shù)字內(nèi)容集合的關(guān)鍵問題,包括數(shù)字內(nèi)容的全局性問題、大規(guī)模內(nèi)容選擇的方法、特殊格式數(shù)字內(nèi)容的挑戰(zhàn);②缺乏支持保存活動的資源導(dǎo)致對于成本、價值的研究需求增強;③缺乏足夠的數(shù)字管理人員;④技術(shù)基礎(chǔ)設(shè)施的發(fā)展方面,包括協(xié)調(diào)分布式服務(wù)生態(tài)系統(tǒng)亟待發(fā)展、制定文件格式行動方案、內(nèi)容完整性的保障等。[2]

      UK Data Archive在其2010~2015年戰(zhàn)略規(guī)劃中將Data Curation面臨的挑戰(zhàn)歸納為:①建立和頒發(fā)存儲認證;②保證多來源的資助、與用戶的期望和技術(shù)要求同步并推進合作發(fā)展;③建立更有效的管理結(jié)構(gòu)和內(nèi)部記錄管理系統(tǒng);④開發(fā)有效的數(shù)據(jù)(集合)選擇、采集、攝入和保存的工具,提高數(shù)據(jù)質(zhì)量和數(shù)據(jù)包的有效性,發(fā)展自存檔;⑤開發(fā)新的數(shù)據(jù)訪問模式、分發(fā)和可視化工具,重構(gòu)數(shù)據(jù)注冊和許可系統(tǒng),整合相關(guān)數(shù)據(jù)服務(wù)。[3]

      DCC則將未來數(shù)十年Data Curation將遇到的挑戰(zhàn)歸納為以下幾方面:①數(shù)據(jù)管理軟件的發(fā)展;②數(shù)據(jù)管理計劃中審核承諾的一致性;③有限期的數(shù)據(jù)保存策略的影響(管理評估);④明確應(yīng)保存的數(shù)據(jù)資源;⑤數(shù)據(jù)的知識產(chǎn)權(quán);⑥理解真正語義上的長期保存。[4]

      可以看出,未來一段時間內(nèi)的Data Curation所遇到的挑戰(zhàn)和問題集中在以下幾個方面:管理方面主要集中在戰(zhàn)略規(guī)劃、成本研究、人員與培訓(xùn)教育、知識產(chǎn)權(quán)、審計與認證等方面;資源建設(shè)方面主要集中在大規(guī)模的數(shù)據(jù)選擇與特殊格式的資源保存;技術(shù)基礎(chǔ)設(shè)施建設(shè)主要集中在數(shù)據(jù)組織、格式管理、數(shù)據(jù)的質(zhì)量保障(完整性保障)、保存系統(tǒng)(工具)及體系架構(gòu)的發(fā)展等方面。

      2 Data Curation研究與實踐發(fā)展

      近年來,許多機構(gòu)、項目在Data Curation領(lǐng)域展開了大量深入的研究與實踐。本文基于上述有關(guān)Data Curation面臨的挑戰(zhàn),初步總結(jié)和分析各機構(gòu)和項目為應(yīng)對這些挑戰(zhàn)所開展的相關(guān)研究和實踐活動。由于研究領(lǐng)域所限,本文沒有涉及教育培訓(xùn)和知識產(chǎn)權(quán)方面的研究。

      2.1戰(zhàn)略及規(guī)劃

      戰(zhàn)略及規(guī)劃的制定是開展Data Curation首先要解決的重要問題,這些戰(zhàn)略規(guī)劃包括政策規(guī)劃、可持續(xù)發(fā)展戰(zhàn)略、合作戰(zhàn)略等方面。目前,國際上對Data Curation在全局政策規(guī)劃、合作戰(zhàn)略的研究比較成熟,出現(xiàn)了一些具有實踐參考價值的戰(zhàn)略框架、解決方案以及工具,但可持續(xù)發(fā)展戰(zhàn)略的研究還處于起始階段,僅在成本研究上出現(xiàn)了少數(shù)研究成果,還不足以支持保存實踐活動。

      (1)Data Curation政策規(guī)劃。在政策規(guī)劃方面,DCC提供了大量參考資料和行動指南,并提供了一個有關(guān)制定研究數(shù)據(jù)管理策略的方案,[5]它包括五個步驟:①列出現(xiàn)有的管理框架;②制定一張管理內(nèi)容的表格;③獲得管理者的支持;④咨詢、起草及修改;⑤批準(zhǔn)與實施。

      MaRDI-Gross項目也給出了在“大科學(xué)”背景下制定數(shù)字管理規(guī)劃(Digital Management Plan,以下簡稱DMP)的解決方案,[6]它從制定保存目標(biāo)、數(shù)據(jù)發(fā)布計劃、數(shù)據(jù)驗證、軟件及服務(wù)的保存、成本及成本模型、數(shù)據(jù)丟失模型化六個方面來制定DMP的實踐流程框架。

      目前,已有成型的Data Curation規(guī)劃制定工具可供使用,包括DCC開發(fā)的DMPonline、UC3開發(fā)的DMPtool、IDMP開發(fā)的CARDIO、SCAPE開發(fā)的Plato以及OpenDOAR。

      (2)合作戰(zhàn)略規(guī)劃。數(shù)據(jù)體量的指數(shù)增長和數(shù)據(jù)類型不斷的復(fù)雜化,給Data Curation帶來了越來越嚴(yán)峻的挑戰(zhàn),為解決Data Curation面臨的問題和減輕保存風(fēng)險,跨領(lǐng)域的合作行動計劃的需求不斷增加。

      DCU(Digital Curation Unit)通過推動跨學(xué)科合作研究規(guī)劃和行動計劃來幫助解決Data Curation問題,它提出了一個包含六方面的行動計劃。[7]①用生命周期的方法來管理保管信息對象,其中,應(yīng)包含與指定社團的動態(tài)互動;②采用以事件為中心的方法,充分表示數(shù)據(jù)的“活動事件”;③廣義上的Data Curation實踐者應(yīng)包括那些參與生成信息對象的公共傳播及利用的相關(guān)人員;④確定一個基本的跨學(xué)科范圍,使Data Curation能充分滿足學(xué)科差異化需求;⑤使信息對象的相關(guān)解釋性內(nèi)容作為社區(qū)的數(shù)字記憶,并進行模擬存檔;⑥提倡面向機構(gòu)的方式來保管。

      隨著合作政策的發(fā)展,一系列有效的合作實踐在數(shù)字保管的各個方面都產(chǎn)生了積極的影響,如,促進開源軟件開發(fā)的協(xié)作、人員和資源信息的共享、參與標(biāo)準(zhǔn)和實踐的開發(fā)、協(xié)調(diào)數(shù)字保管責(zé)任、開發(fā)協(xié)作的遴選決策和數(shù)字集合政策等。在這方面表現(xiàn)突出的有國際互聯(lián)網(wǎng)保存聯(lián)盟(International Internet Preservation Consortium,IIPC),其成員合作開發(fā)了一系列開源工具,并支持可持續(xù)的共享維護模型。

      同時,有關(guān)的合作組織機構(gòu)不斷增加,如,全球CLOCKSS網(wǎng)絡(luò),它通過分散的、地理間不同的保存模式來確保組織內(nèi)共同的數(shù)字資產(chǎn)得以完整地保存;Data—PASS是一個自愿的機構(gòu)組織同盟,目的是為了存檔、編目、保存社會科學(xué)研究使用到的數(shù)據(jù);MetaArchive是由眾多的記憶機構(gòu)組織和創(chuàng)建的數(shù)字保存網(wǎng)絡(luò),同時,也是一個安全且具有成本效益的倉儲;DPN(The Digital Preservation Network)長期保存網(wǎng)絡(luò)通過在不同的節(jié)點上保存數(shù)據(jù)集的副本來防止由于技術(shù)、組織或自然災(zāi)害等原因而導(dǎo)致的災(zāi)難性損失。這些組織和他們所示范的多機構(gòu)管理方法在使用和社會認可度方面均顯著增加。

      (3)可持續(xù)發(fā)展規(guī)劃。完成數(shù)字管理任務(wù)需要適當(dāng)?shù)馁Y源來支持,但不可能有足夠的資源來支持存儲機構(gòu)保存所有的數(shù)據(jù),如何有效地對保管成本進行預(yù)算、管理及分配以及如何獲得所需的資源已經(jīng)成為可持續(xù)發(fā)展的重要問題。但由于Data Curation本身的復(fù)雜性及涉及多方利益,數(shù)字管理成本估計比較復(fù)雜和模糊,目前幾乎沒有模型能支持成本估算的比較數(shù)據(jù)或縱向數(shù)據(jù)。

      4C(Collaboration to Clarify the Costs of Curation)是歐盟資助的主要致力解決保存費用問題的項目,他們分析了現(xiàn)有的10種成本模型及工具,并對每一種模型進行了分析及評價,通過分析已有的數(shù)字保存成本建模工作,提出了建立可持續(xù)性數(shù)字保存和獲取的最佳實踐建議。目前,4C提供了一個包括嘗試解決效益、風(fēng)險、價值、質(zhì)量和可持續(xù)性的成本模型工具和框架,并初步制定了一個經(jīng)濟可持續(xù)性參考模型,開發(fā)了一個保管成本交換平臺工具—CCEx。

      POWRR項目則是利用有限資源進行數(shù)字對象長期保存研究的重要項目。它旨在幫助那些因缺少資源而難以開展數(shù)字保管的中小型機構(gòu)。該項目正在評估能夠在中小機構(gòu)中實現(xiàn)數(shù)字長期保存的工具和服務(wù),以期提供有效的解決方案。

      這些項目的成果將有助于厘清成本以及輔助決策和戰(zhàn)略規(guī)劃的制定,反過來也可以促進數(shù)字保存的長期管理和發(fā)展可持續(xù)的基礎(chǔ)設(shè)施建設(shè)。

      2.2數(shù)據(jù)評估與遴選政策

      數(shù)字?jǐn)?shù)據(jù)的特征使得對它的收集變得異常復(fù)雜并因此在保存方面也變得復(fù)雜。數(shù)據(jù)規(guī)模一直在擴大,數(shù)據(jù)的粒度和互聯(lián)性也變得更加繁雜。傳統(tǒng)的資源評估和遴選通常會基于機構(gòu)自身的優(yōu)先級、能力和指導(dǎo)政策,而數(shù)字?jǐn)?shù)據(jù)則有其特殊性,使得相應(yīng)的數(shù)據(jù)評估和遴選政策也更加復(fù)雜化。

      NDSA提出了一系列有關(guān)數(shù)據(jù)評估和選擇的推薦做法,包括數(shù)據(jù)相關(guān)性、文檔、資金、研究和應(yīng)用的需求、可用性、風(fēng)險和易用性等方面,這將有助于機構(gòu)啟動涉及整個信息生命周期的數(shù)字管理計劃。

      DCC提出了一個選擇及評估保管數(shù)據(jù)的方案,[8]即通過一個弱分析框架來輔助決定需要保管的數(shù)據(jù),其中要考慮的因素包括:①難以評估未來重用價值的數(shù)據(jù);②學(xué)科形成前的數(shù)據(jù);③數(shù)據(jù)及相關(guān)文檔的質(zhì)量;④不可替代的觀測性數(shù)據(jù)(與實驗數(shù)據(jù)相對);⑤重新生成實驗數(shù)據(jù)的成本;⑥估算保存具體數(shù)據(jù)集的成本。

      NERC(Natural Environment Research Council)于2012年發(fā)布了數(shù)據(jù)權(quán)重清單(NERC Data Value Checklist),以便科研社區(qū)選擇需要保存的數(shù)據(jù)。

      研究實踐表明,目前滲透到生活、文化及學(xué)術(shù)各方面的大量數(shù)字?jǐn)?shù)據(jù)還無法被圖書館或檔案館獲取,因此,在遴選政策中應(yīng)優(yōu)先收集這樣的原生數(shù)字材料,同時應(yīng)積極獲取特殊的原生數(shù)字材料(如網(wǎng)絡(luò)檔案、數(shù)字記錄、文檔及手稿檔案的硬盤等),另外對數(shù)字材料的選擇經(jīng)常與機構(gòu)的實力和使命相關(guān)。

      2.3Data Curation的關(guān)鍵技術(shù)發(fā)展概述

      (1)元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范的制定和形成。元數(shù)據(jù)一直是Data Curation關(guān)注的重要領(lǐng)域。許多著名的機構(gòu)和項目都推出了自身的元數(shù)據(jù)標(biāo)準(zhǔn)或推薦規(guī)范。NDSA的“數(shù)字保存級別”定義的四個級別包含了Data Curation流程中的不同元數(shù)據(jù),分別是記錄型、管理型、描述型、結(jié)構(gòu)型、技術(shù)型元數(shù)據(jù)以及保存元數(shù)據(jù)。DCC發(fā)布的關(guān)于學(xué)科元數(shù)據(jù)標(biāo)準(zhǔn)的相關(guān)信息(元數(shù)據(jù)的概念、使用群體和使用方法)引起了研究數(shù)據(jù)管理(Research Data Management,RDM)社區(qū)的極大關(guān)注,隨后專門創(chuàng)建了學(xué)科元數(shù)據(jù)網(wǎng)頁[9]以幫助那些需要確定采用哪種元數(shù)據(jù)標(biāo)準(zhǔn)滿足自己需求的用戶。

      韋恩州立大學(xué)提出了用于文物數(shù)字保存的語境元數(shù)據(jù)框架,這個框架由八個語境維度組成,并對需要捕捉的信息類型進行了識別,該框架可確保在一個元數(shù)據(jù)方案中記錄充足的語境信息,從而為將來的搜索、檢查、利用、管理和保存活動提供極大的便利。Research Data @ Essex以IDMB項目的一個元數(shù)據(jù)模型為出發(fā)點,建立了一個三層元數(shù)據(jù)模型。2013年4月,英國公布了一個用于該國存儲庫的元數(shù)據(jù)應(yīng)用綱要和指導(dǎo)原則(RIOXX)。

      美國聲音記錄元數(shù)據(jù)方案開發(fā)項目為其記錄的音樂制定了一個用于收集和管理元數(shù)據(jù)的標(biāo)準(zhǔn)方法并開發(fā)了一個工具(Content Creator Data Tool,CCD)來幫助數(shù)據(jù)產(chǎn)生者及擁有者收集數(shù)據(jù)。

      (2)文件格式的識別、選擇與轉(zhuǎn)換。數(shù)字文件格式的穩(wěn)定性和文件格式過時的風(fēng)險是數(shù)字管理機構(gòu)的重大挑戰(zhàn),特別是在大數(shù)據(jù)科研環(huán)境下,如何選擇一種好的數(shù)據(jù)格式來保管數(shù)據(jù)是一項有挑戰(zhàn)性、前瞻性的任務(wù)。面對正在積累大量的數(shù)字集,切實可行的、用于監(jiān)測和挖掘機構(gòu)所管理的異質(zhì)原生數(shù)字文檔的信息的策略和手段尤為重要。

      歐洲聚變發(fā)展協(xié)議(European Fusion DevelopmentAgreement,EFDA)為了防止文件格式過時,在Data Curation實踐中對如何選擇文件格式提出了明確的解決方案,[10]即保管機構(gòu)應(yīng)該保存所有使用到的文件格式的核心信息并記錄這些文件格式用到了哪些數(shù)據(jù)上,且這些核心信息應(yīng)該經(jīng)常更新;當(dāng)選擇一種格式用于Data Curation時,僅僅考慮到這種數(shù)據(jù)格式的當(dāng)前表遠遠不夠,還應(yīng)該考慮到數(shù)據(jù)格式的長期性及未來的發(fā)展?jié)摿Α?/p>

      美國國家檔案館和記錄管理局出臺的《公開發(fā)布的格式行動方案》通過鼓勵數(shù)字內(nèi)容產(chǎn)生部門去選擇一組更精確的數(shù)字化格式來推動實踐的發(fā)展,尤其像能在一定程度上實現(xiàn)集中控制的部門,如聯(lián)邦、州、地方和區(qū)域政府。

      NDIIPP支持的“地理空間歸檔和保存合作計劃(GeoMAPP)”項目的地理空間數(shù)據(jù)文件格式參考指南提供了一個關(guān)于一些常見的地理空間柵格數(shù)據(jù)與矢量數(shù)據(jù)集類型的快速參考,并且成為快速確定州政府常見的地理空間文件格式類型的服務(wù)工具。

      NDSA最近發(fā)布了對PDF/A格式標(biāo)準(zhǔn)的研究報告,報告分析了曾經(jīng)作為長期保存的黃金標(biāo)準(zhǔn)格式之一的PDF/A的特性以及對長期保存的影響。

      美國國會圖書館發(fā)布了長期保存的推薦格式規(guī)范,F(xiàn)DA(Florida Digital Archive)也發(fā)布了自己的格式選擇范圍。Archivematica在其軟件平臺上將格式策略和行動計劃轉(zhuǎn)化為由工具和軟件直接實施和管理的行動,在實踐上率先邁出了至關(guān)重要的一步。

      相關(guān)可利用的工具包括:英國國家檔案館的文件格式管理工具系統(tǒng)PRONOM、全球文件格式注冊系統(tǒng)GDFR(Global Digital Format Registry)。用于格式識別、校驗、特征抽取的開源工具包括:JHOVE (LGPL)、DROID、用于文檔格式受損分析的Fuzzy Logic以及相關(guān)的規(guī)范PDF驗證工具和方法。

      (3)數(shù)據(jù)不變性和完整性的驗證。Data Curation中最重要的任務(wù)之一是保證數(shù)據(jù)的不變性和完整性,數(shù)據(jù)驗證對確保數(shù)據(jù)可信發(fā)揮著重要作用。常用的驗證數(shù)據(jù)不變性與完整性的方法是檢查數(shù)據(jù)的不變性信息(Fixity Information),它能檢測數(shù)據(jù)是否已遭破壞、監(jiān)控硬件的退化、滿足可信賴需求(如ISO 16363/TRAC、NDSA的數(shù)字保存級別)、支持文檔起源和保管鏈、幫助診斷在Data Curation的管理周期中可能出現(xiàn)的系統(tǒng)或人為錯誤等。

      不變性檢查通常分為兩大類:①統(tǒng)計性不變性檢查,以統(tǒng)計文檔數(shù)量和文件大小來進行不變性檢查;②內(nèi)容不變性檢查,多采用算法通過對文檔內(nèi)容進行比較和計算來進行不變性檢查,以確定文檔內(nèi)容是否發(fā)生改變。

      斯坦福大學(xué)的LOCKSS系統(tǒng)使用了Opinion polls機制,即利用保存同樣內(nèi)容的多個結(jié)點來進行定期的內(nèi)容比較和監(jiān)控。Fedora Repository則使用MD5來驗證數(shù)字對象的不變性,F(xiàn)edora會為每個存檔對象的數(shù)據(jù)流(Datastream)片段及其每個版本生成并保存MD5,以方便進行數(shù)字對象的不變性校驗。DAITSS系統(tǒng)利用MD5和SHA1算法定期計算全部文檔副本的校驗碼。UC3的Merritt倉儲庫以微服務(wù)的方式提供多種類型的接口,并支持各種常用的摘要類型,可通過配置服務(wù)可以在任意時間實施不變性驗證。

      常用于產(chǎn)生與核查不變性信息的工具和算法有:Expected File Size、Expected File Count、CRC、MD5、SHA1、SHA25。目前專門為長期保存而開發(fā)的不變性、完整性工具有馬里蘭大學(xué)ADAPT項目開發(fā)的開源工具ACE(Auditing Control Environment)和正在開發(fā)的用于驗證數(shù)據(jù)集的本體工具vplan。

      (4)數(shù)據(jù)唯一標(biāo)識符與數(shù)據(jù)注冊。如何對龐大的數(shù)據(jù)進行唯一標(biāo)識是Data Curation機構(gòu)面臨的一個關(guān)鍵問題,保管人員選擇采用通用的標(biāo)識符體系來與傳統(tǒng)資源保持一致,包括ARK(持久標(biāo)識符架構(gòu))、DOI(數(shù)字對象標(biāo)識符)、Handle(句柄系統(tǒng)標(biāo)識符)、URN(統(tǒng)一資源名稱)、PURL(持久統(tǒng)一資源定位符)、URI(統(tǒng)一資源定位符)等。同時,也出現(xiàn)了專門的研究數(shù)據(jù)注冊服務(wù),ANDS的Cite My Data服務(wù)能幫助研究機構(gòu)為被引用的研究數(shù)據(jù)集自動分配DOI。此外,為數(shù)據(jù)分配標(biāo)識符服務(wù)的系統(tǒng)還有大英圖書館開發(fā)的DataCite、UC3開發(fā)的EZID、WebCite等。

      (5)保存技術(shù)策略。多年的保存研究和實踐中逐漸形成了多種多樣的、更符合實踐需求的應(yīng)用型的技術(shù)策略,作者曾進行了詳細的介紹和評述,[11]本文僅對后續(xù)發(fā)展情況進行相應(yīng)的補充。

      比特保存通常被認為是最簡單、最好理解的保存方法而被普遍所采用;格式轉(zhuǎn)換和遷移也是目前被很多項目所采用的一項有效的技術(shù)策略;而仿真則是被認為未來最有效的保證數(shù)據(jù)可用性的重要措施,但由于其投資需求大、技術(shù)難度大、使用門檻高,目前只有少數(shù)項目在開展相關(guān)研究。

      歐盟第七框架支持的KEEP項目提出了“仿真作為服務(wù)”的方法,其發(fā)布的仿真框架(Emulation Framework)允許用戶利用仿真來訪問舊的計算及文件和程序,目前已經(jīng)應(yīng)用于CD數(shù)據(jù)以及Web信息的仿真服務(wù)。SCAPE項目則在基于格式遷移、格式風(fēng)險、存儲庫性能的證據(jù)基礎(chǔ)研究上開展了大量工作。

      (6)大規(guī)模數(shù)據(jù)保存系統(tǒng)與基礎(chǔ)架構(gòu)。急劇增長的海量數(shù)據(jù)、數(shù)據(jù)對象(集合)更新的速度(頻率)以及數(shù)據(jù)對象的多樣性(異質(zhì)性)給大規(guī)模的數(shù)據(jù)保存系統(tǒng)與基礎(chǔ)架構(gòu)帶來了巨大挑戰(zhàn)。

      SCAPE項目主要致力于解決密集型計算、保存平臺可擴展性的問題,它分為大規(guī)模數(shù)字歸檔、科學(xué)數(shù)據(jù)集和網(wǎng)絡(luò)歸檔三個子項目展開研究,主要處理科學(xué)數(shù)據(jù)和科學(xué)工作流。在應(yīng)對大數(shù)據(jù)挑戰(zhàn)方面,SCAPE已經(jīng)初見成果,提供了基于實踐的解決方案,構(gòu)建了以數(shù)據(jù)為中心的分布式的SCAPE長期保存平臺,可以為大型數(shù)據(jù)的執(zhí)行過程提供基礎(chǔ)設(shè)施。

      UC3面向大數(shù)據(jù)存儲的Merritt系統(tǒng)通過采用“微服務(wù)(micro-services)”的開發(fā)模式,使得系統(tǒng)的規(guī)模和功能能夠以微服務(wù)這種模塊化模式擴展和更新,微服務(wù)小而獨立的特點使它們更容易開發(fā)、部署、維護和升級,使得Merritt具備了大數(shù)據(jù)保存系統(tǒng)的理想特征,如,服務(wù)高可用性、高可靠性、高效率、適應(yīng)性和可持續(xù)性等。

      斯坦福大學(xué)的LOCKSS系統(tǒng)采用的是典型的分布式存儲方式,它為圖書館提供的是一個開放性源碼的分布式存儲系統(tǒng),可以在本地收藏、管理電子資源。LOCKSS利用多機構(gòu)參與、多副本存儲的機制,實現(xiàn)大量數(shù)字資源的可靠保存。

      由SDSC、加州大學(xué)圣地亞哥分校圖書館、美國國家大氣研究中心(NCAR)和馬里蘭大學(xué)等合作的Chronopolis則提供了美國最大規(guī)模的協(xié)作式保存環(huán)境,利用網(wǎng)格技術(shù)在多站點和多平臺間提供海量數(shù)據(jù)的監(jiān)控、維護和存檔管理。

      Archive-It是一個非營利項目-互聯(lián)網(wǎng)檔案館(Internet Archive)的網(wǎng)絡(luò)存檔服務(wù),它幫助機構(gòu)獲取、構(gòu)建和保存數(shù)字內(nèi)容集合。

      Portico是由世界上最大的數(shù)字存檔社區(qū)所支持的數(shù)字存檔,它能提供一個可持續(xù)性的業(yè)務(wù)模型來幫助圖書館、出版商和資助者協(xié)作保存電子期刊、電子書等電子學(xué)術(shù)內(nèi)容。

      DuraCloud服務(wù)以一種經(jīng)濟高效的代理方式利用眾多的云存儲提供商(包括商業(yè)及非盈利)為圖書館和研究機構(gòu)解決了數(shù)字內(nèi)容安全存儲基礎(chǔ)設(shè)施問題。

      (7)小結(jié)。從上述可以看出,關(guān)鍵技術(shù)發(fā)展一直是Data Curation在推進過程中的重要研究和發(fā)展主題,經(jīng)過多年努力,Data Curation在關(guān)鍵技術(shù)的研究實踐上取得了較為豐碩的成果。

      在元數(shù)據(jù)的標(biāo)準(zhǔn)制定方面,很多項目基于已有的標(biāo)準(zhǔn)規(guī)范相繼提出和定義了一些滿足數(shù)據(jù)保管特殊需求的元數(shù)據(jù)框架和規(guī)范,這種集成和融匯的做法更有利于保證快速滿足保存實踐的需求,同時也能確保元數(shù)據(jù)標(biāo)準(zhǔn)的可用性;格式管理,作為保存中非常重要的一項工作,已經(jīng)有多個機構(gòu)推出了不同類型數(shù)據(jù)的適于保存的推薦格式集合,同時出現(xiàn)了很多開源的格式校驗工具,并通過格式注冊等機制來共同解決格式過時以及格式轉(zhuǎn)換的問題,是相對發(fā)展較為成熟的領(lǐng)域;數(shù)據(jù)完整性檢驗作為保障數(shù)據(jù)長時間真實可用的有效手段,Data Curation領(lǐng)域則是采用現(xiàn)有成熟的技術(shù)方法,通過制定針對實際需求的整體機制來予以解決;保存技術(shù)策略屬于近幾年來投入和研究較少的領(lǐng)域,只有少數(shù)項目針對仿真技術(shù)開展深入研究,其他研究甚少;而為了應(yīng)對不斷擴大的數(shù)據(jù)規(guī)模,很多機構(gòu)探索和開發(fā)了不少適合于大規(guī)模數(shù)據(jù)保存、具備靈活可擴展特性的系統(tǒng)與基礎(chǔ)架構(gòu),從各種角度和各種層面力圖解決數(shù)字存儲的基本問題。

      2.4審計與認證的發(fā)展

      經(jīng)過近年來的蓬勃發(fā)展,Data Curation的審計與認證研究與實踐取得了一定的進展,許多可信賴的內(nèi)容管理工作過程都得到了認可和標(biāo)準(zhǔn)化,同時也形成了一些國際標(biāo)準(zhǔn)。

      RLG在2007年發(fā)布的《可信賴倉儲的審計及認證:指標(biāo)與列表(Trustworthy Repositories Audit & Certification:Criteria and Cheeklist,TRAC)》于2009年成為ISO國際標(biāo)準(zhǔn)(ISO 16363)。德國nestor制定的《可信賴數(shù)字倉儲的指標(biāo)體系》于2011年成為德國國家標(biāo)準(zhǔn)。荷蘭DANS項目開展了數(shù)字認可證明授予服務(wù),提供了16個指導(dǎo)方針供倉儲庫進行自評估。

      歐盟則在上述三個標(biāo)準(zhǔn)規(guī)范的基礎(chǔ)上提出了包括基本認證(依據(jù)DSA進行自評估)、擴展認證(依據(jù)ISO 16363或DIN 31644進行有組織的外部審計,提供公開的自評估)、正式認證(依據(jù)ISO 16363或DIN 31644進行全面認證)的三層認證框架。

      DCC以TRAC與nestor指標(biāo)為基礎(chǔ),并在其中引入風(fēng)險管理概念,開發(fā)出一套“基于風(fēng)險管理的數(shù)字倉儲審計方法”(Digital Repository Audit Method Based On Risk Assessment,DRAMBORA)。

      澳大利亞國家和州圖書館(National and State Libraries Australasia,NSLA)為了評估成員館的長期保存活動,基于美國卡內(nèi)基梅隆大學(xué)的軟件能力成熟度模型(capability maturity model,CMM),提出了一個包括初始、可重復(fù)、定義、管理、優(yōu)化等5層保存能力成熟度模型。

      Tessella公司為了協(xié)助開展長期保存的機構(gòu)選擇長期保存解決方案,提出了數(shù)字存檔成熟度模型(Digital Preservation Maturity Model),用于識別不同類型的長期保存解決方案的成熟度。

      NDSA發(fā)布的“數(shù)字保存級別”是一套分層次的技術(shù)實踐指南,旨在為保存數(shù)字內(nèi)容提供清晰的技術(shù)基準(zhǔn)說明,同時允許機構(gòu)對他們保管的特殊資源進行保存級別評估。

      盡管已有許多的研究、實踐成果,但仍有許多工作要做,目前還沒有保存社區(qū)廣泛認可的認證過程。而針對集中式和分布式保存網(wǎng)絡(luò)的可靠性研究剛剛起步,開發(fā)出一個全面、健碩的保存網(wǎng)絡(luò)信任框架依舊是一個重大挑戰(zhàn)。

      3 結(jié)語

      數(shù)據(jù)帶來了科學(xué)研究范式的革命性變化,科研數(shù)據(jù)保管也為圖書館開展新的服務(wù)帶來了機會與挑戰(zhàn)。圖書館不僅可以主動參與到e-Science環(huán)境中,更可以憑借自身的優(yōu)勢為科研數(shù)據(jù)的保管提供重要支持?;羝战鹚勾髮W(xué)圖書館館長Winston Tabb認為:“e-Science環(huán)境下,圖書館是分布式網(wǎng)絡(luò)的一部分、數(shù)據(jù)能夠成為館藏資源、數(shù)據(jù)中心會成為新型圖書館書庫、圖書館員是數(shù)據(jù)科學(xué)家并能提供數(shù)據(jù)服務(wù)。”[12]

      圖書館可以基于科研數(shù)據(jù)生命周期,研究探討大數(shù)據(jù)科研環(huán)境下的科研數(shù)據(jù)保存管理的解決方案。

      (1)科研數(shù)據(jù)保管規(guī)劃研究。每個科研機構(gòu)都需要根據(jù)實際需求制定自己的Data Curation政策,以此明確自身在科研Data Curation中的職責(zé),并將政策作為一個執(zhí)行框架來指導(dǎo)具體的研究Data Curation行動,包括數(shù)據(jù)遴選政策等。

      (2)合作模式與共享機制研究。Data Curation行動應(yīng)依據(jù)科研數(shù)據(jù)生命周期規(guī)律,與科研活動緊密結(jié)合,無縫嵌入科研流程,從而有效地支持并促進科研成果的產(chǎn)出、創(chuàng)新和共享。因此需要構(gòu)建無縫嵌入科研流程的、與科研團隊緊密合作的長期合作和共享機制。如何在尊重知識產(chǎn)權(quán)、符合政策法規(guī)的前提下進行有效的合作共享,將涉及政策、法規(guī)、技術(shù)等多方面問題,相關(guān)的政策激勵、科研數(shù)據(jù)的版權(quán)和隱私保護是合作共享機制中必須考慮的重要問題。

      (3)服務(wù)內(nèi)容及服務(wù)機制研究。研究在科研數(shù)據(jù)生命周期的各階段所需要的保管服務(wù)內(nèi)容,分析以怎樣的方式無縫嵌入科研流程,以更加有效的方法提供多樣化保管服務(wù),使得科學(xué)數(shù)據(jù)能夠發(fā)揮最大的科研價值、經(jīng)濟價值和社會價值,深入探索圖書館嵌入科研流程的、動態(tài)的科學(xué)數(shù)據(jù)服務(wù)機制與模式。

      (4)基礎(chǔ)設(shè)施和關(guān)鍵技術(shù)研究。全面分析國際科研Data Curation基礎(chǔ)設(shè)施(Research Data Curation Infrastructure,RDCI)方面的重要規(guī)劃、進展、方案、技術(shù)框架和相關(guān)技術(shù)方法。特別研究文獻信息機構(gòu)介入RDCI建設(shè)的策略和業(yè)務(wù)模式,為融入科研生命周期的科研數(shù)據(jù)支撐和服務(wù)環(huán)境建設(shè)提供有益借鑒。深入研究Data Curation的關(guān)鍵技術(shù)方法,分析相關(guān)標(biāo)準(zhǔn)規(guī)范、技術(shù)策略和工具系統(tǒng),構(gòu)建大數(shù)據(jù)科研環(huán)境下的科研Data Curation技術(shù)框架。

      (5)素養(yǎng)教育研究。系統(tǒng)分析科研Data Curation和服務(wù)領(lǐng)域中各種角色(創(chuàng)造者、專家、管理者、數(shù)據(jù)館員)的作用和職責(zé),構(gòu)建各種角色參與科研數(shù)據(jù)管理和服務(wù)所需的知識能力結(jié)構(gòu),為相關(guān)人員的培訓(xùn)和繼續(xù)教育提供理論依據(jù)和教學(xué)材料框架。

      (6)可持續(xù)發(fā)展研究。詳細研究覆蓋研究Data Curation生命周期的成本與效益的模型,分析不同利益相關(guān)方需求和所負擔(dān)的費用以及可獲得的收益,為研究Data Curation活動確立和維持主要的投資提供具體的成本-效益分析;在此基礎(chǔ)上進行可持續(xù)發(fā)展的經(jīng)濟模式研究,形成具有自我生存能力的研究Data Curation生態(tài)環(huán)境。

      [參考文獻]

      [1]DCC.What is digitalcuration?[EB/OL].[2014-12-2].http://www.dcc.ac.uk/digital-curation/what-digital-curation.

      [2]NDSA.2015 National Agenda for Digital Stewardship [EB/OL].[2014-12-02].http://www.digitalpreservation .gov:8081/ndsa/documents/2015NationalAgenda.pdf.

      [3]UK Data Archive.UK Data Archive Strategic Plan,2010 -2015[EB/OL].[2014-12-02].http://www.data-archive.ac.uk/media/196518/ukda-strategicplan2010 2015full.pdf.

      [4]Research Data Management:Practical Strategies for Information Professionals[M].Purdue University Press, 2014:399-406.

      [5]DCC.Five Steps to Developing a Research Data ManagementPolicy[EB/OL].[2014-12-02].http://www.dcc.ac.uk/sites/default/files/documents/publications/DC C-FiveStepsToDevelopingAnRDMpolicy.pdf.

      [6]DMP Planning for Big Science Projects[EB/OL].[2014 -12-02].http://arxiv.org/pdf/1208.3754 v1.pdf.

      [7]DCU.Key challenges and strategies[EB/OL].[2014 -12-02].http://www.dcu.gr/index.php?p=dcu&lang =en§ion=11.

      [8]DCC.How to Appraise & Select Research Data for Curation[EB/OL].[2014-12-02].http://www.dcc.ac.uk/resources/how-guides/appraise-select-data.

      [9]DCC.DisciplinaryMetadata[EB/OL].[2014-12-02].http://www.dcc.ac.uk/resources/metadata-standar ds.

      [10]Layne R,et al.Long term preservation of scientific data:Lessons from jet and other domains[J].Fusion Engineering and Design,2012,87(12):2209-2212.

      [11]吳振新,等.?dāng)?shù)字信息資源長期保存技術(shù)策略分析[J].現(xiàn)代圖書情報技術(shù), 2006(4):8-13.

      [12]Reilly S,et al.Reportonintegrationofdataandpublications[EB/OL].[2014-12-02].http://epic.awi.de/31397/1/ODE-ReportOnIntegrationOfDataAndPub lications-1_1.pdf.

      Review on the International Development of Research and Practice of Data Curation

      Wu Zhen-xin,Chen Yao, Li Wen-yan, Fu Hong-hu, Xu Li-yuan

      Abstract:The article summarizes current challenges of Data Curation in management, resource development, technology infrastructure base on reviewing major research institutions' strategic plans, and fully reviews the developments of Data Curation research and practice about strategic plan, data appraisal and selection, key technologies, audit and certification against these challenges.The article concludes potential domains that library can participate in Data Curation and tries to find more development opportunities for libraries in this area.

      Keywords:Science Data;Research Data;Curation;Preservation;Review

      [收稿日期]2015-04-15[責(zé)任編輯]菊秋芳

      [作者簡介]吳振新(1968-),女,中國科學(xué)院文獻情報中心研究員,碩士研究生導(dǎo)師;研究方向:數(shù)字資源長期保存;陳瑤(1991-),男,中國科學(xué)院文獻情報中心,中國科學(xué)院大學(xué)碩士研究生;李文燕(1989-),女,中國科學(xué)院文獻情報中心,在讀碩士研究生;付鴻鵠(1976-),女,館員;許麗媛(1986-),女,館員。

      中圖分類號:G250.73

      文獻標(biāo)志碼:A

      文章編號:1005-8214(2016)02-0023-06

      猜你喜歡
      保管綜述
      SEBS改性瀝青綜述
      石油瀝青(2018年6期)2018-12-29 12:07:04
      NBA新賽季綜述
      NBA特刊(2018年21期)2018-11-24 02:47:52
      近代顯示技術(shù)綜述
      電子制作(2018年14期)2018-08-21 01:38:34
      淺談影響基層博物館文物保管水平的因素及改善措施
      青春歲月(2016年20期)2016-12-21 14:10:50
      以文物保護意識為導(dǎo)向的文物陳列與保管
      淺談上海中醫(yī)藥博物館的藏品撤展工作
      JOURNAL OF FUNCTIONAL POLYMERS
      淺析企事業(yè)單位聲像檔案的管理
      Progress of DNA-based Methods for Species Identification
      綜述
      江蘇年鑒(2014年0期)2014-03-11 17:09:58
      元阳县| 琼中| 阜新市| 昌乐县| 友谊县| 富裕县| 南木林县| 鹤峰县| 盱眙县| 通州市| 井陉县| 泽州县| 台湾省| 和林格尔县| 杭锦后旗| 龙门县| 博罗县| 吴旗县| 惠水县| 郴州市| 无为县| 昭觉县| 电白县| 个旧市| 榕江县| 安丘市| 通州市| 全州县| 长泰县| 梨树县| 宁安市| 江门市| 隆回县| 翁源县| 保康县| 新沂市| 称多县| 凯里市| 旺苍县| 巨野县| 丰县|