袁曉明谷玉榮王飛
DAITSS核心界面與數(shù)據(jù)存儲初探
袁曉明谷玉榮王飛
倉儲式長期保存系統(tǒng)DAITSS適用于建立已有數(shù)字資源環(huán)境的長期保存。論文基于對DAITSS數(shù)字資源長期保存系統(tǒng)的存儲特性的研究,介紹了DAITSS保存系統(tǒng)的七個耦合服務模塊,并探討了其主要服務模塊核心工作界面的功能、存儲流程和存儲資源的管理方式等,結合該系統(tǒng)的存儲特點分析了DAITSS長期保存系統(tǒng)應用于蘇州大學本地資源保存的可靠性和有效性。
DAITSS數(shù)字資源長期保存核心服務存儲管理
目前,國內外已經(jīng)開發(fā)出多種基于開放檔案信息系統(tǒng)(OAIS)模型的數(shù)字資源長期保存系統(tǒng),其中,DAITSS系統(tǒng)以其倉儲式存儲體系、規(guī)范化格式遷移及松耦合的模塊化結構受到了越來越多的關注。本文擬對DAITSS的模塊進行解析,并利用示例數(shù)據(jù)包對其核心內容——核心界面和存儲管理兩個模塊進行具體分析,就該系統(tǒng)的權限、數(shù)據(jù)管理和實際應用進行初步探討。
1.1 DAITSS簡介
DAITSS(Dark Archive In The Sunshine State)是由佛羅里達圖書館自動化中心研究開發(fā),并為佛羅里達州的11所公立大學圖書館提供數(shù)字資源庫長期保存服務的一種開源長期保存系統(tǒng)。DAITSS作為一種機構倉儲式后臺保存系統(tǒng),不提供用戶直接訪問接口,也被稱為“黑色檔案保存系統(tǒng)”。其區(qū)別于其他保存系統(tǒng)的最顯著特點是:允許其成員機構通過授權的分發(fā)請求獲取資源,但不提供獲取其他用戶保存的數(shù)字資源;不支持數(shù)字資源數(shù)據(jù)的采集,旨在對已有數(shù)字資源環(huán)境實現(xiàn)長期保存。
DAITSS系統(tǒng)通過將提交信息包(SIP)轉化成一個可長期保存的檔案信息包(AIP)實現(xiàn)數(shù)字資源的長期保存,不僅為數(shù)字資源提供了數(shù)據(jù)保存、管理和獲取的倉儲功能,更實現(xiàn)了數(shù)字資源格式規(guī)范化和格式遷移的積極保存策略[1]。其對存儲機構所保存的資源規(guī)范化為開放的、基于XML格式的數(shù)據(jù),并以最新的版本(如提交的word2003版本更新為word2010版)或后繼格式的版本存儲。目前,DAITSS系統(tǒng)可以識別超過600個文件格式并完全支持(即可以分析、描述并根據(jù)需要轉換)其中的十幾種常用格式,可實現(xiàn)文字、圖片、音頻及視頻等格式數(shù)據(jù)的保存及規(guī)范。弗羅里達數(shù)字檔案館自2006年投入使用DAITSS長期保存系統(tǒng)以來,至2011年6月已攝取了29萬個數(shù)據(jù)包,包括了3910萬個文件,單一副本的存儲量達87TB[2]。2010年起開發(fā)團隊實現(xiàn)了將DAITSS v.1.x升級為DAITSS v.2版本,設計模塊化和功能上的升級更方便了用戶的使用配置和服務定制。
1.2DAITSS服務模塊
DAITSS v.2采用面向服務的架構,對單一的系統(tǒng)采用模塊相互耦合作用進行數(shù)據(jù)包的處理。DAITSS系統(tǒng)的數(shù)據(jù)處理模塊包括DAITSS核心界面(DAITSS Core)、病毒檢測服務(Virus check)、描述服務(description)、行動規(guī)劃服務(Action plan)、格式轉換服務(Transformation)、XML解析服務(XML resolution)和存儲管理(Storage)等七個模塊,其具體結構及在數(shù)據(jù)保存處理中所起作用如圖1所示。
DAITSS保存系統(tǒng)的存檔流程為:將需要存儲的文檔及其Mets文件以信息的形式提交至系統(tǒng)界面,信息包進入DAITSS的存檔工作區(qū)之后,保存系統(tǒng)通過調用數(shù)據(jù)處理模塊檢測提交信息包是否有效,結構是否完整,并在存檔過程發(fā)送數(shù)據(jù)包,直至數(shù)據(jù)包以AIP的形式存儲于系統(tǒng)數(shù)據(jù)庫中。在數(shù)據(jù)包存檔過程中,DAITSS Core和存儲服務是數(shù)據(jù)資源的提交、存儲的主要服務模塊,并提供了管理和獲取資源的對話界面,其余五個模塊則為數(shù)據(jù)包在提交存儲過程中后臺調用程序。
(1)DAITSS Core是執(zhí)行不同功能腳本和程序集合的面對用戶的Web頁面,其實現(xiàn)保存機構的數(shù)字資源提交、請求及管理操作功能,也是管理員對提交的數(shù)據(jù)包存儲和管理的界面。
(2)病毒檢測服務對提交至工作區(qū)的每個數(shù)據(jù)包文件進行病毒檢測。若發(fā)現(xiàn)病毒,整個數(shù)據(jù)包將會復制到保存區(qū)等待管理員的處理;沒有病毒的數(shù)據(jù)包則釋放到下一步處理進程。
(3)描述服務對給定的文件進行格式識別、驗證和表征。描述服務使用DROID進行文件格式和版本的初步識別[4],通過JHOVE工具進一步進行驗證和表征,并將JHOVE返回的技術元數(shù)據(jù)轉化為標準格式的元數(shù)據(jù)。JHOVE的處理結果被解析映射至PREMIS文件中,PREMIS文件包含文件的識別和表征信息及描述服務的驗證信息,該PREMIS文件被釋放到下一個處理模塊用于指導下一步進程。
(4)行動計劃服務接收由描述服務的PREMIS文件,并從中提取格式信息,根據(jù)格式信息實行相應的行動計劃。對于行動計劃中需要格式轉換的數(shù)據(jù)包,行動計劃服務會反饋一個轉換標識符至轉換服務模塊進行格式轉換。
(5)轉換服務基于行動計劃提供的轉換標識符對給定的文件進行格式轉換。轉換標識符用來尋找轉換指令從而執(zhí)行格式轉換。
(6)XML解析服務對保存內容為XML格式的文件進行處理。XML解析服務下載XML內容文件中提到的任何XML模式,并創(chuàng)建一個壓縮文件包保存于AIP中[5]。
(7)存儲服務是管理員對存儲數(shù)據(jù)包AIP進行管理、查詢并對存儲實體服務器實現(xiàn)分類和監(jiān)控的頁面服務。
DAITSS保存系統(tǒng)的成員機構通過Core界面提交信息包后,系統(tǒng)對數(shù)據(jù)包進行存檔處理并最終將攝取報告反饋給用戶的Core界面上,詳見圖2。
在數(shù)據(jù)的存儲過程中保存用戶可在Core界面實時跟蹤處理進程,管理員通過Core界面的不同標簽頁面監(jiān)控和調整存儲進程。通過Core界面可實現(xiàn)如下功能:
2.1 用戶的設置和權限
DAITSS核心管理界面包括了賬戶、項目及用戶的創(chuàng)建和管理。在進行數(shù)字資源存儲之前,管理員用戶需要對其保存機構或成員創(chuàng)建相應的賬戶、項目代碼和加盟用戶賬號,并對同一保存機構的項目代碼、賬戶與用戶名進行有效關聯(lián)后,保存機構方可通過自己的用戶名登陸進行數(shù)據(jù)資源的保存。DAITSS用戶包括管理員用戶和加盟用戶兩種用戶類型,管理員用戶擁有對存儲資源的所有權限,包括系統(tǒng)用戶管理和數(shù)據(jù)資源存儲管理;加盟用戶僅具有提交存儲數(shù)據(jù)包和查看其賬戶數(shù)據(jù)包的權限,在DAITSS核心界面可查看“dashboard”和“packages”標簽中的有關內容。
2.2 數(shù)據(jù)包的提交及存檔
DAITSS保存用戶通過“packages”頁面進行數(shù)據(jù)資源的提交。其提交的數(shù)據(jù)資源必須是一個包含有效數(shù)據(jù)資源及其描述mets文件的“tar”或“zip”格式的提交信息包(SIP),其描述性文件為XML格式文件,并包含了保存機構的賬戶、項目代碼和所保存資源的基本信息要素。SIP數(shù)據(jù)包進入DAITSS的存檔工作后,系統(tǒng)后臺會驗證其是否有效、結構是否完整,如果提交信息包有效,系統(tǒng)將其解析為一個工作區(qū)信息包(WIP)進行病毒檢測、“per file”處理,并生成數(shù)據(jù)資源處理信息的mets文件,最終處理后的數(shù)據(jù)資源與處理信息的mets文件形成存儲信息數(shù)據(jù)包(AIP)保存至數(shù)據(jù)庫中,在DAITSS核心界面將攝取報告反饋給用戶;對于無效的提交信息包,DAITSS系統(tǒng)會拒絕攝取,并返回拒絕報告。保存機構作為加盟用戶可通過“packages”頁面查詢所提交數(shù)據(jù)包的信息、活動狀態(tài)和保存時間,檢索可存儲數(shù)據(jù)包存儲流程中的攝取報告或無效數(shù)據(jù)包的拒絕報告。
2.3 數(shù)據(jù)包處理的監(jiān)測
DAITSS系統(tǒng)管理員用戶通過監(jiān)測工作區(qū)對SIP存檔過程的處理進程進行監(jiān)控。系統(tǒng)處理數(shù)據(jù)包時,WIP的地址被傳遞到攝取處理程序,工作區(qū)通過一系列Web服務和每個服務提供的WIP數(shù)據(jù)包更新信息控制其進展。工作區(qū)列表中可查看待處理數(shù)據(jù)包“idle jobs”及正在處理的WIP的數(shù)據(jù)信息,管理員用戶可根據(jù)資源保存的具體情況選擇停止或啟動WIP數(shù)據(jù)包處理進程,靈活調整數(shù)據(jù)包處理的順序。在數(shù)據(jù)包的處理過程中,會因為存儲數(shù)據(jù)內容本身的格式錯誤或者系統(tǒng)網(wǎng)絡不穩(wěn)定等問題導致數(shù)據(jù)包存儲無法進行下去,工作區(qū)會顯示數(shù)據(jù)包“error”狀態(tài),管理員可以停止其進程,待問題解決后,脈沖后臺或管理員將其重新設為待處理“idle”狀態(tài);對于工作區(qū)中暫時不需要處理的數(shù)據(jù)包或已完成的數(shù)據(jù)包,管理員用戶可通過“stash”功能選擇性地將其移至留置區(qū)域,待下次需要處理時手動釋放到工作區(qū)進行處理。
2.4 分發(fā)和撤銷請求
DAITSS長期保存系統(tǒng)不提供在線檢索功能,保存機構用戶可通過Core界面提交分發(fā)申請獲取其保存的資源。DAITSS訪問入口接受用戶的請求后,系統(tǒng)會驗證識別分發(fā)請求用戶是否具有權限;對于具有權限的分發(fā)請求,系統(tǒng)的分發(fā)功能產(chǎn)生響應,從存儲系統(tǒng)中提取數(shù)據(jù)并創(chuàng)建分發(fā)數(shù)據(jù)包(DIP),DIP包含原始的SIP和數(shù)據(jù)資源遷移或規(guī)范化的格式版本。一旦系統(tǒng)完成數(shù)據(jù)包的分發(fā),用戶在其Core界面的“packages”頁面上可直接下載DIP,同時系統(tǒng)界面會顯示一系列分發(fā)完成事件。
對于用戶不需要繼續(xù)保存的資源,用戶需要提交撤銷請求來刪除AIP數(shù)據(jù)包。撤銷請求受理后,系統(tǒng)會移除完整的AIP,并清除與數(shù)字資源相關的所有元數(shù)據(jù),但保留數(shù)據(jù)包基本事實和撤銷申請的信息。
2.5 數(shù)據(jù)包的批處理
批處理應用于同一保存機構或同一保存項目下資源的集中管理,不僅可實現(xiàn)一組數(shù)據(jù)包列表的創(chuàng)建、修改和刪除功能,而且可以用來分發(fā)或撤銷一組AIPs。存儲前對每個項目批次設定數(shù)據(jù)包數(shù)量,將一批次的SIP數(shù)據(jù)包指向同一存儲項目,通過“batches”標簽查看某批次處理的數(shù)據(jù)包及其存儲詳情。創(chuàng)建一個批處理,管理員可以更為輕松地跟蹤一個邏輯組數(shù)據(jù)包的處理狀態(tài)和進展。
DAITSS系統(tǒng)采用混合存儲管理的模式,即全部元數(shù)據(jù)存放在MySQL關系數(shù)據(jù)庫中,同時將全部元數(shù)據(jù)與數(shù)據(jù)內容對象一同保存在文件系統(tǒng)中,利用文件系統(tǒng)與關系數(shù)據(jù)庫管理系統(tǒng)來協(xié)同存儲和管理元數(shù)據(jù)及數(shù)字對象[6]。通過Storagemster和Silo圖形界面實現(xiàn)對保存資源副本AIP的管理。
存儲服務是負責選擇筒倉和將數(shù)據(jù)寫入相應筒倉的長期存儲機制,其通過多層次的存儲管理,實現(xiàn)了對保存數(shù)字資源的有效分類和監(jiān)控,并可實現(xiàn)對同一資源進行不同保存介質的多副本保存,規(guī)避了保存風險。DAITSS存儲服務包括了一個或多個筒倉池(silo pool),每個筒倉池又由一個多個單獨的筒倉(silo)組成,其結構如圖3。單個筒倉存儲介質可為磁盤或磁帶,在存儲過程中可配合使用。弗羅里達數(shù)字檔案館DAITSS保存系統(tǒng)的存儲方案是在不同的兩個區(qū)域設定了兩個筒倉池,采用了IBM的Tivoli Storage Manager備份軟件,將數(shù)據(jù)備份到磁帶中,實現(xiàn)了三份AIP數(shù)據(jù)包的異地備份。
DAITSS通過存儲管理界面調用和執(zhí)行倉儲管理程序,實現(xiàn)對其下屬筒倉池的管理和權限設定;同時,通過存儲管理還可查看已存儲數(shù)據(jù)包,創(chuàng)建新的存儲筒倉和對每個筒倉池中各筒倉的數(shù)據(jù)進行監(jiān)測等。此外,DAITSS存儲服務為保障存儲數(shù)據(jù)的準確性,會定期對每個筒倉的AIP數(shù)據(jù)包進行穩(wěn)定性檢測,通過對存儲筒倉的數(shù)據(jù)包計算和校驗判斷其是否被修改,每個AIP最近一次的穩(wěn)定性檢查信息會被記錄下來,通過存儲管理界面可查看每個存儲筒倉可利用空間信息和穩(wěn)定性檢測運行的狀態(tài),并提供筒倉內所有存儲數(shù)據(jù)包的內容、數(shù)據(jù)包的存儲時間、存儲位置及其穩(wěn)定性檢查的xml文件。
目前,國內清華大學、中科院圖書館等研究機構均采用Fedora倉儲系統(tǒng)建立本地長期保存體系,尚未見采用DAITSS實現(xiàn)長期保存的實踐案例。DAITSS作為數(shù)字圖書館的機構倉儲的后臺系統(tǒng),注重于長期保存功能的特性適用于各圖書館或科研機構構建一個基于已有資源環(huán)境的保存系統(tǒng),避免了與其他具有元數(shù)據(jù)采集功能的系統(tǒng)在功能上的重復[4]。其倉儲式保存機制與蘇州大學圖書館嘗試建立的本校科研工作者的科研數(shù)據(jù)和文獻資源的長期保存體系相吻合,本研究中利用DAITSS系統(tǒng)實現(xiàn)了數(shù)據(jù)包的存檔,其存儲及管理流程示例如下:
首先創(chuàng)建蘇州大學存儲賬戶、項目代碼及用戶,三者相互關聯(lián),利用DAITSS系統(tǒng)的元數(shù)據(jù)編輯器創(chuàng)建需要保存PDF的元數(shù)據(jù),以PDF文件與元數(shù)據(jù)創(chuàng)建名為SUD001.zip提交數(shù)據(jù)包,通過“packages”頁面提交后,系統(tǒng)分配給該提交數(shù)據(jù)包知識實體ID(IEID)為EZAPURJQN_78QPHO,并顯示其提交數(shù)據(jù)包名稱、賬戶、項目、提交數(shù)據(jù)包空間、提交時間和系統(tǒng)最新進程等。查看提交數(shù)據(jù)包的IEID,則顯示數(shù)據(jù)包攝取過程中攝取開始、攝取結束和反饋攝取報告的時間,同時可見已存檔AIP的詳細信息。
數(shù)據(jù)包成功存儲后,用戶通過提交分發(fā)或撤銷請求獲取或刪除存儲資源。如選擇IEID為EZAPURJQN_78QPHO的數(shù)據(jù)包,在“requests”對話框提交分發(fā)或撤銷請求,待管理員對用戶請求授權后系統(tǒng)會進行相應的處理,在requests標簽界面即顯示對EZAPURJQN_78QPHO的分發(fā)撤銷事件,事件列表會詳細顯示申請用戶、申請時間、授權驗證等信息。DAITSS用戶獲取資源的方式保證了科研工作者數(shù)據(jù)的保密性和可長期使用性的要求。
管理員對于用戶存儲的數(shù)據(jù)包可通過存儲服務的web界面(http://storagemaster.shades.local)進行查看、管理和設定。對于上述示例中所提交數(shù)據(jù)包SUD001.zip,通過檢索其IEID(EZAPURJQN_78QPHO),存儲主頁面會顯示其存儲位置、存儲時間和最近一次的穩(wěn)定性檢測狀態(tài)和時間,便于管理員對存儲數(shù)據(jù)的分類和監(jiān)測。
DAITSS作為倉儲式保存系統(tǒng),其基于規(guī)范、遷移和本地化的保存策略使其對于已有資源本地化的長期保存具有可靠性和穩(wěn)定性。同時,DAITSS v2重建了格式化處理過程和結構,使系統(tǒng)更易于安裝和操作,主要表現(xiàn)在四個方面:①采用模塊化的結構和程序調用方式,使數(shù)據(jù)存檔更易于管理操作;②允許添加新的服務和架構,更易于支撐新的格式;③可實現(xiàn)與第三方系統(tǒng)的集成和互操作,增加了可擴展性和使用率;④DAITSS系統(tǒng)即將開發(fā)以“peek”的方式獲取資源,降低了系統(tǒng)數(shù)據(jù)處理量,方便了用戶的資源獲取。
通過對DAITSS數(shù)字資源長期保存中存儲和管理功能的研究驗證,倉儲式的DAITSS系統(tǒng)適用于本館已有數(shù)字資源的長期保存,前期的初步嘗試與探索研究為DAITSS最終應用于服務器存儲提供了可靠的理論依據(jù)。在后續(xù)工作中,將對存儲介質、元數(shù)據(jù)的規(guī)范和DAITSS存儲深層次模塊進一步探索研究,深入探討DAITSS的系統(tǒng)體系及備份策略[8],使DAITSS長期保存系統(tǒng)提供更穩(wěn)定可靠的保存服務。
[1]Priscilla C.The Florida Digital Archive and DAITSS:a working preservation repository based on format migration[J].D-igi Libr.Mag,2007,6(4):305-311.
[2]Priscilla Caplan.DAITSS,an OAIS-based preservation repository[EB/OL].(2011-10-25)[2013-08-20].http://DAITSS.fcla.edu/sites/DAITSS.fcla.edu/files/ DAITSS%20in%20ACM%20rev_0.pdf.
[3]DAITSS.Chaptter 1:DAIITSS Overviiew[EB/OL].(2011 -10-25)[2013-10-25].https://share.fcla.edu/FDAPub lic/DAITSS/Chapter_1_DAITSS_Overview.pdf.
[4]曾婷,董麗.數(shù)據(jù)長期保存引入SOA[J].中國教育網(wǎng)絡,2010(1):68-70.
[5]DAITSS.Chaptter 4:DAITSS Preservation Services[EB/ OL].(2011-10-25)[2013-09-03].https://share.fcla.edu/FDAPublic/DAITSS/Chapter_4_Preservation_Services.pdf.
[6]吳振新,向菁.開源長期保存系統(tǒng)DAITSS研究[J].現(xiàn)代圖書情報技術,2009(7/8):18-22.
[7]DAITSS.Chaptter 7:DAITSS Archival Storage[EB/OL].(2012-12-10)[2013-09-02].https://share.fcla.edu/ FDAPublic/DAITSS/Chapter_7_Storage.pdf.
[8]張智雄,郭家義,吳振新,等.基于OAIS的主要數(shù)字保存系統(tǒng)研究[J].現(xiàn)代圖書情報技術,2005(11):1-9.
袁曉明蘇州大學圖書館助理館員。江蘇蘇州,215006。
谷玉榮蘇州大學圖書館館員。江蘇蘇州,215006。
王飛蘇州大學圖書館助理館員。江蘇蘇州,215006。
Preliminary Study on the DAITSS Core Interface and Data Storage
Yuan Xiaoming,Gu Yurong,Wang Fei
Repository preservation system DAITSS is used for archiving organizations in existing digital resources environment.Based on the research of the DAITSS digital resources preservation,this paper introduces the seven service modules of DATSS,discusses the interface of the core service,the storage processes and the management methods of digital resources.Combined with the system storage features,it analyzes the reliability and validity of applying DAITSS in Suzhou University.
DAITSS.Digital Resources Long-term Preservation.Core services.Storage management.
G250.7
2013-12-02編校:劉明)