付 博
(國家開放大學(xué) 學(xué)習(xí)資源部(數(shù)字圖書館),北京 100039)
在網(wǎng)絡(luò)與信息技術(shù)發(fā)展過程中,數(shù)字圖書館不但沿襲了傳統(tǒng)圖書館的功能,還提供集成高效的一站式數(shù)字資源訪問服務(wù)。數(shù)字圖書館的建設(shè)一方面加速了信息與知識(shí)的集成與整合,另一方面也利用數(shù)據(jù)挖掘與可視化等技術(shù),為讀者提供科學(xué)有效的基于數(shù)字資源的精細(xì)化服務(wù)。
開放大學(xué)是一所沒有圍墻的新型大學(xué),面向社會(huì)所有成員,打造基于網(wǎng)絡(luò)自主學(xué)習(xí)、遠(yuǎn)程學(xué)習(xí)支持服務(wù)與面授輔導(dǎo)相結(jié)合的新型學(xué)習(xí)模式。開放大學(xué)數(shù)字圖書館已建設(shè)具有開放大學(xué)特色、專業(yè)特色和區(qū)域特色相結(jié)合的文獻(xiàn)資源體系,為開放大學(xué)師生提供“時(shí)時(shí)、處處、人人”的數(shù)字資源服務(wù)。隨著開放大學(xué)數(shù)字圖書館的發(fā)展,數(shù)字資源體量激增,在為開放大學(xué)師生提供服務(wù)的同時(shí),也面臨數(shù)字資源組織粒度過于粗放、無法提供專業(yè)個(gè)性化服務(wù)的挑戰(zhàn)。近年的研究中,大多集中在數(shù)字圖書館的概念、功能、技術(shù)特征、服務(wù)模式等相關(guān)問題,對(duì)其數(shù)據(jù)架構(gòu)的探討涉及甚少。本文旨在從OAIS參考模型出發(fā),構(gòu)筑開放大學(xué)數(shù)字圖書館數(shù)據(jù)架構(gòu),以保證數(shù)字資源組織粒度的精細(xì)和科學(xué),能夠?yàn)樽x者提供深層次服務(wù)。
開放大學(xué)數(shù)字圖書館面向開放大學(xué)辦學(xué)體系,覆蓋地域廣,輻射人群廣,系統(tǒng)和平臺(tái)建設(shè)應(yīng)遵循開放式的架構(gòu),功能模塊可以根據(jù)實(shí)際情況進(jìn)行組合,數(shù)據(jù)在每個(gè)功能模塊之間能夠無縫銜接,同時(shí)也可以接入和整合不同來源的文獻(xiàn)信息服務(wù)系統(tǒng)。在以開放大學(xué)自有學(xué)科和專業(yè)為主線進(jìn)行數(shù)字文獻(xiàn)資源的分類、揭示和呈現(xiàn)的基礎(chǔ)上,根據(jù)開放大學(xué)讀者群體復(fù)雜多樣的現(xiàn)實(shí)情況,通過語音輸入、二維碼掃描、智能檢索、自動(dòng)化識(shí)別等技術(shù)手段,以及語音引導(dǎo)、網(wǎng)絡(luò)機(jī)器人引導(dǎo)等服務(wù)手段,輔助讀者順利獲取所需數(shù)字資源。
數(shù)據(jù)時(shí)代,數(shù)據(jù)是最有價(jià)值的資產(chǎn)。隨著富媒體、移動(dòng)閱讀及智能終端的普及,數(shù)字圖書館所擁有和處理的數(shù)據(jù)呈現(xiàn)多樣性、多結(jié)構(gòu)和海量遞增的趨勢(shì)。在信息浪潮中,數(shù)字圖書館已從過去的資源集中型服務(wù),逐步轉(zhuǎn)變?yōu)橐詳?shù)字資源服務(wù)保障為核心的個(gè)性化專業(yè)化服務(wù)。因此,數(shù)據(jù)的價(jià)值關(guān)系到數(shù)字圖書館的服務(wù)創(chuàng)新能力和資源保障能力。隨著讀者需求的不斷增長與變化,數(shù)字圖書館面臨著業(yè)務(wù)種類增多、數(shù)據(jù)存儲(chǔ)成本激增、服務(wù)質(zhì)量需要保證等挑戰(zhàn),同時(shí),為了滿足用戶需求,需要將碎片化的信息進(jìn)行重組和整合,實(shí)現(xiàn)從“資源進(jìn)來”到“服務(wù)出去”的角色轉(zhuǎn)變,這對(duì)于數(shù)據(jù)可控性有效性的要求也隨之增加。
目前數(shù)字圖書館以數(shù)據(jù)庫為單位進(jìn)行粗放式的數(shù)字文獻(xiàn)管理,無法提供更加精準(zhǔn)專業(yè)的資源服務(wù),因此,需要將海量的數(shù)字資源重新進(jìn)行組織,縮小管理單元,基于元數(shù)據(jù)的采集和管理,對(duì)已有數(shù)據(jù)庫中的電子圖書、期刊、學(xué)位論文、會(huì)議論文等文獻(xiàn)進(jìn)行重新整合,將分布在各數(shù)據(jù)庫中零散的數(shù)字資源整合成統(tǒng)一有序的數(shù)字資源集合,并以此為基礎(chǔ)對(duì)數(shù)字圖書館的所有文獻(xiàn)進(jìn)行重組和集成。
在建設(shè)過程中,既要全面記錄數(shù)字圖書館所有的文檔、數(shù)據(jù)、圖片、音視頻等多種媒體格式的數(shù)字資源外,還要強(qiáng)化包括商業(yè)數(shù)據(jù)庫、自建特色資源、OA資源以及讀者大數(shù)據(jù)在內(nèi)的多種資源,結(jié)合讀者需求,為不同層次的讀者提供基于元數(shù)據(jù)的數(shù)字資源服務(wù)。
OAIS參考模型,即Reference Model for an Open Archive Information System是由太空數(shù)據(jù)系統(tǒng)咨詢委員會(huì)(CCSDS)與美國國家航空和航天局(NASA)聯(lián)合制定的一項(xiàng)標(biāo)準(zhǔn)。由于該模型致力于數(shù)字資源的長期保存,因此采用率很高,使用領(lǐng)域包括政府部門及數(shù)字圖書館等等[1]。OAIS定義了生產(chǎn)者、消費(fèi)者與管理者三類角色,這三類角色分別與OAIS進(jìn)行交互,提供、管理或獲取相應(yīng)的信息。
OAIS的功能模型提供了其六大功能實(shí)體,他們共同完成OAIS的采集、管理與服務(wù)功能。
下圖是OAIS的功能模型。
圖1 OAIS功能模型
他們分別是:
1.攝取功能(Ingest):提交信息包(SIP ,Submission Information Package)由攝取功能從信息提交者處獲取,具有完整性檢查功能。同時(shí)該功能還負(fù)責(zé)將與信息包相對(duì)應(yīng)的元數(shù)據(jù)交給數(shù)據(jù)管理功能模塊,將信息包中的數(shù)字信息轉(zhuǎn)換成長期保存的存檔信息包(AIP,Archival Information Package),傳遞給資源存儲(chǔ)功能模塊進(jìn)行保存。
2.資源存儲(chǔ)功能(Archival Storage):對(duì)AIP的存儲(chǔ)、檢索和維護(hù)提供服務(wù),是OAIS長期保存的核心。在對(duì)AIP進(jìn)行存儲(chǔ)時(shí),也會(huì)接收并響應(yīng)從獲取功能提出的檢索請(qǐng)求,同時(shí)也履行日常校驗(yàn)職責(zé)與災(zāi)備功能。
3.數(shù)據(jù)管理功能(Data Management):數(shù)據(jù)管理功能負(fù)責(zé)關(guān)于數(shù)字信息單元的元數(shù)據(jù)管理,以及關(guān)于數(shù)字資源來源、技術(shù)、系統(tǒng)等的元數(shù)據(jù),并提供對(duì)這些元數(shù)據(jù)的檢索與管理。包括數(shù)據(jù)庫更新、檢索請(qǐng)求執(zhí)行、生成相應(yīng)的報(bào)告等。
4.獲取功能(Access):直接服務(wù)用戶,向用戶提供檢索界面及檢索機(jī)制,將AIP轉(zhuǎn)換為適合用戶使用的分發(fā)信息包(DIP,Dissemination Information Package),同時(shí)進(jìn)行安全及訪問權(quán)限控制等。
5.系統(tǒng)管理功能(Administration):負(fù)責(zé)全局管理,為整個(gè)系統(tǒng)運(yùn)行提供支持與保證,包括資源審核、軟硬件配置的維護(hù)、日志記錄等等。通過相關(guān)的政策和規(guī)范,監(jiān)測(cè)和控制整個(gè)系統(tǒng)與各個(gè)功能的運(yùn)行,保證系統(tǒng)能夠長期為用戶所用。
6.保存規(guī)劃功能(Preservation Planning):屬于全局管理的一部分,主要功能為:檢測(cè)OAIS環(huán)境、制定保存策略、評(píng)估保存數(shù)據(jù)、開發(fā)保存環(huán)境、檢測(cè)技術(shù)環(huán)境等,主要是為了保證用戶在任何情況下都能長期獲取數(shù)字資源。
OAIS的信息包(Information Package)的概念,被用來具體說明數(shù)字信息的流動(dòng)與轉(zhuǎn)換。信息包將保存描述信息和內(nèi)容信息打包并封裝標(biāo)識(shí)。下圖是OAIS中的信息模型。
圖2 OAIS信息模型
OAIS將在不同功能模塊中流轉(zhuǎn)的信息單元區(qū)分為提交信息包(SIP)、存檔信息包(AIP)和分發(fā)信息包(DIP)。其中:
1.提交信息包(SIP)是OAIS從信息生產(chǎn)者處接收并最后納入系統(tǒng),是整個(gè)數(shù)字資源處理的源頭。SIP中在轉(zhuǎn)化成AIP時(shí),并不是一一對(duì)應(yīng)的。
2.在OAIS中,一個(gè)或多個(gè)SIP會(huì)因?yàn)殚L期保存的需要被轉(zhuǎn)換成AIP。AIP有一系列完整的保存描述信息和內(nèi)容信息。
3.分發(fā)信息包(DIP)是OAIS傳遞給用戶的信息形式。一個(gè)DIP也可能包括多個(gè)AIP,描述信息也會(huì)根據(jù)特定的需要而附上。打包信息(PI)使消費(fèi)者可以明確地辨別出所要的信息。
關(guān)于OAIS參考模型的研究,在國際和國內(nèi)都有廣泛的開展。在我國,目前的研究主要集中在數(shù)字檔案館的構(gòu)建和中文元數(shù)據(jù)的方案與標(biāo)準(zhǔn)中。
在數(shù)字檔案館的構(gòu)建研究中,孫毛毛[2]對(duì)數(shù)字檔案對(duì)象各個(gè)業(yè)務(wù)環(huán)節(jié)進(jìn)行分析,探索了開放性數(shù)字檔案管理系統(tǒng)的基本架構(gòu),并對(duì)設(shè)計(jì)與實(shí)現(xiàn)問題進(jìn)行了研究。王楊帆、韓家新[3]指出數(shù)字檔案館建設(shè)成功的關(guān)鍵是系統(tǒng)的結(jié)構(gòu)設(shè)計(jì),并認(rèn)為系統(tǒng)應(yīng)由檔案數(shù)據(jù)建設(shè)系統(tǒng)、系統(tǒng)管理平臺(tái)、檔案信息發(fā)布系統(tǒng)、工作流系統(tǒng)、檔案數(shù)據(jù)存儲(chǔ)系統(tǒng)和元數(shù)據(jù)倉儲(chǔ)系統(tǒng)組成。楊飛[4]認(rèn)為OAIS的價(jià)值實(shí)現(xiàn)路徑是:目標(biāo)——促進(jìn)完善檔案信息化和提升檔案管理水平,基礎(chǔ)——館藏?cái)?shù)字化空間虛擬化,手段——資源網(wǎng)絡(luò)化傳輸,保障——安全管理,目的——信息資源共享化,服務(wù)對(duì)象及需求擴(kuò)大化,方便用戶利用。肖秋會(huì)[5]論證和評(píng)價(jià)OAIS的功能模型和信息模型在數(shù)字檔案資源庫建設(shè)中的適用性問題,并對(duì)我國的數(shù)字檔案館建設(shè)及功能評(píng)估提出幾點(diǎn)啟示。在實(shí)踐中,深圳市檔案館、珠海市城建檔案館、青島市電子文件中心的數(shù)字檔案館建設(shè)都是基于OAIS模型,設(shè)計(jì)出根據(jù)本館特點(diǎn),具體情況具體分析,量身定制出適合自己的系統(tǒng)模塊。[9]
中文元數(shù)據(jù)方案與標(biāo)準(zhǔn)制定中,由中國國家圖書館牽頭,“中文元數(shù)據(jù)標(biāo)準(zhǔn)”課題組擬定了《中文元數(shù)據(jù)方案》討論稿。此方案的設(shè)計(jì)大都參考了OAIS模型,形成了元數(shù)據(jù)框架。用戶可以對(duì)中文數(shù)宇信息進(jìn)行訪問[6]。我國較早建立的基于OAIS的元數(shù)據(jù)標(biāo)準(zhǔn)是由國家檔案局科研所、深圳市檔案局、深圳世紀(jì)科怡公司三家合作研制的《電子文件元數(shù)據(jù)標(biāo)準(zhǔn)》,其元數(shù)據(jù)的制定框架遵循了OAIS中的信息模型,采用了當(dāng)中的術(shù)語及概念。[7]國外的理論研究中也提出了很多元數(shù)據(jù)構(gòu)建方案,如來自美國匹茲堡大學(xué)的David Bearman等人提出了利用歷史層、內(nèi)容層、背景層、結(jié)構(gòu)層、條件層、指示層六層機(jī)構(gòu)模型,還有學(xué)者分出了管理型、維護(hù)型、技術(shù)型、描述型、使用型元數(shù)據(jù)及其他元數(shù)據(jù)六個(gè)層次等。[8]
數(shù)字資源的采集與整合是資源集成以及順利提供服務(wù)的關(guān)鍵性步驟,數(shù)據(jù)架構(gòu)作為數(shù)字圖書館對(duì)可用資源開展數(shù)字化建設(shè)、提供網(wǎng)絡(luò)化服務(wù)的基礎(chǔ)與核心,應(yīng)根據(jù)數(shù)字圖書館對(duì)讀者需求的響應(yīng)及自身服務(wù)創(chuàng)新的要求,對(duì)總體數(shù)據(jù)進(jìn)行規(guī)劃整理。數(shù)據(jù)架構(gòu)是包括數(shù)字資源、數(shù)據(jù)內(nèi)容、組織機(jī)制、應(yīng)用服務(wù)和保障體系等內(nèi)容的系統(tǒng)性設(shè)計(jì),筆者設(shè)計(jì)的基于OAIS的開放大學(xué)數(shù)字圖書館數(shù)據(jù)架構(gòu)如圖3所示??傮w框架包括四層,分別是來源層、內(nèi)容層、組織層和服務(wù)層,輔以數(shù)據(jù)存儲(chǔ)制度、描述制度和質(zhì)量制度,構(gòu)成了數(shù)字圖書館數(shù)據(jù)架構(gòu)的全部內(nèi)容。
圖3 基于OAIS的開放大學(xué)數(shù)字圖書館數(shù)據(jù)架構(gòu)
數(shù)字資源是開放大學(xué)數(shù)字圖書館開展服務(wù)的基礎(chǔ)和保障,數(shù)字圖書館應(yīng)積極整合已有及可用資源,包括已采購的文獻(xiàn)數(shù)據(jù)庫、文檔、教學(xué)視頻等,對(duì)其進(jìn)行采集、清洗、標(biāo)引和重新組織。與此同時(shí),共享國家圖書館、CALIS、CADAL等文獻(xiàn)信息資源共享工程等社會(huì)資源,還應(yīng)包括OA資源及互聯(lián)網(wǎng)資源,通過采集面向特定學(xué)科領(lǐng)域或主題的OA期刊、開放機(jī)構(gòu)倉儲(chǔ)和自于行業(yè)或機(jī)構(gòu)門戶網(wǎng)站、社區(qū)論壇等的熱點(diǎn)新聞或熱門資訊,為提供學(xué)科熱點(diǎn)、專題報(bào)告等專業(yè)化資源服務(wù)做基礎(chǔ)。
OAIS參考模型中的信息包模型,有效的在數(shù)據(jù)管理過程中分離了數(shù)據(jù)本身及其元數(shù)據(jù),使數(shù)字資源對(duì)軟硬件的依賴度降低,同時(shí)也保證了對(duì)其長期的可獲取性。在數(shù)據(jù)架構(gòu)的內(nèi)容層,參考了OAIS的信息包模型的優(yōu)點(diǎn),設(shè)置了RSIP(Resource SIP),RAIP(Resource AIP)和 RDIP(Resource DIP)模型,通過信息包在各個(gè)功能模塊之間流轉(zhuǎn)數(shù)據(jù),能夠有效降低各功能模塊的藕合度,保證核心數(shù)據(jù)的安全流轉(zhuǎn),有利于增強(qiáng)數(shù)字資源的長期安全存取系數(shù)與數(shù)據(jù)長久的有效性,使數(shù)據(jù)的分布與流轉(zhuǎn)傳遞關(guān)系更適合于高效的數(shù)字資源組織與管理,使數(shù)據(jù)能夠在不同模塊中得到更好的流轉(zhuǎn)與更深層的利用。
1.數(shù)字資源采集
數(shù)字資源的采集是數(shù)據(jù)來源與整個(gè)數(shù)字資源庫連接的窗口。在進(jìn)行資源采集時(shí),數(shù)字資源提交包中的數(shù)字資源與元數(shù)據(jù)信息在采集后分離,數(shù)據(jù)本身被保存下來,同時(shí)對(duì)其元數(shù)據(jù)進(jìn)行采集及補(bǔ)充,傳遞給數(shù)據(jù)庫再進(jìn)行存儲(chǔ)。
2.數(shù)字資源數(shù)據(jù)管理
數(shù)字資源的數(shù)據(jù)管理通過元數(shù)據(jù)來實(shí)現(xiàn)。數(shù)據(jù)管理提供資源的可溯行與完整性維護(hù),用來描述信息標(biāo)識(shí)和描述數(shù)字資源。在資源采集進(jìn)來之后,可以對(duì)數(shù)字資源進(jìn)行元數(shù)據(jù)補(bǔ)充與編輯,同時(shí),數(shù)據(jù)管理對(duì)用戶的定制資源需求進(jìn)行創(chuàng)建、維護(hù)和訪問,進(jìn)行有效性維護(hù),還包括查詢操作、生成報(bào)表、數(shù)字資源數(shù)據(jù)庫更新等操作。采集系統(tǒng)更新存儲(chǔ)在數(shù)字資源保存包中的描述信息,比如使用者信息、資源狀態(tài)等。
3.數(shù)字資源存儲(chǔ)
數(shù)字資源的存儲(chǔ)接收對(duì)數(shù)字資源的存儲(chǔ)請(qǐng)求,將數(shù)字資源保存包放到相應(yīng)的數(shù)據(jù)庫中,并制定相應(yīng)的安全措施與保存規(guī)劃等。同時(shí)也接收外界的使用請(qǐng)求,對(duì)接收包中的數(shù)字資源本身進(jìn)行的存儲(chǔ),需要響應(yīng)外界使用請(qǐng)求時(shí),根據(jù)與數(shù)字資源相關(guān)聯(lián)的元數(shù)據(jù)確定其存儲(chǔ)位置,將存儲(chǔ)的數(shù)據(jù)發(fā)送至使用模塊。
4.數(shù)字資源的利用
數(shù)字資源的利用主要以生成利用信息包的形式進(jìn)行。根據(jù)使用請(qǐng)求,檢索數(shù)字資源的元數(shù)據(jù),當(dāng)生成檢索結(jié)果時(shí),將數(shù)據(jù)與元數(shù)據(jù)封裝成數(shù)字資源利用包。同時(shí),還可以根據(jù)用戶的需求進(jìn)行一些相應(yīng)的具體數(shù)據(jù)處理,比如訪問統(tǒng)計(jì)、數(shù)據(jù)格式轉(zhuǎn)換和輸出可視化等,最后發(fā)送給用戶。
數(shù)字圖書館通過對(duì)可利用數(shù)字資源進(jìn)行精細(xì)管理,可以實(shí)現(xiàn)對(duì)所有資源的準(zhǔn)確描述、揭示和定位。在此基礎(chǔ)上,通過建設(shè)一站式檢索平臺(tái),并可支持統(tǒng)一認(rèn)證、統(tǒng)一檢索等功能,保障資源的可發(fā)現(xiàn)性和可獲取性。同時(shí),可以梳理數(shù)字圖書館可利用數(shù)字化資源的存量及更新情況,繪制數(shù)據(jù)地圖,并可以在此基礎(chǔ)上進(jìn)行知識(shí)信息導(dǎo)航、基于分析和基于內(nèi)容的知識(shí)圖譜等建設(shè)。還可以根據(jù)專業(yè)需要,定期推出相應(yīng)學(xué)科或?qū)I(yè)的專題知識(shí)庫、學(xué)術(shù)圈動(dòng)態(tài)等,也可以根據(jù)平臺(tái)積累的讀者大數(shù)據(jù),描繪用戶畫像,利用數(shù)據(jù)統(tǒng)計(jì)、知識(shí)挖掘等技術(shù)對(duì)數(shù)據(jù)進(jìn)行系統(tǒng)深入的理解和分析,為用戶自動(dòng)推送所需信息,以提供更為專業(yè)化和個(gè)性化的服務(wù)。
數(shù)據(jù)時(shí)代,數(shù)據(jù)架構(gòu)的科學(xué)性和可共享性,是關(guān)系到數(shù)字圖書館文獻(xiàn)資源保障、服務(wù)模式創(chuàng)新的重要因素。構(gòu)建科學(xué)的數(shù)據(jù)架構(gòu),對(duì)大密度、海量的數(shù)字資源進(jìn)行采集、清洗、整合,使數(shù)字資源的結(jié)構(gòu)合理,價(jià)值密度上升,管理性增強(qiáng),易用性增高。數(shù)字圖書館應(yīng)在及時(shí)獲取讀者需求的基礎(chǔ)上,借助合理科學(xué)的數(shù)據(jù)架構(gòu),利用信息技術(shù),提高自身對(duì)數(shù)據(jù)的集成整合能力和預(yù)測(cè)分析能力,滿足讀者的個(gè)性化需求。
新疆開放大學(xué)學(xué)報(bào)2018年3期