崔 萌
(河南省圖書館,河南 鄭州 450052)
隨著數(shù)字圖書館的蓬勃發(fā)展,全球范圍內(nèi)的數(shù)字資源激增,資源的種類越來越豐富,內(nèi)容越來越細(xì)化,數(shù)字資源建設(shè)已經(jīng)成為圖書館文獻(xiàn)資源建設(shè)的重要組成部分。但是,隨著科學(xué)技術(shù)的迅速發(fā)展,學(xué)科數(shù)量愈來愈多,結(jié)構(gòu)愈來愈復(fù)雜,學(xué)科間的相互滲透、縱橫交叉、綜合,不僅使得信息量劇增,而且更進(jìn)一步導(dǎo)致了資源的無序和分散。不同的數(shù)字資源又有其物理和邏輯結(jié)構(gòu),具有各自不同的檢索系統(tǒng)和發(fā)布系統(tǒng),檢索方式、檢索手段各式各樣,造成了數(shù)據(jù)冗余、相互關(guān)聯(lián)程度低,大量的信息孤島出現(xiàn),也使用戶的檢索負(fù)擔(dān)加重。因此,需要有一種手段把這些信息集中、整序、關(guān)聯(lián)起來,把檢索系統(tǒng)集成起來,使用戶知道到哪里可以找到所需要的信息,怎樣去查找這些信息,如何篩選檢索結(jié)果。本文就圖書館數(shù)字資源的整合模式進(jìn)行分析、綜述,以供參考。
面對種類、數(shù)量、形式、品種多樣的數(shù)字資源,不同學(xué)者從不同的角度對圖書館數(shù)字資源的來源和類型進(jìn)行了劃分。
(1)自建的數(shù)據(jù)庫。包括圖書館的中外文館藏?cái)?shù)據(jù)數(shù)據(jù)庫、中外文獻(xiàn)目次庫,學(xué)位論文及會議論文數(shù)據(jù)庫,教學(xué)參考書數(shù)據(jù)庫及館藏特色數(shù)據(jù)庫等。(2)引進(jìn)的數(shù)據(jù)庫。根據(jù)本單位的實(shí)際需要,從國內(nèi)外數(shù)據(jù)商購買的聯(lián)機(jī)數(shù)據(jù)庫或網(wǎng)絡(luò)數(shù)據(jù)庫等商用數(shù)據(jù)庫,類型包括文摘、題錄、全文數(shù)據(jù)庫等。如CNKI數(shù)字圖書館、萬方數(shù)據(jù)庫、重慶維普期刊全文數(shù)據(jù)庫、超星數(shù)字圖書館等數(shù)據(jù)庫。(3)光盤資源。包括圖書館購買的大量的多媒體光盤、隨書光盤、網(wǎng)絡(luò)光盤數(shù)據(jù)庫等。(4)圖書館收集的因特網(wǎng)上一些免費(fèi)的網(wǎng)絡(luò)數(shù)字資源等。
數(shù)字資源的類型包括:(1)由未公開出版的著作、學(xué)位論文、管理文件、科技報(bào)告、學(xué)報(bào)等“灰色文獻(xiàn)”形成的原生數(shù)字資源。(2)由圖書館外購的館藏文獻(xiàn)所形成的館藏書目數(shù)據(jù)。(3)由本館或本地區(qū)專有文獻(xiàn)構(gòu)成的特色數(shù)字資源。(4)由通用性較強(qiáng)的圖書、報(bào)刊、圖片、聲像、縮微資料等加工后形成的數(shù)字資源。
數(shù)字資源整合方案或系統(tǒng)在一定程度上為用戶提供了期望的一站式服務(wù)。然而,面對層出不窮的整合系統(tǒng),用戶并沒有真正享受到滿意的服務(wù)和便捷的查詢方法。對于圖書館來說,由于數(shù)字資源過于分散,為資源整合帶來了巨大的障礙。同時(shí),由于缺乏統(tǒng)一的思想認(rèn)識和相應(yīng)的標(biāo)準(zhǔn)、規(guī)范,以及科學(xué)的規(guī)劃和組織,一些問題愈加突出。
目前的圖書館數(shù)字資源除部分屬自建數(shù)據(jù)庫外,大部分都采用了由不同的數(shù)據(jù)庫商提供的數(shù)據(jù)庫、學(xué)術(shù)期刊、會議文獻(xiàn)等,如CNKI數(shù)字圖書館、萬方數(shù)據(jù)庫、超星數(shù)字圖書館、SpringerLink等資源,內(nèi)容交叉重復(fù),影響用戶對信息的選擇與獲取,造成了數(shù)字資源整合中的重復(fù)建設(shè)。
多數(shù)數(shù)據(jù)庫的資源收錄原則是“全”,使得大量使用價(jià)值不高的信息進(jìn)入資源系統(tǒng),干擾用戶對信息的正確獲取。
現(xiàn)有數(shù)據(jù)庫資源系統(tǒng)內(nèi)的數(shù)據(jù)對象大都孤立存在,無法體現(xiàn)學(xué)科知識的內(nèi)在聯(lián)系。
每個(gè)數(shù)據(jù)資源又都有其自身獨(dú)特的檢索界面、查詢方法和下載格式。這就需要讀者進(jìn)入到不同的檢索界面,采取不同查詢方法進(jìn)行檢索,并且需要下載安裝不同的閱讀器,這就給用戶實(shí)際利用帶來不必要的麻煩。
由于缺乏規(guī)范、統(tǒng)一的標(biāo)準(zhǔn),不同的數(shù)據(jù)商開發(fā)的數(shù)據(jù)庫在數(shù)據(jù)結(jié)構(gòu)上、字段上存在互異,并且擁有各自的檢索系統(tǒng),因而在檢索上存在著差異,這對實(shí)現(xiàn)同一檢索平臺下的分布式檢索造成了困難。同時(shí),在數(shù)字化建設(shè)過程中,不同的數(shù)據(jù)格式,不同的數(shù)據(jù)結(jié)構(gòu),不同的存儲方式,不相同的管理系統(tǒng),構(gòu)成了數(shù)字圖書館的異構(gòu)數(shù)據(jù)源,從而造成信息源數(shù)據(jù)難以融合等。
數(shù)字資源整合應(yīng)該打破原有資源的體系結(jié)構(gòu)進(jìn)行縱向或橫向重組,再進(jìn)行去重、歸并等過程,形成新的有機(jī)體。但是,這并不能簡單理解為“庫集合”或者“庫鏈接”。根據(jù)具體對象及過程的不同,可進(jìn)行具體的劃分。
OPAC(Online Public Access Catalog)即聯(lián)機(jī)公共目錄檢索系統(tǒng),將MARC記錄納入本館的OPAC系統(tǒng),使OPAC真正成為揭示全部館藏的目錄檢索系統(tǒng)。根據(jù)整合對象的不同,可將基于OPAC系統(tǒng)的資源整合分為館內(nèi)整合與館外整合兩種:館內(nèi)整合是通過在MARC記錄里增加856字段——“電子資源地址與存取”字段,實(shí)現(xiàn)在實(shí)體館藏中揭示并鏈接全文電子文獻(xiàn)的目的。館外整合的實(shí)質(zhì)是實(shí)現(xiàn)本館與不同異構(gòu)OPAC系統(tǒng)的整合,當(dāng)前較多的是通過采用Z39.50協(xié)議來完成。通過執(zhí)行Z39.50標(biāo)準(zhǔn),將所要整合的圖書館的書目數(shù)據(jù)庫先映像成自己專用的模型,再根據(jù)本館要求建立統(tǒng)一的檢索接口。因此,基于OPAC的信息數(shù)字資源整合可實(shí)現(xiàn)館際館藏書目數(shù)據(jù)資源的整合、館藏圖書與隨書光盤資源的整合、館藏圖書與電子圖書的整合、館藏期刊與電子期刊的整合以及與其他數(shù)據(jù)庫的整合等。
基于OPAC系統(tǒng)的數(shù)字資源整合,充分利用了OPAC系統(tǒng)高訪問率的優(yōu)勢,提高數(shù)字資源的利用率,在某種程度上起到非常積極的作用。但它也是一種不完全的整合方式,有著先天性的不足:(1)目前很多電子資源尚不能穩(wěn)定徹底地支持開放鏈接(OpenRUL)標(biāo)準(zhǔn),鏈接地址穩(wěn)定性差,信息源數(shù)據(jù)的更新或任何一點(diǎn)地址變動(dòng)都可能產(chǎn)生死鏈,導(dǎo)致整合工作不能得到持續(xù)有效的保障。(2)整合依賴于圖書館OPAC系統(tǒng)功能的完善程度,如要支持856字段的能力、要有修改書目記錄顯示字段的功能等,而這些功能的實(shí)現(xiàn)往往需要系統(tǒng)開發(fā)商的配合。(3)直接利用MARC格式組織電子資源時(shí)顯得費(fèi)時(shí)費(fèi)力,不僅數(shù)據(jù)加工成本較高,而且很難實(shí)現(xiàn)批量更新與維護(hù)。(4)基于OPAC系統(tǒng)的資源整合實(shí)際上是一種目錄級的整合,只是對信息源進(jìn)行加工,并沒有涉及到數(shù)字資源的內(nèi)容、結(jié)構(gòu),因而并沒有真正解決數(shù)字資源異構(gòu)、交叉帶來的使用問題。
數(shù)字資源導(dǎo)航系統(tǒng)是指將數(shù)字資源的檢索入口整合在一起,建立數(shù)字資源導(dǎo)航庫,提供按資源名、關(guān)鍵詞、資源標(biāo)識等獲取數(shù)字資源的途徑。它通常按資源類型、學(xué)科主題等把數(shù)字資源組織起來,通過數(shù)字資源的URL,利用超文本鏈接提供檢索入口。按資源類型不同,還可以分別建立電子期刊導(dǎo)航系統(tǒng)、數(shù)據(jù)庫導(dǎo)航系統(tǒng)、電子圖書導(dǎo)航系統(tǒng)、電子報(bào)紙導(dǎo)航系統(tǒng)和學(xué)科專題導(dǎo)航系統(tǒng)等。數(shù)字資源導(dǎo)航系統(tǒng)一般都有三個(gè)功能:字順瀏覽功能、分類瀏覽功能和關(guān)鍵詞檢索功能等。這三個(gè)功能可以幫助用戶迅速找到數(shù)字資源,并利用超文本鏈接提供檢索入口,對該數(shù)字資源進(jìn)行檢索。
然而,數(shù)字資源導(dǎo)航系統(tǒng)同樣僅定位在數(shù)字資源的形式層,不能提供內(nèi)容層面上的服務(wù),用戶仍需要通過導(dǎo)航系統(tǒng)分別訪問每個(gè)數(shù)字資源系統(tǒng)的檢索界面。讀者不能按主題、作者查詢文獻(xiàn),而且由于數(shù)據(jù)商、出版商大多沒有提供充分的URL信息,數(shù)據(jù)庫不能創(chuàng)立URL,所以數(shù)字資源的導(dǎo)航系統(tǒng)只能引導(dǎo)讀者進(jìn)入到所在數(shù)據(jù)庫的界面,讀者必須對信息系統(tǒng)進(jìn)行檢索。
利用網(wǎng)絡(luò)超文本鏈接性能,將文獻(xiàn)的有關(guān)知識點(diǎn)鏈接起來,最終達(dá)到將有關(guān)的數(shù)字資源鏈接在一起,形成一個(gè)具有內(nèi)在聯(lián)系的有機(jī)整體。鏈接整合主要有:一是封閉式靜態(tài)鏈接系統(tǒng),所有鏈接都存在本地?cái)?shù)據(jù)(封閉式),所有鏈接都通過專門程序事先計(jì)算、并通過嵌入U(xiǎn)RL來表達(dá)(靜態(tài)鏈接),鏈接準(zhǔn)確性高。二是開放式靜態(tài)鏈接系統(tǒng),解決如何為鏈接源中包含的別人擁有的鏈接對象提供鏈接。三是開放式動(dòng)態(tài)鏈接系統(tǒng),在用戶需要鏈接時(shí)才根據(jù)一定規(guī)則計(jì)算鏈接路徑進(jìn)行鏈接,可對用戶鏈接前剛出現(xiàn)的鏈接對象或位置予以鏈接,也可在鏈接計(jì)算規(guī)則中嵌入選擇規(guī)則實(shí)現(xiàn)選擇性鏈接,如OpenURL,SFX,CrossRef/DOI等。
目前使用最多的是開放式動(dòng)態(tài)鏈接系統(tǒng)SFX。它是由ExLibris公司推出的新的網(wǎng)絡(luò)電子資源無縫鏈接整合軟件系統(tǒng),也可以稱為上下文敏感參考文獻(xiàn)鏈接解決方案。SFX采用Open URL技術(shù),通過 HTTP請求和元數(shù)據(jù)傳遞,對數(shù)據(jù)進(jìn)行分析、搜尋,鏈接到目標(biāo)信息源,并根據(jù)目標(biāo)信息源的可獲取情況,動(dòng)態(tài)地創(chuàng)建鏈接到全文、摘要、期刊目錄等不同的級別,從而使用戶能夠?qū)崿F(xiàn)統(tǒng)一界面檢索,直接獲取目標(biāo)信息源,真正實(shí)現(xiàn)了信息數(shù)據(jù)庫之間的無縫鏈接。它還能夠?qū)崿F(xiàn)在數(shù)據(jù)庫中點(diǎn)擊一篇文章的記錄后顯示所有能夠得到的與這篇文章相關(guān)的服務(wù)選項(xiàng)列表,實(shí)現(xiàn)了在知識整體層面對信息資源進(jìn)行管理的整合。在實(shí)際的應(yīng)用中也依然存在一些問題:它基于一定的OpenURL協(xié)議標(biāo)準(zhǔn),對于發(fā)展比較規(guī)范的國外數(shù)據(jù)庫資源比較適用,但是對于早期遺留數(shù)據(jù)庫和資源數(shù)據(jù)庫構(gòu)建技術(shù)不同、標(biāo)準(zhǔn)不統(tǒng)一的國內(nèi)數(shù)據(jù)庫存在著很大的難度。各個(gè)數(shù)據(jù)庫根據(jù)OpenURL標(biāo)準(zhǔn)制定的接口依然有很大差異,若要根據(jù)自己的需求自行開發(fā)依然比較困難。此外,SFX技術(shù)對檢索數(shù)據(jù)需要在二次檢索的擴(kuò)展服務(wù)中完成“一步到位式”參考鏈接。
某個(gè)學(xué)科的文獻(xiàn)資料可能包含在多種數(shù)據(jù)庫中,讀者要完成某一確定的課題的檢索,往往要通過多個(gè)數(shù)據(jù)庫進(jìn)行多次反復(fù)檢索,才能將與該課題有關(guān)的文獻(xiàn)搜索查全。而數(shù)字資源不同的描述和表達(dá)方式,每個(gè)數(shù)據(jù)資源又都有其自身獨(dú)特的檢索界面、查詢方法、下載格式、檢索式構(gòu)造規(guī)則、檢索算符、檢索字段等都不盡相同,這給用戶的資源檢索造成很大的困難。如果能在同一個(gè)檢索平臺下,實(shí)現(xiàn)多數(shù)據(jù)庫同時(shí)檢索,將大大提高用戶對信息資源獲取的效率。
跨庫整合檢索可分為兩個(gè)層次:第一層次是檢索界面的整合。許多數(shù)字資源檢索界面存在一定的相似性,可將這些相似性形成統(tǒng)一的參數(shù)表,構(gòu)成統(tǒng)一的檢索界面,共享多個(gè)數(shù)據(jù)庫的索引技術(shù)和檢索技術(shù)。第二層次是實(shí)現(xiàn)數(shù)字資源系統(tǒng)間的分布式異構(gòu)整合檢索。檢索界面整合的常見模式是構(gòu)建中間層,當(dāng)用戶提出檢索請求后,其請求被交給服務(wù)器端的一個(gè)Agent程序,Agent將用戶請求轉(zhuǎn)換成相應(yīng)信息系統(tǒng)的查詢語言和檢索方法,再將請求發(fā)送到各數(shù)據(jù)庫,然后將各個(gè)系統(tǒng)返回的命中結(jié)果經(jīng)過篩選、去重、歸并等處理后在同一界面上呈現(xiàn)給用戶。在不改變現(xiàn)有信息系統(tǒng)的數(shù)據(jù)組織結(jié)構(gòu)和檢索方法的條件下,實(shí)現(xiàn)對異構(gòu)的多數(shù)據(jù)源的統(tǒng)一訪問,即提供“一站式”檢索服務(wù)。
實(shí)現(xiàn)分布異構(gòu)環(huán)境下的跨庫檢索,情況比較復(fù)雜。一是追求對所有資源的跨庫檢索只是一種理想狀態(tài),實(shí)際上只能做到兼容盡可能多的資源。二是對幾十種以上的資源籠統(tǒng)地實(shí)現(xiàn)跨庫檢索并無實(shí)用價(jià)值,用戶的需求是針對學(xué)科范疇、針對文獻(xiàn)類型或者針對個(gè)性化需求定制而進(jìn)行的資源檢索和導(dǎo)航。因此,就實(shí)際情況而言,跨庫檢索實(shí)際上是作為一種關(guān)鍵技術(shù)應(yīng)用在圖書館的“資源門戶”中,與開放鏈接、聚類導(dǎo)航、個(gè)性化空間與信息定制、用戶認(rèn)證和權(quán)限控制等功能一起構(gòu)成一個(gè)實(shí)用的數(shù)字資源整合系統(tǒng)。
對于從傳統(tǒng)向現(xiàn)代逐漸過渡的圖書館來說,數(shù)字資源整合是一項(xiàng)復(fù)雜的系統(tǒng)工程。因此,無論采用何種整合模式和技術(shù),都要本著“實(shí)用為主”的原則,明確本館的資源狀況和目標(biāo),將復(fù)雜的應(yīng)用問題轉(zhuǎn)化為簡潔、實(shí)用、友好的方案呈現(xiàn)給用戶,使用戶在面對類型各異的大量數(shù)據(jù)資源時(shí),簡便易行,充分發(fā)揮圖書館館藏?cái)?shù)字資源的作用。
[1]王輝,康美娟.數(shù)字資源的整合探討[J].情報(bào)雜志,2004(8):128-129.
[2]鄭紅京.論圖書館數(shù)字文獻(xiàn)資源采集和檢索模式[J].河南圖書館學(xué)刊,2009(6):78-80.
[3]馬文峰.數(shù)字資源整合研究[J].中國圖書館學(xué)報(bào),2002(4):64-66.
[4]張開選.信息資源整合的原則和方法研究[J].圖書館論壇,2004(5):172-173,147.
[5]陳永選,鄭樂丹.基于網(wǎng)絡(luò)的圖書館信息資源整合模式研究[J].科技情報(bào)開發(fā)與經(jīng)濟(jì),2008(5):29-30.
[6]劉靜香.提高高校圖書館數(shù)字資源利用率的技術(shù)方法[J].圖書館界,2009(3):68-70,75.
[7]張文德,戴曉翔.信息資源整合系統(tǒng)與技術(shù)研究[J].現(xiàn)代圖書情報(bào)技術(shù),2003(6):72-74.
[8]彭鳳蘭,朱長菊.論網(wǎng)絡(luò)信息資源的整合研究[J].高校圖書館工作,2009(2):21-23.
[9]魏來,張蟯林.綜合數(shù)字環(huán)境下信息資源建設(shè)的思考[J].圖書館論壇,2009(6):161-165.
[10]龔亦家.數(shù)字圖書館的資源整合[J].圖書情報(bào)工作,2005(7):76-79.
[11]謝玲.論現(xiàn)階段數(shù)字資源整合的實(shí)用技術(shù)及發(fā)展趨勢[J].現(xiàn)代情報(bào),2007(8):100-103.