龔 芳
荊楚理工學(xué)院圖書館 湖北荊門 448000
圖書館作為信息資源儲(chǔ)存地,長期承擔(dān)著信息資源保存及利用功能,隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,人們對數(shù)字資源的依賴越來越強(qiáng),如何將數(shù)字資源長久保存,讓人們能夠隨時(shí)隨地調(diào)取及安全使用,成為圖書館發(fā)展的一個(gè)重要課題,因此只有充分了解了數(shù)字資源的定義、特性、存儲(chǔ)形式等方面的內(nèi)容,才能長久地保存信息資源,更好地服務(wù)廣大讀者。
數(shù)據(jù)是指對客觀事件進(jìn)行記錄并可以鑒別的符號,是對客觀事物的性質(zhì)、狀態(tài)以及相互關(guān)系等進(jìn)行記載的物理符號或這些物理符號的組合。它是可識別的、抽象的符號。信息與數(shù)據(jù)既有聯(lián)系,又有區(qū)別。數(shù)據(jù)是信息的表現(xiàn)形式和載體,可以是符號、文字、數(shù)字、語音、圖像、視頻等。而信息是數(shù)據(jù)的內(nèi)涵,信息加載于數(shù)據(jù)之上,對數(shù)據(jù)做具有含義的解釋。數(shù)據(jù)和信息是不可分離的,信息依賴數(shù)據(jù)來表達(dá),數(shù)據(jù)則生動(dòng)具體表達(dá)出信息。
數(shù)字資源是文獻(xiàn)信息的表現(xiàn)形式之一,是將計(jì)算機(jī)技術(shù)、通信技術(shù)及多媒體技術(shù)相互融合而形成的以數(shù)字形式發(fā)布、存取、利用的信息資源總和。
商業(yè)化的數(shù)據(jù)庫、機(jī)構(gòu)或個(gè)人建立的數(shù)據(jù)庫、各種網(wǎng)絡(luò)免費(fèi)資源等都屬于數(shù)字資源,例如百度文庫。
圖書館作為人類文明保存地,一直是人們查閱資料獲取知識的重要陣地,但隨著互聯(lián)網(wǎng)技術(shù)不斷發(fā)展,人們越來越習(xí)慣利用網(wǎng)絡(luò)平臺獲取自己所需要的信息資源,人們不再單純地依賴傳統(tǒng)圖書館去查找自己所需要的文獻(xiàn)信息,信息資源存取的自由化、共享化、數(shù)字資源在獲取資料上的便利性以及檢索的快捷性、全面性等特性,成為吸引大眾利用數(shù)字資源的主要原因,數(shù)字圖書館在短時(shí)期內(nèi)迅猛發(fā)展起來,世界各國對數(shù)字資源的開發(fā)也非常重視,美國、日本、加拿大、英國、法國等發(fā)達(dá)國家在數(shù)字圖書館的開發(fā)利用方面取得很大進(jìn)展,形成了國際通用的數(shù)據(jù)模式標(biāo)準(zhǔn),如都柏林核心元數(shù)據(jù)(DC)、編碼文檔描述(EAD)等十多種重要元數(shù)據(jù)標(biāo)準(zhǔn)格式。我國也開發(fā)了許多元數(shù)據(jù)標(biāo)準(zhǔn),如中國機(jī)讀目錄格式(CNMARC),這樣就出現(xiàn)許許多多元數(shù)據(jù)模型,如何使其進(jìn)行對接,讓不同的資源在同一環(huán)境中被充分利用,成為圖書館同行努力的終極目標(biāo)和理想追求,不同的開發(fā)商開發(fā)利用不同的技術(shù)平臺,開發(fā)出了多種多樣的信息資源和不同的元數(shù)據(jù),這樣就形成了技術(shù)壁壘,信息資源的利用變得復(fù)雜起來,信息資源的存儲(chǔ)安全和使用安全受到威脅。目前世界各國都在數(shù)字資源的保存安全方面做了許多有益的嘗試。在數(shù)字資源發(fā)展的過程中,如果對新時(shí)代的計(jì)算機(jī)技術(shù)、通信技術(shù)及多媒體技術(shù)相互融合形成的信息資源沒有了解,必然會(huì)被時(shí)代淘汰。如廣州圖書館,已經(jīng)建立了他們自己的數(shù)字資源網(wǎng)站,如圖1所示。
圖1 廣州圖書館的數(shù)字資源網(wǎng)站
要想使數(shù)字資源得以長期保存,首先必須了解數(shù)字資源的特性。
3.1.1 數(shù)據(jù)對存儲(chǔ)介質(zhì)的依賴
由于數(shù)字資源是虛擬的,如果沒有存儲(chǔ)介質(zhì)和讀取它的網(wǎng)絡(luò)平臺和計(jì)算機(jī)軟硬件環(huán)境,它就成為一種看不見摸不著的東西,因此它對存儲(chǔ)介質(zhì)(物理媒介)具有依賴性,隨著計(jì)算機(jī)技術(shù)的不斷革新,數(shù)字信息網(wǎng)絡(luò)環(huán)境也在不斷變化,相應(yīng)的數(shù)字信息的存儲(chǔ)介質(zhì)也在不停變化,它的存取方式、格式轉(zhuǎn)換都會(huì)產(chǎn)生相應(yīng)的變化,必然會(huì)給數(shù)字資源的保存帶來一系列的問題。
3.1.2 數(shù)據(jù)對元數(shù)據(jù)的依賴
人們獲取數(shù)據(jù)的方式,是通過各種檢索形式搜索得到,如某個(gè)關(guān)鍵詞、某個(gè)內(nèi)容信息及特征。元數(shù)據(jù)是用來揭示各類型數(shù)字信息的內(nèi)容和特性,進(jìn)而對各類型的數(shù)字信息組織、標(biāo)引、分類、索引,以便在數(shù)字資源中方便地查找和檢索。所謂元數(shù)據(jù),英文名Metadata,即Data about data,目前圖書館界對元數(shù)據(jù)還沒有一個(gè)權(quán)威的定義,但人們通常認(rèn)為元數(shù)據(jù)是“關(guān)于數(shù)據(jù)的數(shù)據(jù)”或“關(guān)于數(shù)據(jù)的結(jié)構(gòu)化數(shù)據(jù)”,也就是說元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù)[2]。它從兩個(gè)方面來強(qiáng)調(diào)元數(shù)據(jù)的定義,一方面是元數(shù)據(jù)是提供關(guān)于信息資源或數(shù)據(jù)的結(jié)構(gòu)化數(shù)據(jù),是對信息資源的結(jié)構(gòu)化描述;另一方面是突出其功能,即描述信息資源或數(shù)據(jù)本身的特征和屬性,從而有利于數(shù)據(jù)之間的交流和共享。如MARC和都柏林核心元數(shù)據(jù)就屬于描述性元數(shù)據(jù),它旨在幫助用戶搜索發(fā)現(xiàn)信息并確定其存放位置,然后確定是不是自己所需要的信息。目前國內(nèi)外重要的元數(shù)據(jù)有:都柏林核心元數(shù)據(jù)(DC),其主要作用推動(dòng)網(wǎng)絡(luò)信息資源的發(fā)現(xiàn);藝術(shù)作品描述類目(CDWA),這是描述藝術(shù)作品的結(jié)構(gòu)化工具;編碼文檔描述(EAD)等十多種重要的元數(shù)據(jù)。
3.1.3 數(shù)據(jù)對標(biāo)準(zhǔn)化的依賴
數(shù)字信息的標(biāo)準(zhǔn)化是數(shù)字資源高效利用和長期保存的必要條件,隨著網(wǎng)絡(luò)技術(shù)的不斷創(chuàng)新,數(shù)據(jù)格式的開發(fā)推陳出新,因此數(shù)據(jù)保存的連貫性需要有一個(gè)標(biāo)準(zhǔn)才能長久地保存下來,以利于讀者檢索并加以利用,而有利于文獻(xiàn)保存的標(biāo)準(zhǔn)多種多樣,如數(shù)據(jù)格式標(biāo)準(zhǔn)、資源著錄標(biāo)準(zhǔn)、資源標(biāo)記標(biāo)準(zhǔn)、數(shù)據(jù)歸檔標(biāo)準(zhǔn)、文獻(xiàn)管理標(biāo)準(zhǔn),這些標(biāo)準(zhǔn)有利于圖書館之間的數(shù)據(jù)交換,促進(jìn)館際互借,數(shù)據(jù)共享,網(wǎng)絡(luò)技術(shù)是不斷創(chuàng)新的,而網(wǎng)絡(luò)用戶獲取信息資源的能力千差萬別,對于習(xí)慣了百度和谷歌的網(wǎng)絡(luò)用戶來說,統(tǒng)一的界面,一站式的搜索,跨庫檢索,成為數(shù)字圖書館發(fā)展的目標(biāo),因此圖書館數(shù)字資源的標(biāo)準(zhǔn)化是一個(gè)非常重要的條件。若數(shù)據(jù)沒有標(biāo)準(zhǔn)化,則會(huì)出現(xiàn)如圖2所示的情況。
3.2.1 數(shù)據(jù)的易修改性
存在于網(wǎng)絡(luò)上的數(shù)字資源,人們可以通過增減、復(fù)制來改變數(shù)據(jù)原來的形式,修改后的數(shù)字資源又容易在網(wǎng)上傳播,真假難辨,這樣人們對于網(wǎng)絡(luò)上的數(shù)據(jù)資源的真實(shí)性存在許多疑惑,因此建立一個(gè)全國性的數(shù)字信息歸檔系統(tǒng)十分必要,一個(gè)能被廣泛接受、大眾認(rèn)可、唯一有效與可行的策略是數(shù)字圖書館存在的基礎(chǔ)。
3.2.2 數(shù)據(jù)資源的易破壞性
由于數(shù)據(jù)資源是存儲(chǔ)在一定的設(shè)備(磁、光、電)介質(zhì)上,隨著時(shí)間的變化,一方面存儲(chǔ)介質(zhì)可能由于保存的方式不當(dāng)而失效,另一方面因網(wǎng)絡(luò)環(huán)境的變化造成數(shù)據(jù)信息讀不出來的情況時(shí)有發(fā)生,這種破壞性又分兩種情況,一種是永久的損壞,另一種是可以通過技術(shù)的修復(fù)重新獲取,無論哪一種情況,對于信息資源的保存和獲取都是不利的。
3.2.3 網(wǎng)絡(luò)風(fēng)險(xiǎn)
網(wǎng)絡(luò)系統(tǒng)是一個(gè)開放的系統(tǒng),存在于網(wǎng)絡(luò)上的數(shù)字資源,易受網(wǎng)絡(luò)黑客攻擊、病毒侵?jǐn)_,信息在傳輸和存儲(chǔ)的過程中,由于硬件故障、系統(tǒng)故障、人為因素等各種狀況對信息資源造成危害的情況時(shí)有發(fā)生。
3.3.1 數(shù)字資源的多樣性
數(shù)字資源的多樣性主要表現(xiàn)在兩方面,一方面,語種的多樣性,世界上有5 000多種不同的語言,其中使用最廣泛的是英語,使用人數(shù)最多的是漢語,這些語言又以不同的表達(dá)方式存在。另一方面,信息資源結(jié)構(gòu)形式多樣,有結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),如數(shù)字和符號等結(jié)構(gòu)性數(shù)據(jù)能用數(shù)據(jù)和統(tǒng)一的結(jié)構(gòu)加以表示,而非結(jié)構(gòu)性數(shù)據(jù)如圖像、聲音、視頻等則不能。
3.3.2 數(shù)字資源的復(fù)雜性
21世紀(jì)是信息資源大爆炸的時(shí)代,誰擁有了數(shù)據(jù),誰就占據(jù)科技發(fā)展的最前沿,因此世界各國紛紛斥巨資進(jìn)行數(shù)字資源的開發(fā)與建設(shè)。數(shù)字資源的復(fù)雜性表現(xiàn)在:其一,數(shù)字資源的內(nèi)容規(guī)范、數(shù)據(jù)結(jié)構(gòu)、檢索策略不同;其二,不同開發(fā)商有不同的數(shù)據(jù)平臺和數(shù)據(jù)庫。各數(shù)字資源在同一個(gè)數(shù)據(jù)庫中時(shí)很好用,當(dāng)出現(xiàn)跨庫檢索時(shí)就會(huì)遇到許多難題,所以需要統(tǒng)一標(biāo)準(zhǔn)。
數(shù)字資源的保存包括三個(gè)方面:安全存儲(chǔ)、保存元數(shù)據(jù)和永久獲取,這就需要解決數(shù)字信息存儲(chǔ)的介質(zhì)和技術(shù)形態(tài)問題,保證數(shù)據(jù)能夠安全存取,無論現(xiàn)在和將來,都能夠通過技術(shù)措施還原存儲(chǔ)信息、實(shí)現(xiàn)永久獲取。
制訂基于館際互借的國際統(tǒng)一協(xié)作標(biāo)準(zhǔn)實(shí)現(xiàn)數(shù)字資源的長期保存,是為了更好地利用資源,讓數(shù)字資源持續(xù)地保存并長久地得到利用。目前國際上對數(shù)字資源的利用制訂了許多標(biāo)準(zhǔn),為數(shù)字資源的利用提供了很大便利。
(1)國際標(biāo)準(zhǔn)化組織(ISO)制訂并完成了OAIS開放的檔案信息系統(tǒng)參考模型及MPEG-7(多媒體內(nèi)容描述界面)等重要的國際標(biāo)準(zhǔn)。(2)遠(yuǎn)程信息檢索協(xié)議(Z39.50)支持計(jì)算機(jī)使用一種標(biāo)準(zhǔn)、相互可理解的方式進(jìn)行傳輸和通信,支持不同結(jié)構(gòu)、不同格式和內(nèi)容的數(shù)據(jù)在網(wǎng)絡(luò)平臺上進(jìn)行數(shù)據(jù)傳輸,實(shí)現(xiàn)了異構(gòu)平臺、異構(gòu)系統(tǒng)之間的互聯(lián)與查詢,目前大部分自動(dòng)化系統(tǒng)集成了Z39.50的協(xié)議功能,用戶只要采用基于Z39.50檢索軟件就可以同時(shí)對世界上多種異構(gòu)平臺數(shù)據(jù)庫進(jìn)行檢索,實(shí)現(xiàn)信息資源共享。(3)通用的標(biāo)準(zhǔn)置標(biāo)語言(SGML/XML),這是一種特殊的標(biāo)記語言,一個(gè)包含文字、圖像、影像、聲音、符號等各種類型的數(shù)據(jù)集合,它在文件的保護(hù)和安全交換等方面具有強(qiáng)大的優(yōu)勢,SGML/XML提供了一種標(biāo)引結(jié)構(gòu)化的數(shù)據(jù)框架,當(dāng)用戶查詢某一特定內(nèi)容時(shí),通過借助SGML/XML的查詢引擎,可實(shí)現(xiàn)跨庫跨平臺高效檢索。(4)元數(shù)據(jù)互操作協(xié)議(OAI),是建立在HTTP協(xié)議基礎(chǔ)上的應(yīng)用協(xié)議,能夠?qū)崿F(xiàn)不同系統(tǒng)平臺之間的元數(shù)據(jù)的交換與共享,簡化電子資源的傳遞,提高系統(tǒng)之間的互操作能力。(5)館際互借協(xié)議Z39.83,通過此協(xié)議可實(shí)現(xiàn)三個(gè)方面的功能:借還書功能、可控的電子資源訪問功能以及這些功能的相互協(xié)調(diào)和管理。(6)資源的鏈接技術(shù)與標(biāo)準(zhǔn)(SFX與OpenURL),OpenURL是一個(gè)開放的統(tǒng)一資源定位器,它可以通過SFX解析服務(wù)器實(shí)現(xiàn)不同供應(yīng)商或不同平臺上內(nèi)容關(guān)聯(lián)的數(shù)據(jù)鏈接。這些標(biāo)準(zhǔn)的制訂都為數(shù)字資源共享提供了極大的便利和可能(如圖3所示)。
圖3 不同供應(yīng)商或不同平臺的數(shù)據(jù)連接
目前數(shù)字資源技術(shù)處理策略有仿真、更新、轉(zhuǎn)換、遷移和再生性保護(hù)技術(shù),隨著數(shù)字信息的爆炸式增長,這些技術(shù)也處于不斷發(fā)展與完善之中,還會(huì)出現(xiàn)新的技術(shù)形態(tài)的保存方式,數(shù)字資源除了物理形態(tài)的安全保存外,還需要信息長期保存方面的管理策略:一是建立數(shù)字信息的恢復(fù)中心,許多數(shù)字信息雖然做了備份和保存,但不能保證它們長久地存在并在多年之后還能被人理解和應(yīng)用,隨著數(shù)字技術(shù)的不斷發(fā)展,現(xiàn)有技術(shù)應(yīng)用和平臺在若干年后也許將被淘汰,這樣就必須有一個(gè)數(shù)字恢復(fù)中心來承擔(dān)數(shù)字資源長期保存的技術(shù)問題,用以解決由于軟、硬件故障或其他災(zāi)難性事件帶來的數(shù)據(jù)損失問題。二是建立數(shù)字信息歸檔系統(tǒng),一個(gè)能夠被廣泛接受并唯一有效的數(shù)字歸檔中心,這樣有利于實(shí)現(xiàn)對數(shù)字資源系統(tǒng)全面的管理,使之對國家經(jīng)濟(jì)、社會(huì)方面的重要發(fā)展及科技領(lǐng)域的重要進(jìn)步等承擔(dān)數(shù)字信息管理和保存的責(zé)任。三是數(shù)據(jù)庫要使用通用的程序語言,遵循統(tǒng)一的格式,向標(biāo)準(zhǔn)化發(fā)展;建立高層信息搜索管理中間件系統(tǒng)。這種中間件系統(tǒng)作為用戶界面和數(shù)字圖書館底層信息服務(wù)的中間層,將用戶查詢語言翻譯為通用查詢語言,根據(jù)不同的條件選擇并調(diào)用合適的信息服務(wù)設(shè)施,然后通過底層返回的信息匯總,提交給用戶。在這兩方面,圖書館實(shí)際上已經(jīng)做了大量的工作,如HTML,XML以及TCP/IP等的應(yīng)用使人們能進(jìn)入互聯(lián)網(wǎng)上的任意一個(gè)Web服務(wù)器,而Z39.50以及ISO2709的應(yīng)用,更使人們能在同一界面檢索不同的書目數(shù)據(jù)庫,實(shí)現(xiàn)了書目數(shù)據(jù)庫之間的跨庫檢索,如國內(nèi)清華同方的TPI系統(tǒng)能使人們在同一界面檢索不同的異構(gòu)數(shù)據(jù)庫。圖4所示為清華同方TPI系統(tǒng)的業(yè)務(wù)流程圖。
圖4 清華同方TPI系統(tǒng)的業(yè)務(wù)流程圖
數(shù)字資源的長期保存,除了技術(shù)上的要求外,還需要巨大的管理費(fèi)用,需要各方共同完成,經(jīng)濟(jì)因素是不可忽略的重要方面,因?yàn)槟壳斑€沒有任何一個(gè)圖書館或部門能夠解決數(shù)字資源建設(shè)和保存的問題,為了實(shí)現(xiàn)數(shù)字全球共享這一最高目標(biāo),需要國家與國家之間、各機(jī)構(gòu)之間多方面合作,這種合作不僅僅是指圖書館與出版商、技術(shù)公司之間的合作,更主要的是直接進(jìn)行長期保存機(jī)構(gòu)之間的合作,2003年聯(lián)合國教科文組織發(fā)布了《保存數(shù)字化遺產(chǎn)憲章》,其中第8條提出:為了保護(hù)數(shù)字化遺產(chǎn),各會(huì)員國須有必要的法律框架,建議會(huì)員國制訂的國家遺產(chǎn)保存政策應(yīng)該保證圖書館等公共文獻(xiàn)保存機(jī)構(gòu)可以在繳送法制或其他法律強(qiáng)制力的作用下獲得數(shù)字化遺產(chǎn)。因此傳統(tǒng)圖書館成為信息資源長期保存的實(shí)施者。
據(jù)此有些國家修改了相應(yīng)的法律,將網(wǎng)絡(luò)文獻(xiàn)作為法定繳送對象。1996年澳大利亞國家圖書館制訂了《澳大利亞電子出版物的國家策略》,其重點(diǎn)放在光盤文獻(xiàn)上,聯(lián)合7家州立圖書館,建立了分布式的保存網(wǎng)絡(luò)—國家模型,目前已建成用戶可以直接通過PANDORA站點(diǎn)訪問的國家聯(lián)機(jī)出版物知識庫。美國國會(huì)圖書館通過了國家數(shù)字信息基礎(chǔ)設(shè)施和保存方面的規(guī)劃,設(shè)計(jì)和實(shí)現(xiàn)了國家的數(shù)字資源長期保存的基礎(chǔ)結(jié)構(gòu)。其他發(fā)達(dá)國家,如英國、荷蘭、法國等國家也不同程度地開展了數(shù)字資源長期保存方面的活動(dòng)。同時(shí)高校圖書館也是其重要的組成部分,其中的學(xué)術(shù)性資源是最具保存價(jià)值的部分,如加州大學(xué)建成了世界著名數(shù)字圖書館(簡稱CDL),成為全校的數(shù)字保存中心,其分布式系統(tǒng)結(jié)構(gòu)滿足了公共保存的需要。而出版商和一些非盈利信息機(jī)構(gòu)成為重要的補(bǔ)充力量。
數(shù)字資源版權(quán)屬于誰?開發(fā)商,原作者,還是保存者?這是需要解決的問題,目前出版商一般給予訂購者使用權(quán),或是提供若干年前的回溯數(shù)據(jù)。
數(shù)字資源要想得到長久保存,并延續(xù)下去,就要遵循共同的國際標(biāo)準(zhǔn),解決數(shù)字資源的版權(quán)問題,在各國政府的大力支持下,以圖書館為主體,依靠先進(jìn)的計(jì)算機(jī)技術(shù)和管理策略,讓數(shù)字資源健康地發(fā)展并長久地得到利用。