付躍安
圖書館地方文化遺產(chǎn)數(shù)字化研究
付躍安
中華文明源源流長,積累下來的文化瑰寶數(shù)不勝數(shù),開展文化遺產(chǎn)數(shù)字化建設(shè)對中華文化的傳承和發(fā)揚(yáng)具有積極意義。圖書館作為重要的文化機(jī)構(gòu),負(fù)有保管本地文化遺產(chǎn)的責(zé)任。文章從資源建設(shè)、資源組織、數(shù)據(jù)加工、文本建設(shè)、服務(wù)與版權(quán)等五方面探討圖書館地方文化遺產(chǎn)數(shù)字化建設(shè),結(jié)合圖書館業(yè)務(wù)特點(diǎn)提出實施對策。
圖書館 地方文化 文化遺產(chǎn) 數(shù)字化
2015年4月30日,歷經(jīng)10年時間、耗資近億元的地方古籍文獻(xiàn)匯編《廣州大典》出版并對外發(fā)行,與此同時,“廣州大典數(shù)據(jù)庫”正式上線。通過該數(shù)據(jù)庫,讀者可以查閱到90%的《廣州大典》全文,數(shù)據(jù)庫實行全球認(rèn)證,只需完成注冊,任何人都可以隨時隨地利用《廣州大典》的相關(guān)信息資源。目前,全球各地借助互聯(lián)網(wǎng)傳播本國和本土文化受到廣泛關(guān)注,近年來先后推出了一系列文化遺產(chǎn)數(shù)字化項目,如(日本)PORTA門戶、美國記憶、美國公共數(shù)字圖書館、(歐洲)MINERVA、Europeana、世界數(shù)字圖書館[1]等。五千年的中華文明積累的文化瑰寶數(shù)不勝數(shù),借助互聯(lián)網(wǎng),使中華文明得到更好的保護(hù)和傳承,是歷史賦予我國圖書館界的使命。
近幾十年來,文化遺產(chǎn)保護(hù)日益受到國際社會重視,聯(lián)合國教科文組織成立了世界文化遺產(chǎn)委員會,下設(shè)自然遺產(chǎn)、文化遺產(chǎn)、自然與文化雙遺產(chǎn)、口頭與非物質(zhì)文化遺產(chǎn)、世界記憶等項目,頒布的《世界文化遺產(chǎn)名錄》《世界記憶名錄》中,中國已有多項文化遺產(chǎn)進(jìn)入名錄,如由中國國家圖書館申報的樣式雷圖被列入《世界記憶》名錄。文化遺產(chǎn)備受關(guān)注,是由于人們越來越意識到文化傳承對社會發(fā)展的重要及其意義。2015年,獲得諾貝爾生理醫(yī)學(xué)獎的我國藥學(xué)家屠呦呦在領(lǐng)獎時表示,正是東晉葛洪《肘后備急方》中“青蒿一握,以水二升漬,絞取汁,盡服之”的記載為她的研究提供了關(guān)鍵啟示[2]。借助傳承,傳統(tǒng)文化可以在當(dāng)代重新煥發(fā)活力,當(dāng)代文化也由于繼承了傳統(tǒng)文化而更趨成熟。
表1 地方文化遺產(chǎn)數(shù)字化案例
自誕生之日起,文化遺產(chǎn)就面臨著損毀風(fēng)險,大量自然和人為因素對文化遺產(chǎn)構(gòu)成威脅。以古籍收藏為例,我國古籍收藏有“十不存一”“百不存一”的說法。明代藏書家葉勝感嘆:“夫天地間物,以余觀之,難聚而易散者,莫若書也。”[3]福州鼓山涌泉寺因遭遇臺風(fēng)襲擊致使藏經(jīng)閣浸水;北京民族文化宮圖書館因遭遇供暖管道破裂;德國魏瑪安娜·阿瑪利亞圖書館因火災(zāi)等都造成了大量珍貴古籍的破壞。另據(jù)估計,在我國所藏3000多萬冊(件)古籍中,有1000多萬冊(件)都存在不同程度的損壞,其中20萬冊(件)屬于瀕危古籍[4]。為延長文化遺產(chǎn)壽命,人們往往采取嚴(yán)格的保管方式,制定周詳?shù)谋9苤贫?,但保護(hù)力度的加大必然對古籍的使用造成一定的限制,而文化傳承離不開對古籍的使用,特別是文獻(xiàn)型遺產(chǎn)存在著廣泛的社會需求。有鑒于此,文化再造(又稱再生性保護(hù))得到認(rèn)可和應(yīng)用。文化再造使文化內(nèi)容脫離原始載體,在第二載體上復(fù)現(xiàn),文化生命得以延長,并通過新載體在時間上的存續(xù)和在空間上的擴(kuò)散而得到更廣泛的傳播和利用。同時,文化再造降低了對原始文化載體的使用需求,有利于緩解保護(hù)與使用的矛盾。我國歷朝政府和學(xué)者均重視文化再造,如漢代政府對先秦文化的搶救;唐修《藝文類聚》《文館詞林》《北堂書鈔》等;宋修《太平御覽》《太平廣記》等;明修《永樂大典》;清修《四庫全書》等,均屬于大型文化再造工程。據(jù)余秋雨記載,乾隆編纂《四庫全書》時,天一閣曾進(jìn)呈珍貴古籍600余種,其中96種被《四庫全書》收錄,370余種被列入存目[5]。盡管其后天一閣藏書屢遭浩劫,藏書散失無數(shù),但今人仍可以通過《四庫全書》窺見這96種圖書的完整面貌。1949年后,為解決《清明上河圖》的保護(hù)與使用問題,國家下達(dá)了臨摹任務(wù),榮寶齋的馮忠蓮女士經(jīng)過近20年的艱苦工作,終于完成了幾可亂真的《清明上河圖》臨摹畫作,通過對臨摹畫作的再復(fù)制,才有了我們今天看到的《清明上河圖》。
數(shù)字化為文化再造開辟了新的途徑,具有時間短、傳播廣等優(yōu)點(diǎn)。“盡管數(shù)字化代價昂貴,但除此之外,似乎找不到一個更好的辦法可以減輕有大量需求的資源所面臨的壓力”[6]。文化遺產(chǎn)數(shù)字化一直受到各國的重視,2002年歐洲數(shù)字化項目MINERVA在西班牙阿利坎特城舉辦了一次協(xié)調(diào)會,來自奧地利、比利時、丹麥、芬蘭、法國、德國、希臘、愛爾蘭、意大利、葡萄牙、瑞典等國的代表闡述了本國文化與科學(xué)遺產(chǎn)的數(shù)字化政策,近年已有多個國家級、地區(qū)級和全球級文化遺產(chǎn)的數(shù)字化項目推出,許多國家圖書館將對本國文化遺產(chǎn)進(jìn)行數(shù)字化永久保存納入到職責(zé)之中[7](參見表1)。中國國家圖書館很早就開始古籍?dāng)?shù)字化,近年啟動了“中國記憶”項目。但是國家、國際項目只能面向重點(diǎn)課題和重點(diǎn)資源,對區(qū)域文化遺產(chǎn)的保護(hù)和數(shù)字化往往力不從心,因此文化遺產(chǎn)數(shù)字化也應(yīng)從地區(qū)層面推進(jìn),而各地文化機(jī)構(gòu)如圖書館理應(yīng)擔(dān)負(fù)起對本地文化遺產(chǎn)進(jìn)行數(shù)字化的重任。
2.1 資源建設(shè)
2.1.1 資源選擇
由于數(shù)字化成本較高,因此在建庫前有必要考慮選擇哪些文化遺產(chǎn)進(jìn)行數(shù)字化?!吨腥A人民共和國文物保護(hù)法》指出,文物工作應(yīng)貫穿“保護(hù)為主,搶救第一,合理利用,加強(qiáng)管理”的原則,而數(shù)字化屬于文物保護(hù)的一種,因此文化遺產(chǎn)數(shù)字化可參照上述要求?!爸袊洃洝贝_定的三項文化遺產(chǎn)選擇原則是:搶救性原則、代表性原則與前瞻性原則[10];歐洲MINERVA確定的資源選擇原則是:信息獨(dú)有性原則、社會公眾興趣原則、版權(quán)清晰原則、其它風(fēng)險[11],對我國開展地方文化遺產(chǎn)數(shù)字化具有借鑒價值。根據(jù)《國際圖聯(lián)數(shù)字化項目指南》(IFLA Guideline of Digitization Projects),用于數(shù)字化的文化遺產(chǎn)選擇標(biāo)準(zhǔn)可歸結(jié)為三類:內(nèi)容、需求與條件[12]。其中,內(nèi)容價值是考慮投入數(shù)字化成本的基礎(chǔ);在同等條件下應(yīng)優(yōu)先對用戶需求量大的文化資源進(jìn)行數(shù)字化;也需要考慮資源本身,資源的瀕危性既可能促成數(shù)字化,也可能阻礙數(shù)字化。
本文認(rèn)為,應(yīng)從兩個角度考慮文化遺產(chǎn)的選擇:一是保護(hù)角度,二是利用角度,盡管兩者很難分開,但不同項目有不同的側(cè)重。“廣州大典數(shù)據(jù)庫”屬于應(yīng)用型項目,目的是促進(jìn)廣府文化的傳承和弘揚(yáng);而在建的“延邊圖書館朝鮮文獻(xiàn)數(shù)字化”則屬于保護(hù)型項目,因為被數(shù)字化的朝鮮文獻(xiàn)已到了無法辨認(rèn)的邊緣;“延安時期(1935-1948)黨中央機(jī)關(guān)報數(shù)據(jù)庫”則兼具保護(hù)與利用雙重目的。具體來講,地方圖書館在開展文化遺產(chǎn)數(shù)字化時可從以下幾方面選擇資源:(1)代表性。優(yōu)先選擇那些能代表本地特色文化的資源進(jìn)行數(shù)字化,特別是已進(jìn)入世界或國家文化遺產(chǎn)名錄的資源;(2)搶救性。優(yōu)先選擇瀕危資源進(jìn)行數(shù)字化,但要注意數(shù)字化過程對資源本身的損害;(3)需求性。需求較高的文化資源應(yīng)優(yōu)先進(jìn)行數(shù)字化;(4)可獲得性;(5)先易后難。
2.1.2 資源類型
根據(jù)聯(lián)合國教科文組織的界定,文化遺產(chǎn)包括三類:第一是人類文化遺產(chǎn),包括有形文化遺產(chǎn)和無形文化遺產(chǎn),前者包括可移動文化遺產(chǎn)、不可移動文化遺產(chǎn)與水下文化遺產(chǎn),后者包括口述傳統(tǒng)、表演藝術(shù)和儀式等;第二是自然文化遺產(chǎn);第三是軍事沖突遺產(chǎn)[13],也可統(tǒng)稱為物質(zhì)文化遺產(chǎn)與非物質(zhì)文化遺產(chǎn)。本文從圖書館學(xué)角度出發(fā),將用于數(shù)字化的文化遺產(chǎn)劃分為:(1)文獻(xiàn)型(包括古籍、舊書、家/族譜、方志、手稿等);(2)擴(kuò)展文獻(xiàn)型(包括書法、碑文與拓片、石刻、甲骨、輿圖、圖片等);(3)非文獻(xiàn)型(指除上述兩類資源之外的其他文化遺產(chǎn),又可劃分為實體型與虛擬型)等三類。其中必要的非文獻(xiàn)型文化遺產(chǎn)亦應(yīng)收錄,因為不同類型的文化遺產(chǎn)可能是同一文化行為的結(jié)果,承載著共同的文化符號,在進(jìn)行數(shù)字化時很難將它們分開。
古籍是一種重要的文化遺產(chǎn)。地方文化古籍通常指本地產(chǎn)生的古籍資源,也包括部分外地產(chǎn)生、與本地有關(guān)的古籍資源。《廣州大典》就是以地方古籍資源為對象編撰而成的大型叢書,共收錄圖書4064種,以廣州人士(含寓賢)著述為主,兼及廣州歷史文化著述和廣州版叢書,“廣州大典數(shù)據(jù)庫”收錄了該書90%的古籍影印圖像。近年國外不少文化機(jī)構(gòu)都將著名學(xué)者的手稿數(shù)字化后在網(wǎng)上公布,方便研究人員近距離了解他們的研究歷程。牛頓曾在劍橋大學(xué)學(xué)習(xí)和工作40余年,從2011年12月起,劍橋大學(xué)數(shù)字圖書館陸續(xù)公布超過4000頁的牛頓手稿,包括牛頓撰寫和注釋的《自然科學(xué)數(shù)字原理》等經(jīng)典著作的手稿(參見圖1)。
圖1 牛頓《基礎(chǔ)數(shù)據(jù)》手稿
我國國內(nèi)還有一種特殊的文獻(xiàn)類型——民國文獻(xiàn)。目前學(xué)術(shù)界在提到民國文獻(xiàn)時大多是指大中城市圖書館、學(xué)校和檔案館中保留下來的民國時期的文獻(xiàn),這些機(jī)構(gòu)在1949年前的大部分時間處在“國統(tǒng)區(qū)”。根據(jù)斯諾在《西行漫記》中的記載,在國民黨對蘇區(qū)采取政治、經(jīng)濟(jì)、軍事和文化的全面封鎖下,蘇區(qū)能夠利用的出版物資源非常有限,只能通過自編簡易出版物的方式進(jìn)行文化和思想建設(shè)[14],如《新中華報》早期采用手書蠟版、手工油印,這些文獻(xiàn)不可能進(jìn)入“國統(tǒng)區(qū)”文化機(jī)構(gòu)(參見圖2)。1947年胡宗南進(jìn)攻延安,大量紅色文獻(xiàn)被毀,所余文獻(xiàn)后散落于各類機(jī)構(gòu)和個人手中?!把影矔r期(1935-1948)黨中央機(jī)關(guān)報全文數(shù)據(jù)庫”即是對紅色文獻(xiàn)進(jìn)行搶救性保護(hù)的一個有益嘗試。
2.1.3 資源來源
有學(xué)者認(rèn)為,特色數(shù)據(jù)庫的資源不應(yīng)僅表現(xiàn)在館藏和學(xué)科特色上,更應(yīng)表現(xiàn)在獨(dú)特的資源類型和來源上[15]。根據(jù)文化遺產(chǎn)載體的特點(diǎn),本文將文化資源的來源劃分為兩類:原始資料與二次資料。原始資料是指承載文化內(nèi)容的原生載體;二次資料是指以原始資料為基礎(chǔ)形成的再生資料。例如,一張老照片,原始資料指的是這張照片的原件;二次資料指的是收錄這張照片影像的圖書、報紙或其他數(shù)據(jù)庫資源等。原始資料大多以非公共傳播領(lǐng)域的資料為主,包括尚未進(jìn)入公共傳播領(lǐng)域的“私有信息”以及曾經(jīng)進(jìn)入但已退出公共傳播領(lǐng)域的“公共知識”[16],前者如私人信件、機(jī)構(gòu)文件,后者如古舊圖書。國外文化遺產(chǎn)數(shù)據(jù)庫大多以原始資料為對象。國內(nèi)特色數(shù)據(jù)庫中,多以二次資料為對象,通過從圖書、報紙、互聯(lián)網(wǎng)或現(xiàn)有數(shù)據(jù)庫中選取與主題有關(guān)的影像、文字等資料組織資源。這種以二次資料為來源的建庫方式會對數(shù)據(jù)庫建設(shè)造成負(fù)面影響,如資料類型單一、開放程度低[17-18]、利用情況不理想等[19]。對學(xué)者來講,原始資料的價值是二次資料無法取代的[20],因為后者體現(xiàn)出來的資料組織視角、資料取舍標(biāo)準(zhǔn)乃至對資料的解讀都受到二次資料編撰者的影響,同時原始資料所具有的其他伴隨信息在二次資料中亦未必能全面反映。
圖2 延安時期出版的《新中華報》
文化遺產(chǎn)原始資料的保存狀況比較復(fù)雜。在經(jīng)歷長期的聚散和流轉(zhuǎn)后,由一家機(jī)構(gòu)收集齊全某一主題或某一類型資料的情況在現(xiàn)實中比較少見,多數(shù)情況下資料被分散在不同機(jī)構(gòu)或個人手中,有些甚至流散到了國外。據(jù)劍橋大學(xué)數(shù)字圖書館網(wǎng)站介紹,牛頓去世后,其手稿首先傳給他的侄女Catherine,1872年劍橋大學(xué)獲得部分手稿,1936年其余手稿被拍賣,由多所圖書館和個人購得,2000年劍橋大學(xué)再次獲得一批手稿[21]。對未進(jìn)入公共傳播領(lǐng)域的“私有信息”,一般著名人物或著名機(jī)構(gòu)的資料容易得到重視,因而能夠被保存得較完好和長久,但可能會比較分散。由于私有信息通常不存在復(fù)件或復(fù)件數(shù)量極少,因此一旦分散,若要再次匯聚,就會非常困難。對曾經(jīng)進(jìn)入但已退出公共傳播領(lǐng)域的“公共信息”,由于在資料生成和傳播期間存在著社會化的收集和保管機(jī)制,因此被保存下來的幾率較高,而且公共信息在生成之初大都有一定的副本,隨著時間推移,雖然一個機(jī)構(gòu)的收藏可能出現(xiàn)缺失,但存在著可從其他機(jī)構(gòu)補(bǔ)充部分缺藏的可能。
2.2 資源組織
我國有關(guān)特色數(shù)據(jù)庫資源組織的研究成果較少[22]。圖書館界已經(jīng)建立了完善的分類法,如《杜威十進(jìn)分類法》《中國圖書館分類法》,但它們在應(yīng)用于文化遺產(chǎn)資源組織時存在較大局限。分類法主要用于組織當(dāng)代圖書資料,時代不同,思維方式也不一樣,對作為思維產(chǎn)物的文化成果進(jìn)行組織的標(biāo)準(zhǔn)也應(yīng)有所不同。圖書館分類法是基于學(xué)科維度的組織標(biāo)準(zhǔn),這種單維度的組織很難滿足對文化遺產(chǎn)的多維度理解和管理,特別是在涉及專題資源時其不足顯而易見[23]。文化遺產(chǎn)資源類型的多樣化、資源產(chǎn)生和應(yīng)用情境的異質(zhì)性都要求突破學(xué)科分類局限,建立多維度資源組織體系。對某些已被文化機(jī)構(gòu)如圖書館、檔案館和博物館整理過的文化遺產(chǎn),建庫時可以直接利用已有的組織體系,如“延安時期黨中央機(jī)關(guān)報全文數(shù)據(jù)庫”對報紙文章的劃分就是依據(jù)學(xué)者編制機(jī)關(guān)報索引時設(shè)置的類目;否則建庫者就要自行設(shè)計組織體系。即便如此也應(yīng)考慮是否可應(yīng)用或參考已有標(biāo)準(zhǔn)。比如,“廣州大典數(shù)據(jù)庫”采用類分古籍常用的方式,設(shè)置了經(jīng)、史、子、集、叢五部;“日裔美國人強(qiáng)制遷移數(shù)字檔案”采用加州統(tǒng)一分類標(biāo)準(zhǔn)即“加州內(nèi)容標(biāo)準(zhǔn)”(California Content Standard)。
實踐中對文化遺產(chǎn)資源的組織有多種方式,本文將其劃分為三類:(一)基于內(nèi)容屬性的組織,如學(xué)科法、主題法;(二)基于物理屬性的組織,如以作者、地點(diǎn)、時間、介質(zhì)、歸屬等進(jìn)行組織;(三)基于應(yīng)用屬性的組織,即根據(jù)資源發(fā)揮功能的方式阻織。對內(nèi)容屬性較強(qiáng)的文化資源,如文獻(xiàn)型或部分?jǐn)U展文獻(xiàn)型資源可采用學(xué)科法或主題法;如果資源數(shù)量不多或內(nèi)容屬性不強(qiáng),則可采用物理屬性組織,如字順、地點(diǎn)、時間。在物理屬性中,基于地點(diǎn)和時間的組織相對穩(wěn)妥,因為任何資源都可與一定的地點(diǎn)和時間建立聯(lián)系,而且采用地點(diǎn)和時間也有利于使用地圖和時間軸等可視化方式。美國公共數(shù)字圖書館設(shè)置了一個時間軸,讀者拖動時間砝,可以瀏覽特定時間內(nèi)產(chǎn)生的文化資源。當(dāng)文化遺產(chǎn)與當(dāng)代生活息息相關(guān),且很難借用現(xiàn)成分類法時,可以考慮基于應(yīng)用屬性的劃分,如佛山石灣圖書館建設(shè)的“多媒體陶瓷數(shù)據(jù)庫”將陶瓷產(chǎn)品從“用”的角度劃分為建筑陶瓷、園林陶瓷、日用陶瓷、美術(shù)陶瓷等類[24]。在實踐中,大多數(shù)據(jù)庫設(shè)立一個主組織結(jié)構(gòu),輔以其他組織方式,以提供多途徑發(fā)現(xiàn)機(jī)會。
2.3 數(shù)據(jù)建設(shè)
2.3.1 元數(shù)據(jù)
在國際、國內(nèi)推出的多項元數(shù)據(jù)標(biāo)準(zhǔn)中都有針對文化遺產(chǎn)的規(guī)則,如《中國文獻(xiàn)編目規(guī)則》與CALIS、CADAL數(shù)字圖書館建設(shè)標(biāo)準(zhǔn);一些標(biāo)準(zhǔn)則專門用于文化遺產(chǎn)的著錄,如《古籍著錄規(guī)則》、CALIS特色庫子項目系列元數(shù)據(jù)標(biāo)準(zhǔn)、CDWA、CIMI、EDM。在國外,DC標(biāo)準(zhǔn)被廣泛用于文化遺產(chǎn)數(shù)據(jù)庫建設(shè)。數(shù)據(jù)加工需要實現(xiàn)多方面的功能,包括資源揭示、資源組織、資源存儲和獲取、資源管理等,不同機(jī)構(gòu)與不同項目在涉及上述內(nèi)容時往往有不同的要求,甚至同一項目中不同資源也有不同的要求。同時,現(xiàn)有標(biāo)準(zhǔn)大多是針對文化遺產(chǎn)中的典型資源而作出的規(guī)范,如古籍、輿圖、家譜、拓片、地方志、手稿,涵蓋有限。因此,元數(shù)據(jù)標(biāo)準(zhǔn)有必要進(jìn)行本地化加工[25-26],例如,由于年代久遠(yuǎn),“漢畫像石(磚)數(shù)字資源庫”中畫像石(磚)的作者及死海古卷數(shù)字圖書館中古卷的作者均已不可考;在“南海及南海諸島數(shù)據(jù)庫”中,需要設(shè)置專門的字段以標(biāo)注文獻(xiàn)中出現(xiàn)的有關(guān)南海諸島歸屬中國的證據(jù)[27];上海年華在抗戰(zhàn)圖片中設(shè)置“事件主題”字段,以揭示資源背后的歷史事件,不僅有助于增強(qiáng)人們對資源的理解,也有助于加深人們對歷史事件的認(rèn)識。
元數(shù)據(jù)需要就文化資源的三個層面進(jìn)行揭示:文化內(nèi)容、載體信息、數(shù)字化信息。以一張關(guān)于藝術(shù)品的照片為例,文化內(nèi)容指藝術(shù)品所代表的文化信息,如藝術(shù)品的名稱、類型、作者、創(chuàng)作時間和創(chuàng)作地點(diǎn);載體信息指與照片有關(guān)的信息,如載體類型(照片)、拍攝者、拍攝時間和拍攝地點(diǎn)、尺寸、收藏;數(shù)字化信息指在數(shù)字化加工過程中生成的信息,如數(shù)字化者、數(shù)字化時間、技術(shù)參數(shù)。在設(shè)置元數(shù)據(jù)之前,必須就數(shù)據(jù)加工的對象、層次和重點(diǎn)予以明確。通常情況下,文化遺產(chǎn)數(shù)據(jù)庫的元數(shù)據(jù)包括三部分:(1)描述性信息。即對資源個體進(jìn)行描述的信息,如題名、作者、創(chuàng)作日期、類型、主題等,描述性信息需要解答“叫什么”“是什么”“什么人”“什么時間”“什么地點(diǎn)”“什么特點(diǎn)”等問題[28];(2)管理信息,用以描述對資源和記錄進(jìn)行存檔、獲取和使用等管理信息,如獲取方式、分類信息、權(quán)限數(shù)據(jù)、保存機(jī)構(gòu);(3)技術(shù)信息,指在數(shù)字化過程中產(chǎn)生的技術(shù)參數(shù)。元數(shù)據(jù)應(yīng)保持一定的粒度以提高數(shù)據(jù)集的靈活性。例如,古籍《渭崖疏要》的作者是明朝的霍韜,可采用單字段著錄,即“作者=(明)霍韜”;也可采用雙字段著錄,即“作者=霍韜”、“作者朝代=明”,后者可以生成朝代索引,并能提供朝代與作者的組配檢索。
另外,值得注意的是:能夠采用標(biāo)準(zhǔn)規(guī)范完成數(shù)據(jù)加工的,盡量不要對標(biāo)準(zhǔn)進(jìn)行調(diào)整;如果確有必要,也要遵循標(biāo)準(zhǔn)本身確立的原則,如《中國數(shù)字圖書館標(biāo)準(zhǔn)規(guī)范建設(shè)》中“專門數(shù)字對象元數(shù)據(jù)規(guī)范”確立的元素設(shè)置原則(簡單性與準(zhǔn)確性、專指度與通用性、互操作性與易轉(zhuǎn)換性、可擴(kuò)展性原則、用戶需求原則)和元素擴(kuò)展規(guī)則(縱向擴(kuò)展規(guī)則和橫向擴(kuò)展規(guī)則)[29],并保證與標(biāo)準(zhǔn)規(guī)范和本地其他規(guī)范的兼容[30]。根據(jù)對本地化擴(kuò)展的支持情況,元數(shù)據(jù)標(biāo)準(zhǔn)可以劃分為兩類:一是規(guī)則型標(biāo)準(zhǔn),側(cè)重于提供各項具體的規(guī)則,如MARC;二是原則性標(biāo)準(zhǔn),在提供必要的規(guī)則之上也支持?jǐn)U展,如CDWA、DC標(biāo)準(zhǔn)。文化遺產(chǎn)數(shù)據(jù)庫應(yīng)優(yōu)選原則型標(biāo)準(zhǔn)。另外,元數(shù)據(jù)的本地化很難一步到位,存在著建設(shè)過程中需要不斷調(diào)整的可能,因此系統(tǒng)要提供元數(shù)據(jù)的可編輯功能。
2.3.2 規(guī)范控制
文化遺產(chǎn)數(shù)字化對數(shù)據(jù)庫的規(guī)范控制提出了挑戰(zhàn)。對文化遺產(chǎn)的創(chuàng)作,由于時代不同,人們的語言習(xí)慣和思維方式都與今人有較大差異,即使在同一時代,由于缺乏便捷的溝通手段和輔助工具,作者之間在用語上也會存在差別。漢語古籍使用文言文寫作,文言文不同于白話文的一個重要特點(diǎn)就是文言文的語義基礎(chǔ)是單字,白話文的語義基礎(chǔ)是詞,而圖書館學(xué)中的漢語規(guī)范控制多以白話文為基礎(chǔ)。因此在數(shù)據(jù)加工時,要在何種層面上注意進(jìn)行規(guī)范的控制,而如何實施規(guī)范控制要有明確的規(guī)定。規(guī)范控制可以采取兩種基本做法:相似內(nèi)容采用相似的術(shù)語進(jìn)行指稱,或采用指向一致但表述不同的術(shù)語,不過術(shù)語之間需要建立有效的關(guān)聯(lián)。由加工者添加的數(shù)據(jù)應(yīng)使用統(tǒng)一術(shù)語,如文獻(xiàn)類型,而來自文化資源的數(shù)據(jù)既可以采用規(guī)范術(shù)語,也可以采用原始表述和指向關(guān)聯(lián)的方式進(jìn)行著錄。在具體實施時可以采取受控詞表或本體等做法,前者是傳統(tǒng)的規(guī)范控制手段,需要編制專門的詞表,如美國圖書館界編輯的《藝術(shù)與建筑敘詞表》(Art and Architecture Thesaurus),其對加工者的知識水平要求較高,后者適應(yīng)了現(xiàn)代信息技術(shù)的發(fā)展,但對系統(tǒng)的要求較高。
2.4 文本建設(shè)
文化遺產(chǎn)數(shù)字化的主要方式包括掃描、拍照、錄像、錄音等,不足之處是不能生成文本數(shù)據(jù),缺乏向量化的數(shù)據(jù)會影響數(shù)據(jù)庫功能的發(fā)揮,諸如語義關(guān)聯(lián)、數(shù)據(jù)挖掘、知識服務(wù)、資源發(fā)現(xiàn)、平臺對接、媒體適配等功能的實現(xiàn)均會受到限制。文本建設(shè)是一項既有簡單加工、需要通過工作量的積累來完成,如文字輸入和校對,同時又是專業(yè)性較強(qiáng)、需要深加工的工作。Martin Moyle在總結(jié)關(guān)于整理倫敦大學(xué)學(xué)院J.Bentham手稿的錄入項目時坦言:文本加工是一項非常復(fù)雜的工作[31]。例如,在手稿數(shù)字化中,加工者會遇到一些筆跡潦草的術(shù)語,如地名、人名、專業(yè)用語,特別是在西文中有時很難辨認(rèn)出具體的拼寫結(jié)構(gòu)。在漢語文獻(xiàn)中,除書寫問題外,還存在繁簡轉(zhuǎn)換和異體字、通假字、避諱字、無標(biāo)點(diǎn)等非規(guī)范情況,均需要運(yùn)用專業(yè)知識才能完成。一般而言,文本加工的對象大多是在當(dāng)代文化和技術(shù)系統(tǒng)之外產(chǎn)生的,其呈現(xiàn)的未必符合當(dāng)代文化和技術(shù)的要求,為此要進(jìn)行文化和技術(shù)上的對接,這正是文本建設(shè)看似簡單,實則需要專業(yè)知識支撐的原因所在。針對文本加工的這一特點(diǎn),圖書館在建設(shè)地方文化遺產(chǎn)數(shù)據(jù)庫時可采取分步實施的策略,即首先建設(shè)和開放模擬資源庫,然后采取邊服務(wù)邊建設(shè)的方式加工文本。
2.5 服務(wù)與版權(quán)
根據(jù)有關(guān)機(jī)構(gòu)對歐洲文化遺產(chǎn)數(shù)字化項目的調(diào)查,只有約20%的數(shù)字資源可通過互聯(lián)網(wǎng)提供服務(wù),其余資源或者通過非互聯(lián)網(wǎng)提供服務(wù),如CD-ROM,或者不對外提供服務(wù),僅出于保存目的進(jìn)行備份,其中由圖書館建設(shè)的資源可獲取比例達(dá)到70%,由檔案館建設(shè)的資源可獲取比例為48.5%;對提供公共服務(wù)的資源,不同機(jī)構(gòu)采取不同的服務(wù)政策,50%的文化機(jī)構(gòu)提供某種程度的免費(fèi)和不受限制的服務(wù),其中圖書館提供免費(fèi)服務(wù)的比例達(dá)到75%[32]。地方文化遺產(chǎn)數(shù)字資源是否提供服務(wù)以及提供什么樣的服務(wù)受多種因素影響,其中版權(quán)是一項重要考量。與尚處在流通領(lǐng)域的資源不同,文化遺產(chǎn)的版權(quán)壓力較小,有利于實現(xiàn)開放和免費(fèi)服務(wù)。各國著作權(quán)法都對版權(quán)作品關(guān)于如何進(jìn)入公有領(lǐng)域都有規(guī)定,一般以作者去世后的時間為標(biāo)準(zhǔn),如50年、70年,以此計算,相當(dāng)一部分文化遺產(chǎn)已進(jìn)入公有領(lǐng)域。即使沒有進(jìn)入公有領(lǐng)域,地方文化遺產(chǎn)基于內(nèi)容屬性為作者帶來經(jīng)濟(jì)收益的價值也已削弱甚至喪失,如我國大部分的民國文獻(xiàn)。而對那些尚未進(jìn)入公共傳播領(lǐng)域的“私有信息”,基本上不存在著作權(quán)意義上的經(jīng)濟(jì)收益。但文化遺產(chǎn)的版權(quán)也有復(fù)雜的一面,例如,即使作品已進(jìn)入公有領(lǐng)域,但作品的部分內(nèi)容仍可能受到版權(quán)保護(hù),如前言、后記、封面。一張關(guān)于藝術(shù)品的照片可能涉及幾種權(quán)利:藝術(shù)品作者的權(quán)利、照片拍攝者的權(quán)利、數(shù)字化者的權(quán)利以及第三方(如出版社、數(shù)據(jù)商)傳播授權(quán)等。因此,建庫前確保版權(quán)的清晰和透明是非常關(guān)鍵的。
圖書館實施地方文化遺產(chǎn)數(shù)字化保存和服務(wù),既要考慮地方文化的特點(diǎn),也要考慮數(shù)字圖書館的建設(shè)要求,并綜合權(quán)衡各方面的因素,采取科學(xué)有效的對策。
3.1 加強(qiáng)社會合作
如前所述,由一家機(jī)構(gòu)收集齊全某一主題或類型文化遺產(chǎn)的狀況在現(xiàn)實中比較少見,而大部分文化遺產(chǎn)都不處在公共傳播領(lǐng)域,無法通過市場或其他公開途徑獲得,只能通過社會合作征集?!稄V州大典》在編撰過程中,除了以廣東省立中山圖書館和中山大學(xué)圖書館的館藏為主外,還通過國內(nèi)外機(jī)構(gòu)和個人補(bǔ)充了大量的缺藏資料,如國家圖書館、天一閣博物館、澳門大學(xué)圖書館、哈佛燕京圖書館、日本東京大學(xué)東洋文化研究所。在圖書館地方文獻(xiàn)建設(shè)中,征集是常用的采集方式,但實物征集面臨較大的困難,因為文獻(xiàn)擁有者需要將文獻(xiàn)免費(fèi)捐贈或低價銷售給圖書館,對比較珍貴的文獻(xiàn)實物征集往往難以奏效。因此在文化遺產(chǎn)數(shù)據(jù)庫建設(shè)中,較適宜采取影像征集的方式,即圖書館僅獲得數(shù)字化的拷貝,而不改變資源的原隸屬關(guān)系,有利于減小征集阻力。需要注意的是,如果由資源擁有單位對資源完成數(shù)字化,征集者須明確相關(guān)要求,以免給合作單位造成人力和物力浪費(fèi)。雖然許多文化遺產(chǎn)都已處在公有領(lǐng)域,按照法律可免費(fèi)使用、自由獲取,但如果這些資源是通過社會化合作從機(jī)構(gòu)或個人手中征集來的,在公開之前必須征得擁有者的同意,這不僅是出于對資源貢獻(xiàn)者的尊重,也有利于后續(xù)合作的開展。
3.2 加強(qiáng)資源安全管理
文化遺產(chǎn)數(shù)據(jù)庫如果實施開放服務(wù),將導(dǎo)致安全隱患增加。為防止惡意下載等行為,“廣州大典數(shù)據(jù)庫”采取了以下多項措施:(1)降低精度。據(jù)調(diào)查,大部分文化遺產(chǎn)數(shù)字化項目采用的掃描精度為0-500DPI[33],一般情況下出版精度最少要達(dá)到300DPI,具體數(shù)值受資源狀況、使用需求等因素影響。由于《廣州大典》采用的是大16開版面,同一版中集中了4幅古籍冊頁,因此對精度要求較高。綜合多種情況,“廣州大典數(shù)據(jù)庫”將圖像精度設(shè)定為200DPI,這是不影響閱讀的最低值,即使有人獲得《廣州大典》的影像資源,其精度也不足以支持二次出版。(2)對使用進(jìn)行限制?!皬V州大典數(shù)據(jù)庫”以在線瀏覽為主,圖像版屏蔽了“圖片另存”的功能;而且文本版屏蔽拷貝功能,每次只提供1頁的下載和打印,每人每天最多可下載或打印10頁。(3)數(shù)據(jù)庫將資源被搜索引擎發(fā)現(xiàn)的級別設(shè)置為詳細(xì)信息頁,不允許搜索引擎以快照方式將《廣州大典》資源全文保存到索引庫中。(4)實現(xiàn)融系統(tǒng)安全保障、數(shù)據(jù)安全保障、運(yùn)行環(huán)境安全保障為一體的安全保障策略。
3.3 實施權(quán)限分級管理
文化遺產(chǎn)數(shù)據(jù)庫的資源歸屬通常存在多種情況,如共建單位的資源、該館收藏且具有永久保存權(quán)的資源、未解決版權(quán)的資源[34]、已解決版權(quán)但具有使用約定的資源,而對于同一資源或部分資源,也可能存在不同用戶群體擁有不同使用權(quán)的情況。對此,圖書館可采取權(quán)限分級管理的對策[35]。數(shù)據(jù)庫權(quán)限管理可以從兩種角度入手:用戶角度和資源角度,前者為不同用戶配以相應(yīng)權(quán)限,后者為不同資源配以相應(yīng)權(quán)限。在具體實施時,權(quán)限管理可以采用類型配置與個體配置兩種方式,前者指對某一類用戶或資源進(jìn)行權(quán)限設(shè)置,后者指對個體用戶或資源進(jìn)行權(quán)限設(shè)置?!皬V州大典數(shù)據(jù)庫”采用了用戶權(quán)限和資源權(quán)限雙重設(shè)置方式,其中用戶權(quán)限采用類型配置,用戶包括4類:公網(wǎng)用戶、廣州圖書館辦證讀者、注冊訪客(全球注冊)、IP內(nèi)網(wǎng)用戶,后3類可以查閱全文;全文使用權(quán)(含瀏覽權(quán)、下載權(quán)、打印權(quán)等)采用個體配置,根據(jù)資源擁有單位的授權(quán)在后臺開啟或關(guān)閉單項資源的使用權(quán)。
3.4 采取眾包建設(shè)策略
Jan Zastrow認(rèn)為,當(dāng)圖書館需要獲得大量資源或擁有大量資源有待加工,而圖書館的投入有限時,就可以考慮眾包[36]。眾包是由杰夫·豪(Jeff Howe)2006年6月提出,指一個公司或機(jī)構(gòu)把過去由員工執(zhí)行的任務(wù),以自由自愿的形式外包給非特定的網(wǎng)絡(luò)大眾的做法[37],優(yōu)勢是能夠在短期內(nèi)以較低成本積累海量的資源或完成繁重的工作。將眾包應(yīng)用于文化遺產(chǎn)數(shù)字化主要有3種方式:(1)資源征集。圖書館將資源上傳權(quán)限開放給民眾,明確所需資源和要求,由民眾將手中的資源上傳給圖書館,圖書館審核后并入數(shù)據(jù)庫。眾包資源建設(shè)能將分散于民間的資源聚集起來,而這些資源在文獻(xiàn)調(diào)研時未必能被發(fā)現(xiàn)。“911數(shù)字檔案”(September11 DigitalArchive)、“颶風(fēng)數(shù)字記憶銀行”(Hurricane DigitalMemory Bank)、“我們的馬拉松:波士頓爆炸案數(shù)字檔案”(Our Marathon:The Boston Bombing Digital Archive)等均采取眾包方式向民眾征集資源。(2)元數(shù)據(jù)加工。大部分文化遺產(chǎn)的元數(shù)據(jù)加工需要人工完成,加工逾深,需要的人力越多,將資源開放給民眾,由民眾對資源進(jìn)行元數(shù)據(jù)加工,可以為數(shù)據(jù)庫快速添加元數(shù)據(jù)。美國達(dá)特茅斯學(xué)院(Dartmouth College)的Tiltfactor實驗室開發(fā)了一個稱為“元數(shù)據(jù)游戲”的系統(tǒng),志愿者在玩游戲的過程中就能完成對圖片描述和對文件添加標(biāo)簽的任務(wù),大英圖書館、波士頓公共圖書館、美國公共數(shù)字圖書館等多個文化機(jī)構(gòu)采用了該系統(tǒng)[38]。(3)文本加工。文本建設(shè)是文化遺產(chǎn)數(shù)字化建設(shè)中需要投入人力最多的工作,眾包文本加工能為數(shù)據(jù)庫在短期內(nèi)積累海量的文本資源。紐約市公共圖書館收集有4萬多份酒店菜單,但由于這些菜單的產(chǎn)生日期最早可以上溯到19世紀(jì)40年代,多變的字體和顯示使OCR識別非常困難,為此,紐約市公共圖書館發(fā)起“菜單上有什么”(What's on the Menu?)的項目,邀請志愿者對菜單進(jìn)行識別和錄入文本,得到廣泛響應(yīng)[39]。
由于文化遺產(chǎn)廣泛分布于社會各個層面,隨著文化遺產(chǎn)保護(hù)受到各界重視,除圖書館外,許多機(jī)構(gòu)都建立了文化遺產(chǎn)數(shù)據(jù)庫。圖書館在開展文化遺產(chǎn)數(shù)字化時值得注意的是:在條件許可的情況下應(yīng)該建設(shè)地方文化遺產(chǎn)數(shù)字資源門戶,將本地其他機(jī)構(gòu)建設(shè)的文化遺產(chǎn)數(shù)字資源整合并提供統(tǒng)一的發(fā)現(xiàn)入口,如路易斯安娜數(shù)字圖書館、美國公共數(shù)字圖書館。燦爛輝煌的中華文明給我們留下了豐富的文化遺產(chǎn),數(shù)字化再造對保存中華文明基因、促進(jìn)中華文明在世界范圍內(nèi)的傳播具有積極的意義,它將使中華文明的傳播媒介從駱駝和帆船變?yōu)榫W(wǎng)絡(luò),傳播符號從陶瓷、絲綢變?yōu)楸忍?,時差從相距百年、千年變?yōu)樗查g獲取,有利于促進(jìn)中華文化在全球文化建設(shè)中占有一席之地。
[1]Hyuk-Jin Lee.Collaboration in cultural heritage digitization in East Asia[J].Program.2010,Vol.44(Iss.4):357-373.
[2]屠呦呦.屠呦呦諾獎報告演講全文[EB/OL].[2016-01-14].http://www.gov.cn/zhuanti/2015-12/18/ content_5025361.htm.
[3]林品紅,林世田.從涌泉寺古籍被淹看當(dāng)前古籍保護(hù)工作的緊迫性[J].國家圖書館學(xué)刊,2006(4):38-42.
[4]邢雅梅.古籍文獻(xiàn)修復(fù)的路徑選擇與研究——手工修復(fù)與紙漿補(bǔ)書[J].圖書館工作與研究,2012(5):87-89.
[5]余秋雨.文化苦旅[M].武漢:長江文藝出版社,2014:148.
[6]Ion Stoica,Criza ?n structurile infodocumentare[M]. Constant,a:EdituraEX PONTO,2001:56.
[7]呂玉潔,葛菁.國際文化大都市公共圖書館服務(wù)體系建設(shè)與規(guī)劃[J].圖書館雜志,2016(1):31-37.
[8]劉嬋.在網(wǎng)絡(luò)中“走入”抗戰(zhàn)歷史[N].中國文化報,2014-09-03(3).
[9][24]屈義華.開發(fā)特色產(chǎn)品信息,服務(wù)當(dāng)?shù)亟?jīng)濟(jì)建設(shè)——計算機(jī)多媒體陶瓷產(chǎn)品數(shù)據(jù)庫的研發(fā)[J].中國圖書館學(xué)報,2002(1):49-51.
[10]田苗,湯更生.中國記憶項目的構(gòu)想與實踐[J].國家圖書館學(xué)刊,2015(1):3-8.
[11]Maria Petrescu.Digitization of cultural documents[J]. Philobiblon,2008,Vol.XIII.547-557.
[12]IFLA Guidelines for Digitization Projects[EB/OL].[2016-05-04].http://www.ifla.org/files/assets/preservation-and-conservation/publications/digitization-projects-guidelines.pdf.
[13]Whatismeant by“culturalheritage”?[EB/OL].[2016-02-12].http://www.unesco.org/new/en/culture/ themes/illicit-trafficking-of-cultural-property/unescodatabase-of-national-cultural-heritage-laws/frequently -asked-questions/definition-of-the-cultural-heritage/
[14]愛特伽·斯諾.西行漫記(上、下冊)[M].胡仲持,馮賓符,梅益,等,譯.北京:生活·讀書·新知三聯(lián)書店,2012:170;,479.
[15]黃敏,都平平.高校特色數(shù)據(jù)庫建設(shè)及可持續(xù)發(fā)展問題研究[J].圖書館論壇,2012(9):83-86.
[16]LaiMa.Asign on atree:Acase for“public knowledge[J].LibraryTrends.2015,Vol.63,(No.3):528-539.
[17]鄂麗君,邱晏.CALIS地區(qū)中心特色數(shù)據(jù)庫建設(shè)現(xiàn)狀、問題與對策研究[J].圖書館建設(shè),2010(12):33-36.
[18][34]曹志梅.高校圖書館特色數(shù)據(jù)庫建設(shè)之囧境突圍[J].圖書館理論與實踐,2015(6):90-92.
[19]鄧蓉,向菁,陳余.湖北省高校圖書館特色數(shù)據(jù)庫調(diào)查分析[J].新世紀(jì)圖書館,2006(5):46-48.
[20]Elizabeth Oyler.Japanese cultural treasuresat the Library ofCongress:Digitization ofthe rare bookscollection[J]. JournalofEastAsianLibraries,2007,(143):10-22.
[21]Newton Papers[EB/OL].[2016-02-21].http://cudl. lib.cam.ac.uk/collections/newton#2.
[22]王喜和,傅林紅,李玖蔚,等.特色之困:國內(nèi)大學(xué)特色數(shù)據(jù)庫建設(shè)現(xiàn)狀與反思[J].情報理論與實踐,2013(4):47-52,58.
[23][29]范路,徐志平,唐明元,等.面向?qū)W科建設(shè)的高校重點(diǎn)學(xué)科特色數(shù)據(jù)庫構(gòu)建[J].四川圖書館學(xué)報,2015(3):32-35.
[25]宋琳琳,李海濤.大型文獻(xiàn)數(shù)字化項目元數(shù)據(jù)互操作調(diào)查與啟示[J].中國圖書館學(xué)報,2012(9):27-38.
[26]Iryna Solodovnik.Metadata issues in Digital Libraries:Key concepts and perspectives[J].JLIS.it,2011,Vol.2(No.2):4663(1)-4663(27).
[27]李敏,劉應(yīng)平.“南海及南海諸島”特色數(shù)據(jù)庫建設(shè)研究[J].圖書館論壇,2015(5):89-93,99.
[28]Janice L.Eklund.Cultural objects digitization planning:Metadata overview[J].VRA Bulletin,2012,Vol.38(Iss.1).
[30]王繼克,湯紅娟.黨史黨建特色數(shù)據(jù)庫建設(shè)規(guī)范與標(biāo)準(zhǔn)[J].蘭臺世界,2015(1):135-136.
[31]Martin Moyle.Manuscript transcription by crowdsourcing:TranscribeBentham[J].LiberQuarterly,2011,20(3/4):347-356.
[32]RoswithaPoll.NUMERIC:statisticsfor the digitisation of European cultural heritage[J].Program,2010,Vol. 44(Iss2):122-131.
[33]Norio Togiya;Akira Baba.The digitization of cutural resources:An exploration ofcurrent issuesand the future outlook[EB/OL].[2016-02-12].2009:http://www. ifla.org/past-wlic/2009/146-togiya-en.pdf.
[35]鄂麗君.高校圖書館學(xué)科特色數(shù)據(jù)庫建設(shè)的現(xiàn)狀、問題與對策[J].國家圖書館學(xué)刊,2011(1):53-55,68.
[36]Jan Zastrow.Crowdsourcing cultural heritage:“Citizen Archivists”for the future[J].Computers in Libraries,2014(10):21-23.
[37]Howe,Jeff.The Rise of Crowdsourcing[EB/OL].[2016-02-11].http://www.wired.com/2006/06/ crowds/.
[38]Matt Enis.Wisdom of the Crowd-Digital Collection[EB/OL].[2016-02-11].http://lj.libraryjournal.com/ 2015/07/technology/wisdom-of-the-crowd-digitalcollections/.
[39]Alicia Peaker.Crowdsourcing and Community Engagement[J].Educause Review,2015,(November/December):90-91.
(責(zé)任編輯:沈麗霞)
A Study on the Digitization of Local Cultural Heritage by Libraries
FUYue-an
Innumerable cultural treasures have been accumulated throughout the history of China.Cultural heritage digitization can benefit the inheritance and the delivery of Chinese culture greatly.Libraries,the key institutions of local culture,are responsible for the preservation of local cultural heritage.This paper discusses the digitization of local cultural heritage by libraries in terms of collection policy,resources organization,data curation,text building and service©right.At last,this paper gives some advice on the implementation of digitization under the circumstance of library profession.
libraries;local culture;cultural heritage;digitization
格式 付躍安.圖書館地方文化遺產(chǎn)數(shù)字化研究[J].圖書館論壇,2016(11):27-36.
付躍安,男,博士,廣州圖書館研究館員。
2016-05-24