顏運梅(廣州圖書館 廣東廣州 510623)
澳大利亞國家圖書館網(wǎng)頁存檔項目研究
顏運梅
(廣州圖書館廣東廣州510623)
〔摘要〕澳大利亞國家圖書館網(wǎng)頁存檔項目簡稱PANDORA,是選擇性網(wǎng)頁存檔的代表項目之一。文章介紹了PANDORA項目的整體情況,論述了選擇性存檔和全域收割這兩種不同采集方法的優(yōu)劣,指出PANDORA項目的持續(xù)發(fā)展在具體實施上面臨的問題,包括電子出版物的版權(quán)、資金支持以及如何跟上網(wǎng)絡(luò)技術(shù)發(fā)展等。
〔關(guān)鍵詞〕NLA網(wǎng)頁存檔選擇性采集全域收割PANDORAPANDAS G250.73
網(wǎng)絡(luò)資源具有更新快、易逝性、價值性的特點,留存網(wǎng)頁信息的目的在于更好地保存關(guān)于重大事件的記錄以及時代文化與思想性作品。而現(xiàn)在的圖書館主要是為保存紙制印刷品而設(shè)置的,電子出版物和其他非印刷產(chǎn)品很容易被遺漏。網(wǎng)絡(luò)信息和在線出版網(wǎng)作為圖書館物理館藏的有效補充,已經(jīng)引起諸多圖書館的重視。
網(wǎng)頁存檔從20世紀(jì)90年代中期開始發(fā)端,歐美一些經(jīng)濟較為發(fā)達的國家已紛紛建立起網(wǎng)頁存檔項目。至2003年,一共有12個國家圖書館聯(lián)合建立了國家互聯(lián)網(wǎng)保護同盟,共同商討保護互聯(lián)網(wǎng)信息資源實踐中的國際合作問題。至20世紀(jì)初期,已有近20個國家都建立了自己的網(wǎng)頁存檔項目。
近些年,網(wǎng)絡(luò)信息資源又重新引起了一些國家圖書館的重視。大英圖書館曾在2005年啟動UKWAC網(wǎng)頁存檔項目,2013年4月9日又宣布啟動一項存檔計劃——以大英圖書館為首的六所圖書館對網(wǎng)頁上的海量電子信息進行存檔,逾五百萬個英國網(wǎng)站上超過十億網(wǎng)頁的內(nèi)容,以及Twitter上的推文和Facebook條目都被納入存檔范圍,涵蓋電子書、報紙的IPad版本以及其他電子格式的出版品,甚至包括網(wǎng)頁上內(nèi)嵌的視頻與音頻材料,但暫不包括YouTube和Spotify等視頻和音頻網(wǎng)站上的內(nèi)容,“計劃十年內(nèi)存諸一千萬億字節(jié)的內(nèi)容,所有這些信息都將免費提供給公眾使用?!盵1]
美國國會圖書館在20世紀(jì)90年代中期曾建設(shè)MINERVA專題性存檔項目,2013年初,宣布已完成對Twitter現(xiàn)有全部推文的收集,并已開始對多達1700億條以上的推文進行存檔和整理。國會圖書館將Twitter推文稱為一種重要的新型館藏資料,“對信件、日記、期刊以及其他館藏資源形成了補充,有時甚至可以替代后者?!盵2]
國內(nèi)對網(wǎng)頁存檔項目的研究發(fā)端于2009年,之后陸續(xù)有相關(guān)文章發(fā)表。但對澳大利亞國家圖書館(下文稱NLA)的網(wǎng)頁存檔項目——PANDORA項目暫未有相關(guān)學(xué)術(shù)文章發(fā)表。PANDORA項目是選擇性存檔網(wǎng)頁的代表項目,NLA作為最早參與IIPC項目的機構(gòu)之一,其技術(shù)、經(jīng)驗都有可供借鑒之處。
3.1概況
PANDORA(Preserving and Accessing Networked Documentary Resources of Australia),即保存和訪問澳大利亞的網(wǎng)絡(luò)文獻資源。PANDORA項目始于1996年,NLA是首批建立網(wǎng)頁存檔項目的國家圖書館之一。2006年12月,為了更加緊密地將國家圖書館網(wǎng)頁存檔計劃和數(shù)字化保存活動結(jié)合起來,在NLA的館藏管理部內(nèi)部成立了一個新的分部門——網(wǎng)頁存檔和數(shù)字化保存部門,其戰(zhàn)略目標(biāo)就在于更好地結(jié)合網(wǎng)頁資源描述和搜集功能,并在存檔數(shù)據(jù)中發(fā)展和應(yīng)用數(shù)字化保存管理。
NLA開發(fā)出一套PANDORA數(shù)字化存檔系統(tǒng)Digital Archiving System(簡稱為PANDAS),這個基于網(wǎng)絡(luò)的應(yīng)用系統(tǒng)允許各參與館的負(fù)責(zé)人通過由NLA負(fù)責(zé)維護的一些設(shè)施開展網(wǎng)頁資源的存檔工作。存檔文件元數(shù)據(jù)的管理、創(chuàng)建并保存在PANDAS,包括詳細(xì)的出版者信息、允許存檔的日期、收割的頻率、存檔的元數(shù)據(jù)等都被自動收集到PANDAS。PANDAS最初是作為一項研究成果于2001年6月份投入應(yīng)用,2002年發(fā)布了第二代增強版本,2007年6月推出了經(jīng)過重新設(shè)計和功能加強的第三代系統(tǒng)。目前,NLA計劃增強PANDAS軟件的功能,包括增加存檔的元數(shù)據(jù),收集并提供一個用戶界面,使管理人員能夠更輕松地訪問元數(shù)據(jù)的范圍。[3]
3.2合作共建
NLA始終堅持在PANDORA存檔建設(shè)中采取合作共建的方法,并積極促成澳大利亞國立圖書館、各州圖書館以及其他文化機構(gòu)的參與,包括如何選擇、存檔和分類存檔等。合作的圖書館包括:澳大利亞各州立圖書館、北方圖書館、國家聲像檔案館、澳大利亞戰(zhàn)爭紀(jì)念館、澳大利亞國家美術(shù)館,以及澳大利亞原住民及托雷斯海峽居民研究所。[4]
PANDORA采集目標(biāo)不是澳大利亞所有的在線出版物和網(wǎng)站,而是保存那些被認(rèn)為有長期研究價值的網(wǎng)上出版物和網(wǎng)站。國家圖書館旨在存檔那些具有國家意義的內(nèi)容;州立圖書館負(fù)責(zé)存檔有關(guān)州或者區(qū)域性的資源;國家聲像檔案館負(fù)責(zé)網(wǎng)站相關(guān)的音樂和電影;戰(zhàn)爭紀(jì)念館存檔有關(guān)澳大利亞軍事歷史的相關(guān)網(wǎng)站;原住民及托雷斯海峽居民研究所負(fù)責(zé)存檔原住民的出版物和網(wǎng)站。
3.3捕獲頻率
捕獲網(wǎng)站的頻率取決于網(wǎng)站和出版物的性質(zhì),特別是出版物的出版計劃、內(nèi)容的價值、網(wǎng)站的生命周期和穩(wěn)定性。電子專著出版物只需要拍攝一次;某些重要的事件必須每天存檔,如悉尼奧運會。PANDAS基本上會根據(jù)存檔的實際情況決定,對特定目標(biāo)內(nèi)容的收割每天不會超過一次。
3.4動態(tài)站點、深層網(wǎng)頁采集
澳大利亞采集在線出版物的主要方法是通過收割軟件收集副本并將它們添加到存檔文件。若要訪問目標(biāo)站點,收割軟件需要能夠?qū)Ш降腍TML鏈接。深層網(wǎng)頁是對應(yīng)表層網(wǎng)頁的概念,指的是那些通過搜索引擎及采集程序無法訪問的頁面,一般由后臺數(shù)據(jù)庫動態(tài)生成。越來越多的出版物和網(wǎng)站結(jié)構(gòu)數(shù)據(jù)庫有其他互動或動態(tài)內(nèi)容,收割軟件不能處理,通常站點需要在搜索文本框輸入條款,或從下拉框選項中選擇。
PANDORA是否收割網(wǎng)站所有層次的網(wǎng)頁,這取決于網(wǎng)站的性質(zhì),但通常會收割整個網(wǎng)站。大型網(wǎng)站僅選擇某個特定的倡議或程序有關(guān)的信息站點的一部分,例如,政府部門的網(wǎng)站;大型綜合性的網(wǎng)站只選取其中某種出版物,例如,電子出版物、通訊、科學(xué)或技術(shù)報告。一般只存檔屬于該網(wǎng)站本身目錄的鏈接,不存檔引向其他站點的鏈接,主要是因為沒有存檔其他站點的權(quán)限。
受開放內(nèi)容運動的影響,網(wǎng)頁存檔的軟件工具都是開源的,經(jīng)過一定的開發(fā)整合就可以很好的嵌入到項目中。在國家互聯(lián)網(wǎng)保護同盟的合作框架下,成員開發(fā)出來的技術(shù)工具是可以共享的,所以在軟件技術(shù)方面是趨于成熟和穩(wěn)定的,并已走出實驗性的階段。NLA開發(fā)了Xinq工具,可將出版商提供的數(shù)據(jù)存放到一個通用的接口上。Xinq已通過Source Forge(開源軟件分享網(wǎng)站)成為可分享的開放源碼[5]。
3.5電子出版物的呈繳
在網(wǎng)絡(luò)存檔的實踐早期,法律問題是關(guān)注的焦點,國家級的圖書館作為主辦方和版權(quán)所有者都需要法律的保障。在法律條文沒有明確規(guī)定在線資源呈繳的情況下,一般多采取與版權(quán)所有者協(xié)商的做法,取得授權(quán)后才能采集。
澳大利亞呈繳法依舊遵循《呈繳本制度》和《1968年版權(quán)法》,法案中還沒有規(guī)定電子出版物的呈繳。對于電子出版物(網(wǎng)絡(luò)出版物),NLA必須經(jīng)過出版社許可,使用收割軟件在出版商的網(wǎng)站上下載或者拷貝出版物。在某些情況下,出版商只需將出版物的標(biāo)題通過郵件發(fā)給圖書館,如果是很大型或者特別復(fù)雜的出版物的網(wǎng)站,則將要求出版商將磁盤寄送給圖書館。
澳大利亞PANDORA計劃中對網(wǎng)絡(luò)出版物的自愿呈繳范圍進行了限定,以下網(wǎng)絡(luò)信息都沒有納入繳送范圍:聊天室、公告板、新聞組、游戲、個人文章、有印刷版的在線日報、在線圖書、在線期刊、以組織因特網(wǎng)信息為唯一目的的門戶網(wǎng)站、推銷和廣告網(wǎng)站、對其他來源信息進行編輯不具有原創(chuàng)性內(nèi)容的站點等。
3.6存檔資源范圍
PANDORA選擇的內(nèi)容很大一部分是關(guān)于澳大利亞或是社會、政治、文化、宗教、科學(xué)、經(jīng)濟等關(guān)聯(lián)到澳大利亞及澳大利亞作家寫的,構(gòu)成了對國際知識的貢獻。它的服務(wù)器可能位于澳大利亞或者海外,資源的內(nèi)容是存檔首要的選擇因素。PANDORA存檔項目包含廣泛的出版物和網(wǎng)站,優(yōu)先收集政府刊物及學(xué)術(shù)電子期刊,此外還有許多其他類型的網(wǎng)站。
3.7商業(yè)出版物的訪問
PANDORA存檔的大部分資源都可以公開訪問,但具有一定保密性的商業(yè)出版物必須與出版商協(xié)商,以確定適當(dāng)?shù)南拗破谙?,通常在允許訪問的期限內(nèi),該項目在商業(yè)上是可以公開的。存檔時,PANDAS可以設(shè)置存檔文件的訪問權(quán)限,可以限制在一段時間內(nèi)訪問,比如從存檔日期計一年內(nèi);或者設(shè)置一組到期日期,到期后則不能再訪問;還可以控制訪問密碼,必須收到密碼后方可訪問。在NLA或其他參與者的電子閱覽室里可以訪問這些資源,可以打印副本,但是禁止復(fù)制和發(fā)送電子郵件。
3.8持久標(biāo)識符
NLA致力于提供PANDORA項目存檔和其他數(shù)字集合的長期訪問。因此,在電子出版物和 Web 站點存檔時,PANDAS會自動為其分配唯一的持久標(biāo)識符,并且標(biāo)識符被記錄在該標(biāo)題條目頁面的底部,方便用戶的引用。[6]
持久標(biāo)識符指對數(shù)字對象(例如文章、數(shù)據(jù)集、圖像或數(shù)據(jù)流)進行持續(xù)標(biāo)識,可以使這些數(shù)字資源的定位和范圍具有唯一性,把它們與相關(guān)的作者及其它實體(如機構(gòu)、項目或研究團體)相關(guān)聯(lián),使其得到持續(xù)、可靠的發(fā)現(xiàn)、引用和重用。
除了在標(biāo)題級別提供一個持久的標(biāo)識符,系統(tǒng)也可以給所有的組件部件創(chuàng)建一個持久標(biāo)識符,例如,為某一期的電子雜志上的一篇文章,或一個網(wǎng)站上的一張圖像、一個表。持久標(biāo)識符將始終指向它所標(biāo)識的資源,它可以被引用而且確保該鏈接永遠不會斷開。唯一的持久標(biāo)識符不能在其他網(wǎng)頁存檔資源中提供,這是PANDORA項目的特色之一。
3.9資源發(fā)現(xiàn)途徑
NLA建立了PANDORA的專題網(wǎng)頁,可以從項目的主頁上訪問到這些存檔文件??捎玫脑L問路徑有:PANDORA主頁上的存檔標(biāo)題的字母列表;PANDORA主頁上存檔標(biāo)題的主題列表,分為文化、藝術(shù)、科學(xué)等18個大類;國家書目數(shù)據(jù)庫和其他參與者的在線目錄的熱鏈接;商業(yè)搜索引擎(如Yahoo和Google等)可以搜索到存檔文獻的標(biāo)題。PANDORA在收割采集時已將存檔文獻編目、存檔資源作為國家圖書館的有效館藏資源的一部分,通過NLA的一站式搜索引擎(Trove)可以直接檢索,可輸入任意詞檢索。[7]
為了增加資源被發(fā)現(xiàn)的機會,PANDORA還允許添加搜索框至用戶或者個人網(wǎng)頁,幫助更多的訪問者訪問PANDORA資源。用戶只需要將搜索框的HTML代碼復(fù)制并粘貼到用戶的網(wǎng)站上即可將一個PANDORA的搜索框添加至用戶的網(wǎng)頁,以增加PANDORA資源被發(fā)現(xiàn)途徑。
3.10存檔數(shù)據(jù)格式
PANDORA存檔格式包含多媒體、各種動態(tài)格式以及文本文件,采集了許多在原來的網(wǎng)站上已經(jīng)無法獲取的多媒體、視頻資源。部分動態(tài)生成的數(shù)據(jù)庫網(wǎng)站,在存檔中被存儲為靜態(tài)頁面,插件和其他軟件不在PANDORA存檔的范圍。截至2013年5月,PANDORA項目共采集了約56%的政府出版物,存檔總大小約8.52萬億字節(jié),2011-2012年存檔主頁的頁面瀏覽數(shù)約為680萬次。PANDORA存檔的網(wǎng)頁記錄和數(shù)據(jù)格式可以通過以下幾張圖來了解。
新存檔的文件,以時間為序在網(wǎng)頁上顯示,以月為單位統(tǒng)計存檔的文件數(shù)量。見圖1[8]:
圖1 PANDORA按時間順序列表的新存檔網(wǎng)頁記錄
圖2 存檔文件大小統(tǒng)計(統(tǒng)計于2014年9月26的數(shù)據(jù))
從圖2[9]中可以看出2014年9月份采集到文件數(shù)、實例數(shù)和數(shù)據(jù)大小,與8月份收集數(shù)據(jù)的比較情況。
圖3 存檔網(wǎng)頁集合的詳細(xì)目錄數(shù)據(jù)
從圖3[10]可以看出,存檔網(wǎng)頁集合的詳細(xì)目錄數(shù)據(jù)包括文件名、URI、存檔日期,點擊所抓取網(wǎng)頁對應(yīng)的URI即可直接進入相關(guān)網(wǎng)頁。
在NLA的一鍵式搜索引擎Trove中選擇“Archived websites”項,以“Parallel”為關(guān)鍵詞檢索,結(jié)果有528項與“Parallel”相關(guān)的存檔網(wǎng)頁,同時顯示了網(wǎng)址鏈接和存檔日期,點擊“VIEW528”則相關(guān)網(wǎng)頁是以存檔時間為序呈現(xiàn)。見圖4[11]:
圖4 存檔網(wǎng)頁集合的搜索結(jié)果顯示
PANDORA重視網(wǎng)頁資源的利用,而不僅僅是保存。對資源使用情況,NLA做了詳細(xì)的記錄。見圖5[12]:
從圖5中可以看出,PANDORA網(wǎng)頁的使用報告衡量指標(biāo)包含網(wǎng)頁訪問人次、頁面訪問數(shù)、頁面點擊數(shù)、帶寬。從2014年1月至10月,PANDORA的使用率均保持在一個比較穩(wěn)定的數(shù)量,前10個月的訪問人數(shù)總和超過835萬,頁面瀏覽數(shù)超過7468萬,點擊率超過8854萬人次,帶寬1073.32GB。
圖5 PANDORA 的使用報告
目前,眾多的網(wǎng)頁存檔項目按采集方法可以分為三類:選擇性采集、全域收割、混合式采集[13]。選擇性采集是指在圈定采集對象后以一定頻率進行持續(xù)性的采集。NLA的PANDORA項目和加拿大、日本國家圖書檔案館網(wǎng)頁存檔項目采用這種方法。全域收割是基于收割軟件自動在一定范圍內(nèi)采集資源。瑞典、挪威、芬蘭、冰島和奧地利的國家圖書館采用此種方法?;旌鲜讲杉菍追N采集方法同時使用。如美國國會圖書館的MINERVA項目包含選擇性存檔和全域快照的收集方法;丹麥皇家圖書館采取多管齊下的方法,包含三種不同類型的采集方法:對域名為“.DK”的一年四次的全域收割;對約80%的網(wǎng)站高質(zhì)量的選擇性收割,和每年兩三個事件的專題性收割。[14]
5.1優(yōu)勢
關(guān)注質(zhì)量:存檔文件中的每一項都必須先做質(zhì)量和功能的評估,并且在當(dāng)前技術(shù)水平允許的最大程度。
開放獲取:征得出版商或所有者的許可,以確保對出版物盡可能的免費公共獲取。
自行定義采集頻率:考慮電子出版物的出版進度或網(wǎng)頁站點更改的頻率,可以單獨針對每個選定的標(biāo)題安排收集日程,并使相關(guān)內(nèi)容聚集在一起,內(nèi)容盡可能全面。
充分編目:能充分編目存檔文件中的每一項,使之可以成為國家書目的一部分,以保證存檔資源被充分利用。
分門別類:可以分析并確定個別資源的重要屬性和存檔資源的類型,以確保未來可實施長久保存策略。
協(xié)議采集:對沒有獲取版權(quán)、無法訪問的網(wǎng)站,通過與出版商商議存檔,收割軟件可以重新識別或者使用其他方法采集。
5.2不足
迎合需求:采集方必須判斷在未來,研究人員需要什么樣的信息資源去迎合用戶需求。有所選擇必然有所放棄,將不可避免地錯過重要資源。
成本較高:選擇性采集存檔是勞動密集型項目,成本較高,需要一定的人力物力。
斷章取義:選擇性采集的資源將完整的或原本是一體的、相關(guān)聯(lián)的資源斷章取義地分離開來。
還有,諸如采集的資源是否對研究人員有價值?價值如何去證實?這些都是選擇性采集必須要考量的問題。
全域性收割是盡可能收集所有的網(wǎng)絡(luò)信息資源的一種方式,是自動收割快照后生成存檔,它試圖一遍又一遍地收割整個網(wǎng)絡(luò),為后人留下盡可能多的Web記錄。IA項目采取全域性收割網(wǎng)頁保存了許多重要的網(wǎng)絡(luò)資源,但是它缺乏選擇性檔案的優(yōu)勢。
6.1沒有質(zhì)量控制
利用收割軟件收割的資源缺乏人工干預(yù),沒有質(zhì)量保證,導(dǎo)致有些資源不完整或者缺失功能而不可用。IA每兩個月試圖將整個Web收割存檔,它傾向于收割頂級域名下的資源,而不會收集所有有價值的一切資源。
6.2錯過重要資源
IA的收割未經(jīng)出版商版權(quán)許可,這意味著收割機器人必須遵循robot.txt 規(guī)則。如果有些網(wǎng)站或者在線出版網(wǎng)沒有經(jīng)過許可和協(xié)商,那么收割軟件就無法采集,這意味著將會錯過一些重要的網(wǎng)絡(luò)資源。而PANDORA存檔中采集重要的出版物和網(wǎng)站會與出版社協(xié)商,并且在將其添加到存檔文件之前,PANDORA參與者會評估每個標(biāo)題收割的質(zhì)量,而且盡可能地維持它原有的外觀、功能及內(nèi)容。從出版商的網(wǎng)站上收集后,每個標(biāo)題都會被檢查以確保其內(nèi)容和功能的完整。
6.3混合采集
選擇性存檔和全域快照收割的方式都有其優(yōu)缺點。最理想的情況是選擇性存檔輔以全域收割方式采集資源。NLA于2005年與IA展開協(xié)作,進行了大規(guī)模的全域收割活動作為PANDORA選擇性存檔計劃的補充。迄今為止,已經(jīng)完成了兩次大規(guī)模的資源“爬行”,第一次是在2005年的6-7月,收割了共1.85億份6.69TB的原始數(shù)據(jù);第二次則是在2006年的8-9月份[15]。這兩次大規(guī)模的資源“爬行”過程中采用了自動的GeoIP查詢識別機制,其目標(biāo)是在澳大利亞境內(nèi)主機中廣泛深入地抓取盡可能多的采用.au頂級域名以及那些非.au域名的網(wǎng)頁資源。
2003 年,NLA加入國際互聯(lián)網(wǎng)保護聯(lián)盟和Web工作組領(lǐng)導(dǎo)的一個研究項目。NLA致力于對其所有數(shù)字館藏包括PANDORA項目的長期訪問。NLA已經(jīng)制定了《數(shù)字保存政策》;進行數(shù)字集合風(fēng)險評估,特別把重點放在PANDORA項目;并在研究中繼續(xù)積極參與機構(gòu)內(nèi)部及與其他機構(gòu)合作。PANDORA項目建立了一套完整、成熟的體制,包括制定了系列網(wǎng)頁的保存、管理、存取的程序和相關(guān)的手冊、指南指導(dǎo)工作。
7.1版權(quán)問題
在NLA投資數(shù)字內(nèi)容和在線服務(wù)的同時,也面臨著較大的資源限制。澳大利亞呈繳本的范圍現(xiàn)在包括印刷型出版物和錄音錄像制品,對電子出版物和網(wǎng)絡(luò)出版物以協(xié)商自愿繳送為原則。版權(quán)法規(guī)定圖書館在每一次試圖收集網(wǎng)頁信息之前都需要獲得版權(quán)持有者的許可[16], PANDORA在對電子(網(wǎng)絡(luò))出版物存檔之前必須與出版商協(xié)商才能存檔,所以,目前僅能保存一部分網(wǎng)絡(luò)上的信息。因此,必須改變1968年《版權(quán)法案》中的法定送存規(guī)則,尋求授權(quán)以收集和保存澳大利亞人創(chuàng)造的數(shù)字資料。
7.2財政資金
網(wǎng)頁存檔是一個復(fù)雜且人力、物力耗費巨大的項目,不僅要考慮采集成本,還需要考慮后續(xù)的存儲、維護、開拓及維護技術(shù)基礎(chǔ)設(shè)施的費用。目前,PANDORA存檔資金都是從參與者現(xiàn)有持續(xù)運營的業(yè)務(wù)預(yù)算中抽取出來的,盡管這個項目花費昂貴,卻沒有額外的來自政府的資金支持。因此,需要擴大資金來源以支持PANDORA向所有澳大利亞公民傳遞資源與服務(wù),同時通過有效的財政管理,使政府和私營部門的投資回報達到最大化。
7.3持續(xù)存取
由于出版界從印本形式向數(shù)字形式轉(zhuǎn)移,NLA重新設(shè)計了其傳統(tǒng)職責(zé),以滿足數(shù)字環(huán)境下的新需求,并致力于擴展數(shù)字化項目,讓澳大利亞公民能夠在線接觸到他們的過去以及現(xiàn)在。但是網(wǎng)絡(luò)信息動態(tài)出現(xiàn)和消失的速度極快,保存網(wǎng)絡(luò)資源極其不易。資源存取的技術(shù)必須要跟上引發(fā)信息爆炸的技術(shù),而且不同的網(wǎng)上資源也有不同的儲存方式。搜集并將網(wǎng)上的所有信息存檔是不可能的,如何有效地選擇資源采集,并致力于存檔資源的開放獲取才是關(guān)鍵問題。
數(shù)字化館藏的增長速度正在超過圖書館的管理、保存和傳遞能力。為適應(yīng)這種現(xiàn)狀,需要更完善的系統(tǒng)去收集和管理數(shù)字化與原生數(shù)字化的澳大利亞內(nèi)容信息,需要建設(shè)一套新的數(shù)字化圖書館基礎(chǔ)設(shè)施,以獲取、保存并傳遞數(shù)字館藏。
(來稿時間:2015年2月)
參考文獻:
1.吳永熹.大英圖書館將存檔海量網(wǎng)上信息.[2014-10-20].http://www.bjnews.com.cn/ent/2013/04/09/257230.html
2.美國國會圖書館收錄1700億條Twitter推文.[2014-10-20].http://it.sohu.com/20130105/n362464608.shtml
3-6.About Pandora.[2014-10-20].http://pandora.nla.gov.au/ about.html
7.Reports of new archived instances added to Pandora.[2014-10-20].http://pandora.nla.gov.au/newtitles/new_titles_reports.html
8.PANDORA archive size and monthly growth.[2014-10-20]. http://pandora.nla.gov.au/statistics.html
9.PANDORA: Newly Archived Titles.[2014-10-20].http://pan dora.nla.gov.au/newtitles/new_aug14.html
10.Archived websites (1996—now).[2014-10-20].http://trove. nla.gov.au/website/result?q=Parallel
11.Reports for PANDORA.[2014-10-20].http://stats.nla.gov.au/_ reports/pandora/monthly/11-2014/awstats.pandora.html
12.馬寧寧,曲云鵬,謝天.歐洲主要網(wǎng)絡(luò)資源采集項目研究與啟示.圖書情報工作,2013, 57(12):10-15
13,14.劉蘭,吳振新,張智雄等.Web Archive的采集策略研究.現(xiàn)代圖書情報技術(shù),2009(1):10-15
15.PANDORA Fact Sheet.[2014-10-20].http://pandora.nla. gov.au/pandoranews.html
16.Legal Deposit.[2014-10-20].http://pandora.nla.gov.au/lega ldeposit.html
〔分類號〕
〔作者簡介〕顏運梅(1979-),研究生,廣州圖書館副研究館員。
Research of Web Archive Projects PANDORA in Australia National Library
Yan Yunmei
( Guangzhou Library )
〔Abstract〕Australia National Library web archiving project called PANDORA that is one of selective web archiving project. The article introduces PANDORA project’s overall situation, discusses the advantages and defects between the two different methods: selective archive and the whole harvest, points out that PANDORA project’s sustainable development faces some difficulties in the specific implementation, including electronic publication’s copyright, funding from government as well as how to keep abreast of web technical developments and other issues.
〔Keywords〕NLA Web archive Selective acquisition Whole domain harvesting PANDORA PANDAS