鄧 青(長沙師范學(xué)校圖書館 湖南 長沙 410100)
全面保存主要是利用機器人、爬蟲等工具對所有相關(guān)的政府網(wǎng)站信息資源進行自動抓取[1]。目前,國外采用全面保存策略已經(jīng)完成或正在實施的項目包括以下兩項。
1.1.1 加拿大的“GCWA”項目
2004年4月,加拿大國家圖書檔案館(Library and Archives Canada,簡稱LAC)啟動了專門收集和保存聯(lián)邦政府網(wǎng)站資源的“加拿大政府網(wǎng)站歸檔”項目(Government of Canada Web Archive,簡稱GCWA)并得到允許。2005年12月,LAC下屬的“信息管理中心” 正式開展對聯(lián)邦政府網(wǎng)站信息的收集工作,收集工作每半年全面開展1次。2007年11月,LAC正式提供政府網(wǎng)站信息查詢服務(wù),此時“GCWA”項目平臺已經(jīng)保存的政府網(wǎng)站數(shù)據(jù)容量高達10TB。用戶不僅可以使用關(guān)鍵詞、機構(gòu)名稱和URL地址等檢索點查詢信息內(nèi)容,還可以對已經(jīng)加工處理成“.pdf”格式的文件進行下載。之后,LAC在其發(fā)布的《加拿大國家圖書檔案館2008—2011年戰(zhàn)略計劃》中明確指出:“加拿大國家圖書檔案館將致力于加拿大政府網(wǎng)站信息資源的開發(fā)與管理,并為政府機構(gòu)制定政府網(wǎng)站信息存儲計劃和新的存儲模式?!盵2]經(jīng)過幾年的不懈努力,LAC政府網(wǎng)站信息數(shù)據(jù)庫收集的內(nèi)容幾乎涵蓋了加拿大所有政府機構(gòu)的公共獲取信息。為了方便用戶使用這些網(wǎng)絡(luò)信息成果,LAC開發(fā)了新的數(shù)字處理系統(tǒng),該系統(tǒng)已于2011年9月開始測試[3]。
1.1.2 瑞典的“KulturarW3”項目
瑞典皇家圖書館(Kungliga Bilioteket,簡稱KB)從1996年起就開始了網(wǎng)站信息保存項目——KulturarW3。KulturarW3的目標就是保存瑞典國內(nèi)現(xiàn)在及未來所有的網(wǎng)站信息并通過網(wǎng)絡(luò)提供無障礙獲取,政府網(wǎng)站是其主要的保存對象。KulturarW3的做法是先解決法律問題,再分析網(wǎng)站上的文件屬性并制訂保存策略,最后進行全面采集并提供信息的自由獲取。至今,該項目利用NMA-Combine采集機保存該國域名為“.org”等的網(wǎng)站信息多達6500萬條,數(shù)據(jù)量達300GB,文件以html和純文本格式為主[1]。但由于該國缺少相關(guān)的法律,目前瑞典皇家圖書館尚未實現(xiàn)對政府網(wǎng)站以外的其他網(wǎng)絡(luò)信息的公開訪問和保存。
選擇性保存是根據(jù)一定的原則和標準,對網(wǎng)站信息資源的歷史、文化、經(jīng)濟價值等方面進行評價后,有選擇性地采集和保存[1]。目前,國外采用選擇性保存策略已經(jīng)完成或正在實施的項目包括以下兩項。
1.2.1 澳大利亞的“PANDORA”項目
1996年澳大利亞國家圖書館(National Library of Australia,簡稱NLA)啟動了網(wǎng)站信息保存項目(Preserving and Accessing Networked Documentary Resources of Australia,簡稱 PANDORA)。PANDORA的目標是保存經(jīng)過選擇的網(wǎng)站及網(wǎng)站出版物,為公眾提供長期獲取[4]。2005年7月,PANDORA項目組第一次完成了對整個澳大利亞網(wǎng)站的選擇性保存工作,并且為其保存的信息提供了全檢索。政府網(wǎng)站是其最重要的保存對象之一,PANDORA項目組根據(jù)既定的收集方針有選擇性地保存了包括澳大利亞共和討論、選舉、政黨與政治人物等多方面在內(nèi)的政府網(wǎng)站信息。在工作開展中,PANDORA的做法是:(1)NLA出面促使成立澳大利亞網(wǎng)站資源委員會,由該委員會負責制訂網(wǎng)站信息的采集方針——《保存網(wǎng)上出版物的選擇方針》,PANDORA項目組嚴格按照方針開展網(wǎng)站的保存工作。(2)廣泛合作,選擇保存。NLA首先與澳大利亞國家檔案館(National Archives of Australia,簡稱NAA)聯(lián)合制訂了《保護政府在線出版物:聯(lián)邦出版者指南》并建成了PANDORA檔案館,然后與地方圖書館合作,每個參與的地方圖書館都可以根據(jù)自身情況擬訂本館的網(wǎng)站資源選擇方針,負責地方或特殊網(wǎng)站資源的保存[5]。
1.2.2 美國的“CDL”項目
2004年9月,美國加利福尼亞數(shù)字圖書館(California Digital Library,簡稱CDL)開啟了“在線政府信息資源保存項目”(通常稱作“CDL”項目)。CDL項目是“美國國家數(shù)字信息基礎(chǔ)結(jié)構(gòu)和保存項目”(National Digital Information Infrastructure and Preservation program,簡稱NDIIPP)的子項目之一,并獲得國會圖書館240萬美金的撥款資助。CDL的目標就是為圖書館開發(fā)一種用以長期保存政府網(wǎng)站信息資源的網(wǎng)站存儲工具與結(jié)構(gòu)。CDL最初將工作重心放在保存聯(lián)邦政府、州政府的網(wǎng)站信息及當?shù)刂匾位顒拥南嚓P(guān)網(wǎng)站信息。后來,在條件允許的情況下,選擇性地保存國內(nèi)其他地方的政府網(wǎng)站信息[6]。該項目的開展過程主要包括4個階段:(1)內(nèi)容確定階段。從需求評估、爬行測試和分析、擴展評估等方面判定政府網(wǎng)站信息是否滿足其保存的需要。(2)內(nèi)容采集階段。對適用于項目內(nèi)容需求的信息進行分析、獲取和采集。(3)內(nèi)容還原和轉(zhuǎn)換階段。使用各種技術(shù)手段轉(zhuǎn)換與還原政府網(wǎng)站信息。(4)建立合作階段[7]。制訂計劃,建立基本的組織與合作關(guān)系。
美國國會圖書館認為保存開放式的政府網(wǎng)站信息資源是其必須承擔的重要使命,密涅瓦項目(Mapping the Internet Electronic Resources Virtual Archive,簡稱 Minerva)從2000年開始開展一些基于主題事件的網(wǎng)站信息保存工作。例如,它保存的關(guān)于“911”事件的網(wǎng)站數(shù)量多達3萬余個,網(wǎng)頁數(shù)則有3億之多;它保存的關(guān)于總統(tǒng)大選的網(wǎng)站數(shù)量有近5千個,網(wǎng)頁數(shù)則上億;它保存的關(guān)于伊拉克戰(zhàn)爭的網(wǎng)站數(shù)也有近萬個[8]。針對某一重要的事件進行專題信息收集,不僅能夠反映某一個事件的全貌,而且能夠更好地滿足廣大用戶的信息需求。Minerva項目在開展過程中采取了與其他機構(gòu)廣泛合作的模式。例如,它和Internet Archive合作進行關(guān)于總統(tǒng)大選網(wǎng)站保存,Internet Archive提供了先進的保存技術(shù),使用了Wayback machine為保存的網(wǎng)站信息建立索引,并提供了臨時的數(shù)據(jù)存儲空間。Minerva項目還得到了相關(guān)部門在法律與政策上的支持,如美國版權(quán)局曾明確提出:“如果網(wǎng)站信息符合項目采集的需求,國會圖書館不需要向政府網(wǎng)站出版者提出申請,有權(quán)利直接從網(wǎng)站上下載。如果網(wǎng)站信息達到項目保存的標準,國會圖書館在不需要得到政府網(wǎng)站出版者許可的情況下,可以直接保存有關(guān)信息。國會圖書館還有權(quán)利委托其他社會機構(gòu)對政府網(wǎng)站信息進行收集和保存?!盵9]這很好地解決了政府網(wǎng)站信息的知識產(chǎn)權(quán)問題,方便了Minerva項目工作的長期開展。
目前,我國圖書館界還沒有專門的政府網(wǎng)站保存實踐項目,但國家圖書館已從2005年開始啟動了一個試驗項目——“網(wǎng)絡(luò)信息采集與保存”項目。該項目根據(jù)中國政府網(wǎng)站的特點,確定的采集范圍是域名以“.gov.cn”結(jié)尾的所有網(wǎng)站,以確保盡可能全面地覆蓋中國政府網(wǎng)站信息。保存的數(shù)據(jù)格式包括網(wǎng)站的靜(動)態(tài)頁面、圖片、Word文件、PDF文件等。
國外的政府網(wǎng)站信息保存項目各有特色,我國圖書館在立項政府網(wǎng)站信息保存項目時,應(yīng)充分結(jié)合自身的實際條件,通過構(gòu)建系統(tǒng)的保存體系和完善配套的保障機制,保證此項工作長期、有效地開展下去。
2.1.1 制訂保存策略
制訂政府網(wǎng)站信息保存項目的保存策略,第一步是確定項目的保存對象。政府網(wǎng)站一般都有明顯的特征,即域名中含有“.gov”,但僅僅依靠域名來判斷一個網(wǎng)站是否屬于政府網(wǎng)站又是不科學(xué)的,因此我們在選擇保存對象時,應(yīng)使用以人工選擇為主、自動選擇為輔的方法。第二步是分析保存對象,即全面分析項目待保存網(wǎng)站的基本信息,包括網(wǎng)站的信息類型、信息格式、信息更新周期等。第三步是確定保存級別。圖書館應(yīng)根據(jù)政府網(wǎng)站信息多樣性和復(fù)雜性的特點選擇保存級別。目前,國外常見的保存級別分為:(1)歸檔級(Archived),圖書館將政府網(wǎng)站信息資源存儲在本館的館藏資源庫中,由圖書館負責這些政府網(wǎng)站信息的長期存取并提供訪問。(2)鏈接級(Linked),圖書館對存儲于異地服務(wù)器上的政府網(wǎng)站信息進行鏈接,創(chuàng)建目錄,開發(fā)檢索工具供用戶利用。(3)鏡像級(Mirrored),圖書館使用特定的軟件工具,以政府網(wǎng)站為信息單元保存全部網(wǎng)頁信息,同時保留信息原有的目錄結(jié)構(gòu)[10]。
2.1.2 選定保存方式
國外常用的保存方式主要有以下兩種:①推送模式(Push Model),是指政府機構(gòu)主動將政府網(wǎng)站信息資源呈繳或捐贈給圖書館,圖書館被動地接受政府網(wǎng)站信息資源的模式。②拉取模式(Pull Model),是指圖書館使用特定的工具主動獲取政府網(wǎng)站信息資源的模式。根據(jù)保存范圍的不同,保存方式分為全面采集(Comprehensive Preservation)、選擇性采集(Selective Preservation)與專題采集(Thematic Preservation)3種[10]。我國圖書館在啟動政府網(wǎng)站信息保存項目時應(yīng)根據(jù)項目的立項目標來選定合適的保存方式。
2.1.3 確定抓取周期
據(jù)中國互聯(lián)網(wǎng)站信息資源數(shù)量調(diào)查報告顯示,政府網(wǎng)站信息的更新頻率僅次于商業(yè)網(wǎng)站,每月都有信息更新的政府網(wǎng)站占所有政府網(wǎng)站數(shù)的76.0%[6]。我國圖書館應(yīng)準確把握政府網(wǎng)站信息的這一特點,并據(jù)此確定抓取周期。國外圖書館在這方面的經(jīng)驗值得借鑒,如美國北卡羅來納州政府網(wǎng)站保存項目制訂了“網(wǎng)站宏觀評估計分表”,該表設(shè)定的評估項目包括信息量、獨創(chuàng)性、更新頻率、歷史價值、證據(jù)價值、公眾興趣、政府關(guān)注,按照評價標準評分:“低價值”得1分、“中價值”得2分、“高價值”得3分,對于總得分為“7”的政府網(wǎng)站,每年抓取網(wǎng)站信息1次,對于總得分在“8~10”的政府網(wǎng)站,每季度抓取網(wǎng)站信息1次,對于總得分在“11~21”的政府網(wǎng)站,每月抓取網(wǎng)站信息1次[11]。
2.1.4 選擇保存技術(shù)及工具
利用搜索引擎和網(wǎng)站爬蟲能夠找到政府網(wǎng)站的網(wǎng)址和數(shù)據(jù)庫的檢索入口,但是一些政府機構(gòu)只允許社會機構(gòu)、公眾通過檢索對其網(wǎng)站進行訪問,不允許對其網(wǎng)站進行批量采集。因此,圖書館不得不借助一些專門的工具進行網(wǎng)站保存,這些工具包括:(1)DeepArc,它利用“XQuery”按照目標要求將存儲有網(wǎng)站信息的政府數(shù)據(jù)庫的內(nèi)容轉(zhuǎn)化為XML文件并從政府數(shù)據(jù)庫中抽取出來,但使用DeepArc要求網(wǎng)站出版者必須先安裝客戶端,并且要求采集者必須對政府數(shù)據(jù)庫的結(jié)構(gòu)和數(shù)據(jù)模型有一定的了解[12]。(2)Deep Harvester,它能夠保存并處理包括“HTML”、“PDF”、“DOC”、“TXT”等在內(nèi)的近400種格式的文檔,還可以獲取政府機構(gòu)內(nèi)網(wǎng)和專網(wǎng)中的信息,具有最全面的信息保存功能和標準化模型,是目前國外使用最多的一種保存工具[13]。(3)元數(shù)據(jù),借助它可以對政府網(wǎng)站信息進行定位和標注,捕獲其元數(shù)據(jù)并存儲于圖書館本地元數(shù)據(jù)庫中,并在此基礎(chǔ)上提供元數(shù)據(jù)的統(tǒng)一檢索,可以在保證獲取效率的同時確保信息的完整性。
2.2.1 制訂有關(guān)的法律與政策
圖書館對政府網(wǎng)站信息資源進行保存之前必須經(jīng)過政府機構(gòu)的許可,獲得政府機構(gòu)的授權(quán),所以,我國在國家層面上應(yīng)出臺配套的法律明確圖書館有權(quán)對政府網(wǎng)站信息資源進行采集與保存。例如,以法律的形式明確政府網(wǎng)站信息呈繳制度,要求政府機構(gòu)定期向圖書館呈繳其網(wǎng)站信息。目前,英國、加拿大、瑞典等發(fā)達國家都已將網(wǎng)站信息納入到了呈繳制度之中,澳大利亞、日本等國家也正在積極籌備網(wǎng)站文獻法定繳送的相關(guān)立法工作。近年來,我國國家圖書館也在積極推進網(wǎng)站出版物的呈繳制度,但至今還沒有相關(guān)的制度出臺。同時,我國圖書館界還應(yīng)呼吁相關(guān)政府部門完善現(xiàn)有的信息政策,建議在政策中體現(xiàn)出關(guān)于政府網(wǎng)站信息保存的內(nèi)容,例如,美國的北德克薩斯州立大學(xué)在《保存國家政治遺產(chǎn)項目需求評估總結(jié)報告》中就曾要求有關(guān)政府機構(gòu)制定政策明確政府網(wǎng)站保存的相關(guān)問題,如政府網(wǎng)站中哪些信息應(yīng)該優(yōu)先保存、政府網(wǎng)站信息保存可以采用哪些元數(shù)據(jù)標準等[14]。
2.2.2 建立形式多樣的合作機制
政府網(wǎng)站信息資源保存項目的開展需要有長期、大量的資金投入。美國的Internet Archive項目組所做的一項統(tǒng)計顯示,采集1TB網(wǎng)站信息資源大約需要花費3000美元[15]。如何爭取如此巨額的資金呢?首先,我國圖書館應(yīng)積極向上級文化部門與當?shù)卣畔⒐_主管部門爭取更多專項資金。其次,應(yīng)吸引更多的商業(yè)機構(gòu)參與進來,拓寬資金來源渠道,建立一個多元化的資金投入機制。最后,應(yīng)充分挖掘降低政府網(wǎng)站信息保存成本的方法,使圖書館能夠以最少的投入獲得最大的效益。
我國圖書館可以與對保存政府網(wǎng)站信息感興趣的社會機構(gòu)合作,指導(dǎo)其建設(shè)保存項目,并確保在其對項目失去興趣時,將其保存的所有信息提供給圖書館。同時,我國圖書館可以與國外圖書館加強交流與合作。根據(jù)參與機構(gòu)的具體情況,圖書館可以選擇高度分布式合作、平等分布式合作、集中分布式合作3種結(jié)構(gòu)模型[16]。在合作過程中,圖書館必須協(xié)調(diào)好多個機構(gòu)、個人的職責和權(quán)益。澳大利亞PANDORA項目負責人Webb C將該項目的成功歸功于:NLA的領(lǐng)導(dǎo)作用與澳大利亞圖書館之間良好的合作傳統(tǒng)[17]。
2.2.3 制訂相關(guān)的技術(shù)標準規(guī)范
由于網(wǎng)站信息資源的復(fù)雜性,圖書館開展政府網(wǎng)站信息資源保存工作面臨著諸多的技術(shù)挑戰(zhàn),包括如何保存動態(tài)的網(wǎng)站信息和深層網(wǎng)站信息資源,如何使獲取的信息資源呈現(xiàn)原始面貌,如何保存一些做了加密處理的網(wǎng)站信息資源,如何構(gòu)建存儲系統(tǒng)的模型及存儲元數(shù)據(jù)標準等。我國圖書館在啟動政府網(wǎng)站信息資源保存項目之前,必須制訂相關(guān)的標準規(guī)范,包括所采用的Web存檔文件格式、保存基礎(chǔ)結(jié)構(gòu)、元數(shù)據(jù)標準、元數(shù)據(jù)編碼與傳輸標準、數(shù)據(jù)存儲轉(zhuǎn)換格式標準等,各項工作都應(yīng)在國家的標準框架內(nèi)有序進行,避免因標準不統(tǒng)一而導(dǎo)致各保存項目無法實現(xiàn)信息共享。
2.2.4 加快專業(yè)技術(shù)人才的培養(yǎng)
圖書館政府網(wǎng)站信息保存工作需要專門的圖書館員來完成。美國許多圖書館設(shè)有專門的“政府出版物圖書館員(Government Publication Librarian)”,專門負責政府出版物的采集、保存、管理等工作。美國還特別重視對政府出版物圖書館員人才的培養(yǎng)及其業(yè)務(wù)能力的提升,例如,馬里蘭州大學(xué)研究生院的圖書情報學(xué)碩士專業(yè)因此開設(shè)了“電子政府專修(E-Government Concentration)”課程,教授電子政府概論、信息政策、政府信息存取、電子記錄保存等電子政府與圖書館服務(wù)相結(jié)合的內(nèi)容。美國圖書館協(xié)會的政府文獻圓桌會議(Government Documents Round Table,簡稱GODORT)為政府信息圖書館員提供討論問題、交換意見的平臺,同時還對政府信息圖書館員進行教育與培訓(xùn)?,F(xiàn)階段,我國圖書館要在爭取專業(yè)人才支持的同時,努力加強對現(xiàn)有工作人員的培訓(xùn),提高工作人員的業(yè)務(wù)技能與水平[18]。
[1]安興茹.歐美國家圖書館網(wǎng)絡(luò)信息保存的收集策略研究及啟示[J].圖書館雜志,2007(9):53-54.
[2]Library and Archives Canada. Library and Archives Canada Business Plan: 2008—2011[EB/OL].[2012-06-26].http://collectionscanada.ca/about-us/012-307.01-e.html.
[3]Library and Archives Canada. Government: Products and Services[EB/OL] . [2012-06-26] http://www.collectionscanada.gc.ca/government/products-services/index-e.html.
[4]About Pandora.PANDORA [EB/OL].[2012-06-26].http://pandora.nla.gov.au.
[5]楊天軍,常 青. 政府網(wǎng)站保存實踐與思考[J].情報雜志,2008(3):109-114.
[6]唐 瓊.政府網(wǎng)絡(luò)信息資源長期保存研究[J].圖書館理論與實踐,2007(2):62-64.
[7]楊道玲,于施洋.國外政府網(wǎng)站保存實踐與思考[J].中國檔案, 2007(7):64-65.
[8]Collecting and Preserving the WebMinerva[EB/OL].[2012-06-26].http://www.loc.gov/minerva.
[9]趙俊玲.美國國會圖書館網(wǎng)絡(luò)信息保存項目Minerva及啟示[J].圖書館建設(shè),2005(5):40-42.
[10]何歡歡.政府網(wǎng)站信息資源采集策略[J].檔案管理,2011(4):27-29.
[11]North Carolina Department of Cultural Resources. Standard for Automated WebSiteCapture[EB/OL].[2012-06-26].http://www.records.ncdcr.gov/Website/websiteStandards_20060717.pdf.
[12]劉 蘭, 吳振新, 向 菁, 等.網(wǎng)絡(luò)信息資源保存開源軟件綜述[J].現(xiàn)代圖書情報技術(shù),2009(5):11-17.
[13]Bright Planet. Deep Harvester[EB/OL]. [2012-06-26]. http://www.brightpla-net.com/solutions/deep-web-harvest.
[14]何歡歡.政府網(wǎng)站信息資源保存挑戰(zhàn)及對策[J].圖書情報工作,2011(4):130-133.
[15]United Nations Educationa.Iscientific and Cultural Organization Guidelines for the Preservation of Digital Heritage[EB/OL].[2012-06-26].http: //unesdoc. unesco. org/images/0013 /001300 /130071e. pdf.
[16]趙俊玲.守護e時代的記憶:網(wǎng)站信息資源保存研究[M]. 北京:北京圖書館出版社, 2007: 58-60.
[17]Webb C. Digital Preservation-a Many Layered Thing: Experience at the National Library of Australia[EB/OL].[2012-06-26].http:// www.clir.org/pubs/re-ports/pub107/webb.html.
[18]鄧 青,鄒 勇.中美公共圖書館政府信息服務(wù)的差距分析[J].圖書館學(xué)研究: 理論版, 2011(4):89-92.