國外圖書館政府網(wǎng)站信息保存的實踐與啟示

2012-02-15 15:35:30長沙師范學(xué)校圖書館湖南長沙410100

圖書館建設(shè) 2012年12期

關(guān)鍵詞：圖書館政府資源

鄧青（長沙師范學(xué)校圖書館湖南長沙 410100）

1 國外圖書館相關(guān)項目介紹

1.1 全面保存——加拿大的“GCWA”項目與瑞典的“KulturarW3”項目

全面保存主要是利用機器人、爬蟲等工具對所有相關(guān)的政府網(wǎng)站信息資源進行自動抓取[1]。目前，國外采用全面保存策略已經(jīng)完成或正在實施的項目包括以下兩項。

1.1.1 加拿大的“GCWA”項目

2004年4月，加拿大國家圖書檔案館（Library and Archives Canada，簡稱LAC）啟動了專門收集和保存聯(lián)邦政府網(wǎng)站資源的“加拿大政府網(wǎng)站歸檔”項目（Government of Canada Web Archive，簡稱GCWA）并得到允許。2005年12月，LAC下屬的“信息管理中心” 正式開展對聯(lián)邦政府網(wǎng)站信息的收集工作，收集工作每半年全面開展1次。2007年11月，LAC正式提供政府網(wǎng)站信息查詢服務(wù)，此時“GCWA”項目平臺已經(jīng)保存的政府網(wǎng)站數(shù)據(jù)容量高達10TB。用戶不僅可以使用關(guān)鍵詞、機構(gòu)名稱和URL地址等檢索點查詢信息內(nèi)容，還可以對已經(jīng)加工處理成“.pdf”格式的文件進行下載。之后，LAC在其發(fā)布的《加拿大國家圖書檔案館2008—2011年戰(zhàn)略計劃》中明確指出：“加拿大國家圖書檔案館將致力于加拿大政府網(wǎng)站信息資源的開發(fā)與管理，并為政府機構(gòu)制定政府網(wǎng)站信息存儲計劃和新的存儲模式?！盵2]經(jīng)過幾年的不懈努力，LAC政府網(wǎng)站信息數(shù)據(jù)庫收集的內(nèi)容幾乎涵蓋了加拿大所有政府機構(gòu)的公共獲取信息。為了方便用戶使用這些網(wǎng)絡(luò)信息成果，LAC開發(fā)了新的數(shù)字處理系統(tǒng)，該系統(tǒng)已于2011年9月開始測試[3]。

1.1.2 瑞典的“KulturarW3”項目

瑞典皇家圖書館（Kungliga Bilioteket，簡稱KB）從1996年起就開始了網(wǎng)站信息保存項目——KulturarW3。KulturarW3的目標就是保存瑞典國內(nèi)現(xiàn)在及未來所有的網(wǎng)站信息并通過網(wǎng)絡(luò)提供無障礙獲取，政府網(wǎng)站是其主要的保存對象。KulturarW3的做法是先解決法律問題，再分析網(wǎng)站上的文件屬性并制訂保存策略，最后進行全面采集并提供信息的自由獲取。至今，該項目利用NMA-Combine采集機保存該國域名為“.org”等的網(wǎng)站信息多達6500萬條，數(shù)據(jù)量達300GB，文件以html和純文本格式為主[1]。但由于該國缺少相關(guān)的法律，目前瑞典皇家圖書館尚未實現(xiàn)對政府網(wǎng)站以外的其他網(wǎng)絡(luò)信息的公開訪問和保存。

1.2 選擇性保存——澳大利亞的“PANDORA”項目與美國的“CDL”項目

選擇性保存是根據(jù)一定的原則和標準，對網(wǎng)站信息資源的歷史、文化、經(jīng)濟價值等方面進行評價后，有選擇性地采集和保存[1]。目前，國外采用選擇性保存策略已經(jīng)完成或正在實施的項目包括以下兩項。

1.2.1 澳大利亞的“PANDORA”項目

1996年澳大利亞國家圖書館（National Library of Australia，簡稱NLA）啟動了網(wǎng)站信息保存項目（Preserving and Accessing Networked Documentary Resources of Australia，簡稱 PANDORA）。PANDORA的目標是保存經(jīng)過選擇的網(wǎng)站及網(wǎng)站出版物，為公眾提供長期獲取[4]。2005年7月，PANDORA項目組第一次完成了對整個澳大利亞網(wǎng)站的選擇性保存工作，并且為其保存的信息提供了全檢索。政府網(wǎng)站是其最重要的保存對象之一，PANDORA項目組根據(jù)既定的收集方針有選擇性地保存了包括澳大利亞共和討論、選舉、政黨與政治人物等多方面在內(nèi)的政府網(wǎng)站信息。在工作開展中，PANDORA的做法是：（1）NLA出面促使成立澳大利亞網(wǎng)站資源委員會，由該委員會負責制訂網(wǎng)站信息的采集方針——《保存網(wǎng)上出版物的選擇方針》，PANDORA項目組嚴格按照方針開展網(wǎng)站的保存工作。（2）廣泛合作，選擇保存。NLA首先與澳大利亞國家檔案館（National Archives of Australia，簡稱NAA）聯(lián)合制訂了《保護政府在線出版物：聯(lián)邦出版者指南》并建成了PANDORA檔案館，然后與地方圖書館合作，每個參與的地方圖書館都可以根據(jù)自身情況擬訂本館的網(wǎng)站資源選擇方針，負責地方或特殊網(wǎng)站資源的保存[5]。

1.2.2 美國的“CDL”項目

2004年9月，美國加利福尼亞數(shù)字圖書館（California Digital Library，簡稱CDL）開啟了“在線政府信息資源保存項目”（通常稱作“CDL”項目）。CDL項目是“美國國家數(shù)字信息基礎(chǔ)結(jié)構(gòu)和保存項目”（National Digital Information Infrastructure and Preservation program，簡稱NDIIPP）的子項目之一，并獲得國會圖書館240萬美金的撥款資助。CDL的目標就是為圖書館開發(fā)一種用以長期保存政府網(wǎng)站信息資源的網(wǎng)站存儲工具與結(jié)構(gòu)。CDL最初將工作重心放在保存聯(lián)邦政府、州政府的網(wǎng)站信息及當?shù)刂匾位顒拥南嚓P(guān)網(wǎng)站信息。后來，在條件允許的情況下，選擇性地保存國內(nèi)其他地方的政府網(wǎng)站信息[6]。該項目的開展過程主要包括4個階段：（1）內(nèi)容確定階段。從需求評估、爬行測試和分析、擴展評估等方面判定政府網(wǎng)站信息是否滿足其保存的需要。（2）內(nèi)容采集階段。對適用于項目內(nèi)容需求的信息進行分析、獲取和采集。（3）內(nèi)容還原和轉(zhuǎn)換階段。使用各種技術(shù)手段轉(zhuǎn)換與還原政府網(wǎng)站信息。（4）建立合作階段[7]。制訂計劃，建立基本的組織與合作關(guān)系。

1.3 專題保存——美國的“Minerva”項目

美國國會圖書館認為保存開放式的政府網(wǎng)站信息資源是其必須承擔的重要使命，密涅瓦項目（Mapping the Internet Electronic Resources Virtual Archive，簡稱 Minerva）從2000年開始開展一些基于主題事件的網(wǎng)站信息保存工作。例如，它保存的關(guān)于“911”事件的網(wǎng)站數(shù)量多達3萬余個，網(wǎng)頁數(shù)則有3億之多；它保存的關(guān)于總統(tǒng)大選的網(wǎng)站數(shù)量有近5千個，網(wǎng)頁數(shù)則上億；它保存的關(guān)于伊拉克戰(zhàn)爭的網(wǎng)站數(shù)也有近萬個[8]。針對某一重要的事件進行專題信息收集，不僅能夠反映某一個事件的全貌，而且能夠更好地滿足廣大用戶的信息需求。Minerva項目在開展過程中采取了與其他機構(gòu)廣泛合作的模式。例如，它和Internet Archive合作進行關(guān)于總統(tǒng)大選網(wǎng)站保存，Internet Archive提供了先進的保存技術(shù)，使用了Wayback machine為保存的網(wǎng)站信息建立索引，并提供了臨時的數(shù)據(jù)存儲空間。Minerva項目還得到了相關(guān)部門在法律與政策上的支持，如美國版權(quán)局曾明確提出：“如果網(wǎng)站信息符合項目采集的需求，國會圖書館不需要向政府網(wǎng)站出版者提出申請，有權(quán)利直接從網(wǎng)站上下載。如果網(wǎng)站信息達到項目保存的標準，國會圖書館在不需要得到政府網(wǎng)站出版者許可的情況下，可以直接保存有關(guān)信息。國會圖書館還有權(quán)利委托其他社會機構(gòu)對政府網(wǎng)站信息進行收集和保存?！盵9]這很好地解決了政府網(wǎng)站信息的知識產(chǎn)權(quán)問題，方便了Minerva項目工作的長期開展。

2 對我國圖書館的啟示

目前，我國圖書館界還沒有專門的政府網(wǎng)站保存實踐項目，但國家圖書館已從2005年開始啟動了一個試驗項目——“網(wǎng)絡(luò)信息采集與保存”項目。該項目根據(jù)中國政府網(wǎng)站的特點，確定的采集范圍是域名以“.gov.cn”結(jié)尾的所有網(wǎng)站，以確保盡可能全面地覆蓋中國政府網(wǎng)站信息。保存的數(shù)據(jù)格式包括網(wǎng)站的靜（動）態(tài)頁面、圖片、Word文件、PDF文件等。

國外的政府網(wǎng)站信息保存項目各有特色，我國圖書館在立項政府網(wǎng)站信息保存項目時，應(yīng)充分結(jié)合自身的實際條件，通過構(gòu)建系統(tǒng)的保存體系和完善配套的保障機制，保證此項工作長期、有效地開展下去。

2.1 構(gòu)建系統(tǒng)的保存體系

2.1.1 制訂保存策略

制訂政府網(wǎng)站信息保存項目的保存策略，第一步是確定項目的保存對象。政府網(wǎng)站一般都有明顯的特征，即域名中含有“.gov”，但僅僅依靠域名來判斷一個網(wǎng)站是否屬于政府網(wǎng)站又是不科學(xué)的，因此我們在選擇保存對象時，應(yīng)使用以人工選擇為主、自動選擇為輔的方法。第二步是分析保存對象，即全面分析項目待保存網(wǎng)站的基本信息，包括網(wǎng)站的信息類型、信息格式、信息更新周期等。第三步是確定保存級別。圖書館應(yīng)根據(jù)政府網(wǎng)站信息多樣性和復(fù)雜性的特點選擇保存級別。目前，國外常見的保存級別分為：（1）歸檔級（Archived），圖書館將政府網(wǎng)站信息資源存儲在本館的館藏資源庫中，由圖書館負責這些政府網(wǎng)站信息的長期存取并提供訪問。（2）鏈接級（Linked），圖書館對存儲于異地服務(wù)器上的政府網(wǎng)站信息進行鏈接，創(chuàng)建目錄，開發(fā)檢索工具供用戶利用。（3）鏡像級（Mirrored），圖書館使用特定的軟件工具，以政府網(wǎng)站為信息單元保存全部網(wǎng)頁信息，同時保留信息原有的目錄結(jié)構(gòu)[10]。

2.1.2 選定保存方式

國外常用的保存方式主要有以下兩種：①推送模式（Push Model），是指政府機構(gòu)主動將政府網(wǎng)站信息資源呈繳或捐贈給圖書館，圖書館被動地接受政府網(wǎng)站信息資源的模式。②拉取模式（Pull Model），是指圖書館使用特定的工具主動獲取政府網(wǎng)站信息資源的模式。根據(jù)保存范圍的不同，保存方式分為全面采集（Comprehensive Preservation）、選擇性采集（Selective Preservation）與專題采集（Thematic Preservation）3種[10]。我國圖書館在啟動政府網(wǎng)站信息保存項目時應(yīng)根據(jù)項目的立項目標來選定合適的保存方式。

2.1.3 確定抓取周期

據(jù)中國互聯(lián)網(wǎng)站信息資源數(shù)量調(diào)查報告顯示，政府網(wǎng)站信息的更新頻率僅次于商業(yè)網(wǎng)站，每月都有信息更新的政府網(wǎng)站占所有政府網(wǎng)站數(shù)的76.0%[6]。我國圖書館應(yīng)準確把握政府網(wǎng)站信息的這一特點，并據(jù)此確定抓取周期。國外圖書館在這方面的經(jīng)驗值得借鑒，如美國北卡羅來納州政府網(wǎng)站保存項目制訂了“網(wǎng)站宏觀評估計分表”，該表設(shè)定的評估項目包括信息量、獨創(chuàng)性、更新頻率、歷史價值、證據(jù)價值、公眾興趣、政府關(guān)注，按照評價標準評分：“低價值”得1分、“中價值”得2分、“高價值”得3分，對于總得分為“7”的政府網(wǎng)站，每年抓取網(wǎng)站信息1次，對于總得分在“8～10”的政府網(wǎng)站，每季度抓取網(wǎng)站信息1次，對于總得分在“11～21”的政府網(wǎng)站，每月抓取網(wǎng)站信息1次[11]。

2.1.4 選擇保存技術(shù)及工具

利用搜索引擎和網(wǎng)站爬蟲能夠找到政府網(wǎng)站的網(wǎng)址和數(shù)據(jù)庫的檢索入口，但是一些政府機構(gòu)只允許社會機構(gòu)、公眾通過檢索對其網(wǎng)站進行訪問，不允許對其網(wǎng)站進行批量采集。因此，圖書館不得不借助一些專門的工具進行網(wǎng)站保存，這些工具包括：（1）DeepArc，它利用“XQuery”按照目標要求將存儲有網(wǎng)站信息的政府數(shù)據(jù)庫的內(nèi)容轉(zhuǎn)化為XML文件并從政府數(shù)據(jù)庫中抽取出來，但使用DeepArc要求網(wǎng)站出版者必須先安裝客戶端，并且要求采集者必須對政府數(shù)據(jù)庫的結(jié)構(gòu)和數(shù)據(jù)模型有一定的了解[12]。（2）Deep Harvester，它能夠保存并處理包括“HTML”、“PDF”、“DOC”、“TXT”等在內(nèi)的近400種格式的文檔，還可以獲取政府機構(gòu)內(nèi)網(wǎng)和專網(wǎng)中的信息，具有最全面的信息保存功能和標準化模型，是目前國外使用最多的一種保存工具[13]。（3）元數(shù)據(jù)，借助它可以對政府網(wǎng)站信息進行定位和標注，捕獲其元數(shù)據(jù)并存儲于圖書館本地元數(shù)據(jù)庫中，并在此基礎(chǔ)上提供元數(shù)據(jù)的統(tǒng)一檢索，可以在保證獲取效率的同時確保信息的完整性。

2.2 完善配套的保障機制

2.2.1 制訂有關(guān)的法律與政策

圖書館對政府網(wǎng)站信息資源進行保存之前必須經(jīng)過政府機構(gòu)的許可，獲得政府機構(gòu)的授權(quán)，所以，我國在國家層面上應(yīng)出臺配套的法律明確圖書館有權(quán)對政府網(wǎng)站信息資源進行采集與保存。例如，以法律的形式明確政府網(wǎng)站信息呈繳制度，要求政府機構(gòu)定期向圖書館呈繳其網(wǎng)站信息。目前，英國、加拿大、瑞典等發(fā)達國家都已將網(wǎng)站信息納入到了呈繳制度之中，澳大利亞、日本等國家也正在積極籌備網(wǎng)站文獻法定繳送的相關(guān)立法工作。近年來，我國國家圖書館也在積極推進網(wǎng)站出版物的呈繳制度，但至今還沒有相關(guān)的制度出臺。同時，我國圖書館界還應(yīng)呼吁相關(guān)政府部門完善現(xiàn)有的信息政策，建議在政策中體現(xiàn)出關(guān)于政府網(wǎng)站信息保存的內(nèi)容，例如，美國的北德克薩斯州立大學(xué)在《保存國家政治遺產(chǎn)項目需求評估總結(jié)報告》中就曾要求有關(guān)政府機構(gòu)制定政策明確政府網(wǎng)站保存的相關(guān)問題，如政府網(wǎng)站中哪些信息應(yīng)該優(yōu)先保存、政府網(wǎng)站信息保存可以采用哪些元數(shù)據(jù)標準等[14]。

2.2.2 建立形式多樣的合作機制

政府網(wǎng)站信息資源保存項目的開展需要有長期、大量的資金投入。美國的Internet Archive項目組所做的一項統(tǒng)計顯示，采集1TB網(wǎng)站信息資源大約需要花費3000美元[15]。如何爭取如此巨額的資金呢？首先，我國圖書館應(yīng)積極向上級文化部門與當?shù)卣畔⒐_主管部門爭取更多專項資金。其次，應(yīng)吸引更多的商業(yè)機構(gòu)參與進來，拓寬資金來源渠道，建立一個多元化的資金投入機制。最后，應(yīng)充分挖掘降低政府網(wǎng)站信息保存成本的方法，使圖書館能夠以最少的投入獲得最大的效益。

我國圖書館可以與對保存政府網(wǎng)站信息感興趣的社會機構(gòu)合作，指導(dǎo)其建設(shè)保存項目，并確保在其對項目失去興趣時，將其保存的所有信息提供給圖書館。同時，我國圖書館可以與國外圖書館加強交流與合作。根據(jù)參與機構(gòu)的具體情況，圖書館可以選擇高度分布式合作、平等分布式合作、集中分布式合作3種結(jié)構(gòu)模型[16]。在合作過程中，圖書館必須協(xié)調(diào)好多個機構(gòu)、個人的職責和權(quán)益。澳大利亞PANDORA項目負責人Webb C將該項目的成功歸功于：NLA的領(lǐng)導(dǎo)作用與澳大利亞圖書館之間良好的合作傳統(tǒng)[17]。

2.2.3 制訂相關(guān)的技術(shù)標準規(guī)范

由于網(wǎng)站信息資源的復(fù)雜性，圖書館開展政府網(wǎng)站信息資源保存工作面臨著諸多的技術(shù)挑戰(zhàn)，包括如何保存動態(tài)的網(wǎng)站信息和深層網(wǎng)站信息資源，如何使獲取的信息資源呈現(xiàn)原始面貌，如何保存一些做了加密處理的網(wǎng)站信息資源，如何構(gòu)建存儲系統(tǒng)的模型及存儲元數(shù)據(jù)標準等。我國圖書館在啟動政府網(wǎng)站信息資源保存項目之前，必須制訂相關(guān)的標準規(guī)范，包括所采用的Web存檔文件格式、保存基礎(chǔ)結(jié)構(gòu)、元數(shù)據(jù)標準、元數(shù)據(jù)編碼與傳輸標準、數(shù)據(jù)存儲轉(zhuǎn)換格式標準等，各項工作都應(yīng)在國家的標準框架內(nèi)有序進行，避免因標準不統(tǒng)一而導(dǎo)致各保存項目無法實現(xiàn)信息共享。

2.2.4 加快專業(yè)技術(shù)人才的培養(yǎng)

圖書館政府網(wǎng)站信息保存工作需要專門的圖書館員來完成。美國許多圖書館設(shè)有專門的“政府出版物圖書館員（Government Publication Librarian）”，專門負責政府出版物的采集、保存、管理等工作。美國還特別重視對政府出版物圖書館員人才的培養(yǎng)及其業(yè)務(wù)能力的提升，例如，馬里蘭州大學(xué)研究生院的圖書情報學(xué)碩士專業(yè)因此開設(shè)了“電子政府專修（E-Government Concentration）”課程，教授電子政府概論、信息政策、政府信息存取、電子記錄保存等電子政府與圖書館服務(wù)相結(jié)合的內(nèi)容。美國圖書館協(xié)會的政府文獻圓桌會議（Government Documents Round Table，簡稱GODORT）為政府信息圖書館員提供討論問題、交換意見的平臺，同時還對政府信息圖書館員進行教育與培訓(xùn)?，F(xiàn)階段，我國圖書館要在爭取專業(yè)人才支持的同時，努力加強對現(xiàn)有工作人員的培訓(xùn)，提高工作人員的業(yè)務(wù)技能與水平[18]。

[1]安興茹.歐美國家圖書館網(wǎng)絡(luò)信息保存的收集策略研究及啟示[J].圖書館雜志,2007(9):53-54.

[2]Library and Archives Canada. Library and Archives Canada Business Plan: 2008—2011[EB/OL].[2012-06-26].http://collectionscanada.ca/about-us/012-307.01-e.html.

[3]Library and Archives Canada. Government: Products and Services[EB/OL] . [2012-06-26] http://www.collectionscanada.gc.ca/government/products-services/index-e.html.

[4]About Pandora.PANDORA [EB/OL].[2012-06-26].http://pandora.nla.gov.au.

[5]楊天軍,常青. 政府網(wǎng)站保存實踐與思考[J].情報雜志,2008(3):109-114.

[6]唐瓊.政府網(wǎng)絡(luò)信息資源長期保存研究[J].圖書館理論與實踐,2007(2):62-64.

[7]楊道玲,于施洋.國外政府網(wǎng)站保存實踐與思考[J].中國檔案, 2007(7):64-65.

[8]Collecting and Preserving the WebMinerva[EB/OL].[2012-06-26].http://www.loc.gov/minerva.

[9]趙俊玲.美國國會圖書館網(wǎng)絡(luò)信息保存項目Minerva及啟示[J].圖書館建設(shè),2005(5):40-42.

[10]何歡歡.政府網(wǎng)站信息資源采集策略[J].檔案管理,2011(4):27-29.

[11]North Carolina Department of Cultural Resources. Standard for Automated WebSiteCapture[EB/OL].[2012-06-26].http://www.records.ncdcr.gov/Website/websiteStandards_20060717.pdf.

[12]劉蘭, 吳振新, 向菁, 等.網(wǎng)絡(luò)信息資源保存開源軟件綜述[J].現(xiàn)代圖書情報技術(shù),2009(5):11-17.

[13]Bright Planet. Deep Harvester[EB/OL]. [2012-06-26]. http://www.brightpla-net.com/solutions/deep-web-harvest.

[14]何歡歡.政府網(wǎng)站信息資源保存挑戰(zhàn)及對策[J].圖書情報工作,2011(4):130-133.

[15]United Nations Educationa.Iscientific and Cultural Organization Guidelines for the Preservation of Digital Heritage[EB/OL].[2012-06-26].http: //unesdoc. unesco. org/images/0013 /001300 /130071e. pdf.

[16]趙俊玲.守護e時代的記憶:網(wǎng)站信息資源保存研究[M]. 北京:北京圖書館出版社, 2007: 58-60.

[17]Webb C. Digital Preservation-a Many Layered Thing: Experience at the National Library of Australia[EB/OL].[2012-06-26].http:// www.clir.org/pubs/re-ports/pub107/webb.html.

[18]鄧青,鄒勇.中美公共圖書館政府信息服務(wù)的差距分析[J].圖書館學(xué)研究: 理論版, 2011(4):89-92.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看