蔡 舜(天津科技大學(xué)圖書館)
?
美國(guó)網(wǎng)頁(yè)存檔調(diào)查及啟示
蔡舜
(天津科技大學(xué)圖書館)
摘要:詳細(xì)介紹分析了美國(guó)國(guó)家數(shù)字化管理聯(lián)盟先后于2011年和2013年開展的針對(duì)全美網(wǎng)頁(yè)存檔調(diào)查的具體現(xiàn)狀,并通過對(duì)比兩年的調(diào)查結(jié)果,提出了把握網(wǎng)頁(yè)存檔的趨勢(shì)、挑戰(zhàn)和機(jī)會(huì)及有待進(jìn)一步研究的問題。同時(shí),提出了對(duì)于國(guó)內(nèi)存檔機(jī)構(gòu)需要借鑒的地方。
關(guān)鍵詞:數(shù)字化管理聯(lián)盟;網(wǎng)頁(yè)存檔;調(diào)查;美國(guó)
美國(guó)國(guó)會(huì)圖書館于2010年8月3日宣布國(guó)家數(shù)字化管理聯(lián)盟(National Digital Stewardship Alliance,NDSA)正式成立,各成員機(jī)構(gòu)和組織負(fù)責(zé)提供可用數(shù)據(jù)庫(kù)、網(wǎng)頁(yè)、視頻、音頻及其他具有長(zhǎng)期保存價(jià)值的數(shù)字化藏品的保存和訪問服務(wù)。[1]NDSA分別于2011年和2013年組織進(jìn)行了針對(duì)全美的網(wǎng)絡(luò)存檔情況的調(diào)查,目的是通過調(diào)查實(shí)施網(wǎng)絡(luò)存檔程序的機(jī)構(gòu),了解網(wǎng)絡(luò)存檔的歷史和范圍、被保存內(nèi)容的類型、存檔工具和提供服務(wù)的類型、提供的搜索和訪問服務(wù)以及關(guān)于網(wǎng)絡(luò)存檔的所有政策。[2]通過對(duì)比調(diào)查結(jié)果,分析網(wǎng)絡(luò)存檔的趨勢(shì),了解美國(guó)網(wǎng)絡(luò)存檔的挑戰(zhàn)和機(jī)遇。
1.1機(jī)構(gòu)
2011年選擇了77家機(jī)構(gòu),2013年選擇了92家機(jī)構(gòu)作為調(diào)查對(duì)象,其共同的特征是,兩次調(diào)查對(duì)象中學(xué)院和大學(xué)占了總調(diào)查機(jī)構(gòu)的一半左右,其次,是政府機(jī)構(gòu)和檔案館。調(diào)查發(fā)現(xiàn),當(dāng)前已經(jīng)開展網(wǎng)絡(luò)存檔的機(jī)構(gòu)約占63%,16%的機(jī)構(gòu)網(wǎng)絡(luò)存檔程序正在測(cè)試中,17%的機(jī)構(gòu)計(jì)劃在將來開展網(wǎng)絡(luò)存檔,也就是說96%的機(jī)構(gòu)正在或即將開展網(wǎng)絡(luò)內(nèi)容存檔活動(dòng)。而開展網(wǎng)絡(luò)存檔活動(dòng)的機(jī)構(gòu)中,又以高校為主,檔案館、公共圖書館次之,州政府、聯(lián)合政府、商業(yè)機(jī)構(gòu)等也加入到網(wǎng)絡(luò)存檔行列中。
1.2時(shí)間及內(nèi)容
早在1989~1995年間,美國(guó)就有4家機(jī)構(gòu)開展了網(wǎng)絡(luò)存檔,其中包括3家檔案機(jī)構(gòu)和1所高校。“網(wǎng)絡(luò)存檔(web archive)”一詞是隨著1996年“互聯(lián)網(wǎng)檔案館”(Internet Archive)的成立正式提出的。在互聯(lián)網(wǎng)檔案館成立之后的近十年,每年大約有兩三家機(jī)構(gòu)啟動(dòng)網(wǎng)絡(luò)存檔程序;2007年起,網(wǎng)絡(luò)存檔活動(dòng)進(jìn)入加速時(shí)期,開展網(wǎng)絡(luò)存檔的機(jī)構(gòu)明顯增加,約32%的機(jī)構(gòu)在2009年前后啟動(dòng)網(wǎng)絡(luò)存檔程序。
關(guān)于存檔內(nèi)容的選擇,49%的機(jī)構(gòu)既保存自己內(nèi)部的也保存外部的網(wǎng)絡(luò)內(nèi)容,20%的機(jī)構(gòu)只保存自己內(nèi)部網(wǎng)絡(luò)內(nèi)容,由此可見,有69%的機(jī)構(gòu)保存自己內(nèi)部網(wǎng)絡(luò)的內(nèi)容,說明內(nèi)部網(wǎng)絡(luò)的保存是網(wǎng)絡(luò)存檔的主要內(nèi)容。關(guān)于外部網(wǎng)站的保存,很多機(jī)構(gòu)已經(jīng)開展關(guān)于某一主題或領(lǐng)域進(jìn)行聯(lián)合存檔,存檔較多的是突發(fā)事件和國(guó)際范圍事務(wù),如,烏克蘭戰(zhàn)爭(zhēng)、9·11恐怖襲擊、2010冬奧會(huì)、伊拉克戰(zhàn)爭(zhēng)等這些國(guó)際影響較大的事件的相關(guān)網(wǎng)絡(luò)資料就被完整保存下來。
1.3類型
網(wǎng)絡(luò)存檔內(nèi)容有多種類型。社會(huì)媒體受各大存檔機(jī)構(gòu)的青睞,約79%的機(jī)構(gòu)表示存檔相關(guān)的網(wǎng)頁(yè);數(shù)據(jù)庫(kù)和視頻也是各機(jī)構(gòu)通常存檔的對(duì)象,分別有74% 和73%的機(jī)構(gòu)表示會(huì)存檔;其次還有互動(dòng)媒體、音頻、博客等,藝術(shù)是存檔機(jī)構(gòu)涉及最少的內(nèi)容類型,僅有17%的機(jī)構(gòu)表示存檔藝術(shù)相關(guān)的網(wǎng)絡(luò)資料。這說明被采訪的機(jī)構(gòu)致力于搜集網(wǎng)絡(luò)藝術(shù)品的比例相對(duì)較少,且越來越意識(shí)到歸檔藝術(shù)資料相對(duì)于其他形式的材料更容易。
1.4搜索方法
機(jī)構(gòu)為用戶提供的搜索方式主要有以下幾種:全文搜索(60%),網(wǎng)址搜索(54%),主題列表(50%),地址列表(43%),選集級(jí)別描述的目錄記錄(22%),條款級(jí)別描述的目錄記錄(18%),查詢幫助(20%),其他(20%),極少數(shù)的機(jī)構(gòu)提供應(yīng)用程序編程接口(APIS)(5%)。[3]通過兩次網(wǎng)絡(luò)調(diào)查的情況來看,發(fā)現(xiàn)提供條款級(jí)別目錄描述和選集級(jí)別目錄描述的機(jī)構(gòu)正在減少。另一個(gè)不爭(zhēng)的事實(shí)是所有提供網(wǎng)絡(luò)存檔搜索途徑的數(shù)目在下降,對(duì)于這種情況的出現(xiàn),有些存檔機(jī)構(gòu)解釋為查詢幫助的出現(xiàn),以及應(yīng)用程序編程接口的應(yīng)用,使得很多用戶可以不再依賴系統(tǒng)所提供的檢索途徑。
1.5政策
為了更好地規(guī)范保存機(jī)構(gòu)的存檔行為,避免各類知識(shí)產(chǎn)權(quán)糾紛,各機(jī)構(gòu)制定了不同的存檔政策。這些政策包括關(guān)于存檔權(quán)限的許可,爬蟲協(xié)議(robots.txt)指令的方式,對(duì)于社會(huì)媒體存取的版權(quán)、存取政策的建立指南,為保護(hù)資源而設(shè)定的禁止訪問時(shí)間段等。
關(guān)于存檔的權(quán)限,有超過一半的機(jī)構(gòu)獲取網(wǎng)絡(luò)內(nèi)容時(shí)既沒有告知內(nèi)容所有者,也沒有申請(qǐng)獲取存檔許可。余下不足一半的機(jī)構(gòu)中,有約23%的機(jī)構(gòu)向內(nèi)容所有者告知其存檔意向,另外有約19%的機(jī)構(gòu)向內(nèi)容所有者申請(qǐng)存檔許可。出于簡(jiǎn)化程序的目的,若網(wǎng)絡(luò)爬蟲(Crawler)協(xié)議不會(huì)對(duì)捕獲內(nèi)容造成不利影響,一些向網(wǎng)站所有者發(fā)送通知的機(jī)構(gòu)一般不會(huì)申請(qǐng)?jiān)S可。根據(jù)2011年和2013年兩次調(diào)查的結(jié)果對(duì)比表明,向網(wǎng)絡(luò)內(nèi)容所有者申請(qǐng)存檔許可的機(jī)構(gòu)比例在上升,相對(duì)于2011年的13%,2013年增加了6%。從這一點(diǎn)可以看出存檔機(jī)構(gòu)的知識(shí)產(chǎn)權(quán)意識(shí)在不斷增強(qiáng),存檔行為在不斷規(guī)范化、合法化。另外,對(duì)于負(fù)責(zé)存檔政府網(wǎng)站的機(jī)構(gòu)免除申請(qǐng)進(jìn)行存檔,大學(xué)的存檔機(jī)構(gòu)只有在保存自身管轄范圍內(nèi)的網(wǎng)頁(yè)內(nèi)容時(shí)不用申請(qǐng)?jiān)S可和告知。
爬蟲協(xié)議是一種機(jī)器可讀的協(xié)議,網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁(yè)面可以抓取,哪些頁(yè)面不能抓取,[4]這樣某些限定內(nèi)容就不會(huì)出現(xiàn)在搜索結(jié)果中。2013年的調(diào)查發(fā)現(xiàn)55%的存檔視情況遵守爬蟲協(xié)議,相比較2011年增加了21%。一直嚴(yán)格遵守爬蟲協(xié)議的機(jī)構(gòu)同時(shí)從2011年的38%下降到2013年的22%。不遵守爬蟲協(xié)議的機(jī)構(gòu)保持一致。不遵守爬蟲協(xié)議的存檔機(jī)構(gòu)一般是一些擁有版權(quán)或者其他專門的存取權(quán)利(如機(jī)構(gòu)自己的檔案或者義務(wù)保存政府記錄)的機(jī)構(gòu),或存檔機(jī)構(gòu)從網(wǎng)站所有者處獲得了存檔許可或者發(fā)送存檔通知。近一半的存檔機(jī)構(gòu)表示他們忽略爬蟲協(xié)議是為了獲得必須的關(guān)鍵內(nèi)容,因?yàn)榕老x協(xié)議的限制,檔案里將存在一些沒有意義的內(nèi)容,這些內(nèi)容不僅包括網(wǎng)站內(nèi)容,還包括網(wǎng)站的設(shè)計(jì)和風(fēng)格,如,圖片和樣式。有些存檔程序重視爬蟲協(xié)議,但是不申請(qǐng)?jiān)S可或告知站長(zhǎng)他們?cè)诒4婢W(wǎng)絡(luò)。
關(guān)于禁止訪問周期。為了盡量減少與活躍期網(wǎng)站內(nèi)容的混淆和競(jìng)爭(zhēng),存檔內(nèi)容通常需要設(shè)定一個(gè)禁止訪問周期,很多政策里都有相關(guān)的規(guī)定。而事實(shí)上多數(shù)機(jī)構(gòu)(69%)表示會(huì)設(shè)定禁止訪問周期,通常是6個(gè)月(約45%),少量的機(jī)構(gòu)表示禁止訪問的時(shí)長(zhǎng)為12個(gè)月(9%),另外約45%的機(jī)構(gòu)表示設(shè)定其他時(shí)長(zhǎng)。也有機(jī)構(gòu)表示具體的禁止訪問時(shí)長(zhǎng)需要參考網(wǎng)站所有者的喜好。當(dāng)然也有部分沒有設(shè)定禁止訪問周期,這部分機(jī)構(gòu)大都采用了第三方如Archive-It(互聯(lián)網(wǎng)檔案館推出的定制服務(wù))和加利福尼亞數(shù)字圖書館(CDL’s)的網(wǎng)絡(luò)存檔服務(wù),其對(duì)于禁止訪問的設(shè)定默認(rèn)缺失。
關(guān)于版權(quán)和存取政策建立的依據(jù)。2013年專門調(diào)查了機(jī)構(gòu)版權(quán)和存取政策建立的依據(jù),其中,約55%的機(jī)構(gòu)表示是參考同行的網(wǎng)絡(luò)存檔政策而制定的,約40%的機(jī)構(gòu)表示其參考了“美國(guó)研究圖書館協(xié)會(huì)的大學(xué)和研究型圖書館公平使用最佳實(shí)踐指南”(Associationof Research Libraries Codeof Best Practicesin Fair Usefor Academic and Research Libraries)的條款?!暗?08條研究小組報(bào)告”(The Section108 Study Group Report)是另一個(gè)非常受歡迎的參考對(duì)象,被1/4的機(jī)構(gòu)引用,另外“奧克蘭的存檔政策”(Oakland Archive Policy)也被約5%的機(jī)構(gòu)引用。
1.6工具和訪問軟件
存檔機(jī)構(gòu)采用多種訪問軟件和工具,通常一個(gè)機(jī)構(gòu)會(huì)采用一種或兩種存檔軟件。在存檔機(jī)構(gòu)中使用較為廣范的存檔軟件有Heritrix、Adobe Web Capture、Grab-a-Site、Httrack Teleport Pro、wget,其中采用率最高的軟件是Heritrix,在2011年和2013分別占24% 和29%;其次是Httrack,2011年和2013年分別占據(jù)24%和18%。調(diào)查結(jié)果顯示,使用Heritrix作為存檔軟件的機(jī)構(gòu)比例有較大幅度的上升,同時(shí)使用“其他”類型存檔軟件的機(jī)構(gòu)也在增加,說明了存檔機(jī)構(gòu)在不斷開發(fā)出新的更適合的存檔軟件,用于保存網(wǎng)絡(luò)內(nèi)容。這些“其他”類別的軟件包括用戶基于內(nèi)容管理系統(tǒng)而定制的軟件、經(jīng)過修訂的Heritrix網(wǎng)絡(luò)搜索器、個(gè)人網(wǎng)頁(yè)文件的手動(dòng)下載軟件、屏幕抓取軟件、KEN網(wǎng)絡(luò)存檔平臺(tái)、Social Feed Manager系統(tǒng)、UXTR以及WAIL網(wǎng)頁(yè)存檔集合層等。另外,在支持WARC或ARC①ARC是互聯(lián)網(wǎng)檔案館制定的用以存檔網(wǎng)絡(luò)爬行器(web craw lers)批量獲取結(jié)果的格式標(biāo)準(zhǔn)。WARC是在ARC的基礎(chǔ)上制定的一種管理和存儲(chǔ)海量網(wǎng)絡(luò)獲取結(jié)果的存檔格式。格式存檔軟件的使用上增長(zhǎng)14%,建議機(jī)構(gòu)注意網(wǎng)絡(luò)存檔的數(shù)據(jù)格式。
網(wǎng)頁(yè)存檔閱讀器的使用。時(shí)光機(jī)(Wayback Machine)是互聯(lián)網(wǎng)檔案館用于存檔網(wǎng)頁(yè)信息檢索中的特色技術(shù),用戶在檢索框中只需鍵入網(wǎng)頁(yè)所對(duì)應(yīng)的URL,系統(tǒng)就會(huì)自動(dòng)將該網(wǎng)頁(yè)從1996年至今的存檔記錄按時(shí)間順序列表,并且表中的每一個(gè)日期都能鏈接到該時(shí)間點(diǎn)上所抓取的網(wǎng)頁(yè)。[5]時(shí)光機(jī)是最流行的閱讀平臺(tái),2011年約76%的存檔機(jī)構(gòu)使用,2013年大約89%,包括外部服務(wù)供應(yīng)商,如,Archive-It和加利福尼亞數(shù)字圖書館的網(wǎng)絡(luò)存檔服務(wù),他們自己可以通過時(shí)光機(jī)提供閱讀。在2013年的調(diào)查中,不使用時(shí)光機(jī)的11%的存檔機(jī)構(gòu)中,8%的機(jī)構(gòu)宣布使用其他的閱讀器,包括檔案社會(huì)存取門戶(the Archive Social accessportal)、里德檔案控制臺(tái)(theReed ArchivesConsole)和另一款內(nèi)部開發(fā)的閱讀器。剩下的3%的機(jī)構(gòu)表示他們的網(wǎng)絡(luò)存檔數(shù)據(jù)不提供閱讀服務(wù)。
1.7工時(shí)與技能
在2013年的調(diào)查中,絕大部分的存檔機(jī)構(gòu),僅投入職工的部分工作時(shí)間用于網(wǎng)絡(luò)存檔活動(dòng);81%的存檔機(jī)構(gòu)投入半個(gè)或少于一個(gè)的相當(dāng)于全職職工時(shí)間;只有約19%的機(jī)構(gòu)投入至少一個(gè)全職職工時(shí)間。所有存檔機(jī)構(gòu)投入的網(wǎng)頁(yè)存檔活動(dòng)的時(shí)間中間值是四分之一個(gè)的全職職工時(shí)間。存檔機(jī)構(gòu)投入的時(shí)間是否足夠滿足網(wǎng)頁(yè)存檔的需求,是沒有經(jīng)過嚴(yán)格評(píng)估的。同樣出自NDSA的另外一份報(bào)告“有效數(shù)字保存的人員配備”(Staffing for Effective Digital Preservation: An NDSA Report),則反映數(shù)字保存領(lǐng)域是一直處于人員嚴(yán)重不足、投入工作時(shí)間不夠的狀態(tài)。[6]
網(wǎng)絡(luò)存檔是數(shù)字資源存檔的一個(gè)領(lǐng)域,這一活動(dòng)綜合了傳統(tǒng)資源保存與現(xiàn)代數(shù)字化的最新技術(shù),通常會(huì)涉及多種類型的技術(shù)能力,如網(wǎng)頁(yè)技術(shù)、存檔工具、專業(yè)知識(shí)、評(píng)價(jià)能力、元數(shù)據(jù)、合作與交流能力、軟件開發(fā)能力、質(zhì)量保證等。2013年的調(diào)查發(fā)現(xiàn),存檔機(jī)構(gòu)表示技術(shù)能力對(duì)于網(wǎng)絡(luò)存檔的建立和成功至關(guān)重要,其中,有近40%的機(jī)構(gòu)表示工作人員的網(wǎng)絡(luò)技術(shù)對(duì)于網(wǎng)絡(luò)存檔工作非常重要;37%的機(jī)構(gòu)表示存檔工具的使用對(duì)于存檔程序非常重要;近四分之一的機(jī)構(gòu)表示,專業(yè)知識(shí)、評(píng)估能力和元數(shù)據(jù)提取非常重要;還有少量的機(jī)構(gòu)表示合作交流能力、軟件開發(fā)能力和質(zhì)量保證能力也很重要。其他一些被存檔機(jī)構(gòu)提到的能力還有注意細(xì)節(jié)、分析能力、項(xiàng)目和程序的管理能力、對(duì)政策的合理運(yùn)用、耐心、堅(jiān)持以及快速學(xué)習(xí)能力等。NDSA的“有效數(shù)字保存的人員配備”報(bào)告中顯示,對(duì)于數(shù)字保存的熱情和動(dòng)力是數(shù)字保存人員最為重要的素質(zhì),[6]其次才是各類技能。
2.1缺乏明確的政策
對(duì)很多機(jī)構(gòu)而言,內(nèi)部政策文件是一個(gè)亟需提高的方面。很多程序已經(jīng)整合了現(xiàn)存網(wǎng)頁(yè)資料的政策和進(jìn)程,其他沒有或者不清楚他們機(jī)構(gòu)的網(wǎng)頁(yè)存檔政策的現(xiàn)狀。這個(gè)調(diào)查也揭示網(wǎng)頁(yè)存檔機(jī)構(gòu)缺乏一個(gè)關(guān)于從內(nèi)容創(chuàng)造者處申請(qǐng)?jiān)S可的明確政策,同時(shí),還缺乏存檔內(nèi)容和訪問存檔內(nèi)容兩方面政策。這無疑是網(wǎng)頁(yè)內(nèi)容創(chuàng)造工作者的困難和對(duì)法律及知識(shí)產(chǎn)權(quán)的挑戰(zhàn)。這個(gè)調(diào)查之后,研究型圖書館協(xié)會(huì)(Association of Research Libraries,ARL)公布了關(guān)于學(xué)術(shù)性和研究型圖書館合理使用的最佳實(shí)踐代碼(Code of Best Practices in Fair Use for Academic and Research Libraries),伴隨著這些代碼公布的還有研究型圖書館協(xié)會(huì)之前關(guān)于網(wǎng)頁(yè)存檔法律問題的分析,這些分析可能會(huì)為存檔機(jī)構(gòu)提供一些政策建立的指南。
2.2新興社會(huì)媒體的存檔管理
對(duì)于新興的社會(huì)媒體如Facebook, Twitter and YouTube的存檔政策,在這個(gè)調(diào)查里沒有過多的深入,只是詢問是否有興趣存檔。這類新興的社會(huì)媒體與當(dāng)前的社會(huì)生活息息相關(guān),這類媒體形式所記錄的事件及時(shí)性、互動(dòng)性以及廣泛性是其他類別的社會(huì)媒體難以企及的。但幾乎沒有機(jī)構(gòu)對(duì)于這類社會(huì)媒體進(jìn)行網(wǎng)絡(luò)存檔,其具體的存檔政策更是無從談起。什么是社會(huì)媒體重點(diǎn)應(yīng)該存檔的內(nèi)容,哪些機(jī)構(gòu)開展了社會(huì)媒體的網(wǎng)絡(luò)存檔,都沒有提起。社會(huì)媒體的存檔政策很有必要正式建立起來,調(diào)查發(fā)現(xiàn)約76%的被采訪保存機(jī)構(gòu)當(dāng)前還沒有建立這樣的政策,社會(huì)媒體的存檔指南及一些具體的衡量標(biāo)準(zhǔn)都有待進(jìn)一步的研究。
3.1開展網(wǎng)絡(luò)存檔的機(jī)構(gòu)之多
NDSA的調(diào)查發(fā)現(xiàn),絕大部分的被調(diào)查機(jī)構(gòu)都有網(wǎng)絡(luò)存檔的意識(shí)(96%),都已經(jīng)或準(zhǔn)備開展網(wǎng)絡(luò)存檔。相對(duì)于國(guó)內(nèi)的機(jī)構(gòu),這種觀念無疑要超前許多。我國(guó)的網(wǎng)絡(luò)存檔整體還處于起步階段,中國(guó)業(yè)已開展的網(wǎng)絡(luò)存檔項(xiàng)目只有四項(xiàng),即國(guó)家圖書館開展的“網(wǎng)絡(luò)信息采集與保存”試驗(yàn)項(xiàng)目(WICP),[7]北京大學(xué)主持開發(fā)的中國(guó)Web信息博物館(Web InfoMall),臺(tái)灣大學(xué)的NTUWAS3(National TaiwanUniversity Web Archiving System)項(xiàng)目和臺(tái)灣當(dāng)?shù)卣M織的Web Archive Taiwan項(xiàng)目。[8]美國(guó)早在上個(gè)世紀(jì)80年代末,就有機(jī)構(gòu)啟動(dòng)了網(wǎng)絡(luò)存檔,而我國(guó)最早的網(wǎng)絡(luò)存項(xiàng)目2003年才開始。第一個(gè)網(wǎng)絡(luò)存檔項(xiàng)目的開展距今已經(jīng)12年,但是,全國(guó)上下存檔機(jī)構(gòu)并沒有迎來網(wǎng)絡(luò)存檔的繁榮景象,相反只有最初的機(jī)構(gòu)還在以項(xiàng)目的形式堅(jiān)持著。這一方面說明我國(guó)文化機(jī)構(gòu)已經(jīng)意識(shí)到網(wǎng)絡(luò)存檔的重要性,但另一方面卻沒有相關(guān)的政策保證項(xiàng)目的持續(xù)進(jìn)行,使得其他機(jī)構(gòu)因?yàn)槎唐趦?nèi)看不到實(shí)際效益而止步。
3.2多主體參與
從NDSA的調(diào)查結(jié)果來看,美國(guó)從事網(wǎng)絡(luò)存檔機(jī)構(gòu)的主體是高校。其他機(jī)構(gòu)還有檔案館、州政府、聯(lián)合政府、博物館、公共圖書館、商業(yè)機(jī)構(gòu)、K-12學(xué)校等。相比較而言,我國(guó)相當(dāng)網(wǎng)絡(luò)存檔主角的是國(guó)家圖書館,其次是北京大學(xué)。地方政府、商業(yè)機(jī)構(gòu)等負(fù)責(zé)的項(xiàng)目幾乎沒有。這說明國(guó)家政府和部分研究機(jī)構(gòu)已經(jīng)意識(shí)到網(wǎng)絡(luò)保存的重要性,但基層的保存機(jī)構(gòu)網(wǎng)絡(luò)保存的意識(shí)不強(qiáng)。另一方面,網(wǎng)絡(luò)保存需要大量的財(cái)力投入,我國(guó)目前的網(wǎng)絡(luò)存檔資金均來源于國(guó)家下?lián)艿酿^內(nèi)預(yù)算,基層的小型保存機(jī)構(gòu)無疑難以獲得資助,自然也就不會(huì)開展網(wǎng)絡(luò)保存了。
3.3知識(shí)產(chǎn)權(quán)保護(hù)意識(shí)
通過NDSA的調(diào)查發(fā)現(xiàn),美國(guó)的網(wǎng)絡(luò)存檔機(jī)構(gòu)在進(jìn)行網(wǎng)頁(yè)獲取時(shí),有近一半的機(jī)構(gòu)會(huì)通知網(wǎng)頁(yè)內(nèi)容所有者或向內(nèi)容所有者申請(qǐng)獲取許可,且申請(qǐng)?jiān)S可的比例不斷在上升。美國(guó)的存檔機(jī)構(gòu)較高的知識(shí)產(chǎn)權(quán)保護(hù)意識(shí)與其本國(guó)較完善的法律體系不無關(guān)系。相比之下,我國(guó)保存機(jī)構(gòu)的版權(quán)保護(hù)意識(shí)則不盡人意,大陸本土的兩個(gè)網(wǎng)絡(luò)保存項(xiàng)目WICP和WEB INFORMALL紛紛開出免責(zé)聲明“對(duì)存檔內(nèi)容質(zhì)量概不負(fù)責(zé)”“具體信息的版權(quán)歸作者和發(fā)布者所有”,一副一切后果自負(fù)的姿態(tài)。事實(shí)上,我國(guó)相關(guān)法律欠缺是導(dǎo)致存檔機(jī)構(gòu)“明哲保身”的直接原因,2011年3月,我國(guó)出版了最新修訂的《出版管理?xiàng)l例》[9]中關(guān)于“網(wǎng)絡(luò)出版物”和條款也只在送審稿全文中曇花一現(xiàn),最終的正式條件中并沒有出現(xiàn),使得網(wǎng)絡(luò)存檔相關(guān)活動(dòng)的立法進(jìn)程又向后推了若干年。
[參考文獻(xiàn)]
[1]本刊訊.美國(guó)國(guó)會(huì)圖書館成立國(guó)家數(shù)字化管理聯(lián)盟[J].現(xiàn)代圖書情報(bào)技術(shù),2010(12):33.
[2]ndsa_web_archiving_survey_report_2012[EB/OL].[2014 -12-11].http://www.digitalpreservation.gov/ndsa/working _groups/documents/ndsa_web_archiving_survey_report _2012.pdf.
[3]NDSA_USWebArchivingSurvey_2013[EB/OL].[2014 -12-11].http://www.digitalpreservation.gov/ndsa/working_groups/documents/NDSA_USWebArchivingSurvey_ 2013.pdf.
[4]爬蟲協(xié)議[EB/OL].[2014-12-11].http://baike.baidu.com/view/9274458.htm?fromtitle=robots.txt&fromid=9518761&type=search.
[5]時(shí)光機(jī)[EB/OL].[2014-12-11].http://en.wikipedia.org/wiki/Wayback_Machine.
[6]Staffing for Effective Digital Preservation: An NDSA Report[EB/OL].[2014-12-11].http://lcweb2.loc.gov/master/gdc/lcpubs/2013655113.pdf.
[7]WICP[EB/OL].[2014-12-11].http://hao.cnnet360.com/wicp.php?classid=9
[8]呂艷飛.中美網(wǎng)絡(luò)信息資源長(zhǎng)期保存項(xiàng)目比較研究[D].重慶:西南大學(xué),2012.
[9]授權(quán)發(fā)布:國(guó)務(wù)院關(guān)于修改《出版管理?xiàng)l例》的決定(全文)[EB/OL].[2014-12-11].http: //news.xinhuanet.com/politics/2011-03/20/c_1212073 47_2.htm.
Survey on America Web Archive and the Enlightenment
Cai Shun
Abstract:National Digital Stewardship Alliance(NDSA)conducted a survey in 2011 and 2013 respectively about the situation of Web archive all around the whole country.The comparison of the survey results reveal the trend of Web archive development, the challenge as well as the opportunity it encounters.The survey also discovers further improvement of Web archive in America which provides reference for information organizations in China.
Keywords:NDSA;Web Archive;Survey;the U.S
[收稿日期]2015-03-25[責(zé)任編輯]劉丹
[作者簡(jiǎn)介]蔡舜(1979-),女,天津科技大學(xué)圖書館副研究館員,已發(fā)表文章10篇。
中圖分類號(hào):G253.1
文獻(xiàn)標(biāo)志碼:B
文章編號(hào):1005-8214(2016)02-0012-04