• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      Web Archive的內(nèi)涵、意義與責(zé)任、發(fā)展進(jìn)程及未來趨勢(shì)

      2014-02-12 15:41:35
      圖書館建設(shè) 2014年3期
      關(guān)鍵詞:國(guó)家圖書館圖書館資源

      劉 蘭

      (北京師范大學(xué)圖書館 北京 100875)

      1 引 言

      隨著信息通訊技術(shù)的發(fā)展和互聯(lián)網(wǎng)的普及,萬維網(wǎng)(World Wide Web,簡(jiǎn)稱WWW)已經(jīng)成為現(xiàn)代社會(huì)不可或缺的一個(gè)重要組成部分,在社會(huì)生活中扮演著越來越重要的角色,成為組織機(jī)構(gòu)和個(gè)人的主要活動(dòng)空間,信息生產(chǎn)、發(fā)布、傳播和交流的主要平臺(tái)。目前,越來越多的信息以E-only(純電子本)的形式出現(xiàn),原生數(shù)字化網(wǎng)絡(luò)信息資源呈指數(shù)增長(zhǎng),網(wǎng)絡(luò)信息資源逐漸成為人類文化遺產(chǎn)的重要組成部分,并且在整個(gè)信息資源構(gòu)成中所占的比例越來越大。此外,網(wǎng)絡(luò)信息具有海量、動(dòng)態(tài)指數(shù)增長(zhǎng)、更新頻繁、生命周期短等特點(diǎn),為人類文化遺產(chǎn)的長(zhǎng)期保存和永久可獲取帶來了巨大的挑戰(zhàn)。

      20世紀(jì)90年代,國(guó)外的圖書館、檔案館、博物館等文化記憶機(jī)構(gòu)開始以項(xiàng)目的形式探索網(wǎng)絡(luò)信息采集和長(zhǎng)期保存(也即Web Archive)的相關(guān)技術(shù)、理論和方法。經(jīng)過近20年的探索,國(guó)外關(guān)于Web Archive的實(shí)踐和理論研究取得了較大的進(jìn)展,積累了豐富的實(shí)踐經(jīng)驗(yàn)和理論成果,但網(wǎng)絡(luò)技術(shù)的不斷發(fā)展和演變(如以互動(dòng)交流為主導(dǎo)的社會(huì)化網(wǎng)絡(luò)站點(diǎn)、以手持智能終端為接入工具的移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展與迅速普及)對(duì)Web Archive的實(shí)踐和理論研究提出了更大挑戰(zhàn),指出了其新的研究方向和發(fā)展空間。

      我國(guó)國(guó)家圖書館、北京大學(xué)網(wǎng)絡(luò)實(shí)驗(yàn)室、中國(guó)科學(xué)院國(guó)家科學(xué)圖書館等相關(guān)機(jī)構(gòu)也分別在國(guó)家“973”、“985”、國(guó)家社會(huì)科學(xué)基金等項(xiàng)目的資助下,對(duì)中國(guó)網(wǎng)絡(luò)信息資源的長(zhǎng)期保存進(jìn)行了理論研究和實(shí)踐探索。相關(guān)學(xué)者在對(duì)國(guó)外Web Archive實(shí)驗(yàn)項(xiàng)目分析的基礎(chǔ)上分別研究了Web Archive流程及關(guān)鍵問題,如對(duì)國(guó)外相關(guān)項(xiàng)目的介紹和分析[1-4];對(duì)Web Archive具體實(shí)施過程中某一環(huán)節(jié)的研究,如對(duì)網(wǎng)絡(luò)采集過程及相關(guān)問題的研究[5-8];對(duì)采集來的網(wǎng)絡(luò)信息進(jìn)行索引和檢索的研究[9-10];對(duì)采集來的網(wǎng)絡(luò)信息進(jìn)行存檔和長(zhǎng)期保存的研究[11-12];對(duì)存檔資源開發(fā)利用的研究[13];對(duì)Web Archive實(shí)施流程及關(guān)鍵問題的系統(tǒng)梳理[14];對(duì)Web Archive相關(guān)開源軟件的評(píng)價(jià)分析[15];對(duì)Web Archive發(fā)展歷程、意義和發(fā)展趨勢(shì)的梳理[16-18],等等。但隨著時(shí)間的推進(jìn),網(wǎng)絡(luò)技術(shù)在不斷發(fā)展演變,相應(yīng)的Web Archive的實(shí)踐和理論也在不斷發(fā)展和更新,其內(nèi)涵和意義也在不斷深化和發(fā)展。

      Web Archive雖然引起了我國(guó)圖書館界及計(jì)算機(jī)界相關(guān)從業(yè)者和學(xué)者的關(guān)注和研究,但實(shí)際上還處于初級(jí)探索階段,其內(nèi)涵和重要意義還沒能引起人們足夠的重視和廣泛的關(guān)注,尤其是作為文化遺產(chǎn)保存管理資助機(jī)構(gòu)的政府,作為文化記憶機(jī)構(gòu)重要組成部分的高校圖書館、檔案館等相關(guān)機(jī)構(gòu)還沒給予其足夠的重視和應(yīng)有的投入。因此,學(xué)術(shù)界非常有必要對(duì)Web Archive不斷豐富的內(nèi)涵、不斷深化的意義進(jìn)行深入的剖析,對(duì)Web Archive的實(shí)踐與研究歷程進(jìn)行系統(tǒng)的梳理,對(duì)在網(wǎng)絡(luò)技術(shù)快速更新環(huán)境下的Web Archive未來發(fā)展趨勢(shì)進(jìn)行探索,以引起我國(guó)相關(guān)機(jī)構(gòu)、組織的深入認(rèn)識(shí)和充分關(guān)注,加快我國(guó)Web Archive實(shí)踐發(fā)展的進(jìn)程,實(shí)現(xiàn)對(duì)我國(guó)網(wǎng)絡(luò)信息資源的長(zhǎng)期保存,保障當(dāng)代及未來人們的網(wǎng)絡(luò)獲取、研究和生活之用,保護(hù)正在產(chǎn)生且急劇消失的當(dāng)代最重要的人類文化遺產(chǎn),盡可能避免造成不可挽回的損失。

      2 Web Archive的內(nèi)涵

      Web Archive也被寫作“Web Archiving”,是指采集網(wǎng)絡(luò)信息進(jìn)行存檔進(jìn)而實(shí)現(xiàn)長(zhǎng)期保存,以便未來的研究者、歷史學(xué)家和公眾利用的一系列活動(dòng)過程的總和,在國(guó)內(nèi)通常被翻譯成網(wǎng)絡(luò)信息資源長(zhǎng)期保存[19]、網(wǎng)頁信息存檔[20]、網(wǎng)頁檔案館[4]、網(wǎng)絡(luò)信息檔案館[21]。其中,Web是指萬維網(wǎng),即網(wǎng)站頁面所包含的資源,通常不包括以數(shù)據(jù)庫(kù)方式提供服務(wù)的正式電子出版文獻(xiàn),如電子期刊和電子書。

      根據(jù)Internet Archive團(tuán)隊(duì)研制的Web Archive生命周期模型(Web Archiving Life Cycle Model,簡(jiǎn)稱WALCM)[22]可知, Web Archive通常包括宏觀政策層、中觀管理層和微觀操作層3個(gè)層面的內(nèi)容。具體來說,宏觀政策層是指,幾乎Web Archive的所有方面都涉及一些政策決定,這些政策決定可能是關(guān)于開發(fā)一項(xiàng)新的具體政策以進(jìn)行網(wǎng)絡(luò)存檔,或者是采納現(xiàn)有的政策以進(jìn)行一個(gè)新的采集活動(dòng)。中觀管理層通常包括愿景與目標(biāo)、資源與工作流、訪問/利用/重用、保存和風(fēng)險(xiǎn)管理5個(gè)方面的內(nèi)容,其中,愿景與目標(biāo)是指機(jī)構(gòu)要明確其網(wǎng)絡(luò)存檔活動(dòng)的目標(biāo);資源與工作流是指機(jī)構(gòu)要審視其開展網(wǎng)絡(luò)存檔活動(dòng)能獲取的資源(包括資金、專家、員工、潛在的合作者等),以便決定如何推進(jìn)其網(wǎng)絡(luò)存檔項(xiàng)目的開展;訪問/利用/重用是指機(jī)構(gòu)必須決定是否及如何提供對(duì)其存檔的訪問,并監(jiān)管其用戶的使用內(nèi)容;保存是指機(jī)構(gòu)必須決定他們想要保存的數(shù)據(jù),包括數(shù)據(jù)文件和元數(shù)據(jù);風(fēng)險(xiǎn)管理是指機(jī)構(gòu)必須考慮他們?cè)诰W(wǎng)絡(luò)存檔活動(dòng)中的風(fēng)險(xiǎn)應(yīng)對(duì)方法,考慮訪問的知識(shí)產(chǎn)權(quán)和許可。Web Archive實(shí)施的具體操作層包括:(1)評(píng)估與篩選,即機(jī)構(gòu)決定具體要采集哪些網(wǎng)站的數(shù)據(jù);(2)范圍,即機(jī)構(gòu)可以選擇存檔網(wǎng)站的一部分、整個(gè)網(wǎng)站或?qū)φ麄€(gè)網(wǎng)絡(luò)域進(jìn)行采集和保存;(3)數(shù)據(jù)抓取,即機(jī)構(gòu)可以通過對(duì)抓取頻率、文件類型、存檔與否等的微調(diào)來確定擬抓取的數(shù)據(jù)范圍;(4)存儲(chǔ)與組織,通常包括對(duì)存檔數(shù)據(jù)的短期或長(zhǎng)期的存儲(chǔ)計(jì)劃,對(duì)于有些機(jī)構(gòu),存儲(chǔ)和組織階段也可以構(gòu)成他們的保存活動(dòng);(5)質(zhì)量保證和分析,即機(jī)構(gòu)評(píng)估其存檔了什么,是否滿足了在存檔活動(dòng)之初設(shè)定的目標(biāo)。

      簡(jiǎn)而言之,Web Archive是為了應(yīng)對(duì)網(wǎng)絡(luò)信息易逝性的問題、確保網(wǎng)絡(luò)信息能被未來的學(xué)者和普通大眾正常、長(zhǎng)期訪問而由某一個(gè)或多個(gè)機(jī)構(gòu)合作實(shí)施的,對(duì)網(wǎng)絡(luò)信息進(jìn)行采集、存儲(chǔ)與組織、長(zhǎng)期保存并提供訪問利用的一系列活動(dòng)的總和。

      3 Web Archive:不斷深化的意義與責(zé)任

      Web Archive的提出源于網(wǎng)絡(luò)技術(shù)的飛速發(fā)展與普及,一方面,網(wǎng)絡(luò)在人們的日常工作、生活、學(xué)習(xí)中占據(jù)越來越重要的作用和地位,成為當(dāng)今社會(huì)信息生產(chǎn)、交流和傳播的重要空間,網(wǎng)絡(luò)信息資源成為當(dāng)今社會(huì)重要的信息資源之一,承載著當(dāng)今人類的活動(dòng)和精神文明。另一方面,網(wǎng)絡(luò)信息更新頻繁,以及各種自然災(zāi)害、人為因素造成網(wǎng)絡(luò)信息的脆弱性,致使網(wǎng)絡(luò)信息生命周期短暫,大量的網(wǎng)絡(luò)信息丟失,給人類文明造成了不可挽回的損失。Web Archive是網(wǎng)站恢復(fù)、網(wǎng)絡(luò)備份的重要方法之一。同時(shí),由于網(wǎng)絡(luò)信息涵蓋當(dāng)今社會(huì)生活、工作、學(xué)習(xí)、娛樂的方方面面,是當(dāng)今社會(huì)的一個(gè)虛擬化呈現(xiàn)和縮影。因此,網(wǎng)絡(luò)信息的長(zhǎng)期保存得到全球記憶機(jī)構(gòu)(如圖書館、檔案館)的重視,并在全球范圍內(nèi)掀起了網(wǎng)絡(luò)信息長(zhǎng)期保存的熱潮。網(wǎng)絡(luò)信息的長(zhǎng)期保存是重要的社會(huì)問題和政治問題,是圖書館、檔案館等國(guó)家記憶機(jī)構(gòu)的責(zé)任。隨著電子商務(wù)的快速發(fā)展與日益普及,由于網(wǎng)絡(luò)成為人類活動(dòng)尤其是經(jīng)濟(jì)交易的重要場(chǎng)所,網(wǎng)絡(luò)交易行為信息具有重要的法律證據(jù)作用,因此,網(wǎng)絡(luò)信息資源的長(zhǎng)期保存還是重要的法律問題,是法律界從業(yè)者的重要職責(zé)和使命。全面認(rèn)識(shí)Web Archive的意義與責(zé)任,有助于梳理Web Archive的各類責(zé)任主體,并對(duì)其應(yīng)盡責(zé)任提出要求。

      3.1 Web Archive的技術(shù)意義與責(zé)任

      Web數(shù)據(jù)類型多樣,對(duì)硬件、軟件、環(huán)境安全等的要求和依賴性較強(qiáng),致使Web信息具有脆弱性和易逝性,如由地震、洪水等自然災(zāi)害造成的硬盤數(shù)據(jù)丟失、損壞;部分Web數(shù)據(jù)需借助特定設(shè)備才能被讀取,需要不同類型軟件(如plug-ins)來確保系統(tǒng)能識(shí)別那些過時(shí)的數(shù)字信息;信息技術(shù)的變化易使利用Web信息的技術(shù)和軟硬件迅速過時(shí),造成以前的Web信息在新的技術(shù)環(huán)境下不可用;Web信息的動(dòng)態(tài)變化造成無法準(zhǔn)確確定和驗(yàn)證原來的信息單元,使信息單元的起源及其歸屬變化難以追蹤,以致信息單元難以辨識(shí)和利用。以上這些都會(huì)造成Web信息的不可用,針對(duì)以上問題,Web Archive可以提供網(wǎng)站恢復(fù)工作。Internet Archive就以其采集并存儲(chǔ)的網(wǎng)頁信息幫助了很多網(wǎng)站進(jìn)行站點(diǎn)恢復(fù)。美國(guó)Old Dominion大學(xué)采用Warrick通過Lazy Preservation的方法,遞歸式地在Internet Archive的歷史存檔庫(kù)、Google、LiveSearch和Yahoo這幾個(gè)搜索引擎的緩存庫(kù)4個(gè)Web倉(cāng)儲(chǔ)庫(kù)中抓取網(wǎng)頁來幫助重建和恢復(fù)網(wǎng)站。英國(guó)國(guó)家檔案館名為“網(wǎng)絡(luò)連續(xù)性”(Web Continuity)的創(chuàng)新項(xiàng)目,對(duì)所有重要的政府網(wǎng)站提供歸檔和重定向服務(wù)。這些政府網(wǎng)站的用戶在遇到瀏覽器的404錯(cuò)誤信息(找不到檔案)時(shí),將被自動(dòng)重定向到對(duì)應(yīng)的存檔網(wǎng)頁。該項(xiàng)服務(wù)通過提供無縫導(dǎo)航和幫助網(wǎng)站進(jìn)行自動(dòng)歸檔功能的整合,極大地改善了用戶的體驗(yàn)[13]。因此,從技術(shù)角度來說,Web Archive在一定程度上能幫助網(wǎng)站恢復(fù),解決404等網(wǎng)頁無法正常訪問的技術(shù)問題,確保網(wǎng)絡(luò)信息的連續(xù)性與可訪問,其是確保網(wǎng)絡(luò)信息可訪問、可獲取的技術(shù)保障,具有重要的技術(shù)意義,是技術(shù)人員的責(zé)任和使命。

      3.2 Web Archive的社會(huì)意義與責(zé)任

      網(wǎng)絡(luò)信息具有海量、動(dòng)態(tài)指數(shù)增長(zhǎng)、更新頻繁、生命周期短等特點(diǎn),根據(jù)權(quán)威機(jī)構(gòu)統(tǒng)計(jì),網(wǎng)絡(luò)信息資源的平均壽命僅為44~75天,其丟失原因主要有: 網(wǎng)頁內(nèi)容更新、網(wǎng)站內(nèi)容重組、網(wǎng)站主辦者的消失等[23]。作為一種“原生性”數(shù)字信息,網(wǎng)絡(luò)信息資源除了數(shù)字形式之外,無其他形式,這進(jìn)一步加劇了Web資源的易逝性。Web信息資源在呈指數(shù)增長(zhǎng)的同時(shí),消失的速度也很驚人,如果不進(jìn)行保存,大量的網(wǎng)絡(luò)信息資源將在不知不覺中消逝,給人類文明帶來重大損失。對(duì)網(wǎng)絡(luò)信息資源實(shí)施長(zhǎng)期保存即網(wǎng)絡(luò)存檔,以滿足當(dāng)代及未來人們?cè)L問和使用信息資源的需求,成為目前人們非常重要的事情,特別是對(duì)于一些時(shí)政性強(qiáng)的網(wǎng)絡(luò)信息,如2000年悉尼奧運(yùn)會(huì)相關(guān)的很多網(wǎng)絡(luò)信息資源已經(jīng)無法找到。因此,Web Archive承擔(dān)著保護(hù)人類文明、保存人類文化遺產(chǎn)的社會(huì)使命,具有重要的社會(huì)意義和價(jià)值,是政府、記憶機(jī)構(gòu)和全體社會(huì)成員的責(zé)任。

      3.3 Web Archive的學(xué)術(shù)意義與責(zé)任

      網(wǎng)絡(luò)技術(shù)的發(fā)展與普及,使網(wǎng)絡(luò)成為人類活動(dòng)的第二場(chǎng)所,這就帶來了以下兩方面的現(xiàn)實(shí):一方面,人類的網(wǎng)絡(luò)行為及網(wǎng)絡(luò)語言、網(wǎng)絡(luò)現(xiàn)象等成為社會(huì)學(xué)家、歷史學(xué)家、語言學(xué)家等學(xué)者研究的重要對(duì)象,Web Archive可以幫助社會(huì)學(xué)家、政治學(xué)家和媒體分析師等反映過去幾十年的時(shí)代精神,如對(duì)競(jìng)選活動(dòng)網(wǎng)站的Web Archive進(jìn)行綜合分析,可以揭示社會(huì)面臨的各種問題;另一方面,隨著現(xiàn)代信息技術(shù)的加速發(fā)展與應(yīng)用普及,以及在線出版的進(jìn)一步發(fā)展,互聯(lián)網(wǎng)已成為科學(xué)交流的主要媒體與中介,越來越多的學(xué)者通過網(wǎng)絡(luò)來交流和獲取信息、進(jìn)行科學(xué)發(fā)現(xiàn)、保持與同行的聯(lián)系[24]。

      互聯(lián)網(wǎng)促成了網(wǎng)絡(luò)引文的出現(xiàn)和發(fā)展,網(wǎng)絡(luò)引文成為學(xué)術(shù)論文參考文獻(xiàn)的重要組成部分,以互聯(lián)網(wǎng)網(wǎng)址出現(xiàn)的網(wǎng)絡(luò)引文比重呈現(xiàn)逐年增長(zhǎng)的態(tài)勢(shì)。網(wǎng)絡(luò)信息的易逝性使得網(wǎng)絡(luò)引文數(shù)據(jù)具有動(dòng)態(tài)性和不可靠性,造成了網(wǎng)絡(luò)引文的不可追溯性,給學(xué)術(shù)科研領(lǐng)域帶來了巨大困擾和新的研究議題。網(wǎng)絡(luò)引文不可追溯的原因主要分為兩類,一種是網(wǎng)絡(luò)鏈接的失效,如由于硬件問題(如服務(wù)器關(guān)閉、網(wǎng)絡(luò)故障等)引起的鏈接失效;原有鏈接更新,如被刪除、修改;訪問網(wǎng)絡(luò)環(huán)境的變化造成的網(wǎng)絡(luò)鏈接問題。另一種是由于網(wǎng)頁內(nèi)容變動(dòng)造成的。針對(duì)這兩種原因?qū)е碌木W(wǎng)絡(luò)引文不可追溯,國(guó)外學(xué)者提出了統(tǒng)一資源名稱法,如典型的數(shù)字對(duì)象標(biāo)示符(Digital Object Identifier,簡(jiǎn)稱DOI)的方法,雖然該方法對(duì)解決網(wǎng)絡(luò)資源位置的改變有一定幫助,但對(duì)于網(wǎng)絡(luò)資源內(nèi)容的變動(dòng)(修改或刪除)卻無能為力。Web Archive的典型代表項(xiàng)目Internet Archive(以下簡(jiǎn)稱IA,也叫“互聯(lián)網(wǎng)檔案館”)、北京大學(xué)的Web Infomall及專門解決網(wǎng)絡(luò)引文保存問題的Webcite系統(tǒng)[25],在網(wǎng)絡(luò)信息資源長(zhǎng)期保存的同時(shí),在一定程度上解決了網(wǎng)絡(luò)引文不可追溯的問題,為學(xué)術(shù)研究的可繼承、可驗(yàn)證性提供了保障。因此,基于以上兩方面的原因,Web Archive還具有重要的學(xué)術(shù)價(jià)值和意義,是每個(gè)學(xué)術(shù)科研工作者和學(xué)術(shù)科研機(jī)構(gòu)的責(zé)任。

      3.4 Web Archive的法律意義與責(zé)任

      近年來,一方面,網(wǎng)絡(luò)視頻、網(wǎng)絡(luò)游戲、軟件、網(wǎng)絡(luò)新聞、電子書等主要依托數(shù)字終端、互聯(lián)網(wǎng)等數(shù)字化媒介而進(jìn)行信息資源制作、發(fā)行、傳播、銷售的網(wǎng)絡(luò)信息資源產(chǎn)業(yè)獲得了長(zhǎng)足發(fā)展,相應(yīng)地,也帶來了更多信息資源權(quán)利人、網(wǎng)絡(luò)運(yùn)營(yíng)商、網(wǎng)絡(luò)用戶等相關(guān)主體之間的權(quán)益沖突?;ヂ?lián)網(wǎng)具有實(shí)時(shí)性、高速性、全球性、交互性、無限復(fù)制性等特征,數(shù)字環(huán)境下信息資源產(chǎn)權(quán)的保護(hù)面臨著更加嚴(yán)峻的挑戰(zhàn),尤其是隨著網(wǎng)絡(luò)技術(shù)的普及,信息資源網(wǎng)絡(luò)化的開發(fā)利用帶來了更加嚴(yán)峻的產(chǎn)權(quán)人、鄰接權(quán)人與網(wǎng)絡(luò)運(yùn)營(yíng)商、網(wǎng)絡(luò)用戶之間的利益沖突。網(wǎng)絡(luò)背景下數(shù)字記錄和傳播技術(shù)使得“作品不再靠固定在特定的媒介物上傳播,而是脫離載體(物質(zhì)介質(zhì))而流動(dòng)”,侵權(quán)形式更加多樣、侵權(quán)行為更加隱蔽,單純靠財(cái)產(chǎn)權(quán)的法定保護(hù)難免造成維權(quán)困難、保護(hù)不足的困境[26]。正是由于對(duì)信息流控制的復(fù)雜性,如果信息資源權(quán)利人一旦面臨侵權(quán),無限復(fù)制、無限傳播的網(wǎng)絡(luò)特性將使得權(quán)益人的損害面臨加倍放大、難以消除的危險(xiǎn)。數(shù)字權(quán)益管理(Digital Rights Management,簡(jiǎn)稱DRM)技術(shù)雖然在一定程度上能發(fā)揮相應(yīng)作用,但面臨眾多形式的網(wǎng)絡(luò)侵權(quán)現(xiàn)象仍是力不從心,而網(wǎng)絡(luò)存檔能為網(wǎng)絡(luò)信息資源的知識(shí)產(chǎn)權(quán)保護(hù)提供新的思路和方案。另一方面,隨著電子商務(wù)的不斷發(fā)展,網(wǎng)絡(luò)消費(fèi)以其便利、高效、低成本等優(yōu)勢(shì)逐漸為商家和消費(fèi)者普遍接受。然而,網(wǎng)絡(luò)消費(fèi)在展現(xiàn)其優(yōu)越性的同時(shí),也存在一些亟待解決的問題。此外,網(wǎng)絡(luò)擴(kuò)大了人類的活動(dòng)邊界、延伸了人類的活動(dòng)范圍,各種網(wǎng)絡(luò)行為引起的違法犯罪也迅速增加。針對(duì)以上三方面的法律問題,網(wǎng)上出版的資料和紙質(zhì)出版的資料具有同樣的法律效力,有些機(jī)構(gòu)和單位的事務(wù)處理流程都可能成為未來的法律憑證。其對(duì)這些資料必須進(jìn)行有效的管理,精確地記錄它發(fā)布的信息和當(dāng)時(shí)的環(huán)境,因此,需要對(duì)網(wǎng)絡(luò)服務(wù)器發(fā)出的所有請(qǐng)求和響應(yīng)進(jìn)行保存,而Web Archive可以作為包括知識(shí)產(chǎn)權(quán)專家在內(nèi)的法律界人士不可或缺的證據(jù)。以消費(fèi)者服務(wù)為例,當(dāng)一家公司被指認(rèn)侵犯知識(shí)產(chǎn)權(quán)(發(fā)明或商標(biāo))時(shí),他可能希望提供其網(wǎng)站過去某一階段的網(wǎng)頁作為證據(jù),在這種情況下Web Archive就能發(fā)揮重要的作用。

      此外,國(guó)家記憶機(jī)構(gòu)尤其是國(guó)家圖書館通常承擔(dān)著法定存繳該國(guó)出版物以保護(hù)該國(guó)歷史文化遺產(chǎn)的使命。隨著信息技術(shù)的發(fā)展,法定存繳的范圍逐漸擴(kuò)大到各種電子出版物和網(wǎng)頁信息等,如2003年新西蘭國(guó)家圖書館法將法定存繳的范圍擴(kuò)大到各類電子出版物,2006年8月1日,新西蘭“國(guó)家圖書館要求(電子文檔)公告” 〔The National Library Requirement (Electronic Documents)Notice〕生效,允許國(guó)家圖書館在法定存繳框架下對(duì)新西蘭的網(wǎng)站進(jìn)行采集、保存和提供訪問[27]。此外,法國(guó)、挪威等國(guó)家圖書館也分別于2006年開始在法定存繳框架下對(duì)網(wǎng)絡(luò)信息實(shí)施存檔保護(hù)。

      因此,Web Archive還具有重要的法律意義,即為互聯(lián)網(wǎng)環(huán)境下保護(hù)知識(shí)產(chǎn)權(quán)、維護(hù)網(wǎng)絡(luò)秩序、保護(hù)人民生命財(cái)產(chǎn)安全提供重要的法律憑證,是承擔(dān)國(guó)家文化遺產(chǎn)長(zhǎng)期保存的國(guó)家圖書館在網(wǎng)絡(luò)環(huán)境下法定存繳內(nèi)容的延伸和拓展,是法律界人士和國(guó)家圖書館等文化記憶機(jī)構(gòu)的職責(zé)。

      4 Web Archive的歷史進(jìn)程

      4.1 各國(guó)文化記憶機(jī)構(gòu)的實(shí)踐探索(1996—2002年)

      這一階段始于20世紀(jì)90年代,以1996年IA的成立為標(biāo)志,開啟了各國(guó)記憶機(jī)構(gòu)Web Archive的實(shí)踐探索。Web Archive由 Alexa 創(chuàng)始人布魯斯特·卡利(Brewster Kahle)創(chuàng)辦,作為一個(gè)非營(yíng)利性組織的公益性計(jì)劃,其旨在實(shí)現(xiàn)全世界Web資源的收集、保存和永久獲取,為國(guó)際性存檔開發(fā)技術(shù)工具制定標(biāo)準(zhǔn),鼓勵(lì)和支持圖書館、檔案館、文化遺產(chǎn)機(jī)構(gòu)實(shí)現(xiàn)網(wǎng)絡(luò)資源的收集和保存,為人類創(chuàng)造一個(gè)互聯(lián)網(wǎng)圖書館[28]。IA是完整性采集最典型的案例,其目標(biāo)是對(duì)全球公開可獲取的網(wǎng)絡(luò)資源進(jìn)行定期的采集。同年,澳大利亞國(guó)家圖書館發(fā)起了對(duì)澳大利亞在線出版物、具有重要文化價(jià)值網(wǎng)站開展的長(zhǎng)期保存計(jì)劃,即PANDORA(Preserving and Accessing Networked Documentary Resources of Australia,潘多拉項(xiàng)目)[29]。它是世界上最早的Web Archive項(xiàng)目之一,PANDORA項(xiàng)目對(duì)網(wǎng)絡(luò)資源進(jìn)行選擇性地搜集,是Web Archive采集策略中選擇性采集的典型代表,制定了詳細(xì)、具體的網(wǎng)絡(luò)資源采集存檔選擇標(biāo)準(zhǔn),基于這樣的采集標(biāo)準(zhǔn),PANDORA項(xiàng)目保存的網(wǎng)絡(luò)資源主要包括:政府的公開出版物、教育機(jī)構(gòu)出版物、會(huì)議論文、電子期刊和記載當(dāng)前重要社會(huì)、政治等內(nèi)容的網(wǎng)站。

      瑞典國(guó)家圖書館斯德哥爾摩皇家圖書館也于1996年啟動(dòng)名為Kulturarw3的Web信息資源采集項(xiàng)目。Kulturarw3項(xiàng)目是國(guó)際Web Archive項(xiàng)目中完整性采集的典型案例,制定了以瑞典Web信息資源為采集對(duì)象的一攬子收集方案,通過網(wǎng)絡(luò)機(jī)器人對(duì)該國(guó)網(wǎng)域內(nèi)的網(wǎng)絡(luò)資源進(jìn)行了系統(tǒng)的采集。該項(xiàng)目為北歐圖書館的聯(lián)合項(xiàng)目NWA(Nordic Web Archive)的開啟提供了借鑒經(jīng)驗(yàn)[30]。

      1997年美國(guó)國(guó)會(huì)圖書館啟動(dòng)網(wǎng)絡(luò)信息保存試驗(yàn)項(xiàng)目Minerva Prototype,基于相關(guān)事件進(jìn)行選擇性的網(wǎng)頁采集和存檔,如對(duì)2000年總統(tǒng)選舉、911事件等相關(guān)主題網(wǎng)頁的采集和保存[31]。作為實(shí)驗(yàn)性的計(jì)劃,該項(xiàng)目還深入研究了有關(guān)Web信息的數(shù)字化、元數(shù)據(jù)、選擇和采集、長(zhǎng)期保存與獲取方面的實(shí)際問題,從而為美國(guó)國(guó)會(huì)圖書館運(yùn)行一個(gè)大規(guī)模的Web信息保存項(xiàng)目提供了指導(dǎo)和經(jīng)驗(yàn)。

      1999年新西蘭國(guó)家圖書館啟動(dòng)網(wǎng)絡(luò)存檔項(xiàng)目,對(duì)政府、藝術(shù)、歷史、醫(yī)學(xué)、音樂、環(huán)境、政策等主題相關(guān)網(wǎng)站進(jìn)行選擇性的采集和保存[32]。

      2000年捷克共和國(guó)國(guó)家圖書館在摩拉維亞(Moravian)圖書館和馬薩里克大學(xué)計(jì)算機(jī)科學(xué)研究所的合作下,開啟該國(guó)的Web Archive項(xiàng)目——WebArchiv,其在對(duì)該國(guó)網(wǎng)域進(jìn)行完整采集和保存的基礎(chǔ)上,還基于事件進(jìn)行相關(guān)主題網(wǎng)站的選擇性采集與保存[33]。同年,美國(guó)密歇根大學(xué)檔案館“Bentley Historical Library”啟動(dòng)了UARP(University Archives and Records Program,簡(jiǎn)稱UARP)項(xiàng)目,對(duì)該校獨(dú)特、重要、有持久價(jià)值的網(wǎng)絡(luò)資源(主要包括學(xué)術(shù)與管理政策、重要出版物、代表性的研究、教材、創(chuàng)造性成果)及密歇根大學(xué)網(wǎng)域的總體外觀與感受進(jìn)行了采集和長(zhǎng)期保存[34]。

      2001年挪威國(guó)家圖書館啟動(dòng)了Paradigma(Preservation,Arrangement &Retrieval of Assorted Digital Materials)項(xiàng)目,使國(guó)家圖書館在法定存繳框架下對(duì)該國(guó)網(wǎng)絡(luò)資源進(jìn)行長(zhǎng)期保存和提供獲取服務(wù)[35]。同年,英國(guó)國(guó)家圖書館啟動(dòng)Web Archive實(shí)驗(yàn)項(xiàng)目——Domain.UK,選擇性地采集和保存英國(guó)的相關(guān)網(wǎng)站,并為該國(guó)的Web Archive實(shí)踐積累經(jīng)驗(yàn)。

      2002年法國(guó)國(guó)家圖書館啟動(dòng)該國(guó)的Bnf Web Archive項(xiàng)目,在完整性采集和保存全國(guó)網(wǎng)頁的基礎(chǔ)上,還基于相關(guān)事件(如法國(guó)大選)進(jìn)行重點(diǎn)主題的采集和保存,并對(duì)深層網(wǎng)采集相關(guān)技術(shù)進(jìn)行探索[36]。

      這一階段,各國(guó)記憶機(jī)構(gòu)尤其是肩負(fù)著全國(guó)文化遺產(chǎn)法定存繳和長(zhǎng)期保存的國(guó)家圖書館紛紛意識(shí)到網(wǎng)絡(luò)資源的重要性,逐漸將收集、存檔范圍拓展到各種電子出版物和網(wǎng)頁,通過開展實(shí)驗(yàn)性的研究探索Web Archive的理論、技術(shù)、方法和流程,如澳大利亞國(guó)家圖書館的PANDORA項(xiàng)目開發(fā)出的用于選擇性采集網(wǎng)絡(luò)出版物的數(shù)字化存檔系統(tǒng)PANDAS,并制定了采集對(duì)象選擇標(biāo)準(zhǔn)和工作流程;新西蘭國(guó)家圖書館和英國(guó)國(guó)家圖書館共同開發(fā)了選擇性網(wǎng)絡(luò)采集的過程管理工具WCT等[15]。除了國(guó)家圖書館,非營(yíng)利性組織(如IA)、高校檔案館(如美國(guó)密歇根大學(xué)檔案館)也開啟了對(duì)Web資源進(jìn)行采集和長(zhǎng)期保存的實(shí)驗(yàn)。這些實(shí)驗(yàn)性的項(xiàng)目為本國(guó)后續(xù)全面、深入地開展Web Archive實(shí)踐積累了經(jīng)驗(yàn),為本國(guó)其他記憶機(jī)構(gòu)和其他國(guó)家的Web Archive實(shí)踐提供了借鑒。

      4.2 國(guó)際性的合作實(shí)踐與研究不斷深化(1997—2005年)

      Web Archive作為一項(xiàng)系統(tǒng)工程,不僅涉及相關(guān)法律、政策,其技術(shù)、方法與流程也是一個(gè)不斷探索、不斷完善的過程。隨著各國(guó)Web Archive實(shí)踐與研究的不斷發(fā)展,不同層次、不同級(jí)別、跨組織、跨區(qū)域、跨國(guó)界的合作不斷涌現(xiàn),而且對(duì)Web Archive的理論研究與探討也引起了國(guó)際學(xué)界的關(guān)注,國(guó)際性的合作組織開始誕生,并進(jìn)一步促進(jìn)了各種層次的實(shí)踐合作、理論研究與技術(shù)研發(fā)。

      這一時(shí)期,隨著信息技術(shù)的迅速發(fā)展和互聯(lián)網(wǎng)的日益普及,越來越多的國(guó)家記憶機(jī)構(gòu)認(rèn)識(shí)到網(wǎng)絡(luò)存檔的重要意義,紛紛加入2002年法國(guó)國(guó)家圖書館啟動(dòng)的該國(guó)的Bnf Web Archive項(xiàng)目的Web Archive實(shí)踐中,如2004年日本國(guó)會(huì)圖書館的WARP(Web Archiving Project)項(xiàng)目[37],2005年加拿大政府網(wǎng)絡(luò)存檔項(xiàng)目GCWA(Government of Canada Web Archive)[38]等。

      與此同時(shí),部分國(guó)家在實(shí)驗(yàn)項(xiàng)目的基礎(chǔ)上大力發(fā)展合作,如1998年澳大利亞的PANDORA項(xiàng)目開始吸納各州圖書館加入,截至2004年該國(guó)所有的10個(gè)州立圖書館全部加入到PANDORA項(xiàng)目中來,分別負(fù)責(zé)某些專題的采集和長(zhǎng)期保存;在2001年實(shí)驗(yàn)性項(xiàng)目Domain UK實(shí)踐經(jīng)驗(yàn)總結(jié)的基礎(chǔ)上,2003年英國(guó)網(wǎng)絡(luò)存檔聯(lián)盟(UK Web Archiving Consortium,簡(jiǎn)稱UKWAC)成立[39];美國(guó)國(guó)會(huì)圖書館積極與IA、WebArchivist.org、CCCE(The Center for Communication and Civic Engagement,通訊與公共事業(yè)中心)等機(jī)構(gòu)深入合作,如國(guó)會(huì)圖書館與IA合作創(chuàng)建“2000年總統(tǒng)選舉”網(wǎng)頁保存項(xiàng)目,國(guó)會(huì)圖書館作為此項(xiàng)目的牽頭人,制定了采集內(nèi)容標(biāo)準(zhǔn)、快照文件分析、開展數(shù)字資源長(zhǎng)期保存的研究等,IA為此項(xiàng)目提供了“時(shí)光機(jī)”(Wayback machine)技術(shù),為收集到的網(wǎng)頁建立按照時(shí)間進(jìn)行瀏覽的索引,同時(shí)提供臨時(shí)的數(shù)據(jù)存儲(chǔ);WebArchivist.org負(fù)責(zé)開發(fā)識(shí)別、采集、編目、分析大型網(wǎng)頁對(duì)象的系統(tǒng),由Pew Internet & American Life Project(皮尤因特網(wǎng)與美國(guó)生活項(xiàng)目)負(fù)責(zé)提供資金、分析報(bào)告的撰寫;CCEE協(xié)助開發(fā)可檢索的元數(shù)據(jù)數(shù)據(jù)庫(kù)及用戶友好的檢索界面[31]。

      除了以上在一國(guó)之內(nèi)各種記憶機(jī)構(gòu)的相互合作,跨區(qū)域、跨國(guó)性的合作也在不斷深入和發(fā)展。

      1997年北歐五國(guó)(丹麥、挪威、芬蘭、冰島和瑞典)國(guó)家圖書館基于瑞典的Kulturarw3項(xiàng)目聯(lián)合啟動(dòng)NWA(Nordic Web Archive)項(xiàng)目[40],其主要目標(biāo)是聯(lián)合北歐各國(guó)圖書館建立歐洲網(wǎng)絡(luò)資源長(zhǎng)期保存的合作機(jī)制,根據(jù)保存、訪問的要求制定相關(guān)的技術(shù)規(guī)格,協(xié)助國(guó)家項(xiàng)目協(xié)調(diào)發(fā)展。該項(xiàng)目研發(fā)了多個(gè)開源的功能組件,在聯(lián)合采集的基礎(chǔ)上實(shí)現(xiàn)了一個(gè)大規(guī)模、跨資源的Web Archive訪問系統(tǒng),并以此為基礎(chǔ)積極參與相關(guān)系統(tǒng)的開發(fā),在Web Archive系統(tǒng)架構(gòu)和技術(shù)方法的發(fā)展上發(fā)揮了重要作用。

      2003年6月網(wǎng)絡(luò)存檔國(guó)際聯(lián)盟(International Internet Preservation Consortium,簡(jiǎn)稱IIPC)成立,該聯(lián)盟與成員達(dá)成共同出資參與項(xiàng)目和工作組的合作協(xié)議,其目標(biāo)是:保存來自全球的互聯(lián)網(wǎng)內(nèi)容,使其能夠持續(xù)地提供訪問;為IIPC制定出聯(lián)合規(guī)范;設(shè)計(jì)和開發(fā)網(wǎng)絡(luò)資源保存工具;促進(jìn)公共工具、技術(shù)和標(biāo)準(zhǔn)的開發(fā)和應(yīng)用,形成國(guó)際性存檔;鼓勵(lì)和支持各國(guó)進(jìn)行Internet存檔和保存。該聯(lián)盟將成員按網(wǎng)絡(luò)存檔不同階段的任務(wù)分工分成5個(gè)工作組,分別負(fù)責(zé)制定聯(lián)盟戰(zhàn)略、開發(fā)網(wǎng)絡(luò)收割工具、研究長(zhǎng)期保存政策和方法、研究對(duì)存檔網(wǎng)絡(luò)提供訪問的工具和技術(shù)等。隨著Web Archive實(shí)踐的不斷推進(jìn),聯(lián)盟成員隊(duì)伍不斷壯大,由成立之初的12名發(fā)展到目前的42個(gè)成員機(jī)構(gòu)(截至2013年8月初)[41]。在IIPC的資助下,各成員機(jī)構(gòu)分工合作,相互促進(jìn),分別開發(fā)了網(wǎng)絡(luò)爬蟲工具Heritrix、Smart Crawler、WCT、存檔訪問工具WERA (Web Archive Access)等[15],促進(jìn)了網(wǎng)絡(luò)存檔工具的開發(fā)和普遍應(yīng)用。

      為了推動(dòng)Web Archive的實(shí)踐發(fā)展,促進(jìn)經(jīng)驗(yàn)分享和理論探討,以Web Archive為主題的各種級(jí)別的學(xué)術(shù)會(huì)議也不斷召開,如IIPC自成立以來每年都會(huì)舉辦一次全體成員的學(xué)術(shù)研討會(huì);ECDL(European Conference on Research and Advanced Technology for Digital Libraries,數(shù)字圖書館研究與先進(jìn)技術(shù)歐洲會(huì)議)自2001年以來每年都會(huì)組織專題組的IWAW(International Web Archiving Workshops,網(wǎng)絡(luò)存檔國(guó)際研討會(huì)),分別從開源工具、技術(shù)、政策、法律、已有項(xiàng)目經(jīng)驗(yàn)總結(jié)與展望、未來發(fā)展重點(diǎn)等幾個(gè)方面對(duì)Web Archive相關(guān)問題進(jìn)行討論與分享交流;國(guó)際圖書館協(xié)會(huì)和機(jī)構(gòu)聯(lián)合會(huì)的年會(huì)也會(huì)在資源保存保護(hù)專題中針對(duì)Web Archive相關(guān)問題進(jìn)行研討。

      4.3 基于第三方推出的Web Archive服務(wù)實(shí)踐(2005年至今)

      這種方式主要是指小型組織或個(gè)人訂閱由企業(yè)或組織提供的采集服務(wù)而實(shí)施的網(wǎng)絡(luò)采集和存檔。由于Web Archive是一項(xiàng)系統(tǒng)工程,需要大量的人力、物力和財(cái)力,且對(duì)技術(shù)要求比較高,一些小型的組織、機(jī)構(gòu)或個(gè)人出于研究的目的,需要對(duì)特定的網(wǎng)絡(luò)資源實(shí)施長(zhǎng)期保存,但限于技術(shù)能力和投入,于是就出現(xiàn)了針對(duì)這些機(jī)構(gòu)和個(gè)人的網(wǎng)絡(luò)信息采集和存檔服務(wù)[7],比較著名的有IA推出的Archive- it、Hanzo Archives公司推出的網(wǎng)絡(luò)存檔訂閱服務(wù)、加利福尼亞數(shù)字圖書館推出的WAS(Web Archiving Service,網(wǎng)絡(luò)存檔服務(wù))、塞薩洛尼基亞里士多德大學(xué)計(jì)算機(jī)科學(xué)系推出的博客存檔服務(wù)BlogForever等。

      4.3.1 Hanzo Archives的存檔服務(wù)

      Hanzo Archives有限公司是2005年成立的一個(gè)提供網(wǎng)絡(luò)存檔軟件和服務(wù)的公司,由來自全球知名記憶機(jī)構(gòu)的軟件愛好者和存檔專家共同建立的,提供商業(yè)化的產(chǎn)品和服務(wù),幫助企業(yè)或組織抓取和保存網(wǎng)絡(luò)資源,并使那些基于網(wǎng)絡(luò)的電子存檔信息以自然的格式被索引和發(fā)現(xiàn)。用戶可以按需定制相關(guān)服務(wù),其存檔的網(wǎng)絡(luò)電子信息范圍在不斷拓展,目前主要覆蓋以下幾種網(wǎng)絡(luò)資源類型:(1)網(wǎng)站,包括需要注冊(cè)登錄的、交互式的網(wǎng)頁及富媒體;(2)社交網(wǎng)站,如Facebook、Twitter、LinkedIn;(3)協(xié)作性系統(tǒng),如Wiki、SharePoint等;(4)私密性的社會(huì)化網(wǎng)絡(luò)聊天工具,如Chatter、Jive和Yammer。目前,全球已有1 000多家公司使用Hanzo的服務(wù)完成存檔項(xiàng)目,該服務(wù)還能基于Web Archive為用戶提供競(jìng)爭(zhēng)對(duì)手網(wǎng)站專利分析、企業(yè)公眾通信監(jiān)管、跨國(guó)連鎖企業(yè)存檔全球網(wǎng)絡(luò)遺產(chǎn)等深層次的增值服務(wù),如為可口可樂公司提供跨國(guó)公司品牌網(wǎng)站與設(shè)計(jì)媒體的遺產(chǎn)收集、保存等[42]。

      4.3.2 Internet Archive推出的Archive-it服務(wù)

      Archive-it是2006年2月Internet Archive推出的一種定制型網(wǎng)絡(luò)存檔服務(wù),以幫助機(jī)構(gòu)或組織收割、構(gòu)建和長(zhǎng)期保存數(shù)字化內(nèi)容。通過其提供的用戶友好的網(wǎng)絡(luò)應(yīng)用,Archive-it服務(wù)的合作伙伴可以對(duì)存檔的內(nèi)容進(jìn)行收集、編目和管理,并為該機(jī)構(gòu)及其用戶提供7×24小時(shí)的訪問和全文搜索。收割到的內(nèi)容可以托管并保存在Internet Archive的數(shù)據(jù)中心。由于Archive-it提供的服務(wù)省去了用戶很多技術(shù)方面的考慮,甚至不需要用戶自己的存儲(chǔ)設(shè)備,而且比通用的Internet Archive所建立的收藏更加專深,能滿足用戶個(gè)性化的需要,非常適合規(guī)模小、技術(shù)能力有限的組織和機(jī)構(gòu)使用,目前已有來自美國(guó)46個(gè)州和世界上16個(gè)國(guó)家的275個(gè)組織使用Archive-it創(chuàng)建自己的網(wǎng)絡(luò)存檔,這些組織包括大學(xué)圖書館,地方檔案館、圖書館和歷史學(xué)協(xié)會(huì),政府機(jī)構(gòu)或非政府性組織,博物館和藝術(shù)圖書館,公共圖書館等[43],如哥倫比亞大學(xué)圖書館使用該服務(wù)按照本館現(xiàn)有的特色館藏選擇性地收集相應(yīng)的網(wǎng)絡(luò)資源、哥倫比亞大學(xué)各機(jī)構(gòu)的網(wǎng)站以及那些個(gè)人或組織的論文或成果被收藏在哥倫比亞大學(xué)物理館藏中[44]。

      4.3.3 加利福尼亞數(shù)字圖書館的WAS

      加利福尼亞數(shù)字圖書館(California Digital Library)提供的WAS是由加利福尼亞圖書館負(fù)責(zé)、作為Web-at-Risk的一部分,受NDIIPP(National Digital Information Infrastructure and Preservation Program,國(guó)家數(shù)字信息基礎(chǔ)設(shè)施和保存計(jì)劃)資助開發(fā)的,為教師、學(xué)生、研究者和圖書館員提供相關(guān)網(wǎng)站的定制型存檔,以供私人研究或公共獲取。WAS簡(jiǎn)單易用,用戶不需要具備關(guān)于Web Archive的任何專業(yè)知識(shí),也不需要存儲(chǔ)設(shè)施或技術(shù)人員的協(xié)助,只需關(guān)注內(nèi)容,創(chuàng)建一個(gè)帳號(hào),提交一個(gè)包含擬存檔網(wǎng)站相關(guān)信息的委托協(xié)議即可,其可以按需調(diào)整抓取設(shè)置和頻率。WAS還提供工具分析網(wǎng)站隨著時(shí)間的變化情況,提供對(duì)已存檔的網(wǎng)站進(jìn)行關(guān)鍵詞搜索和抓取結(jié)果的統(tǒng)計(jì)分析。WAS目前已為22個(gè)合作伙伴創(chuàng)建了59個(gè)公共存檔,采集相關(guān)網(wǎng)站5 634個(gè)[45]。例如,密歇根大學(xué)網(wǎng)絡(luò)存檔項(xiàng)目2000年使用開源軟件自行存儲(chǔ),2010年7月1日開始使用加利福尼亞數(shù)字圖書館的WAS進(jìn)行網(wǎng)絡(luò)存檔[46]。

      4.3.4 塞薩洛尼基亞里士多德大學(xué)計(jì)算機(jī)科學(xué)系的BlogForever

      BlogForever是歐盟資助的一個(gè)合作項(xiàng)目,由塞薩洛尼基亞里士多德大學(xué)(Aristotle University of Thessaloniki,簡(jiǎn)稱AUTH)計(jì)算機(jī)科學(xué)系創(chuàng)建和維護(hù),其主要目的是創(chuàng)建一個(gè)軟件平臺(tái)以促進(jìn)博客的聚集、保存、管理和傳播,并能捕捉到動(dòng)態(tài)和不斷變化的博客以及其網(wǎng)絡(luò)和社會(huì)結(jié)構(gòu)。任何用戶和組織都可以使用BlogForever的軟件和指南創(chuàng)建一個(gè)數(shù)字化的存檔以保存他們選擇的博客[47]。

      5 未來趨勢(shì)

      5.1 社交網(wǎng)站等動(dòng)態(tài)交互式網(wǎng)站的采集和長(zhǎng)期保存將引起關(guān)注

      隨著博客、微博等社交網(wǎng)站的不斷涌現(xiàn)、迅速發(fā)展和快速普及,社會(huì)化網(wǎng)絡(luò)站點(diǎn)成為重要的一類網(wǎng)站,在人們生活、信息交流與傳播中發(fā)揮越來越重要的作用,并且這類資源的動(dòng)態(tài)性更強(qiáng)、更新頻率更高。對(duì)這類網(wǎng)站資源的采集與長(zhǎng)期保存引起了學(xué)界和業(yè)界的高度重視,如Hanzo Archives推出的存檔定制服務(wù)將存檔范圍從基本的網(wǎng)站逐漸擴(kuò)大到對(duì)社交網(wǎng)站Facebook、Twitter、LinkedIn的采集與存檔,AUTH的BlogForever服務(wù)專門提供對(duì)博客的存檔和長(zhǎng)期保存。2012年12月,Springer舉辦了關(guān)于社會(huì)化媒體的長(zhǎng)期保存和應(yīng)用專題研討會(huì),專門探討社交網(wǎng)站的采集與存檔問題[48]。這些社交網(wǎng)站通常需要注冊(cè)登錄,屬于深層網(wǎng)的范疇,對(duì)這些社交網(wǎng)站內(nèi)容的采集和長(zhǎng)期保存將是未來一段時(shí)間內(nèi)業(yè)界研究和探索的重要方向之一。

      5.2 移動(dòng)互聯(lián)網(wǎng)的存檔將引起學(xué)界和業(yè)界的研究與探索

      移動(dòng)互聯(lián)網(wǎng)(Mobile Internet,簡(jiǎn)稱MI)是一種通過智能移動(dòng)終端,采用移動(dòng)無線通信方式獲取業(yè)務(wù)和服務(wù)的新興業(yè)態(tài),包含終端、軟件和應(yīng)用3個(gè)層面。終端層主要包括智能手機(jī)、平板電腦、電紙書等。隨著寬帶無線接入技術(shù)和移動(dòng)終端技術(shù)的飛速發(fā)展,人們迫切希望能夠隨時(shí)隨地乃至在移動(dòng)過程中都能方便地從互聯(lián)網(wǎng)獲取信息和服務(wù),移動(dòng)互聯(lián)網(wǎng)應(yīng)運(yùn)而生并迅猛發(fā)展,甚至有人提出互聯(lián)網(wǎng)正在向移動(dòng)化全面遷移。隨著越來越多的用戶通過這些移動(dòng)終端訪問網(wǎng)絡(luò),越來越多的網(wǎng)站為這些移動(dòng)設(shè)備專門設(shè)計(jì)適合其特點(diǎn)、需求的可替代性網(wǎng)站。這些移動(dòng)網(wǎng)絡(luò)同樣具有重要的存檔價(jià)值和意義,需要開發(fā)新的工具以解決移動(dòng)互聯(lián)網(wǎng)存檔的相關(guān)技術(shù)問題。例如,美國(guó)阿肯色州哈丁大學(xué)的研究者們開發(fā)了移動(dòng)互聯(lián)網(wǎng)自動(dòng)發(fā)現(xiàn)工具Findmobile以協(xié)助對(duì)移動(dòng)互聯(lián)網(wǎng)網(wǎng)站的采集與存檔[49]。對(duì)移動(dòng)互聯(lián)網(wǎng)存檔的研究和探索將成為未來學(xué)界和業(yè)界關(guān)注和探索的重要領(lǐng)域之一。

      5.3 存檔資源的價(jià)值評(píng)估和挖掘?qū)⒃絹碓奖恢匾?/h3>

      Web Archive作為一項(xiàng)系統(tǒng)工程,耗費(fèi)大量的人力、物力、財(cái)力,其目的是為了當(dāng)代及未來研究者和普通大眾可獲取和研究之用。經(jīng)過近20年的實(shí)踐努力,其已經(jīng)存檔了大量的網(wǎng)絡(luò)資源,對(duì)這些存檔的網(wǎng)絡(luò)資源進(jìn)行開發(fā)利用,以及如何開發(fā)利用、開發(fā)利用的價(jià)值評(píng)估、方法和工具的研究將引起越來越多學(xué)者的關(guān)注和探討,成為Web Archive研究與實(shí)踐領(lǐng)域的又一重要課題。例如,法國(guó)國(guó)家圖書館的Peter Stirling等人以該館的Web Archive項(xiàng)目為例,研究隨著越來越多國(guó)家Web Archive實(shí)踐的發(fā)展,如何開發(fā)這些存檔的網(wǎng)絡(luò)資源以滿足研究者的需要,尤其對(duì)那些以網(wǎng)絡(luò)為研究對(duì)象的社會(huì)學(xué)者,他們通過對(duì)法國(guó)國(guó)家圖書館網(wǎng)絡(luò)存檔潛在用戶的訪談進(jìn)行定性研究,探索研究者需要的內(nèi)容和服務(wù),分析存檔以怎樣的方式呈現(xiàn)才能促進(jìn)利用,以及需要考慮的道德和方法問題[50]。WebART項(xiàng)目旨在批判性地評(píng)估Web Archive對(duì)現(xiàn)實(shí)研究的價(jià)值,并開發(fā)信息訪問工具和方法以最大限度地促進(jìn)網(wǎng)絡(luò)存檔為學(xué)術(shù)研究所用。該項(xiàng)目以實(shí)際研究問題出發(fā),對(duì)網(wǎng)絡(luò)存檔資源的學(xué)術(shù)價(jià)值進(jìn)行評(píng)判,以荷蘭為例,與荷蘭國(guó)家圖書館合作,進(jìn)行跨學(xué)科的社會(huì)科學(xué)相關(guān)主題(如綜合計(jì)算機(jī)科學(xué)、信息科學(xué)和新媒體等)研究[51]。IIPC每年都會(huì)舉行會(huì)議對(duì)相關(guān)議題進(jìn)行討論,2013年的議題是“網(wǎng)絡(luò)存檔的學(xué)術(shù)訪問:過程、需求和挑戰(zhàn)”,其主要關(guān)注目前網(wǎng)絡(luò)存檔被學(xué)者和研究者利用的方式、學(xué)者希望利用Web Archive但遇到的IP限制及其他技術(shù)障礙以及網(wǎng)絡(luò)存檔作為學(xué)術(shù)資源如何提供訪問等問題[52]。

      [1]向 菁,吳振新,司鐵英,等. 國(guó)際主要Web Archive項(xiàng)目介紹與評(píng)析[J]. 國(guó)家圖書館學(xué)刊,2010(1):64-68.

      [2]朱蓮花,劉春燕. 韓國(guó)的國(guó)家知識(shí)門戶網(wǎng)站與Web Archive現(xiàn)狀研究[J]. 情報(bào)理論與實(shí)踐,2010(7):120-123,78.

      [3]張松巖. 以IIPC為中心的全球Web Archive項(xiàng)目研究[J]. 數(shù)字與縮微影像,2011(3):36-38.

      [4]閆曉創(chuàng). 國(guó)外Web Archive項(xiàng)目對(duì)我國(guó)的借鑒和啟示:以澳大利亞的PANDORA項(xiàng)目為例[J]. 檔案學(xué)研究,2012(5):79-83.

      [5]劉 蘭,吳振新,張智雄,等. Web Archive的采集策略研究[J]. 現(xiàn)代圖書情報(bào)技術(shù),2009(1):10-15.

      [6]劉 蘭,吳振新. Web Archive信息采集流程及關(guān)鍵問題研究[J].情報(bào)理論與實(shí)踐,2009(8):113-117.

      [7]劉 蘭,吳振新. 網(wǎng)絡(luò)存儲(chǔ)信息采集方式研究[J]. 圖書館雜志,2009(8):28-31.

      [8]沈勁枝,寇文波,田晨耕. 基于特征定位邊界預(yù)測(cè)的Web檔案正文采集[J]. 現(xiàn)代圖書情報(bào)技術(shù),2009(12):52-56.

      [9]吳振新,向 菁. Web Archive檢索系統(tǒng)架構(gòu)分析[J]. 現(xiàn)代圖書情報(bào)技術(shù),2009(1):22-27.

      [10]孫志茹,吳振新,曲云鵬. 基于Wayback的索引策略研究[J]. 現(xiàn)代圖書情報(bào)技術(shù),2009(4):14-18.

      [11]林 穎,吳振新,張智雄. Web Archive存檔策略分析[J]. 現(xiàn)代圖書情報(bào)技術(shù),2009(1):16-21.

      [12]李 睿,郭世月. 網(wǎng)絡(luò)報(bào)紙資源存檔格式對(duì)比及ARC/WARC格式選擇[J]. 圖書館論壇,2010(4):78-80.

      [13]吳振新,張智雄,孫志茹. 基于數(shù)據(jù)挖掘的Web Archive資源應(yīng)用分析[J]. 現(xiàn)代圖書情報(bào)技術(shù),2009(1):28-33.

      [14]王 芳,史海燕. 國(guó)外Web Archive研究與實(shí)踐進(jìn)展[J]. 中國(guó)圖書館學(xué)報(bào),2013(2):36-45.

      [15]劉 蘭,吳振新,向 菁,等. 網(wǎng)絡(luò)信息資源保存開源軟件綜述[J].現(xiàn)代圖書情報(bào)技術(shù),2009(5):11-17.

      [16]李 華,吳振新,郭家義,等. Web Archive發(fā)展歷程與發(fā)展趨勢(shì)研究[J]. 現(xiàn)代圖書情報(bào)技術(shù),2009(1):2-9.

      [17]周林興. Web Archive保存研究:現(xiàn)狀、意義與發(fā)展策略[J]. 檔案管理,2009(5):26-28.

      [18]周 毅. 網(wǎng)絡(luò)信息存檔:檔案部門的責(zé)任及其策略[J]. 檔案學(xué)研究,2010(1):70-73.

      [19]劉 蘭. 網(wǎng)絡(luò)信息資源長(zhǎng)期保存的問題與挑戰(zhàn)[J]. 圖書館雜志,2009(3): 10-13.

      [20]耿 磊. 起步階段的網(wǎng)頁信息資源長(zhǎng)期保存[J]. 上海檔案, 2012(2): 13-15.

      [21]楊道玲. 中文網(wǎng)絡(luò)信息資源保存問題探討[J]. 檔案學(xué)研究, 2006(3): 39-42.

      [22]Donovan L, Hukill G, Peterson A. The Web Archiving Life Cycle Model[EB/OL]. [2013-12-12]. http://archive-it.org/static/files/archiveit_life_cycle_model.pdf.

      [23]National Digital Information Infrastructure and Preservation Program[EB/OL]. [2013-12-12].http://www.loc.gov/loc/lcib/0601/ndiipp2.html.

      [24]Borgman C L. Scholarly Communication and Bibliometrics[J] .Annual Review of Information Science and Technology,2002(36):3-72.

      [25]陸 偉,韓曙光,沈祥興. 網(wǎng)絡(luò)引文不可追溯性及其解決方案研究[J]. 中國(guó)圖書館學(xué)報(bào), 2009(4):99-105,118.

      [26]PageVault [EB/OL]. [2013-12-12].http://www.projectcomputing.com/products/pageVault/.

      [27]Web Archiving at the National Library of New Zealand[EB/OL].[2013-12-12]. http://www.lianza.org.nz/sites/lianza.org.nz/files/webarchives_vlala.pdf.

      [28]Internet Archive[EB/OL]. [2013-12-12]. http://archive.org/index.php.

      [29]Pandora[EB/OL].[2013-12-12].http://pandora.nla.gov.au/.

      [30]Kulturarw3- The Swedish Archive[EB/OL]. [2013-12-12]. http://www.ifs.tuwien.ac.at/~aola/publications/thesis-ando/Kulturarw3.html.

      [31]Grotke A M. Minerva Project Selecting and Collecting[EB/OL].[2013-12-12]. http://search.proquest.com/docview/216508044?accountid=8554.

      [32]New Zealand Web Archive [EB/OL]. [2013-12-12]. http://natlib.govt.nz/collections/a-z/new-zealand-web-archive.

      [33]What is WebArchiv? [EB/OL]. [2013-12-12]. http://en.webarchiv.cz/.

      [34]University Archives & Records Program[EB/OL]. [2013-12-12].http://bentley.umich.edu/uarphome/.

      [35]Paradigma[EB/OL]. [2013-12-12].http://www.paradigma.de/1339--%7Ede%7EIndexEndkunden.html.

      [36]Digital Legal Deposit: Four Questions about Web Archiving at the BnF[EB/OL]. [2013-12-12]. http://www.bnf.fr/en/professionals/digital_legal_deposit/a.digital_legal_deposit_web_archiving.html.

      [37]Sakaguchi K.Progress Report on the Web Archiving Project on Japanese Constitutional Revision[EB/OL].[2013-12-12]. http://rijs.fas.harvard.edu/crrp/documents/sakaguchi.pdf.

      [38]Government of Canada Web Archive[EB/OL]. [2013-12-12].http://www.collectionscanada.gc.ca/webarchives/index-e.html.

      [39]Tuck J. Web Archiving in the UK: Cooperation, Legislation and Regulation[J]. Liber Quarterly, 2008,18 (3/4):357-365.

      [40]Nordic Web Archive (NWA)[EB/OL]. [2013-12-12].http://nwa.nb.no/.

      [41]IIPC[EB/OL]. [2013-09-25]. http://www.netpreserve.org/.

      [42]Hanzo Archives[EB/OL]. [2013-12-12]. http://www.hanzoarchives.com/.

      [43]About Archive-It[EB/OL]. [2013-12-12]. http://www.archive-it.org/learn-more.

      [44]Columbia University Libraries[EB/OL]. [2013-12-12].http://www.archive-it.org/explore?fc=organizationType%3Acolleges AndUniversities#explore?fc=organizationType%3Acolleges AndUniversities&show=Organizations&_suid=728.

      [45]The Web Archiving Service[EB/OL]. [2013-12-12]. http://webarchives.cdlib.org

      [46]UM WebArchives Policy [EB/OL]. [2013-12-12].http://bentley.umich.edu/uarphome/webarchives/UM_WebArchives_Policy_20110324.pdf.

      [47]BlogForever[EB/OL].[2013-12-12]. http://blogforever.eu/.

      [48]Special Issue on Social Media Preservation and Applications(Springer) [EB/OL]. [2013-12-12]. http://blogforever.eu/specialissue-on-social-media-preservation-and-applications/.

      [49]Schneider R,McCown F. First Steps in Archiving the Mobile Web:Automated Discovery of Mobile Websites[EB/OL].[2013-12-12].http://dl.acm.org/citation.cfm?id=2467735.

      [50]Stirling P, Chevallier P, Illien G. Web Archives for Researchers:Representations, Expectations and Potential Uses[EB/OL] [2013-12-12].http://dlib.org/dlib/march12/stirling/03stirling.html.

      [51]WebART: Web Archive Retrieval Tools[EB/OL]. [2013-12-12].http://staff.science.uva.nl/~kamps/webart/.

      [52]Call for Proposals: The Scholarly Use of Web Archives[EB/OL].[2013-12-12].http://blogs.loc.gov/digitalpreservation/2013/02/call-for-proposals-the-scholarly-use-of-web- archives/.

      猜你喜歡
      國(guó)家圖書館圖書館資源
      國(guó)家圖書館出版社重點(diǎn)圖書
      基礎(chǔ)教育資源展示
      國(guó)家圖書館藏四種古籍編目志疑
      天一閣文叢(2020年0期)2020-11-05 08:28:36
      一樣的資源,不一樣的收獲
      資源回收
      中國(guó)國(guó)家圖書館藏西夏文《不空羂索神變真言經(jīng)》考論
      西夏學(xué)(2018年2期)2018-05-15 11:26:38
      圖書館
      資源再生 歡迎訂閱
      資源再生(2017年3期)2017-06-01 12:20:59
      飛躍圖書館
      國(guó)家圖書館藏吳奕雜劇二種略考
      中華戲曲(2016年2期)2016-01-22 08:19:05

      尼木县| 孟连| 海宁市| 南京市| 胶州市| 石楼县| 韶山市| 松阳县| 古交市| 内丘县| 阜新市| 高唐县| 光山县| 炎陵县| 遂溪县| 那坡县| 柳江县| 新乡市| 滕州市| 福鼎市| 瓦房店市| 贡山| 黔西县| 通山县| 临安市| 昌黎县| 昌宁县| 蒙山县| 景德镇市| 通州市| 延庆县| 茂名市| 湟源县| 渝北区| 讷河市| 化德县| 习水县| 西乌珠穆沁旗| 澳门| 方山县| 绥江县|