徐飛+鄭秋生+高艷霞
摘 要: 目前美國、加拿大和澳大利亞等國的Web Archive(網(wǎng)頁歸檔)技術(shù)和方案比較多,有些也比較成熟,部分已經(jīng)成功應(yīng)用。在我國也有網(wǎng)頁歸檔的應(yīng)用,但對采用的技術(shù)方案和具體工具的研究很少。結(jié)合國外的網(wǎng)頁歸檔技術(shù)和最新的云存儲技術(shù),提出了一種適合我國的網(wǎng)頁歸檔和存儲的技術(shù)方案。
關(guān)鍵詞: 網(wǎng)頁歸檔; 云存儲; Web采集; Heritrix
中圖分類號:TP311 文獻(xiàn)標(biāo)志碼:A 文章編號:1006-8228(2017)04-21-05
Abstract: At present, the United States, Canada and Australia possess the technology and scenarios of Web Archive, some of them are good enough to be put into practice. While China also has some application projects, which, however, contains very little about the technical scenarios and specific designing. This paper, based on the latest technology of Web Archive and the latest cloud storage technology, puts forward a new scenario suitable for the Web Archive and the storage technology of China.
Key words: Web archive; cloud storage; Web harvesting; Heritrix
0 引言
隨著計算機(jī)網(wǎng)絡(luò)的普及,網(wǎng)頁成為信息重要的載體,特別是一些重要的歷史性的網(wǎng)頁信息會隨著網(wǎng)頁的消失而丟失,這些信息一旦消失就難以找回或復(fù)原,這樣就會給一些部門和機(jī)構(gòu)造成難以估量的損失。因此,研究如何對網(wǎng)頁歸檔、存儲并回放就具有重要的社會意義。目前,美國、加拿大、澳大利亞和瑞典等國家的政府、檔案館和圖書館對網(wǎng)頁歸檔的研究和實踐應(yīng)用比較多。國內(nèi)對Web Archive(網(wǎng)頁歸檔)進(jìn)行研究的項目比較少,主要有:中國國家圖書館網(wǎng)絡(luò)信息資源保存實驗(Web Information Collection and Preservation,WICP)和中國Web信息博物館(可訪問http://www.infomall.cn)兩個項目,且中國國家圖書館網(wǎng)絡(luò)資源保存實驗不完全針對網(wǎng)頁歸檔,其主要研究是對電子資源的一個保存歸檔,只有“中國Web信息博物館“是在國家973和985項目支持下由北京大學(xué)計算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)實驗室開發(fā)建設(shè)的中國網(wǎng)頁歷史信息存貯與展示系統(tǒng)[1],國內(nèi)對網(wǎng)頁歸檔的研究與應(yīng)用與國外差距比較大。而國內(nèi)Web信息的特殊價值和作用使得國內(nèi)對這方面的研究和實踐日益重視。2014年11月國家檔案局局長楊冬權(quán)在會見阿里巴巴集團(tuán)副總裁兼“阿里云”總裁胡曉明及其團(tuán)隊時,表示將盡快啟動為各級國家政府網(wǎng)站網(wǎng)頁存檔工作,其中阿里介紹了“阿里云”可以為國家電子檔案歸檔做云存儲方面的一些工作[2]。所以,云存儲對網(wǎng)頁歸檔有著非常重要的作用。
1 國外的網(wǎng)頁歸檔研究
2012年11月,美國國家數(shù)字信息基礎(chǔ)設(shè)施保存計劃(NDIIPP)發(fā)布了一份《處于危險中的科學(xué):構(gòu)建在線科學(xué)內(nèi)容保存的國家戰(zhàn)略》報告[3],明確將在線科學(xué)內(nèi)容保存提升成為美國國家戰(zhàn)略。美國進(jìn)行Web Archive(網(wǎng)頁歸檔)最早的項目之一是IA(Internet Archive,因特網(wǎng)檔案館),這個項目是由一個非盈利組織領(lǐng)導(dǎo)建設(shè)的,其長期存儲并對公眾免費公開,所存儲的資源類型比較多,有網(wǎng)頁、音樂、動畫和其他電子資源等。1996年其開始保存網(wǎng)頁資源,2001年對公眾開放,其開發(fā)了網(wǎng)頁回放器(way back machine)。IA是目前美國最大的網(wǎng)頁歸檔的項目,其在國際互聯(lián)網(wǎng)保存聯(lián)盟(International Internet Preservation Consortium,IIPC)的框架下,與許多政府和圖書館等進(jìn)行緊密的合作。美國IA項目的采集策略是廣泛采集,就是使用采集軟件遍歷URL,但有時它也對某些突發(fā)問題進(jìn)行專項采集或廣泛采集和專項采集相結(jié)合的方式進(jìn)行[4]。其采用的采集軟件是Heritrix,該軟件是專門的網(wǎng)頁采集歸檔軟件,其采用JAVA語言開發(fā),并且是開源的,我們可以從其官網(wǎng)下載(http://sourceforge.net/projects/
archive-crawler/),它有封包好的程序可以直接使用,也可以根據(jù)需要在源代碼的基礎(chǔ)上二次開發(fā)。英國、加拿大和法國等國家的國家圖書館均采用此軟件來采集網(wǎng)頁。IA對保存的網(wǎng)頁提供了URL的高級搜索功能,用戶通過網(wǎng)頁回放器(way back machine)可以把要訪問的URL自動將結(jié)果顯示出來[5]。IA在存儲方面與SUN合作,采用了SUN的Modular Datacenter。而加拿大國家圖書館與檔案館于1997年開始建立并采集電子資源,加拿大國家圖書和檔案館(LAC)2005年開始采集加拿大政府網(wǎng)頁的資源。其采集的策略是加拿大域名范圍內(nèi)政府的資源,采集軟件是Heritrix和索引查詢的軟件NUTCHWAX都是開源的,使用WAYBACK軟件組織和重現(xiàn)網(wǎng)頁[6]。瑞典皇家圖書館進(jìn)行的網(wǎng)頁歸檔項目是-Kulturarw3(Cultural Heritage Cubed,文化遺產(chǎn)保存)。該項目從1996年開始,其采用選擇式的采集策略,主要采集。se域名的網(wǎng)頁資源。采集軟件是Heritrix,網(wǎng)頁顯示也使用WAYBACK軟件來實現(xiàn)[7]。
我們分析這些國家的網(wǎng)頁歸檔項目,可以發(fā)現(xiàn),大多數(shù)國家的圖書館和檔案館都與國際互聯(lián)網(wǎng)保存聯(lián)盟IIPC進(jìn)行合作。IIPC資助開發(fā)的一些開源的網(wǎng)頁篩選、采集、保存和網(wǎng)頁回放工具,這些工具已經(jīng)在一些國家的圖書館和檔案館廣泛應(yīng)用。
由于國內(nèi)開展的Web Archive項目較少,也沒有技術(shù)文獻(xiàn)和文章對這些開源工具在Web Archive的設(shè)計方案和應(yīng)用進(jìn)行介紹,目前只有中國國家圖書館和中國Web信息博物館利用開源工具進(jìn)行了大規(guī)模采集、歸檔和服務(wù)的案例,但依舊有許多環(huán)節(jié)和功能需要研究和擴(kuò)展。國內(nèi)對Heritrix研究應(yīng)用比較多,主要用于網(wǎng)頁進(jìn)行采集和索引,進(jìn)行輿情的監(jiān)控。但對網(wǎng)頁歸檔方面的應(yīng)用研究比較少。
2 Web Archive過程及工具
根據(jù)國外的項目所提到的技術(shù)和方案,結(jié)合國內(nèi)實際和計算機(jī)最新的技術(shù),在此提出一種比較實際的網(wǎng)頁歸檔技術(shù)方案。網(wǎng)頁歸檔方案的設(shè)計和歸檔的過程相結(jié)合。IIPC根據(jù)開放檔案信息系統(tǒng)(Open Archival Information System,OAIS)參考模型將網(wǎng)頁歸檔的工作劃分為攝取、存儲、訪問與檢索四個階段[8]。
2.1 網(wǎng)頁攝取
網(wǎng)頁歸檔的第一個任務(wù)是網(wǎng)頁的攝取,有的文章也叫網(wǎng)頁收集或收割。網(wǎng)頁采集要依據(jù)一定的策略和采集軟件工具進(jìn)行。采集策略分為:選擇性采集、批量采集和混合采集,選擇性采集是選定采集對象和范圍,以一定的頻率進(jìn)行網(wǎng)頁對象的采集,目前已采用的選擇標(biāo)準(zhǔn)包括主題或資源類型等。加拿大、日本和澳大利亞圖書館的PANDORA項目均采用這種采集策略。批量采集是沒有指定具體的主題或資源類型,對全球的一些Web網(wǎng)頁進(jìn)行采集,比較有名的有美國的互聯(lián)網(wǎng)檔案館(Internet Archive,IA)[9]?;旌鲜讲杉峭瑫r使用幾種采集策略。如美國國會圖書館的MINERVA項目包含選擇性存檔和全域快照的收集方法;丹麥皇家圖書館采取多管齊下的方法,有三種不同類型的采集方法:對域名為“.DK”的一年四次的全域收割,對約80%的網(wǎng)站高質(zhì)量的選擇性收割,和每年兩三個事件的專題性收割[7]。對于目前國內(nèi)的情況來說,還是采用混合策略比較好。
確定采集策略后,就需確定采集的工具,分析目前國外的網(wǎng)頁歸檔項目可知,主要采用網(wǎng)頁采集工具Heritrix。Heritrix是一個開源的軟件,可以根據(jù)實際的需要在源代碼上進(jìn)行定制性的修改,而且這個軟件經(jīng)過實踐證明,是比較好的網(wǎng)頁采集軟件。
2.2 網(wǎng)頁歸檔存儲
存儲是網(wǎng)頁歸檔后的首要任務(wù),是保證Web Archive后,可以現(xiàn)在和未來訪問和使用的基礎(chǔ),這里最重要的工作就是討論:歸檔后Web內(nèi)容的存儲格式及長期保存等問題。
2.2.1 Web Archive后保存格式
Web Archive后如何對文檔進(jìn)行保存和保存為何種格式,這特別重要。Web Archive中的文件存檔格式有多種,如ARC、WARC、CDX等,IIPC推薦使用WARC。WARC格式于2009年6月被正式批準(zhǔn)成為ISO標(biāo)準(zhǔn)(ISO28500:2009。WARC格式將多樣化的網(wǎng)絡(luò)資源采集結(jié)果連同相關(guān)描述信息一并整合到同一存檔文件中。一個WARC格式的文件(file)由若干條記錄(record)連接而成。每條記錄以頭標(biāo)區(qū)(record header)開頭,后跟內(nèi)容塊(record content block)[10]。WARC存檔格式規(guī)定了一種將多種數(shù)字資源與其相關(guān)信息(如元數(shù)據(jù))整合為一個存檔文件的方法,用以更好支持Web Archive的采集、訪問和信息的交換[11]。
WARC(Web ARChive)格式具有以下特點。
⑴ 軟硬件生態(tài)環(huán)境完善。WARC格式用戶較多,發(fā)展時間比較長,多種開源軟件均支持WARC格式標(biāo)準(zhǔn),且其支持網(wǎng)絡(luò)存檔流程中的采集、元數(shù)據(jù)抽取、索引、格式檢查、內(nèi)容回放和管理等各個環(huán)節(jié),這樣軟件的支持使得網(wǎng)頁存檔為WARC比較容易,且保存后簡單好用。
⑵ 記錄信息量大,保存當(dāng)時環(huán)境。WARC格式本身就是用于存儲網(wǎng)絡(luò)資源的格式,存儲了大量信息。這些信息主要包括:①網(wǎng)絡(luò)資源保存系統(tǒng)環(huán)境,如爬蟲信息、服務(wù)器信息、協(xié)議控制信息及響應(yīng)信息等相關(guān)內(nèi)容;②網(wǎng)絡(luò)資源相互聯(lián)通的信息,即錨信息和URL;③網(wǎng)絡(luò)資源的元數(shù)據(jù)信息,這些信息記錄了當(dāng)時的網(wǎng)絡(luò)環(huán)境,這些信息有利于網(wǎng)絡(luò)資源的長期保存和使用。
⑶ 支持?jǐn)?shù)據(jù)打包和壓縮,便于管理和保存網(wǎng)絡(luò)資源。WARC格式支持壓縮和打包操作,可以將所采集下來的零散的文件進(jìn)行打包壓縮并保存,降低了長期保存的空間開銷和處理小文件的計算開銷,便于對資源進(jìn)行管理。
⑷ 支持大容量資源的保存,WARC格式中的continuation 類型的記錄支持將大容量的網(wǎng)絡(luò)資源進(jìn)行分割以便保存,并且可以控制分割塊的大小,使用靈活方便,且可以應(yīng)用于網(wǎng)絡(luò)資源外的其他類型數(shù)字資源的長期保存。
⑸ 易于擴(kuò)展,WARC標(biāo)準(zhǔn)預(yù)留了擴(kuò)展的空間,如記錄類型、截斷原因等,易于在不破壞現(xiàn)有功能的基礎(chǔ)上進(jìn)行擴(kuò)展。所以,建議網(wǎng)頁歸檔保存為WARC格式。
2.2.2 Web Archive后長期存儲
目前存儲技術(shù)正從原始的紙張、光盤以及磁介質(zhì)和數(shù)據(jù)存儲中心向云存儲發(fā)展,云存儲是綜合運(yùn)用原有的分布式技術(shù)、集群化技術(shù)、網(wǎng)格化技術(shù)和虛擬化技術(shù)等,將網(wǎng)絡(luò)中的不同的異型存儲設(shè)備通過應(yīng)用軟件管理在一起協(xié)同進(jìn)行工作,來對外提供高擴(kuò)展性的海量存儲和訪問[12]。云存儲分為公有云、私有云和混合云。①公有云存儲。公有云存儲可以由專業(yè)的公司負(fù)責(zé),以低成本提供大存儲空間。云服務(wù)商可以為每個客戶劃分單獨的存儲空間、每個客戶的應(yīng)用都是私有的、獨立的,且公有云存儲也可以根據(jù)需要劃出一部分存儲空間,用作私有云存儲。②私有云存儲。私有云存儲時,圖書館或檔案館自身可以擁有或控制基礎(chǔ)架構(gòu),并可以針對不同應(yīng)用進(jìn)行部署。私有云存儲時可以根據(jù)需要,部署在政府部門、圖書館或檔案館數(shù)據(jù)中心等。私有云進(jìn)行存儲管理時,可以由圖書館或檔案館的技術(shù)部門負(fù)責(zé),也可以由專業(yè)的云管理服務(wù)商負(fù)責(zé)。③混合云存儲。就是把公有云和私有云相結(jié)合。按客戶需求進(jìn)行訪問,特別應(yīng)用于需要臨時配置比較大容量的時候。這時可以從公共云上劃出一部分容量配置為私有云[13]。
云存儲結(jié)構(gòu)圖如圖1所示,分析圖1可知,云存儲有一系列的優(yōu)勢。①靈活方便。對于比較小的圖書館和檔案館,可以將數(shù)據(jù)的創(chuàng)建與維護(hù)委托給專業(yè)的云服務(wù)提供商,而只需要租用云服務(wù)提供商的服務(wù)即可,用戶不必考慮存儲容量、存儲設(shè)備類型和存儲位置,只需要關(guān)注數(shù)據(jù)的可用性、可靠性和安全性等方面即可。避免了購買硬件設(shè)備及技術(shù)維護(hù)而投入大量的的物力和精力,可以把節(jié)省的資源用于更多專業(yè)的業(yè)務(wù)上來。②高度可靠。目前比較專業(yè)的云存儲設(shè)備和云存儲服務(wù)商具有數(shù)據(jù)快照、數(shù)據(jù)鏡像以及數(shù)據(jù)自動同步等技術(shù),這些技術(shù)保障了云存儲服務(wù)的高可靠性,避免了數(shù)據(jù)丟失。為了確保數(shù)據(jù)的安全可靠,可以利用數(shù)字加密等技術(shù)防止數(shù)據(jù)被篡改和被攻擊,所以,采用云存儲技術(shù)比本地存儲更加安全可靠。③存儲容量大。專業(yè)的云存儲服務(wù)商可以根據(jù)需要隨時提供大容量存儲服務(wù)器,而一般比較大的企業(yè)或圖書館等云存儲也有幾十、上百的存儲服務(wù)器,這些服務(wù)器提供了海量的存儲空間,而且還可以根據(jù)需要快速方便的增加存儲服務(wù)器,用戶不用擔(dān)心存儲空間不足的問題[14]。④成本較低。圖書館或檔案館可將大部分?jǐn)?shù)據(jù)遷移至云存儲上,所有的運(yùn)行維護(hù)工作均由云存儲服務(wù)提供商來完成。因此,可以將數(shù)據(jù)存儲與管理的成本以及人力成本降到最低,同時,還能獲得良好的數(shù)據(jù)存儲服務(wù)。⑤量身定制。當(dāng)大量歸檔網(wǎng)頁數(shù)據(jù)出現(xiàn)時,傳統(tǒng)的存儲模式已不再適應(yīng)大數(shù)據(jù)存儲的需要,私有云即可滿足圖書館和檔案館這種個性化需求。圖書館或檔案館可以部署一套私有云服務(wù)架構(gòu),這樣不僅量身定做需求,還能在一定程度上降低安全風(fēng)險。由于云存儲的這些優(yōu)點特別適合對網(wǎng)頁歸檔的大數(shù)據(jù)進(jìn)行存儲。所以,對于一般的檔案館和圖書館可以采用云存儲結(jié)構(gòu)來保存網(wǎng)頁歸檔內(nèi)容。
2.3 網(wǎng)頁訪問
網(wǎng)頁歸檔存儲后的最終目地是網(wǎng)頁以后的使用,即網(wǎng)頁的訪問。為了加快對歸檔后網(wǎng)頁的訪問速度,需要對歸檔后的網(wǎng)頁建立索引,實際就是對歸檔后的WARC文件進(jìn)行索引。Nutch不單可以對網(wǎng)絡(luò)資源進(jìn)行采集還可以進(jìn)行回放,最新的Nutchwax是在Nutch基礎(chǔ)上增加了對WARC文檔進(jìn)行全文索引的功能。但Nutch的主要功能還是類似Heritrix主要功能是對網(wǎng)頁的采集。對網(wǎng)頁的索引工作主要有solr完成,Apache Solr是基于Lucene開發(fā)的開源企業(yè)級搜索平臺,支持全文索引、分面檢索等功能。將Solr 應(yīng)用于網(wǎng)絡(luò)存檔中的工作仍處在初步實踐階段,但I(xiàn)A 在2011年發(fā)布的一個報告中對比nutchwax和Solr在網(wǎng)絡(luò)存檔資源索引與檢索中的表現(xiàn),認(rèn)為Solr 的表現(xiàn)相對于Nutchwax更加優(yōu)異。所以建議使用solr來進(jìn)行所引[15]。國外常用的回放軟件工具是Wayback Machine。Wayback Machine是由IIPC主導(dǎo)開發(fā)并采用Java語言專門開發(fā)的WARC文檔索引和回放軟件。它支持對WARC文檔中的URL進(jìn)行索引和回放,并提供可視的檢索界面。
2.4 網(wǎng)頁歸檔綜合管理軟件
網(wǎng)頁歸檔綜合管理軟件集成了采集、管理、索引和發(fā)布等主要流程,便于保存機(jī)構(gòu)快速開展網(wǎng)絡(luò)存檔活動。其中較知名的軟件是新西蘭圖書館和英國圖書館合作開發(fā)的Web Curator Tools(WCT)[16]和荷蘭圖書館開發(fā)的NetArchiveSuite。WCT是一款基于Java的開源軟件,主要面向圖書館等非技術(shù)型用戶快速開展網(wǎng)絡(luò)存檔工作。WCT集成了Heritrix爬蟲、支持權(quán)限控制、任務(wù)管理、采集、質(zhì)量檢查以及元數(shù)據(jù)編目等主要的網(wǎng)絡(luò)存檔工作流程。NetArchiveSuite是丹麥皇家圖書館和國家與大學(xué)圖書館聯(lián)合開發(fā)的網(wǎng)絡(luò)存檔軟件平臺。NAS主要的功能是安排、規(guī)劃網(wǎng)絡(luò)存檔任務(wù),并對網(wǎng)絡(luò)資源進(jìn)行長期保存。NAS集成了Heritrix爬蟲,支持比特保存功能,且支持分布式部署和協(xié)同工作。采集管理平臺WCT雖然有一系列的特點和優(yōu)勢,但其也有很多的功能限制,滿足不了實際工作中的很多需求,建議在WCT的基礎(chǔ),開發(fā)一個適合實際需要的采集綜合管理平臺[3]。
3 具體網(wǎng)頁歸檔方案設(shè)計
根據(jù)對國內(nèi)外網(wǎng)頁歸檔方案的分析和研究,結(jié)合國內(nèi)的情況,設(shè)計出來一個適合我國國情并具有應(yīng)用價值的一個網(wǎng)頁歸檔方案,如圖2所示。
首先通過網(wǎng)頁綜合管理平臺設(shè)置采集策略和采集任務(wù)等,調(diào)用網(wǎng)頁采集工具Heritrix進(jìn)行網(wǎng)頁采集,網(wǎng)頁采集后存為WARC格式,保存在云存儲服務(wù)器上,然后采用Wayback Machine和Solr對網(wǎng)頁進(jìn)行索引,最后通過Wayback對網(wǎng)頁進(jìn)行檢索和回放。
4 結(jié)束語
國內(nèi)對網(wǎng)頁歸檔的研究較少,隨著網(wǎng)絡(luò)辦公和網(wǎng)絡(luò)管理的日益頻繁,網(wǎng)頁歸檔是一個刻不容緩的工作,目前國家檔案局等單位已經(jīng)對此項工作重視起來,但我們的有關(guān)研究還比較薄弱,希望在此方案基礎(chǔ)上,有更多的研究機(jī)構(gòu)對此進(jìn)行更多的研究和實踐。從而為我國的網(wǎng)頁歸檔工作提供一些參考和啟示。
參考文獻(xiàn)(References):
[1] Toward a National Strategy for Preserving Online Science[EB/OL].[2014-08-05].http://www.digitalpreservation.gov/meetings/documents/othermeetings/science-at-risk-NDIIPP-report-nov-2012.pdf.
[2] http://www.zjda.gov.cn/jgzw/zwgk/snxx/201412/20141202_325721.html
[3] 吳振新,張智雄,謝靖,胡吉穎.基于IIPC開源軟件拓展構(gòu)建國際重要科研機(jī)構(gòu)Web存檔系統(tǒng)[J].現(xiàn)代圖書情報技術(shù),2015.257(4):1-9
[4] 王芳,史海燕.國外WebArchive研究與實踐進(jìn)展[J].中國圖書館學(xué)報,2013.204(39):36-45
[5] 王爍.美國網(wǎng)頁歸檔項目-InternetArchive發(fā)展研究[J].蘭臺世界,2012.17:18-19
[6] 王爍,丁宇.加拿大圖書館網(wǎng)頁歸檔項目研究[J].檔案學(xué)研究,2012(6):83-85
[7] 王爍,丁宇.瑞典皇家圖書館網(wǎng)頁歸檔項目研究[J].辦公室業(yè)務(wù),2013,24(23):111-113
[8] 向菁,吳振新.網(wǎng)絡(luò)信息資源保存發(fā)展現(xiàn)狀及趨勢分析[J].中國圖書館學(xué)報,2009.180(2):34-41
[9] Internet Archive[EB/OL].[2012-06-10].http://archive.org/.
[10] 李睿,韓毅,郭世明.WARC格式對描述與組織網(wǎng)絡(luò)收割結(jié)果的支持[J].圖書館理論與實踐,2010.7:38-41
[11] 曲云鵬.網(wǎng)絡(luò)存檔文件格式WARC研究[J].圖書館學(xué)研究,2014.24(24):20-28
[12] 王偉.存儲的進(jìn)化:云存儲解決方案[J].通訊世界,2012.12(9):54-55
[13] 王剛.計算機(jī)網(wǎng)絡(luò)存儲技術(shù)[J].計算機(jī)系統(tǒng)應(yīng)用,2015.24(1):14-20
[14] 劉思得.基于網(wǎng)絡(luò)的云存儲模式的分析探討[J].科技通報,2012.28(10):206-209
[15] 蔡學(xué)鋒.基于Solr的搜索引擎核心技術(shù)研究與應(yīng)用[D].武漢理工大學(xué)碩士論文,2013.
[16] The Web Curator Tool Project [EB/OL]. [2014-08-05].http://Webcurator.sourceforge.net/.