• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      WARC格式對描述與組織網(wǎng)絡(luò)收割結(jié)果的支持

      2010-06-14 08:28:04郭世明
      圖書館理論與實(shí)踐 2010年7期
      關(guān)鍵詞:國家圖書館字段資源

      ●李 睿,韓 毅,郭世明

      (1.中國科學(xué)院 文獻(xiàn)情報(bào)中心,北京 100080;2.四川大學(xué) 公共管理學(xué)院,成都 610064)

      保存網(wǎng)絡(luò)資源不同于保存學(xué)術(shù)電子期刊(基于主題、學(xué)科或引用關(guān)系的高度結(jié)構(gòu)化和有序化數(shù)據(jù)庫資源),網(wǎng)絡(luò)收割(抓取/爬行)的結(jié)果具有媒體格式版本多樣,規(guī)模大小差異大,資源重復(fù),外部關(guān)聯(lián)復(fù)雜等特征。[1]IA(InternetArchive,由美國國會(huì)圖書館和SmithsonianInstitution共同構(gòu)成,以為后代保存稍縱即逝的、具有歷史性重大意義的“原生”互聯(lián)網(wǎng)資源為目標(biāo))為存檔網(wǎng)絡(luò)爬行器的批量收割結(jié)果制定了ARC(ARChive) 格式,之后,IIPC(International Internet PreservationConsortium,由IA和30多個(gè)國家圖書館組成,旨在開發(fā)Web Archive通用工具和技術(shù)標(biāo)準(zhǔn))在各成員機(jī)構(gòu)應(yīng)用ARC的經(jīng)驗(yàn)基礎(chǔ)上,改進(jìn)而成了一種標(biāo)準(zhǔn)化的管理和存儲(chǔ)海量網(wǎng)絡(luò)收割結(jié)果的文件格式WARC (WebARChive)。

      WARC格式標(biāo)準(zhǔn)于2009年6月被正式批準(zhǔn)成為ISO標(biāo)準(zhǔn)(ISO 28500:2009)。此外,互聯(lián)網(wǎng)工程任務(wù)組 IETF(Internet Engineering Task Force) 已批準(zhǔn)登記WARC格式標(biāo)準(zhǔn)為RFC文件(請求注解文件),登記WARC格式的MIME類型為“application/warc”,國際互聯(lián)網(wǎng)代理成員管理局IANA(Internet Assigned NumbersAuthority)也即將登記WARC格式的類型為“application/warc”。

      1 WARC格式標(biāo)準(zhǔn)的基本規(guī)定[2]

      WARC將多樣化的網(wǎng)絡(luò)資源收割結(jié)果連同相關(guān)描述信息一并整合到同一存檔文件中。一個(gè)WARC格式的文件(file) 由若干條記錄(record) 連接而成。每條記錄以頭標(biāo)區(qū)(record header) 開頭,后跟內(nèi)容塊(record content block)。WARC記錄的基本結(jié)構(gòu)如下圖所示。頭標(biāo)區(qū)使用文本數(shù)據(jù)對資源進(jìn)行基本描述,內(nèi)容塊可以包含零字節(jié)或任意多字節(jié),其中存儲(chǔ)的記錄類型隨資源內(nèi)容的不同而不同。

      圖 WARC格式基本結(jié)構(gòu)示意圖

      WARC格式標(biāo)準(zhǔn)定義了8種記錄類型:“warcinfo”“response”“resource”“request”“metadata”“revisit”“conversion”和“continuation”。在創(chuàng)建某一資源的存檔文件的過程中,可以任意選擇、按任意順序組合各種記錄類型。

      WARC格式的字段類型包括:“warc-id”“data-length”“record-type”“subject-uri”“creation-date”“content-type”“record-id”“IP-address”“Segment-O-rigin-ID”“Segment-Number”“Truncated:reason-token”“Related-Record-ID”“Warcinfo-ID”等。用戶可還以自定義添加新的字段類型。

      2 WARC對網(wǎng)絡(luò)收割結(jié)果的描述

      2.1 基本描述

      WARC文件中,每條記錄的頭標(biāo)區(qū)負(fù)責(zé)標(biāo)識該條記錄的基本信息,包括記錄長度、創(chuàng)建時(shí)間、主題URI等內(nèi)容。

      2.2 對資源來源的描述

      WARC格式對資源來源的描述主要通過“request”和“response”兩種類型的記錄來實(shí)現(xiàn)。部分描述信息來源于TCP/IP連接過程,例如服務(wù)器的IP地址、資源名稱、資源類型、資源語種、響應(yīng)時(shí)間、服務(wù)器類型等,而大部分描述信息來源于HTTP請求與響應(yīng)過程,分別被存儲(chǔ)在“request”和“response”兩種類型的記錄中。

      2.3 對收割活動(dòng)的描述

      “warcinfo”型記錄用于描述其后所跟記錄的收割活動(dòng),描述信息包括:網(wǎng)絡(luò)爬行的目的、深度、時(shí)間間隔、速率等。“warcinfo”型記錄可以出現(xiàn)在WARC文件中的其他任意位置,用于描述其后所跟的記錄,其描述的有效性直到下一條“warcinfo”型記錄出現(xiàn)為止。

      2.4 對資源格式的描述

      “conversion”型記錄中存儲(chǔ)的內(nèi)容是某一記錄內(nèi)容的另一種媒體格式的版本。WARC格式標(biāo)準(zhǔn)規(guī)定:可以為某一資源創(chuàng)建任意數(shù)量的“conversion”型記錄,以盡最大可能維持其在未來的活性。下文是一條“conversion”型記錄,其中記載了目前資源的類型為images格式為jpg,包含3098比特二進(jìn)制數(shù)據(jù),在未來jpg格式過時(shí)后,資源可能被遷移為新格式image/neoimg,新格式版本將被存放在Related-Record-ID中。

      2.5 對資源內(nèi)容的描述

      原始URI可以提示記錄中資源內(nèi)容的主題。在“warcinfo”型記錄中,“subject-uri”字段的值是人工綜合給定的,并且是文件名的一部分,“subject-uri”字段的值是爬行軟件的檢索目標(biāo)的原始URI。

      2.6 對節(jié)略資源的描述

      規(guī)模過大的資源可能在被節(jié)略后存入WARC文件,在頭標(biāo)區(qū)增加“Truncated”字段可以顯示該條記錄為節(jié)略操作的結(jié)果,“Truncated”字段的值可以是“time”(表明節(jié)略原因是資源超過時(shí)效限制) 或“l(fā)ength”(表明節(jié)略原因是資源超過長度限制)。

      2.7 對資源重復(fù)訪問的描述

      “revisit”型記錄用于記載對已存檔內(nèi)容進(jìn)行重復(fù)訪問的情況。下文為一條“revisit”型記錄,其中記載了遠(yuǎn)程主機(jī)的HTTP響應(yīng)未發(fā)生變化,Etag的值與先前的訪問記錄相同,說明資源內(nèi)容未發(fā)生變化。

      3 WARC對網(wǎng)絡(luò)收割結(jié)果的組織

      3.1 WARC對片段記錄的組織

      WARC格式規(guī)定:對規(guī)模過大的資源可將之分割為若干片段然后分別保存在多條“continuation”型記錄中。記錄中的“Segment-Origin-ID”字段負(fù)責(zé)將各內(nèi)容片段記錄與起始片段記錄關(guān)聯(lián)起來,“Segment-Number”字段負(fù)責(zé)對每一內(nèi)容片段按先后順序進(jìn)行編號。下文是某資源的第2個(gè)記錄片段的'continuation'型記錄,它與起始記錄uuid:a4b26b6b-f918-4136-af04-f859d75a ebe5關(guān)聯(lián)在一起。

      3.2 面向不同任務(wù)的WARC記錄重組

      當(dāng)面向不同主題或事件(9.11、悉尼奧運(yùn)、汶川地震)重組資源時(shí),各種記錄會(huì)被從不同的WARC文件中抽取出來,重新組合成新的文件,“Warcinfo-ID”字段則能夠?yàn)橹亟M后分布于不同的獨(dú)立WARC文件中的記錄提供與其原始“Warcinfo”記錄的關(guān)聯(lián),保持資源的原貌。

      3.3 基于外部關(guān)聯(lián)的資源組織

      WARC格式中內(nèi)嵌了“metadata”型記錄,采用RDF或其他以XML為基礎(chǔ)的書寫方式,其內(nèi)容允許復(fù)用其他各種類型記錄的內(nèi)容,支持對資源間關(guān)聯(lián)的語義描述。下文是一條簡單的“metadata”型記錄,Related-Record-ID字段中記載了與該資源相關(guān)聯(lián)的其他資源。

      3.4 基于外部索引的信息組織

      WARC文件可以被外部工具索引,IA的ARC文件被存取工具Wayback以URL和收割時(shí)間作為索引點(diǎn)建立了外部索引數(shù)據(jù)庫,[3]美國國會(huì)圖書館的LOC/SDSC項(xiàng)目分布式運(yùn)行了18個(gè)Wayback子項(xiàng)目對其存檔的ARC文件進(jìn)行索引,1周時(shí)間內(nèi)建成了100 GB 的索引數(shù)據(jù)庫。[4]

      4 ARC及WARC格式在各國的應(yīng)用情況

      丹麥皇家圖書館和丹麥國家與大學(xué)圖書館聯(lián)合進(jìn)行的Netarkivet項(xiàng)目使用Heritrix進(jìn)行網(wǎng)絡(luò)收割,存儲(chǔ)WARC文件的系統(tǒng)BitArchives不久將達(dá)到20TB容量。[5]

      法國國家圖書館Bnf WebArchive項(xiàng)目一年間存檔的25000個(gè)ARC文件,對應(yīng)于50萬個(gè)主機(jī)和大于1億 2 千多萬個(gè) URL。[6]

      新西蘭國家圖書館一年完成的收割任務(wù)中76%以ARC 格式存檔。[7]

      新加坡國家圖書館每年進(jìn)行2次大規(guī)模網(wǎng)絡(luò)收割,存檔1.6TB ARC格式文件。[8]

      芬蘭國家圖書館的Annual Web Harvest項(xiàng)目采用Heritrix進(jìn)行網(wǎng)絡(luò)爬行,并且以WARC進(jìn)行收割結(jié)果存檔。[9]

      德國國家圖書館總結(jié)了使用METS支持網(wǎng)絡(luò)收割結(jié)果存檔的利與弊,并提出了使用WARC格式的可行性。[10]

      荷蘭國家圖書館正計(jì)劃將網(wǎng)絡(luò)資源收割的結(jié)果以WARC格式存入 e-Depot中。[11]

      美國國會(huì)圖書館的LOC/SDSC項(xiàng)目共存檔了5.2 TBARC文件,平均每個(gè)文件的大小為128MB,平均每個(gè)文件容納1000個(gè)網(wǎng)頁。[11]

      澳大利亞國家圖書館的PADORA項(xiàng)目一年存檔的ARC 文件總量為 4.52TB。[12]

      加州大學(xué)數(shù)字圖書館(CDL) 的Web-at-Risk項(xiàng)目內(nèi)置Heritrix作為收割軟件,以ARC格式輸出收割結(jié)果,并通過NutchWAX存取管理軟件對存檔的ARC文件建立索引。[13]

      康奈爾大學(xué)的WebArchive項(xiàng)目——WebLibrary對數(shù)字圖像和視頻的收割結(jié)果進(jìn)行了ARC格式保存,其中數(shù)字圖像的ARC文件為14.9TB,相應(yīng)的元數(shù)據(jù)DAT文件為0.84TB;視頻的ARC文件為7.36TB,相應(yīng)的元數(shù)據(jù)DAT文件為1.89TB。[14]

      由歐洲若干國家圖書館(摩洛哥、捷克)及研究機(jī)構(gòu) (University Hannover、Europe Archive Foundation等) 共同承擔(dān)的LiWA(LivingWebArchives) 項(xiàng)目,將WARC格式擬定為網(wǎng)絡(luò)收割結(jié)果的存檔格式。[15]

      受 JISC資助的 JISC-PoWR(Preservation of Web Resources)項(xiàng)目提出了“文檔持續(xù)可訪問、兼容元數(shù)據(jù)、符合OAIS模式、支持Web2.0資源”等存檔原則,并著重參考WARC格式。[16]

      意大利政府支持能源、環(huán)境、新技術(shù)等關(guān)系國家競爭力和可持續(xù)發(fā)展的代理平臺(tái)——ENEA網(wǎng)格,也使用WARC存檔其網(wǎng)絡(luò)收割的結(jié)果。[17]

      5 WARC應(yīng)用于我國Web Archive工作的建議

      盡管WARC格式也還存在諸多不足,例如尚缺乏對刪除行為、遷移過程和去重過程的記載等,但它正處于快速的改良和發(fā)展中:IIPC已制定出管理文件內(nèi)容的綜合、可擴(kuò)展、高速的框架———Libwarc,[18]并于2008年10月推出。WebArchive服務(wù)機(jī)構(gòu)Hanzo開發(fā)了使ARC向WARC轉(zhuǎn)換的操作工具,可在第三方軟件上運(yùn)行。[19]英、法、丹麥、瑞典、新西蘭等國的國家圖書館正致力于WARC格式轉(zhuǎn)換及相關(guān)WARC工具的第三階段(PHASE III) 研發(fā)和推廣。[20]

      我國的WebArchive工作還處于起步階段,“網(wǎng)絡(luò)資源采集與保存試驗(yàn)項(xiàng)目”WICP和ODBN選擇了政府網(wǎng)站、電子期刊網(wǎng)站、大學(xué)網(wǎng)站、企業(yè)網(wǎng)站、大眾傳媒網(wǎng)站等各100個(gè)進(jìn)行資源收割,按網(wǎng)站名、版權(quán)所有者、開通日期進(jìn)行分類和主題描述,對收割結(jié)果的描述與組織方式以MARC目錄和DC目錄方式為主,生成的資源目錄被輸出到A1eph500系統(tǒng)中。

      根據(jù)WARC格式的應(yīng)用經(jīng)驗(yàn)和發(fā)展趨勢,筆者建議我國國家圖書館將來應(yīng)采納WARC格式進(jìn)行大規(guī)模的收割結(jié)果存檔工作,以保障存檔資源的可持續(xù)發(fā)展,同時(shí)實(shí)現(xiàn)與國際同類工作的兼容,支持未來國家記憶系統(tǒng)的互操作。

      [1]Catherine Lupovici,Den Haag.Archiving the Web:the mass preservation challenge,Tools and Trends:International Conferenceon DigitalPreservation[EB/OL].[2009-07-08].http://www.kb.nl/hrd/congressen/tool strends/presentations/Lupovici.pdf.

      [2]WARCFile Format(FinalworkingdraftforISOTC46/SC4,v.018,080618)[EB/OL].[2009-08-13].http://www.scribd.com/doc/4303719/WARC-ISO-28500-final-draft-v018-Zentveld-080618.

      [3]Steen S Christensen.The Royal Library Archival Data FormatRequirements[EB/OL].[2009-08-16].http://netarchive.dk/publikationer/Archival_format_requirements-2004.pdf.

      [4]David Minor,etc.Archiving,Indexing and Accessing Web Materials:Solutionsforlargeamounts ofdata[EB/OL].[2009-08-02].http://iwaw.europarchive.org/07/IWAW2007_minor.pdf.

      [5]Niels H,Christen S.Preserving the bits of the Danish Internet[EB/OL].[2009-08-11].http://netarchive.dk/publikationer/iwaw05-christensen.pdf.

      [6]Web Archiving at BnF[EB/OL].[2009-07-15].http://www.bnf.fr/pages/version_anglaise/depotleg/pdf/Bn Fnews200609.pdf.

      [7]GordonPaynter,etc.AYearofSelectiveWebArchiving with the Web Curator at the National Library of New Zealand[J/OL].D-LibMagazine,2008(14).

      [8]NLB.ParadigmShift:OwnershiptoOutsourcingtoGSPs[EB/OL].[2009-08-04].http://files.ngp.org.sg/GridAsia2009/presentations_slides/5-friday/gsp/1430-RajuBLN(NLB).pdf.

      [9]http://www.nationallibrary.fi/publishers/deposit/webharvesting.html.[2009-08-03].

      [10]Tobias Steinke.Harvester Results in a Digital PreservationSystem.IPRES2008[EB/OL].[2009-08-01].http://www.bl.uk/news/pdf/abstracts.pdf.

      [11]Barbara Sierman,Koninklijke Bibliotheek.Enhancing ourdatamodelwithPremis[EB/OL].[2009-08-07].http://ils.unc.edu/digccurr2007/papers/sierman_paper_4-1.pdf.

      [12]http://pandora.nla.gov.au/partners/annual_report06_07.pdf.[2009-08-06].

      [13]TracySeneca,Shifra Pride Rael.NDIIPP Web-at-Risk:TheDevelopmentofaWebArchivingServiceattheCalifornia Digital Library[EB/OL].[2009-08-05].http://www.cdlib.org/inside/projects/preservation/webat risk/documents/WebArchivingServiceCollection_Plan_Guidelines.pdf.

      [14]DmitriyShtokman.Web Library:DataMovementSpring 2007 Report[EB/OL].[2009-08-08].http://weblab.infosci.cornell.edu/papers/Shtokman2007.pdf.

      [15]http://iwaw.europarchive.org/08/IWAW2008-Pop-pres.pdf.[2009-08-04].

      [16]PoWR The Preservation of Web Resources Handbook[EB/OL].[2009-08-05].http://www.jisc.ac.uk/publications/documents/powrhandbook.aspx.

      [17]S Raia,etc.Web Crawling on ENEA GRID infrastructuretoperformWebArchive[EB/OL].[2009-08-03].http://www.cresco.enea.it/Documenti/web/presentazioni/Poster_PON_Catania_2009_02_10/poster_catania/Poster_WebCrawler_Raia_010209_20-30.pdf.

      [18]Libwac[EB/OL].[2009-08-02].http://code.google.com/p/warc-tools/.

      [19]Hanzo[EB/OL].[2009-08-10].http://www.hanzoweb.com/.

      [20]YounèsHafri.WARCTOOLSPHASEIII[EB/OL].[2009-08-01].http://warc-tools.googlecode.com/files/warc-tools_phase_III_frs_v5.pdf.

      猜你喜歡
      國家圖書館字段資源
      圖書館中文圖書編目外包數(shù)據(jù)質(zhì)量控制分析
      國家圖書館出版社重點(diǎn)圖書
      基礎(chǔ)教育資源展示
      國家圖書館藏四種古籍編目志疑
      天一閣文叢(2020年0期)2020-11-05 08:28:36
      一樣的資源,不一樣的收獲
      資源回收
      中國國家圖書館藏西夏文《不空羂索神變真言經(jīng)》考論
      西夏學(xué)(2018年2期)2018-05-15 11:26:38
      資源再生 歡迎訂閱
      資源再生(2017年3期)2017-06-01 12:20:59
      國家圖書館藏吳奕雜劇二種略考
      中華戲曲(2016年2期)2016-01-22 08:19:05
      CNMARC304字段和314字段責(zé)任附注方式解析
      奇台县| 广宁县| 昭平县| 泰和县| 德州市| 辉南县| 景德镇市| 嘉禾县| 葫芦岛市| 牙克石市| 旺苍县| 会同县| 昔阳县| 皋兰县| 长垣县| 济宁市| 博湖县| 云和县| 海盐县| 庆云县| 察隅县| 黄梅县| 锡林浩特市| 长垣县| 棋牌| 社旗县| 桓台县| 靖边县| 化州市| 泉州市| 乌什县| 北京市| 延安市| 京山县| 元朗区| 阿尔山市| 南部县| 涿鹿县| 雅安市| 阿瓦提县| 松桃|