• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      網(wǎng)頁(yè)電子文件歸檔管理系統(tǒng)建設(shè)研究與實(shí)踐

      2015-07-26 02:29:50咸容禹李佳臨陶偉
      微型電腦應(yīng)用 2015年8期
      關(guān)鍵詞:網(wǎng)頁(yè)分類信息

      咸容禹,李佳臨,陶偉

      網(wǎng)頁(yè)電子文件歸檔管理系統(tǒng)建設(shè)研究與實(shí)踐

      咸容禹,李佳臨,陶偉

      網(wǎng)頁(yè)電子文件是重要的原生網(wǎng)絡(luò)信息資源,具有很大的保存、管理和利用價(jià)值,目前關(guān)于網(wǎng)頁(yè)類電子文件歸檔管理與應(yīng)用的研究和報(bào)道仍是一個(gè)熱點(diǎn)。通過對(duì)網(wǎng)頁(yè)文件的特點(diǎn)進(jìn)行研究與分析,提出了參照紙質(zhì)檔案的管理模式,以 OFD版式文檔作為電子文件的存儲(chǔ)格式,并通過網(wǎng)頁(yè)電子文件歸檔管理系統(tǒng)的建設(shè)實(shí)踐,實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)電子文件從采集、歸檔、存儲(chǔ)到利用的全生命周期管理。

      網(wǎng)頁(yè);電子文件;爬蟲;OFD;分類方案;網(wǎng)頁(yè)歸檔

      0 引言

      網(wǎng)頁(yè)電子文件是重要的原生數(shù)字信息,具有獨(dú)特的藝術(shù)和史料價(jià)值,是信息回溯和分析的重要資源,隨著電子文件法律地位的確立,也同時(shí)具備法律憑證的作用[1]。近年來隨著互聯(lián)網(wǎng)應(yīng)用的發(fā)展和深入,網(wǎng)頁(yè)文件增長(zhǎng)量驚人,已經(jīng)大大超過了傳統(tǒng)信息媒介,但與此同時(shí),網(wǎng)頁(yè)文件由于其易更新、易發(fā)布、時(shí)效性強(qiáng),變化迅速等特點(diǎn),其流失量也非常驚人。電子文件歸檔管理系統(tǒng)建設(shè)的目的,是參照傳統(tǒng)紙檔案的管理模式,實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)電子文件從收集、積累、歸檔,到保管、處置、利用、存儲(chǔ)和銷毀的全生命周期管理,對(duì)推動(dòng)網(wǎng)頁(yè)信息的長(zhǎng)期保存,使其能夠在經(jīng)濟(jì)和社會(huì)活動(dòng)中被檢索和二次利用具有重要意義。

      1 網(wǎng)頁(yè)電子文件的特點(diǎn)與保存現(xiàn)狀

      1.1 網(wǎng)頁(yè)電子文件的特殊性

      一直以來,對(duì)于原生數(shù)字信息的保存,多數(shù)局限在文書類電子文件,專業(yè)類以及業(yè)務(wù)類電子文件的范疇。但是網(wǎng)頁(yè)與傳統(tǒng)電子文件不同,具有活性、關(guān)聯(lián)性、立體性等種種特點(diǎn),傳統(tǒng)的電子文件管理系統(tǒng)無法適用于網(wǎng)頁(yè)電子文件這類特殊的歸檔管理對(duì)象。

      傳統(tǒng)電子文件的內(nèi)容是固化的,而網(wǎng)頁(yè)內(nèi)容是不斷活動(dòng)變化的,同名網(wǎng)頁(yè)隨著時(shí)間流逝產(chǎn)生無數(shù)個(gè)軌跡史料,因此在網(wǎng)頁(yè)信息的采集、保存和管理過程中需要引入時(shí)間軸概念對(duì)歸檔對(duì)象進(jìn)行定位。其次,網(wǎng)頁(yè)電子文件具有內(nèi)部關(guān)聯(lián)性,在瀏覽器和服務(wù)器端應(yīng)用系統(tǒng)的支持下,通過眾多內(nèi)部元素(圖片、文字、HTML標(biāo)簽等)可以超鏈接到其它網(wǎng)頁(yè),需要考慮在歸檔后如何保持網(wǎng)頁(yè)鏈接原有的關(guān)聯(lián)性的問題。此外,網(wǎng)頁(yè)存在立體性,一個(gè)專題乃至一個(gè)網(wǎng)站,憑借眾多網(wǎng)頁(yè)間的層級(jí)和跳轉(zhuǎn)關(guān)聯(lián)起來,構(gòu)成一個(gè)整體,共同傳遞某個(gè)完整的主題和含義。如何原滋原味地保留網(wǎng)頁(yè)間的立體性和層級(jí)關(guān)系,也是網(wǎng)頁(yè)歸檔要重點(diǎn)考慮的需求。

      1.2 網(wǎng)頁(yè)電子文件歸檔研究和保存現(xiàn)狀

      我國(guó)在檔案管理領(lǐng)域有一系列專門的標(biāo)準(zhǔn)和規(guī)范,用于對(duì)檔案的組織、管理和分類。如DA/T 1-2000《檔案工作基本術(shù)語(yǔ)》[2]、GB/T XXXX-2008《文書檔案案卷格式》[3]等檔案管理相關(guān)標(biāo)準(zhǔn)規(guī)范、GB/T 18894—201X《電子文件歸檔與電子檔案管理規(guī)范》[4]等標(biāo)準(zhǔn)規(guī)范。

      國(guó)際上對(duì)于網(wǎng)頁(yè)存檔工作的研究[5]主要包括美國(guó)國(guó)會(huì)圖書館的網(wǎng)頁(yè)信息存檔(The Library of Congress Web Archives,簡(jiǎn)稱 LCWA)項(xiàng)目[6]、IA(Internet Archive)的Archive-It服務(wù),以及澳大利亞、英國(guó)、北歐等一些國(guó)家圖書館開展的實(shí)驗(yàn)性研究;國(guó)內(nèi)相對(duì)成熟的案例包括“中國(guó)Web 信息博物館(Web InfoMall)”項(xiàng)目和中國(guó)國(guó)家圖書館的 WICP 項(xiàng)目。這些案例均是對(duì)原生態(tài)網(wǎng)頁(yè)信息進(jìn)行抓取和保存,并基于不同的專題提供分類瀏覽和查詢服務(wù)。但是對(duì)網(wǎng)頁(yè)信息的保存和分類基本都是平面化的,在網(wǎng)頁(yè)關(guān)聯(lián)的立體性、時(shí)間軸定位、獨(dú)立于系統(tǒng)的保存格式等細(xì)節(jié)問題上還有進(jìn)一步研究和突破的空間。

      2 系統(tǒng)總體框架

      網(wǎng)頁(yè)電子文件的特殊性決定了在系統(tǒng)設(shè)計(jì)思路和技術(shù)框架構(gòu)建上需要具有更多的探索性和創(chuàng)新性[10-15]。目的是遵循傳統(tǒng)檔案管理標(biāo)準(zhǔn)和規(guī)范的基礎(chǔ)上,找到網(wǎng)頁(yè)電子文件保存與檔案管理標(biāo)準(zhǔn)結(jié)合的新模式,使用戶能夠像查閱普通檔案資料一樣查閱網(wǎng)頁(yè)信息,同時(shí)創(chuàng)新性地對(duì)網(wǎng)站內(nèi)容進(jìn)行以時(shí)序?yàn)榛鶞?zhǔn)的風(fēng)貌重現(xiàn)、以主題為基準(zhǔn)的內(nèi)容聚合,并立體地呈現(xiàn)網(wǎng)頁(yè)之間的關(guān)聯(lián)關(guān)系?;谏鲜瞿繕?biāo),本文在文獻(xiàn)[16-20]的研究基礎(chǔ)上,提出一種具有一定通用性和靈活性的網(wǎng)頁(yè)電子文件歸檔管理系統(tǒng)原型,對(duì)現(xiàn)有的網(wǎng)頁(yè)立體性保存、檔案化分類管理、獨(dú)立于系統(tǒng)的封裝與保存格式等技術(shù)問題進(jìn)行嘗試性研究與實(shí)踐,為實(shí)現(xiàn)網(wǎng)頁(yè)電子文件歸檔管理與應(yīng)用提供一種探索性和原創(chuàng)性的范例。

      網(wǎng)頁(yè)電子文件歸檔管理系統(tǒng)總體框架如圖1所示:

      圖1 網(wǎng)頁(yè)電子文件歸檔管理系統(tǒng)總體框架圖

      網(wǎng)頁(yè)采集子系統(tǒng)發(fā)起采集指令,對(duì)指定網(wǎng)站的網(wǎng)頁(yè)及元數(shù)據(jù)進(jìn)行定向采集;OFD轉(zhuǎn)換子系統(tǒng)將HTML網(wǎng)頁(yè)文件轉(zhuǎn)換為OFD版式文件;電子文件管理子系統(tǒng)為網(wǎng)頁(yè)存檔信息構(gòu)建全文索引并進(jìn)行管理,同時(shí)對(duì)外提供應(yīng)用服務(wù)接口。

      網(wǎng)頁(yè)電子文件歸檔管理系統(tǒng)實(shí)現(xiàn)對(duì)電子文件的全生命周期管理,數(shù)據(jù)業(yè)務(wù)流程如圖2所示:

      圖2 網(wǎng)頁(yè)電子文件歸檔管理系統(tǒng)的業(yè)務(wù)實(shí)現(xiàn)流程圖

      ①啟動(dòng)采集任務(wù),對(duì)目標(biāo)網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行爬取,通過版本識(shí)別完成網(wǎng)頁(yè)的全量與增量抓取。②對(duì)爬取到的HTML網(wǎng)頁(yè)進(jìn)行篩選和過濾處理;在全文檢索庫(kù)為網(wǎng)頁(yè)創(chuàng)建全文索引;同時(shí)將網(wǎng)頁(yè)元數(shù)據(jù)抽取到電子文件管理子系統(tǒng)中。③調(diào)用OFD轉(zhuǎn)換子系統(tǒng)完成OFD版式文件轉(zhuǎn)換。④電子文件管理子系統(tǒng)捕獲OFD文件,按照預(yù)先定義好的文件分類方案和元數(shù)據(jù)方案對(duì)網(wǎng)頁(yè)進(jìn)行登記和著錄。⑤在電子文件管理子系統(tǒng)中可實(shí)現(xiàn)對(duì)電子文件的處置、檢索、期刊制作、在線查閱、離線下載等管理和利用。

      3 系統(tǒng)功能設(shè)計(jì)

      3.1 網(wǎng)頁(yè)文件采集子系統(tǒng)

      網(wǎng)頁(yè)文件采集子系統(tǒng)在對(duì)網(wǎng)頁(yè)文件進(jìn)行采集時(shí),不僅實(shí)現(xiàn)對(duì)目標(biāo)網(wǎng)站的定點(diǎn)定時(shí)定層抓取,同時(shí)還要完成對(duì)數(shù)據(jù)的分析和處理,為文件入庫(kù)和管理做好準(zhǔn)備,網(wǎng)頁(yè)電子文件采集子系統(tǒng)的軟件結(jié)構(gòu)設(shè)計(jì)如圖3所示:

      圖3 網(wǎng)頁(yè)文件采集子系統(tǒng)的軟件結(jié)構(gòu)圖

      (1)、網(wǎng)頁(yè)爬取引擎

      網(wǎng)頁(yè)爬取引擎是基于 Firefox 內(nèi)核的爬取組件,采用XULRunner1.9 瀏覽器內(nèi)核作為頁(yè)面渲染的核心組件,負(fù)責(zé)對(duì)指定URL地址的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行爬取,利用JavaScript為頁(yè)面分析腳本,采用正則表達(dá)式的數(shù)據(jù)提取模型實(shí)現(xiàn)高復(fù)雜頁(yè)面的分析及內(nèi)容提取。

      (2)、爬蟲控制器

      爬蟲控制器是網(wǎng)頁(yè)采集器的遠(yuǎn)程控制和監(jiān)控的基本入口,支持基于HTTP模式JSON數(shù)據(jù)格式,以及基于Web Service服務(wù)XML格式的遠(yuǎn)程控制接口實(shí)現(xiàn),是實(shí)現(xiàn)爬蟲任務(wù)、爬蟲任務(wù)隊(duì)列、爬取策略等功能的控制接口。

      (3)、網(wǎng)頁(yè)代理服務(wù)器

      網(wǎng)頁(yè)代理服務(wù)器,是對(duì)爬取到的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行“風(fēng)貌”還原的基本支撐模塊,主要負(fù)責(zé)將“原始”網(wǎng)頁(yè)信息進(jìn)行鏈接的重置及資源的去重工作。

      (4)、控制臺(tái)

      控制臺(tái)是業(yè)務(wù)管理人員的直接入口,通過控制臺(tái)對(duì)各個(gè)功能模塊中的參數(shù)進(jìn)行配置和管理,完成爬蟲的維護(hù)、監(jiān)控、管理等多種功能。實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)采集流程的運(yùn)行調(diào)控目的。

      3.2 OFD轉(zhuǎn)換子系統(tǒng)

      OFD轉(zhuǎn)換子系統(tǒng)實(shí)現(xiàn)對(duì)獲取到的原生態(tài)網(wǎng)頁(yè)文件的版式封裝與轉(zhuǎn)換。版式電子文件是一種用頁(yè)面化的形式固定呈現(xiàn)文本、圖形、圖像等信息的文件。出于交換、發(fā)布、存檔的目的,越來越多的電子文件被制作或轉(zhuǎn)換為版式文件。OFD的全稱為Open Fixed-layout Document Format,是為電子文件管理而制定的國(guó)家版式文檔格式規(guī)范。

      同樣是版式文件,與PDF文件格式不同,OFD具有獨(dú)特的存儲(chǔ)格式和對(duì)文件資源的組織方式。每個(gè)OFD文件都是一個(gè)基于XML標(biāo)準(zhǔn)的獨(dú)立數(shù)據(jù)包,采用ZIP壓縮格式,將所有數(shù)據(jù)封裝在一個(gè)包內(nèi)。其中的描述文件采用XML形式,置于包內(nèi)根目錄下,描述了包內(nèi)文件的格式、名稱和具體文件地址;通過XML描述文件,還可將多個(gè)網(wǎng)頁(yè)之間的鏈接和跳轉(zhuǎn)關(guān)系封裝在一個(gè)OFD文件包內(nèi)。這也就意味著在對(duì)網(wǎng)頁(yè)文件進(jìn)行OFD轉(zhuǎn)換時(shí)是非常靈活的,一個(gè)網(wǎng)頁(yè)可以封裝為一個(gè)OFD文件,多個(gè)網(wǎng)頁(yè)也可以封裝為一個(gè)OFD文件,甚至一個(gè)網(wǎng)站也可以封裝為一個(gè)OFD文件。充分保留網(wǎng)頁(yè)原有的層級(jí)和風(fēng)貌,特別適合于網(wǎng)頁(yè)電子文件的存儲(chǔ)和歸檔。

      OFD轉(zhuǎn)換子系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)比較獨(dú)立,與電子文件管理子系統(tǒng)是松耦合的集成關(guān)系。OFD轉(zhuǎn)換服務(wù)采用WEB服務(wù)的方式進(jìn)行部署,通過服務(wù)接口實(shí)現(xiàn)轉(zhuǎn)換任務(wù)的觸發(fā)和任務(wù)執(zhí)行狀況的查詢,并下載轉(zhuǎn)換完成后的OFD文件。OFD轉(zhuǎn)換子系統(tǒng)的軟件結(jié)構(gòu)設(shè)計(jì)如圖4所示:

      圖4 OFD轉(zhuǎn)換子系統(tǒng)軟件結(jié)構(gòu)圖

      (1)、格式解析組件

      獲取網(wǎng)頁(yè)數(shù)據(jù)源,并對(duì)頁(yè)面進(jìn)行拓?fù)浞治龊秃Y選清洗,同時(shí)獲取元數(shù)據(jù)。

      (2)、文件排版組件

      對(duì)網(wǎng)頁(yè)文件中的每一個(gè)“圖形符號(hào)單元”(可以是文字、圖形和圖像)進(jìn)行解析和精確定位,完成“版式效果”的頁(yè)面渲染和排版。

      (3)、版式轉(zhuǎn)換組件

      將排版結(jié)果轉(zhuǎn)化為對(duì)應(yīng)的OFD圖元,同時(shí)處理內(nèi)鏈接并對(duì)資源去重。將多個(gè)單頁(yè)OFD文件組合為一個(gè)多頁(yè)文件后,原先頁(yè)面之間基于URL的鏈接動(dòng)作,將被轉(zhuǎn)化為OFD文檔內(nèi)部的頁(yè)面跳轉(zhuǎn)動(dòng)作。合并完成后,同一個(gè)文檔不同頁(yè)面之間的跳轉(zhuǎn)在通用OFD閱讀器內(nèi)部就可以自主完成。此種OFD文件具有了完全的獨(dú)立性,因此,合并后的多頁(yè)OFD適用于作為網(wǎng)頁(yè)電子文件發(fā)布的載體,脫離電子文件系統(tǒng)而轉(zhuǎn)移到其他閱讀終端上進(jìn)行“離線”使用。

      (4)、后期處理組件

      對(duì)生成的OFD文件增補(bǔ)元數(shù)據(jù),同時(shí)在OFD形成的最后階段,對(duì)全文內(nèi)容進(jìn)行數(shù)字簽名,一方面可確保制作方對(duì)電子文件負(fù)責(zé)(防抵賴),另一方面是確保任何對(duì)此文件的修改能被有效檢測(cè)出來(防篡改)

      3.3 網(wǎng)頁(yè)文件管理子系統(tǒng)

      電子文件管理子系統(tǒng)通過如下功能模塊完成對(duì)電子文件的存儲(chǔ)、管理和利用:

      (1)、電子文件捕獲登記模塊

      獲取并管理網(wǎng)頁(yè)電子文件,為用戶提供風(fēng)貌類、內(nèi)容類、專題類三種維度的歸檔網(wǎng)頁(yè)在線查閱功能。

      (2)、電子文件元數(shù)據(jù)管理模塊

      獲取并管理時(shí)間、來源、標(biāo)題、作者等網(wǎng)頁(yè)電子文件相關(guān)元數(shù)據(jù)。

      (3)、分類方案管理模塊

      按照檔案領(lǐng)域標(biāo)準(zhǔn)的“宗-類-卷-件”模式,定義和管理網(wǎng)頁(yè)電子文件分類方案體系。

      (4)、鑒定處置管理模塊

      對(duì)網(wǎng)頁(yè)電子文件進(jìn)行銷毀、移交和續(xù)存。

      (5)、檢索利用管理模塊

      對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行全文檢索,并可根據(jù)個(gè)人興趣和需求,對(duì)歸檔網(wǎng)頁(yè)進(jìn)行靈活的自定義組卷封裝和打包,制作成期刊,供離線下載和閱讀。

      4 系統(tǒng)技術(shù)要點(diǎn)

      4.1 智能化采集與處理

      原生網(wǎng)頁(yè)信息的采集和前期處理是電子文件歸檔管理的第一環(huán)節(jié),也是非常重要的環(huán)節(jié)。面對(duì)海量網(wǎng)頁(yè)信息,靠人工進(jìn)行清洗和過濾是不現(xiàn)實(shí)的。高效、智能化的前期處理技術(shù),能夠大量減少人工干預(yù)的工作量,也是對(duì)獲取到的網(wǎng)頁(yè)信息進(jìn)行精確分類、管理和封裝的基礎(chǔ)。

      (1)、通過網(wǎng)站拓?fù)浣Y(jié)構(gòu)分析技術(shù),輔以部分javascript腳本規(guī)則模板,生成精確的分類導(dǎo)航樹,實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)內(nèi)容的自動(dòng)分類。

      (2)、通過目標(biāo)網(wǎng)頁(yè)內(nèi)容去噪和解析技術(shù),結(jié)合模板定制與匹配,實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)內(nèi)容元數(shù)據(jù)的采集。

      (3)、通過版本控制技術(shù),對(duì)目標(biāo)網(wǎng)頁(yè)進(jìn)行探測(cè)訪問,與已有頁(yè)面信息進(jìn)行對(duì)比,識(shí)別網(wǎng)頁(yè)的變化,并對(duì)網(wǎng)頁(yè)進(jìn)行版本唯一性控制和同網(wǎng)頁(yè)多版本的保存與記錄。

      (4)、通過對(duì)網(wǎng)頁(yè)內(nèi)容、內(nèi)嵌資源和相對(duì)鏈接地址進(jìn)行歸一化處理,將網(wǎng)頁(yè)轉(zhuǎn)換為本地靜態(tài)文件,保證鏈接的有效性和活性,以及網(wǎng)頁(yè)內(nèi)容及樣式的完整性。

      4.2 版式封裝與存儲(chǔ)

      封裝為OFD格式的版式網(wǎng)頁(yè)電子文件具有多項(xiàng)技術(shù)優(yōu)勢(shì)。

      (1)、設(shè)備無關(guān)性

      版式文件的共同優(yōu)勢(shì),即顯示格式與設(shè)備無關(guān),都能夠以固定版式保存和顯示源文件樣式與風(fēng)貌,具有顯示一致性優(yōu)勢(shì),支持不變形跑版的紙質(zhì)重現(xiàn),是電子文件歸檔的理想文件格式。

      (2)、格式開放和標(biāo)準(zhǔn)性

      特有的存儲(chǔ)和組織格式,采用通用、標(biāo)準(zhǔn)、開放的xml格式進(jìn)行描述,資源的保存和閱讀不依賴于信息系統(tǒng)的支持,既使失去初始開發(fā)團(tuán)隊(duì)的支持,數(shù)據(jù)依然可長(zhǎng)期被理解和使用。

      (3)、鏈接內(nèi)封裝

      通過一系列基于XML標(biāo)準(zhǔn)的描述文件,將網(wǎng)頁(yè)文件的鏈接和跳轉(zhuǎn)關(guān)系封裝在OFD文件內(nèi)部。

      (4)、可擴(kuò)展性

      特殊的組織結(jié)構(gòu)使OFD格式的網(wǎng)頁(yè)電子文件具有很強(qiáng)的擴(kuò)展性,利用起來更加靈活方便,無論是一個(gè)還是一千個(gè)網(wǎng)頁(yè),都能封裝為一個(gè)獨(dú)立的OFD格式電子文件;并且同一個(gè)包內(nèi)的組件資源能夠得到復(fù)用,消除資源冗余,提升空間利用率,非常適用于網(wǎng)頁(yè)電子文件的保存。

      (5)、流式閱讀

      支持對(duì)版式文件的流式閱讀,大文件的打開速度更快,而且更具安全性。

      4.3 多維度分類方案

      參照紙質(zhì)檔案的管理模式,將網(wǎng)頁(yè)電子文件的管理與檔案管理標(biāo)準(zhǔn)進(jìn)行了有機(jī)的結(jié)合。其技術(shù)要點(diǎn)在于對(duì)歸檔網(wǎng)頁(yè)分類方案的設(shè)計(jì),清晰明確的分類方案是電子文件管理系統(tǒng)的核心和基礎(chǔ),體現(xiàn)文件的聚合層次和有機(jī)聯(lián)系。方案設(shè)計(jì)遵循傳統(tǒng)檔案管理領(lǐng)域的規(guī)范和標(biāo)準(zhǔn),按照“宗—類(目)—卷—件”序列對(duì)歸檔網(wǎng)頁(yè)進(jìn)行分類,系統(tǒng)基于預(yù)先定義好的分類方案對(duì)電子文件進(jìn)行系統(tǒng)標(biāo)識(shí)和整理,繼而實(shí)現(xiàn)對(duì)電子文件的管理和利用。但是由于網(wǎng)頁(yè)的特殊性,在分類方案設(shè)計(jì)上又與傳統(tǒng)電子文件具有的創(chuàng)新性的變化。

      基于風(fēng)貌再現(xiàn)、信息留存的最初目標(biāo),同時(shí)考慮網(wǎng)頁(yè)電子文件的特殊性,在分類方案的實(shí)際應(yīng)用中,將最大組織單位“宗”定義為一個(gè)網(wǎng)站,即每個(gè)獨(dú)立的網(wǎng)站為一個(gè)全宗;將最小單位“件”定義為一個(gè)網(wǎng)頁(yè),即每個(gè)網(wǎng)頁(yè)文件為一件。結(jié)合對(duì)歸檔網(wǎng)頁(yè)的不同利用需求,在每個(gè)宗下,定義3個(gè)內(nèi)置的基礎(chǔ)類(目),既風(fēng)貌類、內(nèi)容類,以及專題類,對(duì)網(wǎng)站內(nèi)容進(jìn)行多維度的組織和分類。分類方案示意圖如圖5所示:

      圖5 歸檔網(wǎng)頁(yè)分類方案示意圖

      (1)、風(fēng)貌類

      風(fēng)貌類定義為對(duì)網(wǎng)站結(jié)構(gòu)、層級(jí)、樣式的原型克隆,完整保存網(wǎng)站的風(fēng)貌和瀏覽體驗(yàn)。由于網(wǎng)頁(yè)是不斷變化的,以首頁(yè)index為例,文件名不變的前提下,每天的內(nèi)容都不相同。基于該特點(diǎn),風(fēng)貌類網(wǎng)頁(yè)的組織確定為以時(shí)間為軸,如以每年為一卷,每月為一子卷,之下再細(xì)分為每天一個(gè)子卷,以當(dāng)天的首頁(yè)OFD文件作為卷入口??梢园凑粘溄拥膶蛹?jí)依次點(diǎn)擊,還原一個(gè)真實(shí)完整的網(wǎng)站。

      (2)、內(nèi)容類

      內(nèi)容類的電子文件的保存與網(wǎng)站風(fēng)貌和層級(jí)結(jié)構(gòu)無關(guān),重在對(duì)信息內(nèi)容的全息保存和利用,因此內(nèi)容類網(wǎng)頁(yè)的組織確定為以內(nèi)容分類為軸,如新聞?lì)?、法?guī)類、政務(wù)類等等。不同的內(nèi)容分類構(gòu)成卷與子卷,每個(gè)網(wǎng)頁(yè)為一件。

      (3)、專題類

      除風(fēng)貌及常設(shè)欄目?jī)?nèi)容,每個(gè)網(wǎng)站都會(huì)有針對(duì)熱點(diǎn)推出的臨時(shí)性專題,每個(gè)專題都相當(dāng)于一個(gè)獨(dú)立的小型子站。對(duì)于此類專題,希望能夠風(fēng)貌與內(nèi)容兼得,此類需求歸入專題類,以每個(gè)獨(dú)立的專題為單位對(duì)網(wǎng)頁(yè)電子文件進(jìn)行保留原層次結(jié)構(gòu)的內(nèi)容組織和管理。

      5 總結(jié)

      此次工作是對(duì)網(wǎng)頁(yè)歸檔領(lǐng)域一次探索性的研究和實(shí)踐,嘗試性地對(duì)“網(wǎng)頁(yè)的檔案式管理”、“網(wǎng)頁(yè)內(nèi)鏈接的保存”、“網(wǎng)頁(yè)之間關(guān)聯(lián)性與層級(jí)架構(gòu)的重現(xiàn)”等問題提出了初步的解決方案,待解決的問題還很多。網(wǎng)站建設(shè)的技術(shù)是非常復(fù)雜多樣和千差萬別的,因此在本次系統(tǒng)設(shè)計(jì)上基于基礎(chǔ)性、先導(dǎo)性、通用化、產(chǎn)品化的原則,首先支持對(duì)絕大多數(shù)常見和通用網(wǎng)站架構(gòu)及網(wǎng)頁(yè)格式的采集和管理。對(duì)于網(wǎng)頁(yè)信息元素的采集與轉(zhuǎn)化,還需在技術(shù)上進(jìn)一步完善,并且配套制定相關(guān)標(biāo)準(zhǔn),持續(xù)推進(jìn)對(duì)網(wǎng)頁(yè)文件這類重要數(shù)字資源的保存和利用。

      [1] 張欣,李哲.對(duì)數(shù)字化檔案法律地位的認(rèn)識(shí)[J].蘭臺(tái)世界.2010,4:28-30.

      [2] DA/T 1-2000《檔案工作基本術(shù)語(yǔ)》[S].中華人民共和國(guó)檔案行業(yè)標(biāo)準(zhǔn).國(guó)家檔案局歸口.

      [3] GB/T XXXX-2008《文書檔案案卷格式》[S].中華人民共和國(guó)國(guó)家標(biāo)準(zhǔn).國(guó)家檔案局歸口.

      [4] GB/T 18894-201X《電子文件歸檔與電子檔案管理規(guī)范》[S].中華人民共和國(guó)檔案行業(yè)標(biāo)準(zhǔn)國(guó)家檔案局歸口.

      [5] 劉青,孔凡蓮.中國(guó)網(wǎng)絡(luò)信息存檔及其與國(guó)外的比較—基于國(guó)家圖書館 WICP項(xiàng)目的研究[J].圖書情報(bào)工作,2013,18:80-87.

      [6] 安琳.國(guó)外網(wǎng)頁(yè)信息存檔項(xiàng)目及相關(guān)問題研究[J].圖書館建設(shè),2009,12:107-110.

      [7] 楊道玲,于施洋.國(guó)外政府網(wǎng)站保存實(shí)踐與思考[J].中國(guó)檔案,2007,07:64-65.

      [8] 趙俊玲.國(guó)外關(guān)于網(wǎng)絡(luò)信息資源保存的研究[J].中國(guó)圖書館學(xué)報(bào)2004,3:80-83.

      [9] 呂艷飛.中美網(wǎng)絡(luò)信息資源長(zhǎng)期保存項(xiàng)目比較研究[D].重慶:重慶西南大學(xué),2012.

      [10] 鄧青.國(guó)外圖書館政府網(wǎng)站信息保存的實(shí)踐與啟示[J].圖書館建設(shè),2012,12:32-35.

      [11] 劉桂玲,顧炳中.網(wǎng)站網(wǎng)頁(yè)歸檔相關(guān)問題初步探討[J].國(guó)土資源信息化,2012,3:69-71.

      [12] 魏佳.我國(guó)網(wǎng)絡(luò)信息資源永久保存策略研究[D].沈陽(yáng):遼寧師范大學(xué),2012.

      [13] 張小芳.數(shù)字信息資源長(zhǎng)期保存體系研究[J].四川圖書館學(xué)報(bào),2011,05:44-45.

      [14] 李丹.網(wǎng)絡(luò)信息資源長(zhǎng)期保存的采集模式和程序[J].檔案,2010,02:43-44.

      [15] 付光宇,劉克偉.試論網(wǎng)絡(luò)信息資源的采集策略[J].網(wǎng)絡(luò)財(cái)富,2008,09:200-201.

      V249 文獻(xiàn)標(biāo)志碼:A

      2015.04.20)

      1007-757X(2015)08-0071-03

      咸容禹(1973-)女,漢族,長(zhǎng)春人,國(guó)土資源部信息中心,副研究員,碩士研究生,研究方向:信息技術(shù)工程,北京,100812李佳臨(1988-)男,漢族,北京人,國(guó)土資源部信息中心,助理研究員,本科、研究方向:國(guó)土資源信息技術(shù)工程,國(guó)土資源部信息中心,北京,100812陶 偉(1983-)男,漢族,貴陽(yáng)人,國(guó)土資源部信息中心,助理研究員,本科,研究方向:國(guó)土資源信息技術(shù)工程國(guó)土資源部信息中心,北京,100812

      猜你喜歡
      網(wǎng)頁(yè)分類信息
      分類算一算
      分類討論求坐標(biāo)
      基于CSS的網(wǎng)頁(yè)導(dǎo)航欄的設(shè)計(jì)
      電子制作(2018年10期)2018-08-04 03:24:38
      數(shù)據(jù)分析中的分類討論
      教你一招:數(shù)的分類
      訂閱信息
      中華手工(2017年2期)2017-06-06 23:00:31
      基于URL和網(wǎng)頁(yè)類型的網(wǎng)頁(yè)信息采集研究
      電子制作(2017年2期)2017-05-17 03:54:56
      網(wǎng)頁(yè)制作在英語(yǔ)教學(xué)中的應(yīng)用
      展會(huì)信息
      10個(gè)必知的網(wǎng)頁(yè)設(shè)計(jì)術(shù)語(yǔ)
      松阳县| 图们市| 土默特左旗| 沂水县| 偃师市| 英吉沙县| 淮滨县| 建阳市| 阿克苏市| 高唐县| 基隆市| 武强县| 溆浦县| 辽阳县| 嘉峪关市| 夏河县| 连云港市| 镇江市| 富源县| 澳门| 松溪县| 大渡口区| 资兴市| 平罗县| 霸州市| 洪雅县| 抚州市| 西乌| 汪清县| 徐汇区| 四子王旗| 新蔡县| 永兴县| 屏山县| 筠连县| 奉新县| 六安市| 澄城县| 奈曼旗| 元氏县| 彭水|