• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      高校重要網(wǎng)頁(yè)信息采集歸檔實(shí)踐探析

      2017-01-31 04:27:39陳建平浙江工商大學(xué)
      浙江檔案 2017年9期
      關(guān)鍵詞:網(wǎng)頁(yè)技術(shù)人員工具

      陳建平/浙江工商大學(xué)

      高校重要網(wǎng)頁(yè)信息指高等院校在網(wǎng)絡(luò)上直接形成的、有保存價(jià)值的數(shù)字化信息資源,這些信息具有原始性、憑證性特點(diǎn),是“高校記憶”的重要組成部分,是數(shù)字時(shí)代高校檔案部門的重要收集內(nèi)容。高校重要網(wǎng)頁(yè)是一種不斷變化與更新的動(dòng)態(tài)資源,保持高速增長(zhǎng)的同時(shí)也大批消亡,若不及時(shí)采取措施進(jìn)行收集,其消亡之后再也無(wú)法獲取。因此,高校重要網(wǎng)頁(yè)信息采集歸檔重要而且緊迫。

      1 采集歸檔方式選擇

      高校重要網(wǎng)頁(yè)信息形式多樣,包括文本、圖像、音頻、視頻等多種表現(xiàn)方式;所屬網(wǎng)址雖不盡相同,但總體上所屬網(wǎng)站、版塊相對(duì)集中,較其他類別的重要網(wǎng)頁(yè)信息更易采集歸檔??紤]到高校重要網(wǎng)頁(yè)信息特點(diǎn)以及采集歸檔所需的人財(cái)物等因素,高校重要網(wǎng)頁(yè)信息采集歸檔一般采取網(wǎng)絡(luò)爬蟲收集和人工采集相結(jié)合的方式,以實(shí)現(xiàn)對(duì)有價(jià)值的網(wǎng)頁(yè)進(jìn)行采集、過(guò)濾、提取與批量上載等一體化歸檔工作流程。為此,高校檔案部門應(yīng)該配備相應(yīng)的專業(yè)技術(shù)人員,以及采集工具、計(jì)算機(jī)及存儲(chǔ)設(shè)備等軟硬件設(shè)施。

      2 采集歸檔流程分析

      首先,確定采集歸檔范圍,明確采集對(duì)象。高校檔案部門可以根據(jù)實(shí)際需要確定重要網(wǎng)頁(yè)信息歸檔范圍,以及歸檔網(wǎng)頁(yè)信息的保存方法。目前一些高校主要針對(duì)本校官方網(wǎng)站、各部門(處、室)、各學(xué)院辦公網(wǎng)站發(fā)布的動(dòng)態(tài)新聞以及各大主流媒體網(wǎng)站中有關(guān)本校的重大事件的報(bào)道進(jìn)行采集歸檔,如浙江大學(xué)以其官網(wǎng)上的浙大簡(jiǎn)訊版內(nèi)容塊作為采集歸檔的主要對(duì)象之一。關(guān)于歸檔網(wǎng)頁(yè)的保存方法,大多數(shù)高校選擇網(wǎng)頁(yè)快照。

      其次,確定采集歸檔標(biāo)準(zhǔn),設(shè)置采集模式。技術(shù)人員對(duì)采集對(duì)象的網(wǎng)站及頁(yè)面信息結(jié)構(gòu)進(jìn)行分析,在本地安裝采集軟件并設(shè)置采集模式。一般來(lái)說(shuō),采集軟件經(jīng)過(guò)設(shè)置可以自動(dòng)采集指定網(wǎng)站、所需版塊以及特定頁(yè)面,生成網(wǎng)站鏡像或網(wǎng)頁(yè)快照等,并獲取著錄所需的字段信息,比如題名、發(fā)布者、發(fā)布時(shí)間、來(lái)源網(wǎng)址等;同時(shí)采集軟件支持各種標(biāo)準(zhǔn)格式信息資源的采集,如HTML頁(yè)面、文件信息、表格、圖片、聲音、視頻等。借助采集軟件,技術(shù)人員對(duì)高校重要網(wǎng)頁(yè)與內(nèi)聯(lián)圖片進(jìn)行統(tǒng)一采集;在視頻文件采集過(guò)程中對(duì)關(guān)鍵幀進(jìn)行提取,生成高質(zhì)量無(wú)損壓縮影像;對(duì)單篇網(wǎng)頁(yè)及網(wǎng)站歷史數(shù)據(jù)進(jìn)行批量采集。

      再者,確定組件方式,整理入庫(kù)。技術(shù)人員對(duì)歸檔網(wǎng)頁(yè)信息的著錄性規(guī)范進(jìn)行審核,審核內(nèi)容包括題名命名規(guī)則、檔號(hào)自動(dòng)編制格式、元數(shù)據(jù)采集標(biāo)準(zhǔn)等,在此基礎(chǔ)上將采集的文本內(nèi)容批量上傳到全文數(shù)據(jù)庫(kù)中,實(shí)現(xiàn)內(nèi)容發(fā)布與全文檢索等利用服務(wù)。

      3 采集歸檔注意事項(xiàng)

      3.1 采集工具及標(biāo)準(zhǔn)問(wèn)題

      高校重要網(wǎng)頁(yè)采集歸檔是一個(gè)新興的課題,目前還沒(méi)有完美的采集工具和歸檔標(biāo)準(zhǔn)。檔案行政管理部門也沒(méi)有對(duì)采集工具進(jìn)行過(guò)測(cè)試,沒(méi)有推薦采集工具,更沒(méi)有出臺(tái)相應(yīng)的行業(yè)標(biāo)準(zhǔn)。為此,高校要根據(jù)實(shí)際情況選擇采集工具及標(biāo)準(zhǔn),并要考察工具能否保留網(wǎng)頁(yè)內(nèi)容的元數(shù)據(jù)和功能。

      3.2 采集鑒定及分類問(wèn)題

      采集工具經(jīng)過(guò)設(shè)置能夠自動(dòng)對(duì)相應(yīng)的網(wǎng)頁(yè)信息進(jìn)行采集,生成網(wǎng)頁(yè)檔案,并進(jìn)行初步分類。在此基礎(chǔ)上技術(shù)人員要對(duì)系統(tǒng)自動(dòng)生成的網(wǎng)頁(yè)檔案及其元數(shù)據(jù)信息進(jìn)行審核和完善;必要時(shí)要進(jìn)行全文閱覽,以便制作高質(zhì)量的著錄及標(biāo)引;還要進(jìn)行分類審核及完成入庫(kù)工作。

      3.3 采集質(zhì)量及數(shù)量問(wèn)題

      在采集歸檔實(shí)踐中,既要保證高校重要網(wǎng)頁(yè)信息的質(zhì)量,也要保證數(shù)量。目前的做法是,使用自動(dòng)過(guò)濾系統(tǒng)跟蹤目標(biāo)站點(diǎn),將網(wǎng)頁(yè)中的信息(如日期、標(biāo)題、作者、版塊等)提取出來(lái),再對(duì)采集工具設(shè)置自動(dòng)去重功能,實(shí)現(xiàn)信息自動(dòng)去重。在采集過(guò)程中,可以定義一個(gè)或多個(gè)主題詞,對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行過(guò)濾,較為精確地獲取與采集主題相關(guān)的網(wǎng)頁(yè)內(nèi)容;對(duì)于下載的網(wǎng)頁(yè),采集工具自動(dòng)進(jìn)行信息過(guò)濾,剔除廣告及其他無(wú)用的信息,智能提取有價(jià)值的信息內(nèi)容,生成網(wǎng)頁(yè)快照,用于歸檔保存。

      猜你喜歡
      網(wǎng)頁(yè)技術(shù)人員工具
      越南農(nóng)業(yè)管理和技術(shù)人員線上培訓(xùn)
      我國(guó)首批正高級(jí)船舶專業(yè)技術(shù)人員評(píng)出
      水上消防(2021年4期)2021-11-05 08:51:52
      企業(yè)技術(shù)人員能力評(píng)價(jià)的探索
      波比的工具
      波比的工具
      基于CSS的網(wǎng)頁(yè)導(dǎo)航欄的設(shè)計(jì)
      電子制作(2018年10期)2018-08-04 03:24:38
      “巧用”工具
      讀者(2017年18期)2017-08-29 21:22:03
      基于URL和網(wǎng)頁(yè)類型的網(wǎng)頁(yè)信息采集研究
      電子制作(2017年2期)2017-05-17 03:54:56
      網(wǎng)頁(yè)制作在英語(yǔ)教學(xué)中的應(yīng)用
      馬純棟:維修技術(shù)人員應(yīng)提高診斷儀的利用率
      宝清县| 广饶县| 新巴尔虎右旗| 玉林市| 阜新市| 水富县| 淮安市| 科尔| 虹口区| 山丹县| 德昌县| 大化| 泰和县| 于田县| 兴山县| 阿瓦提县| 乳山市| 隆林| 太和县| 彭州市| 从江县| 墨脱县| 水富县| 林州市| 刚察县| 抚远县| 莲花县| 临高县| 江安县| 新兴县| 华池县| 宜君县| 延长县| 佛冈县| 稻城县| 焦作市| 全南县| 黑山县| 称多县| 广安市| 额敏县|