魏大威 季士妍
(國家圖書館 北京 100081)
網(wǎng)絡(luò)信息記錄和反映了一個時代的發(fā)展和變化,互聯(lián)網(wǎng)是一個社會信息大平臺,億萬網(wǎng)民在上面獲得信息、交流信息,特別是伴隨5G網(wǎng)絡(luò)和智能終端的發(fā)展普及,網(wǎng)絡(luò)信息資源已成為人類社會重要的信息載體,與傳統(tǒng)文獻(xiàn)相比,其承載的文化內(nèi)容更加豐富多樣,而且體量龐大、格式異構(gòu),呈現(xiàn)出明顯的大數(shù)據(jù)特征。中國互聯(lián)網(wǎng)絡(luò)信息中心(China Internet Network Information Center,CNNIC)發(fā)布的第45次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示[1],截至2020年3月,我國網(wǎng)民規(guī)模達(dá)9.04億,較2018年底增長7 508萬;互聯(lián)網(wǎng)普及率達(dá)64.5%,較2018年底提升4.9個百分點(diǎn);網(wǎng)絡(luò)視頻(含短視頻)用戶規(guī)模達(dá)8.50億,較2018年底增長1.26億;短視頻用戶規(guī)模為7.73億,占網(wǎng)民總數(shù)的85.6%。與網(wǎng)民用戶數(shù)量逐年遞增的趨勢相比,我國網(wǎng)站數(shù)量則呈逐年下降的趨勢。截至2019年12月,我國網(wǎng)站數(shù)量為497萬個,較2018年底減少5.1%,而同期的網(wǎng)頁數(shù)量是2 978億個,較2018年底增長5.8%。網(wǎng)絡(luò)信息資源的易變性、不穩(wěn)定性、流動性、不可再生性以及對軟硬件環(huán)境的強(qiáng)依賴性,決定了其存在的短暫性,導(dǎo)致長期保存難度極大。據(jù)統(tǒng)計(jì),平均每周大約有2%的網(wǎng)頁會消失[2]。如果不采取積極有效的保存措施,不僅會造成信息價值的嚴(yán)重浪費(fèi),同時也不利于文化和文明的傳承。要更好地留存時代的記憶,及時完整地保存網(wǎng)絡(luò)信息資源非常重要。
保存與利用網(wǎng)絡(luò)信息資源是互聯(lián)網(wǎng)時代國家圖書館傳承與保護(hù)網(wǎng)絡(luò)文化成果、了解和掌握時代發(fā)展、促進(jìn)科學(xué)研究與應(yīng)用的重要工作與研究重點(diǎn)。國家圖書館從2003年開始探索網(wǎng)絡(luò)信息資源保存實(shí)踐,2009年成立了“國家圖書館互聯(lián)網(wǎng)信息保存保護(hù)中心”[3],一直致力于網(wǎng)絡(luò)信息資源的采集、保存、管理與利用。
國家圖書館的網(wǎng)絡(luò)信息資源采集與保存工作始于2003年,年初國家圖書館成立網(wǎng)絡(luò)文獻(xiàn)收集與保存試驗(yàn)小組,正式啟動“網(wǎng)絡(luò)信息采集與保存”(Web Information Collection and Preservation,WICP)試驗(yàn)項(xiàng)目,利用網(wǎng)絡(luò)機(jī)器人自動收集與存取的方式,開始嘗試對互聯(lián)網(wǎng)上關(guān)于中國發(fā)生的具有較大影響力的重特大事件進(jìn)行專題收集。2005年國家圖書館網(wǎng)絡(luò)信息采集成果服務(wù)網(wǎng)站上線,提供熱點(diǎn)專題和政府網(wǎng)站存檔資源瀏覽服務(wù)[4]。2007年國家圖書館正式加入國際互聯(lián)網(wǎng)保存聯(lián)盟(International Internet Preservation Consortium,IIPC),基于國際通用的標(biāo)準(zhǔn)和技術(shù)體系,開展國內(nèi)網(wǎng)絡(luò)信息資源采集與保存工作,進(jìn)而促進(jìn)了該項(xiàng)工作的國際化和標(biāo)準(zhǔn)化進(jìn)程;2009年成立國家圖書館互聯(lián)網(wǎng)信息保存保護(hù)中心;2014年開始聯(lián)合全國圖書館,共同開展網(wǎng)絡(luò)信息資源的采集與保存工作。經(jīng)過近二十年的持續(xù)研究探索與發(fā)展建設(shè),國家圖書館建立起了較為完整的網(wǎng)絡(luò)資源保存體系,將全面保存與重點(diǎn)保存有機(jī)結(jié)合,在保存的基礎(chǔ)上面向不同用戶和群體提供網(wǎng)絡(luò)資源的整合與揭示服務(wù)。
隨著網(wǎng)絡(luò)技術(shù)的普及與發(fā)展,網(wǎng)站及網(wǎng)頁資源呈爆發(fā)性增長,這對網(wǎng)絡(luò)信息資源的采集、存儲與管理提出了巨大挑戰(zhàn)。通過對中國互聯(lián)網(wǎng)絡(luò)信息中心多年來發(fā)布的《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[5]的對比分析可見,從2006年開始,我國網(wǎng)站數(shù)量呈現(xiàn)快速增長趨勢,從2006年的84萬個增長到最高值533萬個(2017年)。雖然網(wǎng)站數(shù)量在2010年出現(xiàn)了大幅下降,從2018年開始緩慢下降,但是與之相對應(yīng)的年份網(wǎng)頁數(shù)量卻保持持續(xù)穩(wěn)定增長態(tài)勢,由2006年的45億增長到2019年的2 978億。網(wǎng)站及網(wǎng)頁數(shù)量變化對比最強(qiáng)烈的是2010年,網(wǎng)站數(shù)量較上一年減少40%,而網(wǎng)頁數(shù)量卻較上一年增長78.5%。由此可見,網(wǎng)絡(luò)信息資源體量龐大,面對海量的網(wǎng)絡(luò)信息資源,如何克服存儲空間、時間限制以及經(jīng)費(fèi)人力等因素的影響,合理有效地制定網(wǎng)絡(luò)信息資源采集策略和保存管理方案,是對網(wǎng)絡(luò)信息資源采集機(jī)構(gòu)的一個重大挑戰(zhàn)。
圖1 歷年中國網(wǎng)站數(shù)量
國家圖書館通過多年的采集經(jīng)驗(yàn)積累及規(guī)律摸索,結(jié)合多角度檢測等方式,逐步形成了一套采集策略——全域采集與領(lǐng)域采集相結(jié)合、存檔采集與內(nèi)容采集相結(jié)合。國家圖書館針對國內(nèi)外網(wǎng)站采用全域采集策略,通過固定時間段內(nèi)多次采集的模式保證采集數(shù)據(jù)的完整性,減少數(shù)據(jù)缺漏,以形成完備的國內(nèi)外網(wǎng)站資源庫;針對專題類網(wǎng)站采用領(lǐng)域采集策略,通過實(shí)時采集、固定時間段內(nèi)多次采集、單次采集等相結(jié)合的模式,形成精準(zhǔn)化的專題網(wǎng)絡(luò)資源庫。在全域采集以及領(lǐng)域采集中,國家圖書館通過存檔采集將網(wǎng)站的原貌全部采集保存下來,實(shí)現(xiàn)目標(biāo)網(wǎng)站的完整存檔級保存;針對特定內(nèi)容的采集,采用內(nèi)容采集策略精準(zhǔn)地將網(wǎng)頁中的文字及相關(guān)的圖片、文字類附件進(jìn)行采集和保存,實(shí)現(xiàn)目標(biāo)網(wǎng)站的精準(zhǔn)化內(nèi)容保存。
圖2 歷年中國網(wǎng)頁數(shù)量
截至目前,國家圖書館的網(wǎng)絡(luò)信息資源采集與保存業(yè)務(wù),已形成涵蓋國內(nèi)外政治、經(jīng)濟(jì)、社會、文化、科技等領(lǐng)域重要網(wǎng)站和重大專題網(wǎng)絡(luò)資源的特色化網(wǎng)絡(luò)資源保存體系,累計(jì)采集保存國內(nèi)外網(wǎng)站超過5萬余個/次、專題網(wǎng)絡(luò)資源超過300個,保存數(shù)據(jù)量達(dá)到300TB。
網(wǎng)絡(luò)信息采集與保存涉及較為復(fù)雜的技術(shù)問題,包括網(wǎng)絡(luò)資源多版本管理、網(wǎng)絡(luò)資源重要性評估、網(wǎng)頁資源的深層挖掘等,因參與采集的各個機(jī)構(gòu)的技術(shù)架構(gòu)不同,其采用的基礎(chǔ)技術(shù)策略和采集方法均不相同。國家圖書館從2005年開始即基于開源軟件Heritrix進(jìn)行了采集、編目和保存。Heritrix是基于JAVA語言開發(fā)的開源網(wǎng)絡(luò)資源采集獲取工具,是IIPC一直在研發(fā)、優(yōu)化、推廣的開源工具,支持網(wǎng)絡(luò)資源采集的爬蟲定義和網(wǎng)頁過濾技術(shù),具有較為高效的可配置功能。在實(shí)際工作中,國家圖書館根據(jù)采集目標(biāo)網(wǎng)站多類、采集策略多樣、更新頻率不一致以及存檔網(wǎng)站保存的需要,對Heritrix做了定制開發(fā),對中文網(wǎng)站、專題網(wǎng)頁以及政府公開信息采用普遍性采集與定制化采集相結(jié)合的方式。
隨著全國范圍內(nèi)多個圖書館參與網(wǎng)絡(luò)信息資源保存工作,業(yè)界迫切需要一個規(guī)范性、開放性、共享性的軟件平臺,以適應(yīng)不同基礎(chǔ)硬件環(huán)境的圖書館的網(wǎng)絡(luò)信息采集業(yè)務(wù)需求,支撐多個圖書館基于同一軟件平臺共同開展網(wǎng)絡(luò)資源采集和保存工作,共同促進(jìn)我國網(wǎng)絡(luò)資源保存事業(yè)的發(fā)展。因此,國家圖書館利用虛擬化技術(shù),擴(kuò)展采集服務(wù)器組成服務(wù)器集群,形成大規(guī)模的分布式采集架構(gòu),提升采集效率;利用分布式文件技術(shù)實(shí)現(xiàn)數(shù)據(jù)的存儲管理,使用彈性HASH散列分布算法解決單點(diǎn)故障問題,實(shí)現(xiàn)多節(jié)點(diǎn)的負(fù)載均衡隨機(jī)可控,提高采集系統(tǒng)的吞吐量,進(jìn)而整體提升網(wǎng)絡(luò)資源采集和保存系統(tǒng)的性能;建設(shè)了一個云共享式“網(wǎng)絡(luò)信息資源采集與保存平臺”,支持國家圖書館與多個圖書館(機(jī)構(gòu))開展共享式、分布式、協(xié)同式的網(wǎng)絡(luò)采集業(yè)務(wù),進(jìn)而整體提升網(wǎng)絡(luò)信息資源采集與保存的能力與規(guī)模。
近年來互聯(lián)網(wǎng)資源的發(fā)布方式和服務(wù)形式出現(xiàn)互動化、視頻化、移動化的趨勢,多種新式、復(fù)雜的資源服務(wù)技術(shù)被采用,圖書館需要持續(xù)地對采集技術(shù)進(jìn)行更新和升級,來應(yīng)對復(fù)雜網(wǎng)絡(luò)架構(gòu)的解析、大數(shù)據(jù)網(wǎng)絡(luò)信息的抓取、混合多維業(yè)務(wù)請求的解構(gòu)以及網(wǎng)絡(luò)技術(shù)的高速迭代等挑戰(zhàn)。因此,國家圖書館持續(xù)地對“網(wǎng)絡(luò)信息資源采集與保存平臺”進(jìn)行技術(shù)更新,創(chuàng)新了網(wǎng)絡(luò)資源采集和資源管理的算法及策略,實(shí)現(xiàn)了網(wǎng)絡(luò)資源全站采集、增量采集(精準(zhǔn)采集發(fā)生變化的網(wǎng)站內(nèi)容)的功能;通過精準(zhǔn)化時間節(jié)點(diǎn)管理,實(shí)現(xiàn)對采集到的網(wǎng)絡(luò)資源的節(jié)點(diǎn)化控制;通過復(fù)雜關(guān)系控制以及結(jié)構(gòu)重構(gòu),實(shí)現(xiàn)精準(zhǔn)化時間節(jié)點(diǎn)的網(wǎng)絡(luò)資源增量回放功能。此外,國家圖書館通過對移動互聯(lián)網(wǎng)應(yīng)用的分析以及應(yīng)用視頻分析和視頻抓取技術(shù),定制實(shí)現(xiàn)了互聯(lián)網(wǎng)WAP資源、網(wǎng)絡(luò)資源中各種格式的音視頻的采集、本地保存和流暢回放,以此應(yīng)對當(dāng)前互聯(lián)網(wǎng)資源移動短視頻化、“視頻+”的趨勢,更好地凸顯了網(wǎng)絡(luò)信息資源保存的意義和價值。
國家圖書館基于自有的網(wǎng)絡(luò)信息資源采集和保存的業(yè)務(wù)特點(diǎn)和業(yè)務(wù)管理需求,在網(wǎng)絡(luò)資源增量采集、數(shù)據(jù)管理以及精準(zhǔn)化時間節(jié)點(diǎn)控制的增量回放等功能上進(jìn)行了特別的程序定制開發(fā),設(shè)計(jì)了平臺的系統(tǒng)架構(gòu)和功能實(shí)現(xiàn),在平臺的技術(shù)實(shí)現(xiàn)路線上,采用IIPC采集框架進(jìn)行定制化功能開發(fā)。
3.1.1 既能全流程管控、又能一鍵化操作
IIPC框架提供的基礎(chǔ)性網(wǎng)絡(luò)信息資源采集和保存的整個業(yè)務(wù)流程,包括采集網(wǎng)站種子鏈接的部署、采集結(jié)果的匯總、采集完整信息的編目、索引文件的建立以及采集內(nèi)容的質(zhì)檢、采集網(wǎng)站的回放設(shè)置以及回放發(fā)布鏈接的配置等操作,這些均需業(yè)務(wù)人員進(jìn)行手動操作和干預(yù),并且這類工作經(jīng)常需要重復(fù)操作。隨著業(yè)務(wù)的持續(xù)發(fā)展,在網(wǎng)絡(luò)信息采集各個業(yè)務(wù)環(huán)節(jié)中產(chǎn)生及需要處理的數(shù)據(jù)量大幅增長,手動操作已經(jīng)無法滿足業(yè)務(wù)發(fā)展的需求。此外,圖書館中參與操作的業(yè)務(wù)人員的計(jì)算機(jī)操作水平相差較大,有些業(yè)務(wù)人員甚至不具備計(jì)算機(jī)操作基礎(chǔ),在網(wǎng)絡(luò)信息資源采集和保存的工作中存在很大的困難,嚴(yán)重阻礙了圖書館網(wǎng)絡(luò)信息資源采集和保存業(yè)務(wù)的推進(jìn)和發(fā)展。
國家圖書館構(gòu)建的網(wǎng)絡(luò)信息資源采集與保存平臺,很好地解決了網(wǎng)絡(luò)信息資源采集的完整業(yè)務(wù)流程控制和管理自動化問題,通過模塊化的形式,實(shí)現(xiàn)了將網(wǎng)絡(luò)信息資源采集和保存的完整流程切分成多個合理的、彼此有關(guān)聯(lián)的、個體相對獨(dú)立的業(yè)務(wù)模塊;通過可視化的操作界面,讓即使不具備網(wǎng)絡(luò)信息資源采集能力或計(jì)算機(jī)知識的業(yè)務(wù)人員也可以操作和完成工作,進(jìn)而最大程度降低平臺的操作難度,讓業(yè)務(wù)人員更專注于網(wǎng)絡(luò)信息資源的采集策略和內(nèi)容管理,明顯地降低了操作難度、規(guī)范了業(yè)務(wù)流程、提高了工作效率。
3.1.2 既能遵循國際標(biāo)準(zhǔn)、又能實(shí)現(xiàn)特定功能定制
網(wǎng)絡(luò)信息資源采集與保存平臺的資源采集、數(shù)據(jù)管理以及資源回放的功能實(shí)現(xiàn)均在遵循國際標(biāo)準(zhǔn)的框架下實(shí)現(xiàn)。這不但便于與業(yè)界進(jìn)行數(shù)據(jù)交換和共享,而且便于采集與保存技術(shù)的互通開放。此外平臺的技術(shù)架構(gòu)還具有延續(xù)性、發(fā)展性和開放性的特點(diǎn)。國家圖書館的網(wǎng)絡(luò)信息資源采集一直基于Heritrix架構(gòu)實(shí)現(xiàn)采集功能、基于OpenWayback實(shí)現(xiàn)網(wǎng)站回放功能。因此,平臺在技術(shù)升級和功能定制化開發(fā)中,繼續(xù)堅(jiān)持并沿用原有的開源框架,選用了該開源框架的最高版本(Heritrix 3.4版本);在此框架基礎(chǔ)上,采用SpringCloud微服務(wù)架構(gòu)進(jìn)行了多項(xiàng)功能定制開發(fā),可以在不影響完整架構(gòu)的基礎(chǔ)上隨時根據(jù)業(yè)務(wù)需要進(jìn)行新的定制功能開發(fā)與實(shí)現(xiàn)。
網(wǎng)絡(luò)信息資源采集與保存平臺的完整架構(gòu)實(shí)現(xiàn)層次化和模塊化構(gòu)建,可以根據(jù)不同機(jī)構(gòu)的網(wǎng)絡(luò)信息資源采集業(yè)務(wù)的需要,實(shí)現(xiàn)采集流程配置、采集參數(shù)管理以及采集、編目、審核與發(fā)布的完整流程的業(yè)務(wù)邏輯配置,能較好地滿足不同機(jī)構(gòu)的網(wǎng)絡(luò)信息資源采集需求。平臺的完整架構(gòu)采用開放架構(gòu)和流程模塊獨(dú)立架構(gòu),可以適應(yīng)不同機(jī)構(gòu)的服務(wù)器集群性能和網(wǎng)絡(luò)環(huán)境,對網(wǎng)絡(luò)信息資源采集機(jī)構(gòu)具有較好的普適性。此外,流程模塊獨(dú)立架構(gòu)為采集機(jī)構(gòu)提供了靈活的管理空間、個性化的采集策略定制以及定制化的存檔資源保存管理功能,能較好地滿足網(wǎng)絡(luò)信息資源采集的機(jī)構(gòu)個性化需求。
3.1.3 既能完整采集、又能精準(zhǔn)采集和增量回放
為了應(yīng)對網(wǎng)絡(luò)信息資源體量龐大、格式異構(gòu)、更新頻繁等挑戰(zhàn),網(wǎng)絡(luò)信息資源采集與保存平臺實(shí)現(xiàn)了技術(shù)突破,在采集技術(shù)、采集算法、存檔資源控制策略、網(wǎng)頁回放展示邏輯管理、存檔網(wǎng)站結(jié)構(gòu)重構(gòu)等方面均實(shí)現(xiàn)了創(chuàng)新。
該平臺在網(wǎng)絡(luò)資源采集功能上,既實(shí)現(xiàn)了對網(wǎng)站內(nèi)容的全站采集、完整采集,也實(shí)現(xiàn)了針對發(fā)生變化的網(wǎng)站內(nèi)容的增量采集,以及對指定網(wǎng)站或網(wǎng)頁的定位采集和精確采集;在采集資源保存方面,既實(shí)現(xiàn)了對每個網(wǎng)站不同版本的完整保存,也實(shí)現(xiàn)了對同一網(wǎng)站不同采集時間節(jié)點(diǎn)的增量保存和增量索引管理;在采集資源的保存格式上仍舊遵循國際標(biāo)準(zhǔn),采用WARC(Web Archiving File Format)[9]格式,但是突破了WARC格式打包文件的限制,將采集到的網(wǎng)站(網(wǎng)頁)資源以結(jié)構(gòu)化、索引化的模式進(jìn)行存儲和管理,實(shí)現(xiàn)了基于采集時間節(jié)點(diǎn)的存檔資源分布式存儲管理;在網(wǎng)站回放功能實(shí)現(xiàn)方面,在保持存檔網(wǎng)站完整內(nèi)容整體性回放的基礎(chǔ)上,創(chuàng)新實(shí)現(xiàn)了增量采集網(wǎng)頁內(nèi)容的完整、準(zhǔn)確回放展示,即所謂的增量回放功能。該功能通過復(fù)雜網(wǎng)頁層級關(guān)系控制以及結(jié)構(gòu)重構(gòu),實(shí)現(xiàn)了精準(zhǔn)化時間節(jié)點(diǎn)的網(wǎng)絡(luò)資源增量回放展示,不但達(dá)到采集和回放展示出來的網(wǎng)站中多層級、多鏈接的有效性和完整性,而且保障了增量回放展示的網(wǎng)頁沒有丟失、混亂、錯誤的情況發(fā)生。
網(wǎng)絡(luò)信息資源采集與保存平臺,采用分層架構(gòu)進(jìn)行構(gòu)建。對外服務(wù)層為面向用戶服務(wù)的UI交互界面層,為網(wǎng)絡(luò)信息資源采集管理業(yè)務(wù)人員提供方便快捷、可視化的使用界面,最大化降低平臺使用的技術(shù)要求;展示層進(jìn)行業(yè)務(wù)請求渲染和交互,采用異步 JavaScript 和 XML技術(shù),實(shí)現(xiàn)網(wǎng)頁異步更新;平臺服務(wù)層實(shí)現(xiàn)任務(wù)管理、性能優(yōu)化管理、參數(shù)配置、個性化定制等模塊化功能,并通過接口模式為其他層提供數(shù)據(jù)交互和功能支持;采集層應(yīng)用Heritrix爬蟲軟件,負(fù)責(zé)處理采集策劃設(shè)置、信息資源抓取、采集隊(duì)列管理、采集狀態(tài)監(jiān)測等核心業(yè)務(wù);存儲層負(fù)責(zé)對采集完成的數(shù)據(jù)進(jìn)行數(shù)據(jù)校驗(yàn)、數(shù)據(jù)保存以及采集時間節(jié)點(diǎn)的控制;運(yùn)行環(huán)境層則負(fù)責(zé)整個平臺的服務(wù)器資源和網(wǎng)絡(luò)資源的綜合性管理。
網(wǎng)絡(luò)信息資源采集與保存平臺實(shí)現(xiàn)的增量采集功能,是在完整采集網(wǎng)站內(nèi)容的基礎(chǔ)上,以采集新出現(xiàn)的網(wǎng)頁、變更的網(wǎng)頁為目標(biāo)的采集。這種采集模式可以有效節(jié)省采集服務(wù)器的存儲空間資源和網(wǎng)絡(luò)帶寬資源,縮短周期性采集整站的采集時間,大幅提高采集效率。增量采集業(yè)務(wù)有完整的工作流程,從采集源分析、采集目標(biāo)定位、采集種子隊(duì)列管理、增量采集資源保存管理到時間節(jié)點(diǎn)控制、增量采集片段化回放展示等一系列業(yè)務(wù)管理,均需要完整規(guī)劃和統(tǒng)一實(shí)現(xiàn)。
圖3 網(wǎng)絡(luò)信息資源采集與保存平臺架構(gòu)
網(wǎng)絡(luò)信息資源采集與保存平臺在Heritrix 3.4版本基礎(chǔ)上進(jìn)行了程序定制開發(fā)。依靠Heritrix 3.4的自有功能,實(shí)現(xiàn)網(wǎng)站內(nèi)容的完整采集和管理;依靠程序定制開發(fā),實(shí)現(xiàn)網(wǎng)站內(nèi)容增量采集和節(jié)點(diǎn)化管理,實(shí)現(xiàn)面向主流網(wǎng)站更新網(wǎng)頁的識別和采集,并保障增量采集內(nèi)容不重復(fù)、不遺漏、不混亂。所有采集到的網(wǎng)站內(nèi)容均以WARC格式進(jìn)行保存和管理。平臺使用默認(rèn)的WARCWriterProcessorwen文件處理器進(jìn)行網(wǎng)絡(luò)資源采集,并在此基礎(chǔ)上做增量采集文件的定制化開發(fā),平臺實(shí)現(xiàn)的增量采集業(yè)務(wù)流程如圖4所示。
圖4 增量采集業(yè)務(wù)流程圖
在采集源分析業(yè)務(wù)中,平臺首先判斷是否需要開展增量采集操作,如果不需要,則直接進(jìn)入全站完整采集業(yè)務(wù)流程中。如果判斷為增量采集業(yè)務(wù)需求,則要進(jìn)行采集目標(biāo)定位業(yè)務(wù)操作。首先獲取增量采集目標(biāo)網(wǎng)站中需要進(jìn)行比對的版本號,通過計(jì)算對當(dāng)前的CrawlURI和版本號內(nèi)的采集目標(biāo)進(jìn)行對比,如果文件存在,并且大小無變化,則說明這個采集對象不需要增量采集,直接返回結(jié)束狀態(tài)并跳過,這樣可以大大節(jié)省采集時間和存儲空間;如果文件不存在,或者文件存在但是與目標(biāo)相比較運(yùn)算結(jié)果發(fā)生了變化,則說明該采集對象需要進(jìn)行增量采集,下一步要明確采集對象和采集目標(biāo),后續(xù)將需要采集的URL放入采集隊(duì)列中,并且將當(dāng)前版本和URI等對象信息痕跡進(jìn)行保存。增量采集判斷的業(yè)務(wù)邏輯會根據(jù)采集源的情況循環(huán)執(zhí)行,直到采集源分析全部完成,進(jìn)入下一個采集操作流程。
平臺基于OpenWayback實(shí)現(xiàn)存檔資源管理和網(wǎng)站回放展示的完整業(yè)務(wù)管理,特別針對增量采集的特殊性進(jìn)行了功能定制開發(fā),實(shí)現(xiàn)增量采集資源保存管理、時間節(jié)點(diǎn)控制、增量采集片段化回放的定制功能。
圖5 增量回放業(yè)務(wù)流程
平臺采用索引機(jī)制對采集到的每個網(wǎng)站及網(wǎng)頁進(jìn)行管理,顆粒度包括網(wǎng)站整站、網(wǎng)頁以及頁面中的鏈接等;通過URL+采集批次標(biāo)記的方式實(shí)現(xiàn)時間節(jié)點(diǎn)化管理;在索引機(jī)制中,運(yùn)用算法和邏輯結(jié)構(gòu)定義等方法管理增量采集、增量保存的存檔資源,也實(shí)現(xiàn)了基于采集時間節(jié)點(diǎn)的存檔資源分布式存儲管理。
在網(wǎng)站內(nèi)容回放展示的功能實(shí)現(xiàn)上,采用精確化索引管理匹配增量采集網(wǎng)頁資源的模式,可以保證全站采集的網(wǎng)站內(nèi)容完整回放展示;獨(dú)創(chuàng)實(shí)現(xiàn)的網(wǎng)頁層級關(guān)系控制以及結(jié)構(gòu)重構(gòu)功能,可以實(shí)現(xiàn)任意時間節(jié)點(diǎn)增量采集網(wǎng)頁的回放展示;索引機(jī)制與時間節(jié)點(diǎn)相匹配的模式,可以大量減少存檔網(wǎng)站的冗余數(shù)據(jù),明顯提升網(wǎng)站回放展示的效率,保障增量回放展示網(wǎng)頁的準(zhǔn)確性、高效性。
表1 不同采集方式的采集效率比對
在實(shí)際采集業(yè)務(wù)操作中,針對同一網(wǎng)站采用全站采集和增量采集兩種不同的采集模式,平臺在采集容量和采集時長上有著明顯的差別;兩種采集方式所對應(yīng)的平臺的運(yùn)行時間和運(yùn)行效率也明顯不同,可以較為清晰地看出增量采集效率遠(yuǎn)遠(yuǎn)高于全站采集效率,較為顯著地縮短了采集周期,進(jìn)而可以保證采集內(nèi)容的時新性和時效性,能有效解決存儲空間不夠以及網(wǎng)絡(luò)帶寬有限等問題。
隨著技術(shù)和時代的發(fā)展,互聯(lián)網(wǎng)的信息傳播呈現(xiàn)出不同的態(tài)勢及特點(diǎn),新型的傳播架構(gòu)極大地激發(fā)了社會活力。特別是伴隨5G網(wǎng)絡(luò)的普及和智能終端的發(fā)展普及,移動短視頻高流量、高承載量和快速傳播的特點(diǎn)使得“視頻+”逐漸滲透到互聯(lián)網(wǎng)各行各業(yè),知識獲取輕量級、內(nèi)容消費(fèi)娛樂化,催生出了多樣化的網(wǎng)絡(luò)信息載體形態(tài),對網(wǎng)絡(luò)信息資源的保存與保護(hù)提出了更高的要求。國家圖書館要持續(xù)地發(fā)揮多年來網(wǎng)絡(luò)信息資源采集和保存的實(shí)踐經(jīng)驗(yàn),在網(wǎng)絡(luò)資源采集策略、采集范疇、采集技術(shù)、知識挖掘以及服務(wù)模式等方面進(jìn)行創(chuàng)新和發(fā)展,進(jìn)而提升網(wǎng)絡(luò)資源“保存”與“應(yīng)用”的價值。
技術(shù)創(chuàng)新的具體手段包括:對網(wǎng)絡(luò)信息資源采集及保存的關(guān)鍵技術(shù)進(jìn)行研究和追蹤,創(chuàng)新業(yè)務(wù)流程,提升工作效率;優(yōu)化算法和速度,提高并發(fā)數(shù)和系統(tǒng)的響應(yīng)速度,支持并滿足大規(guī)模用戶的同時操作。平臺在采集功能上要擴(kuò)充采集范圍,對移動互聯(lián)網(wǎng)和音視頻的采集應(yīng)具有普適性,能滿足日益增長的移動化資源的保存需求。在技術(shù)創(chuàng)新的加持下,網(wǎng)絡(luò)信息資源采集和保存的范疇在現(xiàn)有網(wǎng)頁資源為主的基礎(chǔ)上,將顯著增加音視頻資源、移動互聯(lián)網(wǎng)資源的采集范疇以及采集比重,實(shí)現(xiàn)對重點(diǎn)網(wǎng)站網(wǎng)頁資源的一年多次增量采集、對體現(xiàn)中國文化傳播的原生性音視頻資源的專題性采集、對只有移動服務(wù)的移動互聯(lián)網(wǎng)資源的普遍性采集。
技術(shù)創(chuàng)新手段的應(yīng)用,可以顯著提升國家圖書館網(wǎng)絡(luò)信息資源采集與保存平臺的適應(yīng)性和云服務(wù)性。具體包括:以云服務(wù)的模式支持多節(jié)點(diǎn)的接入,支持不同服務(wù)器規(guī)模的部署,支持多節(jié)點(diǎn)、多用戶的互聯(lián)互通;以微服務(wù)的模式,支持不同采集需求的技術(shù)實(shí)現(xiàn),特別是可以對技術(shù)各異的移動化資源采集進(jìn)行針對性功能實(shí)現(xiàn);最終構(gòu)建覆蓋全國各級圖書館的網(wǎng)絡(luò)資源分布式保存與服務(wù),引領(lǐng)全國多機(jī)構(gòu)共同參與網(wǎng)絡(luò)資源采集事業(yè)。
將語義分析、知識關(guān)聯(lián)、內(nèi)容挖掘等方法運(yùn)用于網(wǎng)絡(luò)信息資源的管理,可以明顯提升網(wǎng)絡(luò)信息資源的規(guī)范化管理、內(nèi)容化挖掘以及知識化建設(shè)能力;將網(wǎng)頁資源、政府開放信息、社交媒體資源以及開放獲取資源作為網(wǎng)絡(luò)信息資源的多來源,統(tǒng)一進(jìn)行組織管理和整合建設(shè),有助于整體建設(shè)多內(nèi)容、全載體、分主題的網(wǎng)絡(luò)信息資源全內(nèi)容體系。
變革網(wǎng)絡(luò)信息資源應(yīng)用與服務(wù)方式,提升網(wǎng)絡(luò)信息服務(wù)效果,通過資源推薦、快照保存、信息檢索、資源分類瀏覽等功能實(shí)現(xiàn)資源的有序組織與呈現(xiàn)、信息發(fā)現(xiàn)與檢索,通過知識庫向用戶介紹網(wǎng)絡(luò)信息保存相關(guān)知識和內(nèi)容,能夠有效增強(qiáng)服務(wù)能力,提升用戶體驗(yàn)。充分利用現(xiàn)代信息技術(shù),通過時間軸、地域軸、地圖、知識圖譜等可視化手段進(jìn)行資源展示與用戶交互,以熱門關(guān)鍵詞實(shí)現(xiàn)資源推薦檢索,可以豐富和優(yōu)化網(wǎng)絡(luò)信息資源的服務(wù)模式。
以5G為代表的新基建興起、發(fā)展并日漸普及,通過高帶寬、低時延、萬物互聯(lián)的方式應(yīng)用于人們生活的方方面面。視頻的使用更加普及、視頻的內(nèi)容及其呈現(xiàn)方式更加豐富;移動互聯(lián)網(wǎng)的應(yīng)用和服務(wù)將大大超越傳統(tǒng)互聯(lián)網(wǎng)應(yīng)用,甚至部分應(yīng)用與資源只在移動互聯(lián)網(wǎng)端呈現(xiàn);VR(虛擬現(xiàn)實(shí))、AR(增強(qiáng)現(xiàn)實(shí))等應(yīng)用廣泛普及。這些發(fā)展與變化都對網(wǎng)絡(luò)信息資源的采集與保存提出了新的要求。國家圖書館要持續(xù)強(qiáng)化科技創(chuàng)新突破,加快對網(wǎng)絡(luò)信息資源采集核心技術(shù)和應(yīng)用技術(shù)的協(xié)同攻關(guān);持續(xù)地關(guān)注與跟蹤國際互聯(lián)網(wǎng)界的技術(shù)發(fā)展和趨勢,通過參加業(yè)界年會、技術(shù)論壇交流、郵件互信、項(xiàng)目合作等方式與國內(nèi)外業(yè)界進(jìn)行緊密的聯(lián)系與合作,深入了解開源軟件Heritrix、OpenWayback的版本變化、技術(shù)功能以及功能定制開發(fā)的方法和技術(shù);在提升自身技術(shù)能力的同時,積極分享本館在這些軟件框架下的探索和實(shí)踐經(jīng)驗(yàn)。
在數(shù)字時代,5G和大數(shù)據(jù)、人工智能、云計(jì)算、邊緣計(jì)算等技術(shù)緊密結(jié)合,會為網(wǎng)絡(luò)信息資源采集與保存帶來新的發(fā)展思路和智慧化的工具手段。國家圖書館將在技術(shù)架構(gòu)構(gòu)建、采集策略智慧化管理、采集格式與管理、機(jī)器學(xué)習(xí)輔助自動編目和內(nèi)容管理、視頻內(nèi)容采集與保存、質(zhì)量監(jiān)控等方向,以多樣化的溝通和合作方式開展國際性、行業(yè)性交流,不斷完善網(wǎng)絡(luò)信息資源采集與保存體系建設(shè)。
國家圖書館會持續(xù)跟蹤國際互聯(lián)網(wǎng)采集技術(shù)的發(fā)展,著力加強(qiáng)在標(biāo)準(zhǔn)互聯(lián)互通、技術(shù)創(chuàng)新升級、服務(wù)智慧共享等方面的交流合作,從技術(shù)、策略、規(guī)范及智慧服務(wù)等方面多角度、多維度、多渠道地促進(jìn)中國互聯(lián)網(wǎng)信息采集與保存事業(yè)的發(fā)展與進(jìn)步。
(來稿時間:2020年11月)