• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      國內(nèi)外網(wǎng)頁存檔理論與實(shí)踐研究歷程與特征分析

      2022-03-30 23:23:59初彥伯王萍李依凝李佳恒
      現(xiàn)代情報(bào) 2022年4期

      初彥伯 王萍 李依凝 李佳恒

      作者簡介:初彥伯(1996-),男,博士研究生,研究方向:專利情報(bào)分析、專利情報(bào)挖掘。李依凝(1998-),女,碩士研究生,研究方向:信息資源管理。李佳恒(1994-),男,博士研究生,研究方向:信息資源管理。

      通訊作者:王萍(1965-),女,教授,博士生導(dǎo)師,研究方向:信息資源管理。

      摘 要:[目的/意義]存檔網(wǎng)頁具有憑證價(jià)值、情報(bào)價(jià)值及檔案價(jià)值。對國內(nèi)外網(wǎng)頁存檔研究歷程進(jìn)行梳理,以期對我國實(shí)踐項(xiàng)目的發(fā)展及后續(xù)研究提供借鑒及參考。[方法/過程]對1993年至今的國內(nèi)外網(wǎng)頁存檔文獻(xiàn)進(jìn)行研讀,參照OAIS模型,將國內(nèi)外網(wǎng)頁存檔研究整體劃分為4個(gè)階段,分別為初始研究階段、縱深發(fā)展階段、功能全面提升階段、智慧型實(shí)踐項(xiàng)目探索階段;將各階段發(fā)展概況及研究歷程進(jìn)行梳理,歸納階段性研究熱點(diǎn)及特征。[結(jié)果/結(jié)論]網(wǎng)頁存檔實(shí)踐項(xiàng)目以理論與實(shí)踐并行的方式發(fā)展。同時(shí),向智慧型實(shí)踐項(xiàng)目不斷探索。理論模型、系統(tǒng)框架、技術(shù)革新、資源采集方式、歸檔資源評估、資源開發(fā)利用及人工配置七者交融并互相促進(jìn),共同將存檔網(wǎng)頁資源推向深層化應(yīng)用。

      關(guān)鍵詞:網(wǎng)頁存檔;網(wǎng)頁保管;存檔網(wǎng)頁利用;網(wǎng)頁資源長期保存

      DOI:10.3969/j.issn.1008-0821.2022.04.014

      〔中圖分類號〕G250.1 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號〕1008-0821(2022)04-0153-15

      Abstract:[Purpose/Significance]The archived webpage has credential value,information value and archive value.The research process of home and abroad webpage archiving is sorted out,in order to provide reference and reference for the development and follow-up research of practical projects in my country.[Methods/Process]Referring to the OAIS model,and foreign web archive documents from 1993 to the present were studied,the domestic and foreign web archive research were divided into four stages,which ware the initial research stage,the in-depth development stage,the comprehensive function improvement stage,the exploration stage of the smart practical project;the development overview and research process of each stage are sorted out,and the characteristics of the staged research were summarized.[Results/Conclusions]The web archive practice project is developed in a parallel way of theory and practice.At the same time,continues to explore smart practical projects.Theoretical model,system framework,technological innovation,resource collection method,archive resource assessment,resource development and utilization,and manual configuration are blended and mutually promoted,and jointly push the archived web resources to deeper application.

      Key words:web archive;web hosting;archived web utilization;long-term preservation of web resouces

      隨著互聯(lián)網(wǎng)的普及、互聯(lián)網(wǎng)技術(shù)的日趨成熟,互聯(lián)網(wǎng)中的“網(wǎng)頁信息資源”已經(jīng)成為全球最大的信息資源庫。中國互聯(lián)網(wǎng)信息中心2021年2月3日發(fā)布的《中國互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》中的統(tǒng)計(jì)數(shù)據(jù)顯示,截至2020年12月,我國網(wǎng)民規(guī)模達(dá)到9.89億,較2020年3月增長了8 540萬,互聯(lián)網(wǎng)普及率達(dá)70.4%,我國互聯(lián)網(wǎng)行業(yè)在抵御新冠疫情和疫情常態(tài)化防控方面發(fā)揮了積極作用,為我國成為全球唯一實(shí)現(xiàn)經(jīng)濟(jì)正增長的主要經(jīng)濟(jì)體做出了重要貢獻(xiàn)[1]。網(wǎng)頁信息資源是一種動(dòng)態(tài)增長的、易逝的且不可再生的“原生性”網(wǎng)絡(luò)文獻(xiàn)[2],研究表明一個(gè)網(wǎng)頁的平均壽命只有44天[3],網(wǎng)頁中的高價(jià)值資源一旦消失便難以復(fù)原,將會(huì)給國家和社會(huì)文化資源的持久保存和歷史傳承造成難以挽回的損失。為此,需要學(xué)界更多關(guān)注并研究網(wǎng)頁存檔問題,實(shí)現(xiàn)網(wǎng)頁信息資源長期保存與持續(xù)利用。

      所謂網(wǎng)頁存檔(Web Archive,簡稱WA),又稱“網(wǎng)絡(luò)存檔”,是指一種在“原生性”網(wǎng)絡(luò)信息資源的整個(gè)生命周期內(nèi)對其進(jìn)行有目的的評價(jià)、選擇、采集、描述、元數(shù)據(jù)表示、存儲(chǔ)、發(fā)布和維護(hù)等一系列工作以確保其當(dāng)前可用和未來價(jià)值增值的管理活動(dòng)[4]。近年來,國內(nèi)外相關(guān)領(lǐng)域的專家學(xué)者投入了大量的精力和時(shí)間成本開展網(wǎng)絡(luò)存檔研究工作,不斷完善網(wǎng)絡(luò)存檔的理論研究并積極推進(jìn)實(shí)踐探索,相關(guān)研究內(nèi)容眾多,研究主題龐雜,研究質(zhì)量差異,使得有必要更好地了解國內(nèi)外網(wǎng)絡(luò)存檔的研究現(xiàn)狀,對國內(nèi)外網(wǎng)絡(luò)存檔研究進(jìn)行系統(tǒng)梳理,以期對我國相關(guān)研究提供借鑒和參考。

      1 研究方法

      本文采用文獻(xiàn)調(diào)研法,國內(nèi)文獻(xiàn)選取中國知網(wǎng)(http://www.cnki.net/)為國內(nèi)文獻(xiàn)檢索平臺(tái),選擇高級檢索方式,檢索條件的篇名中分別包含“網(wǎng)頁存檔”“網(wǎng)絡(luò)存檔”“網(wǎng)頁保存”“網(wǎng)絡(luò)信息資源長期保存”“Web Archive”“Web Archiving”等關(guān)鍵詞。國外文獻(xiàn)通過檢索Web of Science、Scopus等外文文獻(xiàn)數(shù)據(jù)庫,關(guān)鍵詞“Web Archive”“Web Archiving”“Internet Archive”等,經(jīng)過整理最后得到全部文獻(xiàn)637篇,其中國內(nèi)文獻(xiàn)294篇,國外文獻(xiàn)343篇。

      國外最早出現(xiàn)本關(guān)鍵詞相關(guān)文獻(xiàn)是1993年,國內(nèi)是1999年。國外最早的文獻(xiàn)是1993年C,SIMMONDS發(fā)表的SEARCHING INTERNET ARCHIVE SITES WITH ARCHIE-WHY,WHAT,WHERE,AND HOW一文。國內(nèi)外在1993—1999年共發(fā)文5篇,2000—2004年共發(fā)文17篇,2005—2012年共發(fā)文159篇,2012至今共發(fā)文456篇。由此可見,與“網(wǎng)頁存檔”相關(guān)主題地研究是以遞增的趨勢發(fā)展,說明一直以來都是國內(nèi)外眾多學(xué)者研究的重點(diǎn),從1993年至今的總體發(fā)文量曲線圖如圖1所示。

      可以發(fā)現(xiàn),國內(nèi)文獻(xiàn)總量為294篇,其中有25篇為碩士論文,沒有相關(guān)主題的博士論文,說明國內(nèi)對網(wǎng)頁存檔的研究還不夠深入。國內(nèi)總文獻(xiàn)量呈遞增趨勢,說明在國內(nèi)越來越多的專家學(xué)者投入精力完善網(wǎng)頁存檔的研究工作,隨著網(wǎng)絡(luò)技術(shù)研究的深入,未來會(huì)在此領(lǐng)域有大量新的研究文獻(xiàn)發(fā)表。

      國外從2003年開始文獻(xiàn)量大幅遞增,這與各個(gè)國家紛紛投入網(wǎng)頁存檔實(shí)踐項(xiàng)目有直接聯(lián)系。隨著實(shí)踐項(xiàng)目的不斷發(fā)展及完善,在采集、歸檔保存及長久保存過程中所使用技術(shù)的不斷更新,針對網(wǎng)頁存檔過程中涉及的核心技術(shù)進(jìn)行深入研究的文獻(xiàn)將變多,由此文獻(xiàn)總量呈明顯遞增趨勢。隨著公眾認(rèn)知增加、獲取途徑增多,新的未知問題將會(huì)不斷涌現(xiàn),未來網(wǎng)頁存檔將仍然是國外學(xué)者研究的熱點(diǎn)。

      在前述基礎(chǔ)之上,研讀國內(nèi)外相關(guān)主題文獻(xiàn),挑選時(shí)區(qū)研究重點(diǎn)主題,并結(jié)合現(xiàn)有研究進(jìn)行階段劃分。網(wǎng)頁歸檔實(shí)踐項(xiàng)目的進(jìn)展影響研究主題的更新,所以,本文還采用網(wǎng)站調(diào)查法和案例分析法,使用IIPC(國際互聯(lián)網(wǎng)保存聯(lián)盟)官方網(wǎng)站獲取最新資料。通過對國內(nèi)外網(wǎng)頁歸檔實(shí)踐項(xiàng)目的具體研究,從整個(gè)網(wǎng)頁歸檔的流程,其中包括:采集方式、采集頻率、技術(shù)方法、存檔內(nèi)容管理、系統(tǒng)平臺(tái)搭建、開源工具研發(fā)、責(zé)任體系構(gòu)建、法律及權(quán)利等角度作為出發(fā)點(diǎn),系統(tǒng)歸納并總結(jié)階段性研究熱點(diǎn),為劃分本文網(wǎng)頁存檔研究的階段提供了重要依據(jù)。

      雖然網(wǎng)頁存檔的理論研究始于1993年,但實(shí)踐研究則始于1996年。本文將網(wǎng)頁存檔研究歷史進(jìn)程共劃分為4個(gè)階段:第一階段(1996—2005)為網(wǎng)頁存檔初始項(xiàng)目研究,第二階段(2006—2010)為網(wǎng)頁存檔研究縱深發(fā)展,第三階段(2011—2014)為網(wǎng)頁存檔系統(tǒng)功能全面提升研究,第四階段(2015—至今)為探索智慧型網(wǎng)頁存檔實(shí)踐,圖2及圖3是1993年、1999年至今的國內(nèi)外相關(guān)文獻(xiàn)主題詞共現(xiàn)圖。

      本文在對國內(nèi)外近年相關(guān)研究文獻(xiàn)和網(wǎng)絡(luò)存檔項(xiàng)目調(diào)研的基礎(chǔ)上,參照OAIS模型,將各階段歸納為采集、管理、保存、利用4個(gè)主要階段[5],對每個(gè)階段的研究進(jìn)行細(xì)分。如圖4所示,以時(shí)間流逝線為主線,對1996年至今的網(wǎng)頁存檔相關(guān)主題研究進(jìn)行全方位梳理。

      2 網(wǎng)頁存檔實(shí)踐項(xiàng)目發(fā)展概況

      縱觀整個(gè)網(wǎng)頁存檔研究歷史進(jìn)程,1996年Internet Archive[6]的提出正式意味著網(wǎng)頁存檔實(shí)踐項(xiàng)目的興起。同年,澳大利亞建立Pandora項(xiàng)目[7],開發(fā)了“PANDAS”數(shù)字信息存檔系統(tǒng),項(xiàng)目保存澳大利亞境內(nèi)在線出版物,包括社會(huì)科學(xué)和自然科學(xué)、政治、宗教文化等方面的資源,建立與各州立圖書館的合作關(guān)系,在系統(tǒng)開發(fā)上,主要在數(shù)字對象存儲(chǔ)系統(tǒng)、數(shù)字對象管理系統(tǒng)及數(shù)字對象存檔系統(tǒng)3個(gè)領(lǐng)域進(jìn)行主要投入[8]。同年,瑞典建立Kulturarw3項(xiàng)目[9],收集瑞典頂級域“se”下的Web服務(wù)器及部分其他服務(wù)器的資源。

      1997年北歐圖書館在借鑒Kulturarw3項(xiàng)目的實(shí)踐經(jīng)驗(yàn)后,啟動(dòng)NWA項(xiàng)目[6],并成立專門的技術(shù)小組負(fù)責(zé)制定長期歸檔資源的保存、訪問等技術(shù)規(guī)格,逐步建立與北歐各國圖書館、整個(gè)歐洲地區(qū)的網(wǎng)頁存檔合作機(jī)制。同年,美國國會(huì)圖書館建立Minerva Prototype項(xiàng)目[10],對長期保存資源的數(shù)字化、元數(shù)據(jù)、選擇與采集、可獲取等問題進(jìn)行試驗(yàn),通過與Internet Archive項(xiàng)目合作,獲取“Wayback Mechine”及采集技術(shù),為收集的網(wǎng)頁資源進(jìn)行索引,同時(shí)提供短期的數(shù)據(jù)存儲(chǔ)服務(wù),用戶可以按照網(wǎng)站、日期或類別獲取資源。

      1999年新西蘭國家圖書館啟動(dòng)網(wǎng)頁存檔項(xiàng)目,對政府、歷史、醫(yī)學(xué)、音樂、政策等主題進(jìn)行選擇性采集[11],保存的資源內(nèi)容支持網(wǎng)址搜索、關(guān)鍵字搜索、字母搜索、主題瀏覽。2000年捷克國家圖書館建立WebArchiv項(xiàng)目,提出基于重大事件的采集方式。2001年挪威國家圖書館啟動(dòng)Paradigma項(xiàng)目,通過法定存繳框架對長期保存的資源進(jìn)行框定,并提供獲取服務(wù)[12]。同年英國國家檔案館開展網(wǎng)頁存檔項(xiàng)目并采取選擇性、事件、主題的收集方式對境內(nèi)網(wǎng)站進(jìn)行保存。在此項(xiàng)目中,部分內(nèi)容可追溯至1996年的英國中央政府網(wǎng)站[13]。

      2002年中國Web信息博物館(Web Infomall)由北京大學(xué)主持開發(fā),項(xiàng)目包括歷史網(wǎng)頁存儲(chǔ)系統(tǒng)及回放系統(tǒng)兩部分,使用網(wǎng)址鏈接的方式,瀏覽永久保存的網(wǎng)頁[14]。2003年我國網(wǎng)頁存檔實(shí)踐項(xiàng)目WICP(Web Information Collection and Preservation,網(wǎng)絡(luò)信息采集與保存)正式啟動(dòng),按照表層網(wǎng)及深層網(wǎng)分別進(jìn)行收集與保存,分別以鏡像存檔及專題存檔的方式,通過ODBN(On-line Database Navigation,網(wǎng)絡(luò)數(shù)據(jù)庫導(dǎo)航項(xiàng)目)進(jìn)行收集、整理、編目保存等操作之后,最終形成網(wǎng)絡(luò)導(dǎo)航展現(xiàn)使用。

      2003年IIPC(國際互聯(lián)網(wǎng)保存聯(lián)盟)成立,對世界范圍內(nèi)的網(wǎng)頁存檔實(shí)踐項(xiàng)目都有重要的推動(dòng)和借鑒作用。軟件技術(shù)方面的成果已收獲頗豐,開發(fā)了一系列工具,均是開源的、拓展性強(qiáng)、適用于不同的環(huán)境、適用于不同系統(tǒng)的保存[6],已可以滿足各國網(wǎng)頁存檔項(xiàng)目的部署應(yīng)用基本需求。2006年起,國內(nèi)學(xué)者在中文網(wǎng)絡(luò)信息資源的采集策略、法律、資金、組織與管理機(jī)制、中文網(wǎng)絡(luò)信息檔案館建設(shè)等問題方面提出更為先進(jìn)的構(gòu)想[15]。提出資源風(fēng)險(xiǎn)識(shí)別、深網(wǎng)采集、保存制度的深化、資源收集策略的更新、建立地方網(wǎng)絡(luò)信息保存中心等建議。

      截至2010年,國外網(wǎng)絡(luò)信息資源的采集與保存工作,已經(jīng)完成由技術(shù)支撐實(shí)踐運(yùn)行。尤其在采集和保存策略的開拓和實(shí)踐兩方面,積攢了大量的實(shí)踐經(jīng)驗(yàn),網(wǎng)頁存檔實(shí)踐項(xiàng)目參與主體、研究方式、項(xiàng)目狀況、保存內(nèi)容、技術(shù)標(biāo)準(zhǔn)、系統(tǒng)工具、法律政策、經(jīng)濟(jì)效益、合作機(jī)制等方面都有了不同程度的發(fā)展和完善;相比之下,我國還存在一定距離,充分借鑒國外的經(jīng)驗(yàn)的同時(shí),發(fā)展適宜我國國情的網(wǎng)頁存檔項(xiàng)目尤為重要。

      2011—2015年,由技術(shù)驅(qū)動(dòng)的網(wǎng)絡(luò)存檔,拉開系統(tǒng)功能全面升級的序幕,研究內(nèi)容聚焦于重新審視網(wǎng)頁存檔的初衷、系統(tǒng)架構(gòu)、軟件技術(shù)、法律法規(guī)、責(zé)任體系等。除此之外,出現(xiàn)了新興技術(shù)的崛起,例如,將云存儲(chǔ)技術(shù)應(yīng)用于網(wǎng)頁歸檔及新合作模式下的網(wǎng)頁歸檔。并且出現(xiàn)了一系列解決方案,例如采集內(nèi)容部分發(fā)現(xiàn)的學(xué)科分布不平衡、部分內(nèi)容缺乏權(quán)威性或?qū)W術(shù)價(jià)值、個(gè)人創(chuàng)作者選擇標(biāo)準(zhǔn)的應(yīng)用不清晰等。

      網(wǎng)頁存檔實(shí)踐項(xiàng)目整體已經(jīng)完成從實(shí)驗(yàn)、部署應(yīng)用以及系統(tǒng)平臺(tái)的全面升級。2015年起,開啟探索智慧型網(wǎng)頁存檔實(shí)踐項(xiàng)目的新篇章,基于社交媒體的網(wǎng)頁存檔如雨后春筍般出現(xiàn),自媒體類APP、微博等社交軟件的興起,對網(wǎng)頁存檔實(shí)施主體提出更大的挑戰(zhàn)。在此階段,突出主題是“存檔資源開發(fā)利用”,以存檔資源為原始數(shù)據(jù)進(jìn)行的研究逐漸變多,并有持續(xù)上漲的趨勢。例如:區(qū)塊鏈、云計(jì)算等新技術(shù)在網(wǎng)頁存檔中的應(yīng)用[16]將網(wǎng)頁存檔項(xiàng)目推向了智慧型階段,區(qū)塊鏈技術(shù)可以增強(qiáng)數(shù)據(jù)安全性、提高自動(dòng)化認(rèn)證能力、節(jié)約保存成本、提高審計(jì)效率且適用于協(xié)作保存網(wǎng)絡(luò)環(huán)境下,海量數(shù)字資源長期保存可信性認(rèn)證模式[17]。同時(shí),也出現(xiàn)了基于信息生命周期管理理論,重點(diǎn)分析網(wǎng)絡(luò)歸檔生命周期模型的結(jié)構(gòu)、內(nèi)容及優(yōu)勢的相關(guān)研究[18]。新合作模式、新技術(shù)、新系統(tǒng)架構(gòu)的設(shè)想、資源深層開發(fā)利用4個(gè)主題的出現(xiàn),標(biāo)志著智慧型網(wǎng)頁存檔階段正式開啟。

      3 研究歷程及代表性觀點(diǎn)

      3.1 資源采集

      2000年我國就有學(xué)者提出建立網(wǎng)上資源庫的設(shè)想[19],認(rèn)為創(chuàng)建網(wǎng)上信息資源庫,收集和保存網(wǎng)絡(luò)產(chǎn)生的信息資源能在“時(shí)間、空間和經(jīng)濟(jì)行為”三者之間進(jìn)行有效配置。這一想法啟發(fā)了楊道玲[20]提出網(wǎng)絡(luò)資源要及時(shí)、系統(tǒng)的采集,應(yīng)建立完善的數(shù)字資源呈繳本制度,以立法形式確保產(chǎn)生的網(wǎng)絡(luò)資源置于國家控制下。2003李春明等[21]在以上研究基礎(chǔ)之上提出為保證采集內(nèi)容的準(zhǔn)確性,應(yīng)先基于區(qū)域進(jìn)行模糊抽取,再基于正則表達(dá)式進(jìn)行精確抽取,兩種方法需要同時(shí)進(jìn)行。

      2004年趙俊玲[22]在提出在資源采集環(huán)節(jié)需要采用選擇性采集、全域采集等多種方式混合采集資源,在對美國國會(huì)圖書館開展的Minerva項(xiàng)目研究中,加深自己的研究,提出基于重大事件的采集方式,以此,能夠反映事件的全貌。同年,我國學(xué)者提出,對重大事件,如非典、人民代表大會(huì)進(jìn)行專題的收集[23],以上觀點(diǎn)不謀而合。難以收集資源所有歷史版本及隱藏的或動(dòng)態(tài)資源的難題一直困擾著網(wǎng)絡(luò)資源采集,Hiiragi W等[24]提出一個(gè)網(wǎng)絡(luò)歸檔的系統(tǒng)模型,按照提供網(wǎng)絡(luò)資源的個(gè)人或組織確定的資源歸檔策略來收集資源的,從技術(shù)上解決了此問題。2015年Gossen G等[25]通過整合社交網(wǎng)絡(luò)和聚焦網(wǎng)絡(luò)抓取來提高網(wǎng)絡(luò)收藏的新鮮度,提出通過一個(gè)新的集成的爬蟲,將網(wǎng)絡(luò)和社會(huì)媒體無縫地整合在一起,從而為一個(gè)感興趣的主題收集新鮮的、相關(guān)的網(wǎng)絡(luò)和社會(huì)網(wǎng)絡(luò)內(nèi)容。

      2016年陳為東等[26]在社交媒體資源進(jìn)行網(wǎng)絡(luò)存檔的基礎(chǔ)之上,從采集工具的角度出發(fā),提出社交媒體采集工具分為捕獲形式、插件技術(shù)、專門針對某一資源或社交媒體、保存對象、其他種類共5類,從API獨(dú)立性、采集內(nèi)容、適用對象、是否開源與是否免費(fèi)5個(gè)指標(biāo)比較了捕獲形式下以API獲取信息的7種工具。2017年張衛(wèi)東等[27]通過對歐盟FP7框架下發(fā)展成熟且具有代表性的社交媒體信息采集與保存項(xiàng)目ARCOMEM采用的信息采集機(jī)制、采集標(biāo)準(zhǔn)、采集策略和采集方法等方面予以深入剖析,提出了建立多元的組織協(xié)作采集機(jī)制、制定科學(xué)規(guī)范的采集標(biāo)準(zhǔn)、運(yùn)用多目標(biāo)驅(qū)動(dòng)的采集策略、開發(fā)智能化的采集方法,提出需要資源保存風(fēng)險(xiǎn)評估及控制的技術(shù)做出進(jìn)一步研究。

      3.2 資源管理

      關(guān)于采集數(shù)據(jù)管理問題,2006年陳清文[28]提出在管理方面,軟件、硬件、人力等因素需要經(jīng)濟(jì)費(fèi)用支撐,應(yīng)該重視經(jīng)濟(jì)效益,在長期保存管理策略也提出了提高全民意識(shí)、制定有關(guān)網(wǎng)絡(luò)信息資源長期保存的法律、建立網(wǎng)絡(luò)信息長期保存的責(zé)任制、并提出網(wǎng)絡(luò)信息資源呈繳制。王志庚等[29]在2007年提出各國項(xiàng)目管理數(shù)據(jù)所采取的措施不同,例如數(shù)據(jù)交換。因此,需要聯(lián)合制定存檔數(shù)據(jù)管理的統(tǒng)一標(biāo)準(zhǔn),但在當(dāng)時(shí)我國WICP的總量較小,還沒有開展系統(tǒng)的數(shù)據(jù)管理研究和實(shí)踐。

      在2008年,作者對網(wǎng)絡(luò)信息呈繳制的研究繼續(xù)深化,提出將網(wǎng)絡(luò)信息資源納入呈繳之列,呈繳制度應(yīng)該明確呈繳者的權(quán)利和義務(wù)并建立符合我國國情的呈繳制[30]。2011年楊智勇等[31]提出要從4個(gè)方面進(jìn)行網(wǎng)頁資源長期保存的管理分別是:更新技術(shù)、數(shù)字遷移技術(shù)、仿真技術(shù)及自動(dòng)管理技術(shù)。

      3.3 資源保存

      2004年趙俊玲[19]在分析國外實(shí)踐項(xiàng)目基礎(chǔ)上提出,之后的研究應(yīng)該是從保存策略和保存機(jī)構(gòu)之間的合作模型進(jìn)行研究,在自己的研究基礎(chǔ)之上分別在2004—2005年之間,從保存資源的著作權(quán)和網(wǎng)絡(luò)信息資源保存的框架入手進(jìn)行研究[32]。2005年盧宏[33]在以上研究基礎(chǔ)上,提出有關(guān)研究者須盡快制定網(wǎng)絡(luò)文獻(xiàn)著錄規(guī)范,構(gòu)建學(xué)科核心網(wǎng)站和學(xué)術(shù)信息網(wǎng)絡(luò)資源評價(jià)體系。2006年陳清文[34]提出了長期保存的技術(shù)策略:保存“過時(shí)技術(shù)”法、遷移、建立長期保存系統(tǒng)。Yang G等[35]從長期保存具有良好可信度、唯一性和估值信譽(yù)的數(shù)字內(nèi)容的角度,討論了在網(wǎng)絡(luò)服務(wù)器上保存單調(diào)遞增的數(shù)字內(nèi)容的策略。

      2007年Kim Y S[36]提出在網(wǎng)頁歸檔過程中,除了技術(shù)方面問題,歸檔內(nèi)容真實(shí)性、版權(quán)等法律問題同樣重要,因此,需要了解網(wǎng)絡(luò)技術(shù)和法律的特征。2012年趙生輝[37]提出中國少數(shù)民族語言網(wǎng)絡(luò)信息資源保存體系,分為信息來源層、數(shù)據(jù)集成層、集成服務(wù)層,提出少數(shù)民族語言網(wǎng)絡(luò)信息資源長期保存應(yīng)該按照檔案化管理、多元一體和信息共享理念。2012年廖思琴等[38]根據(jù)OAIS框架,分析了云存儲(chǔ)元數(shù)據(jù)在保存型元數(shù)據(jù)中的位置,根據(jù)國外數(shù)字資源長期保存元數(shù)據(jù)框架和實(shí)踐項(xiàng)目分析了政府網(wǎng)絡(luò)資源保存型核心元數(shù)據(jù),并重點(diǎn)分析了云存儲(chǔ)元數(shù)據(jù),包括元素定義方法和定義工具。

      2015年王志剛[39]提出圖書館需要數(shù)字技術(shù)作為發(fā)展力量,特別是在風(fēng)險(xiǎn)評估以及風(fēng)險(xiǎn)控制領(lǐng)域尤為突出,需要在實(shí)施網(wǎng)頁歸檔過程中,對數(shù)字圖書館網(wǎng)絡(luò)信息進(jìn)行風(fēng)險(xiǎn)評估非常有必要。2016年孫紅蕾等[40]首次提出“互聯(lián)網(wǎng)+”時(shí)代下,在對互聯(lián)網(wǎng)信息資源長期協(xié)作保存基本含義分析的基礎(chǔ)上,闡釋互聯(lián)網(wǎng)信息資源長期協(xié)作保存的價(jià)值所在,并提出了包括組織機(jī)制、責(zé)任機(jī)制、保障機(jī)制、運(yùn)行機(jī)制、激勵(lì)機(jī)制在內(nèi)的互聯(lián)網(wǎng)信息資源長期協(xié)作保存機(jī)制。

      3.4 資源利用

      2005年,Thelwall M等[41]通過調(diào)查發(fā)現(xiàn)網(wǎng)頁歸檔項(xiàng)目的實(shí)施存在國際偏見,而這種偏見是由于不同的全國平均網(wǎng)站年齡和超鏈接結(jié)構(gòu)所造成的,提出研究人員在未來使用檔案時(shí)需要盡量規(guī)避此問題。2007年國外學(xué)者M(jìn)ohr,Gordon[42]提出現(xiàn)存工具Heritagrix、Web Crawler/Harvester、Wayback Mechine回放工具和Nutchwax檔案全文索引工具和查詢實(shí)時(shí)程序,一個(gè)標(biāo)準(zhǔn)的網(wǎng)絡(luò)資源檔案WARC也開發(fā)完成,下一步應(yīng)該是提高國際合作的密切程度,以此將提高現(xiàn)有工具利用率。2010年龍正義[43]提出以利用為核心的網(wǎng)頁歸檔項(xiàng)目,實(shí)際上最早提出“利用”方面的是Internet Achieve所述“離開了利用談保存是沒有意義的”,在提供網(wǎng)頁信息利用方面,應(yīng)當(dāng)在法律允許框架下,盡可能的開發(fā)系統(tǒng)、網(wǎng)站或者平臺(tái)供人們檢索使用,現(xiàn)有的“Wayback Mechine”可以瀏覽自1996年至今的1 500億個(gè)網(wǎng)站。

      2013年,王芳等[44]提出存檔資源要實(shí)現(xiàn)多元化應(yīng)用,但與功能和服務(wù)都日益變大的空間相比,距離多元化的應(yīng)用還是存在距離,存在法律倫理、可利用性和限制、以大數(shù)據(jù)方式利用技術(shù)需求等問題。2015年王萍等[45]對國外主要Web Archive項(xiàng)目存檔資源應(yīng)用的基本情況進(jìn)行梳理,總結(jié)和分析當(dāng)前網(wǎng)絡(luò)存檔資源開發(fā)利用的途徑,立足于網(wǎng)絡(luò)技術(shù)的不斷發(fā)展和演變,以及未來對網(wǎng)絡(luò)存檔資源的應(yīng)用需求,對其開發(fā)利用的發(fā)展趨勢進(jìn)行展望。

      2019年黃新平[46]對歐盟第七框架計(jì)劃資助的LiWA、BlogFoever、ARCOMEM、ForgetIT 4個(gè)發(fā)展成熟的社交媒體信息長期保存項(xiàng)目實(shí)施情況進(jìn)行系統(tǒng)梳理,并從項(xiàng)目內(nèi)容、開發(fā)技術(shù)和實(shí)踐應(yīng)用3個(gè)維度對其進(jìn)行比較分析,為我國社交媒體信息長期保存項(xiàng)目的建設(shè)與應(yīng)用提供借鑒。同年,將云計(jì)算應(yīng)用于政府網(wǎng)絡(luò)長期保存項(xiàng)目中,提出能夠高效率、低成本地實(shí)現(xiàn)海量政府網(wǎng)頁的在線歸檔和集成管理[47]。

      3.5 技術(shù)研發(fā)

      2003年Kawano H[48]將網(wǎng)絡(luò)挖掘技術(shù)應(yīng)用于網(wǎng)頁存檔過程中,使用文本網(wǎng)絡(luò)挖掘技術(shù)基于Mondou網(wǎng)絡(luò)搜索引擎和網(wǎng)絡(luò)機(jī)器人來實(shí)現(xiàn)。2004年Wang W等[49]提出基于網(wǎng)絡(luò)檔案的網(wǎng)絡(luò)考古學(xué),由此產(chǎn)生的網(wǎng)絡(luò)檔案不僅是歷史網(wǎng)頁的集合,而且包含了豐富的信息,借助研究工具Waoa(網(wǎng)絡(luò)考古檔案館官方網(wǎng)站)來挖掘檔案,解決了文件類型的多樣性、文件形式及腳本語言、網(wǎng)站更新頻率、域內(nèi)的鏈接結(jié)構(gòu)等技術(shù)問題。同年,F(xiàn)attah M A等[50]從互聯(lián)網(wǎng)檔案館中存在的平行文本中自動(dòng)提取英阿雙語詞典的兩種算法從而提升內(nèi)容準(zhǔn)確度。Goodkin J等[51]提出一個(gè)獲取和打包網(wǎng)絡(luò)信息,并可以在多個(gè)存儲(chǔ)器中歸檔的模型,該模型是Echo Depository項(xiàng)目的一部分,該項(xiàng)目是由美國國會(huì)圖書館與企業(yè)合作為期3年的數(shù)字保存項(xiàng)目。

      2007年,Kim H等[52]提出網(wǎng)絡(luò)存檔的過程取決于采用的采集方法的類型、數(shù)據(jù)的組織和存儲(chǔ)、數(shù)據(jù)的完整性和范圍,實(shí)現(xiàn)了為密集網(wǎng)絡(luò)存檔開發(fā)元數(shù)據(jù)。Wu P H等[53]提出在用戶使用網(wǎng)絡(luò)檔案時(shí),能夠訪問完整和連貫的收藏內(nèi)容很重要,因此提出了一種基于網(wǎng)絡(luò)注釋系統(tǒng)的設(shè)計(jì)原則來組織網(wǎng)絡(luò)檔案的方法,用來標(biāo)注網(wǎng)絡(luò)檔案,該系統(tǒng)保留了編目過程的證據(jù)和上下文。2008年Wang L C[54]從元數(shù)據(jù)格式和內(nèi)容結(jié)構(gòu)兩個(gè)角度探討網(wǎng)絡(luò)檔案策略。在對元數(shù)據(jù)格式的分析中使用案例分析法,分析了它們的信息組織規(guī)律。其次,研究了起源檔案原理及其在檔案著錄控制層次中的應(yīng)用。2009年Crook E[55]提出,隨著檔案及歸檔能力提高,網(wǎng)絡(luò)歸檔仍然面臨著新技術(shù)和Web2.0應(yīng)用兩大亟需解決的難題。

      2011年Saad M B等[56]提出現(xiàn)有網(wǎng)絡(luò)檔案大多以斷斷續(xù)續(xù)的形式出現(xiàn),提高網(wǎng)絡(luò)檔案的連貫性尤為重要,作者從技術(shù)角度提出,在期望頁面幾乎沒有變化的時(shí)間段,基于模式爬行站點(diǎn),引入了一種新穎的導(dǎo)航方法,使用戶能夠在給定的查詢時(shí)間瀏覽最一致的頁面版本。2013年P(guān)hillips M E等[57]對歸檔的PDF資源進(jìn)行分析,提出在歸檔整個(gè)工作流程中用于文檔特征的提取工具,新工具將提供選擇內(nèi)容和建立收藏新的方式。同年,Jatowt Y A[58]提出了一個(gè)頁面歷史的交互式探索系統(tǒng)并演示了一個(gè)名為頁面歷史瀏覽器(Phe)的應(yīng)用程序,用于總結(jié)和可視化網(wǎng)絡(luò)頁面的歷史。Phe描繪了頁面發(fā)展的概況,描述了其典型的內(nèi)容隨著時(shí)間的推移,并讓用戶從不同的角度觀察頁面歷史。

      2016年張煒等[59]基于區(qū)塊鏈理念及相關(guān)技術(shù),提出一種增強(qiáng)數(shù)據(jù)安全性、提高自動(dòng)化認(rèn)證能力、節(jié)約保存成本、提高審計(jì)效率且適用于協(xié)作保存網(wǎng)絡(luò)環(huán)境下海量數(shù)字資源長期保存的可信性認(rèn)證模式。2018年P(guān)avlos F等[60]針對存檔網(wǎng)頁部分不可以利用這一問題,提出了一個(gè)rdf/s模型和一個(gè)分布式框架,用于構(gòu)建描述網(wǎng)絡(luò)文檔內(nèi)容的語義語義信息(層),并滿足現(xiàn)有語義層可以滿足現(xiàn)有關(guān)鍵字系統(tǒng)不能充分滿足的信息需求。

      3.6 系統(tǒng)框架

      2006年國外學(xué)者Lor P等[61]提出了一個(gè)基于社會(huì)正義和人權(quán)的道德框架用來指導(dǎo)網(wǎng)絡(luò)存檔。同年,Choi K H等[62]介紹了韓國圖書館的網(wǎng)頁存檔系統(tǒng),該系統(tǒng)的工作流程和處理過程是基于網(wǎng)站和網(wǎng)絡(luò)存檔的個(gè)人數(shù)字資源被有選擇地收集。2007年劉進(jìn)軍[63]構(gòu)建了一個(gè)中文網(wǎng)絡(luò)信息資源保存的流程,其流程具體分為信息收集、加工、存儲(chǔ)、服務(wù)4個(gè)階段。2008年Anand A等[64]提出一個(gè)全球規(guī)模的基礎(chǔ)設(shè)施來收集、歸檔和對收集的數(shù)據(jù)進(jìn)行歷史分析的分布式體系結(jié)構(gòu),從構(gòu)建網(wǎng)絡(luò)檔案文本分析的工作中獲得啟發(fā)并提出Everlast,一個(gè)可擴(kuò)展的分布式框架,用于下一代網(wǎng)絡(luò)檔案和檔案上的臨時(shí)文本分析,該系統(tǒng)建立在一個(gè)松散耦合的分布式架構(gòu)上,可以部署在大規(guī)模的點(diǎn)對點(diǎn)網(wǎng)絡(luò)上。

      2011年楊元香[65]從價(jià)值的來源、屬性和影響因素闡述價(jià)值概念,并在此基礎(chǔ)上引申出歸檔網(wǎng)絡(luò)信息價(jià)值的概念,論述了歸檔網(wǎng)絡(luò)信息價(jià)值判斷的重要性,從信息生產(chǎn)者的需求動(dòng)力、信息服務(wù)商的服務(wù)和為用戶提供共享的資源等方面說明歸檔網(wǎng)絡(luò)信息價(jià)值判斷的意義。2012年Noh Y H等[66]提出韓國網(wǎng)頁存檔項(xiàng)目“綠洲”首先應(yīng)對網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行定義,制定收集原則、收集方法、收集頻率。其次,改進(jìn)歸檔的目標(biāo)資源。最后,提出選定目標(biāo)材料數(shù)據(jù)庫及制定合作存檔政策的必要性。

      2015年,Banos V等[67]使用網(wǎng)絡(luò)內(nèi)容管理系統(tǒng)(Wcms)實(shí)現(xiàn)將內(nèi)容安全轉(zhuǎn)移到網(wǎng)絡(luò)檔案館以便保存,解決了部分網(wǎng)頁資源不能完整歸檔的難題。同年,吳振新等[68]構(gòu)建了國際重要科研機(jī)構(gòu)Web存檔系統(tǒng),在采集端實(shí)現(xiàn)三層擴(kuò)展,通過增加采集客戶端功能提高存檔流程自動(dòng)化程度,通過增加的WARC文件內(nèi)容解析功能抽取更多信息,實(shí)現(xiàn)索引及檢索服務(wù)的擴(kuò)展,系統(tǒng)擴(kuò)展后的采集存檔框架初步具備分布式、可擴(kuò)展、全自動(dòng)化的特點(diǎn)。

      2016年胡吉穎等[69]開發(fā)了網(wǎng)絡(luò)信息存檔WARC文件的解析與索引系統(tǒng),以此充分挖掘科技網(wǎng)站存檔資源價(jià)值,實(shí)現(xiàn)向用戶提供了豐富的科技網(wǎng)站存檔數(shù)據(jù)信息,提高用戶檢索訪問效率的目的。2018年吳碩娜等[70]通過分析了網(wǎng)絡(luò)歸檔生命周期模型的結(jié)構(gòu)、內(nèi)容以及顯著優(yōu)勢,對該模型進(jìn)行前端和后端擴(kuò)展,最終得到網(wǎng)絡(luò)生命周期管理模型,從內(nèi)容和技術(shù)要求上為網(wǎng)絡(luò)信息資源管理提供了詳細(xì)指導(dǎo),有利于更好地發(fā)揮網(wǎng)絡(luò)信息資源的價(jià)值,延續(xù)網(wǎng)絡(luò)信息生命。

      4 階段性研究特征分析

      4.1 第一階段(1996—2005)

      在此階段,國內(nèi)外網(wǎng)頁存檔發(fā)展涉及較為廣泛,這是因?yàn)閷?shí)踐項(xiàng)目剛興起,帶來較多可以進(jìn)行研究的切入點(diǎn)。國外在對網(wǎng)頁歸檔過程中的采集工具、采集方式、歸檔資源組織、網(wǎng)站評估、索引網(wǎng)站、保存系統(tǒng)的開發(fā)、升級等問題的研究較為突出。國內(nèi)研究則多數(shù)以國外較成熟的實(shí)踐項(xiàng)目為研究對象,充分論述國內(nèi)實(shí)踐項(xiàng)目的同時(shí),多角度進(jìn)行分析,為我國的網(wǎng)頁歸檔實(shí)踐項(xiàng)目的發(fā)展提供建議;整體研究呈現(xiàn)增長的趨勢,維度趨于橫向拉寬。

      由1996—2005年每一年的發(fā)文數(shù)量逐漸變多,研究代表性思想呈現(xiàn)逐漸朝著整個(gè)實(shí)踐項(xiàng)目各階段進(jìn)行深入研究的趨勢,研究的范圍逐漸變廣,有趨于深入研究的趨勢,隨著時(shí)代的變遷會(huì)帶來新技術(shù)的革新,研究的成果將會(huì)呈繼續(xù)增長;在理論研究方面,國內(nèi)的理論研究較多,技術(shù)方面的研究較少。國外相反,對技術(shù)問題研究較國內(nèi)更深入也更前沿。為了直觀了解本階段國內(nèi)外研究熱點(diǎn)主題,如圖5及圖6為主題詞共現(xiàn)網(wǎng)絡(luò)。

      1)資源采集:國內(nèi)的研究,對于網(wǎng)絡(luò)資源采集方式進(jìn)行較為具體的刻畫,以選擇性采集、全域采集及主題事件采集等多種采集方式并行的方案受到推崇;首次提出“呈繳本制度”,以確保采集到的資源在國家的管控之下。

      2)資源保存:國內(nèi)從資源自身屬性、保存內(nèi)容的著作權(quán)及信息資源保存框架入手,對資源保存策略開展試探性研究,首次出現(xiàn)對于“歸檔資源評價(jià)”的相關(guān)研究。

      3)技術(shù)研發(fā):國內(nèi)對于技術(shù)研發(fā)較少;而國外熱度較高,出現(xiàn)將文本網(wǎng)絡(luò)挖掘技術(shù)、網(wǎng)絡(luò)考古、新算法等技術(shù)應(yīng)用于網(wǎng)頁存檔實(shí)踐項(xiàng)目,從而解決了網(wǎng)頁存檔過程中文件種類多樣化、腳本語言障礙、域內(nèi)鏈接結(jié)構(gòu)等技術(shù)難題。

      4)系統(tǒng)框架:國內(nèi)外的系統(tǒng)框架聚焦于資源采集部分框架搭建,是因?yàn)榇穗A段對于網(wǎng)頁歸檔資源的采集研究較多,出現(xiàn)基于采集方式的系統(tǒng)框架及社會(huì)正義與道德框架,以此指引網(wǎng)頁存檔實(shí)踐活動(dòng)。

      4.2 第二階段(2006—2010)

      第二階段,技術(shù)相關(guān)研究越發(fā)深入;國外此階段的重點(diǎn)是技術(shù)的研發(fā)研究,包括系統(tǒng)架構(gòu)升級、保存網(wǎng)絡(luò)分布式體系結(jié)構(gòu)、存儲(chǔ)框架及存檔質(zhì)量等。國內(nèi)的研究,除借鑒國外的實(shí)踐經(jīng)驗(yàn)之外,對我國網(wǎng)頁存檔項(xiàng)目的個(gè)性化建議也出現(xiàn)較多研究成果,對“責(zé)任體系”的研究為重點(diǎn)。在此階段,國內(nèi)外對于存檔流程研究更為細(xì)化,趨近于完善的網(wǎng)頁存檔應(yīng)用型項(xiàng)目。

      1)資源采集:我國學(xué)者對于國內(nèi)重大事件進(jìn)行專題收集,以此反映事件全貌,國外研究從技術(shù)角度解決了采集過程中,難以收集資源所有歷史版本及隱藏的或動(dòng)態(tài)資源的難題。

      2)資源管理:國內(nèi)研究開始涉足元數(shù)據(jù)及元數(shù)據(jù)管理,從軟件、硬件、人力、資金等方面完善網(wǎng)頁存檔實(shí)踐項(xiàng)目,對于“呈繳制”的研究進(jìn)一步深化,呈繳制度應(yīng)該明確呈繳者的權(quán)利和義務(wù)并建立符合我國國情的呈繳制。相較于國內(nèi),國外此階段的研究重點(diǎn)在系統(tǒng)研發(fā)及系統(tǒng)框架搭建。

      3)資源利用:國外學(xué)者研究聚焦于促進(jìn)工具的利用,從而促進(jìn)資源利用。國內(nèi)研究有相似之處,提倡使用“Wayback Mechine”并且在法律允許范圍內(nèi),盡可能開發(fā)系統(tǒng),在技術(shù)上國內(nèi)的實(shí)踐項(xiàng)目需要技術(shù)發(fā)展。

      4)技術(shù)研發(fā):國外對于技術(shù)研發(fā)實(shí)現(xiàn)一次峰值,在開發(fā)元數(shù)據(jù)、元數(shù)據(jù)的應(yīng)用、編目歸檔內(nèi)容的方法等進(jìn)行的研究較多,也出現(xiàn)了一些設(shè)想,例如在面對Web2.0時(shí)代的解決方案,技術(shù)革新需要緊隨時(shí)代發(fā)展的步伐。

      4.3 第三階段(2011—2014)

      相較于第二階段而言,第三階段是對采集、管理和保存過程中的技術(shù)進(jìn)行全面的革新,國內(nèi)在系統(tǒng)升級、爬蟲技術(shù)、網(wǎng)絡(luò)空間等方面研究都具有了顯著提升,除此之外,對法律法規(guī),責(zé)任體系和保存體系提出較多理論層面的建議;歸檔資源價(jià)值評估的研究成為凸顯詞,有變成熱點(diǎn)的趨勢。國內(nèi)外均提出歸檔資源的價(jià)值評估。國外多從算法等角度進(jìn)行優(yōu)化,國內(nèi)從資源采集階段進(jìn)行資源選取層面的研究,高價(jià)值歸檔網(wǎng)頁的指向?yàn)橘Y源的利用,國內(nèi)外已經(jīng)出現(xiàn)了由技術(shù)支撐網(wǎng)頁歸檔項(xiàng)目的趨勢,以及網(wǎng)頁資源利用為核心的技術(shù)指向;國內(nèi)外對于歸檔網(wǎng)頁的利用研究已經(jīng)出現(xiàn)了較成熟的想法,學(xué)者們對于資源的利用研究迫在眉睫,從理論層面和實(shí)踐層面可以看出,國內(nèi)外的研究已經(jīng)將資源利用提上了日程。

      1)資源管理:國內(nèi)研究也涉足技術(shù)角度,在數(shù)字遷移技術(shù)、仿真技術(shù)、自動(dòng)管理技術(shù)及技術(shù)更新等方面對歸檔資源進(jìn)行管理的研究較多。國外在本階段研究的重點(diǎn)系統(tǒng)框架搭建方面。

      2)資源利用:國內(nèi)外對于資源利用在“淺層資源利用”方面研究較多,實(shí)現(xiàn)歸檔資源多元化應(yīng)用,還需要解決法律倫理、可利用性和限制、利用技術(shù)需求等問題。

      3)技術(shù)研發(fā):國外研究主要體現(xiàn)在解決歸檔資源斷斷續(xù)續(xù)、用戶無法查詢特定時(shí)間段內(nèi)的歸檔資源的問題。除此之外,在歸檔資源的展示層面,也提出較創(chuàng)新的觀點(diǎn)。國內(nèi)此階段對于技術(shù)研發(fā)還沒有涉足太深,因?yàn)閲鴥?nèi)網(wǎng)頁存檔實(shí)踐項(xiàng)目起步較晚,還需要進(jìn)一步學(xué)習(xí)和完善。

      4.4 第四階段(2015至今)

      此階段,新技術(shù)的應(yīng)用對研究方向有重大影響。國內(nèi)外的研究主要體現(xiàn)在,包括云計(jì)算、云存儲(chǔ)、區(qū)塊鏈以及最新可視化技術(shù)應(yīng)用于網(wǎng)頁存檔流程,以此,實(shí)現(xiàn)高效率、低成本地對海量政府網(wǎng)頁的在線歸檔和集成管理、自動(dòng)化認(rèn)證能力、提高審計(jì)效率等;社交媒體的網(wǎng)絡(luò)存檔興起,國內(nèi)外的研究出現(xiàn)較新穎的社交媒體網(wǎng)絡(luò)資源采集,更偏重社交媒體網(wǎng)頁歸檔的技術(shù)解決方案,而國內(nèi)以研究國外新技術(shù)的綜述較多,提出的建議較有創(chuàng)新性;資源利用的研究占據(jù)較大比重,大多數(shù)研究都是圍繞資源利用展開,而在網(wǎng)頁資源的采集和管理方面,對于采集的技術(shù)全面革新,主要提出網(wǎng)頁資源的可獲取性,且經(jīng)過評估后的可利用性網(wǎng)頁資源,在保存方面也提出更加智慧的解決方案,例如低成本、高效率完成海量信息的全景映射和更加完善的資源保存框架。

      1)資源采集:國內(nèi)外研究重點(diǎn)體現(xiàn)在社交媒體存檔資源的采集,在采集機(jī)制、采集標(biāo)準(zhǔn)、采集策略和采集方法等方面予以深入剖析,在國內(nèi)首次提出以“協(xié)同”的方式實(shí)現(xiàn)多源組織合作,但從技術(shù)方面對歸檔資源進(jìn)行評估方面,還需要國內(nèi)學(xué)者繼續(xù)深入研究。

      2)資源管理:國內(nèi)研究在資源管理方面,主要體現(xiàn)在:互聯(lián)網(wǎng)+時(shí)代帶來新的資源管理方法,多方“協(xié)作”的主題詞成為本階段凸顯詞。國外在此階段,資源管理方面研究較少。

      3)資源利用:國內(nèi)研究對于“存檔資源利用”更進(jìn)一步,聚焦于資源應(yīng)用需求及開發(fā)利用途徑兩方面,除此之外,對于社交媒體的網(wǎng)頁存檔,聚焦于項(xiàng)目內(nèi)容、開發(fā)技術(shù)和實(shí)踐應(yīng)用三方面。雖然,新技術(shù)應(yīng)用于網(wǎng)頁存檔實(shí)現(xiàn)了優(yōu)化項(xiàng)目,但也帶來了更多挑戰(zhàn),國內(nèi)對于資源利用還需要進(jìn)一步挖掘。

      4)系統(tǒng)框架:此階段,國內(nèi)外系統(tǒng)框架的搭建圍繞“安全信息”及“歸檔價(jià)值”兩方面展開,自動(dòng)化技術(shù)應(yīng)用與系統(tǒng)框架的搭建,解決存檔數(shù)據(jù)信息不全面、用戶訪問效率較低的問題。除此之外,對于“歸檔價(jià)值”也出現(xiàn)了從技術(shù)和內(nèi)容兩方面進(jìn)行解決的構(gòu)想。

      5 結(jié) 語

      網(wǎng)頁存檔是人類網(wǎng)絡(luò)信息資源長期保存的重要任務(wù),時(shí)代的發(fā)展帶來了眾多新技術(shù)的革新問世,這也給實(shí)踐項(xiàng)目帶來了巨大挑戰(zhàn)。首先,網(wǎng)頁存檔實(shí)踐項(xiàng)目針對每個(gè)國家都帶有特色的烙印,采集工具、采集內(nèi)容、資源管理、保存方式、利用側(cè)重點(diǎn)、技術(shù)開發(fā)方向、系統(tǒng)平臺(tái)建設(shè)、法律法規(guī)標(biāo)準(zhǔn)迥異,各具特色。其次,作為網(wǎng)頁存檔實(shí)踐項(xiàng)目責(zé)任主體,長期保存體系的構(gòu)建者,又要為廣大用戶提供服務(wù),需要在系統(tǒng)功能方面滿足用戶需求的同時(shí),在法律允許的范圍內(nèi),遵守知識(shí)產(chǎn)權(quán)以及隱私權(quán)等相關(guān)法律約束。隨著各國網(wǎng)頁歸檔實(shí)踐項(xiàng)目的發(fā)展,項(xiàng)目過程中的各個(gè)流程都將會(huì)進(jìn)一步得到深入研究。系統(tǒng)梳理以往的研究具有重要作用,對于日后網(wǎng)頁存檔理論及實(shí)踐有啟示意義。

      對各國家圖書館或檔案館而言,網(wǎng)頁存檔實(shí)踐項(xiàng)目是技術(shù)與資源及人工共同結(jié)合的一項(xiàng)工程,網(wǎng)頁存檔實(shí)踐項(xiàng)目發(fā)展的方向,始終是指向“資源深層開發(fā)利用”環(huán)節(jié),提高資源利用率是最終核心問題。理論模型、系統(tǒng)框架、技術(shù)革新、資源采集方式、歸檔資源評估、資源開發(fā)利用及人工配置,七者交融但又相互促進(jìn)。后續(xù)的相關(guān)研究中,可以根據(jù)這五方面特點(diǎn),開展更為深入的探索。

      參考文獻(xiàn)

      [1]中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC).第47次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[R].2021-02-03.

      [2]陽廣元.國內(nèi)外Web Archive研究綜述[J].圖書館雜志,2014,33(10):88-94.

      [3]楊道玲.Web資源保存現(xiàn)狀與思考[J].圖書館雜志,2004,(10):32-36.

      [4]陽廣元.國外Web Archive研究進(jìn)展及啟示[J].圖書館工作與研究,2016,(6):18-21.

      [5]黃新平,王萍.國內(nèi)外近年Web Archive技術(shù)研究與應(yīng)用進(jìn)展[J].圖書館學(xué)研究,2016,(18):30-35.

      [6]Developers.Internet Archive[EB/OL].https://archive.readme.io/docs,2021-09-08.

      [7]Pandora[EB/OL].http://pandora.nla.gov.au/,2021-09-08.

      [8]李華,吳振新,郭家義,等.Web Archive發(fā)展歷程與發(fā)展趨勢研究[J].現(xiàn)代圖書情報(bào)技術(shù),2009,3(1):1-10.

      [9]National Library of Sweden.Kulturarw3[EB/OL].https://www.kb.se/hitta-och-bestall/hitta-i-samlingarna/kulturarw3.html,2021-09-08.

      [10]Library of Congress.Minerva[EB/OL].https://www.loc.gov/services-and-programs/,2021-09-08.

      [11]National Library.New Zealand Web Archive[EB/OL].https://natlib.govt.nz/collections/a-z-of-all-collections/nz-web-archive,2021-09-08.

      [12]Paradigma[EB/OL].https://netpreserve.org/about-us/members/nasjonalbiblioteket-national-library-norway/,2021-09-08.

      [13]UKdomain[EB/OL].https://netpreserve.org/about-us/members/national-archives-uk/,2021-09-08.

      [14]趙麗琴.我國網(wǎng)絡(luò)信息保存研究述評[J].圖書館學(xué)研究:應(yīng)用版,2011.

      [15]楊道玲.中文網(wǎng)絡(luò)信息資源保存問題探討[J].檔案學(xué)研究,2006,89(3):39-42.

      [16]黃新平.基于云計(jì)算的政府網(wǎng)站網(wǎng)頁在線歸檔管理平臺(tái)構(gòu)建研究[J].中國檔案,2020,559(5):67-67.

      [17]張煒,董曉莉.以區(qū)塊鏈促進(jìn)協(xié)作保存網(wǎng)絡(luò)環(huán)境下信息資源的可信性[J].國家圖書館學(xué)刊,2018,27(5):89-98.

      [18]吳碩娜,黃新榮.Web歸檔生命周期模型的發(fā)展研究[J].數(shù)字圖書館論壇,2018,173(10):43-47.

      [19]劉家真.創(chuàng)建我國網(wǎng)上信息資源庫的構(gòu)想[C]//中國圖書館學(xué)學(xué)術(shù)年會(huì),2000.

      [20]楊道玲.Web資源采集與保存研究[D].武漢:武漢大學(xué).

      [21]李春明,呂偉.網(wǎng)絡(luò)信息資源專題存檔試驗(yàn)研究[J].國家圖書館學(xué)刊,2004,(2):34-37.

      [22]趙俊玲.國外關(guān)于網(wǎng)絡(luò)信息資源保存的研究[J].中國圖書館學(xué)報(bào),2004,30(3):80-83.

      [23]趙俊玲.美國國會(huì)圖書館網(wǎng)絡(luò)信息保存項(xiàng)目Minerva及啟示[J].圖書館建設(shè),2005,(5):40-42.

      [24]Hiiragi W,Sakaguchi T,Sugimoto S,et al.A Policy-Based System for Institutional Web Archiving[C]//International Conference on Asian Digital Libraries.Springer,Berlin,Heidelberg,2004.

      [25]Gossen G,Demidova E,Risse T.iCrawl:Improving the Freshness of Web Collections By Integrating Social Web and Focused Web Crawling[J].ACM,2016.

      [26]陳為東,王萍,王益成,等.面向Web Archive的社交媒體信息采集工具比較研究[J].圖書館學(xué)研究,2017,(13):10-16.

      [27]張衛(wèi)東,黃新平.面向Web Archive的社交媒體信息采集——基于ARCOMEM項(xiàng)目的案例分析[J].情報(bào)資料工作,2017,(1):94-99.

      [28]陳清文.網(wǎng)絡(luò)信息資源保存研究綜述[J].山東圖書館學(xué)刊,2006,(1):18-21.

      [29]王志庚,郝守真.網(wǎng)絡(luò)文獻(xiàn)保存的實(shí)踐和課題[J].國家圖書館學(xué)刊,2004,(2):23-29.

      [30]陳清文,黃田青.網(wǎng)絡(luò)學(xué)術(shù)信息資源呈繳保存制度研究[J].圖書館,2008,(3):36-37.

      [31]楊智勇,曹航.網(wǎng)頁資源長期保存的標(biāo)準(zhǔn)和技術(shù)研究[J].檔案,2011,(3):41-44.

      [32]趙俊玲,杜國芳.著作權(quán)法對網(wǎng)絡(luò)信息資源保存的影響分析[J].現(xiàn)代情報(bào),2005,25(5):72-74.

      [33]盧宏.參考文獻(xiàn)中引用網(wǎng)絡(luò)信息資源的思考[J].圖書情報(bào)工作,2005,(5):121-123.

      [34]陳清文.網(wǎng)絡(luò)信息資源長期保存的采集策略與方法[J].情報(bào)探索,2006,(12):47-48.

      [35]Yang G,Bin R,Yue R.Reputation-based Contents Crawling in Web Archiving System[C]//International Symposium on Operations Research and Its Applications;ISORA08.Hiroyuki Kawano@Nanzan University,Aichi 4890863,2008.

      [36]Kim Y S.A Study of Legal Issues for Web Archiving[J].Journal of the Korean Society for Library and Information Science,2007,41(3).

      [37]趙生輝.中國少數(shù)民族語言網(wǎng)絡(luò)信息資源的保存體系研究[J].情報(bào)資料工作,2012,(2):59-64.

      [38]廖思琴,周宇,胡翠紅.基于云存儲(chǔ)的政府網(wǎng)絡(luò)信息資源保存型元數(shù)據(jù)研究[J].情報(bào)雜志,2012,31(4):143-147.

      [39]王智剛.數(shù)字圖書館網(wǎng)絡(luò)信息資源保存風(fēng)險(xiǎn)評估及控制技術(shù)研究[J].信息系統(tǒng)工程,2015,(2):12.

      [40]孫紅蕾,鄭建明.互聯(lián)網(wǎng)信息資源長期協(xié)作保存機(jī)制研究[J].圖書館學(xué)研究,2017,(10):20-25.

      [41]Thelwall M,Vaughan L.A Fair History of the Web Examining Country Balance in the Internet Archive[J].Library & Information Ence Research,2005,26(2):162-176.

      [42]Archival Tools to Match the Web:Open,International,Comprehensive[C]//International Conference on Asian Digital Libraries.Springer,Berlin,Heidelberg,2007.

      [43]龍正義.網(wǎng)頁長期保存的策略與方法研究[J].檔案管理,2010,(3):20-23.

      [44]王芳,史海燕.國外Web Archive研究與實(shí)踐進(jìn)展[J].中國圖書館學(xué)報(bào),2013,39(2):36-45.

      [45]王萍,黃新平,張楠雪.國外Web Archive資源開發(fā)利用的途徑及趨勢展望[J].圖書館學(xué)研究,2015,(23):43-49.

      [46]黃新平.歐盟FP7社交媒體信息長期保存項(xiàng)目比較與借鑒[J].圖書館學(xué)研究,2019,460(17):4-11.

      [47]黃新平.基于云計(jì)算的政府網(wǎng)站網(wǎng)頁在線歸檔管理平臺(tái)構(gòu)建研究[J].中國檔案,2020,559(5):67-67.

      [48]Kawano H.Web Archiving Strategies By Using Web Mining Techniques[C]//Communications,Computers and Signal Processing,2003.PACRIM.2003 IEEE Pacific Rim Conferenceon.IEEE,2003.

      [49]Wang W,Chen D I,Lin S.Web Archaeology Research on Several Chinas Main.com Websites1.

      [50]Fattah M A,Ren F,Shingo K.[IEEE International Conference on Information Technology:Coding and Computing,2004.Proceedings.ITCC 2004.-Las Vegas,NV,USA(2004.04.5-2004.04.7)]International Conference on Information Technology:Coding and Computing,2004.Proceedings.ITCC 2004[J].2004,2:298-302.

      [51]Goodkin J,Cobb J,Pearcemoses R,et al.Technical Architecture Overview:Tools for Acquisition,Packaging and Ingest of Web Objects Into Multiple Repositories[C]//ACM.ACM,2006.

      [52]Kim H J,Lee H W.Development of Metadata Elements for Intensive Web Archiving[J].Journal of the Korean Society for Information Management,2007,24(2):143-160.

      [53]Wu P H J,Heok A K H,Tamsir I P.Annotating the Web Archives-An Exploration of Web Archives Cataloging and Semantic Web[C]//International Conference on Asian Digital Libraries(ICADL 2006).Nanyang Technological University 31 Nanyang Link,2006.

      [54]A Study on Web Archives Design:The Description and the Format Approach[J].Archiving Conference,2008.

      [55]Crook E.Web Archiving in a Web 2.0 World[J].The Electronic Library,2009,27(5).

      [56]Saad M B,Pehlivan Z,Gangarski S.Coherence-Oriented Crawling and Navigation Using Patterns for Web Archives[C]//TPDL2011;International Conference on Theory and Practice of Digital Libraries.LIP6,University P.and M.Curie,4 Place Jussieu 75005,Paris,F(xiàn)rance;LIP6,University P.and M.Curie,4 place Jussieu 75005,Paris,F(xiàn)rance;LIP6,University P.and M.Curie,4 place Jussieu 75005,Paris,F(xiàn)rance,2011.

      [57]Phillips M E,Murray K R.Improving Access to Web Archives Through Innovative Analysis of PDF Content[C]//2013:186-192.

      [58]Jatowt A,Kawai Y.Special Section on Data Engineering Page History Explorer:Visualizing and Comparing Page Histories.

      [59]張煒,董曉莉.以區(qū)塊鏈促進(jìn)協(xié)作保存網(wǎng)絡(luò)環(huán)境下信息資源的可信性[J].國家圖書館學(xué)刊,2018,27(5):89-98.

      [60]Pavlos F,Helge H,Vaibhav K,et al.Building and Querying Semantic Layers for Web Archives[J].International Journal on Digital Libraries,2018:1-19.

      [61]Lor P,Britz J.A Moral Perspective on South-North Web Archiving[J].Journal of Information Science,2004,30(6):540-549.

      [62]Choi K H,Jeon D J.A Web Archiving System of the National Library of Korea:OASIS[C]//Digital Libraries:Achievements,Challenges and Opportunities;Lecture Notes in Computer Science;4312.National Library of Korea,Seoul,Republic of Korea,2006

      [63]劉進(jìn)軍.中文網(wǎng)絡(luò)信息資源保存權(quán)益主體分析[J].圖書館學(xué)研究,2007,(12):26-28.

      [64]Anand A,Bedathur S,Berberich K,et al.EverLast:A Distributed Architecture for Preserving the Web[C]//ACM.ACM,2012.

      [65]楊元香.歸檔網(wǎng)絡(luò)信息價(jià)值判斷研究[D].湘潭:湘潭大學(xué),2012.

      [66]Noh Y H,Go Y S.A Study on Improving the OASIS Selection Guidelines[J].Journal of the Korean Biblia Society for Library & Informationence,2012,23(3):217-222.

      [67]Banos V,Manolopoulos Y.Web Content Management Systems Archivability[J].Springer International Publishing,2015.

      [68]吳振新,胡吉穎,張智雄,等.基于IIPC開源軟件拓展構(gòu)建國際重要科研機(jī)構(gòu)Web存檔系統(tǒng)[J].現(xiàn)代圖書情報(bào)技術(shù),2015,31(4):1-9.

      [69]胡吉穎,吳振新,謝靖,等.構(gòu)建面向WARC文檔的全文索引系統(tǒng)[J].現(xiàn)代圖書情報(bào)技術(shù),2016,32(5):91-98.

      [70]吳碩娜,黃新榮.Web歸檔生命周期模型的發(fā)展研究[J].數(shù)字圖書館論壇,2018,173(10):43-47.

      (責(zé)任編輯:郭沫含)

      苍溪县| 广元市| 上杭县| 和政县| 北票市| 铁力市| 永仁县| 平定县| 安塞县| 黑山县| 琼海市| 卢龙县| 闸北区| 全州县| 晋宁县| 奉化市| 郴州市| 汉阴县| 托里县| 宣城市| 中江县| 合水县| 普陀区| 庄浪县| 新和县| 马关县| 巫溪县| 岳阳市| 广昌县| 晋城| 临夏市| 安溪县| 蒙城县| 溧水县| 万山特区| 汶川县| 汶上县| 将乐县| 正宁县| 集贤县| 措勤县|