劉慶悅 楊安蓮/國防大學(xué)政治學(xué)院
檔案數(shù)字化轉(zhuǎn)型的深入使得檔案管理的顆粒度逐步由文件尺度細(xì)化至數(shù)據(jù)尺度,檔案數(shù)據(jù)管理的重要性日益凸顯。國外較早開展檔案數(shù)據(jù)服務(wù)與開放的探索,在檔案數(shù)據(jù)管理流程方面具有相對豐富的成果和經(jīng)驗,可為我國檔案數(shù)據(jù)管理研究提供一定借鑒。
在國外現(xiàn)有研究中,檔案數(shù)據(jù)是一個籠統(tǒng)的范疇,沒有確切的概念范圍。本文中,筆者將檔案數(shù)據(jù)概念界定為承載檔案信息的數(shù)據(jù),以及在檔案管理和利用活動中產(chǎn)生的數(shù)據(jù)。具體來說,檔案的具體內(nèi)容、標(biāo)題、保密期限、目錄等,檔案的操作日志、庫房溫濕度、統(tǒng)計數(shù)據(jù)等,檔案利用者的姓名、年齡、利用時間、檢索軌跡、利用評論等都包含于檔案數(shù)據(jù)的概念范疇之中。檔案數(shù)據(jù)管理是指利用數(shù)據(jù)管理等多種方法,控制檔案數(shù)據(jù)及檔案數(shù)據(jù)活動,以最大限度地實現(xiàn)檔案數(shù)據(jù)價值、促進檔案工作發(fā)展的活動。檔案數(shù)據(jù)管理流程是指一系列連續(xù)的檔案數(shù)據(jù)管理活動,旨在集中管理大量復(fù)雜的檔案數(shù)據(jù),在維護其真實性、完整性、可用性和安全性的同時,促進檔案信息及相關(guān)知識的獲取和提煉。與以手工管理思維主導(dǎo)的傳統(tǒng)檔案管理流程不同,檔案數(shù)據(jù)管理流程更強調(diào)檔案數(shù)據(jù)與技術(shù)的結(jié)合,強調(diào)服務(wù)于以用戶為中心的深層次檔案數(shù)據(jù)價值挖掘。
基于以上概念,筆者對LISA數(shù)據(jù)庫(Library and Information Science Abstracts Database)進行了檢索,檢索時間范圍為1999至2019年,檢索式為TI="archiv*data" OR TI="document data" OR TI="record data" OR TI="electronic record data" OR TI="digital file*data"。截至2019年9月,檢索到文獻451篇。經(jīng)去重、降噪后,最終得到文獻347篇。經(jīng)初步分析發(fā)現(xiàn),在時間上,近20年國外檔案數(shù)據(jù)管理流程研究數(shù)量總體穩(wěn)定,在2012年至2014年間具有一定的熱度。主要原因是云計算、大數(shù)據(jù)等技術(shù)的興起引發(fā)了國外學(xué)界對檔案數(shù)據(jù)管理方法的探索。在內(nèi)容上,有關(guān)檔案數(shù)據(jù)共享、利用的成果類型十分豐富。主要原因在于國外檔案數(shù)據(jù)公開度較高,公開獲取、利用檔案數(shù)據(jù)已成為較多學(xué)者的研究路徑。在領(lǐng)域上,近85%的文獻分布于醫(yī)療衛(wèi)生領(lǐng)域,還有大量文獻分布于天文、氣象等領(lǐng)域。檔案領(lǐng)域較少對檔案數(shù)據(jù)管理流程進行專門研究??傮w上,筆者認(rèn)為國外檔案數(shù)據(jù)管理流程研究可分為檔案數(shù)據(jù)計劃與采集、檔案數(shù)據(jù)整合與存儲、檔案數(shù)據(jù)分析與挖掘、檔案數(shù)據(jù)共享和檔案數(shù)據(jù)利用五個部分。
檔案數(shù)據(jù)計劃與采集研究強調(diào)提高檔案數(shù)據(jù)對未來研究的有用性。相關(guān)學(xué)者明確了檔案數(shù)據(jù)計劃的要素及檔案數(shù)據(jù)的采集范圍、采集方式和質(zhì)量評價。對于檔案數(shù)據(jù)計劃的要素,Bishoff等人認(rèn)為檔案數(shù)據(jù)管理計劃應(yīng)包含管理目標(biāo)、數(shù)據(jù)背景、備份保密、知識產(chǎn)權(quán)、責(zé)任認(rèn)定、檢測審查、數(shù)據(jù)質(zhì)量、真實性保證等多方面規(guī)定[1]。對于檔案數(shù)據(jù)的采集范圍、采集方式和質(zhì)量評價,Doods等人認(rèn)為檔案數(shù)據(jù)采集的范圍不應(yīng)無限擴大,要事先遴選形成檔案核心數(shù)據(jù)清單[2]。Cars等人認(rèn)為可以通過半自動化的方式采集檔案數(shù)據(jù),因為該方法在完整性和一致性上效果更優(yōu),可以兼顧檔案數(shù)據(jù)采集的效率和質(zhì)量[3]。Weiskopf和Weng設(shè)計了評估檔案數(shù)據(jù)質(zhì)量的維度和方法,確定了包括完整性、正確性、一致性、合理性和流通性在內(nèi)的五個維度,以及七種數(shù)據(jù)質(zhì)量評估方法,包括黃金標(biāo)準(zhǔn)比較法、數(shù)據(jù)元素協(xié)議法、數(shù)據(jù)源協(xié)議法、分布比較法、有效性檢查法、日志審查法和元素存在檢查法等[4]。
檔案數(shù)據(jù)整合與存儲研究具有較強的實用性。在檔案數(shù)據(jù)整合方面,F(xiàn)resa等人為檔案數(shù)據(jù)標(biāo)準(zhǔn)開發(fā)了一組高模塊化工具,以便檔案館統(tǒng)一檔案數(shù)據(jù)進館時的格式[5]。在檔案數(shù)據(jù)存儲方面,研究人員追求永久高效地存儲大量不可變的檔案數(shù)據(jù),使其具有高可靠性和可訪問性。相關(guān)研究方向可根據(jù)存儲檔案數(shù)據(jù)的軟、硬件進行細(xì)分。檔案數(shù)據(jù)存儲硬件研究包含檔案數(shù)據(jù)的存儲載體和記錄方法研究,如Holzner等人提出一種高密度多級錄制檔案數(shù)據(jù)的方案,以支持檔案數(shù)據(jù)的超長期保存[6]。檔案數(shù)據(jù)存儲軟件研究包含“怎樣高效地壓縮數(shù)據(jù)”“何種數(shù)據(jù)存儲在何種數(shù)據(jù)庫”“怎樣從數(shù)據(jù)庫中獲取信息”等問題,如YOU等人研究了大型數(shù)據(jù)庫中的檔案數(shù)據(jù)壓縮方法[7]。Freire等人比較研究了某種分布式非結(jié)構(gòu)化數(shù)據(jù)庫與傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)庫在特定環(huán)境下的優(yōu)劣等[8]。Marco-Ruiz等人描述了檔案數(shù)據(jù)建模、轉(zhuǎn)換、集成和標(biāo)準(zhǔn)化所需的技術(shù)和步驟[9]。
檔案數(shù)據(jù)分析與挖掘研究注重與信息技術(shù)的結(jié)合。Gray指出了其原因,認(rèn)為這是快速大量處理檔案數(shù)據(jù)的時代要求決定的[10]。宏觀上,學(xué)者運用數(shù)據(jù)分析方法輔助檔案數(shù)據(jù)的管理利用,如Lemieux探討了使用可視化分析方法支持檔案管理的可能性,認(rèn)為可視化和視覺分析法可作為檔案工作者分析復(fù)雜任務(wù)(如描述檔案)的認(rèn)知輔助[11]。基于此,Choo等人設(shè)計了適用于大規(guī)模檔案數(shù)據(jù)的交互式視覺信息檢索和推薦系統(tǒng),該系統(tǒng)能以散點圖形式顯示檢索到的檔案數(shù)據(jù)及其主題摘要[12]。微觀上,學(xué)者有針對性地優(yōu)化分析算法,使其在特定研究方向上更加精準(zhǔn),如Mathias等人優(yōu)化了老年人預(yù)期壽命指數(shù)預(yù)測算法等[13]。
檔案數(shù)據(jù)共享研究的視角豐富多樣,包含了檔案數(shù)據(jù)共享意識、檔案數(shù)據(jù)共享方法及檔案數(shù)據(jù)共享保障等多個方面。在檔案數(shù)據(jù)共享意識方面,Poole認(rèn)為背景和年齡是最重要的影響因素,此外信任和動力等也會影響檔案數(shù)據(jù)共享意識[14]。在檔案數(shù)據(jù)共享方法方面,Xia等人基于區(qū)塊鏈技術(shù)設(shè)計了檔案數(shù)據(jù)共享的技術(shù)框架,解決了“云存儲”中敏感數(shù)據(jù)共享的訪問控制難題[15]。在檔案數(shù)據(jù)共享保障方面,Ray和Smith認(rèn)為檔案數(shù)據(jù)共享需要通用的數(shù)據(jù)使用協(xié)議、權(quán)利信息、許可條款、教育材料、信用機制和執(zhí)行實踐等進行共同保障[16]。另外,網(wǎng)絡(luò)基礎(chǔ)設(shè)施、組織、規(guī)劃和政策等也是保障的重要因素[17]。
與檔案數(shù)據(jù)分析與挖掘相比,檔案數(shù)據(jù)利用更強調(diào)利用,而非數(shù)據(jù)分析方法。國外的檔案數(shù)據(jù)利用研究范圍廣泛、方式多樣,主要可依利用主體分為檔案機構(gòu)利用和用戶利用兩部分。對檔案機構(gòu)而言,檔案數(shù)據(jù)可用于研究檔案利用者、利用方式和利用率。如Adams將檔案數(shù)據(jù)利用者分為兩類,一類是事實信息尋找者,即利用檔案數(shù)據(jù)探尋事實的人群;另一類是數(shù)據(jù)分析員,即利用檔案數(shù)據(jù)進行分析研究的人群[18]。英國國家檔案館通過提取和可視化檔案數(shù)據(jù)中的歷史事件參考位置,不僅完善了其服務(wù),而且提升了檔案數(shù)據(jù)的利用率[19]。對用戶而言,檔案數(shù)據(jù)能助推部分專業(yè)特色領(lǐng)域的發(fā)展。有學(xué)者利用檔案數(shù)據(jù)進行預(yù)測,有學(xué)者通過檔案數(shù)據(jù)眾包項目拓展研究能力,還有學(xué)者利用檔案數(shù)據(jù)分析結(jié)果推動決策的制定。如Muhling等人根據(jù)檔案數(shù)據(jù)預(yù)測了某海域藍鰭金槍魚幼蟲事件的發(fā)生[20];Paneth-Pollak等人利用某類電子健康檔案數(shù)據(jù)反映的規(guī)律,推動了紐約市公共衛(wèi)生項目決策的制定等[21]。
對文獻進行深入研究后發(fā)現(xiàn),國外檔案數(shù)據(jù)管理流程研究總體呈現(xiàn)研究視角偏重具體環(huán)節(jié),整體性研究較少;研究內(nèi)容重視實踐問題,理論研究較弱;注重新興技術(shù)的利用,但范圍影響有限;研究領(lǐng)域突出專業(yè)特色,但具有廣泛適用性的共性研究不足等特點。
在視角上,檔案數(shù)據(jù)管理流程研究偏重具體環(huán)節(jié),切入點往往“小而深”。國外檔案數(shù)據(jù)管理流程研究分工精細(xì)且角度多元,一般涉及一到多個流程環(huán)節(jié),但包含檔案數(shù)據(jù)管理流程全部環(huán)節(jié)的整體研究較少。這導(dǎo)致檔案數(shù)據(jù)在某一流程環(huán)節(jié)內(nèi)具有很好的可用性,但當(dāng)其進入檔案數(shù)據(jù)管理流程的其他環(huán)節(jié)后,可能出現(xiàn)通用性不高、互操作性不強等問題。
在性質(zhì)上,檔案數(shù)據(jù)管理流程研究偏重實踐,側(cè)重解決具體的實際問題。一方面,這是因為國外研究普遍具有較強的實用性和問題導(dǎo)向性;另一方面,也因為以美國為代表的發(fā)達國家現(xiàn)有的檔案數(shù)據(jù)管理流程較為通暢,可以支持現(xiàn)代化的檔案數(shù)據(jù)管理利用。學(xué)者可以基于檔案數(shù)據(jù)管理利用時暴露的問題,不斷優(yōu)化檔案數(shù)據(jù)管理流程中的各環(huán)節(jié)。不過國外檔案數(shù)據(jù)管理流程基礎(chǔ)理論研究相對薄弱,大量經(jīng)驗和做法未經(jīng)體系化和理論化,這影響了研究的整體性。
在技術(shù)上,檔案數(shù)據(jù)管理流程研究思維開闊,能夠靈活地利用新興技術(shù)提升檔案數(shù)據(jù)管理的效率和效果。對于云計算和可視化等新興技術(shù)在檔案數(shù)據(jù)管理流程中的使用,國外研究顯現(xiàn)出了積極性高、創(chuàng)造性強、應(yīng)用性好等特點。新興技術(shù)的引入、創(chuàng)新與融合不僅促進了國外學(xué)者對檔案數(shù)據(jù)價值進行深層次、精細(xì)化挖掘,還推動了國外檔案管理邁向智慧化和現(xiàn)代化。但不足之處在于,國外相關(guān)研究的實踐范圍較小、影響范圍有限,規(guī)?;?、系統(tǒng)化的應(yīng)用模式尚未形成。
在領(lǐng)域上,某些專業(yè)特色領(lǐng)域的檔案數(shù)據(jù)管理流程研究較為深入。如,由于醫(yī)療衛(wèi)生領(lǐng)域迫切需要利用公民電子健康檔案,因此相關(guān)學(xué)者已在檔案數(shù)據(jù)計劃、檔案數(shù)據(jù)挖掘以及檔案數(shù)據(jù)共享等多方面進行了較深入的探索??蒲袡n案、天文檔案及氣象檔案等專業(yè)特色領(lǐng)域也對相關(guān)領(lǐng)域內(nèi)的檔案數(shù)據(jù)管理流程進行了一定的研究。但與此同時,檔案領(lǐng)域?qū)n案數(shù)據(jù)管理流程的關(guān)注相對較少,導(dǎo)致相關(guān)共性研究不足,專業(yè)特色領(lǐng)域的研究與實踐經(jīng)驗難以促進完善更多領(lǐng)域的檔案數(shù)據(jù)管理流程。
隨著云計算、大數(shù)據(jù)等新興技術(shù)對社會的影響愈發(fā)深入,檔案數(shù)據(jù)的重要性將愈發(fā)突出。為適應(yīng)變化、抓住機遇,筆者認(rèn)為我國必須加快完善檔案數(shù)據(jù)管理流程相關(guān)的理論,推動先進技術(shù)在檔案數(shù)據(jù)管理流程中的應(yīng)用與創(chuàng)新,并強化專業(yè)特色領(lǐng)域成功經(jīng)驗的借鑒推廣。
國外的檔案數(shù)據(jù)管理流程研究雖然豐富,但在理論性和系統(tǒng)性等方面仍有不足,較難為我國相關(guān)研究提供直接的參考。由于實行集中統(tǒng)一的檔案管理體制,我國的檔案數(shù)據(jù)管理范圍龐大、情況復(fù)雜,因此必須先從理論上進行梳理,然后再借鑒國外的相關(guān)思想展開實踐。首先,明確檔案數(shù)據(jù)管理流程管什么。即研究檔案數(shù)據(jù)的概念、分類及特征,界定檔案數(shù)據(jù)管理的范圍,深入了解和剖析檔案數(shù)據(jù)管理對象。其次,分析檔案數(shù)據(jù)管理流程是什么。從概念上厘清檔案數(shù)據(jù)管理及檔案數(shù)據(jù)管理流程的含義及目標(biāo),分清檔案數(shù)據(jù)管理流程和傳統(tǒng)的檔案管理流程的區(qū)別。最后,梳理我國檔案數(shù)據(jù)管理流程有什么。定義檔案數(shù)據(jù)管理的環(huán)節(jié),確定各環(huán)節(jié)的功能、作用、主要方法及要求,找到可能阻礙檔案數(shù)據(jù)準(zhǔn)確、高效傳遞的因素并進行優(yōu)化。
國外對于云計算等新興技術(shù)的靈活運用,在一定程度上推動了檔案管理的轉(zhuǎn)型和發(fā)展。因此,我國的檔案數(shù)據(jù)管理流程研究需要進一步解放思想,加強新興技術(shù)的引入、創(chuàng)新與融合,利用技術(shù)手段規(guī)范檔案數(shù)據(jù)管理流程;并借鑒參考國外檔案數(shù)據(jù)管理流程研究和實踐的經(jīng)驗,基于我國實際對這些技術(shù)做出適應(yīng)性改變。此外,我國還應(yīng)發(fā)揮優(yōu)勢,不斷跟蹤新興技術(shù)的試點,并在評估效果良好后進行推廣。推廣時,要從宏觀上系統(tǒng)思考新興技術(shù)應(yīng)用后帶來的影響,配套給出相應(yīng)的制度等保障條件,使我國檔案數(shù)據(jù)管理流程真正適應(yīng)新時代中國特色社會主義發(fā)展的需要。
首先,從醫(yī)療衛(wèi)生領(lǐng)域到氣象領(lǐng)域,國內(nèi)外多個專業(yè)特色領(lǐng)域已形成或正研究適合該領(lǐng)域的檔案數(shù)據(jù)管理流程。其次,圖書館學(xué)、計算機科學(xué)等領(lǐng)域也探索出了各類適用于特定情境的檔案數(shù)據(jù)管理流程。再次,在長時間的實踐研究中,我國文件檔案管理領(lǐng)域也總結(jié)出了一系列管理流程和經(jīng)驗。因此,深入學(xué)習(xí)借鑒這些領(lǐng)域的研究成果,有助于提煉形成普遍的、公認(rèn)的檔案數(shù)據(jù)管理流程。與此同時,檔案部門還要結(jié)合檔案數(shù)據(jù)管理實踐,不斷充實、完善適于檔案數(shù)據(jù)管理各環(huán)節(jié)的方法和應(yīng)用,使檔案數(shù)據(jù)管理流程切實發(fā)揮作用,推動我國檔案事業(yè)發(fā)展。