摘 要:從傳統(tǒng)的信息化時代跨越到大數(shù)據(jù)時代,人類經(jīng)歷的是翻天覆地的巨大變革。在檔案學(xué)領(lǐng)域,為了順應(yīng)時代發(fā)展的必然需要,大數(shù)據(jù)背景下的檔案也逐漸由數(shù)字化管理轉(zhuǎn)向數(shù)據(jù)化管理。大數(shù)據(jù)背景下的檔案有來源廣、數(shù)量大、格式雜等特點,使得原有的檔案管理模式發(fā)生了轉(zhuǎn)變。本文根據(jù)大數(shù)據(jù)背景下檔案的特點,從收集、整理、保存三個方面對檔案管理模式的轉(zhuǎn)變進行了闡述。
關(guān)鍵詞:大數(shù)據(jù);檔案數(shù)據(jù)化;檔案管理模式
1 大數(shù)據(jù)背景下的檔案由數(shù)字化管理轉(zhuǎn)向數(shù)據(jù)化管理
1.1 從政策方向上來看,大數(shù)據(jù)背景下的檔案由數(shù)字化管理轉(zhuǎn)向數(shù)據(jù)化管理
大數(shù)據(jù)時代的來臨給我們的生活帶來了方方面面的變化,海量數(shù)據(jù)的產(chǎn)生讓我們面臨著更加紛繁復(fù)雜的外部環(huán)境,而大數(shù)據(jù)技術(shù)的運用又在無形之中解決了很多我們原先無法解決的難題。為了順應(yīng)大數(shù)據(jù)時代發(fā)展的整體趨勢,國家檔案局在檔案信息化“十三五”發(fā)展研討中提及了檔案數(shù)據(jù)安全、檔案數(shù)據(jù)內(nèi)容、檔案數(shù)據(jù)挖掘、檔案的數(shù)據(jù)建設(shè)與共享、數(shù)字化成果數(shù)據(jù)化等概念 [1]?!度珖鴻n案事業(yè)發(fā)展“十三五”規(guī)劃綱要》中提出要“采用大數(shù)據(jù)、智慧管理等技術(shù),探索電子檔案與大數(shù)據(jù)行動的融合[2]”?!丁笆奈濉比珖鴻n案事業(yè)發(fā)展規(guī)劃》中提出要“推動檔案全面納入國家大數(shù)據(jù)戰(zhàn)略”這一大方向,并提到了“數(shù)據(jù)治理” “完善政務(wù)服務(wù)數(shù)據(jù)歸檔機制”“大力推動科學(xué)數(shù)據(jù)與科研檔案協(xié)同管理”等實施舉措[3]。
1.2 大數(shù)據(jù)時代,從數(shù)字化管理到數(shù)據(jù)化管理是各項管理工作變化的整體趨勢
在檔案學(xué)領(lǐng)域,于英香認(rèn)為“檔案數(shù)字化不能代替檔案數(shù)據(jù)化,建設(shè)應(yīng)以著錄標(biāo)引等標(biāo)準(zhǔn)化和規(guī)范化工作為基礎(chǔ),以推動檔案數(shù)據(jù)化,進而創(chuàng)新檔案服務(wù)模式[4]”。劉永等針對數(shù)據(jù)時代檔案管理面臨的數(shù)字化和數(shù)據(jù)化認(rèn)知問題和服務(wù)問題基于鏈?zhǔn)焦芾砝碚摵头椒ㄌ岢隽藱n案原生數(shù)據(jù)源全鏈?zhǔn)焦芾淼臄?shù)據(jù)化管理思路[5]。錢毅通過總結(jié)檔案信息形成的技術(shù)環(huán)境的發(fā)展歷程,提出了檔案對象管理的概念,闡述了不同技術(shù)環(huán)境所對應(yīng)的模擬態(tài)、數(shù)字態(tài)、數(shù)據(jù)態(tài)三種形態(tài),深入理解了數(shù)字化到數(shù)據(jù)化轉(zhuǎn)型的趨勢[6]。從數(shù)字化管理到數(shù)據(jù)化管理,檔案管理的模式也發(fā)生了相應(yīng)的改變。
大數(shù)據(jù)背景下,很多新的名詞應(yīng)運而生,例如檔案大數(shù)據(jù)等,而對于已有的名詞,像檔案數(shù)據(jù),其在大數(shù)據(jù)時代的內(nèi)涵與外延均發(fā)生了變化。大數(shù)據(jù)時代的檔案管理,可以借鑒數(shù)據(jù)管理理論,運用大數(shù)據(jù)技術(shù),進行檔案管理與數(shù)據(jù)管理的融合。我們不僅需要考慮數(shù)據(jù)管理的方式方法,還需立足于檔案學(xué)本身,把握住檔案數(shù)字化到檔案數(shù)據(jù)化的趨勢,對檔案管理模式的改變進行整體性把握。
2 檔案收集模式的轉(zhuǎn)變
2.1 檔案收集對象的轉(zhuǎn)變
大數(shù)據(jù)背景下的檔案收集對象由電子文件轉(zhuǎn)向了更細(xì)致的檔案數(shù)據(jù)。檔案數(shù)據(jù)來源廣泛,檔案數(shù)據(jù)的提供主體涉及國家級、省市級檔案館、檔案數(shù)據(jù)產(chǎn)生的業(yè)務(wù)部門等不同的機構(gòu)。涉及主體的增多使得檔案數(shù)據(jù)容量加大,分布廣泛。除此以外,來源于不同機構(gòu)、不同平臺的數(shù)據(jù)格式往往不會相同,圖片、音頻、視頻等各種未經(jīng)處理、不同形式的數(shù)據(jù)混雜在一起。數(shù)量巨大而又紛繁復(fù)雜的檔案數(shù)據(jù)使得傳統(tǒng)的人工形式的收集方式難以運用到檔案數(shù)據(jù)的采集中,因此需要借助大數(shù)據(jù)技術(shù)來完成收集模式的轉(zhuǎn)變。
2.2 從人工收集到自動采集的轉(zhuǎn)變
大數(shù)據(jù)背景下的檔案數(shù)據(jù)收集可以以ETL數(shù)據(jù)倉庫技術(shù)為支撐。ETL(Extract-Transform-Load)是用來描述將數(shù)據(jù)從來源端經(jīng)過抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程,是構(gòu)建數(shù)據(jù)倉庫中的第一步,也是最重要的一步。數(shù)據(jù)采集過程中的ETL工具負(fù)責(zé)將分布的、異構(gòu)數(shù)據(jù)源中的不同種類和結(jié)構(gòu)的數(shù)據(jù)如文本數(shù)據(jù)、關(guān)系數(shù)據(jù)以及圖片、視頻等非結(jié)構(gòu)化數(shù)據(jù)等抽取到臨時中間層后進行清洗、轉(zhuǎn)換、分類、集成,最后加載到對應(yīng)的數(shù)據(jù)存儲系統(tǒng)如數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機分析處理、數(shù)據(jù)挖掘的基礎(chǔ)[7]。數(shù)據(jù)抽?。╡xtract)階段,即從不同渠道,抽取出不同格式的傳統(tǒng)檔案數(shù)據(jù)和新型檔案數(shù)據(jù),同時定義數(shù)據(jù)抽取的方式,對相關(guān)數(shù)據(jù)進行定時或?qū)崟r抽取。數(shù)據(jù)轉(zhuǎn)換、清洗(transform)階段,即針對上一階段抽取到的文本文件、圖片文件、音頻文件、超鏈接等不同格式、不同類型的檔案數(shù)據(jù)進行合并、聚合、格式轉(zhuǎn)換等,確保轉(zhuǎn)換后的數(shù)據(jù)一致性。然后對轉(zhuǎn)換后的數(shù)據(jù)進行清洗,去除冗余和錯誤的數(shù)值,保證數(shù)據(jù)的準(zhǔn)確性。數(shù)據(jù)加載(load)階段,把轉(zhuǎn)換、清洗過的準(zhǔn)確一致的檔案數(shù)據(jù)放入檔案數(shù)據(jù)倉庫中,完成初步的存儲工作。ETL技術(shù)可以解決檔案數(shù)據(jù)多元異構(gòu)帶來的收集困境,通過抽取階段對來源廣泛的檔案數(shù)據(jù)進行實時自動收集,并且在轉(zhuǎn)換、清洗階段過濾掉冗余錯誤的數(shù)據(jù),保證了檔案數(shù)據(jù)格式的一致性。目前,ETL技術(shù)發(fā)展較快,針對傳統(tǒng)ETL橫向擴展產(chǎn)生了分布式ETL,加快了數(shù)據(jù)處理的速度,商業(yè)類ETL工具和開源類ETL工具兩大類別使得ETL工具的選擇面較關(guān)。因此,運用ETL技術(shù)可以較為便捷地實現(xiàn)檔案數(shù)據(jù)的自動采集。
除了ETL數(shù)據(jù)倉庫技術(shù),大數(shù)據(jù)背景下的其他技術(shù)例如智能Agent技術(shù)、網(wǎng)絡(luò)爬蟲技術(shù)等也可以輔助檔案數(shù)據(jù)的收集。智能Agent技術(shù)是一種處于一定環(huán)境下包裝的計算機系統(tǒng),為實現(xiàn)設(shè)計目的,能在該環(huán)境下靈活自主地活動 [8]。依據(jù)檔案管理員制定的收集規(guī)則,運用智能Agent技術(shù)可以自動地抓取電子文件并轉(zhuǎn)換成統(tǒng)一的格式。網(wǎng)絡(luò)爬蟲是一個自動提取網(wǎng)頁的程序, 它為搜索引擎從Web上下載網(wǎng)頁,是搜索引擎的重要組成部分[9],其種類多樣。運用不同的網(wǎng)絡(luò)爬蟲技術(shù)相結(jié)合的方式可以很好地實現(xiàn)容量大、離散型高的檔案數(shù)據(jù)收集。
3 檔案整理模式的轉(zhuǎn)變
3.1 大數(shù)據(jù)背景下檔案整理理念變化
在檔案整理漫長的歷史長河中,一般遵循“歷史聯(lián)系”和“邏輯聯(lián)系”兩大基本聯(lián)系,兩者相互碰撞融合,構(gòu)成了檔案整理理念的主體。歷史聯(lián)系也被稱為“有機聯(lián)系”“內(nèi)在聯(lián)系”,主要包含檔案文件之間的來源、內(nèi)容、時間、形式等的聯(lián)系[10]。而“所謂邏輯聯(lián)系用在文件管理中主要指依據(jù)邏輯思維規(guī)律推演形成的文件間的聯(lián)系。用于文件分類,則指的是按形式邏輯進行劃分。并且往往特指對文件按事由內(nèi)容主題進行的分類[11]”。紙質(zhì)檔案整理工作更多考慮的是文件間的歷史聯(lián)系,代表著歷史聯(lián)系的來源原則在與代表著邏輯聯(lián)系的事由原則的碰撞中一直處于壓倒性的地位中。而電子文件的產(chǎn)生,則讓人們不得不重視起文件間的邏輯聯(lián)系,“新來源觀”的產(chǎn)生就是來源原則與事由原則的有機結(jié)合,就是歷史聯(lián)系與邏輯聯(lián)系的兼顧考慮。大數(shù)據(jù)時代,檔案數(shù)據(jù)的載體、格式等維護著檔案的歷史聯(lián)系,通過大數(shù)據(jù)思維與技術(shù)挖掘出的檔案數(shù)據(jù)價值維護著檔案的邏輯聯(lián)系。檔案數(shù)據(jù)作為檔案,需要考慮檔案間的歷史聯(lián)系;檔案數(shù)據(jù)作為數(shù)據(jù),需要挖掘數(shù)據(jù)間的邏輯聯(lián)系。因此,對于檔案數(shù)據(jù)的整理還是需要秉持歷史聯(lián)系與邏輯聯(lián)系統(tǒng)一的理念。
3.2 大數(shù)據(jù)背景下檔案整理尺度變化
傳統(tǒng)的檔案整理工作主要包括了全宗內(nèi)檔案的分類、立卷、案卷的排列和目錄編制等。立卷改革之后,又提出“卷”改“件”的概念,傳統(tǒng)檔案整理的尺度從“卷”到“件”,逐步細(xì)化。大數(shù)據(jù)時代,檔案內(nèi)容從檔案載體中抽離出來,檔案數(shù)據(jù)碎片化、非結(jié)構(gòu)化等的特點使得“卷”和“件”難以成為整理的衡量尺度,我們只能以一條條獨立的檔案數(shù)據(jù)為單位,進行數(shù)據(jù)信息的挖掘整理。檔案數(shù)據(jù)整理尺度的縮小使得“卷”“件”等組織形式難以適用,甚至連全宗這一概念也受到了大數(shù)據(jù)的沖擊。全宗的本質(zhì)是維護檔案間的歷史聯(lián)系,而大數(shù)據(jù)時代基于數(shù)據(jù)挖掘技術(shù),則對檔案間的邏輯聯(lián)系提出了更高的要求。全宗的分類模式是一種自上而下的單線型分類模式,“除個別情況外,同一全宗的檔案不能分散,不同全宗的檔案不能混雜[12]”,這一特性使得其對于大數(shù)據(jù)背景下的多元對應(yīng)關(guān)系難以適應(yīng)。大數(shù)據(jù)時代大量的數(shù)據(jù)呈現(xiàn)出半結(jié)構(gòu)化、非結(jié)構(gòu)化的特點,檔案數(shù)據(jù)在整理時對組織形式的要求越來越低,全宗這一嚴(yán)謹(jǐn)系統(tǒng)的文件組織形式反而不利于數(shù)據(jù)關(guān)系的挖掘。因此,大數(shù)據(jù)背景下的檔案整理需要重新確立檔案整理理念,改變檔案組織形式,構(gòu)建新的檔案整理模式。新的檔案整理模式是歷史聯(lián)系與邏輯聯(lián)系的兼顧,也是檔案管理與數(shù)據(jù)管理的接洽。
4 檔案保存模式的轉(zhuǎn)變
大數(shù)據(jù)背景下,時間跨度大、來源廣泛的海量檔案數(shù)據(jù)對傳統(tǒng)的檔案保存方式發(fā)起了挑戰(zhàn)。首先,檔案數(shù)據(jù)的容量大,龐大的體積對存儲空間提出了要求??紤]到載體損壞、技術(shù)過時等問題,我們需要對檔案載體、存儲介質(zhì)等進行重新選擇。同時,檔案數(shù)據(jù)不斷積累,對有些需要長期保存的檔案數(shù)據(jù)如何實現(xiàn)數(shù)據(jù)的原位更新、保證數(shù)據(jù)的長期有效性也是需要攻克的技術(shù)難題。其次,檔案數(shù)據(jù)具有多元異構(gòu)的特點。來自不同部門、不同渠道、不同平臺的數(shù)據(jù)結(jié)構(gòu)復(fù)雜,數(shù)據(jù)格式不一樣,處理方式不同,可能存在不兼容的情況。大量非結(jié)構(gòu)化、分布式的檔案數(shù)據(jù)同樣對存儲空間有很大的要求,同時如何將這些雜亂無章的數(shù)據(jù)進行統(tǒng)一的存儲管理也需要相關(guān)技術(shù)的支持。最后,檔案數(shù)據(jù)存儲的安全性問題也需要考慮。面對海量的檔案數(shù)據(jù),在存儲時可能存在系統(tǒng)崩潰,數(shù)據(jù)丟失等問題。如何保障檔案數(shù)據(jù)的安全存儲,在數(shù)據(jù)丟失之后是否有辦法恢復(fù)等,這些問題都對技術(shù)的應(yīng)用和改進提出了要求。
4.1 從本地存儲到云存儲
檔案數(shù)據(jù)來源廣泛、數(shù)量龐大,依照原有的U盤、光盤、硬盤等介質(zhì)進行存儲的方式無法進行海量存儲,對不同格式的檔案數(shù)據(jù)也難以實現(xiàn)統(tǒng)一的存儲。同時,面對海量的檔案數(shù)據(jù),空間和基礎(chǔ)設(shè)備的限制也使得本地存儲變得非常困難。因此大數(shù)據(jù)背景下的檔案數(shù)據(jù)存儲應(yīng)該由本地存儲向著云存儲轉(zhuǎn)變。云存儲可以通過無限地擴容,解決存儲空間不足的問題。在云存儲環(huán)境下,如果存儲容量不足,服務(wù)商可以通過購買新服務(wù)器的方式實現(xiàn)容量的擴充。同時,基于虛擬化技術(shù),用戶本人也可以對存儲空間進行自主調(diào)整。云存儲技術(shù)通過虛擬化技術(shù)可以實現(xiàn)存儲空間的隨意擴充,其成本控制在初期投入上而不需要進行持續(xù)性的投入,節(jié)約存儲成本。除此以外,云存儲不具有對基礎(chǔ)設(shè)備的依賴性,云存儲通過大量的、對等的分布式節(jié)點來滿足海量數(shù)據(jù)的存儲需求,如果一個節(jié)點出現(xiàn)故障也不會影響整個系統(tǒng)的使用,當(dāng)故障節(jié)點恢復(fù)后,又可以繼續(xù)擴展成新的節(jié)點使用。因此,云存儲的引入可以解決本地存儲空間不足、需要耗費大量的人力物力維護存儲設(shè)備等問題。
4.2 從可信數(shù)字倉儲建設(shè)到可信區(qū)塊鏈建設(shè)
電子文件的產(chǎn)生使得原有的紙質(zhì)文件保存方式不能滿足數(shù)字時代的需求,海量的檔案信息促成了數(shù)字倉儲的出現(xiàn)?!皵?shù)字倉儲是在網(wǎng)絡(luò)環(huán)境下提供對數(shù)字對象保存、訪問和管理的系統(tǒng)[13]”,它可以存放大量的數(shù)字檔案資源。而檔案的真實可信性一直是檔案保存中一個重要的議題,只有將數(shù)字倉儲轉(zhuǎn)換為可信數(shù)字倉儲,才能保證數(shù)字檔案資源存儲的安全性。數(shù)字倉儲需要通過認(rèn)證的方式來贏得信任,“既要贏得數(shù)字資源提供方的信任,以便贏得存放數(shù)字資源的機會;又要贏得使用者對倉儲的信任,從而讓倉儲內(nèi)保存的數(shù)字資源被認(rèn)可[14]”。這就對相關(guān)認(rèn)證標(biāo)準(zhǔn)的建立和第三方認(rèn)證機構(gòu)的選擇有很高的要求。而大數(shù)據(jù)背景下,借助區(qū)塊鏈技術(shù),可以在檔案數(shù)據(jù)的真實可信性維護方面實現(xiàn)新的突破。區(qū)塊鏈?zhǔn)恰袄脡K鏈?zhǔn)綌?shù)據(jù)結(jié)構(gòu)來驗證與存儲數(shù)據(jù)、利用分布式節(jié)點共識算法來生成和更新數(shù)據(jù)、利用密碼學(xué)的方式保證數(shù)據(jù)傳輸和訪問的安全、利用由自動化腳木代碼組成的智能合約來編程和操作數(shù)據(jù)的一種全新的分布式基礎(chǔ)架構(gòu)與計算范式[15]”。區(qū)塊鏈具有去中心化的特點,區(qū)塊鏈中的各個節(jié)點都是對等的,任何數(shù)據(jù)的修改、存儲都需要經(jīng)過其他節(jié)點的認(rèn)證,整個系統(tǒng)中不存在中心處理節(jié)點,任何一個節(jié)點的損壞也不影響整個系統(tǒng)的運行。這一特點實現(xiàn)了信任機制的突破,使得檔案數(shù)據(jù)的真實可信性驗證不再需要依靠第三方機構(gòu)認(rèn)證的方式,而可以直接由區(qū)塊鏈技術(shù)來實現(xiàn)。目前將區(qū)塊鏈運用于檔案數(shù)據(jù)真實可信性維護方面已有部分實例。例如,英國的ARCHANGEL項目通過構(gòu)建對等網(wǎng)絡(luò),建立共識機制,應(yīng)用非對稱加密,來創(chuàng)建一個用于保障公共檔案館數(shù)字文件完整性的分布式架構(gòu)[16];中國石化通過檔案系統(tǒng)與區(qū)塊鏈平臺的集成來實現(xiàn)電子檔案的真實性驗證[17]。
大數(shù)據(jù)背景下檔案數(shù)據(jù)容量大、格式雜等特點使得原有的存儲方式難以滿足檔案數(shù)據(jù)的存儲。因此,在大數(shù)據(jù)技術(shù)的支持下,檔案保存模式要從本地存儲向著云存儲轉(zhuǎn)變,從可信數(shù)字倉儲建設(shè)向著可信區(qū)塊鏈建設(shè)轉(zhuǎn)變。
參考文獻(xiàn)
[1]胡小明.從政府信息公開到政府?dāng)?shù)據(jù)開放[J].電子政務(wù),2015(1):67-72.
[2]國家檔案局.國家檔案局印發(fā)《全國檔案事業(yè)發(fā)展“十三五”規(guī)劃綱要》[EB/OL].(2016-04-07)[2019-12-20].http://www.saac.gov.cn/daj/xxgk/201604/4596bddd364641129d7c878a80d0f800.shtml.
[3]國家檔案局.中辦國辦印發(fā)《“十四五”全國檔案事業(yè)發(fā)展規(guī)劃》[EB/OL].(2021-06-09)[2023-1-30].https://www.saac.gov.cn/daj/toutiao/202106/ecca2de5bce44a0eb55c890762868683.shtml.
[4]于英香.檔案大數(shù)據(jù)研究熱的冷思考[J].檔案學(xué)通訊,2015(02):4-8.
[5]劉永,龐宇飛.檔案數(shù)據(jù)化之原生數(shù)據(jù)源全鏈?zhǔn)焦芾矸治鯷J].檔案管理,2018(05):11-18.
[6]錢毅.技術(shù)變遷環(huán)境下檔案對象管理空間演化初探[J].檔案學(xué)通訊,2018(02):10-14.
[7]趙勇,林輝,沈寓實.大數(shù)據(jù)革命——理論、模式與技術(shù)創(chuàng)新[M].北京:電子工業(yè)出版社,2014:92
[8]劉珂.人工智能在檔案管理中的應(yīng)用探析[J].蘭臺世界,2019(02):19-23+12.
[9]劉金紅,陸余良.主題網(wǎng)絡(luò)爬蟲研究綜述[J].計算機應(yīng)用研究,2007(10):26-29+47.
[10]唐霜.信息化環(huán)境下檔案整理理論研究[D].南昌:南昌大學(xué),2015:31.
[11]崔杰,王福亮.新技術(shù)下檔案整理歷史原則的發(fā)展[J].浙江檔案,2008(5).
[12]陳兆,和寶榮,王英瑋.檔案管理學(xué)基礎(chǔ)[M].北京:中國人民大學(xué)出版社,2005:100.
[13]董秋生,黃文.數(shù)字倉儲及其應(yīng)用[J].中華醫(yī)學(xué)圖書情報雜志,2008(03):60-63.
[14]楊璐.可信數(shù)字倉儲認(rèn)證:必要性、標(biāo)準(zhǔn)與主體[J].北京檔案,2014(05):19-22.
[15]劉越男.區(qū)塊鏈技術(shù)在文件檔案管理中的應(yīng)用初探[J].浙江檔案,2018(05):7-11.
[16]楊茜茜.基于區(qū)塊鏈技術(shù)的電子檔案信任管理模式探析:英國ARCHANGEL項目的啟示[J].檔案學(xué)研究,2019(3):135-140.
[17]檔案那些事兒.中國石化如何基于區(qū)塊鏈技術(shù)實現(xiàn)電子檔案的真實性驗證[EB/OL].(2019-07-22)[2020-3-20].https://www.sohu.com/a/328429168_734807.
作者簡介:顧睿涵,上海市疾病預(yù)防控制中心助理館員。