劉慶悅 楊安蓮
摘要:針對檔案數(shù)據(jù)概念不清、語意不明的現(xiàn)狀,文章立足于實踐觀點和歸納演繹法,確定了適用于檔案領域的“數(shù)據(jù)”概念以及“檔案數(shù)據(jù)”的概念,辨析了檔案數(shù)據(jù)與檔案信息、數(shù)字檔案資源、檔案大數(shù)據(jù)的區(qū)別。最后,基于對檔案數(shù)據(jù)概念的理解,進一步劃分了檔案數(shù)據(jù)的類型,歸納了檔案數(shù)據(jù)的特點。
關鍵詞:檔案數(shù)據(jù);檔案管理;數(shù)據(jù)
分類號:G270.7
一直以來,檔案數(shù)據(jù)都存在于檔案工作之中。在20世紀90年代,得益于計算機和數(shù)據(jù)庫技術的普及,檔案數(shù)據(jù)很早就受到檔案部門關注,成為檔案研究、實踐的主題之一。近年來,由于觀念、方法和技術環(huán)境的巨大變革,檔案數(shù)據(jù)開始從簡單的處理對象轉變?yōu)橐环N基礎性資源,如何更好地管理和利用檔案數(shù)據(jù)逐漸成為我國檔案領域的焦點話題。但長期以來,檔案數(shù)據(jù)概念不清、語意不明、混淆使用等問題較大地阻礙了檔案數(shù)據(jù)研究和實踐進程。因此,立足于歸納演繹法和實踐觀點,本文試圖劃定檔案數(shù)據(jù)概念,探究檔案數(shù)據(jù)的分類及特點,以期為檔案數(shù)據(jù)研究筑牢根基。
1檔案數(shù)據(jù)研究的興起動因
追本求源,檔案數(shù)據(jù)研究的興起主要來自外部和內部兩個方向的推動。從外部看,檔案數(shù)據(jù)是社會發(fā)展的產(chǎn)物,探討研究檔案數(shù)據(jù)是歷史的必然;從內部看,檔案數(shù)據(jù)是檔案信息化建設的基礎,同數(shù)字檔案資源的管理、開發(fā)具有密切聯(lián)系。無論為順應外部環(huán)境發(fā)展,還是為做好檔案本職工作,檔案數(shù)據(jù)研究都是無法回避的基礎性課題。
1.1外部動因
(1)數(shù)據(jù)爆炸導致大量檔案數(shù)據(jù)生成
計算機自誕生起就迅速成為社會實踐的重要組成部分。作為計算機世界的基礎,數(shù)據(jù)大量產(chǎn)生并存儲在計算機系統(tǒng)中,記錄著社會生活的各個方面。作為數(shù)據(jù)家族的一員,檔案數(shù)據(jù)隨數(shù)據(jù)總量的爆炸式增長而增長,逐漸形成巨大的規(guī)模。這些檔案數(shù)據(jù)分布于各類信息管理系統(tǒng)中,利用程度各不相同,但整體上具有很高的價值。探討研究檔案數(shù)據(jù),一方面有助于將其納入統(tǒng)一管理,提升檔案工作效率;另一方面也有利于開發(fā)利用檔案信息的更多價值。
(2)技術進步推動檔案數(shù)據(jù)價值挖掘
在我國信息化建設早期,傳統(tǒng)技術無法滿足檔案部門對檔案數(shù)據(jù)價值的開發(fā)需求,檔案數(shù)據(jù)高價值量與低價值實現(xiàn)間的矛盾長期無法化解。隨著時代的發(fā)展,云計算、大數(shù)據(jù)等技術逐漸成熟,有力地提高了檔案部門的數(shù)據(jù)處理能力,為高效開發(fā)檔案數(shù)據(jù)價值提供了可能。通過發(fā)掘檔案數(shù)據(jù)價值,檔案部門能夠了解自身業(yè)務效率和業(yè)務質量,分析檔案利用者的行為特征及需求,并從檔案數(shù)據(jù)中提煉更多信息、發(fā)現(xiàn)更多知識,從而輔助決策,為社會發(fā)展提供動力。
(3)社會發(fā)展提出檔案數(shù)據(jù)服務需求
在信息社會,電子政務改革如火如荼,無紙化辦公推行愈發(fā)深入,數(shù)字人文研究日漸興起,“讓群眾少跑腿,讓數(shù)據(jù)多跑路”已成為社會的呼聲。在檔案“收管用”的上下游階段及數(shù)字化程度越來越高的今天,檔案數(shù)據(jù)服務能力已不能很好地滿足政府辦公、學術研究等方面的需求。檔案學來源于實踐也最終服務于實踐。面對數(shù)字化浪潮席卷社會的現(xiàn)狀,檔案人不得不緊跟時代,研究、接收、管理檔案數(shù)據(jù),及時向社會提供檔案數(shù)據(jù)服務,高效跟進政府、社會的改革與建設需求。
1.2內部動因
(1)數(shù)字檔案資源建設亟須探索檔案數(shù)據(jù)
近年來,面對檔案事業(yè)“十三五”規(guī)劃的目標要求,全國各級各類檔案館的數(shù)字化館藏比例逐年提高,電子化歸檔試點范圍逐漸擴大。有抽樣調查結果顯示,截至2018年,我國已有33.1%的國家綜合檔案館數(shù)據(jù)存儲量達到了1TB以上。但與此同時,檔案數(shù)據(jù)內容不完整、格式不規(guī)范、標準不統(tǒng)一、運用思路不清晰等問題逐漸顯現(xiàn),制約了數(shù)字檔案資源的管理與開發(fā)。面對日益龐大的檔案數(shù)據(jù)規(guī)模,盤點數(shù)據(jù)資產(chǎn)、理清管理思路、提升數(shù)據(jù)質量便成為數(shù)字檔案資源建設的重要需求之一。
(2)數(shù)字檔案資源管理需從數(shù)據(jù)粒度展開
從傳統(tǒng)檔案資源到數(shù)字檔案資源,檔案管理的最小單位已從“件”細化至“數(shù)據(jù)”。對數(shù)字檔案資源的管理最終會落實為對其內容數(shù)據(jù)、管理數(shù)據(jù)和利用數(shù)據(jù)等多類數(shù)據(jù)的管理。在電子化歸檔試點單位,浙江省衢州市檔案局便用“接收了4萬余條歸檔數(shù)據(jù)”描述其歸檔接收情況。隨著我國檔案工作“存量數(shù)字化,增量電子化”戰(zhàn)略的展開與落實,數(shù)字檔案資源進一步深入到檔案實務,檔案數(shù)據(jù)即將成為未來檔案工作面對的主要對象。
(3)數(shù)字檔案資源整合共享要求數(shù)據(jù)互聯(lián)互通
我國一直實行檔案集中統(tǒng)一管理的原則,這是基于歷史實踐的發(fā)展需要確定的。數(shù)字檔案資源的整合共享是集中統(tǒng)一管理原則的體現(xiàn),也是未來的發(fā)展趨勢。要實現(xiàn)數(shù)字檔案資源的整合共享,必須先實現(xiàn)數(shù)據(jù)層面的互聯(lián)互通,解決各單位不清楚收集哪些數(shù)據(jù)的“數(shù)據(jù)不可知”,數(shù)據(jù)質量過低導致的“數(shù)據(jù)不可控”,用戶無法便捷獲取的“數(shù)據(jù)不可取”,以及數(shù)據(jù)與知識關聯(lián)較弱的“數(shù)據(jù)不可聯(lián)”等問題。只有數(shù)據(jù)層面貫通無阻,資源層面才能形成體系,順利保障國家數(shù)字檔案資源的整合共享。
2檔案數(shù)據(jù)的概念
2.1檔案數(shù)據(jù)概念的既有認知
在檔案領域,“檔案數(shù)據(jù)”不是一個新興術語。近年來,“檔案數(shù)據(jù)”一詞頻繁地出現(xiàn)在各類規(guī)劃綱要、報告成果中。在文獻調研基礎上,筆者將既有的“檔案數(shù)據(jù)”指代對象歸納如下:第一,指代數(shù)字檔案資源;第二,指代數(shù)據(jù)庫的管理數(shù)據(jù)或檔案信息系統(tǒng)的業(yè)務流程數(shù)據(jù);第三,指代各單位的統(tǒng)計數(shù)據(jù);第四,指代網(wǎng)站、論壇、社交媒體等平臺中采集得到的數(shù)據(jù)??傮w而言,“檔案數(shù)據(jù)”一詞的指代對象范圍廣泛,在不同的語境中有不同的理解。
在學術界,檔案數(shù)據(jù)并無公認的概念,僅有于英香教授系統(tǒng)地梳理過“檔案數(shù)據(jù)”的內涵與外延。她認為:從內涵看,“檔案數(shù)據(jù)是具備檔案屬性的數(shù)據(jù)”;從外延看,基于檔案業(yè)務,檔案數(shù)據(jù)在時間角度包含傳統(tǒng)檔案數(shù)據(jù)和后來產(chǎn)生的新的實時數(shù)據(jù),在空間角度包含檔案及在檔案業(yè)務活動中產(chǎn)生的數(shù)據(jù),在狀態(tài)角度包含文檔、數(shù)據(jù)庫、微博記錄、微信推送以及產(chǎn)生這些數(shù)據(jù)的軟硬件環(huán)境等。然而該研究沒有具體說明應怎樣理解“數(shù)據(jù)”和“檔案屬性”,這仍可能導致理解上的分歧。
2.2概念演繹:從數(shù)據(jù)到檔案數(shù)據(jù)
(1)數(shù)據(jù)概念的確定
作為檔案數(shù)據(jù)的上位概念,數(shù)據(jù)本身具有極為豐富的含義。在詞源上,數(shù)據(jù)一詞來源于拉丁文dare,是使用測量、記錄等方法,從現(xiàn)象中抽象出來的元素。在哲學界,有學者將數(shù)據(jù)定義為“兩個符號之間一致性的缺失”;也有學者認為數(shù)據(jù)是一種人工物,即“數(shù)據(jù)是被構造的”;還有學者將數(shù)據(jù)理解為“實在世界的表征”,是描述客觀事物的符號。在人類科技發(fā)展歷程中,最后一種理解被廣泛接受。計算機科學即基于這一認識,將數(shù)據(jù)定義為“所有能被輸入計算機中,且能被計算機處理的符號集合”,它以字節(jié)(Byte)為單位,是數(shù)據(jù)原子、數(shù)據(jù)項、數(shù)據(jù)對象和數(shù)據(jù)集的統(tǒng)稱。同樣基于上述廣為接受的哲學認識,信息管理領域的學者強調數(shù)據(jù)是信息的基礎,是人類思想和社會活動客觀映射的數(shù)字化、序列化、編碼化和結構化。在信息管理領域,數(shù)據(jù)是“載荷或記錄信息的,按一定規(guī)則排列組合的物理符號”。在筆者看來,研究檔案數(shù)據(jù)的最終目的是將其高效地轉化為信息和知識,實現(xiàn)更大的價值。因此,信息管理領域的數(shù)據(jù)定義更適于作為檔案數(shù)據(jù)的基本解釋。綜合考慮檔案研究和實踐面對的對象后,檔案領域應用的數(shù)據(jù)概念更多地反映為“一組按一定規(guī)則排列組合的,用于表達信息的物理符號”。
(2)檔案數(shù)據(jù)的概念
實踐的觀點是馬克思辯證唯物主義的基本觀點,也是檔案學研究的基本觀點。實踐是認識的目的和歸宿,認識對實踐具有反作用。在檔案領域,檔案數(shù)據(jù)概念的提出也必須來源于檔案實踐,并有效指導檔案實踐。
近年來,伴隨“檔案數(shù)據(jù)”一詞的使用,人們對檔案數(shù)據(jù)有廣義或狹義的理解。在廣義的理解中,檔案數(shù)據(jù)可視為“與檔案有關的數(shù)據(jù)”,包括與檔案相關的視頻、語音、程序軟件、聊天記錄等豐富的存在形式,甚至人腦記憶的與檔案相關的數(shù)據(jù)也屬于檔案數(shù)據(jù)。這里“有關”的范圍過于寬泛,難以確定并落實。在狹義的理解中,檔案數(shù)據(jù)可視為“作為檔案的數(shù)據(jù)”,即檔案數(shù)據(jù)既是數(shù)據(jù)又是檔案。這種理解略顯狹隘,不僅與數(shù)字檔案資源的內涵重合,還忽略了大量存在于檔案工作中,可被管理和利用的元數(shù)據(jù)、統(tǒng)計數(shù)據(jù)、實時數(shù)據(jù)等數(shù)據(jù)??傮w而言,這兩種理解均不適用于指導檔案實踐。
從實踐的角度,檔案數(shù)據(jù)概念的確定應緊緊圍繞檔案利用需求和檔案管理工作展開。筆者傾向于將檔案數(shù)據(jù)理解為“承載檔案信息的數(shù)據(jù)以及在檔案信息管理利用活動中產(chǎn)生的數(shù)據(jù)”。由于無法進行大量且復雜的計算,傳統(tǒng)環(huán)境中較少將檔案數(shù)據(jù)用作獨立術語。在當代,檔案數(shù)據(jù)概念的應用更多地伴生于計算機技術的發(fā)展,指向數(shù)字環(huán)境。
(3)相關概念辨析
在前期檢索和閱讀以“檔案數(shù)據(jù)”為主題的文獻資料時,筆者發(fā)現(xiàn)在實際運用中檔案數(shù)據(jù)常與檔案信息、數(shù)字檔案資源以及檔案大數(shù)據(jù)等概念混淆。因此,在認清檔案數(shù)據(jù)概念的基礎上,有必要從理論上進一步梳理上述概念間的關系。
檔案信息是依附于一定載體的人類活動原始信息的集合。由數(shù)據(jù)和信息的關系演繹得到,檔案數(shù)據(jù)經(jīng)解釋可轉化為檔案信息,檔案信息需經(jīng)過數(shù)據(jù)化轉變方能存儲和傳輸。數(shù)字檔案資源指“辦公自動化條件下形成的,電子文件歸檔后形成的數(shù)字檔案資源和檔案館(室)藏傳統(tǒng)載體檔案數(shù)字化后形成的數(shù)字檔案資源?!彼鼘嶋H包含于檔案數(shù)據(jù)的概念范疇中,是檔案數(shù)據(jù)最重要的組成部分。檔案大數(shù)據(jù)更多地指代一種現(xiàn)象:當檔案數(shù)據(jù)的數(shù)據(jù)量、復雜程度以及數(shù)據(jù)處理要求超出傳統(tǒng)數(shù)據(jù)的能力范疇時,我們稱之為檔案大數(shù)據(jù)現(xiàn)象。究其本質,檔案大數(shù)據(jù)是檔案數(shù)據(jù)的拓展和延伸。
3檔案數(shù)據(jù)的分類及特點
根據(jù)檔案數(shù)據(jù)的概念劃定,可以進一步劃分出檔案數(shù)據(jù)的分類,并歸納出檔案數(shù)據(jù)的特點。了解這些分類和特點,又能反過來幫助理解檔案數(shù)據(jù)的概念,指導檔案數(shù)據(jù)的管理和使用。
3.1檔案數(shù)據(jù)的分類
檔案數(shù)據(jù)的分類是對檔案數(shù)據(jù)概念進行理解的結果,對檔案數(shù)據(jù)研究及實踐具有宏觀指導意義。筆者結合實際,依據(jù)產(chǎn)生檔案數(shù)據(jù)的活動類型將檔案數(shù)據(jù)劃分為檔案內容數(shù)據(jù)、檔案管理數(shù)據(jù)和檔案利用數(shù)據(jù)三類。
檔案內容數(shù)據(jù)承載了檔案中蘊含的信息內容,是在檔案形成單位各項活動中產(chǎn)生的數(shù)據(jù)。檔案內容數(shù)據(jù)主要包括傳統(tǒng)檔案數(shù)字化后形成的檔案數(shù)據(jù)、電子環(huán)境下形成的檔案數(shù)據(jù)以及檔案編研時形成的檔案數(shù)據(jù)。它一般具有最高的真實完整性和較低的結構化程度,反映了檔案形成單位各項活動的歷史事實?,F(xiàn)階段,檔案內容數(shù)據(jù)主要用作憑證或參考資料,此外還有大量潛在價值未得到開發(fā)。
檔案管理數(shù)據(jù)是由檔案管理及相關活動產(chǎn)生的,面向檔案管理的數(shù)據(jù)。檔案管理數(shù)據(jù)多指對檔案信息數(shù)據(jù)進行收集、鑒定、整理、保管、統(tǒng)計時形成的數(shù)據(jù)以及檔案行政管理工作時形成的數(shù)據(jù)。與其他類型檔案數(shù)據(jù)相比,檔案管理數(shù)據(jù)結構化程度較高,客觀性較強,較易收集和分析。
檔案利用數(shù)據(jù)主要由檔案利用活動產(chǎn)生,是面向檔案利用的數(shù)據(jù)。檔案利用數(shù)據(jù)不僅包括檔案部門收集的檔案提供利用數(shù)據(jù),例如檔案利用者基本信息、檔案借閱時間等,而且也包括檔案利用者發(fā)布的利用數(shù)據(jù),如檔案利用評論、建議等。檔案利用數(shù)據(jù)是了解檔案數(shù)據(jù)需求的重要抓手,其分布較為零散,客觀程度及結構化程度不一??傮w而言,檔案部門收集的提供利用數(shù)據(jù)客觀性更強,結構化程度更高,用戶發(fā)表的利用數(shù)據(jù)主觀性更強,結構化程度較低。
3.2檔案數(shù)據(jù)的特點
從數(shù)據(jù)到檔案數(shù)據(jù)的演繹可以看出,檔案數(shù)據(jù)首先是一種數(shù)據(jù),擁有數(shù)據(jù)的某些共同特點,如物理性、信息性、共享性。同時,檔案數(shù)據(jù)的形成環(huán)境又為檔案數(shù)據(jù)賦予了某些特性,例如真實性、完整性、體系性、保密性和高價值性等。具體來看:
(1)真實性
作為社會生活真實可靠的原始記錄,檔案內容數(shù)據(jù)本身具有毋庸置疑的真實性。同時,檔案管理數(shù)據(jù)和檔案利用數(shù)據(jù)是依法依規(guī)形成且由組織認可的數(shù)據(jù),也具有較高的真實性。因此,與真?zhèn)坞y辨的其他類型數(shù)據(jù)相比,檔案數(shù)據(jù)整體上具有較高的真實性。
(2)完整性
檔案內容數(shù)據(jù)是對社會活動的最全面的記載,檔案管理和檔案利用數(shù)據(jù)體現(xiàn)了檔案業(yè)務活動全程,相對而言集中且完整。
(3)體系性
檔案數(shù)據(jù)彼此間相互關聯(lián),小則體現(xiàn)了一個單位的業(yè)務活動狀況,大則體現(xiàn)了一個時代的人民生產(chǎn)、生活狀況。檔案內容數(shù)據(jù)是這一體系的主體,時間順序和全宗原則是這一體系的主要秩序。圍繞按全宗分類的檔案內容數(shù)據(jù),其管理、利用數(shù)據(jù)按時間順序依次排列。
(4)保密性
檔案數(shù)據(jù)中涉密數(shù)據(jù)比重較大,密級較高,有較強的保密需求。這一點也有別于其他類型數(shù)據(jù)。
(5)高價值性
一方面,檔案數(shù)據(jù)具有極高的憑證價值、情報價值和潛在價值,無論是用作查考糾紛時的憑證,還是為學術研究提供相關的參考,又或是根據(jù)檔案數(shù)據(jù)分析結果提出預測或支持決策,檔案數(shù)據(jù)能夠滿足社會生活的多種利用需求;另一方面,承載了檔案信息的檔案內容數(shù)據(jù)價值密度較高,且在檔案數(shù)據(jù)中有較高的占比,這也使檔案數(shù)據(jù)整體具有了較高的價值。
除上述特點外,檔案數(shù)據(jù)還具有許多源自其數(shù)據(jù)本質或源自其形成環(huán)境的特點,此處不再逐一列舉。
4結語
新環(huán)境、新問題意味著新機遇、新挑戰(zhàn)。數(shù)據(jù)驅動型研究和實踐已成為新技術環(huán)境下當代社會的發(fā)展趨勢之一,若想通過數(shù)據(jù)賦能于檔案工作,就必須深刻透徹地了解檔案數(shù)據(jù),高效地管理檔案數(shù)據(jù),并盡可能地挖掘其中價值。理清研究檔案數(shù)據(jù)的必要性和基本概念是這項工作的第一步,有利于檔案工作梳理出更明確的目標和思路,向實現(xiàn)以信息化為核心的檔案管理現(xiàn)代化大步前進。