摘要:在檔案資源對象發(fā)展演化的過程中,數(shù)據(jù)態(tài)檔案作為新型資源對象,具有信號和語義雙重離散的本質(zhì)特征。因此,有必要對已有檔案管理理念和實踐進行重塑,建立能夠解除語義離散帶來的高階邏輯依賴的數(shù)據(jù)態(tài)檔案管理模式。本文在檔案資源連續(xù)空間演化圖景的指導下,明確數(shù)據(jù)態(tài)檔案管理模式的概念及功能定位,闡明其區(qū)別于其他形態(tài)檔案資源管理模式的特征,并對模式構(gòu)建所面臨的主要挑戰(zhàn)進行分析。研究認為數(shù)據(jù)態(tài)檔案管理模式以體系性、連續(xù)性、可理解性和專業(yè)性為主要特征,在空間管控、證用價值維系、管理機制協(xié)同與技術能力建設等方面面臨挑戰(zhàn)。
關鍵詞:數(shù)據(jù)態(tài)檔案 數(shù)據(jù)態(tài)檔案管理模式 概念內(nèi)涵
Abstract: In the development and evolution of archival resource objects, data-state archives as a new type of resource objects has the essen? tial characteristics of signal and semantic double discrete.Therefore it is necessary to reshape the existing archival management theory and practic? es, and establish a management model for datastate archives that can relieve the higher-order logical dependence brought about by semantic discrete. Guided by a scenario of continuous space evolution of archival resources, this paper clarifies the concept and function of the manage? ment model for data- state archives, elucidates its characteristics that distinguish it from other forms of management models, and analyses the main challenges faced in the construction of the model. The study concludes that the manage? ment model for data-state archives is character? ized by systematicity, continuity, comprehensibili? ty and professionalism, and that it faces challeng? es in terms of space control, maintenance of the value of evidence and utilization, coordination of management mechanisms and development of technical capacity.
Keywords:Data- state archives;Manage? ment model for data- state archives;Concept connotation
數(shù)據(jù)作為新型生產(chǎn)要素,正伴隨著數(shù)字中國戰(zhàn)略的深入實施成為數(shù)字化、網(wǎng)絡化、智能化的基礎,深刻改變著生產(chǎn)生活方式和社會治理方式。由中國人民大學主辦的2023年“中國電子文件管理論壇”的主題為“面向數(shù)字中國戰(zhàn)略的檔案數(shù)據(jù)創(chuàng)新與發(fā)展”,精準抓住了數(shù)據(jù)時代檔案管理的核心主題。數(shù)據(jù)是檔案資源體系的重要組成部分,數(shù)據(jù)態(tài)檔案是檔案資源對象演化在數(shù)據(jù)時代的新形態(tài),具有信號和語義雙重離散的核心特征。在國家政策肯定、信息技術賦能和業(yè)務數(shù)據(jù)驅(qū)動的多重動力之下,數(shù)據(jù)態(tài)檔案在業(yè)已形成的數(shù)據(jù)環(huán)境中產(chǎn)生并培育。數(shù)據(jù)態(tài)檔案體量指數(shù)級增長、類型不斷豐富,為檔案事業(yè)提供新發(fā)展機遇的同時,也對前一階段逐漸探索完善的電子文件歸檔和電子檔案管理模式提出挑戰(zhàn)。不同于實體檔案對象的序化載體管理、數(shù)字檔案對象的可信內(nèi)容管理,數(shù)據(jù)態(tài)檔案對象面對的是數(shù)據(jù)理解與復用、業(yè)務邏輯與規(guī)則表達、語義整合與復現(xiàn)等新問題,需要與之匹配的數(shù)據(jù)態(tài)檔案管理模式提供新的解決方案?;诖吮尘埃疚膹墓芾砟J降木S度對數(shù)據(jù)態(tài)檔案的管理與維護展開探索,以充分挖掘并發(fā)揮數(shù)據(jù)態(tài)檔案在數(shù)智時代的多元價值,構(gòu)筑起凝結(jié)過去、基于當下、面向?qū)淼臋n案信息化完整發(fā)展空間。
數(shù)據(jù)態(tài)檔案是在新一代信息技術條件下以數(shù)據(jù)形式存在的新型檔案形態(tài),具有信號和語義雙重離散的核心特征。相較于紙質(zhì)檔案管理所強調(diào)的載體管理、電子檔案管理所強調(diào)的文件管控,數(shù)據(jù)態(tài)檔案管理在歸檔、管理和長期保存等核心業(yè)務環(huán)節(jié)都表現(xiàn)出極大的差異性。這種檔案資源形態(tài)演變所呈現(xiàn)出的新樣態(tài),同樣反映在政策法規(guī)的規(guī)制與理論研究的探索方面。
檔案領域相關政策法規(guī)以積極融入國家大數(shù)據(jù)戰(zhàn)略為導向,開始重點探索數(shù)據(jù)與檔案協(xié)同以及數(shù)據(jù)歸檔等問題。《“十四五”全國檔案事業(yè)發(fā)展規(guī)劃》要求“實現(xiàn)對國家和社會具有長久保存價值的數(shù)據(jù)歸口各級各類檔案館集中管理”以及“大力推動科學數(shù)據(jù)與科研檔案協(xié)同管理”。地方檔案部門如浙江省檔案局形成了《政務服務網(wǎng)電子文件歸檔數(shù)據(jù)規(guī)范》,對政務服務網(wǎng)電子文件歸檔過程中存檔信息包的數(shù)據(jù)結(jié)構(gòu)、命名規(guī)則和材料形成整理要求等進行了規(guī)定,嘉興市檔案館更是探索形成了《嘉興市市級機關政務業(yè)務系統(tǒng)數(shù)據(jù)歸檔暫行標準》。
理論研究在法規(guī)政策引導、檔案部門響應、學界研究推動下,其研究已初具規(guī)模。筆者在2018年率先提出了包括模擬態(tài)、數(shù)字態(tài)和數(shù)據(jù)態(tài)的“三態(tài)”演化的觀點,明確用“數(shù)據(jù)態(tài)”指代數(shù)據(jù)檔案空間。此后代表學者如趙生輝認為檔案與數(shù)據(jù)分屬信息世界和機器世界,二者存在著相互依賴的雙軌共生關系[1];陳永生強調(diào)由電子數(shù)據(jù)條目構(gòu)成的電子檔案是真正意義上的原生性電子檔案,其信息內(nèi)容富語義化和價值增強,但也易于失去解析情境[2];金波認為檔案數(shù)據(jù)顆粒度細化,開發(fā)方式屬于內(nèi)容控制,其數(shù)據(jù)價值是檔案在數(shù)據(jù)時代的價值新發(fā)現(xiàn)[3];劉越男指出數(shù)據(jù)治理是大數(shù)據(jù)時代檔案管理的新職能,檔案管理分擔歷史性業(yè)務數(shù)據(jù)和文化記憶數(shù)據(jù)的治理,以文檔和內(nèi)容管理為立足點[4];趙躍提出檔案科學介入數(shù)據(jù)資源管理的檔案化模式,變控制為干預,實現(xiàn)數(shù)據(jù)資源的檔案化認同和數(shù)據(jù)資源管理過程的“檔案化”轉(zhuǎn)變[5]??梢?,數(shù)據(jù)態(tài)檔案研究在概念認知、核心內(nèi)容、業(yè)務與規(guī)則等方面均取得了一定進展。
但檔案學研究的“數(shù)據(jù)熱”中,缺少針對普遍問題與困境展開的通用管理體系構(gòu)建,對數(shù)據(jù)態(tài)檔案管理模式的系統(tǒng)研究基本空白,這種只見樹木不見森林的研究態(tài)勢容易導致對這一新生對象的探討流于片面,不利于從整體對數(shù)據(jù)態(tài)檔案本質(zhì)進行把握,從而阻礙空間整體管理能力形成。為有效管理數(shù)據(jù)態(tài)檔案,充分挖掘并發(fā)揮數(shù)據(jù)態(tài)檔案在數(shù)智時代的多元價值,亟須探索適應數(shù)據(jù)態(tài)環(huán)境的檔案管理新模式。
數(shù)據(jù)態(tài)檔案管理模式的研究尚處于起步階段,但可以確定的是其相關研究必須堅持以數(shù)據(jù)態(tài)對象本質(zhì)特征為核心,應包含從全局角度對數(shù)據(jù)態(tài)檔案對象管理的理論重塑,以及對這一新型檔案對象核心業(yè)務的實踐重構(gòu)。
(一)數(shù)據(jù)態(tài)檔案管理模式是基于數(shù)據(jù)本質(zhì)的理論重塑
筆者在前序研究使用檔案管理對象空間概念來涵蓋特定態(tài)別檔案資源特質(zhì)及其相應技術體系、管理環(huán)境、適用規(guī)范等要素[6],并在2023年“中國電子文件管理論壇”中以“檔案資源連續(xù)空間演化圖景分析”為主題,對管理空間的概念進行了較為完整的闡釋。不同態(tài)別資源空間之間存在發(fā)展的連續(xù)性和動態(tài)的轉(zhuǎn)換關系,數(shù)據(jù)態(tài)在連續(xù)空間中既是模擬態(tài)和數(shù)字態(tài)空間轉(zhuǎn)換的結(jié)果,也是知識態(tài)和價值態(tài)空間演化的基礎,具有承上啟下的樞紐作用。但資源管理對象空間概念偏重于宏觀與整體表達,旨在汲取空間立體性、綜合性、動態(tài)性和連續(xù)性的精義,其相對抽象的表述不能與諸要素組成的管理情境直接聯(lián)系。因而本文提出將相應態(tài)別的檔案管理模式作為空間表達的具體化形式,在與具體工作銜接時更能體現(xiàn)出特定態(tài)別對象的管理程序、方法、結(jié)構(gòu)等核心內(nèi)容。
數(shù)據(jù)態(tài)檔案管理模式是數(shù)據(jù)態(tài)空間在管理環(huán)境中的具象化,是該空間范疇內(nèi)相關理論、規(guī)范和業(yè)務規(guī)則的綜合。數(shù)據(jù)態(tài)檔案管理模式立足于檔案對象信號與語義雙離散的特點,從理論層面回應如何重構(gòu)離散數(shù)據(jù)語義的核心問題。數(shù)據(jù)態(tài)檔案對象離散的特點為信息對象的連續(xù)理解帶來困難,但其離散的顆粒度形式同時也為多視角、多維度、多層次的數(shù)據(jù)敘事和數(shù)據(jù)價值開發(fā)提供了嶄新的空間。為此,數(shù)據(jù)態(tài)檔案管理模式應開展細致的理論重塑工作,要對維系數(shù)據(jù)語義連續(xù)、管控數(shù)據(jù)之間關聯(lián)與結(jié)構(gòu)的方法進行研究,并在此基礎上對受其影響而發(fā)生變化的業(yè)務流程和規(guī)范進行更新再造。例如,在將關系數(shù)據(jù)庫轉(zhuǎn)換為XML文件進行歸檔保存時,利用XML處理工具或編程語言,根據(jù)數(shù)據(jù)庫中的外鍵約束,將數(shù)據(jù)模型中的對象進行關聯(lián),建立表與表之間、表與主鍵之間的關聯(lián)關系,或者將存儲過程與相關的表進行關聯(lián)。這種關聯(lián)使得XML文檔能夠清晰地反映數(shù)據(jù)庫中的結(jié)構(gòu)和關系,為后續(xù)的數(shù)據(jù)存儲、查詢和處理提供便利。數(shù)據(jù)態(tài)管理模式需要將此類關聯(lián)方法抽象為數(shù)據(jù)關聯(lián)的恢復和固化,并將其嵌入業(yè)務流程和管理系統(tǒng)中。[7]
(二)數(shù)據(jù)態(tài)檔案管理模式是面向業(yè)務環(huán)節(jié)的實踐重構(gòu)
數(shù)據(jù)態(tài)檔案管理模式不是虛化的理念,也不是實際模型,是介于二者之間的兼有理論導向與實踐指導功能的層級。該模式確定了對于數(shù)據(jù)態(tài)檔案這一特殊對象管理的基本理念和實踐方向,在抽象層級上與具體的管理方法仍有區(qū)隔,是指導管理方法形成的基礎,具有豐富的實踐內(nèi)涵。
數(shù)據(jù)態(tài)檔案管理模式需要在資源管理的各業(yè)務環(huán)節(jié)實踐中解決由于雙重離散帶來的矛盾,這種疊加管理需求直接導致大量業(yè)務環(huán)節(jié)需要進行實踐重構(gòu),典型的如歸檔、保存、鑒定、編研、開發(fā)利用等。此外,處于連續(xù)空間樞紐環(huán)節(jié)的數(shù)據(jù)態(tài),還產(chǎn)生了不少業(yè)務增量,如數(shù)據(jù)檔案化、數(shù)據(jù)語義化等新型業(yè)務形態(tài)。這些存量與增量業(yè)務都需要根據(jù)數(shù)據(jù)態(tài)檔案的對象特征進行針對性的業(yè)務創(chuàng)新。歸檔方面,王強初步研究了業(yè)務系統(tǒng)中數(shù)據(jù)態(tài)對象的識別與歸檔策略,結(jié)合石油行業(yè)業(yè)務場景,將業(yè)務系統(tǒng)分為生產(chǎn)運行類系統(tǒng)、連續(xù)監(jiān)測類系統(tǒng)、經(jīng)營管理類系統(tǒng)、綜合管理類系統(tǒng)四類。[8]檔案數(shù)據(jù)化方面,楊建梁等提出包含轉(zhuǎn)錄識別、描述增強、圖譜構(gòu)建和矢量處理在內(nèi)的開發(fā)流程。[9]保存方面,筆者提出了包括態(tài)勢感知、環(huán)境構(gòu)建、語義表達、反饋前端在內(nèi)的數(shù)據(jù)態(tài)長期保存基本策略。[10]語義化與開發(fā)方面,夏天等提出檔案數(shù)據(jù)語義化重組模型[11];房小可與段榮婷則研究了在檔案著錄工具基礎上增強語義分析等手段,建立了將檔案描述數(shù)據(jù)融入語義網(wǎng)的橋梁[12-13]。
數(shù)據(jù)態(tài)檔案管理模式在將抽象的檔案數(shù)據(jù)對象管理空間與具體實踐場景結(jié)合的過程中,總體上呈現(xiàn)出體系性、連續(xù)性、可理解性、專業(yè)性的典型特征。
(一)體系性
數(shù)據(jù)態(tài)檔案管理模式的體系性特征,本質(zhì)上是由數(shù)據(jù)態(tài)對象的雙重離散特點激發(fā)的。因為離散,之前許多統(tǒng)一于載體管理、內(nèi)容管理的問題化整為零地出現(xiàn),這些問題涉及不同要素的統(tǒng)籌,如技術、組織、領導力等,需要一個有組織、有結(jié)構(gòu)的整體框架來確保數(shù)據(jù)安全、數(shù)據(jù)質(zhì)量和合規(guī)性。此外,檔案數(shù)據(jù)本身的構(gòu)成情況也相當復雜,包含大量的數(shù)據(jù)源、數(shù)據(jù)類型和數(shù)據(jù)使用場景,來自不同系統(tǒng)、部門的數(shù)據(jù)關聯(lián)著各種業(yè)務流程和操作,只有體系性的數(shù)據(jù)態(tài)檔案管理模式才能夠駕馭數(shù)據(jù)原生環(huán)境的業(yè)務背景,使得數(shù)據(jù)在全生命周期中得到協(xié)同管理。而且在環(huán)境的持續(xù)變動和不確定性之中,新興的技術、業(yè)務需求和法規(guī)標準可能影響甚至改變數(shù)據(jù)態(tài)檔案管理的方式,體系性的數(shù)據(jù)態(tài)檔案管理模式能夠更靈活地應對變化、識別和防范風險,保證檔案管理體系的穩(wěn)定性和可持續(xù)性,在管理上體現(xiàn)聚合的能力。
數(shù)據(jù)態(tài)檔案管理模式涉及不同層級管理要素的疊加與統(tǒng)籌。模擬態(tài)和數(shù)字態(tài)對象信息顆粒度粗,整體表現(xiàn)力強,如載體與信息統(tǒng)一的白紙黑字和語義與語法統(tǒng)一的非結(jié)構(gòu)化文件,而離散程度最高的數(shù)據(jù)態(tài)空間,需要完備程度更高的管理框架進行管控,自然要求管理模式具有體系性,需要綜合考察前端復雜的業(yè)務背景、全生命周期涉及的各類系統(tǒng)與平臺要求、涵蓋數(shù)據(jù)合規(guī)與安全管理的各項數(shù)據(jù)治理規(guī)范,以及需要解決兩個離散帶來的長期保存問題等。這些都要求數(shù)據(jù)態(tài)管理模式要具備體系性,統(tǒng)籌考慮各類管理要素,從而使數(shù)據(jù)態(tài)對象在全生命周期中得到協(xié)同管理。國家數(shù)據(jù)局局長劉烈宏對《“數(shù)據(jù)要素×”三年行動計劃(2024—2026年)》[14]進行解讀時強調(diào)加快形成數(shù)據(jù)基礎制度體系和數(shù)字治理體系,明確了從體系層面進行思考和布局的必要性,與數(shù)據(jù)態(tài)檔案管理模式的體系性特征高度契合,可見對數(shù)據(jù)對象的體系性管理已成為政策和戰(zhàn)略層面的共識。
(二)連續(xù)性
筆者提出的用于表達檔案資源形態(tài)與語義關系的U型曲線理論直觀地反映了檔案資源演化的連續(xù)性特征。[15]在該曲線中,數(shù)據(jù)態(tài)處于奇點樞紐位置,是計算活性最強的資源態(tài)別,發(fā)揮著承上啟下的作用。一方面,數(shù)據(jù)態(tài)是模擬態(tài)和數(shù)字態(tài)檔案資源持續(xù)向下破析,不斷計算增強的結(jié)果;另一方面,數(shù)據(jù)態(tài)也是朝著知識態(tài)、價值態(tài)進行語義增強的起點。數(shù)據(jù)態(tài)檔案管理模式也繼承了資源空間的連續(xù)性特征,與紙質(zhì)檔案管理模式、電子文件管理模式前后相續(xù),共同塑造了檔案資源形態(tài)演化的連續(xù)譜系。良好的連續(xù)性特征使得數(shù)據(jù)態(tài)能夠在多個空間中實現(xiàn)銜接,充分發(fā)揮數(shù)據(jù)態(tài)在U型曲線的樞紐通衢作用。如數(shù)據(jù)檔案化、檔案數(shù)據(jù)化就是數(shù)據(jù)態(tài)與數(shù)字態(tài)之間的雙向轉(zhuǎn)換,語義化則使得數(shù)據(jù)態(tài)檔案很自然地面向知識態(tài)和價值態(tài)空間進行數(shù)據(jù)增值和語義增強。
不單資源形態(tài)具有連續(xù)性,從資源模型角度看,數(shù)據(jù)態(tài)與周邊態(tài)別空間都存在模型內(nèi)在的連續(xù)性,根據(jù)筆者的研究,模擬態(tài)的序化模型、數(shù)字態(tài)的實體聯(lián)系模型、知識態(tài)的本體模型都與數(shù)據(jù)態(tài)的關聯(lián)模型存在較強的連續(xù)性,這使得多態(tài)空間資源的大批量轉(zhuǎn)換成為可能,為資源空間的有序和規(guī)范遷移提供了保障。[16]
(三)可理解性
可理解性實質(zhì)是表達了可見、可讀、可理解在內(nèi)的“三可”要求。從資源連續(xù)迭代的角度看,數(shù)據(jù)態(tài)檔案管理模式需要滿足“三可”要求,使得載體可見、文件可讀、數(shù)據(jù)可理解。“三可”要求反映了檔案對象在不同態(tài)別空間的應然狀態(tài),即從物理上的存續(xù)、計算機系統(tǒng)的讀取再到人類用戶的理解??梢娛侵笖?shù)據(jù)的存在可以被識別和觀察到,對應的工作包括對物理空間和各類型載體實體的管理工作??勺x是指數(shù)字文件按照某種模式或協(xié)議進行組織,保證能夠被計算機正確地讀取和處理,對應的工作包括數(shù)字資源的長期保存,如格式管理、遷移仿真、備份恢復等??衫斫馐侵笖?shù)據(jù)以人類能夠理解的方式呈現(xiàn),是數(shù)據(jù)態(tài)檔案管理模式的重點與難點。元數(shù)據(jù)是通向可理解性的橋梁,基本數(shù)據(jù)屬性、背景元數(shù)據(jù)、過程元數(shù)據(jù)動靜結(jié)合刻畫出數(shù)據(jù)發(fā)展變化過程,重新接續(xù)斷裂的語義,建立起機器與人的初步鏈接。數(shù)據(jù)可視化是可理解性的直觀表現(xiàn),通過使用圖表、時間軸等多種手段展示數(shù)據(jù)的模式和關系。數(shù)據(jù)管理強調(diào)數(shù)據(jù)生產(chǎn)要素價值的發(fā)揮,用戶無需理解數(shù)據(jù)也可以享受數(shù)據(jù)開發(fā)利用的成果,但檔案的可理解性需要面向社會全體,且要在檔案保存期限之內(nèi)持續(xù)維護可理解性。
進一步細究,從依賴關系看,模擬態(tài)管理模式需要通過“八防”手段應對載體的物理保存問題,從而解決載體依賴。數(shù)字態(tài)需要解決以軟硬件依賴性為核心的低階邏輯依賴,應對信號離散帶來的保存問題。數(shù)據(jù)態(tài)需要解決以語義關聯(lián)為核心的高階邏輯依賴,管控諸如算法、規(guī)則、約束、模型等可解釋性要素?!叭伞币笮枰鉀Q的依賴關系可以簡單表達為物理依賴(載體可見)-低階邏輯依賴(語法可讀)-高階邏輯依賴(語義可理解),從這個遞進關系也能看出可理解性是“三可”要求的最高點,是建立在可見和可讀基礎上的。
(四)專業(yè)性
專業(yè)性主要是指特定數(shù)據(jù)態(tài)對象語義復現(xiàn)需要相應的專業(yè)知識提供支撐,專業(yè)性特征可視為對可理解性的回應,著眼于解決語義離散這一核心矛盾。以數(shù)據(jù)形態(tài)存在的檔案資源,在機器理解方面,需要專業(yè)計算機人員進行模式設計、流程預置與操作;在用戶理解方面,需要與業(yè)務內(nèi)容直接相關的行業(yè)專家進行數(shù)據(jù)解讀、降維與呈現(xiàn),具有明顯的專業(yè)性特征,對管理主體的知識水平和業(yè)務能力提出了較高的要求。一般來講,信號離散需要應對軟硬件系統(tǒng)依賴性,其解決方案通常是進行持續(xù)的系統(tǒng)運維,面對的是具有一定的普適性的、共同性的問題,如硬件、軟件、格式的升級換代和版本更迭,抓住這幾個關鍵點,就奠定了維護可讀性的基礎條件。而語義離散通常需要專業(yè)組織維持,從某種意義上講,語義離散的問題相對小眾,通常依附于特定的專業(yè)技術領域,因而需要針對不同類型的數(shù)據(jù)態(tài)對象進行專門研究,具有較強的專業(yè)性。如LOTAR(Long Term Archiving and Retrieval)[17],是國際航空工業(yè)合作項目發(fā)布和維護一系列用于3D CAD/CAM和PDM數(shù)據(jù)長期保存和檢索的標準,包括基礎部分、通用流程和特定領域部分,其中特定領域就包括基于PMI的3D CAD機械信息、產(chǎn)品結(jié)構(gòu)信息、混合設計及先進制造、電線束、基于模型的系統(tǒng)工程、工程分析和仿真,體現(xiàn)了該領域特定的專業(yè)性。類似的如數(shù)據(jù)庫領域用于簡化關系數(shù)據(jù)庫存檔的SIARD規(guī)范[18]和用于定義和記錄數(shù)據(jù)庫模式和結(jié)構(gòu)的DBML開源語言[19],再如用于網(wǎng)絡資源歸檔保存的WARC存儲格式標準[20],都體現(xiàn)了各自數(shù)據(jù)態(tài)對象管理的專業(yè)性。
現(xiàn)有檔案管理模式與以體系性、連續(xù)性、可理解性和專業(yè)性為主要特征的數(shù)據(jù)態(tài)檔案管理模式之間仍存在差距,在空間管控、證用價值維系、管理機制協(xié)同與技術能力建設等方面都面臨巨大挑戰(zhàn)。
(一)需要建設保障“三可”特征的管控體系
數(shù)據(jù)態(tài)檔案管理模式構(gòu)建的直接挑戰(zhàn)就是搭建維系數(shù)據(jù)態(tài)檔案“三可”特征的相對完備的管控體系,“三可”的疊加要求使得數(shù)據(jù)態(tài)管理模式需要有效集成在模擬態(tài)、數(shù)字態(tài)積累的各核心要素。從依賴性角度看,一個相對完備的數(shù)據(jù)態(tài)管控體系應包含對各類型依賴的應對措施,包括物理依賴、語法依賴和語義依賴等??傮w上,模擬態(tài)以物理依賴的研究已臻于成熟,集中體現(xiàn)在對載體、字跡、材料三要素以及環(huán)境控制的“八防”要求上;數(shù)字態(tài)以軟硬件依賴為代表的低階依賴的研究也一直在持續(xù),可以說數(shù)字保存就是專門針對降低電子檔案軟硬件依賴性的研究領域。數(shù)據(jù)態(tài)檔案管理模式明確提出可理解性要求,需要直面語義離散帶來的語義依賴問題,對規(guī)則、模型、算法等語義關聯(lián)要素進行管控。在檔案資源形態(tài)的演化過程中,較之于模擬態(tài)和數(shù)字態(tài)低態(tài)別對象,適應高態(tài)別對象特征的管理模式對于所涉及的管理要素的完備性要求更高。例如,作為數(shù)字態(tài)環(huán)境中單套制管理的綜合性標準的《電子檔案單套管理一般要求》(DA/T 92-2022),是一個類似單套制準入清單的綜合標準,明確涉及的參照標準或要求多達28項,可行性評估指標包括前置性條件和26個指標,如果任何一個前置條件暫不具備,則評估結(jié)果直接為“未通過”。后續(xù)在構(gòu)建更為復雜的數(shù)據(jù)態(tài)管理模式時,同樣需要拓展管理要素,滿足與數(shù)據(jù)細小顆粒度特征相適應的精細化管理要求。
(二)需要探索兼顧證用價值的實現(xiàn)路徑
檔案學基礎理論揭示了檔案具有憑證價值與信息價值,在系統(tǒng)中通常表現(xiàn)為存證與利用服務,而不同資源態(tài)別的證用價值實現(xiàn)路徑存在較大差異。數(shù)據(jù)態(tài)在U型曲線中處于承上啟下的奇點位置,可計算性最高但語義含量最低,檔案出證或提供利用時都需要經(jīng)歷語義恢復的長鏈處理過程,過程中需要基于規(guī)則與模型從數(shù)據(jù)體中對于原件進行顯性化,對技術和語義依賴層層解離。
因而,數(shù)據(jù)態(tài)管理模式應實現(xiàn)以數(shù)據(jù)態(tài)對象為中心的兼顧證用價值的長鏈管理,探索包括數(shù)據(jù)檔案化(數(shù)據(jù)態(tài)→數(shù)字態(tài)→模擬態(tài))、數(shù)據(jù)故事化(數(shù)據(jù)態(tài)→知識態(tài)→價值態(tài))在內(nèi)的實現(xiàn)路徑?!蹲罡呷嗣穹ㄔ宏P于民事訴訟證據(jù)的若干規(guī)定》提到“以檔案管理方式保管的”電子數(shù)據(jù),人民法院可以確認其真實性。由此可見,在價值定位上,檔案的證據(jù)價值得到了證據(jù)法相關法律法規(guī)的確認和認可。而在實際操作中數(shù)據(jù)檔案化通常需要按照事先約定的證明模板將離散的數(shù)據(jù)整合成語義連續(xù)且被認可的原件形式,如成績數(shù)據(jù)庫生成的成績單、銀行系統(tǒng)開具的存款證明等。知識化和故事化的利用服務則需要層級豐富的檔案數(shù)據(jù)基礎設施與專業(yè)分化的協(xié)同支持才能實現(xiàn)。
(三)需要協(xié)同數(shù)據(jù)管理與檔案管理
數(shù)據(jù)態(tài)對象是業(yè)務前端技術環(huán)境變遷的直接結(jié)果,大量數(shù)據(jù)驅(qū)動類系統(tǒng)和應用最大限度地提升了業(yè)務數(shù)據(jù)的共享集成水平,也在相當程度上模糊了傳統(tǒng)前端與后端的邊界。與此同時,伴隨而來的技術復雜度也導致原先集中在特定物理空間(如辦公室)中的文檔管理職能在數(shù)字空間中的延展和離散,這都使得“文檔一體化”之類的協(xié)同理念在數(shù)據(jù)態(tài)環(huán)境中面臨巨大挑戰(zhàn)。協(xié)同不是簡單的交互和接口,追求的是各要素的整體性和柔性效果。如數(shù)字態(tài)環(huán)境下提倡的“文檔一體化”與此處論述的數(shù)檔協(xié)同在理念上是一致的,但在協(xié)同精細度上二者存在明顯差異。傳統(tǒng)的“文檔一體化”協(xié)同對象是非結(jié)構(gòu)化的文件與檔案,實現(xiàn)方式依靠規(guī)范的元數(shù)據(jù)接口、協(xié)調(diào)的收發(fā)設置、通用的文件格式等相對硬性的協(xié)同手段;數(shù)據(jù)態(tài)管理模式協(xié)同對象是顆粒度趨于最小化的各類數(shù)據(jù),要進行數(shù)據(jù)質(zhì)量、數(shù)據(jù)標準、數(shù)據(jù)權限等治理層面的要素全方位對接,需要更多潤物細無聲的規(guī)則與操作。
由于涉及治理層面,數(shù)據(jù)管理和檔案管理之間需要在管理主體、方法、理論等多方面加強協(xié)同,這是當前乃至今后一段時間數(shù)據(jù)態(tài)檔案管理模式的難點與重點。譬如,深化數(shù)據(jù)與檔案的概念協(xié)同,梳理數(shù)檔協(xié)同管理的多元路徑,探索數(shù)據(jù)態(tài)管理相關主體間的協(xié)同模式,實現(xiàn)包括檔案部門、數(shù)據(jù)管理機構(gòu)、第三方服務平臺、云服務商、業(yè)務部門、信息部門等在內(nèi)的跨領域跨部門協(xié)同。
(四)需要彌合兩個離散的技術能級
數(shù)據(jù)態(tài)是所有資源空間中離散程度最高的態(tài)別,即信號離散(第一離散)與語義離散(第二離散),在面向人進行證用服務時需要相應的解除依賴能力。由于離散性質(zhì)不同,可以將所需要的技術范疇分別視為兩大技術能級。其中,解決第一離散問題的技術能級包括傳統(tǒng)的數(shù)字保存手段和較為完善的軟硬件運維能力等;解決第二離散問題的技術能級則是基于特定數(shù)據(jù)態(tài)對象的語義解析和彌合能力,通過搭建語義臺階彌合離散數(shù)據(jù),使檔案資源對象躍遷為可理解的知識對象和價值表現(xiàn),包括本體建設、關聯(lián)數(shù)據(jù)、知識融合等具體技術。因此,數(shù)據(jù)態(tài)所依托的語義基礎設施客觀上需要能夠更精確地表達依賴關系,需要運用更為專業(yè)的工具和方法。
顯然,數(shù)據(jù)態(tài)檔案管理模式需要相對厚實的技術能力作為支撐,要求具備彌合兩個離散的技術能級,尤其要滿足數(shù)據(jù)態(tài)對象脫離原生環(huán)境后用戶可理解性的要求,構(gòu)建相關行業(yè)專家深度合作形成的專業(yè)小生態(tài),包括檔案專家指導數(shù)據(jù)歸檔及長期保存、數(shù)據(jù)管理專家指導數(shù)據(jù)質(zhì)量維護與數(shù)據(jù)利用開發(fā)、業(yè)務專家指導數(shù)據(jù)解讀與語義呈現(xiàn),滿足特定數(shù)據(jù)態(tài)對象全生命周期管理的各類技術需要。對于數(shù)據(jù)態(tài)檔案管理模式而言,其技術能力的挑戰(zhàn)并不來自是否能及時把握技術前沿或者攻克技術難關,而是對于技術的了解是否能夠支持客觀審慎的評估的形成,在面對供應商的方案時是否有能力進行獨立判斷,形成平衡安全、收效、成本的選型決策。另外,在促進數(shù)據(jù)態(tài)檔案對象向知識態(tài)等高級態(tài)別躍遷的過程中,可能會涉及潛在的安全與隱私問題,即使數(shù)據(jù)體本身不涉密、不包含隱私信息,但是在知識融合推理形成新的數(shù)據(jù)洞察之后,可能就會產(chǎn)生預料之外的隱私問題,這使得數(shù)據(jù)安全和隱私保護的難度再度提升。
在深化檔案信息化戰(zhàn)略轉(zhuǎn)型、推動檔案工作走向現(xiàn)代化的背景下,檔案部門需要以“空間觀”的戰(zhàn)略視野把握資源形態(tài)演變趨勢,洞察數(shù)據(jù)態(tài)新檔案對象雙重離散本質(zhì)及其帶來的業(yè)務流程與規(guī)則變化,在現(xiàn)實管理環(huán)境中進行理論重塑和實踐重構(gòu),形成以體系性、連續(xù)性、可理解性和專業(yè)性為特征的數(shù)據(jù)態(tài)檔案管理模式,應對維系“三可”特征、兼顧證用價值、協(xié)同數(shù)檔管理、搭建技術能級的挑戰(zhàn),最終解除離散語義帶來的高階邏輯依賴,在檔案對象管理空間中恢復數(shù)據(jù)的連續(xù)語義,為檔案數(shù)據(jù)資源開發(fā)利用奠定良好基礎。
*本文系國家社會科學基金項目“數(shù)據(jù)態(tài)環(huán)境下檔案管理模式創(chuàng)新研究”(23BTQ108)的階段性研究成果。
注釋及參考文獻:
[1]趙生輝,胡瑩,黃依涵.數(shù)據(jù)、檔案及其共生演化的微觀機理解析[J].檔案學通訊,2022(2):4-12.
[2]陳永生,楊茜茜,王沐暉,等.基于互聯(lián)網(wǎng)政務服務平臺的文件歸檔與管理:記錄觀[J].檔案學研究,2019(3):16-23.
[3]金波,添志鵬.檔案數(shù)據(jù)的內(nèi)涵與特征探析[J].檔案學通訊,2020(3):4-11.
[4]劉越男.數(shù)據(jù)治理:大數(shù)據(jù)時代檔案管理的新視角和新職能[J].檔案學研究,2020(5):50-57.
[5]趙躍,孫晶瓊,段先娥.檔案化:檔案科學介入數(shù)據(jù)資源管理的理性思考[J].檔案學研究,2020(5):83-91.
[6]錢毅.技術變遷環(huán)境下檔案對象管理空間演化初探[J].檔案學通訊,2018(2):10-14.
[7]錢毅,劉力超.數(shù)據(jù)庫電子文件歸檔與長期保存技術路徑研究[J].檔案學研究,2017(4):67-72.
[8]王強,高強.業(yè)務系統(tǒng)數(shù)據(jù)歸檔研究——以中國石油業(yè)務系統(tǒng)數(shù)據(jù)歸檔實踐為例[J].浙江檔案,2019(12):36-39.
[9]楊建梁,劉越男,祁天嬌.文檔數(shù)據(jù)化:概念、框架與方法[J].中國圖書館學報,2022,48(3):63-78.
[10]錢毅.數(shù)據(jù)態(tài)環(huán)境中數(shù)字檔案對象保存問題與策略分析[J].檔案學通訊,2019(4):40-47.
[11]夏天,錢毅.面向知識服務的檔案數(shù)據(jù)語義化重組[J].檔案學研究,2021(2):36-44.
[12]房小可,王巧玲.檔案著錄、知識關聯(lián)與社會記憶重構(gòu)[J].檔案學通訊,2021(03):27-33.
[13]段榮婷,夏子涵,王昊.檔案著錄關聯(lián)數(shù)據(jù)化實現(xiàn)研究[J].檔案學研究,2021(04):100-110.
[14]新京報.劉烈宏:釋放數(shù)據(jù)要素價值,是把握發(fā)展機遇的重點[EB/OL].(2024-01-07)[2024-03-24].https://baijiahao. baidu.com/s?id=1787433965437256213&wfr=spider&for=pc.
[15]錢毅.破析與融合——析檔案資源形態(tài)與語義表現(xiàn)相互作用的U型曲線現(xiàn)象[J].檔案學研究,2022(04):108-115.
[16]錢毅,潘潔敏.基于模型視角的檔案對象連續(xù)空間演化路徑[J].檔案學通訊,2024(2):4-12.
[17]LOTAR(Long Term Archiving and Retrieval).LO? TAR standards[EB/OL].[2024- 03- 24].https://lotar- interna? tional.org/lotar-standard/.
[18]Digital Information LifeCycle Interoperability Stan? dards.SIARD(SoftwareIndependentArchivingofRelationalData? bases)[EB/OL].[2024-03-24].https://dilcis.eu/content-types/ siard.
[19]Holistics.DBML- Database Markup Language[EB/ OL].[2024-03-24].https://dbml.dbdiagram.io/home/#intro.
[20]曾薩,黃新榮.WARC標準推廣策略研究[J].圖書館,2019(6):81-87.
作者單位:1.中國人民大學信息資源管理學院2.中國人民大學電子文件管理研究中心3.多模態(tài)檔案保護與開發(fā)國家檔案局重點實驗室