王建亞
摘要:從大數(shù)據(jù)的概念及對(duì)信息管理工作的影響出發(fā),分析了大數(shù)據(jù)為檔案工作帶來(lái)的機(jī)遇,包括解決信息化“脹庫(kù)”、推動(dòng)普及社會(huì)檔案觀等,提出了檔案工作從數(shù)字化到數(shù)據(jù)化、從信息共享到信息價(jià)值共享兩大發(fā)展趨勢(shì),并總結(jié)其為檔案工作帶來(lái)數(shù)據(jù)挖掘環(huán)節(jié)的嵌入、檔案信息的安全性、合理的建設(shè)投入三個(gè)方面的挑戰(zhàn)。
關(guān)鍵詞:大數(shù)據(jù)檔案工作電子檔案社會(huì)檔案觀
一、大數(shù)據(jù):概念與應(yīng)用
大數(shù)據(jù),作為一種數(shù)據(jù)管理的理念和方式,其之所以出現(xiàn),是云計(jì)算和物聯(lián)網(wǎng)等信息技術(shù)的發(fā)展,與人類社會(huì)所積累的數(shù)據(jù)高速增長(zhǎng)并海量積累相結(jié)合的結(jié)果。無(wú)論是如何定義,從本質(zhì)上,大數(shù)據(jù)是信息管理者在當(dāng)今的信息技術(shù)條件下,為解決新的海量信息處理需求,所提出的解決策略。而作為典型的信息管理活動(dòng)之一的檔案事業(yè),勢(shì)必會(huì)受到大數(shù)據(jù)理念的影響。
大數(shù)據(jù)并不是一個(gè)嚴(yán)謹(jǐn)而完整的學(xué)術(shù)概念,其所包含的內(nèi)容相對(duì)比較抽象,從字面意義上進(jìn)行理解,大數(shù)據(jù)所指的是數(shù)據(jù)規(guī)模的龐大。但從這一意義上來(lái)看,顯然無(wú)法與傳統(tǒng)的以往一系列概念進(jìn)行區(qū)別,如“海量數(shù)據(jù)”(Massive Data)、“超大規(guī)模數(shù)據(jù)”(Very Large Data)。在學(xué)術(shù)界,對(duì)于大數(shù)據(jù)的定義尚未形成統(tǒng)一的觀點(diǎn),但綜合各種說(shuō)法,主流的思路是從大數(shù)據(jù)的特征出發(fā),通過(guò)歸納的方式,通過(guò)對(duì)特征的描述進(jìn)行定義。其中最有代表性的是3V定義[1],即認(rèn)為大數(shù)據(jù)需滿足3個(gè)特點(diǎn):規(guī)模性(Volume)、多樣性(Variety)和高速性(Velocity)。此外在實(shí)踐層面,普遍認(rèn)為大數(shù)據(jù)具有全數(shù)據(jù)規(guī)模、多數(shù)據(jù)類型、低價(jià)值密度、高處理速度的特點(diǎn)。
在數(shù)據(jù)管理理念層面,大數(shù)據(jù)的特點(diǎn)在于全數(shù)據(jù)規(guī)模、豐富的數(shù)據(jù)類型(可能包含半結(jié)構(gòu)化數(shù)據(jù))、全數(shù)據(jù)處理對(duì)象、多數(shù)據(jù)處理工具;在數(shù)據(jù)處理技術(shù)層面,大數(shù)據(jù)體現(xiàn)為對(duì)云計(jì)算和新一代數(shù)據(jù)庫(kù)的應(yīng)用;在操作方式層面,大數(shù)據(jù)體現(xiàn)為對(duì)零散信息價(jià)值的重視及對(duì)數(shù)據(jù)之間相關(guān)而非因果關(guān)系的分析。
二、大數(shù)據(jù)對(duì)檔案工作帶來(lái)的機(jī)遇
(一)解決信息化背景下檔案的“脹庫(kù)”問(wèn)題
近年來(lái),隨著電子文件的理念逐步得到認(rèn)可,以及檔案的單位管理成本的降低,加之人們對(duì)于歸檔保存的重要性的認(rèn)識(shí)的提升,我國(guó)的檔案總量步入了一個(gè)高速增長(zhǎng)的時(shí)期[2],但與此同時(shí),信息化背景下的檔案數(shù)據(jù)庫(kù)脹庫(kù)問(wèn)題也隨之到來(lái)了,其中較為明顯的表現(xiàn)為“新增數(shù)據(jù)失敗”等[3],脹庫(kù)問(wèn)題帶來(lái)的,不僅僅對(duì)新增檔案管理上的難題,同樣重要的是,由于脹庫(kù)現(xiàn)象的出現(xiàn),檔案的服務(wù)利用的效率將大打折扣,其原因在于案卷在出現(xiàn)脹庫(kù)的過(guò)程中,無(wú)法及時(shí)有效地歸檔并建立索引以提供服務(wù),破壞了檔案案卷之間的連續(xù)性和關(guān)聯(lián)性,降低了檔案中所提供的信息的價(jià)值。信息化背景下檔案的“脹庫(kù)”問(wèn)題,本質(zhì)上在于存儲(chǔ)和計(jì)算資源分配的不夠合理,傳統(tǒng)的數(shù)據(jù)庫(kù)架構(gòu)在處理新的海量數(shù)據(jù)的過(guò)程中,靈活性遠(yuǎn)遠(yuǎn)不夠。解決這一問(wèn)題,需要求助于大數(shù)據(jù)技術(shù)框架中的云計(jì)算技術(shù)[4],利用云計(jì)算技術(shù)強(qiáng)大的調(diào)配計(jì)算資源的能力,根據(jù)數(shù)據(jù)處理規(guī)模的需要,配置數(shù)字化檔案管理所需要的存儲(chǔ)和計(jì)算資源,保證檔案的服務(wù)利用效率。
(二)有利于推動(dòng)社會(huì)檔案觀的普及
大數(shù)據(jù)的核心在于從海量的數(shù)據(jù)中挖掘價(jià)值[5],這為檔案價(jià)值的進(jìn)一步發(fā)現(xiàn)和提升,提供了一個(gè)新的思路。傳統(tǒng)的檔案服務(wù)利用概念中,檔案的服務(wù)利用對(duì)象是特定并且相對(duì)單一的,原因在于檔案通過(guò)卷宗的形式,將一個(gè)相對(duì)完整的信息“包裹”存留,這部分相對(duì)完整的信息最終成為了檔案卷宗的主題。而在服務(wù)利用的過(guò)程中,“主題匹配”成為了最為常見的檔案定位方式,而主要來(lái)自于政府機(jī)關(guān)、企事業(yè)單位的日常運(yùn)行信息形成的檔案,其主題自然會(huì)牢牢地與其形成機(jī)關(guān)的業(yè)務(wù)活動(dòng)相對(duì)應(yīng),而檔案卷宗中所包含的零散的信息價(jià)值,相對(duì)容易被忽略,如今被公眾廣泛利用的檔案,多數(shù)是民生檔案[6],而其他類型檔案中的零散信息價(jià)值,缺乏有效的挖掘服務(wù)利用手段,這是社會(huì)檔案觀在普及過(guò)程中必須解決的問(wèn)題之一,即如何幫助公眾挖掘他們所關(guān)心的分散于海量檔案中的信息價(jià)值。大數(shù)據(jù)為檔案的服務(wù)利用提供了新的價(jià)值挖掘工具,使得分散在海量數(shù)據(jù)中的零散價(jià)值成為可能,這就意味借助大數(shù)據(jù)的信息分析工具,公眾將能夠從主題上看上去并不相關(guān)的眾多檔案中,發(fā)掘其自身所需要的信息,獲取相應(yīng)的信息價(jià)值,將推動(dòng)公眾逐漸意識(shí)到檔案作為當(dāng)今社會(huì)最重要的信息價(jià)值載體之一的重要意義,而一旦這樣的意識(shí)逐步成型,檔案社會(huì)觀將得到普遍的認(rèn)可。
(三)有利于處理多載體類型的檔案
信息技術(shù)的發(fā)展對(duì)于檔案管理工作的重要影響之一,就是提供了多樣化的信息載體形式,豐富了檔案的類型,從最原始的紙質(zhì)載體的文書檔案,發(fā)展到如今的音像檔案、圖片等等。而隨著電子文件概念不斷獲得認(rèn)可,新的信息載體形式層出不窮,從理論上講,每當(dāng)出現(xiàn)一種新的信息載體形式,就會(huì)相對(duì)應(yīng)地出現(xiàn)該載體形式的檔案。這就意味著未來(lái)檔案的管理工作必將是基于多載體的,其載體的豐富程度可能會(huì)遠(yuǎn)遠(yuǎn)超過(guò)我們的預(yù)期,而為最大程度保證原始證據(jù)價(jià)值,在技術(shù)條件允許的前提下,未來(lái)的檔案管理工作將會(huì)嘗試接受半結(jié)構(gòu)化的數(shù)據(jù)作為檔案,以最大程度地保留證據(jù)價(jià)值[7]。這使得未來(lái)的檔案載體形式將呈現(xiàn)數(shù)量多、增長(zhǎng)快的特點(diǎn),這就要求針對(duì)具體檔案類型的管理工具,或者抽象為一類特定的數(shù)據(jù)處理工具,是無(wú)法實(shí)現(xiàn)“One size fit all”的,即不再存在能夠完美處理所有的檔案載體類型的管理工具。這一點(diǎn)上與大數(shù)據(jù)對(duì)處理多數(shù)據(jù)類型過(guò)程中所提出的數(shù)據(jù)工具組合的理念,是相一致的。未來(lái)的檔案服務(wù)利用活動(dòng),由于其面向的檔案對(duì)象的載體是多樣的,對(duì)其進(jìn)行利用的工具也將是多樣的,甚至為處理一些半結(jié)構(gòu)化的數(shù)據(jù)的過(guò)程中,可能會(huì)需要多種數(shù)據(jù)處理工具的組合。
(四)有利于電子文件的管理
大數(shù)據(jù)將從真實(shí)性、有效性、及時(shí)性三個(gè)方面提升電子文件的管理水平。首先從真實(shí)性角度考慮,由于電子文件驚人的增長(zhǎng)速度,其真實(shí)性鑒定工作一直是困擾檔案工作者的難題之一,傳統(tǒng)的“直接鑒定法”在實(shí)際操作的過(guò)程中所消耗的人力物力成本過(guò)于巨大[8],因此鑒定文件的真實(shí)性需要求助于大數(shù)據(jù)技術(shù)處理海量數(shù)據(jù)并分析復(fù)雜數(shù)據(jù)的能力;第二,從有效性角度考慮,電子文件的結(jié)構(gòu)化特征并不明顯,大量的電子文件都是半結(jié)構(gòu)化甚至是非結(jié)構(gòu)化的,在這種數(shù)據(jù)類型情況并不穩(wěn)定的前提下,處理數(shù)據(jù)對(duì)象單一的傳統(tǒng)檔案管理數(shù)據(jù)庫(kù)結(jié)構(gòu)是難于駕馭的,而大數(shù)據(jù)技術(shù)框架下對(duì)于多數(shù)據(jù)結(jié)構(gòu)的兼容性,能夠較好地解決這一問(wèn)題,提升對(duì)電子文件進(jìn)行管理的有效性;第三,從及時(shí)性的角度考慮,電子文件的指數(shù)增長(zhǎng),使得及時(shí)地對(duì)新增檔案進(jìn)行管理成為了檔案工作者所面臨的一大難題,這樣的海量數(shù)據(jù)的實(shí)時(shí)處理,是檔案管理過(guò)程中前所未有的,這需要利用大數(shù)據(jù)技術(shù)框架中通過(guò)云計(jì)算的方式提升數(shù)據(jù)處理的及時(shí)性,才能保證電子文件管理的及時(shí)性。endprint
三、大數(shù)據(jù)背景下檔案工作的發(fā)展趨勢(shì)
(一)從數(shù)字化到數(shù)據(jù)化
為應(yīng)對(duì)信息時(shí)代對(duì)于檔案工作新要求,檔案數(shù)字化的工作已經(jīng)進(jìn)行了多年,并在一定程度上解決了傳統(tǒng)檔案利用信息技術(shù)進(jìn)行管理及共享的問(wèn)題[9],收到了相當(dāng)?shù)某尚?。但在大?shù)據(jù)時(shí)代背景下,數(shù)字化僅僅是解決了載體形式或者說(shuō)是信息技術(shù)的應(yīng)用問(wèn)題,可以理解為檔案工作對(duì)信息技術(shù)的適應(yīng)性應(yīng)用,對(duì)于深入的數(shù)據(jù)挖掘與利用是遠(yuǎn)遠(yuǎn)不夠的。在大數(shù)據(jù)的時(shí)代背景下,信息管理者已經(jīng)不再滿足于更易管理和共享的信息形式,應(yīng)更為關(guān)注信息所能帶來(lái)的價(jià)值,這就要求對(duì)于檔案的管理工作框架,需要實(shí)現(xiàn)從數(shù)字化到數(shù)據(jù)化的轉(zhuǎn)變,即不僅僅能夠?qū)崿F(xiàn)對(duì)檔案案卷的數(shù)字化管理,更能夠根據(jù)海量數(shù)據(jù)挖掘利用的需要,對(duì)檔案的管理深入到數(shù)據(jù)層面,這將更為適合大數(shù)據(jù)技術(shù)架構(gòu)下對(duì)數(shù)據(jù)的“流處理”模式。
(二)從信息共享到信息價(jià)值共享
隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)挖掘技術(shù)的應(yīng)用進(jìn)入了一個(gè)全新的階段,所有的信息管理者都面臨著同樣一個(gè)問(wèn)題:將簡(jiǎn)單而直接的信息共享活動(dòng)轉(zhuǎn)換為更為高級(jí)的信息價(jià)值的共享,即需要對(duì)自身所掌握的信息的價(jià)值有清晰的掌握和準(zhǔn)確的理解,對(duì)應(yīng)到檔案工作者的現(xiàn)狀上,即檔案工作者僅僅了解自己在管理哪些檔案并提供服務(wù)利用,已經(jīng)無(wú)法適應(yīng)大數(shù)據(jù)時(shí)代對(duì)檔案服務(wù)利用的要求了,而需要能夠了解自己所掌握的檔案能做什么,所提供的檔案利用服務(wù)所實(shí)現(xiàn)的是什么功能,也就是要明確所掌握的檔案的價(jià)值。這需要對(duì)檔案利用服務(wù)的認(rèn)識(shí)有更加深入的認(rèn)識(shí),在大數(shù)據(jù)時(shí)代的背景下,由于對(duì)信息價(jià)值提取效率的提升,對(duì)于信息價(jià)值的共享將成為所有信息服務(wù)利用的主流趨勢(shì),這對(duì)檔案服務(wù)利用工作將是全新的挑戰(zhàn),這不僅僅要求能夠靈活地運(yùn)用大數(shù)據(jù)技術(shù)在整合檔案數(shù)據(jù)的基礎(chǔ)上挖掘其中蘊(yùn)含的價(jià)值,更加需要檔案工作者對(duì)于信息價(jià)值有著更為敏感的“嗅覺(jué)”。
四、大數(shù)據(jù)對(duì)檔案工作帶來(lái)的挑戰(zhàn)
(一)如何嵌入數(shù)據(jù)挖掘環(huán)節(jié)
傳統(tǒng)的檔案管理活動(dòng),最為通行的說(shuō)法是包含收集、整理、保管、鑒定、統(tǒng)計(jì)和提供利用六個(gè)主要環(huán)節(jié),這六個(gè)環(huán)節(jié)組成了基本的檔案管理活動(dòng),并組成了一次完整的信息從收集到提供利用的過(guò)程。在大數(shù)據(jù)的時(shí)代背景下,對(duì)于檔案管理活動(dòng)提出了新的要求,即主動(dòng)地挖掘其中的價(jià)值并提供利用服務(wù),這就涉及到一個(gè)流程嵌入的問(wèn)題,即數(shù)據(jù)挖掘環(huán)節(jié)應(yīng)該通過(guò)什么樣的方式嵌入到檔案管理活動(dòng)中來(lái),是作為一個(gè)單獨(dú)的環(huán)節(jié)嵌入到檔案的管理流程之中,還是在傳統(tǒng)的檔案管理活動(dòng)的某一環(huán)節(jié)中實(shí)現(xiàn)數(shù)據(jù)挖掘的功能,直接關(guān)系到檔案管理活動(dòng)流程的合理性。數(shù)據(jù)挖掘的嵌入問(wèn)題,當(dāng)檔案事業(yè)逐步步入電子文件時(shí)代之后,必須要解決的問(wèn)題。
(二)如何保障檔案信息的安全性
大數(shù)據(jù)對(duì)于檔案信息的共享程度提出了更高的要求,只有在檔案資源高度共享的情況下,大數(shù)據(jù)技術(shù)框架下的云計(jì)算平臺(tái)才能發(fā)揮作用,真正實(shí)現(xiàn)檔案信息價(jià)值的利用。但隨之而來(lái),就是檔案信息的安全性問(wèn)題,如何解決在多類型、多結(jié)構(gòu)、高共享程度狀態(tài)下的數(shù)據(jù)安全問(wèn)題,已經(jīng)顯得十分棘手。工作人員操作失誤、設(shè)備及網(wǎng)絡(luò)故障、計(jì)算機(jī)病毒、網(wǎng)絡(luò)黑客攻擊等對(duì)檔案信息安全構(gòu)成威脅的因素,在大數(shù)據(jù)的技術(shù)框架下,所造成的威脅可能會(huì)被相應(yīng)地放大。大數(shù)據(jù)時(shí)代的檔案信息的保密工作,其重心很有可能不再是保密體制的設(shè)計(jì),而更有可能是信息安全技術(shù)的有效應(yīng)用。
(三)如何合理地進(jìn)行系統(tǒng)建設(shè)投入
任何系統(tǒng)的建設(shè),都遵循了螺旋式上升、波浪式前進(jìn)的規(guī)律[10],這就意味著任何系統(tǒng)的建設(shè)都需要考慮投入是否合理,是否符合管理需求和技術(shù)發(fā)展規(guī)律。大數(shù)據(jù)技術(shù)發(fā)展到今天,應(yīng)該說(shuō)對(duì)于“大數(shù)據(jù)”這一概念的認(rèn)識(shí),清晰程度還遠(yuǎn)達(dá)到預(yù)測(cè)其發(fā)展趨勢(shì)的程度,而檔案管理系統(tǒng)更為適應(yīng)大數(shù)據(jù)的技術(shù)框架,無(wú)法避免地需要進(jìn)行升級(jí)與開發(fā),這就使得為適應(yīng)大數(shù)據(jù)而進(jìn)行的檔案系統(tǒng)建設(shè)陷入了一個(gè)兩難的境地:即不能故步自封,又要避免盲目投入。如何確定自身檔案管理工作的定位,謹(jǐn)慎地考慮是否需要提升硬件技術(shù)能力以接軌大數(shù)據(jù)環(huán)境下的信息管理需要,而非盲目地追新求變,是檔案工作者必須進(jìn)行系統(tǒng)考慮的問(wèn)題。
參考文獻(xiàn):
[1]Grobelnik, Marko. Big Data Tutorial [EB/OL].[2013- 11- 29]. http://videolectures.net/eswc2012_gro? belnik_big_data/
[2]陳永生.檔案可供利用情況的數(shù)據(jù)分析——檔案充分利用問(wèn)題研究之一[J].檔案學(xué)研究, 2007 (3): 17-22.
[3]張健.檔案數(shù)據(jù)庫(kù)“脹庫(kù)”問(wèn)題研究[J].檔案學(xué)通訊, 2012 (4): 49-51.
[4]孟小峰,慈祥.大數(shù)據(jù)管理:概念,技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展, 2013, 50(1): 146-169.
[5]李國(guó)杰.大數(shù)據(jù)研究的科學(xué)價(jià)值[J].中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊, 2012, 8(9): 8-15.
[6]吳海琰.民生檔案管理利用的調(diào)查與思考[J].北京檔案, 2009 (8): 32-33.
[7]黃志文.電子文件的法律證據(jù)價(jià)值初探[J].檔案學(xué)通訊, 2000 (2): 24-27.
[8]馮惠玲.電子文件的雙重鑒定:《擁有新記憶———電子文件管理研究》摘要之三[J].檔案學(xué)通訊, 1998 (3): 32-35.
[9]向立文.檔案數(shù)字化建設(shè)中若干問(wèn)題的研究[D].湘潭大學(xué), 2004.
[1]0邱世魁,陳玉朕.大數(shù)據(jù),企業(yè)檔案信息系統(tǒng)的技術(shù)架構(gòu)[J].中國(guó)檔案, 2013(10):69-71.
作者單位:河北大學(xué)管理學(xué)院endprint