摘 要:在大數(shù)據(jù)浪潮呼嘯而來的今天,新興技術(shù)的快速發(fā)展帶來了整個社會每天產(chǎn)生的數(shù)據(jù)呈指數(shù)級別的增長,如今,社會各行業(yè)都面臨著對紛繁復(fù)雜的數(shù)據(jù)進行分析處理的困境,作為主管歷史記錄和信息資源的檔案部門也同樣面臨著大數(shù)據(jù)給數(shù)字檔案資源管理帶來的挑戰(zhàn)和機遇,如何從海量數(shù)據(jù)“提純”出有價值的信息歸檔保存,并能夠長時間的利用成為檔案部門在大數(shù)據(jù)時代必須承擔的不可推卸的責任。檔案學(xué)能否和大數(shù)據(jù)進行一次成功的親密接觸,這是眾多學(xué)者目前關(guān)注的一大焦點。本文首先分析了檔案大數(shù)據(jù)與大數(shù)據(jù)之間的關(guān)系,通過文獻計量的方式對比了國內(nèi)外檔案領(lǐng)域大數(shù)據(jù)技術(shù)應(yīng)用研究現(xiàn)狀,從機遇與挑戰(zhàn)兩方面分析了大數(shù)據(jù)給檔案館帶來的影響,提出檔案館應(yīng)用大數(shù)據(jù)技術(shù)的模擬框架,分析了現(xiàn)階段檔案館推行大數(shù)據(jù)技術(shù)的可行性以及需要采取哪些措施,最后展望了在檔案館應(yīng)用大數(shù)據(jù)技術(shù)的廣闊未來。
關(guān)鍵詞:大數(shù)據(jù);檔案大數(shù)據(jù);檔案館
1 大數(shù)據(jù)和檔案大數(shù)據(jù)
1.1 大數(shù)據(jù)概念的界定
大數(shù)據(jù)(big data),或稱“巨量資料”,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內(nèi)達到獲取、管理、處理并整理成為幫助企業(yè)經(jīng)營決策更積極目的的數(shù)據(jù),即不能用隨機分析法(抽樣調(diào)查)這樣的捷徑,對于大數(shù)據(jù)概念的起源,學(xué)術(shù)界還沒有統(tǒng)一的定論,在工信部的《2014年大數(shù)據(jù)白皮書》中,認為大數(shù)據(jù)概念來源于2011年麥肯錫、世界經(jīng)濟論壇等機構(gòu)的相關(guān)研究。這些機構(gòu)通過研究海量數(shù)據(jù)在社交網(wǎng)絡(luò)、網(wǎng)絡(luò)廣告、電子商務(wù)、數(shù)據(jù)挖掘中的應(yīng)用,使全社會開始重新審視數(shù)據(jù)中蘊含的巨大價值,并隨后在全世界興起了一股大數(shù)據(jù)的熱潮。
1.2 大數(shù)據(jù)的特點
大數(shù)據(jù)的特點有很多種說法,IBM認為大數(shù)據(jù)有三個特征(3V),即Volume,Variety,Velocity,還有學(xué)者從Size,Resolution,Scope這三個角度來定義大數(shù)據(jù),即數(shù)據(jù)規(guī)模足夠大,數(shù)據(jù)的深度足夠深,以及數(shù)據(jù)的廣度足夠?qū)?,在這里,本文采用主流的“4V”來對大數(shù)據(jù)進行特點概括,即Volume,Velocity,Variety,Veracity。
①Volume,即數(shù)據(jù)量巨大,甚至能夠達到PB數(shù)量級或者更大;
②Velocity,數(shù)據(jù)種類眾多,包括視頻、音頻、圖片、日志、地理位置信息等多種類型數(shù)據(jù)
③Variety,即價值密度低,而商用價值高,大數(shù)據(jù)多數(shù)為半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)
④Veracity,要求處理速度快,大數(shù)據(jù)的處理技術(shù)上與云計算、集群網(wǎng)格計算、分布式計算等技術(shù)的應(yīng)用緊密相關(guān),一般要求在秒極時間范圍內(nèi)給出分析結(jié)果,時間太長就可能失去了大數(shù)據(jù)的分析價值,這一點與傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。
1.3 檔案資源符合大數(shù)據(jù)的特征
①檔案數(shù)據(jù)體量巨大(Volume)。目前,單個國家綜合檔案館檔案資源總量基本達到了TB級,考慮到每個檔案館資源的不同,以及各類檔案部門保存的檔案數(shù)量,必將達到PB級甚至EB級。據(jù)統(tǒng)計,2011年,各級國家檔案館館藏已達3,3億卷,到2020年,館藏將達到6億多卷,如果加上企事業(yè)各類檔案部門館藏,將是一個海量資源庫。
②檔案資源種類多(Velocity)。檔案資源以文本類為主,還有大量的音視頻檔案、照片圖片檔案、圖紙、憑證檔案、地理信息、網(wǎng)絡(luò)日志等,都是非結(jié)構(gòu)化數(shù)據(jù),描述這些檔案資源的元數(shù)據(jù)又是結(jié)構(gòu)化數(shù)據(jù)。海量結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的混合正是傳統(tǒng)數(shù)據(jù)處理難以解決的問題,符合大數(shù)據(jù)的多樣性特征。
③檔案價值高,但價值密度低(Variety)。檔案留存著社會的歷史記憶,具有很高的歷史價值。然而對當前應(yīng)用來說,海量檔案信息,每次可能利用的數(shù)據(jù)非常少,存在著價值密度低的特點。如視頻,連續(xù)不間斷攝制過程中,可能有用的數(shù)據(jù)僅僅有一兩秒,這些檔案信息蘊含著巨大的潛能,需要人員、流程與技術(shù)的密切配合,方能將其轉(zhuǎn)化為更大的真正價值。
④處理速度要求高(Veracity)。大數(shù)據(jù)要求實時或近乎實時的處理速度,這對企事業(yè)單位來說沒問題,對于國家檔案館來說好像要求過高,其實不然,傳統(tǒng)檔案利用方式是被動地等待用戶來查找原始信息,給社會留下“故紙堆”的印象,如果改被動服務(wù)為及時、準確地主動服務(wù),這種主動服務(wù)不僅提供檔案原始信息,還應(yīng)提供BI、預(yù)測分析、內(nèi)容分析、輔助決策分析等。
2 大數(shù)據(jù)給檔案館帶來的影響分析
2.1 大數(shù)據(jù)技術(shù)給檔案館發(fā)展帶來的機遇
從資源角度而言,檔案是社會組織和個人在社會實踐活動中直接形成的具有清晰、確定的原始記錄作用的固化信息。大數(shù)據(jù)時代,檔案概念存在著嚴重的泛化問題,很多之前不能被稱之為檔案的信息在大數(shù)據(jù)時代都可能變成檔案,這就造成了檔案數(shù)量的急劇增長,“每一條記錄都將變成具有長期保存價值的檔案,這些單位價值密度低的記錄信息將作為不可分割的整體來發(fā)揮檔案的價值。這也就意味著”一切具有保存價值的文件、數(shù)據(jù)、視頻、實物都將視為檔案,基于信息系統(tǒng)的電子文件在形成之后‘一秒鐘即形成‘電子檔案”。檔案館將“更多地關(guān)注一些底層化、碎片化、復(fù)雜化的信息。
(2)從管理角度而言,大數(shù)據(jù)時代的到來,推動了檔案管理的變革。不同于傳統(tǒng)的手工管理,大數(shù)據(jù)時代的檔案管理將在云平臺上建設(shè)云檔案系統(tǒng),實現(xiàn)云存儲,檔案館傳統(tǒng)的“收管用”也將發(fā)生變化,“收”是將數(shù)據(jù)實時、自動歸集,“管”是將采用云平臺存儲、計算、分析,“用”則是分析、發(fā)現(xiàn)與預(yù)測,為社會、企業(yè)創(chuàng)造價值。從大量數(shù)據(jù)中分析潛在的價值,決定著大數(shù)據(jù)時代檔案館的發(fā)展水平及方向,這就意味著大數(shù)據(jù)時代,“檔案館的傳統(tǒng)業(yè)務(wù)將向檔案資源的數(shù)據(jù)分析、數(shù)據(jù)挖掘方向轉(zhuǎn)移,對大量數(shù)據(jù)的分析與處理將成為檔案館的主要業(yè)務(wù)。
(3)從服務(wù)角度而言,大數(shù)據(jù)時代檔案館的服務(wù)內(nèi)容、服務(wù)方式、服務(wù)目的均將發(fā)生改變。檔案服務(wù)將“朝著社會化、多元化、開放性和先進性發(fā)展,以企業(yè)、客戶個性化的需求為導(dǎo)向,提供網(wǎng)絡(luò)化、智能化服務(wù)。大數(shù)據(jù)的發(fā)展將實現(xiàn)真正的個性化服務(wù),“不僅提供用戶所需要的信息,還通過對用戶需求進行分析,提供基于海量分布式資源的精細化知識組織輸出,實現(xiàn)“信息+解決方案”的一站式服務(wù)。
(4)從思維角度而言,大數(shù)據(jù)時代的到來,將從多個方面變革傳統(tǒng)的檔案館思維模式,為檔案館管理、服務(wù)及業(yè)務(wù)理念帶來顛覆性的變化。管理思維上,將推動檔案館從經(jīng)驗驅(qū)動到循數(shù)管理的轉(zhuǎn)變,讓“數(shù)據(jù)說出話來”;服務(wù)思維上,檔案館的服務(wù)理念將實現(xiàn)從供給導(dǎo)向到需求導(dǎo)向的轉(zhuǎn)變,實現(xiàn)從資源密集型服務(wù)到服務(wù)主導(dǎo)型的轉(zhuǎn)變;業(yè)務(wù)思維上,從追尋“因果律”走向?qū)徱暋跋嚓P(guān)性”,從出現(xiàn)問題——邏輯分析——找出因果關(guān)系——提出解決方案的逆向思維模式,到收集數(shù)據(jù)——量化分析——找出相互關(guān)系——提出優(yōu)化方案的正向思維模式轉(zhuǎn)變。
2.2 檔案館推進大數(shù)據(jù)的挑戰(zhàn)
2.2.1檔案服務(wù)利用方式急需革新
大數(shù)據(jù)技術(shù)發(fā)展推動了檔案管理的科學(xué)化,在龐大的數(shù)據(jù)信息源的支持下,檔案館的服務(wù)將走向結(jié)論化、知識化和智能化,從而改變以往簡單復(fù)制、查閱等利用方式,減少了服務(wù)過程中的不確定性。而且用戶希望提供個性化、可視化服務(wù),也對檔案部門的服務(wù)利用提出了新的需求。大數(shù)據(jù)時代的發(fā)展將實現(xiàn)真正的個性化服務(wù),不僅提供用戶所需要的信息,還通過對用戶需求進行分析,提供基于海量分布式資源的精細化知識組織輸出,即實現(xiàn)信息解決方案的一站式服務(wù)。檔案服務(wù)方式的革新對檔案館提出了很高的要求。
2.2.2技術(shù)的滯后跟不上大數(shù)據(jù)的發(fā)展
檔案館自身技術(shù)的滯后也引起了研究者的深刻憂慮。在檔案大數(shù)據(jù)的檢索方面,“如何在大量的檔案數(shù)據(jù)中快速而準確地檢索到所需的信息”;在檔案大數(shù)據(jù)的分析方面,如何實現(xiàn)大數(shù)據(jù)處理方法和工具的簡易化和自動化;在檔案大數(shù)據(jù)的展示方面,如何實現(xiàn)最終結(jié)果的可視化:在檔案大數(shù)據(jù)的利用方面,如何在海量數(shù)據(jù)中抽取和挖掘有用的信息和知識并提供給用戶,進行專業(yè)化處理,實現(xiàn)數(shù)據(jù)“增殖”。這些實質(zhì)性的問題若得不到妥善的解決,大數(shù)據(jù)的發(fā)展、普及和深入將遭遇嚴峻的挑戰(zhàn)。
2.2.3思維觀念的及時調(diào)整
在新事物的推進過程中,還要特別注意不要陷入極端的思維誤區(qū),一般情況下檔案館在推進大數(shù)據(jù)的過程中容易陷入兩種思維誤區(qū),一種是完全的否定大數(shù)據(jù),沒有大數(shù)據(jù)觀念,無視大數(shù)據(jù)時代的來臨,不想改變,采取固守原狀的鴕鳥政策;二是泛大數(shù)據(jù)化,即不加鑒別地收集保存一切數(shù)據(jù),從而使得檔案館陷入數(shù)據(jù)沼澤,數(shù)據(jù)數(shù)量太多進而喪失了自己的特色,此外人才問題也是一個很大的挑戰(zhàn),檔案專業(yè)技術(shù)人才及信息技術(shù)人才的匱乏將極大地阻礙檔案館大數(shù)據(jù)的發(fā)展。
3 大數(shù)據(jù)在檔案信息化工作中應(yīng)用的應(yīng)對策略
(1)轉(zhuǎn)變服務(wù)觀念。目前大多數(shù)檔案部門依然是幾十年前的服務(wù)觀念:被動的等待利用者,提供的服務(wù)主要還是檔案信息內(nèi)容,隨著檔案信息化工作的開展,檔案目錄、部分檔案全文經(jīng)數(shù)字化后上網(wǎng)供利用者瀏覽,這是主動服務(wù)思想的體現(xiàn)。一些檔案部門也在嘗試開展進一步的主動服務(wù)工作,比如,北京房山區(qū)提出“基于數(shù)據(jù)挖掘的檔案信息資源深度開發(fā)與利用”等,盡管是傳統(tǒng)的數(shù)據(jù)倉庫應(yīng)用,但服務(wù)的主動性已經(jīng)有了很大的提升,是一大進步。
(2)開展檔案數(shù)字化工作,提高紙質(zhì)檔案數(shù)字化率,盡可能的將館藏傳統(tǒng)檔案進行數(shù)字化,如果數(shù)字化率比較低,數(shù)據(jù)肯定不全有遺漏,抓緊實施電子文件管理工程,進行電子文件收集管理與保存工作,在進行檔案數(shù)字化的過程中,由于同一份傳統(tǒng)檔案可能存在多個全宗或立檔單位都存在,在大數(shù)據(jù)處理前需要進行查重,以免增加超級計算機或服務(wù)器集群的負擔。查重有兩種方法。一種方法是利用檔案目錄,各檔案部門基本都已建設(shè)自己館藏的檔案條目,先把條目上傳,根據(jù)條目比對檔案的重復(fù)性,將結(jié)果反饋給相應(yīng)的檔案部門,以一個檔案部門為主進行數(shù)字化,其他部門或下載拷貝相關(guān)鏈接關(guān)聯(lián)相應(yīng)檔案,該方法條目上傳到上一級檔案部門,由上級檔案部門統(tǒng)籌安排進行數(shù)字化,該方法的優(yōu)點是節(jié)省資源,有限的資源可以盡可能多地數(shù)字化,缺點是協(xié)調(diào),統(tǒng)籌不容易。另一種方法則是各部門分別數(shù)字化自己的館藏,將數(shù)字化結(jié)果全部上傳到數(shù)據(jù)治理計算機,由數(shù)據(jù)治理計算機進行全文比對查重。該方法優(yōu)點是比對準確,缺點是資源有所浪費,同時加重了數(shù)據(jù)治理服務(wù)器的負擔。兩種各有利弊,應(yīng)當靈活使用。
規(guī)劃全國性或區(qū)域性的檔案資源云服務(wù)。大數(shù)據(jù)的基礎(chǔ)是云計算,同時檔案信息資源的整合也應(yīng)該建立在云計算基礎(chǔ)之上,可以考慮建設(shè)全國或區(qū)域性的公有云,實現(xiàn)全國或區(qū)域內(nèi)檔案條目的集中與共享,實現(xiàn)查重檔案的存放與共享,甚至可以實現(xiàn)區(qū)域內(nèi)所有電子文件、數(shù)字檔案的存儲,下級檔案部門保留檔案鏈接地址即可。這樣的前提是訪問公有云的是高速網(wǎng)絡(luò)。公有云下,區(qū)域內(nèi)檔案部門可以建設(shè)自己的私有云。檔案云資源的建設(shè)使得大數(shù)據(jù)平臺有了強有力的數(shù)據(jù)支撐。
(4)提升檔案工作員工綜合素養(yǎng)。要建設(shè)檔案強國,首先要建立一支與檔案強國相匹配的檔案工作員工隊伍,特別是大數(shù)據(jù)時代,檔案工作不再是原先的裝裝訂訂,檔案利用也不是簡單的查閱,檔案人員應(yīng)從數(shù)據(jù)的視角看待檔案,以大數(shù)據(jù)推動檔案館的管理和服務(wù)。這也對檔案人員提出了更高的要求,大數(shù)據(jù)時代,檔案館人員要努力向“數(shù)據(jù)科學(xué)家”轉(zhuǎn)變,大力提升綜合技能,一是具備一定數(shù)學(xué)知識能夠建數(shù)據(jù)模型,二是能夠利用信息技術(shù)建數(shù)據(jù)模型分析系統(tǒng),三是處理數(shù)據(jù),得出結(jié)論和自己的見解。
(5)加強檔案資源集群建設(shè),打造數(shù)據(jù)資源平臺。大數(shù)據(jù)時代,各檔案館之間互聯(lián)互通,實現(xiàn)館藏資源共享,打造集群檔案資源和數(shù)據(jù)平臺意義重大。尤其在當前,許多檔案館本身館藏數(shù)據(jù)都分散在互不聯(lián)通的數(shù)據(jù)庫中,如何將這些數(shù)據(jù)庫打通,實現(xiàn)各數(shù)據(jù)庫乃至各檔案館間的資源共享,才能提升檔案工作的大數(shù)據(jù)水平,才能充分體現(xiàn)出館藏數(shù)據(jù)的價值,檔案館之間的合作也可以實現(xiàn)優(yōu)勢互補,最大范圍的實現(xiàn)價值最大化。從信息技術(shù)層面來看,科學(xué)利用云計算技術(shù),將我國各檔案館資源進行整合集成,打造并建設(shè)中國檔案云,將可以實現(xiàn)這一目標,因此我國檔案部門必須大力推進信息化建設(shè),為大數(shù)據(jù)時代的檔案工作奠定堅實的信息化基礎(chǔ)條件。
(6)創(chuàng)新檔案服務(wù)方式,加快市場化開放進程。大數(shù)據(jù)時代的到來,使得一些原本模糊的因素得以清晰的顯現(xiàn),大數(shù)據(jù)對檔案工作的影響還體現(xiàn)在服務(wù)職能化層面上,隨著信息技術(shù)的不斷發(fā)展,檔案服務(wù)更有針對性、更為準確、更能滿足用戶的想法和需求。換言之,檔案服務(wù)方式將升級為數(shù)據(jù)服務(wù),大數(shù)據(jù)時代,閱覽、咨詢、展覽等傳統(tǒng)檔案服務(wù)將得到變革,而以館藏為基礎(chǔ),為社會提供數(shù)據(jù)分析服務(wù)、數(shù)據(jù)挖掘服務(wù)將成為大數(shù)據(jù)時代檔案的常態(tài)服務(wù)內(nèi)容,如何將孤立的檔案聯(lián)系起來,讓檔案活起來,形成一個綜合的智能化的系統(tǒng),這個系統(tǒng)能夠為需求者提供全面的服務(wù),將是檔案管理者面對的直接挑戰(zhàn),也是最嚴峻的挑戰(zhàn)。
4 結(jié)語
在大數(shù)據(jù)時代,對信息資源的開發(fā)利用能力已經(jīng)成為國際競爭力以及國家綜合實力的重要因素,當全球范圍內(nèi)數(shù)據(jù)成為國家資產(chǎn)、創(chuàng)新前沿,要實現(xiàn)數(shù)據(jù)治國,數(shù)據(jù)強國,檔案部門應(yīng)該勇挑重擔,轉(zhuǎn)變思維觀念,轉(zhuǎn)變管理職能,由“管檔案”向“管數(shù)據(jù)”拓展,制定大數(shù)據(jù)戰(zhàn)略,創(chuàng)造高效、靈活的云環(huán)境,借助基于云的平臺,從可信賴的數(shù)據(jù)源中捕獲和提取結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),優(yōu)先處理最重要的數(shù)據(jù),確定需保留的內(nèi)容和保管期限。通過整合現(xiàn)有檔案館藏資源,進行數(shù)據(jù)分析和數(shù)據(jù)挖掘,把檔案資源轉(zhuǎn)化為知識資源,尤其是覆蓋人民群眾的知識資源,對個人來說,大數(shù)據(jù)技術(shù)提高了檢索信息的效率;對企業(yè)來說,利用這些資源增加競爭能力,提高決策的科學(xué)性;對政府部門來說,使大數(shù)據(jù)成為國家宏觀調(diào)控、社會治理的信息基礎(chǔ),提高執(zhí)政為民的質(zhì)量和影響力。
參考文獻
[1]魯?shù)挛?試述檔案大數(shù)據(jù)的定義、特征及核心內(nèi)容.檔案,2014(4):13-15
[2]周楓.國內(nèi)檔案學(xué)領(lǐng)域“大數(shù)據(jù)”研究述評.檔案,2014(6):9-12
[3]石俊峰,周俐霞,付雙雙.大數(shù)據(jù)時代數(shù)字檔案資源管理研究現(xiàn)狀與趨勢分析,信息安全與通信保密,2014(5):87-93
[4]劉國華,李澤鋒.檔案工作中大數(shù)據(jù)框架構(gòu)建及應(yīng)用思考,2014(2):32-34
[5]王鐵牛.大數(shù)據(jù)檔案學(xué)國內(nèi)研究現(xiàn)狀及研究方向分析.檔案研究,2015(3):107-110
[6]鄒華英.試論大數(shù)據(jù)時代的檔案工作.檔案事業(yè)管理,2013(12):4-5
[7]張芳霖,唐霜.大數(shù)據(jù)影響下檔案學(xué)發(fā)展趨勢的思考.檔案學(xué)通訊,2014(1):9-13
[8]陳南.淺析檔案大數(shù)據(jù)時代的必然性及其給檔案管理帶來的機遇.治黃科技信息,2015(12):26-29
[9]王蘭成,劉曉亮.網(wǎng)上數(shù)字檔案大數(shù)據(jù)分析中的知識挖掘技術(shù)研究.浙江檔案,2013(11):14-19
[10]高茂科.對檔案大數(shù)據(jù)關(guān)鍵環(huán)節(jié)的認識.中國檔案,2013(10):72-73
[11]丁國勇.大數(shù)據(jù)時代對檔案工作影響及應(yīng)對策略研究.蘭臺世界,2014(6):42-43
作者簡介
臧茜玉(1993-),女,漢族,籍貫:安徽省蚌埠人,上海大學(xué)圖書情報檔案系,15級在讀研究生碩士學(xué)位,專業(yè):圖書情報,研究方向:檔案學(xué)基礎(chǔ)理論研究。