張譯之(中國(guó)石油安全環(huán)保技術(shù)研究院,北京 102200)
試論大數(shù)據(jù)時(shí)代背景下的檔案管理工作
張譯之
(中國(guó)石油安全環(huán)保技術(shù)研究院,北京 102200)
本文主要結(jié)合筆者多年的工作經(jīng)驗(yàn),首先分析對(duì)比了大數(shù)據(jù)時(shí)代與檔案大數(shù)據(jù)特征,接著闡述了大數(shù)據(jù)技術(shù)在檔案工作中應(yīng)用的必要性,從檔案管理理論、檔案信息資源管理、數(shù)據(jù)安全問(wèn)題這三個(gè)方面闡述了新時(shí)代檔案管理工作面臨的挑戰(zhàn),并且從檔案數(shù)據(jù)挖掘和檔案管理系統(tǒng)的可擴(kuò)展性這兩個(gè)方面提出了新時(shí)代檔案管理工作的機(jī)遇,最后,指出了檔案工作者未來(lái)的工作重心與方向,給廣大同仁今后的工作提供借鑒意義和參考價(jià)值。
大數(shù)據(jù) 檔案管理 挑戰(zhàn) 機(jī)遇
古往今來(lái),縱觀歷史,每一項(xiàng)新技術(shù)的產(chǎn)生都預(yù)示著一個(gè)新時(shí)代的來(lái)臨。隨著云計(jì)算、移動(dòng)互聯(lián)網(wǎng)等新技術(shù)的不斷涌現(xiàn),不同角色間所輸入與輸出的海量信息衍生出了巨大的數(shù)據(jù)量。據(jù)預(yù)計(jì),2020年全球以電子形式存儲(chǔ)的數(shù)據(jù)量將達(dá)到35ZB,是2009年全球存儲(chǔ)量的40倍。而在2010年年底,根據(jù)IDC的統(tǒng)計(jì),全球數(shù)據(jù)量已經(jīng)達(dá)到了120 萬(wàn)PB。數(shù)據(jù)的爆炸式增長(zhǎng)大大超乎了人們的想象,整個(gè)世界迎來(lái)了大數(shù)據(jù)時(shí)代。
數(shù)據(jù)信息的新時(shí)代,被稱之為“大數(shù)據(jù)時(shí)代”。所謂大數(shù)據(jù),簡(jiǎn)單來(lái)講,指的就是規(guī)模巨大的海量資料,其具有四“V”特征,即Volume(體量)、Variety(種類)、Value(價(jià)值)、Velocity(速度)。一是數(shù)據(jù)體量巨大;二是數(shù)據(jù)種類繁多,包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)等;三是商業(yè)價(jià)值高,但價(jià)值密度低;四是處理速度快,要實(shí)時(shí)獲取所需要的信息,這是區(qū)別于傳統(tǒng)數(shù)據(jù)最顯著的特征。
大數(shù)據(jù)的精髓在于分析信息過(guò)程的轉(zhuǎn)變:第一,不再依賴于隨機(jī)采樣,而是更多的分析整體數(shù)據(jù);第二,不再熱衷于高精確度,而是更傾向于混雜性;第三,不再單純探求因果關(guān)系,而是更為關(guān)注事物間的關(guān)聯(lián)。這三大轉(zhuǎn)變體現(xiàn)了大數(shù)據(jù)的核心——預(yù)測(cè)。
2.1檔案信息資源的充分開(kāi)發(fā)利用需要大數(shù)據(jù)技術(shù)
檔案館作為保存檔案并為國(guó)家、社會(huì)、企業(yè)提供檔案利用服務(wù)的事業(yè)機(jī)構(gòu),儲(chǔ)存有海量的信息資源。由于管理方式的落后,人才力量的不足、檔案意識(shí)的欠缺等原因,這些信息資源寶藏并沒(méi)有得到有效的開(kāi)發(fā)和利用。盤活海量的檔案信息,挖掘出其中蘊(yùn)藏的寶貴知識(shí)和財(cái)富,光靠人是無(wú)法完成的,必須借助技術(shù),而大數(shù)據(jù)技術(shù)則是不二的選擇。
2.2新時(shí)期檔案數(shù)據(jù)的存儲(chǔ)與備份需要大數(shù)據(jù)技術(shù)
檔案數(shù)據(jù)庫(kù)的使用極大地提高了檔案管理利用效率,但近年來(lái),常常會(huì)碰到無(wú)法向數(shù)據(jù)庫(kù)中增加新的檔案數(shù)據(jù)的情況。隨著檔案信息化不斷接近完成及大數(shù)據(jù)時(shí)代的到來(lái),檔案數(shù)據(jù)庫(kù)面臨的存儲(chǔ)空間問(wèn)題相當(dāng)嚴(yán)峻。我們必須優(yōu)化存儲(chǔ)、提高效率和節(jié)約成本,這就需要借助大數(shù)據(jù)技術(shù)來(lái)得以有效的實(shí)現(xiàn)。
2.3檔案工作從實(shí)體管理上升到知識(shí)管理需要大數(shù)據(jù)技術(shù)
僅限于數(shù)據(jù)或文件的借閱利用已經(jīng)無(wú)法滿足現(xiàn)今檔案用戶的需求,目前,獲得數(shù)據(jù)背后的信息及其所蘊(yùn)含的知識(shí)成為了檔案利用更為重要的目的。因此檔案利用服務(wù)也應(yīng)向知識(shí)提供方面轉(zhuǎn)化。技術(shù)引擎是檔案館知識(shí)服務(wù)的技術(shù)核心,新型知識(shí)服務(wù)引擎包括資源及學(xué)術(shù)搜索引擎、資源及服務(wù)推薦引擎、知識(shí)服務(wù)社區(qū)實(shí)體(包括用戶及資源)行為智能分析引擎、用戶知識(shí)需求預(yù)測(cè)引擎及多維度信息資源獲取、組織、分析及決策引擎等。運(yùn)用大數(shù)據(jù)技術(shù)可以構(gòu)建檔案館的信息新型知識(shí)服務(wù)引擎。
3.1大數(shù)據(jù)時(shí)代給檔案工作帶來(lái)的挑戰(zhàn)
3.1.1檔案管理理論的挑戰(zhàn)
正如信息化時(shí)代挑戰(zhàn)了紙質(zhì)時(shí)期的來(lái)源原則、文件生命周期理論、檔案價(jià)值鑒定理論,催生了基礎(chǔ)理論的新變革,產(chǎn)生了新來(lái)源觀、文件連續(xù)體理論、宏觀鑒定理論等革新的理論。在大數(shù)據(jù)時(shí)代,新來(lái)源觀、文件連續(xù)體理論、宏觀鑒定理論等都將受到不同程度的挑戰(zhàn),檔案學(xué)基礎(chǔ)理論將迎來(lái)進(jìn)一步的發(fā)展。
3.1.2檔案信息資源管理的挑戰(zhàn)
從紙質(zhì)檔案到檔案信息化再到檔案大數(shù)據(jù)時(shí)代,檔案信息資源呈指數(shù)型增長(zhǎng),用現(xiàn)有的檔案信息化手段和工具難以滿足大數(shù)據(jù)時(shí)代檔案信息資源管理的需求。在大數(shù)據(jù)時(shí)代,檔案信息不再匱乏,而是泛濫。如何實(shí)現(xiàn)檔案數(shù)據(jù)長(zhǎng)期可讀性、可靠性,并在海量數(shù)據(jù)中實(shí)現(xiàn)對(duì)檔案信息的挖掘分析,從而提供有價(jià)值的信息,是檔案信息資源管理面臨的新挑戰(zhàn)。
3.1.3數(shù)據(jù)安全問(wèn)題的挑戰(zhàn)
檔案數(shù)據(jù)的高共享不等于全共享,在大量涉密檔案數(shù)據(jù)的保密過(guò)程及敏感數(shù)據(jù)的分析過(guò)程中,如何實(shí)現(xiàn)信息安全,避免數(shù)據(jù)被惡意使用,更好地防止因秘密泄露給國(guó)家、社會(huì)、企業(yè)帶來(lái)政治、經(jīng)濟(jì)上的損失,是新時(shí)期檔案安全工作面臨的一大挑戰(zhàn)。
3.2大數(shù)據(jù)時(shí)代,檔案工作迎來(lái)的新機(jī)遇
3.2.1大數(shù)據(jù)的應(yīng)用給檔案數(shù)據(jù)挖掘帶來(lái)了機(jī)遇
傳統(tǒng)的檔案管理以文檔管理為主,沒(méi)有利用技術(shù)工具進(jìn)行挖掘、分析,檔案基本處于被動(dòng)利用。大數(shù)據(jù)時(shí)代,檔案系統(tǒng)中除大量的文檔外,還有海量結(jié)構(gòu)化數(shù)據(jù)。檔案部門收集大數(shù)據(jù)后,通過(guò)主動(dòng)調(diào)查利用者的需求,對(duì)海量數(shù)據(jù)進(jìn)行聚類、分類、相關(guān)性分析,建立各種數(shù)據(jù)模型,找到數(shù)據(jù)之間的關(guān)系,提高檔案價(jià)值,更好地實(shí)現(xiàn)預(yù)測(cè)功能,為高層決策提供參考。
3.2.2大數(shù)據(jù)技術(shù)給檔案管理系統(tǒng)的可擴(kuò)展性帶來(lái)了機(jī)遇
隨著檔案數(shù)據(jù)的不斷增多,傳統(tǒng)的檔案管理系統(tǒng)由于無(wú)法動(dòng)態(tài)擴(kuò)展,會(huì)出現(xiàn)“小馬拉大車”的情況。大數(shù)據(jù)技術(shù)可以對(duì)計(jì)算資源、存儲(chǔ)資源進(jìn)行動(dòng)態(tài)擴(kuò)展、按需分配,滿足服務(wù)器的快速擴(kuò)容及數(shù)據(jù)量的快速增長(zhǎng),同時(shí)大幅降低系統(tǒng)投資及維護(hù)成本。
大數(shù)據(jù)時(shí)代已然是信息社會(huì)發(fā)展的必然結(jié)果,而這一新的時(shí)代也必將加快社會(huì)的進(jìn)一步發(fā)展。作為檔案工作者,要努力抓住新時(shí)代的機(jī)遇,嚴(yán)肅對(duì)待挑戰(zhàn),不斷學(xué)習(xí)和創(chuàng)新,圍繞企業(yè)的經(jīng)營(yíng)工作對(duì)檔案管理方式和手段進(jìn)行深入思考、重新認(rèn)識(shí)。充分運(yùn)用新技術(shù),在時(shí)代浪潮地推動(dòng)下,更好地開(kāi)發(fā)和利用檔案信息資源中蘊(yùn)藏的巨大知識(shí)寶藏,使檔案工作創(chuàng)造出更大的價(jià)值。
[1]張欣.解讀大數(shù)據(jù)時(shí)代下檔案管理的價(jià)值提升[J].理論觀察,2014 (1):108-109.
[2]高茂科.對(duì)檔案大數(shù)據(jù)關(guān)鍵環(huán)節(jié)的認(rèn)識(shí)[J].中國(guó)檔案,2013(10):72-73.
[3]馮海超.大數(shù)據(jù)創(chuàng)業(yè)樣本[J].互聯(lián)網(wǎng)周刊,2012(23):45.