孫麗梅
(濰坊學(xué)院,山東 濰坊261061)
隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算技術(shù)等的快速發(fā)展,以及智能終端、網(wǎng)絡(luò)社會(huì)、數(shù)字地球等信息體的普及和建設(shè),大數(shù)據(jù)及大數(shù)據(jù)技術(shù)飛速發(fā)展起來。大數(shù)據(jù)的發(fā)展進(jìn)一步擴(kuò)大了信息的開放程度,推動(dòng)了存儲(chǔ)技術(shù)、軟件技術(shù)等的技術(shù)進(jìn)步。檔案信息化是指檔案管理模式從以檔案實(shí)體為重心向以檔案信息為重心轉(zhuǎn)變的過程,在這一過程中,檔案部門要不斷地采用現(xiàn)代信息技術(shù),以更好的提高檔案管理和利用的現(xiàn)代化水平。面對(duì)大數(shù)據(jù)發(fā)展的新特點(diǎn)、新挑戰(zhàn),如何做好檔案信息化建設(shè)是我們需要研究的課題。
大數(shù)據(jù)通俗的講就是指無法在一定時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合。隨著對(duì)大數(shù)據(jù)研究的進(jìn)一步深入,現(xiàn)在所說的大數(shù)據(jù)不僅指數(shù)據(jù)本身的規(guī)模,也包括數(shù)據(jù)采集工具、存儲(chǔ)平臺(tái)、分析系統(tǒng)和數(shù)據(jù)衍生價(jià)值等要素。
一是數(shù)據(jù)類型多樣。以往數(shù)據(jù)大都以文本形式等二維結(jié)構(gòu)呈現(xiàn),但隨著新型計(jì)算機(jī)技術(shù)的飛速發(fā)展,視頻、音頻、圖片、郵件、HTML、GPS 等多種類型的的非結(jié)構(gòu)化數(shù)據(jù)日益呈現(xiàn)并逐年飛速增長(zhǎng);二是數(shù)據(jù)體量巨大。大數(shù)據(jù)時(shí)代,各種傳感器、移動(dòng)設(shè)備、智能終端和網(wǎng)絡(luò)社會(huì)等無時(shí)不刻都在產(chǎn)生數(shù)據(jù),數(shù)量級(jí)別已經(jīng)突破TB,發(fā)展至PB(1PB=1024TB)乃至ZB(1ZB=1024PB)。有資料表明,百度新首頁(yè)導(dǎo)航每天需要提供的數(shù)據(jù)超過1.5PB,這些數(shù)據(jù)如果打印出來將超過5 千億張A4 紙,而到目前為止,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量?jī)H為200PB;三是處理速度快。數(shù)據(jù)處理遵循“1 秒定律”,可從各種類型的數(shù)據(jù)中快速獲得高價(jià)值的信息。數(shù)據(jù)挖掘、語義引擎、可視化分析、預(yù)測(cè)性分析等技術(shù)的發(fā)展,可從海量的數(shù)據(jù)中深度解析,提取信息,掌控?cái)?shù)據(jù)增值的“加速器”;四是價(jià)值密度低。以視頻為例,一小時(shí)的視頻,在不間斷的監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅只有一兩秒。
價(jià)值是大數(shù)據(jù)的終極目的,大數(shù)據(jù)利用將成為提高核心競(jìng)爭(zhēng)力的關(guān)鍵因素。對(duì)大數(shù)據(jù)的處理分析正成為新一代信息技術(shù)融合應(yīng)用的結(jié)點(diǎn),移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、數(shù)字家庭等新一代信息技術(shù)應(yīng)用形態(tài)不斷呈現(xiàn),這些應(yīng)用不斷產(chǎn)生大數(shù)據(jù)。同時(shí),面向大數(shù)據(jù)處理如:數(shù)據(jù)采集、統(tǒng)計(jì)分析、挖掘等的新技術(shù)、新服務(wù)、新業(yè)態(tài)也會(huì)不斷涌現(xiàn)。對(duì)大數(shù)據(jù)的分析可以為用戶提供有效的決策支持,可以幫助提供更加及時(shí)、個(gè)性化的服務(wù),在促進(jìn)行業(yè)發(fā)展方面發(fā)揮重要作用。但是數(shù)據(jù)不等于信息、不等于價(jià)值,如何從海量的數(shù)據(jù)中“提煉”出信息,轉(zhuǎn)化成價(jià)值呢?卡內(nèi)基·梅隆大學(xué)海因茲學(xué)院院長(zhǎng)Ramayya Krishnan 說:“大數(shù)據(jù)具有催生社會(huì)變革的能量,但釋放這種能量,需要嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)治理、富有洞見的數(shù)據(jù)分析和激發(fā)管理創(chuàng)新的環(huán)境?!?/p>
所謂檔案信息化,就是在國(guó)家檔案行政管理部門的統(tǒng)一規(guī)劃和組織下,在檔案管理活動(dòng)中全面應(yīng)用現(xiàn)代信息技術(shù),對(duì)檔案信息資源進(jìn)行處置、管理和為社會(huì)提供服務(wù),加速實(shí)現(xiàn)檔案管理現(xiàn)代化的進(jìn)程。換句話說,檔案信息化是指檔案管理模式從以檔案實(shí)體為重心向以檔案信息為重心轉(zhuǎn)變的過程。近幾年來,我國(guó)的檔案信息化建設(shè)取得了一定成績(jī),主要表現(xiàn)在:一是檔案信息化建設(shè)普遍展開。近幾年,隨著對(duì)檔案重要性的認(rèn)識(shí),在檔案信息化建設(shè)大潮的影響下,各地逐漸對(duì)檔案信息化建設(shè)工作進(jìn)行了規(guī)劃、部署,檔案館網(wǎng)站建設(shè)已基本全面展開,隨之幾千萬條檔案目錄得以公開,為當(dāng)?shù)亟?jīng)濟(jì)發(fā)展和服務(wù)民生提供了便利。二是檔案信息化環(huán)境大大改善。隨著相關(guān)政策法規(guī)進(jìn)一步完善健全,各部門檔案信息化意識(shí)進(jìn)一步加強(qiáng),檔案干部隊(duì)伍建設(shè)、檔案信息化軟硬件投資、檔案信息資源結(jié)構(gòu)等方面得到了改善,保障了檔案信息化工作的開展。
當(dāng)前,各地檔案系統(tǒng)統(tǒng)一性和聯(lián)系性較差,檔案信息化建設(shè)缺乏規(guī)劃、缺乏統(tǒng)一標(biāo)準(zhǔn),這給一些檔案的傳輸、接收及整合利用帶來了不便。在大數(shù)據(jù)時(shí)代,如何將“沉睡”在檔案中的信息釋放出來呢?
首先,充分利用大數(shù)據(jù)技術(shù),做好檔案信息化標(biāo)準(zhǔn)建設(shè)工作?!盁o規(guī)矩不成方圓”,檔案信息化建設(shè)要統(tǒng)一規(guī)劃、統(tǒng)一規(guī)范、統(tǒng)一標(biāo)準(zhǔn),這樣才能使得我們的檔案信息資源被有效的整合,以達(dá)到檔案信息資源共享和合理利用的目的。伴隨著大數(shù)據(jù)規(guī)模的增大,可視化分析、數(shù)據(jù)挖掘、預(yù)測(cè)性分析、語義引擎及數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理等大數(shù)據(jù)技術(shù)也飛速發(fā)展,在檔案信息化過程中,相關(guān)部門要認(rèn)清檔案信息建設(shè)工作的特點(diǎn),充分利用這些先進(jìn)的技術(shù),做好各地檔案信息化情況數(shù)據(jù)的采集、分析,去莠存良,做好檔案信息化建設(shè)規(guī)劃,形成科學(xué)合理的檔案信息化建設(shè)規(guī)范和標(biāo)準(zhǔn)建設(shè)。比如可以通過對(duì)當(dāng)前各類數(shù)據(jù)類型進(jìn)行分析,從大數(shù)據(jù)中挖掘出特點(diǎn),通過科學(xué)的預(yù)測(cè)、分析等,預(yù)測(cè)未來的檔案數(shù)據(jù)結(jié)構(gòu),從而更好的做好信息化建設(shè)規(guī)劃。
其次,充分利用大數(shù)據(jù)環(huán)境,做好系統(tǒng)建設(shè)工作。檔案管理系統(tǒng)關(guān)系到檔案信息化建設(shè)的速度與質(zhì)量、集中體現(xiàn)了檔案信息建設(shè)的效益和檔案信息服務(wù)的效果,是檔案信息化建設(shè)的重要環(huán)節(jié)。好的檔案管理系統(tǒng)應(yīng)具備功能完善、便于移植、安全性高等特點(diǎn),大數(shù)據(jù)應(yīng)用的爆發(fā)性增長(zhǎng),直接推動(dòng)了存儲(chǔ)、網(wǎng)絡(luò)及軟件技術(shù)的發(fā)展,同時(shí),大數(shù)據(jù)發(fā)展帶來的容量問題、安全問題、成本問題等,促使存儲(chǔ)系統(tǒng)、安全性需求、重復(fù)數(shù)據(jù)刪除技術(shù)等迅速發(fā)展與成熟,這些都對(duì)檔案管理系統(tǒng)的建設(shè)產(chǎn)生了重要的影響。在檔案管理系統(tǒng)的建設(shè)中,應(yīng)充分利用大數(shù)據(jù)技術(shù),一是完善系統(tǒng)的各項(xiàng)功能,如數(shù)據(jù)整理、系統(tǒng)維護(hù)、檔案編研、查閱利用、鑒定銷毀等基本功能,并設(shè)計(jì)根據(jù)用戶特殊需求不斷拓展的功能;二是設(shè)計(jì)的系統(tǒng)要便于“移植”?;诔杀究刂频囊?,很多部門都會(huì)定制自己的“硬件平臺(tái)”,而不是用現(xiàn)成的商業(yè)產(chǎn)品,為適應(yīng)這一需求,設(shè)計(jì)的產(chǎn)品應(yīng)提供純軟件的形式,可以直接安裝在用戶已有的、通用的或者現(xiàn)成的硬件設(shè)備上。同時(shí)要注意做好系統(tǒng)兼容,以方便與部門其他各系統(tǒng)數(shù)據(jù)的共享與傳輸存儲(chǔ);三是系統(tǒng)的穩(wěn)定性。軟件系統(tǒng)的穩(wěn)定性強(qiáng)調(diào)軟件架構(gòu)的穩(wěn)定,即需求、代碼等的變更對(duì)軟件系統(tǒng)的影響盡可能地小,軟件在一定運(yùn)行周期內(nèi),軟件的出錯(cuò)機(jī)率小、性能劣化趨勢(shì)低等;四是系統(tǒng)的安全性。大數(shù)據(jù)分析往往需要多類數(shù)據(jù)相互參考,因此大數(shù)據(jù)的廣泛應(yīng)用也催生出一些新的、需要考慮的安全性問題。檔案信息作為一種特殊的信息資源,有自己的安全標(biāo)準(zhǔn)和保密性需求,這在系統(tǒng)建設(shè)和使用中是必須遵從的,在系統(tǒng)建設(shè)時(shí)要特別注意。
第三,充分利用大數(shù)據(jù)優(yōu)勢(shì),加快數(shù)字檔案館建設(shè)。大數(shù)據(jù)環(huán)境為數(shù)字檔案館的更好建設(shè)提供了機(jī)遇,在建設(shè)過程中,一是要充分認(rèn)清檔案信息建設(shè)工作的特點(diǎn)及其原則,做好整體規(guī)劃。二是合理調(diào)整館藏結(jié)構(gòu),充實(shí)數(shù)字檔案館藏,加快館藏檔案信息數(shù)字化。三是加強(qiáng)各地區(qū)聯(lián)絡(luò),做好經(jīng)驗(yàn)交流和數(shù)據(jù)共享。四是相關(guān)部門要借助大數(shù)據(jù)的優(yōu)勢(shì),做好統(tǒng)計(jì)分析,使得我國(guó)的檔案信息資源能夠被有效的整合,已達(dá)到檔案信息資源有效共享的目的。
信息化是一場(chǎng)技術(shù)革命,它使檔案載體、檔案工作、檔案利用等方面都發(fā)生了巨大改變,引起了檔案管理的深刻變革。檔案信息化是信息社會(huì)檔案管理工作發(fā)展之必然趨勢(shì)。而大數(shù)據(jù)是信息化時(shí)代的“石油”,在信息化的過程中,檔案界要始終保持對(duì)信息技術(shù)的高度敏感,及時(shí)追蹤新技術(shù)趨勢(shì),在做精業(yè)務(wù)的基礎(chǔ)上,將兩者整體權(quán)衡、結(jié)合起來,使檔案信息化建設(shè)工作能夠有效進(jìn)行,以實(shí)現(xiàn)實(shí)現(xiàn)檔案信息資源的社會(huì)共享。
[1]陳張靖.淺析我國(guó)檔案信息化建設(shè)的現(xiàn)狀與對(duì)策[J].讀與寫雜志,2012,(01).
[2]王倩,朱宏峰,劉天華.大數(shù)據(jù)安全的現(xiàn)狀與發(fā)展[J].計(jì)算機(jī)與網(wǎng)絡(luò),2013,(16).
[3]智庫(kù)百科.大數(shù)據(jù).http://wiki.mbalib.com/wiki/%E5%A4%A7%E6%95%B0%E6%8D%AE.