苗曉慧 施 娜
(1.包頭市速拓地質(zhì)勘查技術(shù)服務(wù)有限公司,內(nèi)蒙古 包頭 014000;2.內(nèi)蒙古鑫昊有色金屬礦業(yè)開發(fā)有限責(zé)任公司,內(nèi)蒙古 呼和浩特 010010)
“大數(shù)據(jù)時(shí)代”最早被麥肯錫公司提出的,自2012年開始,“大數(shù)據(jù)”一詞被越來越多的人提起與應(yīng)用,人們用它來描述信息爆炸時(shí)代的海量數(shù)據(jù),近年來已經(jīng)在商界、科技界廣泛應(yīng)用。但是理論界尚未對“大數(shù)據(jù)”形成統(tǒng)一的定義,但是一致認(rèn)為大數(shù)據(jù)不是簡單的對數(shù)據(jù)量大小的描述,而是在數(shù)據(jù)量巨大,數(shù)據(jù)種類龐雜的信息中通過數(shù)據(jù)處理、數(shù)據(jù)分析來獲取有效信息的一種觀念、技術(shù)和方法的統(tǒng)稱。
與“大數(shù)據(jù)”定義不同,大數(shù)據(jù)的特征普遍得到業(yè)界共識,即大數(shù)據(jù)一般歸納為4V:數(shù)據(jù)量巨大,從TB級躍升到PB級甚至ZB級,而且在不斷增大;處理速度快主要表現(xiàn)在數(shù)據(jù)流和大數(shù)據(jù)移動(dòng)性,此特性要求必須在第一時(shí)間處理數(shù)據(jù);數(shù)據(jù)種類繁多,數(shù)據(jù)種類不僅包括文檔、圖片等傳統(tǒng)類型,還包括視頻、音頻、網(wǎng)頁、電子郵件等;數(shù)據(jù)價(jià)值高,此特性是大數(shù)據(jù)運(yùn)用的真實(shí)意義所在,其價(jià)值具有稀缺性。
大數(shù)據(jù)時(shí)代的來臨,使人們對信息資源的認(rèn)識更進(jìn)一步,同時(shí)也提出了新的需求,在大數(shù)據(jù)時(shí)代的大環(huán)境下,各個(gè)業(yè)務(wù)部門均上線各自業(yè)務(wù)系統(tǒng),作為這些業(yè)務(wù)數(shù)據(jù)的終點(diǎn)數(shù)據(jù),檔案數(shù)據(jù)也有了新的變化,同時(shí)對檔案管理工作也有了新的發(fā)展特征。
1)檔案數(shù)據(jù)量巨大。地勘單位檔案記錄著地勘單位在科研等各種活動(dòng)中直接形成的、清晰的原始信息。在大數(shù)據(jù)時(shí)代背景下,各業(yè)務(wù)系統(tǒng)每時(shí)每刻都在產(chǎn)生著數(shù)據(jù)量,這些業(yè)務(wù)系統(tǒng)產(chǎn)生一切的具有保存價(jià)值的文件、音頻、視頻、圖片均屬于檔案收集范圍。因此,檔案數(shù)據(jù)量將大的驚人。同時(shí),科技的進(jìn)步直接導(dǎo)致各種數(shù)碼設(shè)備的普遍使用,形成各部門各種活動(dòng)的照片視頻等,也構(gòu)成很大一部分?jǐn)?shù)據(jù)量。
2)檔案數(shù)據(jù)多源異構(gòu)。地勘單位檔案涉及地勘單位內(nèi)的眾多業(yè)務(wù),包括生產(chǎn)、科研、活動(dòng)等,這些業(yè)務(wù)部門的不同業(yè)務(wù)和不同業(yè)務(wù)系統(tǒng)直接導(dǎo)致產(chǎn)生的檔案數(shù)據(jù)是各不相同的,形成了檔案數(shù)據(jù)多源異構(gòu)的態(tài)勢。如文檔、圖片、照片、音頻、視頻等,形成非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)共同存在的現(xiàn)象,而這些數(shù)據(jù)之間也并非毫無關(guān)聯(lián),存在一定的內(nèi)在聯(lián)系。
3)利用檔案需求多樣化。大數(shù)據(jù)時(shí)代,地勘單位各業(yè)務(wù)系統(tǒng)既是檔案數(shù)據(jù)的產(chǎn)生者也是檔案數(shù)據(jù)的利用者。首先,行業(yè)政策、規(guī)定等信息的需求正在不斷增加;其次,作為不斷發(fā)展的地勘單位,地勘單位的宣傳活動(dòng)必不可少,而宣傳活動(dòng)中用到的歷史檔案、名人檔案和特色檔案也在不斷增多。由此可見,大數(shù)據(jù)時(shí)代不同使用者對各種類型檔案的需求產(chǎn)生了多樣化的態(tài)勢。
4)地勘單位檔案價(jià)值更加高精尖。大數(shù)據(jù)真正價(jià)值在于對海量數(shù)據(jù)的分析、挖掘,得出真實(shí)可靠的信息。地勘單位檔案是記錄地勘單位從事生產(chǎn)、科研、管理等活動(dòng)直接形成具有保存價(jià)值的各種文字、圖表、聲像等不同形式、載體的歷史記錄,是最真實(shí)、最可靠、最權(quán)威的信息。并且在大數(shù)據(jù)時(shí)代背景下,各業(yè)務(wù)產(chǎn)生的各種中間數(shù)據(jù)、重點(diǎn)數(shù)據(jù)均是利用者可利用數(shù)據(jù),因此,在對這些數(shù)據(jù)進(jìn)行分析、挖掘之后產(chǎn)生的檔案數(shù)據(jù)變成了高精尖的檔案數(shù)據(jù)。
大數(shù)據(jù)時(shí)代的到來,使得檔案數(shù)據(jù)變得數(shù)量巨大、多源異構(gòu)、需求增多、數(shù)據(jù)高精尖化,給檔案發(fā)展帶來了機(jī)遇,同時(shí)也給檔案工作帶來了新的挑戰(zhàn)。
1)大量數(shù)據(jù)存儲(chǔ)挑戰(zhàn)。檔案大數(shù)據(jù)化,使得地勘單位檔案的數(shù)據(jù)必須具備大容量的存儲(chǔ)。對如此海量的檔案數(shù)據(jù)首先要將其保存下來,同時(shí)考慮到數(shù)據(jù)多源異構(gòu)的特性,應(yīng)該將檔案數(shù)據(jù)存儲(chǔ)在不同類型的數(shù)據(jù)中,另外存儲(chǔ)的數(shù)據(jù)并不是簡單的存放,應(yīng)該彼此有關(guān)聯(lián)有機(jī)的進(jìn)行融合,因此不同存儲(chǔ)空間應(yīng)該有合理“連接器”。
2)檔案服務(wù)內(nèi)容、方式需革新。大數(shù)據(jù)時(shí)代下的檔案利用,走向了結(jié)論化、知識化和智能化,應(yīng)該改變以往簡單查閱、復(fù)制等利用方式,檔案利用者也不僅僅是對檔案信息本身的需求,更希望從大量數(shù)據(jù)中經(jīng)過挖掘,得到自己想要的檔案信息。
3)檔案信息安全受到威脅。大數(shù)據(jù)時(shí)代背景下,檔案數(shù)據(jù)的安全受到了很大的威脅。各個(gè)業(yè)務(wù)系統(tǒng)的上線,并未遵循統(tǒng)一標(biāo)準(zhǔn),但是均需要與檔案系統(tǒng)進(jìn)行對接;同時(shí),檔案數(shù)據(jù)價(jià)值變得越來越高,越容易受到各種不法分子的共計(jì);另外,在對結(jié)構(gòu)型數(shù)據(jù)和非結(jié)構(gòu)型數(shù)據(jù)進(jìn)行融合時(shí),可能會(huì)對傳統(tǒng)檔案信息安全體系帶來較大沖擊。
4)對檔案從業(yè)人員提出較高要求。在大數(shù)據(jù)時(shí)代背景下,檔案的收、管、用方面均有了新的時(shí)代特征,新的檔案管理業(yè)務(wù)對檔案從業(yè)人員提出了更高的要求,不僅要通曉檔案業(yè)務(wù),更要具備計(jì)算機(jī)相關(guān)知識,并且具備較高的學(xué)習(xí)能力,才能不斷跟隨時(shí)代發(fā)展,做好檔案工作。
大數(shù)據(jù)時(shí)代,地勘單位檔案工作要有新的工作思路,充分整合利用檔案資源,以服務(wù)為宗旨,不斷改進(jìn)工作方式,適應(yīng)時(shí)代發(fā)展要求。
1)建立數(shù)據(jù)規(guī)范,整合資源。地勘單位各業(yè)務(wù)部門間的業(yè)務(wù)系統(tǒng)可能采用不同的數(shù)據(jù)庫,而產(chǎn)生不同格式的數(shù)據(jù),大量異構(gòu)數(shù)據(jù)形成信息孤島,建立標(biāo)準(zhǔn)化、規(guī)范化的體系,消除信息孤島,形成資源共享是大數(shù)據(jù)時(shí)代背景下首要解決的數(shù)據(jù)問題。對結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)合理整合,結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)合理整合,努力實(shí)現(xiàn)對結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的合并管理,云計(jì)算、大數(shù)據(jù)技術(shù)的運(yùn)用才能成為可能,分析挖掘海量數(shù)據(jù)才能成為可能。
2)改善工作模式。大數(shù)據(jù)時(shí)代背景下,各業(yè)務(wù)系統(tǒng)的建立,各業(yè)務(wù)數(shù)據(jù)的歸檔,對傳統(tǒng)的收、管、用,均提出了新的要求。檔案的“收”要做到貫穿全流程,做到前端控制,提前做好各個(gè)業(yè)務(wù)系統(tǒng)的調(diào)研,要針對不同數(shù)據(jù)類別采取不同的處理方法,與檔案系統(tǒng)建立接口;檔案的“管”要做到全技術(shù)支持,大數(shù)據(jù)時(shí)代背景下,檔案管理已經(jīng)不可避免的涵蓋了計(jì)算機(jī)知識,同時(shí)海量的檔案數(shù)據(jù)處理也需要計(jì)算機(jī)技術(shù)處理,在檔案安全方面也需要做到備份與系統(tǒng)日志管理;檔案的“用”要做到全智能服務(wù),大數(shù)據(jù)時(shí)代,檔案數(shù)據(jù)不應(yīng)該是簡單地存放在那里的“死”數(shù)據(jù),應(yīng)該“活”起來,而“活”即是對數(shù)據(jù)的分析與挖掘,應(yīng)該具備智能化的服務(wù),真正為檔案利用者服務(wù)。
3)增強(qiáng)檔案信息安全管理。大數(shù)據(jù)時(shí)代檔案安全性不言而喻,地勘單位檔案工作需特別強(qiáng)調(diào)檔案信息安全。首先要以技術(shù)為支撐,加強(qiáng)檔案信息安全全程管理。包括身份認(rèn)證、單點(diǎn)登錄、密碼技術(shù)給數(shù)據(jù)加密、設(shè)置權(quán)限、做好備份機(jī)制、保留操作日志等。其次,要建立安全規(guī)章制度,確保各項(xiàng)工作有章可循。特別要做好檔案開放標(biāo)準(zhǔn)和保密制度,在信息安全的前提下實(shí)現(xiàn)數(shù)據(jù)共享利用。
4)建立高質(zhì)量的人才隊(duì)伍。大數(shù)據(jù)時(shí)代下的檔案工作,已經(jīng)不是簡單地把檔案收集起來,裝裝訂訂,檔案利用也不再是簡單查閱、復(fù)印,檔案從業(yè)人員應(yīng)該以大數(shù)據(jù)的思維去管理檔案。這就對檔案從業(yè)人員提出了更高的要求,要具備專業(yè)的檔案知識,還要有數(shù)據(jù)分析能力、數(shù)據(jù)建模分析能力和處理數(shù)據(jù)能力,最重要的是要具備較高的自學(xué)能力,緊跟不斷出現(xiàn)的時(shí)代要求,更好地做好大數(shù)據(jù)時(shí)代下的檔案工作。