王居一
摘? 要:本文認(rèn)為檔案數(shù)據(jù)不具備多維度、完整性和實(shí)時(shí)性,將大量檔案數(shù)據(jù)稱之為檔案大數(shù)據(jù)是不準(zhǔn)確的,甚至是錯(cuò)誤的。大數(shù)據(jù)時(shí)代,檔案數(shù)據(jù)不能缺位,要使檔案數(shù)據(jù)成為真正意義上的大數(shù)據(jù),就應(yīng)改變不能適應(yīng)時(shí)代的固有模式與方法,積極主動(dòng)融合到社會(huì)大數(shù)據(jù)之中。
關(guān)鍵詞:大數(shù)據(jù);特征;檔案;檔案大數(shù)據(jù);誤區(qū)
Abstract: This article believes that archive data does not have multi-dimensionality, completeness and real-time. It is inaccurate or even wrong to call a large amount of archive data as big archive data. In the era of big data, archival data cannot be absent. To make archival data into big data in the true sense, it is necessary to change the inherent patterns and methods that cannot adapt to the times and actively integrate it into social big data.
Keywords: Big data; Characteristics; Archives; Archive big data; Misunderstanding
大數(shù)據(jù)研究是當(dāng)今檔案界最熱門(mén)的研究?jī)?nèi)容之一。自2003年第一篇有關(guān)檔案大數(shù)據(jù)論文問(wèn)世后,據(jù)從知網(wǎng)文獻(xiàn)數(shù)據(jù)庫(kù)中檢索統(tǒng)計(jì),至今主題為“檔案大數(shù)據(jù)”的已有2436篇相關(guān)研究成果發(fā)表,18年間翻了超過(guò)11番。對(duì)這2436篇文獻(xiàn)再使用“檔案大數(shù)據(jù)”在題名中檢索得到64篇,僅占2.63%;如果對(duì)這2436篇文獻(xiàn)使用“檔案大數(shù)據(jù)”在全文中進(jìn)行檢索就有549篇,占22.54%。就是說(shuō)有1/5以上的作者將檔案數(shù)據(jù)視為大數(shù)據(jù)。這表明,有相當(dāng)一部分研究者將檔案數(shù)據(jù)視為大數(shù)據(jù),或者等同于大數(shù)據(jù)。如,鄭金月認(rèn)為:“從大數(shù)據(jù)的本質(zhì)分析,檔案數(shù)據(jù)無(wú)疑也是大數(shù)據(jù)”,“檔案數(shù)據(jù)最符合大數(shù)據(jù)本質(zhì)的真諦。”[1]秦利認(rèn)為:“大數(shù)據(jù)就是檔案”[2]而這種認(rèn)知是不準(zhǔn)確的,本文就此作一些探討。
1 大數(shù)據(jù)的四個(gè)特征
對(duì)于大數(shù)據(jù),目前并沒(méi)有統(tǒng)一的定義,而對(duì)于大數(shù)據(jù)的特征,“當(dāng)前,較為統(tǒng)一的認(rèn)識(shí)是大數(shù)據(jù)有四個(gè)基本特征:數(shù)據(jù)規(guī)模大(Volume) ,數(shù)據(jù)種類多(Variety) ,數(shù)據(jù)要求處理速度快(Velocity) ,數(shù)據(jù)價(jià)值密度低(Value) ,即所謂的四V特性?!盵3]對(duì)于大數(shù)據(jù)的這四個(gè)特征,檔案界應(yīng)當(dāng)在數(shù)量、維度、完整、實(shí)時(shí)等四個(gè)方面進(jìn)行理解。
第一,數(shù)據(jù)量大。至于數(shù)據(jù)量多大才合適,從置信度的意義上看,數(shù)據(jù)至少要大到讓統(tǒng)計(jì)結(jié)果具有非常高的置信度。
第二,多維度。多維度至少包括兩個(gè)方面,一是數(shù)據(jù)類型多。不僅有通常事先定義好的結(jié)構(gòu)化數(shù)據(jù),也有非結(jié)構(gòu)化的數(shù)據(jù),而且非結(jié)構(gòu)化的數(shù)據(jù)量更多。二是數(shù)據(jù)內(nèi)容種類多。如政府部門(mén)有政務(wù)信息數(shù)據(jù)、業(yè)務(wù)信息數(shù)據(jù)、政務(wù)媒體(網(wǎng)站、微博、公眾號(hào)等)信息數(shù)據(jù)、內(nèi)部管理信息數(shù)據(jù)、其他類信息數(shù)據(jù)等。
第三,完整性。這是對(duì)“數(shù)據(jù)價(jià)值密度低”特征的檔案話語(yǔ)解讀。所謂“數(shù)據(jù)價(jià)值密度低”,是“從大數(shù)據(jù)整體角度出發(fā),為了保證數(shù)據(jù)信息的完整性,計(jì)算機(jī)會(huì)將數(shù)據(jù)的關(guān)聯(lián)內(nèi)容進(jìn)行存儲(chǔ),導(dǎo)致很多價(jià)值不高的信息被納入處理范圍,直接降低了數(shù)據(jù)的整體價(jià)值,造成數(shù)據(jù)信息的價(jià)值密度降低?!盵4]從檔案的角度看,只有數(shù)據(jù)完整,才能反映事物的細(xì)枝末節(jié),反映事物的真相。過(guò)去,在小數(shù)據(jù)和數(shù)據(jù)不易獲得的年代,只能采用抽樣的辦法來(lái)獲取,根本不可能做到完整,所以只能忽略。但只要是抽樣統(tǒng)計(jì),就有小概率事件覆蓋不到,如果發(fā)生的事情正好落在那被忽略小概率事件上,那些不完整的數(shù)據(jù)就失去了作用。雖然,大數(shù)據(jù)的量大帶來(lái)大量可能沒(méi)有價(jià)值的信息,造成了數(shù)據(jù)價(jià)值密度低,但是,也應(yīng)當(dāng)看到,由于數(shù)據(jù)的完整,也使得不會(huì)讓任何一條有價(jià)值的信息漏掉。
最后,實(shí)時(shí)性。大數(shù)據(jù)的價(jià)值就在于實(shí)時(shí)性,“數(shù)據(jù)不是靜止不動(dòng)的,而是在互聯(lián)網(wǎng)絡(luò)中不斷流動(dòng),且通常這樣的數(shù)據(jù)價(jià)值是隨著時(shí)間推移而迅速降低,如果數(shù)據(jù)尚未得到有效的處理,就失去了價(jià)值,大量的數(shù)據(jù)就沒(méi)有意義?!盵5]要做到實(shí)時(shí)性,就必須對(duì)數(shù)據(jù)進(jìn)行快速處理,這就是“數(shù)據(jù)要求處理速度快”?!按髷?shù)據(jù)要求數(shù)據(jù)在線開(kāi)放,能實(shí)現(xiàn)實(shí)時(shí)動(dòng)態(tài)數(shù)據(jù)處理,不在線的、不能實(shí)時(shí)處理的數(shù)據(jù)不屬于大數(shù)據(jù)?!盵6]
2 檔案數(shù)據(jù)特征分析
檔案數(shù)據(jù)是不是大數(shù)據(jù)呢?對(duì)照大數(shù)據(jù)的四個(gè)特征逐條分析一下。
第一,關(guān)于數(shù)據(jù)量大。究竟多大的數(shù)據(jù)量算是大數(shù)據(jù)呢?“根據(jù)IDC 的定義至少要有超過(guò)100TB 的可供分析的數(shù)據(jù)”[7]才能算是大數(shù)據(jù)。那么,就某一個(gè)檔案室或者某一個(gè)檔案館保存的檔案數(shù)據(jù)達(dá)沒(méi)有達(dá)到這一數(shù)據(jù)規(guī)模呢?據(jù)統(tǒng)計(jì),2017年,“全國(guó)數(shù)字化檔案資源達(dá)2243萬(wàn)GB”,[8]當(dāng)年,全國(guó)共有各級(jí)各類檔案館4210個(gè),[9]另?yè)?jù)粗略統(tǒng)計(jì),各省、自治區(qū)、直轄市直屬機(jī)關(guān)檔案機(jī)構(gòu)95000個(gè)左右(2013年為95362個(gè)[10])。這樣,平均每個(gè)檔案館(室)有數(shù)字化檔案只有226GB,而100TB=102400GB,即每個(gè)檔案館(室)的檔案數(shù)據(jù)量離大數(shù)據(jù)的最低可供分析的數(shù)據(jù)量還差400多倍??梢哉f(shuō),從數(shù)據(jù)量來(lái)說(shuō),檔案數(shù)據(jù)離大數(shù)據(jù)還是有相當(dāng)大的距離。
第二,關(guān)于多維度。以環(huán)境大數(shù)據(jù)為例,“從數(shù)據(jù)種類來(lái)看,環(huán)境大數(shù)據(jù)涉及部門(mén)政務(wù)信息、環(huán)境質(zhì)量數(shù)據(jù)(大氣、水、土壤、輻射、聲、氣象等)、污染排放數(shù)據(jù)(污染源基本信息、污染源監(jiān)測(cè)、總量控制等各項(xiàng)環(huán)境監(jiān)管信息)、個(gè)人活動(dòng)信息(個(gè)人用水量、用電量、廢棄物產(chǎn)生量等)等。各級(jí)政府部門(mén)、社會(huì)公眾、媒體、環(huán)保NGO 等都是可能的披露主體。它不僅包括關(guān)于事物物理、化學(xué)、生物等性質(zhì)和狀態(tài)的基本測(cè)量值,即可用二維表結(jié)構(gòu)進(jìn)行邏輯表示的結(jié)構(gòu)數(shù)據(jù),也包括了隨著互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)與傳感器飛速發(fā)展涌現(xiàn)的各種文檔、圖片、音頻、視頻、地理位置信息等半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)?!盵11]大多數(shù)環(huán)保機(jī)構(gòu)檔案室很難將這些數(shù)據(jù)收集齊全。就目前,各單位檔案室說(shuō)是綜合檔案室,其實(shí)都很難做到綜合。