• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      檔案大數(shù)據(jù)研究的批判性考察

      2017-11-09 06:29:56王曉春
      山西檔案 2017年4期
      關鍵詞:概念檔案管理數(shù)字化

      文 / 王曉春

      檔案大數(shù)據(jù)研究的批判性考察

      文 / 王曉春

      檔案大數(shù)據(jù)與流行的“大數(shù)據(jù)”概念之間存在著不容忽視的差別。忽視或無視這些差別不僅會引起人們對檔案大數(shù)據(jù)相關特性的誤解,而且會使相應的研究陷入誤區(qū)。鑒此,文章提出從檔案大數(shù)據(jù)的學術規(guī)范建設、電子檔案法規(guī)的完善以及檔案數(shù)據(jù)化的技術提升等方面來消弭這些誤解和誤區(qū)。

      檔案數(shù)據(jù);概念誤解;研究誤區(qū)

      一、檔案大數(shù)據(jù)的概念辨析

      時下,與“互聯(lián)網(wǎng)+”一樣,“大數(shù)據(jù)”也成為了隨處可見的時代流行語。檔案行業(yè)也提出了“檔案大數(shù)據(jù)”的概念及其發(fā)展方向?!皺n案大數(shù)據(jù)”這一概念由兩個關鍵性子概念——“檔案”與“大數(shù)據(jù)”組成。所謂“大數(shù)據(jù)”是指在數(shù)據(jù)樣本足夠大,即在數(shù)據(jù)量規(guī)?;c數(shù)據(jù)類型多樣化的情況下開展的數(shù)據(jù)采集、處理與價值提取的技術架構與技術過程。[1]學界通常認為,“大數(shù)據(jù)”表現(xiàn)出“4V+1O”的特征,即“Volume(數(shù)據(jù)量大)、Variety(數(shù)據(jù)種類繁富)、Velocity(數(shù)據(jù)處理速度快捷)、Veracity(數(shù)據(jù)真實可靠)”[2]與Online(數(shù)據(jù)永久在線)。但是,不少學者提出異議,認為“大數(shù)據(jù)”特征是“11V”和“3S”等??梢姡瑢τ凇按髷?shù)據(jù)”的界定,學界認識并不統(tǒng)一。同樣,對于“檔案”的定義,學界也莫衷一是。根據(jù)《中華人民共和國檔案法》的規(guī)定,檔案的特征基本上可以由三個要素來描述,即“歷史活動”、“存在價值”與“可用于記錄的載體”。隨著時代的發(fā)展,這三個要素也都發(fā)生了一定程度的變化。許多在傳統(tǒng)社會中被視為“不存在價值”的活動在當今社會卻是“有價值的”,如個人的消費活動。對于“載體”而言,其外延的變化更為顯著,已經(jīng)由傳統(tǒng)的紙質載體轉向電子化的文本,如電子文件、照片、錄像、錄音等。綜而觀之,由“檔案”與“大數(shù)據(jù)”所組合的“檔案大數(shù)據(jù)”旨在重點研究檔案數(shù)據(jù)樣本足夠大的情況下,如何更有效更合理地分析和管理檔案數(shù)據(jù)以及如何更為全面地利用關聯(lián)復雜化樣態(tài)下的檔案數(shù)據(jù)。參照這一目標,我們將會發(fā)現(xiàn)目前關于檔案大數(shù)據(jù)的研究是建立在一定誤解的基礎上,同時也陷入到一些誤區(qū)之中。

      二、關于檔案大數(shù)據(jù)特性的幾種誤解

      在“信息化”與“網(wǎng)絡化”這類口號的裹挾下,檔案的大數(shù)據(jù)化變成了檔案信息化即傳統(tǒng)檔案文本電子化、數(shù)字化的代名詞,從而窄化了檔案大數(shù)據(jù)化的研究內容,偏離了檔案大數(shù)據(jù)的本質內容。導致這種現(xiàn)象的原因是忽視或誤解檔案數(shù)據(jù)與現(xiàn)下流行的“大數(shù)據(jù)”特性之間的差別。這些差別通常表現(xiàn)為以下三個方面。

      第一,數(shù)據(jù)屬性的差別?,F(xiàn)今流行的“大數(shù)據(jù)”要求數(shù)據(jù)的實時性和動態(tài)性,從而決定了“數(shù)據(jù)采集、處理都要求具有很強的時效性”[3]。另外,大數(shù)據(jù)概念中的“大”并不是簡單意義上的“多”,而是指基于即時自動生成的數(shù)量之巨。同時,其數(shù)據(jù)的產(chǎn)生不受到外部的干預和控制,而是由設備和機器“自動地生成關于周圍環(huán)境的數(shù)據(jù)”[4]。然而,不少研究恰恰從數(shù)量“多”的角度來理解檔案大數(shù)據(jù),認為只要檔案數(shù)字資源量巨大,就可以稱之為檔案大數(shù)據(jù)。其實,這種檔案大數(shù)據(jù)具有明顯的滯后性、靜止性、固定性。純粹的數(shù)據(jù)量巨大,與“大數(shù)據(jù)”所要求的實時性、動態(tài)性與時效性相去甚遠。

      第二,數(shù)據(jù)功能的區(qū)別?,F(xiàn)今流行的“大數(shù)據(jù)”的核心功能是在數(shù)據(jù)挖掘的基礎上用于商業(yè)決策和預測。就目前的大數(shù)據(jù)運用領域而言,它主要集中在互聯(lián)網(wǎng)、零售、金融等行業(yè),其目標則“以服務自身企業(yè)數(shù)據(jù)挖掘需求為出發(fā)點”[5]。一些互聯(lián)網(wǎng)企業(yè)如Google公司利用網(wǎng)民在線的行為數(shù)據(jù)——搜索記錄來預測冬季流感的傳播[6]。從企業(yè)的運用行為來看,大數(shù)據(jù)的預測體現(xiàn)出兩個特點:一是實時由機器監(jiān)控和自動生成的基礎數(shù)據(jù)量巨大;二是大大提高了基于微觀行為干預的個性化服務能力。然而這些功能在檔案數(shù)字資源中難以體現(xiàn)出來。就目前而言,檔案數(shù)據(jù)僅以提供證據(jù)、為公眾解惑作為核心功能,與現(xiàn)今流行的“大數(shù)據(jù)”功能有區(qū)別。雖然現(xiàn)今已有人提出“知識管理與挖掘”的概念,但它所針對的仍然是歷史性的數(shù)據(jù)庫,而不是“大數(shù)據(jù)”所要求的實時數(shù)據(jù)。換言之,知識管理與挖掘的檔案數(shù)據(jù)是人為干預和篩選之后的數(shù)據(jù)集,已經(jīng)背離了大數(shù)據(jù)的“全數(shù)據(jù)”特征,不適合作為實時決策與預測的基礎數(shù)據(jù)[7]。

      第三,數(shù)據(jù)管理存在技術差異。目前,我國檔案大數(shù)據(jù)的主要工作是對數(shù)字化的文件和文本的歸檔、管理與存儲,傳統(tǒng)檔案的數(shù)據(jù)化以及電子檔案備份中心及數(shù)字化檔案庫等方面的建設。這些工作的技術要求較低,均可以用招標和外包的方式來完成。更關鍵的問題在于,檔案大數(shù)據(jù)所處理的數(shù)字資源絕大部分都是“非在線的冷數(shù)據(jù)”,與現(xiàn)今流行的“大數(shù)據(jù)”所要求的實時運算的“熱數(shù)據(jù)”存在著較大差別。這就使檔案大數(shù)據(jù)的研究總是集中在檔案數(shù)據(jù)資源的總量擴張,卻回避和忽視了大數(shù)據(jù)更關鍵的針對性技術特征。在技術利用方面,“非關系型數(shù)據(jù)庫(NoSQL)”是現(xiàn)今流行的大數(shù)據(jù)技術,而檔案大數(shù)據(jù)化過程中卻可以根據(jù)自身特性來選擇“關系型數(shù)據(jù)庫(SQL)”,畢竟檔案數(shù)據(jù)多屬結構化數(shù)據(jù),而SQL在處理結構化數(shù)據(jù)方面存在明顯的效率優(yōu)勢。

      綜上所述,對檔案大數(shù)據(jù)的概念及核心意涵的誤解呈現(xiàn)出表層化、隨意化及寬泛化特征。誠然,隨著時代的發(fā)展、技術的進步以及運用的擴張,“大數(shù)據(jù)”概念也正在悄然變化,呈現(xiàn)出泛化的趨勢。然而,這并不意味著“大數(shù)據(jù)”的核心特征可以隨著前綴限定詞的變化而任意改變,成為“萬金油”,任人涂抹。

      三、目前檔案大數(shù)據(jù)研究的若干誤區(qū)

      基于上述的誤解,目前我國學界對檔案大數(shù)據(jù)研究也隨之出現(xiàn)了一些誤區(qū)。

      (一)以檔案數(shù)字化代替檔案數(shù)據(jù)化

      首先,“數(shù)字化”通常被理解為將模擬數(shù)據(jù)轉換成二進制代碼的技術概念,并由美國學者Nicholas Negroponte引申為一種虛擬的、數(shù)字化的生存方式。因此,檔案數(shù)字化就是通過技術手段將紙質檔案、音像檔案等非數(shù)字化檔案轉換成數(shù)字形式的檔案。一般來說,數(shù)字化轉換涉及到兩類工作:一是檔案目錄數(shù)字化;二是檔案全內容數(shù)字化。但與“數(shù)字化”不同,“數(shù)據(jù)化”是一個全新的概念,就像維克托·邁爾-舍恩伯格“一切皆可量化”口號所標示的那樣——它要將任何事件、現(xiàn)象轉化為可分析的量化形式的數(shù)據(jù)化概念。相較而言,數(shù)字化只是基于圖像掃描技術實現(xiàn)非數(shù)字化內容的儲存、調讀與利用,而數(shù)據(jù)化則需更進一步,將圖像形式的數(shù)字內容實現(xiàn)識別、分類、著錄、標引與檢索等功能。

      其次,就目前我國檔案館數(shù)字化(數(shù)據(jù)化)的工作現(xiàn)狀來看,基于掃描的數(shù)字化工作較多,而數(shù)據(jù)化工作較少。即使有些檔案館已經(jīng)建立了目錄數(shù)據(jù)庫,也只能實現(xiàn)簡單的目錄檢索,而無法實現(xiàn)檔案全內容的數(shù)據(jù)化功能,如在全文范圍內或局部范圍內的關鍵詞和主題詞的精確或模糊檢索和利用。由此可見,目前我國檔案大數(shù)據(jù)的研究以及實踐均在很大程度受制于“數(shù)字化”的舊思維,未能及時更新到“數(shù)據(jù)化”的新思路中。當然,導致這種狀況的原因與我國檔案信息化堅持以檔案數(shù)字化的考評機制有關,從而使得我國大部分檔案館盲目地追求檔案數(shù)字化的數(shù)量,而忽視數(shù)字檔案數(shù)據(jù)化的高階工作,形成了以檔案數(shù)字化代替檔案數(shù)據(jù)化的現(xiàn)狀 。

      (二)陳舊的檔案管理流程難以滿足檔案大數(shù)據(jù)的即時性需求

      在數(shù)字化之前,檔案管理基本上依靠人力來完成,其流程大致可以分為檔案信息的產(chǎn)生、信息的收集、信息的鑒定、信息的整理、信息的管存、信息的利用與檔案信息的銷毀等,其圖示如下:

      圖1 傳統(tǒng)檔案管理流程圖

      這套檔案管理流程的特點是全過程的純人工操作,表現(xiàn)出耗時長、時跨大、時效差等缺陷。無疑,這套管理流程源于紙質化檔案管理時代,包括音像檔案和電子檔案的管理。但是,我們考察目前對于“在線”歸檔電子文件的研究后,不難發(fā)現(xiàn),其所遵循的檔案管理流程與此套管理流程幾乎一致,僅僅是在輔助層面上利用了計算機、網(wǎng)絡與數(shù)據(jù)庫等技術。這些研究其實在很大程度上無法充分體現(xiàn)出大數(shù)據(jù)技術所帶來的時效性。

      就目前網(wǎng)絡化、信息化的發(fā)展趨勢而言,數(shù)字檔案將“趨向于以數(shù)據(jù)流的方式產(chǎn)生、處理和歸檔”[8]。以醫(yī)療檔案為例,在數(shù)字檔案產(chǎn)生之前,傳統(tǒng)的病歷和醫(yī)案都需要在治療活動結束之后,經(jīng)過相關人員收集、審定、制作等活動之后,才能得到完整的醫(yī)療檔案。在大數(shù)據(jù)背景下,“最為明顯的改變就是從傳統(tǒng)的紙質檔案管理模式轉化為現(xiàn)今的電子檔案管理模式”[9]。也就是說,自從醫(yī)院全面數(shù)據(jù)化之后,就醫(yī)過程中所有活動的信息均在醫(yī)療管理信息系統(tǒng)中即時生成和存儲,包括掛號信息、處方、藥品、化驗報告、檢查報告、手術等信息,并且可以根據(jù)權限來調用,為不同階段的論斷、治療等活動提供詳細的參考信息。這一套數(shù)據(jù)管理流程有別于傳統(tǒng)的檔案管理流程,表現(xiàn)出明顯的觸發(fā)性和即時性。因此,針對這種特性,檔案大數(shù)據(jù)的處理需要注意以下幾點:①數(shù)據(jù)產(chǎn)生與收集的動態(tài)性;②數(shù)據(jù)分析和鑒別的實時性;③數(shù)據(jù)儲存的實時性和更新的動態(tài)性;④在規(guī)則庫和知識庫中數(shù)據(jù)挖掘的自動性;⑤補充數(shù)據(jù)挖掘成果的即時性。在此規(guī)則下,我們可以簡單地勾畫出檔案大數(shù)據(jù)管理流程圖如下:

      圖2 檔案大數(shù)據(jù)管理流程圖

      四、改變現(xiàn)狀的幾點思考

      無論是概念的誤解,還是陷入誤區(qū)的研究,都不是單一原因所造成的,而是由多因素復合而成。為了有效地改善現(xiàn)狀,我們需要對檔案大數(shù)據(jù)開展多方向、系統(tǒng)化的深入研究。筆者認為,今后檔案大數(shù)據(jù)的研究可以從以下方面深化。

      首先,為檔案大數(shù)據(jù)概念系統(tǒng)建立起相對穩(wěn)定的學術規(guī)范。簡言之,在大數(shù)據(jù)時代背景下,檔案學要如何重新審視自己的概念系統(tǒng)和研究范疇,如檔案是什么?在大數(shù)據(jù)背景下的檔案又是什么?如果數(shù)據(jù)流可以稱為檔案,那么它又具備什么樣的檔案特征?傳統(tǒng)檔案學中的文件生命周期理論在檔案大數(shù)據(jù)概念中是否還有意義?云存儲和云計算中的數(shù)據(jù)檔案是否存在邊界,其效能如何界定?……這些問題都預示著檔案大數(shù)據(jù)概念系統(tǒng)需要產(chǎn)生相應的新的學術規(guī)范。

      其次,完善電子檔案的法規(guī)體系?,F(xiàn)有的法規(guī)體系均以實體檔案為對象,未能考慮到電子檔案。與傳統(tǒng)檔案不同,電子檔案有其特殊性。在檔案不斷數(shù)據(jù)化的趨勢下,充分考慮電子檔案特殊性的相關法規(guī)必須得到相應的完善。

      再次,電子檔案數(shù)據(jù)化過程相關技術的完善。檔案數(shù)據(jù)化過程將涉及到相關的技術要素。在數(shù)據(jù)收集和鑒別階段,傳統(tǒng)檔案的數(shù)據(jù)化涉及到文字信息的識別速度和精度的問題,以及版面分析和內容理解的問題。這些問題的解決和完善都有賴于傳感器的研發(fā)、人工智能、模式識別、工作流管理、知識庫建設等方面的技術提升。另外,電子檔案信息的防偽問題和多系統(tǒng)之間的檔案數(shù)據(jù)冗余問題也亟待解決。

      [1]吳金紅,張飛,鞠秀芳.大數(shù)據(jù):企業(yè)競爭情報的機遇、挑戰(zhàn)及對策研究[J].情報雜志,2013(1).

      [2]王鐵牛.大數(shù)據(jù)檔案學國內研究現(xiàn)狀及研究方向分析[J].山西檔案,2015(3).

      [3]厲劍,張紹雄,劉俊杰,等.大數(shù)據(jù)引發(fā)信息時代新變革[J].大眾科學,2013(12).

      [4]Bill Franks.駕馭大數(shù)據(jù)[M].黃海,車皓陽,王悅,譯.北京:人民郵電出版社,2003.

      [5]張濤.大數(shù)據(jù)帶來的變革及應對策略[J].高科技與產(chǎn)業(yè)化,2013(5).

      [6]維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時代:生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013:3.

      [7]于英香.檔案大數(shù)據(jù)研究的熱的冷思考[J].檔案學通迅,2015(2).

      [8]葉大鳳,黃思棉,劉龍君.當前檔案大數(shù)據(jù)研究的誤區(qū)與重點研究領域思考[J].北京檔案,2015(7).

      [9]浦曉雯,夏開建,張軍朝.基于大數(shù)據(jù)驅動的醫(yī)院檔案管理數(shù)據(jù)分析方法與應用決策[J].山西檔案,2016(5).

      G270.7

      A

      1005-9652(2017)04-0072-03

      (責任編輯:虞志堅)

      王曉春(1971-),女,山東濰坊人,濰坊學院檔案館館員,研究方向:檔案管理。

      猜你喜歡
      概念檔案管理數(shù)字化
      Birdie Cup Coffee豐盛里概念店
      家紡業(yè)亟待數(shù)字化賦能
      幾樣概念店
      高中數(shù)學“一對一”數(shù)字化學習實踐探索
      高中數(shù)學“一對一”數(shù)字化學習實踐探索
      檔案管理中的電子檔案管理
      學習集合概念『四步走』
      檔案管理與企業(yè)內部控制關系的思考
      消費導刊(2017年24期)2018-01-31 01:29:20
      聚焦集合的概念及應用
      數(shù)字化制勝
      屏东县| 芦山县| 安新县| 辽源市| 丰都县| 三原县| 澎湖县| 麻栗坡县| 山阴县| 周宁县| 克山县| 太和县| 大冶市| 宁都县| 抚州市| 耒阳市| 北海市| 株洲县| 桦甸市| 凤城市| 武乡县| 微博| 武宣县| 商城县| 瑞昌市| 凉城县| 辽阳市| 都兰县| 巫山县| 孝感市| 景洪市| 五河县| 麦盖提县| 叙永县| 辽中县| 神木县| 桐柏县| 邢台市| 钟祥市| 东源县| 宁安市|