• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      大數(shù)據(jù)時代企業(yè)檔案數(shù)據(jù)倉庫建設的信息整理及利用

      2022-06-16 01:22:33王海波
      南北橋 2022年3期
      關鍵詞:數(shù)據(jù)倉庫資源信息

      [ 作者簡介 ]

      王海波,男,陜西咸陽人,湖北航天技術研究院總體設計所,助理館員,本科,研究方向:檔案信息技術管理與應用。

      [ 摘要 ]

      隨著大數(shù)據(jù)時代的來臨,企業(yè)信息資源的價值、價值與時間的關系、存儲方式及利用方式等都發(fā)生了重大改變,隨之而來的是對企業(yè)信息資源的收集建設方式帶來了重大挑戰(zhàn)。在大數(shù)據(jù)時代檔案數(shù)據(jù)的收集范圍將大大擴展,其存儲、整理及利用服務方式也將產生巨大變化。

      [ 關鍵詞 ]

      檔案;大數(shù)據(jù);數(shù)據(jù)倉庫

      中圖分類號:G27

      文獻標識碼:A

      DOI:10.3969/j.issn.1672-0407.2022.03.009

      1 大數(shù)據(jù)概述

      1.1 大數(shù)據(jù)概念

      2011 年,麥肯錫在研究報告《大數(shù)據(jù):下一個創(chuàng)新、競爭和生產率前沿》中首次提出“大數(shù)據(jù)”的概念,之后《紐約時報》《華爾街日報》等都對大數(shù)據(jù)進行了專欄介紹。目前對大數(shù)據(jù)的理解從其基本特性出發(fā),即“5V”,以volume(大量)、velocity(高速)、variety(多樣)、value(價值)和veracity(真實性)來定義大數(shù)據(jù)。大數(shù)據(jù)可以進一步解釋為非結構化數(shù)據(jù)的超大規(guī)模增長、實時分析而非批量式的分析、不同的形式和格式、無模式或模式不明顯、不連貫的語法或句義等。

      1.2 大數(shù)據(jù)的特點

      1.2.1 數(shù)據(jù)量龐大、增長速度快

      龐大的數(shù)據(jù)量是大數(shù)據(jù)首要的、最突出的特點。大數(shù)據(jù)時代的數(shù)據(jù)量不再是以MB、GB為儲存單位,而是以PB、ZB為儲存單位。據(jù)OECD 計算,2006 年全球數(shù)字信息量為16.1萬PB,這個信息量為歷史上圖書信息總量的3000倍。2010 年全球數(shù)據(jù)量已達1.2 ZB,年增長50 %。2012 年10 分鐘的信息總量為1.8 ZB。

      1.2.2 數(shù)據(jù)種類多,異構化明顯

      一方面從數(shù)據(jù)結構上來講,大數(shù)據(jù)包含了結構化數(shù)據(jù),如企業(yè)資源計劃系統(tǒng)等中的數(shù)據(jù);半結構化數(shù)據(jù),如電子郵件等;非結構化數(shù)據(jù),如傳感器產生的數(shù)據(jù)。另一方面從信息形式來講,大數(shù)據(jù)包含了文字信息,如WORD、XML等不同格式的信息;圖像信息,如各種格式的數(shù)字照片、計算機生成的矢量圖片等;聲音信息,如通過錄音設備保存下的各種講話等;視頻信息,如各種格式的流媒體文件信息等。

      1.2.3 價值密度低

      大數(shù)據(jù)技術通過利用現(xiàn)有技術所能搜集到的相關數(shù)據(jù)對問題進行描述、判斷,進而對其發(fā)展趨勢進行預測。其利用的數(shù)據(jù)量在傳統(tǒng)的眼光看來是不可想象的,甚至有些是錯誤數(shù)據(jù),單位數(shù)據(jù)價值低,甚至有可能是負的。

      雖然大數(shù)據(jù)具有以上特點,但是當檔案信息及相關數(shù)據(jù)的規(guī)模達到一定狀態(tài)后,便可以形成數(shù)據(jù)倉庫,對企業(yè)的經營管理具備了反觀和借鑒的價值。而如何利用與開發(fā)這種信息資源,則成為衡量企業(yè)軟實力的重要標準。

      目前,大多企業(yè)使用的都是以事實為基礎的決策方法,這種決策方法在精確性與合理性等方面均達不到數(shù)據(jù)驅動的決策方法所能夠達到的程度。只有大量使用數(shù)據(jù)分析來優(yōu)化企業(yè)運營的各個環(huán)節(jié)和流程,通過基于數(shù)據(jù)分析的業(yè)務優(yōu)化和重組,才能把業(yè)務流程和決策過程中具有的潛在價值擠出來,才能做到節(jié)約成本,戰(zhàn)勝對手,成為在市場中幸存的目標。要想實現(xiàn)這種轉變,僅僅是對信息及數(shù)據(jù)的收集是遠遠不夠的,還要建立自己的“數(shù)據(jù)倉庫”。運用“大數(shù)據(jù)”技術,通過一系列科學的方法,對收集到的信息及數(shù)據(jù)進行整理和深度挖掘分析,像滾雪球般建立自己的“數(shù)據(jù)倉庫”,并加以利用。

      2 企業(yè)檔案數(shù)據(jù)倉庫信息資源建設

      2.1 對傳統(tǒng)的非結構化檔案信息資源進行數(shù)字化和數(shù)據(jù)化。

      2.1.1 數(shù)字化

      將過去紙質的文件,包括文字、圖片、圖紙等原始檔案通過掃描等技術手段轉化為數(shù)據(jù)庫中的電子資源,建立信息資源庫,通過建立索引快速查詢所需檔案信息,改變紙質檔案分散、雜亂的狀況,實現(xiàn)企業(yè)檔案的優(yōu)化整合,提高工作效率,使檔案的憑證作用繼續(xù)得到有效的發(fā)揮。

      2.1.2 數(shù)據(jù)化

      第一,原始檔案著錄信息數(shù)據(jù)化,對檔案進行基于分類管理時代標注信息的數(shù)據(jù)化,提取其文字信息特征,使檔案“件”與“件”之間的相關度信息能夠繼續(xù)保留。第二,對檔案內容信息的數(shù)據(jù)化,綜合利用OCR等文字識別技術,自動語音識別技術,圖像分割、特征提取、匹配和識別技術,流媒體識別技術,對所有類型檔案信息資源進行識別。第三,綜合運用計算機深度語義理解技術與深度學習技術,加深計算機對檔案內容的理解,建立檔案信息內容之間的隱性聯(lián)系,建立相關性識別模型,實現(xiàn)檔案自動聚類,內容自動聚類。

      2.2 傳統(tǒng)的結構化數(shù)據(jù)的整理

      2.2.1 標準整合

      在企業(yè)內部對傳統(tǒng)的結構化數(shù)據(jù)信息資源的整合首先要利用先進的技術手段,構建統(tǒng)一的網絡平臺,聯(lián)結各個異構的應用統(tǒng)一,從而使單位和部門所使用的信息整理軟件和硬件產生的所有數(shù)據(jù)能夠集中統(tǒng)一并被識別。

      2.2.2 信息的整合

      將不同的技術環(huán)境形成不同類型的,處于一種無序、凌亂、分散的狀態(tài)的各種類型數(shù)據(jù)連接成一個相互關聯(lián)的數(shù)據(jù)庫群,并與已經被識別的檔案信息數(shù)據(jù)群相聯(lián)系,實現(xiàn)所有數(shù)據(jù)的自由交換和流動以及系統(tǒng)化、有序化,實現(xiàn)數(shù)據(jù)的集成和整合。

      2.2.3 數(shù)據(jù)分類標定

      現(xiàn)代化的企業(yè)數(shù)據(jù)倉庫集合了價值密度、可靠程度不一的大量數(shù)據(jù),為了更好地使價值密集程度高、可信度強的數(shù)據(jù)資源發(fā)揮更大的作用,需要對數(shù)據(jù)按照價值密度、可信度等維度進行標定,以便充分發(fā)揮傳統(tǒng)檔案資源的骨干信息作用,盡可能地消除不確定性,提升大數(shù)據(jù)的工作效率。

      2.2.3.1 價值密度分級。數(shù)據(jù)的價值密度分級主要是根據(jù)數(shù)據(jù)本身包含的信息量對數(shù)據(jù)進行分級標定。傳統(tǒng)檔案信息資源其價值密度最高可定為一級,企業(yè)實時運營數(shù)據(jù)可定為二級,原始數(shù)據(jù)可定為三級,通過互聯(lián)網等非官方渠道獲得的數(shù)據(jù)可定位四級。

      2.2.3.2 可信度分級。數(shù)據(jù)的可信度分級主要是依據(jù)數(shù)據(jù)的來源對數(shù)據(jù)進行不同層級的分級標定。傳統(tǒng)檔案及一切原始記錄可信度為一級,通過數(shù)據(jù)挖掘或其他渠道收集的官方信息為二級,非官方信息為三級信息。

      2.2.3.3 可用性分級。在大數(shù)據(jù)時代,信息的當前可確定的價值只是其總價值的很小一部分,其潛在價值是無限的,不會隨著時間的變遷而消失,但會隨著時間而減少,我們可以稱其為可用性。我們可以用時間、引用次數(shù)的變化趨勢等參數(shù)對信息的這種變化進行判斷、分級,這些都需要在數(shù)據(jù)倉庫后續(xù)運行中根據(jù)企業(yè)的實際情況不斷調整分級標注的策略。

      我們通過三個大的方面對數(shù)據(jù)倉庫建設中信息資源建設進行了初步探討。筆者通過實踐發(fā)現(xiàn),任何信息都是有多面性的,其存在本身就具有多個屬性。尤其需要注意的是,大數(shù)據(jù)并不是削弱了傳統(tǒng)檔案信息資源的重要性,反而使檔案信息資源的重要性更加凸顯。以筆者的實際經驗看,檔案信息資源具有信息密度大,準確度高,指向性強等特點,在信息標定中會有比較高的標定值,起到類似“骨干信息”的作用。檔案資源中存在的重要的骨干信息,在建設信息倉庫的過程中更要通過盡可能多的維度對一個信息進行描述。在對信息進行分級的過程中,分級的劃分、排列的類型與信息不同屬性之間的關聯(lián)等都需要和企業(yè)自身的特點結合起來,這些具體經驗只能在實踐中不斷摸索、總結,進而產生具有本企業(yè)特色的數(shù)據(jù)倉庫。

      最終,通過對數(shù)據(jù)倉庫中的所有數(shù)據(jù)進行不同維度的分級標定,可以使數(shù)據(jù)挖掘更有效率,也可以使整個倉庫的運行精確性大大提高。通過建立這樣的數(shù)據(jù)倉庫,我們可以打通不同載體形式之間、所有數(shù)據(jù)之間的壁壘,利用數(shù)據(jù)挖掘等手段加深計算機對數(shù)據(jù)的深層次語義理解,從而通過數(shù)據(jù)的整合共享和交叉復用形成智力資源和知識服務能力。

      3 數(shù)據(jù)倉庫的利用方式和服務

      3.1 數(shù)據(jù)挖掘

      在上述場景中,都牽涉海量信息加工提煉的問題。面對檔案信息查找和信息加工的困難,通過數(shù)據(jù)挖掘技術對海量文本、多媒體等形式的非結構化數(shù)據(jù)進行開發(fā)和利用是一種好的手段。通過數(shù)據(jù)挖掘,特別是文本挖掘的兩個領域——信息訪問和知識發(fā)現(xiàn),既可以快速訪問我們明確要搜尋的信息,也可以通過數(shù)據(jù)分析、數(shù)據(jù)預測對某特定主題的所有相關數(shù)據(jù)進行加工,從而形成新的結論和認識。這樣就可以將用戶從繁雜的原始信息中拯救出來,提高信息服務質量;更深層次的利用則將極大地擴展人們對事物的認知邊界,加深認知深度,從而更有效地推動企業(yè)和社會的發(fā)展。

      3.2 實時服務與主動數(shù)據(jù)驅動服務

      在大數(shù)據(jù)時代,為解決實時服務的問題,檔案信息平臺必然要與各類管理、設計、監(jiān)控等功能系統(tǒng)高度集成,數(shù)據(jù)實時歸檔、處理,以實現(xiàn)實時檔案服務。在產品質量管理、分析與工藝優(yōu)化場景下還體現(xiàn)一個十分重要的理念,主動數(shù)據(jù)驅動服務,主動將數(shù)據(jù)或處理結果推送給用戶。在未來,通過用戶信息、行為分析,能很容易地預測用戶需求,進而可以變被動為主動,將其所需的權限內的信息以實時推送的方式提供給用戶,供挑選利用。實時的主動的數(shù)據(jù)驅動服務是提高信息服務工作地位、提升服務質量的重要手段。

      3.3 編研等信息處理工作

      由于大數(shù)據(jù)時代信息的冗雜,質量良莠不齊,檔案編研等信息工作將變得更加重要。由人工按照用戶需求分析結果,有目的地對核心、可靠數(shù)據(jù)進行加工甚至是半加工,產生的可信的數(shù)據(jù)處理結果可以大幅度地為用戶提高信息收集效率。我們可以對某個主題進行深入編研,對數(shù)據(jù)挖掘結果進行人工核實,再進行加工,產生可信的編研成果。甚至可以對某主題相關信息直接進行可信檔案信息目錄匯編,將匯編結果保存在信息平臺中,由系統(tǒng)自動推送給所需用戶進行參考??梢詫χ匾恼Z音識別、圖像識別結果進行人工校驗,將其變?yōu)楦鼮闇蚀_的檔案信息。

      4 結論

      在現(xiàn)代社會,隨著生產活動分工日益細化,企業(yè)作為經濟活動的基本單元在各種業(yè)務活動中產生了大量的數(shù)據(jù)或信息。在傳統(tǒng)的信息管理模式下,人們通過手工著錄、卡片檢索、計算機輔助管理都可快捷便利地查找到所需要的信息。但是當信息量呈指數(shù)形式增長之后,依靠傳統(tǒng)的檢索工具或者索取信息的方式往往都會迷失在數(shù)據(jù)海洋之中,檢索效率會急劇下降。還有就是,隨著信息存儲成本的不斷下降,無序信息內部也要求呈現(xiàn)其內在關系。如何在大量的信息中快速而準確地找到所需信息,如何快捷的揭示海量信息之間的潛在聯(lián)系或者因果關系是大數(shù)據(jù)時代檔案業(yè)務首要解決的問題。

      在大數(shù)據(jù)時代,企業(yè)使用大數(shù)據(jù)云集計算等服務,可以有效解決企業(yè)面臨的信息困境,迅速取得對手遠不可及的優(yōu)勢,實現(xiàn)彎道超車。特別是作為傳統(tǒng)的大企業(yè),要想保持當前的優(yōu)勢,必然要緊跟時代發(fā)展,順應大勢,大力發(fā)展、應用大數(shù)據(jù)技術。作為檔案管理人員,我們應順應潮流,主動迎接大數(shù)據(jù)技術帶來的變化和挑戰(zhàn),在現(xiàn)有條件下逐步按照大數(shù)據(jù)的思想對檔案資源進行收集、整理,為企業(yè)在大數(shù)據(jù)時代轉型提供助力。

      參考文獻

      [1]劉文遠,李少雄,王曉敏,等. 大數(shù)據(jù)知識發(fā)現(xiàn)[J]. 燕山大學學報,2014(5): 377-380.

      [2]鄭清華. 檔案信息資源開發(fā)與共享[J]. 科技資訊,2015(5): 213.

      [3]王毅,趙淑梅. 國有企業(yè)技術創(chuàng)新與檔案管理安全研究[J]. 檔案學通訊,2014(2): 63-67.

      [4]謝君. 建設大檔案,應用大技術,實現(xiàn)大服務——大數(shù)據(jù)時代下的大檔案觀[J]. 辦公自動化(學術版),2015(1): 51-54.

      [5]魯?shù)挛? 試述檔案大數(shù)據(jù)的定義、特征及核心內容[J]. 檔案,2014(4): 13-15.

      [6]施永利. 大數(shù)據(jù)時代背景下的檔案利用服務探討[J]. 商,2012(11): 145,129.

      [7]趙淑芳,單桂娟. 淺談大數(shù)據(jù)應用現(xiàn)狀及發(fā)展趨勢[J]. 商,2015(36): 223.

      [8]余紅光. 關于大數(shù)據(jù)時代背景下的檔案利用服務分析[J]. 黑龍江史志,2015(3): 98.

      [9]朱麗梅. 大數(shù)據(jù)時代檔案館公共服務的探討[J]. 蘭臺世界,2014(2): 16-17.

      [10]莫麗彬. 淺議大數(shù)據(jù)時代檔案信息服務的發(fā)展[J]. 蘭臺世界,2015(29): 117-118.

      [11]孫潔. 大數(shù)據(jù)背景下檔案知識服務[J]. 蘭臺世界,2016(3): 8-10.

      [12]陳蘆燕. 大數(shù)據(jù)時代的檔案信息服務研究[J]. 蘭臺世界,2014(8): 29-30.

      [13]祝彩鳳,楊曉慧. 大數(shù)據(jù)背景下檔案信息資源利用服務工作的特點研究[J]. 辦公室業(yè)務,2015(23): 97-98.

      [14]金丹. 大數(shù)據(jù)時代的檔案利用服務工作研究[J]. 蘭臺世界,2015(20): 111-112.

      猜你喜歡
      數(shù)據(jù)倉庫資源信息
      基礎教育資源展示
      一樣的資源,不一樣的收獲
      基于數(shù)據(jù)倉庫的住房城鄉(xiāng)建設信息系統(tǒng)整合研究
      資源回收
      訂閱信息
      中華手工(2017年2期)2017-06-06 23:00:31
      資源再生 歡迎訂閱
      資源再生(2017年3期)2017-06-01 12:20:59
      分布式存儲系統(tǒng)在液晶面板制造數(shù)據(jù)倉庫中的設計
      電子制作(2016年15期)2017-01-15 13:39:15
      探析電力系統(tǒng)調度中數(shù)據(jù)倉庫技術的應用
      基于數(shù)據(jù)倉庫的數(shù)據(jù)分析探索與實踐
      展會信息
      中外會展(2014年4期)2014-11-27 07:46:46
      廉江市| 堆龙德庆县| 会泽县| 壤塘县| 栾川县| 临颍县| 荔波县| 武功县| 洛浦县| 桐城市| 义乌市| 湘乡市| 延长县| 长宁区| 天水市| 达拉特旗| 芜湖县| 梧州市| 麻栗坡县| 印江| 和林格尔县| 竹北市| 陆良县| 全州县| 大冶市| 兴安县| 通江县| 汝城县| 集贤县| 如东县| 大新县| 桂平市| 思茅市| 平谷区| 双桥区| 凤冈县| 花莲县| 枞阳县| 和林格尔县| 曲阜市| 保靖县|