• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      關(guān)于大數(shù)據(jù)時代背景下的檔案利用服務(wù)分析

      2015-12-07 07:46:35余紅光
      黑龍江史志 2015年3期
      關(guān)鍵詞:海量時代背景數(shù)據(jù)挖掘

      余紅光

      (湖南信息職業(yè)技術(shù)學(xué)院 湖南 長沙 410200)

      引言

      在大數(shù)據(jù)時代背景下,人們越來越認(rèn)識到自身數(shù)據(jù)對管理的重要性,檔案是直接形成的歷史記錄,是對原始數(shù)據(jù)的記錄、收集、整理、保管、利用等,隨著信息量的增加,保存社會檔案越來越復(fù)雜,檔案行業(yè)管理越來越麻煩,大數(shù)據(jù)時代背景下的檔案利用服務(wù)需要進(jìn)一步探討。

      一、大數(shù)據(jù)時代

      隨著信息時代的到來,數(shù)據(jù)增長越來越快,人們生活步入大數(shù)據(jù)時代,大數(shù)據(jù)是由數(shù)量巨大、結(jié)構(gòu)復(fù)雜、類型眾多數(shù)據(jù)構(gòu)成的數(shù)據(jù)集合,是海量的非結(jié)構(gòu)化數(shù)據(jù),基于云計(jì)算的數(shù)據(jù)處理與應(yīng)用模式通過數(shù)據(jù)的集成共享交叉復(fù)用形成的智力資源和知識服務(wù)能力,需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn),具有數(shù)量大、類型繁多、價值密度低、速度快時效高的特點(diǎn),從某種程度上說,大數(shù)據(jù)是數(shù)據(jù)分析的前沿技術(shù),簡言之從各種各樣類型的數(shù)據(jù)中快速獲得有價值信息的能力就是大數(shù)據(jù)技術(shù)。現(xiàn)代大型企業(yè),檔案部門主管公司檔案信息資料,將公司各單位部門信息統(tǒng)一管理,以便公司需要時快速找到相關(guān)信息,近年來隨著電子文件的廣泛應(yīng)用,掃描圖像、傳真、電子表格、演示文檔、照片、視頻片段等非結(jié)構(gòu)化數(shù)據(jù)直線上升,數(shù)字檔案館數(shù)據(jù)量直線上升,數(shù)據(jù)時代真正來臨。

      二、大數(shù)據(jù)時代背景給檔案服務(wù)帶來的挑戰(zhàn)

      在大數(shù)據(jù)時代背景下,檔案管理已由紙質(zhì)檔案發(fā)展到數(shù)字化階段,檔案館作為保存檔案、提供檔案、為社會服務(wù)的文化機(jī)構(gòu),必然貯存大量的信息量,檔案信息資源階梯式增長,現(xiàn)有的檔案工具手段已不能滿足數(shù)字化檔案管理,計(jì)算機(jī)數(shù)據(jù)庫的應(yīng)用順勢發(fā)展起來,提高檔案資料管理的有效性,大數(shù)據(jù)時代背景下的數(shù)字檔案館藏量具有數(shù)據(jù)量大、媒體形式多的特點(diǎn),給檔案利用服務(wù)系統(tǒng)帶來了不小的挑戰(zhàn)。

      (一)在海量數(shù)據(jù)中如何查詢檔案信息

      隨著信息技術(shù)的廣泛應(yīng)用,數(shù)據(jù)庫信息技術(shù)不斷發(fā)展,電子文件數(shù)據(jù)信息量暴增,檔案信息保存的文件相應(yīng)增多,傳統(tǒng)的手工著錄、卡片檢索已不能滿足企業(yè)的需求,在檔案信息數(shù)據(jù)處理過程中,經(jīng)常會遇到文件找不到、查詢性能低、甚至出現(xiàn)服務(wù)器不響應(yīng)一系列難題,應(yīng)用以往的查詢服務(wù)方法已經(jīng)趕不上大數(shù)據(jù)時代發(fā)展的步伐,計(jì)算機(jī)輔助檔案資料管理變得更加便捷方便,但是在大數(shù)據(jù)時代,檔案信息化不斷推進(jìn),如何進(jìn)行檔案查詢,尤其是近來檔案數(shù)量的急劇增多,檔案數(shù)據(jù)甚至出現(xiàn)脹庫,檔案查詢檢索性能下降,反應(yīng)遲鈍,如何精準(zhǔn)的在海量數(shù)據(jù)中找到所需信息,是檔案利用服務(wù)首先需要解決的問題。

      (二)在海量數(shù)據(jù)中如何抽取有用的信息

      如今,檔案管理用戶已不滿足于對數(shù)據(jù)及文件的利用,而是希望獲得數(shù)據(jù)及文件隱含的知識,也就是說,現(xiàn)在檔案管理的趨勢是知識管理,檔案利用服務(wù)也應(yīng)由提供數(shù)據(jù)信息轉(zhuǎn)變?yōu)橹R供給,但知識不是簡單的數(shù)據(jù)信息,需要經(jīng)過抽取和挖掘才能從中得到有用信息,在海量數(shù)據(jù)中,僅僅依靠人工挖掘信息已不能滿足大數(shù)據(jù)時代,如何提供給用戶挖掘有用信息,依靠信息技術(shù)進(jìn)行數(shù)據(jù)挖掘,這是當(dāng)前檔案利用服務(wù)的任務(wù)。

      三、大數(shù)據(jù)時代背景下檔案利用服務(wù)的數(shù)據(jù)挖掘

      (一)檔案業(yè)務(wù)流程轉(zhuǎn)變

      傳統(tǒng)的檔案業(yè)務(wù)流程包括收集、整理、保存、利用,其中檔案利用采用的原始數(shù)據(jù),隨著電子文件的廣泛應(yīng)用,檔案數(shù)據(jù)信息量越來越大、媒體形式頗多,傳統(tǒng)的檔案流程已不能滿足用戶對信息數(shù)據(jù)的使用,原始數(shù)據(jù)的利用比較困難,數(shù)據(jù)查詢性能下降,甚至無法及時響應(yīng),延誤資料的使用,檔案數(shù)據(jù)庫需要更新,及時優(yōu)化IT結(jié)構(gòu),在找尋檔案數(shù)據(jù)前加入數(shù)據(jù)挖掘這一步驟,通過模糊識別對海量數(shù)據(jù)及多媒體數(shù)據(jù)進(jìn)行篩選,方便用戶在萬千信息中找尋自己所需要的信息,優(yōu)化數(shù)據(jù)查詢性能,提高檔案服務(wù)質(zhì)量,這是解決檔案利用服務(wù)的一條有效途徑。

      (二)數(shù)據(jù)挖掘的應(yīng)用

      怎樣從大批量原始數(shù)據(jù)中篩選出有應(yīng)用價值的信息,提供給不同用戶作為參考信息,數(shù)據(jù)挖掘技術(shù)的應(yīng)用使得該問題得到解決。概括地說,數(shù)據(jù)挖掘便是從海量的、不完整的、效果差的、未經(jīng)處理的數(shù)據(jù)中,提取具有潛在價值的信息與知識的過程。一般數(shù)據(jù)挖掘種類劃分為結(jié)構(gòu)型數(shù)據(jù)挖掘、web數(shù)據(jù)挖掘及文本數(shù)據(jù)挖掘等。數(shù)據(jù)挖掘應(yīng)用于海量檔案信息篩選過程中,簡化了檔案信心提取程序,提高了檔案利用服務(wù)效率。文本挖掘是數(shù)據(jù)挖掘的基本構(gòu)成部分,在數(shù)據(jù)提取過程中應(yīng)用最廣泛,因此被稱作文字探勘、文本數(shù)據(jù)挖掘等,可簡單地理解為文字分析,其目的就是經(jīng)過文本處理后能獲取有價值的信息和知識。有價值信息的提取一般分為兩個步驟是分類與預(yù)測,文本挖掘就是以數(shù)據(jù)分析為基礎(chǔ),然后加上某些衍生語言特征或者消除雜音,隨后插入到數(shù)據(jù)庫中,形成結(jié)構(gòu)化數(shù)據(jù),最后完成評價與信息傳遞。“高品質(zhì)”的文本挖掘一般是說某類組合的關(guān)聯(lián)性、獨(dú)特性與實(shí)用性。文本數(shù)據(jù)挖掘在眾多基礎(chǔ)領(lǐng)域普遍存在,例如數(shù)理統(tǒng)計(jì)、智能機(jī)器、聲像數(shù)據(jù)轉(zhuǎn)換,歸納起來無非就是利用文本信息篩選、文本劃分、文本聚類、文本數(shù)據(jù)壓縮、文本數(shù)據(jù)處理;文本挖掘應(yīng)用最常見的領(lǐng)域包括信息訪問(信息搜索、信息瀏覽、信息過濾、信息報(bào)告)、知識發(fā)現(xiàn)(數(shù)據(jù)預(yù)測、數(shù)據(jù)分析)。

      (三)數(shù)據(jù)挖掘平臺的應(yīng)用

      數(shù)據(jù)挖掘技術(shù)是保證大數(shù)據(jù)背景下檔案服務(wù)的質(zhì)量的有效途徑,數(shù)據(jù)挖掘平臺是文本智能數(shù)據(jù)處理中心,建立在獨(dú)特地模糊識別及音視頻識別技術(shù)之上,抽取其中內(nèi)容進(jìn)行挖掘,提供用戶搜索應(yīng)用服務(wù),檔案服務(wù)從數(shù)據(jù)的收集、挖掘及智能搜索等步驟實(shí)現(xiàn),將數(shù)據(jù)結(jié)果顯示在數(shù)據(jù)挖掘平臺上。檔案資源數(shù)據(jù)挖掘包括三方面,首先是對音視頻內(nèi)容的檢索,自動識別關(guān)鍵幀,區(qū)分定位視頻中的不同內(nèi)容,提高視頻處理的能力;其次是對語義的檢索,這是常見的搜索方式,只需提供計(jì)算機(jī)識別的語言即可;最后是檔案智能化輔助分類,從歷史分類中提取檔案分類,實(shí)現(xiàn)文獻(xiàn)的自動分類,促進(jìn)輔助分類的準(zhǔn)確度,提高用戶整理效率,支持多維度動態(tài)分類。文本數(shù)據(jù)處理層是建立數(shù)據(jù)挖掘平臺的載體,其根本目的是以特殊的信息論及概率論的前提下的模式辨識技術(shù)和音視頻辨識技術(shù),提取具有重要價值的信息,為外圍提供搜索應(yīng)用服務(wù)。所以,數(shù)據(jù)挖掘平臺科通過采集數(shù)據(jù)、數(shù)據(jù)分析、數(shù)據(jù)挖掘、智能搜索應(yīng)用平臺,將多類型數(shù)據(jù)在采集平臺上完成層次化的數(shù)據(jù)采集。

      四、結(jié)束語

      綜上所述,大數(shù)據(jù)時代是科技進(jìn)步的產(chǎn)物,面對這樣的新形勢,我們必須以數(shù)據(jù)挖掘與文本挖掘?yàn)榛A(chǔ),從而挖掘檔案間的內(nèi)在關(guān)聯(lián),探索檔案信息中潛藏的有價值信息,建立智能化處理平臺滿足不同客戶個性化的需求。

      [1]崔麗娟.保密形勢下如何做好檔案利用工作的思考[J].科技創(chuàng)新導(dǎo)報(bào).2012(14)

      [2]牛祿青.構(gòu)建大數(shù)據(jù)產(chǎn)業(yè)環(huán)境專訪中國工程院院士、中科院計(jì)算所首席科學(xué)家李國杰[J].新經(jīng)濟(jì)導(dǎo)刊.2012(12)

      [3]李國杰,程學(xué)旗.大數(shù)據(jù)研究:未來科技及經(jīng)濟(jì)社會發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國科學(xué)院院刊.2012(06)

      [4]樊偉紅,李晨暉,張興旺,秦曉珠,郭自寬.圖書館需要怎樣的“大數(shù)據(jù)”[J].圖書館雜志.2012(11)

      [5]鄧紅兵.檔案行進(jìn)在“快車道”——永州市公路局系統(tǒng)檔案管理工作走筆[J].湖南檔案.2000(03)

      猜你喜歡
      海量時代背景數(shù)據(jù)挖掘
      一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      新時代背景下學(xué)校管理之我見
      甘肅教育(2020年21期)2020-04-13 08:08:02
      新時代背景下小學(xué)教師專業(yè)成長的幾點(diǎn)思考
      甘肅教育(2020年20期)2020-04-13 08:04:24
      新時代背景下棊江區(qū)政協(xié)建設(shè)
      活力(2019年15期)2019-09-25 07:21:30
      海量快遞垃圾正在“圍城”——“綠色快遞”勢在必行
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      一個圖形所蘊(yùn)含的“海量”巧題
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      探索新時代背景下的交通運(yùn)輸管理模式
      河南科技(2014年4期)2014-02-27 14:07:36
      峨边| 永吉县| 拜泉县| 循化| 特克斯县| 新乡市| 永仁县| 扎鲁特旗| 宁阳县| 横山县| 怀化市| 仁怀市| 巴林左旗| 兴仁县| 凤台县| 安多县| 台湾省| 松江区| 南乐县| 凤山县| 肥西县| 平安县| 都昌县| 永昌县| 宜兰县| 静宁县| 通山县| 蓝山县| 延庆县| 深水埗区| 宝清县| 涿鹿县| 如皋市| 宁强县| 田林县| 禹城市| 当涂县| 新郑市| 新绛县| 梁山县| 南木林县|