• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      高校檔案館非結(jié)構(gòu)化大數(shù)據(jù)融合機(jī)制研究

      2019-09-10 07:22:44彭柳
      蘭臺(tái)內(nèi)外 2019年5期
      關(guān)鍵詞:檔案管理系統(tǒng)檔案大數(shù)據(jù)

      摘 要:本文針對(duì)檔案館非結(jié)構(gòu)化數(shù)據(jù)存在數(shù)據(jù)來(lái)源及特點(diǎn),研究如何將其與結(jié)構(gòu)化數(shù)據(jù)融合,為非結(jié)構(gòu)化數(shù)據(jù)分類(lèi)管理尋找理論依據(jù)和技術(shù)手段,探討高校檔案館非結(jié)構(gòu)化大數(shù)據(jù)管理的解決方法。

      關(guān)鍵詞:大數(shù)據(jù);檔案;非結(jié)構(gòu)化;檔案管理系統(tǒng)

      一、引言

      美國(guó)信息與技術(shù)相關(guān)的公司,包括麥肯錫,國(guó)際數(shù)據(jù)公司(IDC)與IBM,在2011年提出大數(shù)據(jù)相關(guān)概念后已經(jīng)有越來(lái)越多的學(xué)術(shù)機(jī)構(gòu)、企業(yè)包括政府機(jī)構(gòu)開(kāi)始關(guān)注大數(shù)據(jù)。經(jīng)過(guò)不到7年的發(fā)展,目前以“大數(shù)據(jù)”作為關(guān)鍵詞檢索國(guó)內(nèi)外前沿?cái)?shù)據(jù)庫(kù),可得到數(shù)不清的相關(guān)報(bào)告、論文和新聞。根據(jù)2015年國(guó)務(wù)院印發(fā)的《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,系統(tǒng)部署大數(shù)據(jù)發(fā)展的相關(guān)工作,特別提出要加強(qiáng)檔案館等公益設(shè)施建設(shè),構(gòu)建文化傳播大數(shù)據(jù)服務(wù)平臺(tái)。上述文件對(duì)大數(shù)據(jù)的定義是“以容量大、類(lèi)型多、存取速度快、應(yīng)用價(jià)值高為主要特征的數(shù)據(jù)集合,正快速發(fā)展為對(duì)數(shù)量巨大、來(lái)源分散、格式多樣的數(shù)據(jù)進(jìn)行采集、存儲(chǔ)和關(guān)聯(lián)分析,從中發(fā)現(xiàn)新知識(shí)、創(chuàng)造新價(jià)值、提升新能力的新一代信息技術(shù)和服務(wù)業(yè)態(tài)”。檔案數(shù)據(jù)正符合以上大數(shù)據(jù)定義,因此是大數(shù)據(jù)的重要組成部分。

      與此同時(shí),國(guó)家電子文件管理“十三五”規(guī)劃對(duì)電子文件的管理提升到國(guó)家治理層面。在移動(dòng)互聯(lián)、云計(jì)算、大數(shù)據(jù)等新技術(shù)的迅猛發(fā)展時(shí)代,各種海量電子文件的歸檔與電子檔案的管理已成為各級(jí)檔案館(室)所必須面對(duì)的難題,其中最難把握的是對(duì)非結(jié)構(gòu)化數(shù)據(jù)的管理。

      二、高校檔案館非結(jié)構(gòu)化數(shù)據(jù)的含義及特點(diǎn)

      1.高校檔案館非結(jié)構(gòu)化數(shù)據(jù)的來(lái)源與定義

      高校是一個(gè)多學(xué)科相融合的集聚地,學(xué)校里的教學(xué)活動(dòng)和科研活動(dòng)均圍繞著各種層次的學(xué)科和專(zhuān)業(yè)開(kāi)展。而高校檔案館作為收集、存儲(chǔ)、傳播和利用學(xué)校各種數(shù)據(jù)的機(jī)構(gòu),需要處理的數(shù)據(jù)種類(lèi)和數(shù)量都在飛速增長(zhǎng)。尤其伴隨著高校信息化校園的建設(shè),校園內(nèi)無(wú)線(xiàn)網(wǎng)絡(luò)等技術(shù)的普及,檔案館接收的檔案除了原有的紙質(zhì)檔案和聲像實(shí)體檔案,越來(lái)越多的WORD文件、EXCEL表格、電子郵件、HTML文檔、音視頻文件等結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)也在呈指數(shù)增長(zhǎng)。高校檔案館因此進(jìn)入到了“大數(shù)據(jù)”時(shí)代。

      檔案館結(jié)構(gòu)化數(shù)據(jù),是指存儲(chǔ)在數(shù)據(jù)庫(kù)里,可以用二維結(jié)構(gòu)表來(lái)邏輯表達(dá)的數(shù)據(jù),由若干個(gè)層次結(jié)構(gòu)明確的關(guān)聯(lián)組成部分,按照一定的操作規(guī)范使用和維護(hù)數(shù)據(jù)庫(kù),主要是檔案目錄及原文數(shù)據(jù),檔案館業(yè)務(wù)流程、服務(wù)、系統(tǒng)日志、用戶(hù)信息、庫(kù)房管理等方面的記錄。非結(jié)構(gòu)化數(shù)據(jù)是指不方便使用二維邏輯表來(lái)表現(xiàn)的數(shù)據(jù),每個(gè)字段的記錄又可以由可重復(fù)或不可重復(fù)的子字段構(gòu)成數(shù)據(jù)庫(kù)。其中,非結(jié)構(gòu)化數(shù)據(jù)占檔案館大數(shù)據(jù)總量的85%以上,是圖書(shū)館大數(shù)據(jù)的主要形式。

      本文針對(duì)高校各業(yè)務(wù)系統(tǒng)產(chǎn)生的非結(jié)構(gòu)化多來(lái)源數(shù)據(jù),進(jìn)行融合管理研究。針對(duì)非結(jié)構(gòu)化的數(shù)據(jù),需要在充分收集多種來(lái)源信息的基礎(chǔ)上,綜合運(yùn)用多種方法進(jìn)行分析與判斷,找出具有存檔價(jià)值的信息,予以整理和保管,以備將來(lái)為教職工和其他社會(huì)人士提供利用。

      2.檔案館非結(jié)構(gòu)化大數(shù)據(jù)的特點(diǎn)

      高校檔案館面臨的非結(jié)構(gòu)化數(shù)據(jù)存在著數(shù)據(jù)來(lái)源眾多,數(shù)據(jù)格式不同,數(shù)據(jù)信息內(nèi)容不重復(fù)等多種特點(diǎn)。這些特點(diǎn)可以成為非結(jié)構(gòu)化數(shù)據(jù)分類(lèi)管理的依據(jù)。

      (1)數(shù)據(jù)來(lái)源多樣性

      非結(jié)構(gòu)化的數(shù)據(jù)來(lái)源于校內(nèi)和校外的多種活動(dòng),其中大部分都是校內(nèi)產(chǎn)生。高校的教學(xué)、科研和管理活動(dòng)產(chǎn)生了核心的檔案信息,如教學(xué)課件、教學(xué)視頻、圖像、論文、專(zhuān)利、產(chǎn)品、電子郵件、網(wǎng)頁(yè)、及時(shí)通訊信息等數(shù)據(jù)。校外產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)有重大活動(dòng)報(bào)道網(wǎng)頁(yè)、音頻視頻文件、照片、往來(lái)電子郵件、電子發(fā)票、申報(bào)信息等數(shù)據(jù)。信息來(lái)源不同的非結(jié)構(gòu)化數(shù)據(jù)在檔案的四性(即真實(shí)性、完整性、可用性和安全性)方面存在著巨大的差異,檔案工作針對(duì)不同來(lái)源的數(shù)據(jù)應(yīng)改進(jìn)行分類(lèi)收集、整理、存儲(chǔ)、管理和提供利用。

      (2)多數(shù)據(jù)格式的并存

      由于目前多數(shù)高校已經(jīng)開(kāi)展數(shù)字化校園建設(shè),各項(xiàng)工作的開(kāi)展都離不開(kāi)業(yè)務(wù)系統(tǒng)的輔助,而每種業(yè)務(wù)系統(tǒng)可能是針對(duì)不同的工作內(nèi)容開(kāi)發(fā),因此這些業(yè)務(wù)系統(tǒng)往往生成對(duì)應(yīng)格式的非結(jié)構(gòu)化數(shù)據(jù),包括版式文件、圖片、二維矢量文件、三維矢量文件、XML、HTML、音頻、視頻、報(bào)表等。每種格式的數(shù)據(jù)類(lèi)型、數(shù)據(jù)大小、通用性等均不盡相同,而且還會(huì)出現(xiàn)因業(yè)務(wù)系統(tǒng)的更替,數(shù)據(jù)格式前后不一致的可能。在當(dāng)前的環(huán)境下,仍沒(méi)有出現(xiàn)一種技術(shù)可以處理所有格式的數(shù)據(jù)。因此,高校檔案館必須根據(jù)學(xué)校的發(fā)展、用戶(hù)的需求及提供服務(wù)利用的多重角度考慮,制定各種檔案數(shù)據(jù)格式的存檔標(biāo)準(zhǔn),對(duì)應(yīng)地進(jìn)行設(shè)計(jì)標(biāo)準(zhǔn)化存儲(chǔ)或者兼容式存儲(chǔ)的分層級(jí)存儲(chǔ)系統(tǒng),以實(shí)現(xiàn)不同數(shù)據(jù)格式的自由轉(zhuǎn)換,最終才能充分利用這些非結(jié)構(gòu)化數(shù)據(jù)檔案。

      (3)數(shù)據(jù)主體特指性強(qiáng)

      在高校檔案館中,產(chǎn)生非結(jié)構(gòu)化數(shù)據(jù)的主體主要是檔案館專(zhuān)兼職檔案員,在校師生及校友。還有極少量的學(xué)校外部參與者,校外參與者利用檔案資源的頻率遠(yuǎn)遠(yuǎn)低于前者。因而,從用戶(hù)的角度有效分析檔案館專(zhuān)兼職檔案員,在校師生及校友的數(shù)據(jù)需求,將已經(jīng)產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)的大數(shù)據(jù)進(jìn)行分類(lèi),就能夠把握非結(jié)構(gòu)化數(shù)據(jù)發(fā)展的規(guī)模和質(zhì)量,再經(jīng)過(guò)分析便可得出當(dāng)前用戶(hù)的需求。

      (4) 數(shù)據(jù)內(nèi)容不重復(fù)

      與傳統(tǒng)的檔案的收集有一點(diǎn)不同的是,非結(jié)構(gòu)化的數(shù)據(jù)內(nèi)容不應(yīng)重復(fù),傳統(tǒng)紙質(zhì)檔案和實(shí)物檔案允許保存多份實(shí)體作為副本,但非結(jié)構(gòu)化數(shù)據(jù)因?yàn)槠溆?jì)算機(jī)復(fù)制技術(shù)十分便捷,占用的存儲(chǔ)空間又十分龐大,因此為了給檔案系統(tǒng)的運(yùn)行減輕冗余,原則上不應(yīng)該重復(fù)。對(duì)整個(gè)檔案館的電子數(shù)據(jù)在保管過(guò)程中可以做雙份異地備份。

      三、高校檔案館非結(jié)構(gòu)化大數(shù)據(jù)的融合機(jī)制

      由于非結(jié)構(gòu)化數(shù)據(jù)的以上特性,需要對(duì)數(shù)據(jù)進(jìn)行融合管理??扇诤系臄?shù)據(jù)必須具有以下共性,一般是同一個(gè)主題的數(shù)據(jù)。數(shù)據(jù)往往會(huì)具有互補(bǔ)性,不同信息源的數(shù)據(jù)從著錄字段上或者記錄上具有互補(bǔ)性,以保證數(shù)據(jù)的完整性與覆蓋面。將收集的非結(jié)構(gòu)化數(shù)據(jù)分為3個(gè)方面:數(shù)據(jù)濾重、數(shù)據(jù)拆分、數(shù)據(jù)統(tǒng)計(jì),每個(gè)方面都涉及到具體的技術(shù)細(xì)節(jié)與不同的處理方法。

      1.部分非結(jié)構(gòu)化數(shù)據(jù)可轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù)

      在搜集的非結(jié)構(gòu)化數(shù)據(jù)中,許多都可以轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)進(jìn)行管理。如圖片、XML、HTML、報(bào)表、電子郵件等靜態(tài)數(shù)據(jù),可通過(guò)截圖的形式轉(zhuǎn)換為JPG或PDF格式,用原文的形式存儲(chǔ)于檔案管理系統(tǒng)內(nèi),這樣就可以實(shí)現(xiàn)此部分的非結(jié)構(gòu)化數(shù)據(jù)與已有的結(jié)構(gòu)化數(shù)據(jù)融合。

      2.無(wú)法轉(zhuǎn)換的非結(jié)構(gòu)化數(shù)據(jù)采用特殊數(shù)據(jù)庫(kù)單獨(dú)管理

      非結(jié)構(gòu)化中的大量組成部分是音頻、視頻等數(shù)據(jù),它們盡管無(wú)法保存在已有的檔案系統(tǒng)統(tǒng)一管理,但與結(jié)構(gòu)化的數(shù)據(jù)是息息相關(guān)的,因此需要采用特殊的數(shù)據(jù)庫(kù)單獨(dú)管理,并與結(jié)構(gòu)化的檔案信息系統(tǒng)對(duì)應(yīng)的字段建立聯(lián)系。在提取的非結(jié)構(gòu)化數(shù)據(jù)時(shí),有可能出現(xiàn)一個(gè)文件包括多個(gè)主題的情況,這時(shí)需要對(duì)其進(jìn)行著錄字段的拆分,將主題進(jìn)行歸類(lèi)。數(shù)據(jù)查重過(guò)濾,指數(shù)據(jù)融合過(guò)程中的許多字段表達(dá)含義相同,但卻說(shuō)法不一,可以選用其中一個(gè)字段來(lái)代替,或者為字段另外選一個(gè)名字,例如“70年校慶”與“七十年校慶”,我們可以都確定為“七十周年校慶”,也都定位到“校慶”。經(jīng)過(guò)數(shù)據(jù)的拆分、查重過(guò)濾后,我們可以利用統(tǒng)計(jì)軟件,分析出某一時(shí)間段內(nèi)高校檔案利用的熱點(diǎn),提高服務(wù)水平。

      3.需針對(duì)動(dòng)態(tài)的非結(jié)構(gòu)化數(shù)據(jù)開(kāi)發(fā)相應(yīng)的管理程序

      除以上非結(jié)構(gòu)化數(shù)據(jù),還有一部分通過(guò)視頻、微博、微信公眾號(hào)、QQ咨詢(xún)等各網(wǎng)絡(luò)媒體產(chǎn)生的信息日益增加,數(shù)據(jù)的類(lèi)型更加復(fù)雜,數(shù)據(jù)的融合更加重要。因?yàn)檫@些數(shù)據(jù)具有及時(shí)性、動(dòng)態(tài)性和不確定性,目前流行的可視化軟件和工具很難套用管理。針對(duì)這類(lèi)非結(jié)構(gòu)化數(shù)據(jù),需要研究開(kāi)發(fā)出相應(yīng)的程序來(lái)管理,能夠自動(dòng)調(diào)整以滿(mǎn)足動(dòng)態(tài)的、不確定的特點(diǎn)。

      參考文獻(xiàn):

      [1]What is Big Data [EB/OL] [20141007] .Http://www.amchamchina.org/article/102

      [2]郭春霞.大數(shù)據(jù)環(huán)境下高校圖書(shū)館非結(jié)構(gòu)化數(shù)據(jù)融合分析[J].圖書(shū)館學(xué)研究,2015(05)

      [3]沈紅雨.高校非結(jié)構(gòu)化檔案數(shù)據(jù)的數(shù)據(jù)庫(kù)管理技術(shù)應(yīng)用與比較研究[J].浙江檔案,2016(01)

      [4]陳 臣.基于Hadoop的圖書(shū)館非結(jié)構(gòu)化大數(shù)據(jù)分析與決策系統(tǒng)研究[J].情報(bào)科學(xué),2017(01)

      [5]李翠萍,常 娥.大數(shù)據(jù)時(shí)代數(shù)字圖書(shū)館發(fā)展淺析[J].江蘇技術(shù)師范學(xué)院學(xué)報(bào),2013年05期

      [6]李小剛,謝詩(shī)藝,程 舒.大數(shù)據(jù)時(shí)代檔案館服務(wù)創(chuàng)新研究[J];北京檔案,2013年11期

      [7]黃少芳,劉曉鴻,張俊芳.論高校檔案信息化與數(shù)字檔案館建設(shè)[J];中國(guó)地質(zhì)教育,2013年02期

      [8]郭振橋,王新玲.淺論大數(shù)據(jù)在未來(lái)圖書(shū)館服務(wù)中的應(yīng)用[J];內(nèi)蒙古科技與經(jīng)濟(jì),2013年16期

      作者簡(jiǎn)介:彭柳,館員,中南民族大學(xué)檔案館(校史館)信息與技術(shù)室負(fù)責(zé)人,主要從事檔案數(shù)字化建設(shè)技術(shù)研究。

      基金項(xiàng)目:本文由中南民族大學(xué)中央高??蒲袠I(yè)務(wù)費(fèi)社科專(zhuān)項(xiàng)資金項(xiàng)目資助(CSQ19039)

      猜你喜歡
      檔案管理系統(tǒng)檔案大數(shù)據(jù)
      如何做好鄉(xiāng)鎮(zhèn)計(jì)劃生育檔案管理工作
      檔案的開(kāi)發(fā)利用在供電公司全面管理中的作用
      淺談北京衛(wèi)視《檔案》的敘述方式
      新聞世界(2016年10期)2016-10-11 20:31:45
      新常態(tài)下高校檔案工作發(fā)展研究
      基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
      科技視界(2016年20期)2016-09-29 10:53:22
      基于ASP.NET MVC的后勤檔案管理系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)
      電子檔案管理系統(tǒng)解決方案及其關(guān)鍵技術(shù)實(shí)現(xiàn)
      高校檔案的數(shù)字化及其利用服務(wù)
      淺析人力資源與社會(huì)保障電子檔案管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
      竹山县| 闽清县| 博兴县| 镇巴县| 武陟县| 文山县| 庆安县| 莱西市| 甘洛县| 堆龙德庆县| 承德市| 五华县| 罗定市| 眉山市| 崇左市| 巴南区| 沾益县| 麻江县| 龙川县| 莱阳市| 安图县| 晋州市| 西和县| 望都县| 阿图什市| 龙州县| 大连市| 泽库县| 奉新县| 西青区| 龙门县| 鹰潭市| 稷山县| 永善县| 磐安县| 共和县| 常山县| 岳西县| 晋宁县| 万全县| 清徐县|