大數(shù)據(jù)背景下檔案信息服務(wù)體系構(gòu)建方法探析

2021-07-14 02:17:12孔媛媛張舒王愛

檔案與建設(shè) 2021年5期

孔媛媛張舒王愛

摘要：不斷開發(fā)創(chuàng)新當(dāng)前的檔案信息資源共享平臺，提升其數(shù)據(jù)處理能力，方能滿足龐大的檔案信息資源需求。文章從必要性方面對構(gòu)建檔案信息服務(wù)體系進(jìn)行了論述，并提出大數(shù)據(jù)背景下應(yīng)該更多地采用多源異構(gòu)檔案數(shù)據(jù)整合法，通過構(gòu)建檔案信息服務(wù)體系，優(yōu)化設(shè)計相關(guān)的方案。

關(guān)鍵詞：多源異構(gòu)；檔案信息；服務(wù)體系；構(gòu)建；優(yōu)化

大數(shù)據(jù)是指互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等現(xiàn)代網(wǎng)絡(luò)渠道在日常運營中生成、累積和廣泛收集產(chǎn)生的海量數(shù)據(jù)。而大數(shù)據(jù)時代是指在大數(shù)據(jù)的基礎(chǔ)上對信息進(jìn)行存儲、提煉、智能處理和展示的信息爆炸時代[1]。大數(shù)據(jù)時代隨著新用戶的增多，加之信息資源使用頻率提升，檔案信息資源數(shù)據(jù)也呈指數(shù)級增長。對大規(guī)模檔案信息資源進(jìn)行精確分析、有效管理、安全利用等，對于檔案管理部門是一大挑戰(zhàn)。以大數(shù)據(jù)來推動企業(yè)創(chuàng)新業(yè)務(wù)，實現(xiàn)檔案融合，構(gòu)建新型檔案信息服務(wù)體系[2]，達(dá)到智能化體系的發(fā)展階段，實現(xiàn)安全性和快捷性，這也是當(dāng)前急需解決的問題。

一、構(gòu)建檔案信息服務(wù)體系的必要性

1. 檔案信息服務(wù)需求增多

構(gòu)建檔案信息服務(wù)體系，必須遵循“親民、公正”原則，更新服務(wù)理念，變革服務(wù)形式，從而提升檔案信息服務(wù)的用戶體驗。在大數(shù)據(jù)時代，提升檔案信息服務(wù)的質(zhì)量和水平日漸成為檔案利用者迫切需求，檔案部門必須轉(zhuǎn)變服務(wù)理念，堅持用戶為中心。檔案館作為信息儲存的公共機構(gòu)，一方面要提升硬件設(shè)施，另一方面要加強專業(yè)化人才的培訓(xùn)，從而在檔案信息服務(wù)方面由提供信息向提供知識轉(zhuǎn)變。隨著大數(shù)據(jù)時代的發(fā)展，館藏資源更多地以服務(wù)大眾為出發(fā)點，要在新的社會背景下充分發(fā)揮出其原本價值，必須由被動服務(wù)轉(zhuǎn)向主動服務(wù)。不僅要提升信息服務(wù)質(zhì)量，還要提高服務(wù)效率，檔案部門可以利用電視、網(wǎng)絡(luò)等各種渠道將公開信息公布給社會，以供公眾了解和使用。

2. 檔案數(shù)據(jù)的多源異構(gòu)特征

公眾對于檔案信息的個性化需求改變了信息獲取方式，但原始的檔案數(shù)據(jù)收集工作還停留在紙質(zhì)文檔和部分電子文檔的匯編和轉(zhuǎn)存階段。隨著大數(shù)據(jù)應(yīng)用，大量的多媒體異構(gòu)檔案數(shù)據(jù)應(yīng)運而生。主要的數(shù)據(jù)來源如下：

一是物聯(lián)網(wǎng)盛行下的電郵數(shù)據(jù)、社交數(shù)據(jù)。其以文本居多，是重要的非結(jié)構(gòu)化數(shù)據(jù)。這些電郵和社交數(shù)據(jù)是檔案數(shù)據(jù)的重要來源[3]，具有重要的參考價值，但如何有效利用這些新型媒體數(shù)據(jù)將是檔案信息化過程中的一個難題。

二是在大數(shù)據(jù)基礎(chǔ)上產(chǎn)生的決策數(shù)據(jù)、統(tǒng)計報表。早期的檔案數(shù)據(jù)量有限，數(shù)據(jù)類型單一，普通的信息管理系統(tǒng)完全可以處理。隨著大數(shù)據(jù)盛行，檔案數(shù)據(jù)量呈指數(shù)級增長，大數(shù)據(jù)中蘊含了大量有價值的決策數(shù)據(jù)和統(tǒng)計報表，當(dāng)企業(yè)需要進(jìn)行重要決策時，這些數(shù)據(jù)都是重要的參考。因此有效利用和融合這些決策數(shù)據(jù)和統(tǒng)計報表對企業(yè)構(gòu)建決策支持系統(tǒng)具有重要意義。

三是實現(xiàn)電子政務(wù)后出現(xiàn)的氣象環(huán)境、社會保障、食品安全等民生信息資源。隨著電子政務(wù)的發(fā)展，產(chǎn)生了一系列形式多樣的信息資源，這些信息資源涉及氣象、社保、食品等方方面面。這類民生數(shù)據(jù)資源對社會發(fā)展、提升民生事業(yè)的信息化水平具有重要的參考價值。

四是電商環(huán)境發(fā)展下產(chǎn)生的物流數(shù)據(jù)、訂單數(shù)據(jù)等。隨著電商事業(yè)蓬勃發(fā)展，如京東、淘寶、亞馬遜等電商平臺的盛行，產(chǎn)生了大量用戶交互數(shù)據(jù)、物流數(shù)據(jù)以及訂單數(shù)據(jù)等。這些電商數(shù)據(jù)為檔案管理和檔案研究提供了豐富的數(shù)據(jù)資源，保障了檔案數(shù)據(jù)的智能化與個性化分析。

檔案數(shù)據(jù)從不同維度出發(fā)可以有不同的分類形式：從文件格式上進(jìn)行劃分，可以分為圖像、視頻、音頻、圖形和文本等；從數(shù)據(jù)形式上進(jìn)行劃分，可以分為Web服務(wù)數(shù)據(jù)、關(guān)系型數(shù)據(jù)、數(shù)據(jù)包數(shù)據(jù)、接口數(shù)據(jù)等。這些不同格式、不同系統(tǒng)、不同來源的檔案數(shù)據(jù)從不同角度、不同粒度提供了大量可靠有用的信息，但目前最重要的是對信息進(jìn)行有效利用，提高管理檔案信息的水平，這是構(gòu)建一個功能完善、高效易用的檔案信息服務(wù)體系必須首要解決的底層問題。公眾要想公正地獲取資源，需要加強對多源異構(gòu)檔案的信息化處理。融合多源異構(gòu)檔案數(shù)據(jù)，設(shè)計一個合適的檔案體系架構(gòu)，更加有利于多源數(shù)據(jù)檔案信息服務(wù)平臺的設(shè)計與研發(fā)，是當(dāng)下檔案信息化建設(shè)的重要研究方向。

二、多源異構(gòu)檔案數(shù)據(jù)的融合方法

1. 異構(gòu)檔案信息資源內(nèi)涵

異構(gòu)檔案信息資源是指由來自不同渠道、具有不同存儲格式、具有獨特數(shù)據(jù)特征的信息資源構(gòu)成的數(shù)據(jù)集合。其主要的特點是具有異構(gòu)性。這種異構(gòu)性表現(xiàn)在以下五個方面：

一是計算機組成的異構(gòu)。每臺計算機具有不同的物理特性，如指令系統(tǒng)不同等。這些物理特性決定了不同的存儲體系架構(gòu)，因此不同的計算機具有不同的物理存儲結(jié)構(gòu)，經(jīng)典物理存儲結(jié)構(gòu)包括順序存儲、索引存儲以及鏈接存儲等。

二是操作系統(tǒng)的異構(gòu)。操作系統(tǒng)是用戶和硬件交流的媒介，具有作業(yè)管理、存儲管理、文件管理、設(shè)備管理等功能。處理來源于不同操作系統(tǒng)的數(shù)據(jù)，首先要考慮的就是如何將不同數(shù)據(jù)存儲形式的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化和統(tǒng)一化。典型的操作系統(tǒng)包括ios、Windows、MacOS X等。

三是數(shù)據(jù)格式異構(gòu)。不同的工具軟件和信息存儲平臺使用過程中會根據(jù)實際數(shù)據(jù)處理的特點選擇不同的數(shù)據(jù)模式，即不同的數(shù)據(jù)格式。數(shù)據(jù)格式的形式多樣，存儲和讀取不同格式數(shù)據(jù)的方式是不一樣的。比如常見的一些數(shù)據(jù)庫管理系統(tǒng)，包括SQL Server、DB2、DM、MY SQL等，這些數(shù)據(jù)庫管理系統(tǒng)使用二維表格存儲數(shù)據(jù)，因此被稱為關(guān)系型數(shù)據(jù)庫系統(tǒng)；還有一些文本數(shù)據(jù)，由于涉及讀寫操作，因此存儲為文件型數(shù)據(jù)會更合適，包括TXT、CXV、XLS等。

四是數(shù)據(jù)存儲地點異構(gòu)。在一些大型檔案系統(tǒng)中，由于數(shù)據(jù)是分散在全國乃至全世界的，因此無法統(tǒng)一對數(shù)據(jù)進(jìn)行集中存儲和管理。可以使用分布式技術(shù)對此類數(shù)據(jù)進(jìn)行存儲，如各地醫(yī)保檔案都分別存儲在本地醫(yī)保局系統(tǒng)中。這時就需要使用分布式數(shù)據(jù)存儲的相關(guān)技術(shù)和原理。

五是數(shù)據(jù)邏輯模型異構(gòu)。在維護(hù)大規(guī)模數(shù)據(jù)時，同一意義的數(shù)據(jù)具有不同的表達(dá)形式。由于目前各個企業(yè)都具有自己的人力資源管理平臺，每個平臺的底層數(shù)據(jù)存儲模型是不同的，會出現(xiàn)對同樣的信息采用不同的邏輯模型來存儲的現(xiàn)象，這樣就會導(dǎo)致信息合成時的數(shù)據(jù)不一致等問題，這也是實現(xiàn)多源異構(gòu)數(shù)據(jù)融合面臨的重要問題。

2. 基于SVM的多源異構(gòu)檔案數(shù)據(jù)融合方法

多源異構(gòu)數(shù)據(jù)融合中，主流方法有神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)、SVM等。針對檔案數(shù)據(jù)類別和分類層次較為固定的特點，選擇SVM模型進(jìn)行數(shù)據(jù)的融合可以較好地完成模型的訓(xùn)練，且分類精度較高，模型訓(xùn)練誤差較小，有助于提升檔案信息服務(wù)體系構(gòu)建的時效性。

SVM是由模式識別中廣義肖像算法（Generalized Portrait Algorithm）發(fā)展而來的分類器，其早期工作來自前蘇聯(lián)學(xué)者Vladimir N. Vapnik和Alexander Y. Lerner在1963年發(fā)表的研究。兩位學(xué)者對廣義肖像算法進(jìn)行了進(jìn)一步討論并建立了硬邊距的線性SVM。它可以根據(jù)結(jié)構(gòu)風(fēng)險的最小化來設(shè)計新型機器學(xué)習(xí)理論。由于檔案數(shù)據(jù)具有海量性，目前已在多個領(lǐng)域有所應(yīng)用，將SVM技術(shù)應(yīng)用于檔案數(shù)據(jù)異構(gòu)融合，從而避免維數(shù)災(zāi)難現(xiàn)象的出現(xiàn)，在研究小樣本和小概率事件上有很大的優(yōu)勢。SVM理論通過將輸入的向量用函數(shù)映射到一個高維的特征空間，從而實現(xiàn)最優(yōu)分類超平面。結(jié)構(gòu)如圖1所示。

三、構(gòu)建檔案信息服務(wù)體系方案

多源異構(gòu)的檔案數(shù)據(jù)是檔案信息服務(wù)體系最關(guān)鍵和最底層的部分，對其進(jìn)行有效融合標(biāo)準(zhǔn)化是構(gòu)建出適用性強、數(shù)據(jù)處理效率高的檔案信息服務(wù)體系的重要基礎(chǔ)。除底層數(shù)據(jù)的高效融合以外，在頂層架構(gòu)設(shè)計上要考慮各個組件的交互方式，考慮組件間的無縫對接，以及新型檔案數(shù)據(jù)的可擴(kuò)展性。需要從實際情況出發(fā)，以檔案數(shù)據(jù)處理流程的合法性、規(guī)范性、可操作性等方面作為評判標(biāo)準(zhǔn)，構(gòu)建出一個底層結(jié)構(gòu)穩(wěn)健，頂層結(jié)構(gòu)合理的檔案信息服務(wù)體系，從而實現(xiàn)檔案數(shù)據(jù)管理的長久方便利用。

1. 總體思路

在傳統(tǒng)管理模式下，檔案都是由各部門來收集，通過人工管理和標(biāo)注檔案信息，對一些電子檔案數(shù)據(jù)進(jìn)行檢索查詢。這樣的服務(wù)模式具有服務(wù)結(jié)構(gòu)單一、數(shù)據(jù)處理效率低下的缺陷。在大數(shù)據(jù)時代，應(yīng)利用大數(shù)據(jù)技術(shù)對海量的檔案信息進(jìn)行數(shù)據(jù)實時、自動歸集的操作，利用云平臺來分析計算工作，實現(xiàn)檔案信息的管理。利用云平臺來架構(gòu)檔案信息服務(wù)體系可以為使用者提供智能分析、實時發(fā)現(xiàn)與精準(zhǔn)預(yù)測等功能，可以更有效地融合企業(yè)檔案并創(chuàng)造其潛在價值，實現(xiàn)個性化定制信息加工服務(wù)，滿足用戶對檔案數(shù)據(jù)的精準(zhǔn)化和個性化需求。

2. 具體方案

檔案信息服務(wù)平臺建設(shè)應(yīng)該從以下三個方面來開展，分別為數(shù)據(jù)庫模型、處理平臺、數(shù)據(jù)展示。

（1）數(shù)據(jù)庫模型

檔案信息服務(wù)體系結(jié)構(gòu)應(yīng)以水平和垂直的綜合模式來構(gòu)建數(shù)據(jù)庫模型，從而滿足數(shù)據(jù)管理的智能化和自動化發(fā)展目標(biāo)。水平模式保證了數(shù)據(jù)之間的模塊具有獨立互斥的特性，滿足數(shù)據(jù)庫設(shè)計的低耦合特性。垂直模式保證了下層模塊可以為上層模塊提供服務(wù)，而上層模塊可以調(diào)用底層模塊的功能，滿足了數(shù)據(jù)庫設(shè)計的高內(nèi)聚特性。

（2）處理平臺

可用于開發(fā)檔案信息服務(wù)處理平臺的成熟軟件有Hadoop、Spark等，在企業(yè)檔案信息服務(wù)方面，當(dāng)前主要采用的是文本分析、自然語言處理，再結(jié)合搜索引擎、多源異構(gòu)數(shù)據(jù)采集等多種非結(jié)構(gòu)化數(shù)據(jù)處理技術(shù)?？梢酝ㄟ^Iterative Algorithms、Realtime Queries、MapReduce、Stream Processing 等數(shù)據(jù)處理模型來實現(xiàn)大數(shù)據(jù)平臺的開發(fā)。海貝（Hybase）大數(shù)據(jù)管理平臺可以用于管理企業(yè)的檔案信息服務(wù)。該平臺主要包括了大數(shù)據(jù)管理集成平臺、企業(yè)級檢索平臺和企業(yè)級NoSQL等常用功能模塊，并且該框架下的各個子模塊是可以定制和配制的，因此被稱為彈性可擴(kuò)展的數(shù)據(jù)存儲檢索系統(tǒng)。這樣的多源異構(gòu)數(shù)據(jù)倉庫能夠?qū)崿F(xiàn)跨結(jié)構(gòu)處理模式，比如能夠以結(jié)構(gòu)化來處理非結(jié)構(gòu)化數(shù)據(jù)，也能夠以非結(jié)構(gòu)化來處理結(jié)構(gòu)化數(shù)據(jù)。所以如何提高搜索引擎檢索模式的匹配速率，使得檔案數(shù)據(jù)管理平臺具有更強大的便捷性，提升數(shù)據(jù)應(yīng)用可靠性、安全性和易用性是檔案信息服務(wù)體系架構(gòu)平臺設(shè)計的主要目標(biāo)。在技術(shù)領(lǐng)域，高度新型非結(jié)構(gòu)大數(shù)據(jù)管理系統(tǒng)是一種非結(jié)構(gòu)化的大數(shù)據(jù)應(yīng)用處理平臺，其基礎(chǔ)為非結(jié)構(gòu)化數(shù)據(jù)管理系統(tǒng)，并且通過與索引分片、多引擎機制、多副本機制、自然語言處理、Hadoop/HDFS 等技術(shù)融合，提升平臺處理數(shù)據(jù)的能力。

（3）數(shù)據(jù)展示

設(shè)計數(shù)據(jù)模型來存儲多源異構(gòu)數(shù)據(jù)，通過處理平臺的設(shè)計實現(xiàn)了大數(shù)據(jù)平臺的開發(fā)問題，而后檔案數(shù)據(jù)需要經(jīng)過一定的處理加工進(jìn)行信息和數(shù)據(jù)的展示。數(shù)據(jù)展示主要包括了信息加工、電子文件歸檔、數(shù)字檔案館等環(huán)節(jié)。其中信息加工就是對信息進(jìn)行二次組織，以滿足用戶檢索查詢等響應(yīng)請求；電子文件存檔就是數(shù)據(jù)的存儲環(huán)節(jié)。平臺支持多種文件格式的讀取任務(wù)，并能實現(xiàn)將各類文件按類別進(jìn)行分類存儲；數(shù)字檔案館可以實現(xiàn)對各類電子文檔進(jìn)行查詢和智能檢索等服務(wù)，方便查詢者個性化查詢檔案數(shù)據(jù)，實現(xiàn)面向用戶的檔案數(shù)據(jù)檢索與展示服務(wù)。

四、檔案信息資源共享平臺數(shù)據(jù)處理優(yōu)化實現(xiàn)

檔案信息服務(wù)平臺不僅要從頂層設(shè)計上進(jìn)行合理架構(gòu)，設(shè)計出優(yōu)化的數(shù)據(jù)庫模型，使用高效的大數(shù)據(jù)管理工具進(jìn)行開發(fā)，而且要對平臺進(jìn)行優(yōu)化。主要包括使用用戶瀏覽器緩存、采用CDN技術(shù)的前端數(shù)據(jù)優(yōu)化和針對數(shù)據(jù)庫中采用存儲過程的后臺數(shù)據(jù)優(yōu)化。

1. 前端數(shù)據(jù)處理優(yōu)化

檔案信息資源服務(wù)平臺的前端主要包括檔案信息檢索頁面、檔案信息管理和維護(hù)頁面、用戶管理頁面。由于前端是面向用戶的，所以其中對于檢索頁面的使用最為頻繁。針對檢索頁面的數(shù)據(jù)處理優(yōu)化，可以將CSS、JavaScript進(jìn)行壓縮存儲并將其功能頁面中的圖片進(jìn)行合并。當(dāng)用戶請求時，一次就可以完成CSS、JavaScript以及頁面樣式圖片的獲取。在檔案信息資源服務(wù)平臺上，將CSS、JS以及圖標(biāo)這些靜態(tài)資源文件緩存在瀏覽器中，這樣可以提升平臺的訪問效率，當(dāng)用戶進(jìn)行資源請求時就可以直接讀取瀏覽器上的緩存內(nèi)容，實現(xiàn)了以最短路徑實現(xiàn)資源訪問，從而加快了平臺的訪問速度，減輕了檔案信息資源服務(wù)平臺服務(wù)器的負(fù)載。

2. 后臺數(shù)據(jù)處理優(yōu)化

不同于前端數(shù)據(jù)優(yōu)化方案，后臺數(shù)據(jù)方案要從如何減少數(shù)據(jù)訪問量、提高存儲的安全性以及如何提高查詢效率等方面著手。因此后臺數(shù)據(jù)處理優(yōu)化主要采用以下方式：

首先，減少檔案信息資源服務(wù)平臺檔案檢索頁面中數(shù)據(jù)來回訪問的數(shù)據(jù)量，設(shè)計詳細(xì)的檔案檢索條件并提交到后臺進(jìn)行數(shù)據(jù)檢索，數(shù)據(jù)庫檢索成功后將結(jié)果返回給用戶，通過該方式極大地提升系統(tǒng)檢索的性能，并且減少數(shù)據(jù)訪問量。

其次，為了減少前后臺的數(shù)據(jù)交互，可以采用存儲過程技術(shù)實現(xiàn)將過程數(shù)據(jù)處理邏輯封裝到存儲過程中，這樣就不會出現(xiàn)網(wǎng)絡(luò)重復(fù)的數(shù)據(jù)交互，減少數(shù)據(jù)交互頻率。當(dāng)檔案檢索過程中涉及復(fù)雜的數(shù)據(jù)提取時，此方法非常有效，因為此時檔案數(shù)據(jù)可以通過存儲過程處理并統(tǒng)一反饋給用戶。并且由于存儲過程采用參數(shù)的方式傳入檢索請求信息，不僅可以提升瀏覽器的檢索性能，還極大地提升了平臺的安全性。

最后，為提高檢索效率，可以采用索引技術(shù)。在檔案信息最頻繁使用的檢索點上創(chuàng)建索引，確保訪問檢索信息的快速性。索引的創(chuàng)建大大提升了查詢效率，但也會引入一些不利因素。比如對檔案數(shù)據(jù)進(jìn)行增刪或者修改表中數(shù)據(jù)時，也需要同步更新索引文件，因此對于頻繁需要更新的檔案數(shù)據(jù)應(yīng)盡量避免使用索引，減少信息變動帶來其他功能問題。

檔案信息化建設(shè)是時代發(fā)展的趨勢，檔案工作也要適應(yīng)當(dāng)前的大環(huán)境，滿足新時代發(fā)展的需要。大數(shù)據(jù)背景下檔案信息服務(wù)平臺的建設(shè)也要滿足新技術(shù)、新時代的要求。將計算機學(xué)科與檔案學(xué)科有效融合，提升信息管理效率，推動智慧檔案建設(shè)工作順利進(jìn)行。

注釋與參考文獻(xiàn)

[1]曹筠慧，管先海，孫洋洋.基于大數(shù)據(jù)時代的檔案價值及其開發(fā)利用探究[J].檔案管理，2017（1）：27-29.

[2]郭立.基于信息服務(wù)生態(tài)系統(tǒng)的社區(qū)檔案管理研究[J].山西檔案，2018（3）：137-139.

[3]魏扣，李子林，郝琦. 社交媒體應(yīng)用于檔案知識服務(wù)的SWOT分析[J].檔案學(xué)研究， 2019（1）：71-76.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

大數(shù)據(jù)背景下檔案信息服務(wù)體系構(gòu)建方法探析

一、構(gòu)建檔案信息服務(wù)體系的必要性

二、多源異構(gòu)檔案數(shù)據(jù)的融合方法

三、構(gòu)建檔案信息服務(wù)體系方案

四、檔案信息資源共享平臺數(shù)據(jù)處理優(yōu)化實現(xiàn)

一、構(gòu)建檔案信息服務(wù)體系的必要性

二、多源異構(gòu)檔案數(shù)據(jù)的融合方法

三、構(gòu)建檔案信息服務(wù)體系方案

四、檔案信息資源共享平臺數(shù)據(jù)處理優(yōu)化實現(xiàn)