孔媛媛 張舒 王愛
摘 要:不斷開發(fā)創(chuàng)新當(dāng)前的檔案信息資源共享平臺,提升其數(shù)據(jù)處理能力,方能滿足龐大的檔案信息資源需求。文章從必要性方面對構(gòu)建檔案信息服務(wù)體系進(jìn)行了論述,并提出大數(shù)據(jù)背景下應(yīng)該更多地采用多源異構(gòu)檔案數(shù)據(jù)整合法,通過構(gòu)建檔案信息服務(wù)體系,優(yōu)化設(shè)計相關(guān)的方案。
關(guān)鍵詞:多源異構(gòu);檔案信息;服務(wù)體系;構(gòu)建;優(yōu)化
大數(shù)據(jù)是指互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等現(xiàn)代網(wǎng)絡(luò)渠道在日常運營中生成、累積和廣泛收集產(chǎn)生的海量數(shù)據(jù)。而大數(shù)據(jù)時代是指在大數(shù)據(jù)的基礎(chǔ)上對信息進(jìn)行存儲、提煉、智能處理和展示的信息爆炸時代[1]。大數(shù)據(jù)時代隨著新用戶的增多,加之信息資源使用頻率提升,檔案信息資源數(shù)據(jù)也呈指數(shù)級增長。對大規(guī)模檔案信息資源進(jìn)行精確分析、有效管理、安全利用等,對于檔案管理部門是一大挑戰(zhàn)。以大數(shù)據(jù)來推動企業(yè)創(chuàng)新業(yè)務(wù),實現(xiàn)檔案融合,構(gòu)建新型檔案信息服務(wù)體系[2],達(dá)到智能化體系的發(fā)展階段,實現(xiàn)安全性和快捷性,這也是當(dāng)前急需解決的問題。
1. 檔案信息服務(wù)需求增多
構(gòu)建檔案信息服務(wù)體系,必須遵循“親民、公正”原則,更新服務(wù)理念,變革服務(wù)形式,從而提升檔案信息服務(wù)的用戶體驗。在大數(shù)據(jù)時代,提升檔案信息服務(wù)的質(zhì)量和水平日漸成為檔案利用者迫切需求,檔案部門必須轉(zhuǎn)變服務(wù)理念,堅持用戶為中心。檔案館作為信息儲存的公共機構(gòu),一方面要提升硬件設(shè)施,另一方面要加強專業(yè)化人才的培訓(xùn),從而在檔案信息服務(wù)方面由提供信息向提供知識轉(zhuǎn)變。隨著大數(shù)據(jù)時代的發(fā)展,館藏資源更多地以服務(wù)大眾為出發(fā)點,要在新的社會背景下充分發(fā)揮出其原本價值,必須由被動服務(wù)轉(zhuǎn)向主動服務(wù)。不僅要提升信息服務(wù)質(zhì)量,還要提高服務(wù)效率,檔案部門可以利用電視、網(wǎng)絡(luò)等各種渠道將公開信息公布給社會,以供公眾了解和使用。
2. 檔案數(shù)據(jù)的多源異構(gòu)特征
公眾對于檔案信息的個性化需求改變了信息獲取方式,但原始的檔案數(shù)據(jù)收集工作還停留在紙質(zhì)文檔和部分電子文檔的匯編和轉(zhuǎn)存階段。隨著大數(shù)據(jù)應(yīng)用,大量的多媒體異構(gòu)檔案數(shù)據(jù)應(yīng)運而生。主要的數(shù)據(jù)來源如下:
一是物聯(lián)網(wǎng)盛行下的電郵數(shù)據(jù)、社交數(shù)據(jù)。其以文本居多,是重要的非結(jié)構(gòu)化數(shù)據(jù)。這些電郵和社交數(shù)據(jù)是檔案數(shù)據(jù)的重要來源[3],具有重要的參考價值,但如何有效利用這些新型媒體數(shù)據(jù)將是檔案信息化過程中的一個難題。
二是在大數(shù)據(jù)基礎(chǔ)上產(chǎn)生的決策數(shù)據(jù)、統(tǒng)計報表。早期的檔案數(shù)據(jù)量有限,數(shù)據(jù)類型單一,普通的信息管理系統(tǒng)完全可以處理。隨著大數(shù)據(jù)盛行,檔案數(shù)據(jù)量呈指數(shù)級增長,大數(shù)據(jù)中蘊含了大量有價值的決策數(shù)據(jù)和統(tǒng)計報表,當(dāng)企業(yè)需要進(jìn)行重要決策時,這些數(shù)據(jù)都是重要的參考。因此有效利用和融合這些決策數(shù)據(jù)和統(tǒng)計報表對企業(yè)構(gòu)建決策支持系統(tǒng)具有重要意義。
三是實現(xiàn)電子政務(wù)后出現(xiàn)的氣象環(huán)境、社會保障、食品安全等民生信息資源。隨著電子政務(wù)的發(fā)展,產(chǎn)生了一系列形式多樣的信息資源,這些信息資源涉及氣象、社保、食品等方方面面。這類民生數(shù)據(jù)資源對社會發(fā)展、提升民生事業(yè)的信息化水平具有重要的參考價值。
四是電商環(huán)境發(fā)展下產(chǎn)生的物流數(shù)據(jù)、訂單數(shù)據(jù)等。隨著電商事業(yè)蓬勃發(fā)展,如京東、淘寶、亞馬遜等電商平臺的盛行,產(chǎn)生了大量用戶交互數(shù)據(jù)、物流數(shù)據(jù)以及訂單數(shù)據(jù)等。這些電商數(shù)據(jù)為檔案管理和檔案研究提供了豐富的數(shù)據(jù)資源,保障了檔案數(shù)據(jù)的智能化與個性化分析。
檔案數(shù)據(jù)從不同維度出發(fā)可以有不同的分類形式:從文件格式上進(jìn)行劃分,可以分為圖像、視頻、音頻、圖形和文本等;從數(shù)據(jù)形式上進(jìn)行劃分,可以分為Web服務(wù)數(shù)據(jù)、關(guān)系型數(shù)據(jù)、數(shù)據(jù)包數(shù)據(jù)、接口數(shù)據(jù)等。這些不同格式、不同系統(tǒng)、不同來源的檔案數(shù)據(jù)從不同角度、不同粒度提供了大量可靠有用的信息,但目前最重要的是對信息進(jìn)行有效利用,提高管理檔案信息的水平,這是構(gòu)建一個功能完善、高效易用的檔案信息服務(wù)體系必須首要解決的底層問題。公眾要想公正地獲取資源,需要加強對多源異構(gòu)檔案的信息化處理。融合多源異構(gòu)檔案數(shù)據(jù),設(shè)計一個合適的檔案體系架構(gòu),更加有利于多源數(shù)據(jù)檔案信息服務(wù)平臺的設(shè)計與研發(fā),是當(dāng)下檔案信息化建設(shè)的重要研究方向。
1. 異構(gòu)檔案信息資源內(nèi)涵
異構(gòu)檔案信息資源是指由來自不同渠道、具有不同存儲格式、具有獨特數(shù)據(jù)特征的信息資源構(gòu)成的數(shù)據(jù)集合。其主要的特點是具有異構(gòu)性。這種異構(gòu)性表現(xiàn)在以下五個方面:
一是計算機組成的異構(gòu)。每臺計算機具有不同的物理特性,如指令系統(tǒng)不同等。這些物理特性決定了不同的存儲體系架構(gòu),因此不同的計算機具有不同的物理存儲結(jié)構(gòu),經(jīng)典物理存儲結(jié)構(gòu)包括順序存儲、索引存儲以及鏈接存儲等。
二是操作系統(tǒng)的異構(gòu)。操作系統(tǒng)是用戶和硬件交流的媒介,具有作業(yè)管理、存儲管理、文件管理、設(shè)備管理等功能。處理來源于不同操作系統(tǒng)的數(shù)據(jù),首先要考慮的就是如何將不同數(shù)據(jù)存儲形式的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化和統(tǒng)一化。典型的操作系統(tǒng)包括ios、Windows、MacOS X等。
三是數(shù)據(jù)格式異構(gòu)。不同的工具軟件和信息存儲平臺使用過程中會根據(jù)實際數(shù)據(jù)處理的特點選擇不同的數(shù)據(jù)模式,即不同的數(shù)據(jù)格式。數(shù)據(jù)格式的形式多樣,存儲和讀取不同格式數(shù)據(jù)的方式是不一樣的。比如常見的一些數(shù)據(jù)庫管理系統(tǒng),包括SQL Server、DB2、DM、MY SQL等,這些數(shù)據(jù)庫管理系統(tǒng)使用二維表格存儲數(shù)據(jù),因此被稱為關(guān)系型數(shù)據(jù)庫系統(tǒng);還有一些文本數(shù)據(jù),由于涉及讀寫操作,因此存儲為文件型數(shù)據(jù)會更合適,包括TXT、CXV、XLS等。
四是數(shù)據(jù)存儲地點異構(gòu)。在一些大型檔案系統(tǒng)中,由于數(shù)據(jù)是分散在全國乃至全世界的,因此無法統(tǒng)一對數(shù)據(jù)進(jìn)行集中存儲和管理。可以使用分布式技術(shù)對此類數(shù)據(jù)進(jìn)行存儲,如各地醫(yī)保檔案都分別存儲在本地醫(yī)保局系統(tǒng)中。這時就需要使用分布式數(shù)據(jù)存儲的相關(guān)技術(shù)和原理。
五是數(shù)據(jù)邏輯模型異構(gòu)。在維護(hù)大規(guī)模數(shù)據(jù)時,同一意義的數(shù)據(jù)具有不同的表達(dá)形式。由于目前各個企業(yè)都具有自己的人力資源管理平臺,每個平臺的底層數(shù)據(jù)存儲模型是不同的,會出現(xiàn)對同樣的信息采用不同的邏輯模型來存儲的現(xiàn)象,這樣就會導(dǎo)致信息合成時的數(shù)據(jù)不一致等問題,這也是實現(xiàn)多源異構(gòu)數(shù)據(jù)融合面臨的重要問題。
2. 基于SVM的多源異構(gòu)檔案數(shù)據(jù)融合方法
多源異構(gòu)數(shù)據(jù)融合中,主流方法有神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)、SVM等。針對檔案數(shù)據(jù)類別和分類層次較為固定的特點,選擇SVM模型進(jìn)行數(shù)據(jù)的融合可以較好地完成模型的訓(xùn)練,且分類精度較高,模型訓(xùn)練誤差較小,有助于提升檔案信息服務(wù)體系構(gòu)建的時效性。
SVM是由模式識別中廣義肖像算法(Generalized Portrait Algorithm)發(fā)展而來的分類器,其早期工作來自前蘇聯(lián)學(xué)者Vladimir N. Vapnik和Alexander Y. Lerner在1963年發(fā)表的研究 。兩位學(xué)者對廣義肖像算法進(jìn)行了進(jìn)一步討論并建立了硬邊距的線性SVM。它可以根據(jù)結(jié)構(gòu)風(fēng)險的最小化來設(shè)計新型機器學(xué)習(xí)理論。由于檔案數(shù)據(jù)具有海量性,目前已在多個領(lǐng)域有所應(yīng)用,將SVM技術(shù)應(yīng)用于檔案數(shù)據(jù)異構(gòu)融合,從而避免維數(shù)災(zāi)難現(xiàn)象的出現(xiàn),在研究小樣本和小概率事件上有很大的優(yōu)勢。SVM理論通過將輸入的向量用函數(shù)映射到一個高維的特征空間,從而實現(xiàn)最優(yōu)分類超平面。結(jié)構(gòu)如圖1所示。
多源異構(gòu)的檔案數(shù)據(jù)是檔案信息服務(wù)體系最關(guān)鍵和最底層的部分,對其進(jìn)行有效融合標(biāo)準(zhǔn)化是構(gòu)建出適用性強、數(shù)據(jù)處理效率高的檔案信息服務(wù)體系的重要基礎(chǔ)。除底層數(shù)據(jù)的高效融合以外,在頂層架構(gòu)設(shè)計上要考慮各個組件的交互方式,考慮組件間的無縫對接,以及新型檔案數(shù)據(jù)的可擴(kuò)展性。需要從實際情況出發(fā),以檔案數(shù)據(jù)處理流程的合法性、規(guī)范性、可操作性等方面作為評判標(biāo)準(zhǔn),構(gòu)建出一個底層結(jié)構(gòu)穩(wěn)健,頂層結(jié)構(gòu)合理的檔案信息服務(wù)體系,從而實現(xiàn)檔案數(shù)據(jù)管理的長久方便利用。
1. 總體思路
在傳統(tǒng)管理模式下,檔案都是由各部門來收集,通過人工管理和標(biāo)注檔案信息,對一些電子檔案數(shù)據(jù)進(jìn)行檢索查詢。這樣的服務(wù)模式具有服務(wù)結(jié)構(gòu)單一、數(shù)據(jù)處理效率低下的缺陷。在大數(shù)據(jù)時代,應(yīng)利用大數(shù)據(jù)技術(shù)對海量的檔案信息進(jìn)行數(shù)據(jù)實時、自動歸集的操作,利用云平臺來分析計算工作,實現(xiàn)檔案信息的管理。利用云平臺來架構(gòu)檔案信息服務(wù)體系可以為使用者提供智能分析、實時發(fā)現(xiàn)與精準(zhǔn)預(yù)測等功能,可以更有效地融合企業(yè)檔案并創(chuàng)造其潛在價值,實現(xiàn)個性化定制信息加工服務(wù),滿足用戶對檔案數(shù)據(jù)的精準(zhǔn)化和個性化需求。
2. 具體方案
檔案信息服務(wù)平臺建設(shè)應(yīng)該從以下三個方面來開展,分別為數(shù)據(jù)庫模型、處理平臺、數(shù)據(jù)展示。
(1)數(shù)據(jù)庫模型
檔案信息服務(wù)體系結(jié)構(gòu)應(yīng)以水平和垂直的綜合模式來構(gòu)建數(shù)據(jù)庫模型,從而滿足數(shù)據(jù)管理的智能化和自動化發(fā)展目標(biāo)。水平模式保證了數(shù)據(jù)之間的模塊具有獨立互斥的特性,滿足數(shù)據(jù)庫設(shè)計的低耦合特性。垂直模式保證了下層模塊可以為上層模塊提供服務(wù),而上層模塊可以調(diào)用底層模塊的功能,滿足了數(shù)據(jù)庫設(shè)計的高內(nèi)聚特性。
(2)處理平臺
可用于開發(fā)檔案信息服務(wù)處理平臺的成熟軟件有Hadoop、Spark等,在企業(yè)檔案信息服務(wù)方面,當(dāng)前主要采用的是文本分析、自然語言處理,再結(jié)合搜索引擎、多源異構(gòu)數(shù)據(jù)采集等多種非結(jié)構(gòu)化數(shù)據(jù)處理技術(shù)??梢酝ㄟ^Iterative Algorithms、Realtime Queries、MapReduce、Stream Processing 等數(shù)據(jù)處理模型來實現(xiàn)大數(shù)據(jù)平臺的開發(fā)。海貝(Hybase)大數(shù)據(jù)管理平臺可以用于管理企業(yè)的檔案信息服務(wù)。該平臺主要包括了大數(shù)據(jù)管理集成平臺、企業(yè)級檢索平臺和企業(yè)級NoSQL等常用功能模塊,并且該框架下的各個子模塊是可以定制和配制的,因此被稱為彈性可擴(kuò)展的數(shù)據(jù)存儲檢索系統(tǒng)。這樣的多源異構(gòu)數(shù)據(jù)倉庫能夠?qū)崿F(xiàn)跨結(jié)構(gòu)處理模式,比如能夠以結(jié)構(gòu)化來處理非結(jié)構(gòu)化數(shù)據(jù),也能夠以非結(jié)構(gòu)化來處理結(jié)構(gòu)化數(shù)據(jù)。所以如何提高搜索引擎檢索模式的匹配速率,使得檔案數(shù)據(jù)管理平臺具有更強大的便捷性,提升數(shù)據(jù)應(yīng)用可靠性、安全性和易用性是檔案信息服務(wù)體系架構(gòu)平臺設(shè)計的主要目標(biāo)。在技術(shù)領(lǐng)域,高度新型非結(jié)構(gòu)大數(shù)據(jù)管理系統(tǒng)是一種非結(jié)構(gòu)化的大數(shù)據(jù)應(yīng)用處理平臺,其基礎(chǔ)為非結(jié)構(gòu)化數(shù)據(jù)管理系統(tǒng),并且通過與索引分片、多引擎機制、多副本機制、自然語言處理、Hadoop/HDFS 等技術(shù)融合,提升平臺處理數(shù)據(jù)的能力。
(3)數(shù)據(jù)展示
設(shè)計數(shù)據(jù)模型來存儲多源異構(gòu)數(shù)據(jù),通過處理平臺的設(shè)計實現(xiàn)了大數(shù)據(jù)平臺的開發(fā)問題,而后檔案數(shù)據(jù)需要經(jīng)過一定的處理加工進(jìn)行信息和數(shù)據(jù)的展示。數(shù)據(jù)展示主要包括了信息加工、電子文件歸檔、數(shù)字檔案館等環(huán)節(jié)。其中信息加工就是對信息進(jìn)行二次組織,以滿足用戶檢索查詢等響應(yīng)請求;電子文件存檔就是數(shù)據(jù)的存儲環(huán)節(jié)。平臺支持多種文件格式的讀取任務(wù),并能實現(xiàn)將各類文件按類別進(jìn)行分類存儲;數(shù)字檔案館可以實現(xiàn)對各類電子文檔進(jìn)行查詢和智能檢索等服務(wù),方便查詢者個性化查詢檔案數(shù)據(jù),實現(xiàn)面向用戶的檔案數(shù)據(jù)檢索與展示服務(wù)。
檔案信息服務(wù)平臺不僅要從頂層設(shè)計上進(jìn)行合理架構(gòu),設(shè)計出優(yōu)化的數(shù)據(jù)庫模型,使用高效的大數(shù)據(jù)管理工具進(jìn)行開發(fā),而且要對平臺進(jìn)行優(yōu)化。主要包括使用用戶瀏覽器緩存、采用CDN技術(shù)的前端數(shù)據(jù)優(yōu)化和針對數(shù)據(jù)庫中采用存儲過程的后臺數(shù)據(jù)優(yōu)化。
1. 前端數(shù)據(jù)處理優(yōu)化
檔案信息資源服務(wù)平臺的前端主要包括檔案信息檢索頁面、檔案信息管理和維護(hù)頁面、用戶管理頁面。由于前端是面向用戶的,所以其中對于檢索頁面的使用最為頻繁。針對檢索頁面的數(shù)據(jù)處理優(yōu)化,可以將CSS、JavaScript進(jìn)行壓縮存儲并將其功能頁面中的圖片進(jìn)行合并。當(dāng)用戶請求時,一次就可以完成CSS、JavaScript以及頁面樣式圖片的獲取。在檔案信息資源服務(wù)平臺上,將CSS、JS以及圖標(biāo)這些靜態(tài)資源文件緩存在瀏覽器中,這樣可以提升平臺的訪問效率,當(dāng)用戶進(jìn)行資源請求時就可以直接讀取瀏覽器上的緩存內(nèi)容,實現(xiàn)了以最短路徑實現(xiàn)資源訪問,從而加快了平臺的訪問速度,減輕了檔案信息資源服務(wù)平臺服務(wù)器的負(fù)載。
2. 后臺數(shù)據(jù)處理優(yōu)化
不同于前端數(shù)據(jù)優(yōu)化方案,后臺數(shù)據(jù)方案要從如何減少數(shù)據(jù)訪問量、提高存儲的安全性以及如何提高查詢效率等方面著手。因此后臺數(shù)據(jù)處理優(yōu)化主要采用以下方式:
首先,減少檔案信息資源服務(wù)平臺檔案檢索頁面中數(shù)據(jù)來回訪問的數(shù)據(jù)量,設(shè)計詳細(xì)的檔案檢索條件并提交到后臺進(jìn)行數(shù)據(jù)檢索,數(shù)據(jù)庫檢索成功后將結(jié)果返回給用戶,通過該方式極大地提升系統(tǒng)檢索的性能,并且減少數(shù)據(jù)訪問量。
其次,為了減少前后臺的數(shù)據(jù)交互,可以采用存儲過程技術(shù)實現(xiàn)將過程數(shù)據(jù)處理邏輯封裝到存儲過程中,這樣就不會出現(xiàn)網(wǎng)絡(luò)重復(fù)的數(shù)據(jù)交互,減少數(shù)據(jù)交互頻率。當(dāng)檔案檢索過程中涉及復(fù)雜的數(shù)據(jù)提取時,此方法非常有效,因為此時檔案數(shù)據(jù)可以通過存儲過程處理并統(tǒng)一反饋給用戶。并且由于存儲過程采用參數(shù)的方式傳入檢索請求信息,不僅可以提升瀏覽器的檢索性能,還極大地提升了平臺的安全性。
最后,為提高檢索效率,可以采用索引技術(shù)。在檔案信息最頻繁使用的檢索點上創(chuàng)建索引,確保訪問檢索信息的快速性。索引的創(chuàng)建大大提升了查詢效率,但也會引入一些不利因素。比如對檔案數(shù)據(jù)進(jìn)行增刪或者修改表中數(shù)據(jù)時,也需要同步更新索引文件,因此對于頻繁需要更新的檔案數(shù)據(jù)應(yīng)盡量避免使用索引,減少信息變動帶來其他功能問題。
檔案信息化建設(shè)是時代發(fā)展的趨勢,檔案工作也要適應(yīng)當(dāng)前的大環(huán)境,滿足新時代發(fā)展的需要。大數(shù)據(jù)背景下檔案信息服務(wù)平臺的建設(shè)也要滿足新技術(shù)、新時代的要求。將計算機學(xué)科與檔案學(xué)科有效融合,提升信息管理效率,推動智慧檔案建設(shè)工作順利進(jìn)行。
注釋與參考文獻(xiàn)
[1]曹筠慧,管先海,孫洋洋.基于大數(shù)據(jù)時代的檔案價值及其開發(fā)利用探究[J].檔案管理,2017(1):27-29.
[2]郭立.基于信息服務(wù)生態(tài)系統(tǒng)的社區(qū)檔案管理研究[J].山西檔案,2018(3):137-139.
[3]魏扣,李子林, 郝琦. 社交媒體應(yīng)用于檔案知識服務(wù)的SWOT分析[J].檔案學(xué)研究, 2019(1):71-76.