摘要:隨著大數(shù)據(jù)、人工智能、移動(dòng)互聯(lián)網(wǎng)技術(shù)的不斷成熟,檔案信息資源共享平臺(tái)的數(shù)據(jù)分析與研究已經(jīng)成為檔案信息管理工作關(guān)注的重點(diǎn),而數(shù)據(jù)采集又是檔案數(shù)據(jù)分析與研究的基礎(chǔ),因此,高質(zhì)量的數(shù)據(jù)采集對(duì)檔案大數(shù)據(jù)分析與研究具有重要意義。文章在探索檔案信息資源共享平臺(tái)數(shù)據(jù)采集所涉及的技術(shù)基礎(chǔ)上,結(jié)合數(shù)據(jù)采集需求,提出了采用自然語(yǔ)言處理技術(shù)采集檔案數(shù)據(jù)的結(jié)論,通過(guò)該技術(shù)對(duì)檔案數(shù)據(jù)收集的優(yōu)化,可更準(zhǔn)確地確保檔案信息資源的數(shù)據(jù)采集質(zhì)量。
關(guān)鍵詞:大數(shù)據(jù);檔案信息資源;共享平臺(tái);數(shù)據(jù)采集;自然語(yǔ)言處理技術(shù)
分類號(hào):G273
Design and Application of Data Acquisition System of Archival Information Resource Sharing Platform in the Era of Big Data
Bian Xianjie
(School of Public Administration of Yancheng Teacher University, Yancheng,Jiangsu, 224007)
Abstract:With the maturity of big data, artificial intelligence and mobile Internet technology, the data analysis and research of archival information resources sharing platform has become the focus of archival information management. Data acquisition is the basis of data analysis and research of archives. Therefore, high-quality data acquisition is of great significance to large data analysis and research of archives. Based on the technology involved in data collection of archive information sharing platform, combined with the data collection requirements, this paper proposes the use of natural language processing technology to collect archive data. Through this technology, the data collection quality of archives information resources can be realized more efficiently and accurately after optimizing the collection of archives data.
Keywords:Big Data; Archive Information Resource; Sharing Platform; Data Acquisition; Natural LanguageProcessingTechnology
隨著網(wǎng)絡(luò)和信息技術(shù)的不斷普及,人類產(chǎn)生的數(shù)據(jù)量正呈指數(shù)級(jí)增長(zhǎng),以大數(shù)據(jù)、物聯(lián)網(wǎng)、人工智能、5G為核心特征的信息化變革正風(fēng)靡全球。檔案信息資源的記錄方式由傳統(tǒng)的文本類型向文本與圖像、聲音、視頻等多媒體并存轉(zhuǎn)變,檔案信息數(shù)據(jù)的來(lái)源更加廣泛、數(shù)量更加龐大。數(shù)據(jù)采集作為檔案數(shù)據(jù)分析與研究的基礎(chǔ),其質(zhì)量對(duì)檔案信息資源共享平臺(tái)數(shù)據(jù)分析與研究具有重要意義。
2015年9月,國(guó)務(wù)院印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,系統(tǒng)部署了大數(shù)據(jù)發(fā)展工作。2016年3月,《中華人民共和國(guó)國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展第十三個(gè)五年規(guī)劃綱要》發(fā)布并提出:把大數(shù)據(jù)作為基礎(chǔ)性戰(zhàn)略資源,全面實(shí)施促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng),加快推動(dòng)數(shù)據(jù)資源共享開放和開發(fā)應(yīng)用,助力產(chǎn)業(yè)轉(zhuǎn)型升級(jí)和社會(huì)治理創(chuàng)新。加快政府?dāng)?shù)據(jù)開放共享、促進(jìn)大數(shù)據(jù)產(chǎn)業(yè)健康發(fā)展,成為大數(shù)據(jù)戰(zhàn)略的重要部分。為推進(jìn)大數(shù)據(jù)戰(zhàn)略,全國(guó)各地紛紛成立大數(shù)據(jù)產(chǎn)業(yè)相關(guān)的數(shù)據(jù)管理部門[1]。在此背景下,檔案信息資源共享平臺(tái)建設(shè)步伐加快,“十二五”期間,我國(guó)初步建成以局域網(wǎng)、政務(wù)網(wǎng)、因特網(wǎng)為平臺(tái),以檔案信息管理系統(tǒng)為支撐,以檔案目錄中心、基礎(chǔ)數(shù)據(jù)庫(kù)、檔案利用平臺(tái)、檔案網(wǎng)站信息發(fā)布為基礎(chǔ)的檔案信息化體系[2]。大數(shù)據(jù)時(shí)代到來(lái),數(shù)據(jù)的來(lái)源和生產(chǎn)機(jī)制發(fā)生了巨大變化,數(shù)據(jù)的意義急劇放大[3],其中,檔案信息數(shù)據(jù)的采集是平臺(tái)實(shí)現(xiàn)檔案信息大數(shù)據(jù)應(yīng)用的基礎(chǔ)。
在大數(shù)據(jù)平臺(tái)下,由于檔案信息數(shù)據(jù)源具有更復(fù)雜的多樣性,數(shù)據(jù)采集的形式也更加多樣。在數(shù)據(jù)采集階段,增量檔案信息數(shù)據(jù)同步,尤其針對(duì)那種可變(可刪除、可修改)的檔案信息數(shù)據(jù)源處理更加困難。現(xiàn)階段,檔案信息數(shù)據(jù)采集要解決上述問(wèn)題,可采用的方式主要包括以下三種:一是放棄同步,采用直連形式;二是放棄增量同步,選用全量同步;三是編寫定期Job,掃描檔案信息數(shù)據(jù)源以獲得待處理數(shù)據(jù),并進(jìn)行增量同步。
現(xiàn)有的增量檔案信息數(shù)據(jù)采集存在缺陷,為提升檔案信息資源共享平臺(tái)的數(shù)據(jù)處理性能,需定期將超過(guò)時(shí)間期限的歷史數(shù)據(jù)清除,若希望保留檔案信息歷史數(shù)據(jù)以備數(shù)據(jù)挖掘與分析,就會(huì)影響數(shù)據(jù)采集的效率。對(duì)于多媒體檔案信息數(shù)據(jù)源,根據(jù)某種識(shí)別算法,識(shí)別并提取多媒體文件的特征信息,并將其轉(zhuǎn)換為業(yè)務(wù)場(chǎng)景需要的數(shù)據(jù)模型,這種情況會(huì)導(dǎo)致檔案信息數(shù)據(jù)提取耗時(shí)相對(duì)較長(zhǎng),也需要較多內(nèi)存支持。由于檔案信息本身的涉密特性,加上硬件基礎(chǔ)設(shè)施和大數(shù)據(jù)應(yīng)用方面的投入限制,當(dāng)前在檔案信息資源共享應(yīng)用方面還存在一定缺陷,因此應(yīng)對(duì)檔案信息數(shù)據(jù)采集加大研發(fā)投入力度[4]。
1.1平臺(tái)數(shù)據(jù)采集系統(tǒng)設(shè)計(jì)目標(biāo)
檔案信息資源共享平臺(tái)從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)清洗,最終按照預(yù)先設(shè)定好的數(shù)據(jù)模型,將數(shù)據(jù)加載到檔案信息資源共享平臺(tái)數(shù)據(jù)倉(cāng)庫(kù)中[5],對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的檔案信息資源數(shù)據(jù)進(jìn)行分析處理。數(shù)據(jù)采集作為檔案信息資源共享平臺(tái)大數(shù)據(jù)運(yùn)用中最重要的階段,它通過(guò)傳統(tǒng)互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)等方式,獲得各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化的檔案信息資源數(shù)據(jù)[6]。由于采集的檔案信息資源種類錯(cuò)綜復(fù)雜,需對(duì)其進(jìn)行數(shù)據(jù)分析,并從數(shù)據(jù)原始格式中提取出有用的檔案信息資源數(shù)據(jù)。由于數(shù)據(jù)源頭的采集有不準(zhǔn)確現(xiàn)象,需對(duì)這些數(shù)據(jù)進(jìn)行過(guò)濾、剔除,并要對(duì)數(shù)據(jù)結(jié)構(gòu)進(jìn)行語(yǔ)義分析,與目標(biāo)數(shù)據(jù)結(jié)構(gòu)比較,找出數(shù)據(jù)源與數(shù)據(jù)結(jié)構(gòu)的映射關(guān)系,從而使數(shù)據(jù)進(jìn)入檔案信息資源共享平臺(tái)設(shè)定的數(shù)據(jù)庫(kù)。
1.2平臺(tái)數(shù)據(jù)采集系統(tǒng)框架構(gòu)建
相較于傳統(tǒng)的紙質(zhì)檔案信息采集,現(xiàn)代互聯(lián)網(wǎng)方式采集檔案信息數(shù)據(jù)資源響應(yīng)速度更快,節(jié)省了大量的人工時(shí)間[7]。數(shù)據(jù)采集系統(tǒng)在整個(gè)數(shù)據(jù)共享系統(tǒng)中扮演著重要的角色,數(shù)據(jù)采集系統(tǒng)技術(shù)架構(gòu)可從物理層、邏輯處理層和網(wǎng)絡(luò)層三個(gè)層次著手[8]。功能模塊的構(gòu)建應(yīng)從檔案信息的采集、審核、管理、共享和安全控制等多個(gè)方面去考慮,其中檔案信息采集模塊為最前端的,其任務(wù)是負(fù)責(zé)主動(dòng)采集系統(tǒng)外部信息。采集方法有兩種,一種是自動(dòng)采集,一種是手工采集。這兩種方法都是將在局域網(wǎng)、內(nèi)網(wǎng)和互聯(lián)網(wǎng)上索得的檔案信息資源,納入共享平臺(tái)的數(shù)據(jù)庫(kù)中[9]。由于檔案信息資源數(shù)據(jù)源具有多樣性,數(shù)據(jù)采集的形式也變得更加復(fù)雜多樣。在檔案信息資源共享平臺(tái)大數(shù)據(jù)的采集過(guò)程中,其主要特點(diǎn)是并發(fā)量高,即多個(gè)用戶同時(shí)訪問(wèn)和操作服務(wù)器[10],如在高考時(shí)學(xué)生高考成績(jī)集中入庫(kù),其并發(fā)的訪問(wèn)量在峰值時(shí)達(dá)上百萬(wàn)。這就要檢查平臺(tái)訪問(wèn)人數(shù)是否超過(guò)平臺(tái)設(shè)計(jì)的極限值。若超過(guò)設(shè)定的極限值,那唯一方案就是升級(jí)平臺(tái)的空間,以適應(yīng)更多人的來(lái)訪;若沒(méi)有超過(guò)平臺(tái)設(shè)定的極限值,就需要檢查平臺(tái)是否有占用CPU較高的可執(zhí)行文本網(wǎng)頁(yè)(一般指ASP、JAVASCRIPT、PHP、CGI等網(wǎng)頁(yè)),優(yōu)化程序結(jié)構(gòu)和執(zhí)行語(yǔ)句。因此,檔案信息資源共享平臺(tái)在設(shè)計(jì)數(shù)據(jù)采集架構(gòu)時(shí)既要考慮數(shù)據(jù)采集的準(zhǔn)確性,又要考慮數(shù)據(jù)采集的實(shí)時(shí)性與性能。對(duì)于檔案形式為圖片或者視頻的數(shù)據(jù),需在數(shù)據(jù)提取階段加載數(shù)據(jù)后根據(jù)某種識(shí)別算法,識(shí)別并提取多媒體中的特征信息,并將其轉(zhuǎn)換為業(yè)務(wù)場(chǎng)景需要的數(shù)據(jù)模型。采集流程整體框架如圖1所示。
1.3平臺(tái)數(shù)據(jù)采集系統(tǒng)的技術(shù)選型
檔案信息數(shù)據(jù)采集系統(tǒng)是大數(shù)據(jù)檔案研究的必要部分。由各種診斷系統(tǒng)、輔助系統(tǒng)和其他設(shè)備生成的信號(hào)通過(guò)各種數(shù)據(jù)數(shù)字化儀收集,最后以某種格式存儲(chǔ)在磁盤上,以進(jìn)行永久存儲(chǔ)[11]。檔案信息資源數(shù)據(jù)采集是平臺(tái)進(jìn)行大數(shù)據(jù)應(yīng)用的基石,數(shù)據(jù)采集主要分為兩部分,一部分是通過(guò)爬蟲等系統(tǒng)采集數(shù)據(jù),一部分是現(xiàn)有的數(shù)字化數(shù)據(jù)[12]。對(duì)于其中的數(shù)字化的數(shù)據(jù),傳統(tǒng)的檔案信息資源數(shù)據(jù)采集一般采用人工方式輸入或者通過(guò)Excel等導(dǎo)入工具導(dǎo)入。從現(xiàn)有條件來(lái)看,檔案信息資源數(shù)據(jù)采集來(lái)源并不復(fù)雜,存儲(chǔ)、管理和分析的數(shù)據(jù)量也相對(duì)較小,采用關(guān)系型數(shù)據(jù)庫(kù)基本可滿足檔案信息資源平臺(tái)的數(shù)據(jù)處理需求。而進(jìn)入大數(shù)據(jù)時(shí)代,檔案信息資源數(shù)據(jù)來(lái)源比較廣泛,從移動(dòng)互聯(lián)網(wǎng)平臺(tái)到其它需要介入共享平臺(tái)的不同類型檔案信息資源服務(wù)平臺(tái),數(shù)據(jù)類型也擴(kuò)展到多媒體相關(guān)的數(shù)據(jù)類型,數(shù)據(jù)采集方式亟待轉(zhuǎn)變。基于此,下面對(duì)系統(tǒng)接口、開放數(shù)據(jù)庫(kù)、第三方平臺(tái)三種采集方式進(jìn)行分析。
(1)系統(tǒng)接口數(shù)據(jù)采集
檔案信息資源共享平臺(tái)系統(tǒng)接口數(shù)據(jù)采集方式是指采用開發(fā)API的方式進(jìn)行檔案信息資源數(shù)據(jù)調(diào)用,有兩種模式。一種是共享平臺(tái)提供API并提供授權(quán),這需接入共享平臺(tái)的檔案信息資源服務(wù)平臺(tái)并通過(guò)調(diào)用授權(quán)的API進(jìn)行數(shù)據(jù)寫入;另一種是現(xiàn)有檔案信息資源服務(wù)平臺(tái)提供API,共享平臺(tái)通過(guò)主動(dòng)調(diào)用API拉取檔案信息資源數(shù)據(jù)。接口對(duì)接方式的數(shù)據(jù)可靠性與實(shí)時(shí)性較高,數(shù)據(jù)采集的質(zhì)量也較高,然而缺點(diǎn)在于前期的分析與后期的開發(fā)維護(hù)成本較高,若平臺(tái)的功能發(fā)生變化,就需要做相應(yīng)修改和變動(dòng),這會(huì)間接導(dǎo)致交付周期變長(zhǎng)。
(2)開放數(shù)據(jù)庫(kù)數(shù)據(jù)采集
如果檔案信息資源平臺(tái)采用的是相同類型的數(shù)據(jù)庫(kù),如SQL Server,開放數(shù)據(jù)庫(kù)就是檔案信息資源共享平臺(tái)數(shù)據(jù)采集最便捷的工具;如果需要共享的平臺(tái)在相同的服務(wù)器上,且只要用戶名設(shè)置得沒(méi)問(wèn)題,就可相互訪問(wèn);如果兩個(gè)系統(tǒng)的數(shù)據(jù)庫(kù)不在一個(gè)服務(wù)器上,就建議采用鏈接服務(wù)器的形式處理,這就需要對(duì)數(shù)據(jù)庫(kù)的訪問(wèn)進(jìn)行外圍服務(wù)器的配置。開放數(shù)據(jù)庫(kù)方式可直接從目標(biāo)數(shù)據(jù)庫(kù)中獲取所需數(shù)據(jù),準(zhǔn)確性高,實(shí)時(shí)性也能得到保證,這是最直接、便捷的方式。
(3)第三方平臺(tái)數(shù)據(jù)采集
隨著檔案信息資源共享平臺(tái)的數(shù)據(jù)量愈發(fā)龐大,可借助第三方平臺(tái)進(jìn)行檔案信息資源數(shù)據(jù)采集,常見的第三方平臺(tái)有Apache Flume、Scribe等。Apache Flume是一個(gè)分布式、可靠、可用的服務(wù)工具,用于高效收集、聚合和移動(dòng)大量的日志數(shù)據(jù),它具有基于流式數(shù)據(jù)流簡(jiǎn)單靈活的架構(gòu)[13],其可靠性機(jī)制和許多故障轉(zhuǎn)移和恢復(fù)機(jī)制使Flume具有強(qiáng)大的容錯(cuò)能力。另外,Scribe也是Facebook開源的日志采集系統(tǒng)。
(4)數(shù)據(jù)提取自然語(yǔ)言處理(NLP)模型
在檔案信息資源大數(shù)據(jù)采集技術(shù)中,有一個(gè)非常重要的環(huán)節(jié)就是數(shù)據(jù)轉(zhuǎn)換。它將處理后的檔案信息資源數(shù)據(jù)轉(zhuǎn)換成不同的數(shù)據(jù)形式,并由不同的數(shù)據(jù)分析系統(tǒng)進(jìn)行處理和分析。由于數(shù)據(jù)來(lái)源的多樣性,不同類型的數(shù)據(jù)在不同的平臺(tái)中所表達(dá)的含義不一定是完全一致的。為順利使源頭數(shù)據(jù)進(jìn)入指定目標(biāo)庫(kù),就需要借助自然語(yǔ)言學(xué)習(xí)系統(tǒng)進(jìn)行語(yǔ)義分析。自然語(yǔ)言處理能支持文本實(shí)體抽取、文本分類、關(guān)鍵短語(yǔ)抽取、情感分析、關(guān)系抽取等算法能力,用戶無(wú)需擁有豐富的算法背景,僅需標(biāo)注或上傳適量文檔數(shù)據(jù),即可通過(guò)平臺(tái)快速創(chuàng)建算法模型并使用。
數(shù)據(jù)采集指將所歸檔的各類檔案信息數(shù)據(jù)傳輸?shù)綑n案信息資源共享平臺(tái)大數(shù)據(jù)系統(tǒng),這是第一步且最為關(guān)鍵,它是檔案信息資源共享平臺(tái)構(gòu)建的重要基礎(chǔ),直接決定了在一個(gè)給定時(shí)間段內(nèi)大數(shù)據(jù)系統(tǒng)處理數(shù)據(jù)流量的水平和能力。平臺(tái)數(shù)據(jù)采集流程實(shí)現(xiàn)主要包括如下步驟:檔案信息資源數(shù)據(jù)解析、檔案信息資源數(shù)據(jù)清洗與數(shù)據(jù)去重、檔案信息資源數(shù)據(jù)關(guān)系映射與數(shù)據(jù)轉(zhuǎn)換。
2.1數(shù)據(jù)解析
檔案信息資源數(shù)據(jù)的多樣性,使平臺(tái)在采集數(shù)據(jù)時(shí)的轉(zhuǎn)換過(guò)程變得極為復(fù)雜,從而增加了后續(xù)平臺(tái)數(shù)據(jù)處理的成本。平臺(tái)運(yùn)營(yíng)管理者若能提供所需檔案信息資源數(shù)據(jù)格式示例,將會(huì)極大提升平臺(tái)數(shù)據(jù)采集效率[14]。檔案信息資源數(shù)據(jù)解析是數(shù)據(jù)采集流程的第一步,在拿到待采集的檔案信息資源數(shù)據(jù)后就需要對(duì)其進(jìn)行解析,因?yàn)闄n案信息資源數(shù)據(jù)的來(lái)源一旦不同,其自身的格式就極有可能不一樣,如數(shù)據(jù)格式有HTML、XMLJSON和其他格式的文件。對(duì)于不同類型的文件需要相應(yīng)的解析器對(duì)其進(jìn)行處理,以提取真正的檔案信息數(shù)據(jù)。
2.2數(shù)據(jù)清洗與去重
由于平臺(tái)部署要求的特殊性,數(shù)據(jù)采集系統(tǒng)設(shè)計(jì)時(shí)需要靈活考慮端到端系統(tǒng)中傳感器數(shù)據(jù)存儲(chǔ)和信號(hào)處理的發(fā)生位置,應(yīng)允許任何位置的檔案信息原始數(shù)據(jù)處理發(fā)生,包括移動(dòng)設(shè)備、獨(dú)立的數(shù)據(jù)采集基礎(chǔ)設(shè)施[15]。檔案信息資源數(shù)據(jù)在被解析后,得到的數(shù)據(jù)是不能直接使用的,需對(duì)其進(jìn)行過(guò)濾,即去掉無(wú)關(guān)信息,盡量保持所有數(shù)據(jù)源抽取程序版本的一致,確保一次性處理數(shù)據(jù)的大批量性,而非零碎數(shù)據(jù)。在數(shù)據(jù)清洗之后,來(lái)自不同平臺(tái)的數(shù)據(jù)可能會(huì)有重復(fù)信息,因而后續(xù)就需要對(duì)得到的批量檔案信息進(jìn)行去重處理。
數(shù)據(jù)清洗與去重部分可以采用五個(gè)步驟完成,主要包括預(yù)處理、缺失值清洗、格式內(nèi)容清洗、去重清洗、非需求數(shù)據(jù)清洗。其中預(yù)處理階段主要將數(shù)據(jù)導(dǎo)入處理工具,并采用人工抽查;缺失值清洗階段需要確定缺失值范圍,將不需要的字段去除,并將缺失內(nèi)容補(bǔ)充完整;格式內(nèi)容清洗階段會(huì)遇到數(shù)據(jù)的格式和內(nèi)容方面多樣化的問(wèn)題,格式內(nèi)容問(wèn)題是比較細(xì)節(jié)性的問(wèn)題,這就需要將其處理成與元數(shù)據(jù)描述一致的狀態(tài);去重清洗階段需將重復(fù)數(shù)據(jù)剔除,以免檔案信息資源數(shù)據(jù)重復(fù)進(jìn)入共享平臺(tái);非需求數(shù)據(jù)清洗階段即刪除不需要的字段,但在實(shí)際運(yùn)用中需特別小心,防止誤刪須進(jìn)入共享平臺(tái)的字段。
2.3數(shù)據(jù)關(guān)系映射與轉(zhuǎn)換
為提高檔案信息的檢索性能,在數(shù)據(jù)存儲(chǔ)的設(shè)計(jì)結(jié)構(gòu)中,須將采集到的檔案信息數(shù)據(jù)集存儲(chǔ)為緊湊型數(shù)據(jù)集合,以便將檔案信息數(shù)據(jù)與元數(shù)據(jù)標(biāo)題一起存儲(chǔ)[16]。待數(shù)據(jù)進(jìn)入目標(biāo)檔案信息資源共享平臺(tái)之后,就需要對(duì)進(jìn)入共享平臺(tái)的數(shù)據(jù)進(jìn)行關(guān)系映射。每條檔案信息數(shù)據(jù)在進(jìn)入目標(biāo)表與目標(biāo)字段互為映射前是不確定的,可通過(guò)百度的自然語(yǔ)言分析平臺(tái)以源檔案信息資源數(shù)據(jù)的標(biāo)簽信息與目標(biāo)檔案信息資源共享平臺(tái)的數(shù)據(jù)結(jié)構(gòu)進(jìn)行比較分析。自然語(yǔ)言分析系統(tǒng)可根據(jù)異構(gòu)平臺(tái)的信息分析出語(yǔ)義間的相似度,這樣就可以自動(dòng)將采集到的檔案信息資源數(shù)據(jù)匯集并使其準(zhǔn)確進(jìn)入目標(biāo)平臺(tái)的數(shù)據(jù)庫(kù)。且在大數(shù)據(jù)采集過(guò)程中,將日常使用的映射關(guān)系寫入知識(shí)庫(kù)中,以便之后的數(shù)據(jù)采集可利用現(xiàn)有知識(shí)庫(kù)。在檔案信息資源數(shù)據(jù)備好后,為能準(zhǔn)確進(jìn)入共享平臺(tái)數(shù)據(jù)庫(kù),須對(duì)采集數(shù)據(jù)進(jìn)行轉(zhuǎn)換,這里的數(shù)據(jù)轉(zhuǎn)換主要是針對(duì)數(shù)據(jù)格式的轉(zhuǎn)換。數(shù)據(jù)關(guān)系映射與轉(zhuǎn)換流程如圖2所示。
與傳統(tǒng)數(shù)據(jù)數(shù)據(jù)采集模型不同,基于自然語(yǔ)言處理模型的檔案信息資源共享平臺(tái)可更準(zhǔn)確且更智能地提取檔案信息數(shù)據(jù)。作為檔案信息資源共享平臺(tái)基礎(chǔ)模塊,智能化的數(shù)據(jù)采集處理可對(duì)采集到的目標(biāo)數(shù)據(jù)信息進(jìn)行深入挖掘,找出數(shù)據(jù)信息的潛在價(jià)值,將具有潛在價(jià)值的數(shù)據(jù)與其他數(shù)據(jù)分隔開,便于平臺(tái)管理人員對(duì)其進(jìn)行操作。
3.1檔案信息數(shù)據(jù)采集容錯(cuò)處理能力提高
檔案信息數(shù)據(jù)源與目標(biāo)檔案信息數(shù)據(jù)在采集時(shí)不可避免地會(huì)產(chǎn)生誤差。在數(shù)據(jù)采集過(guò)程中,由于利用了自然語(yǔ)言處理技術(shù)的學(xué)習(xí)能力,相較傳統(tǒng)的人工采集與非智能化采集流程,新數(shù)據(jù)模型采集到的信息容錯(cuò)率更低,能有效提高數(shù)據(jù)信息采集過(guò)程中的采集精度。同時(shí),系統(tǒng)中還應(yīng)用了容錯(cuò)技術(shù),可甄別出采集到的錯(cuò)誤信息,利用歷史學(xué)習(xí)經(jīng)驗(yàn)數(shù)據(jù),對(duì)采集到的檔案信息數(shù)據(jù)進(jìn)行后繼正確處理,從而提升數(shù)據(jù)信息的處理效果[17]。
3.2采集檔案信息數(shù)據(jù)的效率更高
檔案信息數(shù)據(jù)的采集效率高低主要看兩方面,即采集的檔案信息數(shù)據(jù)是否更加全面以及數(shù)據(jù)維度是否能滿足不同的分析目標(biāo)。通過(guò)對(duì)自然語(yǔ)言處理技術(shù)的應(yīng)用,可自動(dòng)生成更加全面的檔案信息應(yīng)用數(shù)據(jù),包括用戶行為相關(guān)參數(shù),這些具有分析價(jià)值的數(shù)據(jù)可以支撐平臺(tái)的大數(shù)據(jù)應(yīng)用。優(yōu)化后的數(shù)據(jù)采集系統(tǒng)采集數(shù)據(jù)的流程更加流暢。原始檔案信息資源數(shù)據(jù)通過(guò)采集系統(tǒng)加以處理,將形成對(duì)用戶更具價(jià)值的檔案信息資源報(bào)告及可視化程度更高的圖表信息。具體數(shù)據(jù)采集優(yōu)化控制如圖3所示。
檔案信息資源共享平臺(tái)的建設(shè),在服務(wù)器、Web客戶端、移動(dòng)客戶端等不同平臺(tái)之間進(jìn)行數(shù)據(jù)處理。通過(guò)對(duì)數(shù)據(jù)網(wǎng)絡(luò)傳輸層面、數(shù)據(jù)庫(kù)層面和平臺(tái)服務(wù)架構(gòu)層面等進(jìn)行優(yōu)化處理,最大限度地減少了檔案信息數(shù)據(jù)傳輸過(guò)程中的數(shù)據(jù)量,解決了多用戶及并發(fā)用戶使用平臺(tái)時(shí)調(diào)用服務(wù)的問(wèn)題[18]。在此基礎(chǔ)上,采用適合檔案信息資源共享平臺(tái)的數(shù)據(jù)采集架構(gòu),在具體的數(shù)據(jù)采集過(guò)程中引入百度的自然語(yǔ)言分析系統(tǒng),有效地提升了檔案信息數(shù)據(jù)采集的準(zhǔn)確性。通過(guò)對(duì)檔案專業(yè)數(shù)據(jù)的不斷優(yōu)化,形成檔案信息資源數(shù)據(jù)知識(shí)庫(kù),為檔案信息資源共享平臺(tái)的數(shù)據(jù)采集積累寶貴的知識(shí)財(cái)富,從而促進(jìn)檔案信息資源共享平臺(tái)的良性運(yùn)行與發(fā)展。
*本文系2017年國(guó)家社科基金年度項(xiàng)目《大數(shù)據(jù)時(shí)代智慧檔案信息服務(wù)平臺(tái)構(gòu)建與創(chuàng)新研究》(項(xiàng)目編號(hào):17BTQ074)、2016年度教育部人文社會(huì)科學(xué)研究規(guī)劃基金項(xiàng)目“大數(shù)據(jù)時(shí)代檔案信息資源共享平臺(tái)構(gòu)建的研究”(項(xiàng)目編號(hào):16YJA870001)階段性研究成果。
[1]徐擁軍,張臻,任瓊輝.國(guó)家大數(shù)據(jù)戰(zhàn)略背景下檔案部門與數(shù)據(jù)管理部門的職能關(guān)系[J].圖書情報(bào)工作,2019(18):5-13.
[2]卞咸杰.大數(shù)據(jù)時(shí)代檔案信息資源共享平臺(tái)數(shù)據(jù)交互服務(wù)的研究[J].浙江檔案,2018(11):15-17.
[3]于英香.從數(shù)據(jù)與信息關(guān)系演化看檔案數(shù)據(jù)概念的發(fā)展[J].情報(bào)雜志,2018(11):150-155.
[4]IfigeniaVardakosta,KapidakisSarantos.Geospatialdatacollectionpolicies,technologyandopensourceinwebsitesofacademiclibr ariesworldwide[J].TheJournalofAcademicLibrarianship,2016(4): 319-328.
[5]韓名豪.基于Hadoop的新聞事件數(shù)據(jù)查詢與分析[D].北京:北京郵電大學(xué),2018.
[6]南淑萍,張博,李力.基于決策樹的數(shù)據(jù)挖掘技術(shù)在醫(yī)療設(shè)備成本績(jī)效分析中的應(yīng)用研究[J].長(zhǎng)沙大學(xué)學(xué)報(bào),2014(5):64-66.
[7]AdeyinkaTella.Electronicandpaperbaseddatacollectionmet hodsinlibraryandinformationscienceresearch[J].NewLibraryWorld, 2015:588-609.
[8]程秀峰,肖兵,夏立新.知識(shí)融合視角下用戶行為數(shù)據(jù)采集與共享機(jī)制研究[J].情報(bào)科學(xué), 2020(1):30-35.
[9]王爍.大數(shù)據(jù)時(shí)代檔案信息資源共享平臺(tái)建設(shè)研究[J].圖書情報(bào)導(dǎo)刊,2016(12):117-121.
[10]鄭志新.大數(shù)據(jù)時(shí)代電子商務(wù)產(chǎn)業(yè)數(shù)據(jù)管理與共享機(jī)制[J].信息技術(shù)與信息化,2016(6):98-103.
[11]WeiZheng,YuxingWang,MingZhang,F(xiàn)eiyangWu,ZhouYang.Afullstackdataacquisition,archiveandaccesssolutionforJ-TEXT basedonwebtechnologies[J].FusionEngineeringandDesign,2020,1 55:111450.
[12][17]楊迪,陳雪萍,馮宇等.基于企業(yè)海量電子文件的數(shù)據(jù)采集模型[J].電子技術(shù)與軟件工程,2018(12):175.
[13]卞咸杰.檔案信息資源共享平臺(tái)數(shù)據(jù)處理流程研究[J].檔案管理,2018(6):33-35.
[14]JoannaClifton-Sprigg,JonathanJames,Sun?icaVuji?.Freed omofInformation(FOI)asadatacollectiontoolforsocialscientists[J]. PloSone,2020(2):e0228392.
[15]AndreasKipf,WaylonBrunette,JordanKellerstrass,Matthe wPodolsky,JavierRosa,MitchellSundt,DanielWilson,GaetanoBorrie llo,EricBrewer,EvanThomas.Aproposedintegrateddatacollection,an alysisandsharingplatformforimpactevaluation[J].DevelopmentEng ineering,2016:36-44.
[16]BrendaFarrell,JasonBengtson.Scientistanddataarchitectco llaboratetocurateandarchiveaninnerearelectrophysiologydatacollect ion[J].PloSone,2019(10):e0223984.
[18]卞咸杰.大數(shù)據(jù)時(shí)代檔案信息資源共享平臺(tái)性能優(yōu)化的研究[J].檔案管理,2016(6):17-20.