楊迪 陳雪萍 馮宇 李沛斐 陳風熙
摘要 文章在參考前人研究結果的基礎上,結合閉著多年的工作經(jīng)驗,提出了企業(yè)海量電子文件數(shù)據(jù)采集模型,并詳細介紹了該系統(tǒng)的數(shù)據(jù)采集來源、數(shù)據(jù)預處理流程、數(shù)據(jù)清洗方法以及數(shù)據(jù)轉(zhuǎn)化功能等模塊,力求為企業(yè)海量電子文件數(shù)據(jù)的采集和管理提供可靠的參考依據(jù)。
【關鍵詞】電子文件 數(shù)據(jù)采集 數(shù)據(jù)預處理數(shù)據(jù)清洗
在互聯(lián)網(wǎng)技術日益完善、多媒體功能逐漸強大以及先進辦公軟件不斷普及等因素的共同作用下,電子文件已被廣泛運用于企業(yè)中,且因其與紙質(zhì)文件相比,具有可塑性高、便捷性強以及傳遞速度快等優(yōu)點,有效的增強了文件在企業(yè)生存與發(fā)展中的價值,為企業(yè)及時獲取文件信息、全面運用信息資源等都創(chuàng)造了良好的環(huán)境。但是,隨著電子文件種類和涉及范圍不斷增多,企業(yè)傳統(tǒng)文件管理制度、管理方法以及管理軟件中存在的問題也在不斷顯現(xiàn)出來,嚴重制約著電子文件真實性、完整性以及及時性的提升,大大降低了電子文件的價值和使用價值。換而言之,要想增強電子文件的使用質(zhì)量和利用效率,我們就必須要建立符合海量電子文件數(shù)據(jù)采集模型,因此,對本文進行深入的分析與研究具有十分重要的意義。
1 電子文件數(shù)據(jù)采集來源
文章對電子文件數(shù)據(jù)采集主要分為兩部分,一部分是通過爬蟲等系統(tǒng)采集的數(shù)據(jù),另一部分是企業(yè)現(xiàn)有的電子文件資料數(shù)據(jù)。這兩部分數(shù)據(jù)在被收集以后,并不能直接作為企業(yè)海量電子文件的數(shù)據(jù)源,需要通過數(shù)據(jù)預處理平臺進行數(shù)據(jù)的清洗,轉(zhuǎn)換和過濾,最終將完整的有價值的數(shù)據(jù)保存到企業(yè)電子文件數(shù)據(jù)路中。
1.1 數(shù)據(jù)采集器
數(shù)據(jù)采集器主要包含了調(diào)度器、采集器以及預處理三個部分:
1.1.1 調(diào)度器
調(diào)度采集和預處理器進行數(shù)據(jù)采集和預處理。調(diào)度方法可以采用定時、事件觸發(fā)方式。
1.1.2 采集器
(l)爬蟲系統(tǒng):自動抓取網(wǎng)頁及鏈接的網(wǎng)頁內(nèi)容,適用于內(nèi)外網(wǎng)網(wǎng)站W(wǎng)eb內(nèi)容的采集。
(2) ETL程序:采用存儲過程、腳本或外部程序來讀取被采集系統(tǒng)的新數(shù)據(jù)。
(3)上傳接收:個人整理或原創(chuàng)的文檔,通過上傳方式采集。
1.1.3 預處理器
完成對采集到數(shù)據(jù)的加工處理,轉(zhuǎn)換產(chǎn)生文庫需要的數(shù)據(jù)格式。
(l)過濾器:將不符合條件的數(shù)據(jù)過濾掉,保證進入文庫數(shù)據(jù)的質(zhì)量和價值。
(2)清洗:處理臟數(shù)據(jù)。
(3)轉(zhuǎn)換:數(shù)據(jù)編碼映射轉(zhuǎn)化;調(diào)用搜索和大數(shù)據(jù)引擎進行全文索引處理。
1.2 數(shù)據(jù)采集來源
企業(yè)電子文件數(shù)據(jù)主要來自以下三個渠道:
(1)系統(tǒng)來源:主要是針對電子文件系統(tǒng)與檔案管理系統(tǒng)中面向全網(wǎng)開放的電子文件。結構化數(shù)據(jù),通過ETL工具采集數(shù)據(jù),非結構化數(shù)據(jù)通過文本信息分析技術進行采集;
(2)個人來源:針對個人上傳的電子文件分為普通文件與私有文件,普通文件任何人可以檢索和閱讀,私有文件僅自己可見,針對私有的電子文件可以設置共享或是授權共享的功能;
(3)外部來源:主要是引入外部的資源如:知網(wǎng)、萬方等外部資源,所有引入的資源面向所有用戶公開;個人來源和外部來源將會完善和豐富文庫的數(shù)據(jù)內(nèi)容,增強其專業(yè)性,滿足員工對專業(yè)化文檔資料的需求。
2 電子文件數(shù)據(jù)預處理平臺
2.1 數(shù)據(jù)的預處理
隨著電子信息化的發(fā)展,企業(yè)現(xiàn)存的電子文件數(shù)量越來越龐大,數(shù)據(jù)的種類繁多,不同系統(tǒng)中存儲的電子文件內(nèi)容和格式都不盡相同,為了保證在企業(yè)數(shù)據(jù)庫中電子文件資料從數(shù)量和質(zhì)量達到最優(yōu)的效果,所以需要將采集到的電子文件資料進行預處理,從而提高系統(tǒng)的性能和用戶的滿意度。預處理流程為:數(shù)據(jù)預處理是企業(yè)電子文件的數(shù)據(jù)準備工作,一方面保證企業(yè)電子文件數(shù)據(jù)的正確性和有效性,另一方面通過對數(shù)據(jù)格式和內(nèi)容的調(diào)整,使數(shù)據(jù)更符合電子文件數(shù)據(jù)庫的需要。系統(tǒng)收集到元數(shù)據(jù)后,需要經(jīng)過預處理平臺對數(shù)據(jù)進行處理,用全新的“數(shù)據(jù)模型”來組織原來的電子文件數(shù)據(jù),摒棄一些重復的、無效的垃圾數(shù)據(jù)。為企業(yè)電子文件數(shù)據(jù)庫提取干凈、準確、更有針對性的數(shù)據(jù)創(chuàng)造良好的環(huán)境,從而減少系統(tǒng)的數(shù)據(jù)處理量,提高使用效率,提高發(fā)現(xiàn)資料數(shù)據(jù)的準確度。
2.2 數(shù)據(jù)清洗
數(shù)據(jù)清洗是清除錯誤和不一致數(shù)據(jù)的過程,主要任務是過濾或者修改那些不符合要求的數(shù)據(jù)。將“臟數(shù)據(jù)”轉(zhuǎn)化為滿足數(shù)據(jù)質(zhì)量或應用要求的數(shù)據(jù),從而提高數(shù)據(jù)集的數(shù)據(jù)質(zhì)量。數(shù)據(jù)清洗需要解決的數(shù)據(jù)質(zhì)量問題主要有空值問題,錯誤值問題和不一致的數(shù)據(jù)等。缺失值的清洗方法主要包括下面幾種:
(1)忽略其屬性包括缺失值的記錄。
(2)某些缺失值可以從本數(shù)據(jù)源或其他數(shù)據(jù)源推導出來。由于原始外部數(shù)據(jù)不同,錄入習慣不同,不同系統(tǒng)對記錄屬性的要求不同,導致同一實體對應的各個記錄缺失程度不同,通過清洗可以得到一條相對完整的記錄。
(3)可用平均值、中間值、最大值、最小值或更為復雜的概率統(tǒng)計函數(shù)值代替缺失的值。
(4)人工輸入一個可接受的值。對于大規(guī)模的數(shù)據(jù)量一般不采用該方法。錯誤值的檢測及清洗方法包括以下幾種:1利用統(tǒng)計分析或人工智能的方法檢測屬性可能的錯誤值或異常值。2使用簡單規(guī)則庫(常識性規(guī)則和業(yè)務特定規(guī)則等)檢測和修正錯誤。3使用不同屬性間的約束檢測和修正錯誤。第四,使用外部數(shù)據(jù)源檢測和修正錯誤。
2.3 數(shù)據(jù)轉(zhuǎn)換
從數(shù)據(jù)源中抽取的數(shù)據(jù)不一定完全滿足存儲的要求,例如數(shù)據(jù)格式的不一致、數(shù)據(jù)輸入錯誤、數(shù)據(jù)不完整等等,還要對采集到的數(shù)據(jù)進行數(shù)據(jù)轉(zhuǎn)換和加工,保證數(shù)據(jù)按共同理懈的業(yè)務需求轉(zhuǎn)換為目標數(shù)據(jù)結構。不一致數(shù)據(jù)轉(zhuǎn)換,這個過程是一個整合的過程,將不同業(yè)務系統(tǒng)的相同類型的數(shù)據(jù)統(tǒng)一,比如同一個分類數(shù)據(jù)增加分類編碼,這樣在抽取過來之后統(tǒng)一轉(zhuǎn)換成一個編碼。在數(shù)據(jù)結構中數(shù)據(jù)之間的關系通過轉(zhuǎn)換成線性關系存儲。線性表是一個比較靈活的數(shù)據(jù)結構,它的長度根據(jù)需要增長或縮短,也可以對線性表的數(shù)據(jù)元素進行不同的操作(如訪問數(shù)據(jù)元素、插入、刪除數(shù)據(jù)元素等)。
3 結束語
隨著企業(yè)電子文件的使用頻率和使用范圍不斷擴大,傳統(tǒng)電子文件數(shù)據(jù)采集系統(tǒng)中存在的弊端也在不斷凸顯,很難滿足企業(yè)對電子文件的管理需求。文章所提及的數(shù)據(jù)采集模型在提升電子文件管理質(zhì)量和管理效率等方面都有著極為顯著的作用,值得我們在今后的工作中不斷推廣和使用。
參考文獻
[1]楊強,胡心宇.基于HBase的海量電子文件元數(shù)據(jù)管理的研究與實踐[J],貴州電力技術,2017,20 (10):69-73.
[2]張琳.基于海量數(shù)據(jù)的市場投放策略研究[D].浙江理工大學,2018.
[3]鄧芳.大型物聯(lián)網(wǎng)電子設備的海量數(shù)據(jù)高效挖掘方法研究[J].現(xiàn)代電子技術,2016, 39 (04): 159-162.