摘 要:由于目前大部分電力企業(yè)的檔案管理模塊已不能滿足日常工作需求,檔案信息數(shù)量不斷增多并趨于復雜。為提高數(shù)字化檔案管理的質(zhì)量與效率,本文提出基于數(shù)據(jù)挖掘的電力企業(yè)數(shù)字化檔案管理系統(tǒng)(以下簡稱本文系統(tǒng)),構(gòu)建整體系統(tǒng)架構(gòu)與數(shù)字化管理功能架構(gòu)。通過電力檔案數(shù)字化采集、數(shù)據(jù)挖掘處理檔案數(shù)據(jù)、建立檔案管理模塊,實現(xiàn)系統(tǒng)功能運行。經(jīng)實驗論證分析,本文系統(tǒng)功能測試結(jié)果良好,經(jīng)全面測試和bug修復,可滿足預期設計目標。在系統(tǒng)性能測試中,系統(tǒng)響應延遲時間平均在2秒以內(nèi),吞吐量滿足用戶需求,CPU頻譜正常,說明本文系統(tǒng)具有可靠性。
關鍵詞:數(shù)據(jù)挖掘;電力企業(yè);數(shù)字化檔案管理;信息采集;功能模塊;系統(tǒng)設計
電力企業(yè)的檔案信息資源是電力企業(yè)發(fā)展中極其重要的資源,是電力企業(yè)發(fā)展的歷史沉淀,為電力企業(yè)乃至整個電力行業(yè)的發(fā)展提供了重要的借鑒意義。就電力企業(yè)而言,其項目覆蓋范圍較大,檔案管理工作量巨大且繁雜,為檔案管理人員帶來巨大壓力。檔案工作的最終目的是通過檔案資源的開發(fā)與利用,實現(xiàn)電力檔案信息資源的最大共享。
因此,挖掘更多的檔案信息資源,加強檔案服務功能,減輕檔案人員重復繁雜的體力勞動,提高檔案利用效率,提供優(yōu)質(zhì)的檔案利用服務是現(xiàn)代化新時期電力企業(yè)管理檔案的必然選擇。
隨著科學技術(shù)的不斷發(fā)展,數(shù)字化應用給檔案信息化工作帶來深遠影響的同時,仍存在諸多問題有待解決,因此,建立數(shù)字化檔案管理系統(tǒng)是十分必要的。本文基于數(shù)字挖掘技術(shù)及相關算法,設計電力企業(yè)數(shù)字化管理系統(tǒng),為企業(yè)的檔案管理發(fā)展提供了重要的參考依據(jù),具有深遠意義。
一、基于數(shù)據(jù)挖掘的電力企業(yè)數(shù)字化檔案管理系統(tǒng)架構(gòu)設計
本文提出的電力企業(yè)數(shù)字化檔案管理系統(tǒng)整體架構(gòu)分為五層。在整體構(gòu)架的應用層中,具有檔案管理員及普通用戶兩種角色,檔案管理人員對檔案進行鑒定與歸檔分類,將數(shù)據(jù)錄入便于二次利用,并統(tǒng)計系統(tǒng)檔案相關數(shù)據(jù)及數(shù)量。
根據(jù)電力企業(yè)數(shù)字化檔案管理的需求,本文系統(tǒng)管理功能包括檔案管理與服務、資料與系統(tǒng)管理,其中檔案服務功能主要應用于檔案查詢及相關的日常管理工作。檔案信息的采集主要實現(xiàn)對企業(yè)信息進行收集整理和錄入,根據(jù)檔案的不同類型進行分類整理,具體系統(tǒng)架構(gòu)如圖1所示。
由圖1可知,本文系統(tǒng)根據(jù)需求分析,構(gòu)建出硬件層、存儲層、服務層、業(yè)務層以及應用層。存儲層檔案類型包括文本、圖像及音視頻文件,服務層為檔案管理人員提供授權(quán)服務、檔案催還與統(tǒng)計服務,以及普通用戶的檔案查詢等。本文數(shù)字化檔案管理功能架構(gòu)如圖2所示。
由圖2可知,本文系統(tǒng)將檔案管理功能進一步細化,在檔案保管功能中,將存放位置索引與檔案庫房溫度登記等功能均涉及在內(nèi)。整個數(shù)字化檔案管理系統(tǒng)中的模塊設計具有延展性,滿足信息管理的伸縮性要求,并通過依賴注入模塊實現(xiàn)攔截處理,保障系統(tǒng)的安全功能,利用安全模塊、加密模塊、日志模塊,實現(xiàn)系統(tǒng)管理的權(quán)值限制、數(shù)據(jù)加密以及日志保存的功能需求。
二、基于數(shù)據(jù)挖掘的電力企業(yè)數(shù)字化檔案管理系統(tǒng)軟件設計
1.電力企業(yè)檔案數(shù)字化采集
電力企業(yè)檔案在進行數(shù)字化采集過程中,檔案數(shù)字化質(zhì)量是核心內(nèi)容。由于不同檔案的介質(zhì)和幅面具有一定差異,因此,在對紙質(zhì)檔案進行數(shù)字化掃描和處理的過程中,應根據(jù)不同紙質(zhì)頁面的實際情況,轉(zhuǎn)換不同的圖像存儲方式。為保證檔案在掃描后的清晰度,需對圖像的分辨率進行適度調(diào)整。
同時,壓縮圖像數(shù)據(jù)會嚴重影響圖像畫質(zhì),為避免出現(xiàn)圖像失真的現(xiàn)象,所有圖像不進行壓縮處理。在進行圖像校對以及處理等環(huán)節(jié)上細化處理指標,在圖像掃描結(jié)束后,對圖像完整性和清晰度進行審核與檢驗,同時檢查圖像是否存在傾斜和失真情況,嚴格控制圖像質(zhì)量,不符合要求的數(shù)據(jù)圖像需進行二次處理。在圖像掃描及處理完成后,應保證圖像頁碼是連續(xù)的,且頁碼與文件的順序與原始檔案保持一致,防止出現(xiàn)錯頁漏頁的情況。
此外,統(tǒng)一圖像格式,其黑白圖像的格式為tiff,其分辨率為200dpi,彩色圖像格式為jpg,分辨率為300dpi。待所有檔案掃描完成后,將電子數(shù)據(jù)與錄入條目進行對應,將經(jīng)過檢驗的正確數(shù)據(jù)導入管理系統(tǒng)。
2.基于數(shù)據(jù)挖掘處理檔案數(shù)據(jù)
在檔案數(shù)據(jù)中,大部分數(shù)據(jù)挖掘是基于數(shù)據(jù)的一定結(jié)構(gòu)特性所實現(xiàn)的,在檔案管理的實際工作中,檔案著錄包括許多著錄項,將其中一部分元數(shù)據(jù)進行數(shù)據(jù)挖掘,其分析種類越多,所獲得的信息更具有可靠性,因此,需要建立元數(shù)據(jù)集。數(shù)據(jù)庫的建立是在穩(wěn)定的應用環(huán)境下,通過構(gòu)造數(shù)據(jù)庫模式進行構(gòu)建的。通過數(shù)據(jù)挖掘自動進行數(shù)據(jù)分類和著錄,對元數(shù)據(jù)及文本數(shù)據(jù)進行存儲,并建立用戶信息反饋機制,通過反饋系統(tǒng)將信息傳回進行數(shù)據(jù)挖掘,并根據(jù)檔案鑒定結(jié)果及數(shù)據(jù)挖掘情況及時更新數(shù)據(jù)庫中的數(shù)據(jù)。
基于數(shù)據(jù)挖掘設計檔案訓練過程,按照數(shù)據(jù)量2:1:1的比例從樣本中堆積抽取數(shù)據(jù),根據(jù)留控法選取訓練集,為保證數(shù)據(jù)分布的異質(zhì)性,進行多次重復的分層抽樣,取多次平均數(shù),使訓練集和測試集的比例保持在3:1左右。通過分類算法,選取權(quán)重最高的5個特征向量構(gòu)建二值矩陣。進行分類參數(shù)的計算,分類參數(shù)的計算主要通過似然函數(shù),其計算公式如下:
(1)
式中為條件概率,為已知的某個參數(shù),為事件發(fā)生的概率,其即為似然度,根據(jù)訓練所用的二值矩陣計算,得到似然度矩陣,具體如下式:
(2)
式中? 為檔案類別,其中為部門數(shù)量,為文件類別,為權(quán)重最高的特征數(shù)量。訓練過程設計完成后,既實現(xiàn)了對檔案電子數(shù)據(jù)的分類,根據(jù)數(shù)據(jù)提取更新以及關聯(lián)分析,確定相關數(shù)據(jù)分類,補全元數(shù)據(jù)。
3.建立電力企業(yè)檔案管理模塊
在本文檔案管理系統(tǒng)中,對電力企業(yè)檔案的管理主要包括用戶管理、歸檔類別管理等,基于電力數(shù)據(jù)建立檔案管理模塊,在用戶管理的功能設置上,主要進行用戶查詢、身份權(quán)限驗證和密碼修改,以及用戶的增加和刪除。在使用本文系統(tǒng)時,通過輸入用戶名及密碼登錄,后臺服務器程序接收前臺數(shù)據(jù)后,將進行用戶數(shù)據(jù)驗證,驗證成功即可登錄。檔案歸檔類目通過編輯全宗類別,實現(xiàn)對檔案的總體管理,包括全宗類型名稱、級別年度以及目錄選擇。通過歸檔類目管理功能對所有信息數(shù)據(jù)進行分類整理,便于系統(tǒng)管理人員以及用戶瀏覽與查找所需文件。根據(jù)電力企業(yè)信息管理需要,其類別往往由大類包含子類,具有全宗類別和二級類別,用戶登錄后對所需類別進行操作,查詢數(shù)據(jù)庫判斷類別是否存在,進行更新操作,并根據(jù)數(shù)據(jù)庫查詢結(jié)果判斷更新操作是否成功。在用戶進行系統(tǒng)訪問時,會產(chǎn)生用戶對話請求,通過后臺服務器設置用戶名片來控制對話,從而避免對數(shù)據(jù)庫的頻繁讀取操作。
三、實驗論證分析
為驗證本文電力企業(yè)的數(shù)字化檔案管理系統(tǒng)的有效性,需要進行系統(tǒng)測試。搭建測試環(huán)境,具體軟件測試環(huán)境如下表1所示。
由表1可知總體軟件測試環(huán)境,接下來將對系統(tǒng)進行測試,包括功能和性能兩個方面,以保證系統(tǒng)正常實現(xiàn)功能,驗證本文系統(tǒng)功能與性能的正確性和完整性。在本次功能測試中,共修改bug缺陷129個,修改功能缺陷85個,其他設計性問題3個,具體測試內(nèi)容及匯總情況如表2所示。
從系統(tǒng)功能測試結(jié)果可以看出,系統(tǒng)目前功能滿足數(shù)字化檔案管理需求,通過對系統(tǒng)功能的全面測試和bug修復,完善管理功能,其功能管理效果達到預期設計目標。系統(tǒng)性能測試主要從系統(tǒng)響應時間和吞吐量性能兩個方面進行檢驗,系統(tǒng)的相應延遲是系統(tǒng)性能測試的一個重要指標,因此需要對系統(tǒng)的響應延遲進行嚴格分析與測試,測試系統(tǒng)響應延遲時間是否在1~5秒范圍內(nèi)。設置測試數(shù)據(jù)800條,共進行6組測試,對上述功能測試中的4個項目進行測試,結(jié)果如下圖3所示。
由圖3可知,其檔案查詢展示的響應時間最短,平均響應延遲在2秒以下,本文系統(tǒng)功能模塊的平均響應延遲時間均在1~2.5秒的范圍內(nèi),由此可見,本文系統(tǒng)的響應延遲完全滿足測試目標。
數(shù)字化檔案管理系統(tǒng)一般是多人同時使用,為滿足多人并發(fā)使用的需求,設置使用人數(shù)為300人,通過測試進行程序的功能驗證,并對系統(tǒng)運行時吞吐量變化進行記錄,本文系統(tǒng)的吞吐量測試結(jié)果如圖4所示。
由圖4可知,在人數(shù)為300時并發(fā)使用系統(tǒng),在此基礎上本文系統(tǒng)的CPU利用率頻譜顯示正常,其客戶端采用雙核處理器,在系統(tǒng)穩(wěn)定的情況下能夠保障系統(tǒng)的正常運行,其吞吐量滿足用戶需求,證明本文系統(tǒng)具有實用性,符合電力企業(yè)數(shù)字化檔案管理的實際應用需要。
四、結(jié)語
本文基于數(shù)據(jù)挖掘技術(shù)及相關算法,通過電力企業(yè)檔案數(shù)字化采集、處理檔案數(shù)據(jù)、建立檔案管理模塊,對數(shù)字化檔案管理系統(tǒng)進行了軟件設計,加以硬件設計完成了整個系統(tǒng)的設計,有效提高了檔案管理的質(zhì)量和效率。由于時間和條件的限制,本文研究還存在著諸多不足,有待于在今后進一步探討,如工程檔案數(shù)據(jù)較多,可能會出現(xiàn)數(shù)據(jù)填寫錯誤的情況。未來還應從數(shù)據(jù)的自動糾錯和錯誤識別角度入手,進行深入研究與設計,不斷完善檔案管理系統(tǒng)功能,使電力企業(yè)檔案的數(shù)字化管理更加科學與規(guī)范。
參考文獻:
[1]李 欣.基于數(shù)字水印技術(shù)的醫(yī)院電子檔案管理系統(tǒng)設計[J].現(xiàn)代電子技術(shù),2020
[2]陳利民,辛后林,袁升飛.文物勘探檔案數(shù)字化管理與應用——以鄭州市文物勘探檔案綜合管理信息系統(tǒng)為例[J].中國檔案,2021
[3]孫洪溥,耿 強.基于二維條碼的數(shù)字化檔案信息自動檢索系統(tǒng)設計[J].現(xiàn)代電子技術(shù),2021
[4]宗 誠,李 靜.基于數(shù)據(jù)挖掘技術(shù)的B/S模式醫(yī)院檔案管理系統(tǒng)[J].微型電腦應用,2021
[5]趙 俊,蔡勛偉,馬 叢,等.泛在電力物聯(lián)網(wǎng)中數(shù)字化服務信息資源挖掘系統(tǒng)設計[J].電子設計工程,2021
[6]韓卓泉,周 璇.基于物聯(lián)網(wǎng)架構(gòu)的檔案智能化管理系統(tǒng)的分析和設計[J].微型電腦應用,2020
[7]張妍妍.基于物聯(lián)網(wǎng)體系結(jié)構(gòu)架構(gòu)檔案信息安全網(wǎng)[J].山西檔案,2015
[8]劉振宇.基于物聯(lián)網(wǎng)技術(shù)的智能化檔案管理路徑分析[J].辦公室業(yè)務,2022
[9]劉婭琛.基于物聯(lián)網(wǎng)技術(shù)的智能化檔案管理探討[J].信息記錄材料,2021
[10]齊麗娜.基于物聯(lián)網(wǎng)的檔案智能化管理服務模式研究[J].蘭臺內(nèi)外,2019
(作者單位:廣東威恒輸變電工程有限公司)
作者簡介:張景茹(1984—),女,漢族,山西長治人,本科,館員,研究方向:電力企業(yè)檔案。