摘 要 數(shù)據(jù)庫管理針對的是檔案的目錄、掃描件以及照片、電子文檔等數(shù)據(jù),這些數(shù)據(jù)普遍具有的特點有結(jié)構(gòu)化也有非結(jié)構(gòu)化的,新一代的檔案管理系統(tǒng)從設(shè)計和實現(xiàn)的角度,對于數(shù)據(jù)管理系統(tǒng)的開發(fā)和利用已經(jīng)進入了完整有效的管理階段。本文結(jié)合混合型數(shù)據(jù)庫檔案管理系統(tǒng)的開發(fā)理念,對于這一數(shù)據(jù)庫管理特性以及在檔案管理中的運用情況進行分析,如檔案的全文檢索等,旨在研究如何提高檔案的利用率,將檔案的利用價值予以提升。
關(guān)鍵詞 檔案管理系統(tǒng);數(shù)據(jù)庫;結(jié)構(gòu)化數(shù)據(jù)
中圖分類號 TP3 文獻標識碼 A 文章編號 1674-6708(2017)188-0070-02
隨著我國信息化建設(shè)的不斷深入,信息資源在檔案的行政事業(yè)管理中不斷需要加強,以保證檔案的管理和利用能夠健康快速地發(fā)展。由于檔案工作牽扯到的社會信息以及業(yè)務(wù)工作非常多,因此對于檔案信息資源的開發(fā)和利用已經(jīng)成為國企檔案工作發(fā)展的基本目標,是適應(yīng)國企改革發(fā)展需要進行的時代性的創(chuàng)新和變革。新時期檔案實業(yè)要達到健康持續(xù)的發(fā)展,需要對各類文件、會議資料、電傳等等加以管理,還有與企業(yè)發(fā)展有關(guān)的技術(shù)資料、科研報告、論文資料等,以及企業(yè)的立式檔案,線性文件等都要加強管理。不同的應(yīng)用領(lǐng)域,其側(cè)重點也不盡相同。檔案的管理系統(tǒng)涉及到的內(nèi)容眾多,當(dāng)前運用計算機輔助管理系統(tǒng),對檔案的信息和實體進行管理,是非常有必要的。
1 數(shù)據(jù)庫類型
數(shù)據(jù)庫的管理平臺包含了檔案的管理系統(tǒng)的全部內(nèi)容,從當(dāng)前檔案管理的數(shù)據(jù)庫的發(fā)展里程來進行數(shù)據(jù)庫的類型分類,可以看到:
從檔案的發(fā)展初期,采用手工錄入的方式,建立檔案目錄表,要求檔案管理人員參照檔案的放歸規(guī)定,將各類紙質(zhì)實體檔案加以收集、整理、立卷和歸檔。進入計算機輔助檔案目錄管理之后,采用獨立的計算機管理的方式,將檔案的目錄加以整理,形成了桌面式的數(shù)據(jù)庫檔案目錄管理平臺。到了互聯(lián)網(wǎng)時代,依托網(wǎng)絡(luò)建立大中型關(guān)系數(shù)據(jù)庫,將數(shù)據(jù)平臺中的掃描功能加以利用,形成了檔案實體的掃描管理體系。
如今,數(shù)據(jù)庫的全文檢索功能,能夠?qū)n案的目錄以及全文等加以掃描和管理,電子文件、多媒體文件等等,都可以進入非結(jié)構(gòu)化數(shù)據(jù)管理體系中,而且通過管理結(jié)構(gòu)的不斷調(diào)整和優(yōu)化,數(shù)據(jù)庫管理已經(jīng)達到了全文數(shù)據(jù)管理和數(shù)字檢索的發(fā)展階段[1]。
當(dāng)前,國企的檔案掛歷I軟件已經(jīng)實現(xiàn)了數(shù)字化的接收、整理和編目的技術(shù)。通過計算機管理將檔案的利用和移交全程加以運行,網(wǎng)絡(luò)的查詢以及調(diào)檔等,通過服務(wù),實現(xiàn)了管理系統(tǒng)的運行,即便是海量的信息,全文數(shù)據(jù)庫技術(shù)通過OCR檔案管理識別技術(shù)、電子文件全文內(nèi)容索引和存儲技術(shù)等,都能達到高效快捷的檔案的索引和存儲,提高了檔案的查全率和查準率,能夠?qū)⑷臋z索手段予以提高,對于檔案的利用水平來說是十分高效和便捷的。但是,由于后臺數(shù)據(jù)平臺的數(shù)據(jù)庫的類型的不同,在物理原理上,檔案的數(shù)據(jù)物理儲存的功能不盡相同,因此也不能保證數(shù)據(jù)段的一致性以及完整程度。這兩類數(shù)據(jù)庫的開發(fā)結(jié)構(gòu)不同,因此在系統(tǒng)開發(fā)的難度上有所增加,增加了數(shù)據(jù)庫維護的成本。
兩類數(shù)據(jù)庫的類型,分為傳統(tǒng)的關(guān)系型數(shù)據(jù)庫管理系統(tǒng)以及現(xiàn)代信息檢索系統(tǒng),前者的缺點在于不具備數(shù)據(jù)處理效率,靈活性一般,后者需要結(jié)構(gòu)化數(shù)據(jù)以及元數(shù)據(jù)的支持。因此,在集成傳統(tǒng)數(shù)據(jù)庫管理系統(tǒng)的基礎(chǔ)上建立新的數(shù)據(jù)庫管理平臺,體現(xiàn)數(shù)據(jù)存儲的管理非結(jié)構(gòu)化,將數(shù)據(jù)的關(guān)系特性和全文特性予以表現(xiàn),構(gòu)成檔案管理的新課題?;旌闲蛿?shù)據(jù)庫就應(yīng)運而生,在當(dāng)前國企檔案管理系統(tǒng)中發(fā)揮著重要的作用。
2 數(shù)據(jù)庫應(yīng)用以及技術(shù)特點
1)數(shù)據(jù)庫采用的是擁有自主知識產(chǎn)權(quán)的數(shù)據(jù)管理系統(tǒng),支持關(guān)系數(shù)據(jù)模型以及強大的多語種核心語法集,能夠進行高擴展性和穩(wěn)定性的多語種檢索全文,遵照標準化和開放性的原則,在數(shù)據(jù)訪問中能夠做到跨平臺和標準化,為企業(yè)服務(wù)接口服務(wù)。
2)該系統(tǒng)的特點首先是能夠?qū)?shù)據(jù)進行半結(jié)構(gòu)化和非結(jié)構(gòu)化的混合統(tǒng)一管理,對于海量的數(shù)據(jù),從檢索技術(shù)和數(shù)據(jù)庫管理技術(shù)的角度出發(fā),保證數(shù)據(jù)庫管理技術(shù)中的事務(wù)性和完整性,對全文進行檢索的數(shù)據(jù)查詢功能利用的是非結(jié)構(gòu)化索引融合,采用的是多種查詢方式和相互操作的
實現(xiàn)[2]。
3)OCR識別技術(shù),通過對暗、亮的模式的掃描,采用掃描儀等設(shè)備對字符進行識別,然后將形狀識別為計算機文字,形成文本資料和圖像文件進行分析處理。
4)PDF技術(shù)是通過設(shè)備的分辨,將文字、字型等封裝在一個文件中,設(shè)置超文本連接或者動態(tài)影像等電子信息,提高集成度和安全可靠性。
5)全文信息自動抽取技術(shù),是將文件的無關(guān)信息進行過濾,然后得到全文數(shù)據(jù)庫的索引等的自動加載,將電子文件以附件的形式入庫,提供原版的瀏覽。
3 系統(tǒng)架構(gòu)
由數(shù)字化掃描將檔案生成目錄數(shù)據(jù)或者是電子文件,通過OCR識別技術(shù)生成檔案,加載到檔案資源庫中,生成數(shù)據(jù)導(dǎo)入數(shù)據(jù)表,自動掛接電子文件,通過全文信息技術(shù)的抽取,建立全文索引。
用C/S和B/S相結(jié)合的模式提供檔案信息的管理和利用,其中以C/S方式提供檔案信息管理和維護功能,以B/S方式提供檔案信息的檢索和利用功能。
應(yīng)用平臺調(diào)用業(yè)務(wù)層數(shù)據(jù)訪問接口,在不影響其他功能模塊的前提下,構(gòu)建五大業(yè)務(wù)功能模塊客戶端,各業(yè)務(wù)功能模塊再通過數(shù)據(jù)層數(shù)據(jù)訪問接口,采用混合型數(shù)據(jù)庫管理系統(tǒng),提供訪問接口的服務(wù):檔案維護、檔案管理、檔案利用、系統(tǒng)檢索利用和Web管理,只需更各業(yè)務(wù)功能模塊和檔案系統(tǒng)利用平臺(Browser)相應(yīng)的模塊,就能通過檔案系統(tǒng)管理平臺(Client)問業(yè)務(wù)功能模塊統(tǒng)一訪問和操作數(shù)據(jù)庫。整個系統(tǒng)可存放檔案目錄,可在支撐平臺和安全保障的支持下對用戶信息、日志信息、系統(tǒng)設(shè)置等系統(tǒng)數(shù)據(jù)進行維護,確保全文、電子文件等檔案信息能夠被安全、訪問和利用,并在數(shù)據(jù)庫平臺中加以封裝,并穩(wěn)定、可靠地運行。
4 結(jié)論
新一代的檔案管理系統(tǒng),運用信息技術(shù)和網(wǎng)絡(luò)技術(shù)予以輔助,不斷提高檔案信息化管理水平,也為檔案調(diào)用等服務(wù)提供了技術(shù)和資源優(yōu)勢,能夠讓檔案信息資源更好地服務(wù)于社會。
參考文獻
[1]彭飛.基于格局理論的多模態(tài)語言檔案數(shù)據(jù)庫建設(shè)研究[J].北京檔案,2017(3):26-28.
[2]賀建英.大數(shù)據(jù)下MongoDB數(shù)據(jù)庫檔案文檔存儲去重研究[J].現(xiàn)代電子技術(shù),2015,38(16):51-55.
作者簡介:李麗茹,航天四院四零一所。