徐濤+李京林+藍(lán)傳锜
摘 要:在信息化高度發(fā)展的今天,隨著紙質(zhì)檔案數(shù)字化轉(zhuǎn)變,正確認(rèn)識檔案信息資源、對檔案信息資源進(jìn)行合理開發(fā)和利用、挖掘用戶使用檔案行為并進(jìn)行分析以及關(guān)注焦點(diǎn)等信息,對研究檔案的利用具有很大的價值。作為查檔用戶,通過需求調(diào)研發(fā)現(xiàn),單純的電子檔案信息的調(diào)閱已經(jīng)不能滿足如今諸多時間緊任務(wù)重的工作環(huán)境,如何在盡可能少的時間內(nèi)獲取盡可能多的有用信息是用戶關(guān)注的焦點(diǎn)。
關(guān)鍵詞:數(shù)據(jù)挖掘;檔案;大數(shù)據(jù)
DOI:10.16640/j.cnki.37-1222/t.2018.05.116
1 檔案數(shù)據(jù)挖掘的基本認(rèn)識
1.1 檔案數(shù)據(jù)挖掘的定義與特性
數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在的有用信息和知識的過程。對數(shù)據(jù)化的檔案資源進(jìn)行數(shù)據(jù)挖掘,從而找到蘊(yùn)藏在檔案中的價值,獲取檔案中的知識和規(guī)律,這一過程可以說是從數(shù)據(jù)到新知識的蛻變。
如,檔案人員想要做好檔案編研選題,不僅要對用戶利用檔案數(shù)據(jù),包括檔案調(diào)卷數(shù)量、檔案利用次數(shù)、復(fù)制檔案數(shù)量、制發(fā)檔案證明數(shù)量等進(jìn)行深度挖掘,而且還需要對用戶訪問記錄,包括網(wǎng)頁采用的關(guān)鍵字、下載記錄、檢索詞、用戶利用網(wǎng)頁時間和頻度等信息進(jìn)行深度挖掘,然后利用分類功能及數(shù)據(jù)分析,建立檔案編研選題的用戶模型,一是按需確定不同類型的編研選題,提供個性化的服務(wù);二是根據(jù)檔案用戶需求特點(diǎn),預(yù)測其未來趨向,結(jié)合社會熱點(diǎn)選定檔案編研題目,從而使檔案編研部門推出用戶滿意的編研成果[1]。在檔案利用方面,對檔案利用登記數(shù)據(jù)庫進(jìn)行深度挖掘,分別選取不同方面數(shù)據(jù)進(jìn)行建模,可以得出不同檔案利用形式的變化趨勢,從而對檔案利用趨勢進(jìn)行分析和預(yù)測,對利用頻率高的檔案進(jìn)行全文數(shù)字化,既可以提高檔案利用效率,又可以起到保護(hù)檔案原件的作用。
因此,檔案數(shù)據(jù)的挖掘是大數(shù)據(jù)時代的主要特點(diǎn),檔案學(xué)的發(fā)展歷程告訴我們,每一次重大的技術(shù)變革都必然影響著檔案學(xué)的發(fā)展,如計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的引人,引起了檔案管理理念與實(shí)踐的變革,改變了文件與檔案的處理流程。大數(shù)據(jù)技術(shù)對檔案數(shù)據(jù)的深度挖掘?yàn)闄n案管理流程由粗放走向精細(xì)化提供了可能。
1.2 從數(shù)字化檔案轉(zhuǎn)變?yōu)閿?shù)據(jù)化檔案
“數(shù)據(jù)化”是近兩年隨著大數(shù)據(jù)的發(fā)展才逐漸被人們從“數(shù)字化”概念中逐漸分離并提出來。最初“數(shù)字化”和“數(shù)據(jù)化”是混為一談的,數(shù)據(jù)化的提出不是對數(shù)字化的否定,而是在對數(shù)字世界認(rèn)識逐步深化的基礎(chǔ)上,對數(shù)字化理論的拓展與推進(jìn)??梢哉f數(shù)字化帶來了數(shù)據(jù)化,但是無法取代數(shù)據(jù)化。
我國檔案界探討最多的是檔案的數(shù)字化,在理論和實(shí)踐方面都取得很多成果。國家在檔案數(shù)字化方面出臺了《電子文件歸檔與管理規(guī)范》和《紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》兩個重要的標(biāo)準(zhǔn)規(guī)范。在實(shí)踐中,我國檔案數(shù)字化主要做了兩方面工作:一是檔案目錄信息的數(shù)字化,即建立檔案目錄數(shù)據(jù)庫,嚴(yán)格規(guī)范檔案信息的著錄標(biāo)引,科學(xué)選定檔案目錄的數(shù)據(jù)庫結(jié)構(gòu);二是檔案全文信息的數(shù)字化,即采用掃描錄入的方式將檔案全文按照原貌逐頁存儲為圖像文件并為其編制目錄索引,或是經(jīng)OCR(光學(xué)字符技術(shù))識別后采用文本格式存儲檔案內(nèi)容,輔之以全文檢索數(shù)據(jù)庫[2]??梢姡覈跈n案數(shù)字化過程里已經(jīng)無意識地進(jìn)行了部分檔案的數(shù)據(jù)化,盡管所占的比例很小。
2 數(shù)據(jù)挖掘技術(shù)在檔案信息管理中的應(yīng)用
檔案數(shù)據(jù)挖掘過程中,會用到包括文本信息抽取、文本分類、文本聚類、文本數(shù)據(jù)處理等技術(shù)進(jìn)行文本的數(shù)據(jù)挖掘工作[3]。比如以檔案文本數(shù)據(jù)為基礎(chǔ)資源知識庫,根據(jù)檔案發(fā)布的時間信息,分析檔案產(chǎn)生的節(jié)點(diǎn)趨勢以及政府部門針對某一政策的關(guān)聯(lián)度;對檔案類目信息或文本信息進(jìn)行分詞,運(yùn)用文本分類和文本聚類技術(shù),結(jié)合檔案數(shù)據(jù)的基本屬性(時間、所屬部門等),對檔案進(jìn)行歸類(如按照關(guān)鍵詞、檔案發(fā)布部門、主題等);采用主題識別技術(shù)對檔案數(shù)據(jù)進(jìn)行抽取,以檔案主題為中心,結(jié)合檔案類別歸屬,找出與之關(guān)聯(lián)的檔案?;谏鲜鲑Y源,結(jié)合多策略的內(nèi)容抽取,進(jìn)行文檔數(shù)據(jù)內(nèi)容的對比,分析相關(guān)政策的影響力、執(zhí)行力以及變化趨勢,從而給政府部門提供相應(yīng)的決策資源[4]。同時也可以通過知識管理技術(shù),主要包括信息積累、知識挖掘、知識運(yùn)用等,結(jié)合信息檢索、分析及挖掘技術(shù),將信息進(jìn)行適當(dāng)?shù)姆诸惣俺槿』蛐纬梢唤M問答序列,并將這些信息進(jìn)行提取,形成解決某一問題域的數(shù)據(jù)集,挖掘出一定的專門知識,作為決策的依據(jù),進(jìn)一步提升檔案信息資源的再利用與檔案編研工作者的工作效率[5]。
3 結(jié)語
在信息爆炸的“互聯(lián)網(wǎng)+”時代,檔案工作仍面臨三大矛盾:一是檔案本質(zhì)屬性與管理理念的矛盾,智慧時代產(chǎn)生的檔案信息以原生電子檔案、多媒體檔案為主,而檔案部門仍按傳統(tǒng)實(shí)體檔案思維進(jìn)行管理;二是檔案數(shù)據(jù)規(guī)模與管理能力的矛盾,當(dāng)前數(shù)字檔案爆發(fā)性增長,檔案館已經(jīng)成為一個龐大的數(shù)字化倉庫,憑檔案部門現(xiàn)有的技術(shù)、設(shè)備和人員難以支撐海量數(shù)據(jù)的管理;三是檔案服務(wù)能力與社會發(fā)展需求的矛盾,在轉(zhuǎn)型升級的時代背景下,倘若檔案部門不能及時融入和順應(yīng)時代潮流,就不能在智慧城市建設(shè)中提供更好的公共服務(wù)。
因此,正確認(rèn)識檔案信息資源、對檔案信息資源進(jìn)行合理開發(fā)和利用成為了我們工作的重中之重。由此就需要相關(guān)人員在檔案信息管理的過程中,做好檔案數(shù)據(jù)挖掘的基礎(chǔ)研究工作使我們能夠準(zhǔn)確、有效的進(jìn)行檔案管理,在確保檔案信息管理質(zhì)量的同時,創(chuàng)新檔案信息的管理模式。
參考文獻(xiàn):
[1]張文元,張倩.大數(shù)據(jù)技術(shù)與檔案數(shù)據(jù)挖掘[J].檔案管理,2016
(02).
[2]王學(xué)平.淺議我國檔案數(shù)字化建設(shè)實(shí)踐與發(fā)展策略[J].檔案學(xué)通訊,2011(06).
[3]許桂清.對智慧檔案館的認(rèn)識與探析[J].中國檔案,2014(06).
[4]張芳霖,唐霜.大數(shù)據(jù)影響下檔案學(xué)發(fā)展趨勢的思考[J].北京檔案,2014(09).
[5]曹莉.芻議大數(shù)據(jù)時代的數(shù)據(jù)挖掘與精細(xì)管理[J].經(jīng)營管理者,
2013(18).
本文受甘肅省檔案局科技項(xiàng)目《甘肅省檔案局檔案信息資源挖掘平臺建設(shè)與研究》(甘檔2016-1)支持