朱令俊
摘要:數(shù)據(jù)驅(qū)動下的檔案知識發(fā)現(xiàn)以大數(shù)據(jù)為驅(qū)動力,探索檔案數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)變,利用數(shù)據(jù)可視化、建模、算法洞察理解檔案信息資源,從檔案領(lǐng)域中創(chuàng)新知識生產(chǎn)方式。文章立足數(shù)據(jù)背景明晰檔案知識發(fā)現(xiàn)的概念涵義,以數(shù)據(jù)驅(qū)動為主軸解析檔案知識發(fā)現(xiàn)的基本程式,從數(shù)據(jù)層、邏輯層、應(yīng)用層、表示層構(gòu)建檔案知識發(fā)現(xiàn)的內(nèi)容框架,具體闡述檔案數(shù)據(jù)轉(zhuǎn)型的遞進(jìn)過程,以數(shù)據(jù)思維、網(wǎng)絡(luò)思維、用戶思維探討檔案知識發(fā)現(xiàn)的實(shí)現(xiàn)路徑,助益檔案機(jī)構(gòu)推動知識共享與服務(wù)。
關(guān)鍵詞:檔案知識發(fā)現(xiàn);數(shù)據(jù)驅(qū)動;知識服務(wù)
分類號:G270.7
Research on the Path of Archives Knowledge Discovery Based on Data Driven
Zhu Lingjun
(School of Information Management of Nanjing University, Nanjing, Jiangsu, 210023)
Abstract:Data- driven archival knowledge discovery exploits big data as the driving force, explores the transformation of archival data structure, and uses data visualization, modeling, and algorithm insight to understand archival information resources, and innovative knowledge production methods from the archives field. Based on the data background, the article clarifies the concept meaning of archive knowledge discovery, and uses data-driven as the main program to analyze the archive knowledge discovery. The content framework of archive knowledge discovery is constructed from data layer, logic layer, application layer and presentation layer, and the transformation of archive data is elaborated. The progressive process explores the realization path of archive knowledge discovery with the data thinking, network thinking and user thinking and helps the archives institutions to promote knowledge sharing and service.
Keywords:Archive Knowledge Discovery; Data Driven; Knowledge Service
伴隨數(shù)據(jù)環(huán)境的形成、數(shù)據(jù)時代來臨,實(shí)現(xiàn)以數(shù)據(jù)、信息、知識、智慧為生長點(diǎn)的動能轉(zhuǎn)換顯得尤為重要。數(shù)據(jù)密集型科學(xué)的興起,使得海量、片段、異構(gòu)數(shù)據(jù)得以采集、清洗與分析,驅(qū)動著新知識的發(fā)現(xiàn)。檔案作為重要的知識載體,如何深度挖掘檔案信息資源,發(fā)現(xiàn)檔案知識價值,創(chuàng)新政府治理決策與社會服務(wù)方式,成為當(dāng)前檔案學(xué)界的重要議題。
截至2020年2月16日,在中國知網(wǎng)、萬方數(shù)據(jù)知識服務(wù)平臺、維普資訊中文期刊服務(wù)平臺等數(shù)據(jù)庫中,以“檔案+知識發(fā)現(xiàn)”為主題檢索,去重篩選后僅得7篇相關(guān)文獻(xiàn),進(jìn)一步以“檔案+知識發(fā)現(xiàn)+數(shù)據(jù)”為主題檢索,則無相關(guān)文獻(xiàn)??梢?,學(xué)界尚未對檔案知識發(fā)現(xiàn)主題開展一定程度的探索,但也并非毫無基礎(chǔ),在“檔案知識發(fā)現(xiàn)”概念提出之前,圖書情報(bào)與檔案管理一級學(xué)科已有相關(guān)研究。一方面,圖情學(xué)界圍繞數(shù)字圖書館、智庫建設(shè)等知識發(fā)現(xiàn)與知識服務(wù)展開了探討,如李祎以圖書情報(bào)機(jī)構(gòu)智庫的知識發(fā)現(xiàn)系統(tǒng)為研究重點(diǎn),提出該系統(tǒng)實(shí)現(xiàn)的技術(shù)方法[1],李潔等人以數(shù)字圖書館知識發(fā)現(xiàn)為研究對象,重新界定其服務(wù)內(nèi)涵,提出創(chuàng)新優(yōu)化知識發(fā)現(xiàn)服務(wù)的規(guī)劃意見[2],圖情領(lǐng)域?qū)χR發(fā)現(xiàn)的研究融合關(guān)聯(lián)數(shù)據(jù)、深度學(xué)習(xí)、粗糙集等理念與技術(shù),充盈了知識發(fā)現(xiàn)的研究主體與研究力量;另一方面,檔案學(xué)界對檔案知識管理的理論探索也取得一定成果,主要包括檔案知識組織、知識共享、知識創(chuàng)新,知識服務(wù)等方向[3],突出隱性與顯性知識管理之間的轉(zhuǎn)化關(guān)系,以流程優(yōu)化、體系構(gòu)建、建設(shè)策略為著眼點(diǎn),對檔案知識管理的環(huán)境高度和人才需求提出了更高要求[4]。
基于上述研究成果分析,檔案知識發(fā)現(xiàn)將有助于揭示和利用檔案知識組織之間關(guān)系與規(guī)律,數(shù)據(jù)浪潮驅(qū)動將推動檔案機(jī)構(gòu)以數(shù)據(jù)為核心,重塑自身形態(tài),成為社會數(shù)據(jù)生態(tài)鏈關(guān)鍵一環(huán)。但目前檔案學(xué)界缺乏對檔案知識發(fā)現(xiàn)專門深入的探索,多停滯于檔案知識價值與知識獲取的理論闡述,缺少系統(tǒng)的研究。鑒于此,本文嘗試構(gòu)建數(shù)據(jù)驅(qū)動下檔案知識發(fā)現(xiàn)的概念涵義,立足數(shù)據(jù)驅(qū)動探討檔案知識發(fā)現(xiàn)的實(shí)現(xiàn)路徑與具體方案,推動檔案機(jī)構(gòu)知識共享與知識服務(wù)。
1檔案知識發(fā)現(xiàn)的概念內(nèi)涵
鑒于學(xué)界尚未對“檔案知識發(fā)現(xiàn)”一詞有明確統(tǒng)一的定義,而在更為寬泛的知識發(fā)現(xiàn)領(lǐng)域已奠定了夯實(shí)的研究基礎(chǔ),本文以“知識發(fā)現(xiàn)”為突破口,結(jié)合檔案工作特征和發(fā)展趨勢,明晰數(shù)據(jù)驅(qū)動下檔案知識發(fā)現(xiàn)的概念內(nèi)涵。
1.1知識發(fā)現(xiàn)
知識經(jīng)濟(jì)時代,指數(shù)級增長的數(shù)據(jù)、泛在化的信息環(huán)境為知識發(fā)現(xiàn)提供了巨大的發(fā)展?jié)摿ΑVR發(fā)現(xiàn)通常被認(rèn)為是基于數(shù)據(jù)庫的知識發(fā)現(xiàn)(Knowledge Discovery in Database,KDD),依據(jù)美國數(shù)據(jù)科學(xué)家Usama Fayyad的觀點(diǎn),知識發(fā)現(xiàn)是從數(shù)據(jù)集中識別提取出有效的、新穎的、潛在有用的信息并理解的模式過程[5]。簡單來說,知識發(fā)現(xiàn)描述了大量數(shù)據(jù)被自動檢索以獲取知識的有關(guān)模式的過程[6]。知識發(fā)現(xiàn)通常運(yùn)用統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法與神經(jīng)計(jì)算方法,其中較為常見的是粗糙集、聚類分析、遺傳算法等[7]。
1.2檔案知識發(fā)現(xiàn)
結(jié)合知識發(fā)現(xiàn)與檔案知識管理的相關(guān)理論,檔案知識發(fā)現(xiàn)是指運(yùn)用知識發(fā)現(xiàn)的理念與方法,借助信息技術(shù)手段識別析取出海量檔案資源中隱含的有價值的知識元[8]。在知識發(fā)現(xiàn)的理論方法與技術(shù)體系下,檔案的知識價值將利用關(guān)聯(lián)分析、預(yù)測分析、聚類分析等方法有效挖掘,實(shí)現(xiàn)檔案顯隱性知識的轉(zhuǎn)化,幫助用戶明晰檔案—數(shù)據(jù)—知識之間相互關(guān)系,服務(wù)檔案知識管理。
1.3數(shù)據(jù)驅(qū)動下的檔案知識發(fā)現(xiàn)
數(shù)據(jù)驅(qū)動的本質(zhì)在于實(shí)現(xiàn)從數(shù)據(jù)到知識再到理論轉(zhuǎn)化,并為實(shí)踐提供決策的一系列迭代過程,其最大特點(diǎn)是對規(guī)模大、流轉(zhuǎn)快、類型多、價值密度低的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)性分析歸納。數(shù)據(jù)驅(qū)動下的檔案知識發(fā)現(xiàn)以大數(shù)據(jù)為驅(qū)動力,探索檔案數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)變,利用數(shù)據(jù)可視化、建模、算法,洞察理解檔案信息資源,發(fā)現(xiàn)規(guī)律和價值,從檔案領(lǐng)域中創(chuàng)新知識生產(chǎn)方式,具體機(jī)理見圖1。數(shù)據(jù)驅(qū)動下檔案知識發(fā)現(xiàn)的突出價值,不僅在于發(fā)現(xiàn)傳統(tǒng)方法難以發(fā)現(xiàn)的相關(guān)性,還在于能夠深入探索其因果關(guān)系,并對之進(jìn)行集成、共享、挖掘,最終提升決策服務(wù)水平。
2數(shù)據(jù)驅(qū)動下檔案知識發(fā)現(xiàn)的框架構(gòu)建
2.1數(shù)據(jù)驅(qū)動下檔案知識發(fā)現(xiàn)的基本程式
在階梯處理過程模型中,知識發(fā)現(xiàn)處理過程分為九個階段,分別是數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理、數(shù)據(jù)縮減、確定知識發(fā)現(xiàn)目標(biāo)、確定挖掘算法、數(shù)據(jù)挖掘、模式解釋和知識評價;螺旋處理過程模型強(qiáng)調(diào)領(lǐng)域?qū)<覅⑴c的重要性,以問題的定義為中心循環(huán)評測挖掘的結(jié)果,經(jīng)過多次循環(huán)處理使結(jié)果更準(zhǔn)確;Brachman和Anand提出以用戶為中心的知識發(fā)現(xiàn)處理模型,支持用戶與數(shù)據(jù)庫交互;實(shí)現(xiàn)聯(lián)機(jī)交互式的知識發(fā)現(xiàn)模型需要可視化技術(shù)支撐,由數(shù)據(jù)挖掘過程可視化、數(shù)據(jù)可視化、模型可視化和算法可視化四方面組成。
借鑒上述多種知識發(fā)現(xiàn)模型,綜合考慮檔案內(nèi)容與載體特征,在檔案資源組織的收集、整理、提煉、總結(jié)規(guī)律的過程中,以數(shù)據(jù)化—結(jié)構(gòu)化—語義化—網(wǎng)絡(luò)化—智慧化為主軸,本文將數(shù)據(jù)驅(qū)動下檔案知識發(fā)現(xiàn)的基本程式概括為“數(shù)據(jù)源—數(shù)據(jù)集成—數(shù)據(jù)存儲—數(shù)據(jù)處理—數(shù)據(jù)可視化—知識應(yīng)用—評價反饋”七個環(huán)節(jié),經(jīng)由知識關(guān)聯(lián)、知識聚合、知識共享等處理,形成由知識元、知識鏈、知識域、知識網(wǎng)所構(gòu)成的多層檔案知識體系[9]。
如圖2所示,檔案是檔案知識發(fā)現(xiàn)的資源基礎(chǔ),作為數(shù)據(jù)驅(qū)動的原動力;數(shù)據(jù)是檔案內(nèi)容的再加工,是數(shù)據(jù)驅(qū)動的中轉(zhuǎn)站;知識是檔案內(nèi)容的提煉升華,是數(shù)據(jù)驅(qū)動的歸宿;用戶是數(shù)據(jù)驅(qū)動的核心,是檔案知識服務(wù)的對象。數(shù)據(jù)驅(qū)動下檔案知識發(fā)現(xiàn)是以檔案資源組織為基礎(chǔ),以用戶需求和社會服務(wù)為導(dǎo)向,以數(shù)據(jù)為二次加工的載體,通過數(shù)據(jù)集成與質(zhì)量控制、數(shù)據(jù)分析與模式構(gòu)建、數(shù)據(jù)呈現(xiàn)與關(guān)聯(lián)預(yù)測、數(shù)據(jù)應(yīng)用與知識服務(wù)四項(xiàng)技術(shù)融合,實(shí)現(xiàn)檔案知識形態(tài)的演變,最終析取檔案知識,完成檔案知識的提取、整合、分析、利用、服務(wù)的全過程,將檔案、數(shù)據(jù)與知識三者創(chuàng)新互聯(lián),支持信息決策和社會服務(wù)需求,推動社會數(shù)據(jù)生態(tài)鏈的流程再造與結(jié)構(gòu)轉(zhuǎn)型。
2.2數(shù)據(jù)驅(qū)動下檔案知識發(fā)現(xiàn)的內(nèi)容框架
以數(shù)據(jù)為驅(qū)動,面向檔案的知識發(fā)現(xiàn)需要兼顧檔案資源的多種存儲格式和數(shù)據(jù)格式,建立由檔案知識元、知識鏈、知識域、知識網(wǎng)組成的多層次知識網(wǎng)絡(luò)組織體系。數(shù)據(jù)驅(qū)動下檔案知識發(fā)現(xiàn)的框架主要由數(shù)據(jù)層、邏輯層、應(yīng)用層、表示層四部分組成,對應(yīng)數(shù)據(jù)驅(qū)動下檔案數(shù)據(jù)化—結(jié)構(gòu)化—語義化—網(wǎng)絡(luò)化—智慧化的發(fā)展演變,目的是將檔案組織轉(zhuǎn)換為體系化、結(jié)構(gòu)化的知識網(wǎng)絡(luò),實(shí)現(xiàn)檔案的知識發(fā)現(xiàn)、知識描述與知識服務(wù)。
(1)數(shù)據(jù)層。知識發(fā)現(xiàn)是建立在全量數(shù)據(jù)基礎(chǔ)上對檔案資源組織進(jìn)行知識采集、處理、組織與融合的過程,即對檔案資源組織的數(shù)據(jù)化處理。數(shù)據(jù)驅(qū)動下檔案資源類型更加復(fù)雜多樣,數(shù)量規(guī)模更加龐大,具體分為非結(jié)構(gòu)化(如文本、圖片、HTML等)、半結(jié)構(gòu)化(如XML和JSON)和結(jié)構(gòu)化數(shù)據(jù)(如MySQL、Oracle和SQL Server)三種,不同類型的數(shù)據(jù)存儲整合也需要借助多種工具方法將其結(jié)構(gòu)化和有序化,規(guī)范檔案資源的組織方式;為過濾冗余數(shù)據(jù)、錯誤數(shù)據(jù)、重復(fù)數(shù)據(jù)和矛盾數(shù)據(jù),篩選出具有價值的檔案數(shù)據(jù),利用自然語言處理對全部檔案數(shù)據(jù)的進(jìn)行詞法分析、句法分析、語義分析等處理,清除檔案數(shù)據(jù)中的缺失值、格式、副本和垃圾數(shù)據(jù),并根據(jù)檔案個體數(shù)據(jù)特征對其重新排序、賦予含義并簡化形式;經(jīng)過清洗、簡化、標(biāo)注、分析,實(shí)現(xiàn)結(jié)構(gòu)化和語義化的檔案數(shù)據(jù)具備整合利用的價值;通過時序融合和多源數(shù)據(jù)融合,將具有時空信息和多來源特征的檔案數(shù)據(jù)由海量碎片化聚合成為網(wǎng)絡(luò),鏈接到知識庫中,去冗分類、去粗取精,推斷預(yù)測潛在動態(tài)時序的檔案數(shù)據(jù),為數(shù)據(jù)驅(qū)動下檔案知識發(fā)現(xiàn)提供服務(wù)[10]。
(2)邏輯層。從傳統(tǒng)的檔案知識表達(dá)轉(zhuǎn)向數(shù)據(jù)驅(qū)動的檔案知識,需要對其進(jìn)行可解釋、更穩(wěn)健的有效知識計(jì)算,準(zhǔn)確獲取并主動配合知識的演化方向,調(diào)整知識組織管理方式及架構(gòu),實(shí)現(xiàn)檔案知識的多維深度語義關(guān)聯(lián),進(jìn)而完成精準(zhǔn)度高的知識發(fā)現(xiàn)[11]。在知識集成與融合的基礎(chǔ)上,利用本體、語義網(wǎng)等概念與技術(shù),結(jié)合聚類相似度、分類、關(guān)聯(lián)規(guī)則、回歸、預(yù)測和偏差分析等方法,通過大規(guī)模的計(jì)算和預(yù)測模型增強(qiáng)檔案知識中模式、趨勢、事實(shí)、關(guān)系、模型、關(guān)聯(lián)規(guī)則、序列等一系列的表現(xiàn)效果。知識計(jì)算的開放性、一致性、完備性、上下文等重要性質(zhì)使得能夠發(fā)現(xiàn)和提取在邏輯推理、存在、否定等多種復(fù)雜語義網(wǎng)絡(luò)中的檔案知識[12]??傮w而言,知識計(jì)算是數(shù)據(jù)驅(qū)動下檔案知識發(fā)現(xiàn)的頂層應(yīng)用[13,14],滿足檔案知識表達(dá)、獲取和計(jì)算需求。
(3)應(yīng)用層。檔案知識應(yīng)用是檔案網(wǎng)絡(luò)化向智慧化發(fā)展的重要環(huán)節(jié),是檔案知識發(fā)現(xiàn)的高級階段。通過數(shù)據(jù)層與邏輯層對檔案資源組織的加工、挖掘與分析,檔案在知識組織層面逐步形成了從知識元、知識鏈到知識域的較為完整的檔案知識體系,而應(yīng)用層運(yùn)用語義檢索、地圖導(dǎo)航、智能問答、推薦反饋系統(tǒng)、構(gòu)建知識圖譜等技術(shù)與方法,將檔案知識置于更宏大的網(wǎng)絡(luò)框架中,深入應(yīng)用機(jī)器學(xué)習(xí)算法,不斷更新完善檔案知識庫,豐富檔案知識網(wǎng)絡(luò),為上層平臺或智能應(yīng)用提供基礎(chǔ)設(shè)施支撐。與邏輯層顯著不同的是,應(yīng)用層集中在檢索、推薦、問答、解釋和輔助決策方面,具有明顯的交互性和內(nèi)在關(guān)聯(lián)性,使檔案組織向更加成熟的檔案知識網(wǎng)絡(luò)發(fā)展,提升檔案知識提取與發(fā)現(xiàn)的質(zhì)量與規(guī)模。
(4)表示層。檔案知識服務(wù)是檔案知識發(fā)現(xiàn)的根本,也是檔案知識發(fā)現(xiàn)聯(lián)結(jié)用戶、實(shí)現(xiàn)智慧化轉(zhuǎn)型的最終環(huán)節(jié)。數(shù)據(jù)驅(qū)動下面向檔案的知識發(fā)現(xiàn)服務(wù)圍繞知識門戶和個性化服務(wù)兩方面展開。知識門戶根據(jù)用戶需求分析,基于主題深度集成知識資源,采集用戶個性數(shù)據(jù)庫,向用戶動態(tài)提供知識與信息,是知識共享與知識交流的平臺。從其交流模式而言,知識門戶以知識創(chuàng)新與二次加工為資源基礎(chǔ),為用戶解決獲取知識過程中的疑難問題,是一種知識密集型和智慧型的咨詢服務(wù)方式。而個性化知識服務(wù)則是根據(jù)用戶興趣建模,采取個性化定制、個性化推送、個性化檢索和個性化推薦等服務(wù)模式,數(shù)據(jù)驅(qū)動下的個性化知識服務(wù)涉及多種技術(shù),諸如社會網(wǎng)絡(luò)、云計(jì)算、云存儲、Web數(shù)據(jù)庫、Agent、本體、物聯(lián)網(wǎng)等[15],提升檔案知識呈現(xiàn)和知識利用的能力和效果。知識門戶與個性化服務(wù)的結(jié)合,使檔案知識發(fā)現(xiàn)融合問題導(dǎo)向與目標(biāo)導(dǎo)向,從被動知識發(fā)現(xiàn)服務(wù)轉(zhuǎn)向主動知識發(fā)現(xiàn)服務(wù),數(shù)據(jù)驅(qū)動兼具技術(shù)革新與理念轉(zhuǎn)變,以把握檔案知識發(fā)現(xiàn)更深入的智慧化。
3實(shí)現(xiàn)路徑
3.1數(shù)據(jù)思維理性審視檔案資源
數(shù)據(jù)思維極大影響著全社會對檔案資源的認(rèn)知與設(shè)想,數(shù)據(jù)驅(qū)動下審視檔案資源范疇與價值也獲得更廣泛和深遠(yuǎn)的開拓。在范疇上,檔案資源不再限于傳統(tǒng)紙質(zhì)文件記錄,而向社交媒體信息[16]、政務(wù)信息[17]等縱深發(fā)展,諸如國家圖書館互聯(lián)網(wǎng)信息戰(zhàn)略保存項(xiàng)目,利用不同年齡、不同地域、不同教育和文化背景用戶所發(fā)布的微博內(nèi)容,分析提取有價值的數(shù)據(jù),日后為政策決策和學(xué)術(shù)研究提供多元參考,基于此,社交媒體信息實(shí)現(xiàn)了從信息向檔案、數(shù)據(jù)和知識的轉(zhuǎn)變;在價值上,檔案資源的利用和保存價值應(yīng)在數(shù)據(jù)思維下有更深遠(yuǎn)的發(fā)揮,傳統(tǒng)意義的利用和保存價值是針對檔案實(shí)體和內(nèi)容而言的,數(shù)據(jù)驅(qū)動對檔案資源的價值審視理應(yīng)升級,探索尋找檔案知識的價值最大化,以“城市記憶工程”為例,借助檔案資源挖掘構(gòu)建社會記憶,高度濃縮、記錄城市的歷史變遷,將豐富的歷史信息保存、轉(zhuǎn)化為社會大眾的記憶,實(shí)現(xiàn)檔案本體的利用保存價值向群體記憶價值的提升。
3.2網(wǎng)絡(luò)思維定義搭建檔案生態(tài)
網(wǎng)絡(luò)思維將檔案置于更宏大的網(wǎng)絡(luò)框架下,納入豐富復(fù)雜的社會信息生態(tài)圈,可以為檔案知識的發(fā)現(xiàn)和應(yīng)用提供源源不斷的動力。一方面,檔案本體可以突破原有刻板印象,借助語義檢索、知識圖譜等技術(shù)和方法,析取有價值的檔案知識,形成兼具創(chuàng)新與特色、可寓教于樂的檔案文化產(chǎn)品和展覽,如美國、英國、澳大利亞等國家的國家檔案館利用其豐富館藏如電子文件、地圖、海報(bào)等各種類型的記錄,匯聚形成多主題的編纂成果和文創(chuàng)產(chǎn)品,深受大眾喜愛;另一方面,檔案領(lǐng)域也可以積極與文博圖、互聯(lián)網(wǎng)各界尋求合作,運(yùn)用現(xiàn)代技術(shù)挖掘檔案的數(shù)據(jù)關(guān)聯(lián),探索更豐富的用途和潛能,搭建宏大的檔案生態(tài)。
3.3用戶思維主動發(fā)現(xiàn)檔案知識
數(shù)據(jù)驅(qū)動予以檔案數(shù)據(jù)化的轉(zhuǎn)型紅利,但這并不意味著檔案領(lǐng)域的被動態(tài)度。相反,檔案領(lǐng)域需要以檔案數(shù)據(jù)為契機(jī),捕捉用戶興趣和社會熱點(diǎn),結(jié)合現(xiàn)有檔案資源主動發(fā)現(xiàn)集聚優(yōu)質(zhì)檔案知識,并主動向社會公眾呈現(xiàn)和輸送,運(yùn)用小程序、手機(jī)APP等形式或以線下快閃等活動為大眾提供更具浸入式的檔案知識盛宴。此外,可針對特定人群,關(guān)注與他們息息相關(guān)及有吸引力的話題內(nèi)容,發(fā)現(xiàn)整合相關(guān)檔案知識推送給特定用戶,提高檔案知識的應(yīng)用價值,使檔案知識的發(fā)現(xiàn)成為一種趨勢和需求,倒逼檔案領(lǐng)域的主動服務(wù)。例如,“檔案那些事兒”微信公眾號針對用戶實(shí)際工作、文化歷史研究等需求,開設(shè)“檔案實(shí)務(wù)”“法眼論檔”“文化傳承”等欄目,提供整編的檔案知識。
4結(jié)語
當(dāng)今世界處于“數(shù)據(jù)爆炸,知識貧乏”的時代,數(shù)據(jù)創(chuàng)新驅(qū)動利用數(shù)據(jù)集成、分析、可視化和應(yīng)用等手段激活數(shù)據(jù)價值,重塑數(shù)據(jù)治理流程與方式。因此,在數(shù)據(jù)時代,檔案數(shù)據(jù)是傳統(tǒng)檔案數(shù)據(jù)與實(shí)時數(shù)據(jù)的整合,其憑證參考價值也將向知識價值轉(zhuǎn)換[18]。檔案蘊(yùn)含著巨大的知識價值,其知識服務(wù)研究已成為檔案學(xué)界研究熱點(diǎn)。然而,知識發(fā)現(xiàn)作為拓寬檔案知識應(yīng)用范疇,提升檔案知識服務(wù)質(zhì)量的基礎(chǔ)與前提,如何運(yùn)用知識發(fā)現(xiàn)的理念挖掘檔案知識價值是目前研究必須直面的問題。鑒于此,本文在綜合了解國內(nèi)外相關(guān)研究現(xiàn)狀的基礎(chǔ)上,引入數(shù)據(jù)驅(qū)動的理論方法與技術(shù)體系,界定數(shù)據(jù)驅(qū)動下檔案知識發(fā)現(xiàn)的概念涵義,以數(shù)據(jù)化—結(jié)構(gòu)化—語義化—網(wǎng)絡(luò)化—智慧化為數(shù)據(jù)驅(qū)動的主軸,將數(shù)據(jù)驅(qū)動下檔案知識發(fā)現(xiàn)過程分解為“數(shù)據(jù)源—數(shù)據(jù)集成—數(shù)據(jù)存儲—數(shù)據(jù)處理—數(shù)據(jù)可視化—知識應(yīng)用—評價反饋”七個環(huán)節(jié),并從數(shù)據(jù)層、邏輯層、應(yīng)用層、表示層具體論述檔案數(shù)據(jù)轉(zhuǎn)型的遞進(jìn)過程與檔案知識發(fā)現(xiàn)的內(nèi)容框架,以數(shù)據(jù)思維、網(wǎng)絡(luò)思維和用戶思維探討檔案知識發(fā)現(xiàn)的實(shí)現(xiàn)路徑,從而推動檔案機(jī)構(gòu)知識共享與知識服務(wù)研究。
注釋與參考文獻(xiàn)
[1]李祎.基于圖書情報(bào)機(jī)構(gòu)智庫建設(shè)的知識發(fā)現(xiàn)系統(tǒng)構(gòu)建研究[J].圖書館工作與研究,2017(2):61-65.
[2]李潔,畢強(qiáng),張晗,牟冬梅.數(shù)據(jù)驅(qū)動下數(shù)字圖書館知識發(fā)現(xiàn)的服務(wù)研究[J].情報(bào)資料工作,2018(4):6-14.
[3]賈玲,吳建華,杜巖.試論檔案知識管理流程[J].檔案與建設(shè),2015(12):14-17.
[4]冷雪.近十年我國檔案學(xué)與圖書館學(xué)領(lǐng)域知識管理研究的計(jì)量分析[J].檔案學(xué)研究,2013(6):9-14.
[5]Usama Fayyad,et al.From Data Mining to Knowledge Discovery in Databases[J].AI Magazine,1996(3):37-54.
[6]William J Frawley,et al.Knowledge Discovery in Databases:An Overview[J].AI Magazine,1992(3):57-70.
[7]化柏林.數(shù)據(jù)挖掘與知識發(fā)現(xiàn)關(guān)系探析[J].情報(bào)理論與實(shí)踐,2008(4):507-510
[8]姚恒.從信息管理到知識管理的蛻變——智慧校園環(huán)境下檔案知識管理研究[J].圖書情報(bào)導(dǎo)刊,2016(1):102-104.
[9]牛力,袁亞月,韓小汀.對檔案信息知識化利用的幾點(diǎn)思考[J].檔案學(xué)研究,2017(3):26-33.
[10]Yantao Jia,Yuanzhuo Wang,Xueqi Cheng,Xiaolong Jin, Jiafeng Guo. OpenKN: An open knowledge computational engine for network big data[P].Advances in Social Networks Analysis and Mining(ASONAM), 2014 IEEE/ACM International Conference on,2014.
[11]李旭暉,秦書倩,吳燕秋,馬費(fèi)成.從計(jì)算角度看大規(guī)模數(shù)據(jù)中的知識組織[J].圖書情報(bào)知識,2018(6):94-102.
[12]孫曉平.大數(shù)據(jù)知識計(jì)算的挑戰(zhàn)[J].情報(bào)工程,2015(6): 43-50.
[13]Hilbert M. Big data for development: From informationto knowledge societies[J].Social Science Electronic Publishing, 2013.
[14]Zhuge, Hai. Mapping Big Data into Knowledge Space with Cognitive Cyber-Infrastructure[J]. Computer Science, 2015.
[15]孫雨生,于凡,孫肖妹,郝麗靜.國內(nèi)基于大數(shù)據(jù)的個性化服務(wù)研究進(jìn)展——架構(gòu)體系與關(guān)鍵技術(shù)[J].現(xiàn)代情報(bào),2018(2):171-177.
[16]周文泓.我國網(wǎng)絡(luò)空間中檔案領(lǐng)域的缺位審視和參與展望——基于社交媒體信息保管行動的解析[J].檔案與建設(shè), 2019(9):13-17.
[17]薛四新,黃麗華,楊來青,宋華.大數(shù)據(jù)環(huán)境下政務(wù)信息資源歸檔研究的框架體系[J].檔案學(xué)研究,2018(4):92-96.
[18]于英香.從數(shù)據(jù)與信息關(guān)系演化看檔案數(shù)據(jù)概念的發(fā)展[J].情報(bào)雜志,2018(11):150-155.