于英香 姚倩雯
摘要:文書檔案主要以文本形式存儲,挖掘這些文本檔案潛在的知識價值,是政務(wù)服務(wù)背景下檔案工作的重要任務(wù)。論文分析了知識聚合在文書檔案知識服務(wù)中的價值以及進(jìn)行預(yù)處理的必要性,構(gòu)建了由文本分解層、關(guān)聯(lián)聚合層和服務(wù)應(yīng)用層組成的文書檔案知識聚合模型。依據(jù)該模型可實現(xiàn)文書檔案由粗粒度的文本分解為細(xì)粒度的檔案知識元,并由檔案知識元聚合為可計算的檔案數(shù)據(jù)集,實現(xiàn)文書檔案知識服務(wù)的提質(zhì)增效。
關(guān)鍵詞:文書檔案 知識聚合 檔案知識元 知識服務(wù) 檔案數(shù)據(jù)
Abstract:Administrativearchivesaremainly stored in the form of text, and mining the potential knowledge value of these text archives is an impor? tant task of archives work under the background of government services.This paper analyzes the necessi? ty of knowledge aggregation in the knowledge ser? vice of administrative archives, constructs a knowl? edge aggregation model of administrative archives composed of text decomposition layer, association aggregation layer and service application layer.Accord? ing to this model,the administrative archives can be decomposed from coarse- grained text into finegrained archives knowledge elements, and the ar? chive knowledge elements can be aggregated into a computable archives data set, so as to improve the qualityandefficiencyofadministrativearchives knowledge service.
Keywords:Administrativearchives;Knowledge aggregation; Archives knowledge elements; Knowl? edge service; Archives data
檔案利用向知識服務(wù)發(fā)展的趨勢,已成為檔案界的共識。[1]檔案領(lǐng)域的服務(wù)經(jīng)歷了從信息服務(wù)到知識服務(wù)的演變。信息服務(wù)以分類法、主題法[2]等信息組織方法作為檢索工具實現(xiàn)非結(jié)構(gòu)化檔案文本的檢索服務(wù);知識服務(wù)通過基于關(guān)聯(lián)數(shù)據(jù)的知識組織方法來實現(xiàn)檔案信息的深度挖掘與可視化,是大數(shù)據(jù)時代檔案服務(wù)的創(chuàng)新?!丁笆奈濉比珖鴻n案事業(yè)發(fā)展規(guī)劃》中提出:“積極探索知識管理等技術(shù)在檔案信息深層加工和利用中的應(yīng)用?!盵3]知識聚合正是基于關(guān)聯(lián)數(shù)據(jù)技術(shù)的一種知識組織方法。電子政務(wù)時代,文書檔案井噴式增長,“一網(wǎng)通辦”背景下政府服務(wù)新模式更是加速了這種增長趨勢,檔案資源的數(shù)量和規(guī)模越來越龐大,如何將這些檔案轉(zhuǎn)變?yōu)橹R資源,提升政府的知識服務(wù)能力,是政務(wù)服務(wù)背景下檔案工作的重要課題。
知識聚合起源于“數(shù)據(jù)聚合”[4],知識聚合通過知識組織技術(shù)實現(xiàn)知識元的融聚而產(chǎn)生新的知識元,[5]其本質(zhì)目的是提供知識服務(wù)以滿足用戶的知識需求。[6]近年來,知識聚合成為領(lǐng)域?qū)<液蛯W(xué)者討論的熱門話題,國外學(xué)者對知識聚合的研究大多聚焦于計算機(jī)科學(xué)、數(shù)學(xué)等領(lǐng)域,國內(nèi)則以圖書情報領(lǐng)域的學(xué)者為主力軍,[7]近年來成為檔案領(lǐng)域的熱點。牛力等[8-9]最早提出檔案的知識化組織五層架構(gòu),并在隨后研究中以吳寶康檔案資源作為實證構(gòu)建人物事件為導(dǎo)向的四層知識聚合模型;陳海玉等[10]以“南昌起義”數(shù)字檔案資源為實證構(gòu)建抗戰(zhàn)檔案資源三層知識聚合模型;郝琦[11]將評估層融入了知識聚合實踐模型;夏天等[12]利用知識聚合構(gòu)建由數(shù)據(jù)提供層、語義描述層和知識聚合層三個核心層次構(gòu)成的語義化重組模型;魏扣等[13]通過服務(wù)平臺需求分析和搭建結(jié)構(gòu)化服務(wù)平臺框架構(gòu)建檔案知識聚合服務(wù)平臺,基于此平臺可實現(xiàn)檔案知識聚合檢索、定制、導(dǎo)航、推薦服務(wù)。
綜合已有研究發(fā)現(xiàn),檔案學(xué)界的知識聚合研究雖從理論層面逐漸延伸到實證層面,但針對文書檔案文本模態(tài)特性的知識聚合研究較少涉獵。文書檔案數(shù)量龐大,以文本模態(tài)存儲,含有大量的知識價值,兼具資政價值、憑證價值和情報價值,無論是政府還是公眾都對其有較高的知識需求。傳統(tǒng)基于文書檔案的服務(wù)對象是機(jī)關(guān),服務(wù)的技術(shù)方法和服務(wù)模式側(cè)重于減少用戶的信息搜尋成本,尚未提升到幫助用戶更好地理解和利用知識的層面,[14]然而文書檔案內(nèi)含有大量的隱性知識,早在2007年就有學(xué)者指出檔案學(xué)研究邊界的拓展可以以“檔案”為中心適當(dāng)向前(文件流)和向后(知識流)發(fā)生位移,研究重點聚焦于新技術(shù)環(huán)境下政府信息流與知識流梳理與設(shè)計以及隱性知識的編碼化。[15]張玉芳[16]指出通過整理一份文書檔案相關(guān)的全部檔案,可以了解該檔案所記錄信息的過程、始末等重要信息。陳慧等[17]將檔案資源的隱性知識分為7類共107個代碼進(jìn)行編碼。
知識聚合能深入到檔案信息資源內(nèi)部,在挖掘文書檔案知識元的基礎(chǔ)上進(jìn)行知識組織,通過對知識元的內(nèi)容、概念、背景關(guān)聯(lián),使得檔案從數(shù)據(jù)、信息層次深入到知識層次,無論是在聚合強(qiáng)度還是聚合粒度上都有質(zhì)的提升,使得原本隱藏在文書檔案內(nèi)部的隱性知識顯性化,可向用戶提供體系化的、既可橫向擴(kuò)散又可縱向深入的知識內(nèi)容。由此,本文以文書檔案為研究對象,構(gòu)建知識聚合模型,為知識服務(wù)平臺提供可計算的檔案數(shù)據(jù)集,為政務(wù)服務(wù)精準(zhǔn)化提質(zhì)增效。
文書檔案根據(jù)其形成方式可分為紙質(zhì)文書檔案與原生的文書類電子檔案,紙質(zhì)文書檔案可通過雙層PDF掃描為電子檔案,以便后續(xù)對文本進(jìn)行數(shù)據(jù)化處理。原生的文書類電子檔案在歸檔過程中為達(dá)到長期保存目的常常將文件以非結(jié)構(gòu)化版式的形式進(jìn)行歸檔存儲。[18]非結(jié)構(gòu)化形式的版式文件的知識聚合是指在語義層面挖掘知識的關(guān)聯(lián)性并以此聚合。版式文件由于其原始形式的內(nèi)在知識元之間的關(guān)聯(lián)并不顯性,不能直接進(jìn)行知識組織,因此,在知識聚合模型構(gòu)建前需對文書檔案進(jìn)行預(yù)處理。
(一)檔案文本數(shù)據(jù)化處理
文書檔案的非結(jié)構(gòu)化版式形式難以直接為知識服務(wù)提供數(shù)據(jù)化的資源準(zhǔn)備。從知識的演進(jìn)來看,文本形式難以直接演進(jìn)為知識。DIKW(Data to Information to Knowledge to Wisdom)層次演進(jìn)體系描述了“數(shù)據(jù)—信息—知識—智慧”的四重遞進(jìn)關(guān)系,數(shù)據(jù)是信息的載體,信息通過加工和改造后形成了知識,知識是人類認(rèn)識過程的一種結(jié)果形式,在數(shù)據(jù)時代通過數(shù)據(jù)挖掘與關(guān)聯(lián)的手段可實現(xiàn)數(shù)據(jù)到知識的直接演進(jìn),無論知識是由哪種形式演進(jìn)而成,其層次演進(jìn)的起點都是數(shù)據(jù)。然而,在檔案領(lǐng)域,歸檔文件為滿足長期保存需求往往以非結(jié)構(gòu)化版式形式固化,而非結(jié)構(gòu)化文本需先通過自然語言處理、分詞等技術(shù)轉(zhuǎn)化為計算機(jī)可理解的符號才能進(jìn)行后續(xù)的計算機(jī)處理與運算。版式文本須先轉(zhuǎn)化為數(shù)據(jù),再通過數(shù)據(jù)挖掘與關(guān)聯(lián)才能形成知識服務(wù)所需要的數(shù)據(jù)儲備(見圖1)。
首先,從知識組織的角度看,文書檔案的機(jī)器可理解性較差。文書檔案規(guī)模龐大,每一份檔案文本篇幅較長,無論是知識服務(wù)提供者在提供知識時還是被提供者在獲取知識時都需花費大量的時間從中獲取信息。其次,人類的語言內(nèi)涵十分豐富,因此在分析時需要對內(nèi)容有精準(zhǔn)的語義理解,例如,“人大”一詞可能存在“中國人民大學(xué)”與“人民代表大會”兩種語義。最后,在對文本進(jìn)行理解和得出結(jié)論時,閱讀者的受教育水平、知識結(jié)構(gòu)和主觀認(rèn)知等外部因素都會對其準(zhǔn)確性和質(zhì)量產(chǎn)生影響。文書檔案的文本經(jīng)過高度概括,缺少詳細(xì)描述,因此需要具有較高的閱讀理解能力才能準(zhǔn)確理解其語義。此外,由于文書檔案具有較強(qiáng)的領(lǐng)域特征,需要具備一定的領(lǐng)域知識才能更好地理解其含義。
因此,知識聚合需先將檔案文本預(yù)處理為檔案數(shù)據(jù),在檔案數(shù)據(jù)的基礎(chǔ)上實現(xiàn)知識元的挖掘與關(guān)聯(lián),而經(jīng)過知識聚合后的檔案數(shù)據(jù)可直接成為知識服務(wù)的數(shù)據(jù)儲備。
(二)檔案數(shù)據(jù)清洗與質(zhì)量評估
盡管目前已有41.93%的省級行政區(qū)提供了數(shù)據(jù)開放平臺,但是約六成平臺存在質(zhì)量問題,[19]數(shù)據(jù)時代知識服務(wù)需要高質(zhì)量的檔案數(shù)據(jù)支撐,因此,為實現(xiàn)深度知識服務(wù)應(yīng)對檔案數(shù)據(jù)進(jìn)行清洗與質(zhì)量評估。
首先,檔案數(shù)據(jù)需是依據(jù)統(tǒng)一標(biāo)準(zhǔn)數(shù)據(jù)化產(chǎn)生的數(shù)據(jù)。檔案從非結(jié)構(gòu)化文本到數(shù)據(jù)的過程需經(jīng)過分詞、去除停用詞、文本表示等數(shù)據(jù)化過程,而這一過程中數(shù)據(jù)集構(gòu)建規(guī)則的科學(xué)性、系統(tǒng)性和完備性對于整個檔案數(shù)據(jù)化工程的運行都會產(chǎn)生決定性的影響,[20]若不依據(jù)統(tǒng)一標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)化,各部門各行其是,會造成數(shù)據(jù)化質(zhì)量參差不齊,且在跨機(jī)構(gòu)進(jìn)行數(shù)據(jù)關(guān)聯(lián)整合時會產(chǎn)生障礙,不利于國家層面的數(shù)據(jù)整合共享。然而,這一領(lǐng)域目前尚無國家層面指導(dǎo)性政策文件出臺,由此有學(xué)者建議我國檔案行政機(jī)關(guān)及時啟動國家層面上的《檔案數(shù)據(jù)化工程技術(shù)規(guī)范》的起草工作。[21]
其次,檔案數(shù)據(jù)應(yīng)用之前應(yīng)進(jìn)行數(shù)據(jù)清洗。梅宏院士指出政府開放數(shù)據(jù)存在數(shù)據(jù)缺失、數(shù)據(jù)格式不規(guī)范不統(tǒng)一、未將數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化形式、數(shù)據(jù)單元名稱及含義不一致、錯誤數(shù)據(jù)、亂碼等質(zhì)量問題。[22]非結(jié)構(gòu)化檔案文本數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)時也會存在各種數(shù)據(jù)質(zhì)量問題,而這些質(zhì)量參差不齊的數(shù)據(jù)將會對后續(xù)知識服務(wù)的精度產(chǎn)生影響。因此,檔案數(shù)據(jù)在應(yīng)用于知識服務(wù)前需先對數(shù)據(jù)質(zhì)量進(jìn)行評估,檢測錯誤數(shù)據(jù),并更正、補(bǔ)充或刪除錯誤的數(shù)據(jù)項,用推測算法補(bǔ)全缺失的數(shù)據(jù)項,提升數(shù)據(jù)質(zhì)量。
最后,檔案數(shù)據(jù)需進(jìn)行質(zhì)量評估。數(shù)據(jù)質(zhì)量是檔案數(shù)據(jù)賴以生存的生命線,[23]將直接影響知識服務(wù)的質(zhì)量,在知識聚合前有必要評估檔案數(shù)據(jù)的質(zhì)量。我國《信息技術(shù)數(shù)據(jù)質(zhì)量評價指標(biāo)》中將數(shù)據(jù)質(zhì)量評估指標(biāo)歸結(jié)于規(guī)范性、完整性、準(zhǔn)確性、一致性、時效性、可訪問性六個維度,[24]本文中的檔案數(shù)據(jù)質(zhì)量評估體系基本參照此標(biāo)準(zhǔn)。
根據(jù)文書檔案的特征,本文構(gòu)建了文書檔案知識聚合模型,該模型結(jié)構(gòu)可分解為文本分解層、關(guān)聯(lián)聚合層與服務(wù)應(yīng)用層(見圖2)。
(一)文本分解層:檔案文本分解為檔案知識元
20世紀(jì)70年代后期,美國情報學(xué)家弗拉基米爾·斯拉麥卡教授在華講學(xué)時提出,知識的單位將從文獻(xiàn)深入到其中的數(shù)據(jù)、公式、事實、結(jié)論、日期等最小的獨立的“知識元”,當(dāng)時他把這稱為“數(shù)據(jù)元”。[25]知識元是知識最細(xì)粒度的單位,若將檔案數(shù)據(jù)處理為大量的知識元,并將知識元關(guān)聯(lián),將產(chǎn)生知識增值。文書檔案的形式以文本為主,因此文本分解層是構(gòu)建文書檔案知識聚合模型中最為基礎(chǔ)的一層,在這一層結(jié)構(gòu)中將文書檔案文本進(jìn)行分解,為知識聚合提供細(xì)粒度高質(zhì)量的檔案知識元。文本分解層內(nèi)含有自頂向下的三個模塊,分別是詞法分析、清洗與消歧及句法分析。[26]
文本可以看作是詞匯的集合,詞法分析也是文本分解層的基礎(chǔ),是對檔案文本語言的初步處理,其性能將直接影響檔案知識服務(wù)的質(zhì)量與深度。首先,在詞法分析這個模塊中需根據(jù)系統(tǒng)內(nèi)預(yù)先收集存儲的詞典進(jìn)行分詞,并識別出仿詞與新詞;其次,分詞后根據(jù)詞性知識庫對其進(jìn)行基本詞性標(biāo)注;最后,通過語義角色標(biāo)注識別出施事、受事、時間、地點、主題等關(guān)鍵實體并標(biāo)記。[27]在這一模塊中,詞典庫與詞性庫可根據(jù)文書檔案的特征進(jìn)行制作,由此檔案從文本分解為檔案知識元。
經(jīng)過分解的檔案知識元內(nèi)含有部分詞典庫與詞性庫中不存在的未登錄詞,以及在分詞過程中可能存在的歧義詞,由此造成部分知識元不可用,且由于歧義的存在將影響數(shù)據(jù)集整體的質(zhì)量,因此,對這一部分的知識元需先根據(jù)算法規(guī)則識別出新詞、仿生詞、派生詞,也就是知識元清洗與消歧,如北京大學(xué)語料庫中就給出了仿詞對應(yīng)的ELUSLex腳本元規(guī)則,[28]對算法無法識別的知識元需通過人工處理進(jìn)行識別,對錯誤知識元需進(jìn)行清除。
經(jīng)過清洗與消歧后可得到相對高質(zhì)量的檔案知識元,但是這些知識元之間并無聯(lián)系,通過句法分析可識別檔案文本內(nèi)句子之間的依存關(guān)系、句法內(nèi)部可能存在的主謂動賓等核心關(guān)系、句內(nèi)語義依存關(guān)系等,將完整的句子根據(jù)其結(jié)構(gòu)與語義建立內(nèi)部檔案知識元之間的關(guān)聯(lián)關(guān)系,為知識聚合奠定基礎(chǔ)。
(二)關(guān)聯(lián)聚合層:檔案知識元聚合關(guān)聯(lián)形成檔案數(shù)據(jù)集
文本分解層分解的知識元需按照一定的規(guī)則進(jìn)行聚合形成檔案數(shù)據(jù)集,關(guān)聯(lián)聚合層的聚合規(guī)則按照語義化程度由淺到深可分為三個聚合規(guī)則。
一是檔案知識元來源聚合。檔案的原始記錄性是區(qū)別于其他信息資源的獨特性質(zhì),體現(xiàn)并維護(hù)了檔案的本質(zhì)屬性,被認(rèn)為是檔案學(xué)中最具學(xué)科特色并具有核心地位的基礎(chǔ)理論,[29]因此同一來源的檔案具有隱性的關(guān)聯(lián)關(guān)系,可依據(jù)這個關(guān)系進(jìn)行知識聚合。文書檔案按照來源歸檔保存,依據(jù)來源可進(jìn)行檔案知識元來源聚合,使得同一來源的文書檔案內(nèi)部知識元及其數(shù)量可視化,例如,對同一全宗的文書檔案知識元進(jìn)行來源聚合可較為直觀地呈現(xiàn)出該全宗內(nèi)知識元數(shù)量與權(quán)重,使用這一聚合規(guī)則將便于各單位進(jìn)行年報統(tǒng)計,但是這一聚合規(guī)則僅僅是將知識元進(jìn)行集合,并無基于知識元自身的語義和關(guān)系,因此聚合效果的精細(xì)化程度較低。
二是檔案知識元關(guān)系聚合。經(jīng)過文本分解層的檔案知識元是由關(guān)系與知識元兩個部分組成,通過關(guān)系關(guān)聯(lián)可實現(xiàn)不同知識元之間的聚合。這種聚合規(guī)則是依據(jù)檔案知識元自身已顯性化的關(guān)系規(guī)則進(jìn)行聚合,尚無根據(jù)語義挖掘更為深層次的規(guī)則。
三是檔案知識元語義聚合。檔案知識元語義聚合是最為深層次的、根據(jù)知識元的語義概念進(jìn)行聚合的一種規(guī)則,通過語義聚合可實現(xiàn)對于檔案文本的知識深度發(fā)現(xiàn)。但是在語義聚合時需注意同一概念在不同語義背景下的差異,兼顧知識元的主題及其背景。
(三)服務(wù)應(yīng)用層:檔案數(shù)據(jù)集應(yīng)用服務(wù)
文書檔案經(jīng)過文本分解和關(guān)聯(lián)聚合形成檔案數(shù)據(jù)集,利用這些檔案數(shù)據(jù)集可根據(jù)不同用戶對象的知識需求提供深度知識服務(wù),服務(wù)應(yīng)用層是知識聚合模型的最頂層。根據(jù)文書檔案的領(lǐng)域特征,其知識服務(wù)的對象主要為政府和社會公眾兩類群體。從服務(wù)形式分析,基于細(xì)粒度可計算的檔案數(shù)據(jù)集能提供知識推薦、可視化、知識推理、知識檢索等知識服務(wù)。
知識推薦服務(wù)是面向用戶的主動知識服務(wù),從用戶數(shù)據(jù)的獲取和整合起始,通過細(xì)粒度的算法分析,匹配數(shù)據(jù)關(guān)系,錨定用戶個性化偏好,引導(dǎo)和滿足用戶的知識需求,是滿足檔案知識服務(wù)與用戶需求雙向匹配的信息過濾服務(wù)。[30]知識可視化服務(wù)是指相互關(guān)聯(lián)的檔案知識元形成了一個類似于知識圖譜的知識網(wǎng)絡(luò),這個以知識網(wǎng)絡(luò)形式呈現(xiàn)的檔案數(shù)據(jù)集本身就是可視化的,是“一種基于圖論的數(shù)據(jù)結(jié)構(gòu)”[31]。知識推理服務(wù)是指知識網(wǎng)絡(luò)之間的聚合能夠?qū)㈩I(lǐng)域內(nèi)外的知識單元編織成龐大的知識網(wǎng)絡(luò),實現(xiàn)高效的知識問答與推理。[32]通過知識推理可實現(xiàn)非同一來源知識之間的關(guān)聯(lián),發(fā)現(xiàn)新的知識。文書檔案在歸檔時按照預(yù)設(shè)的來源方案對檔案進(jìn)行管理,其所含知識為隱性知識。通過對每份檔案的知識元進(jìn)行分解、挖掘與關(guān)聯(lián)聚合,可形成一個小型知識網(wǎng)絡(luò),而每份檔案形成的知識網(wǎng)絡(luò)可通過同一個知識元進(jìn)行推理。如在一份檔案中挖掘出行為主體A的身份為B單位局長,在另一份檔案中挖掘出行為主體A在某一時間于C地發(fā)表講話,將這兩個知識網(wǎng)絡(luò)聚合可推理得到B單位局長在某一時間做了某事這一知識(見圖3)。知識檢索服務(wù)是指用戶基于該知識網(wǎng)絡(luò)進(jìn)行檢索能夠獲得具有更高精確度和更細(xì)粒度的檢索結(jié)果。此外,服務(wù)應(yīng)用層還可根據(jù)用戶需求定制知識服務(wù),例如某用戶在學(xué)術(shù)研究時提出探尋兩份相關(guān)政策法規(guī)之間關(guān)聯(lián)的知識需求,為用戶提供個性化知識服務(wù)。
文書檔案具備極為重要的知識價值,但文書檔案在歸檔時為滿足長期保存的需求常常以版式文件的形式存儲和呈現(xiàn),運用知識聚合模型對版式文書檔案進(jìn)行知識元分解以實現(xiàn)知識關(guān)聯(lián)對于政務(wù)服務(wù)具有重要意義。
本文構(gòu)建了一個面向知識服務(wù)的文書檔案知識聚合模型,該模型分解為文本分解層、關(guān)聯(lián)聚合層與服務(wù)應(yīng)用層。研究表明,依據(jù)該模型可實現(xiàn)對文書檔案尤其是文本檔案知識元的提取與組合,能夠為知識服務(wù)提供更為細(xì)粒度和可計算的檔案數(shù)據(jù)集。
*本文系國家社科基金項目“大數(shù)據(jù)背景下檔案數(shù)據(jù)管理理論構(gòu)建、技術(shù)選優(yōu)與實踐創(chuàng)新研究”(項目編號:18BTQ092)的階段性研究成果。
注釋及參考文獻(xiàn):
[1][12]夏天,錢毅.面向知識服務(wù)的檔案數(shù)據(jù)語義化重組[J].檔案學(xué)研究,2021(2):36-44.
[2]祁天嬌,馮惠玲.檔案數(shù)據(jù)化過程中語義組織的內(nèi)涵、特點與原理解析[J].圖書情報工作,2021,65(9):3-15.
[3]中華人民共和國國家檔案局.中辦國辦印發(fā)《“十四五”全國檔案事業(yè)發(fā)展規(guī)劃》[EB/OL].[2022-06-08].https://www.saac.gov. cn/daj/yaow/202106/899650c1b1ec4c0e9ad3c2ca7310eca4. shtml.
[4]張海濤,宋拓,孫彤,等.知識聚合研究的脈絡(luò)與展望[J].情報科學(xué),2020,38(4):163-170.
[5][7]趙雪芹.知識聚合與服務(wù)研究現(xiàn)狀及未來研究建議[J].情報理論與實踐,2015,38(2):132-135.
[6]董克,程妮,馬費成.知識計量聚合及其特征研究[J].情報理論與實踐,2016,39(6):47-51.
[8]牛力,袁亞月,韓小汀.對檔案信息知識化利用的幾點思考[J].檔案學(xué)研究,2017(3):26-33.
[9]牛力,展超凡,高晨翔,等.人物事件導(dǎo)向的多模態(tài)檔案資源知識聚合模式研究[J].檔案學(xué)通訊,2021(4):36-44.
[10]陳海玉,向前,何劍鋒.面向知識服務(wù)的抗戰(zhàn)檔案資源聚合與可視化展現(xiàn)探究[J].檔案學(xué)研究,2021(2):111-118.
[11]郝琦.社交媒體環(huán)境下檔案知識聚合服務(wù)研究[J].檔案學(xué)通訊,2018(6):91-94.
[13]魏扣,李子林,金暢.社交媒體環(huán)境下檔案知識聚合服務(wù)實現(xiàn)架構(gòu)研究[J].檔案學(xué)通訊,2018(6):61-66.
[14]陳果.面向網(wǎng)絡(luò)社區(qū)的領(lǐng)域知識聚合研究[M].北京:科學(xué)技術(shù)文獻(xiàn)出版社,2019:32.
[15]周毅.變革時期檔案學(xué)研究邊界的適度拓展[J].檔案學(xué)通訊,2007(4):21-24.
[16]張玉芳.知識管理背景下如何做好檔案管理創(chuàng)新[C]//中國檔案學(xué)會.檔案事業(yè)發(fā)展與青年檔案工作者的責(zé)任:2010年全國青年檔案工作者研討會論文集.北京:中國檔案出版社,2010:460-466.
[17]陳慧,王曉曉,南夢潔,等.數(shù)字檔案資源整合與服務(wù)過程中的隱性知識分類——以賦能思維為視角[J].圖書與情報, 2019(6):118-124.
[18]中華人民共和國國家檔案局.版式電子文件長期保存格式需求[EB/OL].[2022- 11- 18].https://www.saac.gov. cn/daj/hybz/201806/8602fb7e80bf4efea665a6bd97c984f9/ files/a5bc88a072fb49aa8637df70efd2c96d.pdf.
[19][22]梅宏,杜小勇,吳志剛,等.數(shù)據(jù)治理之論[M].北京:中國人民大學(xué)出版社,2020:268-269.
[20][21]趙生輝,胡瑩.檔案數(shù)據(jù)基因系統(tǒng):概念、機(jī)理與實踐[J].檔案學(xué)研究,2021(1):40-48.
[23]金波,周楓,楊鵬.檔案數(shù)據(jù)研究進(jìn)展與研究題域[J].情報科學(xué),2021,39(11):187-193.
[24]國家市場監(jiān)督管理總局.信息技術(shù)數(shù)據(jù)質(zhì)量評價指標(biāo):GB/ T36344—2018[S].北京:中國國家標(biāo)準(zhǔn)化管理委員會,2018:6.
[25]徐如鏡.開發(fā)知識資源發(fā)展知識產(chǎn)業(yè)服務(wù)知識經(jīng)濟(jì)[J].現(xiàn)代圖書情報技術(shù),2002(S1):4-6.
[26]高凱.文本大數(shù)據(jù)情感分析[M].北京:清華大學(xué)出版社, 2019:7.
[27]CHE WX, LI ZH, LIU T. LTP: a Chinese lan? guage technologyplatform[C]// Proceedings of the 23rd In? ternational Conference on Computational Linguistics: Dem? onstrations.Stroudsburg:Association for Computational Lin? guistics,2010:13-16.
[28]姜維.文本分析與文本挖掘[M].北京:科學(xué)出版社,2018:9.
[29]張斌,尹鑫.中國特色檔案學(xué)基礎(chǔ)理論體系的歷史發(fā)展與當(dāng)代構(gòu)建[J].中國圖書館學(xué)報,2021,47(6):36-49.
[30]蔡之玲,陸陽.基于DKN算法的檔案知識推薦系統(tǒng)模型構(gòu)建[J].檔案學(xué)通訊,2021(2):63-71.
[31][32]張斌,高晨翔,牛力.對象、結(jié)構(gòu)與價值:檔案知識工程的基礎(chǔ)問題探究[J].檔案學(xué)通訊,2021(3):18-26.
作者單位:1.上海大學(xué)文化遺產(chǎn)與信息管理學(xué)院
2.中國人民大學(xué)電子文件管理研究中心