趙維維 段燕鴿 陳瑋
摘 要:紅色檔案資源承載著紅色歷史的證據(jù)鏈條,蘊藏著我們黨永葆本色的生命密碼。知識圖譜作為高效知識網(wǎng)絡,可實現(xiàn)紅色檔案資源知識互聯(lián),為紅色檔案資源的深層次開發(fā)提供契機。本文在明確紅色檔案資源及數(shù)據(jù)來源的基礎(chǔ)上,通過知識建模、知識采集、知識抽取、知識融合、知識存儲與展現(xiàn)5個環(huán)節(jié)構(gòu)建紅色檔案資源知識圖譜,以期充分挖掘紅色檔案資源間的潛在關(guān)聯(lián),為資源深層次的開發(fā)與應用提供可視化知識顯示。
關(guān)鍵詞:紅色檔案資源;紅色檔案;知識圖譜;本體構(gòu)建
基金項目:2022年度河南省檔案局檔案科技項目《新時代文化傳承與發(fā)展背景下河南紅色檔案資源協(xié)同開發(fā)利用研究》(批準號:2022—R—039)研究成果。
1 引言
紅色檔案資源承載著黨的歷史,蘊藏著黨的初心使命,是黨史學習教育最為生動的教科書。近年來,在數(shù)字人文研究的浪潮下,學界不斷探討紅色檔案資源的開發(fā)利用方法,主動引入數(shù)字人文方法。知識圖譜作為代表性的數(shù)字技術(shù)之一,以結(jié)構(gòu)化的形式描述客觀世界中概念、實體及其關(guān)系的高效知識組織網(wǎng)絡,使得實體之間關(guān)系以圖的方式進行知識表示,可實現(xiàn)知識互聯(lián)。知識圖譜自提出后,已在智慧金融、智慧醫(yī)療、智慧政務等多個領(lǐng)域落地應用,并逐漸引起檔案學者的關(guān)注。如趙雪芹將其與工程檔案相結(jié)合開展研究[1],鄧君將其引入口述歷史檔案資源研究[2],宋雪雁將其與檔案文獻研究相結(jié)合[3]。并未有學者將知識圖譜引入到紅色檔案資源開發(fā)之中進行探討。加之在數(shù)字人文場域下,紅色檔案資源開發(fā)無法割棄計算機技術(shù)。 本研究將知識圖譜與紅色檔案資源相結(jié)合,在明確紅色檔案資源定義及數(shù)據(jù)來源的基礎(chǔ)上,通過知識建模、知識采集、知識抽取、知識融合、知識存儲與展現(xiàn)構(gòu)建紅色檔案資源知識圖譜,以期充分挖掘紅色檔案資源間的潛在關(guān)聯(lián),支撐資源的深層次開發(fā)與多元化的利用需求。
2 紅色檔案資源知識圖譜構(gòu)建意義
2.1 紅色檔案資源的界定
學術(shù)界鮮少對紅色檔案資源的概念開展專門且深入的理論探討,并存在將紅色檔案和紅色檔案資源作為同一概念進行使用的情況。如郭曉文指出紅色檔案資源包含革命和建設時期形成的且能夠體現(xiàn)中國共產(chǎn)黨和人民群眾崇高革命精神的珍貴紅色檔案和多形態(tài)紅色資源[4]。翟樂認為紅色檔案資源主要包括中共黨史、 新中國史、改革開放史和社會主義發(fā)展史的檔案資源[5]。陳艷紅基于鄭慧對紅色檔案的界定,提出紅色檔案資源是由黨領(lǐng)導的機關(guān)、團體、企事業(yè)單位等在政治、經(jīng)濟、軍事等活動中形成的歷史記錄[6]。 本文立足于“大檔案”視角,并結(jié)合現(xiàn)有觀點,主張紅色檔案資源定義為中國共產(chǎn)黨領(lǐng)導機關(guān)、團體、企事業(yè)單位、人民群眾等在革命、建設和改革時期形成的能夠體現(xiàn)黨和人民崇高精神的紅色檔案及紅色資源。紅色檔案資源蘊含著黨的初心使命和光榮傳統(tǒng),彰顯黨和人民的開拓精神和家國情懷[7],是見證黨艱苦奮斗歷程的第一手史料,能夠?qū)Ω锩穼崱Ⅻh的歷史發(fā)展、中國共產(chǎn)黨人的精神譜系等進行立體化展現(xiàn),可作為四史教育的生動教材。我們要把紅色檔案資源保管好、管理好、利用好,賡續(xù)紅色血脈[8] 。
2.2 紅色檔案資源分布特點
2.2.1分布散落。紅色檔案資源的形成和保存方式使其呈現(xiàn)出散落分布的特點。紅色檔案資源形成于特定的地理空間,僅記錄該區(qū)域的革命史實。我國地域廣闊,黨和人民在延安、大別山區(qū)、蘇北老區(qū)、閩西地區(qū)、南京、上海等地都留下了革命遺址遺跡,這使得紅色檔案資源較為分散。更為重要的是,大部分紅色檔案資源在形成后便被保存于形成地區(qū)的博物館、紀念館、檔案館、圖書館、文物館等單位以及國家檔案館,還有部分散落在企業(yè)、社會組織和個人手中,并未實現(xiàn)統(tǒng)一化收集,使得紅色檔案資源散落分布,形成“信息孤島”。
2.2.2知識組織程度低。知識組織程度即知識的序化程度,可從顯性和隱性兩個方面進行考慮。從顯性方面來看,不同地區(qū)和機構(gòu)之間交流合作較少,并未形成統(tǒng)一的紅色檔案資源組織方式,難以實現(xiàn)成果整合。從隱性方面來看,紅色檔案資源的知識組織較少應用關(guān)聯(lián)數(shù)據(jù)、知識圖譜、數(shù)字地圖等技術(shù),缺乏語義互操作和統(tǒng)一的元數(shù)據(jù)著錄標準[9],很難實現(xiàn)紅色檔案資源的細粒度表示及深層次的語義挖掘,使得紅色檔案資源內(nèi)部信息的揭示程度不夠。如何收集、組織和知識化開發(fā)紅色檔案資源,并支撐學術(shù)研究,是我們需要進一步解決的問題。
2.3 知識圖譜在紅色檔案資源開發(fā)中應用的意義
知識圖譜作為資源關(guān)聯(lián)的技術(shù)方法,具有語義化、知識化、數(shù)據(jù)化等特點,能夠描述紅色檔案資源實體及相互關(guān)系并將其構(gòu)成網(wǎng)狀結(jié)構(gòu),基于此可充分挖掘紅色檔案資源間潛在關(guān)聯(lián)并實現(xiàn)紅色檔案資源的知識整合。 知識圖譜的引入可揭示紅色檔案資源間隱含關(guān)系。知識圖譜以有向圖的方式清晰展現(xiàn)節(jié)點、節(jié)點關(guān)系及圖譜整體特征,使得開發(fā)者可以依據(jù)紅色檔案資源知識圖譜依次尋找相鄰節(jié)點并發(fā)現(xiàn)關(guān)聯(lián)信息,進而挖掘出資源間隱含的多維復雜關(guān)系并獲得啟發(fā)。知識圖譜在語義層面上對實體、概念以及實體間的關(guān)聯(lián)關(guān)系進行形式化的描述,能夠揭示紅色檔案資源語義信息并以靈活的網(wǎng)系結(jié)構(gòu)實現(xiàn)繁雜紅色檔案資源的知識聚合,便于開發(fā)者快速定位、發(fā)現(xiàn)并提取所需資源,并為紅色檔案資源進一步的知識發(fā)現(xiàn)提供可能途徑。
3 紅色檔案資源知識圖譜構(gòu)建的數(shù)據(jù)來源
3.1 紅色檔案
紅色檔案是黨和人民在革命和建設過程中形成的具有保存價值的原始記錄[10],包含博物館、檔案館、文化館、紀念館等機構(gòu)收藏的以及社會遺留的紙質(zhì)檔案、音像檔案和實物檔案,應作為紅色檔案資源知識圖譜的主要數(shù)據(jù)來源。
3.2 紅色資源
紅色資源指的是黨領(lǐng)導人民在革命和建設過程中形成的具有保存價值的資源[11],包含歷史紀念館、革命紀念館、陳列館、黨史館、人物故居、革命遺址遺跡、烈士陵園、烈士紀念碑、革命歌曲、革命詩歌、文物、文獻等物質(zhì)形態(tài)的紅色資源,黨史事件、革命人物、重要會議、革命精神等非物質(zhì)形態(tài)的紅色資源。
4 紅色檔案資源知識圖譜構(gòu)建框架
4.1 知識建模
知識建模是構(gòu)建紅色檔案資源知識圖譜的邏輯架構(gòu),即紅色檔案資源本體構(gòu)建。其作為構(gòu)建紅色檔案資源知識圖譜的基礎(chǔ),可明確紅色檔案資源的類、屬性及其關(guān)系,并形成計算機可以直接理解和處理的語言。因七步法和 Protégé應用較為廣泛,且 Protégé具有可視用戶界面、開源用戶代碼等優(yōu)點[12],故此本文選用斯坦福大學的“七步法”和 Protégé來構(gòu)建紅色檔案資源本體。紅色檔案資源本體的構(gòu)建,需先明確其范圍和特點,并在查找可復用本體的基礎(chǔ)上,列出本體的類和子類,繼而定義類的對象屬性和數(shù)據(jù)屬性。
4.1.1界定核心概念。本體的構(gòu)建需以明確紅色檔案資源的范圍和特點為基礎(chǔ),繼而參考復用本體詞表對資源類、子類、類屬性、子類屬性的描述,如 FOAF 本體和 CIDOC CRM 概念參考模型,以提高本體的參考價值和可復用性,推進知識共享。圍繞紅色檔案資源內(nèi)容,基于機器學習從大量紅色檔案資源文本中抽取核心概念,并將其中具有概括性的核心概念作為本體的類,形成時間、地點、人物、事件、事物、資源 6 個類及其子類,如圖 1 所示。其中,時間類復用 CIDOC CRM 的 E52,包含時間點和時間段兩個子類,如人物的出生死亡時間點、事物的形成時間點、事件發(fā)生的時間段等;地點類包含收藏機構(gòu)和地理位置 2 個子類, 即收藏紅色檔案資源的機構(gòu)和紅色檔案資源內(nèi)容所記載的地理位置信息;人物類復用 FOAF 本體的 Agent,分為個體、群體和組織機構(gòu) 3 個子類[13];事件類依據(jù)紅色檔案資源內(nèi)容進行定義,因紅色檔案資源記載的事件主要圍繞革命、建設和改革展開,故此可劃分為革命事件、建設事件、改革事件 3 個子類;事物類復用 CIDOC CRM 中的 E7 進行定義,指的是紅色檔案資源所描述的實物對象,包含自然物和人造物 2 個子類,即地形、山脈等自然物,黨章、指南針、軍用水壺等人造物;載體類借鑒 CIDOC CRM 中的 E55 進行定義,指的是紅色檔案資源所表達的物理表現(xiàn),包含文本、圖像、音頻、視頻和實物 5 個子類。
4.1.2添加屬性。本體屬性涵括對象屬性(Object Property)和數(shù)據(jù)屬性(Data Property),紅色檔案資源的對象屬性包含人物與時間、人物與地點、人物與事 件、時間與事件等,創(chuàng)建對象屬性可建立不同類之間的關(guān)系,便于紅色檔案資源知識圖譜的關(guān)聯(lián)檢索和知識發(fā)現(xiàn)[14];紅色檔案資源的數(shù)據(jù)屬性包含名稱、曾用名、民族、性別、籍貫、職位等個體信息,機構(gòu)名稱、機構(gòu)曾用名等組織機構(gòu)信息,名稱、地址、郵編等收藏機構(gòu)信息,創(chuàng)建數(shù)據(jù)屬性可消除實體的歧義性,如圖 2 所示。
4.1.3繪制本體模型。在明確紅色檔案資源本體和屬性后,運用 Protégé繪制本體模型,實現(xiàn)紅色檔案資源本體的可視化展示。如圖 3 所示。
4.2 知識采集
知識采集,指的是對多源異構(gòu)的數(shù)據(jù)源進行獲取并統(tǒng)一存儲。紅色檔案資源的來源分散和結(jié)構(gòu)復雜多樣的特性使得知識采集工作較為復雜。一是運用數(shù)字化轉(zhuǎn)換設備和激光掃描設備,將博物館、檔案館、紀念館、革命遺址遺跡、烈士陵園等收藏的紙質(zhì)檔案資源、音像檔案資源、實物檔案資源進行數(shù)字化轉(zhuǎn)換;二是利用八爪魚、爬山虎等爬蟲工具在網(wǎng)站上爬取相關(guān)紅色資源;三是廣泛征集社會遺存的紅色檔案資源并進行數(shù)字化。因數(shù)字化后的圖像、實物檔案資源仍為非結(jié)構(gòu)化數(shù)據(jù),不利于進一步的數(shù)據(jù)處理,故此將其轉(zhuǎn)化為文本格式,以便于后續(xù)的知識抽取。
4.3 知識抽取
知識抽取對數(shù)據(jù)深層語義的理解及處理具有重要意義,指的是在知識采集基礎(chǔ)上將非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化內(nèi)容的過程,包含實體抽取、關(guān)系抽取和屬性抽取 3 個部分。實體作為進一步抽取屬性和關(guān)系的基礎(chǔ),其準確性和完整度至關(guān)重要。實體抽取旨在從紅色檔案資源文本中識別實體邊界及其類型,提取紅色檔案資源的關(guān)聯(lián)數(shù)據(jù)。關(guān)系作為知識圖譜的重要組成部分,是實體及其屬性的補全。關(guān)系抽取是從文本中抽取出兩個或多個實體語義關(guān)系,如(人物,出生,時間)(人物,參與,事件)等,可解決實體語義鏈接問題[15]。實體和關(guān)系的抽取方法有階段獨立式抽取和聯(lián)合抽取。因階段獨立式的抽取方法不可避免存在著誤差傳播、上下文語義關(guān)系利用不足等問題。故此,選用實體關(guān)系聯(lián)合抽取的方法,即基于 BERT 的中文實體關(guān)系聯(lián)合抽取模型,該模型包含頭實體抽取和相應的尾實體與關(guān)系抽取,充分考慮了句子的整體信息,可解決誤差傳 播和上下文語義關(guān)系利用不足等問題[16]。
4.4 知識融合
知識融合,指的是集成不同結(jié)構(gòu)的紅色檔案資源。在知識融合的過程中,需綜合考慮概念層和數(shù)據(jù)層,通過本體匹配、實體對齊、知識冗余和矛盾消除等, 形成高質(zhì)量的數(shù)據(jù)庫。概念層的知識融合,是將紅色檔案資源本體模型與其他本體模型的類、屬性進行融合;數(shù)據(jù)層的知識融合包含實體對齊、知識冗余與矛盾消除等。因知識抽取所形成的實體、關(guān)系和屬性集合極大可能存在冗余信息、沖突信息等“噪聲”,故需通過知識融合進行降噪處理。如異名字段的匹配與映射、 同名字段的異議與區(qū)分問題。紅色檔案資源中存在“多人同名”現(xiàn)象,我國史上兩位將軍名字均為方國南,其中一位參加長征、遼沈、平津等戰(zhàn)役,為新中國的誕生做出重大貢獻,另一位作為新中國軍銜授予的重要人物,獲得了一級解放勛章,可依據(jù)檔案和史料進行區(qū)分,辨別人物實體差異。
4.5 知識存儲與展現(xiàn)
現(xiàn)有的知識圖譜主要采用 MarkLogic、gStore、Virtuoso、Stardog、Neo4j 等進行存儲[17]。因 Neo4j 圖數(shù)據(jù)庫更加注重數(shù)據(jù)的關(guān)聯(lián)關(guān)系,且具有架構(gòu)靈活、高擴展、高性能等優(yōu)點[18],故選用 Neo4j 圖數(shù)據(jù)庫存儲紅色檔案資源知識圖譜,應用Java語言和 Neo4j圖數(shù)據(jù)庫的 CREATE 語句創(chuàng)建圖結(jié)構(gòu),運用 Browser 工具完成紅色檔案資源知識圖譜的可視化展示。如圖 4 所示,Neo4j 中不同顏色節(jié)點代表不同類型的實體,邊則代表了實體的相關(guān)關(guān)系,可清晰呈現(xiàn)實體之間關(guān)系,實現(xiàn)實體與關(guān)系的高效搜索與遍歷,也為后續(xù)的知識應用奠定基礎(chǔ)。
結(jié)語
紅色檔案資源見證了黨的崢嶸歲月,是深挖革命和建設年華、開展黨史學習教育的生動教材。我們要為國守史,深入挖掘紅色檔案資源,承擔起傳承和弘揚紅色精神的時代重任。紅色檔案資源知識圖譜的構(gòu)建為紅色檔案資源開發(fā)利用注入了 新視角與新路徑,可助力紅色檔案資源的有效整合、深層次挖掘與多維知識發(fā)現(xiàn),充分發(fā)揮紅色檔案資源存史資政育人的作用,推進紅色基因傳承與紅色文化傳播。
參考文獻
[1]趙雪芹,楊一凡,于文靜.基于Neo4j圖數(shù)據(jù)庫的工程檔案知識圖譜構(gòu)建及應用[J].檔案與建設,2022(5):48-51.
[2]鄧君,王阮.口述歷史檔案資源知識圖譜與多維知識發(fā)現(xiàn)研究[J].圖書情報工作,2022,66(7):4-16.
[3]宋雪雁,張偉民,張祥青.基于檔案文獻的清代祭祀禮器知識圖譜構(gòu)建研究[J].圖書情報工作,2022,66(3):140-151.
[4]郭曉文.赤峰市紅色檔案教育資源及其開發(fā)利用[J].赤峰學院學報(漢文哲學社會科學版),2021,42(12):40-43.
[5]翟樂,李金格.數(shù)字人文視閾下紅色檔案資源的遴選、組織與開發(fā)策略研究[J].情報科學,2021,39(12):174-178+186.
[6]陳艷紅,陳晶晶.數(shù)字人文視域下檔案館紅色檔案資源開發(fā)的時代價值與路徑選擇[J].檔案學研究,2022(3):68-75.
[7]王向女,姚婧.“互聯(lián)網(wǎng)+”時代長三角地區(qū)紅色檔案資源開發(fā)與利用的新方向[J].檔案與建設,2020(8):4-8.
[8]習近平.用好紅色資源 賡續(xù)紅色血脈 努力創(chuàng)造無愧于歷史和人民的新業(yè)績[J].中國人大,2021(19):6-9.
[9]翟樂,李金格.數(shù)字人文視閾下紅色檔案資源的遴選、組織與開發(fā)策略研究[J].情報科學,2021,39(12):174-178+186.
[10]周林興,姜璐.紅色檔案資源開發(fā)中的敘事表達研究[J].檔案學研究,2022(4):4-9.
[11]許徐琪.試析紅色資源的時代價值與傳承路徑[J].浙江檔案,2021(12):13-16.
[12]馬翠嫦,曹樹金.網(wǎng)絡學術(shù)文檔細粒度聚合本體構(gòu)建研究[J].圖書情報工作,2019,63(24):107-118.
[13]趙雪芹,李天娥,曾剛.面向數(shù)字人文圖像資源的知識元本體構(gòu)建及關(guān)聯(lián)展示研究[J/OL].情報理論與實踐:1-11[2022-08-27].http://kns.cnki.net/kcms/detail/11.1762.G3.20220411.1643.006.html.
[14]宋雪雁,張偉民,張祥青.基于檔案文獻的清代祭祀禮器知識圖譜構(gòu)建研究[J].圖書情報工作,2022,66(3):140-151.
[15]徐增林,盛泳潘,賀麗榮,王雅芳.知識圖譜技術(shù)綜述[J].電子科技大學學報,2016,45(4):589-606.
[16]李代祎,李忠良,嚴麗.一種面向中文的實體關(guān)系聯(lián)合抽取方法研究[J/OL].小型微型計算機系統(tǒng):1-9[2022-08-30].http://kns.cnki.net/kcms/detail/21.1106.TP.20220727.1525.004.html.
[17]杭婷婷,馮鈞,陸佳民.知識圖譜構(gòu)建技術(shù):分類、調(diào)查和未來方向[J].計算機科學,2021,48(2):175-189.
[18]高勁松,張強,李帥珂.可移動文物的知識圖譜構(gòu)建及關(guān)聯(lián)數(shù)據(jù)存儲——以湖北省博物館為例[J].現(xiàn)代情報,2022,42(4):88-98.
(作者單位:固始縣檔案館 鄭州航空工業(yè)管理學院)