• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      中國革命歷史檔案知識圖譜構(gòu)建

      2022-01-06 12:52:16王帥奇陳曉美孫治文
      蘭臺世界 2021年12期
      關(guān)鍵詞:本體圖譜檢索

      王帥奇 陳曉美 鄧 君 孫治文

      一、引言

      《“十四五”全國檔案事業(yè)發(fā)展規(guī)劃》指出,“深入挖掘紅色檔案資源,充分發(fā)揮檔案在理想信念教育中的重要作用,同時推動文件級目錄向全國革命歷史案資料目錄中心整合匯集,逐步實現(xiàn)目錄分類集中保管,為檔案資源整合共享和開發(fā)利用提供必要基礎(chǔ)條件”[1]1。檔案館存有海量珍貴的革命歷史檔案資源,但由于體制、政策、技術(shù)等囿限,整合共享現(xiàn)狀并不理想。知識圖譜則以其強大的語義處理和開放組織能力,為互聯(lián)網(wǎng)時代的知識化組織和智能應(yīng)用奠定了基礎(chǔ)[2]589。知識圖譜具有解決當(dāng)前革命歷史檔案深度組織與開發(fā)利用中的信息孤島等問題的潛力,這也為革命歷史檔案的開發(fā)利用提供了新的機遇。

      革命歷史檔案,是指l949年10月1日中華人民共和國成立之前,由中國共產(chǎn)黨及其所領(lǐng)導(dǎo)的軍隊、政權(quán)、企事業(yè)單位、社團等社會組織及個人所形成的歸國家所有的檔案[3]12。目前,各級檔案館對館藏革命歷史檔案資源的開發(fā)取得了一定成果,如中央檔案館“紅色檔案”系列[4]1,以及各省級檔案館開展的系列專題活動,然而這些成果多以傳統(tǒng)的文字、視頻等形式為主。傳統(tǒng)的知識組織形式無法全面深入地揭示革命歷史檔案的知識關(guān)聯(lián),目前革命歷史檔案開發(fā)利用在廣度高度深度上均有不足,難以深層次滿足用戶的多樣知識需求?;诖?,本文設(shè)計并構(gòu)建了革命歷史檔案知識圖譜,將相關(guān)知識關(guān)聯(lián)與聚合,為革命歷史檔案資源的深度開發(fā)利用提供理論與實踐支撐。

      二、文獻回顧

      1.歷史檔案資源開發(fā)利用研究。近幾年來,國內(nèi)學(xué)者逐步引入本體、關(guān)聯(lián)數(shù)據(jù)、知識圖譜等技術(shù),從不同切入點對歷史檔案資源開發(fā)利用進行了理論研究與實證探索。李十子[5]1、董慧等[6]564分別以辛亥革命史和國共合作為研究對象,實現(xiàn)了本體推理。賈瓊等[7]105從關(guān)聯(lián)數(shù)據(jù)角度構(gòu)建了歷史檔案資源聚合的理論指導(dǎo)框架和檢索服務(wù)平臺。武漢大學(xué)洪亮團隊[8]24從知識服務(wù)驅(qū)動角度構(gòu)建了唐詩本體模型,對多源異構(gòu)的數(shù)據(jù)源采用知識抽取、知識融合、知識推理等技術(shù)自動構(gòu)建唐詩知識圖譜,實現(xiàn)了對大規(guī)模唐詩的語義化處理。陳濤等[9]34提出了將知識圖譜應(yīng)用于數(shù)字人文研究的系統(tǒng)框架,并結(jié)合關(guān)聯(lián)數(shù)據(jù)和知識圖譜構(gòu)建了中國歷代人物傳記資料庫(CBDB)關(guān)聯(lián)數(shù)據(jù)平臺。北大王軍團隊基于CBDB數(shù)據(jù)集,重點利用知識圖譜對人物關(guān)系進行發(fā)掘,如宋代文人的學(xué)術(shù)師承關(guān)系[10]109。國外對于歷史檔案資源的研究范圍甚廣。歐洲合作數(shù)字檔案基礎(chǔ)設(shè)施(CENDARI)項目[11]61利用元數(shù)據(jù)和本體為第一次世界大戰(zhàn)和中世紀(jì)歷史創(chuàng)建了一個語義基礎(chǔ)架構(gòu)。Pramartha等[12]491構(gòu)建了非遺本體,將其用于印度尼西亞巴厘島土著文化,實現(xiàn)了在線資源的語義檢索。Nassar[13]401基于語義網(wǎng)使用戶能查詢與第一次世界大戰(zhàn)特定主題相關(guān)的事件,并探索特定事件空間和時間的演化。Hyvnen等[14]574基于關(guān)聯(lián)數(shù)據(jù)對傳記字典進行范式轉(zhuǎn)換,通過數(shù)據(jù)鏈接和推理來豐富已有內(nèi)容,根據(jù)傳記文本集合和圖書館等外部數(shù)據(jù)源構(gòu)建了知識圖譜。WarSampo項目[15]1以第二次世界大戰(zhàn)中芬蘭的軍事歷史為例,以本體為基礎(chǔ)構(gòu)建知識圖譜作為共享語義基礎(chǔ)設(shè)施,重點在于實現(xiàn)關(guān)聯(lián)開放數(shù)據(jù)服務(wù)。綜上所述,國內(nèi)外學(xué)者們對于歷史檔案資源開發(fā)利用在理論方法上積累了大量的成果,同時也說明了本體、關(guān)聯(lián)數(shù)據(jù)、語義網(wǎng)、知識圖譜等知識組織工具是歷史檔案資源開發(fā)的重要應(yīng)用。

      2.知識圖譜應(yīng)用研究。知識圖譜是結(jié)構(gòu)化的語義知識庫,用于以符號形式描述物理世界中的概念及其相互關(guān)系。其基本組成單位是“實體—關(guān)系—實體”三元組,以及實體及其相關(guān)“屬性—值”對,實體間通過關(guān)系相互聯(lián)結(jié),構(gòu)成網(wǎng)狀的知識結(jié)構(gòu)[16]582。目前,知識圖譜技術(shù)已經(jīng)廣泛應(yīng)用于影視、公共事件管理、醫(yī)藥、金融等領(lǐng)域。王巍巍等[17]25構(gòu)建了雙語影視知識圖譜(BMKG),建立了影視知識圖譜共享平臺。向軍毅等[18]409構(gòu)建了COVID-19物資知識圖譜,對其進行了評估及可視化展示。付洋等[19]261基于高質(zhì)量百科數(shù)據(jù)和醫(yī)學(xué)文獻構(gòu)建心臟病本體,并結(jié)合自頂向下和自底向上的方法半自動化構(gòu)建心臟病中文知識圖譜。Loster等[20]1883將結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)源集成到一個知識庫中,并據(jù)此構(gòu)建金融知識圖譜。在圖情界和數(shù)字人文領(lǐng)域,知識圖譜也受到了學(xué)者的關(guān)注,如趙雪芹等[21]55構(gòu)建了非遺檔案資源知識圖譜,并以“華縣皮影”非遺檔案為實證解析;雷潔等[22]8面向科研檔案管理構(gòu)建了知識圖譜,并實現(xiàn)了知識導(dǎo)航、智能搜索以及知識推薦等應(yīng)用;歐陽劍等[23]126運用知識圖譜技術(shù)對中國歷代存世典籍進行知識組織;陳玖瑜[24]1依托知識圖譜技術(shù),重點解析民國報紙的內(nèi)容特征與外部特征;Wei[25]335創(chuàng)建了孔子、老子、墨子等百家思想流派的知識圖譜,探討知識圖譜在數(shù)字人文知識組織中的應(yīng)用。學(xué)者們還分別以革命文物[26]1、中共一大人物[27]1、紅色文化資源[28]59等為研究載體,利用知識圖譜技術(shù)從側(cè)面探索革命歷史檔案的開發(fā)利用。

      由此觀知,國內(nèi)外學(xué)者們在歷史檔案資源開發(fā)上的理論探索與技術(shù)應(yīng)用均有了一定進展。研究領(lǐng)域從歷史資源聚合逐漸到各具特點的細分領(lǐng)域,如唐詩、人物關(guān)系、非遺、世界大戰(zhàn)等,從不同視角利用本體、語義網(wǎng)、知識圖譜等進行了一定的研究,實現(xiàn)了歷史檔案資源的深度挖掘與高效利用。但目前較少學(xué)者將研究視角聚焦于革命歷史檔案深度開發(fā),實現(xiàn)革命歷史檔案的關(guān)聯(lián)與聚合。因此,本文突破革命歷史檔案傳統(tǒng)開發(fā)模式,以知識圖譜技術(shù)賦予革命歷史檔案開發(fā)新思維、新視域、新模式,以求推動大數(shù)據(jù)時代革命歷史檔案的數(shù)字轉(zhuǎn)型和價值拓展,促進檔案信息服務(wù)向知識服務(wù)延伸。

      三、革命歷史檔案知識圖譜構(gòu)建

      知識圖譜通常由模式層和數(shù)據(jù)層兩部分構(gòu)成。知識圖譜中的模式也稱概念模型,實質(zhì)是一個知識體系框架,決定了未來數(shù)據(jù)收集的范圍,能夠涵蓋知識圖譜所有的數(shù)據(jù)。目前,多采用本體為知識圖譜建模,借助本體定義的規(guī)則和公理約束知識圖譜的數(shù)據(jù)層。

      革命歷史檔案知識圖譜采用自頂向下的方法構(gòu)建。首先,構(gòu)建知識圖譜的模式層,從最頂層概念開始;其次,細化概念和屬性,形成結(jié)構(gòu)良好的概念層次樹;再進行數(shù)據(jù)采集和信息抽取,將具體的數(shù)據(jù)實例填充到所構(gòu)建的模型之中,具體流程如圖1(見下頁)所示。

      圖1 知識圖譜構(gòu)建流程

      1.革命歷史檔案知識圖譜模式層構(gòu)建。革命歷史檔案范圍甚廣,本研究涉及的革命歷史檔案是指我黨我軍在革命斗爭時期所形成的著作、筆記、日記、講話稿、照片、實物等。本研究對象以發(fā)生在革命歷史時期的戰(zhàn)爭為例,采用本體描述知識圖譜的模式層,刻畫出一個概念體系。核心概念對應(yīng)于本體的類,而概念的細節(jié)對應(yīng)于本體類的具體屬性。經(jīng)過調(diào)研后,筆者發(fā)現(xiàn)目前尚未有革命歷史檔案的領(lǐng)域本體,現(xiàn)有戰(zhàn)爭領(lǐng)域本體[29]409因收集內(nèi)容過于復(fù)雜,不適合于革命歷史檔案。故本研究部分復(fù)用了芬蘭語義計算研究小組WWW1LOD項目中基于CIDOC-CRM構(gòu)建的世界第一次大戰(zhàn)歷史本體[30]335,表示為帶有前綴crm;同時根據(jù)我國革命歷史的特殊情況自定義部分本體,表示為帶有前綴rev。

      (1)革命歷史檔案本體類的構(gòu)建。知識圖譜的概念模型是一個知識體系框架,同樣,在某一知識領(lǐng)域中的關(guān)鍵概念也是領(lǐng)域本體的核心和基礎(chǔ),本體模型的根本目的在于為某一特定領(lǐng)域提供被廣泛接受、認(rèn)可和便于重用共享的概念體系[31]20。本研究中,選取革命歷史時期戰(zhàn)爭為主要數(shù)據(jù)收集對象,結(jié)合軍事領(lǐng)域相關(guān)學(xué)者對于戰(zhàn)爭要素的描述,經(jīng)過專家咨詢,考慮實際情況,提煉出具有代表性、概括性的核心概念作為本體的類。其中,關(guān)于所發(fā)生戰(zhàn)斗的信息、具體參戰(zhàn)部隊和參戰(zhàn)人員信息是最為核心的概念,是獨立的類。時間與地點提供了從時空角度看待戰(zhàn)役,也設(shè)為獨立的類,最終形成5個大類,具體如表1。

      表1 革命歷史檔案本體類及說明

      (2)革命歷史檔案本體屬性的構(gòu)建。概念的細節(jié)在本體中通過類的具體屬性予以描述。本體的屬性分為數(shù)據(jù)屬性和對象屬性。數(shù)據(jù)屬性是對類自身信息的補充和完善,進一步描述類的特征;對象屬性用于建立兩個類之間的語義關(guān)系。屬性既是建立本體類之間關(guān)系的橋梁,也是描述與表達類和實例的性質(zhì)、特征及其關(guān)系的關(guān)鍵,進一步明確了概念體系結(jié)構(gòu)以及概念之間的語義關(guān)系。屬性和類共同構(gòu)成了本體的概念模型,從而實現(xiàn)知識單元的語義關(guān)聯(lián)和知識表示。

      ①數(shù)據(jù)屬性。本研究共構(gòu)建了17個數(shù)據(jù)屬性(見表2),用來對戰(zhàn)役、部隊、人員、時間和地點這五個類進行具體描述。

      表2 革命歷史檔案本體類的數(shù)據(jù)屬性及其說明

      ②對象屬性。對象屬性用于建立兩個類之間豐富而又復(fù)雜的語義關(guān)系,促使知識單元從單維線性向網(wǎng)絡(luò)化轉(zhuǎn)變。例如,“部隊”和“戰(zhàn)役”之間擁有“參加”的關(guān)系。本研究的對象屬性見表3。

      表3 革命歷史檔案本體對象屬性表

      2.革命歷史檔案知識圖譜數(shù)據(jù)層構(gòu)建。革命歷史檔案本體的建立,意味著知識圖譜建模工作的完成。在這一知識體系框架基礎(chǔ)之上,進一步為其增加具體的數(shù)據(jù)實例,最終形成完整的革命歷史檔案知識圖譜。知識圖譜的基本組成單位是“實體—關(guān)系—實體”三元組,以及實體及其相關(guān)“屬性—值”對,實體間通過關(guān)系相互聯(lián)結(jié),構(gòu)成網(wǎng)狀的知識結(jié)構(gòu)。知識圖譜數(shù)據(jù)層的結(jié)構(gòu)由節(jié)點和邊組成,每個數(shù)據(jù)節(jié)點表示一個“實體”,每條邊為實體與實體之間的“關(guān)系”。其中,實體是對客觀個體的抽象,一個人、一場戰(zhàn)役、一支部隊都可以看作一個實體,在圖譜中以節(jié)點的形式表示;關(guān)系是實體與實體之間關(guān)系的抽象,在圖譜中以邊的形式表示,對應(yīng)于本體模型中定義的對象屬性;每個實體都有若干屬性用于描述實體的特征,對應(yīng)于本體模型中定義的數(shù)據(jù)屬性。

      在確定了知識圖譜的節(jié)點、屬性和關(guān)系之后,就可以根據(jù)已有的數(shù)據(jù),結(jié)合Cypher語句去增加數(shù)據(jù)節(jié)點。先將所有實體和屬性導(dǎo)入圖數(shù)據(jù)庫中生成節(jié)點和屬性,再將規(guī)定好的關(guān)系導(dǎo)入圖數(shù)據(jù)庫中,使得眾多的數(shù)據(jù)節(jié)點能夠互相聯(lián)系起來,具體的革命歷史檔案知識圖譜可視化效果如圖2所示。

      圖2 革命歷史檔案知識圖譜可視化效果圖

      四、革命歷史檔案知識圖譜實證研究

      本研究以西路軍西征這一特定歷史時期發(fā)生的戰(zhàn)役為例,進行革命歷史檔案知識圖譜實證研究。首先,構(gòu)建西路軍西征歷史檔案知識圖譜;然后,建立知識圖譜系統(tǒng)。最終實現(xiàn)對相關(guān)人員、地點、部隊及其關(guān)系進行檢索展示,從而對這一歷史知識進行語義關(guān)聯(lián)。

      1.數(shù)據(jù)采集與信息抽取。筆者以甘肅省檔案館開放的西路軍西征歷史檔案為數(shù)據(jù)源,人工抽取了部分人物信息、戰(zhàn)役信息等,存儲于數(shù)據(jù)庫,其中的數(shù)據(jù)片段如圖3所示。

      圖3 部分?jǐn)?shù)據(jù)示例

      2.西路軍西征歷史檔案知識圖譜構(gòu)建。結(jié)合采集整理的信息,筆者依據(jù)數(shù)據(jù)中“實體—屬性—關(guān)系”對應(yīng)關(guān)系將數(shù)據(jù)庫中的數(shù)據(jù)轉(zhuǎn)化為Neo4j圖數(shù)據(jù)庫中的節(jié)點、節(jié)點屬性以及節(jié)點間的關(guān)系,用于生成西路軍西征歷史檔案知識圖譜。數(shù)據(jù)的新增、刪除、更新、查詢等操作,可基于Neo4j采用Cypher語言實現(xiàn)。以創(chuàng)建人員節(jié)點“董振堂”為例,構(gòu)建的Cypher語句如圖4所示。

      圖4 創(chuàng)建節(jié)點Cypher語句

      3.西路軍西征歷史檔案知識圖譜系統(tǒng)。通過進一步開發(fā)知識圖譜系統(tǒng),可以幫助網(wǎng)絡(luò)用戶在客戶端通過瀏覽器即可精準(zhǔn)、直觀地使用遠程知識圖譜獲取信息。例如,根據(jù)網(wǎng)絡(luò)用戶的需求,從海量知識圖譜中檢索特定的人物、戰(zhàn)役或某種關(guān)系的相關(guān)知識圖譜片段,并在客戶端以HTML網(wǎng)頁進行解析展示。在開發(fā)過程中,西路軍西征歷史檔案知識圖譜系統(tǒng)前端采用Vue框架,后臺采用Express框架,使用NodeJS語言進行編寫,數(shù)據(jù)庫選擇MySQL及Neo4j。

      (1)檢索人物。檢索人物模塊主要實現(xiàn)根據(jù)用戶鍵入的目標(biāo)檢索人物,對其三級以內(nèi)的關(guān)系進行檢索,主要包括籍貫、所屬部隊、所參加過的戰(zhàn)役等信息,并以圖譜的形式進行展現(xiàn),如圖5所示。

      圖5 檢索人物模塊示例圖

      例如,當(dāng)前輸入的目標(biāo)人物關(guān)鍵詞為“程世才”,系統(tǒng)輸出有關(guān)“程世才”的特定知識圖譜,清晰直觀地展示出“程世才”出生于湖北省大悟縣,隸屬于西路軍第30軍,擔(dān)任第30軍軍長,與李先念、李天煥、黃鵠顯同屬第30軍戰(zhàn)友,領(lǐng)導(dǎo)第30軍參加過一條山戰(zhàn)斗、古浪峽戰(zhàn)役、永昌戰(zhàn)役及倪家營子戰(zhàn)斗,是西路軍的重要領(lǐng)導(dǎo)之一。

      (2)檢索戰(zhàn)役。檢索戰(zhàn)役模塊主要實現(xiàn)根據(jù)用戶鍵入的目標(biāo)檢索戰(zhàn)役,對其三級以內(nèi)的關(guān)系進行檢索,主要包括戰(zhàn)役起止時間、發(fā)生地點、參戰(zhàn)雙方部隊以及主要涉及的人員等信息,檢索到的結(jié)果如圖6所示。

      圖6 檢索戰(zhàn)役模塊示例圖

      以圖6中檢索的“倪家營子戰(zhàn)斗”為例,戰(zhàn)斗開始于1937年1月中旬,結(jié)束于1937年2月下旬,發(fā)生在今甘肅省張掖市臨澤縣,參戰(zhàn)西路軍部隊為第9軍、第30軍,主要人員有程世才、李先念、孫玉清、陳海松等,參戰(zhàn)國民黨部隊為國民黨新編第二軍,主要人員有馬步芳、馬步康等。

      (3)檢索關(guān)系。檢索關(guān)系模塊主要實現(xiàn)根據(jù)用戶鍵入的兩個查詢實體,檢索二者之間的關(guān)系,將兩個實體通過其他多個實體聯(lián)系起來,具體結(jié)果如圖7所示。

      圖7 檢索關(guān)系模塊示例圖

      以圖7中鍵入的兩個人物“董振堂”“馬步芳”為例,董振堂隸屬于西路軍第5軍,并擔(dān)任第5軍軍長,馬步芳隸屬于國民黨新編第2軍,擔(dān)任新編第2軍軍長兼第100師師長,兩人分別領(lǐng)導(dǎo)兩支部隊參與了血戰(zhàn)高臺這場戰(zhàn)役,是戰(zhàn)場上的直接對手。

      五、總結(jié)與展望

      隨著信息技術(shù)的快速發(fā)展和信息用戶需求的不斷提高,傳統(tǒng)的檔案信息服務(wù)方式已經(jīng)無法滿足信息用戶復(fù)雜多樣的信息需求,利用新技術(shù)為檔案資源知識組織賦能日益成為研究熱點。我國革命歷史檔案資源蘊含著豐富的知識,是我國重要的人文資源和精神寶庫,但是該領(lǐng)域內(nèi)現(xiàn)有研究略顯不足,缺乏對革命歷史檔案的深層次、系統(tǒng)性的開發(fā)利用。

      本研究以西路軍西征歷史檔案為例,在梳理相關(guān)文獻基礎(chǔ)上探索基于知識圖譜的革命歷史檔案資源知識組織模式,重點研究了知識圖譜概念模型和西征軍西征知識圖譜系統(tǒng)的構(gòu)建,實現(xiàn)了檔案資源精細化、可視化組織與利用。本研究揭示了知識單元間復(fù)雜交錯的動態(tài)關(guān)系,促進該領(lǐng)域資源的數(shù)字轉(zhuǎn)型,從而推動革命歷史檔案資源的價值拓展,為相關(guān)領(lǐng)域的學(xué)者開發(fā)革命歷史檔案資源提供理論和實踐參考,從而更好地滿足學(xué)者和用戶對此類資源的信息需求。

      本研究構(gòu)建的革命歷史檔案知識圖譜能揭示知識單元之間的語義關(guān)系,在理論與實證上證明了知識圖譜技術(shù)對革命歷史檔案研究的可行性。在未來研究中,筆者利用知識圖譜在革命歷史檔案中的深入研究將從兩個方面進行:一是加入模型評價步驟,并采用半自動的本體構(gòu)建方法,來完善檔案本體模型;二是擴展相關(guān)革命歷史檔案的來源,充分利用青海省檔案館、寧夏回族自治區(qū)檔案館及相關(guān)市、縣的檔案管理機構(gòu)、西路軍相關(guān)紀(jì)念館等更多來源,更完整、詳細地構(gòu)建該革命歷史時期的革命歷史檔案知識圖譜。

      猜你喜歡
      本體圖譜檢索
      Abstracts and Key Words
      繪一張成長圖譜
      對姜夔自度曲音樂本體的現(xiàn)代解讀
      2019年第4-6期便捷檢索目錄
      補腎強身片UPLC指紋圖譜
      中成藥(2017年3期)2017-05-17 06:09:01
      主動對接你思維的知識圖譜
      專利檢索中“語義”的表現(xiàn)
      專利代理(2016年1期)2016-05-17 06:14:36
      《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
      Care about the virtue moral education
      卷宗(2013年6期)2013-10-21 21:07:52
      雜草圖譜
      咸丰县| 揭东县| 石渠县| 荣昌县| 繁昌县| 龙海市| 略阳县| 怀远县| 柳河县| 本溪| 中江县| 游戏| 铁岭县| 灵川县| 本溪市| 漯河市| 都匀市| 巴楚县| 承德市| 乳山市| 金昌市| 高清| 胶南市| 英山县| 石棉县| 包头市| 含山县| 南陵县| 钦州市| 东莞市| 扎囊县| 拜城县| 霍城县| 墨脱县| 昌江| 噶尔县| 申扎县| 钦州市| 千阳县| 贵港市| 宁波市|