張強 高穎 劉飛等
關(guān)鍵詞:知識重組;紅色歷史人物;知識圖譜;智能服務(wù);GIS技術(shù)
DOI:10.3969/j.issn.1008-0821.2023.07.010
[中圖分類號]G250;K928.6 [文獻標識碼]A [文章編號]1008-0821(2023)07-0096-13
中國共產(chǎn)黨的百年奮斗史就是一部紅色文化生成、發(fā)展、提煉的歷史。利用好紅色資源,對于學(xué)習(xí)黨史、賡續(xù)精神血脈、傳承紅色基因至關(guān)重要。2021年2月1日,中共中央決定在全黨開展黨史學(xué)習(xí)教育,習(xí)近平總書記指出:在黨史學(xué)習(xí)教育中,要充分運用紅色資源,用好紅色資源,傳承紅色基因,把紅色江山世世代代傳下去。在《關(guān)于實施中華優(yōu)秀傳統(tǒng)文化傳承發(fā)展工程的意見》《關(guān)于實施革命文物保護利用工程(2018-2022年)的意見》等重要文件中,均對如何加強紅色文化資源的數(shù)字化建設(shè)作出了重要指示,旨在通過數(shù)字化技術(shù)賦能紅色文化資源的可持續(xù)性保護與創(chuàng)新性利用,真正讓紅色文化活起來,傳下去。紅色歷史人物資源作為紅色文化資源的重要組成部分,推動紅色歷史人物資源的數(shù)字化組織、存儲、應(yīng)用,對了解紅色歷史人物、開展黨史學(xué)習(xí)教育、弘揚紅色文化精神具有重要的理論意義和實踐價值。
近年來,數(shù)字技術(shù)在人文領(lǐng)域得到了廣泛應(yīng)用,深刻改變了紅色歷史人物資源的數(shù)字化組織、存儲、應(yīng)用的方式和方法。知識圖譜作為當前最為常見的一種知識表示、存儲、推理、應(yīng)用的技術(shù)手段,為數(shù)據(jù)從孤立轉(zhuǎn)向關(guān)聯(lián)提供了助力,在眾多研究領(lǐng)域都得到了廣泛應(yīng)用。將其應(yīng)用于紅色歷史人物資源上,一方面,為紅色歷史人物資源的知識關(guān)聯(lián)與可視化呈現(xiàn)提供了可能;另一方面,為紅色歷史人物資源的智能服務(wù)與知識發(fā)現(xiàn)提供了新的方式,進一步提高了紅色歷史人物資源的知識服務(wù)效果。同時,GIS技術(shù)在人文科學(xué)中的應(yīng)用愈加廣泛,解決了傳統(tǒng)人文科學(xué)研究中重“時”輕“地”的研究現(xiàn)狀。紅色歷史人物的軌跡與我黨的偉大革命斗爭息息相關(guān),將GIS技術(shù)應(yīng)用于紅色歷史人物的資源上,可直觀展現(xiàn)人物的人生軌跡,對了解紅色人物的歷史提供了新的視角。
為探究上述問題,本研究利用知識圖譜技術(shù),探究紅色歷史人物資源的數(shù)字化組織、存儲與應(yīng)用的方式和方法,以實現(xiàn)紅色歷史人物的知識關(guān)聯(lián)。同時,引入GIS技術(shù),以實現(xiàn)紅色歷史人物的軌跡展示。最后設(shè)計了紅色歷史人物智能服務(wù)的原型系統(tǒng),為用戶查詢和信息交互提供便利。
1相關(guān)研究
聚焦本研究的研究問題和研究內(nèi)容來看,相關(guān)的研究主要有領(lǐng)域知識圖譜構(gòu)建研究、時空軌跡研究、基于知識圖譜的智能問答研究。
1.1數(shù)字人文領(lǐng)域知識圖譜構(gòu)建研究
知識圖譜作為一種有效的知識組織和存儲方法,在各領(lǐng)域都得到了廣泛應(yīng)用,當前的數(shù)字人文研究大多以項目制開展,因此,在知識圖譜構(gòu)建過程中主要采用自頂向下的構(gòu)建方式,即先構(gòu)建領(lǐng)域Sche-ma或本體模型,再導(dǎo)入實例數(shù)據(jù)。如針對口述檔案資源,王阮等通過先構(gòu)建口述記憶資源本體模式層,再以國家圖書館中東北抗日聯(lián)軍的老戰(zhàn)士口述記憶資源來構(gòu)建口述記憶資源的知識圖譜,并進行了多維的知識發(fā)現(xiàn)研究。針對文物信息資源,高勁松等通過構(gòu)建可移動文物的本體模型,并基于該本體構(gòu)建了可移動文物的知識圖譜,最終實現(xiàn)了可移動文物的關(guān)聯(lián)數(shù)據(jù)發(fā)布。針對人物信息資源,楊海慈等基于中國歷代人物傳記資料庫,通過構(gòu)建宋代的學(xué)術(shù)師承本體來開發(fā)宋代學(xué)術(shù)師承的知識圖譜,并集成了RelFinder可視化工具來檢索和展示知識圖譜中的實體關(guān)系。具體到本文的研究對象來看,紅色歷史人物是指參加過革命實踐,并為革命做出過貢獻的革命人物,且紅色人物常常會與其他紅色文化資源交叉融合。劉偉麗使用七步法構(gòu)建中共一大人物的本體模型,利用人工處理的辦法獲取中共一大人物數(shù)據(jù)構(gòu)建中共一大人物的知識圖譜。張云中等通過構(gòu)建紅色歷史人物的Schema和問答服務(wù)框架,并以老上大歷史人物資源半自動化地搭建了紅色歷史人物的知識圖譜。本研究所需構(gòu)建的知識圖譜涉及人物、事件、機構(gòu)等多維度,上述研究為本研究中的知識圖譜構(gòu)建提供了研究思路和基礎(chǔ)。
1.2時空軌跡研究
時空數(shù)據(jù)是包含時間、空間兩種屬性的數(shù)據(jù),傳統(tǒng)的人文研究多是基于時間維度而忽略了空間維度的信息。近年來,以GIS技術(shù)為代表的地理信息方法廣泛介入到數(shù)字人文的研究中,為數(shù)字人文視角下的空間研究提供了極大助力。文學(xué)界一般稱之為文學(xué)地理學(xué),而在歷史學(xué)中一般稱之為歷史地理信息,張瑋等提出了一種基于文本關(guān)聯(lián)與時空可視化結(jié)合來研究宋詞的新視角,讓人文學(xué)者可以從多維度的視角來探析宋詞文本的語義信息。位通等以《朱熹年譜長編》為例,將時間和空間信息重組為一維信息,并基于GIS技術(shù)開發(fā)前端可視化平臺,以便人文學(xué)者從時間、空間兩個維度分析年譜信息。黃鵬程等以《晚晴簃詩匯》為例,探究了清代詩人的地理分布差異與時空維度的關(guān)系特性。湯萌等首先利用民國時期的測繪地圖實現(xiàn)經(jīng)緯度的信息匹配,后探究了民間文書內(nèi)容在空間分布上的可視化路徑。在開源平臺的構(gòu)建工作方面,主要有王兆鵬等開發(fā)的“唐宋文學(xué)編年地圖”,其提供了對文學(xué)歷史人物的時空一體化展示,可從整體上探究人物的時空軌跡,但并不支持用戶的自定義使用。浙江大學(xué)學(xué)術(shù)地圖平臺有眾多以用戶自定義數(shù)據(jù)來制作的人物軌跡圖,但仍然集中于全局展示上,無法展示具體的人物信息??梢姡壳癎IS引入數(shù)字人文領(lǐng)域的工作更多的是數(shù)據(jù)可視化,仍需要改進達到數(shù)據(jù)故事化的效果。
1.3基于知識圖譜的智能問答研究
知識圖譜自提出之日起就被作為提供智能搜索服務(wù)的知識庫,基于知識圖譜的智能問答是當前智能問答的主要研究領(lǐng)域。而根據(jù)知識庫內(nèi)容的不同,智能問答的方法可分為如下4類:①基于模板規(guī)則的問答方法,主要通過構(gòu)造模板參數(shù)和模板庫來返回用戶的問題,如汽車領(lǐng)域的智能問答系統(tǒng),該方法的缺點是需要大量的人工來構(gòu)造問題模板和相應(yīng)的答案,當問題與已有模板完全匹配時效果較好;②基于語義解析的問答方法,主要通過自然語言處理技術(shù)來解析問題文本,通過分詞、詞性標注、句法分析等提取文本中的實體或關(guān)系,通過查詢返回目標實體或關(guān)系,如館藏文物資源智能問答系統(tǒng)。該方法主要用在小規(guī)模數(shù)據(jù)集上,且問題的領(lǐng)域性強時效果較好;③基于深度學(xué)習(xí)的問答方法,該方法可利用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)來捕捉路徑信息,從而預(yù)測實體之間的隱藏關(guān)系,如中文醫(yī)療問答匹配系統(tǒng)。該方法需要標注大量的訓(xùn)練數(shù)據(jù),主要用在具有大規(guī)模數(shù)據(jù)集上;④多種方法的融合,如融合模板匹配和深度學(xué)習(xí)的孔子世家譜的知識問答系統(tǒng)。上述基于不同知識庫內(nèi)容采用的問答方法,為本研究的智能問答服務(wù)提供了借鑒意義。
綜上所述,目前在紅色歷史人物資源的相關(guān)研究主要集中于知識組織與存儲,缺乏了知識服務(wù)功能,主要存在如下不足:一是紅色歷史人物資源來源廣,結(jié)構(gòu)復(fù)雜,目前的領(lǐng)域知識圖譜構(gòu)建的數(shù)據(jù)源多為結(jié)構(gòu)化數(shù)據(jù)并采用人工方式導(dǎo)入,當數(shù)據(jù)集較多時無法勝任。二是在智能問答上,要么需要大量的人工構(gòu)建模板,要么需要大量的真實問答數(shù)據(jù)集合,而針對紅色歷史人物這一特殊領(lǐng)域都較難適用。三是在智能服務(wù)方面,或是從知識圖譜的靜態(tài)關(guān)聯(lián)展示人手,或是從時空維度的動態(tài)軌跡展示人手,鮮有將二者結(jié)合的思路,無法達到“動靜結(jié)合”的效果。且大多仍停留在學(xué)術(shù)研究上,未能構(gòu)建出智能服務(wù)的原型系統(tǒng),無法直接供用戶使用?;诖?,本研究將結(jié)合上述研究的不足,力圖解決相關(guān)問題。
2研究框架
在對紅色歷史人物資源重組梳理的基礎(chǔ)上,參考了已有關(guān)于領(lǐng)域知識圖譜構(gòu)建的流程,本研究構(gòu)建了如圖1所示的紅色歷史人物知識重組與智能服務(wù)研究框架,主要包括本體考察、數(shù)據(jù)來源、知識抽取、知識融合、知識存儲、知識服務(wù)6個部分。
2.1本體考察與數(shù)據(jù)來源
此部分主要是結(jié)合本研究的研究對象和內(nèi)容來對目前學(xué)界已有的成熟本體進行考察,以便更好地選擇復(fù)用本體模型。在此之前,還需要充分考慮領(lǐng)域?qū)<乙庖?,厘清相關(guān)的概念類和關(guān)系,避免產(chǎn)生歧義的類和關(guān)系,進而構(gòu)建本研究的本體模型,以便有效地對紅色歷史人物進行知識表示。在本體考察層通過復(fù)用已有本體后,構(gòu)建了紅色歷史人物的知識表示模型,還需要根據(jù)數(shù)據(jù)來源層的數(shù)據(jù)特點導(dǎo)入相應(yīng)的案例數(shù)據(jù)并更新本體。本研究的數(shù)據(jù)來源主要包括各省市黨史方志網(wǎng)、網(wǎng)絡(luò)百科資源、紙質(zhì)紅色檔案資源等。首先,將從網(wǎng)絡(luò)上爬取的紅色歷史人物資源和人工抽取的紙質(zhì)紅色檔案資源存入MySQL關(guān)系型數(shù)據(jù)庫中,然后,將數(shù)據(jù)庫中保存的數(shù)據(jù)格式轉(zhuǎn)化為鍵值對形式的JSON數(shù)據(jù),以便后續(xù)的知識抽取工作。同時,將爬取到的所有紅色歷史人物圖片資源以人物名稱命名保存在文件夾中,因圖片資源無需像文本資源再經(jīng)過抽取和融合步驟,故直接應(yīng)用于后續(xù)的知識存儲中。
2.2知識抽取
知識抽取是指從多源異構(gòu)的數(shù)據(jù)中抽取出研究所需要的各類信息形成知識進行存儲。根據(jù)前文所構(gòu)建的本體模型所需求的信息,主要抽取出紅色歷史人物的屬性信息、實體信息、關(guān)系信息。屬性信息主要包括對人物、時間、空間、事件、機構(gòu)等概念類的描述,實體信息則是某一實例的具體信息,如具體的人物姓名、軍銜、出生時間、出生地點、參與戰(zhàn)役等信息。關(guān)系抽取主要是以三元組的形式返回抽取到的節(jié)點名稱和關(guān)系,本研究采用結(jié)合神經(jīng)網(wǎng)絡(luò)和語法規(guī)則的方式抽取文本中的關(guān)系,針對多源異構(gòu)的數(shù)據(jù)分別采用恰當?shù)姆椒ǎ梢宰畲蠡靥崛〕鋈M知識,為知識圖譜數(shù)據(jù)層提供高質(zhì)量的數(shù)據(jù)。
2.3知識融合
在獲取到新知識后,還需要對其進行整合處理,以消除歧義和矛盾。主要包括共指消解和語義消歧兩種,共指消解是指某些實體或關(guān)系可能會有多種表達方式,語義消歧是指某個特指的名稱可能對應(yīng)多個不同的實體或關(guān)系。如人物的姓名、別名、化名等不盡相同,但是所指的實體是一致的,也有可能不同的人物所用的化名是一樣的。此外,在時間實體的表述上會存在共指現(xiàn)象,如“民國”二十八年和1939年實際為同一年。在關(guān)系的表述上同樣也存在共指現(xiàn)象,如參與事件和參加事件的本質(zhì)含義是一樣的。本研究選擇結(jié)合人工和文本相似度的方式來進行知識融合,人工的方式主要處理領(lǐng)域性較強的實體歧義,文本相似度用來處理常規(guī)類型的相似實體和關(guān)系。在文本相似度計算方法中,本著簡潔易用的原則選擇了基于余弦距離的相似度度量方法。
2.4知識存儲
經(jīng)過融合之后的知識實體需要先進行質(zhì)量評估之后才能加入到知識庫中,融合之后的實體、屬性和關(guān)系用RDF框架來表示。RDF(Resource Descrip-tion Framework)在形式上表示為SPO(Subject Predi-cate Object)三元組,RDF由節(jié)點和邊組成,節(jié)點表示實體或?qū)傩?,邊表示實體間或?qū)嶓w和屬性之間的關(guān)系。RDF常用的序列化方式有:RDF/XML、N-Triples、Turtle、RDFa、JSON-LD等。本研究選擇JSON-LD(JSON for Linking Data)以鍵值對的形式來存儲RDF數(shù)據(jù),再通過調(diào)用Python語言中用來連接Ne04J圖數(shù)據(jù)庫的Py2neo包,將JSON格式的三元組知識存入到圖數(shù)據(jù)庫Neo4J中,主要原因在于,基于JSON-LD格式的三元組知識在本研究構(gòu)建的Web環(huán)境中兼容性和互操作性更好。同時CIS系統(tǒng)所識別的數(shù)據(jù)格式為CSV文件,還需要對JSON格式的文件利用Python語言中用于數(shù)據(jù)處理的Pandas包,將其轉(zhuǎn)化為CSV格式的文件,再將其導(dǎo)入到GIS中,在底圖基礎(chǔ)上疊加數(shù)據(jù)層來生成人物的軌跡路線圖。由此,就完成了靜態(tài)的知識關(guān)聯(lián)和動態(tài)的軌跡展示。
2.5知識服務(wù)
知識存儲后的根本目標是為了更好地組織、管理和使用知識,因此,在完成知識存儲的基礎(chǔ)上還需要考慮如何服務(wù)用戶?;诖?,本研究構(gòu)建了紅色歷史人物的智能服務(wù)系統(tǒng),其包含兩種智能服務(wù)的形式,一類是關(guān)于紅色歷史人物知識的檢索和人物生平軌跡的檢索;另一類是關(guān)于紅色歷史人物知識的智能問答。在知識檢索系統(tǒng)上,主要通過名稱匹配來返回相關(guān)的圖譜知識和人物軌跡;而在智能問答系統(tǒng)上主要采用自然語言處理技術(shù)將問題語句進行分詞和句法分析.通過識別問句中的實體和關(guān)系,再調(diào)用Py2neo庫在圖數(shù)據(jù)庫Neo4j中查詢目標實體并返回結(jié)果,同時,涉及人物實體的答案還會返回該人物的圖片資源。
3實證研究
3.1本體考察與構(gòu)建
紅色歷史人物這一特殊身份特征,決定了在構(gòu)建人物本體時需要重點關(guān)注與紅色和歷史相關(guān)聯(lián)的語義信息,如軍銜、戰(zhàn)役、軍隊等實體及其關(guān)系。為了更好地對紅色歷史人物知識進行全面簡潔有效地表達,并充分考慮到知識服務(wù)與知識庫構(gòu)建的匹配程度,采用咨詢專家意見和問卷調(diào)查結(jié)合的方式,確定紅色歷史人物的關(guān)鍵概念和關(guān)系。專家意見可以保證本研究所構(gòu)建本體模型的全面性和準確性,而面對普通用戶的問卷調(diào)查可以了解到關(guān)于紅色歷史人物知識的聚焦點,有利于后續(xù)知識服務(wù)的開展。根據(jù)以上需求,在本體構(gòu)建時主要考察了相關(guān)領(lǐng)域較為知名的社會網(wǎng)絡(luò)人物本體FOAF[23]、上圖名人手稿檔案庫、國際文獻工作委員會的概念參考模型CIDOCCRM。
根據(jù)對上述本體的考察和分析,在充分考慮復(fù)用已有本體的基礎(chǔ)上,本研究復(fù)用了人物類(foaf:Person)、地點類(E53: Place)、事件類(crm:E-vent),同時采用了自定義thf( red historical figures)來作為本體命名空間,命名了時間類(thf:Time)、機構(gòu)類(foaf:Organization)和資源類(thf: Resource),共計6個類別來滿足紅色歷史人物類別描述的需要。其中,時間類的描述還包括具體的某一點的時間點和只能宏觀確定的某一時間段,因此,時間類(thf:Time)下設(shè)立了抽象時間類(TimeAbstract)和具體時間類(TimeSpecific)。最終構(gòu)建的本體模型共有6大類,其中,人物類與時間類下又分為兩個子類。
1)人物類
人物類(foaf:Person)是本研究的主體研究對象即紅色歷史人物本身,紅色歷史人物除了參與革命斗爭的軍人外,還有如“七一勛章”獲得者馬毛姐這樣為紅色革命作出突出貢獻的人民群眾。因此,人物類又分為軍人類(thf: Soldier)與非軍人類(thf:No-Soldier)兩個子類,根據(jù)人物在本研究分析的地位將其作為本體構(gòu)建的核心類,與其他五大類均存在對象屬性關(guān)系,人物類與人物類也存在著諸如父母、子女、兄弟、同學(xué)、戰(zhàn)友等對象關(guān)系。人物類主要的數(shù)據(jù)屬性是描述了代表紅色歷史人物的核心信息,如:姓名、別名、化名等,其中,軍人類相對于非軍人類有特殊的數(shù)據(jù)屬性,如軍銜等。關(guān)于描述人物的時間、地點、事件、機構(gòu)等信息,通過類與類間的對象關(guān)系與其余類下數(shù)據(jù)屬性進行關(guān)聯(lián),以使得邏輯更為清晰。
2)時間類
時間類(thf:Time)指的是人物、機構(gòu)、事件及資源具有的時間信息,子類包括抽象時間類(thf:TimeAbstract)和具體時間類(thf: TimeSpecific)。抽象時間類下的數(shù)據(jù)屬性主要是無法具體到某年的時代信息,如20世紀30年代等,具體時間類下的數(shù)據(jù)屬性一般為具體到年、月、日的精確時間信息,如1921年7月1日等。
3)地點類
地點類(E53:Place)與時間類相似,指的是人物、機構(gòu)、事件等具有的空間信息均歸于地點類下。與其余類之間通過對象屬性關(guān)聯(lián),如人物的出生地點、事件的發(fā)生地點、機構(gòu)的成立地點等,而類本身具有的數(shù)據(jù)屬性主要是舊時地點名稱、現(xiàn)代地點名稱、經(jīng)緯度信息等。
4)機構(gòu)類
機構(gòu)類(thf:lnstitution)是指紅色歷史人物在革命戰(zhàn)斗期間所創(chuàng)建、組織或參加過的重要組織和軍隊。一般與人物類、時間類、地點類和事件類間形成對象屬性關(guān)系,機構(gòu)類之間也存在機構(gòu)改編和下轄機構(gòu)的對象關(guān)系。機構(gòu)類的數(shù)據(jù)屬性為組織名稱和軍隊名稱。
5)事件類
事件類(crm:Event)是指紅色歷史人物在革命戰(zhàn)斗期間經(jīng)歷的重大事件,是構(gòu)成人物相關(guān)知識的核心要素,與人物類、時間類、地點類之間均存在對象屬性關(guān)系,如事件的發(fā)生時間、發(fā)生地點、結(jié)束時間等。事件類的數(shù)據(jù)屬性為事件內(nèi)容。
6)資源類
資源類(thf:Resource)是紅色歷史人物相關(guān)知識的資源類型,多源異構(gòu)的數(shù)據(jù)源就決定了紅色歷史人物具有多種多樣的形式化信息,用來表達人物類的資源信息。數(shù)據(jù)屬性主要包括影像資源、圖片資源、文本資源等。
概念類定義之后需要明確類與類之間的對象屬性,以梳理出人物與人物、人物與時間、人物與地點、人物與事件、人物與機構(gòu)、事件與時間、事件與地點、機構(gòu)與時間的關(guān)系等。部分概念類的對象屬性信息如表1所示。
類與類之間的對象屬性從本體層定義了概念之間的關(guān)系,豐富了概念類在關(guān)系和特征方面的具體描述,而部分核心類除了具有類間的對象屬性以外,還具有表達自身特征的數(shù)據(jù)屬性,部分數(shù)據(jù)屬性如表2所示。
最終,本研究構(gòu)建的紅色歷史人物知識本體模型共有6個核心類、4個子類、24個對象屬性和19個數(shù)據(jù)屬性,設(shè)計出的紅色歷史人物的本體模型如圖2所示。實線表示類與類之間的對象屬性關(guān)系,虛線表示核心類與本身具有的數(shù)據(jù)屬性關(guān)系。
3.2數(shù)據(jù)來源
本研究選取了1955—1965年被授予將軍軍銜的皖籍紅色歷史人物進行實證研究。主要原因在于,安徽省作為著名的中國紅色革命策源地和人民軍隊的發(fā)源地,涌現(xiàn)了大量為中華人民共和國做出重大貢獻的人物。而開國將軍作為其中的典型代表,歷史貢獻卓越,且人物之間的關(guān)系較為豐富,背后的知識價值較高。因此,從歷史地位和數(shù)據(jù)來源綜合考慮,最終以團隊搜集到的128名皖籍開國將軍為研究對象以滿足本研究的需求。利用自編Python爬蟲程序分別爬取了安徽省及下屬16個省轄市的黨史方志網(wǎng)有關(guān)上述人物的內(nèi)容,并以爬取的百度百科人物介紹資源和人工抽取紅色紙質(zhì)檔案資源作為補充數(shù)據(jù)來源,同時,爬取了百度百科的人物圖像作為人物的圖片資源,以便后續(xù)原型系統(tǒng)中的人物呈現(xiàn)。爬取黨史方志網(wǎng)的部分Python代碼如圖3所示。
3.3知識抽取與融合
3.3.1知識抽取
本研究主要基于句法規(guī)則和神經(jīng)網(wǎng)絡(luò)來進行知識抽取。知識圖譜存儲是以三元組的形式,因此,本研究主要是對屬性和關(guān)系進行抽取,抽取時會一并將實體抽取出來。句法規(guī)則的三元組抽取,調(diào)用了哈工大語言云平臺LTP(Language Technology Platform)進行句法規(guī)則抽取,形成XML文件后進行解析。神經(jīng)網(wǎng)絡(luò)的三元組抽取,調(diào)用了Jiagu自然語言處理工具,該工具提供了知識圖譜的關(guān)系抽取功能,以BiLSTM模型為基礎(chǔ),通過大規(guī)模的中文語料庫訓(xùn)練而成,其中大部分為百科語料。因此,百科資源主要用神經(jīng)網(wǎng)絡(luò)進行抽取,而黨史方志網(wǎng)的資源主要通過句法規(guī)則來抽取。兩種方法提取的結(jié)果示例分別如圖4、圖5所示。
3.3.2知識融合
經(jīng)過知識抽取之后的部分實體和關(guān)系可能會存在歧義現(xiàn)象,如實體李克農(nóng)和李峽公實為同一人,這樣的實體類型無法通過常規(guī)的算法進行融合,即算法判斷的相似性程度無法與實際情況匹配,因此,針對實體上存在的歧義,主要通過人工構(gòu)建自定義的同義詞詞典來進行融合。而在關(guān)系名稱上則選擇了余弦相似度,并結(jié)合哈工大同義詞詞林(擴展版)來計算關(guān)系名稱的近似程度,余弦相似度的計算公式如式(1)所示。
參考已有研究,一般認為相似度similarity取值超過0.8時就認為a、b兩個關(guān)系名稱屬于同一關(guān)系,并予以統(tǒng)一替換。
3.4知識存儲
本研究使用Neo4J圖數(shù)據(jù)庫來進行知識的存儲,Neo4J作為一種圖形式的存儲模式,與傳統(tǒng)的基于關(guān)系型數(shù)據(jù)庫相比,具有更好的知識關(guān)聯(lián)、知識查詢與知識推理的能力。Neo4J數(shù)據(jù)庫中由標簽、節(jié)點、關(guān)系及節(jié)點屬性4類要素組成,其中將類與標簽、實例與節(jié)點、對象屬性與關(guān)系、數(shù)據(jù)屬性與節(jié)點屬性一一對應(yīng),由此就完成了紅色歷史人物的本體模式層到圖譜數(shù)據(jù)層的匹配映射。如人物類與時間類組成的對象屬性:{洪學(xué)智,出生時間,1913年2月2日},標簽分別為人物類與時間類,實例分別為“洪學(xué)智”與“1913年2月2日”,關(guān)系為“出生時間”。
本研究采用了Neo4J桌面版Neo4J(1.4.15),圖數(shù)據(jù)庫版本為4.4.5,JDK的依賴版本為jdk-11.0.14。經(jīng)過知識融合步驟完成了三元組數(shù)據(jù)的整理后,利用Python語言的第三方包Py2neo調(diào)用Cypher語句來將三元組數(shù)據(jù)存儲到圖數(shù)據(jù)庫Neo4J中。最終,本研究構(gòu)建了由1855個節(jié)點和3523條邊組成的知識圖譜,如圖6所示(為使圖片美觀,對部分節(jié)點進行了隱藏)。
在知識存儲環(huán)節(jié),還需要將JSON格式的數(shù)據(jù)文件轉(zhuǎn)化為GIS可識別的CSV文件,CSV格式文件主要以逗號來分割實體信息,以表頭充當本體中的類。GIS中需要經(jīng)緯度信息才能生成點和路徑,本研究在經(jīng)緯度信息的確定上使用了百度地圖的經(jīng)緯度提取器。GIS底圖則采用了中華人民共和國自然資源部提供的天地圖(審圖號:GS( 2022) 2124號),通過調(diào)用天地圖的API接口并在底圖層上疊加數(shù)據(jù)層來完成時空軌跡的存儲與展示。
3.5知識服務(wù)
在多維度重組了紅色歷史人物的知識的基礎(chǔ)上,本研究構(gòu)建了紅色歷史人物智能服務(wù)的原型系統(tǒng)。本系統(tǒng)采用了B/S網(wǎng)絡(luò)結(jié)構(gòu)模式,在開發(fā)模式上使用了前后端分離技術(shù)。前端采用了經(jīng)典的HTML、CSS、JavaScript來完成對網(wǎng)頁端的頁面布局、格式渲染和功能交互。后端采用了圖數(shù)據(jù)庫Neo4J和關(guān)系數(shù)據(jù)庫MySQL,通過采用統(tǒng)一的接口調(diào)用后端數(shù)據(jù)庫,為前端頁面提供統(tǒng)一的JSON格式數(shù)據(jù)服務(wù),前后端的交互上采用了目前流行的Flask Web框架,F(xiàn)lask框架具有輕量、簡潔、靈活和易上手等特點,符合本研究的需求,整體的智能服務(wù)系統(tǒng)架構(gòu)和前端功能展示如圖7所示。
本系統(tǒng)提供了圖譜展示、檢索系統(tǒng)、問答系統(tǒng)三大功能。其中,圖譜展示中包含關(guān)系上傳和關(guān)系全貌兩個子功能,檢索系統(tǒng)中包含關(guān)系檢索和軌跡檢索兩個子功能。
關(guān)系上傳支持從前端頁面上傳用戶自建的txt格式三元組數(shù)據(jù),利用Py2neo庫讀取數(shù)據(jù)生成對應(yīng)的知識圖譜,極大方便了用戶與系統(tǒng)的交互行為。關(guān)系全貌展示了128位紅色歷史人物的知識關(guān)系全貌圖,通過在前端使用數(shù)據(jù)模塊中的JSON數(shù)據(jù),再調(diào)用Echarts插件中的力導(dǎo)向圖來實現(xiàn)知識關(guān)系全貌圖,與圖6的后端使用圖數(shù)據(jù)庫Neo4J存儲的效果相比,只是樣式上有所不同,知識關(guān)聯(lián)的本質(zhì)是一樣的。因此,本節(jié)主要介紹智能服務(wù)系統(tǒng)中的檢索系統(tǒng)和問答系統(tǒng)。
3.5.1檢索系統(tǒng)
檢索系統(tǒng)提供了關(guān)系檢索和軌跡檢索兩種方式,關(guān)系檢索是指在前端頁面直接輸入某個歷史人物,系統(tǒng)通過對輸入的姓名使用Py2neo庫在后端Neo4J圖數(shù)據(jù)庫中進行檢索,將返回的相關(guān)節(jié)點和關(guān)系信息轉(zhuǎn)為JSON格式數(shù)據(jù),并在前端中利用Echarts插件的力導(dǎo)向圖展示出來。這里以黨的情報和保衛(wèi)工作的卓越領(lǐng)導(dǎo)者與組織者,開國上將中唯一一位從未領(lǐng)兵打仗過的李克農(nóng)上將為例,通過在關(guān)系檢索系統(tǒng)中輸入“李克農(nóng)”后點擊檢索,頁面返回如圖8所示。
在前端展示中,針對人物的出生地點進行了不同顏色的區(qū)分,可以看出,李克農(nóng)出生地點為合肥市,節(jié)點顏色為深紅,同鄉(xiāng)的將軍包括開國少將戴正華和顧鴻。需要說明的是,李克農(nóng)同志原出生地點為安徽省巢湖市居巢區(qū),2011年,經(jīng)國務(wù)院批準,安徽省人民政府宣布撤銷地級巢湖市,原地級巢湖市所轄的居巢區(qū)劃歸合肥管轄。因此,本研究將李克農(nóng)的出生地點認定為合肥市。又如李克農(nóng)的戰(zhàn)友胡底出生地點為六安,其節(jié)點顏色為淡紅,另一戰(zhàn)友錢壯飛出生地為浙江湖州,在本系統(tǒng)中不屬于安徽省下轄市的統(tǒng)一以其他地點標注,顏色為灰色。同時,右下角提供了隨機人物名稱以供用戶點擊來檢索其關(guān)系信息,方便用戶進行檢索。
而在軌跡檢索方面,也是通過對輸入名稱的匹配,在后端調(diào)用相關(guān)人物的經(jīng)緯度信息和事件信息,在天地圖上進行疊加顯示,并以時間順序?qū)⑺械攸c進行串聯(lián),直觀展示了人物的空間軌跡。圖9展示了中國人民解放軍現(xiàn)代后勤工作的開拓者,在世界軍隊歷史上絕無僅有的兩次被授予上將軍銜的洪學(xué)智上將主要生平軌跡圖。
由圖9可知,洪學(xué)智將軍自1913年2月出生于安徽省六安市金寨縣,先后參加商南起義、紅軍長征、平津戰(zhàn)役、朝鮮戰(zhàn)爭等事件。中華人民共和國成立之后,被調(diào)任到吉林省農(nóng)業(yè)機械廳、重工業(yè)廳等單位任職。1977年后重回中央工作,歷任國務(wù)院國防工業(yè)辦公室主任、黨組書記,1980年后任解放軍原總后勤部部長兼政治委員,中共中央軍委副秘書長、軍委委員,2006年在北京逝世。
3.5.2問答系統(tǒng)
為了更好地服務(wù)用戶,為用戶的提問提供精準答案,本研究構(gòu)建了前后端交互的知識問答系統(tǒng),采用了基于語義解析的智能問答方式。首先,當用戶在前端頁面輸入問題之后,系統(tǒng)會讀取該文本數(shù)據(jù),接著調(diào)用哈工大LTP語言云平臺對問句文本進行語義解析,識別出問句文本中的實體詞和關(guān)系詞;其次,實體詞通過自定義詞典來解決實體歧義問題,關(guān)系詞通過調(diào)用哈工大同義詞詞典來解決關(guān)系歧義問題,通過調(diào)用Py2neo包在后端檢索匹配獲取目標實體;最后,以JSON格式返回,通過Echarts插件進行圖譜繪制,對涉及答案實體為人物的,還會返回相應(yīng)人物的圖片資源和簡介資源。如用戶在檢索“趙瑛的丈夫是誰?”時,LTP語義解析出實體為“趙瑛”,關(guān)系為“丈夫”,此時實體沒有歧義,而關(guān)系依據(jù)同義詞詞典,此時無論是“丈夫”還是“外子”會統(tǒng)一為關(guān)系“丈夫”,此時通過Py2neo庫后端會返回實體“李克農(nóng)”,并在前端展示出檢索問題涉及的實體和關(guān)系,因?qū)嶓w為人物還會顯示人物相應(yīng)的圖片和簡介,結(jié)果如圖10所示。
4結(jié)語
數(shù)字人文技術(shù)為傳統(tǒng)人文知識的組織、關(guān)聯(lián)和服務(wù)提供了新方法,如何有效地利用這些新技術(shù)為紅色歷史資源的組織、關(guān)聯(lián)和服務(wù)是一項極具價值的研究課題。本研究借鑒了自頂向上的模型思想,以收集到的皖籍128名開國將軍為對象,構(gòu)建了紅色歷史人物的智能服務(wù)原型系統(tǒng),設(shè)計了從多來源、多模態(tài)數(shù)據(jù)中,提取紅色歷史人物資源構(gòu)建智能服務(wù)系統(tǒng)的通用框架,為相關(guān)領(lǐng)域的研究提供了新方法與新視角。在具體實施過程中,一方面,利用知識圖譜技術(shù)實現(xiàn)了紅色歷史人物資源的知識組織和關(guān)聯(lián);另一方面,利用GIS技術(shù)實現(xiàn)了紅色歷史人物資源的動態(tài)軌跡展示,拓展了當前數(shù)字人文研究的新模式,也為紅色歷史人物資源“活起來”提供了新路徑。
本研究構(gòu)建的智能服務(wù)原型系統(tǒng)已初步具備了一體化的功能,可以為圖書館、博物館、紀念館等構(gòu)建紅色歷史資源智慧型數(shù)據(jù)庫提供借鑒,方便其開展黨史學(xué)習(xí)、紅色教育等活動。針對用戶而言,既有直接檢索人物關(guān)聯(lián)信息的查詢方式,也有根據(jù)問句進行智能回答的問答方式,降低了用戶檢索的難度,提高了人機交互的體驗感。此外,本研究的方法具有一定的通用性和可移植性,針對不同的歷史人物資源特征,只需要在知識本體建模上根據(jù)實際需求進行修改,即可進行原型系統(tǒng)的復(fù)用。下一步,本研究主要從兩方面進行更進一步的研究,一是拓展紅色歷史人物的樣本集和數(shù)據(jù)集,構(gòu)建大規(guī)模數(shù)據(jù)集下訓(xùn)練的深度學(xué)習(xí)智能問答系統(tǒng)。二是探究多元化方式的智能服務(wù),如采用微信小程序、智能服務(wù)APP等多渠道,多維度來開展多元化的服務(wù),力圖將研究成果落地扎根。