• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      民間歷史文獻(xiàn)知識圖譜構(gòu)建
      ——以徽州文書為例*

      2022-12-17 07:49:38陳海玉鐘起兵
      圖書館論壇 2022年11期
      關(guān)鍵詞:歷史文獻(xiàn)徽州文書

      陳海玉,王 聰,陳 雨,鐘起兵,周 婧

      0 前言

      民間歷史文獻(xiàn)是館藏地方特色資源,反映了某一區(qū)域政治經(jīng)濟(jì)、文化教育、風(fēng)俗民情、生產(chǎn)活動(dòng)等社會(huì)各方面的翔實(shí)樣態(tài),包括契約、賬簿、書信、譜牒、手稿、日記等種類,是開展社會(huì)史、區(qū)域史、民族史研究的“活化石”。大數(shù)據(jù)時(shí)代的館藏民間文獻(xiàn)數(shù)字信息與日俱增,由大量異構(gòu)數(shù)據(jù)組成的學(xué)科知識體系復(fù)雜、時(shí)空跨度特征明顯,信息載體表征多樣,隱性信息解讀存在難度,難以滿足用戶多樣化、高層次的利用需求。因此,如何深入揭示數(shù)據(jù)間的關(guān)聯(lián)性,為文本理解、智能搜索、知識服務(wù)、決策分析提供支撐,將是今后民間文獻(xiàn)研究的重要課題。

      知識圖譜(Knowledge Graph)開啟了新興技術(shù)與傳統(tǒng)人文知識的對話,從技術(shù)維度拓展了地方民間文本的內(nèi)容闡釋和解讀方式,將海量、分散、異構(gòu)的民間文獻(xiàn)知識以直觀、可視化的圖譜方式展現(xiàn)出來,建立碎片數(shù)據(jù)間的互聯(lián),以智能方式進(jìn)行組織揭示,增強(qiáng)社會(huì)對民間歷史文化的理解與認(rèn)可,促進(jìn)地方民間文化的傳承與推廣。

      1 國內(nèi)外研究與實(shí)踐

      近年來,關(guān)聯(lián)語義技術(shù)快速發(fā)展。融合本體和知識圖譜技術(shù)對歷史文獻(xiàn)資源知識進(jìn)行開發(fā),以多維度文化場域呈現(xiàn)文本立體敘事,拓展文檔語料庫研究空間,成為圖情檔領(lǐng)域的研究焦點(diǎn)。

      (1)資源本體構(gòu)建。本體作為知識組織的重要工具,是目前信息資源檢索、語義Web應(yīng)用、異構(gòu)數(shù)據(jù)融合等多領(lǐng)域的研究熱點(diǎn)。何琳等利用NLP技術(shù),設(shè)計(jì)先秦典籍本體模型,探討本體實(shí)例自動(dòng)獲取技術(shù),并以《左傳》為實(shí)驗(yàn)語料加以檢驗(yàn)[1]。Vincenzo等以CIDOC-CRM為框架,設(shè)計(jì)包含戲劇實(shí)體、數(shù)據(jù)結(jié)構(gòu)、描述框架的戲劇文化本體模型[2]。目前,大規(guī)模本體自動(dòng)進(jìn)化和自學(xué)習(xí)的研究層次尚淺,個(gè)性化知識發(fā)現(xiàn)和智能Web服務(wù)等方面的應(yīng)用將成為重要研究方向[3]。

      (2)領(lǐng)域知識圖譜構(gòu)建。領(lǐng)域知識圖譜融合了關(guān)聯(lián)數(shù)據(jù)和語義體系特征[4],在生物醫(yī)療、金融電商、教育科研等多個(gè)領(lǐng)域逐步得到應(yīng)用,并拓展至文化機(jī)構(gòu)館藏文獻(xiàn)服務(wù)的研發(fā)中。彭博基于文物實(shí)體關(guān)系抽取、命名實(shí)體識別等,構(gòu)建“中國十大傳世名畫”知識圖譜,系統(tǒng)解讀文物知識信息[5]。Carriero等依據(jù)意大利文化遺產(chǎn)和活動(dòng)部(MIBAC)的官方總目錄及相關(guān)編碼設(shè)計(jì)條例,搭建了涵蓋1.69億個(gè)三元組及8.2萬個(gè)文化實(shí)體組成的意大利文化遺產(chǎn)知識圖譜,可憑借SPARQL查詢語言檢索資源之間的關(guān)聯(lián)關(guān)系[6]。此外,相關(guān)研究還包括“大規(guī)模存世典籍”“中醫(yī)古籍”“標(biāo)準(zhǔn)文件”等知識圖譜構(gòu)建,以及信息資源知識問答系統(tǒng)創(chuàng)建等。

      (3)多元知識圖譜構(gòu)建方法的融合與創(chuàng)新。由于存在研究對象數(shù)據(jù)特征個(gè)性化及相關(guān)開放資源稀缺等情況,學(xué)者們?yōu)榇苏隙喾N知識圖譜構(gòu)建方法,甚至開展針對特定研究對象的創(chuàng)新研究,以解決實(shí)際應(yīng)用中知識組織過程的難題。比如,熊晶等在甲骨學(xué)知識圖譜構(gòu)建過程中,融合了基于文獻(xiàn)計(jì)量學(xué)的科學(xué)知識圖譜(MKD)和基于知識庫的知識圖譜(KG)兩種技術(shù),以解決數(shù)據(jù)多源異構(gòu)、開放鏈接資源稀缺等問題[7]。

      2 館藏民間歷史文獻(xiàn)資源建設(shè)現(xiàn)狀

      我國各地留存著種類豐富的民間歷史文獻(xiàn),其中以清水江文書、徽州文書、黔南州水書、石倉契約、僑批文獻(xiàn)、民間家譜族譜等影響最大。它們是研究特定區(qū)域社會(huì)發(fā)展的一手資料,能夠從歷史和現(xiàn)實(shí)角度對當(dāng)?shù)刈匀滑F(xiàn)象、社會(huì)現(xiàn)象和群體活動(dòng)方式、規(guī)律等予以全方位、立體式的反映[8]。其資源建設(shè)呈現(xiàn)以下特點(diǎn)。

      一是數(shù)量多,分布散。我國民間歷史文獻(xiàn)存世數(shù)量巨大,除部分由各地圖書館、檔案館、博物館、高校和研究機(jī)構(gòu)收藏外,大部分散存于民間社會(huì)家庭和個(gè)人中。僅就目前系統(tǒng)整理的契約文書而言,數(shù)量在1,000萬件左右[9]。以徽州文書為例,總量估計(jì)100萬件以上。其中,中山大學(xué)收藏有自明初至新中國成立初期近600年間的徽州民間歷史文獻(xiàn)近39萬件,上海交通大學(xué)收藏的徽州文書有近10萬件,中國人民大學(xué)博物館有近3萬余件的收藏[10],其他如安徽省檔案館、安徽大學(xué)徽學(xué)研究中心、黃山博物館、中國國家博物館、中國社會(huì)科學(xué)院歷史研究所等機(jī)構(gòu)都有萬件以上藏量,美國哈佛燕京圖書館、英國大英圖書館等海外多地也有流布。地域空間的廣泛分布形成信息碎片化和信息孤島局面,不利于民間文獻(xiàn)資源的整合規(guī)劃和共享利用。

      二是內(nèi)容揭示單一,深層描述不足。后現(xiàn)代主義提倡的多維敘事與去中心化理念,推動(dòng)地方知識與區(qū)域文化成為相關(guān)領(lǐng)域的研究熱點(diǎn)。學(xué)者越來越重視將地方性敘事融入中華民族的歷史性宏觀敘事中,力求將地方的、民間的知識上升為國家層面的普適性經(jīng)驗(yàn),亦將民間文獻(xiàn)置于更廣闊的歷史時(shí)空中進(jìn)行研究,展現(xiàn)出相對清晰完整的地方社會(huì)歷史脈絡(luò)。民間歷史文獻(xiàn)積淀了一地多元社會(huì)的歷史文化,具有較強(qiáng)的地域性、綜合性和真實(shí)性。然而,傳統(tǒng)有限的信息呈現(xiàn)和單一的文本解讀方式,忽視了民間文獻(xiàn)在歷史時(shí)空、社會(huì)結(jié)構(gòu)、文化生活、人群關(guān)系等層面的有機(jī)聯(lián)系,不能形成立體交叉的知識體系,成為民間歷史文獻(xiàn)研究的窠臼,其研究視角與方法亟須突破創(chuàng)新。

      三是數(shù)據(jù)庫建設(shè)較有成效,但知識組織缺乏深度。近年在數(shù)據(jù)庫建設(shè)上,保護(hù)和傳承民間文獻(xiàn)資源備受重視。有關(guān)徽州文書的數(shù)據(jù)庫,已建成徽州文書書目數(shù)據(jù)庫、徽州文書特色文獻(xiàn)數(shù)據(jù)庫、徽州民間歷史文獻(xiàn)數(shù)據(jù)庫、徽州文書數(shù)據(jù)庫等多個(gè);針對清水江文書,已開展數(shù)字化整理與著錄;其他類民間文獻(xiàn)的特色庫、專題庫也逐步在建??傊?,民間歷史文獻(xiàn)的資源形態(tài)由“物理態(tài)”向“數(shù)字態(tài)”和“數(shù)據(jù)態(tài)”轉(zhuǎn)化,數(shù)據(jù)庫建設(shè)成為發(fā)展趨勢?,F(xiàn)有的數(shù)據(jù)庫主要采用傳統(tǒng)目錄學(xué)的整理方法建庫,提供文獻(xiàn)目錄、圖像或全文文本,也逐步開展基于數(shù)字人文的數(shù)據(jù)庫體系與功能設(shè)計(jì),但元數(shù)據(jù)著錄標(biāo)準(zhǔn)缺乏統(tǒng)一,知識聚類、文本挖掘和語義關(guān)聯(lián)較少,在展現(xiàn)文獻(xiàn)蘊(yùn)含的完整信息方面還有很大提升空間[11]。未來民間歷史文獻(xiàn)數(shù)據(jù)庫的發(fā)展,將夯實(shí)針對某類民間文獻(xiàn)的本體庫,提供更精細(xì)化的知識分析服務(wù)[12]。

      3 民間歷史文獻(xiàn)知識圖譜構(gòu)建流程設(shè)計(jì)

      民間歷史文獻(xiàn)知識圖譜的邏輯框架可概括為概念模式層和實(shí)體數(shù)據(jù)層。概念模式層涉及本體模型的構(gòu)建,即以系統(tǒng)化的方式梳理元素所描述的“類”,定義“類”與“類”之間的關(guān)系,以“屬性”明確表達(dá)這些關(guān)系,進(jìn)而形成立體化模型。實(shí)體數(shù)據(jù)層則完成知識圖譜的構(gòu)建,通過深層數(shù)據(jù)間的關(guān)系,將離散、分布存儲(chǔ)的“單庫”民間歷史文獻(xiàn)轉(zhuǎn)化成基于“邏輯鏈條”關(guān)系的關(guān)聯(lián)數(shù)據(jù),其本質(zhì)是以RDF三元組形式表征知識結(jié)構(gòu),通過知識抽取完成概念模式層的實(shí)例化呈現(xiàn)[13]?;诖耍疚膶⒚耖g歷史文獻(xiàn)知識圖譜構(gòu)建在結(jié)構(gòu)上劃分為前期的數(shù)據(jù)資源層、概念模式層、實(shí)體數(shù)據(jù)層以及后期的知識應(yīng)用層,內(nèi)容涵蓋數(shù)據(jù)采集處理、知識表示、知識抽取、知識融合、知識推理等方面(見圖1)。

      圖1 民間歷史文獻(xiàn)知識圖譜構(gòu)建流程

      首先,數(shù)據(jù)獲取整合是知識圖譜構(gòu)建的基礎(chǔ)和實(shí)體數(shù)據(jù)的來源保障。大量離散且結(jié)構(gòu)各異的民間歷史文獻(xiàn)需要完成“量”的整合,即由計(jì)算機(jī)可閱讀的數(shù)據(jù)集轉(zhuǎn)型整合為相應(yīng)的計(jì)算機(jī)可理解的數(shù)據(jù)集。一方面,將散存于檔案館、圖書館、高校等文化機(jī)構(gòu)或民間的歷史文獻(xiàn)作為主要數(shù)據(jù)源;另一方面,針對異構(gòu)文獻(xiàn)資源的數(shù)據(jù)整合,需分析目標(biāo)數(shù)據(jù)的特征,利用OCR、NLP等技術(shù)將半結(jié)構(gòu)化和非結(jié)構(gòu)化的文獻(xiàn)資源進(jìn)行結(jié)構(gòu)化、數(shù)據(jù)化調(diào)整及修正,并儲(chǔ)存于基礎(chǔ)數(shù)據(jù)庫中以備后續(xù)使用。

      其次,民間歷史文獻(xiàn)本體構(gòu)建是知識圖譜構(gòu)建的核心。獲取及整合后的數(shù)據(jù)需完成“態(tài)”的轉(zhuǎn)變,即將基礎(chǔ)數(shù)據(jù)資源轉(zhuǎn)換為數(shù)字化實(shí)體標(biāo)注資源,并完成實(shí)體集所蘊(yùn)含概念、屬性的界定。對此,本研究考慮復(fù)用相關(guān)領(lǐng)域本體,設(shè)計(jì)民間歷史文獻(xiàn)專題資源本體模型。將關(guān)聯(lián)的民間歷史文獻(xiàn)資源列為頂層概念,向下擴(kuò)展文獻(xiàn)主題類型(如契約、家譜、訴訟等)、區(qū)域、年代等二級概念類,并依據(jù)一定標(biāo)準(zhǔn)細(xì)分相應(yīng)子類。同時(shí),進(jìn)行各概念類的屬性標(biāo)注,如添加某地契文書的事主、交易金額、交易時(shí)間等信息,形成民間歷史文獻(xiàn)實(shí)體概念數(shù)據(jù)集,完成概念模式層的搭建。

      最后,完成民間歷史文獻(xiàn)知識抽取、知識匹配融合與知識關(guān)聯(lián)存儲(chǔ),生成民間歷史文獻(xiàn)知識圖譜。其一,知識抽取需要在專題文獻(xiàn)資源庫中完成文本實(shí)體和關(guān)系的提取,實(shí)現(xiàn)實(shí)體間語義鏈接。其二,知識匹配融合旨在將本體模型中的RDF數(shù)據(jù)導(dǎo)入并匹配到知識圖譜三元組數(shù)據(jù)集中,對于內(nèi)容重復(fù)、關(guān)聯(lián)不明的文獻(xiàn)數(shù)據(jù)在統(tǒng)一的框架標(biāo)準(zhǔn)下進(jìn)行整合、消歧處理。其三,通過知識節(jié)點(diǎn)關(guān)聯(lián),將相互影響的知識數(shù)據(jù)組合成可供系統(tǒng)查考的知識網(wǎng)絡(luò),揭示知識的深層鏈接,實(shí)現(xiàn)資源“質(zhì)”和“鏈”的知識化轉(zhuǎn)型,并通過“邏輯鏈?zhǔn)健钡年P(guān)聯(lián)數(shù)據(jù)應(yīng)用實(shí)現(xiàn)知識的可視化查詢等。

      4 徽州文書知識圖譜構(gòu)建與應(yīng)用

      4.1 徽州文書資源數(shù)據(jù)獲取及處理

      (1)數(shù)據(jù)獲取。本研究的數(shù)據(jù)資源主要來源于圖書館、檔案館等文獻(xiàn)機(jī)構(gòu)收藏或建成的徽州文書檔案匯編、徽州文書數(shù)據(jù)庫、地方歷史文獻(xiàn)數(shù)據(jù)庫,出版物《徽州文書》(劉伯山整理,收錄有“伯山書屋”藏黟縣文書十戶和祁門博物館藏祁門文書五戶)、《徽州千年契約文書》(王鈺欣、周紹泉主編;分宋元明及清民國兩編,共四十卷)、《中國徽州文書(民國編)》(黃山學(xué)院整理,共十卷),以及廣西師范大學(xué)設(shè)計(jì)開發(fā)的“徽州文書數(shù)據(jù)庫”和上海交通大學(xué)構(gòu)建的“地方歷史文獻(xiàn)數(shù)據(jù)庫”的相關(guān)文獻(xiàn)內(nèi)容。同時(shí),參考《徽州文書類目》(中國社會(huì)科學(xué)院歷史研究所主編)、《徽州文化全書》以及徽州地方志等相關(guān)權(quán)威資料,確?;罩菸臅倔w模型構(gòu)建中核心概念實(shí)體添加的準(zhǔn)確性與全面性。

      (2)數(shù)據(jù)處理?;罩菸臅鴶?shù)據(jù)庫資源多以圖像形式呈現(xiàn),以非結(jié)構(gòu)化數(shù)據(jù)類型為主,經(jīng)OCR文字識別后轉(zhuǎn)換成文本數(shù)據(jù)并以二維表形式存儲(chǔ),為后續(xù)本體建模及知識存儲(chǔ)所依據(jù)的資源描述框架構(gòu)建統(tǒng)一的數(shù)據(jù)格式。由于徽州文書中的文字多由民間人士手寫而成,文書中混摻的異俗體字、古文字及通假字等,會(huì)影響數(shù)據(jù)獲取的精確度,需將轉(zhuǎn)換后的文本數(shù)據(jù)進(jìn)行專家校核,提高文本數(shù)據(jù)的準(zhǔn)確性,待后續(xù)知識組織使用。其中,歙縣三十七都吳氏文書內(nèi)容的提取存儲(chǔ)見圖2。

      圖2 徽州文書基礎(chǔ)數(shù)據(jù)提取存儲(chǔ)示例

      4.2 徽州文書資源本體構(gòu)建

      本體模型的語義組織與描述功能,可梳理徽州文書中復(fù)雜的類別關(guān)系。本研究選擇易用性強(qiáng)、操作簡便的Protégé工具構(gòu)建徽州文書本體模型,同時(shí)借鑒斯坦福大學(xué)研究院開發(fā)的本體七步構(gòu)建法,結(jié)合徽州文書歷史文獻(xiàn)特點(diǎn),將本體模型構(gòu)建過程分為核心要素分類與關(guān)聯(lián)屬性設(shè)置兩個(gè)階段。

      (1)核心概念要素分類。為實(shí)現(xiàn)徽州文書內(nèi)容解構(gòu)與要素重組,需將文書內(nèi)容涉及的本體概念進(jìn)行界定。一方面,參考復(fù)用國內(nèi)外通用本體中對資源類及屬性的描述,如中文開放知識 圖 譜 網(wǎng) 站(http://www.openkg.cn/)、上海圖書館開放數(shù)據(jù)平臺(tái)(http://data.library.sh.cn/index)等發(fā)布的本體基礎(chǔ)數(shù)據(jù),通過檢索獲取已有定義,降低概念界定的不規(guī)范性與多義性。另一方面,圍繞徽州文書內(nèi)容特征,分析自定義的關(guān)鍵要素,實(shí)現(xiàn)對文書核心類及屬性的劃分。參考上海交通大學(xué)關(guān)于中國地方歷史文獻(xiàn)的主題分類法,將徽州民間文書劃分為契約、賬本、賦役、行政、訴訟、信函、日用類書與工具書、家禮、宗教、戲劇10個(gè)大類,其中以契約文書為大宗。由此,以徽州契約文書為例,將其核心類概念設(shè)為類型(Type)、主題(Theme)、題 目(Title)、事 主(Person)、時(shí) 間(Time)、標(biāo)的(SubjectMatter)、金額(Amount)、地點(diǎn)(Place)8種。為使核心要素與文書內(nèi)容建立具體的對應(yīng)與聯(lián)系,需要對設(shè)立的核心類概念進(jìn)一步細(xì)分二級類目(見表1),完善文書內(nèi)容關(guān)鍵語義要素體系。徽州文書本體核心概念要素確定后,將類別體系輸入Protégé中,逐步建立徽州文書本體模型。

      表1 徽州契約文書本體核心概念要素分類概要

      (2)屬性添加與語義約束。完成徽州文書本體概念類的界定后,對各概念類添加所屬屬性,包括對象屬性(ObjectProperty)與數(shù)據(jù)屬性(DataProperty)。對象屬性描述類與類之間的關(guān)系,其定義域和值域都是類;數(shù)據(jù)屬性表示本體類的數(shù)據(jù)類型,其定義域是類,值域是具體的數(shù)據(jù)類型[14]。以徽州文書中的“契約文書”為例,本體類的屬性描述主要圍繞文獻(xiàn)類型、內(nèi)容主題、涉及人物等關(guān)鍵類。對象屬性包括發(fā)現(xiàn)時(shí)間(DiscoveryTime)、涉及事主(Person)、發(fā)現(xiàn)地(Found In)、屬于(BelongTo)、包括(Include)等;數(shù)據(jù)屬性根據(jù)已采集的徽州契(約)文書的實(shí)際情況,設(shè)置題名(Contract_Title)、主題(Contract_Theme)、尺 寸(Contract_Size)、姓 名(Person_Name)、年份(Year)等。在Protégé軟件中,對ObjectProperties和DataProperties工作區(qū)分別執(zhí)行屬性添加操作(見圖3),并對所添加的對象屬性與數(shù)據(jù)屬性設(shè)置語義范圍,即定義各自的值域與定義域(見表2)。此外,還需對徽州文書本體概念屬性設(shè)置語義范圍約束,以增強(qiáng)本體建模結(jié)果的易用性與再操作性。

      表2 屬性語義約束示例

      圖3 對象屬性與數(shù)據(jù)屬性添加

      標(biāo)注徽州文書資源本體概念體系建設(shè)及相關(guān)屬性后,統(tǒng)一語義規(guī)范,將文書內(nèi)容所涉及的地名、時(shí)間、事主、題名、主題等實(shí)體添加到本體模型中,完成徽州文書資源本體的構(gòu)建?;罩菸臅?HuizhouDocuments)資源實(shí)體結(jié)構(gòu)的關(guān)聯(lián)展示如圖4所示,其中的契約文書(Contract Documents)標(biāo)簽的下一級節(jié)點(diǎn)包括散件契約、抄契簿、合同、收據(jù)、分家書5種類型。徽州文書本體模型的構(gòu)建實(shí)現(xiàn)其資源體系結(jié)構(gòu)化、系統(tǒng)化和可視化,為后續(xù)知識組織與內(nèi)容圖譜化建設(shè)提供基礎(chǔ)資源框架,也可用于文書資源內(nèi)容的查找與知識邏輯的梳理。

      圖4 徽州文書本體模型:ContractDocuments-Type示例

      4.3 徽州文書知識圖譜生成

      (1)知識抽取與融合。知識抽取是將處理后存儲(chǔ)于徽州文書知識庫中的數(shù)據(jù)通過實(shí)體抽取、屬性抽取及關(guān)系抽取,統(tǒng)一為RDF數(shù)據(jù)模型所規(guī)范的資源描述模式,即S-P-O三元組形式,本研究將其表示為“實(shí)體-屬性-屬性值”或“實(shí)體-關(guān)系-實(shí)體”?;罩萜跫s文書的體例程式相對固定,文字表述具有規(guī)律性,所需抽取的信息前后具有固定的前置詞或后置詞。例如,“文書主題”前常用“立”字出現(xiàn)于第一行,“交易金額”前通常有“價(jià)”一類的前置詞,“第一事主”“中見人”等實(shí)體則是置于文末的落款處,有“立契人”“中見人”等明顯標(biāo)志詞。基于此,徽州文書知識抽取工作就是對徽州文書資源進(jìn)行規(guī)范化語義標(biāo)注的過程,即設(shè)置待抽取對象實(shí)體屬性項(xiàng)的觸發(fā)標(biāo)注詞及分句規(guī)則,組建面向徽州文書資源價(jià)值對象的基礎(chǔ)知識庫(圖5)。具體抽取中采取詞典標(biāo)引法,參考北京文獻(xiàn)服務(wù)處的漢語自動(dòng)切詞標(biāo)引系統(tǒng)及中國科學(xué)技術(shù)信息研究所的《漢語主題詞表》等資源,構(gòu)建徽州文書資源關(guān)鍵詞典,經(jīng)算法匹配識別,抽取文獻(xiàn)資源實(shí)體的標(biāo)注數(shù)據(jù)。依據(jù)徽州文書本體模型中的實(shí)體概念體系,抽取相應(yīng)主題、時(shí)間、區(qū)域、事主、金額等信息的示例見圖6。

      圖5 徽州文書知識抽取方法

      圖6 徽州文書知識抽取示例

      多源異構(gòu)的徽州文書資源數(shù)據(jù)經(jīng)過知識抽取后所形成的數(shù)據(jù)集,往往存在表達(dá)冗余和語義歧義問題,包括圖文信息、本體模型的RDF數(shù)據(jù)以及知識庫文本信息的相同實(shí)體表達(dá)等,需要運(yùn)用知識融合技術(shù)進(jìn)行對比補(bǔ)充,完成信息整合。本研究中主要涉及針對同一概念的實(shí)體指向交叉情況,需要梳理并統(tǒng)一資源實(shí)體的多個(gè)指稱項(xiàng),完善實(shí)體表達(dá)。采取實(shí)體分組(Mention Pair)對比方法,按句段實(shí)體標(biāo)注順序,以兩個(gè)實(shí)體描述為組依次配對并比較對象間的共指關(guān)系,將指代相同項(xiàng)合并為一個(gè)實(shí)體標(biāo)注對象(如圖7所示)。例如,《清光緒二年十二月胡祥春立洗業(yè)搬移屋約》與《清光緒二年臘月胡祥春立房屋找價(jià)并徙業(yè)屋約》兩份文書中“臘月”“十二月”同指“農(nóng)歷十二月”,于是將“清光緒二年十二月”與“清光緒二年臘月”統(tǒng)一規(guī)范成“朝代-年號-數(shù)字月份”的形式,即“清光緒二年十二月”。此外,由于古代人物的名、字、號等稱謂繁多,出現(xiàn)了同人異名的情況,如“徽商-程希轅”又字“穎芝”,其子“程樸生”又字“立泰”,不同的稱謂指向同一人物。對此類同人異名情況,本研究以人物的“姓+名”作為統(tǒng)一標(biāo)注,達(dá)到共指消解的目的,并通過“姓”與“名”展現(xiàn)同一家族下的譜系關(guān)系。知識融合將不同來源、不同文件數(shù)據(jù)中的同一實(shí)體的不同表達(dá)進(jìn)行融合,解決冗余數(shù)據(jù)問題,增強(qiáng)資源合并的有效性,從而提高徽州文書知識圖譜的質(zhì)量。

      圖7 徽州文書資源數(shù)據(jù)共指消解流程

      (2)知識存儲(chǔ)與展示?;罩菸臅R存儲(chǔ)以圖存儲(chǔ)模式中的圖數(shù)據(jù)庫為主,其圖數(shù)據(jù)模型主體包括節(jié)點(diǎn)、邊、節(jié)點(diǎn)屬性和邊屬性,明確列出數(shù)據(jù)節(jié)點(diǎn)之間的依賴關(guān)系。以Neo4j圖數(shù)據(jù)庫為例,資源數(shù)據(jù)的存儲(chǔ)集中在節(jié)點(diǎn)及邊的構(gòu)建上,即添加資源實(shí)體及各資源實(shí)體間的關(guān)系,旨在便捷高效地搜尋不易挖掘的復(fù)雜結(jié)構(gòu)數(shù)據(jù)節(jié)點(diǎn)。

      徽州文書資源本體模型與徽州文書文本信息庫經(jīng)過知識融合,形成徽州文書關(guān)聯(lián)數(shù)據(jù)資源。在徽州文書本體模型構(gòu)建的基礎(chǔ)上,將經(jīng)過實(shí)體抽取并通過質(zhì)量評估的徽州文書結(jié)構(gòu)化數(shù)據(jù)導(dǎo)入Neo4j圖數(shù)據(jù)庫中,實(shí)現(xiàn)徽州文書知識資源的可視化查詢與訪問。表3為Neo4j中設(shè)置的徽州文書部分實(shí)體節(jié)點(diǎn)標(biāo)簽與關(guān)系語句,用于添加及檢索圖數(shù)據(jù)庫中的徽州文書知識資源。數(shù)據(jù)導(dǎo)入后,在Neo4j圖數(shù)據(jù)庫中,使用Cypher查詢語言(MATCH(n)RETURN(n))檢索徽州文書知識圖譜節(jié)點(diǎn)及關(guān)聯(lián)關(guān)系,輸出界面如圖8所示。其中,共有實(shí)體節(jié)點(diǎn)549個(gè),關(guān)系數(shù)量1,072個(gè);通過進(jìn)一步訪問,可查詢相關(guān)文書節(jié)點(diǎn)的詳細(xì)信息及其與其他節(jié)點(diǎn)的關(guān)聯(lián)情況。

      圖8 徽州文書知識圖譜檢索界面

      表3 徽州文書知識圖譜節(jié)點(diǎn)標(biāo)簽與關(guān)系語句示例

      4.4 徽州文書知識圖譜關(guān)聯(lián)查詢與分析

      徽州文書知識圖譜的主要功能在于跨越時(shí)間(年代)與空間(地域)的鴻溝,關(guān)聯(lián)檢索到同一宗族分散、零碎的文書,以展現(xiàn)徽州文書的歸戶特性。同一宗族的文書無論種類多少、數(shù)量多寡、時(shí)間跨度多長,皆能實(shí)現(xiàn)整體關(guān)聯(lián)查詢,并通過圖譜形式得以可視化展示。以歸戶于“安徽省徽州府婺源縣清華十八都胡氏”文契為例,根據(jù)查詢返還的圖譜結(jié)果(見圖9),與“安徽省徽州府婺源縣清華十八都胡氏”這一節(jié)點(diǎn)相關(guān)聯(lián)的文書有《乾隆三十年胡阿洪立自情愿斷骨出賣山契》《咸豐二年啟信等立自情愿斷骨絕賣基地契》等等。此外,可以對查詢結(jié)果做延伸與拓展發(fā)現(xiàn),進(jìn)一步展示不同文書下的交易事主、時(shí)間、金額、標(biāo)的及土地名稱等,以及不同文書各實(shí)體之間存在的關(guān)聯(lián)情況。

      圖9 “安徽省徽州府婺源縣清華十八都胡氏”節(jié)點(diǎn)關(guān)聯(lián)圖譜

      不同類型的實(shí)體可通過顏色差異加以區(qū)分,用戶可根據(jù)查詢需要,進(jìn)一步提取并放大某個(gè)或多個(gè)實(shí)體。例如,針對某個(gè)事主所關(guān)聯(lián)土地的相關(guān)文書信息,分析該土地的流轉(zhuǎn)情況。徽州土地交易文契的體例相對固定,為明確交易雙方的權(quán)益,減少土地的權(quán)利糾紛,交易文契中會(huì)明確說明交易對象的標(biāo)的、名稱和編號。根據(jù)這些屬性標(biāo)注,土地的辨識性和唯一性可以得到保證。比如,查詢某一土地(即交易對象),能夠關(guān)聯(lián)檢索到該土地相關(guān)的原契、尾契、稅票等文書憑證以及該塊土地產(chǎn)權(quán)的轉(zhuǎn)移、交換、買賣等交易信息。如圖10所示,“婺源縣清華十八都”名為“上湖坵”的一塊“田皮”曾于“咸豐九年”即“公元1859”年經(jīng)“戴昭還”之手買入并賣出,其立契人、受業(yè)人、中見人及交易金額等信息也一目了然。

      圖10 “上湖坵-田皮”交易流轉(zhuǎn)圖譜

      此外,可對多個(gè)實(shí)體通過路徑關(guān)聯(lián)延伸加以推導(dǎo),分析各實(shí)體間的內(nèi)在聯(lián)系。如圖11所示,獲取不同文契中“第一事主”與“中間人”之間的關(guān)聯(lián)關(guān)系,可以發(fā)現(xiàn)幾乎所有徽州民間交易的“中見人”并非是無關(guān)人員,而主要與“第一事主”(即立契人)存在直接或間接聯(lián)系,如兄弟、叔侄、侄孫、族親等親緣關(guān)系。歸納可知,徽州民間交易文契中的“事主”多選擇自己的親屬、族人等關(guān)系較近者作為“中見人”,以確保契約的可靠性。

      圖11 “第一事主”與“中見人”關(guān)系可視化展示

      5 結(jié)語

      知識圖譜改變了知識工程“自上而下”的知識獲取模式,憑借其高效的語義處理和關(guān)聯(lián)分析功能,突破傳統(tǒng)文獻(xiàn)信息壁壘,對民間歷史文獻(xiàn)知識的增值及其知識檢索服務(wù)的創(chuàng)新等具有重要現(xiàn)實(shí)意義。

      本研究中徽州文書知識圖譜的資源本體建設(shè)主要由領(lǐng)域?qū)<胰斯ぬ砑优c校核,各數(shù)據(jù)要素主要取材于徽州文書數(shù)據(jù)庫與徽州文書檔案匯編資料;同時(shí),借助圖譜開發(fā)工具并結(jié)合徽州文書基礎(chǔ)文本數(shù)據(jù)庫建立起高度細(xì)化的知識關(guān)聯(lián)節(jié)點(diǎn),并將徽州文書知識資源存儲(chǔ)于Neo4j圖數(shù)據(jù)庫中,形成完整的徽州文書知識圖譜。由于徽州文書圖文數(shù)據(jù)庫與相關(guān)文獻(xiàn)資料所含信息體量龐大,涉及的非結(jié)構(gòu)化數(shù)據(jù)提取任務(wù)艱巨,單由人工校核顯得力不從心。因此,后繼研究需積極借助計(jì)算機(jī)處理技術(shù),形成領(lǐng)域?qū)<叶ㄏ驒z驗(yàn)、計(jì)算機(jī)批量提取的文獻(xiàn)知識實(shí)體標(biāo)記體系。此外,徽州文書知識圖譜的研究深度與廣度仍有待進(jìn)一步探索,可嘗試結(jié)合其他數(shù)字人文技術(shù)(如文本挖掘、GIS),拓展徽州文書歷史文獻(xiàn)研究的技術(shù)范疇,為館藏民間歷史文獻(xiàn)的深層研究提供一定的借鑒與開發(fā)思路。

      猜你喜歡
      歷史文獻(xiàn)徽州文書
      高山仰止處 幽密跌宕地——徽州大峽谷
      中老年保健(2022年5期)2022-08-24 02:36:38
      太行山文書精品選(17)
      徽州春雪
      江淮法治(2022年3期)2022-03-16 06:54:26
      監(jiān)獄執(zhí)法文書規(guī)范探討
      徽州綠蔭
      黑水城出土《宋西北邊境軍政文書》中“砲”類文書再討論
      西夏學(xué)(2019年1期)2019-02-10 06:22:40
      歷史文獻(xiàn)紀(jì)錄片中蒙太奇的運(yùn)用
      新聞傳播(2016年9期)2016-09-26 12:20:20
      溪邊橋下,春里徽州
      火花(2016年7期)2016-02-27 07:45:42
      我國歷史文獻(xiàn)中所見黑水靺鞨概述
      珠鑲玉嵌 蔚為大觀——讀《都江堰文獻(xiàn)集成·歷史文獻(xiàn)卷(近代卷)》
      灵山县| 建宁县| 琼结县| 仁布县| 凤山县| 淅川县| 北海市| 广丰县| 旬邑县| 大连市| 郑州市| 金平| 宜昌市| 新郑市| 子洲县| 昌江| 三河市| 南乐县| 江北区| 东源县| 雅江县| 原平市| 淳安县| 凤庆县| 亳州市| 通江县| 南充市| 名山县| 吴川市| 苍山县| 平湖市| 凌云县| 枣庄市| 青冈县| 曲阳县| 白朗县| 嘉义市| 郓城县| 阜城县| 连城县| 玛纳斯县|