常穎聰,路 程,翟軍平(河北師范大學圖書館)
古籍具有數(shù)量龐大、學科種類多、科考價值大等特點,國內(nèi)古籍藏書僅中醫(yī)藥類就高達1.5萬種。[1]古文知識是古籍所承載的知識元及知識元群之間存在的語義關(guān)系網(wǎng)絡(luò),對古籍實施現(xiàn)代化的管理和網(wǎng)絡(luò)存儲、共享,有利于古文知識的有效積累和應(yīng)用。古文知識組織涉及古籍數(shù)字化、古文智能處理、古文語義描述、組織與關(guān)聯(lián)等諸多技術(shù),隨著網(wǎng)絡(luò)科技的不斷發(fā)展,越來越多的研究機構(gòu)和科研項目團隊開始開展古文知識挖掘、語義描述等工作。圖書館作為古籍保存的重要機構(gòu),有義務(wù)對古文知識進行更加有效、科學、便捷的組織模式探索,解決傳統(tǒng)的處理技術(shù)造成的古籍數(shù)據(jù)孤島、知識獲取及網(wǎng)絡(luò)共享困難等問題,使其適應(yīng)當前網(wǎng)絡(luò)時代的需求,便于基于Web的古文知識組織、共享與互操作。
2006年,Tim Berners-Lee提出關(guān)聯(lián)數(shù)據(jù)概念,[2]其核心是基于資源描述框架(Resource Description Framework,RDF)為海量網(wǎng)絡(luò)數(shù)據(jù)創(chuàng)建語義關(guān)聯(lián),解決異源異構(gòu)、訪問權(quán)限不匹配等問題,實現(xiàn)數(shù)據(jù)的搜索、發(fā)現(xiàn)和鏈接。將關(guān)聯(lián)數(shù)據(jù)應(yīng)用于古文知識組織,首先,能夠為古文知識提供一個合理、有效的存儲和組織的方式;其次,處于關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò)中的古文知識元能夠?qū)崿F(xiàn)超現(xiàn)實的語義情景和知識關(guān)聯(lián),將最小粒度的古籍知識價值最大化;最后,能夠?qū)崿F(xiàn)本地古文知識與Web資源的動態(tài)關(guān)聯(lián)和基于SPARQL的知識檢索??傮w而言,關(guān)聯(lián)數(shù)據(jù)技術(shù)能夠為古文知識提供一種可再生、可擴展的語義組織模式,使當前古文知識組織存在的各種問題得到有效解決。
古文知識組織涉及古籍數(shù)字化、古文智能處理、古文語義描述、組織與關(guān)聯(lián)等諸多技術(shù)與流程。其中,古籍數(shù)字化是開展后續(xù)知識關(guān)聯(lián)分析和語義挖掘等深度探究工作的前提和基礎(chǔ)。[3]目前,國內(nèi)大型數(shù)字化古籍工程包括“哈佛大學哈佛燕京圖書館藏善本特藏資源庫”“中華再造善本數(shù)據(jù)庫”“中國歷代人物圖像數(shù)據(jù)庫”等以數(shù)字化古籍構(gòu)建的靜態(tài)數(shù)據(jù)庫,這些數(shù)據(jù)庫均不能改變古文結(jié)構(gòu),不能進行知識重組、知識關(guān)聯(lián)。因此,古文知識組織需要更深入的基于古文內(nèi)容進行文本挖掘、知識標引、知識關(guān)聯(lián)、存儲與使用等。
中國哲學書電子化計劃(Chinese Text Project)古籍文獻檢索系統(tǒng)包含了儒家、墨家、道家、醫(yī)學、先秦兩漢等各種原文資料,該系統(tǒng)使用Unihan數(shù)據(jù)庫、原典資料庫以及維基百科開發(fā)CTP字典對古籍文字進行處理,其中CTP字典通過“語言鏈接”試圖為漢字處于不同語境下不同語義、讀音和實際運用提供盡可能完整的分析。[4]中國臺灣“中央研究院”開發(fā)的“中國歷史文化地圖系統(tǒng)”(Chines Civilization in Time and Space,CCTS),基于地理信息系統(tǒng)(Geographic Information System,GIS)對漢籍電子文獻、明清地方志目錄、中國歷史地圖冊、中國數(shù)字地圖進行了語義融合,通過CCTS可以查詢中國古今文學家生平和作品中的重要信息,同時能夠以電子地圖的形式呈現(xiàn)該文學家在各地的創(chuàng)作情況及其行蹤路線圖。由北京大學、哈佛大學、臺灣“中央研究院”合作開發(fā)關(guān)系型數(shù)據(jù)庫——中國歷代人物傳記資料庫(China Biographical Database,CBDB),利用文本挖掘技術(shù)以人物傳記為文本材料,將人作為實體,對其生平事跡、入仕方式、親屬與社會關(guān)系、著作等數(shù)據(jù)進行仿真陳述與語義關(guān)聯(lián)。截至2017年4月,該數(shù)據(jù)庫已經(jīng)收錄37萬條人物傳記數(shù)據(jù)。CBDB支持人名查詢、地名查詢、官名查詢、關(guān)鍵字查詢以及進階查詢,其中,進階查詢可以檢索到某一地點以特定方式入仕的人群信息。筆者以入仕類別為“鄉(xiāng)貢舉人”進行檢索,共檢索出3,604人,再限定朝代為“唐”,檢索結(jié)果為8人。以姓名“李白”檢索,結(jié)果為清、明,唐及其他朝代共四個名為“李白”的信息,查看唐代李白,信息涵蓋了其生年、卒年、曾任官職“翰林供奉”“王東巡幕中”等信息單元。[5,6]總體來說,CBDB以一種將生命歷程模型化的方式,將歷史人物作為關(guān)系數(shù)據(jù)庫實體,圍繞實體組織其籍貫、住址、求學地、仕宦地、父母配偶、相識之人及歷任官職等社會網(wǎng)絡(luò)關(guān)系,[7]能在一定程度上提供大規(guī)模人群中個人社會關(guān)系及其親屬關(guān)系等,為古文知識組織提供了方法性實踐。
以CBDB為代表的古文知識關(guān)系數(shù)據(jù)庫,實現(xiàn)了古籍知識深度挖掘,構(gòu)建了古代人物社會關(guān)系網(wǎng)絡(luò),能夠支持基于內(nèi)容的檢索反饋,但CBDB仍然只是一個單獨的數(shù)據(jù)庫,不能實現(xiàn)與不同平臺、不同資源的互操作。探索基于關(guān)聯(lián)數(shù)據(jù)的古文知識組織,能夠以最小知識元構(gòu)建語義知識網(wǎng)絡(luò),同時能夠以合適的方式關(guān)聯(lián)Web相關(guān)資源,為古文知識組織提供新的途徑。
在CNKI中,以篇名“關(guān)聯(lián)數(shù)據(jù)+知識組織”檢索出5篇文獻,以“關(guān)聯(lián)數(shù)據(jù)+古籍”僅檢索出2篇,且研究內(nèi)容均為古籍書目關(guān)聯(lián)數(shù)據(jù)研究,說明基于關(guān)聯(lián)數(shù)據(jù)的古文知識組織在國內(nèi)還未引起廣泛關(guān)注與研究。
作為國內(nèi)實踐性探索的代表,上海圖書館基于關(guān)聯(lián)數(shù)據(jù),將散落在不同家譜文獻中的人、地、時、事關(guān)聯(lián)起來,形成完整的知識圖,構(gòu)建了家譜數(shù)據(jù)服務(wù)平臺,并支持以可視化的方式展示。[8]相對于國內(nèi)的探索研究,國外基于關(guān)聯(lián)數(shù)據(jù)的知識組織應(yīng)用尤其是面向歷史知識資源的組織,已經(jīng)擁有相對成熟的模式與應(yīng)用平臺,值得借鑒。其中,“Europeana”(歐洲文化遺產(chǎn)數(shù)字平臺)通過關(guān)聯(lián)數(shù)據(jù)技術(shù)對散落在Web中的信息資源進行了整合并提供了統(tǒng)一的訪問入口,如,對世界各地圖書館、博物館等存儲的有關(guān)第一次世界大戰(zhàn)期間的電影、公文、信件等進行了整合,用戶可以RDF屬性鏈接直接訪問相關(guān)歷史資源實際倉儲網(wǎng)頁并獲取信息。[9,10]由歐盟基金支持的歐洲數(shù)字手稿 (Digital Manuscripts to Europeana,DM2E) 項目,將包括古籍、舊雜志、老照片等在內(nèi)的歷史性資源以關(guān)聯(lián)數(shù)據(jù)的形式穩(wěn)定開放獲取,支持數(shù)據(jù)注釋、數(shù)據(jù)關(guān)聯(lián)以及以新數(shù)據(jù)形式存在的結(jié)果分享。[11]“關(guān)聯(lián)人文項目”由美國國家人文研究基金和德國科學基金支持,[11]該項目開發(fā)了關(guān)聯(lián)數(shù)據(jù)組織與發(fā)布平臺,支持數(shù)據(jù)瀏覽、數(shù)據(jù)關(guān)聯(lián)與數(shù)據(jù)擴展。作為輕量級數(shù)據(jù)組織手段,關(guān)聯(lián)數(shù)據(jù)能夠為古文知識提供健康、可持續(xù)的知識組織模式,值得進一步去探索與研究。
關(guān)聯(lián)數(shù)據(jù)技術(shù)是通過RDF描述框架為數(shù)據(jù)單元建立語義關(guān)聯(lián),形成語義知識網(wǎng)絡(luò),發(fā)布成功后,實現(xiàn)內(nèi)部知識體系以及與Web資源的統(tǒng)一標識符(Uniform Resource Identifer,URI)訪問?;陉P(guān)聯(lián)數(shù)據(jù)技術(shù)結(jié)構(gòu),本文提出了基于關(guān)聯(lián)數(shù)據(jù)的古文知識組織模式,包括三個知識組織層(見圖1)。① 序化知識層,通過元數(shù)據(jù)描述模型對知識元進行標引,將雜亂無序的古文知識轉(zhuǎn)換為序化的古文知識集,序化知識層的古文知識已經(jīng)成為結(jié)構(gòu)性知識,表現(xiàn)為實體數(shù)據(jù)集。其中無序的古文知識來源于古籍知識元挖掘與知識元甄別。② 語義知識層,通過語義驅(qū)動的關(guān)聯(lián)數(shù)據(jù)技術(shù)為序化的古文知識實體構(gòu)建相應(yīng)的動態(tài)、可訪問的、唯一的URI,形成語義化古文知識集。語義知識層的古文知識實體在結(jié)構(gòu)化知識基礎(chǔ)上添加了網(wǎng)絡(luò)地址URI,已經(jīng)具備網(wǎng)絡(luò)可發(fā)現(xiàn)性,且知識網(wǎng)絡(luò)框架搭建完成。③ 知識應(yīng)用層,通過關(guān)聯(lián)數(shù)據(jù)發(fā)布,語義化的古文知識集將以關(guān)聯(lián)數(shù)據(jù)形式存在于開放性的互聯(lián)網(wǎng)中。知識應(yīng)用層的古文知識支持本地知識的檢索、瀏覽,同時支持通過有效URI訪問其他相關(guān)Web資源,如古文相關(guān)數(shù)據(jù)庫。
基于關(guān)聯(lián)數(shù)據(jù)的古文知識組織模式,以知識元為組織單位,構(gòu)建古文知識系統(tǒng),能夠面向古文知識服務(wù),改善當前古籍數(shù)據(jù)孤島、Web共享及獲取困難等問題。該知識組織模式架構(gòu)需要以下幾個關(guān)鍵技術(shù):① 古籍知識元挖掘與知識元甄別,面向知識組織,需要挖掘與甄別最小粒度的知識元,將古籍變?yōu)榧毣摹o序的古文知識;② 元數(shù)據(jù)標引,通過元數(shù)據(jù)描述框架識別、標引古文知識實體,序化知識;③語義驅(qū)動的關(guān)聯(lián)數(shù)據(jù)技術(shù),即通過元數(shù)據(jù)的RDF化為元數(shù)據(jù)確定對應(yīng)語義關(guān)系,形成語義化關(guān)聯(lián)數(shù)據(jù)集,實現(xiàn)不同類型、格式元數(shù)據(jù)的語義互操作;④關(guān)聯(lián)數(shù)據(jù)發(fā)布技術(shù),使用D2R Server等關(guān)聯(lián)數(shù)據(jù)工具實現(xiàn)關(guān)聯(lián)數(shù)據(jù)的發(fā)布與維護。在利用關(guān)聯(lián)數(shù)據(jù)進行古文知識組織過程中,古文知識元的粒度與價值度、元數(shù)據(jù)描述模型及語義關(guān)系描述的準確性、可靠性和科學性,都將直接影響古文知識組織的質(zhì)量。
圖1 基于關(guān)聯(lián)數(shù)據(jù)的古文知識組織模式
古籍具有涉及學科廣泛、知識內(nèi)容及文章結(jié)構(gòu)比較復雜等特點,且具有特殊性,對古文知識的組織存在諸多困難?;陉P(guān)聯(lián)數(shù)據(jù)的古文知識組織需要多層技術(shù)架構(gòu),因此,該組織模式的實現(xiàn)首先需要解決古文知識元挖掘與甄別、古文知識專有元數(shù)據(jù)、古文知識本體化語義描述、數(shù)據(jù)格式轉(zhuǎn)換等關(guān)鍵問題。
3.2.1 古文知識元挖掘與甄別
古文知識來源于古籍知識元的挖掘與甄別,需要古文斷句、詞匯處理、語義標注等一系列技術(shù)手段的支持。由于古籍文字記載方式、文章結(jié)構(gòu)及古漢語含義的多樣性和特殊性,造成了古文知識元的挖掘與識別具有一定困難。當前,國內(nèi)對古籍知識元的挖掘主要是對某一學科或某時期內(nèi)古籍中特定詞匯的識別,如,湯亞芬、黃水清等分別基于條件隨機場模型對先秦古漢語典籍中的人名、地名自動識別展開了研究;[13,14]朱瑣玲等利用規(guī)則與統(tǒng)計相結(jié)合的命名實體識別方法,對方志類古籍實現(xiàn)了物產(chǎn)地名的自動識別,同時驗證了命名實體識別技術(shù)在該領(lǐng)域的可行性;[15]娘本先對藏醫(yī)古籍文獻知識元及其語義類型、語義關(guān)系進行梳理,建立了藏醫(yī)古籍本草知識元、知識體模型,支持知識元的檢索。[16]國內(nèi)古文實體識別雖仍處于探索階段,但為古文知識元挖掘方法進行了驗證。
一般來說,漢語詞匯的含義包括字典義和使用義,相同詞匯在不同語境中語義各有不同。因此,在古文知識元挖掘過程中需要相關(guān)學科領(lǐng)域?qū)<业慕槿?,只有對知識元在上下文語境中的約束以及與上下文詞匯的邏輯關(guān)系進行梳理和識別,確定其真正含義,并完成知識元的清洗、甄別與甄選,才能保證其專業(yè)性、科學性、規(guī)范性和價值性,最終完成古文知識的正確解讀與利用。
3.2.2 古文知識專有元數(shù)據(jù)
古文知識內(nèi)容、結(jié)構(gòu)復雜,首先,古籍版本復雜,同一本書有多種記錄方式及記載年代;[17]其次,古文知識并不局限于文字知識,也包括古籍所記載的圖片等信息。對古文知識的組織,需要對其承載的各類信息進行標引。因此,科學有效、規(guī)范化的古籍知識專有元數(shù)據(jù)尤為重要。專有元數(shù)據(jù)是針對性的、面向古文知識標引需求的,這也是基于關(guān)聯(lián)數(shù)據(jù)的古文知識組織模式最重要的基建模塊。
我國數(shù)字化古籍存儲主要采用傳統(tǒng)的MARC數(shù)據(jù)。2003年,姚伯岳等在都柏林核心元數(shù)據(jù)(Dublin Core,DC)基礎(chǔ)上探討了北京大學數(shù)字圖書館古籍元數(shù)據(jù)標準;[18]2004年,我國《數(shù)字圖書館標準規(guī)范專門數(shù)字對象描述元數(shù)據(jù)規(guī)范》頒布,其中古文獻類型元數(shù)據(jù)在DC基礎(chǔ)上增加了版本類別、載體形態(tài)核心元素。國外對于知識標引包括歷史資源標引有更深的研究與實踐,本文對歐洲數(shù)據(jù)模型(European Data Model,EDM)及其應(yīng)用實例“Europeana”進行了調(diào)研。EDM對史料資源有詳細、標準的描述框架,在復用 DC、dcterms、skos、cc、svcs基礎(chǔ)上,自建了如edm:dataProvider、edm:Physicalthing 等專有元數(shù)據(jù)。[19]EDM對不同格式資源采用不同的元數(shù)據(jù)標準,以“Europeana”收錄的第一次世界大戰(zhàn)期間的文本、圖片史料描述元數(shù)據(jù)為例,[20,21]不同格式資源均擁有其專有元數(shù)據(jù),如描述史料圖片承載的故事發(fā)生地點元數(shù)據(jù)“Location”;相同一級元數(shù)據(jù)下,二級元數(shù)據(jù)也有所不同,如“Properties”下的二級元數(shù)據(jù)文本資源為“Language”“Format”,而圖片類則為“Size”。對不同格式資源采用不同的元數(shù)據(jù)標準,能夠更準確地對資源進行解讀。相比之下,古文知識內(nèi)容、結(jié)構(gòu)、格式更加復雜,要實現(xiàn)對古文知識的正確描述、存儲、組織和再利用,需要構(gòu)建規(guī)范化的古文知識專有元數(shù)據(jù)標準。
3.2.3 古文知識本體化語義描述
古籍承載的是龐大的古文知識系統(tǒng),對古文知識的正確解讀需要對其知識元及知識元群間的語義關(guān)系進行準確描述,形成完整的知識體系,最大程度還原古籍知識脈絡(luò)、知識模型及社會關(guān)系網(wǎng)絡(luò)。不同學科類別的古籍,如,醫(yī)藥、地方志及傳記等內(nèi)容差別懸殊,所承載的知識系統(tǒng)及語義網(wǎng)絡(luò)存在很大差異。因此,需要對不同學科類別的古籍構(gòu)建其專有的元數(shù)據(jù)及元數(shù)據(jù)的語義描述方案。
本體是某一特定學科領(lǐng)域內(nèi)概念與概念之間語義關(guān)系的形式化表達,[22]可以實現(xiàn)不同類型、格式間元數(shù)據(jù)的語義化描述和互操作,具有可擴展和可共享性。在調(diào)研可復用已有本體的基礎(chǔ)上能夠繼續(xù)增加領(lǐng)域新知識,如,EDM復用了“skos:note”“foaf:name”“skos:has Top Concept”等實體、屬性;CBDB自建了“People-social Relation”“Posted-to-office-address”等屬性表達人物社會關(guān)系和赴任地址等屬性關(guān)系?!耙?guī)范化元數(shù)據(jù)+本體化語義描述”能夠為不同學科古籍知識構(gòu)建相匹配的領(lǐng)域知識體系,同時為探索、挖掘不同學科古文間的知識遷徙提供可能,如探索同一時期相同或不同地域內(nèi)人物、疾病、藥物之間的關(guān)系,但大面積古文知識元語義關(guān)系的確定,需要多學科專家多方位的驗證、考證。
3.2.4 數(shù)據(jù)格式轉(zhuǎn)換與知識產(chǎn)權(quán)
在擁有科學化古文知識元數(shù)據(jù)及本體化語義描述框架背景下,若將現(xiàn)有古籍數(shù)據(jù)及館藏古籍書目等以關(guān)聯(lián)數(shù)據(jù)形式進行發(fā)布、關(guān)聯(lián),需要完成現(xiàn)有古籍存儲元數(shù)據(jù)到關(guān)聯(lián)數(shù)據(jù)元數(shù)據(jù)的格式轉(zhuǎn)換與匹配,如MARC格式的轉(zhuǎn)換,該過程需要專業(yè)培訓與指導。針對元數(shù)據(jù)的格式轉(zhuǎn)換與匹配過程中可能存在的問題,EDM委員會為那些有將館藏數(shù)據(jù)轉(zhuǎn)換為EDM格式數(shù)據(jù)意愿的圖書館或其他科學機構(gòu)免費開設(shè)了網(wǎng)絡(luò)公開課,教授傳統(tǒng)著錄格式如何向EDM轉(zhuǎn)換,節(jié)省了一對一培訓與指導的時間。
目前,僅有少量古籍數(shù)據(jù)庫支持公開獲取,各地高校及公共圖書館館藏大部分需要本館賬號或文獻傳遞。因此,在數(shù)據(jù)格式轉(zhuǎn)換與匹配過程中,知識產(chǎn)權(quán)及其產(chǎn)生的一系列權(quán)限不匹配問題需要重新定義,合作機構(gòu)間需要尋求最合理的方法,如簽署相關(guān)公開獲取等級協(xié)議等,最大限度支持古文知識的網(wǎng)絡(luò)公開獲取程度。
信息技術(shù)的發(fā)展為古籍文化價值的挖掘提供了多種手段,傳統(tǒng)的古籍電子化也日益難以滿足科研人員對古文知識的科研需求。因此,需要基于古文內(nèi)容、最小粒度的對古文知識進行組織,關(guān)聯(lián)數(shù)據(jù)技術(shù)能夠為古文知識組織提供了一個可再生、可擴展的語義組織模式。雖然關(guān)聯(lián)數(shù)據(jù)技術(shù)在多種學科領(lǐng)域的數(shù)據(jù)組織、知識組織方面得到了應(yīng)用,但面向古文知識的組織還未引起關(guān)注,作為輕量級數(shù)據(jù)組織手段,關(guān)聯(lián)數(shù)據(jù)能夠為古文知識提供健康、可持續(xù)的知識組織模式,值得去探索與研究。
本文提出了基于關(guān)聯(lián)數(shù)據(jù)的古文知識組織模式,對關(guān)聯(lián)數(shù)據(jù)應(yīng)用于古文知識組織的核心技術(shù)及關(guān)鍵問題進行了探討,該組織模式通過序化知識層、語義化知識層及知識應(yīng)用層完成古文知識的組織及應(yīng)用,不僅能夠?qū)崿F(xiàn)古文內(nèi)容的語義組織,同時能夠與Web相關(guān)信息進行關(guān)聯(lián)訪問。基于關(guān)聯(lián)數(shù)據(jù)的古文知識組織關(guān)鍵在于古文知識元挖掘與甄別、古文知識專有元數(shù)據(jù)模型以及本體化關(guān)聯(lián)數(shù)據(jù)集的構(gòu)建,上述技術(shù)過程均需要相關(guān)領(lǐng)域?qū)<业闹R支持,包括后續(xù)數(shù)據(jù)格式轉(zhuǎn)換與知識產(chǎn)權(quán)等關(guān)鍵問題都需要更深層次的進行考量和探索。本文為關(guān)聯(lián)數(shù)據(jù)應(yīng)用于古文知識組織構(gòu)建了理論依據(jù),下一步研究需要解決古文知識元數(shù)據(jù)模型、領(lǐng)域本體構(gòu)建的具體問題。