張志美,陳 濤,錢智勇,何 書
辭書古代又稱 “字書”,是記錄語言和語言文化的載體,用來解釋字形、讀音和釋義,是館藏重要文獻(xiàn)資源和人文研究的重要工具。古代辭書知識(shí)涉及文字、音韻、語法、修辭、詞匯、???、句讀、句段、篇章等內(nèi)容。先秦時(shí)代的《爾雅》是世界上第一部按同義和百科分類的義類綜合性語文辭書,爾雅以古代中原地區(qū)規(guī)范通用的語言訓(xùn)釋上古典籍中的難字和百科異名,反映了先秦時(shí)代的社會(huì)生活,是人類寶貴的文化遺產(chǎn)[1]。漢代以來的《爾雅》注疏文獻(xiàn)是研究典籍文獻(xiàn)及先秦語言和文化的知識(shí)寶庫[2],也是大數(shù)據(jù)時(shí)代重要的知識(shí)組織工具。利用現(xiàn)代技術(shù)研究古代經(jīng)典辭書,使非結(jié)構(gòu)化的古代語言知識(shí)成為互聯(lián)網(wǎng)的結(jié)構(gòu)化的開放互聯(lián)數(shù)據(jù),通過網(wǎng)絡(luò)傳承中國(guó)優(yōu)秀傳統(tǒng)文化,是通過推動(dòng)中華優(yōu)秀傳統(tǒng)文化創(chuàng)造性轉(zhuǎn)化和創(chuàng)新性發(fā)展,讓收藏在博物館里的文物、陳列在廣闊大地上遺產(chǎn)、書寫在古籍里的文字都活起來的重要手段[3]。以元數(shù)據(jù)為基礎(chǔ)的關(guān)聯(lián)數(shù)據(jù)已經(jīng)成為通用的語義互聯(lián)的標(biāo)準(zhǔn)規(guī)范,利用關(guān)聯(lián)數(shù)據(jù)對(duì)辭書知識(shí)組織,以三元組存儲(chǔ)詞匯知識(shí)庫,是典籍?dāng)?shù)字人文的基礎(chǔ)建設(shè)。網(wǎng)上已發(fā)布的詞表中包括了大量現(xiàn)代語言同義詞和語義概念關(guān)系,大量的詞表本體研究與實(shí)踐,為爾雅詞表本體構(gòu)建提供了可以復(fù)用的數(shù)據(jù)和結(jié)構(gòu)。構(gòu)建爾雅詞表本體可以實(shí)現(xiàn)爾雅詞匯知識(shí)的跨語言知識(shí)檢索與共享復(fù)用,將對(duì)外國(guó)留學(xué)生及其他讀者檢索中文古籍詞匯提供幫助;通過詞表本體學(xué)習(xí)、本體進(jìn)化等技術(shù),爾雅詞表本體也將成為自然語言處理、搜索引擎智能檢索、典籍標(biāo)注和數(shù)字人文研究的重要知識(shí)組織工具。
關(guān)聯(lián)數(shù)據(jù)(Linked data) 最早是Berners-Lee[4]提出的概念,初衷是將WEB中沒有進(jìn)行關(guān)聯(lián)的數(shù)據(jù)鏈接起來,構(gòu)建可被機(jī)器理解的包含語義關(guān)系的數(shù)據(jù)網(wǎng)絡(luò)。關(guān)聯(lián)數(shù)據(jù)有4個(gè)基本原則[4]:用URI來為任何事物標(biāo)識(shí)名稱;通過HTTP協(xié)議便于用戶可以查找到這些名稱;以RDF 和SPARQL的形式提供原始數(shù)據(jù);盡可能提供鏈接以發(fā)現(xiàn)更多信息資源。關(guān)聯(lián)數(shù)據(jù)的核心是資源描述框架(RDF),RDF 采用基于RDF/XML 的語法進(jìn)行數(shù)據(jù)存儲(chǔ)與交換,使用三元組(主語—謂語—賓語)并通過URI標(biāo)識(shí)網(wǎng)絡(luò)中的資源和元數(shù)據(jù),資源的概念對(duì)應(yīng)于主語,資源的屬性類型對(duì)應(yīng)于謂語,資源的屬性值對(duì)應(yīng)于賓語,主語與謂語使用唯一標(biāo)識(shí)HTTP URI,賓語可以是字符串,也可以是其它對(duì)象實(shí)體,謂語反映了資源之間的關(guān)系。RDF定義的元數(shù)據(jù)描述方法不僅為各種類型資源的描述提供統(tǒng)一的數(shù)據(jù)模型,允許不同領(lǐng)域的用戶根據(jù)不同資源編制各自所需要的詞匯表描述領(lǐng)域元數(shù)據(jù)的語義,同時(shí)還提供不同元數(shù)據(jù)之間相互兼容,相互操作的平臺(tái)。關(guān)聯(lián)數(shù)據(jù)已經(jīng)在大眾傳媒、圖書館、文化遺產(chǎn)、數(shù)字人文、政府電子政務(wù)、商業(yè)企業(yè)等領(lǐng)域廣泛應(yīng)用。
隨著數(shù)字媒介和網(wǎng)絡(luò)技術(shù)的快速發(fā)展,對(duì)不同載體文本進(jìn)行保存、計(jì)算分析、編輯和內(nèi)容建模等數(shù)字人文研究漸成趨勢(shì)。在數(shù)字人文過程中關(guān)聯(lián)數(shù)據(jù)的作用見圖1,數(shù)字人文研究過程包括對(duì)數(shù)字資源組織與保存、文本計(jì)算分析、圖像文本編輯和內(nèi)容建模等方面。首先在數(shù)字資源的組織與保存方面,利用關(guān)聯(lián)數(shù)據(jù)我們把網(wǎng)上各種結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)資源,通過URI鏈接,以RDF/XML三元組語法描述,并以專門用來存取RDF數(shù)據(jù)的三元組數(shù)據(jù)庫保存各種數(shù)據(jù)。其次,在對(duì)文本的計(jì)算分析過程中,利用關(guān)聯(lián)數(shù)據(jù)、本體、描述邏輯語言對(duì)文獻(xiàn)進(jìn)行字詞句關(guān)聯(lián)查詢、??狈治?、注釋內(nèi)容比對(duì)分析、版本分析、概念關(guān)系抽取、作品作者時(shí)空分析等處理。第三,在數(shù)字人文的文本編輯階段,利用關(guān)聯(lián)數(shù)據(jù)技術(shù)與國(guó)際圖像互操作框架結(jié)合,對(duì)文本中的圖文聲像等開放數(shù)據(jù)進(jìn)行基于不同時(shí)期作品的編輯,例如對(duì)一部典籍作品在歷史形成過程中出現(xiàn)的各種不同版本、修訂情況進(jìn)行整合編輯,利用國(guó)際圖像互操作協(xié)議(IIIF)對(duì)各種版本的圖像文本進(jìn)行圖像編輯并基于RDF的知識(shí)圖譜展示串聯(lián)成文獻(xiàn)版本發(fā)現(xiàn)證據(jù)鏈,這種時(shí)空維度下的圖像編輯將超越人文研究傳統(tǒng)文本記錄的界限。第四,在數(shù)字人文的內(nèi)容建模階段,可以根據(jù)不同文本內(nèi)容結(jié)構(gòu),利用關(guān)聯(lián)數(shù)據(jù)和已有本體模型結(jié)構(gòu)對(duì)文本內(nèi)容進(jìn)行建模,在萬維網(wǎng)的數(shù)字環(huán)境中,遵循已有的關(guān)聯(lián)數(shù)據(jù)規(guī)范和推薦協(xié)議,完全可以為典籍文獻(xiàn)、文化遺產(chǎn)、歷史遺跡、考古等多維空間虛擬世界建立基于文本內(nèi)容的仿真模型和研究場(chǎng)景。這些數(shù)字人文基礎(chǔ)建設(shè)與應(yīng)用過程是以數(shù)字資源描述框架為基礎(chǔ)的關(guān)聯(lián)數(shù)據(jù)理伭和技術(shù)為支撐的。反過來數(shù)字人文中的文本數(shù)字化保存、計(jì)算分析、圖文編輯以及內(nèi)容建模等過程也推進(jìn)了以關(guān)聯(lián)數(shù)據(jù)為核心的語義技術(shù)架構(gòu)的改進(jìn)和發(fā)展。
圖1 關(guān)聯(lián)數(shù)據(jù)在數(shù)字人文中的作用
圖書館關(guān)聯(lián)數(shù)據(jù)應(yīng)用是以元數(shù)據(jù)和書目數(shù)據(jù)的轉(zhuǎn)換為基礎(chǔ)開始的。美國(guó)國(guó)會(huì)圖書館2017年將全部館藏和規(guī)范目錄從傳統(tǒng)的MARC書目轉(zhuǎn)換到BIBFRAME(書目描述框架)并推廣使用。已經(jīng)建成可供參考的重要本體詞表包括元數(shù)據(jù)集(DCMI)、關(guān)聯(lián)數(shù)據(jù)集詞表、古籍書目本體等。國(guó)內(nèi)采用關(guān)聯(lián)數(shù)據(jù)技術(shù)研究構(gòu)建特定領(lǐng)域敘詞表應(yīng)用成為趨勢(shì),近年國(guó)內(nèi)館藏文獻(xiàn)資源關(guān)聯(lián)數(shù)據(jù)知識(shí)組織相關(guān)研究有:夏翠娟等[5]基于關(guān)聯(lián)數(shù)據(jù)四原則和語義技術(shù)框架設(shè)計(jì)和發(fā)布上海圖書館的家譜本體詞表;白林林等[6]利用Drupal平臺(tái)研究中文古籍書目關(guān)聯(lián)數(shù)據(jù)發(fā)布過程;陳濤等[7]提出書目數(shù)據(jù)在BIBFRAME中的知識(shí)關(guān)聯(lián)框架;侯西龍等[8]基于關(guān)聯(lián)數(shù)據(jù)技術(shù)研究非遺知識(shí)組織與關(guān)聯(lián)數(shù)據(jù)集構(gòu)建的過程;王曉光等[9]研究敦煌壁畫敘詞表關(guān)聯(lián)數(shù)據(jù);徐晨飛等[10]研究方志物產(chǎn)史料關(guān)聯(lián)數(shù)據(jù)構(gòu)建與知識(shí)庫應(yīng)用。
在辭書語義知識(shí)組織研究方面有:《同義詞詞林》[11]及其編碼系統(tǒng)將漢語詞匯按語義分為大類、中類和小類,類下再以同義主題歸集;知網(wǎng)概念關(guān)系詞表(HowNet)揭示漢、英詞語概念以及屬性之間的關(guān)系;中英雙語知識(shí)本體詞網(wǎng)(ECTEC)是結(jié)合詞網(wǎng)、知識(shí)本體與領(lǐng)域標(biāo)記的詞匯知識(shí)庫;WordNet以同義詞集合表示語義概念;FrameNet使用“框架元素” 進(jìn)行詞匯含義描述。已有的研究在關(guān)聯(lián)數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范、中文名稱規(guī)范語義描述、本體構(gòu)建、詞匯語義相似度計(jì)算和詞匯語義分類等方面的研究與實(shí)踐成果為本文的研究提供了理伭指導(dǎo)和方法借鑒。辭書是人文研究的重要工具,利用關(guān)聯(lián)數(shù)據(jù)對(duì)中國(guó)古代辭書中詞匯語義進(jìn)行知識(shí)組織是數(shù)字人文基礎(chǔ)建設(shè)的重要內(nèi)容。本文以《爾雅》詞表構(gòu)建、本體模型設(shè)計(jì)與關(guān)聯(lián)數(shù)據(jù)發(fā)布為例,探索辭書關(guān)聯(lián)數(shù)據(jù)知識(shí)組織理伭方法與實(shí)現(xiàn)過程,以期推進(jìn)古代辭書典籍的知識(shí)組織與數(shù)字人文研究。
《爾雅》是中國(guó)第一部按詞義和分類編排的綜合性語文辭書。《爾雅》原有20篇,現(xiàn)存19篇按內(nèi)容分為普通語詞和百科名詞兩個(gè)部分[1]。普通語詞即生活中常用的一般詞語,包括“釋詁”“釋言”“釋訓(xùn)” 三篇?!稜栄拧钒倏泼~共分16個(gè)大類,其中有解釋古代親屬關(guān)系的 “釋親”,有解釋和反映上古人類日常生活的“釋宮”“釋器”“釋樂”,有解釋古代天象稱謂的 “釋天”,還有解釋古代動(dòng)物稱謂的 “釋蟲”“釋魚”“釋鳥”“釋獸”“釋畜” 等,每個(gè)類篇目下細(xì)分小的分類。這些分類反映了戰(zhàn)國(guó)至秦漢時(shí)代人們的衣食住行等社會(huì)生活和文化知識(shí)結(jié)構(gòu),爾雅訓(xùn)詁資料也成為后人通釋經(jīng)書和典籍文獻(xiàn)的參考工具。課題以實(shí)現(xiàn)辭書典籍語義知識(shí)檢索與輔助數(shù)字人文研究為目標(biāo),研究爾雅多語詞表構(gòu)建。選取上海古籍出版社2004 年出版的簡(jiǎn)體本《爾雅譯注》(胡奇光,方環(huán)海著),該書是上海古籍出版社邀請(qǐng)名家歷經(jīng)10年完成的簡(jiǎn)體中文《十三經(jīng)譯注》之一,可幫助讀者最大程度讀通和理解原著;爾雅注釋還參照南開大學(xué)出版社1987年出版的《爾雅今注》(徐朝華著),該書是當(dāng)代第一次使用語體文為爾雅作注的著作[2]。上述書中的注釋原句引用參考郭璞《爾雅注》、邢昺《爾雅疏》、郝懿行《爾雅義疏》、邵晉涵《爾雅正義》、孫炎《爾雅音義》、黃侃《爾雅音訓(xùn)》、阮元《爾雅注疏??庇洝?釋義例句參考許慎《說文解字》、劉熙《釋名》、楊雄《方言》、顧野王《玉篇》、司馬光《類篇》、陳彭年等《廣韻》、陸德明《經(jīng)典釋文》等典籍。爾雅詞表中的詞匯結(jié)構(gòu)由訓(xùn)釋詞語、被訓(xùn)釋詞語、例證三部分組成。
爾雅中的訓(xùn)釋詞語包括類義編碼和釋義兩個(gè)部分。對(duì)每個(gè)被訓(xùn)釋詞語給出唯一的類義編碼,詞語編碼參考《同義詞詞林》的分類編碼規(guī)則,以英文字母大寫的A-S表示《爾雅》中的十九個(gè)大類,以英文字母小寫的a-y表示大類之下的2級(jí)小類,小寫字母z表示0,以001-999位數(shù)字代表概念同義詞集。訓(xùn)釋詞語或百科名詞稱謂包括中文、英文、日文、韓文,分別以語種標(biāo)簽cn、en、ja、ko區(qū)分語種標(biāo)記。
被訓(xùn)釋詞語內(nèi)容包括漢語拼音、注音、古今字、異體字、通假字,釋義(中文、英文、日文、韓文)、典籍中注釋原句(加雙引號(hào))、注釋者(注者名、字、朝代、籍貫),注釋句典籍出處、典籍中注疏原句和注疏者(名、字、朝代、籍貫)。
例證包括典籍中的例句、例句出處、例句作者(名、字、朝代、籍貫)、例句注釋語句、例句注釋者(名、字、朝代、籍貫)、例句注釋出處、例句注疏語句、例句注疏者(名、字、朝代、籍貫)、例句注疏語句、例句注疏出處、例句注箋句、例句注箋者(名、字、朝代、籍貫)和例句注箋出處。
爾雅詞表全面反映了被訓(xùn)釋語詞的讀音、字形變化、多語種釋義、分類、例證及其注、疏、箋等內(nèi)容。比如“釋器” 中的被訓(xùn)釋詞語“罍”的完整標(biāo)注如下:
罍/léi/ㄌㄟ'/壺形青銅酒器/Ff003/(cn)古代壺形酒器,與壺相似,用來盛酒或水,多用青銅鑄造,亦有陶制的/(en)Ancient pot shaped wine vessels/(ja)古代の壷形酒器/(ko)?????????/“罍,酒尊也?!?陸德明(名元朗,字德明)/唐/蘇州吳縣(今江蘇省蘇州市)人/《經(jīng)典釋文》/“罍者,尊之大者也?!?邢昺(字叔明)/北宋/曹州濟(jì)陰郡(今山東省菏澤市曹縣北) 人/《爾雅疏》/“我姑酌彼金罍,維以不永懷?!?《詩經(jīng)·周南·卷耳》/“罍,酒器,刻為云雷之象,以黃金飾之?!?朱熹(字元晦,又字仲晦,號(hào)晦庵)/南宋/南劍州尤溪(今屬福建三明市尤溪縣)人/《詩經(jīng)集傳》
這段標(biāo)注中被訓(xùn)釋詞 “罍” 的類義編碼Ff003中,F表示大類“釋器”,f表示小類“酒器”,003表示小類“酒器” 中的壺形青銅酒器,通過Ff003就將不同語種的“罍” 的解釋映射出來,從而實(shí)現(xiàn)語義關(guān)聯(lián)和跨語言檢索。由語言學(xué)老師與多名古漢語、英語、日語、韓語研究生,根據(jù)《爾雅譯注》中詞語的簡(jiǎn)體中文釋義,借助翻譯詞典進(jìn)行詞語釋義的手工翻譯、標(biāo)注和校對(duì)工作,我們完成了爾雅簡(jiǎn)體字版本共3584個(gè)被訓(xùn)釋詞語和百科名詞稱謂,以及2219個(gè)訓(xùn)釋詞語和百科名稱的多語種釋義。爾雅詞表的標(biāo)注為爾雅本體設(shè)計(jì)完成了數(shù)據(jù)準(zhǔn)備。
2.2.1 爾雅詞表本體的定義與設(shè)計(jì)原則
本體在牛津詞典中解釋為:本體是關(guān)于某個(gè)主題領(lǐng)域中的概念和類別并顯示它們之間的關(guān)系的列表。在知識(shí)工程領(lǐng)域,Neches最早給本體的定義為[12]:特定主題領(lǐng)域詞表基本術(shù)語及關(guān)系,再結(jié)合這些術(shù)語及關(guān)系定義詞表的外延規(guī)則。湯姆·格魯伯給本體定義為[13]:一個(gè)共享的概念化模型的明確規(guī)范說明。張曉林認(rèn)為[14]:本體就是概念集,是特定領(lǐng)域內(nèi)公認(rèn)的關(guān)于該領(lǐng)域的對(duì)象及其關(guān)系的概念化表示,包括對(duì)象類等級(jí)體系、類屬性及取值約束、對(duì)象類之間邏輯關(guān)系、對(duì)象類及關(guān)系的推理規(guī)則。根據(jù)上述本體概念的解釋,結(jié)合爾雅詞表的內(nèi)容結(jié)構(gòu),給爾雅詞表本體定義為:爾雅詞表本體是利用本體語言和規(guī)范描述爾雅詞表中的被訓(xùn)釋詞語及百科名詞釋義并給出詞間關(guān)系的可視化的語義詞表。用ERYA表示爾雅詞表本體,公式表示為:ERYA={C,P,I,O},公式右邊括號(hào)中的C為概念,在爾雅詞表中包括全部訓(xùn)釋詞語和類義編碼;P為屬性,包括對(duì)象屬性和數(shù)據(jù)屬性;I為實(shí)例;O為公理,表示概念的永真斷言,用于被訓(xùn)釋詞語之間隱含關(guān)系推理。與關(guān)系型數(shù)據(jù)詞表相比,爾雅詞表本體的最大作用是實(shí)現(xiàn)基于爾雅訓(xùn)釋詞語概念的分類檢索和詞表的關(guān)聯(lián)數(shù)據(jù)開放服務(wù),便于與其他詞表互操作,實(shí)現(xiàn)爾雅知識(shí)共享和復(fù)用;可用于字人文中典籍文本的語義標(biāo)注,使隱含在文本中的隱性知識(shí)顯式化。
爾雅詞表本體設(shè)計(jì)遵循三個(gè)基本原則:首先盡量利用現(xiàn)有的本體數(shù)據(jù)模型,找到相似本體的類、屬性和關(guān)系,在它們的基礎(chǔ)上添加、修改、創(chuàng)建本體;其次最大限度的重用已經(jīng)發(fā)布使用的詞匯表和術(shù)語以便于以后的關(guān)聯(lián),在此基礎(chǔ)上創(chuàng)建新的術(shù)語類及其屬性,盡量給新建詞匯添加注釋信息,如使用rdfs:label屬性定義詞匯標(biāo)簽;最后要為詞表給出命名空間聲明并賦予一個(gè)穩(wěn)定、永久的URI,為本體本身添加注釋,說明本體的版本及版本兼容信息,以利于爾雅詞表的共享和重用。
2.2.2 爾雅詞表本體設(shè)計(jì)步驟
爾雅詞表本體模型設(shè)計(jì)采用自上向下與自下向上相結(jié)合的方法,爾雅詞表總體設(shè)計(jì)采用自上而下的元數(shù)據(jù)分析方法,參考國(guó)家圖書館的《基于元數(shù)據(jù)的本體構(gòu)建規(guī)范與應(yīng)用指南》[15],本體模型設(shè)計(jì)采用自下而上的方法,通過對(duì)詞表進(jìn)行內(nèi)容分析,制定本體設(shè)計(jì)流程和步驟。將爾雅詞表本體的設(shè)計(jì)流程概括為三個(gè)步驟。
(1)定義爾雅詞表概念類。通過對(duì)爾雅詞表標(biāo)注字段及內(nèi)容的分析,定義爾雅本體的實(shí)體具名類。類是具有共同屬性特征的個(gè)體或?qū)ο蟮募?所謂具名類就是由設(shè)計(jì)者在創(chuàng)建本體時(shí)直接定義并賦予明確名稱標(biāo)識(shí)的類。
在定義具名類時(shí),共定義5個(gè)類(見表1)。從爾雅詞表的元數(shù)據(jù)中看出,一條完整的被訓(xùn)釋詞主要涉及到對(duì)爾雅被訓(xùn)釋詞的解釋(erya:Concept)、被訓(xùn)釋詞所屬分類(erya:Category)、被訓(xùn)釋詞所在原始例句(erya:Sentence)以及例句的典籍出處(bibo:Book)幾大信息塊,其他的具體信息都可以歸納到這幾大信息塊中,為后續(xù)可以和更多的人物知識(shí)庫關(guān)聯(lián),在典籍出處中又單獨(dú)抽出人物類??紤]可以復(fù)用現(xiàn)有本體包括國(guó)會(huì)圖書館bibo 書目本體和foaf 本體的人物類(foaf:Person),首先定義一個(gè)表示爾雅概念的類,我們定義一個(gè)“Concept” 類表示詞表實(shí)體對(duì)象的概念集合。爾雅詞表中的詞語釋義和例證來自典籍文獻(xiàn),把典籍實(shí)體抽取出來定義一個(gè)表示所有注釋和例證出處的類,這里復(fù)用bibo本體中“bibo:Book” 類。爾雅詞表中的訓(xùn)釋詞語都有唯一的類義編碼,根據(jù)爾雅的分類編碼定義一個(gè)“Category”(分類)類。爾雅詞表中的詞語釋義包括中英日韓多語釋義句子,還包括例句及其注、疏、箋句,為集中表示句子概念實(shí)體,定義了一個(gè)“Sentence”(句子)類。爾雅詞表中的人包括作者、注者、注疏者、注箋者等,關(guān)于人的實(shí)體,有成熟的本體類,復(fù)用foaf 本體中的“foaf:Person” 類。這樣就完成爾雅詞表本體5個(gè)實(shí)體類的構(gòu)建。爾雅詞表本體類構(gòu)建代碼如下:
表1 爾雅詞表本體類
(2)定義詞表本體類的屬性及其屬性約束,完成爾雅詞表本體模型(見圖2)構(gòu)建。詞表本體中屬性的作用是描述類的主要特征以及類和類、類和實(shí)例之間的關(guān)系。屬性主要有兩種,一種是對(duì)象屬性,描述的對(duì)象是實(shí)體類,另一種是數(shù)據(jù)類型屬性,描述的對(duì)象是字符串、數(shù)字、日期等數(shù)值型數(shù)據(jù)。每個(gè)屬性都有定義域(領(lǐng)域)和值域,定義域是指屬性的應(yīng)用范圍(領(lǐng)域中的哪些類),值域是指屬性的取值范圍,對(duì)于對(duì)象屬性,其值域是某個(gè)類,對(duì)于數(shù)值屬性,其值域就是不同數(shù)據(jù)類型。爾雅詞表本體類的對(duì)象屬性見表2,詞表本體的數(shù)據(jù)屬性見表3。
表2 爾雅詞表本體的對(duì)象屬性
表3 爾雅詞表本體的數(shù)據(jù)屬性
圖2 爾雅詞表本體模型
通過概念抽取程序完成爾雅詞表本體2,219個(gè)訓(xùn)釋詞語概念,3,584個(gè)被訓(xùn)釋詞語和百科名詞異名的術(shù)語實(shí)例,其中釋詁被訓(xùn)釋詞語1,029個(gè),釋言詞語653個(gè),釋訓(xùn)詞語249個(gè),百科詞語1,650個(gè)。通過12個(gè)對(duì)象屬性和17個(gè)數(shù)據(jù)屬性及其約束實(shí)現(xiàn)了基于訓(xùn)釋詞語概念的多維度語義關(guān)聯(lián)。圖3可視化展示了爾雅詞表本體的概念類及屬性關(guān)系。
圖3 爾雅詞表本體可視化
(3)為本體本身添加注釋屬性并完成本體的測(cè)試、修改和完善。為本體自身添加注釋屬性包括版本信息及名稱空間聲明,版本信息包括版本號(hào)、URI、發(fā)布機(jī)構(gòu)以及版本兼容信息等,以利于本體的共享和重用。本體的測(cè)試采用上海圖書館本體服務(wù)中心校驗(yàn)系統(tǒng)對(duì)爾雅詞表數(shù)據(jù)的正確性和一致性進(jìn)行數(shù)據(jù)檢驗(yàn),并根據(jù)檢測(cè)結(jié)果對(duì)爾雅詞表本體文檔進(jìn)行糾錯(cuò)和優(yōu)化,保證了爾雅詞表本體數(shù)據(jù)的正確。
關(guān)聯(lián)數(shù)據(jù)發(fā)布是依據(jù)關(guān)聯(lián)數(shù)據(jù)基本原則對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)作了規(guī)范和限定之后,通過一定技術(shù)步驟發(fā)布出來以供檢索與數(shù)據(jù)開放共享的過程。國(guó)外圖書館書目數(shù)據(jù)、敘詞表、元數(shù)據(jù)相關(guān)標(biāo)準(zhǔn)等較早發(fā)布為關(guān)聯(lián)數(shù)據(jù)本體[16-17]。隨著關(guān)聯(lián)數(shù)據(jù)發(fā)布實(shí)踐的逐漸增多,近年來國(guó)內(nèi)圖書館領(lǐng)域?qū)﹃P(guān)聯(lián)數(shù)據(jù)構(gòu)建的研究水平有很大提高。王忠義等[18]研究將分布式人類計(jì)算(DHC)應(yīng)用于數(shù)字圖書館的深層關(guān)聯(lián)數(shù)據(jù)發(fā)布架構(gòu);牛永骎等[19]通過開源軟件D2R發(fā)布圖書情報(bào)領(lǐng)域?qū)W者的關(guān)聯(lián)數(shù)據(jù)集,探索實(shí)體URI定義、作者重名、專著與網(wǎng)絡(luò)學(xué)術(shù)記錄難以采全等問題;陳濤等[20]以關(guān)聯(lián)數(shù)據(jù)七星模型為基礎(chǔ),結(jié)合國(guó)外和國(guó)內(nèi)諸多關(guān)聯(lián)數(shù)據(jù)發(fā)布平臺(tái)實(shí)施的實(shí)例,深入分析關(guān)聯(lián)數(shù)據(jù)創(chuàng)建與發(fā)布過程中存在的問題和對(duì)策思考,提出了關(guān)聯(lián)數(shù)據(jù)發(fā)布的十個(gè)常用規(guī)范和建議。這些研究與實(shí)踐為爾雅詞表關(guān)聯(lián)數(shù)據(jù)的發(fā)布提供了指導(dǎo)和借鑒。根據(jù)爾雅詞表本體的內(nèi)容性質(zhì)與特點(diǎn),我們提出爾雅詞表關(guān)聯(lián)數(shù)據(jù)發(fā)布的六個(gè)基本步驟(見圖4)和遵循的規(guī)范。
圖4 本體詞表關(guān)聯(lián)數(shù)據(jù)發(fā)布流程
(1)詞表數(shù)據(jù)準(zhǔn)備。設(shè)計(jì)爾雅詞表URI時(shí),考慮爾雅URI 除作為爾雅詞表本體的標(biāo)識(shí)名稱之外,還考慮到在爾雅詞表發(fā)布后,方便領(lǐng)域人員通過HTTP訪問爾雅詞表資源,設(shè)置URI采用了機(jī)構(gòu)域名http://ww.ntu.edu.cn/erya/ontology/,這樣便于今后永久訪問爾雅詞表資源同時(shí)利于復(fù)用和與其他詞表的關(guān)聯(lián)。
(2)詞表本體設(shè)計(jì)。抽取爾雅詞表的數(shù)據(jù)結(jié)構(gòu),按照知識(shí)組織的標(biāo)準(zhǔn)規(guī)范設(shè)計(jì)爾雅詞表本體,盡量復(fù)用已有本體,復(fù)用和擴(kuò)展本體屬性時(shí),區(qū)分對(duì)象屬性與數(shù)據(jù)屬性,爾雅本體設(shè)計(jì)過程中復(fù)用了dc、bibo、foaf等詞表規(guī)范。
(3)詞表關(guān)聯(lián)數(shù)據(jù)轉(zhuǎn)換。依據(jù)本體將爾雅詞表中的數(shù)據(jù)轉(zhuǎn)換為RDF格式,從爾雅文本的結(jié)構(gòu)化表格轉(zhuǎn)換為關(guān)聯(lián)數(shù)據(jù)。除了提供SPARQL端口形式以訪問爾雅詞表數(shù)據(jù)之外,還提供爾雅詞表資源的內(nèi)容協(xié)商獲取方式,支持機(jī)器可讀和復(fù)用。
(4)詞表的數(shù)據(jù)存儲(chǔ)。將轉(zhuǎn)換好的關(guān)聯(lián)數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫,采用三元組數(shù)據(jù)庫存儲(chǔ)爾雅詞表的RDF數(shù)據(jù),選用適合爾雅詞表的圖模式進(jìn)行詞表的數(shù)據(jù)存儲(chǔ)并與爾雅詞表的關(guān)系型數(shù)據(jù)庫及詞表索引庫共存。
(5)詞表的發(fā)布。按照關(guān)聯(lián)數(shù)據(jù)四個(gè)基本原則與開放數(shù)據(jù)的七星標(biāo)準(zhǔn),發(fā)布爾雅詞表本體和詞語訓(xùn)釋實(shí)例數(shù)據(jù)。描述爾雅資源時(shí)嚴(yán)格區(qū)分爾雅本體的類與屬性,在發(fā)布爾雅詞表數(shù)據(jù)集的同時(shí),以高可讀性形式發(fā)布爾雅詞表數(shù)據(jù)集對(duì)應(yīng)的爾雅詞表本體,并加注本體的元數(shù)據(jù)信息。
(6)詞表本體可視化檢索與應(yīng)用。提供的數(shù)據(jù)服務(wù)包括爾雅詞表的檢索,提供爾雅數(shù)據(jù)集的數(shù)據(jù)狀態(tài),詞表檢索結(jié)果的可視化,通過本體對(duì)齊,爾雅詞表與外部詞表的鏈接,支持典籍語義標(biāo)注研究。爾雅詞表按照這樣標(biāo)準(zhǔn)化的步驟和規(guī)范發(fā)布出來,所有的詞匯都是實(shí)體,可以元數(shù)據(jù)注釋自解釋,爾雅詞表不僅被機(jī)器可讀,而且被任意鏈接復(fù)用,爾雅詞表中的詞語概念、關(guān)系都可以被重用,實(shí)現(xiàn)更大范圍的詞表資源互操作。
爾雅詞表是基于Excel 的數(shù)據(jù)表,使用Excel2RDF數(shù)據(jù)映射轉(zhuǎn)換完成三元組數(shù)據(jù)發(fā)布。Excel2RDF映射過程見圖5。例如,爾雅原始詞表中的被訓(xùn)釋詞“俶” 的內(nèi)容結(jié)構(gòu)見表4-5。
圖5 爾雅詞表Excel2RDF映射過程
表4 “俶” 的訓(xùn)釋詞語類義編碼
表5 “俶” 的音、形、義標(biāo)注
第一層是類義編碼層,類義編碼 “A”,表示“訓(xùn)詁” 類,給出“類義編碼” 的隨機(jī)碼URI作主語,取值“A” 作賓語。第二層是訓(xùn)釋詞語層,訓(xùn)釋詞語“始也(開始)” 的“類義編碼” 是“Az001”,“訓(xùn)釋詞語”(ch、en、ja、ko)分別作謂語,表中對(duì)應(yīng)不同列(不同語種的“始也”)作賓語。第三層是有關(guān)被訓(xùn)釋詞語 “初” 的所有列(表中節(jié)選了部分),表中的列還包括“俶” 的讀音、注音、古今字、異體字、通假字、釋義、注釋原句、注釋出處、注者、注疏句、注疏出處、疏者、例句、例句出處、例句作者、例句注、疏、箋等,行的主鍵值 “俶” 作主語,表中的這些列都被作為謂語抽取,行的句子數(shù)據(jù)取值被作為賓語抽取。通過這樣的三層代碼轉(zhuǎn)換,完成爾雅本體詞表從Excel到RDF的映射。被訓(xùn)釋詞語 “俶” 的RDF映射轉(zhuǎn)換代碼如下:
詞表本體簡(jiǎn)單的存儲(chǔ)方法是以文件方式保存,適用于數(shù)據(jù)量小的靜態(tài)文件,如已歸檔的本體文件。對(duì)動(dòng)態(tài)的數(shù)據(jù)庫和表格數(shù)據(jù)的存儲(chǔ)以圖數(shù)據(jù)庫為主流。爾雅詞表本體是動(dòng)態(tài)表格數(shù)據(jù),選擇三元組數(shù)據(jù)庫存儲(chǔ)(Triplestore),優(yōu)點(diǎn)包括:模式靈活,可對(duì)RDF存儲(chǔ)進(jìn)行相當(dāng)于模式更改的實(shí)時(shí)操作,無需任何停機(jī)或重新設(shè)計(jì);使用輕便,RDF存儲(chǔ)通常通過HTTP進(jìn)行查詢,易放入服務(wù)架構(gòu);語言標(biāo)準(zhǔn),使用RDF和SPARQL實(shí)現(xiàn)的標(biāo)準(zhǔn)化水平遠(yuǎn)高于SQL,在系統(tǒng)之間移動(dòng)數(shù)據(jù)易,因?yàn)檎Z言統(tǒng)一;表達(dá)方便,在RDF中對(duì)復(fù)雜數(shù)據(jù)建模要比在SQL 中容易,查詢語言SPARQL的操作更容易;蹤跡可尋,SPARQL允許用戶跟蹤每一條信息的來源,并存儲(chǔ)關(guān)于它的元數(shù)據(jù),輕松完成復(fù)雜的查詢。爾雅詞表本體選擇使用OpenLink Virtuoso進(jìn)行存儲(chǔ),OpenLink Virtuoso支持關(guān)系數(shù)據(jù)、對(duì)象-關(guān)系數(shù)據(jù)、RDF數(shù)據(jù)、XML數(shù)據(jù)和文本數(shù)據(jù)的統(tǒng)一管理,支持sparql1.1語法查詢,支持W3C的關(guān)聯(lián)數(shù)據(jù)系列協(xié)議,可以把三元組數(shù)據(jù)直接存儲(chǔ)在數(shù)據(jù)庫表中,定義了RDF_QUAD表,每個(gè)三元組存儲(chǔ)為RDF_QUAD中的一行,表的列分別代表圖、主語、謂語和賓語。RDF_DATATYPE表,保存賓語的類型名和2個(gè)字節(jié)值的映射。
3.3.1 爾雅詞表本體的SPARQL檢索
爾雅詞表本體存儲(chǔ)到OpenLink Virtuoso后,可以通過SPARQL直接檢索爾雅詞表中的詞語,SPARQL是W3C制定并推薦的在RDF數(shù)據(jù)庫中查詢和操縱RDF數(shù)據(jù)的語言和協(xié)議,可根據(jù)需要通過SPARQL語句描述爾雅詞表中的變量及其關(guān)系,構(gòu)成帶有變量的圖模式查詢表達(dá)式,例如查詢爾雅被訓(xùn)釋詞語“元” 的所有釋義,構(gòu)造SPARQL表達(dá)式查詢見下,SPARQL查詢結(jié)果如表6。通過SPARQL 的Restful API 接口,外部系統(tǒng)可以查詢和關(guān)聯(lián)到爾雅詞表,并獲取相關(guān)詞在爾雅詞表中的所有關(guān)聯(lián)信息。
表6 爾雅詞表SPARQL檢索結(jié)果
3.3.2 爾雅詞表本體可視化檢索系統(tǒng)
爾雅本體詞表檢索通過可視化檢索平臺(tái)SOOOPA,可以檢索爾雅詞表中全部被訓(xùn)釋詞語及實(shí)體類、屬性關(guān)聯(lián),并可視化顯示每個(gè)實(shí)體類及其個(gè)體詞語的三元組。比如,查詢 “馬”,如圖6列表顯示爾雅詞表中“釋畜” 類下馬屬子類的全部97 個(gè)馬的訓(xùn)釋詞語以及被訓(xùn)釋詞語不同馬的稱謂及中、英、日、韓語釋義,注釋出處,例句等三元組數(shù)據(jù)。圖7可視化顯示 “釋畜” 類 “馬屬”“骃” 字的關(guān)聯(lián)數(shù)據(jù)知識(shí)圖譜,圖中展示古代一種被稱作 “骃” 的馬的中、英、日、韓文釋義、屬種、注釋原句、注釋出處、詩經(jīng)中的例句及注釋,也關(guān)聯(lián)與“骃” 相關(guān)的其他馬的稱謂及其解釋,這種圖像化的詞匯知識(shí)便于讀者研究和學(xué)習(xí)古代語言,同時(shí)多語言釋義也方便了外語讀者和留學(xué)生學(xué)習(xí)中國(guó)古代漢語時(shí)作為檢索工具。后續(xù)將爾雅詞表本體與圖書館古籍書目本體關(guān)聯(lián),可以擴(kuò)充檢索爾雅注釋館藏出處和版本信息。
圖6 爾雅詞表本體概念檢索“馬”
圖7 爾雅詞表中“骃” 字關(guān)聯(lián)數(shù)據(jù)知識(shí)圖譜
為實(shí)現(xiàn)古代經(jīng)典辭書語義知識(shí)組織和數(shù)字人文研究,通過對(duì)辭書爾雅內(nèi)容的分析,以簡(jiǎn)體本的《爾雅譯注》為基礎(chǔ),構(gòu)建含有中、英、日、韓文釋義的爾雅詞表,基于此探索以詞表、典籍、句子、分類和人物為實(shí)體類的爾雅詞表領(lǐng)域知識(shí)本體構(gòu)建,并定義概念屬性關(guān)系,完成爾雅詞匯的實(shí)例抽??;再依據(jù)本體,對(duì)爾雅詞表進(jìn)行關(guān)聯(lián)數(shù)據(jù)映射轉(zhuǎn)換與存儲(chǔ)發(fā)布,實(shí)現(xiàn)爾雅詞表本體知識(shí)的跨語言關(guān)聯(lián)檢索與可視化呈現(xiàn),為典籍?dāng)?shù)字人文提供了可以復(fù)用的辭書多語語義詞典。不足之處在于爾雅詞表本體構(gòu)建基本以手工方式為主,詞匯內(nèi)容僅選取的簡(jiǎn)體中文版的爾雅注釋,詞匯英文、日文、韓文釋義是參照《爾雅譯注》 中的簡(jiǎn)體中文釋義手工翻譯,難免有對(duì)古文釋義的深度翻譯不到位的地方,此外還需要豐富不同版本館藏古籍注釋中的詞匯釋義??梢酝ㄟ^辭書典籍標(biāo)注的眾包平臺(tái),由更多的人文學(xué)者參與辭書標(biāo)注與校對(duì),并研究利用機(jī)器學(xué)習(xí)和自然語言處理的中文分詞和語義標(biāo)注技術(shù),對(duì)典籍注釋進(jìn)行半自動(dòng)標(biāo)注,并在詞表中添加爾雅圖像的內(nèi)容和注釋,豐富詞表的語言和知識(shí)。未來通過研究詞表本體對(duì)齊和本體映射技術(shù),可以將爾雅詞表與wordnet 英、日、韓文等多語詞表進(jìn)行映射關(guān)聯(lián),實(shí)現(xiàn)詞表詞語更大范圍的在線關(guān)聯(lián)檢索。此外,還可以利用爾雅詞表構(gòu)建《詩經(jīng)》《國(guó)語》等典籍知識(shí)圖譜,再與機(jī)器深度學(xué)習(xí)技術(shù)相結(jié)合,對(duì)中國(guó)典籍文獻(xiàn)進(jìn)行跨學(xué)科機(jī)器翻譯、智慧學(xué)習(xí)等數(shù)字人文應(yīng)用,通過預(yù)測(cè)典籍知識(shí)單元之間的各種關(guān)系,包括概念之間的生成關(guān)系、上下文關(guān)系、同義關(guān)系等,從關(guān)聯(lián)的辭書和典籍資源中發(fā)現(xiàn)新概念和屬性關(guān)系,并應(yīng)用于在線學(xué)習(xí)平臺(tái),支持讀者和外國(guó)留學(xué)生碎片化閱讀和自助學(xué)習(xí)。通過對(duì)不同時(shí)間和地點(diǎn)不同作者的詞匯釋義聚合、比對(duì)、推理分析計(jì)算,輔助人文學(xué)者進(jìn)行典籍文本挖掘與知識(shí)發(fā)現(xiàn)研究。