摘 要∶人文計算中的語義組織對人文計算研究具有重要意義。文章采用案例調(diào)查與文獻(xiàn)分析的方法,從語義組織技術(shù)、基于語義組織的人文計算服務(wù)兩個方面對人文計算中的語義組織研究現(xiàn)狀進(jìn)行梳理、總結(jié)并提出相應(yīng)的建議。未來的人文計算研究可加深語義標(biāo)注的層次,促進(jìn)領(lǐng)域數(shù)據(jù)的關(guān)聯(lián)與復(fù)用,開發(fā)出更多的語義知識服務(wù)。
關(guān)鍵詞∶人文計算;語義組織;數(shù)字人文;知識圖譜
中圖法分類號∶TP3-05??? 文獻(xiàn)標(biāo)識碼∶A
Research on semantic organization in humanities computing
LIU Jianbin
(College of Information Management, Nanjing Agricultural University, Nanjing 21095, China)
Abstract:Semantic organization in humanistic compouting is of great significance to the research of humanistic computing. Using the methods of case investigation and literature analysis, this paper sorts out the research status of semantic organization in humanistic computing from two perspectives:semantic organization technology andhumanistic computing services based on semantic organization, and puts forward corresponding suggestions. Future humanistic computing research can improve semantic annotation,enhance domain data correlation and reuse, and provide more semantic knowledge services
Key words: humanistic computing, semantic organization,digital humanities,knowledge graph
1引言
整合領(lǐng)域知識的常見方法是以語義化的方式來對不同來源與不同結(jié)構(gòu)的數(shù)據(jù)進(jìn)行組織,近年來,人文計算的處理對象越來越多樣化,數(shù)據(jù)的結(jié)構(gòu)越來越復(fù)雜,結(jié)合本體、語義知識圖譜、機器學(xué)習(xí)等語義技術(shù)對人文計算資源進(jìn)行有效的語義組織與整合是人文計算研究中的關(guān)鍵一步。在此背景下,本文以人文計算領(lǐng)域中的相關(guān)研究及項目為基礎(chǔ),對國內(nèi)外人文計算領(lǐng)域中的語義組織技術(shù)研究現(xiàn)狀進(jìn)行研究,以期為人文計算的語義組織研究提供借鑒。
2人文計算中的語義組織
語義組織使研究者能夠更快地發(fā)現(xiàn)原始數(shù)據(jù)及資源之間的內(nèi)在聯(lián)系,從而更加準(zhǔn)確地發(fā)現(xiàn)有關(guān)事實,解決研究問題。人文計算研究中的語義組織方法主要分為傳統(tǒng)語義組織技術(shù)、現(xiàn)代語義組織技術(shù)及其他語義組織技術(shù)等三個類別。
2.1傳統(tǒng)語義組織技術(shù)
(1)敘詞表
敘詞表以概念為基本原則,認(rèn)為任何語詞都是概念的象征,通過概念以及概念間的關(guān)系構(gòu)建專業(yè)領(lǐng)域的知識。Getty詞表是人文計算領(lǐng)域中比較有代表性的詞表,被廣泛應(yīng)用于博物館編目和文獻(xiàn)工作,以及藝術(shù)、建筑和物質(zhì)文化方面的數(shù)據(jù)檢索,是人文計算領(lǐng)域的經(jīng)典詞表。我國的敦煌壁畫主題詞表是借鑒AAT的分面與層級劃分關(guān)系,針對敦煌壁畫的內(nèi)容構(gòu)建的敘詞表,用于規(guī)范敦煌壁畫數(shù)據(jù)的標(biāo)注與挖掘。除此之外,針對人文計算領(lǐng)域構(gòu)建的敘詞表還有樂器分類詞表、藝術(shù)作品描述類目[1]等領(lǐng)域詞表,以及人名規(guī)范、地理名稱規(guī)范詞表等。使用敘詞表在人文計算中進(jìn)行語義組織的優(yōu)點是敘詞表的使用簡單方便,但敘詞表的編制較為困難,不適用于組織有個性化需求的數(shù)據(jù)。
(2)元數(shù)據(jù)
元數(shù)據(jù)用于描述資源的基本信息、存儲位置信息。將元數(shù)據(jù)模型用于人文計算領(lǐng)域的語義組織的主要步驟有元數(shù)據(jù)元素信息抽取、元數(shù)據(jù)元素定義與描述規(guī)范設(shè)計、基于元數(shù)據(jù)的信息庫建設(shè)以及元數(shù)據(jù)應(yīng)用體系構(gòu)建。都柏林核心元數(shù)據(jù)用于描述網(wǎng)絡(luò)信息資源,包含15個核心元素集,可以分為資源內(nèi)容描述、知識產(chǎn)權(quán)描述和外部特征屬性描述三個部分,適用于對資源的控制和管理進(jìn)行規(guī)范,與其他元數(shù)據(jù)之間互操作性強。在人文計算的應(yīng)用中,DC元數(shù)據(jù)常常與其他模型結(jié)合來組織領(lǐng)域數(shù)據(jù),如胡以濤[2]在復(fù)用DC元數(shù)據(jù)以及CIDOC-CRM的基礎(chǔ)上建立了描述農(nóng)業(yè)文化遺產(chǎn)的元數(shù)據(jù)標(biāo)準(zhǔn),姚天泓等[3]在復(fù)用DC元數(shù)據(jù)、CIDOC-CRM,F(xiàn)OAF的基礎(chǔ)上對張學(xué)良史料資源進(jìn)行語義組織。
2.2現(xiàn)代語義組織技術(shù)
(1)本體
本體是對某個領(lǐng)域的概念及其相互之間關(guān)系的形式化表達(dá),人文計算領(lǐng)域比較通用的本體模型有CIDOC-CRM,EDM等。CIDOC-CRM是國際文獻(xiàn)工作委員會開發(fā)的概念參考模型,用于描述文化遺產(chǎn)領(lǐng)域信息的概念與關(guān)系,是一種以事件為中心的本體構(gòu)建方法。陳艷[4]以DC元數(shù)據(jù)的映射為例,介紹了基于CIDOCCRM的文化遺產(chǎn)資源的元數(shù)據(jù)集成方案;Tan[5]在CIDOCCRM的基礎(chǔ)上構(gòu)建了“喪葬舞蹈”本體。EDM是歐洲數(shù)字圖書館Europeana在采用其他數(shù)據(jù)模型的基礎(chǔ)上,根據(jù)自身的數(shù)據(jù)特點設(shè)計的語義描述模型,建立了面向文化遺產(chǎn)領(lǐng)域的元數(shù)據(jù)知識本體模型[6]在拓展EDM的基礎(chǔ)上構(gòu)建了女性內(nèi)容表達(dá)本體。此外,還有許多領(lǐng)域本體,如ABC本體、地緣政治本體、音樂本體、舞蹈本體等。由于大部分研究都針對資源特點構(gòu)建了本體,所以人文計算領(lǐng)域的本體較多,彼此之間的復(fù)用性較差。
(2)關(guān)聯(lián)數(shù)據(jù)
關(guān)聯(lián)數(shù)據(jù)是萬維網(wǎng)發(fā)明者TimBerners-Lee在2006年提出的,關(guān)聯(lián)數(shù)據(jù)建立在標(biāo)準(zhǔn)的網(wǎng)絡(luò)技術(shù)(如HTTP,RDF和URI)的基礎(chǔ)上,旨在使計算機也能理解網(wǎng)頁上的信息。目前,大部分傳統(tǒng)語義組織工具都發(fā)布了關(guān)聯(lián)數(shù)據(jù)形式,如Getty敘詞表、敦煌壁畫主題詞表、DC元數(shù)據(jù)等,方便用戶使用。上海圖書館將家譜數(shù)據(jù)、檔案數(shù)據(jù)以關(guān)聯(lián)數(shù)據(jù)的形式發(fā)布在網(wǎng)站上;歐洲數(shù)字手稿項目[7]以關(guān)聯(lián)數(shù)據(jù)技術(shù)重構(gòu)并發(fā)布數(shù)字人文關(guān)聯(lián)開放數(shù)據(jù)集;“威尼斯時光機”項目通過關(guān)鍵詞建立起不同類型文檔的鏈接,將信息組織成一個巨大的關(guān)聯(lián)數(shù)據(jù)資源庫[8]。
(3)知識圖譜
知識圖譜是谷歌公司在2012年提出的一種組織知識單元的方法,在實際應(yīng)用中可以分為廣義知識圖譜與語義知識圖譜。陳濤等[9]以CBDB中的數(shù)據(jù)為基礎(chǔ),構(gòu)建了人物關(guān)系知識圖譜,并對其中的人物關(guān)系進(jìn)行推理補充;楊海慈等[10]構(gòu)建了宋代師承關(guān)系知識圖譜;周莉娜等[11]構(gòu)建了唐詩知識圖譜并開發(fā)出唐詩智能服務(wù)平臺KnowPoetry。相較于其他語義組織方法,知識圖譜的優(yōu)點是可以實現(xiàn)知識推理可視化。
2.3其他語義組織工具
GIS是一種空間信息的分析與處理的計算機工具,人文計算研究中常將原始數(shù)據(jù)通過GIS進(jìn)行空間的可視化,這是人文計算中語義組織的方式之一。Knoerl[12]認(rèn)為歷史地圖能清晰地讓歷史學(xué)家了解一個地區(qū)的歷史,最早將GIS技術(shù)引入歷史學(xué)的研究中。Murrieta[13]使用GIS分析了19世紀(jì)英國霍亂發(fā)生的位置信息。
3基于語義組織的人文計算應(yīng)用
在現(xiàn)有研究中,部分人文計算學(xué)者在語義組織的基礎(chǔ)上開發(fā)出面向用戶的知識服務(wù),拓展了語義組織的作用與意義。目前,基于語義組織的人文計算應(yīng)用主要有知識可視化、語義檢索、智慧知識服務(wù)三個方面。
3.1知識可視化
人文計算語義組織可視化的應(yīng)用主要有基于知識圖譜、GIS、歷史時間軸等方式的可視化。大不列顛名人庫用可視化技術(shù)展示名人之間血緣關(guān)系或因處于同一時空而產(chǎn)生的關(guān)聯(lián)關(guān)系等;嚴(yán)承希等[14]以CBDB的數(shù)據(jù)為基礎(chǔ),繪制了宋代政治網(wǎng)絡(luò)關(guān)系圖,展現(xiàn)宋代的政治中心演變與政治合作對抗關(guān)系;美國猶他家譜學(xué)會數(shù)據(jù)庫利用時空關(guān)聯(lián)和親屬關(guān)系等可視化內(nèi)容特征來探索家譜資源和人物關(guān)系?;谥R圖譜以及VR技術(shù)、GIS技術(shù)的知識發(fā)現(xiàn)平臺,促進(jìn)了人文計算研究結(jié)果的轉(zhuǎn)化。
3.2語義檢索
人文計算研究者將語義組織后的數(shù)據(jù)庫、知識庫開放給用戶查詢使用,主要包含兩個方面:一是在用戶的檢索結(jié)果內(nèi)提供語義化的結(jié)果,用戶可以在普通檢索界面進(jìn)行語義檢索或在檢索結(jié)果中通過關(guān)聯(lián)數(shù)據(jù)發(fā)現(xiàn)相關(guān)結(jié)果;二是人文計算項目平臺為用戶提供專業(yè)的SPARQL查詢,如上海圖書館開放數(shù)據(jù)平臺的家譜知識服務(wù)平臺、盛宣懷檔案數(shù)據(jù)庫為用戶提供SPARQL查詢方式等。普通用戶通過人文計算項目提供的語義檢索平臺可以發(fā)現(xiàn)更多知識,便于獲取信息。
3.3智慧服務(wù)
智慧服務(wù)指人文計算研究者為用戶提供深層次的人文計算服務(wù)。當(dāng)前,人文計算研究者推出的面向普通用戶的深層次人文計算智慧服務(wù)較少,處于發(fā)展階段。中國家譜知識服務(wù)平臺是上海圖書館推出的基于關(guān)聯(lián)開放數(shù)據(jù)的數(shù)字人文服務(wù),用戶可以在該平臺查閱家譜、進(jìn)行姓氏尋根溯源,也可以在線修家譜、上傳家譜數(shù)據(jù)等;清華大學(xué)的九歌智能系統(tǒng)具有自動寫詩服務(wù),用戶可以輸入關(guān)鍵詞由系統(tǒng)自動生成詩歌;還有學(xué)者將有關(guān)語義信息應(yīng)用于博物館館藏品的在線展示中,為用戶提供展覽品的時空演變過程信息。
4總結(jié)
本文對人文計算研究中的語義組織技術(shù)以及語義的人文計算服務(wù)進(jìn)行了梳理。從當(dāng)前已有的研究結(jié)果來看,大部分傳統(tǒng)的語義組織工具,如敘詞表、元數(shù)據(jù)等都發(fā)布了關(guān)聯(lián)數(shù)據(jù)的形式,元數(shù)據(jù)在人文計算語義組織中的使用經(jīng)常根據(jù)數(shù)據(jù)特點與其他模型相結(jié)合;人文計算領(lǐng)域的本體較多,各本體之間的復(fù)用比較困難,缺少通用性較強的本體模型,尤其是在國內(nèi)的研究中更為突出;人文計算中語義標(biāo)注的層次較淺,語義知識圖譜的構(gòu)建較少,知識推理的研究相對較少;人文計算中面向普通用戶的語義服務(wù)較少,沒能為用戶提供方便使用的人文計算服務(wù)。在今后的研究中,人文計算學(xué)者可以加深數(shù)據(jù)語義標(biāo)注的層次,建立數(shù)據(jù)之間的關(guān)聯(lián),開發(fā)領(lǐng)域語義組織工具與通用數(shù)據(jù)模型,并開發(fā)更多的人文計算服務(wù)。
參考文獻(xiàn):
[1]LubasRL,JacksonAS,SchneiderI.UsingCategoriesfortheDescriptionofWorksofArt(CDWA)andCDWALite:WithinformationfromtheGettyInstitute[J].Metadata
Manual2013:93-133.
[2]胡以濤,惠富平.元數(shù)據(jù)方法在數(shù)字人文視域下的應(yīng)用探索—以農(nóng)業(yè)文化遺產(chǎn)為例[J].圖書館,2019(1):82-87.
[3]姚天泓,陳艷梅,劉革,等.基于CIDOC-CRM的數(shù)字人文史料資源語義化知識組織研究—以張學(xué)良史料資源為例[J].圖書館學(xué)刊,2019,41(7):35-43.
[4]陳艷,周馨.基于CIDOCCRM的文化遺產(chǎn)資源的元數(shù)據(jù)集成—以DC元數(shù)據(jù)的映射為例[J].現(xiàn)代情報,2010,30(5):60-63+84.
[5]TanG,SunG,ZhongZ.KnowledgeRepresentationof“FuneralDance”BasedonCIDOCCRM[C]//20092ndInternationalSymposiumonKnowledgeAcquisitionandModeling(KAM2009),2009:39-42.
[6]KyvernitouI,BikakisA.AnOntologyforGenderedContentRepresentationofCulturalHeritageArtefacts[J].DigitalHumanitiesQuarterly,2017,11(3):58-66.
[7]BaiererK,EckertK,GoldfarbD,etal.DM2E:ALinkedDatasourceofDigitisedManuscriptsfortheDigitalHumanities[J].SemanticWeb,2017,8(5):733-745.
[8]翟姍姍,張純,許鑫.文化遺產(chǎn)數(shù)字化長期保存策略研究—以“威尼斯時光機”項目為例[J].圖書情報工作,2019,63(11):140-148.
[9]陳濤,劉煒,單蓉蓉,等.知識圖譜在數(shù)字人文中的應(yīng)用研究[J].中國圖書館學(xué)報,2019,45(6):34-49.
[10]楊海慈,王軍.宋代學(xué)術(shù)師承知識圖譜的構(gòu)建與可視化[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2019,3(6):109-116.
[11]周莉娜,洪亮,高子陽.唐詩知識圖譜的構(gòu)建及其智能知識服務(wù)設(shè)計[J].圖書情報工作,2019,63(2):24-33.
[12]SantosJ.Usingmachinelearningmethodsfordisambiguating
placereferencesintextualdocuments[J].Geojournal,2015,80(3):375-392.
[13]Murrieta-FloresP,BaronA,GregoryI,etal.Automatically
AnalyzingLargeTextsinaGISEnvironment:TheRegistrarGeneral'sReportsandCholerainthe19thCentury[J].TransactionsinGIS,2015,19(2):296-320.
[14]嚴(yán)承希,王軍.數(shù)字人文視角:基于符號分析法的宋代政治網(wǎng)絡(luò)可視化研究[J].中國圖書館學(xué)報,2018,44(5):87-103.
作者簡介:
劉建斌(1997—),碩士,研究方向:文本挖掘與數(shù)字人文。