李一秀
摘 要 關(guān)聯(lián)數(shù)據(jù)作為語(yǔ)義網(wǎng)的輕量化實(shí)現(xiàn)方式在國(guó)際圖書館界如火如荼地展開,越來越多的圖書館機(jī)構(gòu)將數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù)。文章基于“文獻(xiàn)資源描述和組織框架”詳細(xì)梳理國(guó)家圖書館在語(yǔ)義化描述與組織方面的研究成果和實(shí)施情況,總結(jié)其資源描述、本體構(gòu)建、關(guān)聯(lián)開放網(wǎng)絡(luò)構(gòu)建等方面的探索現(xiàn)狀,分析其當(dāng)前存在的一些問題,并從多粒度信息組織、本體、質(zhì)量管理等角度,提出相應(yīng)的優(yōu)化措施與建議。
關(guān)鍵詞 國(guó)家圖書館 資源描述 資源組織 語(yǔ)義化 關(guān)聯(lián)數(shù)據(jù)
Abstract As a lightweight implementation of Semantic Web, linked data is spreading rapidly in the international library community. Based on the Bibliographic Resource Description and Organizational Framework of the National Library of China, this paper reviews the research results and implementation of semantic description and organization in detail, summarizes the progress of resource description, ontology construction and linked open data application, and analyzes some existing problems. Meanwhile, some corresponding optimization measures and suggestions are put forward from the perspective of multi-granularity information organization, ontology and quality management.Keywords National Library of China. Resource description. Resource organization. Semantization. Linked data.
0 引言
進(jìn)入21世紀(jì)以來,語(yǔ)義網(wǎng)技術(shù)和相關(guān)標(biāo)準(zhǔn)的出現(xiàn)正逐步影響著圖書館資源建設(shè)與服務(wù)。一方面,圖書館領(lǐng)域的編目規(guī)則和編目思想為適應(yīng)知識(shí)服務(wù)的需要而積極調(diào)整。IFLA分別于2010年和2017年推出《資源描述與檢索》(RDA)和《圖書館參考模型》(IFLA-LRM),基于概念建構(gòu)實(shí)體、屬性相互聯(lián)系的多維度立體資源數(shù)據(jù)結(jié)構(gòu),并規(guī)范各類詞表。美國(guó)國(guó)會(huì)圖書館積極投身關(guān)聯(lián)數(shù)據(jù)化建設(shè),牽頭開發(fā)書目框架,對(duì)FR系列模型進(jìn)行簡(jiǎn)化,為書目數(shù)據(jù)關(guān)聯(lián)數(shù)據(jù)化設(shè)計(jì)關(guān)聯(lián)書目數(shù)據(jù)模型。歐洲數(shù)字圖書館[1]推出歐洲數(shù)據(jù)模型,以模型組織數(shù)據(jù),通過映射設(shè)計(jì)將歐洲各國(guó)的圖書館、檔案館等機(jī)構(gòu)數(shù)據(jù)匹配到本體類和屬性并進(jìn)行關(guān)聯(lián)數(shù)據(jù)發(fā)布。另一方面,隨著語(yǔ)義網(wǎng)技術(shù)的日趨成熟,國(guó)內(nèi)外越來越多的圖書館開展關(guān)聯(lián)數(shù)據(jù)項(xiàng)目。從目前國(guó)際關(guān)聯(lián)開放數(shù)據(jù)(LOD)項(xiàng)目開展情況看,國(guó)內(nèi)外圖書館基于各自特色和需求推進(jìn)關(guān)聯(lián)數(shù)據(jù)應(yīng)用,在構(gòu)建知識(shí)數(shù)據(jù)集和開放共享方面不斷深入。國(guó)外,OCLC[2]、大英圖書館、法國(guó)國(guó)家圖書館、美國(guó)國(guó)會(huì)圖書館,日本國(guó)立國(guó)會(huì)圖書館[3],韓國(guó)國(guó)家圖書館[4]等都陸續(xù)開展了開放數(shù)據(jù)項(xiàng)目。在國(guó)內(nèi),上海圖書館[5]基于關(guān)聯(lián)數(shù)據(jù)開展了數(shù)字人文應(yīng)用,借助開放數(shù)據(jù)平臺(tái)將關(guān)聯(lián)數(shù)據(jù)應(yīng)用于圖書館人文信息資源語(yǔ)義描述,形成了豐富的理論研究和應(yīng)用成果。根據(jù)2018年關(guān)聯(lián)數(shù)據(jù)調(diào)查,進(jìn)入排名前10的數(shù)據(jù)集有4項(xiàng)來自圖書館領(lǐng)域[6],由此可見,以關(guān)聯(lián)數(shù)據(jù)為代表的語(yǔ)義網(wǎng)技術(shù)已經(jīng)深入圖書館領(lǐng)域,成為當(dāng)前圖書館轉(zhuǎn)型的重要手段和方式。為了進(jìn)一步推進(jìn)語(yǔ)義化描述與組織的研究和探索,本文在梳理了國(guó)家圖書館在語(yǔ)義化描述與組織方面的研究成果和實(shí)施情況的基礎(chǔ)上,總結(jié)其資源描述、本體構(gòu)建、關(guān)聯(lián)開放網(wǎng)絡(luò)構(gòu)建等方面的實(shí)踐經(jīng)驗(yàn),最后分析其當(dāng)前存在的一些問題,并從多粒度信息組織、本體、質(zhì)量管理等角度,提出相應(yīng)的優(yōu)化措施與建議。
1 國(guó)家圖書館語(yǔ)義描述與組織現(xiàn)狀
中國(guó)國(guó)家圖書館于2009年啟動(dòng)“國(guó)家圖書知識(shí)組織標(biāo)準(zhǔn)規(guī)范”項(xiàng)目,探索運(yùn)用語(yǔ)義網(wǎng)技術(shù)對(duì)圖書館傳統(tǒng)館藏?cái)?shù)據(jù)進(jìn)行語(yǔ)義化并以關(guān)聯(lián)數(shù)據(jù)連接和發(fā)布,使圖書館的館藏資源融合到更大的Web環(huán)境中,擴(kuò)大圖書館數(shù)據(jù)價(jià)值。目前,項(xiàng)目的理論成果已經(jīng)走向?qū)嵺`,國(guó)家圖書館在“數(shù)字圖書館文獻(xiàn)資源描述和組織框架”(圖1)下,完成了部分知識(shí)組織工具與數(shù)字館藏元數(shù)據(jù)的語(yǔ)義化,并將全部數(shù)據(jù)以關(guān)聯(lián)數(shù)據(jù)發(fā)布。
回顧國(guó)家圖書館在語(yǔ)義描述和組織上的發(fā)展歷程,國(guó)家圖書館在標(biāo)準(zhǔn)化工作方面一直做出長(zhǎng)期努力,在圖書館數(shù)據(jù)語(yǔ)義化研究方面扮演著重要角色。國(guó)家數(shù)字圖書館工程于2005年設(shè)計(jì)工程項(xiàng)目標(biāo)準(zhǔn)基本框架,啟動(dòng)國(guó)家數(shù)字圖書館工程標(biāo)準(zhǔn)規(guī)范體系研制工作,圍繞數(shù)字內(nèi)容創(chuàng)建、數(shù)字對(duì)象描述、組織管理、服務(wù)、長(zhǎng)期保存五個(gè)環(huán)節(jié)研制了約三十余項(xiàng)標(biāo)準(zhǔn)。其中,核心元數(shù)據(jù)標(biāo)準(zhǔn)、專門元數(shù)據(jù)規(guī)范、管理元數(shù)據(jù)規(guī)范、長(zhǎng)期保存元數(shù)據(jù)規(guī)范、元數(shù)據(jù)編碼、元數(shù)據(jù)映射規(guī)范等元數(shù)據(jù)相關(guān)標(biāo)準(zhǔn)規(guī)范與數(shù)字資源知識(shí)組織規(guī)范共同構(gòu)成了圖書館數(shù)字資源描述與組織的重要參考[8](見表1)。在“數(shù)字資源知識(shí)組織規(guī)范”中,提出依據(jù)數(shù)字圖書館文獻(xiàn)資源描述和組織框架,按“元數(shù)據(jù)層-本體層-關(guān)聯(lián)數(shù)據(jù)層”三個(gè)層次[7]對(duì)圖書館文獻(xiàn)資源分別進(jìn)行描述、組織和關(guān)聯(lián)數(shù)據(jù)發(fā)布,以調(diào)整資源組織結(jié)構(gòu),滿足知識(shí)層面的資源深度組織需要。
1.1 元數(shù)據(jù)方案及應(yīng)用
描述元數(shù)據(jù)[9]方面,采用國(guó)家圖書館核心元素集(全部復(fù)用DC)作為各種資源類型元數(shù)據(jù)互操作的基礎(chǔ)元素集,同時(shí),支持增加元素或修飾詞進(jìn)行擴(kuò)展以滿足精確描述的需求。在擴(kuò)展原則下,制定音頻、視頻等十四種專門元數(shù)據(jù)規(guī)范與著錄規(guī)則,再根據(jù)資源內(nèi)外部特征的不同揭示需要,選擇不同元素項(xiàng)。專門元數(shù)據(jù)規(guī)范還規(guī)定了元素及其修飾詞的取值范圍,元素取值參照受控詞表或其他規(guī)范檔進(jìn)行標(biāo)記(如主題詞),或遵循特定解析規(guī)則(如語(yǔ)種表示)。描述語(yǔ)言和語(yǔ)法結(jié)構(gòu)上,采用XML Schema、RDFS等開放描述方法進(jìn)行元數(shù)據(jù)內(nèi)容和元數(shù)據(jù)規(guī)范定義描述,采用XML語(yǔ)言及其相關(guān)語(yǔ)法結(jié)構(gòu)作為元數(shù)據(jù)編碼及數(shù)據(jù)接口。針對(duì)圖書館不同的元數(shù)據(jù)類型,制定CNMARC、MARC21與國(guó)家圖書館元數(shù)據(jù)核心元素集映射轉(zhuǎn)換指南,以支持不同格式元數(shù)據(jù)之間的互操作。
隨著數(shù)字圖書館建設(shè)實(shí)踐開展,以上標(biāo)準(zhǔn)規(guī)范在國(guó)家圖書館推廣工程等大型工程元數(shù)據(jù)建設(shè)得到廣泛應(yīng)用。不同的元數(shù)據(jù)格式和結(jié)構(gòu)經(jīng)過清洗映射集成為以國(guó)家圖書館核心元素集為基礎(chǔ)的元數(shù)據(jù),并統(tǒng)一裝入元數(shù)據(jù)倉(cāng)儲(chǔ)。
1.2 實(shí)體關(guān)系、屬性分析與本體設(shè)計(jì)
為進(jìn)一步提升數(shù)字資源在語(yǔ)義網(wǎng)環(huán)境下的組織與整合能力,國(guó)家圖書館面向關(guān)聯(lián)數(shù)據(jù)環(huán)境研制基于元數(shù)據(jù)本體構(gòu)建規(guī)范和應(yīng)用指南以及《中國(guó)分類主題詞表》語(yǔ)義描述規(guī)范[10]?;谠獢?shù)據(jù)本體,圖書館不同格式、不同類型的文獻(xiàn)元數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的以RDF格式表示的語(yǔ)義元數(shù)據(jù),實(shí)現(xiàn)文獻(xiàn)資源語(yǔ)義化描述和組織。國(guó)家圖書館元數(shù)據(jù)本體分通用的核心元數(shù)據(jù)本體和適用于具體類型文獻(xiàn)資源的專門元數(shù)據(jù)本體。通過元數(shù)據(jù)規(guī)范與元數(shù)據(jù)本體之間的映射關(guān)系,元數(shù)據(jù)項(xiàng)拆分和提取后的元數(shù)據(jù)項(xiàng)可以轉(zhuǎn)換為本體模型中的類和屬性關(guān)系,經(jīng)過實(shí)體類資源判定、概念類資源判定、其他數(shù)據(jù)項(xiàng)判定,分別對(duì)各類型資源進(jìn)行命名,實(shí)現(xiàn)RDF語(yǔ)義化描述。
在核心元數(shù)據(jù)本體中,分別包括文獻(xiàn)資源類(nloc:DocumentResource)、代理類(nloc:Agent)、時(shí)間類(nloc:PeriodOfTime)、概念體系類(skos:ConceptScheme)、概念類(skos:Concept)五個(gè)核心實(shí)體類。對(duì)于本體的元數(shù)據(jù)屬性主要根據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)定義了描述各類文獻(xiàn)資源的通用屬性?!拔墨I(xiàn)資源”類屬性多數(shù)復(fù)用DC和DCMI元數(shù)據(jù)術(shù)語(yǔ);“代理”類屬性復(fù)用FOAF本體中的同類屬性;“概念體系”類和“概念”類屬性參照遵循核心模型中的定義。特定資源類型的文獻(xiàn)資源根據(jù)具體資源特征需求,在已有屬性基礎(chǔ)上添加子屬性,或重新定義新的屬性,形成專門元數(shù)據(jù)本體。詞表選取上,為了保持良好的互操作性和可擴(kuò)展性,國(guó)家圖書館盡可能復(fù)用已有詞表,核心元數(shù)據(jù)本體中復(fù)用了DC、SKOS詞表、FOAF等術(shù)語(yǔ)詞表,并在此基礎(chǔ)上進(jìn)行了適當(dāng)擴(kuò)展,作為原有詞表的補(bǔ)充。
除了文獻(xiàn)資源,傳統(tǒng)知識(shí)工具也進(jìn)行了語(yǔ)義化描述。SKOS是W3C發(fā)布的一種NKOS標(biāo)識(shí)的語(yǔ)義描述規(guī)范,對(duì)促進(jìn)受控詞表在網(wǎng)絡(luò)環(huán)境下使用具有重要意義,為本體構(gòu)建提供了豐富的概念和語(yǔ)義關(guān)系。國(guó)際上已有LCSH、MeSH、OCLC的FAST等詞表率先啟用SKOS表示其數(shù)據(jù)元素,成功開展術(shù)語(yǔ)網(wǎng)絡(luò)服務(wù)。在此背景下,國(guó)家圖書館于2009年啟動(dòng)“國(guó)家圖書館知識(shí)組織規(guī)范”項(xiàng)目,基于已有知識(shí)組織工具特點(diǎn)和發(fā)展需求,研制國(guó)家圖書館NKOS的構(gòu)建方法和應(yīng)用規(guī)范,對(duì)目前圖書館領(lǐng)域使用最廣泛的知識(shí)組織工具《中國(guó)分類主題詞表》采用SKOS語(yǔ)言描述其結(jié)構(gòu)和內(nèi)容。由于《中國(guó)分類主題詞表》在結(jié)構(gòu)和內(nèi)容上的復(fù)雜性,項(xiàng)目基于SKOS做了相應(yīng)擴(kuò)展(skosxl:),比如對(duì)于“中分表”入口詞,采用了skosxl:Label(入口詞URI)、skosxl:prefLabel(首選標(biāo)簽)、skosxl:altLabel(非首選標(biāo)簽)、skosxl:literalForm(入口詞)等進(jìn)行相應(yīng)表示?!爸蟹直怼北倔w類包含ConceptScheme(主題概念體系類)、OrderedCollection(主題概念集合類)、Classification(類目類)、Subject(主題詞類)等。其中,skos:ConceptScheme(主題概念體系類)作為“中分表”整體的KOS,包含了所有主題詞和主題詞集合。skos:OrderedCollection(主題概念集合類)包括了人名主題概念、團(tuán)體或會(huì)議名稱主題概念、地理名稱主題概念、統(tǒng)一題名主題概念、普通主題概念5種概念集合,分別對(duì)應(yīng)MARC中200、210、215、250字段[10]。Classification(類目類)和Subject(主題詞類)分別表示“中分表”類目和主題詞相關(guān)信息,如“公共安全管理”類目,其描述如表2所示。
1.3 關(guān)聯(lián)數(shù)據(jù)的數(shù)據(jù)網(wǎng)絡(luò)構(gòu)建
關(guān)聯(lián)數(shù)據(jù)是推動(dòng)“數(shù)據(jù)之網(wǎng)”的關(guān)鍵,通過多種知識(shí)單元之間的連接,增強(qiáng)和完善語(yǔ)義關(guān)聯(lián),并通過發(fā)布實(shí)現(xiàn)更廣泛、更深層的關(guān)系揭示。目前,國(guó)家圖書館已經(jīng)完成關(guān)聯(lián)數(shù)據(jù)注冊(cè)與服務(wù)系統(tǒng)構(gòu)建,成功注冊(cè)并發(fā)布了語(yǔ)義化的中分表、國(guó)家圖書館公開課、中日韓數(shù)字圖書館三個(gè)數(shù)據(jù)集,向用戶提供查詢、瀏覽、下載與接口服務(wù)。
注冊(cè)時(shí),首先對(duì)詞匯規(guī)范進(jìn)行注冊(cè),以方便數(shù)據(jù)集復(fù)用。其次,對(duì)數(shù)據(jù)集進(jìn)行注冊(cè),選擇系統(tǒng)中相應(yīng)的詞匯規(guī)范,對(duì)數(shù)據(jù)集的概念體系、概念集合、概念關(guān)系、屬性體系等進(jìn)行注冊(cè)。此外,國(guó)家圖書館規(guī)定了一套命名域體系,對(duì)于不同類型的資源分別進(jìn)行URI標(biāo)識(shí)規(guī)范,包括數(shù)據(jù)集URI、本體URI、取值詞表URI、規(guī)范詞表URI、信息資源URI和非信息資源URI六種不同類型。不同類型資源有不同的命名要求,如數(shù)據(jù)集URI使用“data.nlc.cn+dataset+數(shù)據(jù)集標(biāo)識(shí)”,規(guī)范詞表URI使用“data.nlc.cn+thesaurus+詞表標(biāo)識(shí)”,本體詞表URI使用“data.nlc.cn+ontology+類名或?qū)傩悦Q”,信息資源使用“data.nlc.cn+resource+數(shù)據(jù)集標(biāo)識(shí)+資源類名+IRI”,非信息資源則使用“data.nlc.cn+dataset+數(shù)據(jù)集標(biāo)識(shí)+資源類名+IRI”。所有數(shù)據(jù)集支持RDF/XML、RDF/JSON、N3、NTriple、Turtle格式下載。
系統(tǒng)支持一般檢索、SPARQL查詢,支持可視化展示,圖2為“公共安全管理”知識(shí)圖譜展示示例,圖中直觀展現(xiàn)概念與屬性、概念之間的豐富關(guān)系。
2 當(dāng)前存在的一些問題
從目前關(guān)聯(lián)數(shù)據(jù)注冊(cè)與服務(wù)系統(tǒng)語(yǔ)義鏈接來看,在服務(wù)效能上未能充分展示語(yǔ)義優(yōu)勢(shì),制約著語(yǔ)義聚合效果。
2.1 資源描述方面,存在一定程度上不完善、不一致、不準(zhǔn)確現(xiàn)象
國(guó)家圖書館數(shù)字館藏元數(shù)據(jù)本體基于元數(shù)據(jù)規(guī)范構(gòu)建,從元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范的元素中提取類與屬性,是一種自下而上的構(gòu)建方法。元數(shù)據(jù)方案在具體實(shí)施過程中,雖然在標(biāo)準(zhǔn)層面保障了項(xiàng)目建設(shè)的規(guī)范性,但數(shù)據(jù)結(jié)構(gòu)和著錄方式上還存在一定差異。對(duì)于著錄項(xiàng)和元素取值,圖書館往往停留在單一、平面的記錄層面,揭示角度比較單一,語(yǔ)義上描述不夠全面、精確。據(jù)調(diào)查,對(duì)于元素項(xiàng),題名、責(zé)任者、標(biāo)識(shí)符、館藏信息、主題是高頻著錄項(xiàng)目,其他元素項(xiàng)很少使用。元素取值方面,出于對(duì)編碼體系了解、著錄難度、成本等各方面考慮往往不使用編碼體系取值,元數(shù)據(jù)元素值大多為自由詞和文字值。基于以上原因,能夠被結(jié)構(gòu)化抽取出的實(shí)體概念和關(guān)系較少,不能充分發(fā)揮這些信息的關(guān)聯(lián)作用,需要進(jìn)一步根據(jù)不同的數(shù)據(jù)情況進(jìn)行語(yǔ)義分析、映射和概念,以提取精準(zhǔn)元素項(xiàng)來搭建關(guān)聯(lián)。
2.2 現(xiàn)有本體可重用和動(dòng)態(tài)擴(kuò)展能力較差,無法深入地揭示完整的語(yǔ)義信息
國(guó)家圖書館的資源描述本體基于國(guó)家圖書館核心元數(shù)據(jù)制定(2012年),描述資源的元素只選擇了自定義所需要的詞匯(nloc:)及使用一些非圖書館領(lǐng)域的本體詞表,如FOAF等,利用這些本體和詞表抽取書目元數(shù)據(jù)中代理、時(shí)間、概念等實(shí)體。這種選擇的不足是可重用和動(dòng)態(tài)擴(kuò)展能力差,在描述資源的時(shí)候非圖書館領(lǐng)域的資源本體無法全面、深入地揭示完整的語(yǔ)義信息。
另一方面,對(duì)于具體資源的語(yǔ)義化描述也不夠細(xì)化。不同資源有各自復(fù)雜的結(jié)構(gòu)和語(yǔ)義條件,目前核心元數(shù)據(jù)本體有比較清晰的語(yǔ)義結(jié)構(gòu),但是對(duì)于具體資源僅給出了方向指導(dǎo),缺乏詳細(xì)的數(shù)據(jù)結(jié)構(gòu)和術(shù)語(yǔ)詞表作為實(shí)施參考。此外,核心元數(shù)據(jù)本體及專門元數(shù)據(jù)本體在制定時(shí)未面向各種館藏資源類型進(jìn)行數(shù)據(jù)實(shí)驗(yàn),其適用性和可行性還有待在深入研究和大量實(shí)踐中進(jìn)一步探索和驗(yàn)證。
映射方面,缺乏支持多類型、多種格式的細(xì)化映射指南。圖書館普遍存在多種類型、多種格式的元數(shù)據(jù),如MARC數(shù)據(jù)、DC數(shù)據(jù)以及存儲(chǔ)在關(guān)系型數(shù)據(jù)庫(kù)形式、EXCEL格式中的各種元數(shù)據(jù)。目前元數(shù)據(jù)本體基于國(guó)家圖書館核心元素集建立,對(duì)于其他形式的元數(shù)據(jù)如何在本體結(jié)構(gòu)下進(jìn)行語(yǔ)義化轉(zhuǎn)換缺乏比較詳細(xì)的規(guī)范和實(shí)例指導(dǎo)。如果將其他格式都先對(duì)應(yīng)到國(guó)家圖書館核心元數(shù)據(jù)和專門元數(shù)據(jù),再進(jìn)行語(yǔ)義化轉(zhuǎn)換,MARC或其他格式里的書目字段或信息數(shù)據(jù)可能會(huì)出現(xiàn)較多信息無法在國(guó)家圖書館核心集元數(shù)據(jù)和專門元數(shù)據(jù)里無法對(duì)應(yīng)的情況,丟失數(shù)據(jù)信息。
2.3 缺乏有效的實(shí)體管理和身份標(biāo)識(shí)管理
從目前的注冊(cè)與發(fā)布平臺(tái)看,發(fā)現(xiàn)存在不少URI別名現(xiàn)象,給數(shù)據(jù)處理和分析帶來挑戰(zhàn),影響著數(shù)據(jù)鏈接質(zhì)量。產(chǎn)生這一現(xiàn)象的主要原因是因?yàn)槟壳白?cè)系統(tǒng)平臺(tái)在功能上不支持?jǐn)?shù)據(jù)生產(chǎn)、統(tǒng)一標(biāo)識(shí)與轉(zhuǎn)換,僅支持已經(jīng)完成SKOS、RDF轉(zhuǎn)換的數(shù)據(jù)進(jìn)行注冊(cè)及發(fā)布。但從數(shù)據(jù)集中可以看出,還存在一些其他問題造成別名現(xiàn)象,比如在不同數(shù)據(jù)集中,對(duì)于相同的實(shí)體使用不同的術(shù)語(yǔ)描述,對(duì)于相同的實(shí)體使用不同的URI標(biāo)識(shí),相同的實(shí)體在不同數(shù)據(jù)源中屬性值互為沖突等等。以圖2為例,“公共管理”等類目和主題詞已經(jīng)實(shí)現(xiàn)了語(yǔ)義化的處理,但公開課《美國(guó)公共圖書館的行政管理》? 《我國(guó)農(nóng)產(chǎn)品質(zhì)量安全的現(xiàn)狀特點(diǎn)、存在問題及其未來展望》 (分別有主題詞“行政管理”和“安全管理”)因主題詞使用的是字符串而非身份URI,系統(tǒng)在歸并時(shí)容易產(chǎn)生遺漏。
3 發(fā)展建議
3.1 進(jìn)一步增強(qiáng)數(shù)據(jù)的完整性和規(guī)范化
數(shù)據(jù)的完整性和規(guī)范化使之更容易被發(fā)現(xiàn),要重視對(duì)資源內(nèi)容特征的全面、細(xì)粒度揭示,在開放、可擴(kuò)展原則下推進(jìn)資源描述規(guī)則的規(guī)范化實(shí)施。對(duì)于元素值,應(yīng)保障其著錄正確,符合元數(shù)據(jù)元素項(xiàng)要求,盡量選擇相關(guān)的受控詞匯,使用URI鏈接;形式上采取更加包容的態(tài)度,鼓勵(lì)去格式化的語(yǔ)義描述,構(gòu)建以節(jié)點(diǎn)為核心的關(guān)聯(lián)化組織。
3.2 進(jìn)一步優(yōu)化數(shù)據(jù)模型,細(xì)化語(yǔ)義化方案
借鑒近年國(guó)際正式發(fā)布的、已經(jīng)獲得廣泛應(yīng)用的圖書館領(lǐng)域成熟數(shù)據(jù)模型或框架作為底層基礎(chǔ)框架,如BIBFRAME、RDA、EDM等,保障資源語(yǔ)義描述的完整性。同時(shí),不斷優(yōu)化語(yǔ)義化方案,針對(duì)不同資源的復(fù)雜的結(jié)構(gòu)和語(yǔ)義條件,細(xì)化具體資源的語(yǔ)義化流程,通過大量數(shù)據(jù)實(shí)驗(yàn)對(duì)概念模型進(jìn)行語(yǔ)義驗(yàn)證,檢驗(yàn)本體在實(shí)際應(yīng)用中的可行性和有效性。具體資源和服務(wù)需求往往具有復(fù)雜性,需要經(jīng)過不同數(shù)據(jù)實(shí)驗(yàn),結(jié)合領(lǐng)域?qū)<业闹R(shí)經(jīng)驗(yàn)和語(yǔ)義推理機(jī)制,檢驗(yàn)元數(shù)據(jù)本體對(duì)元素的適用性,不斷完善數(shù)據(jù)之間的語(yǔ)義邏輯關(guān)系。
3.3 嚴(yán)格實(shí)體管理,豐富數(shù)據(jù)多樣性,構(gòu)建更加完整的知識(shí)體系
進(jìn)一步添加事件、機(jī)構(gòu)等多類型實(shí)體規(guī)范庫(kù),統(tǒng)一實(shí)體管理,使用代表實(shí)體的標(biāo)識(shí)符或URI匯集同一實(shí)體的各種名稱形式,如各種變異形式、多語(yǔ)種標(biāo)簽等,同時(shí),可以進(jìn)一步關(guān)聯(lián)多語(yǔ)言的外部鏈接數(shù)據(jù)集,使語(yǔ)義元數(shù)據(jù)富化。資源的周邊數(shù)據(jù),如用戶評(píng)論、點(diǎn)擊次數(shù)、借閱信息、收藏等表現(xiàn)用戶興趣的社會(huì)化數(shù)據(jù)也可以作為本體補(bǔ)充,共同成為知識(shí)庫(kù)的有機(jī)組成部分。
3.4 增加本體發(fā)布,增強(qiáng)數(shù)據(jù)的可讀性和可重用性
除SKOS外,目前已發(fā)布的數(shù)據(jù)集大多是實(shí)例數(shù)據(jù),對(duì)其相應(yīng)的本體并沒有面向使用者發(fā)布,增加了數(shù)據(jù)的使用難度,使用者往往難以理解數(shù)據(jù)集的特征和結(jié)構(gòu),進(jìn)而影響數(shù)據(jù)重用。陳濤[11]提出連同本體一起發(fā)布數(shù)據(jù)集的方法,并且在發(fā)布本體時(shí),對(duì)其元數(shù)據(jù)也進(jìn)行相應(yīng)描述,標(biāo)注其名稱、描述、版本、版權(quán)等屬性信息,以增加數(shù)據(jù)集的可讀性。
3.5 加強(qiáng)質(zhì)量評(píng)估
伴隨數(shù)據(jù)集數(shù)量不斷增加以及隨之而來的更新需求,國(guó)際對(duì)于開放環(huán)境下的數(shù)據(jù)質(zhì)量逐步重視。IFLA[12]和Europeana[13]近年都表現(xiàn)出對(duì)開放數(shù)據(jù)質(zhì)量及可靠性的關(guān)注。2020年8月即將舉行的第86屆IFLA年會(huì)編目部圍繞“元數(shù)據(jù)質(zhì)量”,以“圖書館元數(shù)據(jù)及其他社區(qū)生產(chǎn)的數(shù)據(jù)集與服務(wù)集成后帶來的收益與挑戰(zhàn)”作為會(huì)議主題探討數(shù)據(jù)共享環(huán)境下的數(shù)據(jù)質(zhì)量、可靠性。Europeana于2015年和2018年分別完成“發(fā)布框架:內(nèi)容”及“發(fā)布框架:元數(shù)據(jù)”,以改善資源內(nèi)容質(zhì)量和元數(shù)據(jù)質(zhì)量。為適應(yīng)新環(huán)境和新業(yè)態(tài)的發(fā)展和需求,需要重新界定開放環(huán)境下的“元數(shù)據(jù)質(zhì)量”,逐步將其納入常規(guī)管理工作,制定質(zhì)量控制與管理框架,更好地發(fā)揮數(shù)據(jù)效能。