• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      國家圖書館關(guān)聯(lián)數(shù)據(jù)注冊與服務(wù)系統(tǒng)設(shè)計及實現(xiàn)

      2020-01-17 06:35:00蔡穎
      數(shù)字圖書館論壇 2019年11期
      關(guān)鍵詞:詞表國家圖書館關(guān)聯(lián)

      蔡穎

      (國家圖書館,北京 100081)

      2006年萬維網(wǎng)的發(fā)明者Berners-Lee[1]首次提出關(guān)聯(lián)數(shù)據(jù)(Linked Data)的概念。關(guān)聯(lián)數(shù)據(jù)可以視作一種輕量級的語義網(wǎng)實現(xiàn)方式。它采用資源描述框架(Resource Description Framework,RDF)三元組數(shù)據(jù)模型,使用統(tǒng)一資源標(biāo)識符(Uniform Resource Identifier,URI)標(biāo)識資源實體,發(fā)布類數(shù)據(jù)及實例數(shù)據(jù),并且通過HTTP協(xié)議來揭示、獲取這些數(shù)據(jù),關(guān)聯(lián)數(shù)據(jù)主要強(qiáng)調(diào)數(shù)據(jù)之間的相互關(guān)聯(lián)關(guān)系,以及語義信息可以被人機(jī)理解[2]。關(guān)聯(lián)數(shù)據(jù)的提出可以有效解決自主、異類、異構(gòu)的海量數(shù)據(jù)的知識發(fā)現(xiàn)問題[3]。關(guān)聯(lián)數(shù)據(jù)的提出受到廣泛關(guān)注和重視,各界紛紛加入關(guān)聯(lián)數(shù)據(jù)的研究與實踐中,截至2019年3月,關(guān)聯(lián)開放數(shù)據(jù)(Linking Open Data,LOD)項目已經(jīng)發(fā)布包括政府?dāng)?shù)據(jù)、生命科學(xué)、地理數(shù)據(jù)等各個領(lǐng)域共1 239個數(shù)據(jù)集[4]。

      1 圖書館界關(guān)聯(lián)數(shù)據(jù)應(yīng)用情況

      關(guān)聯(lián)數(shù)據(jù)可以將圖書館的海量資源與外界資源進(jìn)行有效地連接,從而解決圖書館資源“數(shù)據(jù)孤島”的現(xiàn)狀,進(jìn)一步優(yōu)化和開拓圖書館的資源發(fā)現(xiàn)系統(tǒng),提升圖書館資源發(fā)現(xiàn)的服務(wù)水平。萬維網(wǎng)聯(lián)盟(World Wide Web Consortium,W3C)報告認(rèn)為,在關(guān)聯(lián)數(shù)據(jù)運(yùn)動中圖書館可以擔(dān)任領(lǐng)導(dǎo)者的角色。2010年,W3C正式成立圖書館關(guān)聯(lián)數(shù)據(jù)孵化小組,為圖書館建立、應(yīng)用關(guān)聯(lián)數(shù)據(jù)提供幫助[5]。對此,圖書館界也給予充分的重視,主要將關(guān)聯(lián)數(shù)據(jù)應(yīng)用于圖書館的各種規(guī)范詞表、圖書館記錄集、圖書館的元數(shù)據(jù)元素集等多個方面。

      1.1 國外圖書館的探索與實踐

      國外圖書館關(guān)聯(lián)數(shù)據(jù)建設(shè)大多先從規(guī)范詞表數(shù)據(jù)開始,然后推廣至?xí)繑?shù)據(jù)。規(guī)范詞表關(guān)聯(lián)數(shù)據(jù)的典型應(yīng)用包括美國國會圖書館選擇簡單知識組織系統(tǒng)(Simple Knowledge Organization System,SKOS)將美國國會圖書館主題詞表(Library of Congress Subject Headings,LCSH)發(fā)布成為關(guān)聯(lián)數(shù)據(jù);聯(lián)機(jī)計算機(jī)圖書館中心(Online Computer Library Center,OCLC)發(fā)布由美國、法國、德國3國圖書館的聯(lián)合項目虛擬國際規(guī)范文檔(Virtual International Authority File,VIAF),VIAF數(shù)據(jù)是目前LOD項目中最大的規(guī)范名稱數(shù)據(jù)集[6];德國國家圖書館早在2010年就發(fā)布了330萬條名稱規(guī)范記錄和近19萬條主題規(guī)范記錄[7]。書目數(shù)據(jù)的典型應(yīng)用是瑞典國家圖書館發(fā)布的瑞典聯(lián)合目錄(Library Information System for Sweden,LIBRIS),瑞典是第一個將書目數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù)的國家[8]。在構(gòu)建關(guān)聯(lián)數(shù)據(jù)本體時,各國圖書館盡可能復(fù)用已出現(xiàn)的本體詞匯,規(guī)范數(shù)據(jù)選擇的本體詞匯一般為SKOS、FOAF、OWL等,書目數(shù)據(jù)選擇的本體詞匯集更多傾向于DC、DCT、BIBO、RDFS。如英國國家圖書館盡可能地利用現(xiàn)有的本體詞匯;德國國家圖書館則逐步按照數(shù)據(jù)模型開發(fā)的需要增添新的本體詞匯來源[9]。而編目格式從傳統(tǒng)的MARC21格式轉(zhuǎn)向基于關(guān)聯(lián)數(shù)據(jù)模型的新格式BIBFRAME,美國國會圖書館在2011年發(fā)表書目數(shù)據(jù)轉(zhuǎn)換聲明,2013年正式發(fā)布創(chuàng)作作品、實例、規(guī)范和注釋4個核心類組成的BIBFRAME模型,2015年10月美國國會圖書館發(fā)布BIBFRAME2.0并對核心類作出了調(diào)整[10]。

      1.2 國內(nèi)圖書館的探索與實踐

      國內(nèi)圖書館開展相關(guān)的實踐較晚,近年來國內(nèi)圖書館界逐漸意識到在關(guān)聯(lián)數(shù)據(jù)方面與國外圖書館界的差距,以關(guān)聯(lián)數(shù)據(jù)的理論研究為開端,配合以實驗性質(zhì)的項目,越來越多地將關(guān)聯(lián)數(shù)據(jù)融入圖書館實際的工作與應(yīng)用。中國科學(xué)技術(shù)信息研究所對發(fā)布工具D2R進(jìn)行了研究并開展實踐,實現(xiàn)書目數(shù)據(jù)的關(guān)聯(lián)數(shù)據(jù)發(fā)布。寧波市數(shù)字圖書館利用PHP開源語音編程開發(fā)相關(guān)的關(guān)聯(lián)數(shù)據(jù)發(fā)布組件,實現(xiàn)企業(yè)名錄和專業(yè)人才關(guān)聯(lián)數(shù)據(jù)的發(fā)布。卜書慶[11]進(jìn)行了基于SKOS的《中國分類主題詞表》(以下簡稱《中分表》)語義化描述和可視化研究。上海圖書館對社會大眾開放了數(shù)字人文項目的數(shù)據(jù)平臺,以關(guān)聯(lián)數(shù)據(jù)的方式在互聯(lián)網(wǎng)公開發(fā)布項目所用的基礎(chǔ)知識庫、文獻(xiàn)知識庫和本體詞表,包括人名規(guī)范庫、華人姓氏列表、地理名詞表、機(jī)構(gòu)名錄、中國歷史紀(jì)年表等,并以多種方式提供數(shù)據(jù)消費接口,供開發(fā)人員調(diào)用,以促進(jìn)數(shù)據(jù)的開放獲取、共享和重用[12]。關(guān)聯(lián)數(shù)據(jù)在國外各大圖書館中有很多典型的應(yīng)用,雖然國內(nèi)圖書館界也陸續(xù)開展了一些實驗課題和應(yīng)用項目,但圖書館中最具價值的資源如《中分表》、書目數(shù)據(jù)還沒有正式發(fā)布成為關(guān)聯(lián)數(shù)據(jù),與國外圖書館界關(guān)聯(lián)數(shù)據(jù)的應(yīng)用存在一定的差距。

      2 國家圖書館關(guān)聯(lián)數(shù)據(jù)平臺設(shè)計方案

      2.1 設(shè)計思路

      國家圖書館關(guān)聯(lián)數(shù)據(jù)注冊與服務(wù)系統(tǒng)的建設(shè)總目標(biāo)是建立涵蓋關(guān)聯(lián)數(shù)據(jù)整個生命周期管理能力和對RDF數(shù)據(jù)具備通用處理能力的系統(tǒng)。圖書館擁有海量詞表規(guī)范、書目數(shù)據(jù)等有價值的數(shù)據(jù),在發(fā)布關(guān)聯(lián)數(shù)據(jù)時通常選擇這些已有的數(shù)據(jù)集并通過D2R等開源工具轉(zhuǎn)換成關(guān)聯(lián)數(shù)據(jù)結(jié)構(gòu),系統(tǒng)支持其他工具產(chǎn)生的關(guān)聯(lián)數(shù)據(jù)的批量導(dǎo)入。在設(shè)計時考慮到關(guān)聯(lián)數(shù)據(jù)生命周期的完整性及未來關(guān)聯(lián)數(shù)據(jù)應(yīng)用的業(yè)務(wù)場景,也開發(fā)了相應(yīng)的注冊模塊來滿足關(guān)聯(lián)數(shù)據(jù)直接在系統(tǒng)中生產(chǎn)的要求。

      在建設(shè)系統(tǒng)之前,國家圖書館在關(guān)聯(lián)數(shù)據(jù)方面具備一定的理論研究基礎(chǔ)和實踐成果,其中包括《中分表》、國圖公開課的關(guān)聯(lián)數(shù)據(jù)描述規(guī)范與其MARC轉(zhuǎn)換方案,故將《中分表》和國圖公開課作為兩個關(guān)聯(lián)數(shù)據(jù)集在系統(tǒng)發(fā)布。除此以外,選取2 500條館藏文獻(xiàn),將其書目數(shù)據(jù)轉(zhuǎn)換成關(guān)聯(lián)數(shù)據(jù)格式,作為本平臺對書目數(shù)據(jù)的探索實踐。系統(tǒng)能夠進(jìn)行關(guān)聯(lián)數(shù)據(jù)的注冊、管理、發(fā)布與可視化展示,已經(jīng)實現(xiàn)敘詞表、視頻、書目3種不同類型數(shù)據(jù)集的發(fā)布與服務(wù)。

      2.1.1 設(shè)計原則

      系統(tǒng)設(shè)計的一個重要原則是通用性,即建成關(guān)聯(lián)數(shù)據(jù)統(tǒng)一的、通用的注冊與服務(wù)平臺。這要求系統(tǒng)具有良好的通用性和可擴(kuò)展性,對RDF/XML、JSON、N-Triples和Turtle等不同格式的文件,以及不同本體結(jié)構(gòu)的RDF數(shù)據(jù)均具備存儲和處理能力。系統(tǒng)的建設(shè)還可有效避免每發(fā)布一套數(shù)據(jù)集就建設(shè)一個平臺的現(xiàn)象,防止資源浪費和重復(fù)建設(shè)。

      系統(tǒng)設(shè)計遵循開放性、成熟性、標(biāo)準(zhǔn)性、可靠性和安全性原則。具有標(biāo)準(zhǔn)接口、API或者通信協(xié)議,體系結(jié)構(gòu)、資源建設(shè)與服務(wù)設(shè)計堅持開放性原則。系統(tǒng)建設(shè)過程中力求采用先進(jìn)可靠的軟件技術(shù)和長期經(jīng)受市場考驗的成熟工具或產(chǎn)品,確保系統(tǒng)的高性能和穩(wěn)定性。系統(tǒng)設(shè)計還要充分考慮各種安全風(fēng)險來保證平臺的安全運(yùn)行以及數(shù)據(jù)的安全性。

      除以上建設(shè)常規(guī)系統(tǒng)時應(yīng)考慮的設(shè)計原則,作為關(guān)聯(lián)數(shù)據(jù)注冊與服務(wù)系統(tǒng),在系統(tǒng)設(shè)計時還必須遵守關(guān)聯(lián)數(shù)據(jù)的四原則[1]:使用URI作為一切事物的標(biāo)識名稱;使用HTTP URI讓一切事物的名稱可以查看;使用唯一的RDF資源模型在網(wǎng)絡(luò)上發(fā)布結(jié)構(gòu)化數(shù)據(jù);使用超鏈接以連接任何類型的事物。

      2.1.2 總體架構(gòu)

      系統(tǒng)總體架構(gòu)如圖1所示,由數(shù)據(jù)層、業(yè)務(wù)層和展示層組成。數(shù)據(jù)層以Virtuoso、MySQL、Redis數(shù)據(jù)庫為支撐,開源數(shù)據(jù)庫Virtuoso支持對RDF三元組形式的數(shù)據(jù)存儲,MySQL用來存儲系統(tǒng)中的用戶數(shù)據(jù)、日志文件等,Redis數(shù)據(jù)庫的最大特點是將數(shù)據(jù)存放在內(nèi)存中,讀寫速度優(yōu)于MySQL,因此將系統(tǒng)中如數(shù)據(jù)統(tǒng)計業(yè)務(wù)場景數(shù)據(jù)的熱數(shù)據(jù)存放在Redis中。業(yè)務(wù)層提供數(shù)據(jù)注冊、數(shù)據(jù)服務(wù)、數(shù)據(jù)管理、用戶管理和統(tǒng)計報表等功能。展示層通過模塊引擎渲染和Ajax交互實現(xiàn)對數(shù)據(jù)進(jìn)行可視化展示、接口服務(wù)等。

      圖1 國家圖書館關(guān)聯(lián)數(shù)據(jù)注冊與服務(wù)系統(tǒng)架構(gòu)

      2.1.3 URI設(shè)計

      URI是網(wǎng)絡(luò)資源的身份標(biāo)識,URI具有唯一性和必須性,有了URI的資源就像是網(wǎng)絡(luò)認(rèn)證的“合法公民”,能夠?qū)ζ溥M(jìn)行管理、存儲、跟蹤、調(diào)用等生命周期的管理[13]。

      系統(tǒng)中URI設(shè)計遵循國際上通用的COOL URI設(shè)計原則以及統(tǒng)一模式,國家圖書館關(guān)聯(lián)數(shù)據(jù)的URI按照規(guī)范詞表、本體、取值詞表、信息資源、非信息資源和數(shù)據(jù)集分為6個類別。國家圖書館的URI的統(tǒng)一模式為“http://{domain}/{type}/{concept}/{IRI}”。通常{domain}由服務(wù)器地址和政府類型組成,國家圖書館的{domain}結(jié)合中國國家圖書館現(xiàn)有域名,采用“data.nlc.cn”來表示;{type}表示被標(biāo)識對象的類型;{concept}表示具體對象集合;{IRI}是系統(tǒng)內(nèi)部唯一標(biāo)識符。國家圖書館URI具體模式見表1。

      表1 國家圖書館關(guān)聯(lián)數(shù)據(jù)URI模式

      2.2 功能需求與實現(xiàn)

      2.2.1 數(shù)據(jù)注冊

      系統(tǒng)將SKOS、DC等W3C組織體系定義的詞匯規(guī)范作為平臺的詞匯規(guī)范基礎(chǔ),包含2018年W3C發(fā)布的所有的詞匯規(guī)范和詞匯屬性,既支持在此基礎(chǔ)上詞匯屬性的擴(kuò)展,也支持注冊新的或自定義的詞匯規(guī)范。

      形成完整、不斷更新擴(kuò)展的詞匯規(guī)范之后,在系統(tǒng)中可以通過選擇不同詞匯規(guī)范中的屬性詞匯,來構(gòu)建不同的知識本體。知識本體是領(lǐng)域知識被抽象后所形成的可以共享重用的概念模型[14],也是對概念體系可共享的規(guī)范說明,每一個本體對應(yīng)系統(tǒng)中一類關(guān)聯(lián)數(shù)據(jù)或一個關(guān)聯(lián)數(shù)據(jù)集。在創(chuàng)建和選定對應(yīng)的本體后,就可以進(jìn)行數(shù)據(jù)注冊。系統(tǒng)支持單條注冊和批量灌裝兩種數(shù)據(jù)注冊方式,批量灌裝默認(rèn)支持RDF/XML、JSON、N-Triples和Turtle 4種序列化格式的文件導(dǎo)入和存儲。單條注冊在系統(tǒng)后臺根據(jù)選擇的本體模型創(chuàng)建關(guān)聯(lián)數(shù)據(jù)的三元組,通過頁面來填寫三元組的主語、謂語和賓語,從而直接在系統(tǒng)中產(chǎn)生關(guān)聯(lián)數(shù)據(jù)。由于本次注冊的《中分表》、國圖公開課和館藏文獻(xiàn)3個數(shù)據(jù)集數(shù)據(jù)量較大,都是采用在系統(tǒng)外部通過開源工具轉(zhuǎn)換成關(guān)聯(lián)數(shù)據(jù)格式后,再通過批量灌裝的方式在系統(tǒng)中進(jìn)行注冊的。

      RDF三元組由主語、謂語、賓語共同構(gòu)成,當(dāng)賓語為普通文本時,該三元組被稱為文本三元組;當(dāng)賓語為URI標(biāo)識時,則該三元組被稱作RDF鏈接[15]。當(dāng)RDF鏈接中的賓語通過URI標(biāo)識不斷與其他數(shù)據(jù)集建立跨域鏈接,不同數(shù)據(jù)集中豐富的實體關(guān)系被有效地聯(lián)通,最終將分散的數(shù)據(jù)聚合起來,形成相互關(guān)聯(lián)的數(shù)據(jù)網(wǎng)絡(luò)。本系統(tǒng)在數(shù)據(jù)注冊時,賓語可以填寫普通文本,也可以在填寫文本后對文本在系統(tǒng)內(nèi)搜索匹配的資源實體或概念,選擇相應(yīng)的實體或概念后,可以添加其URI標(biāo)識作為賓語,從而形成RDF鏈接,如圖2所示。

      圖2 國家圖書館關(guān)聯(lián)數(shù)據(jù)注冊與服務(wù)系統(tǒng)中建立RDF鏈接

      2.2.2 數(shù)據(jù)發(fā)布

      在Web上發(fā)布關(guān)聯(lián)數(shù)據(jù)即通過支持各種協(xié)商機(jī)制的Web服務(wù)器在網(wǎng)上發(fā)布成關(guān)聯(lián)數(shù)據(jù)應(yīng)用,通過API、REST、SOAP或其他Web服務(wù)方式,支持HTTP查詢和關(guān)聯(lián)數(shù)據(jù)消費[16]。系統(tǒng)實現(xiàn)發(fā)布功能時根據(jù)要發(fā)布關(guān)聯(lián)數(shù)據(jù)的數(shù)據(jù)量大小、數(shù)據(jù)更新頻率、數(shù)據(jù)的存儲方式和訪問方式來選擇不同的發(fā)布方式。在系統(tǒng)中對于數(shù)據(jù)量較小的情況,采用靜態(tài)發(fā)布的方式,即發(fā)布靜態(tài)的RDF文件;對于數(shù)據(jù)量大、更新頻率高的情況,將數(shù)據(jù)批量存儲在Virtuoso數(shù)據(jù)庫中,使用Virtuoso帶有的SPARQL Endpoint(端點)進(jìn)行發(fā)布,SPARQL Endpoint也是關(guān)聯(lián)數(shù)據(jù)的一種常見發(fā)布方式[17]。

      目前系統(tǒng)已經(jīng)發(fā)布《中分表》、國圖公開課、館藏文獻(xiàn)3個數(shù)據(jù)集,為方便這3個數(shù)據(jù)集的共享與復(fù)用,系統(tǒng)將這3個數(shù)據(jù)集的本體也在Web上進(jìn)行了發(fā)布。

      2.2.3 數(shù)據(jù)服務(wù)

      關(guān)聯(lián)數(shù)據(jù)發(fā)布后會提供開放數(shù)據(jù)服務(wù)、RDF DUMP服務(wù)和SPARQL查詢服務(wù)。

      國家圖書館關(guān)聯(lián)數(shù)據(jù)注冊與服務(wù)系統(tǒng)也提供以上3種服務(wù)方式,首先開放數(shù)據(jù)服務(wù),提供關(guān)聯(lián)數(shù)據(jù)的檢索和瀏覽功能。在系統(tǒng)中提供通用檢索、精確檢索和組合檢索3種檢索方式。瀏覽服務(wù)主要提供數(shù)據(jù)集、詞表的元數(shù)據(jù)及內(nèi)容的瀏覽功能。針對整個數(shù)據(jù)集或者詞表的瀏覽,用戶可以選擇某一個條件作為檢索點,檢索后可以定位檢索詞在數(shù)據(jù)集或詞表中的位置,并可以上下瀏覽整個有序列表。

      RDF DUMP服務(wù)是一種把數(shù)據(jù)以多種RDF文件格式發(fā)布的方式。在系統(tǒng)中,數(shù)據(jù)以RDF文件格式發(fā)布后,基于用戶權(quán)限,可提供數(shù)據(jù)集或者詞表的整體下載、元數(shù)據(jù)下載、內(nèi)容下載及單個概念屬性的下載。下載方式默認(rèn)為RDF/XML序列化格式,并支持其他序列化格式的下載功能(如NTriple、N3、Turtle)。

      系統(tǒng)還提供標(biāo)準(zhǔn)的對外服務(wù)API接口及接口說明,依據(jù)關(guān)聯(lián)數(shù)據(jù)開放和共享的原則,鼓勵其他機(jī)構(gòu)、平臺遵循該接口規(guī)范,獲取本系統(tǒng)的關(guān)聯(lián)數(shù)據(jù)或直接復(fù)用本系統(tǒng)的資源實體或概念URI。接口服務(wù)既支持通過HTTP協(xié)議訪問的方式獲取數(shù)據(jù)集或詞表,又支持使用RDF的標(biāo)準(zhǔn)化檢索語言SPARQL訪問,支持機(jī)器對數(shù)據(jù)集和詞表內(nèi)容的檢索。在web界面上,用戶可以通過SPARQL查詢終端自行構(gòu)建SPARQL查詢語句以查詢數(shù)據(jù)集或詞表中的特定內(nèi)容,并且可以保存構(gòu)建的查詢語句。

      2.2.4 數(shù)據(jù)展示

      系統(tǒng)具備通用展示和個性化展示2種關(guān)聯(lián)數(shù)據(jù)展示方式。通用展示方式有2種,分別是基于列表的三元組屬性展示以及知識圖譜的展示?;诹斜淼恼故痉绞?,以“屬性-屬性-值”的形式展示每一條關(guān)聯(lián)數(shù)據(jù)資源的三元組,這種可視化方式充分地展現(xiàn)了關(guān)聯(lián)數(shù)據(jù)RDF鏈接的特性,使用戶可以沿著有向邊瀏覽整個數(shù)據(jù)集[18]。此外,系統(tǒng)基于關(guān)聯(lián)數(shù)據(jù)中的語義關(guān)系用Vue.js編程的方式實現(xiàn)關(guān)聯(lián)數(shù)據(jù)知識圖譜的可視化展示,如圖3表示《中分表》中的2個資源,圖中不僅可以看到每個資源的屬性信息,還可以直觀地看到資源之間的關(guān)系,從展示的關(guān)聯(lián)關(guān)系中發(fā)現(xiàn)數(shù)據(jù)間隱含的知識。系統(tǒng)可以通過這兩種通用的可視化展示方式對系統(tǒng)中注冊的新數(shù)據(jù)集進(jìn)行數(shù)據(jù)展示。

      圖3 國家圖書館關(guān)聯(lián)數(shù)據(jù)注冊與服務(wù)系統(tǒng)資源可視化示例

      此外,對《中分表》、國圖公開課、館藏文獻(xiàn)3個數(shù)據(jù)集,根據(jù)其各自的特點開發(fā)了個性化展示頁面。對于中分表的數(shù)據(jù),考慮其敘詞表的特點,通過分類法的樹狀結(jié)構(gòu)進(jìn)行展示,基于關(guān)聯(lián)數(shù)據(jù)間的語義關(guān)系還實現(xiàn)了主題分類和主題詞之間的聯(lián)動。國圖公開課數(shù)據(jù)集個性化展示頁面,呈現(xiàn)了課程的圖片、主講人的頭像圖片,并提供視頻資源的鏈接。館藏文獻(xiàn)數(shù)據(jù)集根據(jù)其特點,展示書封并提供閱讀地址的鏈接。個性化展示頁面中的任何資源均可一鍵跳轉(zhuǎn)到關(guān)聯(lián)數(shù)據(jù)的可視化展示頁面。

      2.2.5 數(shù)據(jù)管理

      系統(tǒng)針對不同數(shù)據(jù)的特點使用不同的數(shù)據(jù)庫存儲。對于用戶數(shù)據(jù)、系統(tǒng)日志等數(shù)據(jù)在系統(tǒng)中使用關(guān)系型數(shù)據(jù)庫MySQL進(jìn)行存儲。對于RDF數(shù)據(jù)使用Open Link Virtuoso數(shù)據(jù)庫存儲,Virtuoso數(shù)據(jù)庫是一種開源的TripleStore數(shù)據(jù)庫,它與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫以及NoSQL數(shù)據(jù)庫相比,不僅可以實現(xiàn)RDF在關(guān)系型數(shù)據(jù)庫中的存儲,還支持SPARQL語法查詢[19]。因此,選用Virtuoso數(shù)據(jù)庫對RDF數(shù)據(jù)進(jìn)行存儲。

      系統(tǒng)提供數(shù)據(jù)查詢界面,可查詢系統(tǒng)中的數(shù)據(jù)集、詞表、元數(shù)據(jù)和數(shù)據(jù)內(nèi)容。查詢方式分為一般查詢、高級查詢和SPARQL查詢3種。查詢結(jié)果可以根據(jù)數(shù)據(jù)狀態(tài)和數(shù)據(jù)提交者進(jìn)行篩選。提供按用戶角色進(jìn)行查詢的功能,使數(shù)據(jù)提交者、數(shù)據(jù)審核者以及系統(tǒng)管理者等用戶能夠快速定位到自己需要處理的數(shù)據(jù)。

      系統(tǒng)中的數(shù)據(jù)在其生命周期的不同階段可分為未完成、候選、合格、失效、被替代5種狀態(tài),根據(jù)其發(fā)布狀態(tài)又可分為未發(fā)布、已發(fā)布和屏蔽狀態(tài)。系統(tǒng)具備對數(shù)據(jù)的各種狀態(tài)進(jìn)行管理的功能,提供操作界面,使具有相應(yīng)權(quán)限的用戶可以對數(shù)據(jù)的狀態(tài)進(jìn)行修改,也可以對數(shù)據(jù)從一種狀態(tài)轉(zhuǎn)變?yōu)榱硪环N狀態(tài)的進(jìn)程進(jìn)行跟蹤。

      對于系統(tǒng)中的詞表類數(shù)據(jù),提供版本控制的功能,用來追蹤和記錄注冊詞表的修改、調(diào)整情況,以便數(shù)據(jù)管理者能夠完整地追溯詞表的變更歷史,利于詞表的更新維護(hù)。

      2.3 系統(tǒng)建設(shè)成果

      系統(tǒng)為多樣化的數(shù)據(jù)開發(fā)了通用的關(guān)聯(lián)數(shù)據(jù)注冊、發(fā)布及服務(wù)功能,覆蓋關(guān)聯(lián)數(shù)據(jù)生命周期全流程的管理。系統(tǒng)內(nèi)根據(jù)數(shù)據(jù)注冊、審核、發(fā)布流程配備了完整的狀態(tài)管理和轉(zhuǎn)換機(jī)制。從數(shù)據(jù)可視化的角度,除通用展示以外還為不同數(shù)據(jù)集設(shè)計不同的個性化展示界面。

      目前系統(tǒng)已注冊并發(fā)布3個數(shù)據(jù)集,每個數(shù)據(jù)集根據(jù)其數(shù)據(jù)情況和本體結(jié)構(gòu)不同又包含多個子集。中分表數(shù)據(jù)集包括類目、主題詞、概念體系和概念集合4個子集。國圖公開課分為課程、分集、主講人、組織機(jī)構(gòu)、資料信息、知識鏈接和知識庫7個子集。館藏文獻(xiàn)分為館藏信息、實體文獻(xiàn)、電子資源3個子集。目前系統(tǒng)共發(fā)布了14個數(shù)據(jù)子集,258 469個資源,以及5 049 162條三元組,詳情見表2。

      表2 國家圖書館關(guān)聯(lián)數(shù)據(jù)系統(tǒng)數(shù)據(jù)發(fā)布統(tǒng)計

      系統(tǒng)面向人機(jī)用戶可以提供多種數(shù)據(jù)服務(wù)。以《中分表》為例,面向系統(tǒng)的使用者,《中分表》可以提供瀏覽詞表中的類目、主題詞、概念體系或概念集合,通過搜索獲取與查詢字段相匹配的類目、主題詞、概念體系或概念集合,通過URI標(biāo)識查詢并獲取某個術(shù)語及其內(nèi)容,支持SQARQL語言檢索《中分表》的內(nèi)容等術(shù)語服務(wù)。面向機(jī)器,通過API接口可以獲取系統(tǒng)的《中分表》數(shù)據(jù)集中的術(shù)語列表、單個術(shù)語資源,以及類目、主題詞、概念體系和概念集合4個數(shù)據(jù)集。國家圖書館關(guān)聯(lián)數(shù)據(jù)注冊與服務(wù)系統(tǒng)發(fā)布的以《中分表》為主的資源實體和概念URI,希望這部分?jǐn)?shù)據(jù)在國內(nèi)圖書館界關(guān)聯(lián)數(shù)據(jù)的發(fā)布中起到知識組織的作用,可以作為其他關(guān)聯(lián)數(shù)據(jù)平臺RDF鏈接的對象,為我國關(guān)聯(lián)數(shù)據(jù)聚合起到橋梁的作用。

      3 未來展望

      數(shù)字圖書館的建設(shè)、發(fā)展和信息技術(shù)的發(fā)展密切相關(guān),信息技術(shù)每一次小的發(fā)展都會對數(shù)字圖書館的發(fā)展方向產(chǎn)生巨大的影響,為數(shù)字圖書館的建設(shè)進(jìn)程起到指導(dǎo)和推動作用[20]。在“互聯(lián)網(wǎng)+公共文化”的背景與理念下,國家圖書館更要積極擁抱語義網(wǎng)和關(guān)聯(lián)數(shù)據(jù)技術(shù)帶來的機(jī)遇與挑戰(zhàn)。雖然目前已經(jīng)開發(fā)完成關(guān)聯(lián)數(shù)據(jù)注冊與服務(wù)系統(tǒng)的基礎(chǔ)建設(shè),但還需要不斷優(yōu)化調(diào)整,使平臺功能更加合理和完善。在RDF鏈接構(gòu)建方面,目前系統(tǒng)只支持單條注冊時人工掛接系統(tǒng)內(nèi)的實體或概念URI,批量注冊的關(guān)聯(lián)數(shù)據(jù)是在系統(tǒng)外部通過各種方式建立RDF鏈接后再導(dǎo)入系統(tǒng)的,雖然目前發(fā)布的關(guān)聯(lián)數(shù)據(jù)中擁有大量的RDF鏈接,但這部分功能大部分不是在本系統(tǒng)中實現(xiàn)的。所以在系統(tǒng)中對批量灌裝的數(shù)據(jù)如何進(jìn)行自動或半自動的RDF鏈接構(gòu)建,如何構(gòu)建和聚合系統(tǒng)外部的RDF鏈接是下一步亟須探索和解決的問題。在術(shù)語服務(wù)方面,面向機(jī)器的術(shù)語服務(wù)還略顯薄弱,基于《中分表》良好的數(shù)據(jù)基礎(chǔ),下一步系統(tǒng)將通過API接口提供獲取術(shù)語上下位概念、獲取術(shù)語頂級概念、獲取詞表元數(shù)據(jù)內(nèi)容、通過URI獲取對應(yīng)實體或概念等功能,以實現(xiàn)術(shù)語服務(wù)在檢索發(fā)現(xiàn)、查詢擴(kuò)展、語義推理等方面的應(yīng)用。

      國家圖書館擁有大量的特色資源,在統(tǒng)一通用的關(guān)聯(lián)數(shù)據(jù)注冊與服務(wù)平臺建設(shè)完成后,可以逐漸擴(kuò)充系統(tǒng)中的資源。將國家圖書館擁有的規(guī)范記錄和古籍善本、民國文獻(xiàn)等特色資源逐步發(fā)布成關(guān)聯(lián)數(shù)據(jù)集,將書目數(shù)據(jù)分批轉(zhuǎn)換并發(fā)布為關(guān)聯(lián)數(shù)據(jù)。系統(tǒng)還應(yīng)具備“眾包”思想,為相關(guān)企事業(yè)單位和公眾開放相應(yīng)權(quán)限的注冊界面,充分借助社會力量擴(kuò)展系統(tǒng)資源,并面向互聯(lián)網(wǎng)用戶建立數(shù)據(jù)修改與反饋機(jī)制,提供意見反饋和數(shù)據(jù)修改的界面,借助公眾力量提升數(shù)據(jù)質(zhì)量。此外,應(yīng)該看到關(guān)聯(lián)數(shù)據(jù)在圖書館界良好的發(fā)展趨勢,參照美國國會圖書館基于關(guān)聯(lián)數(shù)據(jù)模型的編目模式,思考用關(guān)聯(lián)數(shù)據(jù)模型代替中文MARC書目數(shù)據(jù)的可能性,建立富含語義的中文編目格式,嘗試在系統(tǒng)中建立對應(yīng)的本體模型,開發(fā)相應(yīng)的功能使圖書館館員在系統(tǒng)中進(jìn)行編目并直接發(fā)布成為關(guān)聯(lián)數(shù)據(jù)。

      在系統(tǒng)中的資源越來越豐富之后,可以以建立知識庫等形式,作為數(shù)字人文服務(wù)的數(shù)據(jù)基礎(chǔ)。再利用關(guān)聯(lián)數(shù)據(jù)的技術(shù)從數(shù)據(jù)和其復(fù)雜的關(guān)系網(wǎng)絡(luò)中挖掘事實和知識,使用數(shù)據(jù)分析相關(guān)技術(shù)幫助用戶探索海量資源,再利用可視化工具形成知識地圖,從而輔助人文研究。對于用戶來說,系統(tǒng)在幫助其匯集跨領(lǐng)域、跨學(xué)科知識的同時,分析用戶的知識背景、使用習(xí)慣、興趣和社會關(guān)系等,通過邏輯推理和語義擴(kuò)展明確其學(xué)習(xí)需求,推薦用戶所需和感興趣的知識,為用戶提供更加智能化、便捷化、個性化的知識服務(wù)。對于圖書館工作者來說,關(guān)聯(lián)數(shù)據(jù)中豐富、互聯(lián)的語義關(guān)系為圖書館館員在進(jìn)行科技查新等參考咨詢相關(guān)工作時提供了更廣泛的資源支持,可以通過關(guān)聯(lián)數(shù)據(jù)的建設(shè),進(jìn)一步加強(qiáng)圖書館科技查新和科技咨詢等科研服務(wù)的水平。

      猜你喜歡
      詞表國家圖書館關(guān)聯(lián)
      國家圖書館出版社重點圖書
      A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項目名稱漢英對照詞表
      英語世界(2021年13期)2021-01-12 05:47:51
      國家圖書館藏四種古籍編目志疑
      天一閣文叢(2020年0期)2020-11-05 08:28:36
      “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
      中國國家圖書館藏西夏文《不空羂索神變真言經(jīng)》考論
      西夏學(xué)(2018年2期)2018-05-15 11:26:38
      奇趣搭配
      智趣
      讀者(2017年5期)2017-02-15 18:04:18
      敘詞表與其他詞表的互操作標(biāo)準(zhǔn)
      國家圖書館藏吳奕雜劇二種略考
      中華戲曲(2016年2期)2016-01-22 08:19:05
      國外敘詞表的應(yīng)用與發(fā)展趨勢探討*
      莎车县| 香格里拉县| 庄浪县| 建平县| 孙吴县| 阳信县| 珲春市| 渭源县| 邯郸市| 海盐县| 张北县| 台北县| 册亨县| 天峻县| 凤台县| 滕州市| 富顺县| 广河县| 巴里| 新源县| 安龙县| 远安县| 桐梓县| 科技| 巴彦淖尔市| 沙田区| 若羌县| 大港区| 五大连池市| 濮阳县| 通榆县| 西林县| 凌云县| 和龙市| 阜城县| 宜良县| 内丘县| 府谷县| 崇州市| 铁岭市| 安徽省|