(南昌大學(xué)管理學(xué)院)
關(guān)聯(lián)數(shù)據(jù)與本體在圖書館資源服務(wù)模式中的應(yīng)用研究
楊選輝,龍帆(南昌大學(xué)管理學(xué)院)
關(guān)聯(lián)數(shù)據(jù)作為實現(xiàn)語義Web的一種方式,近年來受到各大圖書館的重視。關(guān)聯(lián)數(shù)據(jù)通過RDF描述資源,URI標(biāo)識資源,最終使用Http協(xié)議獲取資源,實現(xiàn)了網(wǎng)絡(luò)中數(shù)據(jù)資源的連接。資源服務(wù)作為圖書館的重要服務(wù)之一,關(guān)聯(lián)數(shù)據(jù)與本體提供了將圖書館的資源與外部資源進行連接的途徑以提高圖書館的資源服務(wù)質(zhì)量。文章對關(guān)聯(lián)數(shù)據(jù)在圖書館資源服務(wù)方面的作用、優(yōu)勢進行深入研究,并探討了關(guān)聯(lián)數(shù)據(jù)在圖書館資源服務(wù)應(yīng)用中可能存在的問題。
關(guān)聯(lián)數(shù)據(jù);本體;圖書館;資源服務(wù)
圖書館擁有專業(yè)和系統(tǒng)的數(shù)據(jù)儲存方式,數(shù)據(jù)儲存數(shù)量和質(zhì)量也具備相當(dāng)優(yōu)勢,在專業(yè)大數(shù)據(jù)存放和服務(wù)機構(gòu)背景下,圖書館具備應(yīng)用關(guān)聯(lián)數(shù)據(jù)的條件,無疑是關(guān)聯(lián)數(shù)據(jù)的重要據(jù)點。圖書館中存在大量重復(fù)信息,若將這些信息充分挖掘并加以利用,利用關(guān)聯(lián)數(shù)據(jù)簡潔、去中心化、標(biāo)準(zhǔn)化等特點對圖書館資源進行語義化描述,圖書館將成為網(wǎng)絡(luò)中的資源轉(zhuǎn)換樞紐,最大化利用圖書館所擁有的信息資源,提升圖書館的資源服務(wù)質(zhì)量。[1]
關(guān)聯(lián)數(shù)據(jù)(Linked Data)是“互聯(lián)網(wǎng)之父”Lee于2006年首次提出。其目的在于通過對數(shù)據(jù)進行標(biāo)準(zhǔn)化描述、標(biāo)識,構(gòu)建出機器可理解的結(jié)構(gòu)化數(shù)據(jù)網(wǎng)絡(luò),使原本沒有關(guān)聯(lián)的相關(guān)數(shù)據(jù)產(chǎn)生關(guān)聯(lián),從而實現(xiàn)更高層次的智能檢索。其核心是通過統(tǒng)一的描述方式RDF對資源進行描述,并且經(jīng)過RDF描述的資源機器也能理解資源中所蘊含的信息,利用超文本協(xié)議Http獲取資源并揭示資源之間的關(guān)聯(lián),減少了“資源孤島”現(xiàn)象,將數(shù)據(jù)資源通過關(guān)聯(lián)網(wǎng)絡(luò)組織起來。關(guān)聯(lián)數(shù)據(jù)的應(yīng)用架構(gòu)如圖1所示。
圖1 關(guān)聯(lián)數(shù)據(jù)的應(yīng)用架構(gòu)
1.1 圖書館資源現(xiàn)存的缺陷
隨著互聯(lián)網(wǎng)信息技術(shù)的發(fā)展,越來越多的資源以數(shù)字化的形式發(fā)布和傳播,傳統(tǒng)圖書館的信息管理和信息組織模式均難以滿足人們對信息資源日益增長的需要,單一圖書館的資源儲備已遠遠不及互聯(lián)網(wǎng)中的資源量,網(wǎng)絡(luò)中電子資源的劇增也對讀者的使用造成不便。[2]不同的資源又因其內(nèi)容、格式、結(jié)構(gòu)的不同造成資源之間缺乏甚至沒有關(guān)聯(lián)而導(dǎo)致出現(xiàn)大量的“資源孤島”,使資源難以精準(zhǔn)檢索,圖書館自身內(nèi)部資源存在的異構(gòu)性也使資源變得難以共享和利用,造成了信息資源的浪費。其根本原因在于資源之間缺乏有效的統(tǒng)一描述規(guī)范,在信息成倍增長的今天,圖書館迫切需要解決如何將散布的資源發(fā)掘并組織起來以滿足用戶對資源的需求。
1.2 關(guān)聯(lián)數(shù)據(jù)的優(yōu)勢所在
(1)強大的描述能力。關(guān)聯(lián)數(shù)據(jù)是通過資源描述框架RDF來描述資源的,RDF具備的描述復(fù)雜關(guān)系的能力使關(guān)聯(lián)數(shù)據(jù)可以通過統(tǒng)一標(biāo)準(zhǔn)描述語義關(guān)系。經(jīng)過語義描述的資源由于機器可讀、高度結(jié)構(gòu)化,使“資源孤島”之間產(chǎn)生語義關(guān)聯(lián),將碎片化的資源連接成整個資源網(wǎng)絡(luò)供用戶使用。
(2)成本低。關(guān)聯(lián)數(shù)據(jù)應(yīng)用現(xiàn)有成熟的Web技術(shù),實現(xiàn)關(guān)聯(lián)數(shù)據(jù)的發(fā)布只需在現(xiàn)有系統(tǒng)基礎(chǔ)上建立一個符合關(guān)聯(lián)數(shù)據(jù)發(fā)布原則的機制即可,并不需要實質(zhì)性突破的技術(shù)難題。[3]
(3)提高資源互通、發(fā)現(xiàn)能力。關(guān)聯(lián)數(shù)據(jù)對URI的充分運用使得其能描述互聯(lián)網(wǎng)中的任何資源,這些資源可以是圖片、文檔、聲音等,統(tǒng)一的資源標(biāo)準(zhǔn)化描述能顯著降低資源的異構(gòu)性,使用關(guān)聯(lián)數(shù)據(jù)將顯著提高圖書館信息資源的傳播、分享以及發(fā)布能力。通過關(guān)聯(lián)數(shù)據(jù)描述發(fā)布的資源能在不同數(shù)據(jù)集之間互通,用戶在進行相應(yīng)的語義搜索時,能發(fā)現(xiàn)其所搜索的內(nèi)容與哪些信息相關(guān),確保信息搜索結(jié)果的完整性和準(zhǔn)確性,并且還有很大的可拓展空間供用戶進一步查找。
1.3 將關(guān)聯(lián)數(shù)據(jù)應(yīng)用在圖書館資源中的意義
(1)促進圖書館信息資源的擴展,提高資源發(fā)現(xiàn)服務(wù)的效率。如今,信息技術(shù)的廣泛應(yīng)用,數(shù)據(jù)量的劇增使圖書館原本的服務(wù)模式力不從心。因此,數(shù)字圖書館也應(yīng)對傳統(tǒng)的服務(wù)模式進行相應(yīng)的改進以適應(yīng)時代發(fā)展。關(guān)聯(lián)數(shù)據(jù)的應(yīng)用對圖書館數(shù)字資源的擴展有積極的促進作用,從而使數(shù)字圖書館資源發(fā)現(xiàn)服務(wù)的效率與資源發(fā)現(xiàn)準(zhǔn)確度得到提高。
(2)最大化利用圖書館現(xiàn)存數(shù)據(jù)資源。圖書館擁有海量的數(shù)據(jù)信息資源,是信息資源的提供者,在圖書館服務(wù)工作中,與用戶之間必須有溝通,了解用戶群體的實際需求以更好地開展服務(wù)工作。將數(shù)字圖書館所擁有的數(shù)據(jù)資源進行數(shù)據(jù)關(guān)聯(lián),使各類不相關(guān)的資源產(chǎn)生聯(lián)系,充分利用圖書館的數(shù)據(jù)資源。關(guān)聯(lián)數(shù)據(jù)能夠?qū)⒑A繑?shù)據(jù)資源中蘊含的信息挖掘出來,讓用戶獲取圖書館外部的相關(guān)信息資源。
綜上所述,關(guān)聯(lián)數(shù)據(jù)的優(yōu)越性正好彌補了圖書館信息資源現(xiàn)有格局的不足,將不同類型的信息資源整合成完整的資源網(wǎng)絡(luò),方便用戶查找和獲取,大大推進了圖書館的數(shù)字化發(fā)展。關(guān)聯(lián)數(shù)據(jù)是圖書館信息資源發(fā)布和整合的關(guān)鍵技術(shù),結(jié)合圖書館傳統(tǒng)的編目、規(guī)范控制等基礎(chǔ)技術(shù),圖書館可以利用關(guān)聯(lián)數(shù)據(jù)技術(shù)提高自身信息資源的服務(wù)水平。國外如美國國會圖書館發(fā)布的LCSH主題詞表、瑞典國家圖書館的LIBIRS目錄、德國國家經(jīng)濟圖書館等都是關(guān)聯(lián)數(shù)據(jù)在圖書館機構(gòu)中應(yīng)用的成功案例。[4]
基于關(guān)聯(lián)數(shù)據(jù)的圖書館資源發(fā)現(xiàn)框架見圖2。整個框架包含資源庫、資源本體、RDF文件存儲、圖書館新資源發(fā)布以及用戶Http協(xié)議獲取等重要環(huán)節(jié)。
圖2 資源服務(wù)框架
2.1 資源庫
圖書館內(nèi)的資源應(yīng)通過RDF描述,并以RDF文件形式存儲。資源的描述以資源名、屬性、值的三元組形式發(fā)布,并且每個資源都通過Http URI作為唯一標(biāo)識,方便用戶通過Http協(xié)議進行獲取。
2.2 資源本體建立
資源本體是根據(jù)圖書館內(nèi)部所有資源的領(lǐng)域概念建立的集合。資源本體中的概念正是用于描述資源的關(guān)鍵詞集合。關(guān)鍵詞可以通過借助現(xiàn)有本體獲取,同時應(yīng)將資源的名稱進行元數(shù)據(jù)化,提取出資源名稱的關(guān)鍵字,組成本體概念。通過上述兩個途徑生成資源本體,并可加入本體推理功能提高本體的性能。本體構(gòu)建出原型后,應(yīng)在后續(xù)使用過程中對資源關(guān)鍵詞庫不斷豐富,提高本體關(guān)鍵詞對資源的覆蓋度。
由于圖書館日常服務(wù)的需要,圖書館經(jīng)常需要在不同數(shù)據(jù)源中的數(shù)據(jù)資源對數(shù)據(jù)進行交換工作,圖書館之間不同的資源本體應(yīng)在數(shù)字資源之間建立與其他領(lǐng)域相互關(guān)聯(lián)的紐帶,避免本體的異構(gòu)性導(dǎo)致圖書館自身的資源本體無法與其他類型本體進行互操作。通過本體的概念連接使各類型圖書館的關(guān)聯(lián)數(shù)據(jù)可以復(fù)用,并使各圖書館在這種關(guān)聯(lián)中形成一個不斷融合的整體,圖書館在關(guān)聯(lián)中自身受益的同時,也使圖書館的資源服務(wù)水平得到提升。
2.3 圖書館關(guān)聯(lián)數(shù)據(jù)的發(fā)布與發(fā)現(xiàn)
圖書館可以將具有特色的館藏資源以關(guān)聯(lián)數(shù)據(jù)的形式發(fā)布至互聯(lián)網(wǎng)上進行共享,也可以將外部的關(guān)聯(lián)數(shù)據(jù)資源用于豐富自身,為用戶提供全面的資源服務(wù)。[5]因此,只要圖書館愿意共享自身的關(guān)聯(lián)數(shù)據(jù),各圖書館機構(gòu)就可以形成無界的數(shù)據(jù)資源網(wǎng)絡(luò)。
(1)內(nèi)部數(shù)據(jù)發(fā)布。圖書館可著手從自身資源的作者、機構(gòu)、類型、內(nèi)容以及日期等信息對網(wǎng)絡(luò)上的其他資源進行關(guān)聯(lián)工作。通過借助信息分析技術(shù),根據(jù)資源元數(shù)據(jù)與資源信息的特點,建立資源之間的潛在關(guān)聯(lián),并以關(guān)聯(lián)數(shù)據(jù)的形式發(fā)布在網(wǎng)絡(luò)上。[6]
(2)外部數(shù)據(jù)發(fā)現(xiàn)。圖書館的自身資源相對于網(wǎng)絡(luò)來說仍然太過渺小,發(fā)現(xiàn)外部資源是圖書館提升資源服務(wù)的重要途徑。因此,圖書館應(yīng)加強資源之間的交流,通過簽訂協(xié)議等途徑共享館際資源,將圖書館之間形成關(guān)聯(lián)。
2.4 用戶Http獲取
用戶在客戶端只需要向服務(wù)器端發(fā)送Http請求即可獲得資源,從技術(shù)層面說,Http URI的303 URI與Hash URI策略均可向用戶提供回應(yīng)。在不同的查詢條件下結(jié)合使用兩種策略,可以盡量避免大量的Http請求,降低服務(wù)器壓力。[6]
在上述服務(wù)模式中,資源本體的構(gòu)建是一個非常重要的環(huán)節(jié)。本體(Ontology)技術(shù)早于1991年由Neches等人提出,其目的在于使機器能理解Web中的各類信息,實現(xiàn)Web信息自動處理以適應(yīng)Web資源劇增的大數(shù)據(jù)環(huán)境。然而目前本體的應(yīng)用領(lǐng)域仍然不夠廣泛,并且由于網(wǎng)絡(luò)中各類信息復(fù)雜繁多、本體尚無確切的構(gòu)建方法以及本體構(gòu)建工作量過大等問題,使本體技術(shù)發(fā)展進入瓶頸。
在圖書館資源中,資源本體的局限性在于領(lǐng)域性過強導(dǎo)致各類本體之間無法語義互操作,也難以與外界資源進行鏈接。因此,需要將資源本體中底層的元數(shù)據(jù)進行抽取并關(guān)聯(lián)化處理,通過語義轉(zhuǎn)換使不同類型的本體元數(shù)據(jù)成為RDF格式,再整合進關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò)。[7]基于此,圖書館中各類資源才可能與外界資源進行語義互操作及檢索。
在本文中,筆者對圖書館各類資源進行分類,并參考DC元數(shù)據(jù)標(biāo)準(zhǔn),采用Protégé軟件建立圖書館資源的元數(shù)據(jù)本體(見圖3)。本體中將圖書館資源劃分為數(shù)字資源、實體資源以及其他資源,每種類型的資源進行子分類。
圖3 圖書館資源元數(shù)據(jù)本體
資源元數(shù)據(jù)本體是整個圖書館資源系統(tǒng)中最底層的通用本體,其目的在于實現(xiàn)對資源進行語義互操作與共享。資源元數(shù)據(jù)本體僅提供各類資源中的共通屬性,在特殊資源中存在的某些特殊屬性則不包含,特殊資源應(yīng)有專用的元數(shù)據(jù)本體,通過在原有的通用資源元數(shù)據(jù)本體的基礎(chǔ)上添加新的概念、約束等條件以生成專用的元數(shù)據(jù)本體。各類資源通過各類別的底層元數(shù)據(jù)本體進行語義連接,可以實現(xiàn)資源之間的語義互通、關(guān)聯(lián)。當(dāng)各類元數(shù)據(jù)本體整合成為統(tǒng)一的整體,通過語義轉(zhuǎn)換將其以RDF格式存儲于數(shù)據(jù)庫中,并可經(jīng)過RDF鏈接到其他領(lǐng)域的信息、資源。資源本體與圖書館關(guān)聯(lián)數(shù)據(jù)的架構(gòu)見圖4。
這不但使圖書館自身資源的整合、查詢、維護得到優(yōu)化,還使整個圖書館成為可以無限拓展的資源信息中心,提高了圖書館的資源服務(wù)水平。
4.1 資源元數(shù)據(jù)質(zhì)量難以控制
作為關(guān)聯(lián)數(shù)據(jù)的核心,元數(shù)據(jù)質(zhì)量的優(yōu)劣直接影響了關(guān)聯(lián)數(shù)據(jù)的性能。首先,由于目前圖書館的資源并沒有整合形成一個完整的資源網(wǎng)絡(luò),使得來源不同的元數(shù)據(jù)信息也存在標(biāo)準(zhǔn)不統(tǒng)一的情況,各個學(xué)術(shù)期刊發(fā)布的平臺也是獨立的個體。因此,文獻的收錄很有可能重復(fù),造成數(shù)據(jù)冗余。來源不同的元數(shù)據(jù)在字段上存在的差異也影響了元數(shù)據(jù)的質(zhì)量,降低資源發(fā)現(xiàn)的可靠性以及效率。圖書館中巨大的數(shù)據(jù)量使元數(shù)據(jù)的來源難以考證,元數(shù)據(jù)的來源直接決定了元數(shù)據(jù)是否有價值。其次,不同的元數(shù)據(jù)提供商提供的元數(shù)據(jù)著錄并不一致,存在格式、內(nèi)容異構(gòu)的問題,使得元數(shù)據(jù)的結(jié)構(gòu)混雜,難以統(tǒng)一編排。再者,由于中文語言的特性,引進的國外元數(shù)據(jù)系統(tǒng)大都是基于英文的,對中文的元數(shù)據(jù)效果不佳。上述問題將對關(guān)聯(lián)數(shù)據(jù)的質(zhì)量造成影響,因此,需要通過現(xiàn)有信息技術(shù)提升資源元數(shù)據(jù)的質(zhì)量,優(yōu)質(zhì)的資源元數(shù)據(jù)將使關(guān)聯(lián)數(shù)據(jù)的效率得到質(zhì)的飛躍。
圖4 資源本體與圖書館關(guān)聯(lián)數(shù)據(jù)架構(gòu)
4.2 資源數(shù)據(jù)的共享與隱私
關(guān)聯(lián)數(shù)據(jù)在圖書館資源服務(wù)中,豐富了圖書館的館藏資源,給用戶獲取多樣化的相關(guān)資源提供便利的同時,也給圖書館帶來數(shù)據(jù)隱私侵權(quán)風(fēng)險。[8]什么樣的數(shù)據(jù)可以被關(guān)聯(lián)、共享和修改是圖書館資源關(guān)聯(lián)數(shù)據(jù)化過程中需要認(rèn)真考慮的問題。目前,網(wǎng)絡(luò)上關(guān)于隱私泄密的事件層出不窮,應(yīng)當(dāng)引起足夠重視。圖書館應(yīng)通過技術(shù)手段與法律手段積極維護數(shù)據(jù)隱私與用戶隱私。館際之間共享資源也應(yīng)征得其他圖書館的同意并簽訂相關(guān)協(xié)議。只有合法的關(guān)聯(lián)數(shù)據(jù)才能真正為圖書館的資源服務(wù)帶來益處,否則會將圖書館推至泄密輿論的風(fēng)口浪尖。
4.3 關(guān)聯(lián)數(shù)據(jù)之間的資源整合及鏈接維護問題
隨著圖書館關(guān)聯(lián)的資源越來越多,需要維護的Http URI鏈接也越來越多,這需要龐大的技術(shù)團隊定期對資源進行檢查、維護。圖書館應(yīng)保證資源Http URI的有效性,同時定期刪除無效、失效的URI鏈接。
關(guān)聯(lián)數(shù)據(jù)的應(yīng)用目的就是將整個互聯(lián)網(wǎng)中的資源實現(xiàn)關(guān)聯(lián),這將使圖書館面對龐大、無序的多元化信息資源。就算這類數(shù)據(jù)已經(jīng)關(guān)聯(lián),但用戶在進行SPARQL查詢時,無序的數(shù)據(jù)可能對其造成困擾,需要將多元化數(shù)據(jù)進行有序化整合。
關(guān)聯(lián)數(shù)據(jù)通過發(fā)布統(tǒng)一規(guī)范的資源數(shù)據(jù),并與網(wǎng)絡(luò)中的資源實施共通,幫助圖書館存儲、利用資源,提高圖書館資源服務(wù)質(zhì)量,方便用戶獲取所需資源。圖書館的資源數(shù)據(jù)關(guān)聯(lián)化需求將隨著數(shù)據(jù)資源量的增長而越發(fā)強烈,在圖書館資源服務(wù)中應(yīng)用關(guān)聯(lián)數(shù)據(jù)具有重大的實踐意義。
[1]曹月珍,馬建玲.關(guān)聯(lián)數(shù)據(jù)在圖書館的最新發(fā)展[J].圖書館學(xué)研究,2014(14):6-12.
[2]李愛玲.我國高校圖書館資源發(fā)現(xiàn)服務(wù)研究述評[J].情報探索,2014(4):96-98.
[3]盧玉紅,孫曉鳳.關(guān)聯(lián)數(shù)據(jù)在圖書館服務(wù)中的應(yīng)用方式探討[J].成都中醫(yī)藥大學(xué)學(xué)報(教育科學(xué)版),2015(3):102-104.
[4]陳德容.基于關(guān)聯(lián)數(shù)據(jù)的圖書館數(shù)據(jù)發(fā)布及數(shù)據(jù)服務(wù)[J].圖書館工作與研究,2015,1(2): 25-27,43.
[5]陳定權(quán),盧玉紅.圖書館在關(guān)聯(lián)數(shù)據(jù)運動中的角色解析[J].圖書館建設(shè),2014(3):17-21.
[6]黃永文,錢力.面向關(guān)聯(lián)數(shù)據(jù)的信息檢索服務(wù)研究綜述[J].現(xiàn)代圖書情報技術(shù),2012(12): 2-8.
[7]歐石燕,等.本體與關(guān)聯(lián)數(shù)據(jù)驅(qū)動的圖書館信息資源語義整合方法及其測評[J].圖書情報工作, 2014,58(2):5-13.
[8]蔣京平,易慶勛.高校圖書館關(guān)聯(lián)數(shù)據(jù)的實現(xiàn)與挑戰(zhàn)[J].農(nóng)業(yè)圖書情報學(xué)刊,2015,27(10): 76-79.
Research on the Application of Relational Data and Ontology in Library Resources Service Model
Yang Xuan-hui,Long Fan
As a way to realize semantic Web,relational data has been paid more attention by the major libraries in recent years. Through RDF descriptions,URI identification and the HTTP protocol,relational data has realized the connection of the resources on the Internet.Relational data and ontology provides an approach for the library to connect internal and external resources,which can greatly improve the library resources service.This article makes a deep analysis on the effect and advantage of relational data and discusses the problems it might cause.
Relational Data;Ontology;Library;Resource Service
G250.73
B
1005-8214(2016)12-0097-04
楊選輝(1974-),男,南昌大學(xué)管理學(xué)院信管系副教授,研究方向:信息管理、電子商務(wù);龍帆(1992-),男,南昌大學(xué)管理學(xué)院圖書情報與檔案管理專業(yè)在讀研究生,研究方向:信息管理。
2016-09-13[責(zé)任編輯]張雅妮
本文系江西省研究生教育教學(xué)改革研究項目“基于知識元的研究生課程內(nèi)容組織模式的研究”(項目編號:JXYJG-2013-016)的研究成果之一。