佟瑞娟
摘 要:文章利用關(guān)聯(lián)數(shù)據(jù)技術(shù)構(gòu)建了數(shù)字資源數(shù)據(jù)轉(zhuǎn)化模型,實現(xiàn)了數(shù)字資源的規(guī)范化、標(biāo)準(zhǔn)化處理,同時利用其RDF描述框架功能,通過HTTP協(xié)議對數(shù)字資源知識單元進(jìn)行訪問,實現(xiàn)了館藏數(shù)字資源知識單元的整合與發(fā)布,并在此基礎(chǔ)上搭建了圖書館館藏數(shù)字資源語義化組織架構(gòu),引入了數(shù)字資源語義化組織層作為深化用戶需求和精準(zhǔn)資源檢索的中間層,提高了圖書館館藏數(shù)字資源的檢索效率,為圖書館間館藏資源協(xié)同共享服務(wù)的實現(xiàn)奠定了基礎(chǔ)。
關(guān)鍵詞:關(guān)聯(lián)數(shù)據(jù);圖書館;數(shù)字資源;語義化
中圖分類號:G250 文獻(xiàn)標(biāo)識碼:A 文章編號:1003-1588(2023)08-0132-04
從古至今,圖書館始終扮演著知識信息傳播的重要角色,隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展和人們需求的多樣化,圖書館進(jìn)行了大規(guī)模的數(shù)字化變革。圖書館在大力推進(jìn)數(shù)字化的過程中,大量館藏傳統(tǒng)資源被進(jìn)行數(shù)字化描述和系統(tǒng)化存儲,為圖書館館藏資源的數(shù)字化應(yīng)用提供了有力支撐[1,2]。然而,隨之帶來的是圖書館館藏數(shù)字資源的碎片化、分散化、異構(gòu)化,不僅造成了大量高價值館藏數(shù)字資源難以被檢索和利用,而且極大地降低了館藏數(shù)字資源的利用效率。目前,圖書館館藏資源經(jīng)歷了從文獻(xiàn)到數(shù)據(jù)再到知識的過渡[3,4],相關(guān)研究主要集中在體系構(gòu)建[5]、資源序化與整合[6]、資源知識發(fā)現(xiàn)[7]等領(lǐng)域,在資源語義描述及語義關(guān)聯(lián)方面的研究較少。隨著計算機技術(shù)的發(fā)展,如何利用計算機技術(shù)深入挖掘館藏資源,提高資源利用效率以及發(fā)現(xiàn)更多的知識單元成為圖書館館藏資源開發(fā)的重點。
關(guān)聯(lián)數(shù)據(jù)技術(shù)是一種可以將半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)按照統(tǒng)一的規(guī)范和標(biāo)準(zhǔn)進(jìn)行處理,并轉(zhuǎn)化為具有一定關(guān)聯(lián)特征的結(jié)構(gòu)化數(shù)據(jù)技術(shù),其在圖書館的應(yīng)用不僅可以提高館藏數(shù)字資源的系統(tǒng)化管理,而且可以提高數(shù)字資源的利用效率。本研究基于關(guān)聯(lián)技術(shù)構(gòu)建了數(shù)字資源數(shù)據(jù)轉(zhuǎn)化模型以及圖書館館藏數(shù)字資源語義化組織架構(gòu),引入了數(shù)字資源語義化組織層作為深化用戶需求和精準(zhǔn)資源檢索的中間層,并以某地方志知識服務(wù)平臺為例進(jìn)行案例分析,旨在不斷提高圖書館館藏數(shù)字資源的檢索效率,深入挖掘館藏資源的知識價值以及提高館藏資源的利用率。
1 關(guān)聯(lián)數(shù)據(jù)在圖書館館藏數(shù)字資源應(yīng)用的背景分析
1.1 圖書館館藏數(shù)字資源的特征
館藏數(shù)字資源具有多源、異構(gòu)等特點。首先,圖書館館藏數(shù)字資源來源廣泛,如專業(yè)機構(gòu)庫、科研院所庫等,數(shù)量日益增多,呈現(xiàn)海量化的特點;其次,數(shù)據(jù)更新快,流轉(zhuǎn)速度快,數(shù)據(jù)類型日益復(fù)雜化;再次,館藏資源價值高,但存在重復(fù)交叉現(xiàn)象,資源利用效率高低不等,資源的知識價值亟待進(jìn)一步挖掘。
1.2 關(guān)聯(lián)數(shù)據(jù)技術(shù)
關(guān)聯(lián)數(shù)據(jù)技術(shù)最早由Tim Berners-Lee提出,通過URI和HTTP協(xié)議聚合RDF格式的數(shù)據(jù),用戶可以通過檢索工具檢索到相關(guān)數(shù)據(jù)并加以利用。目前,關(guān)聯(lián)數(shù)據(jù)在圖書館的應(yīng)用主要集中在系統(tǒng)構(gòu)建、優(yōu)化服務(wù)模式、館藏資源整合等方面。關(guān)聯(lián)數(shù)據(jù)一方面可以通過構(gòu)建語義本體,揭示和描述館藏數(shù)字資源的知識內(nèi)容;另一方面通過關(guān)聯(lián)技術(shù)實現(xiàn)內(nèi)外部數(shù)據(jù)的互聯(lián)互通,拓展數(shù)據(jù)來源。
1.3 關(guān)聯(lián)數(shù)據(jù)在圖書館館藏數(shù)字資源應(yīng)用的可行性分析
應(yīng)用關(guān)聯(lián)數(shù)據(jù)可以在多源、異構(gòu)、多模態(tài)的館藏資源間建立關(guān)聯(lián)關(guān)系,實現(xiàn)資源的聚合,提高資源的利用率,主要表現(xiàn)為:①充分挖掘出資源間的關(guān)聯(lián)特征。圖書館通過應(yīng)用關(guān)聯(lián)數(shù)據(jù)技術(shù),對閑置率高的數(shù)字資源進(jìn)行數(shù)據(jù)挖掘,找出分散化、異構(gòu)化數(shù)字資源間的關(guān)聯(lián)特征,并建立數(shù)字資源間的數(shù)據(jù)聯(lián)系,使碎片化、分散化、異構(gòu)化的數(shù)字資源能夠轉(zhuǎn)變?yōu)闃?biāo)準(zhǔn)化、規(guī)范化的資源數(shù)據(jù),并通過智能檢索、關(guān)聯(lián)檢索等方式提高這類數(shù)字資源的檢索率。②規(guī)范化處理館藏資源。無序化、分散化的數(shù)字資源為圖書館館藏資源檢索及管理帶來了困難,導(dǎo)致大量珍貴數(shù)字資源的真實價值得不到有效發(fā)揮。關(guān)聯(lián)數(shù)據(jù)技術(shù)可以將此類數(shù)字資源進(jìn)行規(guī)范化、標(biāo)準(zhǔn)化處理,使此類數(shù)字資源得到系統(tǒng)化管理和應(yīng)用,這將極大地提升圖書館館藏數(shù)字資源服務(wù)應(yīng)用能力,可以方便更多的高校、科研院所很好地利用這些珍貴的數(shù)字資源,從而進(jìn)一步拓寬了圖書館館藏數(shù)字資源的應(yīng)用領(lǐng)域。
2 圖書館館藏數(shù)字資源語義化組織的原則
2.1 標(biāo)準(zhǔn)性原則
在開展館藏數(shù)字資源數(shù)據(jù)關(guān)聯(lián)和語義化組織過程中,圖書館需要注意的是數(shù)據(jù)轉(zhuǎn)化所采用的標(biāo)準(zhǔn)、規(guī)則要一致,且保持不變。不同的數(shù)據(jù)轉(zhuǎn)化標(biāo)準(zhǔn)或者規(guī)則雖然可以實現(xiàn)無序、離散、數(shù)字資源的關(guān)聯(lián)性,但轉(zhuǎn)化后的數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)類型會千差萬別,形不成系統(tǒng)數(shù)據(jù),不便于系統(tǒng)化管理和使用。標(biāo)準(zhǔn)性原則是指圖書館館藏數(shù)字資源數(shù)據(jù)轉(zhuǎn)化只有采用統(tǒng)一的標(biāo)準(zhǔn)和規(guī)則,才能確保轉(zhuǎn)化后的數(shù)字資源在數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)類型等方面保持一致,不僅方便了數(shù)字資源后期的資源存儲和系統(tǒng)化管理,還有助于提升用戶數(shù)字資源檢索的服務(wù)水平。
2.2 系統(tǒng)性原則
對圖書館館藏數(shù)字資源開展數(shù)據(jù)關(guān)聯(lián)和語義化組織的目的之一是建立數(shù)字資源間的系統(tǒng)聯(lián)系。圖書館館藏數(shù)字資源不僅包括結(jié)構(gòu)化、系統(tǒng)化數(shù)字資源,還包括大量非結(jié)構(gòu)化、離散化的數(shù)字資源,這類數(shù)字資源嚴(yán)重影響了館藏數(shù)字資源的系統(tǒng)化管理和應(yīng)用。在對圖書館館藏數(shù)字資源開展數(shù)據(jù)關(guān)聯(lián)時,首先要分析數(shù)據(jù)間的特定聯(lián)系,并依據(jù)這一聯(lián)系進(jìn)行數(shù)據(jù)轉(zhuǎn)化,最終形成系統(tǒng)化的數(shù)據(jù)資源;其次在館藏數(shù)字資源數(shù)據(jù)轉(zhuǎn)化中可按照數(shù)據(jù)資源結(jié)構(gòu)、類型等的不同,將不同的數(shù)字資源按層級結(jié)構(gòu)進(jìn)行劃分,使轉(zhuǎn)化后的數(shù)字資源更加系統(tǒng)化,有助于圖書館系統(tǒng)的讀取與調(diào)用。
2.3 完整性原則
完整性原則是圖書館館藏數(shù)字資源語義化組織過程中首要堅持的原則,在開展數(shù)字資源數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)化、數(shù)據(jù)關(guān)聯(lián)過程中常常出現(xiàn)部分?jǐn)?shù)據(jù)包丟失或數(shù)據(jù)失真現(xiàn)象,這會給數(shù)字資源帶來永久性損壞,嚴(yán)重影響了數(shù)字資源的使用效果,同時也給圖書館帶來無法估量的損失。因此,在對館藏數(shù)字資源開展數(shù)據(jù)管理和語義化組織過程中,圖書館需要考慮數(shù)據(jù)的離散程度和非線性特征,確保在數(shù)字資源轉(zhuǎn)化過程中不出現(xiàn)數(shù)據(jù)失真、數(shù)據(jù)包丟失等問題,保障數(shù)字資源的完整性和轉(zhuǎn)化前后的一致性。圖書館只有堅持這一原則,才能從根本上避免館藏珍貴數(shù)字資源的遺失,才能更好地促進(jìn)館藏數(shù)字資源的有效利用。
3 基于關(guān)聯(lián)數(shù)據(jù)的圖書館館藏數(shù)字資源語義化組織結(jié)構(gòu)設(shè)計
利用關(guān)聯(lián)數(shù)據(jù)技術(shù)對館藏數(shù)字資源進(jìn)行數(shù)據(jù)挖掘和特征提取,建立數(shù)字資源知識單元間的關(guān)聯(lián),并對轉(zhuǎn)化后的知識單元進(jìn)行語義化組織,同時利用關(guān)聯(lián)數(shù)據(jù)的RDF描述框架功能,通過HTTP協(xié)議訪問數(shù)字資源的每個知識單元,實現(xiàn)館藏數(shù)字資源知識單元的整合與發(fā)布。該過程不僅實現(xiàn)了館藏數(shù)字資源深層特征的提取,建立了不同數(shù)字資源知識單元間的關(guān)聯(lián),而且建立了數(shù)字資源知識單元在語義化組織層面間的關(guān)聯(lián)?;陉P(guān)聯(lián)數(shù)據(jù)的圖書館館藏數(shù)字資源語義化組織結(jié)構(gòu)層級主要包括館藏數(shù)字資源庫、數(shù)據(jù)資源描述層、數(shù)字資源語義關(guān)聯(lián)組織層和應(yīng)用服務(wù)層。館藏數(shù)字資源庫是基礎(chǔ)數(shù)據(jù)層,主要收集和獲取多源、異構(gòu)、多模態(tài)的數(shù)字資源;數(shù)據(jù)資源描述層是將清洗好的數(shù)據(jù)進(jìn)行語義化描述,形成RDF格式的元數(shù)據(jù);數(shù)字資源關(guān)聯(lián)組織層是利用關(guān)聯(lián)數(shù)據(jù)技術(shù)將RDF元數(shù)據(jù)進(jìn)行語義關(guān)聯(lián),組織成一個統(tǒng)一的富含語義的知識組織架構(gòu);應(yīng)用服務(wù)層是基于數(shù)字資源關(guān)聯(lián)組織層的知識組織架構(gòu),開發(fā)相關(guān)應(yīng)用服務(wù)功能,如語義檢索、資源索引等。
3.1 館藏數(shù)字資源庫
館藏數(shù)字資源是圖書館各項服務(wù)的基礎(chǔ),資源涉及領(lǐng)域廣泛、資源數(shù)據(jù)類型眾多。該資源庫主要涵蓋各大高校、科研院所建設(shè)的數(shù)據(jù)資源庫、特色數(shù)據(jù)庫,專業(yè)機構(gòu)建設(shè)的商業(yè)數(shù)據(jù)資源庫,以及面向大眾的開放公益性數(shù)據(jù)資源庫等。
3.2 數(shù)據(jù)資源描述層
數(shù)據(jù)資源描述層的主要作用是對數(shù)字資源庫離散數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘和特征提取,辨識出不同數(shù)據(jù)的本質(zhì)特征。該層的主要功能是利用關(guān)聯(lián)數(shù)據(jù)技術(shù),建立離散數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)本體描述模型,實現(xiàn)對館藏數(shù)字資源的語義化描述,在提取數(shù)據(jù)特征的基礎(chǔ)上形成各數(shù)字資源的知識單元,利用該本體模型梳理和定義各個知識單元間的語義關(guān)系,最終將數(shù)據(jù)轉(zhuǎn)化為RDF格式的元數(shù)據(jù)。
3.3 數(shù)字資源關(guān)聯(lián)組織層
數(shù)字資源關(guān)聯(lián)組織層是利用關(guān)聯(lián)數(shù)據(jù)技術(shù)將RDF元數(shù)據(jù)進(jìn)行語義關(guān)聯(lián),組織成一個統(tǒng)一的整體。該層分為兩個部分:一是知識單元描述部分,即資源描述層形成的RDF元數(shù)據(jù)的特征概述,建立簡單的關(guān)聯(lián)關(guān)系。二是序化處理及語義化組織部分,即進(jìn)行數(shù)據(jù)序化處理,形成語義關(guān)聯(lián)。數(shù)字資源經(jīng)過數(shù)據(jù)資源描述層的處理后,形成了語義元數(shù)據(jù),知識單元描述是對RDF格式元數(shù)據(jù)的進(jìn)一步概述,主要包括關(guān)聯(lián)內(nèi)容、關(guān)聯(lián)特點、關(guān)聯(lián)度高低等,方便后續(xù)開展數(shù)字資源語義化組織。語義化組織是數(shù)字資源經(jīng)過知識單元描述后的序化處理過程,數(shù)字資源經(jīng)過語義化組織后,資源屬性特征、關(guān)聯(lián)關(guān)系特征、資源間序化特征等將作為其主要的辨識特征,方便數(shù)字資源間的關(guān)聯(lián)檢索和調(diào)用。
3.4 應(yīng)用服務(wù)層
應(yīng)用服務(wù)層是一個數(shù)據(jù)互動傳輸、數(shù)據(jù)可視化的服務(wù)層,利用HTTP協(xié)議為用戶提供所需服務(wù)。該層在獲取用戶的檢索需求后,將其轉(zhuǎn)化為圖書館系統(tǒng)可以識別的指令。當(dāng)該指令被傳輸至數(shù)據(jù)資源關(guān)聯(lián)組織層后,該層根據(jù)指令內(nèi)容要求,在數(shù)字資源屬性特征、關(guān)聯(lián)關(guān)系特征、資源間序化特征中進(jìn)行檢索,同時將符合指令要求的資源信息反饋至數(shù)據(jù)資源描述層,并從館藏數(shù)字資源庫讀取相應(yīng)資源內(nèi)容。待符合需求指令的數(shù)字資源內(nèi)容以RDF鏈接形式被反饋至應(yīng)用服務(wù)層后,該層自動將其轉(zhuǎn)化為用戶可視的文本信息,方便用戶瀏覽、保存、收藏等。
4 基于關(guān)聯(lián)數(shù)據(jù)的圖書館館藏數(shù)字資源語義化組織案例分析
4.1 元數(shù)據(jù)構(gòu)建
BIBFRAME標(biāo)準(zhǔn)的核心為“Work(作品)—Instance(實例)—Item(單件)”,其中作品是實體的抽象定義,實體是作品的表現(xiàn)形式,單件決定了實例的獲取方式。因此,本研究參照BIBFRAME標(biāo)準(zhǔn)構(gòu)建了地方志的元數(shù)據(jù)模型,同時結(jié)合地方志的相關(guān)特征對元數(shù)據(jù)進(jìn)行了拓展,見表1。
4.2 知識本體模型設(shè)計
本體作為知識的一種抽象模型,本研究在設(shè)計地方志知識本體模型時首先對地方志知識進(jìn)行了抽取,包含人物、時間、地點、年代等;其次借鑒已有相關(guān)研究成果,利用本體對地方志知識進(jìn)行描述,揭示知識間的關(guān)系,結(jié)合地方志相關(guān)規(guī)則,在概念、個性和屬性之間建立語義關(guān)系,為后續(xù)地方志數(shù)據(jù)關(guān)聯(lián)、語義化組織提供數(shù)據(jù)支撐。
4.3 關(guān)聯(lián)數(shù)據(jù)與語義化組織
關(guān)聯(lián)數(shù)據(jù)技術(shù)可以發(fā)現(xiàn)地方志的潛在知識,并將其與其他知識集進(jìn)行關(guān)聯(lián),形成可被處理的結(jié)構(gòu)化數(shù)據(jù),從而實現(xiàn)地方志的語義化組織。地方志語義化組織流程包含數(shù)據(jù)清洗、形成RDF數(shù)據(jù)、語義關(guān)聯(lián)、數(shù)據(jù)存儲、數(shù)據(jù)發(fā)布等。首先基于上述地方志知識本體模型對原始地方志數(shù)據(jù)集進(jìn)行清洗處理,提取相關(guān)實體并賦予統(tǒng)一標(biāo)識符;其次利用知識本體相關(guān)屬性定義實體間的關(guān)系,在對象間建立關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò),實現(xiàn)數(shù)據(jù)的序化處理;再次進(jìn)行數(shù)據(jù)存儲與發(fā)布,方便地方志資源間的關(guān)聯(lián)檢索和調(diào)用。
4.4 知識服務(wù)平臺應(yīng)用
本研究利用關(guān)聯(lián)技術(shù)實現(xiàn)了地方志的語義化組織,并利用開發(fā)工具設(shè)計了地方志知識服務(wù)平臺,為用戶提供地方志檢索、知識關(guān)聯(lián)可視化、時空展現(xiàn)等服務(wù)。例如,用戶點擊時空檢索,選擇不同朝代的地方志,平臺會在地圖中將結(jié)果顯示出來,同時提供相關(guān)篩選工具,方便用戶查找到其所需的地方志或相關(guān)聯(lián)的地方志,提高了用戶的檢索效率。
5 基于關(guān)聯(lián)數(shù)據(jù)的圖書館館藏數(shù)字資源語義化組織系統(tǒng)優(yōu)勢
5.1 數(shù)據(jù)關(guān)聯(lián)性強
利用關(guān)聯(lián)數(shù)據(jù)技術(shù)建立不同數(shù)字資源間的數(shù)據(jù)關(guān)聯(lián),這種關(guān)聯(lián)不是簡單的詞匯關(guān)聯(lián),而是本質(zhì)特征的關(guān)聯(lián)?;谔卣麝P(guān)聯(lián)的數(shù)字資源關(guān)聯(lián)性強,不會因數(shù)字資源物理存儲位置、調(diào)用方式的改變而改變。同時,這種關(guān)聯(lián)關(guān)系是可持續(xù)的,當(dāng)數(shù)字資源內(nèi)容有所更新,相應(yīng)的本質(zhì)特征信息也會隨之更新,新的關(guān)聯(lián)關(guān)系也自然形成。
5.2 資源調(diào)用精準(zhǔn),運行效率高
用戶通過圖書館系統(tǒng)平臺檢索信息資源時,檢索指令由平臺服務(wù)層傳輸至數(shù)字資源語義化組織層,系統(tǒng)依據(jù)檢索字段在該層知識單元中檢索,找出符合檢索要求的知識單元,并通過數(shù)據(jù)資源關(guān)聯(lián)層有針對性地在館藏數(shù)字資源庫中檢索用戶所需的數(shù)字資源。在此過程中,數(shù)字資源語義化組織層發(fā)揮了對檢索指令的解釋及相關(guān)知識單元的智能匹配作用,進(jìn)一步提高系統(tǒng)對用戶需求的認(rèn)知和理解程度,提升了資源檢索調(diào)用的精準(zhǔn)性,同時也為用戶節(jié)省了大量的檢索時間,提高了系統(tǒng)的實際運行效率。
參考文獻(xiàn):
[1] 郭建文.城鄉(xiāng)一體化背景下新型公共圖書館總分館服務(wù)體系建設(shè)分析[J].辦公室業(yè)務(wù),2018(15):146-152.
[2] 汪德禹.基于關(guān)聯(lián)數(shù)據(jù)的數(shù)字圖書館碎片化知識網(wǎng)絡(luò)構(gòu)建研究[J].河南圖書館學(xué)刊,2020(11):75-81.
[3] 黃妙瓊.大數(shù)據(jù)時代高校圖書館特色館藏資源的知識發(fā)現(xiàn)[J].黑河學(xué)刊,2022(1):101-106.
[4] MEO D,URSINO Q.Exploitation of semantic relationships and hierarchical data structures to support a user in his annotation and browsing activities in folksonomies[J].Information Systems,2009(6):511-535.
[5] 姚荔.后疫情時代公共圖書館館藏資源構(gòu)建模式變革初探[J].圖書館學(xué)刊,2021(12):63-66,77.
[6] 藍(lán)艷林.新時代高校檔案館藏資源建設(shè)與開發(fā)利用研究:以廣西科技師范學(xué)院為例[J].蘭臺內(nèi)外,2022(3):62-65.
[7] 吳亞蕓,戴清杰,劉桂鋒.信息生命周期理論視角下的特色館藏資源實踐與探索[J].新世紀(jì)圖書館,2021(2):39-43.
(編校:周雪芹)