馬黎艷
[摘要]圖書館中包含了大量的數(shù)字資源,利用語義網(wǎng)技術(shù)能讓圖書館數(shù)字資源更為入的聚合,提高對資源的利用效率,在語義層次上對圖書館內(nèi)部資源和外部資源之間構(gòu)架一個交互的通道,進(jìn)行深度聚合。本文從語義網(wǎng)技術(shù)的作用入手,闡述數(shù)字資源深度聚合工具,具體分析語義網(wǎng)技術(shù)在圖書館數(shù)字資源深度聚合中的應(yīng)用,希望本文的研究能對相關(guān)工作有所幫助。
[關(guān)鍵詞]語叉網(wǎng)技術(shù);圖書館;數(shù)字資源;深度聚合;應(yīng)用
[中圖分類號]C640
[文獻(xiàn)標(biāo)識碼]A
[文章編號]1671-5918(2018) 05-0036-03
圖書館中的數(shù)字資源較多,但是卻沒有被統(tǒng)一的標(biāo)識和提出,也就很難和圖書館外部資源進(jìn)行深度聚合,極大地影響了圖書館資源發(fā)揮知識傳播作用,也很難讓用戶利用圖書館外部資源。圖書館內(nèi)部資源和外部資源的聚合需要降低圖書館資源之間的結(jié)構(gòu)差異,為訪問提供必要入口,從語義層次上來看,能讓圖書館內(nèi)部資源和外部資源得到最大程度上的利用,更為全面的進(jìn)行語義檢索。
一、語義網(wǎng)技術(shù)的作用
(一)語義網(wǎng)技術(shù)
在圖書館內(nèi)部資源和外部資源聚合中,語義網(wǎng)技術(shù)可以最大程度上利用圖書館數(shù)字資源,滿足用戶對知識的獲取需求,也能為用戶提供更為全面的語義檢索,提高檢索效率和精度,也能讓圖書館資源成為網(wǎng)絡(luò)資源的一部分,在全網(wǎng)范圍內(nèi)發(fā)布資源。在圖書館數(shù)字資源深度聚合中,語義網(wǎng)技術(shù)主要包括以下內(nèi)容:
1.語義描述標(biāo)準(zhǔn)確定圖書館數(shù)字資源的語義描述方式,為下一步的數(shù)字資源集合提供必要的語義接口。
2.本體可以實現(xiàn)圖書館數(shù)字資源和外部資源之間的語言重組織。
3.關(guān)聯(lián)數(shù)據(jù)技術(shù)可以實現(xiàn)開放數(shù)據(jù)及的關(guān)聯(lián),而圖書館借助關(guān)聯(lián)數(shù)據(jù)技術(shù)提供的各項關(guān)聯(lián)數(shù)據(jù)服務(wù),完成語義資源的關(guān)聯(lián)過程。
(二)語義網(wǎng)技術(shù)對圖書館數(shù)字資源深度聚合的作用
語義網(wǎng)技術(shù)能提供必要的資源內(nèi)容和結(jié)構(gòu),完成元數(shù)據(jù)的處理,并且在網(wǎng)絡(luò)中提供共享信息,其語義作用能讓各個概念更為精確。對于圖書館數(shù)字資源的深度聚合也就是聚合和整合,通過多類型或者多數(shù)量數(shù)據(jù)源的分析,能確定信息概況,明確數(shù)據(jù)之間的前后關(guān)系,將不同地點(diǎn)的對統(tǒng)一數(shù)據(jù)對象的不同描述進(jìn)行拼合,讓對于這個數(shù)據(jù)對象的信息描述更為完整和全面,也就是資源聚合的過程。圖書館數(shù)字資源本身較多也較為復(fù)雜,對于其數(shù)據(jù)處理需要進(jìn)行集成操作,在此基礎(chǔ)上建立領(lǐng)域本體庫,實現(xiàn)語義技術(shù)上的信息關(guān)聯(lián).實現(xiàn)對圖書館數(shù)字資源的深度聚合。
1.促進(jìn)圖書館數(shù)字資源的深度聚合
XML技術(shù)是語義網(wǎng)技術(shù)的關(guān)鍵內(nèi)容,其語法功能較為突出,能更好地定義標(biāo)記或者字段集合,并且將這些標(biāo)注的內(nèi)容展現(xiàn)出來。在網(wǎng)頁編寫中,原本的HTML技術(shù)并不能有效區(qū)分普通信息和元信息,而XML技術(shù)則解決了這一問題,尤其是在全文搜索上,讓檢索結(jié)果更為準(zhǔn)確,提高了用戶對文獻(xiàn)查找的準(zhǔn)確率,優(yōu)化了用戶的文獻(xiàn)查找體驗。
2.促進(jìn)圖書館數(shù)據(jù)集成
借助RDF技術(shù),可以在數(shù)字圖書館的網(wǎng)絡(luò)導(dǎo)航中發(fā)揮重要的作用,尤其是優(yōu)化圖書館語義資源的搜索功能,這也是語義網(wǎng)技術(shù)的關(guān)鍵內(nèi)容,更好的描述內(nèi)容之間的關(guān)系,實現(xiàn)數(shù)據(jù)知識的共享和交互,也能在web網(wǎng)頁中呈現(xiàn)獨(dú)立的邏輯描述,展現(xiàn)知識產(chǎn)權(quán)。在數(shù)字圖書館的使用、管理和維護(hù)過程中,這一技術(shù)發(fā)揮了較大的作用,促進(jìn)圖書館數(shù)據(jù)集成。
3.促進(jìn)圖書館知識重用
在傳統(tǒng)的圖書館中,對于信息的檢索大多數(shù)都是采用關(guān)鍵詞檢索的方式,并沒有必要的語義支持,而且網(wǎng)絡(luò)資源較為反三,信息服務(wù)效率較低,很難達(dá)到較好的信息服務(wù)效果。從數(shù)字圖書館語義資源呈現(xiàn)角度來看,用戶對于信息識別和處理要求較高,希望能實現(xiàn)語義檢索,方便用戶進(jìn)行知識挖掘,根據(jù)用戶的需求信息能更好地進(jìn)行信息資源的組織服務(wù)。本體技術(shù)也是語義網(wǎng)技術(shù)中的基礎(chǔ),實現(xiàn)不同系統(tǒng)之間的交流共享,促進(jìn)圖書館知識重用。
借助語義網(wǎng)技術(shù)能在語義層面上聚合圖書館資源和網(wǎng)絡(luò)資源,更好地進(jìn)行圖書館數(shù)字資源的重構(gòu),實現(xiàn)和外部網(wǎng)絡(luò)資源之間的信息共享,形成語義框架。對于圖書館數(shù)字資源的語義描述需要建立本體和語義數(shù)據(jù)庫,實現(xiàn)和圖書館外部網(wǎng)絡(luò)資源的語義集合。其中每個資源都通過本體實現(xiàn)語義描述和管理,都可以在數(shù)據(jù)共享的基礎(chǔ)上,集合更多的數(shù)據(jù),為用戶提供多資源咨詢,這種咨詢甚至可以跨機(jī)構(gòu)完成。對圖書館數(shù)字資源進(jìn)行深度整合,能形成可擴(kuò)展協(xié)作知識庫,整合異質(zhì)資源和元數(shù)據(jù),從不同平臺獲取多種資源然后映射重構(gòu)成本體層,構(gòu)建相應(yīng)的圖書館入口。我國對語義網(wǎng)技術(shù)在圖書館數(shù)字資源深度聚合中應(yīng)用的研究成果并不多,主要是研究時間尚短,大多數(shù)研究成果都集中的語義聚合模型,并沒有太多的應(yīng)用闡述。
二、圖書館數(shù)字資源深度聚合工具和技術(shù)
(一)圖書館數(shù)字資源深度聚合工具
對圖書館資源進(jìn)行深度聚合,需要相應(yīng)的聚合工具,較為常見的為D2R、R2R、SILK等,利用這些深度聚合工具,能將圖書館數(shù)字資源轉(zhuǎn)化成為語義格式,也能將這些語義資源進(jìn)行深度聚合。分析常見的圖書館數(shù)字資源深度聚合工具,可以看出,運(yùn)行環(huán)境和圖書館數(shù)字資源深度聚合轉(zhuǎn)換方向并不相同。圖書館數(shù)字資源深度聚合工具在運(yùn)行過程中,需要保證其Java運(yùn)行環(huán)境,而且受到開源架構(gòu)的影響,聚合方法較為相似,SILK工具是通過計算語義相似度后語義鏈接數(shù)字資源,D2R和R2R則是對數(shù)字資源進(jìn)行映射聚合。其中D2R和R2R更多的用于RDF轉(zhuǎn)換工具,而SILK工具有必要的仿真平臺,也成了主要的圖書館數(shù)字資源在深度聚合工具。
(二)圖書館數(shù)字資源深度聚合技術(shù)
1.領(lǐng)域本體集成技術(shù)
在圖書館數(shù)字資源聚合過程中,對于知識的檢索基礎(chǔ)就是領(lǐng)域本體,可以在多個模塊中存在,也能在整個體系結(jié)構(gòu)中共存,為各個模塊功能實現(xiàn)提供必要的參考,建立對應(yīng)的語義圖書館檢索系統(tǒng),領(lǐng)域本體也就是整個檢索系統(tǒng)中的重要內(nèi)容。圖書館數(shù)字資源聚合過程中,根據(jù)構(gòu)建需求,引入螺旋模型,構(gòu)建領(lǐng)域本體,不斷完善本體,系統(tǒng)開發(fā)過程中可以沿著螺旋線實現(xiàn)周期性的多次迭代。在一些用戶需求不明的檢索系統(tǒng)開發(fā)過程中,也可以借助這一技術(shù)完成開發(fā),更為靈活的應(yīng)用需求變化。在構(gòu)建圖書館數(shù)字資源領(lǐng)域本體時,首先進(jìn)行需求分析和本體分析,在分析完成之后編寫本體,完成構(gòu)建過程,領(lǐng)域本體初步構(gòu)建完成之后,需要進(jìn)行驗證和評價,然后不斷完善,根據(jù)實際圖書館的要求進(jìn)行調(diào)整,使其符合實際應(yīng)用要求。 2.大數(shù)據(jù)挖掘與集成技術(shù) 圖書館數(shù)字資源的數(shù)量明顯增加,種類也明顯增加,可以說進(jìn)入了大數(shù)據(jù)時代,這也為圖書館數(shù)字資源的深度聚合帶來了更大的難度,尤其是在數(shù)據(jù)分析和各種隱藏知識的挖掘上,挑戰(zhàn)更大。圖書館數(shù)字資源的深度集合借助大數(shù)據(jù)的理論和集成技術(shù)支持,通過數(shù)據(jù)分析完成對數(shù)據(jù)的挖掘,構(gòu)建相應(yīng)的知識模型,深度聚合信息資源,挖掘潛在知識,更好地進(jìn)行知識服務(wù)。
3.語義知識和信息資源轉(zhuǎn)換技術(shù)
借助語義網(wǎng)技術(shù),可以更好地進(jìn)行圖書館數(shù)字資源深度聚合。集合互聯(lián)網(wǎng)中不同位置的計算資源,增強(qiáng)其計算能力,實現(xiàn)互聯(lián)網(wǎng)資源的共享,將互聯(lián)網(wǎng)資源和語義網(wǎng)技術(shù)相融合,能提高語義知識的語義能力,也能明顯提高其計算能力。在語義網(wǎng)格架構(gòu)中,提供的環(huán)境狀況和圖書館相同,而環(huán)境無序條件下,圖書館可以實現(xiàn)跨語義聚合,不過在web環(huán)境下,語義網(wǎng)格需要構(gòu)建中間環(huán)境,信息體對于環(huán)境也要求較高,不能單純的滿足網(wǎng)格環(huán)境,也要滿足語義環(huán)境,實現(xiàn)語義互操作。二者都能將信息形式化描述出來,其中的語義信息能借助急切進(jìn)行認(rèn)知和軒換。
三、語義網(wǎng)技術(shù)在圖書館數(shù)字資源深度聚合中的應(yīng)用
語義網(wǎng)技術(shù)在圖書館數(shù)字資源深度聚合中的應(yīng)用,首先要確定聚合對象,并且對獲取的圖書館數(shù)字資源進(jìn)行預(yù)處理,然后進(jìn)行語義格式轉(zhuǎn)換,利用合理的聚合方式聚合資源,最后轉(zhuǎn)化為關(guān)聯(lián)數(shù)據(jù)發(fā)布。
(一)預(yù)處理已獲取的圖書館數(shù)字資源
圖書館數(shù)字資源的存儲方式包括粗粒度形式和細(xì)粒度形式,其中粗粒度形式是將圖書館數(shù)據(jù)庫中的所有資源看成一個整體,在和外部資源深度聚合時更多的是結(jié)構(gòu)上的聚合。細(xì)粒度資源重要是對圖書館資源的屬性提取,包括各種文獻(xiàn)的概念、屬性描述等,能顯著降低粗粒度數(shù)字資源的維度,在數(shù)據(jù)鏈接時更容易實現(xiàn)概念和屬性上的鏈接,也就實現(xiàn)了語義聚合。在對圖書館數(shù)字資源深度聚合時,可以選擇作者、出版商等,而對于電子文獻(xiàn)可以提取概念,借助本體對概念進(jìn)行擴(kuò)展之后聚合,細(xì)粒度形式的資源也是圖書館數(shù)字資源深度聚合的目標(biāo)。借助語義網(wǎng)技術(shù)主要是對細(xì)粒度資源進(jìn)行聚合,獲取數(shù)字資源然后進(jìn)行預(yù)處理。圖書館數(shù)字資源的貨物方式可以從數(shù)據(jù)庫中直接導(dǎo)出已有的結(jié)構(gòu)化數(shù)據(jù)資源,也可以利用開放API對非結(jié)構(gòu)化數(shù)據(jù)資源,而這也是圖書館數(shù)字資源常用的獲取方式。獲取的圖書館數(shù)據(jù)資源在進(jìn)行正式聚合處理之前需進(jìn)行預(yù)處理,預(yù)處理就是處理其中沖突的數(shù)據(jù),借助清洗工具對特定數(shù)據(jù)進(jìn)行清洗處理。
(二)語義格式轉(zhuǎn)換
經(jīng)過預(yù)處理之后的數(shù)據(jù)很難直接實現(xiàn)語義關(guān)聯(lián),因此需要對其進(jìn)行語義格式轉(zhuǎn)換,語義標(biāo)注之后轉(zhuǎn)化為RDF格式,實現(xiàn)語義關(guān)聯(lián)。在對圖書館數(shù)字資源進(jìn)行語義標(biāo)注中,往往借助一些標(biāo)注工具,包括英文語義標(biāo)注、中文語義標(biāo)準(zhǔn)以及可以實現(xiàn)用戶交互標(biāo)準(zhǔn)的工具,其中英國UCREL中心開發(fā)的自動語義分析標(biāo)準(zhǔn)系統(tǒng)可以實現(xiàn)對包括中文、英文在內(nèi)的多種語言的標(biāo)注。也有一些語義標(biāo)注過程是借助人工標(biāo)注方式完成。將已經(jīng)進(jìn)行語義標(biāo)注的數(shù)字資源進(jìn)行格式轉(zhuǎn)換,包括用格式轉(zhuǎn)換工具或者編程語言進(jìn)行轉(zhuǎn)換。很多格式轉(zhuǎn)換工具都可以實現(xiàn)對常見數(shù)據(jù)格式的轉(zhuǎn)換,通過處理之后,將這些不同格式的圖書館數(shù)據(jù)資源轉(zhuǎn)化為RDF格式,甚至可以有專門的接口和用戶互相操作。
(三)確定聚合方法
確定聚合方法能更好地實現(xiàn)對語義格式轉(zhuǎn)化之后的圖書館資源進(jìn)行聚合操作,通過對國內(nèi)常見的圖書館數(shù)據(jù)資源和外部資源聚合方法的分析,可以歸為以下幾種:
1.映射法
可以借助映射工具,完成直接聚合過程,或者是根據(jù)本體特征完成(多)共享本體的編輯合并,轉(zhuǎn)換本體格式。 2.相似度計算法 能集中統(tǒng)計聚合對象的屬性和語義相似度,建立對應(yīng)的關(guān)聯(lián)關(guān)系,目前常見的語義相似度計算方法主要是語義距離、信息內(nèi)容和概念特征幾方面,或者是將這幾種計算方法綜合利用。
3.機(jī)器學(xué)習(xí)法
能從大量的數(shù)據(jù)中尋找模式,尤其是在圖書館數(shù)字資源聚合的過程中,選擇景觀預(yù)處理的數(shù)據(jù)實例進(jìn)行語義標(biāo)注處理,也能構(gòu)建相應(yīng)的訓(xùn)練集合,根據(jù)其特征分類,輸入對象數(shù)據(jù)之后,可以在已存在的特征分類中找尋歸屬,確定關(guān)聯(lián)關(guān)系。
圖書館數(shù)字資源在聚合的過程中,機(jī)器學(xué)習(xí)法較為常用,主要是其本身較為簡單,節(jié)省了大量的時間,相應(yīng)的準(zhǔn)確性也較高。利用機(jī)器學(xué)習(xí)法用作數(shù)字資源深度聚合工具,可以將獲取并經(jīng)過預(yù)處理的數(shù)據(jù)分為不同的集合,語言標(biāo)注樣本訓(xùn)練集,然后提取相應(yīng)的實例對象,借助機(jī)器學(xué)習(xí)法完成學(xué)習(xí)過程,對這些對象進(jìn)行特征分類處理,判斷輸入的對象實例是否為等同關(guān)系,一旦成立,那么兩個實例對象語義相關(guān),否則不存在關(guān)聯(lián)。
(四)發(fā)布關(guān)聯(lián)數(shù)據(jù)
借助語義網(wǎng)技術(shù)對圖書館數(shù)字資源進(jìn)行深度聚合后,借助工具發(fā)布關(guān)聯(lián)數(shù)據(jù),方便用戶對圖書館語義資源的獲取。通過不同的方式和工具進(jìn)行關(guān)聯(lián)發(fā)布。
在未來可以利用語義網(wǎng)技術(shù)實現(xiàn)圖書館數(shù)字資源之間的可視化,在語義檢索的同時融合網(wǎng)絡(luò)資源,讓數(shù)字圖書館不再是面向內(nèi)部用戶,而是面向大眾,真正的實現(xiàn)圖書館數(shù)字資源的共享。
綜上所述,在圖書館數(shù)字資源的深度聚合下,利用語義網(wǎng)技術(shù)能為用戶提供語義檢索和推薦,這也是圖書館數(shù)字資源深度聚合的目的所在。語義網(wǎng)技術(shù)能聚合圖書館數(shù)字資源,建立相應(yīng)的知識庫和本體庫,從關(guān)鍵詞匹配到語義檢索層面的上升,而語義網(wǎng)技術(shù)能為用戶提供更為全面的語義檢索,語義聚合相關(guān)數(shù)字資源,滿足用戶對語義搜索的要求,實現(xiàn)語義數(shù)字圖書館,完成知識的共享過程。
參考文獻(xiàn):
[1]周亮.語義網(wǎng)環(huán)境下數(shù)字圖書館的資源聚合模式研究[J].圖書館界,2015(3):1-4.
[2]邱均平,方國平.高校圖書館語義化館藏資源深度聚合模式及其應(yīng)用研究[J].圖書館學(xué)研究,2014( 21):64-71.
[3]楊瑞仙,李露琪.國內(nèi)外數(shù)字文獻(xiàn)資源深度聚合研究現(xiàn)狀的比較分析[J].圖書情報知識,2014(6):68-74.
[4]“全國數(shù)字文獻(xiàn)資源語義化、深度聚合與可視化研究”專題研討會征文通知[J].評價與管理,2014(1):79-80.
[5]伍革新,程秀峰.面向語義檢索的數(shù)字圖書館資源聚合模式分析[J].圖書館建設(shè),2013( 10):22-26.