郭衛(wèi)兵,臧莉娟
(1.南京理工大學(xué)圖書館/信息化建設(shè)與管理處, 南京 210094;2.南京理工大學(xué)科學(xué)技術(shù)協(xié)會(huì), 南京 210094; 3.南京大學(xué)信息管理學(xué)院,南京 210093)
機(jī)構(gòu)知識(shí)庫(kù)(Institutional Repository,簡(jiǎn)稱IR)是開放存取理念下形成的新型學(xué)術(shù)出版與交流模式[1],主要用來長(zhǎng)期保存和展示本機(jī)構(gòu)的數(shù)字化學(xué)術(shù)資源,以實(shí)現(xiàn)多個(gè)機(jī)構(gòu)間的學(xué)術(shù)交流與共享。隨著信息資源的爆炸式增長(zhǎng)和信息化平臺(tái)的不斷應(yīng)用,國(guó)防科研機(jī)構(gòu)在收集并存儲(chǔ)著各類信息資源的同時(shí),形成大量“信息孤島”,一方面信息系統(tǒng)互聯(lián)陷入瓶頸,另一方面信息資源浪費(fèi)嚴(yán)重[2-3]。機(jī)構(gòu)知識(shí)庫(kù)在世界范圍內(nèi)的學(xué)術(shù)研究與實(shí)踐發(fā)展都非常迅速,但我國(guó)的研究起步稍晚,其開放獲取意識(shí)不強(qiáng)、缺乏規(guī)范、認(rèn)知不夠,也跟不上信息社會(huì)發(fā)展的步伐[4]。如何有效的進(jìn)行知識(shí)組織、合理的構(gòu)建知識(shí)庫(kù)、避免“信息孤島”和資源浪費(fèi)、提供給用戶高質(zhì)量信息服務(wù)成為了國(guó)防科研機(jī)構(gòu)知識(shí)庫(kù)建設(shè)亟待解決的一個(gè)問題?;ヂ?lián)網(wǎng)之父Berners-Lee提出的關(guān)聯(lián)數(shù)據(jù)(linked of data),是實(shí)現(xiàn)數(shù)據(jù)網(wǎng)絡(luò)(web of data)的關(guān)鍵技術(shù),給國(guó)防科研機(jī)構(gòu)知識(shí)庫(kù)的構(gòu)建和服務(wù)提供了一種新的解決思路。
關(guān)聯(lián)數(shù)據(jù)的基本原理是強(qiáng)調(diào)數(shù)據(jù)的相互關(guān)聯(lián)、相互聯(lián)系,采用RDF數(shù)據(jù)模型,利用URI命名數(shù)據(jù)實(shí)體,來發(fā)布和部署實(shí)例數(shù)據(jù)以及其他各類數(shù)據(jù)到數(shù)據(jù)網(wǎng)絡(luò)上,用戶可以通過HTTP協(xié)議解釋這些數(shù)據(jù),并以易于人機(jī)理解的語(yǔ)境信息來獲取[5]。關(guān)聯(lián)數(shù)據(jù)遵循四項(xiàng)基本原則:1) 使用URI作為Web上資源的唯一標(biāo)識(shí)名稱;2) 任何用戶都可以使用HTTP URI定位并查找到這一資源;3) 當(dāng)某一URI被訪問時(shí),以RDF標(biāo)準(zhǔn)形式返回有用的信息;4) 盡可能返回指向其他URI的相關(guān)鏈接,以便檢索到更多信息[6]。因此,在建設(shè)機(jī)構(gòu)知識(shí)庫(kù)時(shí),可以利用關(guān)聯(lián)數(shù)據(jù)的基本原理和基本原則達(dá)到知識(shí)組織、機(jī)構(gòu)庫(kù)構(gòu)建、資源集成與共享等目的。
關(guān)聯(lián)數(shù)據(jù)支持結(jié)構(gòu)化數(shù)據(jù)的任意關(guān)聯(lián)。基于大數(shù)據(jù)中客觀實(shí)體與抽象概念間所蘊(yùn)藏的豐富關(guān)聯(lián)關(guān)系,關(guān)聯(lián)數(shù)據(jù)通過網(wǎng)絡(luò)發(fā)布的方式實(shí)現(xiàn)任意結(jié)構(gòu)化數(shù)據(jù)的獲取,同時(shí)依托語(yǔ)義網(wǎng)技術(shù)構(gòu)建數(shù)據(jù)資源關(guān)聯(lián)網(wǎng)絡(luò),實(shí)現(xiàn)數(shù)據(jù)資源語(yǔ)義層面關(guān)聯(lián)關(guān)系,建立數(shù)據(jù)資源發(fā)現(xiàn)機(jī)制。眾所周知,資源發(fā)現(xiàn)和數(shù)據(jù)互聯(lián)互通對(duì)機(jī)構(gòu)知識(shí)庫(kù)建設(shè)尤其重要,而關(guān)聯(lián)數(shù)據(jù)的資源發(fā)現(xiàn)機(jī)制則為國(guó)防科研機(jī)構(gòu)知識(shí)庫(kù)的資源發(fā)現(xiàn)和數(shù)據(jù)互聯(lián)互通提供了一種可行的方法。
關(guān)聯(lián)數(shù)據(jù)使用發(fā)布和鏈接具有語(yǔ)義關(guān)系的結(jié)構(gòu)化數(shù)據(jù)的方式使現(xiàn)有的分散異構(gòu)的Web數(shù)據(jù)資源實(shí)現(xiàn)語(yǔ)義關(guān)聯(lián),解決了現(xiàn)有Web網(wǎng)絡(luò)信息的粗粒度與語(yǔ)義性缺失的問題,從而促進(jìn)傳統(tǒng)Web網(wǎng)絡(luò)向共享數(shù)據(jù)網(wǎng)絡(luò)演進(jìn)[7]。從關(guān)聯(lián)數(shù)據(jù)的發(fā)展來看,越來越多的機(jī)構(gòu)和組織通過遵循關(guān)聯(lián)數(shù)據(jù)發(fā)布原則[8],以開放獲取模式發(fā)布數(shù)據(jù)以與其他數(shù)據(jù)源進(jìn)行語(yǔ)義關(guān)聯(lián)。就國(guó)防科研機(jī)構(gòu)知識(shí)庫(kù)而言,其蘊(yùn)含著大量具有豐富空間屬性的科學(xué)概念和學(xué)術(shù)實(shí)體信息,傳統(tǒng)的Web構(gòu)建方式使得它們分散無(wú)序而無(wú)法作為一個(gè)整體發(fā)揮其最大價(jià)值;第二,國(guó)防科研機(jī)構(gòu)知識(shí)庫(kù)資源的服務(wù)與利用率較低,也由于某些因素不能在網(wǎng)絡(luò)公開,無(wú)法與網(wǎng)絡(luò)資源進(jìn)行關(guān)聯(lián)集成。關(guān)聯(lián)數(shù)據(jù)的發(fā)展目標(biāo)及其實(shí)踐證明了關(guān)聯(lián)數(shù)據(jù)能夠有效解決當(dāng)前國(guó)防科研機(jī)構(gòu)知識(shí)庫(kù)所面臨的問題。
綜上所述,關(guān)聯(lián)數(shù)據(jù)和機(jī)構(gòu)知識(shí)庫(kù)是相輔相成的,應(yīng)用關(guān)聯(lián)數(shù)據(jù)來構(gòu)建國(guó)防科研機(jī)構(gòu)知識(shí)庫(kù)并開展相關(guān)信息服務(wù)是一個(gè)有效選擇。
國(guó)防科研機(jī)構(gòu)知識(shí)庫(kù)中應(yīng)用關(guān)聯(lián)數(shù)據(jù)的實(shí)現(xiàn)流程[9]如下:
1) 獲取數(shù)據(jù)網(wǎng)絡(luò)中的關(guān)聯(lián)數(shù)據(jù),將獲取到的關(guān)聯(lián)數(shù)據(jù)進(jìn)行映射解析、提取、合并等處理,形成RDF數(shù)據(jù)庫(kù)。之后機(jī)構(gòu)知識(shí)庫(kù)服務(wù)可以通過RDF API或者SPARQL等標(biāo)準(zhǔn)或接口訪問該RDF數(shù)據(jù)庫(kù)。
2) 將機(jī)構(gòu)知識(shí)庫(kù)中的實(shí)體和抽象概念關(guān)系發(fā)布成關(guān)聯(lián)數(shù)據(jù)格式,建立自身的語(yǔ)義關(guān)聯(lián)關(guān)系,并將數(shù)字對(duì)象間的語(yǔ)義關(guān)聯(lián)關(guān)系擴(kuò)展至已有的關(guān)聯(lián)詞表,使其支持基于SPARQL模式的語(yǔ)義查詢和推理擴(kuò)展。
3) 利用RDF對(duì)機(jī)構(gòu)知識(shí)庫(kù)中的數(shù)據(jù)進(jìn)行語(yǔ)義標(biāo)注并擴(kuò)展到外部數(shù)據(jù)源。同時(shí)返回關(guān)于該數(shù)據(jù)的盡可能多的相關(guān)數(shù)據(jù)資源的統(tǒng)一視圖。
關(guān)聯(lián)數(shù)據(jù)在國(guó)防科研機(jī)構(gòu)知識(shí)庫(kù)中的應(yīng)用框架包含5個(gè)部分,分別是關(guān)聯(lián)數(shù)據(jù)訪問器、關(guān)聯(lián)數(shù)據(jù)整理器、關(guān)聯(lián)數(shù)據(jù)存儲(chǔ)器、關(guān)聯(lián)數(shù)據(jù)檢索器和關(guān)聯(lián)關(guān)系構(gòu)建器[10]。如圖1所示[10-11]:
圖1 國(guó)防科研機(jī)構(gòu)知識(shí)庫(kù)關(guān)聯(lián)數(shù)據(jù)應(yīng)用框架示意圖
1) 關(guān)聯(lián)數(shù)據(jù)訪問器。從數(shù)據(jù)網(wǎng)絡(luò)中獲取關(guān)聯(lián)數(shù)據(jù),可以通過RDF DUMP下載、SPARQL端點(diǎn)查詢兩種方式從LOD云圖中的數(shù)據(jù)源中直接獲取。
2) 關(guān)聯(lián)數(shù)據(jù)整理器。分析不同來源的數(shù)據(jù),進(jìn)行數(shù)據(jù)合并、提取、清洗、模式映射、解析等操作,將數(shù)據(jù)轉(zhuǎn)換到統(tǒng)一的容器中,形成增值的數(shù)據(jù)結(jié)果。
3) 關(guān)聯(lián)數(shù)據(jù)存儲(chǔ)器。主要將整合后的關(guān)聯(lián)數(shù)據(jù)以RDF格式保存為RDF數(shù)據(jù),并對(duì)其進(jìn)行管理,有臨時(shí)性緩存整合后的結(jié)果和采用一個(gè)永久性的存儲(chǔ)設(shè)備保存兩種方式。
4) 關(guān)聯(lián)數(shù)據(jù)檢索器。主要提供如SPARQL端點(diǎn)查詢、RDF API等基于RDF數(shù)據(jù)的標(biāo)準(zhǔn)訪問和調(diào)用接口,以便將整合和集成后的關(guān)聯(lián)數(shù)據(jù)融合到國(guó)防科研機(jī)構(gòu)知識(shí)庫(kù)應(yīng)用的服務(wù)中。
5) 關(guān)聯(lián)關(guān)系構(gòu)建器。主要建立國(guó)防科研機(jī)構(gòu)知識(shí)庫(kù)自身數(shù)據(jù)之間,以及與其他數(shù)據(jù)源之間的關(guān)聯(lián)關(guān)系。通過關(guān)聯(lián)關(guān)系為機(jī)構(gòu)知識(shí)庫(kù)數(shù)據(jù)增值。
傳統(tǒng)的機(jī)構(gòu)知識(shí)庫(kù)不具備資源互操作性,其內(nèi)部數(shù)據(jù)之間、內(nèi)部數(shù)據(jù)與外部數(shù)據(jù)之間缺乏一定的關(guān)聯(lián),給用戶對(duì)機(jī)構(gòu)知識(shí)庫(kù)的利用尤其是異構(gòu)庫(kù)之間的資源集成與共享帶來一定的不便。關(guān)聯(lián)數(shù)據(jù)能夠?qū)C(jī)構(gòu)知識(shí)庫(kù)中的信息資源轉(zhuǎn)化成語(yǔ)義數(shù)據(jù)并通過URI標(biāo)識(shí),利用RDF關(guān)聯(lián),通過HTTP協(xié)議揭示并獲取,最終實(shí)現(xiàn)機(jī)構(gòu)知識(shí)庫(kù)信息資源的集成與共享[12]。依據(jù)關(guān)聯(lián)數(shù)據(jù)的基本原理和傳統(tǒng)機(jī)構(gòu)知識(shí)庫(kù)的構(gòu)建模式,并遵循上文所敘述的關(guān)聯(lián)數(shù)據(jù)在國(guó)防科研機(jī)構(gòu)知識(shí)庫(kù)中的應(yīng)用框架,筆者概括并總結(jié)出基于關(guān)聯(lián)數(shù)據(jù)的國(guó)防科研機(jī)構(gòu)知識(shí)庫(kù)構(gòu)建,如圖2。
圖2 基于關(guān)聯(lián)數(shù)據(jù)的國(guó)防科研機(jī)構(gòu)知識(shí)庫(kù)構(gòu)建框圖
圖3的構(gòu)建框架按照數(shù)據(jù)源從采集、處理到應(yīng)用的過程可以分為數(shù)據(jù)來源層、數(shù)據(jù)描述層、數(shù)據(jù)關(guān)聯(lián)層和數(shù)據(jù)應(yīng)用層等4個(gè)層次。數(shù)據(jù)來源層即各機(jī)構(gòu)知識(shí)庫(kù)的結(jié)構(gòu)化數(shù)據(jù)及文本型數(shù)據(jù);數(shù)據(jù)描述層即針對(duì)各機(jī)構(gòu)知識(shí)庫(kù)的信息資源用RDF來描述、按照“關(guān)聯(lián)數(shù)據(jù)四項(xiàng)基本原則”發(fā)布到網(wǎng)絡(luò)或內(nèi)網(wǎng)上;數(shù)據(jù)關(guān)聯(lián)層即通過不同來源的資源內(nèi)部可能存在特定的關(guān)聯(lián)關(guān)系將其建立鏈接,形成一個(gè)數(shù)據(jù)的網(wǎng)絡(luò);數(shù)據(jù)應(yīng)用層主要是建立關(guān)聯(lián)數(shù)據(jù)基礎(chǔ)上的Web應(yīng)用,包括數(shù)據(jù)瀏覽、統(tǒng)一檢索、Web接口等。
傳統(tǒng)的機(jī)構(gòu)知識(shí)庫(kù)構(gòu)建模式有自主模式和聯(lián)盟模式[13]兩種,自主模式是指獨(dú)立機(jī)構(gòu)以下屬部門為基本單位構(gòu)建屬于該機(jī)構(gòu)的機(jī)構(gòu)知識(shí)庫(kù),該構(gòu)建模式構(gòu)建單位顆粒度小,不便多機(jī)構(gòu)間的數(shù)據(jù)共享。聯(lián)盟模式指多個(gè)機(jī)構(gòu)合作構(gòu)建機(jī)構(gòu)知識(shí)庫(kù),通過分布采集數(shù)據(jù)提供統(tǒng)一的檢索入口或界面,或通過集中存儲(chǔ)數(shù)據(jù)來實(shí)現(xiàn)多機(jī)構(gòu)間的資源共享,但該模式構(gòu)建主體不明確,不利于機(jī)構(gòu)品牌的建立。基于關(guān)聯(lián)數(shù)據(jù)的機(jī)構(gòu)知識(shí)庫(kù)構(gòu)建模式將上述兩種構(gòu)建模式有效集合起來,既保證了本機(jī)構(gòu)的品牌建設(shè),又能夠很好的實(shí)現(xiàn)多個(gè)機(jī)構(gòu)之間的資源共享。
通過上述分析,關(guān)聯(lián)數(shù)據(jù)在國(guó)防科研機(jī)構(gòu)知識(shí)庫(kù)構(gòu)建方面的關(guān)鍵技術(shù)總結(jié)如下:
1) 利用關(guān)聯(lián)數(shù)據(jù)技術(shù)將機(jī)構(gòu)知識(shí)庫(kù)中的數(shù)據(jù)發(fā)布成語(yǔ)義層面的關(guān)聯(lián)數(shù)據(jù)格式。由于傳統(tǒng)機(jī)構(gòu)知識(shí)庫(kù)無(wú)法對(duì)信息資源進(jìn)行有效的語(yǔ)義描述,信息資源當(dāng)中的實(shí)體與抽象概念也無(wú)法被外部資源開放獲取[14],因此要實(shí)現(xiàn)機(jī)構(gòu)知識(shí)庫(kù)的開放關(guān)聯(lián),就要將其數(shù)據(jù)以關(guān)聯(lián)數(shù)據(jù)形式予以發(fā)布。關(guān)聯(lián)數(shù)據(jù)的發(fā)布涉及到數(shù)據(jù)URI命名、詞匯集創(chuàng)建、數(shù)據(jù)RDF描述、發(fā)布模式、發(fā)布工具等問題。
2) 利用關(guān)聯(lián)數(shù)據(jù)技術(shù)對(duì)機(jī)構(gòu)知識(shí)庫(kù)進(jìn)行語(yǔ)義標(biāo)注。要實(shí)現(xiàn)機(jī)構(gòu)知識(shí)庫(kù)中關(guān)聯(lián)數(shù)據(jù)的關(guān)聯(lián)訪問,就需要對(duì)機(jī)構(gòu)知識(shí)庫(kù)中的數(shù)據(jù)進(jìn)行語(yǔ)義標(biāo)注,具體操作就是依據(jù)機(jī)構(gòu)知識(shí)庫(kù)中實(shí)體和抽象概念間的各類關(guān)聯(lián)關(guān)系,利用RDF在機(jī)構(gòu)知識(shí)庫(kù)內(nèi)部和外部創(chuàng)建各種類型的RDF語(yǔ)義鏈接,從而利用RDF鏈接機(jī)制擴(kuò)展到外部數(shù)據(jù)源,進(jìn)而實(shí)現(xiàn)數(shù)據(jù)網(wǎng)絡(luò)中各機(jī)構(gòu)知識(shí)庫(kù)數(shù)據(jù)的相互關(guān)聯(lián)。
3) 主要涉及到的語(yǔ)義網(wǎng)三大核心技術(shù):RDF、OWL和SAPRQL。RDF (Resource Description Framework)資源描述框架是描述網(wǎng)絡(luò)資源的 W3C 標(biāo)準(zhǔn),本質(zhì)上是一種數(shù)據(jù)模型,它專門用于表達(dá)關(guān)于Web資源的元數(shù)據(jù),比如網(wǎng)頁(yè)的標(biāo)題、作者、創(chuàng)建日期、詳細(xì)內(nèi)容等,Web上不同的被RDF描述的資源便可以建立起特定的語(yǔ)義關(guān)聯(lián)[15]。OWL(Ontology Language)是W3C開發(fā)的一種網(wǎng)絡(luò)本體語(yǔ)言,用于對(duì)本體進(jìn)行語(yǔ)義描述,其目的是為了更好地開發(fā)語(yǔ)義網(wǎng)[17],它強(qiáng)化了數(shù)據(jù)網(wǎng)絡(luò)中機(jī)構(gòu)知識(shí)庫(kù)數(shù)據(jù)之間的語(yǔ)義關(guān)聯(lián)性,更方便基于關(guān)聯(lián)數(shù)據(jù)的語(yǔ)義關(guān)聯(lián)。SPARQL(Simple Protocol and RDF Query Language)是為RDF開發(fā)的一種查詢語(yǔ)言和數(shù)據(jù)獲取協(xié)議[16],用于查詢?nèi)魏我訰DF表示的信息資源,其目標(biāo)就是可以像SQL檢索關(guān)系數(shù)據(jù)庫(kù)一樣檢索語(yǔ)義Web,現(xiàn)在SPARQL語(yǔ)言可以對(duì)不同類型的RDF資源進(jìn)行集成檢索。
本文中系統(tǒng)設(shè)計(jì)的主要目標(biāo)是對(duì)國(guó)防科研機(jī)構(gòu)知識(shí)庫(kù)進(jìn)行語(yǔ)義擴(kuò)展以期實(shí)現(xiàn)異構(gòu)庫(kù)間的資源集成與共享服務(wù)。系統(tǒng)結(jié)構(gòu)如圖3所示。
圖3 系統(tǒng)結(jié)構(gòu)圖
1) 實(shí)體關(guān)系的抽取和添加約束
國(guó)防科研機(jī)構(gòu)知識(shí)庫(kù)內(nèi)的數(shù)據(jù)來源于機(jī)構(gòu)內(nèi)的各個(gè)部門,每個(gè)部門又可以分為多個(gè)子部門和專題,就其內(nèi)容類型來說,又包括了專著、期刊論文、會(huì)議論文、學(xué)位論文、專利、演示報(bào)告、工作文檔等多種數(shù)據(jù)集,這些數(shù)據(jù)與作者、學(xué)科主題等核心實(shí)體有著直接聯(lián)系。如部門及其子部門的上下級(jí)關(guān)系、作者與部門的從屬關(guān)系、作者與學(xué)科主題的歸屬關(guān)系、作者間的合作關(guān)系等,可為這些實(shí)體及關(guān)系添加約束。在底層數(shù)據(jù)庫(kù)設(shè)計(jì)時(shí),可將該隱形約束轉(zhuǎn)化為外鍵關(guān)聯(lián)條件。
2) 關(guān)聯(lián)數(shù)據(jù)詞匯集的創(chuàng)建
國(guó)防科研機(jī)構(gòu)知識(shí)庫(kù)內(nèi)的數(shù)據(jù)包括了各類實(shí)體和抽象概念,以及它們之間的顯性或隱性關(guān)聯(lián)關(guān)系。使用RDF+OWL對(duì)這些要素予以描述是關(guān)聯(lián)數(shù)據(jù)構(gòu)建的一個(gè)重要環(huán)節(jié),即使用計(jì)算機(jī)可以理解的語(yǔ)言來描述資源的相關(guān)陳述。關(guān)聯(lián)數(shù)據(jù)構(gòu)建的四項(xiàng)基本原則之一就是盡可能的復(fù)用已有的關(guān)聯(lián)詞表或模型,數(shù)字圖書館領(lǐng)域常用以對(duì)象描述的DC、SKOS、FOAF、ISWC、VCARD等元數(shù)據(jù)標(biāo)準(zhǔn)均已實(shí)現(xiàn)了全面的關(guān)聯(lián)數(shù)據(jù)化,可用作復(fù)用關(guān)聯(lián)詞表。機(jī)構(gòu)知識(shí)庫(kù)的關(guān)聯(lián)數(shù)據(jù)源需根據(jù)已有的類和屬性來選擇,可用的關(guān)聯(lián)數(shù)據(jù)源有DB Ontology、DBLP Bibliography等。D2R能夠建立關(guān)聯(lián)詞表和關(guān)聯(lián)數(shù)據(jù)源之間的詞匯映射關(guān)系,構(gòu)建符合機(jī)構(gòu)知識(shí)庫(kù)的語(yǔ)義映射模式,形成詞表映射和語(yǔ)義擴(kuò)展方案。在程序中完成對(duì)實(shí)體數(shù)據(jù)的RDF語(yǔ)義標(biāo)注和關(guān)聯(lián)后,關(guān)聯(lián)數(shù)據(jù)詞匯集創(chuàng)建完成,此時(shí)該數(shù)據(jù)集可關(guān)聯(lián)至外部數(shù)據(jù)源。從其他學(xué)者的經(jīng)驗(yàn)來看,機(jī)構(gòu)知識(shí)庫(kù)各實(shí)體和抽象概念等數(shù)據(jù)對(duì)象應(yīng)使用以“http://”+“本機(jī)構(gòu)知識(shí)庫(kù)的域名”開頭的URI進(jìn)行命名,這樣可以保證該URI標(biāo)識(shí)能夠被任何遵循HTTP協(xié)議的應(yīng)用程序所解析。
3) 關(guān)聯(lián)數(shù)據(jù)集的發(fā)布
國(guó)防科研機(jī)構(gòu)知識(shí)庫(kù)需根據(jù)數(shù)據(jù)特點(diǎn)與機(jī)構(gòu)知識(shí)庫(kù)應(yīng)用需求的特點(diǎn),進(jìn)行抽取實(shí)體、映射RDF等操作,實(shí)現(xiàn)機(jī)構(gòu)知識(shí)庫(kù)中各實(shí)體與抽象概念的語(yǔ)義描述與之間的關(guān)聯(lián),這樣國(guó)防科研機(jī)構(gòu)知識(shí)庫(kù)的信息資源就成為具有語(yǔ)義揭示功能的網(wǎng)絡(luò)化數(shù)據(jù)集。在此基礎(chǔ)上,選擇合理的靜態(tài)RDF文件,利用關(guān)聯(lián)數(shù)據(jù)存儲(chǔ)器,在線生成RDF數(shù)據(jù)的關(guān)聯(lián)數(shù)據(jù)發(fā)布模式,再利用描述RDF數(shù)據(jù)集的VOID詞表、D2R Server等關(guān)聯(lián)數(shù)據(jù)發(fā)布工具,將RDF關(guān)聯(lián)數(shù)據(jù)集發(fā)布到LOD云或內(nèi)部共享網(wǎng)絡(luò)中,這是實(shí)現(xiàn)國(guó)防科研機(jī)構(gòu)知識(shí)庫(kù)數(shù)據(jù)關(guān)聯(lián)發(fā)現(xiàn)和開放共享的關(guān)鍵一步。
4) 構(gòu)建共享數(shù)據(jù)網(wǎng)絡(luò)
構(gòu)建關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò)首先必須選擇已經(jīng)在LOD網(wǎng)絡(luò)中發(fā)布的合適的機(jī)構(gòu)知識(shí)庫(kù)開放關(guān)聯(lián)數(shù)據(jù)集并與其構(gòu)建鏈接關(guān)系,從而保證國(guó)防科研機(jī)構(gòu)知識(shí)庫(kù)本身數(shù)據(jù)能夠與其他機(jī)構(gòu)知識(shí)庫(kù)已發(fā)布的關(guān)聯(lián)數(shù)據(jù)實(shí)現(xiàn)關(guān)聯(lián)與共享。根據(jù)國(guó)防科研機(jī)構(gòu)知識(shí)庫(kù)中各實(shí)體和抽象概念數(shù)據(jù)及其之間的各種關(guān)聯(lián)關(guān)系,利用RDF三元組構(gòu)建和維護(hù)不同機(jī)構(gòu)知識(shí)庫(kù)數(shù)據(jù)集之間的RDF鏈接,進(jìn)而利用這樣的RDF語(yǔ)義鏈接創(chuàng)建多源異構(gòu)機(jī)構(gòu)知識(shí)庫(kù)的復(fù)雜數(shù)據(jù)網(wǎng)絡(luò)以實(shí)現(xiàn)各機(jī)構(gòu)知識(shí)庫(kù)數(shù)據(jù)的開放共享、語(yǔ)義關(guān)聯(lián)和重用。RDF構(gòu)建就是機(jī)構(gòu)知識(shí)庫(kù)數(shù)據(jù)集內(nèi)部與外部創(chuàng)建各種類型的語(yǔ)義鏈接,RDF維護(hù)就是對(duì)已經(jīng)構(gòu)建的RDF鏈接進(jìn)行修改和刪除操作,保證數(shù)據(jù)的準(zhǔn)確性,構(gòu)建和維護(hù)RDF鏈接可以是人工或自動(dòng)來進(jìn)行。
關(guān)聯(lián)數(shù)據(jù)實(shí)現(xiàn)了Web上存儲(chǔ)資源、通信資源、軟件資源、知識(shí)資源等資源的鏈接和連通[18],其在國(guó)防科研機(jī)構(gòu)知識(shí)庫(kù)上的應(yīng)用為用戶提供了新的服務(wù)模式。主要表現(xiàn)如下。
1) 資源檢索和發(fā)現(xiàn)
傳統(tǒng)的機(jī)構(gòu)知識(shí)庫(kù)在資源檢索方面存在一些不足,如不同形式的作者、不同機(jī)構(gòu)或部門的檢全率不高、檢索結(jié)果無(wú)法進(jìn)行語(yǔ)義擴(kuò)展等?;陉P(guān)聯(lián)數(shù)據(jù)技術(shù)的國(guó)防科研機(jī)構(gòu)知識(shí)庫(kù)采用規(guī)范文檔和詞表提供擴(kuò)展檢索服務(wù),如同義詞擴(kuò)展檢索、上下位詞擴(kuò)展檢索、語(yǔ)義擴(kuò)展檢索等,有效地解決了上述不足。
傳統(tǒng)的機(jī)構(gòu)知識(shí)庫(kù)在信息的創(chuàng)建、管理、傳遞和共享方面也存在明顯不足,基于關(guān)聯(lián)數(shù)據(jù)技術(shù)的國(guó)防科研機(jī)構(gòu)知識(shí)庫(kù)則提供了資源的發(fā)現(xiàn)和導(dǎo)航服務(wù)。關(guān)聯(lián)數(shù)據(jù)豐富了機(jī)構(gòu)知識(shí)庫(kù)現(xiàn)有元數(shù)據(jù),并擴(kuò)展到外部關(guān)聯(lián)數(shù)據(jù)源,提供了外部相關(guān)資源的關(guān)聯(lián)訪問,加強(qiáng)了國(guó)防科研機(jī)構(gòu)知識(shí)庫(kù)與其他相關(guān)資源的鏈接。
2) 資源集成與共享
傳統(tǒng)的機(jī)構(gòu)知識(shí)庫(kù)跨機(jī)構(gòu)合作和共享數(shù)據(jù)能力弱,基于關(guān)聯(lián)數(shù)據(jù)技術(shù)的機(jī)構(gòu)知識(shí)庫(kù)以LOD中機(jī)構(gòu)知識(shí)庫(kù)關(guān)聯(lián)數(shù)據(jù)集為基礎(chǔ),利用RDF鏈接構(gòu)建了機(jī)構(gòu)知識(shí)庫(kù)共享數(shù)據(jù)網(wǎng)絡(luò),提供了更強(qiáng)的跨機(jī)構(gòu)合作和資源共享能力,也為第三方提供了便利的底層數(shù)據(jù)存取方式。 即只要某機(jī)構(gòu)知識(shí)庫(kù)創(chuàng)建了關(guān)聯(lián)數(shù)據(jù)集并發(fā)布至LOD中,便可共享LOD中其他機(jī)構(gòu)知識(shí)庫(kù)的關(guān)聯(lián)數(shù)據(jù),同時(shí)第三方也可方便地存取該關(guān)聯(lián)數(shù)據(jù)。
3) 知識(shí)處理和挖掘
關(guān)聯(lián)數(shù)據(jù)與生俱來的關(guān)聯(lián)特性使得關(guān)聯(lián)數(shù)據(jù)自出現(xiàn)起就與知識(shí)組織、知識(shí)處理等方面有著密不可分的關(guān)系。關(guān)聯(lián)數(shù)據(jù)為機(jī)構(gòu)知識(shí)庫(kù)中的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行了語(yǔ)義標(biāo)注,也使基于關(guān)聯(lián)數(shù)據(jù)技術(shù)的國(guó)防科研機(jī)構(gòu)知識(shí)庫(kù)變得適合進(jìn)行數(shù)據(jù)挖掘。
1) 關(guān)聯(lián)數(shù)據(jù)的應(yīng)用有助于解決國(guó)防科研機(jī)構(gòu)知識(shí)庫(kù)的“信息孤島”和資源浪費(fèi)問題。發(fā)布于LOD云中的機(jī)構(gòu)知識(shí)庫(kù)可以與其他資源建立關(guān)聯(lián),成為數(shù)據(jù)網(wǎng)絡(luò)的一份子。
2) 本文依據(jù)關(guān)聯(lián)數(shù)據(jù)的四項(xiàng)基本原則構(gòu)建了基于關(guān)聯(lián)數(shù)據(jù)技術(shù)的國(guó)防科研機(jī)構(gòu)知識(shí)庫(kù)的應(yīng)用框架和基本框架,能夠利用關(guān)聯(lián)數(shù)據(jù)的資源發(fā)現(xiàn)機(jī)制,通過機(jī)構(gòu)知識(shí)庫(kù)關(guān)聯(lián)數(shù)據(jù)詞匯集的創(chuàng)建、關(guān)聯(lián)數(shù)據(jù)集的發(fā)布和數(shù)據(jù)網(wǎng)絡(luò)的構(gòu)建等系列操作,實(shí)現(xiàn)國(guó)防科研機(jī)構(gòu)知識(shí)庫(kù)數(shù)據(jù)資源的資源集成與開放共享。
3) 期望通過本文的研究對(duì)我國(guó)國(guó)防科研機(jī)構(gòu)知識(shí)庫(kù)的建設(shè)和服務(wù)提供參考與借鑒。本文所設(shè)計(jì)的應(yīng)用框架和系統(tǒng)結(jié)構(gòu)可能還存在需要完善的地方,另外對(duì)于服務(wù)模式尤其是知識(shí)挖掘部分也未進(jìn)行詳細(xì)的探討。這兩個(gè)方面都將是后續(xù)研究的重點(diǎn)。