程 婭
(武漢軟件工程職業(yè)學(xué)院,湖北 武漢 430205)
數(shù)字檔案資源的日漸豐富在一定程度上保證了數(shù)據(jù)的多樣性,同時(shí)也阻礙了資源的組織與共享。為了優(yōu)化數(shù)字檔案資源的組織方式,相關(guān)專家已從多方面提出了資源整合的方法。關(guān)聯(lián)數(shù)據(jù)作為實(shí)現(xiàn)語義互聯(lián)的關(guān)鍵技術(shù)之一,不僅能實(shí)現(xiàn)同一領(lǐng)域的知識(shí)互聯(lián),也可以實(shí)現(xiàn)跨領(lǐng)域的知識(shí)互聯(lián),從而達(dá)到數(shù)據(jù)孤島向互聯(lián)數(shù)據(jù)空間的轉(zhuǎn)變。
推進(jìn)檔案資源語義互聯(lián),可以實(shí)現(xiàn)數(shù)字檔案資源系統(tǒng)與其他信息系統(tǒng)在語義層面進(jìn)行整合,形成一個(gè)機(jī)器理解的語義檔案資源共享網(wǎng)絡(luò)。目前解決數(shù)字資源語義層面的互聯(lián)問題主要有四種方法,分別是基于頂層本體的語義互聯(lián)方法、基于橋本體的語義互聯(lián)方法、基于知識(shí)地圖的語義互聯(lián)方法和基于關(guān)聯(lián)數(shù)據(jù)的語義互聯(lián)方法。
頂層本體為領(lǐng)域本體提供統(tǒng)一的語義互聯(lián)術(shù)語和定義,可以實(shí)現(xiàn)全局本體與局部本體之間的映射。橋本體通過定義各種橋關(guān)系完成不同領(lǐng)域本體之間的概念關(guān)系映射,形成領(lǐng)域內(nèi)的共享本體。知識(shí)地圖通過知識(shí)鏈接實(shí)現(xiàn)知識(shí)之間的關(guān)聯(lián)。關(guān)聯(lián)數(shù)據(jù)采用RDF三元組的形式描述資源,語義網(wǎng)通過這種模式將Web上的數(shù)據(jù)鏈接起來,形成一個(gè)語義互聯(lián)的網(wǎng)絡(luò)。
通過分析四種語義互聯(lián)方法后發(fā)現(xiàn):頂層本體雖然可以實(shí)現(xiàn)全局本體與局部本體之間的映射,但要構(gòu)建一個(gè)涵蓋某領(lǐng)域所有知識(shí)的頂層本體并不實(shí)際。橋本體可以通過簡(jiǎn)單定義語義互聯(lián)關(guān)系實(shí)現(xiàn)資源的語義互聯(lián),但實(shí)驗(yàn)表明橋本體概念間的語義關(guān)系很難形式化表達(dá)。知識(shí)地圖受限于現(xiàn)有的數(shù)據(jù)推理與挖掘技術(shù),難以挖掘潛在知識(shí)和隱性知識(shí)。關(guān)聯(lián)數(shù)據(jù)因其完善的鏈接機(jī)制,不僅能對(duì)網(wǎng)上不同領(lǐng)域的數(shù)據(jù)資源進(jìn)行互聯(lián),還支持用戶在網(wǎng)絡(luò)上的信息查詢與資源共享。因此本文選擇關(guān)聯(lián)數(shù)據(jù)技術(shù)實(shí)現(xiàn)數(shù)字檔案資源的語義互聯(lián)。
關(guān)聯(lián)數(shù)據(jù)使用URI標(biāo)識(shí)Web上的各類資源,利用RDF模式描述并鏈接各種數(shù)據(jù),并通過HTTP URI命名資源空間?;陉P(guān)聯(lián)數(shù)據(jù)的數(shù)字檔案資源互聯(lián)模型使資源都有唯一的標(biāo)識(shí)和相關(guān)的資源鏈接,方便用戶快速準(zhǔn)確的獲取所需資源。該模型有六個(gè)層次,如圖1所示,下面將具體闡述各層次的主要功能。
圖1 基于關(guān)聯(lián)數(shù)據(jù)的檔案館數(shù)字資源語義互聯(lián)模型
隨著檔案信息化工作的深入,各檔案工作部門形成了諸多檔案管理系統(tǒng)和各種特色檔案數(shù)據(jù)庫(kù),構(gòu)成了數(shù)字檔案資源語義互聯(lián)的數(shù)據(jù)基礎(chǔ),主要包括文本檔案、音視頻檔案、XML檔案和檔案元數(shù)據(jù)等數(shù)字資源。
標(biāo)識(shí)層需要兩種技術(shù)支撐:Unicode和URI。Unicode以一種抽象的字符方式來處理資源,最多可容納1114112個(gè)字符。URI用于標(biāo)識(shí)某一數(shù)字資源名稱的字符串。檔案工作部門形成的各類數(shù)字資源都可以由唯一的URI進(jìn)行定位,從而確保數(shù)據(jù)的一致性和準(zhǔn)確性。
描述層主要利用本體技術(shù)對(duì)實(shí)體對(duì)象進(jìn)行注釋。該過程采用RDF描述資源,以XML語法結(jié)構(gòu)組織信息,將元數(shù)據(jù)轉(zhuǎn)換成具有語義的RDF格式,實(shí)現(xiàn)不同元數(shù)據(jù)的語義化描述和語義化互操作。
本體層在檔案資源語義互聯(lián)中尤其重要,它以XML與RDF技術(shù)為支撐,先通過RDF定義數(shù)字檔案資源,再用本體定義語義關(guān)系。本體構(gòu)建作為本體層的主要任務(wù),需要領(lǐng)域?qū)<液陀?jì)算機(jī)專家在本體構(gòu)建原則的指導(dǎo)下,通過便捷的本體開發(fā)工具加以實(shí)現(xiàn)。
由于本體層的實(shí)體對(duì)象特別是實(shí)例對(duì)象數(shù)量龐大,加之實(shí)體對(duì)象之間的關(guān)系復(fù)雜多變,可能會(huì)忽視對(duì)某些實(shí)體及其關(guān)系的描述,需要對(duì)本體進(jìn)一步操作,完善數(shù)據(jù)之間的邏輯關(guān)系。該層主要是實(shí)現(xiàn)對(duì)本體的語義推理與語義映射。
將檔案元數(shù)據(jù)本體發(fā)布到Web中,并提供對(duì)其開放的瀏覽與查詢,是應(yīng)用層的主要任務(wù)。檔案工作者在構(gòu)建與發(fā)布關(guān)聯(lián)數(shù)據(jù)時(shí),應(yīng)針對(duì)數(shù)字檔案資源的特點(diǎn)與實(shí)際需求,通過RDF數(shù)據(jù)模式實(shí)現(xiàn)數(shù)字檔案資源的最優(yōu)化發(fā)布。
RDF作為一種元數(shù)據(jù)描述方法,可以表達(dá)Web上的任何事物。對(duì)檔案部門而言,各種獨(dú)立的資源通過RDF鏈接后,可以形成一個(gè)全面系統(tǒng)的知識(shí)網(wǎng)絡(luò)。圖2為RDF元數(shù)據(jù)的構(gòu)建實(shí)例,描述了一個(gè)包括檔案學(xué)理論、檔案術(shù)語學(xué)、檔案法規(guī)學(xué)和比較檔案學(xué)的基礎(chǔ)理論。RDF元數(shù)據(jù)在不斷收集與標(biāo)識(shí)過程中構(gòu)建資源間的語義關(guān)系,實(shí)現(xiàn)整個(gè)檔案館數(shù)字資源的整合。
圖2 基礎(chǔ)理論RDF元數(shù)據(jù)構(gòu)建實(shí)例
本體構(gòu)建是本體技術(shù)的基礎(chǔ),需要各領(lǐng)域?qū)<易裱欢ǖ臉?gòu)建原則,采用合適的技術(shù)與工具加以實(shí)現(xiàn)。Protégé作為一種本體編輯和知識(shí)獲取工具,是當(dāng)前使用最廣泛的本體編輯工具之一。本文基于對(duì)檔案學(xué)學(xué)科結(jié)構(gòu)的梳理,在檔案領(lǐng)域?qū)n案學(xué)元數(shù)據(jù)本體進(jìn)行定義。在檔案學(xué)元數(shù)據(jù)本體構(gòu)建過程中,將其分為三大類:檔案學(xué)、檔案和代表人物,具體細(xì)分方法見表1。在使用Protégé構(gòu)建本體時(shí),依據(jù)表1的細(xì)化分類,可以獲得檔案學(xué)元數(shù)據(jù)本體的類層級(jí)圖,如圖3所示。
表1 檔案學(xué)元數(shù)據(jù)本體類表
數(shù)字檔案資源語義互聯(lián)的目的是為用戶提供更好的服務(wù),將關(guān)聯(lián)數(shù)據(jù)應(yīng)用于數(shù)字檔案資源知識(shí)組織時(shí),可以建立科學(xué)高效的知識(shí)組織與服務(wù)體系,推動(dòng)檔案行業(yè)向數(shù)字化、網(wǎng)絡(luò)化、開放化轉(zhuǎn)變,給檔案工作帶來全新的發(fā)展機(jī)遇。
圖3 檔案館學(xué)元數(shù)據(jù)本體類層級(jí)圖