周義剛,姜 贏
(1.北京大學(xué)圖書館;2.北京師范大學(xué)珠海分校管理學(xué)院)
動(dòng)態(tài)知識(shí)指的是隨時(shí)間或情境(Condition/Situation)的延續(xù)或變化,用于揭示知識(shí)內(nèi)涵的特征屬性的狀態(tài),以及這些特征屬性之間的關(guān)系都會(huì)隨之演化的知識(shí)。[1]
各個(gè)領(lǐng)域中都存在動(dòng)態(tài)知識(shí),如在數(shù)字圖書館古籍編目整理領(lǐng)域,古籍版本項(xiàng)是基礎(chǔ)q且重要的信息之一。對(duì)于中國古代雕版刻書,因書版可以長期保存,出現(xiàn)了書版不斷流傳及流傳過程中多次刷印的現(xiàn)象,在這個(gè)過程中,書版所有者經(jīng)常在原有書版的基礎(chǔ)上進(jìn)行挖改、修補(bǔ)或增加,形成了不同版、不同印次中包含類似于版本變化的復(fù)雜變化信息。[2]同一種書隨著時(shí)間的變化,版本和印次也會(huì)發(fā)生變化,這屬于動(dòng)態(tài)知識(shí)。又如在法律領(lǐng)域,法律條文也是動(dòng)態(tài)變化的:有些早期制定的法律經(jīng)過一段時(shí)間后,已不能順應(yīng)當(dāng)前社會(huì)發(fā)展,需要廢止或修訂;再如,由于行政管理體制改革,法律規(guī)定的主管部門的稱謂已發(fā)生變化,導(dǎo)致一些法律法規(guī)需要進(jìn)行修改,這也是一種動(dòng)態(tài)知識(shí)。另外,在中華史籍領(lǐng)域,某個(gè)歷史人物在不同時(shí)期其配偶、子女、職官等屬性是變化的,這也是本文所指的動(dòng)態(tài)知識(shí)。
實(shí)際上,在醫(yī)學(xué)領(lǐng)域、生命科學(xué)領(lǐng)域、數(shù)字圖書館領(lǐng)域、歷史研究領(lǐng)域等都有大量的動(dòng)態(tài)知識(shí),可以說動(dòng)態(tài)知識(shí)存在于方方面面,如何有效地組織這些動(dòng)態(tài)知識(shí)是當(dāng)前亟待解決的一個(gè)重要課題。
本體在知識(shí)組織方面有一定的優(yōu)勢,它能更準(zhǔn)確、規(guī)范地對(duì)概念及概念間的關(guān)系進(jìn)行描述,從而構(gòu)造出更為豐富的語義關(guān)系。同時(shí),本體有很強(qiáng)的形式化能力、知識(shí)推理能力,能夠通過推理機(jī)制推論出概念間的隱含關(guān)系,可以有效提升知識(shí)檢索中的查準(zhǔn)率和查全率以及知識(shí)的重用和共享。但是,本體僅能解決靜態(tài)知識(shí)和相對(duì)知識(shí)的組織問題,對(duì)于動(dòng)態(tài)知識(shí)和相對(duì)知識(shí)無法用描述邏輯直接描述,原因主要有兩個(gè)方面[3]:一是本體在語義網(wǎng)體系結(jié)構(gòu)中的層次功能定位,本體層在語義網(wǎng)中主要是解決語義問題與知識(shí)的描述問題,而其他關(guān)于邏輯和信任的問題都交給本體層的上層來解決;二是語義網(wǎng)本體RDF/OWL在設(shè)計(jì)上的問題,RDF是基于主、謂、賓這樣的三元組的描述,[4]而OWL是基于RDF之上的擴(kuò)展。[5]雖然數(shù)據(jù)結(jié)構(gòu)簡單清晰,易于使用和理解,但卻不能勝任更為復(fù)雜的動(dòng)態(tài)知識(shí)描述。
本體分子是指在本體基本元素(三元組、本體實(shí)例)基礎(chǔ)之上,用唯一標(biāo)識(shí)符標(biāo)注的、根據(jù)語用或者語義劃分的、無缺失的、最小冗余的本體知識(shí)單元。本體分子是在本體基本元素和本體庫之間的一個(gè)平衡點(diǎn),它使得相對(duì)粗粒度知識(shí)管理成為可能。[6]本體分子是在本體的基礎(chǔ)之上,結(jié)合描述邏輯、圖論等相關(guān)理論,用于解決動(dòng)態(tài)知識(shí)及相對(duì)知識(shí)組織管理和控制的理論。本體分子不能脫離本體單獨(dú)存在,本體分子只是本體理論的擴(kuò)展與深化。
本體分子理論是用來解決動(dòng)態(tài)知識(shí)管理問題的新理論,其理論內(nèi)涵正在不斷完善和發(fā)展。關(guān)于本體分子理論已經(jīng)有了明確的定義、特征、形式化描述及結(jié)構(gòu)分析圖,但是還缺少該理論引入的一系列用于反映本體分子基本數(shù)據(jù)結(jié)構(gòu)的抽象語義概念的定義及概念間關(guān)系的描述。在本體分子中的數(shù)據(jù)結(jié)構(gòu)是通過一系列的抽象概念及概念間的關(guān)系來定義,這些抽象概念包括維度(Dimension)、維度容器(Dimension Container)、本體分子的核(Core Graph)、本體分子的外圍(Outer Graph)、本體分子(Ontology Molecule)和本體分子圖(Dgraph)。概念間的關(guān)系如圖1所示。
圖1 本體分子中的基本概念的關(guān)系圖
(1)本體分子中的維度(Dimension)是在知識(shí)本質(zhì)不發(fā)生變化的前提下,用來衡量知識(shí)內(nèi)容隨之變化的角度。這些不同的角度分別對(duì)應(yīng)于各個(gè)維度類,在維度類中可定義具體的維度,如時(shí)間維、地點(diǎn)維,也可以是人物維、機(jī)構(gòu)維等。本體分子理論中通過維度來判斷知識(shí)的真實(shí)性,維度是描述知識(shí)成立條件的工具。只有當(dāng)查詢條件中的維度存在于修飾語句的維度之內(nèi)時(shí),該條語句才為真。
(2)維度容器(Dimension Container)是由來自多個(gè)不同維度類的維度組成的。本體分子中的維度容器是管理維度的對(duì)象。維度并不直接與本體分子、本體分子的核或本體分子的外圍發(fā)生關(guān)聯(lián),而是通過維度容器與本體分子中的其他對(duì)象發(fā)生聯(lián)系。這種設(shè)計(jì)的原因是因?yàn)橥ǔD硞€(gè)動(dòng)態(tài)知識(shí)成立的條件是處在一個(gè)多維環(huán)境下的,如某個(gè)事實(shí)是成立于特定的時(shí)間段和特定的地理范圍。維度容器中可能存在一個(gè)或多個(gè)維度,也可能不存在任何維度。在驗(yàn)證知識(shí)的正確性時(shí),需要逐個(gè)驗(yàn)證維度容器中的維度。動(dòng)態(tài)三元組是以維度容器形式描述的約束條件與三元組相結(jié)合而組成的,它是本體分子中的最小知識(shí)單元,表示的是在特定的維度容器下三元組為“真”的陳述。
(3)本體分子的核(Core Graph)是本體分子中的靜態(tài)知識(shí)部分,本體分子核中的知識(shí)存在于默認(rèn)維度容器下或存在某個(gè)特殊定義的維度容器下。定義在該維度容器下的知識(shí)在任何條件、任何維度下都為真。
(4)本體分子的外圍(Outer Graph)是本體分子中的動(dòng)態(tài)知識(shí)或相對(duì)知識(shí)部分。本體分子外圍中的知識(shí)成立于某個(gè)或某些特定的條件下。與本體分子的外圍關(guān)聯(lián)的維度對(duì)這個(gè)條件或多個(gè)條件進(jìn)行限定。本體分子的外圍和本體分子的核之間為函數(shù)對(duì)應(yīng)關(guān)系。單個(gè)本體分子的外圍只可能與某一個(gè)本體分子的核發(fā)生關(guān)聯(lián),但一個(gè)本體分子的核可能與多個(gè)本體分子的外圍相關(guān)聯(lián)。
一個(gè)本體分子由一個(gè)本體分子的核和一個(gè)本體分子的外圍組成。圖1中本體分子的核(Core Graph)與其中一個(gè)本體分子的外圍(Outer Graph1)組成一個(gè)本體分子(Ontology Molecule 1);圖2中,還是這個(gè)本體分子的核(Core Graph)與另外一個(gè)本體分子的外圍(Outer Graph2)組成另一個(gè)新的本體分子(Ontology Molecule 2),這兩個(gè)不同的本體分子都與同一個(gè)本體分子的核相關(guān)聯(lián),都有自己的維度容器。
圖2 本體分子中的基本概念的關(guān)系圖
實(shí)際上,一個(gè)核子可能有多個(gè)外圍,該核子和每個(gè)外圍都形成了一個(gè)本體分子,一個(gè)核子和若干個(gè)外圍組成了本體分子圖(Dgraph)。本體分子圖存在于某個(gè)特定的維度下,也擁有自己的維度容器。本體分子圖的維度取決于本體分子的外圍維度。
基于本體分子的動(dòng)態(tài)知識(shí)組織方案具備一些其他方案所不具備的優(yōu)勢。。
(1)更準(zhǔn)確的知識(shí)描述。本體分子技術(shù)具有更強(qiáng)的描述能力,能夠描述知識(shí)的不變部分即靜態(tài)知識(shí)和知識(shí)的可變部分即動(dòng)態(tài)知識(shí),從而擴(kuò)展了知識(shí)描述的范圍。本體分子技術(shù)要求對(duì)語句的成立范圍進(jìn)行進(jìn)一步驗(yàn)證,添加維度容器。在添加維度容器的過程中會(huì)對(duì)知識(shí)的正確性進(jìn)行校驗(yàn),從而提高知識(shí)描述的準(zhǔn)確性。
(2)更充分的知識(shí)揭示。本體分子不僅能夠揭示動(dòng)態(tài)知識(shí)演變的結(jié)果,還可以揭示出動(dòng)態(tài)知識(shí)演變的過程。
(3)更靈活高效的知識(shí)存儲(chǔ)。本體分子的設(shè)計(jì)在物理結(jié)構(gòu)上依然遵循OWL的規(guī)范,是在OWL規(guī)范的基礎(chǔ)上進(jìn)行擴(kuò)展,這種設(shè)計(jì)使得它對(duì)于其他任何應(yīng)用都是兼容的,在實(shí)際操作中,可以靈活選取適當(dāng)?shù)闹R(shí)存儲(chǔ)方案。另外,本體分子在知識(shí)表達(dá)時(shí),沒有引入新的類和屬性,不會(huì)產(chǎn)生冗余數(shù)據(jù),可以帶來高效的存儲(chǔ)。
在語義網(wǎng)發(fā)展初期,研究的主要集中于對(duì)互聯(lián)網(wǎng)資源進(jìn)行語義標(biāo)注,讓人們可以更方便地找到網(wǎng)絡(luò)資源??茖W(xué)家開發(fā)了一系列元數(shù)據(jù)描述語言用來描述網(wǎng)絡(luò)資源;之后,又制定了本體描述語言來進(jìn)一步細(xì)化語義分析,在此基礎(chǔ)上還開發(fā)了各種領(lǐng)域本體(Ontology)。近二十年來,在各個(gè)領(lǐng)域已經(jīng)積累了非常多的本體。雖然人們能夠按照自己的需求自由創(chuàng)建各自的本體,但在很多領(lǐng)域都有領(lǐng)域?qū)<規(guī)ьI(lǐng)他們的團(tuán)隊(duì)創(chuàng)建領(lǐng)域本體庫。根據(jù)自然淘汰的法則,在絕大多數(shù)領(lǐng)域只有被廣泛接受的本體最終才會(huì)被留下。由于大量的元數(shù)據(jù)和本體的存在,這本身就是巨大的知識(shí)資源,“Web of Data”的思想就是這么產(chǎn)生的,也就是通過結(jié)構(gòu)化的數(shù)據(jù)將龐大的網(wǎng)絡(luò)資源連在一起,從而構(gòu)成人類巨大的知識(shí)寶庫。[7]這些語義網(wǎng)中資源的組織主要表現(xiàn)在以RDF為描述語言,來描述關(guān)于Web資源的元數(shù)據(jù),以及以O(shè)WL為描述語言的各個(gè)特定領(lǐng)域本體,而并不十分關(guān)心知識(shí)資源本身的動(dòng)態(tài)變化。
本文所關(guān)注的是語義網(wǎng)中的動(dòng)態(tài)知識(shí)組織問題,這正是面向用戶服務(wù)的深度知識(shí)組織需要。而基于本體的知識(shí)組織模型并不能完全解決動(dòng)態(tài)知識(shí)問題,因此筆者提出了一個(gè)動(dòng)態(tài)知識(shí)組織模型,旨在將動(dòng)態(tài)知識(shí)整序并向用戶展示知識(shí)的動(dòng)態(tài)演變過程。在該模型中,知識(shí)分為靜態(tài)知識(shí)和動(dòng)態(tài)知識(shí),靜態(tài)知識(shí)的組織還是以本體為依托,而動(dòng)態(tài)知識(shí)的組織則依托于本體分子,本體分子可以很好地描述知識(shí)的不變部分和可變部分,可以很好地展示動(dòng)態(tài)知識(shí)的變化過程和變化結(jié)果。
筆者設(shè)計(jì)的基于本體分子的動(dòng)態(tài)知識(shí)組織模型分為知識(shí)源層、元數(shù)據(jù)層、靜態(tài)知識(shí)(本體)層、動(dòng)態(tài)知識(shí)層4個(gè)層次(見圖3)。其中,動(dòng)態(tài)知識(shí)層是本文關(guān)注的重點(diǎn)。
圖3 基于本體分子的動(dòng)態(tài)知識(shí)組織模型
(1)知識(shí)源層位于四層模型的底層。知識(shí)源層包括圖形、符號(hào)、文本、XML/HTML等半結(jié)構(gòu)化數(shù)據(jù)、關(guān)系數(shù)據(jù)庫/面向?qū)ο髷?shù)據(jù)庫等結(jié)構(gòu)化數(shù)據(jù)。在實(shí)際項(xiàng)目應(yīng)用中需要對(duì)知識(shí)源進(jìn)行處理,即根據(jù)特定領(lǐng)域知識(shí)源的特征,在領(lǐng)域?qū)<业闹笇?dǎo)下進(jìn)行元數(shù)據(jù)項(xiàng)的確定,并通過自然語言處理技術(shù),完成領(lǐng)域知識(shí)元數(shù)據(jù)的抽取工作,為下一層做準(zhǔn)備。當(dāng)然,元數(shù)據(jù)項(xiàng)的設(shè)置也是建立在對(duì)特定領(lǐng)域知識(shí)特征的反復(fù)分析之上。
(2)元數(shù)據(jù)層位于模型的第二層,元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù),語義網(wǎng)中用元數(shù)據(jù)來表述網(wǎng)絡(luò)資源的屬性,需要定義基本的描述元素,如標(biāo)題、作者、URI、日期、主題等,并給出相應(yīng)的語義。元數(shù)據(jù)能較為準(zhǔn)確地描述網(wǎng)絡(luò)資源,便于用戶發(fā)現(xiàn)所需要的資源,但無法進(jìn)一步發(fā)掘該資源內(nèi)所含的領(lǐng)域知識(shí);另外,雖然RDF和XML相結(jié)合,建立了描述層的語法環(huán)境與格式,能夠?qū)崿F(xiàn)網(wǎng)絡(luò)資源基于語義的描述,但還不能給數(shù)據(jù)賦予語義,即數(shù)據(jù)的含義和各種數(shù)據(jù)之間的聯(lián)系。[8]描述領(lǐng)域知識(shí)并賦之以語義正是本體層所要解決的問題??梢哉f,元數(shù)據(jù)層為本體層的知識(shí)組織奠定了基礎(chǔ)。
(3)靜態(tài)知識(shí)(本體)層位于模型的第三層,本體層用來解決領(lǐng)域知識(shí)的語義問題,包括知識(shí)表示和知識(shí)推理兩個(gè)部分。獲取知識(shí)后,就需要用本體描述語言來表示知識(shí)。當(dāng)前,萬維網(wǎng)聯(lián)盟(World Wide Web Consortium,W3C)推薦的本體描述語言包括RDF、RDFS、OWL,這些語言已廣泛被接受并成為標(biāo)準(zhǔn)。利用本體可以描述領(lǐng)域知識(shí),在基于本體的知識(shí)檢索系統(tǒng)中,可以方便地檢索到知識(shí)間的關(guān)聯(lián)關(guān)系;如果說知識(shí)表示是通過顯性的形式化描述來進(jìn)行知識(shí)組織,那么知識(shí)推理就可以說是在知識(shí)表示之上尋找一種推理機(jī)制,從而挖掘出更多的隱性知識(shí)。特別是可以通過定義推理規(guī)則來發(fā)現(xiàn)領(lǐng)域蘊(yùn)涵的隱性知識(shí),光是這一點(diǎn)就有非常重大的意義,它能夠在現(xiàn)實(shí)的本體庫基礎(chǔ)上構(gòu)建龐大的虛擬本體庫,通過本體推理規(guī)則的定義可以大大豐富知識(shí)的內(nèi)涵。而且基于本體的智能推理有其實(shí)現(xiàn)的可行性,并非空中樓閣,具體的推理方式可以根據(jù)實(shí)際系統(tǒng)的需要進(jìn)行配置??蛇x擇的推理方式有OWL推理、RDFS推理、傳遞推理、自定義規(guī)則推理、外部推理機(jī)制等。常見的具有推理功能的相關(guān)工具如Pellet、Jena、Racer、FACT等。
(4)動(dòng)態(tài)知識(shí)層位于模型的頂層,動(dòng)態(tài)知識(shí)是本文關(guān)注的重點(diǎn),同時(shí)也是知識(shí)組織的難點(diǎn)。對(duì)于動(dòng)態(tài)知識(shí)也有不同的理解,David Taniar等認(rèn)為,動(dòng)態(tài)知識(shí)發(fā)現(xiàn)是指分布式系統(tǒng)中的每一個(gè)節(jié)點(diǎn)在給定時(shí)刻、給定目標(biāo)集中查找那些最能滿足某種特定需求的信息資源的能力。[9]這是從形態(tài)和分布上理解動(dòng)態(tài)信息,而四層模型中的動(dòng)態(tài)知識(shí)和靜態(tài)知識(shí)是從內(nèi)容上對(duì)知識(shí)進(jìn)行的分類。另外,還需弄清楚基于本體分子的動(dòng)態(tài)知識(shí)層具體包含哪些內(nèi)容,筆者根據(jù)本體分子的理論內(nèi)涵以及具體的項(xiàng)目實(shí)踐,對(duì)動(dòng)態(tài)知識(shí)層的內(nèi)容進(jìn)行了歸納,主要包括動(dòng)態(tài)三元組、動(dòng)態(tài)三元組標(biāo)識(shí)符、本體分子所包含的抽象概念及其實(shí)例。
由圖3可知,模型的知識(shí)源層、元數(shù)據(jù)層、靜態(tài)知識(shí)層實(shí)際上是基于本體的靜態(tài)知識(shí)組織模型,該三層通過不同層面對(duì)知識(shí)進(jìn)行組織,在實(shí)際的應(yīng)用系統(tǒng)中可以同時(shí)使用,也可以根據(jù)需要有所側(cè)重,如本體層中的知識(shí)推理的部分可根據(jù)實(shí)際項(xiàng)目的需求,可指定強(qiáng)弱不同的推理規(guī)則。如果實(shí)際項(xiàng)目中涉及到動(dòng)態(tài)知識(shí)的組織問題,則第四層即動(dòng)態(tài)知識(shí)層是必不可少的。
從知識(shí)源到動(dòng)態(tài)知識(shí)庫,動(dòng)態(tài)知識(shí)組織主要經(jīng)過動(dòng)態(tài)知識(shí)獲取、維度抽取、動(dòng)態(tài)知識(shí)表示、動(dòng)態(tài)知識(shí)存儲(chǔ)等過程(見圖4)。
圖4 動(dòng)態(tài)知識(shí)組織過程
(1)動(dòng)態(tài)知識(shí)獲取。這里的知識(shí)獲取指的是從知識(shí)源到計(jì)算機(jī)可處理的知識(shí)轉(zhuǎn)換過程,即怎樣從各種知識(shí)源和領(lǐng)域?qū)<翌^腦中提取知識(shí),并采用一種恰當(dāng)?shù)闹R(shí)描述方法將知識(shí)轉(zhuǎn)移到計(jì)算機(jī)中。[10]該定義同樣可以用到動(dòng)態(tài)知識(shí)獲取中,動(dòng)態(tài)知識(shí)獲取就是要將特定領(lǐng)域內(nèi)未經(jīng)組織的各類動(dòng)態(tài)知識(shí)(顯性知識(shí))和存在于人腦的專家技能(隱性知識(shí))轉(zhuǎn)化為直接可復(fù)用、可檢索形式的知識(shí)。一直以來,我們主要依靠領(lǐng)域?qū)<液陀?jì)算機(jī)專家對(duì)話的形式來逐個(gè)挖掘出知識(shí)的動(dòng)態(tài)變化。隨著本體研究的深入,出現(xiàn)了一些較好的半自動(dòng)、自動(dòng)甚至智能化的知識(shí)獲取方法。需要說明的是,這些知識(shí)獲取方法是領(lǐng)域獨(dú)特的,不同領(lǐng)域根據(jù)自身知識(shí)特征選擇適當(dāng)?shù)淖匀徽Z言處理技術(shù)來獲取知識(shí)。
(2)維度抽取。動(dòng)態(tài)知識(shí)的特點(diǎn)就是知識(shí)并不是永遠(yuǎn)正確的,只是存在于一定的條件下。而本體分子中的維度(Dimension)是在知識(shí)本質(zhì)不發(fā)生變化的前提下,用來衡量知識(shí)內(nèi)容隨之變化的角度,通過維度來判斷知識(shí)的真實(shí)性,維度是描述知識(shí)成立條件的工具。如“北京大學(xué)校長是蔡元培”,這條語句并不是永遠(yuǎn)成立。影響到這條語句成立與否的關(guān)鍵變量是時(shí)間,時(shí)間就是這條語句的維度。只有加上時(shí)間維度的限定才可以保證該語句的正確性。本體分子維度的確定過程正是動(dòng)態(tài)知識(shí)和靜態(tài)知識(shí)的區(qū)分過程。如果任何維度下表達(dá)的知識(shí)三元組都是正確的,那么該三元組所表示的知識(shí)為靜態(tài)知識(shí)。關(guān)于維度抽取的方法,通常是在結(jié)合常用的維度(如地點(diǎn)維、人物維、時(shí)間維等)基礎(chǔ)上,由領(lǐng)域?qū)<腋鶕?jù)沖突語句人工確定。
(3)動(dòng)態(tài)知識(shí)表示。本體分子可以方便地描述知識(shí)的可變部分和知識(shí)的不變部分。本體分子的外圍知識(shí)的表示依然遵循OWL。在實(shí)際操作中就是為靜態(tài)知識(shí)添加相應(yīng)的維度,維度并不直接與本體分子、本體分子的核或本體分子的外圍發(fā)生關(guān)聯(lián),而是通過維度容器與本體分子中的其他對(duì)象發(fā)生聯(lián)系。因此,動(dòng)態(tài)知識(shí)的表示就是將動(dòng)態(tài)知識(shí)以及與之相關(guān)的維度類、維度容器用OWL語言表示出來。
(4)動(dòng)態(tài)知識(shí)存儲(chǔ)。本體分子的技術(shù)是以RDF/OWL為基礎(chǔ),是RDF/OWL在動(dòng)態(tài)知識(shí)描述上不足的技術(shù)擴(kuò)展。本體分子有自己的基本元素,如維度、維度容器等抽象的語義概念,這些抽象的語義概念是對(duì)RDF/OWL語義和結(jié)構(gòu)的擴(kuò)展。本體分子與RDF/OWL的這種關(guān)系需要在選擇本體分子存儲(chǔ)服務(wù)器時(shí),充分考慮到實(shí)際的技術(shù)實(shí)現(xiàn)方案,既要考慮到本體分子對(duì)RDF/OWL的依賴還要考慮到它對(duì)RDF/OWL的擴(kuò)展,既要考慮到存儲(chǔ)效率還要考慮到語義缺失及語義推理問題。由于基于內(nèi)存及文件的存儲(chǔ)方式均不適合大規(guī)模的數(shù)據(jù)存儲(chǔ),筆者推薦本體分子的數(shù)據(jù)庫存儲(chǔ)方式??赏ㄟ^Oracle關(guān)系數(shù)據(jù)存儲(chǔ)方式,也可以基于Allegro Graph RDFStore的圖數(shù)據(jù)庫存儲(chǔ)方式存儲(chǔ)。[11]
OWL是W3C推薦標(biāo)準(zhǔn)的基于描述邏輯的本體描述語言,具有強(qiáng)大的機(jī)器解釋能力和表達(dá)推理能力。本體分子采用OWL來描述其定義的抽象概念(即OWL類)以及這些概念間的關(guān)聯(lián)(即OWL屬性)。
OWL中的所有個(gè)體(Individual)都是類owl:Thing的成員。于是,用戶自定義的所有類都是owl:Thing的子類。如果需要定義某個(gè)領(lǐng)域的類,只需將它們聲明為一個(gè)具名類(Named Class)即可。通常情況下,我們還需描述類成員,一般來說類成員是一個(gè)個(gè)體,而不是屬性或另一個(gè)類。要引入一個(gè)OWL實(shí)例(Instance)或者OWL個(gè)體,只需將它們聲明為某個(gè)類的成員。
為了準(zhǔn)確地用OWL類來描述本體分子中的抽象語義概念,從而達(dá)到描述動(dòng)態(tài)知識(shí)的目的,我們首先需要認(rèn)真剖析這些概念特征,然后劃分出OWL類及其實(shí)例。表1是筆者為本體分子定義的OWL類及其含義。
表1 OWL類及其含義
根據(jù)以上定義,可以把地點(diǎn)維度類定義為“eg:LocationDimension”、把學(xué)科維度類定義為“eg:DisciplineDimension”,二者都是維度類的子類。如果要定義一個(gè)具體的維度,如一個(gè)具體的地點(diǎn)維度,可以用“eg:北京”表示,它是“eg:LocationDimension”的實(shí)例,表達(dá)的是“在北京”。
根據(jù)本體分子的定義,除了上表中定義的OWL類之外,還需要用一個(gè)唯一的標(biāo)識(shí)符來標(biāo)識(shí)本體分子,這個(gè)標(biāo)識(shí)符稱之為“動(dòng)態(tài)三元組ID”(以下簡稱dstatement-id)。動(dòng)態(tài)三元組ID不僅可以用來唯一識(shí)別一個(gè)動(dòng)態(tài)三元組,而且可以通過它來與其他三元組進(jìn)行關(guān)聯(lián),便于動(dòng)態(tài)三元組的引用。這個(gè)設(shè)計(jì)類似于關(guān)系數(shù)據(jù)庫中的主鍵,主鍵的值本身沒有什么意義,但可以通過主鍵來建立主鍵所在的表與存放在其它表中的數(shù)據(jù)的關(guān)聯(lián)。實(shí)際設(shè)計(jì)中,是通過dstatement-id來建立動(dòng)態(tài)三元組與本體分子圖、維度容器之間的關(guān)聯(lián)關(guān)系。由于RDF中沒有dstatement-id的知識(shí)描述方式,這也正是本體分子與RDF知識(shí)描述框架不兼容的地方。正如前文所述,本體分子與RDF/OWL是既依賴又?jǐn)U展的關(guān)系。因此,在實(shí)際項(xiàng)目中,選擇本體分子存儲(chǔ)服務(wù)器時(shí),既要考慮到本體分子對(duì)RDF/OWL的依賴還要考慮到它對(duì)RDF/OWL的擴(kuò)展,既要考慮到存儲(chǔ)效率還要考慮到語義缺失及語義推理問題。
OWL有兩種屬性:一是對(duì)象屬性(Object Property),是指將對(duì)象相互關(guān)聯(lián)的屬性;另一個(gè)是數(shù)據(jù)類型屬性(Datatype Property),是指將對(duì)象與數(shù)據(jù)類型值相關(guān)聯(lián)的屬性。[12]一個(gè)OWL屬性可以通過指定定義域(Domain)和值域(Range)來對(duì)二元關(guān)系進(jìn)行限定。
表2 OWL屬性定義
表2展示了本體分子的OWL屬性定義。由表2可知,維度容器和維度間的關(guān)聯(lián)關(guān)系是通過對(duì)象屬性“om:hasDimensions”來定義的,而本體分子圖與維度容器之間的關(guān)聯(lián)關(guān)系是通過對(duì)象屬性“om:hasDimensionContainer”來定義的。如前文所述,動(dòng)態(tài)三元組與維度容器之間的關(guān)聯(lián)關(guān)系是通過dstatement-id來建立,而dstatement-id是字符串或數(shù)字,不是OWL實(shí)例,因此通過數(shù)據(jù)類型屬性來建立它們之間的關(guān)系。同樣,我們也通過數(shù)據(jù)類型屬性建立了本體分子圖和動(dòng)態(tài)三元組間的關(guān)聯(lián)關(guān)系。
(1)維度容器,對(duì)應(yīng)于“om:DimensionContainer”類,設(shè)計(jì)這個(gè)類是考慮到動(dòng)態(tài)知識(shí)的復(fù)雜性,某個(gè)動(dòng)態(tài)知識(shí)的成立條件可能是與多個(gè)維度相關(guān),如某個(gè)知識(shí)的成立同時(shí)與時(shí)間維度和人物維度相關(guān),具體描述如下。
(2)本體分子,對(duì)應(yīng)于“om:Ontology Molecule”類。
(3)本體分子的核和本體分子的外圍的描述與“om:Dgraph”類相關(guān),在實(shí)際操作中,在“om:Dgraph”類下定義了2個(gè)實(shí)例“om:CoreGraph”和“om:Outer-Graph”,每個(gè)子類都是多個(gè)陳述語句的集合。
(4)Dgraph,是有關(guān)本體分子的核和1個(gè)或多個(gè)本體分子的外圍的陳述的集合,在上文本體分子的屬性描述中介紹了多個(gè)屬性都與之相關(guān),如“om:hasDstatements”定義了Dgraph與動(dòng)態(tài)三元組之間的關(guān)系,有關(guān)該概念的具體描述如下。
語義網(wǎng)環(huán)境下存在著大量的動(dòng)態(tài)知識(shí)。本文在分析了動(dòng)態(tài)知識(shí)的特征及本體在解決動(dòng)態(tài)知識(shí)組織問題時(shí)的不足后,闡述了本體分子理論的抽象概念及其之間的關(guān)聯(lián);構(gòu)建了本體分子動(dòng)態(tài)知識(shí)組織模型,并深入分析了動(dòng)態(tài)知識(shí)組織過程;最后,詳細(xì)地闡述了基于本體分子的動(dòng)態(tài)知識(shí)描述方法,創(chuàng)建了本體分子的OWL類和屬性,對(duì)本體分子的類屬含義及關(guān)系進(jìn)行了說明,同時(shí)利用所定義的本體分子類和屬性,對(duì)本體分子的相關(guān)概念及概念關(guān)系進(jìn)行了描述。今后的研究工作將包括利用該模型創(chuàng)建動(dòng)態(tài)知識(shí)庫以及通過構(gòu)建動(dòng)態(tài)知識(shí)檢索模型,解決動(dòng)態(tài)知識(shí)提供的問題。