李振超
摘要:該文介紹了當(dāng)前萬維網(wǎng)存在的主要問題,從問題出發(fā),引入了語(yǔ)義Web的概念,并對(duì)語(yǔ)義Web的體系結(jié)構(gòu)及其發(fā)展進(jìn)行了闡述,同時(shí)對(duì)當(dāng)前基于語(yǔ)義Web的本體技術(shù)重點(diǎn)進(jìn)行了研究分析。
關(guān)鍵詞:語(yǔ)義Web;描述邏輯;本體
中圖分類號(hào):TP393文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2012)23-5563-02
Semantic Web Technology Development and Research on Semantic Web-based Ontology Technology
LI Zhen-chao
(Guangdong Womens Polytechnic College, Guangzhou 511450, China)
Abstract: This article describes the main problems in the current World Wide Web, issues and away from the introduction of the concept of the Semantic Web and Semantic Web architecture and describes its development, at the same time, studies and analyses the focus on the current Semantic Web-based ontology technology .
Key words: Semantic Web; description logic; ontology
1萬維網(wǎng)現(xiàn)狀及存在的問題
1989年在歐洲的一個(gè)國(guó)際核能研究院中,Tim Berners-lee提出了一份關(guān)于信息管理的研究計(jì)劃,該計(jì)劃將超文本技術(shù)應(yīng)用到計(jì)算機(jī)網(wǎng)絡(luò)之中,促成了萬維網(wǎng)(WWW或Web)的誕生[1]。萬維網(wǎng)誕生之后,得到了迅速的發(fā)展,并在人們的日常生活中發(fā)揮著越來越重要的作用。
萬維網(wǎng)是一個(gè)巨大的信息資源庫(kù),幾乎包含了任何領(lǐng)域的文檔和媒體資源,并且允許用戶通過搜索引擎對(duì)數(shù)據(jù)進(jìn)行查找和訪問。但是,在實(shí)際的應(yīng)用中,對(duì)萬維網(wǎng)上進(jìn)行信息查詢還存在很多問題[2]:
(1)高匹配、低精度。在搜索主要相關(guān)頁(yè)面的同時(shí),還會(huì)搜到28758個(gè)低相關(guān)或不相關(guān)的頁(yè)面,檢索效果非常差。
(2)低匹配或無匹配。搜索到的結(jié)果漏掉了一些重要的相關(guān)頁(yè)面,或者搜索不到任何有用的結(jié)果。
(3)檢索結(jié)果對(duì)詞匯高度敏感。在使用最初填寫的關(guān)鍵詞進(jìn)行搜索時(shí),不能得到想要的結(jié)果,只能得到相似的結(jié)果,因?yàn)橄嚓P(guān)的文檔里可能使用了與檢索關(guān)鍵詞不一樣的術(shù)語(yǔ)。
(4)檢索結(jié)果是單一的網(wǎng)頁(yè)。假如需要的信息分布在不同的文檔中,則需要用多個(gè)查詢來收集相關(guān)的頁(yè)面,再對(duì)這些頁(yè)面中的相關(guān)信息進(jìn)行提取后組織成一個(gè)整體。
(5)搜索結(jié)果與其它軟件處理的兼容性差。即使搜索到了需要的頁(yè)面,但由于其他軟件對(duì)現(xiàn)有網(wǎng)絡(luò)搜索的結(jié)果不容易進(jìn)一步處理,對(duì)極其耗時(shí)的信息檢索本身來說,搜索引擎并不能提供太多的支持,可以說搜索引擎的應(yīng)用往往是孤立的。
2語(yǔ)義Web的提出
以上問題的原因在于目前的萬維網(wǎng)是面向人而不是面向機(jī)器,人可以理解萬維網(wǎng)上Web頁(yè)面的內(nèi)容,但機(jī)器卻只能對(duì)Web頁(yè)面進(jìn)行簡(jiǎn)單的顯示,不能真正理解內(nèi)容的含義,也就不能對(duì)其進(jìn)行自動(dòng)處理。這使得萬維網(wǎng)上的一些應(yīng)用(如智能Agent、信息檢索、電子商務(wù)等)無法真正實(shí)現(xiàn)智能化和自動(dòng)化[1]。
為了使計(jì)算機(jī)能夠理解和處理網(wǎng)頁(yè)內(nèi)容,迅速準(zhǔn)確地從海量Web頁(yè)面中查找需要的內(nèi)容,Tim Berners-Lee于1998年首次提出了語(yǔ)義網(wǎng)的概念,并且于2000年在召開的XML2000會(huì)議上進(jìn)一步明確闡明了語(yǔ)義Web[3][4]。語(yǔ)義Web是對(duì)現(xiàn)有Web增加語(yǔ)義支持,是對(duì)現(xiàn)有萬維網(wǎng)的變革和延伸,目標(biāo)是使網(wǎng)絡(luò)中的信息都具有語(yǔ)義,并幫助計(jì)算機(jī)在一定程度上理解信息的含義,從而實(shí)現(xiàn)高效的信息共享和機(jī)器智能協(xié)同。簡(jiǎn)單地說,語(yǔ)義Web是以數(shù)據(jù)的內(nèi)容,即數(shù)據(jù)的語(yǔ)義為核心,用機(jī)器能夠理解和處理的方式鏈接起來的海量分布式數(shù)據(jù)庫(kù)[5]。因而語(yǔ)義Web研究的重點(diǎn)就是如何把信息知識(shí)表示成計(jì)算機(jī)能夠理解和處理的形式,使信息帶有語(yǔ)義。
3語(yǔ)義Web體系結(jié)構(gòu)
語(yǔ)義Web的實(shí)現(xiàn)是以現(xiàn)有的網(wǎng)絡(luò)環(huán)境為基礎(chǔ),通過對(duì)其增加協(xié)議層來逐步提供語(yǔ)義Web承諾的各項(xiàng)功能,換句話說,高層是在低層的基礎(chǔ)上對(duì)其進(jìn)行功能的擴(kuò)展。在語(yǔ)義Web中,低層到高層的擴(kuò)展,應(yīng)該遵循以下兩個(gè)原則[2]:
(1)向下可兼容性。位于高層的代理應(yīng)能理解和使用低層的相關(guān)信息。
(2)向上部分可理解性。位于低層的代理可以部分地使用高層的信息。
Tim Berners-Lee給出了語(yǔ)義Web體系結(jié)構(gòu)圖,如圖1所示[4][6]:
圖1語(yǔ)義Web的體系結(jié)構(gòu)
第一層:Unicode和URI層。該層是語(yǔ)義Web的基礎(chǔ),其它各層都是在本層的基礎(chǔ)上實(shí)現(xiàn)的。Unicode是一個(gè)字符集,它的功能是對(duì)Web中的資源進(jìn)行統(tǒng)一編碼,保證網(wǎng)絡(luò)用戶使用的字符集國(guó)際化、通用化,達(dá)到了構(gòu)建全球信息網(wǎng)絡(luò)的目的,并且在這個(gè)網(wǎng)絡(luò)中支持世界上所有的主要語(yǔ)言的混合,覆蓋不同語(yǔ)言的文字和的信息資源;URI的功能則是對(duì)Web資源進(jìn)行定位標(biāo)識(shí)。
第二層:XML+NS(名空間)+ XML模式層。該層主要功能是用來對(duì)數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容進(jìn)行表示。XML是一個(gè)精簡(jiǎn)的SGML(標(biāo)準(zhǔn)通用標(biāo)記語(yǔ)言),它既具有SGML的豐富功能,又兼?zhèn)銱TML的易用性能,同時(shí)還克服了HTML的缺陷,可以允許用戶在文檔中任意加入結(jié)構(gòu)信息,且無需說明結(jié)構(gòu)的含義,因而與HTML文檔相比,XML文檔更容易被機(jī)器解讀。NS由URI索引確定,可以避免因不同的應(yīng)用使用相同的字符描述不同的事物而衍生的問題。
第三層:RDF+ RDF模式層。該層主要作用是在Web中用元數(shù)據(jù)來描述資源及資源類型,實(shí)現(xiàn)機(jī)器可理解的信息互操作。RDF是一種描述萬維網(wǎng)上信息資源的描述語(yǔ)言,雖然稱之為“語(yǔ)言”,但實(shí)際上是一個(gè)由一系列陳述即“對(duì)象-屬性-值”三元組組成的數(shù)據(jù)模型,因而RDF的最終目的是建立一種可以供不同元數(shù)據(jù)標(biāo)準(zhǔn)共存的框架。它可以利用各種元數(shù)據(jù)的自身優(yōu)勢(shì),對(duì)Web中的數(shù)據(jù)進(jìn)行再利用或交換。
第四層:本體層。該層主要作用是在RDF的基礎(chǔ)上,通過嚴(yán)格的定義,對(duì)概念及其概念間的顯式或隱式的關(guān)系等應(yīng)用領(lǐng)域的知識(shí)資源進(jìn)行抽象描述,使其具有明確的含義,并實(shí)現(xiàn)對(duì)詞匯表的擴(kuò)展。
第五層:邏輯層。該層的主要作用是依據(jù)前面四層對(duì)資源以及資源之間的關(guān)系進(jìn)行邏輯上的推理,提供了推理規(guī)則的描述手段。
第六層:驗(yàn)證層。該層主要作用是運(yùn)用邏輯層提供的推理規(guī)則對(duì)邏輯陳述進(jìn)行推理驗(yàn)證,通過驗(yàn)證得出相應(yīng)的結(jié)論提供給用戶。
第七層:信任層。該層的主要作用是為用戶之間提供建立相互信任關(guān)系的保障。
在語(yǔ)義Web的七層結(jié)構(gòu)中,關(guān)鍵層是第二、三、四層,用來表示W(wǎng)eb信息的語(yǔ)義,它們是目前語(yǔ)義Web研究的熱點(diǎn)內(nèi)容。
4語(yǔ)義Web本體
從語(yǔ)義Web的定義可以看出,它是一個(gè)機(jī)器可理解的信息集合體。既然機(jī)器可以理解語(yǔ)義Web中的各種信息,那么機(jī)器也可以在理解的基礎(chǔ)上,對(duì)語(yǔ)義Web中的各種信息進(jìn)行推理,從而根據(jù)信息的相互關(guān)系推導(dǎo)出隱含在信息之間的隱性信息。這是傳統(tǒng)的萬維網(wǎng)無法完成的,因?yàn)閭鹘y(tǒng)的萬維網(wǎng)只能對(duì)信息進(jìn)行存取和簡(jiǎn)單的對(duì)比。
為了讓計(jì)算機(jī)能夠自動(dòng)理解語(yǔ)義Web上的信息,主要任務(wù)就是要解決語(yǔ)義Web中信息的語(yǔ)義表達(dá)。為實(shí)現(xiàn)信息的分類并實(shí)現(xiàn)信息之間相互關(guān)系的語(yǔ)義表達(dá),人們引入了“本體”[6]的概念。本體就是用規(guī)范化的精確定義來表達(dá)概念及概念之間的關(guān)系,它反映了事物或現(xiàn)象的抽象本質(zhì)并對(duì)其建立抽象模型。因?yàn)楸倔w所具有知識(shí)表示和描述的能力,所以人們可以通過本體用統(tǒng)一標(biāo)準(zhǔn)實(shí)現(xiàn)資源的表示,從而產(chǎn)生機(jī)器能理解和處理的語(yǔ)義信息。本體作為語(yǔ)義信息的載體在語(yǔ)義Web中起著核心的作用,在語(yǔ)義Web中實(shí)現(xiàn)基于語(yǔ)義的互操作中起著關(guān)鍵作用,是解決語(yǔ)義層次上Web信息共享和交換的基礎(chǔ)。因此,本體推理成為語(yǔ)義Web研究的重點(diǎn)之一。
5本體描述語(yǔ)言的邏輯基礎(chǔ)——描述邏輯
描述邏輯是知識(shí)表示體系族中的一員,近年來得到廣泛的研究應(yīng)用。描述邏輯對(duì)應(yīng)用領(lǐng)域中的相關(guān)知識(shí)進(jìn)行表示的過程實(shí)質(zhì)上就是對(duì)應(yīng)用領(lǐng)域中的概念進(jìn)行定義的過程,換句話說就是通過定義最基本的概念來實(shí)現(xiàn)領(lǐng)域個(gè)體及其性質(zhì)的描述[7]。描述邏輯語(yǔ)言的基本特點(diǎn)就是它具有形式的、基于邏輯的語(yǔ)義,并且能夠提供推理服務(wù),通過推理我們可以由知識(shí)庫(kù)中的外層知識(shí)得到其內(nèi)部的蘊(yùn)含知識(shí),即可以由顯性知識(shí)推出隱性知識(shí)。
語(yǔ)義Web中本體的使用需要一種適合設(shè)計(jì)、方便定義并能與Web相容的本體語(yǔ)言。由于描述邏輯(DL)在語(yǔ)義、可判定性以及面向?qū)ο蟮姆诸惐硎镜确矫婢哂凶陨淼膬?yōu)點(diǎn),所以一般的本體描述語(yǔ)言可以建立在描述邏輯的基礎(chǔ)之上[8],因此Franz Badder和Ian Horrocks等人提出在語(yǔ)義Web中引入描述邏輯,并將其作為本體描述語(yǔ)言進(jìn)行了廣泛應(yīng)用。描述邏輯推理也因此逐漸成為語(yǔ)義Web中研究的熱點(diǎn),目前,越來越多的本體采用基DL的本體語(yǔ)言,W3C組織在2004年提出了國(guó)際通用的標(biāo)準(zhǔn)本體描述語(yǔ)言O(shè)WL-DL。這樣,本體既能對(duì)領(lǐng)域知識(shí)進(jìn)行合理的表達(dá),形成領(lǐng)域本體,又能利用DL的推理服務(wù)支持有效的推理。
6語(yǔ)義Web技術(shù)研究的重點(diǎn)內(nèi)容
語(yǔ)義Web的基本思想是借助元數(shù)據(jù)語(yǔ)言對(duì)Web信息資源中的內(nèi)容進(jìn)行描述,使其具有語(yǔ)義,達(dá)到讓計(jì)算機(jī)利用這些語(yǔ)義信息對(duì)信息資源的內(nèi)容進(jìn)行理解和處理的目的。因而對(duì)本體進(jìn)行推理并獲取其中隱性信息成為語(yǔ)義Web技術(shù)中研究的熱點(diǎn)內(nèi)容。
目前語(yǔ)義Web中的本體推理機(jī)制主要是基于描述邏輯的,其完成的主要推理任務(wù)有:可滿足性檢測(cè),包含關(guān)系檢測(cè)(也即層次化或分類推理),ABox的一致性檢測(cè)以及實(shí)例檢測(cè)等等。
知識(shí)庫(kù)中的術(shù)語(yǔ)(概念)集合一般具有分層結(jié)構(gòu),但概念的分類信息往往是不完整的,并且含有大量的隱藏知識(shí),這就需要利用推理對(duì)其重新計(jì)算,從而將知識(shí)庫(kù)中的概念進(jìn)行進(jìn)一步的分類(層次化)。因此概念的分類是本體推理中的一個(gè)重要任務(wù),也是語(yǔ)義Web技術(shù)研究的熱點(diǎn)內(nèi)容。
在實(shí)際的知識(shí)表示過程中,我們總希望知識(shí)表示系統(tǒng)能在合理有限的時(shí)間內(nèi)對(duì)查詢問題作出答復(fù),所以,有效推理的過程(決策過程)也是語(yǔ)義Web研究的主要熱點(diǎn)之一。推理問題的確定度和時(shí)間復(fù)雜度是由描述邏輯的表達(dá)能力的好壞決定的,如何對(duì)描述邏輯的推理算法進(jìn)行優(yōu)化,提高推理效率,并在其表達(dá)能力和推理問題的復(fù)雜性上得出一種更合理的折衷方案,是語(yǔ)義Web研究的最重要的熱點(diǎn)內(nèi)容。
參考文獻(xiàn):
[1] BERNERS-LEE T,HENDLER J,LASSILA O.The Semantic Web [J].Scientific American, 2001,284(5): 34-43.
[2] ANTONIO G,HARMELEN F V,陳小平.語(yǔ)義網(wǎng)基礎(chǔ)教程[M].北京:機(jī)械工業(yè)出版社, 2008:1-2.
[3] BERNERS-LEE T.The Semantic Web[J]. Scienfic American,2001(6): 1-6.
[4] BERNERS-LEE T.Semantic Web-XML2000[EB/OL].(2000-12-06) [2008-10-11]. http://www.w3.org/2000/Talks/1206-xml2k-tbl/ slide10-0.html.
[5]金海,袁平鵬.語(yǔ)義網(wǎng)數(shù)據(jù)管理技術(shù)及應(yīng)用[M].北京:科學(xué)出版社, 2010.
[6]劉華.基于語(yǔ)義網(wǎng)格的本體分割算法的研究與實(shí)現(xiàn)[D].沈陽(yáng):沈陽(yáng)工業(yè)大學(xué), 2007:13-14.
[7]魏榴花.基于描述邏輯的語(yǔ)義Web本體研究[D].揚(yáng)州:揚(yáng)州大學(xué), 2008:21-26.
[8]蔣運(yùn)承,湯庸,王駒,周生明.面向語(yǔ)義Web的描述邏輯[J].模式識(shí)別與人工智能, 2007, 20(1): 49.