• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      淺析語(yǔ)義Web在信息檢索中的研究與實(shí)現(xiàn)

      2010-09-05 00:53:36許紅梅
      關(guān)鍵詞:信息檢索布什應(yīng)用程序

      許紅梅

      (武漢職業(yè)技術(shù)學(xué)院電信學(xué)院,湖北武漢430074)

      淺析語(yǔ)義Web在信息檢索中的研究與實(shí)現(xiàn)

      許紅梅

      (武漢職業(yè)技術(shù)學(xué)院電信學(xué)院,湖北武漢430074)

      語(yǔ)義Web是未來(lái)web的發(fā)展方向,是信息可以被機(jī)器理解和使用的新的信息環(huán)境,語(yǔ)義Web的出現(xiàn)徹底改變了web上信息的組織方式,對(duì)于各種網(wǎng)絡(luò)信息應(yīng)用都將產(chǎn)生巨大影響。本文首先對(duì)Semantic Web的概況進(jìn)行了簡(jiǎn)要介紹,然后詳細(xì)分析了語(yǔ)義Web體系的主要支持技術(shù)(XML RDF),最后探討了語(yǔ)義Web技術(shù)對(duì)網(wǎng)絡(luò)信息檢索的影響。

      語(yǔ)義Web;網(wǎng)絡(luò)信息檢索XML;RDF

      1 語(yǔ)義Web及語(yǔ)義Web技術(shù)體系

      語(yǔ)義Web(Semantic Web)是信息可以被機(jī)器理解和使用的新的信息環(huán)境。它最大的特點(diǎn)在于將語(yǔ)義嵌入到了web資源中,使得web上的一切資源都可以被應(yīng)用程序識(shí)別和利用,從而促進(jìn)全球知識(shí)的共享。

      從技術(shù)角度看,Semantic Web是一個(gè)分層次結(jié)構(gòu),從下至上包含了Unicodev、URI、XML、RDF、Ontology、Logic、Proof、Trust等重要的技術(shù),圖1是該層次結(jié)構(gòu)的具體圖示[1]。

      圖1 Semantic Web的分層結(jié)構(gòu)示意圖

      在整個(gè)層次結(jié)構(gòu)最底層的是Unicode和URI:它們完成的功能是對(duì)整個(gè)WWW上的資源統(tǒng)一編碼,并用統(tǒng)一的標(biāo)準(zhǔn)給每個(gè)資源以唯一的標(biāo)識(shí)。Unicode是一種新的編碼標(biāo)準(zhǔn),支持世界上絕大多數(shù)語(yǔ)言。Unicode層將上層的數(shù)據(jù)轉(zhuǎn)換成與平臺(tái)無(wú)關(guān)的標(biāo)準(zhǔn)Unicode碼流。URI是統(tǒng)一資源標(biāo)識(shí)符,作為互聯(lián)網(wǎng)上信息資源的識(shí)別標(biāo)準(zhǔn)。依據(jù)它我們可以為互聯(lián)網(wǎng)上所有存在的資源指定一個(gè)唯一的標(biāo)識(shí)符,從而能夠從任何地方訪問(wèn)它。

      XML即可擴(kuò)展標(biāo)記語(yǔ)言(eXtensible Markup Language),它使用了一種簡(jiǎn)單而靈活的語(yǔ)法,為web的應(yīng)用提供了一個(gè)描述數(shù)據(jù)和交換數(shù)據(jù)的有效手段,彌補(bǔ)了HTML的不足。XML最具魅力的地方是它的可擴(kuò)展性,XML允許使用者根據(jù)內(nèi)容需要,創(chuàng)建自己的標(biāo)記語(yǔ)言和自定義的標(biāo)簽,以準(zhǔn)確地對(duì)信息進(jìn)行描述。同時(shí)XML還實(shí)現(xiàn)了數(shù)據(jù)內(nèi)容和顯示格式分離,XML單單描述內(nèi)容,將數(shù)據(jù)顯示的任務(wù)交給XSL和CSS來(lái)完成,內(nèi)容和顯示的分離使得應(yīng)用程序可以更加專注的進(jìn)行數(shù)據(jù)處理工作。XML示例:

      NS即名字空間(NameSpace)用來(lái)區(qū)分不同XML文檔中具有相同名稱的元素和屬性。NS以URI為基礎(chǔ),由于URI在互聯(lián)網(wǎng)上具有唯一性,通過(guò)在每個(gè)元素和屬性前添加名字空間前綴,可以使得不同XML中的元素和屬性都具有唯一性,從而區(qū)別不同XML文檔的元素和屬性。

      盡管XML的出現(xiàn)大大地推動(dòng)了互聯(lián)網(wǎng)上的數(shù)據(jù)互操作,但是對(duì)于達(dá)到語(yǔ)義Web要求的語(yǔ)義級(jí)互操作,XML的能力還是不夠。一方面,XML允許用戶自定義標(biāo)簽來(lái)描述數(shù)據(jù),這就可能造成對(duì)于同一概念,不同用戶使用不同標(biāo)簽來(lái)描述。另外, XML雖有嚴(yán)格的語(yǔ)法規(guī)則,但沒(méi)有對(duì)于語(yǔ)義描述的約束,所以對(duì)同樣的數(shù)據(jù),從不同的語(yǔ)義理解可以表示為不同的XML描述形式,比如上面的示例也可以寫成:

      Web服務(wù)正在呈現(xiàn)為用于各種各樣分布式系統(tǒng)的一個(gè)有前途的計(jì)算平臺(tái)。Web服務(wù)中的3個(gè)核心標(biāo)準(zhǔn)是用于服務(wù)描述的WSDL、用于報(bào)文交換SOAP和用于服務(wù)注冊(cè)和發(fā)現(xiàn)的UDDI。Web服務(wù)的特征是它們對(duì)服務(wù)合成的支持。對(duì)Web服務(wù)來(lái)說(shuō),我們期望在合成的過(guò)程中自動(dòng)得到另一個(gè)服務(wù),這要求Web服務(wù)用語(yǔ)義來(lái)豐富。

      Web語(yǔ)義服務(wù)基礎(chǔ)結(jié)構(gòu)的一個(gè)突出特征是它的語(yǔ)義支持的缺乏。它專門地依賴XML的互操作性,但是僅保證語(yǔ)義互操作。用XML表述報(bào)文內(nèi)容,使Web服務(wù)解析其他的每個(gè)報(bào)文,但是這不便于報(bào)文內(nèi)容的理解。此外,在服務(wù)的注冊(cè)和發(fā)現(xiàn)中, UDDI自身不提供對(duì)Web服務(wù)的語(yǔ)義描述的任何支持。Web服務(wù)應(yīng)當(dāng)有語(yǔ)義的含義,這樣服務(wù)可根據(jù)語(yǔ)義匹配而不是句法匹配。

      RDF的數(shù)據(jù)模型實(shí)質(zhì)上是一種二元關(guān)系的表達(dá),由于任何復(fù)雜的關(guān)系都可以分解為多個(gè)簡(jiǎn)單的二元關(guān)系,因此RDF的數(shù)據(jù)模型可以作為其他任何復(fù)雜關(guān)系模型的基礎(chǔ)模型。下面我們來(lái)看一個(gè)簡(jiǎn)單的RDF的例子:

      (指明被描述資源的URI)

      (被描述資源有一個(gè)叫Author的屬性其值是Paul)

      穿刺及手術(shù)切除標(biāo)本10%中性甲醛固定,HE染色后在鏡下觀察。HEHE病理診斷標(biāo)準(zhǔn):HE染色切片顯示以纖維硬化區(qū)為中心,周邊富于細(xì)胞,腫瘤細(xì)胞呈上皮樣分化,腔內(nèi)含有紅細(xì)胞,免疫組織化學(xué)染色中Ⅷ因子相關(guān)抗原、CD31和CD34中的1項(xiàng)呈陽(yáng)性。

      htm>(被描述資源有一個(gè)叫 HomePage的屬性其值指向另一資源)

      [3]

      RDF和XML是互為補(bǔ)充的。RDF解決的是如何采用XML標(biāo)準(zhǔn)語(yǔ)法無(wú)二義性地描述資源對(duì)象的問(wèn)題,使得所描述資源的元數(shù)據(jù)信息成為機(jī)器可理解的信息。如果把XML看作為一種標(biāo)準(zhǔn)化的元數(shù)據(jù)語(yǔ)法規(guī)范的話,那么RDF就可以看作為一種標(biāo)準(zhǔn)化的元數(shù)據(jù)語(yǔ)義描述規(guī)范。RDF希望以一種標(biāo)準(zhǔn)化,互操作的方式來(lái)規(guī)范XML語(yǔ)義。XML文檔可以通過(guò)簡(jiǎn)單的方式實(shí)現(xiàn)對(duì)RDF的引用,兩者的合作使用如下所示:

      在RDF技術(shù)的基礎(chǔ)上W3C又制定了RDFS規(guī)范,即資源描述框架定義集(Resource Description Framework Schema)。RDFS是RDF的詞匯描述語(yǔ)言(Vocabulary Description Language),RDF是為網(wǎng)上資源語(yǔ)義互連而制定的一個(gè)技術(shù)規(guī)范,而RDFS是為擴(kuò)充RDF數(shù)據(jù)而制定的一個(gè)規(guī)范,它制定了一系列標(biāo)準(zhǔn)的類和屬性,定義怎樣用RDF來(lái)描述詞匯集,可以在不同詞匯集間通過(guò)指定元數(shù)據(jù)關(guān)系來(lái)實(shí)現(xiàn)含義理解層次上的數(shù)據(jù)交換。

      Ontology是關(guān)于領(lǐng)域內(nèi)共享概念的形式化的規(guī)范說(shuō)明,獨(dú)立于具體的符號(hào)層表述方式,因而是具有不同知識(shí)表示的web應(yīng)用系統(tǒng)之間進(jìn)行數(shù)據(jù)或知識(shí)交換共享的基礎(chǔ)結(jié)構(gòu)。一般web上的Ontology包括分類和一套推理規(guī)則,分類定義對(duì)象的類別及其之間的關(guān)系[4]。

      基于語(yǔ)義的web應(yīng)用應(yīng)該可以根據(jù)特定的規(guī)則從RDF/RDFS和ontology描述的知識(shí)中進(jìn)行推理,邏輯層的目標(biāo)就是提供一種方法來(lái)描述規(guī)則。針對(duì)語(yǔ)義網(wǎng)上各種不同類型的應(yīng)用,邏輯層可能會(huì)采用多種邏輯語(yǔ)言的實(shí)現(xiàn)形式,這一點(diǎn)就和互聯(lián)網(wǎng)中的TCP/IP協(xié)議模型中的每一層都會(huì)針對(duì)不同的硬件和軟件系統(tǒng)采用不同的實(shí)現(xiàn)類似。

      2 語(yǔ)義Web對(duì)網(wǎng)絡(luò)信息檢索的影響

      語(yǔ)義Web的出現(xiàn)將徹底改善web上信息的組織方式,對(duì)于各種網(wǎng)絡(luò)應(yīng)用都將是巨大的促進(jìn)。對(duì)于網(wǎng)絡(luò)信息檢索而言,其影響主要體現(xiàn)在以下幾個(gè)方面。

      現(xiàn)在的關(guān)鍵字搜索引擎通常只能搜索與所輸入關(guān)鍵字精確匹配的網(wǎng)頁(yè),而不能根據(jù)所輸入關(guān)鍵字的意思進(jìn)行擴(kuò)展,搜索同義的和相關(guān)的網(wǎng)頁(yè)。

      在未來(lái)的語(yǔ)義Web環(huán)境下,由于使用了ontology,概念被更加行式化的規(guī)范說(shuō)明,應(yīng)用程序可以利用ontology提供的概念關(guān)系網(wǎng)擴(kuò)展用戶輸入的關(guān)鍵詞進(jìn)行檢索,也能夠利用ontology和logic等技術(shù)推理理解網(wǎng)頁(yè)里包含的各個(gè)概念及其關(guān)系,從而更加全面地返回用戶想要的結(jié)果。

      2.2 查準(zhǔn)率的提高

      傳統(tǒng)網(wǎng)頁(yè)由于缺乏對(duì)網(wǎng)頁(yè)內(nèi)容的語(yǔ)義描述,所以應(yīng)用程序很難準(zhǔn)確理解發(fā)布者要表達(dá)的意思,只能通過(guò)字面猜測(cè)。所以就算某些網(wǎng)頁(yè)里明顯出現(xiàn)了“本文提到的布什不是美國(guó)總統(tǒng)布什”這樣的話,用戶在輸入“美國(guó)總統(tǒng)布什”進(jìn)行搜索時(shí)搜索引擎還是會(huì)將這些頁(yè)面作為正確結(jié)果返回給用戶。但是在語(yǔ)義Web環(huán)境下,網(wǎng)頁(yè)的作者為了表示“本文提到的布什不是美國(guó)總統(tǒng)布什”,就會(huì)給”布什“加上語(yǔ)義標(biāo)記,如“布什”,并且在網(wǎng)頁(yè)其他地方注明,這樣應(yīng)用程序就可以根據(jù)http://www.bush.com/information的信息知道這里所提到的布什并非美國(guó)總統(tǒng)。

      2.3 搜索深度更深

      傳統(tǒng)網(wǎng)頁(yè)標(biāo)記語(yǔ)言由于只控制了網(wǎng)頁(yè)內(nèi)容的顯示形式,沒(méi)有提供基于語(yǔ)義的對(duì)內(nèi)容的區(qū)分標(biāo)記,所以對(duì)于搜索引擎而言,很難將一個(gè)網(wǎng)頁(yè)按內(nèi)容拆分為更小的語(yǔ)義單元,只能將整個(gè)網(wǎng)頁(yè)作為最小的檢索對(duì)象,不能像數(shù)據(jù)庫(kù)檢索一樣深入到表格的字段,直接得到想要的數(shù)據(jù)。

      顯然,這樣的檢索方式非常的不方便而且效果也不令人滿意。在未來(lái)的語(yǔ)義Web環(huán)境里,由于網(wǎng)頁(yè)的制作者對(duì)于網(wǎng)頁(yè)內(nèi)每一項(xiàng)有意義的內(nèi)容都會(huì)進(jìn)行基于語(yǔ)義的標(biāo)記。所以,搜索引擎可以直接深入網(wǎng)頁(yè)文檔內(nèi)部,將每一項(xiàng)標(biāo)記的內(nèi)容作為檢索對(duì)象,從而直接返回用戶想要的東西。

      例如,對(duì)于剛才的情況通常語(yǔ)義Web會(huì)這樣描述網(wǎng)頁(yè):

      于是我們就可以通過(guò)SQL構(gòu)造查詢式 select文章的作者 where文章的標(biāo)題=Semantic Web roadmap進(jìn)行檢索然后搜索引擎就會(huì)直接返回Tim Berners-Lee。

      2.4 多媒體搜索更有效

      當(dāng)今的自動(dòng)搜索引擎雖然也有某些能對(duì)圖片、音頻、視頻等多媒體文件進(jìn)行搜索,但主要依據(jù)的都是文件名、周圍的文字信息以及文件本身的屬性特征。這幾種搜索依據(jù)都有很大的缺點(diǎn)。文件名雖然常常描述了文件的內(nèi)容,但是網(wǎng)上的大多數(shù)多媒體文件都不是按照這種方式命名的,而是用數(shù)字加字母命名,文件名并沒(méi)有任何實(shí)際含義[5]。因此,現(xiàn)在網(wǎng)上的各種多媒體搜索引擎的效果非常不理想也是可以理解的。

      不過(guò)在未來(lái)的語(yǔ)義Web環(huán)境下,多媒體的檢索將會(huì)變得簡(jiǎn)單而準(zhǔn)確。語(yǔ)義Web具有的強(qiáng)大的對(duì)資源語(yǔ)義進(jìn)行描述的功能,并且這些描述都可以被其他應(yīng)用程序所理解和使用。另外,語(yǔ)義Web的資源間語(yǔ)義關(guān)系的描述能力,更使得多媒體資源與文字描述能很好的融合為一體。

      2.5 實(shí)現(xiàn)系統(tǒng)性檢索

      Web是一個(gè)由眾多單個(gè)網(wǎng)頁(yè)相互鏈接形成的統(tǒng)一空間。HTML語(yǔ)言及其鏈接技術(shù)實(shí)現(xiàn)的網(wǎng)頁(yè)間的連接,僅使得我們可以從一個(gè)網(wǎng)頁(yè)到達(dá)另一個(gè)網(wǎng)頁(yè)而已,相互鏈接的兩個(gè)網(wǎng)頁(yè)之間的關(guān)系并沒(méi)有給出描述。比如,我們想查詢《Semantic Web roadmap》的作者的出生日期,在現(xiàn)在的web條件下,因?yàn)檫@些信息通常不會(huì)出現(xiàn)在同一個(gè)網(wǎng)頁(yè)上,所以我們不得不先查出《Semantic Web roadmap》的作者是誰(shuí),然后再查詢他的出生日期。但是在語(yǔ)義Web條件下,利用RDF等技術(shù)所描述的語(yǔ)義關(guān)系,應(yīng)用程序可以將各個(gè)有關(guān)聯(lián)的網(wǎng)頁(yè)聯(lián)系起來(lái),利用ontology logic等技術(shù)推理返回用戶想要的結(jié)果。

      3 總結(jié)語(yǔ)

      語(yǔ)義Web的出現(xiàn)適應(yīng)了網(wǎng)絡(luò)知識(shí)化、智能化的要求,對(duì)于網(wǎng)絡(luò)資源的組織架構(gòu)和應(yīng)用都將產(chǎn)生深刻的影響。從上面的分析我們可以清楚地看到,語(yǔ)義Web的各種技術(shù)通過(guò)給網(wǎng)上資源賦予語(yǔ)義,使計(jì)算機(jī)能理解網(wǎng)上信息,從而使精準(zhǔn)、便捷、智能化的網(wǎng)絡(luò)信息搜索變得可能,為智能信息檢索的實(shí)現(xiàn)創(chuàng)造了條件。然而,要實(shí)現(xiàn)真正智能的信息檢索,我們還要解決人機(jī)交互過(guò)程中的理解和溝通問(wèn)題。只有當(dāng)機(jī)器與資源,人與機(jī)器這兩方面都實(shí)現(xiàn)了完美的溝通,真正智能化的搜索服務(wù)才能實(shí)現(xiàn)。

      [1]潘小進(jìn),林子禹,張?jiān)聫?qiáng),賀春輝.語(yǔ)義Web的標(biāo)記語(yǔ)言和體系結(jié)構(gòu)[J].計(jì)算機(jī)工程,2003(4):79.

      [2]李衛(wèi)華.語(yǔ)義 Web及層次結(jié)構(gòu)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用, 2002(7):46.

      [3]瞿裕忠,張劍鋒,陳崢王,叢 剛.xml語(yǔ)言及相關(guān)技術(shù)綜述[J].計(jì)算機(jī)工程,2006(12):106.

      [4]盧巧云.XML:數(shù)字圖書館信息組織的基礎(chǔ)技術(shù)[J].情報(bào)科學(xué),2003(9):33.

      [5]羅 威.RDF(資源描述框架)Web數(shù)據(jù)集成的元數(shù)據(jù)解決方案[J].情報(bào)學(xué)報(bào),2003(2):48.

      Analysis of Semantic Web Application in Information Retrieval Research and Implementation

      XIU Hong-mei
      (Telecommunications Dept.of Wuhan Technical Institute,Wuhan 430074,China)

      Semantic Web is the future of today’s web,which is a new space where the information inside can be understood and used by machines.Semantic Web will change the way of organizing information on web and make a significant influence on lots of web information applications.This paper,firstly,presents a brief introduction to Semantic Web,and then analyzes in detail the main technologies supporting Semantic Web such as XML and RDF.Finally,the influence of Semantic Web on web information retrieval is discussed.

      semantic web;web information retrieval;XML;RDF

      book=107,ebook=47

      TP391

      A

      1008-4738(2010)02-0107-03

      2010-02-20

      許紅梅(1968-),女,武漢職業(yè)技術(shù)學(xué)院電信學(xué)院副教授,研究方向:計(jì)算機(jī)網(wǎng)絡(luò)及多媒體應(yīng)用。

      猜你喜歡
      信息檢索布什應(yīng)用程序
      刪除Win10中自帶的應(yīng)用程序
      引領(lǐng)美國(guó)結(jié)束冷戰(zhàn)的前總統(tǒng)H.W.布什去世,享年94歲
      醫(yī)學(xué)期刊編輯中文獻(xiàn)信息檢索的應(yīng)用
      新聞傳播(2016年18期)2016-07-19 10:12:06
      基于神經(jīng)網(wǎng)絡(luò)的個(gè)性化信息檢索模型研究
      教學(xué)型大學(xué)《信息檢索》公選課的設(shè)計(jì)與實(shí)施
      河南科技(2014年11期)2014-02-27 14:10:19
      公共圖書館信息檢索服務(wù)的實(shí)踐探索——以上海浦東圖書館為例
      圖書館界(2013年5期)2013-03-11 18:50:29
      關(guān)閉應(yīng)用程序更新提醒
      電腦迷(2012年15期)2012-04-29 17:09:47
      三星電子將開(kāi)設(shè)應(yīng)用程序下載商店
      微軟軟件商店開(kāi)始接受應(yīng)用程序
      布什卸任 奧巴馬接招
      宁阳县| 杭锦旗| 阳西县| 沁阳市| 靖江市| 姜堰市| 宁陕县| 新和县| 南木林县| 开原市| 南江县| 容城县| 渑池县| 江门市| 富平县| 玉龙| 彩票| 礼泉县| 周宁县| 砚山县| 紫阳县| 杭锦旗| 十堰市| 海宁市| 陆河县| 阿拉善右旗| 洱源县| 龙游县| 永昌县| 永年县| 无棣县| 天祝| 登封市| 礼泉县| 米易县| 铜鼓县| 新邵县| 朔州市| 普定县| 漳州市| 盖州市|