• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      知識(shí)社區(qū)環(huán)境下的DBpedia研究

      2013-08-21 08:36:38
      圖書(shū)館 2013年4期
      關(guān)鍵詞:維基百科結(jié)構(gòu)化頁(yè)面

      (北京大學(xué)信息管理系 北京 100871)

      知識(shí)社區(qū)的概念源于知識(shí)管理。網(wǎng)絡(luò)環(huán)境下,知識(shí)社區(qū)可理解為:由于部分人對(duì)某個(gè)主題的共同興趣和知識(shí)獲取、交流需求而聚集起來(lái),并基于網(wǎng)絡(luò)創(chuàng)造和分享知識(shí)的平臺(tái)。維基百科作為開(kāi)放、自由、免費(fèi)、共享的多語(yǔ)言網(wǎng)絡(luò)百科全書(shū),由全球網(wǎng)民共同編寫,正是知識(shí)社區(qū)的產(chǎn)物。然而維基百科的條目多以自然語(yǔ)言描述,只支持文本檢索而不支持結(jié)構(gòu)化檢索,也無(wú)法跨頁(yè)面進(jìn)行檢索,導(dǎo)致其中雖然蘊(yùn)含海量信息,卻無(wú)法被深度挖掘利用。

      語(yǔ)義網(wǎng)作為萬(wàn)維網(wǎng)的延伸,利用XML、RDF、本體、OWL等技術(shù),使其中的信息都具有定義完好的含義,通過(guò)機(jī)器可“理解”的語(yǔ)義,讓計(jì)算機(jī)擁有一定的推理能力和自動(dòng)處理大規(guī)模數(shù)據(jù)的能力。因此,利用語(yǔ)義網(wǎng)技術(shù)挖掘維基百科內(nèi)容的項(xiàng)目不斷展開(kāi),DBpedia就是其中一項(xiàng)。

      1 DBpedia簡(jiǎn)介

      DBpedia由柏林自由大學(xué)和萊比錫大學(xué)的研究人員發(fā)起,與OpenLink Software公司合作,致力于從維基百科的結(jié)構(gòu)化和半結(jié)構(gòu)化信息中抽取數(shù)據(jù)并生成RDF三元組,將其組織后形成龐大的數(shù)據(jù)集,與外部的關(guān)聯(lián)數(shù)據(jù)連接,提供給人們使用。〔1〕該項(xiàng)目也被“互聯(lián)網(wǎng)之父”蒂姆·伯納斯·李盛贊為關(guān)聯(lián)數(shù)據(jù)工程中最知名的項(xiàng)目之一。

      2007年2月,DBpedia數(shù)據(jù)集開(kāi)始開(kāi)放下載,之后每隔約半年時(shí)間都會(huì)有更新。最新的版本為2012年8月發(fā)布的DBpedia3.8,該版本數(shù)據(jù)集中描述了超過(guò)377萬(wàn)個(gè)資源,其中235萬(wàn)個(gè)資源使用統(tǒng)一的DBpedia本體進(jìn)行描述,包括76.4萬(wàn)個(gè)人物,57.3萬(wàn)個(gè)地點(diǎn),11.2萬(wàn)張音樂(lè)專輯,7.2萬(wàn)部電影,1.8萬(wàn)種視頻游戲,19.2萬(wàn)個(gè)組織機(jī)構(gòu)(包括4.5 萬(wàn)家公司、4.2萬(wàn)所學(xué)校),20.2萬(wàn)個(gè)生物物種和5500種疾病。DB-pedia用111種不同的語(yǔ)言以RDF三元組的形式為上述資源做了摘要和詳細(xì)的描述,其中有800萬(wàn)條指向圖片的鏈接、2440萬(wàn)條指向其他Web頁(yè)面的鏈接、2720萬(wàn)條指向其他RDF 數(shù)據(jù)集的鏈接?!?〕

      DBpedia的目標(biāo)是從維基百科中抽取結(jié)構(gòu)化信息并開(kāi)放下載,與其他數(shù)據(jù)集互聯(lián)而形成知識(shí)網(wǎng)絡(luò)。如今該目標(biāo)正在逐步實(shí)現(xiàn),由于DBpedia的跨領(lǐng)域、多語(yǔ)言等特征,DB-pedia自發(fā)布后便與諸多數(shù)據(jù)集互聯(lián),成為關(guān)聯(lián)數(shù)據(jù)網(wǎng)的核心?;谠摂?shù)據(jù)集的應(yīng)用也愈來(lái)愈多,漸漸滲入社會(huì)生活各個(gè)方面。

      2 知識(shí)社區(qū)環(huán)境下DBpedia的信息組織

      2.1 基于維基百科的信息抽取

      信息抽取是指從文本中抽取出用戶感興趣的信息,包括實(shí)體、事實(shí)等,并以結(jié)構(gòu)化的形式存儲(chǔ)起來(lái),即將非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)換為語(yǔ)義信息。〔3〕維基百科中蘊(yùn)含大量的信息,單靠人力不可能完成對(duì)其內(nèi)容的抽取整理,因此必須依賴大規(guī)模的人機(jī)協(xié)同進(jìn)行處理。

      DBpedia通過(guò)知識(shí)抽取框架(DBpedia Knowledge Extraction Framework)抽取維基百科中的標(biāo)簽、摘要、語(yǔ)言鏈接、圖片等數(shù)據(jù)項(xiàng),該框架的技術(shù)基礎(chǔ)由項(xiàng)目組提供,普通參與者亦可改進(jìn)和完善。知識(shí)抽取框架從維基百科中抽取信息主要采用兩種方式,其一是利用維基百科的數(shù)據(jù)庫(kù)轉(zhuǎn)儲(chǔ)文件,將其關(guān)系數(shù)據(jù)表格中存儲(chǔ)的關(guān)系直接轉(zhuǎn)換為RDF三元組;其二是利用維基百科的文章內(nèi)容及信息盒模版抽取RDF三元組?!?〕從維基百科的文章內(nèi)容中抽取信息時(shí),既可以從部分非結(jié)構(gòu)化的文本中抽取,也可以從半結(jié)構(gòu)化的部分及條目?jī)?nèi)部的鏈接結(jié)構(gòu)中抽取。其中主要的信息抽取來(lái)源如下圖:

      圖示抽取源所含的信息都有較高的挖掘價(jià)值,且易于抽取,將這些信息抽取整理后能夠進(jìn)行更深層次的挖掘,從而得到更多有價(jià)值的信息。

      目前DBpedia支持定時(shí)抽取和實(shí)時(shí)抽取兩種抽取模式,前者以一個(gè)月為周期,后者可以動(dòng)態(tài)監(jiān)測(cè)維基百科頁(yè)面,當(dāng)數(shù)據(jù)內(nèi)容有變化時(shí),編輯者只需在維基百科中進(jìn)行數(shù)據(jù)修改,就可以同步到DBpedia中。

      圖1 DBpedia從維基百科抽取數(shù)據(jù)的信息源圖解〔5〕

      表2 DBpedia從維基百科抽取數(shù)據(jù)的信息源詳解

      2.2 DBpedia中的資源描述和組織

      用RDF描述事物的基本思想是:將一切可以在萬(wàn)維網(wǎng)上標(biāo)識(shí)的事物(具體的或抽象的,存在的或不存在的)統(tǒng)稱為“資源”;用URI(統(tǒng)一資源標(biāo)識(shí)符)表示資源;用屬性和屬性值描述資源,其中屬性值可以包含URI,屬性也是一種資源?!?〕

      維基百科中的每個(gè)條目在DBpedia中都擁有唯一的URI,與其頁(yè)面鏈接地址相對(duì)應(yīng),形式為http://DBpedia.org/resource/Name,其中Name部分是從該資源的英文版維基百科的鏈接地址 http://en.wikipedia.org/wiki/Name中抽取的。這種方式使得該資源直接與英文版維基百科的條目頁(yè)面聯(lián)系起來(lái)?!?〕

      DBpedia中的每個(gè)資源都有標(biāo)簽、英文短摘要和英文長(zhǎng)摘要、相應(yīng)的維基百科頁(yè)面鏈接和描述該資源的圖片鏈接等屬性。除了以上基本屬性外,不同類型的資源通過(guò)不同的屬性描述,這些屬性不僅限于DBpedia所定義的,還可以引用其他本體或數(shù)據(jù)集中定義的,如FOAF、dc、RDF以及owl等。引用外部定義屬性的優(yōu)勢(shì)可以彌補(bǔ)DBpedia屬性定義的不足,更加完善地描述資源;缺陷在于,多處引用容易造成屬性的重復(fù),進(jìn)而造成數(shù)據(jù)冗余。由于DBpedia涉及的資源多種多樣,如何對(duì)某一類資源引用合適的外部屬性也是DBpedia需要解決的問(wèn)題。

      通過(guò)精確細(xì)致的屬性描述資源后,用戶查詢時(shí)得到的不再是整個(gè)頁(yè)面,而是精確的答案。通過(guò)設(shè)定規(guī)則,為后續(xù)的自動(dòng)推理和進(jìn)一步數(shù)據(jù)挖掘提供了極大的便利。在DBpedia中,用RDF描述得到的實(shí)體通過(guò)本體和分類體系進(jìn)行組織。DBpedia數(shù)據(jù)集的本體庫(kù)是從維基百科信息盒中抽取并組織而成的,包括170個(gè)類和720個(gè)屬性,是個(gè)淺層的分類體系。但該分類并不完善,因此DBpedia還使用了另外三種分類方法對(duì)資源進(jìn)行組織,分別是:維基百科分類方法、YAGO分類方法和UMBE分類方法?!?〕

      維基百科的分類體系包含了415000個(gè)類目,該體系支持協(xié)同擴(kuò)展并可以持續(xù)更新。但由于其編輯維護(hù)者為長(zhǎng)尾用戶,在分類體系的設(shè)置上權(quán)威性欠缺,類目的等級(jí)關(guān)系以及橫向關(guān)系揭示方面也不完善。YAGO分類體系包含286000個(gè)類目,其特點(diǎn)是類目劃分較深、較精確。UMBEL是一個(gè)輕型本體,包括20000個(gè)類目,該本體是為鏈接Web中的內(nèi)容和數(shù)據(jù)而創(chuàng)建。

      2.3 DBpedia的信息獲取途徑

      2.3.1 SPARQL 端點(diǎn)檢索

      SPARQL是一種面向RDF數(shù)據(jù)模型的查詢語(yǔ)言和數(shù)據(jù)訪問(wèn)協(xié)議,用于訪問(wèn)任何可以映射到RDF模型的數(shù)據(jù)資源。為了實(shí)現(xiàn)對(duì)DBpedia的查詢,開(kāi)發(fā)者提供了SPARQL終端,用戶可以利用SPARQL語(yǔ)言在http://DBpedia.org/sparql進(jìn)行檢索,直接得到相應(yīng)的數(shù)據(jù)。例如查詢某條河流的長(zhǎng)度,系統(tǒng)會(huì)直接返回其長(zhǎng)度作為答案,而不是返回河流相關(guān)頁(yè)面再讓用戶到其中篩選信息。用戶也可以檢索較復(fù)雜的問(wèn)題,例如“從1990至1920年期間出生在北京的姓李的女作家”這個(gè)問(wèn)題,經(jīng)過(guò)正確的SPARQL語(yǔ)言組織后,系統(tǒng)即可匹配并返回結(jié)果。

      然而鑒于大多數(shù)用戶并不熟悉SPARQL語(yǔ)言,因此該系統(tǒng)的友好易用性欠缺。為了使普通用戶也能夠在DBpedia上進(jìn)行查詢,可以借助一些工具如 Auto SPARQL,用戶只需鍵入所要查詢的關(guān)鍵詞并指定所查找的屬性,檢索工具會(huì)自動(dòng)轉(zhuǎn)換為SPARQL語(yǔ)言并將結(jié)果反饋給用戶。

      2.3.2 關(guān)聯(lián)數(shù)據(jù)接口

      關(guān)聯(lián)數(shù)據(jù)在2007年提出,目的是構(gòu)建計(jì)算機(jī)能理解的語(yǔ)義數(shù)據(jù)網(wǎng)絡(luò),而不僅僅是人能讀懂的文檔網(wǎng)絡(luò),也就是把文檔的網(wǎng)絡(luò)變成數(shù)據(jù)的網(wǎng)絡(luò),基于此構(gòu)建更智能的應(yīng)用。〔9〕DBpedia自與其他數(shù)據(jù)集互聯(lián)以來(lái),由于其跨領(lǐng)域的特點(diǎn)而處在關(guān)聯(lián)數(shù)據(jù)網(wǎng)的核心?;诟鱾€(gè)數(shù)據(jù)集間的互聯(lián),用戶在數(shù)據(jù)集之間游歷,一旦涉及DBpedia中的數(shù)據(jù),自然會(huì)通接口進(jìn)入其中。

      在2007年,加入關(guān)聯(lián)數(shù)據(jù)網(wǎng)的數(shù)據(jù)集共有16個(gè),其中10個(gè)數(shù)據(jù)集與DBpedia相連接。到2011年,加入關(guān)聯(lián)數(shù)據(jù)的數(shù)據(jù)集增長(zhǎng)更迅速,而DBpedia儼然已經(jīng)成為整個(gè)關(guān)聯(lián)數(shù)據(jù)網(wǎng)中的核心。用戶可以通過(guò)大其他數(shù)據(jù)集進(jìn)入DBpedia,也可通過(guò)DBpedia連接到其他數(shù)據(jù)集,DBpedia作為關(guān)聯(lián)數(shù)據(jù)中轉(zhuǎn)站的特征也更明顯。

      2.3.3 下載RDF文件包

      DBpedia的數(shù)據(jù)集是對(duì)公眾開(kāi)放并可以免費(fèi)下載的,DB-pedia的下載頁(yè)面列出了DBpedia的所有版本,并標(biāo)出各版本的最后修改時(shí)間及其大小,用戶點(diǎn)擊相應(yīng)的版本即可進(jìn)入下載頁(yè)面。在最新的DBpedia3.8中,共提供了111種語(yǔ)言版本的數(shù)據(jù)集,每個(gè)數(shù)據(jù)集中有不同的數(shù)據(jù)包,列出相應(yīng)語(yǔ)言的標(biāo)簽信息、映射關(guān)系信息以及維基百科信息盒中屬性等數(shù)據(jù)包供用戶下載,用戶可根據(jù)自己的需求有選擇地下載或全部下載。

      3 DBpedia的特點(diǎn)

      3.1 協(xié)同編輯

      知識(shí)社區(qū)環(huán)境下,DBpedia的一大特點(diǎn)就是協(xié)同編輯,由眾多的用戶共同完成數(shù)據(jù)集創(chuàng)建和維護(hù)。在數(shù)據(jù)集的建設(shè)過(guò)程中,除了數(shù)據(jù)源于維基百科,是大眾共同編輯的成果外,其知識(shí)抽取框架、映射關(guān)系定義、本體維護(hù)等技術(shù)也并非項(xiàng)目組獨(dú)立的成果,而是在項(xiàng)目組提供的基礎(chǔ)框架上,經(jīng)過(guò)許多人參與并貢獻(xiàn)智慧后的成果。DBpedia能夠成為大規(guī)模、跨領(lǐng)域、多語(yǔ)言的知識(shí)庫(kù),與其協(xié)同編輯的基本特征密不可分。

      3.2 數(shù)據(jù)結(jié)構(gòu)化

      DBpedia區(qū)別于維基百科之處在于其數(shù)據(jù)描述的結(jié)構(gòu)化,即用以描述資源的每個(gè)屬性都是經(jīng)過(guò)定義的,可被機(jī)器理解。描述資源的RDF三元組形式為“資源—屬性—屬性值”,以屬性作為資源和屬性值之間的聯(lián)系,通過(guò)簡(jiǎn)單的三元組結(jié)構(gòu)實(shí)現(xiàn)良好的組織,便于后續(xù)的數(shù)據(jù)利用。在有良好結(jié)構(gòu)的數(shù)據(jù)基礎(chǔ)上,通過(guò)定義一定的規(guī)則,可以實(shí)現(xiàn)機(jī)器自動(dòng)推理。推理是使用預(yù)先定義的規(guī)則基于知識(shí)庫(kù)中存儲(chǔ)的事實(shí)信息獲得額外的、潛在的知識(shí)。例如,預(yù)先定義“擁有相同父母的兩個(gè)男性為兄弟”,那么在描述資源時(shí),如果A和B的父母關(guān)系的屬性值相同,則可以自動(dòng)得出A和B是兄弟的結(jié)論,并自動(dòng)將A的兄弟關(guān)系屬性值賦值為資源B,B的兄弟關(guān)系屬性值賦值為資源A,從而建立聯(lián)系。同時(shí),如果定義了出生年份更早則為兄長(zhǎng)的規(guī)則,那么就可以根據(jù)兩者的出生年份自動(dòng)得出其長(zhǎng)幼順序。

      3.3 大規(guī)模人機(jī)協(xié)同知識(shí)處理

      在基于語(yǔ)義Web的知識(shí)處理過(guò)程中,人機(jī)協(xié)同知識(shí)處理強(qiáng)調(diào)人與計(jì)算機(jī)的分工與合作,通過(guò)人對(duì)知識(shí)處理前端控制,降低計(jì)算機(jī)知識(shí)處理的難度,在人與計(jì)算機(jī)之間尋找最佳的協(xié)同狀態(tài)?!?0〕DBpedia從維基百科中抽取海量數(shù)據(jù),是個(gè)規(guī)模龐大的工程,單靠人力無(wú)法實(shí)現(xiàn),必須借助機(jī)器的協(xié)助。然而機(jī)器本身智能程度有限,知識(shí)抽取框架的建設(shè)、知識(shí)間的映射關(guān)系的定義均需要發(fā)揮人的智慧,而機(jī)器可以據(jù)此自動(dòng)完成重復(fù)性的工作,從而發(fā)揮了計(jì)算機(jī)對(duì)結(jié)構(gòu)化程度較高的數(shù)據(jù)的重復(fù)操作能力。

      維基百科的數(shù)據(jù)是不定期更新的,在預(yù)先定義出檢測(cè)和驗(yàn)證規(guī)則后,DBpedia可以按照一定的時(shí)間間隔、有針對(duì)性地檢測(cè)對(duì)應(yīng)的內(nèi)容,如果有數(shù)據(jù)變化,則更新入數(shù)據(jù)集中。維基百科中的數(shù)據(jù)更新,則是依靠無(wú)數(shù)的編輯者進(jìn)行的,通過(guò)人與機(jī)器的協(xié)同處理,完成數(shù)據(jù)集的更新和維護(hù)。

      3.4 跨領(lǐng)域知識(shí)庫(kù)

      DBpedia所描述的數(shù)百萬(wàn)個(gè)資源中,內(nèi)容涉及人類社會(huì)生活中所能涉及的幾乎所有領(lǐng)域,目前涉及人物、地點(diǎn)、音樂(lè)、電影、游戲、組織機(jī)構(gòu)、生物物種、疾病等多個(gè)方面,這些屬于不同類別的實(shí)體又是相互關(guān)聯(lián)的。即DBpedia所描述的實(shí)體不僅跨越多個(gè)領(lǐng)域,并且在這些領(lǐng)域之間建立了聯(lián)系,隨著其技術(shù)的日漸完備和規(guī)模的不斷擴(kuò)大以及越來(lái)越多志愿者的參與和貢獻(xiàn),DBpedia所能涵蓋的范圍勢(shì)必會(huì)延伸至越來(lái)越多的角落,并不斷在各個(gè)實(shí)體間建立聯(lián)系,最終形成一張知識(shí)網(wǎng)絡(luò)。DBpedia的這一特征使得它與其他的領(lǐng)域本體和目前發(fā)布的數(shù)據(jù)集都有了交集并與之相連,從而成為關(guān)聯(lián)數(shù)據(jù)的核心,成為不同數(shù)據(jù)集之間鏈接的中轉(zhuǎn)站。在日后的相關(guān)應(yīng)用開(kāi)發(fā)和數(shù)據(jù)深度挖掘中,它的中轉(zhuǎn)站功能將不可忽視。

      4 基于DBpedia的應(yīng)用

      4.1 為語(yǔ)義網(wǎng)應(yīng)用服務(wù)提供數(shù)據(jù)支持

      DBpedia的數(shù)據(jù)集可以授權(quán)給第三方使用,從而簡(jiǎn)單、快速地衍生出眾多創(chuàng)新性應(yīng)用,被美國(guó)科技媒體Read Write Web評(píng)為2009年最佳的語(yǔ)義網(wǎng)應(yīng)用服務(wù)。

      目前基于DBpedia開(kāi)發(fā)的應(yīng)用中比較典型的是DBpedia Mobile。DBpedia Mobile是一個(gè)基于DBpedia中的地理位置數(shù)據(jù)作為導(dǎo)航的客戶端服務(wù)?;诂F(xiàn)有的GPS定位功能,用戶可以搜索、發(fā)布和標(biāo)注某個(gè)地點(diǎn)的信息,并查看其它用戶對(duì)周圍環(huán)境的標(biāo)注。由于DBpedia與其他數(shù)據(jù)集互聯(lián),用戶有可能因此而進(jìn)入一個(gè)更細(xì)致、針對(duì)性更強(qiáng)的數(shù)據(jù)集,從而得到更全面的信息。當(dāng)然,僅靠DBpedia不可能完全滿足用戶的需求,只有越來(lái)越多的數(shù)據(jù)集發(fā)布并加入關(guān)聯(lián)數(shù)據(jù)網(wǎng),才可以在該網(wǎng)絡(luò)中實(shí)現(xiàn)無(wú)縫隙游歷。

      DBpedia的數(shù)據(jù)也可以整合入Web頁(yè)面中,例如從DBpedia查詢得到一個(gè)數(shù)據(jù)表后,可以通過(guò)客戶端將此數(shù)據(jù)表嵌入到用戶的頁(yè)面中并實(shí)現(xiàn)動(dòng)態(tài)更新。目前正在進(jìn)行的與之相關(guān)的應(yīng)用是BBC interlinking project,該項(xiàng)目在DBpedia數(shù)據(jù)集和BBC的海量新聞信息間建立聯(lián)系。例如,當(dāng)BBC中出現(xiàn)關(guān)于某個(gè)音樂(lè)家的新聞時(shí),BBC可以基于DBpedia提供該音樂(lè)家的基本信息如圖片、個(gè)人資料、所發(fā)布的音樂(lè)專輯等。此外,BBC的新聞也可以通過(guò)DBpedia與對(duì)應(yīng)的維基百科頁(yè)面進(jìn)行互聯(lián),例如當(dāng)BBC中有關(guān)于某個(gè)城市的新聞,維基百科中對(duì)應(yīng)城市的詞條頁(yè)面則可嵌入該新聞,讓用戶在查看詞條的同時(shí)了解其最新信息。

      DBpedia的海量數(shù)據(jù)也值得發(fā)掘,從而創(chuàng)造出更多知識(shí)。例如DBpedia Relationship Finder就是典型的基于DBpedia的數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)系統(tǒng),它可以通過(guò)DBpedia計(jì)算在英文維基百科中描述的兩個(gè)事物之間的語(yǔ)義距離?!?1〕

      4.2 對(duì)維基百科的查詢

      DBpedia的結(jié)構(gòu)化數(shù)據(jù)源于維基百科,因此可以提供更準(zhǔn)確和更直接的維基百科搜索,用以更好地發(fā)掘其中的資源。目前檢索界面如下:

      圖2 基于DBpedia的維基百科結(jié)構(gòu)化查詢界面

      該檢索界面主要包含四個(gè)模塊:用于自由檢索的文本檢索框(圖中①)、用于結(jié)構(gòu)化檢索的部分(圖中②)、用于剔除檢索限定條件的部分(圖中③)、用于呈現(xiàn)檢索結(jié)果的結(jié)果顯示部分(圖中④)。用戶可以直接在文本檢索框中進(jìn)行檢索,也可通過(guò)結(jié)構(gòu)化檢索部分進(jìn)行篩選,并不斷限定條件壓縮范圍,直至最后得出檢索結(jié)果。

      當(dāng)用戶有明確的檢索詞時(shí),可以在文本檢索框中輸入檢索詞自由匹配,系統(tǒng)會(huì)判斷檢索對(duì)象的屬性并在左側(cè)的結(jié)構(gòu)化檢索部分予以調(diào)整,方便用戶的后續(xù)甄選。例如檢索“Beijing”一詞,搜索結(jié)果包括與“beijing”相關(guān)的人物、地點(diǎn)、機(jī)構(gòu)、組織等多種資源。此時(shí),左側(cè)結(jié)構(gòu)化檢索部分會(huì)陳列出人物、地點(diǎn)等相關(guān)的屬性供篩選,用戶可以做更為細(xì)致和精確的條件限定,從而縮小檢索范圍。檢索得到的結(jié)果按照被引用次數(shù)、詞條質(zhì)量等綜合排序,列表中會(huì)展示詞條的縮略圖、題名、英文摘要。在用戶沒(méi)有明確的檢索詞時(shí),可通過(guò)層層篩選接近目標(biāo),例如檢索“1960至1975年之間出生在北京的藝術(shù)家”,可在左側(cè)的結(jié)構(gòu)化檢索框中選定目標(biāo)類型為person,甚至更精確地選擇artist,系統(tǒng)經(jīng)篩選后列出與artist相關(guān)的屬性,用戶只需限定出生地和出生時(shí)間即可得到想要的結(jié)果集合。

      5 DBpedia的意義

      5.1 基于知識(shí)社區(qū)建立大規(guī)模知識(shí)庫(kù)

      DBpedia的數(shù)據(jù)抽取和更新依賴于Wiki這個(gè)協(xié)作共創(chuàng)的系統(tǒng),該系統(tǒng)下眾多的長(zhǎng)尾用戶所創(chuàng)造的知識(shí)涵蓋各個(gè)領(lǐng)域。其中內(nèi)容包羅萬(wàn)象,經(jīng)過(guò)發(fā)展積累后,規(guī)模已非常龐大,并在不斷發(fā)展。DBpedia從中抽取有用信息并整理為知識(shí)庫(kù)后,不僅得到了大規(guī)模的數(shù)據(jù),同時(shí)利用分類、本體以及內(nèi)部互鏈等形式揭示了知識(shí)間的關(guān)系。DBpedia不僅具有大規(guī)模、跨領(lǐng)域、多語(yǔ)言的特征,其中的數(shù)據(jù)也是客觀公正、及時(shí)更新的。每個(gè)用戶既是讀者,也是監(jiān)督者和糾錯(cuò)者,一旦發(fā)現(xiàn)數(shù)據(jù)更新不及時(shí),或觀點(diǎn)有失偏頗、內(nèi)容不準(zhǔn)確,都可以基于維基百科進(jìn)行討論和修改。

      5.2 多元應(yīng)用為社會(huì)提供便利

      DBpedia的出現(xiàn)為人們開(kāi)發(fā)各種應(yīng)用提供了便利,如前所述的DBpedia Mobile等項(xiàng)目已開(kāi)創(chuàng)了良好的先例。在信息技術(shù)飛速發(fā)展的今天,各種各樣的技術(shù)應(yīng)用繽紛呈現(xiàn),使得人們的社會(huì)生活越來(lái)越便利。DBpedia中的數(shù)據(jù)涵蓋社會(huì)生活中的方方面面,依托這個(gè)龐大數(shù)據(jù)集的支撐,勢(shì)必能夠有更多應(yīng)用出現(xiàn)。目前國(guó)外已經(jīng)有許多政府和組織機(jī)構(gòu)發(fā)布了相關(guān)的數(shù)據(jù)集,涉及地理、媒體、出版物、政府信息、生物科學(xué)等諸多方面,依托這些數(shù)據(jù)集的支撐和作為中介的DBpedia,可以開(kāi)發(fā)涵蓋各個(gè)領(lǐng)域的應(yīng)用,例如可以綜合正在建設(shè)的中藥本體和DBpedia可以開(kāi)發(fā)簡(jiǎn)單實(shí)用的中藥小百科,供日常使用。

      5.3 推動(dòng)語(yǔ)義網(wǎng)發(fā)展

      語(yǔ)義網(wǎng)自從被提出后,在國(guó)際上已掀起了一輪研發(fā)熱潮,它的提出也為信息組織的發(fā)展提供了新的方向,其三大核心技術(shù)XML(S)、RDF(S)、Ontology也不斷完善,為語(yǔ)義網(wǎng)的發(fā)展提供了有力支持。除了技術(shù)保證,語(yǔ)義網(wǎng)的發(fā)展還需要數(shù)據(jù)作為支撐,才能在實(shí)踐中發(fā)現(xiàn)缺陷并彌補(bǔ)和完善。目前的領(lǐng)域本體建設(shè)中,由于所能接觸的數(shù)據(jù)源大多規(guī)模小、數(shù)據(jù)少、數(shù)據(jù)更新不及時(shí)且涉及的領(lǐng)域狹窄,給語(yǔ)義網(wǎng)技術(shù)的大規(guī)模應(yīng)用造成了不便。DBpedia的出現(xiàn)結(jié)合了維基百科這一超大規(guī)模數(shù)據(jù)源和語(yǔ)義網(wǎng)的優(yōu)勢(shì),為本體和RDF等提供了數(shù)據(jù)支持。而基于DBpedia和其他數(shù)據(jù)集的應(yīng)用的逐漸問(wèn)世也必將使人們更加清晰地認(rèn)識(shí)到語(yǔ)義網(wǎng)的先進(jìn)之處與便利性,從而推動(dòng)語(yǔ)義網(wǎng)的普及和發(fā)展。

      6 結(jié)語(yǔ)

      DBpedia在本體、網(wǎng)絡(luò)資源分類、文本知識(shí)抽取、信息資源描述、網(wǎng)絡(luò)信息傳播等諸多方面都有涉及,作為一個(gè)跨領(lǐng)域多語(yǔ)言的大規(guī)模知識(shí)庫(kù),其在數(shù)據(jù)挖掘、語(yǔ)義網(wǎng)發(fā)展等方面都有著重要的意義。同時(shí),作為知識(shí)社區(qū)環(huán)境下的產(chǎn)物,除了具有組織和傳播知識(shí)的功能外,其維基精神也有極其深遠(yuǎn)的文化影響。希望在以后的學(xué)習(xí)和研究中能夠?qū)ζ溆懈钊氲牧私夂头治觯瑥亩剿鬟@個(gè)新的知識(shí)庫(kù)在網(wǎng)絡(luò)信息資源的組織傳播等諸多方面的功能和意義。

      雖然DBpedia有諸多優(yōu)點(diǎn),目前還是存在一些問(wèn)題,例如數(shù)據(jù)抽取的來(lái)源還未覆蓋詞條正文,而正文才是信息量最大最全面的部分,這需要從自然語(yǔ)言中抽取結(jié)構(gòu)化數(shù)據(jù)的技術(shù)支撐。此外,信息盒的覆蓋率與質(zhì)量、不同語(yǔ)言版本間的內(nèi)容出入等問(wèn)題,需要從維基百科和DBpedia兩個(gè)方面進(jìn)行探索。

      1.Wikipedia:DBpedia.〔2013-03-01〕.http://en.wikipedia.org/wiki/DBpedia

      2.DBpedia blog.〔2013-03-01〕.http://blog.DBpedia.org/

      3.金海.語(yǔ)義網(wǎng)數(shù)據(jù)管理技術(shù)及應(yīng)用.北京:科學(xué)出版社,2010:75

      4.劉巧玲.維基百科上的語(yǔ)義搜索.上海交通大學(xué)計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)碩士論文,2009

      5.圖片引自:Anja Jentzsch.DBpedia-Extracting structured data from Wikipedia,Presentation at Semantic Web In Bibliotheken(SWIB2009),Cologne,Germany,November 2009

      6.戴維民等.語(yǔ)義網(wǎng)信息組織技術(shù)與方法.上海:學(xué)林出版社,2008:11

      7.Christian Bizer,Jens Lehmann,Georgi Kobilarov,et al.DBpedia-A Crystallization Point for the Web of Data.Journal of Web Semantics:Science,Services and Agents on the World Wide Web,Issue 7,2009

      8.Christian Bizer,Jens Lehmann,etc.DBpedia-A Crystallization Point for the Web of Data.Journal of Web Semantics:Science,Services and Agents on the World Wide Web,Issue 7,Pages 154-165,2009

      9.譚潔清.關(guān)聯(lián)數(shù)據(jù)的簡(jiǎn)介與進(jìn)展.信息與電腦,2011(1):103-106

      10.朝樂(lè)門.基于語(yǔ)義Web的人機(jī)協(xié)同知識(shí)處理研究.圖書(shū)情報(bào)工作,2009(24):115-119

      11.朝樂(lè)門,張勇,邢春曉.DBpedia及其典型應(yīng)用.現(xiàn)代圖書(shū)情報(bào)技術(shù),2011(3):80-87

      猜你喜歡
      維基百科結(jié)構(gòu)化頁(yè)面
      維基百科影響司法
      刷新生活的頁(yè)面
      維基百科青年
      促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
      結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
      基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
      APP
      基于軟信息的結(jié)構(gòu)化轉(zhuǎn)換
      IBM的監(jiān)視
      意林(2014年2期)2014-02-11 11:09:17
      同一Word文檔 縱橫頁(yè)面并存
      汾阳市| 阳东县| 沿河| 普洱| 宣威市| 桓台县| 桦南县| 凌海市| 尖扎县| 扎囊县| 新乡市| 西青区| 万安县| 马龙县| 新沂市| 盐源县| 阳高县| 孝昌县| 南宫市| 秭归县| 同心县| 方正县| 新野县| 梁平县| 军事| 沈阳市| 霍林郭勒市| 常德市| 布尔津县| 宝清县| 固安县| 朝阳县| 东乌珠穆沁旗| 土默特右旗| 西峡县| 正阳县| 定南县| 岱山县| 宁海县| 万荣县| 呼伦贝尔市|