• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      本體理念的信息檢索方案查詢(xún)與應(yīng)用初探

      2014-12-31 00:00:00方鵬

      摘 要:信息檢索是指根據(jù)用戶(hù)的需求,從已有的檢索工具或數(shù)據(jù)庫(kù)中查找所需信息的過(guò)程。本體作為一種客觀描述,有著良好的概念層次結(jié)構(gòu),能夠利用公理對(duì)概念及概念間關(guān)系進(jìn)行推理,從而明確各種關(guān)系,建立知識(shí)間的概念模型。本體理念的信息檢索可對(duì)信息源進(jìn)行語(yǔ)義標(biāo)引,提高查全率和查準(zhǔn)率,幫助用戶(hù)準(zhǔn)確的找到真正需要的信息。本文將從本體的基本概念出發(fā),對(duì)本體理念在信息檢索中的應(yīng)用進(jìn)行初步探析,建立基于本體的信息檢索系統(tǒng),提高信息檢索效率。

      關(guān)鍵詞:本體;信息檢索;信息檢索系統(tǒng)

      中圖分類(lèi)號(hào):TP393.08

      隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的不斷進(jìn)步和發(fā)展,互聯(lián)網(wǎng)進(jìn)入了人們生活的各個(gè)領(lǐng)域,檢索方式也由原來(lái)的脫機(jī)檢索、聯(lián)機(jī)檢索發(fā)展為今天的網(wǎng)絡(luò)檢索。然而,網(wǎng)絡(luò)檢索給人們帶來(lái)方便的同時(shí),也給信息檢索帶來(lái)了麻煩。信息檢索是指根據(jù)用戶(hù)的需求,從已有的檢索工具或數(shù)據(jù)庫(kù)中查找所需信息的過(guò)程,如何快速、準(zhǔn)確地檢索到用戶(hù)所需要的信息是信息檢索面臨的問(wèn)題。因此,提高檢索效率,提高查全率、查準(zhǔn)率,探討新的檢索模式是信息檢索發(fā)展的必然趨勢(shì)。本體理念有著良好的概念層次結(jié)構(gòu),是近幾年學(xué)術(shù)研究的熱點(diǎn),它的應(yīng)用和推廣必然推動(dòng)信息檢索的發(fā)展。

      1 本體的基本概念

      本體作為一種信息表達(dá)形式,有著良好的概念層次結(jié)構(gòu),具有較強(qiáng)的表達(dá)能力。本體對(duì)邏輯推理的支持能夠更好地表達(dá)概念之間的關(guān)系,使得信息具有一定的層次結(jié)構(gòu)。

      1.1 本體的概念。本體是指對(duì)客觀存在物體的一種系統(tǒng)地描述,它并不是具體指某個(gè)人描述該事物使用的具體語(yǔ)言,而是將計(jì)算機(jī)的表達(dá)方式和人類(lèi)的表達(dá)方式統(tǒng)一。Gruber認(rèn)為:本體就是指給出構(gòu)成相關(guān)領(lǐng)域詞匯的基本術(shù)語(yǔ)和關(guān)系,以及利用這些術(shù)語(yǔ)和關(guān)系構(gòu)成的規(guī)定這些詞匯外延的規(guī)則。Borst Pim則認(rèn)為:本體是概念模型的規(guī)范說(shuō)明。Studer認(rèn)為:本體是指共享概念模型的形式化規(guī)范說(shuō)明。第一,概念模型。所謂概念模型,是將客觀世界中一些現(xiàn)象抽象為形同概念而得到得到的,獨(dú)立于具體的環(huán)境。第二,形式化。指本體是計(jì)算機(jī)可讀的。第三,共享。共享指本體是針對(duì)團(tuán)體所達(dá)成的共同認(rèn)可的知識(shí)。

      1.2 本體的功能。本體作為知識(shí)的一種表達(dá)形式,它能夠?qū)⒂?jì)算機(jī)與人類(lèi)的表達(dá)方式統(tǒng)一,也能夠?qū)⑿g(shù)語(yǔ)和概念統(tǒng)一。我們通常認(rèn)為本體的功能有以下幾種:首先,本體為所有的語(yǔ)言提供了一個(gè)共同的標(biāo)準(zhǔn),將語(yǔ)言規(guī)范化,為人們的交流提供了方便。其次,本體可以將不同軟件系統(tǒng)集合在一起,給不同的軟件系統(tǒng)提供了平臺(tái),促進(jìn)軟件系統(tǒng)的互操作。最后,本體能夠?qū)z索系統(tǒng)規(guī)范化,使得信息更容易被共享和重用。此外,形式化的本體可以提高軟件的可靠性,方便設(shè)計(jì)者對(duì)軟件的檢查。

      1.3 本體的分類(lèi)。本體按照其研究范圍的分類(lèi)標(biāo)準(zhǔn)進(jìn)行分類(lèi),可以分為通用本體和領(lǐng)域本體。通用本體是指研究通用的概念、通用屬性,如空間、時(shí)間等等,并不局限在特定的領(lǐng)域。構(gòu)建通用本體的過(guò)程與構(gòu)造詞典相似,目前常用的通用本體有Wordnet 和 Hownet。領(lǐng)域本體是指描述具體領(lǐng)域知識(shí)的概念和屬性,描述某個(gè)領(lǐng)域的知識(shí)。目前,領(lǐng)域本體比較匱乏,相對(duì)成熟的是生物學(xué)本體、醫(yī)學(xué)本體。領(lǐng)域本體庫(kù)的構(gòu)建需要領(lǐng)域?qū)<业膮⑴c,并且要與共同達(dá)到的學(xué)術(shù)一致。

      1.4 本體的構(gòu)建方法。根據(jù)目前認(rèn)可度較高的Gruber提出的本體構(gòu)建規(guī)則,學(xué)界提出了多種構(gòu)建方法。認(rèn)可度最高的是斯坦福大學(xué)醫(yī)院開(kāi)發(fā)的七步法:確定專(zhuān)業(yè)領(lǐng)域范圍;考查現(xiàn)有本體尋找復(fù)用機(jī)會(huì);列出該領(lǐng)域的術(shù)語(yǔ);對(duì)該領(lǐng)域事務(wù)進(jìn)行分類(lèi);定義類(lèi)的屬性、類(lèi)與類(lèi)之間的關(guān)系;定義屬性的分娩;創(chuàng)建屬于該類(lèi)的實(shí)例。

      1.5 本體描述語(yǔ)言。本體描述語(yǔ)言隨著網(wǎng)絡(luò)發(fā)展而發(fā)展,并且具備多種功能使得本體在不同系統(tǒng)之間互操作。本體描述語(yǔ)言需要提供機(jī)器可讀的形式,能夠?qū)崿F(xiàn)自然語(yǔ)言與機(jī)器表達(dá)形式的轉(zhuǎn)化。目前,常用的本體描述語(yǔ)言主要有RDF、OWL,本文介紹RDF模型,以下是對(duì)這種語(yǔ)言的具體介紹。

      RDF包括3種實(shí)體:資源和實(shí)體、屬性、聲明。資源和實(shí)體是對(duì)資源進(jìn)行標(biāo)識(shí);屬性是對(duì)資源的各個(gè)方面進(jìn)行定義,如特征等;聲明是指對(duì)已經(jīng)被命名的屬性且被賦值的特定資源,即RDF聲明。

      RDF模型的描述方式通常有以下幾種方式:簡(jiǎn)化三元組方式,用尖括號(hào)將三元組的主語(yǔ)、位于、賓語(yǔ)隔離;RDF模型圖方式,是以圖形的方式將三元組描述的聲明表現(xiàn)出來(lái),資源、字符串節(jié)點(diǎn)、屬性分別用橢圓、方框、連線(xiàn)來(lái)表示;RDF/XML方式,這種表達(dá)方式是按照RDF/XML語(yǔ)法和編碼規(guī)則描述RDF模型,并將這種模型存放在計(jì)算機(jī)中。

      2 基于本體的信息檢索系統(tǒng)

      隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,傳統(tǒng)的信息檢索已無(wú)法滿(mǎn)足人們的需求。傳統(tǒng)的信息檢索主要采用結(jié)構(gòu)化信息表示方式,要求有較高的查準(zhǔn)率。但是,傳統(tǒng)的信息檢索存在一定局限性,如文檔的添加較為復(fù)雜,增加了工作人員的工作量;結(jié)構(gòu)化信息表達(dá)形式限制了用戶(hù)的輸入,只能輸入與數(shù)據(jù)庫(kù)一致的信息才能得到檢索結(jié)果,而非結(jié)構(gòu)化信息表達(dá)形式在一定程度上放寬了用戶(hù)的輸入限制,采用關(guān)鍵字匹配的方式,但是不能滿(mǎn)足語(yǔ)義檢索的要求,因此,不能提高查全率,出現(xiàn)漏檢的情況。

      基于本體的信息檢索系統(tǒng)能夠主動(dòng)理解用戶(hù)要求,通過(guò)邏輯推理后進(jìn)行檢索。同時(shí),本體理念的信息檢索系統(tǒng)可以將計(jì)算機(jī)的表達(dá)方式與人類(lèi)的表達(dá)方式統(tǒng)一,實(shí)現(xiàn)計(jì)算機(jī)與人類(lèi)的同語(yǔ)言交流。

      基于本體的信息檢索包含以下幾個(gè)模塊:文檔預(yù)處理操作、構(gòu)建索引、擴(kuò)展合并用戶(hù)查詢(xún)?cè)~、構(gòu)造檢索模型、排序算法。文檔預(yù)處理操作是指利用分詞技術(shù)將大段文字分割成詞語(yǔ),經(jīng)過(guò)詞法分析后,刪除沒(méi)有語(yǔ)義的詞匯,減少文檔的冗余。利用倒排文檔可將索引與原文檔相連,檢索詞作為索引大大提高了檢索效率。用戶(hù)輸入檢索詞后,系統(tǒng)需要通過(guò)一定的預(yù)處理、或者是通過(guò)查詢(xún)處理算法,擴(kuò)展合并查詢(xún)?cè)~,推理用戶(hù)的檢索需求,從而提高查準(zhǔn)率。構(gòu)造檢索模型能夠迅速匹配用戶(hù)查詢(xún)的相關(guān)信息,提高檢索效率。排序算法是指利用某種算法將與檢索詞相關(guān)性最強(qiáng)的檢索結(jié)果放在前面,讓用戶(hù)先看到想要的結(jié)果。

      為了提高檢索的查全率、查準(zhǔn)率,基于本體的信息檢索系統(tǒng)還可以提供多類(lèi)型的檢索模式,本體檢索作為基礎(chǔ)檢索,關(guān)系檢索和屬性檢索為用戶(hù)提供高級(jí)檢索,為用戶(hù)提供知識(shí)間的聯(lián)系,如果用戶(hù)需要個(gè)性化服務(wù),還可以提供回溯檢索。本體理念的信息檢索系統(tǒng)可以將關(guān)鍵詞進(jìn)行概念匹配,用戶(hù)在不具備專(zhuān)業(yè)檢索技能的情況下,也能迅速并準(zhǔn)確的檢索到所需要的的信息,給用戶(hù)帶來(lái)全新的極富人性化的體驗(yàn)。

      3 結(jié)束語(yǔ)

      基于本體的信息檢索需要構(gòu)建本體領(lǐng)域知識(shí)庫(kù),以本體的相關(guān)理論為基礎(chǔ)。由于理論的復(fù)雜性和技術(shù)難關(guān)等原因,目前國(guó)內(nèi)外還沒(méi)有對(duì)本體信息檢索系統(tǒng)進(jìn)行大規(guī)模應(yīng)用。本體知識(shí)庫(kù)雖然在技術(shù)上較為先進(jìn),但是就目前的發(fā)展水平來(lái)看,本體信息檢索只能停留在研究的初期,還有許多技術(shù)難關(guān)要攻克。如何構(gòu)建本體知識(shí)庫(kù)、充分利用本體表示形式帶來(lái)的優(yōu)勢(shì)仍有待進(jìn)一步研究,使用本體直接進(jìn)行匹配,將文檔進(jìn)行本體化,實(shí)現(xiàn)文檔的自動(dòng)標(biāo)引,提供以自然語(yǔ)言為主的概念檢索和關(guān)系檢索模式,提供更人性化的服務(wù)。總之,基于本體的信息檢索,能夠同時(shí)提高查全率和查準(zhǔn)率,提高檢索效率。本文的觀點(diǎn)仍有不成熟之處,希望諸位同仁對(duì)本體信息檢索系統(tǒng)模式進(jìn)行進(jìn)一步分析和研究,隨著本體技術(shù)的不斷發(fā)展,基于本體的信息檢索也會(huì)不斷發(fā)展和完善。

      參考文獻(xiàn):

      [1]易運(yùn)暉,朱暢華,裴昌幸.偏振旋轉(zhuǎn)的量子私有信息檢索方案[J].電子與信息學(xué)報(bào),2012(10).

      [2]李宏佳,劉國(guó)華,李金才.相互協(xié)作中的私有信息檢索方案[J].計(jì)算機(jī)工程與設(shè)計(jì),2010(13).

      [3]邢曉輝,牟義軍.一種基于本體的信息檢索方案[J].山東科學(xué),2011(02).

      作者簡(jiǎn)介:方鵬(1974-),男,教師,研究方向:數(shù)據(jù)庫(kù)技術(shù)應(yīng)用。

      作者單位:長(zhǎng)江職業(yè)學(xué)院,武漢 430074

      基金項(xiàng)目:本文為長(zhǎng)江職業(yè)學(xué)院校級(jí)教科研項(xiàng)目“基于數(shù)據(jù)庫(kù)技術(shù)的信息檢索應(yīng)用研究”(項(xiàng)目編號(hào):2011X011)階段性成果。

      永清县| 阿合奇县| 奉节县| 濮阳市| 壤塘县| 绿春县| 永兴县| 南开区| 多伦县| 姜堰市| 乐至县| 雷波县| 莲花县| 台山市| 呼图壁县| 新兴县| 兰坪| 乐都县| 江孜县| 麻栗坡县| 稻城县| 长沙市| 台山市| 喀喇| 平江县| 河源市| 新宁县| 清原| 岳阳市| 卓尼县| 西峡县| 邮箱| 盐亭县| 敦化市| 保亭| 乳山市| 石城县| 莱州市| 邵武市| 古蔺县| 怀宁县|