• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于本體的語義搜索研究綜述

      2015-06-24 21:39:51高華玲陸嬌嬌
      電腦知識與技術(shù) 2015年2期
      關(guān)鍵詞:信息檢索搜索引擎本體

      高華玲 陸嬌嬌

      摘要:基于本體的語義搜索將Web搜索帶入一個新時代。它使我們能夠在浩瀚的網(wǎng)頁中更加快速準(zhǔn)確地找到想要的信息。本體具有明確的概念描述,基于本體的搜索能夠評測關(guān)鍵詞之間的語義差異,從而在文檔或者查詢中找到更準(zhǔn)確的結(jié)果。因為所選本體的不同,基于本體的語義搜索方法也會不同。該文總結(jié)了多種不同的研究方法,并根據(jù)搜索相關(guān)技術(shù)的分類標(biāo)準(zhǔn)進行了比較。最后通過這些比較,找到今后進一步研究的方向。

      關(guān)鍵詞:本體;語義搜索;概念;關(guān)鍵詞

      中圖分類號:TP311 文獻標(biāo)識碼:A 文章編號:1009-3044(2015)02-0153-03

      1 引言

      語義網(wǎng)的目標(biāo)是擴展現(xiàn)有的Web標(biāo)準(zhǔn)和技術(shù),實現(xiàn)自動化地處理Web語義[1]。傳統(tǒng)的搜索引擎使用關(guān)鍵詞檢索用戶需要的信息,實際上在網(wǎng)頁搜索過程中,可以使用多種方式來表達查詢,將關(guān)鍵詞映射要相關(guān)主題的語義層。在搜索過程中使用本體能夠加強用戶與計算機之間的語義溝通,使查詢結(jié)果更接近用戶的需求。

      目前已經(jīng)公布的基于本體的搜索引擎有很多。它們的應(yīng)用領(lǐng)域和具體實現(xiàn)都有所不同,但是它們的目標(biāo)都是提高搜索的查全率和查準(zhǔn)率?;诒倔w的語義搜索能更加智能地在Web查詢過程中使用各種方法或結(jié)構(gòu)。研究人員常用領(lǐng)域本體表達特定領(lǐng)域知識的概念和關(guān)系。本文將介紹這些搜索引擎利用領(lǐng)域本體處理查詢請求所采用的不同方法。

      1)相關(guān)術(shù)語

      傳統(tǒng)的搜索依據(jù)的是關(guān)鍵詞是否在文檔中出現(xiàn)?;诒倔w的語義搜索定義為利用領(lǐng)域本體的背景知識庫進行信息檢索的過程。

      領(lǐng)域本體是具有層次結(jié)構(gòu)的術(shù)語集,這些術(shù)語是描述此領(lǐng)域知識庫的框架[2]。用實體、實例和屬性來表示詞語之間的關(guān)系或槽。基于本體的語義搜索的目的是最大化查準(zhǔn)率和查全率。

      2 分類標(biāo)準(zhǔn)

      本節(jié)介紹幾種不同的基于本體的搜索的分類標(biāo)準(zhǔn)。分類標(biāo)準(zhǔn)是在搜索過程中的重要步驟,包括:本體技術(shù),語義標(biāo)注,索引,排序,信息檢索模型(IR模型)和性能改進。

      1)本體技術(shù)

      本體是實現(xiàn)語義Web的基礎(chǔ),相關(guān)技術(shù)包括推理機,標(biāo)注工具,基于本體的爬蟲(2014屆國際智能計算的應(yīng)用會議中提出)和挖掘工具。在幾種不同的本體描述語言里,RDF和OWL得了廣泛的認可。Java語言提供了Jena API和AJAX技術(shù),可以用來存儲和處理RDF數(shù)據(jù)。

      2)語義標(biāo)注

      概括地說,語義標(biāo)注是在文本中分配實體,用以鏈接到它們的語義描述[15]。語義標(biāo)注分為手動語義標(biāo)注、半自動語義標(biāo)注和自動語義標(biāo)注三種類型。下面是語義標(biāo)注的先決條件:

      (1)本體,定義實體類;語義標(biāo)注中可能涉及到這些類。

      (2)實體標(biāo)識,允許區(qū)分并鏈接到它們的語義描述。

      (3)一個實體描述的知識庫。

      3)索引

      索引是為了更快的檢索信息而進行的信息存儲。一個搜索引擎必須保留在抓取過程中獲得的所有內(nèi)容,并以索引的形式存儲,以便下次更容易地查找。索引的目的是為了加快匹配過程。索引的分類:

      (1)轉(zhuǎn)發(fā)索引:存儲每個文檔的單詞列表。

      (2)倒排索引:為每個單詞存儲所有文檔的列表。

      (3)圖索引:給定一個查詢圖,查找索引并檢索答案集,驗證哪些圖包含查詢圖,返回查詢結(jié)果。

      4)排名

      排名取決于查詢結(jié)果的排序過程。搜索引擎會請求匹配和并為查詢結(jié)果進行排名。匹配是選擇元素的子集進行評分。排名是由相關(guān)概念的相似度決定的。排名是在句法/語義映射完成后,依據(jù)網(wǎng)頁的評分進行計算得來的。最后將已經(jīng)排序好的網(wǎng)頁結(jié)果進行索引之后返回給網(wǎng)頁的使用者。排名模型的類型如下:

      (1)句法排序模型:是依據(jù)查詢關(guān)鍵詞與搜索引擎數(shù)據(jù)庫相匹配而進行的搜索,從TF-IDF到谷歌PageRank,這些著名的信息檢索排名技術(shù)豐富了這種搜索的排名方法。

      (2)語義排序模型:搜索是基于結(jié)果的相關(guān)性,縮小了語法和語義之間的差距,根據(jù)相關(guān)性得到的結(jié)果集,可以更好的滿足用戶的需求。

      5)信息檢索模型(IR模型)

      IR模型的作用是提供一個形式化的信息發(fā)現(xiàn)過程。下面是3種IR模型:

      (1)布爾模型–一方面是基于關(guān)鍵詞的查詢,另一方面用關(guān)鍵詞的組合表示一個文檔,用關(guān)鍵詞的邏輯描述表示一個查詢

      (2)矢量模型–表示用戶查詢和文檔中的所有關(guān)鍵詞形成的空間矢量。

      (3) 概率模型–采用基于概率理論的數(shù)學(xué)模型。

      6)性能改進

      基于本體的語義搜索方法的性能可以用一定的標(biāo)準(zhǔn)來衡量,如查準(zhǔn)率,查全率,F(xiàn)值和平均查準(zhǔn)率。查準(zhǔn)率和查全率的值介于0和1之間,最大值為1。應(yīng)用本體的背景知識庫進行查詢,可以使查準(zhǔn)率和查全率得到提升。

      3 不同的搜索方法

      經(jīng)過大量文獻的閱讀,本文總結(jié)了14種不同的基于本體的搜索方法。依據(jù)上述分類標(biāo)準(zhǔn)進行詳細分析,討論它們實現(xiàn)語義查詢的不同解決方案。

      1)概念圖匹配方法

      基于本體的搜索早期的方法是使用概念圖匹配的方法進行語義搜索[3],這種方法定義了概念、關(guān)系和概念圖之間的語義相似度。這種語義匹配算法能夠計算資源CG(概念圖)和查詢CG之間的相似度。

      2)XSEarch

      它是一種基于XML的語義搜索引擎,能夠使用簡單的查詢語言,適合于初級用戶,并且為XML文檔的語義搜索引擎發(fā)展奠定了基礎(chǔ)。它只返回語義標(biāo)識,而不需要返回整個文檔[4]。它使用目前較為常用的TF-IDF技術(shù)進行信息檢索,計算查詢詞與文檔之間的相似度。它使用倒排索引,并根據(jù)語義相關(guān)性進行排序。

      3)本體驅(qū)動的語義搜索

      基于本體的語義搜索,使用現(xiàn)有的平臺進行資源檢索和語義標(biāo)注,使用本體描述領(lǐng)域知識庫,并在知識庫中進行查詢[5]。它還具有額外的功能,如使用本體導(dǎo)航進行推理,從而在查詢中獲取更多的有意義的資源。在這里,文檔使用RDF三元組進行語義標(biāo)注,RDF三元組能夠表示資源和本體概念結(jié)點之間的聯(lián)系。

      4)基于本體的信息檢索中向量空間模型的適用性

      這種方法包含一個基于本體的用于文檔半自動語義標(biāo)注的模型和一個檢索系統(tǒng)[6]。在文檔中,通過多個領(lǐng)域本體的概念描述,創(chuàng)建了知識庫,并關(guān)聯(lián)到相關(guān)的信息資源或文檔。KIM是一個語義信息擴展和檢索的平臺[17],在這個平臺上創(chuàng)建了KB系統(tǒng),能夠?qū)ξ臋n進行自動化的語義標(biāo)注。索引和排序是通過標(biāo)注權(quán)重并使用向量空間模型的信息檢索方法來實現(xiàn)。

      5)基于本體的用戶配置文件的學(xué)習(xí):基于語義的個性化web搜索方法

      該方法提出了一種基于本體配置文件的個性化搜索,本體配置文件給領(lǐng)域本體中的概念指派隱含的興趣得分[7]。該方法提出一個可擴展的激活算法,根據(jù)用戶當(dāng)前的行為在用戶的配置文件中更改興趣得分。領(lǐng)域本體中的每一個概念都根據(jù)這一興趣得分而進行標(biāo)注。通過所有子概念的文檔索引來建立概念的文檔索引。

      6)SPARK:采用關(guān)鍵詞查詢的語義檢索

      這是一種新方法,首先使用合適的關(guān)鍵詞查詢語義Web,然后將關(guān)鍵字查詢自動轉(zhuǎn)換為形式邏輯查詢,最終使用戶可以使用關(guān)鍵詞進行語義搜索[8]。概率查詢排序模型使用基于最小生成樹方法的SPARQL查詢算法,最小生成樹方法可以為查詢集合創(chuàng)建查詢圖。

      7)使用本體對關(guān)鍵詞進行解釋的語義查詢

      此方法使用本體的背景知識庫將關(guān)鍵詞查詢轉(zhuǎn)化成描述邏輯關(guān)聯(lián)查詢[9]。用戶輸入的關(guān)鍵詞使用Lucene搜索引擎進行處理。搜索引擎進行查詢處理后返回本體實體,并考慮半徑為d的范圍內(nèi)的本體實體。它將與實體連接的子圖可視化地返回給用戶,并高亮顯示實體匹配了的關(guān)鍵詞。

      8)Q2semantic:具有輕量級關(guān)鍵詞接口的語義搜索

      這種方法類似于SPARK方法和使用本體對關(guān)鍵詞解釋的語義搜索方法,但它解決了可擴展性問題,提出了一種新的聚類圖的結(jié)構(gòu)對應(yīng)于原始本體的概要[10]。它的查詢結(jié)果排序采用多種機制,比如查詢長度、與查詢相關(guān)的本體元素相關(guān)性和本體元素重要性。索引采用的是倒排索引和查詢索引。排序是基于本體元素(是概念,而不是關(guān)系和屬性)的關(guān)鍵詞匹配。

      9)對傳統(tǒng)的信息檢索和基于本體搜索模型進行交叉比較的TREC方法

      Fernandez等人比較了傳統(tǒng)的信息檢索模型和基于本體的搜索模型,使用的標(biāo)準(zhǔn)包括:

      (1)一個文本文檔集

      (2)查詢集和相應(yīng)文檔相關(guān)性的判斷集。

      (3)本體集和覆蓋查詢主題的知識庫。

      文檔集和查詢集、判斷集是信息檢索論壇和TREC(文本檢索會議)網(wǎng)站中使用最廣泛的數(shù)據(jù)集[11]。作為一個應(yīng)用案例,它所應(yīng)用的標(biāo)準(zhǔn)是基于本體的搜索模型和TREC 9、TREC 2001中最好的信息檢索系統(tǒng)。它使用RDF、OWL和DAML構(gòu)建本體,在背景知識庫中進行自動化語義標(biāo)注。

      10)提高元數(shù)據(jù)庫的數(shù)據(jù)發(fā)現(xiàn)機率的語義搜索

      帶Metacat元數(shù)據(jù)系統(tǒng)的語義搜索系統(tǒng)能夠存儲OWL-DL本體,另外語義標(biāo)注是將數(shù)據(jù)集屬性鏈接到本體元素中[12]。它是允許使用本體進行語義標(biāo)注的關(guān)鍵詞搜索。本體進行形式推理,更方便地通過科學(xué)的觀察進行語義描述。

      11)電子病歷的語義搜索和推理:基于概念的信息檢索方法

      這種方法處理了概念之間的語義差異問題,利用了SNOMED-CT本體的醫(yī)學(xué)領(lǐng)域知識庫,提高了查詢的準(zhǔn)確度[13]。根據(jù)基于SNOMED-CT本體而定義的醫(yī)學(xué)概念,將查詢詞和文檔進行轉(zhuǎn)化。將超過平均精度基線25%的關(guān)鍵詞進行倒排索引和語義相關(guān)度排名。

      12)基于本體的WEB查詢結(jié)果的語義排序方法

      這是一個新的基于語義的方法,提供了信息檢索系統(tǒng)的評價方法[14]。我們的目標(biāo)是增加搜索工具的選擇性和改善這些評價和證明,它是提高搜索引擎的性能和返回結(jié)果的相關(guān)性的有效途徑。WordNet本體用于提取查詢術(shù)語和語義預(yù)測,并基于由概念(非單詞)組成的語義向量構(gòu)建向量模型。

      13)使用RDF為同一類產(chǎn)品設(shè)計一個基于領(lǐng)域本體的特定網(wǎng)頁搜索引擎

      這種方法使用一種新的搜索模型,可以存儲特定領(lǐng)域中的特定網(wǎng)頁的RDF信息,提供更完整、全面的信息輸出,搜索引擎可以從搜索結(jié)果頁面中得到產(chǎn)品的基本信息,而不需要訪問搜索結(jié)果鏈接,從而節(jié)省搜索時間以及網(wǎng)頁的下載的時間[15]。這個模型通過本體概念的語法和權(quán)重計算下載頁面的相關(guān)度,根據(jù)相關(guān)度大小為查詢結(jié)果排序。

      14)OntDR:一個擴充的基于本體的文檔檢索方法

      這種方法提出了基于本體的文檔檢索的擴充方法,這種本體帶有數(shù)組索引 [16]。數(shù)組索引有助于獲得文檔之間的關(guān)系。數(shù)組索引通過本體定義的概念所產(chǎn)生的值和文檔進行比較而得到。

      4 評價

      按照分類標(biāo)準(zhǔn)比較文中所選的基于本體的搜索方法,并進一步討論未來的研究方向。本文所得的結(jié)論對于文中沒有提到的其他方法也是有效的。

      1)比較

      本文大多數(shù)方法都使用了RDF和DL聯(lián)合查詢的本體技術(shù)。這些方法都使用RDF進行半自動或者自動的語義標(biāo)注。語義標(biāo)注如果是正確的,它將會成為語義信息檢索最有效的一種方式。同時本文所選的搜索方法都提升了查全率和查準(zhǔn)率。

      索引的評價標(biāo)準(zhǔn)能夠判斷出某種方法是否利用了合適的索引技術(shù)和排序技術(shù),并會判斷檢索過程是否會更快更容易。很多方法都是用的倒排索引。本文中絕大多數(shù)搜索使用的是基于相似度計算的語法級排序。

      信息檢索方法絕大多數(shù)的方法是使用傳統(tǒng)的TF-IDF方法,這與排序標(biāo)準(zhǔn)相互依存。如果信息檢索是基于關(guān)鍵詞相關(guān)性的查詢,那么它就會減小語法和語義之間的差距。布爾模型和概率模型為語法級的信息檢索。向量空間模型為語義級的信息檢索模型。

      基于本體的語義搜索方法的性能測試標(biāo)準(zhǔn)有查全率、查準(zhǔn)率、F值和平均精度。本文預(yù)想如果搜索系統(tǒng)能夠利用標(biāo)注、索引、排序和適當(dāng)?shù)男畔z索方法,查詢過程一定會提高查全率和查準(zhǔn)率。

      2)未來的研究方向

      本節(jié)總結(jié)了一些開放性問題。分類標(biāo)準(zhǔn)需要進一步詳細地研究,研究方向可以為搜索詞映射到本體的元素,如屬性,關(guān)系,以及語義標(biāo)注和排序?;诒倔w的語義搜索未來更重要的研究方向如下:

      (1)本體的構(gòu)建:特定領(lǐng)域本體的構(gòu)建是一個繁瑣的過程,有許多的本體編輯工具如protégé可以使用,但還需要掌握更深層次的本體概念關(guān)系的相關(guān)知識。

      (2)本體導(dǎo)航:本體導(dǎo)航提供本體語義推理,使搜索請求獲取更加準(zhǔn)確的信息資源。聚焦和泛化的語義運算符允許本體進行導(dǎo)航,這值得進一步研究。

      (3)推理:目前只有在本體概念層的推理而沒有實現(xiàn)關(guān)系層和屬性層的推理[18],這需要進一步研究。

      5 總結(jié)

      本文介紹了基于本體的語義搜索方法的分類標(biāo)準(zhǔn),并討論了一些常見的因素和指標(biāo)的優(yōu)點??偨Y(jié)14種不同的基于本體的語義搜索方法,并對其技術(shù)指標(biāo)進行了比較。此外,明確了當(dāng)前需要解決的研究方向和開放性的問題。本文指出很多基于本體的信息檢索方法都是可用的,但是他們很少利用最有效的語義標(biāo)注、索引和檢索。為了更快地檢索到查詢結(jié)果,基于本體的語義檢索系統(tǒng),需要基于關(guān)鍵詞的含義而不是關(guān)鍵詞本身進行語義標(biāo)注,索引和排名,這是必不可少的。

      參考文獻:

      [1] Shadbolt, Nigel, Wendy Hall, Tim Berners-Lee. The semantic web revisited[J].Intelligent Systems, IEEE, 2006,21(3): 96-101.

      [2] Swartout, Bill. Toward distributed use of large-scale ontologies[C]. Proc. of the Tenth Workshop on Knowledge Acquisition for Knowledge-Based Systems,1996.

      [3] Zhong, Jiwei. Conceptual graph matching for semantic search[M].Conceptual Structures: Integration and Interfaces. Springer Berlin Heidelberg, 2002:92-106.

      [4] Cohen, Sara. XSEarch: A semantic search engine for XML[C]. Proceedings of the 29th international conference on Very large data bases-Volume 29.VLDB Endowment, 2003.

      [5] Bonino, Dario. Ontology driven semantic search[J]. WSEAS Transaction on Information Science and Application, 2004,1: 1597-1605.

      [6] Castells, Pablo, Miriam Fernandez, David Vallet. An adaptation of the vector-space model for ontology-based information retrieval[J].Knowledge and Data Engineering, IEEE Transactions on, 2007, 19: 261-272.

      [7] Sieg, Ahu, BamshadMobasher, Robin Burke. Learning ontology-based user profiles: A semantic approach to personalized web search[J].EEE Intelligent Informatics Bulletin, 2007: 7-18.

      [8] Zhou Qi,SPARK: adapting keyword query to semantic search[M].The Semantic Web.Springer Berlin Heidelberg, 2007:694-707.

      [9] Tran, Thanh.Ontology-based interpretation of keywords for semantic search[M].The Semantic Web.Springer Berlin Heidelberg, 2007:523-536.

      [10] Wang, Haofen. Q2semantic: A lightweight keyword interface to semantic search[M].The Semantic Web: Research and Applications. Springer Berlin Heidelberg, 2008:584-598.

      [11] Fernandez, Miriam. Using TREC for cross-comparison between classic IR and ontology-based search models at a Web scale.,2009.

      [12] Berkley, Chad. Improving data discovery for metadata reposi

      tories through semantic search." Complex, Intelligent and Software Intensive Systems[C], 2009 International Conference on.IEEE, 2009.

      [13] Koopman, Bevan. Towards semantic search and inference in electronic medical records: An approach using concept-based information retrieval[J].The Australasian medical journal ,2012,5: 482.

      [14] Bouramoul, Abdelkrim, Mohamed-KhireddineKholladi.An ontology-based approach for semanticsranking of the web search engines results[C].MultimediaComputing and Systems (ICMCS), 2012 International Conference on.IEEE, 2012.

      [15] Sinha, Sukanta, Rana Dattagupta.Designing an ontology based domain specific web search engine for commonly used products using RDF[C].Proceedings of the CUBE International Information Technology Conference.ACM, 2012.

      [16] Yadav, Poonam.OntDR: An Ontology-based Augmented Method for Document Retrieval[J].International Journal of Computer Applications, 2012.

      [17] Kiryakov, Atanas. Semantic annotation, indexing, and retrieval." Web Semantics: Science, Services and Agents on the World Wide Web,2004: 49-79.

      [18] Kr?tzsch, Markus. "Efficient rule-based inferencing for OWL EL[C].Proceedings of the Twenty-Second international joint conference on Artificial Intelligence-Volume Volume Three,AAAI Press, 2011.

      猜你喜歡
      信息檢索搜索引擎本體
      Abstracts and Key Words
      對姜夔自度曲音樂本體的現(xiàn)代解讀
      醫(yī)學(xué)期刊編輯中文獻信息檢索的應(yīng)用
      新聞傳播(2016年18期)2016-07-19 10:12:06
      基于神經(jīng)網(wǎng)絡(luò)的個性化信息檢索模型研究
      《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
      網(wǎng)絡(luò)搜索引擎亟待規(guī)范
      基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
      廣告主與搜索引擎的雙向博弈分析
      教學(xué)型大學(xué)《信息檢索》公選課的設(shè)計與實施
      河南科技(2014年11期)2014-02-27 14:10:19
      Care about the virtue moral education
      卷宗(2013年6期)2013-10-21 21:07:52
      彩票| 济宁市| 昌黎县| 图木舒克市| 蓝田县| 凤庆县| 亳州市| 平安县| 射洪县| 新泰市| 南京市| 甘泉县| 五大连池市| 温泉县| 桦川县| 云霄县| 龙川县| 申扎县| 遂溪县| 新宾| 乌兰察布市| 灵山县| 浏阳市| 玉树县| 鸡泽县| 张家界市| 昆山市| 阜新市| 潜山县| 宁阳县| 晴隆县| 霍山县| 东莞市| 读书| 黑山县| 宜城市| 越西县| 宜君县| 含山县| 凤翔县| 稻城县|