• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于本體的語義信息檢索模型研究

      2015-05-30 10:48:04趙彥鋒周曉紅
      軟件工程 2015年8期
      關鍵詞:相似度信息檢索本體

      趙彥鋒 周曉紅

      摘 要:為了彌補傳統(tǒng)檢索模型基于關鍵詞匹配的缺陷,探討領域本體的語義信息檢索模型。闡述了四元組本體內涵,給出了資源映射方案,制定了本體概念擴展策略,描述了本體概念相似度計算算法,并進行了實驗對比分析。結果表明:本體語義檢索模型查準率及查全率均高于傳統(tǒng)檢索模型,具有一定的理論及實用價值。

      關鍵詞:本體;語義;相似度;信息檢索

      中圖分類號:TP301 文獻標識碼:A

      Abstract:Aimed at the defects of the traditional keyword-based retrieval model,an ontology-based semantic query-oriented information retrieval model was built.Concept of four tuple ontology was defined,the resource mapping scheme was given,ontology concept expansion strategy was formulated, the concept similarity computing algorithm of ontology was described,and the experimental comparison was carried out.The results show that precision and recall rate of ontology semantic retrieval model are higher than the traditional retrieval model,this study has some theoretical and practical value.

      Keywords:ontology;semantic;similarity;information retrieval

      1 引言(Introduction)

      隨著互聯(lián)網技術的快速發(fā)展,人類已進入信息時代,尤其是當前大數(shù)據背景下網絡信息資源的數(shù)量越來越龐大,其已成為全球最大的信息庫,且網絡信息資源隨之呈現(xiàn)出更加復雜的特性,暴露出一些亟待解決的問題[1-3]。然而,傳統(tǒng)信息檢索模式面對文本字符串匹配的語法層面,缺乏針對信息表示及處理和理解的語義層面分析,即信息是豐富的,而知識卻是貧乏的,所以依賴傳統(tǒng)的信息檢索方式已很難滿足用戶需求,而本體及其相關理論技術的出現(xiàn)為解決這一問題提供了可能。

      本文將利用本體建立標簽之間的語義關系,并引入語義與Agent技術,實現(xiàn)標注系統(tǒng)的語義檢索,通過語義模型豐富的描述能力和強大的邏輯推理能力準確描述信息資源,以Agent組織完成用戶交互、信息檢索、信息過濾、結果返回,構建一種基于本體學習的能夠實現(xiàn)語義層面分析的檢索模型,以彌補傳統(tǒng)信息檢索的不足,進而從信息查全率和查準率方面改善信息檢索的效率。

      2 基于本體的語義檢索模型構建(Construction of semantic retrieval model based on ontology)

      基于領域本體的語義檢索,可依據領域本體知識庫對信息資源或文檔進行語義標注,本體概念的語義信息可借助本體概念定義及本體概念之間的關系進行描述,因為特定專業(yè)領域的概念可通過領域本體進行描述,這樣可使文檔或信息資源更具有語義,且可揭示出用戶檢索詞的語義,把從文檔和用戶查詢抽取的關鍵詞轉換為具有語義的本體概念,實現(xiàn)基于關鍵詞的語法檢索到基于本體概念的語義檢索的提升,其中,語義檢索與傳統(tǒng)基于關鍵詞匹配的檢索方式不同,因為語義檢索基于信息理解的語義層面對信息資源及用戶提交的檢索請求進行分析,語義檢索方式對檢索條件、信息組織以及檢索結果均賦予了語義成分,可從語義層面提高檢索精度[4-7]。

      2.1 領域本體的語義檢索理念

      基于領域本體的語義信息檢索,其理念在于使信息資源或文檔進行語義描述,借助領域本體知識庫完成對文檔和信息資源對象的語義標注,進而揭示出文檔和信息資源對象的語義理解,及其用戶檢索詞的語義信息,同時可實現(xiàn)領域本體檢索詞的語義擴展,最終完成理想檢索結果的獲取,具體檢索過程為:

      step1:構建并描述領域本體概念。描述領域本體概念,構建領域本體知識庫。

      step2:提取文檔或信息資源對象特征并進行資源映射。借助領域本體概念描述及知識庫構建和管理,對獲取的信息資源或文檔進行語義標注及資源映射,對信息資源或文檔語義內涵進行揭示。

      step3:制定本體概念擴展及查詢語義擴展策略。在領域本體概念描述的基礎上,對用戶查詢請求的語義信息進行揭示,并對用戶檢索詞進行語義擴展,檢索系統(tǒng)完成對生成的備選檢索詞集的檢索工作。

      step4:實現(xiàn)領域本體概念相似度算法。依賴本體概念結構圖,實現(xiàn)本體概念語義距離計算算法、本體概念節(jié)點深度計算算法及語義綜合相似度計算算法,以此服務于查詢結果排序環(huán)節(jié)。

      step5:對檢索系統(tǒng)的檢索結果進行排序。基于相關相似度計算算法及規(guī)則,完成用戶原始檢索詞及檢索系統(tǒng)返回檢索結果的相似度比較,基于相似度對檢索系統(tǒng)的檢索結果進行排序并反饋給用戶。

      2.2 領域本體語義檢索模型

      領域本體語義檢索模型,如圖1所示。

      (1)領域本體及其分類體系作為數(shù)據資源語義表征的核心,可對文檔或數(shù)據資源描述給予指導。領域知識也作為查詢擴展和查詢結果排序的基本依據。因此,領域知識的構建和維護,如領域本體、推理規(guī)則的構建和維護,離不開領域知識管理。

      (2)數(shù)據資源或文檔的語義可通過標注進行語義揭示,再借助文檔特征提取技術,從領域本體詞匯中獲取本體概念,建立數(shù)據資源或文檔的語義特征域,完成數(shù)據資源庫文檔的自動標注,并完成標注和索引信息資源或文檔的非語義特征,由此生成文檔索引庫和元數(shù)據庫。

      (3)基于文檔或數(shù)據資源標注信息構建索引庫,以此為依據,檢索出能滿足用戶需求的文檔或數(shù)據資源信息。

      (4)實現(xiàn)查詢擴展及結果排序,就是以領域本體生成的本體詞匯庫為依據,完成用戶查詢輸入文字的分詞工作,將用戶查詢分成本體概念集合和非本體概念集合。然后,分別對這兩個集合按相似度擴展,得到兩個查詢候選集合,以此為依據,借助相關相似度排序算法獲得排序后的查詢集,最后,完成查詢請求到索引庫及檢索庫的提交環(huán)節(jié),將查詢結果按查詢請求的相似度排序后,將結果推送給用戶。

      3 關鍵算法實現(xiàn)(Key algorithm implementation)

      3.1 四元組本體內涵及其數(shù)學描述

      基于四元組的本體概念描述為:,其中,表示用戶,描述使用標簽管理資源的用戶,并且每個用戶有唯一的ID號標識。表示標簽,描述集合中用戶使用過的標簽,標簽可以是任意的字符串(單詞或短語),現(xiàn)定義標簽為一組詞語序列,,

      ,公式描述標

      簽映射成一組術語,術語可以是任意單詞。表示資源,描述所有領域相關資源,其內容取決于用戶標注集的類型,用戶標注集主要由用戶、標簽、資源三個要素組成,即用進行描述。表示三元關系,其中元素描述用戶使用標簽標注收藏的資源。函數(shù)式描述用戶使用一組標簽定義一個資源,其中 。

      為了理解用戶標簽含義及標簽之間的關系,構建主干本體,用二元組進行描述:,

      其中表示概念集,概念,是概念的唯一標識,是同義詞集合,包含了概念的同義術語集合,是描述概念的短語,是將概念分類到泛化類中的詞類,也可將四個元素分別記為:,,,;

      表示概念集之間的關系。現(xiàn)定義為一組同義詞集合,資源,定義一組同義詞集合及里資源,,每個資源用二元組表示為:,

      其中,為資源的頻率分配。三元組表示關系集合中的關系,其中,,,是關系的兩個關系項。

      3.2 資源映射方案設計

      一個標簽可以映射成一個或多個概念,也有可能只有部分標簽可以映射成一個或多個概念,現(xiàn)提供幾種資源映射方法。

      (1)直接映射

      直接映射描述標簽到概念的映射,即將每個標簽映射到本體中的概念,可表示為:

      3.3 本體概念擴展策略制定

      (1)本體概念擴展

      本體概念擴展步驟如下。

      step1:對每個本體概念進行擴展。

      為領域本體概念集,為兩個本體概念的相似度。如果對本體概念進行語義擴展可形成,

      其中集合中每個元素要么為空,要么,且,。

      也就是說,可基于相關相似度計算算法擴展單個本體概念,選擇相似度大于給定閾值的本體概念,并且被選取的本體概念同其他用戶本體概念之間的相似度,比該被選取本體概念同當前單個本體概念之間的相似度小。

      step2:構建本體概念查詢集。對用戶本體概念集的元素進行擴展,其中的每個概念元素都可擴展為一個擴展集,可分別從每個中進行本體概念的選取,構建本體概念查詢集,查詢本體概念集的組員就是從每個本體概念擴展集中選取的概念,查詢本體概念集描述為:

      (2)擴展關鍵詞集合

      關鍵詞的擴展相對簡單,因為關鍵詞不是本體概念,所有擴展的集合所組成的集合為原關鍵詞集的冪集,記為,其中的元素本身也是集合,且與用戶輸入的原關鍵詞集之間的相似度計算也并不復雜,現(xiàn)令為冪集中的元素,則與之間的相似度計算模型為:

      3.4 本體概念相似度算法

      領域本體可描述特定領域中的概念及其關系,并可形成本體概念結構圖,該本體圖可計算本體概念相似度,其實本體概念結構圖可看作為帶有根節(jié)點的有向無環(huán)圖,本體概念用圖中的節(jié)點進行表示,概念之間的關系通過有向邊進行表示,且該本體概念結構圖具有樹型結構的層次結構特性,及有向邊和多重繼承的特性。具體算法步驟如下:

      step1:本體概念語義距離的計算。

      基于本體概念圖,本體概念的語義距離表現(xiàn)為連接兩個概念節(jié)點的有向邊的數(shù)量,記為。本體概念語義距離與本體概念語義相似度之間的關系為:兩本體概念語義之間的距離越大,則這兩個本體概念之間的相似度越小;反之,兩本體概念語義之間的距離越小,則其之間的相似度就越大,即兩者成反比關系。

      step2:本體概念父節(jié)點深度的計算。

      基于本體概念所體現(xiàn)的層次結構特點,對本體概念節(jié)點進行自頂向下的組織,及由大到小的分類,依據本體概念最近共同父節(jié)點所在層次,可知其層次越深,本體概念分類越細,從其父節(jié)點繼承的語義信息就越多,其共同語義信息就越多,即這兩個本體概念間的相似度就越大?,F(xiàn)用描述兩概念的最近共同父節(jié)點深度,表示兩概念最近共同父節(jié)點。

      step3:計算語義重合度。

      本體概念之間的語義重合度計算可依據兩本體概念間所包含的相同父節(jié)點個數(shù)來完成,但如果同時對本體概念語義距離和本體概念語義重合度加以考慮,則存在重復計算的可能性,因為本體概念語義距離中隱含著本體概念語義重合度信息,所以可基于本體概念語義距離和共同父節(jié)點在本體概念結構圖中的深度,計算出本體概念相似度,令兩本體概念 、,則、的語義相似度可通過、的語義綜合距離和、共同父節(jié)點的綜合深度對相似度影響的加權歸一化進行表示,計算如下:

      其中,為語義距離加權值,表示共同父節(jié)點的加權值,且滿足,語義距離決定的相似度可通過調節(jié)參數(shù)進行調節(jié),表示本體概念樹的最大深度。

      step4:本體概念綜合相似度計算。

      如果對用戶檢索詞集中的本體概念進行語義擴展,可生成查詢語義擴展集,記為,如果對用戶檢索詞集中的非本體概念的關鍵詞集進行擴展,可生成關鍵詞集的冪集,記為,現(xiàn)從中取一元素,記為,該元素是一個擴展概念集,再從中取一元素,記為,該元素為一個擴展關鍵詞集,便可形成一個提交給檢索系統(tǒng)的檢索請求,表示為(,),令用戶檢索詞集為(,),每一個擴展的檢索請求記為(,),則通過(,)和(,)相似度的計算,可得到用戶檢索詞集和檢索結果的相似度?,F(xiàn)基于擴展關鍵詞集相似度、擴展本體概念集相似度、分類概念集相似度,可計算出綜合相似度,數(shù)學描述如下:

      其中,、為調節(jié)參數(shù),代表本體概念集相似度與綜合相似度的比值,代表關鍵詞集相似度與綜合相似度的比值,且。

      4 實驗與結果分析(Experiment and result analysis)

      本實驗環(huán)境為:Windows 7操作系統(tǒng),SQL SERVER 2008數(shù)據庫平臺,模型數(shù)據庫動態(tài)鏈接查詢實現(xiàn)工具為某專業(yè)數(shù)據庫數(shù)據及WEB技術。建立領域本體的開發(fā)工具為:5.0的PROPERTY BROWSER環(huán)境,每個詞條類的構建借助Object Property屬性實現(xiàn),因為Object屬性可在類與類之間建立不同層次的關系描述,而且兩個Object屬性之間存在多種關系。如果基本父類建立完成后,還可為每個父類添加不同的子類和屬性,同時還具有繼承特性,即所有子類都可繼承其父類的基本屬性。

      實驗步驟為:

      step1:對選取知識本體的專業(yè)領域及范圍進行確定,基于自頂向下的順序,構建本體概念和術語清單。

      step2:對基礎詞庫進行完善。

      step3:依據分類體系層次,對本體實例進行添加,構建整個領域本體。

      本體概念語義信息檢索模型測試指標通過查準率和查全率進行衡量,分別描述為:

      查全率:

      查準率:

      同時,借助對檢索結果進行評價及對比分析,以便于全面衡量其檢索效果,的計算公式描述為:

      它為檢驗本體概念語義信息檢索模型,將其與傳統(tǒng)關鍵詞檢索模型進行實驗對比分析,對抽取的某領域的標準詞條進行測試,從中隨機選擇四個詞條實驗樣本,分別以相同詞條在本文模型和基于關鍵詞模型中檢索,實驗結果詳見表1、表2和圖2所示。

      由以上實驗結果可知,領域本體概念的語義信息檢索模型效率高于傳統(tǒng)關鍵詞信息檢索模型,且語義檢索的 也高于傳統(tǒng)關鍵詞檢索,表明本體概念語義檢索模型具有一定的理論及實用價值。

      5 結論(Conclusion)

      論文構建了面向語義查詢的信息檢索模型,對資源映射方案、信息概念擴展、相似度計算等進行了改進,實驗結果證明該模型具有較高的查全率和查準率。今后的工作中,將繼續(xù)研究本體結構中,如何查找到更多概念鄰居,以減少數(shù)據稀少的影響,進而提高檢索效率。

      參考文獻(References)

      [1] Zhang Bin,et al.Combining relation and content analysis for social tagging recommendation[J].Journal of Software,2012,23(3):476-488.

      [2] 呂剛,王曉峰,胡春玲.基于本體學習的標簽推薦方法研究[J].小型微型計算機系統(tǒng),2015,3(3):424-426.

      [3] 何繼媛,竇永香,劉東蘇.大眾標注系統(tǒng)中基于本體的語義檢索研究綜述[J].現(xiàn)代圖書情報技術,2011,203(3):51-56.

      [4] 魏桂英,高學東,武森.基于領域本體的個性化文本信息檢索[J].遼寧工程技術大學學報,2011(4):316-320.

      [5] 張宗仁,楊天奇.基于自然語言理解的SPARQL本體查詢[J].計算機應用,2010,30(12):3397-3400.

      [6] 何偉,楊小平.基于詞間語義關聯(lián)性的本體擴展[J].計算機應用與軟件,2011,28(11):73-76.

      [7] 張勝.一種基于領域本體的語義檢索模型[J].軟件導刊,2014,13(3):18-21.

      作者簡介:

      趙彥鋒(1976-),男,碩士,高級工程師.研究領域:軟件工程,網絡安全.

      周曉紅(1968-),女,碩士,實習師.研究領域:軟件工程,人事管理.

      猜你喜歡
      相似度信息檢索本體
      Abstracts and Key Words
      哲學分析(2023年4期)2023-12-21 05:30:27
      對姜夔自度曲音樂本體的現(xiàn)代解讀
      中國音樂學(2020年4期)2020-12-25 02:58:06
      改進的協(xié)同過濾推薦算法
      模糊Petri網在油田開發(fā)設計領域的應用研究
      相似度算法在源程序比較中的應用
      醫(yī)學期刊編輯中文獻信息檢索的應用
      新聞傳播(2016年18期)2016-07-19 10:12:06
      影響母線負荷預測的因素及改進措施
      科技視界(2016年10期)2016-04-26 11:40:14
      基于神經網絡的個性化信息檢索模型研究
      《我應該感到自豪才對》的本體性教學內容及啟示
      文學教育(2016年27期)2016-02-28 02:35:15
      教學型大學《信息檢索》公選課的設計與實施
      河南科技(2014年11期)2014-02-27 14:10:19
      牙克石市| 肥城市| 昌江| 临汾市| 宜章县| 民权县| 昌宁县| 卓尼县| 庄河市| 迁安市| 寻乌县| 监利县| 东平县| 江源县| 湖州市| 武威市| 黔西县| 龙山县| 越西县| 磴口县| 巨野县| 固阳县| 江口县| 克什克腾旗| 汤阴县| 赤壁市| 绿春县| 平江县| 镇康县| 武乡县| 广汉市| 石阡县| 九江县| 黑山县| 武夷山市| 手游| 化德县| 岑巩县| 无极县| 富蕴县| 怀仁县|