• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于臨床領(lǐng)域本體的語(yǔ)義信息檢索模型研究

      2016-06-13 03:03:11蔣秀林朱文婕謝靜陳玉娥
      關(guān)鍵詞:查全率查準(zhǔn)率

      蔣秀林,朱文婕,謝靜,陳玉娥

      (蚌埠醫(yī)學(xué)院公共課程部,安徽蚌埠233000)

      ?

      基于臨床領(lǐng)域本體的語(yǔ)義信息檢索模型研究

      蔣秀林,朱文婕,謝靜,陳玉娥

      (蚌埠醫(yī)學(xué)院公共課程部,安徽蚌埠233000)

      摘要:傳統(tǒng)的基于關(guān)鍵詞和關(guān)鍵詞向量空間的檢索模型在查全率和查準(zhǔn)率上效率較低,在臨床領(lǐng)域本體的基礎(chǔ)上,通過(guò)分析和討論了改進(jìn)的概念間語(yǔ)義相似度和相關(guān)度混合計(jì)算方法,提出基于臨床領(lǐng)域本體的語(yǔ)義信息檢索模型。實(shí)驗(yàn)結(jié)果表明,該混合計(jì)算方法是可行性的,能有效提高語(yǔ)義信息檢索模型的查準(zhǔn)率。

      關(guān)鍵詞:臨床領(lǐng)域本體;語(yǔ)義相似度計(jì)算;信息檢索模型;查全率;查準(zhǔn)率

      1概述

      在網(wǎng)絡(luò)技術(shù)和信息技術(shù)飛速發(fā)展的今天,信息資源飛速增長(zhǎng),用戶更多關(guān)注的是如何在海量的信息資源中快速高效地獲取所需要的知識(shí)。傳統(tǒng)的Web服務(wù)是通過(guò)關(guān)鍵字或關(guān)鍵字向量的相似度匹配來(lái)實(shí)現(xiàn)的,但缺乏語(yǔ)義關(guān)系,導(dǎo)致查全率和查準(zhǔn)率不高[1]。隨著領(lǐng)域本體概念的引入和語(yǔ)義Web技術(shù)的發(fā)展,大大提升了服務(wù)信息的語(yǔ)義表達(dá)能力,且大大提高了檢索系統(tǒng)的查全率和查準(zhǔn)率。

      在醫(yī)療領(lǐng)域,語(yǔ)義相似度和語(yǔ)義相關(guān)度計(jì)算不僅可以提高檢索醫(yī)學(xué)信息資源的性能,還可以有效地促進(jìn)異構(gòu)臨床知識(shí)的集成。目前國(guó)內(nèi)外已有大量的研究成果是關(guān)于概念間語(yǔ)義相似度和相關(guān)度計(jì)算的,這些成果中基于本體的語(yǔ)義相似度計(jì)算的方法主要分為基于語(yǔ)義距離的計(jì)算方法[2]、基于信息量的計(jì)算方法[3]、混合計(jì)算方法[4]3種,其中:第1種方法簡(jiǎn)單直觀,但只考慮語(yǔ)義距離,比較片面;第2種方法具有較高的理論嚴(yán)謹(jǐn)性,但依賴于語(yǔ)料庫(kù)的選擇;第3種方法考慮因素較全面,但計(jì)算公式復(fù)雜,計(jì)算效率會(huì)降低。

      針對(duì)上述情況,本文提出一種基于醫(yī)學(xué)領(lǐng)域本體的改進(jìn)的語(yǔ)義相似度和相關(guān)度混合計(jì)算方法,并應(yīng)用在語(yǔ)義信息檢索模型中。

      2基于臨床醫(yī)學(xué)本體的語(yǔ)義信息檢索模型構(gòu)建

      2.1醫(yī)學(xué)本體的概念

      領(lǐng)域本體(domain ontology)是專業(yè)性的本體,描述的是特定領(lǐng)域中概念和概念之間的關(guān)系,提供了某個(gè)專業(yè)學(xué)科領(lǐng)域中概念的詞表及概念間的關(guān)系,并研究如何定義特定領(lǐng)域中的概念、概念之間的關(guān)系、發(fā)生活動(dòng)以及該領(lǐng)域的主要理論和基本原理[5]。

      文中采用本體層次樹(shù)結(jié)構(gòu)描述醫(yī)學(xué)本體的概念體系,在層次樹(shù)中結(jié)點(diǎn)表示醫(yī)學(xué)本體中的概念,邊表示醫(yī)學(xué)本體中概念與概念之間的關(guān)系。采用Protégé工具編輯醫(yī)學(xué)本體,用OWL語(yǔ)言描述。鑒于實(shí)際使用的醫(yī)學(xué)領(lǐng)域本體的復(fù)雜性,文中給出一個(gè)簡(jiǎn)單的醫(yī)學(xué)本體實(shí)例,如圖1所示。

      圖1 醫(yī)學(xué)本體片段實(shí)例

      2.2改進(jìn)的語(yǔ)義相似度和相關(guān)度混合計(jì)算方法

      2.2.1基于語(yǔ)義距離的相似度計(jì)算方法

      在本體層次結(jié)構(gòu)樹(shù)中,概念間的相似度與概念在樹(shù)結(jié)構(gòu)中的距離有關(guān)。劉群等就認(rèn)為,如果2個(gè)概念間的語(yǔ)義距離越大,相似度就越低,反之則越高[6-8]。

      表1給出語(yǔ)義相似度計(jì)算的基本性質(zhì),用Sim(a,b)表示概念a和概念b之間的相似度。

      表1 語(yǔ)義相似度計(jì)算規(guī)則

      在本體層次樹(shù)中,假設(shè)邊的權(quán)值記作1,概念a所在結(jié)點(diǎn)到概念b所在結(jié)點(diǎn)的層次深度為h,概念a到概念b的語(yǔ)義距離為2個(gè)結(jié)點(diǎn)間所有連通路徑中最短路徑的邊的權(quán)重之和,記作dis(a,b)。對(duì)傳統(tǒng)的語(yǔ)義距離計(jì)算進(jìn)行擴(kuò)展,給出改進(jìn)的基于語(yǔ)義距離的語(yǔ)義相似度計(jì)算公式,如式(1)所示。

      (1)

      式中α、β為調(diào)節(jié)因子。

      2.2.2概念間的語(yǔ)義相關(guān)性

      相似性是相關(guān)性的一個(gè)特殊方面,它僅說(shuō)明2個(gè)概念在某些特殊方面有一定的重合,度量概念間語(yǔ)義關(guān)系的另一個(gè)重要指標(biāo)是語(yǔ)義相關(guān)度。一般用2個(gè)概念在同一語(yǔ)境中共同出現(xiàn)的可能性來(lái)衡量,取值在[0,1]之間。例如圖1中的“rhododendrondauricum”和“chronicbronchitis”相似度非常低,但相關(guān)度非常高,“rhododendrondauricum”是治療“chronicbronchitis”的藥物之一。

      文獻(xiàn)[6-7]中指出在本體層次結(jié)構(gòu)樹(shù)中,除了概念間的上下位關(guān)系外,還有概念間的關(guān)聯(lián)關(guān)系,而關(guān)聯(lián)關(guān)系通過(guò)最短路徑來(lái)描述,描述關(guān)聯(lián)關(guān)系的路徑比上下位關(guān)系的路徑要短。假設(shè)用minPath(a,b)表示概念a到概念b所經(jīng)歷的最短路徑長(zhǎng)度,則概念a和概念b的語(yǔ)義相關(guān)度計(jì)算公式如下

      (2)

      式中φ為可調(diào)節(jié)因子,為提高計(jì)算效率,設(shè)定φ=1。當(dāng)概念a和概念b不存在關(guān)聯(lián)時(shí),minPath(a,b)為∝,Rel(a,b)=0。

      2.2.3混合計(jì)算公式

      結(jié)合式(1)和式(2),給出改進(jìn)的混合計(jì)算公式,即

      SimRel(a,b)=θ1Sim(a,b)+θ2Rel(a,b)-Sim(a,b)×Rel(a,b)

      (3)

      式中θ1、θ2為調(diào)節(jié)因子,本文中為提高計(jì)算效率,均設(shè)定為1。

      2.3語(yǔ)義信息檢索模型構(gòu)建

      在臨床醫(yī)療信息檢索系統(tǒng)中,信息檢索的效率決定著醫(yī)護(hù)工作人員的工作效率,為降低知識(shí)匹配的復(fù)雜性及規(guī)模,提高知識(shí)匹配的效率,本文中使用雙層知識(shí)匹配模型。首先,對(duì)用戶檢索的條件進(jìn)行分詞處理,并用醫(yī)學(xué)本體(OWL語(yǔ)言)進(jìn)行描述。其次,采用模型中的第1層OWL-S進(jìn)行語(yǔ)義解析,得到檢索條件的語(yǔ)義知識(shí),再通過(guò)推理機(jī)進(jìn)行語(yǔ)義推理(不屬于本文研究的內(nèi)容),過(guò)濾掉不符合條件的知識(shí)本體。最后,采用第2層匹配進(jìn)行精確過(guò)濾,對(duì)第1層匹配的結(jié)果和醫(yī)學(xué)本體庫(kù)中的知識(shí),使用混合語(yǔ)義相似度計(jì)算方法進(jìn)行相似度計(jì)算,并對(duì)計(jì)算的結(jié)果進(jìn)行排序,返回給醫(yī)護(hù)人員選擇。語(yǔ)義信息檢索模型如圖2所示。

      圖2 語(yǔ)義信息檢索模型

      3實(shí)驗(yàn)分析和結(jié)果

      在圖1所示的簡(jiǎn)單醫(yī)學(xué)本體中,取部分概念按照綜合式(3)進(jìn)行語(yǔ)義相似度計(jì)算,并將結(jié)果與醫(yī)學(xué)領(lǐng)域?qū)<曳治龅慕Y(jié)果進(jìn)行對(duì)比。為提高計(jì)算效率,設(shè)定式(1)~(3)中的調(diào)節(jié)因子α、β、φ均為1,得到實(shí)驗(yàn)結(jié)果如表2所示。

      表2 部分臨床醫(yī)學(xué)概念語(yǔ)義相似度綜合計(jì)算結(jié)果及對(duì)比

      由表2可知,語(yǔ)義路徑的深度、語(yǔ)義概念間的距離以及語(yǔ)義概念之間的相關(guān)度對(duì)語(yǔ)義相似度的影響和現(xiàn)實(shí)中的臨床領(lǐng)域情況相符合。在未引入綜合計(jì)算公式時(shí),chronic bronchitis和bronchus 的相似度值0.148 6,遠(yuǎn)小于human body和bronchus 2個(gè)概念的相似度值0.473 2,顯然這不符合臨床領(lǐng)域的實(shí)際情況。因此,引入綜合計(jì)算公式意義重大,且計(jì)算結(jié)果與實(shí)際領(lǐng)域較接近。

      上述實(shí)驗(yàn)得到的數(shù)據(jù)將存放在知識(shí)庫(kù)中,在檢索臨床信息時(shí),根據(jù)輸入的數(shù)據(jù)和查詢閾值檢索出符合要求的詞表,并按照詞的權(quán)值大小進(jìn)行排序,存儲(chǔ)到知識(shí)庫(kù)中,為臨床信息檢索提供依據(jù),從而提高系統(tǒng)的查準(zhǔn)率。本文以江蘇省某醫(yī)院臨床信息管理系統(tǒng)為實(shí)踐背景,試驗(yàn)選取了項(xiàng)目組成員和5位臨床科室的工作人員測(cè)試了1周。從實(shí)驗(yàn)數(shù)據(jù)中選取了部分記錄(3 106條結(jié)果)計(jì)算和分析了基于語(yǔ)義距離的計(jì)算方法[9]、基于信息量的計(jì)算方法、混合計(jì)算方法[10]以及本文中的計(jì)算方法在該系統(tǒng)中的檢索覆蓋范圍(查準(zhǔn)率),如圖3所示。

      圖3 4種計(jì)算方法的查準(zhǔn)率比較

      4結(jié)語(yǔ)

      本文在傳統(tǒng)的相似度計(jì)算公式中引入語(yǔ)義距離、語(yǔ)義最短路徑和語(yǔ)義相關(guān)度,得到一個(gè)綜合計(jì)算語(yǔ)義相似度的計(jì)算機(jī)公式,并將該公式應(yīng)用于語(yǔ)義信息檢索模型中。通過(guò)實(shí)驗(yàn)驗(yàn)證了該計(jì)算方法的可行性和有效性,并驗(yàn)證了本文中的語(yǔ)義信息檢索模型在查準(zhǔn)率上有了一定的提高。一個(gè)好的信息檢索模型不僅要有高的查準(zhǔn)率,還要有高的查全率,因此今后還需在查全率方面進(jìn)行進(jìn)一步的研究。

      [參考文獻(xiàn)]

      [1]HECHMANN D,BRANDHERM B,SCHMITZ M,et al.Gumo:The general user model ontology[C]//International Conference on User Modeling.Springer-Verlag,2005:428-432.

      [2]徐德智,吳慶軍,陳建三,等.一種基于概念信息量的相似度傳播算法[J].計(jì)算機(jī)科學(xué),2009(36):174-178.

      [3]黃果,周竹榮.基于領(lǐng)域本體的概念語(yǔ)義相似度計(jì)算研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2007,28(10):2460-2463.

      [4]RESNIK P.Using information content to evaluate semantic similarity in a taxonomy[C]//Proceedings of the 14th International Joint Conference on Artifical Intelligence.Montreal:Mogan Kaufmann,1995.

      [5]蔣秀林,謝強(qiáng),丁秋林.基于領(lǐng)域本體的用戶模型的研究[J].計(jì)算機(jī)應(yīng)用研究,2012(2):606-608.

      [6]劉群,李素建.基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[J].中文計(jì)算語(yǔ)言學(xué),2002,7(2):59-76.

      [7]張艷霞,張英俊,潘理虎,等.一種改進(jìn)的概念語(yǔ)義相似度計(jì)算方法[J].計(jì)算機(jī)工程,2012(12):176-178.

      [8]劉宏哲,須德.基于本體的語(yǔ)義相似度和相關(guān)度計(jì)算研究綜述[J].計(jì)算機(jī)科學(xué),2012(2):8-13.

      [9]CASTELLS P,FERNANDEZ M,VALLET D.An adaptation of the vector-space model for ontology-based lnformation retrieval[J].Knowledge & Data Engineering IEEE Transactions on,2007,19(2):261-272.

      [10]LI Zhaolong,DU Junping.A conceptual semantic similarity calculation model based on tourism domain ontology[C]// 31st Chinese Control Conference.Hefei:IEEE CPP,2012:3863-3868.

      責(zé)任編輯:陳亮

      Semantic Information Retrieval Model Based on Clinical Domain Ontology

      JIANG Xiulin,ZHU Wenjie,XIE Jing,CHEN Yu′e

      (Department of Public Curriculum,Bengbu Medical College,Bengbu 233000)

      Abstract:The traditional retrieval model based on keywords and keyword vector space has a low efficiency in terms of recall and precision ratios.On the basis of the clinical domain ontology,the paper has analyzed and improved the computing methods of correlation between concepts and hybrid correlation.The paper also proposes a semantic information retrieval model based on clinical domain ontology.The experimental results show the feasibility of the method proposed,and it has effectively improved the efficiency of semantic information retrieval model in recall and precision ratios.

      Key words:clinical domain ontology;semantic similarity calculation;information retrieval model;recall ratio;precision ratio

      doi:10.3969/j.issn.1671- 0436.2016.02.010

      收稿日期:2016- 01-13

      基金項(xiàng)目:安徽省教育廳高等學(xué)校省級(jí)質(zhì)量工程項(xiàng)目(2014jyxm208);蚌埠醫(yī)學(xué)院科研項(xiàng)目(Byky1306;Byky1305)

      作者簡(jiǎn)介:蔣秀林(1987—),女,碩士,助教。

      中圖分類號(hào):TP391

      文獻(xiàn)標(biāo)志碼:A

      文章編號(hào):1671- 0436(2016)02- 0043- 04

      猜你喜歡
      查全率查準(zhǔn)率
      海量圖書(shū)館檔案信息的快速檢索方法
      基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)信息過(guò)濾系統(tǒng)設(shè)計(jì)
      基于詞嵌入語(yǔ)義的精準(zhǔn)檢索式構(gòu)建方法
      大數(shù)據(jù)環(huán)境下的文本信息挖掘方法
      基于深度特征分析的雙線性圖像相似度匹配算法
      基于顏色特征的生豬口蹄疫監(jiān)測(cè)方法研究
      中文分詞技術(shù)對(duì)中文搜索引擎的查準(zhǔn)率及查全率的影響
      CSCD引文檢索中提高查全率的方法探析
      基于Web的概念屬性抽取的研究
      一種基于微分流型的Web檢索算法
      和静县| 邻水| 汾阳市| 定陶县| 石嘴山市| 鄂托克前旗| 大荔县| 天台县| 共和县| 昌黎县| 通河县| 汉川市| 嵩明县| 贡觉县| 海原县| 乐至县| 同心县| 新晃| 青河县| 舒城县| 霍山县| 芮城县| 瓮安县| 栖霞市| 明星| 石柱| 温泉县| 慈溪市| 津南区| 南漳县| 北川| 南投县| 乐山市| 庆阳市| 武平县| 六枝特区| 横山县| 宁夏| 新乡县| 顺义区| 麻阳|