• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于UMLS的醫(yī)學(xué)資源庫(kù)語(yǔ)義擴(kuò)展檢索系統(tǒng)架構(gòu)

      2014-02-25 10:52:18凌晨解曉峰王一鴻王毅
      電腦知識(shí)與技術(shù) 2014年1期
      關(guān)鍵詞:搜索資源庫(kù)

      凌晨 解曉峰 王一鴻 王毅

      摘要:基于UMLS的醫(yī)學(xué)資源庫(kù)的搜索模塊通過(guò)將搜索關(guān)鍵詞的映射到UMLS超級(jí)敘詞表中相關(guān)概念的詞串,經(jīng)過(guò)“OR”運(yùn)算,進(jìn)行語(yǔ)義擴(kuò)展的搜索。可以提高查準(zhǔn)率和查全率。可以使用MetaMap映射工具,也可以直接訪(fǎng)問(wèn)超級(jí)敘詞表;可以采用本地?cái)?shù)據(jù)訪(fǎng)問(wèn)和使用WEB服務(wù)兩種方式的系統(tǒng)架構(gòu)來(lái)訪(fǎng)問(wèn)UMLS。

      關(guān)鍵詞:UMLS;資源庫(kù);語(yǔ)義擴(kuò)展;搜索

      中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)01-0163-03

      1 醫(yī)學(xué)資源庫(kù)的知識(shí)組織及檢索的不足

      在醫(yī)學(xué)資源庫(kù)中,資源以視頻、音頻、動(dòng)畫(huà)、文檔、PPT、積件等多媒體形式存在。資源入庫(kù)必須以人工標(biāo)注的方式進(jìn)行元數(shù)據(jù)標(biāo)注。傳統(tǒng)的醫(yī)學(xué)資源庫(kù)的資源檢索采用的是關(guān)鍵詞匹配。有的檢索系統(tǒng)會(huì)在關(guān)鍵詞匹配的基礎(chǔ)上增加類(lèi)別限制、時(shí)間限制、作者限制等范圍限制來(lái)提高搜索的精確性。但是語(yǔ)言常常具有多義性、同義性、模糊性,比如Aspirin(阿司匹林)和Acetylsalicylic acid(乙酰水楊酸)、Cancer(癌癥)和Malignant of neoplasm(惡性腫瘤)、Scar(傷疤)和Cicatrix(疤痕)分別都是同義詞,但是各自都是完全不同的關(guān)鍵詞。所以按照關(guān)鍵詞搜索不可避免的會(huì)影響搜索的查全率和查準(zhǔn)率。

      在生物醫(yī)學(xué)領(lǐng)域中,名詞和術(shù)語(yǔ)比較多,一詞多義現(xiàn)象和多詞一義現(xiàn)象很多。除此之外,還有大量的術(shù)語(yǔ)之間的語(yǔ)義聯(lián)系,比如詞的上下位關(guān)系,關(guān)聯(lián)關(guān)系,難以通過(guò)關(guān)鍵詞搜索表現(xiàn)出來(lái)。所以,在搜索模塊中,有必要引入一個(gè)生物醫(yī)學(xué)領(lǐng)域統(tǒng)一的可控術(shù)語(yǔ)表,進(jìn)行語(yǔ)義擴(kuò)展的搜索。

      2 UMLS(一體化醫(yī)學(xué)語(yǔ)言系統(tǒng))及其語(yǔ)義網(wǎng)絡(luò)介紹

      一體化醫(yī)學(xué)語(yǔ)言系統(tǒng) (Unified Medical Language System,UMLS),由美國(guó)國(guó)立醫(yī)學(xué)圖書(shū)館(NLM)研制并維護(hù)。UMLS是生物醫(yī)學(xué)概念所構(gòu)成的一部廣泛全面的敘詞表和本體,是對(duì)生物醫(yī)學(xué)科學(xué)領(lǐng)域內(nèi)許多受控詞表的一部綱目式匯編。UMLS提供的是一種位于這些詞表之間的映射結(jié)構(gòu),使這些不同的術(shù)語(yǔ)系統(tǒng)之間能夠彼此轉(zhuǎn)換。 UMLS主要由超級(jí)敘詞表、語(yǔ)義網(wǎng)絡(luò)、專(zhuān)家詞典三個(gè)組件構(gòu)成。

      超級(jí)敘詞表是UMLS的基礎(chǔ)。是由來(lái)自各種受控詞表的概念和術(shù)語(yǔ)以及它們之間的關(guān)系所構(gòu)成的集合; 超級(jí)敘詞表中收錄100多萬(wàn)個(gè)生物醫(yī)學(xué)概念和500多萬(wàn)個(gè)概念名稱(chēng)。概念源自UMLS收錄的100多部受控詞表和分類(lèi)系統(tǒng)。

      超級(jí)敘詞表之中的每個(gè)概念都指定有至少一種“語(yǔ)義類(lèi)型(Semantic type)”。某些“語(yǔ)義關(guān)系”可以存在于多種語(yǔ)義類(lèi)型的成員之間。語(yǔ)義網(wǎng)絡(luò)正是這些語(yǔ)義類(lèi)型和語(yǔ)義關(guān)系所構(gòu)成的一種網(wǎng)絡(luò)式目錄。這是一種相當(dāng)寬泛的分類(lèi);目前,其中共計(jì)有135種語(yǔ)義類(lèi)型和54種語(yǔ)義關(guān)系。

      3 基于UMLS的醫(yī)學(xué)資源庫(kù)語(yǔ)義搜索系統(tǒng)架構(gòu)

      利用UMLS做語(yǔ)義擴(kuò)展恰好能彌補(bǔ)資源搜索中關(guān)鍵詞匹配種種局限。因此,該文設(shè)想在醫(yī)學(xué)資源庫(kù)的搜索模塊中將UMLS的超級(jí)敘詞表作為搜索模塊的后控詞表。UMLS本身提供了SKR(語(yǔ)義知識(shí)表達(dá))工具,可以以交互模式和批處理模式兩種進(jìn)行自然語(yǔ)言處理。其中,MTI (Medical Text Indexer)可以進(jìn)行文章的自動(dòng)標(biāo)引;MetaMap用來(lái)將自由詞映射到UMLS超級(jí)敘詞表中的詞匯;SemRep用來(lái)提取生物詞匯和短語(yǔ)中的語(yǔ)義類(lèi)型。UMLS提供了WEB API來(lái)訪(fǎng)問(wèn)這三個(gè)工具,也可以下載這些工具的安裝程序本地安裝使用。在這些工具中,MetaMap是SKR工具的核心,可以作為用戶(hù)和超級(jí)敘詞表之間的橋梁。

      除了上述工具以外,UMLS的超級(jí)敘詞表和語(yǔ)義網(wǎng)絡(luò)中的數(shù)據(jù)可以通過(guò)兩種方式直接訪(fǎng)問(wèn),一種是安裝MetamophorSys程序,同時(shí)將詞表文件及語(yǔ)義關(guān)系文件下載到本地,導(dǎo)入到MySQL數(shù)據(jù)庫(kù)或者Oracle數(shù)據(jù)庫(kù),使用UMLS提供的JAVA API進(jìn)行本地訪(fǎng)問(wèn);另一種是通過(guò)SOA服務(wù)訪(fǎng)問(wèn),UMLS提供了WEB服務(wù)訪(fǎng)問(wèn)的接口,可以使用JAVA API基于WEB服務(wù)接口訪(fǎng)問(wèn),實(shí)現(xiàn)基于服務(wù)的系統(tǒng)架構(gòu)。

      綜合以上分析,基于UMLS的醫(yī)學(xué)資源庫(kù)的搜索模塊可以有四種形式的架構(gòu):(1)下載安裝MetaMap映射工具,使用JAVA API訪(fǎng)問(wèn)本地MetaMap程序來(lái)使用超級(jí)敘詞表;(2)使用WEB API訪(fǎng)問(wèn)MetaMap WEB服務(wù)來(lái)使用超級(jí)敘詞表;(3)安裝MetamophorSys程序,使用JAVA API直接訪(fǎng)問(wèn)超級(jí)敘詞表;(4)使用美國(guó)國(guó)立圖書(shū)館提供的WEB API直接訪(fǎng)問(wèn)UMLS的WEB服務(wù)。。該文以使用MetaMap映射工具為例給出基于UMLS的搜索的流程,如圖1所示。

      4 基于UMLS的搜索效果分析

      下面對(duì)基于UMLS的搜索結(jié)果進(jìn)行理論分析,以術(shù)語(yǔ)“l(fā)ung cancer(肺癌)”的搜索為例。

      1) 使用MetaMap工具映射到超級(jí)敘詞表,其搜索流程如圖2所示。

      MetaMap的自動(dòng)文本映射主要步驟有文本解析、變量產(chǎn)生、入選敘詞、對(duì)入選敘詞賦值、映射構(gòu)造。在入選虛詞賦值這一步驟中,MetaMap基于向心度、變異度、覆蓋度、和內(nèi)聚性四個(gè)因素進(jìn)行綜合考慮,每個(gè)因素按照不同的權(quán)值進(jìn)行計(jì)算,計(jì)算結(jié)果在0到1000以?xún)?nèi),1000表示最佳匹配。Lung cancer經(jīng)過(guò)MetaMap的映射結(jié)果如下:

      Meta Candidates (Total=13; Excluded=5; Pruned=0; Remaining=8)

      1000 Lung Cancer (Malignant neoplasm of lung) [Neoplastic Process]

      1000 LUNG CANCER (Carcinoma of lung) [Neoplastic Process]

      861 Cancer (Malignant Neoplasms) [Neoplastic Process]

      861 Lung [Body Part, Organ, or Organ Component]

      861 LUNG (Structure of parenchyma of lung) [Tissue]

      861 Cancer (Cancer Genus) [Eukaryote]

      861 Lung (Entire lung) [Body Part, Organ, or Organ Component]

      861 Cancer (Primary malignant neoplasm) [Finding]

      805 E Pulmonary (Pulmonary:-:Point in time:^Patient:-) [Clinical Attribute]

      805 E Pulmonary (Pulmonary (qualifier value)) [Qualitative Concept]

      768 E Pneumonia [Disease or Syndrome]

      768 E Pulmonary Arteries (Pulmonary artery structure) [Body Part, Organ, or Organ Component]

      768 E Pulmonary artery (Entire pulmonary artery) [Body Part, Organ, or Organ Component]

      我們可看到,系統(tǒng)給出13個(gè)候選的敘詞,其中前兩個(gè),“Malignant neoplasm of lung”和“Carcinoma of lung”是最佳匹配。我們也可以選擇將最佳匹配的詞做“OR”運(yùn)算,最終lung cancer的搜索轉(zhuǎn)換成[lung cancer] OR [Malignant neoplasm of lung] OR [Carcinoma of lung]。很明顯,這樣可以增加搜索的查全率和查準(zhǔn)率。

      圖2

      2) 直接查詢(xún)UMLS超級(jí)敘詞表。

      直接搜索超級(jí)敘詞表有幾種方式,有詞匹配、精確匹配、模糊匹配等。在詞匹配的方式中,lung cancer除了匹配“Malignant neoplasm of lung”和“Carcinoma of lung”以外,還在語(yǔ)義上包含了很多上位關(guān)系詞、下位關(guān)系詞、相關(guān)關(guān)系詞、同義關(guān)系詞等。

      RO | | MTH | Carcinoma of lung | C0684249

      RO | | MTH | Neoplasm, uncertain whether benign or malignant | C0677041

      RO | | MTH | Carcinoma, Small Cell | C0262584

      RO | | MTH | Malignant neoplasm lung: [of bronchus or lung NOS] or [lung cancer] | C1578781

      RB | | MTH | Squamous cell carcinoma of bronchus | C1314696

      RO | | MTH | respiratory | C0521346

      RB | | MTH | Bronchogenic Carcinoma | C0007121

      RB | | MTH | Non-Small Cell Lung Carcinoma | C0007131

      RB | | MTH | Adenocarcinoma of lung (disorder) | C0152013

      RN | | MTH | Respiration Disorders | C0035204

      RN | | MTH | Respiratory Tract Diseases | C0035242

      RB | | MTH | Metastatic Carcinoma to the Lung | C0238254

      RB | | MTH | Lung cancer stage unspecified (excl metastatic tumours to lung) | C0852936

      RN | | MTH | Neoplasms | C0027651

      RB | | MTH | Small cell carcinoma of lung | C0149925

      RO | | MTH | Malignant neoplasm of bronchus or lung, unspecified | C0348343

      RO | | MTH | Pulmonary Lunatism | C0815311

      RO | | MTH | lung or tumor neoplasm | C0815116

      RB | | MTH | Primary malignant neoplasm of lung | C1306460

      RN | | MTH | Lung Neoplasms | C0024121

      很明顯,詞匹配方式可以更加增加系統(tǒng)的查全率,但是查準(zhǔn)率有時(shí)候會(huì)有一定程度的下降,因?yàn)橛脩?hù)有的時(shí)候希望的是精確匹配,只要求同義詞而并不要求語(yǔ)義的向上、向下以及關(guān)聯(lián)的擴(kuò)展。而精確匹配的結(jié)果就和使用MetaMap最終映射的結(jié)果是一樣的,各種模式可以由系統(tǒng)開(kāi)發(fā)人員決定,靈活性更高。

      3) 基于Pubmed搜索引擎進(jìn)行語(yǔ)義擴(kuò)展搜索、主題詞搜索、關(guān)鍵詞搜索三種模式的搜索效果比較。選取疾病類(lèi)、藥物類(lèi)的術(shù)語(yǔ)進(jìn)行實(shí)驗(yàn),選取“l(fā)ung cancer”、“antibiotics”,“scar”,“gastric ulcer”, “acetylsalicylic acid”,“rash”,“insomnia”幾個(gè)術(shù)語(yǔ)。分別在搜索細(xì)節(jié)里改變搜索的模式,例如,“scar”在語(yǔ)義擴(kuò)展搜索中,最終搜索的形式是"cicatrix"[MeSH Terms] OR "cicatrix"[All Fields] OR "scar"[All Fields];在關(guān)鍵詞搜索中,最終搜索的形式是"scar"[All Fields];而在主題詞搜索模式中,最終的搜索形式是"scar"[All Fields]。三種模式搜索結(jié)果如表1:

      表1

      [檢索詞\&UMLS\&MeSH\&關(guān)鍵字\&lung cancer\&229725\&166485\&146230\&antibiotics\&589945\&256320\&160775\&scar\&49422\&29287\&27421\&gastric ulcer\&53158\&23370\&41206\&acetylsalicylic acid\&55029\&37073\&8046\&rash\&21427\&4494\&17674\&insomnia\&15205\&8489\&11937\&]

      從上述搜索結(jié)果可以看到,基于UMLS的語(yǔ)義擴(kuò)展搜索結(jié)果明顯要比基于醫(yī)學(xué)主題詞和關(guān)鍵詞搜索要多,可以明顯提高搜索的查全率。而基于醫(yī)學(xué)主題詞和基于關(guān)鍵詞的搜索結(jié)果各有優(yōu)勢(shì),原因是醫(yī)學(xué)語(yǔ)言中大量的同義詞和近義詞存在,標(biāo)引人員的選擇不同造成了標(biāo)注的詞不同。

      5 總結(jié)

      利用UMLS提供的MetaMap工具訪(fǎng)問(wèn)超級(jí)敘詞表和直接訪(fǎng)問(wèn)超級(jí)敘詞表都可以進(jìn)行醫(yī)學(xué)資源庫(kù)的語(yǔ)義擴(kuò)展查詢(xún),理論上可以增強(qiáng)查準(zhǔn)率和查全率。使用本地程序訪(fǎng)問(wèn)和使用WEB API訪(fǎng)問(wèn)各有利弊,本地程序訪(fǎng)問(wèn)可以提高速度,但詞表需要手動(dòng)更新,利用WEB API通過(guò)WEB服務(wù)訪(fǎng)問(wèn)可以簡(jiǎn)化本地的配置,并且數(shù)據(jù)是實(shí)時(shí)更新的。同時(shí),基于SOA的粗粒度系統(tǒng)模型減少了開(kāi)發(fā)人員的工作量,減少了程序模塊之間的耦合度,增加醫(yī)學(xué)資源庫(kù)系統(tǒng)本身的靈活性和獨(dú)立性。

      參考文獻(xiàn):

      [1] 白海燕,王莉,梁冰.UMLS及其在智能檢索中的應(yīng)用[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2012(4).

      [2] 邱君瑞.論一體化醫(yī)學(xué)語(yǔ)言系統(tǒng)(UMLS)知識(shí)表達(dá)的語(yǔ)義學(xué)特點(diǎn)[J].中華醫(yī)學(xué)圖書(shū)情報(bào)雜志,2002(7).

      [3] 趙沛沛,謝競(jìng)博,王國(guó).基于UMLS和Lucene的集成檢索模型[J].計(jì)算機(jī)科學(xué),2010(10).

      [4] 李丹亞,胡鐵軍,李亞子.UMLS多詞表整合機(jī)制研究[J].數(shù)字圖書(shū)館論壇,2012(4).

      [5] 董小蕓.于一體化醫(yī)學(xué)語(yǔ)言系統(tǒng)(UMLS)的語(yǔ)義檢索實(shí)驗(yàn)研究[D].上海大學(xué),2005.

      [6] 王孝寧,陳海青,崔雷.利用MetaMap 抽取科研項(xiàng)目概念分析學(xué)科領(lǐng)域研究熱點(diǎn)的嘗試[J].中國(guó)醫(yī)學(xué)科研管理雜志,2008(6).

      [7] 張晗,任志國(guó),于倩,等.基于UMLS醫(yī)學(xué)本體的挖掘文獻(xiàn)間的潛在聯(lián)系的設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代圖書(shū)情報(bào),2007(9).

      [8] http://skr.nlm.nih.gov/interactive/index.shtml.

      [9] http://zh.wikipedia.org/wiki/UMLS.

      猜你喜歡
      搜索資源庫(kù)
      廣州園科院木棉野牡丹種質(zhì)資源庫(kù)入選國(guó)家林木種質(zhì)資源庫(kù)
      園林科技(2021年3期)2021-04-03 04:33:46
      健身氣功開(kāi)放課程資源庫(kù)建設(shè)研究
      貴州●石斛種質(zhì)資源庫(kù)
      基于共享資源庫(kù)的混合式教學(xué)考核模式研究
      電子制作(2017年10期)2017-04-18 07:22:55
      高中歷史信息化教育資源庫(kù)應(yīng)用探索
      福建基礎(chǔ)教育教學(xué)資源庫(kù)建設(shè)研究——以福建基礎(chǔ)教育網(wǎng)資源庫(kù)為例
      優(yōu)惠信息檢索與分析
      科技傳播(2016年8期)2016-07-13 22:44:16
      基于Android平臺(tái)的百度地圖開(kāi)發(fā)研究
      網(wǎng)上"搜索"泄密,女自領(lǐng)報(bào)復(fù)情敵引來(lái)血光之災(zāi)
      關(guān)于電影《搜索》網(wǎng)絡(luò)評(píng)論的分析
      台山市| 安塞县| 耿马| 闻喜县| 宁安市| 九龙县| 唐河县| 康定县| 阳城县| 安多县| 通海县| 香港| 皮山县| 临漳县| 东乌| 大名县| 云南省| 西平县| 阿克| 乐平市| 贵州省| 新乡县| 广德县| 广昌县| 乳山市| 清原| 黄浦区| 濮阳县| 清远市| 延寿县| 体育| 明溪县| 克山县| 无锡市| 琼中| 黄山市| 始兴县| 华容县| 健康| 华池县| 眉山市|