凌晨 解曉峰 王一鴻 王毅
摘要:基于UMLS的醫(yī)學(xué)資源庫(kù)的搜索模塊通過(guò)將搜索關(guān)鍵詞的映射到UMLS超級(jí)敘詞表中相關(guān)概念的詞串,經(jīng)過(guò)“OR”運(yùn)算,進(jìn)行語(yǔ)義擴(kuò)展的搜索。可以提高查準(zhǔn)率和查全率。可以使用MetaMap映射工具,也可以直接訪(fǎng)問(wèn)超級(jí)敘詞表;可以采用本地?cái)?shù)據(jù)訪(fǎng)問(wèn)和使用WEB服務(wù)兩種方式的系統(tǒng)架構(gòu)來(lái)訪(fǎng)問(wèn)UMLS。
關(guān)鍵詞:UMLS;資源庫(kù);語(yǔ)義擴(kuò)展;搜索
中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)01-0163-03
1 醫(yī)學(xué)資源庫(kù)的知識(shí)組織及檢索的不足
在醫(yī)學(xué)資源庫(kù)中,資源以視頻、音頻、動(dòng)畫(huà)、文檔、PPT、積件等多媒體形式存在。資源入庫(kù)必須以人工標(biāo)注的方式進(jìn)行元數(shù)據(jù)標(biāo)注。傳統(tǒng)的醫(yī)學(xué)資源庫(kù)的資源檢索采用的是關(guān)鍵詞匹配。有的檢索系統(tǒng)會(huì)在關(guān)鍵詞匹配的基礎(chǔ)上增加類(lèi)別限制、時(shí)間限制、作者限制等范圍限制來(lái)提高搜索的精確性。但是語(yǔ)言常常具有多義性、同義性、模糊性,比如Aspirin(阿司匹林)和Acetylsalicylic acid(乙酰水楊酸)、Cancer(癌癥)和Malignant of neoplasm(惡性腫瘤)、Scar(傷疤)和Cicatrix(疤痕)分別都是同義詞,但是各自都是完全不同的關(guān)鍵詞。所以按照關(guān)鍵詞搜索不可避免的會(huì)影響搜索的查全率和查準(zhǔn)率。
在生物醫(yī)學(xué)領(lǐng)域中,名詞和術(shù)語(yǔ)比較多,一詞多義現(xiàn)象和多詞一義現(xiàn)象很多。除此之外,還有大量的術(shù)語(yǔ)之間的語(yǔ)義聯(lián)系,比如詞的上下位關(guān)系,關(guān)聯(lián)關(guān)系,難以通過(guò)關(guān)鍵詞搜索表現(xiàn)出來(lái)。所以,在搜索模塊中,有必要引入一個(gè)生物醫(yī)學(xué)領(lǐng)域統(tǒng)一的可控術(shù)語(yǔ)表,進(jìn)行語(yǔ)義擴(kuò)展的搜索。
2 UMLS(一體化醫(yī)學(xué)語(yǔ)言系統(tǒng))及其語(yǔ)義網(wǎng)絡(luò)介紹
一體化醫(yī)學(xué)語(yǔ)言系統(tǒng) (Unified Medical Language System,UMLS),由美國(guó)國(guó)立醫(yī)學(xué)圖書(shū)館(NLM)研制并維護(hù)。UMLS是生物醫(yī)學(xué)概念所構(gòu)成的一部廣泛全面的敘詞表和本體,是對(duì)生物醫(yī)學(xué)科學(xué)領(lǐng)域內(nèi)許多受控詞表的一部綱目式匯編。UMLS提供的是一種位于這些詞表之間的映射結(jié)構(gòu),使這些不同的術(shù)語(yǔ)系統(tǒng)之間能夠彼此轉(zhuǎn)換。 UMLS主要由超級(jí)敘詞表、語(yǔ)義網(wǎng)絡(luò)、專(zhuān)家詞典三個(gè)組件構(gòu)成。
超級(jí)敘詞表是UMLS的基礎(chǔ)。是由來(lái)自各種受控詞表的概念和術(shù)語(yǔ)以及它們之間的關(guān)系所構(gòu)成的集合; 超級(jí)敘詞表中收錄100多萬(wàn)個(gè)生物醫(yī)學(xué)概念和500多萬(wàn)個(gè)概念名稱(chēng)。概念源自UMLS收錄的100多部受控詞表和分類(lèi)系統(tǒng)。
超級(jí)敘詞表之中的每個(gè)概念都指定有至少一種“語(yǔ)義類(lèi)型(Semantic type)”。某些“語(yǔ)義關(guān)系”可以存在于多種語(yǔ)義類(lèi)型的成員之間。語(yǔ)義網(wǎng)絡(luò)正是這些語(yǔ)義類(lèi)型和語(yǔ)義關(guān)系所構(gòu)成的一種網(wǎng)絡(luò)式目錄。這是一種相當(dāng)寬泛的分類(lèi);目前,其中共計(jì)有135種語(yǔ)義類(lèi)型和54種語(yǔ)義關(guān)系。
3 基于UMLS的醫(yī)學(xué)資源庫(kù)語(yǔ)義搜索系統(tǒng)架構(gòu)
利用UMLS做語(yǔ)義擴(kuò)展恰好能彌補(bǔ)資源搜索中關(guān)鍵詞匹配種種局限。因此,該文設(shè)想在醫(yī)學(xué)資源庫(kù)的搜索模塊中將UMLS的超級(jí)敘詞表作為搜索模塊的后控詞表。UMLS本身提供了SKR(語(yǔ)義知識(shí)表達(dá))工具,可以以交互模式和批處理模式兩種進(jìn)行自然語(yǔ)言處理。其中,MTI (Medical Text Indexer)可以進(jìn)行文章的自動(dòng)標(biāo)引;MetaMap用來(lái)將自由詞映射到UMLS超級(jí)敘詞表中的詞匯;SemRep用來(lái)提取生物詞匯和短語(yǔ)中的語(yǔ)義類(lèi)型。UMLS提供了WEB API來(lái)訪(fǎng)問(wèn)這三個(gè)工具,也可以下載這些工具的安裝程序本地安裝使用。在這些工具中,MetaMap是SKR工具的核心,可以作為用戶(hù)和超級(jí)敘詞表之間的橋梁。
除了上述工具以外,UMLS的超級(jí)敘詞表和語(yǔ)義網(wǎng)絡(luò)中的數(shù)據(jù)可以通過(guò)兩種方式直接訪(fǎng)問(wèn),一種是安裝MetamophorSys程序,同時(shí)將詞表文件及語(yǔ)義關(guān)系文件下載到本地,導(dǎo)入到MySQL數(shù)據(jù)庫(kù)或者Oracle數(shù)據(jù)庫(kù),使用UMLS提供的JAVA API進(jìn)行本地訪(fǎng)問(wèn);另一種是通過(guò)SOA服務(wù)訪(fǎng)問(wèn),UMLS提供了WEB服務(wù)訪(fǎng)問(wèn)的接口,可以使用JAVA API基于WEB服務(wù)接口訪(fǎng)問(wèn),實(shí)現(xiàn)基于服務(wù)的系統(tǒng)架構(gòu)。
綜合以上分析,基于UMLS的醫(yī)學(xué)資源庫(kù)的搜索模塊可以有四種形式的架構(gòu):(1)下載安裝MetaMap映射工具,使用JAVA API訪(fǎng)問(wèn)本地MetaMap程序來(lái)使用超級(jí)敘詞表;(2)使用WEB API訪(fǎng)問(wèn)MetaMap WEB服務(wù)來(lái)使用超級(jí)敘詞表;(3)安裝MetamophorSys程序,使用JAVA API直接訪(fǎng)問(wèn)超級(jí)敘詞表;(4)使用美國(guó)國(guó)立圖書(shū)館提供的WEB API直接訪(fǎng)問(wèn)UMLS的WEB服務(wù)。。該文以使用MetaMap映射工具為例給出基于UMLS的搜索的流程,如圖1所示。
4 基于UMLS的搜索效果分析
下面對(duì)基于UMLS的搜索結(jié)果進(jìn)行理論分析,以術(shù)語(yǔ)“l(fā)ung cancer(肺癌)”的搜索為例。
1) 使用MetaMap工具映射到超級(jí)敘詞表,其搜索流程如圖2所示。
MetaMap的自動(dòng)文本映射主要步驟有文本解析、變量產(chǎn)生、入選敘詞、對(duì)入選敘詞賦值、映射構(gòu)造。在入選虛詞賦值這一步驟中,MetaMap基于向心度、變異度、覆蓋度、和內(nèi)聚性四個(gè)因素進(jìn)行綜合考慮,每個(gè)因素按照不同的權(quán)值進(jìn)行計(jì)算,計(jì)算結(jié)果在0到1000以?xún)?nèi),1000表示最佳匹配。Lung cancer經(jīng)過(guò)MetaMap的映射結(jié)果如下:
Meta Candidates (Total=13; Excluded=5; Pruned=0; Remaining=8)
1000 Lung Cancer (Malignant neoplasm of lung) [Neoplastic Process]
1000 LUNG CANCER (Carcinoma of lung) [Neoplastic Process]
861 Cancer (Malignant Neoplasms) [Neoplastic Process]
861 Lung [Body Part, Organ, or Organ Component]
861 LUNG (Structure of parenchyma of lung) [Tissue]
861 Cancer (Cancer Genus) [Eukaryote]
861 Lung (Entire lung) [Body Part, Organ, or Organ Component]
861 Cancer (Primary malignant neoplasm) [Finding]
805 E Pulmonary (Pulmonary:-:Point in time:^Patient:-) [Clinical Attribute]
805 E Pulmonary (Pulmonary (qualifier value)) [Qualitative Concept]
768 E Pneumonia [Disease or Syndrome]
768 E Pulmonary Arteries (Pulmonary artery structure) [Body Part, Organ, or Organ Component]
768 E Pulmonary artery (Entire pulmonary artery) [Body Part, Organ, or Organ Component]
我們可看到,系統(tǒng)給出13個(gè)候選的敘詞,其中前兩個(gè),“Malignant neoplasm of lung”和“Carcinoma of lung”是最佳匹配。我們也可以選擇將最佳匹配的詞做“OR”運(yùn)算,最終lung cancer的搜索轉(zhuǎn)換成[lung cancer] OR [Malignant neoplasm of lung] OR [Carcinoma of lung]。很明顯,這樣可以增加搜索的查全率和查準(zhǔn)率。
圖2
2) 直接查詢(xún)UMLS超級(jí)敘詞表。
直接搜索超級(jí)敘詞表有幾種方式,有詞匹配、精確匹配、模糊匹配等。在詞匹配的方式中,lung cancer除了匹配“Malignant neoplasm of lung”和“Carcinoma of lung”以外,還在語(yǔ)義上包含了很多上位關(guān)系詞、下位關(guān)系詞、相關(guān)關(guān)系詞、同義關(guān)系詞等。
RO | | MTH | Carcinoma of lung | C0684249
RO | | MTH | Neoplasm, uncertain whether benign or malignant | C0677041
RO | | MTH | Carcinoma, Small Cell | C0262584
RO | | MTH | Malignant neoplasm lung: [of bronchus or lung NOS] or [lung cancer] | C1578781
RB | | MTH | Squamous cell carcinoma of bronchus | C1314696
RO | | MTH | respiratory | C0521346
RB | | MTH | Bronchogenic Carcinoma | C0007121
RB | | MTH | Non-Small Cell Lung Carcinoma | C0007131
RB | | MTH | Adenocarcinoma of lung (disorder) | C0152013
RN | | MTH | Respiration Disorders | C0035204
RN | | MTH | Respiratory Tract Diseases | C0035242
RB | | MTH | Metastatic Carcinoma to the Lung | C0238254
RB | | MTH | Lung cancer stage unspecified (excl metastatic tumours to lung) | C0852936
RN | | MTH | Neoplasms | C0027651
RB | | MTH | Small cell carcinoma of lung | C0149925
RO | | MTH | Malignant neoplasm of bronchus or lung, unspecified | C0348343
RO | | MTH | Pulmonary Lunatism | C0815311
RO | | MTH | lung or tumor neoplasm | C0815116
RB | | MTH | Primary malignant neoplasm of lung | C1306460
RN | | MTH | Lung Neoplasms | C0024121
很明顯,詞匹配方式可以更加增加系統(tǒng)的查全率,但是查準(zhǔn)率有時(shí)候會(huì)有一定程度的下降,因?yàn)橛脩?hù)有的時(shí)候希望的是精確匹配,只要求同義詞而并不要求語(yǔ)義的向上、向下以及關(guān)聯(lián)的擴(kuò)展。而精確匹配的結(jié)果就和使用MetaMap最終映射的結(jié)果是一樣的,各種模式可以由系統(tǒng)開(kāi)發(fā)人員決定,靈活性更高。
3) 基于Pubmed搜索引擎進(jìn)行語(yǔ)義擴(kuò)展搜索、主題詞搜索、關(guān)鍵詞搜索三種模式的搜索效果比較。選取疾病類(lèi)、藥物類(lèi)的術(shù)語(yǔ)進(jìn)行實(shí)驗(yàn),選取“l(fā)ung cancer”、“antibiotics”,“scar”,“gastric ulcer”, “acetylsalicylic acid”,“rash”,“insomnia”幾個(gè)術(shù)語(yǔ)。分別在搜索細(xì)節(jié)里改變搜索的模式,例如,“scar”在語(yǔ)義擴(kuò)展搜索中,最終搜索的形式是"cicatrix"[MeSH Terms] OR "cicatrix"[All Fields] OR "scar"[All Fields];在關(guān)鍵詞搜索中,最終搜索的形式是"scar"[All Fields];而在主題詞搜索模式中,最終的搜索形式是"scar"[All Fields]。三種模式搜索結(jié)果如表1:
表1
[檢索詞\&UMLS\&MeSH\&關(guān)鍵字\&lung cancer\&229725\&166485\&146230\&antibiotics\&589945\&256320\&160775\&scar\&49422\&29287\&27421\&gastric ulcer\&53158\&23370\&41206\&acetylsalicylic acid\&55029\&37073\&8046\&rash\&21427\&4494\&17674\&insomnia\&15205\&8489\&11937\&]
從上述搜索結(jié)果可以看到,基于UMLS的語(yǔ)義擴(kuò)展搜索結(jié)果明顯要比基于醫(yī)學(xué)主題詞和關(guān)鍵詞搜索要多,可以明顯提高搜索的查全率。而基于醫(yī)學(xué)主題詞和基于關(guān)鍵詞的搜索結(jié)果各有優(yōu)勢(shì),原因是醫(yī)學(xué)語(yǔ)言中大量的同義詞和近義詞存在,標(biāo)引人員的選擇不同造成了標(biāo)注的詞不同。
5 總結(jié)
利用UMLS提供的MetaMap工具訪(fǎng)問(wèn)超級(jí)敘詞表和直接訪(fǎng)問(wèn)超級(jí)敘詞表都可以進(jìn)行醫(yī)學(xué)資源庫(kù)的語(yǔ)義擴(kuò)展查詢(xún),理論上可以增強(qiáng)查準(zhǔn)率和查全率。使用本地程序訪(fǎng)問(wèn)和使用WEB API訪(fǎng)問(wèn)各有利弊,本地程序訪(fǎng)問(wèn)可以提高速度,但詞表需要手動(dòng)更新,利用WEB API通過(guò)WEB服務(wù)訪(fǎng)問(wèn)可以簡(jiǎn)化本地的配置,并且數(shù)據(jù)是實(shí)時(shí)更新的。同時(shí),基于SOA的粗粒度系統(tǒng)模型減少了開(kāi)發(fā)人員的工作量,減少了程序模塊之間的耦合度,增加醫(yī)學(xué)資源庫(kù)系統(tǒng)本身的靈活性和獨(dú)立性。
參考文獻(xiàn):
[1] 白海燕,王莉,梁冰.UMLS及其在智能檢索中的應(yīng)用[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2012(4).
[2] 邱君瑞.論一體化醫(yī)學(xué)語(yǔ)言系統(tǒng)(UMLS)知識(shí)表達(dá)的語(yǔ)義學(xué)特點(diǎn)[J].中華醫(yī)學(xué)圖書(shū)情報(bào)雜志,2002(7).
[3] 趙沛沛,謝競(jìng)博,王國(guó).基于UMLS和Lucene的集成檢索模型[J].計(jì)算機(jī)科學(xué),2010(10).
[4] 李丹亞,胡鐵軍,李亞子.UMLS多詞表整合機(jī)制研究[J].數(shù)字圖書(shū)館論壇,2012(4).
[5] 董小蕓.于一體化醫(yī)學(xué)語(yǔ)言系統(tǒng)(UMLS)的語(yǔ)義檢索實(shí)驗(yàn)研究[D].上海大學(xué),2005.
[6] 王孝寧,陳海青,崔雷.利用MetaMap 抽取科研項(xiàng)目概念分析學(xué)科領(lǐng)域研究熱點(diǎn)的嘗試[J].中國(guó)醫(yī)學(xué)科研管理雜志,2008(6).
[7] 張晗,任志國(guó),于倩,等.基于UMLS醫(yī)學(xué)本體的挖掘文獻(xiàn)間的潛在聯(lián)系的設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代圖書(shū)情報(bào),2007(9).
[8] http://skr.nlm.nih.gov/interactive/index.shtml.
[9] http://zh.wikipedia.org/wiki/UMLS.