【作 者】葉楓,周鈞
浙江工業(yè)大學(xué)經(jīng)貿(mào)管理學(xué)院,浙江,杭州,310023
在醫(yī)學(xué)領(lǐng)域,案例知識(shí)是極具價(jià)值的醫(yī)學(xué)信息倉(cāng)庫(kù)。案例推理(Case-based Reasoning, CBR)通過從案例庫(kù)中尋找當(dāng)前問題最相似的案例(一個(gè)或多個(gè)),可供用戶作為決策參考。因此,醫(yī)學(xué)案例知識(shí)的獲取與表示和臨床案例知識(shí)庫(kù)的構(gòu)建,對(duì)基于案例推理的臨床決策支持系統(tǒng)的實(shí)施起著重要作用[1]。
本體作為一種語義共享和知識(shí)建模的工具,廣泛應(yīng)用于語義Web、信息檢索以及知識(shí)系統(tǒng)的等重要領(lǐng)域。基于本體的知識(shí)表示方法,為醫(yī)學(xué)領(lǐng)域知識(shí)的應(yīng)用打下了良好的基礎(chǔ)。利用本體構(gòu)建的案例知識(shí)庫(kù),具有統(tǒng)一的概念術(shù)語規(guī)范,對(duì)知識(shí)獲取、分析和共享很有幫助。
相似度計(jì)算是案例推理的核心問題??茖W(xué)且具有良好可操作性的相似度計(jì)算方法,有助于臨床案例知識(shí)的獲取與自我完善,對(duì)臨床人員的決策具有更高的參考價(jià)值。本文構(gòu)建了基于本體的臨床案例知識(shí)庫(kù),給出了臨床案例知識(shí)的獲取流程,通過來自臨床采集的案例數(shù)據(jù),進(jìn)行了案例相似度計(jì)算的實(shí)驗(yàn),驗(yàn)證了該方法的有效性。
本體(Ontology)指的是一個(gè)特殊范疇系統(tǒng),含義是客觀存在并形成表象的根本實(shí)體,主要包括概念(主題、術(shù)語)、概念之間的關(guān)系以及公理和實(shí)例。本體的表達(dá)可以是自然語言和半自然語言,但不一定是受控的科學(xué)語言[2]。本體語言應(yīng)滿足以下要求:良好定義的語法、良好定義的語義、有效的推理支持、充分的表達(dá)能力和表達(dá)的方便性。目前,有代表性的本體語言或環(huán)境有KIF[3]和Ontolingua[4]等。
按計(jì)算機(jī)推理方式的不同,可將知識(shí)分為規(guī)則知識(shí)和案例知識(shí),分別用于基于規(guī)則的推理和基于案例的推理。
準(zhǔn)確、完整和合理的案例表示是CBR研究中的首要問題。目前,在CBR中還沒有通用的案例表示方法,案例表示方法的設(shè)計(jì)一般需要根據(jù)案例描述內(nèi)容、案例庫(kù)組織與索引的要求,以及相關(guān)領(lǐng)域的特點(diǎn)來進(jìn)行。醫(yī)學(xué)案例信息豐富、結(jié)構(gòu)復(fù)雜,用關(guān)系數(shù)據(jù)庫(kù)技術(shù)進(jìn)行管理,難以充分表達(dá)臨床醫(yī)學(xué)病例的各種變化,也難以實(shí)現(xiàn)數(shù)據(jù)資源和知識(shí)資源的共享。
案例表示方法主要從規(guī)則知識(shí)表示方法借鑒而來,有框架表示法、語義網(wǎng)絡(luò)表示法、面向?qū)ο蟊硎痉ê蚗ML表示法等。
XML是一種元語言,它允許用戶自由定義標(biāo)簽,具有良好的可擴(kuò)展性?;赬ML的知識(shí)表示方法在一定程度上可以將規(guī)則知識(shí)表示形式與案例知識(shí)表示形式統(tǒng)一起來[5]。
臨床診療過程涉及的內(nèi)容非常多,案例庫(kù)如果要覆蓋醫(yī)院的所有診療行為,工作量會(huì)非常巨大,而且系統(tǒng)的運(yùn)行效率也會(huì)大大降低。因此,本文所構(gòu)建的臨床案例知識(shí)庫(kù)以臨床門診為主,住院診療過程的內(nèi)容一般可作為案例中的一個(gè)內(nèi)容簡(jiǎn)要的表達(dá)。為了提高案例庫(kù)的應(yīng)用效果,對(duì)于臨床案例中的術(shù)語,要求嚴(yán)格遵守醫(yī)學(xué)本體概念詞典中確定的唯一名稱,對(duì)一些無法統(tǒng)一的描述詞也應(yīng)盡可能規(guī)范。
在我國(guó)“一帶一路”戰(zhàn)略大背景下,中俄交往日益密切,國(guó)際婚姻發(fā)展也日益迅速,如何避免出現(xiàn)婚姻瑕疵對(duì)鞏固中俄友誼和戰(zhàn)略協(xié)同具有重要意義。
本文設(shè)計(jì)的臨床案例知識(shí)庫(kù)結(jié)構(gòu)如圖1所示,每一個(gè)臨床案例由5個(gè)二級(jí)子節(jié)點(diǎn)組成,分別是癥狀體征、檢查檢驗(yàn)、病史、診斷結(jié)論和治療措施;在5個(gè)二級(jí)子節(jié)點(diǎn)下面,共有19個(gè)三級(jí)子節(jié)點(diǎn)。
圖1 臨床案例結(jié)構(gòu)框架Fig.1 Structure of clinical case knowledge
每個(gè)三級(jí)子節(jié)點(diǎn)都有自己的屬性,例如癥狀描述的屬性,可以包括規(guī)范化的癥狀名稱、癥狀標(biāo)識(shí),癥狀程度,癥狀持續(xù)時(shí)間,癥狀出現(xiàn)的條件以及其他方面的描述。癥狀的數(shù)量不限,但不能將兩個(gè)癥狀合在一個(gè)項(xiàng)目中表達(dá)。
圖2 案例知識(shí)獲取流程Fig.2 Acquisition procedure of clinical case
案例知識(shí)的獲取主要依靠電子病歷。本文的臨床案例實(shí)例數(shù)據(jù)以一次臨床診療過程為一條記錄。從臨床診療病例數(shù)據(jù)中提取臨床案例,首先要將臨床病例基礎(chǔ)數(shù)據(jù)進(jìn)行整理,除了病人信息、癥狀信息、病史信息、并發(fā)癥、手術(shù)信息和診療結(jié)果等信息外,還需要收集診療過程中所發(fā)生的檢查檢驗(yàn)信息、藥物治療、飲食治療和運(yùn)動(dòng)治療等信息。案例知識(shí)獲取的第一步,要求臨床醫(yī)生通過可視化交互平臺(tái)對(duì)初步整理的臨床病例進(jìn)行篩選,剔除一些不規(guī)范、信息不全的病例,繼而是進(jìn)行文本信息的識(shí)別與獲取[6]和結(jié)構(gòu)信息的提??;最后是案例構(gòu)造和案例入庫(kù)。案例知識(shí)獲取流程如圖2所示。
臨床案例知識(shí)的主體部分是基于XML結(jié)構(gòu)表示的。確認(rèn)后的臨床病例,可以由系統(tǒng)自動(dòng)構(gòu)造XML結(jié)構(gòu),但作為一個(gè)完整案例,要連同案例發(fā)生的時(shí)間,病人姓名、性別、出生年月、民族、案例發(fā)生的臨床科室、案例的負(fù)責(zé)醫(yī)生以及案例負(fù)責(zé)人的聯(lián)系方式一起保存到臨床案例表中。
圖3給出了臨床案例中癥狀體征二級(jí)子節(jié)點(diǎn),以及該子節(jié)點(diǎn)下的癥狀描述和體格檢查三級(jí)子節(jié)點(diǎn)XML文檔的構(gòu)造流程 。
案例推理的核心問題是案例相似度的計(jì)算。臨床醫(yī)學(xué)案例知識(shí)結(jié)構(gòu)復(fù)雜,涉及的屬性類型繁多,因此案例相似度的計(jì)算也比較復(fù)雜。本文基于2.1給出的案例知識(shí)庫(kù)結(jié)構(gòu)和相關(guān)屬性的特點(diǎn),設(shè)計(jì)了一系列的相似度計(jì)算方法。主要思路是:首先計(jì)算臨床案例各三級(jí)子節(jié)點(diǎn)之間的相似度;之后根據(jù)不同的需要,計(jì)算臨床案例綜合相似度。三級(jí)子節(jié)點(diǎn)下有許多種不同類型的屬性,針對(duì)不同的屬性值類型,需要設(shè)計(jì)不同的相似度計(jì)算方法。
1) 概念名稱屬性值的相似度計(jì)算
有醫(yī)學(xué)本體概念詞典作為統(tǒng)一術(shù)語標(biāo)準(zhǔn),我們就可以認(rèn)為:如果目標(biāo)案例與源案例中某個(gè)屬性值具有相同的概念,那么它們就能按名稱完全匹配。下面是兩個(gè)臨床案例概念名稱屬性值之間的相似度計(jì)算方法。
圖3 癥狀體征XML構(gòu)造流程Fig.3 Construction procedure of XML about symptons
2) 時(shí)間屬性值的相似度計(jì)算
時(shí)間屬性值包括持續(xù)時(shí)間、時(shí)間間隔等。在進(jìn)行相似度計(jì)算之前,必須將時(shí)間單位進(jìn)行統(tǒng)一。如果目標(biāo)案例與源案例的時(shí)間單位不同,則需要通過換算將時(shí)間單位統(tǒng)一。
設(shè)Timk(Vpi)和Timk(Vpj)分別為第i個(gè)和第j個(gè)臨床案例第p個(gè)三級(jí)子節(jié)點(diǎn),第k個(gè)項(xiàng)目的時(shí)間屬性值;Simtimek(Vpi,Vpj)為Vpi與Vpj在第k個(gè)項(xiàng)目上時(shí)間屬性值相似度。時(shí)間屬性值的計(jì)算見式(2)。
3)數(shù)值屬性的相似度計(jì)算
數(shù)值型是一種比較普遍的屬性值類型,像體格檢查、實(shí)驗(yàn)室檢驗(yàn)等項(xiàng)目中都普遍存在。我們?cè)O(shè)計(jì)的數(shù)值相似度計(jì)算方法基于海明距離原理。
設(shè)Valk(Vpi)和Valk(Vpj)分別為第i個(gè)和第j個(gè)臨床案例的第p個(gè)三級(jí)子節(jié)點(diǎn),第k個(gè)項(xiàng)目的數(shù)值屬性值;Simstrk(Vpi,Vpj)為Vpi與Vpj第k個(gè)項(xiàng)目上的數(shù)值屬性相似度。數(shù)值屬性相似度計(jì)算見式(3)。
臨床案例綜合相似度計(jì)算的依據(jù)是各三級(jí)子節(jié)點(diǎn)之間的相似度計(jì)算結(jié)果。臨床案例之間各三級(jí)子節(jié)點(diǎn)相似度的計(jì)算基于3.1給出的屬性值相似度計(jì)算方法。由于一個(gè)臨床案例由19個(gè)三級(jí)子節(jié)點(diǎn)組成,對(duì)于不同的疾病類型,同一個(gè)子節(jié)點(diǎn)對(duì)于綜合相似度計(jì)算的重要性可能是完全不同的。這就是說,在計(jì)算綜合相似度時(shí),每一個(gè)三級(jí)子節(jié)點(diǎn)的權(quán)重可能會(huì)因?yàn)椴煌募膊☆愋投煌?。但是,由于?quán)重的確定非常復(fù)雜,而且需要投入巨大工作量,因此在能夠獲得良好臨床案例推薦的前提下,可以采用平均權(quán)重的方法計(jì)算綜合相似度,即在計(jì)算綜合相似度時(shí),假設(shè)所有三級(jí)子節(jié)點(diǎn)的權(quán)重都是相同的。
為了驗(yàn)證相似度計(jì)算方法的有效性,我們?cè)O(shè)計(jì)并實(shí)施了一系列的相似度計(jì)算實(shí)驗(yàn)。實(shí)驗(yàn)數(shù)據(jù)來自某三甲醫(yī)院代謝綜合癥的200個(gè)病例,選取了其中20個(gè)糖尿病案例和10個(gè)高血壓案例?;趯?shí)驗(yàn)數(shù)據(jù)的完整程度,相似度的計(jì)算只涵蓋了基本癥狀、實(shí)驗(yàn)室檢驗(yàn)、體格檢查、家族史、藥物治療和醫(yī)學(xué)影像檢查這6個(gè)具有代表性的三級(jí)子節(jié)點(diǎn)。
在臨床案例樣本三級(jí)子節(jié)點(diǎn)相似度計(jì)算的基礎(chǔ)上,通過設(shè)置平均權(quán)重的方法計(jì)算臨床案例樣本之間的綜合相似度。圖4給出了綜合相似度實(shí)驗(yàn)的計(jì)算結(jié)果。從圖4可以看出,糖尿病與糖尿病的臨床案例樣本之間、高血壓與高血壓的臨床案例樣本之間的綜合相似度,明顯高于糖尿病與高血壓臨床案例之間的相似度。這說明在進(jìn)行臨床案例推薦時(shí),醫(yī)生能夠獲得與就診病人基本相同的臨床案例的概率是比較大的。這在一定程度上驗(yàn)證了本文所設(shè)計(jì)的臨床案例知識(shí)庫(kù)以及相似度計(jì)算方法的有效性。
圖4 臨床案例樣本之間綜合相似度計(jì)算結(jié)果比較Fig.4 Comparison among Integrated similarity calculations of clinical case samples
本文所提出的臨床案例知識(shí)庫(kù)的構(gòu)建方法,在一定程度上解決了臨床知識(shí)庫(kù)建設(shè)中普遍存在的知識(shí)獲取困難的問題。通過基于醫(yī)學(xué)本體的知識(shí)表示方式,可以形成一種比較一致的術(shù)語標(biāo)準(zhǔn),以便于在不同醫(yī)療機(jī)構(gòu)和醫(yī)療人員之間實(shí)現(xiàn)臨床醫(yī)學(xué)知識(shí)的共享。作為案例推理的核心問題,臨床案例的相似度還沒有形成一種統(tǒng)一的計(jì)算方法。本文通過基于真實(shí)臨床數(shù)據(jù)的實(shí)驗(yàn),驗(yàn)證了所設(shè)計(jì)的案例相似度計(jì)算方法的有效性。該論文對(duì)于構(gòu)建基于案例推理的臨床醫(yī)學(xué)知識(shí)庫(kù)以及對(duì)臨床決策支持系統(tǒng)的建設(shè)有一定的參考價(jià)值。
[1] Cornelia M. Ruland, Suzanne Bakken. Developing, implementing,and evaluating decision support systems for shared decision making in patient care: a conceptual model and case illustration[J]. Journal of Biomedical Informatics, 2002, 35: 313-321.
[2] 牟冬梅, 崔艷玲. MeSH、本體論在醫(yī)學(xué)知識(shí)組織中的作用[J].情報(bào)雜志, 2005, 24(7): 120-122.
[3] Geneseret M. R., Fike R. E. Knowledge interchange format version 3.0[R]. Technical Report Logic-92-1, 1992
[4] Gruber T. R. Ontolingua: A Mechanism to Support Portable Ontologies[R]. Technical Report KSL-91-66, 1992
[5] 李崢嶸, 何東健, 李書琴, 等. 基于XML的網(wǎng)絡(luò)專家系統(tǒng)知識(shí)庫(kù)構(gòu)建方法研究[J]. 人工智能, 2006, 22(6): 299-302.
[6] 陳鶯鶯, 葉楓. 信息提取技術(shù)在電子病歷中的應(yīng)用[J]. 中國(guó)醫(yī)療器械雜志, 2011, 35(1): 39-41.