李昊旻
(浙江大學(xué)醫(yī)學(xué)院附屬兒童醫(yī)院 杭州 310052)
臨床技術(shù)的不斷進(jìn)步和醫(yī)學(xué)知識(shí)的爆炸式增長(zhǎng)推動(dòng)臨床實(shí)踐中解決臨床問(wèn)題能力的提升,但同時(shí)帶來(lái)更為復(fù)雜的臨床決策環(huán)境。單純依靠個(gè)人學(xué)習(xí)能力和知識(shí)技能較難應(yīng)對(duì)日益復(fù)雜的臨床決策需求,這一現(xiàn)狀嚴(yán)重制約醫(yī)療服務(wù)質(zhì)量提升[1]。醫(yī)療大數(shù)據(jù)的積累為醫(yī)學(xué)大數(shù)據(jù)分析和人工智能技術(shù)應(yīng)用提供新的基礎(chǔ)[2],促使醫(yī)療服務(wù)從基于熟練技藝轉(zhuǎn)向數(shù)據(jù)驅(qū)動(dòng)的科學(xué)發(fā)展[3]。
目前醫(yī)療人工智能范式快速發(fā)展,包括符號(hào)主義、貝葉斯主義、聯(lián)結(jié)主義、類(lèi)比主義等多種范式,應(yīng)用場(chǎng)景逐漸多樣化。其中患者相似性分析是基于大量已知案例通過(guò)衡量患者之間的距離建立患者相似組,并通過(guò)相似組特征獲取傳統(tǒng)僅能通過(guò)醫(yī)學(xué)實(shí)踐才能獲得的臨床經(jīng)驗(yàn)知識(shí),以此定量化評(píng)估患者狀態(tài)、推薦治療方案和預(yù)測(cè)患者預(yù)后[4-8]。具體來(lái)說(shuō)患者相似性分析是指在特定醫(yī)療環(huán)境下,選取臨床概念(如診斷、癥狀、檢查檢驗(yàn)、家族史、既往史、暴露環(huán)境、藥物、手術(shù)、基因等)作為患者的特征項(xiàng),定量化分析即計(jì)算復(fù)雜概念語(yǔ)義空間中概念間的距離,通過(guò)某種模型融合多維度特征,從而度量患者間的距離,篩選出與索引患者相似的患者相似組并以此模擬臨床類(lèi)比推理的思維模式,同時(shí)可通過(guò)患者相似組的其他多維特征開(kāi)展各類(lèi)評(píng)估、推薦和預(yù)測(cè)。其相較針對(duì)特定目標(biāo)的基于機(jī)器學(xué)習(xí)的人工智能模型具有更好的普適性、臨床可解釋性等優(yōu)勢(shì)。
共有3個(gè)核心步驟[9]:首先計(jì)算復(fù)雜概念語(yǔ)義空間中概念間的距離;其次利用多維臨床概念度量進(jìn)一步評(píng)估患者間的距離;最后建立合適的患者相似組。上述過(guò)程依賴(lài)于一套臨床概念相似性和患者相似性的可計(jì)算體系。本文將介紹本課題組近年來(lái)進(jìn)行的臨床概念的可計(jì)算范圍擴(kuò)展情況以及利用這些可計(jì)算性服務(wù)于構(gòu)建患者相似性分析計(jì)算體系的方法、路徑,同時(shí)探討當(dāng)前患者相似性分析技術(shù)面臨的機(jī)遇和挑戰(zhàn)。
醫(yī)學(xué)分析哲學(xué)專(zhuān)家Sadegh-Zadeh在其專(zhuān)著中細(xì)致分析了臨床推理的原理:臨床推理的對(duì)象是患者“p”,醫(yī)生面對(duì)患者時(shí),患者提供一個(gè)非空的數(shù)據(jù)D1={δ1,…,δm}其中m≥1,每個(gè)δi代表一個(gè)關(guān)于患者問(wèn)題、主訴、癥狀等的聲明。通常認(rèn)為臨床推理是臨床醫(yī)生尋求一個(gè)診斷能夠解釋為什么D1可以發(fā)生的過(guò)程,這也是傳統(tǒng)的基于知識(shí)工程的臨床決策支持解決方案的理論基礎(chǔ)。然而Sadegh-Zadeh 認(rèn)為此觀點(diǎn)是對(duì)于臨床實(shí)踐本質(zhì)和意圖的誤解。臨床實(shí)踐以D1作為一個(gè)臨床問(wèn)題,臨床推理是解決這個(gè)問(wèn)題的過(guò)程,解決方案瞄準(zhǔn)的不是診斷而是采取什么措施。在尋找和優(yōu)化治療措施時(shí)往往需要從患者身上獲取更多信息,其中包括診斷。因此臨床實(shí)踐可以看作是一個(gè)在臨床醫(yī)生控制下通過(guò)問(wèn)答、生成信息實(shí)現(xiàn)路徑尋找以處置好臨床問(wèn)題的過(guò)程。
基于Sadegh-Zadeh的這一理論可以將臨床決策過(guò)程抽象為函數(shù)F:
F(Di)=Ai
這個(gè)推理函數(shù)F可在面對(duì)一個(gè)臨床問(wèn)題Di時(shí)輸出下一步干預(yù)的措施Ai,并基于此干預(yù)下的新的臨床問(wèn)題Di+1可以迭代輸出進(jìn)一步的措施Ai+1。這一過(guò)程不等同于直接尋求診斷。在臨床決策過(guò)程中最典型的一類(lèi)知識(shí)類(lèi)型被稱(chēng)為命題式知識(shí),這類(lèi)知識(shí)簡(jiǎn)單描述就是個(gè)體心智狀態(tài)“knowing that something is the case”(知道這屬于什么類(lèi)型)即類(lèi)比推理。具有豐富經(jīng)驗(yàn)的醫(yī)生可以快速地將一名患者p歸入到某一個(gè)案例模式Pi(Pi∈P{P1,P2,…,Pn}),而案例模式P本質(zhì)上是患者群體的一個(gè)聚類(lèi),針對(duì)每個(gè)患者聚類(lèi)Pi臨床醫(yī)生具有確定下一步采取何種干預(yù)的知識(shí)技能。大多數(shù)誤診和不當(dāng)處置緣于這個(gè)匹配過(guò)程不準(zhǔn)確或者相應(yīng)知識(shí)技能不完善。因此尋找一個(gè)具有普適性的函數(shù)能夠把患者p映射到特定模式Pi即可實(shí)現(xiàn)對(duì)于臨床思維過(guò)程的計(jì)算機(jī)化的模擬。患者相似性分析正是基于這樣的理論基礎(chǔ),從最初的基于少量典型案例的推理逐步發(fā)展為面向海量數(shù)據(jù)的患者相似性分析。
近年來(lái)基于患者相似性分析的人工智能研究成為熱門(mén)研究領(lǐng)域,涉及精神和行為異常、傳染病、癌癥等[9]。其中所使用數(shù)據(jù)類(lèi)型、技術(shù)手段各不相同,預(yù)測(cè)效果也不一致,甚至部分研究對(duì)于同一方法的表現(xiàn)優(yōu)劣存在矛盾性結(jié)論?;颊呦嗨菩苑治鲂Ч麅?yōu)劣的關(guān)鍵在于構(gòu)建的相似性分析計(jì)算體系是否能夠真實(shí)評(píng)估患者臨床意義的相似性。本文將對(duì)這些關(guān)鍵問(wèn)題和挑戰(zhàn)進(jìn)行闡述。
臨床信息中包含了不同語(yǔ)義空間的概念,如診斷、藥物、表型、檢查檢驗(yàn)以及遺傳分子信息等,患者相似性分析首先需要建立各特定語(yǔ)義空間相似性計(jì)算方法。但是很多臨床概念(如診斷、藥物、表型等)通常是以文字符號(hào)表征的抽象概念而不具有定量細(xì)化的可計(jì)算性。早期相似性分析計(jì)算體系中往往簡(jiǎn)化計(jì)算通過(guò)某個(gè)特征是否存在來(lái)構(gòu)建二值化的特征空間。這種方式忽略了概念在語(yǔ)義層面的相似性,往往并不能很好地反映臨床意義上的概念距離,而擴(kuò)展不同語(yǔ)義空間概念的可計(jì)算性是相似性分析的重要研究?jī)?nèi)容。
通過(guò)分層的方式逐步細(xì)化概念是組織領(lǐng)域知識(shí)的通常做法。在臨床領(lǐng)域同樣存在較多此類(lèi)具有層級(jí)結(jié)構(gòu)的語(yǔ)義空間,最典型的是服務(wù)于診斷的疾病與有關(guān)健康問(wèn)題的國(guó)際疾病分類(lèi)(International Classification of Diseases,ICD),目前廣泛使用的ICD-10版本中,疾病和健康問(wèn)題被分為22章、262節(jié)、2 051個(gè)類(lèi)目、9 505個(gè)亞目以及22 908個(gè)具體概念編碼。顯然同一個(gè)類(lèi)目下的疾病比不同類(lèi)目下的疾病更相似,因此借由此類(lèi)具有良好空間層次定義的概念編碼可以更精細(xì)評(píng)估概念之間的距離。在這一體系中,評(píng)估概念相似性的最優(yōu)方法是基于信息量(Information Content,IC)的距離計(jì)算。目前有多種IC以及概念距離計(jì)算方法[10]?;诖碎_(kāi)展領(lǐng)域性的本體建設(shè)可以服務(wù)擴(kuò)展領(lǐng)域概念的可計(jì)算性。
由于體系性的標(biāo)準(zhǔn)術(shù)語(yǔ)體系或者概念本體建設(shè)依賴(lài)大量專(zhuān)家資源建立和維護(hù),并不能在所有臨床概念空間均建立或應(yīng)用這些層次體系,對(duì)于這類(lèi)概念往往需要通過(guò)其他方式完成可計(jì)算語(yǔ)義空間的擴(kuò)展。以臨床藥物為例,雖然化學(xué)藥物體系中構(gòu)建了類(lèi)似層次結(jié)構(gòu)的概念體系解剖學(xué)治療學(xué)及化學(xué)分類(lèi)系統(tǒng)(Anatomical Therapeutic Chemical,ATC),但是在國(guó)內(nèi)實(shí)際臨床環(huán)境中該概念體系并不覆蓋臨床大量使用的復(fù)合藥物、生物制劑、中成藥以及中草藥等。針對(duì)這類(lèi)缺乏統(tǒng)一層次化概念語(yǔ)義空間的情況,需要探索利用大數(shù)據(jù)資源中的關(guān)聯(lián)信息構(gòu)建全新、廣覆蓋的可計(jì)算語(yǔ)義空間。本課題組針對(duì)臨床藥物的層次分類(lèi)語(yǔ)義空間構(gòu)建問(wèn)題,利用臨床用藥記錄和患者診斷信息的關(guān)聯(lián)信息,采用統(tǒng)計(jì)檢驗(yàn)獲取藥物和診斷的顯著關(guān)聯(lián)關(guān)系,通過(guò)診斷空間的特征向量構(gòu)建臨床藥物的可計(jì)算方法[11]。通過(guò)驗(yàn)證,利用臨床數(shù)據(jù)構(gòu)建的語(yǔ)義空間和傳統(tǒng)專(zhuān)家定義的ATC具有很好的相關(guān)性,同時(shí)覆蓋更多的臨床常用藥物,為開(kāi)展臨床藥物處方的相似性分析提供了計(jì)算基礎(chǔ)。這種臨床藥物距離評(píng)估方法除服務(wù)于定量評(píng)估藥物距離外,還可以通過(guò)非監(jiān)督聚類(lèi)形成藥物分類(lèi),服務(wù)于特定群體用藥評(píng)估[12]。
3.4.1 體系構(gòu)建方法 許多概念描述是數(shù)值型,然而計(jì)算臨床概念間的距離不能忽視實(shí)際的臨床意義。更特殊的情況是由于年齡、性別甚至人種差異,不同數(shù)值在不同群體中具有不同的臨床意義。因此對(duì)于此類(lèi)存在人群分布差異的概念需要構(gòu)建標(biāo)志值參考體系,然后將原始數(shù)值轉(zhuǎn)換為Z值(標(biāo)準(zhǔn)分?jǐn)?shù))。Z值代表原始分?jǐn)?shù)中減去群體的平均值,再依照群體的標(biāo)準(zhǔn)差分割成不同差距。對(duì)于分布不對(duì)稱(chēng)或者單邊異常的臨床概念,通常需要結(jié)合臨床意義矯正Z值,對(duì)于正常范圍的數(shù)值,定義為0,低于下限或高于上限則處理為該值與下/上限的差值與群體標(biāo)準(zhǔn)差的比值。
3.4.2 基于研究人群數(shù)據(jù)構(gòu)建特定標(biāo)準(zhǔn)值體系 由于臨床實(shí)踐中還有大量臨床數(shù)值型概念缺乏公開(kāi)廣泛接受的標(biāo)準(zhǔn)值體系,在實(shí)際應(yīng)用中可以基于研究人群的數(shù)據(jù)構(gòu)建特定標(biāo)準(zhǔn)值體系,本研究組曾就中國(guó)兒童人群中心臟的超聲心動(dòng)圖常規(guī)測(cè)量數(shù)值和髖關(guān)節(jié)發(fā)育不良評(píng)估的測(cè)量值構(gòu)建并評(píng)估相關(guān)標(biāo)準(zhǔn)值參考體系[13-14],這也從側(cè)面說(shuō)明基于臨床大數(shù)據(jù)可以有效地構(gòu)建標(biāo)準(zhǔn)參考體系,并服務(wù)于相關(guān)概念的相似性分析計(jì)算。
3.5.1 多值概念集相似性計(jì)算 許多臨床概念空間可以給一名患者賦值一組概念值,如一名患者可以診斷多個(gè)疾病同時(shí)使用多組藥物,因此同一概念空間中還存在不同大小概念集上如何計(jì)算相似性的問(wèn)題。由于涉及不同長(zhǎng)度的集合概念之間的匹配和距離計(jì)算,不同匹配策略會(huì)帶來(lái)不同效果,在實(shí)際測(cè)試[10]中發(fā)現(xiàn)最小加權(quán)二分匹配(Minimum Weighted Bipartite Matching,MWBM)的算法對(duì)于不同長(zhǎng)度概念集的匹配效果更佳。
3.5.2 時(shí)序分析方法 除這類(lèi)多值概念集情況外,還有一些概念是由時(shí)間序列數(shù)據(jù)組成的,如術(shù)中監(jiān)護(hù)的血壓數(shù)據(jù),這些序列數(shù)據(jù)的長(zhǎng)度通常偏差更大,從幾十到上百,而且具有明確時(shí)間特性。傳統(tǒng)的相似性計(jì)算僅通過(guò)統(tǒng)計(jì)特性,如均值、方差、斜率變化等反映動(dòng)態(tài)數(shù)據(jù)特征,但是在這一過(guò)程中丟失了序列本身較多變化特征,因此需要引入更多時(shí)序分析方法。如可利用soft-DTW計(jì)算序列血壓數(shù)據(jù)之間的相似性作為人工智能模型的輸入來(lái)獲得更多動(dòng)態(tài)數(shù)據(jù)相似性[15],同時(shí)一些針對(duì)時(shí)序數(shù)據(jù)的聚類(lèi)方法如kml等也可以方便應(yīng)用于此類(lèi)數(shù)據(jù)的聚類(lèi)分析,并基于聚類(lèi)信息提供動(dòng)態(tài)相似性。
醫(yī)療大數(shù)據(jù)背景下的所有醫(yī)療數(shù)據(jù),如診斷、癥狀、檢查檢驗(yàn)、家族史、既往史、暴露環(huán)境、藥物、手術(shù)等,可以作為相似性計(jì)算的輸入。如何融合不同概念空間到統(tǒng)一的體系中獲得最終患者層面的相似性是最核心的挑戰(zhàn)。
4.2.1 方法1 傳統(tǒng)方法中,多通過(guò)簡(jiǎn)單的映射不同概念空間將患者描述為一個(gè)多維空間中的特征向量,然后利用數(shù)學(xué)方法定量地度量多維概念語(yǔ)義空間中特征向量之間的距離,基于排序或聚類(lèi)分析篩選出患者相似組。這種方法的局限在于為所有特征都構(gòu)建獨(dú)立維度,容易導(dǎo)致維度災(zāi)難,同時(shí)所有特征都享有統(tǒng)一權(quán)重可能帶來(lái)大量無(wú)效特征稀釋空間有效特征分布的問(wèn)題,最終影響患者相似性分析效果。
4.2.2 方法2 針對(duì)特定臨床場(chǎng)景和臨床問(wèn)題,利用專(zhuān)家知識(shí)挑選特征和構(gòu)建特征權(quán)重可以解決一部分問(wèn)題,基于領(lǐng)域知識(shí)數(shù)字模型的患者相似性分析通??梢匀〉酶眯Ч?。但是這樣的融合模式喪失了患者相似性分析技術(shù)路線的普適性,必須依賴(lài)專(zhuān)家資源,同時(shí)在復(fù)雜臨床場(chǎng)景下構(gòu)建此類(lèi)可計(jì)算領(lǐng)域模型的可行性較差。因此需要探索一種能夠從臨床數(shù)據(jù)中自學(xué)習(xí)的融合機(jī)制。
4.3.1 步驟 本研究團(tuán)隊(duì)受心理學(xué)領(lǐng)域關(guān)于類(lèi)比推理的結(jié)構(gòu)映射理論(structure-mapping theory)啟發(fā),將計(jì)算機(jī)化的類(lèi)比推理分為兩步:第1步是計(jì)算屬性相似度,在此過(guò)程中僅就特定概念空間中對(duì)應(yīng)項(xiàng)的屬性之間進(jìn)行比較和計(jì)算相似距離,通常是邏輯和計(jì)算清晰的過(guò)程。第2步是計(jì)算關(guān)系相似度,通常是高級(jí)神經(jīng)活動(dòng)和專(zhuān)業(yè)知識(shí)發(fā)揮作用的過(guò)程,在計(jì)算上引入機(jī)器學(xué)習(xí)模型,通過(guò)大量案例學(xué)習(xí)訓(xùn)練完成不同概念空間屬性距離的融合[16],這類(lèi)似于人類(lèi)醫(yī)生的經(jīng)驗(yàn)訓(xùn)練過(guò)程,不同在于機(jī)器訓(xùn)練過(guò)程可以更快速地完成并獲得人類(lèi)醫(yī)生通常需要數(shù)年訓(xùn)練才能取得的經(jīng)驗(yàn)。
4.3.2 存在的問(wèn)題 目前此框架的主要問(wèn)題在于學(xué)習(xí)目標(biāo)的特異性有可能會(huì)減弱患者相似性分析的通用性,需要進(jìn)一步探索人類(lèi)經(jīng)驗(yàn)學(xué)習(xí)機(jī)制。
類(lèi)似于基因組、蛋白組用來(lái)描述某個(gè)層次上的全部信息,患者相似組[8]用來(lái)描述一個(gè)大規(guī)?;颊呷后w中具有相似特征的患者群體。該相似組中蘊(yùn)含了臨床實(shí)踐的各種知識(shí),為計(jì)算機(jī)獲取醫(yī)學(xué)知識(shí)提供基礎(chǔ)?;颊呦嗨平M本質(zhì)上代表的是一個(gè)群體特性,這個(gè)群體特性是否具有針對(duì)特定個(gè)體、特定任務(wù)的特異性的表征能力,是最終決定相關(guān)智能任務(wù)效果的關(guān)鍵。
5.2.1 方法1 通常在獲取患者層面的定量相似距離評(píng)估結(jié)果后,可以直接通過(guò)篩選距離最近的N個(gè)患者構(gòu)建患者相似組,但是對(duì)于N如何定義缺少理論的支持,同時(shí)在不同的空間分布下N所代表的距離關(guān)系也會(huì)有很大的變異。另外一個(gè)策略是通過(guò)一個(gè)距離域值來(lái)過(guò)濾患者獲得一個(gè)患者相似組,但同時(shí)面臨閾值過(guò)高相似組的構(gòu)成太少不具備群體特性,或者閾值過(guò)低相似組構(gòu)成不夠單一的問(wèn)題。在實(shí)際操作中通常采用兩種策略補(bǔ)充的方式,在適度放松N和閾值的情況下,通過(guò)滿足兩個(gè)條件來(lái)構(gòu)建患者相似組。
5.2.2 方法2 通過(guò)非監(jiān)督的聚類(lèi)方法來(lái)自動(dòng)完成群體的分組,根據(jù)群體的分布特征完成相關(guān)聚類(lèi)分組,通過(guò)某些分組之間距離的評(píng)估來(lái)評(píng)價(jià)當(dāng)前分組的優(yōu)劣,一些具有層次聚類(lèi)的方法還可以進(jìn)一步豐富構(gòu)建患者相似組的顆粒度,相似組內(nèi)部可進(jìn)一步劃分為多個(gè)不同的子群體,稱(chēng)為子相似組。
5.2.3 相似組質(zhì)量控制 無(wú)論何種策略構(gòu)建的相似組,在群體數(shù)量不足或者目標(biāo)患者異質(zhì)性很高的背景下,很難構(gòu)建真正意義的相似組,因此基于相似組獲取的知識(shí)、給出的建議有可能是錯(cuò)誤的或者存在偏差的,因此在利用患者相似組開(kāi)展各類(lèi)智能任務(wù)之前需要對(duì)于相似組進(jìn)行質(zhì)量控制,一方面可以通過(guò)患者相似組中的各類(lèi)屬性的統(tǒng)計(jì)分布來(lái)檢驗(yàn)這個(gè)群體中相關(guān)特征是否具有很好的一致性,例如要預(yù)測(cè)的指標(biāo)為住院時(shí)間,那么在這個(gè)相似群體中住院時(shí)間是否比較集中在一個(gè)特定取值范圍,和非相似組或者全部群體相比是否有更小的分布方差,在均值分布上是否具有統(tǒng)計(jì)意義的偏差等。
對(duì)于通用場(chǎng)景下的患者相似組,可以探索一些可視化的方式綜合展現(xiàn)個(gè)體、相似組和群體的關(guān)系[17],從而更好地理解3者之間的關(guān)系并基于相似組信息進(jìn)行臨床決策,或者擴(kuò)展人工智能模型的可解釋性。
患者相似性分析提供一種通用的計(jì)算機(jī)輔助臨床決策支持的理論框架,在醫(yī)療大數(shù)據(jù)不斷積累的背景下其潛力將會(huì)逐步被認(rèn)識(shí)、發(fā)現(xiàn)和利用。患者相似性分析也是今后醫(yī)療大數(shù)據(jù)產(chǎn)業(yè)的一項(xiàng)關(guān)鍵基礎(chǔ)技術(shù)。目前在開(kāi)展的一個(gè)針對(duì)罕見(jiàn)病診斷的項(xiàng)目中[18],以表型相似性分析為基礎(chǔ),借助可視化方法,試圖為臨床罕見(jiàn)病患者特別是新生兒提供一種快速的鑒別診斷方法,彌補(bǔ)相關(guān)分子診斷周期過(guò)長(zhǎng)的問(wèn)題,從而為需要快速診斷和處置的危重新生兒提供決策支持。同時(shí)針對(duì)先天性心臟病領(lǐng)域,正在探索基于領(lǐng)域知識(shí)的相似性分析。未來(lái)患者相似性分析利用領(lǐng)域相關(guān)研究尚待進(jìn)一步深入開(kāi)展。
6.2.1 概述 數(shù)字孿生(Digital Twins)是一個(gè)工業(yè)領(lǐng)域的概念,通常用來(lái)評(píng)估復(fù)雜系統(tǒng),如航空發(fā)動(dòng)機(jī)。其核心是為一個(gè)真實(shí)的實(shí)體構(gòu)建一個(gè)可計(jì)算的數(shù)字孿生模型,可以滿足一些具有不可重復(fù)和侵害性的測(cè)試需求。近年來(lái)有學(xué)者將此概念應(yīng)用于醫(yī)療健康領(lǐng)域,希望構(gòu)建數(shù)字孿生患者以提高診斷和治療能力[19]。
6.2.2 面臨的挑戰(zhàn) 數(shù)字孿生和患者相似性在理論本質(zhì)上具有同源一致性,因此患者相似性分析可以用來(lái)生成數(shù)字孿生模型。但是其中最大的挑戰(zhàn)是構(gòu)建動(dòng)態(tài)模型,患者是一個(gè)生物動(dòng)態(tài)系統(tǒng),其生命體征是隨時(shí)間變化的,干預(yù)效果也是動(dòng)態(tài)波動(dòng)的,目前大多數(shù)研究?jī)H利用靜態(tài)時(shí)間點(diǎn)的各種數(shù)據(jù)或者單一維度下的時(shí)序數(shù)據(jù)進(jìn)行相似性分析,還不能完整地反映患者動(dòng)態(tài)的相似性。
6.2.3 應(yīng)對(duì)措施 針對(duì)這一問(wèn)題,有研究者將時(shí)間信息納入到患者相似性分析中以尋求突破。動(dòng)態(tài)數(shù)據(jù)的相似性搜索要求子序列匹配、趨勢(shì)分析,雖然在統(tǒng)計(jì)學(xué)和信號(hào)處理中,對(duì)時(shí)間序列分析已有大量研究,但是對(duì)于一個(gè)高緯度模型來(lái)說(shuō),動(dòng)態(tài)所帶來(lái)的往往是災(zāi)難性的計(jì)算需求。如何在一個(gè)時(shí)間多分辨率的情況下開(kāi)展高緯度模型的相似性分析依然是挑戰(zhàn)。
在患者相似性分析實(shí)踐過(guò)程中需要處理好精準(zhǔn)醫(yī)學(xué)強(qiáng)調(diào)的個(gè)性化與患者相似性分析的群體特征之間的對(duì)立統(tǒng)一,以及基于專(zhuān)家知識(shí)和大數(shù)據(jù)的對(duì)立統(tǒng)一。精準(zhǔn)醫(yī)學(xué)強(qiáng)調(diào)患者的個(gè)性化,認(rèn)為需要針對(duì)性地給予個(gè)性化治療,但是患者相似性假設(shè)患者在一個(gè)特定相似組中具有共性,能夠根據(jù)共性特征來(lái)開(kāi)展診療,從字面上理解兩者是對(duì)立的,但是本質(zhì)上患者相似性分析也是在多樣的群體中尋求具有個(gè)性化特征的群體,當(dāng)群體足夠大時(shí)個(gè)性化就變成一個(gè)小群體的個(gè)性化;同時(shí)引入領(lǐng)域?qū)<抑R(shí)能夠提高患者相似性分析的準(zhǔn)確度,但是大數(shù)據(jù)中同樣蘊(yùn)含很多未知或者沒(méi)有系統(tǒng)總結(jié)過(guò)的新知識(shí),相似性分析可以為知識(shí)發(fā)現(xiàn)提供支持。
對(duì)于醫(yī)療問(wèn)題,模型的性能和可解釋性同等重要。盡管應(yīng)用深度學(xué)習(xí)模型在特定影像處理領(lǐng)域取得很多成果,但是在通用臨床領(lǐng)域如何解釋其輸出結(jié)果以及邏輯還缺乏成熟的機(jī)制?;颊呦嗨菩苑治鱿啾群诤械念A(yù)測(cè)模型具有更好的可解釋性,但在復(fù)雜多維環(huán)境中,這種相似性表現(xiàn)得較抽象,通常需要借助數(shù)據(jù)可視化工具將聚類(lèi)、分布、排列、比較、關(guān)聯(lián)等信息以可視化的方式呈現(xiàn)給醫(yī)生[17],直接提升對(duì)信息認(rèn)知的效率,引導(dǎo)醫(yī)生從可視化的結(jié)果中分析和推理出有效信息。利用可視化的患者相似性分析其實(shí)是在綜合人腦對(duì)于數(shù)據(jù)模式的認(rèn)知以及電腦對(duì)于數(shù)據(jù)計(jì)算的高效處理,通過(guò)一種互動(dòng)模式構(gòu)建人機(jī)交互的知識(shí)轉(zhuǎn)化框架,因此開(kāi)展個(gè)體和群體多維臨床特征的可視化研究對(duì)于推動(dòng)患者相似性分析具有重要意義。
本文從患者相似性的理論基礎(chǔ)以及構(gòu)建患者相似性分析計(jì)算體系中的若干核心問(wèn)題出發(fā),結(jié)合項(xiàng)目團(tuán)隊(duì)近年來(lái)的工作實(shí)踐,系統(tǒng)介紹在臨床概念層面構(gòu)建可計(jì)算體系、融合多維特征、構(gòu)建患者相似組以及評(píng)估患者相似組等技術(shù)的路徑和方法,分析該領(lǐng)域需要重點(diǎn)突破的難點(diǎn)所在?;颊呦嗨菩苑治鍪轻t(yī)學(xué)人工智能綜合展現(xiàn)的一個(gè)核心領(lǐng)域,該技術(shù)的突破能夠破解很多長(zhǎng)期困擾醫(yī)療體系的問(wèn)題,推動(dòng)醫(yī)學(xué)人工智能發(fā)展到新的層次。