楊豐春 鄭 思 李 姣
(中國醫(yī)學科學院/北京協(xié)和醫(yī)學院 醫(yī)學信息研究所 醫(yī)學智能計算研究室, 北京100020)
機器學習是指將預測模型與數(shù)據(jù)進行擬合,或者在數(shù)據(jù)中識別具有信息性的分組的過程[1]。在面對樣本量巨大或擁有大量特征的數(shù)據(jù)集時,機器學習方法可以建立自動化的數(shù)據(jù)分析過程,從數(shù)據(jù)集中不斷學習知識并逐漸提高對新數(shù)據(jù)的預測能力。目前,機器學習模型已廣泛應用于疾病預防、診斷、治療和預后的相關預測,如疾病風險預測[2]、患者再次入院預測[3]、死亡預測[4]、藥物相互作用預測[5]和患者護理需求預測[6]等方面,并且取得了良好的預測性能[7]。
將機器學習應用于臨床醫(yī)學的主要目標包括:①對預測任務做出準確的預測和判斷;②利用訓練好的模型指導臨床實踐和臨床研究[8]。但是在目前的機器學習應用過程中,大多數(shù)研究專注于預測準確性,而忽略了結合具體數(shù)據(jù)對預測結果進行解釋。由于機器學習模型的復雜性,用于產生最終輸出的過程往往缺乏透明度,模型結果通常很難解釋。此外,在臨床應用中,機器學習模型通常只在一個狹窄的環(huán)境中針對特定的疾病進行訓練和評估,并依賴于個人的統(tǒng)計學和機器學習專業(yè)技術知識。為了便于醫(yī)療工作者理解機器學習模型做出預測的依據(jù),還需要進一步對高度復雜的預測模型進行解釋。模型的高解釋性意味著終端用戶可以更容易理解和解釋未來的預測,機器學習的可解釋性與實現(xiàn)高預測準確性同樣重要[9]。
本文將概述可解釋機器學習方法及其在疾病預測中的工作流程,通過利用臨床結構化數(shù)據(jù)構建應用實例,并從全局和局部兩個方面對預測模型進行解釋。本研究不關注建立在非結構化數(shù)據(jù)(如不同類型的醫(yī)學圖像、文本或其他基于信號的數(shù)據(jù))上的機器學習模型的可解釋性研究。
數(shù)據(jù)挖掘和機器學習場景中,可解釋性被定義為機器學習方法向人類解釋或呈現(xiàn)可解釋的術語的能力[10]。根據(jù)不同的機器學習模型在對預測結果的解釋性方面的不同,可以分為具有內在解釋性的機器學習方法和自身解釋性能比較差的機器學習方法。
內在可解釋性是指已訓練好的模型無需額外的信息就可以理解模型的決策過程或決策依據(jù),這類解釋性發(fā)生在訓練之前,也稱為事前可解釋性。這類模型有樸素貝葉斯、線性回歸、決策樹、基于規(guī)則的方法等。決策樹和回歸模型都只能提供有限的可解釋性,特別是在捕獲數(shù)據(jù)中的非線性的情況。決策樹由于其圖形化的表示,可以輕松地概覽它復雜的模型運算過程;影響模型預測的最重要的特征往往顯示在樹的頂部,這也可以表示特征在預測中的相對重要性。
不可解釋模型或黑箱模型通常是只關注結果的復雜模型,例如,分類器集成模型或深度神經網絡,這類模型往往可以取得較高的預測準確率。針對這類模型的解釋,往往是在模型訓練好之后進行的,所以也稱之為事后可解釋性。
對于不可解釋機器學習模型的可解釋方法,可以分為局部可解釋性和全局可解釋性[8]。傳統(tǒng)上,機器學習研究的重點是全局可解釋性,以幫助理解機器學習模型的所有可能輸入和模型所做的所有預測空間之間的關系,相比之下局部可解釋性是幫助理解對特定樣本或訓練后的預測函數(shù)的一個小的、特定區(qū)域的預測。
模型的局部解釋方法[11]旨在幫助人們理解學習模型針對每一個特定輸入病例的決策過程和決策依據(jù)。模型的局部可解釋性以輸入樣本為導向,通過分析輸入樣本的每一維特征對模型最終決策結果的貢獻來實現(xiàn)對決策的解釋。局部解釋技術直到最近才被頻繁使用,它們適合用于沒有解釋性或弱解釋性模型的個性化水平上對預測結果進行特征重要性分析。
局部可解釋性技術(interpretable model-agnostic explanation, LIME)是一種使用簡單的模型來對復雜的模型進行解釋的方法,常用于在解釋黑盒機器學習模型的單個樣本的預測。LIME的原理是產生一個新的數(shù)據(jù)集(這個數(shù)據(jù)集是通過對某一個樣本量的數(shù)據(jù)集合進行變換得到),然后在這個新的數(shù)據(jù)集上訓練一個可解釋的模型。目標是可解釋的模型在新數(shù)據(jù)集上的預測結果和復雜模型在該數(shù)據(jù)集上的預測結果是相似的。該方法表述如下式所示:
f表示原始的模型, 即需要解釋的模型;g表示簡單模型,G是可解釋模型的一個集合, 如所有可能的線性模型;πx表示新數(shù)據(jù)集中的數(shù)據(jù)x’與原始數(shù)據(jù)x的距離;Ω(g)表示模型g的復雜程度。
Shaply值是基于博弈論思想的一種局部解釋方法[12]。其基本的設計思想是:首先計算一個特征加入到模型當中時的邊際貢獻,然后計算該特征在所有特征序列中不同的邊際貢獻,最后計算該特征的Shaply值,即該特征所有邊際貢獻的均值。Shaply值計算的優(yōu)勢在于能夠反映出樣本中每一個特征對預測結果的影響力,而且還可以指出其影響程度的正負性。
全局可解釋性[13]是指在全局層面上為模型內部的情況提供解析,幫助人們從整體上理解模型背后的復雜邏輯以及內部的工作機制。例如,模型是如何學習的、模型從訓練數(shù)據(jù)中學到了什么、模型是如何進行決策的等,這要求研究人員能以人類可理解的方式來表示一個復雜模型的訓練過程。有研究[14]顯示,特定群體可解釋性方法應被稱為群體特異可解釋性,在這種方法中,他們只關注與預測結果相關的人口亞群體的特征。全局可解釋性技術[15]:包括置換特征重要性[16]、部分依賴圖[17]和個人條件期望[18]、全局代理模型[19]等。
置換特征重要性:通過計算置換特征后模型預測誤差的增加來衡量特征的重要性。如果置換某特征值會增加模型預測的誤差,則該特征是“重要的”,說明模型依賴于該特征進行預測,如果模型的預測誤差不變則該特征是“不重要的”。部分依賴圖:顯示了單個特征對先前擬合模型預測的結局的邊際效應,預測函數(shù)固定在所選特征的值上,并在其他特征上取平均值。部分依賴圖的解釋方式與回歸模型相同。個體條件期望:通過顯示數(shù)據(jù)集中每個實例的估計功能關系,可以將個體條件期望圖視為部分依賴圖的分解視圖。其中每個實例顯示一條線,顯示當特征發(fā)生變化時該實例的預測如何變化。全局代理模型:使用簡單的可解釋機器學習模型(如線性回歸、決策樹)來擬合復雜機器學習模型的預測,它們不需要有關黑盒模型的內部工作過程和超參數(shù)設置等信息。使用用于訓練弱解釋性模型的數(shù)據(jù)集(或具有相同分布的數(shù)據(jù)集)作為訓練集、該模型的預測結果作為預測值來訓練可解釋模型。評價代理模型與被解釋模型的相似性的計算方式如下:
機器學習方法在疾病預測中的應用,可以歸納為如圖1所示的工作流程。
圖1 可解釋機器學習方法在疾病預測過程中的工作流程Fig.1 Workflow of interpretable machine learning methods in disease prediction
①疾病預測問題定義:確定需要待研究的疾病預測問題并進行定義,主要包括確定研究所關注的結局變量以及臨床所關心的與該結局相關的臨床指標;
②數(shù)據(jù)采集和數(shù)據(jù)清洗:根據(jù)所確定的研究問題來確定需要獲取的數(shù)據(jù)。對數(shù)據(jù)進行預處理,使其可以供模型輸入,該過程主要包括對數(shù)據(jù)進行缺失值的處理、非連續(xù)性變量的處理等;③數(shù)據(jù)集劃分:在機器學習方法中,需要對數(shù)據(jù)進行劃分,設置訓練集用于機器學習模型的訓練,設置測試集用于機器學習模型性能的驗證;④機器學習模型選擇:依據(jù)研究的臨床問題以及獲取的臨床數(shù)據(jù),選擇合適的機器學習模型用于臨床任務;⑤模型構建與評估:基于訓練數(shù)據(jù)集進行模型構建,并在測試集上進行模型性能的評估;⑥機器學習模型解釋:對訓練后的模型決策進行解釋與分析;⑦形成臨床決策參考方案:獲得模型決策方案和模型決策相關的因素,為臨床決策提供參考。
數(shù)據(jù)來源于重癥監(jiān)護醫(yī)學數(shù)據(jù)庫(Medical Information Mart for Intensive Care, MIMIC)-Ⅳ數(shù)據(jù)庫,MIMIC-Ⅳ數(shù)據(jù)庫是由麻省理工學院計算生理學實驗室及其合作研究機構創(chuàng)建并維護的大型公開數(shù)據(jù)庫,收集了2008年至2019年間美國馬薩諸塞州(Massachusetts)波士頓市三級學術醫(yī)療中心住院患者的臨床信息,主要包括患者的人口學信息、實驗室檢查值、藥物治療記錄、記錄的生命體征等。在獲得數(shù)據(jù)使用權限后,筆者從MIMIC-Ⅳ數(shù)據(jù)庫中獲取膿毒血癥患者的臨床數(shù)據(jù),并按照以下標準納入19 903名研究對象:①年齡大于18歲且小于89歲;②重癥加強護理病房(intensive care unit, ICU)住院時間超過24 h;③對于存在多條ICU住院記錄的患者,僅選取最后一條記錄。每名患者包含18個屬性,具體屬性特征名稱及含義如表1所示。本研究利用的研究信息不含有使受試者的身份被直接識別或通過與其相關的識別物識別的信息,屬于免除倫理審查。作為歷史性研究可免除研究對象知情同意。
表1 患者特征名稱及其含義Tab. 1 Patient features and their definition
對于處理好的樣本數(shù)據(jù),采用具有內在解釋性的模型(決策樹[20]、邏輯回歸[21])以及不可解釋的集成模型[隨機森林[22],XGBoost[23],輕量梯度提升機(light gradient boosting machine,LightGBM)[15]]來構建膿毒血癥死亡風險預測模型,并對不同模型預測性能進行比較。本文算法使用Python(version 3.8)編程語言基于sklearn(version 1.1.0)機器學習工具包實現(xiàn)。模型評價采用十折交叉驗證得到的準確性(accuracy)、靈敏度(sensitivity)、特異度(specificity)、受試者工作特征曲線下面積(area under curve,AUC)等指標(表2)。相對而言,與具有內在可解釋性的機器學習方法(邏輯回歸模型, 決策樹模型的AUC值分別為0.78,0.79)相比,解釋性較差的集成模型預測性能更好,其中性能最好的是利用LightGBM構建的預測模型(AUC值為0.91),詳見圖2。
圖2 算法模型性能對比Fig.2 Algorithm performance comparison
表2 模型預測性能對比Tab. 2 Comparison of model prediction performance (%)
對預測性能最好的LightGBM模型,分別利用四種全局可解釋性技術(特征重要性、部分依賴圖、個體條件期望、全局代理模型)和兩種局部解釋技術(LIME和Shapley值)對預測結果進行解釋。
3.2.1 全局可解釋技術
1)特征重要性
圖 3顯示了所有輸入特征在膿毒血癥死亡風險預測中的置換特征重要性排名[24]。如圖所示,醫(yī)院住院時長是影響膿毒血癥患者死亡風險最重要的特征,其次是重癥監(jiān)護室看護時間。Charlson合并癥指數(shù)、最大排尿量[25]、服用抗生素藥物數(shù)量等也是比較重要的影響因素。
2)部分依賴圖和個體條件期望圖
選取特征重要性靠前的四個特征進行分析。圖4顯示了重要特征的部分依賴圖和個體條件期望圖,黃線顯示了住院時間、ICU住院時間、Charlson合并癥指數(shù)、最大排尿量對膿毒血癥死亡風險概率的部分依賴圖。圖4中藍線顯示的是該特征個體死亡風險概率的條件期望圖(本實驗隨機挑選50個樣本展示)。圖4A顯示住院時間的特征部分依賴圖可以看出,在總住院時長為20 d以內時,隨著住院時長的增加,膿毒血癥的死亡風險從0.8降低到0.25,然后處于穩(wěn)定狀態(tài)。圖4B顯示ICU住院時長的部分依賴圖呈現(xiàn)出相反的趨勢,在ICU住院時長15 d內,膿毒
圖4 重要特征的部分依賴圖和個體條件期望Fig.4 Partial dependence plots for the highly ranked features
血癥的死亡風險增加,之后保持平穩(wěn)。圖4C顯示日最大排尿量在2 000 mL之內時,表現(xiàn)出隨著最大排尿量增加,患者死亡風險降低的趨勢。圖4D顯示代表合并癥評分的Charlson合并癥指數(shù),在10分以內也表現(xiàn)出增加死亡風險的趨勢。
3)全局代理模型
使用原始數(shù)據(jù)集訓練具有內在解釋性的決策樹模型,以LightGBM模型的預測結果作為該模型的結局。本研究通過設置決策樹模型的深度參數(shù)(在一定程度上反映了決策的復雜度)來評價不同深度條件下決策樹模型對LightGBM模型的擬合能力。結果顯示(表3),隨著決策樹深度的增加,代理模型的預測能力不斷增加,但達到一定深度后擬合能力不再提升。
表3 代理模型復雜度和與被代理模型相似性的關系Tab. 3 The relationship between global surrogate model complexity and interpretability
3.2.2 局部可解釋技術
由于LIME和Shapley值解釋器是基于實例的解釋器,因此在下文中,基于從測試數(shù)據(jù)集中隨機選擇的兩個實例來評估這兩個解釋器。展示兩個已被預測模型正確預測的實例,一個來自正確預測為死亡高風險(true positive)組的實例,另一個實例來自正確預測為死亡的低風險(true negative)組。
正確預測的真陽性案例的描述如下:ICU住院時長=14.33 d,普通住院時長=14.42 d,最大尿量=558 mL,通氣狀態(tài)等級=4,服用抗生素數(shù)量=13,最大吸入量=5。圖5A顯示了利用LIME對該實例的解釋,綠色的特征表示該特征支持預測結果為陽性即死亡,紅色的特征表示該特征不支持預測為死亡。該實例中ICU住院時長大于7.56 d,排尿量小于905 mL,通氣狀態(tài)為4,抗生素使用量大于8種,最大吸入量大于1.7,這些特征值會增加死亡概率。圖5B顯示了利用Shaply值對該病例的解釋,也提示該病例的ICU住院天數(shù)、最大排尿量、最大吸入量、抗生素使用數(shù)量等特征增加了該病例的死亡風險。并且兩個解釋器都認為該病例的住院時長特征不支持預測為死亡。
正確預測的真陰性案例:用LIME解釋時,該實例的描述如下:ICU住院時長=1.5 d,最高體溫=36.67 ℃,最大尿量=2 585 mL,通氣狀態(tài)等級=4,最大呼吸頻率=24,Charlson合并癥指數(shù)=5。圖5C顯示了利用LIME對該實例的解釋,ICU住院時長、最大排尿量、呼吸頻率、Charlson合并癥指數(shù)等特征支持預測死亡風險低。圖5D顯示了利用Shaply值對該病例的解釋,也提示這些特征支持預測結局為低風險。
圖5 模型正確預測案例基于局部可解釋性的可視化解釋Fig.5 Local interpretable of the model’s correct prediction cases
總結兩類模型解釋方法可以得出:從基于LightGBM的膿毒血癥死亡風險預測模型的全局模型解釋分析中可以看出,住院天數(shù)、ICU住院天數(shù)、Charlson合并癥指數(shù)、最大排尿量、抗生素使用數(shù)量等是對模型預測結果比較重要的特征。依據(jù)部分依賴圖和個體期望可以進一步分析出患者的死亡風險隨著不同特征的具體變化趨勢而變化。例如,ICU住院時長越長、查爾斯死亡指數(shù)越高,死亡風險也越高;隨著個體日最大排尿量的增加、住院天數(shù)的增加,死亡風險降低。局部可解釋性技術則可以從樣本級別給出個體死亡風險預測的詳細解釋。
全局解釋方法可以使臨床醫(yī)生了解在整個特征空間內模型的響應趨勢。相比之下,局部解釋方法可以對特定個體進行基于特征的決策解釋。在實踐中,這兩種方法都可以協(xié)助臨床醫(yī)生進行醫(yī)療過程的有效決策。
本文討論了現(xiàn)在臨床環(huán)境中使用的機器學習方法的解釋性,根據(jù)是否存在內在解釋性,將模型分為具有內在解釋性的模型(事前解釋性)和解釋性差的事后模型。并以膿毒血癥患者死亡風險研究作為研究實例比較不同類型的機器學習方法的預測性能,復雜集成模型擁有較高的預測性能,但是解釋性較差,然后使用機器學習解釋方法分別對模型進行基于人群和個體的解釋。
理解機器學習的工作原理,研究透明的、可解釋且可證明的機器學習技術有助于推動其在各領域的擴展應用。雖然目前的解釋方法可以在人群和個體層面上對機器學習模型的預測結局進行分析解釋,但是解釋結果依然不夠清晰,并且存在因為模型是基于特定人群訓練產生,在模型遷移能力方面往往受限于訓練人群?,F(xiàn)有的解釋方法的決策依據(jù)多為統(tǒng)計學方法,依賴對機器學習模型的結果再分析解讀,缺乏結合具體臨床意義進行推理的解釋方法。隨著因果推斷技術的發(fā)展,該技術被用于臨床數(shù)據(jù)分析,可以提高決策可解釋性[26]。并且基于圖神經網絡的機器學習方法在臨床結構化數(shù)據(jù)分析中的應用,提供了基于領域知識圖譜進行機器學習方法解釋的可能性。
利益沖突所有作者均聲明不存在利益沖突。
作者貢獻聲明楊豐春:負責研究設計,數(shù)據(jù)獲取與分析,論文撰寫;鄭思:負責算法設計、論文撰寫與修改;李姣:負責研究設計,研究方案實施,論文撰寫與修改。