陶麗, 王純青, 張自力, 陳波
1.西南大學 計算機與信息科學學院,重慶 400715;2.重慶醫(yī)科大學 附屬第一醫(yī)院,重慶 400700
隨著信息技術的發(fā)展,包括醫(yī)療在內的眾多行業(yè)涉及到對高維稀疏數據的學習和處理.比如,醫(yī)院住院病人病案首頁數據中包含大量的合并癥、并發(fā)癥數據,如何基于這些高維、稀疏的癥狀信息對病人病情嚴重程度進行評估從而實現住院費用預測,是當前我國能否成功推行以疾病診斷相關分組(diagnosis related groups,DRGs)為核心的付費制度面臨的關鍵問題.
通過數據特征提取(feature extraction)實現特征降維、獲得信息含量更加豐富的新特征是有效處理高維稀疏數據,提升特征利用效能的重要手段.在特征工程中,主成分分析(principal components analysis,PCA)[1]及其變種[2-11]是提取高維稀疏數據的主要信息或生成與目標相關性更高信息的主要方法.但是作為無監(jiān)督的特征提取方法,主成分分析難以將提取的新特征與問題目標相關聯,且降維后的新特征對于單個樣本缺少可解釋性,不太適用于本文例示的應用問題.線性判別分析(linear discriminant analysis,LDA)和核線性判別分析(kernel LDA)[12-13]也是處理結構化高維稀疏數據的常用方法.這類方法通過將數據投影到具有最佳分類性能的方向,實現數據降維.但是,這類方法適用于二分類或者多分類問題,不太適用于因變量為連續(xù)型(如住院費用)的特征提取.
本文受醫(yī)療管理領域的病例臨床復雜度(episode clinical complexity,ECC)模型[14]啟發(fā),提出了一種基于迭代校正的高維稀疏特征提取方法.ECC模型是澳大利亞學者提出的根據病例診斷情況和個體特征構建治療復雜程度新特征的方法[15].現有ECC模型在提取病例診斷復雜水平這一特征時,主要考慮了不同特征數(即不同診斷數目)對結果(即病例診治費用)產生的影響,但對特征類型(即診斷類型)對結果的影響考慮不充分.本文提出的基于迭代校正的ECC改進模型(iteration-based ECC,IECC)可以在因變量的監(jiān)督之下構建能夠同時體現特征數目和特征類型差異的新特征.將IECC模型應用于重慶某大型三甲醫(yī)院2015-2019年呼吸系統和循環(huán)系統病案首頁數據的實驗分析結果表明,本文所提方法得到的病人病情復雜程度的新特征與病人住院花費具有更強的相關性,說明IECC模型是一種適用于解決類似高維稀疏數據特征提取的有效方法.
主成分分析(PCA)[1-6]能夠把高維變量進行降維處理,從而實現主要特征提取.但實驗結果同時表明,數據稀疏程度會對主成分分析這類方法的特征提取性能造成較大影響[8].
針對這一問題,一些研究者提出了面向稀疏數據的PCA算法[9-11].但是PCA族群的算法均屬于無監(jiān)督的特征提取方法,在特征提取過程中難以將提取的新特征與問題目標相關聯,得到的新特征也缺乏可解釋性,在現實應用中具有一定局限.
線性判別分析(LDA)[12]是另一類常用的有監(jiān)督特征提取方法.文獻[13]提出的核線性判別分析方法可通過計算特征空間內積將數據從高維映射到低維子空間,但這種方法存在計算開銷巨大的弊端.同時,線性判別分析這類方法主要適用于二分類或者多分類問題,當目標類別具有非正態(tài)或多峰混合分布時,或者數據具有高維特征時,該方法表現不佳[16].
病例臨床復雜度模型ECC是澳大利亞評估患者診療復雜程度的一種常用方法[14].該模型從醫(yī)療資源消耗角度,以住院費用為監(jiān)督,基于病例的合并癥、并發(fā)癥情況對其病情復雜程度進行度量.度量算法的核心步驟包括:① 建立合并癥、并發(fā)癥數目與住院費用的關系模型;② 通過測算有無某診斷時費用的相對變化測算該診斷的費用貢獻,從而獲得每個診斷的復雜程度(diagnosis complexity levels,DCL);③ 基于診斷復雜程度(DCL),綜合某病例的所有診斷,得到該病例的臨床復雜度評分(episode clinical complexity score,ECCS).
目前,雖然ECC模型已得到廣泛應用,但是,ECC模型在度量病例診斷復雜水平時,主要考慮了病例的診斷數目對住院費用產生的影響,但對相同診斷數下不同診斷類型對住院費用的影響考慮不充分,有待進一步改進.因此,本文提出基于迭代校正的病例臨床復雜度改進模型(iteration-based ECC,IECC),通過在費用估計和診斷復雜程度的度量過程中考慮診斷類型的影響,使得臨床復雜度評分ECCS能夠更好地反映資源消耗差異.
基于迭代校正的病例臨床復雜度改進模型(IECC)主要包含3個步驟.
步驟1:住院費用與診斷數目關系模型學習
由于醫(yī)療資源消耗與診斷數目在臨床中不符合線性關系,因此,模型沿用原ECC模型假設,采用如下非線性函數學習住院費用與診斷數目的關系:
其中:A表示ADRG組別,Ci(A)表示在組別A中診斷數目為i項的住院費用預測值;aA(aA>0)是組別A的基準費用系數;bA(bA≥1)是變異系數,表示組別A中增加1個診斷后費用的相對變化;r(0 步驟2:基于迭代校正的診斷復雜程度DCL估計 根據住院費用與診斷數目關系模型計算診斷x在A中的相對費用C(x;A): 其中:Ei(x;A)表示A內含有診斷x且診斷數為i的病例集合;|Ei(x;A)|表示Ei(x;A)集合的病例總數;Ci(x;A)表示在組別A診斷數為i的病例中診斷x對住院費用變化的相對貢獻, 這里c(p)是集合Ei(x;A)中某一病例p的住院費用. 據此,可計算每個診斷x的診斷復雜程度: 現進一步考慮診斷類型對住院費用的影響.定義Cost(p,x)為病例p在未增加診斷x前的預測費用: 其中:n表示病例p的診斷總數;di表示病例p除診斷x外其他診斷按照DCL降序排序后排名第i的診斷. 診斷x的相對費用C(x;A)可采用Cost(p,x)進行修正: 修正后的診斷x的相對費用貢獻可用于再次計算該診斷的復雜程度DCL,而再次計算后的DCL又可進一步修正診斷x的相對費用貢獻,此過程將不斷迭代,直到迭代次數達到閾值上限I或者相鄰兩次迭代后的DCL差值小于閾值θ為止,即 DCLi(x;A)-DCLi-1(x;A)<θ 步驟3:病例臨床復雜度評分ECCS計算 基于各診斷復雜程度DCL,采用原ECC模型中對病例臨床復雜度評分的計算公式,可得病例p的臨床復雜度評分ECCS.ECCS的計算公式如下: 為驗證本文所提方法的有效性,本文基于真實病案首頁數據,將本文所提改進模型與經典ECC模型進行對比實驗.驗證方式是分別基于兩個模型得到的住院病例預測費用與實際費用進行Pearson相關性分析[7],如果相關性越高,說明某個模型所構建的病例復雜程度評分越能夠反映資源消耗程度. 本文使用的數據來自重慶某大型三甲醫(yī)院.該數據集包含2015-2019年該醫(yī)院呼吸系統和循環(huán)系統的病案首頁數據,經過異常數據剔除等數據預處理后,共獲得呼吸系統13個ADRG組(后文用E1-E13標識呼吸系統ADRG組類別)數據38 003條,循環(huán)系統19個ADRG組(后文用F1-F19標識循環(huán)系統ADRG組類別)數據66 482條.本文所用數據集的基本統計特征見圖1和圖2.如圖1所示,大多數的病例同時存在多種診斷類型.如圖2所示,同一大類疾病的每個ADRG組之間,其診斷類型數目存在較大差異. 圖1 數據集中病例數與診斷數目分布情況 圖2 數據集中各ADRG組別的診斷類型數差異 基于IECC模型和ECC模型的預測費用與實際費用的相關性分析結果如表1所示.結果表明,IECC模型預測費用與實際費用相關性在除“其他呼吸系統疾患”以外的所有ADRG組別都有不同程度的提升,這說明基于迭代校正思想同時考慮診斷類型和數目的IECC模型能夠基于高維稀疏病例數據更好提取病例診斷復雜程度. 表1 IECC模型與ECC模型的對比分析結果 本文以住院病人診治復雜程度估計為應用背景,提出了一種針對高維稀疏數據、基于迭代校正思想的特征提取方法.基于真實病案首頁數據的對比驗證實驗表明,基于IECC模型所預測的住院費用與真實費用的相關性與ECC模型相比有明顯提升,說明基于IECC模型提取的病例臨床復雜度評分這一新特征能夠更好地反映病例資源消耗程度,即本文所提模型具有有效性.本文所提IECC方法可為DRGs的成功實施提供有力支持,還可廣泛應用于考慮資源消耗的手術術式度量等眾多應用問題,具有較大的現實應用價值.3 實驗及結果
3.1 數據集
3.2 實驗結果
4 總結